如何使用 JavaScript 转换 bytearray 中的字符串。输出应等效于以下 C# 代码。
UnicodeEncoding encoding = new UnicodeEncoding();
byte[] bytes = encoding.GetBytes(AnyString);
因为 UnicodeEncoding 默认是 UTF-16 和 Little-Endianness。
编辑:我需要将字节数组生成的客户端与使用上述 C# 代码在服务器端生成的匹配。
如何使用 JavaScript 转换 bytearray 中的字符串。输出应等效于以下 C# 代码。
UnicodeEncoding encoding = new UnicodeEncoding();
byte[] bytes = encoding.GetBytes(AnyString);
因为 UnicodeEncoding 默认是 UTF-16 和 Little-Endianness。
编辑:我需要将字节数组生成的客户端与使用上述 C# 代码在服务器端生成的匹配。
如果您正在寻找适用于 node.js 的解决方案,您可以使用:
var myBuffer = [];
var str = 'Stack Overflow';
var buffer = new Buffer(str, 'utf16le');
for (var i = 0; i < buffer.length; i++) {
myBuffer.push(buffer[i]);
}
console.log(myBuffer);
在 C# 中运行这个
UnicodeEncoding encoding = new UnicodeEncoding();
byte[] bytes = encoding.GetBytes("Hello");
将创建一个数组
72,0,101,0,108,0,108,0,111,0
对于代码大于 255 的字符,它看起来像这样
如果你想在 JavaScript 中有一个非常相似的行为,你可以这样做(v2 是一个更强大的解决方案,而原始版本只适用于 0x00 ~ 0xff)
var str = "Hello竜";
var bytes = []; // char codes
var bytesv2 = []; // char codes
for (var i = 0; i < str.length; ++i) {
var code = str.charCodeAt(i);
bytes = bytes.concat([code]);
bytesv2 = bytesv2.concat([code & 0xff, code / 256 >>> 0]);
}
// 72, 101, 108, 108, 111, 31452
console.log('bytes', bytes.join(', '));
// 72, 0, 101, 0, 108, 0, 108, 0, 111, 0, 220, 122
console.log('bytesv2', bytesv2.join(', '));
2018年更新- 2018年最简单的方法应该是TextEncoder
let utf8Encode = new TextEncoder();
utf8Encode.encode("abc")
// Uint8Array [ 97, 98, 99 ]
注意事项- 返回的元素是 a Uint8Array
,并非所有浏览器都支持它。
我想 C# 和 Java 产生相等的字节数组。如果您有非 ASCII 字符,仅添加额外的 0 是不够的。我的示例包含一些特殊字符:
var str = "Hell ö € Ω 𝄞";
var bytes = [];
var charCode;
for (var i = 0; i < str.length; ++i)
{
charCode = str.charCodeAt(i);
bytes.push((charCode & 0xFF00) >> 8);
bytes.push(charCode & 0xFF);
}
alert(bytes.join(' '));
// 0 72 0 101 0 108 0 108 0 32 0 246 0 32 32 172 0 32 3 169 0 32 216 52 221 30
我不知道 C# 是否放置 BOM(字节顺序标记),但如果使用 UTF-16,JavaString.getBytes
会添加以下字节:254 255。
String s = "Hell ö € Ω ";
// now add a character outside the BMP (Basic Multilingual Plane)
// we take the violin-symbol (U+1D11E) MUSICAL SYMBOL G CLEF
s += new String(Character.toChars(0x1D11E));
// surrogate codepoints are: d834, dd1e, so one could also write "\ud834\udd1e"
byte[] bytes = s.getBytes("UTF-16");
for (byte aByte : bytes) {
System.out.print((0xFF & aByte) + " ");
}
// 254 255 0 72 0 101 0 108 0 108 0 32 0 246 0 32 32 172 0 32 3 169 0 32 216 52 221 30
编辑:
添加了一个特殊字符 (U+1D11E) MUSICAL SYMBOL G CLEF(在 BPM 之外,因此在 UTF-16 中不仅占用 2 个字节,而且占用 4 个字节。
当前的 JavaScript 版本在内部使用“UCS-2”,因此该符号占用 2 个普通字符的空间。
我不确定,但在使用charCodeAt
它时,我们似乎准确地获得了也在 UTF-16 中使用的代理代码点,因此可以正确处理非 BPM 字符。
这个问题绝对不平凡。这可能取决于使用的 JavaScript 版本和引擎。所以如果你想要可靠的解决方案,你应该看看:
JavaScript 将字符串编码为UTF-16,就像 C# 一样UnicodeEncoding
,因此字节数组应该完全匹配 using charCodeAt()
,并将每个返回的字节对拆分为 2 个单独的字节,如下所示:
function strToUtf16Bytes(str) {
const bytes = [];
for (ii = 0; ii < str.length; ii++) {
const code = str.charCodeAt(ii); // x00-xFFFF
bytes.push(code & 255, code >> 8); // low, high
}
return bytes;
}
例如:
strToUtf16Bytes('🌵');
// [ 60, 216, 53, 223 ]
但是,如果要获得 UTF-8 字节数组,则必须对字节进行转码。
该解决方案感觉有些不平凡,但我在高流量生产环境中使用了以下代码并取得了巨大成功(原始来源)。
此外,对于感兴趣的读者,我发布了我的 unicode 助手,它们帮助我处理其他语言(如 PHP)报告的字符串长度。
/**
* Convert a string to a unicode byte array
* @param {string} str
* @return {Array} of bytes
*/
export function strToUtf8Bytes(str) {
const utf8 = [];
for (let ii = 0; ii < str.length; ii++) {
let charCode = str.charCodeAt(ii);
if (charCode < 0x80) utf8.push(charCode);
else if (charCode < 0x800) {
utf8.push(0xc0 | (charCode >> 6), 0x80 | (charCode & 0x3f));
} else if (charCode < 0xd800 || charCode >= 0xe000) {
utf8.push(0xe0 | (charCode >> 12), 0x80 | ((charCode >> 6) & 0x3f), 0x80 | (charCode & 0x3f));
} else {
ii++;
// Surrogate pair:
// UTF-16 encodes 0x10000-0x10FFFF by subtracting 0x10000 and
// splitting the 20 bits of 0x0-0xFFFFF into two halves
charCode = 0x10000 + (((charCode & 0x3ff) << 10) | (str.charCodeAt(ii) & 0x3ff));
utf8.push(
0xf0 | (charCode >> 18),
0x80 | ((charCode >> 12) & 0x3f),
0x80 | ((charCode >> 6) & 0x3f),
0x80 | (charCode & 0x3f),
);
}
}
return utf8;
}