unicode编码对照表

Unicode编码是一种将所有文字转换为可移植格式的编码方式,可以使文字在不同系统和应用程序中进行交换。Unicode字符集中包含了中、日、韩等多种文字,其中中文文本转换为统一编码格式后,可以在不同的计算机系统中进行传输和处理。

Unicode字符表是一个带有转义序列和HTML代码的字符符号表,可以通过鼠标单击字符来获取其代码。 Unicode字符集中0x3000到0x9FFF的部分被中、日、韩三种文字占用,目前普遍采用的是UCS-2,即用两个字节来编码一个字符。例如,汉字“经”的编码是0x7ECF,通常用十六进制来表示。

对于中文字符“中”,其Unicode码为0x4E2D,转换成二进制后共有16个二进制位。通过前面的Unicode编码和UTF-8编码的表格可知,Unicode码0x4E2D对应000800-00FFFF的范围,因此“中”字的UTF-8编码需要3个字节,即格式是11100100 10111000 10101101。

Unicode字符集中的代理区包含了第1——16平面的间接表示,即四个字节的汉字在此进行表示。代理区有两个部分:D800-DBFF是UTF-16的High-half区,DC00-DFFF是UTF-16的Low-half区。常用汉字共有27973个,而剩余的汉字则使用代理区标识。

In summary, Unicode encoding is a way to convert all text into a portable format so that it can be exchanged between different computer systems and applications. The Unicode character set contains multiple languages, including Chinese, Japanese, and Korean. The Unicode character table includes a list of characters with their corresponding codes. Chinese characters are represented by a unique Unicode code, such as 0x4E2D for the character "中". The UTF-8 encoding format is widely used for Unicode characters, and it uses 3 bytes to encode the character "中". The Unicode encoding table also includes a proxy area that represents four-byte Chinese characters.