Unicode,联盟官方中文名称为统一码,是计算机科学领域的业界标准。它整理、编码了世界上大部分的文字系统,使得电脑可以用更为简单的方式来呈现和处理文字。
例如:i like try8.cn,编码后为:
\u0069\u0020\u006c\u0069\u006b\u0065\u0020\u0074\u0072\u0079\u0038\u002e\u0063\u006e
我们可以看到,字符串经过编码后,每一个字符都带有\u标记。
统一码的编码方式与ISO的通用字符集概念相对应。目前实际应用的统一码版本对应于UCS-2,使用16位的编码空间。也就是每个字符占用2个字节。基本的字符编码为U+hhhh,其中每个h代表一个十六进制数字,与UCS-2编码完全相同。而其对应的4字节UCS-4编码后两个字节一致,前两个字节则所有位均为0。
在实际传输过程中,由于不同系统平台的设计不一定一致,以及出于节省空间的目的,对编码的实现方式有所不同。Unicode的实现方式称为Unicode转换格式(Unicode Transformation Format,简称为UTF)。例如UTF-8,UTF-16,中文系统则为GB2312或Big5编码,目前最为主流的编码实现方式为UTF-8。
Unicode编码/解码在线工具,主要用于对文本字符串进行unicode编码和unicode解码,支持文件上传和下载。