|
|
发表于 2009-1-20 13:01:53
|
显示全部楼层
不太清楚意图。。就我知道的几种常见的格式(以指定十六进制开始的):
ef bb bf 开始的表示 utf8
FE FF/FF FE 表示小头/大头 utf16,M$混淆为 ucs-2(大头在m$网络文档又混淆为网络字节序,死也不肯招是unix序)
ff fe 00 00/00 00 ff fe 则分别表示 utf32 小头/大头
通常程序只能检测local码跟utf码,也就是说通常识别gbk 或 utf,而无法区别gbk shift-jis 这样的编码,硬要实现则必须进行全文编码识别(搜索所有文字的字节表示的范围属于哪个local)。
update: - 也就是说通常识别gbk 或 utf,而无法区别gbk shift-jis 这样的编码
复制代码 意思是说- 也就是说通常识别gbk/shift-jis 还是 utf,而无法区别gbk 还是 shift-jis 这样的编码,换句话说,区别是ascii、utf、非utf 的local编码 三种,而非utf的local 要再细化成gbk/shift-jis 类似则需要进行全文byte上下标范围收集才可以,工作量很大
复制代码 |
|