小西编码一键转换

小西编码一键转换

大小:10K

更新时间:24-02-03

系统:Pc

版本:v1.0

开始下载

小西编码一键转换官方版是由吾爱网友推荐分享的一款绿色免费,功能实用的编码一键转换工具。它的功能非常的直接,能够将字符在汉字、GBK、UTF-8、Unicode等常见字符之间相互转换。如果我们在工作中遇到乱码的现象,或者换行失效的问题,一般都是文本编码惹的祸,不同的字符编码是不能完全兼容的,比如国内常用的是GBK、GBxxxx等编码,而国际上流行的UTF-8及UNICODE编码。通过小西编码一键转换能够解决编码问题,支持自动转换,打开即用,可以说是非常的方便实用,有需求的用户请下载使用!

功能特色

1、对汉字、GBK、UTF-8、Unicode等编码的文件自动识别并按要求互相转换

2、对DOS格式、UNIX格式、MAC格式的文本自动识别并互相转换

3、对中文简繁体及台湾BIG5编码互相转换(需要指定源、目的编码格式)

4、支持文件及文件夹操作,支持鼠标拖拽

5、完全绿色软件,直接使用不需安装

常见字符集编码

1、ASCII

ASCII码是7位编码,编码范围是0x00-0x7F。ASCII字符集包括英文字母、阿拉伯数字和标点符号等字符。其中0x00-0x1F和0x7F共33个控制字符。

只支持ASCII码的系统会忽略每个字节的最高位,只认为低7位是有效位。HZ字符编码就是早期为了在只支持7位ASCII系统中传输中文而设计的编码。早期很多邮件系统也只支持ASCII编码,为了传输中文邮件必须使用BASE64或者其他编码方式。

2、GBK

GBK编码是GB2312编码的超集,向下完全兼容GB2312,同时GBK收录了Unicode基本多文种平面中的所有CJK汉字。同 GB2312一样,GBK也支持希腊字母、日文假名字母、俄语字母等字符,但不支持韩语中的表音字符(非汉字字符)。GBK还收录了GB2312不包含的 汉字部首符号、竖排标点符号等字符。

GBK的整体编码范围是为0x8140-0xFEFE,不包括低字节是0×7F的组合。高字节范围是0×81-0xFE,低字节范围是0x40-7E和0x80-0xFE。

低字节是0x40-0x7E的GBK字符有一定特殊性,因为这些字符占用了ASCII码的位置,这样会给一些系统带来麻烦。

有些系统中用0x40-0x7E中的字符(如“|”)做特殊符号,在定位这些符号时又没有判断这些符号是不是属于某个 GBK字符的低字节,这样就会造成错误判断。在支持GB2312的环境下就不存在这个问题。需要注意的是支持GBK的环境中小于0x80的某个字节未必就 是ASCII符号;另外就是最好选用小于0×40的ASCII符号做一些特殊符号,这样就可以快速定位,且不用担心是某个汉字的另一半。Big5编码中也存在相应问题。

CP936和GBK的有些许差别,绝大多数情况下可以把CP936当作GBK的别名。

3、BIG5

Big5是双字节编码,高字节编码范围是0x81-0xFE,低字节编码范围是0x40-0x7E和0xA1-0xFE。和GBK相比,少了低字节是0x80-0xA0的组合。0x8140-0xA0FE是保留区域,用于用户造字区。

Big5收录的汉字只包括繁体汉字,不包括简体汉字,一些生僻的汉字也没有收录。GBK收录的日文假名字符、俄文字符Big5也没有收录。因为Big5当中收录的字符有限,因此有很多在Big5基础上扩展的编码,如倚天中文系统。Windows系统上使用的代码页CP950也可以理解为是对Big5的扩展,在Big5的基础上增加了7个汉字和一些符号。Big5编码对应的字符集是GBK字符集的子集,也就是说Big5收录的字符是GBK收录字符的一部分,但相同字符的编码不同。

因为Big5也占用了ASCII的编码空间(低字节所使用的0x40-0x7E),所以Big5编码在一些环境下存在和GBK编码相同的问题,即低字节范围为0x40-0x7E的字符有可能会被误处理,尤其是低字节是0x5C("/")和0x7C("|")的字符。可以参考GBK一节相应说明。

尽管有些区别,大多数情况下可以把CP950当作Big5的别名。

4、UTF-8

UTF-8是UCS字符集的另一种编码方式,UTF-16的每个单元是两个字节(16位),而UTF-8的每个单元是一个字节(8位)。UTF-16中用一个或两个双字节表示一个字符,UTF-8中用一个或几个单字节表示一个字符。

可以认为UTF-8编码是根据一定规律从UCS-2转换得到的,从UCS-2到UTF-8之间有以下转换关系:

UCS-2 UTF-8

U+0000 - U+007F 0xxxxxxx

U+0080 - U+07FF 110xxxxx 10xxxxxx

U+0800 - U+FFFF 1110xxxx 10xxxxxx 10xxxxxx

例如“啊”字的UCS-2编码是0x554A,对应的二进制是0101 0101 0100 1010,转成UTF-8编码之后的二进制是1110 0101 10 010101 10 001010,对应的十六进制是0xE5958A。

UCS-4也是一种UCS字符集的编码方式,是使用4个字节的等宽编码,可以用UCS-4来表示BMP之外的辅助面字符。UCS-2中每两个字节前再加上0x0000就得到了BMP字符的UCS-4编码。从UCS-4到UTF-8也存在转换关系,根据这种转换关系,UTF-8最多可以使用六个字节来编码UCS-4。

根据UTF-8的生成规律和UCS字符集的特性,可以看到UTF-8具有的特性:

UTF-8完全和ASCII兼容,也就是说ASCII对应的字符在UTF-8中和ASCII编码完全一致。范围在0x00-0x7F之内的字符一定是ASCII字符,不可能是其他字符的一部分。GBK和Big5都存在的缺陷在UTF-8中是不存在的。

大于U+007F的UCS字符,在UTF-8编码中至少是两个字节。

UTF-8中的每个字符编码的首字节总在0x00-0xFD之间(不考虑UCS-4支持的情况,首字节在0x00-0xEF之间)。根据首字节就可以判断之后连续几个字节。

非首字节的其他字节都在0x80-0xBF之间;0xFE和0xFF在UTF-8中没有被用到。

GBK编码中的汉字字符都在UCS-2中的范围都在U+0800 - U+FFFF之间,所以每个GBK编码中的汉字字符的UTF-8编码都是3个字节。但GBK中包含的其他字符的UTF-8编码就不一定是3个字节了,如GBK中的俄文字符。

在UTF-8的编码的传输过程中即使丢掉一个字节,根据编码规律也很容易定位丢掉的位置,不会影响到其他字符。在其他双字节编码中,一旦损失一个字节,就会影响到此字节之后的所有字符。从这点可以看出UTF-8编码非常适合作为传输编码。

展开全部内容
语言简体中文

同类热门

Solid Converter PDF v9官方版Solid Converter PDF v9官方版 文字转语音助手文字转语音助手 智安PDF转换大师软件智安PDF转换大师软件 视频批量转换与水印工具视频批量转换与水印工具 PDFdu PDF Converter(pdf转换器)PDFdu PDF Converter(pdf转换器) 北斗PDF转换器官方版北斗PDF转换器官方版 pdf to html converter(pdf转html转换器)pdf to html converter(pdf转html转换器) xnconvert图片转换器xnconvert图片转换器

类似软件

热门标签

出纳软件大全 操盘手炒股软件大全 android开发工具 进销存管理软件 flv播放器大全 html5网页制作软件 少儿编程软件大全 电脑记账软件大全 天正软件(结构/暖通/电气/给排水/建筑)) 文献管理软件大全 系统dll文件修复工具 电脑蓝牙驱动软件

网友评论0人参与,0条评论

评论需审核后才能显示

最新排行

手游排行软件排行热门应用