深入分析 Java 中的中文编码问题Word下载.docx
- 文档编号:19427711
- 上传时间:2023-01-06
- 格式:DOCX
- 页数:21
- 大小:259.92KB
深入分析 Java 中的中文编码问题Word下载.docx
《深入分析 Java 中的中文编码问题Word下载.docx》由会员分享,可在线阅读,更多相关《深入分析 Java 中的中文编码问题Word下载.docx(21页珍藏版)》请在冰豆网上搜索。
如何“翻译”
明白了各种语言需要交流,经过翻译是必要的,那又如何来翻译呢?
计算中提拱了多种翻译方式,常见的有ASCII、ISO-8859-1、GB2312、GBK、UTF-8、UTF-16等。
它们都可以被看作为字典,它们规定了转化的规则,按照这个规则就可以让计算机正确的表示我们的字符。
目前的编码格式很多,例如GB2312、GBK、UTF-8、UTF-16这几种格式都可以表示一个汉字,那我们到底选择哪种编码格式来存储汉字呢?
这就要考虑到其它因素了,是存储空间重要还是编码的效率重要。
根据这些因素来正确选择编码格式,下面简要介绍一下这几种编码格式。
∙ASCII码
学过计算机的人都知道ASCII码,总共有128个,用一个字节的低7位表示,0~31是控制字符如换行回车删除等;
32~126是打印字符,可以通过键盘输入并且能够显示出来。
∙ISO-8859-1
128个字符显然是不够用的,于是ISO组织在ASCII码基础上又制定了一些列标准用来扩展ASCII编码,它们是ISO-8859-1~ISO-8859-15,其中ISO-8859-1涵盖了大多数西欧语言字符,所有应用的最广泛。
ISO-8859-1仍然是单字节编码,它总共能表示256个字符。
∙GB2312
它的全称是《信息交换用汉字编码字符集基本集》,它是双字节编码,总的编码范围是A1-F7,其中从A1-A9是符号区,总共包含682个符号,从B0-F7是汉字区,包含6763个汉字。
∙GBK
全称叫《汉字内码扩展规范》,是国家技术监督局为windows95所制定的新的汉字内码规范,它的出现是为了扩展GB2312,加入更多的汉字,它的编码范围是8140~FEFE(去掉XX7F)总共有23940个码位,它能表示21003个汉字,它的编码是和GB2312兼容的,也就是说用GB2312编码的汉字可以用GBK来解码,并且不会有乱码。
∙GB18030
全称是《信息交换用汉字编码字符集》,是我国的强制标准,它可能是单字节、双字节或者四字节编码,它的编码与GB2312编码兼容,这个虽然是国家标准,但是实际应用系统中使用的并不广泛。
∙UTF-16
说到UTF必须要提到Unicode(UniversalCode统一码),ISO试图想创建一个全新的超语言字典,世界上所有的语言都可以通过这本字典来相互翻译。
可想而知这个字典是多么的复杂,关于Unicode的详细规范可以参考相应文档。
Unicode是Java和XML的基础,下面详细介绍Unicode在计算机中的存储形式。
UTF-16具体定义了Unicode字符在计算机中存取方法。
UTF-16用两个字节来表示Unicode转化格式,这个是定长的表示方法,不论什么字符都可以用两个字节表示,两个字节是16个bit,所以叫UTF-16。
UTF-16表示字符非常方便,每两个字节表示一个字符,这个在字符串操作时就大大简化了操作,这也是Java以UTF-16作为内存的字符存储格式的一个很重要的原因。
∙UTF-8
UTF-16统一采用两个字节表示一个字符,虽然在表示上非常简单方便,但是也有其缺点,有很大一部分字符用一个字节就可以表示的现在要两个字节表示,存储空间放大了一倍,在现在的网络带宽还非常有限的今天,这样会增大网络传输的流量,而且也没必要。
而UTF-8采用了一种变长技术,每个编码区域有不同的字码长度。
不同类型的字符可以是由1~6个字节组成。
UTF-8有以下编码规则:
1.如果一个字节,最高位(第8位)为0,表示这是一个ASCII字符(00-7F)。
可见,所有ASCII编码已经是UTF-8了。
2.如果一个字节,以11开头,连续的1的个数暗示这个字符的字节数,例如:
110xxxxx代表它是双字节UTF-8字符的首字节。
3.如果一个字节,以10开始,表示它不是首字节,需要向前查找才能得到当前字符的首字节
Java中需要编码的场景
前面描述了常见的几种编码格式,下面将介绍Java中如何处理对编码的支持,什么场合中需要编码。
I/O操作中存在的编码
我们知道涉及到编码的地方一般都在字符到字节或者字节到字符的转换上,而需要这种转换的场景主要是在I/O的时候,这个I/O包括磁盘I/O和网络I/O,关于网络I/O部分在后面将主要以Web应用为例介绍。
下图是Java中处理I/O问题的接口:
Reader类是Java的I/O中读字符的父类,而InputStream类是读字节的父类,InputStreamReader类就是关联字节到字符的桥梁,它负责在I/O过程中处理读取字节到字符的转换,而具体字节到字符的解码实现它由StreamDecoder去实现,在StreamDecoder解码过程中必须由用户指定Charset编码格式。
值得注意的是如果你没有指定Charset,将使用本地环境中的默认字符集,例如在中文环境中将使用GBK编码。
写的情况也是类似,字符的父类是Writer,字节的父类是OutputStream,通过OutputStreamWriter转换字符到字节。
如下图所示:
同样StreamEncoder类负责将字符编码成字节,编码格式和默认编码规则与解码是一致的。
如下面一段代码,实现了文件的读写功能:
清单1.I/O涉及的编码示例
Stringfile="
c:
/stream.txt"
;
Stringcharset="
UTF-8"
//写字符换转成字节流
FileOutputStreamoutputStream=newFileOutputStream(file);
OutputStreamWriterwriter=newOutputStreamWriter(
outputStream,charset);
try{
writer.write("
这是要保存的中文字符"
);
}finally{
writer.close();
}
//读取字节转换成字符
FileInputStreaminputStream=newFileInputStream(file);
InputStreamReaderreader=newInputStreamReader(
inputStream,charset);
StringBufferbuffer=newStringBuffer();
char[]buf=newchar[64];
intcount=0;
while((count=reader.read(buf))!
=-1){
buffer.append(buffer,0,count);
reader.close();
在我们的应用程序中涉及到I/O操作时只要注意指定统一的编解码Charset字符集,一般不会出现乱码问题,有些应用程序如果不注意指定字符编码,中文环境中取操作系统默认编码,如果编解码都在中文环境中,通常也没问题,但是还是强烈的不建议使用操作系统的默认编码,因为这样,你的应用程序的编码格式就和运行环境绑定起来了,在跨环境下很可能出现乱码问题。
内存中操作中的编码
在Java开发中除了I/O涉及到编码外,最常用的应该就是在内存中进行字符到字节的数据类型的转换,Java中用String表示字符串,所以String类就提供转换到字节的方法,也支持将字节转换为字符串的构造函数。
如下代码示例:
Strings="
这是一段中文字符串"
byte[]b=s.getBytes("
Stringn=newString(b,"
另外一个是已经被被废弃的ByteToCharConverter和CharToByteConverter类,它们分别提供了convertAll方法可以实现byte[]和char[]的互转。
如下代码所示:
ByteToCharConvertercharConverter=ByteToCharConverter.getConverter("
charc[]=charConverter.convertAll(byteArray);
CharToByteConverterbyteConverter=CharToByteConverter.getConverter("
byte[]b=byteConverter.convertAll(c);
这两个类已经被Charset类取代,Charset提供encode与decode分别对应char[]到byte[]的编码和byte[]到char[]的解码。
Charsetcharset=Charset.forName("
ByteBufferbyteBuffer=charset.encode(string);
CharBuffercharBuffer=charset.decode(byteBuffer);
编码与解码都在一个类中完成,通过forName设置编解码字符集,这样更容易统一编码格式,比ByteToCharConverter和CharToByteConverter类更方便。
Java中还有一个ByteBuffer类,它提供一种char和byte之间的软转换,它们之间转换不需要编码与解码,只是把一个16bit的char格式,拆分成为2个8bit的byte表示,它们的实际值并没有被修改,仅仅是数据的类型做了转换。
如下代码所以:
ByteBufferheapByteBuffer=ByteBuffer.allocate(1024);
ByteBufferbyteBuffer=heapByteBuffer.putChar(c);
以上这些提供字符和字节之间的相互转换只要我们设置编解码格式统一一般都不会出现问题。
Java中如何编解码
前面介绍了几种常见的编码格式,这里将以实际例子介绍Java中如何实现编码及解码,下面我们以“Iam君山”这个字符串为例介绍Java中如何把它以ISO-8859-1、GB2312、GBK、UTF-16、UTF-8编码格式进行编码的。
清单2.String编码
publicstaticvoidencode(){
Stringname="
Iam君山"
toHex(name.toCharArray());
byte[]iso8859=name.getBytes("
ISO-8859-1"
toHex(iso8859);
byte[]gb2312=name.getBytes("
GB2312"
toHex(gb2312);
byte[]gbk=name.getBytes("
GBK"
toHex(gbk);
byte[]utf16=name.getBytes("
UTF-16"
toHex(utf16);
byte[]utf8=name.getBytes("
toHex(utf8);
}catch(UnsupportedEncodingExceptione){
e.printStackTrace();
我们把name字符串按照前面说的几种编码格式进行编码转化成byte数组,然后以16进制输出,我们先看一下Java是如何进行编码的。
下面是Java中编码需要用到的类图
图1.Java编码类图
首先根据指定的charsetName通过Charset.forName(charsetName)设置Charset类,然后根据Charset创建CharsetEncoder对象,再调用CharsetEncoder.encode对字符串进行编码,不同的编码类型都会对应到一个类中,实际的编码过程是在这些类中完成的。
下面是String.getBytes(charsetName)编码过程的时序图
图2.Java编码时序图
从上图可以看出根据charsetName找到Charset类,然后根据这个字符集编码生成CharsetEncoder,这个类是所有字符编码的父类,针对不同的字符编码集在其子类中定义了如何实现编码,有了CharsetEncoder对象后就可以调用encode方法去实现编码了。
这个是String.getBytes编码方法,其它的如StreamEncoder中也是类似的方式。
下面看看不同的字符集是如何将前面的字符串编码成byte数组的?
如字符串“Iam君山”的char数组为4920616d20541b5c71,下面把它按照不同的编码格式转化成相应的字节。
按照ISO-8859-1编码
字符串“Iam君山”用ISO-8859-1编码,下面是编码结果:
从上图看出7个char字符经过ISO-8859-1编码转变成7个byte数组,ISO-8859-1是单字节编码,中文“君山”被转化成值是3f的byte。
3f也就是“?
”字符,所以经常会出现中文变成“?
”很可能就是错误的使用了ISO-8859-1这个编码导致的。
中文字符经过ISO-8859-1编码会丢失信息,通常我们称之为“黑洞”,它会把不认识的字符吸收掉。
由于现在大部分基础的Java框架或系统默认的字符集编码都是ISO-8859-1,所以很容易出现乱码问题,后面将会分析不同的乱码形式是怎么出现的。
按照GB2312编码
字符串“Iam君山”用GB2312编码,下面是编码结果:
GB2312对应的Charset是sun.nio.cs.ext.EUC_CN而对应的CharsetDecoder编码类是sun.nio.cs.ext.DoubleByte,GB2312字符集有一个char到byte的码表,不同的字符编码就是查这个码表找到与每个字符的对应的字节,然后拼装成byte数组。
查表的规则如下:
c2b[c2bIndex[char>
>
8]+(char&
0xff)]
如果查到的码位值大于oxff则是双字节,否则是单字节。
双字节高8位作为第一个字节,低8位作为第二个字节,如下代码所示:
if(bb>
0xff){//DoubleByte
if(dl-dp<
2)
returnCoderResult.OVERFLOW;
da[dp++]=(byte)(bb>
8);
da[dp++]=(byte)bb;
}else{//SingleByte
1)
}
从上图可以看出前5个字符经过编码后仍然是5个字节,而汉字被编码成双字节,在第一节中介绍到GB2312只支持6763个汉字,所以并不是所有汉字都能够用GB2312编码。
按照GBK编码
字符串“Iam君山”用GBK编码,下面是编码结果:
你可能已经发现上图与GB2312编码的结果是一样的,没错GBK与GB2312编码结果是一样的,由此可以得出GBK编码是兼容GB2312编码的,它们的编码算法也是一样的。
不同的是它们的码表长度不一样,GBK包含的汉字字符更多。
所以只要是经过GB2312编码的汉字都可以用GBK进行解码,反过来则不然。
按照UTF-16编码
字符串“Iam君山”用UTF-16编码,下面是编码结果:
用UTF-16编码将char数组放大了一倍,单字节范围内的字符,在高位补0变成两个字节,中文字符也变成两个字节。
从UTF-16编码规则来看,仅仅将字符的高位和地位进行拆分变成两个字节。
特点是编码效率非常高,规则很简单,由于不同处理器对2字节处理方式不同,Big-endian(高位字节在前,低位字节在后)或Little-endian(低位字节在前,高位字节在后)编码,所以在对一串字符串进行编码是需要指明到底是Big-endian还是Little-endian,所以前面有两个字节用来保存BYTE_ORDER_MARK值,UTF-16是用定长16位(2字节)来表示的UCS-2或Unicode转换格式,通过代理对来访问BMP之外的字符编码。
按照UTF-8编码
字符串“Iam君山”用UTF-8编码,下面是编码结果:
UTF-16虽然编码效率很高,但是对单字节范围内字符也放大了一倍,这无形也浪费了存储空间,另外UTF-16采用顺序编码,不能对单个字符的编码值进行校验,如果中间的一个字符码值损坏,后面的所有码值都将受影响。
而UTF-8这些问题都不存在,UTF-8对单字节范围内字符仍然用一个字节表示,对汉字采用三个字节表示。
它的编码规则如下:
清单3.UTF-8编码代码片段
privateCoderResultencodeArrayLoop(CharBuffersrc,
ByteBufferdst){
char[]sa=src.array();
intsp=src.arrayOffset()+src.position();
intsl=src.arrayOffset()+src.limit();
byte[]da=dst.array();
intdp=dst.arrayOffset()+dst.position();
intdl=dst.arrayOffset()+dst.limit();
intdlASCII=dp+Math.min(sl-sp,dl-dp);
//ASCIIonlyloop
while(dp<
dlASCII&
&
sa[sp]<
'
\u0080'
)
da[dp++]=(byte)sa[sp++];
while(sp<
sl){
charc=sa[sp];
if(c<
0x80){
//Haveatmostsevenbits
if(dp>
=dl)
returnoverflow(src,sp,dst,dp);
da[dp++]=(byte)c;
}elseif(c<
0x800){
//2bytes,11bits
da[dp++]=(byte)(0xc0|(c>
6));
da[dp++]=(byte)(0x80|(c&
0x3f));
}elseif(Character.isSurrogate(c)){
//Haveasurrogatepair
if(sgp==null)
sgp=newSurrogate.Parser();
intuc=sgp.parse(c,sa,sp,sl);
if(uc<
0){
updatePositions(src,sp,dst,dp);
returnsgp.error();
4)
da[dp++]=(byte)(0xf0|((uc>
18)));
da[dp++]=(byte)(0x80|((uc>
12)&
6)&
da[dp++]=(byte)(0x80|(uc&
sp++;
//2chars
}else{
//3bytes,16bits
3)
da[dp++]=(byte)(0xe0|((c>
12)));
da[dp++]=(byte)(0x80|((c>
returnCoderResult.UNDERFLOW;
UTF
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 深入分析 Java 中的中文编码问题 深入 分析 中的 中文 编码 问题