GBK与UTF-8转换时乱码

发布网友发布时间：2022-04-24 09:43

共5个回答

热心网友时间：2022-06-18 15:16

应该编码转换的时候丢失了字节,你没有发现你输入的是偶数个字的时候正常,奇数个的时候乱码,具体的字码长度我也不是很了解
String str1 = new String(str.getBytes("UTF-8"),"GBK");
System.out.println(str1.length());
String str2 = new String(str1.getBytes("GBK"),"UTF-8");
System.out.println(str2.length());); 打印出来的字符串长度就不一样的
UTF8每个汉字占用3个字节，这样在某些地方文字个数的计算就和GBK编码的不一样,UTF-8使用可变长度字节来储存 Unicode字符，例如ASCII字母继续使用1字节储存，重音文字、希腊字母或西里尔字母等使用2字节来储存，而常用的汉字就要使用3字节。辅助平面字符则使用4字节。 GB 18030标准采用单字节、双字节和四字节三种方式对字符编码。单字节部分使用0×00至0×7F码(对应于ASCII码的相应码)。双字节部分，首字节码从0×81至0×FE，尾字节码位分别是0×40至0×7E和0×80至0×FE。四字节部分采用GB/T 11383未采用的0×30到0×39作为对双字节编码扩充的后缀，这样扩充的四字节编码，其范围为0×81308130到0×FE39FE39。其中第一、三个字节编码码位均为0×81至0×FE，第二、四个字节编码码位均为0×30至0×39。
按照程序员的称呼，GB2312、GBK到GB18030都属于双字节字符集 (DBCS)。

热心网友时间：2022-06-18 15:16

如果我没记错的话，JAVA是自己用UTF－16编码的，不管系统用哪种方式编码。
如果你新建一个字符串，然后用UTF-8读显然是错的，你把那两句改成
String str1 = new String(str.getBytes("UTF-16"),"GBK");
String str2 = new String(str1.getBytes("GBK"),"UTF-16");
这样结果是
>>>>>可怜
=====?可怜
因为UTF-16每个汉字占的字节数和GBK不同（具体是多少我忘了）
所以读出来是？可怜

热心网友时间：2022-06-18 15:17

但是大家想过没有。我们在向tomcat请求时，假如我们jsp页面的编码是utf-8，那么tomcat自己的编码是iso-8859-1，他会把我们的字符串编码成iso-8859-1。通常我们解决乱码是在servlet或action里通过
String param = new String(str.getBytes("iso-8859-1"),"utf-8");
这样乱码就解决了啊，那这个楼主写的有什么区别呢？

热心网友时间：2022-06-18 15:17

支持国际化并不是你这样用的。
java本身是utf－16的。
如果不想出现各种编码切换下的乱码，就需要用utf－16的编码。
不知道你做项目或者学习中，有没有用过所谓的资源文件。
MessageResources.properties 这种。
其中的字符是这种形式的\u9879\u76ee\u7ba1\u7406
这样就能保证在任何编码中，都能正确的显示出来。

我记得是这样的。

热心网友时间：2022-06-18 15:18

Encoding.GetEncoding("utf-8").GetString(Encoding.GetEncoding("utf-8").GetBytes("你的字符串"));

全部栏目

GBK与UTF-8转换时乱码