楼主确认这个编码没错么?我认为编码有一部分错了
这是一个表达爱意的小情书
根据二进制转换为十进制:
9 12 15 22 5 25 15 21 25 31(怀疑这个错了) 17 9 14 8 21 9
i lovey you y qin hui(我爱你,X琴慧)
1、原理
二进制转化为汉字,可以先将二进制转化为16进制,然后再利用16进制和汉字之前的对应关系进行转化。
2、C#版的代码如下
private string BinaryToChinese(string input)
{
StringBuilder sb=new StringBuilder();//建立string
int numOfBytes = input.Length / 8;//计算尾数
byte[] bytes = new byte[numOfBytes];//二进制
for (int i = 0; inumOfBytes; ++i)
{
bytes[i] = Convert.ToByte(input.Substring(8 * i, 8), 2);//对字符串转成对应二进制
}
return System.Text.Encoding.Unicode.GetString(bytes);//解码得到汉字
}
1. 汉字信息交换码(国标码)
《信息交换用汉字 编码字符集·基本集》是我国于1980年制定的国家标准 GB2312-80,代号为国标码,是国家规定的用于汉字信息处理使用的代码依据。
GB2312-80中规定了信息交换用的6763个汉字和682个非汉字图形符号(包括几种外文字母、数字和符号)的代码。
6763个汉字又按其 使用频度、组词能力以及用途大小分成一级常用汉字3755个和二级常用汉字3008个。
一级汉字按拼音字母顺序排列;若遇同音字,则 按起笔的笔形顺序排列;若起笔相同,则按第二笔的笔形顺序排列,依次类推。所谓笔形顺序,就是横、竖、撇、点和折的顺序。二级汉字按 部首顺序排列。
在此标准中,每个汉字(图形符号)采用双字节表示。每个字节只用低7位,最高位恒为1。由于低7位中有34种状态是用 于控制字符,因此,只有94(128-34=94)种状态可用于汉字编码。这样,双字节的低7位只能表示94×94=8836种状态。
编码范围
二进制数码
十进制数码
基本 ASCII 码
00000000~01111111
0~127
控制字符
00000000~00100000、01111111
0~32、127
可用汉字段
00100001~01111110
33~126 (1~94)
扩充 ASCII 码
10000000~11111111
128~255
控制字符
10000000~10100000、11111111
128~160、255
GB2312-80
10100001~11111110
161~254 (1~94)
此标准的汉字编码表有94行、94列,其行号称为区号,列号称为位号。双字节中,用 高字节表示区号,低字节表示位号。非汉字图形符号置于第1~11区,一级汉字3755个且于第16~55区,二级汉字3008个置于第56~87区。
每个图形字符的汉字交换码,均用两个字节的低7位二进制码表示。汉字国标码通常用十六进制数表示。
例如:“中”字的区号为 54,位号为48,计算它的二进制数和十六进制数国标码。
解:先将区、位号分别加上 32 :
54+32=86
48+32=80
分别转换为二进制数:
(86)10=01010110
(80)10=0 1010000
得到二进制数国标码为:
01010110 01010000。
最后通过 8 4 2 1 ── 二进制取位法转换成十六 进制汉字国标码为:5650。
又如“国”字的区号为25,位号为90,用以上相同的方法得到它的国标码为:
二进制:00111001 01111010
十六进制:397A
----------------------------------------------------------------
基于以上原则,则
11000100,11100011,10111010,11000011
(1100 0100 1110 0011)2,(1011 1010 1100 0011)2
(C4E3)16,(BAC3)16
查表可知:C4E3‘你’,BAC3‘好’
import java.util.ArrayList;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class binaryToString {
// 待处理的字符串
public static final String SOURCE = "110011101101001011000011110001111010001110101100110010101100011110111001110110101011111011111100";
public static void main(String[] args) {
// 定义正则表达式
// 匹配所有由1或0组成的8位字符
Pattern p = Pattern.compile("[10]{8}");
// 定义匹配器,与源字符串关连上
Matcher m = p.matcher(SOURCE);
// 安放匹配结果
ListByte list = new ArrayListByte();
// 开始搜寻pattern
// 先将8位的字符串按2进制扫描为Integer
// 由于后面的须求数字再强制转成byte
// 存入list中
while (m.find()) {
list.add((byte) Integer.parseInt(m.group(), 2));
}
// 准备将list转为byte数组
// 由于String构造器参数类型的限制
byte[] b = new byte[list.size()];
// 开始转换
for (int j = 0; j b.length; j++) {
b[j] = list.remove(0);
}
// 将数组转换为String输出
// 故意不指定字符集(GBK),让编绎器按系统默认打印
System.out.println(new String(b));
}
}