编码: 将计算机中的字符串按照一定的顺序表示成二进制数据的过程
各国字符编码都不一样:
1、计算机- 表示[英文字母、数字、部分特殊符号]- ascii编码 [0~256]
2、万国码,统一字符编码[号称可以统一全球范围内任何语言的表示方式]
任何语言中的任何数据,都可以使用一个字符来表示 unicode编码
3、中国有GB2312- GBK - GB18030
4、数据传输编码:unicode transfer format 8 bit [UTF-8]
python中的编码解码:
要命的规则:字符串的编码解码,一直都是任何语言中一个难点和重点
任何字符串-都是由字节组成的!
python3中:字符:(str);字节(bytes)
字符-字节:encode 编码:将一个字符串编码成计算机可以操作的二进制数据
字节-字符:decode 解码:将一个二进制数据按照指定的编码~解码成自然数据
什么是加密: 将一个明文数据,按照指定的算法,运算得到一个其他的可以隐藏真实信息的密文数据,这个过程称为加密;处理的算法称为加密算法;用到的关键数据称为密钥
什么是解密: 按照指定的算法和关键数据,将一个密文数据进行逆向运算得到正确的明文数据的过程成为解密操作
(1)、单向加密算法:只能加密,不能解密的算法
如:用户账号密码(单向加密)存储,此时任何人都不能查看该用户的明文密码
流程-用户输入明文密码-加密-和存储的密文密码进行比较-相等-成功
单向散列加密算法- MD5加密
单项哈希加密算法- SHAX加密
(2)、双向加密算法:可以加密,加密的数据可以解密得到明文数据
使用在更多的场景;数据进行加密传输-目标地址-解密得到明文数据进行处理
对称加密:加密和解密使用相同的秘钥;
非对称加密:加密和解密使用不同的秘钥;如HTTPS传输数据
hashlib主要提供字符加密功能,将md5和sha模块整合到了一起,支持md5,sha1, sha224, sha256, sha384, sha512等算法
注意: hashlib 加密啊的字符串类型为二进制编码,直接加密字符串会报如下错误:
有两种方式可以将字符串转化为二进制数据
首先,可以说两者是相同的。因为对于存储在硬盘上的文件来说:都要用二进制的方式来存储的。
从这个意义上说,两者是相同的。
对二进制文件进行的加密、解密方法同样适用于文本文件。
如果说两者完全相同,那又不尽然。因为你用文本编辑器打开一个二进制文件的时候,多半会看到乱码,而打开文本文件,就不会看到乱码。这个实践表明,这两者是不同的。
那么为什么会这样呢?因为文本文件是二进制文件的一个子集。不光文本文件,一切其它格式的文件都是二进制文件的子集。例如jpg,avi,ppt,exe等文件也都是二进制文件的子集。
二进制文件可以作为计算机中所有文件的统称。
文件存储的时候,字节是最小的单元。一个字节可以存储0到255这256个数字。
某些数字在文本编辑器中,可以呈现为英文字符,例如:数字 97 就显示为英文的小写字母 a 。
文本文件只存储可见的字符。在只有英文的Ascii码文本文件中,每个字符的数值都不会大于 127 ,也不会等于127,除了数字 13 表示的回车,数字 10 表示的换行,数字9表示Tab缩进,其他的字符数值都大于32,数值32显示为空格。
二进制文件中有许多不可见的字符。所谓的不可见是:在普通的文本编辑器中没有定义该字符的显示方式。
当使用GB2312的汉字编码以后,用相邻的两个字节表示一个汉字。原本不可见的字符变的可见了。这时候,文本文件中的字节有许多高位置1,大致上使用了0到255中的每一个数。为什么说大致呢?因为你去查GB2312的码表,会发现每个区FF的位置都是空着的,也就是不使用数字255。这是为什么呢?
数字255在某些情况下也是-1,这个数字可以看作文本文件的禁区。也就是说,二进制文件中,每个字节都可以在0到255之间任意的挑选;文本文件的字节则不能使用数字255。
GB2312码表0的位置也是空出来的,这是为什么呢?
答案是:为了能兼容传统的c语言程序。
如果c语言程序在处理一个字符串,遇到了0,那么程序认为字符串结束了。所以,文本文件的字节中不能使用数字0,以避免程序处理到一半就终止了。
而数字255更是不能出现的,255在表示有符号的char时,就是-1,在c语言中定义为EOF(End Of File)。也就是说,某些传统的c语言程序,例如getchar( )在返回-1的时候,程序员就认为该文件结束了。所以,这个数字不能出现在文本文件的内容中。
传统意义上,文本文件有禁区,最初的0和最终的255,是文本文件的禁区。
所有不可见的Ascii码也是禁区。
而二进制文件没有任何约束。
各种对文本文件的编码方式,都会尽量避免打破这个禁区。但在Unicode定义以后,这个禁区被打破了。Unicode定义了BOM,也就是在文本文件的开头加入几个不可见的字节,来表示这个文件的编码方式。
从这以后,文本文件中就可以存储不可见的字符了,不再是那么纯粹的文本文件。UTF-8编码的文件本来可以不使用BOM的,但微软也为它设计了BOM,这是一个字符,编码是(Unicode FEFF),转化为UTF8形式以后是(EF BB BF)。
尽管打破了禁区,但只限定于文件开头的两三个字节。
这可以看作一种黑客的解决问题方式,不优雅,也不美观。因为黑客有办法在文本文件中插入更多的不可见字符,普通人不知道如何操作。
有了 BOM以后,出现了字节FF,这意味着数字255不再是禁区。虽然不显示出来,但是它像一根针,插入文本文件的开头。
但有了UTF-16编码以后,禁区彻底打破了,文本文件的编码如果按照UTF-16的方式存储,除了开头有BOM以外,所有不可见的ASCII码和扩展Ascii码都可以成为某个字符的一部分。也就是说,没有任何禁区。文本文件中可以存储任何数值的字节。
文本文件可以在文本编辑器中显示,二进制文件可以在二进制编辑器中显示。没有什么东西不能显示。
所以,如果再问文本文件和二进制文件的区别是什么,答案就是:
没有区别。
简单的异或加密,自己不写是损失
==========
#include cstdio
using namespace std;
void binByte(char *bin, unsigned char b){
char i=7;
while(b0){
bin[i]=(b1)+'0';
b=1;
i--;
}
while(i=0){
bin[i--]='0';
}
}
int main()
{
char *src="NCTV";
char bin[9]={0};
unsigned char *p=(unsigned char*)src;
unsigned char pwd=0x59;//1011001
unsigned char code;
while(*p!='\0'){
code=*p^pwd;
binByte(bin,*p);
printf("%c %u %s 加密成 %u ",*p,*p,bin,code);
binByte(bin,code);
printf("%s 解密成",bin);
code^=pwd;
binByte(bin,code);
printf(" %c %u %s",code,code,bin);
printf("\n");
p++;
}
return 0;
}
==============
输出:
N 78 01001110 加密成 23 00010111 解密成 N 78 01001110
C 67 01000011 加密成 26 00011010 解密成 C 67 01000011
T 84 01010100 加密成 13 00001101 解密成 T 84 01010100
V 86 01010110 加密成 15 00001111 解密成 V 86 01010110
========