WEB开发网
开发学院软件开发VC 常用编码详解 阅读

常用编码详解

 2007-07-21 21:36:06 来源:WEB开发网   
核心提示: 五、UTF-7编码UTF-7:A Mail-Safe Transformation Format of Unicode(RFC1642),这是一种使用 7 位 ASCII 码对 Unicode 码进行转换的编码,常用编码详解(5),它的设计目的仍然是为了在只能传递 7 为编码的邮件网关中传

五、UTF-7编码

UTF-7:A Mail-Safe Transformation Format of Unicode(RFC1642)。这是一种使用 7 位 ASCII 码对 Unicode 码进行转换的编码。它的设计目的仍然是为了在只能传递 7 为编码的邮件网关中传递信息。 UTF-7 对英语字母、数字和常见符号直接显示,而对其他符号用修正的 Base64 编码。符号 + 和 - 号控制编码过程的开始和暂停。所以乱码中如果夹有英文单词,并且相伴有 + 号和 - 号,这就有可能是 UTF-7 编码。

协议中定义的转换规则:

1)集合D中的Unicode字符可以直接的编码为ASCII的等值字节。集合O中的字符可以有有选择的的直接编码为ASCII的等值字节,但要记得其中的很多的字符在报头字段是不合法的,或者不能正确的穿过邮件网关。

2)通过在前面加上转换字符"+",任何一个Unicode序列都可以使用集合B(更改过的base64)中的字符编码。"+"意味着后面的字节将被作为更改过的BASE64字母表中的元素解析,直到遇到一个不是字母表中的字符为止。这些字符中会包含控制字符,比如回车和换行;因此,一个Unicode转换序列总是在一行上结束。注释:有两个特殊的情形:"+-"表示''+'',"+ …… --"表示有一个真正的''-''字符出现了。多数情况是没有''-''标记结束。

3)空格、tab、回车和换行字符可以直接使用ASCII等价字节表示。

那么我们就可以定义算法了,我们先定义字符集的相关数组:

typedef unsigned char byte
// 64 characters for base64 coding
byte base64Chars[] = "ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789+/"; 
// 8 characters are safe just as base64 characters for MAIL gates
byte safeChars[] = "''(),-.:?";  
// 4 characters all means space
byte spaceChars[] = "   
";  

上一页  1 2 3 4 5 6 7 8 9 10  下一页

Tags:常用 编码 详解

编辑录入:爽爽 [复制链接] [打 印]
赞助商链接