常用编码详解

　2007-07-21 21:36:06　来源：WEB开发网　　　

核心提示： 五、UTF-7编码UTF-7：A Mail-Safe Transformation Format of Unicode(RFC1642)，这是一种使用 7 位 ASCII 码对 Unicode 码进行转换的编码，常用编码详解(5)，它的设计目的仍然是为了在只能传递 7 为编码的邮件网关中传

五、UTF-7编码

UTF-7：A Mail-Safe Transformation Format of Unicode(RFC1642)。这是一种使用 7 位 ASCII 码对 Unicode 码进行转换的编码。它的设计目的仍然是为了在只能传递 7 为编码的邮件网关中传递信息。 UTF-7 对英语字母、数字和常见符号直接显示，而对其他符号用修正的 Base64 编码。符号 + 和 - 号控制编码过程的开始和暂停。所以乱码中如果夹有英文单词，并且相伴有 + 号和 - 号，这就有可能是 UTF-7 编码。

协议中定义的转换规则：

1）集合D中的Unicode字符可以直接的编码为ASCII的等值字节。集合O中的字符可以有有选择的的直接编码为ASCII的等值字节，但要记得其中的很多的字符在报头字段是不合法的，或者不能正确的穿过邮件网关。

2）通过在前面加上转换字符"+"，任何一个Unicode序列都可以使用集合B（更改过的base64）中的字符编码。"+"意味着后面的字节将被作为更改过的BASE64字母表中的元素解析，直到遇到一个不是字母表中的字符为止。这些字符中会包含控制字符，比如回车和换行；因此，一个Unicode转换序列总是在一行上结束。注释：有两个特殊的情形："+-"表示''+''，"+ …… --"表示有一个真正的''-''字符出现了。多数情况是没有''-''标记结束。

3）空格、tab、回车和换行字符可以直接使用ASCII等价字节表示。

那么我们就可以定义算法了，我们先定义字符集的相关数组：

typedef unsigned char byte
// 64 characters for base64 coding
byte base64Chars[] = "ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789+/";　
// 8 characters are safe just as base64 characters for MAIL gates
byte safeChars[] = "''(),-.:?";　　
// 4 characters all means space
byte spaceChars[] = " 　　
";