我的第一个基于 Web的过滤代理

　2007-03-29 11:58:53　来源：WEB开发网　　　

核心提示： Python 规则表达式有它自己的一些技巧，其中一个技巧是子表达式开始处的 ?: 运算符，我的第一个基于 Web的过滤代理(6)，这表示“查找子模式的匹配字符串，但不包括反向引用中的匹配结果”，尤其是，让我们将换行符保留成换行符，那么，让我们检查一下这个子表达式：(

Python 规则表达式有它自己的一些技巧。其中一个技巧是子表达式开始处的 ?: 运算符。这表示“查找子模式的匹配字符串，但不包括反向引用中的匹配结果”。那么，让我们检查一下这个子表达式：

((?:http|ftp|gopher|file)://(?:[^ <)]+))。

首先，请注意这个子表达式本身由两个子表达式组成，两者之间的字符并不属于任何一方。但是，每个子表达式都由 ?: 开头，它表示这两者匹配，但不是为了满足引用目的。第一个“非引用”子表达式只表示“查找类似于 http 或ftp 或其它值的字符串”。接着，我们看到字符串 :// ，它表示查找与它完全相似的字符串（简单吗？）。最后，我们看到第二个子表达式，它除了有由方括号组成的“不引用”运算符外，还有一个加号。

在规则表达式中，方括号只表示“查找与方括号中任何字符的匹配字符”。但是，如果第一个字符是插入记号 (^)，含义则相反，它表示“查找任何与后面的字符不匹配的字符”。因此，我们正在查找不是空格、CR、LF、"<" 或 ")" 的字符（还请注意，可以通过在字符前面加 ""，避开对于规则表达式有特殊意义的字符）。结尾处的加号表示“查找最后字符串的一个或多个匹配”（星号表示“零个或多个”，问号表示“零个或一个”）。

这个规则表达式有许多内容有待理解，但如果多看几遍，您就会明白这就是 URL 的格式。

接着就是替换部分。这就更简单了。看上去类似 \1 和 \2 （或者 \3 、 \4 等，如果需要的话）的部分就是刚谈到的“反向引用”。\1（或 \2）表示模式与匹配表达式的第一个（或第二个）子表达式相匹配。替换部分的其余组成部分没有什么特别含义：只是一些容易识别为 HTML 代码的字符。有一件事比较麻烦，那就是匹配 \2 -- 它看上去就是一个空格字符。也许有人会问：“有什么麻烦的？为什么不直接插入一个空格字符？”问得好，实际上我们不需要执行对 HTML 的操作。但从美学角度来看，最好让 HTML 输出尽可能保留转换成 HTML 标记之前的源文本文件外观。尤其是，让我们将换行符保留成换行符，空格就是空格（Tab 键就是 Tab 键）。

上一页 1 2 3 4 5 6