我的第一个基于 Web的过滤代理
2007-03-29 11:58:53 来源:WEB开发网Python 规则表达式有它自己的一些技巧。其中一个技巧是子表达式开始处的 ?: 运算符。这表示“查找子模式的匹配字符串,但不包括反向引用中的匹配结果”。那么,让我们检查一下这个子表达式:
((?:http|ftp|gopher|file)://(?:[^ <)]+))。首先,请注意这个子表达式本身由两个子表达式组成,两者之间的字符并不属于任何一方。但是,每个子表达式都由 ?: 开头,它表示这两者匹配,但不是为了满足引用目的。第一个“非引用”子表达式只表示“查找类似于 http 或ftp 或 其它值的字符串”。接着,我们看到字符串 :// ,它表示查找与它完全相似的字符串(简单吗?)。最后,我们看到第二个子表达式,它除了有由方括号组成的“不引用”运算符外,还有一个加号。
在规则表达式中,方括号只表示“查找与方括号中任何字符的匹配字符”。但是,如果第一个字符是插入记号 (^),含义则相反,它表示“查找任何与后面的字符 不匹配的字符”。因此,我们正在查找 不 是空格、CR、LF、"<" 或 ")" 的字符(还请注意,可以通过在字符前面加 "",避开对于规则表达式有特殊意义的字符)。结尾处的加号表示“查找最后字符串的一个或多个匹配”(星号表示“零个或多个”,问号表示“零个或一个”)。
这个规则表达式有许多内容有待理解,但如果多看几遍,您就会明白这就是 URL 的格式。
接着就是替换部分。这就更简单了。看上去类似 \1 和 \2 (或者 \3 、 \4 等,如果需要的话)的部分就是刚谈到的“反向引用”。\1(或 \2)表示模式与匹配表达式的第一个(或第二个)子表达式相匹配。替换部分的其余组成部分没有什么特别含义:只是一些容易识别为 HTML 代码的字符。有一件事比较麻烦,那就是匹配 \2 -- 它看上去就是一个空格字符。也许有人会问:“有什么麻烦的?为什么不直接插入一个空格字符?”问得好,实际上我们不 需要 执行对 HTML 的操作。但从美学角度来看,最好让 HTML 输出尽可能保留转换成 HTML 标记之前的源文本文件外观。尤其是,让我们将换行符保留成换行符,空格就是空格(Tab 键就是 Tab 键)。
更多精彩
赞助商链接