我的第一个基于 Web的过滤代理
2007-03-29 11:58:53 来源:WEB开发网本文介绍了 Txt2Html,由 David 创建的公共域工作项目,用于说明 Python 的编程技巧。Txt2Html 是“基于 Web 的过滤代理”-- 一种替用户读取基于 Web 的文档,然后将修改过的页面显示到用户浏览器的程序。为了使这成为可能,Txt2Html 以 CGI 程序的形式运行,查询外部 Web 资源的信息,并利用规则表达式。David 将为您逐步解释、说明和演示这些多种用途的子任务。
在撰写本 developerWorks 系列文章的过程中,我曾遇到过以最佳格式进行撰写的问题。文字处理程序格式都是专用的,在格式之间转换总不能尽如人意,也很麻烦(而且每种格式都会各自将文档绑定到不同的专用工具,这种情况又与开放源码的精神相违背)。HTML 还算中立 -- 也许您现在阅读的文章正是这种格式 -- 但它也添加了标记,而这些标记很容易引起误输入(或者使人束缚于 HTML 增强型编辑器)。DocBook 是一种有趣的 XML 格式,它可以转换成许多目标格式,并且它拥有技术文章(或书籍)的正确语义;但就像 HTML 一样,在撰写过程中会担心许多标记。LaTeX 特别适合复杂的印刷格式;但它也有许多标记,而这些文章并不需要复杂的印刷格式。
为了在写作时能真正省心 -- 特别是要具有平台和工具的中立性 -- 无格式 ASCII 正是最好的选择。但是,因特网(特别是 Usenet)建议在完全无格式文本的基础上,开发一种“智能 ASCII”文档的非正式标准(请参阅 参考资料 )。“智能 ASCII”只添加了一点额外的语义内容和上下文,而且它们在文本显示中看起来是那么“自然”。电子邮件、新闻组邮件、FAQ、项目自述文件 (README) 和其它电子文档通常包括一些印刷/语义元素,如强调字前后的星号、标题下的下划线、描述文本关系的竖直和水平空格、有选择性的全大写和其它一些信息。Project Gutenberg(请参阅 参考资料 )是一种惊人的成果,它将许多想法加入其自身格式构思中,并认为“智能 ASCII”是长时间保存和分发好书的最佳选择。即使这些文章不会像文学名著那样经久不衰,仍决定将它们写成“智能 ASCII”格式,并用方便的 Python 脚本将它们自动转换成其它格式。
更多精彩
赞助商链接