WEB开发网      婵犻潧鍊婚弲顐︽偟椤栨稓闄勯柦妯侯槸閻庤霉濠婂骸浜剧紒杈ㄥ笚閹峰懘鎮╅崹顐ゆ殸婵炴垶鎸撮崑鎾趁归悩鐑橆棄闁搞劌瀛╃粋宥夘敃閿濆柊锕傛煙鐎涙ê鐏f繝濠冨灴閹啴宕熼鍡╀紘婵炲濮惧Λ鍕叏閳哄懎绀夋繛鎴濈-楠炪垽鎮归崶褍妲婚柛銊ュ缁傚秹鏁撻敓锟� ---闂佹寧娲╅幏锟�
开发学院软件开发Python 可爱的 Python: 使用 SimpleParse 模块进行解析 阅读

可爱的 Python: 使用 SimpleParse 模块进行解析

 2008-11-13 13:16:18 来源:WEB开发网 闂侀潧妫撮幏锟�闂佸憡鍨电换鎰版儍椤掑倵鍋撳☉娆嶄沪缂傚稄鎷�婵犫拃鍛粶闁靛洤娲ㄩ埀顒佺⊕閵囩偟绱為敓锟�闂侀潧妫撮幏锟�  闂佺ǹ绻楀▍鏇㈠极閻愬搫绾ч柕濠忕細閼割亜顪冪€n剙浠ф繛鍫熷灥椤曘儵顢欓悡搴ば�
核心提示:与大多数程序员一样,我经常需要标识存在于文本文档中的部件和结构,可爱的 Python: 使用 SimpleParse 模块进行解析,这些文档包括:日志文件、配置文件、分隔的数据以及格式更自由的(但还是半结构化的)报表格式,所有这些文档都拥有它们自己的“小语言”, 可能读者甚至还不知道 EBNF,

与大多数程序员一样,我经常需要标识存在于文本文档中的部件和结构,这些文档包括:日志文件、配置文件、分隔的数据以及格式更自由的(但还是半结构化的)报表格式。所有这些文档都拥有它们自己的“小语言”,用于规定什么能够出现在文档内。

我编写处理这些非正式解析任务的程序的方法总是有点象大杂烩,其中包括定制状态机、正则表达式以及上下文驱动的字符串测试。这些程序中的模式大概总是这样:“读一些文本,弄清是否可以用它来做些什么,然后可能再多读一些文本,一直尝试下去。”

各种形式的解析器将文档中部件和结构的描述提炼成简明、清晰和 说明性的规则,该规则规定了如何标识文档的组成部分。这里,说明性方面是最引人注目的。我所有的旧的特别的解析器都采用了这种风格:读一些字符、作决定、累加一些变量、清空、重复。正如本专栏关于函数型编程的部分文章中所评述的,程序流的方法风格相对来说容易出错并且难以维护。

正式解析器几乎总是使用扩展巴科斯范式(Extended Backus-Naur Form(EBNF))上的变体来描述它们所描述语言的“语法”。我们在这里研究的工具是这样做的,流行的编译器开发工具 YACC(及其变体)也是这样做的。基本上,EBNF 语法对您可能在文档中找到的 部件赋予名称;另外,经常将较小的部件组成较大的部件。由运算符 ― 通常和您在正则表达式中看到的符号相同 ― 来指定小部件在较大的部件中出现的频率和顺序。在解析器交谈(parser-talk)中,语法中每个命名的部件称为一个“产品(production)”。

可能读者甚至还不知道 EBNF,却已经看到过运行的 EBNF 描述了。例如,大家熟悉的 Python 语言参考大全(Python Language Reference)定义了浮点数在 Python 中是什么样子:

1 2 3 4 5 6  下一页

Tags:可爱 Python 使用

编辑录入:爽爽 [复制链接] [打 印]
赞助商链接