WEB开发网
开发学院软件开发Python 可爱的 Python: 使用 mechanize 和 Beautiful Sou... 阅读

可爱的 Python: 使用 mechanize 和 Beautiful Soup 轻松收集 Web 数据

 2010-01-20 00:00:00 来源:WEB开发网   
核心提示: 入门工具在实际开发 Web scrap/分析代码的过程中,我发现以交互式方式查看、处理和分析 Web 页面的内容以了解相关 Web 页面实际发生的操作是非常重要的功能,可爱的 Python: 使用 mechanize 和 Beautiful Soup 轻松收集 Web 数据(2),通常,站点中的

入门工具

在实际开发 Web scrap/分析代码的过程中,我发现以交互式方式查看、处理和分析 Web 页面的内容以了解相关 Web 页面实际发生的操作是非常重要的功能。通常,站点中的一些页面是由查询动态生成(但是具有一致的模式),或是根据非常严格的模板预先生成。

完成这种交互式体验的一种重要方法就是在 Python shell 内使用 mechanize 本身,特别是在一个增强的 shell 内,比如 IPython。通过这种方式,您可以在编写执行希望用于生产中的交互的最终脚本之前,请求各种已链接的资源、提交表单、维护或操作站点 cookies,等等。

然而,我发现我与 Web 站点的许多实验性质的交互在实际的现代 Web 浏览器中得到了更好的执行。方便地呈现页面可以使您更加快速地了解给定页面或表单中正在发生的事情。问题在于,呈现页面仅仅完成了事情的一半,可能还不到一半。获得 “页面源代码” 会让您更进一步。要真正理解给定 Web 页面或与 Web 服务器的一系列交互的背后的原理,需要了解更多。

要了解这些内容,我常常使用 Firebug或面向 Firefox 的 Web Developer 插件(或最新 Safari 版本中的内置的可选 Develop 菜单,但是所针对的目标人群不同)。所有这些工具都可以执行诸如显示表单字段、显示密码、检查页面的 DOM、查看或运行 Javascript、观察 Ajax 通信等操作。比较这些工具的优劣需要另外撰写一篇文章,但是如果您要进行面向 Web 的编程的话,那么必须熟悉这些工具。

上一页  1 2 3 4  下一页

Tags:可爱 Python 使用

编辑录入:爽爽 [复制链接] [打 印]
赞助商链接