可爱的 Python: 使用 mechanize 和 Beautiful Soup 轻松收集 Web 数据
2010-01-20 00:00:00 来源:WEB开发网核心提示: 入门工具在实际开发 Web scrap/分析代码的过程中,我发现以交互式方式查看、处理和分析 Web 页面的内容以了解相关 Web 页面实际发生的操作是非常重要的功能,可爱的 Python: 使用 mechanize 和 Beautiful Soup 轻松收集 Web 数据(2),通常,站点中的
入门工具
在实际开发 Web scrap/分析代码的过程中,我发现以交互式方式查看、处理和分析 Web 页面的内容以了解相关 Web 页面实际发生的操作是非常重要的功能。通常,站点中的一些页面是由查询动态生成(但是具有一致的模式),或是根据非常严格的模板预先生成。
完成这种交互式体验的一种重要方法就是在 Python shell 内使用 mechanize 本身,特别是在一个增强的 shell 内,比如 IPython。通过这种方式,您可以在编写执行希望用于生产中的交互的最终脚本之前,请求各种已链接的资源、提交表单、维护或操作站点 cookies,等等。
然而,我发现我与 Web 站点的许多实验性质的交互在实际的现代 Web 浏览器中得到了更好的执行。方便地呈现页面可以使您更加快速地了解给定页面或表单中正在发生的事情。问题在于,呈现页面仅仅完成了事情的一半,可能还不到一半。获得 “页面源代码” 会让您更进一步。要真正理解给定 Web 页面或与 Web 服务器的一系列交互的背后的原理,需要了解更多。
要了解这些内容,我常常使用 Firebug或面向 Firefox 的 Web Developer 插件(或最新 Safari 版本中的内置的可选 Develop 菜单,但是所针对的目标人群不同)。所有这些工具都可以执行诸如显示表单字段、显示密码、检查页面的 DOM、查看或运行 Javascript、观察 Ajax 通信等操作。比较这些工具的优劣需要另外撰写一篇文章,但是如果您要进行面向 Web 的编程的话,那么必须熟悉这些工具。
[]
- ››使用脚本恢复WinXP系统的用户登录密码
- ››可爱毛绒长靴 《庄园物语》皮草系列低调亮相
- ››使用phpMyadmin创建数据库及独立数据库帐号
- ››使用Zend Framework框架中的Zend_Mail模块发送邮件...
- ››使用cout标准输出如何控制小数点后位数
- ››使用nofollow标签做SEO的技巧
- ››使用 WebSphere Message Broker 的 WebSphere Tra...
- ››使用SQL Server事件探查器做应用程序的性能分析
- ››使用SQL Server事件探查器分析死锁原因
- ››使用纯文本文件打造WCF服务
- ››使用 Dojo 开发定制 Business Space 小部件,第 4...
- ››使用 ADDRESS 与 INDIRECT函数查询信息
更多精彩
赞助商链接