需要从网站提取数据并推送到程序

时间:2013-05-16 03:30:25

标签: python web-crawler

所以我一直在四处寻找我如何能够提取一些特定数据(例如文本),并将数据推送到组织数据的程序中。

因此,如果您以homedepot.com为例,并希望从“2x4 wood”下列出的每个项目中提取,并从每个项目中提取您需要获取的名称,描述和规格,并将该数据导入一块包含此数据的软件?

所以我想这会像自动数据录入一样?

根据我的研究,我需要编写一个爬虫程序,用于搜索特定术语,然后抓取结果返回的每个页面并获取我需要的数据。

但是我有一点问题:我真的不知道任何编程/脚本,我不确定从哪里开始。我发现了一种基于Python的Scrapy。这是我想用于爬虫的东西吗?

我的下一个问题是,我不知道如何导入收集到软件中的数据?关于我应该在哪里寻找这个答案的任何提示?

我想用这个想法来帮助我学习脚本。

2 个答案:

答案 0 :(得分:0)

嗯,你应该从学习语言开始,这将使它更容易做

但是对于Web内容你可以使用urllib和urllib2这些东西打开浏览器来获取数据而不用实际打开窗口

还有一些像selenium这样的自动化网络浏览器实际上打开了窗口

您可以在互联网上查看许多其他内容

但那只是网络浏览器自动化,那么你必须实际获得你想要的信息和数据,你需要像你说的scrapy或者美丽的这些通过源代码并选择你想要的信息

因为我不知道你想要什么,这很难解释,但我希望这会给你一个开始的地方

但就像我说你应该学习基本的python,这将有助于很多

我希望这有帮助!!

答案 1 :(得分:0)

另一个选项是Beautiful Soup。 Python是一门快速学习的语言,专注于可读性和简单性。有很多资源可以在线学习python。我推荐Learn Python the Hard Way。不要气馁这个名字,它是提供信息的,并且专注于传统的语言学习方法,这些方法非常有效。