从Wiki获取数据到CSV文件/数据库

时间:2012-06-17 14:40:58

标签: csv web-scraping data-mining

从维基百科获取一些数据的最简单方法是什么?我想把它作为CSV文件。

基本上我希望得到的数据只是名单。例如,所有英国演员都在此页面中命名:http://en.wikipedia.org/wiki/List_of_British_actors_and_actresses (所有来自A-Z和名字都足够了。)

这可能吗?此外,这只会做一次,所以不需要缓存或类似的东西。只需简单地获取数据即可。但我不知道如何真正做到这一点。

PHP,JS,Jquery,JSON会很好。没有java或类似的东西!

1 个答案:

答案 0 :(得分:1)

查看DBPedia和Google Refine。 IIRC Google Refine提供了一个从维基百科(see video tutorial)中提取和清理数据的示例。 DBPedia已经是维基百科的数据库副本。