需要使用R从IMDB文本文件中提取可用数据的代码

时间:2012-02-09 22:21:16

标签: r

有没有人有任何代码可以从可下载的imdb文本文件中提取数据并将它们转换为更有用的格式?文本文件不是立即可用的格式,并且在转换时有些问题。例如,business.list文件对于每个电影都是这样的,每个电影的一种多个标签(不同的标签和每个标签的数量)(一些具有较少的标签,一些具有更多标签)。

我正在寻找一种将这些文件更改为数据框的方法。


MV:The Clearing(2004)

GR:5,763,875美元(美国)(2004年10月10日) GR:5,761,124美元(美国)(2004年10月3日)

OW:618,674美元(美国)(2004年7月4日)(56个屏幕)

SD:2002年9月23日 - 2002年11月

工作组:1,350美元(美国)(2004年10月10日)(2个屏幕)


更多信息请点击此处:http://www.imdb.com/interfaces

与此同时,我将讨论一些其他接口,例如文本unix one。

2 个答案:

答案 0 :(得分:5)

使用IMDB API以及RCurl和XML包从网站获取结构化数据。

答案 1 :(得分:1)

它不是R,但imdbpy是一个完全相同的python库。