可下载的imdb数据的局限性

时间:2013-02-07 17:25:40

标签: mysql text-extraction imdb

我将imdb导入MySQL。可下载的纯文本imdb数据文件的描述表明它们包含imdb数据的子集。有谁知道可下载数据(范围)的限制是什么?例如,是否存在未包含在可下载数据中的电影?

1 个答案:

答案 0 :(得分:3)

纯文本数据文件中,一旦IMDb成为公司,您将无法找到稍后添加的信息。

主要限制是,您不会拥有 imdbIDs (用于识别电影,人物,角色和公司的ID),因此您无法轻松匹配纯文本数据文件与网站上的文本。

除此之外,值得注意的缺少数据类别是:主页上的简短情节,奖项,外部评论,家长指南,故事大纲,常见问题,新闻。

显然,所有留言板,海报等都缺失了。

您可以将数据与其统计信息进行一些比较:http://www.imdb.com/stats,但他们在网站上对电影进行分类的方式可能与您在文件中找到的方式不同,因此这不是一个简单的比较。 / p>

一个值得注意的例外,严格来说是数据量,据我所知(文章中没有“在开发中”标题,当电影处于早期阶段时生产,信息仅供IMDb PRO的用户使用。