如何刮掉大量的推文

时间:2011-09-25 18:31:13

标签: python twitter screen-scraping

我正在python中构建一个需要抓取大量Twitter数据的项目。像100万用户和所有推文都需要被删除。

以前我使用过Tweepy和Twython,但是很快就达到了Twitter的极限。

情绪分析公司等如何获取数据?他们如何得到所有这些推文?你是在某个地方购买或者通过不同的代理或东西构建一些东西吗?

像Infopimps这样拥有Trst排名的公司如何获得所有数据? * http://www.infochimps.com/datasets/twitter-census-trst-rank

2 个答案:

答案 0 :(得分:7)

我不知道这是否适用于您尝试执行的操作,但Tweets2011数据集最近已发布。

来自说明:

  

作为TREC 2011微博的一部分,Twitter提供了标识符   在1月23日到1月23日之间抽样的大约1600万条推文   2011年2月8日。语料库旨在成为可重用的,   twittersphere的代表性样本 - 即重要的和   包括垃圾邮件。

答案 1 :(得分:7)

如果您想要特定用户的最新推文,Twitter会提供Streaming API

  

Streaming API是Twitter Firehose的实时样本。此API适用于具有数据密集型需求的开发人员。如果您正在构建数据挖掘产品或对分析研究感兴趣,则Streaming API最适合此类事项。

如果您尝试访问信息,那么具有严格请求限制的REST API是唯一的方法。

相关问题