像fflick这样的服务如何运作?他们使用什么算法?

时间:2011-02-28 03:26:18

标签: algorithm twitter

fflick,mombo等服务会对有关电影的推文进行分析。他们似乎处理了数十万条推文。

  1. 他们如何将推文与电影相匹配?例如,假设有一部名为“未知”的电影。他们如何确定一条推文是关于未知的 - 电影还是其他未知的东西?

  2. 他们如何收集这么多推文?流媒体API?

  3. 他们是否维护一个电影名称列表,并根据此列表检查每条推文,以确定推文是否引用特定电影?

1 个答案:

答案 0 :(得分:3)

以下是我的猜测。

当然需要一个电影名称列表。这是将推文修剪为可能可能引用电影的子集的必要的第一步。

电影片名要么可以从单词本身识别(例如“终结者2”),要么要求作者消除歧义(例如“未知” - 或“乱世佳人”,这可能是指电影或书籍。在后一种情况下,将提供各种线索。也许最明显的是:

  • 像“Just saw”或“Watched”这样的短语之后的任何内容很可能是一个电影名称。 “阅读”之后的所有内容都少了。
  • 如果提到电影中的导演或演员的名字,则很可能是指电影。
  • 推特内容严重偏向于最新的内容,因此电影上映的可能性随着电影上映时间的增加而下降。
  • 如果推文是对另一条很有可能引用特定电影的推文的回应,那么它可能就是同一部电影。

我希望像上面这样的标准用于根据一些权重分配分类概率,并且已经应用​​了通常的技术来调整权重以给出良好的预测。我希望采用supervised machine learning方法:基本上,让一些人对几百条推文进行分类,然后在该数据集的某个子集上优化权重以获得性能,最后测试所选权重对于对其余部分进行分类的效果。数据集(这是为了检查是否未发生过度拟合)。