关于设计的问题

时间:2009-11-20 18:46:11

标签: information-retrieval

我的队友和我有一个非常具有挑战性的新项目要做,我们应该在下周提交。我们没有关于如何做到这一点的任何线索,并且真的需要帮助。我们是本科生,是信息检索和人工智能的新手,真的需要你的想法。

该项目大致是:

  

在文件中引用专家时,   找一个反对的专家   意见和找出他/她说的话   关于那个话题。

我们可以自由使用任何编程语言,但我们不关心编程。我们希望帮助我们开始。请大致了解如何设计这样的系统以及如何在互联网上检索信息。我们应该如何得到他的意见,然后找到相反的意见?

4 个答案:

答案 0 :(得分:2)

简单:使用Amazon's Mechanical Turk

如果没有(或同等的)你就会遇到麻烦。如果对问题没有进一步的限制,那么你将需要一个完整的AI,这种类型尚不存在。如果有严重的限制,那么你可能有机会在一周内做到这一点。如果专家可以在任何领域(医学,政治,历史,时尚,科学,漫画书等),那么就没有单一的,组织良好的论文库。您必须使用Google来查找X博士的意见。一旦你找到X博士的写作(让我们祈祷它的文字,而不是音频),你将不得不做一些自然的语言处理,以获得它的主旨,即使你有幸找到一个描述性的标题(“数码摄影绝对是伟大的“)。然后你必须弄明白它是相反的。与“Neil Gaiman的故事创意借鉴民间传说”相反的是什么?弄清楚你正在寻找什么意见将是一个严重的问题。之后,事情变得更加容易:你可以谷歌搜索主题,并使用相同的魔术工具找到你正在寻找的那个。

那么有什么机会解决?搜索其他人已经组织成“pro”和“con”的意见。一些在线政治论坛就是这样组织的。维基百科在其一些文章的特殊部分引用了反对意见。科学期刊印刷反驳信。环顾四周,您可能会发现一个更加干燥的网站。选择一个足够小的竞技场,你就会遇到一个棘手的问题。

编辑:该死的,Ben Dunlap在评论中击败了我所有的主要观点。

答案 1 :(得分:0)

听起来像是一个NLP问题。至于有关文件和引用的信息,http://citeseerx.ist.psu.edu应该是一个很好的起点。

对于每篇论文,有几篇文章都引用了论文。至少,您必须扫描论文的摘要和引文的摘要,并运行您自己的算法,以确定是否有任何引用是相反的意见。也许你的教授可以给你一些近似启发式的提示,但据我所知,这是一个非常难的问题。

我会在这个帖子中看到更有趣的方法。

答案 2 :(得分:0)

自动提交类似于“ expert_name sucks”,“ expert_name 错误”的Google搜索请求,或类似的内容。在同一个句子中找到第一个带有文档链接“PhD”的结果并返回链接。

答案 3 :(得分:0)

我认为你可能会把这个问题搞得太大......作为一个本科项目,我会更接近它。

除非您的规范说您必须使用实际的互联网资源,否则最好创建自己的自定义短文档数据库。向每个文档添加元数据,说明他们对某些主题所做的观点。

接下来,我将创建一个引用列表,链接到每个文档,并添加一些元数据,表示专家对该主题的立场。当有人阅读文档时,我会使用指向该主题的替代视图的文档链接列表来扩充引文列表。

基本上它将由这些表组成:

Document (id, data)
DocumentPoints (documentId, topic, stance)
Citation (documentId, topic, stance)

当有人加载文档时,引用也会被提起。对于每个引文,您在DocumentPoints搜索具有不同立场的相同主题。该项目最困难的部分是创建数据库中数据所需的5或6个文档。之后解决方案很简单。

另外,大多数其他答案都告诉您使用现有的解决方案......除非作业告诉您,否则不要这样做。如果你自己解决整个问题,你会更好地理解问题和解决它的各种方法(这绝对不是唯一/最好的方法)。当教师要求您执行您选择实施解决方案的任何产品不支持的某些内容时,您将无法修复它。如果您刚刚自己编写,那么您也可以轻松地实现新规范。