关于“AUTOMATIC TEXT SUMMARIZER(基于语言)”

时间:2008-12-31 06:56:57

标签: text nlp linguistics summarization

我将“自动文本摘要(语言学方法)”作为我的最后一年项目。我收集了足够多的研究论文并完成了它们。我仍然不太清楚'如何去做'的事情。基本上我发现“AUTOMATIC TEXT SUMMARIZER(基于统计)”并发现与我的项目相比它更容易。我的项目指南告诉我不要选择这个(基于统计)并选择基于语言的。

任何曾经研究过或甚至听过这类项目的人都会知道,总结任何文件只不过是对每一句话进行评分(通过一些涉及某些特定算法的方法),然后选择得分高于阈值分数的句子。现在,该项目最困难的部分是选择适当的评分算法,然后再实施。

我有适度的编程技巧,并希望在JAVA中编码(因为我会得到很多API,导致较少的开销)。现在我想知道,对于我的项目,我应该采用什么方法和算法。还有如何实现它们。

5 个答案:

答案 0 :(得分:5)

Using Lexical Chains for Text Summarization (Microsoft Research)

对不同算法的分析:DasMartins.2007

文档中最重要的部分:

  

•Nenkova(2005)分析说没有系统   可以用统计数据击败基线   意义
  •引人注目的结果!

请注意 liguistic 方法有两种不同的细微差别:

  • 语言评分系统(此处全部明确)
  • 语言生成(重写句子以构建摘要)

答案 1 :(得分:2)

自动摘要是一个非常复杂的领域 - 尝试将您的Java技能放在首位,以及您对使用机器学习的统计NLP的理解。然后,您可以通过构建实质内容来完成工作。评估您的解决方案并确保您具体定义了测量变量以及您的评估方式。否则,您的项目注定要失败。这通常被认为是最后一年本科生的高风险项目,因为他们往往无法正确理解原则,然后以不正确的方式实施,然后他们的评估措施都是不明确的,并且没有反映出来他们自己的工作清楚。我的建议是将重点放在一个领域而不是许多摘要中,因为您可以拥有单个和多个文档摘要。您使项目变得越多样化,您获得好成绩的可能性就越小。保持专注和深入。评估其他人的工作,然后评估你决定采取的过程和结果。

读物: -Jurafsky关于NLP的书有一个关于摘要和QA的后面部分。 -inderjeet mani的文本摘要非常好

了解术语加权,基于质心的摘要,对数似然比,一致性关系,句子简化,最大边际相关性,冗余以及实际上重点摘要的内容。

您可以使用有监督或无监督的方法以及混合方式进行尝试。 语言是一个更安全的选择,这就是为什么你被建议采取这种方法。 尝试在语言上尝试,然后建立统计信息以杂交您的解决方案。 使用它作为练习来学习算法的理论和实际意义,并建立在你的知识基础之上。毫无疑问,你必须向评审小组解释和捍卫你的项目。

答案 2 :(得分:0)

如果你真的读过那些研究论文和研究书籍,你可能知道已知的东西。现在,您可以在Java应用程序中实现这些研究论文和研究书籍的知识。或者你可以通过做一些创新/发明来扩展人类的知识。如果你确实扩展了人类知识,你就成了一名真正的科学家。

答案 3 :(得分:0)

请在以下两个主要方面更具体地提出您的问题:

  1. 项目定义:项目的目标是什么? 输入单元是单个文件吗?文件清单? 你打算让你的程序使用机器学习吗? 什么是输出? 你将如何衡量成功?
  2. 您的背景知识:您打算使用语言而不是统计方法。 你有解析自然语言的背景吗?在语义表示? 我认为其中一些问题很难。我问他们是因为我花了太多时间在学习过程中回答类似的问题。一旦你解决了这些问题,我可能会给你一些指示。 Mani's "Automatic Summarization"看起来是一个好的开始,至少是介绍性的章节。

答案 4 :(得分:0)

几年前,谢菲尔德大学在automatic email summarising做了一些工作,作为欧盟FASiL项目的一部分。