我应该使用什么平台/工具/软件/语言进行文本挖掘?

时间:2012-01-05 04:53:44

标签: hadoop weka similarity mahout text-mining

我是文本挖掘领域的乞丐。 我需要对文档相似性进行研究。我的目标是比较两个文档,然后根据数字提供它们之间的相似性。我已经阅读了很多关于此的理论。我打算从余弦相似性开始

你们有没有人帮我解决这些基本问题: 1.什么平台? (窗口/ Linux)的 2.什么工具(人们谈论weka / mahout / hadoop) - 我不知道该使用什么 什么语言? 有些问题可能听起来很荒谬,但我必须从头开始,我需要一些帮助

3 个答案:

答案 0 :(得分:2)

对于软件,我强烈推荐RapidMiner,您可以从http://rapid-i.com获取。一些快速的专业人士:

  • 开源并用Java实现(适用于任何平台)
  • 直观的图形"运营商管道"数百个数据挖掘任务
  • 优秀的文本挖掘支持。见video tutorial

根据我的经验,数据挖掘需要一些真正的规则来实现理想的结果。 RapidMiner应该提供帮助。

答案 1 :(得分:1)

文档相似性,如文本搜索的上下文?那么Solr将适合该法案。它是一个开源的企业搜索平台,具有文本搜索所需的所有功能,包括“更像这样”,可以获取文本相似的n个文档。

您可能感兴趣的一些相关功能:

  1. 如果Hadoop设置会吓到你,它可以很容易地部署为Tomcat上的Java Web应用程序。
  2. 可以增加文本比较的方面和数字比较。

答案 2 :(得分:1)

平台 - Linux(主要是首选)

工具 - 打开NLP,Lucene,Solr(文本搜索),Mahout,Matlab TMG(不提前等级)

语言 - R(我更喜欢),Python + SciPy