数据挖掘开源工具

时间:2009-05-07 16:37:50

标签: open-source data-mining

我将参与一个涉及数据挖掘的项目。在我加入之前,我想探索一下允许基于Web的报告的不同数据挖掘工具(最好是开源)。在我的场景中,数据将提供给我,所以我不应该抓它。

简而言之,我正在寻找一种工具 - 数据分析,基于Web的报告,提供某种仪表板和挖掘功能。

我曾参与过Microsoft Analysis Services和BOXI,最近我一直在关注Pentaho,这似乎是个不错的选择。

请分享您对任何此类工具的经验。

欢呼声

20 个答案:

答案 0 :(得分:12)

我相信WEKA是最好的开源DM软件。

检查:http://www.cs.waikato.ac.nz/ml/weka/

答案 1 :(得分:8)

Weka很棒,但您可能想要尝试使用Orange Data Mining工具包。

http://www.ailab.si/orange/

编辑:截至2010年11月,我必须说我非常喜欢KNIME

答案 2 :(得分:5)

R有很多与数据挖掘相关的优秀软件包。特别要看:

它也与Weka(see the RWeka package)联系在一起。它可以与.Net(通过COM)或Python(通过RPy或RPy2)集成。

我同意Pentaho的报告平台,虽然这是一个非常大的项目,取决于你使用它的目的。

答案 3 :(得分:5)

RapidMiner 是我首选的数据挖掘工具。

答案 4 :(得分:5)

您还应该查看Apache Mahout。对于一些大规模的机器学习任务,例如用户群集,它可能非常有用。

答案 5 :(得分:3)

KEEL(http://keel.es)是用Java编写的,适用于使用进化计算进行数据挖掘。

答案 6 :(得分:3)

我会尝试使用新的Google工具。

- 首先你需要获得google-storage的api id,这是你要存储和操作你要分析的数据的地方。

- 然后你需要获得google-prediction-api(http://code.google.com/apis/predict/docs/getting-started.html)的api id,这对我所看到的是一个梦幻般的外包数据挖掘处理器。 Prediction API允许您从数据中获取更多信息,并使其模式更易于访问。除了使用传统的数字和名义数据,您还可以使用文本数据,这可以用于通过语言对电子邮件进行分类。

- 最后,您可以使用bigQuery来执行Ad-hoc分析,标准化报告,数据探索应用程序原型设计(http://code.google.com/apis/bigquery/)

答案 7 :(得分:2)

查看JMLR维护的机器学习开源软件列表。 你可以在这里找到它:

http://mloss.org/software/

http://jmlr.csail.mit.edu/mloss/

他们代表艺术状态!

我与Weka的问题在于其中的许多算法都已过时。

答案 8 :(得分:2)

您可以查看我的软件 SPMF data mining framework

它是一个开源Java软件,提供70多种算法:

  • 频繁项目集挖掘,
  • 关联规则挖掘,
  • 顺序模式挖掘
  • 顺序规则挖掘。
  • 以及更多..

答案 9 :(得分:2)

WEKA(已经提到), 橙色(http://orange.biolab.si/), Tanagra(http://data-mining-tutorials.blogspot.com)你可以在那里找到很好的教程。

是非常好的数据挖掘工具。

答案 10 :(得分:2)

我相信RapidMiner是一个很好的工具,应该添加到这个列表中。

答案 11 :(得分:1)

我相信KNIME也值得加入此列表。

答案 12 :(得分:1)

答案 13 :(得分:1)

此处列出了一些开源数据挖掘工具的列表: http://dataminingtools.net/browse.php

答案 14 :(得分:1)

Weka强大的分类和/机器学习/。对许多人来说,这被认为是人工智能的一部分,而不是实际的数据挖掘。 RapidMiner基本上沿着相同的路线,但具有更好的UI。 Pentaho是Weka AFAICT的专业支持。

你可能想看看ELKI,http://elki.dbs.ifi.lmu.de/这是一个可比较的项目,专注于聚类算法和异常值检测,这是数据挖掘的另外两个关键任务。

答案 15 :(得分:1)

您可以查看Data Mining SDK及其blog

答案 16 :(得分:1)

Pentaho是一个非常专业的解决方案。绝对是一个非常好的选择。

答案 17 :(得分:0)

你可以看看数据挖掘工具weka

这是WEKA上一系列教程和视频的链接 教程:http://www.dataminingtools.net/browsetutorials.php?tag=weka

视频: http://www.dataminingtools.net/videos.php?id=6

答案 18 :(得分:0)

除了工具之外,我强烈建议学习Python和R.这些语言在分析过程中有很多帮助。此外,大型数据集可以“自定义分析”。您也可以使用Javascript创建自己的自定义仪表板(请查看numerous charting and visualization libraries

答案 19 :(得分:-1)

我自己是一个蟒蛇,我不得不说:

是的!所有这些都可以在Python中完成。

我上次玩过Beautiful Soup [0]。这是一个非常简单易用的模块,可以让你从html和xml中获取/挖掘数据(非常适合'屏幕抓取')。

如果你不懂python,那么......这很容易学习。

[0] http://www.crummy.com/software/BeautifulSoup/