python中的开源数据挖掘/文本分析工具

时间:2009-09-24 17:29:30

标签: python database data-mining analyzer

我有一个充满各种产品评论的数据库。我的任务是执行各种计算并使用聚合数据“创建”另一个“database / xml-export”。我正在考虑在python中编写命令行程序来做到这一点。但我知道之前有人已经这样做了,我知道有一些开源的python解决方案或类似的东西可能会提供更多有趣的“聚合数据”然后我可能会想到。

问题是除了从命令行进行基本数据操作之外我还不太了解这个区域,也不知道我应该用什么术语来搜索这个东西..我真的不是在寻找一些科学的东西/可视化的东西(不是我不介意工具提供),简单的开始,逐步看到/开发我需要的东西。

我唯一的要求是“结束聚合数据”在数据库中或导出为XML文件没有专有的东西。它比我的python脚本有点健壮,因为我必须处理4台机器上的“大量”数据。

任何提示应该从哪里开始我的研究?

感谢。

2 个答案:

答案 0 :(得分:1)

你想做什么样的分析?

如果您正在分析文字,请查看Natural Language Toolkit(NLTK)。

如果您想索引和搜索数据,请查看whoosh搜索引擎。

请提供一些有关您希望进行何种分析的详细信息。

答案 1 :(得分:1)

看起来您正在寻找数据集成解决方案 一个建议是Kettle project套件的开源Pentaho部分 对于python,快速搜索产生了PyDISnapLogic