非结构化文本的数据挖掘

时间:2015-03-26 18:52:13

标签: mongodb data-mining

我现在正在一个学术项目中工作,我想利用数据挖掘技术进行市场细分。

我想存储文本信息(其中包含大量文本),如推文,新闻提要等 - 因此它们是不同的数据源(它们具有不同的结构)。

有两个问题:

  1. 获取所有这些新闻文章,帖子等的最佳方法是什么,这样我最终可以获得足够的文本数据来处理它并从中得出好的结论?或者我使用的其他类型的非结构化数据?

  2. 在哪里存储所有非结构化文本,以便以后访问它并应用所有这些文本挖掘tehniques?那么MongoDB呢?

  3. 非常感谢你!

1 个答案:

答案 0 :(得分:0)

看看以下内容: