保存文本挖掘统计信息的最佳存储策略是什么?

时间:2016-04-27 20:17:08

标签: database analytics text-mining nosql

我正在开发一个网络应用程序,用于分析网络上的内容。目标是识别这些文章中的术语并对其进行分类,检查这些术语是否属于给定的术语列表,并计算它们出现的频率。

实体包括:

  • 文章(网址,日期,简短描述,内容)
  • 条款(名称,类型,频率)
  • 列表(名称,术语列表)

示例查询包括:

  • 列出某种类型的所有字词,并计算所有文章的频率
  • 对于给定的术语,返回最常出现此术语的文章

考虑到每篇文章可能有几千个术语和数千篇文章,您将如何存储数据?

规范化的关系数据库是否有意义?我应该反规范化还是使用NoSQL数据库?

1 个答案:

答案 0 :(得分:1)

规范化的关系数据库(RDBMS)对我来说总是有意义的。标准化为您提供了最常见查询的一致性和速度方面的改进。

如果你的实体很简单(id和一堆属性),你也可以考虑使用NoSQL解决方案,因此你并不需要RDBMS的强大功能。

在您的情况下,我会选择一个设计良好,一劳永逸的RDBMS解决方案。 MySQL对于这项工作来说将是完美的。