Question

我正在做一个NLP术语项目，正在分析这个语料库中的100,000多篇新闻文章。 https://github.com/philipperemy/financial-news-dataset

我希望使用NLTK对此数据集进行情绪分析。但是，我对这个管道应该如何存储和访问所有这些文章感到有点困惑。

文章是我阅读并执行一些预处理的文本文件，以便提取一些元数据并提取主文章文本。目前，我将每篇文章的数据存储在python对象中，例如：

{
   'title' : title,
   'author' : author,
   'date' : date,
   'text' : text,
}

我想将这些对象存储在数据库中，因此每次我想要进行分析时都不必阅读所有这些文件。我的问题是，我不确定使用哪个数据库。我希望能够在某些字段（例如日期和标题）上使用正则表达式，以便我可以按日期和公司名称隔离文档。我正在考虑使用NoSql路由并使用像MongoDb或CouchDB这样的数据库，甚至可能使用像ElasticSearch这样的搜索引擎。

在我查询要用于分析的文档后，我将对文本进行标记，POS标记它，并使用NLTK执行NER。我已经实现了这部分管道。在数据库已经在数据库中编入索引后，这样做是否明智？或者我应该将处理后的数据存储在数据库中吗？

最后，我将使用此处理过的数据，使用我已经开发的训练模型对每篇文章进行分类。我已经有了黄金标准，所以我会将分类与黄金标准进行比较。

此管道通常看起来是否正确？我没有太多使用像这样的大型数据集的经验。

存储非结构化数据以进行情绪分析

0 个答案: