机器学习数据集 - 负数与正数词汇数据集

时间:2014-11-23 21:42:43

标签: regex machine-learning nlp

我正在寻找一种方法来开发一个比较正面和负面词汇的ML数据集。例如“有效”与“无效”或“可以使用”对“不能使用”或“不在星期四”与“星期四”将是正面与负面。可以通过确定副词是正面还是负面来简化它。我想知道这个或任何现有解决方案是否有任何可用的数据集。

2 个答案:

答案 0 :(得分:0)

您可以使用一些情感词典

  

自动情绪分析是文本分析的一种应用   用于识别文本数据中的主观意见的技术。   它通常涉及将文本分类为类别   作为“积极的”,“消极的”,在某些情况下是“中立的”[Source]

WordStat Sentiment Dictionary 1.2

Loughran and McDonald Financial Sentiment Dictionary

答案 1 :(得分:0)

创建数据集

搜索有争议的文章。在那里,你将获得大多数正面和负面的句子。在开始时,选择小段落。手动检查算法的效率。

解决方案

从非常基本的方法开始。就像搜索关键字一样,"不是"。然后去结合" can&#t; t" "不会"然后检查你是否遗漏了什么。

现在你可以采用更复杂的方法。就像句子"我对设备采取了预防措施,它不会伤害我。"它给人一种积极的意义。你应该寻找的是"不会伤害" 。你看,不是负面词,伤害也是负面词。两者的结合产生了积极的效果。