regex - 机器学习数据集 - 负数与正数词汇数据集

时间：2014-11-23 21:42:43

标签： regex machine-learning nlp

我正在寻找一种方法来开发一个比较正面和负面词汇的ML数据集。例如“有效”与“无效”或“可以使用”对“不能使用”或“不在星期四”与“星期四”将是正面与负面。可以通过确定副词是正面还是负面来简化它。我想知道这个或任何现有解决方案是否有任何可用的数据集。

答案 0 :(得分：0)

您可以使用一些情感词典。

自动情绪分析是文本分析的一种应用用于识别文本数据中的主观意见的技术。它通常涉及将文本分类为类别作为“积极的”，“消极的”，在某些情况下是“中立的”[Source]

答案 1 :(得分：0)

创建数据集

搜索有争议的文章。在那里，你将获得大多数正面和负面的句子。在开始时，选择小段落。手动检查算法的效率。

解决方案

从非常基本的方法开始。就像搜索关键字一样，＆＃34;不是＆＃34;。然后去结合＆＃34; can＆＃t; t＆＃34; ＆＃34;不会＆＃34;然后检查你是否遗漏了什么。

现在你可以采用更复杂的方法。就像句子＆＃34;我对设备采取了预防措施，它不会伤害我。＆＃34;它给人一种积极的意义。你应该寻找的是＆＃34;不会伤害＆＃34; 。你看，不是负面词，伤害也是负面词。两者的结合产生了积极的效果。