如何从单句中获取上下文?

时间:2019-03-27 15:15:25

标签: python machine-learning nlp

我是NLP的新手,

我想实现一个基于python的聚类算法,它将具有:

  • 上下文/主题提取-从标题声明(可能包含不超过6-7个单词)

  • 聚类算法

所以问题是,我有一堆语句(20条语句*每个语句5-6个单词= 100-120个单词),都与标题语句相关。并且一个算法应该能够将它们聚类。

对于(1)-作为输入,首先我将有一个标题,我要从该标题中提取各种主题,例如:

标题:“生产装配线中的问题” -我想从中提取类似内容

1。机械问题

2。电气问题

3。巡线员管理

4。供应链管理问题 ......

并使用这些提取的主题来聚类那些语句。我可以执行聚类的第二项任务,但是如何从不超过6-7个单词的单个语句中提取主题?

语言: 英语

任何想法如何解决第一个问题?

1 个答案:

答案 0 :(得分:1)

简而言之,您需要更多数据。您可以创建一个主题模型(我建议您研究LDA-可能是被指导的LDA),但是您肯定会需要更多的东西。首先,6个不同的文档还远远不够。其次,每文档6​​个单词也是不够的。您是否有任何理由只希望从标题而不是完整文档中提取主题-因为至少完整文档中会有更多单词?

相关问题