使用二元组

时间:2018-04-24 08:08:40

标签: python machine-learning feature-selection

我有一系列产品描述数据,我需要从中提取功能。我正在尝试将行转换为bigrams然后我正在提取功能 使用以下代码:

finder = BigramCollocationFinder.from_words(description) 
scored = finder.score_ngrams(bgm.likelihood_ratio)

执行上面的代码后,描述中的所有行都会被连接起来,并形成以下的双字母组合。

例如:

描述

**Description**
    running cleaning observed cooling cleaned
    rectangu minuteria fplease rectanglur

我正在获得二元输出:

(runnin,cleaning),(cleaning, observed),(observed ,cooling),(cooling ,cleaned),(cleaned,rectangu),(rectangu, minuteria),(minuteria ,fplease), (,fplease rectanglur )

但我要求的输出是:

(runnin,cleaning),(cleaning, observed),(observed ,cooling),(cooling ,cleaned),(rectangu, minuteria),(minuteria ,fplease), (,fplease rectanglur )

差异是bigram (clean,rectangu)由第一行的最后一个单词和下一行的第一个单词组成,依此类推。

有人可以帮我解决这个问题吗?

0 个答案:

没有答案