Python CLIPS |意大利语模式

时间:2016-01-28 11:12:14

标签: python nlp preprocessor

我需要帮助将此库与意大利语一起使用。

我正在尝试使用Pattern来创建意大利Feed RSS / ATOM的数据集(以执行NMF),但我不知道该怎么做,因为Lemmatizer不适用于意大利语句子。

我正在使用维基百科的意大利语examples作为指导。但结果与输入字符串相同。

有什么建议吗?

编辑:我的代码就是这个

from pattern.vector import Document, PORTER, LEMMA

s="Il ciclo, scritto all'inizio degli anni novanta, si svolge in un universo dove, al termine di una guerra tra le due potenti razze dei Sartan e dei Patryn, la Terra è stata suddivisa in quattro mondi ognuno dominato da un elemento (aria, acqua, terra e fuoco), mentre in un quinto, detto il Labirinto (una prigione senziente estremamente letale), i Sartan, vincitori del conflitto, hanno relegato i Patryn e sono misteriosamente scomparsi subito dopo. Secoli dopo i primi Patryn riescono a fuggire dal labirinto ed a penetrare negli altri mondi. I sette libri narrano le vicende di Haplo, un agente dei Patryn inviato ad esplorare i quattro mondi per preparare l'arrivo del suo padrone."

document = Document(s, threshold=1, stopwords=False)
documentP = Document(s, threshold=1, stopwords=False, stemmer=PORTER)
documentL = Document(s, threshold=1, stopwords=False, stemmer=LEMMA)

print document.words
{u'le': 2, u'dei': 3, u'patryn': 4, u'labirinto': 2, u'dopo': 2, u'sartan': 2, u'di': 2, u'quattro': 2, u'terra': 2, u'mondi': 3, u'e': 3, u'una': 2, u'un': 4, u'del': 2, u'il': 2}
print documentL.words
{u'le': 2, u'dei': 3, u'patryn': 4, u'mondi': 3, u'labirinto': 2, u'dopo': 2, u'sartan': 2, u'di': 2, u'quattro': 2, u'terra': 2, u'e': 3, u'una': 2, u'un': 4, u'del': 2, u'il': 2}
print documentP.words
{u'il': 2, u'le': 2, u'dei': 3, u'patryn': 4, u'labirinto': 2, u'dopo': 2, u'sartan': 2, u'di': 2, u'quattro': 2, u'terra': 2, u'mondi': 3, u'e': 3, u'una': 2, u'un': 4, u'del': 2}

0 个答案:

没有答案
相关问题