没有空间时的单词标记化

时间:2019-02-21 08:52:57

标签: python machine-learning deep-learning natural-language-processing

我想知道机器学习,深度学习或自然语言处理中的术语,当它们之间没有空格时将单词拆分为一个段落。

示例: “ iwanttocook”

成为: “我想做饭”

这并不容易,因为您没有字符来标记单词。

感谢您的帮助

1 个答案:

答案 0 :(得分:0)

您可以使用polyglot包来实现。可以进行形态分析。

这种分析基于morfessor模型,该模型在最常见的单词上经过训练以遇到语素(“语法的原始单位,一种语言中最小的个体有意义的元素”)。

来自documentation

from polyglot.text import Text

blob = "Wewillmeettoday."
text = Text(blob)
text.language = "en"
print(text.morphemes)

输出为:

WordList([u'We', u'will', u'meet', u'to', u'day', u'.'])

请注意,如果要开始使用多语言,应首先仔细阅读文档,因为要考虑一些事项,例如特定于语言的模型的downloading

相关问题