我想知道机器学习,深度学习或自然语言处理中的术语,当它们之间没有空格时将单词拆分为一个段落。
示例: “ iwanttocook”
成为: “我想做饭”
这并不容易,因为您没有字符来标记单词。
感谢您的帮助
答案 0 :(得分:0)
您可以使用polyglot
包来实现。可以进行形态分析。
这种分析基于morfessor模型,该模型在最常见的单词上经过训练以遇到语素(“语法的原始单位,一种语言中最小的个体有意义的元素”)。
from polyglot.text import Text
blob = "Wewillmeettoday."
text = Text(blob)
text.language = "en"
print(text.morphemes)
输出为:
WordList([u'We', u'will', u'meet', u'to', u'day', u'.'])
请注意,如果要开始使用多语言,应首先仔细阅读文档,因为要考虑一些事项,例如特定于语言的模型的downloading。