RASA如何使用日语(Tokennization-Mecab)

时间:2018-10-26 04:36:05

标签: nlp chatbot rasa-nlu cjk rasa-core

众所周知,RASA是有效的机器人程序框架。 RASA NLU和RASA Core这样的堆栈真的很有用。

我亲身实践了一下,发现它特别是英文文本的效果令人惊叹。我再次尝试使用日语文本(spacy的Alpha支持)。我将其与tensorflow管道一起使用,陷入困境,无法弄清楚如何使用外部令牌化(例如Mecab)。

任何人都可以经历??

2 个答案:

答案 0 :(得分:0)

tensorflow管道可与空白标记的任何语言一起使用。由于Japanse并非如此,因此您必须构建自己的令牌生成器。

您可以通过扩展类TokenizerComponent来做到这一点,例如:

class MecabTokenizer(Tokenizer, Component):

# fill with your code

然后,您可以通过在名称(also described in the docs)中指定模块路径来在NLU管道中使用自定义类,例如:

pipeline:
- name: "path.to.MecabTokenizer"
# other components

有人尝试过类似的here,也许您可​​以使用它或采用某种模板。

答案 1 :(得分:0)

我使用Mecab标记器添加了一个自定义组件。日语文字对我来说很好用。

链接:Rasa_Japanese

相关问题