seq2seq模型转换器模型-批量输入的最佳方法是什么?

时间:2020-07-31 19:22:38

标签: nlp pytorch transformer seq2seq

我正在尝试建立一个与希伯来语字符的变音符号匹配的字符级模型(每个字符都装饰有变音符号)。请注意,正确的变音符号取决于单词,上下文和词性(并非无关紧要)。

我建立了一个基于LSTM的模型,该模型可实现18%的单词级准确性(在一个看不见的测试集上,所有单词中的18%的单词完全正确)

现在,我尝试遵循pytorch seq-2-seq tutorial,使用变压器模型来击败它,并且得出的结果要差得多(字级准确度为7%)。

我的训练数据集是10万个句子,大多数句子最多包含30个字符,但有些则一直到80个字符。

我的问题(最后)-为变压器分批输入的最佳方法是什么?我准备了覆盖每个句子的30个字符的块(例如,一个55个字符的句子=> 30 + 25),并且当块短于30时用零填充。我还试图在单词之间(在空格上)分割这些块。不在单词中间。

这是要走的路吗?我是否缺少一些更好(和更知名)的技术?

0 个答案:

没有答案