nlp - seq2seq模型转换器模型-批量输入的最佳方法是什么？

我正在尝试建立一个与希伯来语字符的变音符号匹配的字符级模型（每个字符都装饰有变音符号）。请注意，正确的变音符号取决于单词，上下文和词性（并非无关紧要）。

我建立了一个基于LSTM的模型，该模型可实现18％的单词级准确性（在一个看不见的测试集上，所有单词中的18％的单词完全正确）

现在，我尝试遵循pytorch seq-2-seq tutorial，使用变压器模型来击败它，并且得出的结果要差得多（字级准确度为7％）。

我的训练数据集是10万个句子，大多数句子最多包含30个字符，但有些则一直到80个字符。

我的问题（最后）-为变压器分批输入的最佳方法是什么？我准备了覆盖每个句子的30个字符的块（例如，一个55个字符的句子=> 30 + 25），并且当块短于30时用零填充。我还试图在单词之间（在空格上）分割这些块。不在单词中间。

这是要走的路吗？我是否缺少一些更好（和更知名）的技术？