Question

我正在尝试在torchtext中使用BucketIterator.splits函数从csv文件加载数据以用于CNN。除非我的批处理中最长的句子比最大的过滤器大小短，否则一切都正常。

在我的示例中，我使用了大小分别为3、4和5的过滤器，因此，如果最长的句子没有至少5个单词，则会出现错误。有没有办法让BucketIterator动态设置批处理的填充，还可以设置最小填充长度？

这是我用于BucketIterator的代码：

train_iter, val_iter, test_iter = BucketIterator.splits((train, val, test), sort_key=lambda x: len(x.text), batch_size=batch_size, repeat=False, device=device)

我希望有一种方法可以设置sort_key或类似的最小长度？

我尝试了这个，但是不起作用：

FILTER_SIZES = [3,4,5]
train_iter, val_iter, test_iter = BucketIterator.splits((train, val, test), sort_key=lambda x: len(x.text) if len(x.text) >= FILTER_SIZES[-1] else FILTER_SIZES[-1], batch_size=batch_size, repeat=False, device=device)

Answer 1

我浏览了torchtext源代码以更好地了解sort_key在做什么，并了解了为什么我的原始想法不起作用。

我不确定这是否是最好的解决方案，但是我想出了一个可行的解决方案。我创建了一个tokenizer函数，如果该文本小于最长的过滤器长度，则会填充该文本，然后从此处创建BucketIterator。

FILTER_SIZES = [3,4,5]
spacy_en = spacy.load('en')

def tokenizer(text):
    token = [t.text for t in spacy_en.tokenizer(text)]
    if len(token) < FILTER_SIZES[-1]:
        for i in range(0, FILTER_SIZES[-1] - len(token)):
            token.append('<PAD>')
    return token

TEXT = Field(sequential=True, tokenize=tokenizer, lower=True, tensor_type=torch.cuda.LongTensor)

train_iter, val_iter, test_iter = BucketIterator.splits((train, val, test), sort_key=lambda x: len(x.text), batch_size=batch_size, repeat=False, device=device)

Answer 2

尽管@ paul41的方法行得通，但还是有些滥用。正确的方法是使用python3 -m pip install --user matplotlib或preprocessing（分别在数字化之前或之后）。这是postprocessing的示例：

postprocessing

如果主循环中定义了嵌套函数（例如def get_pad_to_min_len_fn(min_length): def pad_to_min_len(batch, vocab, min_length=min_length): pad_idx = vocab.stoi['<pad>'] for idx, ex in enumerate(batch): if len(ex) < min_length: batch[idx] = ex + [pad_idx] * (min_length - len(ex)) return batch return pad_to_min_len FILTER_SIZES = [3,4,5] min_len_padding = get_pad_to_min_len_fn(min_length=max(FILTER_SIZES)) TEXT = Field(sequential=True, use_vocab=True, lower=True, batch_first=True, postprocessing=min_len_padding)），则必须将参数传递给内部函数，但是如果可行，则可以在函数内部对参数进行硬编码。

torchtext BucketIterator最小填充

2 个答案: