python - CountVectorizer没有计算相关功能

我正在对方言文本进行分类。我正在使用朴素的贝叶斯和countvectorizer。我发现没有考虑方言的许多相关功能。认为更多的是所有方言中非常常见的单词计数。如何对文本中的词汇表（只有某些方言具有）给予绝对权重（最高优先级），因此文本将被归类为该方言？而不是计算其他常见单词并将其分配给方言。

示例：

假设我有一个包含这4种方言的语料库，并经过训练大小为20K的语料库（每个方言都有5K条推文）。我正在测试以下任意推文：

您是X，我们会考虑的

现在，假设X是仅由方言A使用的单词。但是，其余的单词也在所有4种方言之间共享。并且在预测之后，碰巧该文本在方言B中，因为如果您计算剩余的单词，它恰好在方言B中更为流行。

我该如何解决？如何将其分类为方言A并优先使用X？