Question

我已经成功实现了SVM分类器。我没有使用scikit方法。我目前正在使用不同类型的数据进行培训。现在，我想测试它的单个文本输入。我尝试使用熊猫，但后来我不得不改变方法，所以我决定不使用它。分类器用于积极，消极和中性标签的情绪分析。馈送到分类器的数据集由来自twitter的推文组成。这是我的分类器：https://pastebin.com/JZ5LVLW7

所以，我需要帮助设计python中的一个函数，它将接受一个字符串输入，将它与我的功能列表进行比较并生成一个二进制向量。或者如果还有其他选择，请建议。例如：如果我的文字输入是＆＃34;足球是欧洲流行的运动＆＃34; 因此，建议的功能将扫描功能列表（已经在测试数据的帮助下生成），并且如果特征词像＆＃34; football＆＃34;，＆＃34; popular＆＃34;，＆＃34; sport＆＃34;，＆＃34;欧洲＆＃34;它会出现在要附加1的特征列表中，否则为0.因此，在扫描函数后，输出应该像[...，1,0,1,1,0,0,0，... ]

Answer 1

创建一个词汇表，其中包含您感兴趣的单词和相同大小的热编码器。阅读文本文件，并在您找到词汇表中的单词时更新热编码器。这段代码应该有用。

vocabulary = ['Football', 'Europe'] # Put your targer words in here
hot_encoder = [0] * len(vocabulary)
binary_bag = dict(zip(vocabulary, hot_encoder))
with open('text.txt', 'r') as f: #Put your text sample in here
    words = [word for line in f for word in line.split()]
    for word in words:
        if word in vocabulary and binary_bag[word] == 0:
            binary_bag[word] = 1

如何为分类器创建二进制特征向量

1 个答案: