我有标签编码我的数据集,其中包含大约100多个不同的字符串。
那么,有什么办法可以在原始字符串旁边找到标签列表。
例如:
apple --> 3
orange --> 4
pear --> 1
答案 0 :(得分:1)
来自sklearn.preprocessing.LabelEncoder
的文档:
类_ :形状数组(n_class,) 为每个班级保留标签。
从中构建dict
应该是微不足道的。
根据经验,sklearn阶段通常会将此类信息保留在以下划线结尾的某些成员中(例如,在这种情况下为classes_
)。
示例强>
from sklearn import preprocessing
>>> preprocessing.LabelEncoder().fit(['apply', 'banana']).classes_
array(['apply', 'banana'],
dtype='|S6')