Question

我正在使用weka构建随机森林模型。我的数据存储在MySQL数据库中。我找不到直接从DB创建weka数据集（'Instances'对象）的方法（至少不是简单的），所以我查询数据库并使用此代码将数据操作到weka数据集（Instances）：

    List<MetadataRecord> metadata = acquireMetadata(); // Loading from DB

    int datasetSize = metadata.size();
    int numFeatures = MetadataRecord.FEATURE_NUM;  // Currently set to 14

    ArrayList<Attribute> atts = new ArrayList<Attribute>();
    List<Instance> instances = new ArrayList<Instance>();
    for (int feature = 0; feature < numFeatures; feature++) {
        Attribute current = new Attribute("Attribute" + feature, feature);
        if (feature == 0) {
            for (int obj = 0; obj < datasetSize; obj++) {
                instances.add(new SparseInstance(numFeatures));
            }
        }

        for (int obj = 0; obj < datasetSize; obj++) {
            MetadataRecord record = metadata.get(obj);
            Instance inst = instances.get(obj);
            switch (feature) {
            case 0:
                inst.setValue(current, record.labelId);
                break;
            case 1:
                inst.setValue(current, record.isSecured ? 2 : 1);
                break;
            case 2:
                inst.setValue(current, record.pageCount);
                break;
                // Spared cases 3-13...
            }
        }
        atts.add(current);
    }

    Instances newDataset = new Instances("Metadata", atts, instances.size());

    for (Instance inst : instances) {
        newDataset.add(inst);
    }
    newDataset.setClassIndex(0);

大多数数据输入为“数字”，而我需要一些功能（第一和第二）是分类（或“标称”，根据weka术语）。我尝试使用过滤器将它们转换为名义值：

    NumericToNominal nomFilter = new NumericToNominal();
    nomFilter.setAttributeIndicesArray(new int[] { 0, 1 });
    nomFilter.setInputFormat(newDataset);
    newDataset = Filter.useFilter(newDataset, nomFilter);

这很有效，但令人惊讶的是，在调试数据集时，有些数据会丢失！

在应用过滤器之前：

@attribute Attribute0 numeric
@attribute Attribute1 numeric
@attribute Attribute2 numeric
// Spared the other 10 Attributes
@data
{0 1005,1 1,2 19,3 1123,4 7,5 25,6 0.66,7 49,8 2892.21,9 5.32,10 22.63,11 0.4,12 48.95,13 5.29}

应用过滤器后：

@attribute Attribute0 {0,2,3,4,5,6,7,9,11,12,18,22,23,24,25,35,36,39,40,45,51,56,60,67,68,69,78,79,83,84,85,88,94,98,126,127,128,1001,1003,1004,1005,1007,1008,1009,1012,1013,1017,1018,1019,1022}
@attribute Attribute1 {1,2}
@attribute Attribute2 numeric
// Spared the other 10 Attributes
@data
{0 1005,2 19,3 1123,4 7,5 25,6 0.66,7 49,8 2892.21,9 5.32,10 22.63,11 0.4,12 48.95,13 5.29}

为什么我会丢失第二个属性的值？

Answer 1

该功能不会丢失，它只是未明确包含在您的输出中，因为它是稀疏格式。看看ARFF：

稀疏ARFF文件与ARFF文件非常相似，但数值为0的数据未明确表示。

稀疏ARFF文件具有相同的标题（即@relation和@attribute标记），但数据部分不同。而不是按顺序表示每个值，如下所示：
@data
0, X, 0, Y, "class A"
0, 0, W, 0, "class B"
非零属性由属性编号及其值表示，如下所示：
@data
{1 X, 3 Y, 4 "class A"}
{2 W, 4 "class B"}
每个实例都用大括号括起来，每个条目的格式为：其中index是属性索引（从0开始）。

请注意，稀疏实例中省略的值为0，它们不是“缺失”值！如果值未知，则必须使用问号（？）明确表示该值。

特别是最后一句很重要。您的Attribute1有两个可能的值，1和2.因为它现在是名义值，所以值1的索引为0.并且索引为0的值将被省略。

再次：这只是内存中的表示以及将其打印到文件或屏幕时的表示。数据集的实际内容没有变化。

Weka过滤器会导致数据丢失

1 个答案: