machine-learning - 如何预测表达目标类概率的连续因变量？

时间：2014-10-28 08:55:44

标签： machine-learning scikit-learn classification regression

我的样本可以属于0级或1级，但对于我的一些样本，我只有他们属于1级的概率。到目前为止，我通过应用阈值即所有y来离散我的目标变量。＆gt; = t我分配到第1类，我已经丢弃了所有具有非零概率的样本属于第1类。然后我使用scitkit-learn为数据拟合了线性SVM。

因为这样我通过了相当多的训练数据。我的一个想法是省略离散化并使用回归，但通常通过回归来进行分类并不是一个好主意，例如它不能保证预测值在区间[0,1]中。

顺便说一下，我的特征x的性质与其中一些特征相似，我也只有相应特征存在的概率。对于错误，如果我以与离散化因变量相同的方式离散化我的特征，它并没有产生很大的不同。

答案 0 :(得分：0)

您可以使用样本加权对此进行近似 - 将样本分配给具有最高概率的类，但通过其实际归属概率对样本进行加权。许多scikit-learn估算器允许这样做。

示例：

X = [1,2,3,4] - >具有概率.7的0级将变为X = [1,2,3,4] y = [0]，样本权重为.7。您也可以规范化，因此样本权重介于0和1之间（因为在此方案中，概率和样本权重仅为.5到1）。您还可以结合非线性惩罚来“强化”高概率样本的影响。