如何预测表达目标类概率的连续因变量?

时间:2014-10-28 08:55:44

标签: machine-learning scikit-learn classification regression

我的样本可以属于0级或1级,但对于我的一些样本,我只有他们属于1级的概率。到目前为止,我通过应用阈值即所有y来离散我的目标变量。 > = t我分配到第1类,我已经丢弃了所有具有非零概率的样本属于第1类。然后我使用scitkit-learn为数据拟合了线性SVM。

因为这样我通过了相当多的训练数据。我的一个想法是省略离散化并使用回归,但通常通过回归来进行分类并不是一个好主意,例如它不能保证预测值在区间[0,1]中。

顺便说一下,我的特征x的性质与其中一些特征相似,我也只有相应特征存在的概率。对于错误,如果我以与离散化因变量相同的方式离散化我的特征,它并没有产生很大的不同。

1 个答案:

答案 0 :(得分:0)

您可以使用样本加权对此进行近似 - 将样本分配给具有最高概率的类,但通过其实际归属概率对样本进行加权。许多scikit-learn估算器允许这样做。

示例:

X = [1,2,3,4] - >具有概率.7的0级将变为X = [1,2,3,4] y = [0],样本权重为.7。您也可以规范化,因此样本权重介于0和1之间(因为在此方案中,概率和样本权重仅为.5到1)。您还可以结合非线性惩罚来“强化”高概率样本的影响。