如何计算二进制分类的GINI INDEX?

时间:2013-11-18 21:21:05

标签: machine-learning classification

我正在从以下链接解决GINI INDEX问题编号4.8.2,但我无法理解确切的解决方案。谁能告诉我这个问题编号4.8.2的四个部分是如何在下面的链接中解决的?

http://csucidatamining.weebly.com/assign-4.html

我尝试使用与示例中提到的相同的公式,但不知怎的,我无法理解这是如何运作的。

如果有人对如何计算GINI INDEX有任何了解,请简要告诉我。

2 个答案:

答案 0 :(得分:1)

维基百科有很多背景资料。您应该阅读this

正式地说,基尼尼几乎是微不足道的。它是平方相对金额的总和(=如果随机选择的概率)。

sum( (x/sum(x))**2 )

答案 1 :(得分:0)

这是基尼系数和熵的公式。

thatascience Gini Index and Entropy Formula

# giniscore calculates the score for a node using above formula
def giniscore(node):
    nodesum, percents = calcpercent(node)
    score = round(1 - sum([i**2 for i in percents.values()]), 3)
    print('Gini Score for node {} : {}'.format(node, score))
    return score

其中node是包含类及其数量的字典。

Gini Index Vs Entropy

此链接说明了基尼系数和熵,并举例说明了它们的计算方式。