搜索
您的当前位置:首页正文

Python3入门机器学习之10.1决策树和信息熵

来源:步旅网

Python3入门机器学习之

10.1 决策树和信息熵

1.什么是决策树?

2.信息熵:
熵在信息论中代表随机变量不确定度的度量。
熵越大,数据的不确定性越高;熵越小,数据的不确定性越低。
公式如下:

对于一个系统中,可能有k类的信息,每一类信息所占的比例就叫做pi。

举个例子来理解这个公式,如下:

右边的计算结果比左边的小,也就是右边的数据比左边的数据更确定。由于右边的数据中的第三类数据占很大比例,所以右边的数据是更确定的;而左边的数据每个类别各占了1/3,所以这个数据整体它的不确定性越强。

有了信息熵这个概念,上面提到的两个问题就好说了。我们在每一个节点上都希望在每一个维度上基于某一个阈值进行划分,划分后使得信息熵降低。

因篇幅问题不能全部显示,请点此查看更多更全内容

Top