lib——基于的数据挖掘解决方案（）——分类之决策树阅读清单腾讯云开发者社区|褶皱的基本概念_褶皱构造

决策树（Decision Tree）又称为分类树（Classification Tree），是最为广泛的归纳推理算法之一，处理类别型或连续型变量的分类预测问题，可以用图形和if-then的规则表示模型，可读性较高。决策树模型通过不断地划分数据，使因变量的差别最大，最终目的是将数据分类到不同的组织或不同的分枝，在因变量的值上建立最强的归类。

决策树是一种监督式的学习方法，产生一种类似流程图的树结构。决策树对数据进行处理是利用归纳算法产生分类规则和决策树，再对新数据进行预测分析。树的终端节点“叶节点”（Leaf Node），表示分类结果的类别（Class），每个内部节点表示一个变量的测试，分枝（Branch）为测试输出，代表变量的一个可能数值。为达到分类目的，变量值在数据上测试，每一条路径代表一个分类规则。

决策树在数据挖掘领域应用非常广泛，尤其在分类问题上是很有效的方法。除具备图形化分析结果易于了解的优点外，决策树还具有以下优点：

决策树构建的主要步骤有三个：第一是选择适当的算法训练样本构建决策树，第二是适当地修剪决策树，第三则是从决策树中萃取知识规则。

决策树是通过递归分割（Recursive Partitioning）建立而成，递归分割是一种把数据分割成不同小的部分的迭代过程。构建决策树的归纳算法如下：

如果有以下情况发生，决策树将停止分割：

决策树学习主要利用信息论中的信息增益（Information Gain），寻找数据集中有最大信息量的变量，建立数据的一个节点，再根据变量的不同值建立树的分枝，每个分枝集中重复建树的下层结果和分枝的过程，一直到完美建立整株决策树。决策树的每一条路径代表一个分类规则，与其它分类模型相比，决策树的最大优势在于模型图形化，让使用者容易理解，模型解释也更容易。

在树的每个节点上，使用信息增益选择测试的变量，信息增益是用来衡量给定变量区分训练样本的能力，选择最高信息增益或最大熵（Entropy）简化的变量，将之视为当前节点的分割变量，该变量促使需要分类的样本信息量最小，而且反映了最小随机性或不纯性（Impurity）。

若某一事件发生的概率是p，令此事件发生后所得的信息量为I(p)，若p=1，则I(p)=0，因为某一事件一定会发生，因此该事件发生不能提供任何信息。反之，如果某一事件发生的概率很小，不确定性很大，则该事件发生带来的信息很多，因此I(p)为递减函数，并定义I(p)=-log(p)。

给定数据集S，假设类别变量A有m个不同的类别

。利用变量A将数据集分为m个子集

，其中

表示在S中属于

的样本。在分类过程中，对于每个样本，对应m种可能发生的概率为

，记第i 种结果的信息量为

，称为分类信息的熵。熵是测量一个随机变量不确定性的测量标准，可以用来测量训练数据集内纯度（Purity）的标准。熵的函数表示如下式：

其中，

是任意样本属于

的概率，对数函数以2为底，因为信息用二进制编码。

变量训练分类数据集的能力，可以利用信息增益来测量。算法计算每个标量的信息增益，具有最高信息增益的变量选为给定集合S 的分割变量，产生一个节点，同时以该变量为标记，对每个变量值产生分枝，以此划分样本。

决策树学习可能遭遇模型过度适配（Overfitting）的问题，过度适配是指模型过度训练，导致模型记住的不是训练集的一般性，而是训练集的局部特性。模型过度适配，将导致模型预测能力不准确，一旦将训练后的模型运用到新数据，将导致错误预测。因此，完整的决策树构造过程，除了决策树的构建外，还应该包含树剪枝（Tree Pruning），解决和避免模型过度适配的问题。

当决策树产生时，因为数据中的噪声或离群值，许多分枝反映的是训练资料中的异常情形，树剪枝就是在处理这些过度适配的问题。树剪枝通常使用统计测量值剪去最不可靠的分枝，可用的统计测量有卡方值或信息增益等，如此可以加速分类结果的产生，同时也可提高测试数据能够正确分类的能力。

树剪枝有两种方法：先剪枝（Prepruning）和后剪枝（Postpruning）。先剪枝是通过提前停止树的构造来对树剪枝，一旦停止分类，节点就成为树叶，该树叶可能持有子集样本中次数最高的类别。在构造决策树时，卡方值和信息增益等测量值可以用来评估分类的质量，如果在一个节点划分样本，将导致低于预先定义阈值的分裂，则给定子集的进一步划分将停止。选取适当的阈值是很困难的，较高的阈值可能导致过分简化的树，但是较低的阈值可能使得树的简化太少。后剪枝是由已经完全生长的树减去分枝，通过删减节点的分枝剪掉树节点，最底下没有剪掉的节点成为树叶，并使用先前划分次数最多的类别作标记。对于树中每个非树叶节点，算法计算减去该节点上的子树可能出现的期望错误率。再使用每个分枝的错误率，结合每个分枝观察的权重评估，计算不对该节点剪枝的期望错误率。如果减去该节点导致较高的期望错误率，则保留该子树，否则剪去该子树。产生一组逐渐剪枝后的树，使用一个独立的测试集评估每棵树的准确率，就能得到具有最小期望错误率的决策树。也可以交叉使用先剪枝和后剪枝形成组合式，后剪枝所需的计算比先剪枝多，但通常产生可靠的树。

决策树归纳算法必须为不同类型的属性提供表示属性测试条件和其对应输出的方法。

二元属性的测试条件产生两个可能的输出，如图1所示。

图1 二元属性的测试条件

由于标称属性有多个属性值，它的测试条件可以用两种方法表示。如图2所示。对于多路划分（图2a），其输出数取决于该属性不同值的个数。例如，如果属性婚姻状况有三个不同的属性值——单身、已婚、离异，则它的测试条件就会产生一个三路划分。另一方面，某些决策树算法（如CART）只产生二元划分，它们考虑创建k个属性值的二元划分的所有

种方法。图2b显示了把婚姻状况的属性划分为两个子集的三种不同的分组方法。

（a）多路划分

（b）二元划分（通过属性值分组）

图2 标称属性的测试条件

序数属性也可以产生二元或多路划分，只要不违背序数属性值的有序性，就可以对属性值进行分组。图3显示了按照属性“衬衣尺码”划分训练记录的不同方法。图3a和图3b中的分组保持了属性值间的序关系，而图3c所示的分组则违反了这一性质，因为它把“小号”和“大号”分为一组，把“中号”和“大号”放在另一组。

图3 序数属性值分组的不同方式

对于连续属性来说，测试条件可以是具有二元输出的比较测试

，也可以是具有形如

输出的范围查询，图4显示了这些方法的差别。对于二元划分，决策树算法必须考虑所有可能的划分点

，并从中选择产生最佳划分的点。对于多路划分，算法必须考虑所有可能的连续值区间。可以采用离散化的策略，离散化之后，每个离散化区间赋予一个新的序数值，只要保持有序性，相邻的值还可以聚集成较宽的区间。

图4 连续属性的测试条件

有很多度量可以用来确定划分记录的最佳方法，这些度量用划分前和划分后记录的类分布定义。

表示给定节点t中属于类i的记录所占的比例，有时，我们省略节点t，直接用

表示该比例。在两类问题中，任意节点的类分布都可以记作

，其中

。例如，考虑图5中的测试条件，划分前的类分布是(0.5,0.5)，因为来自每个类的记录数相等。如果使用“性别”属性来划分数据，则子节点的类分布分别为(0.6,0.4)和(0.4,0.6)，虽然划分后两个类的分布不再平衡，但是子节点仍然包含两个类的记录；按照第二个属性“车型”进行划分，将得到纯度更高的划分。

图5 多路划分与二元划分

选择最佳划分的度量通常是根据划分后子节点的不纯性的程度。不纯的程度越低，类分布就越倾斜。例如，类分布为(0,1)的节点具有零不纯性，而均衡分布(0.5,0.5)的节点具有最高的不纯性。不纯性度量的例子包括：

其中c是类的个数，并且在计算熵时，

。下面给出三种不纯性度量方法的计算实例。

从上面的例子可以看出，不同的不纯性度量是一致的。根据计算，节点

具有最低的不纯性度量值，接下来依次是

。虽然结果一致，但作为测试条件的属性选择仍然因不纯性度量的选择而异。

为了确定测试条件的效果，我们需要比较父节点（划分前）的不纯程度和子节点（划分后）的不纯程度，它们的差越大，测试条件的效果越好。增益

是一种可以用来确定划分效果的标准：

其中，

是给定节点的不纯性度量，N 是父节点上的记录数，k 是属性值的个数，

是与子节点

的测试条件，因为对所有的测试条件来说，

是一个不变的值，所以最大化增益等价于最小化子节点的不纯性度量的加权平均值。当选择熵（entropy）作为不纯性度量时，熵的差就是所谓信息增益（informationgain）

熵和Gini指标等不纯性度量趋向有利于具有最大不同值的属性。图5显示了三种可供选择的测试条件。第一个测试条件“性别”与第二个测试条件“车型”相比，容易看出“车型”似乎提供了更好的划分数据的方法，因为它产生更纯的派生节点。然而，如果将这两个条件与“顾客ID”相比，后者看来产生更纯的划分，但“顾客ID”却不是一个有预测性的属性，因为每个样本在该属性上的值都是唯一的。即使在不太极端的情形下，也不会希望产生大量输出的测试条件，因为与每个划分相关联的记录太少，以致不能做出可靠的预测。

解决该问题的策略有两种。第一种策略是限制测试条件只能是二元划分，CART这样的决策树算法采用的就是这种策略；另一种策略是修改评估划分的标准，把属性测试条件产生的输出数也考虑进去。例如，决策树算法4.5采用称作增益率（gain ratio）的划分标准来评估划分。增益率定义如下：

其中，划分信息

，而k 是划分的总数。例如，如果每个属性值具有相同的记录数，则

，而划分信息等于

。这说明如果某个属性产生了大量的划分，它的划分信息将会很大，从而降低了增益率。

决策树算法基本上是一种贪心算法，采取由上至下的逐次搜索方式，渐次产生决策树模型结构。划分数据集的最大原则是：使无序的数据变得有序。如果一个训练数据中有20个特征，那么选取哪个作为划分依据？这时必须采用量化的方法来判断，常用的量化划分方法是“信息论度量信息分类”。基于信息论的决策树算法有ID3、C4.5和CART等算法，其中C4.5和CART两种算法从ID3算法中衍生而来。

C4.5和CART支持数据特征为连续分布时的处理，主要通过使用二元切分来处理连续型变量，即求一个特定的值-分裂值：特征值大于分裂值就走左子树，否则就走右子树。这个分裂值的选取原则是使得划分后的子树中的“混乱程度”降低，具体到C4.5和CART算法则有不同的定义方式。

ID3算法由Ross Quinlan发明，建立在“奥卡姆剃刀”的基础上：越是小型的决策树越优于大的决策树（be simple简单理论）。ID3算法中根据信息论的信息增益评估和选择特征，每次选择信息增益最大的特征做判断属性。ID3算法可用于划分标称型数据集，没有剪枝的过程，为了去除过度数据匹配的问题，可通过裁剪合并相邻的无法产生大量信息增益的叶子节点（例如设置信息增益阀值）。使用信息增益有一个缺点，那就是它偏向于具有大量值的属性，就是说在训练集中，某个属性所取的不同值的个数越多，那么越有可能拿它来作为分裂属性，而这样做有时候是没有意义的，最典型的就是自增ID序列。另外ID3不能处理连续分布的数据特征，于是就有了C4.5算法。

C4.5是ID3的一个改进算法，它继承了ID3算法的优点。C4.5算法用信息增益率来选择属性，克服了用信息增益选择属性时偏向选择取值多的属性的不足，在树构造过程中进行剪枝；能够完成对连续属性的离散化处理；也能对不完整数据进行处理。C4.5算法产生的分类规则易于理解、准确率较高，但效率低，因树构造过程中，需要对数据集进行多次的顺序扫描和排序。也是因为必须多次数据集扫描，C4.5只适合于能够驻留于内存的数据集。

CART算法的全称是Classification And Regression Tree，采用的是Gini指数（选Gini指数最小的特征s）作为分裂标准,同时它也包含后剪枝操作。ID3算法和C4.5算法虽然在对训练样本集的学习中可以尽可能多地挖掘信息，但其生成的决策树分支较大。为了简化决策树的规模，提高生成决策树的效率，就出现了根据Gini系数来选择测试属性的决策树算法CART。MADlib中的决策树训练函数使用的就是CART算法。

决策树最为显著的优点在于，利用它来解释一个受训模型是非常容易的，而且算法将最为重要的判断因素都很好地安排在了靠近树根位置。这意味着，决策树不仅对分类很有价值，而且对决策过程的解释也很有帮助。像贝叶斯分类器一样，可以通过观察内部结构来理解它的工作方式，同时这也有助于在分类过程之外进一步作出其它的决策。

因为决策树要寻找能够使信息增益最大化的分界线，因此它也可以接受数值型数据作为输入。能够同时处理分类数据和数值数据，对于许多问题的处理都是很有帮助的——这些问题往往是传统的统计方法（比如回归）所难以应对的。另外，决策树并不擅长对数值结果进行预测。一棵回归树可以将数据拆分成一系列具有最小方差的均值，但是如果数据非常复杂，则树就会变得非常庞大，以至于我们无法借此来做出准确的决策。

与贝叶斯决策相比，决策树的主要优点是它能够很容易地处理变量之间的相互影响。一个用决策树构建的垃圾邮件过滤器可以很容易地判断出：“online”和“pharmacy”在分开时并不代表垃圾信息，担当它们组合在一起时则为垃圾信息。

MADlib中有三个决策树函数，分别为训练函数、预测函数和显示函数。训练函数接收输入的训练数据进行学习，生成决策树模型。预测函数用训练函数生成的决策树模型预测数据的所属分类。显示函数用来显示决策树模型。

（1）语法

（2）参数

参数名称

数据类型

描述

training_table_name

TEXT

训练数据输入表名

output_table_name

TEXT

包含决策树模型的输出表名，如果表已经存在则报错。输出表列如表2所示。

id_col_name

TEXT

训练数据中，含有ID信息的列名。这是一个强制参数，用于预测和交叉验证。每行的ID值应该是唯一的。

dependent_variable

TEXT

包含用于训练的输出列名。分类的输出列是boolean、integer或text类型，回归的输出列是double precision类型。决策树的因变量可以为多个，训练函数的时间和空间复杂度，会随着因变量数量的增加呈线性增长。

list_of_features

TEXT

逗号分隔字符串，用于预测的特征列名，也可以用‘*’表示所有列都用于预测（除下一个参数中的列名外）。特征列的类型可以是boolean、integer、text或double precision。

list_of_features_to_exclude

TEXT

逗号分隔字符串，不用于预测的列名。如果自变量是一个表达式（包括列的类型转换），那么这个列表中应该包括用于自变量表达式的所有列名，否则那些列将被包含在特征中。

split_criterion

TEXT

缺省值为‘gini’，用于分类，而‘mse’用于回归。不纯度函数计算用于分裂的特征值。分类树支持的标准有‘gini’、‘entropy’或‘misclassification’，回归树的分裂标准总是使用‘mse’。

grouping_cols（可选）

TEXT

缺省值为NULL，逗号分隔字符串，分组的列名。将为每个分组产生一棵决策树。

weights（可选）

TEXT

权重列名

max_depth（可选）

INTEGER

缺省是10。最终决策树的最大深度，根的深度为0。

min_split（可选）

INTEGER

缺省值为20。一个试图被分裂的节点中，必须存在的元组的最小数量。此参数的最佳值取决于数据集的元组数目。

min_bucket（可选）

INTEGER

缺省值为min_split/3。任何叶节点对应的最小元组数量。如果min_split和min_bucket只指定一个，那么min_split设置成min_bucket*3，或者min_bucket设置成min_split/3。

num_splits（可选）

INTEGER

pruning_params（可选）

TEXT

逗号分隔的键-值对，用于决策树剪枝，当前接受的值为： cp：缺省值为0。cp全称为complexity parameter，指某个点的复杂度，对每一步拆分，模型的拟合优度必须提高的程度。试图分裂一个节点时，分裂增加的精确度必须提高cp，才进行分裂，否则剪枝该节点。该参数值用于在运行检查验证前，创建一棵初始树。 n_folds：缺省值为0。用于计算cp最佳值的交叉验证褶皱数。为执行交叉验证，n_folds的值应该大于2。执行交叉验证时，会产生一个名为<model_table>_cv的输出表，其中包含估计的cp值和交叉验证错误。输出表中返回的决策树对应具有最少交叉错误的cp（如果多个cp值有相同的错误数，取最大的cp）。

surrogate_params

TEXT

逗号分隔的键值对，控制替代分裂点的行为。替代变量是与主预测变量相关的另一种预测变量，当主预测变量的值为NULL时使用替代变量。此参数当前接受的值为： max_surrogates 缺省值为0，每个节点的替代变量数。

verbosity

BOOLEAN

是否提供训练结果的详细输出，缺省值为FALSE。

表1 tree_train函数参数说明

训练函数生成的模型表具有以下列：

列名

数据类型

描述

<...>

TEXT

当提供了grouping_cols入参时，该列存储分组列，依赖于grouping_cols入参的值，可能有多列，类型与训练表相同。

tree

BYTEA8

二进制格式存储的决策树模型。

cat_levels_in_text

TEXT[]

分类变量的层次。

cat_n_levels

INTEGER[]

每个分类变量的层号。

tree_depth

INTEGER

剪枝前的决策树最大深度（根的深度为0）。

pruning_cp

FLOAT8[]

用于剪枝决策树的复杂性成本参数。如果使用交叉验证，该值应与pruning_params入参的值不同。

表2 tree_train函数输出模型表列

生成模型表的同时还会生成一个名为<model_table>_summary的概要表，具有以下列：

列名

数据类型

描述

method

TEXT

值为‘tree_train’。

is_classification

BOOLEAN

用于分类时为TRUE，用于回归时为FALSE。

source_table

TEXT

源表名。

model_table

TEXT

模型表名。

id_col_name

TEXT

ID列名。

dependent_varname

TEXT

因变量。

independent_varname

TEXT

自变量。

cat_features

TEXT

逗号分隔字符串，分类特征名称列表。

con_features

TEXT

逗号分隔字符串，连续特征名称列表。

grouping_col

TEXT

分组列名。

num_all_groups

INTEGER

训练决策树时的总分组数。

num_failed_groups

INTEGER

训练决策树时失败的分组数。

total_rows_processed

BIGINT

所有分组处理的总行数。

total_rows_skipped

BIGINT

所有分组中因为缺少值或失败而跳过的总行数。

dependent_var_levels

TEXT

对于分类，因变量的不同取值。

dependent_var_type

TEXT

因变量类型。

input_cp

FLOAT8[]

交叉验证前，用于剪枝决策树的复杂度参数。与pruning_params入参输入的值相同。

independent_var_types

TEXT

逗号分隔字符串，自变量类型。

表3 tree_train函数输出概要表列

（3）提示

（1）语法

（2）参数

参数名称

数据类型

描述

tree_model

TEXT

包含决策树模型的表名，应该是决策树训练函数的输出表。

new_data_table

TEXT

包含被预测数据的表名。该表应该和训练表具有相同的特征，也应该包含用于标识每行的id_col_name。

output_table

TEXT

预测结果的输出表名，如果表已经存在则报错。表中包含标识每个预测的id_col_name列，以及每个因变量的预测列。如果type = 'response'，表有单一预测列。此列的类型依赖于训练时使用的因变量的类型。如果type = 'prob'，每个因变量对应多列，每列表示因变量的一个可能值。列标识为‘estimated_prob_dep_value’，其中dep_value表示对应的因变量值。

type（可选）

TEXT

缺省值为‘response’。对于回归树，输出总是因变量的预测值。对于分类树，变量类型可以是‘response’或‘prob’。

表4 tree_predict函数参数说明

显示函数输出一个决策树的格式化表示。输出可以是dot格式，或者是一个简单的文本格式。dot格式可以使用GraphViz等程序进行可视化。

（1）语法

还有一个显示函数输出为每个内部节点选择的替代分裂点：

（2）参数

参数名称

数据类型

描述

tree_model

TEXT

含有决策树模型的表名。

dot_format

BOOLEAN

缺省值为TRUE，使用dot格式，否则输出文本格式。

verbosity

BOOLEAN

缺省值为FALSE。如果设置为TRUE，dot格式输出中包含附加信息，如不纯度、样本大小、每个因变量的权重行数、被剪枝的分类或预测等。输出总是返回文本形式，对于dot格式，可以重定向输出到客户端文件，然后使用可视化程序处理。

表5 tree_display函数参数说明

创建dt_golf表，将14条数据插入dt_golf表中。

（1）查询概要表

说明：

（2）查询决策树表

说明：

（3）以dot格式显示决策树

生成dot文件后，使用第三方图形软件GraphViz画出决策树，执行以下shell命令：

生成的决策树如图6所示。

图6 图形化显示dot格式决策树

图中显示的决策树与文本的输出一致，矩形为叶子节点，椭圆形为内部测试节点。除了文本输出的信息外，图中还多了一个impurity，代表不纯度，是指将来自集合中的某种结果随机应用在集合中，某一数据项的预期误差率。不纯度越小，集合的有序程度越高，分类的效果越好。叶子节点的不纯度为0。

本例中的四个自变量中，天气情况是具有三个值的标称属性，温度、湿度是连续数值属性，而是否有风为二元属性。下面我们手工计算Gini指标，验证上图决策树的划分。

1. 整个训练样本集关于类属性的Gini值

2. 天气情况的信息增益

正如前面提到的，标称属性可以产生二元划分和多路划分，由于MADlib使用的是CART算法，因此采用二元划分。天气情况有sunny、overcast、rain三种取值，因此有三种二元划分：{sunny} {overcast，rain}，{sunny，overcast} {rain}，{sunny，rain} {overcast}。每种划分的Gini指标计算如下：

天气情况

sunny

overcast，rain

Play数

Don’t Play数

Gini

0.48

0.3457

加权平均的Gini

5/14*0.48 + 9/14*0.3457 = 0.3937

天气情况

sunny，overcast

rain

Play数

Don’t Play数

Gini

0.4444

0.48

加权平均的Gini

9/14*0.4444 + 5/14*0.48 = 0.4571

天气情况

sunny，rain

overcast

Play数

Don’t Play数

Gini

0.5

加权平均的Gini

10/14*0.5 + 4/14*0 = 0.3571

第三种划分得到的Gini值最小，信息增益最大，因此如果按照“天气情况”，应该按第三种划分。

3. 是否有风的信息增益

是否有风

TRUE

FALSE

Play数

Don’t Play数

Gini

0.5

0.375

加权平均的Gini

6/14*0.5 + 8/14*0.375 = 0.4286

由于Gini指标大于天气情况划分，增益小于天气划分，故不作为优先的划分方法。

4. 温度增益

排序后的温度

划分点

Play数

Don’t Play数

Gini

加权平均的Gini

0.0000

0.4396

0.4734

0.5000

0.4523

0.4444

0.4589

0.4628

0.3750

0.4500

0.4800

0.3200

0.4317

0.4938

0.4444

0.4583

0.4688

0.4583

0.4444

0.4200

0.4429

0.5000

0.4628

0.4589

0.4444

0.4523

0.5000

0.4260

0.3956

0.0000

0.4592

0.0000

显然，每种温度划分的信息增益都小于天气情况（{sunny，rain} {overcast}）。

5. 湿度增益

排序后的湿度

划分点

Play数

Don’t Play数

Gini

加权平均的Gini

0.0000

0.4396

0.4734

0.3750

0.4500

0.4800

0.3200

0.4317

0.4938

0.2778

0.4048

0.5000

0.3457

0.3937

0.4800

0.4200

0.4429

0.5000

0.4444

0.4523

0.5000

0.4734

0.4396

0.0000

0.4592

0.0000

显然，每种湿度划分的信息增益都小于天气情况（{sunny，rain} {overcast}）。

根据以上信息增益情况，MADlib的决策树函数首次选择{sunny，rain} {overcast}划分。同理，按照同样的Gini指标方式计算，递归构造出整颗决策树。

（4）查询交叉验证结果表

可以看到，随着cp值的增大，剪枝增多，精度降低。

5. 分析决策树

分类树算法可以通过特征，找出最好地解释因变量class（是否打高尔夫球）的方法。

这就通过分类树给出了一个解决方案。小王在晴天、雨天并且气温过高或过低时解雇了大部分员工，因为这种天气不会有人打高尔夫。而其他的天气会有很多人打高尔夫，因此可以雇用一些临时员工来工作。

6. 用决策树模型进行预测

从交叉验证结果看，即便是初始cp=0，得到的标准差仍然较大，这和我们的样本数据过少有关。从本示例的分析中就可以看到，65到70度、72到75度会打高尔夫，而70到72度之间没人打，这个预测显然有悖常理。现在就用此模型预测一下原始数据，再和实际情况对比一下。这里只是演示一下如何用模型进行预测，实践中训练数据集与预测数据集相同意义不大。

THE END

lib——基于的数据挖掘解决方案（）——分类之决策树阅读清单腾讯云开发者社区

服装结构设计基础

干货关于地理坐标系投影坐标系，那些必须知道的事儿~赤道等角正轴投影面

易漏诊的isfranc损伤，八个知识点全面解析！德医医学

什么是换填垫层法

lib——基于的数据挖掘解决方案（）——分类之决策树阅读清单腾讯云开发者社区

煤矿地质测量精要pptx