教学案例 - TipDM · j ¬cÐÑKæLHI i 22..2. 案例描述 ÝçèÜL é Uêë§ ìËì Líîïð½ñ UÐò!óUª| L ôõö ÷ø íûúíUüýùGþ ¿ a i íîïð½ñ¿ß¡ L¾

基于基于基于基于 ID3ID3ID3ID3 决策树算法的葡萄酒分类决策树算法的葡萄酒分类决策树算法的葡萄酒分类决策树算法的葡萄酒分类

教学案例教学案例教学案例教学案例

文件状态： [ ] 草稿 [√] 正式发布 [ ] 正在修改 [ ] 作废文件标识： TipDM_03_009 当前版本： V01.00.000 作者：教培部参与者：研发部完成日期： 2014-07-20 泰迪科技（www.tipdm.com）

1.1.1.1. 概述概述概述概述决策树学习是应用最广的归纳推理算法之一，它是一种逼近离散值目标函数的方法，在这种方法中学习到的函数被表示为一棵决策树。所谓决策树，就是用样本的属性作为结点，用属性的取值作为分支的树结构。决策树的根结点是所有样本中信息量最大的属性。树的中间结点是该结点为根的子树所包含的样本子集中信息量最大的属性。决策树的叶结点是样本的类别值。ID3 算法是决策树算法的最经典的一种，大多数已开发的决策树学习算法都是 ID3算法的变体，它由 Quinlan 首先提出的。该算法是以信息论为基础，以信息熵和信息增益度为衡量标准，从而实现对数据的归纳分类。

ID3 算法的核心是：在决策树各级结点上选择属性时，用信息增益（information gain）作为属性的选择标准，以使得在每一个非叶结点进行测试时，能获得关于被测试记录最大的类别信息。其具体方法是：检测所有的属性，选择信息增益最大的属性产生决策树结点，由该属性的不同取值建立分支，再对各分支的子集递归调用该方法建立决策树结点的分支，直到所有子集仅包含同一类别的数据为止。最后得到一棵决策树，它可以用来对新的样本进行分类。虽然 ID3 算法具有只对比较小的数据集有效，且对噪声比较敏感，当训练数据集加大时，决策树可能会随之改变的缺点，但是这种算法的理论清晰，方法简单，学习能力较强，所以得到比较广泛的应用。

2.2.2.2. 案例描述案例描述案例描述案例描述随着社会的发展，市场上出现越来越多的假冒伪劣产品，，比如前段时间出现的“三鹿奶粉”案，假烟假酒更是层出不穷。这些假冒伪劣产品不但对人民的生命健康造成严重威胁，也扰乱了正常的市场经济秩序，对国家和社会甚至企业造成的损失是不可估量的。假酒在其中占了相当大的一部分，酒有“生命之水”的美誉，因其奇妙作用而得。中华有 6000年酒文化传统，是酿酒和酒类商品消费大国，我国酒民数量高达 5亿多，酒产业，成为我国扩大内需、拉动消费、为 GDP做积极贡献的重要行业。酒有巨大的消费市场，成为不法分子唯利是图的利益趋动，假酒一旦流入市场，即危害人命，更影响酒类生产流通企业形象，削弱了正规酒类产业综合竞争力，冲击好酒消费市场。假酒导致了数起恶性事件，例如 98 年、99 年山西假酒案件假酒数量之大、手段之劣、流散之广、伤亡之多、危害之重是前所未有的，受假酒事件的冲击，山西酒产业净利润大幅下滑，接近亏损的边缘。在俄罗斯，由于假酒泛滥，导致酒类生产和销售体系崩溃，国家长期以来对酒类的监管基本处于失控状态，许多地区已经宣布进入紧急状态，为此，酒安全问题纳入俄政府的议事日程，普京还把酒安全问题提升为“民族健康”的关键，足以看出假酒的危害之大。酒安全问题成了老百姓的心病，假酒成了诟病，另人深恶痛绝。要绝假酒后路，让真酒走上“星光大道”，刻不容缓。随着科学技术的发展，酒类的检测的方法有很多，这里就以葡萄酒的分类为例，说明人工智能的

方法在酒类检测分类中的作用。本案例通过分析酒类化学成分的含量对葡萄酒进行分类。这些数据来自意大利同一地区不同种植园的3种葡萄酒的成分分析样本。容量为178，共有13个属性，分别为酒精度、灰分及其碱度、Mg含量(mg/L ) 、酒的色度、色调、经稀释后的吸光度比值OD280 /OD315 (OD280

/OD315 of diluted wine) 、以及下列成分在葡萄酒中的浓度:苹果酸( g/L ) 、酚类(mg/L) 、黄烷类(mg/L) 、非黄烷类(mg/L) 、原花色素类(mg/L) 、脯氨酸(mg/L) ，样本数据如下：

wine.xls

3.3.3.3. 建模过程建模过程建模过程建模过程本案例通过顶尖数据挖掘平台（http://www.tipdm.cn）实现建模过程。更多关于此软件工具的介绍详见：http://www.tipdm.com

� 方案管理方案管理方案管理方案管理

� 数据管理数据管理数据管理数据管理

� 预处理预处理预处理预处理针对14个评价指标，进行相关性分析。 1、导入样本

2、参数设置

3、属性选择

� 预测建模预测建模预测建模预测建模

1、导入数据导入260条记录作为训练样本，用于建模：

2、参数设置

3、交叉验证

4、模型训练

5、模型验证导入剩下的10条非训练样本来验证模型：

通过实际值和预测值的比对可以看出预测的效果还是蛮不错的。

6、模型预测模型训练并经验证满足所需精度要求后，接下来就可以进行预测了：

更多数据挖掘算法建模过程参见：http://www.tipdm.org/information/index.jhtml

Documents

教学案例 - TipDM · j ¬cÐÑKæLHI i 22..2. 案例描述 ÝçèÜL é Uêë§ ìËì Líîïð½ñ UÐò!óUª| L ôõö ÷ø íûúíUüýùGþ ¿ a i íîïð½ñ¿ß¡ L¾