博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
决策树算法
阅读量:6081 次
发布时间:2019-06-20

本文共 885 字,大约阅读时间需要 2 分钟。

上次的随机逻辑回归模型是发掘自变量和因变量的线型相关,决策树和神经网络是非线型关系变量的筛选.

#-*- coding: utf-8 -*-import pandas as pdinputfile = '../data/sales_data.xls'data = pd.read_excel(inputfile, index_col = u'序号')#将类别标签好/是/高,转化为1,-1data[data == u'好'] = 1data[data == u'是'] = 1data[data == u'高'] = 1data[data != 1] = -1x = data.iloc[:,:3].as_matrix().astype(int) #读取前三列作为自变量y = data.iloc[:,3].as_matrix().astype(int) #读取第三列作为因变量,并转为为整型数据from sklearn.tree import DecisionTreeClassifier as DTCdtc = DTC(criterion='entropy') #基于信息增益dtc.fit(x, y) #训练模型#训练完毕,输出结果可视化from sklearn.tree import export_graphvizx = pd.DataFrame(x)from sklearn.externals.six import StringIOx = pd.DataFrame(x)with open("tree.dot", 'w') as f:  f = export_graphviz(dtc, feature_names = x.columns, out_file = f)

用的是决策树算法中的ID3算法(基于信息熵),最终使分类后的数据集的熵最小,C4.5决策树算法利用信息增益率划分数据集,CART决策树算法是利用Gini(基尼)指数划分数据集

转载于:https://www.cnblogs.com/hanshuai0921/p/9150896.html

你可能感兴趣的文章
大麦网疑遭“脱裤” 600余万用户信息被售卖
查看>>
Hive Export和Import介绍及操作示例
查看>>
http://mongoexplorer.com/ 一个不错的 mongodb 客户端工具。。。
查看>>
coreseek使用
查看>>
Deployment Groups Object Number
查看>>
面试题
查看>>
Xcode 4.3 使用xcodebuild命令编译项目环境设置
查看>>
大数据时代汽车行业CRM营销-李晓明,勒卡斯
查看>>
章文嵩-构建云计算平台的实践
查看>>
Sql delete 语句时表别名写法
查看>>
EGOTextView
查看>>
redis监控客户端redis-cli
查看>>
hibernate中拦截器与事件监听器的区别
查看>>
一个简单的电话本程序,支持添加和查找功能。
查看>>
使用堆栈实现括号的匹配
查看>>
超强壮的RSA加密Android短信
查看>>
MyEclipse中把选中的一部分代码变成全部大写或小写快捷键
查看>>
图片缩放
查看>>
自定义表单中计算控件的插件代码
查看>>
Java中的代理的使用
查看>>