您现在的位置是:首页 > 编程 > 

python在Scikit

2025-07-22 16:22:33
python在Scikit 原文链接:/?p=5222在本文中,我们将以Scikit-learn的决策树和随机森林预测BA获胜者。美国国家篮球协会(BA)是北美主要的男子职业篮球联赛,被广泛认为是首屈一指的男子职业篮球联赛在世界上。它有0个队(美国29个,加拿大1个)(点击文末“阅读原文”获取完整代码数据)。相关视频在常规赛期间,每支球队打82场比赛,每场41场。一支球队每年会有四次面对对手

python在Scikit

原文链接:/?p=5222

在本文中,我们将以Scikit-learn的决策树和随机森林预测BA获胜者。美国国家篮球协会(BA)是北美主要的男子职业篮球联赛,被广泛认为是首屈一指的男子职业篮球联赛在世界上。它有0个队(美国29个,加拿大1个)点击文末“阅读原文”获取完整代码数据)。

相关视频

在常规赛期间,每支球队打82场比赛,每场41场。一支球队每年会有四次面对对手(16场比赛)。每个小组在其四次(24场比赛)中的其他两个小组中的六个小组中进行比赛,其余四个小组三次(12场)进行比赛。最后,每个队都会在另一场比赛中两次参加所有的球队(0场比赛)。

用决策树和随机森林预测BA获胜者

代码语言:javascript代码运行次数:0运行复制
#导入数据集并解析日期
df = pd.read\_csv("BA\_",parse_dates=\["Date"\])

从描述中,我们可以计算概率。在每场比赛中,主队和客队都有一半概率赢得比赛。

预测类

在下面的代码中,我们将指定我们的分类。这将帮助我们查看决策树分类的预测是否正确。如果主队获胜,我们将指定我们的等级为1,如果访客队在另一个名为“主队赢”的列中获胜,我们将指定为0。

代码语言:javascript代码运行次数:0运行复制
df\["Home Team Win"\] = df\["Visitor Points"\] < df\["Home Points"\]

主队胜率:58.4%

数组现在拥有scikit-learn可以读取的格式。

特征工程

我们将创建以下功能来帮助我们预测BA的获胜者。

无论是来访者还是主队都赢得了最后一场比赛。

01

02

0

04

哪个队更好?

scikit-learn软件包实现CART(分类和回归树)算法作为其默认 决策树类

决策树实现提供了一种方法来停止构建树,以防止过度拟合:

•min\_samples\_split:可以创建任意叶子,以便在决策树中创建一个新节点。

•min\_samples\_leaf:保证从节点得到的叶子中的样本数量最少

建议使用min\_samples\_split或min\_samples\_leaf来控制叶节点处的采样数。非常小的数字通常意味着树将过度拟合,而大的数据将阻止树学习。

决策的另一个参数是创建决策的标准。基尼的不纯和信息收益是两种流行的:

•基尼:测量决策节点错误预测样本类别的频率

•信息增益:指示决策节点获得了多少额外信息

函数选择

我们通过指定我们希望使用的列并使用数据框视图的values参数,从数据集中提取要素以与我们的scikit-learn的DecisionTreeClassifier一起使用。我们使用cross\_val\_score函数来测试结果。

代码语言:javascript代码运行次数:0运行复制
X\_features\_only = df \[\[ 'Home Win Streak' ,'Visitor Win Streak' ,'Home Team Ranks Higher' ,'Home Team Won Last' ,'Home Last Win' ,'Visitor Last Win' \]\]

结果准确性:56.0%

有可能通过添加更多参数来提高准确性。

混淆矩阵显示了我们决策树的正确和不正确的分类。对角线1,295分别表示主队的真正获胜与否。左下角的1表示假阴性的数量。而右上角的195,误报的数量。我们也可以查看大约0.602的准确性分数,这表明决策树模型已经将60.2%的样本正确地归类为主队获胜与否。

导入pydotplus 图

出于探索的目的,较少数量的变量对获得决策树输出的理解会很有帮助。我们的第一个解释变量,主队获胜概率更高。如果主队排名低于4.5,那么主队输的概率更高。

本文选自《python在Scikit-learn中用决策树和随机森林预测BA获胜者》。

本文参与 腾讯云自媒体同步曝光计划,分享自。原始发表:2025-01-14,如有侵权请联系 cloudcommunity@tencent 删除数据python决策树变量函数

#感谢您对电脑配置推荐网 - 最新i3 i5 i7组装电脑配置单推荐报价格的认可,转载请说明来源于"电脑配置推荐网 - 最新i3 i5 i7组装电脑配置单推荐报价格

本文地址:http://www.dnpztj.cn/biancheng/1176125.html

相关标签:无
上传时间: 2025-07-21 17:24:11
留言与评论(共有 11 条评论)
本站网友 京沪高铁线路
16分钟前 发表
较少数量的变量对获得决策树输出的理解会很有帮助
本站网友 南通紫琅职业技术学院
6分钟前 发表
这将帮助我们查看决策树分类的预测是否正确
本站网友 后妈比我大三岁
5分钟前 发表
如果主队获胜
本站网友 精索
25分钟前 发表
以便在决策树中创建一个新节点
本站网友 海螵蛸是什么
12分钟前 发表
如果主队排名低于4.5
本站网友 包存林
20分钟前 发表
非常小的数字通常意味着树将过度拟合
本站网友 27399
29分钟前 发表
分享自
本站网友 儿童经络使用手册
11分钟前 发表
基尼的不纯和信息收益是两种流行的:•基尼:测量决策节点错误预测样本类别的频率•信息增益:指示决策节点获得了多少额外信息函数选择我们通过指定我们希望使用的列并使用数据框视图的values参数
本站网友 怎么抄股
18分钟前 发表
这将帮助我们查看决策树分类的预测是否正确
本站网友 222mi
17分钟前 发表
python在Scikit 原文链接:/?p=5222在本文中