Tongji Project Hosting and Academic Communication platform

赛事结果预测数学模型. 监督学习模型. 从标记的训练数据来推断一个功能. SVM. 、. LR. 、决策树 …… 比赛数据. 分类器. 结果. 历史比赛数据. 分类器. 调整优化模型.
展开查看详情

1.基于监督学习和多元统计分析的 中超联赛赛事预测与球队实力排名 2018 年数学建模校赛答辩 成员:庞一统 张银 武怡溪

2.问题重述与分析

3.待解决的问题 查找比赛相关数据 , 进行分析提取参数 , 对第 9 轮比赛结果进行预测 . 综合前 8 轮的比赛成绩 , 对比赛中具体的数据进行分析 , 对 16 支球队的 实力进行排名 ;并评估积分排名的合理程度 . 评估中超赛事中外援的重要程度 , 考虑可增加的数据使评估效果更好 , 并评估模型的科学性 .

4.问题一的分析 赛事结果预测数学模型 根据以往数据,预测未来结果 预测比赛胜负结果 比赛进球情况不做预测

5.问题一的分析 赛事结果预测数学模型 选取数据指标 (考查影响比赛结果的因素) 建立分类模型 (预测转化为分类模型)

6.问题一的分析 赛事结果预测数学模型 分类目标 (胜 负 平) 提取历史比赛信息

7.问题一的分析 赛事结果预测数学模型 监督学习模型 从标记的训练数据来推断一个功能 SVM 、 LR 、决策树 …… 迭代训练 训练 预测 / 测试

8.问题二的分析 球队实力排名 模型 提取影响球队实力的核心因素 综合各因素量化球队实力 对比积分排名

9.问题三的分析 外援影响评估 数学模型 分析外援的各类比赛数据 基于第二问建立的模型 考查外援对球队实力模型的影响程度

10.模型假设 假设从网上所采集的各类中超比赛数据真实有效 假设每场比赛的进球数据(射门数等)、防守数据(扑救数等)等是独立的随机变量 假设所有中超比赛中裁判判决公平公正 假设所有中超球员在比赛中 , 不存在钱权交易行为 假设恶劣天气、球迷骚动等突发情况对各支参赛队伍影响相同 假设中超比赛前 , 比赛球队的球员身体状况良好 , 无重大伤病影响 假设各支球队球员内部关系友好 , 教练及球员、外援与本土球员之间没有矛盾 假设第 9 轮比赛前各球队教练与球员无变动 假设球员竞技状态不受非训练及比赛因素影响 假设球队竞技状态及实力在短期时间内不会发生较大变化

11.模型的建立与求解

12.数据获取 爬虫工具

13.主客场因素   主队胜 平 客队胜 场数 262 195 87 占比 0.482 0.358 0.160 在中超赛事中 , 主客场因素对比赛结果影响很大 , 主队主场比赛常具有较大优势 . 2017 赛季主客场胜利情况 使用主队主场胜率和客队客场胜率来综合衡量主客场因素 , 定义 : 主场优势 : 主场劣势 :   2016 至 2018 赛季 主客场因素对比赛结果影响

14.球员状态 球员评分 Sci 是对球员技术水平和竞技状态的综合反映 , 球员状态直接影响比赛的结果 . 为了综合一支球队球员状态对比赛结果的影响 , 计算整支球队所有主力球员的评分均值 和方差 , 将其作为影响比赛结果的指标 .   2018 年中超球队 pl_var 直方图 2018 年中超球队 pl_mean 直方图

15.教练的执教轮次

16.比赛轮次 抽取 2017 年各轮比赛的部分数据指标 , 对其统计分析 , 包括球员状态、球队主场优势、射门次数等 . 与比赛轮次 times 作散点图 . 各项指标离散分布 , 没有明显的变化趋势 , 说明比赛轮次对比赛的结果影响很小 , 可以忽略不计 . 同时也表明 , 球队的比赛数据不具有时序性 . 2017 年中超球队 30 轮比赛下 X1 、 X17 轮次散点图 2017 年中超球队 30 轮比赛 h_w,h_l 轮次散点图 2017 年中超球队 30 轮比赛 pl_var,pl_var 轮次散点图

17.影响中超比赛结果的因素 球队技术指标 进攻 射门 X1,X2,X3,X4,X5,X6 控球 X7,X8,X9,X10 其他 X11,X12,X13,X14,X15,X16 防守 X17,X18,X19,X20,X21,X22,X23 传球 X24,X25,X26,X27,X28,X29 球员 球员评分均值 pl_mean 球员评分方差 pl_var 教练 执教轮次 home_coa / away_coa 主客场因素 主场优势 h_w 主场劣势 h_l 对所获取的数据按影响类别进行划分

18.问题 1 的 建模

19.特征参数提取与处理 具体的 29 个指标进行全方位地衡量 , 如:射门次数 X1, 控球率 X7 等 为了便于模型处理 , 利用主成分分析 (PCA) 对该 29 个指标进行分析 . 对 PCA 结果分析可知 , 前 6 个变量的方差贡献率较高 , 但是其累计贡献率尚未达到 80%, 则选用前 6 个变量对 29 个指标进行 PCA 分析效果不理想 .

20.特征参数提取与处理 三类比赛结果的数据数量差异较大 , 具有 不平衡性 . 在处理分类问题时 , 利用监督学习建立的模型对数据平衡性具有一定的要求 , 当各类的数据量不平衡时 , 分类效果相当不理想 . 因此 , 需要对数据进行不平衡性处理 . 不再以主场、客场顺序做差 , 而以 16 只球队两两对抗 , 分为 A-B 队 , 以 A 队的胜负平作为比赛结果 , 扩充了数据集 . 最终特征参数具体格式如下 :     主队胜 平 主队败 场数 262 195 87 占比 0.482 0.358 0.160 2016 至 2018 赛季的 544 场中超比赛的结果 统计

21.问题 1 的建模 逻辑回归 广义线性回归模型 y = a x+ b   Sigmod 函数   LR 参数形式

22.问题 1 的建模 模型参数求解 (训练) y = a x+ b 损失函数 (交叉熵) 梯度下降算法   m: 训练样本个数 ; : 用参数预测出来的结果 : 原训练样本中的 y 值 , 即标准答案 : 第 i 个样本  

23.问题 1 的建模 模型参数求解 (训练) 数据集: 2016-2018 处理后的每场比赛的数据 训练集: 70% 有效性检验集: 15% 测试集: 15% (随机划分)

24.问题 1 的建模 模型训练效果(二分类) 数据编号 模型主队负率 模型主队胜率 模型预测结果 1 2.14933970e-02 9.78506603e-01 主队胜 2 3.46907851e-01 6.53092149e-01 主队胜 3 8.85511230e-01 1.14488770e-01 主队负 4 1.24271805e-01 8.75728195e-01 主队胜 AUC 曲线图 混淆矩阵

25.问题 1 的建模 模型训练效果(三分类) 数据编号 模型主队负率 模型平率 模型主队胜率 模型预测结果 1 6.26037998e-14 1.40264972e-01 8.59735028e-01 主队胜 2 7.37504090e-01 2.36705384e-01 2.57905260e-02 主队负 3 8.30499221e-03 1.02401123e-01 8.89293885e-01 主队胜 4 1.39365744e-23 5.10159061e-01 4.89840939e-01 平 混淆矩阵

26.问题 1 的建模 选用模型 分类 数据集 划分方法 LR 二分类 2016-2018 处理后的每场比赛的数据 训练集: 70% 测试集: 15% 验证集: 15% (随机划分) LR 三分类 训练集: 75% 测试集: 25% (随机划分) SVM 二分类 训练集: 75% 测试集: 25% (随机划分) 决策树 二分类 随机森林 三分类

27.模型对比评估 Label Precison Recall F1-score Support L 0.67 0.67 0.67 21 W 0.90 0.90 0.90 67 Ava/total 0.84 0.84 0.84 88 决策树二分类模型评价结果 Label Precison Recall F1-score Support L 0.75 0.55 0.63 22 W 0.86 0.94 0.90 66 Ava/total 0.83 0.84 0.83 88 逻辑回归二分类模型评价结果

28.模型对比评估   precision recall f1-score support D 0.58 0.59 0.59 49 L 0.65 0.71 0.68 21 W 0.71 0.68 0.70 66 avg / total 0.66 0.65 0.65 136 随机森林模型 评价 结果 Label Precison Recall F1-score Support L 0.58 0.73 0.65 15 D 0.66 0.47 0.55 49 W 0.71 0.81 0.75 72 Ava/total 0.68 0.68 0.67 136 逻辑回归三分类模型评价结果   precision recall f1-score support D 0.74 0.64 0.69 45 L 0.80 0.50 0.62 24 W 0.73 0.90 0.81 67 avg / total 0.75 0.74 0.73 136 SVM 三分类模型评价结果

29.使用模型预测