智能钛机器学习平台在工业与金融行业的落地

腾讯云高级研究员尹迪,从工业、金融等行业实践出发,为大家讲解算法人员如何借助智能钛机器学习平台解决用户的实际问题,为大家带来“智能钛机器学习平台在工业和金融行业的落地”。

内容主要有三部分:

第一,智能钛机器学习平台介绍。

第二,机器学习平台在工业面板行业的落地。

第三,智能钛机器机器学习平台在金融行业的落地。

另外,他还抛出一个引人深思的问题:业务问题成功的标准是什么?方法论、数据质量、数据丰富性、应用于生产、算法、平台是否稳定。这是业务问题成功与否的标准。很重要的一点是需要和金融领域其他部门进行紧密合作,最终发挥数据价值。

展开查看详情

1.智能钛机器学习平台 在工业和金融行业落地 演讲者:尹迪

2.目录 01 智能钛机器学习平台介绍 02 机器学习平台在工业面板行业的落地 03 机器学习平台在金融行业的落地

3.智能钛机器学习平台 面向广大AI开发者的一站式机器学习平台,覆盖数据预处理、特征工程、模型训练、模型 推理、一键部署等机器学习建模全流程。 包括了传统机器学习、时间序列分析、计算机视觉、 自然语言处理、图处理等多种场景的算法。 算法新手、AI爱好者、算法专家 目标客户 企业内部机器学习团队 开设AI课程的院校、算法大赛等

4.平台特性 用户现状 智能钛机器学习平台 模型 在线服务版本切换 模型效果多版本比对 风险大 灰度发布、流量切换 服务 模型 算法效果比对 超参数调优 调参难 辅助调参、自动建模 调优 机器学习:分类、聚类、回归 ··· 算法 门槛高 NLP算法、视觉算法... 深度学习:cnn,lstm … 计算框架 维护繁琐 内置各框架各版本 计算资源、存储、网络 CPU GPU 成本高 底层资源效率优化

5.平台特性1 —— 拖拽式任务流 可视化拖拽 数据、算法、组件均可拖 拽,所见即所得。 节点自动连线 数据I/O自动连线,黑盒化 处理,简单高效。 自由绘制工作流 自定义工作流,多任务并 行,事半功倍。

6.平台特性2 —— 辅助调参 使用贝叶斯优化算法对单个分类、回归、聚类算法的超参数进行自动搜索,获得最优的超参数组合。

7.平台特性3 —— 数据预览与可视化 数据集预览 • 数据结构化预览 • 统计信息查看 • 数据可视化解析 可视化图表 • 丰富多样的图表形式 • 图表悬浮即可呈现

8.平台特性4 —— 丰富的内置算法 覆盖全面 • 机器学习算法 • 深度学习算法 • 图算法 场景多样 • 图像处理 • 视频处理 • 自然语言处理 • 结构化数据建模 多框架支持

9.平台特性5 —— Notebook 编辑灵活,提供了类型丰 富的算法demo和建模案例 支持多种机器学习、深度学 习框架,支持自研算法库, 打通了云端各平台,包括 cos 和 tke 等 无缝对接工作流

10.平台特性6 —— 自动机器学习 全自动机器学习建模 • 整流程自动化 • 支持随机搜索和贝叶斯优化 训练进度实时监控 模型详情实时展示

11.平台特性7 —— 模型管理与部署 部署简易 • 支持一键部署 • 支持版本管理和切换 开放导入 • 支持外部模型导入 • 支持多种模型格式 平稳上线 • 支持灰度发布 • 支持流量切换

12.目录 01 智能钛机器学习平台介绍 02 机器学习平台在工业面板行业的落地 03 机器学习平台在金融行业的落地

13.工业面板行业面临的困境 用户角度 数据角度 实践角度 生产工程师 • 数据维度高,因子杂乱 • 该用哪些算法? • 不会数据分析、数据挖掘、图像处理 • 数据异常种类多,识别困难 • 个性化案例该如何分析? • 没有机器学习基础,算法学习门槛高 • “真因”往往隐藏在海量数 • 如何改善生产问题? 据之中,并且由多个因子联 • 如何汇报自己的建模方法, 合起作用 让建模不再是黑箱? 算法工程师 • 字符型数据通常也包含重要 • 站点数据庞杂,制程经验不足 的信息 • 数据不理解,无法进行分析和建模

14.解决方案整体架构图 前端 展示 柏拉图 等高线图 分布直方图 散点分布图 Spc管控图 气泡图 统计报表 应用 虚拟量测 高效良率 寿命预测 真因分析 缺陷检测 图像分类 场景 智能钛机器学习训练和推理平台 AI 数据预处理 特征工程 模型训练 模型推理和部署 平 台 缺失值 数据切 数据采 特征选择 特征转换 升降维 回归 分类 图像处理 推理 部署 填充 分 样 大 腾讯大数据平台 数 计算引擎 大数据存储/加速层 大数据分析挖掘 接入层 据 平 离线计算引擎 半结构化 分布式文 多维建模引擎/实 数据可视化 Lhost离线接入 结构化存储 对象存储 台 实时计算引擎 存储 件存储 时多维分析 (敏捷BI) 消息中间件实时接入 业务 物联网数据采集 边缘计算 业务系统 数据存储 平台

15.工业面板行业场景案例—智能面板缺陷识别 背景 传统的面板生产线上,由人工进行抽样质量检测,企业面临着诸多挑战。 • 成本不断上升 • 需要进行重复的人员培训 • 缺陷面板漏检率高 • 缺陷分类错误率高 针对这些缺陷,我们提出了智能面板缺陷识别方案。该方案将人工抽检升级为自动化全检,节省了人力 成本,降低了漏检率的同时提高了覆盖率。同时它支持模型的自动迭代,用户可以一键完成模型的迭代训练 和上线,不需要专业人士指导。

16.工业面板行业场景案例1—智能面板缺陷识别 智能缺陷检测的挑战 缺陷种类多;缺陷类别间差异小;缺陷类别内散度大。 类 间 差 断线 异 器件缺 小 过曝光 失 缺陷 缺陷面 线变细 积小 类 细微几 内 孔变小 何变形 散 度 大

17.工业面板行业场景案例1—智能面板缺陷识别 R-CNN类物体检测类算法, 包括faster-RCNN, mask-RCNN, 以及focal loss, ohem 等改进 3x3 缺陷形态多样性决定这不是检测问题 Region ResNet50 Proposal proposals TPDEP OK Network TFSAD box feature map regression Head ROI Pooling (2-fc layers) FAIL class score 此方案适用于多种形态,泛化能力强 class 分割网络 聚类 Crop 分类网络 scores

18.工业面板行业场景案例2--多因子分析 设备参数 随着工厂产能持续提升和智能制造的快速推进,大量的生产数据实时传输收集成 关键参数 为可能,如何更好的利用数据服务生产成为关键任务。 运用多因子分析系统实现工厂数据 智能、快速、准确 分析,挖掘关键因子,将 品质异 常参数 相关模型算法内化,提升内部数据分析能力。 手动查找 自动监控 智能分析 多因子人工查找 FDC单因子建模 多因子分析建模 设备工程师&制程工程师结合经验 FDC系统针对单因子状态进行实时 针对多因子交互影响进行分析,快速 与异常解析方法找到关键因子 监控,发生异常可以及时拦截 找出异常因子,协助改善生产良率 异常处理需6H 加速异常case解析,快速分析出组合因子 影响,找出根因并进行处理和预防 异常发生 调查分析3H 异常解析3H 改善Action FDC:设备参数数据

19.工业落地总结 智能钛推理系统 – 主要解决什么问题 算法服务如何部署 AI算法微服务的高可用的管理问题 负载均衡(N个请求过来,如何分发到不同的计算节点) 智能钛推理系统 智能钛训练系统 自动扩缩容(一旦推理的请求积压,算法微服务背后的实例不够了, 是否可以自动增加,一旦请求排队减少,系统自动释放实例) AI推理框架的深度优化 例如:同样都是Caffe、基于AI推理可以让它跑的更快! 基于:智能钛基础组件 自动释放资源、以及请求队列的问题 虚拟化、资源高效利用; 自动启停的问题 智能钛训练系统 – 主要解决什么问题 数据管理(训练集、题库集的标注和分类管理) 几百个模型的数据如何管理?那些分类可训练?多少?分布?标 注? 让所有人基于单一数据源进行工作 模型训练(如何从0->1 训练一个模型) 企业有产品缺陷数据,要实现一个缺陷分类和检测的模型,现在依 靠平台,只需要几个步骤就能实现。 模型迭代(如何将原有的模型进行迭代训练,提升其性能-准确率/ 召回率等,从而发布为新版本模型,这是一个1->N的问题)

20.目录 01 智能钛机器学习平台介绍 02 机器学习平台在工业面板行业的落地 03 机器学习平台在金融行业的落地

21.金融行业应用场景 客户分析与洞察 • 客户获取/价值提示/挽留 • 点击流分析 • 多渠道交互分析 营销 • 客户动态信息视图 运营优化与提升 风险控制管理 • 精准营销 运营 风控 • 贷款风险评估 • 目标客户快速定位 • 反洗钱 • 资金管理跟踪 • 实时欺诈 • 市场监督

22.金融行业应用场景 类别 业务指标 典型业务应用 获取新客户 新增客户数 虚拟产品经理 战略联盟客户导入(比如移动运营商) 客户 电子渠道活跃客户维系 客户流失率 存款流失预测分析 客户贡献度 产品交叉销售 电子渠道活跃度 电子渠道非活跃客户转化活跃客户 营销响应率和转化率 精准营销(理财产品、资金归集) 产品 产品竞争力指数 社交媒体产品/品牌/竞争力/市场分析 市场投放时间 目标客户快速定位 运营 渠道服务成本 联系中心分析(问题识别与解决) 金融风险分析 风险 坏账率 授信客户风险分析 贷款风险评估(中小企业&机构)

23.金融行业落地整体方案 提供易用、安全、稳 提供可视化的操作界 定、高性能的全链路大数据 面、具象化的算法结果、 开发引擎、开箱即用的数据 拖拽式的任务流、可灵活 治理工具、一站式的可视化 自定义的特性,以及内置 运维管理平台 的丰富模型算法与案例 大数据平 机器学习 台 平台 专业的建 数据库平 模服务 台 提供多种建模服务, 提供分布式关系型数 包括客户画像、精准营 据库TDSQL,文档数据 销、客户流失预警等建模 库CMongoDB,分布式 场景 缓存数据库CKV,满足不 同的业务场景

24.金融行业案例--精准营销 案例内容 思路 对公客户购买理财产品预测 利用大数据及人工智能技术,挖掘对公客户 购买模式,实现 精准销售及预测 目标 解决方案 提高对公客户理财产品销售,提升对公客户 构建 二分类 问题,洞察购买理财产品客户, 粘性,降低理财产品销售成本 实现对公客户理财产品销售预测

25.精准营销案例--Step1 数据理解 特征 特征 近30天表内息实扣金额平均值 行业类型 理财产品购买历史表 近30天表内息实扣金额最小值 注册资本币种 近30天表内息实扣金额最大值 注册资本 近30天本金实扣金额平均值 企业规模 近30天本金实扣金额最小值 员工人数 企业还款行为 近30天利息实扣金额平均值 是否高新技术企业 近30天利息实扣金额最小值 是否上市企业 近30天利息实扣金额最大值 近30天表外实扣金额平均值 其他机构评估信用等 企业基本信息表 企业资产信息表 级 近30天表外实扣金额最小值 主营业务占比 近30天表外实扣金额最大值 纳税情况 近15天表内息实扣金额平均值 标准实际控制人证据 企业主基本信息表 特征 近15天表内息实扣金额最小值 特征 编号 行业类型 近15天表内息实扣金额最大值 省份 标准法人代表证据编 注册资本币种 近15天本金实扣金额平均值 号 城市 注册资本 近15天本金实扣金额最小值 ETL日期 区县 企业规模 近15天利息实扣金额平均值 注册资本折人民币 出生年月 企业主购买历史表 近15天利息实扣金额最小值 性别 员工人数 是否高新技术企业 近15天利息实扣金额最大值 是否上市企业 近15天表外实扣金额平均值 其他机构评估信用等级 近15天表外实扣金额最小值 近15天表外实扣金额最大值 。。。

26.精准营销案例--Step2 数据预处理 正样本 以处理异常值为例: 购买过理财产品的企业用户 总体数据 负样本 未购买理财产品的企业用户 共得到正样本 3426 个,负样本 26707 个 企业客户 离散特征 连续数值特征 30000 出现频率过低的数 25000 据为异常值 以mean ± 3 · IQR为界限 20000 15000 数据去噪 10000 改用99百分位数为界限 5000 0 避免损失有效数据 未购买客户 购买客户 过多

27.精准营销案例—Step3 特征处理 对“员工个数”“注册资本”等特征进行分析,原始偏度(skewness)在10左右。因此对这些特征进行 对 数变换,变换后的skewness绝对值小于1。

28.精准营销案例—Step4 特征重要性分析 担保金额: 购买产品的用户中,担保金额 最小值更大,25%分位数更小 未购买产品 购买产品 蓝色:购买产品企业的分布 担保金额极小的企业不会购买产品 红色:未购买产品企业的分布

29.精准营销案例—Step5 模型训练与评估 使用SMOTE处理数据有偏的问题,并且尝试使用不同的分类算法进行训练和交叉验证,查看相应的 评估指标。这里也可以尝试使用自动调参对模型进行调整。 方法 准确率 召回率 F值 AUC SMOTE + 决策树 0.597 0.860 0.790 0.896 SMOTE + 随机森林 0.858 0.838 0.842 0.929 SMOTE + GBDT 0.777 0.854 0.837 0.936 SMOTE + XGB 0.897 0.840 0.851 0.924