- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 视频嵌入链接 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
6.黄政-货拉拉大数据AI平台建设
展开查看详情
1 .
2 .货拉拉大数据AI平台建设 黄政 大数据智能平台负责人&大数据专家
3 .个人简介 2009-2016 2016-2018 车联网中心/车载导航团队 ✓ 前后装项目安装量分别突破 100万、300万 台 ✓ 轨迹日总里程突破 5000万 公里 2018-2020 腾讯云事业部/AI基础产品团队 ✓ 与腾讯优图实验室合作 ✓ 完成业务从0到1突破(工业AI-华星光电) 技术中心/大数据技术与产品部 2020-至今 ✓ 大数据智能平台负责人 ✓ 完成大数据AI平台初步建设 目标:建设业界一流的大数据AI中台
4 .目录 AI应用场景及大数据体系 AI平台演进路径 AI平台架构设计 未来的规划及展望
5 .货拉拉AI相关应用 PK取消率模型 用户下单 司机圈选 推送、播单 司机抢单 PK策略 配对成功 ➢ 模型:GBDT 模型训练 ➢ 训练集:历史匹配成功的订单 ➢ 训练目标:Min取消率 模型评估 ➢ 特征: 模型优化 • 订单:是否预付、订单起终点里程等 • 订单-司机:接单距离等 • 司机:前6个月取消率等 模型上线 ➢ 对新司机倾斜 ➢ 多目标优化 ➢ PK模型与留存 AB实验
6 .货拉拉AI相关应用 预测用户未来7天是否会下搬家单 人群圈选 特征提取 建模评估 数据打标 标签上线 ➢ 模型:XGBoost On Spark ➢ 训练集:最近180天有使用的用户 ➢ 训练目标:AUC number of users ➢ 特征: • 地域:一线城市搬家概率高 • 目的:散客搬家意图高 • 历史完单:趋向于熟悉的平台 • 优惠券:性价比高 • 近期行为:点击搬家入口,有需求 (0.0, 0.1] (0.1, 0.2] (0.2, 0.3] (0.3, 0.4] (0.4, 0.5] (0.5,0.6] (0.6, 0.7] (0.7, 0.8] (0.8, 0.9] (0.9 1.0] score
7 .货拉拉AI相关应用 意图识别模型 用户Query 分词 纠错/改写/sug 成分分析 意图识别 意图分析 跨城意图 POI/AOI/门址 泛搜 成分分析 成分识别 紧密度 Ww分析 基础分析 NLP引擎层 预处理 分词 拼音 Query改写 纠错 同义 Sug 联想 语义理解 地理语义模型 文本语义模型 融合语义模型 基础数据 支持数据 搜索日志 数据层
8 .货拉拉大数据体系结构 辅助决策类应用 赋能业务类应用/解决方案 数据 移动数据分 企业业务 数据 经营分析 实时看板 智能营销 罗盘系统 智能定价 智能广告 账单发票 业务合作 应用层 应用 析MDSP 数据营销 应用 数据研发平台 数据应用支撑工具 数据服务 数据智能服务 BQ数据查询平台 数据工具箱 企 快捷分析 大数据仿真平台 数 业 IDP开发平台 用户画像 自助取数/提数服务 据 模型服务平台 AB 数 服务层 云 TEST 据 飞流实时开发平台 鹰眼监控 EDSP(外部数据交换) 服 模型训练平台 平台 图 务 在线数据管理平台 指标管理平台 谱 快速报表(自助提数) 大数据特征平台 数据仓库 数据治理 DIM DWS公共汇总层 指标库 数据资产管理 数据模型管理 元数据管理 数仓 ODS贴源数据层 DWD明细数据层 DWB明细数据整合层 数据安全管理 数据质量管理 权限管理 接入层 数据采集 离线数据采集 实时采集湾流 数据导入 埋点数据采集 埋点SDK、上报 离线计算 实时计算 基础元数据(Hivemeta) 基础层 大数据 (引擎) 基础能力 资源管理 离线数据存储(HDFS/S3/OBS) 容器编排(K8S)
9 .目录 AI应用场景及大数据体系 AI平台演进路径 AI平台架构设计 未来的规划及展望
10 . AI平台演进路径 平台化战略:未来 完善基本功能,加强特征工 对现有平台更精细化打磨, 程能力,并关注数据可视化 增强用户体验。完善AI能力, 方向,为特征数据提供更好 提供模型服务相关能力。在 的支持。初步搭建模型训练 模型训练上支持更多算子, 能力,构建AI矩阵 业务赋能 支持更多的扩展能力,例如 火山引擎web IDE。打通更 缺少平台化产品,数据获取 旧链路推动改造,下线低效 多业务场景,赋能更多业务 复杂且没有管控,计算能力 产品雏形 数据链路。完善业务差异性 线以及新业务的发展。 不统一,本地代码管理难 基础建设 场景支持,满足定制化需求, 原始时期 做好数据权限管控。提供一 优先解决数据使用问题,搭 站式数据接入、数据分析、 建底层基础设施,搭建特征 数据服务的特征平台以及模 平台,提供初步的数据服务 型训练平台。 能力 初始期 生存发展期 快速发展期 成熟稳定期 未来可期
11 .AI平台演进路径 数据 特征工程 数据分析 特征在线服务 Notebook 打造基座,构建基本能力 赋能 模型训练 模型推理 AB实验 特征平台 模型训练平台 推理平台 0到1建设 数据接入 特征工程 环境配置 Python 模型服务 • 计算引擎能力:Flink on K8S AI 特征分析 特征服务 Spark 深度学习 模型发布 • 存储引擎能力:RDB, ES, Hbase 平台 模型管理 • 批流一体架构的特征平台 可视化 模型导出 数据资产 • 特征工程:SQL 数据集 特征市场 调度服务 特征Lib 模型注册 • 特征服务:Java spring服务 数据 本地数据接入 离线数据接入 实时数据接入 数据对账监控 接入 基础 计算引擎能力 存储引擎能力 能力 稳定保障体系 成本管理体系 安全体系 未具备 弱 中 优
12 .AI平台演进路径 数据 特征工程 数据分析 特征在线服务 Notebook 补齐短板,持续优化 赋能 模型训练 模型推理 AB实验 特征平台 模型训练平台 推理平台 0到1建设 数据接入 特征工程 环境配置 Python 模型服务 • 实时数据接入:消息队列 AI 特征分析 特征服务 Spark 深度学习 模型发布 • 特征分析:python,统计分析 平台 模型管理 • 稳定保障体系:任务告警,资源隔离 可视化 模型导出 数据资产 • 安全体系:数据鉴权,变更管控 数据集 特征市场 调度服务 特征Lib 模型注册 • 特征市场:特征共享,特征推荐 数据 • 模型训练平台:Zeppelin,Spark on Livy 本地数据接入 离线数据接入 实时数据接入 数据对账监控 接入 打磨完善 计算引擎能力 • 特征接入:实时特征,python UDF 基础 存储引擎能力 • 存储引擎能力:DSL,Redis 能力 稳定保障体系 成本管理体系 安全体系 • 特征服务:业务隔离,ES查询优化 未具备 弱 中 优
13 .AI平台演进路径 数据 特征工程 数据分析 特征在线服务 Notebook 继续完善,生态闭环 赋能 模型训练 模型推理 AB实验 特征平台 模型训练平台 推理平台 0到1建设 数据接入 特征工程 环境配置 Python 模型服务 • 成本管理体系:资源管理 AI 特征分析 特征服务 Spark 深度学习 模型发布 • 数据对账监控:数据为空及数据异常监控 平台 模型管理 • 推理平台:模型管理,模型注册 可视化 模型导出 数据资产 数据集 特征市场 调度服务 特征Lib 模型注册 数据 打磨完善 本地数据接入 离线数据接入 实时数据接入 数据对账监控 接入 • 模型训练平台:多环境配置,深度学习, GPU支持 计算引擎能力 • Notebook:OLAP,Flink 基础 存储引擎能力 • 稳定性保障体系:链路对账,告警,ES保障 能力 稳定保障体系 成本管理体系 安全体系 • 特征服务:线上调用监控 • 特征分析:notebook 未具备 弱 中 优
14 .目录 AI应用场景及大数据体系 AI平台演进路径 AI平台架构设计 • 特征平台 • 模型训练平台 未来的规划及展望
15 .特征平台 旧的使用方式 下载 写入 导数 消费 存储 Hive Local Hive Kafka Spring DB 算法工程师 离线平台 后端工程师 痛点 解决思路 • 链路极其复杂,效率低下 • 链路简化 ➢ 开发难度高,大数据学习成本 ➢ 快速的读取、处理、分析能力 ➢ 发布周期长,两周以上 ➢ 一键部署上线 • 稳定性保障困难 ➢ 定时、触发式任务 ➢ 离线开发,代码不可维护 • 高稳定性保障 ➢ 单机故障高 ➢ 故障恢复,分布式任务 ➢ 角色分离,责任归属 ➢ 代码版本控制 • 缺乏统一管理 ➢ 平台统一管控,端到端一致性保证,监控告警 ➢ 数据离线交付 • 一站式特征管理 ➢ 特征复用 ➢ 特征口径展示 ➢ 数据安全问题 ➢ 特征市场 ➢ 数据鉴权 ➢ 特征服务
16 . 特征平台-流批一体 阶段 配置管理 特征任务 特征存储 特征使用 特征提取 特征服务 业务服务 实时特征 特征组合 数据流 离线特征 数据预处理 数据对账 特征存储 特征分析 过期清理 统计指标 特征市场 可视化 管理服务 任务监控 特征调试 输入源信息 多存储支持 流批统一 特征说明 多样存储场景 高QPS支持 统一调度 要点说明 提取口径及代码 数据冗余 业务隔离 链路高保障 任务配置 数据幂等 资源管控及隔离 共享管控 数据监控
17 .特征平台-任务流程 • 在线服务 • 数据调试 • 统计信息 • 元数据信息 • 权限管控 特征平台后端 启动任务 Driver Pod Task Mgr • 注册特征表 • 获取driver • 启动Flink任务 • 引用关联 Task Mgr • 任务状态监听任务 • 解析Main,Graph 数据集 • 两阶段提交 • 启动Job • 更新运行状态 • 状态上报 特征库 Task Mgr • 一次性调度 • 周期调度 • 故障转移 • 事件回调
18 .特征平台-业务保障 跨云方案 大河5G 问题: 解决方案 游弛5G • 大数据跨云 • 离线与实时分离 华为云-广州 阿里云-深圳 • 延迟较高 • 存储选择 • 内网专线访问 • 专线监控 梅林机房 办公网
19 .特征平台-数据一致性 特征任务失败 -> 已写入sink的数据怎么处理? 生成任务实例 方案 注册tmp表 • 清理失败的脏数据 • Flink checkpoint机制 • 实现2阶段提交 是 Flink任务是 否 否成功 Flink Exactly Once 机制 一阶段提交 Source状态:支持回放 提交任务是 否成功 清理tmp表 否 Exactly Once Task内状态:CheckPoint 是 二阶段提交 幂等性 Sink状态:支持回放 WAL 事务写 更新状态 2PC 结束
20 .目录 AI应用场景及大数据体系 AI平台演进路径 AI平台架构设计 • 特征平台 • 模型训练平台 未来的规划及展望
21 . 基于大数据的模型训练平台 配置设定 模型训练 模型使用 阶段 shell 模型注册 推理服务 环境选择 Xgboost/Spark 定时/触发调度 操作流 资源(组)指定 启动实例 python 模型评估 TF/Torch 回收策略 模型导出 业务服务 Feature Lib 本地化配置 多镜像管理 Spark on Livy 在线服务 要点说明 权限审批管理 自定义装包 离线服务 对象存储 资源,状态信息展示 资源调度及隔离
22 . 模型训练平台-云原生 整体流程 Zeppelin服务启停 Feature Backend Kubernetes ApiServer create spark executor pod create interpreter pod 访 问 Spark zeppelin spark-inter exec RPC 12321 POD Spark driver driver 22321 Zeppelin Server b lo nfs/s3 22322 c k -m Nginx Service a n a g e r Spark UI 4040 POD Http 80 zeppelin-server exec NodePort 30080 Http 80 POD RPC 12320 开源改造 • 支持调度能力 DNS resolver Nginx • 本地化定制 Nginx • 修复社区bug POD python-inter Python • OLAP支持 RPC 12320 Interpreter • 多租户资源隔离 init container nfs/s3 • 数据持久化 NFS/S3 POD • Spark On Livy • … POD
23 . 模型训练平台-云原生 资源隔离+数据持久化 Pods nodeSelector: nodeSelector: nodeSelector: notebook=public featurejob=true Nodes notebook=ai, notebook=public featurejob=true featurejob=true 采用s3fs计算节点挂载s3 k8s pv pvc 挂载nfs
24 .模型训练平台-分布式训练 XGBoost On Spark On Livy 问题: Livy • 资源使用不均,离线资源有大量空闲 Interpreter • 训练时间过长,读取数据耗时长 Zeppelin Server nfs/s3 • Cluster模式报错,K8S VIP网段无法访问 解决办法 • 复用离线资源,资源互补 • 分布式训练,XGBoost On Spark • 通过Spark on Livy代理提交任务 Yarn HDFS/OBS Resource Manager Spark 类型 Xgboost Xgboost on Spark History Service 训练 2490s (1.6倍) 1535s Spark executor Spark driver 取数+训练 5597s (3.0倍) 1862s
25 .模型训练平台-GPU 多租户GPU调度 模型训练平台 GPU调度 • 代码类型判断 • 自有GPU:资源配额检测 • 包年包月:资源配额检测 • 按量付费:资源配额检测,开机状态检测 GPU调度层 实例创建: • 云API申请资源 • GPU节点初始化,安装驱动 自有GPU资源组:梅林机房 包年包月CPU资源组:华为云 按量付费GPU资源组:华为/阿里云 • docker, kubectl基础服务安装 • K8S节点加入 • 绑定Zeppelin实例,启动Server Zeppelin Server Pod A Zeppelin Server Pod C Zeppelin Server Pod E RSA RSC RSE Python GPU Pod Node python Spark Node Python GPU Pod Node • 代码执行 Zeppelin Server Pod C 实例回收: • 用户触发 Zeppelin Server Pod B Zeppelin Server Pod F RSB RSD RSF Python GPU Pod Node python Spark Node Python GPU Pod Node • 空闲自动回收 GPU资源池
26 .目录 AI应用场景及大数据体系 AI平台演进路径 AI平台架构设计 未来的规划及展望
27 .未来规划及展望 愿景目标:对齐业界一流水平,赋能更多AI业务场景 体系化 便捷化 高稳定 • 补齐推理场景 • 高效支撑业务 • 精细化资源管理 • 一站式AI平台 • 开箱即用 • 全链路监控告警 • 快捷试错和问题定位 • 在线服务动态扩缩容 • 优秀的用户体验 • 深度模型分布式训练 • GPU虚拟化
28 .