- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
SeaTunnel在OPPO的实战与演进_v2
展开查看详情
1 .SeaTunnel在OPPO 的实战与演进 推荐特征平台的构建 王子超 & 范未太 2023/06/03
2 . 01 背景&概况 CONTENT 02 特征平台-整体架构 03 特征平台-特征中心 04 特征平台-样本中心
3 .01 背景 & 概况
4 .智能推荐全景图 业务层 AppStore 广告DSP 商城 信息流 用户增长 。。。 服务层 数据管道 云侧推荐服务 端侧推荐引擎 A/B实验平台 数据湖仓 GXL推理 GXL训练 特征平台 BI报表 底层 大数据平台 StarFire-机器学习平台 端侧工作台 平台 AndesBrain-安第斯智能云
5 .智能推荐数据流 模型更新 用户画像 2.获取画像 推荐引擎 Feature 1.用户请求 Dump 物料画像 3.推荐结果 机器学习 平台 特征平台 特征平台 (特征生产) (样本生产) 4.用户行为 模型训练 行为日志 训练样本
6 .特征平台(feature store)-发展历程 早期 当前 p 开发工具杂乱 p 开发工具统一 p 数据格式各异 p 数据格式一致 p 数据时效性差 p 数据时效性高 p 数据一致性低 p 数据一致性强 www.islide.cc 6
7 . 统一的开发工具——why SeaTunnel? 1.支持flink、spark 2.seatunnel 引擎
8 .SeaTunnel 引擎 1.自治 2.数据缓存 3.流控 4.共享连接池 5.断点续传 6.模式演变 7.共享线程池 8.细粒度的容错
9 .SeaTunnel 处理流程高度抽象,逻辑清晰
10 .SeaTunnel 插件化与模块化 1. v1版本 seatunnel api 2. v2版本 seatunnel api a.seatunnel source b.seatunnel transform c.seatunnel sink
11 .02 特征平台-整体架构
12 .特征平台(feature store)--平台架构 特征中心 1、特征注册 2、特征开发 3、特征选择 样本中心 1、样本管理 2、样本生产 3、样本回填 12
13 .特征平台(feature store)-特征开发 处理流程高度抽象 l 插件化 kafka\HDFS\Hive\MySQL\... l 配置化 Source l 可视化 Transform Sink Kafka\Redis\ES\Hbase\MyS QL.
14 .特征平台(feature store)-特征开发 一站式开发IDEA、丰富的算子、灵活的开发模式 Source/Sink • Kafka • Redis • HDFS Transform • Interval Join • CoGroup • Session window • 延迟监控
15 .特征平台(feature store)-特征开发 丰富数据处理 在flink中无感 使用hive函数 引进HiveFunction • percentile • sort_array • shiftrightunsigned • .......... 在flink中直接使 引进Hive语法 用hive表,借助 • 自定义InMemoryCatalog hive的部分数据 format能力
16 .03 特征平台-特征中心
17 .特征平台(feature store)-特征计算 历史计算架构
18 .特征平台(feature store)-特征计算 基于Flink流批一体化计算架构 Glacier
19 .特征平台(feature store)-特征计算 基于Flink流批一体化计算架构 Glacier
20 .特征平台(feature store)-特征存储 读写性能优化 特征a 特征 b 特征c parker Parker: à 一次读取,查找N个文件 à compaction消耗CPU和磁盘IO 1、合并写入 T1 T2 T3 compaction 2、读写线程分离 3、写流量限速 特征a 用户1~m dispatch parker ) a b c rI d (partition1) se (u sh 特征b write threads read threads ha merge ha sh rate limter (u 用户m~n parker se rI d 特征c (partition2) ) a b c 分批合并写入 读写线程分离 磁盘写入限流 rocksdb
21 .特征平台(feature store)-特征选择 目的:减少模型训练时间、提升模型精度 特征分析 • 特征分布 数值型值分布(等宽/频) • Label区分度 CTR区分度 • SLOT覆盖率 特征选择 • IV计算 衡量特征预测能力 • Gini增益 单特征重要性评估 • 包装法 集成模型计算特征重要 性
22 .特征平台(feature store)-特征监控 实时特征链路监控,保障特征时效性 Metrics Grafana Mail/SMS/Phone Metrics Alert TSHous e Metrics 1.接入延迟 2.写入延迟 3.消费延迟 4.写入耗时 5.其他 接入 Kafka Flink Redis 处理延迟 写入延迟 消费延迟 写入耗时 OBUS Kafka Flink Redis (采集日志) (行为日志) (特征生产) (实时画像)
23 .特征平台(feature store)-特征监控 通用监控 1.source/sink connector 监控埋点 (流量波动/字段空值/脏数据,延迟等) 2.job粒度flink自身指标埋点 个性化监控 1.指标插件 2.指标函数(count、latency、qps...)
24 . 特征平台(feature store)-特征监控 通过重写Transformation增加统一监控埋点
25 .特征平台(feature store)-特征监控 特征一致性监控,离在线存储一致性保障 Metrics Grafana Mail/SMS/Phone Metrics TSHous Alert e Flink (一致性校验) Hash值比较 FLink HDFS FLink Parker (离线计算) (离线存储) (定时同步) (在线存储)
26 .特征平台(feature store)-一致性对比 校验特征抽取结果 比对打分 场景:离线有效果,线上没收益 环节: • 版本(代码、模型) • 配置 • 代码实现(sort排序稳定性等) • 。。。 快速定位问题环节,提升排查效率
27 .04 特征平台-样本中心
28 .特征平台(feature store)-样本开发 • 功能模块化 • 屏蔽细节,业务人员专注于业务本身
29 .特征平台(feature store)-样本存储 离线存储空间快速膨胀,成本高 row co co co co co l l l l l row row to col row row sort by imei row Ø 样本按行以csv格式存储 Ø 用户静态特征天级更新,占比大 Ø 样本为用户特征+物料特征,一次请 求多条物料,产生多条样本 Ø 一段时间内用户会有多次访问 req count(连续记录) imei 单用户最多req数 req/imei count 空间节省40% >100,000 >30,000 <500 <10 速度提升50%