- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
oppo智能推荐样本中心基于Apache Seatunnel的技术革新-王子超
展开查看详情
1 .oppo智能推荐样本 中心 基于Apache Seatunnel的技术革新 王子超 2022年4月5日
2 . 01 背景 02 需求目标 CONTENT 03 SeaTunnel的应用实践 04 样本中心
3 .01 背景
4 .标题 业务背景 推搜广场景下智能推荐的在线学习
5 .标题 业务背景 智能推荐在线学习业务流程
6 .标题 业务背景 智能推荐当前数据流程
7 .标题 烟囱模式 • 业务早期为了快速取得收益,采取了烟囱式开发 • 10+套业务逻辑 • 200+数据处理任务 • Spark、Storm、MapReduce、SQL、Python、Java、C++
8 .标题 痛点 • 运维 • 流程、数据格式的不统一 • 技术框架的繁杂 • 运行 • 数据链路冗余,处理时间长(4h) • 特征快照数据量大(单条可达10MB) • 迭代 • 新流程构建周期可达1个月 • 数据迭代成本高
9 .02 需求目标
10 .标题 目标——流程统一 各业务场景流程统一
11 .标题 目标——结构统一 • 样本结构化 • 存储格式统一,pb序列化
12 .标题 目标——结构化pipeline • 功能模块化 • 屏蔽细节,业务人员专注于业务本身
13 .03 SeaTunnel的应用实践
14 .标题 SeaTunnel的能力 • Flink、Spark • 配置化 • 基于java SPI技术,可扩展性强
15 .标题 SeaTunnel的应用 全流程使用SeaTunnel实现 • 完成了技术框架的统一 • 缓解了运维的压力 • 提高了构建效率
16 .标题 标签生成场景 • interval join • coGroup • session window • no join • 时间延迟插件
17 .标题 特征拼接场景 • HBase、ScyllaDB等kv数据库的读取 • 瓶颈:特征快照数据量大,单业务10T~100T
18 .标题 监控场景 • 数据量、时间监控 • 定制化插件中的tags配置 • 监控插件
19 .04 样本中心
20 .标题 样本中心架构图
21 .标题 样本中心特性 • 结构化设计 • 流批一体化 • 多版本切换 • 自助使用
22 .标题 样本中心技术架构
23 .标题 样本中心系统交互
24 .标题 流批一体化 • 流批一体,实时和离线使用同一套逻辑和代码 • 节省了运维人力,也解决了口径问题
25 .标题 特征快照的解决方案 • 特征即用即取,减少快照带来的存储压力 • 特征中心提供特征时序信息,保证特征一致性
26 .标题 样本中心应用 业务 • 接入3大重点业务,覆盖10+个场景 • 数据链路由离线升级为实时,对算法策略的效果提升显著 效率 • 样本流程构建周期由周级降低至小时级 • 数据延迟由3h降低至10min 稳定性 • 60+任务,可用性达到999 • 无重大故障
27 .标题 未来规划 全链路的 云原生调 一站式机 数据质量 度 器学习 建设
28 .