申请试用
HOT
登录
注册
 
Hudi在字节跳动推荐系统中的实践-管梓越
Hudi在字节跳动推荐系统中的实践-管梓越

Hudi在字节跳动推荐系统中的实践-管梓越

白玉兰开源
/
发布于
/
2207
人观看
Hudi在字节跳动推荐系统中的实践

本次分享会涉及在搜索推荐广告等机器学习系统中两个场景下的数据湖应用。首先是在离线特征工程迭代场景中,实现离线样本数据的流式/批式插入,更新,删除,merge,从而支持模型训练场景中的样本拼接,特征回溯,数据退场等需求。除此之外,在推荐系统中,大量使用了LSM Tree型的存储引擎来作为数据存储,为了能够方便得在离线批式场景中高效使用这些数据,我们使用数据湖来承接这类存储引擎的CDC需求,从而降低这类数据的获取和消费门槛,提高了使用效率。在这过程中,我们还会分享在应对高吞吐,复杂数据模型和多种数据语义等性能挑战的一些实践。

管梓越,大数据开发工程师, 现就职于字节跳动推荐架构部门。专注于hudi在机器学习场景下的开发与应用。支持抖音,今日头条等产品的机器学习场景下的架构工作

0点赞
1收藏
33下载
确认
3秒后跳转登录页面
去登陆