- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
图像技术在上亿规模的用户实拍图片中的应用 - 闲鱼
展开查看详情
1 .图像技术在上亿规模闲鱼图片中的应用 远悠
2 .目录: 1. 闲鱼商品物料特点 2. 基础分类模型构建 3. 图像特征学习 4. 搜索和推荐中的应用 5. 总结
3 .闲鱼商品物料特点-图片内容重复
4 .闲鱼商品物料特点-图文内容不一致 相似款 同款
5 . 闲鱼商品物料特点-非商品图片 case1 case2
6 .闲鱼商品物料特点-图片质量参差不齐 4.局部类 5.标签 6.说明 1.渲染文字类 2.半透明包装 3.非透明包装 7.模糊
7 .闲鱼商品物料特点 小结: 1. 图像内容重复: ◦ 图片去重 特征学习 2. 图文内容不一致: ◦ 同款、相似款识别 基于分类模型的图像比对特征学习 3. 非商品图: ◦ 商品、非商品识别 分类 4. 低质商品图: ◦ 低质图片识别
8 . 基础分类模型构建-文本类目问题 超级仙女。爱了。美瞳日抛。各种颜 色都有。私聊我。 预测:美睫 丰田雅力士。感兴趣的话点“我想要私聊 预测:整车 七月熙JK,伦敦晚报 无定无吊,有小 物领带+10 预测:领结
9 .基础分类模型构建-难点 1. 图片大部分是用户上传,图像质量偏低,增加识别难度; 2. 图片内容不限于商品类目本身,涵盖很多和商品不相关其他类别,整体类别定义困难; 3. 闲鱼商品的title是由用户自己填写的,结构化信息参差不齐,同时还包含很多口语化的 噪声; 4. 同类的商品包含的噪声图片很大,不能直接训练 5. 数据标注成本高,短时间内不能有效覆盖大部分数据
10 .基础分类模型构建-方案 基础图像 线上点击 过滤冷门 反馈 样本 分类表示 特征 聚类类 目id 1 2 文本过滤 基于图像 特征距离 3 粗语义 聚类 类目 的文本类 内聚类 4 类目限制 挖掘文本类目 文本聚类 内具体图像表 示一致性的样 通用分类7400类 本
11 .基础分类模型构建-方案 通用分类 聚类类 训练 模型 目id 1 2 标注 特征 建库 3 特定类 阈值过滤 阈值 候选样本 采样 检索引擎 检索 目 4 通用分类7400类 特定类目 票据,文字图,建筑物,人物等 模型
12 .图像特征学习 1. 图像内容重复: ◦ 图片去重 特征学习 2. 图文内容不一致: ◦ 同款、相似款识别 基于分类模型的图像比对特征学习 3. 非商品图: ◦ 商品、非商品识别 分类 4. 低质商品图: 难点: ◦ 低质图片识别 1. 每个id类别存在变化较大的多张图片并不能直接使用所有图片 2. 每个id类目的样本稀少,直接训练很难收敛
13 .图像特征学习-方案 Sku粒度 通用分类 点击 商品 预测 query 模型 过 泛 滤 意 图 过 滤 主要类目 ⚫ Arcfaceloss SIFT 几何校验 内容重复 ⚫ Margin Scale优选 query ⚫ 多轮迭代 召 回 商品sku粒 训练 deepid 阈值 同款商品 度样本
14 .基础分类模型&比对特征 小结 1.构建基础分类模型: ◦ 基于类目约束的语义约束; ◦ 结合通用图像特征过滤的半自动样本挖掘; 2.训练同款模型: ◦ 基于query点击商品得到候选集合; ◦ 利用分类模型特征控制候选集合精度; 3.基于同款模型特征+SIFT识别同图内容: ◦ 基于同款特征的召回; ◦ 基于特征点的几何校验;
15 . 搜索和推荐中的应用-搜索相关性问题 搜索相关性:图文本相关性不准引起召回不准, 文本相关性不能满足要求 ⚫相同商品文本语义有区别 ⚫不同商品可能有相似语义 Query=锐鲨 Query=詹姆斯7 Query=手绘
16 . 搜索相关性-SearchCaseShow Query=锐鲨 线上基线 重排实验 Query=詹姆斯7 线上基线 重排实验
17 . 搜索相关性-SearchCaseShow Query=手绘 线上 线上基线 实验 重排实验 Query=全职 线上 线上基线 实验 重排实验
18 .搜索相关性-线上相关性指标 背景:利用图片语义类目 rerank 搜索结果,评估与线上基准桶的query 满意度效果; Top 热门query 400 very good (%) Good(%) Medium(%) Bad(%) 图像语义聚类重排 +1.3 -0.9 0 -1.2 随机query(pv>10000) 300 图像语义聚类重排 +12.7 +1.0 0 0 线上AB(1天) PVCTR rerank实验 +6.85%
19 . 搜索和推荐中的应用-推荐多样性问题 多样性:相同商品但所属类目不同 ◦ 用户拍照随意性大,不同角度,包装内外 ◦ 单张图片判断不准 ◦ 类别众多难定义 item1 item2 item3 item4 item5
20 .推荐多样性-方案 利用基础分类网络限制同页类目 Top3投票 人物和文字过滤 3110 77 Top1选取 共现类目 分类网络 类目1 类目2… 同类聚合
21 .推荐多样性-线上效果 背景:feed推荐商品打散 人均点击 详情页停留 人均曝光 UCTR 人均类目点 时长 击数 提升 +4.8% +2.7% +10.3% +2.9% +21% 精细控制打散策略: ➢ 1.打散分档 ➢ 2.相似类目替代 ➢ 3.类目排序
22 . 搜索和推荐中的应用-推荐质量问题 badcase: 主图与详情图不符骗取流量,文字类图片影响体验,人体局部影响体验 ◦ 利用文本语义无法解决这类问题, ◦ 直接用图片相似会引起不少badcase ◦ 用户拍摄角度大,非商品图 文字 图 主图详 情不符 人体 局部
23 .推荐质量问题-方案 Badcase挖 掘 若为同款 不过滤 相同图检 多详情图片 同款判断 索引擎 文字图识 特定类目 通用分类 别 识别 主图与详情 不一致且非 图类目一致 同款 性
24 .总结: 1. 闲鱼物料特点 ◦ 相同图片内容, 图文不一致, 非商品图, 低质商品图等 2.基于图像分类的图片比对特征学习 ◦ 半自动的分类样本挖掘 ◦ 基于分类模型的同款和相同模型特征学习 3.搜索和推荐中的应用 ◦ 改善搜索相关性 ◦ 改善推荐多样性, 推荐商品质量 4. 挑战: ◦ UGC 内容在审核,分发和结构化问题复杂 ◦ 单一技术方案作用有限 ◦ 时效性,数据生产流程
25 . Q&A 阿里巴巴保密信息 / ALIBABA CONFIDENTIAL