多模态深度学习及其视觉应用

多模态深度学习及其视觉应用
展开查看详情

1. 中国大数据技术大会-深度学习论坛 多模态深度学习及其视觉应用 霍静 南京大学软件新技术国家重点实验室 2018年12月10日

2. 多模态数据 图像模态 音频模态 多模态数据 William Shakespeare (/ˈʃeɪkspɪər/; 26 April 1564 (baptised) – 23 April 1616)[a] was an English poet, playwright and actor, widely regarded as the greatest writer in the English language and the world's pre-eminent dramatist.[2][3][4] He is often called England's national poet and the "Bard of 文字模态 视频模态 Avon".[5][b] His extant works, including collaborations, consist of approximately 39 plays,[c] 154 sonnets, two long narrative poems and a few other verses, some of uncertain authorship. His plays have been translated into every major living language and are performed more often than those of any other playwright.[7] 2018/12/10 2

3.多模态视觉应用 • 刑侦破案-异构人脸识别 公安大规模高清 嫌疑人1 二代身份证人像库 素描人像 嫌疑人2 二代身份证 …… 低分辨率人像 嫌疑人3 低分辨率 问题:跨多种图像 红外视频人像 模态的人脸识别 2018/12/10 3

4.多模态视觉应用 • 寻找“可疑” 人员-行人重识别 视角1 视角2 问题:跨视 角行人匹配 视角3 视角4 2018/12/10 4

5.多模态视觉应用 • “图像视频-文本”跨模态检索 William Shakespeare (/ˈʃeɪkspɪər/; 26 April 1564 (baptised) – 23 April 1616)[a] was an English poet, playwright and actor, widely regarded as the greatest writer in the English language and the world's pre-eminent dramatist.] He is often called England's national poet and the "Bard of Avon". His extant works, including collaborations, consist of approximately 39 plays,[c] 154 sonnets, two long narrative poems and a few other verses, some of uncertain authorship. His plays have been translated into every major living language and are performed more often than those of any other playwright. 问题:跨图像视频以及文本检索 北京故宫,即紫禁城,是明清两朝廿四位皇帝的皇宫。故宫始建于 明成祖永乐四年(1406年),永乐十八年(1420年)落成;位于北 京中轴线的中心,占地面积72万平方米,建筑面积约15万平方米, 为世界上现存规模最大的宫殿型建筑。北京故宫是第一批全国重点 文物保护单位、第一批国家5A级旅游景区,1987年入选《世界文化 遗产》名录。故宫现为故宫博物院,藏品主要以明、清两代宫廷收 藏为基础;是国家一级博物馆,与俄罗斯埃米塔什博物馆、法国卢 浮宫、美国大都会博物馆、英国大英博物馆并称为世界五大博物馆。 图像或视频 文本 2018/12/10 5

6. 多模态视觉应用 • “图像-音频”跨模态检索 问题:根据音频 检索人脸、根据 人脸检索音频 [1] Nagrani A, Albanie S, Zisserman A. Seeing voices and hearing faces: Cross-modal biometric matching[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 8427-8436. [2] Nagrani A, Albanie S, Zisserman A. Learnable PINs: Cross-Modal Embeddings for Person Identity[J]. arXiv preprint arXiv:1805.00833, 2018. 2018/12/10 6

7.多模态视觉应用 • 融合“多视角摄像头” 数据的行为识别 踢腿 摇手 摄像头1 摄像头2 2018/12/10 7

8.主要研究方向 • 多模态数据表示 • 跨模态相似性计算、对齐 • 多模态数据转换 • 多模态数据融合 • 协同学习 Baltrušaitis T, Ahuja C, Morency L P. Multimodal machine learning: A survey and taxonomy[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018. 2018/12/10 8

9.主要研究方向 • 多模态数据表示 – 找到多模态数据中相似、互补、冗余的特征表示 联合表示 对齐表示 Baltrušaitis T, Ahuja C, Morency L P. Multimodal machine learning: A survey and taxonomy[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018. 2018/12/10 9

10.主要研究方向 • 跨模态相似性计算、对齐 对齐图像区域与文字 对齐不同模态图像上的语义相关区域 Karpathy A, Fei-Fei L. Deep visual-semantic alignments for generating image descriptions[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2015: 3128-3137. Jing Huo, Yang Gao, Yinghuan Shi, Hujun Yin, Variation Robust Cross-Modal Metric Learning for Caricature Recognition, ACM Multimedia 2017, Thematic Workshops, 2017: 340-348. 2018/12/10 10

11.主要研究方向 • 多模态数据转换 不同图像风格转换 Baltrušaitis T, Ahuja C, Morency L P. Multimodal machine learning: A survey and taxonomy[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018. Taigman Y, Polyak A, Wolf L. Unsupervised cross-domain image generation[J]. arXiv preprint arXiv:1611.02200, 2016. 2018/12/10 11

12.主要研究方向 • 多模态数据融合 踢腿 融合多个模态下的 数据完成某个任务, 如分类或回归 摇手 摄像头1 摄像头2 • 协同学习 – 通过其它模态的数据辅助某一个模态下的任务学习, 包括迁移学习,零样本学习等 2018/12/10 12

13.主要研究方向 • 多模态数据表示 • 跨模态相似性计算、对齐 • 多模态数据转换 • 多模态数据融合 • 协同学习 Baltrušaitis T, Ahuja C, Morency L P. Multimodal machine learning: A survey and taxonomy[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018. 2018/12/10 13

14. 多模态相似性计算与对齐 图像纹理特征 图像模态 音频模态 音频特征 跨模态 文字特征 度量 William Shakespeare (/ˈʃeɪkspɪər/; 26 April 1564 视频特征 (baptised) – 23 April 1616)[a] was an English poet, playwright and actor, widely regarded as the greatest writer in the English language and the world's pre-eminent dramatist.[2][3][4] He is often called England's national poet and the "Bard of Avon".[5][b] His extant works, including collaborations, consist of …… approximately 39 plays,[c] 154 sonnets, two long narrative poems and a few other verses, some of uncertain authorship. His plays have been translated into every major living language and are performed more often than those of any other playwright.[7] 视频模态 文字模态 跨模态 跨模态相 跨模态查询、匹配 特征表示 似性计算 2018/12/10 14

15.已有的度量方法 • 欧式距离度量 • 余弦相似性度量 两个特征向量 • 马氏距离度量 之间的距离 2018/12/10 15

16.马氏距离度量学习 • 马氏距离度量 • 训练数据形式 样本对 三元组 • 学习目标 损失函数 正则化项 2018/12/10 16

17.跨模态数据不可分问题 • 基于公共子空间的方法 – 公共判别性特征抽取 [Lin and Tang, ECCV 2006] – 耦合谱回归 [Lei and Li, CVPR 2009] – 耦合判别分析 [Lei et al., TIFS 2012] – 正则化谱回归[Huang et al., TIP 2013] 主要思路:对两个模态下的 数据找两个投影方向,映射 到公共子空间中进行距离度 量 2018/12/10 17

18.基于间隔的跨模态度量学习 • 目标 – 消除模态差异、使得跨模态同类与跨模态不同 类距离可分 • 解决方法 – 基于公共子空间的跨模态度量+大间隔理论 2018/12/10 18

19.跨模态度量定义与约束 • 跨模态度量定义 模态1下 模态2下 模态1样本 模态2样本 的样本 的样本 的投影矩阵 的投影矩阵 距离度量说明:将两个模态下的样本投影到一个公共子空间中,在公 共子空间中度量两个样本的欧氏距离 • 距离约束 跨模态同类样本对 第1类跨模态三元组 第2类跨模态三元组 跨模态同类样本对的 三元组中的跨模态同类距离小于跨模态不同类距 距离小 离一个间隔 2018/12/10 19

20.线性算法设计 • 目标函数 跨模态同类样本对的距离小 第1类跨模态 三元组约束 第2类跨模态 三元组约束 三元组中的跨模态同类距离小于 跨模态不同类距离一个间隔 目标函数说明:优化跨模态度量满足成对以及三元组定义的距离约束 2018/12/10 20

21.核算法设计 • 目标函数 跨模态同类样本对的距离小 三元组中的跨模态同类距离小于 跨模态不同类距离一个间隔 2018/12/10 21

22.实验结果 • CASIA NIR-VIS 2.0数据集 与子空间算法比较: • 所提算法中基于核方法的 版本取得了最好的效果 与其它特征学习算法比较: • 所提算法的核方法版本优 于CDFL,弱于另两个算 法 • 所提算法是通用的算法, 可与这些算法结合使用 Jing Huo, Yang Gao, Yinghuan Shi, Wanqi Yang, Hujun Yin, Heterogeneous Face Recognition by Margin Based Cross-Modality Metric Learning, IEEE Transactions on Cybernetics, 2017, doi: 10.1109/TCYB.2017.2715660 2018/12/10 22

23.样本对分布不均衡问题 • 基于跨模态样本对 – 跨模态匹配学习[Mignon and Jurie, ACCV 2012] – 跨模态相似性学习[Kang et al., CIKM 2015] – 深度耦合度量学习[Liong et al., TMM 2017] 同类与不同类的样 AUC指标 本对比例不均衡 优化 • 基于跨模态三元组 pAUC指 标优化 2018/12/10 23

24.基于AUC优化的跨模态度量学习 • 目标 – 跨模态同类样本对比例不均衡情况下的度量学习 • 解决方法 – 度量算法的AUC指标优化 – 度量算法的pAUC指标优化 2018/12/10 24

25.基于AUC优化的跨模态度量学习 • 跨模态度量函数 模态1下 模态2下 的样本 的样本 度量函数说明:将两个模态下的样本投影到公共子空间后,度量欧 式距离,参数M约束为对称半正定矩阵 指示函数 • 目标函数 同类、不同类样 跨模态同类样本对的距离是否小 本对索引集合 于跨模态不同类样本对的距离 目标函数说明:AUC对应为跨模态同类样本对与跨模态不同类样本距 离正确排序的比例 2018/12/10 25

26.基于AUC优化的跨模态度量学习 • 最终的目标函数 等价于AUC/ 带有LogDet pAUC优化 正则化的 LogDet正则化项, 优化问题 最小化跨模态同 使得M保持对称 类距离 半正定 优化说明:提出了一种Mini-batch Proximal Point Algorithm的算法进 行优化求解,每轮采样一部分跨模态同类样本对和跨模态不同类 样本对进行优化 2018/12/10 26

27.实验结果 • CUFSF数据集——与多模态算法对比 结果说明: • 与对比算法中的较优的C SR,KCSR以及HMLCR相 比,CMLAUC 与CMLpAUC 取得了较大的性能提升 • 在与AUC优化无关的 Rank-1指标上,所提的 算法同样取得了很好的 效果 Jing Huo, Yang Gao, Yinghuan Shi, Hujun Yin, Cross-Modal Metric Learning for AUC Optimization, IEEE Transactions on Neural Networks and Learning Systems, 2017, doi: 10.1109/TNNLS.2017.2769128 2018/12/10 27

28.噪声干扰问题 • 稀疏度量学习 – 稀疏在线度量学习[Gao et al., AAAI 2014] – 稀疏组合度量学习[Shi et al., AAAI 2014] – 高维稀疏数据度量学习[Liu et al., AISTATS 2015] – 基于坐标下降的稀疏度量学习[Atzmon et al., JMLR 2015] 存在的问题: 1. 未考虑数据中存在的结构信息 2. 反过来考虑,数据扩充,引入有效特征 2018/12/10 28

29.稀疏跨模态度量集成学习 • 目标 – 复杂结构带噪声的样本如何进行度量学习 • 解决方法 – 度量学习+稀疏结构化特征选择 2018/12/10 29