申请试用
HOT
登录
注册
 
多模态视听融合的视觉显著性预测模型研究_11.12(1)
多模态视听融合的视觉显著性预测模型研究_11.12(1)

多模态视听融合的视觉显著性预测模型研究_11.12(1)

白玉兰开源
/
发布于
/
575
人观看

内容简介

视觉和听觉是人类从外界获取信息的主要渠道,而多媒体系统通常也包含视频和音频,但目前的多媒体处理技术大多只聚焦于单一模态的信号,忽略了音视频多模态信号对人类视觉注意的影响。鉴于此,我们开展了多模态视听融合的视觉注意预测模型的研究,具体包括:
1)研究在2D场景中观看视频时音频对人类视觉注意的影响,提出了一种时空视听融合显著性预测模型;
2)研究VR场景中空间音频(环绕声)对人类视觉注意感知的影响,提出一种具有空间音频位置感知的视听显著性预测模型。
实验验证了我们提出模型的有效性,其研究成果可用于指导音视频多模态信号处理,监测及提升音视频体验质量,具有重要的理论意义和实用价值。

讲师介绍

朱丹丹,上海交通大学人工智能研究院博士后,2019年博士毕业于同济大学软件学院。研究方向包括视觉注意力感知建模、机器视觉与图像理解等。在TCSVT、TCDS、TIE、Knowledge-Based Systems、Neurocomputing、JVCIR、CVPR、ICME等国际期刊和会议上发表论文十余篇。博士后期间获得国家自然科学基金青年基金项目资助。

0点赞
0收藏
0下载
确认
3秒后跳转登录页面
去登陆