申请试用
HOT
登录
注册
 

多模态视听融合的视觉显著性预测模型研究

时间:
2021/11/12 20:00 - 21:30
地点:
研讨会直播
名额:
可容纳500人
发布方:
白玉兰开源

活动介绍

上海白玉兰开源开放研究院发起的“青年学者论坛”,意在为国内外大数据及人工智能领域的优秀青年学者,搭建一个非正式交流平台。我们诚邀发表在国际顶会的论文作者,以第一视角介绍其学术观点、研究细节、成果展现、相关领域前沿方向等话题,促进观点碰撞及交流合作。

此次是“青年学者论坛”第十四期活动,青年学者论坛讲师及志愿者持续招募中。如有意愿,请与我们联系,欢迎广大同学们积极参与。
Email:chengh@baiyulan.org.cn (邮件主题:青年学者论坛)
微信:chhao01 (验证消息:青年学者论坛)

  • 摘要

视觉和听觉是人类从外界获取信息的主要渠道,而多媒体系统通常也包含视频和音频,但目前的多媒体处理技术大多只聚焦于单一模态的信号,忽略了音视频多模态信号对人类视觉注意的影响。鉴于此,我们开展了多模态视听融合的视觉注意预测模型的研究,具体包括:
1)研究在2D场景中观看视频时音频对人类视觉注意的影响,提出了一种时空视听融合显著性预测模型;
2)研究VR场景中空间音频(环绕声)对人类视觉注意感知的影响,提出一种具有空间音频位置感知的视听显著性预测模型。
实验验证了我们提出模型的有效性,其研究成果可用于指导音视频多模态信号处理,监测及提升音视频体验质量,具有重要的理论意义和实用价值。

活动安排

时间 议程
20:00 – 20:05 本期介绍
20:05 – 20:50 多模态视听融合的视觉显著性预测模型研究
20:50 – 21:30 评议+Q&A

讲师介绍

dd1fa0da6f7695916e75fa20a79dc91.png
朱丹丹,上海交通大学人工智能研究院博士后,2019年博士毕业于同济大学软件学院。研究方向包括视觉注意力感知建模、机器视觉与图像理解等。在TCSVT、TCDS、TIE、Knowledge-Based Systems、Neurocomputing、JVCIR、CVPR、ICME等国际期刊和会议上发表论文十余篇。博士后期间获得国家自然科学基金青年基金项目资助。

评议人

35891d094ff5c312690694b93747017.png
谭靖儒,同济大学在读博士生,曾获得商汤年度优秀实习生。现主要研究方向为基于深度学习的目标检测以及长尾分布下的目标识别,曾在CVPR上发表过三篇论文。获得COCO竞赛中的大型长尾识别竞赛LVIS2019冠军、COCO竞赛中的大型长尾识别竞赛LVIS2020冠军。个人主页:https://github.com/tztztztztz

  1. Equalization Loss for Long-tailed Object Recognition
  2. Equalization Loss v2: A New Gradient Balance Approach for Long-tailed Object Detection
  3. RefineMask: Towards High-Quality Instance Segmentation with Fine-grained Features

合作媒体

  • CSDN
  • 思否
  • 掘金
  • 数据与智能
  • 示说

独家报名平台

示说.png

00
00
小时
00
分钟
00
公众号
确认
3秒后跳转登录页面
去登陆