申请试用
HOT
登录
注册
 

基于因果干预和依赖多任务学习的图像描述生成

时间:
2021/09/29 20:00 - 21:30
地点:
研讨会直播
名额:
可容纳100人
发布方:
白玉兰开源

活动介绍

上海白玉兰开源开放研究院发起的“青年学者论坛”,意在为国内外大数据及人工智能领域的优秀青年学者,搭建一个非正式交流平台。我们诚邀发表在国际顶会的论文作者,以第一视角介绍其学术观点、研究细节、成果展现、相关领域前沿方向等话题,促进观点碰撞及交流合作。

此次是“青年学者论坛”第十二期活动,青年学者论坛讲师及志愿者持续招募中。如有意愿,请与我们联系,欢迎广大同学们积极参与。
Email:chengh@baiyulan.org.cn (邮件主题:青年学者论坛)
微信:chhao01 (验证消息:青年学者论坛)

  • 摘要

目前的图像描述生成的工作主要是先对图像提取物体级别的特征序列,然后将此任务制定为单个序列到序列的任务。尽管这些工作取得了很不错的进展,但我们仍然在生成的文本中发现了两个问题:1)内容不一致,模型会生成图文矛盾的事实; 2) 信息量不足,模型会遗漏部分重要信息。从因果关系的角度来看,原因是模型捕获了视觉特征和某些文本之间的虚假统计相关性(例如,图像中的“长发”的视觉特征和文本中的“女人”)。在本文中,我们提出了一个结合因果干预和依赖多任务学习的框架。
首先,在最终任务图像字幕之前,我们引入一个中间任务——物体类别袋生成。此中间任务将帮助模型更好地理解视觉特征,从而缓解内容不一致问题。其次,我们将Judea Pearl因果理论中的do-calculus操作应用到模型上,切断了视觉特征和可能的混杂因素之间的联系,从而让模型专注于因果视觉特征。具体来说,高频概念集被视为代理混杂因素,并在拉式空间中推断出真正的混杂因素。最后,我们使用多智能体强化学习 (MARL) 策略来进行端到端训练并减少任务间错误累积。广泛的实验表明,我们的模型优于基线模型,并在与最先进的模型的比较中达到了具有竞争力的性能。
本工作发表在IJCAI 2021上。

活动安排

时间 议程
20:00 – 20:05 本期介绍
20:05 – 20:50 基于因果干预和依赖多任务学习的图像描述生成
20:50 – 21:30 评议+Q&A

讲师介绍

陈文清.png
陈文清,上海交通大学人工智能研究院在读博士生。主要研究兴趣集中于自然语言处理中因果推断、多任务学习、文本生成等,目前已在ACL、EMNLP、IJCAI、COLING等会议上发表一作论文4篇,合作论文12篇。

评议人

许岩岩.png
许岩岩,上海交通大学人工智能研究院长聘教轨副教授、博士生导师,2015年博士毕业于上海交通大学自动化系,2015年至2020年于MIT、UC Berkeley人类动力与网络实验室任职博士后研究员,2017年至2018年任职劳伦斯伯克利国家实验室客座博士后,2021年获得上海市浦江人才计划。重点以交叉学科视角,研究城市复杂系统中的人类移动行为、人类与建成环境的交互关系,并以数据驱动的方式对城市复杂系统进行建模与优化。针对城市尺度上的交通拥堵、电力网络、设施规划、大气污染等重大问题提出了一系列创新解决方案。研究成果以一作发表于自然子刊Nature Energy(IF=60)、科学子刊Science Advances(IF=14)、J. R. Soc. Interface、IJCAI等国际顶尖期刊和会议,被Nature Asia、彭博社等多家国际媒体报道。

合作媒体

  • CSDN
  • 思否
  • 掘金
  • 数据与智能
  • 示说
00
00
小时
00
分钟
00
公众号
确认
3秒后跳转登录页面
去登陆