- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 视频嵌入链接 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
3.金耀辉-白玉兰开源:从论文到产品的可复现人工智能的思考与尝试forCAHM2022
白玉兰开源:从论文到产品的可复现人工智能的思考与尝试 金耀辉 上海交通大学人工智能研究院教授、博士生导师、上海白玉兰开源开放研究院执行院长
展开查看详情
1 . 可复现的人工智能:从论文到产品的创新 Reproducible AI: From paper to product 金耀辉 China Apache Hadoop Meetup 2022
2 . 人工智能“创新”中的混乱 《自然》杂志2020年5月20日的一项研究,70个独立的团队被要求要人工智能算法分析相同的大脑图像,没有两 个团队选择相同的工作流程,结论差异很大。这项研究的教训充分说明可复现AI对于科学研究的必要性和紧迫性。 2
3 . 科学研究中的可复现并不是一个新问题 • 2015年以来,Nature 30+篇论文讨论科学研究的可重现问题,从指导原则、支撑 工具到最佳实践,多个学科科学家们的共识是“简单开放是不够的”。 论文结果的复现,不仅依赖于代码,同时依 赖于数据、运行环境等一系列复杂条件。 3
4 . 计算科学与人工智能中的可复现问题 ❑ Science杂志2011年论文,“Reproducible Research in Computational Science”,大量的公开数据集使得科学家不再 依赖于观测仪器,而是直接在这些公开数据集上应用新的算法就可能有新的发现,然而可复现一直是困扰整个计算科学研究 的一个基本问题。作者提出了一个可再现谱,希望建立可复现的金标准。 R. D. Peng, Reproducible Research in Computational Science, Vol 334, 1226-1227, Science 2011 ❑ 可复现问题在人工智能领域更加糟糕,AAAI 2018的一项研究工作:作者对近5年的AAAI/IJCAI论文做了统计调查,发现只 有25%左右的研究可再现,如果把这些研究成果直接应用到行业场景中,不确定性增加,可再现的比例会再大幅下降。 O. Gundersen et al., State of the Art: Reproducibility in Artificial Intelligence, AAAI 2018 4
5 .人工智能的技术创新离不开代码开源和数据开放 2010 2015 2020 开 18,394 + 3,761 源 165,895 框 架 高质量开放数据集促进了深度 56,840 2,941 + 6,456 学习算法的快速创新,开源框 EfficientNet 开 架极大地提升了算法开发效率 23,844 源 ResNet Mask_RCNN YOLOv5 算 73,873 21,853 27,691 法 Transformers 65,586 开 放 8,490 2,202 数 CIFAR-10 5,920 据 8,887 1,452 GitHub星数 Gitee星数 论文数 截止2022年6月 5
6 . 美国:国家人工智能研究资源工作组 • 2021年6月10日美国白宫和NSF共同宣布成立,建设开放共享的计算资源、高质量数据集、教育工具,为人 工智能领域所有研究机构、专家学者及学生提供支持,巩固美国在人工智能领域新技术的前沿地位。 • 12位技术型学者代表政府、科研机构和企业在该组织中任职,包括斯坦福大学李飞飞、谷歌Andrew Moore、 艾伦AI研究所Oren Etzioni等人。 • 美国政府倡议向人工智能研究人员开放更多政府数据,“这是一个追求速度和规模的时代,人工智能技术的 发展需要无所不在的创新。而更多的开放数据,是实现美国人工智能技术创新的关键。” 6
7 . 欧盟:地平线2020项目 AI4EU 2019年开始,投资2000万欧元,近80个学术和企业成员 建立第一个欧洲人工智能云平台与生态 收集和共享欧洲项目中产生的AI资源包含 AI组件和ML模型 人工智能研究与创新方面的专业知识 高质量数据集 提供一个试验场来建立可复现AI实验 建立欧洲道德观察站,以确保欧洲AI项目遵守严格的道德,法律 和社会经济标准 7
8 . 白玉兰开源揭牌 上海交通大学牵头的“上海白玉兰开源开放研究院”在2020WAIC的闭幕式上由代市长龚正见 证,市委常委、浦东新区区委书记翁祖亮和上海交通大学党委书记杨振斌共同揭牌。 上海交通大学人工智能研究院院长、中科院院士梅宏任首席科学家。 8
9 . 建设目标与任务 构建人工智能创新生态,助力上海人工智能高地打造 推进人工智能软件框架研发与开源,与国内外知 名开源社区互联互通,汇聚国内外开发者智慧, 特别是国际知名开源开发者与科学家,以开源社 区平台为牵引,以提升先进算法和模型的可复现 性为目标,推动人工智能领域开源产品的国际规 则互认,在重点领域形成“算力、算法、数据、 场景、合规”一体化的人工智能社区,建设国际 人工智能开发生态网络的关键节点。 9
10 . 建设内容与形态 协调各方资源,实现行业场景和数据开放,帮助中小企业和科研机构利用巨头企业 的开源开放框架服务传统行业,服务科学决策、承担智库功能。 Linked Data and Security 行业场景与 关联数据与安全 政务服务 金融科技 … 数据资源知 人工智能开放场景 识库 建设内容 原始数据 场景数据 ◼ 系统验证 ◼ 行业场景 ◼ 开发者社 与合规评 与数据资 区与STAR 开发者社区与 人工智能 数据 AI 应用 人工智能 系统验证与 测实验室 源知识库 项目池 STAR项目池 开发平台 模型 Marketplace 代码 异构系统 合规评测实 框架 论文 算法 数据 任务 验室 Linux … TensorFlow CPU/NPU/Linux/ 政务服务/车联网/ 可复现性与产品原 PyTorch CPU NPU Mindspore OS… 泛金融科技/医疗 型快速迭代 健康… 工具、评测、治理、监管 Short Term Accelerated Release AI Standard and Safety STAR项目 快速原型 AI伦理与安全 10
11 . 新型AI开发者社区与STAR项目:提升可复现性 AI研发特点:工具太新、发展太快 STAR: Short Term Accelerated Release 研究课题:2年 中长期科研 STAR项目:2周-2月-2季度 论文复现、竞赛选优、原型验证、系统优化 Hackathon:2时-2天 技术布道、技能学习、开源文化 时间 11
12 . 白玉兰开源的政产学研用赛投生态初步形成 Intel 政 产 (开源AI推理工具) 学 赛 信产部 百度 励讯集团 华东师大大数据学院 AIWIN 市经信委 (开放数据、开源AI框架) (开放科学数据) (开源教育) (开源AI竞赛) 市科委 阿里 Graviti 上海交大计算机系 和鲸科技 (开源数据库) (开放数据平台) (数模竞赛) (数据科学竞赛) 研 华为 MagicHub 上海交大学生创新中心 上海交大AI研究院 (鲲鹏、开源AI框架) (开放数据平台) (开源创新) (开源算法、开放数据) 爱奇艺 Zilliz 上海交大凯源法学院 (开源AI) (开源AI数据库) (法律法规) 蚂蚁 北京大学信息学院 (知识图谱) (开源软件) 华东师大大数据学院 用 Artifacts 示说网 治 投 (开源运营) (开源数据分析) (开源布道) 电子标准院 市大数据中心 思贤科技 开放数据中国 木兰开源社区 云启资本 (开源社区、开源标准) (开源平台) (开源AI应用) (开源布道) 开放原子基金会 中金启元 中国信通院 浦东大数据中心 抖睿 开源社 (开放数据) (开源区块链) (社区运营) (开源布道) 朋友圈正在不断扩大中…… 12
13 .科研论文复现 vs. 企业产品复制 科学研究 产品研发 性能 SOTA 比简单的模型略好 优先考虑 训练速度 推理速度 数据 静态 不断变化 公平性 锦上添花 重要 可解释性 锦上添花 重要 复杂性 可接受 不可实施 难点 建模 无处不在 13
14 .机器学习不是人工智能产品的全部! 系统管理 数据工程师 数据科学家 数据 机器资源的 验证 管理和监控 模型 监视 服 务 配置 数据收集 机器 架 分析工具 构 …… 学习 特征提取 过程管理工具 Google Team. Hidden technical debt in machine learning systems. NeuIPS (2015) 14
15 . 案例1: 上海疫情数据公开及可视化 平台主要显示: 小区级别: • 小区动态信息 • 14天内通报情况 市、区级: • 每日新增 • 社会面新增 • 确诊存量 • 无症状感染存量 最新医疗/核酸资源 扫码访问 疫情走势分析 疫情仿真模拟 http://reopen.baiyulan.org.cn/#
16 . 疫情数据获取与分析 自动化数据获取与解析流程 上海市卫健委公开数据 自然语言智能处理(自动更新) 机器可读geojson格式开放 ✓ 智能地址解析 ✓ 地理信息获取 百度地图 高德地图 ✓ 错误信息纠正 *数据已被澎湃新闻引用
17 . 上海疫情数据公开及可视化 网站总访问量接近4万人次 访问来自于58个国家和地区 平台上线后,受到国家信息中心、上海市公安 局、上海市大数据中心、澎湃新闻、亚马逊中 国、阿里云等机构专家的高度关注和好评 开源代码吸引近百名开发者收藏关注
18 . 街道尺度疫情分析 • 街道人口密度越大,疫情风险越高,且关系呈现出幂律分布 • 人口密度视角偏离分布的街镇: 百米网格人口数据来源:https://www.worldpop.org/ 向上偏离(风险偏大):周浦街道、申港街道等 向下偏离(风险低于预期):大宁路街道等
19 . 基于智能体的大规模仿真模型 基于智能体的建模方法(Agent-Based Modeling,ABM)是分布式人工智能的一种,其运作方式是建立一系列有 自主分析和决策能力的智能体(agent),并通过这些智能体的行为和互动来模拟真实世界的运行。 基于智能体的城市流行病传播模型不仅对流行病传播的持续时间、感染节点数量及其空间分布的预测具有良好的准确性,还能够较 为有效地模拟多种公共卫生干预措施对疫情发展的影响,从而为城市疫情期间的危机防控和健康安全空间体系的打造提供帮助。 欧美国家在新冠爆发初期,诸多以物理、人工智能学者为主的科研团队,开发了大规模ABM系统,辅助政府在初 期社交距离管控、后期经济重启等环节作出科学决策。 阿贡实验室开发了大规模COVID-19模拟系统, MIT仿真了波士顿地区疫情传播, Stanford仿真了美国大城市疫情传播, 服务芝加哥地区疫情防控 成果发表于《自然·人类行为》 成果发表于《自然》
20 . 上海疫情数据公开及可视化 基于历史数据的初步建模: 由个体到区域的精准推演 ABM模型 上海市2800万人口移动行为 100m网格为基本空间单元的疫情扩散模拟
21 .上海市疫情发展模拟与推演
22 . 案例2: 面向“一网通办”的人工智能算法集 以AI+审批为例: 多端协同服务 优化营商环境 AI+应用场景层 文档输入 AI+审批应用 AI+服务应用 AI+监管应用 AI+应用场景层 AI+数据规则集 AI+算法模型集 图像预处理模型 AI 内 AI+审批材料形式审查样本数据 市民主页、企业专属网页 技 运 安 + 容 用户画像总库 术 营 全 文档元素提取模型 一 AI+内容学习层 学 习 AI+服务用户行为样本数据 按需提取 用户行为总库 标 标 标 总 网 库 AI+监管信用信息样本数据 政务知识总库 准 准 准 通 规 规 规 办 范 范 范 文档分类模型 中 用户行为数据感知 体 体 体 枢 系 系 系 AI+多维感知层 结构化信息提取模型 跨层级 跨部门 多渠道 多用户 信息提取拼接模型 AI+基础能力层 市电子政务云PaaS平台 AI技术能力 规则审批模型 数据集 + 模型集,性能评测标准与工具 22
23 .文档图像理解任务 ◼ 感知任务 提取图片中的文本,转化为计算机内字符 “Americas”,“Europe”…… ◼ 归纳任务 完成元素间的匹配归纳 Americas——June 26,2021——35,870$ ◼ 推理任务 完成对内容的理解与推理 Q:亚洲哪个地区销售额最高? A:Greater China. 23
24 . CALM-文档图像常识增强模型架构图 Open Knowledge: ConceptNet ◼ OCR Token的常识表征模块——针对文档归纳任务 Open DataSets: RVL-CDIP, FUNSD, DocVQA, … ◼ 文档图像常识推理模块——针对文档推理任务 Open Models: BERT, RoBERTa, LayoutLM, … Q. Du, et al., CALM: Commen-Sense Knowledge Augmentation for Document Image Understanding, ACM MM 2022 24
25 .CALM-Case Study (1) 常识增强模型与传统模型对比 Q1: What is the type of the Luncheon? LayoutLM: 1997 RJR United Way Solicitors’ CALM(ours): Lunch buffet. Q1中,传统模型仅根据上下文内容,无 法得知“Buffet”一词含义,但CALM掌握 到了“Buffet is a type of Meal”, “Lunch is a Meal”两条常识信息,因此 能够正确作答。 25
26 .CALM-Case Study (2) 常识增强模型与传统模型对比 Q2: Who is the host of the Luncheon? LayoutLM: Solicitors’ CALM(ours): Inman. Q2中,原文中并不包含“host”一词,因 此传统模型无法理解问题。而CALM掌 握到了“Host is capable of welcome guests”这一常识。因此能够作答。 26
27 . 应用:联合创新与央视报道“超级智能帮办” 2020年7月,上海交大与上海市大数据 中心成立联合创新实验室 2020年5月,上海交大人工智能研究院 与浦东新区行政服务中心联合成立 “AI+一网通办联合创新实验室” 上海浦东新区行政服务中心推出“超级智能帮办”, 面向政务的开源开放平台落地验证、示范 27
28 .谢谢