3.金耀辉-白玉兰开源：从论文到产品的可复现人工智能的思考与尝试forCAHM2022

播放视频

视频文档

3.金耀辉-白玉兰开源：从论文到产品的可复现人工智能的思考与尝试forCAHM2022

下载 12

示说网官方

发布于

566

人观看

#信息技术

白玉兰开源：从论文到产品的可复现人工智能的思考与尝试 金耀辉 上海交通大学人工智能研究院教授、博士生导师、上海白玉兰开源开放研究院执行院长

展开查看详情

1 . 可复现的人工智能：从论文到产品的创新 Reproducible AI: From paper to product 金耀辉 China Apache Hadoop Meetup 2022

2 . 人工智能“创新”中的混乱《自然》杂志2020年5月20日的一项研究，70个独立的团队被要求要人工智能算法分析相同的大脑图像，没有两个团队选择相同的工作流程，结论差异很大。这项研究的教训充分说明可复现AI对于科学研究的必要性和紧迫性。 2

3 . 科学研究中的可复现并不是一个新问题 • 2015年以来，Nature 30+篇论文讨论科学研究的可重现问题，从指导原则、支撑工具到最佳实践，多个学科科学家们的共识是“简单开放是不够的”。论文结果的复现，不仅依赖于代码，同时依赖于数据、运行环境等一系列复杂条件。 3

4 . 计算科学与人工智能中的可复现问题 ❑ Science杂志2011年论文，“Reproducible Research in Computational Science”，大量的公开数据集使得科学家不再依赖于观测仪器，而是直接在这些公开数据集上应用新的算法就可能有新的发现，然而可复现一直是困扰整个计算科学研究的一个基本问题。作者提出了一个可再现谱，希望建立可复现的金标准。 R. D. Peng, Reproducible Research in Computational Science, Vol 334, 1226-1227, Science 2011 ❑ 可复现问题在人工智能领域更加糟糕，AAAI 2018的一项研究工作：作者对近5年的AAAI/IJCAI论文做了统计调查，发现只有25%左右的研究可再现，如果把这些研究成果直接应用到行业场景中，不确定性增加，可再现的比例会再大幅下降。 O. Gundersen et al., State of the Art: Reproducibility in Artificial Intelligence, AAAI 2018 4

5 .人工智能的技术创新离不开代码开源和数据开放 2010 2015 2020 开 18,394 + 3,761 源 165,895 框架高质量开放数据集促进了深度 56,840 2,941 + 6,456 学习算法的快速创新，开源框 EfficientNet 开架极大地提升了算法开发效率 23,844 源 ResNet Mask_RCNN YOLOv5 算 73,873 21,853 27,691 法 Transformers 65,586 开放 8,490 2,202 数 CIFAR-10 5,920 据 8,887 1,452 GitHub星数 Gitee星数论文数截止2022年6月 5

6 . 美国：国家人工智能研究资源工作组 • 2021年6月10日美国白宫和NSF共同宣布成立，建设开放共享的计算资源、高质量数据集、教育工具，为人工智能领域所有研究机构、专家学者及学生提供支持，巩固美国在人工智能领域新技术的前沿地位。 • 12位技术型学者代表政府、科研机构和企业在该组织中任职，包括斯坦福大学李飞飞、谷歌Andrew Moore、艾伦AI研究所Oren Etzioni等人。 • 美国政府倡议向人工智能研究人员开放更多政府数据，“这是一个追求速度和规模的时代，人工智能技术的发展需要无所不在的创新。而更多的开放数据，是实现美国人工智能技术创新的关键。” 6

7 . 欧盟：地平线2020项目 AI4EU  2019年开始，投资2000万欧元，近80个学术和企业成员  建立第一个欧洲人工智能云平台与生态  收集和共享欧洲项目中产生的AI资源包含  AI组件和ML模型  人工智能研究与创新方面的专业知识  高质量数据集  提供一个试验场来建立可复现AI实验  建立欧洲道德观察站，以确保欧洲AI项目遵守严格的道德，法律和社会经济标准 7

8 . 白玉兰开源揭牌  上海交通大学牵头的“上海白玉兰开源开放研究院”在2020WAIC的闭幕式上由代市长龚正见证，市委常委、浦东新区区委书记翁祖亮和上海交通大学党委书记杨振斌共同揭牌。  上海交通大学人工智能研究院院长、中科院院士梅宏任首席科学家。 8

9 . 建设目标与任务构建人工智能创新生态，助力上海人工智能高地打造推进人工智能软件框架研发与开源，与国内外知名开源社区互联互通，汇聚国内外开发者智慧，特别是国际知名开源开发者与科学家，以开源社区平台为牵引，以提升先进算法和模型的可复现性为目标，推动人工智能领域开源产品的国际规则互认，在重点领域形成“算力、算法、数据、场景、合规”一体化的人工智能社区，建设国际人工智能开发生态网络的关键节点。 9

10 . 建设内容与形态协调各方资源，实现行业场景和数据开放，帮助中小企业和科研机构利用巨头企业的开源开放框架服务传统行业，服务科学决策、承担智库功能。 Linked Data and Security 行业场景与关联数据与安全政务服务金融科技 … 数据资源知人工智能开放场景识库建设内容原始数据场景数据 ◼ 系统验证 ◼ 行业场景 ◼ 开发者社与合规评与数据资区与STAR 开发者社区与人工智能数据 AI 应用人工智能系统验证与测实验室源知识库项目池 STAR项目池开发平台模型 Marketplace 代码异构系统合规评测实框架论文算法数据任务验室 Linux … TensorFlow CPU/NPU/Linux/ 政务服务/车联网/ 可复现性与产品原 PyTorch CPU NPU Mindspore OS… 泛金融科技/医疗型快速迭代健康… 工具、评测、治理、监管 Short Term Accelerated Release AI Standard and Safety STAR项目快速原型 AI伦理与安全 10

11 . 新型AI开发者社区与STAR项目：提升可复现性  AI研发特点：工具太新、发展太快  STAR: Short Term Accelerated Release 研究课题：2年中长期科研 STAR项目：2周-2月-2季度论文复现、竞赛选优、原型验证、系统优化 Hackathon：2时-2天技术布道、技能学习、开源文化时间 11

12 . 白玉兰开源的政产学研用赛投生态初步形成 Intel 政产（开源AI推理工具）学赛信产部百度励讯集团华东师大大数据学院 AIWIN 市经信委（开放数据、开源AI框架）（开放科学数据）（开源教育）（开源AI竞赛）市科委阿里 Graviti 上海交大计算机系和鲸科技（开源数据库）（开放数据平台）（数模竞赛）（数据科学竞赛）研华为 MagicHub 上海交大学生创新中心上海交大AI研究院（鲲鹏、开源AI框架）（开放数据平台）（开源创新）（开源算法、开放数据）爱奇艺 Zilliz 上海交大凯源法学院（开源AI）（开源AI数据库）（法律法规）蚂蚁北京大学信息学院（知识图谱）（开源软件）华东师大大数据学院用 Artifacts 示说网治投（开源运营） (开源数据分析) （开源布道）电子标准院市大数据中心思贤科技开放数据中国木兰开源社区云启资本（开源社区、开源标准）（开源平台）（开源AI应用）（开源布道）开放原子基金会中金启元中国信通院浦东大数据中心抖睿开源社（开放数据）（开源区块链）（社区运营）（开源布道）朋友圈正在不断扩大中…… 12

13 .科研论文复现 vs. 企业产品复制科学研究产品研发性能 SOTA 比简单的模型略好优先考虑训练速度推理速度数据静态不断变化公平性锦上添花重要可解释性锦上添花重要复杂性可接受不可实施难点建模无处不在 13

14 .机器学习不是人工智能产品的全部！系统管理数据工程师数据科学家数据机器资源的验证管理和监控模型监视服务配置数据收集机器架分析工具构 …… 学习特征提取过程管理工具 Google Team. Hidden technical debt in machine learning systems. NeuIPS (2015) 14

15 . 案例1: 上海疫情数据公开及可视化平台主要显示：小区级别： • 小区动态信息 • 14天内通报情况市、区级： • 每日新增 • 社会面新增 • 确诊存量 • 无症状感染存量最新医疗/核酸资源扫码访问疫情走势分析疫情仿真模拟 http://reopen.baiyulan.org.cn/#

16 . 疫情数据获取与分析自动化数据获取与解析流程上海市卫健委公开数据自然语言智能处理（自动更新）机器可读geojson格式开放 ✓ 智能地址解析 ✓ 地理信息获取百度地图高德地图 ✓ 错误信息纠正 *数据已被澎湃新闻引用

17 . 上海疫情数据公开及可视化网站总访问量接近4万人次访问来自于58个国家和地区平台上线后，受到国家信息中心、上海市公安局、上海市大数据中心、澎湃新闻、亚马逊中国、阿里云等机构专家的高度关注和好评开源代码吸引近百名开发者收藏关注

18 . 街道尺度疫情分析 • 街道人口密度越大，疫情风险越高，且关系呈现出幂律分布 • 人口密度视角偏离分布的街镇：百米网格人口数据来源：https://www.worldpop.org/ 向上偏离（风险偏大）：周浦街道、申港街道等向下偏离（风险低于预期）：大宁路街道等

19 . 基于智能体的大规模仿真模型基于智能体的建模方法（Agent-Based Modeling，ABM）是分布式人工智能的一种，其运作方式是建立一系列有自主分析和决策能力的智能体（agent），并通过这些智能体的行为和互动来模拟真实世界的运行。基于智能体的城市流行病传播模型不仅对流行病传播的持续时间、感染节点数量及其空间分布的预测具有良好的准确性，还能够较为有效地模拟多种公共卫生干预措施对疫情发展的影响，从而为城市疫情期间的危机防控和健康安全空间体系的打造提供帮助。欧美国家在新冠爆发初期，诸多以物理、人工智能学者为主的科研团队，开发了大规模ABM系统，辅助政府在初期社交距离管控、后期经济重启等环节作出科学决策。阿贡实验室开发了大规模COVID-19模拟系统， MIT仿真了波士顿地区疫情传播， Stanford仿真了美国大城市疫情传播，服务芝加哥地区疫情防控成果发表于《自然·人类行为》成果发表于《自然》

20 . 上海疫情数据公开及可视化基于历史数据的初步建模：由个体到区域的精准推演 ABM模型上海市2800万人口移动行为 100m网格为基本空间单元的疫情扩散模拟

21 .上海市疫情发展模拟与推演

22 . 案例2：面向“一网通办”的人工智能算法集以AI+审批为例：多端协同服务优化营商环境 AI+应用场景层文档输入 AI+审批应用 AI+服务应用 AI+监管应用 AI+应用场景层 AI+数据规则集 AI+算法模型集图像预处理模型 AI 内 AI+审批材料形式审查样本数据市民主页、企业专属网页技运安 + 容用户画像总库术营全文档元素提取模型一 AI+内容学习层学习 AI+服务用户行为样本数据按需提取用户行为总库标标标总网库 AI+监管信用信息样本数据政务知识总库准准准通规规规办范范范文档分类模型中用户行为数据感知体体体枢系系系 AI+多维感知层结构化信息提取模型跨层级跨部门多渠道多用户信息提取拼接模型 AI+基础能力层市电子政务云PaaS平台 AI技术能力规则审批模型数据集 + 模型集，性能评测标准与工具 22

23 .文档图像理解任务 ◼ 感知任务提取图片中的文本，转化为计算机内字符 “Americas”，“Europe”…… ◼ 归纳任务完成元素间的匹配归纳 Americas——June 26,2021——35,870$ ◼ 推理任务完成对内容的理解与推理 Q:亚洲哪个地区销售额最高？ A:Greater China. 23

24 . CALM-文档图像常识增强模型架构图 Open Knowledge: ConceptNet ◼ OCR Token的常识表征模块——针对文档归纳任务 Open DataSets: RVL-CDIP, FUNSD, DocVQA, … ◼ 文档图像常识推理模块——针对文档推理任务 Open Models: BERT, RoBERTa, LayoutLM, … Q. Du, et al., CALM: Commen-Sense Knowledge Augmentation for Document Image Understanding, ACM MM 2022 24

25 .CALM-Case Study (1) 常识增强模型与传统模型对比 Q1: What is the type of the Luncheon? LayoutLM: 1997 RJR United Way Solicitors’ CALM(ours): Lunch buffet. Q1中，传统模型仅根据上下文内容，无法得知“Buffet”一词含义，但CALM掌握到了“Buffet is a type of Meal”， “Lunch is a Meal”两条常识信息，因此能够正确作答。 25

26 .CALM-Case Study (2) 常识增强模型与传统模型对比 Q2: Who is the host of the Luncheon? LayoutLM: Solicitors’ CALM(ours): Inman. Q2中，原文中并不包含“host”一词，因此传统模型无法理解问题。而CALM掌握到了“Host is capable of welcome guests”这一常识。因此能够作答。 26

27 . 应用：联合创新与央视报道“超级智能帮办” 2020年7月，上海交大与上海市大数据中心成立联合创新实验室 2020年5月，上海交大人工智能研究院与浦东新区行政服务中心联合成立 “AI+一网通办联合创新实验室” 上海浦东新区行政服务中心推出“超级智能帮办”，面向政务的开源开放平台落地验证、示范 27

28 .谢谢

0点赞

1收藏

12下载