- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 视频嵌入链接 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
1.李自-OpenDataology数据合规项目介绍及案例分享
展开查看详情
1 .
2 .OpenDataology - AI数据集合规项目 介绍及案例分享 LF-AI&DATA OpenDataology社区PMC 华为技术有限公司 李自
3 .数据集在AI科研创新和应用中的重要性 到2027年,全球AI训练数据集市场 规模有望突破 31亿美元,并 以 年 均 17.4% 复 合 增 长 率 继 续 增 长 . 数据集驱动了AI产业的发展和商业化,“Data Is the New Oil”
4 . 在AI开发场景下,使用已存在的开放数据成为了业界主流 直接使用 公开数据集 爬取信息生成 使用已存在的 数据集 公开数据 从公开网站获取数 需要大量的信息提取分析 获取门槛低,速度快, 据后生成数据集 “大家都在用,应该没问题” 开发 从第三方机构 采购数据集 需要付出大量经济成本 大数据、开放数据集的发展,大大降低了企业和个人参与AI相关产业的门槛,助推了AI第三次浪潮的兴起
5 .AI技术使用门槛逐步降低,使用开放数据成为了业界主流 由于近年来“开放“文化运动的兴起,无论是高校、政府、企业还是个人都参与到开放数据中来,极大地 丰富了开放数据的形式和内容 牛津大学开放数据主页 科研机构 北京大学开放数据主页 政府 Open Data UK Open Data Shenzhen 开源项目 (企业、个人) 美国公共地址开源项目 中国新冠肺炎COVID-19数据项目
6 .开放数据集的社会价值--新冠肺炎诊断&药物研发 利用AI进行肺部影像对比检测疑似新冠病例 预测蛋白质分子结构,研制靶向药物
7 .开放数据质量越来越高,模型训练精度大幅增长 Dataset Size 2.3k TFD 200K CelebA + 70K FFHQ 可以看到按照时间排序的人脸合成图像。到了2021年, 这项技术的效果已经足够好了,人类已经很难对 模型进行大幅改进,(甚至出现了恶意使用Deepfake生成虚假人像诈骗的案例)。
8 .大数据集、大模型是未来可能打开人机边界的潘多拉魔盒 Copilot -- 迄今为止Github最火的商业AI项目,为开发者提供智能化的代码补全和建议 Microsoft OpenAI Github 共同发布 ◆ 10亿美元 ◆ 5400万Github仓库 ◆ 仅Python训练集就有159GB ◆ 模型codex拥有120亿个参数 ◆ 完成70.2% 的 HumanEval 挑战 ◆ 每天提供算力数百petaflops 侵权?合规?安全? • Copilot 在公共存储库上的培训是否侵犯了版权?是否合理使用? We already know that Copilot as it stands is • Copilot 的输出对 GPL 许可作品的违规行为提出可诉求的可能性有多大? unacceptable and unjust, from our perspective. • 开发人员如何确保他们拥有版权的任何代码都受到保护,免受 Copilot 产生的违规行为? – Free Software Foundation(自由软件基金会) Github Copilot在争议中启航,展示了AI技术研究付诸应用仍具有不少挑战
9 .数据立法已是常态,AI数据集的下半场将会聚焦合规、安全数据治理 ◆ 从2018年开始实施,欧盟人口16岁以上人口中69%听说过的GDPR,71 %知道他们的国家数据保护机构。 ◆ 2021年11月1日,我国《个人信息保护法》正式落地实施 欧盟《统一数据保护条例》 ◆ 从敏感个人信息定义为一旦泄露或者非法使用,容易导致自然人的人格尊严受 2022年数据资源法庭第一案: 到侵害或者人身、财产安全受到危害的个人信息,包括生物识别、宗教信仰、 计算机数据未经许可进行获取 特定身份、医疗健康、金融账户、行踪轨迹等信息,以及不满十四周岁未成年 人的个人信息。 *来源:德勤报告《保障个人信息,规范数字化经济个人信息保护法深度解读》
10 .企业与科研机构使用开放数据的合规风险 不是适格用户 违规的使用目的 部分数据集对于用户的资格有明确的限制, 数据集license明确限制仅用于学术研究, 比如要求是学生,学术机构雇员等,如果以 或者非商业目的,有的甚至规定训练得到 商业公司的名义下载使用则违反用户资格。 的模型也属于数据集的衍生品,不得商业 例如:MIMIC-III Clinical Dataset 目的使用。 例如:图像识别imageNet数据集 开放数据集 违规的使用方式 第三方版权和个人信息风险 License中有禁止修改,禁止分发等条款, 数据集包含大量第三方享有版权的图片, 容易违反 不同来源的图片license也不同,有些甚至 没有license,被维权的话需要立即删除, 例如:城市街景Cityscape数据集 对产品/服务造成影响 例如:图像识别CIFAR-10数据集
11 .为什么产生这些风险? 有关溯源的挑战 有关血缘关系的挑战 有关许可的挑战 许可证范围不清晰 未声明所有数据源 权利和责任不清晰 许可证地址不清晰 识别最小许可数据单元 多重许可证的相互作用 和影响不清晰 数据集的多个副本/变种 寄存于不同的位置
12 .公开可用数据集潜在风险评估结果 商业分发数据集 商业分发预训练模型 发布带有AI模型的产品
13 .开放数据合规项目 – OpenDataology(开放+数据学) 保障企业和科研机构AI数据合规 • 数据元数据生成 • 数据版权与许可证生成 • 数据隐私与安全保障 • 数据可信运营与审计
14 .OpenDataology全景图 规划&设计 准备 开发/训练 评估 测试&发布 集成与应用 维护 治理与运营 数据源管理平台 引入审核工具 成分分析工具 血缘分析工具 运营与审计工具 数据溯源 许可准入分析 代码血缘分析 AI BOM 度量看板 元数据目录维护 license清单维护 父子数据关系追溯 工 公开数据源 历史版本配套关系 metrics 元数据确权 非准入license预警 数据集依赖分析 合规、安全遵从性预警 具 可疑数据集审核 争议license会审 依赖树生成 License属性挂接 与 技 AIOps基础设施 数据克隆检测 人机共读元数据模型 DAG有向无环图数据库 可信数据社区 术 AI Workflow 提取与验证数据 训练与分析模型 部署与监控 创建数据集License 流 以合规为例: 上传License 审核License License入仓 License发布 维护License属性 标准组织Approve License退出 开放数据集License (升级版本) 程 全生命周期 与 数据集License选择 License人机共读技术 机 制 数据集 溯源 数据集License合规分析 数据 维护数元数据 开放数据集元数据 集溯 数据集 License License License License (升级版本) 数据集开放到外部平台 数据集退出 全生命周期 成分分析 获取 解析 兼容分析 声明 源 国际 国内 SBOM 数据集元数 标 Incubatin Dataset license 据 白皮书 SPDX ISO AI SBOM LF-AI g compliance 准 Initiative 国际标准推动 CAICT中国信通院 AI-BOM Data File(s) License标准 License合规认 同时,利用国 与 证 推团标/行标 际成果推动国 规 Model Package 内标准落地。 范 AI企业 标准应用 通过贡献AI-BOM预埋AI数据相关License标准的空间,实现与SPDX的互操作
15 .OpenDataology做什么 理论与机制 开发工具和自动化 社区协作共建 开发/强化标准和规范
16 .OpenDataology – 理论与机制建设 探索 通过与加拿大约克大学合作洞察各国数据相关法律法规,总结业界优秀实践,发布研究论文,相关结论引起多国学者讨论 理论与机制 开发工具和自 社区协作共建 动化 Link: https://arxiv.org/abs/2111.02374 开发/强化标准和规范
17 .OpenDataology – 流程与机制建设 数据集可信审核流程:以合规为例,结合许可证溯源、血缘分析、条款解释、兼容性分析等节点进行技术评估流程设计 Dataset 理论与机制 阶段1: 确认许可 许可证提取 溯源 血统提取 AI 工程师 开发工具和自 阶段1: 输 数据集溯源表 数据集血统表 社区协作共建 出 动化 阶段2:许可证合规性评估 许可证兼容性 许可证解释 分析 开发/强化标准和规范 律师 阶段2: 输 数据集许可解释 数据集许可证兼 出 表 容性评估表 场景评估
18 .OpenDataology – 社区协作构建 社区协作:OpenDataology已和10+社区、企业和高校建立合作,并进入LF-AI基金会孵化,社区发展进入新阶段。 理论与机制 开发工具和自 社区协作共建 动化 开发/强化标准和规范
19 .OpenDataology – 工具 AI数据集公开信息共享平台 :集成50+数据集License风险分析数据,3000+开放数据集元数据信息,让用户和开发者0门槛进行可信分析,确保数据集使用合规。 AI数据集公开信息共享平台 – 许可证评估 理论与机制 该平台记录了数据集的许可证、元数据(使用我们的标准详细记录溯源和血统 信息),以及许可证分解和分析。 开发工具和自 社区协作共建 动化 开发/强化标准和规范
20 .OpenDataology – 工具 AI数据集公开信息共享平台 :集成50+数据集License风险分析数据,3000+开放数据集元数据信息,让用户和开发者0门槛进行可信分析,确保数据集使用合规。 AI数据集公开信息共享平台 – 元数据共享 流程机制建设 该平台记录了数据集的许可证、元数据(使用我们的标准详细记录溯源和血统 信息),以及许可证分解和分析。 开发工具和自 社区协作共建 动化 开发/强化标准和规范
21 .OpenDataology – 工具 许可证推荐与生成工具:根据数据集开放场景、用户权利、义务和限制,自动化推荐可信的数据集License,避免开放数据过程中产生的法律纠纷。 我们开发了一个初始版本的网站,该网站记录了数据集的许可证、元数据 (使用我们的标准详细记录溯源和血统信息),以及许可证分解和分析。 理论与机制 链接:http://www.data-license.xyz:30800/#/dataSetInfo?id=1 开发工具和自 社区协作共建 录入需求 动化 推荐许可 发布许可 开发/强化标准和规范 新增许可
22 .OpenDataology – 工具 人机共读的元数据自动生成:天然与软件供应链国际标准SPDX兼容,并满足合规标准OpenChain,推动AI数据集元数据和许可证的高度自动化集成 生成与SPDX可兼容的机器可读、可序列化的元数据格式 流程机制建设 开发工具和自 社区协作共建 ISO/IEC 5962:2021 动化 开发/强化标准和规范
23 .OpenDataology – 标准与规范建设 标准制定:联合信通院建立国内团标制定率先启动在国内的推广与试行,LF-AI&Data基金会和SPDX社区合作推动成为国际标准。 流程机制建设 开发工具和自 社区协作共建 动化 开发/强化标准和规范 • 通过实践优化已有数据元数据标准 • 与国际标准组织共建数据集合规标准
24 .OpenDataology t a 数据平台落地 O p e n D a– ology – 数据平台落地
25 . 展望 – OpenDataology里程碑计划 展望 – OpenDataology里程碑计划 OpenDataology项目将更进一步将数据可信能力拓展到安全与隐私保护、更自动化的溯源和信息提取,提升科研机构和企业实施数据可信的效率和可靠性。 许可 许可自动 邀请贡献者合 建立数据集可信流程 合规 生成器 作 和要求 邀请法律专家 增强现 道德 版权合规 帮助贡献 有标准 合规 血统自动 隐私 提取 合规 开发工具和自 社区协作共建 动化 2022 Q2 Q3 Q4 2023 Q2 Q3 Q4 2024 Q2 Q3 Q4 2025 Q2 Q1 Q1 Q1 Q1 开发/强化标准和规范 通过Slack 通过数据克隆检 许可合规流 通道讨论 测确保合规 程自动化 自动溯源 创建新 提取 标准 建立审核和治理策 建立维基和论坛,积极 略 讨论
26 .An Open Source Dataset License Compliance Project opendataology www.opendataology.com:30000 main@opendataology.com dataset-license.slack.com
27 .