- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
中国面向人工智能的数据治理
AI技术创新应用走向大规模落地,带动了大数据智能市场的蓬勃发展。2021年大数据智能市场规模约为553亿元。目前传统数据治理体系多停留在结构性数据化治理工作,尚难满足AI应用对数据的高质量要求。企业可吸收传统体系的智慧沉淀,以AI应用数据需求为核心,优化建设“面向人工智能的数据治理”体系,显著提升AI应用的规模化落地效果。
展开查看详情
1 .击破业务落地要害 中国面向人工智能的数据治理 行业研究报告 ©2022.3 iResearch Inc.
2 .摘要 前言-数据与数据治理:如今数据不再局限于传统数字形式的认知,由结构化数据延 伸到半结构化、非结构化的数据范畴。数据治理越来越受到企业的普遍重视,在数 据生命周期的各个阶段通过相应的工具与方法论,使数据发挥出更大的价值,是实 现数据服务与应用必不可少的阶段。 主题-面向人工智能的数据治理:AI技术创新应用走向大规模落地,带动了大数据智 能市场的蓬勃发展。2021年大数据智能市场规模约为553亿元。目前传统数据治理 SMS 体系多停留在结构性数据化治理工作,尚难满足AI应用对数据的高质量要求。企业 可吸收传统体系的智慧沉淀,以AI应用数据需求为核心,优化建设“面向人工智能 的数据治理”体系,显著提升AI应用的规模化落地效果。 参与-行业规模与受益圈立足点:数据治理与AI应用产品开始交汇融合,厂商参与更 加多元,咨询公司、数据服务提供商和人工智能产品服务商三方阵营构建行业竞合 格局,而“智”,即AI应用,为面向人工智能的数据治理服务的核心立足点。2021 年面向人工智能的数据治理市场规模约为40亿元,预计五年后规模将突破百亿。 实践-高频高价值应用及数据痛点:本篇报告选择金融、零售、医疗和工业四大典型 行业为切入点,分析呈现各行业的信息化建设阶段与高频高价值的AI应用场景,并 基于高频高价值AI应用引发的数据治理需求,对面向人工智能的数据治理体系搭建 给到建设指导。 展望-治理陷阱与趋势洞察:1)企业需避免落入“数据埋点大而全”的治理陷阱; 2)供需两侧需共同保证数据治理体系建设后的运营流转;3)企业需建立符合管理 现状及发展需求的数据安全治理框架,确保数据全周期的安全与合规;4)联邦学 习技术可带来数据安全合规线内的共同富裕;5)数据的“自治与自我进化”成为 未来数据处理发展的必由之路,为企业打造“治理+AI”体系的良性循环。 来源:艾瑞研究院自主研究绘制。 ©2022.3 iResearch Inc. www.iresearch.com.cn 2
3 .前言:数据与数据治理 1 主题:面向人工智能的数据治理 2 参与:行业规模与受益圈立足点 3 实践:高频高价值应用及数据痛点 4 案例:标杆企业与新锐势力 5 展望:治理陷阱与趋势洞察 6 3
4 .数据:范围界定 信息经济的“货币”,早已不限于数字形式 数据的价值被不断认可,“数据资产化”已经成为了企业发展的重要组成部分。长期以来,数据被理解为以数字形式存储 的信息,而目前技术可以测量更多的事件和活动,人们可以收集、存储并分析这些不被视为传统数据的各类信息,如邮件、 图片、音视频等。数据可根据其特性及治理方法差异划分为内部数据与外部数据,结构化数据、非结构化数据与半结构化 数据,元数据与主数据等。 企业数据的主要类型 分类标准 数据类型 定义以及特征 举例 是描述数据的数据(描述性标签),描述了数据(如数据元素、数据模型)、相关 智慧 元数据 概念(如业务流程、应用系统、软件代码、技术架构)以及他们之间的联系 实体型组织、客户、人员 产生辨析判断、 基本配置 发明创造能力 数据治理 描述企业核心实体的一组一致而统一的标识符和拓展属性,实体可包括现有或潜在 数据标准、业务术语、指 常用数据 主数据 客户、产品、服务、员工、供应商、提供商、层次结构和会计科目表等 标定义 知识 类型 实时数据 是在收集后立即传递的信息,所提供信息的及时性没有延迟 实时OLAP场景下的数据 经过人为 解读和经 验充实的 可以存储在传统的关系型数据库中,用二维表结构来表达实现的数据,可以用关系 Excel表格、 SQL数据库 信息 结构化数据 型数据库存储 里的数据 按照数据 形式相对不固定,不方便用数据库二维逻辑表来表现的数据,通常存储在非关系型 文本、图片、HTML、各 非结构化数据 数据库中,数据量通常较大 信息 格式分类 类报表和音频、视频 经过收集和 介于结构化与非结构化之间,半结构化数据可以通过灵活的键值调整获取相应信 日志文件、XML文档、 整理的数据 半结构化数据 息,且数据的格式不固定 JSON文档、Email等 在企业内部经营中产生的数据,在企业的业务流程中产生或在业务管理规定中定义, 企业内部数据 受企业经营影响 国家、币种、汇率 数据 按照数据 抽象的内容,独立 时无意义 来源分类 企业外部数据 企业通过公共领域合规获得的数据,其产生、修改不受公司影响 合同、项目、组织 来源:艾瑞研究院自主研究绘制。 ©2022.3 iResearch Inc. www.iresearch.com.cn 4
5 .数据量:爆发式增长 基础设施“扩容”、IoT 广泛连接带来的数据量暴涨 数据时代来临,数据量的暴涨为企业数字化提供了基础支撑,大量的业务数据能够被采集、存储并最终创造经济效益。数 字化转型从头部企业的可选项,转变为更广泛企业的必选项。新变化为企业带来新机遇的同时,也带来了诸多挑战。很多 企业在前期的信息化建设中,缺乏统筹规划,为解决当下业务问题而按照垂直的、个性化的业务逻辑独立采购与部署IT系 统,导致企业内部形成多个数据孤岛。数据不规范、不一致、难以互联互通成为普遍问题,阻碍企业去充分发挥数据价值。 这种先建设后治理的常态,使得数据治理越来越受到企业的普遍重视,另一方面,新兴技术与应用场景的快速落地,也带 领数据治理需求在加速攀升。 2016-2035年全球产生的数据量 2015-2020年中国数字经济内部结构变化 CAGR=28.6% 23.0% 22.6% 20.5% 19.8% 19.1% 25.7% 2142 77.0% 77.4% 79.5% 80.2% 80.9% 74.3% 612 175 18 26 33 41 47 2016 2017 2018 2019e 2020e 2025e 2030e 2035e 2015 2016 2017 2018 2019 2020 全球每年产生的数据量(ZB) 产业数字化占比(%) 数字产业化占比(%) 注释:1ZB = 10244 GB 来源:中国信通院,Statista(2020),艾瑞研究院自主研究绘制。 来源:中国信通院,艾瑞研究院根据专家访谈与公开资料研究绘制。 ©2022.3 iResearch Inc. www.iresearch.com.cn ©2022.3 iResearch Inc. www.iresearch.com.cn 5
6 .数据治理:需求释放 治理需求普遍存在,非结构化数据成为价值挖掘的重难点 企业历经数字化转型不同阶段时,需通过数据治理解决数据在生产、管理和使用中的问题,而数据治理的需求与复杂度也 会随着企业数字化程度提升而增加。从企业内部的数据类型来看,非结构化数据占企业内数据总量的80%,却仅占整体使 用率的30%,长期以来其价值未得到充分有效利用。未来,随着非结构化数据的积累增加与AI应用的数据需求推动,企业 对非结构化数据的价值化需求将加速释放,而多源异构数据基础下的数据治理模块也将获得进一步的关注与优化。 不同企业数字化程度下的主要数据治理需求 企业内结构化数据与非结构化数据占比情况 结构化 治理需求 数据, 在企业的数据中,结构化数据仅占 20% 20%,其余80%都是以文件、语音、 数据安全、合规要求 智能辅助决策 图片等形式存在的非结构化数据。且 监控预警 非结构化数据的增速远远高于结构化 数字化管理 数据,随着时间的推移,非结构化数 非结构化 据所占的比例将会越来越高 可视化呈现 内外部协同 数据, 80% 企业内结构化数据与非结构化使用现状 打破数据孤岛 企业数字化程度 非结构 局部数据优化提升 企业长期以来,受技术影响,对结构 化数据, 化数据的利用率均高于对非结构化数 数字化业务流程 30% 据的利用率。但实际上,非结构化数 结构化 据的体量与其包含的信息量都更多, 数据, 是企业未得到充分利用的宝贵资产 70% 注释:仅列举代表性数据治理需求。 来源:艾瑞研究院自主研究绘制。 来源:艾瑞研究院根据专家访谈自主研究绘制。 ©2022.3 iResearch Inc. www.iresearch.com.cn ©2022.3 iResearch Inc. www.iresearch.com.cn 6
7 .数据治理:范围界定 数据治理为实现企业数据应用服务的重要环节 数据治理以数据源汇入为伊始,对数据进行清洗加工,并在数据存储、数据计算、数据服务应用等环节予以持续的治理服 务,是企业实现数据服务与应用的重要环节。从数据层面来看,数据本身存在着从生产到消亡的生命周期,而数据治理会 在数据生命周期的各阶段通过相应工具与方法论进行规范与定义,在企业内部构建出切实有效的数据闭环,使数据发挥出 更大的价值。 数据治理在数据应用流程中的位置 数据服务与应用 可视化分析 预测性维护 智慧决策 • 贯穿数据使用周期,是实现 大数据服务必不可少的阶段 服务接口 智能BI 数据分析 精准营销 智能推荐 ….. 数据标准管理 数据存储 数据计算 数据模型管理 分布式文件系统 分布式关系数据库 数 内存计算 在线流式计算 数据资产管理 据 分布式NoSQL数据库 数据仓库 湖 批量离线计算 机器学习模型训练 主数据管理 数据质量管理 数据治理 元数据管理 数据治理环节开始,对数据清洗加工,对整个企业内部的数据集进行规范和定义 数据共享管理 数据安全治理 数据源 数据治理环节 社交媒体 互联网 HR 财务 OA 社会机构 第三方机构 CRM ERP CDP 来源:艾瑞研究院自主研究绘制。 ©2022.3 iResearch Inc. www.iresearch.com.cn 7
8 .数据治理:整体概述 让数据可知、可用、可管,成为业务发展与创新的基石 数据治理旨在消除数据的不一致性,建立规范的数据标准,提高组织的数据质量与实现数据广泛共享,最终将数据变为宝 贵资产,应用于企业的经营、管理与决策中。当下,让数据可知、可用、可管,充分发挥数据资产的价值已成为企业共同 的数据治理目标。数据治理的对象与范围则会根据企业需求差异而有所区别。在不断发展变化的外部环境与业务需求下, 企业数据治理工作在对应阶段也会有各自不同的目标。 数据治理的对象、目的与范围概述 数据治理的对象 数据治理的目的 数据治理的范围 • 找到企业可变为的“数据资产”:数据治 • 提升数据使用价值:在实践中,企业发现 • 贯穿数据生命周期:数据治理是贯穿整个 理范围并非为企业全部数据,而是要在企 原始数据或只经过初步处理的数据,与价 数据生命周期,复杂且需要长期建设的项 业海量数据中找到“值得”治理的数据范 值化数据之间存在巨大鸿沟,需经由数据 目。对不同企业而言,业务需求千差万别, 围,将其变为可用宝贵的“数据资产”, 治理做对应的清洗、规范及定义等,以提 聚焦于核心数据问题、结合企业特点选取 为企业进一步发挥数据要素价值。 升数据使用价值。 合适的数据范围,方能把控好治理方向。 原始数据 初步处理 结构化数据 过的数据 企业数据 转 非结构化数据 结构化数据 价值化数据 供业务使用 产生新的数据 再次治理 化 外部数据 可用、可知、可管、可量化,可运营 半结构化数据 已有数据 达到一致性、质量与安全水平等指标 规划 制定规范 标准落地 采集存储 应用 维护 销毁 • 从企业的数据使用现状来看,集中于对结构 • 大部分企业都有明确的数据治理目的,供应 • 缺乏技术手段、缺乏方法指导、缺乏保障 化数据的开发与利用,所以数据治理工作多 商仅需要围绕企业需求的模型及模型效果来 机制、缺乏流程规范的等是大多数企业无 围绕于结构化数据的治理,非结构化数据仅 确定需要治理的数据源,在其中,充分了解 法解决数据价值化问题的主要原因。 做入库、入湖等初步处理,利用率并不高。 企业需求与现状是必要程序。 来源:艾瑞研究院自主研究绘制。 ©2022.3 iResearch Inc. www.iresearch.com.cn 8
9 .数据治理:体系架构 结合企业的特点及需求,设计符合企业要求的数据治理架构 虽然业界对数据治理的定义不尽相同,但涉及的数据架构模块大体一致,核心包括数据标准管理、数据集成管理、元数据 管理、主数据管理、数据资产管理、数据质量管理、数据模型管理、数据服务与数据安全管理模块。依托于企业对数据治 理的侧重点不同,数据治理体系与架构也会根据企业所在的行业特点、经营性质及信息化程度的不同而有所差异。在实际 设计时,一方面,企业可参考先进体系框架与行业最佳实践,另一方面,企业也需从实际需求与发展需要出发,设计搭建 适合自身情况的数据治理架构。 数据治理各模块内容以及相互之间的关系 数据在应用过程中的拉通 数据标准管理 数据集成管理 数据资产管理 数据质量管理 标 数据开发支撑 建立数据资产目录 数据全景可观 丰富的服务接 数据质量标准 数据质量目标 准 集 自定义调度 以元数据为基础,通过脚本注释形成数据资产 口拓展 数据质量度量 数据质量管控 统一指标体系 成 运维可视化 执 行 业务系统建设 …… 为数据应用提供可追溯的数据 提供有数量、质 奠定基础 量保证的数据 转 数据质量规则依据 换 元数据管理 主数据管理 数据服务 标 准 数据 统一 元模型 维护企业重要业务核心数据的一致性、 清 技术元数据 搭建统一总线, 管 标准 输出 统一性、准确性 洗 建 联系 元模型 提供数据接口, 理 管理元数据 基础类 指标类 立 通过接口服务化 形成数据关系网络 主数据识别 主数据规范治理 满足业 传 业务元数据 方式对企业内外 务服务 输 血缘分析 数据生 支撑企业业务流和工具链的打通和 提供数据服务 盘点企业 数据情况 影响分析 命周期 串联 IT技术人员 标 API 人工数据 沉淀 准 数据库 流式数据 数据分层,建模,对数据有 制 数据管理人员 数据模型管理 来源层数据模型设计 集市层数据模型设计 更清晰的掌控 定 业务运营人员 数据安全管理 数据安全等级定义 数据安全访问控制 身份验证 数据访问日志审计 来源:艾瑞研究院自主研究绘制。 ©2022.3 iResearch Inc. www.iresearch.com.cn 9
10 .数据治理:政策指引 推动各行业数据治理标准建设,为相关主体提供指引性文件 近年来,我国政府从战略规划、体系建设、标准制定和制度落地四个方面,全力推动数据治理的行业规范发展。一方面, 国家通过立法构建数据安全保障、明确数据安全法律责任、完善监管体系;另一方面,各地方政府、行业主管部门、各行 业组织、标准化机构积极规划制定数据规范文件与鼓励政策,推进数据治理考核、评估标准建立,为相关数据治理项目主 体提供指引,共同促进数据治理行业的发展。 中国数据治理相关政策梳理与解读 战略规划 《关于构建更加完善的要素市场化配置体制机制的意见》 《促进大数据发展行动纲要》 2020年4月10日 国务院 2015年8月31日 国务院 • 强调要加快培育数据要素市场,推进政府数据开放共享,提升社会数据资源价值。培育数字 • 建立标准规范体系,推进关键共性标准的制定和 经济新产业、新业态和新模式,支持构建工业、安防等领域规范化数据开发利用的场景。加 实施,开展标准验证和应用试点示范,建立标准 强数据资源整合和安全保护。探索建立统一规范的数据管理制度,提高数据质量和规范性, 符合性评价体系 丰富数据产品 构建数据安全保障,明确数据安 地方政府、行业组织、标准化机构陆续发布数 行业主管部门探索制定和出台数据治理相关要 全法律责任,完善监管体系 据规范文件与鼓励政策 求、标准、框架与体系 数 2021年6月10日|全国人大会常务委员会 2018年3月15日|国家标准化管理委员会 2016年9月5日|国务院 据 《数据安全法》 国家标准《数据管理能力成熟度评估模型》(DCMM) 《政务信息资源共享管理暂行办法》 的 2021年11月1日|全国人大会常务委员会 2019年1月1日|国家标准化管理委员会 利 2018年5月21日|中国银行业监督管理委员会 《个人信息保护法》 《信息技术数据质量评价指标》 用 《银行业金融机构数据治理指引》 与 2019年5月28日|国家互联网信息办公室 2020年2月27日|工业和信息化部办公厅 2018年5月25日|民政部 保 《数据安全管理办法》 《工业数据分类分级指南(试行)》 护 《关于加强和完善民政统计工作 全面提高统计数据 真实性的实施意见》 2020年3月6日|信息安全标准化技术委 2021年5月31日|深圳市人大常委会办公厅 员会 2019年9月29日|中国银行保险监督管理委员会 《深圳经济特区数据条例(征求意见稿)》 《银行业金融机构监管数据标准化规范》 《个人信息安全规范》 来源:艾瑞研究院自主研究绘制。 ©2022.3 iResearch Inc. www.iresearch.com.cn 10
11 .前言:数据与数据治理 1 主题:面向人工智能的数据治理 2 参与:行业规模与受益圈立足点 3 实践:高频高价值应用及数据痛点 4 案例:标杆企业与新锐势力 5 展望:治理陷阱与趋势洞察 6 11
12 . AI应用规模化 AI技术创新应用大规模落地,带动大数据智能市场蓬勃发展 近年来,随着新技术模型出现、各行业应用场景价值打磨与海量数据积累下的产品效果提升,人工智能应用已从消费、互 联网等泛C端领域,向制造、能源、电力等传统行业辐射。各行业企业在设计、采购、生产、管理、营销等经济生产活动 主要环节的人工智能技术与应用成熟度在不断提升,加速人工智能在各环节的落地覆盖,逐渐将其与主营业务相结合,以 实现产业地位提高或经营效益优化,进一步扩大自身优势。AI技术创新应用的大规模落地,带动了大数据智能市场的蓬勃 发展,同样也为底层的数据治理服务注入了市场活力。 人工智能技术广泛渗透进经济生产活动主要环节 产品设计、 采购 工艺 货仓 产能补充 情报大数 客户触达 设备运维 管理调度 质控、风 窗口 远程办事 人机对话 定价及组 评估 优化 物流 与作业效 据研判、 营销运营 故损分析 运筹优化 控和安全 服务 远程作业 交互 合优化 率提升 决策支持 政府 金融 互联网 医疗与制药 交通 零售 教育 制造 能源 电力 电信 AI示范项目增加, AI价值得到验证, 图例 该行业较少涉及该场景 尝试应用AI 形成典型应用场景 进入规模化落地 来源:《2021年中国人工智能产业研究报告(IV)》,艾瑞研究院自主研究绘制。 ©2022.3 iResearch Inc. www.iresearch.com.cn 12
13 .大数据智能市场的行业规模 2021年市场规模约为553亿元,金融数据率先得到价值释放 据艾瑞咨询统计测算,2021年涵盖大数据分析预测(机器学习/深度学习模型)、领域知识图谱及NLP应用的大数据智能 市场规模约为553亿元,预计2026年市场规模将达到1456亿元,2021-2026 CAGR=21.3%。随着市场大数据基础的完 善与数据需求的唤醒推动,大数据智能市场的规模将持续走高,但未来在行业理性建设与增量市场逐步完善的大背景下, 大数据智能市场增速会出现下降趋势。从细分结构来看中,金融领域的数据价值率先得到释放,市场规模占比高达32%。 2019-2026年大数据智能市场规模 2021年大数据智能市场规模细分结构 30.0% 32.6% 24.0% 22.9% 20.4% 19.6% 19.8% 22 00 50 .0% 金融 其他 32% 1456 17 00 0.0 % 35% 1215 12 00 1015 -50.0 % 844 686 70 0 553 -100 .0% 417 321 20 0 -150 .0% 互联网 2019 2020 2021e 2022e 2023e 2024e 2025e 2026e 工业 12% 医疗 -300 -200 .0% 10% 大数据智能市场规模(亿元) 11% 大数据智能市场增长率(%) 来源:《2021年人工智能产业研究报告(IV)》,艾瑞根据专家访谈、招投标项目统计 来源:《2021年人工智能产业研究报告(IV)》,艾瑞根据专家访谈、招投标项目统计 推算而得 推算而得 ©2022.3 iResearch Inc. www.iresearch.com.cn ©2022.3 iResearch Inc. www.iresearch.com.cn 13
14 .大数据智能市场的投融资热度 融资规模稳步提升,事件数量创历史新高 从2011-2021年的投资数量来看,资本市场对大数据智能市场的关注度不断提高,融资事件逐年攀升,2021年大数据智 能市场单年投融资数量已高达99起;从2011-2021年的融资轮次来看,C轮及早期投融资事件占比达到50%。受政策的高 度支持与技术的成熟推动,大数据智能应用在多行业的成功落地极大地增强了市场与投资者的信心,“大数据智能”标签 已成为市场创业与投资的热点,具备市场想象空间与明确使用价值是企业早期吸引投资的关键。 2011-2021年大数据智能市场投融资事件数量 2011-2021年大数据智能市场投融资事件轮次情况 99 种子轮 7 共计447起事件 天使轮 52 PreA-A++轮 114 72 68 PreB-B++轮 49 58 PreC-C++轮 30 D-D+轮 15 C轮及早期投融资事件:占比50% 46 4 43 E-E+轮 战略投资 29 30 pre-IPO 1 并购 3 14 8 定向增发 19 4 5 股权融资 52 股权转让 2 2011 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021 其他 70 大数据智能市场投融资事件数量(起) 大数据智能市场投融资事件数量(起) 注释:其他包含IPO上市与基石投资轮。 来源:艾瑞研究院根据融资网站数据调整与处理绘制 来源:艾瑞研究院根据融资网站数据调整与处理绘制 ©2022.3 iResearch Inc. www.iresearch.com.cn ©2022.3 iResearch Inc. www.iresearch.com.cn 14
15 .大数据智能产业生态圈 大数据产业图谱与数据服务关系链 数据基础设施 大数据智能 行业应用 解决智能应 用场景痛点 芯片 金融 咨 询 IDC 服 数据可视化/数据分析 务 咨 零售 合 咨 询 作 询 服 网络基础 务 公 司 医疗 提供数据基础 提供数据平台 部 智能硬件 署 数据库/数据仓库 大数据平台/数据中台 实 施 工业 合 作 外 包 基础云服务 数 据 其他 AI基础数据服务 数据治理服务 治 理 云服务 提供基础服务 行业客户 提供AI基础数据 提供数据治理服务 注释:以上厂商与行业为不完全列举,排名不分先后。 来源:艾瑞研究院自主研究绘制。 ©2022.3 iResearch Inc. www.iresearch.com.cn 15
16 .面向人工智能的数据治理:需求传导 人工智能应用引发的数据治理需求 企业在部署AI应用时,数据资源的优劣极大程度决定了AI应用的落地效果。因此,为推进AI应用的高质量落地,开展针对 性的数据治理工作为首要且必要的环节。而对于企业本身已搭建的传统数据治理体系,目前多停留在对于结构性数据的治 理优化,在数据质量、数据字段丰富度、数据分布和数据实时性等维度尚难满足AI应用对数据的高质量要求。为保证AI应 用的高质效落地,企业仍需进行面向人工智能应用的二次数据治理工作。 AI应用对数据治理需求传导图 AI应用的数据要求 基于AI应用的数据治理需求 数据规模 接入多源异构数据源 传统的数据治理更多是以人为面向对象,基于有限数据容量进行聚 挖掘企业内外部信息,纳入结构化数据、半 合类信息展示,AI可以接纳的数据量远远大于人所接纳的数据量和 结构化数据和非结构化数据,提升与AI模型 信息量,且可用高质量数据越多,模型质量和准确性越好。 相关的数据积累。数据训练规模扩张,数据 数 类型异构,数据噪声指数级增加,对此建立 数据类型 据 针对性的数据治理体系 AI应用,尤其是知识图谱的搭建,需要大量的半结构化和非结构化 治 数据支持来开展工作。因此AI应用在结构化数据的基础上,会将各 理 数据融合&质量优化 特征工程 类半结构化或非结构化数据纳入数据源并支持上层分析应用。 的 需 1)多个数据源下的数据 融合结构化数据、半结构 数据质量 求 内容不一致等问题 化数据和非结构化数据, 传 2)缺失值、缺失字段; 进行以AI应用为目的的特 AI模型对数据高度敏感,其质量优劣极大程度影响AI模型的应用效 果,因此AI数据源需极力规避“garbage in, garbage out”的 导 3)错误值、异常样本; 征工程 问题发生,多维度的质量检查成为必修课。 接入实时性数据 数据实时性 AI模型需纳入实时数据,构建批流一体的 AI模型对实时性要求高,大部分应用需基于实时数据实现分析、推 数据聚合计算模式 荐和预警等目的,支持AI应用的数据源更强调具备实时性接入能力。 来源:艾瑞研究院自主研究绘制。 ©2022.3 iResearch Inc. www.iresearch.com.cn 16
17 .面向人工智能的数据治理:反复治理 面对反复的治理工作,搭建针对性体系解决重复性环节 数据治理在人工智能项目的实施中花费90%以上的精力,而面对企业的各人工智能项目,在AI数据层面多存在反复治理工 作,极大拉低了AI应用的规模化落地效率。借助有效的方法论和实用的工具提高数据治理的效率,是企业管理数据资产与 实现AI规模化应用的重要课题。搭建面向人工智能的数据治理体系,可将面向AI应用的数据治理环节流程化、标准化和体 系化,降低数据反复准备、特征筛选、模型调优迭代的成本,缩短AI模型的开发构建全流程周期,最终显著提升AI应用的 规模化落地效率。 搭建面向人工智能的数据治理体系 – 解决AI数据的重复性“治理” 反复模型迭代 反复准备数据 运营监控 模型自学习 数据收集 数据选择 模型更新 …… 数据清洗 …… 反复模型调优 反复特征筛选 模型训练 模型调参 特征抽取 特征构造 模型评估 …… 特征选择 …… 来源:艾瑞研究院自主研究绘制。 ©2022.3 iResearch Inc. www.iresearch.com.cn 17
18 .面向人工智能的数据治理:体系搭建 吸收传统体系智慧沉淀,以AI应用数据需求为核心优化建设 面向人工智能的数据治理是传统数据治理体系在以AI应用落地为导向下的体系“升级”。从数据管理维度来看,在接入并 处理分析半结构化数据、非结构化数据与流式数据的多源异构数据基础上,面向人工智能的数据治理体系仍会根据数据结 构化流向、数据资产管理需要、数据安全需求等角度顺应搭建元数据管理、数据资产管理、主数据管理、数据生命周期管 理和数据安全隐私管理等组件模块。而在数据治理过程中,则会更强调底层实现多源数据融合、数据采集频率、数据标准 建立、数据质量管理,满足AI模型所需数据的规模、质量和时效,以AI应用的数据需求为核心,优化对应模块的体系建设。 面向人工智能的数据治理体系 吸收传统体系智慧沉淀 针对性优化建设 企业大数据智能/人工智能应用 数 数 基于AI模型的训练、推理对企业数据原料的高质 主数据管理 特征管理中台 数 据 据 量要求,面向人工智能的数据管理体系打造升级 生 安 针对性的“数据标准管理体系、数据质量管理体 据 命 全 治 数据资产管理 数据质量管理 系与特征管理中台”。以AI模型落地应用为角度 周 隐 理 期 私 出发,对数据质量进行多维度的评估治理,并在 管 管 数据汇入标准基础上统一数据模型开发与特征化 元数据管理 数据标准管理 理 理 工程标准,为企业AI数据沉淀复用打下优质基础。 数 全 增 实 数据存储 分布式关系数据库 分布式NoSQL数据库 分布式文件系统 数据仓库 数据湖 据 量 量 时 接 抽 抽 抽 数据采集 取 取 取 入 数 结构化 …… 半结构化 …… 非结构化 …… 其他 据 数据 DB2 DB2 DB2 文本 XML 视频 音频 流式数据 系统数据 数据 数据 源 来源:艾瑞研究院自主研究绘制。 ©2022.3 iResearch Inc. www.iresearch.com.cn 18
19 .面向人工智能的数据治理:数据准备 基于AI模型需求明确数据的特征准备、实时与否和闭环流通 从搭建流程来看,AI模型可大致分为离线训练和上线推理两个阶段。离线训练时,需基于AI模型运行目的确认数据采集来 源,选择数据对应的时间间隔和时间节点,让AI能够在离线建模及上线运行后获取真实业务数据,模型训练效果能够保质 保量落地。如果模型需要AI数据的实时接入,还需打造批流一体式的产品体系。基于实时数据处理、实时特征开发和实时 应用开发等数据架构搭建批流一体的数据产品,将流式数据的接入实时反馈到模型运行输出,使模型结果更加及时准确。 另外,AI模型上线后,需达到AI数据的闭环流通,通过打造数据采集和回馈分析的闭环式自学习体系,达到AI模型上线后 的持续迭代优化。 AI模型的数据准备 确认AI模型所需数据的采集来源,对接企业IT系统获取数据源 时序性数据为按照时间维度索引的数据,描述了数据产生主体在某时间范围内的时点上的 产生值。面对时序性数据,需准确记录每个数据的产生时间点,并基于AI模型运行目的选 AI数据的时间选择 择所需数据的时间间隔和时间节点。比如,若想通过AI模型去预测分析某导演A电影的上 映票房 ,则需选择该导演A电影上映以前的历史票房数据作为模型原料,而不能将A电影 上映以后的电影票房数据计算在内,避免AI“偷看”未来数据,给模型判断结果带来偏差。 判断是否需要 保证离线和在线的特征开发标准一致 在批式数据(全量)基础上,将流式数据(增 量)纳入模型计算,打造“批流一体”的数据 实时 实时 时序性 AI数据的实时接入 特征开发 AI应用开发 产品,使模型分析结果更加实时准确,满足用 户对动态变化的场景可即时作出反应的需求 实时交易反欺诈 / 实时推荐 / 实时订单监控…. 需达成 为了让AI模型的预测结果更加准确,可将模型运行后的结果数据更新反馈 反 运 给AI模型,利用实时闭环数据进行自学习,强化反馈回路以优化模型算法, 馈 行 AI数据的闭环流通 防止模型效果因搭建时间久远而衰退。比如,在智能推荐模型上线后,如 更 数 新 据 果持续用静态模型预测动态数据,不更新闭环数据反馈的话,随着时间的 流逝,模型将逐渐降低精准推荐效果,导致业务决策的效果越来越差。 来源:艾瑞研究院自主研究绘制。 ©2022.3 iResearch Inc. www.iresearch.com.cn 19
20 .面向人工智能的数据治理:数据质量 对应AI应用的高质量要求,唤醒沉睡数据,挖掘核心价值 多源异构数据的质量管理体系可从数据有效性、数据一致性、数据唯一性、数据时序性、数据完备性、数据完整性、数据 合理性和数据准确性六个维度建立。其中,传统数据治理体系同样会高度关注数据的有效性、一致性和唯一性,但当数据 治理范围扩大到多源异构数据时,需在数据融合过程中对这三个维度进行重新判断,例如非结构化数据在清洗处理后与结 构化数据出现实体重复或内容不一致的情况;数据时序性是对数据时间维度的质量要求,从AI应用模型的需求出发,考虑 数据接入的实时性和如何选择数据的时间间隔;数据完备性和数据完整性是对数据选取的评估维度,数据完备性要求数据 需符合多维度字段特征以满足建模,数据完整性则对数据从历史到上线反馈的完整性接入以达到优质闭环;数据合理性和 数据准确性则是对数据本身表达的更高质量要求。传统数据治理体系为做数据可视化和数据基本分析应用服务时,不会过 多考虑到数据分布是否合理及表达内容是否准确等问题。然而在AI模型开发训练时,数据的合理分布和准确表达极大程度 上决定了AI模型的分析决策效果,因此在面向人工智能的数据治理体系中,数据合理性和数据准确性的质量评估是体系需 重点关注提升的维度模块。 多源异构数据的质量管理体系 数据完备性 数据有效性 即数据字段维度是否符合AI建模要求。尤其对于 即数据值与定义的值域(有效值/有效参考范 非结构化数据来说,需要有足够完备的数据基础 围/通过规定确定的值)一致 可提取到建模时所需字段特征 数据一致性 数据完整性 即数据属性表达一致,数据一致性是数据标准 AI 应用的算法模型不仅需要业务历史数据训练,也 化的基础,确保数据符合内容和形式规范 需及时更新模型上线后的数据,基于反馈对模型进 行不断的迭代优化,打造优质数据闭环 数据唯一性 数据合理性 即数据集的实体不会重复出现。对数据进行去 即数据模式符合预期的程度。或通过基准数据比较, 重,底层实现数据一致性管理 或基于过去相似数据集实例判断数据的分布、变化 数据时序性 和模式是否合理,是否出现异常值影响建模效果 一方面需根据数据更新频率和数据需求时效 数据准确性 判断数据的及时性,一方面需根据AI模型的 即数据正确表示“真实”实体的程度。数据准确 需求结果判断数据选取的时间间隔 性是基于数据有效性和数据合理性的进阶版,需 来源:《DAMA数据管理知识体系指南第二版》,艾瑞研究院根据参考资料与专家访谈自主研究绘制。 人或机器基于事实或规则判断数据是否准确 ©2022.3 iResearch Inc. www.iresearch.com.cn 20
21 .面向人工智能的数据治理:数据标准 为AI模型开发提供“一致的数据语言”,实现数据复用共享 数据标准是数据治理工作的开展基础,为AI模型开发及应用提供“一致的数据语言”。在面向人工智能的数据治理体系中, 数据标准的建立仍是数据实现共享流通、价值挖掘的核心环节。企业根据对应的国家标准、行业标准、地方标准等规范, 结合自身情况和业务术语参考,以AI应用需求圈定的数据范围为治理导向,构建相关基础数据标准、指标数据标准和数据 模型标准,形成全局统一的数据定义与价值体系。 多源异构数据的标准体系 国家标准 行业标准 地方标准 业务术语 基础数据标准 指标数据标准 数据模型标准 数据元 数据存储结构的标准化-元数据的标准化 指标参照&指标源系统 指标名称 数据元,专业定义又称数据类型,是通过定义、标识、 表示以及允许值等一系列属性描述的数据单元。通过 & 特 对数据元的标准化,可以让企业人员对数据达到一致 数据开发模型的标准化-特征工程的标准化 的理解、记录与应用,有效增加跨部门跨系统的数据 使用场景 指标口径 指标定义 征 共享与沉淀复用,减少对数据的重复性沟通。 数据模型是用于表示一组数据和概念的定义,即数 管 指标在数据基础上增加了计算和统计维度,是反映了 通用属性 例:人口相关的数据元包括姓名、身 企业经营管理在一定时间和条件下的规模、程度、比 据的数据结构,可理解为元数据的标准化,从源头 理 提高数据的一致性。 行业属性 份证件名称、身份证件号码、性别等 例、结构等的概念和数值。 中 在传统数据治理中,数据模型标准的统一多为规划 台 代码集 指标口径不统一 数据的存储结构,以数据表述数据,方便数据共享。 代码表是能够完整表达特定业务对象某个特性的全部 但在面向AI的数据治理中,因面向上层应用,因此 指标体系不完整 需建议统一指标体系 数据模型的概念会被扩大,不仅仅为元数据的标准 值的集合,一般与对应的数据元配套使用,作为数据 化范围,还会包括如何让机器理解数据的数据开发 元表示中的值域,可作为统计分析维度为机器和人类 指标问题追溯难 使用。 模型,即特征工程。 例:性别代码:0为未知性别,1为男 性,2为女性,9为未说明的性别 指标数据通常从企业管理和经营需求角度选取,达到 编码集 企业数据的灵活使用与准确分析,指标数据的标准化 数据开发模型的标准化可有效实现面向AI应用高质 可以保障跨部门之间对指标展现有统一理解认知,带 量数据的高效复用,减少AI数据反复清洗、标注的 将文字、标点符号、图形符号等字符转换为计算机可 来企业数据应用的价值提升。 成本,实现AI应用的快速落地与高效复用。 以接受的数字系统的规则。 例:GB2312编码 来源:艾瑞研究院自主研究绘制。 ©2022.3 iResearch Inc. www.iresearch.com.cn 21
22 .面向人工智能的数据治理:特征管理 将多源异构数据源转化为机器可理解的“结构化数据” 在圈定AI数据源范围并接入相应数据后,特征管理中台会对数据进行预处理,基于AI应用的数据要求处理缺失值、异常值、 重复值和数据格式等问题,而后经过特征工程转化为人工智能模型可理解的结构化数据。在特征化工程环节中,面向人工 智能的数据治理体系可浓缩沉淀业务场景中的数据治理和模型开发经验,对AI数据形式进行标准定义,搭建特征管理中台, 将特征工程环节标准化、自动化、智能化,快速对接得到可被机器理解的优质结构化数据,投喂给AI模型。 让机器 “理解”多源异构数据的流程图 面向人工智能的数据治理覆盖环节 数据标准 数据标准体系:在数据共享互通的标准化基础上将AI数据形式标准化,实现AI数据的快速转化对接 数据质量 用 于 特征工程 – 特征管理中台 人 结构化数据 工 数据预处理 特征抽取 特征构造 特征选择 模型训练 智 半结构化数据 可 能 缺失值处理 特征化工程 – 挖掘有效特征:利用机器学习/深度学习技术,对企业的 被 算 异常值处理 结构化数据、半结构化数据和非结构化数据进行降维与特征抽取,去除 非结构化数据 机 法 原始数据中的杂质和冗余,将其转化为人工智能模型算法可理解的结构 优 重复值处理 器 模 化数据,可从语义层面进行深度关联和融合,根据场景需求特性选取适 质 型 面对多源异构数 数据格式处理 理 配的结构化数据,展开AI模型的调优训练,并基于AI应用需求进行数据 结 的 据源,面向人工 解 …… 源的持续性优化。 构 调 智能的数据治理 的 化 优 体 系 会 结 合 AI 模 数据质量 ✓ 提升特征提取范围 从小数据量+低特征维度升级为 结 大数据量加高特征维度 数 训 型需求,以AI应 ✓ 提升特征提取精度&颗粒度 构 隶属于数据质量 据 练 化 用落地为导向, 评价体系,在数 - 面向人工智能的数据治理体系会浓缩沉淀业务场景中的数据 数 选择性圈定数据 据源进行特征化 模 治理和模型开发经验搭建特征管理中台,对AI数据形式进行 据 治理范围,并对 工程前进行数据 型 标准定义,将特征工程标准化、自动化、智能化,快速对接 数据源的对应调 清洗,达到质量 上 取给到梳理参考 得到可被机器理解的结构化数据,投喂给AI模型。 线 提升 来源:艾瑞研究院自主研究绘制。 ©2022.3 iResearch Inc. www.iresearch.com.cn 22
23 .面向人工智能的数据治理:效果优化 显著提升AI应用的规模化落地效果 来源:艾瑞研究院自主研究绘制。 体系搭建-效果优化 关注环节 问题 优化 效果 ⚫ 未考虑数据时 ✓ 离线建模的时候获 数 ✓ 基于AI模型运行目的选择所需数据的 取真实业务数据 序性 据 实时 时间间隔和时间节点 ✓ 接入实时性数据, 数据 ⚫ 时效性差,难 价 ✓ 接入实时性数据,打造“批流一体” 离线 发挥数据时效价值 采集准备 支持数据实时 值 的产品架构 时间 接入 ⚫ 多源异构数据 ✓ 打造多源异构数据的质量管理体系, ✓ 为AI模型提供高质 的质量待优化 从六维度针对性评估提升数据质量 数据质量管理体系 量数据原料,提高 数据 ⚫ 数据标准不统 ✓ 构建基础数据标准、指标数据标准和 模型拟合效果 一,难以共享 数据模型标准,在数据共享流通基础 数据标准体系 ✓ 一致性语言减少数 质量&标准 复用 上为模型开发提供“一致语言” 据反复治理工作 ✓ 沉淀AI项目的数据治理经验,构建特 ✓ 减少重复性特征 ⚫ 重复性特征工 征管理中台 工程的精力投入 程 数据 ✓ 提升特征提取范围、精度和颗粒度, 特征管理中台 ✓ 指数级提升数据 ⚫ 特征维度低, 特征维度 从小数据量+低特征维度升级为大数 的特征维度,优 模型欠拟合 据量加高特征维度 化模型拟合效果 ✓ 模型不过时,基 ⚫ 模型上线后不 ✓ 打造数据采集和反馈分析的闭环体系, 于数据变化实时 迭代优化,随 强化反馈回路优化模型算法效果 自学习式闭环体系 更新迭代 模型 时间流逝拟合 ✓ 借助机器学习技术,使模型进行自学 ✓ 拟合效果优化达 迭代优化 效果越来越差 习式迭代优化 到持续且自动化 来源:艾瑞研究院自主研究绘制。 ©2022.3 iResearch Inc. www.iresearch.com.cn 23
24 .前言:数据与数据治理 1 主题:面向人工智能的数据治理 2 参与:行业规模与受益圈立足点 3 实践:高频高价值应用及数据痛点 4 案例:标杆企业与新锐势力 5 展望:治理陷阱与趋势洞察 6 24
25 . AI数据:产业生态圈 中游厂商提供数据开发与治理服务,助力AI应用高效落地 AI基础数据服务与数据治理产业链结构为:1)上游:数据源与数据产能;2)中游:数据产品开发工具与管理服务;3) 下游:人工智能应用。处于中游的两类服务商中,AI基础数据服务商使用数据采集与标注工具处理图片、语音、文本等非 结构化数据,面向AI的数据治理服务商则负责使用数据治理的各组件管治多源异构数据,使其形成数据资产,从而提高数 据质量。二者处理后的数据可直接为下游的AI训练所用,使AI应用落地能够省时省力。 面向AI的数据治理产业图谱 人工 智慧政务 智慧公安 智慧城市 智慧金融 智慧工业 下 智能 游 应用 自动驾驶 智慧零售 智慧旅游 智慧教育 智慧农业 AI基础数据服务商(含采集与标注) 面向AI的数据治理平台服务商 数据 产品 中 开发 游 工具 与管 理服 务 多源数据 产能资源供应方 标注资源提供方 硬件资源供应商 数据 企 政 其 上 个 源与 AI基础数据服务商——具备标注基地或全职标注团队 服务器厂商 云服务厂商 人 业 府 他 游 数据 数 数 数 数 个人资源外包提供商 产能 据 据 据 据 IDC厂商 其他网络设备厂商 个人劳务提供者 注释:图谱中所展示的公司logo顺序及大小并无实际意义,不涉及排名。 来源:《2021年中国人工智能基础层行业研究报告》,艾瑞研究院自主研究绘制。 ©2022.3 iResearch Inc. www.iresearch.com.cn 25
26 .数智融合产业带来多元厂商参与 数据治理与AI应用开展交汇融合,厂商参与更加丰富多元 依托于数据与AI模型的紧密关联,数据治理与AI应用产品已逐步开展交汇融合,展现“由数据治理到开发AI应用平台/产 品”与“AI应用平台/产品开发到面向AI的数据治理”的两路发展方向:1)数据治理厂商在积累数据经验与AI模型理解后, 为实现业务拓展而将领域从数据层延伸至AI应用及平台开发层;2)从事AI应用及平台开发的AI厂商,也会在数据治理经 验不断丰富的背景下,着手向底层开展面向AI的数据治理业务,依托于自身AI技术与业务理解,让面向AI的数据源更加契 合AI应用模型要求以提升模型拟合效果。因此,面向AI的数据治理从业者不仅仅为数据治理厂商,更包括众多AI企业,参 与者更加丰富多元。 数据治理与AI应用产品的交汇融合 数据治理→AI应用平台/产品 在数据治理中承接AI应用 业务拓展,在数据治理、 的数据需求,数据理解优 数据平台搭建后,延伸 越,持续积累AI开发经验 领域至AI应用/平台开发 数据汇聚 数据治理 积累面向AI的数据治理经验 着手AI应用/平台开发 面向AI的数据治理←AI应用平台/产品 业务拓展至面向AI的 数据治理,提升数据 基于自身AI模型需求,调 与AI模型的契合度 优治理数据的质量与维度 着手面向AI的数据治理 积累面向AI的数据治理经验 前期大量数据治理工作 为客户部署AI应用/平台 来源:艾瑞研究院自主研究绘制。 ©2022.3 iResearch Inc. www.iresearch.com.cn 26
27 .数智产业生态圈的受益节奏 三方阵营厂商构建行业竞合格局 AI应用的加速落地带来的大量数据治理需求,吸引众多厂商参与其中。从行业厂商类型来看,主要包括咨询公司、数据服 务相关提供商和人工智能产品提供商三类。各类厂商根据自身业务特点和切入方式获得差异化的竞争优势,而由于面向人 工智能的数据治理服务的参与立足点丰富,厂商之间可能基于同类业务展开竞争,同时在差异化领域进行合作,形成竞争 与合作高度共存的行业格局。 面向人工智能的数据治理 - 行业厂商类型与竞合格局 竞争领域:在方案设计层面,两者存在竞争 关系 合作领域:咨询公司提供方案,数据平台服 务商提供落地实施 咨询公司 数据服务相关提供商 基于企业AI应用的数据需求提供相关治理服务:企业上层 数据治理规划咨询:为企业提供数据治理的科学规划和顶 应用涉及诸多AI技术,基于数据平台(大数据平台/数据 层设计,以方案形式交付,从调研诊断、方案设计、落地 1 2 中台/数据仓库)项目或数据治理服务项目中,厂商会在 跟踪与应用指导等阶段持续跟进,为数据平台服务商和人 传统数据治理体系基础上,基于AI应用所需的数据质量要 工智能服务商的数据治理服务落地提供参考指引。 求,提供面向AI的数据治理工作。 3 竞争领域:在方案设计层面,两 人工智能产品提供商 竞争领域:两者均可基于AI应用需 者存在竞争关系 求提供面向AI的数据治理服务 为提供人工智能平台应用开展针对性数据治理工作:在机器学习、自然语言理 合作领域:咨询公司提供方案, 合作领域:数据平台服务商搭建基 解和知识图谱的建设项目中,基于AI模型训练所需的数据原料要求,提供结构 础数据治理体系,人工智能厂商优 人工智能服务商提供落地实施 化、特征化处理和数据质量优化的治理服务,是人工智能项目交付必不可少的 化以AI模型为导向的数据治理服务 工作构成。另外,AI厂商在沉淀项目经验和AI能力后搭建AI开发平台,也会将 面向AI的数据治理能力标准化,从而纳入AI开发平台模块中。 来源:艾瑞研究院自主研究绘制。 ©2022.3 iResearch Inc. www.iresearch.com.cn 27
28 .数智产业生态圈的参与立足点 “智”为面向人工智能的数据治理服务的核心立足点 面向人工智能的数据治理服务常包含于数据服务、平台能力和数据产品三类采购形式中。第一类,数据服务即以单独的数 据治理产品形式出现,但由于面向人工智能的数据治理尚未发展出成熟独立的产品模式,因此以该类形式出现的业务涉及 较少。市面上大多数据治理服务仍以传统数据治理的形式存在,对于已搭建AI中台或AI应用较为广泛的智能化转型先行企 业,会在数据治理产品采购方案中添加对支持AI应用数据的治理需求;第二类,数据平台,主要包括大数据平台、数据中 台、数据仓库和AI能力平台等项目。大体量大数据平台、数据中台和数仓项目多会包含AI应用体系建设,从而涵盖部分对 应的AI数据治理服务。另外AI平台/中台可沉淀面向AI的数据治理能力,将其标准化后纳入平台模块和产品项目中;第三 类,数据产品,范围限定在应用AI算法的数据产品,可划分为机器学习产品、自然语言理解产品和知识图谱三类AI产品。 为保证AI算法模型的优质运行效果,更好地提供预测、决策、推荐和风控等产品功能,需要对算法模型的训练原料,即支 持AI应用的底层数据,进行针对性优化治理。如今AI产品需求旺盛,AI开发平台陆续推进AI产品的规模化落地,且AI数据 治理效果与最终平台产品交付效果紧密相连,AI应用驱动成为面向人工智能的数据治理服务的核心立足点。 面向人工智能的数据治理 – 受益节奏与参与立足点 平台能力中的AI数据治理部分 数据产品中的AI数据治理部分 • 大数据平台、数据中台 • 机器学习产品:广义认知决策类产品。可直接加载 • 数据仓库 应用于结构化数据,实现数据分析模型的自动化、 • AI开发平台 2 智能化;可进一步融合半/非结构化数据,基于自然 3 语言理解技术绘制知识图谱,服务上层应用 • 自然语言理解产品:落地于舆情分析、文本挖掘和 AI应用驱动 智能问答等场景,或会构建小型知识图谱 • 知识图谱产品:构建知识图谱提供预测、推理、决 策等产品功能 • 核心应用领域:精准营销、智能推荐、故障预测、 数据服务中的AI数据治理部分 反欺诈、反洗钱等 • 数据治理服务 1 • 数据治理平台 AI应用驱动 来源:艾瑞研究院自主研究绘制。 ©2022.3 iResearch Inc. www.iresearch.com.cn 28
29 .面向人工智能的数据治理:行业规模 2021年市场规模约为40亿元,预计五年后规模突破百亿 从数智产业圈的参与立足点出发,艾瑞提取测算了大数据平台、数据中台、AI应用与数据治理服务的项目中与AI应用相关 的数据治理规模并加总而得,2021年中国面向人工智能的数据治理规模约为40亿元。受数据平台服务、数据治理服务和 AI应用建设的需求推动影响,面向人工智能的数据治理规模将持续上升,2026年规模突破百亿达105亿元,2021-2026 CAGR=21.3%。2021年,中国的数据治理市场规模约为121亿元。作为数据服务的基础工作,数据治理规模将保持上扬 态势,预计2026年市场规模达到294亿元,2021-2026 CAGR=19.5%。从发展曲线来看,数据治理与面向人工智能的数 据治理规模增长均处于良性区间,共同巩固相关治理产业生态圈的向好形势。 2019-2026年中国数据治理与面向人工智能的数据治理规模 CAGR=19.5% CAGR=21.3% 294 256 221 186 154 121 105 89 92 79 52 64 29 40 2020 2021e 2022e 2023e 2024e 2025e 2026e 面向AI的数据治理规模(亿元) 数据治理规模(亿元) 来源:艾瑞研究院自主研究绘制。 ©2022.3 iResearch Inc. www.iresearch.com.cn 29