- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
ChatGPT引发的大模型时代变革
展开查看详情
1 . [Table_IndNameRptType] 计算机 行业研究/深度报告 ChatGPT 引发的大模型时代变革 行业评级:增持 [Table_IndRank] 主要观点: 报告日期: 2023-02-25 ⚫[Table_Summary] ChatGPT 带来大模型时代变革,数据要素重要性提升 ChatGPT 是由 OpenAI 研发的一种语言 AI 模型,其特点在于使用海量 [Table_Chart] 行业指数与沪深 300 走势比较 语料库来生成与人类相似的反应。初代 GPT 模型参数 1.17 亿,GPT2 模型、GPT3 模型参数分别达到 15 亿、1750 亿。不断提升的参数量 级,使得 ChatGPT3 当前已经能够应用在商业、研究和开发活动中。 当前此类参数体量庞大的模型,成为各大科技厂商研发重点。大模型的 基础为高质量大数据。ChatGPT 的前身 GPT-3 就使用了 3,000 亿单 词、超过 40T 的数据。此类大数据基础的前提为三部分 1)有效场景下 的采集数据;2)大数据的存储、清洗和标注;3)数据质量检验。 ⚫ 大模型发展之下,算力与网络设施建设成为刚需 算力:ChatGPT 类人工智能需要更充足的算力支持其处理数据,带来更 多高性能的算力芯片需求。英伟达表示,GPT-3 需要 512 颗 V100 显卡 [Table_Author] 分析师:尹沿技 训练 7 个月,或者 1024 颗 A100 芯片训练一个月。2012 年以来,AI 训 执业证书号:S0010520020001 电话:021-60958389 练任务中的算力增长(所需算力每 3.5 月翻一倍)已经超越摩尔定律(晶 邮箱:yinyj@hazq.com 体管数量每 18 月翻一倍) 。 分析师:王奇珏 网络设施:以微软 Azure 为例,其 AI 基础设施由互联的英伟达 Ampere 执业证书号:S0010522060002 A100 Tensor Core GPU 组成,并由 Quantum infiniBand 交换机提供横 邮箱:wangqj@hazq.com 向扩展能力。服务器节点多、跨服务器通信需求巨大,网络带宽性能成为 分析师:胡杨 执业证书号:S0010521090001 GPU 集群系统的瓶颈,解决方式包括增加单节点通信带宽与降低网络收 邮箱:huy@hazq.com 敛比,带来光模块、交换机等需求。 分析师:张天 ⚫ 下游应用场景丰富,多行业落地可期 执业证书号:S0010520110002 1)“生成式 AI (generative AI)”在互联网及元宇宙领域市场化空间较为广 邮箱:zhangtian@hazq.com 阔。基于现行的 NLP 算法发展程度及数据集规模。在不久的将来,生成 分析师:金荣 式 AI 有较大可能在“智能客服”和“搜索引擎”进行增值,并有希望以“插件” 执业证书号:S0010521080002 邮箱:jjinrong@hazq.com 的形式赋能现有的“生产力工具链(工程软件/音视频制作工具等)”。 2)AI 在制造业的应用可分为三方面:a)智能装备:指具有感知、分析、 推理、决策、控制功能的制造装备,典型代表有工业机器人、协作机器 人、数控机床等;b)智能工厂:重点在于实现工厂的办公、管理及生产 自动化,典型的代表场景有协作机器人、智能仓储物流系统等;c)智能 [Table_Report] 相关报告 服务:指个性化定制、远程运维及预测性维护等。 3)人工智能在智能汽车领域的应用包括:a)智能驾驶依托 AI,将 1.华安证券_公司研究_计算机行业_ 行业深度_华安证券 2023 年计算机推 从驾驶辅助发展至自动驾驶;b)智能座舱在 AI 支持下,从出行工具 演:数字经济+ _2022-12-12 演变为出行管家。 ⚫ 风险提示 2.华安证券_公司研究_计算机行业_ 行业深度_华安证券数字经济系列报 国内大模型不及预期风险;行业竞争加剧风险;AI 应用的伦理道德 告(一):科技赋能、新基建,数字经 风险;芯片及技术供应风险;商业模式变现与落地不及预期风险。 济大有可为_2022-03-09 敬请参阅末页重要声明及评级说明 证券研究报告
2 . [Table_CompanyRptType] 行业研究 正文目录 1 引言 ..................................................................................................................................................................................... 7 2 CHATGPT 引发人工智能投资热潮 ..................................................................................................................................... 8 2.1 CHATGPT 是什么? .............................................................................................................................................................. 8 2.2 CHATGPT 技术和传统的 AI 有什么区别? ........................................................................................................................ 9 2.3 CHATGPT 将给行业带来哪些机会? ................................................................................................................................ 11 1) 语音识别与自然语言处理行业快速发展: ................................................................................................................ 11 2) 激活产业链: ................................................................................................................................................................ 12 3 数据要素资源基础,满足大模型训练需求 ....................................................................................................................... 13 3.1 政策引导数据要素确权使用,扫清人工智能发展障碍 .................................................................................................. 13 3.2 大数据管理能力需求提升.................................................................................................................................................. 14 3.3 数据标注,是 AI 模型的基础 ............................................................................................................................................ 16 3.4 相关标的 ............................................................................................................................................................................. 18 1) 星环科技:平台、数据库集一身的数据要素稀缺标的............................................................................................. 18 2) 海天瑞声:人工智能基础数据服务提供商,产品矩阵不断丰富 ............................................................................. 21 4 CHATGPT 带来的变革——大模型算法 ........................................................................................................................... 23 4.1 大模型时代的引言:DOUBLE DESCENT(双下降)现象 ............................................................................................... 23 4.2 首要关键技术:TRANSFORMER 模型 ................................................................................................................................ 24 4.3 GPT 快速迭代,从 GPT1.0 迅速步入 3.5 时代 .............................................................................................................. 24 4.4 国内外 AI 大模型项目百舸争流 ........................................................................................................................................ 26 4.5 相关标的 ............................................................................................................................................................................. 30 1) 商汤科技 ........................................................................................................................................................................ 30 2) 科大讯飞 ........................................................................................................................................................................ 32 3) 云从科技 ........................................................................................................................................................................ 33 4) 依图科技 ........................................................................................................................................................................ 34 5) 旷视科技 ........................................................................................................................................................................ 35 5 算力与网络是大模型运行的必要条件 ............................................................................................................................... 37 5.1 大模型发展,算力需求激增.............................................................................................................................................. 37 5.2 GPU/GPGPU/FPGA 多路线支持算力 ............................................................................................................................. 37 5.3 高带宽网络是对人工智能算力的重要支撑 ...................................................................................................................... 39 5.4 量子计算有望成为 AI 算力突破的“神助攻” ..................................................................................................................... 45 5.5 相关标的 ............................................................................................................................................................................. 48 1) 海光信息:国产 CPU 与 GPGPU 重要参与者.......................................................................................................... 48 2) 复旦微电:FPGA 受益算力增长 ................................................................................................................................ 49 3) 中际旭创:全球光模块龙头迎来 800G 时代 ............................................................................................................. 51 4) 联特科技:欧美中低速 WDM 主流供应商,数通光模块“黑马” ............................................................................. 52 5) 天孚通信:光通信精益制造代表,光引擎、激光雷达成长速度快 ......................................................................... 52 6) 国盾量子:量子计算机已实现原型机搭建 ................................................................................................................ 52 敬请参阅末页重要声明及评级说明 2 / 80 证券研究报告
3 . [Table_CompanyRptType] 行业研究 7) 浪潮信息:国内领先 AI 服务器厂商........................................................................................................................... 52 6 从元宇宙到大制造,大模型应用领域不断丰富 ............................................................................................................... 54 6.1 “生成式 AI”在互联网及元宇宙应用 ................................................................................................................................... 54 1) “生成式 AI”在智能客服领域的潜在应用 .................................................................................................................... 54 2) “生成式 AI”在搜索引擎领域的潜在应用 .................................................................................................................... 56 6.2 AI 赋能制造业转型升级,智能制造浪潮兴起 .................................................................................................................. 63 1) 智能装备产业百花齐放,工业机器人与高端数控机床空间广阔 ............................................................................. 63 2) 智能工厂是实现智能制造的载体,协作机器人与智能仓储物流是工厂新星 ......................................................... 69 6.3 AI 赋能工业互联网,打造高效率设备管理和生产流程 .................................................................................................. 72 6.4 人工智能助力汽车智能化.................................................................................................................................................. 75 1) 智能驾驶:从驾驶辅助到自动驾驶 ............................................................................................................................ 75 2) 智能座舱:从出行工具到出行管家 ............................................................................................................................ 77 风险提示: ............................................................................................................................................................................ 79 敬请参阅末页重要声明及评级说明 3 / 80 证券研究报告
4 . [Table_CompanyRptType] 行业研究 图表目录 图表 1 CHATGPT 开启收费模式.......................................................................................................................................8 图表 2 CHATGPT 操作界面 ..............................................................................................................................................9 图表 3 CHATGPT 模型流程图 ........................................................................................................................................10 图表 4 TRANSFORMER 模型工作流程 .............................................................................................................................. 11 图表 5 中国按类别划分的人工智能软件市场 ................................................................................................................12 图表 6 数据已成为五大核心生产要素之一 ....................................................................................................................13 图表 7 2015-2021 年 GDP 增速与数字经济增速 ...........................................................................................................14 图表 8 2015-2020 年数字经济占 GDP 的比重 ..............................................................................................................14 图表 9《规划》提出“1+7”的指标体系 ..........................................................................................................................14 图表 10 2017 与 2022 年人均联网设备数量 ..................................................................................................................15 图表 11 2017-2022 全球网络流量.................................................................................................................................15 图表 12 全球大数据市场规模 ........................................................................................................................................15 图表 13 全球大数据软件市场规模 ................................................................................................................................15 图表 14 我国大数据市场规模 ........................................................................................................................................16 图表 15 我国大数据软件市场规模 .................................................................................................................................16 图表 16 人工智能基础数据服务流程与主要产品 ...........................................................................................................16 图表 17 训练数据需求量(条) ....................................................................................................................................17 图表 18 受访者遇到的与数据相关的难题及比例(%) ................................................................................................17 图表 19 2017 至 2029 年中国数据标注行业市场规模 ...................................................................................................17 图表 20 2021 年我国数据标注行业下游需求占比(%) ...............................................................................................17 图表 21 面向 AI 的数据治理产业图谱 ...........................................................................................................................18 图表 22 星环科技发展历程示意图 ................................................................................................................................19 图表 23 星环科技股权结构 ............................................................................................................................................20 图表 24 星环科技产品格局 ...........................................................................................................................................20 图表 25 海天瑞声产品服务矩阵 ....................................................................................................................................21 图表 26 海天瑞声训练数据集服务的算法模型应用场景示意 ........................................................................................22 图表 27 BIS-VARIANCE 图内的双下降曲线 ......................................................................................................................23 图表 28 TRANSFORMER 模型自监督层结构 ....................................................................................................................24 图表 29 TRANSFORMER 模型架构 ...................................................................................................................................24 图表 30 OPENAI GPT 发展历程 .....................................................................................................................................24 图表 31 不同模型参数量与模型精度的关系 ..................................................................................................................25 图表 32 GPT-3 到 GPT-3.5 的演进过程 .........................................................................................................................26 图表 33 大模型发展迭代图 ...........................................................................................................................................27 图表 34 百度文心生态图 ...............................................................................................................................................28 图表 35 ERNIE3.0 模型架构..........................................................................................................................................28 图表 36 MINDSPORE 自动并行框架 ................................................................................................................................29 图表 37 大模型训练需求对比 ........................................................................................................................................30 图表 38 SENSECORE 商汤 AI 大装置中心 ......................................................................................................................30 图表 39 商汤科技主要产品结构 ....................................................................................................................................32 图表 40 科大讯飞业务全景示意图 ................................................................................................................................33 图表 41 云从科技主要产品及服务图谱 .........................................................................................................................34 敬请参阅末页重要声明及评级说明 4 / 80 证券研究报告
5 . [Table_CompanyRptType] 行业研究 图表 42 依图科技主要解决方案 ....................................................................................................................................35 图表 43 旷视科技 AIOT 软硬一体化解决方案 ..............................................................................................................36 图表 44 算力需求变化 ...................................................................................................................................................37 图表 45 深度学习中训练和推理的演示 .........................................................................................................................38 图表 46 全球 GPU 行业市场规模 ..................................................................................................................................38 图表 47 中国 GPU 行业市场规模 ..................................................................................................................................38 图表 48 全球 FPGA 芯片市场规模 ...............................................................................................................................39 图表 49 中国 FPGA 芯片市场规模 ...............................................................................................................................39 图表 50 AI 加速服务器全球出货量渗透率迅速提升(单位:百万) .............................................................................40 图表 51 英伟达 DGX A100 SU(包括 20 台 DGX A100 服务器)是 SUPERPOD 集群基本组成单位...........................40 图表 52 腾讯星脉 AI 集群组网架构 ...............................................................................................................................41 图表 53 AI 集群高性能方案关键技术组合 .....................................................................................................................41 图表 54 英伟达 DGX A100 服务器使用了 200G 高速光连接 ........................................................................................42 图表 55 DGX H100 使用了 400G CONNECTX-7 网卡 .....................................................................................................42 图表 56 英伟达 QUANTUM-2 INFINIBAND 交换机提供 64*400GBPS 交换容量 ................................................................42 图表 57 微软数据中心网络 2024 年部署将全部为 400G ..............................................................................................43 图表 58 微软 400G 数据中心网络架构 .........................................................................................................................43 图表 59 数据中心 200G 以上高速光模块出货量高速增长 ............................................................................................44 图表 60 交换机芯片通过 SERDES 直驱光模块实现高频电信号走线缩短 ......................................................................45 图表 61 全球量子计算市场或在 2025 年达到 12 亿美金...............................................................................................45 图表 62 量子计算未来三年主要市场结构......................................................................................................................46 图表 63 量子计算未来三年主要应用的算法领域 ...........................................................................................................46 图表 64 学术界目前探讨的量子计算可能展现出优势的人工智能算法 ..........................................................................46 图表 65 变分量子算法示意图 ........................................................................................................................................47 图表 66 剑桥量子计算公司(CQC)首次在量子计算机执行自然语言处理测试获得成功 ............................................48 图表 67 海光 DCU 基本架构 .........................................................................................................................................49 图表 68 海光 8100 系列产品主要规格和特点 ..............................................................................................................49 图表 69 复旦微电产品主要规格和特点 .........................................................................................................................50 图表 70 FPGA 结构特点................................................................................................................................................51 图表 71 全球“对话 AI(CONVERSATIONAL AI)”市场空间 .................................................................................................55 图表 72 “智能对话机器人”在各领域全球市场空间(亿 USD) ....................................................................................55 图表 73 全球“智能对话机器人”智能客服领域市场空间(亿 USD) .................................................................................56 图表 74 智能对话机器人-电商客服领域全球市场空间测算(亿 USD) ............................................................................56 图表 75 谷歌服务(GOOGLE SERVICES)收入 (亿 USD) ...................................................................................................57 图表 76 GPT3 各类模型的训练的参数量 .......................................................................................................................58 图表 77 GPT 模型训练成本 ...........................................................................................................................................58 图表 78 “生成式 AI”对搜索引擎的影响 .........................................................................................................................59 图表 79 生成式 AI 与搜索引擎结合面临的挑战 ............................................................................................................59 图表 80 “生成式 AI”的应用 – 新 BING (NEW BING) 搜索案例展示................................................................................60 图表 81 “生成式 AI”的应用 – 新 BING (NEW BING)可对话的领域举例 ..........................................................................60 图表 82 “生成式 AI”的应用 – 谷歌巴德 ........................................................................................................................61 图表 83 百度文心全景图、历程和架构 .........................................................................................................................62 图表 84 人工智能在制造业的应用 ................................................................................................................................63 图表 85 工业机器人应用汇总 ........................................................................................................................................64 敬请参阅末页重要声明及评级说明 5 / 80 证券研究报告
6 . [Table_CompanyRptType] 行业研究 图表 86 2015-2022 年中国工业机器人产量...................................................................................................................64 图表 87 2015-2022 年中国工业机器人销量...................................................................................................................64 图表 88 2017-2024 年全球工业机器人市场规模(销售额口径) ..................................................................................65 图表 89 2017-2024 年中国工业机器人市场规模(销售额口径) ..................................................................................65 图表 90 高端数控机床的基础构成 ................................................................................................................................66 图表 91 高端数控机床的下游应用 ................................................................................................................................66 图表 92 中国数控机床下游应用领域占比......................................................................................................................67 图表 93 2017-2022 年中国数控机床市场规模统计预测 ................................................................................................67 图表 94 我国支持高端数控机床发展的文件/政策 ..........................................................................................................68 图表 95 中国机床消费结构 ............................................................................................................................................69 图表 96 机床更新需求测算 ...........................................................................................................................................69 图表 97 协作机器人特点 ...............................................................................................................................................70 图表 98 2021 年中国协作机器人应用行业分布 .............................................................................................................70 图表 99 2016-2021 年中国协作机器人市场规模 ...........................................................................................................70 图表 100 仓储物流自动化系统构成 ...............................................................................................................................71 图表 101 工业生产物流示意图 ......................................................................................................................................71 图表 102 商业配送物流示意图 ......................................................................................................................................71 图表 103 智能仓储物流与传统仓储物流对比 ................................................................................................................72 图表 104 2017-2026 年中国智能仓储物流市场规模及预测 ...........................................................................................72 图表 105 2018-2022 年中国工业互联网市场规模 .........................................................................................................73 图表 106 鼎捷经营管理、生产控制方案 .......................................................................................................................74 图表 107 智能运维平台 .................................................................................................................................................74 图表 108 中望软件 3D 仿真 ..........................................................................................................................................75 图表 109 汽车驾驶自动化等级划分 ..............................................................................................................................76 图表 110 中国 L2 及以上智能汽车销量及渗透率 ..........................................................................................................76 图表 111 中国智能座舱市场规模及预测........................................................................................................................77 图表 112 集度:汽车机器人将融合百度文心一言全面能力 ...........................................................................................78 图表 113 长安深蓝:假如把 CHATGPT 装进长安深蓝 SL03 .........................................................................................78 敬请参阅末页重要声明及评级说明 6 / 80 证券研究报告
7 . [Table_CompanyRptType] 行业研究 1 引言 ChatGPT 是由 OpenAI 研发的一种语言 AI 模型,使用上亿参数的大模型和海量语 料库来生成语句,目前可以实现写诗、撰文、编码的功能。ChatGPT 广受用户欢迎, 短短五天注册用户数量便超过 100 万,60 日月活破亿。产业界如微软、谷歌、百度 也对于 openAI 及其竞品加大投入。 1. 逻辑一:大模型需求带动算法公司景气度。从技术层面看,ChatGPT 算法精确度来 源于引入数以亿计的模型参数,即大模型。除了 OpenAI 的 GPT-3 模型外,各大公 司正在孵化的大模型项目也值得关注:1)MT-NLG:微软英伟达强强联手,软硬结 合引领行业新景。2021 年 10 月 11 日,微软和英伟达推出的自然语言生成模型(MT- NLG), 具有 5300 亿个参数;2)Switch Transformers:Google 推出的首个万亿 级语言模型,将参数值拉升至 1.6 万亿个;3)文心一言: 2022 年 11 月 30 日,百 度集团公布了文心大模型的最新升级,包括新增 11 个大模型,大模型总量增至 36 个,构建起国内业界规模最大的产业大模型体系。除互联网科技巨头外,建议关注: 科大讯飞、商汤科技、云从科技、依图科技、旷视科技等。 2. 逻辑二:巨头在大模型算法的投入加大,激活产业链。算法模型的训练需要在算力 与网络、数据服务等方面的巨大研发投入。 算力方面,核心为 GPU\GPGPU\FPGA 等半导体芯片,其中可以关注 1)GPU:CPU 搭配 GPU 是目前深度学习的主流方案;2)GPGPU:去掉 GPU 的图形显示部分, 将其余部分全部投入通用计算,在 AI、数据分析和 HPC 等场景下可以广泛应用; 3)FPGA:可编程的 FPGA 芯片也逐渐提升市场份额。相关标的包括:海光信息、 复旦微电、浪潮信息、紫光股份等。 网络设施方面,服务器增加带动跨服务器通信需求,网络带宽性能成为 GPU 集群系 统的瓶颈,解决的方式包括增加单节点通信带宽、降低网络收敛比。由此带来光模 块、交换机等需求。相关标的包括:中际旭创、联特科技、天孚通信、国盾量子等。 数据服务方面,数据采集、数据标注和数据质检是较为重要的三个环节。ChatGPT 的前身 GPT-3 就使用了 3,000 亿单词、超过 40T 的大规模、高质量数据进行训练。 随着大模型的发展,对于训练数据的需求成指数增长。相关标的包括:星环科技、海 天瑞声。 3. 逻辑三:AI 下游应用领域逐步扩大。随着大模型的不断完善,未来有望应用于更多 场景之下。包括互联网及元宇宙领域、工业领域、智能汽车与智能座舱,达到下游用 户的降本增效。随着商业模式与应用前景明朗,进一步反哺大模型投入。 敬请参阅末页重要声明及评级说明 7 / 80 证券研究报告
8 . [Table_CompanyRptType] 行业研究 2 ChatGPT 引发人工智能投资热潮 2.1 ChatGPT 是什么? ChatGPT 是由 OpenAI 研发的一种语言 AI 模型,使用海量语料库来生成与人类相 似的反应。ChatGPT 是基于 GPT(generativef pretrained’ transformer)架构搭建的, 主要用深度学习来生成连贯且具有意义的文字。这个模型使用了来自于网站、书本和社 交媒体的海量文字数据,因此也为 ChatGPT 在保证准确性和细节的同时,提供了广泛 的对话反馈。对话反馈是 ChatGPT 的核心功能之一,也使它成为了实现聊天机器人或 其他对话型 AI 的理想技术。 除对话功能外,ChatGPT 也具有实现各类语言相关任务的能力,包括文章精炼、翻 译以及情绪分析等。以上各类语言能力在大规模的训练数据和升读学习架构下,使 ChatGPT 成为目前应用最为先进的语言模型之一。 总体上,ChatGPT 标志着自然语言处理(NLP)和对话 AI 领域的一大步,其高质 量文字产出能力在商业、研究和开发活动中提高用户体验的方向上非常有应用价值的。 图表 1 ChatGPT 开启收费模式 资料来源:OpenAI,华安证券研究所 截至目前,GPT 已经经历了如下演化: 1. GPT-1: 第一代 GPT 语言模型,发布于 2018 年。它有 1.17 亿个参数,使用网页 的文字数据进行训练。 2. GPT-2: 发布于 2019 年,具有 15 亿个参数,使用的网页文字数据量也远大于前 一代。它已经可以生成高质量的文字,甚至完成翻译、精炼文字等简单任务。 3. GPT-3: 发布于 2020 年,具有 1750 亿个参数,使用网页以及其他来源的文字进 行训练。它已经可以进行担任各类任务,被认为是语言模型领域的显著突破。 敬请参阅末页重要声明及评级说明 8 / 80 证券研究报告
9 . [Table_CompanyRptType] 行业研究 图表 2 ChatGPT 操作界面 资料来源:openAI,华安证券研究所 2.2 ChatGPT 技术和传统的 AI 有什么区别? 相比传统 AI 算法,GPT 模型的区别在于通过海量参数,进一步提升了模型的精确 度。 初代的 GPT 模型参数是 1.17 亿,而 GPT2 的模型有 15 亿个参数,参数增加了 10 倍之多。第三代的 GPT3 模型,参数达到了 1750 亿,是 GPT2 参数的 100 倍。正是由 于参数的指数级提升,使得模型的使用效果大幅提升。而此类参数上亿的模型,通常称 之为“大模型”。 GPT 模型基于 Transformer 架构,这是一种由谷歌的 Vaswani 等人于 2017 年引入 的神经网络类型。Transformer 架构特别擅长对序列数据中的长距离依赖进行建模,这使 其非常适合自然语言处理任务。 为了训练 GPT 模型,OpenAI 使用了来自互联网的大量文本数据,包括书籍、文章 和网站。该模型使用一种称为无监督学习的技术进行训练,这意味着它学会了在没有人 类监督的情况下预测文本序列中的下一个单词。 GPT 模型能够生成连贯和语法正确的文本,已被用于广泛的自然语言处理任务,包 括语言翻译、文本补全和文本生成。 敬请参阅末页重要声明及评级说明 9 / 80 证券研究报告
10 . [Table_CompanyRptType] 行业研究 图表 3 ChatGPT 模型流程图 40% 35% 30% 西北 25% 华北 20% 东北 西南 15% 中南 10% 华东 5% 0% 2015 2016 2017Q3 资料来源:OpenAI,华安证券研究所 Transformer 模型是一种用于自然语言处理的神经网络模型。与传统的循环神经网 络(RNN)不同,Transformer 模型使用自注意力机制(self-attention)来处理输入序列 中不同位置之间的依赖关系。 Transformer 模型由编码器和解码器两部分组成。编码器将输入序列中的每个单词 表示为一个向量,并通过多层自注意力和前馈神经网络来对输入序列进行编码。解码器 则使用相同的自注意力和前馈神经网络来生成输出序列。 在自注意力机制中,模型根据输入序列中的所有单词计算出每个单词与其他单词的 相关性,然后使用这些相关性加权求和得到每个单词的表示向量。这种方法使得模型能 够处理长序列和跨越序列中的依赖关系,从而提高了模型的性能。 Transformer 模型已经在自然语言处理领域取得了很好的效果,包括机器翻译、文 本摘要和问答系统等任务。它是目前最先进的语言模型之一,也是开发其他自然语言处 理模型的基础。 敬请参阅末页重要声明及评级说明 10 / 80 证券研究报 告
11 . [Table_CompanyRptType] 行业研究 图表 4 transformer 模型工作流程 资料来源:machine learning mastery,华安证券研究所 2.3 ChatGPT 将给行业带来哪些机会? 相比其他此前的人工智能技术与进展,ChatGPT 之所以引发关注,主要总结为以下 几点: 1) 从使用效果上,交流通畅,同时能够实现写诗、撰文、编码的功能。2 月 1 日, 以色列总统艾萨克·赫尔佐格(Isaac Herzog)发表了部分由人工智能(AI)撰写的 演讲; 2) 受用户欢迎。短短 5 天,注册用户数就超过 100 万。60 天月活破亿。 3) 商业模式产生变化。2023 年 2 月 2 日,美国人工智能(AI)公司 OpenAI 发布 ChatGPT 试点订阅计划。 4) 产业界也表现出对 Chatgpt 的关注。 表现为:1) 1 月 23 日, 微软宣布向 ChatGPT 开发者 OpenAI 追加投资数十亿美元;2)谷歌 3 亿美元投资 Chatgpt 竞品。 3)百度将于 3 月发布类似 Chatgpt 的 AI 服务。 由此带来相关产业链的大变革: 1) 语音识别与自然语言处理行业快速发展: 人工智能,也即解决像人一样看、听、思考的问题。因此,按照此维度来划分,划 分为计算机视觉、语音识别与自然语言处理及数据科学。 早先,2020 年数据显示,计算机视觉占比约 56.6%;语音识别与自然语言处理占比 约 35.6%。也即,在机器视觉领域的应用,相比自然语言处理,更为成熟,市场规模更 大。 但随着 ChatGPT 带来的投资热潮,与应用领域的不断丰富,音频与自然语言处理 的整体行业规模,有望迅速增长。 敬请参阅末页重要声明及评级说明 11 / 80 证券研究报 告
12 . [Table_CompanyRptType] 行业研究 图表 5 中国按类别划分的人工智能软件市场 7.80% 35.60% 56.60% 计算机视觉 音频与自然语言处理 数据科学 资料来源:商汤科技招股说明书,华安证券研究所 2) 激活产业链: 整个人工智能的产业链包括算力、数据、算法乃至下游应用。 算力与网络:英伟达的研究表示,GPT-3 模型需要使用 512 颗 V100 显卡训练 7 个 月时间,或者使用 1024 颗 A100 芯片训练长达一个月的时间。随着各大科技厂商投入对 大模型的研发,势必增加芯片、服务器等算力需求。同时,庞大的 AI 算力集群,又需要 高带宽支撑数据传输。 数据:数据采集、数据标注和数据质检是较为重要的三个环节。从自然数据源简单 收集取得的原料数据并不能直接用于有效监督的深度学习算法训练,经过专业化采集、 加工形成的训练数据集才能供深度学习算法等训练使用,由此带来数据服务需求。 算法:相比传统 AI 模型,大模型的优势体现在:1)解决 AI 过于碎片化和多样化 的问题;2) 具备自监督学习功能,降低训练研发成本;3)摆脱结构变革桎梏,打开 模型精度上限。对于大模型算法的研发、优化,亦是投入的重点。 下游应用:产业界一直以来都在寻求人工智能的应用领域、商业模式突破。随着大 模型使用、人工智能算法精度提升,下游应用的扩展可期。 敬请参阅末页重要声明及评级说明 12 / 80 证券研究报 告
13 . [Table_CompanyRptType] 行业研究 3 数据要素资源基础,满足大模型训练需求 3.1 政策引导数据要素确权使用,扫清人工智能发展障碍 数据已成为五大核心生产要素之一。 2020 年 4 月中共中央国务院《关于构建更加完善的要素市场化配置体制机制的意 见》中发布。这是数据作为新型生产要素首次在中央顶层文件中提出。 而后,2022 年 4 月国务院《关于加快建设全国统一大市场的意见》中,进一步提到 加快培育数据要素市场,建立数据资源产权相关基础制度。 2022 年 12 月 9 日,财政部发布关于征求《企业数据资源相关会计处理暂行规定 (征求意见稿) 》意见的函,具体提出了企业数据资源相关会计、处理的方式方法,进一 步扫清了数据要素市场建立、数据资源交易的障碍。 当前,2022 年 12 月发布《关于构建数据基础制度更好发挥数据要素作用的意见》, 是数据要素体系建设中,顶层关键文件,扫除了未来人工智能发展中需要使用数据的障 碍:1)建立保障权益,合规使用的数据产权制度;2)建立合规高效的场内外结合的数 据要素流通和交易制度。3)建立体现效率促进公平的数据要素收益分配制度。4)建立 安全可控弹性包容的数据要素治理制度。 图表 6 数据已成为五大核心生产要素之一 资料来源:中国信通院,华安证券研究所 数字经济快速发展,数据要素成为重要战略资源。《“十四五”数字经济发展规划》 《规划》设定了到 2025 中指出,数字经济是继农业经济、工业经济之后的主要经济形态。 年实现数字经济核心产业增加值占 GDP 比重达到 10%的目标,涵盖数据要素市场、产 业数字化、数字产业化、数字化公共服务、数字经济治理体系五个方面。从 2015 年至 今,数字经济平均增速持续高于 GDP 增速,2021 年数字经济占 GDP 比重已经由 2015 年的 27%提升至 40%。 敬请参阅末页重要声明及评级说明 13 / 80 证券研究报 告
14 . [Table_CompanyRptType] 行业研究 图表 7 2015-2021 年 GDP 增速与数字经济增速 图表 8 2015-2020 年数字经济占 GDP 的比重 GDP增速(%) 数字经济增速(%) 数字经济占GDP比重(%) 其他(%) 25% 100% 20.3% 20.9% 18.9% 20% 80% 15.8% 15.6% 61.4% 60% 69.7% 67.3% 66.0% 63.7% 60% 73.0% 15% 11.5% 10.5% 9.7% 10% 8.4% 40% 7.0% 7.3% 5% 3.0% 20% 38.6% 39.6% 30.3% 32.7% 34.0% 36.3% 27.0% 0% 0% 2015 2016 2017 2018 2019 2020 2015 2016 2017 2018 2019 2020 2021 资料来源:WIND,华安证券研究所 资料来源:中国信通院,华安证券研究所 图表 9《规划》提出“1+7”的指标体系 资料来源:《“十四五”数字经济规划》,华安证券研究所 3.2 大数据管理能力需求提升 ,到 2023 联网设备高增之下,流量增长不可避免。根据思科的《年度互联网报告》 年,地球上的连网设备数量将是全球人口的大约三倍,从 2017 年的人均 2.4 台提升至 3.6 台。由于 IP 地址即网络地址+主机地址,网络站点所连接的 IP 数量也处于爆发的阶 段。根据 IDC 的《中国物联网连接规模预测,2020-2025》 ,仅我国物联网 IP 连接量已 在 2020 年达 45.3 亿,有望在 2025 年达到 102.7 亿,CAGR 为 17.8%。由于 IP 地址 联网后即产生数据流量, IP 地址的数量增长即代表全网数据也将继续大增,对于现有 的网络企业的承载能力提出了考验。根据思科的《年度互联网报告》,2022 年全球网络 数据流量将达 799EB(1EB=十亿 GB) ,同比增长 21%。我们认为,数据流量的增长, 有望直接带动大数据产业的发展,而其中稳定优质响应快的数据库性价比更高。 敬请参阅末页重要声明及评级说明 14 / 80 证券研究报 告
15 . [Table_CompanyRptType] 行业研究 图表 10 2017 与 2022 年人均联网设备数量 图表 11 2017-2022 全球网络流量 2017年人均上网设备数量(台) 2022年人均上网设备数量(台) 全球流量(EB) YoY 16 900 70% 13.4 799 14 800 60% 60% 12 700 658 9.4 50% 10 8.0 600 46% 514 8 40% 5.4 500 6 3.9 379 36% 3.6 3.1 2.9 400 30% 4 2.5 2.4 2.1 2.1 1.4 260 28% 1.1 300 21% 2 20% 200 162 0 100 10% 0 0% 2017 2018 2019 2020 2021 2022 资料来源:思科,华安证券研究所 资料来源:思科,华安证券研究所 全球大数据市场存量巨大,软件市场占比较高且增速快。根据 Wikibon 及沙利文研 究数据,全球大数据市场规模有望在 2022 年达 718 亿美元,同比增速 11%;而其中全 球大数据软件伟 286 亿美元,同比增速 18%,约占大数据市场规模的 40%。可以认为, 软件市场在大数据市场中,占据较大地位,而由于其增速高于大数据市场的整体增速, 其占比还将进一步提升。 图表 12 全球大数据市场规模 图表 13 全球大数据软件市场规模 900 全球大数据市场规模(亿美元) 增速 20% 全球大数据软件市场规模(亿美元) 增速 786.0 800 17% 718.0 400 377.0 25% 700 15%649.0 15% 350 22% 329.0 572.0 20% 286.0 20% 600 13% 300 496.0 246.018% 500 423.0 11% 250 16% 208.0 15% 15%15% 400 9% 10% 170.0 200 142.0 10% 300 150 200 5% 100 5% 100 50 0 0% 0 0% 2018 2019 2020E 2021E 2022E 2023E 2018 2019 2020E 2021E 2022E 2023E 2024E 资料来源:沙利文,华安证券研究所 资料来源:沙利文,华安证券研究所 我国大数据市场,软件市场增速快、占比有待提升。对比全球市场,我国大数据市 场预计 2022 年规模为 1049 亿元,同比增速 24%,其中软件约 305 亿元,同比增速 30%,占比约 29%。在大数据行业的高增速之下,数据智能分析工具、大数据管理平台 等软件的需求有望进一步提升。 敬请参阅末页重要声明及评级说明 15 / 80 证券研究报 告
16 . [Table_CompanyRptType] 行业研究 图表 14 我国大数据市场规模 图表 15 我国大数据软件市场规模 中国大数据市场规模(亿元) 增速 中国大数据软件市场规模(亿元) 增速 2000 30% 600 35% 28% 29% 30% 492 24% 23% 1527 28% 30% 25% 500 26% 1500 19% 24% 19% 1289 18% 389 25% 20% 400 1049 305 20% 14% 1000 849 15% 300 713 234 15% 627 181 525 10% 200 146 500 114 10% 5% 100 5% 0 0% 0 0% 2018 2019 2020E 2021E 2022E 2023E 2024E 2018 2019 2020E 2021E 2022E 2023E 2024E 资料来源:沙利文,华安证券研究所 资料来源:沙利文,华安证券研究所 3.3 数据标注,是 AI 模型的基础 人工智能基础数据服务助力 AI 训练与调优,数据采集、数据标注和数据质检是较 为重要的三个环节。从自然数据源简单收集取得的原料数据并不能直接用于有效监督的 深度学习算法训练,经过专业化采集、加工形成的训练数据集才能供深度学习算法等训 练使用,从某种程度上讲,数据决定了 AI 的落地程度,因此,基础数据服务应运而生。 具体来看,基础数据的服务流程围绕着客户的展开,为 AI 模型训练提供可靠、可用的数 据,其包含五个环节,分别是 1)数据库设计:训练数据集结构设计;2)数据采集:获 取原料数据;3)数据清洗:清洗残缺、重复或者错误的数据;4)数据标注:帮助机器 认识数据的特征;5)质检:各环节质量检测和控制。 图表 16 人工智能基础数据服务流程与主要产品 资料来源:艾瑞咨询,华安证券研究所 基础数据服务需求旺盛,未来成长空间广阔。人工智能应用场景的创新与拓展和机 器学习算法复杂度的提升带动训练数据需求的大幅增长,根据 Dimensional Research 敬请参阅末页重要声明及评级说明 16 / 80 证券研究报 告
17 . [Table_CompanyRptType] 行业研究 的全球调研报告,72%的受访者认为至少使用超过 10 万条数据进行模型村联,才能保证 模型的有效性与可靠性;96%的受访者在训练模型中遇到训练数据质量不佳、数量不足、 数据标注人员不足等难题。展望未来,一方面,基础数据服务的质量有进一步提升的空 间;另一方面,应用场景和算法更新等将增加训练数据的需求量,基础数据服务行业有 望进入快速发展阶段,成长空间广阔。 图表 17 训练数据需求量(条) 图表 18 受访者遇到的与数据相关的难题及比例(%) 小于10万 10万-100万 100万-1000万 大于1000万 数据偏差或错误 66% 10% 数据量不足 51% 28% 19% 数据不可直接使用 50% 缺少标注团队 28% 缺少标注工具 27% 未曾遇到问题 4% 43% 资料来源:Dimensional Research,华安证券研究所 资料来源:Dimensional Research,华安证券研究所 市场标注行业市场规模不断扩大,图像类和语音类需求占比超八成。从市场规模来 看,根据观研天下统计,2021 年我国数据标注行业市场规模为 43 亿元,2017 至 2029 年的 CAGR 为 23%;根据 IDC《2021 年中国人工智能基础数据服务市场研究报告》 , 预计中国 AI 基础数据服务市场规模将在 2025 年突破 120 亿元,近五年的 CAGR 达 47%。从市场收入结构来看,按数据类型划分,基础数据服务行业是市场需求可以分为 图像类、语音类和自然语言处理类数据需求。根据观研天下统计,2021 年我国数据标注 行业下游以图像类和语音类需求为主,二者合计占比达 86%,其中,图像类业务以智能 驾驶与安防为主,语音类以中英大大语种、中国本土方言以及外国小语种为主。 图表 19 2017 至 2029 年中国数据标注行业市场规模 图表 20 2021 年我国数据标注行业下游需求占比(%) 中国数据标注行业市场规模(亿元) 图像类 语音类 NLP类 250 204 14.2% 200 185 161 150 132 102 45.3% 100 77 61 43 51 50 26 31 36 18 0 40.5% 资料来源:观研天下,华安证券研究所 资料来源:观研天下,华安证券研究所 基础数据服务位于产业链中游,是 AI 商业化应用中重要的一环。基础数据服务行业 的上游为数据源与数据产能,多元数据包括个人数据、企业数据、政府数据等,产能医 院供应方包括标注自愿提供方和硬件资源供应商。中游为数据产品开发工具与管理服务, 敬请参阅末页重要声明及评级说明 17 / 80 证券研究报 告
18 . [Table_CompanyRptType] 行业研究 包括 AI 基础数据服务商,如海天瑞声、百度众包、京东众志等企业,以及面向 AI 的数 据治理平台服务商,如星环科技等。下游则是人工智能的应用,涉及智慧政务、金融、 工业、自动驾驶等领域。其中,处于中游的 AI 基础数据服务商主要进行数据的采集与标 注,面向 AI 的数据治理平台服务商则使用数据治理的各组件管治多源异构数据,使其形 成数据资产,提高数据质量。二者处理后的数据可直接提供给下游用于 AI 训练,从而加 速 AI 落地。 图表 21 面向 AI 的数据治理产业图谱 资料来源:艾瑞咨询,华安证券研究所 3.4 相关标的 1) 星环科技:平台、数据库集一身的数据要素稀缺标的 专注于分布式数据库,技术水平全球领先。星环科技 2013 年成立于上海,是国内 大数据管理软件领导者,已累计有超过 1,000 家终端用户,且产品已落地以下知名机构 或其主要分支机构,金融行业包括中国银行、浦发银行、浙江农村商业联合银行等,政 府领域包括上海市大数据中心等,能源行业包括中国石油、南方电网等,交通行业包括 中国邮政集团、郑州地铁等,制造业包括湖南中烟等。公司在发展中经历了多个重要节 点:1)公司 2013 年成立,随即发布了大数据基础平台 TDH2.0 版本,并于次年推出 Inceptor 关系型分析引擎、Slipstream 实时计算引擎,实现数据湖、实时计算两大热点 功能;2)2014 年公司被 Gartner 列入 Hadoop 的主流发行版列表;3)2017 年起,公 司陆续发布新品,包括分析工具 Sophon、云产品 TDC、分布式分析数据库 ArgoDB 和 分布式交易数据库 KunDB。2022 年,公司已被 Gartner 评为图数据库管理的全球代表 厂商。 敬请参阅末页重要声明及评级说明 18 / 80 证券研究报 告
19 . [Table_CompanyRptType] 行业研究 图表 22 星环科技发展历程示意图 资料来源:公司官网,华安证券研究所 股权结构稳定,创始人保持控制权。发行人的控股股东、实际控制人为创始人孙元 (1)截至本招股说明书签署日,孙元浩直接持有星环科技 12.3%的 浩,主要理由如下: 股份,为公司第一大股东,且在报告期内持续为发行人第一大股东。 (2)孙元浩与范磊、 吕程、佘晖及赞星投资中心签署了《一致行动协议》,确认 自 2019 年 1 月 1 日起, 范磊、吕程、佘晖及赞星投资中心与孙元浩在发行人有关重大事项中保持一致行动,并 约定上述各方在无法达成一致意见时,为提高公司决策效率,在不损害孙元浩合法权益 及保障公司整体利益的前提下,应以孙元浩的意见作为各方的最终共同意见。孙元浩担 任执行事务合伙人的赞星投资中心持有公司 8.3%的股份,孙元浩之一致行动人范磊、吕 程、佘晖分别持有公司 6.7%、1.7%、1.0%的股份。因此,孙元浩本人及通过《一致行 动协议》合计控制公司 30.0%的股份。 (3)报告期内,孙元浩一直担任发行人(及其前 身星环有限)的董事长及总经理,在发行人的董事会和日常管理决策中均能够产生重大 ( 4)根据除孙元浩、范磊、吕程、佘晖及赞星投资中心以外的发行人其他股东的 影响。 书面确认,各方均认可孙元浩于报告期内作为发行人的实际控制人。 敬请参阅末页重要声明及评级说明 19 / 80 证券研究报 告
20 . [Table_CompanyRptType] 行业研究 图表 23 星环科技股权结构 资料来源:公司官网,华安证券研究所 产品形成联动,长短期均有发力点。公司已形成大数据与云基础平台、分布式关系 型数据库、数据开发与智能分析工具的软件产品矩阵,支撑客户及合作伙伴开发数据应 用系统和业务应用系统,助力客户实现数字化转型。 具体来看,公司的软件产品分为三部分:1)大数据与云基础软件:主要产品为企业 级多模型数据管理平台 TDH 以及基于 TDH 的云平台 TDC;2)分布式数据库:分布式 交易数据库 KunDB 以及分布式分析性数据库 ArgoDB;3)数据分析工具:数据分析开 发套件 TDS 以及智能分析工具 Sophon,其中 Sophon 多数用于金融下游。 图表 24 星环科技产品格局 资料来源:星环科技招股说明书,华安证券研究所 敬请参阅末页重要声明及评级说明 20 / 80 证券研究报 告
21 . [Table_CompanyRptType] 行业研究 2) 海天瑞声:人工智能基础数据服务提供商,产品矩阵不断丰富 自 2005 年成立以来,海天瑞声始终致力于为 AI 产业链上的各类机构提供算法模型 开发训练所需的专业数据集,目前已发展为人工智能领域具备国际竞争力的国内领军企 业。公司研发生产的训练数据覆盖了智能语音、计算机视觉及自然语言处理三大 AI 核心 领域,实现了标准化产品、定制化服务、相关应用服务的全覆盖,广泛应用于人机交互、 智能家居、智能驾驶、智慧金融、智能安防、OCR 识别等多个应用场景。截至 2022 年 半年报,公司累计客户量达 695 家。 ⚫ 训练数据定制服务:公司根据客户的需求提供训练数据定制服务,分为采集+加 工服务和纯加工服务两种,在该业务类型下,最终形成的训练数据集成品的知 识产权由客户享有。 ⚫ 训练数据产品:公司根据市场需求,以及对算法技术应用前景、发展趋势的评 估等开发的训练数据产品,最终生产的训练数据集成品的知识产权由公司享有, 一次开发完成后可重复多次销售使用权。 ⚫ 训练数据相关的应用服务:公司基于其生产的训练数据提供算法模型相关的训 练服务,助力下游客户完成其算法模型的语言拓展、垂直应用领域拓展等,为 客户定制针对特定应用场景的专属算法模型。 图表 25 海天瑞声产品服务矩阵 资料来源:海天瑞声 2022 年半年报,华安证券研究所 公司产品应用领域不断拓宽,下游客户丰富。从应用场景来看,公司产品的应用场 景覆盖了个人助手、语音输入、智能家居、智能客服、机器人、语音导航、智能播报、 语音翻译、移动社交、虚拟人、智能驾驶、智慧金融、智慧交通、智慧城市、机器翻译、 智能问答、信息提取、情感分析、OCR 识别等多种应用场景。从下游客户来看,公司的 敬请参阅末页重要声明及评级说明 21 / 80 证券研究报 告
22 . [Table_CompanyRptType] 行业研究 客户为 AI 产业链上的各类机构,主要系:1)大型科技公司,阿里巴巴、腾讯、百度、 微软等;2)人工智能企业,科大讯飞、商汤科技、海康威视等;3)科研机构,如中国 科学院、清华大学等。目前,公司的产品和服务已经获得了阿里巴巴、腾讯百度、科大 讯飞、微软、清华大学等国内外客户的认可。 图表 26 海天瑞声训练数据集服务的算法模型应用场景示意 资料来源:海天瑞声 2022 年半年报,华安证券研究所 敬请参阅末页重要声明及评级说明 22 / 80 证券研究报 告
23 . [Table_CompanyRptType] 行业研究 4 ChatGPT 带来的变革——大模型算法 4.1 大模型时代的引言:Double Descent(双下降)现象 随着深度神经网络的兴起,人工智能进入统计分类深度模型时代,这种模型比以往 的模型更加泛化,可以通过提取不同特征值应用于不同场景。但在 2018 年-2019 年, 双下降现象的发现打破了原有的人工智能发展格局。简而言之,以往的数学理论表明, 随着参数增多、模型增大,过拟合导致模型的误差会先下降后上升,这使得找到精度最 高误差最小的点成为模型调整的目标。而随着人工智能算法算力的不断发展,研究者发 现如果继续不设上限的增大模型,模型误差会在升高后第二次降低,并且误差下降会随 着模型的不断增大而降低,通俗而言模型越大,准确率越高。因此人工智能发展进入了 大模型时代。 图表 27 Bis-Variance 图内的双下降曲线 《预训练语言模型之 GPT-1,GPT-2 和 GPT-3》CSDN,华安证券研所 资料来源: 相比传统 AI 模型,大模型的优势体现在: 1)解决 AI 过于碎片化和多样化的问题,极大提高模型的泛用性。应对不同场景 时,AI 模型往往需要进行针对化的开发、调参、优化、迭代,需要耗费大量的人力成 本,导致了 AI 手工作坊化。大模型采用“预训练+下游任务微调”的方式,首先从大量标 记或者未标记的数据中捕获信息,将信息存储到大量的参数中,再进行微调,极大提高 模型的泛用性。 2)具备自监督学习功能,降低训练研发成本。我们可以将自监督学习功能表观理 解为降低对数据标注的依赖,大量无标记数据能够被直接应用。这样一来,一方面降低 人工成本,另一方面,使得小样本训练成为可能。 3)摆脱结构变革桎梏,打开模型精度上限。过去想要提升模型精度,主要依赖网 络在结构上的变革。随着神经网络结构设计技术逐渐成熟并开始趋同,想要通过优化神 经网络结构从而打破精度局限变得困难。而研究证明,更大的数据规模确实提高了模型 的精度上限。 敬请参阅末页重要声明及评级说明 23 / 80 证券研究报 告
24 . [Table_CompanyRptType] 行业研究 4.2 首要关键技术:Transformer 模型 GPT 模型利用 Transformer 模型作为特征提取器,是第一个引入 Transformer 的预 训练模型。传统的神经网络模型例如 RNN(循环神经网络)在实际训练过程中由于输入 向量大小不一、且向量间存在相互影响关系导致模型训练结果效果较差。Transformer 模 型有三大技术突破解决了这个问题。 首先 Transformer 模型的 Self-Attention(自注意力)机制使人工智能算法注意到输 入向量中不同部分之间的相关性,从而大大提升了精准性。其次该模型采用属于无监督 学习的自监督学习,无需标注数据,模型直接从无标签数据中自行学习一个特征提取器, 大大提高了效率。最后,在做具体任务时,微调旨在利用其标注样本对预训练网络的参 数进行调整。也可以针对具体任务设计一个新网络,把预训练的结果作为其输入,大大 增加了其通用泛化能力。 Transformer 模型的这些优点快速替代了传统的神经网络。 图表 28 Transformer 模型自监督层结构 图表 29 Transformer 模型架构 资料来源: 《Transformer 模型详解》CSDN,华安证券研究所 资料来源: 《Transformer 模型详解》CSDN,华安证券研究所 4.3 GPT 快速迭代,从 GPT1.0 迅速步入 3.5 时代 GPT:大型无监督语言模型,能够生产连贯的文本段落。GPT-1 采用无监督预训练 和有监督微调,证明了 transformer 对学习词向量的强大能力,在 GPT-1 得到的词向量 基础上进行下游任务的学习,能够让下游任务取得更好的泛化能力。与此同时,不足也 较为明显,该模型在未经微调的任务上虽然有一定效果,但是其泛化能力远远低于经过 微调的有监督任务,说明了 GPT-1 只是一个简单的领域专家,而非通用的语言学家。 图表 30 OpenAI GPT 发展历程 模型 推出时间 参数量 语料库 GPT-1 2018 年 6 月 1.17 亿 5GB GPT-2 2019 年 2 月 15 亿 40G GPT-3 2020 年 5 月 1750 亿 45TB ChatGPT 2022 年 11 月 - - 资料来源:OpenAI,华安证券研究所 敬请参阅末页重要声明及评级说明 24 / 80 证券研究报 告
25 . [Table_CompanyRptType] 行业研究 GPT-2 为了解决这一问题采用了多任务模式,其目标旨在训练一个泛化能力更强的 词向量模型,它并没有对 GPT-1 的网络进行过多的结构的创新与设计,只是使用了更多 的网络参数和更大的数据集,GPT-2 的核心思想是当模型的容量非常大且数据量足够丰 富时,仅仅靠训练语言模型的学习便可以完成其他有监督学习的任务。所以虽然它验证 了通过海量数据和大量参数训练出来的词向量模型能够迁移到其它类别任务中而不需要 额外的训练,但其任务表现并不好,还有大很提升空间。不过其表明了模型容量和数据 量越大,其潜能越大。 于是 GPT-3 纳入了海量参数:1750 亿参数量还有超大的 45TB 的训练数据。在大 量的语言模型数据集中,GPT-3 超过了绝大多数方法。另外 GPT-3 在很多复杂的 NLP 任务中例如闭卷问答,模式解析,机器翻译等也很准确。除了这些传统的 NLP 任务, GPT-3 在一些其他的领域也取得了非常好的效果,例如进行数学加法,文章生成,编写 代码等。 图表 31 不同模型参数量与模型精度的关系 《Language Models are Few-Shot Learners》 资料来源: ,华安证券研究所 加入人类反馈强化学习,GPT3.5 获得对话能力。GPT3.5 建立在 3.0 的微调之上, 并加入了更加完整的人类反馈强化学习 RLHF 进行训练。2022 年 4 月至 7 月,OpenAI 开始对 code-davinci-002 模型进行 Beta 测试, 其可能是最强大的针对自然语言的 GPT- 3.5 变体,ChatGPT 就是从 code-davinci-002 进行指令微调得到的。此后 ChatGPT 在 2022 年 11 月发布,使用的基于人类反馈的强化学习的版本指令微调模型。 敬请参阅末页重要声明及评级说明 25 / 80 证券研究报 告
26 . [Table_CompanyRptType] 行业研究 图表 32 GPT-3 到 GPT-3.5 的演进过程 《拆解追溯 GPT-3.5 各项能力的起源》 资料来源: ,华安证券研究所 4.4 国内外 AI 大模型项目百舸争流 除了 GPT-3 模型外,各大公司正在孵化的大模型项目数量也相当可观。 MT-NLG:微软英伟达强强联手,软硬结合引领行业新景。2021 年 10 月 11 日,微 软和英伟达推出由 DeepSpeed 和 Megatron 驱动的 Megatron-Turing 自然语言生成 模型(MT-NLG), 具有 5300 亿个参数。MT-NLG 的参数数量是当时该类型最大模型 的 3 倍,并且在广泛的自然语言任务中如阅读理解、常识推理、自然语言推理、词义消 歧等方面表现出较强的准确性。基于 105 层 transformer 的 MT-NLG 在多个方面方面 改进了当时最先进模型,并为大规模语言模型在模型规模和质量方面设置了新标准。 硬件方面,模型训练是在基于 NVIDIA DGX SuperPOD 的 Selene 超级计算机上进 行的,实现的系统吞吐量为:420 台 DGX A100 服务器上考虑了 5300 亿参数模型(批 量大小为 1920 )的系统端到端吞吐量,迭代时间为 44 . 4 秒、GPU 113 万亿次/秒。 Switch Transformers:Google 推出的首个万亿级语言模型。相比 1750 亿参数的 GPT-3,谷歌 Switch Transformers 则直接将该数值拉升至 1.6 万亿,且相比于 OpenAI 在 GPT-3 里所使用的 Sparse Attention,需要用到稀疏算子而很难发挥 GPU、TPU 硬 件性能的问题。Switch Transformer 不需要稀疏算子,可以更好的适应 GPU、TPU 等硬 件。 敬请参阅末页重要声明及评级说明 26 / 80 证券研究报 告
27 . [Table_CompanyRptType] 行业研究 图表 33 大模型发展迭代图 资料来源:英伟达开发者网,华安证券研究所 文心一言:百度集成 NLP 和 CV,多级体系覆盖诸多领域。2022 年 11 月 30 日, 百度集团在 WAVE SUMMIT+2022 深度学习开发者峰会带来了文心大模型的最新升级, 包括新增 11 个大模型,大模型总量增至 36 个,构建起国内业界规模最大的产业大模型 体系。在模型层,文心大模型涵盖基础大模型、任务大模型、行业大模型的三级体系; 在工具与平台层升级了大模型开发套件、文心 API 和提供全流程开箱即用大模型能力的 EasyDL 和 BML 开发平台,有效降低应用门槛;新增产品与社区层,包括 AI 创作平台 “文心一格”、搜索系统“文心百中”和样谷社区,让更多人感受到 AI 大模型技术带来的新 体验。截至目前,文心已累计发布 11 个行业大模型,涵盖电力、燃气、金融、航天、传 媒、城市、影视、制造、社科等领域,加速推动行业的智能化转型升级。 敬请参阅末页重要声明及评级说明 27 / 80 证券研究报 告
28 . [Table_CompanyRptType] 行业研究 图表 34 百度文心生态图 资料来源:百度文心官网,华安证券研究所 除行业大模型外,百度目前新增了 5 个基础大模型和 1 个任务大模型,包括:知识 增强轻量级大模型、跨模态理解大模型、跨模态生成大模型、文档智能大模型、单序列 蛋白质结构预测大模型和代码大模型。其中,知识增强轻量级大模型 ERNIE 3.0 Tiny 具 备优秀的泛化能力,同时相对于超大参数模型,推理速度提升数十倍到百倍,能够显著 降低超大参数模型落地的成本。百度计划在 3 月完成文心一言的内部测试,然后向公众 正式开放使用。 图表 35 ERNIE3.0 模型架构 《ERNIE 3.0 Titan: Exploring Larger-scale Knowledge Enhanced Pre-training for 资料来源: Language Understanding and Generation》 ,华安证券研究所 敬请参阅末页重要声明及评级说明 28 / 80 证券研究报 告
29 . [Table_CompanyRptType] 行业研究 华为盘古云布局已久,云脑支持场景广阔。华为自 2020 年开始在大模型开始有布 局,2021 年发布了鹏城盘古大模型。鹏城盘古基于“鹏城云脑Ⅱ”和国产 MindSpore 框架 的自动混合并行模式实现在 2048 卡算力集群上的大规模分布式训练,训练出业界首个 2000 亿参数以中文为核心的预训练生成语言模型。鹏程·盘古 α 预训练模型支持丰富的 场景应用,在知识问答、知识检索、知识推理、阅读理解等文本生成领域表现突出,具 备很强的小样本学习能力。 图表 36 MindSpore 自动并行框架 资料来源:华为昇腾社区,华安证券研究所 阿里 M6:出色的低碳低能耗属性。阿里巴巴达摩院在 2021 年开发出了超大规模中 文多模态预训练模型 M6。目前,其参数已从万亿跃迁至 10 万亿,规模远超谷歌、微软 此前发布的万亿级模型,成为全球最大的 AI 预训练模型。同时,M6 做到了业内极致的 低碳高效,使用 512 块 GPU 在 10 天内即训练出具有可用水平的 10 万亿模型。相比去 年发布的大模型 GPT-3,M6 实现同等参数规模,能耗为其 1%。M6 的优势在于将大模 型所需算力压缩到极致,通过一系列技术突破,达摩院和阿里云只用了 480 块 GPU 就 训练出了 M6,相比英伟达用 3072 块 GPU 训练万亿模型、谷歌用 2048 块 TPU 训练 1.6 万亿模型(1 TPU 约等于 2~3GPU) ,M6 省了超过八成算力,还将效率提升了近 11 倍。 敬请参阅末页重要声明及评级说明 29 / 80 证券研究报 告