- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
AIGC:内容生产力的革命
展开查看详情
1 .证券研究报告 产业研究 2022年12月22日 AIGC:内容生产力的革命 —Web3.0系列专题研究之一 国海证券研究所 杨仁文(证券分析师) 马川琪(联系人) S0350521120001 S0350121090021 yangrw@ghzq.com.cn macq@ghzq.com.cn 1
2 .目录 一. 人工智能生成内容:技术进步+海量需求,驱动AIGC快速发展 1.1.1 AI规模:研发+数据+人力成本驱动中国AI市场高速发展 1.1.2 AI技术:细分赛道持续创新+变革在即,本报告重点关注AIGC领域 1.2.1 AIGC发展:需求+技术迭代促发展,从降本增效走向额外价值转移 1.2.2 AIGC技术:数据+算法+算力为核,NLP技术突破推动商业落地进程 1.2.3 AIGC算法:深度学习模型+开源模式为普及加速器,大模型为核心趋势 1.2.4 AIGC技术场景:个性&自动化为核心壁垒,关注渠道把控及商业路径 1.2.5 AIGC应用场景:集中在数字化程度高+内容需求丰富的行业 二. 人工智能文本生成:大数据+大算法+大算力,交互&个性化生成技术前景广阔 2.1.1 AI文本生成:底层架构不断精进,交互+个性化生成技术前景广阔 2.2.1 对话式AI发展:技术突破催化产品落地,从规则匹配走向深度学习 2.2.2 对话式AI技术:智能语音+NLP+知识工程底层技术变革下的新机遇 2.3.1 Chatbot全球视角:技术驱动增长,亚太地区或成最大市场 2.3.2 Chatbot中国视角:百舸争流,软件产品收费为主,细分赛道需求向好 2.4.1 ChatGPT:大数据+RLHF技术路径下的“类人交流”模型 2.4.2 ChatGPT:实验证明InstructGPT优于GPT-3模型,但仍有改进空间(1/2) 2.4.3 ChatGPT:实验证明InstructGPT优于GPT-3模型,但仍有改进空间(2/2) 2.4.4 ChatGPT: AIGC发展里程碑,超级基础设施下的大模型+大算力 2.4.5 ChatGPT:仍需调优及训练,进而实现商业化落地 请务必阅读报告附注中的风险提示和免责声明 2
3 .目录 三. 人工智能生成内容市场机会:中国AIGC如日方升,建议关注垂直赛道初创公司及下游AI应用场景 3.1.1 产业链:关注垂直赛道初创公司及下游AI应用场景 3.2.1 商业路径:中国企业底层技术发展不足,变现聚焦产出内容及软件服务 3.3.1 海外公司:2020年开始涌现出一批代表企业,集中文字/图像/音频领域 3.3.2 国内公司:建议关注垂直赛道初创企业 3.4.1 行业展望:关注技术/产品的迭代、核心场景的确定及产业接纳的态度 四. 附录 - ChatGPT试用:回答基础问题逻辑尚可,暂时难以摆脱知识整合和逻辑推理困境 4.1.1 测评背景及范围:聚焦功能验证、性能测试及用户体验 4.1.2 测评结论:语义理解较准,暂时难以摆脱知识整合和逻辑推理困境 4.2.1 用ChatGPT写篇AIGC报告(1/6) 4.2.2 用ChatGPT写篇AIGC报告(2/6) 4.2.3 用ChatGPT写篇AIGC报告(3/6) 4.2.4 用ChatGPT写篇AIGC报告(4/6) 4.2.5 用ChatGPT写篇AIGC报告(5/6) 4.2.6 用ChatGPT写篇AIGC报告(6/6) 请务必阅读报告附注中的风险提示和免责声明 3 eYjVjXOAaVcWoOqM9PcMaQsQmMsQoMlOrQpNjMnPsQ8OoPsNwMpPuNwMmOnQ
4 . 核心图谱 AI:细分赛道持续创新,变革在即 AIGC:从降本增效,到价值创造 Chatbot:技术变革下的细分赛道新机遇 通用 自动 图像 音频 文本 Chat 人工 AIGC 驾驶 生成 生成 生成 GPT 智能 … … … • AI核心技术包括集成AI、通用人工智能、知识图谱、合成数据、自动驾驶及AIGC等;其中,AIGC技术场景包括文本生成、音频生成、图像生 成、视频生成等;Chatbot为AI文字生成中应用较为广泛的领域。 • 2022年11月底,OpenAI上线智能对话系统ChatGPT,引爆全球。ChatGPT作为高效的AIGC文字内容生产工具,被认为将在智能客服、虚拟 人、游戏等领域得到更大落地应用,也对很多算力、数据标注、自然语言处理等底层技术公司利好。正如OpenAI的CEO Sam Altman在推特 上写道: “Trust the exponential. Flat looking backwards, vertical looking forwards.” ChatGPT或许正让我们处在某个起飞的点上。 资料来源: 数字时氪公众号,国海证券研究所 请务必阅读报告附注中的风险提示和免责声明 4
5 . 核心提要 如同蒸汽时代的蒸汽机、电气时代的发电机、信息时代的计算机和互联网,人工智能正成为推动人类进入智能时代的决定性力量。全球产业界充分认识到人工智能技术引领新 一轮产业变革的重大意义,纷纷转型发展,抢滩布局人工智能创新生态。人工智能细分赛道持续创新下变革在即,本报告重点关注AIGC领域。 • AIGC颠覆传统内容产出模式,或为web3.0内容创造新引擎。AIGC本质上是一种AI赋能技术,能够通过其高通量、低门槛、高自由度的生成能力广泛服务于各类内容的相 关场景及生产者。随着人工智能生成能力的突破进展,内容生产已经从专业生成内容(PGC)、用户生成内容(UGC),进入到人工智能生成内容(AIGC,AI generated content)时代, AIGC被认为是web3.0的重要基础设施。AIGC的快速兴起源于深度学习技术的快速突破和日益增长的数字内容供给需求;应用价值层面,AIGC有望成为 数字内容创新发展新引擎,为数字经济发展注入新能量。数据+算法+算力三大核心要素,决定AIGC产出质量。①数据,海量优质的应用场景数据是训练算法精确性关键 基础。②算法,神经网络、深度学习等算法是挖掘数据智能的有效方法。与传统机器深度机器学习算法不同,神经网络在学习范式+网络结构上的迭代提升了AI算法的学习 能力,未来多模态大模型或为核心趋势,赋能产业空间及实践潜力。③算力,计算机、芯片等载体为AIGC提供基本的计算能力。 • AIGC技术场景中,个性化及自动化内容产出为核心价值。①技术成熟度较高结构化领域大部分是在和人力生成内容进行竞争。其中的存量价值来源于同类内容的降本增效, 而增量价值则来源于跨模态的内容生成以及AI本身带来的科技感。对内容渠道的把控将成为核心竞争力。发行商、内容最终消费渠道具有强的产业链话语权。②底层技术 基本明确/仍待完善的原创性创作领域,本质为AI下的个性化数字内容的自动化构建。该领域重点关注和其配套数据或底层原理是否清晰、商业化路径。目前AIGC整体影 响仍十分有限,主要是中国市场供给端仍处于起步阶段。 • AIGC应用场景中,数字化程度高及内容需求丰富的领域有广阔应用空间。随着AIGC技术快速迭代,其可高效生成不同模态的信息产出(包括文字、音频、视频及跨模 态),以真实性、多样性、可控性及综合性等特征,有望帮助企业提高内容生产的效率,以及为其提供更加丰富多元、动态且可交互的内容,或将率先在传媒、电商、影 视、娱乐等数字化程度高、内容需求丰富的行业取得重大创新发展。 • 深度学习模型+开源模式加速AIGC普及,海外AIGC已到了“快速发展阶段”。①随着深度学习模型不断迭代,人工智能生成内容百花齐放,产出效果逐渐逼真直至人类 难以分辨。2018年,人工智能生成的画作在佳士得拍卖行以43.25万美元成交,成为首个出售的人工智能艺术品;2019年,DeepMind发布DVD-GAN模型用以生成连续视 频;2022年11月,OpenAI上线了智能对话系统(聊天机器人)ChatGPT,引发全球热潮。ChatGPT的成功离不开参数竞赛时代下的“大模型”,显卡等硬件优化带来的 “大算力基础”与基于“大数据”的RLHF训练模式。但由于训练数据的缺乏及训练数据的偏差,ChatGPT仍需要高成本的调优及持续训练,进而实现商业化落地。② “开源模式”加速AIGC产业发展。以深度学习模型CLIP为例,开源模式加速CLIP模型的广泛应用,使之成为当前最为先进的图像分类人工智能,并让更多机器学习从业 人员将CLIP模型嫁接到其他AI应用。 • 中国AIGC仍处“萌芽期”,技术能力与产品形态的成熟、核心场景的确定及产业的接纳态度为行业关键发展节点。据量子位预测,AIGC在中国发展可分为三个阶段:助 手阶段(摸索磨合期,2021年~2026年):AIGC辅助人类进行生产,优先变现的关键在于编辑优化功能,行业创新关键能力为素材模块分拆+个性化推荐;协作阶段(推 广应用期,2026年~2028年):人机共创,主要价值为降本增效及提供创意,预计互联网大厂将普遍布局,竞争热度提升;原创阶段(价值增长期,2028年之后): AIGC将独立完成内容创作,产生附加价值。中国AIGC企业均在初创阶段,机会也许藏在垂直应用领域中,对赛道的选择十分关键。 • 风险提示:政策监管风险;行业市场增长的不确定性;竞争环境不确定性;ChatGPT生成报告信息不准确性;AIGC企业商业化路径不确定性;技术创新不及预期。 资料来源:中国科学院,影谱科技公众号,国海证券研究所 请务必阅读报告附注中的风险提示和免责声明 5
6 .1. 人工智能生成内容 技术进步+海量需求,驱动AIGC快速发展 请务必阅读报告附注中的风险提示和免责声明 6
7 . 1.1.1 AI规模:研发+数据+人力成本驱动中国AI市场高速发展 人工智能(AI)全球&中国市场规模及增速:研发实力+海量数据+相对较低的人员成本将共同推动中国AI市场发展 78% 中国YOY(%) 58% 59% 40% 42% 43% 41% 40% 全球YOY(%) 65% 35% 中国市场规模(十亿元) 37% 30% 25% 5,003 33% 29% 22% 24% 27% 全球市场的规模(十亿元) 3,995 3,080 2,390 1,886 1,247 1,523 936 747 1,046 384 681 371 530 33 55 86 137 186 260 2016 2017 2018 2019 2020 2021E 2022E 2023E 2024E 2025E 中国AI核心产业及带动产业规模及增长:AI赋能特性,带动相关产业发展,回馈社会经济 1,665 核心产业规模(十亿元) 1,394 带动产业规模(十亿元) 1,138 920 744 573 382 372 453 234 297 109 151 190 2019 2020 2021E 2022E 2023E 2024E 2025E 注:核心产业规模包括计算机视觉、智能语音、人机交互、机器学习、知识图谱与NLP、AI芯片等;带动产业规模包括AI核心产品所带动的工程服务、大数据平台与应用建设、计算机通信产品整机销 售收入、甲方企业产值与效益提升的规模总和。 资料来源:创新奇智招股书,弗若斯特沙利文,艾瑞咨询,国海证券研究所 请务必阅读报告附注中的风险提示和免责声明 7
8 . 1.1.2 AI技术:细分赛道持续创新+变革在即,本报告重点关注AIGC领域 2021-人工智能(AI)技术成熟曲线:超过一半细分AI技术将为5年内成为主流技术 AI Maker and Teaching Kits AI制造商和教学工具包 Edge AI边缘人工智能 广义层面 Knowledge Graphs-知识图谱 Deep Neural Network ASICs 深度神经网络专用集成电路 Smart Robots-智能机器人 Digital Ethics-数字伦理 AIGC Transformers模型 Synthetic Data-合成数据 AI Cloud Services-AI云服务 Decision Intelligence-决策智能 Deep Learning-深度学习 Generative AI-生成式人工智能 Neuromorphic Hardware-神经形态硬件 Multiexperience-多样化用户体验 Human-Centered AI-人本人工智能 Data Labeling and Annotation Services数据标记和注释服务 ModelOps- 模型运维 AI Governance-人工智能治理 Natural Language Processing-自然语言处理 Responsible AI-负责任的人工智能 预 Machine Customers – 机器人客户 AI Orchestration and Automation Platform - AI编排 Machine Learning-机器学习 Intelligent Applications-智能应用 期 Model Compression - 模型压缩 和自动化平台 Small and Wide Data - 小而宽数据 Composite AI - 集成AI AI TRiSM - 人工智能的信任、风险和安全管理 Autonomous Vehicles Physics-Informed AI - 物理AI 自动驾驶汽车 Semantic Search-语音搜索 Artificial General Intelligence - 通用人工智能 Computer Vision-计算机视觉 Chatbots-聊天机器人 时间 技术萌芽期 预期膨胀期 低谷期 复苏期 生产成熟期 距稳定阶段需要: 少于2年 2~5年 5~10年 超过10年 注:AI为artificial intelligence缩写,即人工智能;AIGC全称为AI-Generated Content(人工智能生成内容)。 资料来源:Gartner,国海证券研究所 请务必阅读报告附注中的风险提示和免责声明 8
9 . 1.2.1 AIGC发展:需求+技术迭代促发展,从降本增效走向额外价值转移 定 • AIGC全称为AI-Generated Content(人工智能生成内容),指基于生成对抗网络GAN、大型预训练模型等人工智能技术,通过 ①驱动因素:AIGC的兴起 已有数据寻找规律,并通过适当的泛化能力生成相关内容的技术1 。AIGC既是从内容生产者视角进行分类的一类内容,又是一 源自深度学习技术的快速突 义 种内容生产方式,还是用于内容自动化生成的一类技术集合 破和日益增长的数字内容供 AIGC发展复盘 给需求,市场潜力逐渐显现 • 一方面,技术进步驱动 1950年,艾伦图灵提出 2007年,世界第 2014年,lan J. 2018年,人工智能生 著名的“图灵测试”给 一部完全由人工 Goodfellow提出 成的画作在佳士得拍 AIGC可用性不断增强; 出判定机器是否具有 智能创作的小说 生成式对抗网络 卖行以43.25万美元成 • 另一方面,大量需求牵引 “智能” 的试验方法 《1 The Road》 GAN 交,成为首个出售的 AIGC应用落地。 问世 人工智能艺术品 ②发展预判:AIGC在中国 典型 1957年,第一支由 计算机创作的弦乐 2017年,微软“小 发展可分为三个阶段 事件 四重奏《依利亚克 冰”推出世界首部 2019年, • 助手阶段(摸索磨合期, 100%由人工智能 DeepMind发布 组曲》完成 2021年~2026年): 2012年,微软展示 创作的诗集《阳光 DVD-GAN模型 全自动同声传译系 用以生成连续 AIGC辅助人类进行生产, 1966年,世界第一 失了玻璃窗》 优先变现的关键在于编辑 款可人机对话的机 统,可将英文演讲 视频 者的内容自动翻译 2021年, 优化功能,行业创新关键 器人“Eliza”问世 2018年,英伟达发布 OpenAI推出了 成中文语音 StyleGAN模型可以自动生 能力为模块分拆+个性化 DALL-E,主要应 推荐; 80年代中期,IBM创造语 成高质量图片 用于文本与图像 • 协作阶段(推广应用期, 音控制打字机Tangora 交互生成内容 2026年~2028年):人机 共创,主要价值为降本增 发展 受限于科技水平,AIGC 实验性向实用性转变, 深度学习算法不断迭代,人工智能生成内容百花齐放,效果 效及提供创意,预计互联 受限于算法瓶颈无法 网大厂将普遍布局,竞争 特点 仅限于小范围实验 直接进行内容生成 逐渐逼真直至人类难以分辨 热度提升; • 原创阶段(价值增长期, AI 早期萌芽阶段 沉淀积累阶段 快速发展阶段 2028年之后):AIGC将 发展 (20世纪50年代至90年代中期) (20世纪90年代中期至21 (21世纪10年代中期至今) 独立完成内容创作,产生 阶段 世纪10年代中期) 附加价值。 注:1. Gartner提出了相似概念Generative AI,也即生成式AI。生成式AI是指该技术从现有数据中生成相似的原始数据。相较于量子位智库认为的AIGC,这一概念的范围较狭窄。据 Harvard Business Review,生成AI能够生成文本和图像,涵盖博客文章、程序代码、诗歌和艺术作品,2017年谷歌Brain提出LLMs(large language model) ,此后领先的科技公司对于 大型语言和文本-图像模型的应用激增 资料来源:量子位智库,中国信息通信研究院,京东探索研究院, Harvard Business Review,甲子光年公众号,国海证券研究所 请务必阅读报告附注中的风险提示和免责声明 9
10 . 1.2.2 AIGC技术:数据+算法+算力为核,NLP技术突破推动商业落地进程 AIGC核心要素 自然语言处理(NLP)是研究人与计算机交互中的语义理解问题的技术,解决的是人机交互中“听得懂”的问题。是在机器语言和人类语言之间沟 通的桥梁,以实现人机交流的目的。以下为NLP应用流程: 数据 – “饲料” 语言获取及预处理 特征提取/设计模型 选择分类器/模型训练 模型评估与应用 • 数据是AI算法的“饲料”, 抓 已有语料 下载语料 特征工程(机器)、特征选 机器学习/深度学习 离线应用、在线应用 数据包括语音、文本、影 取 抓取语料 择、模型设计(深度) AI训练成本下降:2017年, 像等 在公共云上训练像 ResNet- • 海量优质的应用场景数据 预 语料清洗 词性标注 50这样的图像分类器的成本 是训练算法精确性关键基 处 约为1000美元,到了2019年 础 理 分词 去停用词 只需大约10美元。 算法 – “推手” NLG的6个步骤 • 算法是AI的背后“推手” • 神经网络、深度学习等算 NLP – 自然语言处理 • NLG系统需要决定哪些信息应该包含在正在构建的文本中,哪些 法是挖掘数据智能的有效 内容确定 不应该包含。通常数据中包含的信息比最终传达的信息要多。 方法 1 文本结构 • 确定需要传达哪些信息后,NLG系统需要合理的组织文本的顺序。 算力 – “基础” NLU – 自然语言理解 句子聚合 • 将多个信息合并到一个句子里表达可能会更加流畅,也更易于阅 • 算力是基础设施,AI算法 读。 模型对于算力的巨大需求, 推动了今天芯片业的发展 语法化 • 确定每句内容后,将这些信息组织成自然语言。 NLP核心任务 • 计算机、芯片等载体为人 工智能提供基本的计算能 • 跟语法化很相似,不过与语法化的本质区别在于参考表达式生成 参考表达式生成 需要识别出内容的领域,然后使用该领域(而不是其他领域)的 力 2 词汇。 • AI芯片包括通用/半定制 化/定制化芯片 NLG – 自然语言生成 语言实现 • 当所有相关的单词和短语都已经确定时,需要将它们组合起来形 成一个结构良好的完整句子。 资料来源:艾媒咨询,中国科普网,科普时报,easyai,新智元,ARK Invest,国海证券研究所 请务必阅读报告附注中的风险提示和免责声明 10
11 . 1.2.3 AIGC算法:深度学习模型+开源模式为普及加速器,大模型为核心趋势 AIGC技术升级步入深化阶段 AIGC大模型架构潜力凸显 AIGC技术三大前沿能力 统计模型+规则设计 深度学习 智能增强技术 传统机器学习算法 深度神经网络 多模态+大模型 智能数字内容孪生能力 算法迭代 智能转译技术 孪生应用:语音信号的字幕合 • 不同于传统算法,深度学 成,依据文字进行语音生成等; 回归算法:线性、回归树等 习中的损失函数和梯度下 卷积神经网络 CNN 视觉大模型ViT 近年间,数字孪生中智能增强 降算法可快速地调整深度 技术在三维视觉领域也取得快 神经网络中的参数,从而 速发展 实现数据学习的功能 分类算法:逻辑回归等 递归神经网络 RNN 语言大模型:GPT 语义理解技术 • 深度神经网络在学习范式 智能数字内容编辑能力 1+网络结构上的迭代提升 属性控制技术 聚类算法:仿射传播等 了AI算法的学习能力,推 生成对抗网络 GAN 多模态大模型:DALL-2 编辑应用:在自动驾驶仿真场 动了AIGC发展 景中,通过智能编辑可实现通 技术突破 道路上不同车况/天气状况的控 • 算法特点:不具备学习能力, 制 深度强化学习 • 超级深度学习近年来的快速发 依赖于预先定义的统计模型 展带来了深度神经网络技术在 或专家系统执行特定的任务, 大模型和多模型两个方向上的 基于模仿创作 可以完成简单的线条、文本 深度变分自编码器 不断突破,并为AIGC技术能 智能数字内容创作能力 基于概念创作 和旋律的生成 力的提升提供了强力的支撑和 学习范式进展 全新的可能性 • 算法缺点:①算力挑战。传 + 流模型 统机器学习方法的维度诅咒 • “开源模式”成为AIGC发展催化剂。以深 结构升级 GPT-1 等导致算力挑战;②缺乏认 度学习模型CLIP为例,开源模式加速CLIP 知。缺乏对客观世界的深入 扩散模型 模型的广泛应用,使之成为当前最为先进的 感知和对人类语言文字等知 图像分类人工智能,并让更多机器学习从业 GPT-2 识的认知能力,生成内容空 人员将CLIP模型嫁接到其他AI应用。 洞、刻板、文不对题 深度残差网络 • 未来,随着模型稳定,开源将成为AIGC成 熟的催化剂,源模式有望让相关模型成为海 GPT-3 量应用、网络和服务的基础,应用层面的创 造力有望迎来拐点。 Transformer大模型 GPT-3.5: ChatGPT 注:以上模型非穷尽列举 人工智能的学习范式为人工智能模型从数据中进行学习的方法,除上述大模型外,还包括百度的 PLATO 、还有聆心智能与清华团队共同发布的 OPD—— Open-Domain Pre-trained Dialogue Model。 资料来源:中国信息通信研究院,京东探索研究院, 头豹研究院公众号,《人工智能算法梳理及解析》王蕴韬,CNKI,360DigiTMG,OpenAI官网,聆听智能 请务必阅读报告附注中的风险提示和免责声明 11
12 . 1.2.4 AIGC技术场景:个性&自动化为核心壁垒,关注渠道把控及商业路径 AIGC 技术成熟度较高 底层技术原理基本明确 底层技术原理仍待完善 2030年,AIGC市场规模将超过万亿人民币 技术场景 (气泡大小代表市场规模) • 结构化写作:新闻播报等,有 • 非结构化写作:剧情续写等, 现有需求成熟度 较强规律 需要一定创意及个性化 合成数据 文本 • 辅助性写作:推荐相关内容, 生成 生成 不属于严格AIGC 交互性文本生成 • 闲聊机器人:虚拟男/女友等 • 文本交互游戏:AI dungeon 超个性化 2C内容 2B内容 生产工具 内容生成 生产工具 • 语音克隆 实时互动 • 文本生成特定语音:生成虚拟 内容 音频 人歌声/播报等 直接生 生成 • 乐曲/歌曲生成:包含作曲及编 产内容 内容领域细分场景 基于生 服务特 曲,在实际应用中常包含自动 成内容 定场景 延展领域细分场景 作词 图像自主生成 进一步 变现 现有技术成熟度 • 创意图像生成:随机或按照特 • 内容领域:是目前已经能够、但并未有效实现商业化的领 定属性生成画作等 域,其中的存量价值来源于同类内容的降本增效,而增量 图像 • 图像编辑工具:去除水印、提 • 功能性图像生成:根据指定要 生成 高分辨率、特定滤镜等等 求生成营销类海报、模特图、 价值则来源于跨模态的内容生成以及AI本身带来的科技感。 logo等 对内容渠道的把控将成为核心竞争力,发行商、内容最终 消费渠道具有强的产业链话语权。另AIGC变革对内容行 业原有人才结构影响较大: 视频 • 视频属性编辑:删除特定主体、 • 视频自动剪辑:对特定片段进 • 2B,在PGC领域实现内容创作工业化,加快专业内容的 • 视频部分编辑:视频换脸等 生成 生成特效、跟踪剪辑等 行检测及合成 生产效率,提高PGC内容生产的活跃度 • 2C,在UGC领域中实现低门槛灵感转化,扩大UGC可 • 文字生成图像:根据文字 • 文字生成创意视频:完全从头 覆盖的领域和潜在人群 跨模态 prompt生成创意图像 生成特定主题视频 • 延展领域:由于对AI生成的自由度和稳定性有更高的技术 生成 • 文字生成演示视频:拼接图片 • 图像/视频到文本:视觉问答系 素材生成视频 统、自动配字幕/标题等 要求,本质为依托人工智能,个性化数字内容的自动化构 建。重点关注其配套数据、底层原理及商业原理是否清晰, 以下四类场景有明显增长潜力:个性化内容营销、合成数 其他 • AI Bot、NPC逻辑及剧情生成 • 数字资产生成 据生成、虚拟陪伴及交互性内容(适用于游戏等实时变化 较大、要求内容多样性的领域) 资料来源:量子位智库,国海证券研究所 请务必阅读报告附注中的风险提示和免责声明 12
13 . 1.2.5 AIGC应用场景:集中在数字化程度高+内容需求丰富的行业 AIGC应用场景:集中在数字化程度高+内容需求丰富的行业 1 AIGC+传媒:人机协同生产,推动媒体融合 • 在采编环节,①实现采访录音语音转写,提升传媒工作者的工作 娱乐领域 传媒领域 影视领域 电商领域 其他 体验;②实现智能新闻写作,提升新闻资讯的时效;③实现智能 视频剪辑,提升视频内容的价值 • 在传播环节,AIGC 应用主要集中于以 AI 合成主播为核心的新闻 全民娱乐 采集 前期创作 商品展示 教育 播报等领域 • 人脸美妆/融合 • 采访助手 • 剧本生产 • 智能商详 • 合成历史人物 • 黑白图像上色 • 商品3D模型生成 • 视频虚拟教师 2 AIGC+电商:推进虚实交融,营造沉浸体验 • 图像风格转换 • 线上课堂音视频处 • 人像属性变换 理 • 生成商品3D模型用于商品展示和虚拟试用,提升线上购物体验 • 打造虚拟主播,赋能直播带货 • 赋能线上商城和线下秀场加速演变,为消费者提供全新的购物场 社交互动 编辑 中期拍摄 主播打造 工业 景 • 虚拟歌姬 • 写稿机器人 • 数字复活已故演员 • 品牌虚拟主播 • 辅助工程设计 3 AIGC+影视:拓展创作空间,提升作品质量 • 虚拟网红 • 智能视频拆条视频 • 高难度动作合成 • 加速数字挛生系统 • 为剧本创作提供新思路 锦集 • 演员角色年龄的跨 构建 • 视频字幕生成 越 • 扩展角色和场景创作空间 • 虚拟物理场景合成 • 赋能影视剪辑,升级后期制作 偶像养成 播报 后期制作 交易场景 金融 4 AIGC+娱乐:扩展辐射边界,获得发展动能 • 用户数字化身 • AI主播 • 替换“劣迹艺人” • 虚拟商城构建 • 营销视频合成 • 实现趣味性图像或音视频生成,激发用户参与热情 • 智能播报 • 多语言译制片音画 • 智能金融客服 • 打造虚拟偶像,释放 IP 价值 同步 • VR金融场景构建 • 开发C端用户数字化身,布局消费元宇宙 • 影视作品修复影视 预告片生成 • 影视内容2D转3D AIGC+其他:推进数实融合,加快产业升级 医疗 5 • 教育领域,AIGC赋予教育材料新活力 • 医学图像处理 • 智能病历录入 • 金融领域,AIGC助力实现降本增效 • 合成肢体投影 • 医疗领域,AIGC赋能诊疗全过程 • 合成医护陪伴 • 工业领域,AIGC提升产业效率和价值 资料来源:中国信息通信研究院,京东探索研究院,国海证券研究所 请务必阅读报告附注中的风险提示和免责声明 13
14 . 2. 人工智能文本生成 大数据+大算法+大算力,交互&个性化生成技术前景广阔 请务必阅读报告附注中的风险提示和免责声明 14
15 . 2.1.1 AI文本生成:底层架构不断精进,交互+个性化生成技术前景广阔 • 以结构性新闻撰写、内容续写、诗词创作等细分功 AI文本生成细分技术场景/技术原理:关注个性化文本生成以及实时文字生成交互 AI 能为代表。 • 基于NLP技术的文本生成可以算作是AIGC中发展 • 本质是借助超大规模的训练参数猜测上下文的过程。通过随机Mask(即遮挡)数据库文本中 文本生成 内容 的词语或语段,让神经网络自主学习复原被遮挡部分,从而拥有“猜测”缺失内容的能力, 定义 最早的一部分技术,也已经在新闻报道、对话机器 续写 产出预训练模型。 人等应用场景中大范围商业落地。 • 再通过大规模预训练模型理解上文或给定条件,从概率层面推测最符合要求的输出结果。 摘要 • 通过词嵌入(Word Embedding)将字、词、句进行区分,然后基于特征评分、序列标注、分类 算法训练为关键技术节点 标题 模型等提取内容特征计算相关文本单元权重; • 其次选择相应的文本单元子集组成摘要候选集,完成内容选择;最后是针对字数要求等限定 生成 条件,对候选集的内容进行整理形成最终摘要,完成内容组织。 Transformer架构 算法 适用场景 文本 • 主流思路是分离文本属性及文本内容。隐式方法即使用某类无监督学习学习或强化学习模式 算 从左自右的自回归系列 • 生成性任务 将文本属性及内容自动分离,常见的有生成对抗方式,即通过GAN实现目标属性和文本属性 GPT-3 风格 法 完全由不同的编码控制的状态。显式方法首先寻找并删除代表文风的短语,其次检索与目标 迁移 文风最匹配的相似短语,最后生成目标语句并保证语句通顺、原意不变。 及 双向Transformer BERT • 自然语言理解 场 + Mask的自编码系列 • 对话式文本生成可分类为管道模式及端对端模式;文本生成普遍具有上下文间逻辑问题、关 景 整段 键信息位置混淆、内容无中生有等问题。结构性的文本生成首先通过注意力机制、多层感知 Encoder + Decoder架构 T5 • 条件文本生成 文本 器等系统进行语句内容预选,对数值、时间等类型数据进行推理,增强数据间的结构信息; 生成 其次通过Transformer等模式结合上下文进行推导,控制句法及文本连贯性,将语义与句法统 一分析,最后采用Seq2Seq等模式,以BiLSTM为基础构建文本生成器,生成最终文本。 底 以Transformer架构为重要代表,相关的底层架构仍在不 AI文本生成细分落地场景:当前应用广度方面,辅助>应用>创造 层 断精进,通过: 架 应用型文本生成 创作型文本生成 文本辅助生成 • 增加K-adapter 构 • 优化Transformer架构 典型 是基于结构化数据或规范格式, 主要适用于剧情续写、营销文 目前国内供给及落地最为广泛 • 在特定情景类型下的文本生成, 本等细分场景等,具有更高的 的场景。主要为基于素材爬取 不 合理引入知识图谱及知识库 应用 的协助作用,例如定向采集信 如体育新闻、金融新闻 文本开放度和自由度 断 • 增加特定任务对应Embedding等方式 息素材、文本素材预处理 精 增加文本对于上下文的理解与承接能力、对常识性知识的 Narrative Science、腾讯、 OpenAI、DeepMind、彩云 写作猫、Get写作、写作狐 进 嵌入能力、中长篇幅生成能力、生成内容的内在逻辑性等。 企业 百度 小梦 资料来源:量子位智库,国海证券研究所 请务必阅读报告附注中的风险提示和免责声明 15
16 . 2.2.1 对话式AI发展:技术突破催化产品落地,从规则匹配走向深度学习 对话式AI行业发展历程 1 技术初运用:传统呼叫中心 2 规则匹配时代:“呼叫中心+在线软件”多元化应用 3 个人助理+深度学习时代:全渠道+多场景 • Elizzs是人类建造的 • 对话机器人产品 • 多模态数 第一个对话机器人 • 微软推出 • Alice使用的人工智 • Watson由IBM开 化发展:用于客 字人:结 技 ,于1966年在麻省 能标记语言,允许 发基于Deep QA 微软小冰 服、外呼、营销 合语音技 • 1950年,图灵发表文 理工学院被创造。 ,此时对 术 章《机器能思考吗》 根据人工设计的脚 用户可以定制化聊 技术利用深度自 话机器人 等环节的对话机 术,5G和 天内容,对话机器 然语言处理技术 器人产品推出, 多模态模 发 ,开启人类对对话机 本与人类交流,没 人能按照预先设定 产生候选答案并 产品已可 国内多家AI技术 型的发展 器人的测试研究 有语义理解,而是 较为熟练 展 好的脚本来回答问 根据交叉验证评 相关客服公司成 ,多模态 通过模式匹配和智 使用深度 题 估 立或实现较大规 数字人逐 能短语搜索合适的 学习技术 模产品方案落地 渐落地 回复 1950s 1970s 2000s 2011 2014 2015-2016 2020-2021 • 银行业在70年代初 • 基于移动互联网、云服务等技术发展,可支持电话 • 随着互联网技术 应 • 泛美航空公司在1956 开始建设自己的呼 • 中国传统呼叫中心 、网站、微信、微博、APP、QQ等全渠道平台覆盖 的发展与普及, 年建成并投入使用世 叫中心;90年代初 兴起,为企业主要 • 结合AI技术,对话机器人可通过替代或辅助人工的 用 在呼叫中心基础 界上第一个具有一定 期开始呼叫中心真 服务形式,与客户 方式出达到客服、营销和泛交互多方场景 上延伸了在线软 场 规模的,可提供7*24 正进入规模性发展 沟通以电话为主, • 在新场景中有高质量对话能力,在多轮交互中拟人 件形态,多用作 服务的呼叫中心 ,800号码被广泛认 采用单一渠道接入 化,在开放场景交互中主动学习+持续学习,具有 在线客服回复 景 同和采用 多模态感知与表达能力 企业服务类应用 企服+消费类应用 注:Chatbot核心玩家包括IBM (US), Microsoft (US), Google (US), AWS (US), Nuance (US), Oracle (US), Creative Virtual (UK), Artificial Solutions (Spain), Kore.ai (US), Inbenta (US), CogniCor (US), Contus (India), KeyReplay (Singapore)等 资料来源:艾瑞咨询,MARKETSANDMARKETS,量子位公众号,中关村科金,国海证券研究所 请务必阅读报告附注中的风险提示和免责声明 16
17 . 2.2.2 对话式AI技术:智能语音+NLP+知识工程底层技术变革下的新机遇 对话式AI产品 – 对话机器人的工作流程示意图(以接入客户的工作流程为例) 机器对话:本质是人工智能程序和人机交互(HCI)模型 答案匹配(知识工程) 纯文本形式 核心支撑 智能语音 • 目前意图识别的应用效果良 FAQ知识库 好,人在知道是在与机器人 问答型/ 对话输入与 ASR NLU 闲聊型对 前端处理 语音识别 语言理解 交互时后,表达会相对标准 知识图谱 化,因此意图识别的实际效 话机器人 智能 对话 表格知识库 语音形式 NLP 管理 果会普遍优于预期 调度 • 而在情绪的判断与理解上, TTS NLG chatbot还有很长的路要走, 文档阅读理解 用户渠道: 对话机器人 对话输出 语音合成 语言生成 是未来可给行业带来技术突 微信、网页、小 与用户沟通 核心支撑 对接后,选 纯文本形式 破与产品颠覆的方向 程序、H5、 任务型对 择人工接入 智能工单 智能RAP APP…. 话机器人 人工对话 Query 基于机器学习和深度学习模型达 KG Based 知识库(知识图谱) 到应用中知识库的不断扩充完善 知识图谱:深化事务规则联系,建立结构化知识库 Return • 基于知识库内容间存在关联,或为上下位关系、约束关 业务文档资料 标 通用 系、递进关系等,由此在知识库的概念下引入知识图谱 准 本体对齐 知识图谱 结构化数据 数据整合 知 技术。 垂直行业 识 知识图谱 • 基于自然语言理解对文字内容在语义上进行初步认知和 实体对齐 知识库 质量评估 自动抓取,经由知识图谱对概念间的关系属性进行联结、 实体抽取 政务 半结构化数据 转换,进行知识融合与知识加工形成行业知识图谱。 关系抽取 数据 模型 金融 规范 修订 • 分类:①通用知识图谱注重横向广度,知识积累和问答 本体对齐 关 医疗 属性抽取 应用相对通识广泛;②垂直行业知识图谱注重纵向深度, 非结构化数据 系 本体构建 电商 模 考虑到不同的应用场景与业务背景,通常需要以大量一 事件抽取 型 ... 线行业数据去“喂养”对话机器人,实现基础词库储备, 数据源 知识抽取 知识融合 知识加工 知识图谱 并对垂直行业知识图谱进行持续深化。 注:ASR为Automatic Speech Recognition,即语音识别;TTS为Text-To-Speech语音合成;NLP为Natural Language Processing,即自然语言处理;NLG为Natural Language Processing,即自然语言生成;HCI 为Human–computer Interaction,即人机交互。 资料来源:艾瑞咨询,<Chatbots: History, technology, and applications> Eleni Adamopoulou Lefteris Moussiades, Science Direct,国海证券研究所 请务必阅读报告附注中的风险提示和免责声明 17
18 . 2.3.1 Chatbot全球视角:技术驱动增长,亚太地区或成最大市场 全球Chatbot市场规模 全球Chatbot市场应用领域分布 核心市场玩家 (单位:亿美元) (按营收拆分,2021年) 其他 +23.7% 旅游 电商 3 4 . 11 传媒 20% IBM - Watson Google - Assistant Microsoft - Cortana Amazon - Alexa 5.21 截止2022年8月,仅仅是Facebook Messenger上就已有超过300,000聊天机器人。除上述市场玩 健康 家外还有以下企业值得关注: BFSI1 Facebook, Inc., Pandorabots, Inc., ToyTalk (PullString Inc.), Yahoo Inc., Haptik, Inc., Helpshift, 2021 2030E 零售 Kasisto Inc., Slack Technologies, Inc., Astute Solutions, Kiwi, Inc., eGain Corporation, Nuance Communications, Inc., Creative Virtual, Avaamo Inc., DeepMind, OpenAI 全球Chatbot市场 – 地域增速(2022-2027E) 1966-2019年Scopus中聊天机器人相关论文数量及地区分布 美国 2015年~2016年,对 英国 预计亚太将成为 话机器人产品化发展, 最大的市场,这 用于客服、外呼、营 日本 销等环节的对话机器 种潜力来自该地 德国 人产品推出 区对信息密集型 2014年,lan J. 意大利 机器学习和人工 Goodfellow提出生成 智能的利用。 式对抗网络GAN 法国 新加坡及中国等 2000s,Alice使用的人工 印度 高 地区有大量创业 智能标记语言,允许用户 加拿大 中 公司探索聊天机 可以定制化聊天内容 低 器人领域。 中国 1,800 注:1. BFSI为banking, financial service and insurance,即银行,金融服务及保险行业 资料来源:Acumen Research and Consulting,Grandview Research,Mordor Intelligence,<Chatbots: History, technology, and applications> Eleni Adamopoulou 请务必阅读报告附注中的风险提示和免责声明 18 Lefteris Moussiades,Science Direct,Scopus Preview,Service Bell,各公司官网,艾瑞咨询,中国信息通信研究院,京东探索研究院,国海证券研究所
19 . 2.3.2 Chatbot中国视角:百舸争流,软件产品收费为主,细分赛道需求向好 中国对话式AI产品及带动相关产业规模 中国对话式AI产品按业务模式划分市场规模 2019-2026E CAGR 2019-2026E CAGR 核心产品规模(亿元) 33.9% 385 软件产值(亿元) 33.6% 72 76 339 66 带动相关产业规模(亿元) 40.9% 304 服务产值(亿元) 27.9% 60 267 48 210 硬件产值(亿元) 32 28 126 23 25 27 86 94 102 108 19 19 71 68 10 13 45 9 14 35 27 5 0 2 2 2 3 3 3 4 2019 2020 2021E 2022E 2023E 2024E 2025E 2026E 2019 2020 2021E 2022E 2023E 2024E 2025E 2026E 注:核心产品规模统计口径为当年市场释放的签单额,产品形式为对话机器人;带动相关产业规模包含对话 注:对话式AI产品包括SaaS服务及定制化解决方案中的软件算法部分;硬件产品包含对话式AI项目中采购的服务器、 式AI产品所带动的工程服务、甲方企业产值与效益提升的规模总和 终端设备等;服务产品指专家驻场提供开发或后续运维服务。 产 品 中国对话机器人在主要行业领域应用规模占比 功 创新象限 领军象限 能 中 性 竹间智能 百度智能云 金融 电信 互联网 政务 其它 阿里云 国 科大讯飞 对 京东科技 追一科技 28% 34% 32% 33% 34% 30% 29% 话 一知智能 思必驰 百应科技 式 晓多科技 沃丰科技 20% 19% 19% 22% 21% 22% 21% AI 厂 容联七陌 智齿科技 19% 22% 23% 22% 23% 24% 25% 商 矩 启蒙象限 先导象限 阵 需求覆盖度 2019 2020 2021E 2022E 2023E 2024E 2025E 注:产品功能性从对话式AI厂商的AI部署能力(智能语音、自然语言理解和知识工程的AI技术维度) 与对话式AI新兴功能产品化能力(对话洞察、私域营销、数字人的产品维度)评估,需求覆盖度从对 注:核心产品规模统计口径为当年市场释放的签单额。各行业领域包含金融、电信、互联网、政务、公安、司法、 话式AI厂商的产品丰富度与行业覆盖范围评估。 交通、教育、广电、医疗健康、营销服务、制造业、能源、电力、电信等。 资料来源:艾瑞咨询,国海证券研究所 请务必阅读报告附注中的风险提示和免责声明 19
20 . 2.4.1 ChatGPT:大数据+RLHF技术路径下的“类人交流”模型 什么是ChatGPT? 能力提升来源于训练路径:基于大数据,通过RLHF不断预训练 • 2022年11月,OpenAI上线了智能对话系统(聊天机器人)ChatGPT, • 据OpenAI官方披露,ChatGPT是在GPT-3.5系列模型的基础上形成的, GPT-3.5模型于2022年 它能够理解自然的人类语言,并生成类似人类作答的书面文本,不 初完成训练。ChatGPT的训练过程,是一个改进的instructGPT,改进点主要是标注数据收集方 仅可以帮助开发者解决编码问题,也能充当诗人; 法上的一些差异。其他方面,包括模型结构和训练过程,基本遵循instructGPT。 • 目前ChatGPT仍处在测试阶段,任何拥有OpenAI账户的人都可以免 • 在技术路线上,ChatGPT基于庞大数据量进行训练,引入了“手动标注数据+强化学 费使用ChatGPT,截至2022年12月7日ChatGPT已拥有超过100万用 习”(RLHF,从人的反馈进行强化学习)来不断调整预训练语言模型。该技术路径大幅提升 户,这帮助ChatGPT通过人类对话获取大量数据,从而学习人类复 ChatGPT对人类意图的理解,从而提升回答信息的准确性。ChatGPT具体训练过程可分为三 杂的语言模式与结构,获得解释用户请求的预期结果的能力; 个阶段: 阶段1 阶段2 阶段3 • 相较于GPT-3.5,ChatGPT能够轻松应对日常对话,主动承认错误, 区分某些问题中的描述性错误,并拒绝不合理及不道德的请求。 收集演示数据并训练 通过人工标注训练数据来训练 使用PPO强化学习法优化回报 回报模型 模型 - 根据RM评分结果更新 预训练模型的参数 ChatGPT让我们看到“整体知识+AI+人类用户”的未来学习链, 随机从信息库抽 标注一批模型产 从用户提交的指 取指令 出及提示 令/问题中随机 AI靠海量算力学习到海量的跨领域知识,虽然不够精确,却能大大 抽取一批新的命 节省人类通过“视觉+大脑”的读书培训认知时间消耗,如果能通 令 过算法来识别答案正确与否(第一性原理),AI将成为人类的全知 由监督模型初始 导师、生产助手。 专业的标注者对 化PPO模型的参 制定的提示给出 数 高质量回答 它能理解自然语言并作出反应,生 标注人员根据多 PPO模型生成回 成类似人类的文本,可以对从故事、 与前身InstructGPT相比,它 种标准对许多答 答 数学解决方案到理论文章的所有内 试图减少不好和欺骗性的回复。 案从优到差进行 容做出回应。 排序 用回报模型计算 专业人员用标注 前一阶段训练好 数据来调优 的模型给出的回 它可以记住对话中的早期评 GPT-3.5 利用以上排序结 答,得到分数 论,并以其独特的记忆将其 果来训练回报模 型 回报分数/策略 复述给用户;它从人类的反 梯度可以更新 馈中使用强化学习。 PPO模型参数 资料来源:OpenAI官网,TechMonitor,Cyberlearning,Guardian News,JKHealth.org,元宇宙NEWS公众号,蓝海云GPU公众号,国海证券研究所 请务必阅读报告附注中的风险提示和免责声明 20
21 . 2.4.2 ChatGPT:实验证明InstructGPT优于GPT-3模型,但仍有改进空间 图1. 每个模型的输出优先于175B SFT模型的输 图2. 通过对175B SFT模型的胜率来测算 图3. API分布的元数据结果 出的频率对API提示分布的各种模型的人工评估 模型的偏好结果 图1. InstructGPT模型(PPO-ptx)以及PPO显著优于GPT-3基线 • 与GPT-3的输出相比,标注师明显更喜欢InstructGPT输出。通过评估,OpenAI发现GPT-3输出表现最差,通过使用GPT-3(prompt),然后通 过使用监督学习(SFT)进行演示训练,最后通过使用PPO训练比较数据,可以获得显著的步长改进。 图2. 所有的InstructGPT模型仍然大大优于GPT-3基线 • InstructGPT模型并不是简单地过度拟合训练标签者的偏好。 图3. InstructGPT模型比GPT-3模型更可靠,更容易控制 • 标签器在不同的情况下给InstructGPT输出进行了不错的评分。具体来说,与GPT-3相比,InstructGPT在应用上,更适合做客户的助理,它可 以更多地遵循指令中定义的明确约束,几乎不可能完全不遵循正确的指令,并且在封闭域任务中几乎不编造事实。 资料来源:<Training language models to follow instructions with human feedback>Long Ouyang等,国海证券研究所 请务必阅读报告附注中的风险提示和免责声明 21
22 . 2.4.3 ChatGPT:实验证明InstructGPT优于GPT-3模型,但仍有改进空间 图4. 真实性问答数据集结果 图5. 在真实有问题指令下比较人工评估和自动评估 (API评分) 图4. InstructGPT模型的真实性比GPT-3高 • 与GPT-3相比,PPO模型在生成真实和信息丰富的输出方面有显著改进。不过,1.3B PPO-ptx模型是个例外,它的性能略差于相同大小的 GPT-3模型。 图5. InstructGPT模型比GPT-3略有改善,无偏差 • 当被要求做出安全且尊重的输出时,根据Perspective API, InstructGPT模型产生的不道德或不合理的输出比GPT-3模型更少。不过,当礼貌的 提示被删除时,这个优势就消失了。当删除礼貌提示后,InstructGPT输出比GPT-3的输出更有问题。 资料来源:<Training language models to follow instructions with human feedback>Long Ouyang等,国海证券研究所 请务必阅读报告附注中的风险提示和免责声明 22
23 . 2.4.4 ChatGPT: AIGC发展里程碑,超级基础设施下的大模型+大算力 2018 2019 2020 2021&2022 算法迭代 路径 GPT-1应用了Transformer架构的12层解码器,具有训练的自我注意机制。它为其他模型生成了路径,这些路径可以通过更大的数据集和参数进一步增 GPT-1 强其在生成预训练中的潜力。 与GPT-1对比,GPT-2使用更大的数据集并添加其他参数来构建更强大的语言模型。与GPT-1类似,GPT-2利用了变压器模 GPT-2 型的解码器。GPT-2对下游任务的几个数据集的评估表明,它的表现优于显著提高识别远程依赖项和预测句子的准确性。 • 2020年,微软宣布与OpenAI合作,在Azure云 中运行微软 “AI超级计算机”。这个新型超级 GPT-3是OpenAI开发的一个大型语言预测和生成模型,能够生成长序列的原始文本。 GPT-3 计算机包括超过285,000个CPU内核,10,000个 GPT-3的目的是使语言处理比之前的版本更强大、更快,而无需任何特殊的调优。 GPU和每个GPU服务器每秒400gb的网络连接 GPT-3.5是多模态大模型,GPT3.5系列模型包括code- GPT-3.5 • 学界达成一个基本共识,那就是模型规模和模型效果呈正相关关系。但模型规模上去了, davinci-002、text-davinci-002及text-davinci-003。 CPU的内存、计算能力是有限的。 • 据OpenAI研究发现训练175B的SFT模型需要算力为4.9pflops/s-days,训练175B的PPO- ptx模型需要60pflops/s-days,训练GPT-3算力消耗约3,640pflops/s-days。虽然GPT-3算 在GPT-3.5系列模型的基础上进行调优 ChatGPT 力成本高昂,但在语言模型中RLHF非常有效,比模型大小增加100倍更加有效 GPT迭代参数对比:大模型成为AI赛道新竞技场 算法 参数 解码器层 上下文记号大小 隐藏层 批量处理大小 GPT-1 1.17亿 12 512 768 64 GPT-2 150亿 48 1024 1600 512 Transformer架构 各算法的训练总计算数:GPT-3计算量最大 GPT-3 1750亿 96 2048 12288 3.2M 资料来源: OpenAI官网,360DigiTMG,<Attention is all you need>Ashish Vaswani等,<Language Models are Few-Shot Learners>Tom B. Brown等,<Training 请务必阅读报告附注中的风险提示和免责声明 23 language models to follow instructions with human feedback>Long Ouyang 等,Microsoft,The Register,量子位公众号,国海证券研究所
24 . 2.4.5 ChatGPT:仍需调优及训练,进而实现商业化落地 1 缺点与不足:训练数据的缺乏及偏差 2 潜在商业模式 ➢ ChatGPT 有时会写出看似合理但错误或荒谬的回答。解决 这个问题具有挑战性,因为: • 在RL训练期间,没有正确答案(训练数据的缺乏和训 云服务 应用方向 练数据的偏差会对模型结果产生负面影响); • 企业和组织可以使用ChatGPT的云服务来支持他们的聊天 医疗、客服机器人、虚 • 训练模型过于谨慎导致它拒绝回答问题; 机器人应用程序。 拟人、翻译、营销、游 • 训练会误导模型,因为理想的答案取决于模型知道什 • 客户需要每月或每年支付订阅费用来访问ChatGPT的功能。 戏、社交、教育、家庭 么,而不是人类演示者知道什么。 陪护等领域 ➢ 调整问题措辞,可能会获得不同的答案。例如,给定一个问 题的措辞,模型回复不知道答案,但只要改写问题措辞,模 型就可以正确回答。 SaaS 内容营销 ➢ 回复过于冗长。这些问题源于训练数据的偏差,因为训练师 咨询服务 • ChatGPT可以根 (标注人员)更喜欢看起来更全面的更长的答案。 • 可以为企业和组织 据用户的兴趣和 ➢ 无法完全拒绝不合理及不道德的请求。OpenAI已将机器人编 提供咨询服务。 喜好向用户推送 程为拒绝“不适当的请求”,包括诸如为非法活动生成指令 • 例如,ChatGPT可 广告。 之类的禁忌。但是用户已经找到了绕过这些护栏的方法,包 以分析客户对话并 括将非法指令请求改写为假设性思维实验,要求它编写戏剧 提供见解和建议以 场景或指示机器人禁用其自身的安全功能。 改善客户体验。 ChatGPT会替代谷歌吗? 业内人士认为,ChatGPT 替代Google其实还有点遥远。 ➢ 信息老旧:ChatGPT不会在网络上抓取时事信息,它的知识 仅限于2021年之前学到的东西,这使得它的一些答案显得陈 数据盈利模式 旧。 • ChatGPT可以生成大量数据, ➢ 成本高:尽管模型能够提升搜索的准确性和交互性,但 版权授权模式 包括会话日志和客户反馈。 ChatGPT成本比较高,免费的试用期过后,从性价比角度考 • 可以授权给希望在自己的聊天机 • 这些数据可以通过出售给第三 虑,ChatGPT在短时间内替代谷歌难度较大。 器人应用程序中使用其功能的企 方或用于改进chatGPT的功能 ➢ 但它可以作为当前搜索引擎服务的一种补充,也会对现有的 业和组织。 来变现。 搜索引擎公司产生一定冲击,促进巨头间竞争。 资料来源: OpenAI官网,Medium,Google官网,数字时氪公众号,IEEE元宇宙公众号,国海证券研究所 请务必阅读报告附注中的风险提示和免责声明 24
25 . 3. 人工智能生成内容市场机会 中国AIGC如日方升,建议关注垂直赛道初创公司及下游AI应用场景 请务必阅读报告附注中的风险提示和免责声明 25
26 . 3.1.1 产业链:关注垂直赛道初创公司及下游AI应用场景 AIGC产业链 数据供给方 创作者生态 底层配合工具 (业务数据联通、素材数据搜集等, 数据分拆及标注 上 如第三方营销公司、版权图库方等) 生物资产及内容素材提供 渲染引擎、混音设备 游 相关算法/模型研究机构/相关开源算法 智能芯片 嵌入/结合能力的业务平台/业务生态 垂直赛道初创公司 综合赛道初创公司 其他机构 聆心 智搜 文字 智能 科技 Giiso机器人 阿里巴巴智能设计实验室 图像 视频 游戏 中 AIGC 音频 游 虚拟人 内容设计 内容制作工具 周边售卖 运营增效 视觉设计、文案设计、结构设计等 音频/视频编辑工具、新闻采编、游戏制作等 NFT、个性化产品等 智能客服、简单决策等 个性化市场营销 数据梳理 自动实时交互 广告植入、品牌虚拟形象打造、各模态营销内容生成 内外数据分享及更新、数据分析及算法训练 各类内容创作及分发平台 内容终端生产厂商 第三方分发渠道 消费品厂商 下 基于AIGC激发PGC及UGC活力 新闻媒体机构、金融机构等 游 第三方内容服务机构 AIGC内容检测 如MCN、公关公司等 资料来源:量子位智库,艾瑞咨询,国海证券研究所 请务必阅读报告附注中的风险提示和免责声明 26
27 . 3.2.1 商业路径:中国企业底层技术发展不足,变现聚焦产出内容及软件服务 中外产业环境分析 他山之石:海外AIGC企业现有变现方式 作为底层 • 作为底层平台接入其他产品对外开放,按照数据请求量和实际计算量计算 中国AIGC企业仍处摸索阶段,独立运行公司数量较少 平台收费 • 如GPT-3对外提供API借口,采用的四种模型分别采用不同的按量收费方式 • 在中国,由于技术发展不足以及投资环境的影响,AIGC大多被作为 公司的部分业务、乃至相对边缘化的功能进行研发,独立运行的初 产出内容 • 按产出内容量收费 创公司数量明显少于国外,大部分细分赛道的初创玩家在5家以下。 收费 • DALL·E、Deep Dream Generator等AI图像生成平台大多按照图像张数收费 • TTS等较为成熟的AIGC能力大多被综合性的AI公司打包提供,在应 用场景上缺乏明确的指向性。 • 例如个性化营销文本写作工具AX Semantics则以约1900人民币/月的价格对外出售, 提供软件 并以约4800欧元/月的价格提供支持定制的电子商务版本。大部分C端AIGC工具则 底层技术及产业应用侧差距,导致中国企业仍停留在内容领 服务收费 以约80人民币/月的价格对外出售 域开发 • 在中国,布局最多的赛道是AI写作和语音合成领域,虚拟人赛道刚 模型训练 • 模型训练费用,适用于NPC训练等个性化定制需求较强的领域 刚开始兴起,基本均停留在内容领域。而在国外延展领域得到了更 收费 为充分的挖掘,例如个性化文本生成、合成数据等赛道均是重点布 • 例如版权授予(支持短期使用权、长期使用权、排他性使用权和所有权多种合作 局领域。 具体属性 模式,拥有设计图案的版权)是否支持商业用途(个人用途、企业使用、品牌使 • 技术部分导致了这一原因,更大的原因在于此类业务拓展的综合性 收费 用等)、透明框架和分辨率等 要求较高,需要客户方的数字化程度以及对应行业的充分了解,预 计国内外在这两个赛道上存在差距。 2021E-中国对话式AI 公有云产品 私有化部署 产品市场规模按业务 中国AIGC企业商业化模式暂未明朗,部分企业仍处引流期 模式占比 ➢ 我国的AIGC行业尚未建立起明确的变现方式。以写作机器人、自动 软件产品 软件产品 硬件产品 配音等场景为例,大部分产品仍处在免费试用的“流量吸引+平台改 对话 良”阶段,收费空间相对较小。 AI • 按调用量/流量 • License授权 • 服务器、物理 28% 业务 收费 机、网络宽带、 ➢ 此外,据量子位智库披露,由于服务B端客户时话语权较弱,部分企 • 按订阅制收费 运维服务 终端设备 5% 业会考虑向2B+2C领域,乃至直接2C领域延展。但作为工具,能否 模式 72% 在互联网流量相对稳定的前提下有效接触C端用户,设计好产品转化 • 解决方案后续在 路径,依旧是一项挑战。 产品及系统的运 软件产值 硬件产值 服务产值 维服务需求 资料来源:量子位智库,艾瑞咨询,国海证券研究所 请务必阅读报告附注中的风险提示和免责声明 27
28 . 3.3.1 海外公司:2020年开始涌现出一批代表企业,集中文字/图像/音频领域 生成内容 企业 企业简介 成立年份 应用领域 底层模型 • OpenAI是由马斯克和Y-Combinator CEO Sam Altman于2015年成立的一个非营利组织,但2019 CLIP、GPT-3、 文字 OpenAI 年马斯克离开了OpenAI ,紧接着微软注资 10 亿美元将其变为营利性公司,并与微软的云计算 2015 • AI文字底层协议 平台Azure展开合作。 GPT-3.5 • OthersideAI主打利用AI自动回复邮件,底层技术采用OpenAI的GPT-3 协议,OthersideAI曾获得 Madrona Venture Group领投的 260 万美金种子轮融资,Madrona Venture Group曾参投过Amazon 文字 Otherside AI 2020 • AI写作邮件 GPT-3 的早期种子轮融资。 OthersideAI 的操作非常简单,只要输入邮件内容的关键要点,它就可以 为生成一封完整的邮件。 • Copy.AI是一个通过AI来写作广告和营销文案的创业公司,它可以帮助用户几秒钟内生成高质 文字 Copy AI 量的广告和营销文案,主打 ToB 商业场景,它的底层技术也是采用OpenAI的GPT-3协议。目前 2020 • AI写作广告文案 GPT-3 Copy.AI的用户包括像微软、Ebay 这样的大公司。 • Jasper.AI成立于2020年,通过 AI 帮企业和个人写营销推广文案以及博客等各种文字内容(和 • AI写作广告文案、 文字 Jasper AI Copy.AI 类似),其底层技术也是 GPT-3。Jasper.AI 10月以15 亿美金估值完成了1.25亿美元的 2020 GPT-3 A 轮融资,由 Insight Partners 领投,Coatue、BVP以及 IVP 跟投。 播客等 • 目前Notion AI的功能包括自动撰写文章、广告文案和播客;通过头脑风暴为用户提供创意建议; • AI写作、提供创意、 文字 Notion AI 自动检查文字拼写和语法错误;自动翻译文章;目前Notion AI以白名单的形式开放Alpha版本 2022 GPT-3 测试。相信Notion AI的加入将会进一步推动AI生成文字走向普及。 语法检查、翻译 • Stability AI成立于2020年,由去中心化组织EleutherAI支持开发,其理念是“AI by the people, for the people”。StableAI主要研AI生成图片、音频、视频和3D的模型,其研发的开源AI作图模 型Stable Diffusion在2022年8月一经推出就立刻吸引了大家的眼球,在Stable Diffusion的Dream CLIP、Stable 图像 Stable AI 2020 • AI作图底层协议 Studio测试版网站中只要输入文字描述,它就能生成一副可以媲美专业画师的图片,Stable Diffusion Diffusion是开源产品,一些AIGC项目对其进行了二次开发,退出了包括图像、语言、音频、视 频、3D、生物AI等模型。 • Midjourney是一款可以和Stable Diffusio以及DALL-E2媲美的AI绘画工具。Midjourney是部署在 CLIP、Stable 图像 Midjourney 2022 • AI作图 Discord上的应用,在Discord里输入文字,一分钟就可以生成对应的图片 Diffusion • Play.ht 是一个 AI 文本转换语音应用,其语音模型 Peregrine,包含数千种说话的声音,可以学 习人类的语气、音调和笑声。再进生成采访乔布斯播客的Podcast.AI就是采用Play.ht语音模型, 音频 Play.ht 2016 • AI生成语音 Peregrine 它通过大量采集网络上关于乔布斯的录音,然后进行训练,最终生成假乔布斯的声音,相似度 非常高。 资料来源:巴比特资讯,PANews,OpenAI官网,国海证券研究所 请务必阅读报告附注中的风险提示和免责声明 28
29 . 3.3.2 国内公司:建议关注垂直赛道初创企业 生成内容 企业 企业简介 成立年份 所在地 融资阶段 • 人工智能驱动的高质量数字疗法将创造新一代精神心理的解决方案,为临床实践实现规模化赋能;聆听智能AI情绪智 文字 聆心智能 能为所有人变革传统心理健康的服务模式,提供随时随地、人人可及的服务。 2021 北京 天使+轮 • 澜舟科技是一家认知智能公司,针对商业场景数字化转型、以自然语言处理为基础提供商业洞见类产品,主要产品包 文字 澜舟科技 括基于预训练模型的功能引擎(包括搜索、生成、翻译、对话等)和针对垂直行业场景的 SaaS 产品。 2021 北京 Pre-A 轮 • 彩云科技是一家从事天气预报、机器翻译和智能写作的公司。彩云科技将持续致力于发展具有高阶认知能力的人工智 文字 彩云科技 能,提升人类感知环境、相互交流和与 AI 沟通的能力,并将之赋予全球用户和开发者。 2015 北京 B1轮 • 秘塔科技致力于利用AI为法律行业赋能,让法律从业者通过工作效率的提升来享受科技的便利,改变法律翻译市场高 文字 秘塔科技 收费、低效率的现状。2019年4月,秘塔第一款产品“秘塔翻译”惊艳问世,新产品MetaGO为文档自动化系统,可以 2018 上海 Pre-A 轮 一键生成多达上百份专业文件。 • 香侬科技解决方案包括AI智能写作平台,服务内容包括机器翻译,可根据中国人的书写习惯进行深度翻译优化,服务 文字 香侬科技 快速敏捷,支持英文pdf的翻译查词;及非结构化信息抽取等服务。 2017 北京 战略融资 • ZMO.AI提供人工智能模特图片解决方案,能够降低拍照成本、减少等待时间,提升电商转化率。ZMO.AI通过强大的 图像 感知阶跃 AI 算法生成独一无二的逼真虚拟模特展示服装,不再需要耗费大量的时间、精力、金钱来寻找模特,拍摄和后期制 2020 杭州 A轮 作。直接将产品上架成本降低到原来的20%。 • 影谱科技是一家专注于智能影像生产领域的视觉技术企业,凭借在人工智能、视频结构化、深度学习等领域的技术优 势,提供基于智能影像生产等相关技术的商业化综合服务。影谱科技,是一家专注于智能影像生产领域的视觉技术企 视频 影谱科技 业,凭借在人工智能、视频结构化、深度学习等领域的技术优势,提供基于智能影像生产等相关技术的商业化综合服 2009 北京 Pre-IPO 务。 • 帝视科技专注于人工智能与计算机视觉技术研究与产品开发,提供5G+AI超高清视频和AI智能制造等领域技术服务和 视频 帝视科技 行业解决方案。 2016 福州 B轮 • 标贝科技是一家专注于智能语音交互和AI数据服务的技术企业。依托于先进的AI语音交互技术及高精度数据采标平台 技术,标贝科技打造多场景应用的语音交互方案,包括通用场景的语音合成和语音识别,以及TTS音色定制,声音复 音频 标贝科技 刻,情感合成和声音转换在内的语音技术产品;AI数据业务涵盖语音合成、语音识别、图像视觉、NLP、3D点云等 2016 北京 B1轮 数据服务。 • 运用人工智能为游戏行业提供完整的解决方案。在不同类型和题材的游戏场景中,rct AI 为游戏开发者打造的一系列 游戏 知觉之门 解决方案,覆盖了游戏的全生命周期,包含智能内容生成、智能测试、智能数据运营、智能投放等类型。 2020 北京 A++轮 • 是一家TTS(语音合成)科技创新企业,提供基于端到端的神经网络的音频合成系统及行业解决方案,以领先的神经网 虚拟人 倒映有声 络设计和先进的深度学习合成器为依托,独创情绪、情感控制模块,在音色模拟、情感展现、定制化服务、多语种等 2019 杭州 Pre-A 轮 方面达到国内外领先水平。 • 小冰一个跨平台人工智能机器人,致力于实现跨平台交互,让用户在不同品牌的终端和不同企业的生态中都找到小冰, 综合 红棉小冰 目前发布了面向个人用户的首个虚拟人类产品线,用户可以自主通过小冰框架,创造并训练其拥有的人工智能主体。 2020 北京 战略融资 资料来源:量子位智库,36氪公众号,AI秘塔公众号,各企业官网,企查查,36氪官网,36氪创投平台,亿欧科技,帝视科技公众号,标贝科技公众号,国海 请务必阅读报告附注中的风险提示和免责声明 29 证券研究所