腾讯云自然语言处理的技术架构与应用

腾讯云高级研究员许泽柯,为大家带来“腾讯云自然语言处理的技术架构与应用”。

分享内容分为四部分:

第一,AI语义产品矩阵。主要会介绍AI语义团队的能力和产品。

第二,从算法原理层面给大家介绍知文NLP基础平台,这是前两个月刚上线的一款产品。

第三,用景点的客户案例给大家介绍一下基于知文NLP平台大家怎么在自己的场景中落地。

第四,Auto NLP平台。知文NLP更多是通用领域的SaaS平台,更多解决的是通用能力,但对特定领域的用户,像金融领域的用户有自己的语料、模型服务的需求,知文NLP是没有满足需求的,所以我们推出的知文Auto NLP,可以完成从模型选择、特征选择、模型部署上线的所有流程自动化。

前面的分享主要讲解了 OCR 与 NLP 两项技术的发展。在人工智能领域,有一个技术是无论如何也避不开的,那就是机器学习。

展开查看详情

1.

2.腾讯云自然语言处理的技术架构与应用 许泽柯 zakexu 腾讯云高级研究员

3.SPEAKER 许泽柯 zakexu 腾讯云 大数据及人工智能产品中心 腾讯云大数据AI产品中心高级研究员,硕士毕业于华南理工大 学。目前负责腾讯云自然语言处理的公有云产品架构以及标准化 产品的交付,主导了腾讯云自然语言处理在银行等多个重大项目 中的交付和实施。曾作为技术骨干参与腾讯千亿级推荐平台的设 计与开发。在自然语言处理、推荐系统以及数据挖掘领域有多年 的项目落地经验。

4.CONTENTS 1 2 3 4 AI语义产品矩阵 知文NLP基础平台 行业应用案例实践 一站服务升级AutoNLP 走进自然语言处理,了解腾讯云 海量语料积累, 顶级NLP前沿技 依托知文原子化服务,助力业务 大规模预训练模型,全流程个性 AI语义能力。 术,高性能可扩展服务框架。 场景高效落地。 化定制。

5.什么是自然语言处理 自然语言处理(Natural Language Processing,NLP)是人工智能和 语言学领域的分支学科。此领域探 讨如何处理及运用自然语言。自然 人 语言处理包括多方面和步骤,基本 自 类 令 然 人 为 而 有认知、理解、生成等部分。认知 发 类 让 设 展 之 自 编 和理解是让计算机把输入的语言变 然 程 计 计 出 间 算 的 成有意义的符号和关系,然后根据 来 沟 语 语 言 言 机 人 的 通 执 工 目的进行处理。生成则是把计算机 语 时 行 语 言 指 言 数据转化为自然语言。 令 —Wikipedia 自然语言处理 让计算机 理解语言、输出语言

6.腾讯云AI语义能力积累 海量数据 技术积累 算法模型 应用场景 20+亿用户数据积累 日均10+亿算法调用 超大规模算法引擎 100+内容生态场景 QQ月活 微信月活 高可用 高性能 基础NLP 短文本分析 微信搜索 新闻推荐 用户8亿 用户11亿 海量新闻 10w+小时 弹性扩缩容 熔断降级 篇章理解 问答对话 QQ闲聊 王者助手 资讯数据 语音数据 千亿级 覆盖场景 深度学习 分布式 知识图谱 文本生成 叮当音箱 企鹅风迅 文本语料 全面 前向优化 在线计算 腾讯云AI语义 腾讯AI平台 腾讯AI Lab 腾讯云知文 腾讯云鸮 腾讯新闻

7.腾讯云AI语义产品矩阵 智能客服 内容审核 新闻舆情 企业图谱 语音助手 智能搜索 内容理解 信息抽取 Bot Service 知文NLP平台 知识图谱 腾讯云AutoNLP平台 字词级别 语句级别 篇章级别 多粒度分词 多维度实体识别 文本分类聚类 主题模型 文本摘要 文档检索 拼音识别 多语种识别 细粒度情感分析 相似度计算 机器阅读理解 风格转换 拼写纠错 敏感词过滤 句子改写 依存句法 事件提取 关系抽取 关键词提取 同义词替换 语义角色标注 意图槽位识别 文本生成 观点挖掘

8.CONTENTS 1 2 3 4 AI语义产品矩阵 知文NLP基础平台 行业应用案例实践 一站服务升级AutoNLP 走进自然语言处理,了解腾讯云 海量语料积累, 顶级NLP前沿技 依托知文原子化服务,助力业务 大规模预训练模型,全流程个性 AI语义能力。 术,高性能可扩展服务框架。 场景高效落地。 化定制。

9.腾讯云知文NLP平台介绍 综合分析 文 同义词扩展 新词发现 拼音识别 腾讯云知文NLP平台,是基于 本 信 文档解析 腾讯在各领域上丰富语料及多 息 年NLP能力的积累,结合腾讯 抽 篇章分析 向量技术 云的专业产品与服务,推出的 取 文本分类 情感分析 一站式自然语言处理平台。知 高 基 短文本相似度 级 础 文NLP平台融合深度学习、云 关键词提取 自动摘要 版 版 服务、人工智能,大数据等多 句法分析 词义相似度 方面技术,全面覆盖基础NLP 文 中词法分析、句法分析、篇章 本 句法依存分析 文本纠错 句向量 分析、向量技术等各方面技术, 审 核 广泛应用于泛互联网、政府、 词法分析 金融等行业。 智能分词 词性标注 命名实体识别 词向量

10.分词利器QQSeg首次对外 • 智能分词 将连续的自然语言文本,切分成具有语义合理性和完整性的词汇序列。 • 词性标注 为每一个词附上对应的词性,例如名词、代词、形容词、动词等。 • 实体识别 快速识别文本中的实体,例如人名、地名、机构名等。 支持多种分词粒度 王小强喜欢悉尼的牛排和中餐。 内部使用人数976+ 累计调用次数4110亿+ 智能分词 王小强 喜欢 悉尼 的 牛排 和 中餐 。 词 业务应用场景138+ 法 词性标注 nh v ns u n c n wp 分 析 累计处理文本111670GB+ 实体识别 人名 地名

11.简单模型+大规模词典打造工业级分词器 的确 实在 他 说 的 确 实 在 理 0 1 2 3 4 5 6 7 • 核心词典328w并持续更新,保证覆盖 度、新鲜度。 确实 在理 • 核心Bi-Gram概率参数4kw,提升切分 准确率。 最 • 简单模型加语义规则,兼顾效果跟性 短 基于动态规划 语 能,适合生产环境。 构 基于Trie树遍 路 (维特比)计 义 合并分词结果、 图 历字符串,构 径 算最短语言模 规 NER反哺、新 建有向无环图 计 型(Bi-Gram) 则 词发现。 DAG。 算 路径。

12.基于深度卷积的命名实体识别 O LOC-B LOC-E O O O O O Softmax/CRF Layer PU-Learning扩充训练集 • 参数压缩到 N-gram层, 减少卷积核 Multi-CNN 个数。 Layer 预训练语言模型MLM, 引入先验知识 • 编译优化: Eigen库(低 gcc编译 Embedding Layer 引入字N-gram特征,建模 器)。 关键短语,解决单字歧义问题 #Pad# 北 京 是 首 都 。 #Pad# ID-CNN + Softmax/CRF

13.业界首款长文本纠错 文本纠错 在自然文本中,检测到错误用词的位置,并对错误用词提供纠正候选 词。其主要分为两个子任务:错误检测(检错) 、 错误纠正(纠错)。 输入文本 纠正文本 支持长文本纠错(2000字) 深情书怎么填写? 申请书怎么填写? 申请数怎么填写? 申请书怎么填写? 多领域大规模独家训练语料 中小起夜贷款怎么申请? 中小企业贷款怎么申请? 发票金额大于报销金饿 发票金额大于报销金额 效果业界领先,公开数据集SOA 如何跨行转张? 如何跨行转账? 行用咔是额度共享的吗? 信用卡是额度共享的吗? 收集号绑定了能注销吗? 手机号绑定了能注销吗? 的吗嘻呀杯八强 德玛西亚杯八强

14.两段式的文本纠错 “不同凡想的成就” 中文分词 • 依赖分词效果 检错阶段 • 纠错依赖检错 N-gram Bi-LSTM CRF “不同 凡 想 的 成就” 困惑集 想:响翔柜享… N-gram 困惑集 … 和:嗬口赫禾… 纠错阶段 “不同 凡 响 的 成就”

15.端到端的文本纠错 不 同 凡 响 的 成 就 h1 h2 h3 h4 h5 h6 h7 • 生成式纠错:端到端同时实现 错误点的检测和纠正,一步到 位,效果提升。 Attention Copy • Attention机制:捕捉长文本 Mechnism Mechnism 的关键字关键词,深入理解语 义,优化纠错效果。 • Copy Mechnism:实现对输 入文本的定向复制,极好的满 足了纠错场景的偏置误差。 BiLSTM h1 h2 h3 h4 h5 h6 h7 不 同 凡 想 的 成 就 Wang, Dingmin, Yi Tay, and Li Zhong. “Confusionset-guided Pointer Networks for Chinese Spelling Check.” Proceedings of the 57th Conference of the Association for Computational Linguistics. 2019.(Tencent Cloud AI@ACL2019 )

16.国内最大、最全的新闻文本分类模型 文本分类 将待分类的文本数据归为已知类别中的一类或几类。 输入文本: 新年伊始,不少食品登上抽检“黑 多领域 榜”。昨日本报从国家食品药品监督管 理总局官网获悉,其公布的2015年第二 • 覆盖通用领域跟新闻领域 期食品安全监督抽检信息显示,共抽检 肉及肉制品样品 2473批次,合格率为 多类别 95%,55批次产品不合格;在被检测的 食用油、油脂及制品中,21批次品牌产 • 37个一级类目、285个二级子类 品被检出不合格,一线食用油品牌基本 检查过关。 多语料 食品 • 腾讯新闻内容数据 健康

17.基于TextCNN的通用文本分类 这 是 一 Softmax层 个 分类模型 分 类 问 题 。 结构 参数 Embedding层 200向量维度 卷积层 10层、3*3卷积核 Embedding层 卷积层 Pooling层 Pool层 步长2、Max Pool 字转向量,提供表达能力 捕捉上下文依赖关 降维提供模型泛化能力 系,类似N-gram Softmax层 1792*14

18.基于深度双距离网络的新闻分类 • 行为距离引入:用户关注行 为词向量化,刻画新闻粗分 Content 卷 类。 受较强冷空气影 积 响,周末江南部 概 分地区最低气温 率 • 文本距离扩展:标签数据进 降至0度以下 向 行词义扩展,刻画新闻细分 量 类。 卷积 池化 x1 浅层网络与深层 Hierarchical Softmax x2 网络进行结合, 概 Fasttext Title Word embedding 率 XGBoost 增加模型鲁棒 气温跌破正雨雪 向 性,提升分类准 … … N-gram feature 量 xn 确性。 Max Similar cut1 expand_list1 相 Src 似 中国天气网 cut2 expand_list2 向 量 … … … … cutn expand_listn

19.基于大规模预训练的情感分析 情感分析 对带有情感色彩的主观性文本进行分析、处理、归纳和推理, 识别出用户的情感倾向,是积极还是消极,并且提供各自概率。 输入文本: 新年伊始,不少食品登上抽检“黑 榜”。昨日本报从国家食品药品监督管 模型持续迭代更新 理总局官网获悉,其公布的2015年第二 期食品安全监督抽检信息显示,共抽检 大规模预训练模型 肉及肉制品样品2473批次,合格率为 95%,55批次产品不合格;在被检测的 BERT 食用油、油脂及制品中,21批次品牌产 品被检出不合格,一线食用油品牌基本 千亿级大规模语料 检查过关。 负面 正面

20.Faster Transformer提速 情感分析模型 • 更大规模的预训练语料:200G的新闻语料。 输出层 • 由字到词的模型优化:引入词义信息,提升模 型效果。 • 前向加速:Faster Transformer(NVIDIA)。 预 训 Faster 微 ×N 调 练 Transformer • 多领域的标注数据:内部产品评论数据、微博 数据、电商评价数据等。 预训练语料 下游任务数据 微调方法

21.AI Lab倾力打造高质量、大规模中文词向量 向量技术提供四个功能:词向量、句向量、词义相似度、短文本相似度。 • 词(句向量):将一个词或句子用向量来表示,是自然语言处理领域中最基础的组件。 • 词义相似度:基于词向量,计算不同词之间的相似度,是相似相关词挖掘的基础。 • 短文本相似度:计算句子或者较短文本之间的相似程度,常用于查询类匹配和聚类。 输入 刘德华 兴高采烈 狂奔 自然语言处理 千亿级语料库 覆盖率更广 新鲜度 刘天王 兴高采烈 飞奔 自然语言理解 周润发 兴冲冲 一路狂奔 计算机视觉 • 腾讯新闻、天天 • 800多万中文词 • 如恋与制作人、 快报、爬虫数据 汇,包括现有大 三生三世十里桃 华仔 欢天喜地 奔跑 自然语言处理技术 集(网页、小 多数公开词向量 花、打call、十 梁朝伟 兴致勃勃 狂跑 深度学习 相似词 说)。 数据集所欠缺的 动然拒、供给侧 张学友 眉飞色舞 疾驰 机器学习 短语,比如不念 改革、因吹斯汀 古天乐 得意洋洋 飞驰 图像识别 僧面念佛面、冰 等。 张家辉 喜笑颜开 疾奔 语义理解 火两重天、煮酒 张国荣 欢呼雀跃 奔去 语音识别 论英雄、皇帝菜。

22.基于DSG的向量技术 Skip-Gram Model Directional Skip-Gram Model |𝑉| 1 𝑓 𝑤𝑡+𝑖 , 𝑤𝑡 = 𝑝 𝑤𝑡+𝑖 |𝑤𝑡 + g 𝑤𝑡+𝑖 , 𝑤𝑡 𝐿𝑆𝐺 = ෍ ෍ log 𝑓(𝑤𝑡+𝑖 , 𝑤𝑡 ) |𝑉| 𝑡=1 0< 𝑖 ≤𝑐 exp(𝛿𝑤𝑡+𝑖 𝑇 𝑣𝑤𝑡 ) ′ 𝑇 g 𝑤𝑡+𝑖 , 𝑤𝑡 = 𝑇 exp(𝑣𝑤𝑡+𝑖 𝑣𝑤𝑡 ) σ𝑤 𝑡+𝑖 ∈𝑉 exp(𝛿 𝑤𝑡+𝑖 𝑣𝑤𝑡 ) 𝑓 𝑤𝑡+𝑖 , 𝑤𝑡 = 𝑝 𝑤𝑡+𝑖 |𝑤𝑡 = σ𝑤𝑡+𝑖 ∈𝑉 exp(𝑣𝑤′ 𝑡+𝑖 𝑇 𝑣𝑤𝑡 ) (𝑛𝑒𝑤) (𝑜𝑙𝑑) 𝑣𝑤𝑡 = 𝑣𝑤𝑡 − 𝛾(𝜎 𝑣𝑤𝑇𝑡 𝛿𝑤𝑡+𝑖 − 𝐷)𝛿𝑤𝑡+𝑖 w(t-2) (𝑛𝑒𝑤) (𝑜𝑙𝑑) 𝛿𝑤𝑡 = 𝛿𝑤𝑡 − 𝛾(𝜎 𝑣𝑤𝑇𝑡 𝛿𝑤𝑡+𝑖 − 𝐷)𝑣𝑤𝑡+𝑖 1,𝑖 < 0 w(t-1) D= ቊ 0,𝑖 > 0 w(t) OUTPUT …… Song, Yan, et al. “Directional skip-gram: Explicitly distinguishing left and right context for word w(t+1) embeddings.” Proceedings of the 2018 Conference of the INPUT PROJECTION North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 2 (Short Papers). 2018. w(t+2) (Tencent AI Lab@NAACL2018 )

23.文本审核—6大恶意类型检测,为产品保驾护航 文本审核 依靠腾讯多年来海量UGC智能审核经验、顶尖人工智能技术团队以及强大的大数据计 算能力,为客户高效准确识别文本内容中存在的违规风险,减少人工审核成本。 类型 原文本 过滤后 海量 数据 政治 游戏好好玩,能送多点福利就 游戏好好玩,能送多点福利 好了 就好了 正常 色情 我打排位就是为了拿皮肤 我打排位就是为了拿皮肤 顶尖 傻逼,不懂玩就别逼逼 **,不懂玩就别** 技术 辱骂类 草泥马,不会玩还举报我,看 ***,不会玩还举报我,看老 辱骂/低俗 文本 老子不打死你 子不*** 审核 需要A片吗? 加微信 需要**吗? 加微信 计算 暴恐/毒品 色情类 xyz123456xxx xyz123456xxx 能力 政治类 反对台独 反对** 广告/灌水 10块=1000点券, qq 1000点券, qq 成本 广告类 1234567891234 1234567891234 低廉 迷信/邪教 代练,手机号 … **,手机号 123456789012 123456789012

24.多重打击让敏感内容无处可逃 接入层 主控平台 形似字 变异 拼音混合 预处理 语义符号 服务层 表情干扰 文本主动识别 关键词检测 干扰 符号干扰 库 关键词库 汉字干扰 • 覆盖面广:覆盖了文字的多种恶意类型的识别,精确识别各种恶 意的关键字,有助于综合判断检测结果。 βθ+v ❤:17188034842 • 强对抗性:支持对文字多种变种的反对抗识别,对变异文本和干 扰文本进行分析,获得有效信息从而得到正确过滤。 色姌片♂♂色姌片 • 高效稳定:文本恶意检测处理速度极快,多年稳定的腾讯产品和 【↓↓同城↓寂↓寞↓美↓女是男人都懂的↓↓】 外部市场处理经验,高效可靠。

25.整体服务框架 用户层 API3.0接入层 业务接入层 应用层 数据层 物理层 业 Fee Server 务 CDB 逻 辑 计费控制台 层 Quota Server CKV+ CVM L5 Console Server 负 载 CGI TDBank Cloud API CVM 产品控制台 均 Server NLP Micro Server Gateway 衡 算 词 句 篇 法 法 法 章 Kafka 逻 分 分 分 CVM 辑 析 析 析 客户端 层 SDK/API 算法引擎中心 QQSeg DeepCNN CGPN 翻译君 AILab AIPlatform DDDN BERT … K8S+Docker 腾讯云弹性资源

26.免费在线体验 https://console.cloud.tencent.com/api/explorer?Product=nlp&Version=2019 -04-08&Action=LexicalAnalysis&SignVersion=

27.CONTENTS 1 2 3 4 AI语义产品矩阵 知文NLP基础平台 行业应用案例实践 一站服务升级AutoNLP 走进自然语言处理,了解腾讯云 海量语料积累, 顶级NLP前沿技 依托知文原子化服务,助力业务 大规模预训练模型,全流程个性 AI语义能力。 术,高性能可扩展服务框架。 场景高效落地。 化定制。

28.应用案例-政务全文检索系统 布尔查询 Query改写 自动纠错 敏感词屏蔽 智能分词 检 索 自动压缩 增量索引 词条挖掘 服务 发现 配置 和注 分词索引 关键词分析 自动摘要 中心 册中 心 实时索引 离线索引 任务调度 知文NLP平台 索 政务数据库 引 Hermes实时检索引擎 互联网数据 TBDS大数据处理套件

29.应用案例-银行投诉工单智能分类 系统管理 工单管理 知识库管理 自助报表管理 日志管理 电话投诉分析 自动工单 可视化分析 数据加工处理 系统接口管理 投诉趋势分析 工单模板管理 多维统计分析 数据预处理 模型接口 投诉推荐分析 自动化工单 自助报表分析 数据融合 数据接口 投诉分类分析 自定义预警 监管报送 数据结构化 服务接口 投诉信息提取 统计监督 报表下载 特征数据加工 调度接口 数据清洗工具 知文NLP平台 Python Spark BI 数据库 Hadoop ETL 业务配置 模型库 日志库 电话投诉信息 投诉工单信息 客户画像信息