NLP、知识图谱在地址解析领域的应用

NLP、知识图谱在地址解析领域的应用

展开查看详情

1.AI CU G人 w ww 工 . 智 ai 能 cu 技 g. 张伟丰/中通快递 术 cn 社 区 解析领域的应用 NLP、知识图谱在地址

2. AI CU G人 w ww 挑战 展望 工 . 怎么做 智 ai 几个问题 能 cu 技 g. 术 cn 地址解析的应用场景 社 区 1

3. 地址解析的应用场景 1:基于地址自动分派快递员(揽收、派送); 区 术 cn 社 2:地址纠错、补全(很多时候,用户地址会出现错误、或者模糊); 技 g. 能 cu 3:用户输入地址时的联想、补全、纠正等; 智 ai 4:业务员派送时,将一个小区(写字楼等)一起呈现; 工 . ww 5:业务员路径的规划; G人 w 6:业务员工作量的计算、派送难度计算(有些需要爬楼、有些很集中,有些则很散); 7:业务员收派范围是否合理的计算; CU AI AI Pioneer 2

4. 挑战 问题的定义:序列化文本的结构化、语义化; 区 术 cn 社 优势:跟其他文本序列化相比 技 g. 1:完全的上下文无关(一个文本就描述一个地址); 能 cu 2:语义明确(一个文本必然要描述一个可达的地址); 智 ai 3:包含的实体可穷举(比如路、小区等),只是代价太大; 工 . ww 挑战: G人 w 1:精度要求非常高,准确率99%起(要不会导致大量的包裹错送); 2:没有词库,只能通过地址提取,或者外部获取; 3:快递地址,本身就包含大量的错误; CU 4:目前的任何算法,都无法达到我们的精度要求; AI AI Pioneer 3

5. 怎么做 区 在线 1:语义解析主要是在知识图谱中寻找最 术 cn 大语义序列; 社 + 技 g. 基于知识图谱的 纠错系统 2:纠错主要是处理:音近字、形近字; 语义解析引擎 能 cu 智 ai 工 . ww 离线 实体抽取 + G人 w 关系抽取 + 知识图谱构建 + 知识图谱清洗 CU 分词+词性标注+词法分析+句法分析,在一个模型中做,能否提升准确率了; AI 如果放在一个模型中做,主要挑战是什么? AI Pioneer 4

6. 中文分词目前的准确率 这是中文分词领域,几个主流算法,在不同数据集上的数据: 区 术 cn 这样的准确率是无法满足我们要求的; 社 技 g. 能 cu 智 ai 工 . ww G人 w CU AI AI Pioneer 5

7. 尝试多融合多特征 区 词本身的连接紧密程度 前后向特征 术 cn 社 通过互信息、左右熵、频次三个指标, 后向特征:比如华志路 中的 路 技 g. 用于无监督提词 前向特征:比如华润中央公园中的 华润 通过人工规则或者CRF都行 能 cu 智 ai 工 . ww 机器学习特征和人工特征融合 相邻特征 G人 w 比如:菜场路35号贝港二村13号609 在有大量标注的情况下,通过crf能产生大量 Before:Road+roadNumber(菜场路35 ) 的特征,当取高权重特征时,会发现,机器学 After: buildingNumber+room(13号609) 习到的特征和人类设计特征是一致! CU 中间大概率是小区,这个只能通过句法分析做了 通过人类设计特征,能解决70%左右的识别 AI AI Pioneer 6

8. 基于CFR的特征融合 1:CFR有特征爆炸的特点,人工规则特征可以降低特征数; 区 术 cn 核心思想是用更抽象的指代替代具体字符: 社 NUM+号 ——> 1000+号| 1002+号……….; 技 g. 能 cu 2:CRF特征作用距离有限,人工规则特征可以补充不足; 智 ai 3:把互信息、左右熵、频次作为特征,通过一层卷积也加入特征函数中; 工 . (思考,卷积后的特征是连续的,CRF特诊是[0,1],需要处理吗?); ww G人 w 4:相邻特征,需要通过句法分析获取,在分词之后才能获取,在这个阶段,如何融入该特征? 我们的思路是把分词、实体识别(词性标注)、词法句法分一起做,做成一个多任务模型; 一个最好的分词结果必然满足:最好的实体标注结果、最好的词法句法分析结果; CU AI AI Pioneer 7

9. 组合爆炸问题,如何克服 一个最优解,必然是词、短语、句子(表达模式或者文法规则)这三个层面的最优解, 区 术 cn 或则综合最优解 社 技 g. 字 词 短语 句子 能 cu 智 ai 工 . 保留所有可能性,不断向上抽象,然后综合所有维度,寻求最优解; ww G人 w 问题:每抽象一级,组合的可能性就指数级增长,抽象3个层次后,整个解空间已经及其巨大,非常难以求解; 我们通过模式限定来解决这个问题 CU accept 词C2 词C1 AI 词CN AI Pioneer 8

10. 句法限定及关系抽取 区 模式知识 语义知识 术 cn 社 可以理解为文法知识,比如 比如华志路1685号 对应中通快递,这 技 g. 省市区镇+路+路号+小区+楼号+房间号 就是语义知识 这个可以作为一个表达模式 能 cu 智 ai 工 . 1:必须在正确的解析结果中,才能抽取出正确的实体和关系 ww G人 w 2:为了确保正确,我们在各个层级综合最优的判别标准下,增加了句法限定; 只提取符合特定表达模式的解析结果; CU AI AI Pioneer 9

11. 知识图谱的清洗 知识是一套逻辑上自洽的体系 区 术 cn 社 1:知识图谱中的关系,必须是逻辑自洽的,不能相互冲突,或者通过推理能产生冲突; 技 g. 比如A包含B, B包含C, C又包含A,这就会有冲突; 能 cu 2:是否自洽,除了知识图谱自身推断之外,还需要外部加入很多常识; 智 ai 比如路名相同的道路,不应该离的太近(容易混淆); 基于这样的推断,来确定同名的路到底是不是一条路; 工 . ww 比如同一个小区,同时对应着两条路,意味着这两条路在附近必然相交; G人 w 基于此推断,到底只两个同名小区,还是同一个小区; 比如相同路号,对应同一个小区,应该是相同的道路(沪太路1000号 xxx小区,沪大路1000号 xxx小区); CU 比如一个镇,只能覆盖一条路的一段(xxx路1-50号属于A镇,50-100号属于B镇,100-150号又属于A镇,这就有冲突) AI AI Pioneer 10

12. 知识图谱----如何确定路号所对应的镇 区 术 cn 社 技 g. 能 cu 智 ai 1:假定每个镇会覆盖一 段连续的路号; 工 . 2:每个镇只能在某条路 ww 上覆盖一段,不能多段; G人 w 3:在满足上述条件下, 求各个路号属于哪些镇时, 整条路概率最大! 4:计算结果在我熟悉的 CU 一些路上验证,基本合理! AI 11 AI Pioneer

13. 展望 如果把人脑看成一个知识图谱,每天里面不断飘过的各种概念,就是不断在做各种联想、猜测(归纳)、推理、重构等 区 术 cn 社 知识图谱能根据不断输入的实体和关系,能不断联想,不断地归纳出更抽象的关系, 技 g. 能不断调整,让自身不断处于逻辑自洽的状态! 能 cu 比如 女生A--->穿裙子; 女生B--->穿裙子; 智 ai 知识图谱通过归纳,能够把A|B --->穿裙子 之间的连接抽象为 女生 --->穿裙子 之间的连接; 工 . ww 当有新的关系 女生C下雨---->穿牛仔裤,整个逻辑自洽就被打破了,需要重新寻找逻辑自洽; G人 w 归纳这块,感觉决策树能做一部分的工作;重新寻求逻辑自洽,不知道该怎么做; 感觉这个过程,比较像小孩学习,不需要太大的样本; CU 人类发现自然界规律,也是如此,不断猜想,当猜想被打破后,重新猜想,重新寻求逻辑自洽; AI AI Pioneer 12

14. 展望 1:人类在长期的进化中,为了交流更有效率,语言一定是简洁,并充分利用一切可利用的周围环境来表达意图的; 区 术 cn 2:语言不断的演化(不断有新词、新的表达方式),是全人类都参与的一个活动,一定是极其丰富的; 社 3:绝大部分人类知识,目前都存储在文本中,如何通过文本,让机器获取这些知识,使用这些知识,是非常重大的课题; 技 g. 能 cu 我们希望看到: 智 ai 1:机器能像人一样,能通过不断抽象,去发现更普世的规律,抽象的层级越高,规律越少,也越通用; 工 . 2:机器能像人一样,通过有限的规律,解释无穷的现象; ww G人 w 只有这样,通用智能,才有希望! CU AI AI Pioneer 13

15. 团队研究方向介绍 区 术 cn 运筹 路由优化---今年预计送达的包裹量达120亿,汽运成本70亿; 社 优化 技 g. 能 cu 智 ai OCR面单识别----每天处理图片量2000万; 工 . 机器 ww 视觉 视频流处理:识别中转中心传入的视频流,应用于车辆状态识别、隔口状态识别等; G人 w 分单:每天处理3500万左右的订单,每天模型训练数据集高达5亿左右 CU NLP 地址语义解析:地址标准化、结构化,应用于快递的各个领域; AI AI Pioneer 14

16.AI Pioneer 联系方式 AI CU G人 w ww 工 . 智 ai 能 cu 技 g. 术 cn 社 区 15

17. AI CU G人 w ww 工 . 智 ai 能 cu 技 g. 术 cn 社 THANKS 区 16