NLP、知识图谱在地址解析领域的应用

下载 22

AICUG人工智能社区

发布于

5520

人观看

#信息技术

NLP、知识图谱在地址解析领域的应用

展开查看详情

1 .AI CU G人 w ww 工 . 智 ai 能 cu 技 g. 张伟丰/中通快递术 cn 社区解析领域的应用 NLP、知识图谱在地址

2 . AI CU G人 w ww 挑战展望工 . 怎么做智 ai 几个问题能 cu 技 g. 术 cn 地址解析的应用场景社区 1

3 . 地址解析的应用场景 1：基于地址自动分派快递员(揽收、派送)；区术 cn 社 2：地址纠错、补全(很多时候，用户地址会出现错误、或者模糊)；技 g. 能 cu 3：用户输入地址时的联想、补全、纠正等；智 ai 4：业务员派送时，将一个小区(写字楼等)一起呈现；工 . ww 5：业务员路径的规划； G人 w 6：业务员工作量的计算、派送难度计算(有些需要爬楼、有些很集中，有些则很散)； 7：业务员收派范围是否合理的计算； CU AI AI Pioneer 2

4 . 挑战问题的定义：序列化文本的结构化、语义化；区术 cn 社优势：跟其他文本序列化相比技 g. 1：完全的上下文无关(一个文本就描述一个地址)；能 cu 2：语义明确(一个文本必然要描述一个可达的地址)；智 ai 3：包含的实体可穷举(比如路、小区等)，只是代价太大；工 . ww 挑战： G人 w 1：精度要求非常高，准确率99%起(要不会导致大量的包裹错送)； 2：没有词库，只能通过地址提取，或者外部获取； 3：快递地址，本身就包含大量的错误； CU 4：目前的任何算法，都无法达到我们的精度要求； AI AI Pioneer 3

5 . 怎么做区在线 1：语义解析主要是在知识图谱中寻找最术 cn 大语义序列；社 + 技 g. 基于知识图谱的纠错系统 2：纠错主要是处理：音近字、形近字；语义解析引擎能 cu 智 ai 工 . ww 离线实体抽取 + G人 w 关系抽取 + 知识图谱构建 + 知识图谱清洗 CU 分词+词性标注+词法分析+句法分析，在一个模型中做，能否提升准确率了； AI 如果放在一个模型中做，主要挑战是什么？ AI Pioneer 4

6 . 中文分词目前的准确率这是中文分词领域，几个主流算法，在不同数据集上的数据：区术 cn 这样的准确率是无法满足我们要求的；社技 g. 能 cu 智 ai 工 . ww G人 w CU AI AI Pioneer 5

7 . 尝试多融合多特征区词本身的连接紧密程度前后向特征术 cn 社通过互信息、左右熵、频次三个指标，后向特征：比如华志路中的路技 g. 用于无监督提词前向特征：比如华润中央公园中的华润通过人工规则或者CRF都行能 cu 智 ai 工 . ww 机器学习特征和人工特征融合相邻特征 G人 w 比如：菜场路35号贝港二村13号609 在有大量标注的情况下，通过crf能产生大量 Before：Road+roadNumber（菜场路35 ）的特征，当取高权重特征时，会发现，机器学 After： buildingNumber+room(13号609) 习到的特征和人类设计特征是一致！ CU 中间大概率是小区，这个只能通过句法分析做了通过人类设计特征，能解决70%左右的识别 AI AI Pioneer 6

8 . 基于CFR的特征融合 1：CFR有特征爆炸的特点，人工规则特征可以降低特征数；区术 cn 核心思想是用更抽象的指代替代具体字符：社 NUM+号 ——> 1000+号| 1002+号……….; 技 g. 能 cu 2：CRF特征作用距离有限，人工规则特征可以补充不足；智 ai 3：把互信息、左右熵、频次作为特征，通过一层卷积也加入特征函数中；工 . (思考，卷积后的特征是连续的，CRF特诊是[0,1],需要处理吗？)； ww G人 w 4：相邻特征，需要通过句法分析获取，在分词之后才能获取，在这个阶段，如何融入该特征？我们的思路是把分词、实体识别(词性标注)、词法句法分一起做，做成一个多任务模型；一个最好的分词结果必然满足：最好的实体标注结果、最好的词法句法分析结果； CU AI AI Pioneer 7

9 . 组合爆炸问题，如何克服一个最优解，必然是词、短语、句子(表达模式或者文法规则)这三个层面的最优解，区术 cn 或则综合最优解社技 g. 字词短语句子能 cu 智 ai 工 . 保留所有可能性，不断向上抽象，然后综合所有维度，寻求最优解； ww G人 w 问题：每抽象一级，组合的可能性就指数级增长，抽象3个层次后，整个解空间已经及其巨大，非常难以求解；我们通过模式限定来解决这个问题 CU accept 词C2 词C1 AI 词CN AI Pioneer 8

10 . 句法限定及关系抽取区模式知识语义知识术 cn 社可以理解为文法知识，比如比如华志路1685号对应中通快递，这技 g. 省市区镇+路+路号+小区+楼号+房间号就是语义知识这个可以作为一个表达模式能 cu 智 ai 工 . 1：必须在正确的解析结果中，才能抽取出正确的实体和关系 ww G人 w 2：为了确保正确，我们在各个层级综合最优的判别标准下，增加了句法限定；只提取符合特定表达模式的解析结果； CU AI AI Pioneer 9

11 . 知识图谱的清洗知识是一套逻辑上自洽的体系区术 cn 社 1：知识图谱中的关系，必须是逻辑自洽的，不能相互冲突，或者通过推理能产生冲突；技 g. 比如A包含B, B包含C, C又包含A，这就会有冲突；能 cu 2：是否自洽，除了知识图谱自身推断之外，还需要外部加入很多常识；智 ai 比如路名相同的道路，不应该离的太近(容易混淆)；基于这样的推断，来确定同名的路到底是不是一条路；工 . ww 比如同一个小区，同时对应着两条路，意味着这两条路在附近必然相交； G人 w 基于此推断，到底只两个同名小区，还是同一个小区；比如相同路号，对应同一个小区，应该是相同的道路(沪太路1000号 xxx小区，沪大路1000号 xxx小区)； CU 比如一个镇，只能覆盖一条路的一段(xxx路1-50号属于A镇，50-100号属于B镇，100-150号又属于A镇，这就有冲突) AI AI Pioneer 10

12 . 知识图谱----如何确定路号所对应的镇区术 cn 社技 g. 能 cu 智 ai 1：假定每个镇会覆盖一段连续的路号；工 . 2：每个镇只能在某条路 ww 上覆盖一段，不能多段； G人 w 3：在满足上述条件下，求各个路号属于哪些镇时，整条路概率最大！ 4：计算结果在我熟悉的 CU 一些路上验证，基本合理！ AI 11 AI Pioneer

13 . 展望如果把人脑看成一个知识图谱，每天里面不断飘过的各种概念，就是不断在做各种联想、猜测(归纳)、推理、重构等区术 cn 社知识图谱能根据不断输入的实体和关系，能不断联想，不断地归纳出更抽象的关系，技 g. 能不断调整，让自身不断处于逻辑自洽的状态！能 cu 比如女生A--->穿裙子；女生B--->穿裙子；智 ai 知识图谱通过归纳，能够把A|B --->穿裙子之间的连接抽象为女生 --->穿裙子之间的连接；工 . ww 当有新的关系女生C下雨---->穿牛仔裤，整个逻辑自洽就被打破了，需要重新寻找逻辑自洽； G人 w 归纳这块，感觉决策树能做一部分的工作；重新寻求逻辑自洽，不知道该怎么做；感觉这个过程，比较像小孩学习，不需要太大的样本； CU 人类发现自然界规律，也是如此，不断猜想，当猜想被打破后，重新猜想，重新寻求逻辑自洽； AI AI Pioneer 12

14 . 展望 1：人类在长期的进化中，为了交流更有效率，语言一定是简洁，并充分利用一切可利用的周围环境来表达意图的；区术 cn 2：语言不断的演化(不断有新词、新的表达方式)，是全人类都参与的一个活动，一定是极其丰富的；社 3：绝大部分人类知识，目前都存储在文本中，如何通过文本，让机器获取这些知识，使用这些知识，是非常重大的课题；技 g. 能 cu 我们希望看到：智 ai 1：机器能像人一样，能通过不断抽象，去发现更普世的规律，抽象的层级越高，规律越少，也越通用；工 . 2：机器能像人一样，通过有限的规律，解释无穷的现象； ww G人 w 只有这样，通用智能，才有希望！ CU AI AI Pioneer 13

15 . 团队研究方向介绍区术 cn 运筹路由优化---今年预计送达的包裹量达120亿，汽运成本70亿；社优化技 g. 能 cu 智 ai OCR面单识别----每天处理图片量2000万；工 . 机器 ww 视觉视频流处理：识别中转中心传入的视频流，应用于车辆状态识别、隔口状态识别等； G人 w 分单：每天处理3500万左右的订单，每天模型训练数据集高达5亿左右 CU NLP 地址语义解析：地址标准化、结构化，应用于快递的各个领域； AI AI Pioneer 14

16 .AI Pioneer 联系方式 AI CU G人 w ww 工 . 智 ai 能 cu 技 g. 术 cn 社区 15

17 . AI CU G人 w ww 工 . 智 ai 能 cu 技 g. 术 cn 社 THANKS 区 16

1点赞

2收藏

22下载