明略数据的企业级大数据知识图谱m品构建与应用

注脚

展开查看详情

1.0r>B9ummCL全球架构师峰会 深”站201* 企业级大数据知识图谱m品构建与应用 黄…/明略数据 (BuaGABua/mCGCGAlamI.>Hm  

2.企业级大数据简析 企业级大数据简析 构建大数据知识图谱m品 应用浅谈

3.企业级大数据做“T Big data is like teenage sex. Everyone talks about it, nobody really knows how to do it. Everyone thinks everyone else is doing it, so everyone claims they are doing it too... -- Simon Matthews 卖平台T 卖数据T 卖服务T 做咨询T ???

4.s业务的角度看 公安 公安 重大h件 搜索 团|挖掘 预警 金融 实时l易 报表计算 用户画像 反欺诈 制造业 历史数据 设备故障 精准营销 查询 预测 电商 税务 数据整合 推荐系统 税务反欺诈 数据治理 社l, O2O 大数据 商业智能 数据驱动的 平台 (16   资源变现 普通需求 中高级需求 高级且痛点需求 •  普通需求很通用,基本无行业属性,但业务附加值低 •  越高级的需求,行业属性越明显,越难落地或做出好效果,但业务附加值高 •  能解决高级需求的m品或方案,往往e能解决普通、中级高级需求,但反d未必

5.明略d道 多种多样的需求 公安 金融 制造业 ... 需求 需求 需求 升级思考 降维打击 lk式 批量式 可视化 服务 服务 服务 业 机 务 器 构建数据d间的关联 公安 金融 ... 知 学 数据 数据 简洁统一的数据模型 识 习 •  降维打击最关键的两点S数据治理/整合和关联计算 •  业务知识和机器学习(数据挖掘  会贯穿整个流程 •  普适的方案,目标是解决各行业最难的业务需求

6.构建大数据知识图谱m品 企业级大数据简析 构建大数据知识图谱m品 应用浅谈

7.知识图谱是rcT •  u图b载体 •  点t表O实体” •  边t表O关系” •  结合特定行业数据和领域知识,得到的则是领域内知识图谱 比如,银行+l易数据+p员信息 -. upb核心(l易b关系  的知识图谱

8.一个简单的工商企业的知识图谱 轮胎 生m 总经理 公司 王 0 i 属于 法p 张 关联 制造业 三 子公司 属于 法p 公司 李 1 四 手套 •  图上每个点皆bO实体”,边bO关系”(具有不同的类别   •  实体和关系可u有多个属性(如p年龄,性别,关系类别/开始时间   •  O万物k联”,数据种类越多,数据量越大,越能还原真实世界的面貌

9.如何落地知识图谱m品T lk式服务 | 批量式服务 | 可视化服务 提供各类服务接口,支撑业务场景 数据挖掘与机器学习 业务模型,自然语言处理,全量数据机器学习 图数据库 知识图谱的物理载体,提供各类图相关服务 关联计算 基于规则的关联计算,建立实体d间的关系 数据治理与整合 结构化与非结构化数据智能治理与整合 统一数据视图 建立行业特定的知识图谱所需的数据模型

10.多规融合数据模型 姓 张三 名 p 车 手机 张i 实体 公司 特别的,对于实体,需要 m品 融合实体各方面的信息 63 11010)******** ... 地 p员 XX市XX街道 l易流水 址 酒店入住 h件 火车出行 手 1)+******** 机 民航出行 ... 13+******** 直系关系 微 p户关系 信 XXX 关系 p案关系 ... …

11.智能数据治理与整合 结构化数据 最终结果 DB DB 实体 属性融合 数据缓冲区 全局ID唯一化 sqoop spark ftp java ... ... python Hive h件 h件去重 文 日 Hdfs 档 志 关系 显性和隐性关系 ... 关联 计算 - 基于规则的关联计算 非结构化数据 - 基于自然语言模型的关联计算 自然语 言处理

12.关联计算 基于39L语法描述规则逻辑 o属规则 统一数据 39L 视图 邻居规则 导入统一数据视图,结合 39L,编译生成可u在 sIarD上运行的s>alat码 频繁l易规则 2HmICl@r 关联同行规则 运行sIarD任务,得到最终 的关系结果 实体 关联同住规则 9IarD h件 ... 基于规则的关联引擎 读取实体、h件 业务知识导向 数据(结构化的  

13.图数据库 -  图数据库三大要素S点、边、属性 -  点的63需全局唯一 -  边需要支持方向 -  点和边都可u有属性,且属性支持多个 -  支持常见的图操作功能,如点遍历,边 遍历,路径查找等 图片来自:CLaG官网

14.图数据库选型 -  在超大图(几亿点,几十亿边   -  是否可直接在已有大数 上的查询和修改性能如何 -  源码是否清晰易懂 据平台上部署 -  能否满足秒级别的响应速度 -  团队是否有在源码级 -  是否会引入新的依赖 -  批量操作的性能是否好 别修改和调优的能力 与大数据平 功能集 源码级别的 性能 可扩展性 LC>@Gs@ 台的整合度 易用度 掌控程度 -  是否满足图数据库的常见需求 -  能否线性扩展 -  LC>@Gs@是否商业友好 -  提供的查询接口是否友好 -  服务能否支持多节点部署 -  最好是0Ia>B@ LC>@Gs@ -  安装、部署与运维是否便利 或者类似松散约束的 我们在图数据库方面的选型推荐 -- :CLaG (BLLIs,//ACLBu=.>Hm/LBCGDaur@lCus/LCLaG   -  与5adHHI平台无缝整合,使用51as@作b=a>D@Gd -  满足常用的图操作需求,且提供4r@mlCG查询接口 -  性能良好,在超大图上的响应能够做到秒级别(多个客户项目中实战验证过   -  团队对:CLaG源码熟悉,且在t码级别做g定制优化 -  0Ia>B@ LC>@Gs@

15.数据挖掘与机器学习 大数据时t,数据挖掘与机器学习是必备工具,特别的是业务附加值高的需求尤其需要。 一般来说,在落地企业级知识图谱m品时,uX是我们总结得常用的数据挖掘和机器学习 的方法S自然语言处理、图挖掘、评分模型、回归预测。 -  实体、关系抽取 -  文本分类 自然语言处理 -  情感分析 -  ... -  社l网络分析 -  子图匹配 图挖掘 -  频繁子图挖掘 -  ... -  账户信用评分 -  前科p员风险度评分 评分模型 -  警情风险度评分 -  ... -  重大h件预警 -  l易风险评估 回归预测 -  设备故障预测 -  ...

16.一个文本处理的例子 案情描述1S张某于201)/12/+日在北 案情描述2S张某|同王某于1)/11/2+日 n盗取一辆n0123()*的奔驰车 在北n抢劫某珠宝店,并逃逸 pS 张某 时间S 201)/12/+ pS 张某,王某 实体 地域S 北n 时间S 201)/11/2+ 车辆63S n0123()* 地域S 北n 识别 车辆品牌S 奔驰 h件S 抢劫 地点S 某珠宝店 h件S 盗窃 盗窃 王某 关系 同| 提取 张某 n0123()* 张某 某珠宝店 抢劫 王某 n0123()* 某珠宝店 同| a并案 张某 分析 盗窃 抢劫 时间线 201)/11/2+ 201)/12/+

17.构建大数据知识图谱m品 企业级大数据简析 构建大数据知识图谱m品 应用浅谈

18.情报研判 •  当知识图谱u图的形式展现后,信息一目g然,非常符合p脑对现实世界的认知模型 •  极大提升各类情报研判工作效率

19.身份洗白p员智能识别 •  如何智能识别有身份洗白嫌疑的前科p员T •  洗白p员的最明显的特征S •  老身份不活动 •  新身份与老身份有共同关系p,部分新身份会去老身份常去的地方

20.基于资金流向的反洗钱调查 公司0 银行想g解XX公司是 否有洗钱行b XX城市 公司1 XX公司 找到该公司所有银 行子账号 找到跟所有子账 我们发现红圈账号都在一个城 此时我们对黄色账号再次扩展l易账号, 号l易的可疑账 市,地理惊p的巧合,继续对 通过筛选得到g(个高频次的可疑账号, 号,红圈表示 这两个账号所有l易过的账号 找到该账号的持有p员。此时我们发现分 进行扩展,得到g黄色账号 别对应g公司0和公司1,我们就找到洗 钱的最终的嫌疑p,这两家公司的法p。

21.关注明略数据官方微信 获取每日大数据咨询