基于Hbase的企业级大数据平台

基于Hbase的企业级大数据平台
展开查看详情

1. 基于HBase的 企业级大数据平台

2. 1 公司及平台简介 目 2 HBase为企业级平台提供的解 录 决方案 3 企业级业务应用支持

3.我们是谁? 国内最大的保险公司 数亿客户 十几亿保单 上百万营销员 -3-

4. 传统数据管理手段所面临的挑战 • 数据虽已集中,但未被集成和整合。 • 范式化模型带来的查询时需要大量join操作。 • 难以实现以客户为颗粒度的查询和分析 • 没有一个ROI很好的解决方案来实现我们的需要。 -4-

5. 通过建立企业级大数据平台,我们期望能做到 • 企业级数据资产的整合和连接 • 基于该平台来支撑企业内部的各类数据应用 • 面向营销员、客户的精确查询服务 • 面向以客户为颗粒度的精准分析 • 实现以客户为中心的风控体系 • …… • 以一个较低的成本来解决我们的各类需求 -5-

6.金字塔大数据平台——现况 规模 加工 数据 应用 5TB+高速内存 每日加工上亿条 数亿客户数据 为公司管理层及 1PB+存储容量 数据 十几亿保单数据 百万销售员等提 供数据查询和计 算服务 -6-

7. 1 公司及平台简介 目 2 HBase为企业级平台提供的解 录 决方案 3 企业级业务应用支持

8. 查询复杂 加工缓慢 系统繁多 更新困难 丢失细节 传统数据库存在 越来越多的问题 -8-

9. 百万并发 容纳数十亿行 插入即更新 毫秒返回 允许只更新部 和数百万列 分列 加工集中 细节全部保留 所以我们用HBase -9-

10. One Giant Table for All System HBASE rowkey1(来自系统A) 一张 容 rowkey2(来自系统A) 宽表 与纳 上上 存储 rowkey3(来自系统B) 百亿 万行 全国 rowkey4(来自系统C) 列数 系统 据 保单 rowkeyn(来自系统D) 公司原始 数据库 系统A 系统B 系统C 系统D SQL Server Oracal MongoDB infomix - 10 -

11. One Giant Table for All System HBASE rowkey row1:业务键+110000+X 列1,列2,列3…… 国一 容 所张 row2:业务键+110000+Y 列1,列2,列3…… 与纳 有宽 上上 百亿 系表 row3:业务键+440000+X 列1,列2,列3…… 万行 统存 row4:业务键+440000+Y 列1,列2,列3…… 列数 据 保储 单全 系统X 系统X 公司原始 系统Y 系统Y 数据库 …… …… 全国各系统分省单独部署 北京(110000) 深圳(440000) - 11 -

12. One Row for One Contract 数 保单表 投保人 理赔 保全 收付费 据 保单号 投保人姓名 赔案号 保单号 保单号 按 营销员工号 投保人年龄 保单号 保全类型 收付项目 投保人客户号 …… …… …… 收付金额 行 …… …… 聚 集 Hbase大宽表 提 保单号 保单 投保人 理赔01 理赔02 … 保全01 保全02 … 收付费01 收付费01 需新 增前 row_key JSON JSON JSON JSON JSON JSON JSON JSON …… 添增 加 加数 JOIN 效 新据 率 列仅 , - 12 -

13. One Column for One Original Row 一个程序即可计算 原始表 全部保单指标 收付费表 保单号 收付流水号 收付项目 收付金额 001 11 A 100 001 12 B 200 001 13 C -100 新增记录 彻底解决 仅需要在 更新难、 HBase中 更新慢的 “11”是收付费表主键值 行内容以JSON的方式进行存储 追加新列 问题。 即可。 保单号 收付费11 收付费12 收付费13 row_key 001 {“流水号”:“11”,”收付项 {“流水号”:“12”,”收 {“流水号”:“13”,”收付 目”:”A”,”收付金额”:”100”} 付项目”:”B”,”收付金 项目”:”C”,”收付金 额”:”200”} 额”:”200”} 宽表 - 13 -

14. One Json for All Content 保单号 字段1 字段2 字段3 字段4 字段5 原 系 11 A1 A2 A3 A4 A5 统 12 B1 B2 B3 B4 B5 表 13 C1 C2 C3 C4 C5 金 字 11 column=ci:保单信息,value={保单号:11,字段1:A1,字段2:A2,字段3:A3,字段4:A4} 谨保 塔 防留 大 丢细 数 12 column=ci:保单信息,value={保单号:12,字段1:B1,字段2:B2,字段3:B3,字段4:B4} 失节 据 平 13 column=ci:保单信息,value={保单号:13,字段1:C1,字段2:C2,字段3:C3,字段4:C4} 台 - 14 -

15. 1 公司及平台简介 目 2 HBase为企业级平台提供的解 录 决方案 3 企业级业务应用支持

16. 客户资源管理 客户画像: 支持数亿客户上千标签的高效刷新,精准刻画老客户 基本信息 购买能力 收入情况 保单情况 风险偏好 家庭关系 - 16 -

17. 精准营销 购买能力分析 客户开发平台 分析已有客户的再次购买能力, 实现对已有客户的分类筛选、定 并推送给前台 向推送和追踪 提 高 计算客户的购 展 买能力并将结 业 果推送给营销 成 员 功 率 - 17 -

18. 保障分析 保障分析: 分析客户已有保障,试算客户应有保障 产品介绍 对公司200多总颁险 种进行大数据建模 分析,从身故、伤 应用于手机端APP 残、重疾、医疗、 发现客户保障缺失 养老5个角度分析客 提供销售契机 户保障情况。 - 18 -

19. 大数据智能核保 风险保额预警: 实现以客户为中心的累计风险保额计算 产品介绍 两百多个保单粒度风险保额 整合多系统全国数据 提升核保智能化作业 利用大数据平台整 三百多个客户粒度风险保额 合客户、保单数据, 省 全 长险寿险净风险保额 长险 长险 进行以客户为中心 国 长险重疾险净风险保额 的风险保额计算, 万能 长险护理险净风险保额 短险 为公司核保系统提 长险客运交通工具意外伤残净风险保额 供强有力的数据支 长险航空意外伤残净风险保额 长险重大自然灾害意外伤残净风险保额 撑。 。。。。。。 - 19 -

20. 智能理赔反欺诈 智能理赔反欺诈: 实现毫秒级反馈欺诈风险评估结果 - 20 -

21. 下一步工作 不断丰富和深 通过主备集群 通过完善大数 入基于HBase 来提高业务连 据应用来实现 的各类应用 续性 实时统计分析 - 21 -

22.敬请指正 - 22 -

为了让众多HBase相关从业人员及爱好者有一个自由交流HBase相关技术的社区,阿里巴巴、小米、华为、网易、京东、滴滴、知乎等公司的HBase技术研究人员共同发起了组建中国HBase技术社区。