常雷_OushuDB的演进之路

新一代云数据仓库OushuDB的演进 之路
展开查看详情

1. E T B . N PU IT 新一代云数据仓库OushuDB的演进之路 用科技让人类只为兴趣而工作 www.oushu.io @Copyright 2018. All rights reserved

2. CONTENTS 目 .NET 1 偶数简介 2 AI和数据版图 U B 录 3 OushuDB和LittleBoy IT P 4 客户案例 @Copyright 2018. All rights reserved

3. 偶数简介 1. 打造新一代AI和数据仓库平台,让企业更智能 T 2. Apache HAWQ创始人及核心研 发团队成员创立 E 3. 研发人员大多为Apache Committer & PMC成员,来自EMC, Oracle, IBM, Teradata, Google等云 N 计算和大数据公司 . 4. 团队成员大多毕业于北大、清华、CMU等国内外顶级学府,以及多个 ACM程序大赛奖牌获得者 B 5. 团队研究成果发布在SIGMOD等国际顶级学术会议上,并拥有多项国际专利 U 6. 获得国际顶级投资机构红杉中国(A轮)和红点中国投资(天使轮) P 7. 微软加速器.北京11期校友企业 IT 8. 美国三大商业杂志Fast Company《中国最佳创新公司50》 9. 工信部第十六届开源 软件推进论坛《中日韩开源软件技术优胜奖》 Oushu Lava AI Cloud Oushu LittleBoy Oushu Database AI云平台 人工智能组件 世界上最快的新一代数据仓库 @Copyright 2018. All rights reserved

4. AI深度学习的技术进展 E T B . N PU IT ≈5.1 人类 @Copyright 2018. All rights reserved

5. AI深度学习的技术进展 (续) Switchboard语音识别任务错误率5.1%,堪比专业速记员 E T B . N PU IT @Copyright 2018. All rights reserved

6. AI版图 T 机器人 AI+行业 AI+安防 AI+金融 AI+医疗 AI+工业 AI+家居 E 自动驾驶 基础AI技术 计算机视觉 B 语音识别 . N 自然语言处理 机器学习 PU IT 数据平台技术 数据仓库 流处理 图数据管理 数据治理 AI硬件 CPU GPU FPGA NPU Sensor @Copyright 2018. All rights reserved

7. 人工智能大规模应用的挑战 AI与商业应用场景的探索 E T AI研发和应用的门槛过高,体验较差 B . N PU IT AI+行业人才短缺 降低AI应用使用门槛, 提升体验 @Copyright 2018. All rights reserved

8. 偶数AI产品及解决方案 (金融为例) 个人信贷 消费金融 汽车金融 信用卡 T 金融AI应用场景 E 对公业务 融资租赁 供应链金融 抵押类业务 个性化精准营销 B . 反洗钱 N 反欺诈 客户画像 U 金融AI系统 P 智能风控 财务真实性分析 担保链分析 实际控制人分析 Lava AI平台 IT OushuDB 新一代数仓, SQL查询,解决95%分析需求 LittleBoy 机器学习AI,解决挖掘等需求 物理硬件 IaaS 公有云 + 私有云 @Copyright 2018. All rights reserved

9. Oushu Lava AI云平台: 支持公有云和私有云 E T B . N 高易用性, PU IT 云数仓服务 云AI服务 按使用量计费 零运维 一键创建集群 @Copyright 2016. All rights reserved

10. E T B . N PU IT @Copyright 2018. All rights reserved

11. OushuDB云数据仓库 E T 兼容SQL标准 PB级交互式查询 B . N Hadoop生态 支持第三方工具 PU IT 核心优势 极速性能 新一代架构 存储可插拔 比同类产品快5-10倍 对AI无缝支持 动态扩容 支持行存和列存 1. @Copyright 2018. All rights reserved

12. 数据仓库引擎比较 T 非线性可扩展 线性可扩展 高性能及 . N E B SQL兼容性 PU IT Amazon Athena 受限的性能 及SQL兼容性 SQL @Copyright 2016. All rights reserved

13. Oushu Database主要功能 ● 利用现有技能和 工具 基于代价的 优化器 E T ● 发现新知识 N ANSI SQL ● 数据科学 . ● 轻松与其它工具 标准 ● 分析外部数据源 集成 各种开放 动态 内置机器 多语言UDF ● 查询所有数据类型 B 文件格式 流水线 学习库 兼容 OLAP扩展 U 压缩 查询 ACID事务 可扩展 及分区 P 外部数据 JDBC ODBC IT 核心 可用性 弹性 在线 细粒度 ● 管理多种工作负载 多级容错 资源队列 ● PB级数据分析 执行引擎 秒级扩容 安全 ● 交互式查询性能 ● 和Hadoop生态 多租户 系统原生集成 PB级规模 Magma/HDFS @Copyright 2016. All rights reserved

14. OushuDB vs 其它数据仓库 Oracle T 特征 Oushu GPDB Teradata DB2 Impala Hive SparkSQL Exadata E 为云平台优化 yes no no no no no no no N 性能 top high middle middle middle middle low low . 面向AI yes no no no no no no no B 可扩展性 hign middle middle low low middle high middle U 支持开放硬件平台 yes yes no no yes yes yes yes P 应用易迁移性 high high high high high no no no IT Share-Nothing架构 MPP++ old MPP   old MPP no no old MPP no no 支持OLAP扩展 yes yes yes yes yes partial partial partial 高级负载均衡 yes yes yes no yes no no no 在线系统扩容 yes no no no no yes yes yes 高级资源管理 yes no no no no yes yes yes @Copyright 2016. All rights reserved

15. OushuDB vs 其它数据仓库 Oracle T 特征 Oushu GPDB Teradata DB2 Impala Hive SparkSQL Exadata E 基于代价的优化器 yes yes yes yes yes weak weak weak N yes yes yes yes yes no no no . 支持SQL2011 高速互联协议 yes yes no no no no no no B 可插拔存储 yes no no no no no no no U 表分区 yes yes yes yes yes yes yes yes P GP/Oracle兼容 yes yes no yes yes no no no IT PL/SQL等 yes yes yes yes yes no no no 易用性 top high middle low low low low low 自动弹性伸缩 yes no no no no no no no 列式/行式存储 yes yes partial partial yes yes yes no @Copyright 2016. All rights reserved

16. OushuDB v3.0+ T • 全新SIMD执行器,性能提升约10倍。 E 10 – 满足客户SLA,实现交互式查询的一大步 N 倍左右性能提升 . • 支持ORC外部存储格式,外部存储性能提升10-50倍 B – 访问外部数据和内部数据性能 类似,可节省客户1倍存储空间 世界上最快的执行器 U • 支持新一代可插拔存储框架, • IT 提供了存储、查询和修改空间数据的能力 P – 用户可以自己快速 扩展新的外部数据源,比如 S3等 – 对需要处理空间数据的客户很重要 (比如:海军,空军等) @Copyright 2016. All rights reserved

17. 3.0版本性能提升:TPCH基准测试 E T B . N PU IT @Copyright 2016. All rights reserved

18. OushuDB基于SIMD的新执行器秒杀其他产品 E T B . N PU IT 平均快15-20倍 @Copyright 2016. All rights reserved

19. 标准及第三方工具兼容 T • SQL-92, SQL-99, SQL-2003, OLAP扩展, 与Postgresql和GPDB语法兼容 • 标准JDBC, ODBC连接 . NE B • 存储过程 (PL/pgSQL, PL/python et al) U • 支持与Apache Hadoop兼容的任何发行版本 • 支持各大BI工具 • 支持informatica等主流ETL工具 IT P • Hadoop标准ODPi发起者之一 @Copyright 2016. All rights reserved

20. LittleBoy人工智能 E T 数据加载 特征工程 B . N 自动模型训练 模型发布 PU 核心优势 IT 零门槛 AutoML 深度学习 大规模 行业应用广泛 无需AI背景 自动调优 准确率高 分布式训练 1. @Copyright 2018. All rights reserved

21. E T B . N PU IT @Copyright 2018. All rights reserved

22. 某银行反洗钱AI应用 项目背景 项目目标 ● 各金融机构按照央行规定的可疑交易标准报告可疑 E T 减少人工参与 N 1) . 交易 2) 挖掘更多特征 B ● 该银行的反洗钱规则引擎可将交易进行过滤和标记, 3) 探索创新应用 并推送给业务人员进行调查、判断和确认。 U 反洗钱规则引擎被标记的总案件量较多,业务人员在 P ● 此种情景时下“大海捞针”,往往要耗费大量的时间和 IT 精力。 ● 在本次的测试环境中统计发现:每天触发规则引擎的 账户约225,而最终认定并成功报送的大约2户,成功 报送比例约1%。 @Copyright 2018. All rights reserved

23. 项目成果 ● 通过AI建模,给出多个可行模型方案 E T . N ○ 现有方法:查全率100%,查准率约1% B ○ 偶数模型A:查全率100%,查准率51.43% U ○ 偶数模型B:查全率86.11%,查准率92.08% ● 可以上百倍的减少推送可疑案件量和人 工排查工作量 IT P @Copyright 2018. All rights reserved

24. E T B . N PU IT 偶数科技 让数据更简单,让企业更智能 @Copyright 2018. All rights reserved