多模异构数据处理平台TDH7.0深度解析

错过5月15日星环科技2020春季新品发布会的你,又有上船的机会啦,今天新品深度解读系列直播将开启!

第一讲 星环科技多模异构数据平台TDH 7.0 深度解读

还在多个数据库切换?

一个平台解决多种数据问题

更多新产品及解决方案深度解析敬请期待!

展开查看详情

1.A I + B I G D A T A + C L O U D 多模态异构数据平台 星环科技 王天蓝

2. 多模态的由来 单体架构  并行架构  分布式架构  多模架构 1 2 3 4 RDBMS SMP/Numa/MPP Hadoop Multi-Model (1970年) (1980年) (2008年) (2012) "A Relational Model of Data for Tandem Computers, and Hadoop was made Luca Garulli's key note Large Shared Data Banks" by Sequent Computer Systems also "NoSQL Adoption – What’s Apache’s top level the Next Step?" Edgar F. Codd offered MPP architectures in the 1980s project OrientDB DBMS ORDBMS NoSQL Polyglot Persistence ArangoDB Azure Cosmos (1960年) (1980年) (2000) (2008年) CrateIO EnterpriseDB Hierarchical database Object-Relational DBMS Documents, Columnar, By Scott Leberknight MarkLogic bridge the gap between relational In late 2006 Neal Ford SAP HANA Navigational DBMS Tuple, Triples, Key-Value, Virtuoso databases and the object-oriented wrote about Polyglot Common Business Oriented Graphs, Object Store modeling Programming Language (COBOL)

3.什么是模态 - 5 层技术选型的有机组合 A MULTI-MODEL database is designed to support multiple data models against a single, integrated backend. Relational 数据模型 Hierarchical Object-Oriented 其他数据形态 Network MPP Distributed Streaming 执行模式 Read Write SEP. SIMD 索引模式 B+Tree Hash Lucene+FSTs Row-Base Columnar Linked-List 数据逻辑模型 MVCC LSM-Tree 数据物理格式 Fixed-Width ORC Parquet Carbondata Hfile Bin File SMP NUMA MPP Appliance X86 硬件架构 Flash SDD HDD

4. 不同数据模态的设计考量 数据管理系统需求 基础需求 场景需求 数据类型 结构化/文本/对象/时序/网络关系 业务场景 OLTP/OLAP/批处理/流式 写模式 批量写/实时写/顺序写/随机写 分布式 高容错/高可用/高并发/低延迟/可扩展 SEEK:指针访问/精准查/模糊查 读模式 SEEK&SCAN:高过滤/高关联/高聚合 一致性 事务隔离级别/强一致/弱一致/最终一致 SCAN:顺序扫描/迭代计算

5.每种模态都有存在的理由 - 关系型OLTP vs 网络OLTP innoDB Engine Janus Graph Index Structure On-Disk Structure

6.常见混合架构 - 并行计算 vs 分布式执行模式 并行计算 分布式计算 分布 MPP 式依 依赖 赖任 数据 务调 分布 度 具有 无木 木桶 桶效 效应 应

7.批量扫描 vs 高速缓存 HDFS BigTable 一次写多次读 高并发写

8.混合持久架构

9.异构混合持久化的问题 - 联邦查询 SELECT * FROM T1 JOIN T2 ON T1.id = T2.id GraphX Tensorflow MLlib Resource MGMT Distributed Storage

10.多模态联邦存储 - 全文+分析型列存 混合持久架构 多模态平台

11.统一架构解决方案的优势 统一架构 vs 混合架构 统一架构 混合架构 利用统一架构代替混合架构,实现数据湖、数据 Hadoop与MPP集群混合部署,同时运维和使用 仓库和数据集市 两套数据存储系统 易用性 易用性 80% 80% 数据冗余份数 数据冗余份数 58% 58% 数据链路长度 数据链路长度 76% 76% 数据一致性 数据一致性 80% 80% 计算性能 计算性能 58% 58% 11

12.ArgoDB 分布式闪存数据库 支持混合负载 • 支持国产CPU Sql client • 支持内存、闪存、磁盘三级存储 平台稳定可靠 计算引擎 • 基于分布式一致性协议的存储引擎 • 分布式、多副本 • 支持在线扩容/滚动升级 存储引擎 运算能力强大 • 同时支持在线和离线业务的输入, 同时支持分析型和检索型的业务 ArgoDB 分布式闪存数据库 – 高扩展、高并发、高性能、产品易用,支撑大数据下混合业务场景 统一了数据湖、数据仓库、数据集市,同时可以实现实时数仓库,实现企业数据资产与数据应用之间的“高速公路” 12

13. 基于多模态架构的ArgoDB NoSQL查询 预测性 视频/语音/ 在线查询 在线分析 数据仓库 数据集市 实时计算 数据探索 /分析 分析 文本分析 多模计算引擎 R/Python ArgoDB(在线/离线) 图计算模式 流计算模式 机器学习引擎 分析型 OLAP 倒排索引 分布式 图数据库 高速缓存 对象储存 数据库 数据库 全文库 文件系统 确保数据一致性 分布式事务接口 兼容多模式的块储存管理 高可用/灾备 多模分布式存储管理系统Shiva 统一的资源调度管理框架

14.ArgoDB超高多并发性能 Runtime Shiva 高可用支持 Context Master  通过Shiva来管理元数据,基于raft group的高可用保证 多副本支持 Executor Executor Executor Executor  Shiva提供了分布式存储管理 Client Client Client Client 存储引擎的性能提升 F1 F2 F3 F1 F2 F4 F2 F3 F4 F1 F3 F4  降低了索引列的开销,最高可节省40%的空间  读表性能提升,TPC-H query 1提升4倍 Shiva tablet Shiva tablet Shiva tablet Shiva tablet  支持varchar2和char类型 server server server server 普通硬盘的性能提升 Local File System  多块普通硬盘的情况下,可达到或逼近SSD的性能 14

15. Transwarp Data Hub 7.0 新定位:多模态的数据处理平台 过去为处理数据的多样性,采用了多 种数据库: 统一的数据操作/查询语言 SQL 数据集市 Hive 数据仓库 HBase MongoDB 统一的数据计算引擎 Neo4j NoSQL Elastic … 查询/分 全文检索 析 在线分析 Full-text Search 图存储 多模型数据平台的优势: Graph Storage • 键值存储 提升场景效率:同一份数据可以采用 Key-Value 统一的分布式 预测性 Storage 存储管理系统 分析 文档存储 多种数据模型存放,解决不同场景的 Document Storage 效率问题 在线交易 行列 统一的 混合存储 资源管理框架 视频/语音 • 统一管理分析:关联不同模型的数据, Row-Columnar Storage /文本分析 地理空间存储 统一管理分析 非结构化 Geospatial Storage 实时计算 对象存储 • 降低运维成本:无需维护多种数据库, Unstructured Object 数据探索 Storage 降低运维成本

16. A I + B I G D A T A + C L O U D 上海:徐汇区虹漕路88号B座11F&12F&15F,A座9F 郑州:郑东新区龙子湖湖心岛卫华研究院科研楼13层 北京:海淀区西直门北大街甲43号金运大厦B座1101室 南京:雨花台区宁双路19号云密城J栋10楼 广州:天河区体育东路140-148号南方证券大厦1015-1016室

星环科技专注于企业级容器云计算、大数据和人工智能核心平台的研发和服务,领航大数据与人工智能基础软件新纪元。公司以上海为总部,以北京、广州为区域总部,在南京、郑州、成都设有支持中心,同时在深圳、天津、武汉等地设有办事机构,并在美国和新加坡设有海外分支机构。
关注他