申请试用
HOT
登录
注册
 
Databricks Delta: A Unified Data Management System for Real-time Big Data
Databricks Delta: A Unified Data Management System for Real-time Big Data

Databricks Delta: A Unified Data Management System for Real-time Big Data

暮雪
/
发布于
/
6031
人观看

越来越多的数据量和种类以及更快地从中获得价值的迫切需要为数据管理带来了重大挑战。原始业务数据需要被吸收、整理和优化,以使数据科学家和业务分析师能够回答他们复杂的查询和调查。传统的建筑通常需要结合
-用于低延迟接收的流媒体系统,
-用于廉价、大规模、长期存储和
-数据仓库需要数据湖无法提供的高并发性和可靠性(但成本更高)。
跨各种存储系统构建解决方案会导致复杂且容易出错的ETL数据管道。在Databricks,我们在所有规模的组织中都看到了这些问题。为了从根本上简化数据管理,我们构建了Databricks Delta,这是一种新型的统一数据管理系统,它提供了
1.数据仓库的可靠性和性能:delta支持事务性插入、删除、升迁和查询;这可以从数百个应用程序实现可靠的并发访问。此外,delta索引、压缩和缓存数据,从而比在Parquet上运行的apache spark获得高达100倍的性能。
2.流系统的速度:delta以事务方式在几秒钟内合并新数据,并使这些数据立即可用于使用流或批处理的高性能查询。
3.数据湖的规模和成本效率:delta以开放式Apache拼花格式将数据存储在类似S3的云blob存储中。从这些系统中,它继承了低成本、巨大的可扩展性、对并发访问的支持以及高读写吞吐量。
使用delta,组织不再需要在存储系统属性之间进行权衡。

11 点赞
5 收藏
4下载
相关文档
确认
3秒后跳转登录页面
去登陆