IoTDB的前世今生与技术细节揭秘-黄向东

下载 80

StreamNative

发布于

5707

人观看

#信息技术

展开查看详情

1 .IoTDB的前世今生与技术细节揭秘 2019-01-04 SPEAKER 演讲

2 .黄向东清华大学软件学院大数据系统软件国家工程实验室

3 . 目录/Contens 1.工业场景下的时序数据库需求 2.从Cassandra到IoTDB 3. IoTDB的单机千万点写入性能实现

4 .工业场景下的时序数据库需求

5 .第四次工业革命来袭，大数据成为关键生产资料德国工业4.0 中国工业互联网美国工业互联网数据的整合分析和使用是关工业互联网本质：先进的数据分析能力键能力数据+模型是关键要素

6 .机器设备产生的时序数据构成了工业大数据的主体文档图纸工业大数据模型视频气象地理环境工业信息化数据产业链跨界数据机器设备数据

7 .时间序列数据普遍存在无人驾驶穿戴设备在设备远程运维、数字画像、健康评估、故障预测、备件调度、生产工艺控制与改进等多方面有着重要的应用前景

8 .工业场景下时间序列采集与应用 CPU insertion query MQ Database Network analysis Network save data locally 数据赋能工业

9 .How to Manage Time Series Data insertion query Network MQ Database analysis Network save data locally

10 .需求与挑战：提升工业时序数据利用率，从有效存储开始大规模时序数据的特点占用空间极大数据总吞吐量大时序数据存储的需求产生速度快且不间断【全时全量】保证数据全时全量存储【高效写入】保证数据库可以承受高吞吐写入【紧凑存储】对数据进行有效压缩减少磁盘空间占用超过20,000个风机一个风机约有120~510传感器采集频率从0.00167 Hz 到 50Hz 不等

11 .需求与挑战：支撑复杂工业场景，克服领域技术难点排口有大量取值异常 § 场景1：由于网络延迟、设备故障等原因数的采样点，例如PH 据无法完全保序到达值超过10,000 § 场景2：由于设备故障、损坏等原因，在进行分析等操作前需要对错误数据进行修正 § 场景3：清理过时数据或无效、无用数据该排口连续164天缺失上报PH值时序数据数据乱序操作的需求数据库需要支持时间序列数据的乱序写入数据库需要支持时间序列数据的批量更新数据库需要支持时间序列数据的清理删除

12 .时序数据管理（超高性能、超多序列） • 单表列数上限基于关系数据库 • MySQL InnoDB 为1017列关基于PG开发的插件系 • 单表行数不易过多数 •时序数据自动分区 •查询计划做优化原生时序数据库 • 小于1000万行据 •定制并行查询库 • 水平、垂直分表；分库时随着导入时间的增加序导入速率不断下降基于LSM机制的时序库数据基于键值数据库 •专属文件结构 • 可管理海量条时间序列 •专属查询优化键库 • 查询受限值基于Hbase/Cassandra • 按时间维度的查询数一些工业场景下据 •时序分区键性能下降 • 按值维度的查询库 •定时任务构建索引 • 多序列的时间对齐查询压缩不友好，查询不友好

13 .时序数据分析（需求一）早高峰（7-9点）增加上行发车班次，减少下行发车班次晚高峰（17-21点）增加下行发车班次，减少上行发车班次多序列对齐比较其他时间段运营班次存在压缩空间

14 .时序数据分析（需求二）时间序列HMM分割算法中等风没满转超大风满转准确计算各站点人流量大风满转超低风0转低风低转速（下降）准确计算各状态下的统计值低风低转速（稳定）时间序列分割

15 . 时序数据分析（需求三）内存数据量 [1, 2, 0, 5.1, 3, …., 9, 1] 高维向量算法效率时序数据降采样

16 .时序数据分析（需求四） Motif 频繁时序模式挖掘

17 .时序数据分析（性能） analysis insertion Database ETL • 查询友好 • 分析友好 • 写入友好 KairosDB：导出每辆车每天3000种的数据：1小时气象大数据系统：大量时间花费在数据获取上批量使用历史数据，漫长的ETL

18 .需求与挑战：面向工业应用场景，提升数据处理能力高通量写入高效压缩指定查询过滤条件查询延迟低、时效高按时间、设备、传感器类型等过滤 TB 级数据百毫秒查询聚合查询数据模式匹配十亿点数数十毫秒查询 Say No to ETL 序列对齐查询时序分割多序列按时间维度对齐序列填充查询数字水印空值填充

19 .从Cassandra到IoTDB

20 .故事从2012年说起… 三一重工，20万设备在线，采集了三年数据，Oracle吃不消 2019/6/19 d1:s1: 01:1 02:1 10:1 … 1560900000 d1:s1: 2019/6/20 1561000000 01:1 02:1 10:1 … d1:s2: 2019/6/19 1560900000 01:1 02:1 10:1 … D2:s2: 2019/6/20 1561000000 01:1 02:1 10:1 … 5台Cassandra，撑起一片天。性能一般般。。。

21 .2015年，基于Cassandra研发分布式时序数据库 2019/6/19 d1:s1: 01:1 02:1 10:1 … 1560900000 d1:s1: 2019/6/20 1561000000 01:1 02:1 10:1 … d1:s2: 2019/6/19 1560900000 01:1 02:1 10:1 … D2:s2: 2019/6/20 1561000000 01:1 02:1 10:1 … 客户机查询/写入引擎 Cassandra 受制于人

22 .撸起袖子加油干高效存储数据实时读写数据分布式HTAP

23 .面向工业互联网的高性能轻量级时序数据库清华数为工业互联网时序数据库 Apache IoTDB 中国高校唯一Apache基金会项目 – 工业领域千万条量级时间序列管 – 单节点万亿数据点管理 – 单节点数十TB级时间序列数据管理 – 支持Hadoop、Spark、Matlab、 Grafana等多种生态

24 .Apache IoTDB的功能特点收集应用存储学习处理覆盖数据全生命周期高效的数据持久化丰富/低延迟的数据查询扩展的时间序列操作与现有生态系统集成多种服务形式 • 高速写入终端 • 快速过滤数据 • 时序分段 • MatLab • 每秒3000万点（单机）本地控制器 • TB级数据百毫秒 • 时序表达 • Spark 数据中心 • 高压缩比查询 • 子序列匹配 • MapReduce 灵活部署 • 1.37bits/点 [1] 开箱即用 • 聚合查询数据 • 时频转换 • Grafana 支持数据实时写入/写出 • 有损和无损压缩 • 十亿点数十毫秒 • 可视化 • Kafka 支持便捷友好的分析 • 支持百万时间序列查询

25 .产品形态：灵活适配“云-网-端”计算环境部署在嵌入式终端设备的时部署在工控机等边缘计算设部署在云端数据中心的序“数据文件” 备的时序“数据库” 时序“数据仓库” 终端场控数据中心为时序数据而生的zip文件高效丰富的时间序列查询引与大数据分析框架无缝集成支持高性能写入，高压缩比擎支持时序数据处理，挖掘分存储，支持简单查询提供增删改查，以及聚合查析与机器学习询时序对齐等高级功能

26 .Integration with other systems Visualization Analysis with Matlab Big data analysis (Manual data explore) (small data set) 26

27 .技术架构 - / / / / - A 国际领先技术 - 高效聚合索引 A - （CKIM 2016） - / / - 时序模式检测 - B - / / （WAIM 2018） / - - 子序列匹配（ICDE 2019） / - … - / / / 20

28 .IoTDB的单机千万点写入性能

29 .简单理解IoTDB数据Schema Storage Group， Device， Measurement/Metric， <Time，Value>

5点赞

7收藏

80下载