2019.12, 大连Meetup 2019. Apache IoTDB 工业互联网时序数据库. Reporter Xiangdong Huang

下载 10

Apache IoTDB

发布于

3008

人观看

#未分类

展开查看详情

1 . Apache IoTDB 工业互联网时序数据库系统清华大学软件学院大数据系统软件国家工程实验室 Apache IoTDB Team: Xiangdong Huang

2 . Outline • 为什么开发时序数据库系统 • IoTDB介绍 • 基于RocketMQ与IoTDB的应用示例

3 .第四次工业革命来袭，大数据成为关键生产资料德国工业4.0 中国工业互联网美国工业互联网数据的整合分析和使工业互联网本质：先进的数据分析能力用是关键能力数据+模型是关键要素

4 .机器设备产生的时序数据构成了工业大数据的主体文档图纸工业大数据模型视频气象地理环境工业信息化数据产业链跨界数据机器设备数据

5 .时间序列数据普遍存在无人驾驶穿戴设备在设备远程运维、数字画像、健康评估、故障预测、备件调度、生产工艺控制与改进等多方面有着重要的应用前景

6 .工业场景下时间序列采集与应用 CPU insertion query MQ Database Network analysis Network save data locally 数据赋能工业

7 .How to Manage Time Series Data insertion query Network MQ Database analysis Network save data locally

8 .需求与挑战：提升工业时序数据利用率，从有效存储开始大规模时序数据的特点占用空间极大数据总吞吐量大时序数据存储的需求产生速度快且不间断【全时全量】保证数据全时全量存储【高效写入】保证数据库可以承受高吞吐写入【紧凑存储】对数据进行有效压缩减少磁盘空间占用超过20,000个风机一个风机约有120~510传感器采集频率从0.00167 Hz 到 50Hz 不等

9 .需求与挑战：支撑复杂工业场景，克服领域技术难点排口有大量取值异常的 § 场景1：由于网络延迟、设备故障等原因数采样点，例如PH值超过10,000 据无法完全保序到达 § 场景2：由于设备故障、损坏等原因，在进行分析等操作前需要对错误数据进行修正 § 场景3：清理过时数据或无效、无用数据该排口连续164天缺失上报PH值时序数据数据乱序操作的需求数据库需要支持时间序列数据的乱序写入数据库需要支持时间序列数据的批量更新数据库需要支持时间序列数据的清理删除

10 . 时序数据管理（超高性能、超多序列） • 单表列数上限基于关系数据库 • MySQL InnoDB 为1017列关基于PG开发的插件系 •时序数据自动分区 • 单表行数不易过多数 •查询计划做优化原生时序数据库 • 小于1000万行据 •定制并行查询库时随着导入时间的增加 • 水平、垂直分表；分库序导入速率不断下降基于LSM机制的时序库数基于键值数据库 •专属文件结构 • 可管理海量条时间序列据 •专属查询优化键库 • 查询受限值基于Hbase/Cassandra • 按时间维度的查询数一些工业场景下据 •时序分区键性能下降 • 按值维度的查询 •定时任务构建索引库 • 多序列的时间对齐查询压缩不友好，查询不友好

11 .时序数据分析（需求一）早高峰（7-9点）增加上行发车班次，减少下行发车班次晚高峰（17-21点）增加下行发车班次，减少上行发车班次多序列对齐比较其他时间段运营班次存在压缩空间

12 .时序数据分析（性能） analysis insertion Database ETL • 查询友好 • 分析友好 • 写入友好 KairosDB：导出每辆车每天3000种的数据：1小时气象大数据系统：大量时间花费在数据获取上批量使用历史数据，漫长的ETL

13 .需求与挑战：面向工业应用场景，提升数据处理能力高通量写入高效压缩指定查询过滤条件查询延迟低、时效高按时间、设备、传感器类型等过滤 TB 级数据百毫秒查询聚合查询数据模式匹配十亿点数数十毫秒查询 Say No to ETL 序列对齐查询时序分割多序列按时间维度对齐序列填充查询数字水印空值填充

14 . Outline • 为什么开发时序数据库系统 • IoTDB介绍 • 基于RocketMQ与IoTDB的应用示例

15 .面向工业互联网的高性能轻量级时序数据库清华数为工业互联网时序数据库 - > Apache IoTDB 中国高校目前唯一Apache基金会项目 – 工业领域千万条量级时间序列管理 – 单节点万亿数据点管理 – 单节点数十TB级时间序列数据管理 – 支持Hadoop、Spark、Matlab、 Grafana等多种生态

16 . Apache IoTDB的功能特点收集应用存储学习处理覆盖数据全生命周期高效的数据持久化丰富/低延迟的数据查询扩展的时间序列操作与现有生态系统集成 • 多种服务形式 • 高速写入 • 快速过滤数据 • 时序分段 • 终端 • MatLab • 每秒3000万点（单机） • TB级数据百毫秒 • 时序表达 • 本地控制器 • Spark • 高压缩比查询 • 子序列匹配 • 数据中心 • MapReduce • 1.37bits/点 [1] • 聚合查询数据 • 时频转换 • Grafana • 灵活部署 • 有损和无损压缩 • 十亿点数十毫秒 • 可视化 • Kafka • 开箱即用查询 • 支持数据实时写入/写出 • 支持百万时间序列 • 支持便捷友好的分析

17 .产品形态：灵活适配“云-网-端”计算环境部署在嵌入式终端设备的时序部署在工控机等边缘计算设备部署在云端数据中心的 “数据文件” 的时序“数据库” 时序“数据仓库” 终端场控数据中心为时序数据而生的zip文件高效丰富的时间序列查询引擎与大数据分析框架无缝集成支持高性能写入，高压缩比存提供增删改查，以及聚合查询支持时序数据处理，挖掘分析储，支持简单查询时序对齐等高级功能与机器学习

18 .Integration with other systems Analysis with Matlab Big data analysis Visualization (small data set) (Manual data explore) 18

19 .技术架构国际领先技术 - 高效聚合索引（CKIM 2016） - 时序模式检测（WAIM 2018） - 子序列匹配（ICDE 2019） - … 20

20 .直接将数据存储成为分析友好的结构 20

21 .高压缩与高吞吐 Others Others Raw data: - 12 Bytes per point - 112 GB totally

22 .2. 索引结构实现特殊查询 Only records root nodes in memory and build virtual trees, for reducing memory cost and disk I/O Fast Aggregation Method for Time Series CIKM 2016: PISA: An Index for Aggregating Big Time Series Data 22

23 .高效查询 Others

24 . IoTDB典型应用：某地铁运维监控 144 300 3200 测点/500 ms/列车 3200 测点/200 ms/列车列车列车更 500 200 少毫秒采样毫秒采样硬升级件 13 1 ， … 台服务器台服务器更 13台 KairosDB 一台高 13台 Cassandra IoTDB实例仅1台IoTDB实现性日增4140亿能 144 列车 300 列车数据点管理

25 . 其他应用商飞 InfluxDB(可能)丢失了大量数据 IoTDB保存了数据细节

26 .Concepts in IoTDB (The Schema) Device (i.e., Data source) Cadillac XT5 • A machine instance Measurement (e.g., sensor) • A device can have many measurements Time Series • Device + Measurement • is represented as a path that begins with root, like “root.Cadillac_XT5.USA.CA.7BTC409.fuelRemain” Storage Group (SG) • A storage group can have many devices • Storage groups have independent resources (threads and files) to increase parallelism and reduce competitions for locks.

27 . The schema mapping 1 IoTDB Schema OLTP Schema root.Cadillac_XT5.USA.CA.7BTC409.fuelRemain Table Storage group Dimension Device，timestamp root.Cadillac_XT5.USA.CA.7BTC409.speed Column root.Cadillac_XT5.USA.NV.6BAC321.speed Metric Measurement Column Table Name: Cadillac_XT5 (RDB schema or NoSQL like Cassandra) country state device name timestamp fuelRemain speed USA CA 7BTC409 t1 5.0 120 USA CA 7BTC409 t2 4.9 109 USA CA 6BAC321 t1 NULL 50 USA CA 6BAC321 t3 NULL 65 Tags and Fields in InfluxDB, KariosDB, OpenTSDB…

28 .The schema mapping 2 Database Storage root.Cadillac_XT5.USA.CA.7BTC409.fuelRemain group root.Cadillac_XT5.USA.CA.7BTC409.speed Table Device root.Cadillac_XT5.USA.NV.6BAC321.speed Column Measurement / Sensor Database: root.Cadillac_XT5 Table Name: USA.CA.7BTC409 Table Name: USA.NV.6BAC321 timestamp fuelRemain speed timestamp speed t1 5.0 120 t1 50 t2 4.9 109 t3 65 Tags and Fields in InfluxDB, KariosDB, OpenTSDB…

29 . 实战案例 • 场景：300辆地铁列车，每辆列车3200个传感器数据 • 建模： Storage group 地铁线路（如一号线） Device 列车编号 Measurement / Sensor 具体传感器（温度计） • 例子： • 一号线的8号车的温度计： metro.line1.No8.thermometer

3点赞

5收藏

10下载