- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
解锁时序数据存储与应用能力 - Apache IoTDB
天谋科技分享于上海开源技术沙龙 #1(2024.03.02)
展开查看详情
1 . www.timecho.com Apache IoTDB: 解锁时序数据存储与应用能力 Apache IoTDB PMC,产品负责人 赵馨逸 http://www.timecho.com contact@timecho.com
2 .目录 contents 时序数据与时序数据库 Apache IoTDB 应用案例 Timeseries Data & Database About Product User Cases 关于我们 About Us
3 .时序数据与时序数据库 Timeseries Data & Database
4 . 物联网时代带来海量时序数据 风力发电机中的时序数据 数据产生量及时序数据占比 • 时序数据是指时间序列 设备号 时间 发电量 60 数据量(ZB) 时序数据占比 数据,是按时间顺序记 27993 15:58:26 180.7 30% 录的数据列 数据点 27993 15:58:44 189.8 40 26% 27993 15:59:04 190.3 20 27993 15:59:24 202.1 22% • 工业物联网中,机器设 27993 15:59:35 204.4 0 18% 备、传感器实时产生了 2020 2021 2022E 2023E 2024E 2025E 海量时序数据 时序数据 时序数据:“设备的心电图” • 时序数据管理是全面数 字化、服务转型升级的 基础 www.timecho.com
5 . 物联网时代带来海量时序数据 工程领域 车联网领域 能源领域 桥梁监测的支座位移、 汽车的车速、发动机转 发电风车的功率、电压、 动态应变、静态应变、 数、胎压、经度、纬度 电流、风速、角速度 振动、挠度 www.timecho.com
6 . 时序数据为企业提供新的利润增长点 业务问题 解决方案 风机投入运行后测风仪随着环境因素(震动, • 数据应存尽存:全量高频率 腐蚀等)出现偏差,主控系统依据错误风向数 正常数据 存储风机迎风角数据及发电 发电功率系数 据偏航导致迎风角错误,将会导致风机发电效 功率数据 误差补偿 率衰减,影响产能 • 充分分析数据(关联分析): 异常数据 利用风机时序数据对做工曲 测风仪数据用于调整偏航角度, 以保证风机合适的迎风角发电 线进行建模,获得风机迎风 迎风角(测风仪) 角和发电功率的变化模式, 判断是否需要进行对测风仪 误差进行补偿 业务收益 每台风机每年可多发电3.13万元人民币,按照1.5万台风机计算,这一技术将 给业主每年带来超过1.5亿元人民币的经济效益。 www.timecho.com
7 . 时序数据为企业提供新的利润增长点 业务问题 解决方案 钢铁厂产线设备老化、自动化程度不高,且多数为大 • 数据应存尽存:全量高频率存 型设备,环境高温高湿,人工维护困难且危险。当设 储设备振动数据 备出现异常问题导致停机时,产线停摆、产能下降, 同时人工现场问题定位和修复难度高、时间长、安全 • 深入分析数据(数据告警+频域 保障差不利于设备的维护。 分析+机理分析):通过时序数 据告警监测设备振动变化趋势, 大型设备维修检修环境恶 出现异常时通过频域、机理分 劣,排查难度高,人员安 析判定设备故障原因,再进行 全性保障较差 现场维护 业务收益 形成一个平台、一个专家系统、一套标准化体系的智能设备运维新模式,出问 题不再单一依赖人工现场排查,提升排查效率和排查安全性 www.timecho.com
8 . 时序数据管理进入数据中台管理范畴 数据中台 数据源 数据应用 机器学习 知识图谱 规则引擎 算法库 第三方系统 财务系统 FTP 数据集成 数据服务 数字化平台 数据底座(数据湖) API 创建 协同平台 KAFKA 离线数据 数据仓库 时序数据(IoTDB) 集成 (Doris/Hive…) API 上架 监管系统 API data data 实时数据 综合系统 集成 API 更新 网关 供应链系统.. 文档数据 业务数据 日志数据 MQTT (Elasticsearch…) … (MongoDB…) (MySQL…) data data data … www.timecho.com
9 . 时序数据管理挑战 测点多 采样频率高 存储代价大 • 百万设备 • 1kHz 仿真模拟 • 月增量10TB以上 • 亿级测点 • 振动状态监控 • 数据需长期存储 • 动态增加 www.timecho.com
10 . 物联网时序数据管理方案演进 OT自动控制领域(实时数据库) 时序 + IoT 物联网 端边云 分布式 IT信息化领域(关系型/时序数据库) 类关系/键值方案 物联网时序数据库 www.timecho.com
11 . 工业物联网时序数据库管理系统 Apache IoTDB 高吞吐 高压缩 高可用 物联网原生 端边云协同 > INSERT INTO root.timecho.device (time, metric1, metric2) VALUES ( now(), 1.0, true); > SELECT avg(*) FROM root.timecho.device WHERE time > now() – 1d GROUP BY 1h FILL (previous, 30m); www.timecho.com
12 .Apache IoTDB About Product
13 . 发展历程 蕴育期 开源孵化 开源与商业化运作并行 • 清华团队参与863计划课题 • 成为 Apache 唯一时序数据 • 天谋科技正式成立 • 使用开源技术管理海量机器 库项目,“端边云协同”架构 • 提供基于Apache IoTDB的企业产品和服务 数据,发现瓶颈并确定方向。 吸引德、美、澳等同行关注。 • 获由红杉领投的近亿元天使轮融资 2011 2015 2018 2020 2021 • 由清华大学软件学院发起, • Apache IoTDB 开源项目升为全 启动清华 IoTDB 研制 球顶级项目(TLP) • 建成了全球认可的国际开源社区 自研期 毕业 www.timecho.com
14 . 产品架构 应用 可视化控制台 系统监控工具 集群管理工具 系统管理 & 命令行工具 导入导出工具 交互式分析 节点管理 工具 权限管理 查询计算引擎 实时流处理引擎 智能分析引擎 审计日志 视图 UDF函数 实时同步 数据告警 模型推理 机器学习 白名单 触发器 连续查询 批量同步 规则引擎 模型管理 任务执行器 生态集成 存储引擎 动态模式 多级存储 内存管理 文件存储 文件管理 Kafka Flink 文件存储 写前日志 数据文件TsFile 文件索引 文件存储 过期标记 Grafana 数据接入 多采集协议 发送端缓存 网闸穿透 文件存储 一键配置 企业版功能 通用功能 www.timecho.com
15 . IoTDB 横向解决方案:单平台采存算管用 边缘网关 流式处理 大屏展示 时序查询 实时计算 机器学习 批量处理 模型推理 报表生成 Modbus 处理 JDBC 查询 分析 模型训练 数 采 据 集 处 协 理 时序数据内核 分 议 析 TCP 存算分离架构 趋势分析 OPC 实时数据缓存管理 历史数据全量管理 设备状态监控 CoAP 异常告警 …… 内置流引擎 数据云边协同 数据存储 内存缓存 流式计算 消息队列 数据订阅 转换输出 时序数据历史存储管理 + 时序数据内存缓存管理 + 时序数据实时流式计算 + 时序数据信息消息队列 + 实时推送最新数据及状态 + 时序数据转换输出 www.timecho.com
16 . IoTDB 纵向解决方案:跨平台端边云协同 IoTDB 集团云平台 分布式 IoTDB 宝山厂 青山厂 昆山厂 双活版 铸轧 包装 铝箔 炼钢 热轧 冷轧 能环 钢管 炼铁 IoTDB 单机版 TsFile 文件 www.timecho.com
17 . 产品优势 源自清华,国产自研 物联网场景优化 从数据文件到分布式,不依赖 物联网数据模型:设备测点模型 第三方系统 物联网存储引擎:IoTLSM 物联网共识协议:IoTConsensus Apache 顶级项目 IoTDB 全流程数据处理 Apache 基金会唯一时序数 实时流处理引擎 据库顶级项目,开源协议商 核心优势 交互式查询计算引擎 业友好 智能分析引擎 端边云协同架构 简单易用 部署模式齐全:单机模式、 支持跨平台部署、开箱即用 双活模式、集群模式 www.timecho.com
18 . 管得好:树形时序模型,BOM设备资产便捷建模 权限范围一:中心管理员权限 OT视角:BOM数据直观对接 集团节点 • 对接BOM数据管理结构 设备结构直观对应 • 创建合理转化模型 工厂1 … 工厂n 新增设备自动发现 • 自动化同步新增、变更设备信息 变更设备及时调整 电厂1 … 电厂n 亿级时间序列管理规模 发电设备 发电设备 发电设备 发电设备 发电设备 m • 基于PBTree的元数据管理 • 高效元数据存储 1 2 A B • 提高数据质量、降低数据冗余 序列级时间序列权限控制 时间 值 时间 值 时间 值 时间 值 时间 值 权限范围三:某电厂管理员 权限范围二:公司管理员 • 支持RBAC权限体系 • 支持序列级权限设置 root.company_1.factory_3130.device03114567EO385HGBT.temperature • 支持5类15种权限 集团层级 工厂层级 设备层级 测点层级 www.timecho.com
19 . 接得住:物联网存储引擎,高频数据毫秒级接入 传统时序数据库 IoTDB 时序数据库 行式数据写入,只支持秒级数据接入。 列式数据写入,支持毫秒级数据接入,相较竞品 10倍性能优势 核电监控数据采集频率可达 1000Hz 据IEC61400-25标准 风机每年运行7500小时将产生 6TB 数据 www.timecho.com
20 . 接得住:物联网存储引擎,乱序数据无感写入 弱网环境(断网、延迟) 时间戳 温度 时间戳 温度 15:58:26 312.1° 15:58:26 312.1° 15:58:44 312.3° 15:59:04 311.8° 数据库接收 15:59:04 311.8° 15:58:44 312.3° 传感器采集 难点:数据无法保序到达 解法:首创乱序分离存储引擎,乱序数据处理达竞品4倍以上 以某电场客户数据为例: - 存在 50% 以上 乱序数据 - 延迟时长 0到300分钟 不等 - 30分钟内乱序数据超90% * 数据库领域三大顶会 ICDE 2022 www.timecho.com
21 . 存得下:超高压缩比,无损压缩达10倍以上 自研TsFile时序数据标准文件格式 相比通用文件格式: 压缩比提升20%以上(无损压缩10倍以上,有 列式存储+ 文件级索引确保 高压缩率编码算法 海量序列高效检索 损压缩100倍以上) 写入吞吐提升2-3倍 查询吞吐提升2-10倍 多种分段摘要信息 确保过滤、聚合性能 数据区 索引区 * 数据库领域三大顶会 SIGMOD 2023 Apache IoTDB www.timecho.com
22 . 分析强:丰富的时序数据查询能力 降采样查询 最新点查询 时序分段查询 原始序列 每5分钟取均值采 样为一个数据点 降频序列 将原始高频数据降频查看,去除不必要数 缓存每个设备的最新值,毫秒级响应查询 根据时间序列的变化阈值、中断间隔等进 据细节,还原数据基本走势 请求。 行多维度分段查询。 (如:查询风机过去一天内每5分钟的平 (如:查询设备最新状态) (如:查询设备在一段时间内的总开机时 均值) 长) www.timecho.com
23 . 分析强:专业的时序数据分析能力 1. 内置各类常见函数 子序列模式匹配:历史数据分析 • 支持常见算数运算 • 快速计算中位数、平均数, 快速修复缺失数据,扰动 时间戳对齐等; 2. 补充基本时序处理函数 • 时序数据修复类函数 时频变换:多维深度分析 超过70种内置UDF分析函数 • 时序数据管理类函数 函数类型 函数名称 • 时序数据应用类函数 数据画像(22) ACF, Distinct, Histogram, Integral, IntegralAvg, Mad, Median, MinMax, Mode, MvAvg, PACF, Percentile, Period, QLB, Resample, Sample, Segment, Skew, Spline, Spread, Stddev, ZScore 3. 开发高阶时序处理函数 数据质量(4) 数据修复(3) Completeness, Consistency, Timeliness, Validity ValueFill, TimestampRepair, ValueRepair • 模式匹配、时频变换 数据匹配(10) Cov, Dtw, PtnSym, Pearson, SeriesAlign, SeriesSimilarity, ValueAlign, Xcorr, MAE, RMSE 异常检测(6) IQR, Ksigma, LOF, MissDetect, Range, TwoSidedFilter 频域相关(7) Conv, Deconv, DWT, FFT, HighPass, IFFT, LowPass • 预警、诊断和评估算法 序列发现(2) ConsecutiveSequences, ConsecutiveWindows 字符串处理(4) RegexMatch, RegexReplace, RegexSplit, StrReplace 4. 用户自定义函数 数据平滑(5) EMA, DEMA, TEMA, TRIX, RSI 数据预测(5) Decompose, STL, AR, SARIMAX, Holt-Winters • 全生命周期管理 复杂事件处理(7) AND, EvenetMatching, EvenetNameRepair, EventTag, EventTimeRepair, MissingEventRecovery, SEQ • UDTF和UDAF支持 www.timecho.com
24 . 分析强:智能化数据库内生机器学习 时间序列预测: 拥抱智能化分析,在 IoTDB 集群引入智能分析节点 AINode STLForecaster IoTDB Applications 智能分析系统 智能分析应用 ConfigNode Python UDF 模型元信息 模型元信息 分布式 持久化 管理 节点管理 机器学习 模型 模型 元信息 注册 深度学习 时间序列预测: 时间序列预测: DataNode AINode Autoformer Autoformer 分析查询 推理引擎 序列预测 SQL 引擎 存储引 模型持久化 查询引擎 擎 异常检测 推理结 智能化算法 TsFile 果 内存数据区 …… www.timecho.com
25 . 实时性:内置实时流处理功能 功能场景:内置实现数值规则告警推送、实时数据计算加工、实时数 据统计等流式能力。 IoTDB 功能特点: 流处理引擎 1、高可用:计算任务可容忍副本失效等可用性问题 流处理任务 2、强容错:支持进度记录、出错自动重试、断点重算等特性 Source Processor Sink 3、低延迟:基于流式变更捕获和处理技术,提供 ms 级别响应延迟 … 4、可扩展:提供 Java 开放编程接口,支持用户自定义逻辑插件开 流处理任务 发,支持用户插件热加载 5、易观测:提供接口调用时间、事件堆积数量等 10+ 监控指标,支 存储引擎 持可视化观测 www.timecho.com
26 . 云边协同:文件+引擎全面数据协同能力 端 边 云 灵活插拔数据文件格式TsFile 方案 1 分布式 • 统一时序数据存储标准 数采程序 消息队列 IoTDB • 与 IoTDB 形成存算分离架构 • 提供SDK支持第三方系统对接 方案 1 分布式 方案 2 IoTDB 数据传输协议支持 方案 2 操作级同步 IoTDB 单 • 支持多种主流协议 分布式 TsFile文件 机版 IoTDB • 跨网闸传输、加密传输 文件级同步 文件级同步 多种传输模式支持 • 操作级同步实时性强 • 文件级同步吞吐量大 TsFile时序数据标准文件 www.timecho.com
27 . 工具全:可视化控制台 Workbench 实施人员与业务人员的应用工具:图形化操作、易于交互 www.timecho.com
28 . 工具全:集群管理工具 IoTDB-OpsKit 服务数据库运维人员(DBA):一键部署、一键启停 原生支持容器化部署 • 控制节点 ConfigNode • 数据节点 DataNode • 多节点一键式部署 秒级扩容 • HPA 自动扩容、Kubectl 手动扩容 • 扩容后可选择性迁移原有数据 • 保障集群性能和稳定性 www.timecho.com
29 . 工具全:系统监控面板 服务数据库运维人员(DBA):性能调优、异常诊断 www.timecho.com