- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 视频嵌入链接 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
星环新一代搜索:支持文本到时空
错过5月15日星环科技2020春季新品发布会的你,又有上船的机会啦,5月19日起,开启新品深度解读系列直播!还等什么?
最终讲 星环新一代搜索【支持文本到时空】
分享时间:7月17日 15:00-16:00(线上直播)
分享嘉宾:宋宇 星环科技大数据产品经理
分享内容:
在传统的关系型数据库之外,非结构化数据领域也活跃着许多新兴技术。这次演讲,我们聚焦全文搜索场景。星环科技从开源全文搜索引擎架构Lucene、倒排索引算法等基础开始,经过数年自主研发,推出新一代搜索引擎软件Transwarp New Search。相较于开源数据搜索引擎,NewSearch硬件成本低,数据恢复速度快,数据读写速度高,并支持复杂聚合分析场景。
自主研发的引擎技术,不仅仅应用于全文搜索,也应用于时空地理等场景。本次分享会详细介绍星环新搜索引擎如何支持从文本到时空的多种应用,欢迎大家收看收听。
7月17日15点,不见不散!
更多新产品及解决方案深度解析敬请期待!
往期回看方式:关注“星环社区”公众号,点击菜单栏“直播回看——深度解读回看”即可无广告回看以往所有分享
展开查看详情
1 .星 环 科 技
2 . 星 环 科 技 星环科技 Transwarp NewSearch技术详解
3 . NewSearch:大规模分布式搜索引擎 星 环 科 技 支持SQL 2003和全文检索SQL扩展,高性能检索和分析 API SQL Compiler New Search Server 支持读写分离技术,服务稳定性增强 Install & Monitor & Management 支持堆外的内存管理技术 Security & Access Control Transwarp Manager Distributed Distributed 可扩展性为PB级别,单节点可支持30TB Execution Storage Guardian 分布式实时 支持对冷热数据不同的处理方式(有效降低10%~20%的内存空间) Engine 综合搜索引擎 Engine 提供压缩速度更快、压缩率更高的存储方式(提高15%~25%的性能) Shiva – Reliable Data 支持时空地理信息的高效处理 Distributed Framework 存储层预处理支持算子下推 Transwarp Cloud Operating System 支持kerberos安全 (Embedded Edition) Based on Docker & Kubernetes
4 . NewSearch – 高性能检索和分析 星 环 科 技 ➢ 高性能检索与分析 • 海量数据检索 • Search SQL ✓ Date/numeric/ip/Geospatial类型的性能提升25%, ✓ 支持中文列名 存储空间减半,索引时间减半 ✓ 支持高亮和打分 ✓ 索引性能提升15%~20% ✓ 支持Score、Shard虚拟列 ✓ 独立的ES Client,提供RESTful接口 – Score和Shard可通过SQL方式进行结构化查询和分析 ✓ 50节点每天入库10TB原始数据 ✓ 支持Score自定义权重 – 多条件查询时,可指定不同条件的权重 ✓ 单机存量数据13TB – 主要用于更逼近现实应用场景的检索,不同词条权重不同 • 安全管控 ✓ 建表时可指定不在某列上创建索引 ✓ API访问支持Kerberos加密 – 对非检索列不建索引,节省存储空间,提高入库速度 select * from weight_test k1 test weight where contains(val1, 'test', 5.0) Key Value k2 test other and contains(val1, 'weight', 0.5) k3 other weight k1 ‘test weight’ order by score_desc; k2 ‘test other’ select * from weight_test k1 test weight k3 ‘other weight’ where contains(val1, 'test', 0.5) k3 other weight and contains(val1, 'weight', 5.0) k2 test other order by score_desc;
5 . NewSearch – 算子下推 星 环 科 技 ➢ 算子下推 select count(1), col2 只传输本地预处理后的结果 from table1 col1=xxx where col1=xxx count(1) group by col2 group by col2 计算层 计算层 全量数据 少量中间结果 shuffle shuffle 过滤 聚合 本地 存储层 算子下推 预处理 存储层
6 . NewSearch – 对内存的优化 星 环 科 技 ➢ JVM内存稳定性改善 • 持久化索引在堆内容易积压在JVM的第一代,引起full GC导致稳定性问题 • 索引移到堆外,充分利用系统内存资源,提升单机存储上限 • 精细的内存管理模型,提升海量数据检索的稳定性 中间对象 中间对象 新一代 上一代 临时对象 其他对象 其他对象 持久索引及 其他持久对象 持久索引 持久对象 优化前的JVM堆 优化后的JVM堆 堆外内存
7 .NewSearch – 内存优化细节 星 环 科 技 1 堆外内存(Off-Heap): 持久化索引移到堆外,充分利用系统内存资源,避免堆内积压在JVM的old代,引 起full GC导致稳定性问题 2 冷却技术(Cooling): 对不需要检索的字段(如rowKey)可以使用命令进入cooling状态,并让其自动 完成segment merge,在内存中释放掉不再被检索的字段占用的字典,以减少 index对内存的占用 3 自适应段合并( Auto-Merge ): Search本身支持多种段合并机制,在此基础上Search新版本提供了自动化的策略 选择能力,通过监听与收集统计信息,自主确定最佳策略,对近期没有写入的 段进行合并
8 .NewSearch – Cooling实际效果 星 环 科 技 背景:对总共158T/ 100T分区中历史分区中的81T做了cool操作 优化之前 优化之后 name node(T) (堆外)/(G) node(T) (堆外)/(G) Node1 7.94 31.21 7.82 21.74 Node1-1 7.87 31.02 7.69 21.69 … … … … … Node10 7.89 31.04 7.56 21.14 Node10-1 8.18 31.9 8.12 22.51 合计 158(T) 618.29 156(T) 430.6 均值 15.8(T) 61.83 15.6(T) 43.06 效果: 历史分区中的81T数据进行了cool操作,那么这部分优化出来的内存则可以用于增量表 数据量增长的支撑:81T*(61.83/43.06)-81=35T
9 . 星 环 科 技 星环科技 Transwarp NewSearch性能优势
10 .NewSearch – 性能优势(1) 星 环 科 技 • 业务场景1: 硬件投入成本有限,一台机器的磁盘和内存占比大约为50TB:256GB=200:1, 要尽可能提高资源利用率 • 开源ES :单节点单实例 10TB • 一代Search:单节点单实例 30TB • 二代Search:单节点单实例 50TB • 业务场景2: 数据总量大,在百TB-PB量级 • 开源ES :实例超过100,会出现连环失联等稳定性问题 • 一代Search:大集群需专门调优,能大幅缓解节点失联问题,但集群规模超过100时仍有风险 • 二代Search:支持节点或实例200以上无性能衰减,有更好的稳定性
11 .NewSearch – 性能优势(2) 星 环 科 技 • 业务场景3: 高可用要求高, 保证99%以上的SLA, 在有节点异常情况下可自动快速恢复 • 开源ES :TB数量级节点重启需要数小时 • 一代Search:总结了重启最佳实践,在写入少的情况下TB级数据恢复能加速到几十分钟内 • 二代Search:TB数量级节点重启只需几分钟 • 业务场景4: 数据维度高,需要做多表关联分析 • 开源ES :没有直接支持多表关联操作 • 一代Search:支持多表关联操作 • 二代Search:支持多表关联操作
12 .NewSearch – 性能优势(3) 星 环 科 技 • 业务场景5: 查询主要查最近N天内的数据,对再老的数据查询频度不高 • 开源ES :没有对冷热数据做特别处理 • 一代Search:对冷热数据有总结出最佳实践,但还不够好用 • 二代Search:对冷热数据做了优化,提升了查询性能 • 业务场景6: 每天增量数据多,对入库性能要求高. 数据写入几乎都是append,很少有修改和delete操作 • 开源ES :入库性能随着数据量增大会逐渐变小 • 一代Search:优化存储格式,性能能提升10%-20%,但入库性能依然随着数据量增大会逐渐变小 • 二代Search:加入bloom filter索引,将入库性能随着数据量增大的影响尽可能减小, 入库性能能提高30%-70%, 而且支持bulkload功能
13 . 星 环 科 技 星环科技 Transwarp 时空库Search技术详解
14 .时空大数据 星 环 科 技
15 .时空大数据 星 环 科 技 动态数据获取 数据管理 接受 调取 输入输出 编辑处理 基础地理信息 查询统计 可视化 分析测量 动态更新 历史数据管理 常用分析 空间测量 元数据管理 安全管理 公共专题 空 模拟推演 间 全空间信息模型 时空过程 决策预案 处 ⚫ 理 模拟 推演 ⚫ 高并发 智能感知 ⚫ 大数据量管理 ⚫ 实时/高效 大数据管理 大数据挖掘 存储检索 基础分析 编辑处理 数据流转 空间分布 多因子关联分析 空间规划 智能监控 时空分析 主题分析
16 .时空库典型场景 星 环 科 技
17 .Search在时空库中的应用 星 环 科 技
18 .Search在时空库中的应用 星 环 科 技 • 空间数据管理(Spatial Data Management) – 空间数据(Spatial) • 矢量/影像/高程/点云等 – 时空数据(Spatial Temporal) • Moving Point(i.e. Trajectory/轨迹) –人/车辆/船舶/飞机 33 31 • Moving Extent 36 传统GIS领域空间数据 遥感影像 基于位置服务的数据
19 .Search在时空库中的应用:技术详解 星 环 科 技 空间数据模型 空间索引 空间处理 空间查询 矢量数据 矢量数据 轨迹处理 矢量数据 类型: geo_shape 1. 支持图形关系查询 ✓ 轨迹清洗 1. 图形关系查询 ✓ 支持OGC标准类型 ✓ Geohash/QuadTree ▪异常点检测 ▪完整支持OGC标准 ▪点线面 ✓ R Tree ▪降噪 2. 分析函数 ▪集合 ▪查询优化 ▪简化 ▪OGC标准函数 ✓ wgs84坐标系 2. 支持相似/近邻查询 ✓ 数据源 ▪大部分与PG兼容 ▪常见坐标系转换* ✓ VP Tree ▪GPS 3. 相似/近邻查询(kNN) ▪伴随分析 ▪基站 4. 空间分析 ▪基站漂移* ▪热力图 轨迹数据 轨迹数据 轨迹数据 类型: path* 1. 支持轨迹关系查询 1. 常见轨迹关系查询 ✓ 轨迹 ✓ SETI* ▪进入/离开/经过等 ▪坐标+时间 ▪空间+时间 2. 轨迹分析 ✓ 离线分析 ▪停留点分析 ▪相似度计算*
20 .技术详解:空间数据模型 星 环 科 技 • 空间数据模型 • 矢量数据 ✓支持OGC标准类型 ▪ 点(Point) : 如公交/地铁站等 ▪ 线(LineString) : 如公路, 河流等 ▪ 多边形(Polygon): 如学校, 商场,国家边界等 ✓wgs84坐标系 ▪ 常见坐标系转换 • 轨迹数据 ✓轨迹类场景(飞机/船只) ▪ 连续采样点: 坐标+时间 ✓支持离线分析 矢量数据模型
21 .技术详解:空间查询 星 环 科 技 空间查询 矢量数据 1. 图形关系查询 • 完整支持OGC标准(DE-9IM) 2. 分析函数 • OGC标准函数 • 大部分与PG兼容 OGC DE-9IM 缓冲区分析 3. 相似/近邻查询(kNN) 4. 空间分析 • 缓冲区分析 • 热力图 POI 非空间 ⇔ 位置 • 类别 • 地址 热力图 蜂窝热力图
22 .技术详解:轨迹数据 星 环 科 技 轨迹数据 1. 常见轨迹关系查询 • 进入/离开/经过等 2. 相似轨迹查询 • 时间/空间 • 运动特征 轨迹关系 停留点分析 3. 轨迹分析 • 属性计算 • 停留点分析 4. 轨迹聚类 5. 语义轨迹 • POI 6. 碰撞分析 • 时间/空间 7. 构建地图 相似轨迹查询 语义轨迹
23 . 星 环 科 技 星环科技 Transwarp Search案例与应用
24 .疫情防控与监测 星 环 科 技 1 从确诊病例确定感染高危人群 可以利用时空数据库的碰撞,根据确诊病例出现的时 间点,找到受到影响的一批潜在感染高危人群,将这 些人群的行动轨迹再次进行分析,管理部门可以快速 锁定这些高危地区,进行临时的疫情防控举措调整, 派遣人力对这些场所进行管理、消毒等,还可以进一 步的分析,将风险最小化。 甄别出高危人群短期内出现的公共场所和人群密集场所
25 .疫情防控与监测 星 环 科 技 2 关键区域预警 对于已确诊人员、高度疑似、确诊病例的亲密接触者等人群,可以 设置电子围栏,一旦人员离开,系统会自动报警。而对于重点区域 或人群密集场所,如医院、大型超市、车站、机场 、港口等地,则 可以通过系统连接,一旦高危人群出现在这些场所,可以马上采取 措施,将高危人员进行区分,对周围的人群进行相应的检查、对所 在场所进行消毒等措施,对于人群密集场所的管理,起到非常好的 作用。 为关键区域设置电子围栏
26 .疫情防控与监测 星 环 科 技 3 知识图谱展示了多个确诊人群的传播路径 流行病学调查 流行病学调查是通过对疾病预防控制及相关信息进行搜集、分析和 预测预报,为疾病预防控制决策提供科学依据。 通过对所有确诊人员的传播渠道构建知识图谱,确定每位确诊患者 属于第一代或第N代患者,进而找到0号传染源,完成流行病学调查。 同时可以结合已有防控手段,追溯确诊人群“漏网”环节,进一步改 进阻断措施。
27 . 星 环 科 技 感谢聆听 http://www.transwarp.cn