- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 视频嵌入链接 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
用Greenplum技术生态构建智慧城市
随着大数据时代的数据积累,越来越多的智慧分析需求应运而生。人工智能、大数据、云计算技术已广泛应用于智慧城市场景。 Greenplum技术生态将数据与智能结合,提供了一套既能实现大数据又能实现算法引擎的底座工具。 本次直播将通过智慧城市的业务场景解决方案,讲解Greenplum超融合一体化的技术实战:大数据、Gis引擎、机器学习/深度学习引擎、检索引擎、知识图谱、PLPython相关技术的详细使用方法。
话题大纲:
- 智慧城市数据底座
- 时空大数据
- 知识图谱
- AI引擎与检索引擎
- 超融合一体化
展开查看详情
1 . 用Greenplum技术生态 构建智慧城市 面向技术开发、大数据以及算法研究 刘昊松 Greenplum中文社区 2022 5 Confidential │ ©2021 VMware, Inc.
2 . 智慧城市数据底座 Agenda (Greenplum的大数据平台) 时空大数据 (PostGis) AI引擎与图计算 (Madlib/Plpython) 检索引擎 (GPText) 超融合一体化 (All in one策略) Confidential │ ©2021 VMware, Inc. 2
3 .智慧城市数据底座 Greenplum大数据平台 Confidential │ ©2021 VMware, Inc. 3
4 . 智慧城市 简单来说,智慧城市利用信息通信技术,实现城市各个方面的智能化管理和运营,包括社区、教育 、交通、安防、医疗等各个领域。 智慧社区 智慧教育 智慧交通 智慧安防 智慧医疗 智慧社区包括智慧家 引入新一代信息技术 基于交通数据的智能 通过无线移动、跟踪 建立流畅的医疗信息 居、智慧物业等基础 ,搭建智慧教育平台 分析,控制和支持交 和定位等手段建立全 体系,避免医疗资源 设施服务,涵盖社区 ,实现教育的数字化 通建设管理的全过程 面的三维防护。全面 两极分化,健全的医 内外的各种服务,以 、网络化、智能化和 ,使系统具有感知、 整合城市管理系统、 疗监管机制。 及智慧养老、智慧零 多媒体化。 互联、分析、预测、 环境监测系统、应急 售等民生服务。 控制等能力。 指挥系统等。 Confidential │ ©2021 VMware, Inc. 4
5 . 基于卫星正射和GIS数据自动化生成:根据卫星正拍影像和采集 到的GIS数据,AI算法可以自动生成城市场景。 基于OSGB数据重构生成:根据倾斜摄影/激光雷达扫描,计算 机语义识别算法自动轻量化重建。 基于BIM数据自动生成:基于BIM模型自动转化生成,并保留所 数字孪生/元宇宙 有构件和零件目录与属性。 程序化生成特定场景:基于程序算法快速生成特定场景,如输电 站和输电网。 业内龙头企业51WORLD的数字孪生案例。 基于HD Map高精地图生成:基于高精地图点云模型重构生成高 精度道路场景。 www.51aes.com 基于海量数字资产库构建:基于海量数字资产库特征匹配快速搭 建场景。 基于照片拓扑重建生成:基于照片实拍的3D拓扑重建生成模型。 基于PaaS平台快速搭建:基于PaaS平台的场景二次编辑。 5 Confidential │ ©2021 VMware, Inc.
6 . 基础数据类型: l 数值类型(int/float),货币类型(money),字符类型(text),日 期时间类型(timestamp/date/time),布尔类型(boolean), 枚举类型,网络地址类型,文本搜索类型,UUID类型,XML类 关键技术的支持 型,JSON类型,数组类型,复合类型(结构体),二进制类型。 空间地理信息数据类型: l Gis数据类型(Geometry),包含 点、线、多边形、多面体、 复合类型(组合结构)等。 1、数据底座 视频图像数据: 2、Gis等多源数据 l 数组嵌套二维数组,元素为像素的RGB。 3、计算引擎 4、3D虚拟现实 图数据: l 知识图谱数据,三元组形式。 Confidential │ ©2021 VMware, Inc. 6
7 .时空大数据 PostGis Confidential │ ©2021 VMware, Inc. 7
8 . PostGis 数据存储: 数据计算: 地理信息数据的结构化存储, 02 支持各种地理信息数据的计算,包括 Geometry字段类型,包括点、线、 01 求距离、判断相交关系、计算相交区 多边形、多面体、复合类型等。 域、计算面积等各种功能。 03 数据展示: 通过QGis等直连数据库,生成.shp格 式的缓存文件等手段进行数据呈现与 展示。 p o st g is-2.4.0.p d f Confidential │ ©2021 VMware, Inc. 8
9 .通信大数据 基于通信运营商的人口定位分析案例。 三点定位->栅格化定位 Confidential │ ©2021 VMware, Inc. 9
10 .AI引擎与图计算 Madlib/PLpython Confidential │ ©2021 VMware, Inc. 10
11 . 主要功能模块: 数据类型与转换(数组与矩阵运算、稀疏 图算法(图计算、单源最短路径等) 向量等) Madlib 模型评估(交叉验证、指标验证等) 统计(描述性统计、推断性统计、概率函 数) 监督学习(条件随机场、回归模型、支持 时间序列分析 1、机器学习 向量机、树方法) 2、深度学习 应用函数(数据库函数、线性求解器、路 3、知识图谱 无监督学习(关联规则、聚类、主题模型) 径函数、PMML导出、会话化、文本分析) Confidential │ ©2021 VMware, Inc. 11
12 . KNN算法案例 小王是一家著名高尔夫俱乐部的经理。但是他被雇员数量问题搞得心情十分不好。某些 天好像所有人都來玩高尔夫,以至于所有员工都忙的团团转还是应付不过来,而有些天 不知道什么原因却一个人也不来,导致俱乐部为雇员数量浪费了不少资金。 l 小王的目的是通过下周天气预报寻找什么时候人们会打高尔夫,以适时调整雇员数 量。因此首先他必须了解人们决定是否打球的原因。 l 在两周时间内可以得到以下记录:天气状况有晴、云和雨;华氏温度表示的气温; 相对湿度百分比;是否有风。当然还有顾客是不是在这些日子光顾俱乐部。最终他 得到了14行5列的数据。 Confidential │ ©2021 VMware, Inc. 12
13 .KNN算法案例 M ad lib -KNN.t xt Confidential │ ©2021 VMware, Inc. 13
14 . 虚拟机版本: Madlib版本: 操作工具版本: PLpython Linux Centos Postgresql Navicat 10.13 + Madlib 7.4 1708 1.16 P r e m i u m 11 . 1 1、Python过程化语言 2、天然分布式 3、时间序列预测自动定阶 PLPyt ho n 脚本.t xt arim a_p d q .t xt Confidential │ ©2021 VMware, Inc. 14
15 .知识图谱 • 知识图谱 ( Knowledge Graph) • 结构化数据(Structed Data): 的概念由谷歌2012年 如关系数据库 正式提出,旨在实现 更智能的搜索引擎, • 半结构化数据(Semi- 并且于2013年以后开 Structed Data): 如XML、JSON、百科 始在学术界和业界普 及。 • 非结构化数据 (UnStructed Data): • 目前,随着智能信息 如图片、音频、视频、文 服务应用的不断发展, 本 知识图谱已被广泛应 用于智能搜索、智能 问答、个性化推荐、 情报分析、反欺诈等 • 知识图谱是结构化的语义知识库,用于迅速描述物理世界中的概念及其相互 领域。 关系。 • 知识图谱有自顶向下和自底向上两种构建方式。借助百科类网站等结构化数 据源,从高质量数据中提取本体和模式信息,加入到知识库中。 Confidential │ ©2021 VMware, Inc. 15
16 .节点之间存在关系, 他们就会被一条无向 三元组 知识图谱的基本单位 边连接在一起,这个 是“实体(Entity) 节点称为实体 - 关系 (Entity),它们之 (Relationship)- 间的边称为关系 实体(Entity)”构 (Relationship)。 实体 关系 成的三元组,这也是 实体指的是具有可区别性且独立存在 的某种事物。实体是知识图谱中的最 关系是连接不同的实体,指代实体之 间的联系。通过关系节点把知识图谱 基本元素,不同的实体间存在不同的 01 02 中的节点连接起来,形成一张大图。 知识图谱的核心。 关系。如“中国”、“北京”、“2069.3万” 等。 如“人口”、“首都”、“面积”等 Confidential │ ©2021 VMware, Inc. 16
17 . 7 1 1 3 1 1 1 1 2 0 2 2 图计算 2 5 8 3 2 2 4 3 9 6 1、有向图与无向图 2、数据示例 3、图计算脚本 算法01:单源最短路径算法.t xt 算法07:全最短路径、中心性算法.t xt Confidential │ ©2021 VMware, Inc. 17
18 .检索引擎 GPText Confidential │ ©2021 VMware, Inc. 18
19 . GPText是作为 Greenplum文本分析的扩 展引擎。 文本检索 1、GPText 2、Gin索引 GPText是将Greenplum 数据库集群与Apache SolrCloud相结合,对大 规模的文本分析进行支持。 Confidential │ ©2021 VMware, Inc. 19
20 .GPText的特性 1. 海量文本数据处理。 3. 支持半结构化、结构化数据(社交媒体、 2. 高速并行全文本检索。 XML等格式文档、Json格式数据等)。 5. 复杂文本分析。 4. 易用的SQL接口。 7. 高可用(结合Zookeeper使用, 6. 内置一部分自然语言 内置了Solr引擎)。 处理工具 Confidential │ ©2021 VMware, Inc. 20
21 .GPText索引示例 l gptext.create_index(<schema_name>, <table_name>, <id_col_name>, <def_search_col_name> [, <if_check_id_uniqueness>]); l SELECT * FROM gptext.create_index('public','people_info','id','name'); 创 建 索 提 引 交 索 填充索引: ︓ 引 : SELECT * FROM SELECT * FROM g p t e x t . c o m m i t _ i n d e x ( ' t r a ff i c . p u b l i c . p e o g p t e x t . i n d e x ( TA B L E ( S E L E C T * F R O M ple_info'); p u b l i c . p e o p l e _ i n f o ) , ' t r a ff i c . p u b l i c . p e o p le_info'); Confidential │ ©2021 VMware, Inc. 21
22 .Gin索引介绍 Gin意思是通用倒排索引。Gin索引接口常被用于多值列的检索,例如全文检索类型、数 组类型。 Gin(Generalized Inverted Index) 是一个存储对(key, posting list)集合的索引结构,其 中key是一个键值,而posting list 是一组出现过key的位置。 在表中的每一个属性,在建立索引时,都可能会被解析为多个键值,所以同一个元组的 tid可能会出现在多个key的posting list中。 GIN索引特别适用于多值类型的元素搜索,比如支持全文搜索,数组中元素的搜索,而 PG的GIN索引模块最初也是为了支持全文搜索而开发的。 Confidential │ ©2021 VMware, Inc. 22
23 . Gin索引介绍 l 在 Po s t g re s q l 9 . 6 及 以 后 , J s o n 字 段 可 使 用 函 数 j s o n b _ s e t 直 接 按 ke y 值 批 量 更 新 。 l 现 有 部 署 G re e n p l u m 6 . 1 . 0 中 内 置 Po s t g re s q l 9 . 4 版 本 , 无法使用一些json操作符,因此不能使用上述函数进行 更新。通过编写存储过程也可实现Json格式数据直接按 ke y 批 量 更 新 、 删 除 。 l 详见文档: ○ 《 G r e e n p l u m 6 . 1 . 0 中 J S O N 字 段 更 新 与 删 除 ke y 的 存 储 过 程.txt》 ● 参考资料: • ht t ps://www.cnblo gs.co m /f angyuan3 0 3 6 8 7 3 2 0 /p/5 5 0 9 8 5 4 .ht m l • ht t ps://www.po st gr esql.o r g/do cs/9 .6 /f unct io ns- jso n.ht m l Gre e np lum 6.1.0 中JSON字段更新与删除ke y的存储过程.t xt Confidential │ ©2021 VMware, Inc. 23
24 .超融合一体化 All in one策略 Confidential │ ©2021 VMware, Inc. 24
25 .All in one策略 大数据平台 1 支持Gis数据存储 2 与计算分析 支持机器学习/ 3 深度学习/图计算 4 支持文本检索 过程化语言编程 5 如Python代码 Confidential │ ©2021 VMware, Inc. 25
26 .Confidential │ ©2021 VMware, Inc. 26
27 . Thank You Confidential │ ©2021 VMware, Inc.