- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 视频嵌入链接 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
浪潮云海 Insight数智一体机+英特尔 BigDL 隐私保护机器学习在交管平台的可信计算方案实践-秦凯新、史栋杰
浪潮云海 Insight数智一体机+英特尔 BigDL 隐私保护机器学习在交管平台的可信计算方案实践-秦凯新、史栋杰
本议题在分享浪潮云海Insight数智一体机架构及Insight大数据AI数智一体方案的基础上,着重介绍了基于英特尔可信执行环境(SGX) 和BigDL 隐私保护机器学习在浪潮云海 Insight数智一体机平台上的交管平台可信计算方案的最佳实践。
秦凯新 ,浪潮信息大数据团队技术负责人,主要负责浪潮大数据Insight平台产品,大数据一体机等产品研发工作, 以及承担国家重大课题专项及省级类项目技术攻关等内容。 史栋杰 ,英特尔资深软件架构师。多年从事大数据分析、云计算容器编排、数据分析与人工智能领域的研发,英特尔开源框架 BigDL 的主要贡献者之一。
展开查看详情
1 .Insight数智一体机+英特尔BigDL隐私保护 机器学习在交管平台的可信计算方案实践 秦凯新 史栋杰 浪潮信息大数据团队技术负责人 英特尔资深软件架构师
2 . 大数据成为交通管理的基石 以大数据、人工智能为代表的新交通时代,大数据成为交通管理的基石 在数字世界映射真实世界中的每一辆车 航拍 实景 孪生 计算 物理交通系统 实时呈现所有车辆动态位置 AI执法 数字孪生交通治理 车路协同 全息感知
3 . 交管大数据面临的挑战与问题 大数据:车辆、路网、违法、事故、信控等研判分析、预测,Spark、流处理、Hadoop、ODPS、Flink、 ElasticSearch等 多元化 AI训练与推理:人、车、违法、事件、运行状态、设备故障、考场监管识别等,视频、图像、语音、文本等, Resnet, DeepSpeech, GPT等 计算场景愈加复杂多元 计算芯片种类多:X86、ARM、GPU、ASIC、FPGA、NPU…… AI模型应用规模大:交通违法识别、交通事件识别、运行状态检测、综合监管等上千种; 巨量化 大数据模型算法应用规模大:车辆分析、路网状态分析、交通违法分析、交通事故分析等上千种 训练模型巨大,应用规模海量 模型参数多,模型计算量需求指数增长:AI模型算力需求每3.4个月翻一倍,预计每年增长一个数量级 离散化 技术架构老旧:性能和稳定性难以保障,经常宕机,需手动重启,系统bug多 接口标准不一:私有接口对接,维护成本高,替换升级复杂 产业链脱节,生态离散 绑定客户,售后体验差:售后体验差,不提供原厂售后,支持不及时 注:典型省会城市交通大脑:机动车300+万辆、主城区前端电警卡口监控2+万个、过车图片2+千万/天、数据来源10+个大类,结构化数据数百亿~千亿条、PB 级, 非结构化数据10+PB。全国汽车保有量迅速增长,2021年元月底全国有71个城市超过100万辆,32个城市超过200万辆,15个城市超过300万辆
4 . Insight数智一体机 产品定义 浪潮Insight⼤数据数智⼀体机是由⼤数据软件、操作系统、服务器硬件等构成软硬⼀体化的产品,为⽤⼾提供⾼性能、⾼扩展性、⾼性价⽐的⼤数据解决⽅案。 核心特性 1. 软硬件结合深度优化,充分发挥CPU AVX指令集、PMEM内存、NVMe SSD、GPU、SGX等加速设备优势,全⾯提升⼤数据业务场景处理性能 2. ⽀持针对不同的场景模块化选配,提供性价⽐最优的解决⽅案,覆盖通⽤均衡、⾼密计算、⼤规模存储等多种组件应⽤场景
5 . 一体机智能管理平台BDA Manager ⼤数据组件管理运维 ➢ 统⼀的⽤⼾管理授权、多租⼾资源管理 ➢ 组件可视化、向导式安装 ➢ 组件可视化功能操作、可视化参数设置 ➢ ⼤数据组件⾃动化启动、异常组件⾃动化恢复 数智一体机硬件管理运维 ➢ ⾃动化的批量OS部署,⼀键式固件升级与配置 ➢ 批量配置、部署与升级,缩短上线周期 ➢ 资产纳管,⾃动发现,多⻆度展现设备资产信息 ➢ 精细化能耗分析,为数据中⼼降本增效 数智一体机硬件监控 ➢ 全⾯监控告警 ➢ ⼤数据集群、节点、组件、服务级监控告警 ➢ 机柜、集群级监控视图⾯板 ➢ 秒级监控,实时监控数据中⼼告警 ➢ 服务器部件级监控告警
6 . 浪潮云海Insight交管大数据平台专业版 浪潮积极参与交科所集成指挥平台升级技术孵化、产品创新、方案融合、试点等工作 2021年5月12日发布浪潮云海Insight交管大数据平台专业版 全面兼容交科所公安交通管理集成指挥平台 天门 江西 支队 合 南宁 高警 黑龙江 广西 乌海 部署 作 完成 铁路 总队 总队、 总队 支队 浪潮 深 部下 寒武 完成 部署 部署 全国 大庆、 试点 部署 大数 度 AI预 浪潮 纪芯 浪潮 浪潮 浪潮 基于新 分布 第一 区块链+ 发方 大数 片适 大数 伊春试 浪潮 浪潮 大数 AI平 据 审试 一代T4 式存 个: 团雾 点及 出行开 案提 据适 配 据适 点浪潮 大数 大数 据 台 在岗 芯片的 储适 烟台 算法 发 供建 配启 配 大数据 据 据 优化 检测 算法开 配 试点 开发 启动 议 动 新技 算法 优化 研究 发适配 开始 术升 参与 级 2016 2019 2020 2021 2022 合作时间
7 .云海Insight大数据平台 ⼤数据平台核心特性: ➢异构兼容,异构混部、异构纳管 ➢开放扩展,兼容业界主流技术 ➢计算存储强劲性能 ➢开放扩展,兼容业界主流技术 ➢多租户资源管理 ➢行业深度定制
8 . 云海Insight优势方案-智能计算 典型模式 1 1. 数据采集(Flume ->Kafka): 2 3 4 原始数据 1 模型训练 模型推理 图 文 像 本 数据预处理 数据存储 训练推理框架 音 视 频 频 2 2. 数据预处理(Spark/Flink) : 分布式计算 HDFS 3 本地存储 数据同步 CPU GPU VS 一站式、端到端智能计算模式 3 3. 数据存储(Hdfs/HBase) : 原始数据 1 2 3 4 4 2 1 4 4. 数据训练及推理(BIGDL) : 图 文 像 本 数据预处理 数据存储 模型训练 模型推理 数据预处理 音 视 原始数据 频 频 图 文 训练推理框架 像 本 音 视 频 频 分布式计算及调度 5 HDFS 5 5. 计算调度(Yarn、k8s ) : CPU GPU
9 . 智慧交管端到端数智⼀体解决⽅案 ⾯向智慧交通⾏业,Insight推出融合AI和智能存储的智慧交管⼤数据⼀体机⽅案,通过将智能存储,智能缓存,智能计算结合,为⽤⼾提供了的端到 端数智⼀体解决⽅案 交管数智一体融合分析应用 方案特色 重点车辆 区域流量 违章行为 区域测速 监督分析 分析 监管分析 分析 迭代 模型构建 模型调优 模型发布 智慧交通服务 数据工作台 数据接入 数据开发 数据查询 作业调度 数据可视化 Insight 智能存储 智能缓存 智能计算 Hadoop集群 存储备份集群
10 .10 云海Insight进一步推出数智⼀体机可信计算方案 随着我国《网络安全法》、《数据安全法》和《个人信息保护法》的陆续颁布实施,传统的数据流通方式已无法满足合规要求,实现数据的可信流通 是推进数据要素市场化配置的基础 ,凭借其“数据可用不可见”的特性,目前被公认为是既能保护数据安全、又能释放数据价值的技术最优解。 鉴 于 行 业 现 状 及 交 管 行 业 新 趋 势 , 浪 潮 通 过 在 交 管 行 业 的 多 年 深 耕 经 验 , 以 算 力 加 速 主 要 特 点 , 浪 潮 云 海 I n s i g h t 率 先 推 出 面 向 安 全 领 域 的 数 智 ⼀ 体 机 可 信 计 算 方 案 可 信 计 算 方 案 硬 件 方 面 : ➢ 基于Intel SGX安全相关硬件,通过在中央处理器 中构建一个安全的区域,进而构建可信执行环境 (TEE),进而保证其内部加载的程序和数据在 机密性和完整性上得到保护。 可 信 计 算 方 案 软 件 方 面 : ➢ 采用安全可信的隐私学习框架PPML,支持安全 的数据访问,支持可信大数据分析(SQL),可 信机器学习,可信深度学习,可信联邦学习,保 障客户数据安全
11 . BigDL: Open Source Big Data AI Project Making it easy for building end-to-end, distributed AI applications Domain PPML Specific Toolkits Privacy Preserving Chronos Friesian Time Series Recommendation System Machine Learning End-to-End Orca DLlib Nano Distributed AI E2E Distributed AI Pipeline Distributed Deep Learning Integration and Abstraction of (TensorFlow / PyTorch / Pipelines OpenVINO / Ray) Library for Apache Spark IA-specific Accelerations Laptop K8s Apache Hadoop/Spark Ray Cloud BigDL 2.0 (https://github.com/intel-analytics/BigDL/) combines the original BigDL and Analytics Zoo projects *“BigDL 2.0: Seamless Scaling of AI Pipelines from Laptops to Distributed Cluster”, 2021 Conference on Computer Vision and Pattern Recognition (CVPR 2022) *“BigDL: A Distributed Deep Learning Framework for Big Data”, in Proceedings of ACM Symposium on Cloud Computing 2019 (SOCC’19) 11
12 . BigDL PPML (Privacy Preserving ML) Secure & Trusted Big Data and AI, even on Untrusted Cloud (using SGX) Trusted Big Data Trusted SQL & Trusted Trusted Trusted FL (Federated & AI Apps Dataframe ML DL Learning) E2E Distributed Orca DLlib Nano Pipeline Distributed TensorFlow/ Distributed Deep Learning Framework Integration and Abstraction of IA- PyTorch/OpenVINO on Big Data for Apache Spark specific Accelerations Library and Apache Apache XGBoost Ray TensorFlow PyTorh OpenVINO Framework Spark Flink Secure Secure Storage I/O Secure Network I/O Secure Data Alignment Secure Parameter Sync Execution Layer SGX SDK TDX-CC Crypto LibOS Key Mgmt Attestation Homo Encryption Intel SGX on Kubernetes 12
13 .英特尔软件防护扩展(Intel® SGX) 英特尔软件防护扩展是目前被广泛测试、研究和部署的可信执 行环境(TEE),实现系统中相对最小被攻击面 内存足够大的飞地现在可以满足主流工作负载对内存的需求 (最大可达1TB内存空间) 英特尔软件防护扩展以及其他基于硬件的安全技术实现了对敏 感数据领域中硬件级别的隐私保护,同时兼顾了性能体验 Appropriate hardware. (3rd Gen Intel Xeon Scalable Processors) 13
14 . Intel SGX with LibOS App 易用性:只需简单的配置,即可让应用程序无缝运行在SGX Tensorflow BigDL Spark 中 (无需重新开发/编译应用) Java/CPP/Python/R/OneDNN 安全性:继承了SGX的安全性 LibOS Gramine SGX-LKL /Graphene SGX SDK Intel SGX LibOS Appropriate hardware. (3rd Gen Intel Xeon Scalable Processors) 14
15 . BigDL PPML (Privacy Preserving ML) Secure & Trusted Big Data and AI, even on Untrusted Cloud (using SGX) Trusted Cluster Environment for Big Data AI Driver Node Worker Node Worker Worker PPML DataFrame, Node Node ... SQL, RDD … ... ... Distributed Data Lake / Storage Warehouse K8s (on-prem or cloud) ▪ Standard, distributed AI applications on encrypted data ▪ Hardware (Intel SGX/TDX) protected computation (and memory) ▪ End-to-end security enabled for the entire workflow ▪ Provision and attestation of “trusted cluster environment” on K8s (of SGX nodes) ▪ Secrete key management through KMS for distributed data decryption/encryption ▪ Secure distributed compute and communication (via SGX, encryption, TLS, etc.) 15
16 . End-to-End PPML Workflow for the User Step 0 Step 1 Step 2 Step 3 Step 4 Deployment Preparation Build App Submit Job Read Result • Set up K8s cluster • Upload BigDL PPML • Buid standard Big Data and • Use BigDL PPML • Decrypt and • Set up K8s-SGX plugin docker image to K8s ML applications container and CLI to read result of registery ( submit job to K8s the job • Set up Attestation service • Encypt and upload data ) • Set up KMS (key • Optionally use BigDL PPML management service) APIs (ctypto, VFL, etc.) 16
17 .End-to-End PPML Architecture BigDL PPML 1 Container (Client) 2 Attestation 4 Service API Server BigDL PPML Container (Driver) (w/ SGX nodes) Scheduler 5 Key Mgmt 3 Service 1 User submits job to K8s (using BigDL PPML CLI), which creates the driver node 7 7 2 BigDL PPML client attests the driver node BigDL PPML BigDL PPML BigDL PPML Container (Worker) Container (Worker) Container (Worker) 3 Driver creates more worker nodes 4 Driver attests worker nodes 5 Driver and workers request keys from KMS 6 8 6 Workers read and decrypt input data 7 Workers run distributed Big Data, ML and DL programs 8 Workers encrypt and write output data
18 . Best view in build mode BigDL PPML: Secure, Trusted Big Data AI PPML Distributed Communication (TLS & Remote Attestation) SGX Enclave SGX Enclave SGX Enclave SGX Enclave SGX Enclave Encrypted Model SQL/RDD SQL/RDD SQL/RDD SQL/RDD Driver Node Worker Node Worker Node Worker Node Worker Node K8s (cloud or on-prem) Distributed Storage (cloud or on-prem) Unmodified code 1. Upload encrypted data 2. Launch BigDL PPML platform 3. Run unmodified application on PPML platform 4. Read and decrypt data 5. Run Spark SQL/RDD securely 6. Broadcast DL models securely Encrypted 7. Train model and sync parameters securely Data 8. Save encrypted model/output
19 .云海Insight交管平台可信计算方案
20 . 云海Insight可信计算方案数据流转过程 数据流转过程: ① 数据工作台定时触发,任务调度至到 BigDL PPML 的 Docker 环境 ⑥ Spark Executor 从 Hive 中读取数据 ② Spark Client 认证 Driver 节点 ⑦ Spark Executor 运行分布式任务 ③ Spark Driver 申请资源并将任务分配到各个Spark Executor ⑧ Spark Executor 加密并且将结果写入到 Hive ④ Spark Driver 认证 Spark Executor 节点 ⑤ Spark Driver 和 Spark Executor 从 KMS 中请求 keys
21 .