- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 视频嵌入链接 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
HPC+AI融合方案
利用高性能计算进行模拟仿真计算, 可以降低实验成本, 提高设计质量。 随着数据的爆炸式增长, 利用深度学习等技术进行基础学科的研究也逐步成为未来HPC发展的趋势,本次议题即将介绍HPC+AI融合解决方案,分享近几年AI应用于HPC领域的场景。
付鸿雁 - 联科集团联席合伙人.HPC事业部产品总监
展开查看详情
1 .HPC+AI融合解决方案 付鸿雁 联席合伙人/产品总监 联科集团 2021年7月
2 .联科介绍 20年专注HPC
3 . 20年前, 这一个 (HPC+混合云+多云) 应用, 赢得SC98 HPC Challenge 大奖 …… Orlando SC 98 会场的工作站+ SDSC超算+Berlin超算+Garching超算
4 .2年后:联科集团成立 Asia’s 1st HPC solution provider 亚洲第一个高性能计算解决方案提供商 ClusterTech 联科集团 12 group members 拥有12个集团成员 HPC, Cloud, Big Data, AI and Analytics etc. 从事高性能计算、云计算、大数据和人工智能及分析 Solution providers to 300+ top enterprises, universities, government departments etc. 为超过500间顶级企业,大学和政府机构提供解决方案
5 .联科公司20多年来的工作 提供HPC系统解决方案与服务,协助客户设计、定制、迁移、调试、优化, 让我们的客户可以方便地使用大数据、人工智能、深度学习、仿真模拟、数据分析 ⋯⋯ 等等现代计算手段, 提高生产力 联科 — 将HPC利器,赋能给各行各业
6 .我们的客户地图 Heilongjiang Jilin Inner Mongolia Beijin Xinjiang Liaoning g Neimenggu Tianjin Ningxia Hebei Shandong Shanxi Jinan Qinghai Gansu Xian Shannxi Henan Zhengzhou Jiangsu Sales Location Tibet Hubei Shanghai Sichuan Chengdu Wuhan Anhui ClusterTech Office Chongqing Hunan Jiangxi Zhejiang Education Guizhou Fujian Scientific, Research, Weather, Military and Government Guangxi Guangdong Oil and Gas Yunnan Taiwan Banking, Finance and Insurance GuangZhou Hong Kong Shenzhen *Clients in the UK, Canada, Singapore, and Aerospace Science Australia are not in the map. 英国、加拿大、 Manufacturing, Industry, Retail, Entertainment, Service, Telecom and Others Hainan 新加坡及澳大利亚客户并未于此地图显示。
7 .HPC行业背景 HPC+AI解决方案
8 .工业演进历程 工业4.0 今天 工业3.0 20世纪四五十年代 工业2.0 工业1.0 19世纪末 智能制造 18世纪五六十年代 信息革命 智能化 电气革命 信息化 蒸汽革命 电气化 机器化
9 .科学研究的四种范式 几千年前… 几百年前… 几十年前… 现在… 第一范式 第二范式 第三范式 第四范式 实验研究 理论研究 模拟仿真 数据挖掘
10 .超算之争----国力之争 国防军工 生物医药 基础科研 民生制造 ⚫核聚变/裂变模拟 ⚫靶药研究 ⚫分子动力学 ⚫芯片与通信 ⚫飞行器气动设计 ⚫蛋白质重构 ⚫基础化学物理学 ⚫结构部件设计 ⚫运动轨道模拟 ⚫基因测序 ⚫结构/流体力学 ⚫金融与风控 ⚫电磁屏蔽与干扰 ⚫遗传发育 ⚫热/力学模拟 ⚫生产设备制造 ⚫密码加解密…… ⚫生命科学…… ⚫化合物筛选…… ⚫人工智能……
11 .HPC的力量 增 降 提 降时间 增效率 提升竞力 缩成本 促研发 提升品质 减损耗 保生产 提升效益
12 .高性能计算与人工智能 高性能计算 让计算能力 加强 让计算成本 降低 让计算使用 方便 仿真模拟 大数据 人工智能 深度学习 数据分析 高性能计算的成熟 有效实现大量数据的整合、运 算 ,让计算成为解决行业/场 让这些热词,可以在这时代爆发 景痛点的高性价比手段
13 .实例一:蛋白质结构预测 传统方法 人工智能 低温电子显微镜、核磁共振 AlphaFold2进行蛋白质的 或X射线晶体学 结构预测 经过大量试错最终确定蛋白质结构 2020年11月蛋白质结构预测大赛中, AlphaFold2对大部 目前已知的氨基酸顺序的蛋白质分子有1.8亿个 分蛋白质实现了原子精度的结构预测,取得92.4%的高分 但三维结构能看清的不到0.1% 使用大约17万个蛋白质结构进行训练 不到10分钟预测出接近晶体结构精度的蛋白质结构
14 .实例二:分子动力学模拟 模拟计算 人工智能 只能计算数千个原子 2020年11月 模拟时长在皮秒量级 中美联合团队获得戈登.贝尔奖 用深度学习方法将分子动力学 基线提升至1亿原子 计算速度提升1000倍
15 .智能化HPC HPC & AI 建模 分析 根据设计需求,建立模型 拿到现成模型 分析原始模型结构 计算 训练 通过HPC集群进行计算分析 学习已计算好的模型 根据不同模型匹配不同的原始模型 可用模型 得到可用模型,并进行总结
16 .方案介绍 HPC+AI解决方案
17 .HPC+AI解决方案介绍 联科HPC解决方案是为用户 • 集群部署 根据业务需求进行HP+AI系 • 方案咨询 • 应用集成 • 方案设计 • 性能测试 统的方案设计,使用CHESS 软件平台部署集群和应用集 设计 建设 成,通过四项基本性能测试 保证硬件和软件达到最优性 能,运行过程中提供运维服 服务 运维 务,保障业务稳定、高效运 行。 • 应用优化 • 集群运维 • 应用并行化 • 集群巡检
18 .联科CHESS高性能计算管理平台 CHESS高性能计算管理平台, ClusterTech HPC Environment Software Stack HPC+AI 集群管理 集群部署 混合调度 自主研发的高性能集群软件,采用B/S架构,通过浏览 器进行操作实现集群资源统一部署、管理、监控、报 警、调度和报表,可将松散堆叠的服务器变成一整套 HPC集群系统,可大幅提高集群效率,简化集群管理。 系统监控 集群报表 消息管理 融合HPC和AI两大应用,统一调度到通用CPU计算平台, 突破需要构建GPU异构平台的局限,解决AI在CPU上的 计算性能瓶颈,降低AI使用和教学门槛,打造符合AI发 混合云 项目管理 应用管理 展趋势和HPC应用需求的一体化基础设施平台。 管理调度
19 .CHESS发展历史 发布CHESS 1.0 发布CHESS 3.0 发布CHESS 5.0 混合云功能 2006 2015 2019 2001 2011 2018 发布CHESS 2.0 发布CHESS 4.0 发布CHESS 6.0 HPC+AI混合调度
20 .CHESS HPC+AI 混合调度 构建通用HPC/AI融合计算平台 融合主流AI框架 优化AI工作负载 通用、弹性、易用、高效 CPU GPU CPU GPU CPU GPU CPU CPU GPU CPU GPU CPU CPU GPU
21 .方案架构图 HPC HPC TensorFlow TensorFlow 0 1 2 3 0 1 2 3 0 1 2 3 0 1 2 3 Horovod Intel MPI CHESS Linux操作系统 服务器 存储 网络
22 .方案架构图-容器 HPC Container Container Container 0 1 2 3 HPC TensorFlow TensorFlow 0 1 2 3 0 1 2 3 0 1 2 3 HPC 4 5 6 7 0 1 2 3 Horovod Horovod Intel MPI CHESS Linux操作系统 服务器 存储 网络
23 .CHESS用户中心-应用中心 通过CHESS平台友好的图形化界面,将命令行操作转换为易用的图像界面 集成SHELL命令工具
24 .CHESS用户中心-应用提交 通过应用模板提交作业 作业详情可查看:应用输出、应用数据、图形交互、应用性能和作业详情
25 .CHESS用户中心-应用提交 通过应用模板提交TensorFlow训练任务 训练过程中打开TensorBoard界面
26 .CHESS用户中心-数据管理 通过图形化工具对数据进行上传、下载、压缩、解压、编辑、删除等操作
27 .CHESS资源调度系统 支持LSF/Slurm/PBS等多种调度器 支持优先级、回填、抢占等多种调度策略 支持CPU/GPU混合调度 支持GPU单卡、多卡共享与独占 支持本地资源与公有云混合调度 支持容器调度 支持AI框架调度 支持与容器仓库集成
28 .CHESS管理员中心-应用管理 对所有用户的应用和图形终端进行管理
29 .CHESS管理员中心-模板管理 对应用模板进行管理、配置、发布、权限分配等