ai-guidebook-healthcare-cn-2020

下载 2

无厘头

发布于

793

人观看

#信息技术

得益于算法的进一步成熟、算力的提高以及数据的持续积累，人工智能（Artificial Intelligence，AI）得到迅猛发展，深度学习成为其代表，并呈现出应用领域日益集中的趋势。2018 年 9 月，中国信息通信研究院发布的《2018 世界人工智能产业蓝皮书》指出，在中国各类垂直行业中，人工智能渗透较多的领域包括医疗健康、金融、商业、教育和安防等，其中与医疗健康相关的 AI 企业占比最高，达到 22%。

作为主要应用领域之一，医疗健康行业对人工智能技术的投资也在快速增长。前瞻产业研究院发布的《2018-2023 年中国人工智能行业市场前瞻与投资战略规划分析报告》显示，2016 年中国医疗人工智能市场规模已达 96.61 亿元人民币，增长 37.9%；2017 年超过 130 亿元人民币，增长 40.7%；2018 年有望达到 200 亿元人民币。这一高速增长一方面得益于中国医疗市场的迫切需求，另一方面则源于近年来医疗人工智能技术的发展以及相关政策的支持。

展开查看详情

1 . 英特尔中国 2020医疗健康行业 AI实战手册

2 . contents 目录趋势篇 06 * 人工智能在医疗健康领域的发展与应用实战篇 12 OpenVINO™ 提升医疗图像 AI 推理效率 39 基于深度学习的病理切片分析方法的优化 13 医学影像处理中的图像分割 41 江丰生物利用 AI 技术提升宫颈癌筛查效率 15 Ｕ-net 分割网络的优化方法 43 * 江丰生物以 AI 技术助力结核病筛查 18 基于第二代英特尔® 至强® 可扩展处理器构建的 Dense 46 AI 技术助力加速药物研发 U-net 图像分割方法 47 深度学习方法加速药物筛选 19 东软 eStroke 溶栓取栓影像平台 49 基于英特尔® 至强® 可扩展平台的优化 20 西门子医疗利用英特尔® 深度学习加速技术，推进心血管 52 诺华利用深度学习提高药物研发效率疾病治疗中的 AI 应用 54 基于 AI 的图像识别技术在医疗行业中的应用 21 GE 医疗利用英特尔技术与产品，优化深度学习模型，提升 55 智能医疗与图像识别技术 CT 图像推理性能 57 解放军总医院利用深度学习技术辅助门诊发药实践 22 * 汇医慧影利用英特尔技术，构建高效协助诊疗平台 60 * 机器学习助力打造更为精准智能的医疗解决方案 23 * 卫宁健康基于英特尔先进产品，构建高效的肺结节智能 61 * 医疗行业中的机器学习方法和重要应用方向辅助诊断系统 66 * 英特尔® 架构提升机器学习方法效率 24 * 致远慧图借力英特尔技术，推出智能远程阅片方案 68 * 第四范式以高维机器学习模型助力精准疫情防控 26 AI + Cloud，协力共建高效医学影像分析能力 70 * 第四范式构建慢性病预防与管理闭环管理方案 27 医疗领域中的医学影像分析 72 * 面向英特尔® 架构优化的 Python 分发包，助力汇医慧影 29 优化 AI 模型效率提升放射组学特征选择效率 31 西安盈谷利用 AI 技术和云服务，提升医学诊疗辅助能力 74 * 基于联邦学习的 AI 方法在医疗行业中的探索 33 * 汇医慧影以 “真” AI 助力新冠疫情防控 75 * 打破数据壁垒，提升医疗 AI 应用效能 36 AI 技术加速病理图像分析 77 * 英特尔® 软件防护扩展 37 医疗领域中的病理切片分析 79 * 联邦学习在医疗影像处理上的应用研究技术篇硬件产品软件和框架 84 第二代英特尔® 至强® 可扩展处理器 89 开源的、统一的大数据分析 +AI 平台 Analytics Zoo 86 英特尔® 傲腾™ 持久内存 90 英特尔® 数据分析加速库 88 英特尔® 傲腾™ 固态盘与基于英特尔® QLC 3D NAND 91 英特尔® 深度神经网络库技术的英特尔® 固态盘 92 面向英特尔® 架构优化的 Caffe、TensorFlow、Python、PyTorch 96 OpenVINO ™ 工具套件 98 英特尔® 软件防护扩展注：* 部分为 2020 年版本更新内容

3 . 趋势篇 4 5

4 . 人工智能在医疗健康领域的发展此外，基因组学分析是人工智能应用的又一重要领域。预计到 2022 年，该细分市场的规模仅在中国就将接近 300 亿元人民币 4。基因测序与人工智能进一步结合，势必还会加速其发展，医疗人工智能的市场趋势同时随之带来的测序时间缩短以及成本大幅降低，又会为医疗得益于算法的进一步成熟、算力的提高以及数据的持续积累，行业人工智能的应用创造更大的想象空间。英英人工智能（Artificial Intelligence，AI）得到迅猛发展，深度特特尔学习成为其代表，并呈现出应用领域日益集中的趋势。2018 值得一提的是，人工智能在新型冠状病毒肺炎（COVID-19）尔中年 9 月，中国信息通信研究院发布的《2018 世界人工智能产中的疫情防控中发挥着重要作用，已在智能服务机器人、大数据国国业蓝皮书》指出，在中国各类垂直行业中，人工智能渗透较多智能分析、体温监测、医疗辅助诊断、基因组检测、药物研发医医人工智能在医疗健康疗的领域包括医疗健康、金融、商业、教育和安防等，其中与医等方面显示了独特作用，进一步展现出人工智能在医疗健康领疗健疗健康相关的 AI 企业占比最高，达到 22%1。健域更加广阔的应用前景。康康行行业作为主要应用领域之一，医疗健康行业对人工智能技术的投资业领域的发展与应用在中国，政策激励是加速医疗人工智能应用落地的关键因素之 AI 也在快速增长。前瞻产业研究院发布的《2018-2023 年中国人 AI 一。自 2015 年以来，相关政府部门陆续推出了近 20 项政策，实实工智能行业市场前瞻与投资战略规划分析报告》显示，2016 从人才培养、技术创新、标准监管、行业融合、产品落地等战战手年中国医疗人工智能市场规模已达 96.61 亿元人民币，增长多方位推动人工智能发展。其中，在 2017 年 3 月，“人工智手册 37.9%；2017 年超过 130 亿元人民币，增长 40.7%；2018 册能” 首次被写入政府工作报告；同年 7 月，国务院印发《新一年有望达到 200 亿元人民币 2。这一高速增长一方面得益于中代人工智能发展规划》，明确指出新一代人工智能发展 “三步国医疗市场的迫切需求，另一方面则源于近年来医疗人工智能走” 战略；同年 10 月，“人工智能” 被写入十九大报告，将 “推趋趋技术的发展以及相关政策的支持。势动互联网、大数据、人工智能和实体经济深度融合” 确定为中势篇国数字经济发展的方向；同年 12 月，工信部发布《促进新一篇从全球来看，医疗人工智能的应用细分领域与中国略有不同。代人工智能产业发展三年行动计划（2018-2020 年）》，详 6 根据 Global Market Insight 的统计数据，药物研发在全球医细规划了人工智能在未来三年的重点发展方向和目标。随后在 7 疗人工智能市场中的占比最大，达到 35%。紧随其后的是医 2018 年 1 月，国家标准化管理委员会指导下的《人工智能标学影像人工智能，占比 25%，并将以超过 40% 的增速发展，准化白皮书（2018 版）》发布；同年 4 月，国务院印发《关预计 2024 年其规模将达到 25 亿美元。3 200 150 单位：亿元人民币 100 50 0 2015 年 2016 年 2017 年 2018 年图 1-1-1 中国医疗人工智能产业市场规模 1 《2018世界人工智能产业蓝皮书》：http://www.semi.org.cn/siip/pdf/20180920p2.pdf 2 前瞻产业研究院。2018-2023年《中国人工智能行业市场前瞻与投资战略规划分析报告》。2018年 https://bg.qianzhan.com/report/detail/300/190314-389cc4a4.html 3 Global Market Insights report. 2018年4月. www.elecfans.com/rengongzhineng/592041.html 4 前瞻产业研究院。《2018-2023年中国基因测序行业市场前瞻与投资战略规划报告》。2018年 https://bg.qianzhan.com/trends/detail/506/180411-e7daa2c4.html

5 . 于促进 “互联网 + 医疗健康” 发展的意见》，将推进 “互联网 +” 不同机构间数据相互隔离的数据孤岛现象。而单一医疗机构人工智能在医疗健康领域的应用 • 智能导诊。通过语音、触屏等多种交互方式，更好地提供院人工智能应用服务作为实施 “健康中国” 战略的重要举措，并又难以聚集起足够的高质量训练数据，供 AI 模型训练学习内导航、导诊、导医，提升精准分诊、健康咨询、健康宣教表示将重点支持研发医疗健康相关的人工智能技术、医用机器所用；场景等服务的水平。人、大型医疗设备等。 • 模型的可解释性。深度学习模型是个黑盒子，对如何得出结 • 图像识别。例如，利用扫描技术、OCR技术或图像处理软医疗健康是人工智能应用落地最具潜力的领域之一，对此业界论没有明确的解释，其决策模式的权威性尚待验证；件，辨读病历或药品外包装上的信息，快速调取相关资料；英已有共识。伴随着应用的不断深入，人工智能将在以下多种医英特医疗人工智能的应用趋势 • 模型的通用性。首先是模型偏差，比如采用白种人患者数据疗健康应用场景中大显身手： • 影像辅助诊断。帮助放射科医生快速筛除正常影像，提高医特尔进行训练的模型，可能在其他种族患者中效果不佳；还有就生的病例处理效率；提高分析影像的准确度，缩短诊断结果尔人工智能在医疗健康领域的应用非常广泛，在从医学影像、辅 • 慢病管理与疾病监测。基于患者体征对（潜在）慢性疾病进中是模型互操作性差，即很难建立一个适用于两种不同电子病报告时间，提升医疗系统的诊断能力；中国助诊断、疾病预测，到健康管理、药物研发、慢性病管理以及行风险预估，从而通过早期干预，大大降低患者的医疗费国历系统的深度学习模型； • 病理分析。例如，高效、准确地检测和分类癌细胞，精准勾医疫情防控等诸多环节，都可发挥关键作用，并已在不同层级与用；医疗 • 模型安全。即便是训练有素的图像处理模型，也有可能因输画癌症放疗靶区等；疗不同细分领域的医疗机构呈现出各异的 “职能”。其中，人工智 • 临床预测分析。例如，基于电子病历数据评估在院内感染疾健入图像的扰动而受到不良影响，但这一扰动却无法被人察觉。 • 基因组学分析。用以大幅降低基因测序成本，快速精确实现健康能用于医学影像、辅助诊断、疾病预测，主要服务于医院或其病（如败血症）的风险，根据运营模型预测患者再入院率，康此外，还存在数据 “差之毫厘” 就可能带来预测结果 “失之千里” 规模庞大的基因组数据分析，为癌症等疾病的诊断和治疗等行他医疗机构，其应用集中在疾病筛查方面，关注点在于如何提根据财务模型制定捆绑销售服务方案等；行业的问题。比如，轻微改变患者电子病历数据中的实验检测值，提供支持；业高诊断准确率。但囿于存在假阴性的情况，还需要医生审阅所 • 慢性病管理。利用数据采集方法（例如物联网），构建基于 AI 就可能极大影响模型对住院死亡率的预测。 • 药物发现。加快药物研发效率，降低成本； AI 实有片子以防漏诊，致使此类应用在减轻医生工作量方面的效果人工智能方法的慢性病评估及筛查模式，提升慢性病的预测实 • 疫情防控。通过人工智能方法构建传染路径模型，模拟出潜战并不显著。和早期诊断能力；战手针对这些挑战，医疗和人工智能等领域的专家已经提出多项应在传染的关系网，找到可能的传播路径来协助精准防控；同手 • 病历搜索与质量控制。精准提取医疗文本中的关键信息，进册对措施，来优化应用环境，提高应用实效：时加速疫苗和药物的研制进程。册未来，人工智能在不同层级的医疗机构的应用方向可能会呈现行医学实体识别，进而实现灵活的全量电子病历搜索； • 收集大规模和多样化的健康数据。广泛收集来自不同种族、出更加多元化的趋势，即在基层医院或第三方体检中心，其应 • 虚拟现实助手。通过虚拟现实会话，参与到患教活动中，帮民族、语言和社会经济地位患者的数据，并对其进行标准化趋用将以辅助筛查、辅助诊断以及慢性病管理为主；在三甲医院，助患者清楚了解其病因，使医患沟通更有效；趋势和集成；势则以提高医生工作效率为主；在健康管理方面，人工智能以支篇 • 提高数据质量。从提供可靠、高质量的数据输入入手，继之篇持单位和个人支付的健康体检为主要方向；在药物研发领域，再利用工具提高数据收集的质量，如进行错误纠正、发出关人工智能应用又表现出不同特点，需要相关技术公司与大型药 8 于缺失数据的警告等； 9 企、医药研究机构通力合作来推进。 • 融入临床工作流程。将深度学习融入现有电子病历系统的管理，提高临床医生的工作效率和数据采集的实时性；虽然人工智能在医疗健康领域迅速得以应用，但源于数据、模 • 构建高维学习模型。引入百万级乃至上亿级的规则，通过高型等方面的影响，目前仍然面临诸多挑战：维学习模型，大幅提升预测和识别的准确率； • 数据量。模型越复杂，参数越多，所需要的训练样本量就越 • 法制化规范化。针对诸如计算机黑客篡改数据，从而影响深大。但是对许多复杂的临床场景而言，所需要的大量可靠数度学习模型的结果等信息安全问题，要制定相应法规，保护据却并不容易获得；分析模型。 • 数据维度。通常而言，数据维度越少，对真实世界的描述能力也越差，但高维数据处理面临着处理效率低、所需计算量同时，为推动多源医疗数据进行更安全的交互、传输和聚合，大等问题；解决因数据孤岛所造成的高质量训练数据不足问题，各方专 • 数据质量。一般而言，健康数据的组织化和标准化程度都不家正积极探索引入联邦学习方法等安全性更高的数据协作方高，且数据分散、有噪声。在条件不好的诊所与基层医院，式和更完善的 AI 模型训练架构，以便在降低隐私泄露风险的还存在电子病历信息缺失或有误、多机构间分散存储等问题，前提下，以更多高质量数据构建起安全可信的多源数据协同同时接口数据可靠性也很差；方案，提升医疗 AI 应用效能，使 AI 技术更高效、安全地服务 • 数据孤岛现象。作为关乎人们隐私信息的敏感领域，医疗数于医疗健康。在下一章 “实战篇” 中，我们将结合英特尔与东软、西门子、解放军总医院、盈谷、第四范式、汇医慧据泄露风险已经受到医疗机构的足够重视，但由此也催生出影、致远慧图、卫宁健康，以及江丰生物等产业伙伴与客户在医疗人工智能领域的实战案例，详细介绍项目的背景、实施过程，以及取得的经验与成果，还将结合各应用场景提供相对应的软、硬件配置推荐。

6 . 实战篇 10 11 11

7 . 医学影像处理中的图像分割色、纹理等特性的突变性来对图像进行分割。一般来说，基于边缘的分割方法依赖于灰度值边缘检测，当边缘灰度值呈现阶跃型等变化时，判断为图像边缘；传统医学影像图像分割方法 • 基于区域的方法：该方法是根据图像的相似性来对图像进行 5 计算机视觉中的图像分割是指以图像中的自然边界，例如物分割，其判断原则是根据相邻像素点的灰度、颜色、纹理等英体轮廓、线条等，将图像切分为多个区域，其目的是用于简化英特性是否存在相似性，如有相似，则扩大像素点的集合。特特或改变图像的表现形式，使之更易解读和分析。在计算机方法尔尔中中，这一过程通常会被解构为将图像中的每个像素加上标签，中国基于深度学习的图像分割方法国使具有相同标签的像素有着某种共同视觉特性，例如颜色、亮医医 OpenVINO™ 提升随着近年来AI技术的飞速发展，尤其是在图像领域，基于AI技度、纹理等，由此进行的度量或计算得出的一定区域的像素特疗疗术的图像识别、图像处理应用已经被用在很多场景中，其对各健性相似，而邻接区域则有着很大的不同。健康类医学影像的分析识别能力已经超过人类。与卷积神经网络康行（Convolutional Neural Network, CNN）类似的模型，是目行作为计算机视觉技术的重要分支，图像分割已在医学影像处业业医疗图像AI推理效率前基于AI的图像分割技术中常见的网络模型。这其中，全卷积 AI 理、人脸识别、工业机器人、智能交通、指纹识别以及卫星 AI 实图像定位等多个行业和领域获得广泛应用。在医学影像处理领网络（Fully Convolutional Network, FCN）、U-net和V-net 实战是常见的几种基于深度学习的图像分割方法。战域，图像分割已在肿瘤和其他病理位置定位、组织体积测量、手手册解剖学研究、计算机辅助手术、治疗方案制定以及临床辅助诊册断等多个细分领域证明了其价值。 ■ FCN CNN的典型用途是对任务进行分类。对图像处理而言，它的实输出是单个类别标签。在生物医学的图像分割处理中，期望的实传统的图像分割方法主要有以下几种常见方法：战战 • 基于聚类的方法：聚类法是基于K-均值算法，将图像迭代输出应该包括定位，即应该将类标签分配给每个像素。作为篇篇分割成K个聚类。该算法中，分割图像中像素与聚类中心之卷积神经网络的升级扩展版本，如图2-1-1所示，FCN 6 遵循间都有着相似的距离偏差，距离偏差通常采用颜色、亮度、编码、解码的网络结构模式级联了卷积层和池化层。卷积层和 12 13 纹理、位置等指标。该算法具有良好的收敛性；最大池化层有效降低了原始图像的空间维度。同时，FCN使用 • 基于阈值的方法：该方法是通过计算图像的一个或多个灰度 AlexNet 作为网络的编码器，采用多重转置卷积重复扩展的方阈值后，将每个像素的灰度值与阈值相比较，最后进行归类式，对编码器最后一个卷积层输出的特征图进行上采样，直到的方法；特征图恢复到输入图像的分辨率，因而，可以实现像素级别的 • 基于边缘的方法：该方法是根据图像中自然边缘的灰度、颜图像分割。正向 / 推理测预割级分素像反向 / 学习像图 6 6 21 4 4 6 09 09 38 38 25 4 4 6 25 96 21 图 2-1-1 FCN 方法原理图 5 关于图像分割的描述，部分参考：Linda G. Shapiro and George C. Stockman (2001)：“Computer Vision” , pp 279-325, New Jersey, Prentice-Hall, ISBN 0-13-030796-3 6 关于FCN的相关技术描述，摘选自UC Berkeley jonlong、shelhamer和trevor的论文《Fully Convolutional Networks for Semantic Segmentation》：https://people.eecs.berkeley.edu/~jonlong/long_shelhamer_fcn.pdf

8 . 软硬件配置建议 Access Architecture，NUMA）技术，以及面向深度神经网络的英特尔® 数学核心函数库（Intel® Math Kernel Library for 对于在医疗行业中构建基于深度学习的图像分割方法，可以参 input Deep Neural Networks, 英特尔® MKL-DNN），从而为U-net image output 考以下基于英特尔® 架构平台的软硬件配置来完成。 tile segmentation 图像分割法提供多层次的优化。优化步骤如下： map 名称规格英英特处理器英特尔® 至强® 金牌 6240 处理器或更高 ■ 环境变量设置特尔超线程 ON 首先，需要对环境变量进行设置，如以下所示，命令包括：尔中睿频加速 ON 清空系统的缓存（cache），将处理器设置为性能优先的模式，中国内存 16GB DDR4 2666MHz* 12及以上国医即运行在最高频率，打开处理器的睿频加速。医存储英特尔® 固态盘 D5 P4320系列及以上疗疗操作系统 CentOS Linux 7.6 或最新版本健 conv3x3,ReLU 健康 copy and crop Linux 核心 3.10.0 或最新版本康行 max pool 2x2 编译器 GCC 4.8.5 或最新版本行业 up-conv 2x2 Python 版本 Python 3.6 或最新版本业 AI conv 1x1 AI TensorFlow 版本 R1.13.1 或最新版本实图 2-1-2 U-Net 拓扑 OpenVINO ™ 实战 ■ Ｕ-net 2019 R1 或最新版本战工具套件手作为 FCN 网络的一个改进版本，Ｕ- net 具有一个鲜明的 U 型医学影像在实际应用中也有其独有的特性。我们可以看到，一手 Keras 版本 2.1.3 或最新版本册册结构，其拓扑图如 2-1-2 所示，其在每个 Encoder 上都会进般胸片影像是胸片 CT，而眼底检查则是眼底 OCT，均为针对行 4 次上采样，这使得分割图恢复边缘等信息会更为精细。一个指定器官的成像，而非全身。而器官本身结构比较固定， • KMP_BLOCKTIME设置为1，是设置某个线程在执行完当前实同时，在同一个 stage 上，U-net 都采用了跳跃连接（skip 语义信息并非特别丰富。所以高级语义信息和低层级特征就显Ｕ-net分割网络的优化方法任务并进入休眠之前需要等待的时间，通常设置为1毫秒；实战 connection），而不是直接在高级语义特征上进行监督和得非常重要，而 U-net 的 U 型结构和跳跃连接在这种场景中， • KMP_AFFINITY设置为Compact，是表示在该模式下，线战篇 loss 反传，这样就可以保证最后得到的特征图融合了多的低层可以发挥出更大作用。近年来，U-net 在医学影像分割领域良基于英特尔® 架构的优化方法程绑定按计算核心的计算要求优先，先绑定同一个核心，再篇级（low-level）特征，也使得不同尺度的特征得到了融合，好的应用效果，已在很多部署中得到充分了证明。将传统的CNN图像分割方法用于医学图像时，往往存在以下依次绑定同一个处理器上的下一个核心。此种绑定适用于线 14 从而可以进行多尺度预测（Multi-Scale Prediction）和深度监困难：程之间具有数据交换或有公共数据的计算情况，优势在于可 15 以充分利用多级缓存的特性；督（Deep Supervision）。另外，U-net 在网络后部补充了一 ■ V-net • CNN通常都是应用于分类，生物医学图像则更关注分割以个与前面类似的网络，形成 U 性结构。其中池化运算符由上及定位的任务； • OMP_NUM_THREADS设置为20，是将并行执行线程的数 V-net 可以视为 3D 版本的 U-net，如图 2-1-3 所示，它与 U-net 采样运算符替换，因此增加了输出的分辨率。同时，为了定位， • CNN需要获取大量的训练数据，而医学图像很难获得相应量设定为所需的物理核心数。有着类似的拓扑形态，适用于三维结构的医学影像分割。V-net 模型从收缩路径的高分辨率特征与上采样输出相结合。连续卷能够实现基于 3D 图像的端到端图像语义分割，并通过类似于较大规模的数据。积层可以采用 relu 激活函数来对原始图片进行降采样操作，残差学习的 trick 来对网络进行改进。 ■ 测试代码中添加线程控制从而获得更精确的输出。以往在应对上述困难时，通常采用滑窗的方法，即为每一个待分类的像素点取周围的一部分邻域输入。这种方法好处有两点：首先，这一方法能够在滑窗的同时完成定位工作；其次， "向下" 卷积每次动作都会取一个像素点周围的邻域，可以大大增加训练的数据量。但是，这一方法也有两个缺点：一是通过滑窗所取的 "向上" 卷积块之间有较大的重叠，会导致训练和推理速度变慢；二是网络如上述设置命令所示，在进行 tf.ConfigProto() 初始化时， "向下" 卷积需要在局部准确性和获取上下文之间进行取舍，因为如果滑窗我们也可以通过设置 intra_op_parallelism_threads 参数和 "向上" 卷积取的块过大，就需要更多的池化层，定位准确率会降低，而取 inter_op_parallelism_threads 参数，来控制每个操作符 op 的块过小，则网络只能看到很小的一部分上下文。并行计算的线程个数。二者的区别在于： "向下" 卷积 • intra_op_parallelism_threads 控制运算符 op 内部的并行， "向上" 卷积基于英特尔® 架构平台开展的一系列优化，可以从另一个层面当运算符 op 为单一运算符，并且内部可以实现并行时，如 "向下" 卷积卷积层帮助用户解决以上问题。这些优化方法包括：调整处理器核矩阵乘法、reduce_sum 之类的操作，可以通过设置 intra_ "向下" 卷积 2x2 过滤器，步长：2 解卷积层心数量、引入非统一内存访问架构（Non- Uniform Memory op_parallelism_threads 参数来并行 , intra 代表内部。 "向上" 卷积 2x2 过滤器，步长：2 细粒度特征转发 "向上" 卷积使用 5x5x5 过滤器，步长：1 元素总和非线性 PReLu 图 2-1-3 V-Net 拓扑思想

9 . • inter_op_parallelism_threads 控制多个运算符 op 之间 AVX-512 进行优化的二进制文件，从而得到一个经过优化且 ■ 将模型通过 OpenVINO ™ 工具套件的 mo.py 基于第二代英特尔® 至强® 可扩的并行计算，当有多个运算符 op，并且它们之间比较独与大多数现代（2011 年后）处理器兼容的文件。转换成 xml 文件和 bin 文件立，运算符和运算符之间没有直接的路径 Path 相连时，命令如下：展处理器构建的 Dense U-net TensorFlow 会尝试并行地对其进行计算，并使用由 inter_ 参考文献：图像分割方法 op_parallelism_threads 参数来控制数量的一个线程池。 • https://www.tensorflow.org/guide/performance/ 英英特 overview?hl=zh_cn 英特尔® 深度学习加速（Intel® Deep 特 • https://software.intel.com/zh-cn/articles/tensorflow- 尔通常而言，intra_op_parallelism_threads 设置为单个处理器 ■ 通过Inference Engine 来进行模型推理 Learning Boost, 英特尔® DL Boost）技术尔 optimizations-on-modern-intel-architecture 中的物理核心数量，而 inter_op_parallelism_threads 则设置为中命令如下：第二代英特尔® 至强® 可扩展处理器，不仅以优化的微架构、国国 1 或者 2。医 * 更多英特尔® MKL-DNN 的技术细节，请参阅本手册技术篇相关介绍。更多的内核及更快的内存通道带来了计算性能的提升，更面向医疗 AI 应用提供了更为全面的加速能力，尤其是在其集成的英特尔® 疗健健康 ■ 利用 NUMA 特征来控制处理器计算资源的使用 U-net 基于英特尔® 架构优化后的测试及深度学习加速技术（VNNI 指令集）中，加入了对 INT8 的支持，康行数据中心使用的服务器，通常都是配置两颗或更多的处理器，结果其中，做推理的代码包含如下逻辑模块：为用户提供了高效的 INT8 深度学习推理加速能力，这一能力行业多数都采用 NUMA 技术，使众多服务器像单一系统那样运转。将有效提升 U-net 图像分割方法的执行效率。业 AI 通过以上四个方面的优化，U-net在基于英特尔® 架构的处理 AI 处理器访问它自己的本地存储器的速度比非本地存储器更快一实器平台上的性能得到了显著提升，测试结果如下图所示 7：实战些。为了在这样的系统上获取最好的计算性能，需要通过一些英特尔® 深度学习加速技术通过 VNNI 指令集来支持 8 位或战手特定指令来加以控制。Numactl 就是用于控制进程与共享存储 120.00% 1.200 16 位低精度数值相乘，这对于需要执行大量矩阵乘法的深度手册 1.000 准确率册的一种技术机制，也是在 Linux 系统中广泛使用的计算资源控 100.00% 1.000 学习计算而言尤为重要。它的导入使得用户在执行 INT8 推理 99.50% 制方法。具体使用方法如下所示：时，对系统内存的要求最大可减少 75%9，而对内存和所需带 80.00% 0.800 实优化后处理时延宽的减少，也加快了低数值精度运算的速度，从而使系统整体实战 60.00% 大幅降低 0.600 性能获得大幅提升。战篇 40.00% 0.400 篇基于 OpenVINO ™ 工具套件的优化结果与以往的 FP32 模型相比，INT8 模型具有更小的数值精度和 16 图 2-1-4 用 NUMA 特征来控制处理器计算资源的使用 20.00% 0.274 0.200 动态范围，因此在图像切割等深度学习中采用 INT8 推理方 17 优化结果如图 2-1-6 所示，最左列为脑部 CT 原图，中间列是未 0.00% 0.000 式，需要着重解决计算执行时的信息损失问题。一般地来讲，优化时的图像分割结果，最右列是通过 OpenVINO ™ 工具套件未优化方案 INT8 推理功能可以通过量化校准的方式来形成待推理的 INT8 优化之后生成的图像分割结果。可以看出，通过 OpenVINO ™ 基于英特尔® 架构的处理器（包括英特尔® MKL-DNN）优化模型，进而实现将 FP32 在信息损失最小化的前提下转换为工具套件优化后生成的图像分割结果，在准确率上与未优化时上述指令表示的是 test.py 在执行的时候只使用了处理器图 2-1-5 基于英特尔 ® 架构优化前后性能对比 INT8 的目标。基本保持一致，但在推理速度上却远高于未优化时 8。 #CPU0 中的 0-19 和 40-59 核，以及处理器 #CPU0 对应的近端内存。基于 OpenVINO ™ 工具套件英特尔 ® 发行以图像分析应用为例，从高精度数值向低精度数据转换，实际版对 U-net 进一步优化是一个边计算边缩减的过程。换言之，如何确认缩减的范围是 ■ 采用面向英特尔 ® MKL-DNN 优化的 TensorFlow 为满足客户在实际应用场景中的需求，在上述结果的基础上，实现信息损失最小化的关键。在 FP32 向 INT8 映射的过程中，为了使用户在通用处理器平台上进行高效的 AI 计算，英特尔英特尔又基于 OpenVINO ™ 工具套件英特尔® 发行版（以下简采用根据数据集校准的方式，来确定映射缩减的参数。在确定针对众多主流的深度学习开源框架进行了大量的优化，包括目称 “OpenVINO ™ 工具套件”）对 U-net 图像切割方法实施了进参数后，平台再根据所支持的 INT8 操作列表，对图形进行分前在工业界和学术界使用十分广泛的 TensorFlow。一步的优化，具体优化步骤如下：析并执行量化 / 反量化等操作。量化操作用于 FP32 向 S8（有符号 INT8）或 U8（无符号 INT8）的量化，反量化操作则执通过使用英特尔 ® MKL-DNN 优化的多种原语（Primitive）， ■ 模型转换行反向操作。英特尔对 TensorFlow 进行了优化。英特尔 ® MKL-DNN 是从由于原有的模型是基于 Keras 进行训练，生成的模型为 hdf5 TensorFlow 1.2 开始添加的。除了在训练基于 CNN 的模型时格式，这种格式的模型无法直接作为 OpenVINO ™ 工具套件图 2-1-6 基于 OpenVINO ™ 工具套件对 U-net 的优化结果基于 OpenVINO™ 工具套件进行 FP32 能显著提升性能之外，使用英特尔 ® MKL-DNN 进行编译还可的输入，需要先进行格式转换，操作命令如下：模型到 INT8 模型的转换以创建针对英特尔 ® 高级矢量扩展指令集（Intel® Advanced * 更多 OpenVINO ™ 工具套件的技术细节，请参阅本手册技术篇相关通常地，通过神经网络训练好的模型是单精浮点精度的，即 Vector Extensions，英特尔 ® AVX）、英特尔 ® AVX 2 和英特尔 ® 介绍。 FP32，用户可以将这样的模型直接部署在实际应用场景中， 7 8 测试配置为：处理器：双路英特尔 ® 至强 ® 金牌 6148 处理器，2.40GHz；核心 / 线程：20/40；内存：16GB DDR4 2666MHz * 12；相关验证测试配置为：处理器：双路英特尔® 至强® 金牌 6148 处理器，2.40GHz；核心/线程：20/40；内存：16GB DDR4 2666MHz* 12；硬盘：英特尔 ® 固态盘 SC2BB480G7；BIOS：SE5C620.86B.02.01.0008.031920191559；操作系统：CentOS Linux 7.6；硬盘：英特尔® 固态盘SC2BB480G7；BIOS：SE5C620.86B.02.01.0008.031920191559；操作系统：CentOS Linux 7.6； Linux 内核：3.10.0-957.21.3.el7.x86_64；gcc 版本：7.2；Python 版本：Python 3.6；TensorFlow 版本：R1.13.1。 Linux内核：3.10.0-957.21.3.el7.x86_64；gcc版本：4.8.5；Python版本：Python 3.6；OpenVINO™ 工具套件：2019 R1；Keras：2.1.3。 9 数据源引自https://software.intel.com/en-us/articles/lower-numerical-precision-deep-learning-inference-and-training

10 . 并通过量化技术得到低精度模型，比如 INT8 模型在保证模型操作（Convolution Ops）在整个模型运行中占据的时间比例应用案例以 eStroke 溶栓取栓影像平台为载体，东软与英特尔携手，基精度的基础之上可以提供效率更高的模型推理应用，通常情况反而少。因此，需对其进行进一步的优化。于 U-net 模型对平台中的脑卒中医学影像进行图像分割处理，下模型精度的损失小于 1%。东软 eStroke 溶栓取栓影像平台根据 eStroke 平台对灌注成像的各个参数 , 包括 CBF、CBV、如图2-1-9所示，经过优化，模型的延迟有了大幅度的降低。 MTT 和 TMAX（分别对应脑血流量、血脑容量、平均通过时 1 ■ 背景 OpenVINO™ 工具套件从 2018 R4 版本开始提供 FP32 模型间和残留函数的达峰时间）的计算，并结合以上参数通过左右英脑卒中一直是危害公众健康的主要 “杀手”。据估算，全国每年英到 INT8 模型的转换功能，并且从 2019 R1 版本开始，支持脑循环的对称性，如图 2-1-11 所示，进一步推理出用于医学特对 INT8 进行优化后，特新发脑卒中约 200 万人，65 岁以下人群约占 50%。这表明，尔基于第二代英特尔® 至强® 可扩展处理器所集成的英特尔 ® 深度处理时延进一步降低诊断的缺血半影带和梗死核心的所在区域。尔中学习加速技术。我国脑卒中年轻化趋势严重，且每年仍以 13% 的速率在上升，中国 0.404 0.314 复发率高达 17.7%11，给患者及社会带来了沉重的负担。脑卒国医医中的首选有效治疗手段为溶栓和取栓治疗，这一方法有赖于对疗 OpenVINO ™ 工具套件中的模型优化器基本工作和部署流程疗健为：首先工具套件会将训练好的、基于开放神经网络交换脑部医疗影像的快速和准确判读。健康 FP32 INT8 INT8 优化 1 康（Open Neural Network Exchange，ONNX）训练的模型进行图 2-1-9 优化后的 INT8 模型时延性能对比行脑卒中救治的关键时间只有 30 分钟，基本没有时间转诊，而业行转换和优化，生成 FP32 格式的 xml 文件和 bin 文件，其中业 AI 的优化包含节点融合、批量归一化的去除和常量折叠等方法；施救的关键点往往在基层区县医院。但一方面，囿于基层医院 AI 实此时再将 INT8 模型进行逐层分析，可以看到相比之前已经有实技术能力不足，溶栓、取栓比例较低；另一方面，医生判读水然后，通过 OpenVINO ™ 工具套件中的转换工具将 FP32 格战了很明显的提升。但在优化之后的模型中，Concat Ops 所占战平参差不齐，专业影像医生资源不足，中心医院影像专家也分手式的文件转换为 INT8 格式的 xml 文件和 bin 文件，在转换的据的执行时间还是较长。为了进一步提升模型的吞吐量，需对手册过程中需要用到一个小批量的验证数据集，并且会将转换量化身乏术，导致脑卒中溶栓、取栓缺乏有效的影像学指导，无法册 Concat Ops 进行特定优化，并且不再使用英特尔 ® MKL-DNN 有效识别出可挽救的组织，很容易使患者失去宝贵的抢救窗口。过程中的统计数据存储下来，以便在后续的推理时确保精度不中的原语，而是要进行定制化，详细代码如下所示：受影响。上述的转换流程是离线运行的，也就是只要转换一次实为应对这一挑战，医疗行业需要一种即便在基层医院医生判断实即可，详细做法如图 2-1-7 所示：战图 2-1-11 通过 TMAX & CBF 异常区域计算出缺血半影带和梗死核心区域战水平不足的情况下，仍然可以快速准确地对相关医学影像进行篇篇 User 分析的工具。现在，基于深度学习的医学影像判读已经逐步走该方案基于面向英特尔® 架构优化的 TensorFlow （基于英特尔 ® Application 入医疗机构，帮助应对以上问题。东软智能医疗研究院、沈阳 18 MKL-DNN 优化）以及 OpenVINO ™ 工具套件进行了优化，使 19 东软医疗系统有限公司（以下简称 “东软”）联合众多合作伙伴， IR 基于 U-net 模型的深度学习推理在保证准确性的同时，推理时 Tain Run Model Inference Engine 打造的高质量 eStroke 溶栓取栓影像平台，就能够为急性脑卒 a Model Optimizer .XML 间得以大幅减少。这对于争分夺秒的脑卒中诊治而言，无疑有 .bin 中静脉溶栓和动脉取栓治疗提供更精准的指导。着重大的实践意义。如图 2-1-12 所示，在推理准确性基本一图 2-1-7 基于 OpenVINO ™ 工具套件的 FP32 模型到 INT8 模型的转换10 致的情况下，采用两个工具优化后的方案与未经优化的方案对上述优化主要的目的是，实现并行化地批量拷贝数据到指定位 ■ 方案与成效比，推理延迟分别降低 72.6% 和 85.4%12。按照上述模型转换之后，得到初步模型，其性能如下图所示：置。通过此类型的优化，模型性能有了进一步的提升。此时的 eStroke 溶栓取栓影像平台是基于缺血性脑卒中半暗带、脑微 120.00% 1.200 1 模型执行时间基本达到了理想状况，最终优化结果如图 2-1-10 出血、脑侧支循环做出定量评价的云服务平台，可以对溶栓、 1.000 准确率所示：取栓多模态影像做出精准评价，具有以下优势： 100.00% 1.000 与 FP32 相比，INT8 99.50% 处理时延更低 • 支持多模态影像学设备。其中包括电子计算机断层扫描 1 80.00% 0.800 0.404 （Computed Tomography，CT）、核磁共振成像（Magnetic 优化后处理时延 INT8 对 Concat Ops 进行特定优 60.00% 大幅降低 0.600 Resonance Imaging ，MRI）图像等 16 排以上多层螺旋化后，处理时延进一步降低 CT 以及 1.5T 以上 MRI； 40.00% 0.400 0.274 0.404 0.314 • 实现全流程自动化。从医院设备扫描序列开始到影像后处理 0.146 20.00% 0.200 FP32 INT8 0.147 分析，一直到输出影像诊断报告，均无需人工干预；图 2-1-8 FP32 与 INT8 的时延性能对比 0.00% 0.000 • 能够接入互联网医疗诊治技术应用研究平台等外部诊疗系 FP32 INT8 INT8 优化 1 INT8 优化 2 统。支撑开展心脑血管病远程急救、移动急救、高危人群智未优化方案通过对两种模型进行性能分析可以看出，FP32 模型中的重排基于英特尔® 架构的处理器（包括英特尔® MKL-DNN）优化图 2-1-10 进一步优化后的 INT8 模型时延性能对比能预警及干预、心脑血管病联合救治、虚拟手术等技术研发序操作（Reorder Ops）占据了大量的执行时间，在 INT8 模基于OpenVINO ™ 工具套件英特尔® 发行版优化和工程化。型中，重采样（Resample Ops）只支持 FP32 的操作，连接从性能分析可以获知，此时模型运行占比最高的原语成了卷积图 2-1-12 东软 U-net 图像分割各方案性能对比操作（Concat Ops）执行时间过长，而本来占比最高的卷积操作，完全符合本实例中 Dense U-net 模型本应有的效果。 11 数据援引自《安徽省脑卒中分级诊疗指南（2015版）》 12 该数据所使用的测试配置为：处理器：双路英特尔® 至强® 金牌 6148 处理器，2.40GHz；核心/线程：20/40；内存：16GB DDR4 2666MHz * 12； 10 本图来源于 https://docs.openvinotoolkit.org/latest/_docs_MO_DG_Deep_Learning_Model_Optimizer_DevGuide.html 硬盘：英特尔® 固态盘SC2BB480G7；BIOS：SE5C620.86B.02.01.0008.031920191559；操作系统：CentOS Linux 7.6； Linux内核：3.10.0-957.21.3.el7.x86_64；gcc版本：7.2（TensorFlow）& 4.8.5（OpenVINO）；Python版本：Python 3.6； Tensorflow版本：R1.13.1；OpenVINO™ 工具套件：2019 R1；Keras：2.1.3。

11 . 西门子医疗利用英特尔 ® 深度学习加速技 ■ 方案简介及实施效果通过英特尔® 深度学习加速技术和 OpenVINO ™ 工具套件提供 GE 医疗利用英特尔技术与产品，优化深度术，推进心血管疾病治疗中的 AI 应用在本案例中，西门子医疗与英特尔一起合作，优化了基于全新的 FP32 到 INT8 的转换工具，英特尔帮助西门子医疗实现了学习模型，提升 CT 图像推理性能的第二代英特尔 ® 至强 ® 可扩展处理器构建的心腔检测和量化在保持准确率的情况下，以更高的速度来进行推理运算的能力。 ■ 背景与挑战 ■ 背景模型。该 AI 模型基于 Dense U-net，可对心脏的左右心室进图 2-1-14 显示了利用 AI 进行心脏图像分割，左图显示 AI 模心血管疾病一直是危害人类健康的大敌。据统计，心血管疾 CT 检查是现代医学中最常用的检查手段之一。其通过 X 射线行语义分割，并可扩展到所有四个腔室。AI 模型的输入是跳型分割了心脏的各种结构，右图上部是未使用 INT8 模型的传英病每年导致约 1,800 万人失去生命。采用心脏磁共振成像 13 束对人体层面进行扫描，并得到相关部位的断面或立体图像，英统 ONNX 输出图像，而右图下部是使用 INT8 模型的输出图像，特动心脏的 MRI 图像的堆叠，输出则是识别心脏的区域以及结构，特检查（MRI），通过对心脏磁共振成像（Cardiac Magnetic 从而发现人体的病变情况。CT 检查虽然有着极为重要的临床尔其中每个结构都会被颜色编码。这样可以将原先需要人工识别可以直观地看到，两者的精度基本一致。尔中 Resonance，CMR）图像的定量测量，一直是评估心脏功能、意义，但 CT 切片图像的检查在传统上往往依赖经验丰富的医中标注的过程智能化，从而加快影像判读速度，其整体工作流程国心室容量和心肌组织状况的金标准。过去，心血管专家需要凭生进行人工读片，不仅效率较低，且受医生主观性的影响也会国医见图 2-1-13 所示。医借经验来对 MRI 影像进行判读，不仅费时费力，且错误率较高，带来误诊、漏诊。疗疗健在解释图像时也容易受到主观因素的影响，导致漏诊和误诊。健第二代英特尔 ® 至强 ® 可扩展处理器为该 AI 模型的推理提供康现在，通用电气医疗集团（以下简称 “GE 医疗”）正利用深度康行了高效、灵活和可扩展的平台，特别是经与 OpenVINO ™ 工行现在，西门子医疗正在开展一系列创新医疗 AI 应用研究，并学习的方法，对 CT 切片图像进行分类和标记，这更便于医生业具套件的紧密结合，有效地加速了针对视觉应用的深度学习推业 AI 将成果纳入心脏病学与放射性影像分析的实际应用中。但要将寻找到微小病灶，并将其用于研究或临床比较。在 2018 年的 AI 理，提高了诊疗过程中至关重要的诊断与决策的速度和准确性。实这些 AI 能力真正应用到医疗实践中，还面临着一系列的挑战。医学成像光学会议（SPIE）上，GE 医疗发表了一篇关于基于实战同时，处理器集成的英特尔® 深度学习加速技术，具有全新的战 AI 的结构分类器的论文，其 CT 成像专家使用 Python 语言、手矢量神经网络指令（VNNI），能够进一步加速深度学习中的手册首先，AI 应用对临床诊疗带来延迟。AI 应用需要与各类检查 TensorFlow 框架以及 Keras 库构建并训练了新的 AI 模型。通册各种计算密集型操作，让图像分类、图像分割、目标检测等 AI 仪器生成的数据保持同步，并保证 AI 推理具备高吞吐、低延过与英特尔开展的深入技术合作，双方正利用英特尔 ® 至强 ® 应用在英特尔 ® 处理器平台上推理效率变得更高。英特尔® 深度迟的特性，才能让基于 AI 的医疗系统服务更多患者。其次，处理器、英特尔 ® 深度学习部署工具（Intel® Deep Learning 实 AI 应用应当尽可能与临床诊疗流程进行融合，以便节省时间，学习加速技术对 INT8 良好的支持能力，使其可以将 FP32 训 Deployment Toolkit, 英特尔 ® DLDT）等产品与技术，来优化实战练模型转化为 INT8，在保持准确性的同时大幅提升推理速度。战并提高测量和诊断之间的一致性和准确性。其面向 CT 推理的解决方案。篇篇在本案例中，深度神经网络（例如 Dense U-net）经过训练 20 为此，西门子医疗与英特尔一起，基于通用处理器平台来开展 ■ 方案与成效 21 后被用以识别心脏区域，神经网络的权值通常采用浮点数值针对 MRI 影像的判读和测量，实施高效的 AI 推理工作。双方方案中引入了英特尔 ® DLDT 来优化深度学习模型，并在英特尔 ® （FP32）来表示，因此模型通常情况下会通过 FP32 精度来不仅利用深度学习的方法对来自 MRI 的心血管医学影像进行图 2-1-14 使用 INT8 模型前后的输出精度对比至强 ® 处理器平台展现出更好的推理性能。进行训练和推理。但 INT8 同样可以在损失很小的准确率（通了 AI 判读研究，同时基于全新的第二代英特尔 ® 至强 ® 可扩常 <0.5%，本案例中可达到 <0.001%）情况下来提升推理展处理器平台以及 OpenVINO™ 工具套件等，进行了优化工作，从推理速度来看，该方案在基于第二代英特尔 ® 至强 ® 可扩展英特尔 ® DLDT 是 OpenVINO ™ 工具套件中，专门用于深度速度 14。使推理速度大幅提升，为临床医学诊疗提供了强有力的支撑。处理器、英特尔® 深度学习加速技术以及 OpenVINO ™ 工具套学习模型的推理加速部件。通过该工具，训练收敛的模型可件进行优化后，心脏 MRI 的 AI 分析能力得以大幅增强。一方面，以在多种英特尔 ® 处理器平台上获得更高的数据处理能力，心脏 MRI 影像的处理速度获得了显著增强，达到了 200 FPS 以及更低的数据处理延时。其可以对多种主流深度学习开源（帧每秒），这意味着，一次完整的心脏 MRI 检查数据可以框架训练好的模型进行转换和优化，生成独立于深度学习框在不到 1 秒的时间内就分析完毕，为心脏 MRI 在临床上的近架的 bin 文件和 xml 文件。其中 bin 文件用于存放深度学习实时应用开辟了可能；另一方面，优化后的解决方案，在量化模型的权重，以二进制形式存储，而 xml 文件则描述深度学和执行模型时，在几乎没有降低精度的情况下，性能可以提升习模型的网络结构，二者结合起来共同解析模型。这使得模到未优化方案的 5.5 倍 15。心脏 MRI 型的表征文件不依赖于任何深度学习框架，可以更方便地进检查行部署。同时，在生成这两个文件的过程中，还会对模型进行常量折叠、Batch 层融合、水平方向层融合、无效节点消 AI 系统除等模型优化操作。四个腔室的量化图 2-1-13 西门子医疗与英特尔一起构建心脏 MRI 的 AI 分析能力 13、14 15 该数据援引自 Journal of the American College of Cardiology, 2017. 该数据所使用的测试配置为：处理器：双路英特尔® 至强® 铂金 8280 处理器，2.70GHz；核心/线程：28/56; HT：ON；Turbo：ON；内存：192GB DDR4 2933；硬盘：英特尔® 固态盘SC2KG48；BIOS：SE5C620.86B.02.01.0008.031920191559；操作系统：CentOS Linux 7.6.1810； Linux内核：4.19.5-1.el7.elrepo.x86_64；gcc版本：4.8.5；OpenVINO™ 工具套件：2019 R1；工作负载：Dense U-Net。

12 . 如图 2-1-15 所示，英特尔® DLDT 可以轻松地导入 GE 医疗汇医慧影利用英特尔技术，构建高效协助卫宁健康基于英特尔先进产品，构建高效基于 TensorFlow 等框架训练得到的模型。诊疗平台的肺结节智能辅助诊断系统 GE医疗CT边缘 AI增强应用 ■ 背景 ■ 背景基于英特尔® 深度学习 DLDT技术的基于边缘的进行早期筛查和发现，是关爱女性健康、帮助女性远离乳腺癌在肺癌等肺部疾病的临床诊断工作中，肺结节 CT 影像不仅是训练框架推理引擎英训练模型模型优化器优化后模型危险的有效方法。医学上，可以通过超声波、X 光检测、核磁重要的诊断依据，也给拟定治疗方案提供了关键信息。肺结节英特英特尔® 特 MKL-DNN 共振成像以及其他医学影像技术来进行辅助诊断。前文也提到，在临床上具有常见但又非常复杂的特征，其病因也复杂，且临尔图 2-1-17 基于 RetinaNet 模型构建的方案尔中实时数据英特尔® 至强® 处理器影像的判读需要医生具有丰富的经验以及横跨多学科的知识储床表现缺乏特异性，容易受到医生经验与主观判断的影响。因中国备。拥有这些技能的医生，即便在一些大型医院也数量不足，为进一步提高分析速度，新方案还引入了 OpenVINO ™ 工具套此，对肺结节影像的判读分析需要非常精细及准确，对医生的国医医图 2-1-15 部署有英特尔 ® DLDT 的 GE 医疗 CT 边缘 AI 增强应用而小型社区医院或边远地区医疗机构则更为稀缺。件来提升推理性能。一方面，OpenVINO ™ 工具套件中内置的诊断水平及医疗资源等的要求相当高。疗疗健一系列优化工具和预训练模型，可供用户调用，并对已训练完健康利用英特尔® DLDT 对模型进行转换和优化后，可将优化后的同时，虽然医疗影像数量的增长与计算机图像技术的成熟，推成的模型进行压缩和加速，进而提升模型推理效率；另一方面，将 AI 引入肺结节智能辅助诊断，可以帮助医疗机构有效应对这康行模型导入 GE 医疗 CT 边缘 AI 增强应用中，该应用在英特尔 ® 一挑战。为此，卫宁健康科技集团股份有限公司（以下简称：行动了计算机医疗影像分析解决方案的出现，但由于传统图像诊方案也能使用 OpenVINO ™ 工具套件完成 FP32 模型到 INT8 业业 AI 至强 ® 处理器平台和英特尔 ® MKL-DNN 的基础上，构建了基断支持系统的准确率达不到人工识别的水平，所以医生往往只模型的转换，以可控的模型精度损失换取推理速度的大幅提升卫宁健康）与英特尔和 AMAX 一起，基于深度学习方法，构建 AI 实于边缘的强大推理引擎。会用其作为分析诊断前的单一筛查分类和预判断。另外，由于（以图像分类为例，业界通用的模型精度损失为小于 1%）。了全新的肺结节智能辅助诊断系统。系统中的智能辅助诊断模实战型与放射信息管理系统（Radiology Information System, RIS）战缺乏统一的数据互联互通标准，在面对治疗期内同一患者由多手手册为了验证这一优化方案的实际效能，双方进行了一系列的性能位医生诊治的场景时，也会带来沟通成本上升。方案的训练过程采用了精度较高的 Keras FP32 浮点类型模型，和影像归档和通信系统（Picture Archiving and Communication 册测试，该数据集具有 8,834 个 CT 扫描图像。GE 医疗希望在而在之后的推理过程中，则使用 OpenVINO ™ 工具套件中的 Systems，PACS）相互连通，可将肺结节影像学定量的表现插对模型实施优化后，能够在使用小于 4 个处理器核心的情况下，为帮助医疗机构获得更具效能的智能化辅助诊疗平台，作为以模型优化器（Model Optimizer）将原始模型转换为 IR 文件，入 RIS 报告中，并通过三维智能重建，展现肺结节同周围组织、实使推理引擎每秒可处理的图像数量达到 100 张。人工智能赋能分级诊疗和精准医疗为使命的高新技术企业，汇并输入推理引擎（Inference Engine）中进行推理，再利用其血管的关系，能更有效地辅助医生观察疑似结节。实战战医慧影与英特尔展开深入合作，通过引入 OpenVINO ™ 工具套内置的量化工具（Calibration Tool），将 FP32 模型量化为篇测试结果显示，在只启动单核心的英特尔 ® 至强 ® 处理器 E5- 为使系统具有更优的部署和运行效能，卫宁健康选择了基于第二篇件以及其他先进软硬件产品，构建基于深度学习方法的辅助诊 INT8 类型来提高推理速度。 2650 v4 上，优化后的模型可使推理吞吐量提高到优化前的代英特尔 ® 至强 ® 可扩展处理器，以及内置 OpenVINO ™ 工具套疗解决方案（Dr. Turing AI），并已在乳腺癌早期筛查和诊断 22 14 倍。同时，英特尔 ® 至强 ® 处理器的多核心性能，使得 GE 23 如图 2-1-18 所示，采用 OpenVINO ™工具套件对 FP32 模型件的 AMAX 深度学习一体机做为基础设施。新的处理器不仅拥等应用中，获得了令人满意的效果。医疗推理引擎的效率获得大幅提升，如图 2-1-16 所示，在使进行推理，速度是原始模型的 3.02 倍，而采用 OpenVINO ™ 有强大的通用计算能力，还集成了英特尔 ® AVX-512、英特尔 ® 用了 4 个处理器核心后，推理引擎每秒可处理的图像数量提升工具套件进行 INT8 转换后，更是将推理速度提升至 8.24 倍， DL Boost 等创新技术，能够很好兼顾通用计算能力和并行计算 ■ 方案与成效 16 到了 596 张，近 6 倍于最初的期望值。且精确度只损失了不到 0.17%17。能力，为人工智能训练提供了卓越的性能。而 OpenVINO ™ 工作为全新基于深度学习方法的智能图像辅助诊断方法，Dr. 具套件包含了大量由英特尔调优和封装的预训练模型，便于用 Turing AI 新方案可以运用于乳腺癌早期筛查和诊断的全流程， 9 8.24X 5.96 8 户直接调用。同时，用户还可使用 OpenVINO ™ 模型转换器进并以统一良好的数据连通性，帮助医务人员提高图像分析、诊 7 行数值类型转化来提升效率（详见第 17 页 “基于 OpenVINO ™ 断、临床检测支持及疾病管理效率，显现多项优势： 6 4.05 5 工具套件进行 FP32 模型到 INT8 模型的转换” 部分的描述）。 • 影像分析更为准确，并提供多种自动标识能力； 4 3.02X 3.01 3 • 图像辅助分析速度更快，提升医生阅片效率； 2 1 如图 2-1-19 所示，在后续的分割、检测、去假阳性这三种任 1.48 • 提供基于美国放射学会（ACR）标准的结构化图像报告； 1 0 务场景中的测试数据表明，OpenVINO ™ 工具套件可将推理速 • 可在乳房图像报告和数据系统中自动更新患者信息。原始 Keras FP32 引入 OpenVINOTM 优化 FP32 模型引入 OpenVINOTM 优化 INT8 模型度提升 10-30 倍 18。图 2-1-18 OpenVINO ™ 工具套件带来的推理效率优化期望值 1 核心 2 核心 3 核心 4 核心分割任务中三种配置性能检测任务中三种配置性能去假阳性任务中三种配置性能为获得更高的影像分析准确率，方案可以根据需要使用多（s, 越小越好）（s, 越小越好）（s, 越小越好）众所周知，越是癌症晚期的病人，所需医疗资源越多，因此癌 2500 140 35 图 2-1-16 多核心带来了推理性能的稳步扩展种深度学习算法模型，如 Inception V4、Inception ResNet 120 30 症的早期发现和干预，不仅可以更好地救治病患，且能够释放 2000 100 25 V2 等。在最新的一些应用中，如图 2-1-17 所示，方案采更多医疗资源，提升全民健康水平。现在，结合英特尔技术打 1500 80 20 用了以 ResNet50 卷积网络模型为基础网络（Backbone） 1000 60 15 造的汇医慧影乳腺癌辅助诊疗解决方案（Dr. Turing AI）已经 40 10 的 RetinaNet 目标检测模型，来实施模型训练及推理，其中 500 在一系列医疗机构中得到部署，其不仅能使图像分析速度加快 20 5 0 0 0 ResNet50 卷积网络模型用于提取特征，子网络用于分类和回归。 8.24 倍 17，还有助于减少假阳性以及不必要的肿块和钙化活检， Linux Pytorch Default: numa off OpenVINO™ Linux Pytorch Default: numa off OpenVINO™ Linux Pytorch Default: numa off OpenVINO™ 获得了医生和患者的好评。图 2-1-19 肺结节智能辅助诊断系统在不同任务场景中的表现 16 17 该数据所使用的测试配置为：处理器：英特尔 ® 至强 ® 处理器 E5-2650 v4，2.20GHz；核心 / 线程：12/24; HT：ON；Turbo：ON；数据援引自汇医慧影内部测试数据：https://builders.intel.com/docs/aibuilders/huiying-medical-technology-optimizes-breast-cancer-early-screening- 内存：264GB；硬盘：480GB；操作系统：CentOS Linux 7.4.1708；Linux 内核：3.10.0-693.el7.x86_64；gcc 版本：4.8.5； and-diagnosis-with-intel-ai-technologies.pdf，所使用的测试配置为：处理器：双路英特尔 ® 至强 ® 铂金 8268 处理器，2.90GHz；核心 / 线程：24/48; OpenVINO ™ 工具套件版本为英特尔发行版 2019R2，数据集采用汇医慧影提供的 366 幅乳房 X 光影像，图像尺寸 1280X640。工作负载：包含了 8,834 个 CT 扫描图像的数据集。 18 相关测试配置：双路英特尔 ® 至强 ® 金牌 6240 处理器、18 核 /36 线程、启用超线程技术；总内存：384 GB（12 插槽 /32GB/2666MHz）；存储：英特尔 ® 固态盘 D3-S4510；BIOS：SE5C620.86B.02.01.0010.010620200716（ucode: 0x400002C），CentOS 8，Kernel: 5.6.4-1.el8.elrepo.x86_64；深度学习框架：PyTorch；编译器：gcc 7.3；MKL DNN 版本：v0.20.5；精度：FP32，数据集：357x4x3x96x512x512；定制 3D Unet；配置 1：Linux PyTorch（1.3.0） Default Numa OFF，1 实例；配置 2：Linux PyTorch（1.3.0） Optimized Numa ON，36 实例；配置 3：OpenVINO，版本：2019.3.376。

13 . 致远慧图借力英特尔技术，推出智能远程假设使用 ResNet34 模型，输入图像分辨率为 256*256；任标注转化命令如下：小结阅片方案务是 OCT 上的 NORMAL、CNV、DME、DRUSEN 四分类任务。首先使用 torch.onnx 工具，将模型转化为 ONNX 格式的代码医疗图像分割、目标检测是 AI 应用于医疗方向的重要分支。在传统医疗信息系统中，医院会将采集到的医学影像暂存到图转化完成后，可以得到一个 json 文件：示例如下：良好的图像分割模型，能有效帮助医疗机构提高医学影像判读像仓库（ImageHub），然后上传到云端服务器上进行分析处理，效率，进而增强临床诊疗能力、提升疾病治愈率以及减少病患英再将处理结果返回到医院的应用软件上，帮助医生进行疾病诊英等待时间，弥补因医疗机构影像科资源缺乏带来的多种问题。特断。如图 2-1-20 所示，在这一过程中，结果的反馈速度可能特尔尔受到网络因素以及推理速度的制约，影响诊疗效率。中与基于 AI 在其他图像处理领域的应用不同，医疗领域的图像中国国传统影像处理方案分割对时效性要求更高，留给病患的黄金诊疗窗口往往只有医医疗使用 Model Optimizer 工具，生成 IR 文件命令如下：数十分钟。因此，如果图像分割 AI 应用的推理效率不够高，疗此时，需要借助 OpenVINO ™ 工具套件提供的 Calibrate 工具健就有可能延误宝贵的抢救时间。来自多个行业、多个场景的健康对模型进一步量化，将模型从 FP32 量化为 INT8，来进一步康案例显示，英特尔 ® 至强 ® 可扩展处理器、第二代英特尔® 行提升模型的推理速度。本文中采用的 resnet34.yml 中包括模行医学影像采集图像仓库云数据中心诊疗应用业至强 ® 可扩展处理器，以及英特尔 ® 深度学习加速指令集、业型的定义和权重、模型的任务类型，以及使用的框架、使用的 AI 优化影像处理方案 OpenVINO ™ 工具套件等产品和技术，可以有效提升深度学习 AI 执行结果如图 2-1-22 所示，此时 IR 文件是 FP32 格式，包括实数据集等。文件如下所示：实模型的推理效率。基于不断创新的产品与技术，英特尔也将一战传输优化策略了 resnet34.xml 和 resnet34.bin 两个文件。战手图像仓库如既往地推动医疗行业中 AI 应用的创新和落地，使科技更好手册地服务于人们的健康生活。册医学影像采集边缘推理诊疗应用实图 2-1-20 智能远程阅片新旧方案对比实战战篇为解决这一问题，北京致远慧图科技有限公司（以下简称 “致远篇慧图”）一方面通过架构优化，如图 2-1-20 所示，在贴近医疗一 24 线的边缘侧部署 “英特尔® Movidius ™ 神经计算棒 +OpenVINO ™ 25 使用 definition.yml 定义 launchers 的框架和设备，以及各种工具套件”，来充分前置 AI 推理能力，让方案在边缘侧就完成数据集的地址、标注和评价指标，这里使用 accuracy 的 top1 模型的压缩、加速和推理过程，降低网络传输带来的延迟。评价指标。文件如下所示：另一方面，在医学影像分析场景常用的深度学习模型中，采用 INT8 等低精度定点计算方式，可以更高效地利用高速缓存，图 2-1-22 使用 Model Optimizer 工具生成的 IR 文件减少带宽瓶颈，并最大限度地利用处理器计算资源，提升模型的推理速度。因此，致远慧图充分运用英特尔® 架构的处理器接下来需要将模型进一步量化，这需要准备与任务相关的特性，借助 OpenVINO ™ 工具套件实施模型优化。数据集以及标注，并使用 OpenVINO ™ 工具套件提供的 Annotation Convert 工具将数据集转换为标准格式。因为本如图 2-1-21 所示，OpenVINO ™工具套件会将训练好的模型文假设的是多分类任务的模型，因此使用 imagenet 格式组织（假设使用 PyTorch 框架）通过 PyTorch 提供的工具转换数据，然后使用工具进行转化。如图 2-1-23 所示，数据集的 Calibrate 工具量化命令如下：为 ONNX 模型，再使用模型优化器将其转化为 OpenVINO ™ 组织格式，从左到右分别是图像文件夹、图像标注及标注对应工具套件独有的优化中间表示文件（Intermediate 名称。 Representation，IR），其包括了 bin 和 xml 两种格式的文件；尔后 Calibrate 工具会使用标注数据集，对模型进一步量化。后续进行的验证测试结果表明，借助 OpenVINO ™ 工具套件， Annotation Convert AI 应用能更充分挖掘基于英特尔® 架构的处理器的计算资源。工具数据集 & 标注 Json 格式且经进一步转化为 INT8 模型后，在基本不影响准确率的情况 torch.onnx Model Optimizer 图 2-1-23 数据集的组织格式下，推理速度能获得显著提升，有效地缩短了影像处理的响应工具工具 FP32 模型 ONNX 格式 IR 文件模型量化 INT8 模型时间，能够帮助医疗机构提高诊疗效率。 Calibrate 工具图 2-1-21 借助 OpenVINO™ 工具套件开展模型优化

14 . 医疗领域中的医学影像分析 “云技术 + 大数据” 在医学影像分析中的应用医学影像分析面临挑战云计算技术的快速发展，让信息孤岛问题逐渐得以解决，如图 2-2-1 所示，越来越多的医疗机构开始将相关医技设备众所周知，高水平诊疗的前提，是对病情的准确掌握和精准分英析。古时，医技高明的大夫以望、闻、问、切来获取和推断病及医疗服务过程都通过云的方式链接起来，并在其上构建全英特医技协同平台、影像协同平台等能力和应用，以平台即服务特情。今天，通过各类医疗设备和信息系统，尤其是医学影像设尔尔（Platform as a Service，PaaS）或软件即服务（Software 中备的辅助，医生更能驾驭诊疗过程，为病人提供优质医疗服务。中国目前，在大中型医疗机构中，X 光机、CT 机、核磁共振等设 as a service，SaaS）的方式满足各层级医疗机构的不同需求。国医医 AI + Cloud，协力备已逐渐普及，即便在基层医疗机构，患者也能进行各类医学疗疗健影像检查。以全医技协同服务平台为例，通过接入云服务，各级医疗机构健康能够获得跨终端、跨平台的全医技功能应用。而影像协同平台康行行医学影像设备和系统虽然可以迅速到位，但 “软实力” 却无法则能够让来自大、中型医疗机构的医学影像专家随时随地处理业业共建高效医学影像 AI 一蹴而就。如医学影像分析需要影像科医生拥有较高的专业素从不同地区传来的影像数据，并对疑难杂症进行协同会诊，来 AI 实养，不仅具备临床医学、医学影像学等方面的专业知识，还必实现医疗资源的高效共享。实战战须熟练掌握放射学、CT、核磁共振、超声学等相关技能，同时，手手分析能力册还需具备运用各种影像分析技术进行疾病诊断的能力。以医学影像数据为例，基于云计算和大数据技术的互联互通，册不仅让各医疗机构可以规避过度检查、重复治疗等问题，还有因此，虽然医学影像设备在医疗机构已相当普及，但在一些边力地打破了数据孤岛现象，建立起无边界医疗全连接，提高了实医疗服务质量。同时，通过影像数据的积累和分析，也让基于实远地区或基层医疗机构，却常常面临空有设备却无人有能力 “看战战片” 的尴尬境地。以一些省份为例，很多医学影像设备已部署 AI 的医学影像分析应用日趋走向成熟。现在，基于云技术 +AI 篇篇到县、社区一级的医疗机构，但病人接受检查后，当地医院却的医学影像分析已逐渐在各个医疗机构获得部署，并获得良好依然无法做出精准的判断和分析，需要将影像文件通过拍照、反馈。 26 27 扫描等方式传给上一级医疗机构。有时会因为影像文件的质量得不到保障乃至失真，造成病情的延误或误判。基于 AI 的医学影像分析通过云服务和大数据系统汇集的海量数据，让目标侦测神经网不仅如此，由于各医疗机构的信息化系统彼此独立，且数据络等 AI 模型获得大量的训练样本，令基于 AI 的智能化辅助诊标准未完全统一。例如各个 PACS 上存储的医学影像数据几断系统能够更有效地帮助医疗机构提升诊疗能力。乎没有连通，形成了一个个信息 “孤岛”，这些都会造成偏远地区患者在基层医疗机构得不到有效的病情分析，长途奔波以肺癌早期发现为例，肺癌是令人生畏的恶性肿瘤，而早期肺到大医院后，却还需要接受重复检查的怪现象，存在引发医癌常表现为无症状、易被忽视的肺结节。肺结节的早期确认（良患矛盾的风险。乳腺中心病理眼科齿科中心中心中心影像超声介入 ... 中心中心中心内镜核医学人工中心中心中心心电放疗中心中心图 2-2-1 云服务将医技设备聚合起来

15 . 性或恶性）能有效降低肺癌的死亡率。由于微小的肺结节往往 map）；第 3 个分支就是在该特征地图上获得一个用于回归优化 AI 模型效率面向英特尔® 架构优化的Caffe 难以被人眼及时、准确地发现，因此肺癌一旦发现，往往已是的多维位置敏感得分映射。最后，在两个位置敏感得分映射上，与伯克利视觉和学习中心（Berkeley Vision and Learning 中晚期，导致患者失去了最佳治疗窗口期。分别执行位置敏感的 ROI 池化操作（Position-Sensitive ROI 基于英特尔® 架构处理器平台的优化 Center，BLVC）版本的 Caffe23 相比，面向英特尔 ® 架构优化 Pooling），由此获得对应的类别和位置信息。包括英特尔 ® 至强 ® 可扩展处理器、第二代英特尔 ® 至强 ® 可的 Caffe24 专门面向英特尔 ® 架构进行了大量优化，并加入了现在，在医学影像 AI 分析应用中，如图 2-2-2 所示，部分医英扩展处理器等在内的英特尔® 架构处理器平台，不仅可为基对英特尔 ® MKL、英特尔 ® MKL-DNN 以及英特尔 ® AVX-512 英疗机构正利用低剂量 CT 对肺小结节进行智能化辅助诊断。实特的支持，在各个深度学习模型上都有着更好的性能表现，推理特于 AI + Cloud 的智能医疗影像分析系统带来强大的通用计算尔践数据显示，其定量的监测敏感度（探测率）已达到 95%， RPN 尔 Rols 中能力，更可为其提供亟需的并行计算能力。在深度学习模型的效率也更高。中筛查时间也由人工所需的 10 多分钟缩短到秒级 19。通过 AI 模 conv 国推理过程中，往往对并行计算能力有着较高要求，而英特尔 ® 国型识别出肺结节后，再交由医生执行进一步诊断，效率和精准医为了使英特尔® 架构处理器的计算资源得以充分利用，一般在医至强 ® 可扩展处理器通过引入英特尔 ® AVX -512，提供了更疗度都获得了大幅提升。 per-Rol 疗健 conv conv Rols 高效的单指令多数据流（Single Instruction Multiple Data，执行推理之前还可以进行一些环境变量的设置，例如：健 vote 康 pool SIMD）执行效率，让系统获得了更强大的并行计算加速能力。康 feature 行 maps 行业业 AI 图 2-2-3 典型的 R-FCN 结构同时，英特尔 ® 数学核心函数库（Intel® Math Kernel Library，这里 OMP_NUM_THREADS 是指定要使用的线程数。 AI 实英特尔 ® MKL）、英特尔® MKL-DNN 的加入，可以进一步提实战战升 AI 模型的工作效率，其主要通过以下三个方面来提升人工通过对 BLVC Caffe 实施的性能分析，面向英特尔 ® 架构优化手与其他目标侦测神经网络模型，例如 Faster R-CNN 相比，手册智能模型性能：的 Caffe 进行了以下几个方面的优化。册 R-FCN 具有检测速度更快，检测精度也更高等特点 21。 • 使用 Cache Blocking 技术优化数据缓存，提高数据命中率； • 对神经网络中的常用算子进行并行化与向量化优化； ■ 代码矢量化优化实软硬件配置建议实 • 使用 Winograd 算法级优化。优化内容包括：战战篇图 2-2-2 利用低剂量 CT 对肺小结节进行的智能化辅助诊断对于基于 AI 的医疗影像分析方案构建，可以参考以下基于 • 将基本线性代数子程序（BLAS）库从自动调优线性代数系篇英特尔 ® 架构平台的软硬件配置来完成。而全新的第二代英特尔 ® 至强 ® 可扩展处理器中加入的英特尔 ® 统（ATLAS）切换至英特尔® MKL-DNN，从而使通用矩阵深度学习加速技术，让深度学习推理可以使用 INT8 来获得更 28 目前，在医学影像 AI 分析应用中，目标侦测神经网络正被广乘法（GEMM）等优化后，更适用于矢量化、多线程化的工 29 泛地运用，其通过深度学习的方法，能够对 X 光片、CT 成像名称规格佳的性能表现。作负载，并提高缓存量；等医学影像进行高效、准确的病灶检测。处理器英特尔® 至强® 金牌 6240 处理器或更高 • 使用 Xbyak just-in-time（JIT）汇编程序执行编译过程。作超线程 ON 在英特尔 ® 至强 ® 可扩展处理器平台上，以单幅胸部 Dicom 为一种 x86/x64 JIT 汇编程序，Xbyak 对英特尔® 架构下的睿频加速 ON 数据执行 R-FCN 模型为例，来自某应用的数据表明，英特尔 ® 目标侦测神经网络内存 16GB DDR4 2666MHz* 12 及以上 22 指令集，例如 MMX ™ 技术、英特尔® 流式单指令多数据扩至强 ® 金牌 6148 处理器经过优化，可以把性能提升近 5 倍。展（Intel® Streaming SIMD Extensions, 英特尔® SSE）、典型的目标侦测神经网络有 R-CNN、Fast R-CNN、SPP- 存储英特尔 ® 固态盘 D5 P4320 系列及以上英特尔® AVX 系列技术等有着更好的支持；同时，还可帮助 NET、R-FCN20 等。R-FCN 是近年来在医学影像分析领域常见操作系统 CentOS Linux 7.6 或最新版本 Linux 核心 3.10.0 或最新版本面向英特尔 ® 架构优化的 Caffe 在代码实施过程中提高矢量的目标侦测神经网络模型。编译器 GCC 4.8.5 或最新版本化率； Caffe 版本面向英特尔 ® 架构优化的 Caffe 1.1.6 或最新版本 • 对 GNU Compiler Collection（GCC）和 Open Multi-Processing 一个典型的 R-FCN 结构，如图 2-2-3 所示，首先，对需要处（OpenMP）进行代码矢量化。矢量化率的提高，有利于理的影像图片进行预处理操作后，送入一个预先训练好的卷积 SIMD 指令同时处理更多数据，提高数据并行利用率。同时，神经网络（CNN）中，例如 ResNet-101 网络。在该网络最对代码进行矢量化处理，也能有效提升深度学习模型中池化后一个卷积层获得的特征地图（feature map）上，会引出 3 层的性能。个分支。第 1 个分支是将特征地图导入区域生成网络（Region Proposal Network，RPN），并获得相应的兴趣区域（Region 面向英特尔® 架构面向英特尔® 架构 Of Interest，ROI）；第 2 个分支是在该特征地图上获得一个优化的 Caffe1.1.0 优化的 Caffe1.1.6 用于分类的多维位置敏感得分映射（position-sensitive score 图 2-2-4 单幅胸部 Dicom 数据执行 R-FCN 模型处理延时比较 19 22 数据援引自盈谷内部测试数据：https://www.intel.cn/content/www/cn/zh/analytics/artificial-intelligence/yinggu-case-study-medical.html 性能测试结果基于【2019 年 4 月 10 日】进行的测试，测试配置为：2 路英特尔® 至强® 金牌 6148 处理器，20 核心 /40 线程，启用 HT/Turbo, 20 R-FCN 相关技术描述，援引自 Jifeng Dai, Yi Li, Kaiming He, Jian Sun, R-FCN: Object Detection via Region-based Fully Convolutional Networks，搭载 192GB 内存（12 slots / 16GB / 2666MHz），CentOS 7.6, BIOS:SE5C620.86B.02.01.0008.031920191559（uncode:0x200005e）, https://arxiv.org/pdf/1605.06409v2.pdf Kurnel 版本 : 3.10.0-957.21.3.el7.x86_64，编译器 GCC 4.8.5。测试组使用英特尔® MKL-DNN 0.12 版本，对比组使用英特尔® MKL-DNN 0.18 版本， 21 R-FCN 性能数据，请参阅 Jifeng Dai, Yi Li, Kaiming He, Jian Sun, R-FCN: Object Detection via Region-based Fully Convolutional Networks，框架：面向英特尔® 架构优化的 Caffe1.1.0, 对比组使用面向英特尔® 架构优化的 Caffe 1.1.6. Minibatch=1 配置下完成。 23 https://arxiv.org/pdf/1605.06409v2.pdf 该版本源代码请详见https://github.com/BVLC/caffe 24 该版本源代码请详见https://github.com/intel/caffe

16 . ■ 常规代码优化 ■ 借助 OpenMP 实现代码并行化西安盈谷利用 AI 技术和云服务，方案与成效优化内容包括：采用 OpenMP 多线程并行处理方法，可以有效提升神经网络 • 降低编程复杂性；的推理效率，例如在池化层中，单一池化层适用于处理单张特提升医学诊疗辅助能力在新方案中，一方面，西安盈谷基于目标侦测神经网络模型构建了一系列医学影像分析处理应用，并采用英特尔® 架 • 减少计算数量；征图，但如果池化层与 OpenMP 多线程并行执行，由于图像相背景构处理器执行高效率的模型推理；另一方面，西安盈谷也 • 展开循环。互独立，因此多个线程可并行同时处理多个图像，提升效率。英将其 Cloud IDT 智能应用与医学影像处理及分析云计算 @ 英特代码如下：医疗资源配置的不均衡，使各个医疗机构在医疗影像的后处理、特 iMAGES 核心引擎等结合起来，提供了强劲的影像大数据在尔例如在代码优化过程中采用一些标量优化技巧，代码如下：后分析能力上也参差不齐。同时，数据没有互联互通，也使医尔线智能处理能力。如图 2-2-5 所示，结合基于英特尔® 架构的中疗资源的利用效率难以通过资源共享得到有效提升。专注医学中国处理器提供的强劲算力，以及 @iMAGES 核心引擎提供的基于国医影像核心技术近 20 年的西安盈谷网络科技有限公司（以下简医云端的强大正电子发射计算机断层显像（Positron Emission 疗称 “西安盈谷”），正致力于将其专业医学影像核心技术和产品，疗 Tomography CT , PET-CT）融合能力，不仅能够提供基于形健与最新的云计算、大数据和 AI 技术结合起来，形成高效、智健康态学和功能的 “热力图”，还可以对影像做出半定量化的标准化康其代码片段的第三行，关于 h_im 计算，可以将其移出最内层，能的医疗智能化辅助诊断能力，助力广大医疗机构提升诊疗效行摄取值（Standard Uptake Value, SUV）分析，而这些影像行业如下所示：率及质量。业又可通过 Cloud IDT 智能系统中的 R-FCN 目标侦测神经网络， AI 可以看出，借助 collapse（2）clause，OpenMP #pragma AI 实 omp parallel 可以扩展到两个 for-loop 嵌套语句，再将批量在西安盈谷看来，要解决医学影像分析处理能力发展不均衡的问进一步执行肿瘤等疾病的鉴别和定量分析。实战战迭代图像和图像通道两个循环合并成一个循环，并对该循环进题，就必须通过云计算等方式将医学影像数据有效聚合起来，并手手在其上形成基于 AI 的数据分析能力，进而以资源共享和 AI 两大在出色的硬件性能基础上，英特尔还通过对 Caffe、册行并行化处理。册能力，来逐渐消除各级医疗机构在医学影像分析能力上的差异。 TensorFlow 等人工智能框架的优化，进一步提升了西安盈 ■ 基于英特尔 ® 架构处理器的其他优化措施谷 Cloud IDT 智能系统的执行效率。通过对 R-FCN 模型的优通过一系列的优化方法和技巧，面向英特尔 ® 架构优化的实优化内容包括：为此，西安盈谷通过医真云的部署，利用创新的医技设备物联实 Caffe 在性能上相较 BLVC Caffe 有了长足的提升。一项测试化，模型裁剪融合带来了近 30% 的性能提升，而进一步优化战 • 改进 im2col_cpu/col2im_cpu 执行效率，im2col_cpu 函网技术 AMOL，将源自不同设备的海量医学影像数据链接起来。 OpenMP 多线程实现方案后，性能再度提升 40-50%26。战表明，面向英特尔 ® 架构优化的 Caffe，工作负载执行时间可篇数是深度学习计算中的常用函数，其能使用优化后的 BLAS 同时，西安盈谷还将深度学习引入医学影像处理中，基于目标篇缩短至原来的 10%，而整体执行性能则提升到原来的 10 倍库，以 GEMM 方式执行直接卷积。可对 im2col_cpu 实施侦测神经网络模型构建了全新的 Cloud IDT 服务，在提高检出以上 25。此外，英特尔® 至强 ® 可扩展处理器在通用计算能力和并行计 30 以下优化：在 BLVC Caffe 代码中率、降低决策时间、提高工作效率等多个方面都收效显著。 31 算能力两方面的算力支撑，也可助力智能系统将原先分散在不 * 更多面向英特尔 ® 架构优化的 Caffe 的技术细节，请参阅本手册技术为帮助西安盈谷更好地推动这一系统的部署落地，英特尔为其同平台的任务处理，例如数据统计与模型推理，合并到一起，篇相关介绍。进而让用户不仅能在其私有云中部署更多的虚拟机，还能降低提供了英特尔 ® 至强 ® 可扩展处理器等最新一代平台产品与技术，助其完成了 Cloud IDT 服务向英特尔 ® 架构平台的迁移，总拥有成本（Total Cost of Ownership, TCO）。以及对于 Caffe、TensorFlow 等深度学习框架的部署和优化。其中的四次算术运算（两次加法和两次乘法），可替换为单次通过双方的协作和努力，全新的医疗智能化辅助诊断系统已经索引递增运算来提升运算效率；在筛查时间、准确率等多个指标维度上获得了用户的一致好评。 • 降低归一化批处理的复杂性； • 特定的处理器 / 系统的优化方法； • 每个计算线程锁定一个核心，避免线程移动，可设置如下环境变量来实现。通过紧密设置相邻线程，可提高 GEMM 操作性能，因为所有线程都可共享相同的末级高速缓存（LLC），从而可将之前预取的缓存行重复用于数据，提高效率。图 2-2-5 云端 PET-CT 融合 25 26 相关测试数据，以及更多面向英特尔® 架构优化的Caffe的优化方法，请参阅数据援引自盈谷内部测试数据：https://www.intel.cn/content/www/cn/zh/analytics/artificial-intelligence/yinggu-case-study-medical.html，《Caffe* Optimized for Intel® Architecture: Applying Modern Code Techniques》：所使用的测试配置为：处理器：双路英特尔® 至强® 金牌 6148 处理器，2.40GHz；核心/线程：20/40; HT：ON；Turbo：ON；内存：192GB DDR4 2666； https://software.intel.com/en-us/articles/caffe-optimized-for-intel-architecture-applying-modern-code-techniques。硬盘：英特尔® 固态盘 SC2KB48；网络适配器：英特尔® 以太网聚合网络适配器 XC710；BIOS：SE5C620.86B.02.01.0008.031920191559；操作系统：CentOS Linux 7.6；Linux内核：3.10.0-957.21.3.el7.x86_64；gcc版本：4.8.5；Caffe版本：面向英特尔® 架构优化的Caffe 1.1.6；工作负载：R-FCN。

17 . 现在，西安盈谷已基于 AI + Cloud 的模式，构建起肺结节诊断、肋骨骨折诊断、肺结核诊断等一系列智能辅助诊断能力，部分能汇医慧影以 “真” AI 助力新冠描（CT）胸部扫描，帮助检测肺炎病灶并给出疑似新冠肺炎力如下表所示：概率，实现对标准实验室检测的有效补充，并从算法到平台，疫情防控对原有解决方案进行了系列升级，迅速推出了基于 CT 扫描图西安盈谷基于 AI+Cloud 构建的智能辅助诊断系统能力 27 像的 COVID-19 诊断 AI 辅助筛查系统。背景英在基于大量专家医生标注的胸部 CT 数据基础上，利用深度学习技术和 3D 立体图像处理技术，设计特定英影像学检查是疫情防控至关重要的一道防线，也是诊治、疗在算法部分，该方案采用了与部分同类产品以 CT 值做基础不特肺结节诊断的深度神经网络和图像算法，可以从胸部 CT 数据中定位出 3mm 以上的肺结节，并计算结节大小和结节特尔恶性指标，检测准确率为 95%。愈不可或缺的参考指标。早在 2020 年初，国家卫生健康委员同的判定基准。为此，汇医慧影团队第一时间收集大量新冠肺尔中会发布的 “新型冠状病毒感染的肺炎诊疗方案（试行第六版）” 炎数据，由专业医生团队进行精标注，并将这些珍贵的精标注中国基于 X 光胸片数据的全自动智能检测系统，主要方向是肋骨骨折的检测，利用深度学习技术和图像处国就明确指出，重型诊断增加影像变化明显这一判断标准。在新数据结合深度学习算法，实现了肺炎病灶区精准分割和测量，医肋骨骨折诊断理技术，自动识别定位骨折并自动将其标记在图像上，检测准确率达 90% 以上，能够帮助医生快速发医疗冠肺炎诊治的临床实践中，从发现疑似病例早期肺部异常、确为患者的预后评估提供有效参数；同时也对肺炎类型实施预测，疗现并诊断。健定诊断与病变程度判断、鉴别诊断协助排除疑似病例，到治疗为临床诊治提供参考。健康自动胸片肺结核检测系统是基于先进的图像处理和人工智能机器学习算法，通过扫描胸片的高分辨率康方案制定和调整、追踪病情变化，以及评估疗效和转归，影像行肺结核诊断数字影像，自动对其中的可疑病灶点进行检测评分，并简单快速地将检测结果展现出来，敏感度高达行业学都发挥着不可替代的作用。这一通过选择精标注数据 + 深度学习算法的模式，可以将每个业 86%，为医疗人员提供了有力的诊断参考。 AI 单独病灶的精准轮廓和体积进行确定，对 AI 辅助医生诊断发 AI 实作为致力于计算机视觉和深度学习技术应用的全球化医学影像实肺炎 AI 检测是针对胸部 X 光片，可以检测出疑似肺炎病灶位置，主要应用于医生日常比较常见的肺部炎挥了重要作用，其精准定位区分病灶的功能对临床工作有很大战肺炎 AI 检测战症疾病筛选，可帮助医生提高诊断效率，其肺炎检测指标敏感度为 82% 。人工智能高新技术企业，汇医慧影视疫情防控为军令状，以一手助益。同时，这一基于 AI 的方案能够自动适应不同医院、不手册贯的严谨执着精神，积极投身科技抗疫，运用 AI 的强大能力，同设备、不同层厚的影像，并实现自我迭代和模型调优，对于册胸部健康片筛查针对胸部 X 光片，将正常胸片从所有胸片中挑选出来，可降低筛查工作量，帮助医生只胸部健康片筛查需要把主要精力放到异常数据的明确诊断上即可。此服务主要用于筛查场景（如体检），且胸部健康片打造汇医慧影新冠 AI 影像智能解决方案，助力提升新冠肺炎肺炎病灶的检出率和准确率非常高。同时，依托英特尔算力强筛查指标可以达到敏感性 99%、特异性 22% 。诊治和疫情防控水平。劲的处理器和轻量级网络模型等技术，又进一步提升了算法效实实率，使得 500+ 幅 CT 影像在 2-3 秒即可完成计算 28。战自动胸片肺尘肺检测系统是基于先进的图像处理和人工智能机器学习算法，设计特定的深度神经网络战方案与成效篇尘肺病智能筛查和图像算法，扫描胸片的高分辨率数字影像，自动对其中的可疑病灶点进行检测，并简单快速地将检篇测结果展现出来，敏感度高达 92%。针对疫情快速传播蔓延的严峻形势，汇医慧影技术与工程师团在产品功能部分，汇医慧影方案能为临床诊疗提供病灶位置、 32 在基于深度学习大量专家标注的乳腺钼靶摄片数据上，设计特定的深度神经网络，自动识别乳腺钼靶摄队，潜心专注产品研发升级与落地应用；既要与疾疫抢时间，尺寸、面积变化、增大 / 减小、新增 / 消失、危重程度等量化数据， 33 乳腺癌智能早筛片中的异常肿块、钙化灶等病变，钙化斑点、肿块的敏感度大于 95%，钙化识别敏感度 92%。又要保证产品精准专业、切实可用。基于汇医慧影智慧影像解可有效支持医生对患者病情和疗效进行高效、精准的评估。同决方案的整体架构，针对新冠肺炎疫情防控需求，提出了智能时，结合最新新型冠状病毒防控指南，该解决方案还能够提供眼底摄影是基于眼底数据的全自动智能检测系统，主要方向是糖网的检测及分级预测，通过构建数据核化医学影像诊断方案，即使用人工智能算法分析计算机断层扫新冠肺炎 CT 检查的交互式结构化报告，实现影像报告结构化、糖网增生病变筛查查和医学逻辑模块，实现了在眼底图像中识别多种眼底病变和疾病，能够辅助医生有效筛查出早期患者，减少误诊漏诊。普放肠梗阻数据的全自动智能检测，主要方向是对肠腔内积液面检测，通过设计特定的 AI 智能算法和图小肠梗阻智能识别像算法，实现了在腹部立位图像中识别多种梗阻病变和疾病，提供多种形式的筛查，以辅助医生有效甄别急腹症患者，减少误诊漏诊。 CTA 冠脉全自动诊断是针对 CTA 薄层图像进行智能化处理分析，实现全程自动化的冠脉的分割、分段检测、 CTA 冠脉智能诊断斑块分类检测、狭窄分析、钙化积分，并结合 VR 及剖面的可视化辅助，最终实现自动化、结构化报告输出，能够将现有 CTA 冠脉诊断效率提升近 6 倍以上。图 2-2-6 利用 CT 胸部扫描辅助新冠肺炎感染的早期检测 27 28 盈谷AI应用介绍以及相关数据，源引自盈谷医真云AI官网：http://ai.yizhen.cn/#Page03 数据援引自 https://www.leiphone.com/news/202002/2Q8aKrElPbqboY2R.html?viewType=weixin

18 . 智能化和规范化，有助于提升医院信息化建设水平与影像报告汇医慧影新冠 AI 辅助诊断系统综合展现了基于英特尔® 至强® 小结质量，辅助单病种数据收集，也为未来进一步对这些数据进行平台强大算力和 AI 加速能力，尤其经过 OpenVINO ™ 工具套挖掘，提供了数据仓库。件优化，AI 推理等性能可获得更进一步提升。基于优异性能，以数据驱动医疗信息化的美好明天，是英特尔与西安盈谷等合已在肺结节诊断等一大批关键场景中建立起 “AI+Cloud” 的智该系统率先在首都医科大学附属北京佑安医院部署后即受到作伙伴的共同心愿。基于云计算、物联网、大数据以及 AI 等能辅助诊断系统能力，而在汇医慧影新冠 AI 辅助诊断系统中，基于精进的算法和一线数据，汇医慧影方案解决方案实现了肺高度评价，帮助医生将新冠肺炎诊断速度和准确率提高到一技术领域，针对医疗信息化、智能化的应用目前已经得到了广系统经过 OpenVINO ™ 工具套件的优化，AI 推理性能也获得英英炎征象的快速筛查、标记疑似病例；自动定位病灶位置并精准个新水平，对于病变位置和病灶数据都给出了清晰展示，让泛的开展和探索，并在医学影像数据实时计算展现、医学视觉了大幅提升。特特尔分割，病灶定量分析、全自动前后片对比，随访管理，结构化新冠肺炎患者的病灶随访这一疫情防控工作的重点，得以自类数据人工智能研究等多个方面都获得了突破，在各个医疗机尔中报告等功能，能够全流程辅助新冠肺炎的诊断和治疗，并通过动的、量化的对比功能支持，让患者的病况转归也一目了然，构的实际部署和实施中都获得了良好的反馈。随着第二代英特尔® 至强® 可扩展处理器、英特尔® 傲腾™ 持久中国国与英特尔协作，采用基于英特尔® 架构的软硬件，大幅提升了满足临床实际工作场景的需要，真正让 AI 成为疫情防控一线内存等更新一代英特尔技术与产品的涌现，相信基于英特尔® 医医疗系统的推理分析性能，帮助医生更快速锁定疑似患者和评估病的有效助力。为不断挖掘目前主流 AI 框架在基于英特尔 ® 架构的平台架构平台构建的医疗影像分析解决方案会输出更强大的性能表疗健程发展，有效缓解疫情给医院带来的压力。上的潜力，英特尔对这些框架开展了多方位的优化工作。现以及更高超的 AI 能力。未来，英特尔还计划与更多合作伙健康康如今，汇医慧影新冠 AI 辅助诊断系统已被迅速推广至包括中国、面向英特尔® 架构优化的 Caffe 框架通过代码矢量化、借助伴继续深入开展合作，将更多、更先进的产品与技术与医疗信行行业作为英特尔人工智能构建者生态计划成员，汇医慧影在该方案英国、意大利、比利时、墨西哥、智利、厄瓜多尔、巴拿马等 OpenMP 并行化等优化手段，使模型整体性能相较 BLVC 息化进程结合起来，推动精准医疗、智慧医疗的前行，让信息业 AI 的研发过程中，与英特尔密切合作，实施了多项优化。方案采多个国家，在五十多家抗疫一线医院落地应用，成为通过人工 Caffe 获得巨大提升，在与西安盈谷 Cloud IDT 智能应用、医化、数字化和智能化更有效地提升医疗服务水平，为患者带去 AI 实实用第二代英特尔® 至强® 金牌 6252N 处理器作为训练与推理智能技术助力新冠肺炎防控的典范。学影像处理及分析云计算 @ iMAGES 核心引擎等应用结合后，更舒心和贴心的医疗健康服务。战战手的计算引擎，依托其所具备的更多处理器内核和线程，以及全手册面优化升级的微架构，获得了更强劲的计算力，在推理速度上册有着卓越的表现。实实另外，采用 OpenVINO ™ 工具套件，进一步加速 AI 负载的运战战篇行效率。配合 OpenVINO ™ 工具套件所提供的模型优化器、篇指令集优化等功能，尤其是英特尔® MKL-DNN 所带来的深度 34 学习框架运行加速能力，令方案推理性能获得大幅提升。如图 35 2-2-7 所示，经与在 Pythorch1.5.1 上运行整个流程的进行准测试显示，采用 OpenVINO ™ 工具套件重新处理整个流水线，性能提升达到 2.89 倍 29。 1.2 1 1 0.8 时 2.89 倍性能提升延 0.6 （秒） 0.4 0.35 0.2 0 PyTorch 流水线 ( 基准 ) OpenVINO ™ 工具套件流水线 ( 优化 ) 图 2-2-7 基于英特尔® 至强® 金牌 6252N 处理器的基准测试结果 29 性能测试数据的配置为：2 路英特尔® 至强® 金牌 6252N 处理器 @ 2.30GHz, 24 核，Turbo on, HT on，BIOS 4.1.13，内存 192GB， OS: Ubuntu 18.04.4 LTS。OpenVINO R2020.3.194。

19 . 医疗领域中的病理切片分析 ■ 分类卷积神经网络在医疗图像的检测结果中，往往会出现明显的分类情况，例如阴性为正常，阳性为非正常。可以看出，此时检测所期望传统病理切片分析方法面临挑战的结果，是一系列的离散数字，例如 0 或 1，这就构成了一病理切片是将部分病变组织或脏器，经过一系列处理后形成微个典型的分类问题。据此可以认为，利用类似二分类的分类英米级薄片，粘附在玻片上并进行染色处理，然后再交至病理科，英特算法，CNN 能够有效帮助医疗机构先初步、定性地筛选出有特病理科医生通过显微镜对病理切片进行镜检，观察病理变化，尔问题的区域或组织，然后再进行定量的分析和判读。尔中并作出病理诊断和预后评估。病理切片检查是一项非常复杂和中国具有挑战性的工作，而想要成为病理学方面的专家，更是需要国医典型的二分类算法，如逻辑回归，是一种广义的线性回归分析医 AI技术加速病理具备多年的读片经验与数万张切片的阅片积累以及具有丰富专疗模型。以根据病理切片图片来预测患者是否患有癌症为例，假疗健业知识。然而，据统计，目前全国病理科医生还不足万人 30。健设随着患者年龄的增加，当发现某种细胞超过 x 个即可判定患康康行有癌症，此时，其在数学上就表现为一个阈值为 x 的线性函数，行此外，人工检查不免带有较大主观性，由不同病理科医生对同业即 y= 年龄（n）*a+ 初始值（b），当 y>=x 时，判为癌症。业图像分析 AI 一患者的病理切片作出的诊断，也经常会存在差异，这可能导 AI 实致误诊、漏诊等现象产生。同时，在实际的病理切片检查中，实战而在实际场景中，这一函数会复杂得多，例如除了年龄以外，战患者的病理切片以 40 倍的放大倍数进行数字化后，单个病理手异常细胞的大小、状态等也可能成为判断依据，此时，线性函手册切片的像素点可能超过百万像素。病理科医生需要连续观察多册数就会变成一个多元线性函数，例如张百万像素级的图片，并且需要注意到图片里微观区域的异常， y=n*a+m*c+o*d……+b 不仅费时费力，还容易出现错漏。且较长的阅片时间也会导致实实病患等待时间长，有可能会造成病情的延误。战如前所述，分类问题需要输出一系列离散的结果，因此需要在战篇线性函数上加上一个激活函数，使其输出结果呈离散化。而对篇基于 AI 的病理切片分析方法于神经网络而言，激活函数的作用是能够给神经网络加入一些 36 随着基于 AI 的图像处理与分析技术获得巨大进步，各个医疗非线性因素，使神经网络可以更好地解决较为复杂的问题。常 37 机构均不遗余力地开展了基于深度学习或机器学习的病理切片见的激活函数有 Sigmoid 函数、tanh 函数、ReLU 函数等。另外，分析方法，并取得了良好的成效。例如通过 ResNet50 网络进逻辑回归会采用梯度下降迭代求解的方法，来获取最小化的损行的深度学习模型训练，可用于执行肿瘤病理组织的辨识工作。失函数。尽管其得到的肿瘤预测热学图依然存在噪声等问题，但已经可以像病理科医生一样，以不同的放大倍数来检查病理切片图像。通常，基于二分类算法的 CNN 图像分类具有以下几个主要模实验表明，医疗机构有可能通过训练一个深度网络模型，使其块，如图 2-3-1 所示，包括图像读取与预处理、图像训练、不仅能够具备专业的检测技术，还能有超快的检测速度和无限迭代优化和图像预测。其中基于 CNN 的模型训练，由卷积层、的工作时间。池化层以及全连接层等构成，可采用交叉熵损失函数，以及 MBGD 梯度下降算法或 BGD 梯度下降算法。来自纽约大学的一项最新研究成果表明，利用大量数字化病理全全切片图像训练的 Inception v3 深度学习模型，识别癌组织和卷池卷池连连积化积化接接正常组织的准确率已达到 99%，区分腺癌和鳞癌的准确率已层层层层层层达到 97%31。图像数据模型推理实际现在，基于 CNN 的分类算法以及目标侦测算法都已经获得了预处理训练预测部署长足的发展。作为深度学习的代表方法之一，CNN 的典型代表，例如 LeNet、ZFNet、VGGNet 和 ResNet 等，已经被广泛地迭代优化运用于图像分类、人像识别、目标定位和图像分析等领域。图 2-3-1 基于二分类算法的 CNN 图像分类组成模块 30 该数据援引自媒体报道：https://www.cn-healthcare.com/article/20141118/content-463705.html 31 数据源引自Coudray N, Moreira A L,Sakellaropoulos T,et al.Classification and Mutation Prediction from Non-Small Cell Lung Cancer Histopathology Images using Deep Learning[J].bioRxiv, 2017.

20 . 在实际应用中，残差网络（Residual Net，ResNet）也是常 Machines，SVM）分类器，每个目标都会训练一个 SVM 分类基于深度学习的病理切片分析改了绑定层设置，如图右半部所示，其将一个 1*1 的池化层见的分类卷积神经网络之一，其在 2D 图像分类、检测及定器，并从特征向量中推断其属于该目标的概率。同时，R-CNN 加入直连通道，减少了一半的计算量。位上有着非常优异的特性。与其他 CNN 相比，ResNet 在网还设置了一个边界框的回归模型来提升定位准确性，通过边框方法的优化 56x56 Conv output: 56x56 Convoutput: 络中增加了直连通道，允许输入信息直接传到后面的层中，回归模型对边界框的准确位置进行了优化。 56x56 28x28 基于英特尔® 架构处理器的优化方法 Kernel:3x3 Kernel:3x3 Stride:1 Stride:2 如图 2-3-2 所示：英 Pool output: 28x28 英为了解决 R-CNN 在实际应用中训练、推理和测试速度较慢，在英特尔® 处理器平台上进行基于深度学习的病理切片分析方 Conv output: Conv output: 特 56x56 Kernel:1x1 Stride:2 28x28 特 x Kernel:1x1 Kernel:1x1 尔训练所需空间大等问题，Fast R-CNN 采用了以下方法来应对，法的构建和优化，可以为用户带来以下几个方面的收益： Stride:1 Stride:1 尔中并获得了比 R-CNN 更好的应用效果。方法为： • 病理切片图像每个文件容量都动辄有数十、上百 MB。传统 EltWise EltWise 中国国 • 将整个图像先进行归一化后再送入 CNN 网络；上，由于存储空间的限制，训练中设定的 Batch Size 都偏医 Weight Layer Conv output: 28x28 Conv output: 28x28 Conv output: 28x28 Conv output: 28x28 医疗 • 在卷积层不进行候选区域的特征提取，而是在最后一个池化小，由此会带来训练时间的增加。而采用基于英特尔® 架构 Kernel:1x1 Stride:2 Kernel:1x1 Stride:2 Kernel:1x1 Stride:1 Kernel:1x1 Stride:1 疗健 F(x) reLU 层加入候选区域坐标信息进行特征提取的计算；处理器平台，服务器具备了大内存（普遍具备数 TB 乃至数 Original Optimized 健康 Weight Layer 康 • 在 CNN 网络中统一做目标与候选框回归。十 TB），可以让 Batch Size 轻松设置至 100 以上，能够加图 2-3-4 面向英特尔® 架构优化的 Caffe 对 ResNet 网络的优化方案行行业快训练速度；业 AI 而后续的 Faster R-CNN 又将特征抽取（feature extraction）、 • 基于 3D XPoint ™ 存储介质构建的英特尔® 傲腾™ 持久内 ■ 层融合技术 AI 实 F(x)+x 实 proposal 提取，bounding box regression（rect refine）、存的引入，让至强可扩展平台的优势得到进一步加强。与面向英特尔 ® 架构优化的 Caffe 除了针对指令集的向量化、线战战手 classification 都整合在了一个网络中，使得综合性能有较大提昂贵的动态随机存取存储器（Dynamic Random-Access 程级并行进行优化外，还在 Caffe 框架中引入了更为有效的层手图 2-3-2 ResNet 的残差结构册高，在检测速度方面尤为明显。 Memory，DRAM）内存相比，英特尔® 傲腾™ 持久内存大容融合（Layer Fusion）优化手段，如 BN+Scale、 Conv+Sum、册量和非易失性的特性，及其在实现容量扩展时更低的成本优 Conv+Relu、BN inplace 以及 sparse fusion, 这些手段使得神这一结构（残差结构）在一定程度上解决了经典 CNN 网络结经网络，如 ResNet50 的性能获得了极大提升。如图 2-3-5 所示，实构在信息传递时可能存在的信息丢失、损耗，乃至梯度消失等软硬件配置建议势，可以有效提升执行模型训练和推理的服务器的内存密度实这是一种残差结构的 Conv 层与 Eltwise 层的融合，图左半部中战问题，这些问题是深度模型的层数无法变得太多的原因之一。对于基于 AI 的病理切片分析方案构建，可以参考以下基于以及计算效率，并大幅降低 TCO; 战篇采用 ResNet 后，训练模型的层数可以大幅增加，也由此提高 • 英特尔 ® 至强 ® 可扩展处理器创新的微架构，包括更多数量的卷积层（Conv）res2a_branch2c 和 Eltwise 层 res2a_relu 篇英特尔 ® 架构平台的软硬件配置来完成。的核心、更高并发度的线程和更充沛的高速缓存，配合它集被融合到一个新的卷积层 res2a_branch2c 中（图右半部所示），了分类准确率。 38 名称规格成的大量硬件增强技术，特别是英特尔 ® AVX- 512 等，都有效地提升了 ResNet 类网络模型的性能表现。 39 处理器英特尔 ® 至强 ® 金牌 6240 处理器或更高能为 AI 应用提供更强的算力。 ■ 目标侦测神经网络超线程 ON 目标侦测神经网络是指在给定的图片中精确找到物体所在位 res2a_branch2a 睿频加速 ON * 更多英特尔 ® 傲腾™ 持久内存的技术细节，请参阅本手册技术篇相关置，并标注出物体的类别。常见的目标侦测神经网络有 R-CNN、 res2a_branch2a 内存 16GB DDR4 2666MHz* 12 及以上介绍。 res2a_branch2b Fast R-CNN、SPP-NET、R-FCN 等。存储英特尔 ® 固态盘 D5 P4320 系列及以上 res2a_branch1 res2a_branch2b res2a_branch1 res2a_branch2c 操作系统 CentOS Linux 7.6 或最新版本面向英特尔® 架构优化的 Caffe Convolution R-CNN 是经典的深度学习目标检测算法，其基本工作流程如下： Linux 核心 3.10.0 或最新版本 res2a_branch2c res2a Element-wise Sum 首先，R-CNN 会基于 selective search 方法在原始图上生成数编译器 GCC 4.8.5或最新版本 Caffe 是一种常用的深度学习框架，其在视频、图像处理等领 res2a_relu Fused Convolution and Element-wise Sum Caffe 版本面向英特尔 ® 架构优化的 Caffe 1.1.6 或最新版本域的 AI 训练和推理上有着广泛的运用。为了进一步提升和优千个大小一致的候选区域，并输入 CNN 网络。由该网络模型化基于 Caffe 的深度学习模型的工作效率，基于英特尔 ® 架构图 2-3-5 Conv 层与 Eltwise 层融合得到的特征向量将通过多类别的支持向量机（Support Vector 特性，英特尔对 Caffe 进行了大量优化。同时，面向英特尔® 架构优化的 Caffe 还对 INT8 有着良好支持，并提供了 calibration 工具，可帮助用户将神经网络无缝转换这些优化工作包括：到 INT8，以大幅提升性能。区域建议全连接层分类得分 ■ 针对典型 ResNet 网络开展的优化一项测试表明，与使用 BVLC Caffe 相比，面向英特尔® 架构任意 size 卷积、面向英特尔® 架构优化的 Caffe 利用 ResNet 系列模型特性，优化的 Caffe 在英特尔® 至强 ® 可扩展处理器上，通过加入层特征图 Rol 池化层全连接层图片池化层来减少计算和内存访问带来的开销。图 2-3-4 是一种典型的融合技术，使用 ResNet50 卷积神经网络在同等测评环境中执全连接层分类得分 ResNet 的残差结构，从图左半部可以看出，其底部的 2 个行 AI 推理，如图 2-3-6 所示，单位时间推理性能可提升达前 1*1 卷 Stride-2 卷积层只消耗了一半激活操作。优化方案更者的 51 倍之多，推理时长则缩短至前者的 4.7%32。图 2-3-3 Fast R-CNN 网络结构 32 该数据援引自《Highly Efficient 8-bit Low Precision Inference of Convolutional Neural Networks with Intel Caffe》一文： https://arxiv.org/pdf/1805.08691.pdf，测试配置如下：卷积模型：ResNet50，硬件：AWS single-socket c5.18xlarge。

21 . 400 312 中两个向量夹角的余弦值，来衡量两个个体间的差异。与距江丰生物利用 AI 技术提升离度量相比，余弦相似度更加注重两个向量在方向上的差异， 300 225 夹角越小，相似度越高。宫颈癌筛查效率 189 199 200 158 • 标准化欧氏距离（Standardized Euclidean Distance）：是欧氏距离改进版，在计算各个特征的距离之前，需要先将各背景英 100 英个分量进行标准化计算。宫颈癌是目前严重危害女性健康的恶性肿瘤之一。据统计，在特 6.1 特尔 0 • 马氏距离（Mahalanobis Distance）：用来表示点与一个分 2018 年的 570,000 例女性癌症患者中，宫颈癌占 6.6%，已尔中 BLVC Caffe 面向英特尔® 架构 BatchNorm层融合的卷积消除稀疏性融合的卷积层布之间的距离，简单而言，单一样本和哪个样本集距离最近，经成为女性癌症患者中排名第四的致命疾病 34。但与此同时，中国优化的Caffe FP32 展开后融合掉层和Relu层和Element- 国基准 wise 求和层就属于该样本集。宫颈癌也是唯一一种可以确认致病原因，能够被早期发现并医医疗推理时长（豪秒）有效预防的癌症病种。宫颈液基细胞学制片（Liquid-Based 疗健 131.8 Cytologic Preparation，LBP）筛查简单易操作，准确率高，健 140 康康行 120 可以有效地检测早期癌症病变，帮助早期确诊、及时治疗并阻行业止癌细胞的进一步扩散。业 100 AI AI 假阳性预测结果真阳性标注实 80 实战目前，中国每年都会产生数千万新的宫颈 LBP 涂片，这对医疗战 60 图 2-3-7 利用相似性度量工具分析预测失败原因手机构的病理分析能力构成巨大的挑战。为此，江丰生物与英特手册 40 尔一起，开始利用先进的 AI 技术，构建和优化基于宫颈 LBP 册利用相似性度量工具，可以灵活地设计和组合出一系列提升模 20 切片的宫颈癌筛查 AI 解决方案，致力于推动宫颈癌的有效防 10.7 7.8 7.5 型训练准确率的方法。例如，通过计算两个特征之间的欧氏距 7 6.2 0 范与治疗。实 BLVC Caffe 面向英特尔® 架构 BatchNorm层融合的卷积消除稀疏性融合的卷积层离，来分析预测失败的原因。如图 2-3-7 所示，通过测量假阳实战优化的Caffe FP32 展开后融合掉层和Relu层和Element- 性样本在特征抽取层和哪个阳性标注最为接近，可以推导出导战基准 wise 求和层篇致误判的主要原因。目前，有几个因素制约着方案的筛查效率和准确率，使其无法篇图2-3-6 面向英特尔® 架构优化的Caffe在英特尔® 至强® 可扩展处理器上加入进一步提高。首先是数据标注问题：与其他的医疗数据相比，优化方案后，在推理吞吐量和推理时长性能上与BLVC Caffe对比 40 ■ 层级相关性传播工具病理切片的分析数据有其独特之处。如图 2-3-9 所示，病理切 41 片图片会有 1 到 40 倍的不同缩放尺度，缩放尺度较小时，图传统上，深度学习模型各层之间的信息传递和逻辑，一直像英特尔® 深度学习加速技术户在执行 INT8 推理时，对系统内存的要求最大可减少 75%33，片基本无法进行标注，而当把图片放大到 20 倍甚至 40 倍时候，一个黑盒一样难以回溯，利用层级相关性传播（Layer-wise 而对内存和所需带宽的减少，也加快了低数值精度运算的速度，只能对整张图片中的很小一部分区域进行人工标注，无法覆盖在全新的第二代英特尔® 至强® 可扩展处理器中，加入了对 Relevance Propagation，LRP）工具可以在一定程度上帮助用从而使系统整体性能获得大幅提升。该切片中的所有问题细胞。 INT8 有着良好优化支持的英特尔® 深度学习加速技术，它能户解决这一困惑。LRP 工具是利用计算相关性，将相关性逐层够在不影响预测准确率的情况下加速多种深度学习模型在使用向后传播，具有较好的回溯性。同时，利用这一机制，系统也 * 更多有关英特尔® 至强® 可扩展处理器以及英特尔® 深度学习加速技术 INT8 时的推理速度，有效提升用户深度学习应用的工作效能。可以推导出哪些因素对预测结果起到的作用更大，从而提升模 1 倍比例 2 倍比例的技术细节，请参阅本手册技术篇相关介绍。型准确率。在图像分类、目标检测等深度学习场景中，采用 INT8 等较低精度的数值替代 FP32 是一种良好的性能优化方案。低精度数利用工具进行模型准确率优化的方法值可以更好地使用高速缓存，增加内存数据传输效率，减少带 ■ 相似性度量工具宽瓶颈，且在充分利用计算和存储资源的同时，还能有效降低在深度学习中，可以使用相似性度量（Similarity）工具来判系统功率。另外，在同样的资源支持下，INT8 还可为深度学原始推理图片热点图断两个特征值之间的相似度。不同的工具可以从不同维度来进习的推理带来更多的每秒操作数（Operations Per Second，图 2-3-8 利用 LRP 检测不同像素点行相似性度量，比较常见的有以下几种： OPS）。对于推理效果的作用 • 欧氏距离（Euclidean Distance）：是最常见的距离度量，如图 2-3-8 所示，在医疗图像分析预测的 AI 应用中，利用英特尔 ® 深度学习加速技术通过 VNNI 指令集，提供了多条全新通过对坐标系中的两个点来计算两点之间的绝对距离，距离 20 倍比例 40 倍比例 LRP 工具，可以看到不同像素点对于推理结果的效果，并形成的 FMA 内核指令，用于支持 8 位或 16 位低精度数值相乘，这对越大，相似度越低。热力图，从而帮助方案推导出哪个像素点对最终的预测结果起图 2-3-9 不同尺寸的病理切片于需要执行大量矩阵乘法的深度学习计算而言尤为重要。它使用 • 向量空间余弦相似度（Cosine Similarity）：使用向量空间的作用更大。 33 34 数据源引自 https://software.intel.com/en-us/articles/lower-numerical-precision-deep-learning-inference-and-training 引自 WTO 官网 http://www.who.int/cancer/prevention/diagnosis-screening/cervical-cancer/en/

22 . 此外，在标注过程中，也存在着标注不完整的问题。有时，标片后，经由数据预处理、分类卷积神经网络和后处理阶段，分目标侦测网络则是用于对上一阶段确定为阳性的切片进行进一江丰生物以 AI 技术助力结核病注人员只会标注视野中最严重的问题细胞。如图 2-3-10 上方别得到阳性预测和阴性预测。对于阳性预测，方案则进行第二步的阳性区域侦测。所示，右下角蓝框中的恶性肿瘤被标注了出来，但未标注左上阶段的目标侦测网络（基于 ResNet50）模型的训练，然后进筛查角的红框中的弱阳性细胞；而图 2-3-10 下方，则出现了标注行阳性识别的推理过程，并交由医生做最终审查。背景位置不够精准的情况。英输入图片滑动窗英目前我国仍是全球结核病高负担国家之一，每年新发结核病患特特尔者约 90 万例，但同时我国肺结核患者成功治疗率又达 90% 尔中数据预处理以上，造成这一矛盾的重要原因，是现有结核病筛查方法与手中国国段尚待完善。随着近年来 AI 技术在医学领域的应用取得飞速医图 2-3-12 基于滑动窗操作的分类卷积神经网络医疗分类卷积神经网络发展，基于深度学习 / 机器学习方法的智能化病理分析和诊断疗健在模型训练的过程中，方案采用了以下的优化方案来提升训练技术、正被逐步用于结核病筛查中。健康效果：康后处理行行 • 模型采用了在 Imagenet 数据集上具备优异性能的作为一家专业从事数字病理系统开发和生产的高科技生物信息业业 AI ResNet50 来进行训练；技术企业，江丰生物正致力于以高精度数字化病理切片扫描仪 AI 实 • 训练集准备好后会对其进行旋转，然后按中心点裁剪到实代替传统的显微镜，实现对传统病理切片的数字化转换，并利战阴性预测阳性预测战 224*224 做均值（Normalize）和归一化（Scale）处理，用基于 AI 的医疗影像处理技术推进智能化病理分析和诊断。手手册接下来开始模型训练；现在，针对制约结核病筛查与诊治中的一系列问题，江丰生物册目标预测网络 • 鉴于训练集中的正负样本数量较为悬殊，方案将训练好的部正通过荧光结核分枝杆菌辅助筛查系统（以下简称 “结核筛查分阴性切片和部分阳性切片的子图做集合，递增地加入到训系统”），来推动新型智能化检测技术在该领域的应用。实阳性识别练集中，形成迭代训练。训练集阳性：阴性比为 1:5，从而实战图 2-3-10 标注不够完整的病理切片图片战篇进一步提升模型的准确率；基于深度学习方法的结核筛查系统篇同时，在目前的标注方案中，通常只关注阳性细胞，对于阴性 • 方案中也加入了相似性度量（Similarity）工具和层级相关性医生审查江丰生物结核筛查系统，旨在将结核分枝杆菌涂片转变为切片传播（LRP）工具来提升模型准确率。 42 细胞不够重视。即便对阴性细胞进行标注，也只覆盖到切片级数字图像，以便于图像信息的保存和传输，同时在此基础上开 43 图 2-3-11 优化后的方案流程别。对于占总量大多数的阴性细胞，没有有效的利用方案。另外，发结核分枝杆菌辅助筛查功能，帮助医生大幅提高判读效率，现有的标注样本严重不均衡，非典型鳞状上皮细胞（ASC-US）江丰生物和英特尔一同测评了优化后的基于宫颈 LBP 切片的宫且解决结核分枝杆菌涂片分级的客观性、易控性和重复性问题。在优化数据清理和预处理流程中，针对切片图像的不同缩放尺颈癌筛查 AI 解决方案，基于 5,961 张精准标注样本进行了训练，占绝大部分，而鳞状细胞癌（SCC）、宫内膜、滴虫等样本较度问题，方案将切片缩放尺度较大、且阳性标注为细胞 / 细胞并在 246 张测试集上评估了不同的模型。少，不利于学习效率的提高。结核筛查系统基本工作流程如图 2-3-14 所示，首先会应用荧块级的病理切片图像，采用从大切片图像上裁剪小图的方式来光扫描仪和标注服务平台，对数以千计的结核分枝杆菌涂片进得到训练数据。而针对切片中样本不均衡的问题，训练集采用评估结果表明，加入分类网络后的优化方案，其准确性比单另一个需要关注的问题是神经网络的选择。从实践的效果来行扫描，然后在扫描文件上对结核分枝杆菌进行标注。其后再了阳性：阴性 =1:5 这一比例，同时，由于阳性标注样本相对独的目标侦测网络方案有了大幅提升。如图 2-3-13 所示，可看，目前常用的细胞病变目标侦测网络可以输出病变细胞所基于深度神经网络进行深度学习，使模型精确识别出结核分枝较少，方案也对样本进行了旋转，以扩大样本的多样性。以看出，加入分类网络后，当其敏感度（真阳性率，TPR）为在位置矩形坐标以及病变细胞具体的描述性（The Bethesda 杆菌，以及背景细菌 / 杂质的语义特征。 System，TBS）分级，但单独的目标侦测网络并不能很好地解 96% 时，特异度（真阴性率，TNR）接近 70%；而在单独目同时，为了提升阴性细胞样本的利用效率，方案假设阴性切片标侦测网络方案中，特异度仅为 40% 左右 35，这意味着准确决标注完整性问题。为解决以上这些问题，江丰生物与英特尔中所有细胞均为阴性细胞，阴性切片的训练集从每一张阴性切性获得了大幅度的提升 36。一起，从以下几个维度展开优化，以提升筛查深度学习模型的片上按比例随机裁剪（目的是除去切片边缘干扰）。而对阳性工作效率： model: org dataset: 1 AUC = 0.90 ROC AUC = 0.9587582289918682 切片的训练集，则直接根据在阳性切片上标注的坐标中心点， 1.0 - 1.0 - • 优化数据清理和预处理流程； 0.8 - 0.8 - 加上合理的随机偏移量裁剪为 512*512 的子图。 • 构建两阶段端到端神经网络； 0.6 - 0.6 - TNR TNR • 引入模型准确率优化工具。 0.4 - 0.4 - 为提升识别准确率和效率，方案创新地构建了两阶段端到端神 0.2 - 0.2 - 经网络。其中，阶段一为分类卷积神经网络，阶段二为目标侦 0.0 - 0.0 - 方案与成效测神经网络。如图 2-3-12 所示，分类卷积神经网络的主要作 0.0 0.2 0.4 TPR 0.6 0.8 1.0 0.0 0.2 0.4 TPR 0.6 0.8 1.0 图 2-3-14 结核筛查系统基本流程目标侦测网络 ROC 曲线分类网络 ROC 曲线江丰生物联合英特尔构建的基于宫颈 LBP 切片的宫颈癌筛查用是在每张切片产生的滑动窗上进行二分类推理，并对该切片图 2-3-13 优化方案与传统方案准确性对比 AI 解决方案，主要工作流程如图 2-3-11 所示，系统在输入图所有的滑动窗结果进行融合处理，从而得到切片级推理结果。 35 该数据援引自江丰生物与英特尔发布的《基于深度学习的病理图像分析》 36 数据所使用的测试配置为：双路英特尔® 至强 ® 铂金 8280 处理器，2.70GHz；核心 / 线程：28/56; HT：ON；Turbo：ON；内存：192GB DDR4 2933；硬盘：英特尔® 固态盘 SC2KG48；网络适配器：英特尔® 以太网网络适配器 X722 for 10GBASE-T； BIOS：SE5C620.86B.02.01.0003.020220190234；操作系统：CentOS Linux 7.6；Linux 内核：3.10.0-957.el7.x86_64；编译器版本：ICC 18.0.1 20171018；Caffe 版本：面向英特尔® 架构优化的 Caffe 1.1.0；工作负载：ResNet50 with 2 classes，130 张图像每秒。

23 . 为使系统达到医疗机构应用所需的高效、可靠以及高可用的要可以看到，与传统计算机视觉方法相比，上述基于深度学习方 • 多实例异步处理：英特尔® 架构处理器不仅具有多核特性，小结求，江丰生物对系统做了如下性能设计：法的新方案有着检测精度高，形态适应性强，模型更具鲁棒性还对大内存有着良好支持，新方案采用多实例异步并发进行 • 单片识别速度：基于通用 PC 硬件，可达到单例在 180 秒等优势。处理，能充分利用多核大内存平台带来的优势，以使用 20 利用深度学习的方法来对病理切片图像等做出快速检测，不仅内完成所有指标识别；个实例进行处理为例，此项优化经评估可获得约 500% 的可以大大提升医疗机构病理检测的生产力，消弭因专业病理科 39 英 • 结核分枝杆菌检测：结核分枝杆菌检测精准率 AP@ 基于英特尔技术的优化方案与成效 FPS 性能提升；医生不足带来的一系列问题，也能为病患带去更精确、更及时英 [IOU=0.5] 大于 80%； • 整体流程优化：基于上述优化点，新方案还引入了多实例处的治疗方案。目前，基于图像分类和目标检测的病理切片检测特江丰生物在实践部署中发现，医疗机构既有的信息化系统通常特尔 • 痰涂片阴阳性定量分级：分级准确率（1+ 内）达到 85% 以上。理，采用数据加载 DataLoader，对数据输入进行优化，去 AI 应用，已在众多医疗机构进行了落地部署，并获得良好的尔都基于 x86 服务器，尤其是基于英特尔® 架构服务器构建。为中除冗余部分等方法，使系统的最终工作速度得到了充分优化。反馈。中国了帮助医疗机构最大程度地在既有信息化系统上获得更优的处国为达成以上目标，江丰生物将病理学与先进的深度学习 / 机器医理效能，并有效降低成本，江丰生物与英特尔展开深度合作，医疗学习方法相结合，并如图 2-3-15 所示，制定了以下的技术路为了验证优化方案在实践部署中的性能表现，江丰生物与英特尔英特尔 ® 架构处理器平台、面向英特尔® 架构优化的 Caffe、疗在英特尔® 架构平台上对算法模型实施优化，获得更佳的推理健线设定：一起，对优化方案进行了测评，测评结果如图 2-3-16 所示。英特尔 ® 深度学习加速技术等在内的一系列英特尔先进产品和健康速度。 40 康 • 在训练阶段，经由涂片扫描数字化、数据标注与数据增强、经过各方面优化的方案，性能表现是未优化方案的 11.4 倍。技术，已在众多应用场景中，助力基于深度学习的病理切片检行行业前景检测模型等步骤，对结核分枝杆菌分类器模型（典型的测应用大幅提升其工作效率。例如英特尔 ® 架构处理器平台对业新的优化方案基于 PyTorch 深度模型框架自带的 profile 模块， AI 例如 ResNet50）实施训练；大内存的良好支持，使得在模型训练中可以设定更大的 Batch AI 实对模型的各个模块、kernel 运行时间，以及处理器资源占用率实 • 在应用阶段，首先通过高性能数字切片扫描仪，得到结核分 Size，从而大幅提升训练效率；再如面向英特尔 ® 架构优化的战等指标进行了全面评估，并采取以下优化措施：战手枝杆菌涂片的数字图像，然后采用滑窗法，提取用于深度学 Caffe，以及英特尔 ® 深度学习加速技术对 INT8 的良好支持，手册习推理的图像 Patch。在获得 Patch 推理结果后，再通过非可以有效提升推理效率，提升病理切片分析的实时性。册 • PyTorch 优化：优化前使用的 PyTorch 版本为 1.4，新方极大值抑制（Non Maximum Suppression，NMS）算法，案升级到 1.6 版本，其对 native_batch_norm 进行了优化，剔除重复识别及识别置信度低的检测目标，最终保留高精度虽然本案例涉及的处理器平台为第一代英特尔® 至强® 可扩展实此项优化经评估可获得约 22% 的 FPS 性能提升；37 实的单视野内检测结果；处理器，但随着全新的第二代英特尔® 至强 ® 可扩展处理器以战 • 内存管理优化：考虑到系统内各框架频繁的申请 / 释放内战篇 • 重复以上应用阶段的推理和 NMS 计算过程，最终生成全视及其他英特尔新产品、新技术的到来，用户可以基于这些更新篇存过程会消耗大量资源和时间，于是新方案引入 jemalloc 图 2-3-16 方案优化前后性能归一化对比野识别的可视化结果与指标，并以此作为辅助筛查系统的输的软硬件，来构建训练和推理性能更为强大的 AI 应用。同时，用于动态管理优化内存的分配，此项优化经评估可获得约 44 入，为医生显示病历信息、数字图像、结核分枝杆菌位置 / 英特尔还计划针对更多的深度学习模型开展推理优化研究，以 45 18% 的 FPS 性能提升；38 得益于英特尔® 架构处理器的优异性能以及针对性的优化方数量以及涂片分级结果等信息，助力其快速筛查诊断病情。帮助更多的病患赢得宝贵的治疗时间和效率。案，江丰生物结核筛查系统已在诸多医疗机构获得了广泛的部署与应用。来自一线的数据反馈表明，新方案能够保持 86.8% 的精准率 AP，以及 88.9% 的涂片级分级准确率 41，并满足在 80 秒 42 内对单例结核分枝杆菌涂片完成数字化扫描和涂片定量分级，获得了医院、医生和患者的一致好评。数字切片数字切片前景检测模型结核分枝杆菌视野视野（标注）分类模型训练阶段杆菌识别等级：P3+ 识别置信分数：86 分结核分枝杆菌杆菌识别总条数：4085 条智能分析存在杆菌视野数：204 个数字切片结果辅助筛查 39 应用阶段该数据援引自江丰生物内部数据统计。 40 测试工作负载：Medical Image detection, detectron2（detectron2 0.1.1），平台：Dell PowerEdge R740；处理器：双路英特尔® 至强® 金牌 6252 处理器，2.10GHz；核心 / 线程：24/48; 超线程开启；睿频开启；内存 192GB DDR4（12 x 16384 MB 2666 MT/s）；存储：1x 英特尔® 1.8T 图 2-3-15 结核分枝杆菌辅助筛查技术路线图 SSD（英特尔® SSDSC2KB01）；网络适配器：英特尔® C621(1 x 英特尔® X722 for 10GBASE-T)；操作系统：Ubuntu 18.04.4 LTS（Kernel： 5.3.0-51-generic）；深度学习框架：PyTorch 1.4；库：英特尔® MKL-DNN v0.21.1；实例数：1；优化方案：处理器：双路英特尔® 至强® 金牌 6252 处理器，2.10GHz；核心 / 线程：24/48; 超线程开启；睿频开启；内存 192GB DDR4（12 x 16384 MB 2666 MT/s）；存储：1x 英特尔® 1.8T 37、38 SSD（英特尔® SSDSC2KB01）；网络适配器：英特尔® C621(1 x 英特尔® X722 for 10GBASE-T)；操作系统：Ubuntu 18.04.4 LTS（Kernel：该数据援引自江丰生物内部数据统计。 5.3.0-51-generic）；深度学习框架：PyTorch 1.6；库：英特尔® MKL-DNN DNNL v1.2.0；实例数：24。 41 该数据援引自江丰生物内部数据统计。 42 工作站配置：主板：X11DPI-N，CPU：Intel Xeon 6240R（24Core，2.4GHZ），内存：192GB DDR4（12 x 16GB，2666MT/S），Raid 卡： LSI 9361-8I，存储：2x Intel 960G SSD，4x 4T SATA 3.5 寸

24 . 深度学习方法加速药物筛选基于深度学习的 HCS 方法 43 背景基于 HCS 的表型分类在传统的 HCS 图像分析方法中，会将图像数据转换为不同的越来越多的新技术正被运用于加速药物研发进程。基于细胞图抽象级别，例如像素亮度（Pixel Intensity）等。在深度神经英像的高内涵筛选（High Content Screening，HCS）方法是目网络等深度学习方法中，可以通过一个框架来对这些图像数据英特特前在系统生物学和药物研发领域常用的自动化分析方法之一，中的分层抽象进行计算和分析，但这些方法在很大程度依赖手尔尔中也是 AI 技术在药物发现早期环节的重要应用。其通过显微成动定义的特征。与之相比，CNN 能够自动地从图像中学习和中国像法获得的图像信息，来分析和获得由遗传或化学处理诱导的提取特征，因此在对细胞图像的表型预测中具有更好的效率。国医医细胞表型特征。疗疗健 CNN 网络通常包括了输入层、卷积层、ReLU 层、池化层、健 AI 技术助力药物研发康在这一流程中，对细胞图像的表型检测、分析和分类是最重要全连接层等。其中卷积层通过计算层输入（例如原始图像或康行行的几个环节。但生物学分析过程的固有复杂性和细胞测定的固前一卷积层的输出）和多个二维卷积核之间的卷积，来获得业业 AI 有可变性，对细胞图像中的表型进行分析带来了严峻挑战。传图像中的二维几何信息。每个卷积核都可编码一个几何特征 AI 实统细胞表型特征提取的图像分析方法主要由一系列独立的数据（Geometric Pattern），并可卷积得到一个卷积核映射（或特实战战分析步骤组成。如图 2-4-1 所示，在输入原始图像后，首先征映射），该映射是一个基于像素的非线性激活函数，并会被手手册利用目标检测（Object Detection）方法，在细胞层级或图像传递到后续的卷积层，获得更复杂的模式。最后，卷积层的输册层级上提取特征，随后对这些特性进行转换（选择、标准化等），出被送至全连接层，并以前反馈的方式对给定的输入生成预测。最后是总结归纳相关特征，并作为预测表型的分类算法的输入。实假设 CNN 的输出层有 Np 个待分类的表型，那么对于给定的实战战输入图像 x，网络将在输出层为计算每一路 j 单元的激活函数篇尽管以上的特征检测、分析和分类方法已经在大量药物研发过篇程中获得成功应用，但其仍存在许多局限性。例如对于对象分 a j（x），并基于此计算一个向量ρ，ρ k 可以构成一个概率质量函数，用于覆盖 Np 个待分类的表型： 46 割、降维和表型分类，通常需要大量的先验知识，例如所预期 47 的表型几何形态（The geometric properties of the expected phenotypes）要对每个测定流程进行定制。同时，采用传统的 HCS 方法，执行每一个步骤，都涉及方法的定制以及参数的调整。而在对整个分析流程的性能调优过程中，如何对所有其中，k 为表型的序号，根据这些概率，可以得到表型的预测参数进行联合优化，以达到性能最优化，目前仍面临挑战，因值为：此整体效率还有待提高。为此，更多基于深度学习的 AI 方法正逐渐被引入基于细胞图像的 HCS 表型分类工作。目标检测特征提取选择和简化归类输入图像细胞目标细胞特征特性转换表型几率图 2-4-1 传统的 HCS 方法 43 本节中有关基于 CNN 及 M-CNN 的 HCS 的技术描述，详情请参阅：Godinez et al, A multi-scale convolutional neural network for phenotyping high-content cellular images. Bioinformatics, 2017

25 . 由此可知，诸如层数、卷积层内单元数量，以及卷积核和池化软硬件配置建议基于英特尔® 至强® 可扩展处理有着较大尺寸，再加上多尺度联合操作，当 Batch Size 增加因子的大小选择，都会对预测性能带来影响。而在细胞表型分到一定量后，所需的内存容量会很大，如图 2-4-3 所示，当类中，存在着另外一个问题，即由于细胞本身大小不同，显微对于利用AI技术来加速药物研发，可以参考以下基于英特尔® 器的优化 Batch Size 为 32 时，系统所需内存达到了 47.5GB。架构平台的软硬件配置，来进行系统部署。成像大小不同，导致在图像数据中往往存在着较大的空间差异，此时如果仍沿用经典的 CNN 网络结构，可能会造成准确率的提升单计算节点训练效率英名称规格英下降。一款新药的研发时间往往长达数年，而其背后常常伴随着患者特处理器英特尔® 至强® 金牌 6240 处理器或更高特尔焦急的等待。为了进一步提升基于 M-CNN 网络模型的 HCS 尔超线程 ON 中多尺度卷积神经网络（Multi-scale Convolutional Neural 方法在药物发现工作中的效率，进而让研发得以加速，已经推中国睿频加速 ON 国 Networks，M-CNN）可以较好地解决这一问题。与经典 CNN 出了一系列针对英特尔® 至强 ® 可扩展处理器的优化方案，其医内存 16GB DDR4 2666MHz* 12 及以上医疗网络结构相比，其加入了并行的多尺度分析，对于不同尺度上存储英特尔® 固态盘 D5 P4320系列及以上包括提升单计算节点吞吐量、提升多计算节点效率等多种方法。疗健的图像，可以使用不同的 CNN 网络，以独立的方法进行训练。操作系统 CentOS Linux 7.6或最新版本健康图 2-4-3 不同 Batch Size 下的内存需求量康 Linux 核心 3.10.0 或最新版本首先，在单计算节点上启动 M-CNN 模型进行训练代码如下：行行编译器 GCC 4.8.5 或最新版本业图 2-4-2 展示了一种具有 7 个尺度的 M-CNN 网络结构，缩放业面向英特尔 ® 架构优化的 TensorFlow 英特尔® 至强 ® 可扩展处理器平台对大内存有良好的支持能力， AI 尺寸自上而下逐渐变化。网络在其输入层将输入图像的七个不 TensorFlow版本 AI 实 v1.7.0 或最新版本可以有效解决随 Batch Size 增加而带来的大内存需求，其更实同尺度的缩放版本，并使用三个卷积层的序列，处理每一个尺战 Horovod 0.12.1或最新版本优化的微架构、更多的核心数量以及对更快、更大容量内存的战手度的缩放图像。每个尺度的卷积路径均独立于其他尺度，而在 OpenMPI 3.0.0或最新版本手控制和调度能力，使基于 TensorFlow 框架构建的 M-CNN 方册每个尺度的最后一层，都通过汇集方法将得到的卷积核映射缩 ToRSwitch 英特尔 ® Omni-Path 架构册法得以轻松展开。在一项使用 Broad Bioimage Benchmark 放到最粗的尺度，并链接起来，用作最终卷积层的输入，最终 Collection 021 （BBBC-021）数据集 44 所做的测试中，输入的输出层将会输出每个表型的生成概率值。实的显微镜图像尺寸为 1024*1280*3，在 Batch Size 为 32 时，实战单一 TensorFlow 工作进程（Worker）下，处理速度达到 13 战篇篇张每秒。但这一处理速度对于多达成千上万张图像的数据集而言，整个训练过程仍显漫长，效率亟待提高。 48 49 通过NUMA技术的引入，以及基于分布式深度学习框架 Horovod的权重同步技术，可以让用户在TensorFlow框架下，同时使用四个TensorFlow工作进程。如图2-4-4所示，在一个典型的计算节点中部署的双路英特尔® 至强® 可扩展处在单计算节点上，M-CNN 方法遇到的问题之一是内存容量问理器，可以被划分为4个计算区域，每个区域分别执行一个题。通常而言，深度学习网络的效率可以随着 Batch Size 的 TensorFlow工作进程。增加而有一定程度的提高。用于高内涵筛选的细胞图像通常英特尔® 至强® 英特尔® 至强® 可扩展处理器可扩展处理器英特尔® UPI 英特尔® C620 系列图 2-4-2 M-CNN 架构示意图芯片组英特尔® 以太网网络适配器 X722 英特尔® Omni- Path 光纤英特尔® Omni- Path 光纤图 2-4-4 典型的计算节点中双路英特尔® 至强® 可扩展处理器的划分 44 BBBC-021: Ljosa V, Sokolnicki KL, Carpenter AE, Annotated high-throughput microscopy image sets for validation, Nature Methods, 2012

26 . 利用 NUMA 的技术特性，可以绑定处理器的不同核心以及提升多计算节点训练效率即便在采用 Horovod 框架的情况下，所需要传递的梯度信息如图 2-4-8 所示，在训练之初，首次迭代先使用单节点的不同内存来执行训练，而互相之间不会有计算资源和存储资仍然可观。例如在使用 BBBC-021 数据集所做的测试中，梯 LR，随后将其扩展到全局的 Batch Size 参数。在其后的迭代中，除了提升单计算节点训练效率之外，利用分布式训练技术方式源的竞争。各个计算区域之间，使用英特尔® 超级通道互联度信息大小为 162.2MB。 LR 以指数方式衰减，从第 14 次迭代开始，LR 出现一个急剧也可以进一步提升训练效率。在经典的 TensorFlow 分布式架（Intel® Ultra Path Interconnect，英特尔® UPI）技术实现衰减 46。构中，需要使用参数服务器的方法来平均梯度，每个处理线程权重同步。通过这种方式，训练模型的吞吐量可获得进一步英特尔® 至强 ® 可扩展处理器所支持的英特尔® Omni-Path 架英都可能作为工作线程或参数服务器。前者用于用户处理和训练英的提升。如图 2-4-5 所示，使用四个 TensorFlow 工作进程后，构，可使梯度信息的传递更为迅捷，从而提升 M-CNN 方法的由此，M-CNN 网络在多计算节点上的训练命令如下：特数据，计算梯度，并把它们传递到参数服务器上进行平均。特尔在同样 Batch Size 为 32 时，处理速度达到 16.3 张每秒，效整体训练效率。英特尔 ® Omni-Path 架构具备 100Gbps 点尔中率提升达 25.4%。对点带宽，以及 1us 级的点对点 MPI 通讯延迟；且完全兼容中国但在这一方法中，如果参数服务器的处理能力不足，可能会造国 OFA 软件接口，完全支持 RDMA 以及 PSM 接口，并具有消医成系统的整体性瓶颈。同时，为了实现最优化性能，使用者在医疗 13 张每秒息包完整性保护、动态链路扩展等革新技术，可为梯度信息疗一开始就需要指定合适的初始工作线程和参数服务器，但稍有健的高速传输奠定坚实基础。如图 2-4-7 所示，在 8 个部署了健康不慎就会带来性能的下降。新的开源 TensorFlow 分布式深度康英特尔 ® 至强 ® 可扩展处理器的节点中，在使用 Horovod 框行学习框架 Horovod 可以有效解决这一问题。其引入的 Ring- 行业架下，同步点传输大于 10Gb。业 allreduce 算法构建了新的通信策略，允许工作线程来平均梯 AI AI 实度，而无需再加入参数服务器。实战 12 战手 10 手册如图 2-4-6 所示，在 Ring-allreduce 算法中，每个工作线程 8 册 Gigabits 首先根据各自的训练数据分别进行梯度计算，得到梯度信息。 6 16.3 张每秒每个工作线程与其他 N-1 个工作线程进行 2*（N-1）次通信。 4 实在这一过程中，一个工作线程发送并接收数据缓冲区传来的梯 2 实战 0 战度信息，每次接收的梯度信息被添加到工作进程缓冲区中，篇 1node 2nodes 4nodes 8nodes 篇并替代上一次的值。所有的工作线程将在发送和接收 N-1 个图 2-4-7 使用 Horovod 和英特尔 ® Omni-Path 架构的梯度消息之后，收到计算更新模型所需的梯度。这一方法可以同步点传输大于 10Gb 50 51 最大化地利用网络能力，避免计算瓶颈出现 45。在此通信策略基础上，Horovod 通过开放消息传递接口（Open Message 另一个可以对多计算节点训练效率进行优化的方式是收敛和调 Passing Interface，OpenMPI）建立基于 TensorFlow 的分布整学习率（Learning Rate，LR），不同训练阶段的 LR 大小图 2-4-5 TensorFlow 中四个工作线程与单个工作线程性能对比式系统。是深度学习中非常重要的设置项，LR 过大会造成振荡，过小则会收敛速度慢且易过拟合。在基于 TensorFlow 框架构建的 M-CNN 模型训练过程中，可以采用如下的 LR 调整方法来获得性能优化。 0.035 指数式衰减 0.03 0.025 随着 Batch Size 0.02 变化扩展 LR 急剧衰减 0.015 0.01 0.005 起始使用单节点范围 LR 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 图 2-4-6 Ring-allreduce 算法示意图图 2-4-8 M-CNN 网络训练过程中的 LR 调整 45 46 相关技术描述详情，请参阅：Alex Sergeev，Mike Del Balso，Meet Horovod: Uber's Open Source Distributed Deep Learning Framework 更多 LR 设置技术详情，请参阅：Yang You et el, 2017, “ImageNet Training in Minutes”

27 . 诺华利用深度学习提高药物研 26 倍。大尺寸的显微镜图像，与其带来的数百万个参数，加小结之一次训练图像数千个的规模，既对系统内存形成挑战，也带发效率来巨大的计算负荷。为了有效应对这一挑战，双方采用了一系一款新药从发现、试验到生产，动辄数年，期间伴随着患者及目前，基于英特尔® 至强® 可扩展处理器平台的一系列 AI 应用，列深度神经网络优化和加速技术，帮助系统能够在更短的时间其家属的殷切期待。利用 AI 技术来加速药物研发进程，不仅已在众多制药企业获得了落地部署，并获得了良好的效果。背景内处理多个图像，并保持准确率。是众多制药企业加速创新，保持核心竞争力的普遍选择，也是值得一提的是，虽然本文中的测试是基于英特尔® 至强® 金牌英英作为全球领先的医药企业，诺华正积极借助数字化转型来保让科技造福人类，助力创造健康生活的重要体现。为此，英特 6148 处理器平台展开，但随着第二代英特尔® 至强® 可扩展特特尔持其在药物创新、疾病诊断和药物研究等方面的竞争优势，优化方案与成效尔也与众多制药企业一起，为加速 AI 方案在药物研发中的应处理器、英特尔® 傲腾™ 持久内存等新一代英特尔硬件与技术尔中而 “AI+ 药物发现” 是其面向未来药物研发进程中的重要一环。用而努力。的推出与应用，用户在未来实际部署中可以选用更新的英特尔中国优化方案在两个方面对基于英特尔® 至强® 可扩展处理器平台国硬件平台，以及相关软件优化方案来构建性能更强劲的深度学医所部署的 M-CNN 模型的训练进行了加速。首先、在单计算节医疗现在，诺华正与英特尔一起，合作研究使用深度学习的方法通过合理的优化方案，英特尔 ® 至强 ® 可扩展处理器、英特尔 ® 习方案，并获得更佳的训练和推理效果，进而进一步加速药物疗点，充分利用英特尔® 至强® 可扩展处理器平台对大内存的良健来加速 HCS 进程。细胞表型的 HCS 是目前诺华进行早期药 Omni-Path 架构等先进技术与产品，可以为基于深度学习的发现的进程，更好地助力患者治疗与康复。健康好支持，使方案可以采用大 Batch Size（方案中设为 32），康物发现的重要方法之一。所谓高内涵是指使用经典图像处理 HCS 等 AI 应用提供出色且可靠的大内存支持，以及大 Batch 行并利用 NUMA 技术增加工作线程来提升训练效率；其次、在行业技术，从图像中提取的数千个预定义特征（例如大小、形状、 Size 与多 TensorFlow 工作进程支持，来加速单节点或多业多计算节点，引入了开源的 TensorFlow 分布式深度学习框架 AI 纹理等等）的丰富集合。HCS 允许分析显微图像，以研究数节点的训练效率，并以高带宽、低延迟的先进互联架构来对 AI 实 Horovod，并结合英特尔 ® 至强 ® 可扩展处理器支持的英特尔® 实千种遗传或化学处理对不同细胞培养物的影响。利用深度学 Horovod 分布式训练框架提供支撑，进而大幅加速诺华等药战 Omni-Path 架构，来大幅提升 M-CNN 模型在多节点下的训战手习方法，诺华可以从数据中 “自动” 学习，并区分一种治疗与企的药物研发进程。手练效率。同时还设计、采用了优化后的学习率收敛和调整方法册另一种治疗的相关图像特征，但细胞显微镜图像巨大的信息册来提升性能 49。量使这一方法仍需耗费大量时间——其图像分析模型的训练时间约为 11 小时 47。实实战战篇现在，英特尔和诺华的生物学家、数据科学家们希望通过基于篇优化的英特尔® 至强 ® 可扩展处理器平台上部署的 M-CNN 网 52 络，来加快 HCS 分析。在这项联合工作中，该团队专注于整 53 个显微镜图像，而不是使用单独的流程来首先识别图像中的每个细胞。而且，其使用的数据集 BBBC-021 数据集中的显微图 2-4-10 诺华优化后方案的训练效果镜图像可能比常见深度学习数据集中的图像大得多。方案中部署了 8 个基于英特尔® 至强® 可扩展处理器的节点，使用 BBBC-021 数据集，图像总量为 1 万张，尺寸为 1024*1280*3。在超过 20 次的训练后，如图 2-4-10 所示，训练时间总长约为 31 分钟，准确率超过 99％。同时，方案在使用 NUMA 技术形成 32 个 TensorFlow 工作进程（每个节点 4 个工作线程）后，处理能力达到了每秒 120 多幅图像，与未优化前相比，性能获得了显著提升。图 2-4-9 用于 HCS 的显微镜图像与常见图像数据集对比如图 2-4-9 所示，左侧是一个用于 HCS 的显微镜图像，其单张像素接近 400 万，而右侧是来自著名的 ImageNet 数据集 48 的图像，其训练数据集单张图像为 15 万像素，双方相差 47 该数据援引自 https://newsroom.intel.com/news/using-deep-neural-network-acceleration-image-analysis-drug-discovery/#gs.ptk50k 48 ImageNet: Russakovsky O et al, ImageNet Large Scale Visual Recognition Challenge, IJCV, 2015 49 数据所使用的测试配置为：双路英特尔® 至强® 金牌 6148 处理器，2.40GHz；核心/线程：20/40; HT：ON；Turbo：ON；内存：16GB DDR4 2666*12；硬盘：480GB 英特尔® 固态盘 OS drive*1，1.6TB英特尔® 固态盘data drive*1；网络适配器：英特尔®Omni-Path主机结构接口（HFI）；BIOS：SE5C620.8 6B.02.01.0008.031920191559；操作系统：CentOS Linux 7.3； gcc版本：6.2；Tensorflow版本：面向英特尔® 架构优化的Tensorflow v1.7.0； Horovod版本：0.12.1；OpenMPI：3.0.0；ToRSwitch：英特尔® Omni-Path架构工作负载：Broad Bioimage Benchmark Collection* 021（BBBC-021）数据集，1万张图像，图像尺寸为1024*1280*3。

28 . 智能医疗与图像识别技术当然，OCR 识别的缺点也比较明显。首先，OCR 易受角度、光线等条件影响，往往会存在较大识别误差，无法做到 100% 准确识别；其次，OCR 识别只能识别文字（字母、数医疗行业中的图像识别技术字、符号等），基本无法识别图像；最后，OCR 识别效率较低，越来越多的医疗机构正通过规范的信息系统的建设，例如医院在紧张的诊疗流程中应用，可能会造成一定延误。英信息管理系统（Hospital Information System，HIS）、临床英特特信息系统（Clinical Information System，CIS）、电子病历尔 ■ 软件识别尔中（Electronic Medical Record，EMR）以及 PACS 等，来打造中随着计算机图像技术的不断发展，越来越多的图像处理软件与国更智能的医疗信息化能力，实现患者与医务人员、医疗机构、国医技术被运用于医疗行业中进行图像和文字识别。例如 OpenCV 医基于AI的图像识别医疗设备之间的高效互动。高效率的识别技术无疑能够为打通疗计算机视觉库，其可以跨平台实现物体识别、图像分割、人脸疗健系统，助力智能医疗发挥效能提供更多支持。健识别、文字识别等一系列图像处理与分析工作。通常，用户可康康行以采用 Python、Java 等开发语言，基于 OpenCV 开发自己行比如，传统上医疗机构使用条码识别、光学字符识别（Optical 业业技术在医疗行业中的识别系统。其优点是识别率高，能够同时识别文字与图片。 AI Character Recognition，OCR）识别以及软件识别等技术来 AI 但定制化开发的软件存在着更新迭代速度慢的弊端，无法针对实执行对患者身份识别、药品发放等工作，随着 AI 技术的逐步实战医疗机构的需求变化迅速做出调整。战发展，越来越多的医疗机构开始尝试使用机器学习、深度学习手手的应用册等 AI 方法，来实现患者身份的实时识别，让药品发放更准确，册基于深度学习的图像识别技术让医疗检查流程实现无缝衔接，进而提升整个系统识别的效率和准确率，增强医疗机构的工作效率。与传统图像识别技术相比，基于深度学习的图像识别技术准确实率和工作效率更高，也更利于形成良好的更新机制。其基于图实战战 ■ 条码识别像特征进行识别，能够一次获取多种类、多数量的图像进行特篇篇征识别。目前，各大开源社区都有较成熟的图像识别算法和深条码识别技术是指利用扫码仪等光电转换设备，对印刷的条形度学习框架供参考和调用。 54 码进行识别。条形码是由一组宽条、窄条和空白组合而成的序 55 列，可用来表示一定的数字和字符。条码识别是目前医疗行业中常见的识别技术之一，条形码可印刷在病历、检测报告和其 ■ 卷积神经网络他物品上，其最主要的优点是可以被准确、快速地识别，系统卷积神经网络（CNN）是深度学习的代表算法之一，是一种含集成简单。例如，医生在治疗前，用扫描枪扫描病历上贴的条有卷积计算，且具有多层结构的前馈神经网络。利用卷积神经形码，就可通过后台关联的条码库获取病患信息；药房发药时，网络构建的模型，可以方便地对图像进行特征识别并分类。使用扫描枪扫描药品外包装的条形码，也能马上获悉药品信息。卷积神经网络的权值共享结构，可以大幅减少神经网络的参数但条码识别技术也存在缺点。首先，操作者需要对条形码进行数量，在防止过拟合的同时，又能够降低神经网络模型的复杂逐个扫描，操作速度慢；其次，并不是所有的流程中都有条码，度。基于以上特点，在医疗领域物品识别的实际应用场景中，例如一些注射用针剂，瓶身上往往不带条码，护士打针前就需卷积神经网络可以有效规避因为光线、摆放位置等因素造成的要反复核对。此外，条码库的维护也相当费时费力。影响，提升图像识别准确率，同时复杂度适中，利于用户开展重复训练和学习。有数据显示，2016 年基于神经网络模型的 ■ OCR 识别图像识别 top5 错误率已降至 2.991%，低于人类对同类图像识别 5.1% 的错误率 50。现在，卷积神经网络的一系列变体， OCR 识别一般是指通过扫描仪等电子设备获取纸面上的字符例如 LeNet-5、ZFNet、VGGNet 和 ResNet 等，已经被广泛与符号。通过检测亮暗模式来确定其形状，然后用字符识别的运用于文本、人像和手势等图像识别和分析领域。方法将其转化为计算机可识别的字符，其优点在于获取信息范围广泛，可以一次性获取扫描页面上的全部文字信息。在医疗行业，无疑可以采用 OCR 采集病历、检查报告、药品包装等图像，并利用 OCR 组件读取其中的信息。 50 Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun. Deep Residual Learning for Image Recognition[R/OL]. https://arxiv.org/abs/1512.03385, 2015-12-10

29 . ■ 基于 LeNet-5 卷积神经网络的深度学习方法解放军总医院利用深度学习技步骤三：基于深度学习的药品外包装识别模块，会快速对药品 LeNet-5 卷积神经网络形成了现代卷积神经网络的基本结构，外包装进行识别，并将识别结果显示在电脑屏幕上。其交替出现的卷积层 - 池化层可以有效提取输入图像的平移不术辅助门诊发药实践变特征，对位移、缩放和扭曲的图像，例如手写签名，有着良其中，intra_op_parallelism_threads 参数和 inter_op_parallelism_ 同时，系统会自动与 HIS 处方信息自动关联，对药品名称、规背景格、厂家和数量等参数分别进行匹配，并将错误信息标记为显好的特征识别能力。 threads 参数用来控制每个操作符 op 并行计算的线程个数，英英按处方将药品发给患者或用于患者，是药品在医院流通环节著颜色进行提醒。特前者是控制运算符 op 内部的并行，后者是控制多个运算符特尔图 2-5-1 是一个典型 7 层 LeNet-5 卷积神经网络训练模型， op 之间的并行计算。的 “最后一米”，也是病患获得良好治疗的重要环节之一。长尔中期以来，医院通过各种制度对最后发药、给药环节进行严格 ③ 中除输入输出外，它包含了多个卷积层、池化层和全连接层。图像采集装置药品外包装识别模块国国管理，如门诊窗口发药要求 “四查十对”，病房药疗医嘱执行医同时，在执行 Python 代码之前还可以进行一些环境变量的设 ② 医疗置，使英特尔 ® MKL-DNN 获得最佳状态，详情如下： 53 要求 “三查七对” ，药房中还专门设置标牌对易混淆的药品进疗健行标记提醒，如果出现发错药、用错药，都会被记录为医院 ① 健康操作台康不良事件，进行上报处理。行行业业 AI 图 2-5-1 典型 7 层 LeNet-5 卷积神经网络训练模型 51 管理规定如此严格，却仍然无法杜绝由于各种原因导致的错误， AI 实实其中，KMP_BLOCKTIME 设置为 1，是设置某个线程在执发错或用错药引起的医疗纠纷和事故也屡见不鲜。经分析，错战图 2-5-2 发药窗口应用场景示意图战手 LeNet-5 卷积神经网络在输入层可以接收和处理多维的输入数行完当前任务并进入休眠之前需要等待的时间，通常设置为发、错用药品的原因主要包括：手册据，例如二维像素点、RGB 通道等，并进行标准化处理。标 1 毫秒；KMP_SETTINGS 设置为 1，是允许在程序执行期 • 管理制度落实不到位。制度制定的比较完善，但是执行力册解放军总医院在方案中，利用 CNN 构建了药品外包装识别模型，准化处理是指将数据输入卷积神经网络前，在通道、时间、频间输出 OpenMP 运行时库环境变量；KMP_AFFINITY 设置为不足；并通过深度学习方法对药品外包装进行特征识别。识别包含两率等维度对输入数据进行归一化计算，这有利于提升模型的运 Compact，是表示在该模式下，线程绑定按计算核心的计算 • 药师或医护人员长时间高负荷工作，工作压力大导致人为实个主要目标：一是能够高效准确地识别药品，尤其是易混淆药实战行和学习效率。要求优先。先绑定同一个核心，再依次绑定同一个处理器上的出错；品；二是能够统计药品数量。战篇下一个核心。此种绑定适用于线程之间具有数据交换或有公共 • 药品本身的问题。部分药品名称、外包装设计极易混淆。篇在输入层之后，是几个卷积层和池化层。卷积层的主要功能是数据的计算情况，优势在于，可以充分利用多级缓存的特性；如图 2-5-3 所示，基于神经网络的药品外包装识别模块工作 56 对输入数据进行特征提取，而且这种特征提取是层层递进的关 OMP_NUM_THREADS 是指定要使用的线程数。解放军总医院虽为知名的三甲医院，但也同样遭遇以上的问题。 57 流程主要包含图像数据预处理、模型训练、迭代优化、推理预系。在第一层卷积层，往往只能提取到一些较为简单的特征，从 2010 年至 2017 年，该院门诊量年均递增 5.71%，处方发测等步骤。在图像数据预处理阶段，根据神经网络模型训练需而下一个卷积层，则能在这些简单特征的基础上提取更为复杂 * 更多面向英特尔 ® 架构优化的 TensorFlow 的技术细节，请参阅本手册药量年均递增 7.63%，门诊药房有 15.4% 的药品被标记为易要大量标记数据的特点，方案采用先采集少量原始图片，而后的特征。池化层的作用是对卷积层输出的特征进行选择和信息技术篇相关介绍。混淆药品 54，而药房工作人数却基本未变，劳动强度增大提高自动生成大量训练用图像数据的模式。过滤。全连接层一般构建在卷积神经网络的最后部分，它可以了发错药的概率和风险。将特征的 3 维结构转化为向量，并传递至下一层。在最后的输软硬件配置建议出层，会使用逻辑函数或归一化指数函数输出分类标签。为应对这一问题，解放军总医院尝试利用信息化手段来辅助减图像数据模型推理实际对于智能医疗中，基于深度学习的图像识别方案的构建，可预处理训练预测部署少发药环节的错误。首先，利用计算机视觉技术，在门诊发药以参考以下基于英特尔® 架构平台的软硬件配置来实施。模型的实现及优化窗口对药品的分类和数量进行识别；其次，将该识别系统与 HIS 系统的处方数据进行自动关联和匹配，通过信息比对来判迭代优化 ■ TensorFlow 实现及优化名称规格断待发药品实物是否和处方信息一致，并将结果实时反馈给发处理器英特尔 ® 至强 ® 金牌 6240 处理器或更高图 2-5-3 基于神经网络的药品外包装识别模块通过 TensorFlow 来实现 LeNet-5 卷积神经网络，可直接采用药的药师，从而达到降低发药出错率的目的。超线程 ON 官方模型代码来进行模型训练，在 Github 的 slim 目录下已经睿频加速 ON 集成了大量采用 CNN 模型的训练代码，可以直接通过 train_ 首先，分别采集药品外包装六个面的原始图片，舍弃含有效期、内存 16GB DDR4 2666MHz* 12 及以上方案与成效电子监管码的图像信息；然后，利用轮廓算法获取药品图片以 image_classifier.py 来调用 52。具体的训练命令如下所示：存储英特尔 ® 固态盘 D5 P4320 系列及以上解放军总医院利用深度学习技术辅助门诊发药解决方案的基本减少干扰；而后，再通过拉伸、扭曲、缩放、旋转、随机位移操作系统 CentOS Linux 7.6 或最新版本 Linux 核心 3.10.0 或最新版本步骤如图 2-5-2 所示：等图像处理方式得到新图像，并将每个药品的图片以单独目录编译器 GCC 4.8.5 或最新版本步骤一：药师会将待发的药品置于发药窗口操作台上；存储。解放军总医院在方案中针对 56 种药品，采集了 279 个同时，为了使英特尔® 处理器的计算资源得以充分利用，还可 Python 版本 Python 3.6 或最新版本步骤二：操作台上方的图像采集装置会自动捕获药品图像，并面的原始图像，通过预处理生成了 467,752 张图像，并随机在训练代码中进行如下优化： Tensorflow 版本 R1.13.1 或最新版本传送到系统后台；选择 289,448 张用于训练，178,304 张用于模型验证。 51 54 图片以及关于 LeNet-5 的相关描述，援引自 LeCun,Y.; Bottou,L.;Bengio,Y.&Haffner,P.(1998).Gradient-based learning applied to document recognition. 数据援引自张震江，施华宇，辛海莉，李闯，刘敏超所著《深度学习技术辅助门诊发药实践》一文 Proceedings of the IEEE.86 (11) : 2278 - 2324.] 52 相关 Github 地址为：https://github.com/tensorflow/models/research/slim/ 53 具体请参见 TensorFlow 官网：https://tensorflow.google.cn/guide/performance/overview?hl=zh-cn

0点赞

0收藏

2下载