医疗知识图谱的构建及应用

医疗知识图谱的构建及应用
展开查看详情

1.医疗知识图谱的构建及应用 倪渊,平安医疗科技医疗文本处理负责人 2018年12月8日

2.平安集团PPP模式医疗生态圈 平安医疗生态圈 政府:卫健委服务 政府:医保/社保服务 患者Patient 服务提供 Provider 支付 Payment 智慧医疗云 线上健康管理入口 分级诊疗 医院 医保平台 平安好医生 平安医保 流 诊所 支 量 医生 付 入 线下健康管理入口 药店 商保 方 口 体检中心 平安健康险 平安 专科转诊 其他医疗机构 平安寿险 万家医疗 平安养老险 技术支持 技术支持 技术支持 集团医疗科技平台

3.集团医疗科技平台 A4 预防 诊前 诊中 诊后/管理 质控 6大智能 智能影像筛查/ 智能疾病 服务 智能疾病预测 智能预诊/分诊 智能随访追踪 智能质量控制 辅助诊断 辅助诊疗 A3 医疗 知识 医疗知识图谱(覆盖60万医学概念,530万医学关系,1000万医学证据) 图谱 A2 5大信 息库 疾病库 治疗库 药品库 个人健康库 医疗机构和医生库 A1 院前 院内信息 第三⽅ 院中 院后 健康体检 健康档案 院外随访 商保核赔 系统 影像 N个数 队列研究 据源 & 在线问诊 个⼈监测 流⾏病 电⼦病历 基因测序 医保核赔 患者问题 药品购买 临床试验 3

4.A2 5大医疗信息库 疾病库 治疗库 药品库 • 疾病及疾病相关属性和关系 • 治疗模式 • 药品信息 • 常见疾病知识库 • 精准⼈群 • 各省市药品目录 • 多个城市地⽅病种库 • 检查检验信息 • 药品中标价格 • 不同版本ICD编码 • 疾病语义概念 • ⼿术信息 • 药物不良反应 • 疾病同义词库 • 临床路径 • 药物疗效 • 症状同义词库 • 经典病例 • 临床试验 个人健康库 医疗机构&医生库 • 疾病风险因⼦ • 医疗机构&医⽣名称 • 患者常见问答 • 医疗机构级别 • 主要科室 • 疾病知识问答库 • 专家⼈数 • 科普文章 • 住院床位 • 生活方式 • 医⽣简介 • 医⽣资质 • 医⽣特长 4

5.A3 平安医疗知识图谱:涵盖50类医学概念,191类医学关系 知识图谱:以结构化的形式描述客观世界中的概念及其关系 • 50类医学概念 • 191种医学关系 • 100种医学属性 • 60万医学术语 • 530万医学关系 • 1000万医学证据 5

6.A3 知识图谱:高血压知识图谱示例

7.平安医疗知识图谱-整体架构 融合医学核心概念以及医学临床证据 智能服务 医疗知识图谱查询 基于自然语言的 基于知识图谱的 基于知识图谱的 基于知识图谱的 导览及可视化 知识图谱交互 医患教育 结构化和标准化 决策支持 图数据库 自然语言处理平台 数据平台 爬虫 MongoDB Cassandra HBase BerkeleyDB ElasticSearch 机器学习平台 Schema管理 数据结构化,槽填充 数据驱动 多图谱融合 图谱质量评价 图谱规则集 模板 基于数 规则校验工 实体识别 属性识别 实体对齐 图谱冲突解决工具 图谱构建 知识图谱 具 定义 据挖掘 schema 和管 的相关 对齐审核 管理工具 实体链接 关系抽取 图谱一致性校验 推理规则 理 性 工具 医学核心概念 医学临床证据 临床指南 医学知识+证据图谱 经典病例 医学 开放医疗与健康联盟 科普 RWE 检查检验 症状 模型 疾病 数据层 知识库 知识库 知识库 药品 身体部位 手术 知识库 知识库 知识库 7

8.实体识别&关系抽取 p 基于深度学习的端到端的命名实体识别以及关系抽取,利用多 任务方式同时提高命名实体识别以及关系抽取的精度 p 神经网络+知识图谱+人工知识 p 神经网络:Bi-LSTM+CRF, Tree-LSTM 诱因 p 知识图谱:基于n-gram的匹配 p 人工知识:中文字形,患者特征 关系抽取 标签嵌入 实体抽取 B-疾病 O B-症状 I-症状 E-症状 导致 CRF 感染 糖尿病 隐藏层 tanh tanh 肢 Bi-LSTM 左下 词嵌入 依存嵌入 糖尿病 导致 左下 肢 感染 nsubj 8

9. “ACS” 实体连接 ACS患者的出院后需要进行一年的双抗治疗 别名 “ACS” 别名 急性冠状动 脉综合症 腹腔间隔室 处方 综合症 双抗治疗 包含药品 包含药品 阿司匹林 氯吡咯雷 医学术语 语法分析 语义分析 备选实体查询 索引 多维度评分器 排序 最终结果 字符串边界距离 拼音边界距离 。。。 Wordvec相似度 同义词林相似度

10.弱监督的信息抽取 Schema 未标注的数据集 候选实体对 Λ 目标函数优化 标签矩阵 公开数据集 每个源对数据 标记矩阵 以及少量 KG 的标记矩阵 相关性 标注数据 Λ1 Λ2 Λ3 描述特征 用于、禁用、 标注函数 引起、不适用 &字典 生成模型 启发语句 本品适用于B的 P(Y) 治疗 Bilstm + Attention 弱监督下的多源数据集

11.图谱融合 医疗领域存在多种形式的同义词 p 不同翻译名称 p 拼写错误 p 别名 p 阿司匹林 p 天竺癀 p 小檗碱 p 阿士匹灵 p 天竹黄 p 黄连素片 阿托伐他汀相关药物 p 阿斯匹林

12.医联体/医院在诊前、诊中、诊後存在诸多痛点 关键环节 诊前 诊中 诊后 未察觉身 自行解决 基层医院家庭医生 体不适 早期患者& 其他(慢 跟踪管理 基层医院 轻微疾病 病等) 居民 常规 发现身体 病患 科室医院跟踪随访 手术/重 不适/ 意外 初 中/晚期患者& 筛 转诊/到高 疾病患 查 诊 重度疾病 级别医院 日常体检 高危 ICU治疗 病患 • 基层诊疗水平低, 误漏诊高(~40 • 放射、病理医生负担大, 误漏诊高:日均接待200-300病人, • 缺乏有效诊后管理/随 %):370万基层卫生人员中, 每个患者读片时间不到2分钟 访手段: 无有效数据 医 本科以上学历仅占9% ,中级以 • 临床医生时间未有效利用:20-50%以上时间於文字报告入 统计、工作量繁重缺 上职称仅占12% 录; 小病、常见病、慢性病患者诊疗量占大头 乏主动管理辖区病患 主 院 • 基层缺乏专科与病理医生, 设备 • 重症/ICU病患量大, 管理难:平均每重症患者1/6个医生, 环节 要 利用率低 (如CT设备利用率 工作压力巨大,难以有效管理病患 痛 <40%) • 院内系统众多,数据孤岛难以整合信息 点 • 三级医院挂号难:病患量大, 挂 • 病患挂错诊号比例高(10-30%1):许多诊疗资源浪费 • 慢症患者没有定期至 病 错号比例高 • 医院等待/排队时间长:挂号、候诊、影像断、交费、拿 医院复诊, 导致晚期发 患 • 疾病发现晚:卫教信息落後, 缺 药占>90%时间; 医生医生问诊时间短 现, 情况加剧 乏渠道与医生沟通 1 2015年首都医科大学附属北京朝阳医院急诊科主任郭树彬统计; 前几大误挂包括皮肤科误挂外科(~31%), 外科误挂内科(~30%), 口腔科误挂外科(~12%), 外科误挂妇产科(~11%), 中医误挂外科(~10%)

13.智慧医院CDSS解决⽅案全景图 诊前 诊中 诊后 2F 临床科研平台:电子病历结构化/标准化 自行解决 未察觉身 高层医院 其他(慢 基层医院 中/晚期& 体不适 病等) 科室随访 重度疾病 2A 智能问诊/分诊服务 常规 2E 2B 智能影像筛查 远 病患 与管理 至 患者 手术/重 居民 程 2B 智能影像辅助诊断 下沉至 远程 高 发现身体不 疾病患 适/ 意外 2C 智能健康风险提示 会 基层追 会峎 层 / 踪 支持 医 2C 智能疾病辅助诊疗 高危 院 2C 智能疾病辅助诊断 转 智能ICU 家庭医生 诊 早期& 病患 2D 诊 日常体检 2C 精准用药推荐 管理 2E随访与教育 断 2C 智能用药推荐 轻微疾病 治 患者 疗 2A • 智能分诊 /导诊 2B 多模态智能影像 2C 智能疾病辅助诊疗 2D 智能ICU管理 2E 智能患者教育/ 2F 智能临床科研平 辅助诊疗 与治疗推荐 • 死亡时间预测 随访 台 • 全病种(候诊大 • 提供~35种基于影 • ~30种常见疾病智 和诊疗资源预 • 全病种基于自 • 利用深度学习 厅与药剂科)诊 像的辅助诊疗 风险提示、能辅助 测、管理等智 然语言理解的 技术,自动抽 前数据收集&机 • 包含智能诊报告& 诊疗与用药建议, 能模块 智能随访和诊 取电子病历中 器问答智能分诊 远程放射会诊等 规范临床诊疗和用 • 有效提高医生 后患教 的关键信息 • 带来高效且精准 药标准 模块,提升诊疗 诊疗品质与效 • 协助基层医院 • 基于医疗知识 的智能就医体验 效率,降低误诊 • 精细管理医疗资源, 率 提升诊后管理 图谱的医学概 率 提升诊疗准确性 与随访效率 念标准化 13

14. 带有概率及权重的知识图谱 2A 2C 诊前诊中辅助决策 节点粗细:节点的重要性/频度;边粗细:相关性概率 诊前(分诊) 诊中(诊断辅助) 诊中(治疗辅助) 基于症状相关性以及重要度的推荐,完善主诉 基于患者主诉,选择相关疾病,并按照节点权重及 检查检验结果的解释。根据医生诊断, 相关性进行排序。同时进一步给出排序的推荐检查 提示可能得并发症及预后。提示可能 宝宝体温39度,咳嗽,有点喘 得用药 节点权重* 疾病:急性支气管炎 检查:听诊 边相关性 急性支气管炎 上呼吸道感染 血常规 体温 肺炎 并发症:肺炎 5% (风险因素:糖尿 气促?蛋白质过敏? 病,慢阻肺),呼吸衰竭 0.2% >37 相关药物:阿莫西林,。。。 发烧 流鼻涕 听诊 糖尿病 胸部X光 慢阻肺 血常规 喘息 咳嗽 阿莫西林 呼吸衰竭 湿疹 小儿哮喘 肺炎 白细胞升高 气促 蛋白质过敏 腹泻 急性支气管炎 上呼吸道感染 呕吐

15.2C 个性化精准诊疗-辅助诊断 数据准备 数据建模⽅法 模型应用- 辅助诊断 美国20年救护车使用 构建深度学习模型 调查公共数据集,包 • 通过医学知识图谱及中的疾病和症状关系 含210万次就诊记录 构建基础网络 • 利用公共数据进行增量学习, 学习优化目 标考虑先验知识 – 在损失函数中加入知识 对应的罚项,提高模型精度。 7百万篇医学文献摘 要中提取出的症状, 全球最大的医学 诊断以及共现关系 文献数据库 120万病人跨度19年 的2000万次就诊记 构建贝叶斯网络 斯坦福大学临床 录中抽取的疾病 数据仓库 • 应 用 PubMed (症状和诊断), 和 Stanford 数 药物,设备和手术 信息 据构建 概率模 研究价值和进展 型 ,支持更多 种类的疾病 • 价值:利用患者症状、体征等信息为医生 医学知识 推荐疑似诊断,减少误诊、漏诊 • 通过 模型融合 医学知识图谱和疾 技术 生成最后 • 进展:概率模型覆盖500+种疾病,全科常 病的临床指南。包 的诊断列表 括1.2万个症状概念, 见30+种疾病的诊断模型的准确率为95%* 14万个疾病概念, • 合作:北京大学第一医院全科 以及相互关系 15 5

16.2C 个性化精准诊疗-辅助治疗 数据准备 建模⽅法 模型应用- 药物推荐 临床指南 基于知识的治疗模型 • 根据患者的信息给出处方推荐 • 收集整理了20+国家临床指南和专家共识 • 知识表示:将临床指南 • 包括特定疾病的诊断、治疗和预防的方 表示为决策树,进而翻 法和路径。 译成可执行的规则。 • 知识推理:采用推理引 • 提供推荐依据: 知识图谱 擎将规则应用到患者数 • 药品: 17万种 据,生成治疗方案。 RETE推理网络 • 药品和疾病关系:35万条 • 药物相互作用:21万条 基于数据的治疗模型 临床数据 • 通过关联规则分析的发现常见治疗模式。 • 通过精准分群技术,找出在临床上相似患者的人群。 • 重庆卫键委电子病历数据:包括35种 • 在相似人群中的进行治疗模式的个性化推荐。 常见疾病的就诊115万次。 研究价值和进展 • 采用模型融合技术把推荐结果和知识模型结果整合 • 理赔数据:包括35种常见病就诊1700 • 价值:规范医生治疗,提升患者满意度 𝐝 𝒙𝒊 , 𝒙𝒋 = 万次。 𝑻 𝒙𝒊 − 𝒙𝒋 𝑨 𝒙𝒊 − 𝒙𝒋 • 进展:完成3种疾病(高血压,糖尿病, • 每次就诊包括患者基本信息,诊断, 房颤)的依据知识的治疗模型,正在开发 检验检查信息,疾病史,用药史和处 基于数据的30+种疾病的治疗推荐模型 方信息。 • 合作:上海中山医院全科、赛诺菲 166

17.2E 疾病健康问答场景 3亿高血压患者, 1亿糖尿病患者, 5000万慢阻肺 迅速增长的 缺少合格的社 慢病患者数 区医生和药师 In 量 每1万人的社区医 每1万人的药师数 药师的教育水 生数量 量 平 慢性病占据了 社区医生和药 33.3% 28.2% 死因的前列 师也缺乏专业 技校 本科以上 的技能 34.2% 专科 患者在慢病管理当中会有各种疑问 卫计委要求家庭医生要定期对慢性病随访 随访内容包括 上亿注册用户 症状:头痛,头晕,胸 闷等 百万级日问诊量 体征:血压,体重,BMI, 心率等 生活方式:吸烟,饮酒, 大量健康教育相关问题,可以从医疗知识库当中找到答案 运动等 用药:种类,用法用量 糖尿病患者应该如何饮食? 立普妥和络活喜可以一起吃 吗? 空腹血糖8.6,有问题吗?

18.2E 疾病健康问答-问题相似度匹配 数据驱动的FAQ问题集准备 患者问题库 (4000万+) 是否FAQ 问题向量表示 问题聚类 FAQ挑选 训练集生成 语义匹配 检索模型 300w+问题对 2000+FAQ覆盖糖尿 FAQ库 病,高血压,房颤 18

19.2E 疾病健康问答-问题相似度匹配 基于深度注意力网络的文本匹配 集成学习技术 Softmax Average&Max d1 d2 d3 d4 d’1 d’2 d’3 a1 a2 a3 a4 a’1 a’2 a’3 h1 h2 h3 h4 h’1 h’2 h’3 x1 x2 x3 x4 x’1 x’2 x’3 病种 问题库 FAQ 问题组 训练集 精度 糖尿病 170,000 90,000 700 340万对 93% 高血压 110,000 80,000 707 110万对 95% 房颤 10,000 5,000 200 10万对 92% 卒中 60,000 20,000 350 35万对 92% 慢阻肺 20,000 10,000 437 14万对 91% 19

20.2E 药品助手-基于知识图谱的问答 模板 阿托伐他丁一天应该吃几次? <药品>一天应该吃几次? 备选关系: 适应症,用法用量, 命名实体识别 禁忌,。。 词向量 biLSTM + CRF 矩阵 阿托伐他丁一天应该吃几次? 实体链接 模板 编码 关系向量 阿托伐他汀钙片 阿托伐他汀钙分散片 阿托伐他汀钙胶囊 阿托伐他汀胶囊 多轮对话的实体消岐 关系-模 板匹配 片剂 胶囊 立普妥 阿乐 匹配 组合 立普妥(10mg) 立普妥(20mg) 立普妥(40mg) Max Avg 立普妥(10mg)常用的起始 剂量为10 mg每日一次… MLP 用法用量 20

21.2F 基于知识图谱的电子病历理解和智能编码 每年70亿人次就诊患者,产生100亿+电子病历数据;通过电子病历结构化以及自动编码服务,整合电子病历 数据 真实世界 大数据 高质量病 支持精准 数据分析 分析 案首页 DRG分组 医院 监管者 药商 高质量统 计信息 2017年,全球自动编码市场估 80%的医疗数据时非结 临床大数据云平台 病案首页云平台 计在2.76B美金 并且按照预 构化数据,需要结构化 电子病历 期的11.5%的CAGR,到 后才能进一步分析 结构化病 历信息 病案首页 2022年将达到4.75B 美金[1] 患者诉发冷,出现寒战,头 症状 有 寒战,头晕,恶心 晕,恶心未吐。血常规:白 无 呕吐 细胞数17.83*10^9/L,。。。 检验 白细胞 17.83*10^9/L ICD-10疾病编码 查体:左肾区叩击痛阳性,未 自然语言 触及肿块。。。考虑患者泌 理解理解 体征 有 左肾区叩击痛阳性 自动编码 尿系感染合并SIRS。制定治 无 肿块 疗方案:1停止静点头孢替唑, ICD-9-CM手术编码 诊断 泌尿系感染合并SIRS 给予头孢哌酮舒巴坦钠2.03/ 日静点 治疗 无 头孢替唑 有 头孢哌酮舒巴坦钠 [1]https://www.marketsandmarkets.com/PressReleases/computer-assisted-coding.asp

22.2F 信息抽取相关技术 p LSTM+CRF 模型 实体抽取 B-疾病 O B-症状 I-症状 E-症状 CRF 隐藏层 tanh tanh Bi-LSTM 词嵌入 糖尿病 导致 左下 肢 感染 p 模型只能解决部分问题 p 无恶心,呕吐,无发烧,发冷 p 尿尿尿不出尿来3天 p 全身浅表淋巴结未触及肿大,头颅无,五官端正 p 今查房,症状同前,体查同前,治疗同前 p 巴林斯基征,巴氏征,巴宾斯基征,巴宾斯基,babinski征,巴彬斯基征, babinskisign。。。

23.2F 电子病历结构化和标准化产品 自动抽取电子病历文本中的信息(例如疾病,症状,症状 数据看板,快速浏览结构化电子病历的统计信息 属性等),并利用知识图谱将信息标准化。生成标准化的 结构化数据 支持对于结构化电子病历的语义查询

24.2F 基于机器学习的自动编码 p 通过机器学习来自动的推荐编码,包括 p 考虑整体的电子病历来提取特征 主要诊断,次要诊断以及手术编码 p 患者主诉 p 就诊过程 p 出院医嘱 p 通过医学知识图谱来进一步提高性能 p 病理报告 p 出院诊断 p 患者基本信息 六位码性能 四位码性能 主要诊断 主要诊断 AUC hit@5 AUC hit@5 0.99 0.89 0.99 0.92

25.2F 模型比较 训练数据:22万+电子病历,包含临床诊断描述,科室,患者信息等和icd编码 模型(Label) Hit@1 Hit@5 coverage coverage hit@1=0.95 hit@1=0.90 模型1(一层六位码模型)(六位码) 0.62 0.85 2% 5% 模型2(层级模型)(六位码) 0.66 0.85 17% 28% 模型3(层级多任务模型)(六位码) 0.73 0.89 20% 32% hit@1 = 模型只给出一个备选编码的时候就是正确编码的百分比 hit@5 = 模型给出5个备选编码的时候包含正确编码的百分比 coverage @(hit@1=0.95) 在hit@1可以达到0.95的时候,模型可以覆盖的病历百分比 coverage @(hit@1=0.90) 在hit@1可以达到0.90的时候,模型可以覆盖的病历百分比 智能编码模 置信度>t 给出一个 减少20%的 病历 准确度高于95%,无需人工 块 ICD编码 人工审核时 审核 间 置信度<=t 和搜索查找比较,将编 给出五个 给出5个备选编码,供人工挑 码推荐范围从~30降 ICD编码 低到5,减少30~40% 选 的人工

26.2F 基于知识图谱的医学文献查询 命名实体识别 研究 疾病 实体链接 P 人群 关系抽取 干预 医学文献 方式 I 治疗 比较 C 属性抽取 方式 有效 无效 O 结局 主题提取 中立 方法 实验方法 情感分类

27.2F 基于知识图谱的医学文献查询 利格列汀联合二甲双胍及磺脲类药物在2型糖尿病患者治疗中 有效性、安全性分析 2型糖尿病患者,已经在服用二甲双胍,血 摘要:目的: 研究利格列汀联合二甲双胍及磺脲类降糖药物 糖控制不满意,加入哪种口服降糖药合适? 治疗(二甲双胍及磺脲类药物血糖控制不佳的)的2型糖尿病 患者有效性及安全性的相关数据。方法:48例2型糖尿病患者 按2:1比例随机分为利格列汀组与安慰剂组,两组均用药24周。 结果:利格列汀与二甲双胍及磺脲类降糖药物联合应用24周可 以显著降低糖化血红蛋白(HbA1c)的水平(与安慰剂组比较, HbA1c较基线时下降0.62%,P<0.0001)。结论:利格列汀与二 甲双胍及磺脲类降糖药物联合应用安全有效。 文献1 干预 研究 口服降糖药 方式 比较 方式 治疗1 治疗2 二型糖 尿病 DPP-4 磺脲类 实验 方法 随机实 验 利格列汀 格列美脲 二甲双胍 安慰剂

28.Thanks