医学知识库提供服务(知网医学知识库)这都可以
MAURICIO S, NSOESIE E O, MEKARU S R, et al. Using clinicians' search
医疗大数据应用遭遇的困境随着医疗信息化水平的提高和人工智能技术的发展,医学大数据的应用范围逐渐扩大越来越多的人开始了解医疗大数据的魅力,而对于大数据而言,巨量的数据来源是其分析准确性的根本保证当数据量大到一定程度之后,想要保证数据的准确度就会变得异常艰难,相应的分析结果也就很难保障,造成大数据应用的失败。
Google流感预测和IBM Watson在医疗大数据领域遭遇重创,甚至被认为这是人工智能在医疗领域的倒退Google——流感疾病预测2009年美国H1N1爆发前几周Nature上面有一篇文章《Detecting influenza epidemics using search engine query data》论述了Google基于用户的搜索日志(其中包括搜索关键词、用户搜索频率以及用户IP地址等信息)的汇总信息,成功“预测”了流感病人的就诊人数。
截止到文章发表出来的时候,Google的预测还是准确的,不过到后来就发生了很大的偏差,偏差最大甚至高出了标准值(CDC公布的结果)将近一倍[3]Google预测的失败,一方面模型过度地依赖于数据,导致很多被忽略了的因素对预测的结果产生了很大的影响。
找准数据是前提,数据并非越大越好,数据来源是像搜索引擎这种复杂度本身就很高的地方,那分析就会变得更困难,每天都有上百万的与CDC的数据相关的搜索词汇,其中的许多搜索都会与流感趋势紧密相关,但其中也会存在着很多与流感相关的搜索实际上并不是由真正的流感病例引起或者与流感趋势有关。
另一方面,对客观世界进行预测需要模型,模型首先来自于理论构造,其次需要数据对模型进行训练对模型进行优化完善大数据观点强调模型对数据训练的依赖,而尽可能地忽略理论构造这一部分的意义,因此忽略或脱离流行病的基础理论,这就有可能带来隐患。
后来有人用CDC的历史数据并依据流行病学定义流感预测的相关控制指标构建数据模型,历史数据标准化处理后保证其数据质量,预测准确率显著提高IBM——沃森(Watson)IBM Watson曾被认为是“引领认知革命”的先驱,能够从海量的医学文献和病历中提取医生临床诊断经验,通过机器学习让计算机掌握临床诊断方法,目标是可以替代人类医生看很多疑难杂症。
沃森在全球7个国家(中国、美国、韩国、泰国、新加坡、印度、荷兰)落地并服务了近万例患者早在2016年8月,WFO就进入了中国医疗领域,IBM与中国北京、上海、广州、浙江、福建、云南等省市的21家医院达成了关于Watson肿瘤解决方案的合作意向。
2018年裁员举措意味着IBM沃森在医疗健康领域遭遇重挫[5]沃森为什么在实际应用上和预期的效果差别如此之大呢?首先到目前为止,没有一种AI可以匹配人类医生的理解和洞察力,沃森只做到了求同,却做不到求异。
像糖尿病、高血压、肿瘤等非标准化的疑难杂症领域,导致疾病的成因有环境、遗传、基因突变、生活习惯等各种因素,颇为复杂,医生需要吸纳各种信息后进行综合判断因此,如果仅仅依靠机器阅读文献获得医疗方案很难令人信服。
另外,在数据处理上,除了收集的样本数据量不足,最大的问题便是在数据质量不高,本来应该依据大量的真实数据从而找到新的治疗手段,由于罕见病例数据的极端匮乏,沃森所用的训练数据不足,训练数据量最高的肺癌只有635例,而最低的卵巢癌只有106例,更多采用的是患者的假想数据来做训练。
这种通过假想数据学出来的AI,准确性可想而知了解其中数据的质量以及如何使用人工智能算法来适应数据质量问题将变得很重要医疗领域,历经长期信息系统标准不统一,临床术语开发无法跟进,健康数据碎片化、非结构化等因素困扰,越过数据质量谈人工智能确实有点天方夜谭,扎实做好数据治理基本功,保障数据质量才是医疗人工智能的唯一出路。
医疗大数据现状分析医疗数据有数据质量参差不齐、分散的特质,造成医疗机构内或区域集成平台众多异源异构应用系统的数据形成信息孤岛,不能达到数据互联互通、共享和应用的要求医疗大数据的应用主要面临以下问题:数据不可直接读
:系统原始存储命名、格式等差异大,表名、数据元名称等系统差异大需要将英文、拼音或缩写等数据库命名根据真实数据解析、标注、释义核心业务数据需要辨识:医院信息系统全量数据中混杂系统数据、日志数据及大量空值数据等应用价值小的数据对主要业务数据形成干扰。
需要剥离核心应用业务数据患者身份未归一、无关联:医院中各自独立的医疗信息系统未将患者身份统一,数据关联性差、一致性不高,导致跨系统、跨院、跨区域应用时存在障碍需要建EMPI等主数据管理,将分散的数据按主数据集成在一起。
系统模块和流程不统一:各医院各系统的业务模块、分类和命名差异大、数据分散,查找和应用困难需要建立标准的数据集分类和数据集,使不同来源的异构数据按统一的结构存储,方便查找和应用数据元不统一:信息系统的数据的表结构设置和命名体差异很大,辨识和掌握所有医院数据结构成为数据应用的障碍。
需要统一的数据元标准,统一对数据元进行命名和定义,并建立相同数据元概念的映射关系,打破差异化数据元值域编码不一致:数据元值存储多为代码形式,而各医院数据编码体系不同,导致同一值域有多个不同编码,不能直接读取应用。
需要建立统一的数据字典标准,统一编码,保证数据有效利用医学术语命名和编码差异大:诊断、药品、诊疗项目等医学术语,是医疗数据的焦点信息,存在各地应用等标准不统一、医生命名习惯与标准命名不统一等问题需要统一的医学术语分类编码标准,建立不同标准术语间、自然语言与标准术语间、医疗术语大概念与小概念间等多种映射关系的临床术语标准体系,满足不同数据应用需求。
数据表示格式不统一:数据元值域的表示格式多样、数据元合并拆分不一致、数据表示不一致等需要按数据类型规范数据表示格式,按统一的数据表示形式存储和展示,提高应用效率面对上述复杂、多样的数据质量问题,需要构建标准化的数据治理流程和规范。
医疗数据治理就像是一个“修高速公路”的过程,人工智能和大数据挖掘应用是“跑车”,而医学本身的脉络体系就是支撑高速公路的“钢架”近年来众多新兴互联网企业进入到健康医疗大数据的产业中,同时也越来越清楚意识到数据质量在不同应用模块的建设中的重要作用,数据标准化对应用模型的建设起到了顶层架构的作用。
按数据管理能力成熟度评估模型来看,目前国内的医疗大数据刚刚从初始级向受管理级转化,尚未缺少稳定、成熟的数据标准化管理流程和规范,因此出现了“跑车”尚无匹配的优质赛道的现状,医疗大数据应用迫切需要一套标准化的数据治理路径,为提高医疗大数据的数据质量保驾护航。
国内外医学信息标准和规范国际早在上世纪八、九十年代就已经诞生了医学信息化的标准,用于解决医疗在传输、汇聚和共享层面面临的不同类型数据质量问题。主要的标准见下表:
我国自2009年以来参照国际通用标准,陆续推出多项国家卫生信息标准,包括基础类标准、数据类标准、技术类标准、应用与服务类标准、管理类标准等,逐步形成面向国内数据现状的卫生信标准体系(见下图)。
存在问题标准体系建设晚于信息系统 我国的医疗信息化起步于上世纪90年代末,经历了10的快速发展期,这个过程缺乏卫生信息标准的支撑,全国有几千家信息系统厂商有自己的数据标准,造成同一家医院有多种、多个不同厂商系统,形成数据不能互联互通、信息孤岛的局面。
同时国内卫生信息标准更新节奏慢,不像国际标准根据实际应用情况有固定的更新周期:按月、季、(半)年等,使得标准很难跟上实际应用的需要标准体系与实际数据业务应用差异大 国内卫生信息标准是从科技角度和方法论角度建标准,大部分是参考原则,缺少可执行的落地路径、规则和解决方案。
同时各信息化厂商和医院有自己固有的业务流程体系,造成标准体系与实际信息系统数据和应用有差距例如,2018年9月13日,国家卫生健康委员会印发《国家健康医疗大数据标准、安全和服务管理办法(试行)的通知》《通知》针对标准管理、安全管理、服务管理、管理监督进行了详细的规定。
在安全管理方面明确了如何界定主体责任人和监管责任人,但对于真实数据中各类业务数据如何定义数据安全等级、开放和共享等级尚无明确的参考依据大数据技术与应用需求先行 目前大数据技术有突飞猛进的发展,同时在互联网医疗、药物研发、健康管理、保险等方向应用已经展开积极探索。
而国内医疗大数据标准尚存在很多空白,尤其是数据应用服务方向缺乏标准指导但缺乏可执行的标准背书,导致企业应用标准不一,各自为政,甚至游走在法律风险的边缘医疗大数据应用遍地开花的今天,数据应用、服务、安全等方面方面尚缺乏可直接参考的标准成为影响其发展的瓶颈。
标准执行缺少监理、验收、评估 现行已颁布的信息化标准,因缺乏强制、有效的执行措施,出现各信息化厂商、机构和单位推迟执行和不愿意执行的情况,导致标准执行不一致和虽然有标准但并没有真正发挥其价值的乱象同时缺乏有效的验收、评估管控标准,以保证按标准执行的质量。
可见,行业内信息化标准尚不完备,医疗信息化标准直接用于医疗大数据的数据治理和应用还有很长的一段路要走而基于标准化体系支撑的数据汇集、数据治理和应用,实现为每个人创建一份健康档案,确保获得完整和准确的医疗健康记录,支持最佳的医疗服务、医疗协同和数据应用已经是迫在眉睫的需求。
因此近几年各医疗大数据公司和机构都在置重金构建适合自己应用的标准体系,以提高数据质量,支撑自身不同数据应用和服务联仁健康医学信息标准建设规划联仁健康作为健康医疗大数据的国家队,目标是围绕大数据资源优势,构建产业价值链开放体系,快速形成国内健康医疗大数据产业汇聚高地,成为国内最大的健康医疗数字化服务运营商。
而面对健康医疗大数据的数据现状,公司在搭建“一湖三台”产品架构和打造健康医疗大数据、互联网医疗健康、健康医疗产业园三大板块,布局多种医疗大数据和互联网业务的同时,已经开始积极规划和投入构建规范化数据标准和医学知识库体系,它是平台数据汇聚、治理、共享和应用的核心支柱——“数据指挥中枢”。
联仁健康数据标准和医学知识库体系依托于国家标准、行业标准和政府发布的资源目录标准等,形成资源目录“基础级”数据标准,用于数据采集和整合(包括电子病历和健康档案等);同时面向数据应用需求构建数据治理细分“应用级”数据标准(包括单病种、药物研发、核保理赔、健康管理等),以形成联仁企业级数据标准。
数据标准包括:数据集分类标准、数据集标准、数据元标准、数据元值域字典和医学术语集标准等同时构建基于医学专业知识、循证医学、真实世界数据的医学知识库和知识图谱目标是打造能支撑科研服务、人工智能、健康管理、互联网医疗等不同方向的规范化的数据标准和知识库体系,也希望未来在健康医疗大数据行业树立标杆,形成企业影响力。
参考文献:JEREMY G, MOHEBBI M H, PATEL R S, et al. Detecting Influenza Epidemics Using Search Engine Query Data[J]. Nature, 2008, 457(7232): 1012-1014.
BUTLER D. When Google got flu wrong[J]. Nature, 2013, 494(7436): 155-6.MAURICIO S, NSOESIE E O, MEKARU S R, et al. Using clinicians search query data to monitor influenza epidemics[J]. Clinical Infectious Diseases, 2014, 59 (10) : 1446-1450.
Pan Hong, Tao Jing. Concordance assessment of Watson for Oncology in breast cancer chemotherapy: first China experience[J]. Translational Cancer Research. 2019,8(2), 389-401.
王玉峰, 蔡文杰. IBM沃森成败[J]. 中国工业和信息化, 2020-02-15.中华人民共和国国家质量监督检验检疫总局、中国国家标准化管理委员会.数据管理能力成熟度评估模型.GB/T 36073-2018
宋磊. EMP在医院信息系统中的研究与构建[J]. 医学信息学杂志, 2016 (4): 63-65+82林进护. 基于HL7标准构建医院集成平台[J]. 中国数字医学, 2020 (4): 121-122+130
国家市场监督总局. 中国国家标准化管理委员会. 信息安全技术网络安全等级保护安全设计技术要求: GB/T 25070-2019[S]. 北京: 中国标准出版社, 2019:4作者简介:
联仁健康医学部 医学总监 朱华玲研究生毕业于军事医学科学院,曾就职于中国知网、好医生、易随诊、中电数据等医疗互联网科技公司,熟悉不同类型医疗数据和相关产品研发专注于数据治理、数据标准化建设,在医学术语标准化方向有7项专利。
免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186