现在的位置:主页 > 综合新闻 >

大数医达林玥煜:在中文医学NLP上,我们有哪些(3)

来源:医学信息 【在线投稿】 栏目:综合新闻 时间:2020-09-09

【作者】:网站采编
【关键词】:
【摘要】:例如,一名年轻患者头晕三天,各种生命体征都正常,医生却给出脑梗诊断。这个诊断就是有问题的,可能血压偏高、呼吸偏快的症状没有写,或者诊断错

例如,一名年轻患者头晕三天,各种生命体征都正常,医生却给出脑梗诊断。这个诊断就是有问题的,可能血压偏高、呼吸偏快的症状没有写,或者诊断错误。

发现病历问题后,在质控更改上,大数医达还会利用专业医生的方式优化对口病历。

例如,有些医生可能对泌尿科特别有经验,有些医生则可能对神经内科有经验,在读懂病的情况下,可以把相关病历分配给最合适的医生,提升病历质控质量。

这些病历修改和调整的步骤,都会在病历归档之前完成,保证医疗病历归档质量,尽量减少医院管理风险。

除了医院管理,大数医达的人工智能应用,还可以帮助临床医生做一些辅助工作。看待这个问题之前,首先要找准应用场景,究竟是需要落地到三甲医院,还是基层医疗机构。

大数医达认为,三甲医院医生处于整个医疗机构的金字塔尖,他们更多地是需要处理疑难杂症。

而基层医疗医生,因为缺乏足够医疗知识,往往只会看几种病,我们希望训练出来的人工智能模型和应用,能够帮助基层医生看更多的病、服务更多患者。

所以,大数医达把AI辅助诊断助手下放到基层,把患者的常见病处理方式给到基层医生,最终把基层医生培养成三甲医院的水平。基层医生除了平时只服务小病患者,也可以鉴别患者是不是疑难杂症,是否需要大医生处理,需要到什么样的三甲医院、让疑难杂症的病人得到更好的处置。

目前在基层,已经出现比较好的应用实践路径,至于打通三甲还在努力过程中。

中文医学NLP技术拆解

大数医达不仅仅是复制医生知识,解决常见大小疾病,也希望提高整体的医疗效率。

目前来看,提高医疗效率的有效方法,就是无监督预训练模型。从这边GPT1、GPT2,到BERT、RoBERTa,再到ALBERT,这些模型都能够节约大量人工标注工作。

医学文本被认为是一种特定语言,包含特定语法。所以,医学文本人工标注就需要专门医生、医学团队设计标注流程,提取内容计划,根据不同应用场景设计标注内容。

目前,大数医达已经有一套机制,让机器辅助标注最后几个迭代环节。整个过程中,医生只需要进行少量修改,就可以让标注质量、效率都会有指数级提升。

此外,大数医达的无监督预训练模型还会根据医学常识,对医学词汇进行自我发现,提取高频词做倒排序,让医生判断含义。

例如,头痛跟头疼,正规写法是头痛,但头部疼痛也没有问题,头部隐痛也是头痛,这就是在医学词汇归一中发现的。

接下来,我会介绍病历结构化处理的流程。

首先,我们先让医生制定合理结构化提取标准,例如体格检查里面的检查部位、检查结果、检查方位,这是自然语言理解特定领域的首要过程,未来从数据依存关系把文字变成树形结构。

标注完成之后,标注数据也可以运用到真实病历里,形成树形结构的依存关系分析图谱。

这个过程主要是应用于自动标注,当标注任务比较困难,就可以在医生标注一二百份之后,机器学习自动标注后面几千份数据,最终让整个模型标注效率提升。

不管机器自动评估还是人工评估,都需要对医院全量数据进行结构化,得到全量结构化术语语法,例如检查部位,胸部、腹部、腿部,指部等词语就需统一。

这一整套标注工作下来,我们经常发现三甲医院的病历质量比较高,主要是因为三甲医院医生不会乱用词语和术语。在全院历年上百万病历数据结构化归一之后,高频出现超过100次以上的词语,只有一两千个,而高频词出现次数加起来就已经超过99.99%。

这是标注平台截图,自动标注跟人工标注结合,并从中提取其他症状,这种其他症状代表非常复杂的医学术语体系。

病历完成结构化之后,接下来就是应用。

对于患者的应用,可以把患者基本信息、病历症状拿出来训练AI模型,这样医生就可以通过手机问诊模型选择患者基本信息加症状,不需要任何额外检查就能够获得数据。

症状代表着什么?同样都是头痛,一个是前额头痛,一个是太阳穴头痛,一个是头部隐痛,还有头部胀痛,这些症状含义完全不一样。

文章来源:《医学信息》 网址: http://www.yxxxbjb.cn/zonghexinwen/2020/0909/702.html

上一篇:致力睡眠疾病防控 “广东省预防医学会睡眠障碍
下一篇:开封市妇产医院与郑大一附院精准医学实验室合

医学信息投稿 | 医学信息编辑部| 医学信息版面费 | 医学信息论文发表 | 医学信息最新目录
Copyright © 2018 《医学信息》杂志社 版权所有
投稿电话: 投稿邮箱: