大数医达林玥煜：在中文医学NLP上，我们有哪些(3) -医学信息杂志社投稿

通知公告

综合新闻

期刊导读

大数医达林玥煜：在中文医学NLP上，我们有哪些(3)

来源：医学信息 【在线投稿】栏目：综合新闻时间：2020-09-09

例如，一名年轻患者头晕三天，各种生命体征都正常，医生却给出脑梗诊断。这个诊断就是有问题的，可能血压偏高、呼吸偏快的症状没有写，或者诊断错误。

发现病历问题后，在质控更改上，大数医达还会利用专业医生的方式优化对口病历。

例如，有些医生可能对泌尿科特别有经验，有些医生则可能对神经内科有经验，在读懂病的情况下，可以把相关病历分配给最合适的医生，提升病历质控质量。

这些病历修改和调整的步骤，都会在病历归档之前完成，保证医疗病历归档质量，尽量减少医院管理风险。

除了医院管理，大数医达的人工智能应用，还可以帮助临床医生做一些辅助工作。看待这个问题之前，首先要找准应用场景，究竟是需要落地到三甲医院，还是基层医疗机构。

大数医达认为，三甲医院医生处于整个医疗机构的金字塔尖，他们更多地是需要处理疑难杂症。

而基层医疗医生，因为缺乏足够医疗知识，往往只会看几种病，我们希望训练出来的人工智能模型和应用，能够帮助基层医生看更多的病、服务更多患者。

所以，大数医达把AI辅助诊断助手下放到基层，把患者的常见病处理方式给到基层医生，最终把基层医生培养成三甲医院的水平。基层医生除了平时只服务小病患者，也可以鉴别患者是不是疑难杂症，是否需要大医生处理，需要到什么样的三甲医院、让疑难杂症的病人得到更好的处置。

目前在基层，已经出现比较好的应用实践路径，至于打通三甲还在努力过程中。

中文医学NLP技术拆解

大数医达不仅仅是复制医生知识，解决常见大小疾病，也希望提高整体的医疗效率。

目前来看，提高医疗效率的有效方法，就是无监督预训练模型。从这边GPT1、GPT2，到BERT、RoBERTa，再到ALBERT，这些模型都能够节约大量人工标注工作。

医学文本被认为是一种特定语言，包含特定语法。所以，医学文本人工标注就需要专门医生、医学团队设计标注流程，提取内容计划，根据不同应用场景设计标注内容。

目前，大数医达已经有一套机制，让机器辅助标注最后几个迭代环节。整个过程中，医生只需要进行少量修改，就可以让标注质量、效率都会有指数级提升。

此外，大数医达的无监督预训练模型还会根据医学常识，对医学词汇进行自我发现，提取高频词做倒排序，让医生判断含义。

例如，头痛跟头疼，正规写法是头痛，但头部疼痛也没有问题，头部隐痛也是头痛，这就是在医学词汇归一中发现的。

接下来，我会介绍病历结构化处理的流程。

首先，我们先让医生制定合理结构化提取标准，例如体格检查里面的检查部位、检查结果、检查方位，这是自然语言理解特定领域的首要过程，未来从数据依存关系把文字变成树形结构。

标注完成之后，标注数据也可以运用到真实病历里，形成树形结构的依存关系分析图谱。

这个过程主要是应用于自动标注，当标注任务比较困难，就可以在医生标注一二百份之后，机器学习自动标注后面几千份数据，最终让整个模型标注效率提升。

不管机器自动评估还是人工评估，都需要对医院全量数据进行结构化，得到全量结构化术语语法，例如检查部位，胸部、腹部、腿部，指部等词语就需统一。

这一整套标注工作下来，我们经常发现三甲医院的病历质量比较高，主要是因为三甲医院医生不会乱用词语和术语。在全院历年上百万病历数据结构化归一之后，高频出现超过100次以上的词语，只有一两千个，而高频词出现次数加起来就已经超过99.99%。

这是标注平台截图，自动标注跟人工标注结合，并从中提取其他症状，这种其他症状代表非常复杂的医学术语体系。

病历完成结构化之后，接下来就是应用。

对于患者的应用，可以把患者基本信息、病历症状拿出来训练AI模型，这样医生就可以通过手机问诊模型选择患者基本信息加症状，不需要任何额外检查就能够获得数据。

症状代表着什么？同样都是头痛，一个是前额头痛，一个是太阳穴头痛，一个是头部隐痛，还有头部胀痛，这些症状含义完全不一样。