大数医达林玥煜：在中文医学NLP上，我们有哪些(4) -医学信息杂志社投稿

通知公告

综合新闻

期刊导读

大数医达林玥煜：在中文医学NLP上，我们有哪些(4)

来源：医学信息 【在线投稿】栏目：综合新闻时间：2020-09-09

所以，我们就需要把每一个症状类别、每个点类别进行区分，变成非常稀疏的矩阵，每一个点可能包括上百万个组合，如此稀疏的信息密度在实际训练模型会非常困难。

为此，大数医达尝试用序列做模拟，症状用树形结构表示，树形结构可以直接把自然语言变成一个有层次结构的字符串。

这种方式最大好处就是容忍输入长短不一样，但还存在一个问题：字符串本身是有序的，第一个症状跟第二个症状存在顺序关系，但实际患者症状的时间属性是无序的，所以序列仅仅能够解决患者症状长短的问题，没有办法解决顺序问题。

为了解决顺序问题，大数医达选择了图模型解决，图模型最大的特点就是天然、无序，表示患者所有临床表现是最正确、最贴切的应用。

首先，大数医达把所有患者症状用图描述做一些优化，按照统一、自洽规则，把实体作为一个大节点优先提取出来，两个子节点分别代表疼痛和眩晕。这样一来，疼痛跟眩晕就不会跟其他节点发生联系，图学习效率也会更高。

一些没有特别顺序的单数节点病历，也可以把所有阳性节点互相关联。把总节点关联到所有阳性症状、阳性体格检查、阳性化验检查结果。

除了阳性节点，还有阴性节点，图模型可以把所有阴性症状关联起来，学到哪一种症状都能推导出诊断和排除问题。

把患者临床表现以图形式建模之后，还有其他的工作。

首先，把所有画面图拿去训练深层次图模型，深层图模型就是给一部分残缺图提示，按照提示进行补充。整个过程最重要的应用场景就是医生问诊。医生可以通过模拟片段，知道更多信息，补充整个全局，整个图模型也会学习医生补充的步骤。

图生成模型的方式包含很多种，大数医达应用的是auto encoder，学习图自编码，不断完善图如何生成。

当图是完整的，模型就可以给出一些推断。例如患什么疾病。另外一种是诊断之后的治疗，这些都是图构建完之后，根据不同目标、不同应用训练生成的。

例如，医生判断这个患者就是普通感冒，在收集症状之后，如果还没有做过化验检查，就会给出一个判断，是不是感染某种肺炎，或者其他流行病，给出医生这是一个流行病病例的预警。

而在高血压病人场景中。在做一系列化验检查时，如果错过某些细节，模型就可以自动提醒，例如开药，不要漏掉某些诊断或处置。

最后阐述一下，我们选择图模型的初衷。

图模型虽然是一个很难路径，但却可以很好融合医学临床表现本质，在decoder层设计不同目标，追问症状体征，模拟医生问诊，并根据当前状况，推荐下一步的化验检查流程，给出诊断建议或治疗方案。

【来源：雷锋网】

声明：转载此文是出于传递更多信息之目的。若有来源标注错误或侵犯了您的合法权益，请作者持权属证明与本网联系，我们将及时更正、删除，谢谢。