现在的位置:主页 > 综合新闻 >

汤森路透如何玩转生物医学大数据?

来源:医学信息 【在线投稿】 栏目:综合新闻 时间:2020-08-18

【作者】:网站采编
【关键词】:
【摘要】:作者:朱成 汤森路透(Thomson Reuters)于2008年4月17日成立,是由加拿大汤姆森公司(Thomson Corporation)与英国路透集团(Reuters Group)合并组成,总部设在美国纽约。 提起汤森路透,很多人第一反应

作者:朱成

汤森路透(Thomson Reuters)于2008年4月17日成立,是由加拿大汤姆森公司(Thomson Corporation)与英国路透集团(Reuters Group)合并组成,总部设在美国纽约。

提起汤森路透,很多人第一反应是这是一家信息和媒体公司, 大多是由于其旗下大名鼎鼎的的路透社所致。汤森路透的业务主要集中在金融、法律、税务、会计、知识产权与科技等领域。对于它在科技领域的影响,可能最著名的就是每年它会搞个论文引用率影响力之类的排行榜了。每年汤森路透都会利用其Web of Knowledge中的数据来分析和预测最有影响力的研究人员,根据其发表的研究成果的总被引频次来预测将来的诺贝尔奖得主。对于目前火热的生物医学信息,你可能会很好奇,这家搞情报和新闻媒体的公司也会提供这方面的情报和分析服务吗?实际上,汤森路透在生物医学大数据方面早已经是一个顶级的玩家。它利用其在情报信息领域的优势,发展出了一套独特而又强大,且种类丰富的信息平台和分析管线。不同的信息产品涵盖了从基因到药物几乎整个下游的信息和分析服务,为客户的研发决策提供情报分析和理论依据。到目前,汤森路透以近乎垄断的地位,已经成为各大制药公司研发中心的主要信息提供商。

汤森路透作为一家媒体和信息服务起家的公司,一不做基础实验,二不给病人看病,却能获得跟各大制药厂商的合作资格,是什么让它在这方面做得如此出色呢?笔者认为这源于它在情报和信息方面的优势。汤森路透将人类已有的知识进行收集和总结,然后反过来应用到科研医疗和制药研发上来。这便是成功地将生物医学界的学术知识应用到工业界开发上的例子,即转化医学的典型代表。以下让我们来看看它是如何成为转化医学大数据的专业玩家和领先者的。

首先笔者认为,一个好的生物信息和大数据公司,必须要做好两点:一是具有专业的大数据基础和平台,这包括有足够多且有效的情报和数据来源,并且能够应对各类数据的采集、整合、标准化以及质量保证。此外还涉及到大数据库平台的架构设计、数据查询和可视化产品的开发等诸多挑战。另外一个便是要有足够完善的数据分析和解决方案。例如经典的数据挖掘,机器学习等算法,并且能够供给客户方便使用(图1)。

图1. 好的大数据平台包括各种高质量的数据来源,高质量的整合以及经典的数据分析方法

对于前者,很多公司采用对跟医院或研究机构合作获得数据,或者直接对用户进行采集完成,如Foundation Medicine公司,23andme公司和苹果公司等等。不同于这些数据来源模式,汤森路透对于各类大数据的收集和累积,一般并不直接从实验或病人身上采集获得。正所谓专业的人做专业的事,汤森路透有其自身独特的优势,它的数据来源于其传统深厚的信息和情报积淀。例如,汤森路透建立了一个极其强大的情报网络和信息来源渠道。除了各类新闻媒体外,它还是各个文献数据库,知识产权局,专利局的合作者。因此它能获得各种文档和情报的第一手资料。这些资料除了各种科技文献,还包括药物报告,临床试验报告,专利报告,新闻报告,会议报告等。当然有了这些原始文档之后还远远不够,还必须把文档中有用的信息提取出来整合到数据库中。这是个比较耗费精力和资源的工作,没有太多的捷径可走。

对于这个挑战汤森路透做了很多有意义的工作。一方面,汤森路透邀请一批专业的有生物和医学背景人士进行文档的研读,比如文献中提到的基因、蛋白、疾病和药物的关系,这批科学家会利用他们的专业的背景判断文献中所表达的含义,比如X药物能治疗Y,基因A能影响基因B的表达等,经过确认后把这些知识录入到数据库,从而保证数据的可靠性。另外一方面,汤森路透也使用自然语言处理技术来从文档中提取信息。如此便可以加速文档知识的录入,从海量的文档中快速提取到大量的有用知识。当然用人工智能处理出来的数据会有其局限性,对于不同的处理方法来源的数据,汤森路透会标注其可靠程度,以供研究者自行选择使用。

汤森路透为什么要通过这种方法建立起这样的大数据库呢?笔者以为,现在的生物医学的研究已经进入一个矛盾和瓶颈状态,虽然现在每30秒钟就有一篇新论文发表,但总体在转化医学和新治疗方法的进展上还是很缓慢,一部分原因是由于很多文章都是集中在某几个基因或某一两个疾病的研究,如此便形成了一个个知识的孤岛,并不能对生物系统的研究构建一个总体画面,以至于一些有效的知识迟迟得不到发现。然而生物体是如此复杂,很多疾病机制和治疗手段实际上不是孤立的,它们之间存在千丝万缕的关系。两个看似毫不相关的东西很可能就通过某种方式联系着,如果发现这种联系,就会产生质的飞跃,为治疗疾病发展新药提供新思路(图2)。例如,若不是某位生物信息分析师不辞辛劳花费大量时间搜索看上去并不相关的海量技术文献,研究人员或许永远不会去测试鱼油能缓解一种循环系统疾病--雷诺综合征的可能性。

文章来源:《医学信息》 网址: http://www.yxxxbjb.cn/zonghexinwen/2020/0818/592.html

上一篇:国家医学考试2020年中西医执业医师综合笔试违
下一篇:颜鉴医疗科技集团受邀出席美沃斯国际医学美容