让我们换种思维写论文 2

2016-11-28 17:17 来源:未知

  Renee 蒲公英 蒲公英健康联盟

  “大数据”这个词其实并不新鲜,早在1980年代,美国就有人提出了“大数据”的概念。30多年来,各个领域的数据都在迅猛增长。数据的激增意味着人类的记录范围、测量范围和分析范围在不断扩大,知识的边界在不断延伸。新的时代赋予大数据的定义是指那些大小已经超出了传统意义上的尺度,一般的软件工具难以捕捉、存储、管理和分析的数据。

  享誉世界的美国统计学家爱德华·戴明有一句名言“除了上帝,任何人都必须用数据说话。”在美国,数据被视为科学的度量、知识的来源;没有数据,无论是学术研究,还是政策制定都寸步难行。记得在香港大学做动物实验的时候,每次给猪做了有创的操作都得给猪打针,那是个极其痛苦的差事。于是就去跟主管实验猪的兽医商量,能不能用口服药替代注射用药。兽医想都不想就问我,这种替代有数据支持么?我不得不惊叹于数据作为科学的度量在受西方文化影响深刻的香港是多么根植于心。

  开篇的时候就讲过,科研应该理解为基于思维训练的数字游戏。前一部分我们讲了思维在科研工作中的灵魂地位,但是数字是所有伟大思想实现的载体,这一部分我们跟大家分享一下在这个大数据的时代,如何玩好这个数字游戏,让空洞的数据真正服务于思想。

  科学不仅仅诞生于实验也来源于数据,这是又一个理念的调整。

  我在中山医读硕士的时候,先是上了半年的理论课,基本上是像统计学这一类实验研究可能用到的一些工具型学科。理论课结束后开始筹备试验,导师先给了一个大方向,接下来的任务就是大量的查阅国内外文献了解国内外的研究现状,在此基础上自己选题并且进行试验设计,开题之后大约需要一年半左右的时间完成试验,试验结束后进行数据处理,完成毕业论文和发表任务后拿到硕士学位并且顺利毕业。我想这也是中国大陆绝大多数医学类研究生的成长路径吧。我自己特别感恩我的硕士导师和硕士经历。在我的硕士阶段,我的导师给了我极大的可发挥空间,从来不去否认或者限制我的思想。我能想到的,他都尽他所能帮我一起去实现。到今天我都觉得那个阶段训练的多角度的、周全的、严谨的思维方式是自己创业,建设蒲公英的依托。

  到了香港大学后,刚见面教授就给了我两个数据库,分析这两个数据库就是我的第一个任务。说真的,我当时失落极了。一直以来我理解的科学研究流程都是“提出论点-设计实验-进行实验-用结果证明论点”。分析两个没头没脑的数据库算个什么鬼?就是比拼一下统计功力,玩儿个数字游戏,没有任何创造或者革新,也能叫科研,也能培养博士?我很不情愿的开始了这个任务,用了所有会的统计方法做数据分析,觉得特别没趣,这跟我所理解的科研路径差异太大了。后来跟师兄师姐交流才将信将疑的对这种以分析和寻找数据规律为核心的研究模式有了一些粗浅的认识。我开始查询和补充数据库中所有缺失的项目,查阅与数据库主题相关的研究文献寻找突破点,在做完所有前期铺垫工作的基础上,运用统计方法试图寻找数据规律和数据间存在的联系。在反复实践的过程中,我渐渐的找到了一些趣味性,当最后从一堆杂乱无章的数据中找到了规律,并且这个规律可以解释某一种临床现象的时候我简直有点雀跃了。在这个从不情愿到最后欢欣雀跃的过程中我亲身经历了一个粗浅的从数据搜集到数据挖掘再到寻找数据关系解释临床问题过程。我不禁感慨数据的奇妙,这些记录下来的数据完全不需要诸如“随机”之类的试验设计方法,数据本身就客观的记录了每个病例在各个阶段的进程和转归,对数据的研究可以说是最客观的最具说服力的研究。

  所以研究并不仅仅是在实验室,只要有数据,又能保持一颗探索世界之真理的好奇心和孜孜不倦的精神,研究就可以无处不在。特别对于临床医生而言,要想从临床抽身去实验室根本不现实,要想立项做一个像样的临床试验其实也有非常多的壁垒,其实最有效的就是对于现存的大量的临床数据通过建立数据模型等等多种途径进行数据分析,寻找数据规律,解释临床现象,为解决诊断治疗中的困惑提供新的支持和依据。

  


  医生才是医学大数据时代的主体

  麻省理工学院的教授布伦乔尔森曾比喻说,大数据的影响,就像4个世纪之前人类发明的显微镜一样。显微镜把人类对自然界的观察与测量水平推进到了“细胞”的级别,给人类社会带来了历史性的进步和革命。而大数据将成为我们下一个观察人类自身社会行为的“显微镜”和监测大自然的“仪表盘”。这个新的显微镜,将再一次扩大人类科学的范围,推动人类知识的增长,引领新的经济繁荣。麦肯锡全球研究所在其2011年的报告中最后概述说:大数据,将成为全世界下一个创新、竞争和生产率提高的前沿。大数据的价值正在被越来越多的国家政府和各行各业发现并引起极大的重视。我们身处这个大数据的时代,是机遇也是挑战。

  中国是全世界第二大的人口大国,中国的三级医院大多人满为患,中国的医院每天产生不可计量的数据量,但是遗憾的是中国医院的数字化程度低的惊人,海量的数据因为缺失项太多而变得无效,在这个得数据者得天下的时代,这是一种不可估量的损失。再以我在香港大学的第一个任务两个数据库为例,其实因为香港的公立医院就诊人数很少,我拿到的这两个数据库单个的病例样本非常有限,差不多就500例,但是这500个病人的病例资料我可以在医院系统中查到病人从出生到死亡的全部材料,所以虽然数据录入的工作非常枯燥但是我还是可以耐着性子补齐这些数据库中的病例的全部资料。如果单独计量某一项检查累计的病例量,中国大陆随便一家三甲医院都可以轻而易举有个几千甚至上万,但是这些数据没有完整的病人基础资料,没有定期的随访,其它相关的检查数据也是零散的,也就是常常说的数据量大但是数据质量不高。这部分讲医生是医学大数据时代的主体,首要的最基本的职能是要科学的有前瞻性的建立健全有质量的完整的数据库。在这里软件工程师和数据分析师可以给予临床医生极大的支持。

  大数据之“大”是指那些大小已经超出了传统意义上的尺度,一般的软件工具难以捕捉、存储、管理和分析的数据。这些海量的数据间存在着千丝万缕的联系。记得硕士时候统计老师总是讲如何诠释统计结果的价值还是要回归到临床,回归到统计事件中去,才能解释内涵。其实大数据也是这一个道理,全世界的软件工程师和数据分析师可以帮助医生更便捷的搜集到各种临床数据,可以建立五花八门的数据模型,但是所有这一切都是希望服务于临床的需求的,也就是说还是需要医生来寻找和提出临床的需求,再根据有临床意义的临床需求到数据中去寻求答案,并最后到临床中去检验和应用。大数据离不开医生,医生依然是这个大数据时代的主体。

  最后一部分内容很快会与大家见面哦。

关键词:

分享到:
至顶 反馈 至底