从大数据到精准医疗还差点什么？

2015-11-10

字体大小：

随着国内精准医疗计划的开展，大数据作为精准医疗核心的重要组成，而十三·五精准医疗计划提出大数据的共享是非常重要一部分，一直关注大数据共享的 GCBI，本次专访了来自复旦大学的刘雷老师，刘雷老师是复旦大学生物医学研究院的博士生导师，同时是上海生物技术中心副主任，参与了多个 863 项目，着重生物医学信息学研究，在组学数据分析与挖掘，生物网络的构建与分析，生物医学大数据整合与挖掘，个性化医疗等方面做了大量工作并取得了一系列创新成果。

那么让我们看看刘老师是如何看待基因大数据共享的？

GCBI：我们都知道从 1 月份奥巴马政府提出精准医疗这一概念后，国内外都在如火如荼的紧跟这一计划，最近“FDA 为响应精准医疗建立基因大数据共享平台”这件事情又掀起了一番热潮，那么您是如何看待这件事情的？

刘雷：我认为 FDA 做的这件事情其实是可以认为是对 NCBI 的一个补充，因为 NCBI 其实是更多的是针对科研，与具体的疾病的治疗相关性比较低，而 FDA 未来更多的是是瞄准个性化用药，共享的数据会增加更多的遗传背景的信息。

GCBI：您认为基因数据的共享对于精准医疗的意义在哪里？

刘雷：是非常重要的，基因数据本身就应该共享，它是诊断和治疗的重要的依据，将其私有化是不合理的，举例来说，某些特殊突变在人群中的概率非常小，但是它对疾病有十分重要的影响，那么这样的数据共享出来以后对于其他人或该类人群的精准诊断和治疗有十分重要的指导作用，当然在数据共享的过程中我们也应该考虑到一些隐私保护相关的问题，保护数据来源的个体的私人信息。

GCBI：了解到您目前正在参与一个中国的生物大数据库的构建，并且也将是共享性的平台，那么您能否说一下您参与的这个项目的大概情况？

刘雷：目前正在参与的 863 项目，即“建立中国生物医学大数据库”项目，设置了十几个课题，第一个课题由复旦大学石乐明教授承担，课题的内容主要是制定共享数据的标准，比如组学数据，临床数据等，此外还有一个课题是专门建立组学大数据库，类似于中国的 NCBI，虽然目前还没有明确的要求让此类大数据应用到临床中去，但是如果是基于精准医疗计划下的课题，我认为一定会有临床应用性的要求。中国现阶段生物医学数据库的起点比较低，我们首先应该先把基础的数据库构建起来，建立全国统一的数据共享平台，在此基础上会不断的完善并最终将服务于精准医疗。目前该项目已经于今年启动并且计划3年内实现。

GCBI：您认为中国即将构建的基因数据共享体系与美国有不同之处？

刘雷：目前美国的基因数据共享的平台有很多比如 NCBI、TCGA 等，这些数据库建立的时间都比较早，尤其是NCBI，建于 80 年代，主要关注核酸，其信息相对繁多，TCGA 数据库作为作为癌症和肿瘤基因组图谱计划的产物，也是非常重要的基因大数据共享平台，目前中国缺少数据共享的平台，想要实现精准医疗，基因大数据的共享是必须的，而中国即将建立的数据共享体系会统一包含更多的组学数据，如基因组，蛋白组，代谢组，其中基因组学的数据我们将主要以高通量数据为主，另外在共享的形式上，我们会更加优化，考虑到目前科研的一些现状，共享数据过程中找到一些更好的平衡点，比如将数据出版，共享后的数据被引用也会有明确的引用来源，同时这也是对数据共享者的一种尊重。在精准医疗的大计划之下，我认为中国的数据共享体系将会比美国更加丰富，更加精准。

GCBI：那么在这个数据共享体系中应该由哪些人应该来共享数据，独立的科研工作者是否都可以参与进来？

刘雷：首先是项目内产生的数据，其次是单位机构，此外包括一些企业，如药企、临床监测公司产生的一些数据，当然也包括独立的科研工作者，只要数据符合制定的标准都是可以上传的。

GCBI：中国是基因数据最丰富的国家之一，基因数据的共享意味着将有大量的全基因组数据汇聚，这种情况的产生可能会让我们面临哪些问题呢？

刘雷：庞大的数据对硬件上的要求会更高，其次数据的传输对网络的要求也更高，而目前高速发展的云技术可以帮助我们来解决这一问题，让数据都存放在一个云平台上，使用者可以直接在云平台上分析数据，以减少反复Dowload 原始数据的次数。但是因为基因大数据的复杂又导致其整合与分析的难度，需要我们开发出更好的数据挖掘及整合的方法，更好的展现的形式，这是目前最有挑战性的。

GCBI：那么您觉得产学研结合开放市场，是否能够真正解决现在困境，让市场调节是否更好？

刘雷：有必要，解决这一难题肯定不是一个人一个团队能完成的，我们确实需要更多的人参与进来，群策群力，可能起的角色不一样，包括学校、企业，学校更偏向于理论基础研究，而企业更偏向于应用，如果学校的研究发现了更好的方法或者创新点的话，与企业结合或者碰撞形成真正的产品，将其推向市场，目前趋势也是如此。

GCBI：因为企业有用大量的资本和较强的 IT 技术，您觉得企业在数据共享中发挥什么样的推动作用？

刘雷：首先企业自身的资本和较强的 IT 技术能够推动更快的挖掘出大数据的更多价值同时依托于国家搭建的平台，利用国家研发的技术以及能力，一起为这个行业做贡献。

另外，企业在做的一些相关项目的数据也可以共享，由于其自身的保守性，原来的很多企业是不愿意共享数据的，但是目前的形式下，很多的企业慢慢也更加开放了，愿意把自己的数据拿出来共享，与研究机构合作，对其自身以及行业的发展都是有好处的，在大数据时代，更开放的态度，将会构建一个良性的生态圈。

GCBI：您认为数据共享最终的获益者是谁？如何获益？

刘雷：受益的点很多，可以说是整个产业界的。

首先是科研工作者，毋庸置疑,有更多的数据,结果的精准度更高，并且也会帮助其发现更多有用的研究信息，他们是最直接的受益者。

对企业：比如药企，利用政府，公益项目产出的数据，会更好的帮助其找到一些药物靶点，比如美国 Human Genome 的项目就让很多美国的企业获益很多，帮助其节省研发的经费，还可能获得比较稀缺的一些样本。

对于临床工作者，数据共享后的信息的转化会帮助其更好的为患者做出诊断，制定出合理的治疗方案。

最终受益的将会是患者，能够得到合理的治疗方案，获得更多治疗的药物。这也正是精准医疗的最终想要达到的目的。

GCBI：最后能否为我们描绘一下未来5年内中国基因数据共享服务发展的景象？

刘雷：由国家指导的从大数据到精准医疗项目，都在主导基因数据库的共享，那么属于中国的基因大数据将来会越来越多，最后将打造出专属于中国人群的基因数据库，比如目前在做的 56 个民族基因数据，对这些数据的整合，建立起对中国人群比较精准的遗传突变信息，对未来中国的精准医疗将是指导性的意义，并且未来将会基于这些数据建立起一个知识库，包含疾病的遗传突变信息，对应的用药信息，治疗手段，预后等整体的信息等，我觉得知识库是可以商业化的，因为这其中经过了人工脑力的转化，还有一些解读数据的比较方便的工具等。

题图来源：站酷海洛

编辑： wuch 来源：丁香园

联系我们

了解 GCBI：www.gcbi.com.cn

电话：400-600-4643

从大数据到精准医疗还差点什么？

联系我们

丁香园旗下网站

关于丁香园

官方链接