从 GCSAS 发布看基因数据如何帮助科技转化
时隔 13 个月 GCBI 在南京「国际体外诊断产业高峰论坛」上发布了最新 GCSAS—人类全基因数据实时分析平台。发布会上 GCBI 为用户们带来了全基因数据处理解决方案和基于基因大数据背后的科学转化模式。
云技术加快数据分析
作为现阶段 GCBI 打磨最长的一款产品,GCSAS 采用了目前亚马逊 EMR 服务 C3、C4 系列顶配-8xlarge。在传统的全基因组测序分析上最耗时间的两个点出现在数据输入和 Mapping 的这两个步骤,这两个步骤基本上用去了研究人员最长的时间,多则需要好几天。GCSAS 将 fastq 文件作为输入的原始文件,将该文件分成若干个只有十几 MB 到几十 MB 的文件,同时对 Refgenome 也进行了相应的分割,这样在数据输入的时候就有了非常明显的速度提升,同时 mapping 的数据量也会相应的减少了许多;同样在 Mapping 的过程中,传统业务最多并发 50 多个任务量,GCSAS 采用 Hadoop 集群技术,任务并发数量较传统业务在性能上增加了 10 倍之多,并把传统按天计算的时间变成按分钟计算,大大缩减了时间成本,同时还并行计算了 SNP/indel,SV/CNV,而就这个过程从几天迅速缩减到 30 分钟左右。其次,对于一次性比对 16 个数据库,比对超过 1.4 亿行这么大的数据量,GCSAS 利用分布式缓存技术也只需要短短的几分钟时间就可以完全搞定。
构建生态圈帮助科技成果转化
此次发布会 GCBI 还为广大的临床工作者和医学科研工作者带来一个好消息,GCBI 宣布 GCSAS 产品将在 2016 年 3 月 28 日全面上线,届时面向所有需要用到全基因组数据分析的临床医生、科研学着和产业同行免费开放。此外,基于 GCSAS 产品还将在 GCBI 平台上为用户打造个性化医疗完整的生态圈,用户利用 GCBI 提供的带有随访信息、病理信息、药物等信息的数据,使用 GCSAS 进行分子诊断研究、分子分型研究、个性化用药、预后判断等研究,从而推动个性化医疗的进程。同时临床用户可以通过 GCBI 有效、规范、合法的机制向科研用户提供更多有价值的临床数据,通过合理、合法的利益分配制度保障科技成果转化、促进科技成果转化。
截止到目前 GCBI 已经拥有 8 100 位实名注册用户,4 500 个在线实验室,7 500 套数据分析方案同时执行了 30 000 多次,而 GCBI 网站本身也累计 100 万的浏览量。
点击链接查看 发布会现场视频>>