首页 > 业内资讯 > 企业动态
姜还是老的辣!《Nature》为主成分分析正名
2018-10-24 16:20   来源: 上海吉凯基因化学技术有限公司  点击次数: 关键词: 吉凯基因 云平台 主成分分析
         开门见山,今天小编要和大家讨论一个统计分析界的老古董:主成分分析(PCA)。PCA?有!啥!用!很多看官对PCA都抱着很强烈的怀(bi)疑(shi)态度。然而就在前年,美国波士顿哈佛医学院的科学家们却合力把PCA送上了《Nature》的大舞台,小小的PCA也登上了自然科学的巅峰,此次省略获奖感言一万字……

         故事是这样开场的,20169月,《Nature》新发表了一篇关于人类迁移史的文章,大佬们通过分析来自142个不同种群的300个人的基因组序列,揭示了人类种群至少在20万年前就开始从非洲分离。他们宣称这个迁移时间比考古学现代行为研究得到的结果还要早一些,所以,这可以说是生物科技重新定义物种起源么?而这些分析方法中就包含了牛逼哄哄的PCA(见下图)。古语云:是金子总要发光的,PCA总算是拨云见日,为自己在统计分析界争得了一席之地。

AB分别表示tetranucleotideshomopolymers的主成分分析结果;图C表示人口关系的主成分分析结果。
 
        故事讲完了,那PCA到底是什么东东?对于没有统计学基础的看官来说,PCA基本就是玄学般的存在,有木有?! PCA简单来说就是有这么一种算法,能在最大程度保留原始数据所含信息的前提下,找出其中最主要的部分来代替原始数据进行分析,从而达到降维的目的。

        PCA能做什么呢?小计谋有大用处。对于我们苦逼的科研狗来说,靠谱的实验数据就是绳命啊,直接决定了我们是不是能挖掘到闪亮又靠谱的发现,继而突破导师审稿人editor的重重围堵,发文章写论文顺利毕业,找份好工作迎娶白富美登上人生巅峰!这个时候,不妨祭出简单好用的PCAPCA作为一种常见的质控方法,可以用来辅助检验原始样本的平行性和差异度&实验数据的可靠性。比如下图,同一组内的样本应该相对集中,并与其它组的数据聚集区域分开,这就表明,恭喜你,样本不错,实验不错,数据也不错。

 
        实验每次都会这么成功吗?真是图样图森破。很多时候你看到的都是下面这样的图:实验组和对照组如胶似漆傻傻分不开(下图左);实验组或对照组中某一个样本去别处撒欢儿了(下图左和右红框)。遇到这种情况,就需要综合考量样本情况、实验情况和其他质控结果,综合评估是否重新实验或是剔除偏离样本了。

 
        PCA这么牛,到底肿么搞?方法有很多啊,比如常用的统计分析软件SPSS。在SPSS中,主成分分析就是因子分析,教程不赘述,度娘有好多。可是,SPSS要钱啊,难操作啊!操作简单还不要钱的工具,比如吉凯基因云平台Gene Matrix,这样的好物请给我来一打!打开Gene Matrix应用市场,找到主成分分析,提交数据à修改参数àPCA分析完成啦!简单不简单?!惊喜不惊喜?!
   扫码注册,更多惊喜等着你!

惊喜一:成功注册即可获赠1000积分(积分干啥用?找我们做分析抵100软妹币,无门槛儿!)
惊喜二:即日起至20181126,花钱的分析统统折上再
7折!然后还可以用积分抵扣软妹币!
惊喜三:邀请师兄师姐师弟师妹七大姑八大姨注册,每邀一个送
100分!




 
References
[1] S Mallick, H Li, M Lipson, et al. The Simons Genome Diversity Project: 300 genomes from 142 diverse populations. Nature, 2016, 538(7624): 201-206.
 

点击查看详情 >>

 

版权声明

本网站所有注明“来源:丁香园”的文字、图片和音视频资料,版权均属于丁香园所有,非经授权,任何媒体、网站或个人不得转载,授权转载时须注明“来源:丁香园”。本网所有转载文章系出于传递更多信息之目的,且明确注明来源和作者,不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。

评论

发表评论评论 ()

本周

本月

总排行

生物学霸
帮助你升级成为学霸。
查看