juyue2010
此用户已注销
在处理这个问题上出现了一些填充缺失值比较准确地方法,如K个最近邻的缺失值填充法(KNN)、有序的K个最近邻填充法(SKNN)和奇异值分解法(SVD)。
loveliufudan
在蛋白组学数据分析中对缺失值的处理方法主要有:
1. 删除法:直接删除有缺失值的整个蛋白。但会丢失信息。
2. 均值/中位数法:用所有样本该蛋白的均值或中位数填补缺失值。简单易行,但可能会引入偏差。
3. 近邻法:用表达模式相近的蛋白的表达数据来填补缺失值。需要找到合适的近邻蛋白。
4. 回归法:建立回归模型,根据其他蛋白丰度预测缺失蛋白的表达水平。需要确定预测模型。
5. 多重插补法:通过复杂的统计学插补算法预测缺失值。计算量大但准确度高。
6. 保守估计:如用全样本最小值或0来填补。反映检出限信息,但可能会偏差大。
通常优先考虑多重插补法,然后是近邻法、回归法等。单纯填平均值也可行但可能会引入误差。最后,删除法 应该是下下策。
正确处理缺失值对结果质量至关重要。要结合数据特点选择合适方法。
土井挞克树
在不删除样本前提条件下,填充缺失值主要有三种类型方法:单值方法(single value)、全局结构方法(global structure)和局部相似方法(local similarity)。
具体可以用NAguideR进行操作