蛋白组学数据中，缺失值怎么补全？

juyue2010

2023-07-17

此用户已注销

2023-07-17

有帮助

在处理这个问题上出现了一些填充缺失值比较准确地方法，如K个最近邻的缺失值填充法（KNN）、有序的K个最近邻填充法（SKNN）和奇异值分解法（SVD）。

loveliufudan

2023-07-17

有帮助

在蛋白组学数据分析中对缺失值的处理方法主要有:

1. 删除法:直接删除有缺失值的整个蛋白。但会丢失信息。

2. 均值/中位数法:用所有样本该蛋白的均值或中位数填补缺失值。简单易行,但可能会引入偏差。

3. 近邻法:用表达模式相近的蛋白的表达数据来填补缺失值。需要找到合适的近邻蛋白。

4. 回归法:建立回归模型,根据其他蛋白丰度预测缺失蛋白的表达水平。需要确定预测模型。

5. 多重插补法:通过复杂的统计学插补算法预测缺失值。计算量大但准确度高。

6. 保守估计:如用全样本最小值或0来填补。反映检出限信息,但可能会偏差大。

通常优先考虑多重插补法,然后是近邻法、回归法等。单纯填平均值也可行但可能会引入误差。最后,删除法应该是下下策。

正确处理缺失值对结果质量至关重要。要结合数据特点选择合适方法。

土井挞克树

2023-07-17

有帮助

在不删除样本前提条件下，填充缺失值主要有三种类型方法：单值方法（single value）、全局结构方法（global structure）和局部相似方法（local similarity）。

具体可以用NAguideR进行操作

无忧采购轻松科研

提问

扫一扫

实验小助手

扫码领资料

反馈

TOP

打开小程序