如果一个给定序列出现的频率或者我们感兴趣的被编码的特性都没有任何偏差,则称为等概率情形。在这种情形的库选择中,如果我们感兴趣的性质是独立于其他参数的,或者对其他参数的影响可以忽略,我们考虑其为等概率的。如果考虑密码子具有偏好性或简并性,或者结果会影响到整个系统,则为非等概率情形。一个结果影响 整个系统的例子如下:当在体内筛选酶 X 的高催化活性时,增加的产物会对整个系统有毒性,产生对检测酶催化活性的不良反应。这样的参数一般来说过去复杂而不用系统地说明。然而我们可以考虑利用偏好性密码子,其中氨基酸的出现是非等概率事件,其他参数尽管也是非等概率的,但是可以被量化。
3.1.1 等概率情形
这是最简单的情形,其中所有结果都可以被考虑成等概率事件:对库中的成员进行取样后,所有 n 个变量都有同样的机会被选中,即 Pi =1/n。
注意,缺失变量数目的期望值不必是整数;这里缺失变量数目的期望值为 45~46 个(整体理论变量数目为 1 X 106 个)。
如果我们从 n = 1 X 106 个理论变量库中取样 m = 2 X 107 次,则 λ = 0.00206。这样,缺失变量的期望值为 0 或 1 个,且更加接近于 0。事实上,在这个例子中,0 或 1 个变量缺失的概率是仅有的非小概率事件,0 缺失更加可能(> 99%,见 3.1.1 问题 B 中的计算)。
我们给出出现非等同概率事件的一个例子,即 n 个变量中的一些变量会比平均情况更多或更少的机会出现。如 3.1 节开头所述,很难得出非等同概率事件的普遍规律,因为答案取决于具体概率是什么。我们这里提供的例子中给出一些简明的计算,同时也提示了可能遇到的困难。
在没有选择压力时,非等同概率事件可以在有偏好的 DNA 库中出现,这种库偏好性可以是设计的也可以是意外产生的。例如,在寡核苷酸引物合成过程中出现的意外偏差。这样的偏差可以在随机取样 DNA 库测序后发现。如果我们用编码蛋白质序列而不是 DNA 序列来定义理论库,那么非等同概率依然会出现。例如;当 “ NNN ”型密码子编码时,将会出现 6 个编码亮氨酸的每一个密码子出现的概率与唯一编码甲硫氨酸密码子出现的概率相等,因此在同一位点得到含有亮氨酸的蛋白质的概率将是得到含有甲硫氨酸的蛋白质概率的 6 倍。