Rationnel de base:
Si N = reads passant sur la jonction TA du MAC + les reads portant l'IES :
A priori: Simple, efficace, pas cher.
= Comparaison de proportion: théorique \(p\) VS observée \(p_0\)
$$ H_0 : p = p_0 $$
$$ H_1 : p > p_0 $$ (unilatérale droite)
$$ pvalue = P(p_0 | H_0) $$
Faisable uniquement si:
$$ N \geq 30,\ N\cdotp_0\geq5\ et\ N(1-p_0)\geq5 $$
Très souvent faux pour nous
Option 1 : Approximation loi normale.
Option 2 : Test exact de Fisher
$$ pvalue \leq 5\% \iff Retention \geq 0.00848 $$
La molécule avec le score de rétention le plus élevé pour laquelle \(H_0\) n'est pas rejetée pour \( \alpha = 5\% \) :
Reads MAC : 70
Reads IES+ : 2
\(p_0= 0.02857... \)
\( Retention = \frac{2}{72} = 0.27..7 \)
> Si on se base hâtivement sur le test, on considérera que ça vient physiquement du MIC
Reads MAC : 70
Reads IES+ : 2
\(p_0= 0.02857... \)
\( Retention = \frac{2}{72} = 0.27..7 \)
Si la probabilité réelle de rétention de cette IES dans le MAC notée \( P(R|MAC) \) était, par exemple, de 1% :
> Prendre \( \alpha \) plus grand !
Soulève d'autres problèmes :
Or, on veut travailler sur les IES avec \(pvalue > \alpha\)...
Conclusion : Le score de rétention n'est pas une métrique appropriée pour notre problème.
Ce qui nous intéresse est uniquement, pour chaque IES :
On ne connait pas le pourcentage de molécules MAC qui retiennent l'IES. Mais :
De là : On a bien une piste pour estimer la proportion des IES+ qui viennent physiquement du MIC:
Exemple :
--> On peut estimer grossièrement \( P(R|MAC) \approx 50\% \)
\( P(MIC |IES⁺) \approx \frac{1}{200} \)
Exemple guide :
N = 100
\( nb_{IES^+} = 3 \)
\( P(MIC) = \frac{4}{804} \)
P(retention) = ??
\( P(MIC|IES⁺) = ?? \)
Calcul des probabilités :
> Pour une IES donnée, on peut donc estimer la probabilité qu'elle vienne du MIC ou du MAC
On peut utiliser cet estimateur en déduire, pour un ensemble de X séquences \(IES^+\), quel sera, en moyenne, la proportion de molécules venant du MIC.
\( \frac{nbMIC}{NbMacRet} \)
0/3
1/3
2/3
3/3