4 de julio de 2012

Matrices de sustitución y alineamiento de secuencias

Llevo unos días redactando un texto académico sobre alineamientos y he decidido publicar la parte de matrices de sustitución PAM y BLOSUM en este blog. Alguna vez hemos hablado sobre el tema sin entrar en profundidad, pero esta vez prometo una revisión más profunda.

La historia de las matrices de sustitución se remonta a los años 70, cuando la investigadora Margaret Oakley Dayhoff se afanaba en recopilar todas las secuencias de proteína existentes en su libro 'Atlas of Protein Sequence and Structure'  (Dayhoff and Schwartz 1978). Dayhoff y colaboradores estudiaron el modelo evolutivo de los cambios en los aminoácidos de las proteínas, para ello estudiaron 1572 cambios en 71 grupos de proteínas, dentro de cada grupo las secuencias compartían más del 85% de identidad. De esta forma anotaron el número de cambios para todas las combinaciones posibles de 2 aminoácidos, observando que 35 de las posibles mutaciones nunca ocurrían, estas se correspondían con aminoácidos poco frecuentes. También observaron que las mutaciones más frecuentes se daban entre aminoácidos con similares propiedades físico-químicas, como por ej. Asp y Glu. Muchos de los cambios de aminoácido esperados por modificación de un sólo nucleótido en los codones codificantes no se daban o eran infrecuentes, lo que demostró una mayor presión evolutiva a nivel de secuencia proteica que a nivel de DNA.
 
El cambio de un aminoácido por otro se denominó 'mutación puntual aceptada' (PAM). Normalizando los datos de las PAMs de acuerdo a la probabilidad de mutación de cada aminoácido en los datos estudiados (mutabilidad) se obtuvo la famosa matriz PAM1 en la que cada elemento de la matriz M{ij} cuantifica la probabilidad de que un aminoácido i sea remplazado por otro aminoácido j en el intervalo evolutivo de 1 PAM. 1 PAM se define como el intervalo evolutivo en que cambia un 1% de los aminoácidos en el alineamiento de 2 secuencias (1 cambio o PAM por cada 100 aminoácidos).

La matriz PAM1 sirve para simular cambios evolutivos en secuencias de proteínas. Para ello basta tomar un número aleatorio (entre 0 y 1) para cada aminoácido de una secuencia dada y asignarle un cambio si la probabilidad es menor que la anotada en la matriz para conservar el aminoácido. El proceso se puede repetir múltiples veces hasta alcanzar la distancia PAM deseada. Las matrices PAM también tienen unas propiedades my interesantes: i) la matriz PAM0 sólo posee unos en la diagonal y el resto son ceros; ii) la matriz se puede multiplicar por sí misma para calcular matrices de N PAMs; iii) si la matriz se multiplica infinitas veces por sí misma obtendremos la frecuencia del aminoácido j para todas las columnas de i.

Los intervalos evolutivos medidos en PAMs los podemos relacionar con porcentajes de residuos conservados idénticos por medio de la fórmula:


Siendo f{i} la frecuencia normalizada de aparición de un aminoácido y M{ii} el valor en la diagonal de la matriz PAM. Algunas equivalencias calculadas entre identidad y PAMs se pueden consultar en la siguiente tabla:


Toda la anterior explicación teórica de las matrices PAM está muy bien, pero volviendo al tema de alinear y comparar secuencias, ¿para qué nos sirven las matrices PAM? Las matrices PAM no nos son útiles directamente, pero sí el odd-ratio (R{ij}) calculado dividiendo un elemento de la matriz M{ij} entre la frecuencia normalizada de j (f{j}):

M{ij} nos da la probabilidad de que un aminoácido i sea sustituido por otro j en una distancia evolutiva definida por la matriz PAM y f{j} es la probabilidad de encontrar el aminoácido j en una posición de la secuencia por casualidad. El odd-ratio R{ij} cuantifica la probabilidad de que una sustitución se de en una posición dada. Un odd-ratio de valor 10 significaría que la sustitución es 10 veces más frecuente que la probabilidad de encontrar alineados ambos aminoácidos. Por el contrario, un odd-ratio de valor 0.5 significaría que la probabilidad de encontrar alineados ambos aminoácidos es el doble de probable que la mutación.

Podríamos puntuar un alineamiento de dos secuencias multiplicando los odd-ratios calculados para cada posición. Sin embargo, en informática las multiplicaciones son costosas y se prefieren las sumas, así que se calcula el log-odd multiplicado por 10 de R{ij}, estos números son más intuitivos y sencillos de sumar y serán la base de las puntuaciones de los alineamientos:


Las matrices de log-odds calculados con la anterior ecuación son las que habitualmente denominamos PAM y usamos para calcular valores de similitud en alineamiento de secuencias (puntuaciones). En la siguiente figura se puede consultar la matriz PAM250, una de las más usadas para puntuar alineamientos:
  
Si queremos encontrar un significado probabilístico de los valores log-odd de una matriz, bastaría con volver a calcular el odd-ratio (R{ij}):
Otras nuevas versiones de las matrices PAM han sido calculadas con un número mayor de grupos de secuencias homólogas alineadas, sin embargo no han conseguido mejorar sustancialmente las matrices originales de Dayhoff  (Gonnet, Cohen et al. 1992Jones, Taylor et al. 1992).

Otro tipo de matrices de sustitución que sí han conseguido mejorar a las PAM son las matrices BLOSUM (BLOcks of Amino Acid SUbstitution Matrix), creadas por Henikoff  (Henikoff and Henikoff 1992). Las matrices BLOSUM fueron creadas a partir de datos de más de 500 grupos de alineamientos de secuencias de proteínas y con el objetivo de mejorar los alineamientos de secuencias divergentes donde las matrices PAM fallaban. Para definir diferentes matrices BLOSUM se marcaron diferentes umbrales de identidad de secuencias, de forma que las secuencias con mayor o igual identidad que el umbral se agruparon para disminuir su contribución en la matriz. Por ejemplo, para calcular la matriz BLOSUM62 se agruparon las proteínas con identidad mayor o igual que 62%. Con los bloques de secuencias alineadas se calcula una tabla de frecuencias de cada pareja de aminoácidos alineados, obteniendo 210 parejas posibles con sus respectivas frecuencias de aparición que permitirán calcular los (R{ij}) entre las frecuencias observadas (q{ij}) y las frecuencias esperadas por casualidad (e{ij}):
Henikoff decidió calcular los log-odds (R{ij}) de una manera ligeramente diferente a Dayhoff, usando logaritmos en base 2:
En la siguietne figura se representa la matriz BLOSUM62, ésta es la matriz preferida para usar por defecto por algoritmos tan famosos como BLASTP.
Las matrices BLOSUM demostraron ser más sensibles a la hora de identificar alineamientos de proteínas homólogas (Henikoff and Henikoff 1992). Las principales diferencias entre ambos tipos de matrices es que las PAM son generadas por extrapolación de datos de alineamientos de secuencias muy conservadas y las BLOSUM, por contra, son derivadas de datos reales de alineamientos de secuencias menos conservadas. A continuación se muestra la equivalencia entre diferentes matrices PAM y BLOSUM, a menor distancia evolutiva PAM, mayor porcentaje de identidad BLOSUM y al contrario:
Equivalencia de matrices PAM y BLOSUM
Como norma general se prefiere el uso de matrices BLOSUM, sin embargo, cuando se realizan comparaciones de secuencias muy conservadas, las matrices PAM pueden conseguir mejores resultados.

Todo lo explicado hasta ahora sobre matrices de sustitución ha sido en el contexto de alineamientos proteicos. ¿Qué sucede en el caso de alineamientos de secuencias de DNA o RNA? Para los nucleótidos también se han calculado matrices PAM de forma similar a la explicada para proteínas (States, Gish et al. 1991), teniendo en cuenta las diferentes probabilidades de mutaciones por transición (A<->G, C<->T/U) o transversión (A/G<->C/T/U). Sin embargo, programas como BLAST emplean por defecto puntuaciones de 1 y -2 para evaluar coincidencia/no coincidencia de nucleótidos respectivamente. Aunque el uso de matrices PAM puede mejorar alineamientos de nucleótidos con identidades <70%, normalmente su mayor sensibilidad no compensa el mayor tiempo necesario para realizar los alineamientos, especialmente cuando estamos trabajando con genomas. Cuando se requiere alinear secuencias de DNA o RNA divergentes se prefiere traducirlas a secuencias proteicas antes de realizar su alineamiento.


No hay comentarios:

Publicar un comentario