Filodinámica, el otro rastreador de coronavirus
https://aranandoelcieloyarandolatierra.blogspot.com/
24.abril.2020
Este nuevo campo de estudio desarrolla árboles genealógicos basados en los rastros encontrados en el genoma del virus y en los algoritmos.
El público en general está acostumbrado a que el ADN ayude a confundir a los culpables, gracias a las noticias o a las series de televisión. Pero con el brote de Covid-19, un tipo diferente de policía genética anda suelto. Si bien no hay duda de que el virus del SARS-CoV-2 es, en efecto, responsable de casi 165.000 muertes, su composición genética está en proceso de revelar a los especialistas cuándo infectó a los seres humanos, de dónde vino, con qué rapidez se propagó y a cuántas personas afectó.
Estos nuevos policías son filodinámicos, representantes de una disciplina que aún no tiene veinte años y que está mostrando todo su potencial con la actual pandemia. El descubrimiento de la probable transición de murciélago a humano. Eso es filodinámica. ¡El origen de la contaminación en noviembre de 2019 en China? Es ella otra vez. ¿Signos de que la epidemia está disminuyendo en algunos países? Sigue siendo ella. Los múltiples orígenes de la epidemia en Francia. Una y otra vez es ella.
“La idea de la filodinámica es que la forma en que se propagan los virus deja rastros en su genoma”, dice Samuel Alizon, investigador del CNRS con el equipo de Evolución Teórica y Experimental del laboratorio de Enfermedades Infecciosas y Vectores: Ecología, Genética, Evolución y Control en Montpellier. Estos rastros son tan diminutos que deben ser examinados cuidadosamente para hacerlos “hablar”, de lo contrario pueden cometer graves errores. Son cambios muy pequeños en la secuencia de unas 30.000 “letras” que componen el genoma de este virus. Una sola letra de diferencia entre dos genomas ya es una información valiosa.
Una disciplina que debe ser manejada con cuidado
Ya el 20 de enero, una de las estrellas del campo, Trevor Bedford, del Centro de Cáncer Fred Hutchinson en Seattle (EE.UU.), se aseguró, como escribe en su blog, que el virus que ha estado monitoreando desde principios de enero es transmisible a los humanos. Una propiedad fundamental que condiciona la gravedad de la enfermedad a escala mundial. China no declarará una cuarentena en su primer brote hasta el 29 de enero.
La intuición de este científico proviene del análisis de los genomas virales que llegaron de China el 10 de enero. Son demasiado similares para creer que los pacientes fueron infectados por animales. De hecho, como el virus ha estado en este depósito durante mucho tiempo, debería existir en formas bastante variadas. Sin embargo, esta diversidad está ausente en los genomas virales tomados de los primeros pacientes. A menos que podamos imaginar que el mismo animal contaminó a tantos humanos en diferentes lugares, tuvimos que enfrentarnos a la terrible evidencia de que el coronavirus había encontrado un nuevo huésped y que se había vuelto transmisible.
El mismo especialista pronto llevaría a cabo una segunda investigación, esta vez para poner fin a un rumor. El 31 de enero, un equipo indio afirmó que el genoma viral tenía similitudes con el del VIH, lo que implicaba una manipulación genética artificial. Trevor Bedford, al día siguiente de esta “publicación” (el artículo sólo se puso en línea en un sitio especializado, sin evaluación por parte de una revista científica), desmanteló la hipótesis en Twitter. El tipo de variaciones observadas también existen naturalmente en un coronavirus de murciélago. Y los indios habrían comparado mal las secuencias entre sí, confundiendo un artefacto sin sentido con una rica similitud de información. El episodio muestra que la filodinámica debe ser manejada con cuidado.
También lee El Coronavirus, hecho del virus del SIDA… La muy controvertida tesis del profesor Montagnier
Gran y grave error
El 10 de abril, otro ejemplo de las sutilezas de la técnica. Otra estrella en este campo, Andrew Rambaut de la Universidad de Edimburgo, está poniendo en la picota a sus colegas americanos que creen haber descubierto tres variantes diferentes en las diversas cepas del virus, como afirman en una importante revista, PNAS. “Lo que más me irrita es que estos autores tomaron algunos datos de una base de datos, los pusieron en un paquete de software fácil de usar, hicieron suposiciones inapropiadas y publicaron lo que encontraron».
El especialista también observa un grave error en la comparación con el coronavirus del murciélago. “Me entristece un poco ser miembro de esta comunidad científica”, dice en Twitter otro especialista, François Balloux, profesor de bioinformática en el University College London.
La filodinámica es, por lo tanto, un arte sutil. Desde el comienzo de la epidemia de Covid-19, la diferencia entre los nuevos genomas y el primero es de menos de veinte letras de diferencia de unas 30.000. Este es un orden de magnitud similar a la tasa de error de las técnicas de secuenciación, de aproximadamente una letra errónea en 10.000 lecturas. Por el contrario, la diferencia es de más de 1.000 letras entre el probable reservorio del coronavirus, el murciélago rinolófilo de Yunnan, y el primer humano afectado.
Calculando la velocidad de las mutaciones
“Un centenar de secuencias genéticas contienen tanta información como las recogidas de todos los casos detectados”, dice Samuel Alizon en defensa del interés de su disciplina por comprender las epidemias. Las primeras observaciones y controversias fueron seguidas rápidamente por nueva información a medida que llegaban secuencias de todo el mundo. El sitio de Gisaid, donde se depositaron estas secuencias, contó 9.300 de ellas el 16 de abril! Para uno de mis artículos en Science en 2009 sobre la gripe A H1N1, tuvimos… 11!” recuerda François Balloux, entonces en el Imperial College. En este momento, mi equipo está procesando casi 1.000 secuencias al día».
Una de las primeras informaciones que estos investigadores extraen se refiere a la velocidad de las mutaciones, es decir, el número de cambios de letras por año. Cuantos más genomas haya, mejor será el cálculo, ya que se trata de hacer estadísticas sobre la evolución de las diferencias entre la secuencia original y las nuevas. Se aproximaría a una tasa de cambio anual del 0,08%. Eso es un poco menos que para la gripe o el VIH, pero mucho más que para el genoma humano. El detalle es importante porque le da al reloj molecular del virus, incluyendo la capacidad de retroceder en el tiempo.
Conociendo el tiempo y las últimas secuencias, podemos volver al origen del tiempo. Así pues, Andrew Rambaut ha calculado, a partir de 176 genomas, una probable llegada del virus a los seres humanos entre finales de agosto y principios de diciembre de 2019, con una mayor probabilidad para noviembre, mucho antes de la identificación del primer caso. Su colega Tanja Stadler, del Instituto Federal Suizo de Tecnología de Zurich, que ha estudiado 128 genomas, se encuentra en la misma fecha, entre noviembre y mediados de diciembre.
Estas mutaciones, o sustituciones, también se estudian de otra manera. Su ritmo es una cosa, su ubicación en la larga cadena de ARN (ácido ribonucleico) del virus es otra. Cada parte de esta secuencia codifica la producción de las proteínas necesarias para el ciclo del virus: adhesión al objetivo, penetración, desviación del material del huésped, replicación, proliferación de nuevos virus y expulsión a otras células.
Ya se han identificado menos de treinta proteínas, pero su papel no siempre está definido. Algunas mutaciones son neutrales, es decir, no influyen en el comportamiento del virus. Otros pueden cambiar la naturaleza del virus y por lo tanto su peligrosidad o contagio. “Hasta ahora, no se ha informado de nada de eso. Sólo tenemos cuatro secuencias que muestran cambios en una proteína clave, pero nada confirmado”, dice Balloux. Él está interesado en las partes estables del virus, ya que éstas serán objetivos relevantes para una posible cura. Si se dirige a las porciones demasiado cambiantes, la vacuna o la droga perderían rápidamente su eficacia.
Algoritmos para llenar los vacíos
Pero la verdadera fuerza de la filodinámica es que mezcla esta información tanto del tiempo como del “espacio”. Otra disciplina le ayuda en esta tarea: las matemáticas. Al igual que los genealogistas, los expertos quieren saber cuáles son los “padres probables” de una secuencia, las cepas de las que evolucionó. Así que intentan poner cada uno de los genomas virales de los individuos muestreados en un plano bidimensional y ver cómo comparten las mismas mutaciones y cómo se relacionan.
Aparece entonces un árbol con “hojas”, que son los genomas secuenciados, ramitas, luego ramas más o menos agrupadas, más o menos largas, según correspondan a un número pequeño o grande de mutaciones. Pero como no podemos tener todas las secuencias de todos los individuos, este “árbol” perfecto está fuera de alcance. Los huecos tienen que ser llenados por las matemáticas.
Los algoritmos tratan de inferir los vínculos entre las hojas proponiendo el árbol genealógico más probable que corresponda a los datos recogidos. Esto significa que con cada modelo matemático distinto, se puede obtener un árbol con ramas ligeramente diferentes. Esta reconstrucción, propuesta en 1981 por Joseph Felsenstein, realmente abrió el campo… ¡veinte años después! No sólo tuvimos que esperar hasta que tuviéramos suficientes secuencias, sino que los cálculos requirieron una potencia de computadora que no existía en ese momento.
Hoy en día, todo está ahí. Los especialistas están cultivando árboles en abundancia. Incluso el público en general puede captar todo el poder de estos nuevos análisis gracias al sitio Nextstrain, que recoge los genomas de Gisaid, y luego los procesa usando varios algoritmos para hacer estos árboles, bellamente presentados.
Es casi obvio que las contaminaciones en los Estados Unidos tuvieron varios orígenes. Como en Francia o Italia. “El bucle está cerrado”, incluso indica un último “resumen” del sitio, que subraya las nuevas infecciones de China procedentes del extranjero.
Encontrar el mejor conjunto de parámetros
Eso no es todo. Otras herramientas matemáticas establecerán definitivamente el papel de la filodinámica en el estudio de las pandemias. Si, además del reloj molecular y la “genealogía”, añadimos la dinámica de la epidemia en el campo, teniendo en cuenta el número de contactos, los tiempos de incubación y de contaminación, etc., los especialistas pueden entonces extraer sacudidas genéticas de la información que sólo los epidemiólogos han tenido hasta ahora. En otras palabras, ¿cuánto tiempo tarda en duplicarse el número de pacientes? ¿Cuántas personas están infectadas por una persona? O, incluso, ¿cuántas personas están enfermas?
De hecho, todos estos puntos tienen una influencia en el propio virus. Una fase de crecimiento exponencial de una epidemia no generará la misma familia o árbol filogenético que una enfermedad endémica. El árbol del virus de la gripe, por ejemplo, es muy diferente al del coronavirus. “En la gripe, tenemos arbustos y una fuerte competencia que hace que una cepa prevalezca sobre las otras cada año. Con el SARS-CoV-2, todavía no vemos los efectos potenciales de esta competencia, y los diferentes subgrupos pueden no serlo realmente”, dice Olivier Gascuel, director de investigación del CNRS y del Instituto Pasteur y miembro de la Academia Francesa de Ciencias.
Por lo tanto, un algoritmo busca el mejor conjunto de parámetros, el que mejor se ajusta a los datos genéticos. Mientras que el software PhyML, IQ-TREE o RaxML se lleva la mayor parte de los análisis para el cálculo de árboles, esta segunda etapa está dominada por Beast y Beast2. El equipo de Tanja Stadler, que contribuye al desarrollo en curso de estas “bestias”, ha producido muy rápidamente sus estimaciones de los parámetros clave de la epidemia. El 6 de marzo, por ejemplo, de 128 genomas, sus estimaciones sitúan la tasa de reproducción -es decir, el número de personas infectadas en promedio por un primero- entre 2 y 3,5, un valor coherente con lo que dice la epidemiología clásica. También estima que en China, en el momento en que se registraron oficialmente 570 casos, el número real era de entre 2.000 y 30.000.
Barras de error
Samuel Alizon también participó en el ejercicio para Francia. Según sus cálculos, el ancestro común de la mayoría de las secuencias francesas habría surgido entre mediados de enero y mediados de febrero. El tiempo de duplicación de la epidemia habría pasado de 2,5 días al principio de la epidemia a 5 días, si tenemos en cuenta los pacientes más recientes. Estas cifras están en línea con las tomadas de las curvas de la evolución del número de casos. La tasa de reproducción también varió, habiéndose reducido a la mitad entre el período del 21 de febrero al 11 de marzo y el período del 19 de marzo al 22 de marzo, después de la contención. Obviamente, como señala el investigador, estos resultados deben tomarse con precaución, porque el número de secuencias es, en última instancia, pequeño, las secuencias no son necesariamente representativas y las estimaciones tienen barras de error.
“En los años 90, recuerdo que la gente no veía el significado de estas técnicas o el profundo interés de las reconstrucciones evolutivas en la comprensión de la biología actual. Para ellos, la filogenia era una reminiscencia del antiguo museo de historia natural y de la época de Darwin. También hay que decir que había pocos genomas secuenciados”, recuerda Olivier Gascuel, pionero en Francia en este campo y coautor del software PhyML.
“Trabajar con datos en tiempo real es muy motivador. Como está ayudando a despejar la niebla sobre esta epidemia”, subraya Jérémie Sciré, estudiante de doctorado del equipo de Tanja Stadler, que participa en el grupo de trabajo suizo sobre Covid-19. También es el momento de compartir información, como lo demuestran el software con códigos abiertos, la profusión de secuencias y el foro “Virological.org”, en el que se han anunciado las primeras secuencias.
Como resultado, el campo se enfrenta a una crisis de crecimiento. “El principal desafío es ir a escala. Herramientas como la Bestia no pueden procesar más de 1.000 genomas! “dice Olivier Gascuel, que está desarrollando técnicas para mejorar los algoritmos actuales y responder a la inflación. El mismo camino está siendo seguido por el equipo de Tanja Stadler. También quiere profundizar en los nuevos vínculos entre la epidemiología de campo, que construye árboles de transmisión, y la genética, con sus árboles genealógicos. “Podríamos detectar posibles diferenciales de transmisión según el género, o rastrear la propagación del virus entre diferentes regiones o ciudades”, le gusta pensar a Samuel Alizon, cuyo proyecto sobre este tema sólo fue retenido como lista complementaria por la Agencia Nacional de Investigación durante su última licitación. El árbol de la filodinámica aún no ha encontrado su lugar en la selva de la investigación…