«Aunque los hechos son intrínsecamente menos satisfactorios que las conclusiones intelectuales que se extraen de ellos, su importancia nunca debería cuestionarse.» James D. Watson, 2002.
El ADN transporta toda la información genética de la vida. Una molécula de ADN enormemente larga forma cada uno de los cromosomas de un organismo, 23 de ellos en un ser humano. La unidad viva fundamental es la célula única. Una célula da lugar a muchas más células mediante repeticiones en serie de un proceso conocido como división celular. Antes de cada división, hay que hacer nuevas copias de cada una de las muchas moléculas que forman la célula, incluida la duplicación de todas las moléculas de ADN. La replicación del ADN es el nombre dado a este proceso de duplicación, que permite que la información genética de un organismo -sus genes- se transmita a las dos células hijas creadas cuando una célula se divide. Un poco menos importante para la vida es un proceso que requiere acrobacias dinámicas del ADN, llamado recombinación homóloga del ADN, que reordena los genes de los cromosomas. En reacciones estrechamente relacionadas con la replicación del ADN, la maquinaria de recombinación también repara los daños que inevitablemente se producen en las largas y frágiles moléculas de ADN del interior de las células (véase el artículo de Friedberg en este número, página 436).
El modelo de la doble hélice de ADN1 propuesto por James Watson y Francis Crick se basa en dos hebras de ADN emparejadas que son complementarias en su secuencia de nucleótidos. El modelo tuvo implicaciones sorprendentes para los procesos de replicación y recombinación del ADN. Antes de 1953, no había ninguna forma significativa de especular siquiera sobre los mecanismos moleculares de estos dos procesos genéticos centrales. Pero la propuesta de que cada nucleótido de una cadena de ADN estaba estrechamente emparejado con su nucleótido complementario en la cadena opuesta – ya sea la adenina (A) con la timina (T), o la guanina (G) con la citosina (C) – significaba que cualquier parte de la secuencia de nucleótidos podía actuar como plantilla directa para la parte correspondiente de la otra cadena. Como resultado, cualquier parte de la secuencia puede utilizarse para crear o reconocer su secuencia de nucleótidos asociada, las dos funciones que son fundamentales para la replicación del ADN y la recombinación del ADN, respectivamente.
En esta revisión, discuto cómo el descubrimiento de la estructura del ADN hace medio siglo abrió nuevas vías para entender los procesos de replicación y recombinación del ADN. También destacaré cómo, a medida que nuestra comprensión de las moléculas biológicas complejas y sus interacciones aumentó a lo largo de los años, se produjeron profundos cambios en la forma en que los biólogos ven la química de la vida.
Características estructurales del ADN
La investigación que siguió inmediatamente al descubrimiento de la doble hélice se centró principalmente en la comprensión de las propiedades estructurales de la molécula. El ADN especifica el ARN mediante el proceso de transcripción de genes, y las moléculas de ARN especifican a su vez todas las proteínas de una célula. Este es el «dogma central» de la transferencia de información genética2. Cualquier lectura de la información genética -ya sea durante la replicación del ADN o la transcripción de genes- requiere el acceso a la secuencia de las bases enterradas en el interior de la doble hélice. La separación de las cadenas de ADN es, por tanto, fundamental para la función del ADN. Así pues, el modelo Watson-Crick llevó a los científicos a buscar condiciones que interrumpieran los enlaces de hidrógeno que unen los pares de bases complementarias, para separar las dos hebras de la doble hélice del ADN.
Los químicos físicos descubrieron que calentar una solución de ADN a temperaturas cercanas a la ebullición (100 °C), o someterla a pH extremos, provocaba la separación de las hebras, un cambio denominado «desnaturalización del ADN». La llamada «temperatura de fusión» (o Tm) de un tramo de la secuencia de ADN depende de su composición nucleotídica: aquellos ADN con una mayor proporción de pares de bases G-C presentan una Tm más alta debido a los tres enlaces de hidrógeno que Watson y Crick habían predicho para mantener unido un par de bases G-C, en comparación con sólo dos para el par de bases A-T. En concentraciones salinas fisiológicas, la Tm del ADN de los mamíferos es de casi 90 °C, debido a la particular mezcla de sus pares de bases (47% G-C y 53% A-T)3.
Al principio parecía inconcebible que, una vez separada de su pareja complementaria, una cadena de ADN pudiera volver a formar una doble hélice. En una mezcla compleja de moléculas de ADN, tal hazaña requeriría encontrar la única secuencia coincidente entre millones durante las colisiones aleatorias con otras secuencias, y luego rebobinar rápidamente con una nueva hebra compañera. El espectacular descubrimiento de este inesperado fenómeno4, denominado «renaturalización del ADN», arrojó luz sobre la forma en que las secuencias podían reorganizarse mediante la recombinación del ADN. Y también proporcionó un medio fundamental para poder manipular el ADN en el laboratorio. El recocido de secuencias de nucleótidos complementarias, un proceso llamado hibridación, constituye la base de varias tecnologías del ADN que ayudaron a lanzar la industria biotecnológica y la genómica moderna. Entre ellas se encuentran la clonación de genes, la secuenciación genómica y la copia del ADN mediante la reacción en cadena de la polimerasa (véase el artículo de Hood y Galas en la página 444).
La disposición de las moléculas de ADN en los cromosomas presentaba otro misterio para los científicos: una molécula larga y delgada sería muy sensible a la rotura inducida por el cizallamiento, y era difícil imaginar que un cromosoma de mamífero pudiera contener una sola molécula de ADN. Esto requeriría que un cromosoma típico estuviera formado por una hélice continua de ADN de más de 100 millones de pares de nucleótidos, una molécula masiva que pesa más de 100.000 millones de daltons, con una distancia de extremo a extremo de más de 3 cm. ¿Cómo podía protegerse una molécula tan gigantesca de la fragmentación accidental en una célula de sólo micras de diámetro, y al mismo tiempo mantenerla organizada para una lectura eficiente de los genes y otras funciones genéticas?
No había precedentes de moléculas tan gigantes fuera del mundo de la biología. Pero a principios de la década de 1960, los estudios autorradiográficos revelaron que el cromosoma de la bacteria Escherichia coli era, de hecho, una única molécula de ADN de más de 3 millones de pares de nucleótidos5. Y cuando -más de una década después- unas innovadoras técnicas físicas demostraron que una única y enorme molécula de ADN constituía la base de cada cromosoma de los mamíferos6, el resultado fue acogido por los científicos con poca sorpresa.
Bifurcaciones de la replicación del ADN
¿Cómo se copia con precisión la enormemente larga molécula de ADN de doble cadena que forma un cromosoma para producir un segundo cromosoma idéntico cada vez que una célula se divide? El modelo de plantilla para la replicación del ADN, propuesto por Watson y Crick en 1953 (ref. 7), obtuvo una aceptación universal tras dos descubrimientos a finales de la década de 1950. Uno de ellos fue un elegante experimento en el que se utilizó ADN bacteriano marcado con densidad que confirmó el esquema predicho de plantilla-antiplantilla8. El otro fue el descubrimiento de una enzima llamada ADN polimerasa, que utiliza una cadena de ADN como molde para sintetizar una nueva cadena complementaria9. Cuatro nucleótidos desoxirribonucleósidos trifosfato – dATP, dTTP, dGTP y dCTP – son los precursores de una nueva cadena de ADN hija, cada nucleótido seleccionado por emparejamiento con su nucleótido complementario (T, A, C o G, respectivamente) en la cadena molde parental. Se demostró que la ADN polimerasa utiliza estos trifosfatos para añadir nucleótidos de uno en uno al extremo 3′ de la molécula de ADN recién sintetizada, catalizando así el crecimiento de la cadena de ADN en la dirección química 5′ a 3′.
Aunque la síntesis de tramos cortos de la secuencia de ADN en una plantilla monocatenaria podía demostrarse en un tubo de ensayo, cómo se replica una enorme y retorcida molécula de ADN de doble cadena era un rompecabezas. En el interior de la célula, se observó que la replicación del ADN se produce en una estructura en forma de Y, denominada «horquilla de replicación», que se desplaza constantemente a lo largo de una hélice de ADN parental, haciendo girar dos hélices de ADN hijas detrás de ella (los dos brazos de la «Y»)5. Tal y como predijeron Watson y Crick, las dos hebras de la doble hélice van en direcciones químicas opuestas. Por lo tanto, cuando una horquilla de replicación se mueve, la ADN polimerasa puede moverse continuamente a lo largo de un solo brazo de la Y – el brazo en el que la nueva hebra hija se está alargando en la dirección química 5′ a 3′. En el otro brazo, la nueva cadena hija tendría que producirse en la dirección química opuesta, de 3′ a 5′ (Fig. 1a). Así, mientras que las predicciones centrales de Watson y Crick se confirmaron al final de la primera década de investigación que siguió a su histórico descubrimiento, los detalles del proceso de replicación del ADN siguieron siendo un misterio.
Reconstruyendo la replicación
El misterio se resolvió en el transcurso de las dos décadas siguientes, periodo en el que se identificaron las proteínas que constituyen los actores centrales del proceso de replicación del ADN. Los científicos utilizaron diversos enfoques experimentales para identificar un conjunto cada vez mayor de productos génicos que se consideraban críticos para la replicación del ADN. Por ejemplo, se identificaron organismos mutantes en los que la replicación del ADN era defectuosa, y entonces se pudieron utilizar técnicas genéticas para identificar conjuntos específicos de genes necesarios para el proceso de replicación10,11,12. Con la ayuda de las proteínas especificadas por estos genes, se establecieron sistemas «libres de células», en los que se recreaba el proceso in vitro utilizando componentes purificados. Inicialmente, las proteínas se probaron en una «reacción de replicación parcial», en la que sólo estaba presente un subconjunto de la maquinaria proteica necesaria para el proceso de replicación completo, y la plantilla de ADN se proporcionaba en forma de cadena simple13. Las nuevas proteínas identificadas se añadieron de una en una o en combinación para comprobar sus efectos en la actividad catalítica de la ADN polimerasa. Los avances posteriores en la comprensión de la replicación dependían entonces de la creación de sistemas in vitro más complejos, en los que, mediante la adición de un conjunto mayor de proteínas purificadas, se podía llegar a replicar el ADN de doble cadena14,15.
Hoy en día, casi todos los procesos del interior de las células -desde la replicación del ADN y la recombinación hasta el transporte de vesículas por la membrana- se estudian en un sistema in vitro reconstruido a partir de componentes purificados. Aunque su establecimiento es laborioso, estos sistemas permiten controlar con precisión tanto la concentración como la estructura detallada de cada componente. Además, el «ruido» del sistema natural provocado por las reacciones secundarias -ya que la mayoría de las moléculas de una célula participan en más de un tipo de reacción- se evita eliminando las proteínas que catalizan esas otras reacciones. En esencia, una pequeña fracción de la célula puede recrearse como un conjunto acotado de reacciones químicas, lo que la hace totalmente susceptible de ser estudiada con precisión utilizando todas las herramientas de la física y la química.
Para 1980, los sistemas in vitro multiproteicos habían permitido una caracterización detallada de la maquinaria de replicación y habían resuelto el problema de cómo se sintetiza el ADN a ambos lados de la horquilla de replicación (Fig. 1b). Una hebra de ADN hija es sintetizada continuamente por una molécula de ADN polimerasa que se mueve a lo largo de la «hebra líder», mientras que una segunda molécula de ADN polimerasa en la «hebra rezagada» produce una larga serie de fragmentos (llamados fragmentos de Okazaki)16 que son unidos por la enzima ADN ligasa para producir una hebra de ADN continua. Como era de esperar, hay una diferencia en las proteínas necesarias para la síntesis del ADN de la cadena principal y de la cadena secundaria (véase el recuadro 1). Sorprendentemente, se pudo demostrar que las horquillas de replicación formadas en estos sistemas artificiales se movían a la misma velocidad que las horquillas del interior de las células (de 500 a 1.000 nucleótidos por segundo), y la plantilla de ADN se copiaba con una fidelidad increíblemente alta15.
A medida que se descubrían más y más proteínas que funcionaban en la horquilla de replicación, se podían hacer comparaciones entre la maquinaria de replicación de diferentes organismos. Los estudios de la maquinaria de replicación en virus, bacterias y eucariotas revelaron que un conjunto común de actividades proteicas impulsa las horquillas de replicación en cada organismo (Cuadro 1). Cada sistema se compone de: una molécula de ADN polimerasa de cadena principal y una de cadena secundaria; una ADN primasa para producir los cebadores de ARN que inician cada fragmento de Okazaki; proteínas de unión del ADN de cadena simple que recubren el ADN molde y lo mantienen en su posición; una ADN helicasa que desenrolla la doble hélice; y proteínas accesorias adicionales de la polimerasa que unen a las polimerasas entre sí y con el ADN molde. A medida que se pasa de un simple virus a organismos más complejos, como las levaduras o los mamíferos, el número de subunidades que componen cada tipo de actividad proteica tiende a aumentar. Por ejemplo, el número total de subunidades polipeptídicas que forman el núcleo del aparato de replicación aumenta de cuatro y siete en los bacteriófagos T7 y T4, respectivamente, a 13 en la bacteria E. coli. Y se amplía hasta al menos 27 en la levadura Saccharomyces cerevisiae y en los mamíferos. Así pues, a medida que los organismos con genomas más grandes evolucionaban, la maquinaria de replicación añadía nuevas subunidades proteicas, sin ningún cambio en los mecanismos básicos15,18,19,20.
Mientras avanzaban los trabajos que he descrito sobre la replicación del ADN, otros grupos de investigadores establecían sistemas in vitro en los que se podía reconstruir la recombinación homóloga del ADN. El actor central de estas reacciones era la proteína de tipo RecA17, llamada así por el mutante bacteriano defectuoso en la recombinación que condujo a su descubrimiento (Recuadro 2).
Máquinas de proteínas
Como en todos los demás aspectos de la bioquímica celular, el aparato de replicación del ADN ha evolucionado a lo largo de miles de millones de años por «ensayo y error», es decir, por variación aleatoria seguida de selección natural. Con el tiempo, una proteína tras otra pudo añadirse a la mezcla de proteínas activas en la horquilla de replicación, presumiblemente porque la nueva proteína aumentaba la velocidad, el control o la precisión del proceso global de replicación. Además, la estructura de cada proteína se ajustaba mediante mutaciones que alteraban su secuencia de aminoácidos para aumentar su eficacia. El resultado final de este inusual proceso de ingeniería son los sistemas de replicación que observamos hoy en día en diferentes organismos. Por tanto, cabría esperar que el mecanismo de replicación del ADN dependiera en gran medida de acontecimientos pasados aleatorios. Pero, ¿la evolución seleccionó cualquier cosa que funcionara, sin necesidad de elegancia?
Durante los primeros 30 años después del descubrimiento de Watson y Crick, la mayoría de los investigadores parecían sostener la opinión de que los procesos celulares podían ser descuidados. Este punto de vista fue alentado por el conocimiento de la tremenda velocidad de los movimientos a nivel molecular (por ejemplo, se sabía que una proteína típica choca con una segunda molécula presente en una concentración de 1 mM unas 106 veces por segundo). Inicialmente se pensó que las rápidas tasas de movimiento molecular permitían que un proceso como la replicación del ADN ocurriera sin ninguna organización de las proteínas implicadas en el espacio tridimensional.
Muy al contrario, los biólogos moleculares reconocen ahora que la evolución ha seleccionado sistemas altamente ordenados. Así, por ejemplo, no sólo las partes de la maquinaria de replicación se mantienen juntas en alineaciones precisas para optimizar sus interacciones mutuas, sino que los cambios impulsados por la energía en las conformaciones de las proteínas se utilizan para generar movimientos coordinados. Esto garantiza que cada uno de los pasos sucesivos de un proceso complejo como la replicación del ADN esté estrechamente coordinado con el siguiente. El resultado es un conjunto que puede considerarse como una «máquina de proteínas». Por ejemplo, la molécula de ADN polimerasa en el lado retrasado de la horquilla de replicación permanece unida a la molécula de ADN polimerasa de la cadena principal para garantizar que la misma polimerasa de la cadena retrasada se utilice una y otra vez para la síntesis eficiente de fragmentos de Okazaki18,20,21 (Cuadro 1). Y la replicación del ADN no es en absoluto la única. Ahora creemos que casi todos los procesos biológicos son catalizados por un conjunto de diez o más proteínas posicionadas espacialmente e interactuando que experimentan movimientos altamente ordenados en un ensamblaje similar al de una máquina22.
Las máquinas de proteínas generalmente se forman en sitios específicos en respuesta a señales particulares, y esto es particularmente cierto para las máquinas de proteínas que actúan sobre el ADN. La replicación, la reparación y la recombinación de la doble hélice del ADN suelen considerarse procesos separados y aislados. Pero dentro de la célula, la misma molécula de ADN es capaz de sufrir cualquiera de estas reacciones. Además, se producen combinaciones específicas de los tres tipos de reacciones. Por ejemplo, la recombinación del ADN suele estar directamente relacionada con la replicación o la reparación del ADN23. Para que la integridad de un cromosoma se mantenga adecuadamente, cada reacción específica debe ser cuidadosamente dirigida y controlada. Esto requiere que los conjuntos de proteínas se ensamblen en el ADN y se activen sólo donde y cuando se necesiten. Aunque queda mucho por saber sobre cómo se toman estas decisiones, parece que los diferentes tipos de estructuras de ADN son reconocidos explícitamente por proteínas especializadas que sirven como «factores de ensamblaje». Cada factor de ensamblaje sirve entonces para nuclear un ensamblaje cooperativo del conjunto de proteínas que forma una máquina proteica particular, según sea necesario para catalizar una reacción apropiada para ese momento y lugar en la célula.
Una visión del futuro
Se ha convertido en una costumbre, tanto en los libros de texto como en la literatura científica habitual, explicar los mecanismos moleculares a través de simples dibujos bidimensionales o «caricaturas». Estos dibujos son útiles para consolidar grandes cantidades de datos en un esquema sencillo, como se ilustra en esta revisión. Pero es posible que toda una generación de biólogos se haya dejado llevar por la creencia de que se ha captado la esencia de un mecanismo biológico, y por tanto se ha resuelto todo el problema, una vez que un investigador ha descifrado lo suficiente del rompecabezas como para poder dibujar una caricatura significativa de este tipo.
En los últimos años, ha quedado muy claro que se exigirá mucho más a los científicos antes de que podamos afirmar que entendemos completamente un proceso como la replicación del ADN o la recombinación del ADN. Los recientes proyectos de secuenciación del genoma, los esfuerzos de mapeo de las interacciones de las proteínas y los estudios sobre la señalización celular han revelado muchos más componentes e interacciones moleculares de lo que se pensaba anteriormente. Por ejemplo, según un análisis reciente, S. cerevisiae, un organismo eucariota unicelular «simple» (que tiene unos 6.000 genes en comparación con los 30.000 de los seres humanos), utiliza 88 genes para su replicación del ADN y 49 genes para su recombinación del ADN24.
Para centrarse en la replicación del ADN, la comprensión completa del mecanismo requerirá volver al lugar donde se iniciaron los estudios del ADN, en los ámbitos de la química y la física. Se necesitarán estructuras atómicas detalladas de todas las proteínas y ácidos nucleicos relevantes, y los biólogos estructurales están haciendo progresos espectaculares, gracias a las técnicas cada vez más potentes de cristalografía de rayos X y resonancia magnética nuclear. Pero la capacidad de reconstruir los procesos biológicos en un tubo de ensayo con moléculas cuyas estructuras precisas se conocen no es suficiente. El proceso de replicación es a la vez muy rápido e increíblemente preciso, alcanzando una tasa de error final de aproximadamente un nucleótido entre mil millones. Para entender cómo se coordinan las reacciones entre las numerosas proteínas y otras moléculas diferentes para crear este resultado, será necesario que los experimentadores determinen todas las constantes de velocidad de las interacciones entre los distintos componentes, algo que rara vez hacen los biólogos moleculares en la actualidad. A continuación, podrán utilizar técnicas de ingeniería genética para alterar conjuntos seleccionados de estos parámetros, supervisando cuidadosamente el efecto de estos cambios en el proceso de replicación.
Los científicos podrán afirmar que realmente comprenden un proceso complejo como la replicación del ADN sólo cuando puedan predecir con precisión el efecto de los cambios en cada una de las diversas constantes de velocidad en la reacción global. Dado que el abanico de manipulaciones experimentales es enorme, necesitaremos formas más potentes de decidir qué alteraciones son las que más pueden aumentar nuestra comprensión. Por lo tanto, es necesario desarrollar nuevos enfoques del campo de la biología computacional, que se está desarrollando rápidamente, tanto para guiar la experimentación como para interpretar los resultados.
El modelo Watson-Crick del ADN catalizó avances espectaculares en nuestra comprensión molecular de la biología. Al mismo tiempo, su enorme éxito dio lugar a la visión errónea de que muchos otros aspectos complejos de la biología podrían reducirse de forma similar a una elegante simplicidad mediante un análisis teórico perspicaz y la construcción de modelos. Este punto de vista ha sido suplantado en las décadas siguientes, porque la mayoría de los subsistemas biológicos han resultado ser demasiado complejos como para poder predecir sus detalles. Ahora sabemos que nada puede sustituir a los análisis experimentales rigurosos. Pero la biología molecular y celular tradicional no puede por sí sola resolver un problema como el de la replicación del ADN. Se necesitarán nuevos tipos de enfoques, que impliquen no sólo nuevas herramientas computacionales, sino también una mayor integración de la química y la física20,25. Por esta razón, necesitamos urgentemente repensar la educación que estamos proporcionando a la próxima generación de científicos biológicos22,26.