« Bien que les faits soient intrinsèquement moins satisfaisants que les conclusions intellectuelles qui en sont tirées, leur importance ne devrait jamais être remise en question. » James D. Watson, 2002.
L’ADN porte toute l’information génétique de la vie. Une molécule d’ADN énormément longue forme chacun des chromosomes d’un organisme, 23 chez l’homme. L’unité vivante fondamentale est la cellule unique. Une cellule donne naissance à de nombreuses autres cellules par la répétition en série d’un processus appelé division cellulaire. Avant chaque division, de nouvelles copies doivent être faites de chacune des nombreuses molécules qui forment la cellule, y compris la duplication de toutes les molécules d’ADN. La réplication de l’ADN est le nom donné à ce processus de duplication, qui permet de transmettre l’information génétique d’un organisme – ses gènes – aux deux cellules filles créées lorsqu’une cellule se divise. Un peu moins central pour la vie est un processus qui nécessite des acrobaties dynamiques de l’ADN, appelé recombinaison homologue de l’ADN, qui remanie les gènes sur les chromosomes. Dans des réactions étroitement liées à la réplication de l’ADN, la machinerie de recombinaison répare également les dommages qui se produisent inévitablement sur les longues et fragiles molécules d’ADN à l’intérieur des cellules (voir l’article de Friedberg dans ce numéro, page 436).
Le modèle de la double hélice d’ADN1 proposé par James Watson et Francis Crick est basé sur deux brins d’ADN appariés qui sont complémentaires dans leur séquence de nucléotides. Ce modèle a eu des implications frappantes pour les processus de réplication et de recombinaison de l’ADN. Avant 1953, il n’existait aucun moyen valable de spéculer sur les mécanismes moléculaires de ces deux processus génétiques centraux. Mais la proposition selon laquelle chaque nucléotide d’un brin d’ADN était étroitement apparié en base avec son nucléotide complémentaire sur le brin opposé – soit l’adénine (A) avec la thymine (T), soit la guanine (G) avec la cytosine (C) – signifiait que toute partie de la séquence de nucléotides pouvait servir de modèle direct pour la partie correspondante de l’autre brin. Par conséquent, n’importe quelle partie de la séquence peut être utilisée soit pour créer, soit pour reconnaître sa séquence nucléotidique partenaire – les deux fonctions qui sont centrales pour la réplication de l’ADN et la recombinaison de l’ADN, respectivement.
Dans cette revue, je discute comment la découverte de la structure de l’ADN il y a un demi-siècle a ouvert de nouvelles voies pour comprendre les processus de réplication et de recombinaison de l’ADN. Je soulignerai également comment, au fur et à mesure que notre compréhension des molécules biologiques complexes et de leurs interactions s’est accrue au fil des ans, de profonds changements sont intervenus dans la façon dont les biologistes considèrent la chimie de la vie.
Caractéristiques structurelles de l’ADN
Les recherches qui ont immédiatement suivi la découverte de la double hélice ont principalement porté sur la compréhension des propriétés structurelles de la molécule. L’ADN spécifie l’ARN par le processus de transcription des gènes, et les molécules d’ARN spécifient à leur tour toutes les protéines d’une cellule. C’est le « dogme central » du transfert de l’information génétique2. Toute lecture de l’information génétique – que ce soit lors de la réplication de l’ADN ou de la transcription des gènes – nécessite l’accès à la séquence des bases enfouies à l’intérieur de la double hélice. La séparation des brins d’ADN est donc essentielle à la fonction de l’ADN. Ainsi, le modèle de Watson-Crick a poussé les scientifiques à rechercher des conditions susceptibles de rompre les liaisons hydrogène reliant les paires de bases complémentaires, de manière à séparer les deux brins de la double hélice d’ADN.
Les physico-chimistes ont découvert que chauffer une solution d’ADN à des températures proches de l’ébullition (100 °C), ou la soumettre à des pH extrêmes, provoquait la séparation des brins – un changement appelé « dénaturation de l’ADN ». La « température de fusion » (ou Tm) d’une portion de séquence d’ADN dépend de sa composition en nucléotides : les ADN comportant une plus grande proportion de paires de bases G-C présentent une Tm plus élevée en raison des trois liaisons hydrogène que Watson et Crick avaient prédites pour maintenir une paire de bases G-C ensemble, contre seulement deux pour la paire de bases A-T. Aux concentrations physiologiques de sel, le Tm de l’ADN des mammifères est proche de 90 °C, en raison du mélange particulier de ses paires de bases (47 % G-C et 53 % A-T)3.
A l’origine, il semblait inconcevable qu’une fois séparé de son partenaire complémentaire, un brin d’ADN puisse reformer à nouveau une double hélice. Dans un mélange complexe de molécules d’ADN, un tel exploit nécessitait de trouver la seule correspondance de séquence parmi des millions lors de collisions aléatoires avec d’autres séquences, puis de se rembobiner rapidement avec un nouveau brin partenaire. La découverte spectaculaire de ce phénomène inattendu4, appelé « renaturation de l’ADN », a permis de comprendre comment les séquences pouvaient être réarrangées par recombinaison de l’ADN. Elle a également fourni un moyen essentiel de manipuler l’ADN en laboratoire. Le recuit de séquences nucléotidiques complémentaires, un processus appelé hybridation, est à la base de plusieurs technologies de l’ADN qui ont contribué à lancer l’industrie de la biotechnologie et la génomique moderne. Il s’agit notamment du clonage des gènes, du séquençage génomique et de la copie de l’ADN par la réaction en chaîne de la polymérase (voir l’article de Hood et Galas à la page 444).
La disposition des molécules d’ADN dans les chromosomes présentait un autre mystère pour les scientifiques : une molécule longue et fine serait très sensible à la rupture induite par le cisaillement, et il était difficile d’imaginer qu’un chromosome de mammifère puisse ne contenir qu’une seule molécule d’ADN. Pour cela, il faudrait qu’un chromosome typique soit formé d’une hélice d’ADN continue de plus de 100 millions de paires de nucléotides – une molécule massive pesant plus de 100 milliards de daltons, avec une distance de bout en bout de plus de 3 cm. Comment protéger une molécule aussi géante d’une fragmentation accidentelle dans une cellule de quelques microns de diamètre, tout en la maintenant organisée pour une lecture efficace des gènes et d’autres fonctions génétiques ?
Il n’y avait aucun précédent de molécules aussi géantes en dehors du monde de la biologie. Mais au début des années 1960, des études autoradiographiques ont révélé que le chromosome de la bactérie Escherichia coli était en fait une seule molécule d’ADN, d’une longueur de plus de 3 millions de paires de nucléotides5. Et lorsque – plus d’une décennie plus tard – des techniques physiques innovantes ont démontré qu’une seule énorme molécule d’ADN formait la base de chaque chromosome de mammifère6, le résultat a été accueilli par les scientifiques avec peu de surprise.
Fourches de réplication de l’ADN
Comment l’énorme molécule d’ADN double brin qui forme un chromosome est-elle copiée avec précision pour produire un deuxième chromosome identique chaque fois qu’une cellule se divise ? Le modèle de réplication de l’ADN, proposé par Watson et Crick en 1953 (réf. 7), a été universellement accepté après deux découvertes à la fin des années 1950. L’une était une expérience élégante utilisant des ADN bactériens marqués par densité qui a confirmé le schéma modèle-anti-modèle prédit8. L’autre a été la découverte d’une enzyme appelée ADN polymérase, qui utilise un brin d’ADN comme matrice pour synthétiser un nouveau brin complémentaire9. Quatre nucléotides désoxyribonucléoside triphosphate – dATP, dTTP, dGTP et dCTP – sont les précurseurs d’un nouveau brin d’ADN fille, chaque nucléotide étant sélectionné par appariement avec son nucléotide complémentaire (T, A, C ou G, respectivement) sur le brin matrice parental. On a montré que l’ADN polymérase utilise ces triphosphates pour ajouter des nucléotides un par un à l’extrémité 3′ de la molécule d’ADN nouvellement synthétisée, catalysant ainsi la croissance de la chaîne d’ADN dans la direction chimique 5′ à 3′.
Bien que la synthèse de courts tronçons de séquence d’ADN sur une matrice simple brin ait pu être démontrée dans un tube à essai, la façon dont une énorme molécule d’ADN double brin tordue est répliquée était une énigme. À l’intérieur de la cellule, on a observé que la réplication de l’ADN se produisait au niveau d’une structure en forme de Y, appelée « fourche de réplication », qui se déplace régulièrement le long d’une hélice d’ADN parentale, en filant deux hélices d’ADN filles derrière elle (les deux bras du « Y »)5. Comme l’ont prédit Watson et Crick, les deux brins de la double hélice ont des directions chimiques opposées. Par conséquent, lorsqu’une fourche de réplication se déplace, l’ADN polymérase ne peut se déplacer de manière continue que le long d’un seul bras du Y – le bras sur lequel le nouveau brin fille est allongé dans le sens chimique 5′ à 3′. Sur l’autre bras, le nouveau brin-fille devrait être produit dans la direction chimique opposée, de 3′ à 5′ (figure 1a). Ainsi, alors que les prédictions centrales de Watson et Crick ont été confirmées à la fin de la première décennie de recherche qui a suivi leur découverte historique, les détails du processus de réplication de l’ADN sont restés un mystère.
Reconstruction de la réplication
Le mystère a été résolu au cours des deux décennies suivantes, période durant laquelle les protéines qui constituent les acteurs centraux du processus de réplication de l’ADN ont été identifiées. Les scientifiques ont utilisé une variété d’approches expérimentales pour identifier un ensemble toujours plus grand de produits génétiques supposés être critiques pour la réplication de l’ADN. Par exemple, on a identifié des organismes mutants dans lesquels la réplication de l’ADN était défectueuse, et les techniques génétiques ont ensuite pu être utilisées pour identifier des ensembles spécifiques de gènes nécessaires au processus de réplication10,11,12. À l’aide des protéines spécifiées par ces gènes, des systèmes « sans cellules » ont été établis, dans lesquels le processus a été recréé in vitro en utilisant des composants purifiés. Au départ, les protéines ont été testées dans une « réaction de réplication partielle », où seul un sous-ensemble de la machinerie protéique nécessaire au processus de réplication complet était présent, et où la matrice d’ADN était fournie sous une forme simple brin13. Les nouvelles protéines identifiées ont été ajoutées une par une ou en combinaison pour tester leurs effets sur l’activité catalytique de l’ADN polymérase. Les progrès ultérieurs dans la compréhension de la réplication dépendaient alors de la création de systèmes in vitro plus complexes, dans lesquels, par l’ajout d’un ensemble plus important de protéines purifiées, l’ADN double brin pouvait finalement être répliqué14,15.
Aujourd’hui, presque tous les processus à l’intérieur des cellules – de la réplication et de la recombinaison de l’ADN au transport des vésicules membranaires – sont étudiés dans un système in vitro reconstruit à partir de composants purifiés. Bien que laborieux à mettre en place, ces systèmes permettent de contrôler avec précision à la fois la concentration et la structure détaillée de chaque composant. De plus, le « bruit » du système naturel causé par les réactions secondaires – car la plupart des molécules dans une cellule sont engagées dans plus d’un type de réaction – est évité en éliminant les protéines qui catalysent ces autres réactions. En substance, une petite fraction de la cellule peut être recréée sous la forme d’un ensemble limité de réactions chimiques, ce qui permet de l’étudier avec précision à l’aide de tous les outils de la physique et de la chimie.
En 1980, les systèmes multiprotéiques in vitro avaient permis une caractérisation détaillée de la machinerie de réplication et résolu le problème de la synthèse de l’ADN des deux côtés de la fourche de réplication (figure 1b). Un brin d’ADN fille est synthétisé en continu par une molécule d’ADN polymérase se déplaçant le long du « brin menant », tandis qu’une seconde molécule d’ADN polymérase sur le « brin retardé » produit une longue série de fragments (appelés fragments d’Okazaki)16 qui sont réunis par l’enzyme ADN ligase pour produire un brin d’ADN continu. Comme on pouvait s’y attendre, il existe une différence entre les protéines nécessaires à la synthèse de l’ADN du brin principal et du brin secondaire (voir encadré 1). De façon remarquable, on a pu montrer que les fourches de réplication formées dans ces systèmes artificiels se déplaçaient à la même vitesse que les fourches à l’intérieur des cellules (500 à 1 000 nucléotides par seconde), et que la matrice d’ADN était copiée avec une fidélité incroyablement élevée15.
A mesure que l’on découvrait que de plus en plus de protéines fonctionnaient à la fourche de réplication, des comparaisons ont pu être faites entre les mécanismes de réplication de différents organismes. Les études de la machinerie de réplication chez les virus, les bactéries et les eucaryotes ont révélé qu’un ensemble commun d’activités protéiques dirige les fourches de réplication dans chaque organisme (encadré 1). Chaque système comprend : une molécule d’ADN polymérase du brin principal et une molécule d’ADN polymérase du brin secondaire ; une ADN primase pour produire les amorces d’ARN qui amorcent chaque fragment d’Okazaki ; des protéines de liaison de l’ADN simple brin qui enrobent l’ADN matrice et le maintiennent en position ; une ADN hélicase qui déroule la double hélice ; et d’autres protéines accessoires de la polymérase qui relient les polymérases entre elles et à l’ADN matrice. À mesure que l’on passe d’un simple virus à des organismes plus complexes, comme les levures ou les mammifères, le nombre de sous-unités qui composent chaque type d’activité protéique tend à augmenter. Par exemple, le nombre total de sous-unités polypeptidiques qui forment le cœur de l’appareil de réplication passe de quatre et sept dans les bactériophages T7 et T4, respectivement, à 13 dans la bactérie E. coli. Et il passe à au moins 27 chez la levure Saccharomyces cerevisiae et chez les mammifères. Ainsi, au fur et à mesure de l’évolution d’organismes dotés de plus grands génomes, la machinerie de réplication a ajouté de nouvelles sous-unités protéiques, sans aucun changement dans les mécanismes de base15,18,19,20.
Alors que les travaux que j’ai décrits sur la réplication de l’ADN progressaient, d’autres groupes de chercheurs établissaient des systèmes in vitro dans lesquels la recombinaison homologue de l’ADN pouvait être reconstituée. L’acteur central de ces réactions était la protéine de type RecA17, du nom du mutant bactérien déficient en recombinaison qui a conduit à sa découverte (encadré 2).
Machines à protéines
Comme pour tous les autres aspects de la biochimie cellulaire, l’appareil de réplication de l’ADN a évolué au cours de milliards d’années par « essais et erreurs », c’est-à-dire par variation aléatoire suivie de sélection naturelle. Avec le temps, une protéine après l’autre a pu être ajoutée au mélange de protéines actives à la fourche de réplication, vraisemblablement parce que la nouvelle protéine augmentait la vitesse, le contrôle ou la précision du processus global de réplication. En outre, la structure de chaque protéine a été affinée par des mutations qui ont modifié sa séquence d’acides aminés afin d’accroître son efficacité. Les résultats finaux de ce processus d’ingénierie inhabituel sont les systèmes de réplication que nous observons aujourd’hui dans différents organismes. On pourrait donc s’attendre à ce que le mécanisme de réplication de l’ADN dépende fortement d’événements aléatoires passés. Mais l’évolution a-t-elle sélectionné ce qui fonctionne, sans besoin d’élégance ?
Pendant les 30 premières années après la découverte de Watson et Crick, la plupart des chercheurs semblaient penser que les processus cellulaires pouvaient être bâclés. Cette opinion était encouragée par la connaissance de l’énorme vitesse des mouvements au niveau moléculaire (par exemple, on savait qu’une protéine typique entre en collision avec une seconde molécule présente à une concentration de 1 mM environ 106 fois par seconde). On pensait initialement que la rapidité des mouvements moléculaires permettait à un processus comme la réplication de l’ADN de se produire sans aucune organisation des protéines impliquées dans l’espace tridimensionnel.
Tout au contraire, les biologistes moléculaires reconnaissent maintenant que l’évolution a sélectionné des systèmes hautement ordonnés. Ainsi, par exemple, non seulement les parties de la machinerie de réplication sont maintenues ensemble dans des alignements précis pour optimiser leurs interactions mutuelles, mais les changements de conformation des protéines induits par l’énergie sont utilisés pour générer des mouvements coordonnés. Cela garantit que chacune des étapes successives d’un processus complexe comme la réplication de l’ADN est étroitement coordonnée avec la suivante. Le résultat est un assemblage qui peut être considéré comme une « machine à protéines ». Par exemple, la molécule d’ADN polymérase qui se trouve du côté de la fourche de réplication reste liée à la molécule d’ADN polymérase du brin principal afin de garantir que la même polymérase du brin principal soit utilisée encore et encore pour une synthèse efficace des fragments d’Okazaki18,20,21 (encadré 1). Et la réplication de l’ADN n’est en aucun cas unique. Nous pensons aujourd’hui que presque tous les processus biologiques sont catalysés par un ensemble de dix protéines ou plus, positionnées dans l’espace et en interaction, qui effectuent des mouvements très ordonnés dans un assemblage de type machine22.
Les machines protéiques se forment généralement sur des sites spécifiques en réponse à des signaux particuliers, et cela est particulièrement vrai pour les machines protéiques qui agissent sur l’ADN. La réplication, la réparation et la recombinaison de la double hélice d’ADN sont souvent considérées comme des processus séparés et isolés. Mais à l’intérieur de la cellule, la même molécule d’ADN est capable de subir n’importe laquelle de ces réactions. En outre, des combinaisons spécifiques de ces trois types de réactions se produisent. Par exemple, la recombinaison de l’ADN est souvent liée directement à la réplication ou à la réparation de l’ADN23. Pour que l’intégrité d’un chromosome soit correctement maintenue, chaque réaction spécifique doit être soigneusement dirigée et contrôlée. Pour cela, des ensembles de protéines doivent être assemblés sur l’ADN et activés uniquement à l’endroit et au moment où ils sont nécessaires. Bien qu’il reste beaucoup à apprendre sur la manière dont ces choix sont faits, il semble que différents types de structures d’ADN soient reconnus explicitement par des protéines spécialisées qui servent de « facteurs d’assemblage ». Chaque facteur d’assemblage sert ensuite à nucléer un assemblage coopératif de l’ensemble des protéines qui forment une machine protéique particulière, selon les besoins pour catalyser une réaction appropriée à ce moment et à cet endroit de la cellule.
Une vue de l’avenir
Il est devenu habituel, à la fois dans les manuels et dans la littérature scientifique régulière, d’expliquer les mécanismes moléculaires par de simples dessins en deux dimensions ou « cartoons ». Ces dessins sont utiles pour consolider de grandes quantités de données en un schéma simple, comme illustré dans cette revue. Mais toute une génération de biologistes a pu se laisser bercer par la croyance que l’essence d’un mécanisme biologique a été capturée, et que le problème entier est donc résolu, une fois qu’un chercheur a déchiffré suffisamment de l’énigme pour être capable de dessiner un dessin significatif de ce type.
Au cours des dernières années, il est devenu tout à fait clair que l’on exigera beaucoup plus des scientifiques avant de pouvoir prétendre comprendre pleinement un processus tel que la réplication de l’ADN ou la recombinaison de l’ADN. Les récents projets de séquençage du génome, les efforts de cartographie des interactions entre protéines et les études sur la signalisation cellulaire ont révélé beaucoup plus de composants et d’interactions moléculaires qu’on ne le pensait auparavant. Par exemple, selon une analyse récente, S. cerevisiae, un organisme eucaryote « simple » unicellulaire (qui compte environ 6 000 gènes contre 30 000 chez l’homme), utilise 88 gènes pour sa réplication de l’ADN et 49 gènes pour sa recombinaison de l’ADN24.
Pour se concentrer sur la réplication de l’ADN, la compréhension complète du mécanisme nécessitera de revenir là où les études de l’ADN ont commencé – dans les domaines de la chimie et de la physique. Des structures atomiques détaillées de toutes les protéines et de tous les acides nucléiques pertinents seront nécessaires, et des progrès spectaculaires sont réalisés par les biologistes structurels, grâce à des techniques de cristallographie aux rayons X et de résonance magnétique nucléaire de plus en plus puissantes. Mais la capacité de reconstruire des processus biologiques dans un tube à essai avec des molécules dont les structures précises sont connues ne suffit pas. Le processus de réplication est à la fois très rapide et incroyablement précis, atteignant un taux d’erreur final d’environ un nucléotide sur un milliard. Pour comprendre comment les réactions entre les nombreuses protéines et autres molécules différentes sont coordonnées pour créer ce résultat, les expérimentateurs devront déterminer toutes les constantes de vitesse des interactions entre les différents composants, ce qui est rarement fait par les biologistes moléculaires aujourd’hui. Ils pourront ensuite utiliser des techniques de génie génétique pour modifier des ensembles sélectionnés de ces paramètres, en surveillant attentivement l’effet de ces changements sur le processus de réplication.
Les scientifiques ne pourront affirmer qu’ils comprennent vraiment un processus complexe comme la réplication de l’ADN que lorsqu’ils pourront prédire avec précision l’effet des changements de chacune des diverses constantes de vitesse sur la réaction globale. L’éventail des manipulations expérimentales étant énorme, nous aurons besoin de moyens plus puissants pour décider quelles sont les modifications les plus susceptibles d’améliorer notre compréhension. De nouvelles approches issues du domaine en plein développement de la biologie computationnelle doivent donc être développées – à la fois pour guider l’expérimentation et pour interpréter les résultats.
Le modèle Watson-Crick de l’ADN a catalysé des avancées spectaculaires dans notre compréhension moléculaire de la biologie. Dans le même temps, son énorme succès a donné lieu à l’idée trompeuse que de nombreux autres aspects complexes de la biologie pourraient être réduits à une élégante simplicité par une analyse théorique perspicace et la construction de modèles. Ce point de vue a été supprimé au cours des décennies suivantes, car la plupart des sous-systèmes biologiques se sont avérés beaucoup trop complexes pour que l’on puisse en prévoir les détails. Nous savons maintenant que rien ne peut remplacer les analyses expérimentales rigoureuses. Mais la biologie moléculaire et cellulaire traditionnelle ne peut à elle seule résoudre un problème tel que la réplication de l’ADN. De nouveaux types d’approches seront nécessaires, impliquant non seulement de nouveaux outils informatiques, mais aussi une plus grande intégration de la chimie et de la physique20,25. C’est pourquoi il est urgent de repenser l’enseignement que nous dispensons à la prochaine génération de scientifiques en biologie22,26.