Décryptage des diverses séquences moléculaires de la molécule d'ADN,
permettant l'identification des nucléotides composant un gène.
Plusieurs méthodes de séquençage de l'ADN sont élaborées par Frederick Sanger
et Walter Gilbert au milieu des années 1970.
Dans la méthode de Sanger, une ADN polymérase synthétise le brin complémentaire
du brin d'ADN à séquencer ; après les réactions de séquençage (coupure
spécifique des brins d'ADN à chaque nucléotide A, T, C et G rencontré et
marquage, puis migration des portions résultantes : voir électrophorèse), il
est possible de lire la séquence des bases selon l'agencement des bandes dans
les 4 pistes adjacentes G, A, T, C, du bas vers le haut.
Cette méthode est basée sur l'emploi de didésoxynucléotides fluorescents (des
nucléotides privés du groupement OH en position 3') : leur incorporation,
aléatoire et rare car ils sont introduits en très petite quantité, interrompt
la synthèse de l'ADN, et les brins d'ADN ainsi produits peuvent ensuite être
classés par taille grâce à l'électrophorèse. La fluorescence révéle alors le
didésoxynucléotide terminal de chaque brin (les 4 possèdant chacun une couleur
spécifique), du plus court au plus long, permettant ainsi la lecture directe du
code ADN formé par les bases ATCG (car tous les brins ont été formés à partir
du même endroit sur l'ADN matrice : l'amorce).
Le pyroséquençage reprend le même principe, mais avec des volumes de réaction
beaucoup plus faibles (quelques picolitres), ce qui accélère sensiblement le
processus. Il a permis de diviser par 100 la durée et le coût du séquençage
d'un génome [06/2008].
D'autres types de séquençages sont également basés sur l'utilisation de
désoxynucléotides fluorescents et d'ADN polymérases : Solexa, Solid ou encore
Helicos tSMS.
Cette dernière méthode permet de séquencer individuellement chaque molécule
d'ADN. Les brins complémentaires de morceaux d'ADN très courts attachés sur une
surface sont tour à tour additionnés d'un seul nucléotide fluorescent. A chaque
cycle, des caméras enregistrent la localisation de la fluorescence provenant
des brins, la séquence de l'ensemble des brins se constituant ainsi peu à peu.
D'autres approches évitent de passer par une réplication de l'ADN avec usage de
flurochromes : des capteurs placés sur une puce dotée de nanopores détectent
les signaux électriques de chaque base d'ADN qui traverse le pore, ce qui
permet de séquencer un petit génome (bactérie) en un temps record et pour un
prix dérisoire [01/2011].
Le coût du séquençage d'un génome humain était de 10 millions de dollars (et
durait 2 mois) en 2007, 250 000 dollars en 2008 ; il est de 20000 dollars (et
ne prend plus qu'une journée) en 2010 [02/2010].
Avec l'arrivée des séquenceurs de 3ème génération, prévue pour 2013 ou 2014,
ce prix devrait chuter à 1000 dollars, et 100 dollars 5 ans plus tard [05/2011].
Une nouvelle méthode de séquençage nommée "nanofluidique" a été mise au point
par l'université de Lund (Suède) : rapide et peu coûteuse, elle permet
d'obtenir une image de l'ADN sous forme de "code-barres" ; très précise aussi,
elle décode une molécule unique d'ADN, au lieu de plusieurs actuellement.
Elle permet ainsi de décoder l'ensemble des chromosomes d'une cellule donnée :
l'ADN est tout d'abord déplié en passant dans un microtunnel, puis il est
chauffé pour casser spécifiquement certaines liaisons (une liaison A-T cassera
à une température plus faible qu'une C-G). Une molécule fluorescente est alors
injectée, qui ne sera séquestrée que dans les zones double-brins (donc aux
liaisons non cassées) de l'ADN. La différence d'intensité de la fluorescence
donne un résultat sous forme de code-barres.
Seule limite de cette technique : il n'est pas possible de déterminer la
séquence nucléotidique exacte, seule une image globale de l'ADN est obtenue
[07/2010].
Le génome d'Otzi, l'homme préhistorique vieux de 5300 ans et retrouvé en 1991
dans le glacier du Similaun à la frontière austro-italienne, a pu être séquencé
en quelques semaines grâce au système d'amplification génétique à haut débit
SOLID (Sequencing by Oligonucleotide Ligation and Detection) [11/2011].
Le premier séquençage complet d'un génome remonte à 1995, il a été effectué
sur la bactérie Haemophilus influenzae (1,913 millions de bases, 1792 bases).
Celui de la drosophile (1,8 milliard de bases, 13 000 gènes) l'a été en 1999.
Celui de l'homme a été lancé en 1990 et déclaré achevé le 14 avril 2003 : le
génome humain compte ainsi 3,12 milliards de paires de bases qui forment
24567 gènes - estimation revue à 20 488 gènes [08/2007] - 19 000 gènes [08/2014].
Le génome d'Homo sapiens le plus ancien séquencé est âgé de 45 000 ans [05/2014].
Le séquençage du génome d'Homo neanderthalensis s'est achevé fin 2006, il est
homologue à 99,5 % à notre génome.
Le génome du chimpanzé a été publié en septembre 2005 ; il est homologue à
celui de l'homme à 98,8 % (mais nous partageons 35 % de notre génome avec
certaines fleurs...)
Le génome du macaque rhésus a été séquencé en 2007 : 93 % de ses gènes sont
communs avec ceux de l'homme [05/2007].
Le génome de la vache a été séquence en 2009, il comporte environ 20000 gènes
et 3 milliards de paires de bases (Mpb).
Le génome de la souris a été séquencé en 2002, il comporte 24174 gènes (soit
2,5 Mpb), dont 88 % sont communs avec ceux de l'homme.
Le génome du marsupiual Monodelphis domestica (un opposum) a été séquencé en
2007, il comporte entre 18000 et 20000 gènes, dont 15000 sont communs à tous
les mammifères, dont il a divergé il y a 180 millions d'années [05/2007].
Le génome de l'ornithorynque vient d'être décrypté, se révélant être un
véritable patchwork des gènes ressemblant à ceux des mammifères, des reptiles
et des oiseaux, dont ils empruntent certaines des caractéristiques [06/2008].
Il comporte 2,2 milliards de bases, correspondant à 18500 gènes répartis sur
52 chromosomes - 80 % de ces gènes sont communs aux mammifères. De très
nombreux éléments y sont répétés selon un schéma proche de celui des reptiles,
mais d'une manière unique et plutôt étrange.
241 gènes sont impliqués dans le complexes de cellules tueuses naturelles
(contre 15 chez l'homme, 9 chez l'opossum et 45 chez le rat).
L'ornithorynque est dépourvu de contrôle épigénétique, tout comme les oiseaux.
Il possède 5 paires de chromosomes sexuels X et Y : le mâle est XYXYXYXYXY et
la femelle XXXXXXXXXX. C'est aussi le seul mammifère qui ne dispose pas du
gène SRY, habituellement disposé sur le chromosome Y et déterminant le sexe,
qui reste donc mystérieuse ici [12/2008].
Le génome du mammouth laineux a été séquencé à près de 80 % [11/2008].
Le génome du poulet a été séquencé en 2004, il comporte 1 milliard de paires de
bases et environ 23000 gènes, dont 75 % sont communs avec ceux de l'homme.
Le génome de la drosophile (1,8 milliard de bases) a été séquencé en 1999, il
comporte 13000 gènes dont les deux tiers sont communs avec ceux de l'homme.
Le génome de l'abeille Apis mellifera a été intégralement décrypté en octobre
2006 : il comporte 10500 gènes et totalise 236 millions de paires de bases.
Le génome de la puce d'eau Daphnia pulex compte 31 000, ce qui en fait l'animal
possédant le plus de gènes ; qui plus est, un tiers de ce patrimoine est inconnu
chez tout autre organisme [03/2011].
Le génome du cafard (Blattus americanus) compte 20 000 gènes, soit l'un des
plus gros génome connus chez les insectes. Ce séquençage permet d'expliquer
son exceptionnelle résistance et son adaptation aux milieux les plus hostiles.
En effet, de nombreux gènes codent pour la chimioréception (pour détecter la
nourriture avec précision), mais aussi le renforcement du système immunitaire,
la détoxification et la régénération des tissus [05/2018].
Le génome du ver plat nématode (Caenorhabditis elegans) a été séquencé en 1998,
il comporte 18000 gènes et 97 millions de paires de bases [08/2007].
Le génome du parasite Plasmodium falciparum (à l'origine du paludisme) a été
séquencé (avec celui du moustique vecteur, l'anophèle) en 2002.
Il comporte environ 5000 gènes pour 20 millions de paires de bases.
Le premier arbre dont le génome ait été séquencé est Populus balsamifera, un
peuplier possèdant 40000 gènes) [11/2004].
Le génome du café a été décodé par le Brésil en 2004, il comprend 35000 gènes
répartis sur 11 chromosomes et 200 000 séquences ADN.
Le génome du riz (Oryza sativa) consiste en 389 millions de bases d'ADN
contenant 37 544 gènes positionnés sur 12 chromosomes [08/2005]
(430 millions de nucléotides pour 50 000 gène [09/2014]).
Le génome du maïs a été décrypté après 15 années de recherche : il comporte
2,5 milliards de bases, dont 85 % de transposons [01/2010].
Le génome du cacaoyer criollo vient d'être décrypté : il comporte 28 798 gènes
répartis sur 10 chromosomes, dont 2053 gènes uniques au cacaoyer [02/2011].
Le décryptage du génome de la tomate s'est achevé en 2012 : il compte 30 000
gènes [08/2013].
Le génome du thé (Camelia sinensis) a été décrypté après 5 ans de travail : il
comporte 37 000 gènes répétés à plus de 80 % sur 3 milliards de paires de bases,
ces rétrotransposons agissant sur la formation et la concentration de la caféine
(théine) et d'autres flavonoïdes (catéchine) [06/2017].
|