Connect

Génétique médicale : Structure et fonction du génome humain

19 août 2022

Le cours sur le génome humain et 16 QCM corrigés

Nous vous invitons à découvrir le chapitre 3 Structure et fonction du génome humain de l'ouvrage Génétique médicale S’ouvre dans une nouvelle fenêtre dans la collection DFGSM 2-3 Médecine .

Benoît Arveiler, Stéphane Bézieau

PLAN DU CHAPITRE

Le projet
Génome humain
ADN codant et non codant dans le génome humain
Polymorphisme du génome humain

Le projet Génome humain

C'est avec la découverte des premiers polymorphismes de l'ADN, les polymorphismes de longueur de fragments de restriction (restriction fragment length polymorphisms ou RFLP) [1], en 1980, que la cartographie du génome humain a pu être envisagée et a réellement débuté. Cette découverte a été le point de départ d'une aventure qui a conduit à l'obtention en 2003 de la carte avec le degré de résolution le plus fin possible, la séquence du génome [2]. Le séquençage du génome humain ne signifie pas pour autant que le bout du chemin a été atteint. Il s'agit d'un point d'étape crucial qui permet maintenant de mieux appréhender la diversité du génome, de dresser un répertoire des gènes qu'il contient, de découvrir plus rapidement des gènes impliqués dans des maladies génétiques à hérédité mendélienne ou non mendélienne, d'investiguer le rôle des séquences situées entre les gènes, et d'aller vers une meilleure compréhension des mécanismes de régulation de l'expression des gènes à l'échelle du génome.

À l'heure où le séquençage du génome ne prend plus que quelques heures, où la découverte d'un nouveau gène responsable d'une maladie génétique ne prend plus que quelques semaines ou mois, il n'est pas inutile de rappeler le cheminement suivi au cours des quatre dernières décennies. C'est ce que nous allons faire dans ce chapitre.

Le travail de cartographie du génome humain a parfois suivi plusieurs chemins en même temps, plusieurs stratégies plus ou moins complémentaires étant mises en oeuvre au gré des savoir-faire particuliers et de l'inventivité des chercheurs impliqués. Pour des raisons didactiques, nous avons délibérément choisi de ne décrire que les principales stratégies qui ont été mises en œuvre.

Carte génétique

L'établissement d'une carte génétique nécessite de disposer de polymorphismes au niveau de l'ADN, définis par au moins deux allèles distincts.

Les RFLP sont des changements d'un nucléotide localisés dans des sites de reconnaissance d'une enzyme de restriction, provoquant ainsi la création ou la perte du site de restriction. Ceci permet de définir deux allèles, caractérisés par la présence ou l'absence du site de restriction. Les RFLP tirent leur appellation du fait que les allèles produits sont caractérisés par des fragments d'ADN de tailles différentes selon que le site est présent ou non (figure 3.1). La découverte des RFLP en 1980 [1] a fourni une source de marqueurs, a priori nombreux et répartis tout le long du génome, pour réaliser des analyses de liaison génétique. Si suffisamment de marqueurs répartis le long de tous les chromosomes pouvaient être identifiés, une carte génétique de chacun des chromosomes pourrait être réalisée. Pour cela, chaque individu est génotypé pour une série de marqueurs localisés sur tous les chromosomes et une analyse de liaison est réalisée jusqu'à trouver des marqueurs liés entre eux parce que localisés dans la même région chromosomique. Les distances génétiques, exprimées en centimorgan (cM), sont alors calculées et l'ordre des marqueurs est déterminé.

Figure 3.1 Polymorphisme de type RFLP (restriction fragment length polymorphism). A. Les séquences partielles de deux allèles sont présentées. L'allèle 1 comporte le site de reconnaissance de l'enzyme de restriction HincII (GTCAAC, souligné). L'allèle 2 ne comporte pas le site de reconnaissance de HincII en raison du remplacement d'un G par un A (ATCAAC). Les nucléotides variants (G et A) sont indiqués en gras. Les flèches indiquent le site de coupure par l'enzyme HincII. B. L'ADN englobant le site polymorphe est représenté par un double brin. L'emplacement du site HincII est indiqué par un trait vertical plein (site présent sur l'allèle 1) ou pointillé (site absent sur l'allèle 2). Les flèches indiquent les amorces utilisées pour la PCR permettant de synthétiser un fragment de 850 pb. La digestion de l'allèle 1 par HincII produit deux fragments de 530 pb et 320 pb. L'allèle 2 n'est quant à lui pas digéré par HincII car le site de reconnaissance est absent.

La première carte génétique de l'homme a été publiée en 1986 avec 400 marqueurs. La limite de l'exercice tenait cependant à la lourdeur de la technique du Southern blot employée à cette époque pour analyser les RFLP et à la faible informativité (définie comme étant le pourcentage d'hétérozygotes pour le marqueur étudié dans la population), au mieux égale à 50 %, des RFLP. De nombreux individus clés dans les familles se trouvaient à l'état homozygote pour divers marqueurs, limitant ainsi la puissance des analyses de liaison génétique.

Un second type de marqueurs polymorphes, très informatifs, a été découvert au milieu des années 1980. Il s'agit des marqueurs microsatellites caractérisés par des répétitions de courtes séquences (des di-, tri- ou tétranucléotides) dont le nombre d'unités de répétition permet de définir différents allèles. Le nombre d'allèles peut être élevé (classiquement 5 à 10), et l'informativité des marqueurs est souvent supérieure à 80 %. Ces marqueurs sont trouvés en moyenne tous les 30 kb le long du génome. L'ensemble de ces caractéristiques fait des microsatellites des marqueurs de choix pour réaliser des analyses de liaison génétique. Les microsatellites les plus représentés, et qui ont été utilisés en très grande majorité pour construire la carte génétique du génome humain, sont les répétitions de dinucléotides CA.

Un fait important a été l'invention, également au milieu des années 1980, de la technique de polymerase chain reaction (PCR) [3]. Cette technique, qui permet spécifiquement d'amplifier des séquences particulières du génome, s'est révélée parfaitement adaptée au génotypage des microsatellites. En effet, les différents allèles d'un marqueur microsatellite ont des tailles différentes en fonction du nombre d'unités de répétition (CA)n. La migration des produits de PCR sur des séquenceurs automatiques, dont les premiers modèles ont été commercialisés à la fin des années 1980, a rendu très aisé le génotypage des microsatellites.

Le génotypage de masse (nombreux microsatellites sur de nombreux individus) devenait possible et ouvrait la voie pour construire la carte génétique de l'ensemble des chromosomes humains (hormis le chromosome Y qui est unique et ne recombine donc pas).

Très rapidement a été entreprise au laboratoire Généthon, mis en place à Évry sous l'impulsion de l'Association française contre les myopathies, la construction d'une nouvelle carte génétique du génome humain en génotypant les individus de grandes familles à trois générations avec 5264 marqueurs microsatellites. La carte génétique de référence a été publiée en 1996 [4].

Cette carte permettait de déterminer le long de chaque chromosome humain l'ordre des microsatellites et les distances les séparant (figure 3.2).

Figure 3.2 De la carte génétique au séquençage du génome humain. Un chromosome est représenté par son idéogramme. La carte génétique de ce chromosome est établie à l'aide de marqueurs microsatellites représentés par des traits horizontaux. Le chromosome est symbolisé par un trait vertical et son centromère par un hachuré. La carte physique a été construite en identifiant des clones BAC chevauchants et ordonnés grâce aux marqueurs génétiques qu'ils contiennent (petits traits verticaux). Chacun des BAC a ensuite été séquencé après sous-clonage en petits fragments. Le séquençage de chacun des BAC a permis de reconstituer la séquence complète de chaque chromosome.

Carte physique

En plus de la carte génétique, il était nécessaire de réaliser une carte ordonnée de segments d'ADN qui reconstitue chacun des chromosomes. C'est ce que l'on appelle la carte physique. Le principe revient à couper l'ADN de l'ensemble du génome en de multiples fragments et à réassembler ces fragments de façon à reconstituer chacun des chromosomes.

La technologie de clonage de fragments d'ADN de 100 à 150 kb sous forme de chromosomes artificiels de bactéries (bacterial artificial chromosome ou BAC) a été utilisée pour créer une banque génomique du génome humain, chaque clone bactérien contenant un fragment particulier du génome. Le fait d'avoir à disposition la carte génétique a constitué un atout important. En effet, les microsatellites ont été utilisés pour identifier dans la banque de BAC le ou les clones qui leur correspondaient. D'autres marqueurs non polymorphes analysables par PCR ont également été utilisés. Des clones chevauchants ont été successivement identifiés, ce qui a permis de construire une carte continue de clones BAC pour chacun des chromosomes. Ceci constitue la carte physique du génome humain.

Séquençage du génome

La carte physique construite avec les BAC a constitué le matériel utilisable pour séquencer chacun des chromosomes. Pour cela, chaque BAC (100–150 kb) a été digéré à l'aide d'enzymes de restriction en fragments chevauchants de quelques centaines de paires de bases qui ont été sous-clonés dans des plasmides et séquencés individuellement par la technique de Sanger. Les séquences chevauchantes obtenues ont été assemblées successivement et les étapes de sous-clonage–séquençage ont été répétées jusqu'à ce que la séquence complète de chaque BAC soit obtenue (figure 3.2).

C'est ainsi que la séquence de chaque chromosome, et donc du génome entier, a été obtenue.

Ce travail a été réalisé par un consortium d'une vingtaine de laboratoires publics entre 1997 et 2003. Son analyse a permis de réduire à 23 000 le nombre de gènes attendus dans le génome humain.

Quelques segments de notre génome demeurent non séquencés et ne pourront peut-être jamais l'être. Ils correspondent à des régions soit difficiles à séquencer, en raison par exemple de leur extrême richesse en nucléotides C et G, soit difficiles à assembler, en raison notamment de la présence de très nombreuses séquences répétées qui empêchent la localisation précise des séquences sur tel ou tel chromosome.

Projet HapMap

Le séquençage du génome humain, issu de plusieurs individus appartenant à des populations différentes, a mis en évidence l'existence d'un haut degré de polymorphisme. Il a notamment été montré qu'il existe en moyenne une variation d'un nucléotide toutes les 500 bases le long de notre génome. C'est ce que l'on appelle les single nucleotide polymorphisms (SNP). Cette très forte densité de SNP constitue un outil extrêmement utile pour réaliser des études d'association génétique en vue d'identifier les gènes de prédisposition aux maladies multifactorielles. Afin de tirer tout le parti de ces SNP, un projet appelé HapMap (pour haplotype map) a vu le jour en 2002 et s'est déroulé en trois phases jusqu'en 2010. Ce projet avait pour objectif de définir le degré d'informativité de chaque SNP et d'identifier des groupes de SNP se trouvant en déséquilibre de liaison, c'est-à-dire pour lesquels certains allèles ségrègent toujours ensemble sous la forme d'haplotypes. De façon importante, ceci a permis de définir au sein de chaque groupe de SNP un SNP de référence appelé Tag-SNP qui représente tous les autres. Ainsi, ce seul SNP de référence peut être utilisé dans les études d'association, ce qui restreint le nombre de marqueurs à tester et donc le coût (figure 3.3).

Figure 3.3 Cartographie HapMap. Une série de SNP bialléliques appartenant à une région génomique d'intérêt sont indiqués (SNP 1 à 16) avec pour chacun les deux allèles (entre parenthèses). À droite sont indiqués les trois TAG – SNP qui jouent le rôle de représentant pour les autres SNP qui les entourent.

Projet 1000 Génomes

Avec l'arrivée du séquençage haut débit (next-generation sequencing ou NGS ; voir chapitre 11), il est devenu possible de réaliser du séquençage en masse à très faible coût. Le projet 1000 Génomes a pour objectif de dresser un répertoire complet du polymorphisme humain et ceci dans les différentes populations à travers le monde. On sait notamment que les fréquences alléliques des SNP varient d'une population à l'autre. Il est important de caractériser finement ces différences car elles ont, notamment, un effet sur les études d'associations, dans lesquelles il convient de tenir compte de ces différences afin de ne pas fausser les résultats.

Ainsi le projet 1000 Génomes s'est attaché à séquencer le génome de 3200 individus appartenant à plus de 200 populations différentes (www.internationalgenome.org S’ouvre dans une nouvelle fenêtre).

Conclusion

Ce sous-chapitre résume le travail réalisé depuis les années 1980 et qui se poursuit aujourd'hui.

La motivation initiale et principale de ce projet était l'identification des gènes impliqués dans les maladies mendéliennes.

Le séquençage de l'exome (c'est-à-dire l'ensemble des exons des quelque 23 000 gènes que contient notre génome), ou du génome entier, disponible depuis le début des années 2010, a permis d'accélérer l'identification de la causalité de certains gènes dans les maladies rares. Le site Internet Online Mendelian Inheritance in Man^® (OMIM^® : www.omim.org S’ouvre dans une nouvelle fenêtre) recense plus de 4000 gènes responsables de près de 6000 maladies rares monogéniques.

L'obtention de la séquence du génome ouvre des perspectives nouvelles dans des domaines aussi divers que l'identification des variants de prédisposition aux maladies complexes, l'étude de la fraction transcrite du génome, la régulation de l'expression des gènes à l'échelle du génome, la pharmacogénétique et la génétique des populations.

ADN codant et non codant dans le génome humain

Le génome humain compte environ 3,2 milliards de paires de bases d'ADN. Il contient des gènes codant pour des protéines, au nombre d'environ 23 000. Cependant, notre compréhension du fonctionnement du génome demeure limitée, notamment pour ce qui concerne les transcrits ne codant pas pour des protéines et les éléments génomiques qui régulent l'expression spatiale et temporelle des gènes. Il était donc nécessaire d'explorer l'intégralité du génome pour établir un répertoire de l'ensemble des éléments fonctionnels du génome. Ceci a constitué la base du projet ENCODE (Encyclopedia of DNA elements) réalisé par un très large consortium international de laboratoires (www.encodeproject.org S’ouvre dans une nouvelle fenêtre) [5].

Un élément fonctionnel du génome peut être considéré comme un segment du génome qui code pour un produit défini (par exemple une protéine ou un ARN non codant) ou qui comporte une signature biochimique reproductible (par exemple, la capacité à lier une protéine, telle qu'un facteur de transcription, ou une structure chromatinienne spécifique). Nous allons décrire brièvement ces catégories.

Gènes

Nous définissons ici un gène comme un ensemble de séquences permettant la fabrication d'un produit fonctionnel, qui peut être une molécule d'ARN (certains gènes sont transcrits, mais non traduits en protéines) ou une protéine. Cette définition rend compte à la fois de l'existence de séquences codantes, mais aussi de séquences régulant l'expression du gène, et de l'effet observable sur le phénotype de variants se produisant dans les différents segments fonctionnels du gène. Les gènes sont entrecoupés par des séquences dites intergéniques qui représentent environ 90 % de notre génome et dont le contenu et le rôle commencent à être décryptés. Nous verrons ainsi le rôle d'éléments qui régulent à distance des séquences transcrites.

Gènes codant pour des protéines

Un gène codant pour une protéine est transcrit dans le noyau en ARN prémessager, qui est épissé pour donner l'ARN messager (ARNm). Ce dernier traverse la membrane nucléaire pour passer dans le cytoplasme où il est traduit en protéine au niveau des ribosomes.

Figure 3.4 Structure d'un gène. Les exons sont représentés par des boîtes rectangulaires. Les parties hachurées correspondent aux régions 5′ et 3′ non traduites (5′UTR et 3′UTR). Les introns sont représentés par une ligne continue. Le site d'initiation et signal de fin de transcription et le site de polyadénylation sont indiqués. ATG : site d'initiation de la traduction ; CCAAT : CCAAT box ; Enh : enhancer ; LCR : locus control region ; TATA : TATA box ; TGA : codon STOP.

Un gène codant pour une protéine comporte (figure 3.4) :

les exons, qui contiennent les séquences codantes du gène, traduites en protéine en suivant le code génétique. Il faut noter que le premier exon débute généralement par des séquences non traduites (dites séquences 5′ non traduites ; 5′UTR en anglais pour 5′
untranslated region
). Le 5′UTR peut dans certains cas englober tout le premier exon et une partie du second exon. De même le dernier exon se termine généralement par des séquences non traduites (dites séquences 3′ non traduites ou 3′UTR) ;
la transcription du gène démarre généralement sur la première base de l'exon 1 du gène (site d'initiation de la transcription) ;
la traduction en protéine démarre quant à elle sur l'ARNm au niveau du site d'initiation de la traduction défini par un codon AUG codant pour l'acide aminé méthionine. La traduction en protéine s'arrête au niveau du codon STOP (UAG, UGA ou UAA). À noter également l'existence d'un site de polyadénylation qui permet l'ajout d'une queue polyA à l'ARNm ;
les introns, qui sont intercalés entre les exons. Les jonctions entre les exons et les introns constituent ce que l'on appelle les sites d'épissage (donneurs et accepteurs). Il est à noter que certains gènes n'ont qu'un seul exon, et donc pas d'introns ;
des éléments régulateurs. Les quelques dizaines ou centaines de paires de base situées en amont du site d'initiation de la transcription constituent le promoteur du gène qui contient des séquences telles que la TATA box et la CCAAT box, et d'autres séquences liant des facteurs et cofacteurs de transcription. Il est à noter que des séquences régulatrices peuvent se situer également dans les introns des gènes, notamment parce que des gènes de petits ARN non codants (voir ci-dessous) sont volontiers assemblés en groupes (ou
clusters
) dans les introns. Des éléments régulateurs peuvent être également localisés à grande distance des séquences transcrites. Nous en parlerons plus loin.

Gènes transcrits en ARN non traduits en protéines

Il est frappant de constater que 75 % du génome est transcrit en molécules d'ARN de plus de 200 nucléotides. Seuls 5,5 % des transcrits sont issus d'exons, le restant étant issu des introns et régions intergéniques. Nombre de petits ARN inclus dans des introns ont une complémentarité pour des gènes codant pour des protéines et peuvent réguler (généralement de façon négative) l'expression des gènes dans les introns desquels ils sont inclus. Il a été dénombré environ 7000 petits ARN (miRNA, snRNA, snoRNA, tRNA) dont 40 % sont issus des régions promotrices ou terminales des gènes. Il est à noter également que 18 % des transcrits sont issus d'éléments répétés du génome (SINE dont les séquences de type Alu ; LINE dont les séquences de type L1, notamment) ; ces transcrits semblent avoir un rôle dans la spécificité cellulaire. Il a été observé qu'un choc thermique provoquait la transcription de séquences répétées de type Alu en molécules d'ARN qui peuvent réprimer l'ARN polymérase II à des loci spécifiques et jouer par conséquent un rôle de répresseurs de l'expression de certains gènes. Les gènes qui sont transcrits en ARN ne codant pas pour des protéines et qui sont dits « non codants » sont souvent rassemblés en clusters dans certaines régions génomiques.

On retiendra différentes catégories d'ARN non codants :

Les petits ARN nucléaires (
small nuclear RNA
ou snRNA) entrent dans la composition de complexes ribonucléoprotéiques appelés
small nuclear ribonucleoproteins
(snRNP) qui sont impliqués dans l'épissage des ARN prémessagers ;
les petits ARN nucléolaires (
small nucleolar RNA
ou snoRNA) dont il existe environ 400 représentants, ont pour rôle la modification post-transcriptionnelle des ARN ribosomiques (ARNr) au niveau du nucléole. En association avec des protéines, ils forment les
small nucleolar ribonucleoprotein

(snoRNP) qui modifient de façon spécifique certains nucléotides des ARNr, soit par 2′-O-méthylation, soit par pseudo-uridylation ;
les micro-ARN (miRNA) au nombre d'environ 1900, jouent un rôle important dans la régulation post-transcriptionnelle des gènes codant pour des protéines en s'appariant avec des séquences homologues dans la région 3′ non traduite des ARNm. Soit ils provoquent une dégradation de l'ARNm, soit ils empêchent sa traduction en protéine et régulent donc de façon négative l'expression des gènes ;
les longs ARN non codants (long non-coding RNA ou lncRNA) correspondent à des trancrits de plus de 200 nucléotides. D'après HumanGENCODE (
www.gencodegenes. org/human S’ouvre dans une nouvelle fenêtre
), il y aurait 16 000 lncRNA même si d'autres sources en dénombreraient 100 000, ce qui montre bien que les connaissances ne sont pas complètes sur le sujet [6]. Le plus connu est l'ARN

Xist
pour son rôle dans l'inactivation du chromosome X. D'autres sont impliqués dans le phénomène d'empreinte génomique parentale (voir chapitre 21). Certains lncRNA pourraient jouer un rôle dans la régulation épigénétique du génome. Par ailleurs,
HOTAIR
, l'un des 231 lncRNA associés aux
clusters
de gènes
HOX
et exprimés de façon colinéaire le long des axes de développement, est transcrit à partir du locus
HOXC
et réprime le
cluster HOXD
, indiquant le rôle de certains de ces longs ARN dans le contrôle du développement embryonnaire ;
les ARN de transfert (
transfer RNA
ou tRNA) pour lesquels il existe près de 500 gènes, sont chargés d'apporter les acides aminés au niveau des ribosomes lors de la synthèse des protéines.

Éléments régulateurs à distance des séquences transcrites

On sait aujourd'hui que des éléments de régulation de l'expression des gènes peuvent se situer à plusieurs dizaines, voire plusieurs centaines, de kilobases en amont des séquences exprimées. Ces éléments sont les séquences dites amplificatrices de l'expression (ou enhancer en anglais). Il existe également des séquences dites « régions de contrôle de locus » (locus control region ou LCR), parfois aussi appelées séquences insulatrices (figure 3.4) qui encadrent le gène, ou parfois un groupe de gènes, et bornent une région génomique pour en quelque sorte l'isoler du reste du génome et permettre la régulation fine, spatiale et temporelle des gènes contenus dans ce segment. Ce segment génomique est dénommé topologically associated domain ou TAD (voir chapitre 1).

L'existence d'éléments régulateurs localisés à distance des séquences exprimées a été longtemps suspectée car certains patients atteints d'une pathologie génétique n'avaient pas de variant dans le gène normalement impliqué. Certains patients avaient une translocation chromosomique avec l'un des points de cassure localisé à quelques dizaines ou centaines de kilobases du site d'initiation de la transcription du gène, laissant supposer que le point de cassure chromosomique soit interrompait un enhancer, soit séparait un enhancer de la région promotrice du gène, empêchant ainsi une interaction nécessaire à l'expression du gène. On parle dans ce cas d'effet de position.

Ces éléments de régulation correspondent volontiers à des séquences très conservées au cours de l'évolution en raison de leur importance fonctionnelle et sont appelés éléments non codants conservés (conserved non-coding elements ou CNE). Les éléments régulateurs agissant en cis influencent souvent l'expression spatio-temporelle des gènes impliqués dans le développement embryonnaire. De tels éléments ont été identifiés par exemple en amont et en aval du gène SHOX localisé dans la région pseudo-autosomale PAR1 sur le chromosome X ou Y (Xp22.33 et Yp11.32). En 1998, des variants ponctuels et des délétions hétérozygotes intragéniques responsables d'une haplo-insuffisance du gène SHOX avaient été identifiés comme responsables d'une maladie rare autosomique dominante : la dyschondrostéose de Léri-Weill (DLW). La dyschondrostéose est une dysplasie osseuse associée chez les patients à une insuffisance staturale modérée, une micromélie mésomélique et une déformation du radius et du cubitus dans la majorité des cas (déformation de Madelung). En 2005, il a été trouvé, dans une série de patients avec un syndrome de Léri-Weill sans variants ponctuels, des délétions hétérozygotes dans la région PAR1 en 3′ du gène SHOX. Ces délétions étaient situées dans une région de 200 kb contenant 8 séquences CNE. D'autres enhancers ont ensuite été localisés également dans la région 5′ à distance du gène SHOX (figure 3.5). Ces éléments sont conservés chez toutes les espèces qui possèdent un orthologue de SHOX. La fonction de ces CNE en tant qu'amplificateurs de la transcription de SHOX a été démontrée dans des cellules humaines, dans les bourgeons des membres de poulet et chez le poisson-zèbre. Il a été démontré par la suite que les variants de SHOX ou de ses enhancers extragéniques constituaient également la première cause génétique de petite taille isolée non syndromique [7].

Figure 3.5 Sept éléments non codants conservés (highly conserved non coding sequence ou HCNE ; evolutionnary conserved region ou ECR) identifiés dans PAR1 décrits comme enhancers du gène SHOX. La ligne horizontale supérieure indique la distance physique à partir du télomère Xp/Yp (Tel).

Ainsi, même si l'on considère qu'environ 90 % des variants pathogènes sont localisés dans les séquences codantes des gènes, il convient d'étudier les éléments régulateurs, qui peuvent être dans certains cas localisés à grande distance des séquences codantes, en amont ou en aval des gènes.

Perspectives

Une description complète du contenu du génome est indispensable pour comprendre comment le génome orchestre les différents et complexes processus biologiques au cours de la vie. Nous voyons bien que les découvertes récentes concernant le niveau de transcription global du génome à partir de séquences très diverses ouvrent des perspectives nouvelles concernant la régulation fine de l'expression des gènes à l'échelle du génome. De façon un peu provocatrice, on peut même penser que les lncRNA pourraient plus contribuer à la spécificité cellulaire que les gènes codant pour des protéines. On entrevoit aussi que des anomalies du génome altérant l'expression d'ARN non codants peuvent entraîner des dérégulations à l'origine de maladies génétiques et entraîner une prédisposition à des maladies multifactorielles.

Nous avons ici évoqué essentiellement la description de l'ensemble des transcrits, mais le paysage de notre génome comprend d'autres éléments fonctionnels, dont la caractérisation vient compléter notre compréhension du fonctionnement intégré du génome et qui ont été pris en compte par le projet ENCODE. Ces éléments fonctionnels sont : i) les sites de liaisons de protéines (par exemple les facteurs de transcription), ii) les zones de la chromatine de conformation ouverte (sensibles à la désoxyribonucléase ou DNase), iii) les régions associées de façon spécifique à des profils particuliers de modification des histones (acétylation ou mono-, di- ou triméthylation de résidus lysines qui sont caractéristiques, selon les types de modification, de régions actives ou silencieuses transcriptionnellement ou d'éléments tels que certains enhancers, etc.), et iv) le degré de méthylation de l'ADN.

Enfin, un important champ d'investigation concerne les interactions à distance entre séquences génomiques distantes de plusieurs centaines ou milliers de kilobases. Ces interactions peuvent avoir lieu au sein d'un même chromosome (elles sont alors dites « en cis ») et autorisent, par exemple, après repliement de la chromatine, la mise en contact d'un élément enhancer avec un promoteur pour activer l'expression d'un gène. Ces interactions peuvent aussi avoir lieu entre des séquences localisées sur des chromosomes différents (dites « en trans ») indiquant l'existence d'un degré supplémentaire de régulation du génome.

Un champ nouveau d'étude du génome concerne la topographie des chromosomes à l'intérieur du noyau. Chaque chromosome occupe en effet une place spécifique au sein du noyau, certains étant situés au centre, d'autres en position plus périphérique. On parle de territoire chromosomique [8]. Au sein même de chaque chromosome, les différentes régions ont des positionnements plus ou moins centraux ou périphériques. Il a été montré que les régions actives sur le plan transcriptionnel occupaient des positions centrales, alors que les séquences localisées en périphérie du noyau étaient préférentiellement silencieuses. On comprend donc que des séquences appartenant à des chromosomes différents, mais colocalisées spatialement dans le noyau, ont des probabilités plus élevées d'entrer en contact, ceci pouvant aboutir à la corégulation de gènes situés sur des chromosomes différents. Par ailleurs, on comprend tout aussi facilement que des remaniements chromosomiques tels que des translocations, délétions, duplications ou inversions de larges régions du génome peuvent entraîner une relocalisation aberrante d'un chromosome ou d'une portion de chromosome dans un nouvel environnement au sein du noyau. Ceci peut provoquer la dérégulation de l'expression d'un ou plusieurs gènes et/ou altérer les interactions avec d'autres régions chromosomiques (soit en les abolissant, soit en en créant de nouvelles) [9].

Ceci engendre un mécanisme supplémentaire pour expliquer certaines maladies génétiques. Ainsi, notre vision du fonctionnement normal de notre organisme et des mécanismes physiopathologiques à l'origine de maladies doit-elle prendre en compte non seulement ce qui se passe au niveau d'un gène ou d'un groupe de gènes particuliers, mais intégrer une conception globale à l'échelle du génome.

Polymorphisme du génome humain

L'analyse du génome depuis quarante ans a montré l'existence de polymorphismes de l'ADN de divers types. Le terme de polymorphisme, au sens littéral, indique le fait qu'une séquence d'ADN peut prendre plusieurs formes. Nous décrirons ici les différentes classes de variations de séquences qui ont été mises en évidence. Le titre retenu « polymorphisme du génome humain » indique combien notre génome est différent d'un individu à l'autre.

Lorsque l'on compare le génome d'un individu au génome dit « de référence », un grand nombre de différences est observé. Ces différences sont appelées des variants. La plupart des variants sont sans effet évident sur le phénotype de l'individu et sont communément représentés dans la population. Les variants présents à une fréquence supérieure ou égale à 1 % dans la population sont communément considérés comme des « polymorphismes ». Certains variants sont responsables de maladies génétiques et sont classés comme « pathogènes » (voir p. 2).

Les variants peuvent être localisés dans tout type de séquence de notre génome : dans les gènes (exons, introns, séquences régulatrices) ou entre les gènes. Il faut donc toujours apprécier l'effet que peut avoir le variant considéré sur le bon fonctionnement du génome, en prenant en compte le type de variant et sa localisation.

Variants d'un nucléotide (single nucleotide variant ou SNV)

La comparaison de la séquence de différents génomes indique qu'en moyenne un nucléotide tous les 500 nucléotides est variant. Cela signifie que notre génome, qui compte 3,2 milliards de paires de bases, comporte environ 6 millions de variants de ce type, que l'on appelle des SNV. Dans la plupart des cas, le SNV peut prendre deux formes différentes, c'est-à-dire que le nucléotide de référence peut être remplacé par un autre, toujours le même : par exemple un A remplacé par un C. Le SNV est alors dit biallélique car il y a deux allèles possibles. Plus rarement, le nucléotide de référence peut être remplacé par un choix de deux nucléotides (A remplacé par C ou T, par exemple) ou trois nucléotides (A remplacé par C, T ou G). On parle alors de SNV tri- ou tétra-allélique, respectivement. On décrit pour chacun des SNV la fréquence des différents allèles dans la population. Pour un SNV biallélique, l'informativité (définie comme le pourcentage d'hétérozygotes) maximale de 50 % est obtenue si les deux allèles ont la même fréquence de 50 % dans la population considérée.

Le terme de SNV est neutre, en ce sens qu'il ne comporte pas de connotation quant à la pathogénicité du variant. Les SNV sont situés à travers tout le génome. Certains sont localisés dans des gènes, d'autres en dehors des gènes. Certains SNV, classés comme probablement pathogènes ou pathogènes, sont responsables de maladies génétiques. Les SNV non pathogènes sont appelés SNP (single nucleotide polymorphism). Certains SNP peuvent cependant faiblement altérer la fonction d'un gène : il peut s'agir, par exemple, de SNP localisés dans la séquence codante d'un gène et introduisant des variants faux-sens avec un effet peu important sur la fonction de la protéine codée par le gène, ou de SNP situés dans la région régulatrice et qui peuvent avoir un effet faible sur le niveau d'expression du gène. Ces SNP sont dits fonctionnels (en raison de l'effet possible ou avéré sur la fonction d'un gène) et peuvent éventuellement constituer des polymorphismes de prédisposition à des maladies multifactorielles.

En raison de leur grand nombre et de leur présence tout le long du génome, les SNP constituent des marqueurs très utiles pour effectuer une cartographie à l'échelle du génome ou ciblée sur telle ou telle région chromosomique d'intérêt particulier. L'établissement d'un répertoire exhaustif des SNP et leur caractérisation dans les diverses populations appartenant aux cinq continents font l'objet des projets HapMap et 1000 Génomes (voir plus haut Le projet Génome humain). Le caractère binaire de ces polymorphismes (présence de l'un ou l'autre des allèles, pour ce qui concerne les SNP bialléliques) et le développement de techniques de génotypage peu onéreuses permettent la réalisation d'analyses en masse de panels de plusieurs centaines de milliers de SNP simultanément (classiquement entre 250 000 et 1 000 000) sur des cohortes de plusieurs centaines ou milliers d'individus dans des études d'association visant notamment à identifier des marqueurs de prédisposition aux maladies complexes.

L'ensemble des SNP est répertorié dans des bases de données telles que dbSNP (www.ncbi.nlm.nih.gov/projects/SNP S’ouvre dans une nouvelle fenêtre) et gnomAD (gnomad.broadinstitute.org S’ouvre dans une nouvelle fenêtre).

Les polymorphismes de longueur de fragment de restriction (RFLP) sont des SNP particuliers en ce sens qu'ils touchent des sites de reconnaissance d'enzymes de restriction, en abolissant ou en créant un site (figure 3.1). Ce sont les premiers polymorphismes de l'ADN à avoir été mis en évidence en 1980 [10]. Leur analyse peut difficilement être automatisée et les RFLP sont aujourd'hui peu utilisés.

Microsatellites

Les microsatellites sont des répétitions de courtes séquences (des di-, tri- ou tétranucléotides) dont le nombre d'unités de répétition permet de définir différents allèles. Le nombre d'allèles peut être élevé (classiquement 5 à 10) et l'informativité de ces marqueurs est le plus souvent supérieure à 80 % (figure 3.6). Par exemple, pour un marqueur ayant 10 allèles, si chacun des allèles a une fréquence de 10 % dans la population, l'informativité sera de 90 %. Ces marqueurs sont trouvés en moyenne tous les 30 kb le long du génome. Les microsatellites les plus représentés sont les répétitions de dinucléotides CA. Ces marqueurs, en raison de leur grande informativité et de la relative facilité avec laquelle ils peuvent être génotypés, ont été utilisés pour construire la carte génétique du génome humain. Ils sont aujourd'hui délaissés pour les études à grande échelle au profit des SNP.

Figure 3.6 Microsatellite. Un exemple de microsatellite avec une répétition de dinucléotides CA est représenté. Les 8 allèles de ce microsatellite diffèrent par le nombre de CA. Les flèches indiquent les amorces, localisées dans des séquences spécifiques flanquant le microsatellite, permettant l'amplification par PCR. Chaque allèle se distingue des autres par sa taille, mesurée en paires de bases à l'aide d'un séquenceur automatique.

Nous mentionnons ici d'autres polymorphismes multialléliques, les minisatellites, qui sont des répétitions en tandem d'unités de répétition dont la longueur est classiquement comprise entre 20 et 100 paires de bases. Ces minisatellites ont eu leur heure de gloire durant les années 1980 car ils ont été les premiers marqueurs utilisés pour effectuer des empreintes génétiques en médecine légale. Ils sont maintenant remplacés pour ces analyses par un panel de microsatellites utilisé par tous les laboratoires à travers le monde.

Variants de nombre de copies (copy number variation ou CNV)

L'analyse du génome par la technique d'hybridation génomique comparative sur puces à ADN (analyse chromosomique sur puces à ADN ou ACPA) a permis de mettre en évidence l'existence de délétions et de duplications de segments d'ADN dont la taille peut s'échelonner entre quelques milliers et quelques millions de paires de bases, regroupées sous le nom de CNV (copy number variation). S'il était bien connu que certaines de ces anomalies de structure chromosomique étaient responsables de maladies génétiques, ou de syndromes microdélétionnels, en raison de la perte des gènes contenus dans les segments délétés, la découverte de ces variations de structure chez des individus de la population générale a constitué une surprise, d'autant plus que les segments concernés peuvent contenir plusieurs (parfois nombreux) gènes. Étant trouvés dans la population générale sans être associés à une pathologie apparente, ces événements constituent donc des polymorphismes [11].

Ces polymorphismes sont nombreux et trouvés à travers l'ensemble du génome. On considère qu'entre 5 et 10 % du génome sont concernés par ces polymorphismes. Ceci constitue une surprise pour un génome diploïde dont on considérait jusque-là que son intégrité en termes de nombre de copies devait être scrupuleusement respectée. Ainsi, selon qu'il s'agit de délétions ou de duplications, et en fonction de leur présence à l'état hétérozygote ou homozygote pour le polymorphisme, un individu peut être porteur de 0, 1, 2, 3 ou 4 copies des segments génomiques concernés.

Outre les délétions et duplications, les variants structuraux comprennent aussi des inversions intrachromosomiques, qui sont toutefois moins nombreuses mais aussi techniquement beaucoup plus difficiles à mettre en évidence.

Les CNV sont répertoriés dans des banques de données, notamment la Database of Genomic Variants (dgv.tcag.ca/dgv/app/home S’ouvre dans une nouvelle fenêtre) et Decipher (decipher.sanger.ac.uk S’ouvre dans une nouvelle fenêtre).

En raison de la fraction du génome concernée et de la taille et du contenu en gènes de certains d'entre eux, les CNV ont été rapidement considérés comme de possibles facteurs de prédisposition aux maladies multifactorielles. De fait, plusieurs études ont montré que certains CNV étaient associés à des maladies non mendéliennes.

Références

[1] Botstein D, White RL, Skolnick M, et al. Construction of a genetic linkage map in man using restriction fragment length polymorphisms. Am J Hum Genet 1980 ;32:314–31. [2] International Human Genome Sequencing Consortium. Finishing the euchromatic sequence of the human genome. Nature 2004 ;431:931–45. [3] Mullis K, Faloona F, Scharf S, et al. Specific enzymatic amplification of DNA in vitro : the polymerase chain reaction. Cold Spring HarbSymp Quant Biol 1986 ;51(Pt 1):263–73. [4] Dib C, Fauré S, Fizames C, et al. A comprehensive genetic map of the human genome based on 5,264 microsatellites. Nature 1996 ;380:152–4. [5] Encode Project Consortium. An integrated encyclopedia of DNA elements in the human genome. Nature 2012 ;489:57–74. [6] Statello L, Guo CJ, Chen LL, Huarte M. Gene regulation by long non-coding RNAs and its biological functions. Nat Rev Mol Cell Biol 2021 ;22:96–118. [7] Marchini A, Ogata T, Rappold GA. A Track Record on SHOX: From Basic Research to Complex Models and Therapy. Endocrine Reviews 2016 ;37:417–48. [8] Dostie J, Bickmore WA. Chromosome organization in the nucleus – charting new territory across the Hi-Cs. Current Opinion in Genetics & Development 2012 ;22:125–31. [9] Harewood L, Fraser P. The impact of chromosomal rearrangements on regulation of gene expression. Human Molecular Genetics 2014 ;23(R1):R76–82. [10] Botstein D, White RL, Skolnick M, et al. Construction of a genetic linkage map in man using restriction fragment length polymorphisms. Am J Hum Genet 1980 ;32:314–31. [11] Redon R, Ishikawa S, Fitch KR, et al. Global variation in copy number in the human genome. Nature 2006 ;444:444–54.

ENTRAÎNEMENT 3 QCM-QROC

Le projet Génome humain

QCM 1 La carte génétique a été construite à l'aide de : A. Marqueurs polymorphes B. Marqueurs non polymorphes C. RFLP D. Microsatellites E. SNP

Corrigé

QCM 1 : A, C, D

QCM 2 La carte génétique : A. A été construite par analyse de liaison génétique B. Représente la localisation de chacun des gènes de notre génome C. Répertorie tous les gènes de notre génome D. N'a finalement eu aucun impact sur le déroulement du projet Génome humain E. A été un prérequis pour construire la carte physique du génome

Corrigé

QCM 2 : A, E

QCM 3 La carte physique : A. Représente l'ordre des marqueurs microsatellites le long du génome B. A été constituée par l'assemblage de BAC ordonnés C. A été construite après criblage des BAC uniquement avec des marqueurs non polymorphes D. A ensuite permis le séquençage du génome E. A été construite après le séquençage du génome

Corrigé

QCM 3 : B, D

QCM 4 HapMap et projet 1000 Génomes : A. Sont des phases du projet Génome humain consécutives du séquençage du génome B. Ont permis d'identifier et caractériser la variabilité du génome C. HapMap a permis de sélectionner des SNP représentatifs des différentes régions du génome D. Le projet 1000 Génomes a pour objet de séquencer 1000 fois le même génome E. Le projet 1000 Génomes répertorie l'ensemble des polymorphismes dans plus de 200 populations

Corrigé

QCM 4 : A, B, C, E

QCM 5 Le projet Génome humain : A. Est aujourd'hui à son terme B. A permis d'identifier les gènes impliqués dans de nombreuses maladies génétiques C. Permet aujourd'hui de rechercher les gènes impliqués dans les maladies multifactorielles D. A démontré la grande variabilité du génome humain E. Ouvre des perspectives pour découvrir des mécanismes de régulation de l'expression des gènes à l'échelle du génome

Corrigé

QCM 5 : B, C, D, E

QROC 1 Expliquez comment le séquençage du génome a été rendu possible à partir des cartes génétique et physique du génome.

Corrigé

QROC 1 : une banque de BAC (bacterial artificial chromosomes) a été criblée à partir de marqueurs polymorphes localisés sur la carte génétique et d'autres marqueurs non polymorphes dont la localisation était connue. Ceci a permis d'ancrer les BAC le long des chromosomes jusqu'à couvrir chaque chromosome à l'aide de BAC ordonnés. Chacun de ces BAC a alors été séquencé individuellement. Pour cela, chaque BAC (qui comporte un fragment génomique de 100 à 150 kb) a été coupé en petits morceaux chevauchants de quelques centaines de paires de bases qui ont été séquencés. Les séquences ont été assemblées jusqu'à reconstituer la séquence complète de chaque BAC. L'assemblage des séquences de tous les BAC a permis d'obtenir la séquence de chaque chromosome et, par là même, celle de l'ensemble du génome humain.

ADN codant et non codant dans le génome humain

QCM 1 Structure d'un gène. Un gène comprend : A. Des exons B. Des protéines C. Des introns D. Des séquences régulatrices E. Des ribosomes

Corrigé

QCM 1 : A, C, D

QCM 2 Les gènes : A. Codent tous pour des protéines B. Leur expression peut être régulée par des éléments régulateurs localisés à plus d'un million de paires de bases des séquences transcrites du gène C. Les éléments régulant l'expression peuvent se situer dans les introns D. Les éléments régulant l'expression peuvent se situer en aval du gène E. Tous les exons des gènes codant pour des protéines sont codants

Corrigé

QCM 2 : B, C, D

QCM 3 Les ARN non codants : A. Les snoRNA ont pour rôle de modifier les ARN ribosomiques B. Certains interviennent dans l'épissage des gènes C. Correspondent aux introns une fois épissés D. Certains ont pour rôle de dégrader des ARN E. Les micro-ARN sont des régulateurs négatifs de l'expression de leurs gènes cibles

Corrigé

QCM 3 : A, B, D, E

QCM 4 Transcription du génome : A. 10 % du génome est transcrit en ARN B. 70 % du génome est transcrit en ARN C. Des ARN non codants sont issus de certains enhancers D. 1 % du génome est contenu dans des exons E. Certains éléments répétés contenus dans le génome humain sont transcrits en ARN

Corrigé

QCM 4 : B, C, D, E

QCM 5 Régulation à distance des gènes : A. Un enhancer n'est jamais localisé à plus de 10 kb du premier exon du gène B. Les HCNE ne sont pas impliqués dans la régulation de l'expression de gènes C. Des variants dans des HCNE localisés à plusieurs centaines de kilobases de gènes peuvent être responsables de maladies génétiques D. Les variants responsables de maladies génétiques sont toujours localisées dans les exons E. Une translocation peut provoquer la dérégulation de l'expression d'un gène

Corrigé

QCM 5 : C, E

QCM 6 Régulation de l'expression des gènes à l'échelle du génome : A. Les éléments fonctionnels intervenant dans l'expression des gènes comprennent les sites de facteurs de transcription, les modifications chimiques des histones, les sites d'hypersensibilité à la DNase B. Des séquences séparées de plusieurs centaines de kilobases sur un même chromosome peuvent interagir physiquement C. Des séquences localisées sur des chromosomes différents ne peuvent pas interagir physiquement D. Chaque chromosome occupe dans le noyau un territoire spécifique E. Des anomalies structurales des chromosomes peuvent modifier le positionnement du chromosome dans le noyau et altérer l'expression de certains gènes

Corrigé

QCM 6 : A, B, D, E

Polymorphisme du génome humain

QCM 1 Les single nucleotide variants (SNV) : A. Comportent généralement deux allèles B. Ont une informativité toujours supérieure à 50 % C. Sont présents en moyenne tous les 50 000 nucléotides D. Sont au nombre de plusieurs millions sur notre génome E. Sont tous des RFLP

Corrigé

QCM 1 : A, D

QCM 2 Les RFLP : A. Sont des SNV B. Sont généralement bialléliques C. Sont des SNV pathogènes D. Sont les premiers polymorphismes de l'ADN à avoir été découverts E. Sont toujours localisés dans des gènes

Corrigé

QCM 2 : B, D

QCM 3 Les microsatellites : A. Sont des polymorphismes plurialléliques B. Ont une informativité inférieure à 50 % C. Sont aisément génotypés par PCR D. Sont constitués de courtes séquences répétées en tandem E. Sont constitués d'éléments répétés de 20 à 100 paires de bases

Corrigé

QCM 3 : A, C, D

QCM 4 Les variants de nombre de copies (CNV) : A. Couvrent 5 à 10 % du génome humain B. Couvrent 20 à 30 % du génome humain C. Sont d'une taille restreinte à 10 kb D. Peuvent s'étendre sur plusieurs centaines ou milliers de kilobases et comporter plusieurs gènes E. Sont toujours pathogènes

Corrigé

QCM 4 : A, D

QCM 5 Les variants de structure : A. Expliquent que certains segments chromosomiques sont présents à plus de deux copies dans le génome B. Peuvent être des polymorphismes trouvés dans la population générale C. Peuvent être des délétions, des duplications ou des inversions de segments chromosomiques D. Peuvent être des variants ponctuels E. Peuvent être associés comme facteurs de susceptibilité à des maladies multifactorielles

Corrigé

QCM 5 : A, B, C, E

Auteurs de ce chapitre :

Benoît Arveiler, laboratoire maladies rares, génétique et métabolisme (U1211), INSERM - université de Bordeaux ; service de génétique médicale, CHU de Bordeaux, Bordeaux

Stéphane Bézieau, Nantes Université, CHU Nantes, CNRS, INSERM, l'institut du thorax, Nantes

Génétique médicale Enseignement thématique Collège National des Enseignants et Praticiens de Génétique Médicale M.Krahn, D.Sanlaville, C.Schluth-Bolard ISBN 9782294772894 2^e édition, 2022

acheter