TP de bioinformatique structurale

TP AspRS
Mutagénèse dirigée in silico de l'aspartyl-ARNt synthétase

L'objectif du TP est d'étudier par modélisation moléculaire la reconnaissance spécifique entre l'aspartyl-ARNt synthétase et son substrat Asp. On cherchera à évaluer la spécificité en comparant la fixation des ligands Asp et Asn. On essaiera ensuite d'identifier et de modéliser des mutations dans le site actif qui pourraient favoriser la fixation d'Asn à la place d'Asp. C'est un premier pas vers une ingénierie du code génétique.

AspRS

Introduction

Les aminoacyl-ARNt synthétases (aaRS) constituent une famille d'enzymes impliquées dans la synthèse protéique. Elles interviennent au niveau de la traduction en permettant la liaison de l'acide aminé à son ARN de transfert. Elles sont très spécifiques de l'acide aminé concerné et de l'ARN de transfert qui lui correspond. Il en existe donc une pour chaque acide aminé.

Nous allons nous intéresser plus particulièrement à l'aspartyl-ARNt synthétase (AspRS), le but étant d'effectuer des mutations ponctuelles sur cette enzyme afin de réduire son affinité pour son ligand naturel aspartate et favoriser sa liaison avec l'asparagine.

Pour cela, nous envisagerons le problème en terme de séquences et de structures protéiques. L'étude comprend trois étapes :

Étude des séquences de quelques aaRS, dont des AspRS, afin de mettre en évidence les caractéristiques propres des AspRS.
Inspection de la structure de l'AspRS afin d'identifier des acides aminés dans le site actif qui seraient de bons candidats pour une mutagénèse.
Mutagénèse et calculs d'affinité par modélisation moléculaire.

Cette analyse conduira à proposer des mutations judicieuses du site actif, permettant de modifier la spécificité de l'AspRS en privilégiant la liaison de l'Asn à la place de l'Asp.

Protocole

A) Analyse des séquences d'aaRS

Récupérer dans la banque UniProt (http://www.uniprot.org) la séquence de l'AspRS d'E. coli
Obtenir des séquences homologues : recherche par BLAST

L'AspRS d'E. coli comporte trois domaines : celui de la fixation de l'anticodon de l'ARNt, celui du site catalytique, et un troisième domaine inséré dans celui du site catalytique.

Lancer une recherche BLAST. Quels types de protéines trouve-t-on ?

Identifier des résidus importants : réalisation d'un alignement multiple

Réaliser un alignement multiple sur les séquences obtenues précédemment.
Essayer différents formats d'affichage et de coloration par type d'acide aminé.
Répéter l'opération en affinant le choix des séquences.

Identifier des régions fortement conservées qui peuvent correspondre au site actif. Choisir quelques positions qui semblent caractéristiques de l'AspRS et de la fixation de l'Asp.

Quelle stratégie avez-vous employée ? Quelles mutations proposez-vous pour modifier l'affinité de l'AspRS pour l'aspartate et l'asparagine ?

B) Analyse structurale : inspection de la structure de l'AspRS

Visualiser avec PyMOL la structure de l'AspRS avec son ligand.
Repérer la région du site actif, en s'aidant de l'analyse des séquences.
Inspecter le site actif pour affiner le choix d'acides aminés à muter.

Avec les informations obtenues précédemment, proposer des mutations judicieuses pour modifier l'affinité de l'AspRS pour l'aspartate et l'asparagine. On s'efforcera d'en tester plusieurs dans l'étape ultérieure de modélisation.

L'inspection du site actif vous conduit-elle à modifier vos propositions de mutations faites à partir des séquences ?

Peut-on utiliser la structure pour vérifier l'alignement des séquences ?

C) Étude par modélisation moléculaire

C'est la partie la plus ambitieuse et complexe du TP. Il y a deux étapes :

Estimer la différence d'affinité de l'AspRS pour Asp et Asn.
Muter un ou plusieurs résidus dans le site actif et estimer de nouveau la différence d'affinité.

On suivra le protocole suivant avec le programme XPLOR :

Examiner les fichiers mis à disposition :

tp_asprs.tar.gz

asprs.seq: séquence de la protéine AspRS
asprs.pdb: structure expérimentale de la protéine AspRS
asprs.xplor.pdb: structure expérimentale de la protéine AspRS formatée pour XPLOR
asp.xplor.pdb: structure du ligand Asp formatée pour XPLOR
amber.rtf: fichier de topologie pour XPLOR
isolated_aa.rtf: fichier de topologie additionnel pour aa isolés
amber.prm: fichier de paramètres pour XPLOR
build.inp: construction du modèle de complexe protéine:ligand
minimize.inp: minimisation de l'énergie du complexe
energy.inp: calcul de l'énergie du complexe
run.sh: script pour piloter les calculs

Comparer les fichiers asprs.xplor.pdb et asprs.pdb

Les fichiers PDB doivent respecter un format particulier pour être lisibles par XPLOR. Le nom du segment doit être placé sur 4 caractères dans les colonnes 73-76. On remarque également que le code à 3 lettres des histidines a été changé de HIS en HIE. Il existe en effet 3 états de protonation possibles pour les histidines et il est nécessaire de préciser à XPLOR quel état est choisi parmi HID, HIE ou HIP (voir le fichier de topologie amber.rtf pour la définition de ces états).

L'état de protonation HIE choisi pour toutes les histidines vous semble-t-il raisonnable ? En cas de doute, tester d'autres états de protonation et évaluer l'impact sur les résultats.

Construire un modèle du complexe AspRS:Asp avec XPLOR

xplor < build.inp > build.out

Minimiser l'énergie du complexe afin d'améliorer sa géométrie

xplor < minimize.inp > minimize.out

Estimer l'énergie du complexe AspRS:Asp, puis celle de chaque partenaire seul

xplor < energy.inp > energy.out

Quelle est l'affinité de la protéine AspRS pour le ligand Asp ?

Editer le fichier PDB du ligand asp.xplor.pdb pour changer Asp en Asn. On se contentera de remplacer un des oxygènes du carboxylate de la chaîne latérale de l'Asp par un azote (correspondant au groupe NH₂ de l'Asn). Il sera ensuite facile avec XPLOR de positionner les deux hydrogènes manquants.

Quelle est l'affinité de l'AspRS pour Asn ?

Expérimentalement, l'enzyme sauvage fixe Asp nettement mieux que Asn, avec une différence d'énergie libre d'association de plus de 7 kcal/mol. Retrouvez-vous cette tendance ?

Mutagénèse de l'AspRS : choisir une mutation parmi les candidates identifiées précédemment.

Une mutation simple (par exemple Asp→Asn ou Gln→Glu) peut être réalisée par édition du fichier PDB, comme expliqué pour le ligand.

Une mutation plus complexe pourra être effectuée avec le programme SCWRL. Le choix de la mutation (par exemple R10K) se fera en remplaçant dans le fichier asprs.seq le code à une lettre de l'acide aminé natif en minuscule par celui de l'acide aminé choisi pour la mutation en majuscule (par exemple remplacer le « r » minuscule en position 10 par un « K » majuscule).

On lance ensuite le programme SCWRL de la manière suivante :

scwrl -s asprs.seq -i asprs.wt.pdb -o asprs.pdb > scwrl.out

Comparer la structure mutée obtenue asprs.pdb avec la structure native asprs.wt.pdb.

Il est conseillé de travailler dans un dossier séparé pour chaque mutant.

Effectuer les calculs d'affinité pour l'enzyme mutée.

Pour utiliser la structure mutée par SCWRL avec XPLOR, il faudra s'assurer qu'elle soit correctement formatée. On utilisera pour cela le programme pdb2xplor de la façon suivante :

pdb2xplor asprs.pdb A PROT > asprs.xplor.pdb

Quelles affinités pour Asp et Asn obtenez-vous avec la protéine mutée ?

Avez-vous réussi à inverser la spécificité ?

Interpréter structuralement l'effet des mutations.

Quelles améliorations pourrait-on apporter au modèle ou au protocole ?
L'AspRS était-elle la cible la plus judicieuse pour cette ingénierie ?

TP Trp-cage
Structure et stabilité du Trp-cage

L'objectif du TP est d'étudier la structure et la stabilité d'une petite protéine, le Trp-cage.

Trp-cage folded ↔ Trp-cage unfolded

Introduction

Le Trp-cage est une petite protéine artificielle de 20 acides aminés, qui a été conçue pour se replier facilement. Sa séquence d'acides aminés est NLYIQWLKDGGPSSGRPPPS. Le problème du repliement des protéines compte parmi les défis les plus importants de la bioinformatique structurale. Il consiste à prédire la structure tridimensionnelle d'une protéine à partir uniquement de l'information de sa séquence.

Nous emploierons les méthodes de la mécanique moléculaire pour modéliser le Trp-cage.

La dynamique de la protéine repliée à l'équilibre sera d'abord étudiée.
Puis le dépliement du Trp-cage sera étudié en simulant la dénaturation de la protéine repliée.
Enfin la partie la plus difficile du TP consistera, en partant d'une conformation dépliée linéaire du Trp-cage, à tenter de replier la protéine par le calcul sans aucune information expérimentale.

Protocole

A) Dynamique à l'équilibre du Trp-cage replié

Examiner les fichiers mis à disposition :

tp_trp-cage.tar.gz

folded.pdb: structure expérimentale (RMN) du Trp-cage replié
unfolded.pdb: structure dépliée linéaire du Trp-cage
amber.rtf: fichier de topologie pour XPLOR
amber.prm: fichier de paramètres pour XPLOR
build.inp: construction du modèle et minimisation de l'énergie
md.inp: dynamique moléculaire à 300K
traj2mpdb.inp: conversion de la trajectoire au format PDB multiple
analyze.inp: analyse de la trajectoire produite
run.sh: script pour piloter les calculs

Construction du modèle

xplor < build.inp > build.out

Ce script construit un modèle du Trp-cage avec XPLOR et effectue une minimisation de l'énergie pour améliorer la géométrie.

Examiner le fichier de sortie et visualiser les structures produites.

Dynamique moléculaire

xplor < md.inp > md.out

Ce script effectue une dynamique moléculaire du Trp-cage pendant 20ps en assignant des vitesses initiales aléatoires puis en maintenant la température à 300K.

Examiner le fichier de sortie et suivre l'énergie et la température en fonction du temps.

Visualisation de la trajectoire

xplor < traj2mpdb.inp > traj2mpdb.out

Ce script convertit le format de la trajectoire produite de DCD à PDB multiple.

On pourra ensuite visualiser la trajectoire avec PyMOL en la chargeant de la façon suivante :

load md.multi.pdb, multiplex=0

Analyse de la trajectoire

xplor < analyze.inp > analyze.out

Ce script lit la trajectoire produite (md.dcd) et effectue des calculs structuraux ou énergétiques à chaque pas. Les résultats sont écrits dans un fichier texte (md.dat). Les représenter graphiquement.

Les analyses incluses dans le script ne le sont qu'à titre d'exemple, à vous d'en ajouter d'autres plus pertinentes en vous aidant de la documentation d'XPLOR.

Quels descripteurs de la structure, de la dynamique et de la stabilité du Trp-cage avez-vous étudiés ?
Le temps de simulation est-il suffisant pour obtenir des résultats convergés ? Prolonger la simulation si nécessaire.
La simulation du Trp-cage montre-t-elle une structure stable ?
Indiquer les déformations éventuelles par rapport à la structure expérimentale.

B) Dépliement du Trp-cage

Imaginer un protocole pour dénaturer le Trp-cage par dynamique moléculaire et l'implémenter en adaptant les scripts XPLOR. Décrire la procédure suivie.
Peut-on définir une limite entre l'état replié et l'état déplié ?
Observe-t-on différentes étapes dans le dépliement ?

C) Repliement du Trp-cage

Adapter les scripts XPLOR et répéter les premières étapes du A) pour construire un modèle du Trp-cage déplié (remplacer « folded » par « unfolded » dans les scripts) et le simuler par dynamique moléculaire.
Mettre au point un protocole pour replier le Trp-cage. Ne pas hésiter à s'inspirer de la littérature. Décrire la stratégie suivie.
Dans quelle mesure avez-vous réussi à replier la protéine ?
Observe-t-on des états intermédiaires au cours du repliement ?
Quelles améliorations pourrait-on apporter au modèle ?

TD/TP Modeller
Modélisation par homologie de la tyrosyl-ARNt synthétase de mimivirus

Le mimivirus est un virus à ADN géant. Il est de taille supérieure à de nombreuses bactéries et peut lui-même être infecté par d'autres virus. On a découvert que le mimivirus possédait certains gènes de protéines impliquées dans la traduction, absents dans les autres virus qui utilisent la machinerie de la cellule hôte pour se multiplier. Ces découvertes ont alimenté les débats sur la frontière entre matière vivante et inerte.

Mimivirus

La modélisation par homologie a pour objet de construire un modèle de la structure inconnue d'une protéine cible (« target »), connaissant sa séquence et la structure d'une autre protéine guide (« template ») de séquence homologue. La méthode peut se décomposer en quatre étapes :

sélection du template
alignement target-template
construction du modèle
évaluation du modèle

Le but de ce travail est de proposer le meilleur modèle structural possible (critère à définir) de la tyrosyl-ARNt synthétase de mimivirus (on suppose sa structure inconnue) par modélisation par homologie avec le programme Modeller.

Récupération de la séquence

Récupérer la séquence de la tyrosyl-ARNt synthétase de mimivirus au format FASTA dans la base de données UniProt (http://www.uniprot.org).

Sélection du template

Sélectionner judicieusement une structure qui servira de guide pour la modélisation par homologie (on s'abstiendra bien-entendu de prendre la structure de la tyrosyl-ARNt synthétase de mimivirus que l'on suppose inconnue). Récupérer cette structure au format PDB.

Conversion du format de la séquence

Convertir la séquence requête du format FASTA vers le format PIR (http://salilab.org/modeller/manual, File formats, Alignment file (PIR)) avec lequel Modeller travaille. Exemple d'une séquence au format PIR :

>P1;TvLDH
sequence:TvLDH::::::::
MSEAAHVLITGAAGQIGYILSHWIASGELYGDRQVYLHLLDIPPAMNRLTALTMELEDCAFPHLAGFVATTDPKA
AFKDIDCAFLVASMPLKPGQVRADLISSNSVIFKNTGEYLSKWAKPSVKVLVIGNPDNTNCEIAMLHAKNLKPEN
FSSLSMLDQNRAYYEVASKLGVDVKDVHDIIVWGNHGESMVADLTQATFTKEGKTQKVVDVLDHDYVFDTFFKKI
GHRAWDILEHRGFTSAASPTKAAIQHMKAWLFGTAPGEVLSMGIPVPEGNPYGIKPGVVFSFPCNVDKEGKIHVV
EGFKVNDWLREKLDFTEKDLFHEKEIALNHLAQGG*

Examiner les fichiers mis à disposition

td-tp_modeller.tar.gz

Le programme Modeller se lance de la façon suivante :

modeller file.py

Alignement target-template

Aligner la séquence requête avec la séquence de la structure guide sélectionnée en adaptant le script align2d.py.

modeller align2d.py

L'alignement produit est écrit aux formats PIR, PAP et FASTA. Examiner ces fichiers.

Construction du modèle

Modéliser par homologie la structure cible en adaptant le script model-single.py.

modeller model-single.py

Un résumé comprenant le nom des fichiers PDB des modèles produits ainsi que la valeur de la fonction d'énergie de Modeller et le score DOPE pour chaque modèle se trouve à la fin du fichier de sortie (model-single.log). Examiner les modèles produits avec PyMOL.

Évaluation du modèle

Évaluer les modèles générés à l'étape précédente en adaptant le script evaluate_model.py.

modeller evaluate_model.py

Ce script permet une évaluation plus détaillée des modèles produits en calculant le score DOPE pour chaque position de l'alignement. Tracer le score DOPE en fonction de la position (colonnes 1 et 42) pour les différents modèles.

Comment définir le meilleur modèle produit ?

Pour aller plus loin :

Modeller tutorial : http://salilab.org/modeller/tutorial/basic.html

Modeller manual : http://salilab.org/modeller/manual

TD/TP AutoDock
Amarrage moléculaire de l'Indinavir à la protéase du VIH-1

td-tp_autodock.tar.gz

lock and key

AutoDock est une suite d'outils destinés à l'amarrage moléculaire (« molecular docking »). Le docking consiste à prédire comment des ligands, comme des substrats ou des médicaments potentiels, se fixent sur un récepteur de structure tridimensionnelle connue.

La procédure de docking avec AutoDock se décompose en deux étapes principales :

génération de cartes d'interactions du récepteur avec le programme AutoGrid
amarrage proprement dit du ligand au récepteur avec le programme AutoDock

Nous utiliserons également une interface graphique appelée AutoDockTools (ADT) pour faciliter la préparation du docking et la visualisation des résultats.

La méthode sera illustrée avec le docking de l'Indinavir, un inhibiteur de la protéase du VIH-1, utilisé comme antirétroviral dans le traitement du SIDA.

Préparation du ligand

AutoDock a besoin de connaître les charges et types atomiques de chaque atome, ainsi qu'une liste des liaisons avec libre rotation présentes dans le ligand.

Lancer ADT

adt

Charger le ligand

Ligand → Input → Open... → PDB files → "ind.pdb"

AutoDockTools lit le ligand et effectue les étapes suivantes : calcul des charges atomiques de type Gasteiger, fusion des hydrogènes non-polaires, attribution des types atomiques, détection du nombre de degrés de liberté en torsion.

Les types atomiques et les charges sont utilisés dans les termes de mécanique moléculaire de la fonction de score d'AutoDock. Le nombre de degrés de liberté en torsion du ligand détermine sa flexibilité et intervient également dans le calcul de la pénalité entropique d'association.

Détecter l'atome racine

Ligand → Torsion Tree → Detect Root...

Le plus petit groupe rigide de la molécule inclut cet atome et tous les atomes connectés à lui par des liaisons sans libre rotation.

Choisir les torsions

Ligand → Torsion Tree → Choose Torsions...

Les liaisons sans libre rotation apparaissent en rouge, celles qui pourraient subir une rotation mais qui sont marquées comme inactives apparaissent en violet, enfin les liaisons marquées comme actives apparaissent en vert. Laisser la définition par défaut qui correspond à 14 degrés de liberté.

Ligand → Torsion Tree → Set Number of Torsions...

Réduire le nombre de degrés de liberté à 6 ("fewest atoms") pour accélérer le calcul.

Sauvegarder le ligand

Ligand → Output → Save as PDBQT... → "ind.pdbqt"

Préparation du récepteur

Grid → Macromolecule → Open... → PDB files → "hsg1.pdb"

AutoDockTools lit le récepteur et comme pour le ligand effectue les étapes de calcul des charges atomiques de type Gasteiger, fusion des hydrogènes non-polaires et attribution des types atomiques.

Sauvegarder le récepteur sous le nom "hsg1.pdbqt".

Préparation des cartes quadrillées (« grid maps »)

Il est nécessaire de générer une carte d'interaction pour chaque type atomique du ligand plus une carte pour l'électrostatique et une carte pour la désolvatation.

Lire les types atomiques du ligand

Grid → Set Map Types → Choose Ligand... → "ind" → Select Ligand

Choisir la taille et la position de la grille

Grid → Grid Box...

Choisir 60, 60 et 66 pour le nombre de points de la grille dans les directions x, y et z ; et 2.5, 6.5 et -7.5 pour les coordonnées x, y et z de la position du centre de la grille.

File → Close saving current

Sauvegarder le fichier de paramètres de quadrillage (.gpf)

Grid → Output → Save GPF... → "hsg1.gpf"

Le fichier .gpf contient les paramètres pour le programme AutoGrid.

Générer les cartes quadrillées

Run → Run AutoGrid... → Launch

Le programme AutoGrid est exécuté avec le fichier de paramètres généré précédemment (la ligne de commande correspondante est autogrid4 -p hsg1.gpf -l hsg1.glg).

Les cartes produites sont écrites dans le répertoire courant et ont l'extension .map.

Docking

Charger le récepteur

Docking → Macromolecule → Set Rigid Filename... → "hsg1.pdbqt"

Charger le ligand

Docking → Ligand → Choose... → "ind" → Select Ligand → Accept

Choisir les paramètres de docking

Docking → Search Parameters... → Genetic Algorithm...

Réduire le nombre d'évaluations de l'algorithme génétique à 250000 ("short") puis cliquer sur Accept.

Sauvegarder le fichier de paramètres de docking (.dpf)

Docking → Output → Lamarckian GA... → "ind.dpf"

Le fichier .dpf contient les paramètres pour le programme AutoDock. On a choisi l'algorithme génétique Lamarckien comme méthode d'échantillonnage conformationnel.

Lancer le docking

Run → Run Autodock... → Launch

Le programme AutoDock est exécuté avec le fichier de paramètres généré précédemment (la ligne de commande correspondante est autodock4 -p ind.dpf -l ind.dlg).

Analyse des résultats

Réinitialiser ADT

Edit → Delete → Delete All Molecules

Lire les résultats du docking

Analyze → Dockings → Open... → "ind.dlg"

Afficher le récepteur

Analyze → Macromolecule → Open...

Visualiser les conformations

Analyze → Conformations → Play, ranked by energy...

Une barre de contrôle apparaît et permet de parcourir les conformations trouvées par le docking. La conformation 0 est celle du départ.

Changer les options en cliquant sur le bouton "&" de la barre.

Sélectionner "Show Info" et examiner les termes énergétiques affichés.

Parcourir les conformations.

Changer le mode de représentation et de coloration du ligand et du récepteur. On pourra par exemple afficher la surface moléculaire du récepteur pour visualiser la complémentarité de forme avec le ligand.