TP de bioinformatique structurale


TP AspRS
Mutagénèse dirigée in silico de l'aspartyl-ARNt synthétase

L'objectif du TP est d'étudier par modélisation moléculaire la reconnaissance spécifique entre l'aspartyl-ARNt synthétase et son substrat Asp. On cherchera à évaluer la spécificité en comparant la fixation des ligands Asp et Asn. On essaiera ensuite d'identifier et de modéliser des mutations dans le site actif qui pourraient favoriser la fixation d'Asn à la place d'Asp. C'est un premier pas vers une ingénierie du code génétique.

AspRS

Introduction

Les aminoacyl-ARNt synthétases (aaRS) constituent une famille d'enzymes impliquées dans la synthèse protéique. Elles interviennent au niveau de la traduction en permettant la liaison de l'acide aminé à son ARN de transfert. Elles sont très spécifiques de l'acide aminé concerné et de l'ARN de transfert qui lui correspond. Il en existe donc une pour chaque acide aminé.

Nous allons nous intéresser plus particulièrement à l'aspartyl-ARNt synthétase (AspRS), le but étant d'effectuer des mutations ponctuelles sur cette enzyme afin de réduire son affinité pour son ligand naturel aspartate et favoriser sa liaison avec l'asparagine.

Pour cela, nous envisagerons le problème en terme de séquences et de structures protéiques. L'étude comprend trois étapes :

Cette analyse conduira à proposer des mutations judicieuses du site actif, permettant de modifier la spécificité de l'AspRS en privilégiant la liaison de l'Asn à la place de l'Asp.

Protocole

A) Analyse des séquences d'aaRS

  1. Récupérer dans la banque UniProt (http://www.uniprot.org) la séquence de l'AspRS d'E. coli
  2. Obtenir des séquences homologues : recherche par BLAST
  3. L'AspRS d'E. coli comporte trois domaines : celui de la fixation de l'anticodon de l'ARNt, celui du site catalytique, et un troisième domaine inséré dans celui du site catalytique.

    Lancer une recherche BLAST. Quels types de protéines trouve-t-on ?

  4. Identifier des résidus importants : réalisation d'un alignement multiple
  5. Identifier des régions fortement conservées qui peuvent correspondre au site actif. Choisir quelques positions qui semblent caractéristiques de l'AspRS et de la fixation de l'Asp.

    Quelle stratégie avez-vous employée ? Quelles mutations proposez-vous pour modifier l'affinité de l'AspRS pour l'aspartate et l'asparagine ?

B) Analyse structurale : inspection de la structure de l'AspRS

Avec les informations obtenues précédemment, proposer des mutations judicieuses pour modifier l'affinité de l'AspRS pour l'aspartate et l'asparagine. On s'efforcera d'en tester plusieurs dans l'étape ultérieure de modélisation.

L'inspection du site actif vous conduit-elle à modifier vos propositions de mutations faites à partir des séquences ?

Peut-on utiliser la structure pour vérifier l'alignement des séquences ?

C) Étude par modélisation moléculaire

C'est la partie la plus ambitieuse et complexe du TP. Il y a deux étapes :

On suivra le protocole suivant avec le programme XPLOR :

  1. Examiner les fichiers mis à disposition :
  2. tp_asprs.tar.gz

    asprs.seq
    séquence de la protéine AspRS
    asprs.pdb
    structure expérimentale de la protéine AspRS
    asprs.xplor.pdb
    structure expérimentale de la protéine AspRS formatée pour XPLOR
    asp.xplor.pdb
    structure du ligand Asp formatée pour XPLOR
    amber.rtf
    fichier de topologie pour XPLOR
    isolated_aa.rtf
    fichier de topologie additionnel pour aa isolés
    amber.prm
    fichier de paramètres pour XPLOR
    build.inp
    construction du modèle de complexe protéine:ligand
    minimize.inp
    minimisation de l'énergie du complexe
    energy.inp
    calcul de l'énergie du complexe
    run.sh
    script pour piloter les calculs

  3. Comparer les fichiers asprs.xplor.pdb et asprs.pdb
  4. Les fichiers PDB doivent respecter un format particulier pour être lisibles par XPLOR. Le nom du segment doit être placé sur 4 caractères dans les colonnes 73-76. On remarque également que le code à 3 lettres des histidines a été changé de HIS en HIE. Il existe en effet 3 états de protonation possibles pour les histidines et il est nécessaire de préciser à XPLOR quel état est choisi parmi HID, HIE ou HIP (voir le fichier de topologie amber.rtf pour la définition de ces états).

    L'état de protonation HIE choisi pour toutes les histidines vous semble-t-il raisonnable ? En cas de doute, tester d'autres états de protonation et évaluer l'impact sur les résultats.

  5. Construire un modèle du complexe AspRS:Asp avec XPLOR
  6. xplor < build.inp > build.out

  7. Minimiser l'énergie du complexe afin d'améliorer sa géométrie
  8. xplor < minimize.inp > minimize.out

  9. Estimer l'énergie du complexe AspRS:Asp, puis celle de chaque partenaire seul
  10. xplor < energy.inp > energy.out

    Quelle est l'affinité de la protéine AspRS pour le ligand Asp ?

  11. Editer le fichier PDB du ligand asp.xplor.pdb pour changer Asp en Asn. On se contentera de remplacer un des oxygènes du carboxylate de la chaîne latérale de l'Asp par un azote (correspondant au groupe NH2 de l'Asn). Il sera ensuite facile avec XPLOR de positionner les deux hydrogènes manquants.
  12. Quelle est l'affinité de l'AspRS pour Asn ?

    Expérimentalement, l'enzyme sauvage fixe Asp nettement mieux que Asn, avec une différence d'énergie libre d'association de plus de 7 kcal/mol. Retrouvez-vous cette tendance ?

  13. Mutagénèse de l'AspRS : choisir une mutation parmi les candidates identifiées précédemment.
  14. Une mutation simple (par exemple Asp→Asn ou Gln→Glu) peut être réalisée par édition du fichier PDB, comme expliqué pour le ligand.

    Une mutation plus complexe pourra être effectuée avec le programme SCWRL. Le choix de la mutation (par exemple R10K) se fera en remplaçant dans le fichier asprs.seq le code à une lettre de l'acide aminé natif en minuscule par celui de l'acide aminé choisi pour la mutation en majuscule (par exemple remplacer le « r » minuscule en position 10 par un « K » majuscule).

    On lance ensuite le programme SCWRL de la manière suivante :

    scwrl -s asprs.seq -i asprs.wt.pdb -o asprs.pdb > scwrl.out

    Comparer la structure mutée obtenue asprs.pdb avec la structure native asprs.wt.pdb.

    Il est conseillé de travailler dans un dossier séparé pour chaque mutant.

  15. Effectuer les calculs d'affinité pour l'enzyme mutée.
  16. Pour utiliser la structure mutée par SCWRL avec XPLOR, il faudra s'assurer qu'elle soit correctement formatée. On utilisera pour cela le programme pdb2xplor de la façon suivante :

    pdb2xplor asprs.pdb A PROT > asprs.xplor.pdb

    Quelles affinités pour Asp et Asn obtenez-vous avec la protéine mutée ?

    Avez-vous réussi à inverser la spécificité ?

    Interpréter structuralement l'effet des mutations.

  17. Quelles améliorations pourrait-on apporter au modèle ou au protocole ?
  18. L'AspRS était-elle la cible la plus judicieuse pour cette ingénierie ?

TP Trp-cage
Structure et stabilité du Trp-cage

L'objectif du TP est d'étudier la structure et la stabilité d'une petite protéine, le Trp-cage.

Trp-cage folded Trp-cage unfolded

Introduction

Le Trp-cage est une petite protéine artificielle de 20 acides aminés, qui a été conçue pour se replier facilement. Sa séquence d'acides aminés est NLYIQWLKDGGPSSGRPPPS. Le problème du repliement des protéines compte parmi les défis les plus importants de la bioinformatique structurale. Il consiste à prédire la structure tridimensionnelle d'une protéine à partir uniquement de l'information de sa séquence.

Nous emploierons les méthodes de la mécanique moléculaire pour modéliser le Trp-cage.

Protocole

A) Dynamique à l'équilibre du Trp-cage replié

  1. Examiner les fichiers mis à disposition :
  2. tp_trp-cage.tar.gz

    folded.pdb
    structure expérimentale (RMN) du Trp-cage replié
    unfolded.pdb
    structure dépliée linéaire du Trp-cage
    amber.rtf
    fichier de topologie pour XPLOR
    amber.prm
    fichier de paramètres pour XPLOR
    build.inp
    construction du modèle et minimisation de l'énergie
    md.inp
    dynamique moléculaire à 300K
    traj2mpdb.inp
    conversion de la trajectoire au format PDB multiple
    analyze.inp
    analyse de la trajectoire produite
    run.sh
    script pour piloter les calculs

  3. Construction du modèle
  4. xplor < build.inp > build.out

    Ce script construit un modèle du Trp-cage avec XPLOR et effectue une minimisation de l'énergie pour améliorer la géométrie.

    Examiner le fichier de sortie et visualiser les structures produites.

  5. Dynamique moléculaire
  6. xplor < md.inp > md.out

    Ce script effectue une dynamique moléculaire du Trp-cage pendant 20ps en assignant des vitesses initiales aléatoires puis en maintenant la température à 300K.

    Examiner le fichier de sortie et suivre l'énergie et la température en fonction du temps.

  7. Visualisation de la trajectoire
  8. xplor < traj2mpdb.inp > traj2mpdb.out

    Ce script convertit le format de la trajectoire produite de DCD à PDB multiple.

    On pourra ensuite visualiser la trajectoire avec PyMOL en la chargeant de la façon suivante :

    load md.multi.pdb, multiplex=0

  9. Analyse de la trajectoire
  10. xplor < analyze.inp > analyze.out

    Ce script lit la trajectoire produite (md.dcd) et effectue des calculs structuraux ou énergétiques à chaque pas. Les résultats sont écrits dans un fichier texte (md.dat). Les représenter graphiquement.

    Les analyses incluses dans le script ne le sont qu'à titre d'exemple, à vous d'en ajouter d'autres plus pertinentes en vous aidant de la documentation d'XPLOR.

B) Dépliement du Trp-cage

C) Repliement du Trp-cage


TD/TP Modeller
Modélisation par homologie de la tyrosyl-ARNt synthétase de mimivirus

Le mimivirus est un virus à ADN géant. Il est de taille supérieure à de nombreuses bactéries et peut lui-même être infecté par d'autres virus. On a découvert que le mimivirus possédait certains gènes de protéines impliquées dans la traduction, absents dans les autres virus qui utilisent la machinerie de la cellule hôte pour se multiplier. Ces découvertes ont alimenté les débats sur la frontière entre matière vivante et inerte.

Mimivirus

La modélisation par homologie a pour objet de construire un modèle de la structure inconnue d'une protéine cible (« target »), connaissant sa séquence et la structure d'une autre protéine guide (« template ») de séquence homologue. La méthode peut se décomposer en quatre étapes :

  1. sélection du template
  2. alignement target-template
  3. construction du modèle
  4. évaluation du modèle

Le but de ce travail est de proposer le meilleur modèle structural possible (critère à définir) de la tyrosyl-ARNt synthétase de mimivirus (on suppose sa structure inconnue) par modélisation par homologie avec le programme Modeller.

  1. Récupération de la séquence
  2. Récupérer la séquence de la tyrosyl-ARNt synthétase de mimivirus au format FASTA dans la base de données UniProt (http://www.uniprot.org).

  3. Sélection du template
  4. Sélectionner judicieusement une structure qui servira de guide pour la modélisation par homologie (on s'abstiendra bien-entendu de prendre la structure de la tyrosyl-ARNt synthétase de mimivirus que l'on suppose inconnue). Récupérer cette structure au format PDB.

  5. Conversion du format de la séquence
  6. Convertir la séquence requête du format FASTA vers le format PIR (http://salilab.org/modeller/manual, File formats, Alignment file (PIR)) avec lequel Modeller travaille. Exemple d'une séquence au format PIR :

    >P1;TvLDH
    sequence:TvLDH::::::::
    MSEAAHVLITGAAGQIGYILSHWIASGELYGDRQVYLHLLDIPPAMNRLTALTMELEDCAFPHLAGFVATTDPKA
    AFKDIDCAFLVASMPLKPGQVRADLISSNSVIFKNTGEYLSKWAKPSVKVLVIGNPDNTNCEIAMLHAKNLKPEN
    FSSLSMLDQNRAYYEVASKLGVDVKDVHDIIVWGNHGESMVADLTQATFTKEGKTQKVVDVLDHDYVFDTFFKKI
    GHRAWDILEHRGFTSAASPTKAAIQHMKAWLFGTAPGEVLSMGIPVPEGNPYGIKPGVVFSFPCNVDKEGKIHVV
    EGFKVNDWLREKLDFTEKDLFHEKEIALNHLAQGG*
    
  7. Examiner les fichiers mis à disposition
  8. td-tp_modeller.tar.gz

    Le programme Modeller se lance de la façon suivante :

    modeller file.py

  9. Alignement target-template
  10. Aligner la séquence requête avec la séquence de la structure guide sélectionnée en adaptant le script align2d.py.

    modeller align2d.py

    L'alignement produit est écrit aux formats PIR, PAP et FASTA. Examiner ces fichiers.

  11. Construction du modèle
  12. Modéliser par homologie la structure cible en adaptant le script model-single.py.

    modeller model-single.py

    Un résumé comprenant le nom des fichiers PDB des modèles produits ainsi que la valeur de la fonction d'énergie de Modeller et le score DOPE pour chaque modèle se trouve à la fin du fichier de sortie (model-single.log). Examiner les modèles produits avec PyMOL.

  13. Évaluation du modèle
  14. Évaluer les modèles générés à l'étape précédente en adaptant le script evaluate_model.py.

    modeller evaluate_model.py

    Ce script permet une évaluation plus détaillée des modèles produits en calculant le score DOPE pour chaque position de l'alignement. Tracer le score DOPE en fonction de la position (colonnes 1 et 42) pour les différents modèles.

  15. Comment définir le meilleur modèle produit ?

Pour aller plus loin :

Modeller tutorial : http://salilab.org/modeller/tutorial/basic.html

Modeller manual : http://salilab.org/modeller/manual


TD/TP AutoDock
Amarrage moléculaire de l'Indinavir à la protéase du VIH-1

td-tp_autodock.tar.gz

lock and key

AutoDock est une suite d'outils destinés à l'amarrage moléculaire (« molecular docking »). Le docking consiste à prédire comment des ligands, comme des substrats ou des médicaments potentiels, se fixent sur un récepteur de structure tridimensionnelle connue.

La procédure de docking avec AutoDock se décompose en deux étapes principales :

  1. génération de cartes d'interactions du récepteur avec le programme AutoGrid
  2. amarrage proprement dit du ligand au récepteur avec le programme AutoDock

Nous utiliserons également une interface graphique appelée AutoDockTools (ADT) pour faciliter la préparation du docking et la visualisation des résultats.

La méthode sera illustrée avec le docking de l'Indinavir, un inhibiteur de la protéase du VIH-1, utilisé comme antirétroviral dans le traitement du SIDA.

  1. Préparation du ligand
  2. AutoDock a besoin de connaître les charges et types atomiques de chaque atome, ainsi qu'une liste des liaisons avec libre rotation présentes dans le ligand.

  3. Préparation du récepteur
  4. GridMacromoleculeOpen...PDB files → "hsg1.pdb"

    AutoDockTools lit le récepteur et comme pour le ligand effectue les étapes de calcul des charges atomiques de type Gasteiger, fusion des hydrogènes non-polaires et attribution des types atomiques.

    Sauvegarder le récepteur sous le nom "hsg1.pdbqt".

  5. Préparation des cartes quadrillées (« grid maps »)
  6. Il est nécessaire de générer une carte d'interaction pour chaque type atomique du ligand plus une carte pour l'électrostatique et une carte pour la désolvatation.

  7. Docking
  8. Analyse des résultats

Serveurs de bioinformatique

UniProt

NCBI

EBI

ExPASy

PDB


XPLOR

Documentation en ligne de XPLOR 3.1


PyMOL

Site de PyMOL

Wiki PyMOL

PyMOL CheatSheet


Linux

Installation de Linux dans une machine virtuelle

Formation à la ligne de commande Linux

Formation Debian GNU/Linux

Linux Command Line Cheat Sheet

Unix/Linux Command Cheat Sheet

UNIX Tutorial for Beginners