Thomas Gaillard

Design computationnel de protéines

Collaborateurs
Thomas Simonson et David Mignon
Laboratoire
Laboratoire de Biologie Structurale de la Cellule
Institution
École Polytechnique

Le design de protéines a pour but la conception de nouvelles protéines ou la modification de protéines existantes pour atteindre une fonction donnée. Les approches computationnelles sont une aide précieuse pour le design de protéines, pour rationaliser les prédictions et guider les tests expérimentaux. Le design computationnel de protéines (CPD) a suscité d'importants efforts méthodologiques et a obtenu des succès spectaculaires comme la création d'une protéine avec un nouveau repliement ou l'ingénierie de sites actifs d'enzymes. La principale difficulté du CPD réside dans le nombre astronomique de séquences et conformations possibles, de l'ordre de (20 × 10)100 pour une protéine de 100 acides aminés. Un autre élément clé pour le succès du CPD est la fonction d'énergie utilisée pour évaluer et sélectionner les séquences et les conformations.

L'équipe de bioinformatique structurale du laboratoire a travaillé pendant une vingtaine d'années sur le CPD et a développé un logiciel appelé Proteus (https://proteus.polytechnique.fr ), en suivant une approche inspirée par la physique. Elle se fonde sur un modèle atomique de la structure de la protéine et sur une fonction d'énergie de mécanique moléculaire. Un aspect important est le traitement du solvant, représenté par un continuum diélectrique avec un terme de Born généralisé, complété par un terme proportionnel à la surface accessible au solvant. Les particularités de l'implémentation sont : 1) le squelette de la protéine est maintenu fixe, 2) l'espace conformationnel des chaînes latérales est réduit à une bibliothèque discrète de rotamères, 3) la fonction d'énergie est décomposée en paires d'interactions. La première étape consiste à calculer une matrice d'interactions entre chaque paire de rotamères. Dans la seconde étape, l'espace des séquences et conformations est exploré avec un algorithme d'optimisation. Les évaluations d'énergie sont rapides dans cette seconde étape grâce au précalcul de la matrice d'énergie. Proteus peut traiter une grande variété de problèmes. Il a été appliqué entre autres à la prédiction de chaînes latérales, à la prédiction de la stabilité de mutants, à la reconnaissance de pli, aux prédictions de pKa, au redesign de séquences entières de protéines, et à l'ingénierie de sites actifs d'enzymes.

Dans ce projet, j'ai contribué plus particulièrement aux développements méthodologiques, notamment aux travaux sur la fonction d'énergie, les modèles de solvatation, leur décomposition en paires, et l'implémentation du calcul de la matrice d'énergie. Par ailleurs, j'ai conduit des applications de ces modèles à différents problèmes de CPD, avec une évaluation de leur performance et de la contribution de leurs composantes.

2IGD
sidechain prediction of 2IGD core
1KF5
sidechain prediction of 1KF5 core
Exemples de reconstruction de chaînes latérales de protéines, tirés de Gaillard et al. [2016]. Les conformations prédites sont en rouge, les structures expérimentales en bleu. Les prédictions ont été obtenues avec le programme Proteus, en utilisant une fonction d'énergie de type MM(ϵ), avec le champ de force tout-atomes AMBER 99SB et une constante diélectrique de 2 pour le terme de Coulomb.
sequence design of SH3 domain cores
Exemples de design de séquences entières de protéines, tirés de Gaillard & Simonson [2017]. Les positions du cœur sont montrées. Les séquences sont indiquées sous forme de logo. Les séquences prédites sont comparées aux séquences natives et au profil Pfam des domaines SH3. Les prédictions ont été obtenues avec le programme Proteus, en utilisant une fonction d'énergie de type MMGBSA, avec le champ de force tout-atomes AMBER 99SB, une constante diélectrique interne de 8 et des termes GB et SA décomposables en paires.
A)
transition state model of amino acid adenylation
B)
transition state model of L-Tyr adenylation
C)
enzyme design
Exemple de design d'enzyme, tiré de Gaillard & Simonson [2026]. A) Modèle de l'état de transition de la réaction d'adénylation des acides aminés, obtenu par des calculs de chimie quantique. B) Modèle de l'état de transition de l'adénylation de la L-Tyr. Les acides aminés de la TyrRS proches du ligand sont montrés. Les carbones des acides aminés autorisés à muter sont en magenta, les autres en vert. L'ion magnésium et l'oxygène d'une molécule d'eau sont représentés par des sphères. C) Résultats du design de la stéréospécificité de la TyrRS. Les séquences sont indiquées sous forme de logo pour les quatre positions mutées : séquence native, séquences prédites pour le design en faveur de la L-Tyr, séquences prédites en faveur de la D-Tyr. Lorsque le design est en faveur de la L-Tyr, la séquence native DYQQ est retrouvée. Les prédictions ont été obtenues avec le programme Proteus, en utilisant une fonction d'énergie de type MMGBSA, avec le champ de force tout-atomes AMBER 99SB, une constante diélectrique interne de 8 et des termes GB et SA décomposables en paires. La méthode d'aplanissement adaptatif du paysage était utilisée pour générer les séquences. Les deux états considérés étaient les complexes avec les états de transition L et D.
Références