NOV 2024
La soutenance sera en anglais et aura lieu le mardi 19 novembre à 16h dans l'amphithéâtre 45B à Jussieu.
Comprendre la fonction des protéines est essentiel pour décrypter les mécanismes moléculaires qui sous-tendent les processus biologiques. Les protéines sont des molécules complexes dont les fonctions sont déterminées par leurs structures tridimensionnelles, elles-mêmes dictées par leurs séquences d’acides aminés.
Prédire comment les mutations dans ces séquences affectent la fonction des protéines demeure un défi majeur. Cette thèse explore l’utilisation du Deep Mutational Scanning (DMS), une technique de criblage à haut débit qui exploite des processus de sélection pour étudier la fonction d’un grand nombre de variants protéiques simultanément. La performance de chaque variant est mesurée par séquençage, ce qui permet de suivre les changements d’abondance des variants au cours de la sélection. Des modèles physiques sont développés pour exploiter la physique qui se produit lors de la sélection en DMS, connectant ces changements d’abondance aux propriétés physiques sous-jacentes telles que les affinités de liaison. De plus, ces modèles peuvent déduire la stabilité des protéines à partir de la sélection sur la liaison, offrant ainsi une méthode peu coûteuse pour mesurer la stabilité de nombreux variants, en particulier pour les petites protéines.
Cependant, l’application de ces modèles à des protéines plus grandes présente de nouveaux défis. Les protéines plus grandes impliquent un plus grand nombre de paramètres à estimer, mais elles sont supportées par un nombre de lectures par variant plus faible, ce qui complique le processus d’inférence. Cette thèse étudie comment l’inférence de ces modèles physiques se comporte dans des conditions de données limitées, en particulier lorsque le nombre de lectures est insuffisant par rapport au nombre de paramètres. En outre, ce travail inclut la modélisation du bruit introduit par la sélection basée sur le tri, ce qui constitue un travail préliminaire crucial pour construire des modèles physiques pouvant être utilisés pour apprendre les propriétés catalytiques à partir des expériences de DMS. En comprenant et en atténuant les effets du bruit et de la rareté des données, des techniques telles que la régularisation sont utilisées pour stabiliser le processus d’inférence, tandis que des approches de granularité permettent de simplifier les modèles afin de renforcer leur robustesse dans des scénarios de données limitées. Grâce à la modélisation théorique et à l’analyse des données expérimentales, cette thèse fait progresser l’interprétation précise des données de DMS et le développement de modèles plus fiables qui relient les séquences protéiques à leurs fonctions physiques.