L'apprentissage automatique révèle une contribution limitée des trans

Blog

MaisonMaison / Blog / L'apprentissage automatique révèle une contribution limitée des trans

Sep 19, 2023

L'apprentissage automatique révèle une contribution limitée des trans

Volume Biologie des communications

Communications Biology volume 6, Article number: 442 (2023) Citer cet article

1475 accès

5 Altmétrique

Détails des métriques

La présentation de l'antigène de classe II de l'antigène leucocytaire humain (HLA) est essentielle pour contrôler et déclencher les réponses immunitaires des lymphocytes T. Les molécules HLA-DQ, dont on pense qu'elles jouent un rôle majeur dans les maladies auto-immunes, sont des hétérodimères qui peuvent être formés à la fois en tant que variants cis et trans selon que les chaînes α et β sont codées sur le même chromosome (cis) ou opposé (trans). Jusqu'à présent, des progrès limités ont été réalisés pour prédire la présentation de l'antigène HLA-DQ. De plus, la contribution des variants trans uniquement (c'est-à-dire des variants non observés dans la population en tant que cis) dans la formation de l'immunopeptidome HLA-DQ reste largement non résolue. Ici, nous cherchons à résoudre ces problèmes en intégrant des modèles d'exploration de données immunoinformatiques de pointe avec de grands volumes de données immunopeptidomiques de spectrométrie de masse spécifique HLA-DQ de haute qualité. L'analyse démontre une puissance prédictive et une couverture moléculaire hautement améliorées pour les modèles entraînés incluant ces nouvelles données HLA-DQ. Plus important encore, l'étude du rôle des variants HLA-DQ uniquement trans révèle une contribution limitée, voire nulle, à l'immunopeptidome HLA-DQ global. En conclusion, cette étude approfondit notre compréhension des spécificités HLA-DQ et met en lumière le rôle relatif des variants HLA-DQ cis et trans uniquement dans l'espace de présentation de l'antigène HLA de classe II. La méthode développée, NetMHCIIpan-4.2, est disponible sur https://services.healthtech.dtu.dk/services/NetMHCIIpan-4.2.

Les molécules du complexe majeur d'histocompatibilité de classe II (CMH de classe II) sont exprimées à la surface des cellules présentatrices d'antigènes professionnelles telles que les cellules B, les cellules dendritiques (CD) et les monocytes/macrophages1. Ces molécules, qui sont conçues pour lier et présenter des fragments des protéines exogènes aux cellules T auxiliaires, sont des hétérodimères constitués de chaînes α et β qui forment ensemble la fente de liaison aux peptides.

Chez l'homme, le HLA (human leukocyte antigen) de classe II est codé par trois locus différents (HLA-DR, -DQ et -DP). Ces gènes HLA ont de nombreuses variantes alléliques avec des polymorphismes qui sont principalement regroupés autour du sillon de liaison aux peptides, ce qui donne un large éventail de spécificités distinctes de liaison aux peptides2. Dans de nombreuses maladies auto-immunes, les gènes HLA de classe II sont des facteurs de susceptibilité génétique majeurs1,3 qui jouent un rôle central dans la pathogenèse de ces affections en présentant des peptides antigéniques aux lymphocytes T CD4+.

Plusieurs études ont exploré l'importance de HLA-DR et DQ aux niveaux de l'haplotype et du génotype chez les patients diabétiques de type 1 (DT1)3. Ces études génétiques et fonctionnelles ont indiqué que les allèles HLA-DR et DQ sont associés au risque de DT13,4. De plus, les haplotypes DR-DQ associés présentent une hiérarchie des risques, allant de hautement prédisposant à hautement protecteur4. Fait intéressant, plus récemment, il a été démontré que HLA-DR, qui joue généralement le rôle principal dans les maladies auto-immunes, a un rôle important mais secondaire par rapport au locus HLA-DQ dans le T1D5.

Les troubles auto-immuns comme le DT1 en plus d'autres conditions telles que la maladie coeliaque, où une association directe et exceptionnellement forte pour HLA-DQ a été établie, nécessitent donc une caractérisation plus approfondie et systématique de la présentation de l'antigène par les molécules HLA-DQ pour permettre l'étude de leur fonction. Même si le domaine progresse rapidement7, jusqu'à présent, les motifs de liaison peptidique d'un nombre limité de molécules HLA-DQ ont été étudiés de manière exhaustive8,9,10. L'une des raisons en est que les molécules HLA-DQ sont plus complexes à étudier expérimentalement. Par exemple, en raison de la nature monomorphe de la chaîne α dans HLA-DR, les variations polymorphes ne sont fournies que par la chaîne β11. Dans HLA-DQ, les chaînes α et β contribuent aux variations polymorphes. Cependant, les preuves suggèrent que tous les appariements de chaînes α et β ne donneront pas un hétérodimère stable en raison d'exigences structurelles clés sur l'interface de dimérisation α et β11,12. Par exemple, DQA1*01 n'a été détecté que pour former des hétérodimères stables avec les allèles DQB1*05 et 06. De même, les allèles DQA1*02, 03, 04, 05 et 06 forment des hétérodimères stables uniquement avec les DQB1*02, 03 et 0412,13,14.

De plus, l'étude de la fonction des allèles HLA-DQ est difficile en raison du déséquilibre de liaison étendu entre HLA-DR et HLA-DQ dans la région HLA de classe II, ce qui rend difficile la différenciation du rôle des allèles HLA-DQ individuels des molécules HLA-DR associées3,11.

Enfin, des molécules DQ codées cis et trans uniques peuvent se produire lorsque les chaînes α et β qui s'apparient pour former l'hétérodimère sont codées par les mêmes chromosomes (cis) ou opposés (trans), ce qui complique encore l'étude de ces molécules. Alors que la majorité des connaissances actuelles sur les molécules HLA-DQ proviennent de variants codés en cis, l'expression de surface et la fonction d'un petit nombre de variants DQ codés en trans ont été confirmées11,15. Ici, il est important de souligner que ces molécules trans fonctionnelles ont également été observées comme étant fonctionnelles en tant que variant correspondant codé en cis. Par conséquent, on pense généralement que les allèles des chaînes DQα et DQβ s'apparient principalement dans les variantes cis plutôt que trans16,17. Ci-après, nous nous référons à toutes les combinaisons stables de chaînes DQα et β mentionnées ci-dessus comme cis, et le reste qui comprend toute combinaison qui n'a pas été détectée ou signalée comme codée en cis sera appelé "trans uniquement".

Ces dernières années, les informations relatives aux variants HLA-DQ codés en cis ont été considérablement élargies en raison de la disponibilité de grands volumes de données de séquence HLA13. Ici, l'hypothèse est que tous les haplotypes DQ observés, par sélection naturelle, sont capables de former des molécules codées cis et trans stables et fonctionnelles. Cependant, le rôle des variants trans uniquement codés dans la présentation de l'antigène et leur contribution à la mise en forme et à la complémentation de l'immunopeptidome HLA-DQ sont restés largement non résolus.

Compte tenu du rôle critique de la présentation de l'antigène HLA de classe II dans le contrôle et la mise en forme de la réponse immunitaire adaptative, de grands efforts ont été consacrés au développement de modèles de prédiction capables de prédire cet événement (revu dans Nielsen et al. 202018). Les méthodes de prédiction de pointe actuelles incluent NetMHCIIpan19, une méthode pan-spécifique permettant de prédire la présentation de l'antigène pour toute molécule HLA de classe II avec une séquence protéique connue. Pour les hétérodimères HLA-DQ et DP, cela signifie que des informations de séquence sur les chaînes α et β sont nécessaires pour faire des prédictions.

À l'origine, des tests d'affinité de liaison peptide-HLA in vitro ont été utilisés pour générer des données permettant de caractériser les motifs des molécules HLA de classe II et le développement de différents modèles de prédiction d'apprentissage automatique pour identifier les règles de liaison peptide-HLA. Cependant, les résultats expérimentaux indiquent que l'affinité de liaison (BA) est un corrélat relativement faible du traitement et de la présentation de l'antigène par les molécules HLA22. De plus, plusieurs études ont démontré que les performances des modèles de prédiction de liaison aux peptides HLA de classe II s'améliorent considérablement lorsqu'ils sont entraînés avec des données d'immunopeptidome acquises par chromatographie liquide couplée à la spectrométrie de masse (LC-MS/MS)2,20,23,24. Généralement, dans un test de ligand élué (EL) d'immunopeptidome HLA de classe II, les molécules HLA sont purifiées par affinité à partir de cellules présentatrices d'antigène (APC) lysées en utilisant des anticorps monoclonaux spécifiques de HLA. Les molécules HLA sont ensuite dénaturées et les ligands peptidiques sont isolés et séquencés via LC-MS/MS25,26. Le résultat d'un tel dosage est une liste de séquences peptidiques restreintes à au moins une des molécules HLA de classe II exprimées par la lignée cellulaire interrogée. Les données EL présentent un avantage majeur par rapport aux données BA car elles contiennent des signaux provenant de différentes étapes de la présentation de l'antigène HLA de classe II, telles que la digestion de l'antigène, le chargement HLA des ligands et le transport vers la surface cellulaire27,28,29.

Les prédictions de liaison HLA de classe II ont été largement utilisées pour identifier les épitopes candidats dans les maladies infectieuses, cancéreuses et auto-immunes30. La majorité des algorithmes de prédiction pour HLA de classe II se sont jusqu'à présent concentrés sur les molécules HLA-DR en raison de la grande disponibilité de données pour celles-ci. Cependant, dans le contexte de HLA-DQ, l'appariement de chaînes α et β synthétiques afin d'effectuer des expériences d'affinité de liaison et la génération de grands ensembles de données EL se sont avérés difficiles. Ce dernier étant principalement dû au manque d'application d'anticorps spécifiques HLA-DQ dans des expériences d'immunopeptidomique MS à grande échelle, ce qui entraîne un rendement limité dans le processus de purification HLA-DQ.

Ces dernières années, la protéomique et l'analyse des peptides par spectrométrie de masse (MS) ont fait d'énormes progrès, grâce à une technologie de pointe et à une sensibilité accrue des instruments, ainsi qu'à des plateformes logicielles et des algorithmes avancés qui prennent en charge l'identification et la quantification des peptides. Ces avancées, associées à l'utilisation d'un anticorps HLA-DQ hautement spécifique, nous ont permis de caractériser, en un seul test, des milliers de peptides qui se lient naturellement aux molécules HLA-DQ et génèrent des complexes peptide-HLA stables qui sont transportés à la surface cellulaire pour être présentés aux cellules immunitaires. Ici, nous avons appliqué cette configuration pour générer un large ensemble de peptides présentés par un groupe de molécules HLA-DQ fréquentes dans la population mondiale à partir d'un panel de lignées cellulaires lymphoblastoïdes B homozygotes. Ces grands ensembles de données ont été directement soumis à des pipelines d'identification de motifs bioinformatiques et d'apprentissage automatique pour définir les motifs et découvrir les règles régissant le traitement et la présentation des peptides dans un contexte biologique. En outre, cette étude nous a permis d'avancer vers la résolution du défi de la formation cis versus trans des hétérodimères HLA-DQ fonctionnels et de déterminer le rôle des variants trans uniquement dans la formation de l'immunopeptidome HLA-DQ. Les connaissances approfondies sur les caractéristiques de liaison aux peptides des molécules HLA-DQ étudiées fournies par cette étude faciliteront une meilleure compréhension de l'association de la maladie HLA-DQ et la découverte de nouvelles cibles thérapeutiques.

Pour l'étude, les données d'immunopeptidome pour 14 molécules HLA-DQ différentes ont été obtenues à partir de 16 lignées cellulaires lymphoblastoïdes B homozygotes (BLCL) à l'aide de LC-MS/MS. En utilisant un anticorps spécifique de DQ lors de la purification par affinité, nous avons pu obtenir un grand ensemble de données hautement enrichi en ligands peptidiques DQ. Un aperçu du nombre de peptides des lignées cellulaires, des types DQ HLA et des distributions de longueur des peptides est présenté à la Fig. 1. Dans l'ensemble, les données contiennent un total de 39 334 ligands peptidiques, les 14 et 15-mères étant les plus répandus. Après avoir enrichi les nouvelles données avec des peptides naturels aléatoires attribués comme négatifs (voir matériaux et méthodes), nous les avons combinées avec les données utilisées pour former la méthode de prédiction NetMHCIIpan-4.1, produisant un grand ensemble de données de ligands HLA de classe II élués. À partir de là, nous avons entrepris d'aborder trois problèmes essentiels liés à HLA-DQ, à savoir (i) le pouvoir prédictif relativement faible des modèles de prédiction actuels pour les molécules DQ, (ii) la contribution des variants DQ codés uniquement en trans à l'immunopeptidome DQ, et (iii) la couverture globale de l'espace de spécificité DQ des données expérimentales actuelles et des modèles de prédiction in silico développés.

Chaque ligne correspond à un ensemble de données d'une lignée cellulaire homozygote DQ donnée. Panneau de gauche : diagramme à barres du nombre total de peptides. Les chiffres sur la gauche correspondent aux identifiants de la lignée cellulaire. Panneau du milieu : types DQ HLA des lignées cellulaires. Panneau de droite : distributions de longueur des peptides.

Pour étudier l'impact sur le pouvoir prédictif de l'intégration des nouvelles données DQ, nous avons utilisé l'algorithme NNAlign_MA31 qui est une méthode d'apprentissage automatique très puissante pour déconvoluer les données immunopeptidomiques de la SEP. Deux modèles de prédiction de présentation d'antigène peptidique ont été formés : l'un comprenant les nouvelles données purifiées par affinité DQ (appelées w_Saghar_DQ), et pour la comparaison directe de l'impact des nouvelles données sans (appelées wo_Saghar_DQ). Les modèles ont ensuite été évalués à l'aide d'une validation croisée sur une base par molécule dans quatre sous-ensembles différents de toutes les molécules HLA de classe II dans les données d'entraînement. Ces sous-ensembles sont les molécules non-DQ (NotDQ), toutes les molécules DQ (DQ), les molécules DQ présentes dans les nouvelles données (DQ_Saghar) et les molécules DQ non présentes dans les nouvelles données (DQ_NotSaghar).

La figure 2 affiche le résultat de cette expérience et démontre que l'incorporation des nouvelles données DQ a entraîné un gain de performance significatif pour DQ comme prévu (p = 0,011 pour toutes les métriques, n = 44 molécules, test binomial unilatéral sans liens). Cependant, à partir de ces résultats, il ressort que les performances de la DQ restent inférieures à celles des molécules non DQ. Nous avons supposé que cela résultait du calcul des performances DQ à partir d'un mélange des nouvelles données et des anciennes données de formation NetMHCIIpan-4.1. Pour le démontrer, nous avons évalué les performances sur les molécules DQ_Saghar limitées aux nouvelles données uniquement. Le résultat de ceci est montré dans la Fig. 3 et démontre qu'en se concentrant uniquement sur les nouvelles données, la performance de DQ atteint un niveau comparable à celui de non-DQ, avec un gain significatif en termes de PPV (t = 1,19, p = 0,24 pour AUC, t = 0,21, p = 0,83 pour AUC 0,1 et t = 2,69, p = 0,009 pour PPV, n = 14 molécule DQ s et n = 70 molécules non-DQ, tests t bilatéraux). Ce résultat est important car il suggère que les faibles performances signalées précédemment pour DQ sont au moins en partie imposées par une faible qualité et quantité des données DQ antérieures.

Chaque point est la mesure de performance pour une molécule HLA de classe II unique. Pour plus de détails sur les mesures de performance, reportez-vous aux matériaux et méthodes. Les colonnes correspondent à quatre sous-ensembles différents de molécules HLA, à savoir toutes les molécules non HLA-DQ (NotDQ, n = 70), toutes les molécules DQ (DQ, n = 44), les molécules DQ dans le nouvel ensemble de données (DQ_Saghar, n = 14) et les molécules DQ non présentes dans les nouvelles données (DQ_NotSaghar, n = 30). Chaque boîte à moustaches montre la médiane à l'intérieur de l'intervalle interquartile (IQR) entre les quartiles supérieur et inférieur, avec des moustaches s'étendant au plus à 1,5 fois l'IQR.

Chaque point est la mesure de performance d'une molécule HLA de classe II. Chaque boîte à moustaches montre la médiane à l'intérieur de l'intervalle interquartile (IQR) entre les quartiles supérieur et inférieur, avec des moustaches s'étendant au plus à 1,5 fois l'IQR.

Nous avons ensuite examiné les différences de peptides attribués aux molécules HLA-DQ entre les deux méthodes dans tous les échantillons. Ici, nous avons considéré tous les peptides qui ont été assignés à DQ avec un rang centile <20 (c'est-à-dire comme non-poubelle) dans au moins une des méthodes23. Dans l'ensemble, les deux méthodes partagent un degré élevé de chevauchement dans les peptides attribués à DQ (60 959 annotations ont été partagées par les deux modèles, 9309 annotations étaient uniques pour la méthode formée, y compris les nouvelles données et 4316 uniques pour la méthode formée sans). Cette couverture DQ accrue pour le modèle formé, y compris les nouvelles données, provient principalement des peptides attribués à DR (et dans une certaine mesure à la corbeille et au DP) par le modèle formé sans les nouvelles données (voir le tableau supplémentaire 1 pour un aperçu des migrations de peptides). Cela suggère qu'au moins une partie de la performance prédictive améliorée du nouveau modèle provient d'une déconvolution de motif améliorée.

Pour quantifier davantage cela, nous montrons la valeur de cohérence moyenne par molécule HLA dans les quatre sous-ensembles de molécules de la Fig. 1 supplémentaire. En bref, des matrices de notation spécifiques à la position ont été construites pour chaque molécule dans une lignée cellulaire donnée à partir des noyaux de liaison prédits dans les peptides positifs individuels, et la cohérence a été quantifiée par la corrélation de ces matrices pour la même molécule entre différents ensembles de données de lignées cellulaires (pour plus de détails, reportez-vous aux matériaux et méthodes). Sur la base de cette analyse, une cohérence globale améliorée est observée pour le modèle formé avec les nouvelles données DQ (p < 0,02 dans tous les cas sauf pour le sous-ensemble DQ_NotSaghar, test binomial unilatéral sans liens). L'analyse de cohérence pour un exemple de molécule contenue dans les nouvelles données (DQA1 * 03: 01-DQB1 * 03: 02) est illustrée à la Fig. 2 supplémentaire, illustrant que dans la plupart des cas, l'amélioration de la cohérence du motif est causée par une augmentation du nombre de peptides dans les échantillons (voir les tableaux supplémentaires 2 et 3).

De plus, des motifs de liaison HLA-DQ obtenus par déconvolution de motif des nouvelles données MS ont été visualisés, ainsi que des motifs de séquence basés sur des liants prédits, dans la Fig. 3 supplémentaire. Ici, les logos obtenus par déconvolution de motif sont dans la plupart des cas très similaires lorsque l'on compare les modèles formés avec et sans les nouvelles données. Cependant, les logos de séquence prédits basés sur les meilleurs peptides naturels aléatoires indiquent que le modèle formé sans les nouvelles données DQ n'a pas réussi à apprendre pleinement les motifs de liaison corrects de toutes les nouvelles molécules DQ, en particulier en ce qui concerne les préférences d'acides aminés P1. Pour quantifier ces résultats, des corrélations entre les logos déconvolués et prédits pour chaque méthode ont été calculées (Fig. 4 supplémentaire). Cette analyse a montré une corrélation significativement plus élevée pour la méthode incluant les nouvelles données (p = 0,011, n = 16 paires de logos, test binomial unilatéral sans liens), indiquant une correspondance très cohérente entre les motifs de liaison identifiés et prédits.

Ensemble, ces observations démontrent que l'incorporation des nouvelles données HLA-DQ a permis une identification enrichie des ligands peptidiques HLA-DQ, sauvant des peptides autrement affectés à des molécules DR/DP alternatives, entraînant une cohérence de déconvolution de motif améliorée et un pouvoir prédictif amélioré.

Les résultats ci-dessus ont été complétés par une comparaison avec un modèle entraîné comprenant les nouvelles données utilisant le codage de contexte peptidique. En bref, le codage de contexte fait référence à un scénario dans lequel les informations des régions flanquant le peptide sont extraites de la séquence protéique source et incluses en tant qu'entrée supplémentaire dans le modèle d'apprentissage automatique. Conformément à ce qui a été démontré précédemment2,27,31, les résultats de cette comparaison (Fig. 5 supplémentaire) ont démontré que le modèle entraîné avec contexte surpassait de manière significative le modèle entraîné sans contexte dans toutes les métriques de performance et sous-ensembles de données (la seule exception étant le sous-ensemble DQ_NotSaghar). Cependant, étant donné que l'objectif principal de la partie restante du manuscrit est d'étudier la déconvolution du motif et le rôle de cis par rapport à l'appariement des chaînes α et β DQ uniquement trans dans ce contexte, nous nous concentrons sur le modèle plus simple formé sans informations de contexte à partir de maintenant.

Dans les lignées cellulaires hétérozygotes DQ, quatre appariements de chaînes α – β possibles peuvent en principe être observés. Pour les hétérodimères dits cis, les chaînes α et β sont exprimées sur le même chromosome et peuvent donc être observées dans le séquençage des haplotypes. Les molécules DQ formées par l'appariement des chaînes α et β entre les chromosomes sont appelées trans-hétérodimères. Certains appariements α – β n'ont pas été observés comme codés en cis (sur la base de grandes études de population de séquençage d'haplotypes HLA) et sont donc appelés ici combinaisons «trans uniquement». Pour évaluer la contribution relative des hétérodimères DQ cis et trans uniquement dans la formation de l'immunopeptidome, nous avons étudié la distribution des peptides attribués aux molécules DQ codées cis par rapport aux molécules trans uniquement dans les ensembles de données hétérozygotes DQ pour les deux modèles. Ici, seuls les ensembles de données avec au moins 100 peptides annotés DQ à l'exclusion des déchets dans les deux méthodes ont été pris en compte (pour un aperçu des ensembles de données utilisés dans cette analyse, reportez-vous au tableau supplémentaire 4). La proportion de peptides annotés DQ attribués à chaque molécule a ensuite été calculée pour chaque ensemble de données contenant cette molécule. Enfin, la fraction peptidique moyenne par ensemble de données a été rapportée pour chaque molécule DQ, et la distribution de ces moyennes pour les molécules dans quatre catégories a ensuite été étudiée. Ces catégories sont toutes les variantes cis, cis-SA (variantes cis faisant partie des données d'entraînement DQ à allèle unique), cis-MA (variantes cis faisant partie des données d'entraînement DQ multi-alléliques) et variantes trans uniquement.

Le résultat de cette analyse est illustré à la Fig. 4a pour les deux modèles et indique que pour la méthode incluant les nouvelles données, les molécules trans uniquement couvrent systématiquement une petite proportion des annotations DQ dans chaque lignée cellulaire. D'autre part, les molécules cis ont généralement une contribution élevée, les molécules cis-SA ayant la plus grande contribution. Cependant, les molécules cis-MA se sont également avérées avoir une contribution significativement plus importante par rapport aux molécules trans uniquement dans le modèle, y compris les nouvelles données (t = 3,07, p = 0,005, n = 18 molécules cis-MA et n = 12 molécules trans uniquement, test t bilatéral). Des résultats similaires ont été trouvés lors de l'extension de la catégorie cis-SA pour inclure des molécules cis-MA avec la même pseudo-séquence qu'une molécule cis-SA (Fig. 6 supplémentaire). En outre, une contribution globale plus élevée des molécules trans uniquement aux annotations peptidiques DQ a été observée pour le modèle entraîné sans les nouvelles données (t = 2, 1, p = 0, 03, n = 12 molécules, test t unilatéral apparié). Ces résultats sont frappants, car ils indiquent que la déconvolution du motif dans le modèle incluant les nouvelles données n'est pas uniquement motivée par les molécules cis-SA, mais plutôt par une préférence globale pour les variants codés en cis par rapport aux variants trans uniquement (voir Supplémentaires. Figs. 7 et 8).

a Contribution au nombre de peptides des molécules cis et trans uniquement dans les méthodes avec (w_Saghar_DQ) et sans (wo_Saghar_DQ) les nouvelles données. Chaque point montre la fraction peptidique moyenne par ensemble de données pour une molécule DQ donnée. Pour chaque méthode, les molécules trans uniquement sont présentées dans une boîte à moustaches (n = 12), tandis que les molécules cis sont présentées dans trois catégories, à savoir toutes les molécules cis (Cis–All, n = 29), les molécules cis trouvées dans les données de formation DQ-SA (Cis–SA, n = 11) et les molécules cis trouvées uniquement dans les données de formation DQ-MA (Cis–MA, n = 18). Chaque boîte à moustaches montre la médiane à l'intérieur de l'IQR entre les quartiles supérieur et inférieur, avec des moustaches s'étendant jusqu'à 1,5 fois l'IQR au maximum. b Déconvolution du motif DQ pour le jeu de données Racle__TIL1. Les lignes correspondent aux méthodes formées avec (wSag) et sans (woSag) les nouvelles données, respectivement. Les comptages de peptides (à l'exclusion des peptides indésirables) sont affichés entre parenthèses dans les titres des tracés de logo. Les molécules trans uniquement sont mises en évidence dans des cadres rouges.

Pour approfondir cette question, la déconvolution du motif DQ des deux modèles pour l'ensemble de données Racle__TIL1 est illustrée à la Fig. 4b. Ici, le modèle formé sans les nouvelles données attribue une grande proportion de peptides (170 sur 425) à HLA-DQA1*01:01-DQB1*03:01, qui est une molécule uniquement trans connue pour ne pas former d'hétérodimère stable12,13. En revanche, dans le modèle formé avec les nouvelles données, presque aucun peptide n'est attribué à cette molécule (20 sur 459). Au lieu de cela, les peptides sont attribués à la molécule cis HLA-DQA1*03:03-DQB1*03:01. Notez également que pour les deux modèles, une proportion très mineure de peptides est attribuée à HLA-DQA1*03:03-DQB1*05:01, un autre hétérodimère uniquement trans connu pour être instable12,13.

Dans l'ensemble, ces résultats démontrent que le modèle comprenant les nouvelles données DQ permet une déconvolution de motif appropriée avec une attribution limitée de peptides aux molécules HLA-DQ trans uniquement. En outre, la très faible proportion de peptides attribués aux molécules trans uniquement, combinée à l'augmentation globale du volume de peptides HLA-DQ et de la cohérence du motif du modèle formé, y compris les nouvelles données, suggère fortement que les molécules HLA-DQ trans uniquement ont une contribution limitée ou nulle à l'immunopeptidome HLA-DQ total. Cependant, il est important de souligner que les prédictions sont fortement influencées par les données d'entraînement SA (illustrées par la contribution dominante de la catégorie cis-SA). En tant que tel, nous ne pouvons pas exclure complètement que le faible nombre d'annotations vers des hétérodimères uniquement trans puisse être affecté par le manque de données de formation SA pour ces molécules ou une similarité de séquence inférieure aux molécules cis-SA par rapport à celle des molécules cis-MA.

Lorsque nous avons comparé la distribution de longueur des ligands peptidiques DQ dans les nouvelles données avec des peptides restreints HLA-DR qui ont été purifiés à partir du même ensemble de BLCL23, il a été révélé que les ligands DQ étaient en général plus courts que les ligands DR (voir Fig. 9 supplémentaire). En comparant les longueurs médianes des peptides par molécule pour les deux loci, une différence significative a été trouvée (t = 2, 4, p <0, 03, n = 17 molécules DR et n = 14 molécules DQ, test t bilatéral), avec DR et DQ ayant des médianes moyennes de longueur peptidique de 15, 41 et 14, 93, respectivement. Cette analyse indique que les molécules HLA-DQ se lient généralement à des peptides plus courts par rapport à HLA-DR. De plus, contrairement aux allèles HLA-DQ qui sont plus cohérents dans leurs préférences de longueur de peptide, diverses molécules HLA-DR présentent des différences subtiles dans leurs préférences de longueur23. Par exemple, HLA-DR * 07: 01, 09: 01 et 14: 01 montrent une préférence pour les peptides plus courts (14 mers) tandis que la majorité des allèles DR suivent la préférence de longueur commune de classe II (15 mers).

Ensuite, nous voulions évaluer le nombre de molécules DQ présentes dans les prédictions de validation croisée par chaque modèle qui étaient correctement couvertes (c'est-à-dire qu'un grand nombre de peptides avaient été attribués pendant la formation), et donc où les modèles devraient atteindre une puissance prédictive précise. Le nombre de peptides pour une molécule DQ donnée a été estimé comme la somme accumulée des peptides de chaque lignée cellulaire contenant cette molécule (à l'exclusion des peptides indésirables). Ici, seuls les peptides annotés aux molécules DQ dans une lignée cellulaire donnée correspondant à au moins 5 % du nombre total de peptides DQ ont été inclus dans son comptage (ceci a été fait pour éviter d'inclure l'accumulation de bruit de faible comptage). Une molécule DQ donnée était alors dite couverte si le nombre total de peptides sur toutes les lignées cellulaires était d'au moins 100. Cette analyse a abouti à 24 molécules DQ couvertes par le modèle formé, y compris les nouvelles données, et 23 étant couvertes en excluant ces données. Aucune des 24 molécules DQ couvertes par le modèle incluant les nouvelles données ne s'est avérée être uniquement trans, alors que le modèle sans les nouvelles données couvrait deux molécules DQ trans uniquement, à savoir HLA-DQA1 * 01: 01-DQB1 * 03: 01 (comme décrit précédemment) et HLA-DQA1 * 01: 03-DQB1 * 03: 02. Sur les 21 molécules restantes, 20 ont été incluses dans les molécules couvertes par le modèle formé avec les nouvelles données.

Compte tenu des différents ensembles de molécules couverts par les deux méthodes, nous voulions estimer la couverture de chaque méthode en considérant l'ensemble de l'espace de spécificité DQ. Ainsi, pour chacune des deux méthodes, nous avons étudié la proportion de 154 molécules DQ prévalentes qui avaient une distance d'au plus 0,025 par rapport à une molécule couverte par le modèle (cet ensemble de molécules est ici appelé « couverture étendue »). Pour plus de détails sur la façon dont cette distance a été déterminée et la façon dont la liste des molécules DQ prévalentes a été définie, reportez-vous aux matériaux et méthodes. Le seuil de 0,025 a été choisi en fonction de la distance à laquelle le modèle formé sans les nouvelles données pourrait atteindre des performances optimales sur des molécules ne faisant pas partie des données de formation DQ-SA de la méthode (voir Fig. 10 supplémentaire). Notez également que 0,025 est un seuil de distance prudent et que nous nous attendons à ce que le modèle maintienne la précision également pour les molécules dépassant cette valeur32.

À partir de cette analyse, un gain significatif dans la couverture étendue a été trouvé (χ2 = 4,73, p <0,03, n = 154 molécules, test du chi carré), le modèle incluant les nouvelles données couvrant 94 molécules sur 154, tandis que le modèle sans les nouvelles données ne couvrait que 75 molécules sur 154 (voir les tableaux supplémentaires 5 et 6 pour une liste des molécules DQ couvertes et non couvertes pour le modèle formé incluant les nouvelles données). Lors de la comparaison des molécules couvertes et non couvertes pour la méthode, y compris les nouvelles données, le groupe non couvert avait des données de fréquence d'haplotypes mondiales significativement plus faibles, telles qu'obtenues sur Allelefrequencies.net (pour plus de détails sur la façon dont ces fréquences ont été obtenues, reportez-vous au matériel et aux méthodes) par rapport au groupe couvert (les fréquences moyennes pour les deux groupes étaient de 0,0134 et 0,0025, t = 2,69, p = 0,0083, n = 94 molécules couvertes et n = 60 molécules non couvertes). -molécules recouvertes, test t de Student bilatéral). Ces résultats suggèrent que les molécules DQ non couvertes ont une importance limitée du point de vue de la couverture de la population.

Pour visualiser la couverture de l'espace DQ, un arbre de spécificité a été construit. Ici, nous avons utilisé la liste des 154 molécules HLA-DQ prédominantes comme point de départ. Cette liste a d'abord été réduite à un ensemble de 61 molécules aux spécificités uniques (pour plus de détails, voir les méthodes) qui ont été incluses dans l'analyse ultérieure. Ensuite, un arbre de spécificité a été construit couvrant les 61 molécules DQ en appliquant la méthode MHCCluster33. En bref, la méthode MHCCluster estime la similarité entre deux molécules du CMH en utilisant la corrélation entre les valeurs de liaison prédites pour un grand nombre de peptides naturels aléatoires. La figure 5 montre l'arbre de spécificité résultant ainsi que les motifs de liaison prédits pour les 14 nouvelles molécules DQ. L'arbre affiche une large couverture de l'espace DQ, car toutes les nouvelles molécules sont réparties plus ou moins uniformément sur les différentes branches de l'arbre, et toutes les branches sont couvertes par une ou plusieurs molécules DQ à proximité des molécules DQ couvertes par les données d'entraînement. De plus, quelques sous-groupes de molécules non couvertes ont été observés (mis en évidence par des motifs dans des cadres rouges), qui correspondaient presque un à un aux groupes non couverts dans un arbre phylogénétique des pseudo-séquences DQ (voir Fig. 11 supplémentaire).

L'arbre est basé sur 61 molécules DQ dont les 14 molécules décrites par les nouvelles données. Les molécules oranges sont couvertes par la méthode comprenant les nouvelles données avec au moins 100 peptides, et les molécules bleues sont à une distance de 0,025 d'une molécule orange. Les molécules noires ne sont pas couvertes (c'est-à-dire qu'elles ont un nombre de peptides <100 et une distance >0,025 à une molécule orange). Les logos dans des cadres noirs correspondent à des molécules oranges. Les logos dans des cadres rouges correspondent à des molécules issues de branches avec des amas de molécules non recouvertes (noires). L'arbre de spécificité a été calculé à partir des similarités par paires entre les scores de prédiction pour les molécules DQ pour un ensemble de 100 000 peptides 13-17mer naturels aléatoires. Des logos ont été construits pour les 1 % de noyaux de liaison les mieux notés pour ces 100 000 peptides.

Le modèle développé ici, y compris les nouvelles données d'immunopeptidome DQ, est rendu public à l'adresse https://services.healthtech.dtu.dk/services/NetMHCIIpan-4.2. Le procédé permet la prédiction de la présentation de l'antigène HLA à toutes les molécules HLA-DQ, et la prédiction peut être faite avec ou sans codage de contexte.

Comme vitrine finale de la puissance de déconvolution de motif de notre méthode pour DQ, nous avons comparé notre méthode à MixMHC2pred-2.0, un autre prédicteur HLA de classe II qui a été récemment publié7. Les données de référence ont été tirées de Marcu et al.34 et consistent en des données de ligand élué de 15 échantillons de donneurs, qui ont été enrichies avec des peptides négatifs aléatoires (pour plus de détails sur les données de référence, reportez-vous aux matériaux et méthodes et voir le tableau supplémentaire 7 pour un aperçu des échantillons utilisés).

Nous avons d'abord évalué les performances des deux méthodes sans inclure les informations de contexte de peptide. La figure 6a montre cette performance par échantillon sur l'ensemble des données, indiquant que notre méthode surpasse significativement MixMHC2pred-2.0 sur l'ensemble de données indépendant dans les trois métriques (p < 0,02 dans toutes les métriques, n = 15 échantillons, test binomial unilatéral sans liens). De plus, la figure 6b montre les performances par échantillon restreintes à l'union des peptides annotés vers DQ par l'une ou l'autre méthode, montrant une fois de plus un gain de performance significatif en faveur de NetMHCIIpan-4.2 (p <0,005 dans toutes les métriques, n = 15 échantillons, test binomial unilatéral sans liens). La répétition de la référence, y compris l'encodage du contexte peptidique, a également permis à notre méthode de surpasser significativement MixMHC2pred-2.0 (p <0,005 dans toutes les métriques pour l'ensemble des données et p = 3·10−5 dans toutes les métriques pour l'union des peptides annotés DQ, n = 15 échantillons, tests binomiaux unilatéraux sans liens (voir Fig. 12 supplémentaire)). Il convient de noter que les deux méthodes ont identifié une grande proportion de peptides indésirables avec des rangs centiles> 20 dans les données (~ 21% et ~ 32% pour NetMHCIIpan-4.2 et MixMHC2pred, respectivement). Cela suggère une mauvaise qualité des données en général, produisant des performances nettement inférieures à celles observées dans notre validation croisée. La performance sur ces données n'est donc pas un véritable indicateur du pouvoir prédictif de chaque méthode. Cependant, le gain de performance global de notre méthode par rapport à MixMHC2pred-2.0 suggère que NetMHCIIpan-4.2 est plus puissant dans la déconvolution du motif et l'identification des ligands DQ.

Les prédictions ont été faites sans codage du contexte peptidique dans les deux méthodes. Chaque point est la mesure de performance pour un échantillon donné. Chaque boxplot (n = 15 échantillons dans tous les cas) montre la médiane à l'intérieur de l'IQR entre les quartiles supérieur et inférieur, avec des moustaches s'étendant jusqu'à au plus 1,5 fois l'IQR. a Performance par échantillon calculée sur l'ensemble des données. b Performance par échantillon calculée sur l'union des peptides annotés DQ entre les deux méthodes.

En étudiant la déconvolution du motif de notre méthode sur les échantillons DQ-hétérozygotes, nous avons observé que les molécules trans uniquement avaient une fois de plus une contribution limitée ou nulle (voir Fig. 13a supplémentaire). En termes de variants cis observés trouvés dans les données de formation DQ-SA ou DQ-MA (cis-SA et cis-MA, respectivement), les molécules cis-SA avaient la contribution la plus importante, cis-MA ayant une contribution significativement plus importante que les variants trans uniquement (t = 4,64, p = 0,0002, n = 12 molécules cis-MA et n = 7 molécules trans uniquement, test t bilatéral). Des résultats similaires ont été trouvés lors de la prise en compte de molécules cis-MA avec la même pseudo-séquence qu'une molécule cis-SA (Fig. 13b supplémentaire). Ce résultat contraste avec ce qui a été observé pour MixMHC2pred, où une contribution presque égale a été observée entre les différentes classes de molécules. Les figures supplémentaires 13c, d montrent la déconvolution du motif DQ pour les échantillons hétérozygotes de Marcu et al. 202134 par notre méthode et MixMHC2pred, respectivement. Ces déconvolutions de motif reflètent globalement les résultats décrits ci-dessus, avec un nombre très limité de peptides attribués à des variants uniquement trans par NetMHCIIpan-4.2, et une contribution presque égale à toutes les molécules DQ par MixMHC2pred-2.0.

Dans ce travail, nous avons démontré comment la génération rationnelle de données combinée à une exploration de données immunoinformatique raffinée peut améliorer les performances des prédictions de présentation des antigènes HLA de classe II et contribuer à combler l'écart de performances entre HLA-DR et HLA-DQ.

Nous avons généré des données MS-immunopeptidomiques de haute qualité à partir d'une série de 16 lignées cellulaires homozygotes HLA-DQ couvrant un total de 14 molécules HLA-DQ fréquentes dans différentes populations du monde. L'utilisation d'un anticorps interne spécifique HLA-DQ a permis l'identification d'ensembles de données MS-immunopeptidomiques d'un volume sans précédent, dans un contexte DQ, avec une moyenne de 2 600 peptides uniques identifiés dans chaque lignée cellulaire. L'intégration de ce grand volume de données avec des données antérieures issues du développement de NetMHCIIpan-4.1 nous a permis d'augmenter les performances prédictives de la présentation de l'antigène HLA-DQ à un niveau comparable à celui de HLA-DR. L'étude de la précision de la déconvolution du motif des deux méthodes formées avec et sans les nouvelles données a démontré une cohérence globale améliorée du motif sur toutes les molécules HLA. Cette observation démontre comment l'intégration des nouvelles données HLA-DQ se traduit par une attribution globale améliorée de restriction HLA des peptides MS-HLA individuels, conduisant à des caractérisations de motifs plus précises sur les trois locus HLA de classe II. La principale source de cette amélioration s'est avérée être un volume accru d'attribution de peptides aux molécules HLA-DQ pendant la déconvolution du motif. Cela a entraîné une amélioration de la précision du motif à la fois pour HLA-DQ imposé par le plus grand volume de peptides et pour les molécules non HLA-DQ par la suppression des peptides mal attribués comme DQ restreints par le modèle n'incluant pas les nouvelles données DQ.

Ensuite, en abordant la question des combinaisons de chaînes α et β HLA-DQ cis contre trans uniquement, nous avons démontré que, contrairement à la méthode sans les nouvelles données, le modèle formé, y compris les nouvelles données, effectuait la déconvolution du motif DQ presque uniquement en utilisant des variantes cis HLA-DQ connues. Un exemple particulier ici était la molécule HLA-DQ DQA1*01:01-DQB1*03:01, qui s'est vue attribuer un grand nombre de peptides dans le modèle formé sans les nouvelles données. Cependant, lors de l'inclusion des nouvelles données, l'attribution du peptide à cette molécule était presque complètement épuisée. Ce résultat, combiné à l'augmentation globale du volume de peptides HLA-DQ et de la cohérence du motif du modèle formé, y compris les nouvelles données, suggère fortement que les combinaisons trans-seulement HLA-DQ α et β ont une contribution minimale ou nulle à l'immunopeptidome HLA-DQ total. Cette découverte est frappante puisque la définition de la dimérisation uniquement cis et trans définie ici suit précisément les règles proposées précédemment pour la formation d'hétérodimères HLA-DQ stables/instables. Plus précisément, les règles indiquent que les contraintes structurelles ne favorisent pas la dimérisation de DQA1*01 avec les allèles DQB1*02, 03 et 04, entraînant leur assemblage inefficace, un manque de stabilité et d'expression de surface et donc une perte de fonction12,14. Ces résultats démontrent ainsi comment de telles règles peuvent être apprises directement à partir des données MS-immunopeptidome à l'aide de méthodes d'exploration de données sur mesure et d'ensembles de données définis de manière rationnelle, suggérant que des types d'analyse similaires devraient être étendus à HLA-DP pour approfondir notre compréhension de l'appariement des chaînes cis versus trans α et β.

Comme seules les variantes cis-DQ sont représentées dans les données d'entraînement SA, nous ne pouvons pas exclure complètement que le faible nombre d'annotations vers des molécules uniquement trans soit causé par un biais de données d'entraînement. Ce biais potentiel est également illustré par le fait que pour les échantillons contenant plusieurs molécules cis-DQ, notre méthode annotait systématiquement moins de peptides aux variants cis non couverts par les données de formation DQ-SA. Compte tenu de cela, il serait très utile de générer des ensembles de données SA pour des molécules DQ supplémentaires actuellement uniquement couvertes par des données cis-MA afin de découvrir la véritable différence dans les préférences peptidiques et les hiérarchies de présentation pour ces variantes. De plus, l'ensemble de données MA indépendant utilisé pour se comparer à MixMHC2pred était très bruyant et ne donnait donc pas la meilleure représentation du pouvoir prédictif de chaque méthode. En tant que tels, des ensembles de données DQ-MA supplémentaires de haute qualité sont nécessaires pour valider et comparer davantage le pouvoir prédictif des différentes méthodes, et pour évaluer quelle approche de la méthode pour le traitement des variantes uniquement trans est la meilleure.

Notez que la définition des combinaisons de chaînes α et β HLA-DQ cis et trans uniquement appliquées dans ce travail dépend des données d'haplotype actuellement disponibles et de l'hypothèse selon laquelle toutes les combinaisons d'haplotypes α et β observées peuvent s'apparier et former des variantes cis, et toutes les autres combinaisons non observées en tant que telles variantes cis sont uniquement trans. Les données actuelles définissant ces catégories sont limitées en volume et des tailles d'échantillon plus importantes sont nécessaires pour des analyses plus précises, en particulier pour les groupes plus hétérogènes et les haplotypes à faible fréquence13.

Enfin, nous avons démontré comment la couverture des molécules HLA-DQ était largement augmentée par les modèles entraînés avec les nouvelles données et illustré cela en construisant un arbre HLA-DQ montrant la couverture de toutes les branches. Cela suggère que le modèle actuel couvre toutes les spécificités de liaison HLA-DQ (considérant que les molécules HLA-DQ trans-seulement ont une contribution limitée ou nulle à l'immunopeptidome HLA-DQ global).

Dans l'ensemble, ce travail a démontré comment une génération de données prudente à l'aide d'un anticorps spécifique à DQ et d'une purification par affinité combinée à une exploration de données raffinée et à une déconvolution de motif peut être appliquée pour combler l'écart de performance dans la prédiction de liaison peptidique entre HLA-DR et HLA-DQ. Malgré le gain de performances important démontré ici, la précision de HLA-DQ reste inférieure à celle observée pour DR. Nous démontrons que cela peut être attribué dans une très large mesure à la quantité et à la qualité généralement inférieures des ligands obtenus dans les études d'immunoprécipitation DQ antérieures où le plus souvent les données DQ (et DP) ont été obtenues à l'aide d'un anticorps pan-HLA de classe II (après premier appauvrissement pour HLA-DR29). En nous concentrant uniquement sur les nouvelles données générées dans cette étude, nous constatons que la quantité et la qualité des ligands DQ obtenus sont à égalité avec ce qui est trouvé pour HLA-DR, ce qui entraîne une performance prédictive pour l'ensemble de données associé étant égal entre les deux. Ce résultat a des impacts importants et suggère que la modélisation DQ est une tâche d'une complexité égale à celle de HLA-DR, et que les performances inférieures actuelles de DQ par rapport à DR sont dues à la faible quantité et qualité des données ; une situation qui peut être résolue par la génération de données de haute qualité et en volume, comme indiqué dans cette étude.

En conclusion, outre la démonstration d'une amélioration globale des performances prédictives et de la couverture des molécules HLA-DQ, un résultat clé de notre travail est une meilleure compréhension de la contribution relative des molécules cis par rapport aux molécules appariées uniquement trans à l'immunopeptidome total HLA-DQ démontrant un rôle très limité de ce dernier dans la complémentation de l'espace de spécificité. Nous pensons que ces découvertes fourniront une base pour d'autres recherches définissant le rôle moléculaire de HLA-DQ dans l'apparition de l'immunité cellulaire dans les maladies auto-immunes et infectieuses.

Des lignées de cellules lymphoblastoïdes B homozygotes (BLCL) ont été obtenues auprès de la banque de cellules et d'ADN du Groupe de travail international sur l'histocompatibilité (IHWG) hébergée au Fred Hutchinson Cancer Research Center, Seattle, WA (http://www.ihwg.org). Un groupe de 16 lignées cellulaires exprimant les allèles HLA-DQ à haute fréquence ont été sélectionnés pour l'étude (Données supplémentaires 1). Pour garantir des machines de traitement et de présentation de classe II intactes et pour s'assurer que l'expression totale de HLA-DQ représente le niveau physiologique, l'utilisation de cellules modifiées a été évitée.

Les cellules ont été cultivées dans des cultures à haute densité dans des flacons roulants dans du milieu RPMI complet (Gibco) additionné de 15 % de sérum bovin fœtal (FBS ; Gibco/Invitrogen Corp) et de 1 % de pyruvate de sodium 100 mM (Gibco). Les cellules ont été récoltées à partir de la suspension, lavées avec du PBS et centrifugées à 4°C pendant 10 min. Les culots cellulaires ont été immédiatement congelés dans LN2 et stockés à -80 jusqu'au traitement en aval23. Toutes les lignées cellulaires ont été soumises à un typage HLA haute résolution (HLA-A, -B, -C, DRB1,3, 4, 5, DP et DQ) immédiatement après réception et croissance dans notre laboratoire, pour authentification avant culture à grande échelle et collecte de données. L'anticorps monoclonal spécifique anti-HLA-DQ humain a été produit en interne à partir d'une lignée cellulaire d'hybridome (clone SPVL3) et utilisé pour la purification par affinité du HLA DQ total à partir des BLCL.

Les molécules HLA-DQ ont été purifiées à partir des cellules par chromatographie d'affinité en utilisant l'anticorps spécifique anti-HLA-DQ humain (clone SPVL3). Des colonnes d'immunoaffinité ont été générées en couplant 2 mg de l'anticorps purifié à 1 ml de matrice (Sepharose 4 Fast Flow activé par CNBr, Amersham Pharmacia Biotech, Orsay, France)23. Les culots cellulaires congelés ont été pulvérisés à l'aide de Retsch Mixer Mill MM400, remis en suspension dans un tampon de lyse composé de Tris pH 8, 0 (50 mM), Igepal, 0, 5%, NaCl (150 mM) et d'un cocktail complet d'inhibiteurs de protéase (Roche, Mannheim, Allemagne) et incubé à 4 C pendant 1 h sur un agitateur rotatif. Les lysats ont été centrifugés dans une ultracentrifugeuse Optima XPN-80 (Beckman Coulter, IN, USA) à 4 C pendant 90 min (200 000 xg). Les surnageants clarifiés ont été filtrés à l'aide d'un filtre de 0,45 µm et ont été chargés sur des colonnes d'immunoaffinité pendant une nuit à 4 °C. Les colonnes ont été lavées séquentiellement avec 10 cv de tampons de lavage à pH : 8,026 et ont été éluées avec de l'acide acétique 0,2 N. Le HLA a été dénaturé et les peptides ont été isolés en ajoutant de l'acide acétique glacial (jusqu'à 10 %) et de la chaleur (76 °C pendant 10 min). Le mélange de peptides et de HLA-DQ a été soumis à une chromatographie liquide à haute performance en phase inverse (RP-HPLC).

La RP-HPLC a été utilisée pour réduire la complexité du mélange de peptides élué de la colonne d'affinité. Dans un premier temps, l'éluat a été séché sous vide à l'aide d'un concentrateur CentriVap (Labconco, Kansas City, Missouri, USA). Le résidu solide a été dissous dans de l'acide acétique à 10 % et fractionné sur une colonne Gemini C18 de 150 mm de long, taille des pores 110 Å, taille des particules 5 µm (Phenomenex, Torrance, Californie, États-Unis) à l'aide d'un instrument Paradigm MG4 (Michrom BioResources, Auburn, Californie, États-Unis). Un gradient d'acétonitrile (ACN) a été exécuté à pH 2 en utilisant un système à deux solvants. Le solvant A contenait 2 % d'ACN dans l'eau et le solvant B contenait 5 % d'eau dans l'ACN. Le solvant A et le solvant B contenaient tous deux 0,1 % d'acide trifluoroacétique (TFA). La colonne a été pré-équilibrée avec 2 % de solvant B. L'échantillon a été chargé sur la colonne en une période de 18 min en utilisant un système de solvant composé de 2 % de solvant B à un débit de 120 µl/min. Ensuite, un gradient à deux segments a été exécuté à un débit de 160 µl/min : 4 à 40 % de Solvant B pendant 40 min, suivi de 40 à 80 % de Solvant B pendant 8 min23. Les fractions ont été collectées à des intervalles de 2 minutes à l'aide d'un collecteur de fractions Gilson FC 203B (Gilson, Middleton, Wisconsin, États-Unis) et le profil d'absorption ultraviolette (UV) de l'éluat a été enregistré à une longueur d'onde de 215 nm.

Les fractions HPLC contenant des peptides ont été séchées et remises en suspension dans un solvant composé de 10% d'acide acétique, 2% d'ACN et de peptides iRT (Biognosys, Schlieren, Suisse) comme étalons internes. Les fractions ont été appliquées individuellement à une RP-HPLC nanométrique Eksigent nanoLC 415 (AB Sciex, Framingham, Massachusetts, États-Unis), comprenant une colonne piège Chrom XP C18 de 5 mm de long et 350 µm de diamètre interne avec des particules de 3 µm et des pores de 120 Å, et une colonne de séparation ChromXP C18 de 15 cm de long (75 µm de diamètre interne) garnie du même milieu (AB Sciex, Framingham, Massachusetts, États-Unis). Un gradient d'ACN a été exécuté à pH 2,5 en utilisant un système à deux solvants. Le solvant A était de l'acide formique à 0,1 % dans de l'eau et le solvant B était de l'acide formique à 0,1 % dans de l'ACN à 95 % dans de l'eau. La colonne a été pré-équilibrée avec 2 % de solvant B. Les échantillons ont été chargés à un débit de 5 μL/min sur la colonne piège et passés dans la colonne de séparation à 300 nL/min avec deux gradients linéaires : 10 à 40 % B pendant 70 min, suivi de 40 à 80 % B pendant 7 min.

L'effluent de la colonne a été ionisé en utilisant la source ion nanospray iii d'un spectromètre de masse quadruple de TripletOf 5600 quadruple (AB SCIEX, Framingham, MA, USA) avec la tension source définie à 2400 V. . Après chaque analyse d'enquête, jusqu'à 22 ions avec un état de charge de 2 à 5 et une intensité d'au moins 200 coups par seconde ont été soumis à une dissociation induite par collision (CID) pour une analyse MS en tandem (MS/MS) sur une période maximale de 3,3 s. La sélection d'un ion particulier m/z a été exclue pendant 30 s après trois premières expériences MS/MS. L'énergie de collision dynamique a été utilisée pour ajuster automatiquement la tension de collision en fonction de la taille et de la charge des ions23. La version 1.2.0.3 du logiciel PeakView (AB Sciex, Framingham, MA, USA) a été utilisée pour la visualisation des données.

Les séquences peptidiques ont été identifiées à l'aide du logiciel PEAKS Studio 10.5 (Bioinformatics Solutions, Waterloo, Canada) à une tolérance d'erreur de masse de précurseur de 30 ppm et une tolérance d'erreur de masse de fragment de 0,02 Da. Une base de données composée de SwissProt Homo sapiens (identifiant de taxon 9606) et de séquences peptidiques iRT a été utilisée comme référence pour la recherche dans la base de données. Des modifications post-traductionnelles (PTM) variables, notamment l'acétylation, la désamidation, la formation de pyroglutamate, l'oxydation, les adduits de sodium, la phosphorylation et la cystéinylation, ont été incluses dans la recherche dans la base de données. Les peptides identifiés ont ensuite été filtrés à un taux de fausse découverte (FDR) de 1 % à l'aide de l'algorithme de leurre-fusion PEAKS.

Les données d'immunopeptidome consistent en des données de ligand élué par MS (EL) et d'affinité de liaison (BA) de l'ancien NetMHCIIpan-4.1 combinées aux données EL générées spécifiquement pour cette étude (voir ci-dessus). Le nouvel ensemble de données MS-immunopeptidome couvre 14 molécules HLA-DQ différentes obtenues à partir de 16 BLCL homozygotes. Ces données ont été filtrées pour exclure les liants HLA de classe I potentiels et d'autres contaminants co-immunoprécipités, ce qui a donné une liste de peptides de longueur 12-2123.

Les données EL ont été cartographiées sur le protéome source de référence humain pour définir le contexte de la protéine source. Les peptides sans correspondance de référence identique ont été exclus, ce qui a entraîné le rejet d'environ 4 % des peptides. Enfin, les données EL ont été enrichies par ID d'échantillon avec des peptides naturels aléatoires attribués comme négatifs. Cet enrichissement a été effectué en échantillonnant des peptides de 12 à 21 acides aminés de longueur d'une manière uniforme en une quantité égale à cinq fois le nombre de peptides pour la longueur la plus répandue dans les données positives pour l'échantillon donné.

Notre nouvel ensemble de données final comprend 39 334 peptides positifs et 369 313 peptides négatifs couvrant 14 molécules HLA-DQ uniques. Les peptides positifs de cet ensemble de données sont disponibles dans les données supplémentaires 2. En fusionnant les nouvelles données EL avec les données NetMHCIIpan-4.1 antérieures (élargies pour inclure des peptides de 12 acides aminés de longueur), les données EL complètes se composent de 480 845 positifs et 4 910 165 points de données négatifs provenant de 177 échantillons/lignées cellulaires, et les données BA se composent de 129 110 points de données.

Les données ont été divisées en cinq sous-ensembles pour la formation et l'évaluation de la méthode de validation croisée à l'aide de l'approche à motif commun35 fusionnant les données EL et BA garantissant que les peptides partageant un chevauchement identique de 9 acides aminés consécutifs ou plus ont été placés dans le même sous-ensemble.

Les modèles ont été formés à l'aide du cadre d'apprentissage automatique NNAlign_MA31 d'une manière similaire à celle de NetMHCIIpan-4.02. Autrement dit, le modèle complet consiste en un ensemble de 100 réseaux de neurones de deux architectures différentes avec une couche cachée et 40 ou 60 neurones cachés, avec 10 initialisations de poids aléatoires pour chacun des 5 plis de validation croisée (2 architectures, 10 graines et 5 plis). Tous les modèles ont été formés en utilisant la rétropropagation avec descente de gradient stochastique, pendant 300 époques, sans arrêt précoce, et un taux d'apprentissage constant de 0,05. Seules les données d'allèle unique (SA) ont été incluses dans la formation pour une période de rodage de 20 époques. Les cycles de formation suivants comprenaient des données multi-allèles (MA). Deux modèles principaux ont été formés, l'un comprenant les données originales de NetMHCIIpan-4.1 et l'autre comprenant les nouvelles données HLA-DQ. De plus, un modèle supplémentaire a été formé avec les nouvelles données à l'aide d'un codage de contexte peptidique. Ici, le contexte a été défini dans les terminaux N et C du peptide comme trois résidus de la protéine source flanquant le peptide, ainsi que trois résidus de départ du peptide, tous concaténés en une séquence d'acides aminés 12-mer. Pour plus de détails, consulter Barra et al. 201827.

Pour les ensembles de données MA, l'annotation HLA pour chaque peptide est basée sur laquelle des molécules HLA exprimées dans la lignée cellulaire donnée a reçu le score de prédiction le plus élevé. Pour équilibrer les différences entre les distributions des scores de prédiction des HLA, des scores de prédiction normalisés en centiles ont été générés pour chaque molécule en classant les scores de prédiction par rapport à une distribution de scores de prédiction de peptides naturels aléatoires. Par exemple, si un ligand peptidique reçoit un score de rang centile de 1, cela signifie que 1 % des peptides aléatoires avaient un score de prédiction plus élevé que le ligand peptidique pour le HLA19,36 donné.

Les performances ont été évaluées sur les prédictions de l'ensemble de test de validation croisée concaténées à l'aide de trois mesures distinctes, à savoir l'ASC (aire sous la courbe ROC), l'ASC 0,1 (aire sous la courbe ROC intégrée jusqu'à un taux de faux positifs de 10 %) et la valeur prédictive positive (PPV). Chaque métrique a été calculée de manière per-HLA à partir des scores de prédiction "bruts" après annotation HLA. En outre, la VPP a été calculée comme la fraction des vrais positifs dans les prédictions N supérieures, où N est le nombre de ligands attribués à une molécule HLA donnée. Pour l'évaluation des performances par HLA, seules les molécules HLA avec au moins 10 peptides positifs dans les deux modèles ont été incluses dans l'évaluation des performances, afin d'assurer un niveau de certitude dans les mesures de performances calculées.

Afin d'évaluer l'impact des nouvelles données DQ sur la déconvolution du motif de NNAlign_MA, une analyse de matrice de corrélation de cohérence a été effectuée2. Pour éviter que les peptides contaminants co-immunoprécipités potentiels de la SP ne biaisent cette analyse, l'union des peptides indésirables identifiés (c'est-à-dire les peptides positifs ayant un rang centile > 20 dans l'un ou l'autre des deux modèles) a été supprimée. Une matrice de notation spécifique à la position (PSSM) a ensuite été générée pour chaque molécule dans chaque lignée cellulaire sur la base des noyaux de liaison peptidiques prédits. Ici, un minimum de 20 peptides positifs était nécessaire pour qu'un PSSM soit généré. Ensuite, pour chaque paire de lignées cellulaires partageant une molécule donnée, le coefficient de corrélation de Pearson (PCC) entre les PSSM de la molécule a été calculé. La valeur de cohérence moyenne pour une molécule donnée a ensuite été donnée sous forme de PCC moyen sur chaque paire de lignées cellulaires uniques (à l'exclusion des auto-corrélations). Cette métrique indique ainsi la cohérence des motifs de liaison identifiés dans différents ensembles de données pour chaque molécule HLA de classe II.

La distance entre deux molécules HLA de classe II a été estimée à partir de la pseudo-distance des deux molécules, soit

où s(X, Y) est la similarité BLOSUM 50 sommée entre les pseudo-séquences de la molécule X et Y37. Ici, chaque pseudo-séquence a été définie à partir d'un ensemble de 34 résidus polymorphes dans la séquence HLA concaténés en une séquence continue, dont 15 et 19 résidus dérivent de la chaîne α et β, respectivement32.

Une liste des chaînes α et β HLA-DQ formant des hétérodimères HLA-DQ stables répandus a été construite en obtenant d'abord des listes d'allèles DQA1 et DQB1 avec des fréquences d'allèles mondiales annotées. Cela a été fait en interrogeant la base de données allelefrequencies.net38 pour les allèles à haute résolution dans les populations de taille 100 et plus. Ensuite, les fréquences alléliques mondiales ont été obtenues sous forme de moyennes pondérées par la taille de la population plafonnant la taille maximale de la population à 1000. Enfin, une liste des molécules HLA-DQ prévalentes a été construite en associant toutes les combinaisons α et β en suivant les restrictions décrites dans le tableau 1, en incluant uniquement les molécules avec une fréquence allélique combinée > 0,00005. Cela a abouti à une liste de 154 molécules HLA-DQ.

Les fréquences mondiales des haplotypes HLA-DQ ont été estimées en interrogeant la base de données allelefrencies.net38 pour les haplotypes DQ à haute résolution dans les populations de taille 100 et plus, moyenne sur l'ensemble de la population comme décrit ci-dessus pour les fréquences HLA-DQ.

Un arbre de spécificité HLA-DQ a été construit en réduisant d'abord la liste des 154 molécules HLA-DQ prévalentes à l'ensemble de pseudo-séquences uniques parmi les molécules. Ensuite, chaque pseudo-séquence unique a été mappée à un nom de molécule HLA-DQ représentatif. Par défaut, une molécule DQ dans la liste des molécules couvertes par les données d'apprentissage a été utilisée pour représenter une pseudo-séquence lorsque cela était possible. De plus, les 14 molécules DQ dans les nouvelles données ont été utilisées pour représenter leurs pseudo-séquences données. Dans d'autres cas d'options multiples pour une pseudo-séquence donnée, la molécule DQ la plus répandue en termes de fréquence allélique globale a été choisie. L'arbre de spécificité a ensuite été calculé à l'aide de la méthode MHCCluster33 et visualisé à l'aide du visualiseur d'arbre phylogénétique Iroki39.

Un arbre similaire a été construit sur la base du regroupement des pseudo-séquences DQ. Cet arbre a été calculé avec ClustalW-2.140 en utilisant sa fonction d'arbre phylogénétique, et à nouveau visualisé en utilisant le visualiseur d'arbre Iroki39.

Pour notre référence par rapport à MixMHC2pred-2.07, un ensemble de données indépendant a été extrait de Marcu et al.34, qui consiste en des données de ligand élué provenant de 15 échantillons de donneurs (énumérés dans le tableau supplémentaire 7). Ces données ont été traitées de la même manière que les données d'entraînement, c'est-à-dire que les peptides ont été cartographiés sur le protéome humain pour définir le contexte, et ont ensuite été enrichis avec des peptides négatifs aléatoires. Pour réduire les biais, les peptides qui étaient présents dans les données d'entraînement EL de notre méthode n'ont pas été inclus dans la référence. Cela a donné un total de 163 933 peptides positifs et 2 900 818 négatifs couvrant 66 molécules HLA de classe II uniques.

Les prédictions sur les données de référence ont été faites avec et sans codage de contexte peptidique. Pour les peptides situés près du début ou de la fin de la protéine source, les résidus de contexte manquants étaient représentés par "-" et "A" dans MixMHC2pred-2.0 et notre méthode, respectivement. De plus, dans notre méthode et MixMHC2pred, l'annotation HLA pour chaque peptide était basée sur le score de rang centile le plus bas rapporté par la méthode donnée pour les molécules HLA dans l'échantillon donné.

La performance a été évaluée sur une base par échantillon en termes d'ASC, d'ASC 0,1 et de VPP. Pour notre méthode, nous avons calculé les valeurs de performance de la même manière que dans la validation croisée en utilisant les scores de prédiction "bruts", tandis que pour MixMHC2pred-2.0, les performances ont été calculées en utilisant ses scores de rang centile rapportés.

Les visualisations de données dans les figures du manuscrit ont été réalisées en Python 3.8 à l'aide de la bibliothèque Matplotlib (version 3.5.1) et de la bibliothèque seaborn (version 0.12.0). Les logos de séquence ont été construits à l'aide de Seq2Logo-2.041.

Les analyses statistiques ont été effectuées en Python 3.8 à l'aide de la bibliothèque scipy (version 1.9.1). Pour chaque test statistique, la taille de l'échantillon était basée sur le nombre d'échantillons ou de molécules HLA présentes dans les données. De plus, un niveau de signification standard de 0,05 a été utilisé dans chaque test. Pour les évaluations de performance, les tests statistiques ont été principalement réalisés à l'aide de tests binomiaux unilatéraux hors ex aequo. L'hypothèse alternative dans ces tests est donc que la méthode formée avec les nouvelles données est plus susceptible de mieux fonctionner sur un échantillon ou une molécule HLA donné que l'autre méthode.

La reproductibilité de nos résultats expérimentaux et informatiques a été assurée par des descriptions très détaillées des conceptions expérimentales et la mise à disposition de tous les ensembles de données pertinents (voir « Disponibilité des données »). Pour la génération de données expérimentales, nous avons utilisé deux ensembles de BLCL homozygotes différents partageant le même allèle HLA-DQ pour confirmer la reproductibilité des motifs obtenus pour ces allèles (721.221 et IHW09004 partageaient l'allèle DQA1*01:01-DQB1*05:01 et IHW09072 et IHW9100 partageaient l'allèle DQA1*04:01-DQB1*04:0 2 allèle).

De plus amples informations sur la conception de la recherche sont disponibles dans le résumé des rapports sur le portefeuille Nature lié à cet article.

Les données de protéomique de spectrométrie de masse ont été déposées auprès du Consortium ProteomeXchange via le référentiel partenaire PRIDE42 avec l'identifiant de jeu de données PXD040860 et 10.6019/PXD040860. Le typage HLA pour les 16 BLCL utilisés dans l'étude est inclus dans les données supplémentaires 1. Les nouvelles données immunopeptidomiques générées pour cette étude sont disponibles dans les données supplémentaires 2. Les données sources numériques utilisées pour générer les principaux chiffres sont incluses dans les données supplémentaires 3. s/NetMHCIIpan-4.2/.

Rocha, N. & Neefjes, J. Molécules de classe II du CMH en mouvement pour une présentation réussie de l'antigène. EMBO J. 27, 1–5 (2008).

Article CAS PubMed Google Scholar

Reynisson, B. et al. Prédiction améliorée de la présentation de l'antigène du CMH II grâce à l'intégration et à la déconvolution du motif des données de ligand élué du CMH par spectrométrie de masse. J. Proteome Res. 19, 2304-2315 (2020).

Article CAS PubMed Google Scholar

Arango, MT et al. HLA-DRB1 le gène notoire dans la mosaïque de l'auto-immunité. Immunol. Rés. 65, 82–98 (2017).

Article CAS PubMed Google Scholar

Erlich, H. et al. Haplotypes et génotypes HLA DR-DQ et analyse du risque de diabète de type 1 des familles du consortium génétique du diabète de type 1. Diabète 57, 1084–1092 (2008).

Article CAS PubMed Google Scholar

Hu, X. et al. Les effets additifs et d'interaction à trois positions d'acides aminés dans les molécules HLA-DQ et HLA-DR entraînent un risque de diabète de type 1. Nat. Genet 47, 898–905 (2015).

Article CAS PubMed PubMed Central Google Scholar

Stepniak, D. et al. La caractérisation à grande échelle des ligands naturels explique les propriétés uniques de liaison au gluten de HLA-DQ2. J. Immunol. 180, 3268–3278 (2008).

Article CAS PubMed Google Scholar

Racle, J. et al. Les prédictions d'apprentissage automatique des spécificités du CMH-II révèlent un mode de liaison alternatif des épitopes de classe II. bioRxiv https://doi.org/10.1101/2022.06.26.497561 (2022).

Bergseng, E. et al. Différents motifs de liaison des molécules HLA associées à la maladie coeliaque DQ2.5, DQ2.2 et DQ7.5 révélés par la protéomique quantitative relative des répertoires de peptides endogènes. Immunogénétique 67, 73–84 (2014).

Article PubMed PubMed Central Google Scholar

Sidney, J. et al. Motifs divergents mais répertoires de liaison qui se chevauchent de six molécules HLA-DQ fréquemment exprimées dans la population humaine mondiale. J. Immunol. 185, 4189–4198 (2010).

Article CAS PubMed Google Scholar

Vartdal, F. et al. Le motif de liaison peptidique de la molécule HLA-DQ (α 1* 0501, β 1* 0201) associée à la maladie. EUR. J. Immunol. 26, 2764-2772 (1996).

Article CAS PubMed Google Scholar

Tollefsen, S. et al. Études structurales et fonctionnelles de la molécule de protéine HLA-DQ2.3 transcodée (DQA1*03:01/DQB1*02:01). J. Biol. Chim. 287, 13611–13619 (2012).

Article CAS PubMed PubMed Central Google Scholar

Kwok, WW, Kovats, S., Thurtle, P. & Nepom, GT Les polymorphismes alléliques HLA-DQ contraignent les modèles de formation d'hétérodimères de classe II. J. Immunol. 150, 2263-2272 (1993).

Article CAS PubMed Google Scholar

Creary, LE et al. Fréquences d'allèles et d'haplotypes HLA à haute résolution dans plusieurs populations non apparentées déterminées par séquençage de nouvelle génération: rapport conjoint du 17e atelier international HLA et immunogénétique. Hum. Immunol. 82, 505–522 (2021).

Article CAS PubMed PubMed Central Google Scholar

Petersdorf, EW et al. Hétérodimères HLA-DQ dans la transplantation de cellules hématopoïétiques. Sang 139, 3009–3017 (2022).

Article CAS PubMed Google Scholar

Lundin, KE et al. Reconnaissance par les lymphocytes T d'un hétérodimère HLA-DQ alpha/bêta associé à la maladie cœliaque. J. Immunol. 145, 136-139 (1990).

Article CAS PubMed Google Scholar

Kwok, WW & Nepom, GT Contraintes structurelles et fonctionnelles sur les dimères HLA de classe II impliqués dans la susceptibilité au diabète sucré insulino-dépendant. Baillières Clin. Endocrinol. Métab. 5, 375–393 (1991).

Article CAS PubMed Google Scholar

McFarland, BJ & Beeson, C. Interactions de liaison entre les peptides et les protéines du complexe majeur d'histocompatibilité de classe II. Rés. méd. Rév. 22, 168–203 (2002).

Article CAS PubMed Google Scholar

Nielsen, M., Andreatta, M., Peters, B. & Buus, S. Immunoinformatics : prédiction de la liaison peptide-CMH. Annu Rev. Biomed. Data Sci. 3, 191-215 (2020).

Article Google Scholar

Reynisson, B., Alvarez, B., Paul, S., Peters, B. & Nielsen, M. NetMHCpan-4.1 et NetMHCIIpan-4.0 : prédictions améliorées de la présentation de l'antigène du CMH par déconvolution de motif simultanée et intégration des données du ligand élué du CMH MS. Nucleic Acids Res. 48, W449–W454 (2020).

Article CAS PubMed PubMed Central Google Scholar

Gfeller, D. & Bassani-Sternberg, M. Prédire la présentation de l'antigène - Que pourrions-nous apprendre d'un million de peptides ? Immunol avant. 9, 1716 (2018).

Article PubMed PubMed Central Google Scholar

Nielsen, M., Lund, O., Buus, S. & Lundegaard, C. Algorithmes prédictifs d'épitopes de classe II du CMH. Immunologie 130, 319–328.

Article CAS PubMed PubMed Central Google Scholar

Bassani-Sternberg, M. et al. Identification directe des néoépitopes cliniquement pertinents présentés sur le tissu de mélanome humain natif par spectrométrie de masse. Nat. Commun. 7, 13404 (2016).

Article CAS PubMed PubMed Central Google Scholar

Kaabinejadian, S. et al. La déconvolution précise du motif MHC des données immunopeptidomiques révèle une contribution significative des DRB3, 4 et 5 à l'immunopeptidome DR total. Immunol avant. 13, 835454 (2022).

Article CAS PubMed PubMed Central Google Scholar

Alvarez, B., Barra, C., Nielsen, M. & Andreatta, M. Outils informatiques pour l'identification et l'interprétation des motifs de séquence dans les immunopeptidomes. Protéomique 18, 1700252 (2018).

Article Google Scholar

Caron, E. et al. Analyse des immunopeptidomes du complexe majeur d'histocompatibilité (CMH) par spectrométrie de masse. Mol. Cellule. Protéome. 14, 3105–3117 (2015).

Article CAS Google Scholar

Purcell, AW, Ramarathinam, SH & Ternette, N. Identification basée sur la spectrométrie de masse des peptides liés au CMH pour l'immunopeptidomique. Nat. Protocole 14, 1687-1707 (2019).

Article CAS PubMed Google Scholar

Barra, C. et al. Les empreintes de traitement de l'antigène stimulent les prédictions des ligands naturels du CMH de classe II. Génome Med 10, 84 (2018).

Article CAS PubMed PubMed Central Google Scholar

Paul, S. et al. Détermination d'un motif de clivage prédictif pour les ligands de classe II du complexe majeur d'histocompatibilité élués. Devant. Immunol. 9, 1795 (2018).

Article PubMed PubMed Central Google Scholar

Racle, J. et al. Prédiction robuste des épitopes HLA de classe II par déconvolution profonde du motif des immunopeptidomes. Nat. Biotechnol. 37, 1283-1286 (2019).

Article CAS PubMed Google Scholar

Wang, P. et al. Prédictions de liaison peptidique pour les molécules HLA DR, DP et DQ. BMC Bioinforma. 11, 568 (2010).

Article Google Scholar

Alvarez, B. et al. NNAlign_MA ; Déconvolution du peptidome du CMH pour une caractérisation précise du motif de liaison du CMH et des prédictions améliorées des épitopes des lymphocytes T. Mol. Cellule. Protéome. 18, 2459-2477 (2019).

Article CAS Google Scholar

Karosiene, E. et al. NetMHCIIpan-3.0, une méthode de prédiction commune pan-spécifique du CMH de classe II comprenant les trois isotypes du CMH de classe II humaine, HLA-DR, HLA-DP et HLA-DQ. Immunogenetics 65, 711–724 (2013).

Article CAS PubMed Google Scholar

Thomsen, MCF, Lundegaard, C., Buus, S., Lund, O. & Nielsen, M. MHCcluster, une méthode de regroupement fonctionnel des molécules du CMH. Immunogénétique 65, 655–665.

Article CAS PubMed PubMed Central Google Scholar

Marcu, A. et al. Atlas des ligands HLA : une référence bénigne des peptides présentés par HLA pour améliorer l'immunothérapie contre le cancer à base de lymphocytes T. J. Immunother. Cancer 9, e002071 (2021).

Article PubMed PubMed Central Google Scholar

Nielsen, M., Lundegaard, C. & Lund, O. Prédiction de l'affinité de liaison du CMH de classe II à l'aide de SMM-align, une nouvelle méthode d'alignement de la matrice de stabilisation. BMC Bioinforma. 8, 238 (2007).

Article Google Scholar

Nielsen, M. & Andreatta, M. NetMHCpan-3.0 ; prédiction améliorée de la liaison aux molécules du CMH de classe I intégrant des informations provenant de plusieurs ensembles de données de récepteurs et de longueurs de peptides. Génome Med. 8, 33 (2016).

Article PubMed PubMed Central Google Scholar

Sabot, I. et al. NetMHCpan , une méthode de prédiction de liaison du CMH de classe I au-delà des humains. Immunogenetics 61, 1–13 (2009).

Article CAS PubMed Google Scholar

Gonzalez-Galarza, FF, Christmas, S., Middleton, D. & Jones, AR Réseau de fréquence des allèles : une base de données et un référentiel en ligne pour les fréquences des gènes immunitaires dans les populations mondiales. Nucleic Acids Res. 39, D913–D919 (2011).

Article CAS PubMed Google Scholar

Moore, RM, Harrison, AO, McAllister, SM & Polson, SW & Eric Wommack, K. Iroki : Personnalisation et visualisation automatiques des arbres phylogénétiques. Peer J 8, e8584 (2020).

Article PubMed PubMed Central Google Scholar

Larkin, MA et al. Clustal W et Clustal X version 2.0. Bioinformatique 23, 2947–2948 (2007).

Article CAS PubMed Google Scholar

Thomsen, MCF & Nielsen, M. Seq2Logo : une méthode de construction et de visualisation de motifs de liaison d'acides aminés et de profils de séquence, y compris la pondération de séquence, les pseudo-comptes et la représentation bilatérale de l'enrichissement et de l'épuisement des acides aminés. Nucleic Acids Res. 40, W281–W287 (2012).

Article CAS PubMed PubMed Central Google Scholar

Perez-Riverol, Y. et al. La base de données PRIDE et les outils et ressources associés en 2019 : Amélioration de la prise en charge des données de quantification. Nucleic Acids Res. 47, D442–D450 (2019).

Article CAS PubMed Google Scholar

Télécharger les références

La recherche rapportée dans cette publication a été soutenue par l'Institut national des allergies et des maladies infectieuses (NIAID), sous le numéro de prix 75N93019C00001. Nous tenons à remercier sincèrement le Dr Rico Buchli (Pure Protein, LLC) pour avoir fourni les colonnes d'affinité SPVL3 pour cette étude. Nous remercions également Steven Cate (Centre des sciences de la santé de l'Université de l'Oklahoma) et Sean Osborn (Pure MHC, LLC) pour le typage HLA des BLCL et des discussions très utiles.

Ces auteurs ont contribué à parts égales : Jonas Birkelund Nilsson, Saghar Kaabinejadian.

Département de technologie de la santé, Université technique du Danemark, DK-2800, Lyngby, Danemark

Jonas Birkelund Nilsson, Carolina Barra et Morten Nielsen

Pure MHC, LLC, Oklahoma City, OK, États-Unis

Saghar Kaabinejadian

Département de microbiologie et d'immunologie, University of Oklahoma Health Sciences Center, Oklahoma City, OK, États-Unis

Saghar Kaabinejadian, Hooman Yari et William Hildebrand

Centre de recherche sur les maladies infectieuses et les vaccins, La Jolla Institute for Immunology, La Jolla, CA, 92037, Californie, États-Unis

Björn Peters

Département de pathologie et de médecine de laboratoire, Tulane University School of Medicine, New Orleans, LA, 70112, États-Unis

Loren Gragert

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

SK et MN ont conçu l'étude. Les données expérimentales utilisées dans l'étude ont été générées par SK, avec la contribution de HY et WHJBN et MN ont généré les résultats et les chiffres de calcul. BP, CB et LG ont contribué à la méthodologie concernant l'analyse DQ cis et trans uniquement et ont fourni des commentaires scientifiques. Le manuscrit a été rédigé par JBN, SK et MN, avec des contributions de tous les auteurs. Tous les auteurs ont lu et approuvé la version finale de l'article.

Correspondance avec Morten Nielsen.

SK est un employé de Pure MHC, LLC. Les autres auteurs ne déclarent aucun intérêt concurrent.

Communications Biology remercie Shanfeng Zhu, David Gfeller et les autres examinateurs anonymes pour leur contribution à l'examen par les pairs de ce travail. Rédacteur en chef de la gestion principale : Zhijuan Qiu.

Note de l'éditeur Springer Nature reste neutre en ce qui concerne les revendications juridictionnelles dans les cartes publiées et les affiliations institutionnelles.

Libre accès Cet article est sous licence Creative Commons Attribution 4.0 International License, qui permet l'utilisation, le partage, l'adaptation, la distribution et la reproduction sur n'importe quel support ou format, tant que vous donnez le crédit approprié à l'auteur ou aux auteurs originaux et à la source, fournissez un lien vers la licence Creative Commons et indiquez si des modifications ont été apportées. Les images ou tout autre matériel tiers dans cet article sont inclus dans la licence Creative Commons de l'article, sauf indication contraire dans une ligne de crédit au matériel. Si le matériel n'est pas inclus dans la licence Creative Commons de l'article et que votre utilisation prévue n'est pas autorisée par la réglementation légale ou dépasse l'utilisation autorisée, vous devrez obtenir l'autorisation directement du détenteur des droits d'auteur. Pour voir une copie de cette licence, visitez http://creativecommons.org/licenses/by/4.0/.

Réimpressions et autorisations

Nilsson, JB, Kaabinejadian, S., Yari, H. et al. L'apprentissage automatique révèle une contribution limitée des variantes codées trans uniquement à l'immunopeptidome HLA-DQ. Commun Biol 6, 442 (2023). https://doi.org/10.1038/s42003-023-04749-7

Télécharger la citation

Reçu : 01 octobre 2022

Accepté : 23 mars 2023

Publié: 21 avril 2023

DOI : https://doi.org/10.1038/s42003-023-04749-7

Toute personne avec qui vous partagez le lien suivant pourra lire ce contenu :

Désolé, aucun lien partageable n'est actuellement disponible pour cet article.

Fourni par l'initiative de partage de contenu Springer Nature SharedIt

En soumettant un commentaire, vous acceptez de respecter nos conditions d'utilisation et nos directives communautaires. Si vous trouvez quelque chose d'abusif ou qui ne respecte pas nos conditions ou directives, veuillez le signaler comme inapproprié.