Un cadre de réseau neuronal clairsemé évolutif pour l'annotation de type de cellule rare d'un seul

Nouvelles

MaisonMaison / Nouvelles / Un cadre de réseau neuronal clairsemé évolutif pour l'annotation de type de cellule rare d'un seul

May 03, 2023

Un cadre de réseau neuronal clairsemé évolutif pour l'annotation de type de cellule rare d'un seul

Volume Biologie des communications

Communications Biology volume 6, Article number: 545 (2023) Citer cet article

1368 accès

15 Altmétrique

Détails des métriques

Les méthodes d'annotation automatique de type cellulaire sont de plus en plus utilisées dans l'analyse de séquençage d'ARN unicellulaire (scRNA-seq) en raison de leurs avantages rapides et précis. Cependant, les méthodes actuelles ne tiennent souvent pas compte du déséquilibre des ensembles de données scRNA-seq et ignorent les informations provenant de populations plus petites, ce qui entraîne des erreurs d'analyse biologique importantes. Ici, nous introduisons scBalance, un cadre intégré de réseau de neurones clairsemé qui intègre un échantillonnage de poids adaptatif et des techniques d'abandon pour les tâches d'annotation automatique. En utilisant 20 ensembles de données scRNA-seq avec des échelles et des degrés de déséquilibre variables, nous démontrons que scBalance surpasse les méthodes actuelles dans les tâches d'annotation intra et inter-ensembles de données. De plus, scBalance affiche une évolutivité impressionnante dans l'identification des types de cellules rares dans des ensembles de données au niveau du million, comme le montre le paysage des cellules bronchoalvéolaires. scBalance est également beaucoup plus rapide que les outils couramment utilisés et se présente dans un format convivial, ce qui en fait un outil supérieur pour l'analyse scRNA-seq sur la plate-forme basée sur Python.

Depuis la première mise en place du séquençage d'ARN unicellulaire (scRNA-seq) par Tang et al. en 20091, cette technologie est rapidement devenue populaire parmi les scientifiques de divers domaines de recherche biologique. Comparé au séquençage d'ARN en vrac traditionnel qui ne mesure que le niveau d'expression génique moyen des échantillons, le scRNA-seq fournit une méthode puissante pour profiler les transcriptomes au niveau spécifique de la cellule. Par conséquent, cela pourrait permettre d'analyser des cellules individuelles et donner un aperçu plus informatif de l'hétérogénéité cellulaire. Le développement de la technologie scRNA-seq a été largement utilisé dans plusieurs domaines de recherche biologique, tels que la recherche sur le cancer2,3, l'analyse COVID4,5, la recherche en biologie du développement6, etc. Dans ces études, la découverte et l'identification des populations cellulaires est l'une des tâches les plus critiques.

En règle générale, l'annotation du type de cellule implique deux étapes : (1) le regroupement des cellules en différents sous-groupes et (2) l'étiquetage manuel de chaque groupe avec un type spécifique basé sur les gènes marqueurs connus auparavant. Un certain nombre d'algorithmes d'apprentissage automatique non supervisés ont été développés, y compris des méthodes classiques basées sur l'apprentissage automatique telles que Seurat7 et Scanpy8, et des méthodes basées sur l'apprentissage en profondeur récemment publiées, telles que scDHA9 et CLEAR10. Cependant, ces méthodes peuvent être chronophages et fastidieuses. Pour ceux qui n'ont pas trop de connaissances sur les gènes marqueurs, cette approche pourrait coûter beaucoup plus de temps que prévu. Les méthodes d'annotation automatique de type cellulaire, en revanche, ne souffrent pas du processus d'étiquetage manuel. Différent des méthodes non supervisées, les outils d'identification automatique de type cellulaire sont principalement conçus sur la base de cadres d'apprentissage supervisés. Profitant de ses caractéristiques rapides et précises, ils deviennent des outils prédominants pour identifier les types de cellules dans les expériences unicellulaires. Avec le boom sans précédent de l'atlas scRNA-seq bien annoté et la promotion rapide du projet Human Cell Atlas11,12, les outils d'auto-annotation font face à une perspective plus large que jamais auparavant. A ce jour, 32 outils d'auto-annotation sont développés et publiés13. Par exemple, SingleCellNet14 utilise un classificateur de forêt aléatoire pour résoudre les tâches d'annotation multiplateforme et interespèces. ACTINN15 implémente un simple réseau de neurones artificiels pour s'affranchir de l'effet batch.

Alors que de nombreux outils ont été mis en place ces dernières années, la plupart d'entre eux échouent souvent à identifier l'ensemble de la population en raison de l'existence de types cellulaires rares. Du point de vue de la composition cellulaire, les ensembles de données scRNA-seq sont toujours déséquilibrés, qui ont des types de cellules communs et des types de cellules rares. La population rare est une petite proportion de cellules dans l'ensemble de données unicellulaire. Par exemple, la cellule dendritique prend généralement 1 à 5 % des cellules mononucléaires du sang périphérique (PBMC), en particulier dans les grands ensembles de données16,17. Lorsque nous formons un outil d'annotation automatique, le classificateur est systématiquement incapable d'apprendre ses informations, ce qui rend difficile l'identification de ces types de cellules dans l'ensemble de données de la requête. Cependant, ces populations rares peuvent être cruciales, en particulier dans la recherche sur les maladies18. Récemment, certaines méthodes de détection de cluster ont remarqué ce point19,20 mais peu de méthodes de classification se sont concentrées sur le déséquilibre de la population cellulaire. En attendant, nous constatons également que les méthodes existantes présentent deux autres principales lacunes. (1) Manque d'évolutivité. Les plates-formes expérimentales récentes de scRNA-seq permettent des enquêtes sur des cellules de niveau million21,22. Notamment, l'un des plus récents atlas COVID PBMC a atteint 1,5 million de cellules17. Ainsi, la restriction de la vitesse de calcul rendra les packages d'annotation automatique peu évolutifs pour l'ensemble de données à un million de niveaux. De plus, les ensembles de données de référence à grande échelle ajoutent plus de défis pour l'apprentissage des types de cellules rares dans la formation des classificateurs, ce qui rend les logiciels actuels plus difficiles à identifier les groupes mineurs. L'article le plus récemment publié a élevé l'échelle de formation à 600 K cellules23, cependant, aucun outil publié ne rapporte avec succès l'évolutivité sur l'atlas de cellules au niveau du million. (2) La compatibilité des outils existants n'est pas aussi bonne que prévu. Parmi les outils basés sur Python existants, la plupart des outils tels que ACTINN15, scPretrain24, scCapNet25 et MarkerCount26 sont basés sur des scripts. Étant donné que Seurat et Scanpy sont tous deux des packages pouvant être téléchargés à partir d'un référentiel de logiciels standard (par exemple, PyPI), l'exécution d'un script Python externe sur le serveur ajoutera une charge supplémentaire à l'utilisateur. De plus, certains outils ne sont plus entretenus ou ne peuvent pas être utilisés. Tous ces défis réunis font qu'un nouvel outil d'annotation qui a une capacité équilibrée à étiqueter les types de cellules majeurs et mineurs de manière évolutive devient nécessaire.

Ici, nous introduisons scBalance, un cadre de réseau neuronal clairsemé qui peut étiqueter automatiquement les types de cellules rares dans les ensembles de données scRNA-seq de toutes les échelles. scBalance exploite la combinaison de l'échantillonnage de poids et d'un réseau de neurones clairsemé, grâce auquel les types de cellules mineurs (rares) sont plus informatifs sans nuire à l'efficacité d'annotation des populations de cellules communes (majeures). Nous avons évalué scBalance sur des ensembles de données réels avec divers degrés de déséquilibre et d'échelle de population cellulaire sur des tâches d'annotation intra et inter-ensemble de données, et comparé ses performances à des outils publiés populaires tels que Scmap-cell27, Scmap-cluster27, SingleCellNet14, SingleR28, scVI29, scPred30 et MARS31. Chaque méthode représente un algorithme d'apprentissage automatique traditionnel tel que Scmap-cell est basé sur KNN, SingleCellNet est basé sur Random Forest et scVI et MARS sont des méthodes basées sur l'apprentissage en profondeur. Parmi eux, notre méthode a constamment surpassé ces outils pour identifier les types de cellules rares, tout en maintenant une grande précision dans l'annotation des principaux types de cellules. De plus, scBalance a également démontré des vitesses de calcul rapides et stables surpassant les autres approches sur toutes les tailles d'ensembles de données. De plus, scBalance a été formé avec succès sur un atlas publié de cellules immunitaires COVID17 (1,5 million de cellules) et a en outre annoté et découvert de nouveaux types de cellules dans l'ensemble de données publié de scRNA-seq du liquide de lavage bronchoalvéolaire (BALF)32. De manière satisfaisante, notre méthode a identifié des types de cellules plus rares que l'analyse originale. Notre application conviviale est compatible avec Scanpy et Anndata, et peut être facilement téléchargée à partir de PyPI et utilisée comme API externe de Scanpy (https://github.com/yuqcheng/scBalance).

scBalance fournit un cadre d'apprentissage en profondeur intégratif pour effectuer une annotation précise et rapide des types de cellules, en particulier sur les types de cellules rares, de manière évolutive (Fig. 1). La structure du scBalance comprend deux parties, une technique d'échantillonnage de poids qui s'adapte aux ensembles de données déséquilibrés de scRNA-seq et un réseau neuronal clairsemé qui annote efficacement les types de cellules.

a La méthode est construite sur la base du cadre d'apprentissage supervisé, qui contient un module d'équilibrage des ensembles de données et un module de réseau neuronal d'abandon. Étape 1 supérieure : Avec notre échantillonnage pondéré adaptatif, scBalance choisira automatiquement le poids de chaque type de cellule dans l'ensemble de données de référence et construira le lot d'apprentissage. Inférieur : les utilisateurs peuvent choisir une méthode d'équilibrage des ensembles de données externe, telle que scSynO, au lieu d'utiliser notre méthode d'équilibrage interne. Seul le classificateur sera utilisé dans ce cas. Étape 2 : Pendant la formation, scBalance apprendra de manière itérative des mini-lots à partir d'un réseau de neurones à trois couches jusqu'à ce que la perte d'entropie croisée converge. b Réglage du décrochage en différentes étapes. Au stade de la formation, scBalance désactive de manière aléatoire les neurones du réseau. La couche de décrochage est binaire avec un taux de 0,5. Toutes les unités supprimées seront reconnectées lors de la phase de test. La prédiction sera traitée par un réseau de neurones entièrement connecté. c L'évaluation des méthodes d'équilibrage montre que notre méthode d'échantillonnage surpasse les méthodes simples de suréchantillonnage et de sous-échantillonnage ainsi que la méthode SMOTE. La valeur p provient d'un test de signification de scBalance et SMOTE (n = 5 pour chaque boîte à moustaches). d Comparaison des durées d'exécution entre différentes techniques d'échantillonnage.

Tout d'abord, différent de tous les outils existants, nous utilisons une technique d'échantillonnage de poids spécialement conçue pour traiter de manière adaptative l'ensemble de données déséquilibré de scRNA-seq. Contrairement aux méthodes existantes qui utilisent une technique synthétique33,34, notre méthode intègre la technique d'équilibrage dans les lots d'entraînement afin de ne pas générer de nouveaux points, ce qui peut économiser de l'espace mémoire et accélérer l'entraînement. Cette conception est particulièrement utile pour l'ensemble de données à l'échelle de l'atlas, où la génération de nouveaux points d'ensemble de données n'est pas pratique. Dans scBalance, pour conserver autant d'informations que possible et éviter un coût de temps de formation énorme, nous sur-échantillonnons de manière aléatoire les populations rares (classes minoritaires) et sous-échantillonnons les types de cellules communes (classes majoritaires) dans chaque lot de formation (Fig. 1a, étape 1). Le processus d'échantillonnage est effectué avec remplacement et le taux d'échantillonnage est adaptatif pour différents ensembles de données de référence, définis comme les proportions de type cellulaire de la véritable étiquette fournie par l'ensemble de référence. Cela minimise le surajustement dans le suréchantillonnage, maintenant ainsi une performance prometteuse de la capacité de généralisation de scBalance. Pendant ce temps, en ce qui concerne les énormes informations d'expression qui se chevauchent dans les populations communes, le sous-échantillonnage de la classe principale permet à scBalance d'utiliser une taille d'entraînement relativement petite avec une abondance d'informations d'entraînement. Tirant parti de cette conception, scBalance offre une performance exceptionnelle dans l'apprentissage des caractéristiques des types de cellules rares et maintient une forte capacité à classer tous les principaux types de cellules, améliorant ainsi également sa précision d'annotation globale. Pour témoigner de la performance de notre méthode d'échantillonnage interne, nous l'avons comparée avec des techniques d'équilibrage couramment utilisées telles que le suréchantillonnage et le sous-échantillonnage simples ainsi que la technique de suréchantillonnage synthétique des minorités (SMOTE). Les résultats montrent que notre méthode d'équilibrage interne améliore la précision de la classification par rapport au simple suréchantillonnage et sous-échantillonnage et surpasse également la méthode synthétique SMOTE (Fig. 1c et Fig. 1 supplémentaire). Notamment, notre méthode fournit une solution d'équilibrage plus rapide et peu encombrante par rapport aux méthodes d'équilibrage normalement utilisées (Fig. 1d et Supplémentaire Fig. 2a, b et Données supplémentaires 1). Parce que notre méthode est couplée au processus de formation, elle n'aura pas besoin de générer de nouveaux points de données, économisant ainsi du temps et de l'espace mémoire. De plus, scBalance fournit également une interface pour les utilisateurs qui souhaitent explorer des types de cellules mineures spécifiques avec une granularité plus détaillée. Il permet de traiter des ensembles de données par des méthodes d'échantillonnage externes telles que scSynO34. Dans ce cas, seul le classificateur scBalance sera utilisé.

De plus, nous remarquons que l'ensemble de données de référence et l'ensemble de données de prédiction peuvent être générés par différentes plates-formes et protocoles de séquençage tels que la plate-forme 10X et la plate-forme Smart-seq, introduiront donc naturellement différents bruits tels que les abandons de détection de gènes et les erreurs de séquençage aléatoires35. Pour résoudre ce problème, scBalance considère le bruit aléatoire comme un type d'événement de surajustement et implémente la technique dropout36 pour atténuer ce problème. La couche de décrochage, en raison de son excellente capacité à réduire le surajustement, améliore également la capacité d'apprentissage du scBalance aux types de cellules mineures rééchantillonnées. De plus, scBalance fournit une option de réutilisation du réseau pour le scénario de formation à l'échelle de l'atlas, permettant aux utilisateurs d'éviter le coût en temps important de la formation à nouveau du modèle pour le même ensemble de données (Fig. 1a, étape 3).

Pris ensemble, scBalance fournit une structure de réseau à trois couches cachées avec un réglage batchnorm et dropout dans chaque couche. La fonction d'activation est définie comme une unité linéaire exponentielle (ELU)37 et la couche de sortie utilise Softmax. En mode d'apprentissage (Fig. 1a, étape 2), les unités de la couche cachée sont désactivées de manière aléatoire pour aider à réduire l'influence des bruits sur le processus d'apprentissage. En mode de prédiction, le réseau sera défini comme un état entièrement connecté pour conserver tous les paramètres utilisés dans le processus de transfert. L'évaluation et la rétropropagation du modèle sont basées sur la fonction de perte d'entropie croisée et l'optimiseur Adam. Pour accélérer le processus d'apprentissage et de prédiction, scBalance inclut également un mode d'unité de traitement graphique (GPU) qui réduit le temps d'exécution du classificateur de 25 à 30 %. Dans l'ensemble, scBalance est bien conçu pour gérer différents types de bruits et d'ensembles de données déséquilibrés tout en atteignant une précision de classification élevée pour les types de cellules rares et majeurs.

Nous avons d'abord démontré la capacité d'identification des types de cellules rares de scBalance dans le test de base. Pour évaluer les performances, nous avons utilisé douze ensembles de données scRNA-seq avec différents degrés de déséquilibre et différents nombres de cellules, qui ont été divisés en ensembles de train et en ensembles de test. Pour assurer un test plus complet, la plupart des ensembles de données sont générés à partir de différentes plates-formes de séquençage (voir "Méthodes" et Tableau 1). Les véritables informations d'étiquette de ces ensembles de données ne sont disponibles que lors de l'évaluation des résultats de prédiction. Ici, nous avons comparé scBalance avec sept méthodes largement utilisées pour l'identification du type de cellule scRNA-seq : SingleCellNet14, SingleR28, scVI29, scmap-cell27, scmap-cluster27, scPred30 et MARS31, dans lesquelles scPred et MARS ont également revendiqué la capacité de traiter le déséquilibre de l'ensemble de données unicellulaires dans leurs articles, et scVI et MARS sont des méthodes basées sur l'apprentissage en profondeur comme scBalance. Pour nous assurer que notre comparaison de référence est dans le cadre d'une expérience équitable, nous avons utilisé un processus de prétraitement uniforme pour chaque outil et défini tous les paramètres par défaut. Toutes les expériences ont été menées sur la base de la quintuple validation croisée pour quantifier la variabilité de la classification. Le protocole détaillé peut être trouvé dans "Méthodes". Nous avons utilisé le score kappa de Cohen pour évaluer quantitativement les performances de scBalance et des sept autres méthodes (Fig. 2a). Selon le résultat, scBalance surpasse toutes les autres méthodes sur la plupart de ces douze ensembles de données en obtenant le score kappa de Cohen le plus élevé. Notamment, scBalance fonctionne particulièrement bien sur des ensembles de données volumineux et complexes tels que Campbell et Zillions. Et la performance de scBalance est la plus stable parmi toutes ces sept méthodes, ce qui lui donne un avantage dans la formation de référence à l'échelle de l'atlas. Étant donné que le score kappa de Cohen fournit une métrique sensible à la classe minoritaire, la surperformance sur ce score donne des preuves préliminaires que le scBalance a plus d'avantages dans l'annotation des populations rares.

a Performances globales d'annotation, mesurées par le score Kappa de Cohen, par rapport aux méthodes existantes sur plusieurs ensembles de données (numéro de cellule indiqué après le nom de l'ensemble de données). scBalance surpasse systématiquement les autres méthodes pour identifier avec précision les populations de cellules mineures dans les douze ensembles de données. (n = 5 pour chaque barplot et barre d'erreur. Les barres d'erreur sont définies comme la valeur moyenne ± l'écart type). b Analyse comparative de la précision spécifique au type de cellule sur l'ensemble de données Baron Human (n = 5 pour chaque boîte à moustaches). Le nombre qui suit chaque nom de type de cellule représente le nombre de cellules dans ce type. scBalance atteint une plus grande précision dans l'identification des types de cellules rares par rapport aux autres méthodes.

Pour mieux démontrer la capacité de scBalance à annoter avec précision les populations de cellules mineures, nous avons étudié plus en détail la précision de chaque type de cellule pour montrer si la haute performance globale est exactement obtenue par l'amélioration de l'identification du type de cellule mineure (Fig. 2b et Supplémentaire Figs. 2–4, et données supplémentaires 2). Nous avons classé ces ensembles de données en trois classes : (1) grands ensembles de données avec une composition cellulaire simple, tels que Baron Human, Lake et Zillions ; (2) de petits ensembles de données avec un fond de cellule simple, tels que Muraro, Baron Mouse, Deng, etc. ; et (3) des ensembles de données avec des structures cellulaires complexes, par exemple, Zheng 68 K, qui est principalement composé de cellules T et de ses sous-types, de sorte que les cellules partagent une grande similitude. Nous avons d'abord analysé les performances de scBalance sur l'ensemble de données Baron Human (Fig. 2b et données supplémentaires 3) et avons constaté que toutes les méthodes fonctionnent bien sur de grandes populations, telles que la cellule bêta et la cellule alpha. Cependant, dans les types de cellules mineurs tels que les mastocytes et les cellules Epsilon, les performances de scBalance restent stables et prometteuses, tandis que les autres méthodes ne reconnaissent pas la plupart de ces types de cellules rares. Ces résultats démontrent la capacité de scBalance à annoter des populations de cellules mineures dans des ensembles de données réguliers. Des résultats similaires peuvent également être trouvés dans le résultat du petit ensemble de données (Fig. 3 supplémentaire). De plus, nous nous sommes également intéressés aux performances de scBalance sur le jeu de données avec un arrière-plan cellulaire complexe. En analysant le résultat sur l'ensemble de données Zheng 68 K (Fig. 4 supplémentaire), nous avons constaté que scBalance est toujours la meilleure méthode pour identifier les types de cellules rares tout en maintenant une grande précision dans les autres types. Ce résultat donne à scBalance un avantage pratique dans les problèmes du monde réel. De plus, pour mieux comprendre la véritable sensibilité de détection positive de scBalance pour chaque type de cellule, nous avons ensuite analysé la précision de scBalance dans ces trois ensembles de données (tableaux supplémentaires 1 à 3). Les résultats montrent que scBalance est la méthode la plus robuste et la plus sensible pour identifier les types cellulaires mineurs par rapport aux autres méthodes, en particulier dans le contexte cellulaire complexe.

En résumé, scBalance fonctionne bien sur la tâche d'annotation de base, car il a la capacité stable non seulement d'identifier avec succès les principaux types de cellules, mais également les types de cellules mineurs.

Dans le scénario réaliste, on s'attend à ce que les utilisateurs puissent former un outil d'annotation à l'aide d'un ensemble de données généré à partir d'un protocole différent de celui utilisé pour le profil de requête scRNA-seq. Cependant, lorsque différentes plates-formes de séquençage sont utilisées, davantage de bruit peut être introduit, ce qui peut affecter davantage la tâche d'annotation inter-ensemble de données que la tâche d'annotation intra-ensemble de données38. Pour améliorer la capacité de généralisation de scBalance dans les tâches interprotocoles, nous avons utilisé la technique du dropout pour rendre notre modèle plus robuste aux variations techniques. Nous avons d'abord mené une expérience de comparaison entre scBalance avec abandon et scBalance sans abandon sur les ensembles de données PBMCBench de différentes plateformes de séquençage (Fig. 3a et Fig. 5 supplémentaire, et Données supplémentaires 4) et les ensembles de données pancréatiques de différents protocoles utilisés dans une étude précédente39 (Fig. 6 supplémentaire et Données supplémentaires 5). Les résultats montrent que scBalance avec abandon améliore la capacité de généralisation et conduit à de meilleures performances dans la tâche d'annotation inter-ensembles de données pour tous les ensembles d'ensembles de données. De plus, nous avons démontré la robustesse de scBalance aux effets de lot dans les tâches d'annotation d'ensembles de données croisés. Nous avons comparé les performances de classification de scBalance avec et sans correction par lots à l'aide de Combat40, un outil de correction par lots couramment utilisé, pour évaluer si les performances de scBalance peuvent être encore améliorées par la correction par lots (Fig. 7 supplémentaire et données supplémentaires 6). Les résultats indiquent que les performances de scBalance ne sont pas significativement affectées ou améliorées par la correction par lots, ce qui suggère que notre méthode elle-même est robuste aux effets négatifs potentiels des effets par lots.

une technique d'abandon est utilisée dans scBalance pour améliorer la généralisation du modèle et sa robustesse contre le bruit. b La précision globale des annotations de scBalance est comparée à celle d'autres méthodes sur des ensembles de données générés par différents protocoles. Chaque paire d'expériences est nommée "Train Dataset_Test Dataset" et le score kappa de Cohen est utilisé comme métrique globale. (n = 42 pour chaque boîte à moustaches pour montrer les 42 paires d'entraînement). c La capacité de scBalance à identifier avec précision les types de cellules rares dans les tâches d'annotation inter-ensembles de données est démontrée. (n = 42 pour chaque boîte à moustaches pour montrer les 42 paires d'entraînement). d La visualisation UMAP montre que scBalance surpasse les autres méthodes pour identifier les populations de cellules rares à travers différentes approches. Toutes les méthodes ont été formées sur l'ensemble de données PBMC (SMART-Seq2) et utilisées pour prédire les types de cellules dans l'ensemble de données PBMC (10xv3).

Pour évaluer davantage les performances de scBalance sous effet de lot et sa capacité à identifier les types de cellules rares, nous avons élargi notre analyse comparative pour inclure d'autres méthodes d'annotation sur la tâche d'annotation inter-ensembles de données. Nous avons utilisé les ensembles de données PBMCbench (voir "Méthodes" et le tableau 1) pour tester et évaluer les performances de chaque méthode sur chaque paire de protocoles, le score kappa de Cohen étant utilisé comme métrique d'évaluation. Pendant ce temps, nous étions particulièrement intéressés par la précision de la classification de scBalance sur les populations de cellules mineures, que nous avons définies comme des types de cellules avec moins de 5 % du nombre total de cellules. Ainsi, nous avons également quantifié la capacité d'annotation de type de cellule rare ainsi que la précision globale. Les résultats, résumés à la Fig. 3b, montrent que scBalance a obtenu les scores moyens les plus élevés dans toutes les expériences (Fig. 3b et données supplémentaires 7). Par rapport à la deuxième meilleure méthode, scBalance a élevé le score moyen de 0,85 à 0,95. De plus, scBalance était également la meilleure méthode sur la plupart des paires de tests, démontrant son excellence sur la tâche inter-ensembles de données. Notamment, nous avons également analysé la précision de la classification de type rare de chaque méthode (Fig. 3c), et les résultats montrent que scBalance surpasse les autres méthodes en identifiant avec précision les populations mineures sur la plupart des paires de tests dans la tâche inter-ensembles de données. Pour montrer davantage le caractère pratique et l'efficacité de scBalance, nous avons mené des expériences d'analyse comparative supplémentaires pour évaluer ses performances sur la tâche d'annotation inter-ensembles de données lorsque d'autres méthodes sont utilisées en conjonction avec des méthodes de correction par lots (Fig. 8 supplémentaire et données supplémentaires 8). Les résultats suggèrent que, bien que la plupart des méthodes aient démontré une amélioration (les améliorations moyennes variaient de 1 à 4%) après le prétraitement de la correction de l'effet par lots par rapport à la Fig. 3b, scBalance a continué à surpasser les autres méthodes pour la tâche d'annotation inter-ensembles de données. Cela indique que scBalance reste l'un des outils les plus efficaces disponibles pour cette tâche. Par la suite, pour mieux comprendre les résultats de classification de la population de cellules rares, nous avons utilisé Uniform Manifold Approximation and Projection (UMAP) pour visualiser le résultat de regroupement des trois méthodes les plus performantes avec l'étiquette de prédiction ou l'étiquette vraie (Fig. 3d). Notre analyse a révélé que, par rapport au véritable label, SingleCellNet affichait plus d'annotations incorrectes sur les cellules mégacaryocytes et les monocytes CD16+ que scBalance. De même, le scVI a démontré des étiquettes plus incorrectes sur les cellules mégacaryocytes et a même complètement échoué sur la classification des monocytes CD16+. En revanche, scBalance a fourni le résultat d'annotation le plus précis sur les six types de cellules et a marqué avec succès les deux populations de cellules rares, les mégacaryocytes et les monocytes CD16+. Pris ensemble, les résultats indiquent que scBalance offre une performance plus robuste que les méthodes existantes pour les tâches d'annotation multiplateformes et conserve sa capacité exceptionnelle à identifier les populations de cellules rares sous l'influence de variations techniques.

Le temps d'exécution est considéré comme l'une des choses les plus essentielles pour un outil d'annotation dans l'environnement réel d'analyse à cellule unique ainsi que le plus grand obstacle à l'évolutivité. Pour mettre en évidence la supériorité du scBalance sur la vitesse de calcul, nous avons présenté les résultats de comparaison des six méthodes représentatives qui ont toutes des modèles de base d'apprentissage automatique différents (Fig. 4). En raison de l'utilisation du GPU, nous avons montré séparément le scBalance-CPU et le scBalance-GPU afin de rendre la comparaison équitable pour d'autres méthodes sans calcul GPU. Nous avons d'abord comparé les performances de la scBalance sur les différentes unités de traitement. Le résultat indique que scBalance-GPU a une grande amélioration de la vitesse de fonctionnement, ce qui réduit de plus de 50 % le temps de fonctionnement par rapport au scBalance-CPU (Fig. 4a). En particulier, scBalance-GPU offre des performances robustes sur les ensembles de données avec différents numéros de cellules. Le temps de fonctionnement reste relativement stable sur les échantillons de 30k cellules à 60k cellules. Cette robustesse donne à scBalance une capacité d'expansion potentielle pour annoter rapidement des ensembles de données à grande échelle. Nous avons également présenté le résultat de la comparaison de scBalance-CPU avec les cinq autres méthodes. Même si toutes les méthodes sont basées sur le CPU, scBalance offre également une vitesse de fonctionnement prometteuse. Notamment, dans les ensembles de données avec plus de 30 000 cellules, scBalance réduit le temps d'exécution à 10 % des cinq autres méthodes. Dans le plus grand ensemble de données, scBalance donne plus de 20 fois la vitesse de calcul par rapport à SingleR (Fig. 4b). L'avantage de la consommation de temps fait également de scBalance un outil exceptionnel dans l'annotation d'ensembles de données à grande échelle.

a Comparaison du temps d'exécution de scBalance sur des ensembles de données de différentes échelles utilisant différents processeurs. Notre méthode permet d'obtenir des temps d'exécution rapides avec une grande évolutivité. b Comparaison des temps d'exécution de six méthodes différentes sur des ensembles de données de tailles variables. Toutes les méthodes sont testées sur le CPU. scBalance surpasse les autres méthodes dans toutes les tailles de jeu de données testées.

À mesure que la taille de l'atlas cellulaire continue d'augmenter, l'évolutivité des outils d'annotation devient plus importante. Nous avons donc discuté de la force de scBalance pour apprendre les types de cellules rares dans les ensembles de données scRNA-seq au niveau du million. Nous avons d'abord utilisé le résultat de l'annotation intra-ensemble de données comme preuve de concept pour évaluer les performances d'annotation de scBalance sur l'atlas cellulaire à grande échelle. Nous avons collecté deux atlas cellulaires récemment publiés, dont l'atlas des cellules cardiaques humaines41 (487 106 cellules) et l'atlas immunitaire COVID-1917 (1 462 702 cellules). Comme aucune autre méthode existante n'a signalé de capacité d'annotation sur des profils scRNA-seq de niveau million, en particulier il est même difficile de charger l'ensemble de données pour les méthodes basées sur R telles que SingleCellNet et Scmap, nous avons comparé scBalacne avec des méthodes d'apprentissage automatique conventionnelles telles que la forêt aléatoire (n_estimators = 50, random_state = 10), l'arbre de décision, SVM (kernel: rbf) et kNN (k = 3) en Python. Comme le montrent la figure 5a et les données supplémentaires 9, scBalance surpasse de manière significative les autres méthodes d'apprentissage automatique sur les deux atlas cellulaires. De plus, par rapport aux autres méthodes, scBalance atteint une vitesse de course jusqu'à 150 fois plus rapide lors de la formation et de l'étiquetage de l'atlas cellulaire COVID (Fig. 5b). Même le triplement du nombre de cellules entre les deux ensembles de données, scBalance reste la seule méthode avec une vitesse de fonctionnement robuste, offrant un avantage en termes d'évolutivité.

a Performances d'annotation comparées à différentes méthodes sur Cardiac Atlas (~50 K cellules) et COVID Atlas (~1,5 M cellules). b Comparaison des temps d'exécution entre scBalance et les algorithmes d'apprentissage automatique traditionnels. L'axe Y indique le temps de fonctionnement en seconde. c UMAP affiche le résultat d'annotation de scBalance. L'ensemble de données de référence est COVID Atlas17 et l'ensemble de données de requête est BALF data32. d Dotplot montre la distribution des sous-types de cellules dans l'ensemble de données BALF.

En plus de la simple évaluation de l'évolutivité, nous avons utilisé l'atlas immunitaire COVID comme ensemble de données de référence pour une instance afin d'illustrer que le résultat d'annotation de scBalance peut identifier efficacement les types de cellules rares lors de la formation avec des références à l'échelle d'un million. Nous avons également collecté le profil scRNA-seq des cellules du liquide de lavage bronchoalvéolaire (BALF) d'un patient COVID sévère comme données de requête (Fig. 5c). Bien qu'il existe de nombreuses publications traitant du paysage des PBMC42,43,44,45 dans différents échantillons de patients COVID, la composante cellulaire BALF des patients COVID manque toujours d'investigation. Mais en tant qu'échantillon pouvant refléter le plus directement les informations du microenvironnement sur les alvéoles pulmonaires, les cellules BALF sont d'une grande importance pour comprendre l'association entre la gravité de la maladie et la dynamique des caractéristiques immunitaires respiratoires. Bien que Liao et al. ont révélé le paysage des cellules immunitaires bronchoalvéolaires chez les patients atteints de COVID en 202032, leurs travaux qui se basent sur l'intégration de Seurat n'ont identifié que des groupes cellulaires en basse résolution. Ici, nous avons utilisé scBalance pour annoter l'ensemble de données BALF scRNA-seq. Notre méthode a identifié avec succès beaucoup plus de sous-types de cellules que la recherche originale en utilisant l'atlas COVID comme référence. Par rapport à la méthode d'étiquetage manuel utilisée dans l'analyse d'origine, scBalance a considérablement amélioré la résolution des annotations pour l'ensemble de données BALF. En combinaison avec le résultat des Fig. 5c, d et de la Fig. 9 supplémentaire, scBalance a identifié 64 sous-types de cellules immunitaires dans l'échantillon BALF. Comme prévu, les macrophages présentent l'enrichissement le plus élevé dans l'échantillon BALF alors que les cellules B ne représentent qu'une petite partie du paysage immunitaire. Notamment, scBalance a également identifié des sous-types rares dans tous les groupes de cellules. Dans le groupe myéloïde, notre méthode élucide qu'il existe également des monocytes localisés dans le BALF au lieu de seulement des macrophages. Mais les cellules macrophages restent le composant majeur, en particulier les macrophages pro-inflammatoires (M1) tels que le macrophage CCL3L1+, ce qui suggère un fort signal de recrutement des cellules immunitaires dans le BALF chez le patient sévère. Parallèlement, contrairement à l'analyse de Liao et al.32, notre méthode révèle que l'environnement pro-inflammatoire n'est pas seulement produit par les macrophages mais aussi par les monocytes CD14 (CCL3+). En outre, notre méthode a également révélé qu'une expansion significative des cellules T mémoire prolifératives (y compris les cellules T CD4 MKI67-CCL4 (élevées) et les cellules T CD4 MKI67-CCL4 (faibles)), par rapport aux cellules T effectrices, sont enrichies dans la région pulmonaire. Ensemble, nos méthodes ont identifié avec succès des sous-types de cellules et fournissent un atlas immunitaire plus complet dans le BALF en utilisant l'atlas cellulaire COVID comme référence. Il convient de noter que la plupart des types de cellules révélés par scBalance sont rares dans l'atlas COVID, ce qui présente en outre l'avantage d'identifier les types de cellules rares de notre méthode dans l'ensemble de données scRNA-seq à grande échelle.

Les progrès récents des méthodes scRNA-seq ont conduit à un besoin croissant d'outils d'annotation de type cellulaire. À mesure que des atlas cellulaires mieux définis sont publiés, les outils d'annotation automatique deviennent de plus en plus populaires. Cependant, les logiciels actuels sont limités dans les domaines de l'étiquetage, de l'évolutivité et de la compatibilité des types de cellules rares. Dans cet article, nous présentons scBalance, un package Python open-source qui intègre un échantillonnage de poids adaptatif et un réseau neuronal clairsemé pour l'auto-annotation supervisée de type cellulaire. Nous avons démontré la capacité d'annotation de type rare de scBalance et sa capacité globale supérieure d'annotation cellulaire grâce à des expériences de comparaison intra- et inter-ensembles de données sur plusieurs ensembles de données scRNA-seq de différentes échelles, protocoles de génération et degrés de déséquilibre. Notamment, par rapport à la plupart des outils d'annotation de type cellulaire largement utilisés14,30,31, scBalance a montré une excellente capacité d'annotation de type cellulaire rare, même dans de grands ensembles de données avec des arrière-plans cellulaires complexes, où d'autres méthodes ne parviennent pas à identifier les populations mineures. De plus, nous avons démontré la vitesse d'exécution robuste de scBalance sur des ensembles de données de différentes échelles, ce qui lui confère un avantage potentiel pour l'évolutivité. En testant notre méthode sur deux atlas à grandes cellules récemment publiés, nous avons en outre démontré l'évolutivité de scBalance et sa capacité d'identification de populations rares dans des ensembles de données à l'échelle d'un million. En utilisant cette capacité, scBalance a décrit avec succès un paysage immunitaire de cellules BALF et identifié des types plus rares que les recherches publiées. De plus, scBalance est conçu pour être compatible avec Scanpy et Anndata, fournissant une application conviviale.

En plus de présenter notre méthode, nous montrons également comment scBalance peut fonctionner avec d'autres logiciels pour offrir aux utilisateurs une gamme d'applications plus large. Comme illustré sur la Fig. 1 et le didacticiel GitHub, nous fournissons des paramètres facultatifs permettant aux utilisateurs d'utiliser une méthode d'équilibrage de type de cellule externe telle que scSynO34 pour mieux se concentrer sur un type de cellule mineur spécifique d'intérêt. Nous pensons que l'intégration de ces outils complémentaires dans notre méthode peut améliorer considérablement les performances de scBalance sur différents types de tâches, ce qui pourrait encore élargir la population d'utilisateurs potentiels de scBalance.

Enfin, nous suggérons plusieurs efforts futurs pour améliorer scBalance, par exemple, y compris plus de connaissances antérieures telles que les gènes marqueurs pour effectuer des annotations plus précises pour des types de cellules similaires, telles que les cellules T naïves CD4 + / CD45 + et les cellules T mémoire CD4 + / CD45 +. De plus, scBalance pourrait être modifié pour annoter les données de séquençage de l'accessibilité de la chromatine unicellulaire (scATAC-seq) en ajustant le réseau à une structure peu robuste. En résumé, nous pensons que scBalance est un ajout précieux à la boîte à outils d'annotation automatique, notamment en raison de sa capacité d'annotation de type cellulaire rare et de son évolutivité.

Dans cette section, nous décrirons tous les ensembles de données que nous avons utilisés dans les expériences et l'analyse ci-dessus. Dans les expériences d'annotation de base (intra- et inter-ensemble de données), nous avons utilisé 20 ensembles de données allant de la petite échelle (~ 200 cellules) à la grande échelle (~ 70 000 cellules). Pour démontrer davantage la capacité de généralisation de scBalance, tous les ensembles de données sélectionnés sont générés à partir de différentes complexités et de différents protocoles de séquençage. Dans les expériences d'évolutivité, deux ensembles de données ultra-larges sont utilisés. Tous les ensembles de données et leurs étiquettes de type cellulaire correspondantes sont obtenus à partir du papier original. Les détails correspondants sont présentés dans le tableau 1.

Nous fournissons scBalance, une structure de réseau neuronal composée, pour effectuer des tâches d'annotation de type cellulaire. scBalance nécessite une matrice d'expression d'ARN unicellulaire M comme entrée, dans laquelle chaque colonne représente un gène et chaque ligne représente une cellule. Pour obtenir un résultat d'annotation plus précis, nous vous recommandons d'utiliser un jeu de données filtré avec transformation de journal et normalisation comme jeu d'apprentissage. Les étapes de transformation et de normalisation des journaux peuvent suivre le pipeline de prétraitement standard du didacticiel Scanpy. L'objectif est d'empêcher les gènes aberrants d'interférer avec le processus de formation. Le prétraitement peut être effectué en suivant le didacticiel de Scanpy, dans lequel le paramètre d'échelle peut être modifié manuellement dans la fonction de normalisation. L'ensemble de données de prédiction doit avoir les mêmes étapes de prétraitement que l'ensemble d'apprentissage. Avant la formation, des sous-ensembles seront extraits de l'ensemble de référence et de l'ensemble prédictif basés sur les gènes communs et seront utilisés comme entrée. Le pipeline scBalance se compose de trois modules principaux (Fig. 1a), d'une fonction d'échantillonnage pondérée et d'un classificateur de réseau neuronal.

Le premier module est une fonction d'échantillonnage pondérée qui fournit une solution simple mais efficace pour l'apprentissage d'ensembles de données scRNA-seq déséquilibrés. Contrairement aux méthodes de suréchantillonnage et de sous-échantillonnage couramment utilisées, scBalance offre une combinaison de ces deux méthodes, améliorant ainsi considérablement la vitesse de fonctionnement sans surajuster les types mineurs. Dans l'étape de formation, parce que nous avons les étiquettes connues dans l'ensemble d'apprentissage, scBalance donne un poids à chaque type de cellule en fonction de la proportion et choisit au hasard des échantillons de l'ensemble de données en fonction des poids pour construire le lot d'apprentissage pour le réseau de neurones. Le processus d'échantillonnage est défini avec remplacement pour garantir que le classificateur peut apprendre autant que possible des informations de type mineur de manière fiable.

Dans le deuxième module, nous avons utilisé une structure de réseau de neurones (NN) pour effectuer la tâche de classification. Le classificateur NN dans scBalance contient une couche d'entrée, trois couches cachées et une couche softmax. Le nombre de neurones dans la couche d'entrée est égal au nombre de gènes dans l'ensemble de données scRNA-seq. Les trois couches cachées ont respectivement 256, 128 et 64 unités. Nous ajoutons également des techniques d'abandon et de normalisation par lots à chaque couche cachée pour surmonter le surajustement et augmenter la vitesse d'exécution. Seule la phase de formation de scBalance implique une propagation vers l'avant avec des techniques de normalisation par lots et d'abandon. Pour éviter le décalage de variance46, nous plaçons la couche Dropout après la couche de normalisation par lots (Eqs. (1–4)) :

où l représente la onzième couche du réseau de neurones, j représente le jième neurone de sa couche, b représente le biais aléatoire ajouté dans la couche et \(\sigma (\bullet )\) représente la fonction d'activation. \({BN}(\bullet )\) est la fonction de normalisation par lots pour normaliser la valeur de chaque mini-lot. r est un vecteur de variable aléatoire de Bernoulli indépendante avec la probabilité d'abandon p. Ce vecteur s'est multiplié élément par élément avec chaque couche masquée pour créer une couche de suppression \({\widetilde{x}}^{l}\). Dans scBalance, la probabilité d'abandon par défaut est de 0,5. La fonction d'activation (Eq. (5)) dans scBalance est une fonction d'unité linéaire exponentielle (ELU),

La couche de sortie est basée sur la fonction softmax (Eq. (6)):

où \(z\) est le vecteur d'entrée de la couche softmax, K est le nombre de types de cellules dans l'ensemble de données de référence. Dans la rétropropagation, nous choisissons la perte d'entropie croisée comme fonction de perte de scBalance et la méthode d'optimisation Adam47 comme optimiseur. Après la formation, la couche d'abandon sera désactivée. scBalance fournit un réseau de neurones entièrement connecté à trois couches pour la prédiction du type de cellule.

Pour démontrer l'efficacité des hyperparamètres dans scBalance, nous avons comparé différents paramètres d'hyperparamètres. (1) Fonction d'activation. Dans scBalance, en raison des avantages d'ELU dans le traitement d'ensembles de données clairsemés, nous avons choisi ELU comme activation. (2) Couche de décrochage. Nous avons ensuite testé les performances de l'utilisation de la couche d'abandon. Étant donné que la couche d'abandon est conçue principalement pour l'effet de lot, nous concevons des expériences en suivant les tâches multiplateformes. Le résultat montre que l'utilisation de la couche d'abandon améliore les performances globales. Chaque valeur du tableau provient de la moyenne de cinq répétitions.

Pour témoigner des performances de scBalance, nous l'avons comparé à plusieurs méthodes couramment utilisées, notamment les packages basés sur R tels que Scmap-cell, Scmap-cluster, SingleCellNet, SingleR et scPred, et le package basé sur Python scVI et MARS. Tous les codes d'évaluation et les données d'entrée suivent les instructions et les tutoriels fournis par chaque package. Pour nous assurer que notre évaluation est juste pour chaque méthode, nous définissons tous les paramètres par défaut pour chaque approche, y compris scBalance.

L'environnement d'exécution que nous avons utilisé pour les logiciels basés sur Python est (1) la version scVI de Github (https://github.com/YosefLab/scvi-tools) est 0.14.5. Nous avons exécuté la version GPU et défini les hyperparamètres en suivant leur exemple. Nous avons inclus l'inférence LTMG dans le prétraitement avec l'option donnée correspondante du code. Tous les hyperparamètres sont définis en suivant le tutoriel. La tâche est implémentée sur le poste de travail avec le processeur Intel(R) Xeon(R) E5-2667 v4, le système d'exploitation CentOS Linux version 7.7.1908, le GPU Nvidia TITAN X et une mémoire physique de 503 Go. (2) MARS de Github (https://github.com/snap-stanford/mars). Tous les hyperparamètres sont définis en suivant le tutoriel. La tâche est implémentée sur le serveur Linux Ubuntu 20.04.4 avec 2,35 GHz AMD EPYC 7452 32-Core Processor et 503 G RAM. Pour les packages basés sur R, nous avons implémenté les tâches avec le modèle d'ordinateur Intel(R) Core(TM) i5-5287U CPU @ 2,90 GHz RAM 8GB. Les détails du logiciel sont (3) SingleR version 1.6.1 de CRAN (https://github.com/dviraran/SingleR). Les paramètres sont définis comme la valeur par défaut fournie par le didacticiel. (5) Scmap-Cell et Scmap-Cluster de BioManager (https://github.com/hemberg-lab/scmap), avec tous les paramètres suivant l'instruction de fonction. Pour (5) scPred version 1.9.2 de BiocManager (https://github.com/powellgenomicslab/scPred), fonctionnant avec les paramètres par défaut. Et (6) SingleCellNet version 0.1.1 de BiocManager (https://github.com/pcahan1/singleCellNet), fonctionnant avec les paramètres par défaut. Nous avons pris la catégorie avec le score le plus élevé dans la prédiction pour le résultat final. La tâche est implémentée sur le serveur Linux Ubuntu 20.04.4 avec 2,35 GHz AMD EPYC 7452 32-Core Processor et 503 G RAM.

Nous décrivons ci-dessous le protocole et les mesures quantitatives que nous avons utilisées dans les expériences. Pour rendre l'évolution fiable et capable de quantifier la variabilité, nous avons utilisé à la fois la validation croisée quintuple et la répétition 5 fois comme protocole de base dans chacune de nos expériences. Pour la validation croisée quintuple, la répartition train-test dans la tâche de classification intra-ensemble de données est basée sur la fonction StratifiedKFold dans le package Python sklearn v1.2.0. La stratégie de fractionnement est stratifiée en fonction de l'étiquette de vérité terrain de l'ensemble de données. Lors du test, la véritable étiquette de l'ensemble de données de test sera masquée. Le rapport de fractionnement train-test est fixé à 0,8 (n_split = 5) pour toutes les expériences afin de conserver suffisamment de données à la fois dans l'ensemble d'apprentissage et dans l'ensemble de test. Pour le test de répétition 5 fois, la répartition train-test est basée sur la fonction Train_test_split dans le package Python v1.2.0 de sklearn. Une graine aléatoire est appliquée pour maintenir l'équité. Chaque méthode sera testée cinq fois. Pour évaluer les performances du scBalance, nous avons utilisé le score kappa de Cohen, le score Macro F1 et Accuracy dans notre article. Le score kappa de Cohen concerne la mesure de performance globale. Contrairement à la plupart des articles qui utilisent la précision (Acc) comme métrique, notre objectif est de témoigner de la capacité d'identification des types de cellules rares ainsi que de la précision globale de la classification. Par conséquent, nous choisissons le coefficient kappa de Cohen48 k, qui est une approche sensible aux classes mineures et peut donc nous donner une évaluation complète des performances de classification, y compris l'identification des types majeurs et l'identification des types mineurs (Eq. (7)),

où \({p}_{0}\) est la variable proportionnelle observée et \({p}_{e}\) est la probabilité hypothétique de la variable aléatoire. Pour calculer \({p}_{e}\), nous utilisons les données observées pour calculer les probabilités que chaque observateur voie au hasard chaque catégorie. Dans cette formule, le poids de la mauvaise classification des populations rares sera mis en évidence.

Le score macro F1, en raison de sa sensibilité à la population rare, est utilisé pour la comparaison de la méthode d'échantillonnage (Eq. (8)).

La précision est utilisée pour évaluer la précision spécifique au type de cellule dans la tâche d'annotation intra-ensemble de données et la précision du type de cellule rare dans la tâche d'annotation inter-ensemble de données.

La précision est utilisée comme véritable métrique de sensibilité de détection positive (Eq. (9)) :

Dans lequel TP est un vrai positif et FP est un faux positif.

De plus amples informations sur la conception de la recherche sont disponibles dans le résumé des rapports sur le portefeuille Nature lié à cet article.

Aucune nouvelle donnée n'a été générée pour cette étude. Toutes les données utilisées dans cette étude sont accessibles au public comme décrit précédemment (voir tableau 1).

scBalance est disponible en tant que package Python indépendant sur https://github.com/yuqcheng/scBalance.

Tang, F. et al. Analyse du transcriptome entier de l'ARNm-Seq d'une seule cellule. Nat. Méthodes 6, 377–382 (2009).

Article CAS PubMed Google Scholar

Horning, AM et al. L'ARN-seq unicellulaire révèle une sous-population de cellules cancéreuses de la prostate avec une transcription améliorée liée au cycle cellulaire et une réponse androgénique atténuée. Cancer Rés. 78, 853–864 (2018).

Article CAS PubMed Google Scholar

Nyquist, MD et al. La perte combinée de TP53 et de RB1 favorise la résistance du cancer de la prostate à un éventail de thérapeutiques et confère une vulnérabilité au stress de réplication. Cell Rep. 31, 107669 (2020).

Article CAS PubMed PubMed Central Google Scholar

Guo, C. et al. L'analyse unicellulaire de deux patients COVID-19 sévères révèle une tempête de cytokines associée aux monocytes et répondant au tocilizumab. Nat. Commun. 11, 3924 (2020).

Article CAS PubMed PubMed Central Google Scholar

Wilk, AJ et al. Un atlas unicellulaire de la réponse immunitaire périphérique chez les patients atteints de COVID-19 sévère. Nat. Méd. 26, 1070-1076 (2020).

Article CAS PubMed PubMed Central Google Scholar

Guo, L. et al. Résoudre les décisions de destin cellulaire lors de la reprogrammation des cellules somatiques par ARN-Seq unicellulaire. Mol. Cellule 73, 815–829.e817 (2019).

Article CAS PubMed Google Scholar

Butler, A., Hoffman, P., Smibert, P., Papalexi, E. & Satija, R. Intégration de données transcriptomiques unicellulaires dans différentes conditions, technologies et espèces. Nat. Biotechnol. 36, 411–420 (2018).

Article CAS PubMed PubMed Central Google Scholar

Wolf, FA, Angerer, P. & Theis, FJ SCANPY : analyse de données d'expression génique unicellulaire à grande échelle. Génome Biol. 19, 15 (2018).

Article PubMed PubMed Central Google Scholar

Tran, D. et al. Analyse rapide et précise des données unicellulaires à l'aide d'un auto-encodeur hiérarchique. Nat. Commun. 12, 1029 (2021).

Article CAS PubMed PubMed Central Google Scholar

Han, W. et al. Apprentissage contrastif auto-supervisé pour l'analyse intégrative des données d'ARN-seq d'une seule cellule. BioRxiv 23, bbac377 (2021).

Google Scholar

Lindeboom, RGH, Regev, A. & Teichmann, SA Vers un atlas des cellules humaines : prendre des notes du passé. Tendances Genet. 37, 625–630 (2021).

Article CAS PubMed Google Scholar

Rozenblatt-Rosen, O., Michael, J., Regev, A. & Teichmann, SA L'atlas des cellules humaines : de la vision à la réalité. Nature 550, 451–453 (2017).

Article CAS PubMed Google Scholar

Xie, B., Jiang, Q., Mora, A. & Li, X. Méthodes d'identification automatique du type de cellule pour le séquençage d'ARN unicellulaire. Calcul. Structure. Biotechnol. J. 19, 5874–5887 (2021).

Article CAS PubMed PubMed Central Google Scholar

Tan, Y. & Cahan, P. SingleCellNet : un outil de calcul pour classer les données d'ARN-Seq d'une cellule unique sur plusieurs plates-formes et entre espèces. Cellule Syst. 9, 207–213.e202 (2019).

Article CAS PubMed PubMed Central Google Scholar

Ma, F. & Pellegrini, M. ACTINN : identification automatisée des types de cellules dans le séquençage d'ARN unicellulaire. Bioinformatique 36, 533–538 (2019).

Article Google Scholar

Worbs, T., Hammerschmidt, SI & Förster, R. Migration des cellules dendritiques dans la santé et la maladie. Nat. Rév. Immunol. 17, 30–48 (2017).

Article CAS PubMed Google Scholar

Ren, X. et al. Caractéristiques immunitaires du COVID-19 révélées par un atlas de transcriptome unicellulaire à grande échelle. Cellule 184, 5838 (2021).

Article CAS PubMed PubMed Central Google Scholar

Khalilia, M., Chakraborty, S. & Popescu, M. Prédire les risques de maladie à partir de données très déséquilibrées à l'aide d'une forêt aléatoire. BMC Med. Informer. Décis. Mak. 11, 51 (2011).

Article PubMed PubMed Central Google Scholar

Wegmann, R. et al. CellSIUS fournit une détection sensible et spécifique des populations de cellules rares à partir de données complexes de séquençage d'ARN unicellulaire. Génome Biol. 20, 142 (2019).

Article PubMed PubMed Central Google Scholar

Jiang, L., Chen, H., Pinello, L. & Yuan, G.-C. GiniClust : détection de types de cellules rares à partir de données d'expression de gènes unicellulaires avec l'indice de Gini. Génome Biol. 17, 144 (2016).

Article PubMed PubMed Central Google Scholar

Zheng, GXY et al. Profilage transcriptionnel numérique massivement parallèle de cellules individuelles. Nat. Commun. 8, 14049 (2017).

Article CAS PubMed PubMed Central Google Scholar

Han, X. et al. Cartographier l'atlas cellulaire de souris par microwell-seq. Cellule 172, 1091–1107.e1017 (2018).

Article CAS PubMed Google Scholar

Nguyen, V. & Griss, J. scAnnotatR : cadre pour classer avec précision les types de cellules dans les données de séquençage d'ARN unicellulaire. BMC Bioinforma. 23, 44 (2022).

Article CAS Google Scholar

Zhang, R., Luo, Y., Ma, J., Zhang, M. & Wang, S. scPretrain : Apprentissage auto-supervisé multi-tâches pour la classification des types de cellules. BioRxiv 38, 1607–1614 (2020).

Google Scholar

Wang, L. et al. Une architecture d'apprentissage en profondeur interprétable de réseaux de capsules pour identifier des programmes d'expression génique de type cellulaire à partir de données de séquençage d'ARN unicellulaire. Nat. Mach. Renseignement. 2, 693–703 (2020).

Article Google Scholar

Kim, H., Lee, J., Kang, K. & Yoon, S. MarkerCount : un identificateur de type de cellule stable, basé sur le nombre, pour les expériences RNAseq unicellulaires. Comput Struct Biotechnol J. 20, 3120–3132 (2022).

Article Google Scholar

Kiselev, VY, Yiu, A. & Hemberg, M. scmap : projection de données de séquençage d'ARN unicellulaire sur des ensembles de données. Nat. Méthodes 15, 359–362 (2018).

Article CAS PubMed Google Scholar

Aran, D. et al. L'analyse basée sur la référence du séquençage d'une seule cellule pulmonaire révèle un macrophage profibrotique transitionnel. Nat. Immunol. 20, 163–172 (2019).

Article CAS PubMed PubMed Central Google Scholar

Lopez, R., Regier, J., Cole, MB, Jordan, MI et Yosef, N. Modélisation générative profonde pour la transcriptomique unicellulaire. Nat. Méthodes 15, 1053–1058 (2018).

Article CAS PubMed PubMed Central Google Scholar

Alquicira-Hernandez, J., Sathe, A., Ji, HP, Nguyen, Q. & Powell, JE scPred : méthode supervisée précise pour la classification des types de cellules à partir de données d'ARN-seq unicellulaires. Génome Biol. 20, 264 (2019).

Article CAS PubMed PubMed Central Google Scholar

Brbic, M. et al. MARS : découverte de nouveaux types de cellules à travers des expériences unicellulaires hétérogènes. Nat. Méthodes 17, 1200–1206 (2020).

Article PubMed Google Scholar

Liao, M. et al. Paysage unicellulaire des cellules immunitaires bronchoalvéolaires chez les patients atteints de COVID-19. Nat. Méd. 26, 842–844 (2020).

Article CAS PubMed Google Scholar

Alquicira-Hernandez, J., Sathe, A., Ji, HP, Nguyen, Q. & Powell, JE scPred : méthode supervisée précise pour la classification des types de cellules à partir de données d'ARN-seq unicellulaires. Génome Biol. 20, 264 (2019).

Article CAS PubMed PubMed Central Google Scholar

Bej, S., Galow, A.-M., David, R., Wolfien, M. et Wolkenhauer, O. Annotation automatisée de types de cellules rares à partir de données de séquençage d'ARN unicellulaire par suréchantillonnage synthétique. BMC Bioinforma. 22, 557 (2021).

Article CAS Google Scholar

Eling, N., Morgan, MD & Marioni, JC Défis dans la mesure et la compréhension du bruit biologique. Nat. Révérend Genet. 20, 536–548 (2019).

Article CAS PubMed PubMed Central Google Scholar

Srivastava, N., Hinton, G., Krizhevsky, A., Sutskever, I. & Salakhutdinov, R. Dropout : un moyen simple d'empêcher les réseaux de neurones de sur-adapter. J.Mach. Apprendre. Rés. 15, 1929-1958 (2014).

Google Scholar

Clevert, D.-Ae, Unterthiner, T. & Hochreiter, S. Apprentissage de réseau profond rapide et précis par unités linéaires exponentielles (ELU). Préimpression sur https://arxiv.org/abs/1511.07289 (2016).

Hwang, B., Lee, JH & Bang, D. Technologies de séquençage d'ARN unicellulaire et pipelines bioinformatiques. Exp. Mol. Méd. 50, 1–14 (2018).

Article CAS PubMed PubMed Central Google Scholar

Lin, Y. et al. scClassify : estimation de la taille de l'échantillon et classification multi-échelle des cellules à l'aide d'une référence unique et multiple. Mol. Syst. Biol. 16, e9389 (2020).

Article CAS PubMed PubMed Central Google Scholar

Johnson, WE, Li, C. & Rabinovic, A. Ajustement des effets de lot dans les données d'expression des microréseaux à l'aide de méthodes empiriques de Bayes. Biostatistiques 8, 118-127 (2006).

Article PubMed Google Scholar

Litvinukova, M. et al. Cellules du cœur humain adulte. Nature 588, 466 (2020).

Article CAS PubMed PubMed Central Google Scholar

Wilk, AJ et al. Un atlas unicellulaire de la réponse immunitaire périphérique chez les patients atteints de COVID-19 sévère. Nat. Méd. 26, 1070-1076 (2020).

Article CAS PubMed PubMed Central Google Scholar

Schulte-Schrepping, J. et al. COVID-19 sévère est marqué par un compartiment cellulaire myéloïde dérégulé. Cellule 182, 1419–1440.e1423 (2020).

Article CAS PubMed PubMed Central Google Scholar

Zhao, J. et al. Réponses d'anticorps au SRAS-CoV-2 chez les patients atteints d'une nouvelle maladie à coronavirus 2019. Clin. Infecter. Dis. 71, 2027-2034 (2020).

Article CAS PubMed Google Scholar

Rabaan, AA et al. Rôle des cytokines inflammatoires chez les patients COVID-19 : un examen des mécanismes moléculaires, des fonctions immunitaires, de l'immunopathologie et des médicaments immunomodulateurs pour contrer la tempête de cytokines. Vaccins 9, 436 (2021).

Article CAS PubMed PubMed Central Google Scholar

Li, X., Chen, S., Hu, X. & Yang, J. Comprendre le manque d'harmonie entre l'abandon et la normalisation par lots par décalage de variance. Conférence IEEE/CVF 2019 sur la vision par ordinateur et la reconnaissance de formes (CVPR) 2677–2685 (2019).

Kingma, DP & Ba, J. Adam : une méthode d'optimisation stochastique. Dans Proc. 3e Conférence internationale sur les représentations de l'apprentissage (ICLR) (ICLR, 2015).

Vieira, SM, Kaymak, U. & Sousa, le coefficient kappa de JMC Cohen comme mesure de performance pour la sélection des fonctionnalités. Conférence internationale sur les systèmes flous 1–8 (2010).

Deng, QL, Ramskold, D., Reinius, B. et Sandberg, R. L'ARN-seq à cellule unique révèle une expression génique monoallélique dynamique et aléatoire dans les cellules de mammifères. Sciences 343, 193-196 (2014).

Article CAS PubMed Google Scholar

Darmanis, S. et al. Une enquête sur la diversité du transcriptome du cerveau humain au niveau de la cellule unique. Proc. Natl Acad. Sci. États-Unis 112, 7285–7290 (2015).

Article CAS PubMed PubMed Central Google Scholar

Usoskin, D. et al. Classification impartiale des types de neurones sensoriels par séquençage d'ARN unicellulaire à grande échelle. Nat. Neurosci. 18, 145-153 (2015).

Article CAS PubMed Google Scholar

Camp, JG et al. La communication multilignée régule le développement des bourgeons hépatiques humains à partir de la pluripotence. Nature 546, 533-538 (2017).

Article CAS PubMed Google Scholar

Baron, M. et al. Une carte transcriptomique unicellulaire du pancréas humain et de souris révèle la structure de la population inter et intracellulaire. Cellule Syst. 3, 346–360.e344 (2016).

Article CAS PubMed PubMed Central Google Scholar

Mauro et al. Un atlas de transcriptome unicellulaire du pancréas humain. Cellule Syst. 3, 385–394.e383 (2016).

Article Google Scholar

Lac, BB et al. Sous-types neuronaux et diversité révélés par le séquençage de l'ARN à noyau unique du cerveau humain. Sciences 352, 1586-1590 (2016).

Article CAS PubMed PubMed Central Google Scholar

Campbell, JN et al. Un recensement moléculaire de l'hypothalamus arqué et des types de cellules d'éminence médiane. Nat. Neurosci. 20, 484–496 (2017).

Article CAS PubMed PubMed Central Google Scholar

Zilionis, R. et al. La transcriptomique unicellulaire des cancers du poumon chez l'homme et la souris révèle des populations myéloïdes conservées chez les individus et les espèces. Immunité 50, 1317 (2019).

Article CAS PubMed PubMed Central Google Scholar

Schaum, N. et al. La transcriptomique unicellulaire de 20 organes de souris crée une Tabula Muris. Nature 562, 367 (2018).

Article PubMed Central Google Scholar

Zheng, GXY et al. Profilage transcriptionnel numérique massivement parallèle de cellules individuelles. Nat. Commun. 8, 14049 (2017).

Article CAS PubMed PubMed Central Google Scholar

Ding, J. et al. Comparaison systématique des méthodes de séquençage d'ARN à cellule unique et à noyau unique. Nat. Biotechnol. 38, 737–746 (2020).

Article CAS PubMed PubMed Central Google Scholar

Xin, Y. et al. Le séquençage de l'ARN de cellules d'îlots humains uniques révèle les gènes du diabète de type 2. Cellule Metab. 24, 608–615 (2016).

Article CAS PubMed Google Scholar

Segerstolpe, Å. et coll. Profilage unicellulaire du transcriptome des îlots pancréatiques humains en santé et diabète de type 2. Cellule Metab. 24, 593–607 (2016).

Article CAS PubMed PubMed Central Google Scholar

Télécharger les références

Le travail a été soutenu par l'Université chinoise de Hong Kong (CUHK) avec les numéros de prix 4937025, 4937026, 5501517 et 5501329, et le Fonds pour l'innovation et la technologie (ITF) avec le numéro de prix GHP/065/21SZ.

Département d'informatique et d'ingénierie (CSE), Université chinoise de Hong Kong (CUHK), RAS de Hong Kong, Chine

Yuqi Cheng, Jianing Zhang et Yu Li

École des sciences et de l'ingénierie computationnelles, Georgia Institute of Technology, Atlanta, Géorgie, États-Unis

Yuqi Cheng

École d'ingénierie de l'information et du logiciel, Université des sciences et technologies électroniques de Chine, 610054, Chengdu, Chine

Ventilateur Xingyu

Institut de recherche CUHK Shenzhen, Hi-Tech Park, Nanshan, 518057, Shenzhen, Chine

Yu Li

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

YC a conçu la méthode et toutes les expériences de référence. YC a implémenté l'outil en Python. YC, JZ et XF ont effectué l'analyse des données et toutes les expériences de calcul. JZ et XF ont également fourni des suggestions pour le développement de méthodes. YC, YL, JZ et XF ont écrit le manuscrit ensemble. Tous les auteurs ont examiné le manuscrit.

Correspondance avec Yu Li.

Les auteurs ne déclarent aucun intérêt concurrent.

Ce manuscrit a déjà été évalué dans une autre revue Nature Portfolio. Le manuscrit a été jugé apte à être publié sans autre examen par Communications Biology. Rédacteur en chef de la gestion principale : Gene Chong.

Note de l'éditeur Springer Nature reste neutre en ce qui concerne les revendications juridictionnelles dans les cartes publiées et les affiliations institutionnelles.

Libre accès Cet article est sous licence Creative Commons Attribution 4.0 International License, qui permet l'utilisation, le partage, l'adaptation, la distribution et la reproduction sur n'importe quel support ou format, tant que vous donnez le crédit approprié à l'auteur ou aux auteurs originaux et à la source, fournissez un lien vers la licence Creative Commons et indiquez si des modifications ont été apportées. Les images ou tout autre matériel tiers dans cet article sont inclus dans la licence Creative Commons de l'article, sauf indication contraire dans une ligne de crédit au matériel. Si le matériel n'est pas inclus dans la licence Creative Commons de l'article et que votre utilisation prévue n'est pas autorisée par la réglementation légale ou dépasse l'utilisation autorisée, vous devrez obtenir l'autorisation directement du détenteur des droits d'auteur. Pour voir une copie de cette licence, visitez http://creativecommons.org/licenses/by/4.0/.

Réimpressions et autorisations

Cheng, Y., Fan, X., Zhang, J. et al. Un cadre de réseau neuronal clairsemé évolutif pour l'annotation de type de cellule rare de données de transcriptome unicellulaire. Commun Biol 6, 545 (2023). https://doi.org/10.1038/s42003-023-04928-6

Télécharger la citation

Reçu : 13 avril 2023

Accepté : 11 mai 2023

Publié: 20 mai 2023

DOI : https://doi.org/10.1038/s42003-023-04928-6

Toute personne avec qui vous partagez le lien suivant pourra lire ce contenu :

Désolé, aucun lien partageable n'est actuellement disponible pour cet article.

Fourni par l'initiative de partage de contenu Springer Nature SharedIt

En soumettant un commentaire, vous acceptez de respecter nos conditions d'utilisation et nos directives communautaires. Si vous trouvez quelque chose d'abusif ou qui ne respecte pas nos conditions ou directives, veuillez le signaler comme inapproprié.