Soi

Nouvelles

Nov 14, 2023

Soi

Volume Biologie des communications

Communications Biology volume 5, Article number: 1162 (2022) Citer cet article

3397 accès

1 Citations

7 Altmétrique

Détails des métriques

La segmentation de cellules individuelles est un processus nécessaire pour extraire des données quantitatives à partir d'images de microscopie biologique. La dernière décennie a vu l'avènement des méthodes d'apprentissage automatique (ML) pour faciliter ce processus, dont la grande majorité relève de l'apprentissage supervisé (SL) qui nécessite de vastes bibliothèques d'étiquettes prétraitées et annotées par l'homme pour former les algorithmes ML. Un tel prétraitement SL demande beaucoup de travail, peut introduire des biais, varie entre les utilisateurs finaux et n'a pas encore été démontré capable de modèles robustes à utiliser efficacement dans toute la communauté de la biologie cellulaire. Ici, pour résoudre ce problème de prétraitement, nous proposons une approche d'apprentissage auto-supervisé (SSL) qui utilise le mouvement cellulaire entre des images consécutives pour auto-former un classificateur ML, permettant la segmentation des cellules et de l'arrière-plan sans avoir besoin de paramètres ajustables ou d'images organisées. En tirant parti du mouvement, nous obtenons une segmentation précise qui s'entraîne directement sur les données de l'utilisateur final, est indépendante de la modalité optique, surpasse les méthodes SL contemporaines et le fait de manière entièrement automatisée, éliminant ainsi la variabilité et les biais de l'utilisateur final. À notre connaissance, cet algorithme SSL représente une première du genre et possède des caractéristiques attrayantes qui en font un outil de segmentation idéal pour la communauté de recherche en biologie cellulaire au sens large.

Les informations stockées dans l'imagerie par microscopie de cellules vivantes en accéléré sont d'une importance primordiale pour la biologie cellulaire. En particulier, les cultures et les expériences de cellules bidimensionnelles (2D) sont répandues dans la recherche universitaire et industrielle, les processus réglementaires et les pipelines commerciaux. Ainsi, il existe un besoin bien établi d'outils d'analyse quantitative de bioimage, souvent sous la forme d'une segmentation cellulaire. Au cours de la dernière décennie, l'apprentissage automatique est devenu une méthode puissante de segmentation cellulaire1,2,3. L'apprentissage automatique offre un cadre, l'apprentissage supervisé (SL), qui combine les données avec des étiquettes annotées par l'homme pour former un modèle de classificateur permettant d'identifier les caractéristiques d'intérêt. En particulier, les réseaux de neurones artificiels (ANN) ont été une technique SL populaire dans l'analyse de bioimages ces dernières années, car ils surpassent généralement les pipelines de traitement d'image standard3,4.

Un inconvénient majeur de l'apprentissage automatique est qu'il est gourmand en données. En particulier, les ANN nécessitent généralement une immense quantité de données étiquetées pour de bonnes performances sur des ensembles de données complexes, dans une étape généralement appelée prétraitement des données. Par exemple, les bibliothèques de formation à la vision par ordinateur standard telles que COCO de Microsoft contiennent plus d'un million d'objets d'étiquettes pour former correctement les ANN5. Le problème avec cette approche est que l'imagerie en biologie cellulaire est incroyablement diversifiée par rapport à l'imagerie typique des problèmes de vision par ordinateur liés à Internet (c'est-à-dire la reconnaissance des animaux). Par conséquent, de nombreux efforts à grande échelle sont déployés pour créer des bibliothèques de formation de plus en plus vastes pour répondre à ce besoin, telles que les bibliothèques EVICAN6 (26 000 objets étiquetés), CellPose7 (70 000 objets étiquetés) et LIVEcell8 (1,6 million d'objets étiquetés), dans l'espoir d'obtenir des modèles robustes qui peuvent simplement être utilisés par la plus grande communauté de recherche en biologie cellulaire. Cependant, sous-jacent à tous les SL, y compris les ANN, se trouve le fait que les modèles ne fonctionneront de manière fiable que sur des données similaires à celles utilisées pendant la formation9. Cette approche de « grande bibliothèque » n'est pas à la hauteur de l'étendue des types de cellules, des modalités optiques, des configurations de microscope, des environnements extracellulaires 2D et 3D et des conditions expérimentales personnalisées qui incarnent la microscopie cellulaire, qui sont toutes en constante évolution. La devise courante de l'apprentissage automatique, "En cas de doute, recyclez", en est un témoignage clair, mais la formation de modèles est loin d'être triviale et une tâche notoirement laborieuse10, souvent aux dépens de l'utilisateur final.

Alors que le domaine peut continuer à poursuivre une philosophie "plus c'est gros, mieux c'est" en ce qui concerne les bibliothèques de formation, on se rend de plus en plus compte que des éléments subjectifs entrent dans les modèles d'apprentissage automatique via l'étiquetage des données11,12,13,14, ce qui entraîne l'intégration efficace de biais dans les données extraites par le processus de formation de manière mal définie et difficile à déterminer. De plus, en raison de la nature opaque des poids du modèle et du surajustement potentiel lorsqu'il s'étend sur un si grand espace de paramètres, l'efficacité des grandes bibliothèques est toujours une question active. Pour accroître l'accessibilité de l'apprentissage automatique à la communauté élargie de la biologie cellulaire, une approche alternative est nécessaire qui ne repose pas sur des stratégies de formation « plus c'est gros, mieux c'est ». Une stratégie alternative est l'apprentissage auto-supervisé (SSL). SSL exploite certaines fonctionnalités sous-jacentes des données elles-mêmes comme moyen de supervision ou d'étiquetage des données, et est prometteur car il peut apprendre directement des propres données de l'utilisateur final, éliminant ainsi le besoin de bibliothèques organisées à forte intensité de main-d'œuvre et les biais qu'elles contiennent. Pour l'imagerie de cellules vivantes en accéléré, il existe une structure de données proéminente qui peut être utilisée pour auto-étiqueter les données, quel que soit le type de cellule, la modalité optique ou la configuration expérimentale utilisée : le mouvement.

Ici, nous montrons que le flux optique entre des images consécutives peut être utilisé comme un moyen d'auto-étiqueter les données pour la segmentation cellulaire (zero shot learning). Nous construisons ensuite un algorithme qui s'entraîne avec ces données auto-étiquetées pour classer les cellules par rapport à l'arrière-plan, et peut le faire de manière entièrement automatisée. Nous validons notre algorithme sur une variété d'images de cellules vivantes, couvrant cinq modalités optiques (à la fois fluorescentes et sans étiquette) et des configurations expérimentales très différentes pour montrer son applicabilité à la communauté de recherche en biologie cellulaire au sens large. En tirant parti du mouvement inhérent à l'imagerie accélérée des cellules vivantes, nous montrons que (1) le SSL élimine l'intervention humaine ; il n'est pas nécessaire de créer des bibliothèques de formation en constante expansion, (2) SSL permet une automatisation complète, un pas en avant important dans l'élimination des biais et la production d'efforts reproductibles d'apprentissage automatique en biologie cellulaire, et (3) SSL ne dépend pas d'un type de cellule, d'une modalité optique ou d'un environnement expérimental particulier. Ensemble, ces trois avantages se traduisent par un outil de segmentation cellulaire robuste, reproductible et accessible à l'utilisateur.

Nous montrons qu'en tirant parti du mouvement comme moyen d'auto-supervision directement à partir des données à analyser, nous surpassons les modèles généralistes ANN de pointe avec des bibliothèques organisées de plus de dizaines de milliers d'étiquettes. Au meilleur de notre connaissance, ce travail représente le premier algorithme de segmentation cellulaire générale entièrement automatisé. Plus important encore, notre approche SSL résout directement le problème de prétraitement dans l'apprentissage automatique et offre une voie à suivre pour accroître l'accessibilité impartiale de l'apprentissage automatique pour les laboratoires de biologie cellulaire.

Pour remplacer les approches d'apprentissage manuel et supervisé pour la segmentation des cellules par un algorithme auto-supervisé, nous avons profité de la seule caractéristique phénotypique qui est toujours présente dans la microscopie de cellules vivantes : le mouvement. La dynamique toujours présente capturée par la microscopie de cellules vivantes la rend idéale pour appliquer des algorithmes de flux optique (OF) conçus pour identifier la variation ou le « flux » des caractéristiques de l'image d'une image à l'autre. Les algorithmes de flux optique sont fondés sur l'hypothèse que deux images peuvent être liées par un décalage spatial de leurs valeurs de pixels. Les méthodes utilisées pour calculer ces déplacements répondent à différents objectifs d'imagerie, tels que la détection de mouvement, le guidage de véhicules autonomes, la stabilisation d'images issues de plates-formes mobiles, l'alignement d'images médicales ou, dans le cas de cette étude, la segmentation des mouvements cellulaires15. Pour tenir compte du fait que les cellules sont hautement déformables et que l'imagerie des cellules vivantes intègre généralement la gigue du mouvement de la scène de balayage, un algorithme de flux optique multi-résolution Farneback Displacement16 (FD) a été utilisé (Note complémentaire 3).

Notre approche de l'apprentissage auto-supervisé et de la génération automatisée de modèles commence par l'utilisation de FD pour automatiser le processus de formation (Fig. 1). Les stratégies de segmentation typiques impliquent l'utilisation d'informations statiques dans une seule image à la période (t), ce qui peut avoir des difficultés à distinguer les pixels "cellule" des pixels "d'arrière-plan" de manière généralisable (Fig. 1a). En revanche, notre approche commence par un calcul FD basé sur des images de périodes consécutives (t-1, t). Cela nous permet de tirer parti de la nature omniprésente du mouvement intracellulaire et de construire un vecteur de caractéristiques basé sur la dynamique : les pixels avec les déplacements les plus élevés sont automatiquement étiquetés comme pixels "cellules", ceux avec le déplacement le plus faible sont automatiquement étiquetés comme pixels "d'arrière-plan", et ceux qui ne correspondent à aucune des catégories restent sans étiquette (Fig. 1b, c). Nous notons que cet auto-étiquetage automatique est largement applicable en ce qu'il ne dépend pas des principes d'une modalité optique, d'un type de cellule ou d'un phénotype spécifique. La robustesse de l'application du flux optique à l'apprentissage auto-supervisé découle du fait que l'algorithme détecte le mouvement intracellulaire ainsi que le mouvement dû à la migration cellulaire globale. En conséquence, le mouvement des composants structurels internes tels que les organites et les fluctuations membranaires contribuent au processus de classification, et s'il est appliqué à des cellules marquées par fluorescence, les molécules marquées par fluorescence contribuent également.

a La grande majorité des techniques de segmentation cellulaire utilisent des cadres d'image uniques et les informations statiques qu'ils contiennent comme moyen de distinguer la «cellule» de «l'arrière-plan», souvent représenté dans un histogramme. L'algorithme auto-supervisé utilise le flux optique comme moyen d'auto-étiqueter les pixels de manière automatisée. b En raison de la prévalence de la dynamique intracellulaire dans l'imagerie accélérée des cellules vivantes, la FD peut être calculée pour chaque paire d'images consécutives \(\left(t-1,{t}\right)\). Le FD peut alors être représenté sous forme de vecteurs associés à chaque pixel (à droite). c La magnitude du FD offre alors un moyen de distinguer les cellules de leur arrière-plan, comme le montre l'histogramme bivarié qui co-trace l'intensité des pixels d'une seule image à t aux magnitudes vectorielles FD calculées entre les images consécutives \(\left(t-1,{t}\right)\). Les pixels avec les déplacements les plus élevés peuvent être automatiquement étiquetés "cellule" (à gauche de la ligne pointillée verte) et ceux avec les plus faibles peuvent être étiquetés "arrière-plan" (à droite de la ligne pointillée jaune). Les pixels qui ne répondent à aucun des deux critères restent sans étiquette, tandis que les pixels auto-étiquetés sont utilisés pour créer un ensemble de données d'apprentissage pour la classification. Incrément de temps : 600 s, barre d'échelle = 20 µm.

L'approche d'auto-étiquetage basée sur FD produit un ensemble de pixels étiquetés «cellule» et «arrière-plan» qui sont ensuite utilisés pour générer des vecteurs de caractéristiques d'entropie et de gradient supplémentaires à chaque instant. Ces vecteurs de caractéristiques statiques sont ensuite utilisés pour former et générer un modèle de classificateur qui, à l'étape finale, est appliqué à tous les pixels de l'image pour la segmentation cellulaire.

L'approche complète auto-supervisée de la segmentation basée sur l'auto-étiquetage FD est illustrée à la Fig. 2 en utilisant l'imagerie DIC en accéléré de plusieurs cellules (en haut) et d'une seule cellule MDA-MB-231 en surbrillance (en bas). À partir des images brutes (Fig. 2a, b), de nombreuses portions de cellules individuelles semblent se fondre dans l'arrière-plan. Cependant, lorsque la stratégie d'auto-étiquetage FD est appliquée, l'algorithme identifie automatiquement les pixels avec une amplitude de déplacement élevée, mis en évidence en tant que pixels verts (Fig. 2c, d), qui sont sélectionnés comme ayant la probabilité la plus élevée d'être correctement étiquetés 'cellule'. Cette identification peut être due au mouvement cellulaire global ou à la dynamique intracellulaire, comme le soulignent les vecteurs de flux optique bleus de la Fig. 1b. Pour étiqueter automatiquement l'arrière-plan, l'algorithme sur les segments, c'est-à-dire un seuil FD libéral (bas) est utilisé qui capture le mouvement non seulement de la cellule mais également des pixels d'arrière-plan à proximité. L'algorithme définit ces valeurs de pixel sur zéro et étiquette les pixels restants comme "arrière-plan" (Fig. 2c, d pixels jaunes). Une fois étiquetés "cellule" ou "arrière-plan" de cette manière non supervisée par FD (caractéristiques dynamiques de la paire d'images \(\left(t-1,{t}\right)\)), les vecteurs de caractéristiques d'entropie et de gradient (caractéristiques statiques de l'image à t) sont générés pour chacun de ces pixels d'apprentissage en utilisant leur voisinage local de pixels (Note complémentaire 1, Fig S1). Ces vecteurs de caractéristiques supplémentaires sont ensuite utilisés pour former et générer un modèle de classificateur bayésien naïf qui est appliqué à l'image entière d'une manière pixel par pixel. Les informations obtenues à partir des vecteurs de caractéristiques d'entropie et de gradient permettent de classer les pixels qui n'ont pas été marqués lors des étapes de formation FD (Fig. 2c, d pixels gris). L'image à contraste amélioré (Fig. 2b) et la segmentation générée par le modèle (Fig. 2e, f, pixels sarcelle) montrent que l'algorithme est capable de segmenter la cellule avec une haute fidélité (superposition d'image DIC/limite segmentée, Fig. 2g). Il est important de noter que cette procédure d'étiquetage, d'entraînement et de classification se produit de manière récursive sur chaque paire successive d'images \(\left(t-1,{t}\right)\)images, permettant au modèle de classificateur de s'adapter à l'évolution des arrière-plans et des phénotypes. En utilisant FD pour étiqueter les pixels de déplacement les plus élevés comme « cellules » et les pixels de déplacement les plus bas comme « arrière-plan », le processus d'étiquetage est devenu automatisé (ou « auto-supervisé ») et aucune entrée manuelle ou bibliothèque de formation organisée n'est nécessaire.

a L'image DIC à contraste amélioré de plusieurs et ba une seule cellule MDA-MB-231 en surbrillance illustre la gamme d'intensités inhérentes aux cellules. (objectif 20X). c, d Apprentissage non supervisé via FD : seuil élevé FD est utilisé pour sélectionner uniquement les pixels présentant les amplitudes de déplacement les plus élevées et les étiquette comme "cellule" (pixels verts). De même, le seuil bas FD est utilisé pour identifier les pixels avec une gamme beaucoup plus large d'amplitudes de déplacement que le régime à haut débit. Les pixels d'amplitude de déplacement les plus faibles sont étiquetés "arrière-plan" (pixels jaunes). Les pixels qui présentent FD entre ces régimes restent sans étiquette (pixels gris). e, f Apprentissage supervisé via des données d'apprentissage auto-étiquetées. Les pixels auto-étiquetés (vert et jaune) sont ensuite utilisés pour générer des vecteurs de caractéristiques statiques, qui sont à leur tour utilisés pour former le modèle de classificateur. g Le contour bleu est la segmentation résultante qui décrit tous les pixels classés par le modèle formé FD comme «cellule» et est également superposé sur l'image en b. Ce processus est répété à chaque pas de temps, utilisant ainsi l'imagerie la plus récente pour mettre à jour les données d'apprentissage. Barre d'échelle : 25 µm (objectif 20X, incrément de temps : 300 s).

Pour les images à contraste extrêmement faible, il peut y avoir trop peu de pixels d'entraînement étiquetés «cellule» pour qu'une segmentation robuste se produise compte tenu du réglage initial du seuil FD. Dans de tels cas, l'algorithme calcule l'entropie associée aux pixels « cellules » et réduit de manière itérative le seuil FD jusqu'à ce que le vecteur de caractéristique d'entropie « cellule » associé soit bien distingué de celui du vecteur de caractéristique d'entropie « d'arrière-plan ».

Un thème central de ce travail est que les approches d'apprentissage automatique qui nécessitent une formation supervisée peuvent être chronophages, subjectives et finalement inefficaces. Le processus de formation est largement reconnu comme l'aspect le plus chronophage des approches d'apprentissage automatique. En raison de la nature opaque de nombreux algorithmes d'apprentissage automatique, et en particulier des techniques d'apprentissage en profondeur, les raisons du succès ou de l'échec d'un ensemble de données d'apprentissage ne sont souvent pas claires pour l'utilisateur final. Il s'agit donc d'un processus d'essais et d'erreurs, nécessitant un recyclage si les performances du modèle ne sont pas jugées adéquates14. Pour évaluer la segmentation par notre approche auto-supervisée, nous avons compilé un ensemble de données d'imagerie diversifié (Fig. 3, note complémentaire 2, tableau S1). À titre de comparaison avec une approche d'apprentissage supervisé avec une bibliothèque de formation organisée, nous avons choisi le récent réseau de neurones artificiels populaire CellPose7, qui consiste en un modèle pré-formé sur 70 000 objets annotés manuellement couvrant plusieurs modalités optiques, types de cellules et objets. Comme notre approche, CellPose est formé pour être un modèle généraliste appliqué à la communauté de recherche en biologie cellulaire au sens large, et a en outre la possibilité d'une analyse automatisée, ce qui en fait un algorithme idéal pour la comparaison. La métrique du score F1 a été calculée pour évaluer la qualité de la segmentation effectuée par chaque méthode sur chaque ensemble de données. Pour chaque ensemble de données, les cellules sont segmentées manuellement pour servir de vérité terrain par rapport à la segmentation de chaque méthode. Les vrais positifs (TP), les faux positifs (FP) et les faux négatifs (FN) de chaque méthode sont calculés pixel par pixel. Le score F1 est alors défini comme suit :

a contraste de phase de fibroblastes Hs27 (objectif 10X, incrément de temps : 1200 s) b lumière transmise de Dictyostelium (objectif 10X, incrément de temps : 60 s) c contraste de phase de MDA-MB-231 (objectif 10X, incrément de temps : 600 s) d Image IRM d'une seule cellule Hs27 (objectif 40X, incrément de temps : 600 s). e Image DIC de cellules MDA-MB-231 (objectif 20X, incrément de temps : 120 s) f image de fluorescence d'une seule cellule A549 transfectée par lifeAct (conjugué GFP-actine) (pseudo-colorée) avec le tracé de vecteur FD associé (objectif 100X, incrément de temps : 10 s). Les encarts i, ii, iii mettent en évidence les régions d'image encadrées. Les flèches blanches pointent vers des exemples de débris qui ont été correctement étiquetés "arrière-plan" en raison soit d'un manque de mouvement, soit d'un filtrage automatisé de la taille. Le contraste des images a été amélioré pour mettre en évidence les caractéristiques à faible contraste et les inhomogénéités d'arrière-plan. L'image DIC e a en outre été améliorée avec un filtre de netteté pour mettre en évidence l'ombrage induit par les interférences des caractéristiques des cellules. Barres d'échelle : a, b, c : 50 µm ; d, e : 25 µm ; f : 10 µm.

L'imagerie de la Fig. 3 montre la généralité de cette approche et montre également comment l'algorithme auto-supervisé automatise en outre les entrées manuelles couramment requises telles que le filtrage de la taille et le remplissage des trous. Les cellules segmentées ont été traitées à partir d'images acquises à partir d'une gamme de types de cellules, de modalités d'imagerie, de grossissements et d'incréments de temps (note complémentaire 2, tableau S1). L'algorithme FD a permis une approche simple du filtrage automatisé de la taille, qui est un paramètre commun ajustable par l'utilisateur dans les approches d'apprentissage automatique supervisé. Pour ce faire, une application autonome de FD a été appliquée à l'imagerie qui ne disposait pas des étapes supplémentaires d'auto-réglage et de construction de modèle décrites ci-dessus. Bien que certaines caractéristiques des cellules soient manquées, cette approche plus simple et plus rapide s'est avérée plus que suffisamment précise pour estimer la taille moyenne des cellules et exclure des objets beaucoup plus petits, automatisant ainsi le processus de filtrage par taille. Étant donné que les débris étrangers manquaient souvent du mouvement des cellules vivantes, ces débris étaient également automatiquement étiquetés comme arrière-plan par l'algorithme FD. La figure 3a, b démontre la capacité du code auto-supervisé à filtrer la taille, tout en s'adaptant également aux types de cellules de tailles différentes, en comparant la segmentation des fibroblastes humains (10X, contraste de phase) à celles des cellules amiboïdes Dictyostelium beaucoup plus petites (10X, lumière transmise), respectivement. Les caractéristiques de débris étrangers dans l'imagerie Hs27 (Fig. 3a, flèches blanches) sont correctement identifiées comme «arrière-plan», même si leur taille et leur intensité sont similaires aux cellules de Dictyostelium de la Fig. 3b. Les inhomogénéités de fond observées sur les figures 3a, b, qui pourraient potentiellement être mal étiquetées comme "cellule", sont correctement identifiées car elles restent relativement constantes de l'image \(t-1\) à l'image \(t\). Les résultats de segmentation des cellules MDA-MB-231 (10X, contraste de phase) sur la Fig. 3c illustrent la capacité de l'algorithme à s'adapter à un large éventail de phénotypes, de la Fig. 3c(i) arrondie à la Fig. 3c(ii) arrondie, qui est activé sans intervention de l'utilisateur en réentraînant en continu le modèle sur des paires d'images consécutives.

L'algorithme fonctionne de manière robuste pour une gamme de modalités optiques et de grossissements, comme le montre la Fig. 3d – f. Les figures 3d, e sont les résultats de segmentation de l'imagerie IRM (40X, cellule Hs27) et de l'imagerie DIC (20X, MDA-MB-231). À titre d'exemple d'imagerie par fluorescence, une segmentation auto-supervisée d'une cellule A549 étiquetée GFP-actine à un grossissement de 100X est illustrée à la Fig. 3f. En tant qu'option supplémentaire, FD peut être appliqué non seulement en tant qu'élément d'étiquetage d'algorithme, mais également en tant qu'outil de mesure, comme le montre le tracé vectoriel de la Fig. 3f. Les vecteurs FD tracés (bleu) affichent l'amplitude et la direction du flux d'actine étiqueté GFP mesuré entre les cadres. De telles mesures se sont révélées utiles pour quantifier la dynamique de signalisation intracellulaire des protéines et du calcium17,18,19.

Le remplissage des trous, une autre saisie manuelle souvent requise pour les algorithmes basés sur le traitement d'images et l'apprentissage automatique, a également été automatisé par cette approche. Des exemples courants de cas où une entrée de remplissage de trou est requise incluent les étiquettes fluorescentes qui ne pénètrent pas dans le noyau ou, pour les modes de microscopie sans étiquette tels que le contraste de phase, les grandes cellules étalées dans lesquelles l'algorithme a du mal à associer les bords cellulaires améliorés par interférence avec les lamellipodes fermés. Nous avons constaté que le mouvement dans les cellules était détecté de manière omniprésente par FD, quelle que soit la modalité d'imagerie ou si l'imagerie de la membrane cellulaire, du noyau ou du cytoplasme. Étant donné que la détection de mouvement était beaucoup plus courante qu'improbable pour un pixel donné dans une zone étiquetée "cellule", un outil de flou morphologique fixe (circulaire avec un rayon de 5 pixels) s'est avéré remplir de manière robuste les trous, quel que soit le type de cellule ou la configuration du microscope. La zone de cellule calculée s'est avérée invariante pour une plage de rayons d'outil de flou (Note complémentaire 4, Fig. S3). Dans tous les cas, l'utilisation du flux optique pour identifier le mouvement et l'outil de floutage de rayon de 5 pixels étaient suffisants pour remplir correctement la cellule.

Une comparaison de notre approche SSL par rapport à CellPose est illustrée à la Fig. 4 via les scores F1, avec une brève description de chaque ensemble de données donnée en haut, y compris le nombre d'étiquettes annotées utilisées dans chaque modèle et appliquées au nombre d'objets (cellules) dans chaque ensemble de données. CellPose7 est un cadre d'apprentissage supervisé relativement nouveau qui est formé pour identifier les gradients d'intensité et est basé sur une architecture générale de réseau de neurones U-Net20. Pour y parvenir, les auteurs ont pris des ressources considérables pour former leur modèle à partir de 70 000 objets annotés manuellement, y compris des images fluorescentes et sans étiquette, et cela a été directement appliqué aux ensembles de données représentant les modes de microscopie courants et plus spécialisés en biologie cellulaire. En revanche, notre SSL s'est entraîné sur les ensembles de données lui-même sans aucune intervention humaine (#L = 0). La figure 4 montre que SSL a bien fonctionné dans tous les ensembles de données, obtenant des scores F1 d'environ 0,7 à 0,9 indiquant des performances robustes sur diverses images de cellules vivantes. SSL a surpassé CellPose dans quatre des ensembles de données utilisés pour la validation dans cette étude qui étaient des ensembles de données à grossissement largement inférieur et multicellulaires. Dans les deux ensembles de données restants qui étaient un grossissement plus élevé des cellules individuelles, les performances de chaque méthode étaient statistiquement équivalentes. Les détails de la segmentation CellPose sur les ensembles de données sont présentés dans la note complémentaire 5, Figs. S4–S9.

La rangée supérieure comprend le nom de l'ensemble de données annoté par le grossissement, la modalité optique, le type de cellule et une brève description des caractéristiques de l'imagerie. #L représente le nombre d'étiquettes annotées utilisées pour la formation du modèle, et #O représente le nombre d'objets à segmenter par le modèle dans un ensemble de données donné. * CellPose a un seul paramètre, un filtre de taille, qui peut être automatiquement estimé, cependant, pour certains des ensembles de données, la meilleure segmentation a été trouvée en ajustant manuellement ce filtre de taille. Les figures ci-dessous montrent la vérité terrain (lignes vertes continues), SSL (cyan-grands tirets) et CellPose (rouges-petits tirets) superposés sur l'image finale de l'ensemble de données.

La dernière décennie a vu des efforts et des améliorations considérables dans l'application de l'apprentissage automatique (ML), et en particulier des techniques d'apprentissage supervisé à la segmentation cellulaire. Cependant, la nature bien définie du cadre d'apprentissage supervisé peut masquer de nombreuses hypothèses sur la relation entre les données et les étiquettes correspondantes - c'est-à-dire que les humains supervisent activement les processus d'étiquetage et de formation pendant les étapes de prétraitement. Malgré de grandes améliorations rendant le ML plus accessible7,10,21, cette exigence de prétraitement de l'apprentissage supervisé est l'une des raisons pour lesquelles le ML n'a pas encore largement fait la transition des informaticiens à la communauté de recherche en biologie cellulaire au sens large - cela entrave l'efficacité et pose un sérieux défi pour assurer la reproductibilité dans l'analyse des bioimages. Ainsi, il est crucial que le domaine s'efforce d'atteindre le niveau élevé de stratégies générales qui peuvent segmenter l'imagerie cellulaire de n'importe quel groupe de recherche sans contribution de l'utilisateur. C'était d'ailleurs le champ d'application du Data Science Bowl 2018, qui s'est attaché à mettre en place un algorithme entièrement automatisé de segmentation des noyaux marqués par fluorescence22. Notre approche SSL représente une extension naturelle de cette ligne de pensée, élargissant l'automatisation à la segmentation cellulaire entière dans l'imagerie en accéléré, l'objectif de ce travail étant de créer une stratégie ML largement applicable (1) sans avoir besoin d'entrée ou de configuration de l'utilisateur final et (2) sans avoir besoin de prétraitement des données (c'est-à-dire d'étiquetage manuel).

Notre approche SSL accomplit cela en construisant un modèle en constante évolution qui se recycle sur chaque nouvelle image via le déplacement de Farneback (FD), un vecteur de caractéristiques dynamique intégré dans la structure de données de l'imagerie en accéléré. À partir du FD, des vecteurs de caractéristiques statiques supplémentaires peuvent facilement être générés pour la formation du modèle. Dans ce travail, nous avons principalement étudié deux de ces vecteurs de caractéristiques statiques - le gradient et l'entropie - mais le code est modulaire à cet égard et de nombreuses fonctionnalités d'image supplémentaires peuvent être ajoutées en fonction de l'application. Alors que le flux optique a été utilisé auparavant pour l'imagerie biologique, il a été largement dans le contexte de la caractérisation spatio-temporelle de protéines marquées par fluorescence23,24, et beaucoup moins rarement appliqué à la segmentation cellulaire de manière générale15. Ici, nous montrons que l'évolution de la dynamique cellulaire capturée par FD peut être exploitée comme un moyen puissant d'auto-formation continue des algorithmes ML. Une conséquence de cet apprentissage continu est que les caractéristiques des cellules ou l'éclairage de fond, qui varient inévitablement dans le temps, n'ont pas besoin d'être anticipés manuellement a priori car la même imagerie à segmenter est également utilisée pour l'apprentissage.

En raison de la croissance exponentielle du ML appliqué aux sciences de la vie au cours des dernières années25, une plus grande attention a été accordée à l'établissement et à l'adoption des meilleures pratiques pour assurer la reproductibilité du ML appliqué à l'analyse des bioimages. Souvent, les discussions sont centrées sur des questions telles que la documentation des rapports sur les ensembles de données de formation, l'augmentation des données et les hyperparamètres utilisés, pour n'en nommer que quelques-uns, dans le but d'atteindre la transparence dans la façon dont les modèles ML ont été formés et appliqués14. L'approche simplifiée de notre stratégie SSL décrite ici évite succinctement bon nombre de ces problèmes en raison du fait qu'elle est entièrement automatisée, ce qui permet d'atteindre facilement la « norme d'or » récemment établie pour la reproductibilité du ML dans les sciences de la vie26 tant que les utilisateurs finaux rendent simplement leurs données disponibles. Cependant, même cet étalon-or ne répond pas aux préoccupations concernant les biais intégrés dans les réseaux eux-mêmes lors de la sélection et de l'annotation des données de formation dans les étapes de prétraitement11,12,13,14. Par exemple, les auteurs de la bibliothèque LIVEcell ont pris un soin incroyable à structurer et à gérer l'annotation de leur bibliothèque pour éviter les biais8 dus à l'application industrielle et réglementaire de leur travail. Cependant, ces étapes de mise en garde sont rarement appliquées dans les bibliothèques de formation ML basées sur la recherche en raison du coût et des ressources associés à leur mise en œuvre. Encore une fois, l'automatisation permise par SSL évite largement les problèmes de biais dans l'étiquetage/le prétraitement des données et offre une stratégie attrayante pour assurer la reproductibilité des efforts de ML à plus grande échelle.

En général, la formation de modèles est un obstacle important à la fois à l'accessibilité10 et à la reproductibilité14 de l'apprentissage automatique en biologie cellulaire. Une fois formés, les modèles peuvent être appliqués efficacement sur des données similaires à celles sur lesquelles ils ont été formés initialement. Cependant, l'utilisation de modèles pré-formés sur des ensembles de données nouveaux et distincts, ou l'apprentissage par transfert, est un obstacle actuel avec lequel ML, et en particulier les approches SL, ont du mal. Les performances relativement médiocres de CellPose sur nos ensembles de données de validation, malgré l'utilisation d'une bibliothèque de formation vaste et diversifiée, témoignent de la sensibilité des performances des ANN à la pointe de la technologie sur le choix et la conservation des ensembles de données de formation. Nous notons que CellPose n'est pas unique à cet égard, mais ce phénomène est plutôt systémique dans les approches SL et en particulier les ANN27.

L'algorithme présenté ici n'est pas d'architecture trop sophistiquée et ne nécessite donc pas la puissance/l'infrastructure de calcul intense commune à de nombreux pipelines ML10. Bien au contraire, ce code n'a été validé que sur des ordinateurs portables et pouvait atteindre des temps de traitement acceptables lors de l'utilisation de cet algorithme sur des données de microscopie à haute résolution. Par exemple, une paire d'images 1216 × 1920 8 bits peut être auto-segmentée en ~ 7 s sur les ordinateurs portables de milieu de gamme que nous avons utilisés pour les tests. Cela contribue à rendre notre algorithme SSL accessible aux laboratoires de biologie cellulaire courants, qui se concentrent en grande partie sur les systèmes de microscopie basés sur Windows. Lors de la construction de notre algorithme, nous avons initialement exploré des classificateurs tels que les forêts aléatoires, SVM et K-Nearest Neighbor. Cependant, le classificateur Naïve Bayes a été choisi comme une option flexible et efficace, car il est connu pour avoir un bon compromis biais-variance en raison de son hypothèse simpliste d'indépendance des caractéristiques, et s'est avéré performant dans le contexte de la segmentation cellulaire décrite ici.

L'algorithme SSL présenté a des limites. Tout d'abord, et peut-être le plus évident, il ne peut être appliqué qu'à l'imagerie de cellules vivantes. Deuxièmement, en raison de sa nature d'auto-étiquetage via le flux optique, il nécessite une configuration expérimentale stable afin de distinguer correctement les cellules de leur arrière-plan - si la platine du microscope dérive latéralement ou que la mise au point dérive, l'hypothèse que seules les cellules se déplacent par rapport à un arrière-plan stable n'est pas valide. Dans nos expériences, nous avons constaté que les microscopes à cellules vivantes disponibles dans le commerce étaient plus que suffisamment stables pour répondre à ces critères et, dans le cas contraire, un logiciel d'alignement automatique (tel que celui inclus avec ImageJ) pouvait être facilement intégré. Dans sa forme actuelle, le logiciel est conçu pour la segmentation sémantique uniquement et non pour la segmentation d'instance (c'est-à-dire la séparation des cellules qui se touchent). Cependant, le code est conçu pour être modulaire et les travaux futurs se concentreront sur l'ajout de techniques de désagrégation, telles que les méthodes de bassin versant, au masque binaire généré par SSL.

Au meilleur de notre connaissance, ce travail représente un effort unique en son genre pour la segmentation cellulaire automatisée qui peut être appliquée à tous les types de cellules, modalités optiques ou autres configurations expérimentales en biologie cellulaire (par exemple de différents laboratoires). Le cœur de notre approche consiste à utiliser le flux optique, en particulier un déplacement de Farnebeck (FD), entre des images consécutives d'images de cellules vivantes en accéléré comme moyen d'auto-étiqueter les données de formation pour un modèle qui distingue les cellules de leur arrière-plan. Cette stratégie auto-supervisée permet une automatisation complète, réduisant considérablement le travail des techniques d'apprentissage supervisé, éliminant les sources de biais de la conservation et de l'étiquetage des données de formation, et représente globalement une étape pour à la fois accroître l'accessibilité du ML aux laboratoires de biologie cellulaire et introduire une stratégie qui facilite la reproductibilité en ML.

Toutes les cellules de mammifères ont été cultivées dans du DMEM (ATCC, #30-2002) additionné de 10 % de sérum bovin fœtal (ATCC, #30-2020) à 37 °C et 5 % de CO2, et toutes les images des cellules de mammifères ont été réalisées dans des conditions sans sérum (DMEM seul). Des fibroblastes Hs27 (ATCC, #CRL 1634) ont été imagés sur des sections planes de puces de guidage de contact en quartz comme décrit précédemment28. Les cellules MDA-MB-231 (ATCC #HTB-26) ont été imagées sur des plaques de puits à fond de verre recouvertes de 25 µg/mL de fibronectine (Gibco #33016015) ou de lamelles recouvertes d'or fonctionnalisées comme décrit précédemment29. Les cellules A549 (ATCC # CCL-185) ont été imagées sur des sections planes de puces nanostructurées en quartz comme décrit précédemment30. Les cellules de Dictyostelium étaient de la souche AX2 de type sauvage et généreusement douées du laboratoire Devreotes de l'Université Johns Hopkins, ont été cultivées de manière axénique dans HL5 à 22 ° C et imagées sur des plaques de puits à fond de verre comme décrit précédemment31. Les détails de la microscopie pour chaque type de cellule, y compris le mode de microscopie, le grossissement, l'ouverture numérique, l'appareil photo et le temps d'attente entre les images, sont répertoriés dans la note complémentaire 2.

Chaque image segmentée a été produite à partir de deux images consécutives de la série temporelle (N = 2). La méthodologie auto-supervisée est intrinsèquement aveugle et reproductible car elle ne repose pas sur des ensembles de données organisés ou des paramètres de paramètres déterminés par l'utilisateur, mais s'entraîne plutôt à partir des données d'image.

De plus amples informations sur la conception de la recherche sont disponibles dans le résumé des rapports de recherche sur la nature lié à cet article.

Images évaluées dans les Fig. 3, 4 sont disponibles sous forme de fichiers TIFF dans les données supplémentaires et sont également inclus dans les packages de code disponibles sur Zenodo32.

L'application SSL est disponible sous forme de téléchargement d'interface graphique autonome pour les systèmes d'exploitation Windows, Mac et Linux et sous forme de package de code source SSL Matlab séparé. Les deux packages sont disponibles en téléchargement sur Zenodo32. Ils sont inclus ici en tant que logiciel supplémentaire 1 et logiciel supplémentaire 2, respectivement, et les fichiers Lisez-moi associés ont été réimprimés dans les notes supplémentaires 6, 7.

Sommer, C. & Gerlich, DW Apprentissage automatique en biologie cellulaire - enseignant aux ordinateurs la reconnaissance des phénotypes. J. Cell Sei. 126, 5529–5539 (2013).

CAS PubMed Google Scholar

L'apprentissage en profondeur obtient du temps de portée. Nat. Méthodes 16, 1195–1195 (2019).

Moen, E. et al. Apprentissage profond pour l'analyse d'images cellulaires. Nat. Méthodes 16, 1233–1246 (2019).

Article CAS PubMed PubMed Central Google Scholar

Falk, T. et al. U-Net : apprentissage approfondi pour le comptage, la détection et la morphométrie cellulaires. Nat. Méthodes 16, 67–70 (2019).

Article CAS PubMed Google Scholar

Lin, T.-Y. et coll. Conférence européenne sur la vision par ordinateur (Springer, 2020).

Schwendy, M., Unger, RE & Parekh, SH EVICAN - un ensemble de données équilibré pour le développement d'algorithmes dans la segmentation des cellules et des noyaux. Bioinformatique 36, 3863–3870 (2020).

Article CAS PubMed PubMed Central Google Scholar

Stringer, C., Wang, T., Michaelos, M. & Pachitariu, M. Cellpose : un algorithme généraliste pour la segmentation cellulaire. Nat. Méthodes 18, 100–106 (2021).

Article CAS PubMed Google Scholar

Edlund, C. et al. LIVECell—Un ensemble de données à grande échelle pour la segmentation de cellules vivantes sans étiquette. Nat. Méthodes 18, 1–8 (2021).

Möckl, L., Roy, AR & Moerner, W. Apprentissage en profondeur en microscopie à molécule unique : principes fondamentaux, mises en garde et développements récents. Biomédical. Opter. Express 11, 1633–1661 (2020).

Article PubMed PubMed Central Google Scholar

von Chamier, L. et al. Démocratiser l'apprentissage en profondeur pour la microscopie avec ZeroCostDL4Mic. Nat. Commun. 12, 1–18 (2021).

Google Scholar

von Chamier, L., Laine, RF & Henriques, R. Intelligence artificielle pour la microscopie : ce que vous devez savoir. Soc biochimique. Trans. 47, 1029-1040 (2019).

Article Google Scholar

Munafò, MR et al. Un manifeste pour une science reproductible. Nat. Hum. Comportement 1, 1–9 (2017).

Article Google Scholar

Zhong, Q., Busetto, AG, Fededa, JP, Buhmann, JM & Gerlich, DW Modélisation non supervisée de la dynamique de la morphologie cellulaire pour la microscopie accélérée. Nat. Méthodes 9, 711–713 (2012).

Article CAS PubMed Google Scholar

Laine, RF, Arganda-Carreras, I., Henriques, R. & Jacquemet, G. Éviter une crise de réplication dans l'analyse de bioimages basée sur l'apprentissage en profondeur. Nat. Méthodes 18, 1136–1144 (2021).

Article CAS PubMed PubMed Central Google Scholar

Robitaille, MC, Byers, JM, Christodoulides, JA & Raphael, MP Algorithme de flux optique robuste pour la segmentation générale des cellules individuelles. PLoS One 17, e0261763 (2022).

Article CAS PubMed PubMed Central Google Scholar

Farneback, G. dans Image Analysis, Actes Vol. 2749 Lecture Notes in Computer Science (eds J. Bigun & T. Gustavsson) 363–370 (Springer, 2003).

Buibas, M., Yu, D., Nizar, K. & Silva, GA Cartographie de la dynamique spatio-temporelle de la signalisation calcique dans les réseaux de neurones cellulaires à l'aide du flux optique. Anne. Biomédical. Ing. 38, 2520-2531 (2010).

Article PubMed PubMed Central Google Scholar

Delpiano, J. et al. Performance des techniques de flux optique pour l'analyse du mouvement des signaux ponctuels fluorescents en microscopie confocale. Mach. Vis. Appl. 23, 675–689 (2012).

Article Google Scholar

Lee, RM et al. Quantification de la dynamique de l'actine guidée par la topographie à travers les échelles à l'aide du flux optique. Mol. Biol. Cellule 31, 1753-1764 (2020).

Article CAS PubMed PubMed Central Google Scholar

Ronneberger, O., Fischer, P. & Brox, T. dans Conférence internationale sur l'informatique d'imagerie médicale et l'intervention assistée par ordinateur (Springer, 2020).

Berg, S. et al. Ilastik : apprentissage automatique interactif pour l'analyse d'images (bio). Nat. Méthodes 16, 1226-1232 (2019).

Caicedo, JC et al. Segmentation des noyaux dans les expériences d'imagerie : le Data Science Bowl 2018. Nat. méthodes 16, 1247-1253 (2019).

Article CAS PubMed PubMed Central Google Scholar

Lee, R. et al. Quantification de la dynamique de l'actine guidée par la topographie à travers les échelles à l'aide du flux optique. Mol. Biol. Cellule 31, 1753-1764 (2020).

Collin, O. et al. Dynamique spatio-temporelle des microdomaines d'adhésion riches en actine : influence de la flexibilité du substrat. J. cellule Sci. 119, 1914-1925 (2006).

Article CAS PubMed Google Scholar

Walsh, I. et al. DOME : recommandations pour la validation de machine learning supervisé en biologie. Nat. méthodes 18, 1122–1127 (2021).

Article CAS PubMed Google Scholar

Heil, BJ et al. Normes de reproductibilité pour l'apprentissage automatique dans les sciences de la vie. Nat. Méthodes 18, 1132–1135 (2021).

Article CAS PubMed PubMed Central Google Scholar

Azulay, A. & Weiss, Y. Pourquoi les réseaux convolutifs profonds se généralisent-ils si mal aux petites transformations d'image ? arXiv https://doi.org/10.48550/arXiv.1805.12177 (2018).

Robitaille, MC et al. Plate-forme monolithique en quartz pour le guidage par contact cellulaire. Mme Commun. 10, 242-251 (2020).

Article CAS Google Scholar

Robitaille, MC et al. Problème d'activité de surface cRGD diminuée et ce qui peut être fait à ce sujet. Acs Appl. Mater. Interfaces 12, 19337–19344 (2020).

Article CAS PubMed Google Scholar

Raghu, D. et al. Piliers nanoplasmoniques conçus pour la détection d'exosomes uniques. PLoS One https://doi.org/10.1371/journal.pone.0202773 (2018).

Miao, YC et al. La modification du seuil d'un réseau de transduction de signal excitable modifie les modes de migration cellulaire. Nat. Cell Biol. 19, 329–340 (2017).

Article CAS PubMed PubMed Central Google Scholar

Robitaille, MC, Byers, JM, Christodoulides, JA & Raphael, MP Code et données d'apprentissage automatique auto-supervisé pour segmenter l'imagerie des cellules vivantes (Matlab & Stand Alone GUIs). Zenodo https://doi.org/10.5281/zenodo.7108601 (2022).

Télécharger les références

Les auteurs remercient le laboratoire Devreotes de l'Université Johns Hopkins pour la lignée cellulaire Dictyostelim discoideum. Le MCR tient à remercier le National Research Council Research Associateship Program et le Jerome and Isabella Karle Distinguished Scholar Fellowship Program pour leur soutien. Le financement de ce projet a été fourni par le Bureau de la recherche navale par le biais du programme de recherche fondamentale du Laboratoire de recherche navale et par le Bureau de la technologie biologique de l'Agence du programme de recherche avancée de la défense.

Division de la science et de la technologie des matériaux, US Naval Research Laboratory, Washington, DC, États-Unis

Michael C. Robitaille, Jeff M. Byers, Joseph A. Christodoulides et Marc P. Raphael

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

MCR : conceptualisation, méthodologie, investigation, conservation des données, logiciel, visualisation et rédaction. JMB : conceptualisation, méthodologie, analyse formelle, logiciel et visualisation. JAC : ressources, validation et rédaction. MPR : conceptualisation, acquisition de financement, méthodologie, enquête, logiciel, visualisation et rédaction.

Correspondance à Marc P. Raphaël.

Les auteurs ne déclarent aucun intérêt concurrent.

Information sur l'examen par les pairs Ce manuscrit a déjà été évalué dans une autre revue du Nature Portfolio. Le manuscrit a été jugé apte à être publié sans autre examen par Communications Biology. Rédacteur en chef de la gestion principale : Gene Chong.

Note de l'éditeur Springer Nature reste neutre en ce qui concerne les revendications juridictionnelles dans les cartes publiées et les affiliations institutionnelles.

Libre accès Cet article est sous licence Creative Commons Attribution 4.0 International License, qui permet l'utilisation, le partage, l'adaptation, la distribution et la reproduction sur n'importe quel support ou format, tant que vous donnez le crédit approprié à l'auteur ou aux auteurs originaux et à la source, fournissez un lien vers la licence Creative Commons et indiquez si des modifications ont été apportées. Les images ou tout autre matériel tiers dans cet article sont inclus dans la licence Creative Commons de l'article, sauf indication contraire dans une ligne de crédit au matériel. Si le matériel n'est pas inclus dans la licence Creative Commons de l'article et que votre utilisation prévue n'est pas autorisée par la réglementation légale ou dépasse l'utilisation autorisée, vous devrez obtenir l'autorisation directement du détenteur des droits d'auteur. Pour voir une copie de cette licence, visitez http://creativecommons.org/licenses/by/4.0/.

Réimpressions et autorisations

Robitaille, MC, Byers, JM, Christodoulides, JA et al. Apprentissage automatique auto-supervisé pour la segmentation d'images de cellules vivantes. Commun Biol 5, 1162 (2022). https://doi.org/10.1038/s42003-022-04117-x

Télécharger la citation

Reçu : 26 août 2022

Accepté : 14 octobre 2022

Publié: 02 novembre 2022

DOI : https://doi.org/10.1038/s42003-022-04117-x

Toute personne avec qui vous partagez le lien suivant pourra lire ce contenu :

Désolé, aucun lien partageable n'est actuellement disponible pour cet article.

Fourni par l'initiative de partage de contenu Springer Nature SharedIt

En soumettant un commentaire, vous acceptez de respecter nos conditions d'utilisation et nos directives communautaires. Si vous trouvez quelque chose d'abusif ou qui ne respecte pas nos conditions ou directives, veuillez le signaler comme inapproprié.