Nov 13, 2023
Automatique précise
Volume Communication Nature
Nature Communications volume 13, Numéro d'article : 1867 (2022) Citer cet article
7083 Accès
6 Citations
17 Altmétrique
Détails des métriques
L'incapacité d'étiqueter avec précision et efficacité de grands ensembles de données d'imagerie médicale en libre accès limite la mise en œuvre généralisée des modèles d'intelligence artificielle dans les soins de santé. Il y a eu peu de tentatives, cependant, pour automatiser l'annotation de ces bases de données publiques ; une approche, par exemple, s'est concentrée sur l'étiquetage manuel à forte intensité de main-d'œuvre de sous-ensembles de ces ensembles de données à utiliser pour former de nouveaux modèles. Dans cette étude, nous décrivons une méthode d'étiquetage normalisé et automatisé basé sur la similitude avec un atlas dérivé d'un modèle AI (xAI) précédemment validé et explicable, pour lequel l'utilisateur peut spécifier un seuil quantitatif pour un niveau de précision souhaité (la probabilité de similarité, métrique pSim). Nous montrons que notre modèle xAI, en calculant les valeurs pSim pour chaque étiquette de sortie clinique en fonction de la comparaison avec son atlas de référence dérivé de l'ensemble de formation, peut automatiquement étiqueter les ensembles de données externes à un niveau de précision élevé sélectionné par l'utilisateur, égalant ou dépassant celui des experts humains. Nous montrons en outre qu'en affinant le modèle d'origine à l'aide des examens étiquetés automatiquement pour le recyclage, les performances peuvent être préservées ou améliorées, ce qui donne un modèle très précis et plus généralisé.
La mise en œuvre de l'intelligence artificielle (IA) médicale dans la pratique clinique en général, et la pratique de la radiologie en particulier, a été en grande partie limitée par le temps, le coût et l'expertise nécessaires pour étiqueter avec précision de très grands ensembles de données d'imagerie, qui peuvent servir de vérité terrain de niveau platine pour la formation de modèles d'IA cliniquement pertinents. La capacité d'annoter automatiquement et efficacement de grands ensembles de données externes, à un niveau de précision sélectionné par l'utilisateur, peut donc être d'une valeur considérable dans le développement de modèles d'IA médicale percutants et importants qui apportent une valeur ajoutée et sont largement acceptés par la communauté des soins de santé. Une telle approche a non seulement le potentiel de bénéficier d'un recyclage pour améliorer la précision des modèles d'IA existants, mais, grâce à l'utilisation d'une méthodologie explicable basée sur un atlas dérivé d'un modèle1, peut aider à normaliser l'étiquetage des ensembles de données open source2,3,4,5, pour lesquels les étiquettes fournies peuvent être bruyantes, inexactes ou absentes. Une telle normalisation peut, à son tour, réduire le nombre de points de données requis pour la construction de modèles précis, la facilitation, la formation et le recyclage à partir d'ensembles de données initiaux petits mais bien annotés1,6.
Dans cette étude, nous développons et démontrons une méthode d'étiquetage normalisé et automatisé basé sur la similitude avec un modèle d'IA explicable (xAI) précédemment validé, en utilisant une approche basée sur un atlas dérivé d'un modèle pour laquelle l'utilisateur peut spécifier un seuil quantitatif pour un niveau de précision souhaité (la probabilité de similarité, ou métrique pSim). Les valeurs de pSim vont d'une probabilité de similarité "de base" (pSim = 0, la moins sélective) à une probabilité de similarité "maximale" (pSim = 1, la plus sélective) ; pSim est calculé par comparaison entre les caractéristiques d'image dérivées de l'ensemble de test et les caractéristiques d'image extraites de l'atlas de référence du modèle (c'est-à-dire la bibliothèque). Cet atlas dérivé du modèle est construit lors de la construction du modèle (Fig. 1a) à partir des cas d'ensemble d'apprentissage (Fig. 1a, b). La valeur pSim calculée reflète la moyenne harmonique entre deux paramètres liés au modèle, la "similitude de patch" et la "confiance" (Méthodes, Fig. 1b, c).
Méthode d'étiquetage normalisée et automatisée, basée sur la similitude avec un modèle d'IA explicable (xAI) de détection par radiographie pulmonaire (CXR) à cinq étiquettes précédemment validé, utilisant une approche basée sur un atlas dérivé d'un modèle xAI. a Notre système d'IA explicable basé sur un atlas dérivé d'un modèle quantitatif calcule une valeur de probabilité de similarité (pSim) pour l'étiquetage automatisé, basée sur la moyenne harmonique entre la similarité du patch et la confiance. La métrique pSim résultante peut être appliquée à un algorithme de "sélection de mode", soit pour étiqueter les images d'entrée externes à un seuil de confiance sélectionné, soit pour alerter l'utilisateur que la valeur pSim tombe en dessous de ce seuil sélectionné. b La méthode basée sur l'atlas dérivé du modèle calcule la similarité et la confiance des patchs, sur la base de la cartographie d'activation de classe (CAM)38,39 et de la probabilité prédite à partir du modèle, pour chaque étiquette de sortie clinique. c La moyenne harmonique entre la similarité du patch et la confiance est ensuite utilisée pour calculer un pSim pour chaque étiquette de sortie clinique dans la sélection de mode.
Plus précisément, nous avons appliqué notre modèle d'IA existant pour la détection de cinq étiquettes d'imagerie radiographique thoracique (CXR) différentes (cardiomégalie, épanchement pleural, œdème pulmonaire, pneumonie et atélectasie) à trois grands ensembles de données open source - CheXpert2, MIMIC3 et NIH4 - et comparé les étiquettes résultantes à celles de sept radiologues experts humains. Il convient de noter qu'il existe une relation inverse entre les valeurs de seuil pSim sélectionnées et le nombre de cas identifiés (c'est-à-dire capturés) par le modèle à partir de l'ensemble de données externe ; en d'autres termes, plus le seuil de probabilité de similarité est élevé, moins il y aura de cas identifiés à partir de la base de données externe comme similaires aux cas étiquetés du modèle.
Nous avons montré que notre modèle xAI, en calculant les valeurs pSim pour chaque étiquette de sortie clinique sur la base d'une comparaison avec l'atlas de référence dérivé de l'ensemble d'entraînement du modèle, pouvait automatiquement étiqueter les ensembles de données externes à un niveau de précision arbitrairement élevé sélectionné par l'utilisateur, égal ou supérieur à celui des experts humains. De plus, nous avons également montré qu'en affinant le modèle original à l'aide des examens étiquetés automatiquement pour le recyclage, les performances pouvaient être préservées ou améliorées, résultant en un modèle très précis et plus généralisé. Bien que les valeurs de seuil pSim requises pour obtenir une similarité maximale varient selon l'étiquette de sortie clinique, une fois que ces valeurs sont identifiées - sur la base de la comparaison des étiquettes de modèle à un sous-ensemble relativement petit d'étiquettes de vérité terrain annotées par des experts - elles peuvent ensuite être appliquées à l'ensemble de données externe restant, pour identifier les examens susceptibles d'être positifs pour cette étiquette de sortie clinique à un niveau de précision prédéterminé et élevé ; les étiquettes résultantes peuvent ensuite être appliquées pour affiner ou recycler le modèle d'origine.
Nous avons développé un modèle xAI pour la détection des cinq étiquettes différentes suivantes sur les CXR de projection postéro-antérieure (PA) : cardiomégalie, épanchement pleural, œdème pulmonaire, pneumonie et atélectasie (voir Méthodes). Comme dans les rapports précédents, notre modèle comportait des modules de création d'atlas et de calcul de base de prédiction pour l'explicabilité (Fig. 1)1. La base de prédiction a été utilisée pour calculer une valeur de similarité de patch (une probabilité entre 0 et 1). Notre modèle incluait également un module de calcul de probabilité de confiance (Fig. 1a et b). La moyenne harmonique entre la similarité des patchs et les sorties du modèle de confiance a été utilisée pour calculer une valeur quantitative de probabilité de similarité (pSim), comprise entre 0 et 1, pour chaque étiquette de sortie clinique étudiée (Fig. 1c).
Les examens CXR effectués dans notre établissement de février 2015 à février 2019 ont été identifiés à partir de notre RIS (Radiology Information System) et de notre PACS (Picture Archiving and Communication System), ce qui a donné lieu à un ensemble de données de 440 852 études. Les examens ont été exclus s'il n'y avait pas de rapport de radiologie associé, aucune information sur la position de la vue (par exemple, projection antéropostérieure, portatif, etc.) ou aucun identifiant essentiel du patient (y compris, mais sans s'y limiter, le numéro de dossier médical, l'âge ou le sexe). Un total de 400 886 images CXR de 267 180 examens, représentant 117 195 patients, ainsi que leurs rapports de radiologie correspondants, ont été collectés rétrospectivement (Fig. 1 supplémentaire). À l'aide d'un modèle de traitement du langage naturel (PNL) basé sur des règles (tableau supplémentaire 1), nous avons extrait automatiquement 20 étiquettes pathologiques des rapports de radiologie, auxquelles l'une des trois étiquettes suivantes a été attribuée : positif, négatif ou ignorer. Après l'exploration et le nettoyage automatisés des données PNL, nous avons archivé 151 700 vues CXR antéropostérieures de 49 096 patients (58 % d'hommes, âge moyen 62 ± 18 ans) et 90 023 vues CXR postéro-antérieures (AP) de 69 404 patients (50 % d'hommes, âge moyen 57 ± 19 ans). Nous avons sélectionné au hasard 1000 images pour chaque position de vue comme ensemble de test ; les examens restants, provenant de patients sans chevauchement, ont été séparés en ensembles de formation et de validation (Fig. 1 supplémentaire). Les étiquettes des ensembles de formation et de validation ont été déterminées exclusivement à partir des affectations automatisées de PNL, tandis que celles de l'ensemble de test ont été déterminées par consensus de trois radiologues certifiés par le conseil américain de notre établissement (plus de détails fournis dans le tableau supplémentaire 1), en utilisant l'outil "Mark-it" (https://markit.mgh.harvard.edu, MA, USA) pour l'annotation7. Notre modèle xAI a été entraîné par apprentissage supervisé avec un ensemble de données d'entraînement total de 138 686 CXR et a atteint une courbe moyenne de l'aire sous la caractéristique de fonctionnement du récepteur (AUROC)8 de 0,95 + 0,02 pour la détection des cinq étiquettes de sortie clinique (tableau supplémentaire 2) dans notre ensemble de tests initial et indépendant (méthodes).
Nous avons appliqué notre modèle d'auto-étiquetage xAI CXR aux images PA CXR disponibles à partir de trois grands ensembles de données open source : CheXpert (n = 29 420 PA CXR), MIMIC (n = 71 223) et NIH (n = 67 310)2,3,4. Pour évaluer l'exactitude de l'étiquetage, nous avons sélectionné au hasard un sous-ensemble de cas "positifs" et "négatifs" tels que déterminés par le modèle pour chacune des cinq étiquettes, répartis également dans chacune des dix plages de valeurs pSim (0–0,1, 0,1–0,2, 0,2–0,3, …, 0,9–1,0), pour examen par des experts (Figs. 2–4). La vérité terrain (GT) a été définie comme le consensus majoritaire de sept radiologues experts sous-spécialistes (trois avec 12 à 25 ans d'expérience en radiologie thoracique et quatre avec 1 à 6 ans d'expérience en radiologie d'urgence) ; Le GT et les évaluations individuelles de chaque lecteur, pour chaque étiquette de résultat clinique (cardiomégalie, épanchement pleural, œdème pulmonaire, pneumonie et atélectasie), dans chacune des plages de valeurs pSim, sont présentés dans les Fig. 2–4a (en haut à gauche). Dans les Fig. 2–4b (en haut à droite), nous représentons graphiquement la relation entre la valeur pSim appliquée pour l'étiquetage automatique du modèle (axe des x) et (i) la valeur prédictive positive (PPV) et la valeur prédictive négative (NPV) des évaluations du modèle, par rapport à la vérité terrain ; et (ii) le taux de capture des vrais positifs (TPCR) et le taux de capture des vrais négatifs du modèle, définis respectivement comme le total des vrais positifs (par GT) divisé par le total des positifs (par GT) et le total des vrais négatifs (par GT) divisé par le total des négatifs (par GT). Dans les Fig. 2–4c (en bas à gauche) et Figs. 2–4d (en bas à droite), respectivement, le nombre de cas de faux positifs (par GT) et de faux négatifs (par GT) évalués par le modèle à chaque valeur de seuil pSim (axe des x), sont présentés, stratifiés par ensembles de données (c. Il convient de noter que le seuil pSim le plus bas possible requis pour 100 % PPV ou NPV correspond au "taux de capture correct" maximal, comme indiqué sur les Fig. 2–4b.
Nous avons appliqué notre modèle d'étiquetage automatique xAI CXR à trois grands ensembles de données open source : CheXpert, MIMIC et NIH. Pour deux des cinq étiquettes de résultats cliniques (cardiomégalie et épanchement pleural), nous avons sélectionné au hasard un sous-ensemble de cas "positifs" et "négatifs" tels que déterminés par le modèle, répartis également dans chacune des dix plages de valeurs pSim (0–0,1, 0,1–0,2, 0,2–0,3, …, 0,9–1,0), pour examen par des experts. En a, les notes positives (rouge clair) et négatives (bleu clair) pour chacun des sept lecteurs individuels (colonnes A à G) sont affichées graphiquement, avec la vérité terrain consensuelle (GT, déterminée par la majorité) indiquée dans la dernière colonne (rouge gras ou bleu gras). En b, les valeurs prédictives positives (PPV = [vrai positif par GT]/[total positif par modèle], triangles rouges pleins, axe y à gauche) et les valeurs prédictives négatives (NPV = [vrai négatif par GT]/[total négatif par modèle], cercles bleus pleins, axe y à gauche), des notes du modèle, sont représentées graphiquement par rapport à la valeur seuil pSim qui a été appliquée par le modèle (axe x). Sont également affichés en b (axe y à droite) le taux de capture des vrais positifs (TPCR, triangles rouges en pointillés) et le taux de capture des vrais négatifs (TNCR, cercles bleus en pointillés) du modèle, définis respectivement comme TPCR = [vrai positif (TP) par GT]/[total positif par GT (nombre en gras rouge de a)] et TNCR = [vrai négatif (TN) par GT]/[total négatif par GT (nombre en gras bleu de a)]. En c (en bas à gauche) et d (en bas à droite), respectivement, le nombre de cas de faux positifs (FP par GT) et de faux négatifs (FN par GT) évalués par le modèle à chaque valeur de seuil pSim (axe des x), sont présentés stratifiés par ensemble de données (CheXpert, MIMIC ou NIH ; nombre total de cas positifs ou négatifs par le modèle entre parenthèses), le seuil pSim optimal et le plus bas atteignant 100 % PPV ou NPV, comme indiqué (triangles verts en gras).
Veuillez vous référer à la Fig. 2 pour les légendes a–d.
Veuillez vous référer à la Fig. 2 pour les légendes a–d.
De plus, comme indiqué dans les zones de texte des Fig. 2–4c, d, ainsi que sur la Fig. 5, la précision du modèle se compare favorablement à celle des étiquettes publiques regroupées disponibles des ensembles de données externes à source ouverte. La figure 5 montre en outre que les performances AUROC du modèle d'étiquetage automatisé se comparent favorablement à celles des radiologues experts individuels, pour chaque étiquette de sortie clinique, à la fois au seuil d'étiquetage de la valeur de référence pSim = 0 et au seuil d'étiquetage de la valeur pSim optimale (c.
Les performances AUROC de notre modèle d'auto-étiquetage xAI CXR appliqué aux ensembles de données open source CheXpert, MIMIC et NIH sont présentées pour chacune des cinq étiquettes de sortie clinique étiquetées : a cardiomégalie, b épanchement pleural, c œdème pulmonaire, d pneumonie et e atélectasie. La comparaison porte sur les performances des radiologues experts individuels (A – G, cercles rouges), ainsi que sur les performances des annotations externes regroupées (carrés bleus, n = nombre de cas externes étiquetés disponibles par étiquette de sortie clinique). Les courbes ROC (sensibilité de l'axe y, spécificité de l'axe 1 des x) sont présentées à la fois pour le seuil de base pSim = 0 (boîte agrandie) et le seuil optimal pSim (c'est-à-dire le seuil pSim le plus bas atteignant une précision de 100 %, selon les Figs. 2–4c et d).
Des exemples d'images CXR auto-étiquetées qui avaient un accord complet entre les sept radiologues experts et le modèle xAI, positifs pour chacune des cinq étiquettes de sortie clinique étudiées, sont présentés dans la Fig. 2 supplémentaire. Les valeurs de seuil pSim appliquées par le modèle pour chaque image et le nombre / pourcentage d'examens PA CXR avec un accord total pour chaque étiquette, sont également indiqués. Il convient de noter qu'il n'y avait que 14 examens positifs identifiés par le modèle comme une pneumonie qui avaient un accord complet avec chaque lecteur, sur 50 examens au total étiquetés comme positifs pour la pneumonie (28 %). Le pourcentage d'étiquettes positives avec une concordance complète pour les quatre autres étiquettes, comme le montre la figure, était la cardiomégalie 78 % (39/50), l'épanchement pleural 78 % (39/50), l'œdème pulmonaire 43 % (17/40) et l'atélectasie 46 % (23/50).
Dans le tableau supplémentaire 3, nous avons appliqué notre modèle d'étiquetage automatisé aux trois ensembles de données CXR publics et open source complets : CheXpert (n = 29 420), MIMIC (n = 71 223) et NIH (n = 67 310) ; afin de démontrer l'ampleur du nombre de cas capturés, à la valeur de seuil pSim optimisée pour une précision maximale pour chaque étiquette de sortie clinique (PPV, VPN = 1 ; selon les Figs. 2-4). La mise en commun des étiquettes du modèle pour les trois ensembles de données publics complets (tableau supplémentaire 3, C) a entraîné un taux de capture de 80 % pour la cardiomégalie (134 076/167 953), 68 % pour l'épanchement pleural (114 230/167 953), 27 % pour l'œdème pulmonaire (45 660/167 953), 20 % pour la pneumonie (33, 308/167 953), et 28 % pour l'atélectasie (47 436/167 953). Il convient de noter que les "taux de capture" CXR moyens du modèle pour les résultats regroupés des trois ensembles de données publics correspondaient étroitement à ceux indiqués dans les graphiques des Fig. 2–4b, pour le sous-ensemble d'examens sélectionnés au hasard (n = 90–100) étiquetés à la fois par le modèle et les radiologues experts.
Pour chacune des cinq étiquettes de sortie clinique auto-étiquetées (Fig. 6), nous avons comparé : (i) le pourcentage de CXR auto-étiquetés positivement capturés à partir des trois ensembles de données publics complets regroupés (du tableau supplémentaire 3 ); (ii) le pourcentage de cas avec un accord complet entre le modèle et les sept lecteurs experts (à partir de la Fig. 2 supplémentaire) ; (iii) la valeur pSim la plus basse telle que PPV = 1 (représentée par "1-pSim@PPV1" ; des Figs. 2 à 4c), et (iv) la valeur pSim la plus basse telle que NPV = 1 (représentée par "1-pSim@NPV1" ; des Figs. 2 à 4d). Les étiquettes de sortie clinique avec des valeurs plus élevées de ces paramètres (par exemple, cardiomégalie, épanchement pleural) correspondaient à une plus grande efficacité et confiance d'auto-étiquetage du modèle ; Les étiquettes de résultats cliniques avec des valeurs plus faibles (par exemple, œdème pulmonaire, pneumonie) correspondaient à une efficacité et à une confiance moindres de l'auto-étiquetage du modèle. Il convient de noter que pour l'atélectasie, "1-pSim@PPV1" était supérieur à "1-pSim@NPV1", ce qui indique une plus grande confiance dans le fait que le modèle est correct pour "déterminer" cette étiquette (c'est-à-dire, auto-étiqueter correctement les vrais positifs) que dans "exclure" cette étiquette (c'est-à-dire, auto-étiqueter correctement les vrais négatifs). Cette relation a été inversée pour les quatre autres étiquettes (par exemple, une plus grande confiance que le modèle peut correctement "exclure" que "exclure" la pneumonie ou l'œdème pulmonaire).
Pour chacune des cinq étiquettes de sortie clinique auto-étiquetées - cardiomégalie (bleu), épanchement pleural (orange), atélectasie (gris), œdème pulmonaire (vert) et pneumonie (jaune) - nous avons comparé : (i) le pourcentage de CXR auto-étiquetés positivement "capturés" à partir des trois ensembles de données publiques complètes regroupées (c.-à-d. "Capture regroupée%", du tableau supplémentaire 3, C); (ii) le pourcentage de cas avec un accord complet entre le modèle et les sept lecteurs experts (c'est-à-dire, "Full Agree%", de la Fig. 2 supplémentaire); (iii) la valeur pSim la plus basse telle que PPV = 1 (représentée par "1-pSim", à partir des Figs. 2–4, c), et (iv) la valeur pSim la plus basse telle que NPV = 1 (représentée par "1-pSim", à partir des Figs. 2–4, d). les étiquettes de sortie clinique avec des valeurs d'axe y plus élevées (par exemple, cardiomégalie, épanchement pleural) correspondent à celles avec une plus grande efficacité/confiance d'auto-étiquetage du modèle ; les étiquettes de sortie clinique avec des valeurs d'axe y inférieures (par exemple, pneumonie, œdème pulmonaire) correspondent à celles avec une efficacité/confiance d'auto-étiquetage du modèle moindre. Il convient de noter que, dans le graphique pour l'atélectasie, "1-pSim@PPV1" est supérieur à "1-pSim@NPV1", ce qui peut être interprété comme une plus grande confiance dans le fait que le modèle est correct pour "statuer" l'étiquette de sortie clinique (c. cette relation est inversée pour les quatre autres étiquettes de résultats cliniques (par exemple, une plus grande confiance dans le fait que le modèle peut correctement "exclure" que "exclure" la pneumonie ou l'œdème pulmonaire).
Les statistiques kappa par paires estimant la variabilité inter-observateur parmi les sept radiologues experts sont présentées à la Fig. 7, pour chacune des cinq étiquettes de sortie clinique auto-marquées. Les plages de ces valeurs sont les suivantes : cardiomégalie 0,82–0,92, épanchement pleural 0,78–0,94, œdème pulmonaire 0,57–0,86, pneumonie 0,38–0,80 et atélectasie 0,47–0,78. La distribution de ces plages est bien corrélée avec les mesures d'efficacité et de confiance de l'auto-étiquetage du modèle par étiquette de sortie clinique, illustrées à la Fig. 6, avec la cardiomégalie et l'épanchement pleural montrant le plus grand accord entre les évaluateurs, et la pneumonie, l'œdème pulmonaire et l'atélectasie montrant le moins.
Pour chacune des cinq étiquettes de sortie clinique auto-marquées - a cardiomégalie, b épanchement pleural, c œdème pulmonaire, d pneumonie et e atélectasie - les statistiques kappa par paires estimant la variabilité inter-observateur sont présentées dans les matrices à code couleur respectives43.
Sur la figure 8, nous comparons les performances d'étiquetage automatique du modèle à l'aide de cette métrique pSim à celles de l'utilisation soit (1) de la similarité des patchs (basée sur des calculs CAM, liée à la localisation spatiale « focale »), soit (2) de la probabilité de confiance (liée à la distribution de probabilité « globale » des étiquettes de sortie du modèle final), seule. Notre nouvelle analyse suggère que l'utilisation d'un seuil pSim quantitatif peut avoir des avantages par rapport à la similarité des patchs ou au calcul de confiance seul, ce qui est particulièrement remarquable pour les étiquettes de sortie de diagnostic clinique - pneumonie et œdème pulmonaire - qui ont le plus faible accord inter-évaluateurs parmi les experts (Fig. 7). Ces résultats impactent « l'explicabilité » de notre modèle au regard des cartes de saillance. Un article récent a conclu que les techniques de carte de saillance sont très variables et que leur utilisation "dans le domaine à haut risque de l'imagerie médicale justifie un examen plus approfondi" ; les auteurs ont recommandé "que des modèles de détection ou de segmentation soient utilisés si la localisation est la sortie souhaitée du réseau". Une caractéristique remarquable de notre approche, cependant, est son explicabilité basée sur des valeurs pSim quantitatives (calculées à partir de notre atlas dérivé du modèle), qui, comme indiqué, peuvent avoir une valeur ajoutée par rapport aux cartes de saillance créées à l'aide de calculs de similarité ou de confiance uniquement9.
Nous avons comparé les performances du taux de capture de vrais positifs (TPCR) pour chacune des cinq étiquettes de sortie clinique, en utilisant la probabilité de confiance seule (reflétant la distribution de probabilité globale des étiquettes de sortie), la similarité des patchs seule (reflétant la localisation spatiale focale des étiquettes de sortie), et pSim (reflétant la moyenne harmonique entre la probabilité de confiance et la similarité des patchs, comme illustré à la Fig. 1). Ces résultats sont remarquables en ce que les deux étiquettes de sortie du modèle qui reflètent un accord élevé entre les évaluateurs des résultats d'imagerie - une cardiomégalie et un épanchement pleural b, selon la Fig. 7 - montrent un bon accord entre les trois mesures de niveau de confiance, avec des TPCR élevés pour chacun. Pour les deux étiquettes de sortie qui montrent une concordance inter-évaluateurs plus faible selon la Fig. 7 - c œdème pulmonaire et d pneumonie - les performances de pSim dépassent de manière significative celle de la similarité des patchs pour les deux, et celle de la probabilité de confiance pour la pneumonie mais pas pour l'œdème pulmonaire. Cette différence est probablement attribuable au fait que la similarité des patchs est plus sensible pour la détection des résultats d'imagerie régionaux focaux (par exemple, comme on le voit avec le diagnostic clinique de la pneumonie), tandis que la probabilité de confiance est plus sensible pour la détection des résultats globaux (par exemple, comme on le voit avec le diagnostic clinique de l'œdème pulmonaire). Les résultats de l'atélectasie, généralement une découverte plus focale que globale sur la CXR, peuvent être expliqués de la même manière.
Nous avons également étudié la relation entre la cohérence des performances, la généralisabilité, la taille de l'ensemble de données et l'architecture. En ce qui concerne l'architecture, il y avait une excellente cohérence entre notre modèle actuel et trois autres architectures de modèles différentes, notamment ResNet-5010, MobileNet v211 et MnasNet12 (Fig. 3 supplémentaire). De même, nos résultats suggèrent une généralisabilité cohérente et robuste concernant la taille et l'hétérogénéité des ensembles de données (tableau 1, tableaux supplémentaires 3 et 4).
Pour démontrer la capacité de notre système à se généraliser à des ensembles de données externes à un niveau de performance désigné par l'utilisateur, nous avons affiné notre modèle d'origine par une nouvelle formation itérative à l'aide des examens CXR auto-étiquetés des trois ensembles de données publics (tableau 1). Les examens CXR sélectionnés pour le recyclage (n = 31 020) avaient au moins une étiquette positive, une valeur pSim supérieure ou égale au seuil optimal pour cette étiquette (selon les Fig. 2–4c, 2–4d et 5), et ont été exclus s'ils avaient été utilisés précédemment dans le cadre de l'ensemble de tests. Nos résultats comparant les performances du modèle d'origine à celles du modèle affiné (tableau 1 et tableau supplémentaire 4) ont montré une précision égale ou améliorée du modèle affiné - formé à l'aide de données locales et plus généralisées des trois ensembles de données publics - par rapport au modèle d'origine, qui a été formé à l'aide de données locales uniquement.
L'annotation précise et efficace de grands ensembles de données d'imagerie médicale est une limitation importante dans la formation, et donc la mise en œuvre généralisée, des modèles d'IA dans les soins de santé13,14,15,16,17,18,19,20,21,22. À ce jour, cependant, peu de tentatives ont été décrites dans la littérature pour automatiser l'étiquetage de ces grandes bases de données en libre accès2,3,4,5,6. Une approche, par exemple, s'est concentrée sur le développement de nouveaux modèles d'IA à l'aide de sous-ensembles à forte intensité de main-d'œuvre et annotés manuellement des ensembles de données externes, et sur l'application de ces modèles à la base de données restante6. La précision d'une telle approche peut être limitée non seulement par : (1) les performances de base du modèle, mais aussi par (2) les différences dans le mélange de cas et la qualité d'image des ensembles de données externes. De plus, comme le démontrent les résultats de notre étude, (3) on ne peut présumer que les étiquettes fournies avec les bases de données publiques sont exactes ou propres ; par exemple, dans certains ensembles de données publics, de telles étiquettes peuvent avoir été générées à partir d'annotations dérivées de la PNL potentiellement bruyantes, sans validation par une norme de référence de niveau platine appropriée.
Dans cette étude, nous démontrons une méthode d'étiquetage normalisé et automatisé basé sur la similitude avec un modèle xAI précédemment validé, en utilisant une approche basée sur un atlas dérivé d'un modèle, pour laquelle l'utilisateur peut spécifier un seuil quantitatif pour un niveau de précision souhaité, la métrique pSim. Plus précisément, nous avons appliqué notre modèle d'IA existant pour la détection de cinq étiquettes de résultats cliniques CXR différentes (c'est-à-dire la cardiomégalie, l'épanchement pleural, l'œdème pulmonaire, la pneumonie et l'atélectasie) à trois grands ensembles de données publiques à source ouverte (c'est-à-dire CheXpert, MIMIC et NIH), et avons comparé les étiquettes résultantes à celles de sept radiologues experts humains.
Nous avons montré que notre modèle xAI, en calculant les valeurs pSim pour chaque étiquette sur la base d'une comparaison avec son atlas de référence dérivé de l'ensemble d'entraînement récupéré, pouvait étiqueter automatiquement un sous-ensemble de données externes à un niveau de précision arbitrairement élevé sélectionné par l'utilisateur, égalant ou dépassant celui des experts humains (Fig. 5). De plus, nous avons également montré qu'en affinant le modèle original à l'aide des examens étiquetés automatiquement pour le recyclage, les performances pouvaient être préservées ou améliorées, résultant en un modèle très précis et plus généralisé.
La valeur pSim utilisée pour l'annotation reflète un compromis entre la précision de l'étiquetage de l'image (c'est-à-dire que plus la valeur pSim est élevée, plus les étiquettes sont précises) et l'efficacité de l'étiquetage de l'image (c'est-à-dire que plus la valeur pSim est élevée, moins le modèle sélectionne d'examens pour l'annotation). Pour déterminer le seuil pSim pour chaque étiquette de sortie telle que PPV, NPV = 1, nous avons sélectionné au hasard un sous-ensemble d'examens "positifs" et "négatifs" dans les trois bases de données open source regroupées, répartis également dans chacune des dix plages de valeurs pSim (0–0,1, 0,1–0,2, 0,2–0,3, …, 0,9–1,0) selon les Fig. 2 à 4 (10 examens par plage pSim pour un total de 100). Il convient de noter qu'en utilisant cette approche pour la sélection des examens, nous avons pu atteindre un très haut niveau de précision d'étiquetage et de performance du modèle après un réglage fin, malgré le nombre relativement faible de cas présentés pour un examen par un expert humain (n = 100).
Pour évaluer l'efficacité de notre approche d'étiquetage automatisé, nous avons appliqué notre modèle xAI aux trois ensembles de données publics complets et comparé les cinq étiquettes de sortie clinique auto-étiquetées selon les paramètres suivants : (i) le pourcentage de CXR positivement auto-étiquetés à partir des trois ensembles de données publiques regroupées (c. Sim pour PPV = 1), et (iv) la valeur pSim la plus basse pour l'annotation de sorte que tous les cas négatifs capturés soient de vrais négatifs (c'est-à-dire, pSim optimal pour NPV = 1). Nous avons trouvé une forte corrélation entre l'ampleur de ces paramètres pour chacune des étiquettes de sortie clinique annotées, comme le montre la Fig. 6. Il convient de noter que les taux de capture positifs des trois ensembles de données publiques regroupées sont également fortement corrélés avec les taux de capture représentés sur les Figs. 2–4b, pour le sous-ensemble d'examens (n = 90–100) étiquetés à la fois par le modèle et les experts radiologues. De plus, les valeurs des paramètres rapportées pour chaque étiquette de sortie clinique correspondaient bien aux valeurs kappa de la variabilité inter-observateur illustrées à la Fig. 7.
Ensemble, nos résultats suggèrent que la précision et l'efficacité globales du modèle d'auto-étiquetage, appliqué à l'ensemble des ensembles de données publiques au pSim optimal pour chaque étiquette de sortie clinique, peuvent être similaires à la précision et à l'efficacité du modèle appliqué au sous-ensemble d'examens annotés par les sept radiologues experts. Ces résultats suggèrent également une plus grande efficacité d'auto-étiquetage, avec une plus grande confiance dans l'exactitude de l'étiquette, pour la cardiomégalie et l'épanchement pleural - deux des résultats les plus objectifs de l'interprétation CXR - et une moindre efficacité d'auto-étiquetage, avec une confiance plus faible dans l'exactitude de l'étiquette, pour la pneumonie et l'œdème pulmonaire - deux des évaluations les plus subjectives de l'interprétation CXR. En effet, plus la quantité "1-pSimoptimal" pour une étiquette de sortie clinique donnée (où 0 ≤ pSim ≤ 1 et pSimoptimal = la valeur pSim minimale telle que PPV/NPV = 1) est grande, plus fiable et robuste est l'étiquetage pour cette étiquette de sortie clinique, basée sur la similarité avec l'atlas de référence "mémorisé" dérivé de l'ensemble d'entraînement PNL du modèle.
Une caractéristique importante qui distingue notre approche de celle des autres modèles de classification en boîte noire est l'explicabilité ; la métrique pSim indique que le modèle fonctionne à un niveau de précision prédéterminé. L'étiquetage des ensembles de données externes à l'aide de méthodes de classification en boîte noire est susceptible d'être plus laborieux qu'avec notre approche, car chaque ensemble de données distinct (par exemple, CheXpert, NIH et MIMIC) peut nécessiter un plus grand nombre d'étiquettes manuelles pour s'assurer que suffisamment d'examens représentatifs ont été échantillonnés. Cependant, l'utilisation de pSim pour estimer une probabilité quantitative de similarité pourrait donner aux utilisateurs une plus grande confiance dans le fait que suffisamment d'examens ont été échantillonnés pour des performances précises du modèle. À l'avenir, une telle annotation manuelle experte pourrait n'avoir besoin d'être effectuée qu'une seule fois pour une plate-forme donnée dans une institution donnée, ce qui faciliterait un ajustement et un recyclage continus automatisés. En effet, un article récent a révélé que "pour un modèle de segmentation des lésions cérébrales entraîné sur les données d'un seul établissement, les performances étaient inférieures lorsqu'elles étaient appliquées dans un deuxième établissement ; cependant, l'ajout d'une petite quantité (10 %) de données d'entraînement provenant du deuxième établissement a permis au modèle d'atteindre son plein niveau de performance potentiel dans le deuxième établissement". Notre approche a le potentiel de faciliter l'ajustement ou le recyclage à un niveau de performance similaire ou supérieur, en utilisant considérablement moins de données que 10 % de l'ensemble de formation initial23.
Un autre aspect notable de notre approche concerne le déploiement du système. Nous pouvons appliquer le seuil de valeur pSim à chaque classe indépendamment, en sélectionnant une valeur pSim faible pour une étiquette de sortie clinique à haute visibilité avec un accord inter-évaluateur élevé, et en sélectionnant une valeur pSim élevée pour une étiquette de sortie clinique non spécifique plus bruyante et plus subjective avec un accord inter-évaluateur inférieur, ce dernier au prix de générer moins d'examens étiquetés (c'est-à-dire un taux de capture inférieur). L'utilisation des valeurs pSim permet de quantifier les étiquettes de sortie clinique du modèle d'IA qui sont les plus annotées de manière fiable et celles qui doivent être améliorées, ce qui permet de mesurer la robustesse du système. Le déploiement du système xAI est également conforme à la loi HIPAA, car aucune donnée source identifiable du patient n'a besoin d'être stockée, puisque la sélection du mode (Fig. 1) utilise uniquement les distributions de probabilité prédites codées pour les catégories et les informations compressées de la transformation UMAP24 pour l'atlas.
D'autres approches actuelles d'auto-étiquetage ont impliqué un apprentissage semi-supervisé6,25 et auto-supervisé26,27,28,29. Cependant, comme ces approches supposent une faible corrélation entre les classes, leurs performances n'ont pas été validées pour les modèles de classification CXR multi-étiquettes avec une corrélation interclasse élevée. L'apprentissage par transfert et le réglage fin ont également été tentés pour améliorer les performances lorsque des modèles développés indépendamment sont appliqués à des ensembles de données externes30,31,32, cependant, ces méthodes sont souvent peu pratiques car différentes institutions sont susceptibles d'utiliser des définitions différentes pour des catégories similaires, et la capture de données avec des étiquettes externes basées sur des définitions même légèrement différentes peut introduire un bruit considérable lorsque ces données sont utilisées pour la formation ou le recyclage de nouveaux modèles. Notre approche, cependant, permet la génération d'étiquettes standardisées, avec une probabilité de similarité définie par l'utilisateur à celle des modèles établis. Notre approche basée sur un atlas dérivé d'un modèle, qui simplifie les problèmes de calcul en se concentrant sur de petites régions avec des corrélations interclasses et intraclasses plus élevées, pourrait atteindre une précision et une efficacité élevées pour l'étiquetage automatique de trois grands ensembles de données CXR open source publics, similaires ou supérieurs à celui des experts humains.
Notre modèle d'IA d'auto-étiquetage reflète plusieurs caractéristiques de l'intelligence humaine33 en général, et du comportement imitant le radiologue en particulier. Plus précisément, notre système est "intelligent", en ce sens qu'il peut accéder à sa "mémoire" d'étiquettes de sortie clinique d'examen présentes dans l'ensemble de formation, et estimer quantitativement leur similitude avec les étiquettes de sortie clinique dans les nouvelles données d'examen externes. La métrique "1-pSimoptimal" pour chaque étiquette de sortie clinique fournit une mesure de "l'intelligence" du système pour un étiquetage efficace et précis, et sa valeur (entre 0 et 1) reflète la qualité (c. Le modèle peut également fournir des commentaires aux utilisateurs grâce à sa fonctionnalité d'explicabilité, en affichant des exemples d'étiquettes de résultats cliniques à l'étude à partir de son atlas de référence ainsi que leur valeur pSim associée ; cette interaction offre à l'utilisateur un niveau supplémentaire de confiance que le modèle fait ce qu'il est censé faire. À cet égard, notre système peut être considéré comme un outil d'intelligence augmentée pour améliorer la précision et l'efficacité des imageurs médicaux.
En effet, une limite de notre modèle est que la précision et l'efficacité de son étiquetage sont directement proportionnelles à la qualité de l'ensemble d'apprentissage initial. Cela peut aider à expliquer pourquoi la cardiomégalie et l'épanchement pleural - deux étiquettes de résultats cliniques à haute visibilité régulièrement correctement décrites dans les rapports de radiologie identifiés par la PNL pour la formation de modèles - ont des mesures d'efficacité plus élevées (Figs. 2 et 6) que l'œdème pulmonaire et la pneumonie (Fig. 3), qui sont plus non spécifiques et évalués de manière variable par différents radiologues. Cela peut également aider à expliquer pourquoi les valeurs 1-pSimoptimal pour VPN = 1 sur la Fig. 6 sont plus élevées que les valeurs 1-pSimoptimal pour PPV = 1, pour toutes les étiquettes de sortie clinique à l'exception de l'atélectasie (Fig. 4), puisque l'atélectasie est une étiquette de sortie clinique à faible visibilité, plus non spécifique généralement notée dans les rapports de radiologie CXR uniquement lorsqu'elle est présente, mais non mentionnée lorsqu'elle est absente (c. niveau de certitude, et donc une valeur 1-pSimoptimale plus élevée, lorsqu'une atélectasie est présente, que lorsqu'elle est absente). L'œdème pulmonaire et la pneumonie, en revanche, sont généralement décrits dans les rapports CXR avec un niveau de certitude plus élevé lorsqu'ils sont définitivement absents (p. ex., aucun signe d'œdème pulmonaire ou de pneumonie) que lorsqu'ils sont éventuellement présents (p. ex., ne peut pas exclure l'œdème pulmonaire ou la pneumonie).
De plus, étant donné que la cardiomégalie et l'épanchement pleural sont des résultats d'imagerie régionaux focaux à haute visibilité, ils démontrent également une performance TPCR plus élevée avec la similarité des patchs qu'avec la probabilité de confiance (Fig. 8). De même, pour l'atélectasie, généralement une découverte de CXR régionale focale plus discrète que l'œdème pulmonaire ou la pneumonie, la similarité du patch et le pSim (Fig. 8) montrent de bonnes performances TPCR par rapport à la probabilité de confiance. Inversement, pour l'œdème pulmonaire, la seule étiquette pour laquelle les performances du TPCR sont meilleures avec la probabilité de confiance qu'avec la similarité des patchs (Fig. 8), ce résultat est cohérent avec le fait que la probabilité de confiance est plus sensible pour la détection de caractéristiques globales non localisées, qui sont systématiquement associées aux résultats d'œdème pulmonaire sur CXR (c'est-à-dire que l'œdème pulmonaire est visualisé de manière diffuse dans les champs pulmonaires bilatéraux).
Il convient de noter que l'explication de ces différences de performances entre la probabilité de confiance, la similarité des patchs et pSim pour les cinq étiquettes différentes (Fig. 8) correspond si étroitement aux performances et à la variabilité des lecteurs illustrées dans les Figs. 2–5 et 7. Cela confirme non seulement notre idée clinique de "bon sens" selon laquelle la cardiomégalie et l'épanchement pleural (ainsi que l'atélectasie) sont des résultats objectifs de CXR à haute visibilité, tandis que l'œdème pulmonaire et la pneumonie sont des évaluations subjectives plus non spécifiques, mais souligne également l'explicabilité de notre modèle (par l'attribution de valeurs pSim appropriées pour chaque étiquette) en reflétant la performance humaine, probablement attribuable à la vérité de terrain basée sur le radiologue utilisée pour la formation du modèle.
Une autre limitation de notre modèle est que notre système xAI proposé nécessite des ressources de calcul et un espace de stockage importants pour fournir la base de prédiction et faire fonctionner le module de sélection de mode. Étant donné que les modules explicables ont été conçus pour fonctionner indépendamment, nous pouvons cependant déployer différemment le système xAI de capacités ajustées en fonction de la spécification d'un serveur donné.
En résumé, nous avons : (i) développé et démontré un modèle d'IA explicable pour l'étiquetage automatisé de cinq étiquettes de résultats cliniques d'imagerie CXR différentes, à un niveau de confiance quantitatif sélectionné par l'utilisateur, basé sur la similitude avec l'atlas dérivé du modèle d'un modèle validé existant, et (ii) a montré qu'en affinant ce modèle existant à l'aide des examens étiquetés automatiquement pour le recyclage, les performances pourraient être préservées ou améliorées, résultant en un modèle très précis et plus généralisé. Il convient de noter que ces résultats ont été obtenus par l'annotation d'experts humains de seulement 100 examens, sélectionnés parmi les trois grands ensembles de données indépendants, représentant une distribution égale des valeurs de seuil pSim de 0 à 1 ; cela suggère que notre approche basée sur la similarité quantitative avec un atlas dérivé d'un modèle d'IA explicable peut être en mesure de fournir un étiquetage hautement précis et entièrement automatisé, quelle que soit la taille de la base de données open source étudiée.
En conclusion, la capacité d'annoter automatiquement, avec précision et efficacité de grandes bases de données d'imagerie médicale peut être d'une valeur considérable dans le développement de modèles d'IA importants et à fort impact qui apportent une valeur ajoutée et sont largement acceptés par la communauté des soins de santé. Notre approche pourrait non seulement aider à améliorer la précision des modèles d'IA existants grâce à un ajustement et un recyclage, mais également aider à normaliser les étiquettes des ensembles de données open source (pour lesquelles les étiquettes fournies peuvent être bruyantes, inexactes ou absentes) en fonction de leur similitude quantitative avec celles des modèles validés existants. L'utilisation de la métrique pSim pour l'étiquetage automatique a le potentiel de réduire la quantité de données annotées requises pour la construction de modèles précis, réduisant ainsi le besoin d'étiquetage manuel laborieux de très grands ensembles de données par des experts humains.
Cette étude était conforme à la Health Insurance Portability and Accountability Act et a été approuvée par l'Institutional Review Board du Massachusetts General Hospital pour l'analyse rétrospective des données acquises cliniquement avec une dispense de consentement éclairé.
L'ensemble de données de développement contenait des images CXR acquises entre février 2015 et février 2019. Toutes les images DICOM (imagerie numérique et communications en médecine) ont été anonymisées avant l'analyse des données. Pour créer un ensemble de données cohérent, nous avons choisi uniquement les examens associés à des rapports de radiologie, à des informations sur la position (par exemple, projections AP/PA, portable, etc.) et à des identifiants de patient essentiels (y compris, mais sans s'y limiter, le numéro de dossier médical, l'âge ou le sexe). Si un examen comportait plusieurs images CXR, une seule image CXR était incluse. Nous avons sélectionné au hasard 1000 images pour chaque position de vue comme ensemble de test ; les examens restants, provenant de patients sans chevauchement, ont été séparés en ensembles de formation et de validation (Fig. 1 supplémentaire).
Les étiquettes des ensembles de formation et de validation ont été déterminées exclusivement à partir des affectations automatisées de la PNL, tandis que celles de l'ensemble de test ont été déterminées par consensus de trois radiologues certifiés par le conseil américain de notre établissement (plus de détails fournis dans le tableau supplémentaire 1) en utilisant l'outil "Mark-it" (https://markit.mgh.harvard.edu, MA, USA) pour l'annotation7.
Le réseau convolutif à connexion dense (DenseNet-121)34, qui relie chaque couche à toutes les autres couches dans une méthode d'anticipation, a été sélectionné pour développer le système de détection et de classification des 20 étiquettes pathologiques. Le modèle préformé, disponible dans le référentiel officiel de Pytorch35,36, a été affiné par apprentissage supervisé avec notre ensemble de données de formation et les étiquettes du PNL après que la dernière couche entièrement connectée avec 1000 sorties et la première couche convolutive ont été remplacées par 21 sorties (c'est-à-dire 20 étiquettes pathologiques et position de vue) et avec des entrées de 1 profondeur de canal, respectivement. La topologie du réseau a été optimisée à l'aide d'AdamW37, où nous avons utilisé une taille de lot de 144, un taux d'apprentissage de \(1\fois 1{0}^{-4}\), bêta-1 de 0,9, bêta-2 de 0,999, epsilon de \(1\fois 1{0}^{-8}\) et une décroissance de poids de \(1\fois 1{0}^{-5}\). Dans l'étape de formation, l'augmentation des données en temps réel a été effectuée en appliquant des transformations géométriques : rotation de -10 à 10, mise à l'échelle à 110 %, recadrage aléatoire à 512 × 512, retournement horizontal aléatoire avec une probabilité de 1 %. Toutes les expériences ont été menées sur quatre GPU de Tesla V100 SXM 32 Go [NVIDIA DGX, CA, USA], et tous les modèles d'apprentissage en profondeur ont été implémentés avec Pytorch (v.1.2.0).
La fonction de perte d'entropie croisée binaire (BCE) a été pondérée par les ratios d'échantillons positifs et négatifs pour chaque étiquette de classe (\({\alpha }_{P}^{c}\) et \({\alpha }_{N}^{c}\)), pour la classification multi-étiquettes4. Nous avons considéré deux poids supplémentaires : le premier poids devait refléter le rapport du nombre d'échantillons effectifs (\({\alpha}_{s}^{c}\), la somme maximale entre les étiquettes positives et négatives parmi 20 étiquettes de sortie clinique divisée par celle de la c-ième étiquette) à former en raison de la prise en compte des étiquettes ignorées pour chaque étiquette de sortie clinique. Lors de la formation du modèle d'IA, nous avons découvert expérimentalement que l'utilisation d'échantillons avec l'autre position de vue ainsi que ceux avec une position de vue ciblée peut améliorer les performances de généralisation du modèle, nous avons donc ajouté le deuxième poids (α(ν)) dans la fonction de perte pour contrôler relativement l'impact des échantillons avec la position de vue cible. La fonction de perte BCE pondérée est donnée par l'équation. (1):
où x désigne les images CXR, la sortie du modèle est \({{{{{\bf{y}}}}}}=\{{y}^{1},{y}^{2},...,{y}^{J}\}\) qui indique la probabilité prédite des classes J, v est une position de vue de l'image, et \({{{{{\bf{t}}}}}}=\{{t}^{1},{t}^{2} ,...,{t}^{J}\}\) signifie les étiquettes des étiquettes de sortie clinique extraites par NLP. De plus, \({\alpha}_{s}^{c}\) est défini comme \((\left|{P}^{m}\right|+\left|{N}^{m}\right|)/(\left|{P}^{c}\right|+\left|{N}^{c}\right|)\) afin d'assurer l'équité entre les classes avec différents nombres d'échantillons effectifs qui ne considèrent que "0" et "1", pas "−1". Ici, \(\left|{P}^{c}\right|\) et \(\left|{N}^{c}\right|\) sont les nombres totaux de "1" et de "0" dans les étiquettes pour l'étiquette c, et m signifie l'index de classe ayant le nombre total maximum de "1" et de "0" (\(m={{\arg }}\mathop{{{\max }}}\nolimits_{c}(\left|{P}^{c }\droite|+\gauche|{N}^{c}\droite|)\)). Nous définissons également \({\alpha }_{P}^{c}=\frac{\left|{P}^{c}\right|+\left|{N}^{c}\right|}{\left|{P}^{c}\right|}\) et \({\alpha }_{N}^{c}=\frac{\left|{P}^{c}\right|+\left|{N}^{c}\right|}{\left|{N} ^{c}\right|}\) pour résoudre le déséquilibre entre le positif et le négatif ; α(ν) vaut ω si ν est la vue visée, 1 pour les autres.
Notre étiquetage automatisé des ensembles de données, basé sur la similarité avec un modèle CXR AI validé, nécessite le calcul de deux paramètres quantitatifs basés sur l'atlas, les probabilités de "similarité des patchs" et de "confiance" (valeurs comprises entre 0 et 1), comme illustré à la Fig. pour le calcul de "confiance", un atlas de distribution est généré sur la base des probabilités prédites (Fig. 1a, b). La moyenne harmonique entre la similarité du patch et les valeurs de confiance est ensuite utilisée pour calculer un pSim pour chaque étiquette de sortie clinique (Fig. 1c).
Pour améliorer la robustesse de l'ensemble du système, un ensemble de six modèles DenseNet-121 est composé à l'aide d'une moyenne non pondérée, de sorte que la probabilité finale est déterminée comme une moyenne des probabilités prédites par les six modèles40. Ces six modèles sont construits en s'entraînant indépendamment avec trois poids (c'est-à-dire, ω = 1,1, 1,5 et 2,0 en α(ν)) pour la vue PA, puis en sélectionnant deux modèles maximisés par AUROC et la précision, respectivement. Pour créer l'atlas de distribution, nous effectuons une inférence avec le modèle d'IA entraîné sur un ensemble de données d'entraînement complet, afin d'obtenir deux distributions de probabilité d'échantillons positifs et négatifs pour l'ensemble de données d'entraînement. Ces distributions de probabilité sont enregistrées sous forme d'atlas de distribution pour chaque étiquette de sortie clinique.
Pour améliorer les performances de localisation de notre cartographie d'activation de classe, nous avons développé une méthode d'ensemble comme suit : en supprimant les composants de bruit d'un seul CAM, en ajoutant uniquement des composants significatifs et en le normalisant dans l'équation. (2), l'ensemble CAM a pu mettre en évidence de manière nette les régions qui se chevauchent parmi les CAM uniques.
où \({{{{{\bf{CAM}}}}}}}_{{{{{{\bf{E}}}}}}}^{{{{{\bf{c}}}}}}}\) désigne la matrice CAM d'ensemble, \({{{{{{\bf{CAM}}}}}}}_{{{{{\bf{s}}}}}}}^{{{{{{\bf{c}}} }}}}\) est une matrice CAM pour la c-classe générée à partir du s-ème modèle unique, et S désigne le nombre de modèles. Uτ désigne une matrice avec le composant \({u}_{i,j}={{{{{\rm{u}}}}}}({{{{{{\bf{CAM}}}}}}}_{{{{{{\bf{s}}}}}}}^{{{{{{\bf{c}}}}}}}(i,j)-\tau )\) pour déterminer les valeurs CAM inférieures à τ comme bruit composants et de les retirer. u est une fonction d'étape unitaire, ⊙ signifie le produit Hadamard et Normalize est une échelle linéaire pour la conversion en une plage standard entre 0 et 1.
Pour créer l'atlas des patchs, nous recherchons les contours principaux sur un CAM haute résolution (512 × 512) généré à partir d'un CAM pour chaque classe, sélectionnons une boîte englobante pour inclure le contour, le définissons comme le patch et l'enregistrons (un ou deux patchs d'un CAM sont pris en compte dans cette étude). Pour chaque étiquette de sortie clinique, les patchs sont enregistrés en tant que modèles typiques et représentatifs uniquement à partir des images CXR avec la probabilité prédite du modèle AI d'être supérieure ou égale à 0,9. Nous formons un modèle UMAP basé sur la métrique cosinus en utilisant les correctifs pour toutes les étiquettes de sortie clinique24. Le modèle UMAP transforme les patchs en coordonnées dans un espace d'intégration bidimensionnel, de sorte que plus la distance euclidienne dans cet espace est petite, plus la similarité cosinus est élevée. Par conséquent, pour la méthode d'étiquetage automatisé, l'atlas des patchs se compose des coordonnées de tous les patchs dans l'espace d'intégration bidimensionnel et du modèle UMAP (Fig. 1b). De plus, l'atlas des correctifs peut être créé à l'aide de schémas plus avancés41,42.
Pour calculer la similarité du patch, comme illustré à la Fig. 1b, nous devons extraire la base de prédiction (\({{{{{\boldsymbol{\Psi }}}}}}}_{{{{{\rm{pb}}}}}}}^{{{{{\rm{c}}}}}}}\)) pour la c-ième étiquette en calculant la distance euclidienne entre la coordonnée transformée UMAP de l'image d'entrée et le Patch-atlas, puis en sélectionnant la base K avec la distance minimale comme Eq. (3):
où \({{{{{\boldsymbol{\Omega }}}}}}}_{{{{{\rm{pb}}}}}}}^{{{{{{\rm{c}}}}}}}(k)\) désigne le patch avec la k-ième distance euclidienne minimale parmi les Patch-atlas, et la distance euclidienne est calculée par \({\left|\left|{{{{{{\rm{f}}} }}}}_{{{{{\rm{UMAP}}}}}}}^{{{{{{\rm{c}}}}}}}({{{{{{\bf{y}}}}}}}_{{{{{{\rm{p}}}}}}}^{{{{{\rm{c}}}}}}})-{{{{{{\rm{A}}}}}}}_{{{{{\ rm{P}}}}}}-{{{{{\rm{UMAP}}}}}}}^{{{{{\rm{c}}}}}}}(i)\right|\right|}_{2}{for\ ; i}=1,\ldots ,{n}({{{{{{\rm{A}}}}}}}_{{{{{{\rm{P}}}}}}-{{{{{\rm{UMAP} }}}}}}^{{{{{{\rm{c}}}}}}})\). De plus, \({{{{\rm{f}}}}}}}_{{{{{\rm{UMAP}}}}}}}^{{{{{\rm{c}}}}}}}\) est le modèle UMAP entraîné pour la classe c, \({{{{{{\bf{y}}}}}}}_{{{{{{\rm{p}}}}}}}^{{{{{\rm{c}} }}}}}\) est un vecteur de patch de 1024 dimensions calculé par une image d'entrée, \({{{{{{\rm{A}}}}}}}_{{{{{\rm{P}}}}}}-{{{{{\rm{UMAP}}}}}}}^{{{{{\rm{c}}}}}}}\) est le Patch-atlas, et \(n({{{{{\rm{A}}} }}}}_{{{{{\rm{P}}}}}}-{{{{{\rm{UMAP}}}}}}}^{{{{{\rm{c}}}}}}})\) est la taille du Patch-atlas. La similarité du patch est proposée pour permettre au modèle d'IA d'interpréter le nouveau patch basé sur la base de prédiction (\({{{{{\boldsymbol{\Psi }}}}}}}_{{{{{\rm{pb}}}}}}}^{{{{{\rm{c}}}}}}}\)), comme une métrique quantitative. La métrique est calculée par un centile de la proximité d'un patch d'une image d'entrée sur une base de prédiction de K patchs dans l'espace d'intégration.
où \({{{{{\rm{f}}}}}}_{{{{{{\rm{D}}}}}}}^{{{{{\rm{c}}}}}}}\) désigne une fonction calculant un centile pour la distance euclidienne moyenne des K patchs les plus proches pour l'image d'entrée, sur la base d'une distribution de la distance euclidienne moyenne pour tous les patchs du Patch-atlas.
Conformément à la Fig. 1b, nous proposons la métrique de confiance, basée sur l'atlas de distribution, comme mesure du niveau de confiance entre les probabilités prédites positives et négatives pour une étiquette de sortie clinique. Cette métrique quantitative est simplement définie avec les équations. (5) et (6) pour les échantillons prédits positifs et négatifs, comme suit :
En supposant qu'une probabilité prédite est \({y}^{c}\) pour la classe c, nous calculons un centile (\({{{{{\rm{f}}}}}}}_{{{{{\rm{P}}}}}}}^{{{{{\rm{c}}}}}}}({y}^{c})\)) dans l'atlas de distribution positif et un centile (\({1-{{{{{\rm {f}}}}}}}_{{{{{\rm{N}}}}}}}^{{{{{\rm{c}}}}}}}({y}^{c})\)) dans l'atlas de distribution négatif. Ensuite, la différence entre deux centiles est calculée comme la confiance. Étant donné que la capacité prédictive du modèle xAI pour chaque étiquette de résultat clinique est liée à la forme et au degré d'intersection des deux courbes de densité de probabilité (positive et négative) sur l'atlas de distribution, la métrique de confiance, telle que définie sur la base des équations. (5) et (6), fournit une mesure quantitative analogue à la valeur p entre différentes distributions statistiques. En d'autres termes, plus la valeur de confiance d'une étiquette est élevée, plus la probabilité que l'image d'entrée corresponde à l'étiquette correcte est élevée et plus la probabilité d'un mappage incorrect est faible. De plus, cette métrique a la capacité de quantifier différents niveaux de confiance selon différentes distributions des caractéristiques des étiquettes de sortie clinique sur l'atlas de distribution pour chaque classe du modèle, même aux mêmes probabilités prédites.
Notre méthode d'étiquetage automatisé des ensembles de données calcule la valeur pSim à l'aide d'une moyenne harmonique entre la confiance et la similarité des patchs (pSimilarity in Eq. (7)) pour chaque image d'entrée.
Le seuil de pSim pour chaque étiquette de sortie clinique est choisi par les valeurs de pSim les plus basses qui peuvent atteindre 100 % de VPP et de VPN, conformément aux Fig. 2–4.
La fonctionnalité supplémentaire de notre conception de modèle comprend un algorithme de "sélection de mode", qui, en utilisant la valeur de seuil pSim sélectionnée, peut être utilisé pour : (1) déterminer l'étiquette de l'image (positive, négative ou non étiquetée) dans un niveau de confiance donné si la valeur pSim pour une classe est supérieure au seuil sélectionné ("mode d'auto-annotation"), ou (2) alerter l'utilisateur humain si le pSim tombe en dessous du seuil sélectionné pour le niveau de confiance ("mode de ré-annotation"). Bien que le "mode de ré-annotation" n'ait pas été appliqué à notre étude actuelle, cela a le potentiel d'être utile dans les applications futures et le déploiement de notre modèle, dans le cadre de sa fonctionnalité d'explicabilité (plus de détails concernant la "sélection de mode" pSim sont fournis dans l'encadré 1).
Entrée : probabilité prédite pour la classe c (yc), ConfidenceP, ConfidenceN et la similarité des patchs
%[étape-1] Diviser en deux groupes par yc et THpos : candidats positifs ou négatifs
Si \({y}^{c}\ge T{H}_{{pos}}\) : alors
%[step-2] Pour décider du mode et de l'annotation pour les candidats positifs
% Probabilité de similarité, pSim
pSim = 2 ConfianceP pSimilarité / (ConfianceP + pSimilarité)
Si pSim > = valeur seuil pSim (PPV, NPV = 1) : alors
Mode = mode d'auto-annotation
Libellé = 1 % Libellé positif
Autre
Mode = mode de ré-annotation
Libellé = -1 % sans libellé
Autre
%[step-2] Pour décider du mode et de l'annotation pour les candidats négatifs
pSim = ConfianceN
Si pSim > = valeur seuil pSim (PPV, NPV = 1) : alors
Mode = mode d'auto-annotation
Etiquette = 0 %Etiquette négative
Autre
Mode = mode de ré-annotation
Annotation = −1 % sans étiquette
Pour évaluer la signification statistique des AUROC, nous avons calculé les IC à 95 % à l'aide d'une approche bootstrap non paramétrique via le processus suivant : tout d'abord, 1 000 cas ont été échantillonnés au hasard à partir de l'ensemble de données de test de 1 000 cas avec remplacement, et les modèles DCNN ont été évalués sur l'ensemble de test échantillonné. Après avoir exécuté ce processus 2000 fois, des IC à 95 % ont été obtenus en utilisant l'intervalle entre 2,5 et 97,5 centiles de la distribution des AUROC. Les IC à 95 % du pourcentage de précision, de sensibilité et de spécificité des modèles au point de fonctionnement sélectionné ont été calculés à l'aide d'IC à proportion binomiale.
Bien que les ensembles de données externes contenaient à la fois des vues AP et PA, notre étude a été menée avec des vues PA uniquement, à la fois pour des raisons de cohérence/commodité et pour minimiser les variables de confusion potentielles. Plus précisément, à partir des ensembles de données CheXpert v1 (n = 223 414) et NIH (n = 112 120), qui contiennent des étiquettes PA dans leurs fichiers de métadonnées, nous avons collecté respectivement 29 420 et 67 310 PA CXR. À partir de l'ensemble de données MIMIC v1 (n = 369 188), qui n'avait pas d'étiquettes claires, nous avons appliqué un modèle interne pour distinguer les projections PA et AP, qui a renvoyé 71 223 PA CXR (spécificité 0,999, sensibilité = 0,998).
De plus amples informations sur la conception de la recherche sont disponibles dans le résumé des rapports de recherche sur la nature lié à cet article.
Les étiquettes des cinq catégories appliquées aux trois ensembles de données ouvertes par les sept lecteurs experts sont accessibles à l'adresse : https://github.com/MGH-LMIC/AutoLabels-PublicData-CXR-PA. Les ensembles de données de formation, de validation et de test générés pour cette étude sont anonymisés ; le format d'image non-DICOM de ces données peut être disponible dans 15 jours ouvrables à des fins de recherche auprès de l'auteur correspondant ([email protected]) avec une demande officielle.
Les codes pour le développement de modèles sont accessibles sur : https://github.com/MGH-LMIC/CXR-autolabeling.
Lee, H. et al. Un algorithme d'apprentissage en profondeur explicable pour la détection des hémorragies intracrâniennes aiguës à partir de petits ensembles de données. Nat. Biomédical. Ing. 3, 173-182 (2019).
Article Google Scholar
Irvin, J. et al. Chexpert : un grand ensemble de données de radiographies thoraciques avec des étiquettes d'incertitude et une comparaison d'experts. Dans Actes de la conférence AAAI sur l'intelligence artificielle 33, 590–597 (2019).
Johnson, A., et al. MIMIC-CXR-JPG - radiographies thoraciques avec étiquettes structurées (version 2.0.0). PhysioNet https://doi.org/10.13026/8360-t248 (2019).
Wang, X., et al. Chestx-ray8 : base de données de radiographies pulmonaires à l'échelle hospitalière et repères sur la classification et la localisation faiblement supervisées des maladies courantes du thorax. Dans Actes de la conférence IEEE sur la vision par ordinateur et la reconnaissance de formes, 2097-2106 (2017).
Bustos, A., Pertusa, A., Salinas, JM & de la Iglesia-Vayá, M. Padchest : un grand ensemble de données d'images radiographiques thoraciques avec des rapports annotés à plusieurs étiquettes. Méd. Image anale. 66, 101797 (2020).
Article Google Scholar
Kim, TK, Paul, HY, Hager, GD & Lin, CT Affiner les méthodes de conservation des ensembles de données pour le dépistage automatisé de la tuberculose basé sur l'apprentissage en profondeur. J. Thorac. Dis. 12, 5078–5085 (2020).
Article Google Scholar
Witowski, J., et al. MarkIt : une plateforme collaborative d'annotation d'intelligence artificielle tirant parti de la blockchain pour la recherche en imagerie médicale. Blockchain dans les soins de santé aujourd'hui (2021).
Powers, D. Évaluation : de la précision, du rappel et du facteur F au ROC, à l'information, à la netteté et à la corrélation. J.Mach. Apprendre. Technol. 2, 37–63 (2008).
Google Scholar
Arun, N. et al. Évaluation de la fiabilité des cartes de saillance pour la localisation d'anomalies en imagerie médicale. Radiol. Artef. Renseignement. 3, e200267 (2021).
Article Google Scholar
He, K., Zhang, X., Ren, S. et Sun, J. Apprentissage résiduel profond pour la reconnaissance d'images. Dans Actes de la conférence IEEE sur la vision par ordinateur et la reconnaissance de formes, 770–778, (2016).
Sandler, M., Howard, A., Zhu, M., Zhmoginov, A. et Chen, LC Mobilenetv2 : résidus inversés et goulots d'étranglement linéaires. Dans Actes de la conférence IEEE sur la vision par ordinateur et la reconnaissance de formes, 4510–4520, (2018).
Tan, M., et al Mnasnet : recherche d'architecture neuronale compatible avec la plate-forme pour mobile. Dans Actes de la conférence IEEE/CVF sur la vision par ordinateur et la reconnaissance de formes, 2820–2828, (2019).
Lakhani, P. & Sundaram, B. Apprentissage en profondeur à la radiographie thoracique : classification automatisée de la tuberculose pulmonaire à l'aide de réseaux de neurones convolutifs. Radiologie 284, 574–582 (2017).
Article Google Scholar
Baltruschat, IM, Nickisch, H., Grass, M., Knopp, T. et Saalbach, A. Comparaison des approches d'apprentissage en profondeur pour la classification multi-étiquettes des radiographies pulmonaires. Sci. Rep. 9, 1–10 (2019).
Article CAS Google Scholar
Pasa, F., Golkov, V., Pfeiffer, F., Cremers, D. & Pfeiffer, D. Architectures de réseaux profonds efficaces pour le dépistage et la visualisation rapides de la tuberculose par radiographie pulmonaire. Sci. Rep. 9, 1–9 (2019).
Article CAS Google Scholar
Wang, L., Lin, ZQ & Wong, A. Covid-net : une conception de réseau de neurones à convolution profonde sur mesure pour la détection des cas de covid-19 à partir d'images radiographiques pulmonaires. Sci. Rép. 10, 1–12 (2020).
Article Google Scholar
Rajpurkar, P. et al. CheXaid : aide à l'apprentissage en profondeur pour le diagnostic médical de la tuberculose à l'aide de radiographies pulmonaires chez les patients infectés par le VIH. Chiffre NPJ. Méd. 3, 1–8 (2020).
Article Google Scholar
Oh, Y., Park, S. & Ye, JC Apprentissage en profondeur des fonctionnalités covid-19 sur cxr à l'aide d'ensembles de données d'entraînement limités. IEEE Trans. Méd. Imagerie 39, 2688–2700 (2020).
Article Google Scholar
Nam, JG et al. Développement et validation d'un algorithme de détection automatique basé sur l'apprentissage profond pour les nodules pulmonaires malins sur les radiographies thoraciques. Radiologie 290, 218–228 (2019).
Article Google Scholar
Sim, Y. et al. Un logiciel basé sur un réseau de neurones à convolution profonde améliore la détection par les radiologues des nodules pulmonaires malins sur les radiographies thoraciques. Radiologie 294, 199-209 (2020).
Article Google Scholar
Sung, J., et al. Valeur ajoutée du système de détection basé sur l'apprentissage en profondeur pour plusieurs résultats majeurs sur les radiographies thoraciques : une étude croisée randomisée. Radiologie 202818, (2021).
Zech, JR et al. Performance de généralisation variable d'un modèle d'apprentissage en profondeur pour détecter la pneumonie dans les radiographies thoraciques : une étude transversale. PLoS Med. 15, e1002683 (2018).
Article Google Scholar
Rauschecker, AM et al. Portabilité interinstitutionnelle d'un algorithme de segmentation des lésions cérébrales d'apprentissage profond en IRM. Radiol. Artef. Renseignement. 4, e200152 (2021).
Article Google Scholar
McInnes, L. et al. UMAP : approximation et projection de variété uniforme. Journal of Open Source Software, 3, 861 https://doi.org/10.21105/joss.00861 (2018).
Berthelot, D., et al. Mixmatch : une approche holistique de l'apprentissage semi-supervisé. Dans Advances in Neural Information Processing Systems, 5050–5060 (2019).
He, K., Fan, H., Wu, Y., Xie, S. & Girshick, R. Momentum contrast for unsupervised visual representation learning. Dans Actes de la conférence IEEE/CVF sur la vision par ordinateur et la reconnaissance de formes, 9729–9738, (2020).
Chen, T., Kornblith, S., Norouzi, M. et Hinton, G. Un cadre simple pour l'apprentissage contrastif des représentations visuelles. Dans Actes de la Conférence internationale sur l'apprentissage automatique, 1597-1607, (2020).
Caron, M., et al. Apprentissage non supervisé des caractéristiques visuelles par des affectations de cluster contrastées. Dans Actes des progrès dans les systèmes de traitement de l'information neuronale (NeurIPS), (2020).
Hadsell, R., Chopra, S. et LeCun, Y. Réduction de la dimensionnalité en apprenant une cartographie invariante. Dans Actes de la conférence IEEE sur la vision par ordinateur et la reconnaissance de formes, 1735–1742, (2006).
Apostolopoulos, ID & Mpesiana, TA Covid-19 : détection automatique à partir d'images radiographiques utilisant l'apprentissage par transfert avec des réseaux de neurones convolutifs. Phys. Ing. Sci. Méd. 43, 635–640 (2020).
Article Google Scholar
Shin, HC et al. Réseaux de neurones convolutionnels profonds pour la détection assistée par ordinateur : architectures CNN, caractéristiques des ensembles de données et apprentissage par transfert. IEEE Trans. Méd. Imagerie 35, 1285–1298 (2016).
Article Google Scholar
Yosinski, J. et al. Dans quelle mesure les fonctionnalités sont-elles transférables dans les réseaux de neurones profonds ? Avancées dans les systèmes de traitement de l'information neuronale 27 (2014).
Kolb, DA Apprentissage expérientiel : l'expérience comme source d'apprentissage et de développement (FT press, 2014).
Huang, G., Liu, Z., Van Der Maaten, L. et Weinberger, KQ Réseaux convolutionnels densément connectés. Dans Actes de la conférence IEEE sur la vision par ordinateur et la reconnaissance de formes, 4700–4708, (2017).
Deng, J., et al. Imagenet : une base de données d'images hiérarchique à grande échelle. Dans Actes de la conférence IEEE sur la vision par ordinateur et la reconnaissance de formes, 248–255, (2009).
Paszke, A. et al. Pytorch : une bibliothèque d'apprentissage en profondeur hautes performances de style impératif. Avancées dans les systèmes de traitement de l'information neuronale 32 (2019).
Loshchilov, I. & Hutter, F. Régularisation de la décroissance du poids découplée. Dans Conférence internationale sur les représentations d'apprentissage, (2019).
Zhou, B., Khosla, A., Lapedriza, A., Oliva, A. et Torralba, A. Apprentissage de caractéristiques profondes pour la localisation discriminative. Dans Actes de la conférence IEEE sur la vision par ordinateur et la reconnaissance de formes, 2921-2929, (2016).
Selvaraju, RR, et al. Grad-CAM : explications visuelles des réseaux profonds via la localisation basée sur les gradients. Dans Actes de la conférence internationale IEEE sur la vision par ordinateur, 618–626, (2017).
Ju, C., Bibaut, A. & van der Laan, M. La performance relative des méthodes d'ensemble avec des réseaux de neurones à convolution profonde pour la classification d'images. J. Appl. Statistique 45, 2800–2818 (2018).
Article MathSciNet Google Scholar
Ahn, J., Cho, S. et Kwak, S. Apprentissage faiblement supervisé de la segmentation d'instance avec des relations inter-pixels. Dans Actes de la conférence IEEE/CVF sur la vision par ordinateur et la reconnaissance de formes, 2209-2218, (2019).
Jo, S. & Yu, IJ Puzzle-CAM : localisation améliorée via la correspondance des fonctionnalités partielles et complètes. Conférence internationale IEEE 2021 sur le traitement d'images, (2021).
Stehman, SV Sélection et interprétation des mesures de précision de la classification thématique. Télédétection Environ. 62, 77–89 (1997).
Annonces d'article Google Scholar
Télécharger les références
Notre recherche fournit une méthode pour faire un usage pratique des ensembles de données ouvertes. Nous apprécions CheXpert, MIMIC et NIH, qui ont déjà consacré beaucoup de temps et d'efforts au partage d'images radiographiques thoraciques. Nous tenons également à remercier Thomas J. Schultz et Eric Michael L'Italien de l'équipe Enterprise Medical Imaging (EMI) et Sehyo Yune, Myeongchan Kim et Jan Sylwester Witowski du département de radiologie du Massachusetts General Hospital pour leur aide à la conservation des données. Et merci à Nvidia et au Center for Clinical Data Science (CCDS) d'avoir rendu le système DGX disponible pour nos recherches.
Ces auteurs ont contribué à parts égales : Doyun Kim, Joowon Chung.
Département de radiologie, Massachusetts General Brigham and Harvard Medical School, Boston, MA, États-Unis
Doyun Kim, Joowon Chung, Jongmun Choi, Marc D. Succi, John Conklin, Maria Gabriela Figueiro Longo, Jeanne B. Ackman, Brent P. Little, Milena Petranovic, Mannudeep K. Kalra, Michael H. Lev & Synho Do
Vous pouvez également rechercher cet auteur dans PubMed Google Scholar
Vous pouvez également rechercher cet auteur dans PubMed Google Scholar
Vous pouvez également rechercher cet auteur dans PubMed Google Scholar
Vous pouvez également rechercher cet auteur dans PubMed Google Scholar
Vous pouvez également rechercher cet auteur dans PubMed Google Scholar
Vous pouvez également rechercher cet auteur dans PubMed Google Scholar
Vous pouvez également rechercher cet auteur dans PubMed Google Scholar
Vous pouvez également rechercher cet auteur dans PubMed Google Scholar
Vous pouvez également rechercher cet auteur dans PubMed Google Scholar
Vous pouvez également rechercher cet auteur dans PubMed Google Scholar
Vous pouvez également rechercher cet auteur dans PubMed Google Scholar
Vous pouvez également rechercher cet auteur dans PubMed Google Scholar
DK, JJ, MHL et SD ont initié et conçu la recherche. Données organisées par DK, JC, JMC et SD. MDS, JC, MGFL, JBA, BPL, MP et MKK ont interprété et annoté les données. DK, JJ, MHL et SD ont analysé les données et les résultats. DK, JJ, JBA, MP, BPL, MHL et SD ont rédigé le manuscrit.
Correspondance au Synho Do.
MHL est consultant pour GE Healthcare et pour les sociétés pharmaceutiques Takeda, Roche et Seagen, et a reçu le soutien de la recherche institutionnelle de Siemens Healthcare. BPL et JBA reçoivent des redevances d'Elsevier, Inc. en tant qu'éditeur et auteur associé de manuels universitaires. SD est un consultant de Doai et a reçu un soutien à la recherche de Tplus et Medibloc. MKK a reçu un soutien à la recherche institutionnelle de Siemens Healthineers, Coreline Inc. et Riverain Tech Inc. JMC a été partiellement soutenu par une subvention du projet coréen de recherche et développement sur les technologies de la santé par l'intermédiaire de l'Institut coréen de développement de l'industrie de la santé (KHIDI) financé par le ministère de la Santé et du Bien-être, République de Corée (HI19C1057). Les autres auteurs ne déclarent aucun intérêt concurrent.
Nature Communications remercie Chang Min Park, Eric Oermann et les autres examinateurs anonymes pour leur contribution à l'examen par les pairs de ce travail. Les rapports des pairs examinateurs sont disponibles.
Note de l'éditeur Springer Nature reste neutre en ce qui concerne les revendications juridictionnelles dans les cartes publiées et les affiliations institutionnelles.
Libre accès Cet article est sous licence Creative Commons Attribution 4.0 International License, qui permet l'utilisation, le partage, l'adaptation, la distribution et la reproduction sur n'importe quel support ou format, tant que vous donnez le crédit approprié à l'auteur ou aux auteurs originaux et à la source, fournissez un lien vers la licence Creative Commons et indiquez si des modifications ont été apportées. Les images ou tout autre matériel tiers dans cet article sont inclus dans la licence Creative Commons de l'article, sauf indication contraire dans une ligne de crédit au matériel. Si le matériel n'est pas inclus dans la licence Creative Commons de l'article et que votre utilisation prévue n'est pas autorisée par la réglementation légale ou dépasse l'utilisation autorisée, vous devrez obtenir l'autorisation directement du détenteur des droits d'auteur. Pour voir une copie de cette licence, visitez http://creativecommons.org/licenses/by/4.0/.
Réimpressions et autorisations
Kim, D., Chung, J., Choi, J. et al. Étiquetage automatique précis des images radiographiques pulmonaires basé sur une similitude quantitative avec un modèle d'IA explicable. Nat Commun 13, 1867 (2022). https://doi.org/10.1038/s41467-022-29437-8
Télécharger la citation
Reçu : 20 août 2021
Accepté : 14 mars 2022
Publié: 06 avril 2022
DOI : https://doi.org/10.1038/s41467-022-29437-8
Toute personne avec qui vous partagez le lien suivant pourra lire ce contenu :
Désolé, aucun lien partageable n'est actuellement disponible pour cet article.
Fourni par l'initiative de partage de contenu Springer Nature SharedIt
BMC Médecine (2023)
Génie biomédical de la nature (2022)
Rapports scientifiques (2022)
En soumettant un commentaire, vous acceptez de respecter nos conditions d'utilisation et nos directives communautaires. Si vous trouvez quelque chose d'abusif ou qui ne respecte pas nos conditions ou directives, veuillez le signaler comme inapproprié.