VinDr

Blog

MaisonMaison / Blog / VinDr

Nov 18, 2023

VinDr

Données scientifiques tome 9,

Données scientifiques volume 9, Numéro d'article : 429 (2022) Citer cet article

8653 Accès

23 Citations

2 Altmétrique

Détails des métriques

La plupart des ensembles de données de radiographie pulmonaire existants incluent des étiquettes d'une liste de résultats sans spécifier leurs emplacements sur les radiographies. Cela limite le développement d'algorithmes d'apprentissage automatique pour la détection et la localisation des anomalies thoraciques. Dans ce travail, nous décrivons un ensemble de données de plus de 100 000 radiographies thoraciques recueillies rétrospectivement dans deux grands hôpitaux du Vietnam. À partir de ces données brutes, nous publions 18 000 images qui ont été annotées manuellement par un total de 17 radiologues expérimentés avec 22 étiquettes locales de rectangles entourant les anomalies et 6 étiquettes globales de maladies suspectées. L'ensemble de données publié est divisé en un ensemble d'apprentissage de 15 000 et un ensemble de test de 3 000. Chaque scan de l'ensemble de formation a été étiqueté indépendamment par 3 radiologues, tandis que chaque scan de l'ensemble de test a été étiqueté par consensus de 5 radiologues. Nous avons conçu et construit une plate-forme d'étiquetage pour les images DICOM afin de faciliter ces procédures d'annotation. Toutes les images sont mises à la disposition du public au format DICOM avec les étiquettes de l'ensemble de formation et de l'ensemble de test.

Des mesures)

maladies et résultats anormaux des radiographies pulmonaires

Type(s) de technologie

L'IA est utilisée pour détecter les maladies et les résultats anormaux

Caractéristique de l'échantillon - Emplacement

Viêt Nam

Les systèmes de diagnostic assisté par ordinateur (CAO) pour les radiographies thoraciques (également appelées radiographie thoracique ou CXR) ont récemment connu un grand succès grâce à la disponibilité de grands ensembles de données étiquetées et aux avancées récentes des algorithmes d'apprentissage supervisé haute performance1,2,3,4,5. Tirant parti des réseaux de neurones à convolution profonde (CNN)6, ces systèmes peuvent atteindre des performances de niveau expert dans la classification des maladies pulmonaires courantes et des résultats connexes. La formation d'un CNN repose fortement sur des ensembles de données d'images annotées de haute qualité. Cependant, il est coûteux et long de construire de tels ensembles de données en raison de plusieurs contraintes : (1) les données médicales sont difficiles à récupérer dans les hôpitaux ou les centres médicaux ; (2) l'annotation manuelle par les médecins coûte cher ; (3) l'annotation d'images médicales nécessite un consensus de plusieurs lecteurs experts pour dépasser les préjugés humains7 ; et (4) il manque un cadre d'étiquetage efficace pour gérer et annoter des ensembles de données médicales à grande échelle.

Les ensembles de données publics notables de CXR incluent ChestX-ray8, ChestX-ray148, Padchest9, CheXpert2 et MIMIC-CXR10. ChestX-ray14, une version étendue de ChestX-ray8, a été publiée par les National Institutes of Health (NIH) des États-Unis, contenant plus de 112 000 scans CXR de plus de 30 000 patients. Sans être annoté manuellement, ce jeu de données pose des problèmes importants liés à la qualité de ses étiquettes11. Padchest se compose de plus de 160 000 images CXR, dont 27% ont été étiquetées à la main par des radiologues avec 174 résultats différents et 19 diagnostics. Le reste de l'ensemble de données a été étiqueté à l'aide d'un outil de traitement du langage naturel (NLP). CheXpert, récemment publié, fournit plus de 200 000 CXR de 65 240 patients, qui ont été étiquetés pour la présence de 14 observations à l'aide d'un étiqueteur automatisé basé sur des règles qui extrait les mots-clés des rapports médicaux. Adoptant le même mécanisme d'étiquetage, MIMIC-CXR contient 377 110 images au format DICOM ainsi que des rapports de radiologie en texte libre. Le tableau 1 fournit un résumé des ensembles de données susmentionnés ainsi que d'autres de taille modérée, notamment JSRT12, Indiana13, MC14 et SH14.

La plupart des ensembles de données CXR existants dépendent d'étiqueteurs automatisés basés sur des règles qui utilisent soit la correspondance des mots clés (par exemple CheXpert2 et les étiqueteurs NIH8) ou un modèle NLP pour extraire les étiquettes de maladie des rapports de radiologie en texte libre. Ces outils peuvent produire des étiquettes à grande échelle mais, en même temps, introduisent un taux élevé d'incohérence, d'incertitude et d'erreurs11,15. Ces étiquettes bruyantes peuvent conduire à la déviation des algorithmes basés sur l'apprentissage profond par rapport aux performances rapportées lorsqu'elles sont évaluées dans un environnement réel16. De plus, les approches basées sur les rapports associent uniquement une image CXR à une ou plusieurs étiquettes dans une liste prédéfinie de résultats et de diagnostics sans identifier leurs emplacements. Il existe quelques ensembles de données CXR qui incluent des emplacements annotés d'anomalies, mais ils sont soit trop petits pour former des modèles d'apprentissage en profondeur (JSRT), soit pas assez détaillés (PadChest). L'interprétation d'un CXR ne se limite pas à la classification au niveau de l'image ; il est encore plus important, du point de vue d'un radiologue, de localiser les anomalies sur l'image. Cela explique en partie pourquoi les applications des systèmes de CAO pour la CXR dans la pratique clinique sont encore très limitées.

Dans le but de fournir un vaste ensemble de données CXR avec des étiquettes de haute qualité pour la communauté de recherche, nous avons construit l'ensemble de données VinDr-CXR à partir de plus de 100 000 images brutes au format DICOM qui ont été recueillies rétrospectivement à l'hôpital 108 (H108) et à l'hôpital universitaire de médecine de Hanoï (HMUH), deux des plus grands hôpitaux du Vietnam. L'ensemble de données publié se compose de 18 000 scans CXR en vue postéro-antérieure (PA) qui accompagnent à la fois la localisation des résultats critiques et la classification des maladies thoraciques courantes. Ces images ont été annotées par un groupe de 17 radiologues ayant au moins 8 ans d'expérience pour la présence de 22 signes critiques (étiquettes locales) et 6 diagnostics (étiquettes globales) ; chaque constatation est localisée avec une boîte englobante. Les étiquettes locales et globales correspondent respectivement aux sections « Conclusions » et « Impressions » d'un rapport de radiologie standard. Nous divisons l'ensemble de données en deux parties : l'ensemble d'apprentissage de 15 000 analyses et l'ensemble de test de 3 000 analyses. Chaque image de l'ensemble d'apprentissage a été étiquetée indépendamment par 3 radiologues, tandis que l'annotation de chaque image de l'ensemble de test a été encore plus soigneusement traitée et obtenue à partir du consensus de 5 radiologues. Le processus d'étiquetage a été effectué via un système interne appelé VinDr Lab17, qui a été construit sur un système d'archivage et de communication d'images (PACS). Toutes les images DICOM et les étiquettes de l'ensemble d'apprentissage et de l'ensemble de test sont publiées. Une version légèrement modifiée de cet ensemble de données a été utilisée pour organiser le défi VinBigData Chest Xray Abnormalities Detection sur la plateforme Kaggle (https://www.kaggle.com/c/vinbigdata-chest-xray-abnormalities-detection/).

VinDr-CXR, à notre connaissance, est actuellement le plus grand ensemble de données CXR public avec des annotations générées par des radiologues dans les ensembles de formation et de test. Nous pensons que l'ensemble de données accélérera le développement et l'évaluation de nouveaux modèles d'apprentissage automatique pour la localisation et la classification des lésions et maladies thoraciques sur les scanners CXR.

La construction de l'ensemble de données VinDr-CXR, tel que visualisé sur la figure 1, est divisée en trois étapes principales : (1) la collecte de données, (2) le filtrage des données et (3) l'étiquetage des données. Entre 2018 et 2020, nous avons collecté rétrospectivement plus de 100 000 CXR au format DICOM à partir des serveurs PACS locaux de deux hôpitaux au Vietnam, HMUH et H108. Les données d'imagerie ont été acquises à partir d'une grande diversité de scanners de fabricants d'équipements médicaux bien connus, notamment Phillips, GE, Fujifilm, Siemens, Toshiba, Canon, Samsung et Carestream. L'autorisation éthique de cette étude a été approuvée par les comités d'examen institutionnels (IRB) du HMUH et du H108 avant le début de l'étude. La nécessité d'obtenir le consentement éclairé du patient a été levée car cette étude rétrospective n'a pas eu d'impact sur les soins cliniques ou le flux de travail dans ces deux hôpitaux et toutes les informations identifiant le patient dans les données ont été supprimées.

Le flux de création de l'ensemble de données VinDr-CXR : (1) des images brutes au format DICOM ont été collectées rétrospectivement à partir du PACS de l'hôpital et ont été anonymisées pour protéger la vie privée du patient ; (2) les fichiers invalides, tels que les images d'autres modalités, d'autres parties du corps, de mauvaise qualité ou d'orientation incorrecte, ont été automatiquement filtrés par un classificateur basé sur CNN ; (3) Un outil d'étiquetage basé sur le Web, VinDr Lab, a été développé pour stocker, gérer et annoter à distance les données DICOM : chaque image de l'ensemble de formation de 15 000 images a été étiquetée indépendamment par un groupe de 3 radiologues et chaque image de l'ensemble de test de 3 000 images a été étiquetée par consensus de 5 radiologues.

Pour protéger la vie privée du patient18, toutes les informations personnellement identifiables associées aux images ont été supprimées ou remplacées par des valeurs aléatoires. Plus précisément, nous avons exécuté un script Python qui supprime toutes les balises DICOM des informations de santé protégées (PHI)19 telles que : le nom du patient, la date de naissance du patient, l'ID du patient ou l'heure et la date d'acquisition, etc. Nous n'avons retenu qu'un nombre limité d'attributs DICOM nécessaires au traitement des images brutes. La liste complète des attributs retenus est présentée dans le tableau 1 (matériel complémentaire). Ensuite, un algorithme simple a été mis en œuvre pour supprimer automatiquement les informations textuelles apparaissant sur les données d'image (c'est-à-dire les annotations de pixels pouvant inclure des informations identifiables sur le patient). Les images résultantes ont ensuite été vérifiées manuellement pour s'assurer que tous les textes ont été supprimés avant qu'ils ne soient envoyés numériquement des systèmes des hôpitaux.

Les données brutes collectées concernaient principalement des CXR à vue PA pour adultes, mais comprenaient également une quantité importante de valeurs aberrantes telles que des images de parties du corps autres que la poitrine (en raison de balises DICOM incompatibles), des scans pédiatriques, des images de mauvaise qualité ou des CXR latéraux. Des exemples de ces images sont présentés à la Fig. 2. Toutes les valeurs aberrantes ont été automatiquement exclues de l'ensemble de données à l'aide d'un classificateur binaire, qui est un réseau neuronal convolutionnel léger (CNN). La procédure de formation de ce classifieur sort du cadre de cet article.

Exemples de scans CXR valides (gauche) et invalides (droite). Un classificateur basé sur CNN a été formé et utilisé pour filtrer automatiquement les valeurs aberrantes ; seuls les CXR AP-view valides d'adultes ont été retenus pour l'étiquetage.

L'ensemble de données VinDr-CXR a été étiqueté pour un total de 28 résultats et diagnostics chez les adultes : (1) élargissement de l'aorte, (2) atélectasie, (3) cardiomégalie, (4) calcification, (5) fracture de la clavicule, (6) consolidation, (7) œdème, (8) emphysème, (9) hypertrophie de l'AP, (10) maladie pulmonaire interstitielle (ILD), (11) infiltration, (12) Cavité pulmonaire, (13) Kyste pulmonaire, (14) Opacité pulmonaire, (15) Décalage médiastinal, (16) Nodule/masse, (17) Fibrose pulmonaire, (18) Pneumothorax, (19) Épaississement pleural, (20) Épanchement pleural, (21) Fracture costale, (22) Autre lésion, (23) Tumeur pulmonaire, (24) Pneumonie, (25) Tubercule osis, (26) Autres maladies, (27) Maladie pulmonaire obstructive chronique (MPOC) et (28) Aucune découverte. Ces labels ont été divisés en 2 catégories : les labels locaux (1-22) et les labels mondiaux (23-28). Les étiquettes locales doivent être marquées par des cadres de délimitation qui localisent les résultats, tandis que les étiquettes globales doivent refléter l'impression diagnostique du radiologue. La définition de chaque étiquette est détaillée dans le tableau 2 (matériel complémentaire). Cette liste d'étiquettes a été proposée par un comité des radiologues les plus expérimentés des deux hôpitaux. La sélection de ces étiquettes a pris en compte deux facteurs : premièrement, elles sont répandues et deuxièmement, elles peuvent être différenciées sur les CXR. La figure 3 illustre plusieurs échantillons avec des étiquettes locales et globales annotées par des radiologues.

Exemples de CXR avec les annotations du radiologue. Les résultats anormaux (étiquettes locales) marqués par les radiologues sont tracés sur les images originales à des fins de visualisation. Les étiquettes globales sont en gras et répertoriées au bas de chaque exemple. Mieux vu sur un ordinateur et zoomé pour plus de détails.

Pour faciliter le processus d'étiquetage, nous avons conçu et construit un cadre basé sur le Web appelé VinDr Lab et une équipe de 17 radiologues expérimentés a annoté les données à distance. Tous les radiologues participant au processus de labellisation étaient certifiés en radiodiagnostic et ont reçu des certificats de profession de santé du ministère de la santé vietnamien. Un ensemble de 18 000 CXR ont été choisis au hasard à partir des données filtrées, dont 15 000 scans (normaux : 10 606 études, anormaux : 4 394 études) servent d'ensemble d'apprentissage et les 3 000 restants (normaux : 2 052 études, anormaux : 948 études) forment l'ensemble de test. Chaque échantillon de l'ensemble d'apprentissage a été attribué à 3 radiologues pour une annotation en aveugle. De plus, tous les radiologues participants ont été aveuglés aux informations cliniques pertinentes. Pour l'ensemble de test, 5 radiologues ont été impliqués dans un processus de marquage en deux étapes. Lors de la première étape, chaque image a été annotée indépendamment par 3 radiologues. Dans la deuxième étape, 2 autres radiologues, qui ont un niveau d'expérience plus élevé, ont revu les annotations des 3 annotateurs précédents et ont communiqué entre eux afin de décider des étiquettes finales. Les désaccords entre les annotateurs initiaux, comme le montre la Fig. 3 (matériel supplémentaire), ont été soigneusement discutés et résolus par les 2 examinateurs. Enfin, le consensus de leurs opinions servira de référence-vérité-terrain.

Une fois l'étiquetage terminé, les étiquettes de 18 000 CXR ont été exportées au format JavaScript Object Notation (JSON). Nous avons ensuite analysé leur contenu et organisé les annotations sous la forme d'un seul fichier de valeurs séparées par des virgules (CSV). En conséquence, nous avons fourni un seul fichier CSV contenant les étiquettes, les coordonnées de la boîte englobante et leurs ID d'image correspondants. Pour l'ensemble de formation, chaque échantillon est accompagné des annotations de trois radiologues différents. Pour l'ensemble de test, nous fournissons uniquement les étiquettes de consensus des cinq radiologues. Les caractéristiques des données, y compris les données démographiques des patients et la prévalence de chaque découverte ou pathologie, sont résumées dans le tableau 2. La distribution de toutes les étiquettes dans l'ensemble d'apprentissage est illustrée à la Fig. 4. Nous avons publié toutes les images avec les étiquettes de l'ensemble d'apprentissage et de l'ensemble de test.

Répartition des résultats et des pathologies sur l'ensemble d'entraînement de VinDr-CXR.

L'ensemble de données VinDr-CXR a été soumis à PhysioNet pour téléchargement public20. Nous fournissons toutes les données d'imagerie et les étiquettes de vérité terrain correspondantes pour les ensembles d'entraînement et de test. Les images ont été organisées en deux dossiers, l'un pour la formation et l'autre pour les tests. Chaque image possède un identifiant unique et anonyme qui a été codé à partir de la valeur de l'UID de l'instance SOP fournie par la balise DICOM (0008,0018). Le processus d'encodage était pris en charge par le module Python hashlib (voir [sec:code]Code Availability). Les annotations locales des radiologues de l'ensemble de formation ont été fournies dans un fichier CSV, annotations_train.csv. Chaque ligne du tableau représente une boîte englobante avec les attributs suivants : ID de l'image (image_id), ID du radiologue (rad_id), nom de l'étiquette (class_name) et coordonnées de la boîte englobante (x_min, y_min, x_max, y_max). Ici, rad_id encode les identités des 17 radiologues, (x_min, y_min) sont les coordonnées du coin supérieur gauche de la boîte et (x_max, y_max) sont les coordonnées du coin inférieur droit. Pendant ce temps, les étiquettes au niveau de l'image de l'ensemble de formation ont été stockées dans un fichier CSV différent, image_labels_train.csv, avec les champs suivants : ID d'image (image_id), ID de radiologue (rad_ID) et étiquettes (étiquettes) pour les résultats et les diagnostics. Plus précisément, chaque identifiant d'image est associé à un vecteur de plusieurs étiquettes correspondant à différentes pathologies, dans lesquelles les positives étaient codées par "1" et les négatives étaient codées par "0". De même, les annotations de la boîte englobante et les étiquettes au niveau de l'image de l'ensemble de test ont été enregistrées dans annotations_test.csv et image_labels_test.csv, respectivement. La seule différence est que chaque ligne des fichiers CSV de l'ensemble de test n'était pas associée à un identifiant de radiologue.

L'anonymisation des données a été contrôlée. En particulier, toutes les métadonnées DICOM ont été analysées et examinées manuellement pour s'assurer que toutes les informations de santé identifiables individuellement des patients ont été supprimées afin de respecter la loi américaine HIPAA (https://www.hhs.gov/hipaa/for-professionals/privacy/laws-regulations/index.html), le RGPD européen (https://gdpr-info.eu/), ainsi que les lois locales sur la confidentialité. Les valeurs de pixels de tous les scans CXR ont également été soigneusement examinées. Toutes les images ont été examinées manuellement au cas par cas par une équipe de 10 lecteurs humains. Au cours de ce processus d'examen, un petit nombre d'images contenant des informations textuelles privées qui n'avaient pas été supprimées par notre algorithme ont été exclues de l'ensemble de données. Le processus d'examen manuel a également permis d'identifier et d'éliminer les échantillons aberrants que le classificateur basé sur CNN n'a pas été en mesure de détecter. Pour contrôler la qualité du processus d'étiquetage, nous avons développé un ensemble de règles sous-jacentes à VinDr Lab pour la vérification automatique des étiquettes générées par les radiologues. Ces règles empêchent les annotateurs de faire des erreurs mécaniques comme oublier de choisir des étiquettes globales ou marquer des lésions sur l'image tout en choisissant "Aucune découverte" comme étiquette globale. Pour assurer l'aveuglement complet entre les annotateurs, les images ont été mélangées au hasard avant d'être attribuées à chacun d'eux.

Pour télécharger l'ensemble de données, les utilisateurs doivent accepter un accord d'utilisation de la date (DUA) appelé PhysioNet Credentialed Health Data License 1.5.0 (https://physionet.org/content/vindr-cxr/view-license/1.0.0/). En acceptant le DUA, les utilisateurs conviennent qu'ils ne partageront pas les données et que l'ensemble de données ne peut être utilisé qu'à des fins de recherche scientifique et d'enseignement et qu'ils ne tenteront pas de réidentifier les patients, les institutions ou les hôpitaux. Pour toute publication qui explore cette ressource, les auteurs doivent citer cet article original. Nous encourageons également ces auteurs à publier leur code et leurs modèles, ce qui aidera la communauté à reproduire des expériences et à dynamiser la recherche dans le domaine de l'imagerie médicale.

Le code utilisé pour charger et traiter les images DICOM est basé sur les référentiels open source suivants : Python 3.7.0 (https://www.python.org/) ; Pydicom 1.2.0 (https://pydicom.github.io/) ; OpenCV-Python 4.2.0.34 (https://pypi.org/project/opencv-python/) ; et Python hashlib (https://docs.python.org/3/library/hashlib.html). Le code pour l'anonymisation des données et la détection des valeurs aberrantes a été rendu public sur https://github.com/vinbigdata-medical/vindr-cxr.

Rajpurkar, P. et al. Apprentissage en profondeur pour le diagnostic des radiographies thoraciques : comparaison rétrospective de l'algorithme CheXNeXt avec les radiologues en exercice. PLoS Medicine 15, e1002686, https://doi.org/10.1371/journal.pmed.1002686 (2018).

Article PubMed PubMed Central Google Scholar

Irvin, J. et al. CheXpert : un grand ensemble de données de radiographies thoraciques avec des étiquettes d'incertitude et une comparaison d'experts. Dans Actes de la conférence AAAI sur l'intelligence artificielle 33, 590–597 (2019).

Article Google Scholar

Majkowska, A. et al. Interprétation des radiographies thoraciques avec des modèles d'apprentissage en profondeur : évaluation avec des normes de référence jugées par le radiologue et une évaluation ajustée à la population. Radiologie 294, 421–431, https://doi.org/10.1148/radiol.2019191293 (2020).

Article PubMed Google Scholar

Tang, Y.-X. et coll. Classification automatisée des anomalies des radiographies thoraciques à l'aide de réseaux de neurones à convolution profonde. npj Médecine numérique 3, 1–8, https://doi.org/10.1038/s41746-020-0273-z (2020).

Article Google Scholar

Pham, HH, Le, TT, Tran, DQ, Ngo, DT & Nguyen, HQ Interprétation des radiographies pulmonaires via des cnns qui exploitent les dépendances hiérarchiques des maladies et les étiquettes d'incertitude. Neuroinformatique 437, 186–194 (2021).

Article Google Scholar

LeCun, Y., Bengio, Y. & Hinton, G. Apprentissage en profondeur. Nature 512, 436–444, https://doi.org/10.1038/nature14539 (2015).

Article ADS CAS Google Scholar

Razzak, MI, Naz, S. & Zaib, A. Apprentissage en profondeur pour le traitement d'images médicales : aperçu, défis et avenir. Dans Classification dans BioApps, 323–350, https://doi.org/10.1007/978-3-319-65981-7_12 (Springer, 2018).

Wang, X. et al. ChestX-ray8 : Base de données de radiographie pulmonaire à l'échelle hospitalière et références sur la classification et la localisation faiblement supervisées des maladies courantes du thorax. Dans Actes de la conférence IEEE sur la vision par ordinateur et la reconnaissance de formes (CVPR), 2097-2106, https://doi.org/10.1109/CVPR.2017.369 (2017).

Bustos, A., Pertusa, A., Salinas, J.-M. & de la Iglesia-Vayá, M. Padchest : un grand ensemble de données d'images de radiographie pulmonaire avec des rapports annotés multi-étiquettes. Analyse d'images médicales 66, 101797 (2020).

Article Google Scholar

Johnson, AE et al. MIMIC-CXR, une base de données anonymisée accessible au public de radiographies thoraciques avec des rapports en texte libre. Données scientifiques 6, 317, https://doi.org/10.1038/s41597-019-0322-0 (2019).

Article PubMed PubMed Central Google Scholar

Oakden-Rayner, L. Exploration de l'ensemble de données ChestXray14 : problèmes. https://lukeoakdenrayner.wordpress.com/2017/12/18/the-chestxray14-dataset-problems/ (2017). (En ligne ; consulté le 4 mai 2020).

Shiraishi, J. et al. Développement d'une base de données d'images numériques pour les radiographies thoraciques avec et sans nodule pulmonaire : analyse des caractéristiques de fonctionnement du récepteur de la détection des nodules pulmonaires par les radiologues. American Journal of Roentgenology 174, 71–74, https://doi.org/10.2214/ajr.174.1.1740071 (2000).

Article CAS PubMed Google Scholar

Demner-Fushman, D. et al. Préparation d'une collection d'examens radiologiques pour distribution et récupération. Journal de l'American Medical Informatics Association 23, 304–310, https://doi.org/10.1093/jamia/ocv080 (2016).

Article PubMed Google Scholar

Jaeger, S. et al. Deux ensembles de données publics de radiographie pulmonaire pour le dépistage assisté par ordinateur des maladies pulmonaires. Imagerie quantitative en médecine et chirurgie 4, 475–477 https://doi.org/10.3978/j.issn.2223-4292.2014.11.20 (2014).

PubMed PubMed Central Google Scholar

Oakden-Rayner, L. Exploration d'ensembles de données d'images médicales publiques à grande échelle. Radiologie académique 27, 106-112, https://doi.org/10.1016/j.acra.2019.10.006. Numéro spécial : Intelligence artificielle (2020).

Nagendran, M. et al. Intelligence artificielle contre cliniciens : examen systématique de la conception, des normes de rapport et des revendications des études d'apprentissage en profondeur. BMJ 368, https://doi.org/10.1136/bmj.m689 (2020).

Nguyen, NT et al. VinDr Lab : Une plateforme de données pour l'IA médicale. https://github.com/vinbigdata-medical/vindr-lab (2021).

Assemblée nationale vietnamienne. Règlement 40/2009/QH12 (Loi sur l'examen médical et le traitement). http://vbpl.vn/hanoi/Pages/vbpqen-toanvan.aspx?ItemID=10482. (En ligne ; consulté le 11 décembre 2020) (2009).

Isola, S. & Al Khalili, Y. Informations de santé protégées (PHI). https://www.ncbi.nlm.nih.gov/books/NBK553131/ (2019).

Nguyen, HQ, Pham, HH, Le, LT, Dao, M. & Lam, K. VinDr-CXR : Un ensemble de données ouvert de radiographies pulmonaires avec des annotations de radiologue. PhysioNet https://doi.org/10.13026/3akn-b287 (2021).

Télécharger les références

Les auteurs tiennent à remercier l'hôpital universitaire de médecine de Hanoï et l'hôpital 108 de nous avoir fourni l'accès à leurs bases de données d'images et d'avoir accepté de rendre l'ensemble de données VinDr-CXR accessible au public. Nous sommes particulièrement reconnaissants à tous nos collaborateurs, y compris les radiologues, les médecins et les techniciens, qui ont participé au processus de collecte et d'étiquetage des données.

Ces auteurs ont contribué à parts égales : Ha Q. Nguyen, Khanh Lam, Linh T. Le.

Ces auteurs ont contribué à parts égales : Dung D. Le, Chi M. Pham, Hang TT Tong, Diep H. Dinh, Cuong D. Do, Luu T. Doan, Cuong N. Nguyen, Binh T. Nguyen, Que V. Nguyen, Au D. Hoang, Hien N. Phan, Anh T. Nguyen, Phuong H. Ho.

Vingroup Big Data Institute, Hanoï, Vietnam

Ha Q. Nguyen, Hieu H. Pham, Dat Q. Tran, Dung B. Nguyen, Minh Dao & Van Vu

Centre de santé intelligent, VinBigData JSC, Hanoï, Vietnam

Ha Q. Nguyen, Hieu H. Pham, Dat T. Ngo, Nghia T. Nguyen & Nhan T. Nguyen

Hôpital 108, Département de radiologie, Hanoï, Vietnam

Khanh Lam, Dung D. Le, Chi M. Pham, Hang TT Tong, Diep H. Dinh & Cuong D. Do

Hôpital universitaire de médecine de Hanoï, Département de radiologie, Hanoï, Vietnam

Linh T. Le, Luu T. Doan, Cuong N. Nguyen, Binh T. Nguyen, Que V. Nguyen, Au D. Hoang, Hien N. Phan et Anh T. Nguyen

Collège d'ingénierie et d'informatique, Université Vin, Hanoï, Vietnam

Hieu H. Pham

VinUni-Illinois Smart Health Center, VinUniversity, Hanoï, Vietnam

Hieu H. Pham

Hôpital général de Tam Anh, Département de radiologie, Hô-Chi-Minh-Ville, Vietnam

Phuong H. Hoa

Université de Yale, Département de mathématiques, New Heaven, CT, 06511, États-Unis

De Vu

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

HQN, KL et LL ont conçu l'étude; HQN, Nghia T. Nguyen, MD et VV ont conçu le cadre d'étiquetage ; HHP et DBN ont procédé à l'anonymisation des données ; HHP a développé l'algorithme de filtrage des valeurs aberrantes ; DT, DBN, DTN et Nhan T. Nguyen ont réalisé l'acquisition et l'analyse des données ; KL, LL, DL, CP, HT, DD, CD, LD, CN, BN, QN, AH, HNP, AN et PH ont annoté les données et fait des commentaires pour améliorer les outils d'étiquetage ; HQN et HHP ont rédigé l'article ; tous les auteurs ont examiné le manuscrit.

Correspondance à Hieu H. Pham.

Ce travail a été financé par le Vingroup JSC. Le bailleur de fonds n'a joué aucun rôle dans la conception de l'étude, la collecte et l'analyse des données, la décision de publier ou la préparation du manuscrit.

Note de l'éditeur Springer Nature reste neutre en ce qui concerne les revendications juridictionnelles dans les cartes publiées et les affiliations institutionnelles.

Libre accès Cet article est sous licence Creative Commons Attribution 4.0 International License, qui permet l'utilisation, le partage, l'adaptation, la distribution et la reproduction sur n'importe quel support ou format, tant que vous donnez le crédit approprié à l'auteur ou aux auteurs originaux et à la source, fournissez un lien vers la licence Creative Commons et indiquez si des modifications ont été apportées. Les images ou tout autre matériel tiers dans cet article sont inclus dans la licence Creative Commons de l'article, sauf indication contraire dans une ligne de crédit au matériel. Si le matériel n'est pas inclus dans la licence Creative Commons de l'article et que votre utilisation prévue n'est pas autorisée par la réglementation légale ou dépasse l'utilisation autorisée, vous devrez obtenir l'autorisation directement du détenteur des droits d'auteur. Pour voir une copie de cette licence, visitez http://creativecommons.org/licenses/by/4.0/.

Réimpressions et autorisations

Nguyen, HQ, Lam, K., Le, LT et al. VinDr-CXR : un ensemble de données ouvert de radiographies pulmonaires avec les annotations du radiologue. Sci Data 9, 429 (2022). https://doi.org/10.1038/s41597-022-01498-w

Télécharger la citation

Reçu : 04 août 2021

Accepté : 23 juin 2022

Publié: 20 juillet 2022

DOI : https://doi.org/10.1038/s41597-022-01498-w

Toute personne avec qui vous partagez le lien suivant pourra lire ce contenu :

Désolé, aucun lien partageable n'est actuellement disponible pour cet article.

Fourni par l'initiative de partage de contenu Springer Nature SharedIt

Rapports scientifiques (2023)

Données scientifiques (2023)

SN Informatique (2023)

Intelligence artificielle de la nature (2022)