Méthodes d'apprentissage automatique pour les biomarqueurs radiomiques quantitatifs

Nouvelles

MaisonMaison / Nouvelles / Méthodes d'apprentissage automatique pour les biomarqueurs radiomiques quantitatifs

Oct 13, 2023

Méthodes d'apprentissage automatique pour les biomarqueurs radiomiques quantitatifs

Rapports scientifiques tome 5,

Rapports scientifiques volume 5, Numéro d'article : 13087 (2015) Citer cet article

34 000 accès

600 Citations

16 Altmétrique

Détails des métriques

La radiomique extrait et exploite un grand nombre de caractéristiques d'imagerie médicale quantifiant les caractéristiques phénotypiques des tumeurs. Des approches d'apprentissage automatique extrêmement précises et fiables peuvent contribuer au succès des applications radiomiques dans les soins cliniques. Dans cette étude radiomique, quatorze méthodes de sélection de caractéristiques et douze méthodes de classification ont été examinées en termes de performance et de stabilité pour prédire la survie globale. Un total de 440 caractéristiques radiomiques ont été extraites des images de tomodensitométrie (TDM) de prétraitement de 464 patients atteints d'un cancer du poumon. Pour garantir l'évaluation impartiale des différentes méthodes d'apprentissage automatique, des implémentations accessibles au public ainsi que des configurations de paramètres signalées ont été utilisées. De plus, nous avons utilisé deux cohortes radiomiques indépendantes pour la formation (n = 310 patients) et la validation (n = 154 patients). Nous avons identifié que la méthode de sélection des caractéristiques basée sur le test de Wilcoxon WLCX (stabilité = 0,84 ± 0,05, AUC = 0,65 ± 0,02) et une méthode de classification RF de forêt aléatoire (RSD = 3,52 %, AUC = 0,66 ± 0,03) avaient les performances pronostiques les plus élevées avec une stabilité élevée contre la perturbation des données. Notre analyse de la variabilité a indiqué que le choix de la méthode de classification est la principale source de variation de la performance (34,21 % de la variance totale). L'identification de méthodes optimales d'apprentissage automatique pour les applications radiomiques est une étape cruciale vers des biomarqueurs radiomiques stables et cliniquement pertinents, fournissant un moyen non invasif de quantifier et de surveiller les caractéristiques phénotypiques tumorales dans la pratique clinique.

« L'oncologie de précision » fait référence à la personnalisation des soins contre le cancer, où les pratiques et/ou les thérapies sont adaptées aux patients individuels. Un tel processus de personnalisation peut maximiser le succès des interventions préventives et thérapeutiques avec un minimum d'effets secondaires. La plupart des recherches liées à l'oncologie de précision se sont concentrées sur la caractérisation moléculaire des tumeurs à l'aide d'approches basées sur la génomique, qui nécessitent une extraction des tissus par des biopsies tumorales. Bien que plusieurs approches basées sur la génomique aient été appliquées avec succès en oncologie clinique1, il existe des limites inhérentes aux tests basés sur la biopsie. Les tumeurs sont spatialement et temporellement hétérogènes et des biopsies tumorales répétées, qui augmentent le risque pour un patient, sont souvent nécessaires pour capturer l'hétérogénéité moléculaire des tumeurs. Ces défis éthiques et cliniques liés aux tests basés sur la biopsie peuvent être résolus par l'imagerie médicale, qui est une pratique courante pour le diagnostic et la stadification du cancer en oncologie clinique. Contrairement aux biopsies, l'imagerie médicale est non invasive et peut fournir des informations sur l'ensemble du phénotype tumoral, y compris l'hétérogénéité intra-tumorale. En outre, les progrès récents dans les machines d'acquisition d'images à haute résolution et le matériel de calcul permettent la quantification détaillée et efficace des caractéristiques phénotypiques de la tumeur. Par conséquent, l'imagerie médicale offre des opportunités sans précédent pour l'oncologie de précision.

La « radiomique », domaine émergent et prometteur, émet l'hypothèse que l'imagerie médicale fournit des informations cruciales sur la physiologie tumorale, qui pourraient être exploitées pour améliorer le diagnostic du cancer2. Il fournit une quantification complète des phénotypes tumoraux en extrayant et en extrayant un grand nombre de caractéristiques d'imagerie quantitatives3. Plusieurs études ont étudié diverses caractéristiques radiomiques en termes de leurs capacités pronostiques ou prédictives et de leur fiabilité dans différents contextes cliniques4,5,6,7,8,9,10. Différentes études ont montré les capacités discriminantes des caractéristiques radiomiques pour la stratification de l'histologie tumorale6, des grades ou stades tumoraux11 et des résultats cliniques8,12,13. De plus, certaines études ont rapporté l'association entre les caractéristiques radiomiques et les modèles d'expression génique sous-jacents8,14,15.

L'"apprentissage automatique" peut être défini au sens large comme des méthodes/modèles informatiques utilisant l'expérience (données) pour améliorer les performances ou faire des prédictions précises16. Ces méthodes de calcul programmables sont capables "d'apprendre" à partir des données et peuvent donc automatiser et améliorer le processus de prédiction. Les modèles prédictifs et pronostiques d'une grande précision, fiabilité et efficacité sont des facteurs essentiels au succès de la radiomique. Par conséquent, il est essentiel de comparer différents modèles d'apprentissage automatique pour les biomarqueurs cliniques basés sur la radiomique. Comme tout domaine d'exploration de données à haut débit, la radiomique est également à la base de la malédiction de la dimensionnalité17, qui devrait être traitée par des stratégies de sélection de caractéristiques appropriées. De plus, la sélection des fonctionnalités aide également à réduire le surajustement des modèles (augmentant la généralisabilité). Ainsi, afin de réduire la dimensionnalité de l'espace des caractéristiques radiomiques et d'améliorer les performances des modèles prédictifs basés sur la radiomique, différentes méthodes de sélection des caractéristiques18 doivent être étudiées en profondeur. Cependant, la radiomique étant un domaine de recherche émergent, la plupart des études publiées n'ont évalué que les capacités prédictives des caractéristiques radiomiques sans mettre l'accent sur la comparaison des différentes méthodes de sélection des caractéristiques et de modélisation prédictive. Seules quelques études récentes ont étudié l'effet de différentes méthodes de sélection de caractéristiques et de classification d'apprentissage automatique sur les prédictions cliniques basées sur la radiomique19,20, mais avec des tailles d'échantillon limitées. De plus, ces études manquaient de validation indépendante des résultats, ce qui peut limiter la généralisation de leurs conclusions.

Dans cette étude, nous avons étudié un large éventail d'approches d'apprentissage automatique pour la prédiction de survie basée sur la radiomique. Nous avons évalué 14 méthodes de sélection de caractéristiques et 12 méthodes de classification en termes de performance prédictive et de stabilité face à la perturbation des données. Ces méthodes ont été choisies en raison de leur popularité dans la littérature. En outre, des implémentations accessibles au public ainsi que des configurations de paramètres signalées ont été utilisées dans l'analyse, ce qui a assuré une évaluation impartiale de ces méthodes. Deux cohortes indépendantes de cancer du poumon ont été utilisées pour la formation et la validation, avec au total des données d'image et de résultats cliniques de 464 patients. La sélection des caractéristiques et la modélisation prédictive sont considérées comme les éléments de base importants pour la radiomique à haut débit pilotée par les données. Par conséquent, notre enquête pourrait aider à identifier des approches optimales d'apprentissage automatique pour les études prédictives basées sur la radiomique, ce qui pourrait améliorer les applications de la radiomique non invasive et rentable en oncologie clinique.

Un total de 440 éléments radiomiques ont été utilisés dans l'analyse. Ces caractéristiques radiomiques ont quantifié les caractéristiques phénotypiques de la tumeur sur les images CT et sont divisées en quatre groupes de caractéristiques : I) l'intensité de la tumeur, II) la forme, III) la texture et IV) les caractéristiques des ondelettes. Les caractéristiques basées sur l'intensité de la tumeur ont estimé les statistiques de premier ordre de l'histogramme d'intensité, tandis que les caractéristiques de forme décrivaient les propriétés géométriques 3D de la tumeur. Les caractéristiques texturales, dérivées des matrices de cooccurrence de niveau de gris (GLCM)21 et de longueur de plage (GLRLM)22, quantifiaient l'hétérogénéité intra-tumorale. Ces caractéristiques texturales ont été calculées en faisant la moyenne de leurs valeurs dans les treize directions. Les caractéristiques d'ondelettes sont les représentations de domaine transformées des caractéristiques d'intensité et de texture. Ces caractéristiques ont été calculées sur différentes décompositions en ondelettes de l'image originale à l'aide d'une transformation en ondelettes coiflet. Matlab R2012b (The Mathworks, Natick, MA) a été utilisé pour l'analyse d'image. Les caractéristiques radiomiques ont été automatiquement extraites par notre logiciel d'analyse d'images radiomiques développé en interne, qui utilise une version adaptée de CERR (Computational Environment for Radiotherapy Research)23 et Matlab pour le prétraitement des images médicales. Les définitions mathématiques de toutes les caractéristiques radiomiques, ainsi que les méthodes d'extraction, ont été décrites précédemment8.

Dans cette étude, nous avons utilisé deux cohortes NSCLC des deux instituts différents des Pays-Bas : (1) Lung1 : 422 patients NSCLC traités à la clinique MAASTRO à Maastricht. (2) Poumon2 : 225 patients atteints de NSCLC traités au Radboud University Medical Center à Nimègue. Les tomodensitogrammes, les délimitations manuelles et les données cliniques étaient disponibles pour tous les patients inclus. Plus de détails sur les ensembles de données inclus sont décrits dans le Supplément-A. Nous avons dichotomisé les données de survie continue censurées en utilisant un temps limite de 2 ans. Les patients qui ont vécu au-delà de l'heure limite ont été étiquetés comme 1, tandis que ceux décédés ont été étiquetés comme 0. L'objectif de l'étude était de stratifier les patients dans ces deux classes de survie étiquetées. Deux ans sont considérés comme une durée de survie pertinente pour les patients atteints de NSCLC et plusieurs autres études ont conçu leurs modèles de prédiction en utilisant un seuil de survie de 2 ans24,25,26. Nous avons exclu les patients suivis moins de 2 ans. Il en est résulté 310 patients dans la cohorte de formation (Lung1) et 154 patients dans la cohorte de validation (Lung2). Toutes les caractéristiques ont été normalisées à l'aide de la normalisation Z-score.

Quatorze méthodes de sélection de caractéristiques basées sur des approches de filtrage ont été utilisées dans l'analyse (score de Fisher (FSCR), relief (RELF), score T (TSCR), chi carré (CHSQ), Wilcoxon (WLCX), indice de Gini (GINI), maximisation de l'information mutuelle (MIM), sélection de caractéristiques d'information mutuelle (MIFS), pertinence maximale de la redondance minimale (MRMR), extraction de caractéristiques conditionnelles infomax (CIFE), information mutuelle conjointe (JMI), maximisation de l'information mutuelle conditionnelle (CMIM), plafonnement des interactions (ICA) P), Pertinence symétrique à double entrée (DISR)). Afin d'améliorer la lisibilité de ce manuscrit, nous avons défini tous les acronymes liés aux méthodes de sélection de caractéristiques dans le tableau 1. Nous avons choisi ces méthodes principalement en raison de leur popularité dans la littérature, de leur simplicité et de leur efficacité de calcul. De plus, des implémentations accessibles au public étaient facilement disponibles pour ces méthodes27,28, ce qui augmente leur réutilisabilité. Les méthodes de filtrage sont des méthodes de classement des fonctionnalités, qui classent les fonctionnalités à l'aide d'un critère de notation. Toutes les méthodes de sélection de caractéristiques basées sur des filtres peuvent être divisées en deux catégories : les méthodes univariées et les méthodes multivariées. Dans le cas des méthodes univariées, le critère de notation dépend uniquement de la pertinence des caractéristiques en ignorant la redondance des caractéristiques, tandis que les méthodes multivariées étudient l'interaction multivariée au sein des caractéristiques et le critère de notation est une somme pondérée de la pertinence et de la redondance des caractéristiques. La pertinence des fonctionnalités est une mesure de l'association de la fonctionnalité avec la variable cible/résultat, tandis que la redondance des fonctionnalités est la quantité de redondance présente dans une fonctionnalité particulière par rapport à l'ensemble des fonctionnalités déjà sélectionnées. Une description plus détaillée de la formulation théorique du problème de sélection de caractéristiques et de chacune des méthodes de sélection de caractéristiques utilisées peut être obtenue à partir du Supplément-B en ligne.

En apprentissage automatique, la classification est considérée comme une tâche d'apprentissage supervisé consistant à inférer une fonction à partir de données d'apprentissage étiquetées16. Les données d'apprentissage consistent en un ensemble d'exemples, où chaque exemple est représenté comme une paire d'un vecteur d'entrée (caractéristiques) et d'une valeur de sortie souhaitée (cible ou étiquette de catégorie). L'algorithme de classification (classificateur) analyse les données d'apprentissage et en déduit une hypothèse (fonction), qui peut être utilisée pour prédire les étiquettes d'observations invisibles. De nombreux classificateurs appartenant à différents domaines de l'informatique et des statistiques ont été proposés dans la littérature sur l'apprentissage automatique29. Dans notre étude, nous avons utilisé 12 classificateurs d'apprentissage automatique issus de 12 familles de classificateurs (Bagging (BAG), Bayésien (BY), Boosting (BST), Arbres de décision (DT), Analyse discriminante (DA), Modèles linéaires généralisés (GLM), Splines de régression adaptative multiple (MARS), Plus proches voisins (NN), Réseaux de neurones (Nnet), Régression des moindres carrés partiels et en composantes principales (PLSR), Forêts aléatoires (RF) et Machines à vecteurs de support (SVM)). Les acronymes liés aux classificateurs sont définis dans le tableau 1. Tous les classificateurs ont été implémentés à l'aide du package R caret30, qui fournit une interface agréable pour accéder à de nombreux algorithmes d'apprentissage automatique dans R. En outre, il fournit également un cadre convivial pour la formation de différents modèles d'apprentissage automatique. Les classificateurs ont été formés à l'aide de la validation croisée répétée (3 itérations répétées) de la cohorte d'entraînement (Lung1) et leur performance prédictive a été évaluée dans la cohorte de validation (Lung2) à l'aide de l'aire sous la courbe ROC (AUC). Nous avons utilisé des configurations de paramètres précédemment définies par Fernandez-Delgado et al.31 dans une étude comparative complète de 179 classificateurs et 121 ensembles de données différents. Nous avons répertorié les méthodes de classification ainsi que leurs paramètres et les packages R correspondants dans Supplémentaire-C en ligne.

Afin d'étudier et de comparer différentes méthodes de sélection et de classification des caractéristiques, nous avons créé une grille de paramètres tridimensionnelle pour l'analyse. Pour chacune des 14 méthodes de sélection de caractéristiques, nous avons sélectionné par incréments des caractéristiques allant de 5 à 50, avec un incrément de 5 caractéristiques (n = 5, 10, 15, 20, … , 50). Ces sous-ensembles de caractéristiques sélectionnées ont ensuite été évalués à l'aide de chacun des 12 classificateurs d'apprentissage automatique et de l'aire sous les courbes ROC (AUC).

Afin d'évaluer la stabilité des méthodes de sélection des caractéristiques, nous avons utilisé une mesure de stabilité proposée par Yu et al.32 sous les paramètres de perturbation des données dures33. Nous avons quantifié la stabilité d'une méthode comme la similarité entre les résultats obtenus par la même méthode de sélection de caractéristiques, lorsqu'elle est appliquée sur les deux partitions non superposées (de taille N/2) de la cohorte d'entraînement (Lung1). Pour calculer la similarité entre les deux ensembles de caractéristiques résultants, un graphe bipartite complet pondéré a été construit, où les deux ensembles de nœuds correspondaient aux deux ensembles de caractéristiques sélectionnées. Les poids de bord ont été attribués en tant que coefficient de corrélation de Spearman absolu entre les caractéristiques aux nœuds. Nous avons ensuite appliqué l'algorithme hongrois34 pour identifier l'appariement pondéré maximal entre les deux ensembles de nœuds, puis la similarité (stabilité) a été quantifiée comme le coût d'appariement final. Pour chaque méthode de sélection de caractéristiques, nous avons calculé la stabilité 100 fois en utilisant une approche bootstrap et avons rapporté les valeurs médianes ± std dans les résultats.

La stabilité empirique d'un classificateur a été quantifiée à l'aide de l'écart type relatif (RSD %) et d'une approche bootstrap. Nous avons d'abord sélectionné 30 caractéristiques représentatives à l'aide de la méthode de sélection de caractéristiques basée sur Wilcoxon WLCX et les avons utilisées pour calculer la stabilité du classificateur. Pour chaque méthode de classification, nous avons entraîné le modèle sur la cohorte d'entraînement sous-échantillonnée (taille N/2) et validé les performances sur la cohorte de validation à l'aide de l'AUC. Le sous-échantillonnage de la cohorte de formation a été effectué 100 fois en utilisant une approche bootstrap. RSD est la valeur absolue du coefficient de variation et est souvent exprimée en pourcentage. Ici, il a été défini comme

où et étaient respectivement l'écart type et la moyenne des 100 valeurs d'ASC. Il convient de noter qu'une stabilité plus élevée dans le cas des classificateurs correspond à des valeurs RSD plus faibles.

Afin d'identifier les méthodes hautement fiables et précises, nous avons utilisé les valeurs médianes de l'AUC et de la stabilité comme seuils. Nous avons créé deux listes de classement basées sur l'AUC et la stabilité et avons cité les méthodes comme très précises et fiables, qui se sont classées dans la moitié supérieure des deux listes classées. Les méthodes de sélection de caractéristiques ayant une stabilité ≥ 0,735 (stabilité médiane de toutes les méthodes de sélection de caractéristiques) et une AUC ≥ 0,615 (AUC médiane de toutes les méthodes de sélection de caractéristiques) sont considérées comme des méthodes hautement fiables et précises. De même, les méthodes de classification ayant RSD ≤ 5,97 (RSD médian de tous les classificateurs) et AUC ≥ 0,61 (ASC médiane de tous les classificateurs) sont considérées comme très fiables et précises.

Il existe trois principaux facteurs expérimentaux, qui peuvent potentiellement affecter la prédiction de la prédiction de survie basée sur la radiomique : la méthode de sélection des caractéristiques, la méthode de classification et le nombre de caractéristiques sélectionnées. L'ANOVA multifactorielle a été utilisée pour quantifier la variabilité des scores d'AUC due à ces facteurs et à leurs interactions. Afin de comparer la variabilité apportée par chaque facteur, les composantes de la variance estimée ont été divisées par la variance totale.

Toutes les analyses ont été effectuées à l'aide du logiciel R (R Core Team, Vienne, Autriche) version 3.1.2 et Matlab R2012b (The Mathworks, Natick, MA) avec Windows 7.

Pour étudier les approches d'apprentissage automatique pour les biomarqueurs radiomiques pronostiques, un total de 440 caractéristiques radiomiques ont été extraites des régions tumorales segmentées des images CT de prétraitement de deux cohortes NSCLC indépendantes. La sélection des caractéristiques et l'entraînement à la classification ont été effectués à l'aide de la cohorte d'entraînement Lung1 (n = 310 patients), tandis que la cohorte de validation Lung2 (n = 154 patients) a été utilisée pour évaluer la performance prédictive [voir Fig. 1].

Un total de 440 caractéristiques radiomiques ont été extraites des régions tumorales segmentées des images CT avant traitement de 464 patients NSCLC.

La sélection des caractéristiques et la formation à la classification ont été effectuées à l'aide de la cohorte de formation Lung1 (n = 310), tandis que la cohorte Lung2 (n = 154) a été utilisée comme cohorte de validation.

Les performances prédictives de différentes méthodes de sélection et de classification des caractéristiques ont été évaluées à l'aide de la courbe caractéristique de l'aire sous le récepteur-opérateur (AUC). La figure 2 illustre les performances de la sélection des fonctionnalités (en lignes) et des méthodes de classification (en colonnes) à l'aide de 30 fonctionnalités sélectionnées, qui sont les 30 fonctionnalités les mieux classées, résultant de la sélection des fonctionnalités. Pour chaque méthode de classification, il existe 14 valeurs AUC correspondant aux 14 méthodes de sélection de caractéristiques différentes. Nous avons utilisé une médiane des 14 valeurs AUC comme AUC représentative d'un classificateur. De même, pour chaque méthode de sélection de caractéristiques, une médiane de 12 AUC (correspondant à 12 méthodes de classification) est utilisée comme AUC représentative. Ces valeurs AUC représentatives pour les méthodes de classification et de sélection des caractéristiques sont données dans le tableau 2. Pour les méthodes de classification, la forêt aléatoire (RF) a affiché les performances prédictives les plus élevées (AUC : 0,66 ± 0,03) (médiane ± std), tandis que l'arbre de décision (DT) (AUC : 0,54 ± 0,04) a montré les performances prédictives les plus faibles. En ce qui concerne les méthodes de sélection des caractéristiques, la méthode WLCX basée sur le test de Wilcoxon a montré les performances prédictives les plus élevées (AUC : 0,65 ± 0,02), tandis que la méthode CHSQ (AUC : 0,60 ± 0,03) et CIFE (AUC : 0,60 ± 0,04) avaient les AUC médianes les plus faibles. Nous avons répété l'expérience ci-dessus en faisant varier le nombre de caractéristiques sélectionnées (gamme de 5 à 50). Les résultats correspondant à 10, 20, 40 et 50 caractéristiques représentatives (les mieux classées) sont présentés dans les figures supplémentaires S1, S2, S3 et S4 en ligne. De plus, les valeurs médianes de l'AUC sur chacun des facteurs expérimentaux (méthodes de sélection des caractéristiques, méthodes de classification et nombre de caractéristiques sélectionnées) sont représentées par les cartes thermiques des figures supplémentaires S5, S6 et S7 en ligne. Ici aussi, la forêt aléatoire (RF) (classificateur) et la méthode basée sur le test de Wilcoxon WLCX (sélection des caractéristiques) ont montré les ASC médianes les plus élevées dans la majorité des cas.

Carte thermique illustrant les performances prédictives (AUC) des méthodes de sélection des caractéristiques (en lignes) et de classification (en colonnes).

On peut observer que les méthodes de classification RF, BAG et BY et les méthodes de sélection de caractéristiques WLCX, MRMR et MIFS présentent des performances prédictives relativement élevées dans de nombreux cas.

Nous avons évalué les méthodes de sélection des caractéristiques en termes de stabilité par rapport au rééchantillonnage des données à l'aide des paramètres de perturbation des données dures33. Nous avons observé que MIM était la méthode la plus stable (stabilité = 0,94 ± 0,02) (médiane ± std) suivi de RELIEF (stabilité = 0,91 ± 0,05) et WLCX (stabilité = 0,84 ± 0,05), alors que GINI (stabilité = 0,68 ± 0,10), JMI (stabilité = 0,68 ± 0,05), CHSQ (stabilité = 0,6 9 ± 0,09), DISR (stabilité = 0,69 ± 0,05) et CIFE (stabilité = 0,69 ± 0,05) ont montré une stabilité relativement faible [Tableau 2].

La stabilité empirique des méthodes de classification a été quantifiée à l'aide de l'écart type relatif (RSD) et d'une approche bootstrap. Nous avons observé que BY était la méthode de classification la plus stable (RSD = 0,86 %) suivie de GLM (RSD = 2,19 %), PLSR (RSD = 2,24 %) et RF (RSD = 3,52 %). La BST présentait l'écart-type relatif le plus élevé dans les scores d'ASC (RSD = 8,23 %) et donc la stabilité la plus faible parmi les méthodes de classification. Les valeurs RSD (%) correspondant aux 12 classificateurs sont rapportées dans le tableau 2.

Les diagrammes de dispersion de la Fig. 3 évaluent la stabilité et les performances de prédiction. On peut observer que les méthodes de sélection des caractéristiques WLCX (stabilité = 0,84 ± 0,05, AUC = 0,65 ± 0,02), MIFS (stabilité = 0,8 ± 0,03, AUC = 0,63 ± 0,03), MRMR (stabilité = 0,74 ± 0,03, AUC = 0,63 ± 0,03) et FSCR (stabilité = 0,78 ± 0,08, AUC = 0,62 ± 0,04) devraient être préférées car leur stabilité et leur performance prédictive étaient supérieures aux valeurs médianes correspondantes pour toutes les méthodes de sélection des caractéristiques (stabilité = 0,735, AUC = 0,615). De même pour les méthodes de classification, RF (RSD = 3,52 %, AUC = 0,66 ± 0,03), BY (RSD = 0,86 %, AUC = 0,64 ± 0,05), BAG (RSD = 5,56 %, AUC = 0,64 ± 0,03), GLM (RSD = 2,19 %, AUC = 0,63 ± 0,02) et PLSR (RSD = 2,24 %, AUC = 0,63 ± 0,02), la stabilité et la performance prédictive étaient supérieures aux valeurs médianes correspondantes (RSD = 5,93 %, AUC = 0,61).

Nuages ​​de points entre la stabilité et les performances prédictives (AUC) de la sélection des caractéristiques (FS) (à gauche) et des méthodes de classification (CF) (à droite).

Les méthodes de sélection de caractéristiques ayant une stabilité ≥ 0,735 (stabilité médiane de FS) et une AUC ≥ 0,615 (AUC médiane de FS) sont considérées comme des méthodes hautement fiables et prédictives. De même, les méthodes de classification ayant RSD ≤ 5,97 (RSD médian du FC) et AUC ≥ 0,61 (ASC médiane du FC) sont considérées comme très fiables et précises. Des méthodes hautement fiables et prédictives sont affichées dans une région carrée grise.

Pour quantifier les effets des trois facteurs expérimentaux (méthodes de sélection des caractéristiques, méthodes de classification et nombre de caractéristiques sélectionnées), nous avons effectué une analyse de variance multifactorielle (ANOVA) sur les scores AUC. Nous avons observé que les trois paramètres expérimentaux et leurs interactions sont les facteurs significatifs affectant les performances de prédiction [Fig. 4]. La méthode de classification était la principale source de variabilité car elle expliquait 34,21 % de la variance totale des scores de l'ASC. La sélection des fonctionnalités représentait 6,25 %, tandis que l'interaction du classificateur et de la sélection des fonctionnalités expliquait 23,03 % de la variation totale. La taille du sous-ensemble de fonctionnalités sélectionné (représentatif) ne partageait que 1,65 % de la variance totale [Fig. 4].

Variation de l'ASC expliquée par les facteurs expérimentaux et leurs interactions.

On peut observer que la méthode de classification était la principale source de variabilité. La taille du sous-ensemble d'entités sélectionné (représentatif) a partagé le moins de la variance totale.

L'imagerie médicale est une source d'information couramment utilisée et facilement accessible en oncologie clinique. Il sert d'outil de diagnostic du cancer non invasif et rentable. La radiomique utilise les données d'imagerie médicale pour la personnalisation des soins contre le cancer et ajoute ainsi une dimension nouvelle et prometteuse à l'oncologie de précision2,3,8. De plus, il peut également capturer l'hétérogénéité intra-tumorale, qui est souvent considérée comme un biomarqueur important en oncologie12,35,36,37. Un certain nombre d'études ont construit des modèles prédictifs basés sur la radiomique pour divers facteurs cliniques (grades de tumeur, résultats de survie, réponse au traitement, etc.)12. Pour la réalisation réussie d'analyses prédictives basées sur la radiomique, il est nécessaire d'évaluer et de comparer différentes méthodes de sélection de caractéristiques et de modélisation prédictive, ce qui était l'objectif principal de cette étude.

Diverses méthodes de sélection de caractéristiques ont été utilisées pour les problèmes d'exploration de données à haut débit38. En général, les méthodes de sélection de fonctionnalités sont classées en trois catégories principales : (1) les méthodes de filtrage (2) les méthodes d'encapsulation et (3) les méthodes intégrées. Dans cette étude, nous avons étudié 14 approches différentes basées sur des filtres pour la prédiction de survie basée sur la radiomique. Nous n'avons utilisé que des approches basées sur des filtres car elles sont plus efficaces en termes de calcul et moins sujettes au surajustement que les méthodes wrapper et embarquées18,27. De plus, contrairement aux méthodes wrapper et embarquées, les méthodes de filtrage sont indépendantes du classificateur. Ainsi, ils permettent de séparer les composants de modélisation et de sélection des caractéristiques de l'analyse prédictive, ce qui augmente la généralisabilité de chaque composant et donc l'analyse globale.

Nous avons également étudié 12 méthodes de classification d'apprentissage automatique appartenant à 12 familles de classificateurs différentes. De nombreux classificateurs ont été proposés dans la littérature sur l'apprentissage automatique. Théoriquement parlant, ces classificateurs appartiennent à différents domaines (familles de classificateurs) de l'informatique et des statistiques. Par conséquent, il pourrait être vraiment difficile de comprendre les hypothèses sous-jacentes de chaque classificateur et d'ajuster les paramètres de manière impartiale. Le réglage des paramètres pourrait être biaisé par l'expertise (ou le manque) de l'utilisateur avec certains classificateurs par rapport aux autres. Habituellement, les études qui proposent un nouveau classificateur ne le comparent qu'aux classificateurs de référence de la même famille en excluant les autres familles de classificateurs. Même si des classificateurs appartenant à différentes familles sont pris en compte pour la comparaison, ces classificateurs de référence sont généralement mis en œuvre à l'aide d'outils simples et avec des configurations de paramètres limitées tout en ajustant soigneusement le classificateur proposé. Ceux-ci pourraient par conséquent biaiser les résultats en faveur des classificateurs proposés31. Dans notre étude, nous ne proposons pas de nouveau classificateur et nous avons utilisé le même outil d'implémentation (R package caret) pour tous les classificateurs. De plus, pour garantir une utilisation impartiale des classificateurs, nous avons utilisé des configurations de paramètres précédemment définies par Fernandez-Delgado et al.31, dans une étude exhaustive comparant 179 classificateurs sur 121 ensembles de données différents. Ces configurations de paramètres ont été sélectionnées dans la littérature et ont été préalablement validées sur un grand nombre (121) de jeux de données appartenant à différents domaines. De plus, dans notre étude, les paramètres ont été ajustés en utilisant la validation croisée répétée des données d'entraînement uniquement. Par conséquent, notre conception expérimentale nous a permis d'évaluer différentes méthodes de classification de manière impartiale.

Nos résultats montrent que la méthode de sélection de caractéristiques basée sur le test de Wilcoxon WLCX donne les performances prédictives les plus élevées avec la majorité des classificateurs. Fait intéressant, WLCX est une méthode univariée simple basée sur les classements, qui ne prend pas en compte la redondance des fonctionnalités sélectionnées lors du classement des fonctionnalités. La majorité des méthodes de sélection de caractéristiques ont donné les performances prédictives les plus élevées lorsqu'elles sont utilisées avec le classificateur de forêt aléatoire (RF). On pourrait soutenir qu'avec différentes configurations de paramètres, les performances des méthodes de classification peuvent encore s'améliorer. Un réglage exhaustif des paramètres pourrait être étudié pour évaluer l'amélioration des performances de prédiction. Cependant, les ressources de calcul requises et la complexité temporelle élevée peuvent entraver la recherche exhaustive. Nous nous attendons à ce que de futures études radiomiques axées sur différents résultats cliniques et un cadre d'analyse similaire puissent fournir une meilleure compréhension à cet égard. Un nombre limité de méthodes, qui sont constamment très performantes dans différentes études radiomiques, pourraient être évaluées plus avant avec un réglage exhaustif des paramètres. Néanmoins, il convient de noter que les forêts aléatoires (RF) ont également affiché des performances prédictives élevées dans plusieurs autres applications biomédicales et d'autres domaines31. Ces résultats indiquent que le choix de la méthode de sélection des caractéristiques WLCX et/ou de la méthode de classification RF augmente les performances prédictives en radiomique.

Les résultats liés à notre analyse de stabilité fournissent une autre dimension pour le choix des méthodes de sélection et de classification des caractéristiques. Selon les applications, on peut accorder de l'importance à la performance prédictive ou à la stabilité et opter en conséquence pour la méthode requise. Les résultats liés à l'ANOVA multifactorielle ont indiqué que la méthode de classification est la principale source de variation de la performance de prédiction (AUC) et doit donc être choisie avec soin. La taille du sous-ensemble de fonctionnalités sélectionné a le moins contribué à la variation totale de l'AUC.

Seules quelques études ont étudié et comparé différentes méthodes de sélection de caractéristiques et de modélisation d'apprentissage automatique pour les prédictions cliniques basées sur la radiomique19,20. Récemment, Hawkins et al.19 ont comparé quatre méthodes différentes de sélection et de classification des caractéristiques pour la prédiction de survie basée sur la tomodensitométrie des patients atteints de NSCLC. Cette étude était cependant limitée par la petite taille de la cohorte puisque les résultats finaux n'ont été obtenus que sur 40 patients. De plus, il manquait également une validation indépendante des résultats. Au contraire, deux cohortes radiomiques indépendantes de tailles 310 et 154 patients ont été utilisées dans notre analyse et une validation indépendante des résultats a été rapportée.

Notre analyse radiomique est axée sur la prédiction de la survie des patients à deux ans chez les patients atteints de NSCLC. Il fournit une évaluation impartiale des différentes méthodes d'apprentissage automatique de la sélection et de la classification des caractéristiques. Il pourrait être considéré comme une référence pour les futures études prédictives basées sur la radiomique. Nos résultats ont indiqué que le choix de la méthode de sélection des caractéristiques basée sur le test de Wilcoxon WLCX et/ou la méthode de classification de la forêt aléatoire (RF) donne les meilleures performances pour la prédiction de survie basée sur la radiomique. De plus, ces méthodes se sont également avérées raisonnablement stables contre la perturbation des données et pourraient donc être préférées pour les études prédictives basées sur la radiomique. Ces résultats devraient être davantage testés dans d'autres études prédictives basées sur la radiomique, avec différentes modalités d'imagerie et dans différents types de cancer.

Il a déjà été démontré que pour les patients atteints de NSCLC, les modèles statistiques basés sur la tumeur du patient et les caractéristiques du traitement fournissent des prédictions nettement meilleures que l'expert humain24. De plus, plusieurs autres études ont souligné la limitation de la capacité pronostique des médecins pour les patients atteints de cancer en phase terminale39,40,41. Les prédictions des experts humains peuvent souffrir de la variabilité inter-observateur. Au contraire, les modèles statistiques pourraient rendre le système de prédiction plus déterministe si les configurations des paramètres et le cadre d'apprentissage sont fixes.

L'utilité clinique potentielle des modèles pronostiques basés sur la radiomique a été mentionnée dans une étude précédente8. Avec l'expansion des cohortes radiomiques et des dimensions des caractéristiques, nous nous attendons à des performances de prédiction plus élevées dans les futures études radiomiques. De plus, les études intégratives telles que la radiomique-génomique en combinaison avec des covariables cliniques standard pourraient également improviser les performances de prédiction et valider davantage l'utilité de ces méthodes dans la pratique clinique. Dans l'ensemble, notre analyse est un pas en avant vers l'amélioration des prédictions cliniques basées sur la radiomique.

Comment citer cet article : Parmar, C. et al. Méthodes d'apprentissage automatique pour les biomarqueurs radiomiques quantitatifs. Sci. Rep. 5, 13087; doi : 10.1038/srep13087 (2015).

Doroshow, J. & Kummar, S. Recherche translationnelle en oncologie - 10 ans de progrès et perspectives d'avenir. Nat. Rév. Clin. Oncol. 11, 649 (2014).

Article CAS Google Scholar

Lambin, P. et al. Prédire les résultats en radio-oncologie - systèmes d'aide à la décision multifactoriels. Nat. Rév. Clin. Oncol. 10, 27–40 (2013).

Article Google Scholar

Lambin, P. et al. Radiomics : extraction de plus d'informations à partir d'images médicales à l'aide d'une analyse avancée des caractéristiques. EUR. J. of Cancer 48, 441–446 (2012).

Article Google Scholar

Coroller, TP et al. La signature radiomique basée sur la tomodensitométrie prédit la métastase à distance dans l'adénocarcinome pulmonaire. Radiothe. Oncol. (2015), http://dx.doi.org/10.1016/j.radonc.2015.02.015 (2015).

Cook, GJ et al. Les caractéristiques texturales de la tumeur TEP au 18F-FDG avant le traitement dans le cancer du poumon non à petites cellules sont-elles associées à la réponse et à la survie après la chimioradiothérapie ? J. Nucl. Méd. 54, 19-26 (2013).

Article Google Scholar

Ganeshan, B. et al. Cancer du poumon non à petites cellules : corrélats histopathologiques des paramètres de texture au scanner. Radiologie 266, 326–336 (2013).

Article Google Scholar

Gevaert, O. et al. Glioblastome multiforme : analyse radiogénomique exploratoire à l'aide de caractéristiques d'image quantitatives. Radiologie 273, 168–174 (2014).

Article Google Scholar

Aerts, HJ et al. Décodage du phénotype tumoral par imagerie non invasive à l'aide d'une approche de radiomique quantitative. Nat. Commun. 5 (2014).

Leijenaar, RT et al. Stabilité des caractéristiques FDG-PET Radiomics : Une analyse intégrée de la variabilité test-retest et inter-observateur. Acta Oncol. 52, 1391-1397 (2013).

Article CAS Google Scholar

Parmar, C. et al. La quantification des caractéristiques radiomiques robustes utilise une segmentation volumétrique semi-automatique. PLOS ONE 9, e102107 (2014).

Annonces d'article Google Scholar

Ganeshan, B., Abaleke, S., Young, RC, Chatwin, CR & Miles, KA Analyse de la texture du cancer du poumon non à petites cellules sur la tomodensitométrie non améliorée : preuves initiales d'une relation avec le métabolisme et le stade du glucose tumoral. Imagerie du cancer 10, 137 (2010).

Article Google Scholar

Alic, L., Niessen, WJ & Veenland, JF Quantification de l'hétérogénéité en tant que biomarqueur dans l'imagerie tumorale : une revue systématique. PLOS ONE 9, e110300 (2014).

Annonces d'article Google Scholar

Jain, R. et al. Prédiction des résultats chez les patients atteints de glioblastome à l'aide de biomarqueurs d'imagerie, cliniques et génomiques : focus sur la composante non rehaussante de la tumeur. Radiologie 272, 484–493 (2014).

Article Google Scholar

Nicolasjilwan, M. et al. L'ajout de fonctionnalités d'imagerie RM et de biomarqueurs génétiques renforce la prédiction de la survie du glioblastome chez les patients TCGA. J. Neuroradiol. (2014), 10.1016/j.neurad.2014.02.006. (2014).

Segal, E. et al. Décodage des programmes globaux d'expression génique dans le cancer du foie par imagerie non invasive. Nat. biotechnologie. 25, 675–680 (2007).

Article CAS Google Scholar

Mohri, M., Rostamizadeh, A. & Talwalkar, A. Fondements de l'apprentissage automatique. Ch. 1, 1–3, (presses du MIT, 2012).

Google Scholar

Pękalska, E. & Duin, RP La représentation de la dissimilarité pour la reconnaissance des formes : fondements et applications. Vol. 64 (World Scientific, 2005).

Guyon, I. & Elisseeff, A. Une introduction à la sélection de variables et de caractéristiques. J.Mach. Apprendre. Rés. 3, 1157-1182 (2003).

MATH Google Scholar

Hawkins, SH et al. Prédire les résultats du cancer du poumon non à petites cellules à l'aide des fonctionnalités d'image CT. Accès IEEE 2, 1418–1426 (2014).

Article Google Scholar

Basu, S. et al. in Systems, Man and Cybernetics (SMC), 2011 IEEE International Conference on. 1306–1312 (IEEE).

Haralick, RM, Shanmugam, K. & Dinstein, IH Caractéristiques texturales pour la classification des images. IEEE Trans. Syst., Man Cybern. 6, 610-621 (1973).

Article Google Scholar

Galloway, MM Analyse de texture utilisant des longueurs de passage en niveaux de gris. Calcul. Graphique de vision. 4, 172-179 (1975).

Google Scholar

Deasy, JO, Blanco, AI & Clark, VH CERR : un environnement informatique pour la recherche en radiothérapie. Méd. Phys. 30, 979–985 (2003).

Article Google Scholar

Oberije, C. et al. Une étude prospective comparant les prédictions des médecins aux modèles de résultats de traitement des patients atteints de cancer du poumon : un pas vers des soins individualisés et une prise de décision partagée. Radiothe. Oncol. 112, 37–43 (2014).

Article Google Scholar

Hoang, T., Xu, R., Schiller, JH, Bonomi, P. & Johnson, DH Modèle clinique pour prédire la survie chez les patients chimio-anéfiques atteints d'un cancer du poumon non à petites cellules avancé traité avec des régimes de chimiothérapie de troisième génération basés sur les données de l'Eastern Cooperative Oncology Group. J.Clin. Oncol. 23, 175–183 (2005).

Article CAS Google Scholar

Cistaro, A. et al. Prédiction de la survie à 2 ans chez les patients atteints d'un cancer du poumon non à petites cellules de stade I et II à l'aide du quantifica 18F-FDG PET/CT SUV. Radiol. oncol. 47, 219-223 (2013).

Article Google Scholar

Brown, G., Pocock, A., Zhao, M.-J. & Luján, M. Maximisation de la vraisemblance conditionnelle : un cadre unificateur pour la sélection de caractéristiques théoriques de l'information. J.Mach. Apprendre. Rés. 13, 27–66 (2012).

MathSciNet MATHGoogle Scholar

Zhao, Z. et al. Faire progresser la recherche de sélection de fonctionnalités. Référentiel de sélection de fonctionnalités ASU (2010).

Kotsiantis, Sotiris B., Ioannis, D. Zaharakis & Panayiotis, E. Pintelas . Apprentissage automatique : un examen des techniques de classification et de combinaison. Artef. Renseignement. Rév. 26.3, 159–190 (2006).

Article Google Scholar

Kuhn, M. Création de modèles prédictifs dans R à l'aide du package caret. J. Stat. Logiciel 28, 1–26 (2008).

Article Google Scholar

Fernández-Delgado, M., Cernadas, E., Barro, S. & Amorim, D. Avons-nous besoin de centaines de classificateurs pour résoudre les problèmes de classification du monde réel ? J.Mach. Apprendre. Rés. 15, 3133–3181 (2014).

MathSciNet MATHGoogle Scholar

Yu, L., Ding, C. & Loscalzo, S. dans Actes de la 14e conférence internationale ACM SIGKDD sur la découverte de connaissances et l'exploration de données. 803-811 (ACM).

Haury, A.-C., Gestraud, P. & Vert, J.-P. L'influence des méthodes de sélection des caractéristiques sur la précision, la stabilité et l'interprétabilité des signatures moléculaires. PLOS ONE 6, e28210 (2011).

Article CAS ADS Google Scholar

Kuhn, HW La méthode hongroise pour le problème d'affectation. Rés navale. Logis. Q. 2, 83–97 (1955).

Article MathSciNet Google Scholar

Fisher, R., Pusztai, L. & Swanton, C. Hétérogénéité du cancer : implications pour les thérapies ciblées. Br. J Cancer 108, 479–485 (2013).

Article CAS Google Scholar

Ng, C., Pemberton, H. & Reis-Filho, J. Hétérogénéité génétique intratumorale du cancer du sein : causes et implications. Expert Rev. Anticancer Ther. 12, 1021-1032 (2012).

Article CAS Google Scholar

Brown, JR, DiGiovanna, MP, Killelea, B., Lannin, DR & Rimm, DL Évaluation quantitative Score Ki-67 pour la prédiction de la réponse à la chimiothérapie néoadjuvante dans le cancer du sein. Laboratoire. Investir. 94, 98–106 (2014).

Article CAS Google Scholar

Bolón-Canedo, V., Sánchez-Maroño, N., Alonso-Betanzos, A., Benítez, J. & Herrera, F. Un examen des ensembles de données de microréseaux et des méthodes de sélection de caractéristiques appliquées. Informer Sciences 282, 111–135 (2014).

Article Google Scholar

Christakis, NA, Smith, JL, Parkes, CM & Lamont, EB Étendue et déterminants de l'erreur dans les pronostics des médecins chez les patients en phase terminale : étude de cohorte prospectiveCommentaire : Pourquoi les médecins surestiment-ils ? Commentaire : Les pronostics doivent être basés sur des indices prouvés et non sur l'intuition. Bmj 320, 469–473 (2000).

Article CAS Google Scholar

Glare, P. et al. Une revue systématique des prédictions de survie des médecins chez les patients cancéreux en phase terminale. Bmj 327, 195 (2003).

Article Google Scholar

Clément-Duchêne, C., Carnin, C., Guillemin, F. & Martinet, Y. Quelle est la précision des médecins dans la prédiction de la survie des patients atteints d'un cancer du poumon avancé ? Oncologue 15, 782–789 (2010).

Article Google Scholar

Télécharger les références

Les auteurs reconnaissent le soutien financier du National Institute of Health (NIH-USA U24CA194354 et NIH-USA U01CA190234), du 7e programme-cadre de l'UE (EURECA, ARTFORCE), du Kankeronderzoekfonds Limburg de la Health Foundation Limburg et de la Dutch Cancer Society (KWF UM 2009–4454, KWF MAC 2013–6425).

Parmar Chintan et Grossmann Patrick ont ​​contribué à parts égales à ce travail.

Départements de radio-oncologie,

Chintan Parmar, Patrick Grossmann & Hugo JWL Aerts

Radiologie, Dana-Farber Cancer Institute, Brigham and Women's Hospital, Harvard Medical School, Boston, MA, États-Unis

Hugo JWL Aerts

Radio-oncologie (MAASTRO), Institut de recherche GROW, Université de Maastricht, Maastricht, Pays-Bas

Chintan Parmar & Philippe Lambin

Machine Intelligence Unit, Indian Statistical Institute, Kolkata, Inde

Chintan Parmar

Département de biostatistique et de biologie computationnelle, Dana-Farber Cancer Institute, Boston, MA, États-Unis

Patrick Grossmann & Hugo JWL Aerts

Département de radio-oncologie, Radboud University Medical Center, Nimègue, Pays-Bas

Johan Bussink

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

HJWLA, CP et PG ont conçu le projet, analysé les données et rédigé l'article. JB et PL ont fourni des conseils d'experts, des données ou des outils d'analyse et ont examiné le manuscrit.

Les auteurs déclarent une absence d'intérêts financiers en compétition.

Ce travail est sous licence internationale Creative Commons Attribution 4.0. Les images ou tout autre matériel tiers dans cet article sont inclus dans la licence Creative Commons de l'article, sauf indication contraire dans la ligne de crédit ; si le matériel n'est pas inclus dans la licence Creative Commons, les utilisateurs devront obtenir l'autorisation du titulaire de la licence pour reproduire le matériel. Pour voir une copie de cette licence, visitez http://creativecommons.org/licenses/by/4.0/

Réimpressions et autorisations

Parmar, C., Grossmann, P., Bussink, J. et al. Méthodes d'apprentissage automatique pour les biomarqueurs radiomiques quantitatifs. Sci Rep 5, 13087 (2015). https://doi.org/10.1038/srep13087

Télécharger la citation

Reçu : 02 avril 2015

Accepté : 17 juillet 2015

Publié: 17 août 2015

DOI : https://doi.org/10.1038/srep13087

Toute personne avec qui vous partagez le lien suivant pourra lire ce contenu :

Désolé, aucun lien partageable n'est actuellement disponible pour cet article.

Fourni par l'initiative de partage de contenu Springer Nature SharedIt

Recherche médicale militaire (2023)

BMC Gastroentérologie (2023)

Radiologie européenne (2023)

Journal de recherche sur le cancer et d'oncologie clinique (2023)

Journal japonais de radiologie (2023)

En soumettant un commentaire, vous acceptez de respecter nos conditions d'utilisation et nos directives communautaires. Si vous trouvez quelque chose d'abusif ou qui ne respecte pas nos conditions ou directives, veuillez le signaler comme inapproprié.