Une nouvelle étude propose une identification taxonomique automatique basée sur l'ensemble de données d'images fossiles (> 415 000 images) et les réseaux de neurones à convolution profonde

Nouvelles

MaisonMaison / Nouvelles / Une nouvelle étude propose une identification taxonomique automatique basée sur l'ensemble de données d'images fossiles (> 415 000 images) et les réseaux de neurones à convolution profonde

Nov 21, 2023

Une nouvelle étude propose une identification taxonomique automatique basée sur l'ensemble de données d'images fossiles (> 415 000 images) et les réseaux de neurones à convolution profonde

La paléontologie est un domaine fascinant qui nous aide à comprendre l'histoire de la vie

La paléontologie est un domaine fascinant qui nous aide à comprendre l'histoire de la vie sur Terre en étudiant les formes de vie anciennes et leur évolution. Cependant, l'un des principaux défis de la recherche paléontologique est le processus d'identification taxonomique long et laborieux, qui nécessite des connaissances et une expérience approfondies dans un groupe taxonomique particulier. De plus, les résultats d'identification doivent souvent être plus cohérents entre les chercheurs et les communautés.

Les techniques d'apprentissage en profondeur sont apparues comme une solution prometteuse pour soutenir l'identification taxonomique des fossiles. Dans ce contexte, une équipe de recherche chinoise a récemment publié un article explorant le potentiel de l'apprentissage en profondeur pour améliorer la précision de l'identification taxonomique.

La principale contribution de cet article est la création et la validation d'un ensemble de données d'images fossiles (FID) vaste et complet à l'aide de robots d'indexation Web et d'une curation manuelle. L'ensemble de données comprend 415 339 images de 50 clades de fossiles différents, y compris des invertébrés, des vertébrés, des plantes, des microfossiles et des traces de fossiles. Un réseau neuronal convolutif (CNN) a été utilisé pour classer les images de fossiles et a atteint des précisions de classification élevées, démontrant le potentiel du FID pour l'identification et la classification automatisées des fossiles. Les auteurs ont également mis le FID à la disposition du public pour une utilisation et un développement futurs.

Cette étude examine expérimentalement l'utilisation de l'apprentissage par transfert avec des modèles entraînés sur ImageNet pour identifier et classer les fossiles dans la base de données d'images fossiles (FID). Les auteurs ont constaté que le gel de la moitié des couches réseau en tant qu'extracteurs de fonctionnalités et la formation des couches restantes donnaient les meilleures performances. L'augmentation et l'abandon des données étaient des méthodes efficaces pour éviter le surajustement, tandis que la baisse fréquente du taux d'apprentissage et les grandes tailles de lots d'apprentissage ont contribué à une convergence plus rapide et à une grande précision. L'étude a également examiné l'impact des données déséquilibrées sur l'algorithme et utilisé des méthodes d'échantillonnage pour l'apprentissage déséquilibré. La qualité de l'ensemble de données était importante pour une identification précise, les microfossiles fonctionnant bien en raison de la disponibilité d'images de haute qualité, tandis que certains fossiles mal conservés et peu d'échantillons se comportaient mal. Les auteurs ont également constaté que la grande diversité morphologique intraclasse de certains clades entravait la précision de l'identification en raison de la difficulté de l'architecture DCNN à extraire les caractéristiques discriminantes.

L'architecture Inception-ResNet-v2 a atteint une précision moyenne de 0,90 dans l'ensemble de données de test lors de l'utilisation de l'apprentissage par transfert. Les microfossiles et les fossiles de vertébrés avaient les précisions d'identification les plus élevées de 0,95 et 0,90, respectivement. Cependant, les clades tels que les éponges, les bryozoaires et les traces de fossiles, qui avaient diverses morphologies ou peu d'échantillons dans l'ensemble de données, avaient des précisions d'identification inférieures à 0,80.

En conclusion, les techniques d'apprentissage en profondeur, en particulier l'apprentissage par transfert, ont montré des résultats prometteurs dans l'amélioration de la précision et de l'efficacité de l'identification taxonomique des fossiles. La création et la validation d'un ensemble de données d'images fossiles vaste et complet, tel que la base de données d'images fossiles (FID), sont cruciales pour obtenir une précision d'identification élevée. Sa disponibilité pour un usage public et son développement est bénéfique pour faire avancer le domaine de la paléontologie. Cependant, la précision des modèles d'apprentissage en profondeur dépend de la qualité et de la diversité de l'ensemble de données, certains clades posant des défis en raison de leur diversité morphologique intraclasse ou de leur mauvaise conservation. D'autres recherches et développements dans les techniques d'apprentissage en profondeur et les ensembles de données d'images fossiles à grande échelle sont nécessaires pour surmonter ces défis et améliorer la précision et l'efficacité de la recherche paléontologique.

De plus, les techniques d'apprentissage en profondeur en paléontologie peuvent potentiellement transformer le domaine au-delà de l'identification taxonomique. Ces techniques peuvent extraire plus d'informations des données fossiles, telles que la segmentation et la reconstruction des fossiles, l'intégration des données fossiles avec d'autres types de données et la détection de modèles et d'anomalies dans des ensembles de données fossiles à grande échelle. Cela élargit notre compréhension de l'histoire de la vie sur Terre, ouvrant la voie à des découvertes et à des avancées passionnantes.

VérifiezPapier. Tout le mérite de cette recherche revient aux chercheurs de ce projet. N'oubliez pas non plus de vous inscrirenotre sous-reddit 18k+ ML,Chaîne discorde, etCourriel, où nous partageons les dernières nouvelles sur la recherche en IA, des projets d'IA sympas, et plus encore.

🚀 Découvrez les outils d'intelligence artificielle de 100 dans AI Tools Club

Mahmoud est chercheur doctorant en apprentissage automatique. Il est également titulaire d'un baccalauréat en sciences physiques et d'une maîtrise en télécommunications et systèmes de réseaux. Ses domaines de recherche actuels concernent la vision par ordinateur, la prédiction boursière et le deeplearning. Il a produit plusieurs articles scientifiques sur la ré-identification des personnes et l'étude de la robustesse et de la stabilité des réseaux profonds.

Papier. notre newsletter 18k+ ML SubReddit Discord Channel 🚀 Découvrez les outils AI de 100 dans AI Tools Club