Cleanlab ouvert

Nouvelles

MaisonMaison / Nouvelles / Cleanlab ouvert

Oct 27, 2023

Cleanlab ouvert

Les données étiquetées sont essentielles pour la formation de modèles d'apprentissage automatique supervisés, mais

Les données étiquetées sont essentielles pour former des modèles d'apprentissage automatique supervisé, mais les erreurs commises par les annotateurs de données peuvent avoir un impact sur la précision du modèle. Il est courant de collecter plusieurs annotations par point de données pour réduire les erreurs d'annotation afin d'établir une étiquette de consensus plus fiable, mais cette approche peut être coûteuse. Pour optimiser le modèle ML avec un étiquetage minimal des données, il est essentiel de déterminer quelles nouvelles données nécessitent un étiquetage ou quelles étiquettes actuelles doivent être vérifiées à nouveau.

ActiveLab, une méthode d'apprentissage actif récemment publiée, a été mise à disposition en tant qu'outil open source pour aider à ce processus de prise de décision. ActiveLab aide à identifier les données qui nécessitent un étiquetage ou un nouvel étiquetage pour obtenir une amélioration maximale du modèle ML tout en respectant un budget d'annotation limité. Les ensembles de données de formation générés à l'aide d'ActiveLab ont produit des modèles ML supérieurs par rapport à d'autres techniques d'apprentissage actif lorsque vous travaillez avec un nombre fixe d'annotations.

ActiveLab répond à la question cruciale consistant à déterminer s'il est plus avantageux d'obtenir une annotation supplémentaire pour un point de données précédemment étiqueté ou d'étiqueter une instance entièrement nouvelle à partir du pool non étiqueté. La réponse à cette question dépend du degré de confiance dans les annotations actuelles. Dans les cas où il n'y a qu'une seule annotation d'un annotateur peu fiable ou deux annotations avec des résultats contradictoires, il est crucial d'obtenir un autre avis par le biais d'un réétiquetage. Ce processus devient particulièrement important lorsque les conséquences négatives de la formation d'un modèle avec des données mal étiquetées ne peuvent pas être corrigées en étiquetant simplement de nouveaux points de données à partir du pool non étiqueté.

Les chercheurs ont commencé avec un ensemble de formation initial de 500 exemples étiquetés et ont formé un modèle de classificateur pour plusieurs cycles, en traçant la précision de son test après chaque itération. Des annotations supplémentaires pour 100 exemples ont été collectées à chaque tour, choisies parmi cet ensemble de 500 ou un pool séparé de 1500 exemples initialement non étiquetés. Diverses méthodes d'apprentissage actif ont été utilisées pour décider quelles données étiqueter/réétiqueter ensuite. La sélection aléatoire a été comparée à Good Random, qui donne la priorité aux données non étiquetées en premier, ainsi qu'à Entropy and Uncertainty, des méthodes populaires d'apprentissage actif basées sur des modèles. ActiveLab a également été utilisé, qui s'appuie sur les prédictions du modèle pour estimer à quel point une autre étiquette sera informative pour chaque exemple tout en tenant compte du nombre d'annotations qu'un exemple a reçues jusqu'à présent et de leur accord, ainsi que de la fiabilité globale de chaque annotateur par rapport au modèle formé. Des résultats similaires ont été trouvés pour d'autres modèles et ensembles de données de classification d'images, comme détaillé dans l'article des chercheurs sur le développement de cette méthode.

VérifiezPapieretGithub. Tout le mérite de cette recherche revient aux chercheurs de ce projet. N'oubliez pas non plus de vous inscrirenotre sous-reddit 15k+ ML,Chaîne discorde, etCourriel, où nous partageons les dernières nouvelles sur la recherche en IA, des projets d'IA sympas, et plus encore.

Niharika est stagiaire en conseil technique chez Marktechpost. Elle est en troisième année de premier cycle et poursuit actuellement son B.Tech à l'Institut indien de technologie (IIT) de Kharagpur. C'est une personne très enthousiaste avec un vif intérêt pour l'apprentissage automatique, la science des données et l'IA et une lectrice avide des derniers développements dans ces domaines.

Papier Github. notre newsletter 15k+ ML SubReddit Discord Channel