Une introduction à l'étiquetage automatisé des données

Nouvelles

MaisonMaison / Nouvelles / Une introduction à l'étiquetage automatisé des données

Nov 02, 2023

Une introduction à l'étiquetage automatisé des données

Remarque : Merci à Superb AI pour le leadership éclairé/l'article éducatif ci-dessus.

Remarque : Merci à Superb AI pour le leadership éclairé/l'article éducatif ci-dessus. Superb AI a soutenu et sponsorisé ce contenu.

L'intelligence artificielle a fait des vagues au cours de la dernière décennie, où des progrès se manifestent dans les applications quotidiennes. Mais y parvenir nécessite une tonne de données, et la conservation de ces données et leur mise en action nécessitent beaucoup de travail. Les professionnels du ML se sont tournés vers l'étiquetage automatisé des données pour implémenter plus rapidement des modèles de ML dans des applications réelles, et il est facile de comprendre pourquoi. Chaque praticien ML sait qu'un modèle réussi nécessite des milliers d'étiquettes de données. Faire cela manuellement signifie consacrer des milliers d'heures de travail, rationaliser la stratégie et superviser chaque étape du processus. Pour la plupart des praticiens, l'étiquetage automatisé des données est une évidence.

L'étiquetage des données dans le pipeline d'apprentissage automatique est connu pour avoir d'importants goulots d'étranglement et ralentissements. Cela nécessite une équipe nombreuse pour annoter individuellement les objets importants de chaque image, ce qui peut parfois être très détaillé et prendre beaucoup de temps. Diriger une équipe d'étiqueteurs implique souvent de s'assurer que chaque personne suit le même modèle uniforme pour chaque image, car toute différence peut confondre le modèle. De plus, l'embauche d'une équipe d'étiqueteurs de données en interne coûte très cher, et l'externalisation entraîne des malentendus et des erreurs. Si vous ne l'avez pas encore compris, l'étiquetage manuel des données est fastidieux. Et à chaque étape, l'annotation des données doit être supervisée par des professionnels de l'AQ, et les erreurs doivent être corrigées.

L'ajout d'automatisation à votre projet d'apprentissage automatique résout bon nombre des problèmes décrits ci-dessus. Bien qu'aucun projet ne soit entièrement sans une influence humaine dans la boucle, la minimisation de ce besoin réduit les coûts, minimise les erreurs, annule le besoin d'externalisation et garantit une opération de bout en bout plus rapide. L'introduction de l'automatisation dans votre flux de travail s'attaque au goulot d'étranglement qui afflige les professionnels du ML depuis l'introduction de l'intelligence artificielle.

L'automatisation a plus de sens pour certains projets que pour d'autres. Lors de la formation d'un modèle qui repose sur des milliers et des milliers d'images de données, il est presque impossible de ne pas automatiser. Utiliser uniquement des humains est une recette pour les ralentissements et les erreurs, donc plus votre projet est détaillé, plus l'automatisation sera utile. De plus, certains types de projets d'étiquetage vont de pair avec l'automatisation, et la mise en œuvre de cette stratégie fonctionne tout simplement.

Dans l'apprentissage automatique, vos modèles ne sont aussi bons que leurs applications dans le monde réel. Dans de nombreux cas, cela signifie s'adapter à un environnement changeant et tenir compte des innovations les plus récentes. Dans cet esprit, les praticiens du ML doivent continuer à mettre à jour leurs modèles afin qu'ils continuent à fournir des résultats précis. Les voitures autonomes sont un excellent exemple d'application qui nécessite une révision continue. Les modèles de voitures changent, les panneaux de signalisation sont mis à jour et l'environnement général reste rarement le même. Ne pas mettre à jour votre modèle peut entraîner des erreurs dangereuses ou entraîner des accidents dans un concept connu sous le nom de dégradation du modèle.

Au contraire, il existe des exemples où la révision fréquente du modèle n'améliore que peu ou pas les performances du modèle. L'ajout de plus de données à un modèle nécessite plus d'assurance qualité et de surveillance, ainsi qu'une formation supplémentaire. Parfois, cela n'en vaut tout simplement pas la peine. D'un autre côté, si votre modèle se dégrade avec le temps, l'ajustement d'un programme de recyclage fait partie de la garantie que les performances restent optimales. Si un recyclage fréquent fait partie de votre projet, l'étiquetage automatisé est essentiel.

De plus, un étiquetage automatisé peut être programmé pour identifier les cas limites et calculer les niveaux de confiance. Lorsque votre modèle étiquette automatiquement les images, l'identification de celles dont il est moins certain peut éliminer beaucoup de temps dans le processus d'assurance qualité. L'outil d'estimation de l'incertitude de Superb AI, par exemple, fait exactement cela. Il identifie les cas extrêmes sujets aux erreurs et les signale pour qu'un humain les inspecte. Cela réduit la quantité d'intervention humaine requise sans l'éliminer complètement.

L'étiquetage automatisé peut sembler être la meilleure option s'il est disponible pour votre type de projet, et la bonne nouvelle est que c'est probablement le cas. Il existe pléthore de techniques d'annotation qui vont de pair avec une approche programmatique, que nous allons détailler :

La forme d'étiquetage la moins impliquée pour de nombreuses initiatives est la classification des images. Les annotateurs configureront leurs projets de manière à pouvoir choisir parmi une variété de balises pour décrire leurs données. La classification en elle-même implique la sélection d'une étiquette dans une liste déroulante ; il n'y a pas de dessin ou de contour d'objets avec une souris. La classification peut être utilisée comme complément à d'autres projets d'annotation, ou elle peut être autonome. Une fois la vérité terrain d'un modèle créée, une automatisation peut être ajoutée pour identifier les objets dans les données non classifiées.

Les cadres de délimitation sont également un type d'annotation simple, mais cela ne signifie pas qu'ils ne sont pas très efficaces pour de nombreuses applications. Ici, un annotateur clique simplement et fait glisser sa souris jusqu'à ce qu'une forme de boîte se forme autour des objets à étiqueter. Les annotateurs doivent veiller à inclure tous les aspects de leurs objets étiquetés et éviter d'inclure des espaces supplémentaires. Suivre ces deux règles à elles seules fait de la formation d'un ensemble de données de vérité terrain une tâche simple.

La segmentation d'une image est une approche compliquée, bien que nécessaire, pour de nombreux projets d'étiquetage de données. Combinaison de localisation et de classification, la segmentation cherche à créer un contour précis d'objets spécifiques. Et il existe une série d'approches pour y parvenir. Les points clés, par exemple, cherchent à relier les principaux points d'un objet pour former un contour squelettique. D'autre part, l'annotation polygonale décrit l'image dans son ensemble. Les polylignes tracent les contours linéaires d'un objet, tel qu'un passage pour piétons, et la segmentation sémantique trace la forme de chaque objet et les divise en classes. Pour plus de détails, la segmentation d'instance fait la distinction entre différents types d'un même objet, comme différentes personnes, plutôt que de les regrouper en un seul. Chacune de ces stratégies d'étiquetage prend beaucoup de temps, ce qui signifie qu'il est primordial de trouver un moyen plus rapide pour mettre votre modèle sur le marché rapidement et efficacement.

Pour de nombreuses applications de vision par ordinateur, la vidéo est un composant majeur. La surveillance, par exemple, a désormais la capacité d'identifier les activités suspectes telles que le vol. Apprendre à comprendre à quoi ressemble le vol implique un algorithme de vision par ordinateur bien formé. Le problème? Les séquences vidéo contiennent beaucoup plus de détails et d'informations que les images, donc l'étiquetage est beaucoup plus laborieux. Décomposer chaque fichier par images individuelles est fastidieux, et les isoler par applicabilité peut prendre d'innombrables heures. Établir une vérité terrain, puis l'entraîner à étiqueter rapidement certains objets et personnes peut donc être une bouée de sauvetage.

L'automatisation est idéale pour de nombreux scénarios et équipes, car elle rationalise le processus de création de modèles et réduit le temps global nécessaire. Cependant, il existe quelques cas où la mise en œuvre programmatique est moins efficace.

La première partie de l'étiquetage des données consiste à annoter un petit sous-ensemble de données dans lequel former votre modèle. Cette partie repose entièrement sur une intervention humaine dans la boucle pour s'assurer que les données initiales sont correctement annotées. Voici pourquoi : le passage à l'automatisation repose sur des ensembles de données pré-formés. Le plus souvent, les données externes sont utiles mais pas parfaites pour chaque cas d'utilisation. Implémenter un jeu de données extérieur dans votre modèle peut être comme insérer une cheville carrée dans un trou rond, il est donc préférable de travailler avec vos propres données et de laisser les humains faire la première étape du travail.

De plus, la construction d'un ensemble de données de vérité terrain implique également que chaque erreur de cette phase soit corrigée et guidée vers la phase suivante d'étiquetage. Lors de la création d'un modèle, il faut parcourir chaque image et s'assurer que les limites d'étiquetage sont serrées et que les étiquettes sont faites correctement. S'il est laissé à l'automatisation dans la phase initiale, votre modèle manquera certaines des étiquettes importantes et préparera le terrain pour un modèle inefficace et inexact.

De plus, travailler avec des informations confidentielles présente ses propres obstacles. Les industries réglementées comme la médecine, la finance et la sécurité présentent un plus grand risque si elles ne sont pas supervisées par des humains, du moins au stade initial. La formation d'un modèle pour détecter certains types de cancer est mieux laissée aux professionnels de la santé au cours de la phase initiale de construction d'une vérité terrain. Avec les financières, une brèche dans votre modèle peut s'avérer désastreuse, en particulier pour les comptes détenant beaucoup de richesses. Il en va de même pour les modèles gouvernementaux. Sans une surveillance attentive de ces modèles, le potentiel de préjudice est beaucoup plus grand.

Certains ensembles de données et modèles sont plus complexes que d'autres, ce qui signifie qu'un modèle automatisé est susceptible de rater la cible sur certaines étiquettes. Lorsqu'un modèle est principalement composé de cas extrêmes, il nécessitera probablement une intervention humaine. L'automatisation d'un modèle qui nécessite plus de surveillance qu'autrement est très inefficace et annule toutes ses commodités. Dans d'autres cas, l'utilisation de personnes pour AQ des images avec des niveaux de confiance inférieurs remplace les prédictions initiales d'un modèle. Travailler avec des boîtiers de bord nécessite un peigne à dents fines qui ne peut souvent pas être remplacé par des machines.

En une réponse courte : probablement. L'automatisation s'est avérée accélérer le processus d'étiquetage et aider les praticiens de l'apprentissage automatique à accélérer leurs projets. Les applications qui impliquent des mises à jour fréquentes sont plus faciles à superviser lorsque les annotations manuelles sont exclues de l'équation. Dans certains cas, comme dans le domaine médical, l'étiquetage manuel fait perdre un temps précieux aux médecins et praticiens qui sont les seuls habilités à identifier, et donc à étiqueter correctement, les tumeurs anormales ou les maladies. Cela ne devrait être nécessaire que lors de la création de votre ensemble de données de vérité terrain et pendant le processus d'assurance qualité. Le même principe s'applique également à d'autres scénarios : emprunter des ressources précieuses telles que des ingénieurs pour superviser le processus d'étiquetage manuel n'a tout simplement pas de sens.

Décider de l'approche à adopter lors de l'étiquetage dépend entièrement de votre projet et de l'étape à laquelle vous vous trouvez. S'il s'agit d'établir une vérité de terrain, l'automatisation est facile au début, mais les résultats sont finalement inutiles. Prendre ce raccourci ne fait finalement rien pour vous faire gagner du temps et ne produit qu'un modèle inexact. D'un autre côté, les tâches de segmentation compliquées n'entraînent des maux de tête que si elles sont effectuées manuellement, et c'est une solution facile pour les projets moins complexes tels que les boîtes englobantes. L'automatisation est donc essentielle pour accélérer et mettre à jour les projets d'apprentissage automatique.

Chez Superb AI, nous sommes spécialisés dans l'automatisation de vos projets d'apprentissage automatique et de vision par ordinateur. Alors que nous continuons à développer nos capacités, vous trouverez une combinaison bien intégrée de fonctionnalités qui humanise le processus d'étiquetage des données tout en le rendant transparent et automatique. Planifiez un appel avec notre équipe de vente dès aujourd'hui pour commencer. Abonnez-vous également à notre newsletter pour rester informé des dernières nouvelles sur la vision par ordinateur et des versions de produits. Cet article a été initialement publié sur le blog Superb AI.

Caroline Lasorsa est une professionnelle du marketing produit chez Superb AI et est basée à Boston, Massachusetts. Elle est une lectrice et une apprenante avide et s'intéresse vivement à l'intelligence artificielle pour les cas d'utilisation médicale et de soins de santé.