Qu'est-ce que l'étiquetage des données ?  (Définition, Exemples)

Nouvelles

MaisonMaison / Nouvelles / Qu'est-ce que l'étiquetage des données ? (Définition, Exemples)

Oct 26, 2023

Qu'est-ce que l'étiquetage des données ? (Définition, Exemples)

L'étiquetage des données fait référence à la pratique consistant à identifier des éléments de données brutes à

L'étiquetage des données fait référence à la pratique consistant à identifier des éléments de données brutes pour leur donner un sens afin qu'un modèle d'apprentissage automatique puisse utiliser ces données. Supposons que nos données brutes soient une image d'animaux. Dans ce cas, vous voudrez étiqueter tous les différents animaux du modèle, y compris les oiseaux, les chevaux et les lapins. Sans étiquettes appropriées, le modèle d'apprentissage automatique ne saura pas quels sont les différents types de données dans l'image.

L'étiquetage des données est une étape essentielle avant la formation ou l'utilisation de tout modèle d'apprentissage automatique. Il est impliqué dans de nombreuses applications, telles que la vision par ordinateur, le traitement du langage naturel (TAL) et la reconnaissance d'images et de la parole.

Plus de Sara A. MetwalliQu'est-ce que la validation des données ?

Il existe deux grandes catégories d'algorithmes d'apprentissage automatique : supervisés et non supervisés.

Dans les algorithmes d'apprentissage automatique supervisé, nous devons fournir à l'algorithme des données étiquetées pour qu'il apprenne, puis appliquer ce qu'il a appris à de nouvelles données. Plus les données étiquetées sont précises, meilleurs sont les résultats de l'algorithme. Dans la plupart des cas, l'étiquetage des données commence par une personne (souvent appelée "un étiqueteur") prenant des décisions sur des données non étiquetées pour que l'algorithme apprenne.

Disons que nous voulons que notre algorithme identifie les arbres. Pour former le modèle, l'étiqueteur peut d'abord être présenté avec des images et doit répondre "vrai" ou "faux", indiquant si l'image contient un arbre. L'algorithme utilise ensuite ces décisions pour identifier le modèle d'image, apprendre ce qu'est un arbre, puis l'utiliser pour prédire si les images futures contiennent des arbres.

Étant donné que l'étiquetage des données est essentiel pour développer un bon modèle d'apprentissage automatique, les entreprises et les développeurs le prennent très au sérieux. Cependant, l'étiquetage des données peut prendre du temps, de sorte que certaines entreprises peuvent externaliser ou automatiser le processus à l'aide d'un outil ou d'un service.

Nous pouvons utiliser diverses approches pour étiqueter les données ; le choix entre ces approches dépend de la taille de vos données, de la portée du projet et du temps dont vous avez besoin pour le terminer. Une façon de catégoriser différentes méthodes d'étiquetage est de savoir si un humain ou un ordinateur étiquette. Si les humains font l'étiquetage, cela peut prendre l'une des trois formes suivantes.

Cette approche est utilisée dans les grandes entreprises avec de nombreux scientifiques experts en données qui peuvent travailler sur l'étiquetage des données. L'étiquetage interne est plus sûr et plus précis que l'externalisation, car il est effectué en interne sans envoyer les données à un sous-traitant ou à un fournisseur externe. Cette approche protège vos données contre les fuites ou les utilisations abusives si l'agent d'externalisation n'est pas fiable.

Cette option peut être la voie à suivre pour les grands projets de haut niveau qui nécessitent plus de ressources que l'entreprise ne peut en épargner. Cela dit, cela nécessite de gérer un flux de travail indépendant qui peut être coûteux et chronophage car, dans de tels cas, les entreprises engagent différentes équipes pour travailler en parallèle afin de faire le travail à temps. Afin de maintenir le flux et la qualité du travail, toutes les équipes doivent utiliser une approche similaire lors de la livraison des résultats. Sinon, plus d'efforts sont nécessaires pour mettre les résultats dans le même format.

Dans cette approche, l'entreprise ou le développeur utilise un service pour étiqueter les données rapidement et à moindre coût. L'une des plateformes de crowdsourcing les plus connues est reCAPTCHA, qui génère essentiellement du CAPTCHA et demande aux utilisateurs d'étiqueter les données. Ensuite, le programme compare les résultats de différents utilisateurs et génère des données étiquetées.

Cependant, si nous voulons automatiser l'étiquetage et utiliser un ordinateur pour le faire, nous pouvons utiliser l'une des deux méthodes.

Dans cette approche, nous générons des données synthétiques en utilisant les données originales pour améliorer la qualité du processus d'étiquetage. Bien que cette approche donne de meilleurs résultats que l'étiquetage programmatique, elle nécessite une grande puissance de calcul car vous avez besoin de plus de puissance pour générer plus de données. Cette approche est un bon choix si l'entreprise dispose d'un supercalculateur ou d'un ordinateur capable de traiter et de générer d'énormes quantités de données dans un délai raisonnable.

Pour économiser la puissance de calcul, cette approche utilise un script pour effectuer le processus d'étiquetage au lieu de générer plus de données. Cependant, l'étiquetage programmatique nécessite souvent une annotation humaine pour garantir la qualité de l'étiquetage.

Plus d'informations sur les experts en apprentissage automatique de Built InRégression polynomiale : une introduction

La labellisation des données permet aux utilisateurs, aux équipes et aux entreprises de mieux comprendre les données et leur utilisation. L'étiquetage des données offre principalement un moyen d'offrir des prévisions plus précises et d'améliorer la convivialité des données.

Un étiquetage précis des données garantit une meilleure assurance qualité dans les algorithmes d'apprentissage automatique que l'utilisation de données non étiquetées. Cela signifie que votre modèle s'entraînera sur des données de meilleure qualité et produira la sortie attendue. Des données correctement étiquetées fournissent la vérité de terrain (c'est-à-dire, comment les étiquettes reflètent des scénarios du monde réel) pour tester et itérer les modèles suivants.

L'étiquetage des données peut également améliorer la convivialité des variables de données dans un modèle. Par exemple, vous pouvez reclasser une variable catégorique comme binaire pour la rendre plus consommable pour un modèle. L'agrégation des données peut optimiser le modèle en réduisant le nombre de variables de modèle ou en permettant l'inclusion de variables de contrôle. Que vous utilisiez des données pour créer une vision par ordinateur ou un modèle NLP, l'utilisation de données de haute qualité devrait être votre priorité absolue.

L'étiquetage des données est coûteux, chronophage et sujet aux erreurs humaines.

Bien que l'étiquetage des données soit essentiel pour les modèles d'apprentissage automatique, il peut être coûteux du point de vue des ressources et du temps. Supposons qu'une entreprise adopte une approche plus automatisée. Dans ce cas, les équipes d'ingénierie devront encore mettre en place des pipelines de données avant le traitement des données. L'étiquetage manuel sera presque toujours coûteux et chronophage.

Ces approches d'étiquetage sont également sujettes à l'erreur humaine (par exemple, erreurs de codage, erreurs de saisie manuelle), ce qui peut diminuer la qualité des données. Même de petites erreurs entraînent un traitement et une modélisation inexacts des données. Les contrôles d'assurance qualité sont essentiels au maintien de la qualité des données.

Quelle que soit l'approche d'étiquetage que vous choisissez pour votre projet d'étiquetage des données, il existe un ensemble de meilleures pratiques pour améliorer la précision et l'efficacité de votre processus d'étiquetage des données. Par exemple, nous construisons des modèles d'apprentissage automatique en utilisant de grandes quantités de données de formation de qualité, ce qui est coûteux et prend du temps. Afin de développer de meilleures données d'entraînement, nous pouvons utiliser une ou plusieurs des méthodes suivantes :

Il existe de nombreux outils et progiciels en ligne que vous pouvez utiliser pour étiqueter les données en utilisant l'une des approches que nous avons mentionnées ci-dessus.

Consensus des étiqueteurs Audit des étiquettes Apprentissage actif