Étiquetage des données et révolution de l'IA (2023)

Blog

MaisonMaison / Blog / Étiquetage des données et révolution de l'IA (2023)

Oct 30, 2023

Étiquetage des données et révolution de l'IA (2023)

Qu'est-ce que l'étiquetage des données ? L'étiquetage des données est utilisé pour les algorithmes d'apprentissage automatique

Qu'est-ce que l'étiquetage des données ?

L'étiquetage des données est utilisé par les algorithmes d'apprentissage automatique pour identifier et comprendre correctement les objets. La reconnaissance faciale, la conduite autonome, les drones aériens, la robotique, etc. sont autant de domaines où le ML s'est avéré essentiel. Les données visuelles (photographiques et cinématographiques), sonores et textuelles sont désormais les principales catégories utilisées dans la collecte et l'étiquetage des données. Deux facteurs principaux déterminent l'efficacité d'un système d'IA :

L'étiquetage des données, dans sa forme la plus simple, apprend au système à reconnaître les véhicules en fournissant des exemples de diverses automobiles afin qu'il puisse apprendre les caractéristiques communes de chacun et identifier correctement les voitures sur des photos non étiquetées.

Comment fonctionne l'étiquetage des données ?

L'apprentissage automatique (ML) et l'apprentissage en profondeur nécessitent généralement d'énormes volumes de données pour fournir les bases de modèles d'apprentissage fiables. Les données qu'ils collectent pour leurs systèmes de formation doivent être étiquetées pour obtenir le résultat escompté.

Les étiquettes utilisées pour la reconnaissance des caractéristiques doivent être descriptives, discriminantes et uniques si l'algorithme résultant doit être fiable. Un ensemble de données bien étiqueté offre une vérifiabilité que le modèle ML peut utiliser pour vérifier la précision de ses prédictions et affiner sa méthode.

L'exactitude et la précision sont les caractéristiques d'un algorithme de premier ordre. Un ensemble de données précis est un ensemble dans lequel des étiquettes spécifiques peuvent être récupérées directement à partir des données d'origine. En science des données, la qualité est définie comme le degré auquel un ensemble de données est globalement vrai.

Clé pour gagner

Les systèmes ou les machines capables de reconnaître des modèles ou de fonctionner de manière autonome nécessitent une formation approfondie sous la forme de données abondantes et de haute qualité. Le CDAO, où travaille Martell, a été fondé en décembre 2021 pour accélérer et élargir l'utilisation de l'IA et de l'analyse de données par le ministère de la Défense. Après des mois de consolidation du Joint AI Center, du Defense Digital Service, d'Advana et du poste de directeur des données, le bureau a finalement commencé à fonctionner à pleine capacité en juin.

Depuis longtemps, les militaires s'intéressent à l'intelligence artificielle pour rendre plus rapidement de meilleurs jugements et ouvrir des zones auparavant inaccessibles à une enquête qu'aucun soldat, marin ou humain n'oserait explorer.

Début 2021, le ministère de la Défense travaillait sur plus de 685 projets d'IA, selon une étude du Government Accountability Office. Certains de ces programmes impliquaient d'importants systèmes militaires. Le mois dernier, l'Air Force a choisi l'Université Howard pour mener des recherches sur l'autonomie tactique, y compris les équipes habitées et non habitées, dans le cadre d'un contrat de 90 millions de dollars sur cinq ans.

La méthode centrée sur les données a ses inconvénients. En particulier, la stratégie centrée sur le modèle est le seul choix si l'équipe est à court d'argent et que l'on essaie d'éviter entièrement l'étiquetage géré par l'homme en utilisant un ensemble de données préexistant. En attendant, il existe deux options d'étiquetage : le faire en interne, ce qui peut être très coûteux et prendre beaucoup de temps, ou l'externaliser, ce qui peut parfois être un pari et coûte généralement très cher. L'étiquetage synthétique est une autre approche qui consiste à produire de fausses données pour le ML, mais elle est gourmande en ressources et donc hors de portée de nombreuses petites entreprises. Par conséquent, de nombreux groupes concluent que la stratégie centrée sur les données ne vaut pas l'effort requis, alors qu'en réalité, ils doivent être plus informés.

La stratégie centrée sur les données est efficace, mais seulement si l'on s'efforce de travailler avec les données. La bonne nouvelle est que l'étiquetage des données n'a pas besoin d'être coûteux ou de prendre des mois, grâce aux techniques de crowdsourcing. Le problème, cependant, est que davantage de personnes doivent être sensibilisées à ces procédures, sans parler du fait qu'elles ont évolué pour réussir. Malgré les inconvénients, plus de 80 % des praticiens du ML choisissent la voie interne, selon la recherche. Et un sondage récent montre que ces médecins n'utilisent pas cette technique parce qu'ils la préfèrent aux autres ; ils l'utilisent parce qu'ils ne savent pas mieux.

Résumer

L'accès à de grands volumes de données étiquetées de haute qualité reste un obstacle majeur à l'avancement de l'intelligence artificielle. Une augmentation du besoin de données correctement étiquetées est pratiquement inévitable à mesure que le mouvement avec Ng en tant que leader gagne du terrain. Ainsi, les professionnels progressistes de l'IA repensent la façon dont ils classent leurs données. En raison du coût élevé et de l'évolutivité limitée de l'étiquetage en interne, ils pourraient bientôt le dépasser et se voir retirer le prix de l'utilisation de sources externes telles que les données pré-emballées, le grattage des données ou l'établissement de liens avec des entités riches en données. La conclusion du bas est qu'une contribution de haute qualité est essentielle pour le succès réel des initiatives d'IA. Et la précision, c'est-à-dire un étiquetage correct, est nécessaire pour améliorer la qualité des données et, par extension, les modèles qu'elle alimente.

Dhanshree Shenwai est ingénieur en informatique et possède une bonne expérience dans les entreprises FinTech couvrant les domaines de la finance, des cartes et des paiements et de la banque avec un vif intérêt pour les applications de l'IA. Elle est enthousiaste à l'idée d'explorer les nouvelles technologies et les avancées dans le monde en évolution d'aujourd'hui, ce qui facilite la vie de chacun.

Qu'est-ce que l'étiquetage des données ? Comment fonctionne l'étiquetage des données ? Clé pour gagner En résumé