Comment ouvrir

Nouvelles

MaisonMaison / Nouvelles / Comment ouvrir

Nov 01, 2023

Comment ouvrir

Rejoignez des cadres supérieurs à San Francisco les 11 et 12 juillet pour découvrir comment les dirigeants sont

Rejoignez des cadres supérieurs à San Francisco les 11 et 12 juillet pour découvrir comment les dirigeants intègrent et optimisent les investissements en IA pour réussir. Apprendre encore plus

L'étiquetage des données est l'un des aspects les plus fondamentaux de l'apprentissage automatique. C'est aussi souvent un domaine où les organisations ont du mal à classer avec précision les données et à réduire les biais potentiels.

Avec la technologie d'étiquetage des données, un ensemble de données utilisé pour former un modèle d'apprentissage automatique est d'abord analysé et reçoit une étiquette qui fournit une catégorie et une définition de ce sur quoi portent réellement les données. Bien que l'étiquetage des données soit un élément essentiel du processus d'apprentissage automatique, il s'est récemment avéré également très incohérent, selon plusieurs études. Le besoin d'un étiquetage précis des données a alimenté un marché animé de fournisseurs d'étiquetage des données.

Parmi les technologies d'étiquetage de données les plus populaires, on trouve Label Studio open source, qui est soutenu par la startup Heartex basée à San Francisco. La nouvelle mise à jour Label Studio 1.6 publiée aujourd'hui fournira aux utilisateurs de nouvelles fonctionnalités pour aider à mieux analyser et étiqueter les données à l'intérieur des vidéos.

Selon Michael Malyuk, cofondateur et PDG de Heartex, le défi pour la plupart des entreprises utilisant l'intelligence artificielle (IA) est d'avoir de bonnes données avec lesquelles travailler.

Transformer 2023

Rejoignez-nous à San Francisco les 11 et 12 juillet, où des cadres supérieurs partageront comment ils ont intégré et optimisé les investissements en IA pour réussir et éviter les pièges courants.

"Nous considérons l'étiquetage comme une catégorie plus large de développements d'ensembles de données et Label Studio est une solution qui vous permet finalement de faire n'importe quel type de développement d'ensembles de données", a déclaré Malyuk.

Alors que la version 1.6 de Label Studio a une capacité de lecteur vidéo comme nouvelle fonctionnalité principale, Malyuk a souligné que la technologie est utile pour tout type de données, y compris le texte, l'audio, les séries chronologiques et la vidéo.

L'un des plus gros problèmes de toute approche d'étiquetage pour tous les types de données est la définition des catégories utilisées pour les étiquettes de données.

"Certaines personnes peuvent nommer les choses d'une manière, certaines personnes peuvent nommer les choses d'une manière différente, mais elles signifient essentiellement la même chose", a déclaré Malyuk.

Il a expliqué que Label Studio fournit des taxonomies pour les étiquettes parmi lesquelles les utilisateurs peuvent choisir pour décrire une donnée, qu'il s'agisse d'un fichier texte, audio ou image. Si deux personnes ou plus dans la même organisation étiquettent différemment les mêmes données, le système Label Studio identifiera le conflit afin qu'il puisse être analysé et résolu. Label Studio fournit à la fois un système de résolution manuelle des conflits et une approche automatisée.

Le processus d'étiquetage des données peut souvent impliquer un travail manuel, les humains attribuant une étiquette ou validant qu'une étiquette est exacte.

Il existe un certain nombre d'approches pour automatiser le processus, la startup Lightly AI utilise un modèle d'apprentissage automatique auto-supervisé qui peut s'intégrer à Label Studio. Ensuite, il existe des fournisseurs qui utiliseront une base de données vectorielle pour convertir les données en mathématiques, plutôt que d'utiliser l'étiquetage des données pour identifier les données et leurs relations.

Malyuk a déclaré que les bases de données vectorielles ont leurs utilisations et peuvent être efficaces pour effectuer des tâches telles que les recherches de similarité. Le problème, selon lui, est que l'approche vectorielle n'est pas aussi efficace avec les types de données non structurées telles que l'audio et la vidéo. Il a noté qu'une base de données vectorielles peut utiliser des types d'identification pour des objets communs.

"Dès que vous commencez à vous écarter de cette connaissance commune pour quelque chose d'un peu différent, cela va devenir très compliqué sans étiquetage manuel", a déclaré Malyuk.

Le biais dans l'IA est un défi permanent que de nombreux acteurs de l'industrie tentent de combattre. À la base de l'apprentissage automatique se trouvent les données réelles, et la façon dont les données sont étiquetées peut également entraîner des biais. La partialité peut être intentionnelle, mais aussi circonstancielle.

"Si vous étiquetez un ensemble de données très subjectif le matin avant le café, puis à nouveau après le café, vous pouvez obtenir des réponses très différentes", a déclaré Malyuk.

Bien qu'il ne soit pas toujours possible de s'assurer que les processus d'étiquetage des données ne sont exécutés que par ceux qui sont entièrement caféinés, certains processus peuvent aider. Malyuk a déclaré que ce que fait Label Studio du côté logiciel, c'est qu'il fournit un moyen de créer un processus afin que chacun contribue individuellement. Le système identifie et construit toutes les matrices où il associe les personnes les unes aux autres et comment elles étiquettent les mêmes éléments. C'est une approche qui, selon Malyuk, peut potentiellement identifier les biais pour une étiquette spécifique.

La technologie open source Label Studio est destinée à être utilisée par des individus et de petits groupes, tandis que le projet commercial fournit des fonctionnalités d'entreprise pour les grandes équipes autour de la sécurité, de la collaboration et de l'évolutivité.

"Avec l'open source, nous nous concentrons sur l'utilisateur et nous essayons de rendre la vie de l'utilisateur aussi simple que possible du point de vue de l'étiquetage", a déclaré Malyuk. "Avec l'entreprise, nous nous concentrons sur l'organisation et quels que soient les besoins de l'entreprise, il y en a."

La mission de VentureBeat est d'être une place publique numérique permettant aux décideurs techniques d'acquérir des connaissances sur la technologie d'entreprise transformatrice et d'effectuer des transactions. Découvrez nos Briefings.

La mission de VentureBeat