Pourquoi les données restent le plus grand défi pour les projets d'apprentissage automatique

Nouvelles

MaisonMaison / Nouvelles / Pourquoi les données restent le plus grand défi pour les projets d'apprentissage automatique

Nov 04, 2023

Pourquoi les données restent le plus grand défi pour les projets d'apprentissage automatique

Rejoignez des cadres supérieurs à San Francisco les 11 et 12 juillet pour découvrir comment les dirigeants sont

Rejoignez des cadres supérieurs à San Francisco les 11 et 12 juillet pour découvrir comment les dirigeants intègrent et optimisent les investissements en IA pour réussir. Apprendre encore plus

Des données de qualité sont au cœur du succès de l'intelligence artificielle (IA) d'entreprise. Et par conséquent, il reste la principale source de défis pour les entreprises qui souhaitent appliquer l'apprentissage automatique (ML) dans leurs applications et leurs opérations.

L'industrie a fait des progrès impressionnants pour aider les entreprises à surmonter les obstacles à l'approvisionnement et à la préparation de leurs données, selon le dernier rapport d'Appen sur l'état de l'IA. Mais il reste encore beaucoup à faire à différents niveaux, y compris la structure organisationnelle et les politiques de l'entreprise.

Le cycle de vie de l'IA d'entreprise peut être divisé en quatre étapes : la recherche de données, la préparation des données, les tests et le déploiement de modèles et l'évaluation de modèles.

Les progrès de l'informatique et des outils de ML ont permis d'automatiser et d'accélérer des tâches telles que la formation et le test de différents modèles de ML. Les plates-formes de cloud computing permettent de former et de tester simultanément des dizaines de modèles différents de tailles et de structures différentes. Mais à mesure que les modèles d'apprentissage automatique augmentent en nombre et en taille, ils nécessiteront davantage de données de formation.

Transformer 2023

Rejoignez-nous à San Francisco les 11 et 12 juillet, où des cadres supérieurs partageront comment ils ont intégré et optimisé les investissements en IA pour réussir et éviter les pièges courants.

Malheureusement, l'obtention de données de formation et l'annotation nécessitent encore un effort manuel considérable et sont largement spécifiques à l'application. Selon le rapport d'Appen, "le manque de données suffisantes pour un cas d'utilisation spécifique, les nouvelles techniques d'apprentissage automatique qui nécessitent de plus grands volumes de données, ou les équipes n'ont pas les bons processus en place pour obtenir facilement et efficacement les données dont elles ont besoin".

"Des données de formation de haute qualité sont nécessaires pour des performances de modèle précises ; et les grands ensembles de données inclusifs coûtent cher", a déclaré Sujatha Sagiraju, chef de produit d'Appen, à VentureBeat. "Cependant, il est important de noter que de précieuses données d'IA peuvent augmenter les chances que votre projet passe du pilote à la production ; la dépense est donc nécessaire."

Les équipes ML peuvent commencer avec des ensembles de données pré-étiquetés, mais elles devront éventuellement collecter et étiqueter leurs propres données personnalisées pour étendre leurs efforts. Selon l'application, l'étiquetage peut devenir extrêmement coûteux et demander beaucoup de main-d'œuvre.

Dans de nombreux cas, les entreprises disposent de suffisamment de données, mais elles ne peuvent pas gérer les problèmes de qualité. Des données biaisées, mal étiquetées, incohérentes ou incomplètes réduisent la qualité des modèles ML, ce qui nuit à son tour au retour sur investissement des initiatives d'IA.

"Si vous formez des modèles ML avec de mauvaises données, les prédictions du modèle seront inexactes", a déclaré Sagiraju. "Pour s'assurer que leur IA fonctionne bien dans des scénarios réels, les équipes doivent disposer d'un mélange d'ensembles de données de haute qualité, de données synthétiques et d'une évaluation humaine dans la boucle dans leur kit de formation."

Selon Appen, les chefs d'entreprise sont beaucoup moins susceptibles que le personnel technique de considérer l'approvisionnement et la préparation des données comme les principaux défis de leurs initiatives d'IA. "Il existe encore des écarts entre les technologues et les chefs d'entreprise lorsqu'il s'agit de comprendre les principaux goulots d'étranglement dans la mise en œuvre des données pour le cycle de vie de l'IA. Cela entraîne un désalignement des priorités et du budget au sein de l'organisation", selon le rapport Appen.

"Ce que nous savons, c'est que certains des plus gros goulots d'étranglement pour les initiatives d'IA résident dans le manque de ressources techniques et d'adhésion de la direction", a déclaré Sagiraju. "Si vous jetez un coup d'œil à ces catégories, vous voyez que les scientifiques des données, les ingénieurs en apprentissage automatique, les développeurs de logiciels et les cadres sont dispersés dans différents domaines, il n'est donc pas difficile d'imaginer un manque de stratégie alignée en raison de priorités conflictuelles entre les différentes équipes au sein de l'organisation."

La diversité des personnes et des rôles impliqués dans les initiatives d'IA rend difficile la réalisation de cet alignement. Des développeurs qui gèrent les données aux scientifiques des données qui traitent des problèmes sur le terrain, en passant par les dirigeants qui prennent des décisions commerciales stratégiques, tous ont des objectifs différents en tête et donc des priorités et des budgets différents.

Cependant, Sagiraju constate que l'écart se réduit lentement d'année en année lorsqu'il s'agit de comprendre les défis de l'IA. Et c'est parce que les organisations comprennent mieux l'importance de données de haute qualité pour le succès des initiatives d'IA.

"L'accent mis sur l'importance des données - en particulier des données de haute qualité qui correspondent aux scénarios d'application - est pour le succès d'un modèle d'IA a réuni des équipes pour résoudre ces défis", a déclaré Sagiraju.

Les défis liés aux données ne sont pas nouveaux dans le domaine du ML appliqué. Mais à mesure que les modèles ML se développent et que les données deviennent plus abondantes, il est nécessaire de trouver des solutions évolutives pour assembler des données de formation de qualité.

Heureusement, quelques tendances aident les entreprises à surmonter certains de ces défis, et le rapport d'Appen sur l'IA montre que le temps moyen consacré à la gestion et à la préparation des données est en baisse.

Un exemple est l'étiquetage automatisé. Par exemple, les modèles de détection d'objets nécessitent que les cadres de délimitation de chaque objet dans les exemples de formation soient spécifiés, ce qui nécessite un effort manuel considérable. Les outils d'étiquetage automatisés et semi-automatisés utilisent un modèle d'apprentissage en profondeur pour traiter les exemples de formation et prédire les cadres de délimitation. Les étiquettes automatisées ne sont pas parfaites et un étiqueteur humain doit les examiner et les ajuster, mais elles accélèrent considérablement le processus. De plus, le système d'étiquetage automatisé peut être davantage formé et amélioré au fur et à mesure qu'il reçoit les commentaires des étiqueteurs humains.

"Alors que de nombreuses équipes commencent par étiqueter manuellement leurs ensembles de données, d'autres se tournent vers des méthodes permettant de gagner du temps pour automatiser partiellement le processus", a déclaré Sagiraju.

Dans le même temps, il existe un marché croissant pour les données synthétiques. Les entreprises utilisent des données générées artificiellement pour compléter les données qu'elles collectent dans le monde réel. Les données synthétiques sont particulièrement utiles dans les applications où l'obtention de données réelles est coûteuse ou dangereuse. Un exemple en est les entreprises de voitures autonomes, qui sont confrontées à des défis réglementaires, de sécurité et juridiques pour obtenir des données à partir de routes réelles.

"Les voitures autonomes nécessitent des quantités incroyables de données pour être sûres et prêtes à tout une fois qu'elles prennent la route, mais certaines des données les plus complexes ne sont pas facilement disponibles", a déclaré Sagiraju. "Les données synthétiques permettent aux praticiens de tenir compte des cas extrêmes ou des scénarios dangereux comme les accidents, les piétons qui traversent et les véhicules d'urgence pour former efficacement leurs modèles d'IA. Les données synthétiques peuvent créer des instances pour former des données lorsqu'il n'y a pas suffisamment de données d'origine humaine. C'est essentiel pour combler les lacunes. "

Dans le même temps, l'évolution du marché MLops aide les entreprises à relever de nombreux défis du pipeline d'apprentissage automatique, notamment l'étiquetage et la gestion des versions des ensembles de données ; former, tester et comparer différents modèles de ML ; déployer des modèles à grande échelle et suivre leurs performances ; et la collecte de nouvelles données et la mise à jour des modèles au fil du temps.

Mais comme le ML joue un rôle plus important dans les entreprises, une chose qui deviendra plus importante est le contrôle humain.

"Les évaluations Human-in-the-loop (HITL) sont impératives pour fournir des informations précises et pertinentes et éviter les préjugés", a déclaré Sagiraju. "Malgré ce que beaucoup pensent que les humains prennent en fait un siège arrière dans la formation à l'IA, je pense que nous verrons une tendance vers davantage d'évaluations HITL dans le but de renforcer l'IA responsable et d'avoir plus de transparence sur ce que les organisations mettent dans leurs modèles pour s'assurer que les modèles fonctionnent bien dans le monde réel."

La mission de VentureBeat est d'être une place publique numérique permettant aux décideurs techniques d'acquérir des connaissances sur la technologie d'entreprise transformatrice et d'effectuer des transactions. Découvrez nos Briefings.

La mission de VentureBeat