Découvrez le raisonnement et l'outil automatisés

Blog

MaisonMaison / Blog / Découvrez le raisonnement et l'outil automatisés

Nov 24, 2023

Découvrez le raisonnement et l'outil automatisés

Les grands modèles de langage peuvent s'adapter rapidement à de nouvelles tâches en utilisant en contexte

Les grands modèles de langage peuvent s'adapter rapidement à de nouvelles tâches en utilisant l'apprentissage en contexte en recevant quelques démos et des instructions en langage réel. Cela évite d'héberger le LLM ou d'annoter de grands ensembles de données, mais cela pose des problèmes de performances majeurs avec le raisonnement en plusieurs étapes, les mathématiques, la possession des informations les plus récentes et d'autres choses. Des recherches récentes suggèrent de donner aux LLM l'accès à des outils pour faciliter des étapes de raisonnement plus sophistiquées ou de les mettre au défi d'émuler une chaîne de raisonnement pour un raisonnement en plusieurs étapes afin d'atténuer ces contraintes. Néanmoins, il est difficile d'adapter les approches établies pour une raison enchaînée avec l'utilisation d'outils à de nouvelles activités et outils ; cela nécessite une mise au point ou une ingénierie rapide spécialisée pour une activité ou un outil particulier.

Des chercheurs de l'Université de Washington, de Microsoft, de Meta, de l'Université de Californie et de l'Allen Institute of AI research développent le cadre Automated Reasoning and Tool usage (ART), qui crée automatiquement des décompositions (raisonnement en plusieurs étapes) pour des exemples de nouvelles tâches, est présenté dans cette étude. ART extrait des exemples de tâches similaires d'une bibliothèque de tâches pour permettre une répartition en quelques prises de vue et l'utilisation d'outils pour un travail ultérieur. Ces exemples utilisent un langage de requête flexible mais structuré qui simplifie la lecture des étapes intermédiaires, interrompt la création pour utiliser des outils externes et la redémarre une fois que la sortie de ces outils a été incluse (Figure 1). En outre, le cadre choisit et utilise les meilleurs outils appropriés (tels que les moteurs de recherche et l'exécution de code) à chaque étape.

Le LLM reçoit des démonstrations d'ART sur la façon de décomposer les instances de diverses activités connexes et sur la façon de choisir et d'utiliser n'importe quel outil de la bibliothèque d'outils décrite dans ces exemples. Cela aide le modèle à généraliser à partir d'exemples pour décomposer de nouvelles tâches et utiliser les bons outils pour le travail, zéro coup. De plus, les utilisateurs peuvent mettre à jour les bibliothèques de tâches et d'outils et ajouter des exemples récents si nécessaire pour corriger toute erreur dans la chaîne logique ou ajouter de nouveaux outils (par exemple, pour la tâche à accomplir).

Ils créent une bibliothèque de tâches pour 15 tâches BigBench et testent ART sur 19 tâches de test BigBench inédites, 6 tâches MMLU et de nombreuses tâches issues de recherches sur l'utilisation d'outils pertinents (SQUAD, TriviaQA, SVAMP, MAWPS). Pour 32 des 34 problèmes BigBench et toutes les tâches MMLU, ART correspond ou dépasse régulièrement les chaînes de raisonnement CoT créées par ordinateur, en moyenne, de plus de 22 points de pourcentage. Lorsque les outils sont autorisés, les performances sur les tâches de test augmentent en moyenne d'environ 12,3 points de pourcentage par rapport à lorsqu'ils ne le sont pas.

En moyenne, ART surpasse de 10,8 % les performances des invites directes à quelques prises de vue sur les tâches BigBench et MMLU. L'ART surpasse de 12,5 % l'incitation directe à quelques prises de vue sur des tâches invisibles exigeant un raisonnement mathématique et algorithmique et surpasse de 6,1 % les résultats les plus connus du GPT3, y compris la supervision de la décomposition et de l'utilisation des outils. La mise à jour des bibliothèques de tâches et d'outils avec de nouveaux exemples permet une interaction humaine et l'amélioration du processus de raisonnement, ce qui rend incroyablement simple l'amélioration des performances sur n'importe quel travail donné avec une intervention humaine minimale. Sur 12 tâches de test, ART surpasse les résultats GPT3 les plus connus de plus de 20 % de points en moyenne lorsqu'il reçoit une rétroaction humaine supplémentaire.

VérifiezPapieretPage du projet . Tout le mérite de cette recherche revient aux chercheurs de ce projet. N'oubliez pas non plus de vous inscrirenotre sous-reddit 16k+ ML,Chaîne discorde, etCourriel, où nous partageons les dernières nouvelles sur la recherche en IA, des projets d'IA sympas, et plus encore.

Aneesh Tickoo est consultante stagiaire chez MarktechPost. Il poursuit actuellement ses études de premier cycle en science des données et en intelligence artificielle à l'Institut indien de technologie (IIT) de Bhilai. Il passe la plupart de son temps à travailler sur des projets visant à exploiter la puissance de l'apprentissage automatique. Son intérêt de recherche est le traitement d'images et est passionné par la construction de solutions autour de celui-ci. Il aime se connecter avec les gens et collaborer sur des projets intéressants.

Figure 1: Page de projet papier de notre newsletter par e-mail de 16k + ML SubReddit Discord Channel