Freiner les besoins croissants en puissance de l'apprentissage automatique

Nouvelles

MaisonMaison / Nouvelles / Freiner les besoins croissants en puissance de l'apprentissage automatique

Sep 07, 2023

Freiner les besoins croissants en puissance de l'apprentissage automatique

À la lumière des préoccupations croissantes concernant les besoins énergétiques des grosses machines

Par

À la lumière des préoccupations croissantes concernant les besoins énergétiques des grands modèles d'apprentissage automatique, une étude récente du MIT Lincoln Laboratory et de la Northeastern University a étudié les économies pouvant être réalisées par les GPU à limitation de puissance utilisés dans la formation et l'inférence des modèles, ainsi que plusieurs autres techniques et méthodes de réduction de la consommation d'énergie de l'IA.

Les nouveaux travaux appellent également à ce que les nouveaux articles sur l'IA se concluent par une « déclaration énergétique » (similaire à la tendance récente des déclarations « d'implication éthique » dans les articles du secteur de la recherche sur l'apprentissage automatique).

La principale suggestion du travail est que le plafonnement de la puissance (limitant la puissance disponible au GPU qui entraîne le modèle) offre des avantages intéressants en matière d'économie d'énergie, en particulier pour la modélisation du langage masqué (MLM) et des cadres tels que BERT et ses dérivés.

Réseaux de modélisation trilingue fonctionnant à un pourcentage des paramètres par défaut de 250 W (ligne noire), en termes de consommation d'énergie. La limitation de la consommation d'énergie ne limite pas l'efficacité ou la précision de l'entraînement sur une base 1-1, et offre des économies d'énergie notables à grande échelle. Source : https://arxiv.org/pdf/2205.09646.pdf

Pour les modèles à plus grande échelle, qui ont retenu l'attention ces dernières années en raison d'ensembles de données à très grande échelle et de nouveaux modèles avec des milliards ou des billions de paramètres, des économies similaires peuvent être obtenues en faisant un compromis entre le temps de formation et la consommation d'énergie.

Entraîner des modèles NLP plus redoutables à grande échelle sous des contraintes de puissance. Le temps relatif moyen sous un plafond de 150 W est indiqué en bleu et la consommation d'énergie relative moyenne pour 150 W en orange.

Pour ces déploiements à plus grande échelle, les chercheurs ont constaté qu'une limite de 150 W sur l'utilisation de l'énergie obtenait une réduction moyenne de 13,7 % de la consommation d'énergie par rapport au maximum par défaut de 250 W, ainsi qu'une augmentation relativement faible de 6,8 % du temps de formation.

De plus, les chercheurs notent que, malgré les gros titres que le coût de la formation de modèles a recueillis au cours des dernières années, les coûts énergétiques de l'utilisation réelle des modèles formés sont beaucoup plus élevés*.

«Pour la modélisation du langage avec BERT, les gains d'énergie grâce au plafonnement de puissance sont nettement plus importants lors de l'inférence que pour la formation. Si cela est cohérent pour d'autres applications d'IA, cela pourrait avoir des ramifications importantes en termes de consommation d'énergie pour les plates-formes informatiques à grande échelle ou en nuage servant des applications d'inférence pour la recherche et l'industrie.

En outre, et peut-être le plus controversé, l'article suggère que la formation majeure des modèles d'apprentissage automatique soit reléguée aux mois les plus froids de l'année, et à la nuit, pour économiser sur les coûts de refroidissement.

Ci-dessus, statistiques PUE pour chaque jour de 2020 dans le centre de données des auteurs, avec un pic/plateau notable et soutenu pendant les mois d'été. Ci-dessous, la variation horaire moyenne du PUE pour le même emplacement au cours d'une semaine, avec une consommation d'énergie augmentant vers le milieu de la journée, car le matériel de refroidissement interne du GPU et le refroidissement ambiant du centre de données peinent à maintenir une température acceptable.

Les auteurs déclarent :

«De toute évidence, les charges de travail lourdes en PNL sont généralement beaucoup moins efficaces en été que celles exécutées en hiver. Compte tenu de la grande variation saisonnière, s'il y a des expériences coûteuses en calcul qui peuvent être programmées pour les mois les plus froids, ce calendrier peut réduire considérablement l'empreinte carbone.

Le document reconnaît également les nouvelles possibilités d'économie d'énergie qui sont possibles grâce à l'élagage et à l'optimisation de l'architecture et des flux de travail des modèles - bien que les auteurs laissent le développement de cette voie à d'autres initiatives.

Enfin, les auteurs suggèrent que les nouveaux articles scientifiques du secteur de l'apprentissage automatique soient encouragés, voire contraints, à se terminer par une déclaration déclarant la consommation d'énergie des travaux menés dans la recherche et les implications énergétiques potentielles de l'adoption d'initiatives suggérées dans le travail.

Le document, donnant l'exemple, explique les implications énergétiques de ses propres recherches.

L'article s'intitule Great Power, Great Responsibility: Recommendations for Reducing Energy for Training Language Models, et provient de six chercheurs du MIT Lincoln et du Nord-Est.

Alors que les demandes de calcul pour les modèles d'apprentissage automatique ont augmenté parallèlement à l'utilité des résultats, la culture ML actuelle assimile la dépense énergétique à l'amélioration des performances - malgré certains militants notables, tels qu'Andrew Ng, suggérant que la conservation des données pourrait être un facteur plus important.

Dans une collaboration clé du MIT à partir de 2020, il a été estimé qu'une amélioration par dix des performances du modèle entraîne une multiplication par 10 000 des exigences de calcul, ainsi qu'une quantité d'énergie correspondante.

Par conséquent, la recherche sur une formation ML efficace et moins gourmande en énergie a augmenté au cours des dernières années. Le nouvel article, selon les auteurs, est le premier à examiner en profondeur l'effet des plafonds de puissance sur la formation et l'inférence en apprentissage automatique, en mettant l'accent sur les cadres NLP (tels que la série GPT).

Étant donné que la qualité de l'inférence est une préoccupation primordiale, les auteurs déclarent d'emblée leurs conclusions :

«[Cette] méthode n'affecte pas les prédictions des modèles entraînés ni, par conséquent, la précision de leurs performances sur les tâches. Autrement dit, si deux réseaux avec la même structure, les valeurs initiales et les données par lots sont formés pour le même nombre de lots sous différents plafonds de puissance, leurs paramètres résultants seront identiques et seule l'énergie nécessaire pour les produire peut différer.

Pour évaluer l'impact des plafonds de puissance sur la formation et l'inférence, les auteurs ont utilisé l'utilitaire de ligne de commande nvidia-smi (System Management Interface), ainsi qu'une bibliothèque MLM de HuggingFace.

Les auteurs ont formé les modèles de traitement du langage naturel BERT, DistilBERT et Big Bird sur MLM, et ont surveillé leur consommation d'énergie lors de la formation et du déploiement.

Les modèles ont été entraînés sur l'ensemble de données WikiText-103 de DeepAI pendant 4 époques par lots de huit, sur 16 GPU V100, avec quatre plafonds de puissance différents : 100 W, 150 W, 200 W et 250 W (la valeur par défaut ou la ligne de base pour un GPU NVIDIA V100). Les modèles comportaient des paramètres d'apprentissage progressif et des valeurs d'initialisation aléatoires, afin de garantir des évaluations d'apprentissage comparables.

Comme le montre la première image ci-dessus, les résultats démontrent de bonnes économies d'énergie lors d'augmentations favorables non linéaires du temps d'entraînement. Les auteurs déclarent :

"Nos expériences indiquent que la mise en place de plafonds de puissance peut réduire considérablement la consommation d'énergie au détriment du temps de formation."

Ensuite, les auteurs ont appliqué la même méthode à un scénario plus exigeant : former BERT avec MLM sur des configurations distribuées sur plusieurs GPU - un cas d'utilisation plus typique pour les modèles FAANG NLP bien financés et bien connus.

La principale différence dans cette expérience était qu'un modèle pouvait utiliser entre 2 et 400 GPU par instance d'entraînement. Les mêmes contraintes d'utilisation de l'alimentation ont été appliquées et la même tâche utilisée (WikiText-103). Voir la deuxième image ci-dessus pour les graphiques des résultats.

Le papier précise :

"En faisant la moyenne de chaque choix de configuration, une limite de 150 W sur l'utilisation de l'énergie a entraîné une diminution moyenne de 13,7 % de la consommation d'énergie et une augmentation de 6,8 % du temps d'entraînement par rapport au maximum par défaut. [Le] réglage 100 W a des temps d'entraînement nettement plus longs (31,4 % plus longs en moyenne). Une limite de 200 W correspond à presque le même temps d'entraînement qu'une limite de 250 W mais des économies d'énergie plus modestes qu'une limite de 150 W.'

Les auteurs suggèrent que ces résultats prennent en charge le plafonnement de la puissance à 150 W pour les architectures GPU et les applications qui s'exécutent dessus. Ils notent également que les économies d'énergie obtenues se traduisent sur toutes les plates-formes matérielles et ont de nouveau effectué les tests pour comparer les résultats des GPU NVIDIA K80, T4 et A100.

Économies obtenues sur trois GPU NVIDIA différents.

L'article cite plusieurs études antérieures démontrant que, malgré les gros titres, c'est l'inférence (l'utilisation d'un modèle fini, tel qu'un modèle PNL) et non la formation qui consomme le plus de puissance, suggérant qu'à mesure que les modèles populaires sont marchandisés et entrent dans le courant dominant, la consommation d'énergie pourrait devenir un problème plus important qu'elle ne l'est actuellement à ce stade plus naissant du développement de la PNL.

Ainsi, les chercheurs ont mesuré l'impact de l'inférence sur la consommation d'énergie, constatant que l'imposition de plafonds de puissance a un effet notable sur la latence d'inférence :

"Par rapport à 250 W, un réglage de 100 W a nécessité le double du temps d'inférence (une augmentation de 114 %) et a consommé 11,0 % d'énergie en moins, 150 W ont nécessité 22,7 % de temps en plus et économisé 24,2 % d'énergie, et 200 W ont nécessité 8,2 % de temps en plus avec 12,0 % d'énergie en moins."

L'article suggère que la formation (sinon l'inférence, pour des raisons évidentes) pourrait être planifiée à des moments où le centre de données est au maximum de l'efficacité de l'utilisation de l'énergie (PUE) - en fait, c'est-à-dire en hiver et la nuit.

"Des économies d'énergie significatives peuvent être obtenues si les charges de travail peuvent être planifiées à des moments où un PUE plus faible est attendu." Par exemple, déplacer un travail de courte durée du jour à la nuit peut entraîner une réduction d'environ 10 %, et déplacer un travail plus long et coûteux (par exemple, un modèle linguistique prenant des semaines) de l'été à l'hiver peut entraîner une réduction de 33 %.

"Bien qu'il soit difficile de prédire les économies qu'un chercheur individuel peut réaliser, les informations présentées ici soulignent l'importance des facteurs environnementaux affectant l'énergie globale consommée par leurs charges de travail."

Enfin, l'article observe qu'il est peu probable que les ressources de traitement locales aient mis en œuvre les mêmes mesures d'efficacité que les principaux centres de données et les acteurs du calcul cloud de haut niveau, et que des avantages environnementaux pourraient être obtenus en transférant les charges de travail vers des sites qui ont investi massivement dans un bon PUE.

«Bien qu'il soit pratique d'avoir des ressources informatiques privées accessibles, cette commodité a un coût. D'une manière générale, les économies d'énergie et l'impact sont plus facilement obtenus à plus grande échelle. Les centres de données et les fournisseurs de cloud computing investissent considérablement dans l'efficacité de leurs installations.'

* Liens pertinents donnés par l'article.

Une nouvelle technique d'IA peut améliorer les prévisions de feux de forêt

Une nouvelle IA suit la santé des récifs coralliens

Rédacteur sur l'apprentissage automatique, l'intelligence artificielle et le big data.Site personnel : martinanderson.ai Contact : [email protected] Twitter : @manders_ai

Trouver de vrais partenariats : comment les entreprises de services publics évaluent les fournisseurs d'intelligence artificielle

Le modèle de diffusion eDiffi de NVIDIA permet de "peindre avec des mots" et plus encore

UniTune : la technique alternative d'édition d'images neurales de Google

La solution unique de DALL-E 2 pour doubler les significations

Édition d'objets assistée par l'IA avec Imagic de Google et "Effacer et remplacer" de Runway

GOTCHA– Un système CAPTCHA pour les deepfakes en direct

La prise d'énergie imminente de l'apprentissage automatique réduit la puissance de la NLP