Jan 28, 2024
Utilisation de l'apprentissage automatique pour améliorer l'évaluation de la toxicité des produits chimiques
Des chercheurs de l'Université d'Amsterdam, en collaboration avec des collègues de
Des chercheurs de l'Université d'Amsterdam, en collaboration avec des collègues de l'Université du Queensland et de l'Institut norvégien de recherche sur l'eau, ont développé une stratégie d'évaluation de la toxicité des produits chimiques à l'aide de l'apprentissage automatique.Ils présentent leur démarche dans un article en sciences et technologies de l'environnement pour le numéro spécial "Data Science for Advancing Environmental Science, Engineering, and Technology". Les modèles développés dans cette étude peuvent conduire à des améliorations substantielles par rapport aux évaluations in silico conventionnelles basées sur la modélisation de la relation quantitative structure-activité (QSAR).
Selon les chercheurs, l'utilisation de l'apprentissage automatique peut considérablement améliorer l'évaluation des dangers des molécules, à la fois dans le développement sûr dès la conception de nouveaux produits chimiques et dans l'évaluation des produits chimiques existants. L'importance de ce dernier est illustrée par le fait que les agences chimiques européennes et américaines ont répertorié environ 800 000 produits chimiques qui ont été développés au fil des ans mais pour lesquels il existe peu ou pas de connaissances sur le devenir ou la toxicité dans l'environnement.
Étant donné qu'une évaluation expérimentale du devenir chimique et de la toxicité nécessite beaucoup de temps, d'efforts et de ressources, des approches de modélisation sont déjà utilisées pour prédire les indicateurs de danger. En particulier, la modélisation de la relation quantitative structure-activité (QSAR) est souvent appliquée, reliant les caractéristiques moléculaires telles que l'arrangement atomique et la structure 3D aux propriétés physicochimiques et à l'activité biologique. Sur la base des résultats de la modélisation (ou des données mesurées lorsqu'elles sont disponibles), les experts classent une molécule en catégories telles que définies par exemple dans le Système général harmonisé de classification et d'étiquetage des produits chimiques (SGH). Pour des catégories spécifiques, les molécules font alors l'objet de plus de recherches, d'une surveillance plus active et éventuellement d'une législation.
Cependant, ce processus présente des inconvénients inhérents, dont une grande partie peut être attribuée aux limites des modèles QSAR. Ils sont souvent basés sur des ensembles d'apprentissage très homogènes et supposent une relation structure-activité linéaire pour faire des extrapolations. En conséquence, de nombreux produits chimiques ne sont pas bien représentés par les modèles QSAR existants et leurs utilisations peuvent potentiellement conduire à des erreurs de prédiction substantielles et à une mauvaise classification des produits chimiques.
Dans l'article publié dans Environmental Science & Technology, le Dr Saer Samanipour et ses co-auteurs proposent une stratégie d'évaluation alternative qui saute complètement l'étape de prédiction QSAR. Samanipour, scientifique analytique de l'environnement à l'Institut Van 't Hoff des sciences moléculaires de l'Université d'Amsterdam, s'est associée au Dr Antonia Praetorius, chimiste de l'environnement à l'Institut de la biodiversité et de la dynamique des écosystèmes de la même université. En collaboration avec des collègues de l'Université du Queensland et de l'Institut norvégien de recherche sur l'eau, ils ont développé une stratégie basée sur l'apprentissage automatique pour la classification directe de la toxicité aquatique aiguë des produits chimiques sur la base de descripteurs moléculaires.
Le modèle a été développé et testé via 907 données obtenues expérimentalement pour la toxicité aiguë pour les poissons (valeurs 96h LC50). Le nouveau modèle ignore la prédiction explicite d'une valeur de toxicité (96h LC50) pour chaque produit chimique, mais classe directement chaque produit chimique dans un certain nombre de catégories de toxicité prédéfinies. Ces catégories peuvent par exemple être définies par des réglementations spécifiques ou des systèmes de normalisation, comme démontré dans l'article avec les catégories GHS pour le danger aquatique aigu. Le modèle a expliqué environ 90 % de la variance des données utilisées dans l'ensemble d'apprentissage et environ 80 % pour les données de l'ensemble de test.
Cette stratégie de classification directe a entraîné une diminution par cinq de la catégorisation incorrecte par rapport à une stratégie basée sur un modèle de régression QSAR. Par la suite, les chercheurs ont élargi leur stratégie pour prédire les catégories de toxicité d'un vaste ensemble de 32 000 produits chimiques.
Ils démontrent que leur approche de classification directe se traduit par des prédictions plus précises, car des ensembles de données expérimentales provenant de différentes sources et pour différentes familles chimiques peuvent être regroupés pour générer des ensembles d'apprentissage plus grands. Il peut être adapté à différentes catégories prédéfinies telles que prescrites par diverses réglementations internationales et systèmes de classification ou d'étiquetage. À l'avenir, l'approche de classification directe peut également être étendue à d'autres catégories de danger (par exemple, la toxicité chronique) ainsi qu'au devenir dans l'environnement (par exemple, la mobilité ou la persistance) et montre un grand potentiel pour améliorer les outils in silico pour l'évaluation des risques et des dangers chimiques.
- Ce communiqué de presse a été initialement publié sur le site Web de l'Université d'Amsterdam
Ils présentent leur approche dans un article Ignorer la prédiction QSAR Prédictions plus précises