Extraction d'informations sur les matériaux via des corpus générés automatiquement

NOUVELLES RÉCENTES

Jul 19, 2023

Stratégies du marché des machines de remplissage de poudre pour nourrissons et perspectives du segment jusqu'en 2030

Jun 04, 2023

Mise à jour des prévisions du marché des machines de remplissage de lait en poudre: dernières tendances, moteurs et opportunités de croissance

Jul 08, 2023

L'automatisation pneumatique permet à l'huile de cannabis de Loud Labs de devenir nationale

Jul 11, 2023

Une entreprise locale Good Filling cherche à réduire les déchets plastiques grâce à des machines rechargeables

Jul 15, 2023

Machine de remplissage de gélules GKF 2500

ENVOYEZ VOTRE DEMANDE

SOUMETTRE

Nov 19, 2023

Extraction d'informations sur les matériaux via des corpus générés automatiquement

Données scientifiques tome 9,

Données scientifiques volume 9, Numéro d'article : 401 (2022) Citer cet article

2608 accès

1 Citations

1 Altmétrique

Détails des métriques

L'extraction d'informations (IE) dans le traitement du langage naturel (TAL) vise à extraire des informations structurées d'un texte non structuré pour aider un ordinateur à comprendre le langage naturel. Les méthodes IE basées sur l'apprentissage automatique apportent plus d'intelligence et de possibilités mais nécessitent un corpus étiqueté étendu et précis. Dans le domaine de la science des matériaux, donner des étiquettes fiables est une tâche laborieuse qui nécessite les efforts de nombreux professionnels. Pour réduire l'intervention manuelle et générer automatiquement des corpus de matériaux pendant l'IE, dans ce travail, nous proposons un cadre d'IE semi-supervisé pour les matériaux via un corpus généré automatiquement. En prenant comme exemple l'extraction de données de superalliage dans nos travaux précédents, le cadre proposé utilisant Snorkel étiquette automatiquement le corpus contenant les valeurs de propriété. Ensuite, le réseau ON-LSTM (Ordered Neurons-Long Short-Term Memory) est adopté pour former un modèle d'extraction d'informations sur le corpus généré. Les résultats expérimentaux montrent que le score F1 de la température de solvus γ', de la densité et de la température de solidus des superalliages est de 83,90 %, 94,02 %, 89,27 %, respectivement. De plus, nous menons des expériences similaires sur d'autres matériaux, les résultats expérimentaux montrent que le cadre proposé est universel dans le domaine des matériaux.

Le traitement du langage naturel (TLN) se concentre sur la compréhension d'un texte par un ordinateur afin qu'un ordinateur puisse analyser et traiter le langage naturel1. L'extraction d'informations (IE) dans le NLP est l'une des technologies d'exploration de texte les plus importantes et vise à extraire des informations structurées à partir de textes non structurés2. La littérature scientifique dans le domaine des matériaux contient un grand nombre de données fiables, ce qui favorise la recherche et le développement de matériaux axés sur les données3,4,5. Compter uniquement sur l'extraction manuelle humaine prend du temps6. Ainsi, l'extraction automatique de données de substances chimiques organiques et inorganiques à partir d'articles dans les domaines de la chimie et de la science des matériaux a pris tout son sens en utilisant les techniques NLP7,8,9,10,11.

Avec le développement de l'apprentissage automatique et de la PNL, la technologie IE s'est développée rapidement6, notamment en biologie et en médecine. Sunil et al. ont proposé que l'IE est un processus de détection et de classification des relations sémantiques et ont utilisé un réseau de neurones convolutifs (CNN) pour obtenir des caractéristiques sémantiques afin d'extraire les informations dans le domaine biomédical12. De nombreux articles ont appliqué des modèles d'apprentissage en profondeur pour l'optimisation des fonctionnalités ; par exemple, Xinbo et al. utilisé des champs aléatoires conditionnels (CRF) pour classer les caractéristiques du contexte et utilisé des auto-encodeurs et des limitations de parcimonie pour résoudre le problème de parcimonie des mots13. Récemment, d'autres systèmes IE ont également été étudiés dans la recherche d'informations possibles avec la mémoire à long court terme (LSTM). Raghavendra et al. mots intégrés dans LSTM et CRF bidirectionnels. Ils ont utilisé un réseau neuronal récurrent pour obtenir des caractéristiques et compléter l'extraction de concepts cliniques14. Arsad et al. ont présenté une méthode LSTM pour comprendre la grammaire du langage et en déduire la relation entre les mots15. Cependant, tous les réseaux de neurones ci-dessus nécessitent un corpus étiqueté étendu et précis pour former le réseau.

Malheureusement, il existe relativement peu d'articles sur de nombreux sujets liés aux matériaux, tels que les superalliages, extraire les informations requises de l'article devient une tâche délicate. Dans nos travaux précédents11, nous avons développé un pipeline NLP pour capturer à la fois la composition chimique et les données de propriétés de la littérature scientifique sur les superalliages. Une méthode de reconnaissance d'entités nommées (NER) basée sur des règles et un algorithme d'extraction de relations multiples heuristiques basé sur la distance pour le pipeline ont été proposés pour surmonter l'inconvénient des étiquettes de corpus d'apprentissage limitées et obtenir simultanément une précision et un rappel élevés. L'algorithme IE proposé est une méthode basée sur des règles, alors que la méthode d'apprentissage automatique a été abandonnée après comparaison car le corpus étiqueté n'était pas suffisant pour l'apprentissage. C'est une tâche laborieuse qui nécessite les efforts de nombreux professionnels si elle est réalisée par des humains seuls. La stratégie basée sur des règles est efficace dans de telles conditions mais sans la capacité d'apprendre et de se mettre à jour de manière indépendante. Par conséquent, la génération automatique de corpus dans le domaine matériel, permettant de réduire les interventions manuelles, est nécessaire pour l'IE basé sur l'apprentissage automatique, ce qui permettra aux ordinateurs de lire des articles et d'extraire des ensembles de données par eux-mêmes.

Deux problèmes sont inévitables face aux problèmes de machine learning : les données et les algorithmes. Avec l'amélioration de divers cadres d'apprentissage automatique, le seuil d'application des algorithmes diminue progressivement. Cependant, l'acquisition de données reste un processus laborieux et nécessaire. Au travail, nous sommes généralement confrontés au problème suivant : la tâche a beaucoup de corpus, mais aucun d'entre eux n'a d'étiquettes fiables. En réponse aux problèmes ci-dessus, les méthodes habituelles sont l'apprentissage non supervisé de caractéristiques transférables, la combinaison d'un système de règles et d'un modèle ou d'un système de règles d'empilement simple, des méthodes semi-supervisées pour étendre les données d'étiquettes, augmenter la vérification manuelle et l'annotation16. Mais ces méthodes sont soit trop lourdes à mettre en œuvre, soit trop coûteuses, soit trop rigides. Sur cette base, Snorkel16 en tant que cadre de programmation de données permettant la construction rapide d'ensembles de données et la formation de modèles a été proposé par une équipe de recherche de l'Université de Stanford.

Dans ce travail, nous proposons un framework IE semi-supervisé pour le domaine des matériaux via des corpus générés automatiquement. En prenant l'extraction de données de superalliage dans les travaux précédents comme exemple, le cadre proposé utilisant Snorkel17 étiquette automatiquement le corpus contenant le nom d'un superalliage et ses valeurs de propriété correspondantes. Nous avons d'abord placé la fonction d'étiquetage écrite selon les caractéristiques de la phrase de la littérature scientifique dans le processus d'entraînement de la fonction Snorkel, puis nous obtenons l'ensemble d'entraînement précis. La semi-supervision s'incarne dans des fonctions d'étiquetage écrites par l'homme plutôt que d'augmenter les données. Enfin, nous utilisons le réseau populaire Ordered Neurons-LSTM (ON-LSTM)18 pour former un modèle d'extraction d'informations sur ce corpus de formation automatisé et extraire les valeurs de propriété dans la littérature scientifique des matériaux. Nous obtenons des résultats environ 18% plus élevés en utilisant ON-LSTM que le LSTM traditionnel sur la tâche d'extraction d'informations. Le code est disponible sur https://github.com/MGEdata/auto-generate-corpus. Nos contributions se résument comme suit :

Un nouveau cadre IE est proposé pour les matériaux utilisant la méthode semi-supervisée en apprentissage automatique pour générer automatiquement des corpus. Ces travaux sont complétés sur la base des travaux précédents11, et extraient davantage les informations dans le domaine matériel.

ON-LSTM est utilisé pour terminer la tâche d'IE. À notre connaissance, c'est la première fois que ON-LSTM et IE sont combinés pour explorer la possibilité d'une intégration potentielle.

Les résultats expérimentaux montrent que la méthode proposée dans cet article peut efficacement extraire des informations et être appliquée à de larges sujets de matériaux.

Notre méthode d'extraction d'informations sur les matériaux en générant automatiquement un corpus implique les étapes suivantes : NER, génération d'ensembles candidats, cadre Snorkel et modèle de formation, comme illustré à la Fig. 1. Afin d'expliquer le flux de travail de l'algorithme plus en détail et de manière plus vivante, nous prenons la température de solvus γ' du superalliage comme exemple. Le corpus initial que nous utilisons consiste à utiliser la méthode NER pour marquer le nom du superalliage et la valeur de la propriété dans une phrase. La méthode spécifique du NER est détaillée dans notre précédent article11. Cependant, le corpus initial marque tous les noms de superalliage et les valeurs de propriété dans une phrase, selon NER ne peut pas trouver avec précision le mode de correspondance des noms de superalliage et des valeurs de propriété s'il existe plusieurs noms de superalliage et valeurs de propriété dans une phrase. L'étape suivante consiste à générer des candidats. Voici un exemple de phrase décrivant la température de solvus γ' des superalliages :

Processus d'extraction d'informations. Parmi eux, BA représente le nom du superalliage et B-Val représente la valeur de la propriété. LF_1, LF_2, …, LF_n représentent le nom des fonctions d'étiquetage.

Les températures de solvus γ' de X1, X2 et X3 sont respectivement Y1, Y2 et Y3.

Cette phrase implique trois superalliages et leurs températures de solvus γ '. Dans cette phrase, Xi représente le ième superalliage et Yi représente la valeur de la ième température de solvus γ'. Dans cet exemple, la tâche que nous devons accomplir est de trouver leur association correcte : (X1, Y1), (X2, Y2) et (\({X}_{3}\), \({Y}_{3}\)). Nous définissons les candidats comme une combinaison exhaustive des noms de superalliages \({X}_{1}\), \({X}_{2}\), \({X}_{3}\) et des températures de solvus γ' \({Y}_{1}\), \({Y}_{2}\), \({Y}_{3}\). Il y a donc 9 candidats : (\({X}_{1}\), \({Y}_{1}\)), (\({X}_{1}\), \({Y}_{2}\)), (\({X}_{1}\), \({Y}_{3}\)), (\({X}_{2}\), \({Y}_{1}\)), (\({X}_{2}\), \({Y}_ {2}\)), (\({X}_{2}\), \({Y}_{3}\)), (\({X}_{3}\), \({Y}_{1}\)), (\({X}_{3}\), \({Y}_{2}\)), (\({X}_{3}\), \({Y}_{3}\)). S'il y a \(m\) noms de superalliage et \(n\) températures de solvus γ' dans une phrase, m*n candidats seront générés.

Dans la troisième étape, nous écrivons quelques fonctions d'étiquetage dans le framework Snorkel, une méthode semi-supervisée pour sélectionner les candidats, et obtenir le bon appariement du nom du superalliage et de la température de solvus γ'. Jusqu'à présent, nous avons trouvé avec précision la relation à extraire et généré le corpus dont nous avons besoin. Enfin, nous utilisons le modèle d'apprentissage profond ON-LSTM dans ces corpus, afin que les nouveaux corpus extraient directement la relation requise en utilisant le modèle d'apprentissage.

Aucun corpus public d'IE ne peut être exploité en raison du peu de littérature dans le domaine des superalliages. Par conséquent, pour entraîner un modèle dans ce domaine, le problème des corpus d'entraînement peut être résolu par une recherche manuelle19. Snorkel propose l'idée radicale qu'une structure mathématique et systématique peut être fournie pour le processus désordonné et souvent entièrement manuel de création et de gestion des données de formation, en commençant par donner aux utilisateurs les moyens d'étiqueter, de créer et de gérer des corpus de formation par programmation.

La troisième partie de la figure 1 montre le processus spécifique du cadre Snorkel. Le principal avantage du cadre Snorkel est qu'il n'est pas nécessaire d'étiqueter l'ensemble de données manuellement. Lorsque la tâche change, les données peuvent devoir être réétiquetées, développées ou ignorées20. Les utilisateurs n'ont qu'à prêter attention aux caractéristiques de chaque ensemble de données et à écrire des fonctions d'étiquetage pour l'ensemble de données qui peuvent déterminer automatiquement vrai et faux pour les candidats. Cependant, Snorkel ne propose qu'un cadre pour générer les données d'entraînement et n'est pas conçu pour un domaine spécifique ; dans des travaux antérieurs20, ont utilisé Snorkel dans le domaine de la chimie. Dans ce travail, nous développons une application de Snorkel qui est un cadre d'apprentissage faiblement supervisé pour générer des corpus à partir de la littérature scientifique.

Pour générer des candidats, nous utilisons des règles pour étiqueter tous les mots pertinents sur les superalliages et la température de solvus γ' de la littérature scientifique. Nous épuisons toutes les combinaisons des superalliages marqués et de la température de solvus γ 'pour former des ensembles candidats, puis nous les jugeons à l'aide de fonctions d'étiquetage. Le modèle génératif de Snorkel calcule la précision et la pertinence des ensembles candidats en fonction de la cohérence et de la divergence des fonctions d'étiquetage écrites. Sur la base des fonctions d'étiquetage, le modèle génératif ne nécessite pas de données réelles et juge directement si le candidat a raison ou tort. Chaque candidat sera évalué par toutes les fonctions de labellisation pour obtenir un résultat raisonnable. Les candidats sont jugés correctement, formant les corpus cibles.

Pour les superalliages dans les matériaux, nous utilisons des méthodes basées sur des règles pour classer les phrases contenant le nom des superalliages et les valeurs de propriété correspondantes parmi plus de 14 425 textes intégraux d'articles de revues scientifiques liés au matériau. À l'instar de nos travaux précédents11, ces articles sont accessibles via les API d'Elsevier Research Products, ce qui permet à quiconque peut obtenir une clé API et d'utiliser gratuitement les API à des fins non commerciales. Les informations détaillées sur les API des produits de recherche Elsevier peuvent faire référence à https://dev.elsevier.com. Une fois la demande approuvée, le site Web attribuera une clé API à chaque utilisateur. Grâce à la clé API, nous pouvons obtenir des articles au format texte brut et XML. Une fois que nous avons les articles, nous pouvons effectuer une fouille de texte sur les articles. De plus, nous avons téléchargé le dois de 14 425 articles dans le matériel supplémentaire. Les superalliages extraits comprennent deux types, les superalliages à base de Co et à base de Ni qui représentent plus de 80 % de tous les superalliages. Les phrases contenant les valeurs de propriété des superalliages sont généralement incluses dans le texte intégral, de sorte que nous considérons le texte intégral des articles de revues scientifiques. L'article sur les superalliages comprend de nombreuses propriétés, nous nous concentrons sur trois d'entre elles : la température de solvus γ', la température de solidus et la densité. Parmi elles, 457 phrases liées à la température de solvus γ'. Le corpus initial a été publié sur https://github.com/MGEdata/snorkel. Bien que relativement peu de phrases soient obtenues, le nombre de phrases est déjà assez élevé pour le domaine des superalliages. Dans certains cas, plusieurs noms et valeurs de propriété sont mentionnés dans une phrase. Pour faire correspondre avec précision le superalliage et les températures de solvus γ ', toutes les combinaisons ont été générées de manière exhaustive pour obtenir 1 184 paires. Le candidat apparié est marqué par Snorkel pour former des corpus. Les corpus ainsi obtenus reflètent l'influence de la fonction de marquage sur l'extraction.

Chaque ensemble de données a des caractéristiques uniques et les fonctions d'étiquetage sont personnalisées en fonction des caractéristiques de l'ensemble de données. Si les utilisateurs veulent utiliser notre cadre proposé pour extraire la relation dans leur propre corpus, ils n'ont qu'à réécrire les fonctions d'étiquetage qui correspondent aux caractéristiques des phrases de leur corpus. Les fonctions d'étiquetage n'ont rien à voir avec la source du corpus, mais seulement les caractéristiques de la phrase. La littérature scientifique sur les superalliages a un vocabulaire plus professionnel. Nous écrivons plus de 10 fonctions d'étiquetage selon leurs caractéristiques sémantiques pour extraire la température de solvus γ'. Le tableau 1 fournit des exemples de fonctions d'étiquetage. Nous ajustons l'écriture de la fonction d'étiquetage en fonction de la couverture, des chevauchements et des conflits des différentes fonctions d'étiquetage. La liste des fonctions d'étiquetage est présentée dans le tableau 2. La couverture des fonctions d'étiquetage fait référence à la proportion d'échantillons positifs et négatifs qui sont étiquetés avec succès. A la température de solvus γ' du superalliage extrait, la couverture complète de la fonction de marquage que nous écrivons atteint plus de 90 %. Lorsque les utilisateurs utilisent le framework pour écrire des fonctions d'étiquetage, essayez de rendre la couverture globale des fonctions d'étiquetage aussi élevée que possible. Pour décrire les chevauchements de manière plus fine, nous illustrons à l'aide d'un exemple. Supposons qu'il y ait trois candidats \(c1\), \(c2\), \(c3\) et deux fonctions d'étiquetage \(LF1\), \(LF2\). Si la fonction d'étiquetage juge le candidat correct, elle renvoie 1, si le candidat est jugé faux, elle renvoie 0. Si la fonction d'étiquetage n'implique pas le candidat, elle s'abstient et renvoie -1. La matrice formée par les fonctions d'étiquetage \(LF1\) et \(LF2\) sont [1, −1, 0],[1, −1, −1], respectivement. \(LF1\) et \(LF2\) jugent tous deux le premier candidat, ce qui est appelé chevauchement. Un conflit signifie que deux fonctions d'étiquetage impliquent le même candidat et que les résultats du jugement sont incohérents. Plus le conflit tend vers 0, plus les fonctions d'étiquetage sont écrites de manière spécifique. Nous imprimons les fonctions d'étiquetage via l'analyseur de fonctions d'étiquetage PandasLFApplier sur le site officiel du framework Snorkel, et constatons que le conflit est 0. Cela indique qu'il n'y a pas de conflit entre les fonctions d'étiquetage que nous écrivons. L'examen du tableau montre que ces fonctions d'étiquetage sont complètes et précises. Ces fonctions ont obtenu de bons résultats. Par exemple, LF_in a une couverture de 0,46 de candidats.

Le modèle génératif juge le vrai ou le faux de chaque candidat à travers des fonctions d'étiquetage données, transformant ainsi la tâche de génération des corpus en une tâche de classification. Il est bien connu que le score F1 est une bonne mesure pour les problèmes de classification, et certains problèmes de classification utilisent souvent le score F1 comme métrique d'évaluation finale. Le score F1 est la moyenne harmonique de la précision et du rappel, c'est-à-dire \({\rm{F1}} \mbox{-} {\rm{score}}=2\ast \frac{précision\ast rappel}{précision+rappel}\). La précision est donnée par \(\frac{TP}{TP+FP}\), et le rappel est donné par \(\frac{TP}{TP+FN}\). Ici, TP est vraiment positif, ce qui est jugé comme un échantillon positif et est en fait un échantillon positif. FP est un faux positif, qui est considéré comme un échantillon positif, mais qui est en fait un échantillon négatif. FN est un faux négatif, qui est considéré comme un échantillon négatif, mais qui est en fait un échantillon positif. La valeur maximale du score F1 est 1 et la valeur minimale est 0.

En plus du score F1, le ROC21 est également un indicateur utilisé pour mesurer le déséquilibre de classement. En particulier, ROC-auc est utilisé pour évaluer les avantages et les inconvénients d'un classifieur binaire. ROC-auc est défini comme l'aire sous la courbe ROC. La courbe ROC est généralement sur une ligne droite y = x, donc la plage de valeurs de tous les ROC-auc est comprise entre 0,5 et 1. Dans de nombreux cas, la courbe ROC n'indique pas clairement quel classificateur est le plus performant, et ROC-auc est une valeur numérique. Une valeur plus grande correspond à un meilleur effet de classificateur. Pour la relation entre la valeur de ROC-auc et le classificateur, nous avons une norme approximative pour évaluer le classificateur. Si ROC-auc est inférieur à 0,5, le modèle a peu de capacité de discrimination. Si ROC-auc est supérieur à 0,5 et inférieur à 0,8, la capacité de discrimination du modèle est acceptable. Si la valeur de ROC-auc est supérieure à 0,8, la capacité de discrimination du modèle fonctionne mieux.

Nous divisons les 1184 ensembles candidats de la température de solvus γ' en ensemble d'apprentissage, ensemble de développement et ensemble de test, composés respectivement de 674, 200 et 310 ensembles candidats. Pour vérifier l'effet de l'utilisation de Snorkel pour générer les corpus, nous avons invité des experts du domaine à marquer manuellement l'ensemble de développement et l'ensemble de test. Parmi les 1184 ensembles candidats, les experts annotent un total de 200 ensembles candidats comme développement. Bien que la charge de travail manuelle soit actuellement assez importante, le modèle entraîné peut générer un ensemble de données plus volumineux. La charge de travail manuelle est limitée au stade initial et l'utilisation ultérieure du traitement par machine sera beaucoup plus rapide que le traitement manuel. À ce jour, l'ensemble d'apprentissage et l'ensemble de test n'ont pas été étiquetés, et l'ensemble de développement a été étiqueté manuellement. Nous intégrons les fonctions d'étiquette dans le framework Snorkel pour l'ensemble de développement. Le but est d'extraire les informations correctes de l'ensemble d'apprentissage pour former les corpus.

Les résultats d'évaluation du corpus généré automatiquement sont présentés à la Fig. 2. Le nombre au bas de la figure est l'époque et l'axe vertical représente la valeur spécifique. Lorsque nous utilisons le framework Snorkel, nous utilisons différentes époques. Lorsque le modèle est entraîné, l'effet du modèle s'améliorera à mesure que l'époque augmente, mais si nous entraînons trop d'époques, le modèle surajustera les données d'entraînement et l'effet diminuera. Idéalement, nous voulons trouver le point d'inflexion où le modèle passe du bon au mauvais pour décider d'arrêter ou non l'entraînement. Après de nombreuses expériences, nous avons constaté que les meilleurs résultats sont obtenus lorsque l'époque est 70. Le meilleur ROC-auc était de 0,882 et le meilleur score F1 était de 0,839. L'époque du point d'inflexion correspondante est 70, et plus d'époques entraîneront un surajustement, ce qui entraînera de moins bons résultats. Ces valeurs indiquent que la qualité de l'ensemble de données généré est élevée. Bien que ces valeurs varient légèrement selon les époques, on peut voir sur la figure que la différence n'est pas significative. Cela montre que tant que la fonction d'étiquette est écrite avec précision, la capacité d'apprentissage du tuba n'est pas fortement corrélée à l'époque.

Les performances de F1-score et ROC-auc dans l'ensemble de données généré. Si la valeur est supérieure à 0,8, le modèle fonctionne bien.

Nous avons obtenu le corpus à l'aide de Snorkel. Pour juger si les candidats ont raison ou tort, nous écrivons la fonction d'étiquette au niveau de l'ensemble de candidats. Étant donné que différents candidats peuvent provenir de la même phrase, lors de la vérification sur l'ensemble de test, les phrases de l'ensemble de test peuvent avoir été vues par le modèle pendant la formation. Pour illustrer la généralité de notre modèle, nous ajoutons 88 phrases non entraînées sur la température de solvus γ' pour générer 298 ensembles candidats.

Nous plaçons les 298 ensembles de candidats générés directement dans le modèle entraîné et jugeons chaque candidat. Nous invitons les experts à sélectionner au hasard 50 corpus générés automatiquement par Snorkel pour une inspection manuelle. Le tableau 3 est un exemple de corpus corrigés par des experts. Le bon appariement est sélectionné parmi un grand nombre de candidats. Les résultats ont révélé que l'utilisation de la méthode de génération automatique de balises de corpus. Le taux de précision des balises a atteint plus de 80 %. La première colonne étiquetée 1 est la bonne paire, et celle étiquetée 0 est fausse. Le 'name_id' et 'attri_id' représentent respectivement la position du superalliage et la température de solvus γ' dans une phrase.

Avec le grand nombre de corpus étiquetés produits par le Snorkel, nous pouvons utiliser ces corpus pour former un modèle discriminant. Mais nous ne pouvons pas nous empêcher de nous demander pourquoi nous devons former un autre modèle discriminant puisque le Snorkel peut déterminer avec précision le type d'échantillon ? Cette question doit commencer par la différence entre le modèle génératif et le modèle discriminant. Le modèle génératif dans Snorkel apprend la distribution de probabilité conjointe P(X, Y) à partir des données, puis obtient la distribution de probabilité conditionnelle P(Y|X) comme modèle prédictif, la formule pour générer le modèle est exprimée comme suit.

Le modèle discriminant apprenant directement la distribution de probabilité conditionnelle P(Y|X) à partir des données est défini comme un modèle de prédiction. Sur la base des caractéristiques des modèles discriminant et génératif, les corpus produits par le modèle génératif peuvent aider le modèle discriminant à améliorer la couverture de la méthode proposée. Le modèle génératif doit apprendre la distribution de probabilité conjointe P(X, Y), mais pour les corpus qui ne peuvent pas être couverts par toutes les fonctions d'étiquetage, il est évidemment impossible d'obtenir P(X, Y). Au contraire, le modèle discriminant n'a besoin que des caractéristiques de X lui-même. P(Y|X) peut être calculé, de sorte que le modèle discriminant peut couvrir les points de données que le modèle génératif ne peut pas couvrir. De plus, par rapport au modèle de graphe de probabilité utilisé dans la formation de modèles génératifs, les modèles discriminants peuvent être formés avec des modèles plus avancés et complexes, tels que le modèle ON-LSTM que nous utilisons, qui peut également améliorer la précision du modèle.

ON-LSTM intègre la structure hiérarchique dans le LSTM grâce à un tri spécifique des neurones, permettant au LSTM d'apprendre automatiquement les informations de structure hiérarchique. La méthode de formation est l'apprentissage supervisé, et le modèle formé peut être utilisé pour traiter un grand corpus matériel. ON-LSTM trie les neurones à l'intérieur du LSTM et intègre la structure hiérarchique pour exprimer des informations plus riches18. Dans le modèle LSTM original, les mises à jour entre les neurones ne sont pas liées. Pour cette raison, ON-LSTM ajoute deux portes : la porte d'oubli principale \(\widetilde{{f}_{t}}\) et la porte d'entrée principale \(\widetilde{{i}_{t}}\). La structure de ON-LSTM est illustrée à la Fig. 3.

La structure interne de ON-LSTM, où σ est la fonction d'activation sigmoïde, ft est la porte d'oubli, c'est la porte d'entrée et ot est la porte de sortie.

Pour démontrer la supériorité de la méthode proposée, notre algorithme est comparé à plusieurs algorithmes classiques sur notre jeu de données proposé. Les résultats de la comparaison sont présentés à la Fig. 4. Parmi eux, Snowball22 est un cadre général d'extraction d'informations. Modified Snowball23 est une amélioration sur la base de la boule de neige pour le domaine matériel. L'algorithme basé sur la distance est la méthode proposée dans notre précédent article11. LSTM fait référence aux résultats obtenus après avoir utilisé Snorke pour générer automatiquement le corpus, puis utiliser la formation du réseau LSTM. ON-LSTM est le résultat d'un apprentissage avec ON-LSTM après le corpus de production. Il est évident que notre méthode proposée fonctionne bien mieux que les algorithmes classiques précédents. Les résultats montrent que ON-LSTM fonctionne mieux que LSTM sur la tâche IE. En d'autres termes, les neurones ordonnés peuvent exprimer des informations plus riches dans des phrases et capturer des informations sémantiques entre les mots.

Comparaison des résultats de ON-LSTM et des algorithmes proposés dans les articles précédents. ON-LSTM est notre méthode proposée.

La méthode que nous avons proposée est un cadre général pour IE sans corpus, qui est universel dans les matériaux. Pour mieux illustrer cette caractéristique, nous avons également extrait d'autres propriétés physiques du domaine des matériaux, notamment la densité, les températures de solidus des superalliages et les informations de dureté des alliages à haute entropie. Le tableau 4 montre que le score F1 pour la densité, la température de solvus γ 'des superalliages et les informations de dureté des alliages à haute entropie. Les résultats expérimentaux montrent que notre méthode proposée pour l'extraction de relations à travers un corpus généré automatiquement est polyvalente et peut extraire toutes les propriétés dans le domaine matériel.

À partir du tableau 4, nous pouvons observer que le score F1 a de bonnes performances dans l'extraction des informations de densité des superalliages. Nous observons les caractéristiques des phrases contenant de la densité et constatons que ces phrases sont relativement monotones par rapport à d'autres attributs lors de la description de la densité. C'est pourquoi le score F1 de la densité est relativement élevé. Nous résumons plusieurs modèles de phrases typiques comme suit, où A représente l'attribut et B représente la valeur de la propriété. Ai, Bi représente le i-ième A ou B.

"Plus important encore, ces superalliages à base de Co-V ont une densité plus faible (8,39–8,86 g/cm3)". Lors de l'écriture d'une fonction d'étiquette, nous pouvons la décrire sous la forme 'A(B)'.

"La densité apparente des poudres composites GTD222 et TiC/GTD222 était de 4,56 g/cm3 et 4,48 g/cm3 respectivement", ce qui peut être résumé comme le modèle de 'A1 et A2 soit le verbe B1 et B2'.

"Alors que la densité de Nimonic 90.0 est de 8,2 g/cm3, les constituants de la couche Ni2Si, Ni5Si2, Cr2B et CrB ont une densité de 7,2 g/cm3 7,0 g/cm3 6,6 g/cm3 et 6,1 g/cm3 respectivement.". Les fonctions d'étiquetage peuvent être écrites comme "A1, A2, A3 et A4 ont une densité de B1, B2, B3, B4".

Les méthodes d'apprentissage automatique nécessitent de grandes quantités de données pour la formation de modèles. Bien que les méthodes d'apprentissage automatique aient été largement utilisées dans de nombreux domaines, ce sont encore de nouvelles méthodes pour extraire les informations requises dans le domaine des matériaux. Les informations extraites peuvent aider les chercheurs à déterminer quels matériaux utiliser dans quelles circonstances.

Dans ce travail, nous utilisons Snorkel semi-supervisé pour générer des ensembles d'apprentissage dans le domaine des matériaux. Nous prenons les superalliages comme exemple, et vérifions la généralité de la méthode proposée dans le domaine des matériaux à travers un certain nombre de types de matériaux différents. Lors de la génération de l'ensemble d'apprentissage, puisque notre ensemble de données est très déséquilibré, même une ligne de base triviale qui produit toujours des résultats négatifs peut obtenir une grande précision. Par conséquent, nous avons évalué l'ensemble de données en utilisant le score F1 et le ROC-auc plutôt que la précision. De plus, nous étudions d'abord l'intégration potentielle entre ON-LSTM et IE. Bien que nous utilisions des méthodes plus avancées pour former le modèle, les résultats ne sont pas particulièrement satisfaisants. Cela peut être dû au petit nombre d'ensembles de données et au déséquilibre des échantillons positifs et négatifs. Bien que tous nos processus extraient des informations spécifiques dans le domaine des matériaux, la méthode proposée peut également être appliquée à d'autres domaines sans jeux de données. Différentes fonctions d'étiquetage sont écrites en fonction des exigences, puis le modèle est formé en fonction de l'ensemble de données généré pour augmenter la robustesse de l'extraction. Dans tous les cas, la difficulté d'écriture des fonctions d'étiquetage est liée à la difficulté du corpus et des informations extraites.

L'utilisation de méthodes d'apprentissage automatique pour extraire des informations dans le domaine des matériaux est encore confrontée à de nombreux défis. D'une part, l'apprentissage automatique nécessite un corpus important, tandis que la quantité de données dans le domaine des superalliages est faible en raison de la difficulté d'acquérir des ensembles de données précis et sans erreur. À l'avenir, nous espérons obtenir plus d'articles sur les matériaux et obtenir plus de phrases contenant les propriétés physiques pour obtenir des ensembles de données plus grands et de meilleure qualité. D'autre part, nous n'utilisons pas de modèle pré-formé lors de l'extraction d'informations en raison du nombre limité d'ensembles de données. Le modèle de préformation obtient des modèles qui ne sont pas liés à des tâches spécifiques à partir de données à grande échelle grâce à des méthodes d'apprentissage auto-supervisées qui peuvent exprimer plus efficacement les riches caractéristiques sémantiques des mots ou des phrases. À l'avenir, il sera peut-être possible d'introduire des modèles de préformation tels que BERT24 et XLNet25,26 dans l'étape d'extraction d'informations pour tirer pleinement parti des informations contextuelles des phrases et utiliser avec précision des vecteurs pour exprimer le sens des mots.

Dans cette section, nous décrivons les méthodes d'apprentissage automatique utilisées dans ce travail, à savoir la méthode Snorkel pour générer des ensembles de données et la méthode ON-LSTM pour former les modèles IE.

Snorkel est un modèle qui utilise une supervision faible pour générer des ensembles de données. Il étiquette manuellement toutes les données aberrantes et demande uniquement aux utilisateurs d'écrire des fonctions d'étiquetage27. Snorkel utilise la programmation de données28,29 pour obtenir sa sortie. Le but principal de Snorkel est de donner un φ \(\in \) Φ et de déterminer l'étiquette discrète possible τ \(\in \) T, où Φ représente l'ensemble candidat et T représente l'ensemble {1, 0}. Pour atteindre cet objectif, nous devons écrire des fonctions d'étiquetage λ basées sur l'ensemble de données spécifique. Pour les utilisateurs, les fonctions d'étiquetage écrites sont des fonctions de boîte noire, et ils n'ont pas besoin de comprendre le fonctionnement de Snorkel sur les fonctions d'étiquetage. Lors de l'entrée de l'ensemble candidat Φ et des fonctions d'étiquetage λ, Snorkel sort les étiquettes T auxquelles Φ appartient. Les utilisateurs peuvent écrire des fonctions d'étiquetage des manières suivantes :

Basé sur des modèles : la méthode formule certaines règles en observant les caractéristiques des modèles de phrases. Omar et al. ont proposé les principes de base de l'observation pour aider les utilisateurs à annoter les ensembles de données30. Sonal et al. ont utilisé les règles de similarité de distribution et de distance mot à mot pour l'étiquetage31.

Supervision à distance : La supervision à distance fait référence à une base de connaissances existante. En supposant que la base de connaissances contient l'information à extraire, cela revient à marquer automatiquement une partie des échantillons ; par exemple, Raphaël et al. ont utilisé les informations de la base de connaissances pour extraire les relations répétitives au niveau de la phrase32.

Classificateurs faibles : Nous appelons un classificateur légèrement meilleur qu'une prédiction aléatoire mais pas très précis un classificateur faible33. Nous pouvons former des classificateurs faibles sur d'autres ensembles de données en tant que fonctions d'étiquetage.

Si l'ensemble candidat contient a points de données et que les utilisateurs écrivent b fonctions d'étiquetage, alors la matrice Γ \(\in \) Ta*b sera générée. Chaque fonction d'étiquetage peut avoir une couverture, des chevauchements et des conflits pour le même point de données. Snorkel résout automatiquement les problèmes ci-dessus en interne et forme finalement une seule étiquette pour chaque point de données. Le composant le plus important des modèles Snorkel, intégrant plusieurs fonctions d'étiquetage, est appelé un modèle génératif. Snorkel implémente ce composant en utilisant la méthode de programmation de données. Pour plus de détails, veuillez consulter27,28,29.

Une fois l'ensemble de données acquis intégré par le plug-in fourni avec TensorFlow34, nous utilisons l'algorithme d'apprentissage automatique ON-LSTM pour l'extraction des relations. ON-LSTM est une variante de LSTM. Pour une description claire de ON-LSTM, nous illustrons son processus étape par étape. Dans cette section, nous comprenons d'abord le principe de fonctionnement de LSTM.

LSTM est un type spécial de réseau neuronal récurrent35 (RNN) qui peut apprendre des dépendances à long terme. LSTM supprime ou ajoute des informations via sa cellule mémoire \({c}_{t}\). Comme le montre la figure 5, il existe trois types de portes, à savoir la porte d'oubli \({f}_{t}\), la porte d'entrée \({i}_{t}\) et la porte de sortie \({o}_{t}\), dans ct36. La première étape de LSTM consiste à décider quelles informations nous allons supprimer de l'état de la cellule, ce qui se fait via la porte d'oubli. L'entrée est l'état caché \({h}_{t-1}\) de la séquence précédente et cette séquence de données \({x}_{t}\). La sortie \({f}_{t}\) de la porte d'oubli représente la probabilité d'oublier l'état de la cellule cachée de la couche précédente et s'exprime comme suit.

où \(\sigma \) est la fonction d'activation sigmoïde et Wf et bf sont respectivement le coefficient de corrélation linéaire et le biais. La valeur de ft est comprise entre 0 et 1 ; ici, 0 signifie qu'aucune information n'est autorisée à passer, et 1 signifie que toute information est autorisée à passer.

La structure interne de LSTM. Une cellule LSTM est constituée d'une cellule mémoire ct et de trois grilles.

La porte d'entrée détermine quelles nouvelles informations sont stockées dans l'état de la cellule. Il se compose de deux parties : la première partie utilise la fonction d'activation sigmoïde et sa sortie est \({i}_{t}\). La deuxième partie utilise la fonction d'activation tanh et sa sortie est \({\widehat{c}}_{t}\). Les résultats des deux sont multipliés pour mettre à jour l'état de la cellule. \({W}_{i}\), \({W}_{c}\), \({b}_{i}\) et \({b}_{c}\) sont des coefficients et des biais linéairement liés.

Ensuite, nous devons mettre à jour l'état de l'ancienne cellule et mettre à jour \({c}_{t-1}\) en \({c}_{t}\). Nous multiplions l'ancien état par \({f}_{t}\) et supprimons les informations qui seront certainement supprimées. Pour l'addition du produit de la porte d'entrée \({i}_{t}\) et \({\widehat{c}}_{t}\), la formule est la suivante.

Enfin, nous devons déterminer la valeur à produire. La formule de calcul de ot est la suivante. Ici, w0 et bo indiquent le coefficient de corrélation et le biais.

La mise à jour de l'état caché ht se compose de deux parties : la première partie est ot, et la seconde partie est composée de ct et des fonctions d'activation tanh.

La nouvelle fonction d'activation cumax a été utilisée conformément aux travaux précédemment rapportés. L'état du neurone contrôle les informations à stocker et à oublier. En introduisant un tel mécanisme de porte, des règles de mise à jour interdépendantes entre neurones sont établies afin que les neurones aient un ordre et une hiérarchie des différences.

L'objet de la pensée ON-LSTM est le langage naturel, et la nature peut généralement exprimer une structure hiérarchique. Dans les phrases anglaises, les lettres peuvent être considérées comme la structure de niveau le plus bas, et les mots et les phrases ont un niveau supérieur. Plus le niveau est élevé, plus la granularité est grossière et plus la portée de la phrase est grande. Dans la structure ON-LSTM, les informations de haut niveau peuvent conserver une distance considérable car les informations historiques directement copiées par les informations de haut niveau peuvent provoquer la répétition des informations historiques sans changement. Les informations de bas niveau peuvent être mises à jour à chaque étape d'entrée car les informations de bas niveau dupliquent directement l'entrée. L'entrée change constamment, de sorte que la structure hiérarchique est intégrée grâce à la classification des informations.

La porte d'oubli \({f}_{t}\), la porte d'entrée \({i}_{t}\), la porte de sortie \({o}_{t}\) et \({\widehat{c}}_{t}\) de ON-LSTM sont données par les mêmes formules que ct et LSTM, mais le mécanisme de mise à jour de \({\widehat{c}}_{t}\) à \({c}_{t}\) est différent. Voici la formule mise à jour de l'ensemble du ON-LSTM :

La valeur de la fonction d'activation cumax décroît de manière monotone de 1 à 0. Dans une certaine plage, sa valeur tend vers 0, indiquant que l'information précédente a été oubliée ; si sa valeur tend vers 1, le nouveau contenu d'entrée devient de plus en plus important. Lors de la formation du modèle, nous avons défini l'abandon sur 0,4, le taux d'apprentissage est de 0,1 et la dimension du vecteur de mots est de 64.

Nos données initiales et les données extraites sont disponibles sur https://github.com/MGEdata/snorkel.

Le code est disponible sur https://github.com/MGEdata/auto-generate-corpus. Lorsque les chercheurs extraient leur propre corpus, ils n'ont qu'à écrire des fonctions d'étiquetage qui répondent aux caractéristiques de leur propre corpus dans le cadre que nous écrivons, qui est très simple à utiliser.

Galassi, A., Lippi, M. & Torroni, P. Attention dans le traitement du langage naturel. Transactions IEEE sur les réseaux de neurones Apprendre. Syst. 15, 3709–3721 (2020).

Google Scholar

Mooney, RJ & Bunescu, RC Extraction de connaissances à partir de texte à l'aide de l'extraction d'informations. Acm Sigkdd Explor. Newsl. 7, 3–10 (2005).

Article Google Scholar

Rickman , JM , Lookman , T. & Kalinin , SV Informatique des matériaux : du niveau atomique au continuum . Acta Materials 168, 473–510.

Article ADS CAS Google Scholar

Wen, C. et al. Conception assistée par apprentissage automatique d'alliages à haute entropie avec la propriété souhaitée. Acta Materialia 170, 109-117 (2019).

Article ADS CAS Google Scholar

Xue, D. et al. Recherche accélérée de matériaux aux propriétés ciblées par conception adaptative. Nat. communication 7, 1–9 (2016).

Annonces Google Scholar

Tshitoyan, V. et al. Les intégrations de mots non supervisées capturent les connaissances latentes de la littérature sur la science des matériaux. Nat. 571, 95–98 (2019).

Article ADS CAS Google Scholar

Swain, MC & Cole, JM Chemdataextractor : une boîte à outils pour l'extraction automatisée d'informations chimiques à partir de la littérature scientifique. J. modélisation des informations chimiques 56, 1894–1904 (2016).

Article CAS Google Scholar

Krallinger, M., Rabal, O., Lourenco, A., Oyarzabal, J. & Valencia, A. Technologies de recherche d'informations et d'exploration de texte pour la chimie. Chim. revues 117, 7673–7761 (2017).

Article CAS Google Scholar

Kim, E. et al. Planification de la synthèse de matériaux inorganiques avec des réseaux de neurones formés à la littérature. J. modélisation des informations chimiques 60, 1194-1201 (2020).

Article CAS Google Scholar

Kim, E., Huang, K., Jegelka, S. & Olivetti, E. Criblage virtuel des paramètres de synthèse de matériaux inorganiques avec apprentissage en profondeur. npj Comput. Mater. 3, 1–9 (2017).

Article CAS Google Scholar

Wang, W. et al. Pipeline automatisé pour les données de superalliages par text mining. npj Comput. Mater. 8, 1–12 (2022).

Annonces d'article Google Scholar

Sahu, SK, Anand, A., Oruganty, K. & Gattu, M. Extraction de relations à partir de textes cliniques à l'aide d'un réseau neuronal convolutif invariant de domaine. Dans BioNLP@ACL (2016).

Lv, X., Guan, Y., Yang, J. & Wu, J. Extraction de relations cliniques avec apprentissage en profondeur. Int. J. Hybrid Inf. Technol. 9, 237-248 (2016).

Google Scholar

Chalapathy, R., Borzeshi, EZ & Piccardi, M. Lstm-crf bidirectionnel pour l'extraction de concepts cliniques. prétirage arXiv arXiv:1611.08373 (2016).

Javeed, A. Un modèle lstm pour extraire les relations hiérarchiques entre les mots pour une meilleure modélisation des sujets. J. Physique : Conf. Ser. 1780, 012019 (2021).

Google Scholar

Ratner, A. et al. Snorkel : Création rapide de données d'entraînement avec une supervision faible. Dans Actes de la dotation VLDB. Conférence internationale sur les très grandes bases de données, vol. 11, 269 (accès public des NIH, 2017).

Ratner, A., Bach, SH, Ehrenberg, H., Fries, J. & Re, C. Snorkel : création rapide de données d'entraînement avec une faible supervision. Le VLDB J. 11, 269-282 (2017).

Google Scholar

Shen, Y., Tan, S., Sordoni, A. & Courville, AC Neurones ordonnés : intégration de structures arborescentes dans des réseaux de neurones récurrents. ArXiv abs/1810.09536 (2019).

Gao, T., Han, X., Xie, R., Liu, Z. et Sun, M. Boule de neige neurale pour l'apprentissage relationnel à quelques coups. Proc. AAAI Conf. sur Artef. Renseignement. 34, 7772–7779 (2020).

Google Scholar

Mallory, EK et al. Extraction de réactions chimiques à partir d'un texte à l'aide d'un tuba. BMC Bioinforma. 21 (2020).

Fawcett, T. Une introduction à l'analyse roc. Lettres de reconnaissance de formes 27, 861–874 (2006).

Annonces d'article Google Scholar

Agichtein, E. & Gravano, L. Snowball : Extraction de relations à partir de grandes collections de texte brut. Dans Actes de la cinquième conférence ACM sur les bibliothèques numériques, 85–94 (2000).

Court, CJ & Cole, JM Base de données de matériaux générée automatiquement pour les températures de curie et de neel via une extraction de relation semi-supervisée. Sci. données 5, 1–12 (2018).

Article Google Scholar

Devlin, J., Chang, M.-W., Lee, K. & Toutanova, K. Bert : Pré-entraînement des transformateurs bidirectionnels profonds pour la compréhension du langage. prétirage arXiv arXiv:1810.04805 (2018).

Yang, Z. et al. Xlnet : Préformation autorégressive généralisée pour la compréhension du langage. Adv. systèmes de traitement de l'information neuronale 32 (2019).

Yan, R., Jiang, X. & Dang, D. Reconnaissance d'entité nommée à l'aide de xlnet-bilstm-crf. Processus neuronal. Lett. 53, 1–18 (2021).

Article Google Scholar

Ratner, A. et al. Snorkel : Création rapide de données d'entraînement avec une supervision faible. Le VLDB J. 29, 709–730 (2020).

Article Google Scholar

Bach, SH, He, BD, Ratner, AJ & Re, C. Apprentissage de la structure des modèles génératifs sans données étiquetées. Proc. recherche sur l'apprentissage automatique 70, 273–82 (2017).

Google Scholar

Ratner, A., De, SC, Wu, S., Selsam, D. & Re, C. Programmation de données : création rapide de grands ensembles d'apprentissage. Adv. systèmes de traitement de l'information neuronale 29, 3567 (2016).

Google Scholar

Zaidan, O. & Eisner, J. Modélisation des annotateurs : une approche générative de l'apprentissage à partir des justifications des annotateurs. Dans Actes de la conférence de 2008 sur les méthodes empiriques dans le traitement du langage naturel, 31–40 (2008).

Gupta, S. & Manning, CD Apprentissage de modèles amélioré pour l'extraction d'entités amorcée. Dans Actes de la dix-huitième conférence sur l'apprentissage informatique du langage naturel, 98-108 (2014).

Hoffmann, R., Zhang, C., Ling, X., Zettlemoyer, L. & Weld, DS Supervision faible basée sur les connaissances pour l'extraction d'informations de relations qui se chevauchent. Dans ACL (2011).

Shatalova, OV, Mednikov, DA, Protasova, ZU et Stadnichenko, NS Prédiction du risque de complications cardiovasculaires avec un espace segmenté de facteurs de risque et de canaux de synergie. J. Physique : Conf. Ser. 1679, 032042 (5pp) (2020).

Google Scholar

Abadi, M. et al. {TensorFlow} : un système d'apprentissage automatique {à grande échelle}. Dans le 12e symposium USENIX sur la conception et la mise en œuvre des systèmes d'exploitation (OSDI 16), 265–283 (2016).

Zaremba, W., Sutskever, I. & Vinyals, O. Régularisation récurrente du réseau de neurones. prétirage arXiv arXiv:1409.2329 (2014).

Shi, X. et al. Réseau lstm convolutif : une approche d'apprentissage automatique pour la prévision immédiate des précipitations. arXiv preprint arXiv:1506.04214 (2015).

Télécharger les références

DD et YS sont les auteurs correspondants de cet article. Cette recherche est soutenue par le programme national clé de recherche et de développement de Chine sous le numéro de subvention 2020YFC1523303 ; le programme clé de recherche et de développement de la province de Qinghai sous le numéro de subvention 2020-SF-140 ; la Fondation nationale des sciences naturelles de Chine sous le numéro de subvention 61672102, n° 61073034, n° 61370064 et n° 60940032 ; la Fondation nationale des sciences sociales de Chine sous le numéro de subvention BCA150050 ; le programme pour les excellents talents du nouveau siècle à l'Université du ministère de l'Éducation de Chine sous le numéro de subvention NCET-10-0239 ; le sponsor du projet ouvert du Beijing Key Laboratory of Intelligent Communication Software and Multimedia sous le numéro de subvention ITSM201493 ; et la Fondation scientifique du ministère de l'Éducation de Chine et la China Mobile Communicaions Corporation sous le numéro de subvention MCM20130371. Un merci spécial à mon petit ami Ye Tao, qui m'a guidé pour soumettre l'article et m'a encouragé à réviser le manuscrit encore et encore.

École d'intelligence artificielle, Université normale de Pékin, Pékin, 100875, Chine

Rongen Yan et Depeng Dang

Beijing Advanced Innovation Center for Materials Genome Engineering, Institute for Advanced Materials and Technology, University of Science and Technology Beijing, Beijing, 100083, Chine

Xue Jiang, Weiren Wang et Yanjing Su

Centre d'innovation collaborative de la technologie de l'acier, Université des sciences et technologies de Pékin, Pékin, 100083, Chine

Xue Jiang

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

L'idée originale a été avancée par RY et DD et discutée avec XJ et YS Les données originales sont fournies par XJ, WW et YS Tous les auteurs ont participé à la discussion, à l'analyse, à la rédaction et à la lecture de l'article. DD et YS ont géré et guidé le projet.

Correspondance à Depeng Dang ou Yanjing Su.

Les auteurs ne déclarent aucun intérêt concurrent.

Note de l'éditeur Springer Nature reste neutre en ce qui concerne les revendications juridictionnelles dans les cartes publiées et les affiliations institutionnelles.

Libre accès Cet article est sous licence Creative Commons Attribution 4.0 International License, qui permet l'utilisation, le partage, l'adaptation, la distribution et la reproduction sur n'importe quel support ou format, tant que vous donnez le crédit approprié à l'auteur ou aux auteurs originaux et à la source, fournissez un lien vers la licence Creative Commons et indiquez si des modifications ont été apportées. Les images ou tout autre matériel tiers dans cet article sont inclus dans la licence Creative Commons de l'article, sauf indication contraire dans une ligne de crédit au matériel. Si le matériel n'est pas inclus dans la licence Creative Commons de l'article et que votre utilisation prévue n'est pas autorisée par la réglementation légale ou dépasse l'utilisation autorisée, vous devrez obtenir l'autorisation directement du détenteur des droits d'auteur. Pour voir une copie de cette licence, visitez http://creativecommons.org/licenses/by/4.0/.

Réimpressions et autorisations

Yan, R., Jiang, X., Wang, W. et al. Extraction d'informations matériaux via des corpus générés automatiquement. Sci Data 9, 401 (2022). https://doi.org/10.1038/s41597-022-01492-2

Télécharger la citation

Reçu : 09 mars 2022

Accepté : 28 juin 2022

Publié: 13 juillet 2022

DOI : https://doi.org/10.1038/s41597-022-01492-2

Toute personne avec qui vous partagez le lien suivant pourra lire ce contenu :

Désolé, aucun lien partageable n'est actuellement disponible pour cet article.

Fourni par l'initiative de partage de contenu Springer Nature SharedIt

Des chercheurs de Stanford présentent Parsel : un cadre d'IA d'intelligence artificielle qui permet la mise en œuvre et la validation automatiques d'algorithmes complexes avec des modèles de langage de grande taille de code LLM

Gulmen Digital présente l'imprimante Quantum Jet 333

Nouvelles

Extraction d'informations sur les matériaux via des corpus générés automatiquement