Un largement

Nouvelles

MaisonMaison / Nouvelles / Un largement

Jul 15, 2023

Un largement

Rapports scientifiques volume 13,

Rapports scientifiques volume 13, Numéro d'article : 1720 (2023) Citer cet article

5206 accès

129 Altmétrique

Détails des métriques

Cet article a été mis à jour

L'atténuation du changement climatique nécessite, outre la réduction des émissions de gaz à effet de serre, des actions visant à augmenter les puits de carbone dans les écosystèmes terrestres. Une méthode de mesure clé pour quantifier ces puits et calibrer les modèles est la technique de covariance des turbulences, mais elle nécessite l'imputation, ou le comblement des lacunes, des données manquantes pour la détermination des bilans annuels de carbone des écosystèmes. Les comparaisons précédentes des méthodes de remplissage des lacunes ont conclu que les méthodes couramment utilisées, telles que l'échantillonnage de la distribution marginale (MDS), n'ont pas d'impact significatif sur l'estimation du bilan carbone. En analysant un vaste ensemble de données mondiales, nous montrons que le MDS provoque des erreurs importantes dans le bilan carbone pour les sites du nord (latitude \(>60^\circ\)). MDS surestime systématiquement les émissions de dioxyde de carbone (CO\(_2\)) des sources de carbone et sous-estime la séquestration de CO\(_2\) des puits de carbone. Nous révélons également les raisons de ces biais et montrons comment une méthode d'apprentissage automatique appelée amplification de gradient extrême ou une implémentation modifiée de MDS peut être utilisée pour réduire considérablement le biais du site nordique.

Le changement climatique est l'un des défis les plus graves auxquels l'humanité est confrontée. Outre la limitation des émissions de gaz à effet de serre provenant des énergies fossiles et de l'utilisation des terres, il est nécessaire de trouver des moyens efficaces de séquestration du carbone (C), notamment du dioxyde de carbone (CO\(_2\)), déjà présent dans l'atmosphère. Les solutions climatiques naturelles, telles que l'agriculture intelligente face au climat, le boisement, le reboisement et la restauration des tourbières, sont considérées comme les moyens les plus réalisables pour cela1,2. Pour rendre ces solutions crédibles pour la politique climatique et les marchés du carbone, une vérification fiable de la séquestration du carbone est nécessaire3. La vérification implique également la technique micrométéorologique de la covariance des tourbillons (EC), une méthode clé pour mesurer directement les flux de CO\(_2\) entre les écosystèmes et l'atmosphère4. La popularité de cette méthode est manifeste dans le réseau FLUXNET, qui compte plus de 900 sites EC dans le monde enregistrés au fil des ans5. En principe, EC fournit des données continues sur l'échange net écosystémique (NEE) à court terme de CO\(_2\) avec l'atmosphère, qui peuvent être intégrées dans le temps pour déterminer le bilan carbone connexe d'un écosystème. Même si les mesures EC peuvent être effectuées en continu, dans la pratique, il existe des lacunes dans les données collectées, par exemple en raison de défaillances techniques et, surtout, en raison de la nécessité de filtrer les données collectées dans des conditions atmosphériques compromettant la validité de la technique EC. Par exemple, dans le jeu de données global FLUXNET2015, avec 1532 sites-années de données6, il manque en moyenne 68 % des flux demi-horaires de CO\(_2\)7. Même si les sites-années qui présentent des écarts de plus de deux mois sont exclus, la couverture moyenne des données est de 40 %. Seuls 50 sites-années ont une couverture supérieure à 60% et seulement 5 sites-années une couverture supérieure à 70%.

Diverses méthodes ont été utilisées pour imputer ou combler les lacunes des données manquantes, avec des méthodes allant de la simple interpolation linéaire et de la variation diurne moyenne à des méthodes plus complexes telles que les réseaux de neurones artificiels (ANN). Dans une comparaison de 15 méthodes de remplissage des écarts de flux de CO\(_2\), il a été conclu que l'effet du remplissage des écarts est modeste sur le bilan annuel de C et que la précision des méthodes les plus performantes, qui se sont avérées être la régression non linéaire, la table de consultation, l'échantillonnage de distribution marginale (MDS), un modèle semi-paramétrique et l'ANN, atteint déjà la limite de bruit des mesures8. Cependant, cette comparaison n'incluait que les sites forestiers d'une étendue latitudinale de \(20^\circ\). D'autres comparaisons ont manqué les méthodes de remplissage des lacunes les plus couramment utilisées de nos jours9, à savoir les approches basées sur le MDS et l'apprentissage automatique, ou se sont concentrées sur les longues lacunes7,10,11. Malgré ces lacunes, différentes méthodes d'apprentissage automatique et en particulier MDS sont devenues les méthodes standard pour combler les lacunes des données EC. Notamment, MDS est utilisé pour combler les lacunes des données NEE standardisées en libre accès fournies par FLUXNET6 et l'infrastructure de recherche européenne Integrated Carbon Observation System (ICOS). MDS est également implémenté dans l'outil gratuit de remplissage des lacunes REddyProc12 et dans le cadre de Tovi\(^{TM}\), un logiciel commercial pour le post-traitement des données EC13. Cependant, les connaissances sur les performances des différentes méthodes de comblement des lacunes, en particulier les MDS, font défaut pour les données des sites nordiques de haute latitude (latitude \(>60^\circ\)). Dans les écosystèmes nordiques, les saisons de croissance sont courtes et la quantité de rayonnement solaire, un facteur environnemental clé dans les échanges de CO\(_2\), est répartie de manière très inégale tout au long de l'année. Par conséquent, la quantité de données nocturnes potentiellement disponibles pendant la courte saison de croissance dans le nord est faible, même avant le filtrage de la qualité des données.

Ici, nous avons étudié les performances de deux méthodes pour combler les lacunes des séries chronologiques de flux de CO\(_2\) dans le but de révéler si les incertitudes induites par le remplissage des lacunes limitent nos capacités à vérifier les estimations de la séquestration du carbone aux latitudes nord. Les méthodes de remplissage des lacunes envisagées étaient MDS et une méthode d'apprentissage automatique appelée eXtreme gradient boosting (XGBoost). XGBoost a été choisi parmi un large éventail de méthodes d'apprentissage automatique, car les méthodes basées sur l'arbre de décision ont donné de bons résultats dans des études précédentes sur les données de remplissage de CO\(_2\) et de flux de méthane7,10,14. Tout d'abord, nous avons comparé les performances de MDS et XGBoost sur l'ensemble de données mondial FLUXNET2015, y compris des séries chronologiques annuelles de données demi-horaires de l'hémisphère nord qui avaient une couverture temporelle d'au moins 20 % de données de flux de CO\(_2\). Ensuite, nous nous sommes concentrés sur le cas particulier des écosystèmes nordiques en étudiant les performances de comblement des lacunes pour dix sites nordiques. Nous avons abordé une tâche de base de remplissage des lacunes impliquant un maximum de lacunes de données de trois jours et l'utilisation des seuls facteurs environnementaux facilement disponibles : température de l'air (T\(_{air}\)), rayonnement entrant à ondes courtes (SWR) et déficit de pression de vapeur atmosphérique (VPD). Plus précisément, nous voulions savoir si les méthodes de remplissage des lacunes (1) aboutissent à des estimations similaires du bilan C et (2) fonctionnent aussi bien dans les écosystèmes nordiques qu'ailleurs. Pour ce faire, nous avons inséré des lacunes artificielles dans des ensembles de données réels et synthétiques, comblé les lacunes artificielles et évalué les performances des deux méthodes. Nous avons adopté le biais de flux moyen comme principale mesure de performance, car il se traduit directement par la précision d'un bilan annuel. Une autre mesure clé qui a été utilisée était l'erreur d'équilibre, qui est la somme des biais de flux sur les données manquantes. Celle-ci a été calculée à partir de données synthétiques.

Dans ce travail, la convention de signe micrométéorologique est adoptée, ce qui signifie qu'un flux positif de CO\(_2\) dénote un flux de l'écosystème vers l'atmosphère et un flux négatif indique une absorption de l'atmosphère vers l'écosystème. Le remplissage des lacunes artificielles insérées dans 882 sites-années de données dans l'ensemble de données FLUXNET2015 a révélé qu'avec MDS, il y avait un biais positif clair dans les flux comblés pendant la journée (SWR \(\ge\) 20 W m\(^{-2}\)) aux hautes latitudes (\(>50^\circ\)N, N = 105) (Fig. 1a ; pour les tests statistiques, voir le tableau supplémentaire S1). Pendant la nuit (SWR < 20 W m\(^{-2}\)), il y avait un biais négatif, mais beaucoup plus faible (Fig. 1b) conduisant à un biais de flux total positif (Fig. 1c). Un biais de flux positif indique que l'émission a été surestimée ou que l'absorption a été sous-estimée, tandis qu'un biais négatif indique le contraire. Lorsque XGBoost a été utilisé pour combler les lacunes, certains biais de flux positifs et négatifs ont été observés (Fig. 1d, e), mais l'ampleur de ces biais était faible par rapport au biais diurne de MDS. Le biais de flux total avec XGBoost était insignifiant ou très faible à toutes les latitudes (Fig. 1f et tableau supplémentaire S1).

Le MDS provoque un biais positif clair dans le NEE comblé aux latitudes nord. (a,b) diurne, (c,d) nocturne et (e,f) biais total dans les données de flux de CO\(_2\) comblées à l'aide d'un échantillonnage de distribution marginale (MDS) et d'un renforcement de gradient extrême (XGBoost). Les données couvrent 882 sites-années à partir de 141 sites de l'ensemble de données mondial FLUXNET2015. Les résultats de chaque méthode ont été comparés aux données mesurées étiquetées comme lacunes artificielles. Le biais de flux moyen total, diurne et nocturne est tracé pour chaque site-année.

La méthode MDS est basée sur la covariation entre le NEE et les variables météorologiques et comble principalement une observation de NEE manquante par la moyenne des valeurs de NEE disponibles mesurées dans des conditions similaires. La similarité des conditions météorologiques est déterminée sur la base des tolérances d'échantillonnage, ou des écarts maximum acceptés par rapport aux conditions réelles, spécifiés pour chaque variable prédictive (pour plus de détails, voir Méthodes). Le biais diurne positif aux latitudes nord (Fig. 2a) résultait d'une distribution de rayonnement très asymétrique (Fig. 2b et Fig. S1 supplémentaire), entraînant l'échantillonnage de plus de données dans la plage inférieure de la distribution de rayonnement (Fig. 2c). Un niveau de rayonnement sous-estimé correspond à une absorption photosynthétique sous-estimée (composante de flux négative) et donc à un NEE surestimé (Fig. 2d). Des exemples utilisant des données mesurées sont présentés dans les Fig. 2a, b supplémentaires. Le déséquilibre des biais de flux diurnes et nocturnes était évident aux latitudes \(50^\circ\)–\(70^\circ\), affectant 133 site-années de données, ce qui correspond à 15 % des sites-années dans le sous-ensemble sélectionné de l'ensemble de données FLUXNET2015. Aux latitudes \(30^\circ\)–\(50^\circ\), il y avait également un nombre substantiel de sites-années avec un biais de flux négatif, indiquant que les biais à ces latitudes étaient causés par d'autres raisons. Étant donné que le biais de flux diurne positif avec MDS était particulièrement évident aux latitudes \(60^\circ\)–\(70^\circ\), nous avons étudié plus en profondeur les données de dix sites situés dans cette zone (tableau 1). Ces données ont été acquises à partir du produit ICOS Warm Winter 2020 EC flux, car il y avait plus d'années-sites avec une bonne couverture de données disponibles pour les latitudes nord15. Le produit de données ICOS est entièrement compatible avec le jeu de données FLUXNET2015.

La distribution du rayonnement est asymétrique aux latitudes nord, ce qui entraîne un biais d'échantillonnage et un biais de flux positif. (a) biais de flux de CO\(_2\) diurne et nocturne du MDS à différentes latitudes, (b) asymétrie de la distribution du rayonnement à ondes courtes entrant à différentes latitudes, (c) biais d'échantillon pendant la journée et la nuit à différentes valeurs d'asymétrie de la distribution de rayonnement et (d) une figure schématique illustrant comment le biais positif est produit. La courbe noire montre un exemple de la véritable dépendance du NEE au SWR (une courte période de NEE diurne pendant la saison de croissance). Le biais d'échantillonnage (c) indique combien de points de données supplémentaires sont échantillonnés avec des valeurs de rayonnement inférieures à supérieures par rapport à la valeur mesurée lors de la sélection des données NEE qui sont moyennées pour imputer une observation manquante. Si le nombre de mesures (N) dans l'intervalle de tolérance en dessous du swr mesuré (swr-tol...swr) est supérieur au nombre de mesures dans l'intervalle de tolérance au-dessus (swr...swr+tol), il y a un biais d'échantillon positif, et le NEE modélisé à un certain swr est susceptible d'être surestimé. La taille de l'échantillon variait de 2 à 507 avec une moyenne de 29. Les données couvrent 882 sites-années. Toutes les boîtes à moustaches illustrent la médiane (ligne continue), les quartiles (boîte) et le reste de la distribution, à l'exclusion des valeurs aberrantes, qui sont tracées individuellement. Les valeurs aberrantes ont été définies comme des points situés à l'extérieur de 1,5 fois l'intervalle interquartile. Les biais d'échantillonnage supérieurs à 12 (N = 6) et inférieurs à − 3 (N = 4) ne sont pas indiqués pour plus de clarté.

Pour évaluer les implications du biais détecté sur les flux de CO\(_2\) accumulés annuellement, c'est-à-dire les estimations des bilans annuels de C, nous avons généré des séries chronologiques complètes synthétiques correspondant aux flux de CO\(_2\) observés sur les dix sites du nord (Figs supplémentaires S3, S4 et tableau supplémentaire S2). Nous avons ensuite introduit des écarts artificiels réalistes, tant en longueur qu'en temps, (30 %, 50 % et 70 % des données) dans les ensembles de données synthétiques et comparé les soldes C dérivés de la série chronologique NEE remplie d'écarts aux vrais soldes. Cela a été fait pour deux raisons. Dans la première partie de l'étude, nous avons évalué le biais de flux sur la base des séries chronologiques de mesures disponibles qui ont été compromises par des lacunes dans les données. Cependant, la plupart des écarts se situent dans la nuit, ce qui signifie que la majorité des données utilisées pour évaluer le biais étaient des flux diurnes. Deuxièmement, nous voulions savoir quel est l'effet combiné des longueurs d'écart réalistes, du moment et des biais, qui dépendent de l'heure de la journée, sur l'estimation de l'équilibre C.

Nous avons constaté que MDS surestimait systématiquement le bilan annuel de C dans tous les cas sauf un (site SE-Nor avec des écarts de 70 %) (Fig. 3 et tableau supplémentaire S3). L'erreur d'équilibre médian spécifique au site avec le MDS variait de 2 à 10 g C m\(^{-2}\) y\(^{-1}\) au niveau d'écart de 30 % à 3 à 17 g C m\(^{-2}\) y\(^{-1}\) au niveau d'écart de 70 %. Pour 5 des 10 ensembles de données, les erreurs d'équilibre dépassaient 30 g C m\(^{-2}\) y\(^{-1}\) et l'erreur d'équilibre la plus importante était de 42 g C m\(^{-2}\) y\(^{-1}\). Il convient de noter que l'erreur de solde absolu annuel était similaire pour les sites avec des soldes synthétiques allant de dizaines (FI-Qvd, FI-Let) à des centaines (FI-Hyy, SE-Ros) de grammes de C m\(^{-2}\) y\(^{-1}\). De plus, lorsque plus d'écarts tombaient dans les données nocturnes que diurnes, l'erreur annuelle du MDS diminuait, car le plus grand nombre de valeurs NEE sous-estimées pendant la nuit compensait le plus petit nombre de NEE surestimés pendant la journée. Dans quatre cas sur trente, il y avait une erreur significative dans le solde calculé avec XGBoost, mais les erreurs de solde médianes n'étaient que de − 4 à 2 g C m\(^{-2}\) y\(^{-1}\).

Le remplissage des lacunes avec MDS entraîne des erreurs d'équilibre C. Erreurs du solde C annuel rempli d'écart pour différents pourcentages d'écart. Un ensemble de données synthétiques a été généré cinq fois pour chaque site (tableau 1) et chaque classe de couverture de données a été testée 10 fois pour chaque ensemble de données. Des intervalles aléatoires d'une durée de 0,5 h à 3 jours ont été générés sur la base de la distribution des intervalles d'origine en tenant également compte du moment des intervalles. Les erreurs d'équilibre positives signifient que l'estimation de l'équilibre C rempli d'écarts indique une source trop grande ou un puits trop petit.

Pour tester si MDS pouvait être amélioré en modifiant la méthode et pour vérifier davantage que le biais de flux positif était causé par l'échantillonnage de rayonnement biaisé, nous avons étudié les performances du modèle avec trois modifications à l'aide de l'ensemble de données synthétiques FI-Let, pour lequel MDS surestimait le plus. Soit (1) nous avons réduit les deux paramètres de tolérance définissant les limites du TOS de chaque échantillon de données, (2) nous n'avons utilisé qu'une seule tolérance au rayonnement, ou (3) pour les données diurnes, nous avons calculé séparément le NEE moyen des sous-échantillons de TOS faible et élevé, puis nous avons fait la moyenne de ces moyennes.

Lorsque les tolérances de SWR étaient différentes pour les niveaux de SWR inférieurs et supérieurs, le biais de flux positif pendant la journée était plus important que le biais négatif de nuit, provoquant un biais total positif et donc une surestimation de l'équilibre C (Fig. 4a, c et tableaux supplémentaires S4 et S5). Lorsque les classes SWR ont été réduites, les erreurs étaient plus petites par rapport à la mise en œuvre d'origine, mais l'erreur quadratique moyenne (RMSE) du NEE modélisé a augmenté (Fig. 4b et tableau supplémentaire S6). Lorsqu'une tolérance SWR commune de 25 W m\(^{-2}\) était utilisée, l'erreur de la balance C comblée était insignifiante lorsque 30 % ou 50 % des données manquaient et négative lorsque 70 % des données manquaient (Fig. 4a et tableau supplémentaire S4). Dans ce cas également, la RMSE a augmenté (Fig. 4c et tableau supplémentaire S6). La moyenne des sous-échantillons de SWR faible et élevé séparément et la prise de leur moyenne ont diminué le biais de flux diurne positif et l'erreur du solde annuel sans affecter le RMSE (Fig. 4a – c et tableaux supplémentaires 4, 5). Cependant, l'erreur d'équilibre n'a pas été complètement éliminée et un RMSE encore plus faible a été obtenu en utilisant XGBoost. Enfin, nous avons rempli tous les ensembles de données synthétiques en utilisant la mise en œuvre de MDS avec une moyenne de sous-échantillons et avons constaté que dans un seul cas (SE-Nor avec 70 % de données manquantes), l'ampleur de l'erreur annuelle était plus grande que lors de l'utilisation de la mise en œuvre originale de MDS (Fig. S5 supplémentaire et tableau supplémentaire S7). Dans tous les autres cas, l'erreur a été soit diminuée, soit complètement éliminée.

Une version modifiée de MDS peut être utilisée pour réduire les erreurs d'équilibre C. Performance de différentes implémentations de la méthode MDS gap-filling et XGBoost pour le jeu de données synthétique FI-Let. [20,50], [10,25] et [25,25] (W m\(^{-2}\)) indiquent les tolérances d'échantillonnage utilisées pour le TOS. Les « sous-échantillons » font référence à la moyenne des NEE moyens des sous-échantillons de données à SWR faible et élevé pendant la journée. [20,50] est l'implémentation standard de MDS. (a) Erreur annuelle, (b) erreur quadratique moyenne (RMSE) et c biais diurne et nocturne des données de flux de CO\(_2\) synthétiques remplies d'espaces. Pour évaluer les erreurs, chaque classe de couverture des données a été testée 10 fois, et la RMSE et les biais ont été calculés pour les données avec 70 % d'écarts artificiels.

Des différences artificielles entre les bilans de C spécifiques au site peuvent être générées par le comblement des lacunes, en particulier si des méthodes ayant une tendance à la fois à un biais négatif et positif sont utilisées pour différents sites. C'est la raison pour laquelle les réseaux de flux ont standardisé leur traitement des données. Cependant, même en comblant les lacunes avec la même méthode, l'imputation des données peut entraîner des différences significatives entre les sites car les biais sont spécifiques au site et dépendent de la couverture des données. Auparavant, les incertitudes aléatoires à une échelle de temps annuelle étaient estimées à 10–40 g C m\(^{-2}\) y\(^{-1}\)16,17, les incertitudes liées au remplissage des lacunes à 10–30 g C m\(^{-2}\) y\(^{-1}\)8,16 et l'incertitude totale de l'équilibre du C aux sites presque idéaux à moins de ± 50 g C m\(^{-2} \) y\(^{-1}\)4. L'ampleur des erreurs annuelles trouvées dans cette étude est comparable aux incertitudes estimées, ce qui signifie que dans certains cas, le véritable équilibre pourrait ne pas être saisi par l'intervalle de confiance de l'estimation originale. Nous avons montré qu'un algorithme d'apprentissage automatique, ici la technique d'amplification de gradient extrême, peut réduire considérablement l'erreur de remplissage des lacunes.

En principe, toute méthode qui tient correctement compte de la covariation entre NEE et ses facteurs météorologiques, comme d'autres méthodes d'apprentissage automatique et modèles de régression, pourrait réduire l'erreur de remplissage des lacunes. Le problème clé avec MDS dans sa mise en œuvre d'origine est que le flux moyen dans un certain intervalle de rayonnement est une estimation biaisée en raison de la préférence pour des niveaux de rayonnement plus faibles et donc un NEE plus élevé. Un problème différent mais similaire pourrait être observé dans les modèles de régression si la forme supposée de la réponse de NEE au rayonnement est incorrecte. L'avantage des méthodes d'apprentissage automatique basées sur les données est qu'elles ne font pas ou font moins d'hypothèses sur la fonction de réponse.

Même si les méthodes standardisées facilitent les comparaisons, il reste encore à améliorer ces méthodes, notamment en tenant compte des conditions environnementales spécifiques comme celles des sites nordiques. Il convient également de noter que la quantité de données comblées, c'est-à-dire modélisées, est généralement d'au moins 50 % et, par conséquent, il est crucial que les données modélisées soient impartiales. Nous avons montré que la mise en œuvre originale de MDS est une méthode sous-optimale pour combler les lacunes des données des sites nordiques où la distribution du rayonnement est très asymétrique. D'autres méthodes, telles que XGBoost ou le MDS modifié proposé, devraient être prises en compte dans le pipeline de traitement standardisé de FLUXNET, au moins pour les sites nord de haute latitude (latitude \(>60^\circ\)). Les résultats pourraient également être valables pour d'autres sites, tels que les sites des hautes latitudes du sud, et s'ils sont appliqués à différents moteurs.

Bien que les erreurs absolues trouvées dans ce travail puissent sembler peu importantes, les erreurs systématiques doivent être éliminées dans la mesure du possible. Avec un intérêt croissant pour le potentiel de séquestration du C des écosystèmes, il convient de noter que les bilans de C des écosystèmes des hautes latitudes sont généralement faibles. Le NEE annuel moyen observé est de − 17 g C m\(^{-2}\) dans les biomes boréal et toundra des hautes latitudes (\(>45^\circ\)) qui couvrent une superficie de \(20,6 \times\) 10\(^6\) km\(^2\)18. Par conséquent, les erreurs systématiques de remplissage des lacunes découvertes ici peuvent avoir un impact relatif important sur les estimations du bilan de C des écosystèmes nordiques, avec des implications pour la vérification de la séquestration du C.

L'ensemble de données FLUXNET2015 et les données acquises à partir d'un produit de données ICOS (Warm Winter 2020 ecosystem eddy covariance flux product for 73 stations in FLUXNET) consistent en des données de flux de covariance eddy CO\(_2\) en libre accès et des mesures de support qui ont été traitées de manière standardisée6,15. Les données FLUXNET ont été collectées à partir de 206 sites répartis dans le monde. À partir de l'ensemble de données FLUXNET2015, nous avons utilisé toutes les années-site de l'hémisphère nord qui avaient une couverture annuelle d'au moins 20 % (tableau supplémentaire S8). Nous avons utilisé le NEE mesuré en sélectionnant les valeurs dans le produit de données NEE_VUT_REF où l'indicateur de qualité NEE_VUT_REF_QC était égal à zéro. Les facteurs environnementaux sélectionnés étaient le rayonnement à ondes courtes (SW_IN_F), le déficit de pression de vapeur atmosphérique (VPD_F_MDS) et la température de l'air (TA_F_MDS). Les lacunes des pilotes ont été comblées selon le protocole de traitement des données FLUXNET6. À partir du produit de données ICOS, nous avons utilisé les données de tous les sites du nord (\(>60^\circ\)) qui avaient une couverture annuelle d'au moins 30 % et T\(_{air}\), VPD, SWR et température du sol disponibles. Pour chaque site, nous avons sélectionné le site-année qui avait la couverture de données la plus élevée (tableau 1).

Deux méthodes de remplissage des lacunes ont été utilisées dans ce travail : l'amplification du gradient extrême et l'échantillonnage de distribution marginale.

L'algorithme d'amplification de gradient extrême est basé sur des arbres de décision boostés en parallèle. Le package Python 'xgboost'19 a été utilisé pour appliquer cette méthode. Les hyperparamètres, qui contrôlent le ratio de sous-échantillons de colonnes lors de la construction de chaque arbre (0,4, 0,6, 0,8, 1), la profondeur maximale d'un arbre (3, 5, 10, 15), le nombre minimum d'échantillons requis pour créer un nouveau nœud dans un arbre (2, 5, 10) et la fraction d'observations échantillonnées au hasard pour chaque arbre (0,65, 0,75, 1) ont été déterminés pour le FLUXNET2015 données basées sur une recherche de grille utilisant dix ensembles de données sélectionnés au hasard et en sélectionnant le mode de chaque hyperparamètre. Pour les sites du nord, les mêmes hyperparamètres ont été optimisés pour chaque ensemble de données synthétiques à l'aide des données originales artificielles sans lacunes et de la recherche par grille. Pour le taux d'apprentissage, nous avons utilisé la valeur par défaut de 0,1. L'erreur quadratique a été utilisée comme fonction de perte. Étant donné que MDS utilise une fenêtre de données mobiles pour résoudre les corrélations temporelles dans les données de flux, XGBoost a été complété par deux fonctions cycliques pour le mois et l'heure de la journée, et une description linéaire du temps en tant que facteurs supplémentaires :

où i est le nombre de demi-heures depuis le début de l'année.

Dans MDS, les lacunes sont remplies avec la moyenne des flux mesurés dans des conditions météorologiques similaires en utilisant une fenêtre mobile pour l'échantillonnage des données, ou avec le cours diurne moyen (MDC) si un échantillon suffisamment grand n'a pas pu être trouvé. Les facteurs météorologiques par défaut et leurs tolérances, ou écarts acceptés par rapport aux conditions réelles, sont SWR, avec une tolérance de 20 W m\(^{-2}\) pour SWR \(\le\) 50 W m\(^{-2}\) et 50 W m\(^{-2}\) pour SWR > 50 W m\(^{-2}\), T\(_{air}\) avec une tolérance de 2,5 K et VPD avec une tolérance de 5 hPa. Si T\(_{air}\) ou VPD est manquant, seul SWR est utilisé. Si aucun des pilotes météorologiques n'est disponible, les lacunes sont remplies avec MDC. La procédure d'échantillonnage spécifique est décrite dans Wutzler et al.12. Il convient de noter que l'outil REddyProc utilise également des tolérances SWR de 20 W m\(^{-2}\) et 50 W m\(^{-2}\) (https://github.com/bgctw/REddyProc/tree/1.1.3) même si une seule approche de tolérance est signalée.

En plus de l'implémentation standard de MDS, nous avons testé des versions modifiées de celui-ci. Tout d'abord, nous avons seulement modifié les limites d'échantillonnage du rayonnement. Nous avons testé en utilisant deux tolérances différentes comme dans l'implémentation d'origine, mais nous avons abaissé les tolérances SWR à 10 et 25 W m\(^{-2}\). Nous avons également testé en utilisant une seule tolérance à tous les niveaux de rayonnement et avons utilisé une tolérance SWR de 25 W m\(^{-2}\) pour cela. Enfin, pour mieux tenir compte du biais d'échantillonnage, pour les données de jour, nous avons d'abord calculé le NEE moyen séparément pour les sous-échantillons de données avec un SWR supérieur et inférieur au SWR actuel, puis avons fait la moyenne de ces deux valeurs de NEE. Les variantes MDS ont été implémentées à l'aide d'un code C par Papale et al.20.

Un réseau de neurones artificiels (ANN) a été utilisé pour générer des ensembles de données synthétiques avec une couverture de 100 % qui pourraient être utilisés pour comparer les méthodes de remplissage des lacunes. L'ANN utilisé ici était un modèle séquentiel à quatre couches cachées, avec 16 nœuds dans la première couche cachée et 32 ​​dans les autres couches. Les fonctions d'activation qui ont été utilisées étaient linéaires, tangentes hyperboliques (tanh) et activation linéaire rectifiée (relu), et la structure du réseau était linéaire-tanh-tanh-relu-linéaire. L'erreur quadratique moyenne a été utilisée comme fonction de perte. L'ANN a été implémenté à l'aide de la bibliothèque Keras21. La température de l'air, la température du sol, le SWR et le VPD ont été utilisés comme prédicteurs pour le réseau de neurones. Pour chaque site, nous avons utilisé toutes les données mesurées disponibles pour former l'ANN et après modélisation pour toutes les périodes de 30 minutes d'un an, le bruit a été ajouté au NEE modélisé de 30 minutes. Cela a été fait en regroupant les résidus du modèle en fonction de la saison (mois d'hiver 1 à 4 et 11 à 12 et mois d'été 5 à 10), l'heure de la journée (la nuit avec SWR \(\le\) 20 W m\(^{-2}\) et la journée avec SWR > 20 W m\(^{-2}\) ) et la température de l'air (cinq classes de taille égale). Après avoir regroupé les données, un résidu a été sélectionné au hasard dans le bon bac et ajouté à chaque NEE de 30 minutes. L'ensemble de la procédure a été répété cinq fois pour chaque site afin d'obtenir 50 ensembles de données synthétiques différents.

En pratique, les données synthétiques représentent un cas dans lequel NEE est piloté par T\(_{air}\), SWR, VPD et la température du sol. Nous avons supposé qu'il y avait du bruit dans les données et qu'il était d'une ampleur différente pendant les mois actifs d'été et d'hiver, pendant la journée et la nuit et à différentes températures. Lors du remplissage des données avec MDS et XGBoost, nous avons supposé qu'ils devraient être capables de résoudre la covariation entre NEE et T\(_{air}\), SWR et VPD. Nous avons également supposé que les erreurs moyennes d'une méthode non biaisée de remplissage des lacunes seraient nulles.

Parmi les données FLUXNET2015, nous avons échantillonné toutes les données mesurées disponibles pour calculer le biais moyen pour chaque site-année. Pour MDS, nous avons marqué une demi-heure à la fois comme un écart artificiel car il est facile à mettre en œuvre dans une fenêtre mobile. Pour XGBoost, nous avons étiqueté un pour cent des données mesurées comme des lacunes artificielles à la fois, car la formation d'un modèle différent pour chaque demi-heure n'était pas raisonnable en raison des contraintes de temps de calcul. Cependant, les résultats pour XGBoost représentent une estimation prudente puisque la formation d'un modèle séparé pour chaque demi-heure individuelle améliorerait plutôt qu'aggraverait les résultats.

Pour les ensembles de données synthétiques, les écarts artificiels ont été tirés des distributions d'écarts d'origine, en tenant compte à la fois de la longueur et du moment de l'écart. Plus précisément, les lacunes de la série chronologique d'origine ont été étiquetées en fonction de leur longueur et de leur heure de début, et les lacunes artificielles ont été choisies au hasard parmi les lacunes d'origine et insérées dans les ensembles de données synthétiques jusqu'à ce qu'une couverture de 30 %, 50 % ou 70 % soit atteinte. Lors de l'insertion des lacunes artificielles dans les données synthétiques, l'heure de début de chaque lacune a été conservée. Les lacunes artificielles n'étaient pas autorisées à se chevaucher. Pour chaque couverture de données, nous avons généré dix séquences de lacunes différentes qui ont été utilisées pour tous les ensembles de données synthétiques.

Les comparaisons entre les valeurs remplies et mesurées ont été effectuées à l'aide du biais moyen, de la RMSE et de l'erreur de l'équilibre annuel du C comblé. Dans cet article, nous avons défini le bilan C comme le bilan C mesuré avec EC excluant l'impact potentiel des récoltes, de la fertilisation, du lessivage et du transport latéral de C.

Le biais moyen et la RMSE ont été définis comme :

où N est égal à la quantité d'écarts artificiels, et NEE\(_{écart, i}\) indique un espace rempli et NEE\(_{meas, i}\) une valeur mesurée.

L'erreur de la balance de C comblée a été calculée comme la différence entre les balances de C comblées et vraies (synthétiques) :

où N est égal au nombre de NEE de 30 minutes dans les données et NEE\(_{synth, i}\) une valeur NEE synthétique.

Pour déterminer si les biais moyens du NEE demi-horaire et les erreurs des bilans de carbone remplis d'écarts différaient de zéro, nous avons utilisé le test non paramétrique des rangs signés de Wilcoxon. La normalité des données a d'abord été évaluée à l'aide du test de Shapiro-Wilk. Des comparaisons par paires ont été effectuées à l'aide du test de Conover et de la méthode de Holm pour ajuster les valeurs de p. Tous les tests statistiques ont été effectués en Python à l'aide du package SciPy22.

Le jeu de données FLUXNET2015 est disponible sur http://fluxnet.fluxdata.org/data/fluxnet2015-dataset/. Le produit de flux de covariance turbulente de l'écosystème ICOS Warm Winter 2020 pour 73 stations au format FLUXNET-Archive-release 2022-1 est disponible sur http://www.icos-cp.eu/data-products/2G60-ZHAK.

Le code permettant de créer des données synthétiques et de combler les lacunes à l'aide de XGBoost est disponible sur https://github.com/hvekuri/co2_gapfilling.

La version originale en ligne de cet article a été révisée : dans la version originale de cet article, un lien hypertexte vers la disponibilité du code était rompu. Le lien hypertexte correct est https://github.com/hvekuri/co2_gapfilling.

Paustien, K. et al. Sols climato-intelligents. Nature 532, 49-57 (2016).

Article ADS CAS PubMed Google Scholar

Griscom, BW et al. Solutions climatiques naturelles. Proc. Natl. Acad. Sci. 114, 11645–11650 (2017).

Article ADS CAS PubMed PubMed Central Google Scholar

Smith, P. et al. Comment mesurer, rapporter et vérifier le changement de carbone du sol pour réaliser le potentiel de séquestration du carbone du sol pour l'élimination des gaz à effet de serre atmosphérique. Glob. Changer Biol. 26, 219-241 (2020).

Annonces d'article Google Scholar

Baldocchi, DD Évaluation de la technique de covariance des tourbillons pour évaluer les taux d'échange de dioxyde de carbone des écosystèmes : passé, présent et futur. Glob. Changer Biol. 9, 479–492 (2003).

Annonces d'article Google Scholar

Baldocchi, DD Comment les mesures de flux de covariance turbulente ont contribué à notre compréhension de la biologie du changement global. Glob. Changer Biol. 26, 242-260 (2020).

Annonces d'article Google Scholar

Pastorello, G. et al. Le jeu de données FLUXNET2015 et le pipeline de traitement ONEFlux pour les données de covariance de Foucault. Sci. Données 7, 1–27 (2020).

Article Google Scholar

Zhu, S., Clement, R., McCalmont, J., Davies, CA et Hill, T. Remplissage stable des lacunes pour les données de covariance de Foucault plus longues : une approche d'apprentissage automatique validée à l'échelle mondiale pour les flux de dioxyde de carbone, d'eau et d'énergie. Agric. Pour. Météorol. 314, 108777 (2022).

Annonces d'article Google Scholar

Moffat, AM et al. Comparaison complète des techniques de remplissage des lacunes pour les flux nets de carbone de covariance turbulente. Agric. Pour. Météorol. 147, 209–232 (2007).

Annonces d'article Google Scholar

Falge, E. et al. Stratégies de comblement des lacunes pour des sommes annuelles défendables d'échange net de l'écosystème. Agric. Pour. Météorol. 107, 43–69 (2001).

Annonces d'article Google Scholar

Mahabbati, A. et al. Une comparaison des algorithmes de remplissage des lacunes pour les flux de covariance de Foucault et leurs pilotes. Géosci. Instrument. Méthodes Data Syst. 10, 123–140 (2021).

Article ADS CAS Google Scholar

Kim, Y. et al. Approches de remplissage des lacunes pour les flux de méthane à covariance turbulente : comparaison de trois algorithmes d'apprentissage automatique et d'une méthode traditionnelle avec analyse en composantes principales. Glob. Changer Biol. 26, 1499-1518 (2020).

Annonces d'article Google Scholar

Wutzler, T. et al. Post-traitement basique et extensible des données de flux de covariance de Foucault avec REddyProc. Biogéosciences 15, 5015–5030 (2018).

Article ADS CAS Google Scholar

LI-COR Biosciences, États-Unis. https://www.licor.com/env/support/Tovi/manuals.html.

Irvin, J. et al. Flux de méthane à covariance turbulente de remplissage des lacunes : comparaison des prédictions et des incertitudes du modèle d'apprentissage automatique dans les zones humides FLUXNET-CH4. Agric. Pour. Météorol. 308, 108528 (2021).

Annonces d'article Google Scholar

Équipe Warm Winter 2020 et centre thématique de l'écosystème ICOS. (2022). Produit de flux de covariance de Foucault de l'écosystème de l'hiver chaud 2020 pour 73 stations au format FLUXNET-Archive-version 2022-1 (version 1.0). portail carbone icos. https://doi.org/10.18160/2g60-zhak (2022).

Richardson, AD & Hollinger, DY Une méthode pour estimer l'incertitude supplémentaire dans le NEE rempli de lacunes résultant de longues lacunes dans l'enregistrement du flux de CO\(_2\). Agric. Pour. Météorol. 147, 199–208 (2007).

Annonces d'article Google Scholar

Liu, M. et al. Analyse d'incertitude des composants du flux de CO\(_2\) dans une plantation de conifères à feuilles persistantes subtropicales. Sci. Chine Ser. D Terre Sci. 52, 257-268 (2009).

Article ADS CAS Google Scholar

Virkkala, A.-M. et coll. Mise à l'échelle statistique des flux de CO\(_2\) écosystémiques dans la toundra terrestre et le domaine boréal : schémas régionaux et incertitudes. Glob. Changer Biol. 27, 4040–4059 (2021).

Article CAS Google Scholar

Chen, T. & Guestrin, C. Xgboost : Un système évolutif de boost d'arbres. Dans Actes de la 22e Conférence internationale ACM SIGKDD sur la découverte des connaissances et l'exploration de données, 785–794 (2016).

Papale, D. et al. Vers un traitement standardisé de l'échange net de l'écosystème mesuré avec la technique de covariance des tourbillons : algorithmes et estimation de l'incertitude. Biogéosciences 3, 571–583 (2006).

Article ADS CAS Google Scholar

Chollet, F.c. et al. Kéras. https://keras.io (2015).

Virtanen, P. et al. Algorithmes fondamentaux pour le calcul scientifique en Python. SciPy 1.0. Nat. Méthodes 17, 261–272 (2020).

Article CAS PubMed PubMed Central Google Scholar

Télécharger les références

Cette recherche a été financée par la fondation Maj et Tor Nessling (subvention n° 202000391), le Centre de recherche stratégique de l'Académie de Finlande (subvention n° 327214, 335204), le financement phare de l'Académie de Finlande (subvention n° 337549) et l'Académie de Finlande (subvention n° 328310, 325549). DP reconnaît le soutien du projet européen CoCO2 H2020 (GA 958927) et du projet Open Earth Monitor Horizon Europe (GA 101059548). MA, TL et AL reconnaissent le ministère finlandais des transports et des communications par l'intermédiaire d'ICOS Finlande. Ce travail a utilisé des données de covariance de Foucault acquises et partagées par la communauté FLUXNET, y compris ces réseaux : AmeriFlux, AfriFlux, AsiaFlux, CarboAfrica, CarboEuropeIP, CarboItaly, CarboMont, ChinaFlux, Fluxnet-Canada, GreenGrass, ICOS, KoFlux, LBA, NECC, OzFlux-TERN, TCOS-Siberia et USCCC. Le traitement et l'harmonisation des données de covariance de Foucault de FLUXNET ont été réalisés par le centre thématique de l'écosystème ICOS, le projet de gestion AmeriFlux et le projet Fluxdata de FLUXNET, avec le soutien du CDIAC et des bureaux OzFlux, ChinaFlux et AsiaFlux. Tous les sites du nord utilisés dans cette étude, à l'exception de FI-Qvd et SE-Ros, font partie de l'infrastructure de recherche européenne ICOS et leurs données sont diffusées par le portail carbone ICOS.

Institut météorologique finlandais, 00101, Helsinki, Finlande

Henriikka Vekuri, Juha-Pekka Tuovinen, Liisa Kulmala, Mika Aurela, Tuomas Laurila, Jari Liski & Annalea Lohila

DIBAF Université de Tuscia, 01100, Viterbe, Italie

Darius Papale

Centre euro-méditerranéen sur le changement climatique CMCC IAFES, 01100, Viterbo, Italie

Darius Papale

Institut de recherche sur l'atmosphère et le système terrestre, Physique, Université d'Helsinki, 00014, Helsinki, Finlande

Pasi Kolari & Annalea Lohila

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

HV, JP.T. et AL ont conçu l'étude. HV a effectué les analyses de données. DP a fourni le code pour MDS et a développé la version modifiée de MDS. Tous les auteurs ont participé à la discussion de l'analyse, de l'interprétation des données, de la rédaction et de l'édition du manuscrit.

Correspondance à Henriikka Vekuri.

Les auteurs ne déclarent aucun intérêt concurrent.

Springer Nature reste neutre en ce qui concerne les revendications juridictionnelles dans les cartes publiées et les affiliations institutionnelles.

Libre accès Cet article est sous licence Creative Commons Attribution 4.0 International, qui autorise l'utilisation, le partage, l'adaptation, la distribution et la reproduction sur tout support ou format, à condition que vous accordiez le crédit approprié à l'auteur ou aux auteurs originaux et à la source, fournissez un lien vers la licence Creative Commons et indiquez si des modifications ont été apportées. Les images ou tout autre matériel de tiers dans cet article sont inclus dans la licence Creative Commons de l'article, sauf indication contraire dans une ligne de crédit au matériel. Si le matériel n'est pas inclus dans la licence Creative Commons de l'article et que votre utilisation prévue n'est pas autorisée par la réglementation légale ou dépasse l'utilisation autorisée, vous devrez obtenir l'autorisation directement du détenteur des droits d'auteur. Pour voir une copie de cette licence, visitez http://creativecommons.org/licenses/by/4.0/.

Réimpressions et autorisations

Vekuri, H., Tuovinen, JP., Kulmala, L. et al. Une méthode largement utilisée de remplissage des écarts de covariance des tourbillons crée un biais systématique dans les estimations du bilan carbone. Sci Rep 13, 1720 (2023). https://doi.org/10.1038/s41598-023-28827-2

Télécharger la citation

Reçu : 21 novembre 2022

Accepté : 25 janvier 2023

Publié: 31 janvier 2023

DOI : https://doi.org/10.1038/s41598-023-28827-2

Toute personne avec qui vous partagez le lien suivant pourra lire ce contenu :

Désolé, aucun lien partageable n'est actuellement disponible pour cet article.

Fourni par l'initiative de partage de contenu Springer Nature SharedIt

En soumettant un commentaire, vous acceptez de respecter nos conditions d'utilisation et nos directives communautaires. Si vous trouvez quelque chose d'abusif ou qui ne respecte pas nos conditions ou directives, veuillez le signaler comme inapproprié.