Approche d'apprentissage automatique pour expliquer la dynamique de la qualité de l'eau dans une rivière urbanisée

Nouvelles

MaisonMaison / Nouvelles / Approche d'apprentissage automatique pour expliquer la dynamique de la qualité de l'eau dans une rivière urbanisée

Jan 25, 2024

Approche d'apprentissage automatique pour expliquer la dynamique de la qualité de l'eau dans une rivière urbanisée

Rapports scientifiques volume 12,

Rapports scientifiques volume 12, Numéro d'article : 12346 (2022) Citer cet article

2719 Accès

2 Citations

10 Altmétrique

Détails des métriques

Les activités humaines modifient la qualité et la quantité de l'eau des rivières, avec des conséquences sur les écosystèmes des rivières urbanisées. Quantifier le rôle des moteurs induits par l'homme dans le contrôle des modèles spatio-temporels de la qualité de l'eau est essentiel pour développer des stratégies efficaces pour améliorer la santé écologique des rivières urbaines. Ici, nous analysons les données de conductivité électrique et de température à haute fréquence recueillies dans la rivière Chess dans le sud-est de l'Angleterre lors d'un projet de science citoyenne. En utilisant l'apprentissage automatique, nous constatons que les arbres boostés surpassent le GAM et décrivent avec précision la dynamique de la qualité de l'eau avec moins de 1 % d'erreur. Les explications additives SHapley révèlent l'importance et les (inter)dépendances entre les variables individuelles, telles que le niveau de la rivière et le débit de la station d'épuration des eaux usées (WWTW). Les sorties d'eau d'épuration entraînent des variations diurnes de la conductivité électrique, détectables tout au long de l'année, et une augmentation de la température moyenne de l'eau de 1 \(\rm{^o}C\) dans un bief de 2 km en aval de la station d'épuration lors des étiages. Dans l'ensemble, nous montrons comment les mesures à haute fréquence de la qualité de l'eau initiées par un projet de science citoyenne, associées à des techniques d'apprentissage automatique, peuvent aider à démêler les principaux moteurs de la dynamique de la qualité de l'eau dans un ruisseau de craie urbanisé.

Partout dans le monde, les activités humaines, telles que l'urbanisation, entraînent des changements dans les cycles de l'eau des bassins versants qui ont de profondes répercussions sur la quantité d'eau, la qualité et l'écologie des rivières1,2. L'urbanisation modifie l'hydrologie d'un bassin versant de multiples façons3. L'introduction de surfaces imperméables, associée à des systèmes de drainage artificiels, peut augmenter les débits de pointe dans les rivières3, réduire les temps de réponse hydrologique aux précipitations4,5 et réduire le débit de base et la recharge des eaux souterraines6. Dans de nombreux pays, les systèmes d'égouts combinés transportent les eaux usées domestiques et industrielles vers les stations d'épuration dans des conditions sèches, ainsi que le drainage des eaux pluviales des zones pavées lorsqu'il pleut. Le rejet d'effluents traités peut provoquer des modèles d'écoulement distincts dans les rivières dictés par l'activité humaine7,8.

Les activités humaines associées à l'urbanisation ont également des impacts sur la qualité chimique de l'eau, avec beaucoup d'efforts concentrés sur la caractérisation des changements de qualité de l'eau dans les rivières urbaines pendant les tempêtes9,10,11 et le phénomène de « première chasse »12,13. Les débordements d'égouts unitaires peuvent également avoir un impact significatif sur la qualité de l'eau à la suite d'événements pluvieux intenses lorsque la capacité des stations d'épuration a été dépassée14,15,16,17. Nous savons également que les cours d'eau urbains ont tendance à avoir une conductivité électrique moyenne et des concentrations d'ions majeures plus élevées par rapport à leurs homologues ruraux18,19,20, ce qui résulte d'une combinaison de sources de pollution ponctuelles et diffuses. Par exemple, le chlorure, le sulfate, le sodium et le potassium sont des électrolytes courants dans l'urine et donc concentrés dans les eaux usées19. Cependant, déterminer les principales sources d'ions individuels dans les systèmes urbains s'est avéré difficile21. Ces niveaux élevés de soluté amènent maintenant les écologistes à émettre des hypothèses sur les implications potentielles de concentrations ioniques élevées pour la santé et la résilience des écosystèmes fluviaux urbains22.

Les activités humaines provoquent une dégradation généralisée de la qualité de l'eau des rivières, avec des conséquences sur la santé écologique23. Ces activités entraînent des changements dans la qualité de l'eau des eaux réceptrices qui opèrent sur des échelles de temps imbriquées allant des heures (en réponse aux événements pluvieux) aux cycles quotidiens, saisonniers et interannuels24,25. Pour bien comprendre l'impact des activités humaines sur les rivières, nous devons distinguer les variations induites par l'homme et naturelles de la qualité de l'eau. Pour ce faire, nous avons besoin d'accéder à des données de surveillance à haute résolution et à long terme des systèmes urbanisés, telles que celles qui deviennent disponibles grâce à l'utilisation de capteurs de qualité de l'eau à haute fréquence en temps réel26.

Avec des données détaillées disponibles, l'apprentissage automatique (ML) devient une alternative importante aux modèles statistiques basés sur les processus ou traditionnels. Ce développement est encore accéléré chaque fois que les modèles ML affichent des performances prédictives supérieures27 par rapport aux approches traditionnelles. Par exemple28, a récemment démontré que l'apprentissage automatique peut être utilisé pour détecter les rejets d'eaux usées non traitées lorsqu'il est formé avec des données de débit de 15 minutes provenant de stations d'épuration des eaux usées (WWTW). Les techniques d'apprentissage automatique spécifiques incluent les modèles additifs généralisés (GAM) et les arbres boostés. Les techniques GAM ont été utilisées pour étudier les corrélations entre la chlorophylle a et d'autres paramètres de qualité de l'eau29. Entre-temps, l'analyse arborescente amplifiée a été utilisée, par exemple, pour classer l'importance des facteurs affectant la concentration de nitrates dans les eaux souterraines et pour créer des cartes de vulnérabilité aux nitrates30. L'idée sous-jacente des arbres boostés est de combiner de nombreux "faibles apprenants", à savoir des arbres de régression simples, en un prédicteur d'ensemble31. Les arbres boostés surpassent souvent les réseaux de neurones, en particulier sur les données tabulaires32, mais ils ont des problèmes pour prédire les événements futurs et extrapoler au-delà des valeurs précédemment enregistrées.

Lors de l'application de l'apprentissage automatique, il est important d'éviter les solutions de boîte noire, car celles-ci ne fournissent pas d'informations scientifiques basées sur les processus33. Avec l'avènement de l'apprentissage automatique « eXplainable » ou « interprétable » (IML), l'apprentissage automatique a été amélioré pour mettre en évidence la compréhension des relations pertinentes contenues dans les données. Cependant, ces méthodes IML n'ont jusqu'à présent pas été largement utilisées pour l'analyse de la qualité de l'eau27,34,35. Nous montrons ici comment l'IML peut être utilisé pour déterminer l'importance relative de différents facteurs environnementaux et humains contrôlant la dynamique de la qualité de l'eau, et pour démêler la nature des relations entre le niveau de la rivière et la conductivité électrique ou la température. Dans ce cas, nous utilisons des arbres boostés et interprétons ces boîtes noires traditionnelles via les valeurs de Shapley36,37, en comparant leurs performances globales avec une approche GAM plus traditionnelle. Nous soulignons que notre analyse en elle-même est transparente et reproductible : nous rendons notre code disponible en ligne et tous nos résultats sont basés sur des packages disponibles publiquement et open source, par exemple en Python et R.

Au Royaume-Uni, l'un des types de rivières apparemment soumis à la plus grande pression de l'activité humaine sont les ruisseaux de craie alimentés par les eaux souterraines. La plupart des ruisseaux de craie du monde (224 rivières) sont situés en Angleterre38 et sont considérés comme d'importance internationale pour leurs caractéristiques hydrologiques, la qualité de l'eau, l'écologie et l'esthétique. Cependant, 77 % de ces rivières n'atteignent pas le « bon » état écologique tel que défini par la directive-cadre sur l'eau de l'Union européenne (UE)39, avec des pressions résultant de la surexploitation, des activités agricoles et de l'urbanisation. Bien qu'elles soient désignées en vertu de l'annexe 1 de la directive Habitats, elles sont plus susceptibles d'être dans un état « médiocre » ou « mauvais » que la moyenne des rivières d'Angleterre et du Pays de Galles38. Les ruisseaux de craie sur le pendage de la zone de beauté naturelle exceptionnelle des Chilterns (AONB) illustrent les problèmes auxquels sont confrontées de nombreuses rivières britanniques situées dans des zones à urbanisation rapide, où les effluents traités représentent une forte proportion du débit total de la rivière. De plus, le changement climatique menace la résilience de ces écosystèmes fluviaux40. Dans des scénarios de changement climatique avec des étés plus chauds et plus secs, la proportion d'effluents traités par rapport aux eaux souterraines dans ces systèmes pourrait encore augmenter. De plus, les augmentations prévues de la fréquence des pluies intenses peuvent exercer une pression supplémentaire sur les stations d'épuration qui reçoivent l'eau des réseaux d'égouts unitaires, entraînant des événements de décharge plus fréquents des réservoirs d'orage, modifiant davantage la qualité de l'eau. De telles possibilités nous donnent une impulsion supplémentaire pour développer des moyens de comprendre l'importance des différentes contributions (naturelles et humaines) aux modèles de qualité de l'eau dans les rivières urbanisées. Parmi ces contributions, la gestion des eaux usées figure parmi les enjeux les plus pressants pour la qualité de l'eau41,42, en particulier lors des situations d'étiage.

Enfin, notre recherche concerne également les efforts de la science citoyenne qui gagnent en importance et en intérêt dans la littérature universitaire en raison des opportunités de collecte d'ensembles de données qui n'auraient peut-être pas été possibles sans le soutien local et public. Ces grands ensembles de données sont essentiels pour activer toute application d'apprentissage automatique. De plus, les scientifiques citoyens promeuvent le sujet dans la communauté locale et augmentent ainsi la sensibilisation, en particulier pour les questions environnementales43,44.

Ici, nous nous concentrons sur la rivière Chess, qui est un bassin versant pilote pour « The Smarter Water Catchment Initiative » créé par Thames Water, qui vise à améliorer la gestion des bassins versants grâce à des projets de partenariat qui s'attaquent à de multiples défis et adoptent la science citoyenne. L'initiative nous a offert la possibilité de collecter une série chronologique à long terme de la température et de la conductivité électrique à des intervalles de quinze minutes à l'aide de capteurs entretenus par des scientifiques citoyens. Dans cet article, l'accent est mis sur les variations des séries temporelles de température et de conductivité électrique (en tant qu'indicateur du total des solutés dissous) car ce sont des paramètres de qualité de l'eau qui peuvent être modifiés par des facteurs anthropiques avec des effets importants sur d'autres processus écologiques critiques tels que le métabolisme26,45 et parce qu'ils sont bon marché et faciles à surveiller pour les groupes de science citoyenne.

Notre objectif général est de démontrer l'utilisation d'outils d'apprentissage automatique, en particulier l'analyse GAM, l'arbre boosté et l'analyse SHAP, pour analyser les modèles spatio-temporels de température et de conductivité électrique résultant du ruissellement urbain ponctuel et diffus dans une rivière alimentée par des eaux souterraines. Nous utilisons ces outils d'apprentissage automatique pour démêler l'influence d'un traitement des eaux usées sur les modèles spatio-temporels observés. Enfin, à la lumière de nos conclusions, nous évaluons la manière dont les ensembles de données de conductivité électrique tels que les nôtres pourraient s'avérer utiles pour les groupes de science citoyenne explorant les problèmes de qualité de l'eau dans les rivières urbanisées.

Notre période de surveillance couvre une période de sécheresse avec des débits exceptionnellement faibles (septembre 2019) et des niveaux d'eau souterraine bas dans le bassin versant ; augmentant à des débits exceptionnellement élevés en février / mars 2020 alors que les niveaux des eaux souterraines ont augmenté en réponse aux précipitations totales élevées d'automne et d'hiver en 2020, accompagnées d'événements de précipitations de haute intensité. Les niveaux des eaux souterraines et des rivières présentent un cycle saisonnier clair en réponse à l'évolution des régimes de précipitations dans le bassin versant (Fig. 1).

Graphiques de séries chronologiques de (a) précipitations totales quotidiennes (Chenies, station EA); (b) niveau de la nappe phréatique (Ashley Green, station EA); et (c) Niveau de la rivière River Chess à Rickmansworth du 1er juin 2019 au 1er juin 2020 (station de jaugeage EA)46.

Des dynamiques saisonnières sont également observées dans l'ensemble de données de conductivité électrique sur les sites en aval de Chesham WWTW (LP et WB), voir aussi Méthodes pour une carte. Sur ces sites, la conductivité électrique est la plus élevée alors que les niveaux des eaux souterraines et des rivières sont bas, et diminue une fois que les niveaux des eaux souterraines et des rivières augmentent (Fig. 2a), alors qu'il n'y a pas de tendance saisonnière évidente dans la conductivité électrique sur les sites en amont de la WWTW (BH et LC). La température de l'eau de la rivière affiche un signal saisonnier fort sur tous les sites, avec des températures de l'eau plus élevées en été (juillet à septembre 2019) diminuant au cours de l'automne jusqu'à un minimum hivernal, puis augmentant à nouveau au printemps (Fig. 3a). Si nous traçons une semaine de données de conductivité électrique (Fig. 2b), nous pouvons également observer des cycles quotidiens de conductivité électrique en aval de la WWTW qui ne sont pas observables aux emplacements en amont (Fig. 2b). La température de l'eau de la rivière présente également des variations quotidiennes marquées à tous les sites (Fig. 3b).

Série chronologique de conductivité électrique (a) juin 2019 à 2020 ; et (b) du 23 août au 30 août 2019.

Séries temporelles de température (a) juin 2019 à 2020 ; et (b) du 23 août au 30 août 2019.

La série chronologique peut être analysée plus systématiquement via son PDF (extrait des histogrammes), pour montrer les différences globales entre les sites (Fig. 4), avec des paramètres statistiques importants résumés dans le tableau 1. La conductivité électrique moyenne est la plus élevée à 2 km en aval de la WWTW (734 \(\rm{\mu S cm^{-1}}\) à LP) et est inférieure à 5 km plus en aval (648 \(\rm{\mu S cm^{-1}}\) à WB). Cela contraste avec une conductivité électrique plus faible en amont de la WWTW (565 et 575 \(\rm{\mu S cm^{-1}}\) à LC et BH respectivement). Les ensembles de données de conductivité électrique ne suivent pas les distributions gaussiennes et affichent à la place des queues lourdes, en particulier en amont de la WWTW où le kurtosis \(\kappa >3=\kappa _\text {Gaussien}\)47. En revanche, la température de l'eau de la rivière montre une augmentation progressive des valeurs moyennes avec l'augmentation de la distance en aval de Chesham, avec une différence \(1,1^{\rm{\circ } C}\) entre BH et WB, et un kurtosis \(\kappa < 3\).

Histogrammes normalisés de (a) conductivité électrique ; et (b) la température pour tous les emplacements des capteurs. Notez l'échelle logarithmique sur l'axe des ordonnées, qui met en évidence les queues lourdes en BH.

Notez que la période de mesure inclut le printemps 2020, c'est-à-dire le début de la pandémie de Covid-19 en Grande-Bretagne. En analysant les données, nous trouvons des impacts faibles mais non significatifs du verrouillage de mars au Royaume-Uni, voir le code pour plus de détails.

On observe un net alignement entre le rejet des effluents traités de la station d'épuration (WWTW) et la conductivité électrique de l'eau du fleuve (Fig. 5). Pour tenir compte du délai entre le débit WWTW enregistré à l'usine et l'eau atteignant nos capteurs en aval sur les sites LP et WB, nous décalons les mesures de conductivité électrique de l'eau de la rivière d'environ 2,5 et 8,5 heures respectivement.

Séries chronologiques normalisées des rejets d'effluents traités par les stations d'épuration (WWTW) et de la conductivité électrique (EC). La CE a été mesurée à LP et WB et décalée de 2,5 et 8,5 heures respectivement pour tenir compte du délai de la décharge de traitement des eaux usées pour atteindre le site du capteur.

Pour quantifier davantage la relation entre les rejets d'effluents traités de la station d'épuration et EC, nous effectuons une analyse par transformée de Fourier pour exposer les principales fréquences présentes dans le système (Fig. 6). Nous comparons les analyses de Fourier du rejet de l'effluent traité avec l'analyse de Fourier de l'EC de l'eau de rivière aux quatre sites de mesure. Notamment, la décharge WWTW et la conductivité électrique aux deux emplacements en aval (LP et WB) montrent des pics prononcés à des fréquences de 24, 12, 8 et 6 heures, alors que nous n'observons aucun comportement cyclique de ce type à LC ou BH.

L'analyse de Fourier des stations d'épuration traite les rejets d'effluents et EC. Nous traçons les amplitudes de Fourier de la conductivité électrique (EC) et du rejet de la station d'épuration (WWTW) sur tous les sites. On note des pics de fréquence pertinents à 24, 12, 8 et 6 heures dans le rejet WWTW ainsi qu'en conductivité pour BP et WB.

Ensuite, nous poursuivons deux approches basées sur les données pour décrire la conductivité électrique (CE) en tant que variable cible (y) caractérisée par des caractéristiques \(p=7\) : deux variables locales : la température, le pH (variables locales du capteur) et cinq variables globales : les précipitations, le niveau de la rivière et l'horodatage, divisés en mois, jour et heure. Pour toutes les séries chronologiques, nous utilisons les données du 1er juin 2019 au 1er juin 2020, en supprimant les entrées NaN si nécessaire, puis nous effectuons à la fois une analyse GAM et une analyse arborescente boostée, voir aussi Méthodes. Notez que le niveau de la rivière à tous les sites utilise les valeurs enregistrées à Rickmansworth, qui est à plusieurs kilomètres en aval de tous les sites de mesure. Plus tard, nous considérons également une exécution du modèle dans laquelle nous alignons la série temporelle locale d'un capteur avec la station de Rickmansworth.

Nous avons effectué une analyse GAM (modèle additif généralisé) sur tous les sites, mais nous nous concentrons ici sur les deux emplacements en aval, tandis que les résultats pour les deux emplacements en amont sont fournis dans le Supplément. Les caractéristiques les plus importantes, basées sur l'ampleur de leurs splines contributives, sont la valeur du pH et les niveaux de la rivière, tous deux négativement corrélés avec la conductivité électrique (Fig. 7). L'écart entre le modèle et l'ensemble de test est \(\text {SMAPE}\approx 1...2\%\), où SMAPE représente l'erreur absolue moyenne symétrique en pourcentage48.

Résultats de l'analyse GAM pour LP (a) et WB (b). Splines les mieux ajustées des différentes caractéristiques \(x_{i}\) et leur influence sur la conductivité électrique (EC) dans l'approche GAM entièrement ajustée. La courbe bleue donne le meilleur ajustement et les lignes pointillées rouges enveloppent un seul intervalle de confiance (\(68\%\) en supposant une incertitude gaussienne sous-jacente). Enfin, nous rapportons le pourcentage d'erreur absolu moyen symétrique (SMAPE)48 lorsque le modèle est appliqué à l'ensemble de test précédemment retenu.

Nous appliquons ensuite une approche arborescente boostée, en utilisant SHAP pour interpréter les résultats. Voyons d'abord comment une explication individuelle est obtenue (Fig. 8) : la "valeur de base" (conductivité moyenne pour LP) d'environ 723 \(\rm{\mu S/cm}\) est modifiée dans ce point de données spécifique par l'impact positif de la caractéristique "jour" (quel jour de la semaine), tandis que "mois", "niveau de la rivière", "température" et "heure" poussent tous la prédiction à une valeur inférieure. Par conséquent, le modèle prédit une valeur de 662,7 \(\rm{\mu S/cm}\), la caractéristique la plus influente étant le mois.

Explication des résultats d'arborescence boostés via SHAP. Partant d'une valeur de base (ici environ 723), chaque caractéristique pousse la prédiction de la valeur de conductivité électrique vers des valeurs inférieures (bleu) ou supérieures (rouge) par rapport à la valeur de base (moyenne d'ensemble). Ici, nous expliquons une mesure EC sur le site de mesure LP via SHAP.

Nous poursuivons par une étude plus systématique, en hiérarchisant l'impact de chaque caractéristique sur la prédiction, passant ainsi d'une explication locale unique à des propriétés globales du modèle37. Ici, le niveau de la rivière, la température, le pH et le temps (mois ou heure) sont parmi les caractéristiques descriptives les plus importantes (Fig. 9). Comme auparavant, les valeurs SHAP négatives poussent la prédiction de la conductivité électrique vers des quantités inférieures, tandis que les valeurs positives poussent la prédiction vers des CE plus élevées, indiquant des valeurs totales de soluté dissous plus élevées. Les couleurs indiquent la valeur de la caractéristique, allant de haut (rouge) à bas (bleu). Ainsi, nous obtenons ici une première impression sur les dépendances : la caractéristique du niveau de la rivière est principalement rouge pour les valeurs négatives et bleue pour les valeurs SHAP positives, c'est-à-dire qu'elle est corrélée négativement avec la conductivité. Enfin, nous calculons l'écart entre le modèle et l'ensemble de test comme \(\text {SMAPE}\approx 0.2...0.4\%\).

Classement des fonctionnalités de l'arbre boosté via SHAP. Les caractéristiques sont triées en fonction de leur importance dans la prédiction des écarts par rapport à la CE moyenne pour LP (a) et WB (b), voir également la Fig. 8. Comme dans l'approche GAM, nous rapportons le pourcentage d'erreur absolu moyen symétrique (SMAPE) du modèle lorsqu'il est appliqué à l'ensemble de test.

Pour étudier la contribution de chaque caractéristique au modèle, nous analysons les diagrammes de dépendance partielle des trois caractéristiques les plus importantes ; niveau de la rivière, mois et température de l'eau pour BP et niveau de la rivière, pH et heure de la journée à WB (Fig. 10). Dans chaque graphique de dépendance partielle, la couleur affiche les valeurs de la caractéristique interagissante qui explique la majeure partie de la variance observée (dans (Fig. 10a le mois). Nous observons systématiquement une relation négative entre la conductivité électrique et le niveau de la rivière (Fig. 10a, e), ainsi que la conductivité électrique et la valeur du pH (Fig. 10d), c'est-à-dire qu'un niveau de rivière ou une valeur de pH plus élevés conduisent à une prédiction EC plus faible. que les faibles niveaux de la rivière au cours des mois 8 à 12 (août à décembre) sont associés à la conductivité électrique la plus élevée de l'eau de la rivière à LP (Fig. 10a). À WB, les valeurs de conductivité électrique les plus élevées dans l'eau de la rivière sont associées à un faible pH de 7,4 à 7,8 pendant les mois 8 à 12 (août à décembre). De plus, il existe des tendances temporelles intéressantes dans les caractéristiques des heures et des mois. l'eau à des moments où le pH avait tendance à être plus élevé (7,8 à 8,1). Le classement des fonctionnalités et les diagrammes de dépendance partielle pour les sites en amont sont affichés dans le supplément.

Graphiques de dépendance partielle de l'arbre boosté EC pour LP (ac) et WB (df). Nous traçons les trois caractéristiques les plus importantes des deux sites de mesure en aval. Les couleurs (et l'axe de gauche) mettent en évidence les interactions de second ordre entre l'entité tracée et une entité secondaire.

En prolongeant les résultats obtenus précédemment, nous incorporons trois nouvelles fonctionnalités : le débit total de la rivière, le débit total de la WWTW et la fraction WWTW (rapport du débit de la WWTW et du débit total), en ajustant le délai entre les différentes stations de mesure (voir Suppléments pour plus de détails). Nous soulignons que l'incorporation de ces fonctionnalités utiles supplémentaires améliore les performances du modèle, voir Fig. 11. Notamment, les fonctionnalités les plus importantes, le niveau de la rivière et le mois restent importantes dans cet ensemble de fonctionnalités étendu. De plus, la dépendance partielle (Fig. 11b) pour le niveau de la rivière reste presque inchangée en ajoutant une nouvelle caractéristique. Enfin, notez que la valeur EC dans le modèle dépend presque linéairement de la fraction de débit attribuée à la WWTW (Fig. 11c), tout à fait en ligne avec l'alignement dans le spectre de Fourier et les séries temporelles observés précédemment : un débit WWTW plus élevé indique une EC plus élevée. Cette dépendance linéaire est beaucoup plus claire dans le modèle par rapport à un simple nuage de points.

Classement des caractéristiques et diagrammes de dépendance partielle du modèle EC étendu sur le site LP. Nous traçons le classement des caractéristiques (a), la caractéristique la plus importante (b) et la dépendance à la fraction du débit de la WWTW (c). Notez que l'échange eau de surface-eau souterraine dans la rivière entre la station d'épuration et le site de la station de jaugeage peut conduire à une valeur pour la fraction de station d'épuration \(> 1\).

Après avoir analysé EC en détail, nous étudions ensuite la dépendance à la température. En utilisant l'ensemble de données étendu (c'est-à-dire comprenant les débits absolus et la fraction WWTW), nous obtenons de très bons ajustements, voir Fig. 12 : \(\text {SMAPE}\environ 0,5\%\) écart en moyenne. Comme dans l'analyse EC, le niveau total de la rivière est classé très haut dans notre liste de caractéristiques, mais le mois est classé encore plus haut, ce qui indique la forte dépendance saisonnière de la température. Bien que la fraction WWTW ne soit pas classée parmi les trois principales caractéristiques ici, de légères variations des hyperparamètres conduisent à une réorganisation des classements des caractéristiques (voir le code pour plus de détails) et la dépendance de la température sur la caractéristique de la fraction WWTW reste robuste. Une augmentation de la fraction WWTW s'accompagne d'une augmentation de la température. Dans le modèle présenté ici, un débit élevé de WWTW peut influencer la prévision de température jusqu'à \(1^{\rm{\circ }}C\) lorsque les niveaux de la rivière sont à leur plus bas (points de données bleus, Fig. 12c). Lorsque les niveaux de la rivière sont élevés (points de données rouges à violets, Fig. 12c), la fraction WWTW est faible et il y a moins d'effet sur la température.

Analyse de température du site BP. Nous traçons le classement des caractéristiques (a), la caractéristique la plus importante (b) et la dépendance à la fraction du débit de la WWTW (c).

Les contributions du débit à la rivière depuis la station d'épuration à Chesham fluctuent de 40 à 70\(\%\) en fonction des niveaux des eaux souterraines et des impacts à court terme des événements pluvieux. Cette contribution importante de la source ponctuelle au débit de la rivière donne également lieu à une conductivité électrique moyenne significativement plus élevée dans les eaux de surface en aval de l'exutoire de la station d'épuration (Fig. 4a, Tableau 1). Ainsi, cette étude fournit une preuve supplémentaire du rôle joué par les apports traités des stations d'épuration dans l'augmentation de la conductivité électrique dans les cours d'eau urbanisés18,19,20,21. Bien que l'émissaire de la WWTW soit une source ponctuelle de solutés dans le système fluvial, la WWTW reçoit de l'eau d'un système d'égouts combiné comprenant des effluents ménagers et industriels ainsi que des ruissellements routiers provenant de sources diffuses, comme c'est courant en Angleterre. Par conséquent, la composition des solutés dans les effluents traités de la station d'épuration varie en fonction des activités humaines ainsi que des précipitations. De plus, le réseau d'égouts contributif est soumis à des infiltrations d'eau souterraine pendant les périodes de niveaux d'eau souterraine élevés (par exemple à partir de mars 2020) s'ajoutant à la liste des facteurs contrôlant la conductivité électrique de l'effluent. Néanmoins, malgré ces causes potentielles de variations de la conductivité électrique dans l'effluent de la station d'épuration (ce déterminant n'est pas surveillé par la compagnie des eaux), nous observons des tendances temporelles cohérentes de la conductivité électrique fluviale résultant de cette contribution ponctuelle à la rivière.

Dans un système fluvial naturel, le débit de base est considéré comme relativement élevé dans EC parce que les eaux souterraines sont riches en solutés par rapport aux composantes d'écoulement rapide de l'hydrogramme, qui sont dominées par les précipitations et les écoulements souterrains peu profonds49. Dans ce système alimenté par les eaux souterraines, les variations saisonnières et supra-annuelles du niveau et du débit de la rivière sont contrôlées principalement par le niveau des eaux souterraines (Fig. 1). Nous observons que la CE reste stable tout au long de l'année dans notre site de source d'eau souterraine (LC) en amont de la WWTW, indiquant peu de variation de la CE résultant de l'évolution des profondeurs ou des sources d'eau souterraine (Fig. 2a, Tableau 1). Notre site urbain amont (BH) a un signal EC plus variable. Cette variabilité provient des apports d'eau de pluie dans le canal à partir du ruissellement urbain rapide, qui provoque de fortes baisses de la CE en réponse à des événements pluvieux de forte intensité (Fig. 2a, Tableau 1). Les plus grandes variations de CE sont cependant observées sur les sites en aval de la WWTW. Sur ces sites (LP et WB), l'influence du niveau de la rivière et de la fraction de l'effluent de la station d'épuration sur les cycles saisonniers de l'EC est claire, la CE la plus élevée étant enregistrée lorsque les niveaux de la rivière sont à leur plus bas (Fig. 10), et la contribution de l'effluent de la WWTW au débit de base est la plus élevée (Fig. 11b,c).

Non seulement il y a des changements saisonniers marqués dans l'EC, mais aussi des modèles marqués sur 24 heures et des échelles de temps plus courtes causées par des changements dans les rejets d'effluents traités de la station d'épuration (Figs. 5, 6c,d, 10f). La station d'épuration des eaux usées a deux périodes de pointe de rejet d'effluents ; de 13h00 à 14h00 GMT et de 21h00 à 22h00 GMT associées à des schémas d'activités humaines domestiques dans le bassin versant. Cette signature de conductivité électrique issue de ces pics d'activité est atténuée en aval, mais reste observable à 5 km en aval de l'émissaire ; et même lorsque les niveaux des rivières sont élevés au printemps (février à mai 2020). Cette « signature » ​​peut être utilisée pour estimer un temps ou une vitesse moyenne de déplacement de l'eau entre les sites. Le temps de trajet approximatif de l'eau de la station d'épuration vers BP et WB est respectivement de 2,5 et 8,5 heures. Par conséquent, les conditions diurnes (09h00 à 17h00) dans la rivière à WB correspondent à une période de plus faibles contributions quotidiennes de la WWTW.

Ici, nous examinons si les changements quotidiens de la conductivité électrique pourraient être mesurables sur d'autres rivières urbanisées au Royaume-Uni et dans quelle mesure nos observations pourraient être transférables ? À cet égard, un paramètre utile à prendre en compte est le « facteur de dilution », qui est défini comme le rapport entre le débit de la rivière à l'exutoire du bassin versant et le total des effluents d'eaux usées domestiques50. Le facteur de dilution est utilisé dans les évaluations des risques écologiques en vertu de la législation de l'UE pour prédire le « pire cas d'exposition » des eaux de surface aux produits chimiques provenant des effluents traités51. Pour ces analyses, un facteur de dilution fixe de dix est utilisé. Sur la base des données de débit des effluents traités de Chesham et du débit de la rivière à la station de jaugeage de Rickmansworth, nous estimons un facteur de dilution moyen de 2,67 au cours de notre étude, avec un minimum de 0,87 pendant la période de sécheresse au début de notre étude et un maximum de 6,81 en février/mars 2020. Tout au long de cette période, des cycles diurnes de conductivité électrique ont été observés dans la rivière.50 facteur de dilution de \(< 6,26\), et ces rivières se trouvent principalement dans des régions très peuplées telles que le sud-est de l'Angleterre. Sur cette base, nous prévoyons que des changements diurnes de la conductivité électrique pourraient être observables dans de nombreuses rivières de plaine au Royaume-Uni, bien que ces cycles puissent être compliqués par l'effet de plus d'un traitement des eaux usées en amont d'une station de mesure de rivière. Il n'y a pas d'examen complet des facteurs de dilution dans les rivières européennes, mais une analyse récente des grandes stations d'épuration allemandes de taille \(> 10 000\) équivalents de population a suggéré que 60\(\%\) des facteurs de dilution tombent en dessous de 10, ce qui suggère que les changements diurnes de la conductivité électrique pourraient être plus largement observables52.

Les diagrammes de dépendance partielle de l'analyse de l'arbre amplifié nous permettent également de considérer la relation entre la proportion de flux provenant de la WWTW (en utilisant la conductivité électrique comme proxy) et le pH à WB. La figure 10e montre que les périodes de plus fortes contributions de la WWTW au débit global de la rivière sont associées aux conditions de pH les plus faibles. La figure 10f indique que les conditions diurnes dans la rivière à WB (09h00-17h00), lorsque la contribution du débit de la WWTW est la plus faible, sont associées aux conditions de pH les plus élevées. Pendant les heures de clarté, la photosynthèse donnera également lieu à une eau de rivière plus alcaline, mais cette analyse laisse entendre qu'une combinaison de photosynthèse et d'effluents traités pourrait augmenter l'amplitude du cycle du pH dans la rivière.

Enfin, l'analyse nous permet également de démêler les caractéristiques qui contrôlent la température de l'eau de la rivière. Les analyses SHAP confirment l'interaction importante précédemment connue entre la saison et le niveau de la rivière sur la température53. Par exemple,54 ont déjà utilisé la température de l'air et le niveau de l'eau pour prédire les changements horaires de la température de l'eau à l'aide d'une approche de modélisation de réseau neuronal artificiel. Notre modélisation montre également que la fraction du débit de la station d'épuration en amont est positivement corrélée avec un changement de température de l'eau de la rivière d'env. 1\(\rm{^{o}C}\) pendant les périodes de faibles niveaux de la rivière justifiant des recherches supplémentaires dans ce domaine. D'autant plus que les températures estivales de l'eau dans des conditions de faible débit dépassaient 20 \(\rm{^{o}C}\ ); des températures qui peuvent affecter le succès du recrutement des salmonidés tels que la truite brune, Salmo trutta, et l'ombre européen, Thymallus thymallus55. Les stations d'épuration des eaux usées sont une source d'eau chaude qui a reçu peu d'attention à ce jour, mais une analyse à l'échelle nationale du Royaume-Uni par56 a montré qu'il est possible de récupérer la chaleur des stations d'épuration des eaux usées pour aider à atteindre les objectifs en matière de changement climatique, avec l'avantage supplémentaire de réduire les impacts environnementaux sur les rivières. Notre analyse indique qu'une option d'atténuation telle que la récupération de chaleur à partir des rejets d'effluents traités peut profiter aux cours d'eau crayeux, tels que la rivière Chess, qui reçoivent des proportions élevées de leur débit à partir des effluents traités. Ceci est particulièrement important à une époque où l'on prévoit que la croissance démographique augmentera le volume d'effluents traités atteignant quotidiennement la rivière.

Les analyses GAM et SHAP ont montré un bon accord en ce qui concerne l'influence des différentes variables sur la conductivité électrique. Par exemple, le pH et le niveau de la rivière ont été montrés par les deux techniques comme étant négativement corrélés avec la conductivité électrique. Cependant, l'approche SHAP a permis d'obtenir une amélioration de près d'un ordre de grandeur des performances du modèle par rapport au GAM, mesurée par le pourcentage d'erreur absolu moyen symétrique (\(\text {SMAPE} =0,2\) et 1,5 respectivement). De manière critique, l'analyse de l'arbre boosté est facile à visualiser et à interpréter à l'aide de l'analyse SHAP, et l'approche de l'arbre de régression permet de prendre en compte les interactions variables, tandis que l'approche GAM suppose des variables indépendantes. De plus, l'approche de l'arbre boosté traite de la non-linéarité et peut bien fonctionner sur des données tabulaires31. Une approche alternative pourrait être les réseaux de neurones, mais ceux-ci ne permettent généralement pas une aussi bonne interprétation que l'approche SHAP illustrée ici57.

Ici, nous avons utilisé des packages Python et en particulier l'idée de l'apprentissage automatique58, en espérant rendre ces techniques d'apprentissage automatique plus faciles à essayer pour une large communauté de recherche. Alors que l'analyse via des arbres boostés est également disponible dans R59, par exemple via le package caret60, une interprétation détaillée du modèle dérivé, comme ici via les valeurs SHAP, n'y est pas encore disponible, mais pourrait être incluse dans le futur.

Des capteurs de conductivité électrique « itinérants » à faible coût peuvent être déplacés autour d'un bassin versant pour aider à étudier les modèles spatiaux des contaminants. Ces capteurs pourraient être utilisés pour aider à identifier les sources potentielles de pollution dues à des erreurs de raccordement aux égouts, et intégrés en tant qu'outil dans "Outfall Safaris" (https://catchmentbasedapproach.org/learn/outfall-safari-guide/) pour identifier les emplacements caractérisés par des solutés dissous totaux élevés dignes d'une enquête plus approfondie. Les mesures de la conductivité électrique pourraient être combinées avec l'oxygène dissous pour relier les mesures de la capacité de dilution à la fonction écologique et à l'état écologique en vertu de la directive-cadre sur l'eau.

Ici, nous montrons également les avantages de la surveillance à haute fréquence de la conductivité électrique pour les groupes de rivières. La surveillance à haute fréquence des déterminants de la qualité de l'eau est une pratique de plus en plus courante pour les régulateurs et les scientifiques dans les bassins versants urbanisés20,49, ce qui donne des informations importantes sur les causes des variations temporelles de la qualité de l'eau61. Les progrès récents des technologies de capteurs utilisant les approches de l'Internet des objets (IoT)62 font de la surveillance à haute fréquence de la conductivité électrique et de la température un outil d'investigation potentiellement rentable pour les groupes de science citoyenne et la recherche participative.

Comprendre les cycles diurnes de la qualité de l'eau devrait être important pour les groupes de rivières. La variation quotidienne cyclique des données de conductivité électrique pourrait être utilisée comme base pour planifier des campagnes de surveillance de la qualité de l'eau urbaine. Ces informations pourraient dicter quand concentrer l'activité et l'effort d'échantillonnage sur un cycle diurne pour examiner les meilleurs et les pires scénarios probables en ce qui concerne les concentrations chimiques provenant des apports de sources ponctuelles (par exemple nutriments et produits pharmaceutiques). Comprendre comment le signal de conductivité électrique s'atténue en aval permettrait également aux scientifiques citoyens d'identifier les temps d'échantillonnage optimaux à différents points en aval d'une entrée de source ponctuelle. Ces types d'analyses pourraient être intégrés dans des boîtes à outils actuellement développées par des initiatives telles que CaBa au Royaume-Uni pour aider les groupes à hiérarchiser les plans d'action pour leurs rivières en collaboration avec les compagnies des eaux et les régulateurs.

Les activités humaines augmentent les concentrations de solutés totaux dissous dans les eaux douces à l'échelle mondiale. Bien qu'une grande partie de l'attention soit actuellement portée sur les effets sur la santé humaine (par exemple, les seuils des eaux souterraines de 1 880 \(\rm{\mu S cm^{-1}}\) pour les zones protégées d'eau potable désignées en vertu de la directive-cadre sur l'eau) et l'irrigation, les effets écologiques potentiels reçoivent désormais plus d'attention22, ainsi que des recommandations pour l'élaboration de critères écologiques pour des ions spécifiques et leurs mélanges. Par exemple, les bonnes pratiques futures pourraient impliquer la réduction des charges de sel tout en minimisant les rejets ponctuels de sels dans les eaux douces grâce à l'extraction des ressources22. Les changements observés dans la conductivité électrique de la rivière Chess, bien que peu susceptibles de poser un risque écologique en soi, seront révélateurs de l'évolution de la charge de produits chimiques dérivés des effluents dans la rivière63. Il n'existe pas actuellement de capteurs in situ pour mesurer en continu ces produits chimiques émergents à haute fréquence et la conductivité électrique pourrait donc être considérée comme un proxy lors de l'élaboration de critères de risque pour les rivières urbanisées49.

Les changements de conductivité électrique surviennent également, en partie, en raison des variations des concentrations d'anions tels que le chlorure61, le phosphate et le nitrate dans la rivière, et suggèrent qu'une enquête plus détaillée sur les variations à haute fréquence de ces anions est justifiée afin d'améliorer la précision des calculs de charge. Comprendre comment ces cycles diurnes de ces produits chimiques varient avec les changements saisonniers du débit est également essentiel pour comprendre l'influence globale potentielle d'un débit de source ponctuelle particulier sur la fonction biologique du système fluvial. Bien que l'impact des effluents traités sur la fonction des cours d'eau se soit avéré marqué dans les régions semi-arides et méditerranéennes64,65,66, nos données démontrent qu'une capacité de dilution limitée pourrait également signifier que les effluents traités ont une influence critique sur le cycle biogéochimique dans les cours d'eau tempérés et urbanisés.

Les analyses SHAP - une méthode du domaine de l'apprentissage automatique interprétable (IML) - ont ouvert un modèle de boîte noire pour fournir des informations utiles sur les facteurs interdépendants contrôlant les cycles de conductivité électrique et de température dans une rivière urbanisée. Ces analyses nous ont permis de démontrer que la fraction des effluents de la station d'épuration constituant le débit total est une variable critique s'alignant sur les cycles saisonniers et diurnes de la conductivité électrique et de la température dans ce ruisseau de craie urbanisé. Comme les facteurs de dilution associés aux effluents traités dans la rivière Chess sont comparables à ceux de nombreuses autres rivières d'Angleterre et du Pays de Galles, nous émettons l'hypothèse que des mesures bon marché et à haute fréquence de la conductivité électrique pourraient aider à explorer l'influence des WWTW dans d'autres systèmes fluviaux urbanisés. Nous avons également utilisé cette analyse pour démontrer l'influence d'une WWTW sur la température de l'eau de la rivière, soulignant que dans ce cas, la WWTW est associée à une augmentation de 1 \(\rm{^oC}\) de la température de l'eau, à une distance de 2 km de la sortie de l'effluent traité pendant les conditions de débit les plus faibles. De plus, d'autres groupes de science citoyenne pourraient utiliser des mesures de conductivité électrique bon marché et rentables pour diriger les activités d'échantillonnage de l'eau dans les rivières urbaines. En utilisant des mesures simultanées en amont et en aval de la conductivité électrique, ils peuvent être en mesure de cibler des moments optimaux pour mesurer différents paramètres de qualité de l'eau et écologiques, et de quantifier les temps de parcours de l'eau à travers les systèmes fluviaux urbains.

La rivière Chess (8 miles de longueur, bassin versant 105 \(\rm{km^2}\)) est l'un des neuf ruisseaux de craie à faible gradient drainant le pendage de la zone de beauté naturelle exceptionnelle des Chilterns (AONB), voir Fig. 13 pour une carte. La pluviométrie annuelle moyenne normalisée pour le bassin versant est de 753 mm (1961–1990,46) et l'indice de débit de base est de 0,95. La couverture terrestre du bassin versant est mixte avec 12 % d'urbanisation, 18 % de terres boisées, 35 % de prairies et 35 % de terres arables. Les sections winterbourne (éphémères) de la rivière autour de la ville de Chesham sont urbanisées et canalisées avec de nombreux puits artésiens en plus des sources d'eau souterraine. En aval de Chesham, le paysage devient plus rural et l'utilisation des prairies et des terres arables domine jusqu'à ce que la rivière atteigne sa confluence avec la rivière Colne à Rickmansworth. Le débit annuel moyen à la station de jaugeage de Rickmansworth est de 0,54 \(\rm{m^3s^{-1}}\)46. Les effluents traités de l'usine de traitement des eaux usées de Chesham (équivalent habitant = 37 300 ; ST1 sur la Fig. 13) représentent environ 40 à 70 % du débit de la rivière en aval de Chesham, selon les conditions de débit. ST2 sur la Fig. 13 est une petite usine rurale de traitement des eaux usées avec une population équivalente à 50.

Carte montrant l'emplacement de (a) Chiltern Area of ​​Outstanding Natural Beauty (AONB) dans le sud-est de l'Angleterre (b) River Chess coulant de Chilterns AONB; et (c) les quatre sites de surveillance dans la rivière Chess : BH, LC, LP et WB. ST1 et ST2 indiquent l'emplacement des deux stations d'épuration sur la rivière. Cartes créées à l'aide de données ouvertes d'OpenStreetMap disponibles sous la licence de base de données ouverte, voir67 pour plus de détails.

Notre programme de surveillance de la qualité de l'eau a été co-conçu avec un groupe local de rivières (River Chess Association) qui voulait comprendre comment un traitement local des eaux usées influençait la qualité de l'eau dans la rivière Chess. Quatre sondes de qualité de l'eau Eureka Manta 2 ont été installées dans la rivière Chess à partir d'avril 2019 et programmées pour effectuer des mesures à des intervalles de 15 minutes. Chaque sonde était équipée de capteurs pour mesurer la température de l'eau, le pH, la conductivité électrique, la turbidité et l'oxygène dissous. La conductivité électrique compensée en température (rapportée comme corrigée à 25 \(\rm{^{o}C}\)) et les ensembles de données sur la température de l'eau sont au centre des préoccupations ici. Les sondes ont été équipées d'un bras d'essuie-glace étendu pour nettoyer les capteurs avant chaque mesure, et ont été nettoyées manuellement et vérifiées toutes les deux semaines par notre équipe Citizen Scientist pour éviter l'encrassement. L'étalonnage de chaque capteur a été vérifié mensuellement par l'équipe académique. La température de l'eau et la conductivité électrique sont restées dans la plage de détection des capteurs tout au long de l'étude (– 5 à 50\(\rm{^{o}C}\) pour la température de l'eau et 0 à 100 mS/cm pour la conductivité électrique).

Le programme Citizen Science a été conçu pour étudier la qualité de l'eau en aval du cours supérieur urbanisé de la rivière Chess. En conséquence, le capteur 1 (BH) a été installé en aval de Chesham (la ville située en amont de la rivière Chess) ; Le capteur 2 (LC) a été installé dans un canal latéral de la rivière Chess dans le tronçon urbanisé qui reçoit l'eau d'un puits artésien et d'une source naturelle ; Le capteur 3 (LP) a été installé à environ 2 km en aval de la station d'épuration des eaux usées de Chesham (WWTW), mais en amont de tout autre affluent ou source majeur ; et le capteur 4 (WB) était situé à 3 km en aval du capteur 3 pour indiquer à quelle distance les effets en aval de Chesham WWTW étaient détectables. Il existe de nombreuses sources qui contribuent à l'eau de la rivière Chess entre les capteurs 2 et 3, voir également la figure 13 pour une carte.

Le total des précipitations sur quinze minutes (Chenies, station numéro 278744TP), le débit de la rivière (station de jaugeage Rickmansworth numéro 2859TH) et les données sur le niveau des eaux souterraines (Ashley Green) ont été obtenus auprès de l'Agence pour l'environnement. Les données sur les rejets d'effluents traités de Chesham Wastewater Treatment Works (résolution de 15 minutes) ont été obtenues auprès de Thames Water46. Notez que nous utilisons le « rejet d'effluents traités » pour mesurer la quantité d'effluents traités finaux rejetés par l'usine.

L'analyse des données a été effectuée sur 12 mois de données de capteur de 15 minutes (du 1er juin 2019 au 1er juin 2020). Des fonctions de densité de probabilité empiriques (PDF) ont été dérivées pour la conductivité électrique et la température afin de comparer les propriétés statistiques sommaires associées aux quatre sites de surveillance. Les fréquences dominantes dans les ensembles de données de conductivité électrique et de température ont été identifiées à l'aide d'une analyse de Fourier et comparées aux schémas cycliques dans le rejet d'effluents traités de WWTW afin de tester si la conductivité électrique pouvait agir comme un indicateur de la dominance du rejet de WWTW. La GAM et l'analyse arborescente boostée par gradient ont été appliquées à l'ensemble de données de 12 mois pour étudier l'influence de différentes variables et leurs interactions (temps, niveau d'eau, pH) sur la conductivité électrique. Pour exécuter l'analyse, nous avons mélangé les données et les avons divisées en 70 % de données d'entraînement et 30 % de données de test. Enfin, l'analyse SHAP a été appliquée aux sorties d'arbre boostées pour faciliter l'interprétation détaillée des résultats. Chacune des méthodes d'analyse des données est décrite en détail dans les sections a à f ci-dessous. Notez que toutes les données et le code sont disponibles gratuitement en ligne (voir la déclaration de disponibilité du code). Par conséquent, nous encourageons le lecteur intéressé à consulter le code en plus des descriptions générales de plus haut niveau proposées ici.

Fonctions de densité de probabilité empiriques (PDF) Pour évaluer la probabilité d'une certaine observation y, nous utilisons des fonctions de densité de probabilité empiriques (PDF). Chaque instance de mesure \(y_1\), \(y_2\), \(y_3\), ... \(y_j\), ..., \(y_N\) est agrégée dans l'un des n groupes. Chaque bin i couvre un intervalle \(\left[ y_\text {min}(i),y_\text {max}(i)\right)\), où nous avons \(y_\text {min}(i+1)=y_\text {max}(i)\). Après avoir compté le nombre de mesures tombant dans chaque bin i, nous normalisons par le nombre total de comptages afin que chaque bin représente une probabilité p(i) avec \(\sum _i p(i)=1\). Ainsi, nous obtenons un histogramme normalisé. En plus de cet histogramme, nous affichons également une courbe ajustée empiriquement, qui est l'estimation univariée de la densité du noyau, c'est-à-dire qu'il s'agit d'une fonction se rapprochant de l'histogramme sous-jacent comme

où nous avons choisi un noyau gaussien K. Techniquement, nous estimons et affichons les densités empiriques à l'aide du package seaborn dans Python68.

Analyse de Fourier Dans de nombreux systèmes écologiques, nous observons une périodicité, par exemple en termes de cycles saisonniers ou quotidiens. Pour analyser ces cycles, nous utilisons l'analyse de Fourier, qui transforme une série temporelle y(t) du domaine temporel, c'est-à-dire en utilisant l'argument t, au domaine fréquentiel :

où i est l'unité imaginaire. La nouvelle série \({\tilde{y}}(k)\) est une fonction des fréquences k et nous appliquons une transformée de Fourier inverse pour obtenir à nouveau la série temporelle originale y(t). Le comportement cyclique est facile à analyser en utilisant \({\tilde{y}}(k)\), car \({\tilde{y}}(k)\) culminera aux fréquences intrinsèques de la série temporelle y(t). Par exemple, une série temporelle qui est exactement une fonction sinus de période 1 heure conduira à une fonction delta de \({\tilde{y}}(k)\) à \(k=(1h)^{-1}\), tandis qu'une série temporelle réaliste avec plusieurs fréquences et un cycle quotidien prononcé affichera un pic fini à \({\tilde{y}}\left( (24h)^{-1}\right)\). Plus le pic de la transformée de Fourier est grand \({\tilde{y}}(k)\), plus cette fréquence est dominante dans la série temporelle originale y(t).

GAM Comme approche possible pour déterminer l'impact des différentes variables (caractéristiques) sur notre cible, nous utilisons des modèles additifs généralisés (GAM)31. Les GAM utilisent des splines, c'est-à-dire des polynômes connectés par morceaux, pour décrire les dépendances locales. Plusieurs de ces splines sont ajoutées pour obtenir un modèle complet de la relation entre les différentes quantités d'espace d'état. En particulier, pour décrire l'observable y nous construisons le modèle suivant :

où c est une constante (ordonnée à l'origine ou biais) et \(s_{i}\) sont des B-splines du 3ème ordre pour chacune des caractéristiques \(x_{i}\) et nous ajoutons simplement tous les termes de spline ensemble, conduisant à un modèle additif. Techniquement, nous implémentons les GAM en utilisant le package Python pyGAM69 et utilisons une répartition de 70 % de formation et de 30 % de test de données mélangées de manière aléatoire. Par souci de cohérence, nous utilisons un nombre identique de splines sur tous les sites, à savoir 10. Une erreur légèrement inférieure peut être obtenue en ajustant le nombre de splines sur chaque site, réduisant approximativement l'erreur jusqu'à \(5\%\).

Un avantage de GAM est sa simple interprétabilité. Aucune autre étape n'est nécessaire pour obtenir des dépendances partielles à partir d'une approche GAM, nous pouvons simplement visualiser les splines \(s_{i}\) pour voir comment une caractéristique donnée \(x_i\) influence notre cible y.

Arbres à gradient boosté Comme alternative aux GAM, nous utilisons également des arbres à gradient boosté pour décrire l'interaction et les interdépendances des caractéristiques. L'idée clé est qu'un ensemble d '«apprenants faibles», tels que des arbres non biaisés mais à variance élevée, est utilisé pour générer un prédicteur beaucoup plus précis, idéalement à faible biais et à faible variance. Nous initialisons un seul arbre, puis calculons la perte, c'est-à-dire l'erreur dans sa prédiction sur un ensemble de validation, et calculons le gradient de cette perte. Ensuite, nous ajustons un nouvel arbre de régression sur les gradients. Le nouveau prédicteur est obtenu en additionnant l'arbre nouvellement ajusté avec le prédicteur précédent. Un taux d'apprentissage \(\eta\) contrôle combien nous nous déplaçons le long du gradient et ainsi combien le prochain arbre ajouté modifie la prédiction précédente. Pour ce prédicteur mis à jour, constitué d'une somme d'arbres, nous calculons à nouveau la perte, le gradient et effectuons une mise à jour. Ce processus est répété jusqu'à ce qu'un certain nombre d'itérations soit effectué ou qu'un seuil de perte soit dépassé.

Sur le plan technique, Boosted est implémenté en Python en utilisant LightGBM70 et nous trouvons des hyperparamètres appropriés en utilisant FLAML58, c'est-à-dire un cadre d'apprentissage automatique automatisé qui explore automatiquement les paramètres possibles. Nous avons limité l'exploration des hyperparamètres à 1000 secondes et obtenu une grande précision. Certains tests ont révélé que l'interprétation des modèles n'est que légèrement influencée par la modification du temps alloué à la recherche de paramètres, par exemple jusqu'à 100 secondes. Par conséquent, nous sommes convaincus que les résultats obtenus et discutés ci-dessous sont indépendants des solutions d'hyperparamètres spécifiques utilisées. Nous permettons aux hyperparamètres de varier pour chaque modèle et obtenons des taux d'apprentissage de l'ordre \(\alpha \sim 0,02...0,05\) et du nombre de feuilles \(\sim 300\). Des détails sur l'implémentation sont disponibles dans le code publié.

Valeurs de Shapley Contrairement aux GAM, les arbres boostés nécessitent plus d'efforts pour permettre une interprétation détaillée. Ici, nous interprétons l'arbre entièrement entraîné en appliquant les valeurs de Shapley57. L'idée des valeurs de Shapley provient de la théorie des jeux, où elle quantifie la contribution de chaque joueur d'un jeu coopératif à la valeur gagnée. Par conséquent, une coalition gagnante de joueurs pourrait répartir équitablement les récompenses pour avoir remporté un jeu entre ses joueurs en payant chaque joueur proportionnellement à sa valeur pour le succès.

Dans l'apprentissage automatique, les valeurs de Shapley répondent à une question très similaire : étant donné un résultat de prédiction d'un modèle d'apprentissage automatique (dans notre cas, des arbres boostés) : dans quelle mesure chaque fonctionnalité (au lieu d'un joueur) a-t-elle contribué à la décision prise par le modèle ? Plus précisément, la valeur de Shapley de la fonctionnalité i est l'impact de la fonctionnalité pondérée et additionnée sur toutes les combinaisons de fonctionnalités possibles :

où S est l'ensemble des caractéristiques utilisées dans le modèle et \(x=(x_1, x_2, ..., x_p)\) est le vecteur de caractéristiques de l'instance qui doit être expliquée. De plus, p est le nombre de caractéristiques et val(S) est la prédiction pour la cible y étant donné les caractéristiques de l'ensemble S. Maintenant, nous pouvons évaluer la contribution dans différentes coalitions de caractéristiques en faisant varier les caractéristiques qui entrent dans S et celles qui sont marginalisées. De manière critique, les valeurs de Shapley ont plusieurs propriétés souhaitables, telles qu'être efficaces, symétriques, additives et invariantes sous l'ajout d'une caractéristique fictive, voir également57 pour plus de détails.

Alors que les valeurs de Shapley sont souvent très exigeantes en termes de calcul,36 et 37 ont introduit SHAP (SHapley Additive exPlanations), aux côtés d'algorithmes efficaces en termes de calcul pour calculer les valeurs SHAP pour les méthodes arborescentes. Semblable aux valeurs de Shapley, SHAP nous indique dans quelle mesure chaque caractéristique contribue à une prédiction. Plus précisément, une valeur SHAP positive nous indique qu'une caractéristique donnée poussera la prédiction au-dessus de la valeur moyenne, tandis qu'une valeur SHAP négative signifie que la caractéristique réduit généralement la valeur prédite. L'ampleur de la valeur SHAP peut ensuite être utilisée pour classer les fonctionnalités (importance de la fonctionnalité). Enfin, les diagrammes de dépendance partielle sont obtenus en traçant la valeur de la caractéristique en fonction de sa contribution SHAP, c'est-à-dire en traçant les paires \((\phi (x_i),\phi _i)\) pour une caractéristique donnée i.

Nettoyage des données Lors de l'application de l'approche GAM ou de l'approche arborescente optimisée, nous nous appuyons sur des ensembles de données propres sans aucune lacune ni entrée NaN (pas un nombre). Par conséquent, lors de la préparation de l'ensemble de données pour la répartition entraînement-test, nous éliminons chaque ligne où au moins une entrée est manquante ou NaN. Bien que cela réduise les données disponibles, nous évitons d'imposer les hypothèses de modélisation nécessaires pour imputer les données manquantes. Notez que tous les sites de mesure n'ont pas NaN en même temps et par conséquent, nous ne pourrons peut-être modéliser que l'été et l'automne sur un site, tout en modélisant l'année entière sur un autre site, ce qui conduit à différentes plages de la valeur "mois". Le nombre total de points de données "propres" laissés pour les différents sites est d'environ 17 000 pour LC et BH, 27 000 pour LP et 18 000 pour WB, ce qui correspond à quelque chose entre 177 et 288 jours au total de données propres. La plupart de ces données utilisables se trouvent dans une longue période de temps continue.

Enfin, pour le site LC, nous avons remarqué un décalage systématique de la conductivité électrique vers des valeurs inférieures à la normale pendant une courte période qui était dû à une obstruction dans la cavité du capteur. Nous avons corrigé ce décalage en augmentant les valeurs pour qu'elles correspondent à la période suivante, voir le code publié pour plus de détails.

Les données de la rivière Chess sont disponibles sur le site Web suivant de ChessWatch https://rhysh.shinyapps.io/ChessWatch/. Le code qui a été utilisé pour analyser les données est disponible sur https://osf.io/txjv3/.

Astaraie-Imani, M., Kapelan, Z., Fu, G. & Butler, D. Évaluation des effets combinés de l'urbanisation et du changement climatique sur la qualité de l'eau de la rivière dans un système intégré d'eaux usées urbaines au Royaume-Uni. J. Environ. Gérer. 112, 1–9 (2012).

Article CAS PubMed Google Scholar

Miller, JD & Hutchins, M. Les impacts de l'urbanisation et du changement climatique sur les inondations urbaines et la qualité de l'eau urbaine : un examen des preuves concernant le Royaume-Uni. J. Hydrol. Haras Régional. 12, 345–362 (2017).

Article Google Scholar

Miller, JD et al. Évaluation de l'impact de l'urbanisation sur le ruissellement pluvial dans un bassin versant périurbain à l'aide de l'évolution historique de la couverture imperméable. J. Hydrol. 515, 59-70 (2014).

Annonces d'article Google Scholar

Shields, CA et al. Répartition des débits d'exportation d'azote de source diffuse à partir des bassins versants urbains-ruraux dans le bassin versant de la baie de Chesapeake. Ressource en eau. Rés. 44 (2008).

Huang, J., Yin, H., Chapra, SC et Zhou, Q. Modélisation de la dépression d'oxygène dissous dans une rivière urbaine en Chine. Eau 9, 520 (2017).

Article CAS Google Scholar

Simmons, DL & Reynolds, RJ Effets de l'urbanisation sur le débit de base de certains cours d'eau de la rive sud, Long Island, New York 1. JAWRA J. Am. Ressource en eau. Assoc. 18, 797–805 (1982).

Annonces d'article Google Scholar

Johnson, AC et al. Le fleuve britannique du futur : Comment le changement climatique et l'activité humaine pourraient affecter deux écosystèmes fluviaux contrastés en Angleterre. Sci. Environ. 407, 4787–4798 (2009).

Article ADS CAS PubMed Google Scholar

Lokhande, S. & Tare, V. Tendances spatio-temporelles du débit et de la qualité de l'eau : réponse de la rivière Yamuna à l'urbanisation. Environ. Monit. Évaluer. 193, 1–14 (2021).

Article CAS Google Scholar

Mallin, MA, Johnson, VL & Ensign, SH Impacts comparatifs du ruissellement des eaux pluviales sur la qualité de l'eau d'un ruisseau urbain, suburbain et rural. Environ. Monit. Évaluer. 159, 475–491 (2009).

Article CAS PubMed Google Scholar

Yang, Y.-Y. & Toor, GS Transport du phosphore par le ruissellement des eaux pluviales dans un bassin versant résidentiel urbain : Implications pour la protection de la qualité de l'eau dans les bassins versants urbains. Sci. Rep. 8, 1–10 (2018).

Google Scholar

Gaafar, M., Mahmoud, SH, Gan, TY & Davies, EG Un cadre pratique d'évaluation des risques basé sur le SIG pour la qualité de l'eau dans les systèmes d'eaux pluviales. J. Propre. Prod. 245, 118855 (2020).

Article CAS Google Scholar

Stenstrom, MK & Kayhanian, M. Caractérisation du phénomène de première chasse (Tech. Rep, California Department of Transportation Division of Environmental Analysis, 2005).

Peter, KT et al. Plus qu'un premier affleurement : les hydrogrammes des tempêtes des ruisseaux urbains montrent de larges pollutographes de contaminants. Environ. Sci. Technol. 54, 6152–6165 (2020).

Article ADS CAS PubMed Google Scholar

Peters, PE & Zitomer, DH Approches actuelles et futures de la gestion des flux par temps de pluie : un examen. Environnement d'eau Rés. 93, 1179-1193 (2021).

Article CAS PubMed Google Scholar

Lund, A. et al. Impacts à long terme de l'assainissement des débordements d'égouts unitaires sur la qualité de l'eau et la dynamique de la population de culex Quinquefasciatus, le principal vecteur urbain du virus du Nil occidental à Atlanta, GA. Environ. Rés. 129, 20-26 (2014).

Article CAS PubMed Google Scholar

Crocetti, P. et al. Évaluation validée à l'échelle du bassin versant des débordements d'égouts unitaires (OSC) dans une zone côtière méditerranéenne et méthodes de désinfection possibles pour atténuer la contamination microbienne. Environ. Res.196 (2021).

Dittmer, U., Bachmann-Machnik, A. & Launay, MA Impact des systèmes d'égouts unitaires sur la qualité des cours d'eau urbains : fréquence et durée des concentrations élevées de micropolluants. Eau12 (2020).

Conway, TM Surface imperméable comme indicateur de ph et de conductance spécifique dans la zone côtière urbanisée du New Jersey, USA. J. Environ. Gérer. 85, 308-316 (2007).

Article CAS PubMed Google Scholar

Rose, S. Les effets de l'urbanisation sur l'hydrochimie du débit de base dans le bassin de la rivière Chattahoochee (Géorgie, États-Unis). J. Hydrol. 341, 42-54 (2007).

Annonces d'article Google Scholar

Peters, NE Effets de l'urbanisation sur la qualité de l'eau des cours d'eau dans la ville d'Atlanta, Géorgie, États-Unis. Hydrol. Processus Int. J. 23, 2860–2878 (2009).

Article ADS CAS Google Scholar

Moore, J., Bird, DL, Dobbis, SK et Woodward, G. Les contributions des sources non ponctuelles entraînent des concentrations élevées d'ions majeurs et de carbone inorganique dissous dans les bassins versants urbains. Environ. Sci. Technol. Lett. 4, 198-204 (2017).

Article CAS Google Scholar

Cañedo-Argüelles, M. et al. Économiser l'eau douce des sels. Sciences 351, 914–916.

Article ADS PubMed Google Scholar

Billen, G., Garnier, J., Ficht, A. & Cun, C. Modélisation de la réponse de la qualité de l'eau de l'estuaire de la Seine à l'activité humaine dans son bassin versant au cours des 50 dernières années. Estuaires 24, 977–993 (2001).

Article CAS Google Scholar

Abbott, BW et al. Tendances et saisonnalité des nutriments fluviaux dans les bassins versants agricoles : 18 ans de science citoyenne hebdomadaire en France. Sci. Environ. 624, 845–858 (2018).

Article ADS CAS PubMed Google Scholar

Duan, W. et al. Identification des tendances à long terme et de la saisonnalité dans les données à haute fréquence sur la qualité de l'eau du bassin du fleuve Yangtze, en Chine. PLoS One 13, e0188889 (2018).

Article PubMed PubMed Central CAS Google Scholar

Arroita, M., Elosegi, A. & Hall, RO Jr. Vingt ans de métabolisme quotidien montrent une récupération fluviale après la réduction des eaux usées. Limnol. Océanogr. 64, S77–S92 (2019).

Article ADS CAS Google Scholar

Schmidt, L., Heße, F., Attinger, S. & Kumar, R. Défis dans l'application de modèles d'apprentissage automatique pour l'inférence hydrologique : Une étude de cas pour les événements d'inondation à travers l'Allemagne. Ressource en eau. Rés. 56, e2019WR025924 (2020).

Annonces d'article Google Scholar

Hammond, P., Suttie, M., Lewis, VT, Smith, AP & Singer, AC Détection des rejets d'eaux usées non traitées dans les cours d'eau à l'aide de l'apprentissage automatique. NPJ Clean Water 4, 1–10 (2021).

CAS Google Scholar

Liu, L. et al. Vers le contrôle complet de la qualité de l'eau dans le lac Taihu : Corréler les paramètres de la chlorphylle a et de la qualité de l'eau avec un modèle additif généralisé. Sci. Environ. 705, 135993 (2020).

Article ADS CAS PubMed Google Scholar

Motevalli, A. et al. Méthode inverse utilisant un arbre de régression amplifié et le k plus proche voisin pour quantifier les effets de la pollution ponctuelle et non ponctuelle par les nitrates dans les eaux souterraines. J. Propre. Prod. 228, 1248-1263 (2019).

Article CAS Google Scholar

Friedman, J., Hastie, T. & Tibshirani, R. Les éléments de l'apprentissage statistique, vol. 1 (Série Springer dans Statistics New York, 2001).

Shwartz-Ziv, R. & Armon, A. Données tabulaires : l'apprentissage en profondeur n'est pas tout ce dont vous avez besoin. Inf. Fusion 81, 84–90 (2022).

Article Google Scholar

Roscher, R., Bohn, B., Duarte, MF et Garcke, J. Apprentissage automatique explicable pour des connaissances et des découvertes scientifiques. Accès IEEE 8, 42200–42216 (2020).

Article Google Scholar

Yang, Y. & Chui, TFM Modélisation et interprétation des réponses hydrologiques des systèmes de drainage urbain durable avec des méthodes d'apprentissage automatique explicables. Hydrol. Terre Syst. Sci. Discussions 1–41 (2020).

Jiang, S., Zheng, Y., Wang, C. et Babovic, V. Découvrir les mécanismes d'inondation à travers les États-Unis contigus grâce à un apprentissage en profondeur interprétatif sur des bassins versants représentatifs. Ressource en eau. Rés. e2021WR030185 (2022).

Lundberg, SM & Lee, S.-I. Une approche unifiée pour interpréter les prédictions des modèles. Dans Advances in Neural Information Processing Systems, 4765–4774 (2017).

Lundberg, SM et al. Des explications locales à la compréhension globale avec une IA explicable pour les arbres. Nat. Mach. Renseignement. 2, 2522–5839 (2020).

Article Google Scholar

Parkinson, A. WWF: Les Chalk Streams de l'État d'Angleterre (2014).

DCE. "DIRECTIVE 2000/60/CE DU PARLEMENT EUROPÉEN ET DU CONSEIL du 23 octobre 2000 établissant un cadre d'action communautaire dans le domaine de l'eau" ou, en bref, la directive-cadre sur l'eau de l'UE. Journal officiel des Communautés européennesL 327, 1–72 (2000).

Visser, A., Beevers, L. & Patidar, S. L'impact du changement climatique sur la réponse hydroécologique dans les ruisseaux de craie. Eau 11, 596 (2019).

Article Google Scholar

Dąbrowska, J., Bawiec, A., Pawęska, K., Kamińska, J. & Stodolak, R. Évaluation de l'impact du détournement des effluents d'eaux usées sur la qualité de l'eau. Polonais J. Environ. Stud.26 (2017).

Issa, HM & Alshatteri, AH Impacts des rejets d'eaux usées de la ville de Kalar sur la qualité de l'eau de la rivière Diyala-Sirwan, Irak : évaluation de la pollution, risques pour la santé liés à la contamination par les métaux lourds. Appl. Sci de l'eau. 11, 1–13 (2021).

Article CAS Google Scholar

Jordan, RC, Gray, SA, Howe, DV, Brooks, WR & Ehrenfeld, JG Gain de connaissances et changement de comportement dans les programmes de science citoyenne. Conserv. Biol. 25, 1148-1154 (2011).

Article PubMed Google Scholar

Bonney, R., Phillips, TB, Ballard, HL et Enck, JW La science citoyenne peut-elle améliorer la compréhension publique de la science ? Compréhension publique. Sci. 25, 2–16 (2016).

Article PubMed Google Scholar

Brochet, A. et al. Prévision des températures des rivières en temps réel à l'aide d'une approche de dynamique stochastique. Recherche sur les ressources en eau 49, 5168–5182 (2013).

Centre NERC pour l'écologie et l'hydrologie. Archives nationales des débits fluviaux 2020 : Archives nationales des débits fluviaux. http://nrfa.ceh.ac.uk (2020). (Consulté le 27 octobre 2020).

Schäfer, B., Heppell, CM, Rhys, H. & Beck, C. Les fluctuations des séries chronologiques sur la qualité de l'eau dans les rivières suivent des superstatistiques. iScience24 (2021). https://doi.org/10.1016/j.isci.2021.102881https://www.cell.com/iscience/pdf/S2589-0042(21)00849-X.pdf.

Kreinovich, V., Nguyen, HT et Ouncharoen, R. Comment estimer la qualité des prévisions : une dérivation motivée par le système de l'erreur absolue moyenne symétrique en pourcentage (smape) et d'autres caractéristiques similaires (2014).

Guo, D. et al. Principaux facteurs influant sur la variabilité temporelle de la qualité de l'eau des cours d'eau. Ressource en eau. Rés. 55, 112-129 (2019).

Keller, VDJ, Williams, RJ, Lofthouse, C. & Johnson, AC Estimation mondiale des concentrations dans les rivières de tout produit chimique provenant des stations d'épuration à l'aide de facteurs de dilution. Environ. Toxicol. Chim. 33, 447–452 (2014).

ECHA. Guide des exigences d'information et évaluation de la sécurité chimique : Chapitre r.16 : Évaluation de l'exposition de l'environnement. (2016).

Link, M., von der Ohe, PC, Voss, K. & Schafer, RB Comparaison des facteurs de dilution des effluents des usines de traitement des eaux usées allemandes dans les cours d'eau récepteurs au facteur de dilution fixe de l'évaluation des risques chimiques. Sci. Environ. 598, 805–813 (2017).

Article ADS CAS PubMed Google Scholar

Zhu, SL & Piotrowski, AP Prévision de la température de l'eau des rivières et des cours d'eau à l'aide de modèles d'intelligence artificielle : une revue systématique. Acta Geophysica 68, 1433–1442 (2020).

Annonces d'article Google Scholar

Hebert, C., Caissie, D., Satish, MG et El-Jabi, N. Modélisation des températures horaires de l'eau des rivières à l'aide de réseaux de neurones artificiels. Qualité de l'eau Rés. J. Canada 49, 144–162 (2014).

Basic, T., Britton, JR, Cove, RJ, Ibbotson, AT & Gregory, SD Rôles du débit et de la température dans le recrutement d'un poisson d'eau froide, l'ombre européen thymallus thymallus, près de sa limite sud. Écol. Poissons d'eau douce 27, 940–951 (2018).

Wilson, M. & Worrall, F. Le potentiel de récupération de chaleur des «eaux usées»: une analyse nationale des températures de rejet des effluents d'eaux usées. Environ. Sci. Eau Rés. Technol. 7, 1760–1777. https://doi.org/10.1039/D1EW00411E (2021).

Article CAS Google Scholar

Molnar, C. Apprentissage automatique interprétable (Lulu.com, 2020).

Wang, C., Wu, Q., Weimer, M. & Zhu, E. Flaml : Une bibliothèque automl rapide et légère. Proc. Mach. Apprendre. Syst.3 (2021).

Slater, LJ et al. Utilisation de R en hydrologie : un examen des développements récents et des orientations futures. Hydrol. Terre Syst. Sci. 23, 2939-2963 (2019).

Annonces d'article Google Scholar

Kuhn, M. Création de modèles prédictifs dans R à l'aide du package caret. J. Stat. Logiciel 28, 1–26 (2008).

Article Google Scholar

McGrane, SJ et al. Au cours d'un hiver de tempêtes dans un petit bassin versant du Royaume-Uni, les réponses de l'hydrologie et de la qualité de l'eau suivent un gradient clairement rural-urbain. J. Hydrol.545, 463–477 (2017).

Article ADS CAS Google Scholar

Chan, KS et al. Capteurs électroniques à bas coût pour la recherche environnementale : écueils et opportunités. Physique de progrès. Géographie-Terre Environ. 45, 305–338 (2021).

Munro, K. et al. Évaluation des impacts des débordements d'égouts unitaires sur l'occurrence à court terme de médicaments et de drogues illicites dans un bassin versant de rivière à marée fortement urbanisé (Londres, Royaume-Uni). Sci. Environ. 657, 1099-1111 (2019).

Article ADS CAS PubMed Google Scholar

Bernal, S. et al. Les apports d'effluents de la station d'épuration des eaux usées induisent d'importants changements biogéochimiques pendant les étiages dans un cours d'eau intermittent, mais de petits changements dans les schémas jour-nuit. Sci. Total Environ.714, 136733 (2020). https://www.ncbi.nlm.nih.gov/pubmed/31982751.

Marti, E., Aumatell, J., Gode, L., Poch, M. & Sabater, F. Efficacité de la rétention des nutriments dans les cours d'eau recevant les apports des usines de traitement des eaux usées. J. Environ. Qualité 33, 285–293 (2004).

Arnon, S., Avni, N. & Gafny, S. Absorption des nutriments et structure de la communauté des macroinvertébrés dans un cours d'eau méditerranéen hautement réglementé recevant des eaux usées traitées. Sci aquatique. 77, 623–637 (2015).

Article CAS Google Scholar

Contributeurs d'OpenStreetMap. OpenStreetMaps. https://www.openstreetmap.org/copyright (2022).

Waskom, ML Seaborn : visualisation de données statistiques. J. Logiciel Open Source. 6, 3021 (2021).

Annonces d'article Google Scholar

Servén, D. & Brummitt, C. pygam : modèles additifs généralisés en Python. Zénodo 10 (2018).

Ke, G. et al. Lightgbm : un arbre de décision très efficace pour augmenter le gradient. Adv. Neural. Inf. Processus. Syst. 30, 3146–3154 (2017).

Google Scholar

Télécharger les références

Les auteurs tiennent à remercier tous les Scientifiques Citoyens impliqués dans le projet ChessWatch qui ont souhaité rester anonymes, ainsi que les propriétaires fonciers qui ont hébergé les capteurs. Ce projet n'aurait pas été possible sans leur aide. Nous tenons également à remercier le Dr Tom Kelly pour son soutien technique sur le terrain. Ce projet a reçu un financement du programme de recherche et d'innovation Horizon 2020 de l'Union européenne dans le cadre de la convention de subvention Marie-Sklodowska-Curie No 840825, de l'Association Helmholtz sous la subvention no. VH-NG-1727, du Queen Mary University of London Centre for Public Engagement, d'une bourse QMUL Research England Policy Impact Grant 2022, et de Thames Water.

Financement Open Access activé et organisé par Projekt DEAL.

Université Queen Mary de Londres, École des sciences mathématiques, Mile End Road, Londres, E1 4NS, Royaume-Uni

Benjamin Schäfer & Christian Beck

Faculté des sciences et de la technologie, Université norvégienne des sciences de la vie, 1432, Ås, Norvège

Benjamin Schäfer

Institut d'automatisation et d'informatique appliquée, Institut de technologie de Karlsruhe, 76344, Eggenstein-Leopoldshafen, Allemagne

Benjamin Schäfer

Institut Alan Turing, 96 Euston Road, Londres, NW1 2DB, Royaume-Uni

Christian Beck

The Francis Crick Institute, Flow Cytometry Science Technology Platform, Londres, Royaume-Uni

Hefin Rhys

Thames Water, Clearwater Court, Vastern Road, Reading, RG1 8DB, Royaume-Uni

Helena Sotériou

River Chess Association, Croxley Green, Royaume-Uni

Paul Jennings

Projet Chilterns Chalk Streams, Chilterns Conservation Board, Chinnor, Oxfordshire, OX39 4HA, Royaume-Uni

Allen Beechey

Université Queen Mary de Londres, École de géographie, Mile End Road, Londres, E1 4NS, Royaume-Uni

Catherine M. Hepell

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

CMH, PJ et AB ont conçu le projet ChessWatch, CMH et PJ ont collecté les données, HR a créé un tableau de bord en ligne sur la qualité de l'eau pour l'interrogation des données, BS a effectué l'analyse des données, CB et tous les autres auteurs ont interprété les résultats, rédigé et révisé le manuscrit.

Correspondance à Benjamin Schäfer.

Les auteurs ne déclarent aucun intérêt concurrent.

Springer Nature reste neutre en ce qui concerne les revendications juridictionnelles dans les cartes publiées et les affiliations institutionnelles.

Libre accès Cet article est sous licence Creative Commons Attribution 4.0 International, qui autorise l'utilisation, le partage, l'adaptation, la distribution et la reproduction sur tout support ou format, à condition que vous accordiez le crédit approprié à l'auteur ou aux auteurs originaux et à la source, fournissez un lien vers la licence Creative Commons et indiquez si des modifications ont été apportées. Les images ou tout autre matériel de tiers dans cet article sont inclus dans la licence Creative Commons de l'article, sauf indication contraire dans une ligne de crédit au matériel. Si le matériel n'est pas inclus dans la licence Creative Commons de l'article et que votre utilisation prévue n'est pas autorisée par la réglementation légale ou dépasse l'utilisation autorisée, vous devrez obtenir l'autorisation directement du détenteur des droits d'auteur. Pour voir une copie de cette licence, visitez http://creativecommons.org/licenses/by/4.0/.

Réimpressions et autorisations

Schäfer, B., Beck, C., Rhys, H. et al. Approche d'apprentissage automatique pour expliquer la dynamique de la qualité de l'eau dans une rivière urbanisée. Sci Rep 12, 12346 (2022). https://doi.org/10.1038/s41598-022-16342-9

Télécharger la citation

Reçu : 17 mars 2022

Accepté : 08 juillet 2022

Publié: 19 juillet 2022

DOI : https://doi.org/10.1038/s41598-022-16342-9

Toute personne avec qui vous partagez le lien suivant pourra lire ce contenu :

Désolé, aucun lien partageable n'est actuellement disponible pour cet article.

Fourni par l'initiative de partage de contenu Springer Nature SharedIt

En soumettant un commentaire, vous acceptez de respecter nos conditions d'utilisation et nos directives communautaires. Si vous trouvez quelque chose d'abusif ou qui ne respecte pas nos conditions ou directives, veuillez le signaler comme inapproprié.