DEDTI versus IEDTI : des modèles efficaces et prédictifs de consommation de drogue

Nouvelles

MaisonMaison / Nouvelles / DEDTI versus IEDTI : des modèles efficaces et prédictifs de consommation de drogue

Oct 24, 2023

DEDTI versus IEDTI : des modèles efficaces et prédictifs de consommation de drogue

Rapports scientifiques volume 13,

Rapports scientifiques volume 13, Numéro d'article : 9238 (2023) Citer cet article

Détails des métriques

La réorientation des médicaments est un domaine de recherche actif qui vise à réduire le coût et le temps de développement des médicaments. La plupart de ces efforts portent principalement sur la prédiction des interactions médicament-cible. De nombreux modèles d'évaluation, de la factorisation matricielle aux réseaux de neurones profonds plus avancés, sont venus sur les lieux pour identifier de telles relations. Certains modèles prédictifs sont consacrés à la qualité de la prédiction, et d'autres sont consacrés à l'efficacité des modèles prédictifs, par exemple, la génération par intégration. Dans ce travail, nous proposons de nouvelles représentations des médicaments et des cibles utiles pour plus de prédiction et d'analyse. À l'aide de ces représentations, nous proposons deux modèles inductifs de réseau profond d'IEDTI et DEDTI pour la prédiction de l'interaction médicament-cible. L'un et l'autre utilisent l'accumulation de nouvelles représentations. L'IEDTI tire parti du triplet et mappe les caractéristiques de similarité accumulées d'entrée dans des vecteurs correspondants d'intégration significatifs. Ensuite, il applique un modèle prédictif approfondi à chaque paire médicament-cible pour évaluer leur interaction. Le DEDTI utilise directement les vecteurs de caractéristiques de similarité accumulés des médicaments et des cibles et applique un modèle prédictif sur chaque paire pour identifier leurs interactions. Nous avons effectué une simulation complète sur l'ensemble de données DTINet ainsi que sur les ensembles de données de référence, et les résultats montrent que DEDTI surpasse IEDTI et les modèles de pointe. De plus, nous menons une étude d'amarrage sur les nouvelles interactions prédites entre deux paires médicament-cible, et les résultats confirment une affinité de liaison médicament-cible acceptable entre les deux paires prédites.

La découverte de médicaments de novo consomme d'énormes sommes d'argent et nécessite une longue enquête sans garantie de succès1. Pour surmonter ces défis, les méthodes informatiques de découverte de médicaments sont de plus en plus utilisées pour identifier les interactions médicament-cible (DTI) inconnues et cachées afin de traiter de nombreuses maladies. La réutilisation computationnelle des médicaments est une étape importante dans l'identification de nouvelles indications pour les médicaments actuellement commercialisés contre des cibles d'intérêt. L'idée principale derrière les stratégies informatiques de réorientation des médicaments est basée sur le fait que des composés similaires peuvent partager des propriétés similaires (connues sous le nom de culpabilité par association)2,3. Trois approches principales existent pour effectuer la prédiction computationnelle des DTI4. L'approche basée sur les ligands est la première et est utilisée lorsque des informations limitées sur la cible sont disponibles. Ces approches reposent sur le concept selon lequel des composés similaires ont des propriétés similaires et interagissent avec des protéines similaires. En d'autres termes, les sorties prévues de ces approches dépendent entièrement du nombre de ligands connus par protéine, par conséquent, leur fiabilité peut être affectée par un rapport insuffisant de ligands par protéine5,6,7,8,9. La deuxième approche est l'approche basée sur le docking, qui utilise les structures 3D d'un ligand et d'un récepteur pour évaluer l'affinité de liaison entre eux10. L'approche d'amarrage moléculaire souffre du manque de suffisamment de structures 3D de ligands et de récepteurs11. La troisième approche prometteuse, l'approche chimiogénomique, a été définie comme l'identification et la description de toutes les molécules possibles pouvant interagir avec n'importe quelle cible thérapeutique, permettant ainsi aux chercheurs d'aborder la question de la prédiction des protéines hors cible pour les candidats thérapeutiques12,13. Cette approche tente d'éviter les inconvénients des méthodes susmentionnées en trouvant les corrélations entre l'espace chimique du ligand et l'espace génomique de la protéine14. Les approches chimiogénomiques peuvent être classées en cinq types : (1) modèles de voisinage, (2) modèles locaux bipartites, (3) modèles de diffusion en réseau, (4) modèles de factorisation matricielle et (5) modèles de classification basés sur les caractéristiques4. La factorisation matricielle est l'une des méthodes couramment utilisées dans la prédiction DTI15. Les méthodes de factorisation matricielle16 manipulent les DTI et tentent de trouver une représentation latente de chaque drogue et de chaque cible16,17,18. Malgré les nombreux avantages de cette méthode, la factorisation matricielle souffre de plusieurs inconvénients. Par exemple, la factorisation matricielle utilise le produit interne linéaire de deux vecteurs. Par conséquent, ce n'est pas la meilleure solution pour prédire l'interaction ou la relation entre le médicament et la cible. En conséquence, nous suggérons d'éviter la factorisation matricielle linéaire conventionnelle dans la réorientation des médicaments. Les auteurs ont mentionné les problèmes des méthodes de factorisation matricielle dans un autre travail19.

Au cours des dernières années, les méthodes chimiogénomiques qui utilisent l'apprentissage automatique pour prédire les DTI (par exemple, les méthodes de réseau neuronal profond, de transformateur et de graphe) sont devenues largement utilisées. Ces méthodes sont apparues pour éviter les inconvénients des autres approches de prédiction DTI. Nous introduisons certaines des méthodes chimiogénomiques de pointe. NeoDTI20 est une méthode basée sur un réseau neuronal graphique qui utilise une méthode de complétion de matrice inductive pour prédire les DTI. AutoDTI++21 utilise une solution d'encodeur automatique en combinaison avec la factorisation matricielle. En raison de l'utilisation de la factorisation matricielle, cette méthode souffre de fuites de données. HIDTI22 génère des incorporations de cibles et de médicaments en appliquant des réseaux de neurones à leurs différentes propriétés, puis les concatène tous. La concaténation des informations traitées de chaque paire médicament-cible est transmise à un réseau neuronal résiduel pour identifier leur interaction. Cette méthode souffre de parcimonie ainsi que d'une génération incomplète d'incorporations. MolTrans23 appartient aux méthodes basées sur les transformateurs qui empruntent des concepts aux modèles de langage profond. TransDTI24 tire parti d'AlphaFold25 parmi d'autres intégrations pré-formées et les transmet à un réseau neuronal à anticipation pour identifier les DTI.

Cet article propose deux scénarios pour prédire les DTI à l'aide d'un réseau de neurones profond (DNN). Ils varient principalement dans la manière de modéliser le couple intrant médicament-cible. Nous appelons le premier scénario "indirect embedding DTI" ou simplement IEDTI et le second "direct embedding DTI", ou DEDTI. Les figures 1 et 2 montrent respectivement les cadres proposés. Nous utilisons des informations hétérogènes, y compris les interactions médicament-cible, les interactions médicament-médicament, les associations médicament-effet secondaire, les associations médicament-maladie, les interactions cible-cible, les interactions cible-maladie et les similitudes des cibles, pour prédire les DTI. La section "Méthode" en donne une expression détaillée.

Cadre de l'IEDTI. Il se compose de trois étapes de prétraitement, de génération d'intégration et de prédiction DTI. (I) La première étape lit les matrices de médicament et de cible. Il convertit les associations médicament-effet secondaire, médicament-maladie et cible-maladie en trois matrices de similarité. Cette procédure conduit à avoir quatre matrices de taille égale pour les médicaments et trois matrices de taille égale pour les cibles. Le cadre résume les matrices de médicaments ensemble et résume également les trois matrices cibles. Il applique k-means pour définir les mêmes étiquettes pour des médicaments similaires. Pour le visualiser, chaque étiquette est affichée dans une couleur différente. Il en va de même pour les cibles. (II) Le cadre utilise un triplet pour générer des vecteurs d'intégration pour chaque médicament et cible à l'aide de deux modules DNN. (III) Il concatène les intégrations de chaque paire médicament-cible et les transmet au troisième module DNN pour prédire les interactions.

Cadre DEDTI. Ce cadre se compose de deux étapes, à savoir le prétraitement et la prédiction DTI. (I) Dans l'étape de prétraitement, le cadre lit les matrices de médicament et de cible. Il convertit les associations médicament-effet secondaire, les associations médicament-maladie et les associations cible-maladie en trois matrices de similarité. Cette procédure conduit à avoir quatre matrices de taille égale pour les médicaments et trois matrices de taille égale pour les cibles. Le cadre résume les matrices de médicaments ensemble et résume également les trois matrices cibles. (II) Le cadre concatène chaque paire médicament-cible. Il transmet ensuite les concaténations à un module de réseau profond pour prédire leurs interactions.

L'IEDTI et le DEDTI utilisent les interactions médicament-cible comme étiquettes et les informations restantes comme données d'entrée dans leurs modèles. Comme le montre la Fig. 1, l'IEDTI comporte trois étapes. La première étape, le prétraitement, consiste à lire les matrices médicamenteuses et cibles et à créer leurs vecteurs de caractéristiques correspondants. Pour les médicaments, nous avons deux matrices d'interactions médicamenteuses et de similitudes structurelles des médicaments. En outre, il existe deux autres matrices d'associations médicament-maladie et médicament-effets secondaires. L'étape de prétraitement utilise la similarité cosinus et convertit les deux dernières matrices en matrices de similarité. En conséquence, les médicaments ont quatre matrices de taille égale. Nous les résumons dans l'étape de prétraitement et générons un espace de fonctionnalités pour les médicaments. Ensuite, nous cherchons à convertir l'espace des caractéristiques d'origine en un espace de dimension inférieure. Cependant, le nouvel espace doit préserver les similitudes entre les vecteurs de caractéristiques de l'espace d'origine. Pour ce faire, la perte de triplet est mise en œuvre pour effectuer une réduction de dimension significative. La perte de triplet nécessite des étiquettes des vecteurs de caractéristiques corrélés. L'espace de données d'origine n'a pas d'étiquettes. Par conséquent, le cadre applique k-means aux vecteurs de médicaments, et des médicaments similaires reçoivent les mêmes étiquettes. En d'autres termes, nous utilisons k-means pour l'étiquetage des échantillons. Cet étiquetage est crucial pour préparer les vecteurs d'enrobage. La même procédure se produit pour les cibles dans l'étape de prétraitement.

À l'étape suivante, la génération d'intégration, l'IEDTI utilise deux modules de réseau profond (\(DNN_1\) et \(DNN_2\)) pour les médicaments et les cibles en conséquence. À l'aide de \(DNN_1\), il mappe chaque vecteur de caractéristiques de médicament dans un espace d'intégration. Ces nouvelles représentations doivent avoir une interprétation significative de médicaments similaires avec des intégrations similaires. La même chose se produit pour les cibles avec \(DNN_2\).

La dernière étape de l'IEDTI - prédiction DTI - prédit l'interaction entre chaque paire médicament-cible. D'autre part, DEDTI se concentre exclusivement sur la prédiction DTI. DEDTI se compose de deux étapes "pré-traitement" et "prédiction DTI". Il diffère de l'IEDTI en excluant l'étape de génération d'intégration. Nous les discutons plus en détail comme suit.

Les ensembles de données ont été obtenus à partir d'une étude précédente sur la prédiction des DTI non homogènes11 (nous l'appelons ensemble de données DTINet). Cet ensemble de données contient des données sur 708 médicaments de DrugBank (version 3.0)26, 1512 protéines cibles de la base de données HPRD (version 9)27, 5603 maladies de la base de données Comparative Toxicogenomics28 et 4192 effets secondaires de médicaments de la base de données SIDER (version 2)29. En outre, il existe 1923 interactions connues entre les médicaments et les cibles30.

De plus, nous avons effectué une validation externe des ensembles de données Gold standard d'enzymes, de GPCR, de canaux ioniques et de récepteurs nucléaires31. Le tableau 1 présente toutes les statistiques des ensembles de données.

Comme mentionné, cette étude évalue deux scénarios pour prédire les interactions médicament-cible - la différence entre ces deux scénarios est enracinée dans différentes étapes de prétraitement et de manipulation des données. Avant de plonger dans les scénarios, nous énonçons d'abord la gestion des données dans les jeux de données. En raison de l'objectif de prédiction des DTI, cet article traite des interactions entre les médicaments et les cibles. Huit matrices contiennent toutes les informations et interactions nécessaires à notre prédiction DTI.

X, ou Interactions médicament-cible de dimension \(708\fois 1512\) [certaines études considèrent une autre matrice appelée matrice cible-médicament. Ce dernier n'est rien d'autre que la transposition du premier. Cet article utilise l'interaction médicament-cible comme étiquettes de prédiction et, par conséquent, nous n'avons besoin que d'une seule d'entre elles.].

\(D^{(1)}\), ou Similitudes structurelles médicament-médicament de dimension \(708\fois 708\).

\(D^{(2)}\), ou Interactions médicament-médicament de dimension \(708\fois 708\).

\(D_{raw}^{(3)}\), ou Associations médicament-maladie de dimension \(708\times 5603\).

\(D_{raw}^{(4)}\), ou Associations médicament-effet secondaire avec la dimension \(708\times 4192\).

\(T^{(1)}\), ou Interactions Cible-Cible avec la dimension \(1512\times 1512\).

\(T^{(2)}\), ou Similitudes de séquence Cible-Cible avec la dimension \(1512\times 1512\).

\(T_{raw}^{(3)}\), ou des associations Target-Disease avec la dimension \(1512\times 5603\) [On comprendra bientôt pourquoi nous avons utilisé l'indice "raw" pour certaines des matrices \(D_{raw}^{(3)}\), \(D_{raw}^{(4)}\) et \(T_{raw}^{(3)}\). Pour le moment, ces matrices ne sont pas des matrices de similarité.].

Il convient de mentionner que nous différencions la première matrice, X, de toutes les autres matrices. Alors que nous considérons les autres matrices comme les caractéristiques d'entrée, X est traité comme les étiquettes de prédiction des DTI. Le premier scénario, Scénario 1, traite de l'intégration de la génération en plus de la prédiction DTI. Le deuxième scénario, Scénario 2, concerne exclusivement la prédiction des interactions. En d'autres termes, alors que le premier traite des incorporations pour une analyse plus approfondie, le second traite de la qualité de la prédiction. Il convient de mentionner que les deux méthodes ont la même étape de prétraitement.

Ces deux scénarios ont une seule étape commune de prétraitement des données. Les deux visent à combiner les informations des matrices de médicaments (et de protéines) en une seule matrice. La première étape transforme les matrices pour les drogues—\(D^{(i)},~1\le i\le 4\)—en une seule matrice de caractéristiques, D, et pour les cibles—\(T^{(j)},~1\le j\le 3\)— en une seule matrice de caractéristiques, T. \(D^{(1)}\) et \(D^{(2)}\), toutes deux, ont la même taille de \(708\fois 708\). Pour générer l'espace des caractéristiques des médicaments, nous convertissons les deux autres \(D^{(3)}\) et \(D^{(4)}\) en un espace de taille égale à \(D^{(1)}\) et \(D^{(2)}\). En d'autres termes, nous nous débarrassons de la représentation explicite des maladies et des effets secondaires de \(D^{(3)}\) et \(D^{(4)}\), respectivement. Nous avons produit les matrices de similarité des matrices médicament-maladie, effet secondaire du médicament et maladie cible par la métrique « cosinus similarity32 ». Ce type de similarité a été utilisé en raison de son invariance d'échelle, de sa sensibilité à la directionnalité, de son utilisation dans les systèmes de recommandation et de son efficacité de calcul33,34.

Supposons que O est une matrice de taille \(o_1\times o_2\). Le but est de calculer la similarité entre ses lignes. Dans ce but, nous appliquons la similarité en cosinus. Sa sortie est une matrice carrée R de taille \(o_1\times o_2\). Ainsi, la similarité des lignes k et \(\ell ,~1\le k,\ell \le o_1\), \(R_{k\ell }\) et est égale à

où "\(\cdot \)" représente le produit interne de deux vecteurs et \(||\cdot ||\) indique la norme \(\ell ^2\) du vecteur. L'équation 1 est appliquée sur tous les couples \((k,\ell ), 1\le k,\ell \le o_1\). La matrice résultante R a la taille de \(o_1\times o_1\). \(D^{(1)}\), \(D^{(2)}\), \(T^{(1)}\) et \(T^{(2)}\) sont déjà des matrices de similarité. Ainsi, nous appliquons l'équation 1 sur les matrices restantes—\(D_{raw}^{(3)},\) \(D_{raw}^{(4)},\) et \(T_{raw}^{(3)},\) et les résultats sont \(D^{(3)},\) \(D^{(4)},\) et \(T^{(3)}.\)

Finalement, il existe quatre matrices de similarité de médicaments \(D^{(1)}\), \(D^{(2)}\), \(D^{(3)}\) et \(D^{(4)}\) avec la même taille de \(708\fois 708\), et il existe trois matrices de similarité \(T^{(1)}\), \(T^{(2)}\) et \(T^{(3)}\) pour les données cibles dont la taille est \(1512\times 1512\). Ces conversions visent à générer des vecteurs de caractéristiques pour les médicaments ainsi que des cibles. Pour ce faire, nous additionnons les matrices de similarité des médicaments pour les médicaments et les matrices de similarité des cibles pour les cibles. Ainsi, les matrices finales de similarité médicament et cible (D et T) sont obtenues par sommation des matrices de similarité comme suit.

nous considérons D et T comme vecteurs caractéristiques pour les médicaments et les cibles, respectivement. En d'autres termes, chaque ligne de D correspond à une représentation informative d'un médicament spécifique. Il en va de même pour le vecteur de caractéristiques cible T. En ayant D et T, nous pouvons décrire les scénarios.

Cette sous-section fournit la formulation mathématique de l'IEDTI et du DEDTI.

Ce scénario vise à produire des intégrations et des prédictions DTI en utilisant les vecteurs de caractéristiques d'entrée D et T. Il génère une intégration pour chaque médicament \({{\textbf {d}}}_i=D(i,:);~1\le i\le m\) et chaque cible \({{\textbf {t}}}_j=T(j,:);~1\le j\le n\). Les représentations incorporées de \({{\textbf {d}}}_i\) et \({{\textbf {t}}}_j\) sont \(\bar{{{\textbf {d}}}}_i\) et \(\bar{{{\textbf {t}}}}_j\), respectivement. Ces nouvelles représentations occupent des espaces plus petits, conduisant à un calcul plus rapide et plus efficace. De plus, ils ont une signification, c'est-à-dire que des vecteurs similaires ont des représentations d'intégration similaires et des vecteurs différents ont des représentations dissemblables. Ensuite, il prédit les DTI. Nous expliquons d'abord la manière d'embarquer la génération. Nous commençons par décrire la production des enrobages de médicaments. Chaque médicament \({{\textbf {d}}}_i\) de la matrice D est mappé dans un nouvel espace de représentation et est représenté par \(\bar{{{\textbf {d}}}}_i\). En d'autres termes, ces médicaments sont transformés en un nouveau domaine en rencontrant la "propriété significative" d'une paire similaire de vecteurs ayant une paire similaire de vecteurs d'incorporation et vice versa. Ainsi, nous recherchons une fonction, c'est-à-dire \(g_1\), où elle convertit chaque \({{\textbf {d}}}_i\) de D en un vecteur d'intégration avec la propriété que les vecteurs similaires doivent avoir des vecteurs d'intégration similaires et que les différents doivent avoir des vecteurs d'intégration différents, ou formellement :

où \(\tau _D\in {\mathbb {R}}^+\) et \(\tau _{\bar{D}}\in {\mathbb {R}}^+\) sont des seuils de comparaison pour les représentations originales et les représentations intégrées des médicaments, respectivement. Il convient de noter que \({{\textbf {d}}}_i\in {\mathbb {R}}^m\) et \(\bar{{{\textbf {d}}}}_i\in {\mathbb {R}}^{f_1}\), où \(f_1\ll m\). Deux fonctions \(dist_D\) et \(dist_{\bar{D}}\) sont respectivement \({\mathbb {R}}^m\times {\mathbb {R}}^m\rightarrow {\mathbb {R}}^+\) et \({\mathbb {R}}^{f_1}\times {\mathbb {R}}^{f_1}\rightarrow {\mathbb {R}}^+\ ) fonctions, utilisées pour mesurer la similarité entre les vecteurs dans D et leurs vecteurs d'incorporation. La fonction de distance peut être n'importe quelle fonction légitime qui discrimine les vecteurs dissemblables et regroupe les vecteurs similaires dans la coordonnée de représentation intégrée. La même condition s'applique aux membres de la matrice de similarité cible (T). Ainsi, nous recherchons une fonction \(g_2\) avec des conditions similaires sur \({{\textbf {t}}}_j\), ou formellement :

où \(\tau _T\in {\mathbb {R}}^+\) et \(\tau _{\bar{T}}\in {\mathbb {R}}^+\) sont des seuils de comparaison pour les représentations originales des cibles \({{\textbf {t}}}_i\in {\mathbb {R}}^n\) et les représentations intégrées \(\bar{{{\textbf {t}}}}_i\in {\ma thbb {R}}^{f_2}\), où \(f_2\ll n\), respectivement. Chaque ligne, \(\bar{{{\textbf {d}}}}_i\) et \(\bar{{{\textbf {t}}}}_j\) incorporent des vecteurs dans un nouveau domaine de ses lignes correspondantes, \({{\textbf {d}}}_i\) et \({{\textbf {t}}}_j\), dans les matrices de similarité cible et médicament, respectivement. Semblables à \(dist_D\) et \(dist_{\bar{D}}\), deux autres fonctions \(dist_T\) et \(dist_{\bar{T}}\) sont respectivement \({\mathbb {R}}^n\times {\mathbb {R}}^n\rightarrow {\mathbb {R}}^+\) et \({\mathbb {R}}^{f_2}\times {\mathbb {R}}^{f_2}\rightarrow {\mathbb {R}}^+\) fonctions qui sont utilisées pour mesurer la similarité entre les vecteurs dans T et leurs vecteurs intégrés. Le \(\bar{{{\textbf {d}}}}_i,~1\le i \le m\) et \(\bar{{{\textbf {t}}}}_j,~1\le j \le n\) sont le premier type de sortie du scénario 1. Le type suivant est la prédiction de l'interaction entre les paires médicament-cible. Pour ce faire, il utilise chaque paire de \(\bar{{{\textbf {d}}}}_i\) et \(\bar{{{\textbf {t}}}}_j\), et appelle une fonction \(g_3:{\mathbb {R}}^{f_1}\times {\mathbb {R}}^{f_2}\rightarrow {\mathbb {R}}\) où \(g_3(\bar{{{\ textbf {d}}}}_i,\bar{{{\textbf {t}}}}_j)\approx x_{ij}\). Nous le définissons formellement comme suit :

Notamment, les explications ci-dessus sont la formalisation conceptuelle de notre proposition. Les paramètres \(\tau _D\) et \(\tau _T\) sont gérés à l'aide des modules de clustering et DNN. En d'autres termes, nous répondrons à ces trois objectifs avec une solution DNN. Notre DNN proposé est formé de trois modules (\(DNN_1,~DNN_2,~DNN_3\)), et chacun d'eux modélise une des fonctions \(\{g_1,g_2,g_3\}\). Le premier module (\(DNN_1\)) consiste à calculer l'intégration des vecteurs de similarité médicamenteuse (D). Ses vecteurs d'entrée sont les lignes (\({{\textbf {d}}}_i\)) de D, et sa sortie est la nouvelle représentation de chaque ligne, \(\bar{{{\textbf {d}}}}_i\). Le deuxième module (\(DNN_2\)) permet d'acquérir les vecteurs d'incorporation cibles (\(\bar{{{\textbf {t}}}}_j\)). Ses vecteurs d'entrée proviennent des lignes (\({{\textbf {t}}}_j\)) de la matrice de similarité cible. Ces deux modules DNN agissent comme des méthodes triplet. Enfin, le troisième module (\(DNN_3\)), en ayant les entrées sous forme de vecteurs concaténés \((\bar{{{\textbf {d}}}}_i,\bar{{{\textbf {t}}}}_j)\), prédit les interactions entre les entités des matrices D et T. La section suivante fournit la structure du DNN conçu plus en détail.

Ce scénario se concentre directement sur la prédiction des DTI. Pour ce faire, le scénario 2 se compose de deux étapes. La première étape consiste à définir le vecteur de caractéristiques nécessaire à la prédiction des DTI. Il utilise les vecteurs de D et T pour générer le vecteur de caractéristiques requis pour la prédiction. En d'autres termes, chaque vecteur caractéristique est une paire médicament-cible disponible. Chaque vecteur de caractéristiques \({{\textbf {z}}}\) est dérivé du \({{\textbf {d}}}_i=D(i,:);~1\le i\le m\) avec la cible \({{\textbf {t}}}_j=T(j,:);~1\le j\le n\), ou \({{\textbf {z}}}=({{\textbf {d}}}, {{\textbf {t}}})\), et \({{\textbf {z}}}\in {\mathbb {R}}^{m+n}\). L'étape suivante consiste à prédire l'interaction entre chaque paire médicament-cible donnée. Nous montrons les deux étapes comme suit.

Cette sous-section présente l'architecture approfondie de l'IEDTI et du DEDTI. Nous les décrivons un par un comme suit.

Cette sous-section fournit l'architecture profonde de l'IEDTI. Nous le décrivons en trois modules différents comme suit.

Premier module de Deep Neural Network Le premier module (\(DNN_1\)) obtient le \({{\textbf {d}}}_i=D(i,:),\forall i \in \{1,~\cdots ,m\}\) en entrée et renvoie le vecteur d'intégration correspondant pour chacun d'eux. Comme mentionné précédemment, la similitude et la dissemblance entre les cibles doivent également être conservées parmi leurs vecteurs d'intégration correspondants. En d'autres termes, si deux vecteurs sont similaires dans l'espace principal, leur transformation doit être similaire dans l'espace d'intégration. Pour conserver des similitudes dans l'espace d'intégration, nous profitons de l'idée que Bordes et al. ont introduit35. Cependant, nous avons changé la fonction objectif. Supposons que pour chaque \({{\textbf {d}}}_i\), nous puissions trouver "l'ensemble" de ses vecteurs similaires dans D. Nous l'appelons \(Smlr_{{{\textbf {d}}}_i}\) . D'autre part, chaque \({{\textbf {d}}}_i\) a des dissemblances ou moins de similitudes avec les vecteurs restants de D. En utilisant ces deux ensembles de vecteurs similaires ainsi que de dissemblables pour chaque \({{\textbf {d}}}_i\); nous calculons sa représentation \(\bar{{{\textbf {d}}}}_i\). Leur formulation peut être :

Ayant cet ensemble et son ensemble complémentaire pour chaque \({{\textbf {d}}}_i\in D\), nous définissons la fonction objectif ci-dessous :

Il est à noter que l'ensemble \(Smlr_{{{\textbf {d}}}_i}\) est défini sur la base de \(dist_D\) et \({{\textbf {d}}}\), mais \({\mathscr {L}}_d\) est basé sur \(dist_{\bar{D}}\) et \(\bar{{{\textbf {d}}}}\). Les vecteurs similaires doivent avoir une distance plus petite et les vecteurs dissemblables doivent avoir une distance plus longue. Si le modèle fonctionne correctement, \({\mathscr {L}}_d\) doit être proche de zéro. Ainsi, l'objectif de \(DNN_1\) est de minimiser la fonction de coût \({\mathscr {L}}_d\). Le paramètre \(\gamma \) est un hyperparamètre de marge pour régler la fonction objectif. Cette fonction s'appelle un triplet. Pour ce faire, nous pouvons disposer de plusieurs couches de réseaux de neurones. Le nombre de neurones de la couche d'entrée doit être égal à m (la longueur de \({{\textbf {d}}}_i\)). Il faut aussi que le nombre de neurones de la couche de sortie soit égal à \(f_1\) (la longueur de \(\bar{{{\textbf {d}}}}_i\)). Il est nécessaire d'avoir des plongements significatifs. En d'autres termes, des médicaments similaires doivent avoir des représentations similaires dans l'espace d'intégration. Cet objectif nécessite de définir une similitude entre la représentation originale des médicaments. À cette fin, nous utilisons l'algorithme k-means et l'appliquons aux vecteurs de médicaments et définissons des ensembles de médicaments similaires. À l'aide de ce regroupement, \(DNN_1\) calcule des intégrations similaires pour les médicaments de chaque ensemble. Comme mentionné ci-dessus, nous avons appliqué la méthode k-means pour mettre des médicaments similaires (et des protéines similaires) dans les mêmes clusters. Ensuite, nous obtenons une nouvelle représentation en utilisant une fonction de perte de triplet semi-dur. Cette approche conduit à avoir une distance plus courte entre tous les deux membres d'un cluster et un écart plus large entre chaque paire de clusters. Ces clusters agissent comme des étiquettes et la fonction de perte les utilise pour produire des incorporations significatives. La figure 4 montre les représentations t-SNE des médicaments et des cibles avant et après l'application du triplet. Ils montrent la puissance de la représentation des k-moyennes ainsi que l'application de vecteurs d'incorporation de triplets. Nous avons choisi le nombre de clusters de manière à ce que les clusters soient à peu près égaux. Ainsi, nous avons examiné 2 à 64 comme nombre de groupes de médicaments, et 4 est le meilleur nombre possible de groupes de médicaments. La figure 4a illustre les représentations k-moyennes des médicaments. La figure 4b est la séparation de ces médicaments dans la coordonnée d'enrobage. La comparaison de deux chiffres montre le pouvoir discriminant du triplet. Il en va de même pour les cibles; le meilleur nombre de clusters était de 5. La figure 4c montre le résultat de l'application de k-means sur les cibles. Enfin, la Fig. 4d visualise les encastrements des cibles finales.

Deuxième module de Deep Neural Network Le deuxième module (\(DNN_2\)) fonctionne comme son frère \(DNN_1\). La différence est que tandis que \(DNN_1\) calcule les plongements de \({{\textbf {d}}}_i\in D,~i \in \{1,\cdots ,m\}\), \(DNN_2\) calcule \({{\textbf {t}}}_j\in T,~j \in \{1,\cdots ,n\}\). Pour chaque \({{\textbf {t}}}_j\), nous définissons également des ensembles de vecteurs similaires :

Ayant l'ensemble de similarités de chaque \({{\textbf {t}}}_i\in T\) et son complément correspondant, nous définissons la fonction objectif ci-dessous :

Comme nous l'avons mentionné pour \({{\textbf {d}}}\), la distance entre les vecteurs similaires et différents doit également fonctionner de la même manière pour \({{\textbf {t}}}\). Si le modèle fonctionne correctement, \({\mathscr {L}}_t\) doit être proche de zéro, et l'objectif de \(DNN_2\) est de minimiser la fonction de coût \({\mathscr {L}}_t\). Pour cela, la première couche de \(DNN_2\) doit avoir n neurones, et la couche de sortie de \(DNN_2\) doit avoir \(f_2\) neurones. En harmonie avec la sous-section précédente, nous appliquons l'algorithme des k-moyennes pour localiser l'ensemble des cibles similaires.

Troisième module de Deep Neural Network Le troisième module du réseau de neurones \(DNN_3\) est en charge de la prédiction DTI. L'entrée du \(DNN_3\) est les représentations intégrées du médicament et de la cible de \(DNN_1\) et \(DNN_2\)—la sortie de \(DNN_1\) est le vecteur \(\bar{{{\textbf {d}}}}_{f_1\times 1}\), et la sortie de \(DNN_2\) est le vecteur \(\bar{{{\textbf {t}}}}_{ f_2\fois 1}\). Le format d'entrée de \(DNN_3\) est la concaténation de \(\bar{{{\textbf {d}}}}\) et \(\bar{{{\textbf {t}}}}\), ou \([\bar{{{\textbf {d}}}}^T \bar{{{\textbf {t}}}}^T]^T\). Ainsi, le nombre de neurones de la couche d'entrée de \(DNN_3\) est égal à \(f_1+f_2\). Comme mentionné ci-dessus, le rôle de la troisième section est le calcul de la quantité d'interaction entre \(\forall i \in \{1,\cdots ,m\} : {{\textbf {d}}}_i\in D\) et \(\forall j \in \{1,\cdots ,n\} : {{\textbf {t}}}_j\in T\), ou \(x_{ij}\). La couche de sortie a un neurone, une approximation \(x_{ij}\). Formellement, l'objectif de \(DNN_3\) est

Parce que \(\bar{{{\textbf {d}}}}_i\) et \(\bar{{{\textbf {t}}}}_j\) sont acquis à partir de \(DNN_1\) et \(DNN_2\), nous pouvons réécrire la fonction objectif comme

où \(\mathbin \Vert \) montre les concaténations de deux vecteurs. Il est nécessaire de mentionner que tous les \(DNN_1\), \(DNN_2\) et \(DNN_3\) peuvent avoir plusieurs couches cachées. Nous en discutons davantage dans les sections "mise en œuvre" et "discussion". La figure 1 montre la structure générale du premier scénario proposé.

Il est à noter que le modèle IEDTI n'est pas un modèle de bout en bout. Par conséquent, la propagation des erreurs n'est pas un processus de bout en bout. et chaque module a sa propre propagation d'erreur.

Le réseau profond du deuxième scénario est similaire au premier. La seule différence réside dans le vecteur d'entrée du réseau. Son vecteur d'entrée est la concaténation de chaque \({{\textbf {d}}}_i\) et \({{\textbf {t}}}_j\). Officiellement,

ou plus précisément, c'est

Les neurones requis de la couche d'entrée sont égaux à \(m+n\) et la dernière couche contient un seul neurone pour prédire chaque DTI.

Dans les deux scénarios décrits, nous avons mis en œuvre une validation croisée décuplée pour fournir des informations précises sur les performances de notre algorithme. Pour ajuster les paramètres, nous avons testé les résultats avec la suggestion des études précédentes sur le thème de l'apprentissage en profondeur et de la prédiction DTI. Les résultats montrent que les paramètres fonctionnent bien dans ce travail.

Modèle DEDTI Notre premier modèle prend en entrée la concaténation de la ième représentation de protéine et de jième vecteur de médicament, \(c_{ij}\). Par conséquent, la forme d'entrée est (2220, 1) car nous avons 708 médicaments et 1512 cibles. Ensuite, il passe l'entrée, \(c_{ij}\), à quatre couches Conv1D consécutives avec la fonction d'activation Relu, où chacune est suivie d'une normalisation par lots et d'un abandon 0,5. Ensuite, nous utilisons une couche dense après une couche aplatie, suivie d'un abandon de 0,5. Enfin, une couche dense avec une fonction d'activation sigmoïde prédit l'interaction entre le médicament et la protéine. Nous avons compilé notre modèle avec l'optimiseur Adam et la fonction de perte d'entropie croisée binaire. L'interaction est binaire. Zéro n'indique aucune interaction et un représente une interaction valide. Nous avons également utilisé la technique de biais initial dans notre dernière couche dense pour considérer la propriété de l'ensemble de données de déséquilibre. Notre biais initial est le suivant :

Dans ce modèle, nous avons défini la taille du lot sur 1024 lors de la phase d'apprentissage.

Modèle IEDTI Notre phase de prédiction dans le modèle triplet est la même que notre premier modèle. Cependant, nous avons ici deux étapes supplémentaires. Tout d'abord, nous utilisons séparément les k-means sur les médicaments et les protéines pour y trouver différents clusters. Ensuite, nous obtenons de nouvelles représentations pour eux en utilisant la perte de triplet semi-dure. Notre nouvelle représentation vectorielle pour les médicaments et les protéines a une taille égale à 256. Après cela, nous alimentons leurs concaténations dans notre phase de prédiction, similaire à notre modèle précédent. Cependant, la forme d'entrée dans ce scénario est (512). Comme la forme d'entrée ici est plus petite que le modèle précédent, nous avons défini notre taille de lot sur 64 pour celui-ci.

Nous utilisons une validation croisée décuple pour évaluer la performance des modèles. Nous avons utilisé différentes mesures telles que AUC-ROC, AUPR, F1-score et MCC pour évaluer les méthodes. AUC-ROC n'est pas approprié pour le déséquilibre. Ainsi, nous avons utilisé les autres métriques d'évaluation pour couvrir le cas des données déséquilibrées. Nous calculons la sensibilité (rappel), la spécificité, la précision et les mesures du score F1 sur la base des équations suivantes.

Alors que le score F1 est utilisé pour l'évaluation des données déséquilibrées, nous avons considéré le MCC en raison de ses avantages dans la classification binaire36. Son équation est la suivante.

Le paramètre m indique le nombre de médicaments et le nombre de cibles n représente le nombre de cibles, le nombre de maladies est \(n_{di}\) et le nombre d'effets secondaires est \(n_{se}\). Nous supposons qu'il y a des époques \(e_{emb}\) nécessaires pour la génération de représentations secondaires des médicaments et des cibles, et chaque temps d'époque est égal à \(T_{e}\) pour le médicament et la cible. Pour plus de simplicité, nous avons supposé qu'il n'y avait pas de différence de temps de conversion entre le médicament et la cible. Enfin, nous supposons que le nombre d'époques dans le modèle prédictif est égal à \(e_{p}\) et que l'intervalle de temps de chaque époque est égal à \(T_{p}\).

DEDTI et IEDTI doivent calculer la représentation primaire de chaque médicament et de chaque protéine. Deux matrices de similarité pour les médicaments sont déjà prêtes. Nous devons calculer deux autres matrices de similarité pour les médicaments utilisant des maladies et des effets secondaires nécessaires pour les deux prochaines similarités de médicaments. Dans la matrice médicament-maladie, les méthodes appliquent la similarité cosinus pour chaque paire de médicaments. Par conséquent, sa complexité temporelle est \(O(m^2n_{di})\). La même chose se produit pour la matrice des effets secondaires des médicaments ; ainsi, la complexité de sa conversion est \(O(m^2n_{se})\). Au total, la conversion pour les médicaments est \(O(m^2(n_{di}+n_{se})\). Les cibles ont besoin d'un calcul supplémentaire de similarité à partir des maladies. Semblable à la matrice médicament-maladie, la complexité du calcul de la similarité entre les cibles en fonction de leurs maladies communes est \(O(n^2n_{di})\). Dans cet article, n est supérieur à m, et la complexité du calcul de la similarité est \(O\left( e_{emb}\left( (m+n) T_{e}\right) \right) \), et \(m

Les deux modèles ont un module prédictif similaire, et leur complexité pour évaluer toutes les cibles et tous les médicaments est \(O\left( e_{p}mnT_{p}\right) \). Leur différence est en \(T_{p}\), dont l'IDETI a besoin d'une complexité temporelle et spatiale inférieure à celle du DEDTI.

Il est à noter que l'IEDTI avec trois modules DNN (deux pour l'intégration de la production de vecteurs et un module pour la prédiction) contient toutes les étapes de préparation et de prédiction de l'intégration, tandis que les méthodes de pointe utilisent les incorporations disponibles (par exemple, TransDTI) ou ont une plus grande complexité (IMCHGAN).

L'amarrage moléculaire basé sur la structure est une alternative virtuelle aux expériences de laboratoire coûteuses et chronophages pour trouver l'orientation "la mieux adaptée" d'un médicament à une cible particulière. Ainsi, nous avons utilisé cette technique pour rationaliser le potentiel d'interaction entre Chlorzoxazone-PTGS2 et Tetrabenazine-ADORA1 en tant que deux nouvelles paires médicament-cible prédites. À cette fin, les structures cristallines d'ADORA1 (PDB 5n2s) et de PTGS2 (PDB 3QMO) ont été obtenues à partir de la banque de données de protéines RCSB PDB37. De plus, les structures 3D-SDF de la tétrabénazine et de la chlorzoxazone ont été téléchargées à partir du NCBI PubChem38. Le ligand natif, HEATM, et d'autres molécules de solvant dans les deux structures protéiques ont été éliminés à l'aide de Discovery Studio, et la méthode de descente la plus raide a été utilisée pour la minimisation de l'énergie. Ensuite, l'outil Swiss PDB Viewer (SPDBV)39 a été utilisé pour acquérir la conformation la plus stable des protéines. Finalement, les dernières étapes de la préparation des protéines, y compris l'ajout d'hydrogènes polaires et de charges de Kollman, ont été effectuées à l'aide des outils Autodock (ADT). La préparation des ligands a été réalisée par addition d'hydrogènes polaires et de charges gasteiger. De plus, la détection des racines et le choix des torsions dans l'arbre de torsion ont été effectués pour faire pivoter toutes les liaisons rotatives. Afin de déterminer le "site actif" dans la position de liaison d'ADORA1, la structure cristalline du complexe ADORA1in stabilisé avec PSB36 à 3,3A a été visualisée à l'aide de l'outil LIGPLOT+40. Le schéma obtenu montre que His 1356, Trp 1352, Leu 1355, Met 1285, Asn 1359, Thr 1375, Glu 1277, Thr 1362, Phe 1276, Val 1192, Ile 1174, Ile 1379 et Ala 1196 sont les acides aminés les plus importants impliqués dans la formation de ce complexe. De plus, la structure cristalline aux rayons X du NS-398 lié à la cyclooxygénase-2 a été analysée. Arg 120, Val 523, Ala 527, Val 349, Ser 530, Tyr 385, Trp 387, Gly 526, Leu 352, Met 522, Phe 518 et Ser 353 ont été déterminés comme la plupart des résidus participants pour établir le complexe mentionné ci-dessus. Pour définir l'espace d'amarrage, nous avons généré la boîte de grille pour chaque protéine cible. Pour ADORA1, les valeurs de la zone de grille sont centre x = 103,962, centre y = 128,898, centre z = 44,237 et points x = 54, points y = 48 et points z = 58. Pour PTGS2, la zone de grille centrale est définie avec 40,049, 51,442 et 69,613 comme X-, Y- et Z-, respectivement, et les points de grille étaient 56, 60 et 63 en coordonnées X, Y et Z. De plus, l'espacement des points de grille a été fixé à 0,375 angströms pour les deux. Enfin, des études d'amarrage ont été réalisées par AutoDock 4.2 en utilisant l'algorithme génétique lamarckien.

Afin de réduire l'espace expérimental requis pour découvrir un nouvel agent thérapeutique, cette étude propose deux modèles informatiques innovants appelés IEDTI et DEDTI. Ils peuvent aider à identifier de nouveaux DTI en incorporant des informations hétérogènes sur les médicaments et les cibles. Les scénarios IEDTI et DEDTI tirent parti des interactions médicament-cible comme étiquette de prédiction. Comme un aperçu (Figs. 1 et 2) représentent IEDTI et DEDTI, respectivement. Les deux modèles extraient quatre types de similarités entre les médicaments et trois types de similarités pour les cibles. Les deux scénarios manipulent la version cumulative des médicaments et des cibles comme intrants. IEDTI se compose de trois modules CNN. Les premier et deuxième modules génèrent respectivement les vecteurs d'intégration des médicaments et des cibles. Ainsi, leurs entrées sont des vecteurs de caractéristiques issus de l'accumulation de matrices de similarité, et leurs sorties sont de nouveaux vecteurs d'intégration. Pour avoir une génération significative d'incorporations, une méthode de clustering est appliquée aux matrices d'accumulation. Le regroupement aide à identifier les étiquettes des médicaments et des cibles. Les modules DNN génèrent des vecteurs d'intégration similaires pour les entrées avec la même étiquette. Le troisième module identifie l'interaction de chaque paire médicament-cible. Ainsi, son entrée est la concaténation de nouveaux vecteurs d'intégration de paires médicament-cible, et sa sortie est une valeur binaire qui montre l'existence ou l'absence d'interaction. DEDTI, en revanche, se compose d'un seul module DNN. Les entrées de ce module sont des matrices de similarité directement accumulées de chaque paire médicament-cible en cours d'examen, et sa sortie est leur identifiant d'interaction. La section "Méthodes" décrit les deux scénarios en détail.

Les performances de prédiction de nos modèles ont été évaluées à l'aide d'une procédure de validation croisée à dix facteurs. Nous avons divisé l'ensemble de données en ensembles de test et d'apprentissage, où \(10\%\) de l'ensemble de données a été utilisé comme ensemble de test, et les \(90\%\) restants ont été utilisés comme ensemble d'apprentissage. Ensuite, nous avons comparé nos résultats avec les résultats de cinq méthodes de pointe pour la prédiction DTI, y compris HIDTI22 et NeoDTI20, MolTrans23, TransDTI24 et IMCHGAN41. De plus, en raison du déséquilibre des données entre les échantillons positifs et négatifs de DTI, nous rapportons les résultats avec des rapports positifs sur négatifs de 1: 3 et 1: 5, comme cela est courant dans la littérature22. Les tableaux 2 et 3 illustrent les résultats pour ces deux ratios d'échantillonnage, respectivement. Nous comparons les résultats en fonction de l'ASC-ROC et de l'AUPR, de la précision, du rappel, du score F1 et du MCC. L'AUPR, le score F1 et le MCC sont particulièrement utiles lorsqu'il existe un déséquilibre du rapport entre les échantillons positifs et négatifs. IEDTI a un AUC-ROC plus élevé par rapport aux modèles HIDTI et NeoDTI. Le format HIDTI-simple a un AUPR plus élevé dans les rapports 1:3 et 1:5 que l'IEDTI. Cependant, l'écart type des modèles HIDTI et NeoDTI est beaucoup plus élevé que l'IEDTI. En d'autres termes, l'IEDTI a des fluctuations plus faibles en voyant divers plis. Plus important encore, comme le montre le tableau, DEDTI fournit les meilleurs AUPR et AUC-ROC dans toutes les méthodes avec des fluctuations mineures dans tous les ratios et dans les deux mesures. Les résultats montrent que IEDTI et DEDETI, en particulier ce dernier, fonctionnent bien dans la prédiction des DTI. Les figures 3a à f montrent les tracés ROC et PR de IEDTI et DEDTI pour tous les rapports 1:1, 1:3 et 1:5. Il convient de mentionner que la même chose se produit pour les méthodes IEDTI et DEDTI pour le rapport de 1:10.

Courbes PR et ROC de différents taux d'échantillonnage à partir de l'ensemble de données DTINet.

Les représentations t-NSE des médicaments et des cibles dans l'ensemble de données DTINet. Les figures de gauche montrent les représentations des médicaments et des cibles après application des k-means. Comme le montrent les chiffres, les classes n'ont pas été complètement disjointes ; cependant, en appliquant les modules triplet, les médicaments et les cibles sont complètement disjoints (figures de droite).

Nous appliquons le DEDTI, IMCHGAN, AutoDTI++ et IRNMF sur des ensembles de données de référence31 (Enzyme, Ion Channel, GPCR et Nuclear Receptor datasets). Leurs diagrammes à barres AUC-ROC et AUPR sont présentés à la Fig. 5. Comme le montrent les résultats, IMCHGAN et DEDTI ont une concurrence serrée sur les ensembles de données de référence. Alors que l'IMCHGAN a l'AUC-ROC le plus élevé dans les GPCR et les récepteurs nucléaires, le DEDTI a l'AUC-ROC le plus élevé dans les ensembles de données Enzyme et Ion Channel. De plus, le diagramme à barres montre que le DEDTI a l'AUPR le plus élevé dans trois des quatre benchmarks. De plus, le tableau 4 présente la comparaison de DEDTI, TransDTI, MolTrans, TransforerCPI, DeepConvDTI et DeepDTA sur des ensembles de données de référence. Le DEDTI est vainqueur dans tous les cas sauf deux.

Comparaison des performances entre DEDTI avec IRNMF, AutoDTI++ et IMCHGAN sur les ensembles de données de référence31. Graphiques à barres AUC-ROC et AUPR.

Notre modèle utilise les informations provenant des similitudes cumulatives pour prédire les nouvelles interactions entre les médicaments et les cibles (Données supplémentaires 1). Nous avons sélectionné les DTI avec un score de prédiction d'au moins 0,9 comme suggestions les mieux classées de DEDTI. Parmi les 126 prédictions les mieux classées (Fig. 6), nous avons découvert que beaucoup d'entre elles sont vérifiables avec des preuves scientifiques issues de la littérature. Par exemple, notre liste de prédiction montre l'interaction entre le fentanyl et le récepteur de la dopamine D2 (DRD2), et cette prédiction peut être étayée par des études antérieures42.

Cependant, parmi la liste des 126 meilleures prédictions de DEDTI, il existe de nouvelles interactions avec moins d'attention dans la littérature. Par exemple, deux de ces interactions sont la tétrabénazine-récepteur d'adénosine A1 (ADORA1) et la chlorzoxazone-prostaglandine-endoperoxyde synthase 2 (PTGS2). Le récepteur A1 de l'adénosine ainsi que quatre autres récepteurs forment un sous-groupe défini de récepteurs couplés aux protéines G43. Cette protéine est répartie dans tout le corps humain et régule la fonction rénale44. De plus, des études récentes montrent que l'inactivation d'ADORA1 dans les lignées cellulaires de mélanome humain supprime de manière significative la prolifération cellulaire, et cette suppression conduit à un effet antitumoral45. Bien que, selon la base de données KEGG46, il existe 25 médicaments approuvés affectant ADORA1, le médicament prédit par le DEDTI (tétrabénazine) n'est pas mentionné dans cette liste. La tétrabénazine est connue comme un agent appauvrissant la dopamine développé pour le traitement de la schizophrénie. De plus, de nombreuses études ont démontré que ce médicament pouvait être efficace dans le traitement des troubles psychotiques et des troubles du mouvement hyperkinétique47. La prostaglandine-endoperoxyde synthase 2 (PTGS2), également connue sous le nom de cyclooxygénase 2 (COX-2), est responsable de la production de prostaglandines et contribue au début de la grossesse48. De plus, de nombreuses études ont été rapportées sur le rôle de PTGS2 dans la pathogenèse de nombreuses maladies, telles que l'inflammation, le cancer cardiovasculaire, gastro-intestinal et colorectal49. Les anti-inflammatoires non stéroïdiens (AINS) sont couramment utilisés comme inhibiteurs de cette enzyme50. La chlorzoxazone est un relaxant musculaire approuvé par la FDA, qui a également été prédit par le DEDTI comme un médicament potentiel pour interagir avec le PTGS2. Malgré la disponibilité de médicaments approuvés pour ces deux cibles susmentionnées, l'identification d'un nouveau médicament à partir de médicaments approuvés existants est toujours considérable. Par conséquent, il serait fascinant de vérifier si les interactions prédites entre ces deux médicaments et cibles peuvent être davantage validées.

Des études d'amarrage moléculaire ont été réalisées pour analyser les interactions possibles entre la chlorzoxazone et la tétrabénazine complexée avec PTGS2 et ADORA1, respectivement. Les conformations obtenues ont été regroupées en fonction des similitudes conformationnelles et de l'écart de position quadratique moyen (RMSD)51. Ensuite, la meilleure pose avec l'énergie de liaison la plus faible (\(\Delta G\)) a été sélectionnée pour chaque cible. Dans le but d'étudier les forces d'interaction intermoléculaires, les résultats d'amarrage ont été visualisés à l'aide de Biovia Discovery Studio Visualizer52. Les énergies libres de liaison de la chlorzoxazone et de la tétrabénazine complexées avec PTGS2 et ADORA1 sont présentées dans le tableau 5. Les deux médicaments prédits se lient à leur cible avec des affinités de liaison acceptables et dans une position correcte. La chlorzoxazone se lie à PTGS2 en formant une liaison hydrogène avec Ser 530 et d'autres interactions avec Val 523, Leu352, Phe 518, Met 522, Gly 526, Lue 384, Phe 381, Tyr 385, Trp 387, Ala 527, Val 349 et Ser 353. La figure 7 montre ses représentations 3D et 2D. Comme le montre la figure 8, le complexe tétrabénazine-ADORA1 est formé par un intermédiaire d'une interaction hydrogène entre le médicament et Asn 1359. De plus, d'autres acides aminés tels que Ala 1171, Ile 1174, Tyr 1376, Tyr 1117, Phe 1276, Val 1192 et Leu 1355 ont également été impliqués dans la formation de ce complexe médicament-protéine.

Visualisation des 126 principaux DTI prédits par DEDTI. Les cibles sont indiquées dans des cercles verts et les médicaments sont indiqués dans des cases roses. Les nouvelles interactions médicament-cible sont marquées par des bords noirs.

Représentations 2D et 3D de la pose ancrée pour l'interaction prédite entre la chlorzoxazone et le PTGS2. Les liaisons hydrogène sont représentées par les lignes pointillées vertes.

Représentations 2D et 3D de la pose ancrée pour l'interaction prédite entre la tétrabénazine et ADORA1. Les liaisons hydrogène sont représentées par les lignes pointillées vertes.

Nous avons effectué le test t avec un niveau d'erreur de \(5\%\) pour vérifier la signification des différences de résultats sur trois méthodes d'IEDTI, DEDTI et IMCHGAN sur tous les ensembles de données. Nous rapportons ici les résultats sur DTI avec un taux d'échantillonnage négatif de 1: 1, DTI avec un taux d'échantillonnage négatif de 1: 3 et tous les ensembles de données de référence. Dans tous les cas, l'analyse statistique était inférieure au niveau d'erreur, sauf dans le cas de la comparaison de DEDTI et IMCHGAN sur l'ensemble de données DTI avec un taux d'échantillonnage négatif de 1:1. En d'autres termes, dans tous les cas, DEDTI est significativement meilleur que les autres méthodes. L'exception se produit pour le rapport 1: 3, dans lequel le DEDTI et l'IMCHGAN fonctionnent de manière égale. Le tableau 6 montre les résultats de la valeur p.

Nous avons introduit deux méthodes, IEDTI et DEDTI, qui ont toutes deux besoin des interactions médicament-cible non pas comme informations sur les caractéristiques d'entrée, mais comme étiquettes pour la prédiction des DTI. En d'autres termes, nos méthodes sont inductives, ce qui contraste avec NeoDTI20. NeoDTI utilise des informations sur les cibles médicamenteuses dans l'espace des caractéristiques, ce qui est assez courant dans les méthodes de réseau neuronal graphique. Plus important encore, les échantillons d'entraînement et de test sont visibles dans la phase d'apprentissage de la méthode, ce qui rend cette méthode transductive. Les méthodes transductives ne conviennent pas à la prédiction.

IEDTI et DEDTI utilisent des modules DNN pour leurs missions. le premier utilise trois modules (deux pour la production d'incorporations et un pour la prédiction et le dernier utilise un module (le module de prédiction). Outre le nombre de modules, les deux ont une complexité de calcul inférieure par rapport aux méthodes de pointe, par exemple, HIDTI, NeoDTI et IMCHGAN.

D'autre part, IEDTI, comme les méthodes de la littérature telles que NeoDTI et HIDTI, tire parti de la transformation de l'espace des caractéristiques d'origine en un nouvel espace d'intégration correspondant. Il vise à avoir une représentation significative des données et une charge de calcul inférieure pour la prédiction. Nous montrons cela dans l'analyse de complexité dans la section Méthode. Cependant, ces transformations dépendent de la méthode de conversion et des données étiquetées. Dans de nombreux cas, le regroupement de données ne renvoie pas une valeur appropriée. DEDTI présente que des méthodes plus simples sans la surcharge supplémentaire liée à l'intégration de la conversion sont plus performantes dans la prédiction DTI. Il est nécessaire d'avoir de meilleures méthodes pour intégrer les conversions.

De plus, les méthodes doivent être inductives pour pouvoir prédire les DTI. Basée sur le rasoir d'Occam, la méthode la plus simple est le meilleur choix pour les données. Encore une fois DEDTI donne une représentation perspicace de cette idée. Informations pour le DTI, c'est-à-dire interactions médicament-cible, interaction médicament-médicament, similarité médicament-médicament, associations médicament-effets secondaires, associations médicament-maladie, interactions cible-cible, interactions cible-maladie, similitudes des cibles. Une autre observation importante de ce travail est les avantages de résumer des matrices similaires au lieu de les concaténer. La conversion des matrices d'informations en matrices de similarité rend leur dimension égale, et cette conversion offre la possibilité de faire la somme des informations.

La sommation des matrices de similarité a un espace de caractéristiques plus petit que la concaténation. Par exemple, chaque vecteur de médicament a une taille de 708 par rapport à d'autres méthodes avec une longueur de vecteur de caractéristiques supérieure à des milliers. De plus, l'espace de caractéristiques concis évite la représentation clairsemée des vecteurs de caractéristiques. En d'autres termes, chaque échantillon de drogue a une représentation plus dense, ce qui les rend plus significatifs.

La représentation plus dense est une autre raison pour laquelle DEDTI a les meilleures performances dans toutes les méthodes. Notamment, en plus du réseau de prédiction profonde, DEDTI inclut les vecteurs de similarité résumés comme représentation caractéristique à la fois du médicament et de la cible. L'amélioration de la méthode d'intégration des caractéristiques et l'amélioration de la méthode inductive et prédictive sont des élixirs de prédiction DTI.

Les ensembles de données générés et/ou analysés au cours de la présente étude sont disponibles dans le référentiel IEDTI-DEDTI, github.com/BioinformaticsIASBS/IEDTI-DEDTI.

Li, J. et al. Une enquête sur les tendances actuelles du repositionnement informatique des médicaments. Bref. Bioinformer. 17, 2–12 (2016).

Google Scholar PubMed

Truong, TT, Panizzutti, B., Kim, JH & Walder, K. Réutilisation des médicaments via l'analyse de réseau : Opportunités pour les troubles psychiatriques. Pharmaceutique 14, 1464 (2022).

PubMed PubMed Central Google Scholar

Dick, K. et al. La perspective réciproque en tant que super apprenant améliore la prédiction de l'interaction médicament-cible (musdti). Sci. Rép. 12, 1–19 (2022).

Google Scholar

Ezzat, A., Wu, M., Li, X.-L. & Kwoh, C.-K. Prédiction informatique des interactions médicament-cible à l'aide d'approches chimiogénomiques : une enquête empirique. Bref. Bioinformer. 20, 1337–1357 (2019).

CAS PubMed Google Scholar

Najm, M., Azencott, C.-A., Playe, B. et Stoven, V. Identification de cibles médicamenteuses avec apprentissage automatique : comment choisir des exemples négatifs. Int. J. Mol. Sci. 22, 5118 (2021).

PubMed PubMed Central Google Scholar

Kaushik, AC, Mehmood, A., Dai, X. & Wei, D.-Q. Une analyse chimiogénique comparative pour prédire la paire médicament-cible via des approches d'apprentissage automatique. Sci. Rép. 10, 1–11 (2020).

Google Scholar

Jacob, L. & Vert, J.-P. Prédiction de l'interaction protéine-ligand : une approche chimiogénomique améliorée. Bioinformatique 24, 2149-2156 (2008).

CAS PubMed PubMed Central Google Scholar

Hu, L. et al. Sselm-neg : machine d'apprentissage extrême basée sur la recherche sphérique pour la prédiction de l'interaction médicament-cible. BMC Bioinformatique 24, 38 (2023).

CAS PubMed PubMed Central Google Scholar

Mongia, A. & Majumdar, A. Prédiction de l'interaction médicament-cible à l'aide de la minimisation de la norme nucléaire régularisée multi-graphes. Plos One 15, e0226484 (2020).

CAS PubMed PubMed Central Google Scholar

Zhou, J., Li, Y., Huang, W., Shi, W. & Qian, H. Source et exploration des peptides utilisés pour construire des conjugués peptide-médicament. EUR. J. Med. Chim. 224, 113712 (2021).

CAS PubMed Google Scholar

Luo, Y. et al. Une approche d'intégration de réseau pour la prédiction de l'interaction médicament-cible et le repositionnement informatique des médicaments à partir d'informations hétérogènes. Nat. Commun. 8, 1–13 (2017).

Annonces Google Scholar

Caron, PR et al. Approches chimiogénomiques de la découverte de médicaments. Courant. Avis. Chim. Biol. 5, 464–470 (2001).

CAS PubMed Google Scholar

Playe, B. & Stoven, V. Évaluation des méthodes d'apprentissage profond et superficiel en chimiogénomique pour la prédiction de la spécificité des médicaments. J. Cheminform. 12, 11 (2020).

PubMed PubMed Central Google Scholar

Sawada, R., Kotera, M. et Yamanishi, Y. Analyse comparative d'un large éventail de descripteurs chimiques pour la prédiction de l'interaction médicament-cible à l'aide d'une approche chimiogénomique. Mol. Informer. 33, 719-731 (2014).

CAS PubMed Google Scholar

Sharma, A. & Rani, R. Une revue systématique des applications de l'apprentissage automatique dans la prédiction et le diagnostic du cancer. Cambre. Calcul. Méthodes Ing. 28, 4875–4896 (2021).

Google Scholar

Tang, X. et al. Indicateur régularisé méthode de factorisation matricielle non négative basée sur la réutilisation des médicaments pour covid-19. Devant. Immunol. 11, 603615. https://doi.org/10.3389/fimmu.2020.603615 (2021).

CAS PubMed PubMed Central Google Scholar

Güvenç Paltun, B., Mamitsuka, H. & Kaski, S. Améliorer la prédiction de la réponse aux médicaments en intégrant plusieurs sources de données : factorisation matricielle, approches basées sur le noyau et le réseau. Bref. Bioinformer. 22, 346–359 (2021).

Google Scholar PubMed

Picard, M., Scott-Boyer, M.-P., Bodein, A., Périn, O. & Droit, A. Stratégies d'intégration de données multi-omiques pour l'analyse d'apprentissage automatique. Calcul. Structure. Biotechnol. J. 19, 3735–3746 (2021).

CAS PubMed PubMed Central Google Scholar

Hashemi, SM, Zabihian, A., Hooshmand, M. & Gharaghani, S. Draw : Prédiction des antiviraux covid-19 par apprentissage en profondeur - une objection à l'utilisation de la factorisation matricielle. BMC Bioinform. 24, 52 (2023).

Google Scholar

Wan, F., Hong, L., Xiao, A., Jiang, T. & Zeng, J. Neodti : Intégration neuronale des informations voisines d'un réseau hétérogène pour découvrir de nouvelles interactions médicament-cible. Bioinformatique 35, 104-111 (2019).

CAS PubMed Google Scholar

Sajadi, SZ, Zare Chahooki, MA, Gharaghani, S. & Abbasi, K. Autodti++ : Apprentissage profond non supervisé pour la prédiction dti par les auto-encodeurs. BMC Bioinform. 22, 1–19 (2021).

Soh, J., Park, S. & Lee, H. Hidti : Intégration d'informations hétérogènes pour prédire les interactions médicament-cible. Sci. Rép. 12, 1–12 (2022).

Google Scholar

Huang, K., Xiao, C., Glass, LM & Sun, J. MolTrans : Transformateur d'interaction moléculaire pour la prédiction de l'interaction médicament-cible. Bioinformatique 37, 830–836 (2021).

CAS PubMed Google Scholar

Kalakoti, Y., Yadav, S. & Sundar, D. TransDTI : modèles de langage basés sur des transformateurs pour estimer les DTI et créer un flux de travail de recommandation de médicaments. ACS Oméga 7, 2706–2717 (2022).

CAS PubMed PubMed Central Google Scholar

Sénior, AW et al. Amélioration de la prédiction de la structure des protéines à l'aide des potentiels de l'apprentissage en profondeur. Nature 577, 706–710. https://doi.org/10.1038/s41586-019-1923-7 (2020).

ADS CAS PubMed Google Scholar

Knox, C. et al. Drugbank 3.0 : Une ressource complète pour la recherche « omiques » sur les médicaments. Nucleic Acids Res. 39, D1035–D1041 (2010).

PubMed PubMed Central Google Scholar

Keshava Prasad, T. et al. Mise à jour 2009 de la base de données de référence sur les protéines humaines. Nucleic Acids Res. 37, D767–D772 (2009).

CAS PubMed Google Scholar

Davis, AP et al. La base de données de toxicogénomique comparative : Mise à jour 2013. Nucleic Acids Res. 41, D1104–D1114 (2013).

ADS CAS PubMed Google Scholar

Kuhn, M., Campillos, M., Letunic, I., Jensen, LJ & Bork, P. Une ressource sur les effets secondaires pour capturer les effets phénotypiques des médicaments. Mol. Syst. Biol. 6, 343 (2010).

PubMed PubMed Central Google Scholar

Xuan, P., Chen, B., Zhang, T. et al. Prédiction des interactions médicament-cible basée sur l'apprentissage de la représentation de réseau et l'apprentissage d'ensemble. Dans IEEE/ACM Transactions on Computational Biology and Bioinformatics (2020).

Yamanishi, Y., Araki, M., Gutteridge, A., Honda, W. et Kanehisa, M. Prédiction des réseaux d'interaction médicament-cible à partir de l'intégration des espaces chimiques et génomiques. Bioinformatique 24, i232–i240 (2008).

CAS PubMed PubMed Central Google Scholar

Han, J. & Kamber, M. Exploration de données : concepts et techniques. Morgan Kaufmann 340, 94104-3205 (2006).

MATH Google Scholar

Yuan, S.-T. & Sun, J. Similitude cosinus structurée basée sur l'ontologie dans le résumé des documents vocaux. Dans IEEE/WIC/ACM International Conference on Web Intelligence (WI'04), 508–513 (IEEE, 2004).

Singh, RH, Maurya, S., Tripathi, T., Narula, T. & Srivastav, G. Système de recommandation de film utilisant la similarité cosinus et knn. Int. J.Eng. Adv. Technol. 9, 556–559 (2020).

Google Scholar

Bordes, A., Usunier, N., Garcia-Duran, A., Weston, J. & Yakhnenko, O. Traduction d'intégrations pour la modélisation de données multi-relationnelles. Adv. Information neuronale. Processus. Syst. 26 (2013).

Chicco, D. & Jurman, G. Les avantages du coefficient de corrélation de Matthews (mcc) sur le score f1 et la précision dans l'évaluation de la classification binaire. BMC Génom. 21, 6. https://doi.org/10.1186/s12864-019-6413-7 (2020).

Google Scholar

Berman, HM et al. La banque de données sur les protéines. Nucleic Acids Res. 28, 235–242. https://doi.org/10.1093/nar/28.1.235 (2000).

ADS CAS PubMed PubMed Central Google Scholar

Kim, S. et al. PubChem en 2021 : nouveau contenu de données et interfaces Web améliorées. Nucleic Acids Res. 49, D1388–D1395. https://doi.org/10.1093/nar/gkaa971 (2020).

CAS PubMed Central Google Scholar

Guex, N. & Peitsch, MC SWISS-MODEL et Swiss-PdbViewer : un environnement pour la modélisation comparative des protéines. Électrophorèse 18, 2714-2723 (1997).

CAS PubMed Google Scholar

Laskowski, RA & Swindells, MB Ligplot+ : plusieurs diagrammes d'interaction ligand-protéine pour la découverte de médicaments. J. Chem. Inf. Modèle. 51, 2778–2786. https://doi.org/10.1021/CI200227U (2011).

CAS PubMed Google Scholar

Li, J., Wang, J., Lv, H., Zhang, Z. & Wang, Z. IMCHGAN : complétion de matrice inductive avec des réseaux d'attention de graphes hétérogènes pour la prédiction des interactions médicament-cible. IEEE/ACM Trans. Calcul. Biol. Bioinformer. 19, 655–665 (2022).

CAS PubMed Google Scholar

Lipiński, PFJ & Matalińska, J. Structure du fentanyl comme échafaudage pour les analgésiques multicibles opioïdes/non opioïdes. Int. J. Mol. Sci. 23, https://doi.org/10.3390/ijms23052766 (2022).

Fredholm, BB Récepteurs de l'adénosine comme cibles médicamenteuses. Exp. Cell Res. 316, 1284-1288 (2010).

CAS PubMed PubMed Central Google Scholar

Hocher, B. Antagonistes des récepteurs de l'adénosine A1 dans la recherche et le développement cliniques. Rein Int. 78, 438–445 (2010).

CAS PubMed Google Scholar

Liu, H. et al. L'inhibition d'Adora1 favorise l'évasion immunitaire de la tumeur en régulant l'axe atf3-pd-l1. Cellule cancéreuse 37, 324-339.e8. https://doi.org/10.1016/j.ccell.2020.02.006 (2020).

CAS PubMed Google Scholar

Kanehisa, M. & Goto, S. Kegg : Encyclopédie de Kyoto des gènes et des génomes. Nucleic Acids Res. 28, 27-30 (2000).

CAS PubMed PubMed Central Google Scholar

Kenney, C. & Jankovic, J. Tetrabenazine dans le traitement des troubles du mouvement hyperkinétique. Expert Rev. Neurother. 6, 7-17 (2006).

CAS PubMed Google Scholar

Anamthathmakula, P. & Winuthayanon, W. Prostaglandine-endoperoxyde synthase 2 (PTGS2) dans l'oviducte : rôles dans la fécondation et le développement précoce de l'embryon. Endocrinologie 162 (2021).

Jaén, RI, Prieto, P., Casado, M., Martín-Sanz, P. & Boscá, L. Modifications post-traductionnelles de la prostaglandine-endoperoxyde synthase 2 dans le cancer colorectal : Une mise à jour. Monde J. Gastroenterol. 24, 5454–5461 (2018).

PubMed PubMed Central Google Scholar

Rao, PP & Knaus, EE Evolution des anti-inflammatoires non stéroïdiens (AINS) : inhibition de la cyclooxygénase (cox) et au-delà. J.Pharm. Pharm. Sci. Publication Can. Soc. Pharm. Sci. Société canadienne des sciences pharmaceutiques 11(2), 81s–110s (2008).

Google Scholar

Iman, M., Saadabadi, A. & Davood, A. (2013). Études d'amarrage du pharmacophore du phtalimide en tant que bloqueur des canaux sodiques. L'Iran. J. Basic Med. Sci. 16, 1016-1021. https://doi.org/10.22038/ijbms.2013.1684

Systèmes, D. Biovia, Discovery Studio Visualizer, Release 2019 (Dassault Systèmes, San Diego, 2020).

Google Scholar

Télécharger les références

Les auteurs tiennent à remercier Alireza Abdi pour son aide dans la préparation de l'analyse du test.

Laboratoire de bioinformatique et de conception de médicaments (LBD), Institut de biochimie et de biophysique, Université de Téhéran, Téhéran, Iran

Arash Zabihian & Sajjad Gharaghani

Département d'informatique et de technologie de l'information, Institut d'études avancées en sciences fondamentales (IASBS), Zanjan, Iran

Faeze Zakaryapour Sayyad, Seyyed Morteza Hashemi, Reza Shami Tanha & Mohsen Hooshmand

Département de bioinformatique, Campus international de Kish, Université de Téhéran, Kish, Iran

Arash Zabihian

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

AZ, MH et FZS ont conceptualisé l'idée. FZS et SMH ont mis en œuvre les méthodes et préparé les résultats. RS a mis à jour et préparé la méthode IMCHGAN. AZ, MH et FZS ont rédigé l'article. MH, AZ, FZS et SG ont révisé le manuscrit.

Correspondance à Mohsen Hooshmand ou Sajjad Gharaghani.

Les auteurs ne déclarent aucun intérêt concurrent.

Springer Nature reste neutre en ce qui concerne les revendications juridictionnelles dans les cartes publiées et les affiliations institutionnelles.

Libre accès Cet article est sous licence Creative Commons Attribution 4.0 International, qui autorise l'utilisation, le partage, l'adaptation, la distribution et la reproduction sur tout support ou format, à condition que vous accordiez le crédit approprié à l'auteur ou aux auteurs originaux et à la source, fournissez un lien vers la licence Creative Commons et indiquez si des modifications ont été apportées. Les images ou tout autre matériel de tiers dans cet article sont inclus dans la licence Creative Commons de l'article, sauf indication contraire dans une ligne de crédit au matériel. Si le matériel n'est pas inclus dans la licence Creative Commons de l'article et que votre utilisation prévue n'est pas autorisée par la réglementation légale ou dépasse l'utilisation autorisée, vous devrez obtenir l'autorisation directement du détenteur des droits d'auteur. Pour voir une copie de cette licence, visitez http://creativecommons.org/licenses/by/4.0/.

Réimpressions et autorisations

Zabihian, A., Sayyad, FZ, Hashemi, SM et al. DEDTI versus IEDTI : modèles efficaces et prédictifs des interactions médicament-cible. Sci Rep 13, 9238 (2023). https://doi.org/10.1038/s41598-023-36438-0

Télécharger la citation

Reçu : 27 février 2023

Accepté : 03 juin 2023

Publié: 07 juin 2023

DOI : https://doi.org/10.1038/s41598-023-36438-0

Toute personne avec qui vous partagez le lien suivant pourra lire ce contenu :

Désolé, aucun lien partageable n'est actuellement disponible pour cet article.

Fourni par l'initiative de partage de contenu Springer Nature SharedIt

En soumettant un commentaire, vous acceptez de respecter nos conditions d'utilisation et nos directives communautaires. Si vous trouvez quelque chose d'abusif ou qui ne respecte pas nos conditions ou directives, veuillez le signaler comme inapproprié.