banner
Centre d'Information
Notre objectif est d'améliorer continuellement nos techniques et notre qualité pour répondre à vos besoins.

Prédiction d'agents de guerre chimique basée sur des méta de type réseau cholinergique

Jul 13, 2023

Rapports scientifiques volume 12, Numéro d'article : 16709 (2022) Citer cet article

1459 accès

Détails des métriques

Les connaissances moléculaires sur la sécurité chimique sont très importantes pour le développement durable ainsi que pour l'évaluation des risques. Cette étude examine comment gérer les futurs agents nocifs à venir, en particulier les agents de guerre chimique potentiellement cholinergiques (CWA). A cette fin, les structures d'agents cholinergiques connus ont été codées par des descripteurs moléculaires. Ensuite, chaque interaction médicament-cible (DTI) a été apprise à partir des structures codées et de leurs activités cholinergiques pour construire des modèles de classification DTI pour cinq cibles cholinergiques avec une validation statistique fiable (ensemble-AUC : jusqu'à 0,790, MCC : jusqu'à 0,991, précision : jusqu'à à 0,995). Les classificateurs collectés ont été transformés en méta-prédicteurs de type tableau 2D ou 3D pour le multitâche : (1) prédiction cholinergique et (2) détection CWA. La capacité de détection des classificateurs matriciels a été vérifiée dans l'ensemble de données déséquilibré entre les CWA et aucun CWA (aire sous la courbe précision-rappel : jusqu'à 0,997, MCC : jusqu'à 0,638, score F1 d'aucun CWA : jusqu'à 0,991, F1- score des CWA : jusqu'à 0,585).

Les agents de guerre chimique (CWA) et les produits chimiques dangereux menacent la sécurité chimique1,2. Avant la convention sur les armes chimiques, les CWA ont été intentionnellement inventés et synthétisés pour les opérations militaires. De nos jours, on s'inquiète des inventions CWA non intentionnelles ainsi que de leurs accidents inattendus par (1) la chimie de synthèse liée aux CWA connus (par exemple, les dérivés organophosphorés)2,3 ou (2) les chimies pour les médicaments thérapeutiques (par exemple, le code BZ attribué par l'OTAN) et drogues illicites4. Des terreurs en série telles que Sarin au Japon en 1994, VX en Malaisie en 2017 et Novichok (agent non déclaré) en Syrie en 2018, font des craintes concernant les armes chimiques des craintes réalisables5. De plus, certains produits chimiques nocifs (comme le montre la figure 1) n'étaient pas inscrits sur la liste CWA des organisations pour l'interdiction des armes chimiques (OIAC) mais ont entraîné des victimes dévastatrices, et les tragédies se poursuivent : (1) l'éthoxyéthyl guanidinium (PGH)/polyhexaméthylène guanidine (PHMG), ingrédients des stérilisateurs Reckitt Benckiser, qui ont entraîné la mort de bébés et de femmes enceintes en Corée du Sud6,7, et (2) TCDD, une trace d'impureté de l'agent orange (herbicide et défoliant chimique). ) pendant la guerre du Vietnam, qui a favorisé la transmission épigénétique transgénérationnelle des maladies8,9.

Les menaces chimiques comprennent les agents de guerre chimique (CWA) auxquels ont été attribués des codes OTAN, les stimulants CWA, les nouvelles substances psychoactives (NPS) et les dangers chimiques tels que le PHMG (stérilisateur) et le TCDD.

Pour la sécurité chimique, les humains ont mis en place des réglementations ou des systèmes pour contrôler le risque résultant des produits chimiques nocifs10,11,12. Avec de tels systèmes, la détection d'agents dangereux ou leurs technologies de détoxification ont été continuellement développées13,14,15,16. Malgré l'histoire, le taux à venir d'agents nocifs est plus rapide que le taux pour faire une réglementation ou une technologie de détection. Par exemple, plus de 450 nouvelles substances psychoactives (NPS) ou drogues de synthèse, conçues pour imiter les effets pharmacologiques de drogues illégales connues, pourraient éviter une réglementation des drogues illégales et/ou une détection dans les tests de dépistage de drogue standard, ont été surveillées de 2014 à 201717,18,19. Durant ces périodes, tout système de sécurité ne pouvait contrôler convenablement et à temps les NPS : leur identification et détection, évaluation de leur toxicité, et mise en place d'une réglementation20. Naturellement, les dangers chimiques ou les substances toxiques non définis dans un système ne peuvent être prévenus, reconnus ou contrôlés21. Ainsi, les produits chimiques nocifs et dangereux "qui n'existent pas encore mais qui sont à venir (produits chimiques NE)" doivent être prédéfinis à l'avance pour l'évaluation des risques. Cependant, la prédiction de « non-existant » est vague et indéfinie. Heureusement, lorsqu'une machine apprend les structures et les propriétés de produits chimiques nocifs connus et analyse leurs relations, la relation apprise peut théoriquement suggérer un modèle de produits chimiques NE22. En d'autres termes, une partie de l'espace dangereux et toxique peut être définie en utilisant des caractéristiques moléculaires (variables) de produits chimiques connus (Fig. 2). Comme « espace chimique » signifie qui englobe toutes les petites molécules possibles23, un espace dangereux et toxique signifie qui englobe tous les produits chimiques dangereux et toxiques possibles et a été nommé. De manière plus souhaitable, si la définition est idéalement réalisée, elle peut être utilisée pour une réglementation préventive. Avec cette considération, nous avons essayé de définir une partie de l'espace dangereux et toxique en utilisant des méta-prédicteurs cholinergiques. Dans cette étude, l'espace des agents pan-cholinergiques est a priori défini par leurs structures moléculaires, puis le schéma cholinergique des agents neurotoxiques en tant que CWA dans l'espace est appris par un réseau de neurones convolutifs (CNN). Le premier est la génération de méta-prédicteurs cholinergiques et le second est la détection CWA basée sur les méta-prédicteurs.

Présentation conceptuelle de l'espace dangereux et toxique et caractérisation moléculaire des produits chimiques dans l'espace.

Pour un modèle prédictif, les variables prédictives et les variables dépendantes sont généralement choisies (ou sélectionnées après manipulation) à partir de variables de données brutes. Cependant, il n'y avait pas d'information commune entre les CWA et les agents cholinergiques connus, et un indice de toxicité était rarement disponible1,2,16,24. Les données disponibles sur les agents cholinergiques étaient leurs structures et leurs activités cholinergiques (Fig. 3 et Tableau S1). Pendant ce temps, la seule information commune connue sur les CWA et les agents nocifs était la structure moléculaire. Comme prévu, le lien entre les CWA et les données cholinergiques n'a produit aucune variable commune. Ainsi, un problème pratique était de savoir comment créer un descripteur unifié (variable prédictive) des produits chimiques à partir des données limitées. Pour définir un descripteur unifié, une propriété importante des agents dangereux et toxiques est leur profil de toxicité, ainsi que la mécanique moléculaire, pour conduire à la délivrance de la toxicité. Notamment, le mécanisme en profondeur de la toxicité respective n'est pas clair pour la plupart des agents et est différent les uns des autres. Dans les CWA, alors que certains agents neurotoxiques présentent une congénéricité structurelle élevée, la structure du benzilate de 3-quinuclidinyle (code OTAN : BZ) est très différente de celles des autres CWA et constitue une aberration dans les structures chimiques des CWA. Heureusement, les agents neurotoxiques présentent des mécanismes relativement plus cohérents basés sur l'acétylcholinestérase (AChE) plutôt que sur d'autres CWA tels que les agents vésicants, les asphyxiants, les agents d'étouffement (endommageant les poumons), les agents incapacitants, les agents lacrymogènes et les agents de vomissement1,2,25,26. Il est bien connu que les agents neurotoxiques et les organophosphorés inhibent l'AChE au niveau des synapses cholinergiques, inhibant ainsi la dégradation de l'acétylcholine (Fig. 3A). L'accumulation de l'acétylcholine libérée provoque une surstimulation des organes cibles, qui est reconnue comme une crise cholinergique1.

Description de l'espace cholinergique dans cette étude. (A) L'emplacement et les rôles des cibles cholinergiques dans le système nerveux. (B) Collecte de données d'agents cholinergiques à partir de la base de données ChEMBL. Tous les agents ont été extraits à l'aide de cibles cholinergiques respectives en tant que requêtes MySQL. récepteur nicotinique de l'acétylcholinestérase nAChR, récepteur muscarinique de l'acétylcholinestérase mAChR, transporteur vésiculaire de l'acétylcholine VAChT, acétylcholinestérase AChE, butyrylcholinestérase BuChE.

Ainsi, les connaissances limitées nous ont motivés à étudier les espaces dangereux et toxiques en termes de leurs effets cholinergiques sur le système nerveux (de la Fig. 3). Notamment, l'objectif de cette étude n'était pas seulement la prédiction DTI cholinergique de produits chimiques individuels, mais également la détection de CWA à partir de produits chimiques NE en utilisant des schémas cholinergiques de produits chimiques connus. À cette fin, nous avons conçu un méta-prédicteur pour décrire les modèles en utilisant la relation structure-activité (SAR) des agents cholinergiques (Fig. 4). À notre connaissance, avant cette étude, les études de méta-prédicteur ou de méta-apprentissage des données bio-/chimio-informatiques (1) utilisent des méthodes homogènes de manière itérative27, (2) ajustent explicitement les poids des prédicteurs d'éléments28,29, ou (3) linéairement combiner les prédicteurs d'éléments29. Plus particulièrement, alors que ces études connues utilisaient le même ensemble de données pour former à la fois les prédicteurs et les méta-prédicteurs, cette étude a utilisé deux ensembles de données hétérogènes (données cholinergiques dans ChEMBL pour les prédicteurs et CWA/NPS hors ChEMBL pour les méta-prédicteurs). Nous avons conçu notre méta-prédicteur comme indiqué dans les équations ci-dessous. Alors qu'un prédicteur, \(f\) (de l'équation 1) utilisait des données et des paramètres comme entrée, un méta-prédicteur, \(g\) utilisait également des prédicteurs d'éléments, \(f_{ij}^{{T^{\ prime}}}\) dans un tableau en forme de \(\left[ {i \times j} \right]\). Ainsi, les auteurs les ont appelés « méta-prédicteurs ».

Conception d'un méta-prédicteur pour le multitâche et le workflow de données. Flèche bleu ciel pâle : flux de données pour la construction de modèles DTI cholinergiques, flèche bleue : flux de données pour la construction d'un classificateur de tableau, flèche jaune : le flux de données à venir pour le multitâche. Liste de modèles = [M1, M2, …, M20], liste cible = [T1, T2, T3, T4, T5], liste ML = [ML1, ML2, ML3, ML4], liste de départ = [S1, S2, … , S10], liste composée = [C11, C12, …, C21, …, Cij], et liste de valeurs des prédicteurs = [1, 2].

Pratiquement, tout d'abord, les activités biochimiques des agents cholinergiques ont été intégrées avec les descripteurs moléculaires d'une machine pour apprendre le SAR. Deuxièmement, les données d'activité expérimentale de ChEMBL (une base de données publique) ont discipliné les machines pour juger de la relation entre les cinq cibles cholinergiques et les produits chimiques, appelée interaction médicament-cible (DTI). Les modèles DTI formés de la Fig. 4 (200 classificateurs de quatre types de machines, dix données divisées différemment et cinq cibles) ont été validés en interne et en externe pour élucider les schémas cholinergiques binomiaux (actif/inactif) d'un produit chimique. Troisièmement, les schémas cholinergiques des CWA et NPS connus en tant qu'agents nocifs ont été prédits par les 200 classificateurs binaires, et les valeurs prédites ont été transformées en données de type tableau, comme illustré à la Fig. 4. Enfin, les données de tableau prédites ont été utilisées comme méta- prédicteurs pour construire le modèle de détection CWA. Même si les modèles cholinergiques réels de ces produits chimiques nocifs sont inconnus, une approche chimiocentrique nous a permis de déduire le modèle. L'approche chimiocentrique signifie que si deux molécules similaires sont susceptibles de posséder des propriétés similaires, elles peuvent partager des cibles biologiques ou présenter des profils pharmacologiques similaires30,31,32,33,34,35. Notamment, cette étude n'a utilisé que deux types de données réelles : les structures chimiques de tous les produits chimiques (ChEMBL, CWA et NPS) et les activités cholinergiques des produits chimiques ChEMBL (Fig. 3B).

Pour réaliser le méta-prédicteur conçu, deux types d'empreintes moléculaires 2D (FCFP, ECFP) ont capturé les structures moléculaires de tous les agents cholinergiques36. Ces empreintes de connectivité étendue et de classe fonctionnelle sont des représentations moléculaires bien connues, qui décrivent précisément la structure moléculaire et les groupes fonctionnels (groupes d'atomes ayant leurs propres propriétés caractéristiques) dans une molécule et montrent leurs performances compétentes dans la conception de médicaments et la prédiction à grande échelle36 . Ainsi, l'ECFP et le FCFP ont été utilisés pour décrire le SAR cholinergique sous les algorithmes d'apprentissage automatique (ML) de la forêt aléatoire (RF), de la machine à vecteurs de support (SVM), de l'arbre de décision (DT) et du k-plus proche voisin (KNN)37,38 ,39. Le modèle DTI a été formé pour chaque cible cholinergique de l'acétylcholinestérase (AChE), de la butyrylcholinestérase (BuChE), du récepteur nicotinique de l'acétylcholinestérase (nAChR), du récepteur muscarinique de l'acétylcholinestérase (mAChR) et du transporteur vésiculaire de l'acétylcholine (VAChT)40. Premièrement, les performances statistiques du classificateur nAChR ont été évaluées (tableau 1 et tableau S2). Comme prévu, les tracés des caractéristiques de fonctionnement du récepteur (ROC) des classificateurs nAChR ont démontré la prévisibilité robuste, quelle que soit la division des données en formation et en test (tableau S2 et figure S2). Lorsque l'aire sous ROC (AUC) des données de test a été comparée, les modèles RF, SVM et KNN (AUC : 0,961 à 0,998) ont produit une AUC supérieure à DT (AUC : 0,739 à 0,889). En outre, nous avons appliqué d'autres mesures statistiques, notamment la précision, le score F1 et le coefficient de corrélation de Matthews (MCC), qui sont des scores informatifs et véridiques dans l'évaluation des classifications binaires que la précision et le score F1. Notamment, les valeurs MCC de chaque modèle étaient fiables (Test : MCC ~ 0,438–0,978, Train : 0,474–0,956), et les valeurs MCC des ensembles de test étaient au même niveau que celles des rames. Deuxièmement, l'apprentissage de l'ensemble de données mAChR a suivi un modèle similaire aux modèles nAChR, avec une ASC de 0, 807 à 0, 998 et un MCC de 0, 608 à 0, 974 (tableau 1 et tableau S3). Les modèles mAChR ont produit des performances prédictives légèrement supérieures à celles des modèles nAChR. Le modèle DT global a présenté une performance inférieure à celle des modèles RF, SVM et KNN. Troisièmement, les modèles BuChE ont également montré des performances de prédiction fiables avec une ASC de 0, 771 à 1, 000 et un MCC de 0, 420 à 0, 986 et légèrement inférieures aux modèles de classification de nAChR et mAChR (tableau 1 et tableau S5). Quatrièmement, nous avons analysé plus en détail les métriques de classification des modèles AChE. Malgré la grande taille des données (n = 3098), les performances de classification ont révélé des performances nominales pour l'ASC de 0, 774 à 0, 999 (tableau 1 et tableau S4). Enfin, les modèles VAChT du plus petit ensemble de données surpassent ceux de nAChR, mAChR, AChE et BuChE (tableau 1 et tableau S6). Pour visualiser le pouvoir prédictif des modèles DTI cholinergiques, les modèles les plus performants ont été décrits par les valeurs d'ensemble-AUC (Fig. 5 et Tableau S7).

Performances statistiques des modèles de classification DTI. La zone sous la courbe caractéristique de fonctionnement du récepteur (AUC) a été calculée lors de la validation externe et interne des cibles respectives.

La première tâche du modèle de réseau construit consiste à prédire les activités cholinergiques de molécules «hors jeu (ni formation ni jeu de test)» sur nAChR, mAChR, VAChT, AChE et BUChE (Fig. 4). À cette fin, chaque classificateur DTI cholinergique a déjà été validé dans la section précédente. De toute évidence, les CWA et aucun CWA composé de NPS et de drogues de synthèse19 ne sont hors des données cholinergiques ChEMBL40, ni des données d'entraînement ni des données de test. Les schémas cholinergiques des CWA et aucun CWA ont été prédits pour jouer le rôle de méta-prédicteurs pour la deuxième tâche. La deuxième tâche du modèle de réseau consiste à juger de la ressemblance à la guerre chimique des molécules «hors jeu». À cette fin, la discrimination entre les CWA et aucun CWA a été apprise par un algorithme CNN. CNN est un cadre d'apprentissage en profondeur couramment utilisé pour les tâches de reconnaissance d'objets, le suivi d'objets, l'estimation de pose, la détection et la reconnaissance de texte, la détection de saillance visuelle, la reconnaissance d'action, l'étiquetage de scène41. LeNet de LeCun et al.42 et AlexNet de Hinton et al.43 ont initialisé la popularité de CNN dans le domaine de la vision par ordinateur. GoogleNet44, VGGNEt45, ResNet46, etc. ont élaboré une architecture CNN (par exemple, normalisation par lots, filtre, fonction résiduelle) améliorant la précision des prédictions. Malgré la différence de taille des données, nos méta-prédicteurs ont la même propriété qu'un tableau de pixels binaires avec des données manuscrites MNIST (28 × 28 pixels avec deux couleurs), qui est un ensemble de données représentatif des modèles CNN47. La propriété commune nous a amenés à comparer l'apprentissage basé sur l'image des données MNIST. Premièrement, nos méta-prédicteurs ont été convertis en tableau 2D d'une forme 5 × 4 pour l'apprentissage CNN. Après enquête, l'architecture de la Fig. 6A (voir aussi Fig. S9) a été choisie pour le meilleur apprenant. Comme nous l'attendions, le réseau 2D a détecté de manière fiable les CWA à partir de grandes données NPS. Au cours de l'apprentissage avec l'augmentation de l'époque, les valeurs de précision et de perte ont atteint leurs valeurs optimales et ont conservé les valeurs (Fig. 6B). Avec les résultats encourageants, nous avons essayé d'ajuster le déséquilibre des données entre les CWA et les non-CWA par le suréchantillonnage et le sous-échantillonnage (la suppression des données montrant des valeurs de tableau en double). Comme le montre la Fig. 7, lorsque des données natives déséquilibrées (modèle 01) ont été comparées à des données suréchantillonnées équilibrées (modèle 03), les mesures statistiques ont montré l'écart avec une légère diminution, mais la zone sous la courbe de rappel de précision (AUPR) les valeurs de la figure 7A étaient toujours comparables entre les données natives (déséquilibrées) et suréchantillonnées (équilibrées) pour prouver que ces valeurs statistiques ne résultaient pas simplement de déséquilibres de données. Le coefficient de corrélation de Matthews (MCC), le score F1 et la précision (Fig. 7B) ont également confirmé que le SMOTE (suréchantillonnage) confirmait la capacité de trouver des CWA48. De plus, les deux types d'échantillonnage nous ont permis d'évaluer des classificateurs de tableaux 2D ou 3D de différentes formes. Lorsque nous avons remodelé le tableau 2D de [50 × 4] à [40 × 5], la capacité de détection a fortement diminué pour révéler l'importance de la manière d'organiser les prédicteurs d'éléments. Si certaines données montrent une dépendance à l'ordre entre ses variables (prédicteurs d'éléments), les données peuvent être qualifiées de séquentielles. Pendant ce temps, lorsque nous avons converti le tableau 2D en tableaux 3D, étonnamment, l'apprentissage basé sur l'image de la forme [10 × 5 × 4] a amélioré les scores AUPR, MCC et F1 du pire «modèle 04» et a réduit l'écart de performance entre différents données (fig. 7). Lorsque le tableau 3D a été remodelé en [5 × 10 × 4], l'amélioration de ces valeurs statistiques a également été conservée. De plus, un modèle de perceptron multicouche (MLP) a été construit à partir des données d'apprentissage du modèle CNN avec le même nombre de couches. Le modèle MLP en tant que ligne de base a montré une précision très inférieure et un score F1 inférieur au meilleur modèle CNN. En détail, alors que deux modèles CNN étaient supérieurs au modèle MLP, la forme du réseau était toujours importante pour donner des performances bien meilleures que MLP (Fig. 7C).

Formation des trois classificateurs de tableaux de forme différents (2D, 3D et 3D remodelé). (A) Architecture CNN dans cette étude. (B) Entraînement robuste des modèles CNN avec arrêt précoce via rappel. Axe des abscisses : nombre d'époques (unité d'entraînement), axe des ordonnées : valeurs de précision ou de perte (l'écart entre le réel et la prédiction), qui ont été calculées par une fonction de perte en fonction de l'échantillonnage des données (modèle 01 : natif, modèle 02 : suppression des valeurs de tableau dupliquées des données du modèle 01, modèle 03 : suréchantillonnage SMOTE des données du modèle 01, modèle 04 : suréchantillonnage SMOTE des données du modèle 02).

Performances de détection CWD des trois classificateurs à matrice de formes différentes en fonction de l'échantillonnage des données (modèles 01 à 04). (A) Courbe de précision-rappel des modèles CNN, (B) Performance des modèles CNN (MCC, F1-Score et Précision) et (C) comparaison avec le perceptron à plusieurs couches comme modèle de base.

Sur la base de la validation statistique de la figure 7 et du tableau S8, les classificateurs de matrice sont prêts pour la détection CWA des produits chimiques NE. Évidemment, ce modèle prédictif des menaces chimiques sous l'hypothèse chimiocentrique est discutable en raison des données disponibles et de la validation expérimentale impossible. Cependant, un tel procès n'est pas le seul. Par exemple, l'OCDE a également développé la boîte à outils du modèle QSAR et l'a fournie pour l'évaluation des risques10. Bien que les modèles QSAR typiques puissent garantir une haute précision dans leur domaine de prédiction, les modèles QSAR ont la limitation d'un domaine au-delà de l'ensemble de séries congénères. Par exemple, lorsque les six modèles de toxicité aiguë de la boîte à outils QSAR de l'OCDE ont prédit les CWA, un nombre considérable de CWA n'a pas pu renvoyer les valeurs prévues en raison de l'extérieur du domaine de prédiction et a donné un taux d'échec d'env. 50 % (tableau 2). Ainsi, les études innovantes doivent surmonter la limitation d'un domaine. De plus, les modèles QSAR ne peuvent généralement pas être construits à l'aide d'une méthode ab initio. Malheureusement, l'indice de toxicité des données CWA est rare, pas suffisant pour construire un modèle prédictif fiable. Évidemment, bien qu'un modèle de classification puisse être construit, le domaine de prédiction est toujours biaisé en faveur des organophosphorés. Ainsi, nous avons suggéré des méta-prédicteurs cholinergiques afin d'étudier la composition de la limitation actuelle des données. La différence notable entre cette étude et les modèles QSAR typiques est la définition de la variable dépendante et de la variable indépendante. Les modèles QSAR typiques utilisent « l'indice expérimental d'activité/toxicité » comme variable dépendante et « la structure chimique et leurs descripteurs » comme variables indépendantes. Pendant ce temps, le modèle CNN de cette étude n'a utilisé ni les structures chimiques ni leurs descripteurs moléculaires. Le codage des structures chimiques a été remplacé par des méta-prédicteurs cholinergiques. Étant donné que les informations actuelles sur le mécanisme des CWA sont enrichies en AchE et en effets cholinergiques, cette étude n'a décrit que les schémas cholinergiques pour détecter les menaces chimiques. À l'avenir, si les données sont mises à jour, cette méthodologie pourrait être applicable à d'autres effets pharmacologiques de produits chimiques nocifs connus tels que l'activité de la lipase cérébrale monoacylglycérol (MAG) et l'enzyme de dégradation des endocannabinoïdes, l'hydrolase d'amide d'acide gras (FAAH), qui sont des mécanismes de toxicité récemment signalés. de pesticides organophosphorés2,16. Même si l'inhibition MAG et FAAH des insecticides était rapportée, un tel essai serait plus faisable après mise à jour des données (des agents MAG ou FAAH) autant que celles des agents cholinergiques.

Malgré des données extrêmement déséquilibrées, le schéma cholinergique des CWA a été appris grâce à des méta-prédicteurs de type tableau pour obtenir des performances prédictives acceptables. De plus, l'apprentissage permet d'effectuer plusieurs tâches pour un produit chimique : prédiction DTI pour cinq cibles cholinergiques sous quatre algorithmes ML et détection CWA sous l'algorithme CNN. Alors que la première tâche a été vérifiée par la validation interne et externe du classificateur DTI respectif, la dernière tâche a été validée à l'aide de CWA et non-CWA. Notamment, cette étude propose une nouvelle méthode pour décrire les agents nocifs ayant des informations limitées pour leur relation quantitative structure-toxicité. Ainsi, il contribue à la recherche sur le contrôle et la prévision des menaces chimiques des produits chimiques NE dans un avenir récent.

Tout algorithme d'apprentissage automatique repose inextricablement sur la structure et les données d'activité rapportées. Ces dernières années, les bases de données ChEMBL sont devenues une source principale de récupération de données chimiques pour les applications d'apprentissage automatique. Ici, la version 2449 de la base de données ChEMBL a été sélectionnée pour récupérer les données structurelles et de propriétés des agents cholinergiques (nAChR, mAChR, VAChT, AChE et BUChE) avec la requête MySQL consistant en des structures moléculaires (sourires canoniques), ID d'activité, valeurs standard de activités inhibitrices avec relation standard et unité standard (nanomolaire), ID de test et ID de cible. De plus, les structures moléculaires des CWA et des NPS ont été collectées à partir de la littérature1,2,19 et du NPS-datahub50. Chaque manipulation de données (tri, fusion, nettoyage des données dupliquées et binomialisation) a été effectuée par la plateforme analytique KNIME51. La section supplémentaire décrit la composition des produits chimiques dans chaque cible. En bref, un nombre total de 1818, 6944, 3098, 1382, 302, 95 et 3126 produits chimiques appartenant aux nAChR, mAChR, AChE, BuChE, VAChT, CWA et NPS ont été sélectionnés respectivement.

Sélectionnez x.molregno,canonical_smiles, activity_id,y.assay_id, standard_value, standard_relation, standard_units, i.tid, k.target_type, k.pref_name, k.organism From compound_structures x, activities y, assays i, target_dictionary k.

Où x.molregno = y.molregno et y.assay_id = i.assay_id et i.tid = k.tid et k.tid = 10532 INTO outfile "chembl_target_BuChE.csv" champs terminés par ',' lignes terminées par '/n' ;

Huit empreintes moléculaires 2D de chaque donnée chimique ont été générées avec (1) deux types, l'empreinte digitale à connectivité étendue (ECFP) et l'empreinte digitale de classe fonctionnelle (FCFP), et (2) 4 diamètres différents (0, 2, 4, 6) sous une taille de vecteur fixe de 1024 bits. Notamment, l'ECFP capture les propriétés précises des atomes (par exemple, le numéro atomique, la charge, le nombre d'hydrogène, etc.), tandis que le FCFP capture les caractéristiques fonctionnelles (pharmacophoriques) (c'est-à-dire le donneur/accepteur d'hydrogène, la polarité, l'aromaticité, etc.) des atomes d'une molécule. La boîte à outils CDK52 a été utilisée pour les deux calculs d'empreintes digitales. Les empreintes digitales générées ont été divisées et combinées avec les valeurs d'activité binominales respectives dans une matrice de données intégrée pour l'apprentissage.

Quatre algorithmes d'apprentissage automatique (forêt aléatoire, arbre de décision, machine à vecteurs de support et k-plus proche voisin) appliqués sur la matrice de données avec 10 nombres de graines aléatoires différents pour construire un modèle de classification dans le package d'entraînement à la classification et à la régression (CARET) du R environnement. Chaque modèle a été validé en interne et en externe dans la condition d'un rapport de division de 70:30 entre la formation et le test et des méthodes de validation croisée k-fold (k = 10). En bref, dans la validation croisée k-fold, les données d'entrée sont partitionnées de manière aléatoire en sous-échantillons de taille k-égale. L'un des k sous-échantillons est conservé comme données de validation pour tester le modèle, tandis que les k-1 sous-échantillons restants sont utilisés comme données d'apprentissage. Cette procédure de validation croisée k fois est ensuite répétée k fois (les plis), chacun des k sous-échantillons étant utilisé exactement une fois comme données de validation.

Les modèles construits ont généré des méta-prédicteurs (méta-données) de 200 bits binaires (5 cibles cholinergiques × 4 méthodes d'apprentissage automatique × 10 nombres de graines). Les métadonnées ont été intégrées dans plusieurs tableaux de formes de ([50 × 4], [5 × 10 × 4], [10 × 5 × 4]). Le modèle CNN, qui est composé de différentes couches de couches convolutionnelles, de mise en commun, aplaties et denses, a été construit avec les hyperparamètres d'un maximum de 100 époques, une taille de lot de 32 et un taux d'apprentissage de 0,01 avec l'optimiseur Adam53. Les critères EarlyStopping ont été introduits pour éviter que les modèles CNN ne soient trop ajustés et pour mettre fin à l'apprentissage plus tôt. La fonction d'activation « Softmax » a été utilisée pour définir la distribution de probabilité de la ressemblance avec la guerre chimique54. Les performances d'apprentissage et la robustesse ont été mesurées par les valeurs de précision et de perte à mesure que le nombre d'époques augmentait. L'entropie croisée binaire a été utilisée comme fonction de perte pour mesurer l'écart entre les valeurs de classe prédites et réelles.

Les performances de chaque modèle ont été évaluées à l'aide de trois mesures de classification, à savoir le coefficient de corrélation de Matthews (MCC), la précision, l'aire sous la courbe caractéristique de fonctionnement du récepteur (AUC) basée sur le vrai positif (TP), le vrai négatif (TN), le faux positif (FP ), faux négatif (FN). Ces métriques évaluent les performances statistiques et la robustesse des modèles construits.

Chaque auteur a accepté les normes éthiques d'une véritable étude de recherche.

Le code Python et les données raffinées seront disponibles dans GitHub. https://github.com/college-of-pharmacy-gachon-university/Array_Classifier.

Chauhan, S. et al. Agents de guerre chimique. Environ. Toxicol. Pharmacol. 26, 113–122. https://doi.org/10.1016/j.etap.2008.03.003 (2008).

Article CAS PubMed Google Scholar

Kim, K., Tsay, OG, Atwood, DA & Churchill, DG Destruction et détection d'agents de guerre chimique. Chim. Rév. 111, 5345–5403. https://doi.org/10.1021/cr100193y (2011).

Article CAS PubMed Google Scholar

Lin, TJ et al. Épidémiologie des intoxications aux pesticides organophosphorés à Taïwan. Clin. Toxicol. 46, 794–801. https://doi.org/10.1080/15563650801986695 (2008).

Article Google Scholar

Ganesan, K., Raza, S. et Vijayaraghavan, R. Agents de guerre chimique. J.Pharm. Bioall. Sci. 2, 166. https://doi.org/10.4103/0975-7406.68498 (2010).

Article CAS Google Scholar

Munro, N. Toxicité des agents de guerre chimique organophosphorés GA, GB et VX : Implications pour la protection du public. Environ. Perspective Santé. 102, 18–37. https://doi.org/10.1289/ehp.9410218 (1994).

Article CAS PubMed PubMed Central Google Scholar

On estime que 14 000 personnes sont mortes du scandale des désinfectants pour humidificateurs : étude. Agence de presse Yonhap (consultée le 28 mars 2022) ; https://en.yna.co.kr/view/AEN20200727006300315

Paek, D. et al. Étude nationale des lésions pulmonaires des désinfectants humidificateurs en Corée du Sud, 1994-2011 : Incidence et relations dose-réponse. Ann. ATS 12, 1813–1821. https://doi.org/10.1513/AnnalsATS.201504-221OC (2015).

Article Google Scholar

Herbicides, I. de M. (US) C. à R. HE à VV d'E. à (1994). Histoire de la controverse sur l'utilisation des herbicides. National Academies Press (États-Unis) (consulté le 14 juillet 2021) ; https://www.ncbi.nlm.nih.gov/books/NBK236351/

Manikkam, M., Tracey, R., Guerrero-Bosagna, C. & Skinner, MK La dioxine (TCDD) induit l'hérédité épigénétique transgénérationnelle de la maladie de l'adulte et des épimutations de spermatozoïdes. PLoS ONE 7, e46249. https://doi.org/10.1371/journal.pone.0046249 (2012).

Article ADS CAS PubMed PubMed Central Google Scholar

Évaluation des produits chimiques - OCDE (consulté le 28 mars 2022) ; https://www.oecd.org/chemicalsafety/risk-assessment/

Gestion des risques des produits chimiques - OCDE (consulté le 28 mars 2022) ; https://www.oecd.org/chemicalsafety/risk-management/

Schmidt, CW TSCA 2.0 : Une nouvelle ère dans la gestion des risques chimiques. Environ. Perspective Santé. 124, A182–A186. https://doi.org/10.1289/ehp.124-A182 (2016).

Article PubMed PubMed Central Google Scholar

Gharami, S., Aich, K., Das, S., Patra, L. & Mondal, TK Détection facile de l'imitateur d'agent neurotoxique organophosphoré (DCP) grâce à un nouveau commutateur ratiométrique à base de quinoléine. New J. Chem. 43, 8627–8633. https://doi.org/10.1039/C9NJ02218J (2019).

Article CAS Google Scholar

Agrawal, M., Sava Gallis, DF, Greathouse, JA & Sholl, DS Quelle est l'utilité des simulants courants d'agents de guerre chimique pour prédire le comportement d'adsorption ?. J.Phys. Chim. C 122, 26061–26069. https://doi.org/10.1021/acs.jpcc.8b08856 (2018).

Article CAS Google Scholar

Mondloch, JE et al. Destruction d'agents de guerre chimique à l'aide de structures métallo-organiques. Nat. Mater 14, 512-516. https://doi.org/10.1038/nmat4238 (2015).

Article ADS CAS PubMed Google Scholar

Eddleston, M. Novel toxicologie clinique et pharmacologie de l'auto-intoxication par les insecticides organophosphorés. Annu. Rév. Pharmacol. Toxicol. 59, 341–360. https://doi.org/10.1146/annurev-pharmtox-010818-021842 (2019).

Article CAS PubMed Google Scholar

Observatoire européen des drogues et des toxicomanies. (2015). New psychoactive substances in Europe: An update from the EU Early Warning System, mars 2015. LU : Office des publications (consulté le 27 mars 2022) ; https://doi.org/10.2810/372415

Observatoire européen des drogues et des toxicomanies. et Office européen de police. (2016). Rapport 2016 sur les marchés de la drogue dans l'UE : analyse approfondie. LU : Office des publications (consulté le 27 mars 2022) ; https://doi.org/10.2810/219411

Urbas, A. et al. NPS Data Hub : un référentiel de données analytiques basé sur la communauté et basé sur le Web pour les nouvelles substances psychoactives. Pour. Chim. 9, 76–81. https://doi.org/10.1016/j.forc.2018.05.003 (2018).

Article CAS Google Scholar

Shafi, A., Berry, AJ, Sumnall, H., Wood, DM & Tracy, DK Nouvelles substances psychoactives : un examen et des mises à jour. Là. Adv. Psychopharmacol. 10, 2045125320967197. https://doi.org/10.1177/2045125320967197 (2020).

Article PubMed PubMed Central Google Scholar

Chemical Network Algorithms for the Risk Assessment and Management of Chemical Threats - Fuller - 2012 - Angewandte Chemie International Edition - Wiley Online Library (consulté le 28 mars 2022); https://doi.org/10.1002/anie.201202210

Carbó-Dorca, R. Détermination des propriétés moléculaires inconnues dans les espaces moléculaires. J. Math. Chim. 60, 353–359 (2022).

Article MathSciNetGoogle Scholar

Dobson, CM Espace chimique et biologie. Nature 432, 824–828. https://doi.org/10.1038/nature03192 (2004).

Article ADS CAS PubMed Google Scholar

https://www.opcw.org/chemical-weapons-convention

Casida, JE Toxicologie des xénobiotiques organophosphorés. Annu. Rév. Pharmacol. Toxicol. 57, 309–327. https://doi.org/10.1146/annurev-pharmtox-010716-104926 (2017).

Article CAS PubMed Google Scholar

Picard, B., Chataigner, I., Maddaluno, J. & Legros, J. Introduction aux agents de guerre chimique, aux simulants pertinents et aux méthodes modernes de neutralisation. 10 (2019).

Hansen, JV Combinaison de prédicteurs : comparaison de cinq méta-méthodes d'apprentissage automatique. Inf. Sci. 119, 91–105 (1999).

Article Google Scholar

Wan, J. et al. Méta-prédiction des sites de phosphorylation avec vote pondéré et sélection restreinte des paramètres de recherche de grille. Nucleic Acids Res. 36, e22–e22 (2008).

Article Google Scholar

Manavalan, B., Basith, S., Shin, TH, Wei, L. & Lee, G. mAHTPred : un méta-prédicteur basé sur la séquence pour améliorer la prédiction des peptides anti-hypertenseurs en utilisant une représentation efficace des caractéristiques. Bioinformatique 35, 2757–2765 (2019).

Article CAS Google Scholar

Keiser, MJ et al. Relatif à la pharmacologie des protéines par la chimie des ligands. Nat. Biotechnol. 25, 197–206. https://doi.org/10.1038/nbt1284 (2007).

Article CAS PubMed Google Scholar

La boîte à outils QSAR de l'OCDE a utilisé l'hypothèse chimiocentrique - OCDE (consultée le 28 mars 2022) ; https://www.oecd.org/chemicalsafety/risk-assessment/oecd-qsar-toolbox.htm

Venkanna, A. et al. Utilisation pharmacologique d'un nouvel échafaudage, N, N-diarylamino tétrahydropyrane anomérique : recherche de similarité moléculaire, profilage de cible chimiocentrique et preuves expérimentales. Sci. Rep. 7, 12535. https://doi.org/10.1038/s41598-017-12082-3 (2017).

Article ADS CAS PubMed PubMed Central Google Scholar

Kumar, S., Jang, C., Subedi, L., Kim, SY et Kim, M. Réaffectation des systèmes d'anneaux approuvés par la FDA grâce à un double dépistage bidirectionnel du système d'anneaux cibles. Sci. Rep. 10, 21133. https://doi.org/10.1038/s41598-020-78077-9 (2020).

Article ADS CAS PubMed PubMed Central Google Scholar

Lee, S.-H., Ahn, S. et Kim, M. Comparaison d'un composé de requête avec des classes cibles de médicaments à l'aide de la similarité chimique 3D. Int. J. Mol. Sci. 21, 4208. https://doi.org/10.3390/ijms21124208 (2020).

Article PubMed Central Google Scholar

Dhorma, LP et al. Positionnement d'un échafaudage sans précédent de 1,5-oxaza spiroquinone dans des inhibiteurs de SMYD2 dans l'espace épigénétique. EUR. J. Med. Chim. 227, 113880. https://doi.org/10.1016/j.ejmech.2021.113880 (2022).

Article CAS PubMed Google Scholar

Rogers, D. & Hahn, M. Empreintes digitales à connectivité étendue. J. Chem. Inf. Modèle. 50, 742–754. https://doi.org/10.1021/ci100050t (2010).

Article CAS PubMed Google Scholar

Kumar, S. & Kim, M. SMPLIP-Score : Prédire l'affinité de liaison des ligands à partir de descripteurs de modèles d'empreintes digitales d'interaction simples et interprétables à la volée. J. Cheminform. 13, 28. https://doi.org/10.1186/s13321-021-00507-1 (2021).

Article CAS PubMed PubMed Central Google Scholar

Lee, J., Kumar, S., Lee, S.-Y., Park, SJ et Kim, M. Développement de modèles prédictifs pour identifier les inhibiteurs potentiels de S100A9 basés sur des méthodes d'apprentissage automatique. Devant. Chim. https://doi.org/10.3389/fchem.2019.00779 (2019).

Article PubMed PubMed Central Google Scholar

Sadik, O. et al. Détection et classification de simulants d'agents neurotoxiques organophosphorés à l'aide de machines à vecteurs de support avec capteurs multiréseaux. J. Chem. Inf. Calcul. Sci. 44, 499–507. https://doi.org/10.1021/ci034220i (2004).

Article CAS PubMed Google Scholar

Gaulton, A. et al. La base de données ChEMBL en 2017. Nucleic Acids Res. 45(D1), D945–D954 (2017).

Article CAS Google Scholar

Aloysius, N. & Geetha, M. Un examen des réseaux de neurones à convolution profonde. Int. Conf. Commun. Processus de signalisation. (ICCSP) 2017, 0588–0592. https://doi.org/10.1109/ICCSP.2017.8286426 (2017).

Article Google Scholar

LeCun, Y. et al. Reconnaissance des chiffres manuscrits avec un réseau de rétropropagation. Progrès dans les systèmes de traitement de l'information neuronale 2, (1989).

Krizhevsky, A., Sutskever, I. & Hinton, GE Classification Imagenet avec réseaux de neurones à convolution profonde. Avancées dans les systèmes de traitement de l'information neuronale 25, (2012).

Szegedy, C. et al. Aller plus loin avec les circonvolutions. Dans Actes de la conférence IEEE sur la vision par ordinateur et la reconnaissance de formes 1–9 (2015).

Simonyan, K. & Zisserman, A. Réseaux convolutionnels très profonds pour la reconnaissance d'images à grande échelle. Préimpression arXiv : 1409.1556 (2014).

He, K., Zhang, X., Ren, S. et Sun, J. Apprentissage résiduel profond pour la reconnaissance d'images. Dans Actes de la conférence IEEE sur la vision par ordinateur et la reconnaissance de formes 770–778 (2016).

Deng, L. La base de données mnist d'images numériques manuscrites pour la recherche en apprentissage automatique. Processus de signal IEEE. Mag. 29(6), 141-142 (2012).

Annonces d'article Google Scholar

Chawla, NV, Bowyer, KW, Hall, LO et Kegelmeyer, WP SMOTE : Technique de suréchantillonnage synthétique minoritaire. J.Artif. Int. Rés. 16(1), 321–357 (2002).

MATH Google Scholar

Base de données ChEMBL (consultée le 28 mars 2022) ; https://www.ebi.ac.uk/chembl/

https://www.emcdda.europa.eu, https://nps-datahub.com/

Berthold, MR et al. KNIME-le mineur d'informations de Constance : version 2.0 et au-delà. AcM SIGKDD Explor. Newsletter. 11(1), 26–31 (2009).

Article Google Scholar

Steinbeck, C. et al. Le kit de développement de chimie (CDK) : une bibliothèque Java open source pour la chimio et la bioinformatique. J. Chem. Inf. Calcul. Sci. 43(2), 493–500. https://doi.org/10.1021/ci025584y (2003).

Article CAS PubMed PubMed Central Google Scholar

Kingma, DP & Ba, J. Adam : Une méthode d'optimisation stochastique. https://doi.org/10.48550/arxiv.1412.6980. (2014).

Goodfellow, I., Bengio, Y. & Courville, A. 6.2.2.3 Unités Softmax pour les distributions de sortie Multinoulli. Apprentissage en profondeur 180–184 (MIT Press, 2016).

Google Scholar

Télécharger les références

Les auteurs tiennent à remercier le professeur Young Mi Yoon pour ses précieux conseils.

Cette étude a été soutenue par le programme de recherche scientifique fondamentale de la Fondation nationale de recherche de Corée (NRF), qui est financé par le ministère de l'Éducation, des Sciences et de la Technologie (n° : 2017R1E1A1A01076642, 2020R1I1A1A01074750).

Ces auteurs ont contribué à parts égales : Surendra Kumar et Chandni Kumari.

Département de pharmacie, Gachon Institute of Pharmaceutical Science, College of Pharmacy, Gachon University, 191 Hambakmoeiro, Yeonsu-gu, Incheon, République de Corée

Surendra Kumar, Chandni Kumari, Sangjin Ahn et Mi-hyun Kim

Département d'intelligence artificielle, Université Ajou, Suwon, 16499, République de Corée

Sangjin Ahn

Département de la gestion des données, KEIS, 56 Mullae-ro 20-gil, Yeongdeungpo-gu, Séoul, République de Corée

Hyoungrae Kim

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

MK a conçu et conçu l'étude. Dans le cadre du plan de MK, CK et SK ont effectué tous les travaux de modélisation et de données. MK, CK et SK ont analysé les données. SA a aidé à construire l'architecture CNN. HK a conseillé l'évaluation du modèle CNN et de l'architecture révisée. MK et SK ont rédigé le manuscrit et l'ont révisé. MK a fourni le laboratoire de modélisation moléculaire et l'installation de travail de recherche synthétique. Tous les auteurs ont lu et approuvé le manuscrit final. Chaque auteur était d'accord avec la soumission au Journal et la paternité.

Correspondance à Mi-hyun Kim.

Les auteurs ne déclarent aucun intérêt concurrent.

Springer Nature reste neutre en ce qui concerne les revendications juridictionnelles dans les cartes publiées et les affiliations institutionnelles.

Libre accès Cet article est sous licence Creative Commons Attribution 4.0 International, qui permet l'utilisation, le partage, l'adaptation, la distribution et la reproduction sur n'importe quel support ou format, à condition que vous accordiez le crédit approprié à l'auteur ou aux auteurs originaux et à la source, fournir un lien vers la licence Creative Commons et indiquer si des modifications ont été apportées. Les images ou tout autre matériel de tiers dans cet article sont inclus dans la licence Creative Commons de l'article, sauf indication contraire dans une ligne de crédit au matériel. Si le matériel n'est pas inclus dans la licence Creative Commons de l'article et que votre utilisation prévue n'est pas autorisée par la réglementation légale ou dépasse l'utilisation autorisée, vous devrez obtenir l'autorisation directement du détenteur des droits d'auteur. Pour voir une copie de cette licence, visitez http://creativecommons.org/licenses/by/4.0/.

Réimpressions et autorisations

Kumar, S., Kumari, C., Ahn, S. et al. Prédiction des agents de guerre chimique basée sur des méta-prédicteurs de type cholinergique. Sci Rep 12, 16709 (2022). https://doi.org/10.1038/s41598-022-21150-2

Télécharger la citation

Reçu : 15 juin 2022

Accepté : 23 septembre 2022

Publié: 06 octobre 2022

DOI : https://doi.org/10.1038/s41598-022-21150-2

Toute personne avec qui vous partagez le lien suivant pourra lire ce contenu :

Désolé, aucun lien partageable n'est actuellement disponible pour cet article.

Fourni par l'initiative de partage de contenu Springer Nature SharedIt

En soumettant un commentaire, vous acceptez de respecter nos conditions d'utilisation et nos directives communautaires. Si vous trouvez quelque chose d'abusif ou qui ne respecte pas nos conditions ou directives, veuillez le signaler comme inapproprié.