banner
Maison / Nouvelles / Analyse prédictive du syndrome métabolique basée sur 5
Nouvelles

Analyse prédictive du syndrome métabolique basée sur 5

Jun 30, 2023Jun 30, 2023

Rapports scientifiques volume 13, Numéro d'article : 9132 (2023) Citer cet article

Détails des métriques

Le syndrome métabolique (MetS) représente un groupe complexe de troubles métaboliques. Comme MetS pose un défi important pour la santé publique mondiale, il est important de prévoir l'occurrence de MetS et le développement de facteurs de risque connexes. Dans cette étude, nous avons effectué une analyse prédictive de MetS basée sur des algorithmes d'apprentissage automatique en utilisant des ensembles de données de 15 661 individus. Cinq années consécutives de dossiers d'examens médicaux ont été fournis par l'hôpital Nanfang, Southern Medical University, Chine. Les facteurs de risque spécifiques utilisés comprenaient WC, WHR, TG, HDL-C, BMI, FGLU, etc. Nous avons proposé une méthode de construction de caractéristiques utilisant les enregistrements d'examen au cours des quatre dernières années consécutives, combinant les différences entre la valeur annuelle et les limites normales. de chaque facteur de risque et la variation d'une année à l'autre. Les résultats ont montré que l'ensemble de fonctionnalités, qui contenait les caractéristiques originales du dossier d'inspection et les nouvelles fonctionnalités proposées dans cette étude, a donné l'ASC la plus élevée de 0,944, ce qui implique que les nouvelles fonctionnalités pourraient aider à identifier les facteurs de risque de MetS et fournir des conseils de diagnostic plus ciblés pour médecins.

Le syndrome métabolique (MetS) est un état pathologique dans lequel le patient souffre de troubles métaboliques des protéines, des graisses et des glucides1. Elle se caractérise principalement par une hypertension, une hyperglycémie, une obésité et une dyslipidémie2,3,4. Au cours des trois dernières décennies, le nombre de patients atteints du MetS a augmenté5,6,7, ce qui a entraîné l'augmentation de maladies connexes telles que le diabète, les maladies cardiovasculaires et le cancer8,9,10,11,12. La prévalence du MetS chez les adultes chinois est d'environ 11,0 %, ce qui en fait un problème de santé publique important en Chine13. Par conséquent, les chercheurs doivent se concentrer sur la prévention, le diagnostic et l'intervention des maladies pour réduire les facteurs de risque qui augmentent avec les troubles métaboliques et les empêcher de se développer davantage en d'autres maladies plus graves, qui pourraient imposer un fardeau physique plus important aux patients.

De nombreuses études ont étudié les moyens d'identifier MetS à un stade initial avec une grande précision. Les facteurs de risque associés à la morbidité du MetS, tels que les triglycérides (TG), le cholestérol des lipoprotéines de haute densité (HDL-C), les globules blancs (WBC) et les sous-types apparentés, et l'alanine aminotransférase (ALT), ont été reconnus14,15, 16. Certaines études ont étudié les changements dans les caractéristiques anthropométriques telles que l'indice de masse corporelle (IMC), le tour de taille (WC) et le rapport taille-hanche (WHR)17,18. Cependant, ces approches n'incorporaient pas les derniers algorithmes d'apprentissage automatique dans leurs modèles, ce qui limitait la précision et l'interprétation de leurs résultats prédits.

Les techniques d'apprentissage automatique sont fréquemment utilisées dans le domaine de la santé. Ils peuvent être utilisés pour extraire efficacement des informations à partir de mégadonnées pour faciliter la prise de décision et aider à comprendre les relations non linéaires et complexes entre divers facteurs, améliorant ainsi considérablement la précision du diagnostic19,20. De nombreux chercheurs ont utilisé des algorithmes d'apprentissage automatique pour développer des modèles de prédiction du MetS. Edelenyi et al. ont utilisé des forêts aléatoires pour prédire l'état de MetS21, et leurs données ont été obtenues à partir d'une vaste étude cas-témoin contenant des enregistrements fiables de paramètres génétiquement pertinents et de l'apport alimentaire. Ils ont découvert que les techniques d'apprentissage automatique peuvent être utilisées pour prédire efficacement l'émergence du MetS plusieurs années à l'avance. Par exemple, un déséquilibre spécifique dans la composition des acides gras plasmatiques a révélé le risque de développer le MetS. Worachartcheewan et al. ont utilisé des forêts aléatoires pour identifier les facteurs de risque importants et prédire le risque de MetS dans une population thaïlandaise22. Dans leur étude, le modèle avec 40 arbres avait une confiance plus élevée que le modèle avec 20 arbres. Leurs résultats ont indiqué que le niveau de TG était le paramètre de santé le plus critique associé au MetS. Farzaneh Karimi-Alavijeh et al. utilisé des arbres de décision et la méthode de la machine à vecteurs de support (SVM) pour prédire l'incidence de MetS23 sur 7 ans, où la sensibilité, la spécificité et la précision de la SVM se sont avérées être de 0,774 (0,758), 0,74 (0,72) et 0,757 (0,739 ), respectivement. Les résultats ont montré que la sensibilité, la spécificité et la précision de l'approche SVM étaient plus efficaces que celles des arbres de décision, et la TG, la pression artérielle (TA) et l'IMC se sont avérées les caractéristiques les plus importantes pour prédire le MetS. Kyung Choe et al. utilisé des modèles d'apprentissage automatique d'informations génétiques et cliniques provenant d'une population saine non obèse pour prédire MetS24, et utilisé simultanément cinq approches d'apprentissage automatique. Ils ont trouvé que la classification bayésienne naïve était la meilleure performance (AUC = 0,65).

Les résultats de ces expériences suggèrent que les techniques d'apprentissage automatique, en particulier les classificateurs non linéaires tels que les arbres à gradient amélioré et les forêts aléatoires, prédisent généralement les résultats cliniques avec plus de précision que les méthodes statistiques traditionnelles. Cependant, ces études ont principalement utilisé des données sur les caractéristiques anthropométriques de base obtenues directement à partir de sources de données, sans combiner les informations sur la différence entre la valeur et les limites normales et les changements de séries chronologiques au fil des ans. Un ensemble de caractéristiques pertinentes doit être sélectionné pour décrire de manière exhaustive tous les concepts d'un ensemble de données donné. Yang et al. extrait des caractéristiques numériques différentielles et des caractéristiques d'état différentiel (DNF et DSF) dans des ensembles de données pluriannuels consécutifs pour étudier l'effet des changements temporels de la valeur et de l'état des indicateurs sur le risque de prévalence de MetS25. Cependant, les informations sur les caractéristiques différentielles ne reflètent que la tendance d'une année à l'autre, plus d'informations ne sont pas combinées pour connaître la différence de risque de maladie lorsque les facteurs de risque changent dans différentes valeurs spécifiques chaque année. Par conséquent, cette méthode n'élucide pas complètement le développement des facteurs de risque.

Pour remédier aux limitations ci-dessus, nous avons utilisé des ensembles de données d'examens physiques continus individuels de 15 661 sujets enregistrés sur cinq années consécutives pour construire une nouvelle caractéristique, connue sous le nom de caractéristique fluctuante différentielle (DFF), pour prédire la présence de MetS et étudier l'effet de la différence. entre la valeur et les limites normales de chaque facteur de risque, ainsi que la variation temporelle du risque de MetS. Nos résultats ont indiqué que les facteurs de risque cruciaux tels que TG, WC, IMC et HDL-C, qui incluent les valeurs originales dérivées des enregistrements d'examen d'un an les plus récents ou les valeurs correspondantes de chaque DFF, étaient des prédicteurs significatifs du risque de MetS.

Pour visualiser si les DFF proposés dans cette étude présentaient des avantages en termes de performances, nous avons ajouté les DNF et les DSF proposés par 25 et les DFF à l'ensemble de fonctionnalités contenant les fonctionnalités originales des 5 dernières années afin de comparer les performances de différents classificateurs et combinaisons d'ensembles de fonctionnalités. Nous avons effectué des expériences de validation croisée de 10 fois et exprimé l'ASC sous la forme de la moyenne ± écart type. Les résultats du classificateur XGBoost sont présentés dans le tableau 1, et les résultats avec la meilleure métrique de validation moyenne sont mis en évidence en gras. Le processus d'apprentissage automatique a été effectué en Python à l'aide de scikit-learn et les tracés ont été générés à l'aide de matplotlib26,27.

Les résultats AUC obtenus à partir du modèle de prédiction d'apprentissage automatique se sont améliorés à des degrés divers lors de l'intégration des DSF et des DNF, et de l'incorporation des DFF, ce qui suggère que l'incorporation de fonctionnalités supplémentaires peut améliorer considérablement les performances. L'ensemble de fonctionnalités avec les DFF a obtenu des résultats significativement meilleurs dans l'AUC que les DSF et les DNF, ce qui a soutenu l'efficacité des DFF pour prédire le MetS l'année suivante.

La comparaison transversale de divers classificateurs a montré que les trois classificateurs d'apprentissage automatique utilisés dans cette étude, y compris XGBoost, Random Forest et Stacking, surpassaient de manière significative le classificateur LR conventionnel. De plus, XGBoost est apparu comme le choix optimal avec les meilleurs résultats. Par conséquent, sauf indication contraire, nous avons utilisé XGBoost comme classificateur pour les expériences ultérieures.

(a) La variation AUC de l'augmentation du nombre de fonctionnalités basée sur le modèle XGBoost. (b) La proportion de l'importance des variables cliniques et des DFF basée sur le modèle XGBoost.

(a) L'importance des fonctionnalités basée sur le modèle XGBoost. AST, aspartate aminotransférase ; PAS, tension artérielle systolique ; DBP, tension artérielle diastolique ; PLT, plaquettes; FGLU, glycémie à jeun. (b) L'importance des caractéristiques basée sur le modèle SHAP.

Le graphique de classement de l'importance des caractéristiques obtenu par XGBoost nous a permis de sélectionner les facteurs de risque MetS avec les meilleurs scores dans le graphique indiquant que la caractéristique affectait plus significativement la prédiction du risque MetS. Étant donné que DFF contenait déjà des informations sur les modifications des valeurs d'origine correspondantes au cours des dernières années, nous n'avons examiné que les caractéristiques d'origine de l'année la plus récente et les DFF pour l'analyse. Nous avons également augmenté le nombre de fonctionnalités une par une en fonction des scores d'importance des fonctionnalités ci-dessus, en commençant par les fonctionnalités avec les scores les plus élevés. Le nombre de caractéristiques à analyser a été déterminé en fonction de leurs changements de convergence AUC. Comme le montre la courbe de variation de l'AUC sur la figure 1a, après que le nombre de caractéristiques est passé à 16, le taux de croissance de l'AUC a diminué et a progressivement convergé vers 0,930. Par conséquent, nous avons sélectionné les 16 principales caractéristiques comme facteurs de risque significatifs, et le classement final de l'importance des caractéristiques est illustré à la Fig. 2a.

Ces 16 caractéristiques ont été divisées en variables cliniques de l'année la plus récente et les DFF qui leur sont associées. Les variables cliniques comprenaient HDL-C, TG, AST, BMI, WC, SBP, DBP, WHR et FGLU, et les DFF comprenaient TG_DFF, DBP_DFF, WC_DFF, PLT_DFF, HDL-C_DFF, AST_DFF et FGLU_DFF. Les DFF comprenaient près de la moitié des 16 principales caractéristiques critiques, et l'importance de ces sept nouvelles caractéristiques représentait 42 % de l'ensemble des caractéristiques, comme le montre la figure 1b, qui indiquait que la méthode était assez robuste.

Pour analyser plus en détail la contribution des 16 principales caractéristiques à la prédiction de MetS, nous avons effectué une analyse interprétative à l'aide de l'outil SHAP28. Comme le montre la figure 2b, les nouvelles fonctionnalités, notamment TG_DFF, DBP_DFF et WC_DFF, ont le plus contribué à la prédiction de MetS, et HDL-C, AST et TG étaient les trois principales fonctionnalités les plus critiques parmi les fonctionnalités d'origine. Pour TG, les fonctionnalités originales et nouvelles ont considérablement augmenté le risque de MetS. Les caractéristiques originales et nouvelles de l'AST se sont avérées essentielles pour augmenter le risque. Comme seules quelques études ont cherché à savoir si l'AST est un facteur de risque significatif pour le MetS, ce facteur doit être étudié plus avant.

Ensuite, nous avons analysé l'effet des anomalies dans les caractéristiques originales importantes, en particulier les DFF sur des patients de différents sexes et groupes d'âge (classés par l'Organisation mondiale de la santé) pour comparer davantage les caractéristiques originales et les DFF.

Lorsque la valeur de chaque caractéristique d'origine dépasse la limite normale, la caractéristique est considérée comme étant dans un état anormal. Nous avons d'abord calculé l'odds ratio (OR) de l'anomalie de chaque caractéristique originale liée au risque de MetS l'année suivante et analysé la performance des caractéristiques ci-dessus chez les deux sexes et différents groupes d'âge. La performance OR chez les hommes est présentée dans le tableau 2. La performance anormale de TG et HDL-C a été enregistrée chez les hommes de tous les groupes d'âge. Il a été constaté que la performance anormale de l'IMC augmentait le risque de maladie chez les hommes de moins de 60 ans, et le risque de maladie chez les hommes plus âgés était plus élevé, tel que déterminé par la performance anormale de l'AST. La performance OR de l'anomalie de chaque caractéristique originale chez les femmes est présentée dans le tableau 3. Les anomalies de TG, WC et FGLU étaient considérables chez les jeunes femmes. Les facteurs de risque les plus importants pour les femmes âgées de 45 à 59 ans étaient les TG, les TG, le HDL-C et l'IMC, tandis que les facteurs de risque les plus importants pour les femmes plus âgées étaient l'AST, l'IMC et le FGLU.

En combinant les résultats présentés dans les tableaux 2 et 3, nous avons constaté que la plupart des anomalies des facteurs de risque présentaient un risque significativement plus élevé de développer la maladie chez les jeunes que chez les personnes d'âge moyen et les personnes âgées. Le risque était plus élevé chez les femmes que chez les hommes du même groupe d'âge. Ces résultats étaient similaires à ceux d'autres études25,29,30.

Initialement, nous avons défini les états normaux et anormaux des DFF en calculant des valeurs discrètes. L'état était considéré comme normal lorsque la valeur absolue était inférieure à la valeur moyenne et anormal lorsqu'elle était supérieure à la valeur moyenne.

La prévalence du MetS avec la valeur des DFF et des DNF dans l'état anormal.

La figure 3 a représenté la prévalence de MetS avec chaque DFF dans l'état anormal sous la différenciation ci-dessus et a comparé la prévalence de MetS avec chaque DNF dans l'état anormal. Le DNF était considéré comme anormal lorsque sa valeur était supérieure à 0. La prévalence du MetS avec les DFF était significativement plus élevée que celle avec les DNF, ce qui indiquait que les DFF pouvaient plus efficacement distinguer les personnes qui avaient plus de chances de développer le MetS au cours de l'année à venir. La prévalence la plus élevée (0,24) a été observée lorsque TG_DFF dépassait la valeur moyenne, suivie de la prévalence de FGLU_DFF (0,23). La valeur de DFF reflète l'ampleur du changement au cours des 4 dernières années. Plus la valeur de DFF est grande, plus l'ampleur du changement est grande et plus la prévalence de MetS est élevée.

Nous avons également évalué l'effet des anomalies du DFF sur la survenue de la maladie au cours de l'année à venir, comme le montrent les tableaux 4 et 5. Nous avons constaté que les anomalies du TG_DFF augmentaient le risque de maladie chez tous les hommes. De plus, les anomalies DBP_DFF augmentaient le risque de maladie chez les hommes d'âge moyen, et les anomalies WC_DFF augmentaient le risque de maladie chez les hommes jeunes et plus âgés. Chez les femmes, les anomalies WC_DFF augmentaient le risque de maladie avant l'âge de 60 ans, et les anomalies FGLU_DFF et TG_DFF augmentaient significativement le risque chez les femmes jeunes et d'âge moyen. Les femmes plus âgées avaient un risque plus élevé d'anomalies AST_DFF et FGLU_DFF, ce qui augmentait considérablement le risque de maladie.

Dans cette étude, nous avons utilisé des données longitudinales enregistrées sur cinq années consécutives pour construire un nouvel ensemble de fonctionnalités permettant d'examiner la prédiction du risque de MetS. En intégrant la différence entre la valeur annuelle et les limites normales de chaque facteur de risque avec la variation d'une année à l'autre, nous avons obtenu une compréhension plus complète de l'évolution des facteurs de risque. Nous avons évalué divers classificateurs sur différents ensembles de fonctionnalités en utilisant la méthode de validation croisée décuplé pour évaluer leur performance discriminative. Nous avons constaté que XGBoost surpassait les autres classificateurs et nous avons enregistré une AUC maximale de 0,944 en incorporant les fonctionnalités d'origine et les DFF. Nous avons comparé notre approche à celle d'autres études dans ce domaine et constaté que nos résultats étaient meilleurs. Nous avons également constaté que les DFF peuvent mieux fonctionner en capturant les interactions non linéaires entre les caractéristiques et la variable cible.

Nous avons analysé statistiquement les performances anormales de 16 indicateurs critiques pour différents groupes de sexe et d'âge de MetS sur la base des résultats du classement par importance des caractéristiques du classificateur XGBoost le plus performant. Les résultats ont montré que les populations malades et moyennes différaient dans la performance anormale des valeurs de caractéristique unique.

Parmi les caractéristiques originales, l'impact des anomalies des TG, du HDL-C, de l'AST et de l'IMC était important chez les hommes et les femmes, et de nombreuses autres études ont montré qu'il s'agissait de facteurs de risque importants. Après avoir analysé les caractéristiques originales, nous avons construit des DFF, attribué des états anormaux et normaux en fonction de leurs résultats numériques, puis analysé statistiquement les résultats numériques des DFF sous plusieurs angles. Nos résultats ont montré que lorsque la valeur d'un seul DFF dépassait la valeur moyenne, la prévalence des facteurs de risque dans la population correspondante augmentait. La prévalence la plus élevée a été observée pour TG_DFF, suivi de FGLU_DFF, ce qui impliquait que des valeurs élevées de TG_DFF et FGLU_DFF étaient les caractéristiques les plus importantes pour la prévalence. La prévalence de MetS avec des DFF anormaux était significativement plus élevée que celle des DNF anormaux, ce qui indique que les DFF peuvent mettre en évidence plus efficacement la population affectée. Nous avons également calculé les valeurs OR des DFF. Plus précisément, le TG_DFF anormal augmentait le risque de maladie chez tous les hommes, ce qui correspondait aux résultats du TG original décrit ci-dessus, indiquant que le TG anormal augmentait le risque le plus significativement chez les hommes. Les anomalies de WC_DFF augmentaient le risque chez les femmes de moins de 60 ans, et AST_DFF et FGLU_DFF étaient des facteurs de risque plus importants chez les femmes plus âgées. L'AST en tant que facteur de risque était également présent dans l'indice original, et l'effet de l'AST sur la maladie dans le groupe des personnes âgées était important. Ce facteur devrait être étudié plus avant car les rapports à ce sujet sont rares.

Pour résumer, dans cette étude, nous avons évalué de nouvelles fonctionnalités à l'aide de données médicales collectées sur cinq années consécutives. Nous avons trouvé une association entre l'apparition du MetS et des variables cliniques spécifiques, y compris la prévalence de la maladie et la performance de la salle d'opération dans différents groupes d'âge et de sexe. Les résultats ont montré que la performance de nouvelles fonctionnalités peut effectivement faire la distinction entre les populations malades et en bonne santé, et peut aider à comprendre la relation entre le mode de vie et la pathogenèse du MetS.

Cette étude comportait certaines limites. Premièrement, tous les échantillons de l'ensemble de données de cette étude provenaient de la province du Guangdong, en Chine, et par conséquent, les résultats expérimentaux pourraient avoir des caractéristiques régionales. Deuxièmement, il pourrait y avoir de meilleures formules pour remplacer les DFF proposées dans cette étude, et nous visons à continuer à rechercher de nouvelles méthodes de construction de fonctionnalités plus raisonnables et efficaces dans des études ultérieures afin de décrire plus en détail le développement des facteurs de risque.

Many researchers around the world have developed clinical criteria for MetS3.0.CO;2-S (1998)." href="#ref-CR31" id="ref-link-section-d65272394e1996"> 31,32,33,34. Pour éviter les incohérences causées par divers critères et mieux s'adapter au contexte local des données expérimentales, nous avons utilisé les critères proposés par les directives chinoises pour la prévention et le traitement du diabète de type 2 (édition 2017) dans cette étude pour identifier les patients atteints de MetS.

Selon les lignes directrices, les patients atteints de MetS peuvent être diagnostiqués en remplissant au moins trois des cinq conditions suivantes.

Obésité abdominale : tour de taille >= 90/85 cm (homme/femme).

Hyperglycémie : glycémie à jeun (FGLU) >= 6,1 mmol/L ou glycémie postprandiale (PG) sur 2 h >= 7,8 mmol/L et/ou diabète sucré précédemment diagnostiqué et traité.

Hypertension : TA>= 130/85 et hypertension précédemment diagnostiquée et traitée.

TG à jeun>= 1,70 mmol/L.

HDL-C à jeun<= 1,04 mmol/L.

Nous avons utilisé les données des examens médicaux fournies par le département de gestion de la santé du Southern Hospital de la Southern Medical University. L'ensemble de données contenait 1 039 564 dossiers de contrôle médical pour 546 918 participants dans 21 villes de niveau préfecture et districts et comtés subordonnés du sud de la Chine, y compris Guangzhou, Foshan, etc. Les critères d'inclusion ciblaient les personnes âgées de 18 à 80 ans, sur la base d'examens physiques continus. prises de 2009 à 2019.

Le personnel hospitalier a recueilli de nombreux indicateurs bruts, notamment des données anthropométriques, des paramètres sanguins, d'autres indicateurs biochimiques, des antécédents médicaux, le sexe et l'âge, en extrayant les valeurs enregistrées dans le rapport d'examen physique. Sur la base des données fournies par l'hôpital, nous avons d'abord dérivé deux caractéristiques supplémentaires à partir des variables anthropométriques disponibles, notamment le rapport taille-hanches (WHR) et l'indice de masse corporelle (IMC). Étant donné que nous visons à extraire de nouvelles caractéristiques à partir de valeurs d'indicateurs spécifiques pouvant refléter des changements temporels, nous avons extrait des données des caractéristiques numériques de type continu à 18 dimensions.

Après avoir déterminé les caractéristiques à extraire, nous avons nettoyé le jeu de données. Nous avons d'abord exclu les personnes ayant subi trop d'examens physiques (plus de 20). Nous avons ensuite supprimé les valeurs aberrantes pour chaque indicateur, y compris les enregistrements anormaux pour l'âge (supérieur à 80 ans), en fonction des limites supérieure et inférieure des indicateurs, telles que déterminées par les médecins. Après suppression des valeurs aberrantes, le traitement des valeurs manquantes était tout aussi important, car trop de valeurs manquantes peuvent rendre le modèle complexe. Nous avons utilisé différentes stratégies de remplissage pour le taux manquant, le type de données et la distribution des valeurs de chaque indicateur. Si le nombre de valeurs manquantes était important (plus de 70 % des données étaient manquantes), la caractéristique était supprimée. Pour les entités avec un petit nombre de valeurs manquantes, nous avons utilisé un rembourrage moyen si l'entité obéissait à une distribution normale et un rembourrage médian si elle obéissait à une distribution asymétrique.

Après prétraitement des données, nous avons obtenu des données structurées utilisables contenant 530 091 patients masculins et 398 793 patientes. Une description plus détaillée de ces caractéristiques extraites est présentée dans le tableau 6.

Cette étude a été approuvée par le comité académique de l'Université normale de Chine du Sud (n° d'approbation : SCNU-PHY-2020-063). Toutes les méthodes que nous avons utilisées dans l'étude respectaient les directives et réglementations éthiques pertinentes (la Déclaration d'Helsinki). Tous les patients ont signé un formulaire de consentement éclairé avant que leurs données ne soient incluses dans l'étude.

Cette étude a été menée pour comparer la performance différentielle des changements d'indicateurs entre ceux qui ont développé une maladie à partir d'un état sain et ceux qui sont restés en bonne santé. Nos résultats pourraient aider à la prévention et à l'intervention efficaces de la population examinée physiquement pour les facteurs de risque liés au MetS. Nous avons considéré les résultats de cinq années consécutives d'examens physiques pour chaque individu. Les caractéristiques extraites des enregistrements pluriannuels ont été utilisées comme données d'entrée pour identifier les caractéristiques qui pourraient représenter des changements physiques et physiologiques dans le corps au fil du temps.

La prédiction peut être considérée comme une classification supervisée, et les quatre premiers enregistrements utilisés comme entrées dans le modèle construit sur 5 ans étaient les caractéristiques sous l'état sain (MS_result = 0). Les patients souffrant de MetS l'année suivante ont été notés 1 ou 0. Par conséquent, un échantillon du modèle disposait de données sur plusieurs examens physiques consécutifs, représentant la situation numérique de chaque indice chaque année, comme le montre la figure 4. Après la construction le modèle, nous avons obtenu 15 661 échantillons valides, dont 1 338 et 14 323 échantillons ont souffert et n'ont pas souffert de MetS l'année suivante, respectivement.

Le diagramme schématique du modèle de prévision des risques MetS au cours de la prochaine année.

Premièrement, nous avons décrit la variation d'une année à l'autre des valeurs des indicateurs. Dans ce cas, la fonction de différence numérique (DNF) a été représentée par

où \(I_2\) et \(I_1\) représentent les valeurs spécifiques de l'indicateur pour l'année en cours et l'année précédente, respectivement. Ainsi, \(I\_DNF\) pourrait décrire le changement de valeur absolue de l'indicateur avec l'année.

Cependant, il ne suffisait pas d'avoir des caractéristiques différentielles numériques pour décrire la variation des caractéristiques dans les séries chronologiques. Lorsqu'un patient et une personne moyenne modifient simultanément la valeur exacte d'un indicateur, leur importance diffère. Par conséquent, nous avons introduit une fonction de pondération qui reflétait l'importance différente lorsque différentes valeurs étaient amenées à changer en fonction de valeurs différentes.

La fonction de pondération a les principales exigences suivantes.

L'indicateur produit des changements dans différentes valeurs et les pondérations de risque qu'il impose sont différentes.

Plus la valeur de chaque indicateur est élevée, plus le risque lors de la génération de changements est élevé, c'est-à-dire que la pondération du risque est une fonction croissante qui croît avec la valeur.

Le taux de croissance du risque le plus rapide se produit lorsque des changements qualitatifs se produisent autour des limites supérieure et inférieure de l'indicateur.

Nous avons obtenu en observant différents algorithmes de fonction que la formule sous-jacente de la fonction sigmoïde répond à nos exigences. L'image de la fonction sigmoïde est continue et lisse, strictement monotone et symétrique de centre (0,0.5). Par conséquent, la courbe de croissance du risque pourrait être décrite comme

où x est la différence entre la valeur actuelle de l'indicateur et la limite supérieure de la plage normale de cet indicateur, et a est un paramètre de fonction.

Selon les formules ci-dessus, la nouvelle caractéristique a été définie comme le produit de la fonction de poids de changement numérique et de la caractéristique de différence numérique de l'indicateur, comme indiqué dans

où la fonction S(x) est une fonction de pondération modélisée d'après la fonction sigmoïde, et \(I\_DNF\) est la différence entre les valeurs pour une certaine période de 2 ans. Le résultat est exprimé comme l'effet de la maladie provoqué par un changement spécifique de 2 ans à différentes valeurs.

Comme l'étude a été menée sur un échantillon d'années consécutives, nous avons obtenu trois nouvelles caractéristiques pour chaque indicateur, soit les nouvelles caractéristiques générées par la formule ci-dessus pour les années 1-2, 2-3 et 3-4. Pour combiner efficacement les trois périodes, nous avons attribué des poids différents aux nouvelles fonctionnalités pour chaque période, où les nouvelles fonctionnalités plus proches de l'heure actuelle ont des poids plus élevés, qui ont été déterminés à l'aide de la formule \(b^3 +b^2 +b ^1=1\). Enfin, la formule des nouvelles fonctionnalités a été présentée comme

où \(x_1\), \(x_2\) et \(x_3\) sont les différences entre les valeurs et la limite normale dans le passé chaque année. De plus, \(I_1\_DNF\), \(I_2\_DNF\) et \(I_3\_DNF\) sont les différences entre les valeurs des années 1-2, 2-3 et 3-4.

Nous avons réconcilié les paramètres a et b dans des travaux ultérieurs basés sur la validation croisée de l'apprentissage automatique pour atteindre des performances optimales. Étant donné que chaque indicateur avait pris différentes plages de valeurs, la signification du paramètre a consistait à mettre uniformément à l'échelle les plages de valeurs des différents indicateurs. Par conséquent, nous avons normalisé la valeur maximale de x par (1/valeur maximale des différents indicateurs) puis avons donné la valeur du paramètre \(a=50\) qui fonctionnait le mieux en apprentissage automatique selon différents degrés de mise à l'échelle. Pour le paramètre b, le paramètre optimal \(b=0,6\) a été sélectionné sur la base de la formule de pondération exacte comme ci-dessus avec les performances de l'apprentissage automatique.

Nous avons utilisé plusieurs algorithmes pour observer les performances des modèles prédictifs en apprentissage automatique pour 5 ans de données, y compris les algorithmes d'apprentissage automatique les plus couramment utilisés et l'algorithme de régression logistique traditionnel.

XGBoost : XGBoost se compose de plusieurs arbres de décision, dont l'arbre de décision est un modèle d'arbre de régression CART. L'idée principale de ce classificateur est d'apprendre en continu de nouveaux arbres de régression pour ajuster les résidus de la dernière prédiction, obtenant ainsi une très grande précision.

Random Forest (RF) : RF est un classificateur d'apprentissage automatique basé sur l'algorithme de bagging35, qui consiste également en une combinaison de plusieurs arbres de décision. Comparé au classificateur traditionnel à arbre unique, RF a une optimisation assez performante.

Empilement : l'empilement est un classificateur intégré basé sur l'ajout d'une autre couche de classificateurs au-dessus du classificateur d'origine, puis sur la sélection des étiquettes cibles prédites par la plupart des classificateurs par une méthode de vote. Dans cet article, nous laissons Stacking combiner XGBoost et RF.

Régression logistique (LR) : LR est un classificateur classique traditionnel, qui fonctionne de manière similaire à la régression linéaire, en supposant que les données obéissent à une certaine distribution, puis en utilisant un algorithme d'estimation de grande vraisemblance pour effectuer l'estimation des paramètres.

Dans nos expériences, la principale mesure utilisée pour déterminer les performances du classificateur était l'aire sous la courbe (AUC) de la courbe caractéristique de fonctionnement (ROC) du sujet. L'AUC avec capacité discriminative supérieure est de 1,0 et l'AUC sans capacité discriminative est de 0,5. Pour examiner de manière exhaustive les performances des classificateurs d'apprentissage automatique, nous avons également utilisé les métriques Accuracy, Sensitivity, Specificity, Precision et F1-score pour l'évaluation, définies comme

où TP (vrai positif), TN (vrai négatif), FP (faux positif) et FN (faux négatif) sont les valeurs de la matrice de confusion, et chaque résultat final a été soumis à une validation croisée multiplicative. Ensuite, nous avons pris leur moyenne et leur écart-type.

Les données à l'appui des conclusions de cette étude sont disponibles auprès de l'hôpital Nanfang, Southern Medical University, mais des restrictions s'appliquent à la disponibilité de ces données, qui ont été utilisées sous licence pour l'étude actuelle, et ne sont donc pas accessibles au public. Les données sont cependant disponibles auprès des auteurs sur demande raisonnable et avec l'autorisation de l'hôpital Nanfang, Southern Medical University.

Grundy, SM et al. Diagnostic et prise en charge du syndrome métabolique. Circulation 112, 2735–2752. https://doi.org/10.1161/CIRCULATIONAHA.105.169404 (2005).

Article PubMed Google Scholar

Lonardo, A., Ballestri, S., Marchesini, G., Angulo, P. & Loria, P. Stéatose hépatique non alcoolique : un précurseur du syndrome métabolique. Creuser. Foie Dis. 47, 181–190. https://doi.org/10.1016/j.dld.2014.09.020 (2015).

Article PubMed Google Scholar

Kang, Y., Park, S., Kim, S. & Koh, H. Force de la poignée chez les adolescents coréens atteints du syndrome métabolique en 2014-2015. J.Clin. Densitom. 23, 271–277. https://doi.org/10.1016/j.jocd.2018.09.002 (2020).

Article PubMed Google Scholar

Alberti, KGM, Zimmet, P. & Shaw, J. Le syndrome métabolique - une nouvelle définition mondiale. Lancette 366, 1059–1062. https://doi.org/10.1016/S0140-6736(05)67402-8 (2005).

Article PubMed Google Scholar

Ford, ES, Giles, WH & Dietz, WH Prévalence du syndrome métabolique chez les adultes américains résultats de la troisième enquête nationale sur la santé et la nutrition. JAMA 287, 356–359. https://doi.org/10.1001/jama.287.3.356 (2002).

Article PubMed Google Scholar

Shin Seungmin, JH Prévalence du syndrome métabolique dans les pays du Conseil de coopération du Golfe : méta-analyse d'études transversales. J.Exerc. Réhabilit. 16, 27–35. https://doi.org/10.1001/jama.287.3.356 (2020).

Article CAS PubMed PubMed Central Google Scholar

Prasun, P. Dysfonctionnement mitochondrial dans le syndrome métabolique. Biochimica et Biophysica Acta (BBA) - Base moléculaire de la maladie 1866, 165838, https://doi.org/10.1016/j.bbadis.2020.165838 (2020).

Scuter, A., Najjar, S., Muller, D., Andres, R. et Lakatta, EG P-302 : Le syndrome métabolique amplifie les augmentations associées à l'âge de l'épaisseur et de la rigidité vasculaires. Suis. J. Hypertens. 16, 145A-146A. https://doi.org/10.1016/S0895-7061(03)00467-9 (2003).

Article Google Scholar

Zimmet, P., Alberti, KGMM et Shaw, J. Implications mondiales et sociétales de l'épidémie de diabète. Nature 414, 782–787. https://doi.org/10.1038/414782a (2001).

Article ADS CAS PubMed Google Scholar

Šebeková, K., Gurecká, R., Csongová, M., Koborová, I. & Šebek, J. Estimation de la proportion de sujets sans syndrome métabolique présentant un risque cardiométabolique élevé à l'aide de deux scores de risque cardiométabolique continus : une étude transversale chez les individus de 16 à 20 ans. EUR. J. Pediatr. 178, 1243–1253. https://doi.org/10.1038/414782a (2019).

Article CAS PubMed Google Scholar

O'Neill, S. & O'Driscoll, L. Syndrome métabolique : un examen plus approfondi de l'épidémie croissante et de ses pathologies associées. Obés. Rév. 16, 1–12. https://doi.org/10.1111/obr.12229 (2015).

Article PubMed Google Scholar

Bonora, E. Le syndrome métabolique et les maladies cardiovasculaires. Annales Med. 38, 64–80. https://doi.org/10.1080/07853890500401234 (2006).

Article CAS Google Scholar

Yuna, H. et al. Prévalence du syndrome métabolique chez les adultes chinois en 2010-2012. Menton. J. Endémiol. 38, 212–215. https://doi.org/10.3760/cma.j.issn.0254-6450.2017.02.015 (2017).

Article Google Scholar

Scuteri, A. et al. Chemins longitudinaux vers le syndrome métabolique : peut-on prédire l'incidence du syndrome métabolique ? l'étude longitudinale de baltimore sur le vieillissement. J. Gérontol. Ser. A 64A, 590–598. https://doi.org/10.1093/gerona/glp004 (2009).

Article CAS Google Scholar

Meng, W. et al. Association entre les leucocytes et le syndrome métabolique chez les chinois han urbains : une étude de cohorte longitudinale. PloS un 7, e49875. https://doi.org/10.1371/journal.pone.0049875 (2012).

Article ADS CAS PubMed PubMed Central Google Scholar

Kerner, A. et al. Association entre des enzymes hépatiques élevées et la protéine c-réactive. Artérioscler. Thromb. Vasc. Biol. 25, 193–197. https://doi.org/10.1161/01.ATV.0000148324.63685.6a (2005).

Article CAS PubMed Google Scholar

Bener, A. et al. Indice d'obésité qui prédit mieux le syndrome métabolique : indice de masse corporelle, tour de taille, rapport taille-hanche ou rapport taille-hauteur. J. Obès. 2013, 269038. https://doi.org/10.1155/2013/269038 (2013).

Article PubMed PubMed Central Google Scholar

Sagun, G. et al. Application de mesures anthropométriques alternatives pour prédire le syndrome métabolique. Cliniques 69, 347–353. https://doi.org/10.6061/clinics/2014(05)09 (2014).

Article PubMed PubMed Central Google Scholar

Obermeyer, Z. & Emanuel, E. Prédire l'avenir - mégadonnées, apprentissage automatique et médecine clinique. Nouvel angl. J. Med. 375, 1216-1219. https://doi.org/10.1056/NEJMp1606181 (2016).

Article PubMed Google Scholar

Deo, R. Apprentissage automatique en médecine. Tirage 132, 1920–1930. https://doi.org/10.1161/CIRCULATIONAHA.115.001593 (2015).

Article PubMed PubMed Central Google Scholar

Szabo de Edelenyi, F. et al. Prédiction de l'état du syndrome métabolique sur la base de paramètres alimentaires et génétiques, à l'aide d'une forêt aléatoire. Gènes Nutr. 3, 173–6. https://doi.org/10.1007/s12263-008-0097-y (2008).

Article PubMed PubMed Central Google Scholar

Worachartcheewan, A. et al. Prédire le syndrome métabolique à l'aide de la méthode de la forêt aléatoire. Sci. World J. https://doi.org/10.1155/2015/581501 (2015).

Article Google Scholar

Karimi-Alavijeh, F., Jalili, S. & Sadeghi, M. Prédiction du syndrome métabolique à l'aide de l'arbre de décision et des méthodes de machine à vecteurs de support. ARYA Atheroscler. 12, 146-152 (2016).

PubMed PubMed Central Google Scholar

Choe, E. et al. Prédiction du syndrome métabolique à l'aide de modèles d'apprentissage automatique avec des informations génétiques et cliniques provenant d'une population saine non obèse. Génome. Inf. 16, e31. https://doi.org/10.5808/GI.2018.16.4.e31 (2018).

Article Google Scholar

Yang, H. et al. Prédiction du risque de syndrome métabolique assistée par apprentissage automatique basée sur une étude de 3 ans. Sci. Rep. 12, 2248. https://doi.org/10.1038/s41598-022-06235-2 (2022).

Article ADS CAS PubMed PubMed Central Google Scholar

Pedregosa, F. et al. Scikit-learn : apprentissage automatique en python. J.Mach. Apprendre. Rés. 12, 2825–2830 (2012).

MathSciNet MATHGoogle Scholar

Hunter, J. Matplotlib : Un environnement graphique 2D. Calcul. Sci. Ing. 9, 90–95. https://doi.org/10.1109/MCSE.2007.55 (2007).

Article Google Scholar

Lundberg, S. & Lee, S.-I. Une approche unifiée pour interpréter les prédictions des modèles. Dans Nips (2017).

Worachartcheewan, A. et al. Prédire le syndrome métabolique à l'aide de la méthode de la forêt aléatoire. Sci. World J. https://doi.org/10.1155/2015/581501 (2015).

Article Google Scholar

Wang, X. et al. Prévalence du syndrome métabolique chez les employés du nord-est de la Chine. Menton. Méd. Journal 128, 1989–1993. https://doi.org/10.4103/0366-6999.161337 (2015).

Article CAS Google Scholar

Alberti, G. & Zimmet, P. Definition, diagnosis and classification of diabetes mellitus and its complications. part 1: Diagnosis and classification of diabetes mellitus. provisional report of a who consultation. Diabetic Med. J. Br. Diabet. Assoc. 15, 539–53. 3.0.CO;2-S">https://doi.org/10.1002/(SICI)1096-9136(199807)15:7<539::AID-DIA668>3.0.CO;2-S (1998).

3.0.CO;2-S" data-track-action="article reference" href="https://doi.org/10.1002%2F%28SICI%291096-9136%28199807%2915%3A7%3C539%3A%3AAID-DIA668%3E3.0.CO%3B2-S" aria-label="Article reference 31" data-doi="10.1002/(SICI)1096-9136(199807)15:73.0.CO;2-S">Article CAS Google Scholar

Groupe d'experts sur la détection, l'E. et le traitement de l'hypercholestérolémie, A. Résumé analytique du troisième rapport du groupe d'experts du programme national d'éducation sur le cholestérol (NCEP) sur la détection, l'évaluation et le traitement de l'hypercholestérolémie chez les adultes (panel de traitement pour adultes iii). JAMA 285, 2486-2497, https://doi.org/10.1001/jama.285.19.2486(2001).

Alberti, G., Zimmet, P. & Shaw, J. Syndrome métabolique - une nouvelle définition mondiale. Une déclaration consensuelle de la fédération internationale du diabète. Diabétique Med. J. Br. Diabète. Assoc. 23, 469–80. https://doi.org/10.1111/j.1464-5491.2006.01858.x (2006).

Article CAS Google Scholar

Grundy, S. et al. Diagnostic et prise en charge du syndrome métabolique : déclaration scientifique d'une association américaine de cardiologie/institut national du cœur, des poumons et du sang. Courant. Avis. Cardol. 21, 1–6. https://doi.org/10.1161/CIRCULATIONAHA.105.169404 (2006).

Article PubMed Google Scholar

Calhoun, P., Su, X., Spoon, KM, Levine, RA et Fan, J. Random Forest 1–20 (John Wiley & Sons Ltd, 2021).

Google Scholar

Télécharger les références

Ce travail est soutenu par la Fondation des sciences naturelles de la province du Guangdong, en Chine (subvention n° 2022A1515010104), le programme scientifique et technologique de Guangzhou, en Chine (subvention n° 202206010127, 2023B03J1341 et 202201010084).

École de physique et d'ingénierie des télécommunications, Université normale de Chine du Sud (SCNU), Guangzhou, 510000, Chine

Guohan Zou

École d'électronique et d'ingénierie de l'information, SCNU, Foshan, 528225, Chine

Qinghua Zhong et Han Zhang

Guangdong Provincial Engineering Technology Research Center of Cardiovascular Individual Medicine & Big Data, SCNU, Guangzhou, 510006, Chine

Guohan Zou, Qinghua Zhong et Han Zhang

Department of Health Management, Nanfang Hospital, Southern Medical University, Guangzhou, 510515, Chine

Ping OU Yang, Xiaoxi Li & Xiaoying Lai

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

HZ, PO, Qh.Z., Xx.L. et Xy.L. conçu l'étude. PO, Xx.L. et Xy.L. étaient responsables de la gestion, de la collecte et du prétraitement des données. Gh.Z. a mené l'expérience et rédigé le manuscrit initial. HZ et Qh.Z. validé les résultats. Tous les auteurs ont révisé le manuscrit de manière critique et ont approuvé la version finale du manuscrit.

Correspondance à Qinghua Zhong ou Han Zhang.

Les auteurs ne déclarent aucun intérêt concurrent.

Springer Nature reste neutre en ce qui concerne les revendications juridictionnelles dans les cartes publiées et les affiliations institutionnelles.

Libre accès Cet article est sous licence Creative Commons Attribution 4.0 International, qui permet l'utilisation, le partage, l'adaptation, la distribution et la reproduction sur n'importe quel support ou format, à condition que vous accordiez le crédit approprié à l'auteur ou aux auteurs originaux et à la source, fournir un lien vers la licence Creative Commons et indiquer si des modifications ont été apportées. Les images ou tout autre matériel de tiers dans cet article sont inclus dans la licence Creative Commons de l'article, sauf indication contraire dans une ligne de crédit au matériel. Si le matériel n'est pas inclus dans la licence Creative Commons de l'article et que votre utilisation prévue n'est pas autorisée par la réglementation légale ou dépasse l'utilisation autorisée, vous devrez obtenir l'autorisation directement du détenteur des droits d'auteur. Pour voir une copie de cette licence, visitez http://creativecommons.org/licenses/by/4.0/.

Réimpressions et autorisations

Zou, G., Zhong, Q., OUYang, P. et al. Analyse prédictive du syndrome métabolique basée sur des données d'examen physique continu sur 5 ans. Sci Rep 13, 9132 (2023). https://doi.org/10.1038/s41598-023-35604-8

Télécharger la citation

Reçu : 18 septembre 2022

Accepté : 20 mai 2023

Publié: 05 juin 2023

DOI : https://doi.org/10.1038/s41598-023-35604-8

Toute personne avec qui vous partagez le lien suivant pourra lire ce contenu :

Désolé, aucun lien partageable n'est actuellement disponible pour cet article.

Fourni par l'initiative de partage de contenu Springer Nature SharedIt

En soumettant un commentaire, vous acceptez de respecter nos conditions d'utilisation et nos directives communautaires. Si vous trouvez quelque chose d'abusif ou qui ne respecte pas nos conditions ou directives, veuillez le signaler comme inapproprié.