Background: Current stroke prediction models, relying solely on traditional medical data, overlook the role of Social Determinants of Health (SDoH) like socioeconomic status and education. This narrow focus can lead to inaccurate predictions, potentially exacerbating healthcare disparities and hindering the development of efective preventive measures. This work investigates the role of SDoH in stroke and how incorporating SDoH data into AI models can improve stroke prediction, ultimately empowering healthcare providers with a more holistic view of patient risk for better decision-making and equitable healthcare delivery.
Research Objectives:
Method: The study employs datasets from the Institut de la statistique du Québec
that include both clinical indicators (e.g. diabetes, heart disease, weight) and SDoH (e.g.economic, neighbourhood conditions). We applied seven machine learning models (Random Forest), Gradient Boosting Machine (GBM), CatBoost (CB), XGBoost (XGB), Light Gradient Boosting Machine (LGBM), Neural Networks (NN), and K-Nearest Neighbors (KNN) alongside XAI techniques to investigate the role SDoH plays in the models’ predictive performances. XAI methods such as SHAP (SHapley Additive exPlanations) and LIME (Local Interpretable Model-agnostic Explanations) were implemented, shedding light on the infuence of SDoH in the algorithms’ predictions. Performance of models was evaluated using standard metrics such as accuracy, precision, recall, F1 score and AUC (Area under the curve).
Results: Our study investigated the impact of incorporating SDoH data into stroke prediction models. SDoH data variably improved performance depending on the model and specifc SDoH factors incorporated, illustrating its important role alongside traditional medical data in assessing stroke risk. Our LGBM model showed maximum improvement on incorporation of SDoH features where its accuracy improved by 11.2% (from 65.9% to 77.1%). The inclusion of demographic, economic, and personal SDoH factors were the most infuential. XAI methods revealed self-perceived health and stress levels as key factors for stroke prediction, emphasizing the importance of personal well-being in stroke assessment. Notably, the Light Gradient Boosting Machine (LGBM) model achieved the best performance, demonstrating an Area Under the Curve (AUC) of 81%. This translates to accuracy of 77.6%, precision of 78.6%, recall of 75.5%, and F1 score of 77.0%, showcasing LGBM’s profciency in handling the complex relationships within SDoH data. These fndings suggest the importance and potential of SDoH-integrated AI models for improved
stroke prediction. Conclusion: Our fndings highlight the role of SDoH data in building accurate and equitable healthcare models. Integrating SDoH factors improve stroke prediction accuracy by 1% to 3%, and foster fairer and more comprehensive patient risk assessments by considering the broader social and environmental infuences on health. Furthermore, XAI techniques provide deeper insights into how SDoH and other factors contribute to predictions, promoting transparency and interpretability in these AI-driven solutions. This transparency is essential for building trust and ensuring ethically sound decision-making in healthcare.
Contexte: Les modèles actuels de prédiction des AVC, qui reposent uniquement sur des données médicales traditionnelles, négligent le rôle des déterminants sociaux de la santé (DSS) tels que le statut socioéconomique et l’éducation. Cette focalisation étroite peut entraîner des prédictions inexactes, potentiellement exacerber les disparités en matière de santé et entraver le développement de mesures préventives efcaces. Ce travail examine le rôle des DSS dans les AVC et comment l’intégration des données DSS dans les modèles d’IA peut améliorer la prédiction des AVC, en donnant aux prestataires de soins de santé une vue plus holistique du risque des patients pour une meilleure prise de décision et une prestation de soins plus équitable.
Objectifs de recherche:
Méthode: L’étude utilise des ensembles de données de l’Institut de la statistique du Québec incluant à la fois des indicateurs cliniques (par exemple, diabète, maladies cardiaques, poids) et des DSS (par exemple, conditions économiques et de voisinage). Nous avons appliqué sept modèles d’apprentissage automatique (Random Forest, Gradient Boosting Machine (GBM), CatBoost (CB), XGBoost (XGB), Light Gradient Boosting Machine (LGBM), réseaux de neurones (NN) et K-Nearest Neighbors (KNN) ainsi que des techniques XAI pour examiner le rôle des DSS dans les performances prédictives des modèles. Les méthodes XAI telles que SHAP (SHapley Additive exPlanations) et LIME (Local Interpretable Model-agnostic Explanations) ont été mises en œuvre, éclairant l’infuence des DSS dans les prédictions des algorithmes. La performance des modèles a été évaluée en utilisant des métriques standard telles que la précision, la sensibilité, la spécifcité, le score F1 et l’AUC (aire sous la courbe).
Résultats: Notre étude a examiné l’impact de l’intégration des données DSS dans les modèles de prédiction des AVC. Les données DSS ont amélioré les performances de manière variable en fonction du modèle et des facteurs DSS spécifques incorporés, illustrant leur rôle important aux côtés des données médicales traditionnelles dans l’évaluation du risque d’AVC. Notre modèle LGBM a montré une amélioration maximale avec l’incorporation des caractéristiques DSS, où sa précision a augmenté de 11,2 % (de 65,9 % à 77,1 %). L’inclusion de facteurs DSS démographiques, économiques et personnels a été la plus infuente. Les méthodes XAI ont révélé que la santé perçue et les niveaux de stress étaient des facteurs clés pour la prédiction des AVC, soulignant l’importance du bien-être personnel dans l’évaluation des AVC. Notamment, le modèle Light Gradient Boosting Machine (LGBM) a obtenu la meilleure performance, démontrant une aire sous la courbe (AUC) de 81 %. Cela se traduit par une précision de 77,6 %, une sensibilité de 75,5 %, une spécifcité de 78,6 % et un score F1 de 77,0 %, montrant la capacité du LGBM à gérer les relations complexes au sein des données DSS. Ces résultats suggèrent l’importance et le potentiel des modèles d’IA intégrant les DSS pour une meilleure prédiction des AVC.
Conclusion: Nos résultats soulignent le rôle des données DSS dans la construction de modèles de santé précis et équitables. L’intégration des facteurs DSS améliore la précision de la prédiction des AVC de 1 % à 3 % et favorise des évaluations des risques des patients plus justes et plus complètes en tenant compte des infuences sociales et environnementales sur la santé. De plus, les techniques XAI fournissent des informations plus approfondies sur la contribution des DSS et d’autres facteurs aux prédictions, favorisant la transparence et l’interprétabilité de ces solutions pilotées par l’IA. Cette transparence est essentielle pour instaurer la confance et garantir une prise de décision éthique en matière de soins de santé.