Ce dĂ©pĂŽt contient deux scripts Python complets et reproductibles illustrant une mise en Ćuvre rigoureuse du machine learning supervisĂ©, en rĂ©gression et en classification, avec :
préparation des données propre,
pénalisations (LASSO, Ridge, Elastic Net),
validation croisée interne + externe,
prĂ©dictions honnĂȘtes (out-of-sample),
métriques finales globales.
đ§ Comparer plusieurs modĂšles de rĂ©gression linĂ©aire pĂ©nalisĂ©e sur le jeu de donnĂ©es Ozone, en respectant une validation croisĂ©e externe stricte.
MCO (régression linéaire classique)
LASSO
Ridge
Elastic Net (α = 0.5)
đ MĂ©thodologie
Encodage des variables catégorielles (dummies)
Standardisation apprise uniquement sur le train
Validation croisée interne pour le choix des hyperparamÚtres
Validation croisĂ©e externe (10 blocs) pour des prĂ©dictions honnĂȘtes
Agrégation finale des prédictions
đ Ăvaluation
RMSE globale calculĂ©e sur lâensemble des prĂ©dictions out-of-sample
Sauvegarde :
PREV_regression_base.csv â toutes les prĂ©dictions
perf_regression_base.csv â tableau de performance
đŻ Objectif
Comparer plusieurs variantes de régression logistique pénalisée sur le jeu de données SAheart (maladie coronarienne).
đ§Ș ModĂšles implĂ©mentĂ©s
Logistique non pénalisée
Logistique LASSO
Logistique Ridge
Logistique Elastic Net
đ MĂ©thodologie
Construction de la matrice de design via patsy
Standardisation intégrée dans des Pipeline
Validation croisée interne pour le choix de λ
Validation croisĂ©e externe (10 blocs) pour des probabilitĂ©s honnĂȘtes
Grilles de pénalisation construites de maniÚre contrÎlée
đ Ăvaluation
AUC globale calculée sur toutes les observations
Sauvegarde :
PROB_classif.csv â probabilitĂ©s prĂ©dites
perf_classif.csv â AUC par modĂšle