Pipeline d'entraînement avec contexte de prix réels — split 70/15/15 ordonné dans le temps
⚙️ Paramètres d'entraînement
Données : articles de sentiment de la DB · exclusion 7 derniers jours Features : TF-IDF + VADER + prix (MA20, ret J-1, ret 7j, volatilité) Sélection : meilleur modèle choisi sur jeu de validation (R² val)
Données
⚠️ Serveur 1 GB RAM — recommandé : max 3 000 échantillons, TF-IDF ≤ 150, arbres ≤ 50. Au-delà le conteneur peut crasher.
Cible d'entraînement
⚠️ Mode prévisionnel : le modèle apprend à prédire le rendement du prix J+1 après chaque article.
Les articles sans données de prix disponibles pour la date cible seront exclus. Nécessite des données de prix ETF historiques bien renseignées.
Split temporel
Modèles à entraîner
TF-IDF
Plus de features = plus lent, mais potentiellement plus précis
Random Forest
Gradient Boosting
Ridge Regression
Plus grand = plus de régularisation (évite l'overfitting)
📊 Statut
Inactif
Démarré le
—
· 0%
—
Échantillons
Nombre total d'articles utilisés pour l'entraînement, répartis en train/val/test.
—
R² Validation
sélection modèle
R² (coeff. de détermination) 1.0 = parfait · 0.0 = pas mieux que la moyenne · <0 = pire que la moyenne. Utilisé pour choisir le meilleur modèle.
—
R² Test
holdout final
R² sur jeu test Mesure la qualité de généralisation du modèle sur des données jamais vues. >0.3 = acceptable · >0.5 = bon · >0.7 = excellent
—
MAE Test
erreur absolue moy.
MAE (Mean Absolute Error) Erreur moyenne en unités de sentiment [-1, 1]. <0.05 = excellent · <0.1 = bon · >0.2 = à améliorer