ML Training — ETF Sentiment

⚙️ Paramètres d'entraînement

Données : articles de sentiment de la DB · exclusion 7 derniers jours
Features : TF-IDF + VADER + prix (MA20, ret J-1, ret 7j, volatilité)
Sélection : meilleur modèle choisi sur jeu de validation (R² val)

Données

Échantillons minimum

Échantillons maximum (proportionnel si dates)

⚠️ Serveur 1 GB RAM — recommandé : max 3 000 échantillons, TF-IDF ≤ 150, arbres ≤ 50. Au-delà le conteneur peut crasher.

Début données (optionnel)

Fin données (optionnel)

Cible d'entraînement

Ce que le modèle doit prédire

Split temporel

Train (0.5–0.9)

Validation (0.05–0.3)

Test (auto)

Modèles à entraîner

🌲 Random Forest 📈 Gradient Boosting 📐 Ridge Regression

TF-IDF

Features TF-IDF (50–1000)

Plus de features = plus lent, mais potentiellement plus précis

Random Forest

Arbres (10–500)

Profondeur max (2–20)

Min feuille (1–50)

Gradient Boosting

Estimateurs (10–500)

Profondeur max (2–10)

Taux d'apprentissage (0.005–0.5)

Ridge Regression

Alpha (régularisation) (0.001–1000)

Plus grand = plus de régularisation (évite l'overfitting)

📊 Statut

Inactif