View as:

ADR-003 : Cadre de sélection du fournisseur de compute

Statut

Accepté — 2026-04-16

Cette ADR ne tranche pas le choix de vendor. Elle fixe le cadre (critères, pondération implicite, seuils, calendrier de décision) qui servira à trancher dans une ADR-004 ultérieure, quand les PoCs et les retours de négociation auront nourri la décision.

Contexte

Le Master MaQI ouvre en septembre 2026. Le stockage est résolu : Wasabi S3 eu-central-1 (cf. docs/wasabi/, ADR-001). Reste le compute, où 7 vendors sont actuellement cartographiés dans docs/compute/ (GCP, AWS, Azure, Nebius, OVHcloud, S3NS, FluidStack).

Trois facteurs rendent cette décision non-triviale :

  1. Charge mixte CPU + GPU — le besoin MaQI est majoritairement CPU (market data, time series, point-in-time), avec un filet de GPU marginal (1 cours de M2 sur les diffusion models, LLMs légers pour le textuel financier). Les fournisseurs du marché sont majoritairement GPU-first.
  2. Pattern d'usage burst + long-terme — étudiants concentrés sur 1-2 semaines avant les exams (pic CPU intense), enseignants en usage régulier long (préparation, recherche). Classique dimensionnement "réservé + on-demand".
  3. Dynamique de marché egress 2024-2027 — voir docs/compute/cost-model.md. Les tarifs egress sont sous pression régulatoire (EU Data Act, suppression switching charges le 12 janvier 2027) et concurrentielle (neoclouds, acteurs souverains EU). Le différentiel est matériel aujourd'hui (~€600/an pour MaQI), structurellement temporaire à l'horizon 2027.

Une semaine de tour d'horizon vendor a eu lieu 14-17 avril 2026 : Nebius (call 16/04 avec Mankaran Ahluwalia), Gradium (désambigüé — pas un vendor compute, voir docs/compute/README.md), S3NS (meeting programmé 17/04, call de confiance Polytechnique), OVHcloud (déjà utilisé en production pour le stream S&P Global via VM 135.125.134.132).

Sans cadre partagé, la décision risque de pencher vers la familiarité (OVH car déjà en prod) ou vers le branding (Nebius = provider de Yann LeCun) plutôt que vers un critère objectivé.

Décision

1. Six axes de sélection, avec priorisation explicite

Repris et élargis depuis docs/compute/README.md §Axes de décision. L'ordre exprime la priorité en cas d'arbitrage :

flowchart TB
    A1["1. Coût réseau / egress<br>(cost-model.md, ~€600/an MaQI)"]
    A2["2. Souveraineté / RGPD<br>(licence S&P non-redistribution)"]
    A3["3. Proximité Wasabi<br>(eu-central-1 Frankfurt)"]
    A4["4. Notebook-first<br>(UX étudiants, 40 comptes)"]
    A5["5. Credits recherche / OCRE<br>(enveloppe Master)"]
    A6["6. Multi-provider via Terraform<br>(cible Athena-like CAL)"]
    A1 --> A2 --> A3 --> A4 --> A5 --> A6
    style A1 fill:#ffd,stroke:#cc0
    style A2 fill:#ffd,stroke:#cc0
    style A6 fill:#eef,stroke:#448

1 — Coût réseau / egress (critère dominant 2026)

La projection annuelle MaQI est de ~8 TB d'egress côté compute (résultats étudiants vers Wasabi + téléchargements locaux). Différentiel 2026 :

Ce critère est dominant tant que nous sommes avant le 12 janvier 2027 (Data Act UE) et que les budgets Master sont contraints.

2 — Souveraineté / RGPD

Contrainte explicite de CAL (docs/cal/tech-solutions.md C1) : non-redistribution des données S&P Global, stockage et traitement dans une juridiction EU. SecNumCloud 3.2 (S3NS) apporte un atout additionnel "trust labélisé" mais n'est pas une exigence contractuelle du programme MaQI à date.

3 — Proximité Wasabi

Wasabi est en eu-central-1 (Frankfurt). Les vendors avec une région à Francfort ou Amsterdam (OVH SBG/FR, AWS eu-central-1, Azure westeurope, S3NS FR via GCP europe-west) sont préférés pour la latence de lecture S3.

4 — Notebook-first

Le Master cible 40 étudiants (25 M1 + 25 M2 la 3e année). L'infrastructure doit minimiser le setup. Colab (GCP), SageMaker Studio (AWS), AI Notebooks (OVH), Azure ML Studio sont les candidats natifs. FluidStack et Nebius nécessitent un déploiement JupyterHub par l'équipe infra.

5 — Credits recherche / canaux institutionnels

6 — Multi-provider via Terraform

Cible architecturale exprimée par CAL : une pile Athena-like server-less redéployable sur \(\geq\) 2 providers. Privilégie les stacks à API ouverte (S3-compatible, Kubernetes, Trino/Presto) sur les services propriétaires (BigQuery, Synapse, Redshift natif).

2. Contraintes d'éligibilité (non-négociables)

Reprises des docs/cal/tech-solutions.md + ADR-002 §3 :

3. Calendrier de décision

JalonÉchéanceLivrable
Tour d'horizon vendorfini (14-17 avril)docs/compute/vendors.yaml (7 entrées)
Meeting S3NS17 avril 2026Réponses aux questions de docs/compute/s3ns.md §Critères
Retour Nebiussemaine 21 avrilProposition Academy / Mankaran + Artem
Chiffrage enveloppe compute MaQIfin avrilDocument (à créer) docs/compute/sizing.md
PoC sur 2 vendors candidatsmaiComparable stream S&P + notebook étudiant + writeback
Activation OCRE via DSI Polytechniquemai (parallèle)Confirmation éligibilité
ADR-004 choix vendorfin mai / mi-juin 2026Décision pour la rentrée septembre

4. Anti-patterns à éviter

Conséquences

Positives

Négatives

Action à envisager

Références