Sprint MaQI — 2026-04-14

Public : Emmanuel, Charles-Albert, Wissal. Objectif M1 : rendre visible et actionnable ce que Charles-Albert partage sur son Google Drive, et poser un premier catalogue de providers qui servira de source unique pour les décisions d'achat / négociation.

Contexte

Charles-Albert (CAL) centralise dans son dossier partagé Google Drive (~/gdrive/cal-shared/) deux documents de travail qui décrivent l'intégralité de la stratégie data du Master AI for Market & Quantitative Investment :

Datasets pipeline for MaQI.docx — l'inventaire vivant : données détenues (S&P Global), données gratuites, données à acheter, données à négocier, et providers à documenter.
Tech solutions for MaQI.docx — les contraintes techniques (non-redistribution, S3 egress, accès étudiants vs. chercheurs) et la piste d'architecture pressentie (Wasabi/Backblaze + Athena).

Ces documents sont des sources vivantes, rédigées en dehors du repo. Ils ne peuvent pas être la vérité de terrain pour un travail d'ingénierie : on ne peut pas les lire en ligne, les diff, les lier depuis un notebook, ni les citer depuis un ticket.

Objectif M1

Transformer le contenu CAL en artefacts versionnés dans le repo MaQI, pour :

pouvoir relire les décisions CAL depuis n'importe quel poste, hors-ligne,
éviter que deux personnes partent de versions divergentes des sources,
fournir à Charles-Albert un retour structuré (catalogue de providers) qu'il puisse corriger / compléter sans quitter l'environnement repo.

Livrables

#	Livrable	Chemin
1	Copie markdown idempotente des docs CAL	`docs/cal/`
2	Script de re-synchronisation depuis `~/gdrive/cal-shared/`	`scripts/sync-cal-docs.sh`
3	Catalogue de providers (source machine-lisible)	`docs/providers/catalog.yaml`
4	Catalogue de providers (vue humaine, publique CAL)	`docs/providers/README.md`
5	Ce brief de sprint	`docs/sprint/2026-04-14-maqi-sprint.md`

Flux de synchronisation

flowchart LR
    gdrive["~/gdrive/cal-shared/<br>(source CAL)"]
    docx["*.docx / *.pdf"]
    script["scripts/sync-cal-docs.sh<br>(pandoc)"]
    md["docs/cal/*.md<br>(versionné)"]
    catalog["docs/providers/catalog.yaml<br>(curé à la main)"]
    readme["docs/providers/README.md<br>(lisible CAL)"]

    gdrive --> docx
    docx -->|resync| script
    script --> md
    md -->|extraction manuelle| catalog
    catalog --> readme

    style gdrive fill:#eef,stroke:#448
    style script fill:#fed,stroke:#c60
    style md fill:#dfd,stroke:#0a0
    style catalog fill:#dfd,stroke:#0a0
    style readme fill:#dfd,stroke:#0a0

La synchronisation est à sens unique : gdrive → repo. Les corrections apportées au catalogue retournent vers Charles-Albert par revue directe du repo, pas par édition du docx. Cela évite le problème classique de la double vérité.

Hors périmètre

Pas d'automatisation cron de la synchronisation (manuel, on run scripts/sync-cal-docs.sh à la demande).
Pas d'intégration du catalogue dans un notebook ou dans le bucket S3 (prévu pour un sprint ultérieur).
Pas de mise à jour des contrats ni de scrap des sites providers.

Définition de terminé (M1)

[x] docs/cal/ contient le markdown des deux docs CAL avec attribution en frontmatter (source, date de sync, hash).
[x] scripts/sync-cal-docs.sh est idempotent et documenté.
[x] docs/providers/catalog.yaml liste au minimum tous les providers nommés par CAL, classés par statut (owned, free, to_buy, to_negotiate, to_document).
[x] docs/providers/README.md est lisible par Charles-Albert sans avoir à consulter le YAML.
[x] Un commit unique regroupe ces artefacts et nomme CAL comme source.