Sprint MaQI — 2026-04-14
Public : Emmanuel, Charles-Albert, Wissal. Objectif M1 : rendre visible et actionnable ce que Charles-Albert partage sur son Google Drive, et poser un premier catalogue de providers qui servira de source unique pour les décisions d'achat / négociation.
Contexte
Charles-Albert (CAL) centralise dans son dossier partagé Google Drive
(~/gdrive/cal-shared/) deux documents de travail qui décrivent
l'intégralité de la stratégie data du Master AI for Market & Quantitative
Investment :
Datasets pipeline for MaQI.docx— l'inventaire vivant : données détenues (S&P Global), données gratuites, données à acheter, données à négocier, et providers à documenter.Tech solutions for MaQI.docx— les contraintes techniques (non-redistribution, S3 egress, accès étudiants vs. chercheurs) et la piste d'architecture pressentie (Wasabi/Backblaze + Athena).
Ces documents sont des sources vivantes, rédigées en dehors du repo. Ils ne peuvent pas être la vérité de terrain pour un travail d'ingénierie : on ne peut pas les lire en ligne, les diff, les lier depuis un notebook, ni les citer depuis un ticket.
Objectif M1
Transformer le contenu CAL en artefacts versionnés dans le repo MaQI, pour :
- pouvoir relire les décisions CAL depuis n'importe quel poste, hors-ligne,
- éviter que deux personnes partent de versions divergentes des sources,
- fournir à Charles-Albert un retour structuré (catalogue de providers) qu'il puisse corriger / compléter sans quitter l'environnement repo.
Livrables
| # | Livrable | Chemin |
|---|---|---|
| 1 | Copie markdown idempotente des docs CAL | docs/cal/ |
| 2 | Script de re-synchronisation depuis ~/gdrive/cal-shared/ | scripts/sync-cal-docs.sh |
| 3 | Catalogue de providers (source machine-lisible) | docs/providers/catalog.yaml |
| 4 | Catalogue de providers (vue humaine, publique CAL) | docs/providers/README.md |
| 5 | Ce brief de sprint | docs/sprint/2026-04-14-maqi-sprint.md |
Flux de synchronisation
flowchart LR
gdrive["~/gdrive/cal-shared/<br>(source CAL)"]
docx["*.docx / *.pdf"]
script["scripts/sync-cal-docs.sh<br>(pandoc)"]
md["docs/cal/*.md<br>(versionné)"]
catalog["docs/providers/catalog.yaml<br>(curé à la main)"]
readme["docs/providers/README.md<br>(lisible CAL)"]
gdrive --> docx
docx -->|resync| script
script --> md
md -->|extraction manuelle| catalog
catalog --> readme
style gdrive fill:#eef,stroke:#448
style script fill:#fed,stroke:#c60
style md fill:#dfd,stroke:#0a0
style catalog fill:#dfd,stroke:#0a0
style readme fill:#dfd,stroke:#0a0
La synchronisation est à sens unique : gdrive → repo. Les
corrections apportées au catalogue retournent vers Charles-Albert par
revue directe du repo, pas par édition du docx. Cela évite le
problème classique de la double vérité.
Hors périmètre
- Pas d'automatisation cron de la synchronisation (manuel, on run
scripts/sync-cal-docs.shà la demande). - Pas d'intégration du catalogue dans un notebook ou dans le bucket S3 (prévu pour un sprint ultérieur).
- Pas de mise à jour des contrats ni de scrap des sites providers.
Définition de terminé (M1)
- [x]
docs/cal/contient le markdown des deux docs CAL avec attribution en frontmatter (source, date de sync, hash). - [x]
scripts/sync-cal-docs.shest idempotent et documenté. - [x]
docs/providers/catalog.yamlliste au minimum tous les providers nommés par CAL, classés par statut (owned,free,to_buy,to_negotiate,to_document). - [x]
docs/providers/README.mdest lisible par Charles-Albert sans avoir à consulter le YAML. - [x] Un commit unique regroupe ces artefacts et nomme CAL comme source.