Historique des synchronisations Wasabi
Journal chronologique des événements de sync vers Wasabi. Chaque entrée documente ce qui a été fait, par qui, avec quel outil, depuis quelle source. Le but est de pouvoir retracer la provenance d'un fichier sans deviner.
Convention : une entrée par événement de sync, en ordre chrono inverse (le plus récent en haut). Format stable pour faciliter les diffs.
Statut de ce fichier : journal opérationnel actif tant que les uploads sont en cours. Une fois tous les statuts stabilisés (tous les buckets complètement uploadés), les entrées futures pourront être enregistrées directement dans les messages de commit (
chore(wasabi): sync …) plutôt qu'ici — ce fichier deviendra alors une archive historique de la phase d'amorçage.
Format d'entrée
### YYYY-MM-DD — <libellé>
| Champ | Valeur |
|-------|--------|
| Qui | <personne> |
| Source | <chemin / volume> |
| Cible | `wasabi:<bucket>/[...]` |
| Outil | rclone sync / rsync / autre — + flags pertinents |
| Volume | <taille approx> / <nb fichiers> |
| Durée | <observée ou estimée> |
| Vérification | <méthode : MD5 vendor, manifest SHA-256, comparaison taille> |
| Anomalies | <liens vers anomalies.md ou issue GitHub> |
| Commit | <sha du commit de référence> |
2026-04-15 — S&P Global Xpressfeed — amorçage du stream (preview partiel)
| Champ | Valeur |
|---|---|
| Qui | Emmanuel Sérié |
| Source | SFTP sftp2.spglobal.com:22 (user Ecol5648PC, remote rclone spglobal:) |
| Cible | wasabi:maqi-spglobal/ (bucket créé ce jour, région eu-central-1) |
| Outil | just sp-stream dans ~/dev/ESERIE/MaQI-perso/data-upload/ \(\to\) rclone copy streaming direct SFTP \(\to\) S3 (pas de cache disque). Flags : --transfers 4 --checkers 8 --s3-chunk-size 64M --s3-upload-concurrency 4 --retries 10 --retries-sleep 30s |
| Volume transféré | 10.528 MiB, 6 objets (source totale : 3.747 TiB, 15 530 objets) |
| Durée | ~secondes (preview Ctrl+C volontaire) |
| Vérification | fichiers .cnt par table (manifest Xpressfeed <table>|<type>|<row_count>) |
| Anomalies | — (stream interrompu volontairement, sera repris depuis une VM OVH dédiée) |
| Commit | cf. commits docs(wasabi): … et feat(notebook): … |
Préalables infrastructure réalisés ce jour :
- Bucket Wasabi
maqi-spglobalcréé viarclone mkdir. - Policy IAM
maqi-readwriteétendue (version v3) pour inclurearn:aws:s3:::maqi-spglobaletarn:aws:s3:::maqi-spglobal/*— propagation automatique à tous les users du groupe MaQI. - Remote rclone
spglobal:ajouté dans~/.config/rclone/rclone.conf(password S&P obscurci viarclone obscure). - Cibles
sp-list,sp-status,sp-stream,sp-stream-dry,sp-probe,sp-probe-clean,sp-cleanup,sp-checkajoutées au justfile~/dev/ESERIE/MaQI-perso/data-upload/justfile.
Reprise prévue : complétion du stream depuis une VM OVH (région DE1 ou
GRA, Public Cloud, bande passante incluse) pour libérer la machine locale.
L'opération est idempotente — rclone copy spglobal: wasabi:maqi-spglobal
reprend où elle s'est arrêtée.
2026-04-14 — Introduction du journal (pas de sync)
| Champ | Valeur |
|---|---|
| Qui | Emmanuel Sérié |
| Source | — |
| Cible | — |
| Outil | — |
| Volume | — |
| Durée | — |
| Vérification | snapshot figé dans state.md |
| Anomalies | — |
Note : cette entrée documente la création du journal lui-même. Aucun
transfert n'a eu lieu ce jour. Le snapshot state.md a été
généré à partir de l'état courant des buckets, qui était le résultat
des syncs d'avril 2026 listés ci-dessous.
2026-04-08 — Upload initial des 4 datasets primaires
Événement principal : création des buckets par dataset et upload initial depuis la copie locale de l'équipe.
2026-04-08 — maqi-databento (lot Databento XNAS)
| Champ | Valeur |
|---|---|
| Qui | Emmanuel Sérié |
| Source | ~/MaQI - data/databento/ (copie locale du disque Seagate) |
| Cible | wasabi:maqi-databento/ |
| Outil | rclone sync --transfers 8 --checkers 16 --fast-list --progress |
| Volume | 1.430 TiB / 3 042 fichiers (3 lots XNAS) |
| Durée | ~1h40 (estimation, réseau mesuré ~240 MB/s) |
| Vérification | manifest.json par lot (SHA-256 + taille) fourni par Databento |
| Anomalies | aucune |
| Commit | 6534c1b (data-upload justfile) |
2026-04-08 — maqi-ravenpack
| Champ | Valeur |
|---|---|
| Qui | Emmanuel Sérié |
| Source | ~/MaQI - data/ravenpack/ |
| Cible | wasabi:maqi-ravenpack/ |
| Outil | rclone sync (flags idem) |
| Volume | 249.21 GiB / 14 fichiers |
| Durée | ~17 min |
| Vérification | comparaison de tailles (pas de checksum vendor) |
| Anomalies | année 2020 absente à la source — anomalies.md §2 |
| Commit | 6534c1b |
2026-04-08 — maqi-causalitylink
| Champ | Valeur |
|---|---|
| Qui | Emmanuel Sérié |
| Source | ~/MaQI - data/causalitylink/ |
| Cible | wasabi:maqi-causalitylink/ |
| Outil | rclone sync (flags idem) |
| Volume | 186.91 GiB / 21 860 fichiers |
| Durée | ~13 min |
| Vérification | comparaison de tailles (pas de checksum vendor) |
| Anomalies | aucune — snapshot unique 202108131432 |
| Commit | 6534c1b |
2026-04-08 — maqi-gdelt
| Champ | Valeur |
|---|---|
| Qui | Emmanuel Sérié |
| Source | ~/MaQI - data/gdelt/ |
| Cible | wasabi:maqi-gdelt/ |
| Outil | rclone sync (flags idem) |
| Volume | 47.78 GiB / 4 658 fichiers |
| Durée | ~3 min |
| Vérification | fichiers md5sums + filesizes fournis par GDELT |
| Anomalies | 3 fichiers (2 manquants, 1 MD5 divergent) — anomalies.md §1 |
| Commit | 6534c1b |
2026-04-08 — Bucket maqi (données de test)
| Champ | Valeur |
|---|---|
| Qui | Emmanuel Sérié |
| Source | notebook notebooks/maqi-colab-setup.ipynb |
| Cible | wasabi:maqi/test-data/, wasabi:maqi/tests/ |
| Outil | upload Python via s3fs (getpass) |
| Volume | 21.05 KiB / 2 fichiers (synthetic-ohlcv.parquet, returns-test.parquet) |
| Durée | < 1 s |
| Vérification | lecture roundtrip dans le notebook |
| Anomalies | aucune |
| Commit | 6534c1b |
Avant 2026-04-08 — Pré-historique (hors Wasabi)
Ces événements ont eu lieu avant l'existence des buckets et sont documentés pour traçabilité de la chaîne de custody :
- 2025-05 \(\to\) 2025-06 — Téléchargement RavenPack (Safari, interrompu
plusieurs fois, d'où les
*.zip.downloadobservés sur le disque — cf.anomalies.md§2 anomalie 5). - 2025-04-11 & 2025-04-16 — Livraison Databento des 3 lots XNAS (horodatages encodés dans les noms de lots).
- Divers 2025 — Téléchargement GDELT via leur API publique
(horodatages préservés par
rclone, cf. dates 2014-2025 dansrclone lsjson wasabi:maqi-gdelt).
Ces événements ne sont pas des syncs vers Wasabi — ce sont les téléchargements initiaux vers le disque Seagate, qui ont ensuite servi de source pour l'upload du 2026-04-08.
Comment enregistrer une nouvelle sync
- Faire la sync réellement (
rclone sync …ou via le justfile archivé dansMaQI-perso). - Ajouter une entrée en haut de la section datée (créer la section si on change de jour), en respectant le format.
- Régénérer
docs/wasabi/state.mdviascripts/wasabi-state.sh. - Committer les deux fichiers ensemble avec un message du type
chore(wasabi): sync <bucket> — <résumé>.
La règle : aucun changement sur Wasabi sans entrée dans ce journal. Si on trouve du contenu sur Wasabi qui n'est pas journalisé, c'est un bug et il faut remonter la piste (ou documenter rétroactivement, comme l'entrée 2026-04-08 ci-dessus).