View as:

Historique des synchronisations Wasabi

Journal chronologique des événements de sync vers Wasabi. Chaque entrée documente ce qui a été fait, par qui, avec quel outil, depuis quelle source. Le but est de pouvoir retracer la provenance d'un fichier sans deviner.

Convention : une entrée par événement de sync, en ordre chrono inverse (le plus récent en haut). Format stable pour faciliter les diffs.

Statut de ce fichier : journal opérationnel actif tant que les uploads sont en cours. Une fois tous les statuts stabilisés (tous les buckets complètement uploadés), les entrées futures pourront être enregistrées directement dans les messages de commit (chore(wasabi): sync …) plutôt qu'ici — ce fichier deviendra alors une archive historique de la phase d'amorçage.

Format d'entrée

### YYYY-MM-DD — <libellé>

| Champ | Valeur |
|-------|--------|
| Qui | <personne> |
| Source | <chemin / volume> |
| Cible | `wasabi:<bucket>/[...]` |
| Outil | rclone sync / rsync / autre — + flags pertinents |
| Volume | <taille approx> / <nb fichiers> |
| Durée | <observée ou estimée> |
| Vérification | <méthode : MD5 vendor, manifest SHA-256, comparaison taille> |
| Anomalies | <liens vers anomalies.md ou issue GitHub> |
| Commit | <sha du commit de référence> |

2026-04-15 — S&P Global Xpressfeed — amorçage du stream (preview partiel)

ChampValeur
QuiEmmanuel Sérié
SourceSFTP sftp2.spglobal.com:22 (user Ecol5648PC, remote rclone spglobal:)
Ciblewasabi:maqi-spglobal/ (bucket créé ce jour, région eu-central-1)
Outiljust sp-stream dans ~/dev/ESERIE/MaQI-perso/data-upload/ \(\to\) rclone copy streaming direct SFTP \(\to\) S3 (pas de cache disque). Flags : --transfers 4 --checkers 8 --s3-chunk-size 64M --s3-upload-concurrency 4 --retries 10 --retries-sleep 30s
Volume transféré10.528 MiB, 6 objets (source totale : 3.747 TiB, 15 530 objets)
Durée~secondes (preview Ctrl+C volontaire)
Vérificationfichiers .cnt par table (manifest Xpressfeed <table>|<type>|<row_count>)
Anomalies— (stream interrompu volontairement, sera repris depuis une VM OVH dédiée)
Commitcf. commits docs(wasabi): … et feat(notebook): …

Préalables infrastructure réalisés ce jour :

Reprise prévue : complétion du stream depuis une VM OVH (région DE1 ou GRA, Public Cloud, bande passante incluse) pour libérer la machine locale. L'opération est idempotente — rclone copy spglobal: wasabi:maqi-spglobal reprend où elle s'est arrêtée.


2026-04-14 — Introduction du journal (pas de sync)

ChampValeur
QuiEmmanuel Sérié
Source
Cible
Outil
Volume
Durée
Vérificationsnapshot figé dans state.md
Anomalies

Note : cette entrée documente la création du journal lui-même. Aucun transfert n'a eu lieu ce jour. Le snapshot state.md a été généré à partir de l'état courant des buckets, qui était le résultat des syncs d'avril 2026 listés ci-dessous.


2026-04-08 — Upload initial des 4 datasets primaires

Événement principal : création des buckets par dataset et upload initial depuis la copie locale de l'équipe.

2026-04-08 — maqi-databento (lot Databento XNAS)

ChampValeur
QuiEmmanuel Sérié
Source~/MaQI - data/databento/ (copie locale du disque Seagate)
Ciblewasabi:maqi-databento/
Outilrclone sync --transfers 8 --checkers 16 --fast-list --progress
Volume1.430 TiB / 3 042 fichiers (3 lots XNAS)
Durée~1h40 (estimation, réseau mesuré ~240 MB/s)
Vérificationmanifest.json par lot (SHA-256 + taille) fourni par Databento
Anomaliesaucune
Commit6534c1b (data-upload justfile)

2026-04-08 — maqi-ravenpack

ChampValeur
QuiEmmanuel Sérié
Source~/MaQI - data/ravenpack/
Ciblewasabi:maqi-ravenpack/
Outilrclone sync (flags idem)
Volume249.21 GiB / 14 fichiers
Durée~17 min
Vérificationcomparaison de tailles (pas de checksum vendor)
Anomaliesannée 2020 absente à la source — anomalies.md §2
Commit6534c1b

2026-04-08 — maqi-causalitylink

ChampValeur
QuiEmmanuel Sérié
Source~/MaQI - data/causalitylink/
Ciblewasabi:maqi-causalitylink/
Outilrclone sync (flags idem)
Volume186.91 GiB / 21 860 fichiers
Durée~13 min
Vérificationcomparaison de tailles (pas de checksum vendor)
Anomaliesaucune — snapshot unique 202108131432
Commit6534c1b

2026-04-08 — maqi-gdelt

ChampValeur
QuiEmmanuel Sérié
Source~/MaQI - data/gdelt/
Ciblewasabi:maqi-gdelt/
Outilrclone sync (flags idem)
Volume47.78 GiB / 4 658 fichiers
Durée~3 min
Vérificationfichiers md5sums + filesizes fournis par GDELT
Anomalies3 fichiers (2 manquants, 1 MD5 divergent) — anomalies.md §1
Commit6534c1b

2026-04-08 — Bucket maqi (données de test)

ChampValeur
QuiEmmanuel Sérié
Sourcenotebook notebooks/maqi-colab-setup.ipynb
Ciblewasabi:maqi/test-data/, wasabi:maqi/tests/
Outilupload Python via s3fs (getpass)
Volume21.05 KiB / 2 fichiers (synthetic-ohlcv.parquet, returns-test.parquet)
Durée< 1 s
Vérificationlecture roundtrip dans le notebook
Anomaliesaucune
Commit6534c1b

Avant 2026-04-08 — Pré-historique (hors Wasabi)

Ces événements ont eu lieu avant l'existence des buckets et sont documentés pour traçabilité de la chaîne de custody :

Ces événements ne sont pas des syncs vers Wasabi — ce sont les téléchargements initiaux vers le disque Seagate, qui ont ensuite servi de source pour l'upload du 2026-04-08.


Comment enregistrer une nouvelle sync

  1. Faire la sync réellement (rclone sync … ou via le justfile archivé dans MaQI-perso).
  2. Ajouter une entrée en haut de la section datée (créer la section si on change de jour), en respectant le format.
  3. Régénérer docs/wasabi/state.md via scripts/wasabi-state.sh.
  4. Committer les deux fichiers ensemble avec un message du type chore(wasabi): sync <bucket> — <résumé>.

La règle : aucun changement sur Wasabi sans entrée dans ce journal. Si on trouve du contenu sur Wasabi qui n'est pas journalisé, c'est un bug et il faut remonter la piste (ou documenter rétroactivement, comme l'entrée 2026-04-08 ci-dessus).