View as:

Wasabi S3 — État du stockage partagé

Public : Emmanuel, Charles-Albert, Wissal. But : répondre en quelques secondes aux trois questions que tout membre de l'équipe se pose la première fois qu'il veut lire une donnée.

Les trois questions

QuestionRéponseDétails
Qu'est-ce qu'il y a dessus, maintenant ?Snapshotstate.md
Comment ça y est arrivé, et quand ?Journalsync-history.md
Comment c'est rangé, où je clique pour lire ?Cartestate.md § Arborescence

Contexte

Wasabi a été choisi comme provider S3 partagé pour les données de MaQI parce qu'il offre un coût d'egress nul (cf. ../cal/tech-solutions.md). Un bucket maqi existe pour les tests de connexion, et un bucket par dataset primaire existe pour les données brutes — chaque bucket contient la copie fidèle des données livrées par le vendor, sans transformation.

flowchart LR
    subgraph vendor["Vendors"]
        GDELT
        Databento
        RavenPack
        CausalityLink
        SPGlobal["S&P Global<br>(SFTP)"]
    end

    subgraph disk["Disque externe"]
        seagate[Seagate]
    end

    subgraph local["Mac (Emmanuel)"]
        backup["~/MaQI - data/"]
    end

    subgraph wasabi["Wasabi S3 eu-central-1"]
        B0["maqi<br>(tests)"]
        B1["maqi-gdelt"]
        B2["maqi-causalitylink"]
        B3["maqi-ravenpack"]
        B4["maqi-databento"]
        B5["maqi-spglobal<br>(stream partiel)"]
    end

    GDELT --> seagate
    Databento --> seagate
    RavenPack --> seagate
    CausalityLink --> seagate
    seagate -->|rsync| backup
    backup -->|rclone sync| B1
    backup -->|rclone sync| B2
    backup -->|rclone sync| B3
    backup -->|rclone sync| B4
    SPGlobal -->|rclone copy<br>streaming direct| B5

    style vendor fill:#eef,stroke:#448
    style disk fill:#fed,stroke:#c60
    style local fill:#ffd,stroke:#cc0
    style wasabi fill:#ddf,stroke:#008

Endpoint

ChampValeur
ProviderWasabi
Régioneu-central-1
Endpoints3.eu-central-1.wasabisys.com
ACLprivate
Remote rclonewasabi (voir ~/.config/rclone/rclone.conf)
Remote rclone (alias public)maqi (voir ../../rclone.conf.example)

Buckets

Source canonique des tailles : state.md (généré par scripts/wasabi-state.sh).

BucketRôleTailleObjets
maqiTests de connexion21 KiB2
maqi-gdeltÉvénements GDELT 1979-202547.8 GiB4 658
maqi-causalitylinkSnapshot CausalityLink 2021-08-13186.9 GiB21 860
maqi-ravenpackRavenPack Edge NEWS 2011-2025249.2 GiB14
maqi-databentoOrder book NASDAQ 2018-20251.430 TiB3 042
maqi-spglobalS&P Global Xpressfeed — PREVIEW, stream en cours (cible ~3.75 TiB)10.5 MiB6 (sur 15 530 attendus)

Les totaux ci-dessus correspondent au snapshot 2026-04-14. Pour rafraîchir, lancer scripts/wasabi-state.sh et committer la diff.

Accès

Trois chemins d'accès supportés :

  1. rclone — CLI, idempotent, reprend un transfert interrompu.

    rclone ls    wasabi:maqi-gdelt
    rclone size  wasabi:maqi-ravenpack
    rclone check wasabi:maqi-gdelt /local/gdelt
    
  2. Python (s3fs / polars) — pour notebooks et scripts. Voir ../colab-setup.md et ../../notebooks/maqi-data-demo.ipynb.
  3. Client S3 standard (boto3, awscli --endpoint-url …) — pour tout ce qui parle le protocole S3.

Règles