Travailler depuis Google Colab

Google Colab permet de coder en Python directement dans le navigateur, sans rien installer sur sa machine.

Notebooks disponibles

Notebook	Rôle	Lien Colab
`notebooks/maqi-colab-setup.ipynb`	Premier test : credentials, bucket `maqi`, viz, write
`notebooks/test-buckets-access.ipynb`	Vérifier l'accès aux 6 buckets Wasabi
`notebooks/maqi-data-demo.ipynb`	Démo complète : lire un sample des 4 datasets (GDELT, RavenPack, CausalityLink, Databento)

Ouvrir le notebook de setup

Lien direct (cliquer) :

Ou manuellement :

Aller sur colab.research.google.com
Onglet GitHub
Cocher "Include private repos" (en bas) — GitHub demandera d'autoriser Colab, accepter
Dans le champ URL, entrer : https://github.com/eserie/MaQI/blob/main/notebooks/maqi-colab-setup.ipynb
Le notebook s'ouvre

Note : le repo MaQI est privé. Il n'apparaît pas dans la liste déroulante — il faut coller le lien complet dans le champ URL.

Ce que fait le notebook

Étape	Description
1. Install	Installe polars, s3fs, matplotlib
2. Credentials	Demande tes clés Wasabi (saisie masquée)
3. Test lecture	Lit les données test depuis S3
4. Visualisation	Affiche un graphique prix + volume
5. Test écriture	Écrit un résultat sur S3

Prérequis

Un compte Google (pour Colab)
Un accès collaborateur au repo GitHub eserie/MaQI (demander à Emmanuel)
Tes credentials Wasabi (access key + secret key — reçus par message séparé)

Important

Ne pas activer le MFA (Multi-Factor Authentication) sur ton compte Wasabi — il bloque l'accès API depuis Colab
Les credentials sont saisis via getpass : ils ne sont jamais visibles ni sauvegardés dans le notebook

FAQ

Mes credentials sont-elles stockées dans le notebook ?

Non. La saisie utilise getpass — les clés ne sont jamais visibles ni sauvegardées dans le notebook.

Je dois re-entrer mes credentials à chaque session ?

Oui. Colab réinitialise l'environnement à chaque reconnexion. C'est un compromis sécurité/praticité.

Comment sauvegarder mon travail ?

Fichier \(\to\) Enregistrer une copie dans Drive : sauvegarde dans ton Google Drive
Fichier \(\to\) Télécharger .ipynb : sauvegarde locale

Comment accéder aux datasets complets ?

Une fois les données chargées sur S3, remplace le chemin du fichier test par le dataset voulu :

# GDELT (CSV zips at bucket root)
df = pl.read_csv("s3://maqi-gdelt/1979.zip", storage_options=STORAGE_OPTIONS)

# RavenPack (CSV zips at bucket root)
df = pl.read_csv("s3://maqi-ravenpack/RavenPackEdge_NEWS_COMP_FULL_2024.zip", storage_options=STORAGE_OPTIONS)

# CausalityLink (Avro files in sub-ensembles)
# Use fastavro or polars with appropriate reader for .avro files

Les performances sont suffisantes ?

Colab fournit gratuitement :

~12 GB de RAM
2 CPU (ou GPU si activé)
~100 GB de disque temporaire

Pour des datasets volumineux, tu peux d'abord télécharger en local dans Colab :

import s3fs

fs = s3fs.S3FileSystem(
    key=WASABI_ACCESS_KEY,
    secret=WASABI_SECRET_KEY,
    endpoint_url="https://s3.eu-central-1.wasabisys.com",
)

# Télécharger un fichier dans le disque Colab
fs.download("maqi-gdelt/1979.zip", "/content/1979.zip")