Travailler depuis Google Colab
Google Colab permet de coder en Python directement dans le navigateur, sans rien installer sur sa machine.
Notebooks disponibles
Ouvrir le notebook de setup
Lien direct (cliquer) :
Ou manuellement :
- Aller sur colab.research.google.com
- Onglet GitHub
- Cocher "Include private repos" (en bas) — GitHub demandera d'autoriser Colab, accepter
- Dans le champ URL, entrer :
https://github.com/eserie/MaQI/blob/main/notebooks/maqi-colab-setup.ipynb - Le notebook s'ouvre
Note : le repo
MaQIest privé. Il n'apparaît pas dans la liste déroulante — il faut coller le lien complet dans le champ URL.
Ce que fait le notebook
| Étape | Description |
|---|---|
| 1. Install | Installe polars, s3fs, matplotlib |
| 2. Credentials | Demande tes clés Wasabi (saisie masquée) |
| 3. Test lecture | Lit les données test depuis S3 |
| 4. Visualisation | Affiche un graphique prix + volume |
| 5. Test écriture | Écrit un résultat sur S3 |
Prérequis
- Un compte Google (pour Colab)
- Un accès collaborateur au repo GitHub
eserie/MaQI(demander à Emmanuel) - Tes credentials Wasabi (access key + secret key — reçus par message séparé)
Important
- Ne pas activer le MFA (Multi-Factor Authentication) sur ton compte Wasabi — il bloque l'accès API depuis Colab
- Les credentials sont saisis via
getpass: ils ne sont jamais visibles ni sauvegardés dans le notebook
FAQ
Mes credentials sont-elles stockées dans le notebook ?
Non. La saisie utilise getpass — les clés ne sont jamais visibles ni sauvegardées dans le notebook.
Je dois re-entrer mes credentials à chaque session ?
Oui. Colab réinitialise l'environnement à chaque reconnexion. C'est un compromis sécurité/praticité.
Comment sauvegarder mon travail ?
- Fichier \(\to\) Enregistrer une copie dans Drive : sauvegarde dans ton Google Drive
- Fichier \(\to\) Télécharger .ipynb : sauvegarde locale
Comment accéder aux datasets complets ?
Une fois les données chargées sur S3, remplace le chemin du fichier test par le dataset voulu :
# GDELT (CSV zips at bucket root)
df = pl.read_csv("s3://maqi-gdelt/1979.zip", storage_options=STORAGE_OPTIONS)
# RavenPack (CSV zips at bucket root)
df = pl.read_csv("s3://maqi-ravenpack/RavenPackEdge_NEWS_COMP_FULL_2024.zip", storage_options=STORAGE_OPTIONS)
# CausalityLink (Avro files in sub-ensembles)
# Use fastavro or polars with appropriate reader for .avro files
Les performances sont suffisantes ?
Colab fournit gratuitement :
- ~12 GB de RAM
- 2 CPU (ou GPU si activé)
- ~100 GB de disque temporaire
Pour des datasets volumineux, tu peux d'abord télécharger en local dans Colab :
import s3fs
fs = s3fs.S3FileSystem(
key=WASABI_ACCESS_KEY,
secret=WASABI_SECRET_KEY,
endpoint_url="https://s3.eu-central-1.wasabisys.com",
)
# Télécharger un fichier dans le disque Colab
fs.download("maqi-gdelt/1979.zip", "/content/1979.zip")