View as:

Travailler depuis Google Colab

Google Colab permet de coder en Python directement dans le navigateur, sans rien installer sur sa machine.

Notebooks disponibles

NotebookRôleLien Colab
notebooks/maqi-colab-setup.ipynbPremier test : credentials, bucket maqi, viz, writeOpen in Colab
notebooks/test-buckets-access.ipynbVérifier l'accès aux 6 buckets WasabiOpen in Colab
notebooks/maqi-data-demo.ipynbDémo complète : lire un sample des 4 datasets (GDELT, RavenPack, CausalityLink, Databento)Open in Colab

Ouvrir le notebook de setup

Lien direct (cliquer) :

Open in Colab

Ou manuellement :

  1. Aller sur colab.research.google.com
  2. Onglet GitHub
  3. Cocher "Include private repos" (en bas) — GitHub demandera d'autoriser Colab, accepter
  4. Dans le champ URL, entrer : https://github.com/eserie/MaQI/blob/main/notebooks/maqi-colab-setup.ipynb
  5. Le notebook s'ouvre

Note : le repo MaQI est privé. Il n'apparaît pas dans la liste déroulante — il faut coller le lien complet dans le champ URL.

Ce que fait le notebook

ÉtapeDescription
1. InstallInstalle polars, s3fs, matplotlib
2. CredentialsDemande tes clés Wasabi (saisie masquée)
3. Test lectureLit les données test depuis S3
4. VisualisationAffiche un graphique prix + volume
5. Test écritureÉcrit un résultat sur S3

Prérequis

Important

FAQ

Mes credentials sont-elles stockées dans le notebook ?

Non. La saisie utilise getpass — les clés ne sont jamais visibles ni sauvegardées dans le notebook.

Je dois re-entrer mes credentials à chaque session ?

Oui. Colab réinitialise l'environnement à chaque reconnexion. C'est un compromis sécurité/praticité.

Comment sauvegarder mon travail ?

Comment accéder aux datasets complets ?

Une fois les données chargées sur S3, remplace le chemin du fichier test par le dataset voulu :

# GDELT (CSV zips at bucket root)
df = pl.read_csv("s3://maqi-gdelt/1979.zip", storage_options=STORAGE_OPTIONS)

# RavenPack (CSV zips at bucket root)
df = pl.read_csv("s3://maqi-ravenpack/RavenPackEdge_NEWS_COMP_FULL_2024.zip", storage_options=STORAGE_OPTIONS)

# CausalityLink (Avro files in sub-ensembles)
# Use fastavro or polars with appropriate reader for .avro files

Les performances sont suffisantes ?

Colab fournit gratuitement :

Pour des datasets volumineux, tu peux d'abord télécharger en local dans Colab :

import s3fs

fs = s3fs.S3FileSystem(
    key=WASABI_ACCESS_KEY,
    secret=WASABI_SECRET_KEY,
    endpoint_url="https://s3.eu-central-1.wasabisys.com",
)

# Télécharger un fichier dans le disque Colab
fs.download("maqi-gdelt/1979.zip", "/content/1979.zip")