View as:

Charles-Albert Lehalle

Ce document répertorie les solutions techniques possibles, explorées ou non, retenues.

Le problème que nous voulons résoudre :

Nous payons (ou avons gratuitement) des données pour l’enseignement et la recherche. Nous voulons donc “les mettre à disposition” des étudiants et des enseignants chercheurs et collaborateurs scientifiques.

Nous devons respecter la contrainte suivante : nous ne pouvons en aucun cas être “redistributeur de données”. Cela veut dire que nous devons conserver un contrôle total sur les données (qui peut y accéder), et n’autoriser leur utilisation que en lecture, pas en download.

Il y a deux usages très différents

  • pour les étudiants: il faut qu’ils aient des machines virtuelles (colab, sur un cloud, à Polytechnique, chez un partenaire), avec des ressources dédiées suivant les projets (GPU ou FPGA pour les LLM), et leur interface habituelle est un notebook

  • pour les chercheurs:

    • Pour préparer un cours, il faut qu’ils puissent transférer leurs résultats intermédiaires (notebooks, données nettoyées) dans une zone dédiée aux cours.

    • Pour leur recherche: c’est généralement sur le temps long, avec un nombre de datasets réduits.

Le plan général

A priori nous voudrions mettre les données sur des bucket S3 pas cher d’accès (si nous avons 25+15=40 étudiants, ils vont chacun accéder aux données), sachant qu'apparemment le coût d’accès dépend du lieu d’accès (GCP, AWS, local).

Une possibilité

  1. Prendre un provider S3 avec un coût egress minimal, comme
  1. Ranger les données, sans les transformer, dans une architecture de répertoires / fichiers qui fasse sens pour l’indexation
  2. être capable de monter, chez plusieurs providers (via des fichier terraform), une solution de type athena (server-less pour offrir une interface de lecture sans documentation), qui préserve les autorisations de lecture.

[CAL] Ma conversation de référence avec ChatGTP.