Ce document répertorie les solutions techniques possibles, explorées ou non, retenues.
Le problème que nous voulons résoudre :
Nous payons (ou avons gratuitement) des données pour l’enseignement et la recherche. Nous voulons donc “les mettre à disposition” des étudiants et des enseignants chercheurs et collaborateurs scientifiques. Nous devons respecter la contrainte suivante : nous ne pouvons en aucun cas être “redistributeur de données”. Cela veut dire que nous devons conserver un contrôle total sur les données (qui peut y accéder), et n’autoriser leur utilisation que en lecture, pas en download. Il y a deux usages très différents
|
|---|
Le plan général
A priori nous voudrions mettre les données sur des bucket S3 pas cher d’accès (si nous avons 25+15=40 étudiants, ils vont chacun accéder aux données), sachant qu'apparemment le coût d’accès dépend du lieu d’accès (GCP, AWS, local).
Une possibilité
- Prendre un provider S3 avec un coût egress minimal, comme
- Wasabi — tarification publique : $6.99 / \(TB\cdot{}mois\) et no egress fees.
- Backblaze B2 — tarification publique (~$6 / \(TB\cdot{}mois)\) et politique egress (gratuit jusqu’à certains seuils / $0.01/GB après). Article résumé/explication egress et tarifs AWS (pour les paliers d’egress).
- Ranger les données, sans les transformer, dans une architecture de répertoires / fichiers qui fasse sens pour l’indexation
- être capable de monter, chez plusieurs providers (via des fichier terraform), une solution de type athena (server-less pour offrir une interface de lecture sans documentation), qui préserve les autorisations de lecture.