Catalogue des providers de données MaQI
Pour Charles-Albert. Ce catalogue est extrait du document
Datasets pipeline for MaQI.docx(synchronisé dans../cal/datasets-pipeline.md) et curé à la main danscatalog.yaml.Le but : te donner une vue stable et diffable de tous les providers nommés, classés par statut, avec les contacts et les contraintes connus, de manière à pouvoir décider sans relire le docx.
Comment le lire
Source canonique :
catalog.yaml(28 entrées). Ce README est une projection lisible, maintenue à la main. En cas de divergence,catalog.yamlfait foi. Pour proposer une correction, édite le YAML puis mets à jour ce README en conséquence.
Vue d'ensemble
flowchart TB
subgraph OWNED["Possédés (sous contrat)"]
direction LR
spgmi["S&P Global<br>5 services"]
end
subgraph FREE["Gratuits (sans contrat écrit)"]
direction LR
tfm["TheForecastingMachine"]
eur["EuropeanReports.com"]
ship["Shipfix"]
end
subgraph BUY["À acheter"]
direction LR
sk["SpaceKnow"]
end
subgraph NEGO["À négocier"]
direction LR
db["Databento<br>(tick-by-tick)"]
pl["Premialab / SocGen<br>(facteurs)"]
mb["Macrobond / Turnleaf<br>(macro)"]
tr["Tradition<br>(bond OTC)"]
rp["RavenPack<br>(sentiment)"]
end
subgraph SCRAPE["Scrapables"]
direction LR
ard["Ardian × Artefact<br>(fondamentaux)"]
mar["MarineTraffic / PortWatch"]
oim["OpenInfraMap / ICIS"]
end
subgraph DOC["À documenter"]
direction LR
ic["ICEYE (SAR)"]
misc["Brain / NewMark /<br>Quant Insight / Babbl"]
end
style OWNED fill:#dfd,stroke:#0a0
style FREE fill:#ffd,stroke:#cc0
style BUY fill:#fed,stroke:#c60
style NEGO fill:#eef,stroke:#448
style SCRAPE fill:#fef,stroke:#c6c
style DOC fill:#eee,stroke:#888
Légende des statuts
| Statut | Signification | Action par défaut |
|---|---|---|
owned | Données sous contrat, livrées et stockées | Intégrer au pipeline MaQI |
free | Accès de fait, sans contrat écrit | Formaliser un contrat avant toute dépendance opérationnelle |
to_buy | Contact établi, décision d'achat attendue | Déclencher le bon de commande |
to_negotiate | Décision achat/négociation ouverte | Ouvrir la négociation ou choisir une alternative |
to_scrape | Source publique, à ingérer nous-mêmes | Spiker un script de collecte + vérifier licence |
to_document | Pas assez d'info pour décider | Lever un ticket "fiche provider" |
Possédés — S&P Global
Contrat académique au nom du Master "AI for Market and Quantitative Investment", livré via Xpressfeed. Commencement : 31 décembre 2025.
| Service | Catégorie | Couverture | Fréquence | Historique |
|---|---|---|---|---|
| Compustat with Market Data | Fondamentaux + marché | Global (hors Amérique du Nord) | Daily | Current + full history |
| Transcripts & Machine Readable Filings | Fondamentaux | Global | Span | Full history (filings) |
| GICRS Cross Reference | Identifiants | Global | Daily | Current |
| ESG — Physical Risk | ESG climat | Global | Daily | Current + full history |
| Panjiva Trade Data | Supply chain | Global | Daily | Current |
Le PDF complet du contrat reste dans :
~/gdrive/cal-shared/doc_data_MaQI/S&P Global/SPGMI - Ecole Polytechnique - Mars 2025.pdf
Gratuits, à formaliser
Ces sources sont accessibles de fait mais sans contrat écrit. Elles ne peuvent pas être intégrées à un pipeline critique tant que leur usage n'est pas sécurisé.
| Provider | Catégorie | Accès | Action |
|---|---|---|---|
| TheForecastingMachine | Narratifs / nowcasting | Contrat écrit | |
| EuropeanReports.com | Rapports d'entreprises européennes | Contrat écrit | |
Shipfix (Veson — ppagnotta@veson.com) | Trafic maritime | Login CAL, .tar download | Contrat écrit |
À acheter
| Provider | Catégorie | Notes |
|---|---|---|
| SpaceKnow | Nowcasting satellitaire | Contact existant, décision attendue |
À négocier
Market data
| Provider | Pour quoi | Contact |
|---|---|---|
| Databento | Tick-by-tick multi-venue | — (déjà un dump NASDAQ, cf. docs/wasabi/anomalies.md §4) |
| Premialab | Facteurs | Adrien Geliot — adriengeliot@gmail.com (email envoyé) |
| SocGen Indices Feeds | Facteurs | portail public |
| Tradition — Bond LOB | Carnet d'ordres bond OTC | David Parker — bonds.com/bond-data |
Macro
| Provider | Notes |
|---|---|
| Macrobond | Référence macro |
| Turnleaf | Contact Alex Denev + Charles-Albert — détient GDELT |
Sentiment
| Provider | Notes |
|---|---|
| RavenPack | Dump historique déjà présent (cf. docs/wasabi/anomalies.md §2, année 2020 manquante) — à négocier pour un flux continu |
Gratuits, à scraper
Fondamentaux (texte)
Ardian \(\times\) Artefact — partenariat potentiel pour un dataset benchmark de texte financier. Ardian collabore avec l'École Polytechnique via Charles-Albert.
Contacts :
- Arthur Garnier —
arthur.garnier@ardian.com - Guillaume Rigaud —
guillaume.rigaud@ardian.com - Charles Moslonka (Artefact) —
charles.moslonka@artefact.com
Ressources existantes :
- Notebook : colab 1OGoOnfQUzadYGH32-wIVdN5pjEssfMX3
- Dataset HF :
artefactory/Argimi-Ardian-Finance-10k-text
Maritime
| Provider | URL |
|---|---|
| MarineTraffic | marinetraffic.com |
| IMF PortWatch | portwatch.imf.org |
Énergie et matières premières
| Provider | URL |
|---|---|
| OpenInfraMap — centrales | openinframap.org |
| ICIS — carte fertilisants 2025 |
À documenter
Sources mentionnées par Charles-Albert mais pour lesquelles nous n'avons pas encore assez de contexte pour statuer.
| Provider | Type | Lien |
|---|---|---|
| ICEYE | Satellite SAR | iceye.com/sar-data |
| Brain Company — Francesco Cricchio | Lead / podcast | braincompany.co |
| NewMark Risk — Frank Ferstler | Lead | |
| Quant Insight | Macro/factor platform | quant-insight.com |
| Babbl | Sentiment datastore | babbl.mydatastorefront.com |
Synthèse
Source canonique :
catalog.yaml— 28 entrées.
| Statut | Nombre | Observation |
|---|---|---|
owned | 7 (5 S&P Global + 2 legacy) | Contrat actif ou dump vérifié — à intégrer |
free | 3 | Non sécurisés — contrats à rédiger |
to_buy | 1 | Décision à prendre sur SpaceKnow |
to_negotiate | 7 | Fenêtre de négociation ouverte |
to_scrape | 5 | Collecte à spiker, attention aux licences |
to_document | 5 | Leads à instruire |
Voir aussi
catalog.yaml— source machine-lisible../cal/datasets-pipeline.md— doc CAL synchronisé../cal/tech-solutions.md— contraintes techniques (non-redistribution, S3)../wasabi/anomalies.md— état des données déjà reçues (GDELT, RavenPack, CausalityLink, Databento)