Ardian × Artefact — Fundamentals benchmark
Explore
Partenariat de recherche entre Ardian (private equity) et Artefact (consulting data) autour d'un dataset benchmark de texte financier, publié sur Hugging Face et accompagné d'un notebook Colab.
-
URLs canoniques :
- Notebook Colab : https://colab.research.google.com/drive/1OGoOnfQUzadYGH32-wIVdN5pjEssfMX3
- Dataset Hugging Face : https://huggingface.co/datasets/artefactory/Argimi-Ardian-Finance-10k-text
-
Type de livraison :
- Dataset HF (téléchargeable sous licence HF, à vérifier dans la fiche dataset).
- Notebook Colab pédagogique reproduisant les baselines.
- Fréquence : snapshot statique (10k textes annoncés dans le slug), pas de mise à jour publique programmée.
- Coverage : finance d'entreprise, langue à confirmer (la collaboration Ardian / Polytechnique suggère un focus européen).
- Licence / CGU : à lire dans la datasheet HF avant tout usage interne — typiquement CC-BY-4.0 ou CC-BY-NC pour les datasets Artefact, mais non garanti.
-
Pertinence MaQI :
- dataset benchmark utile pour calibrer/valider nos pipelines NLP fundamentals (NER financière, extraction de KPIs, RAG corporate).
- lien stratégique : Ardian collabore avec l'École Polytechnique via Charles-Albert — interlocuteurs déjà identifiés (Garnier, Rigaud, Moslonka).
Validate
Pas de copie locale à ce jour. Le dataset HF doit être tiré et la licence vérifiée avant intégration au lab.
Negotiate
Discussion en cours côté CAL avec :
- Arthur Garnier (Ardian) —
arthur.garnier@ardian.com - Guillaume Rigaud (Ardian) —
guillaume.rigaud@ardian.com - Charles Moslonka (Artefact) —
charles.moslonka@artefact.com
Aucun log d'action côté repo (rien à journaliser ici tant qu'aucune demande n'est partie de notre worktree).
Decisions
- Cf. ADR-002 — Cartographie des sources de données (classe III).