Rapport de qualité des données
Ce rapport documente l'état des 4 jeux de données reçus sur disque dur externe (Seagate). Il liste les anomalies constatées et les actions correctives à mener.
Public : Emmanuel, Charles-Albert, Wissal.
Vue d'ensemble
flowchart LR
subgraph "Disque Seagate (source)"
GDELT["GDELT\n48 Go · 4 658 fichiers"]
CL["CausalityLink\n190 Go · 21 860 fichiers"]
RP["RavenPack\n249 Go · 14 fichiers"]
DB["Databento\n1,4 To · 3 042 fichiers"]
end
subgraph "Verdict"
GDELT -->|"3 fichiers à corriger"| W1["Mineur"]
CL -->|"Aucune anomalie"| OK1["OK"]
RP -->|"Année 2020 manquante"| W2["À investiguer"]
DB -->|"Aucune anomalie"| OK2["OK"]
end
style W1 fill:#ffd,stroke:#cc0
style W2 fill:#fed,stroke:#c60
style OK1 fill:#dfd,stroke:#0a0
style OK2 fill:#dfd,stroke:#0a0
Qu'est-ce qu'on a vérifié ?
Pour chaque jeu de données, on a contrôlé :
- Complétude : tous les fichiers attendus sont-ils présents ?
- Intégrité : les fichiers sont-ils identiques à l'original ? (via des empreintes numériques quand elles sont disponibles — voir glossaire)
- Cohérence : la structure des dossiers et les formats de fichiers sont-ils conformes ?
1. GDELT — Événements géopolitiques
| Description | Base de données d'événements mondiaux (conflits, diplomatie, économie) extraits de la presse |
| Couverture | 1979 — 2025 |
| Format | Fichiers .zip contenant des CSV (un fichier par jour ou par mois) |
| Taille | 48 Go, 4 658 fichiers |
| Vérification disponible | Oui — fichier md5sums fourni par GDELT (empreinte MD5 de chaque fichier) |
Anomalies
| # | Type | Fichier | Détail |
|---|---|---|---|
| 1 | Fichier manquant | 20221110.export.CSV.zip | Absent du disque. Ce fichier est listé dans le fichier de référence md5sums mais n'a jamais été téléchargé. |
| 2 | Fichier manquant | 20230323.export.CSV.zip | Même situation. |
| 3 | Fichier altéré | 20230322.export.CSV.zip | Le fichier existe, mais son empreinte MD5 ne correspond pas à la valeur attendue. Cela signifie que le fichier sur le disque est différent de celui référencé par GDELT — probablement une version antérieure du fichier. |
Impact
Très faible : 3 jours de données sur ~17 ans de couverture. Aucun impact sur les analyses à l'échelle mensuelle ou annuelle.
2. RavenPack — Sentiment de presse
| Description | Données de sentiment extraites d'articles de presse par RavenPack (produit "Edge") |
| Couverture | 2011 — 2025 |
| Format | Un fichier .zip par année |
| Taille | 249 Go, 14 fichiers |
| Vérification disponible | Non — aucun fichier de référence (checksums) fourni par RavenPack |
Anomalies
| # | Type | Détail |
|---|---|---|
| 4 | Année manquante | Pas de fichier pour 2020. Les années 2011-2019 et 2021-2025 sont présentes, mais 2020 est absente. |
| 5 | Format de téléchargement | 13 fichiers sur 14 se trouvent dans des dossiers .zip.download (un artefact du navigateur Safari quand un téléchargement est interrompu puis repris). Le fichier .zip final est bien complet à l'intérieur de chaque dossier — c'est un problème de rangement, pas de contenu. Notre outil de copie aplatit automatiquement cette structure. |
Années présentes
2011 2012 2013 2014 2015 2016 2017 2018 2019 [2020 ?] 2021 2022 2023 2024 2025
✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✗ ✓ ✓ ✓ ✓ ✓
Impact
L'année 2020 (COVID) est particulièrement importante pour les analyses de sentiment. À retrouver auprès de RavenPack.
3. CausalityLink — Données alternatives (IA causale)
| Description | Événements, indicateurs, liens de causalité et tendances extraits par intelligence artificielle |
| Couverture | Snapshot unique du 13 août 2021 |
| Format | Fichiers .avro (format Apache Avro — un format binaire compact pour les données structurées) |
| Taille | 186,9 Go (mesuré sur Wasabi), 21 860 fichiers |
| Vérification disponible | Non — aucun fichier de référence fourni par CausalityLink |
Anomalies
Aucune anomalie détectée sur les données.
| # | Type | Détail |
|---|---|---|
| 6 | Fichier non pertinent | Un installeur macOS (AWSCLIV2.pkg, 48 Mo) est présent dans le répertoire racine. Ce n'est pas une donnée — il est exclu de la copie automatiquement. |
Structure des données
| Sous-ensemble | Taille (Wasabi) | Fichiers | Description |
|---|---|---|---|
| Markers | 91,18 Go | 3 454 | Marqueurs d'événements de marché |
| Indicators | 54,95 Go | 4 285 | Indicateurs économiques et financiers |
| Events | 19,37 Go | 4 285 | Événements détectés dans les sources |
| Trends | 12,34 Go | 4 285 | Tendances identifiées par l'IA |
| Links | 6,03 Go | 4 285 | Relations causales entre entités |
| Features | 2,96 Go | 1 233 | Caractéristiques extraites |
| KB | 51 Mo | 17 | Base de connaissances (ontologie) |
| Tree | 41 Mo | 16 | Arborescence des concepts |
Impact
Aucun. À noter que les données sont un snapshot figé (pas de mises à jour incrémentales depuis août 2021).
4. Databento — Carnet d'ordres NASDAQ
| Description | Données de marché tick-by-tick du NASDAQ : chaque ordre, modification et annulation dans le carnet d'ordres (10 niveaux de profondeur) |
| Couverture | Mai 2018 — mars 2025 |
| Format | Fichiers .dbn.zst (format binaire Databento, compressé avec Zstandard) |
| Taille | 1,4 To, 3 042 fichiers répartis en 3 lots |
| Vérification disponible | Oui — fichier manifest.json par lot avec empreinte SHA-256 de chaque fichier |
Anomalies
Aucune anomalie détectée. Chaque lot contient exactement les fichiers listés dans son manifest.
| Lot | Période | Taille | Fichiers | Statut |
|---|---|---|---|---|
| copy_XNAS-20250411-834CY4QERN | Avril 2020 — mars 2025 | 52 Go | 1 260 | OK |
| copy_XNAS-20250411-TUD5WDMULM | Mars 2025 (récent) | 1,3 To | 26 | OK |
| XNAS-20250416-MHYNAA5XGU | Mai 2018 — avril 2020 | 34 Go | 1 753 | OK |
La vérification SHA-256 de la copie locale est en cours. Elle confirme que chaque fichier copié est bit-à-bit identique à l'original.
Impact
Aucun.
Synthèse
gantt
title Couverture temporelle des données
dateFormat YYYY
axisFormat %Y
section GDELT
Événements mondiaux :1979, 2025
3 jours manquants :crit, 2022, 2023
section RavenPack
Sentiment de presse :2011, 2025
Année 2020 manquante :crit, 2020, 2021
section CausalityLink
Snapshot unique :milestone, 2021, 0d
section Databento
Carnet d'ordres NASDAQ :2018, 2025
| Source | Statut | Anomalies | Données vérifiables ? |
|---|---|---|---|
| GDELT | Quasi complet | 3 fichiers sur 4 658 | Oui (MD5) |
| RavenPack | Année 2020 manquante | 1 année sur 15 | Non |
| CausalityLink | Complet | Aucune | Non |
| Databento | Complet | Aucune | Oui (SHA-256) |
Issues à traiter
Les actions correctives identifiées dans ce rapport sont suivies dans les GitHub Issues.
Glossaire
| Terme | Explication |
|---|---|
| Checksum / empreinte | Un code calculé à partir du contenu d'un fichier (comme une empreinte digitale). Si un seul octet change, l'empreinte change complètement. Permet de vérifier qu'un fichier n'a pas été altéré pendant une copie. |
| MD5 | Un algorithme de calcul d'empreinte. Produit un code de 32 caractères (ex : f6fcb7e955e35f93...). Utilisé par GDELT. |
| SHA-256 | Un algorithme d'empreinte plus robuste que MD5. Produit un code de 64 caractères. Utilisé par Databento. |
| Manifest | Un fichier qui liste tous les fichiers d'un lot avec leurs empreintes et tailles. Sert de "bon de livraison" pour vérifier que rien ne manque. |
.zip | Format d'archive compressée. Un fichier .zip contient un ou plusieurs fichiers compactés pour prendre moins de place. |
.zip.download | Dossier créé par Safari (navigateur macOS) quand un téléchargement est interrompu. Le fichier final .zip se trouve à l'intérieur. Ce n'est pas une anomalie de données. |
.avro | Format de fichier binaire d'Apache Avro, conçu pour stocker efficacement des données structurées (tableaux avec colonnes typées). |
.dbn.zst | Format de fichier de Databento (.dbn) compressé avec l'algorithme Zstandard (.zst). Contient des données de marché tick-by-tick. |
| Snapshot | Une photo instantanée des données à un moment précis, par opposition à des données mises à jour en continu. |
| Tick-by-tick | Données enregistrant chaque événement individuel sur un marché (chaque ordre passé, modifié ou annulé), à la milliseconde près. |
| Carnet d'ordres | Le registre en temps réel de tous les ordres d'achat et de vente sur un marché. Les "10 niveaux de profondeur" signifient qu'on voit les 10 meilleurs prix à l'achat et à la vente. |
| rsync | Outil de copie de fichiers qui ne retransfère que ce qui a changé. Si une copie est interrompue, elle reprend là où elle s'est arrêtée. |
| S3 / Wasabi | Service de stockage en ligne (comme un disque dur dans le cloud). Wasabi est un fournisseur compatible avec le protocole S3 d'Amazon, mais moins cher. |