View as:

Rapport de qualité des données

Ce rapport documente l'état des 4 jeux de données reçus sur disque dur externe (Seagate). Il liste les anomalies constatées et les actions correctives à mener.

Public : Emmanuel, Charles-Albert, Wissal.

Vue d'ensemble

flowchart LR
    subgraph "Disque Seagate (source)"
        GDELT["GDELT\n48 Go · 4 658 fichiers"]
        CL["CausalityLink\n190 Go · 21 860 fichiers"]
        RP["RavenPack\n249 Go · 14 fichiers"]
        DB["Databento\n1,4 To · 3 042 fichiers"]
    end

    subgraph "Verdict"
        GDELT -->|"3 fichiers à corriger"| W1["Mineur"]
        CL -->|"Aucune anomalie"| OK1["OK"]
        RP -->|"Année 2020 manquante"| W2["À investiguer"]
        DB -->|"Aucune anomalie"| OK2["OK"]
    end

    style W1 fill:#ffd,stroke:#cc0
    style W2 fill:#fed,stroke:#c60
    style OK1 fill:#dfd,stroke:#0a0
    style OK2 fill:#dfd,stroke:#0a0

Qu'est-ce qu'on a vérifié ?

Pour chaque jeu de données, on a contrôlé :

  1. Complétude : tous les fichiers attendus sont-ils présents ?
  2. Intégrité : les fichiers sont-ils identiques à l'original ? (via des empreintes numériques quand elles sont disponibles — voir glossaire)
  3. Cohérence : la structure des dossiers et les formats de fichiers sont-ils conformes ?

1. GDELT — Événements géopolitiques

DescriptionBase de données d'événements mondiaux (conflits, diplomatie, économie) extraits de la presse
Couverture1979 — 2025
FormatFichiers .zip contenant des CSV (un fichier par jour ou par mois)
Taille48 Go, 4 658 fichiers
Vérification disponibleOui — fichier md5sums fourni par GDELT (empreinte MD5 de chaque fichier)

Anomalies

#TypeFichierDétail
1Fichier manquant20221110.export.CSV.zipAbsent du disque. Ce fichier est listé dans le fichier de référence md5sums mais n'a jamais été téléchargé.
2Fichier manquant20230323.export.CSV.zipMême situation.
3Fichier altéré20230322.export.CSV.zipLe fichier existe, mais son empreinte MD5 ne correspond pas à la valeur attendue. Cela signifie que le fichier sur le disque est différent de celui référencé par GDELT — probablement une version antérieure du fichier.

Impact

Très faible : 3 jours de données sur ~17 ans de couverture. Aucun impact sur les analyses à l'échelle mensuelle ou annuelle.


2. RavenPack — Sentiment de presse

DescriptionDonnées de sentiment extraites d'articles de presse par RavenPack (produit "Edge")
Couverture2011 — 2025
FormatUn fichier .zip par année
Taille249 Go, 14 fichiers
Vérification disponibleNon — aucun fichier de référence (checksums) fourni par RavenPack

Anomalies

#TypeDétail
4Année manquantePas de fichier pour 2020. Les années 2011-2019 et 2021-2025 sont présentes, mais 2020 est absente.
5Format de téléchargement13 fichiers sur 14 se trouvent dans des dossiers .zip.download (un artefact du navigateur Safari quand un téléchargement est interrompu puis repris). Le fichier .zip final est bien complet à l'intérieur de chaque dossier — c'est un problème de rangement, pas de contenu. Notre outil de copie aplatit automatiquement cette structure.

Années présentes

2011  2012  2013  2014  2015  2016  2017  2018  2019  [2020 ?]  2021  2022  2023  2024  2025
 ✓     ✓     ✓     ✓     ✓     ✓     ✓     ✓     ✓      ✗       ✓     ✓     ✓     ✓     ✓

Impact

L'année 2020 (COVID) est particulièrement importante pour les analyses de sentiment. À retrouver auprès de RavenPack.


3. CausalityLink — Données alternatives (IA causale)

DescriptionÉvénements, indicateurs, liens de causalité et tendances extraits par intelligence artificielle
CouvertureSnapshot unique du 13 août 2021
FormatFichiers .avro (format Apache Avro — un format binaire compact pour les données structurées)
Taille186,9 Go (mesuré sur Wasabi), 21 860 fichiers
Vérification disponibleNon — aucun fichier de référence fourni par CausalityLink

Anomalies

Aucune anomalie détectée sur les données.

#TypeDétail
6Fichier non pertinentUn installeur macOS (AWSCLIV2.pkg, 48 Mo) est présent dans le répertoire racine. Ce n'est pas une donnée — il est exclu de la copie automatiquement.

Structure des données

Sous-ensembleTaille (Wasabi)FichiersDescription
Markers91,18 Go3 454Marqueurs d'événements de marché
Indicators54,95 Go4 285Indicateurs économiques et financiers
Events19,37 Go4 285Événements détectés dans les sources
Trends12,34 Go4 285Tendances identifiées par l'IA
Links6,03 Go4 285Relations causales entre entités
Features2,96 Go1 233Caractéristiques extraites
KB51 Mo17Base de connaissances (ontologie)
Tree41 Mo16Arborescence des concepts

Impact

Aucun. À noter que les données sont un snapshot figé (pas de mises à jour incrémentales depuis août 2021).


4. Databento — Carnet d'ordres NASDAQ

DescriptionDonnées de marché tick-by-tick du NASDAQ : chaque ordre, modification et annulation dans le carnet d'ordres (10 niveaux de profondeur)
CouvertureMai 2018 — mars 2025
FormatFichiers .dbn.zst (format binaire Databento, compressé avec Zstandard)
Taille1,4 To, 3 042 fichiers répartis en 3 lots
Vérification disponibleOui — fichier manifest.json par lot avec empreinte SHA-256 de chaque fichier

Anomalies

Aucune anomalie détectée. Chaque lot contient exactement les fichiers listés dans son manifest.

LotPériodeTailleFichiersStatut
copy_XNAS-20250411-834CY4QERNAvril 2020 — mars 202552 Go1 260OK
copy_XNAS-20250411-TUD5WDMULMMars 2025 (récent)1,3 To26OK
XNAS-20250416-MHYNAA5XGUMai 2018 — avril 202034 Go1 753OK

La vérification SHA-256 de la copie locale est en cours. Elle confirme que chaque fichier copié est bit-à-bit identique à l'original.

Impact

Aucun.


Synthèse

gantt
    title Couverture temporelle des données
    dateFormat YYYY
    axisFormat %Y
    section GDELT
        Événements mondiaux          :1979, 2025
        3 jours manquants            :crit, 2022, 2023
    section RavenPack
        Sentiment de presse          :2011, 2025
        Année 2020 manquante         :crit, 2020, 2021
    section CausalityLink
        Snapshot unique              :milestone, 2021, 0d
    section Databento
        Carnet d'ordres NASDAQ       :2018, 2025
SourceStatutAnomaliesDonnées vérifiables ?
GDELTQuasi complet3 fichiers sur 4 658Oui (MD5)
RavenPackAnnée 2020 manquante1 année sur 15Non
CausalityLinkCompletAucuneNon
DatabentoCompletAucuneOui (SHA-256)

Issues à traiter

Les actions correctives identifiées dans ce rapport sont suivies dans les GitHub Issues.


Glossaire

TermeExplication
Checksum / empreinteUn code calculé à partir du contenu d'un fichier (comme une empreinte digitale). Si un seul octet change, l'empreinte change complètement. Permet de vérifier qu'un fichier n'a pas été altéré pendant une copie.
MD5Un algorithme de calcul d'empreinte. Produit un code de 32 caractères (ex : f6fcb7e955e35f93...). Utilisé par GDELT.
SHA-256Un algorithme d'empreinte plus robuste que MD5. Produit un code de 64 caractères. Utilisé par Databento.
ManifestUn fichier qui liste tous les fichiers d'un lot avec leurs empreintes et tailles. Sert de "bon de livraison" pour vérifier que rien ne manque.
.zipFormat d'archive compressée. Un fichier .zip contient un ou plusieurs fichiers compactés pour prendre moins de place.
.zip.downloadDossier créé par Safari (navigateur macOS) quand un téléchargement est interrompu. Le fichier final .zip se trouve à l'intérieur. Ce n'est pas une anomalie de données.
.avroFormat de fichier binaire d'Apache Avro, conçu pour stocker efficacement des données structurées (tableaux avec colonnes typées).
.dbn.zstFormat de fichier de Databento (.dbn) compressé avec l'algorithme Zstandard (.zst). Contient des données de marché tick-by-tick.
SnapshotUne photo instantanée des données à un moment précis, par opposition à des données mises à jour en continu.
Tick-by-tickDonnées enregistrant chaque événement individuel sur un marché (chaque ordre passé, modifié ou annulé), à la milliseconde près.
Carnet d'ordresLe registre en temps réel de tous les ordres d'achat et de vente sur un marché. Les "10 niveaux de profondeur" signifient qu'on voit les 10 meilleurs prix à l'achat et à la vente.
rsyncOutil de copie de fichiers qui ne retransfère que ce qui a changé. Si une copie est interrompue, elle reprend là où elle s'est arrêtée.
S3 / WasabiService de stockage en ligne (comme un disque dur dans le cloud). Wasabi est un fournisseur compatible avec le protocole S3 d'Amazon, mais moins cher.