Enrichissement de données

Le principe de l’enrichissement de données est d’hidrater et/ou corriger les données de «Longue vie aux objets» grâce à des sources partenaires ou exécutant des scripts de cohérence.

Enrichissements via des sources partenaires

Les sources aujourd’hui utilisées sont :

Comment ça marche

Plusieurs étapes :

  1. Téléchargement de la base de données partenaire et copie sur notre propre base de données (DAG Airflow)

    • Cloner - AE - Etablissement

    • Cloner - AE - Unite Legale

    • Cloner - BAN - Adresses

    • Cloner - BAN - Lieux-dits

  2. Préparation de la donnée (Airflow + DBT) :

    • DBT - Rafraîchir les acteurs affichés

    • 🔄 Enrichir - Rafraîchir les modèles DBT

  3. Création des suggestions (Airflow + DBT) :

    • 🚪 Enrichir - Acteurs Fermés

        graph LR
    F[Enrichir - Rafraîchir DBT]
    A[Cloner - AE - Etablissement] --> F
    B[Cloner - AE - Unite Legale] --> F
    C[Cloner - BAN - Adresses] --> F
    D[Cloner - BAN - Lieux-dits] --> F
    F --> G[Enrichir - Acteurs Fermes]
    E[DBT - Rafraîchir les acteurs] --> G
    

Script de cohérence

Vérification des URLs

le DAG 🔗 Crawl - URLs - Suggestions collecte les URLs des acteurs et parcourt ces URL pour vérifier qu’elles sont valident