Enrichissement de données¶

Le principe de l’enrichissement de données est d’hidrater et/ou corriger les données de «Longue vie aux objets» grâce à des sources partenaires ou exécutant des scripts de cohérence.

Enrichissements via des sources partenaires¶

Les sources aujourd’hui utilisées sont :

Annuaire entreprise : agrégateur de données sur les entreprises en France
La BAN : Banque d’adresse nationnale : référencement et géolocalisation de toutes les adresses en France

Comment ça marche¶

Plusieurs étapes :

Téléchargement de la base de données partenaire et copie sur notre propre base de données (DAG Airflow)
- Cloner - AE - Etablissement
- Cloner - AE - Unite Legale
- Cloner - BAN - Adresses
- Cloner - BAN - Lieux-dits
Préparation de la donnée (Airflow + DBT) :
- DBT - Rafraîchir les acteurs affichés
- 🔄 Enrichir - Rafraîchir les modèles DBT
Création des suggestions (Airflow + DBT) :
- 🚪 Enrichir - Acteurs Fermés

        graph LR
    F[Enrichir - Rafraîchir DBT]
    A[Cloner - AE - Etablissement] --> F
    B[Cloner - AE - Unite Legale] --> F
    C[Cloner - BAN - Adresses] --> F
    D[Cloner - BAN - Lieux-dits] --> F
    F --> G[Enrichir - Acteurs Fermes]
    E[DBT - Rafraîchir les acteurs] --> G

Script de cohérence¶

Vérification des URLs¶

le DAG 🔗 Crawl - URLs - Suggestions collecte les URLs des acteurs et parcourt ces URL pour vérifier qu’elles sont valident