Ingestion des sources¶
Ătapes¶
Vérification de la configuration
Normalisation
Vérification de la données à ingérer normalisées
Comparaison avec les instances des acteurs en base de données pour déterminer les acteurs à modifier, créer ou supprimer
suiteâŠ
Vérification de la configuration¶
La confiuration doit suivre le format de la class DAGConfig
Normalisation¶
Certaine valeurs des données sources sont considérées comme nulles : « null », « none », « nan », « na », « n/a », « non applicable », « - », « aucun ». Elle sont remplacées par une chaßne vide ou supprimées des listes.
Les rÚgles de nomalisation décrite dans le paramÚtre du DAG dans la section normalization_rules
les rĂšgles sont de diffĂ©rent type et appliquĂ©e dans lâordre suivant:
Renommage des colonnes. Format : { « origin »: « col origin », « destination »: « col origin » }
Transformation des colonnes. Format : { « origin »: « col origin », « destination »: « col destination », « transformation »: « function_name » }
Ajout des colonnes avec une valeur par défaut. Format : { « column »: « col 1 », « value » : « val » }
Transformation du dataframe. Format : { « origin »: [« col origin 1 », « col origin 2 »], « transformation »: « function_name », « destination »: [« col destination 1 », « col destination 2 »] }
Supression des colonnes. Format : { « remove »: « col 1 » }
Colonnes à garder (rien à faire, utilisé pour le controle). Format : { « keep »: « col 1 » }
AprÚs la normalisation, les données des acteurs sont trÚs proches des données cibles:
Les liens vers les autres tables sont représentés par les codes, i.e. les objets
actions
,sous-catégories
,label
,acteur_type
etlabel
sont représentés par leurs codes en liste ou valeur simpleles données à ingérer sont comparables aux données en base de données