Ingestion des sources¶

Étapes¶

  1. Vérification de la configuration

  2. Normalisation

  3. Vérification de la données à ingérer normalisées

  4. Comparaison avec les instances des acteurs en base de données pour déterminer les acteurs à modifier, créer ou supprimer

  5. suite


Vérification de la configuration¶

La confiuration doit suivre le format de la class DAGConfig

Normalisation¶

Certaine valeurs des données sources sont considérées comme nulles : « null », « none », « nan », « na », « n/a », « non applicable », « - », « aucun ». Elle sont remplacées par une chaßne vide ou supprimées des listes.

Les rÚgles de nomalisation décrite dans le paramÚtre du DAG dans la section normalization_rules

les rĂšgles sont de diffĂ©rent type et appliquĂ©e dans l’ordre suivant:

  1. Renommage des colonnes. Format : { « origin »: « col origin », « destination »: « col origin » }

  2. Transformation des colonnes. Format : { « origin »: « col origin », « destination »: « col destination », « transformation »: « function_name » }

  3. Ajout des colonnes avec une valeur par défaut. Format : { « column »: « col 1 », « value » : « val » }

  4. Transformation du dataframe. Format : { « origin »: [« col origin 1 », « col origin 2 »], « transformation »: « function_name », « destination »: [« col destination 1 », « col destination 2 »] }

  5. Supression des colonnes. Format : { « remove »: « col 1 » }

  6. Colonnes à garder (rien à faire, utilisé pour le controle). Format : { « keep »: « col 1 » }

AprÚs la normalisation, les données des acteurs sont trÚs proches des données cibles:

  • Les liens vers les autres tables sont reprĂ©sentĂ©s par les codes, i.e. les objets actions, sous-catĂ©gories, label, acteur_type et label sont reprĂ©sentĂ©s par leurs codes en liste ou valeur simple

  • les donnĂ©es Ă  ingĂ©rer sont comparables aux donnĂ©es en base de donnĂ©es