Skip to content

Ajout des données des actes de sous-traitance format 2019 et 2022 #22

@ColinMaudry

Description

@ColinMaudry

Dans les DECP de data.economie.gouv.fr de 2019, les données des actes de sous-traitance sont stockées dans un array d'objets JSON. Il faut donc :

  • les parser pour les traiter comme du JSON (eval)
  • les "exploser" pour avoir une ligne DECP par acte de sous-traitance
  • répartir le contenu de l'objet JSON dans de nouvelles colonnes, sur le modèle du format data.economie 2022

Voici un début de code :

    # Explosion des champs JSON en colonnes dans des df séparés
    
    df_actes_sous_traitance = df[["uid", "actesSousTraitance"]]

    #Remplacement des NaN par des listes vides []

    def safe_eval(value):
        if isinstance(value, str):  # Seulement si la valeur est une string
            try:
                return ast.literal_eval(value)
            except (ValueError, SyntaxError):  # Si eval échoue
                return []
        elif value == NaN:
            return []
        else:
            raise ValueError
    
    df_actes_sous_traitance["actesSousTraitance"] = df_actes_sous_traitance["actesSousTraitance"].apply(safe_eval).explode(ignore_index=True)

Metadata

Metadata

Assignees

No one assigned

    Labels

    Projects

    Status

    Backlog

    Milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions