📓
Guide DataSud
  • Bienvenue
  • ❓Foire aux questions
  • Documentation de datasud.fr
    • Créer un compte utilisateur, un groupe et rejoindre une organisation
    • Organisation
      • Créer une organisation
      • Suivre l'activité et modifier son organisation
      • Gérer les membres de son organisation
      • Groupes d’organisations
      • Configuration de permissions particulières des jeux de données
      • Supprimer une organisation
    • Jeux de données
      • Publier un jeu de données
      • Utiliser différents modes de publication de vos ressources
      • Gérer un jeu de données
        • Paramétrer le jeu de donnée
        • Consulter les statistiques de vos jeux de données
      • Explorer un jeu de donnée
      • Indexer un catalogue de données existant
    • Réutilisations
      • Publier une réutilisation
    • Moissonnage
      • Les limites du moissonnage
      • Correspondance des champs entre les catalogues
      • Mettre en place un moissonneur entre DataSud et Data.gouv
      • Analyser le rapport de moissonnage
    • Les Carte : MAPS
      • Consulter les cartes de DataSud
      • Créer une carte dans DataSud
      • Partager sa carte dans un espace de travail
  • Guides open data
    • Guide juridique
      • Producteurs de données
        • Comprendre la notion d'open data
        • Qui est concerné ?
        • Quelles sont les obligations ?
      • Réutilisateurs de données
        • Comprendre la notion d'open data
        • Respecter les conditions de réutilisation
      • Chronologie de l'open data
    • Guide qualité
      • Evaluer le niveau de qualité d'un jeu de données
      • Préparer un jeu de données de qualité
        • Extraire un jeu de données d'un système d'information
        • Structurer un jeu de données
          • Structurer une Base Adresse Locale
        • Lier des données à un référentiel
      • Documenter des données
        • Bien documenter un jeu de données
        • Diffuser la documentation d'un jeu de données
      • Améliorer la qualité d'un jeu de données en continu
        • Améliorer le score de qualité des métadonnées
        • Connaître et suivre les usages d'un jeu de données
        • Mettre en place une stratégie organisationnelle
      • Maîtriser les schémas de données
        • Comprendre les bénéfices d'utiliser un schéma de données
        • Créer un schéma de données
          • Etape 1 : Phase d'investigation
          • Etape 2 : Phase de concertation
          • Etape 3 : Phase de construction
          • Etape 4 : Phase de promotion et de maintien
          • Focus : Construire un schéma TableSchema
        • Intégrer un schéma de données à schema.data.gouv.fr
        • Produire des données en conformité avec un schéma
        • Indiquer et vérifier qu'une ressource respecte un schéma de données
  • Réutiliser des données
    • Utiliser les API géographiques
      • Utiliser l'API Adresse
        • Rappel sur les données adresses
        • Géocoder des adresses - théorie
        • Géocoder des adresses - cas pratiques
        • FAQ Adresse
      • Utiliser l'API Découpage administratif
      • Utiliser les tuiles vectorielles
    • Utiliser les données du cadastre
      • Comprendre les données du cadastre et leurs usages
      • Manipuler les données du cadastre
      • Foire aux questions sur le cadastre
    • Prendre en main l'API "Adresse" portée par l'IGN
  • Autres ressources utiles
    • Lexique de l'open data
    • Données de la commande publique
      • Publier les données essentielles d’attribution des marchés
      • Déclaration d’un profil d’acheteur
    • Données de forte valeur : métadonnées obligatoires et modalités de rapportage
    • Ressources OpenDataFrance
    • Documentation de transport.data.gouv.fr
Powered by GitBook
On this page
  • Pourquoi intégrer des données pivots dans un jeu de données ?
  • Quels référentiels utiliser pour intégrer des données pivots ?
  • Le service public de la donnée
  • Autres référentiels
  • Partager ses propres référentiels
  • Comment intégrer des adresses dans un jeu de données ?
  • Le géocodage
  1. Guides open data
  2. Guide qualité
  3. Préparer un jeu de données de qualité

Lier des données à un référentiel

PreviousStructurer une Base Adresse LocaleNextDocumenter des données

Last updated 1 year ago

Il est important d'intégrer dans vos jeux de données des données pivots relevant d'un référentiel.

Exemple : Mon jeu de données est une liste d'actions culturelles menées par ma région. Certaines de ces actions sont gérées par des associations. Il peut être intéressant de publier un jeu de données recensant ces actions avec un champ correspondant à l'identification des associations. Cet identifiant existe et est standardisé, il s'agit du numéro RNA, identifiant national des associations dont est opéré par le ministère de l'intérieur.

Pourquoi intégrer des données pivots dans un jeu de données ?

L'intégration dans un jeu de données de données pivots qui correspondent à un référentiel présente plusieurs avantages :

  • Une meilleure formalisation : en se basant sur un référentiel, le producteur de données a l'assurance d'utiliser un format de données standard et partagé par un grand nombre de jeux de données ;

  • Une meilleure synthèse : en se basant sur un référentiel, le producteur évite l’abondance de détails et va à l’essentiel. L’obtention d’informations complémentaires se fera par le biais de la consultation du référentiel lui-même ;

  • Une meilleure compréhension : en intégrant dans son jeu de données des données correspondant à un référentiel, le producteur facilite la compréhension de celui-ci par les utilisateurs car il se réfère à un standard largement adopté ;

  • Une meilleure réutilisation : intégrer des données liées à un référentiel facilitera la réutilisation du jeu de données et permettra son enrichissement avec d'autres données partageant la même donnée pivot ;

  • Une meilleure interopérabilité : intégrer des données pivots facilite le lien avec des données de référence fiables et à jour.

Quels référentiels utiliser pour intégrer des données pivots ?

Voici une liste non exhaustive de référentiels sur lesquels il est possible de s'appuyer pour l'intégration de variables pivots :

Le service public de la donnée

Le vise à mettre à disposition avec un haut niveau de qualité les jeux de données de référence qui présentent un fort impact économique et social.

À ce jour, 9 jeux de données ont été identifiés comme des données de référence :

Nom du jeu de données
Variable(s) pivot(s)
Description
Producteur

SIRET, SIREN

Liste des établissements (SIRET) et unités légales (SIREN) françaises

BAN

Référencement de l'intégralité des adresses du territoire français

Codes et libellés

Liste des communes, cantons, arrondissements, départements, régions, pays et territoires étrangers

Identifiant

Représentation de chacune des sections du cadastre français

Identifiant

Base de données géographique de référence pour l'instruction des aides de la politique agricole commune (PAC)

Identifiant

Liste des institutions régies par la Constitution de la Ve république ainsi que les administrations qui en dépendent

Identifiant

Composantes orthophotographique, topographique et adresse, parcellaire et altimétrique des territoires de l'Etat français

N° RNA / N° Waldec

Ensemble des associations relevant de la loi du 1er juillet 1901 relative au contrat d’association, dont le siège est en France

Code ROME

Inventaire des dénominations d’emplois/métiers les plus courantes, analyse des activités et compétences, regroupement des emplois selon un principe d’équivalence ou de proximité

Exemple : Afin de lister l'ensemble des actions culturelles de ma région, nous avons vu que le numéro RNA pouvait être utile pour identifier les associations. Grâce à celui-ci, il est également possible de récupérer le numéro SIRET de l'association si celle-ci en possède un. Il est également possible de détailler dans le jeu de données le code commune et le code département de chaque action. Pour cela, il convient de se référer au Code officiel géographique. Attention à bien respecter celui-ci. Par exemple, le code département de l'Ariège est le "09" et pas le "9". Ce type d'erreur pourrait entraîner des difficultés lors de la réutilisation des données.

Autres référentiels

Des jeux de données standardisées et communément partagées avec le plus grand nombre peuvent aussi être utilisés comme référentiels.

Référentiels métiers

Nom du jeu de données
Variable(s) pivot(s)
Description
Producteur

Code NAF

Nomenclature des activités économiques productives, principalement élaborée pour faciliter l'organisation de l'information économique et sociale

N°RNCP / N°RS

Répertoire des certifications officielles inscrites au RNCP et au RS

N° FANTOIR

Nom des lieux-dits et des voies pour chaque commune, y compris celles situées dans les lotissements et les copropriétés

Code Pays

Liste des états indépendants reconnus par la France

Code PCS / Code PCS-ESE

Nomenclatures des professions et catégories socioprofessionnelles

N°UAI

Liste des unités administratives immatriculées

Référentiels techniques

Les référentiels techniques n'ont pas de significations métiers mais ils permettent de décrire une donnée de manière standardisée. Ces standards permettent aux utilisateurs et aux algorithmes de pouvoir interpréter automatiquement la donnée de manière correcte.

Voici deux exemples de référentiels techniques :

Nom du référentiel
Description
Information

WGS84

Coordonnées géodésiques d'un lieu

ISO8601

Représentation numérique d'une date et d'une heure

Partager ses propres référentiels

Cadre Commun d'Architecture des référentiels de données de l'État

Le Cadre Commun d'Architecture des référentiels de données de l'État fait spécifiquement mention de l'importance des variables pivots dans le partage et la publication de données. Il stipule notamment que :

  • Les données sont un bien, un actif de l’État, elles doivent être gérées et valorisées en conséquence ;

  • Les données doivent être standardisées, définies sur la base d’un vocabulaire commun, contextualisées, et combinables les unes aux autres ;

  • Les données doivent être facilement réutilisables, partageables et accessibles à travers les frontières des administrations ;

  • Les données publiques doivent être mises à disposition librement et ouvertement sur internet ;

  • La sécurité et l'archivage des données doit être assuré.

Les acteurs sont encouragés à mettre en place leurs propres référentiels internes ou à les partager s'ils existent déjà pour favoriser au mieux le partage et l'interopérabilité des données.

Il est pertinent de diffuser, en même temps qu'un jeu de données, la liste des valeurs possibles correspondant à votre propre référentiel métier. Celui-ci sera connu et potentiellement réutilisé par d'autres acteurs.

La mise en place de référentiels fait partie d'une stratégie de montée en qualité de la donnée. Néanmoins ce n'est souvent pas suffisant : il est ensuite nécessaire de diffuser, former et vérifier que les données produites intègrent ces référentiels et n'en dérivent pas (à partir d'un contrôle humain ou de tests automatiques).

Exemple : J'utilise en interne un numéro unique permettant d'identifier chaque type d'action culturelle (arts du spectacle, cirque, arts plastiques...). Il peut être pertinent de diffuser en parallèle à la diffusion de mon jeu de données la liste de mon référentiel. Des communes de ma région pourraient potentiellement le réutiliser pour décrire leurs actions culturelles à une maille plus fine.

Comment intégrer des adresses dans un jeu de données ?

Il existe des référentiels pour décrire une adresse de manière unique.

  • Si vous partez de zéro pour constituer un jeu de données --> il est pertinent de partir de la Base Adresse Nationale pour décrire vos adresses.

  • Si vous travaillez sur un jeu de données qui contient déjà des adresses saisies --> il peut s'avérer fastidieux de corriger manuellement l'ensemble des adresses erronées et vous pouvez obtenir une base d'adresse normalisée grâce à la méthode décrite ci-dessous.

Le géocodage

Lexique : Géocodage

Le géocodage consiste à affecter des coordonnées géographiques à une adresse postale.

Le géocodage peut être en partie automatisé grâce à des outils proposés par Etalab.

Il permet aussi, à partir d'un jeu de données contenant des adresses déjà saisies, de retourner un jeu de données enrichi :

  • de coordonnées géographiques (longitude/latitude) ;

  • des adresses « corrigées » récupérées de la BAN.

Quelle que soit la méthode utilisée, le processus de géocodage retournera une liste d'adresses standardisées avec leurs coordonnées géographiques associées. Il donne aussi accès à une information geo_score correspondant au score de confiance que le géocodeur accorde à l'adresse retournée. Cet indicateur peut être utile à garder dans un jeu de données final, il donnera une indication aux utilisateurs sur la performance du géocodage de chaque adresse.

Exemple : L'identifiant unique d'une certification professionnelle est le . Ce jeu de données ne fait pas partie du service public de la donnée mais est largement partagé par les acteurs du domaine de la formation professionnelle.

Le référentiel officiel d'adresse est la .

Le site permet de géocoder une liste d'adresse via un appel à une API ou par le dépôt de fichier csv.

Le site est limité à des utilisations ponctuelles et des volumétries de données considérées faibles (moins d'un million de lignes).

Pour géocoder davantage de données (plusieurs millions de lignes), il est recommandé d'installer votre propre environnement de géocodage, en utilisant par exemple le géocodeur . Des ressources sont disponibles sur pour vous aider dans l'installation de votre environnement.

--> Le géocodage est détaillé .

le répertoire
service public de la donnée (SPD)
numéro RNCP
Base Adresse Nationale (ou BAN)
https://adresse.data.gouv.fr/
adresse.data.gouv.fr
Addok
GitHub
ici
Base SIRENE
INSEE
Base Adresse Nationale (BAN)
BAN
Code Officiel Géographique (COG)
INSEE
Plan Cadastral Informatisé (PCI)
Ministère de l'Économie et des Finances
Registre parcellaire graphique (RPG)
IGN
Référentiel de l'organisation administrative de l'Etat
DILA
Référentiel à grande échelle (RGE)
IGN
Répertoire National des Associations (RNA)
Ministère de l'Intérieur
Répertoire Opérationnel des Métiers et des Emplois (ROME)
Pôle Emploi
Nomenclature d’activités française (NAF)
INSEE
Répertoire National des Certifications Professionnelles (RNCP) et Répertoire Spécifique (RS)
France Compétences
Fichier FANTOIR des voies et lieux-dits
Ministère de l'Économie et des Finances
Etats et capitales du monde
Ministère de l'Europe et des Affaires Etrangères
Nomenclatures des professions et catégories socioprofessionnelles
INSEE
Liste des établissements d'enseignements supérieurs
Liste des établissements d'enseignements secondaires
ONISEP
Wikipedia
Wikipedia
Page d'accueil d'adresse.data.gouv.fr