Ce jeu de données, associé au projet Hérelles, regroupe l’ensemble des termes identifiés afin de récolter automatiquement des données textuelles en lien avec les thématiques du projet.
Plusieurs étapes successives ont été nécessaires à la conception du Vocabulaire de Concept. Chacune d’elles a permis d’identifier des termes pertinents concernant deux thématiques qui sont : l’urbanisme et les risques naturels.
Ce jeu de données est composé de 6 fichiers :
Le fichier Lisez_Moi définit le protocole d’identification du vocabulaire retenu ainsi que les définitions des différents termes techniques employés (mots graines, vocabulaire de concepts …).
Le fichier Read_Me est la version en anglais du précédent document.
Le fichier Initial_Corpus_Links.tab présente les liens vers les documents constituant le corpus thématique utilisé.
Le fichier Seed_Words_Urbanism.tab contient la liste des mots-graines pour la thématique urbanisme.
Le fichier Seed_Words_Natural_Risks.tab contient la liste des mots-graines pour la thématique risques naturels.
Le fichier Extended_Vocabulary_Natural_Risks.tab contient les termes graines pour la thématique urbanisme ainsi que leurs extensions sémantique et lexicale.
Le fichier Extended_Vocabulary_Urbanism.tab contient les termes graines pour la thématique risques naturels ainsi que leurs extensions sémantique et lexicale.