Segments textuels consolidés - Consolidated Textual Segments - Hérelles Project - Dataset

Dataset

Segments textuels consolidés - Consolidated Textual Segments - Hérelles Project

DOI

(English version below) L’un des objectifs du projet Hérelles est de trouver de nouveaux mécanismes afin de faciliter l’étiquetage (ou sémantisation) des clusters issus des séries temporelles d’images satellite. Pour y parvenir, une solution proposée est d’associer des éléments textuels d’intérêt (adéquation avec la thématique d’étude, et le périmètre spatio-temporel des séries temporelles) aux données satellite. Ce jeu de donnée est une version consolidée du jeux de donnée "Segments Textuels Hérelles". Il présente un corpus thématique préalablement récolté et annoté manuellement ainsi que le code et les résultats d’une méthode d’extraction automatique des éléments textuels d'intérêt. Il comprend les éléments suivants : Le fichier "Corpus_Expert_Links" présente le corpus thématique utilisé avec les liens vers les documents qui le composent. Ils ont été choisis pour leur richesse en règles et contraintes concernant l’occupation des sols. Le fichier "Lisez_Moi_Consolidated_Version" est la version consolidée du premier protocole d’annotation, avec la définition des différents termes employés (segments, règles, …). Le fichier "Read_Me_Consolidated_Version" est la version anglaise du fichier Lisez_Moi.

Le dossier compressé "Corpus_Manual_Annotation_Consolidated_Version" contient les documents d’intérêt en version txt et annotés manuellement.
Le dossier compressé "Corpus_Extracted_Segments_Consolidated_Version" contient la version consolidée des résultats du processus de segmentation automatique sur les documents d’intérêt avec les labels selon les 4 classes (Verifiable, Non-verifiable, Informative and Not pertinent). Le dossier compressé "LUPAN_code" contient le code associé à l'extraction de texte des documents PDF, la construction de segments à partir des documents texte, la préparation des données pour l'évaluation utilisant la méthode (CamemBERT).

Notre corpus est disponible dans la bibliothèque Huggingface et peut être chargé directement en Python : https://huggingface.co/datasets/Herelles/lupan De plus, nous avons fine-tuné un modèle au-dessus de CamemBERT en utilisant LUPAN qui est également disponible sur huggingface : https://huggingface.co/Herelles/camembert-base-lupan Enfin, nous avons développé une démo qui démontre les capacités de notre corpus et de ce modèle : https://huggingface.co/spaces/Herelles/segments-lupan

One of the objectives of the Hérelles project is to discover new mechanisms to facilitate the labeling (or semantic annotation) of clusters extracted from time series of satellite images. To achieve this, a proposed solution is to associate textual elements of interest (relevant to the study's theme and the spatiotemporal scope of the time series) with satellite data. This dataset is a consolidated version of the "Hérelles Textual Segments" dataset. It includes a thematically collected and manually annotated corpus, as well as the code and the results of an automatic extraction method for textual elements of interest. It comprises the following elements: The file "Corpus_Expert_Links" presents the thematic corpus used with links to its constituent documents. These documents were chosen for their richness in rules and constraints regarding land use. The file "Lisez_Moi_Consolidated_Version" is the consolidated version of the initial annotation protocol, providing definitions of various terms used (segments, rules, etc.). The file "Read_Me_Consolidated_Version" is the English version of the "Lisez_Moi" file. The compressed folder "Corpus_Manual_Annotation_Consolidated_Version" contains the manually annotated versions of the documents of interest in txt format. The compressed folder "Corpus_Extracted_Segments_Consolidated_Version" contains the consolidated version of the results of the automatic segmentation process applied to the documents of interest, along with labels for the four classes (Verifiable, Non-verifiable, Informative, and Not pertinent). The compressed folder "LUPAN_code" contains the code of the corpus construction and preliminary evaluation for LUPAN. It includes extraction of the text from the PDF documents, construction of segments from the text documents, preparation of the data for evaluation, evaluation experiments using a state-of-the-art method (CamemBERT).

Our corpus is available in the Huggingface library and can be loaded directly in Python: https://huggingface.co/datasets/Herelles/lupan In addition, we fine-tuned a model on top of CamemBERT using LUPAN, which is also available on huggingface: https://huggingface.co/Herelles/camembert-base-lupan Finally, we developed a demo which demonstrates the capabilities of our corpus and this model: https://huggingface.co/spaces/Herelles/segments-lupan

Identifier
DOI	https://doi.org/10.57745/XIVJ65
Metadata Access	https://entrepot.recherche.data.gouv.fr/oai?verb=GetRecord&metadataPrefix=oai_datacite&identifier=doi:10.57745/XIVJ65

Provenance
Creator	Holveck, Margaux; Koptelov, Maksim ; Roche, Mathieu ; Teisseire, Maguelonne
Publisher	Recherche Data Gouv
Contributor	Teisseire Maguelonne; Entrepôt-Catalogue Recherche Data Gouv
Publication Year	2023
Rights	etalab 2.0; info:eu-repo/semantics/openAccess; https://spdx.org/licenses/etalab-2.0.html
OpenAccess	true
Contact	Teisseire Maguelonne (TETIS, INRAE)

Representation
Resource Type	Collection; Dataset
Format	text/tab-separated-values; application/zip; application/pdf
Size	682; 166810; 148129; 655744; 8577; 622295
Version	5.1
Discipline	Computer Science