GREED - GeRman Energy and Environment Document Corpus for Geoparsing and Time Expression Normalization Tasks

DOI

GREED - GeRman Energy and Environment Document Corpus for Geoparsing and Time Expression Normalization Tasks

This dataset contains scientific texts with rich linguistic or structural annotations for research purposes. It is designed to support tasks such as natural language processing, information extraction, and corpus linguistics.

Contents

The dataset consists of two main components:

  1. Text Content
    Excerpts or full text passages from scientific publications. These were included with explicit permission from the respective authors or rights holders.

The following table lists the included files and the corresponding source information:

| File Name | Title | Authors | Link | |-----------|-------|---------|------| | 10200-Klimaleitplanken_2.0 | * Klimazukunft Baden-Württemberg - Was uns ohne effektiven Klimaschutz erwartet! * | Dr. Kai Höpker, Dr. Sabrina Plegnière (LUBW) | Link | | 10506-Landesweite_Brutbestandserfassung_2022_im_Auftrag_der_LUBW_-_Landesanstalt_für_Umwelt_Baden-Württemb.tml | * Der Kormoran (Phalacrocorax carbo) in Baden-Württemberg 2022 * | Ornithologische Gesellschaft Baden-Württemberg | Link | | 10274-Sondermessungen_2020_Abschlussbericht.tml | * Verkehrsnahe Sondermessungen 2020 in Baden-Württemberg * | LUBW Refarat 33 | Link | | 10199-Immissionsbelastung_für_Baden-Württemberg_2016_-_2025.tml | * Flächendeckende Ermittlung der Immissionsbelastung für Baden-Württemberg 2016 und Prognose für 2025 * | LUBW Refarat 33 | Link | | Grundwasser-Überwachungsprogramm - 2022.tml | * Grundwasser-Überwachungsprogramm 2022 * | LUBW Referat 42 | Link | | 10582-Zahlen_und_Fakten_zum_Stand_der_Altlastenbearbeitung_in_Baden-Württemberg.tml | * Altlastenstatistik 2022 * | Jochen Stark, Alicia Graf | Link | | 82479-Untersuchungen_unter_Verwendung_des_Programms_ARTM_(Atmosphärisches_Radionuklid-Transport-Modell).tml | * ABR-ARTM - Untersuchung zur Langzeitausbreitung von radioaktiven Schadstoffen an den Standorten von Atomkraftwerken in Baden-Württemberg * | Walter Scheuermann, Andreas Piater, Christoph Krass, Herbert Pohl | Link | | 95109-Leitfaden | Überwachung von industriellen Abwasseranlagen und -einleitungen | LUBW | Link | | Anlage 4 der V813-2023_Abschlussbereicht.tml | * V813/2023 ANLAGE 4: ABSCHLUSSBERICHT * | Stadt Mannheim, MVV Regioplan | Link | | Kommunale_Waermeplanung_Beschlussvorlage.tml | Kommunale Wärmeplanung für München * | Referat für Klima- und Umweltschutz und Referat für Arbeit und Wirtschaft | Link | | 01_2024_uib_energieeffiziente_mobilitaet.tml | * Beschäftigung durch energieeffiziente Mobilität - Methodik der Ermittlung und Ergebnisse für das Jahr 2019 * | Luisa Sievers, Anna Grimm | Link | | 333_LF_Urbansky.tml | * Untersuchung der Verteilnetzbelastung bei Proaktivem Energy-Sharing nach Österreichischem Vorbild * | Julian Urbansky, Lennart Schürmann | Link | | Innovative_Technologien_Gebäudebereich_EWB.tml | Innovative Technologien im Gebäudebereich der Forschungsinitiative ENERGIEWENDEBAUEN | Jessica Preuss, Heike Erhorn-Kluttig | Link | | 05_2024_cc_dekarblnd_tb1.tml | Dekarbonisierung der industriellen Produktion (DekarbInd) AP 1: Ganzheitliches Bewertungsschema für Technologien | Peter Viebahn, Dietmar Schüwer, Georg Holtz, Andreas Pastowski, Jacqueline Klingen, Sören Steger, Ali Aydemir | Link | | 1436-4980-2024-01-02-11.tml | Effizienzsteigerung durch Energiemanagementsysteme | Laura Jung, Kerim Torolsan, Artur Gergert, Felix Förster, Alexander Sauer | Link | | Wärmeplanung_Augsburg_Infoblatt_Jan2024 | Hinweise zur Wärmeplanung und zum Fernwärmeausbau im Stadtgebiet Augsburg (Stand Januar 2024) | Stadt Augsburg, Umweltamt | Link | | 2024-04-05_Endbericht_kommunale_Wärmeplanung_Stadt_Pforzheim_nach__7_Klimaschutzgesetz_Baden-Württemberg.tml | Kommunale Wärmeplanung der Stadt Pforzheim | Stadt Pforzheim, Amt für Umweltschutz | Link | | Bericht_zur_kommunalen_Waermeplanung.tml | Kommunale Wärmeplanung Für die Stadt Offenburg | Stadt Offenburg | Link | | 10598-Archewiesen_-_Saatgutgewinnung.tml | „Archewiesen“ Ein Projekt zur Erhaltung des artenreichen Grünlands in Baden-Württemberg | LUBW Referat 56 | Link | | Auf zu neuen Wegen – gemeinschaftlich und nachhaltig wirtschaften!_2022.tml | Auf zu neuen Wegen – gemeinschaftlich und nachhaltig wirtschaften!* | Binta Bah, Gerd Oelsner | Link |

⚠️ The individuals and institutions listed here are the copyright holders of the corresponding documents. The text content is used with their permission and may only be used for non-commercial, scientific purposes.

  1. Annotations
    Metadata, structural, or linguistic annotations created manually or semi-automatically, intended to support various forms of scientific analysis.

License

Annotations

All annotations and the dataset structure are licensed under the Creative Commons Attribution 4.0 International License (CC BY 4.0).
You are free to use, modify, and redistribute the annotations — including for commercial purposes — provided that appropriate credit is given.

🔗 CC BY 4.0 Summary

Text Content

The original text content is copyrighted and included with permission from the respective authors or publishers.
It is made available exclusively for non-commercial, scientific use.

  • ✅ Permitted: Academic research, teaching, citation in scientific publications.
  • ❌ Not permitted: Commercial use, redistribution of raw text content outside of research settings, or adaptation beyond scholarly work.

For more details, refer to the LICENSE.txt file.

Author and Contact Information:

  • Institution: Karlsruhe Institute of Technology (KIT), Institute for Automation and Applied Informatics (IAI)
  • Main Author: Nicolas Doms, ndoms716@gmail.com
  • Authors: Toni Golian, Ruidie Hu
  • Principle Investigator: Thorsten Schlachter, thorsten.schlachter@kit.edu

Version and Date of Publication

  • Version: 1.0
  • Date: 2025-04-08

Disclaimer

This dataset is provided "as is" without warranty. The authors are not responsible for any misuse of the content. Users must ensure compliance with the licensing terms when distributing or using the dataset.

TagCombiner.py

Text content and annotations are delivered separately in this dataset to ensure a clear separation with regard to the license. This dataset includes a Python file named TagCombiner.py. This simple code merges the tags from the "Tags" directory into the raw text data in the "Raw" directory. The resulting files have the annotations in-line and can be used for the evaluation of machine learning models.

Identifier
DOI https://doi.org/10.35097/667428hdvrvnb4q3
Related Identifier IsIdenticalTo https://publikationen.bibliothek.kit.edu/1000180889
Metadata Access https://www.radar-service.eu/oai/OAIHandler?verb=GetRecord&metadataPrefix=datacite&identifier=10.35097/667428hdvrvnb4q3
Provenance
Creator Doms, Nicolas ORCID logo; Golian, Toni; Hu, Ruidie
Publisher Karlsruhe Institute of Technology
Contributor RADAR
Publication Year 2025
Rights Open Access; Creative Commons Attribution Non Commercial Share Alike 4.0 International; info:eu-repo/semantics/openAccess; https://creativecommons.org/licenses/by-nc-sa/4.0/legalcode
OpenAccess true
Contact Schlachter, Thorsten (Institut für Automation und angewandte Informatik (IAI), Karlsruher Institut für Technologie (KIT))
Representation
Resource Type Dataset
Format application/x-tar
Discipline Computer Science; Computer Science, Electrical and System Engineering; Engineering Sciences