Gutachten 2 für Löhden et al. 2025

Gutachten vom 14.06.2025
Empfohlene Zitierweise: Pia Geißel: Gutachten zu Eike Martin Löhden / Diana Müller / Simon Horny: Digitale Urkundenbestände. Aufbau und Nutzungsmöglichkeiten des Marburger Urkundenrepositoriums. In: Zeitschrift für digitale Geisteswissenschaften. 14.06.2025. https://doi.org/10.17175/2025_004_R2
I.1. Qualität der Metadaten der Datenpublikation
Die Metadaten des Datensets beschreiben die Datenset so ausführlich wie möglich. Sie enthalten eine menschen- und maschinenlesbare Lizenzangabe. Normdaten werden sinnvoll referenziert (z. B. GND, Wikidata, GeoNames):
Nicht relevant
I.2. Maschinenlesbarkeit der Datenpublikation
Daten und Metadaten folgen einem (in der Disziplin) gängigen, geeigneten Datenstandard und liegen in einem gängigen Dateiformat vor. Die verwendeten Datenstandards (und ggf. ihre Versionen) werden benannt:
Trifft eher zu
★★★☆
I.3. Informationen zu Beteiligung und Autorschaft an der Datenpublikation
Die Autor*innen des Datensets (und ggf. weitere Beteiligte) sind eindeutig benannt und persistent identifizierbar (z.B. über die GND-Nummer, ORCiD), ihre Funktionen werden in den Metadaten beschrieben (z. B. via CRediT, MARC Relator oder TaDiRAH):
Trifft zu
★★★★
I.4. Zugänglichkeit der Datenpublikation
Das Datenset und dessen Subsets sind eindeutig und sinnvoll benannt und strukturiert. Die Daten sind über den PID direkt und ohne spezialisierte Werkzeuge kosten- und barrierefrei abrufbar. Falls Zugangs- oder Nutzungsbeschränkungen vorliegen, werden diese nachvollziehbar begründet (z. B. urheber- oder datenschutzrechtliche Gründe):
Trifft eher nicht zu

Bemerkungen: - Die URIs werden zu einer html Seite aufgelöst und nicht zu einer Datenseite- wo kann ich den Datensatz als Datei herunterladen?
- Die eigentlichen Daten (und Bilddaten/dateien?) können nicht direkt mittels URL abgerufen werden sondern über per OAI-PMH / REST-API (was def. unter „spezialisierte Werkzeuge“ fällt).
- Ich habe keine Download-Möglichkeit as ZIP/CSV/JSON/XML Datensatz o.Ä. auf der Websitenoberfläche gefunden
--> Für Nutzung großer Datenanteile ist technisches Wissen nötig (Python, API etc.).

★☆☆☆
I.5. Dauerhafte Verfügbarkeit der Datenpublikation
Die Daten liegen in einem Dateiformat vor, das für die langfristige Aufbewahrung geeignet ist bzw. in mehreren Dateiformaten, um die Wahrscheinlichkeit der langfristigen Verfügbarkeit zu erhöhen. Eine Strategie, die Daten und Metadaten dauerhaft aktuell, verfügbar und nutzbar zu halten, ist vorhanden und im Datenset dokumentiert, die Langzeitarchivierung der Daten und Metadaten ist sichergestellt. Änderungen werden durch Versionierung sichtbar gemacht und sind nachvollziehbar:
Trifft zu

Anmerkung: Der Aspekt LZA ist noch im Aufbau; formale Zertifizierungen (DIN 31644/Nestor) werden nicht explizit erwähnt sind aber ggfs über die Univ. (-> DSpace-Repos) im allgemeinen zertifiziert?

★★★★
I.6. Kontext der Datenpublikation
Die Datenpublikation ist innovativ und kann von anderen sinnvoll genutzt und mit anderen Datensets kombiniert werden. Im Datenset werden Angaben zu Vollständigkeit, Entstehungskontext, Erhebungs- und Verarbeitungsmethoden sowie zur Qualität der Daten gemacht. Lücken in den Daten, Unsicherheiten oder Schwierigkeiten bei der Datenerhebung werden transparent benannt:
Trifft eher zu

Anmerkung: Aufgrund noch unvollständiger Datenbereinigungen (insb. bei Personen und Archiven) sind bestimmte Nutzungsszenarien momentan eingeschränkt.
Die Schnittstellen für übergreifende Plattformen (z. B. Monasterium.net) sind noch nicht integriert. Nicht weiter strategisch erwähnt wurde die Verknüpfung mit prometheus oder DDB obwohl anfangs damit eingeleitet wurde

★★★☆
II.1. Data Paper: Kontext der Erstellung
Im Data Paper wird der Kontext der Erstellung der Datenpublikation und die grundsätzliche Zielstellung ausführlich und nachvollziehbar dargestellt:
Trifft zu
★★★★
II.2. Data Paper: Angaben zur Methodik
Für alle publizierten Daten werden im Data Paper umfassende Angaben zur Methodik der Datenerhebung und ggf. -bereinigung bzw. -aufbereitung gemacht. Die Wahl der verwendeten Datenschemata und Dateiformate wird nachvollziehbar begründet:
Trifft eher nicht zu
★☆☆☆
II.3. Data Paper: Lücken und Schwachstellen
Lücken in den Daten und Schwachstellen in der Methodik werden transparent benannt und begründet:
Trifft eher zu
★★★☆
II.4. Data Paper: Verweis auf Publikationen
Die Nutzung der Daten durch die Autor*innen wird nachvollziehbar beschrieben, auf publizierte Forschungsbeiträge unter Nutzung der Daten wird hingewiesen. Auch auf ähnliche oder sinnvoll mit den beschriebenen Daten kombinierbare weitere Datenpublikationen wird verwiesen:
Nicht relevant
II.5. Data Paper: potenzielle Nutzung
Es werden nachvollziehbare potenzielle Nutzungsszenarien entworfen und beschrieben:
Nicht relevant

Bemerkungen: Der komplette Aspekt der Datenbereinigung wird nicht weiter ausgeführt ("mittels verschiedener Python-Skripte"), teilweise Fremddatenübernahme aber aus welchem Format in welches Format? Warum dieses Format etc

III. Gesamturteil

Annehmen (gute Qualität)

Ampel auf gruen

Schlusskommentar: - Das Data Paper dokumentiert umfassend die Konzeption, technische Umsetzung und allgemeine Aufbereitung des Marburger Urkundenrepositoriums, welches die zwei bedeutenden mittelalterlichen Urkundenbestände (LBA und CAO) digital vereint und zugänglich macht. Es erfüllt die Anforderungen an eine moderne, transparente und nachnutzbare Datenpublikation im Bereich der GW/DH.

- Die Stärken in der strukturellen Offenheit (offene Lizenzen, Beschreibung der Schnittstellen etc.) und die Einbettung in wissenschaftliche Kontexte überwiegen die bestehenden Einschränkungen.

- Allerdings ist die technische Nachvollziehbarkeit der Datenbereinigung und Normdatenanreicherung nur punktuell dokumentiert.
Für eine vollständige Offenheit im Sinne von Reproduzierbarkeit wäre eine ausführlichere Beschreibung/Offenlegung(?) der verwendeten Skripte und Transformationsschritte wünschenswert:
- ggfs Bereitstellung der Skripte (z. B. GitHub oder im Repositorium selbst?)
- mehrere Beispiele für typische Problemfälle anstatt nur ein Einzelbsp.
- Beschreibung der Entscheidungskriterien für Mapping detaillierter beschreiben
- eine Gegenüberstellung alter vs. bereinigter Datensätze wäre interessant gewesen
- bessere Dokumentation der Schnittstellen