Gutachten 1 für Löhden et al. 2025

Ostrowski, Alina

doi:10.17175/2025_004_r1

Gutachten vom 26.05.2025

DOI: 10.17175/2025_004_r1

80 Aufrufe

Empfohlene Zitierweise: Alina Ostrowski: Gutachten zu Eike Martin Löhden / Diana Müller / Simon Horny: Digitale Urkundenbestände. Aufbau und Nutzungsmöglichkeiten des Marburger Urkundenrepositoriums. In: Zeitschrift für digitale Geisteswissenschaften. 26.05.2025. https://doi.org/10.17175/2025_004_R1

I.1. Qualität der Metadaten der Datenpublikation

Die Metadaten des Datensets beschreiben die Datenset so ausführlich wie möglich. Sie enthalten eine menschen- und maschinenlesbare Lizenzangabe. Normdaten werden sinnvoll referenziert (z. B. GND, Wikidata, GeoNames):

Trifft eher zu

Bemerkungen: Die wichtigsten Metadaten der einzelnen Urkundenobjekte werden sinnvoll, atomar und in geeigneten Datentypen (z.B. Date, String) beschrieben. Problematisch ist hier die fehlende Dokumentation auf der Website selbst, so dass bei einigen der Metadaten insbesondere in der "Komplettanzeige" nur anhand der Namen der Metadatenfelder geraten werden kann, um welche Information es sich handelt. Wo vorhanden, sind Normdaten über die GND-Nummer referenziert. Die Erschließungstiefe der Daten ist bisher insbesondere im Hinblick auf das Entity Linking zwischen verschiedenen Schreibweisen identischer Personen eher niedrig, was im Data Paper als zukünftig geplante Aufgabe benannt ist. Einzelne Widersprüche in den Daten tauchen auf (z.B. CAO/983: dc.coverage.temporal weicht von dc.date. issued ab; LBA/13957: Aussteller als Lucius III. identifiziert, obwohl es sich um Lucius II. handelt, was auch im Titel steht). Die Lizenzangabe ist nur eingeschränkt maschinenlesbar (vgl. Punkt I.2). Menschenlesbar ist sie bei allen Objekten in der "Komplettanzeige", beim LBA auch in der Kurzanzeige angegeben.

★★★☆

I.2. Maschinenlesbarkeit der Datenpublikation

Daten und Metadaten folgen einem (in der Disziplin) gängigen, geeigneten Datenstandard und liegen in einem gängigen Dateiformat vor. Die verwendeten Datenstandards (und ggf. ihre Versionen) werden benannt:

Trifft eher nicht zu

Bemerkungen: Es gibt eine API für den Download von Metadaten in verschiedenen Schemata, darunter auch in für Gedächtnisinstitutionen üblichen Standards (Dublin Core, METS, LIDO, etc.). TEI und CEI fehlen leider (im Data Paper wird dies als geplant angegeben). Grundsätzlich wäre die Maschinenlesbarkeit also positiv zu bewerten. Da aus der als Datenpublikation angegebenen Website selbst jedoch nicht ersichtlich wird, dass die API existiert, keine weitere Möglichkeit zum Download angeboten wird und kein Verweis auf eine Dokumentation zur Erlangung der strukturierten Daten besteht, ist die Maschinenlesbarkeit bei für sich stehender Betrachtung der Website nicht gegeben. Die Daten in der "Komplettanzeige" einzelner Datensätze folgen anscheinend Dublin Core, doch das verwendete Schema ist hier nicht explizit dokumentiert und darum auch für menschliche Leser*innen nicht eindeutig. Insgesamt wird der Punkt I.2 hier darum negativ bewertet: Die in einer Datenpublikation enthaltenen oder verlinkten Informationen (z.B. zu externen Dokumentationen) müssen ausreichend sein, um auf die Daten zuzugreifen und diese zu verstehen.

★☆☆☆

I.3. Informationen zu Beteiligung und Autorschaft an der Datenpublikation

Die Autor*innen des Datensets (und ggf. weitere Beteiligte) sind eindeutig benannt und persistent identifizierbar (z.B. über die GND-Nummer, ORCiD), ihre Funktionen werden in den Metadaten beschrieben (z. B. via CRediT, MARC Relator oder TaDiRAH):

Trifft nicht zu

Bemerkungen: Die Website enthält bis auf eine sehr knappe Einführung der Vorgängerwerke (die analogen Sammlungen sowie Vorgänger-Datenbanken) keine Dokumentation zu Autorschaft, Entstehung oder Projektkontext. Weder die Namen der verantwortlichen Forschenden noch etwaige Mittelgeber*innen oder beteiligte Institutionen des hier betrachteten (neuen) Repositoriums werden hieraus ersichtlich (mit Ausnahme der Uni Marburg, die mit einem Logo vertreten ist).

☆☆☆☆

I.4. Zugänglichkeit der Datenpublikation

Das Datenset und dessen Subsets sind eindeutig und sinnvoll benannt und strukturiert. Die Daten sind über den PID direkt und ohne spezialisierte Werkzeuge kosten- und barrierefrei abrufbar. Falls Zugangs- oder Nutzungsbeschränkungen vorliegen, werden diese nachvollziehbar begründet (z. B. urheber- oder datenschutzrechtliche Gründe):

Trifft teilweise zu

Bemerkungen: Die Metadaten der einzelnen Urkundenobjekte sind nur durch die nicht ausgewiesene API herunterladbar/abrufbar (siehe Punkt I.2). Die API stellt grundsätzlich keine technische Barriere dar, doch eine Dokumentation der genauen Funktionsweise (wählbare Parameter etc.) wäre wünschenswert. Alle Daten sind zudem frei in der Webansicht einsehbar und die Bilddateien können hierüber einzeln heruntergeladen werden. Die einzelnen Datensätze können bei Bedarf über das Referenzsystem des LBA/CAO, also eine Kombination aus Sammlung/Zugangsnummer, und über die daraus abgeleitete "dauerhafte URI" referenziert werden. PIDs für die einzelnen Entitäten gibt es nicht, sind laut Data Paper aber nach Abschluss der weiteren Arbeiten geplant.

★★☆☆

I.5. Dauerhafte Verfügbarkeit der Datenpublikation

Die Daten liegen in einem Dateiformat vor, das für die langfristige Aufbewahrung geeignet ist bzw. in mehreren Dateiformaten, um die Wahrscheinlichkeit der langfristigen Verfügbarkeit zu erhöhen. Eine Strategie, die Daten und Metadaten dauerhaft aktuell, verfügbar und nutzbar zu halten, ist vorhanden und im Datenset dokumentiert, die Langzeitarchivierung der Daten und Metadaten ist sichergestellt. Änderungen werden durch Versionierung sichtbar gemacht und sind nachvollziehbar:

Trifft eher nicht zu

Bemerkungen: Maßnahmen zur Sicherstellung der LZV sind weder aus der Website noch aus dem Data Paper hinreichend zu erkennen. Das zugrundeliegende DBMS "DSpace" basiert laut Data Paper auf PostgreSQL. Diese Daten sind theoretisch als CSV- oder SQL-Dumps gut archivierbar. Nach Ausweis des Lyrasis-Wikis scheint DSpace interne Checksums zur Fehlererkennung in den Daten zu nutzen, ebenso wie Versionierung anzubieten. Laut Data Paper soll die LZV perspektivisch über ein hessisches Projekt zur Langzeitarchivierung sichergestellt werden - noch scheint dies also nicht geschehen zu sein.

★☆☆☆

I.6. Kontext der Datenpublikation

Die Datenpublikation ist innovativ und kann von anderen sinnvoll genutzt und mit anderen Datensets kombiniert werden. Im Datenset werden Angaben zu Vollständigkeit, Entstehungskontext, Erhebungs- und Verarbeitungsmethoden sowie zur Qualität der Daten gemacht. Lücken in den Daten, Unsicherheiten oder Schwierigkeiten bei der Datenerhebung werden transparent benannt:

Trifft teilweise zu

Bemerkungen: Wegen der fehlenden Dokumentation auf der Website bei gleichzeitigem Wert der bereitgestellten Daten wird Punkt I.6 ausgewogen beurteilt. Die angesprochenen methodischen/datenkritischen Fragen werden nur im nicht zur eigentlichen Datenublikation gehörigen Data Paper beantwortet. In ihrem jetzigen Zustand geht die Datenpublikation jedoch bereits deutlich über ihre Vorgänger-Datenbanken hinaus und berücksichtigt (sofern die API bekannt ist) moderne Ansprüche an (Meta-)Datenmodellierung, -standards und -verknüpfung sowie Zugänglichkeit. Zu diesem Zeitpunkt sind einige gängige Best Practices (z.B. Verknüpfung der Personen im CAO mit Schreibweisen-unabhängigen Entitäten) noch nicht umgesetzt, sind aber laut Data Paper geplant und werden - so das Projekt fortgeführt werden kann - den analytischen Mehrwert der Ressource noch erhöhen.

★★☆☆

II.1. Data Paper: Kontext der Erstellung

Im Data Paper wird der Kontext der Erstellung der Datenpublikation und die grundsätzliche Zielstellung ausführlich und nachvollziehbar dargestellt:

Trifft zu

★★★★

II.2. Data Paper: Angaben zur Methodik

Für alle publizierten Daten werden im Data Paper umfassende Angaben zur Methodik der Datenerhebung und ggf. -bereinigung bzw. -aufbereitung gemacht. Die Wahl der verwendeten Datenschemata und Dateiformate wird nachvollziehbar begründet:

Trifft teilweise zu

★★☆☆

II.3. Data Paper: Lücken und Schwachstellen

Lücken in den Daten und Schwachstellen in der Methodik werden transparent benannt und begründet:

Trifft zu

★★★★

II.4. Data Paper: Verweis auf Publikationen

Die Nutzung der Daten durch die Autor*innen wird nachvollziehbar beschrieben, auf publizierte Forschungsbeiträge unter Nutzung der Daten wird hingewiesen. Auch auf ähnliche oder sinnvoll mit den beschriebenen Daten kombinierbare weitere Datenpublikationen wird verwiesen:

Trifft zu

★★★★

II.5. Data Paper: potenzielle Nutzung

Es werden nachvollziehbare potenzielle Nutzungsszenarien entworfen und beschrieben:

Trifft teilweise zu

Bemerkungen: Zu 2: Methode für die Datenaufbereitung teils unklar, denn die genannten Python-Skripte sind keine Methode. Was genau passiert in den Skripten, mit denen die Bereinigung etc. durchgeführt wird? Wird z.B. mit RegEx, hart-kodierten if/else-Stringvergleichen, Naive Bayes-Classifiern oder Neuronalen Netzen gearbeitet? Unklar ist auch, wie genau Ausstellungsorte und Archive identifiziert wurden (also das Entity Linking). Im Text steht nur semi-automatisiert. Wie wurde im automatisierten Teil vorgegangen?

Zu 5: Es wird erläutert, wie die Daten abgerufen werden können (Webansicht und APIs), aber es wird kein Ausblick auf potenziell mit den Daten zu beantwortende Forschungsfragen gegeben. Besonders interessant: Welche Auswertungen könnte man nach Vervollständigung der Verknüpfungen zwischen Entitäten durchführen, die man vorher nicht durchführen konnte? Auch wird nicht auf die Forschungen zur automatisierten Layout-Analyse im Bereich der digitalen Diplomatik eingegangen, für die die Bilder der Datenbank nützlich sein könnten.

★★☆☆

III. Gesamturteil

Eher annehmen (noch akzeptable Qualität; geringfügige Überarbeitungen werden angeraten)

Schlusskommentar: Das Data Paper (DPa) stellt das vor kurzem veröffentlichte Marburger Urkundenrepositorium als Datenpublikation (DPu) vor, welches die Nachfolge-Datenbank des LBA online ist und dabei zugleich das CAO einbezieht. Die als DPu angegebene Website zeichnet sich durch eine schön gestaltete Leseansicht für Menschen und ein intuitives Suchinterface aus. Auch die Daten sind durch die Verwendung gängiger Standards theoretisch gut nutzbar. Praktisch wird dieser Mehwert des neuen Repositoriums jedoch durch das Fehlen jeglicher technischer Dokumentation eingeschränkt, welches gleichzeitig der größte Kritikpunkt an der DPu ist (s.o. Teil I). Sollte das hier begutachtete DPa als Dokumentation intendiert sein, muss es unbedingt prominent auf der Website verlinkt sein. Eine technische Dokumentation wäre zusätzlich wünschenswert, denn auch das DPa deckt nicht alle Aspekte ab, die eigentlich nötig wären (z.B. eine ausführliche Dokumentation der Parameter der APIs), bzw. enthält Aspekte, die für eine technische Dokumentation überflüssig wären. Die Existenz und Funktionsweise der APIs muss auf der Website selbst kenntlich gemacht werden. Im jetzigen Zustand ist es ohne die gleichzeitige Kenntnis externer Ressourcen wie des DPa nicht möglich, die Daten für computergestützte Auswertungen zu nutzen, da auf der Website nicht ersichtlich ist, wie die Daten maschinenlesbar abgefragt werden können. Das DPa hingegen bietet einen guten Überblick über den Kontext der DPu, die institutionellen sowie technischen Hintergründe und erklärt transparent einige Probleme der Daten sowie die Funktionsweise der Datenbank. Besonders in den technischen Details geht es über den Beitrag Maul et al. 2024 hinaus und ermöglicht so eine kritisch-fundierte Nachnutzung der besprochenen Daten. Alle im Formular genannten Kriterien sind voll oder zu einem guten Teil erfüllt. Dennoch müsste besonders bei der Beschreibung der Methode sowie bei der Vorstellung möglicher Nutzungsszenarien noch inhaltlich ergänzt werden (s.o.). Weitere kleinere inhaltliche wie formale Kritikpunkte (z.B. in Bezug auf Zitation oder unklare Zusammenhänge) sind in einem eigenen Dokument dem Review beigegeben. Bei der abschließenden Bewertung habe ich meine Einschätzung zum DPa (Formular Teil II.) stärker gewichtet als die zur DPu. Ich empfehle eine Annahme nach einer Überarbeitung des Beitrags, bei der die genannten Kritikpunkte berücksichtigt werden.

Gutachten 1 für Löhden et al. 2025

Begutachteter Beitrag

Die Metadaten des Datensets beschreiben die Datenset so ausführlich wie möglich. Sie enthalten eine menschen- und maschinenlesbare Lizenzangabe. Normdaten werden sinnvoll referenziert (z. B. GND, Wikidata, GeoNames):

Daten und Metadaten folgen einem (in der Disziplin) gängigen, geeigneten Datenstandard und liegen in einem gängigen Dateiformat vor. Die verwendeten Datenstandards (und ggf. ihre Versionen) werden benannt:

Die Autor*innen des Datensets (und ggf. weitere Beteiligte) sind eindeutig benannt und persistent identifizierbar (z.B. über die GND-Nummer, ORCiD), ihre Funktionen werden in den Metadaten beschrieben (z. B. via CRediT, MARC Relator oder TaDiRAH):

Im Data Paper wird der Kontext der Erstellung der Datenpublikation und die grundsätzliche Zielstellung ausführlich und nachvollziehbar dargestellt:

Für alle publizierten Daten werden im Data Paper umfassende Angaben zur Methodik der Datenerhebung und ggf. -bereinigung bzw. -aufbereitung gemacht. Die Wahl der verwendeten Datenschemata und Dateiformate wird nachvollziehbar begründet:

Lücken in den Daten und Schwachstellen in der Methodik werden transparent benannt und begründet:

Die Nutzung der Daten durch die Autor*innen wird nachvollziehbar beschrieben, auf publizierte Forschungsbeiträge unter Nutzung der Daten wird hingewiesen. Auch auf ähnliche oder sinnvoll mit den beschriebenen Daten kombinierbare weitere Datenpublikationen wird verwiesen:

Es werden nachvollziehbare potenzielle Nutzungsszenarien entworfen und beschrieben: