- 47 Aufrufe
Die Metadaten des Datensets beschreiben die Datenset so ausführlich wie möglich. Sie enthalten eine menschen- und maschinenlesbare Lizenzangabe. Normdaten werden sinnvoll referenziert (z. B. GND, Wikidata, GeoNames):
Trifft teilweise zuBemerkungen: Lizenzangaben sind in der Datenpublikation als LICENCE enthalten, dort ist CC-BY-SA vermerkt. TEI-Daten enthalten keine maschinenlesbare Lizenzangaben, und die referenzierten https://diglib.hab.de/nutzungshinweise.html widersprechen der LICENCE-Angabe teilweise. teiHeader in den `register`-Daten enthalten keine `availability`.
BearbeiterInnen und relevante Institutionen der Edition sind nicht im teiHeader mit GND oder ORCID referenziert, obwohl das zumindest tw. möglich wäre.
Daten und Metadaten folgen einem (in der Disziplin) gängigen, geeigneten Datenstandard und liegen in einem gängigen Dateiformat vor. Die verwendeten Datenstandards (und ggf. ihre Versionen) werden benannt:
Trifft eher zuBemerkungen: TEI-Daten sind in der Dokumentation nur als P5 ohne Versionsangabe bezeichnet, die Daten in `Entries` und `introduction` (nicht `register`) beinhalten dagegen Referenz auf ein XSD-Schema, das auf 2.8.0 basiert. Interne Referenzen sind self-contained, die Dokumente sollten also auch standalone weitgehend lesbar sein.
Die Autor*innen des Datensets (und ggf. weitere Beteiligte) sind eindeutig benannt und persistent identifizierbar (z.B. über die GND-Nummer, ORCiD), ihre Funktionen werden in den Metadaten beschrieben (z. B. via CRediT, MARC Relator oder TaDiRAH):
Trifft eher nicht zuBemerkungen: Im teiHeader sind jeweils `respStmt`s vorhanden, die Personen und Funktionen identifizieren, ohne allerdings die Personen über Identifikatoren zu referenzieren (vgl. 1.). Die Funktionen sind nicht maschinenlesbar definiert (keine Referenz auf bestehende Vokabulare), aber verständlich formuliert.
Die Metadaten im Repositorium der HAB sind auf Ebene der Gesamtedition hinterlegt (https://repo.hab.de/items/43b84660-dd8f-4ed0-91bc-fa73b32b7e0a/full?obo.page=2#p-obo) und listen alle Beteiligten auf, wiederum ohne im Webinterface sichtbare Referenzen auf bestehende Personendaten oder ihre genaueren Funktionen in Bezug auf einzelne Daten/Dateien.
Das Datenset und dessen Subsets sind eindeutig und sinnvoll benannt und strukturiert. Die Daten sind über den PID direkt und ohne spezialisierte Werkzeuge kosten- und barrierefrei abrufbar. Falls Zugangs- oder Nutzungsbeschränkungen vorliegen, werden diese nachvollziehbar begründet (z. B. urheber- oder datenschutzrechtliche Gründe):
Trifft zuBemerkungen: Es gibt einen gemeinsamen DOI für das gesamte Datenset (Download vom HAB-Repo ist aber nicht für das gesamte Datenset möglich, sondern nur dessen Teile, was wohl der DSpace-Architektur geschuldet ist). Innerhalb der Daten sind auf den TEI-Wurzelelementen `xml:id`s vergeben. Die Nutzungsrechte (s.o. 1) sind menschenlesbar und ergeben sich aus dem Kontext (Public domain für die HAB-Digitalisate ist ohnehin noch offener als CC-BY-SA).
Die Daten liegen in einem Dateiformat vor, das für die langfristige Aufbewahrung geeignet ist bzw. in mehreren Dateiformaten, um die Wahrscheinlichkeit der langfristigen Verfügbarkeit zu erhöhen. Eine Strategie, die Daten und Metadaten dauerhaft aktuell, verfügbar und nutzbar zu halten, ist vorhanden und im Datenset dokumentiert, die Langzeitarchivierung der Daten und Metadaten ist sichergestellt. Änderungen werden durch Versionierung sichtbar gemacht und sind nachvollziehbar:
Trifft zuBemerkungen: Änderungen am Datenset sind vorerst im zu beurteilenden HAB-Repositorium nicht zu erkennen, es ist anzunehmen, dass das in DSpace gelöst ist. "Interne" Versionierung ist über das (in den TEI-Daten referenzierte) GitLab der HAB nachzuvollziehen, wobei der Workflow der Datengeber nicht wirklich transparent ablesbar ist. Es gibt aber eine Versionsgeschichte. Die LZA ist nicht für die Datenpublikation separat dokumentiert, die DSpace-Implementierung zu evaluieren ist jenseits der Aufgabe des Evaluators (?).
Die Datenpublikation ist innovativ und kann von anderen sinnvoll genutzt und mit anderen Datensets kombiniert werden. Im Datenset werden Angaben zu Vollständigkeit, Entstehungskontext, Erhebungs- und Verarbeitungsmethoden sowie zur Qualität der Daten gemacht. Lücken in den Daten, Unsicherheiten oder Schwierigkeiten bei der Datenerhebung werden transparent benannt:
Trifft zuBemerkungen: Das Data paper (II) führt einige Nutzungsszenarien vor; im Bereich der frühneuzeitlichen digitalen Edition sind die Anschlussstellen auch und vor allem über gemeinsam genutzte Entitätsdaten selbstevident.
Im Data Paper wird der Kontext der Erstellung der Datenpublikation und die grundsätzliche Zielstellung ausführlich und nachvollziehbar dargestellt:
Trifft zuFür alle publizierten Daten werden im Data Paper umfassende Angaben zur Methodik der Datenerhebung und ggf. -bereinigung bzw. -aufbereitung gemacht. Die Wahl der verwendeten Datenschemata und Dateiformate wird nachvollziehbar begründet:
Trifft eher zuLücken in den Daten und Schwachstellen in der Methodik werden transparent benannt und begründet:
Nicht relevantDie Nutzung der Daten durch die Autor*innen wird nachvollziehbar beschrieben, auf publizierte Forschungsbeiträge unter Nutzung der Daten wird hingewiesen. Auch auf ähnliche oder sinnvoll mit den beschriebenen Daten kombinierbare weitere Datenpublikationen wird verwiesen:
Trifft eher zuEs werden nachvollziehbare potenzielle Nutzungsszenarien entworfen und beschrieben:
Trifft zuBemerkungen: Für Außenstehende ist es nicht leicht, die Zusammenhänge der einzelnen Teile zu verstehen, die zur Publikation als Data paper geführt haben. Die RIDE-Rezension von Selina Galka (2022) hat als Referenz geholfen; die mehrfache Veröffentlichung derselben Daten (in der EDOC/WDB Editionsoberfläche, im GitLab der HAB, in DSpace, als Data paper) trägt dazu bei, dass der Gutachter einige Zeit benötigt, zu verstehen, was zuerst kam und wie die Dinge zueinander liegen. Das ist allerdings vermutlich auch direkte Folge des langen Bearbeitungszeitraums (Projekt seit 2013) und daher nachvollziehbar.
Annehmen (gute Qualität)
Schlusskommentar: Die Qualität der Erschließung in TEI ist sehr hoch und entspricht immer noch den zu Projektbeginn 2013 gesetzten Standards. Quantität ist in Daten und Auxiliardaten nachvollziehbar vorhanden und ein massives Plus für dieses Projekt und seine Datenpublikation.
Die Metadatenqualität könnte auf allen Ebenen der Datenpublikation noch verbessert werden, insbesondere betrifft das die `teiHeader`-Elemente. Dass es kein explizites Mapping der teiHeader-Daten zum DSpace-Ergebnis gibt, verwirrt – die Alternative, für jede TEI-Datei ein Objekt in DSpace anzulegen, würde allerdings umgekehrt auch zu Verwirrung oder GUI-Overload führen (https://arche.acdh.oeaw.ac.at/ macht das).
Eine Möglichkeit zur Klärung wäre, ein weiteres `teiCorpus` oder `TEI`-Dokument anzulegen, das dem Wrapper-Objekt entspricht und auch den DOI-Identifikator beinhaltet (`TEI` darf seit einigen Versionen in `TEI` vorkommen), evtl. mit x:include verweisen? (Wie sehr sich die `config.xml` aus WDB dafür nutzen lässt, falls sowas analog zu wdbplus (https://github.com/dariok/wdbplus) existiert, kann Gutachter nicht beurteilen).
Die Projektgeschichte inkl. Reihenfolge der Veröffentlichungen genauer und an einem Ort (vorzugsweise in `introduction` oder als separates Kapitel in dem Data paper) zu dokumentieren ist vermutlich für potenzielle NachnutzerInnen nicht allzu relevant, für dieses Gutachten hätte eine Zeitleiste vermutlich geholfen.
Dass sich die Projektverantwortlichen dem zusätzlichen Aufwand gestellt haben, zu sortieren und ihre Ergebnisse als Data paper nochmals zu veröffentlichen, sollte im Sinne der Bekanntmachung und zu erhoffenden tatsächlichen Nachnutzung durch Dritte bei einem derartigen langfristigen Editionsunternehmen gewürdigt werden.
Auf weitere Versionen der Datenpublikation, die einige der v.a. in Abschnitt I angeführten kleinen Monenda berücksichtigen möchte – und auf deren versionierende Umsetzung im dem Vernehmen nach erst jungen DSpace-Repositorium der HAB – darf mit Vorfreude vorausgeblickt werden.