DOI: 10.17175/sb007_005
Nachweis im OPAC der Herzog August Bibliothek: 1961759365
Erstveröffentlichung: 05.03.2026
Letzte Überprüfung aller Verweise: 19.02.2026
GND-Verschlagwortung: Deep Learning | Decretum (Burchardus, Wormaciensis) | Digitale Edition | Softwareentwicklung | UNIX
Empfohlene Zitierweise: Michael Schonhardt: Do One Thing and Do It Well. Vier Prinzipien einer digitalen Editionspraxis im Spannungsfeld zwischen fachlichen Standards und Deep Learning. In: Daniela Schulz / Marcus Baumgarten / Torsten Schaßan (Hg.): Digitales Edieren gestern, heute und morgen (= Zeitschrift für digitale Geisteswissenschaften / Sonderbände, 7). Wolfenbüttel 2025–2026. 05.03.2026. HTML / XML / PDF. DOI: 10.17175/sb007_005
Abstract
Seit ihren Anfängen bewegt sich die Digitale Editorik im Spannungsfeld zwischen der Etablierung von Standards und der Dynamik technologischer Entwicklung, die gerade heute durch das Aufkommen digitaler Plattformen und darüber genutzte Deep-Learning-Verfahren eine Herausforderung für die editorische Praxis darstellt. Diese Herausforderungen werden zunächst auf den zwei Ebenen ›Praxis‹ und ›Methodologie‹ beleuchtet. Daran anschließend entwickelt der Beitrag eine aus der Unix-Philosophie entlehnte Best Practice für nachhaltige Editionsprojekte, die aus den vier Prinzipien Modularisierung, Interoperabilität, Redundanz / Explizitheit und Verkettungspotential besteht. Darauf aufbauend beschreibt der Beitrag einen konkreten editorischen Workflow, der als Blaupause für zukünftige Editionsprojekte dienen kann.
Since its beginnings, digital scholarly editing has been navigating the tension between the establishment of standards and the dynamics of technological development, which today poses a challenge for editorial practice due to the rise of digital platforms and deep learning methods. Consequently, the paper discusses these issues regarding practice and methodology, and develops a best practice for sustainable edition projects derived from Unix philosophy, consisting of four principles: modularization, interoperability, redundancy / explicitness, and linking potential. Building on these, the paper describes a specific editorial workflow that can serve as a blueprint for future edition projects.
- 1. Einleitung: Das Goldene Zeitalter der Digitalität?
- 2. Praktische Herausforderungen des Digitalen
- 3. Methodologische Herausforderungen des Digitalen
- 4. Best Practice: Do One Thing and Do It Well
- 5. Fallbeispiel: Burchards Dekret Digital und sein modularisierter Workflow
- 6. Ausblick
- Bibliografie
- Abbildungsverzeichnis
1. Einleitung: Das Goldene Zeitalter der Digitalität?
[1]Seit der Veröffentlichung der ersten »Internetedition« der Herzog August Bibliothek vor 25 Jahren sehen sich nicht nur die Digitale Editorik, sondern nahezu alle Bereiche der Gesellschaft einer rasanten informationstechnologischen Entwicklung gegenüber. Immer schneller drehen sich die Innovationszyklen, befeuert durch gigantische Investitionssummen von Big Tech. Was gestern noch unmöglich war, so scheint es, ist heute schon überholt: Eröffneten Grafikprozessoren bis vor wenigen Jahren in erster Linie fantastische 3D-Welten für Gamer*innen, ermöglichen sie der Maschine heute durch Deep-Learning-Verfahren Zugang zu dem bis dato dem Menschen vorbehaltenen Bereich der natürlichen Sprache und – will man den Ankündigungen der Entwickler*innen Glauben schenken – gar der Intellektualität.[1] Wie auch immer man die aktuelle Leistung von Sprachmodellen wie GPT, Gemini et al. bewertet, kann sich heute niemand mehr dem transformatorischen Potential neuronaler Netzwerke und angehängter Technologien, die bis vor wenigen Jahren lediglich einem kleinen Fachpublikum bewusst waren, entziehen.
[2]Entsprechend hat gerade Machine Learning sehr schnell in den Geisteswissenschaften Einzug gehalten.[2] Heute nutzen nicht nur Early Adopter und Digital Humanists Technologien, deren Anwendungsbereiche vor wenigen Jahren noch für unmöglich gehalten wurden, sondern auch Vertreter*innen einer ›traditionellen‹ Geisteswissenschaft. Diese umfassen Ansätze wie Automated Text Recognition (ATR), Named Entity Recognition (NER) sowie Topic Modelling (TM), also die Extraktion abstrakter Inhalte aus Texten, um nur einige zu nennen.[3]
[3]Konsequenterweise steht einer immer komplexer werdenden Technologie eine immer einfachere Anwendung gegenüber. Anstatt einer mühsamen und komplizierten Einrichtung entsprechender Software auf dem lokalen Rechner, kann die aktuelle Generation technologischer Hilfsmittel zunehmend bequem über Online-Plattformen bedient werden, in denen Softwarekomponenten vorinstalliert und bereits zu funktionierenden Workflows verkettet sind: Angebote wie Transkribus, nopaque, Recogito, TEI Publisher oder Voyant Tools, um nur einige zu nennen, erlauben damit die standardisierte und niederschwellige Umsetzung von technologisch und konzeptionell komplexen Workflows und Methoden der digitalen Texterschließung, deren Ergebnisse mitunter direkt publiziert werden können. Und das »[a]lles ohne Expertenwissen!«[4] Und es erscheint nur noch eine Frage der Zeit, bis die Integration der neusten Generation von KI-Systemen in diese und zukünftige Plattformen eine noch niederschwelligere, da dialogisch zu bedienende Nutzung bei immer größer werdendem Funktionsumfang ermöglichen. Das Tor zur digitalen Welt ist heute damit oft der Browser anstelle der Kommandozeile.
[4]Dieser Wandel betrifft natürlich nicht nur die Digital Humanities im Allgemeinen, sondern in erheblichem Maße auch die digitale Editorik. Sie kann nicht nur von den bereits erwähnten Verfahren profitieren, sondern in naher Zukunft von den analytischen Fähigkeiten generativer Transformer Gebrauch machen, die bereits jetzt selbstständig TEI-konforme Auszeichnungen von Texten vornehmen können bzw. aufgrund ihres Sprachverständnisses die Notwendigkeit der mühsamen Formalisierung von Daten zum Zweck der Maschinenlesbarkeit in Frage stellen.[5] Mag diese Aussicht einigen als Goldenes Zeitalter erscheinen, so zeigt dieser Umstand das Spannungsfeld auf, in dem sich die digitale Editorik zunehmend bewegt: Auf der einen Seite steht die langwierige Etablierung von Standards wie der TEI Guidelines, sowie der Regularien für Forschungsdaten und Veröffentlichungslizenzen. Auf der anderen Seite stellt die skizzierte Dynamik der technologischen Entwicklung von Hilfsmitteln und Infrastrukturen die Umsetzung digitaler Editionen vor immer neue Möglichkeiten, aber auch Herausforderungen, die fundamentale Auswirkungen auf ihre Praxis und Methodologie sowie das dafür benötigte technische Skillset der Editor*innen nehmen.
[5]Gerade in öffentlich finanzierten Langzeitprojekten führt diese Dynamik zu besonderen Schwierigkeiten bei der Umsetzung digitaler Editionen: Sie müssen über viele Jahre hinweg gleichzeitig digitale Standards berücksichtigen, Innovationen aufgreifen und antizipieren sowie die Nachhaltigkeit der generierten Daten und Workflows garantieren. Im Folgenden sollen diese Schwierigkeiten daher auf den zwei Ebenen ›Praxis‹ und ›Methodologie‹ genauer dargestellt und problematisiert werden. Daran anschließend wird eine an die Unix-Philosophie angelehnte Best Practice entwickelt, mit der sich das Potential aktueller und zukünftiger Technologien nutzen lässt, ohne fundamentale Standards und Methodologien aufzugeben, und deren mögliche Umsetzung anhand eines konkreten Beispiels aus dem Projekt Burchards Dekret Digital verdeutlicht. Abschließend wird ein Blick in die Zukunft gewagt.
2. Praktische Herausforderungen des Digitalen
[6]Mit der zunehmenden Verlagerung wissenschaftlicher Datenverarbeitung zu digitalen Plattformen und Ökosystemen – also webbasierten Infrastrukturen, die über ein zentrales Frontend den Zugriff auf komplexe Microservices im Hintergrund ermöglichen – vollzieht sich auch in den Geisteswissenschaften ein Trend, der sich im kommerziellen Bereich längst durchgesetzt hat: die Abkehr von lokal installier- und anwendbaren Softwareapplikationen zugunsten der Bereitstellung von komplexen digitalen Dienstleistungen online. Anstelle von ausführbarem Programmcode erhalten Nutzer*innen einen – oft zeitlich begrenzten – Zugang zu Serverdienstleistungen, der durch einfach zu nutzende Web-Interfaces vermittelt wird. Die Vorteile solcher Plattformen liegen auf der Hand: Für die Bereitsteller der Dienstleistung eröffnen sie ein lukratives und auf Marktdisruption abzielendes Geschäftsmodell, das schnell und niederschwellig eine große Anzahl von Nutzer*innen in ein möglichst geschlossenes System bindet. Ein solches System lässt sich kostengünstig in einer zentralisierten Umgebung entwickeln und durch Abogebühren dauerhaft monetarisieren. Aber auch für Kund*innen bergen digitale Plattformen Vorteile: Sie partizipieren dauerhaft an funktionalen Weiterentwicklungen der Dienstleistung, ohne neue Versionen einer Software erwerben zu müssen. Ihnen bietet sich stattdessen ein zentral verwaltetes und auf erheblicher Rechenkapazität fußendes System, das durch einfach zu bedienende Frontends ohne technische Kenntnisse am lokalen Rechner oder mobilen Geräten genutzt werden kann und oftmals auch die Verwaltung und Speicherung von Daten in der Cloud inkludiert.[6]
[7]Wenngleich sich die Notwendigkeit und Möglichkeit der Monetarisierung digitaler Plattformen für geisteswissenschaftliche Anwendungen deutlich von kommerziellen Produkten unterscheiden und oft auf den Selbsterhalt begrenzen, folgen auch sie zunehmend der Funktionslogik ihrer kommerziellen Vorbilder. Auch sie bieten in der Regel digitale Dienstleistungen an, die ein konkretes Bedürfnis der Forschung in möglichst niederschwelliger Weise befriedigen sollen, z. B. die automatische Transkription und Annotation von Texten. Durch ein oft browserbasiertes Frontend werden auf einem Server laufende Microservices zur Datenverarbeitung zu zweckdienlichen und bequemen Workflows verknüpft, die von Expert*innen der jeweiligen Felder entwickelt werden. Diese können durch registrierte Anwender*innen gratis bzw. mit Abonnements- oder Nutzungsgebühren in Anspruch genommen werden, indem sie Datenmaterial – etwa einen Buchscan zur Texterkennung in Transkribus – auf den Server hochladen, wo es in einer vorbestimmten Prozesskette verarbeitet wird – im gewählten Beispiel durch die Erkennung von Layout und Text. Am Ende dieser Kette steht nicht nur der Export der verarbeiteten Daten, sondern auch das Potential einer direkten Publikation über die Server-Infrastruktur der jeweiligen Plattform, wenngleich dies bislang nur in Ansätzen verbreitet ist.[7]
[8]Auch im wissenschaftlichen Bereich bietet eine solche Infrastruktur der Datenverarbeitung den Nutzer*innen erhebliche Vorteile. Sie entledigt zum einen der Notwendigkeit der Installation und Administration einer Vielzahl lokaler Applikationen, die je nach Anwendungsgebiet die durchschnittliche Rechnerleistung eines PCs überschreiten und aufgrund der geringen Ressourcen wissenschaftlicher Softwareentwicklung oft nur schwer und über die Kommandozeile zu bedienen sind. Zum anderen eröffnet sie komplexe Verfahren der Datenverarbeitung einem breiten Anwender*innenkreis in bequemer Art und Weise und ersetzt die Notwendigkeit der mühsamen Konzeption und Umsetzung individueller Workflows durch von Expert*innen des jeweiligen Verfahrens kuratierte Prozessketten und Interfaces.
[9]Allerdings gehen diese Vorzüge mit einem erheblichen Kontrollverlust einher: Die der jeweiligen Dienstleistung zu Grunde liegende Software verbleibt auf dem Server des Anbieters, der – je nach Lizenzmodell und AGB – Funktionalität, Zugänglichkeit und Geschäftsmodell ändern oder einstellen kann.[8] Dies mag aus rechtlichen Gründen erfolgen, stellt über einen langen Zeitraum aber auch eine technische Notwendigkeit dar, da die technologischen Grundlagen einer Serverarchitektur auch aus Gründen der Sicherheit beständig erneuert werden müssen, und daher auf lange Sicht nicht jede genutzte Softwarekomponente mit dem Gesamtsystem kompatibel bleibt.
[10]Verschärft wird diese Problematik durch die Tatsache, dass sich die Datenverarbeitung über digitale Plattformen in einem auf der Backend-Ebene geschlossenen System vollzieht, das nicht für die eigenen Bedürfnisse individualisiert werden kann. Einmal außer Dienst genommene Komponenten können daher nicht eigenständig durch die Nutzer*innen ersetzt werden,[9] außerdem kann der kuratierte Workflow der Plattform nicht beliebig auf die eigenen Bedürfnisse zugeschnitten werden. In der Praxis bedeutet dies für die meisten Anwender*innen, den eigenen Workflow an die gewählte Plattform anzupassen, deren innere Funktionsweise häufig als hinter dem Frontend versteckte Black Box erscheint, die im Falle einer Integration von Deep-Learning-Methoden aufgrund der semantischen Intransparenz stochastischer Modelle sogar noch undurchdringlicher ist.[10] Editions- und andere Forschungsprojekte, deren Workflows in erheblicher Weise in solche digitalen Ökosysteme oder Plattformen ausgelagert sind, sind damit funktional festgelegt, und haben nur eine geringe Kontrolle über die Nachhaltigkeit ihrer Ergebnisse und Workflows.
[11]Zusammenfassend lassen sich die Herausforderungen in der Nutzung digitaler Plattformen in sieben Punkten konkretisieren:
- Individualisierte Lösungen sind kaum möglich
- Integration in externe oder weitergehende Workflows, z. B. basierend auf Oxygen XML, sind ggf. schwierig
- Abhängigkeit von fremder Server-Infrastruktur
- Legacy-Probleme, also die Inkompatibilität mit zukünftigen Technologien und Datenformaten, wahrscheinlich
- Monolithische Workflowkette ohne einfache Zugriffsmöglichkeit auf Zwischenschritte
- Adaption neuer Technologien nur plattformseitig möglich
- Zunehmende Black Box der Verarbeitungsschritte durch Deep Learning
[12]Für Durchschnittsanwender*innen, die eine begrenzte Forschungsfrage in einer durch Förderinstitutionen begrenzten Zeit bearbeiten möchten, stellt dies in der Praxis kein großes Problem dar. Im Gegenteil: Ihnen ermöglichen digitale Plattformen die Konzentration auf die eigentliche Forschung, indem sie die langwierige technische Konzeption und Umsetzung eines Projekts oder wichtiger Teile überflüssig machen. Insofern sind digitale Plattformen als Gewinn für die Forschungslandschaft zu sehen und haben einen enormen Anteil an der Durchsetzung digitaler Methoden in der geisteswissenschaftlichen Forschung.
[13]Höchst problematisch ist die Situation allerdings für editorische Langzeitprojekte, die über einen langen Zeitraum – im Akademienprogramm zwischen 12 und 25 Jahren – äußerst partikulare Anforderungen an Daten und Workflows umsetzen und sicherstellen müssen, die selten im Zentrum der ›marktorientierten‹ Entwicklung der Plattformen stehen. Langzeitprojekte müssen vielmehr für einen Zeitraum planen, in dem sich einerseits Forschungsfragen, Verfahren oder Standards mit hoher Wahrscheinlichkeit ändern und Anpassungen des Workflows notwendig werden, für den andererseits keine seriöse Plattform eine Beständigkeit ihrer Werkzeuge und Datenformate garantieren kann. Editionsprojekten, die einen erheblichen Teil ihrer digitalen Infrastruktur auf digitale Plattformen externalisieren und ihre Workflows und Datenstrukturen daran anpassen, droht somit im schlimmsten Fall der ersatzlose Ausfall des Dienstes vor Ende der Bearbeitungszeit oder die zunehmende Inkompatibilität ihrer Werkzeuge und Daten mit fachlichen Standards und Entwicklungen. Ein konkretes Beispiel hierfür wäre die Unmöglichkeit des Exportes trainierter Deep-Learning-Modelle oder eine durch die Plattform nachträglich veränderte Datenstruktur im Export.
[14]Ein solcher Fall ist nicht nur aus der Perspektive der Datenkonsistenz und -qualität problematisch, sondern erzeugt mittelfristig einen enormen Entwicklungsaufwand, der in diesem Umfang normalerweise lediglich für die Anfangsphase von digitalen Projekten eingeplant ist. Gerade mit Blick auf die zunehmende Nutzung von Deep-Learning-Verfahren, deren zentrales Funktionselement mit hohem Aufwand anhand riesiger Datenmengen vortrainierte Modelle sind, kann so eine Entwicklung auch schlicht unmöglich werden. So groß der Nutzen digitaler Plattformen für die geisteswissenschaftliche Forschung unbestritten ist, so problematisch kann daher ihre Integration in langfristige Projekte mit Blick auf deren konkrete Umsetzbarkeit und Nachhaltigkeit in der Praxis sein.
3. Methodologische Herausforderungen des Digitalen
[15]Die rasante Entwicklung digitaler Möglichkeiten und Angebote stellt editorische Projekte mit digitaler Komponente vor Herausforderungen, die weit über praktische Fragen hinausgehen. Hierbei sind vor allem zwei Entwicklungslinien zu nennen, die in jüngerer Zeit zusammenstreben und bereits erwähnt wurden: der Trend zur Datenverarbeitung in geschlossenen digitalen Plattformen sowie die zunehmende Nutzung von Deep Learning für diese Datenverarbeitung. Diese beiden Bereiche sind eng miteinander verbunden, da Deep-Learning-Applikationen aufgrund der benötigten Menge an Daten und Rechenleistung zunehmend auf Server ausgelagert werden, die die Möglichkeiten des lokalen Rechners deutlich übertreffen und im Rahmen von Plattformen effizienter zu nutzen sind.[11] Die praktischen Probleme dieses Trends, der sich in Zukunft verstärken wird, sind bereits benannt worden, tatsächlich stellt er aber auch wesentliche methodologische Grundlagen digitaler Ansätze infrage. Dies mag auf den ersten Blick paradox erscheinen, basieren digitale Plattformen und Deep Learning ja qua Definition auf der immer umfassenderen Digitalisierung von Forschungsdaten und -prozessen.
[16]Digitalisierung ist aber mehr als die rein technische Überführung von Informationen in einen elektronischen Zustand. Vielmehr muss sie auch als Kulturtechnik verstanden werden. Denken wir an das berühmte Gemälde La trahison des images von René Magritte, dessen in der Beischrift »Ceci n’est pas une pipe« zum Ausdruck kommendes semiotisches Spiel sich durch eine digitale Fotografie nicht erfassen lässt, die nur Farbwerte kodiert, nicht aber die darin enthaltene Bedeutung.[12] Während der menschliche Betrachter das im Bild implizite Spiel zunächst – in der Begrifflichkeit von Sybille Krämer – aisthetisch, »im Sinne instantaner, sekundenschneller Mustererkennung« erfassen und darauf bauend logische Schlussfolgerungen »im Sinne komplexer, zeitaufwendiger Denkoperationen«[13] ziehen kann, blieb der Maschine dieser Raum implizit hinterlegter Bedeutung, Anspielung und Ambiguität bislang verschlossen. Digitalisierung in ihrer Vollendung als Verdatung ging daher immer auch mit einer formalisierten Explikation der zu verarbeitenden Gegenstände einher, etwa durch eine entsprechende Kodierung der bedeutungsstiftenden Unterschrift des Bildes, die den Bedeutungsgehalt explizit und formalisiert repräsentiert und der Maschine so zugänglich macht: »›Verdatung‹ heißt also nicht einfach etwas Vorliegendes einzuscannen; vielmehr verwandelt sich das textuelle Ausgangsobjekt, insofern im Objekt angelegte Implikationen bei seiner Verdatung explizit gemacht werden müssen.«[14]
[17]Digitalität ist daher nicht auf eine rein technische Ebene zu beschränken, sondern muss auch als Kulturtechnik Anwendung im Erkenntnisprozess zwischen Mensch und Maschine finden.[15] Das kann auch am Beispiel der Retrokonvertierung einer gedruckten Edition verdeutlicht werden, die durch einen Scan zwar formal digitalisiert wird, dabei aber weiterhin mit der analogen geisteswissenschaftlichen Kulturtechnik des linearen Lesens einhergeht.[16] Um den gescannten Text zum Gegenstand einer wirklich digitalen Editorik werden zu lassen, muss nicht nur eine bestimmte technische Form der Informationsdigitalisierung stattfinden – in diesem Fall wäre das zunächst die Generierung einer Textdatei durch OCR oder HTR.[17] Vor allem muss das, was der Mensch implizit leisten kann, also die intuitive Dekodierung der Apparate, Register und anderer Informationen expliziert und formalisiert werden.
[18]Nun könnte man sagen – und viele tun das –, dass diese Notwendigkeit zur Explikation des Offensichtlichen das Defizit der Maschine gegenüber der menschlichen Kognitionsleistung aufzeigt:
»Bei allen Überlegungen zur rechnergestützten Registerarbeit ist davon auszugehen, daß jeder Rechenautomat gewissermaßen ein ›Vollidiot‹ ist; er kann nicht denken, aber er ist sehr flink. In Fachkreisen hat man ihn deshalb auch als ›Geschwindigkeitstrottel‹ bezeichnet. Hinsichtlich der Registerarbeit bedeutet dies, daß die geistigen Vorüberlegungen und auch die nicht formalisierbaren intellektuellen Zwischenschritte beim Registermachen dem Menschen vorbehalten bleiben; nur formale Arbeitsschritte können an den Rechenautomaten delegiert werden.«[18]
[19]Allerdings wird diese Herabwürdigung maschineller Informationsverarbeitung dem epistemologischen Potential von Digitalität als Kulturtechnik nicht gerecht, die, wie Sibylle Krämer eindrücklich herausgearbeitet hat, viel älter als das elektronische Datenverarbeitungspotential des modernen Computers ist.[19] Auf einer höheren Ebene ist Digitalisierung ein epistemologischer Vorgang, der in der Zergliederung und Delinearisierung seiner Gegenstände besteht. Krämer nennt dies »die diskrete Zerlegung eines Kontinuums in voneinander unabhängige Bausteine, die […] zu neuen Strukturen rekombiniert werden können.«[20] Elektronische Verarbeitungsverfahren ermöglichen darüber hinaus den synchronen und hypertextuellen Zugriff auf die Gesamtheit der nun »disjunkten«[21] Bauteile eines Gegenstands und damit einen heuristischen Zugang ebenso wie die hermeneutische Deutung des Gegenstands durch die Wiederherstellung des ursprünglichen Kontexts. Die Notwendigkeit der Explikation stellt außerdem nicht nur einen beklagenswerten Zwang, sondern auch eine methodologisch-epistemologische Chance dar:
[20]»A great virtue of computerized tools is that they are simple. Consequently, to get them to perform their operations you have to make your instructions explicit and unambiguous. To do that means you have to be very clear in your own mind about what you’re thinking, meaning, intending. The simplicity of the computer is merciless. It will expose every jot and tittle of your thought’s imprecisions.«[22]
[21]Die Tragweite dieses Vorganges für die Editorik wird besonders im Bezug zu analogen und auf Druck basierenden Kulturtechniken deutlich, die ihren Gegenstand lediglich als finales Produkt zugänglich und linear erfahrbar machen. Da das Druckmedium zur Simplifizierung nötigt, müssen so präsentierte Editionen außerdem ihre Entstehungsbedingungen verschleiern: Hinter einer klar strukturierten Buchseite mit eindeutigem Text steht potentiell eine Vielzahl von Abschriften mit kodikologischen und paläographischen Phänomenen sowie textgenetischer Varianz, die durch analoge Verfahren komplexitätsreduziert werden, um im Druck dargestellt und rezipiert werden zu können. Der Verlust der jeweiligen Bearbeitungsstufen und medialen Aggregatzustände (z. B. handschriftliche Transkriptionen, Kollationstabellen, etc.), die ein Gegenstand im Rahmen seiner editorischen Bearbeitung durchläuft, ist im Druck daher ›not a bug, but a feature‹, auch wenn er aus editorischer Sicht zuweilen durchaus beklagt wird, weshalb sich gerade diese Disziplin sehr früh und bereitwillig den Chancen der Digitalisierung geöffnet hat.[23]
[22]Beispiele für den Verlust von Funktionspotential und Transparenz in Druckeditionen sind die stillschweigende Auflösung von Abkürzungen und anderen Besonderheiten der Überlieferung zu Gunsten eines nahezu druckfertigen Texts, die Verbannung alternativer Lesarten in statische Fußnoten statt der dynamischen Darstellung der Überlieferungsvarianz oder die Reduktion von Zugriffsmöglichkeiten durch eine notwendigerweise begrenzte Registererschließung. Gemeinsam ist all diesen Beispielen, dass sie das Nutzungspotential hinsichtlich eines sehr eng definierten Interesses begrenzen und vorgeben. So enthalten nahezu alle geschichtswissenschaftlich geprägten Editionen ein Personen- und Ortsregister, weil diese eine im Fach kanonisierte Zugangsmöglichkeit darstellen. Wer sich aber z. B. für die Rolle liturgischer Feste im Rahmen königlicher Herrschaft interessiert – ein gar nicht so abseitiges Beispiel –, hat in der Regel keine entsprechenden Zugangsmöglichkeiten. Analoge Kulturtechniken entfalten daher immer auch hegemoniale Wirkung und verfestigen Kanonisierung, da die Form – man könnte auch sagen: Affordanz – ihrer Erzeugnisse die Möglichkeiten ihrer Nutzung fortschreibt und alternative Zugänge nur bedingt ermöglicht.
[23]Im Gegensatz dazu hält ein – im kulturtechnischen Sinne – digitaler Ansatz diese Zugänge offen, indem er das Speichern und Anzeigen der verschiedenen Arbeitsstufen und medialen Aggregatzustände von Prozess und Gegenstand einer Edition ermöglicht. Digital erzeugte Transkriptionen von Textzeugen müssen etwa nicht in der Ablage verschwinden, sondern können Teil der editorischen Aufbereitung werden. Digitale Kodierungsverfahren, etwa die Auszeichnung in XML, ermöglichen darüber hinaus die maschinenlesbare Strukturierung und Anreicherung eines Textes, die sowohl den Gegenstand als auch den editorischen Prozess seiner Konstitution deutlich und transparent machen.[24] Anstelle der stillschweigenden Auflösung von Abkürzungen erlaubt tei:choice z. B. die dauerhafte Adressierbarkeit einer Abkürzung und ihrer Auflösung durch ihre Annotation. Auf die gleiche Weise ermöglicht eine Auszeichnung wichtiger Textphänomene deren Adressierbarkeit jenseits des klassischen Registers.[25] Als disjunkte Einheiten können entsprechend aufbereitete Elemente also aus ihrem textuellen Kontext gelöst und in neue heuristische Zusammenhänge gebracht werden – z. B. zur quantitativen Erfassung genannter Personen oder Orte. Auch ermöglicht der Vorgang der Digitalisierung die Anreicherung des Elements durch relevante editorische Daten, wie der gewählten Auflösung in tei:expan, dem Grad an Sicherheit im Attribut @cert oder der Identifikation der auflösenden Person in @resp.
[24]Digitalisierung verstanden als Zergliederung betrifft also nicht nur den editorischen Gegenstand selbst, sondern den gesamten editorischen Prozess, dessen Stufen, Zwischenprodukte und Entscheidungen nicht mehr verloren gehen müssen, sondern zugänglich bleiben können. Geboren aus technischer Notwendigkeit erlaubt Digitalisierung im kulturtechnischen Sinne damit die Verdatung, Explikation und synchrone Zugriffsmöglichkeiten von und auf unterschiedliche Aggregatzustände und Konfigurationen von Informationen und stellt somit eine äußerst produktive Ergänzung des editorischen Methodenkoffers dar, die einerseits die Grenze zwischen Hermeneutik und Heuristik überwinden kann, andererseits den editorischen Prozess der Wissensbildung transparent und nachhaltig sowie reversibel hält. So umgesetzt fällt Digitalisierung damit ein revolutionäres methodologisches Potential für die Editorik im Speziellen sowie die Geisteswissenschaften im Allgemeinen zu.[26] Dies kann aber nur dann zur Entfaltung kommen, wenn Digitalisierung nicht nur technisch, sondern auch in einem kulturpraxeologischen Sinne durchgeführt wird, etwa durch die Überführung analoger Druckpraktiken in einen elektronischen Zustand: Ein gesetzter Apparat wird durch seine Darbietung im PDF-Format höchstens eine digital vorliegende Edition, die analoge Kulturtechniken elektronisch nachbaut, aber nicht zur digitalen Edition als Ergebnis einer digitalen Kulturpraxis.
[25]Nun könnte man der Versuchung erliegen, solche und ähnliche Kontaminate des Analogen im digitalen Raum (man denke an online gestellte Scans gedruckter Kataloge statt abfragbarer Datenbanken) als Relikte überholter Methoden zu deuten, die nach einer Phase der Transformation geisteswissenschaftlicher Methoden früher oder später der Vergangenheit angehören. Tatsächlich tun dies zuweilen sowohl sich als progressiv verstehende Verfechter*innen eines digital turns in positiver Erwartung als auch konservative Vertreter*innen klassischer Hermeneutik, die in der zunehmenden Durchsetzung technischer Applikationen und den damit einhergehenden Kulturtechniken in unserem Alltag auch die Kolonialisierung geisteswissenschaftlichen Denkens durch die Informatik befürchten.[27]
[26]Die Realität sieht allerdings ganz anders aus. Insbesondere durch die spektakulären Entwicklungen im Bereich des Deep Learning, speziell der GPT-Technologien mit ihrem eindrucksvollen – wenngleich mathematisch simulierten – Sprachverständnis, partizipieren Maschinen zunehmend an analogen Kulturpraktiken, etwa der diskursiven Deutung und Erläuterung von Sachverhalten, die ohne Formalisierung auskommt. GPTs und andere Applikationen des Deep Learnings erlauben nun eine Nutzung von und Interaktion mit digitalen Instrumenten, die menschlicher Kognition zumindest auf der Interface-Ebene ähneln, vor allem aber das Eindringen von Technik in einen impliziten Deutungsraum, das vor wenigen Jahren noch als unmöglich erachtet wurde.[28]
[27]Damit eröffnen Deep-Learning-Applikationen auf der Interface-Ebene zunehmend menschenfreundliche Anwendungsszenarien: Bereits heute ist es technisch möglich, den Inhalt einer Bilddatei über eine entsprechende Plattform mathematisch modellieren zu lassen und einen intelligenten Chatbot Fragen dazu beantworten zu lassen[29] oder die Sprachkapazitäten eines Generativen Transformers (oder anderer Architekturen) für die Entwicklung ›smarter‹ HTR-Modelle[30] zu nutzen, die eine abgekürzte Handschrift direkt auflösen, normalisieren und emendieren können oder Texte nicht mehr mühsam in TEI codieren zu müssen, weil große Sprachmodelle die Deutung des Wortes ›Ostern‹ als liturgisches Fest auch ohne vorherige Explikation erfassen können. Vermittelt durch entsprechende Plattformen werden verkettete Deep-Learning-Verfahren essenzieller Teil wissenschaftlicher Alltagsbewältigung werden, so wie heute auch »Lesen und Schreiben am Bildschirm, Kommunikation über Emails, Nutzung digitaler Wörterbücher, digitalisierter Quellen etc. den Alltag nahezu aller geisteswissenschaftlichen Arbeit bestimmt«.[31]
[28]Ähnlich wie in diesen Werkzeugen manifestiert sich im Deep Learning aber gerade nicht die Vollendung einer digitalen Transformation der Geisteswissenschaften. Vielmehr knüpfen entsprechende Modelle »an die mit der Buchkultur verbundenen Schreib- und Lesetechniken, Analyse- und Interpretationsmethoden an«,[32] da sie Texte und Bedeutungen ohne eine vorhergehende Formalisierung und Kodierung durchdringen können. Anders gesprochen besteht das revolutionäre Potential des Deep Learning nicht in der Durchsetzung von Digitalität im kulturpraktischen Sinne, sondern im Gegenteil in einer radikalen Kolonialisierung des Digitalen durch mathematisch modellierte Verarbeitung impliziten Wissens und damit einer Vermenschlichung maschineller Kognition zu Lasten von Formalisierung, Explikation, Transparenz und Reproduzierbarkeit des Erkenntnisprozesses. Damit bedroht der technologische Fortschritt gerade nicht die traditionellen Praktiken der Buchwissenschaften, sondern vor allem die oben skizzierten Kulturpraktiken des Digitalen und bedeutet eine radikale Abkehr von Standards und Methoden der digitalen Editorik wie der TEI.[33]
[29]In Verbindung mit der Funktionslogik digitaler Plattformen, die je nach Geschlossenheit ihrer Prozesse eben nicht mehr den Zugriff auf alle Phasen und Aggregatzustände ihrer Datenverarbeitung erlauben, stellt diese Entwicklung mittelfristig aber auch die juristische und technische Nachhaltigkeit von Daten in Frage, was im Kontext datenorientierten Digital Humanities zu Beschränkungen mit epistemologischem Ausmaß führen kann. Sind die Daten einmal in Plattformserver eingespeist, haben Nutzer*innen oder interessierte Dritte schon heute nur schwer Zugriff auf die Zwischenschritte, die zum jeweiligen Output führen. Diese Problematik wird sich in Zukunft durch die Tatsache verstärken, dass viele dieser Zwischenschritte (oder im Extremfall auch Endprodukte) gar nicht mehr in Form von Textströmen und -dateien vorliegen, sondern Teil eines mathematischen Deep-Learning-Modells sind, dessen Inhalt zwar beeindruckende Ergebnisse erzielt, menschlicher Kognition aber entzogen bleibt – eine äußerst ironische Umkehrung bestehender Verhältnisse. Was dies für Urheberrecht, FAIR-Prinzipien und offene Lizenzmodelle bedeutet, ist nicht abzusehen und wird gegenwärtig in Gerichtsverfahren eruiert.[34]
[30]Dem potentiellen Gewinn digitaler Möglichkeiten und der enormen Arbeitserleichterung steht damit die potentielle Erosion etablierter Standards und Methoden gegenüber, die nicht nur als Mittel zum Zweck gesehen werden sollten, sondern Ausdruck einer auf Formalisierung und Explikation fußenden Herangehensweise an den jeweiligen Gegenstand sind, die – ähnlich der Übersetzung eines Textes – auf ein tieferes, dabei aber für Dritte auch nachvollziehbares Verständnis abzielen.[35] Digitalisierung als Kulturpraxis hat damit eine epistemologische Funktion, die es zu verteidigen lohnt. Müssen wir uns nun aber zwischen den analogen Verheißungen von GPT-4 et al. und einer digitalen Kulturtechnik entscheiden? Oder gibt es vielleicht einen Weg, diese Spannung produktiv aufzulösen?
4. Best Practice: Do One Thing and Do It Well
[31]Tatsächlich lassen sich die geschilderten Herausforderungen des technischen Wandels dann in Chancen wandeln, wenn sich editorische Workflows an einer Best Practice orientieren, die bestehende Methoden und Standards auch unter neuen technologischen Vorzeichen berücksichtigt und so die Nachhaltigkeit der digitalen Infrastruktur sicherstellt. Ein geeignetes Vorbild für eine solche Best Practice liegt im informationstechnischen Konzept Pipe, bzw. Pipeline, das auf der Verkettung von Datenströmen und Verarbeitungsmechanismen basiert und in den 1970er Jahren im Kontext der Unix-Entwicklung entstanden ist. Die Pipeline ist eine informationstechnologische Architektur, die aus Pipes und Filtern besteht, wobei man Filter in der konkreten Umsetzung auch mit dem Begriff ›Programm‹ gleichsetzen kann. Auf einer konzeptionellen Ebene handelt es sich um einen Verarbeitungsschritt, der durch einen standardisierten Datenstrom eingegebene Daten verwandelt und wieder ausgibt. Die Pipe ist eine einfache und flexible Syntax zur Verkettung solcher Filter und wird in der Kommandozeile durch den Operator | gekennzeichnet, der die verschiedenen Verarbeitungsschritte verbindet.[36]
[32]Auf einer kulturtechnischen Ebene basiert das Pipen somit auf dem Prinzip der Verkettung differenzierter und isolierter Verarbeitungsvorgänge zu einem Prozess, durch den Informationen stufenweise geleitet werden. Die einzelnen Glieder der Kette (also jeweils auf einen Verarbeitungsschritt spezialisierte Filter) sind austauschbar, die Stufen des Prozesses (also der jeweilige Zustand des Datenstroms) exakt adressier- und multipel manipulierbar. Im Zentrum der Pipe steht damit nicht ein monolithischer Verarbeitungsblock, sondern dezentrale Einheiten, die in ein kollaboratives Verhältnis gesetzt werden und gerade dadurch für eine Vielzahl unvorhergesehener Aufgaben nützlich sein können: »The power of Unix originated here, from the relationships generated among programs, not from individual programs themselves«.[37]
[33]Aus diesem Prinzip entspringt auch die noch heute im Rahmen von Softwareentwicklung geschätzte Unix Philosophy, die ihr Urheber, Doug McIlroy, in einem Interview prägnant auf den Punkt bringt: »This is the Unix philosophy. Write programs that do one thing and do it well. Write programs to work together. Write programs that handle text streams because that is a universal interface.«[38] Übertragen auf geisteswissenschaftliche und editorische Datenverarbeitung ließe sich diese Philosophie durch das Prinzip beschreiben, digitale Editionsprozesse nicht als in sich abgeschlossene Vorgänge, sondern als Summe von in transparenter Weise verketteter spezialisierter Filter zu konzipieren, deren In- und Output stets auf einer Textebene adressier- und manipulierbar bleiben muss, um die Möglichkeit der Rekonfiguration und Weiterverwendung der Daten in jedem Aggregatzustand zu gewährleisten.
[34]Hierfür schlage ich vier Grundsätze vor, die editorischen Workflows im digitalen Zeitalter zu Grunde liegen sollten:
[35]Modularisierung: Mit Blick auf den zu erwartenden technischen Wandel muss jedes Glied eines Workflows so integriert werden, dass es einfach durch funktionsäquivalente Lösungen ersetzt werden kann.
[36]Interoperabilität: Bei der Auswahl digitaler Methoden und Werkzeuge muss darauf geachtet werden, dass sie einen zugänglichen Textstrom bzw. zugängliche Textdateien (z. B. TEI XML, PageXML, JSON) generieren oder aufgreifen. Dies erleichtert die Verarbeitung in Stationen des Workflows oder externen Zusammenhängen und ermöglicht die Austauschbarkeit der erwähnten Module.
[37]Redundanz und Explizitheit: Mit Blick auf gute wissenschaftliche Praxis werden die einzelnen Arbeitsschritte explizit in den Daten abgebildet. Im Kontext einer automatisierten Texterkennung bedeutet dies z. B. Sonderzeichen und Abkürzungen durch entsprechend trainierte Modelle zu bewahren und in einem gesonderten Arbeitsschritt zu bearbeiten. Dessen Ergebnis – z. B. die Auflösung der Abkürzungen – wird dann explizit in den Daten hinterlegt. Diese Redundanz und Explizitheit der Daten steigern nicht nur ihre Öffnung für andere Zusammenhänge und damit ihre Nachhaltigkeit, sondern garantieren auch editorische Transparenz.
[38]Verkettungspotential: Bei all diesen Schritten haben Lösungen mit hohem Verkettungspotential Vorrang. Die Weitergabe der Daten innerhalb der Prozesskette erfolgt dabei möglichst nicht in geschlossenen und externalisierten Plattformarchitekturen, sondern bleibt in eigener Kontrolle. Dies kann z. B. durch individuelle Skripte erfolgen, die die möglicherweise extern generierten Daten über bereitgestellte APIs abfragen, weiterleiten, manipulieren und weiterverarbeiten.
[39]Workflows, die diesen Prinzipien folgen, können über einen längeren Zeitraum mit geringem Entwicklungsaufwand am technologischen Wandel partizipieren, ohne die Nachhaltigkeit und Transparenz ihrer Daten, Methodologien und Standards zu gefährden. Die konkrete Ausgestaltung dieser Prinzipien soll im Folgenden anhand eines Beispiels aus der langzeiteditorischen Praxis illustriert werden, der Edition des Decretum Burchardi im Projekt Burchards Dekret Digital.
5. Fallbeispiel: Burchards Dekret Digital und sein modularisierter Workflow
[40]Im Zentrum des auf 18 Jahre angelegten Editionsprojekts steht das sogenannte Dekret Burchards von Worms, eine kirchenrechtliche Sammlung aus dem 11. Jahrhundert, das als Hybridedition (Druck- und Webedition) im Rahmen des Akademieprojekts Burchards Dekret Digital ediert wird. Dessen Urheber, Burchard von Worms,[39] war an der Wende vom 10. zum 11. Jahrhundert Bischof von Worms und kompilierte in diesem Zusammenhang eine kanonistische Sammlung, also eine Sammlung verschiedener Rechtssätze des kirchlichen Rechts, die sich jeweils einem bestimmten Thema widmen.[40] Im Vergleich zur allgemeinen Überlieferung mittelalterlicher Texte zeichnet sich Burchards Dekret durch eine fast singuläre Situation aus: So konnten eine Reihe von Handschriften identifiziert werden, die noch zu Lebzeiten des Bischofs in Worms entstanden sind und in ihrem kodikologischen Befund lebhafte Spuren eines komplexen und mehrschichtigen textgenetischen Entstehungs- und Entwicklungsprozesses überliefern.[41]
[41]Allerhand Rasuren, Umstellungen, Durchstreichungen, Ergänzungen und andere Spuren bieten somit einen Blick auf den Schreibtisch eines mittelalterlichen Kanonisten, müssen aber zunächst im Rahmen der Edition aus den Handschriften zusammengetragen, evaluiert und angemessen in Text und Bild vermittelt werden. Hierfür greifen wir im digitalen Raum insbesondere auf eine synoptische Darstellung editorisch aufbereiteter Transkriptionen zurück, die gleichzeitig durch annotierte Darstellung der Handschriften im Mirador Viewer flankiert werden. Die editorische Arbeit am Dekret kann daher nicht nur philologische und kanonistische Erschließung umfassen, sondern muss vor allem auch mit einer kodikologischen Analyse einhergehen. Mit Blick auf die enorme Textmenge des Dekrets – mindestens fünf zentrale Handschriften mit jeweils etwa 1.800 Kapiteln auf insgesamt rund 155.000 Zeilen – stellt dies eine große Herausforderung für die Umsetzung der Edition dar. Entsprechend war die wichtigste Aufgabe der digitalen Entwicklungsarbeit die sorgfältige Konzeption eines Workflows, der in effizienter Weise erstens die Textsicherung aus den Handschriften ermöglicht, zweitens eine angemessene Auszeichnung der komplexen Phänomene erlaubt, und drittens die Verschränkung von Text und Bild gewährleistet, um die gezeigten kodikologischen Phänomene einem Publikum zu vermitteln.
[42]Entsprechend der skizzierten Prinzipien wurde hierfür ein mehrstufiger und halbautomatisierter Workflow entwickelt, der aus (1) der automatisierten Layouterkennung und Transkription in Transkribus, (2) Postprocessing und Bereitstellung in eXist-db, (3) frameworkgestützter TEI-Codierung in Oxygen XML sowie Kollationierung in CollateX, (4) Transformation in Druckvorlage, Webedition und Ground Truth, (5) Finetuning und Neutraining von Deep-Learning-Modellen sowie (6) der Aufbereitung zur digitalen Ansicht durch einen Webstack und Annotation der Handschriften über das International Image Interoperability Framework (IIIF) in Mirador Viewer besteht.
[43]Dabei erfolgt die Datenverarbeitung nicht in einem geschlossenen Prozess auf einer externen Plattform – etwa durch eine Texterkennung, Annotation und TEI-Export in Transkribus – sondern durch eine Prozesskette, in der die verschiedenen Komponenten unterschiedlichster Kontexte durch Python-Skripte bespielt werden und deren jeweilige Schritte der Datenverarbeitung explizit und in Textform adressierbar bleiben. Ziel war eine halbautomatisierte Pipeline der editorischen Praxis von der Transkription der Handschrift in Transkribus bis zur editorisch aufbereiteten Ansicht im Web als Text und Bild, die in robuster und flexibler Art und Weise aktuelle Technologien implementiert, ohne gültige Standards zur Disposition zu stellen und so als Blaupause für weitere Editionsprojekte verwendet werden kann.
[44]Im Zentrum der digitalen Infrastruktur des Projekts stehen dabei – neben der TEI-Kodierung in Oxygen XML über eine eXist-db-Instanz – KI-Verfahren wie die Automated Layout Recognition (ALR) und die Automated Text Recognition (ATR) durch Transkribus bzw. Kraken-Modelle sowie verschiedene Text2Text-Modelle für das Postprocessing. Diese Verfahren sind in einen halbautomatisierten Human-in-the-Loop-Workflow integriert, der in einer programmierten Pipe von der Handschrift bis ins Web führt, sodass sich die Editor*innen auf ihr Kerngebiet konzentrieren können. Gleich in der ersten Phase des Workflows – Layouterkennung und Transkription – manifestieren sich exemplarisch die genannten Prinzipien: Da die autornahen Textzeugen, die in der Anfangsphase des Projekts im Zentrum stehen, demselben Skriptorium und nur einer kleinen Gruppe von Schreibern entstammen, ist eine automatisierte Transkription mit geringer Character Error Rate (CER) möglich. Dies umfasst eine trainierte Layouterkennung,[42] die die jeweiligen Elemente der Textzeugen erkennt und annotiert. Die Texterkennung erfolgt dann durch ein Modell, das iterativ an bis zu 100.000 transkribierten Wörtern trainiert wurde und aktuell eine CER von etwa 2 % erreicht.[43]
[45]Obgleich sowohl Transkribus als auch Kraken aufgrund der Internalisierung von Mustern in der Lage sind, Abkürzungen und orthographische Varianzen der Handschriften direkt aufzulösen und sogar kleinere Emendationen vorzunehmen, wurde darauf bewusst verzichtet. Stattdessen wurde ein ›graphematisches Modell‹ trainiert, das den Befund des Textzeugen unter Rückgriff auf ein festes Set an Sonderzeichen, die der MUFI entlehnt sind, abbildet.[44] Im Vergleich zur streng diplomatischen Transkription unterscheidet das Modell allerdings nicht auf der allographischen Ebene, sondern abstrahiert den jeweils vorgefundenen Buchstaben hinsichtlich seiner Funktion im Abkürzungssystem der Handschrift. So bleibt die Transkription – zugegebenermaßen in beschränkter Weise – auch für paläographische Forschungen nutzbar;[45] vor allem ermöglicht sie das Abgreifen, Auflösen und TEI-konforme Auszeichnen der durch ein Brevigraph markierten Abkürzungen zunächst durch projektinterne Python-Skripte anhand festgelegter Regeln und Wortlisten, mittlerweile mit Hilfe von an den erzeugten Daten trainierten Modellen.[46] Auf diese Weise wird nicht nur das Nachnutzungspotential der Transkription im Sinne der FAIR-Kriterien bewahrt, sondern auch der editorische Prozess der Texterstellung explizit und transparent in den Daten hinterlegt, wodurch die digitale Edition zur vielseitigen Schnittstelle zwischen dem historischen Material und den Verfahren des maschinellen Lernens wird.[47]
[46]Der durch das Modell erkannte Text wird manuell korrigiert – was für analytische Fragestellungen ohne editorischen Anspruch nicht unbedingt notwendig wäre – und mit strukturellem Markup angereichert. Dies ermöglicht die automatische Transformation des Transkripts in projektkonformes TEI, das anschließend in Oxygen XML komplexeren Auszeichnungen unterzogen werden kann. Die Struktur des Textzeugen wurde dabei zunächst durch eine dafür trainierte Layouterkennung mit der P2PaLa-Funktion in Transkribus erkannt (Kopf- und Fußzeile des Dokuments, Spalten, Kapitelnummer und Inskriptionen); mittlerweile steht hierfür ein Segmentierungsmodell in Kraken zur Verfügung,[48] das an nachnutzbaren PageXML-Daten trainiert wurde.[49]
[47]In einem manuellen Schritt wird das Material durch das Einfügen einer Inline-Strukturnotation ergänzt, sich an rudimentären TEI-Tags orientiert und im folgenden Schritt automatisiert durch regelgerechtes TEI ersetzt wird.[50] Der hierfür notwendige Export erfolgt allerdings nicht direkt in TEI, sondern als PageXML. Dies geschieht neben pragmatischen Gründen vor allem wegen der Nachhaltigkeit der Daten: Da PageXML die Währung für alle gängigen ATR-Lösungen ist bzw. einfach in entsprechende Formate wie ALTO transformiert werden kann, schafft ein Export der Layout-Daten eine Unabhängigkeit von Transkribus, das einem stetigen Entwicklungsprozess unterworfen ist und die trainierten Modelle darüber hinaus lediglich in einem geschlossenen System vorhält. Ein standardmäßiger Export der Rohdaten stellt dadurch eine Nachnutzung durch das Projekt und Dritte auch in anderen Kontexten sicher.[51]
[48]Daneben eröffnet der Export in PageXML auch die Möglichkeit, das graphematische Modell nachträglich durch die im Zuge der Edition erzeugten, aufgelösten, normalisierten und emendierten Daten zu ergänzen. Diese werden automatisiert in das exportierte PageXML transformiert und ersetzen dort die ursprüngliche diplomatische Transkription durch einen aufgelösten Text, der als Ground Truth zum Training funktional gestaffelter Modelle mit unterschiedlichem Detailgrad dient.[52]
[49]Abschließend erlauben die in PageXML vorgehaltenen Koordinaten der Textbereiche die Übernahme dieser Information in andere Kontexte. Im Projekt werden diese Koordinaten per Skript so umgewandelt, dass sie den jeweiligen Bildbereich per IIIF-Request ansteuern können. Diese Daten werden in unserem Fall im TEI der Transkription jeweils in einem @facs abgelegt, können aber auch zur maschinellen Extraktion der Bildbereiche oder in ähnlichen Zusammenhängen direkt nachgenutzt werden. Auf diese Weise wird nicht nur die Modularität des Workflows gewahrt, dessen aktuelle ATR-Lösung einfach ausgetauscht werden kann, sondern auch Verkettungspotential, Interoperabilität und Redundanz.
[50]Diese Textdateien werden durch Python-Skripte aufgegriffen und in einer Prozesskette verarbeitet. Zunächst erfolgt die Umwandlung des PageXML mit dem enthaltenen rudimentären Markup in TEI-Daten, die mit dem projektinternen TEI-Schema kompatibel sind und die Spuren der editorischen Datenverarbeitung in expliziter Weise in sich tragen. Wurde diese Verarbeitung zu Beginn des Projekts noch weitgehend über Skripte und manuelle Auszeichnung vorgenommen, konnten mittlerweile aufgrund der so erzeugten Daten auch für diesen Bereich Modelle trainiert werden, die die editorische Arbeit erheblich unterstützen, insbesondere Modelle zur Erkennung von Worttrennungen,[53] zur Auflösung von Abkürzungen,[54] zur Normalisierung[55] oder zur automatischen Setzung von Interpunktion.[56] Das so erstellte TEI wird dann in eXist-db gespeichert und steht zur weiteren Auszeichnung in Oxygen XML bereit, wo es durch die Editor*innen im Rahmen eines für das Projekt entwickelten Frameworks bearbeitet werden kann.
[51]Nach einer ersten Durchsicht und Textkorrektur werden die Textzeugen kollationiert. Auch hier erfolgt die Weiterverarbeitung durch ein Python-Skript auf der Grundlage von CollateX. Hierbei wird allerdings nicht auf die Python-Implementierung zurückgegriffen, sondern die Java-Version zur Erzeugung von JSON-Output aufgerufen. Dies erfolgt einerseits aus Performancegründen, andererseits ermöglicht dieser Zugang die individuelle Weiterverarbeitung der Kollationsdaten zu HTML-Dateien, die die Varianz der Überlieferung in einer für das Projekt geeigneten Art und Weise visuell darstellen können. Außerdem ermöglicht dieser Vorgang den einfachen Austausch der Kollationssoftware durch jede Alternative, die das weit verbreitete JSON-Format beherrscht. Vice versa bleiben die Kollationsdaten selbst transparent und multipel nachnutzbar.
[52]Die aufbereiteten Daten werden dann in ein Repositorium überführt und mithilfe von XSLT und XQuery und dem üblichen Webstack (HTML, CSS, JS) über GitLab Pages verfügbar gemacht sowie durch XSLT-Transformationen für den Druck aufbereitet. Mit Blick auf die Onlinepräsentation ist es dabei entscheidend, dass die präsentierten Textzeugen nicht nur als Text, sondern auch im Bild dargestellt werden. Dies erfolgt im Projekt einerseits durch die Einblendung von Bildausschnitten an der Textdarstellung; andererseits durch den Mirador Viewer. Hierdurch können die Handschriften nicht nur dargestellt, sondern vor allem mit Annotationen versehen werden, um den Nutzer auf besondere Phänomene hinzuweisen. In beiden Fällen greift das Projekt auf die im Zuge der Layoutanalyse erhobenen Koordinaten zurück, die in der TEI-Kodierung hinterlegt wurden. Dies erfolgt für jede Zeile, wodurch jedes in TEI ausgezeichnete Textphänomen klar auf dem Scan adressierbar ist und somit auch als Grundlage einer Feature Detection dienen kann. Besonders komplexe Annotationen werden manuell nachgetragen.
[53]Im Falle der Darstellung von Bildausschnitten im Rahmen der Textansicht werden die Koordinaten der Zeilen und Phänomene direkt per IIIF-Schnittstelle eingespielt, wobei sowohl auf die Presentation API (zur Anzeige in Mirador) als auch die Image API (zur Anzeige von Bildausschnitten in der Präsentationsebene des Textes) zurückgegriffen wird. Für die Anzeige in Mirador Viewer werden für jede Handschriftenseite automatisiert Annotationsdateien aus dem TEI transformiert. Dies erfolgt momentan in das Annotationsformat Web Annotation, durch die Bereithaltung in den Ursprungsdaten kann aber prinzipiell – etwa im Fall einer Weiterentwicklung des Mirador Viewers – jedes andere Format erzeugt werden, das IIIF zur Bildverknüpfung nutzt. Diese Annotationsdateien, die ebenfalls als JSON-Dateien vorliegen, erlauben damit nicht nur eine wichtige Funktionalität im Rahmen der Visualisierung des editorischen Befunds, sondern können erneut in vielfältiger Weise nachgenutzt werden, etwa in der automatisierten Extraktion von Schreiberinformationen und dazugehörenden Bilddateien. Gleichzeitig ist damit auch die Aggregation der Informationen in übergeordnete Sammlungen möglich.
[54]Zusammenfassend wurden die oben entwickelten Prinzipien Modularisierung, Interoperabilität, Redundanz und Explizitheit sowie Verkettungspotential im Projekt Burchards Dekret Digital in einen Workflow umgesetzt, dessen Nachhaltigkeit über einen längeren Zeitraum durch die Austauschbarkeit seiner Glieder garantiert ist. Die darin erzeugten Daten spiegeln in expliziter Weise die jeweiligen Schritte der editorischen Datenverarbeitung wider und weisen dadurch ein hohes Nachnutzungspotential auf. Gleichzeitig können auch größere Mengen durch die Verschränkung von Machine-Learning-Verfahren und manueller Nachbearbeitung effizient verarbeitet werden. Auf diese Weise kann der entwickelte Workflow langfristig am erwartbaren technischen Wandel partizipieren, gleichzeitig Standards wie die TEI und damit einhergehende Prinzipien würdigen und durch die Wahl nachhaltiger und offener Datenformate FAIR-Prinzipien entsprechen. Damit verzichtet das Projekt zwar nicht auf neue Technologien und Ansätze, aber ordnet sie den eigenen Anforderungen unter und nicht umgekehrt.
6. Ausblick
[55]Der im vorangegangenen Abschnitt skizzierte Workflow ermöglicht das nachhaltige Einbinden aktueller Technologien und Deep-Learning-Verfahren in die editorische Arbeit unter Beibehaltung etablierter Standards gemäß den oben entwickelten Prinzipien. Besonders wurde darauf geachtet, die Transparenz editorischer Entscheidungen – die nun in erheblichem Umfang durch KI ausgeführt werden – sowie die Explizitheit der Daten durch die Anwendung eines graphematischen Modells zu gewährleisten, anstatt den gesamten Textgewinnungsprozess ›stillschweigend‹ umzusetzen. Gleichzeitig wurden die zur Texterstellung notwendigen Verfahren nur dort über Plattformen wie Transkribus laufen gelassen, wo aus Nutzer*innenperspektive die graphische Oberfläche des expert clients zur Korrektur der erkannten Daten genutzt werden musste. Wo immer möglich, wurden die einzelnen Microservices der Plattform direkt über die API angesteuert und die erzeugten Daten als Textdateien oder Textströme in gängigen Formaten lokal weiterverarbeitet und gespeichert.
[56]Wurden die editorischen Verarbeitungsschritte zu Beginn des Projekts größtenteils nach algorithmischen Verarbeitungsverfahren durchgeführt, etwa durch eine geskriptete Auflösung der Abkürzungen, zeigt sich mittlerweile auch hier eine enorme Produktivitätssteigerung durch die oben skizzierten Deep-Learning-Verfahren auf Basis einer Transformer-Architektur, die z. B. bei der automatisierten Auflösung von Abkürzungen oder Normalisierungsvorgängen auch den grammatikalischen Kontext berücksichtigen können.[57] Entsprechend wurden die im Projekt gewonnenen Daten gezielt zur Entwicklung solcher Verfahren im Rahmen eines Digital Editing Toolkits eingesetzt, die im Sinne der skizzierten Prinzipien und der Unix-Philosophie als hoch spezialisierte Microservices konzipiert sind und jeweils nur einen klar definierten Arbeitsschritt vollziehen sollen, der dann durch klassische Kodierungsverfahren explizit in die Daten kodiert werden kann:
- Input Bild – HTR zur graphematischen Transkription – Output Text (PageXML)
- Input Text – Deep-Learning-Auflösung der Abkürzungen, geskriptete Auszeichnung in TEI – Output Text (TEI)
- Input Text – Deep-Learning-Normalisierung, geskriptete Auszeichnung in TEI – Output Text (TEI)
- Input Text – Deep-Learning-Interpunktionssetzung, geskriptete Auszeichnung in TEI – Output Text (TEI)
- Input Text – Named Entity Recognition / Topic Modelling, geskriptete Auszeichnung in TEI – Output Text (TEI)
- Ggf. Rückspielen der Daten in PageXML und Training gestaffelter Modelle (PageXML)
[57]Anstelle eines plattformbasierten Super-Models[58], das aus der gescannten Handschrift fertigen Text extrahiert und damit die editorischen Verarbeitungsschritte ›Handschriftenerkennung‹, ›Auflösung‹, ›Normalisierung‹ und sogar ›Emendation‹ stillschweigend unterschlägt, erlaubt eine solche Architektur die Nutzung moderner Deep-Learning-Verfahren, ohne etablierte Standards der digitalen Editorik aufzugeben.
[58]»Do one thing and do it well« ist damit nicht nur ein ›antiquiertes‹ Prinzip der Softwareentwicklung, sondern mehr denn je ein guter Ratgeber für wissenschaftliche Datenverarbeitung im digitalen Zeitalter. Mit ihm kann das revolutionäre Potential der neuen Generation von Deep-Learning-Verfahren in den Dienst einer im kulturpraktischen Sinne digitalen Editorik gestellt werden und einen digital turn einleiten, der nicht ausschließlich in die Black Box stochastischer Deep-Learning-Modelle führt, sondern entsprechend der gängigen Praxis in expliziten und transparenten Daten mündet.
Fußnoten
-
[1]Vgl. Bubeck et al. 2023.
-
[2]Vor allem wird die Technologie im Bereich der Handschriftenerkennung verwendet, vgl. dazu Mühlberger et al. 2019 sowie jüngst Hodel 2023. Eine Übersicht anderer aktueller Anwendungsgebiete liefert Hodel 2022. Zur Anwendung in Institutionen der Gedächtnisspeicherung siehe Jaillant 2022.
-
[3]Vgl. dazu Hodel 2022.
-
[4]Vgl. Landing-Text auf https://recogito.pelagios.org/.
-
[5]Einen Überblick über die Leistung der aktuellen Generation liefert Baktash / Dawodi 2023, jüngst auch in dieser Zeitschrift Pollin et al. 2025.
-
[6]Vgl. Trapp et al. 2020.
-
[7]Diesen Weg geht laut einer Ankündigung von 2023 aktuell die Plattform Transkribus mit dem kostenpflichtigen Angebot ›Transkribus Site‹: »Whether you’re working on a detailed analysis of a limited corpus or conducting a large scale academic research project, this plan will offer the resources you need to carry out your work effectively and efficiently with collaboration tools, complex export formats, and Transkribus Sites for publishing.«
-
[8]So explizit vorgesehen im Falle nopaque (»The provider of the nopaque platform is entitled to change and supplement the scope of functions of nopaque without prior notice. This could result from a thematic and scientific reorientation of the project.« https://web.archive.org/web/20220703024556/https://nopaque.uni-bielefeld.de/terms_of_use) und Transkribus (»READ-COOP SCE reserves the right to add additional features to the services at any time. In addition, READ-COOP SCE may modify, restrict or remove existing features for reasons of data security, technical necessities or legal changes – provided that, considering the interests of both parties, the modification, restriction or removal is deemed acceptable to the Customer.« https://web.archive.org/web/20240109061428/https://readcoop.eu/terms-and-conditions/). Ein praktisches Beispiel für eine solche Funktionsänderung ist die kurzfristige Abschaltung der Handwritten Text Recognition (HTR)-Engine HTR+ im November 2022, die ein Neutraining bestehender Modelle notwendig machte (https://help.transkribus.org/retraining-with-pylaia) sowie die Einführung von Abonnements 2023.
-
[9]So etwa die Text2Image-Funktion in Transkribus, die nicht mehr im Funktionsumfang von Transkribus enthalten ist.
-
[10]Vgl. Castelvecchi 2016.
-
[11]Eine Problematisierung der enormen für Deep-Learning-Applikationen benötigten Rechenleistung findet sich in Thompson et al. 2020.
-
[12]Vgl. Rehbein 2017.
-
[13]Krämer 2022, S. 131.
-
[14]Krämer 2018, S. 6; diese Notwendigkeit ist im Kontext der auszeichnenden Editorik auch betont worden in Sahle 2013b, S. 200.
-
[15]Zu Digitalisierung als Kulturtechnik vgl. Krämer 2018, S. 6.
-
[16]Vgl. Sahle 2013a, S. 58–59.
-
[17]Vgl. hierzu Rehbein 2017, S. 193–196.
-
[18]Kunze 1992, S. 67–68.
-
[19]Vgl. hierzu Krämer 2022, S. 136–139 sowie Krämer 2021.
-
[20]Krämer 2022, S. 136–137.
-
[21]Krämer 2018, S. 9.
-
[22]McGann 2001, S. 141–142.
-
[23]Vgl. Sahle 2013a, S. 131–133.
-
[24]Vgl. Sahle 2013a, S. 131–133.
-
[25]Vgl. Sahle 2013a, S. 174–175.
-
[26]Vgl. Krämer 2018, die zurecht darauf hinweist, dass die Geisteswissenschaften seit jeher auf Elementen wie Explikation und Formalisierung gründen und daher grundsätzlich für digitale Kulturpraktiken anschlussfähig sind.
-
[27]Vgl. Krämer 2018, S. 7.
-
[28]So Kunze 1992, S. 70, dessen Diktum »Es sei nochmals hervorgehoben, daß von einem Rechnersystem keine geistig-schöpferische Arbeit und kein Erkennen von Zusammenhängen oder Assoziationen zu erwarten sind« vergleichsweise schlecht gealtert ist. Gerade in dieser Fähigkeit liegt aber auch eine der großen Schwachstellen dieser Systeme im Vergleich zu herkömmlichen Methoden der Datenverarbeitung, da nun nicht mehr mit exakten Eingaben gearbeitet werden kann, sondern lediglich mit prompts, die der Deutung unterliegen und damit den Raum für Missverständnisse öffnen. Gleichzeitig erschwert der sogenannte random seed (vgl. Bethard 2022) die Reproduzierbarkeit der Systemausgabe.
-
[29]Diese Zukunftsvision wurde bereits während der Niederschrift dieses Beitrages marktreif, vgl. OpenAI 2023.
-
[30]Vgl. Rabus / Tikhonov 2022.
-
[31]Krämer 2018, S. 6.
-
[32]Krämer 2018, S. 6.
-
[33]Zur wichtigen Rolle der TEI, die über die reine Standardsetzung hinausgeht, vgl. Sahle 2013b, S. 364.
-
[34]Vgl. Brittain 2023. Zur Frage von KI und EU-Recht vgl. Hugenholtz / Quintais 2021.
-
[35]Vgl. Thaller 1984, S. 7.
-
[36]Vgl. Buschmann et al. 1998, S. 54–71.
-
[37]Salus 1994, S. 53.
-
[38]Mahoney 1998; zu diesem Prinzip in etwas sperriger Form bereits McIlroy et al. 1978.
-
[39]Zu Biographie und Bedeutung vgl. unlängst Austin 2019.
-
[40]Vgl. Austin 2009, S. 34–37.
-
[41]Vgl. Hoffmann / Pokorny 1991.
-
[42]
-
[43]
-
[44]
-
[45]Vgl. zum Beispiel Dows-Miller 2022.
-
[46]
-
[47]Zum Nachnutzungspotential editorisch erstellter Daten siehe auch Schonhardt 2025a.
-
[48]
-
[49]
-
[50]Mittlerweile wurde auch für die Strukturauszeichnung eine automatische Lösung implementiert, die aber erst im weiteren Projektverlauf eingesetzt wird.
-
[51]Zu entsprechenden Bestrebungen, die Nachnutzbarkeit solcher Daten im Bereich der Texterkennung zu erhöhen, vgl. Romein et al. 2022.
-
[52]Zu den Modellen siehe Schonhardt 2023 und 2024c. Zum Prinzip der Nachnutzbarkeit vgl. Schonhardt 2025a. Zu möglichen Detailgraden vgl. Driscoll 2007; Guéville / Wrisley 2022; Robinson / Solopova 1993.
-
[53]
-
[54]
-
[55]
-
[56]
-
[57]Vgl. Vaswani et al. 2017.
-
[58]READ-COOP 2023.
Bibliografie
- Blake Brittain: Lawsuit Says OpenAI Violated US Authors’ Copyrights to Train AI Chatbot. In: Reuters. 29.06.2023. HTML. [online]
- Greta Austin: Shaping Church Law Around the Year 1000. The Decretum of Burchard of Worms (= Church, Faith and Culture in the Medieval West). Farnham, UK 2009. [Nachweis im GVK]
- Greta Austin: Burchard of Worms. In: Philip L. Reynolds (Hg.): Great Christian Jurists and Legal Collections in the First Millennium. Cambridge, UK 2019, S. 458–470. DOI: 10.1017/9781108559133.023
- Jawid Ahmad Baktash / Mursal Dawodi: Gpt-4: A Review on Advancements and Opportunities in Natural Language Processing. arXiv. 04.05.2023. DOI: 10.48550/arXiv.2305.03195
- Steven Bethard: We Need to Talk About Random Seeds. arXiv. 24.10.2022. DOI: 10.48550/arXiv.2210.13393
- Sébastien Bubeck / Varun Chandrasekaran / Ronen Eldan / Johannes Gehrke / Eric Horvitz / Ece Kamar / Peter Lee / Yin Tat Lee / Yuanzhi Li / Scott Lundberg / Harsha Nori / Hamid Palangi / Marco Tulio Ribeiro / Yi Zhang: Sparks of Artificial General Intelligence: Early Experiments with GPT-4. arXiv. Version 5 vom 13.04.2023. DOI: 10.48550/arXiv.2303.12712
- Frank Buschmann / Regine Meunier / Hans Rohnert / Peter Sommerlad / Michael Stal: Pattern-orientierte Software-Architektur. Bonn u. a. 1998. [Nachweis im GVK]
- Davide Castelvecchi: Can We Open the Black Box of AI? In: Nature 538 (2016), H. 7623, S. 20–23. DOI: 10.1038/538020a
- Sebastian Dows-Miller: A New Approach to Scribal Abbreviation in the Bestiaire in Merton College Library, MS 249. In: Reinardus. Yearbook of the International Reynard Society 34 (2022), S. 60–76. DOI: 10.1075/rein.00059.dow
- Matthew James Driscoll: Electronic Textual Editing: Levels of Transcription. 31.10.2007. HTML. [online]
- Estelle Guéville / David Joseph Wrisley: Transcribing Medieval Manuscripts for Machine Learning. arXiv. 15.07.2022. Version 3 vom 03.10.2023. DOI: 10.48550/arXiv.2207.07726
- Tobias Hodel: Die Maschine und die Geschichtswissenschaft. Der Einfluss von deep learning auf eine Disziplin. In: Karoline Dominika Döring / Stefan Haas / Mareike König / Jörg Wettlaufer (Hg.): Digital History. Konzepte, Methoden und Kritiken Digitaler Geschichtswissenschaft. Berlin u. a. 2022, S. 65–80. DOI: 10.1515/9783110757101-004
- Tobias Hodel: Konsequenzen der Handschriftenerkennung und des maschinellen Lernens für die Geschichtswissenschaft. Anwendung, Einordnung und Methodenkritik. In: Historische Zeitschrift 316 (2023), H. 1, S. 151–180. DOI: 10.1515/hzhz-2023-0006
- Hartmut Hoffmann / Rudolf Pokorny: Das Dekret des Bischofs Burchard von Worms. Textstufen – Frühe Verbreitung – Vorlagen (= Monumenta Germaniae Historica / Hilfsmittel, 12). München 1991. [Nachweis im GVK]
- P. Bernt Hugenholtz / João Pedro Quintais: Copyright and Artificial Creation: Does EU Copyright Law Protect AI-Assisted Output? In: IIC – International Review of Intellectual Property and Competition Law 52 (2021), H. 9, S. 1190–1216. DOI: 10.1007/s40319-021-01115-0
- Lise Jaillant (Hg.): Archives, Access and Artificial Intelligence. Working With Born-Digital and Digitised Archival Collections (= Digital Humanities Research, 2). Bielefeld 2022. DOI: 10.14361/9783839455845
- Sybille Krämer: Der ›Stachel des Digitalen‹ – ein Anreiz zur Selbstreflexion in den Geisteswissenschaften? Ein philosophischer Kommentar zu den Digital Humanities in neun Thesen. In: Digital Classics Online 4 (2018), H. 1. DOI: 10.11588/dco.2017.0.48490
- Sybille Krämer: Digitalism as a Cultural Technique: From Alphanumerics to AI. In: Goethe-Institut (Hg.): Kulturtechniken 4.0. 2021. HTML. [online]
- Sybille Krämer: Zur Aisthesis des Maschinenlernens. Ein Kommentar zur zeitgenössischen Künstlichen Intelligenz. In: Martina Ide (Hg.): Ästhetik digitaler Medien. Aktuelle Perspektiven (= Digitale Gesellschaft, 31). Bielefeld 2022, S. 131–152. DOI: 10.14361/9783839453612-008
- Horst Kunze: Über das Registermachen. 4. Auflage. München 1992 [1964]. [Nachweis im GVK]
- Michael Sean Mahoney: Interview with M. D. McIlroy. Murray Hill, 18 August 1989. In: Diomidis Spinellis (Hg.): An Oral History of Unix. 1998. HTML. [online]
- Jerome McGann: Rethinking Textuality. In: Jerome McGann: Radiant Textuality. Literature After the World Wide Web. New York 2001, S. 137–160. [Nachweis im GVK]
- Malcolm Douglas McIlroy / E. N. Pinson / B. A. Tague: UNIX Time-Sharing System: Foreword. In: Bell System Technical Journal 57 (1978), H. 6, S. 1899–1904. [online]
- Günter Mühlberger / Louise Seaward / Melissa Terras / Sofia Ares Oliveira / Vicente Bosch / Maximilian Bryan / Sebastian Colutto / Hervé Déjean / Markus Diem / Stefan Fiel / Basilis Gatos / Albert Greinoecker / Tobias Grüning / Günter Hackl / Vili Haukkovaara / Gerhard Heyer / Lauri Hirvonen / Tobias Hodel / Matti Jokinen / Philip Kahle / Mario Kallio / Frederic Kaplan / Florian Kleber / Roger Labahn / Eva Maria Lang / Sören Laube / Gundram Leifert / Georgios Louloudis / Rory McNicholl / Jean-Luc Meunier / Johannes Michael / Elena Mühlbauer / Nathanael Philipp / Ioannis Pratikakis / Joan Puigcerver Pérez / Hannelore Putz / George Retsinas / Verónica Romero / Robert Sablatnig / Joan Andreu Sánchez / Philip Schofield / Giorgos Sfikas / Christian Sieber / Nikolaos Stamatopoulos / Tobias Strauß / Tamara Terbul / Alejandro Héctor Toselli / Berthold Ulreich / Mauricio Villegas / Enrique Vidal / Johanna Walcher / Max Weidemann / Herbert Wurster / Konstantinos Zagoris: Transforming Scholarship in the Archives Through Handwritten Text Recognition: Transkribus as a Case Study. In: Journal of Documentation 75 (2019), H. 5, S. 954–976. 23.07.2019. DOI: 10.1108/JD-07-2018-0114
- OpenAI: ChatGPT Can Now See, Hear, and Speak. 25.09.2023. HTML. [online]
- Christopher Pollin / Franz Fischer / Patrick Sahle / Martina Scholger / Georg Vogeler: When It Was 2024 – Generative AI in the Field of Digital Scholarly Editions. In: Zeitschrift für digitale Geisteswissenschaften 10 (2025). 10.07.2025. HTML / XML / PDF. DOI: 10.17175/2025_008
- Achim Rabus / Aleksej Tikhonov: How ›Smart‹ is Transkribus in Fact? Evaluating Models with Enhanced Functionality. Vortrag, Transkribus User Conference 2022. YouTube. 10.02.2022. [online]
- READ-COOP: Introducing Transkribus Super Models – Get Access to ›The Text Titan I‹. In: Transkribus Blog. 09.07.2023. [online]
- Malte Rehbein: Digitalisierung. In: Fotis Jannidis / Hubertus Kohle / Malte Rehbein (Hg.): Digital Humanities. Eine Einführung. Stuttgart 2017, S. 179–198. [Nachweis im GVK]
- Peter Robinson / Elizabeth Solopova: Guidelines for Transcription of the Manuscripts of the Wife of Bath’s Prologue. Zenodo. 01.07.1993. DOI: 10.5281/zenodo.4050359
- C. Annemieke Romein / Tobias Hodel / Femke Gordijn / Joris J. van Zundert / Alix Chagué / Milan van Lange / Helle Strandgaard Jensen / Andy Stauder / Jake Purcell / Melissa Mhairi Terras / Pauline van den Heuvel / Carlijn Keijzer / Achim Rabus / Chantal Sitaram / Aakriti Bhatia / Katrien Depuydt / Mary Aderonke Afolabi-Adeolu / Anastasiia Anikina / Elisa Bastianello / Lukas Vincent Benzinger / Arno Bosse / David Brown / Ash Charlton / André Nilsson Dannevig / Klaas van Gelder / Sabine C. P. J. Go / Marcus J. C. Goh / Silvia Gstrein / Sewa Hasan / Stefan von der Heide / Maximilian Hindermann / Dorothee Huff / Ineke Huysman / Ali Idris / Liesbeth Keijzer / Simon Kemper / Sanne Koenders / Erika Kuijpers / Lisette Rønsig Larsen / Sven Lepa / Tommy O. Link / Annelies van Nispen / Joe Nockels / Laura M. van Noort / Joost Johannes Oosterhuis / Vivien Popken / María Estrella Puertollano / Joosep J. Puusaag / Ahmed Sheta / Lex Stoop / Ebba Strutzenbladh / Nicoline van der Sijs / Jan Paul van der Spek / Barry Benaissa Trouw / Geertrui van Synghel / Vladimir Vučković / Heleen Wilbrink / Sonia Weiss / David Joseph Wrisley / Riet Zweistra: Exploring Data Provenance in Handwritten Text Recognition Infrastructure: Sharing and Reusing Ground Truth Data, Referencing Models, and Acknowledging Contributions. Starting the Conversation on How We Could Get It Done. Zenodo. 30.11.2022. Version 4 vom 11.03.2024. DOI: 10.5281/zenodo.7267244
- Patrick Sahle (2013a): Digitale Editionsformen. Zum Umgang mit der Überlieferung unter den Bedingungen des Medienwandels. Teil 2: Befunde, Theorie und Methodik (= Schriften des Instituts für Dokumentologie und Editorik, 8). Norderstedt 2013. URN: urn:nbn:de:hbz:38-50127
- Patrick Sahle (2013b): Digitale Editionsformen. Zum Umgang mit der Überlieferung unter den Bedingungen des Medienwandels. Teil 3: Textbegriffe und Recodierung (= Schriften des Instituts für Dokumentologie und Editorik, 9). Norderstedt 2013. URN: urn:nbn:de:hbz:38-50130
- Peter Henry Salus: A Quarter Century of UNIX (= UNIX and Open Systems Series). Reading, US-MA 1994. [Nachweis im GVK]
- Michael Schonhardt: Transkribus-Modell: bdd-wormser-scriptorium-0.2. 14.11.2022. [online]
- Michael Schonhardt: Transkribus-Modell: bdd-wormser-scriptorium-expanded-0.1. 28.07.2023. [online]
- Michael Schonhardt (2024a): Datenset: bdd-segemntation-data. Zenodo. 26.3.2024. DOI: 10.5281/zenodo.10882816
- Michael Schonhardt (2024b): Kraken-Modell: bdd-segmentation-regions. Zenodo. 28.03.2024. DOI: 10.5281/zenodo.10890967
- Michael Schonhardt (2024c): Kraken-Modell: Model Trained on 11th Century Manuscripts to Produce Expanded Transcription (Latin). Zenodo. 09.09.2024. DOI: 10.5281/zenodo.13736584
- Michael Schonhardt (2024d): Kraken-Modell: Model Trained on 11th Century Manuscripts to Produce Graphematic Transcription (Latin). Zenodo. 10.09.2024. DOI: 10.5281/zenodo.13741957
- Michael Schonhardt (2025a): Die digitale Edition als Schnittstelle. Editorische Workflows im KI-Zeitalter. In: Das Mittelalter 30 (2025), H. 1, S. 54–69. DOI: 10.17885/heiup.mial.2025.1.25120
- Michael Schonhardt (2025b): mT5 Latin Punctuator (mt5-large). Zenodo. 01.12.2025. DOI: 10.5281/zenodo.17777660
- Michael Schonhardt (2026a): Latin Contextual Line-Break Detector. Zenodo. 27.01.2026. DOI: 10.5281/zenodo.18390269
- Michael Schonhardt (2026b): Medieval Latin Abbreviation Expander (abbreviationes-v2). Zenodo. 29.01.2026. DOI: 10.5281/zenodo.18411989
- Michael Schonhardt (2026c): Medieval Latin Normalizer (ByT5-Large). Zenodo. 29.01.2026. DOI: 10.5281/zenodo.18416639
- Manfred Thaller: Ungefähre Exaktheit. Theoretische Grundlagen und praktische Möglichkeiten einer Formulierung historischer Quellen als Produkte unscharfer Systeme. In: Herta Nagl-Docekal / Franz M. Wimmer (Hg.): Neue Ansätze in der Geschichtswissenschaft. Eine philosophisch-historische Tagung (= Conceptus-Studien, 1). Wien 1984, S. 77–100. [Nachweis im GVK]
- Neil C. Thompson / Kristjan Greenewald / Keeheon Lee / Gabriel F. Manso: The Computational Limits of Deep Learning. arXiv. 10.07.2020. Version 2 vom 27.07.2022. DOI: 10.48550/arXiv.2007.05558
- Marcus Trapp / Matthias Naab / Dominik Rost / Claudia Nass / Matthias Koch / Bernd Rauch: Digitale Ökosysteme und Plattformökonomie: Was ist das und was sind die Chancen? In: Informatik Aktuell. 23.06.2020. HTML. [online]
- Ashish Vaswani / Noam Shazeer / Niki Parmar / Jakob Uszkoreit / Llion Jones / Aidan N. Gomez / Lukasz Kaiser / Illia Polosukhin: Attention Is All You Need. arXiv. 12.06.2017. Version 7 vom 02.08.2023. DOI: 10.48550/arXiv.1706.03762
Abbildungsverzeichnis
- Abb. 1: Schematische Darstellung des modularen und halbautomatisierten Workflows der Digital- und Druckedition Burchards Dekret Digital von der automatisierten Texterkennung bis zur Webausgabe. [Grafik: Michael Schonhardt 2026]


![Abb. 1: Schematische Darstellung des modularen und halbautomatisierten Workflows der Digital- und Druckedition Burchards Dekret Digital von der automatisierten Texterkennung bis zur Webausgabe. [Grafik: Michael Schonhardt 2026]](https://www.zfdg.de/sites/default/files/medien/doonething_001.png)