Abstract
In den Digital Humanities herrscht latent die Auffassung, dass über den Einsatz generischer Werkzeuge eine Brücke zwischen den einzelnen Fachwissenschaften und ihren ausdifferenzierten Forschungsmethoden geschlagen werden kann oder soll. Dabei werden zu leicht Unterschiede im Erkenntnisinteresse und in der Hermeneutik übersehen, die z.B. zwischen Literaturwissenschaft und Geschichtswissenschaft bestehen und die Verwendung von bestimmten digitalen Werkzeugen entweder erfordern oder auch verbieten. In diesem Beitrag wird nach der hermeneutischen Reichweite aktueller digitaler Methoden für die Geschichtswissenschaften gefragt und dies paradigmatisch an drei Beispielen erläutert: Digitale Handschriftenerkennung, Historische Netzwerkanalyse sowie Historische Semantik.
In the Digital Humanities, the dominant belief is that the use of generic ›tools‹ could or should serve as a bridge between the different disciplines and their methodologies. Differences in cognitive interests and in hermeneutics between literary studies and history are too easily overlooked, and therefore both disciplines require the use of adapted and specialized digital tools. This paper investigates the hermeneutic suitability of current digital methods for the humanities and demonstrates their applicability by means of three examples: digital handwriting recognition, historical network analysis, and historical semantics informed by computational linguistics.
Version 1.1 (22.11.2016)
Angaben zu Abbildung 2 wurden aktualisiert und ergänzt.
- 1. Einführung
- 2. Hermeneutiken digitaler und neuronaler Methoden
- 3. Digitale Werkzeuge oder virtuelle Forschungsumgebungen für Historiker?
- 4. Handwritten Text Recognition (HTR)
- 5. Visualisierungen und Netzwerkanalyse
- 6. Semantische Technologien
- 7. Zusammenfassung und Ausblick
- Bibliographische Angaben
- Abbildungslegenden und -nachweise
1. Einführung
Digitale oder digitalisierte Geschichtswissenschaft ist ein relativ junger Begriff, der seit etwa sechs Jahren im deutschen Sprachraum verwendet wird. Er wurde durch den gleichnamigen Titel eines Essays des Wiener Historikers Wolfgang Schmale 2010 popularisiert, nachdem er kurz zuvor vom Schweizer Pionier der digitalen Vergangenheit, Peter Haber, geprägt worden war.[1] Vorläufer der digitalen Geschichtswissenschaften im deutschsprachigen Raum war die historische Fachinformatik, die nach Auswertung mit Googles ngram-viewer und auch der eigenen Erinnerung nach auf einen quantitativen Höhepunkt zu Beginn der 90er Jahre des vergangenen Jahrhunderts zurückblicken kann.[2] Der Unterschied zwischen beiden Strömungen, falls er überhaupt als solcher greifbar ist, kann in der Dynamik der Digital Humanities gesucht werden, die als eine Art übergreifende und integrierende Bewegung seit Mitte des ersten Dezenniums des neuen Jahrtausend die bisherigen, nach Fächern organisierten Fachinformatiken ablöste und eine Einheit der Werkzeuge und Methoden in den digitalen Geisteswissenschaften postulierte. Zugleich erhoben die Digital Humanities Anspruch auf eigenständige Fachlichkeit, die sich inzwischen im Rahmen von Lehrstühlen und Studiengängen an Universitäten etabliert.[3] Digitale Geschichtswissenschaft ist aus diesem Prozess in Abgrenzung und Neudefinition sowohl in Hinblick auf die Digital Humanities als auch in Bezug auf die fachgebundenen und häufig in dem Verständnis von Hilfskraft-Dienstleistungen betriebenen Informatikangebote für Historiker hervorgegangen. Sie ist also mitnichten völlig neu, sondern vielmehr Ausdruck eines gewandelten Selbstverständnisses digital arbeitender Historikerinnen und Historiker. Ihr Verhältnis zu den Digital Humanities ist daher zugleich von Konkurrenz als auch von Immanenz geprägt. Man versteht sich als Teil der Bewegung und möchte zugleich als eigenständige Spezialisierung wahrgenommen werden, die den spezifischen Methoden und Anforderungen der Forschung in den historischen Wissenschaften entspricht. Während die Arbeit mit und an Texten ein verbindendes Element z.B. zur Literaturwissenschaft oder den Philologien darstellt, gibt es zugleich auch eine spezifisch historische Methodik, die kritisch aus ›Informationsbrocken‹ eine mögliche Vergangenheit konstruiert und beschreibt, die (manchmal) von sich beansprucht, intersubjektiv nachvollziehbar zu sein.[4] Dass sich zudem die Hermeneutik der Textauslegung in der Geschichtswissenschaft permanent wandelt und selbst Gegenstand der Forschung ist, braucht nicht weiter betont zu werden.[5] Wichtig in unserem Zusammenhang sind vor allem die durchgehenden distinktiven Merkmale historischer Hermeneutik und die Identifikation spezifischer Tools und Werkzeuge zur Beschaffung der zur Rekonstruktion des Vergangenen notwendigen Informationen. Dabei oszilliert der Anspruch zwischen Detail und Abstraktion, die große Erzählung interessiert ebenso wie die kleinteilige Interpretation eines Wortes in einem Manuskript. Immer aber steht die kontextbezogene Bedeutung der extrahierten Informationen im Mittelpunkt des Interesses des Historikers, weniger die Art und Beschaffenheit der Informationsträger – obwohl diese Grenze im material turn z.B. hinsichtlich kodikologischen Fragestellungen inzwischen mehr und mehr verschwimmt. Doch im Kern, und darauf möchte ich mich im Folgenden beziehen, ist es immer die Semantik im Kontext von Zeit und Raum, die Grundlage von Geschichtsschreibung war und ist.
Wenn in diesem Beitrag nun zugleich nach »neuen Erkenntnissen« durch digitale Geschichtswissenschaft gefragt wird, dann wird damit ein Kernproblem der Digital Humanities überhaupt angesprochen, nämlich die grundsätzliche Frage, wie neue wissenschaftliche Erkenntnisse durch digitale Methoden gewonnen werden können. Bislang wird häufig nur bekanntes Wissen reproduziert, natürlich auch um Werkzeuge zu kalibrieren und Erfahrungen für die Anwendung auf bislang unbekanntes oder umfangreiches Material zu sammeln. Bezogen auf die Geschichtswissenschaft – oder ihren Plural, je nachdem, wie es besser gefällt – bedeutet dies die Frage nach dem wissenschaftlichen Impact digitaler Forschungsmethoden in einzelnen Bereichen der etablierten Geschichtswissenschaft, wie sie klassischerweise an Universitäten und Forschungseinrichtungen gefunden werden können. Auf diese Frage wird später nach der kritischen Präsentation einer Reihe von Werkzeugen und Beispielprojekten zurückzukommen sein.
2. Hermeneutiken digitaler und neuronaler Methoden
Im Mittelpunkt dieses Abschnitts steht die oben schon angedeutete Problematik der hermeneutischen Reichweite von digitalen Methoden in der Geschichtswissenschaft bzw. den Geschichtswissenschaften. Was aber ist mit hermeneutischer Reichweite genau gemeint? Ich verstehe darunter die Möglichkeit, mit digitalen Methoden eine besseres Textverständnis zu erzielen, als dies ohne diese Methoden möglich wäre.[6] Dabei gehe ich durchaus von einem dialogischen Verhältnis zwischen informationstragendem Medium (Text, Bild etc.) und Interpret aus, das auf ein zunehmend besseres Verständnis einer im Medium enthaltenen Botschaft abzielt. Zweifelsohne verändern Methoden des distant reading den hermeneutischen Prozess des Textverständnisses.[7] Die Art dieser Beeinflussung hängt von den Methoden oder Werkzeugen ab, die sich mit statistischen, linguistischen oder semantischen Methoden den Texten nähern. Wie können diese Methoden bei der Auslegung und beim Verständnis von Texten und schließlich bei der Beantwortung von Fragen behilflich sein, die für Historiker relevant sind? Um das Problem etwas zu schärfen und die Relevanz zu belegen, möchte ich zunächst aus einer großen deutschen Tageszeitung zitieren, die sich in ihrem Feuilleton gerne solchen Fragen zuwendet. Unter dem Titel Mittel auf der Suche nach dem Zweck schreibt Thomas Thiel Anfang 2013:
»Überall gewinnt man heute aus großen Datensätzen Muster menschlichen Verhaltens. Läßt sich diese Methode auch auf die Vergangenheit anwenden? Historiker bewegen sich langsam darauf zu [….] Es gibt nicht wenige, die in der data history eine Reduktion auf Toplists und Rankings sehen, mit denen die Angelsachsen seit je sich selbst und die Welt beglücken. Die Ebene des Sinns, die Latenz und der Bedeutungswandel von Begriffen werden von den Programmen verfehlt. Schwer sind insbesondere Schlussfolgerungen auf soziale Strukturen. Sprache wandelt sich nun einmal langsamer und ist stabiler, um nicht zu sagen: träger als vieles andere. Und andererseits gibt es auch sprachlichen Wandel, dem keiner auf der Ebene des Bezeichneten entspricht. Die Vampire selber werden um 1880 vermutlich nicht zugenommen haben. Also braucht man mehr als bloße Veränderungen in den Datensätzen, um zu plausiblen Interpretationen zu gelangen. […] Die neue quantitative Geschichte, wenn überhaupt schon davon die Rede sein kann, begreift sich deshalb als Ergänzung klassischer Methoden, nicht als Ersatz. Sie bietet eine Art Vorempirie, die über anekdotische Evidenzen hinausgeht und individuelle Deutung auf breiter empirischer Grundlage absichert. Man könnte auch sagen: Sie dient als Suchinstrument zur Hervorbringung von Vermutungen.«[8]
In dem Zitat werden eine Reihe von bedenkenswerten Aspekten hinsichtlich der hermeneutischen Reichweite von Big Data-Analysen in der Geschichtswissenschaft angesprochen, die ich im Folgenden etwas genauer betrachten möchte. Da ist zunächst die Ebene der Bedeutung und ihres Wandels in der Zeit. Man wird nicht leugnen können, dass Bedeutung zugewiesen wird und zwar von Historikern, also Menschen. Die Bedeutung besteht nur und ist abhängig von der menschlichen Existenz, eingebettet in die ganze Komplexität des Seienden. Wie soll dergleichen aber mittels Variablen und in Daten erfassbar sein? Wolfang Raible erläuterte diese Problematik in seinem Schlusswort zu einem Workshop in Heidelberg zum Thema »Historische Semantik und Semantic Web« besonders treffend durch ein Zitat: Jorge Luis Borges habe die Bemühungen anhand der ausführlichsten damaligen ›Ontologie‹, der von John Wilkins (1614–1672), wunderschön ad absurdum geführt: »Ich habe die Willkürlichkeiten von Wilkins festgehalten […]; es ist klar, dass es keine Klassifikation des Universums gibt, die nicht willkürlich oder konjektural wäre. Der Grund dafür ist ganz einfach: Wir wissen nicht, was das Universum ist.«[9] Die von Thiel vertretene Auffassung zur »neuen quantitativen Geschichte« repräsentiert sicher die Auffassung der Mehrzahl der heute tätigen Historikerinnen und Historiker, ohne dass dies meines Wissens empirisch zu belegen wäre. Zentral ist jedenfalls die These, dass Semantik und Bedeutungswandel von Begriffen und Konzepten in einer ›data history‹ verfehlt würden. Wir werden diese Behauptung im Rahmen einiger Beispiele weiter unten zu relativieren versuchen.
Gerben Zaagsma, ein niederländischer Historiker, macht zum Umgang mit der »data history« in seiner Einführung zum Themenheft Digital History der BMGN - Low Countries Historical Review einen pragmatischen Vorschlag: »Das Ziel von Big Data Analysen sollte nicht der Ersatz der historischen Interpretation und der hermeneutischen Arbeit sein, sondern eine Integration beider Ansätze.«[10] Diese Meinung teilen auch Wolfgang Schmale und Mareike König, so dass vielleicht schon von einem aktuell herrschenden Konsens über die ›hybride‹ Methode der digitalen Geschichtswissenschaft gesprochen werden kann.[11] Damit stellt sich aber erneut die Frage nach den »neuen Erkenntnissen«, wenn hier etablierte analoge und neue digitale Methoden miteinander integriert werden sollen und – so lese ich den Vorschlag zumindest – die historische Interpretation und die Hermeneutik am Ende doch die Zuweisung von Bedeutung und die Einordnung in einen größeren (und zugegebener Maßen sehr großen) Kontext leisten müssen. Diese Probleme und Zweifel sind nicht neu, sondern Teil einer Diskussion, die schon seit längerem geführt wird. Seit den 70er Jahren wird öffentlich über den Nutzen des Computereinsatzes in den Geisteswissenschaften diskutiert.[12] Damals waren die Dimensionen kleiner – niemand ahnte, welche Bedeutung die digitale Transformation für das tägliche Leben und Arbeiten in Zukunft erlangen könnte. Damals wie heute wurde und wird im Kern ein Methodenstreit geführt, dem es eigentlich an Berechtigung fehlt, da es sich nur um verschiedene Seiten ein- und derselben Medaille handelt: Quantitative versus Qualitative Geschichtswissenschaft. Sind wir heute damit ein Stück weiter? Natürlich können wir qualitativ neue Ergebnisse mit Hilfe von quantitativen Methoden in der Geschichtswissenschaft generieren. Aber inwieweit hilft uns dieser Ansatz wirklich bei der Beantwortung qualitativer Fragestellungen, z.B. bei Fragen der Bedeutung verschiedener Begrifflichkeiten zu einem gegebenen Zeitpunkt und in einer bestimmten Kultur? Die Antwort hierauf kann am Ende nur von der Qualitätssicherung historischer Forschung selbst erwartet werden. Allerdings lassen sich begründete Vermutungen anstellen, welche Entwicklungen in den digitalen Geschichtswissenschaften besonders vielversprechend für die Generierung neuer Erkenntnisse sein werden. Bevor ich im Folgenden einige Projekte aus drei verschiedenen Anwendungsbereichen digitaler Werkzeuge in der Geschichtswissenschaft vor diesem Hintergrund vorstelle, möchte ich noch kurz auf den Werkzeugbegriff im Kontext des Digitalen zu sprechen kommen.
3. Digitale Werkzeuge oder virtuelle Forschungsumgebungen für
Historiker?
Der Begriff des digitalen Werkzeugs (Tool) ist ebenso wenig scharf definiert wie die digitale Methode und kann von einem wenige Zeilen umfassenden Script bis zur ausgefeilten virtuellen Forschungsumgebung reichen. Möglicherweise wird von einigen auch schon ein Computer, ein Betriebssystem, eine Textverarbeitung oder aber ein Informationsangebot wie Google books als digitales Werkzeug für die Erstellung von historischen Analysen und deren Veröffentlichung – ohne die Forschung nicht stattfinden kann – betrachtet. Bislang sind digitale Werkzeuge für Historiker in der Tat oft nur die moderne Form des analogen Zettelkastens, mit dessen Hilfe schon im 19. Jahrhundert Erstaunliches geleistet wurde.[13] Ich möchte mich für die Zwecke dieses Beitrags auf ein Verständnis konzentrieren, das digitale Werkzeuge domain- und aufgabenspezifisch versteht und immer eine bestimmte Anpassung an spezifische, aber nicht unbedingt konkrete, wissenschaftliche Fragestellungen oder Interessensbereiche voraussetzt. Diese Anpassungen oder Vorbereitungen finden zumeist auf der Ebene der Daten statt, die durch das Werkzeug analysiert, aufbereitet oder visualisiert werden sollen. Werkzeuge und Forschungsumgebungen sollen also über ihre Spezifität für historische Teildisziplinen definiert sein, weniger über ihre Komplexität oder ihren Gebrauchscharakter.
Entscheidend für den erfolgreichen Einsatz vieler digitaler Werkzeuge ist im Bereich der Texthermeneutik, ob es sich bei den zu untersuchenden und zu verstehenden Texten um einen Korpus oder Teile eines solchen Korpus handelt und wie umfangreich diese Textsammlungen sind. In der Geschichtswissenschaft spielen sie – im Gegensatz zur Literaturwissenschaft oder Sprachwissenschaft – bislang nur eine untergeordnete Rolle, da konsistente digitalisierte und annotierte Korpora bislang kaum vorliegen. Erschwerend kommt hinzu, dass für Historiker interessante Text- und Quellensammlungen häufig multilingual und in historischen Sprachstufen verfasst sind, was die computerlinguistische Verarbeitung erschwert.[14] Allerdings nimmt die Menge digitalisierter Texte kontinuierlich zu, wobei dies ja noch nicht unbedingt bedeutet, dass die Texte auch im Volltext vorliegen. Erfolgreich wurden im Rahmen der digitalen Geschichtswissenschaft korpuslinguistische Analysen wie z.B. topic modeling schon an einer Reihe von Zeitschriftenkorpora durchgeführt.[15] Sie spielen damit eine gewisse Rolle in der Wissenschaftsgeschichte. Des Weiteren werden mehr oder weniger abgeschlossene Sprachkorpora in den alten Sprachen mit computerlinguistischen Methoden annotiert und für die historische Arbeit zur Verfügung gestellt.[16] Die Sentiment Analysis, also die automatisierte Auswertung von Texten mit dem Ziel, eine darin geäußerte Haltung oder Bewertung als positiv oder negativ zu erkennen, trifft auch bei Historikern auf großes Interesse, allerdings sind die Ergebnisse für längere Texte bislang noch nicht so überzeugend, so dass sich erst in jüngster Zeit Projekte an diese Aufgabe heranwagen.[17]
Die überwiegende Mehrzahl von historische Quellen und Texten aber liegt nicht in Form von Korpora vor, sondern in einem Mix aus analogen und zunehmend digitalen Ressourcen, von denen inzwischen eine Vielzahl in sog. schmutzigem OCR auch mit Methoden des Information Retrieval durchsucht werden können. Die Besonderheiten des deutschen, aber auch des internationalen Urheberrechts haben hierbei zu der paradoxen Situation geführt, dass inzwischen z.B. viele veraltete Edition zu neuen Ehren gelangen, da sie für die Forscherinnen und Forscher heute einfacher zugänglich sind als neuere historisch-kritische Ausgaben, die noch dem Urheberrechtsschutz unterliegen. In dieser Gemengelage aus digitalen und analogen Informationsbruchstücken findet historische Forschung heute in der Regel statt. Neue Erkenntnisse lassen sich so in klassisch hermeneutischer Art und Weise gewinnen, allerdings in der Regel in einem höheren Tempo und auf einer (je nach Qualität der Forschung) größeren Basis von Informationen. Dadurch steigt das Bedürfnis, die Vielfalt der Informationen mit den Methoden der digitalen Datenverarbeitung zu verwalten und beherrschbar zu machen: Tools zur Literaturverwaltung wie Zotero, Citavi, Mendeley oder auch Evernote sind nicht ohne Grund besonders bei Historikern beliebt. Zugleich nehmen Bedarf und Praxis der Fachkommunikation zu – eine Entwicklung, die sich auch bei der Fachgruppe Digitale Geschichtswissenschaft im Historikerverband beobachten lässt, die Medien wie Twitter und Blogs intensiv verwendet.[18]
Wenn die Unterschiede zwischen analogen und digitalen Techniken also nur quantitativer Art sind, ist dann wirklich mit der Generierung neuer Erkenntnis aus digitalen Tools und Werkzeugen, wie sie in den Digital Humanities inzwischen etabliert sind und von der digitalen Literaturwissenschaft auch erfolgreich angewendet werden, zu rechnen? An drei Beispielen möchte ich im Folgenden zu belegen versuchen, dass auch die digitale Geschichtswissenschaft von solchen Werkzeugen in Zukunft profitieren kann, auch wenn Methoden und mathematische Hintergründe der dort angewendeten Verfahren vielleicht nicht ihren Weg in die Curricula historischer Studiengänge finden werden.
4. Handwritten Text Recognition (HTR)
Ein vielversprechender neuer Ansatz ist die automatisierte Erkennung von Handschrift mittels fortgeschrittener Methoden der Mustererkennung. Traditionell haben Versuche zur Transkription von Handschriften auf Technologien für isolierte Zeichenerkennung (OCR) aufgesetzt, die in den letzten Jahrzehnten beachtliche Ergebnisse erzielt haben. Leider ist aber die Zeichensegmentierung in handgeschriebenen Texten ungleich schwieriger bis unmöglich, zumal vor allem historische Dokumente von Interesse für automatisierte Transkriptionen sind. Aktuelle HTR Technologie geht nun einen anderen Weg und kombiniert verschiedene Verfahren, die z.B. in der Spracherkennung entwickelt worden sind, um bessere Ergebnisse zu erreichen. Es werden Hidden Markov Modelle (HMMs) und N-Gramms verwendet, um Muster zu erkennen, die dann in Interaktion mit dem Benutzer über Trainingstranskriptionen die Vorhersagegenauigkeit für Manuskripte eines Schreibers z.T. dramatisch verbessern.[19] Um eine gute HTR-Genauigkeit zu erreichen, ist allerdings eine Kombination von Verfahren wie Layout-Analyse, Textzeilen-Extraktion, Vorverarbeitungsoperationen, Training, lexikalische- und Sprachmodellierung, HMMs usw. erforderlich.[20]
Noch mutet HTR für Manuskripte ein wenig wie Science Fiction an, aber spätestens seitdem Frederic Kaplan den Plan einer Digitalisierung der venezianischen Handschriften im dortigen Staatsarchiv (Venice Time Machine Projekt) verkündete, scheint HTR greifbarer geworden zu sein. Die Herausforderungen, bis dieses Ziel erreicht ist, sind allerdings enorm. Werbevideos des Projekts geben einen Eindruck von der Dimension des zu digitalisierenden und transkribierenden Materials und suggerieren zugleich eine Machbarkeit, deren Beweis noch angetreten werden muss.[21] Dreh- und Angelpunkt bei HTR bleibt die Mustererkennung. Wenn diese Muster nicht gleichförmig genug sind, stoßen auch die oben erläuterten Ansätze an ihre Grenzen. Interessante Impulse könnte in Zukunft auch die Forschung über neuronale Netzwerke liefern, denn bekanntlich sind Menschen (nach einem gewissen Training) ja in der Lage, historische Handschriften zu lesen.[22]
Neben der Venice Time Machine gibt es noch weitere, vielversprechende Projekte, die sich zurzeit mit der Problematik der automatisierten und digital unterstützten Transkription von Handschriften beschäftigen. Die Transcription and Recognition Platform (TRP), die von einer europäischen Forschergruppe um Günter Mühlberger von der Universität Innsbruck und Joan Andreu Sánches von der Polytechnischen Universität València bereit gestellt wird, erlaubt inzwischen bei trainingsbasierter Optimierung erstaunlich hohe Erkennungsraten von teilweise über 90%.[23] Die Technologie steht nach Auffassung der Experten kurz vor dem Durchbruch, und man kann sich leicht vorstellen, welchen Impact dies bei der Masse des handschriftlich in Archiven vorliegenden Materials für die Erschließung von Massenschriftgut seit dem Spätmittelalter haben würde.[24] Dieser Auffassung ist wohl auch die EU und fördert daher dieses Projekt unter dem Akronym READ im Rahmen von Horizon 2020.
Bei HTR geht es auch um die Beziehung von digitalen Methoden zu den historischen Hilfswissenschaften – ein bislang nicht ausreichend beleuchteter Bereich der digitalen Geschichtswissenschaft.[25] Es gibt Bemühungen, digitale Methoden wie HTR erneut den historischen Hilfswissenschaften beizuordnen. Diese Bewegung geht maßgeblich vom Historikerverband aus, findet aber auch viel Unterstützung bei vielen etablierten Historikerinnen und Historikern, die ihrem Geschäft zwar digitally enhanced, aber nicht digitally inspired nachgehen. Es wird sich in den kommenden Jahren zeigen müssen, wie sich die Digital Humanities-Community als Ganzes und die digitalen Geschichtswissenschaften als Teilmenge zu dieser Zuweisung stellen. Jedenfalls möchte ich HTR als eine zukunftsweisende Perspektive der digitalen Geschichtswissenschaft verstehen, die einen entscheidenden Beitrag zur Generierung neuer Erkenntnisse durch die Volltext-Erschließung bislang kaum verfügbarer Quellen leisten kann.[26]
5. Visualisierungen und Netzwerkanalyse
Der Visualisierung von Informationen kommt übergreifend in der digitalen Geschichtswissenschaft inzwischen eine wichtige Bedeutung zu. Häufig können über Visualisierungen Sachverhalte verdeutlicht werden, die sonst nur schwer sprachlich umschrieben werden können, und da Computer die idealen Werkzeuge sind, um große Datenmengen zu visualisieren, bietet sich eine Verknüpfung geradezu an.[27] Neben den aus der deskriptiven Statistik bekannten Diagrammen haben die DH auch neue Formen der Visualisierung entwickelt bzw. für sich entdeckt, wie z. B. die nach Häufigkeit der vorkommenden Begriffe gewichteten Wortwolken und Graph-Diagramme.
Ein ähnliches Potential – allerdings auf einer anderen Abstraktionsebene – sehe ich in der historischen Netzwerkanalyse, deren aktuelle Methoden aus der sozialwissenschaftlichen Netzwerkanalyse (SNA) entliehen sind und mit der sich neue Einsichten in soziale Beziehungsstrukturen gewinnen lassen, die aufgrund ihrer Komplexität früheren Forschergenerationen grundsätzlich verschlossen blieben. Nicht zuletzt aus diesem Grund einer qualitativen Neubewertung von seriellen prosopographischen Quellen findet diese Methode immer breitere Akzeptanz in den Geschichtswissenschaften.[28] Visualisierungswerkzeuge wie Gephi und nodeXL ermöglichen einen relativ leichten Einstieg in diese Forschungsmethode.[29] Vor allem sozial- und wissenschaftsgeschichtliche Fragestellungen werden damit erfolgreich untersucht.[30]
Historische Netzwerkanalyse findet ihren Ausgangspunkt in der Graphtheorie der Mathematik. Man unterscheidet Verfahren zur Zentralitätsberechnung, Dichte und Cliquenanalyse von sozialen Netzwerken. Das Zentralitätsverfahren zielt darauf ab, die wichtigsten Akteure in einem Netzwerk zu identifizieren. Es können Gradzentralität, Zwischenzentralität und Nähezentralität von Akteuren und der Richtung der Beziehung berechnet werden. Unter Dichte (definiert als das Verhältnis der vorhandenen Beziehungen zur Anzahl maximal möglicher Beziehungen) versteht man ein Maß zur Charakterisierung der Aktivität von Netzwerken oder Netzwerkteilen. Die Cliquenanalyse schließlich versucht Netzwerke in Teilgruppen zu zerlegen und diese zu identifizieren. Die eigentliche Bedeutung dieser Analyseform liegt darin, zu einer graphentheoretischen Formalisierung des Konzepts der ›sozialen Gruppe‹ zu gelangen.
Die Methode ermöglicht es gerade bei größeren Netzwerken sowohl Anregung zu geben als auch grundsätzlich neue Erkenntnisse zu generieren. Als vielleicht prominentestes Beispiel für den Einsatz der Netzwerkanalyse zur Beschreibung der sozialen Beziehungen in der Wissenschaftsgeschichte der Aufklärung kann auf das Projekt »Republic of Letters« an der Universität Stanford verwiesen werden.[31] Dort wurde unter anderem das Netzwerk der transatlantischen Briefkontakte im 18. Jahrhundert untersucht, wobei sich z.B. die Briefkontakte von Benjamin Franklin als außerordentlich breit gefächert erwiesen.[32]
Die Visualisierung von Netzwerken kann nicht nur neue Erkenntnisse über Personen, Gruppen und ihre Beziehungen generieren, sie kann auch schön aussehen. Mit Javascript Frameworks wie Sigmajs lassen sich die Graphen wunderbar in Szene setzen.[33] Stellvertretend sei hier das Beispiel eines Netzwerks der Korrespondenz von Mitgliedern des Internationales Instituts für geistige Zusammenarbeit von 1926–1946, einer internationalen Organisation zur Förderung des wissenschaftlichen und intellektuellen Austauschs, der Vorgängerinstitution der heutigen UNESCO, präsentiert, das von Martin Grandjean aus den Daten des Archivs der UNO in Genf realisiert wurde.
Es bleibt zu hoffen, dass diese neuen, auf Graphen basierenden Methoden noch stärker in der aktuellen historischen Forschung rezipiert werden und auch Eingang in die historisch-hilfswissenschaftlichen Curricula finden – also innerhalb des Fachs Geschichte und auch im Rahmen von Digital Humanities Studiengängen.[34]
6. Semantische Technologien
Ich komme zum dritten Bereich der digitalen Geschichtswissenschaften, von dem ich neue Erkenntnisse aus Daten erwarte, die uns häufig schon sehr lange vorliegen, aber bislang noch nicht miteinander verknüpft werden konnten. An den Kern der täglichen Arbeit von Historikern, der Bedeutungszuweisung von dem, was sozusagen am Ende des Tages übrig bleibt und Geschichte wird, reicht die semantisch orientierte Forschung in ihren verschiedenen Spielarten heran. Ich möchte hier nur zwei Projekte besonders erwähnen, die stellvertretend für eine Vielzahl anderer Initiativen und Lösungen stehen.
Die Frankfurter DH-Projekte von Bernhard Jussen und Alexander Mehler zur computergestützten Historischen Semantik (CompHistSem) und Historical Semantics Corpus Management (HSCM) haben sich einer Historischen Semantik des Mittelalters mit Blick auf die politische Sprache dieser Zeit verschrieben.[35] Dabei stehen lateinische Texte und ihre korpuslinguistische Aufbereitung für eine semantische Analyse im Mittelpunkt. Es gibt momentan wohl kaum ein anderes Projekt der digitalen Geschichtswissenschaften in Deutschland (die alte Geschichte sei hier einmal ausgeklammert), in dem so erfolgreich Computerlinguistik bzw. Informatik und Geschichtswissenschaft auf höchstem Niveau miteinander kooperieren. Ursprünglich als LOEWE-Projekt durchgeführt hat die schon über 10 Jahre währende Zusammenarbeit inzwischen Arbeitsinstrumente hervorgebracht, die sich außerordentlich gut für die Beantwortung von Fragen diachroner Semantik des mittelalterlichen Lateins eignen. Quantitative Analysen auf der Basis von lemmatisierten Texten ermöglichen z.B. die Beobachtung von semantisch relevanten Gebrauchsverschiebungen; das geschieht in einer komfortablen Umgebung (dem eHumanities desktop), die in vielen Aspekten der Idee einer virtuellen Forschungsumgebung für Mediävisten schon recht nahekommt.[36] Als Beispiel für ein Ergebnis dieses Projekts möchte ich eine interessante Visualisierung einer Kollokationsanalyse des Nomens lat. »rex« = König in Texten des HSCM Korpus (Patrologia Latina +) zeigen. Manuel Braun und Florian Heimerl vom Stuttgarter Institut für Visualisierung und Interaktive Systeme haben eine Anwendung entwickelt, die es erlaubt, Abfragen über HSCM in eine interaktive stacked area chart umzusetzen. Für die Historische Semantik stellt dies ein heuristisches Instrument dar, welche es erlaubt, gemeinsame Vorkommen von Worten im grammatikalischen Nahbereich abzubilden.
Ein gerade erst gestartetes Projekt scheint mir ebenfalls auf gutem Wege über die Extraktion von semantischen Informationen aus seriellen Quellen neue Erkenntnisse über die Wirtschafts- und Sozialgeschichte des Mittelalters zu generieren. Hinter dem Akronym MEDEA verbirgt sich ein Projekt zur Edition und semantischen Annotation mittelalterlicher Rechnungsbücher.[37] In einer ersten Phase wird das semantische Markup in einer Kooperation zwischen Wirtschafts- und Sozialhistorikern sowie digitalen Geschichtswissenschaftlern und Informatikern entwickelt, aus dem dann in einer verteilten Struktur die Quellen zentral zugänglich gemacht werden sollen.
Im Rahmen des Konzepts eines Semantic Web auf Grundlage von maschinenlesbaren Beschreibungen von Ressourcen rücken auch die Möglichkeit der künstlichen Intelligenz und des automatisierten reasoning zumindest theoretisch in erreichbare Nähe. In der Realität wird die Extraktion impliziten Wissens aber in den Geschichtswissenschaften bislang kaum genutzt. Immerhin bringt das gemeinsame Datenformat die Möglichkeit mit sich, Informationen in neuer Weise miteinander automatisiert zu verknüpfen und so neue Zusammenhänge aufzudecken.[38]
Linked Data kann heute schon aktiv genutzt werden, um digitale Ressourcen miteinander zu verknüpfen und damit Zusammenhänge evident zu machen, die bislang erst nach serieller Rezeption im Kopf des oder der Forschenden entstanden. Mit sog. Mashups können so qualitativ neue Ergebnisse aus schon in standardisierten Datenformaten digital vorliegenden Informationen gewonnen werden, die das Potential besitzen, bislang unbekannte Zusammenhänge sichtbar(er) werden zu lassen.[39] In diesem Kontext spielen Verknüpfungspunkte wie die Normdaten zu Personen und Orten aber auch die von der Wikimedia-Foundation gesammelten und kuratierten Daten als (vereinfachtes) Konzept des Weltwissens eine entscheidende Rolle. Gerade dem Wikidata-Projekt könnte dabei in Zukunft eine besondere Rolle als Link-Hub für die Geschichtswissenschaften zukommen.[40] Das dort gesammelte Wissen ist relativ stabil, die Ressource etabliert, und es stehen Daten zur Verfügung, die viele Bereiche des historischen Erkenntnisinteresses abbilden. Wenn Semantic Web irgendwann funktionieren wird, dann werden Normdaten und Wikidata darin sicher eine zentrale Rolle spielen.
7. Zusammenfassung und Ausblick
Während mit computerlinguistischen und auf Statistik beruhenden Methoden in der Verarbeitung natürlicher Sprache interessante neue Ergebnisse erzielt und zumindest neue Forschungsfragen aufgeworfen wurden (Autorschaftszuweisungen, Plagiatserkennung etc.),[41] scheint die digitale Geschichtswissenschaft jenseits der Computerlinguistik bislang recht konventionell zu operieren. Die Mehrzahl der Angebote für die historische Forschung konzentriert sich auf digitale Quellensammlungen, Bibliographien und Editionen, die mithin den klassischen Forschungsprozess erleichtern und das Auffinden von relevanten Informationen beschleunigen sollen. Die AG Digitale Geschichtswissenschaft des Verbands der Historikerinnen und Historiker Deutschland (VHD) hat sechs Domänen identifiziert, die das Gebiet näher umschreiben: Digitale Editionen und Nachschlagewerke, Digitale Fachinformation und Datenqualität, Digitale Fachkommunikation und Vernetzung, Digitale Werkzeuge und geschichtswissenschaftliche Methoden, Qualifizierungswege in der digitalen Geschichtswissenschaft sowie virtuelle Forschungsumgebungen. Als besonders relevant für die Forschung möchte ich zum einen die Werkzeuge und Forschungsumgebungen sowie zum anderen die Editionen und die summarisch als Nachschlagewerke und Fachinformation bezeichneten Informationsquellen betrachten. Ich hoffe mit den obigen Beispielen gezeigt zu haben, dass die Bandbreite der Möglichkeiten digitaler Geschichtswissenschaft größer ist, als dies manchmal in der etablierten historischen Forschung wahrgenommen wird. Neben der Bereitstellung neuer, bislang noch nicht transkribierter handschriftlichen Quellen im Volltext bieten Netzwerkanalyse und semantische Technologien Möglichkeiten qualitativen Erkenntnisgewinns, der ansonsten aufgrund der schieren Informationsmasse für menschliche Interpreten nicht zu bewältigen wäre. Es ist aber auch deutlich geworden, dass eine ganze Reihe von Forschungsszenarien noch nicht oder nicht effektiv mit digitalen Methoden, die über Zettelkästen und Information Retrieval hinausgehen, unterstützt werden können.
Informationszentrierte Fächer wie die Geschichtswissenschaft benötigen spezifische Tools und Analysemethoden, die sich nur zum Teil mit den Werkzeugen der Digital Humanities decken. Die stärksten Verbindungen liegen im Bereich der Edition, wo sich die digitale Geschichtswissenschaft mit den Philologien die TEI und die X-Technologien als Plattform für die digitale Publikation teilen. Im Bereich der Korpora können auch andere Werkzeuge (z.B. Vektrorraummodelle, Kollokations- und Kookkurrenzanalysen und Anwendungen wie Topic Modeling, Autorschaftserkennung, Text Mining[42] u.ä.) eine Rolle spielen, allerdings existieren bislang kaum entsprechend aufbereitete Korpora, die momentan einen erfolgreichen Einsatz dieser Werkzeuge erlauben würden.[43] Die Zurückhaltung weiter Bereiche der Geschichtswissenschaft hinsichtlich der Verwendung von Werkzeugen der Digital Humanities mag also nicht nur in einer Skepsis hinsichtlich methodischer Neuerung begründet sein, sondern vielmehr auch in der fehlenden ›Passung‹ dieser Werkzeuge auf die Bedürfnisse und vorherrschenden Fragestellungen in den Geschichtswissenschaften.
Zu Beginn habe ich Thomas Thiel aus der FAZ zitiert, der konstatiert, dass Historiker sich langsam in Richtung Mustererkennung aus großen Datenmengen, aus Big Data also, bewegen. Es ist nun an uns, dieses Interesse und diese Bewegung weiter auszubauen und die digitalen Geschichtswissenschaften z.B. im Bereich der Netzwerkanalysen, der graphbasierten Analyse sozialen Verhaltens, bei den historischen Hilfswissenschaften und mit Ansätzen des Semantik Web und der künstlichen Intelligenz so weiterzuentwickeln, dass überzeugende und innovative Forschung mit neuen Erkenntnissen daraus erwachsen kann.