Topic Modeling für die Geschichtswissenschaft

Möbus, Dennis; Bayerschmidt, Philipp; Hodel, Tobias; Serif, Ina

doi:10.17175/wp_2026b

Views

422

Downloads

Open Public Peer Review

Kategorie

Working Paper

Version

1.0

17.06.2026

422 Aufrufe

Dennis Möbus

Philipp Bayerschmidt

Tobias Hodel

Ina Serif

DOI: 10.17175/wp_2026b

Nachweis im OPAC der Herzog August Bibliothek: 1965738915

Erstveröffentlichung: 17.06.2026

Lizenz: CC BY-SA 4.0, sofern nicht anders angegeben.

Letzte Überprüfung aller Verweise: 20.03.2026

Empfohlene Zitierweise: Dennis Möbus / Philipp Bayerschmidt / Tobias Hodel / Ina Serif: Topic Modeling für die Geschichtswissenschaft (= Zeitschrift für digitale Geisteswissenschaften / Working Papers, 5). Wolfenbüttel 2026. 17.06.2026. HTML / XML / PDF. DOI: 10.17175/wp_2026b

Abstract

Das Working Paper untersucht die Anwendung von Topic Modeling in den Geschichtswissenschaften mit Fokus auf der praxisorientierten Reflexion des gesamten Arbeitsprozesses. Im Zentrum stehen Preprocessing und Topic Estimation. Es wird gezeigt, dass gängige Evaluations-Metriken für letztere keine aussagekräftigen Ergebnisse liefern. Daher wird ein ›Human-in-the-Loop‹-Ansatz vorgestellt, der mit Scalable Readings zwischen Wortlisten und korrespondierenden Textpassagen wechselt. Darüber hinaus werden klassische LDA-Modelle mit neueren Verfahren wie BERTopic verglichen und deren Stärken und Schwächen diskutiert. Die Autor*innen plädieren für eine methodenkritische Anwendung von Topic Modeling, die quellenkritische und hermeneutische Ansätze umfasst. Dies eröffnet neue Möglichkeiten für die historische Forschung, insbesondere bei heterogenen, umfangreichen Quellen wie mittelalterlichen Handschriften, Verwaltungsdokumenten des 19. Jahrhunderts oder zeitgeschichtlichen Oral-History-Quellen.

This working paper explores the application of topic modeling in historical research, concentrating on methodological and practical challenges. A central focus lies on preprocessing and topic estimation. It is shown that common evaluation scores do not yield meaningful results for the latter. Thus, we propose a ›human-in-the-loop‹ approach which switches between word lists and corresponding text passages via scalable readings. In addition, the paper compares classical LDA models with more recent approaches such as BERTopic. Both approaches have strengths and limitations, suggesting a complementary relationship. Overall, the authors advocate a critical, methodologically informed use of topic modeling, which closely integrates hermeneutic and source-critical approaches. This provides historians with powerful tools for analyzing vast or heterogeneous sources, including medieval manuscripts, 19th-century administrative records, and 20th-century oral history interviews.

1. Einleitung
2. Von Quellen zu Korpora und Daten
- 2.1 Topic Modeling: Funktionsweise und Implementierung
- 2.2 Korpora
3. Preprocessing: Texte auf- und vorbereiten
4. Weitere Optimierung: Chunking und Random Seeds
5. Schätzung der optimalen Anzahl von Themen
6. LDA und vektorisiertes Topic Modeling im Vergleich
- 6.1 Einführung
- 6.2 Anwendung
7. Resumé
Bibliografie
Weiterführende Literatur
Abbildungs- und Tabellenverzeichnis

1. Einleitung

[1]Auch wenn sich manche Historiker*innen mit eher klassischen hermeneutischen Zugängen zur Analyse ihrer Quellen lange Zeit unbeeindruckt von Big Data zeigten, hat sich in den letzten Jahren eine historische Data Science entwickelt. Angesichts der stetig wachsenden Zahl digitaler (Text-)Quellen sind neue Heuristiken zum Erfassen, Messen und Analysieren historischer Daten gefragt.‍[1] Eine weit verbreitete Methode, die auf (historische) Texte angewendet werden kann und auch von Nicht-Datenwissenschaftler*innen genutzt wird, ist Topic Modeling. Dabei handelt es sich um eine Methode des maschinellen Lernens (ML), die Wortgruppen (bezeichnet als ›Topics‹) aus großen Textkorpora extrahiert, um den Inhalt dieser Dokumente zu indizieren. Der Vorteil einer solchen Informationsextraktion ist, dass riesige Textsammlungen mit Millionen von Wörtern in kurzer Zeit indexiert und verarbeitet werden können. Die daraus resultierenden thematischen Cluster stellen eine induktive Alternative zur deduktiven Suche nach isolierten Begriffen dar. Die oft zeitraubende und ermüdende Praxis des Querlesens zum Aufbau eines Samples kann so umgangen oder ergänzt werden.

[2]Dieses Working Paper widmet sich zunächst dem komplexen und zum Teil umstrittenen Preprocessing (Kapitel 3), das die Ergebnisse des Topic Modelings maßgeblich und deutlicher als das Parametertuning beeinflusst bzw. die Anwendung von Topic Modeling überhaupt erst ermöglicht. Die hier ausführlich dokumentierten Schritte umfassen Normalisierung (Lower Casing, Lemmatisierung) und Cleaning (die Entfernung von Interpunktion und Stopwords, Pruning). Ein eigenes Kapitel (4) ist dem Chunking, also dem Aufteilen großer Dokumente in kleinere Abschnitte, gewidmet. Anschließend (Kapitel 5) wird die Topic Estimation in den Blick genommen, um herauszufinden, wie viele Topics in einem Korpus (unterschiedlicher historischer Quellen) überhaupt vertreten sind. Dazu werden verschiedene Metriken korreliert und nach dem Finden eines oder mehrerer optimaler Werte Topic-Listen manuell evaluiert. Am Ende des Kapitels wird auf Grundlage eines der drei untersuchten Korpora ein weiteres Parametertuning dokumentiert, bevor im letzten Kapitel(6) der auf Latent Dirichlet Allocation (LDA) basierende Ansatz mit vektorisierten / neuronalen Methoden des Topic Modeling, repräsentiert durch BERTopic, verglichen wird.

[3]Entsprechend beschränkt sich das Working Paper auf zwei Ansätze: den jahrelang gültigen Quasi-Standard LDA und die vektorbasierte Themenextraktion mit Sprachmodellen, hier anhand von BERTopic demonstriert, die zur Zeit einige Popularität genießt. Es existieren auch andere Topic-Modeling-Ansätze, diese werden aber basierend auf dem erarbeiteten Forschungsstand aus unserer Sicht weniger häufig verwendet.‍[2] In Vorarbeiten zu den hier vorliegenden Darlegungen sowie in einem früheren Paper konnte bereits demonstriert werden, dass die Mallet-Implementation von LDA aufgrund des verwendeten Gibbs-Sampling als Inferenzalgorithmus der Gensim-Implementierung – zumindest für historische Quellen – überlegen ist.‍[3]

[4]Die abschließenden Ergebnisse nach der Topic Estimation werden in einem Wechsel zwischen Distant und Close Readings (Scalable Readings), d. h. einer quantitativ gestützten Lektüre, analysiert. Das dient der Validierung des Topic Models und der quellenkritischen Auseinandersetzung mit dessen Ergebnissen, indem diese in die analysierten Texte zurückverfolgt werden (human in the loop).

[5]Die Daten, die dieser Analyse zugrunde liegen, sind drei sehr unterschiedliche historische Textkorpora: spätmittelalterliche Sammelhandschriften, Zürcher Regierungsratsbeschlüsse aus dem 19. Jahrhundert und biographische Interviews aus den 1980er Jahren. Durch die Verwendung von drei verschiedenen Korpora soll einerseits gezeigt werden, wie Preprocessing und Topic Estimation zu unterschiedlichen Ergebnissen für die einzelnen Korpora führen. Andererseits ermöglicht der Ansatz eine kritische und vergleichende Betrachtung der Bearbeitung sehr unterschiedlicher historischer Fragestellungen mit Hilfe von Topic Modeling.‍[4]

2. Von Quellen zu Korpora und Daten

[6]Die historische Forschung beschäftigt sich typischerweise mit Quellen, weniger mit Korpora und – außer in der Wirtschaftsgeschichte – selten mit Daten. Diese terminologischen Aspekte zeigen bereits, dass die Transformation von analogen Quellen zu digitalen Daten mit gewissen erkenntnistheoretischen Herausforderungen verbunden ist. Aus einer Quellensammlung wird ein mehr oder weniger kohärentes Textkorpus, das für die weitere Berechnung – in unserem Fall für die sogenannte Topic-Extraktion – weiterverarbeitet werden muss. Im folgenden Teil beschäftigen wir uns mit den theoretischen Grundlagen von Topic-Modeling-Ansätzen sowie mit der Aufbereitung der Korpora, die für unser Vorgehen verwendet wurden.‍[5]

2.1 Topic Modeling: Funktionsweise und Implementierung

[7]Topic Modeling ist ein methodischer Ansatz, um Themen aus Texten zu extrahieren. Dabei handelt es sich jedoch nicht um eine feste Methode, die in einem einzigen Algorithmus abgebildet wird, sondern es haben sich in den letzten 20 Jahren zahlreiche Ansätze etabliert, um Topic-Modelle zu berechnen. Diese reichen von Latent Semantic Analysis (LSA), in welcher die Verteilung der vorkommenden Wörter in Dokumenten über Cosinus-Ähnlichkeiten zur Berechnung von Dokumentenähnlichkeiten genutzt werden,‍[6] über probabilistische Verfahren wie Latent Dirichlet Allocation (LDA) bis hin zu vektor- und embeddingbasierten Clustering-Ansätzen, insbesondere mittels BERTopic.‍[7] Aktuell werden noch vorwiegend zwei Ansätze unter dem Begriff Topic Modeling verstanden und auch eingesetzt: LDA und Neural Topic Models bzw. vektorisierte Ansätze. Diese beiden sind damit die interessantesten Untersuchungsobjekte für die Beschäftigung im Anwendungsfall.

[8]Lange Zeit galt LDA als Quasi-Standard-Algorithmus für Topic Modeling. LDA ist eine probabilistische Methode des maschinellen Lernens, die zur Identifizierung und Extraktion von Themenfeldern in großen Textkorpora verwendet werden kann. Durch die Berechnung von Wahrscheinlichkeitsverteilungen werden Hypothesen generiert und iterativ verfeinert und verifiziert. Um genau zu sein: Annahmen über die Verbindungen zwischen Wörtern (a-priori-Wahrscheinlichkeit) werden durch ständig wiederholte Berechnungen dieser Verbindungen (a-posteriori-Wahrscheinlichkeit) verbessert. Die Methode zielt also darauf ab, zu erkennen, welche Wörter und Wortgruppen häufig zusammen mit anderen Wörtern und Wortgruppen auftreten (in der Computerlinguistik auch als Kookkurrenz bezeichnet).‍[8]

[9]Der Schlüssel zum Verständnis von LDA ist das Bag-of-Words-Modell: Die Reihenfolge der Wörter sowie sprachliche oder semantische Abhängigkeiten werden aktiv ignoriert, die Wörter müssen lediglich im selben Dokument vorkommen. Der Algorithmus iteriert fortwährend in tausendfacher Wiederholung über das Korpus, greift sich einen ›Sack‹ Wörter und berechnet so im Verlauf, welche davon unabhängig von ihrer Bedeutung korpusweit miteinander verwandt sind. Die Wörter werden also ohne semantisches Vorwissen alleine auf Grundlage von Wahrscheinlichkeitsrechnung zu Gruppen – den Topics – gebündelt.‍[9] Das bedeutet wiederum, dass solche Topics Wörter enthalten können, die semantisch nichts gemeinsam haben. Es bedeutet aber auch, dass Wörter, die ein*e Forscher*in als etwaige Suchbegriffe nicht im Sinn hatte, in den Listen auftauchen können, weil sie in der Nähe zu anderen, bekannten Begriffen stehen.

[10]Anhand der Topics kann analysiert werden, welche Teile des Korpus – d. h. welche Dokumente oder Abschnitte von Dokumenten – einen Anteil an bestimmten Topics haben. Eine große Errungenschaft der LDA ist in dieser Hinsicht, dass, anders als beim klassischen Clustering, Themenüberlagerungen in Dokumenten gefunden werden können, da für jedes Dokument das Gewicht eines jeden Topics berechnet werden kann.

[11]Angetrieben durch neuere Entwicklungen in der Generierung und Anwendung von Language Models, die auf Machine Learning basieren, haben sich mit BERTopic, word2vec und LDA2vec auch vektorbasierte Topic-Modeling-Verfahren etabliert.‍[10] Als umfangreichstes und prominentestes wird BERTopic mit in die vorliegende Analyse aufgenommen. Es handelt sich dabei um ein stark modularisiertes Paket für unterschiedlichste Topic-Modeling-Verfahren.

[12]Derzeit werden in den digitalen Geisteswissenschaften und der Informatik hauptsächlich drei Programmiersprachen für Topic Modeling verwendet: Python, das mit Gensim und BERTopic eine ›traditionelle‹ und eine vektorbasierte Bibliothek anbietet, Mallet, eine JAVA-basierte Implementierung für Topic Modeling, sowie spezielle R-Pakete. Alle drei Sprachen und die damit verbundenen Pakete sind in der Informatik und in den Geisteswissenschaften weit verbreitet. Es gibt ausgezeichnete Tutorials (z. B. Programming Historian)‍[11] sowie Implementierungen mit grafischen Benutzeroberflächen (z. B. DARIAH Topics Explorer)‍[12] für Forscher*innen ohne Programmiererfahrung.

2.2 Korpora

2.2.1 Erstes Korpus: Zürcher Regierungsratsbeschlüsse aus dem 19. Jahrhundert

[13]Die Regierungsratsbeschlüsse des Kantons Zürich stellen eine umfangreiche serielle Quelle dar, die durch Close-Reading-Verfahren kaum bewältigt werden kann. Die Einblicke in die Prozesse der Exekutive einer geographisch umfangreichen Verwaltungseinheit versprechen vielfältige Erkenntnisse zur ganzen Schweiz und des nahen Auslands während des 19. Jahrhunderts. Darüber hinaus legt der Blick in die Regierungs- und Verwaltungstätigkeit drängende Probleme und Aushandlungsformen offen und macht das Korpus so zu einem optimalen Untersuchungsgegenstand. Die Texte liegen bereits seit längerer Zeit als digitale Dokumente in maschinenlesbarer Form vor.‍[13]

[14]Die Reihe beginnt nach dem Ende der französischen Besatzung und der Helvetischen Republik 1803 und wurde handschriftlich bis 1898 fortgeführt. Sie enthält die schriftlichen Entscheide der Regierungsexekutive und deckt viele verschiedene Themen ab: von Infrastrukturprojekten über Entscheide zu Einbürgerungen und Ausweisungen einzelner Menschen bis hin zu Glückwünschen zur Geburt von königlichen Nachkommen in Nachbarstaaten. Insgesamt liegen mehr als 150.000 Entscheidungen vor. Die Dokumente sind alle in deutscher Sprache verfasst, wobei sich die Sprache im Laufe der Zeit verändert und nach und nach einer Norm zu folgen beginnt. Im Vergleich zum heutigen Deutsch lassen sich daher mehr Schreib- und Wortvarianten (›hujus‹ für ›diesjährig‹) finden, und bestimmte Schreibweisen unterscheiden sich immer noch (›bey‹ / ›bei‹, ›Theil‹ / ›Teil‹). Aus diesem Grund können bestehende Stopword-Listen für das Preprocessing (mehr dazu weiter unten) nicht verwendet werden. Gleichzeitig ist die Sprache stark formalisiert, sodass bestimmte Begriffe sehr häufig vorkommen (etwa ›Regierungsrat‹).

[15]Dank der Aufbereitung durch das Staatsarchiv Zürich stehen der Forschung Tausende von Zürcher Regierungsratsbeschlüssen über Volltextsuche zur Verfügung. Die wichtige Frage, welche Themen wann diskutiert wurden, lässt sich aufgrund der schieren Größe des Korpus nicht einfach beantworten. Sie ließe sich allenfalls umständlich durch die Suche nach den Häufigkeiten von Schlüsselwörtern klären, die vor einer solchen Analyse ermittelt werden müssten.

[16]Mit dem Korpus wird exemplarisch aufgezeigt, wie die immer umfangreicher werdenden Dokumentenserien der Frühen Neuzeit und des 19. Jahrhunderts thematisch bearbeitet werden können. Eine manuelle Durchsicht ist bei diesen Reihen nicht nur erschwert, sondern eigentlich unmöglich. Die naheliegende Konsequenz ist die Hinwendung zur computergestützten Informationsanalyse. Die Regierungsratsbeschlüsse des Kantons Zürich stellen eine solche Reihe dar, welche die Abläufe in der Exekutive einer Verwaltungseinheit im Verlauf des 19. Jahrhunderts zu erhellen verspricht.

2.2.2 Zweites Korpus: lebensgeschichtliche Interviews aus den 1980er Jahren

[17]Lebensgeschichte und Sozialkultur im Ruhrgebiet (LUSIR) war das erste große Oral-History-Projekt in Deutschland. Zwischen 1980 und 1988 wurden rund 300 biographische Interviews mit Arbeitenden, Angestellten sowie Funktionär*innen aus Gewerkschaften und Betriebsräten aus den großen Industriebetrieben des Ruhrgebiets geführt. Das ursprüngliche Forschungsinteresse galt den Faschismuserfahrungen und der Sozialkultur in der Kohle- und Stahlindustrie des Ruhrgebiets zwischen 1930 und 1980.‍[14] Die dabei entstandenen Quellen werden heute als analoge Tonbänder und digitale Kopien vom Archiv Deutsches Gedächtnis des Instituts für Geschichte und Biographie der FernUniversität in Hagen verwahrt.‍[15] In vergangenen und laufenden Forschungsprojekten wurden bereits zahlreiche Interviews transkribiert, sodass für das vorliegende Paper 167 Volltexte verwendet werden konnten.‍[16]

[18]Eine Laufzeit von bis zu acht Stunden pro Interview bedeutet zum einen eine enorme Textmenge, zum anderen enthalten die Stegreiferzählungen der Interviewten Abschweifungen in die unterschiedlichsten Lebensbereiche – und damit Themen. Ein kursorischer Überblick oder eine einfache Suche nach Schlagwörtern ist aussichtslos, sodass Topic Modeling das Potenzial bietet, Inhalte aufzudecken, die manuell kaum wahrnehmbar sind, etwa Mikroerzählungen über Freizeittrends der 1950er Jahre oder erste Erfahrungen mit Computern im Büro. Solche thematischen Ausreißer sind zwischen den dominierenden Interviewpassagen zu ›Industriearbeit‹ und ›Faschismuserfahrungen‹ leicht zu übersehen.

2.2.3 Drittes Korpus: Spätmittelalterliche Chronikhandschriften

[19]Vormoderne Handschriften (gebundene Bücher) bestehen selten aus nur einem Werk, sondern enthalten oft mehrere Texte, die mitunter von verschiedenen Schreiber*innen und / oder Besitzer*innen über mehrere Jahre oder Jahrzehnte hinweg eingefügt wurden. Dabei wurden Texte nicht immer originalgetreu abgeschrieben, sondern oft gekürzt, ergänzt, sprachlich angepasst oder auf andere Weise verändert, sodass Forscher*innen mit zahlreichen Herausforderungen auf mehreren Ebenen konfrontiert sind, wenn sie versuchen, die Überlieferung eines bestimmten Werkes zu rekonstruieren: Nicht nur sind manche Textveränderungen so radikal, dass sich die Frage stellt, ob eine solche veränderte Abschrift nicht bereits ein eigenständiges Werk ist, das einer gesonderten Analyse bedarf. Auch die Kombination verschiedener Texte in einer Handschrift hat Einfluss auf die jeweilige Lesart, sodass Gattungszuordnungen möglicherweise neu überdacht werden müssen – ein Bericht über Alexander den Großen erfüllte in einer Textgemeinschaft mit Heldensagen vermutlich eine andere Funktion als in seinem ursprünglichen Kontext als Teil einer Weltchronik. Solche Anpassungen deuten auf interessante Kopiervorgänge hin, können aber nur durch zeitaufwändiges Close Reading aufgedeckt werden, das selbst bei kleinen Korpora einen enormen Aufwand bedeutet. Laufende Fortschritte in der automatischen Handschriftenerkennung (HTR) eröffnen nun die Möglichkeit, solche heterogenen Dokumente wie mittelalterliche Sammelhandschriften mit mehreren Schreiber*innenhänden automatisch in ein maschinenlesbares Format zu bringen und weiter zu untersuchen.

[20]Die spätmittelalterliche Chronik des Straßburger Klerikers Jakob Twinger von Königshofen ist in knapp 130 Handschriften überliefert.‍[17] Während es sich bei etwa 30 um integrale Abschriften handelt, ist der Text in der großen Mehrheit der Codices auf verschiedene Weise verändert und häufig durch zahlreiche andere Fremdtexte ergänzt. Durch diese Mitüberlieferung von Texten kann die Migration von Handschriften sichtbar gemacht werden, obwohl unvollständige kodikologische Beschreibungen und nicht standardisierte Werktitel die Analyse erschweren. Nach der Anwendung von HTR kann Topic Modeling Verbindungen zwischen einzelnen Sammelhandschriften auf einer linguistischen Ebene aufdecken, die durch das Zählen von Worthäufigkeiten allein oder durch den Abgleich spezifischer Begriffe nicht sichtbar wären. Als Fallstudie wurden sieben Handschriften aus dem Korpus ausgewählt,‍[18] von denen vier neben der Chronik mehrere Texte gemeinsam haben oder sich hauptsächlich mit Ereignissen rund um die Stadt Konstanz befassen und in abhängigen Kopierprozessen entstanden sind.‍[19] Dieses Vorwissen hilft bei der Einordnung und Interpretation der Ergebnisse und bei den Überlegungen zur Anwendung von Topic Modeling auf größere Korpora mit nicht-standardsprachlichen Texten.‍[20]

3. Preprocessing: Texte auf- und vorbereiten

[21]Berechnet man ein Topic-Modell auf einem Korpus, das lediglich tokenisiert wurde – d. h., aus dem zusammenhängenden Dokument in Form eines Strings wurde anhand einer Whitespace-Split-Funktion eine Liste mit Wörtern erstellt –, erhält man nur minimale Spuren eines Themenfelds. Des Weiteren wird augenfällig, dass der Text erheblich bereinigt werden muss. Folgendes Topic stammt aus einem Modell, das auf dem unvorbereiteten Interviewkorpus trainiert wurde:

4 [-, Mhh., habe, nich., es, Ja, dINT_AVPe, du, sicherlich, Lager, (...)., man, also,, [räuspert, [hustet], d. h., Nö,, INT_AVPch, nich,, Äh,, dort, nö,, –, hab, Ja,, wurde, INT_AVPn, [—], Mal, ne, nämlich, zunächst, nö., IG, sich], gewählt, habe,, Essen, äh, SPD., Amerikaner, Metall, Kollegen, Kontakt, versucht, Mensch,, Anfang, Er, Also,, diskutiert]

[22]Interpunktion, die an den Wörtern ›klebt‹, muss ebenso entfernt werden wie nichtssagende Wörter (Partikel, Pronomen etc.) und disziplinspezifische Funktionswörter (hier etwa Sprecherkürzel wie ›INT_AVP‹). Groß- und Kleinschreibung sowie Flexion führen zu Redundanzen in den Topics.

[23]Alle drei Korpora müssen entsprechend – unabhängig davon, welchen Zeitraum sie abdecken oder wie umfangreich sie sind – aufbereitet werden, damit die Topic-Modeling-Algorithmen mit den Texten umgehen können. Diese Schritte werden als Preprocessing bezeichnet. Da es sich dabei um eine Manipulation der historischen Quellen handelt und im eigentlichen Sinn eine Anpassung des Inputs (also des Quelleninhalts) vorgenommen wird, ist Datenbereinigung /Data Cleaning seit einiger Zeit Gegenstand einer intensiven kritischen Diskussion in den digitalen Geisteswissenschaften.‍[21]

[24]Die für unsere Analysen durchgeführten Schritte sollten daher nicht als standardisierte Abfolge verstanden werden, die immer auf diese Weise ablaufen muss. Im Gegenteil sollte jeder Schritt des Preprocessings immer reflektiert und auf den Anwendungsfall angepasst werden.

[25]Folgende Schritte werden traditionell bei Topic Modeling zum Preprocessing gezählt:

Entfernung von Satzzeichen,
Umwandlung aller Zeichen in Kleinschreibung,
Entfernung von Stopwords,
Reduktion von Wortformen auf ihre Grundform (Lemmatisierung).

[26]Bei sehr langen Dokumenten kann es zudem sinnvoll sein, diese in kleinere Teile aufzuteilen, da zumindest LDA lange Texte nicht optimal verarbeiten kann und Dokumente mit ungleicher Länge die Analyse verzerren. Der dafür notwendige Schritt wird Chunking genannt.

[27]Die Konsequenzen dieser einzelnen Schritte lassen sich am einfachsten am konkreten Beispiel, das heißt, an den drei vorliegenden Korpora demonstrieren. Um die Auswirkungen der beschriebenen Preprocessing-Schritte nachvollziehbar zu machen, wird im Folgenden nicht nur aufgezeigt, welche Ergebnisse mit Topic Modeling bestenfalls erzielt werden können, sondern auch, inwieweit die Verfahren zu ›lesbareren‹ und vor allem interpretierbaren Ergebnissen führen. Alle Modelle zur Beurteilung der Preprocessing-Schritte wurden mit Mallet berechnet. Hierbei wurde zunächst von 20 Topics ausgegangen. Anschließend wurden 50 Optimierungsdurchläufe mit jeweils 500 Iterationen durchgeführt (dazu ausführlich in Kapitel 4). Mallet wurde gewählt, weil es zum einen die erste LDA-Implementierung war, zum anderen hat eine Vorstudie gezeigt, dass es auf historischen Korpora eine bessere Performance bietet als Gensim.‍[22] Ein Vergleich der verschiedenen Implementierungen (Mallet, Gensim, BERTopic) erfolgt in Kapitel 6.

3.1 Entfernen von Satzzeichen

[28]Verfahren, die – wie LDA – ohne Sprachmodelle arbeiten, verfügen über kein Sprachwissen und können Wörter nicht selbst identifizieren. Das heißt, was ein Wort ist, muss im Preprocessing für den Algorithmus eindeutig sein. Hingen Satzzeichen an Wörtern, weil diese üblicherweise in digitalen Texten nicht durch ein Leerzeichen getrennt werden, würden etwa alle Wörter, die an einem Satzende stehen, als andere Wörter gewertet werden als ihr Pendant ohne anhängendes Satzzeichen (›Ein schönes Erlebnis.‹ / ›Ein schönes Erlebnis war das.‹). Für eine vollständige Entfernung und nicht etwa ein Lösen der Satzzeichen vom davorstehenden Wort spricht, dass die isolierten Satzzeichen im Topic Modeling als eigenes Wort gezählt und nachher eigene Topics bilden oder andere verrauschen würden.

3.1.1 Interviews

[29]Die Entfernung von Interpunktion und sämtlichen Sonderzeichen im Interviewkorpus ergibt zwar ein optisch, aber nicht auch inhaltlich besseres Bild. Die einzige Spur deutet auf das Thema ›Arbeit‹ hin:

15 [der, war, ich, die, da, nicht, den, hab, waren, noch, von, ein, auch, und, mit, im, Ja, jetzt, dem, Ich, Da, weiß, bei, mehr, das, Der, ist, irgendwie, Betrieb, hat, Betriebsrat, wie, hatte, alles, oder, Essen, er, später, mal, Kollegen, worden, mich, für, damals, schon, Die, als, dabei, wieder, haben]

3.2 Kleinschreibung (Lower Casing)

[30]Die Umwandlung aller Zeichen in Kleinschreibung gehört zu den gängigen Preprocessingschritten. Topic-Modeling-Algorithmen, insbesondere LDA, funktionieren wie ein Vergleichsalgorithmus, der zwischen Groß- und Kleinschreibung unterscheidet: Das gleiche Wort, einmal groß- und einmal kleingeschrieben, würde als zwei unterschiedliche Wörter gewertet werden. Aus den drei Beispielsätzen ›Das wäre schön.‹, ›Wäre das schön?‹, ›Schön wäre das!‹ würde nicht ein Vokabular mit drei Wörtern erstellt, sondern mit sechs: ›Das, das, Wäre, wäre, Schön, schön‹.

[31]Die Kehrseite des Lower Casing ist, dass zwei unterschiedliche Wörter, von denen eines ein Nomen ist, nachher nicht mehr unterschieden werden können (›Die Kriege des 20. Jahrhunderts.‹ / ›Ich kriege die Krise.‹). Es ist letztlich eine Frage von Gewinn und Verlust und ggf. am Anwendungsfall zu prüfen, ob Lower Casing im jeweiligen Falle sinnvoll ist oder nicht.

[32]Bei Topic-Modeling-Ansätzen, die auf Sprachmodellen basieren, wie dies bei BERT der Fall ist, kann auf das Lower Casing verzichtet werden, weil die Groß- und Kleinschreibung in Sprachmodellen repräsentiert wird. Wie überall gibt es auch hier Ausnahmen; bei manchen Ansätzen mit Sprachmodellen wie z. B. BERT Lower cased wird nur mit Kleinbuchstaben gearbeitet.

3.2.1 Regierungsratsbeschlüsse

[33]Lower Casing ist insbesondere bei Wörtern hilfreich, deren Groß- bzw. Kleinschreibung diachron oder anderweitig im Korpus variiert. Aufgrund der fehlenden Normalisierung der deutschen Sprache kommt dies im Korpus der Regierungsratsbeschlüsse relativ häufig vor. Mit dieser Vorgehensweise werden auch Satzanfänge nicht separiert. Da im Korpus wenige Wörter sehr häufig vorkommen, reduziert und verbessert das Lower Casing somit die Anzahl der sehr häufigen Token.

3.2.2 Handschriften

[34]Nach Anwendung von Lower Casing (und der Entfernung der wenigen Satzzeichen) ergeben auch die Topics für die Chronikhandschriften noch ein sehr vages Bild:

4 [und, der, die, er, das, den, von, dem, mit, des, uff, im, als, nit, es, nach, man, sich, dar, sin, ander, ir, ist, wider, umb, sant, wie, kam, alle, noch, ich, da, sprach, tag, vil, aber, wol, gen, oder, gar, selben, hie, wan, stat, durch, doch, wolt, gottes, allen, disen]
17 [von, vnd, zu, sie, die, das, unnd, auch, der, den, da, vnnd, man, mit, vor, wart, wan, anno, dem, ine, bey, ein, viel, weyssenburg, widder, nit, eyn, des, din, gem, es, hett, uff, dag, warent, dan, statt, de, stat, im, doch, sein, als, wie, uf, alle, alles, wardt, sich, andern]

3.2.3 Interviews

[35]Bei den Interviews bringt das Lower Casing eine minimale Steigerung angedeuteter Themenfelder, weil Redundanzen herausgefiltert werden und so Platz für sinntragende ›Nachrücker‹ schaffen. Neben dem wenig veränderten Topic ›Arbeit‹ (11) zeichnet sich ein Topic zum ›Bergbau‹ (12) ab:

11 [der, ich, die, da, hmm, wir, den, sie, mal, jetzt, im, haben, bei, wie, sagen, wenn, dass, damals, ist, man, war, äh, zu, dann, betriebsrat, betrieb, kann, mich, mehr, waren, bin, kollegen, hier, als, sind, worden, gesagt, noch, auf, wieder, mit, ein, natürlich, heute, uns, wo, nur, zeit, dabei, muss]
12 [wir, man, das, die, dann, ja, und, der, haben, jetzt, da, wenn, ist, du, hat, es, sind, mal, dass, den, auch, immer, uns, war, oder, mit, aber, damals, noch, von, wieder, wo, zeche, auf, gesagt, heute, kann, bergbau, im, wie, waren, steiger, ich, gemacht, dort, oben, gehabt, diese, kohle, eigentlich]

3.3 Stopwords: Semantisch bedeutungslose Wörter entfernen

[36]Ein Schritt im Preprocessing, der umstrittener ist als die bislang behandelten Verfahren, ist das mögliche Entfernen von Stopwords. Da beim Topic Modeling nicht nur das gemeinsame Wortvorkommen, sondern auch die Worthäufigkeit gemessen wird, erscheinen hochfrequente Wörter auch häufig in Topics. Dies erschwert die Interpretation und das Verständnis von Topics als thematische Felder, da es sich bei den hochfrequenten Wörtern meist um Funktionswörter handelt, die allenfalls bedingt bedeutungstragend sind. Durch deren Entfernung wird eine höhere Konsistenz der Topics und damit auch eine Erleichterung bei der inhaltlichen Analyse angestrebt. Der Ausschluss wird am zuverlässigsten über eine Auflistung der Wörter in einer sogenannten Stopword-Liste nachvollziehbar gemacht – auf alternative Varianten wird weiter unten eingegangen.

[37]Aus einer erkenntnistheoretisch-hermeneutischen Perspektive stellt sich die Frage, wie die Bedeutung von Textelementen identifiziert wird und welche Kriterien man dabei anwendet, d. h. auf welche Annahmen man das Data Cleaning stützt. Hier ist die Forschungsfrage von großer Bedeutung, denn sie beeinflusst die Entscheidung, ob eine Zeichenkette a priori als Stopword zu betrachten ist oder ob ihre Bedeutung erst im Nachhinein durch den Kontext sichtbar wird. Begriffe wie ›Mann‹ und ›Frau‹ sind äußerst häufig und sehr allgemein, können aber auf Gender-Aspekte aufmerksam machen, wenn sie im Korpus enthalten bleiben. Entsprechend können beide Begriffe, je nach Forschungsfrage, hochgradig aussagekräftig oder obsolet sein für die Interpretation der Topic-Cluster.

[38]Für viele moderne Sprachen existieren spezifische Stopword-Listen, die für das Preprocessing genutzt werden können. Für das hier behandelte Korpus lebensgeschichtlicher Interviews waren vorhandene Listen jedoch nicht geeignet, da die Quellen dialektale Wortformen enthalten. Ebenso wie für Dokumente mit formelhaftem Charakter, wie die Regierungsratsbeschlüsse, sind hier gut kuratierte Listen sinnvoll. Bei vormodernen Quellen ist die Situation noch schwieriger, da es keine einheitliche Schreibweise für Wörter und Wortformen gibt, entsprechend werden die Zeichenketten häufig mehrfach in ähnlicher Schreibung (jedoch als distinkt, unterschiedlich verstandene Wörter) in ein Topic aufgenommen.

[39]Die Stopword-Bereinigung erfolgt in einem einfachen Vorgang. Die Wörter in den Stopword-Listen werden in den zugrundeliegenden Korpora in einer iterativen Schleife automatisch gesucht und für die weitere Verarbeitung entfernt.

[40]Dennoch ist die Anwendung problematisch, da die Listen, wie oben beschrieben, individuell auf die Korpora angewendet werden. Dieser Filterprozess greift für die nachfolgende Generierung der Topics massiv in den Inhalt der Quellen ein. Im Sinne einer transparenten und reproduzierbaren Forschung sollten Stopword-Listen daher ebenfalls separat oder mit dem Paper veröffentlicht werden. Nur so wird hinreichend nachvollziehbar, wie die Ergebnisse zustande gekommen sind und inwieweit dadurch in die Quellen bzw. in die Datengrundlage, die eine Quelle repräsentiert, eingegriffen wurde. Die hier verwendeten Listen sind zusammen mit zwei der drei Korpora zugänglich und können bearbeitet, wiederverwendet oder für eine eigene Analyse ignoriert werden.

[41]Neben dem Ausschluss bestimmter Wörter über die Listen gibt es die Möglichkeit, sehr häufig vorkommende Wörter über einen Schwellenwert (Threshold) zu entfernen. Eine undefinierte Äußerung wie ›mmh‹ taucht häufig in transkribierten Interviews auf und der ›Regierungsrat‹ wird in fast jedem Eintrag seines Protokolls erwähnt, ohne dass einem Topic hierdurch viel oder überhaupt Bedeutung hinzugefügt würde. Beide Ansätze, sowohl die Nutzung einer Stopword-Liste als auch der Ausschluss von hochfrequenten Wörtern, müssen jeweils korpusspezifisch angewendet und iterativ getestet werden.‍[23]

[42]Ein letzter, artverwandter Eingriff, der mit beiden Herangehensweisen kombiniert werden kann, ist die Definition von Mindest- und Maximalwortlängen, um Partikel, Indizes von Aufzählungen oder Fehler in den Transkripten auszuschließen. Gerade im Umgang mit automatisch prozessierten Texten, die beispielsweise aus der Texterkennung kommen, finden sich häufig Relikte und falsch identifizierte Zeichen. Um nicht ein einzelnes Topic bestehend aus solchen eher zufälligen Zeichen zu generieren, können diese gelöscht werden. Im Korpus der mittelalterlichen Handschriften führt dies dazu, dass alle ›Wörter‹, die nur aus einem Zeichen bestehen, entfernt werden. Das ist semantisch nicht ganz ungefährlich, da etwa das Wort ›ê‹ entfernt wird, das als Substantiv (›Ehe‹) und in adverbialer Bedeutung vorkommt.‍[24] Auf die Möglichkeit, spezifisch für ›ê‹ / ›e‹ einen Suchlauf durch alle Dokumente zu machen, um das Adverb vom Substantiv zu unterscheiden und nur ersteres für die folgenden Analysen zu entfernen, wurde jedoch verzichtet, weil dies für andere, mehrkettige Homonyme nicht gemacht wurde.‍[25]

[43]Die Entfernung von Stopwords hat sich nicht zuletzt wegen begrenzter Rechenkapazitäten als gängiges Vorgehen etabliert. Seit wenigen Jahren können unsupervisierte maschinelle Lernverfahren aufgrund von höherer Rechenleistung aber verbessert unterstützt und entsprechend reibungsloser durchgeführt werden; dies hat die Diskussion um die Entfernung von Stopwords neu entfacht und Alexandra Schofield, Måns Magnusson und David Mimno (letzterer einer der ›Erfinder‹ von LDA) argumentieren mittlerweile für die Beibehaltung von Stopwords und ein ›Ausblenden‹ erst bei der Interpretation der Resultate.‍[26]

3.3.1 Regierungsratsbeschlüsse

[44]Das Stopword Removal ist essentiell für die Auswertung der Regierungsratsbeschlüsse, unabhängig davon, ob eine Lemmatisierung erfolgt (die Lemmatisierung wird weiter unten behandelt). Eine Vielzahl von Wörtern (man denke an ›Zürich‹, ›Regierungsrat‹ oder ›Beschluss‹) tritt in praktisch jedem der Dokumente auf. Dementsprechend sind die Token auch in fast jedem Topic zu finden, was die Identifikation der Dokumentencluster merklich erschwert. Auch nach Entfernung von Stopwords finden sich noch diverse Token, die in einer Vielzahl von Beschlüssen auftauchen. Dadurch wird es schwierig, den Themenfeldern eine inhaltliche Ausrichtung zuzuschreiben.

48 [bericht, beschloßen, hoch, derselbe, anhörung, behörde, welch, mein, erstatten, weisung, seyn, beauftragen, laßen, obern, antrag, seye, commißion, zwey, klein, anzeigen, statt, gegenwärtig, regierung, berichtes, deßen, hingegen, erforderlich, rath, uhherren, beschluß]

[45]Ein zusätzliches Problem entsteht durch das Vorkommen von Verben oder anderen Wortformen, die nicht mehr gebräuchlich sind (v. a. aus der ersten Hälfte des Korpus bis etwa 1850). Damit sind zwei Konsequenzen verbunden, wenn diese nicht entfernt werden. Erstens werden die Themen faktisch zweigeteilt, da die veraltete Verbform als zugehörig identifiziert wird. Zweitens entstehen mehrfache Cluster mit ähnlichen Inhalten, jeweils mit neuer und alter Form. Die Aussagekraft der Resultate ist damit reduziert.

37 [danken, mein, alle, allgemein, wichtig, bezeugen, sorgfältig, regierung, kräftig, bemühungen, krankheit, viel, sorgfalt, besonders, zufriedenheit, unterstützung, sämtlich, kanton, lieb, eifer, gut, kantons, öffentlich, unsers, ich, treue, verordnung, vergnügen, thun, august]

[46]Im Vergleich zwischen der Entfernung hochfrequenter gegenüber spezifischer Stopwords schwingt wiederum die zielgerichtete Stopword-Liste oben aus, da die Verteilung der unterschiedlichen Token noch konzentrierter ist als in anderen Korpora: Ganz wenige Token treten enorm häufig auf. Auch nach der Entfernung der 0,5 % häufigsten Token findet sich entsprechend eine Vielzahl von Wörtern, die als bedeutungslos für die historische Auswertung verstanden werden müssen. In jedem Fall wurde entsprechend mit manuellen Stopword-Listen gearbeitet.

3.3.2 Handschriften

[47]Auf den mittelalterlichen Handschriften wurden beide Vorgehen – Threshold und Stopword-Liste – getestet. Während auch bei Texten in standardisierter Sprache bestehende Stopword-Listen nicht unbesehen genutzt werden sollten, stellen sie Forscher*innen bei der Analyse vormoderner bzw. dialektal geprägter Texte vor ein weiteres Problem: Hier existieren einerseits auch Listen,‍[27] andererseits sind sie wegen der großen Varianz an Schreibungen in vormodernen Texten kaum direkt anwendbar. Zwar werden beispielsweise für das Mittelhochdeutsche verschiedene Schreibungen eines Wortes integriert; durch große Unterschiede zwischen den verschiedenen deutschen Dialekträumen können diese aber kaum alle Wortformen abdecken.‍[28] Spezifische Listen für Früh- oder Spätmittelhochdeutsch fehlen wiederum vollständig. Eine weitere, mitunter zeitintensive Bearbeitung und Ergänzung der Stopword-Liste ausgehend vom jeweiligen Korpus ist daher unumgänglich.‍[29] Die Ergebnisse der beiden Vorgehen unterscheiden sich bisweilen deutlich.

[48]Das Topic bezüglich der Chronik der Stadt Weißenburg, das in einer Handschrift [Hei2] vorkommt, wird nach dem Entfernen der Wörter, die einen Anteil von 0,5 % oder mehr im Korpus haben, minimal deutlicher, mit »stat« / »statt« für ›Stadt‹ und »anno« als Hinweis auf datierte Einträge, wie sie für Chroniken typisch sind:

Stopwords < 0,5

19 [vnd, zu, sie, unnd, auch, da, man, vnnd, nit, des, vor, wan, wart, es, im, anno, ine, als, sich, ein, bey, viel, alle, weyssenburg, widder, wie, eyn, gem, hett, din, warent, doch, stat, dag, dan, statt, aber, nach, de, alles, sein, wol, ander, umb, uf, wardt, inn, wurdent, andern, sant]

[49]Setzt man den Threshold auf < 0,25 (wodurch Wörter mit einem Vorkommen von mindestens 0,25 % entfernt werden), fehlt das Topic; ebenfalls bei einem Threshold < 0,05. Bei einem Wert von < 0,01 (bei dem nur Wörter in das Topic Modeling einbezogen werde, die weniger als 0,01 % Anteil am Korpus haben) hingegen wird das Topic etwas deutlicher, das neu hinzugekommene »ite[m]« verweist auf ein chronikalisches Element, die »stat« / »statt« hingegen fiel heraus:

Stopwords < 0,01

2 [vnd, sie, unnd, vnnd, anno, ine, bey, viel, widder, weyssenburg, eyn, gem, hett, din, dag, warent, dan, alles, uf, wardt, andern, wurdent, abt, ite, vff, herren, hette, darumb, inn, landt, syn, sagt, darinn, wurden, herr, juncker, leut, synen, namen, weyssenbung, gemacht, drey, vom, gefangen, darnach, dis, hetten, ob, keyser, kament]

[50]Am besten sieht das Ergebnis nach Anwendung der spezifischen Stopword-Liste aus, das in Topic 4 nicht nur die chronikalischen Elemente wie »anno« / »anne«, »ite[m]« / »it₎« und »dannach« / »arnach« enthält, sondern auch auf Auseinandersetzungen zwischen Personen und Gruppierungen (»widder« – gegen, »gefangen«, »gewonnen«, »pferden«, »herren«, »burger«, »manne«, »leut«) und auf einzelne Personen (»keyser«, »ludwig«, »juncker«, »abt«, »herr«, »jacob«, »sant«) und Orte / Regionen (»weyssenburg« / »weyssenbung« / »weissenburg«, »baden«, »pfaltz«) hinweist:

4 [anno, weyssenburg, widder, gem, statt, dag, stat, abt, ite, landt, sagt, herr, juncker, gefangen, leut, drey, weyssenbung, babst, stett, herren, keyser, ludwig, kament, burger, manne, inen, auß, dannach, eynen, pfaltzgraue, gewonnen, darzu, sant, jacob, it₎, arnach, lag, baden, weissenburg, pfaltz, anne, vitter‍[30], gulden, nechst, graue, hertzog, pfaltzgrauen, vonn, pferden, vber]

[51]Ein anderes Topic beinhaltet die Legende des heiligen Ulrich, die ebenfalls nur in einer Handschrift im Korpus vorkommt [Mue5]. Hier gibt es kaum inhaltliche Verbesserungen beim Herabsetzen des Thresholds, die Unterschiede zwischen < 0,5 % und < 0,05 % sind minimal:

Stopwords < 0,5

0 [vō, auch, sein, babst, un̄, sol, het, ist, seinen, sind, hat, zu, heren, de, auf, bischoff, uolrich, hand, recht, rome, wann, ge, dir, ich, frawen, unser, reich, tuon, bey, hundert, vo, bis, lande, seiner, mocht, vater, orden, item, hab, dy, min, ussz, oder, wolt, dann, zechen, ein, ward, inn, vnd]
Stopwords < 0,05

7 [seinen, auf, uolrich, wann, orden, frawen, werden, recht, vo, bis, tuon, reich, kind, unser, bey, dann, seiner, vater, dy, item, ussz, zechen, denne, jare, hab, sey, dab, ware, kaiser, hann, kament, cristen, ame, acht, grosse, nicht, tet, seine, fast, ulrich, priester, gesait, ee, innen, dn, hetten, zitten, haiden, lassen, usser]

[52]Nach Herausfiltern mittels der Stopword-Liste ergeben sich zwei Topics, die um die Heiligenlegende kreisen; beide allerdings mit Einsprengseln aus anderen Topics (Fremdbegriffe orange eingefärbt):

8 [vō, heren, frawen, dy, sey, ee, monat, acht, seine, dn, ulrich, kaiser, zeitten, pfaffen, gesait, tansent, drey, fraw, seinem, zeit, ausz, wō, strasspurg, leib, spch, consily, grossz, innen, uolrichs, nichs, niemant, soelt, woelte, liessz, gelt, weil, ewer, streit, bischoff, syben, gelauben, wan̄, gaistlich, babst, seyen, meyses, bruder, gueter, den̄, vber]
10 [hand, recht, uolrich, orden, reich, machet, zechen, gottes, vater, mocht, bischoff, priester, ame, fast, zitten, hailigen, muter, cristen, kind, nacht, franckrich, stund, soellent, nū, bracht, wenn, sond, zwaintzig, viertzig, hertzog, dick, zwan, sechs, knecht, ye, gesechen, gnad, mem, um̄, siben, stet, schickt, sechen, werb, selbs, stetten, ans, drin, fand, stuck]

3.3.3 Interviews

Stopword Removal (Threshold)

[53]Auch für die Interviews wurden beide Verfahren getestet. Als erste Methode wird das Entfernen von Stopwords mit Hilfe eines Thresholds angewendet. Zunächst werden alle Wörter entfernt, die einen Anteil von mehr als 0,5 % am Gesamttext haben. Die Auswirkungen gegenüber beiden ungefilterten Topics oben (Thema ›Arbeit‹ und Thema ›Bergbau‹) sind deutlich:

9 [krupp, er, jetzt, für, bei, betrieb, im, betriebsrat, später, eine, irgendwie, hatte, dat, essen, wo, auf, damals, kollegen, alles, dem, gewesen, worden, firma, wieder, dabei, mich, weil, praktisch, vielleicht, denn, kam, vorher, nix, paar, arbeit, bisschen, weiter, einmal, kann, tun, heimaterde, chef, kurz, wat, durch, aeg, ihm, namen, wohnung, hmh]
11 [jetzt, er, du, wenn, auf, mhh, bergbau, zeche, steiger, gehabt, kohle, wo, damals, uns, eine, son, immer, weil, se, sich, de, dort, wieder, arbeit, für, tage, um, gab, drin, diese, anderen, schicht, dem, beispiel, musste, kam, sind, im, hast, betriebsrat, als, unter, oben, wurden, muss, bergmann, meter, bergleute, zum, mark]

[54]Senkt man den Threshold auf 0,25 % Anteil am Gesamttext (nur Wörter, deren Anteil am Korpus kleiner als 0,25 % ist, werden im Topic Modeling berücksichtigt), treten die Themenfelder deutlicher hervor – und das Thema ›Arbeit‹ entwickelt sich mehr in Richtung ›Arbeiter*inneninteressenvertretung‹. Allerdings fällt ›Krupp‹ raus, weil das Unternehmen in den Transkripten sehr häufig genannt wird:

5 [kam, später, herr, betrieb, alle, weiß, frau, wurde, dat, einen, sagte, spd, essen, einer, irgendwie, hieß, gewerkschaft, drin, dortmund, heißt, hmh, leute, jahre, betriebsrat, viele, durch, vorher, kollegen, gesagt, partei, ihm, nix, büchler, steht, namen, doktor, dabei, du, wat, direkt, kammer, franz, wollte, metall, chef, kommen, ordner, aeg, sag, damals]
7 [ähm, du, einmal, sage, naja, bergbau, etwas, damals, gab, steiger, zeche, dort, nichts, aus, mark, kohle, tage, hast, konnte, nun, einen, anderen, oben, kannst, kam, schicht, unter, bekamen, um, usw, bekam, heute, über, wurden, bekommen, wird, wäre, jahre, geld, viel, einer, weil, einem, arbeiten, wurde, darin, bergleute, viele, kumpel, jedenfalls]

[55]Auch wenn bereits nicht hinnehmbare Verluste im Wortschatz ausgemacht werden konnten, wurde der Threshold zur Demonstration weiter abgesenkt. Ab einem Anteil von 0,1 % am Gesamttext werden erstmals einigermaßen geschlossene Themenfelder erkennbar:

4 [bergbau, dort, gab, zeche, kohle, steiger, usw, menschen, mark, bekam, tage, hast, unter, 2, hause, bekamen, bekommen, schicht, 3, bergleute, geld, kumpel, selbst, meter, zur, jaja, wohnung, beim, bergmann, schachtanlage, alt, walsum, hauer, herne, kannst, nö, robert, 6, des, oben, 5, wäre, arbeiten, bruder, alten, jedenfalls, gedinge, bist, zechen, heimat]
11 [betriebsrat, betrieb, kollegen, des, essen, nee, gewerkschaft, spd, beispiel, gab, krupp, nochmal, worden, dinge, dabei, aeg, betriebsräte, frage, gewählt, ig, denen, hmh, vorhin, grunde, gewerkschaften, sogar, metall, heißt, belegschaft, unheimlich, mitglied, politische, wollen, zur, eh, kpd, cdu, kommunisten, beim, gefangenschaft, gerade, gewerkschaftlich, schwierig, praktisch, sagten, wäre, diskutiert, entsinnen, beiden, innerhalb]

[56]Wenn man den Threshold auf 0,05 % Anteil am Gesamttext senkt (alle Wörter, deren Anteil größer als 0,05 % ist, werden entfernt), fällt auf, dass auch die in den Interviews so zentrale Stadt Essen und die Partei SPD verschwindet, ohne dass die Topics weiter an Konsistenz gewinnen:

12 [steiger, zeche, bergbau, kohle, son, de, dort, schicht, tage, naja, arbeiten, meter, bergleute, bergmann, betriebsrat, kumpel, usw, hauer, unter, kumpels, dabei, bekamen, ah, beispiel, manchmal, betriebsführer, franzosen, meinetwegen, bekam, hast, streb, nö, wagen, gewerkschaft, 2, verdienen, gedinge, ihn, schacht, welche, kohlen, leistung, bruder, schachtanlage, robert, kommunisten, verdient, stempel, menschen, gearbeitet]
17 [krupp, betrieb, betriebsrat, dabei, kollegen, firma, och, partei, gewerkschaft, wer, kommunisten, vorher, sogar, herr, hieß, ihn, direkt, heißt, spd, nazis, nix, namen, mai, meister, wat, 1, soll, wegen, sa, erzählen, arbeiter, chef, gearbeitet, gegen, mülheim, gewählt, ihm, komm, nebenbei, jeder, kpd, keiner, deutschen, wahrscheinlich, verboten, kollege, mitgemacht, gabs, praktisch, bloß]

Stopword Removal (Liste)

[57]Nach wie vor sind die Topics verrauscht von nicht bedeutungstragenden Wörtern, während gleichzeitig bedeutsame Wörter aus den Topics verschwinden. Es muss also ein gezielteres Verfahren angewendet werden: die Arbeit mit einer kuratierten Stoplist. Die verwendete Stoplist wurde ursprünglich von Github heruntergeladen, kritisch geprüft und maßgeblich ergänzt. Wendet man diese Stoplist beim Preprocessing an, erhält man als Ergebnis 20 größtenteils konsistente Themenfelder. Auch wurde der optionale Schritt, Wörter mit weniger als zwei Buchstaben herauszufiltern, zur weiteren Straffung eingesetzt (eine Anhebung der Mindestbuchstabenzahl wäre fatal, da historisch relevante Abkürzungen wie NS, KZ, SS oder SA aus den Topics herausfallen würden).

[58]Topic 0 zum Thema ›Bergbau‹ soll für die weiteren Optimierungsschritte als Referenz herangezogen werden, wenngleich sich ein zweites Thema – die ›Heimatvertriebenen‹ – in das Topic hineinmischt. Das ist ein erster Hinweis darauf, dass die Anzahl der Topics erhöht werden muss, um diese beiden Themen zu trennen oder ein Bergbau-Topic zu ermöglichen, das nicht mit dem Schicksal der Heimatvertriebenen verknüpft ist.

0 [steiger, bergbau, zeche, kohle, schicht, kumpel, meter, bergleute, bekamen, hauer, bergmann, kumpels, betriebsrat, kohlen, menschen, walsum, betriebsführer, gedinge, geld, schachtanlage, wagen, lager, verdienen, robert, verdient, heimat, stempel, gefangenschaft, lohn, knappschaft, nu, schlesien, schacht, vertriebene, tonnen, zechen, leistung, ruhrgebiet, ruhrkohle, vertriebenen, nachtschicht, revier, pütt, bergschule, kameradschaftsgedinge, schichten, arbeiter, helmut, kollegen, ernst]

3.4 Lemmatisierung: Arbeiten mit Grundformen von Wörtern

[59]Stopwords werden verwendet, um den potenziellen Einfluss von sehr häufig vorkommenden Wörtern zu beseitigen. Eine weitere Herausforderung bei der Anwendung von Topic Modeling besteht darin, dass die für die Verfahren verwendeten Algorithmen nicht mit Sprachwissen ausgestattet sind und sie stattdessen das bloße Vorkommen von Wörtern in Form von Zeichenketten zählen. Das bedeutet, dass unterschiedliche Flexionsformen als unterschiedliche Wörter betrachtet werden. Dies führt dazu, dass relativ häufige Wörter in einem (oder mehreren) Topic(s) in verschiedenen flektierten Formen vorkommen.

[60]Um die durch Flexion entstehende lexikalische Heterogenität zu minimieren, können Texte lemmatisiert werden, d. h. die verschiedenen Formen eines Wortes können auf die Grundform reduziert werden. Das bedeutet, dass die Texte (bereits ohne Stopwords, um Ressourcen zu schonen) so modifiziert werden, dass nicht die flektierten Wortformen, sondern die Lemmata das zu untersuchende Korpus bilden. Bei der Lemmatisierung wird das jeweilige flektierte Wort mit einer Referenzliste abgeglichen, die möglichst alle flektierten Formen des gesamten Wortschatzes enthält. Wird das Wort gefunden, wird es durch die Grundform im Originaltext ersetzt, sodass z. B. ›bin‹, ›bist‹ und ›war‹ als dreimal ›sein‹ gezählt werden. Die Referenzliste – das Sprachmodell – in der für dieses Paper verwendeten Pipeline ist spaCy und dessen Sprachmodell de_core_news_lg, das auf Zeitungskorpora trainiert wurde und etwa 500.000 vektorisierte Wörter enthält. Ein schmerzliches Desiderat aus Sicht der Geschichtswissenschaft ist die mangelnde Abdeckung historischer Schreibweisen in solchen Sprachmodellen. So werden beispielsweise in mittelalterlichen Handschriften praktisch keine, in den Ratsbeschlüssen des 19. Jahrhunderts nur wenige und in dialektalen Interviews des 20. Jahrhunderts nur ein Teil aller Wörter korrekt erkannt und ersetzt.‍[31] Für unseren Ansatz ist es entsprechend sinnlos, die Lemmatisierung für das Manuskript-Korpus oder die Regierungsratsbeschlüsse des 19. Jahrhunderts anzuwenden.

[61]Über die reine Lemmatisierung hinaus geht das Part-of-Speech-Filtern (POS-Filtering), also das gezielte Ausschließen bestimmter Wortformen, wie Artikel oder Pronomen. Mit spaCy werden die Korpora mit Hilfe von Vokabularen und vektorisierten Sprachmodellen vollständig mit POS-Tags ausgezeichnet. Wurde das Wort korrekt identifiziert – was bei Texten in deutscher Sprache grundsätzlich nicht ganz zuverlässig funktioniert und durch dialektale und historische Sprache noch deutlich erschwert wird –, können im Anschluss Wortgruppen, die inhaltlich wenig beitragen, aus den Korpora herausgefiltert werden.

3.4.1 Interviews

[62]Bereits ohne POS-Filter fällt auf, dass Lemmatisierung im Deutschen fehleranfällig ist. Das verwendete spaCy löst den Plural von ›Menschen‹ nicht zum Singular auf, das gleiche gilt für die ›Kumpels‹ – könnte man Letzteres noch damit erklären, dass es als Teil eines regionalen Soziolekts in vortrainierten Sprachmodellen unterrepräsentiert sein könnte, trifft das auf das erste Beispiel nicht zu. Bei dem Begriff ›Kohlen‹ scheint die Zusammenführung funktioniert zu haben, da sich hier nur der Singular findet. Darüber hinaus ändert sich die Gesamtbeschaffenheit des Topics allerdings nicht signifikant – der dialektale Begriff ›Pütt‹ für den sogenannten ›Kohlenpott‹ Ruhrgebiet ›rückt nach‹:

1 [steiger, zechen, kohle, bergbau, mensch, schicht, verdienen, betriebsführer, meter, arbeit, hauer, geld, kumpels, vertrieben, kumpel, bergleute, betriebsrat, wagen, bergmann, gedinge, lager, welch, robert, lohn, stempel, deutsch, menschen, schacht, bentheim, nachtschicht, abhauen, gewerkschaft, wohnen, strecken, nu, schichten, schlesien, 50, kameradschaft, tonnen, bergschule, verbinden, draht, revier, kameradschaftsgedinge, kaufen, schnaps, helmut, pütt, ernst]

[63]Filtert man alle Wortformen bis auf Nomen heraus, trägt das nicht zur weiteren Konsistenz des Topics bei. Nun rücken weitere Wörter aus dem Zusammenhang Vertreibung und einige semantisch fremde Wörter nach:

19 [zechen, steiger, bergbau, kohle, schicht, geld, meter, kumpel, kumpels, bergmann, bergleute, hauer, schacht, arbeit, betriebsrat, robert, gedinge, lager, königsberg, ruhrgebiet, vertrieben, wagen, knappschaft, stempel, gefangenschaft, polen, heimat, schlesien, mensch, schnaps, jungs, lohn, woche, kameraden, hats, betriebsführer, nachtschicht, menschen, revier, monate, schichten, bergschule, steine, strecken, ostpreußen, bauern, helmut, kameradschaft, gewerkschaft, kameradschaftsgedinge]

[64]Gleiches gilt für die Kombination von Nomen und Verben:

4 [bergbau, steiger, zechen, kohle, verdienen, schicht, meter, kumpel, bergmann, kumpels, bergleute, wagen, hauer, arbeit, geld, kohlen, schachtanlage, menschen, betriebsrat, robert, vertrieben, walsum, herne, gedinge, leistung, schacht, lager, heimat, betriebsführer, gewerkschaft, stempel, bauen, lohn, schaffen, strecken, gefangenschaft, schichten, kameradschaft, fördern, recklinghausen, bergschule, schlesien, tonnen, reden, ruhrkohle, kaufen, helmut, revier, schnaps, türken]

[65]Bzw. für die Kombination von Nomen und Adjektiven:

14 [steiger, zechen, bergbau, kohle, schicht, meter, kumpel, bergleute, geld, kumpels, betriebsführer, hauer, bergmann, vertrieben, betriebsrat, schacht, kohlen, gedinge, walsum, schachtanlage, lager, wagen, robert, stempel, tonnen, leistung, menschen, schlesien, lohn, kameradschaft, russen, heimat, steine, ruhrkohle, revier, arbeit, ruhrgebiet, bergschule, deutsch, nächst, helmut, pütt, nachtschicht, kameradschaftsgedinge, kameraden, einheimisch, schnaps, gewerkschaft, ostpreußen, schachtanlagen]

[66]Entsprechend bringt auch die Kombination von Nomen, Verben und Adjektiven keine weitere Verbesserung:

8 [bergbau, zechen, kohle, steiger, vertrieben, walsum, kumpel, verdienen, bergleute, herne, schicht, bergmann, kohlen, meter, bevölkerung, schachtanlage, ruhrkohle, gedinge, ruhrgebiet, kontakt, wohnung, recklinghausen, schaffen, gefangenschaft, schlesien, heimat, hauer, kollegen, bergschule, thyssen, leistung, duisburg, soldat, zimmermann, lager, kameradschaftsgedinge, ansehen, gesamt, schachtanlagen, böse, tonnen, sogenannt, bauen, studieren, fördern, industrie, kumpels, schnaps, wohnungen, möglichkeit]

[67]Insgesamt strafft die Lemmatisierung – ob mit oder ohne POS-Filter – das Topic noch einmal minimal. Der Ertrag ist allerdings als ambivalent zu betrachten, die Eingrenzung auf Wortformen kann zu stringenteren Topics, aber auch zu einer Glättung führen. Was im Beispiel deutlicher hervorgetreten ist, ist die Vermischung der Themenbereiche ›Lebenswelt Kohlebergbau‹ und ›Heimatvertriebene‹.

3.5 Schlussfolgerungen zum Preprocessing

[68]Ziel dieses Unterkapitels war es, zu zeigen, dass für jedes Korpus jeweils unterschiedliche Entscheidungen getroffen und unterschiedliche Schritte durchgeführt werden müssen, um die Daten für eine Analyse weiterzuverarbeiten. Das bedeutet, dass nach unserem Verständnis die Anwendung von Topic Modeling eine Vertrautheit mit den technischen (Vor-)Bedingungen erfordert, um verständliche und reproduzierbare Ergebnisse zu erzielen.

[69]Unsere Erkenntnisse über die verschiedenen Preprocessing-Schritte für die einzelnen Korpora sind dabei das Ergebnis längerer Phasen des Ausprobierens und Experimentierens, im Sinne eines tinkering mit den Daten und den unterschiedlichen Schritten.

[70]Dabei stellte sich heraus, dass die Schritte des Preprocessing unterschiedlichen Einfluss auf die Ergebnisse des Topic Modeling haben. Je nach Korpus werden ganz unterschiedliche Resultate erzielt, weshalb die Methode nicht eine Vorgehensweise erlaubt, sondern mehrere evaluierende Schritte benötigt, um sie produktiv zu machen.

4. Weitere Optimierung: Chunking und Random Seeds

4.1 Chunking

[71]Das sogenannte Chunking unterteilt große Dokumente in kleinere Teile (Chunks) gleicher Länge, die ihrerseits als ein Dokument eines Topic Models verstanden werden können. Das Chunking dient zwei Zielen: zum einen dem Optimieren des Topic-Modeling-Verfahrens, weil zu lange Dokumente und Korpora mit Dokumenten von sehr unterschiedlicher Länge die Ergebnisse verschlechtern. Zum anderen ermöglicht das Chunking eine feingranulare Topic-Verteilung über lange Texte. Wenn es also darum geht, Entwicklungsprozesse anhand von Themenwechseln einzufangen, müssen Texte in kleinere Abschnitte zerteilt und für jeden Abschnitt eine Topic-Repräsentation berechnet werden. Chunking sollte entsprechend nicht nur eine technische Vorgehensweise sein, sondern eine wohlüberlegte Aufteilung in (thematisch) möglichst homogene Sequenzen. Da dies bei großen Korpora, die hier im Zentrum stehen, nicht manuell geleistet werden kann, müssen automatisierte Ansätze verfolgt werden.

[72]Die Aufteilung in Chunks kann auf der Basis einer festen Chunkgröße, also Anzahl von Wörtern oder Sätzen, erfolgen. Die Entscheidung über die Chunkgröße hängt von verschiedenen Faktoren ab, nicht zuletzt von der Forschungsfrage und der Größe des Korpus bzw. der zu untersuchenden einzelnen Dokumente. Mit lebensgeschichtlichen Interviews und mittelalterlichen Handschriften liegen zwei sehr unterschiedliche Anwendungsfälle vor, bei denen Chunking erforderlich ist. Die Regierungsratsbeschlüsse hingegen sind so kurz und bleiben in den meisten Fällen thematisch recht eng gefasst, dass das Chunking bei diesen problemlos entfallen kann.

[73]Beim Ermitteln der optimalen Chunkgröße für das Topic-Training handelt es sich um ein komplexes Verfahren: Topic-Anzahl und Chunkgröße sind reziprok und oft wird erst in einem iterativen Verfahren eine Annäherung an ein Optimum möglich. Während man bei den Handschriften auf Grundlage der für das Preprocessing festgelegten 20 Topics Unterschiede zwischen den verschieden gechunkten Korpora feststellen kann, wirken sich die unterschiedlichen Chunkgrößen mit 20 Topics bei den Interviews nicht merklich aus. Das ist auf die für dieses Korpus wesentlich zu niedrige Topic-Anzahl im Preprocessing-Szenario zurückzuführen. Deshalb greifen wir an dieser Stelle im Arbeitsprozess etwas vor und legen das finale Modell mit 50 Topics für die Analyse des Chunkings zugrunde. Allerdings sind auch bei optimaler Topic-Anzahl die Unterschiede graduell, weshalb durchaus pragmatisch vorgegangen werden und eine für das Forschungsvorhaben angemessene Chunkgröße gewählt werden kann. Für die Repräsentation der Topics in den lebensgeschichtlichen Interviews haben sich im Close Reading etwa 50 Sätze als gute Chunklänge herausgestellt. Dieses Chunking bildet den Default-Wert für die spätere Schätzung der optimalen Topic-Anzahl.

4.2 Random Seed

[74]Der Random Seed bestimmt das zufällig gewählte erste Sample beim Iterieren des LDA-Algorithmus. Der Random Seed kann eine Zahl zwischen 1 und 2.147.483.647 sein – dem Limit für die Darstellung von Zahlen in 32 bit. Im Falle von Mallet sollte nicht die 0 verwendet werden, da diese die Systemzeit des ausführenden Rechners als Random Seed setzt und somit wiederum kaum reproduzierbar ist.

[75]Für das wissenschaftliche Arbeiten ist das von großer Bedeutung: Ohne gesetzten Random Seed ist auch unter vollständig gleichen Rahmenbedingungen, mit denselben Daten und Parametereinstellungen, das Ergebnis jedes Mal ein anderes. Der Ausgangspunkt der Berechnung (apriori-Wahrscheinlichkeit) ist jeweils ein anderer und der Optimierungsalgorithmus führt zu (leicht) unterschiedlichen Ergebnissen. Zur Bestimmung eines optimalen Modells ist es also sinnvoll, immer mehrere Modelle mit verschiedenen Random Seeds zu berechnen, um festzustellen, ob bestimmte Topics nicht in allen Modellen vertreten sind. Im Preprocessing haben wir einen Random Seed von 100 gesetzt, um die Auswirkungen der einzelnen Schritte deutlich zu machen. Allerdings muss man einschränkend sagen, dass sich mit zunehmender Veränderung der Daten von Schritt zu Schritt im Preprocessing auch der Zugriff auf das erste, aus dem Korpus gezogene Sample verändert: Das Setzen eines Random Seeds ist also nicht unbedingt sinnvoll bzw. erforderlich, um die Auswirkungen des Preprocessings zu verdeutlichen (ermöglicht aber, wie erwähnt, die Reproduzierbarkeit jedes einzelnen Schritts). Geht es um die Schätzung der optimalen Chunkgröße und Topic-Anzahl, ist das Setzen eines Random Seeds von größerer Bedeutung, um die Ergebnisse nach dem Vergleich dokumentieren und im Zweifel reproduzieren zu können.

4.3 Anwendung

4.3.1 Handschriften

[76]Der Umfang der 7 Handschriften unterscheidet sich stark und reicht von 78 [Hei2] bis 287 Blättern [Mue5], was nach der Texterkennung einem Umfang von rund 190.000 bzw. 1,1 Millionen Zeichen entspricht. Auch auf inhaltlicher Ebene gibt es größere Unterschiede: Manche Handschriften enthalten neben der Chronik Jakob Twingers nur wenig andere Inhalte (wie [Fre1]), andere hingegen vereinen viele verschiedene (und umfangreichere) Texte (wie [Mue5] oder [Wol2]). Um diese Unterschiede auszugleichen, kann das Korpus in kleinere Einheiten unterteilt werden. Da auch die Zeichensetzung sehr uneinheitlich ist, lassen sich Sätze nicht zuverlässig abgrenzen, sodass diese als Einheit wegfallen und auf wortbasierte Chunks zurückgegriffen wurde. Trainiert wurden Modelle für Chunks zu 5.000, 2.500, 1.000, 500 und 250 Wörtern.

[77]Für das Topic um die Weißenburg-Chronik liefern die 5.000er-Chunks bereits recht klare Begriffe:

3 [anno, widder, weyssenburg, gem, stat, statt, dag, ite, abt, herren, landt, sagt, gefangen, sant, herr, leut, drey, juncker, weyssenbung, lag, manne, kament, schaden, pfaltzgraue, babst, ludwig, darzu, keyser, auß, arnach, baden, inen, it₎, eynen, jacob, bischoff, graue, pferden, vonn, gulden, gewonnen, pfaltz, pfaltzgrauen, nechst, burger, bischof, vber, hundert, stett, gewan]

[78]Kleinere Chunks führen zu minimalen Unterschieden. Hier beispielsweise eine Topicliste für 500er-Chunks:

12 [anno, widder, weyssenburg, gem, dag, statt, stat, ite, abt, herren, landt, gefangen, sagt, herr, leut, weyssenbung, drey, juncker, keyser, lag, manne, baden, stett, pfaltzgraue, inen, ludwig, auß, eynen, it₎, arnach, kament, gewonnen, anne, schaden, darzu, weissenburg, dannach, burger, vitter, jacob, nechst, pfaltz, bischof, dorff, hans, gulden, pfaltzgrauen, vmb, thun, graue]

[79]Anders verhält es sich bei der Ulrichslegende. Auch hier ergibt sich bei 5.000er-Chunks schon ein deutliches Topic, das mit 2.500 etwas präziser umrissen wird. 1.000er-Chunks liefern einzelne zusätzliche Begriffe, allerdings auch aus anderen Topics. Die deutlichsten Hinweise auf die Ulrichslegende finden sich auf Basis von 500er- und 250er-Chunks, wobei in beiden auch fremde Begriffe aus dem Topic um die ersten Straßburger Bischöfe, St. Arbogast und St. Florentin, enthalten sind (Fremdbegriffe orange eingefärbt):

chunking 5.000

13 [sant, uolrich, dy, bischoff, ulrich, grab, uolrichs, selbs, mocht, kirchen, ausz, hailigen, menschen, ad, angspurg, ulrichs, stund, frawen, est, tags, priester, adelbero, selbig, graff, sagt, grosz, gesund, pald, seinem, capitel, pfaffen, ut, hailig, ansz, liesz, tem, volbracht, leichnam, yederman, pruder, ant, arnach, solichs, closter, costentz, qui, wolten, nō, altar, weil]
chunking 2.500

18 [sant, uolrich, vō, dy, ulrich, bischoff, spch, wō, mocht, grab, dier, uolrichs, dn, um̄, frawen, kind, wib, rich, kirchen, angspurg, ulrichs, bist, ausz, bald, selbs, ad, hailigen, liesz, ansz, mā, soch, pald, grosz, adelbero, sagt, dù, tags, gesund, volbracht, fraw, berait, ais, leichnam, stund, ser, pruder, fast, graff, mesz, spcht]
chunking 1.000

9 [sant, bischoff, uolrich, dy, closter, peter, grab, ulrich, kirchen, ant, statt, hans, peters, mocht, leben, selbs, uolrichs, alten, grosz, eren, hailigen, gesellen, priester, hann, heren, hertzog, florentz, volbracht, begraben, stund, ge¬, ritter, angspurg, liesz, ulrichs, arbogast, ausz, volk, bekert, frawen, graff, mesz, zaichen, lieben, stifft, hilff, machet, ere, gesund, adelbero]
chunking 500

14 [sant, bischoff, uolrich, closter, peter, dy, grab, ant, ulrich, kirchen, peters, leben, statt, selbs, mocht, grosz, alten, stund, eren, uolrichs, hailigen, priester, pfaffen, volbracht, frawen, stifft, wasser, lieben, gesellen, florentz, arbogast, ausz, angspurg, liesz, ulrichs, hann, altar, begraben, capitel, volk, gesund, machet, kloster, burg, zaichen, seinem, menschen, wolten, tags, bekert]
chunking 250

0 [sant, bischoff, uolrich, closter, peter, dy, grab, kirchen, ant, ulrich, peters, statt, selbs, leben, mocht, priester, stifft, hailigen, alten, uolrichs, stund, florentz, begraben, wasser, lieben, grosz, ausz, gestifft, liesz, volbracht, eren, ere, arbogast, tags, gesund, strasspurg, ulrichs, gesellen, pfaffen, angspurg, frawen, bekert, hertzog, altar, seinem, dienst, hann, hailig, gant, mùnster]

[80]Ein Topic, das in vier Handschriften vertreten ist ([Dre1], [Fre2], [Hei4], [Mue5]), umfasst Begriffe um Alexander den Großen und erstreckt sich über etwa 35 Unterkapitel im ersten Kapitel der Twinger-Chronik. Während dieses Topic weder im ganz unprozessierten Text noch nach Anwendung der Stopword-Liste oder auf den 5.000er-Chunks erscheint, wird es ab 2.500er-Chunks sichtbarer, wobei hier noch viele ›fremde‹ Begriffe, unter anderem aus der Schöpfungsgeschichte, vorkommen. Mit 1.000er-Chunks erscheinen ebenfalls mehrere Begriffe aus anderen Topics (›Dietrich von Bern‹; ›Trojanischer Krieg‹), 500er-Chunks liefern das präziseste und sauberste Ergebnis. Mit 250er-Chunks wird das Topic nicht entdeckt (Fremdbegriffe orange eingefärbt):

chunking 2.500

0 [adam, darins, allexander, wasser, hast, engel, alt, lebendig, noe, persa, welt, alepander, silvester, ersten, welte, aler, ena, gebar, erste, helena, brieff, gott, ding, philippus, stier, alexander, bilde, turn, paradis, jung, gestalt, dario, menschen, ist,, beschuff, allexand, tier, vatter, dinen, erden, hymel, verbotten, geschriben, kinden, usser, wissen, essen, hoch, alerander, tieren]
chunking 1.000

14 [bern, dietrich, darins, allexander, persa, hast, gochen, alepander, hunen, silvester, berne, lebendig, brieff, helena, philippus, aler, mals, wort, botten, mers, stier, allexand, alexander, alt, bucher, guldin, dario, gestalt, meres, menschen, todes, enpfangen, ist, bilde, bosen, gechen, dù, xxxi, wissen, welt, werden, darius, cristus, eren, gang, alerander, begraben, sternen, porten, allex]
chunking 500

10 [vatter, brieff, darins, allexander, persa, hast, botten, lebendig, ding, alepander, silvester, aler, sprachent, wort, allexand, stier, alexander, philippus, sun, grab, helena, ritter, tempel, leben, gestalt, zeichen, guldin, fùrsten, alten, sas, bilde, dario, ist,, welt, zoch, palast, wunder, tragen, enpfangen, tot, sachen, helle, grabe, begraben, dinen, dn, cristus, betten, todes, sternen]

[81]Für dieses sehr heterogene Korpus stellen 500er-Chunks die beste Größe dar, um Topics zu erhalten, die ausreichend aussagekräftig sind und dabei die wenigsten Fremdbegriffe aufweisen. Bei einer Textgrundlage mit besserer Texterkennung ließen sich hier womöglich Verschiebungen beobachten, da Doppelungen, die auf Erkennungsfehlern beruhen, wegfallen würden.‍[32]

4.3.2 Lebensgeschichtliche Interviews

[82]Die Transkripte lebensgeschichtlicher Interviews sind äußerst umfangreiche und komplexe Textdokumente. Neben der Optimierung für das Topic Modeling dient das Chunking auch der besseren inhaltlichen Erschließung, weil Topics damit über den Interviewverlauf errechnet werden und Themenwechsel dargestellt werden können. Bei 20 Topics zeigen sich mit Blick auf die Konsistenz der Topics allerdings wenig Auswirkungen durch das Chunking. Verwendet wurden Korpora mit Chunks zu 10, 25 und 50 Sätzen. Insgesamt sind die Ergebnisse der gechunkten Modelle leicht konsistenter, allerdings fällt bei diesen der wichtige Terminus ›Gedinge‹ raus.

Unchunked 20 Topics	1 [steiger, zechen, kohle, bergbau, mensch, schicht, verdienen, betriebsführer, meter, arbeit, hauer, geld, kumpels, vertrieben, kumpel, bergleute, betriebsrat, wagen, bergmann, gedinge, lager, welch, robert, lohn, stempel, deutsch, menschen, schacht, bentheim, nachtschicht,
50 Sätze 20 Topics	9 [zechen, arbeit, bergbau, kohle, steiger, arbeiten, meter, schicht, kohlen, bergleute, kumpel, bergmann, schwer, wagen, ruhrgebiet, betriebsführer, nachtschicht, recklinghausen, bekommen, verdienen, stempel, schacht, steine, morgens, kumpels, nennen, vertrieben, hauer, alt, leistung]
25 Sätze 20 Topics (Random Seed 123)	4 [zechen, bergbau, kohle, arbeit, steiger, arbeiten, meter, verdienen, kohlen, bergmann, schicht, kumpel, bergleute, geld, wagen, ruhrgebiet, schwer, schacht, hauer, kumpels, stempel, betriebsführer, vertrieben, schachtanlage, morgens, nennen, grube, alt, robert, fangen]
10 Sätze 20 Topics	4 [zechen, arbeit, arbeiten, bergbau, kohle, steiger, schwer, schicht, kohlen, meter, bergleute, meistern, bergmann, kumpel, wagen, nennen, verdienen, fangen, betriebsführer, maschine, hauer, schacht, schaffen, stempel, heißen, recklinghausen, vertrieben, hand, tonnen, grube]

Tab. 1: Vergleich von LUSIR-Topics mit unterschiedlichem Chunking.

[83]Interessant ist weiterhin, dass bei Random Seed 100 im Modell mit 25 Sätzen zunächst gar kein Topic zur Arbeit Untertage entsteht (vgl. Abbildung 1). Zur Verdeutlichung der Auswirkungen des Random Seeds zeigt folgende Heatmap abschließend die Ähnlichkeiten und Unterschiede zweier Topic-Modelle – hier 20 Topics, 25 Chunks und Random Seed 123 (RS123) auf der X-Achse bzw. Random Seed 100 (RS100) auf der Y-Achse (je heller, desto höher die Übereinstimmung). Insgesamt haben die Modelle eine Übereinstimmung von gerade einmal 55 %. Für die Heatmap wurde jede Wortliste von RS123 (X-Achse) mit jeder Wortliste von RS100 (Y-Achse) verglichen und automatisch berechnet, wie hoch die prozentuale Übereinstimmung der in den Listen enthaltenen Wörter (n=20) ist. Man kann erkennen, dass das Bergbau-Topic von RS123 (Topic 4) in RS100 zu 50 % in Topic 18 und zu 35 % in Topic 4 enthalten ist. Topic 0 von RS123 ist beispielsweise in keinem der Topics von RS100 enthalten, Topic 16 von RS123 zum Thema ›Familiengründung‹ korrespondiert demgegenüber mit 95 % auf Topic 2 von RS100 (vgl. Abbildung 1).

Abb. 1: Vergleich zweier Topic-Modelle: 20 Topics, Chunks à 25 Sätze und Random Seed 123 auf der X-Achse bzw. Random Seed 100 auf der Y-Achse (je heller, desto höher die Übereinstimmung zweier Topics). [Grafik: Möbus et al. 2026]

[84]Da Chunking und Topic Estimation sich gegenseitig beeinflussen, soll an dieser Stelle kurz vorgegriffen und gezeigt werden, wie sich das Chunking in Modellen mit 50 Topics – der von uns als optimal bestimmten Topic-Anzahl – auswirkt. Denn im Gegensatz zu den Modellen mit 20 Topics hat das Chunking bei der höheren Topic-Anzahl einen deutlicheren Einfluss. Vergleicht man die Bergbau-Topics des ungechunkten und des gechunkten Modells, fällt die deutlich höhere Konsistenz des zweiten auf. Im Modell ohne Chunking gibt es zwei Topics zur ›Arbeit Untertage‹, in beiden vermischt sich erneut das Phänomen der Heimatvertriebenen und viele nicht unmittelbar relevante Begriffe tauchen weit oben in der Liste auf (Tabelle 2, Zeilen 1 und 2). Das eine Untertage-Topic des gechunkten Modells liest sich hingegen annähernd wie ein semantisches Feld (Tabelle 2, Zeile drei).

Ungechunkt

50 Topics

(Topic 1/2)

15 [bergbau, steiger, bekommen, kohle, vertrieben, zechen, kumpel, herne, bergmann, bruder, schachtanlage, bergleute, wohnung, versuchen, recklinghausen, schicht, menschen, heimat, gedinge, ehrlich, schaffen, schlesien, bergschule, lager, ruhrgebiet, kameradschaftsgedinge, verdienen, soldat, hauer, kontakt]

Ungechunkt

50 Topics

(Topic 2/2)

47 [steiger, bergbau, robert, königsberg, zechen, kohle, meter, schicht, ernst, helmut, denken, stempel, kumpels, hauer, gedenken, kameraden, drinne, wohnung, schichten, betriebsführer, nachtschicht, dänemark, zuhause, schacht, hamburg, ruhrgebiet, malen, heisingen, gedinge, gewerkschaft]

50 Sätze

50 Topics

26 [steiger, bergbau, zechen, kohle, meter, schicht, arbeit, arbeiten, verdienen, bergmann, wagen, hauer, kumpel, betriebsführer, bergleute, stempel, geld, kumpels, robert, gedinge, leistung, grube, schacht, schachtanlage, vertrieben, nachtschicht, bohren, bergschule, lohn, schichten]

Tab. 2: Untertage-Topics aus 2 Modellen im Vergleich: Zeilen 1 und 2 repräsentieren ein Modell mit 50 Topics, das auf nicht gechunkten Interviewtranskripten beruht, die Topic-Liste in Zeile 3 stammt vom finalen Modell mit 50 Topics, für das die Interviewtranskripte in Teile zu je 50 Sätzen zerlegt wurden.

[85]Die Berechnung des finalen Modells erfolgt nun im folgenden Kapitel. Festgehalten werden kann, dass Chunking und Topic Estimation reziprok sind und beim Training immer beide Variablen im Blick behalten werden müssen.

5. Schätzung der optimalen Anzahl von Themen

[86]Nachdem das Preprocessing abgeschlossen ist, muss für die Berechnung der Topic-Modelle die Anzahl der Topics bestimmt und eingestellt werden. Dieser Wert repräsentiert die erwartete Anzahl der Themen bzw. der Topics in den zu untersuchenden Dokumenten. Unsere Untersuchungen haben gezeigt, dass es selbst bei Dokumenten, deren Inhalt bekannt ist, sehr schwierig ist, diesen Wert zu schätzen.‍[33] Um sich einer optimalen Topic-Anzahl anzunähern, gibt es verschiedene Verfahren quantitativer und qualitativer Art. Im Working Paper vergleichen wir beide Ansätze, auch hinsichtlich deren Kombination und gegenseitiger Ergänzung.‍[34] Dabei können wir allerdings nur statistische Methoden untersuchen, die lokal ausgeführt werden können. Die immer stärker aufkommenden Angebote durch Large Language Models (LLMs) können aktuell nicht oder nur begrenzt genutzt werden, da lebensgeschichtliche Interviews hochsensible und schutzbedürftige Daten sind, die nicht in die aktuellen Online-Pipelines eingespeist werden dürfen.

5.1 Quantitative Evaluationsroutine

[87]Quantitative Evaluationsroutinen mithilfe von automatischen Metriken oder Scores können dabei helfen, verschiedene Topic-Modelle vermeintlich auf einen Blick zu bewerten und so die ideale Anzahl an Topics zu bestimmen. Wir schlagen folgendes Vorgehen vor: In einem ersten Schritt sollten Modelle automatisiert mit einer ansteigenden Topic-Anzahl in großen Schritten über einen weiten Bereich trainiert werden – beispielsweise 50 bis 1.000 Topics in Fünfziger-Schritten. Die verschiedenen Metriken, mit denen jedes Modell anschließend evaluiert wird, werden weiter unten genauer vorgestellt. Wie bereits dargestellt, reagieren die verschiedenen Korpora unterschiedlich auf die einzelnen Schritte des Preprocessing. Ein ähnliches Verhalten wird auch bei den Metriken erwartet, weshalb verschiedene miteinander verglichen werden. Dadurch können aussagekräftige Ergebnisse erkannt werden, wenn mehrere Metriken bei gleichen Punkten durch Maximierung oder Minimierung in Form einer Plateau- oder Talbildung ausschlagen und so auf eine Sättigung der Optimierung hinweisen. Möglich ist auch, dass die Werte eher linear in eine Richtung verlaufen. Durch den Vergleich mehrerer Metriken können wir erkennen, welche Metriken aussagekräftige Ergebnisse liefern. Andererseits validieren sich Metriken gegenseitig, wenn ihr Verhalten korrespondiert. Auf diese Weise kann im Optimalfall ein Sweet Spot lokalisiert werden, wenn etwa mehrere Metriken auf ein gleiches Ziel hin maximieren bzw. minimieren.

[88]Keli Du gibt in seiner Dissertation einen guten Überblick über die verschiedenen Ansätze, Topic-Modelle und ihre Topics zu evaluieren.‍[35] Bei der Perplexität wird ein Teil des Datensatzes aus der Berechnung ausgeschlossen bzw. vorenthalten (held-out document), um das trainierte Modell später auf diesem Datensatz zu testen. Das Modell, das den Testdatensatz genauer beschreibt, ist das bessere Modell. Allerdings zeigt die Praxis, dass eine bessere Perplexität nicht zwingend zu besseren Topics für die Analyse der Korpora führt, weshalb wir diese Methode nicht verwendet haben.‍[36] Nikita Murzintcev implementiert in seinem R-Paket ldatuning‍[37] vier verschiedene Metriken zur Berechnung der idealen Topic-Anzahl.‍[38] Diese Evaluationsmethoden berechnen Topic-Modelle für verschiedene Topic-Anzahlen und präsentieren die Ergebnisse in einem Kurvendiagramm. Durch die Maximierung und Minimierung der verschiedenen Werte sollten so die optimalen Topic-Einstellungen gefunden werden können. Der Nachteil an dieser Pipeline ist die extrem lange Rechenzeit. Für unsere Datensätze lag die Laufzeit deutlich höher als die zehn Stunden für das im Paper von Murzintcev vorgestellte Korpus und die Berechnung konnte nicht erfolgreich abgeschlossen werden.‍[39]

[89]Eine weitere Evaluationsmethode ist die Dokumentenklassifikation. Mithilfe der Dokument-Topic-Verteilung werden die einzelnen Dokumente anhand der Topics, die für diese am höchsten gewichtet wurden, bestimmten Kategorien zugeordnet. Bei Zeitungsartikeln wären das beispielsweise die Rubrik (z. B. Sport, Politik, Gesellschaft) oder bei literarischen Texten das jeweilige Genre. Anschließend wird diese Kategorisierung mit Hilfe von Klassifikationsmodellen überprüft. Diese Klassifikationsmodelle werden zuvor anhand der Metadaten und Labels der jeweiligen Dokumente mithilfe von Machine-Learning-Algorithmen berechnet. Die Ergebnisse der jeweiligen Topic-Modelle werden anschließend mit den Klassifikationsmodellen analysiert, um die Genauigkeit der Modelle abschätzen zu können.‍[40] Die Dokumentklassifikation kann für unsere Korpora nicht verwendet werden, da keine externen Labels oder Klassifikationen vorhanden sind, die mit den Topics verglichen werden könnten.

[90]Schließlich berechnet das Topic-Kohärenzmaß das Vorkommen zweier Wörter aus einer Topic-Liste in einem Referenzkorpus und gibt so Aufschluss über die Qualität der Modelle. Die Idee ist, dass es ein Hinweis auf die semantische Relation beider Wörter ist, wenn sie in einem anderen Datensatz zusammen vorkommen.‍[41]

5.1.1 Verwendete Metriken

[91]Die Gensim-Pipeline besitzt vier implementierte Metriken zur Berechnung eines Kohärenzmaßes: C_NPMI, C_UMass, C_UCI und C_V. Mithilfe dieser Metriken können Durchschnittswerte für die jeweiligen Topic-Listen berechnet und so Aussagen darüber getroffen werden, ob ein Topic eine gute oder schlechte Qualität besitzt. Gensim orientiert sich bei der Implementierung der Metriken an einem Ansatz von Michael Röder, Andreas Both und Alexander Hinneburg, der die Berechnung jedes Kohärenzmaßes als Abfolge von vier verschiedenen Analyseschritten beschreibt: Segmentation, Wahrscheinlichkeitsrechnung, Confirmation Measure und Aggregation.‍[42] Da jeder dieser Analyseschritte auf unterschiedliche Art und Weise durchgeführt wird, kann jedes Kohärenzmaß als Abfolge dieser vier Schritte in unterschiedlicher Kombination der Parameter verstanden werden.

[92]Segmentation: Das Verfahren, in dem die einzelnen Wörter systematisch zu verschiedenen Wortpaaren zusammengesetzt werden.

[93]Wahrscheinlichkeitsrechnung: Um die Wahrscheinlichkeit eines Wortpaares zu bestimmen, wird betrachtet, wie oft beide Wörter in einem Szenario vorkommen, dividiert durch die Anzahl aller Szenarien. Dies kann auf Basis der Dokumente (boolean document), der Paragraphen (boolean paragraph) oder der einzelnen Sätze (boolean sentence) erfolgen. Ein weiteres Szenario ist das sliding window (boolean sliding window). Hierbei werden die Dokumente in neue Dokumente aufgeteilt, indem ein Wortfenster mit einer bestimmten Größe (Anzahl von Worten) immer um ein Wort weitergeschoben wird. Die Berechnung erfolgt nach boolean document mit den neu geschaffenen Dokumenten als neue Gesamtmenge.

[94]Confirmation Measure: Beschreibt die Berechnungsart, auf deren Grundlage die abhängige Wahrscheinlichkeit von zwei Wörtern zueinander festgelegt wird. Dabei wird zwischen einer direkten und indirekten Berechnung unterschieden. Die direkte Berechnung berücksichtigt jeweils nur das unmittelbare Verhältnis von zwei Wörtern zueinander und berechnet demnach die Wahrscheinlichkeit direkt. Die indirekte Berechnung vergleicht das Verhältnis der beiden Wörter jeweils zum gesamten Wortschatz und vergleicht Ergebnisse miteinander. Je ähnlicher sich diese Ergebnisse sind, desto stärker ist die Abhängigkeit der beiden zu untersuchenden Wörter.

[95]Aggregation: Berechnungsart, um die Kohärenzwerte aller berechneten Wortpaare zu einer Topic-Kohärenz und zu einer Modellkohärenz zusammenzufassen. Da dieser Schritt bei allen vier Metriken gleich erfolgt, wird er nicht weiter thematisiert.

[96]Der C_UCI basiert auf der Pointwise Mutual Information (PMI), einem Ansatz der Informationstheorie, dessen Grundlage die statistische Abhängigkeit zweier zufälliger Variablen innerhalb eines Textes ist.‍[43] Der PMI misst, inwiefern die tatsächliche Wahrscheinlichkeit des Auftretens eines Wortpaares von dem abweicht, was auf Grundlage der Wahrscheinlichkeit der einzelnen Ereignisse und der Annahme der Unabhängigkeit beider Wörter erwartet wird.‍[44] Die Wortpaare werden gebildet, indem jedes einzelne Wort einer Topic-Liste mit jedem anderen Wort dieser Liste verbunden wird. Die Wahrscheinlichkeitsrechnung erfolgt mit einem Sliding Window mit einer Größe von zehn Wörtern. Der PMI dient als Confirmation Measure und wird in Gensim als log_ratio_measure benannt. Ein PMI-Wert von 0 beschreibt, dass zwei Wörter unabhängig voneinander auftauchen. Je größer der PMI-Wert ist, desto kohärenter ist das Topic Model.

[97]Der C_NPMI basiert auf dem Normalized Pointwise Mutual Information Score (NPMI) und ist eine Weiterentwicklung des PMI.‍[45] Gerlof Bouma erklärt in seiner Forschungsarbeit dazu, dass der PMI keinen festen oberen Grenzwert besitze und so Wortpaare, die nur zusammen auftauchen, einen höheren PMI-Wert bekommen, wenn die Kombinationen eine geringere Frequenz haben. Da es keine Obergrenze gibt, macht es nach Bouma den Vergleich der Wortpaare untereinander schwierig, denn die einzige feste Aussage ist, wie nah der Wert im Vergleich zu den anderen Werten an 0 ist und damit, wie unabhängig beide Wörter sind.‍[46] Deshalb schlägt er eine Normalisierung des PMI vor, indem es einen oberen Grenzwert von 1 gibt, einen festen 0-Wert und eine untere Grenze von -1. Bei einem Wert von 1 treten die beiden Wörter ausschließlich gemeinsam auf, bei einem Wert von 0 gibt es keine Abweichung von der Wahrscheinlichkeit der einzelnen Wörter und der Annahme ihrer Unabhängigkeit, sie treten quasi zufällig zusammen auf, bei -1 einzeln, aber nicht gemeinsam.‍[47] Diese Erweiterung wird im Confirmation Measure verwendet, sie normalisiert in Gensim den log_ratio_measure. Die Segmentierung bleibt gegenüber dem UCI gleich und bildet Wortpaare, indem jedes einzelne Wort der Liste mit jedem anderen einzelnen Wort verbunden wird. Das Sliding Window hat ebenfalls eine Größe von zehn Wörtern. Je näher der Wert des Scores an 1 ist, desto kohärenter ist das Modell.

[98]Der C_UMass‍[48] erweitert ebenfalls den PMI und fokussiert sich dabei auf die bedingte Wahrscheinlichkeit eines Wortes im Verhältnis zu den anderen Wörtern einer Topic-Liste, die höher gewichtet wurden. Demnach ist die Wahrscheinlichkeit, dass ein Wort in einem Dokument vorkommt, höher, wenn das vorherige Wort in der Topic-Liste bereits in diesem Dokument vorgekommen ist.‍[49] Diese Erweiterung wird in Gensim als Confirmation Measure verwendet und log_conditional_probability genannt. Die Wortpaare werden gebildet, indem jedes Wort der Topic-Liste nur mit jedem höher gewichteten Wort der Liste kombiniert wird. Die Wahrscheinlichkeit wird mit boolean documents berechnet.

[99]Die systematische Gliederung der einzelnen Kohärenzmaße erlaubt es, die vier einzelnen Komponenten Segmentation, Wahrscheinlichkeitsrechnung, Confirmation Measure und Aggregation neu zu kombinieren. Röder et al. entwickeln in ihrem Aufsatz eine neue Metrik, den C_V‍[50], der nach ausgiebigen Versuchen und Vergleichen mit über 237.912 Kohärenzmaßen die besten Ergebnisse in ihrem Versuchsaufbau lieferte.‍[51] Die Wortpaare werden im C_V nach dem Prinzip gebildet, dass jedes Wort zur Bildung der Wortpaare bereits Teil der Menge ist. Das Sliding Window hat in Gensim standardmäßig eine Größe von 110 Wörtern. Es wird ein indirekter Confirmation Measure verwendet, die Cosinus-Ähnlichkeit.‍[52] Hierbei wird mit einbezogen, dass Wörter sich auch dann semantisch unterstützen, wenn sie selbst kaum zusammen auftauchen.‍[53] Je höher der Wert ist, desto kohärenter ist das Topic Model.

[100]Alle hier vorgestellten Metriken verwenden in ihrer ursprünglichen Form Wikipedia als Referenzkorpus – was aufgrund der unterschiedlichen Sprachstufen (Mittelhochdeutsch, Deutsch des 19. Jahrhunderts und gesprochene Sprache) sowie der inhaltlichen Gattung (Enzyklopädie gegenüber unterschiedlichster Themencluster) die Probleme bei der Applikation deutlich macht.‍[54]

5.1.2 Evaluation der Korpora über die Metriken

[101]Um die optimale Topic-Anzahl für die drei hier behandelten Korpora zu ermitteln, haben wir eine Evaluationsroutine durchgeführt, die auf den vier vorgestellten Metriken in Gensim basiert. Dabei wurden verschiedene Modelle mit unterschiedlichen Topic-Anzahlen und die vier Metriken berechnet sowie in eine Grafik zur visuellen Auswertung übertragen. Dies ermöglicht es, über den Verlauf der Diagramme Annäherungen von optimalen Topic-Einstellungen zu finden. Die Modelle wurden auf der Grundlage der Ergebnisse der Preprocessing-Untersuchungen berechnet:

LUSIR: Stopwords entfernt, Chunks von jeweils 50 Sätzen, lemmatisiert
Spätmittelalterliche Chronikhandschriften (SMCH): Stopwords entfernt, Chunks von jeweils 500 Wörtern
Zürich Regierungsratsprotokolle (ZRRP): Stopwords entfernt, kein Chunking

[102]Für keines der Korpora wurde ein separates Referenzkorpus verwendet. Röder et al. kommen zwar in ihren Untersuchungen zu dem Ergebnis, dass die Metriken mit Wikipedia als Referenzkorpus optimal funktionieren, jedoch lässt sich das auf die hier verwendeten Quellen nicht übertragen. Bei LUSIR handelt es sich um gesprochene Sprache, die sich stark von geschriebener Sprache unterscheidet. Die anderen Korpora bestehen aus historischen Quellen mit Sprachstufen, die in Wikipedia nicht repräsentiert sind. Deshalb wurden die Korpora selbst als jeweilige Referenzkorpora verwendet.

[103]Wie bereits erwähnt, ist das Sliding Window für den C_V standardmäßig auf 110 Wörter eingestellt. Die einzelnen Chunks des LUSIR-Korpus bestehen allerdings nur aus jeweils 50 Sätzen, die nach dem Preprocessing eine Länge von durchschnittlich 98 Wörtern ergeben. Da die Chunks als eigenständige Dokumente vom C_V zur Erstellung der neuen Dokumente durch das Sliding Window verwendet werden, entstehen hier natürlich deutlich kürzere Dokumente als von der Metrik gewünscht. In einem Testdurchlauf wurden anstatt der Chunks die kompletten Interviews als Referenzkorpus verwendet; allerdings haben die Ergebnisse keine relevanten Unterschiede gezeigt, weshalb die Standardeinstellungen für die Evaluation beibehalten wurden.

[104]In einem ersten Schritt wurden Topic-Modelle zwischen 50 und 1.000 Topics in 50er-Schritten berechnet.‍[55] Dieses sehr groß gefasste Fenster soll einen ersten Überblick über die Entwicklung der Metriken geben und helfen, einen Bereich für eine detailliertere Untersuchung zu finden. Die Graphen des C_NPMI und C_UCI zeigen sehr deutlich, dass beide Metriken auf Grundlage des PMI berechnet werden. Die Verläufe sind quasi identisch, nur zeigt sich die Normalisierung des C_NPMI in der Verschiebung auf der Y-Achse. Die von uns verwendeten Metriken optimieren zu einem Maximum hin. Würden sich also die Topic-Modelle verbessern, wäre dies anhand eines Anstiegs in den Graphen abzulesen.

Abb. 2: Evaluation 50–1.000 Topic-Anzahl in 50er-Schritten. [Grafik: Möbus et al. 2026]

[105]Alle vier Metriken zeigen jedoch einen konstanten Abfall der Kohärenzwerte bei steigender Topic-Anzahl, der sich einem Minimalwert annähert. Lediglich der C_UMass des LUSIR-Korpus scheint auch nach 1.000 Topics weiter abzufallen, der C_UCI des SMCH-Korpus zeigt eine leichte Steigung nach 400 Topics. Anhand dieser Ergebnisse können wir keine Aussage darüber treffen, welche Topic-Modelle mit welcher Topic-Anzahl besser sind, da keiner der Kohärenzwerte den Anfangswert übersteigt und somit keine Optimierung der Metriken stattfindet. Die Schlussfolgerung ist, dass alle Modelle mit mehr als 50 Topics schlechter sind und keine Verbesserung stattfindet.

[106]Da die Schritte von 50 Topics pro Modell sehr groß sind und der Bereich von 50 bis 1.000 sehr weitreichend, zoomen wir im nächsten Analyseschritt weiter in die Topic-Modelle hinein. Es werden Modelle mit einer Topic-Anzahl von 20 Topics bis 500 Topics in 20er-Schritten berechnet.

Abb. 3: Evaluation 20–500 Topic-Anzahl in 20er-Schritten. [Grafik: Möbus et al. 2026]

[107]Die Ergebnisse der feingranularen Analyse zeigen weiterhin einen konstanten Abfall der Metriken, ohne dass eine eindeutige Optimierung erkennbar wird. Zwar findet im Anfangsbereich des C_V bei allen drei Korpora ein leichter Anstieg statt, jedoch ist der Ausschlag sehr gering und liefert somit keinen eindeutigen Hinweis auf die optimale Topic-Anzahl.

[108]In einem letzten Schritt haben wir in einer Feinanalyse die Metriken in einem noch kleineren Bereich von 5 bis 300 Topics mit 5er-Schritten berechnet.

Abb. 4: Evaluation 5–300 Topic-Anzahl in 5er-Schritten. [Grafik: Möbus et al. 2026]

[109]Auch diese feinste Analyse bestätigt die Erkenntnisse, die sich schon in der ersten Analyse abgezeichnet haben: die Metriken fallen – auf den Gesamtverlauf bezogen – konstant ab. Am deutlichsten ist dies bei den Graphen von C_NPMI, C_UCI und C_UMass zu sehen. Zwar befindet sich der Graph für das LUSIR- und ZRRP-Korpus im C_NPMI zwischen 0 und 130 Topics im positiven Bereich. Jedoch ist der Kohärenzwert mit 0,05 sehr gering und so wenig aussagekräftig, dass daraus kein Hinweis für gute Topic-Modelling-Ergebnisse abgeleitet werden kann.

[110]Die Werte des C_V verhalten sich ähnlich. Die Kohärenzwerte für das ZRRP- und das LUSIR-Korpus zeigen einen kurzen Anstieg nach dem Anfangswert, fallen danach aber konstant ab, unterbrochen von einzelnen Ausreißern. Das SMCH-Korpus bildet zwischen 5 und 70 Topics ein Plateau, jedoch bewegt sich der Ausschlag in einem Bereich von 0,02 Unterschied im Kohärenzwert. Insofern ist hier die Frage, wo der qualitative Unterschied liegt, wenn sich die Werte selbst so minimal unterscheiden. Hinzu kommt, dass die Werte bis zum Maximum sehr schwanken. Dieses Phänomen ist bei allen drei Korpora zu beobachten. Die Schwankungen in den Werten selbst zeigen eine gewisse Inkonsistenz, die keine eindeutige Entscheidung für die Topic-Anzahl mithilfe des C_V zulässt. Die einzelnen Werte des C_V folgen keinem nachvollziehbaren System, sodass die minimalen Schwankungen zwischen den verschiedenen Werten zufällig erscheinen und nicht für eine qualitative Evaluation genutzt werden können.

[111]Leider gibt es keinen objektiven Schwellenwert, mit dem wir arbeiten können. Voruntersuchungen haben gezeigt, dass Modelle für lebensgeschichtliche Interviews, die nach qualitativer Auswertung gute Ergebnisse darstellen, einen C_V Wert von um 0,45 hatten. Wenn wir diesen Schwellenwert auf alle Korpora anwenden, erhalten wir für das ZRRP-Korpus 60 Modelle, für das SMC-Korpus um die 40 und für das LUSIR-Korpus 20 Modelle, die quantitativ gute Topic-Modelle ergeben sollen. Das sind aber zu viele Modelle, um anhand der Ergebnisse eine eindeutige Entscheidung zu treffen. Letztendlich können wir die Ergebnisse des C_V nicht zur Beurteilung der optimalen Topic-Anzahl nutzen. Die anderen drei Metriken können dafür ebenfalls nicht herangezogen werden, da sie einen konstanten Abfall anzeigen. Die schlechte Performance dieser drei Metriken lässt sich auf die Berechnungsart zurückführen: Alle drei Metriken berechnen die Werte für jedes einzelne Topic und bilden dann einen durchschnittlichen Gesamtscore. Keli Du hat ebenfalls mithilfe des C_NPMI die verschiedenen Topic-Anzahlen verglichen und auf dieser Grundlage einen Boxplot erstellt. Darin ist gut zu erkennen, dass der Durchschnittswert bei steigender Topic-Anzahl sinkt:

Abb. 5: C_NPMI-Werte-Verteilung der Topics im Verhältnis zu ihrer Anzahl. [Aus: Du 2024, S. 88]

[112]Zwar steigt bei wachsender Topic-Anzahl die Menge an qualitativ hochwertigen Topics (hoher C_NPMI). Jedoch wird die Menge an schlechten Topics ebenso größer, sodass der Durchschnittswert insgesamt immer schlechter wird. Somit müsste für den Mallet-Wrapper der Gensim-Pipeline erst eine solche Box-Plot-Variante geschrieben werden, um zu testen, ob dieser Ansatz für unsere Daten möglich wäre.

5.1.3 Bewertung der quantitativen Evaluation

[113]Diese Ergebnisse bestätigen Positionen aktueller Forschungsdebatten, die die Relevanz von Kohärenzmaßen infrage stellen.‍[56] Besonders für unterschiedliche Datentypen ist es schwierig, ein einheitliches allgemeines Evaluationssystem zu entwickeln, da die Qualität eines Topic Models immer von den jeweiligen Forschungsdaten und besonders von der Forschungsfrage abhängig ist.‍[57] Es wird sich zeigen, ob neue automatische Evaluationsmethoden entwickelt werden können, die diese Lücke schließen. So gibt es bereits Ansätze, die LLMs bei der Bewertung von Topic Modeling einbeziehen.‍[58] Jedoch kann diese Methode nicht auf die lebensgeschichtlichen Interviews angewandt werden, da diese sensiblen Daten schutzbedürftig sind und nicht in die aktuellen Pipelines eingespeist werden dürfen. Insgesamt ist es eine Herausforderung, Topic-Modelle und die Ergebnisse zu bewerten und miteinander zu vergleichen, unabhängig vom quantitativen oder qualitativen Ansatz. Unsere eigenen Untersuchungen haben gezeigt, dass bei der menschlichen Bewertung und dem Labeling von Topics die Einschätzungen und die Meinungen auseinandergehen, was ein gutes Topic ist, ob es konsistent ist und welches Thema dieses Topic beschreibt.‍[59] Da das Forschungsinteresse einen großen Einfluss auf die Bewertung hat und sich bisher nicht in die automatischen Metriken einbinden lässt, wenden wir bei der Suche nach der optimalen Topic-Anzahl einen qualitativen Ansatz an.

5.2 Qualitative Evaluation

[114]Über die Beurteilung der Ergebnisse eines Topic-Modells – die unmittelbar mit der Schätzung der optimalen Topic-Anzahl verbunden ist – wird seit langem intensiv interdisziplinär debattiert.‍[60] Ausgehend von diesen Diskussionsbeiträgen haben Philipp Bayerschmidt und Dennis Möbus in einer Forschungsarbeit für die Berechnung eines sammlungsübergreifenden Topic-Modells für über 1.000 lebensgeschichtliche Interviews aus 6 verschiedenen Archiven ein qualitatives Vorgehen zur Bestimmung der Topic-Anzahl gewählt. Dabei werden in einem systematischen, computergestützten Verfahren zunächst Modelle mit sehr kleiner und großer Anzahl berechnet, beispielsweise 50 und 500. Anschließend werden die Topic-Listen, einzelne Textpassagen und die Topic-Verteilung kursorisch analysiert, um einen Eindruck zu bekommen, ob die Anzahl zu hoch oder zu niedrig ist. Bei zu niedriger Anzahl verschmelzen in den Topic-Listen mehrere Themen zu einem Topic, bei zu hoher Anzahl sind die Listen redundant, Themen zerfasern oder sind überspezifisch repräsentiert. Die beiden Grenzen werden einander nach und nach in größeren Schritten angenähert und fortlaufend bewertet und verglichen, um letztendlich den Punkt zu finden, an dem der ideale Wert erreicht ist – abhängig vom Anwendungszweck und dem Forschungsinteresse.‍[61] So können wenige, sehr allgemeine Topics helfen, große Quellenbestände zu sichten, während sehr detaillierte Topics den Blick auf Randphänomene lenken können.

5.2.1 Lebensgeschichtliche Interviews

Distant Reading der Topic-Listen

[115]Betrachtet man die oben im Preprocessing exemplarisch herangezogenen Modelle mit 20 Topics auf nicht gechunkten Transkripten in der Breite, fällt auf, dass dominante Themen mehrere Topics in Anspruch nehmen, während kleinere Themen miteinander vermischt oder anderen Topics beigemischt werden. Beispielsweise finden sich 5 Topics, die verschiedene Facetten der Montanindustrie im Ruhrgebiet behandeln, wohingegen Schule und Studium vermischt werden, obwohl Schule ein bedeutender Teil aller Biographien ist und das Studium eine Ausnahme darstellt:

4 [studieren, abitur, semester, schwester, fulda, münchen, schrecklich, praxis, bonn, professor, godesberg, richtung, studium, freundin, medizin, patienten, bevölkerung, blum, wattenscheid, münster, paris, münsterland, verwandt, krankenhaus, doktor, köln, ge, kaputt, positiv, französisch, examen, wuppertal, amerikanisch, luftschutzkeller, arbeitsdienst, kontakt, arzt, freiheit, kollegen, bein, staatsexamen, schülerinnen, sommer, eng, feiern, vorlesungen, halle, schwestern, flak, wesentlich]

[116]Das spricht einerseits deutlich dafür, dass 20 Topics zu wenig sind, um die komplexen Themengebiete lebensgeschichtlicher Interviews zu repräsentieren. Dafür spricht auch, dass 5 Topics kein klares Thema repräsentieren, sondern Zusammenstellungen verschiedener Aspekte sind:

10 [schreiben, zeitung, handelsblatt, politik, wahnsinnig, vogel, scholven, nazis, heut, kollegen, redaktion, fußball, politisch, buer, freiheit, düsseldorf, schlagen, münchen, menge, melchers, pfarrer, lehrer, ha, link, lindau, waz, chefredakteur, verhaften, sport, schwester, franzosen, lernen, geschichte, kpd, technisch, kruse, redakteur, arbeitsdienst, moers, wissen, lizenz, bauen, berlin, lyceum, ständig, ge, gewerkschaft, hund, mim, kennenlernen]

[117]Andererseits kann dieses Rauschen ein Hinweis auf einen zu großen Umfang der einzelnen Dokumente sein und der Blick in die Topic-Liste den Sinn des Chunkings unterstreichen. Tatsächlich sind die 20 Topics im gechunkten Modell wesentlich konsistenter. Die Topics mit Bezug auf die Ruhrgebietsindustrie haben sich auf 3 reduziert und sind inhaltlich klar differenziert in die Bereiche ›Fabrikarbeit‹ (Topic 4), ›Untertage‹ (Topic 9) und ›Arbeiter*inneninteressenvertretung‹ (Topic 15) (vgl. Tabelle 3).

Topic-Nr.	Keywords
4	arbeit, arbeiten, meistern, schwer, betrieb, bochumer, verein, krieg, krupp, werk, maschine, maschinen, fabrik, bochum, mensch
9	zechen, bergbau, steiger, kohle, arbeit, meter, kumpel, arbeiten, schicht, bergleute, bergmann, wagen, kohlen, verdienen, ruhrgebiet
15	betriebsrat, betrieb, krupp, kollegen, gewerkschaft, firma, gewerkschaften, betriebsräte, essen, aeg, angestellt, alt, belegschaft, namen, arbeiter

Tab. 3: LUSIR 20 Topics Chunks à 50 Sätze, Topics mit Bezug auf die Ruhrgebietsindustrie.

[118]Schule (Topic 7) und Studium sind nach dem Chunking gut getrennt, allerdings wird das Studium nun einem Topic beigemischt, das Ausbildung und Büroarbeit repräsentiert (Topic 19). Dieses Topic sowie ein Topic, das Freizeit, Urlaub und Kultur vermischt (Topic 6), legen nahe, dass mehr Topics erforderlich sind, um die Interviews gut zu repräsentieren (vgl. Tabelle 4).

Topic-Nr.	Keywords
6	lesen, urlaub, tanzen, kino, radio, theater, feiern, fernsehen, interessieren, schöne, erinnern, zeitung, auto, mädchen, freundin
7	schule, lehrer, klasse, mädchen, lernen, eltern, lehrerin, kinder, schulen, volksschule, abitur, besuchen, bdm, essen, erinnern
19	studieren, chef, büro, lernen, abteilung, lehre, thyssen, arbeiten, ausbildung, beruf, arbeit, düsseldorf, semester, prüfung, arbeitsamt

Tab. 4: LUSIR 20 Topics Chunks à 50 Sätze, Topics mit Bezug auf Freizeit und Kultur, Schule und Studium, Ausbildung, Büroarbeit.

[119]Die Erhöhung der Topic-Anzahl auf 50 führt zu einer wesentlichen Differenzierung, die eine ganze Reihe konsistenter Topics hervorbringt. So spaltet sich das Topic zu Freizeit und Kultur in mehrere, semantisch kohärente Topics (vgl. Tabelle 5).

Topic-Nr.	Keywords
5	lesen, zeitung, schreiben, buch, bücher, zeitungen, handelsblatt, vogel, heißen, düsseldorf, literatur, freiheit, interessieren, interessant, artikel
20	kino, tanzen, radio, fernsehen, musik, erinnern, filme, film, theater, hören, spielen, interessieren, abends, lieb, spät
29	urlaub, auto, reisen, fahren, wochen, deutschland, ausland, freude, reise, spanien, schöne, österreich, kaufen, holland, wagen
34	wahren, sport, dingens, verein, fußball, sportverein, spielen, erinnern, turnverein, garnicht, arbeitersport, erinnerung, kriege, vereine, nennen

Tab. 5: LUSIR 50 Topics Chunks à 50 Sätze, Topics mit Bezug auf Printmedien (5), Freizeit und Kultur (20), Urlaub und Reisen (29) und Sport (34).

[120]Die Themen ›Schule‹, ›Studium‹ und ›Büroarbeit‹ werden nun sauber getrennt und auf 3 Topics verteilt (vgl. Tabelle 6).

Topic-Nr.	Keywords
3	studieren, semester, abitur, studium, professor, universität, bonn, examen, köln, münchen, münster, studenten, berlin, medizin, praxis
21	schule, lehrer, klasse, lehrerin, volksschule, lernen, schulen, abitur, besuchen, mädchen, eltern, unterricht, gymnasium, hoch, schulzeit
24	chef, büro, abteilung, firma, arbeit, lehre, lernen, thyssen, arbeiten, angestellt, einstellen, beruf, kollegen, kaufmännisch, betrieb, sekretärin

Tab. 6: LUSIR 50 Topics Chunks à 50 Sätze, Topics mit Bezug auf Studium (3), Schule (21) und Büroarbeit (24).

[121]Auch die Topics mit Ruhrgebietsbezug gewinnen noch einmal an Schärfe. Darüber hinaus entstehen historisch interessante Topics, die auf den immensen Themenpluralismus der Lebensgeschichten hinweisen – etwa zu ›Mobilität‹ (Topic 23), ›Wohnen‹ (Topic 28) und dem ›Rechtswesen‹ (Topic 48) (vgl. Tabelle 7).

Topic-Nr.	Keywords
23	fahren, zug, wagen, bahnhof, essen, unterwegs, ankommen, fahrrad, laufen, fuß, mitnehmen, straßenbahn, kilometer, sitzen, hinfahren, auto
28	wohnung, zimmer, wohnen, küche, schlafzimmer, schlafen, wohnzimmer, kinder, groß, wäsche, wohnungen, räume, wasser, eltern, möbel
48	rechtsanwalt, hattingen, bochum, alt, praxis, herne, anwalt, recklinghausen, stadt, gericht, tätigen, richter, akten, ähem, kriege

Tab. 7: LUSIR 50 Topics Chunks à 50 Sätze, Topics mit Bezug auf Mobilität (23), Wohnen (28) und Rechtswesen (48).

[122]Erhöht man die Topic-Anzahl auf 100, kann man eine deutliche Zerfaserung feststellen. Zwar kommen einzelne interessante Topics hinzu, wie ›Familienfeiern‹ (Topic 22), ›Photographie und Malerei‹ (Topic 26), ›Genussmittel‹ (Topic 45), ›Feldpost‹ (Topic 46), ›Arbeitslosigkeit‹ (Topic 59), ›Judenverfolgung‹ (Topic 75) oder die ›1950er Jahre‹ (Topic 98). Dafür enthält das Modell 6 Topics, die stark verrauscht sind, und 15 weitere, die auch bei näherer Betrachtung keinen Sinn ergeben. Darüber hinaus werden starke Themen in der Interviewsammlung auf sehr viele Topics gesplittet und verwaschen damit zusehends: Etwa 3 Topics, in denen Gewerkschaftsarbeit repräsentiert wird, und 9 Topics zu Industriearbeit (davon eins ausschließlich mit Bezug zum Unternehmen Krupp). Für die weitere Suche bedeutet das, den Sweetspot zwischen 50 und 100 Topics zu finden, indem beispielsweise ein Modell mit 75 Topics berechnet wird. Des Weiteren kann auch die Chunkgröße noch variiert werden, beispielsweise ein Modell mit 25 Sätzen pro Chunk und 75 Topics. Den gesamten Prozess hin zu einem finalen Modell, das mittlerweile produktiv auf der Plattform Oral-History.Digital genutzt wird, dokumentieren Bayerschmidt und Möbus in einem Aufsatz in der Zeitschrift BIOS.‍[62]

Scalable Readings zur Überprüfung der Topic-Repräsentation in den Texten

[123]Der abschließende Schritt der Evaluation ist ein Close Reading von Textstellen, die einem bestimmten Topic zugeordnet werden. Dazu können entweder deduktiv zu einem gewünschten Topic repräsentative Textstellen oder induktiv eine beliebige Interviewpassage mit den zugeordneten Topics ausgegeben werden.

[124]Wir wählen die deduktive Methode und ziehen als Beispiel das Bergbau-Topic des finalen Modells mit 50 Topics heran:

26 [zechen, bergbau, steiger, kohle, arbeiten, kohlen, schicht, meter, arbeit, wagen, bergleute, verdienen, bergmann, hauer, betriebsführer, schacht, kumpel, kumpels]

01:14:50.16	IP_KB	Früher hatten se mit Holz ausgebaut und heu- und seit 1949 da wurde der Bruchbau bei uns eingeführt, also Eisenausbau.
01:15:00.26	IP_KB	Und, äh, wenn, und da gibts extra im Streb n Zähler, n Stempelzähler, der zählt ob wir auch alle Stempel…
01:15:09.12	IP_EHEFRAU	Rausgeholt hatten. [lacht]
01:15:10.00	IP_KB	Rausgeholt haben.
01:15:11.22	IP_KB	Und wenn welche fehlen kriegen wir weniger Prämie.
01:15:16.16	IP_KB	Zum Beispiel, es sind im Streb drinne, gegen tausend Stempel, sind gewöhnlich drin bei 200 Meter Länge.
01:15:26.20	IP_KB	1.000 Stempel und die eisernen Kappen, die oben das, das Hangende halten, zwischen den Stempeln immer.
01:15:30.19	IP_EHEFRAU	Da sind so zwei Stempel und dann obendrauf sone Verbindung.
01:15:33.10	IP_KB	Und wenn nu jetzt, jetzt zählt der Mann, der zählt jede Schicht, das is n alter Kumpel, schon so n Invalide, der zählt ob wir auch das ganze Eisen gerettet haben.
01:15:43.10	IP_KB	Das es nicht verschwindet, also das, also wenn der Bruch kommt, man muss da ziemlich schnell arbeiten, äh, man- manchmal schlägt man den Stempel weg mit der Kappe, fällt runter der Stempel, schnell musst man ihn wegziehn eh das Gebirge kommt. Sonst, sonst…
01:15:56.20	IP_EHEFRAU	Es fällt ja nach.
01:15:57.20	IP_KB	Es fällt nach, nich.
01:15:58.29	IP KB	Und wir kriegten pro Stempel, pro Schicht 2 Mark Eisenprämie.
01:16:06.28	IP_KB	Fehlen aber Stempel…
01:16:08.11	IP_EHEFRAU	Dann kam die Prämie nicht. [lacht]
01:16:10.00	IP_KB	Is die Präm- die Prämie-, wenn jetzt zum Beispiel 50 Stempel fehlen und 50 Kappen, is die Prämie weg, fürn ganzen Monat.
01:16:17.17	IP_KB	Damit jeder, äh…
01:16:18.21	IP_EHEFRAU	Ehrgeiz bringt.
01:16:19.25	IP_KB	Und von uns 6 Mann bringt…
01:16:20.30	INT_IG	Ja.
01:16:22.00	IP_KB	Jedes Eisenteil auch nicht untern Bruch gehen zu lassen sondern es, es muss da sein.
01:16:29.08	INT_IG	Das war doch aber manchmal auch ein Risiko, ne, dabei.
01:16:31.14	IP_EHEFRAU	Oh, da war ein ganz großes.
01:16:32.00	IP_KB	Äh, ja.
01:16:33.06	INT_IG	Ich meine son Stempel da zu retten, wenn das Gebirge also sehr schnell da nach rutschte.
01:16:36.10	IP_KB	Ja, und dann musste man sich, und da musste man den Stein, die Steine wegdingen, jetzt waren manchmal große Brocken runtergekommen.
01:16:42.26	IP_KB	Ja, da hat man dann Hilfsmittel bei, son Hubzug mit der Kette, das man rauszieht, nich.

Tab. 8: Eine für das Topic 26 (›Bergbau‹) repräsentative Interviewpassage.

[125]Dieses Chunk ist mit einem Topic Weight – also dem Gewicht, das ein Topic für eine Textpassage bekommt – von 0,8 extrem hoch und entsprechend einschlägig ist auch der Inhalt der Textpassage (Tabelle 8). Da in einem Forschungsprojekt zur Sozialgeschichte des Ruhrgebiets zwangsläufig viel über Bergbau gesprochen wird und eine qualitative Evaluation möglichst viele Facetten eines Modells berücksichtigen sollte, ziehen wir exemplarisch noch ein zweites Topic heran und stellen der Arbeit nun die ›Kultur‹ (Topic 20) gegenüber:

20 [kino, tanzen, radio, fernsehen, musik, erinnern, filme, film, theater, hören, spielen, interessieren, abends, lieb, spät]

00:01:26.08	IP_WB	Ja, also ich würde sagen, Gründgens hat mir schon imponiert.
00:01:31.01	INT_MC	Ja.
00:01:40.03	IP_WB	Ähm. Film. [---] Kann mich jetzt an so einen, keinen [---] keinen besonders erinnern. Ich hab also nie, ähm, tja, für Filmschauspieler oder Filmschauspielerin oder so was geschwärmt. Aber ich erinnere mich an Filme mit Gründgens. Ich habe auch Gründgens auf der Bühne gesehen. Das hatte mir auch schon gefallen. Aber ich könnte jetzt im Moment nicht. Ich könnte natürlich noch einige Namen nennen. Aber ich ...
00:02:21.22	INT_MC	Also was Besonderes so ist Ihnen nicht in Erinnerung.
00:02:25.25	IP_WB	Nein.
00:02:27.05	INT_MC	Gut. Und sonst, Sie haben zwischen dreiunddreißig und fünfundvierzig geheiratet, ist das richtig.
00:02:31.19	IP_WB	Zwischen, nein. Ich hab
00:02:37.12	INT_MC	Oder erst nach dem Krieg.
00:02:40.17	IP_WB	während des Kriegs geheiratet. Ich würd sagen, ich habe 42 geheiratet.
00:02:45.07	INT_MC	Spielte der Ehestandsdarlehen oder Ariernachweise eine Rolle bei der Heirat. Können Sie sich daran erinnern.
00:02:55.14	IP_WB	Nein. Das, die besondere Schwierigkeit war, dass ich die Zustimmung des Oberbefehlshabers der Luftwaffe brauchte.
00:03:09.18	INT_MC	Ach so, Sie waren ja damals bei der Luftwaffe.
00:03:14.24	IP_WB	Ja. Das war schwer. Schwer zu erlangen damals. Aber sonst hat der keine Rolle gespielt, ob ich, nein, ich wollte sagen, ob ich ein Ehestandsdarlehen in Anspruch genommen habe, das weiß ich nicht, aber ich würde sagen, nein. Ich habe in Holland geheiratet, und ...
00:03:38.13	INT_MC	Ach so. Ja.
00:03:40.20	IP_WB	Kein
00:03:43.21	INT_MC	Haben Sie damals so sportliche Ereignisse verfolgt.
00:03:48.20	IP_WB	Ich weiß, dass die Olympiade stattgefunden hat.
00:03:53.13	INT_MC	Können Sie sich an die noch erinnern, an die Olympiade.
00:03:57.01	IP_WB	Ich bin nicht da gewesen. Habe nicht teilgenommen. Hab also keine besonderen Erinnerungen. Ich weiß, dass das damals irgendein Sprinter, einen amerikanischen Sprinter gab, der, wenn Sie den Namen nennen, würde ich den wahrscheinlich erkennen.
00:04:15.20	INT_MC	Mir fällt jetzt auch nur etwas wie Jessie ein.
00:04:20.16	IP_WB	Owens, oder sowas, ja.
00:04:23.10	INT_MC	Jessie Owens.
00:04:27.02	IP_WB	Ja, ja, ja. Das weiß ich, nicht. Und dann weiß ich, dass damals ein relativ hoher Anteil deutscher oder dass die deutschen Mannschaften insgesamt einen ziemlich viel Medaillen oder, gibt´s da Medaillen, oder so, bekommen haben.
00:04:51.12	INT_MC	So an Max Schmeling oder an diese Autorennen können Sie sich da erinnern.
00:04:55.25	IP_WB	Ich erinnere mich selbstverständlich an Max Schmeling, da hatten wir auch irgendwann mal einen Boxkampf in der Nacht gesehen, da - gehört, gehört, gehört, nicht gesehen. Und ich erinnere mich an Bernd Rosemeier, allgemein Autofahren, ähm, also der hat irgend, weiß nicht ob man das damals Formel eins nannte oder sowas, hat jedenfalls Autorennen gemacht. Wenn Sie mich nach anderen Fragen, werde ich vielleicht auch noch den einen oder anderen Namen, aber spontan fällt mir da eigentlich nichts ein, habe mich eigentlich für Sport auch nicht sonderlich interessiert.

Tab. 9: Eine für das Topic 20 (›Kultur‹) repräsentative Interviewpassage.

[126]Mit einem Gewicht von 0,7 schlägt auch dieses Topic deutlich durch und steht stellvertretend für die Vermischung von Sport und Kultur. Mit Topic 20 korreliert in dieser Passage (Tabelle 9) Topic 11, das ›Familie und Heirat‹ zum Thema hat, mit einem Gewicht von 0,11.‍[63] Dadurch ist auch der mittlere Teil der Passage gut repräsentiert.

5.2.2 Regierungsratsbeschlüsse

[127]Protokolle sind ein weitverbreitetes Genre und eine häufig genutzte Quelle der Geschichtswissenschaft, eine Vielzahl von Themen und Debatten werden in solchen Protokollen mehr oder minder ausführlich vorbereitet und schließlich als Entscheid festgehalten. Gerade für den Nachvollzug von Entscheidungen sind solche Dokumente entsprechend eine unerlässliche Quelle. Gleichzeitig gibt es eine Vielzahl von Themen, die wiederholt behandelt werden müssen und etwa jährlich wieder traktandiert und thematisiert werden. Als Konsequenz werden die Beschlüsse nur selten als Quellenkorpus ausgewertet, sondern traditionell sehr selektiv bearbeitet. Der hier beschriebene Ansatz versucht die Analyse eines Korpus, das in vielen Bereichen stark repetitiv und zudem einem semantischen Wandel unterworfen ist, der berücksichtigt werden muss.‍[64]

[128]Aufgrund der repetitiven Sprache und einiger extrem hochfrequenter Wörter sind v. a. die wenig umfangreichen Topic-Listen, d. h. wenn ›nur‹ 20 oder 50 Topics errechnet wurden, redundant. Anhand des Themas ›Finanzen‹ lässt sich das aufzeigen, wobei der Begriff eben nicht immer gleichbedeutend genutzt wurde und der ›Finanzrath‹ (vor 1848) eine andere Rolle einnahm als die ›Finanzdirektion‹ (nach 1848, als eigenes Departement) oder die ›Finanzcommißion‹ (nach 1848 als Kommission der Legislative). Obwohl der Coherence Score immer tiefer wird, je umfangreicher die Anzahl der Topics in den Modellen wird, lässt sich doch eine bessere Verortung der semantisch angepassten Verwendungen, etwa von Finanzen, feststellen. Das heißt: Der Begriff ›Finanzen‹ oder ein Kompositum von ›Finanz-‹ ist zwar in mehr Topics vorhanden, es wird jedoch sichtbar, welche Art von Finanzen zeitlich oder thematisch (Finanzen der Gerichte, Institutionen wie Krankenhäuser oder der Universität) tatsächlich thematisiert wird. Der tiefere Coherence Score ist entsprechend nur ein Beweis der ›besseren‹ Verteilung der (hochfrequenten) Stichwörter auf die Themen.

[129]Gerade bei 200 Topics lassen sich somit ausgesprochen saubere Themenkomplexe fassen, die beispielsweise zur Filterung eines Korpus zwecks Erstellung von Subkorpora genutzt werden können:

6 [gefangen, anstalt, aufsichtsbehörde, sträflinge, direktor, strafanstalt, inquisiten, täglich, tit, sträflingen, direktors, bediensteten, beamten, lassen, zellen, sorgen, sträfling, aufseher, hauses, kleidung, arzt, arbeit, krank, schaffner, lang, halten, etwas, entlassung, sich, verantwortlich]

[130]Das Themenfeld der ›Strafanstalt‹ ist dabei interessant, da es über den gesamten Zeitraum im Hoheitsgebiet des Kantons bleibt und entsprechend auch Themen kombiniert, die vor und nach der Gründung des Bundesstaates zentral waren.

[131]Wenn nur mit 20 Topics operiert wird, vermengt sich der Themenkreis mit zwar ähnlichen, jedoch klar abgrenzbaren Stichwörtern:

15 [anstalt, lehrer, dr, erziehungswesens, erziehungsrath, hochschule, erziehungsdirektion, schule, gefangen, direktor, erziehungsrathe, spitalpflege, schulgenossenschaft, schüler, sträflinge, aufsichtsbehörde, professor, prof, erziehungsrathes, aufsichtskommission, strafanstalt, zimmer, erforderlich, unterricht, krank, mein, zahl, derselbe, stunden, betreffend]

[132]Die gewonnene Verzweigung von Themen in den umfangreicheren Topics erscheint sinnvoller, wenn Topic Modeling als heuristisches Verfahren genutzt wird, um umfangreiche und auch nur teilweise interessante Korpora zu analysieren und gegebenenfalls zu verkleinern.

[133]Die Resultate wiederholen sich für alle Themen. Unter 50 Topics lassen sich aus den gewonnenen Wortlisten keine sinnvollen Einheiten mit mehr oder minder scharf trennbaren Themenbereichen gewinnen. Erst mit 50 oder besser noch 70 bis 100 Topics lassen sich Themenfelder eruieren, die thematische Abtrennungen vornehmen. Damit widerspricht der Distant-Reading-Ansatz den gewonnenen Resultaten der Metriken.

[134]Für ein exemplarisches Close Reading betrachten wir aus dem Modell mit 50 Topics jenes zum Erziehungswesen, das sich recht konsistent ausnimmt:

2 [schulgenossenschaft, schule, schulgemeinde, gemeinden, erziehungsrath, neu, erziehungsrathe, bezirksschulpflege, rafz, erziehungsrathes, schulhauses, schulpflege, erziehungsdirektion, kosten, schulhaus, erziehungswesens, beschließen, schulgenoßenschaft, schulhausbaute, schulgenossenschaften, dortig, lehrer, trennung, bisherig, unterstützung, besoldung, staatsbeitrag, schulen, vertheilung, fällen]

[175]Die Resolution mit der deutlichsten Ausprägung dieses Topics liest sich im Close Reading entsprechend einschlägig und belegt die Qualität des Modells:

»trennung d sek schulkreises wylrafz u erricht v zwei neuen kreisen betreffend trennung des bisherigen sekundarschulkreises wylrafz und errichtung einer sekundarschule in rafz hat sich ergeben a die gemeindsschulpflege rafz stellt mit zuschrift vom 8 l märz sic namens der dortigen schulgemeinde das gesuch um errichtung einer eigenen sekundarschule in rafz auf 1 mai 1873 und begründet dasselbe [...].«‍[65]

5.2.3 Mittelalterliche Handschriften

Distant Reading der Topic-Listen

[136]Die für eine erste Übersicht erstellten 20 Topics auf nicht gechunkten Dokumenten, die nicht mittels Stopwords oder Thresholds bereinigt wurden, sind für die spätmittelalterlichen Quellen nicht sehr aussagekräftig. Zwar lassen sich auch hier schon Themen erkennen, die mit den prozessierten Texten deutlicher hervortreten, wie die Alexandergeschichte oder die Weißenburg-Chronik (gelb markiert), aber hierfür ist viel Kontextwissen notwendig. Auch gibt es viel Verrauschungen durch Begriffe aus anderen Topics (orange markiert), ebenso sind mehrere Topics enthalten, die kaum bedeutungstragende Wörter aufweisen und so keinem Themenfeld zuzuordnen sind.

Topic-Nr.	Keywords
4	und, der, die, er, das, den, von, dem, mit, des, uff, im, als, nit, es, nach, man, sich, dar, sin, ander, ir, ist, wider, umb, sant, wie, kam, alle, noch, ich, da, sprach, tag, vil, aber, wol, gen, oder, gar, selben, hie, wan, stat, durch, doch, wolt, gottes, allen, disen
5	richset, dario, xxiiij, manigen, bringen, rate, kungin, lxxxvij, capitel, siy, swang, narses, asser, vosz, wurdn, belib, stiffte, bottschafft, ass, darius, balaan, laide, nasz, walunge, wyt, wil, nabal, fùrent,, ostùr, milt, gestarb,, zwain, hasz, wechen, sterbet, martus, dett, udaker, helliklich, gesetzte, gerichset, kom,, mùren, wabst, gefarn, belibe, damdes, lerte, wilt,, ech
17	von, vnd, zu, sie, die, das, unnd, auch, der, den, da, vnnd, man, mit, vor, wart, wan, anno, dem, ine, bey, ein, viel, weyssenburg, widder, nit, eyn, des, din, gem, es, hett, uff, dag, warent, dan, statt, de, stat, im, doch, sein, als, wie, uf, alle, alles, wardt, sich, andern

Tab. 10: Spätmittelalterliche Handschriften, 20 Topics, ohne Chunks, Topics ohne inhaltliche Ausrichtung (4), mit Bezug auf Alexandergeschichte (5) und die Weißenburg-Chronik (17).

[137]Eine Erhöhung der Topic-Anzahl auf 30, 50 und 100 auf den ungechunkten Texten führte zu stellenweise kohärenteren Topics, wie das Topic zur Weißenburg-Chronik. Andere Topics hingegen fielen heraus, wie die Alexandergeschichte:

Topic-Nr.	Keywords
25	weyssenburg, widder, gem, stat, dag, sagen, fangen, herren, grau, landt, anno, abt, herr, gewinnen, juncker, leut, weyssenbung, keyser,legen, liegen, schaden, baden, drey, babst, ludwig, thun, eynen, pfaltzgrauen, pfaltzgraue, gulden, manne, dannach, burger, kament, sant, weissenburg, vitter, arnach, pfaltz, auß, knecht, jacob, bischoff, inen, anne, gethan, stett, nechst, hertzog, ziehen

Tab. 11: Spätmittelalterliche Handschriften, 50 Topics, ohne Chunks mit Bezug auf Weißenburg-Chronik (25).

[138]Da auf den prozessierten Dokumenten 500er-Chunks als beste Größe erschien, wurden auch hierfür 30, 50 und 100 Topics erstellt und die Listen evaluiert. Eine eindeutige Aussage zur optimalen Anzahl Topics für dieses Korpus lässt sich dabei nicht treffen. Zwar kamen durch Erhöhung der Topic-Anzahl Themen hinzu, die bei 20 Topics nur erahnt werden können oder gar nicht erst auftauchen, wie beispielsweise zur biblischen Geschichte von Esau und Jakob und von dessen Sohn Joseph und seinen Brüdern (25). Auch das Topic um eine Rezeptsammlung tritt viel deutlicher hervor (3), und in manchen Topics sind weniger Fremdbegriffe (orange markiert), wie bei der Weißenburg-Chronik (22) oder der Ulrichslegende (28):

Topic-Nr.	Keywords
3	machen, sieden, losz, milch, bachen, bache, lot, wenne, biren, cꝭ, sinde, menge, stosz, mel, undernander, wasser, wilt, nemen, slach, steine, oley, ofen, klein, teig, wurtze, mandel, soͤlt, hafen, rot, hacken, setzen, wiltu, kalt, dn, eger, kernen, safferon, obe, enne, smaltz, sege, ilen, wurtz, pfanne, olen, zuch, heisz, schutte, ston, wiltn
22	weyssenburg, widder, gem, stat, sagen, fangen, dag, grau, herren, landt, gewinnen, herr, sant, leut, liegen, juncker, stett, schaden, gulden, legen, keyser, drey, ludwig, baden, kament, inen, pfaltzgraue, manne, eynen, thun, vitter, pfaltzgrauen, nechst, jacob, weissenburg, auß, dannach, pfaltz, arnach, hertzog, knecht, burger, gethan, werent, vonn, hett₎, dorff, pferden, bischof, hertzeg
25	jacob, joseph, sun, abrahain, korn, loch, segen, gebären, laban, bruder, vatter, geben, esan, vater, egipten, sara, engel, agar, essen, kinde, rachel, gehaissen, esaw, kinden, bruoder, pfister, trome, kindes, lieb, ysack, dochter, beschlieff, ensan, acker, jacop, jacobs, josephs, guoten, trom, rebetta, garben, sodoma, swanger, soltent, sprachent, guote, hies, ysaat, gang, erben
28	sant, uolrich, ulrich, bischoff, dy, sagen, uolrichs, grab, kirchen, hailigen, angspurg, ulrichs, frawen, ausz, selbs, tags, heren, mocht, pald, priester, adelbero, ansz, liesz, closter, ant, grosz, arnach, pfaffen, dienen, hann, selbig, leichnam, legen, capitel, wasser, kayser, pruder, menschen, stund, yederman, solichs, gesund, fast, volk, volbracht, mesz, nesz, kranck, singen, tisch

Tab. 12: Spätmittelalterliche Handschriften, 50 Topics, 500er-Chunks, Topics mit Bezug auf Rezepte (3), Weißenburg-Chronik (22), Joseph und seine Brüder (25), Ulrichslegende (28).

[139]Andererseits spalten sich manche Topics in mehrere auf, wie beispielsweise die Weißenburg-Chronik (22 und 46), und es tauchen mehrere Topics auf, die auch mit Kontextwissen nicht sinnvoll mit konkreten Inhalten verbunden werden können (u. a. 8, 18, 23). Bei 100 Topics verstärken sich diese Tendenzen: Zum einen tauchen weitere neue Topics auf bzw. werden detaillierter, wie ein neues Topic mit lateinischen Wörtern (6)‍[66] oder der Auszug aus Ägypten nach Josephs Traumdeutungen für den Pharao (90) (Fremdbegriffe orange markiert):

Topic-Nr.	Keywords
6	est, qui, nō, ut, ad, sunt, atqƺ, hec, qer, sut, vl̄, ac, qua, atqer, cordis, tu, essen, sua, cū, om̄ibus, omi, om̄i, cu, ecia, sic, quo, michi, minis, con, deus, fideliū, qualit, deo, divisio, om̄ibꝰ, pcta, hys, ea, dei, vl, aut, supbia, grad, qr, aliquis, sume, qs, sibi, videlz, multi
90	moyses, volk, meyses, wasser, berg, egipten, plage, sprachent, volke, gebieten, berge, gebott, gottes, voll, hiesz, ses, wort, gang, ersach, moises, ewarten, egipton, plag, josne, liegen, zaichen, daran, pharon, opfer, brot, vol, wundern, geschlecht, arche, senden, gezelte, fùrbas, reden, aaron, schlangen, wassers, aron, edel, gotte, sterben, volt, sante, giengent, wolken, geschlechte

Tab. 13: Spätmittelalterliche Handschriften, 50 Topics, 500er-Chunks, Topics mit lateinischen Begriffen (6) und dem Auszug aus Ägypten (90).

[140]Zum anderen verrauschen manche Topics, die bei geringerer Topic-Anzahl sehr konsistent waren, und einzelne Themen teilen sich auf mehrere Topics auf.

[141]Ähnlich wie bei den lebensgeschichtlichen Interviews könnten noch Listen mit 60, 70, 80 oder 90 Topics evaluiert werden, um den besten Kompromiss zwischen inhaltsstarken, aber auch differenzierten Topics ohne zu viel Rauschen zu finden, wobei die optimale Topic-Anzahl sicher auch von der Forschungsfrage bzw. vom geplanten Nutzen der Methode abhängt: Falls bereits Kontextwissen zur Textgrundlage vorhanden ist, erlaubt die Arbeit mit einer Liste von 20 Topics eine schnelle Orientierung und inhaltliche Einblicke. Bei vornehmlich unerschlossenen Dokumenten werden durch eine Erhöhung der Topic-Anzahl auch kleinere Themenfelder und damit auch Einzeltexte präziser aufgespürt, was eine gute Übersicht über die Inhalte bietet, aber durch die hohe Anzahl, die Zunahme der Nonsense-Topics und die Überschneidungen bzw. Verrauschungen in den einzelnen Topics sehr viel mehr Zeit in Anspruch nimmt.

Scalable Readings zur Überprüfung der Topic-Repräsentation in den Texten

[142]Der Wechsel von einem Distant in ein Close Reading von Textstellen, denen ein bestimmtes Topic zugewiesen wurde, stellt für (mitunter recht voluminöse) vormoderne Sammelhandschriften eine ganz neue Möglichkeit zur Erschließung und zur Arbeit mit der textuellen Überlieferung dar. Während in Handschriftenbeschreibungen Angaben zu Anfang und Ende von einzelnen Texten oder Textteilen enthalten sind, lassen sich konkrete Stellen nur mit größerem Suchaufwand finden. Wollte man beispielsweise den Umfang und die Ausgestaltung der Alexandergeschichte als Teil des ersten Kapitels der Twinger-Chronik im hier besprochenen Beispielkorpus vergleichen, müsste man innerhalb der Folioangaben für das Kapitel in den betreffenden vier Handschriften ([Dre1], [Fre2], [Hei4], [Mue5]) nach dieser Textstelle suchen – in der Handschrift [Mue5] wären dies 104 Folios / 208 Seiten, im Codex [Dre1] immerhin noch 33 Folios / 66 Seiten. Bei texterkannten Handschriften lässt sich natürlich nach Stichwörtern suchen, je nach Fehlerrate in der Texterkennung kann das allerdings auch länger dauern, und der Beginn eines bestimmten Themas / einer inhaltlichen Einheit lässt sich damit nicht sehr gut bestimmen. Durch ein Rückführen der Topics in konkrete Textstellen lässt sich der Suchprozess beschleunigen und ermöglicht ein direktes Close Reading der entsprechenden Passage(n):

[143]»disen brieff hies allexander lese vor sineer dienern de herschreckent su so sprach allernder zuo inen ir sollent uch nit forchtten von disem frouwende wissent ir nit das die hunde die all meist bellet die bissent aller muernest. «‍[67]

[144]»disen brieff hiesz allexander vor sinen dienern lesen do erschrakent sy so sprach allexander zuͦ in ir sùllent ich nit fùrhten von desen trowen wissent ir nit dz die hunde die vil bellend aller minst byssent.«‍[68]

[145]»disem brieff hiefs seler ander vor inen dieneren besen, do er schukent si do spnrach aleranden zo innen irsond ûch nit fûrchten von disem trowean wissent nt die hunde sie aber meist bellent, dz die aber mwust bu.«‍[69]

[146]»isen brieff hieflesen ward wale ander vor seinen diener lesen so erschrackent sy do sprach ale pander zuo innen ir sond ouch nit frrechten von disen trowen wissent ir nit die hund die aller maist bellent das die aller minst byssent.«‍[70]

[147]Trotz zahlreicher Fehler in der Texterkennung, Unterschieden im Satzbau und in der Schreibsprache – [Dre1] ist wohl im Straßburger Raum entstanden, [Fre2] und [Hei4] in Konstanz und [Mue5] in Augsburg – lässt sich ein Unterkapitel aus dem ersten Kapitel der Twingerchronik über das gemeinsame Topic sehr einfach aufspüren. Kontextwissen zu den untersuchten Handschriften ist sicherlich von Vorteil, also ein Wissen darum, ob bzw. in welchem Dokument ein gewisses Thema auftauchen könnte bzw. sollte. Für das Alexander-Topic musste der Threshold, also das Gewicht des Topics im Dokument, auf 0,38 gesenkt werden, um für alle vier Handschriften, die das entsprechende Unterkapitel der Twingerchronik enthalten, die dazugehörigen Textstellen zu erhalten; ab einem Threshold von 0,44 wird das Topic nur noch in [Dre1] und [Hei4] entdeckt, ab 0,54 taucht es nicht mehr auf. Dies liegt wohl vor allem am großen Umfang der Handschriften, Fehler in der Texterkennung tragen aber sicher auch dazu bei. Durch ein schrittweises Absenken des Thresholds lässt sich dabei nicht nur herausfinden, wie treffsicher bzw. trennscharf das Topic den Textstellen zugewiesen wird – im Alexanderbeispiel taucht erst ab einem Wert von 0,08 eine ›falsche‹ Passage auf, eine Stelle aus [Stu3], in der »persa« und ein »philippus« vorkommen, ohne dass es sich um die Alexandergeschichte handelt.‍[71] Zudem bietet diese Art von Quellenlesen die Möglichkeit, bisher unbekannte Texte in Handschriften aufzuspüren, gerade, wenn es sich um Codices handelt, die nur oberflächlich erschlossen sind.‍[72]

5.3 Weiteres Parametertuning: Iterationen

[148]Anhand des Interview-Korpus soll abschließend noch ein weiterer Parameter in den Blick genommen werden, die Iterationen, also Trainingsdurchläufe beim Topic-Modeling-Prozess. Ein Blick auf unterschiedlich hohe Iterationen (also wiederholte Durchläufe des Trainings) bringt keine klaren Erkenntnisse – bereits bei einem Optimized Interval von 50 bei 500 Iterationen liest sich das Bergbau-Topic recht konsistent, bei 200 / 2.000 ändert sich kaum etwas (der Fremdbegriff ›alt‹ fällt raus, dafür kommt ›nennen‹ hinzu). Bei 500 / 5.000 gibt es weitere graduelle Veränderungen, die durch Verschieben des Random Seeds allerdings wieder neutralisiert werden könnten – es finden sich unter den ersten 30 Keywords nur zwei Fremdbegriffe. Die vier Top-Termini bestehen in allen drei Modellen aus den gleichen Begriffen: ›Zechen‹, ›Bergbau‹, ›Steiger‹, ›Kohle‹.

50 / 500 bei Alpha 5	200 / 2.000	500 / 5.000
26 [zechen, bergbau, steiger, kohle, arbeit, meter, schicht, verdienen, bergmann, arbeiten, bergleute, wagen, hauer, stempel, geld, kumpels, kumpel, betriebsführer, alt, schacht, schachtanlage, robert, grube, walsum, bekommen, gedinge, steine, kohlen, leistung, vertrieben]	26 [steiger, bergbau, zechen, kohle, meter, schicht, verdienen, arbeiten, arbeit, wagen, bergmann, kumpel, hauer, bergleute, betriebsführer, kumpels, geld, stempel, gedinge, schacht, robert, vertrieben, leistung, grube, steine, nennen, bekommen, lohn, bohren, nachtschicht]	26 [steiger, bergbau, zechen, kohle, meter, schicht, arbeit, arbeiten, verdienen, bergmann, wagen, hauer, kumpel, betriebsführer, bergleute, stempel, geld, kumpels, robert, gedinge, leistung, grube, schacht, schachtanlage, vertrieben, nachtschicht, bohren, bergschule, lohn, schichten]

Tab. 14: Vergleich der Iteration anhand des Bergbau-Topics.

[149]In LDA können zwei weitere Parameter Alpha und Beta, sogenannte Hyperparameter, eingestellt werden. Dabei beeinflusst Alpha die Verteilung der Wahrscheinlichkeit der Topics in den Dokumenten und Beta die Verteilung der Wahrscheinlichkeit der Wörter in den Topics.‍[73] Der Mallet-Wrapper bietet die Funktion Optimized Interval, die eine interne Anpassung während der Berechnung vornimmt. Dabei wird eine Zahl vorgegeben, die besagt, ab welcher Anzahl an Iterationen die Anpassung der Hyperparameter stattfindet. Unsere Untersuchungen haben gezeigt, dass die Ergebnisse mit der Optimized-Interval-Option deutlich besser sind, weshalb sie bei allen Untersuchungen genutzt wurde. Für die Berechnung im Mallet-Wrapper kann für die ersten Berechnungen bis zum Opmitzied Interval ein Alpha-Wert vorgegeben werden. Alle drei Werte beeinflussen die Ergebnisse des Topic Modelings, eine detaillierte Evaluation dieser Werte würde aber den Rahmen dieses Workingpapers sprengen, besonders, da die Einflüsse der Werte sehr nuanciert ausfallen.‍[74]

6. LDA und vektorisiertes Topic Modeling im Vergleich

6.1 Einführung

[150]Abschließend sollen die aktuell gängigsten Topic-Modeling-Implementierungen begutachtet werden: Dabei beschränken wir uns auf LDA in JAVAs Mallet sowie BERTopic als vektorisierte Methode. Beide Methoden basieren auf der Idee, dass Wörter, die in ähnlichen Kontexten vorkommen, zugrundeliegende Themen in Texten repräsentieren. Vergleiche innerhalb der LDA-Umsetzungen existieren bereits, und unserer Ansicht nach ist die Mallet-Implementation überlegen.‍[75]

[151]LDA berechnet die Ähnlichkeit zweier Wörter in einem Dokument, indem an einem zufälligen Punkt (vgl. oben Kapitel 4.2) begonnen und die Wahrscheinlichkeit ihres gemeinsamen Auftretens vorausgesagt wird. In weiteren Iterationen werden ›bessere‹ (im Sinne von häufigeren) und entsprechend ›sinnvollere‹ Kombinationen von Wortpaaren ermittelt. Wörter werden in diesem Kontext als Zeichenketten verstanden und nur identische Ketten verglichen.

[152]Wie oben beschrieben, unterscheidet sich BERTopic grundlegend von LDA. Über das Verfahren werden auch ähnliche oder synonyme Wörter als ähnlich, jedoch nicht identisch verstanden und als Vektoren in naher Umgebung ausgedrückt. Dadurch wird der Kontext berücksichtigt: Homonyme (›Bank‹ als Sitzgelegenheit oder Geldinstitut) werden disambiguiert, indem dem einzelnen Wort je nach Kontext unterschiedliche Vektorwerte zugewiesen werden. Das bedeutet, dass die Dokumente nicht aus einzelnen Wörtern bestehen, sondern aus individuellen Vektoren, die in mehreren Dimensionen näher oder weiter voneinander entfernt sein können und damit die Verwandtschaft von Wörtern numerisch ausdrücken. Für den hier vorliegenden Vergleich mit BERTopic wurde sich weitestgehend an der Standardpipeline der offiziellen BERTopic-Dokumentation orientiert.‍[76]

[153]In diesem ersten Schritt wird eine Vektorrepräsentation des zugrundeliegenden Korpus erstellt. Dafür stehen verschiedene Verfahren und vortrainierte Modelle zur Verfügung – z. B. die für BERT und andere LLMs genutzten Transformer-Modelle oder Universal-Sentence-Encoder (USE). Da es sich um sehr spezifische Daten und einen Wortschatz handelt, der stark variiert, werden wir eigene Embeddings trainieren, was mit BERTopics Custom Embeddings ohne Weiteres ermöglicht wird. In einem zweiten Schritt werden die Dimensionen des Vektormodells reduziert. Dazu stehen eine Vielzahl von gängigen Verfahren aus der Mathematik, wie PCA, t-SNE und UMAP, zur Verfügung, die auch von Python-Bibliotheken wie SciKit Learn unterstützt werden. Für unsere Versuche haben wir uns bei UMAP bedient.

[154]Im nächsten Schritt werden die vektorisierten und dimensionsreduzierten Dokumente geclustert. Hierzu nutzt BERTopic als Standard HDBSCAN. Auch k-Means und weitere Clustering-Verfahren sind verfügbar, jedoch hat sich HDBSCAN als gut geeignet für das Topic Modeling herausgestellt. Es zählt zu den hierarchischen Clustering-Algorithmen und ermittelt nach Vorgabe der minimalen Clustergröße die optimale Anzahl an Clustern selbst.‍[77] Es folgen ein Count Vectorizer und das eigentliche Herzstück von BERTopic, das c-TF-IDF-Verfahren, das aus den zuvor erzeugten Clustern die letztliche Topic-Verteilung errechnet. Dafür wird jedes Cluster als ein Dokument betrachtet und dem TF-IDF-Maß zugeführt. TF-IDF steht für Term-Frequency Inverse-Document-Frequency und berechnet, welche Wörter unwahrscheinlich häufig in einem Dokument vorkommen. Es wird davon ausgegangen, dass die Verteilung von Wörtern in einer Sprache stabil ist: Gewisse Wörter kommen immer häufiger vor (etwa Pronomina wie ›sie‹, ›er‹, ›es‹). Pro Dokument wird daher die Häufigkeit von Wörtern gezählt und mit allen anderen Dokumenten verglichen. Wörter, die in einem oder wenigen Dokumenten überdurchschnittlich häufig auftauchen, scheinen daher ›wichtig‹ für dieses Dokument und werden zu einem Topic hinzugefügt.

[155]Was in der Theorie komplex und voraussetzungsvoll klingt, liefert in der Anwendung dank guter Implementierung in der Programmiersprache Python recht schnell konsistente Ergebnisse. Entgegen der Annahme, man benötige beim vektorisierten Topic Modeling kein Stopwordremoval, werden wir aber zeigen, dass das Entfernen der Stopwords auch im vektorisierten Topic Modeling einen entscheidenden Unterschied macht.

6.2 Anwendung

6.2.1 Lebensgeschichtliche Interviews (Stopwordremoval, Parametertuning und Chunking)

[156]Wie schon im LDA, ergibt ein Topic Modeling mit BERTopic ohne Stopwordremoval keine sinnvollen Ergebnisse, wie die folgenden vier Topics mit Spuren der Themen ›Ruhrgebietsindustrie‹ (14) und ›Bergbau‹ (32) zeigen:

14 [ja, krupp, die, der, das, nicht, da, war, und, man, dann, sie, äh, auch, ist, ich, haben, bei, aber, den, wenn, ne, nech, noch, von, hat, denn, hm, ein, wir]
32 [die, und, der, dann, war, ich, das, bergbau, ja, da, nach, auch, zu, sie, wir, für, haben, im, hatte, von, dem, waren, noch, hatten, gewesen, hat, hier, aber, gemacht, ein]

[157]Eine erste Kuriosität bei der Anwendung von BERTopic nach dem Stopwordremoval ist der Zusammenhang von Chunkgröße und automatisch bestimmter Topic-Anzahl. Nimmt man Chunks von 50 Sätzen, bekommt man 45 Topics – halbiert man die Chunks auf 25 Sätze, verdoppelt sich die Anzahl der Topics auf 90. Und der Trend setzt sich fort: reduziert man die Chunks auf 10 Sätze, erhält man 224 Topics. Dieses geradezu lineare Verhalten stellt die Zuverlässigkeit der Topic Estimation ohne weiteres Parametertuning – eine viel gepriesene Stärke von BERTopic – infrage.

[158]Um die Anzahl der Cluster zu beeinflussen, gibt es zwei entscheidende Parameter: min_topic_size und min_cluster_size (HDBSCAN-Parameter). In einem Versuchsaufbau mit einem auf 1.000 Dokumente reduzierten LUSIR-Korpus mit 50er-Chunks wurde zunächst der Parameter min_topic_size verändert. Eine Erhöhung um das Zehnfache (von der Standardeinstellung 10 auf 100) brachte genauso wenig Veränderung, wie die Halbierung des Standardwerts (von 10 auf 5). Zum Vergleich das Topic mit Spuren zur Ruhrgebietsindustrie – Standardeinstellung:

min_topic_size = 10:

0 [krupp, betrieb, betriebsrat, kommunisten, gewerkschaft, partei, gewählt, arbeit, kollegen, essen, gearbeitet, heißt, krieg, firma, 33]
min_topic_size = 100:

1 [krupp, betrieb, betriebsrat, kommunisten, partei, arbeit, gewählt, heißt, kollegen, krieg, akkord, gewerkschaft, gearbeitet, geld, mensch]
min_topic_size = 5:

1 [krupp, betrieb, betriebsrat, kommunisten, partei, gewerkschaft, gewählt, kollegen, arbeit, krieg, heißt, gearbeitet, 50, metall, essen]

[159]In einem nächsten Schritt wurde die min_topic_size wieder auf 10 gesetzt, dafür der Standardwert der min_cluster_size in der HDBSCAN-Instanz zunächst von 15 auf 30 verdoppelt, was zu einer Halbierung der Topic-Anzahl von acht auf vier führte. Entgegen der Erwartung, nun Topics zu erhalten, die allesamt extrem heterogen sind, bleibt das Topic zur Ruhrgebietsindustrie nahezu unverändert:

2 [krupp, betrieb, betriebsrat, arbeit, krieg, heißt, kommunisten, partei, gewählt, kollegen, gewerkschaft, gearbeitet, metall, geschichte, mensch]

[160]Eine Drittelung des min_cluster_size-Werts von 15 auf 5 führte zu einer Erhöhung der Topic-Anzahl von 8 auf 27. Wieder ist, entgegen der Erwartung, eine inhaltliche Straffung nicht festzustellen:

0 [krupp, betrieb, betriebsrat, arbeit, gewählt, partei, gearbeitet, heißt, essen, kollegen, firma, kommunisten, gewerkschaft, urlaub, krieg]

[161]Verändert man nun die min_topic_size, wird der Einfluss auch dieses Parameters deutlich: Erhöht man diese bei gleichzeitiger Absenkung der min_cluster_size, erhalten wir die größte Anzahl Topics, nämlich 32. Mit der Veränderung der reziproken Parameter min_topic_size und min_cluster_size (in der HDBSCAN-Instanz) ließe sich also, wenn man z. B. die Chunkgröße variieren möchte, die Topic-Anzahl in BERTopic anpassen. Dabei ist zu beachten, dass eine hohe (!) min_cluster_size die min_topic_size limitieren kann. Allerdings funktioniert die Verteilung der tatsächlichen Themen auf die Anzahl der Topics anders als bei der LDA: Anstatt mehrere Themen in einem Topic zusammenzufassen, fallen weniger dominante Themen aus dem Modell heraus. Eine mögliche Erklärung ist, dass das Clustering, im Gegensatz zum LDA-Verfahren, harte Grenzen zieht. Für eine systematische Estimation eines eigenen Modells verweisen wir auf Kapitel 5, die dort etablierte Methode kann ebenso auf die BERTopic-Parameter min_cluster_size und min_topic_size angewendet werden. Zur Reproduzierbarkeit kann auch bei BERTopic ein Randomseed gesetzt werden, und zwar in der UMAP-Instanz (random_state).

[162]Da die 45 BERT-Topics des gesamten LUSIR-Korpus dem LDA-Modell sehr nahekommen, kann der Vergleich beider ›großer‹ Modelle ohne weiteres Parametertuning erfolgen. Beim Vergleich mit den 50 Topics des finalen LDA-Modells fallen verschiedene Dinge auf. Viele Topics beider Modelle haben keine Entsprechung im anderen (vgl. Abbildung 6). Für die Heatmap wurde jede Wortliste des LDA-Modells (Y-Achse) mit jeder Wortliste der BERTopic-Modells (X-Achse) verglichen und automatisch berechnet, wie hoch die prozentuale Übereinstimmung der in den Listen enthaltenen Wörter (n=20) ist. Bei besonders hohen Ausschlägen ist eine Übereinstimmung in der Heatmap an hellorangen bis gelben Punkten zu erkennen. Zum Beispiel stimmen LDA-Topic 3 und BERTopic-Topic 10 zu 93 % überein (vgl. Abbildung 6):

3 [studieren, semester, abitur, studium, professor, universität, bonn, examen, köln, münchen, münster, studenten, berlin, medizin, praxis, fulda, godesberg, wuppertal, aachen, freiburg]
10 [semester, studieren, studium, studiert, examen, professor, semestern, medizin, münchen, schule, universität, studenten, freiburg, sohn, berlin, klasse, abitur, vorlesungen, volkswirtschaft, geschrieben]

[163]Die zweithöchste Übereinstimmung findet sich beim Bergbau-Topic mit 50 % (LDA-Topic 39, BERTopic-Topic 20):

39 [betriebsrat, betrieb, kollegen, gewerkschaft, betriebsräte, aeg, belegschaft, vorsitzend, angestellt, gewerkschaften, wählen, aufsichtsrat, betriebsverfassungsgesetz, mitbestimmung, arbeitgeber, gewerkschaftlich, firma, vertreten, prozent, freistellen]
20 [betriebsrat, betrieb, kollegen, betriebsräte, betriebsverfassungsgesetz, gewählt, firma, krupp, belegschaft, betrieben, aufsichtsrat, gewerkschaft, vorsitzende, betriebsräten, geschäftsleitung, wirtschaftsausschuss, vertreten, betriebsrates, betriebsrats, aeg]

[164]Allerdings fällt insbesondere auf, dass die letzten Topics des BERT-Modells (38–45, mit Ausnahme von 43) keine Entsprechungen im LDA-Modell haben. Bei näherem Hinschauen zeigt sich, dass es teils überspezifische Topics sind (so gibt es eins, das sich nur türkischen Gastarbeitern widmet und eins, in dem es um Kaffee geht), teils durch diffuse Wortsammlungen verrauschte Topics. In anderer Richtung fällt auf, dass viele LDA-Topics keine Entsprechung im BERT-Modell haben (z. B. Topics 8, 17 und 22), andere haben redundante Gegenstücke (z. B. LDA-Topic 4 matcht auf BERT 14 und 16, LDA-Topic 20 auf BERT 8 und 9). Der qualitative Blick in die Listen bestätigt, dass wir es mit zwei sehr verschiedenen Modellen zu tun haben. Zwar finden sich die großen Themen (›Bergbau‹, ›NS‹, ›Familie‹, ›Schule‹ etc.) in beiden Modellen, doch während LDA diese konsequent auflistet, zerfasert das BERTopic-Modell ins Überspezifische.

Abb. 6: Similarität von Topics, LDA mit 50 Topics auf der X-Achse, BERTopic mit 45 Topics auf der Y-Achse, beide mit 50er-Chunks. Je heller, desto größer die Übereinstimmung. Übereinstimmung ergibt sich aus dem prozentualen Anteil der Wörter, die in beiden Listen (n=20) vorkommen. [Grafik: Möbus et al. 2026]

6.2.2 Regierungsratsbeschlüsse

[165]Die Nutzung eines grossen Sprachmodells wie BERT für Dokumente aus dem 19. Jahrhundert scheint auf den ersten Blick eher kontraproduktiv. Die Bedeutung diverser Begriffe hat sich in der Zwischenzeit verschoben und die Variabilität in der Schreibung dämpft die Erwartungshaltung. Allgemein wird angenommen, dass BERT aufgrund des byte-pair encoding, also der Art und Weise, wie die Vektorisierung geschieht, eher schlecht auf kleine Differenzen in der Schreibung reagiert – dies im Gegensatz zu massiv kleineren Sprachmodellen, wie standardmäßige Implementationen von FlairNLP.

[166]Das Resultat mit 65 generierten Themen ist dennoch brauchbar und zeigt ein Bild ähnlich wie zuvor schon mittels LDA generiert, mit einigen Themen, die sich in allen ausdifferenzierten Topic Models, die auf dem Korpus basieren, finden, etwa zum Militärwesen (Topic 1) oder zum Ausbau der Eisenbahnen (Topic 7).

1 [militärs, hauptmann, militarcommißion, infanterie, direktion, militärcommißion, regierungsrath, oberst, 1sten, 2ten, dienste, kriegsrathe, militärdirektion, oberlieutenant, zürich, entlaßung, kriegsrath, kriegsrathes, quartier, landwehr, mannschaft, major, militärpflichtersatz, stelle, herren, mittheilung, bataillon, eidg, französischen, freycompagnie]
7 [nordostbahn, station, direktion, bahn, eisenbahn, linie, winterthur, arbeiten, bundesrath, zuschrift, öffentlichen, schweiz, regierungsrath, expropriationen, nationalbahn, genehmigung, zuggoldau, präsidialverfügungen, mts, tößthalbahn, eisenbahngesellschaft, erledigung, projekt, js, winterthurweiach, eingabe, ii, straße, st]

[167]Einige der Topics sind jedoch schwierig zu interpretieren und es ist nicht nachvollziehbar, wie das Clustering zum entsprechenden Resultat geführt hat (etwa Topic 15). Insbesondere die unterschiedlichen Ebenen führen zu Verwirrung. ›Vorort‹ bezieht sich auf die Rolle Zürichs vor der Gründung des Bundesstaats im alten Staatenbund. Die Orte sind zwar kantonal von Interesse, haben aber darüber hinaus nur wenig Ausstrahlung (beispielsweise ›Bülach‹). Und der Verweis auf Gesuche und Gemeinden (›metzgretchsgesuch‹ oder ›gemeindsstelle‹) ist nur auf kommunaler Ebene verständlich.

15 [rrb, fortsetzung, bezirksrathes, datirte, winterthur, eingesandte, beilagen, prüfung, verrichtungen, niederlaßungsgesuche, statthalteramtes, jahresbericht, ms, belaßung, bülach, hünikon, überwiesen, knonau, innern, barbou, greiffensee, bericht, gemeinden, gem, eingabe, statthalteramt, gesuch, rathe, begutachtung, recurs]

[168]Das Experiment mit BERTopic bleibt somit für die Regierungsratsbeschlüsse unentschieden und wird aufgrund der schwierigen bzw. fehlenden Nachvollziehbarkeit für historische Sprachformen nicht empfohlen. Die Nutzung von BERT und anderer LLMs für die Extraktion von Themenfeldern – insbesondere wenn spezifische Modelle für die Sprachstufe genutzt werden könnten – muss natürlich weiterhin und vertieft ausgetestet werden.

[169]Insgesamt und abschließend muss festgehalten werden, dass eine Übereinstimmung von Topics zwar anzeigt, dass qualitativ als gut evaluierte Themenfelder über beide Methoden gefunden werden und beide Ansätze nützlich sind. Das bedeutet indes nicht, dass dies die einzige Metrik sein kann. Wie die Auseinandersetzungen um Topic Modeling in den Geisteswissenschaften seit Jahren zeigen, ist es eine Herausforderung aufzuzeigen, was ›sinnvolle‹ von ›unbrauchbaren‹ Themenextraktionen unterscheidet.

6.2.3 Spätmittelalterliche Chronikhandschriften (Chunking)

[170]Das BERT-Modell gibt für die spätmittelalterlichen Sammelhandschriften auf 500er-Chunks 16 Topics aus; inhaltlich sind diese dabei ähnlich geschlossen wie die Mallet-Topics auf 500er-Chunks mit 20 Topics (Fremdbegriffe orange eingefärbt):

BERT, 500er-Chunks, 16 Topics	Mallet, 500er-Chunks, 20 Topics
5 [sant, uolrich, dy, ulrich, peter, priester, grab, hailigen, bischoff, selbs, kirchen, closter, peters, volk, statt, stat, leben, uolrichs, frawen, mocht, ausz, gottes, grosz, alten, ant, sagt, mesz, strasspurg, gesund, grabe, stund, ulrichs, arbogast, eren, stab, tags, begraben, pald, undertan, yederman, hand, menschen, hann, wasser, volbracht, pfaffen, liesz, sunt, capitel, gesellen]	14 [sant, bischoff, uolrich, closter, peter, dy, grab, ant, ulrich, kirchen, peters, leben, statt, selbs, mocht, grosz, alten, stund, eren, uolrichs, hailigen, priester, pfaffen, volbracht, frawen, stifft, wasser, lieben, gesellen, florentz, arbogast, ausz, angspurg, liesz, ulrichs, hann, altar, begraben, capitel, volk, gesund, machet, kloster, burg, zaichen, seinem, menschen, wolten, tags, bekert]
10 [weyssenburg, gem, widder, ite, abt, dag, sagt, weyssenbung, statt, leut, gefangen, pfaltzgrauen, juncker, pfaltzgraue, weissenburg, eynen, stat, auß, obgut, baden, ludwig, drey, pfaltz, pferdt, nichts, lag, herr, grauen, graue, hett, dorff, vitter, gewonnen, gethan, manne, dannach, arnach, sambt, knecht, darzu, thun, jacob, mannen, schlos, hertzeg, gebauwern, gulden, gutt, burger, gelegt]	12 [anno, widder, weyssenburg, gem, dag, statt, stat, ite, abt, herren, landt, gefangen, sagt, herr, leut, weyssenbung, drey, juncker, keyser, lag, manne, baden, stett, pfaltzgraue, inen, ludwig, auß, eynen, it₎, arnach, kament, gewonnen, anne, schaden, darzu, weissenburg, dannach, burger, vitter, jacob, nechst, pfaltz, bischof, dorff, hans, gulden, pfaltzgrauen, vmb, thun, graue]
14 [jacob, joseph, korn, laban, bru, der, vater, esaw, rachel, esan, segen, egipten, josephs, bruder, sun, vo, kùng, land, bruoder, vatt, lya, vatter, trome, grosz, kind, gebar, gehaissen, hann, lant, muter, kùnig, jacobs, hiesz, gib, pfister, jaren, garben, gebain, zwen, kament, kinden, kinde, grab, lein, gebe, hies, volk, lande, lebte, ysack]	13 [volk, wasser, moyses, kùng, hiesz, vō, kind, meyses, engel, gottes, sun, vatter, jacob, haiden, kament, gebot, sprachent, kung, damd, joseph, berg, grosz, gang, gebar, egipten, werb, land, sterben, absolon, kint, vol, kinden, kinde, geborn, opfer, beschach, vater, korn, lag, mem, essen, dand, alt, hand, abrahain, ains, hann, wort, amen, enweg]

Tab. 15: Auswirkungen des Chunking auf Mallet- und BERTopic-Modelle, angewendet auf mittelalterliche Sammelhandschriften.

[171]Bereits für die 500er-Chunks mit BERT fällt auf, dass einzelne Themen z. T. sehr spezifisch und trennscharf sind, wie Topic 14 zur biblischen Erzählung von Esau und Jakob, dessen Sohn Joseph und seinen Brüdern. Dieser Befund verstärkt sich für die 250er-Chunks, die mit 32 Topics doppelt so viele wie die 500er-Chunks erhalten. Hier tritt beispielsweise der Sündenfall in der Schöpfungsgeschichte in Topic 19 sehr deutlich hervor:

19 [adam, noe, ena, gebar, abel, alt, welte, arch, welt, paradis, fluch, smertzen, archen, enoch, verbotten, slangen, wasser, gottes, frowen, essen, opfel, warumb, jaret, adams, tier, erste, hundert, vo, caym, arche]

[172]Allerdings finden sich in beiden BERT-Modellen mehr überlappende Topics – das Topic um die Stadt Weißenburg kommt auf 250er-Chunks in 3 Topics vor, die Ulrichslegende in 2 –, andere wirken teilweise sehr inhaltsleer bzw. mit vielen Verrauschungen aus anderen Themen. Und manche Topics im 250er-Chunking fehlen im 500er-Chunking erstaunlicherweise, trotz häufigem Auftauchen im Korpus. So fehlt das Alexander-Topic gänzlich, obwohl es in vier Handschriften vorkommt und einen relativ großen Textumfang besitzt.

[173]Für die Arbeit mit umfangreichen vormodernen Quellen empfiehlt sich in Abhängigkeit von der spezifischen Fragestellung womöglich eine Kombination aus beiden Implementierungen. Die Anwendung von Mallet mit 500er-Chunks hat im Fall der spätmittelalterlichen Sammelhandschriften die lesbarsten und sinnvollsten Topics geliefert; je nach Wahl der Topic-Anzahl können hier auch unterschiedliche Interessen verfolgt werden: Bei eher unbekannten Textkonvoluten bietet sich eine höhere Anzahl Topics an, um auch kleinere Einzeltexte zu erkennen, bei bereits gut erschlossenen Quellen bieten weniger Topics eine gute Orientierung im Text. Die kleineren Themen, die mit BERTopic sichtbar geworden sind und die in verschiedensten Mallet-Modellen mit größeren oder kleineren Chunks und verschiedenen Topic-Anzahlen nicht enthalten waren, sind beispielsweise die Erzählung um die beiden rivalisierenden Trierer Stadtherren Dulcimer und Signator, die um 50 v. Chr. um die Vorherrschaft in der Stadt kämpften. Je nach Forschungsinteresse kann also auf eine der beiden Implementierungen oder auf eine Kombination zurückgegriffen werden, um bestmögliche Resultate für die eigene Arbeit zu erzielen.

7. Resumé

[174]In diesem Working Paper wurden drei historische Korpora mit verschiedenen Topic-Modeling-Verfahren untersucht. Ziel war eine systematische Dokumentation und Bewertung der Auswirkungen von Preprocessing (Kapitel 3), Parametertuning (Kapitel 5.3) und Topic Estimation (Kapitel 5.1 und 5.2) bei der Anwendung von Latent Dirichlet Allocation sowie ein Vergleich der Ergebnisse mit BERTopic, einem Verfahren, das auf Vektorisierung von Texten aufbaut.

[175]Es konnte festgestellt werden, dass die verschiedenen Korpora vor allem beim Preprocessing ausgesprochen unterschiedliche Anforderungen stellen und dass einzelne Preprocessing-Schritte für bestimmte Quellenarten gar nicht umsetzbar sind. Insbesondere der Nutzen der Lemmatisierung ist ambivalent und hängt stark von den zugrundeliegenden Daten und verfügbaren Sprachmodellen ab (Kapitel 3.4).

[176]Die Zürcher Regierungsratsbeschlüsse aus dem 19. Jahrhundert standen nicht nur im Preprocessing vor spezifischen Hürden, da die Verteilung der Wörter noch ungleicher ist als bei anderen Korpora und entsprechend individualisierte Stopword-Listen entworfen werden mussten (Kapitel 3.3). Aufgrund des Umfangs und der thematischen Breite war es dann vor allem die Anzahl der Topics, die erst ab 50 und mehr les- und nutzbare Cluster zeigte (Kapitel 5.2.2). Erst wenn aufgrund der hohen Topic-Zahl eindeutige Zuordnungen zu thematisch mehr oder minder geschlossenen Themen erzielt wurden, konnte die Stärke des Ansatzes für diese Quelle aufgezeigt werden. BERTopic führte zwar zu teilweise aussagekräftigen Themenfeldern (Kapitel 6.2.2), jedoch nur bedingt zu nachvollziehbaren Resultaten für das gesamte Korpus.

[177]Für die lebensgeschichtlichen Interviews, die der Gegenwart(ssprache) am nächsten sind, konnten die meisten Schritte durchgeführt (Kapitel 3.1–3.4) und repräsentativ weitere Parametertunings vorgenommen werden (Kapitel 5.3, 6.2.1). Es hat sich herausgestellt, dass für diese zeitgeschichtlichen Dokumente ein Topic Modeling mit LDA auch nach dem Aufkommen von LLMs eine adäquate Methode zur Inhaltserschließung darstellt (Kapitel 5.2.1). Als beinahe kurios ist das Verhalten von BERTopic bei der Anwendung auf dieses Korpus mit unterschiedlichen Chunkgrößen zu bewerten (Kapitel 6.2.1), das darüber hinaus eine der größten Stärken von LDA vermissen lässt: das Zuweisen aller Topics zu allen Dokumenten (bzw. gechunkt: Textpassagen) (vgl. Kapitel 4.1 und 4.3). Dadurch sind mit LDA Korrelationen, Themenüberlagerungen und Themenwechsel wesentlich präziser einzufangen als mit BERTopic.

[178]Die Ergebnisse der Analyse für die spätmittelalterlichen Sammelhandschriften legt eine Anwendung von Topic Modeling mit LDA und mit BERTopic auf vormoderne Quellen für verschiedene Zwecke nahe: Umfangreiche Manuskripte mit mehreren Texten können mithilfe von LDA genauer erschlossen werden (Kapitel 5.2.3), wenn die Texte gechunkt (vgl. Kapitel 4.1 und 4.3) und die Anzahl der Topics erhöht wird. Bei größtenteils unerschlossenen Quellen mit fehlender oder nur grober Inhaltsbeschreibung ermöglicht eine Erhöhung der Topic-Anzahl eine Übersicht auch über eher marginale Themen und Inhalte. Eine Absenkung der Topics reicht bei besser bekannter Textgrundlage aus, da weniger Begriffe in einem Topic ausreichen, um von der Forscherin erkannt zu werden, was eine große Zeitersparnis beim Durcharbeiten der Topic-Listen bedeutet. Durch ein Zurückverfolgen der Topics in die einzelnen Dokumente wird die Orientierung im Gesamttext einer umfangreichen Sammelhandschrift deutlich erleichtert und ein Vergleich von verwandten Textstellen über mehrere Manuskripte hinweg um ein Vielfaches vereinfacht. Die Anwendung von BERTopic empfiehlt sich je nach Forschungsinteresse als zusätzlicher Ansatz, um kleine, spezifische Topics nicht zu übersehen (Kapitel 6.2.3).

[179]Insgesamt kann festgehalten werden, dass die Anwendbarkeit von Topic Modeling von den Quellen und deren Aufbereitung, der Fragestellung und der methodischen Herangehensweise eines Forschungsvorhabens abhängt. Zunächst einmal muss bei nicht standard- und / oder gegenwartssprachlichen Texten eine gewisse Mindestmenge an Daten vorhanden sein, um ein eigenes Modell trainieren zu können. Es bedarf keiner weiteren Erläuterung, dass die Fragestellung eine quantitative Perspektive begünstigen sollte. Die Forschung der letzten Jahre hat gezeigt, dass quantitative Ansätze und hermeneutisches Arbeiten sich keinesfalls ausschließen, sondern maschinelles Lernen beim Filtern, Samplen und Spurensuchen wichtige vorbereitende, begleitende oder validierende Schritte leisten kann. Auf diese Weise können sich Methoden – analog zu klassischen Mixed-Methods-Ansätzen der Sozialwissenschaften – ergänzen: Eine Outlieranalyse von lebensgeschichtlichen Interviews mit einem hochspezifischen Topic Model kann beispielsweise historische Phänomene sichtbar machen, die sonst schwierig zu finden sind.‍[78]

[180]Unser Ziel war es, das für viele Methoden des maschinellen Lernens unabdingbare Preprocessing (Kapitel 3) und insbesondere die Aus- und Wechselwirkungen der vielen Variablen (vgl. auch Kapitel 4, 5.2, 5.3 und 6.2) ausführlich zu testen und zu untersuchen. Zum Teil unterschieden sich die Ergebnisse nach zwei verschiedenen Preprocessing-Schritten nur in subtilen Nuancen, wie die Lemmatisierung mit und ohne POS-Filter (Kapitel 3.4) oder die Veränderung der Anzahl der Iterationen (Kapitel 5.3). Sehr viel größer hingegen ist der Einfluss der Stopword-Entfernung auf die resultierenden Topic-Listen (Kapitel 3.3). Hier konnte gezeigt werden, dass eine bloße Entfernung der häufigsten Wörter über einen Threshold riskant sein kann und sich für die drei sehr unterschiedlichen Beispielkorpora als wenig zielführend erwiesen hat. Daher kamen eigens angelegte Stopword-Listen zur Anwendung, die die sprachlichen Eigenheiten der einzelnen Korpora berücksichtigen. Solche kuratierten Listen bieten sich für die meisten historischen Quellen an und sollten zur Nachvollziehbarkeit der erzielten Ergebnisse stets dokumentiert und mitveröffentlicht werden.

[181]Die kontrovers debattierte Thematik der Identifikation der optimalen Anzahl von Topics war ein weiterer Fokus des Papers, und überraschenderweise stellte sich keine der etablierten quantitativen Metriken als zielführend heraus (Kapitel 5.1). Alle Metriken führten zu mehr oder minder schwer nachvollziehbaren Resultaten, die durch die qualitative Evaluation nicht gestützt werden konnten (Kapitel 5.2). Das bestehende Problem, dass für Korpora, die mit Topic Modeling behandelt werden, eine Anzahl von Themen vorgegeben werden muss, konnte entsprechend nicht durch Evaluationsmetriken gelöst werden. Eine weitere Diskussion über quantitative Ansätze zur Messung von Topic-Modeling-Resultaten ist demnach nötig.

[182]Mit der Notwendigkeit qualitativer Evaluation ist auch Wissen um die Spezifik von Korpora gefragt. Das sogenannte Domain Knowledge muss auch weiterhin Teil der Auswertungs- und Interpretationspraxis bleiben, da sonst semantische Feinheiten verloren gehen und die Resultate der Algorithmen nur bedingt adäquat eingeordnet werden können.

[183]Auch 20 Jahre nach der Einführung der Methode in den Geisteswissenschaften ist es weiterhin notwendig, methodologisch über Topic Modeling nachzudenken und den Ansatz reflektiert einzusetzen. Auch im Zeitalter von LLMs ist es hilfreich, wenn reproduzierbare Resultate aus statistischen Methoden gewonnen werden, die jederzeit Imitation oder Reproduktion erlauben. Des Weiteren ergeben sich aus der Anwendung von LLMs zwei weitere Probleme: Zeitgeschichtliche Quellen, insbesondere hochsensible Interviews, können aus Datenschutzgründen nicht ohne Weiteres über Schnittstellen an High-Perfomance-Cluster oder Cloudanbieter gesendet werden. Die Möglichkeiten, LLMs lokal zu betreiben, nehmen zwar zu, weisen aber auf das zweite Problem hin: dass wir es mitunter mit enorm großen Dokumenten (z. B. Transkripte mehrstündiger Interviews) zu tun haben, für die entsprechende Rechenkapazität benötigt wird. Es gibt also noch immer genügend Gründe, in der Geschichtswissenschaft mit LDA zu arbeiten. Eine Symbiose mit aktuellen KI-Ansätzen wäre aber zum Beispiel, LLMs zur Evaluation von Topic-Modellen heranzuziehen.‍[79]

[184]Aus Gründen der Transparenz und Nachvollziehbarkeit votieren wir dafür, bei der Anwendung von Topic Modeling auf ein Korpus die genutzten Parameter der Algorithmen zu veröffentlichen. Die Prinzipien des FAIRen Publizierens‍[80] gelten unserer Meinung nach nicht nur für den Umgang mit Daten, sondern auch für die Verwendung von Algorithmen. Aber auch für die hier analysierte Form des Distant Readings und der Korpusanalyse mit Topic Modeling gilt, dass die Bearbeitenden über thematische Expertise verfügen müssen und gleichzeitig die gewonnenen Resultate durch ihre explizierende Interpretation nachvollziehbar machen sollten.

Fußnoten

[1]

Vgl. Linseisen 2022; Zaagsma 2023; für eine praktische Einführung vgl. Graham et al. 2022.
[2]

Alternativen zu LDA sind beispielsweise Latent Semantic Analysis (LSA) oder Latent Semantic Indexing (LSI). Vgl. Blei et al. 2003, S. 993–994.
[3]

Vgl. Hodel et al. 2022.
[4]

Eine Einführung, die stärker auf eine praktische Anwendung der Methode in den Geisteswissenschaften zielt, findet sich in Grant et al. 2021.
[5]

Fragen bezüglich Encoding (z. B. die Nutzung von Unicode / UTF-8) oder der Darstellung analoger / mündlicher Quellen im digitalen Raum werden hier nicht adressiert. Natürlich müssen diese Transformationen dokumentiert und standardisierten Prozessen folgend durchgeführt werden.
[6]

Vgl. Dumais 2004.
[7]

Einen Überblick bieten Churchill / Singh 2022.
[8]

Für eine erste Einführung ins Topic Modeling vgl. Brett 2012; für eine mathematische Perspektive vgl. Blei 2012.
[9]

In diesem Paper unterscheiden wir zwischen Topic und Themenfeld, wobei ersteres eine algorithmisch berechnete Wortgruppe bezeichnet, letzteres eine semantisch kohärente Themengruppe.
[10]

Alle neueren Ansätze basieren auf Transformer-Modellen und damit verbunden dem Google-Ansatz BERT (Bidirectional Encoder Representations from Transformers). Vgl. Devlin et al. 2018. Mittels BERT werden sogenannte Embeddings erzeugt, die semantische Strukturen als Vektoren ausgeben. Vgl. beispielsweise Bubenhofer 2020. BERTopic ist eine Erweiterung von BERT mit Ausrichtung auf Topic Modeling-Anwendungen. Vgl. Grootendorst 2022.
[11]

Vgl. Graham et al. 2012.
[12]

Vgl. Simmler et al. 2019.
[13]

Der Zugriff erfolgt über das Staatsarchiv Zürich: Regierungsratsbeschlüsse.
[14]

Vgl. Niethammer 1983.
[15]

Vgl. Institut für Geschichte und Biographie der FernUniversität in Hagen (Hg.) 2025a.
[16]

Vgl. Institut für Geschichte und Biographie der FernUniversität in Hagen (Hg.) 2025b; Freie Universität Berlin. Universitätsbibliothek (Hg.) 2025.
[17]

Vgl. Handschriftencensus (Hg.) 2025; Serif 2020.
[18]

Dresden, Landesbibliothek, Mscr. F 98 [Dre1]; Freiburg, Universitätsbibliothek, Hs. 471 [Fre2]; Heidelberg, Universitätsbibliothek, Cpg 116 [Hei2]; Heidelberg, Universitätsbibliothek, Cpg 475 [Hei4]; München, Staatsbibliothek, Cgm 568 [Mue5]; Stuttgart, Landesbibliothek, Cod. HB V 22 [Stu3]; Wolfenbüttel, Herzog August Bibliothek, Cod. 16.17 Aug. 4° [Wol2]. Kodikologische Beschreibungen der einzelnen Handschriften finden sich in: Handschriftencensus (Hg.) 2025. Eine aktuell gehaltene Liste aller bekannten Textzeugen zusammen mit den Siglen findet sich in Serif 2015.
[19]

Die drei Codices [Fre2], [Hei4] und [Mue5] enthalten außer der Twingerchronik die Konstanzer Jahrgeschichten, eine Liste der Konstanzer Bischöfe und einen Bericht über den Mord an Guillaume de Menthonay, Bischof von Lausanne, im Jahr 1406. [Stu3] wurde in Konstanz hergestellt und enthält neben der Twingerchronik und anderen Texten die Konstanzer Weltchronik.
[20]

Die Texterkennung wurde mit Transkribus mit insgesamt vier verschiedenen Modellen durchgeführt, die alle mit Material trainiert wurden, das mehrere Jahrhunderte umfasst, und die also gute Erkennungsraten für heterogene Schriftbilder liefern. Die für die Modelle genutzte CitLab HTR- / HTR+-Engine wird nicht mehr von Transkribus unterstützt, die Details zu den Modellen und die erkannten Texte finden sich in Serif 2024. Die Ergebnisse der Texterkennung wurden nicht korrigiert, weil der Zeitaufwand erheblich und die Methode damit nicht skalierbar wäre. Die große Textmenge in den einzelnen Handschriften dürfte viele Fehler ausgleichen, und eine Betrachtung der Topic-Listen lässt vermuten, dass eine fehlerfreie Textgrundlage Akzente vielleicht verschöbe, die Ergebnisse aber nicht grundlegend verändern würde. Zu ähnlichen Ergebnissen kommen Mutuvi et al. 2018. Sie fanden einen messbaren, aber relativ kleinen Einfluss von Texterkennungsfehlern auf das Ergebnis von Topic Modeling, ohne dass diese den durchschnittlichen Coherence-Score aber merklich beeinflussen würden. Vgl. Mutuvi et al. 2018, S. 12.
[21]

Vgl. Rawson / Muñoz 2019.
[22]

Vgl. Hodel et al. 2022.
[23]

Zur Konstruktion von Stopword-Listen siehe Burns 2018.
[24]

›ê‹ / ›e‹ ist das einzige mittelhochdeutsche Substantiv, das aus nur einem Buchstaben besteht; es bedeutet Ehe, Ewigkeit, und im Kontext von ›alter / neuer ê‹ nimmt es Bezug auf das Alte und Neue Testament. Das adverbiale Homonym bedeutet ›früher‹ oder ›eher‹, ist Teil der Stopword-Liste und wird somit im Preprocessing entfernt. (Die Schreibungen ›ee / êe‹ und ›êwe / ewe‹ sind Varianten mit denselben Bedeutungen, die nicht entfernt werden.)
[25]

Je nach Forschungsinteresse wäre dieser Schritt aber nachzuholen. Eine grobe Durchsicht der Korpustexte lässt vermuten, dass der Anteil an gelöschten, bedeutungsarmen Adverbien höher ist als derjenige des bedeutungstragenden Substantivs, bei der Dresdner Handschrift etwa ist das Verhältnis ungefähr 4:1, in der Münchner Handschrift 20:1. Die Schreibvariante als ›ee‹ kommt in derselben Handschrift etwa gleich häufig adverbial wie als Substantiv vor.
[26]

Vgl. Schofield et al. 2017.
[27]

Das Classical Language Toolkit (CLTK), eine Python-Library für Natural Language Processing vormoderner Sprachen, verfügt über entsprechende Listen.
[28]

Für Mittelhochdeutsch vgl. die Stopword-Liste, die in das CLTK bereits integriert wurde. Während verschiedene existierende Stopword-Listen für modernes Deutsch rund 600 Einträge aufweisen, hat die vorgenannte Liste für Mittelhochdeutsch knapp 500 Einträge, was vermuten lässt, dass weniger Wörter und mehr Varianten enthalten sind. »alle, allem, allen, aller, alles« steht beispielsweise »al, all, alle, allem, allen, aller, alles, allez, alleȥ, elliu« gegenüber, wobei weitere Formen wie ›alliu‹ oder ›elle‹ nicht abgedeckt sind.
[29]

Für das vorliegende Korpus wurde die CLTK-Liste entsprechend erweitert und online publiziert.
[30]

›vitter‹ ist ein konsistenter, systematischer Texterkennungsfehler für ›ritter‹. Das Wort kommt in dieser Schreibung 36 Mal in der Transkription der Heidelberger Handschrift 116 [Hei2] vor. In solchen Fällen, wo es sich nicht um einzelne, sondern systematische Falscherkennungen handelt, wäre zu überlegen, die Textgrundlage, also das Korpus, entsprechend zu korrigieren, um die Topic-Listen auch für diejenigen verständlich zu machen, die mit den Inhalten nicht vertraut sind und die Verbindung von ›vitter‹ zu ›ritter‹ nicht machen können.
[31]

Neben Lemmatisierung wäre Normalisierung eine Möglichkeit, Varianz in Schreibungen zu reduzieren. Auch hier gibt es für historische bzw. nicht standardisierte Sprachstufen (noch) keine zufriedenstellenden Ergebnisse. Der Normalizer Norma wird zurzeit nicht weiterentwickelt, der letzte Release war 2017. Für einen Vergleich verschiedener Normalisierungsansätze, inklusive Norma, vgl. Bollmann 2019; Flachs et al. 2019.
[32]

Hier etwa ›alexander‹ – ›alepander‹; Schreibvarianten hingegen, wie ›allexander‹ – ›alexander‹, sollten als solche bestehen bleiben, da sie sprachhistorische Informationen besitzen.
[33]

Vgl. auch Taddy 2012; Weston et al. 2023.
[34]

Vgl. Meaney et al. 2023; Chang et al. 2009; Du 2024; Wallach et al. 2009; Lau et al. 2009.
[35]

Vgl. Du 2024, S. 34–54.
[36]

Vgl. Jurafsky / Martin 2009.
[37]

Vgl. Murzintcev 2016.
[38]

Vgl. Arun et al. 2010; Cao et al. 2009; Deveaud et al. 2014; Griffiths / Steyvers 2004.
[39]

Die Berechnung von nur zwei Modellen für das LUSIR-Korpus musste nach 20 Stunden Laufzeit abgebrochen werden.
[40]

Vgl. Schöch 2021, S. 5–6; Du 2024, S. 39–41.
[41]

Vgl. Du 2024, S. 48–49.
[42]

Vgl. Röder et al. 2015.
[43]

Vgl. Newman et al. 2010.
[44]

Vgl. Bouma 2009, S. 2–3.
[45]

Vgl. Bouma 2009.
[46]

Vgl. Bouma 2009, S. 4–5.
[47]

Vgl. Bouma 2009, S. 6.
[48]

Vgl. Mimno et al. 2011.
[49]

Vgl. Du 2024, S. 56.
[50]

So wird die Metrik in dem zugehörigen Aufsatz und auch in der Gensim Pipeline genannt. Vgl. Röder et al. 2015, S. 7.
[51]

Auf Github wurde am 17.08.2021 ein Problem mit der Reproduzierbarkeit der Ergebnisse von C_V berichtet und empfohlen, den Score nicht mehr zu verwenden. Ein Update am 23.06.2023 erklärt, dass die Probleme behoben wurden.
[52]

Vgl. Aletras / Stevenson 2013, S. 3.
[53]

Als Beispiel werden Automarken genannt, die man als Wörter eindeutig einer gemeinsamen Gruppe zuordnen würde, die in einem Dokument aber eher selten zusammen auftreten. Sie haben aber eine direkte Abhängigkeit mit dritten Wörtern wie ›Straße‹ oder ›Geschwindigkeit‹. Diese indirekten Zusammenhänge, dass zwei Wörter zusammenhängen, auch wenn sie selbst nie ein Wortpaar bilden, werden bei dieser Berechnung berücksichtigt. Vgl. Du 2024, S. 52.
[54]

Vgl. Röder et al. 2015, S. 12.
[55]

Für alle Modelle wurden dieselben Parameter verwendet: optimize_interval_mallet = 500, iterations_mallet = 5000, alpha = 50, Anzahl der Worte pro Topic = 20.
[56]

Vgl. Doogan / Buntine 2021; Hoyle et al. 2021; Rosner et al. 2014; Rahimi et al. 2023; Li et al. 2024.
[57]

Vgl. Du 2024, S. 73.
[58]

Vgl. Rahimi et al. 2023.
[59]

Vgl. Bayerschmidt / Möbus 2025; Doogan / Buntine 2021, S. 3825.
[60]

Vgl. Chang et al. 2009; Shi et al. 2019; Dobson 2021; Khodorchenko et al. 2022; Miner et al. 2023.
[61]

Vgl. Bayerschmidt / Möbus 2025.
[62]

Vgl. Bayerschmidt / Möbus 2025.
[63]

Die 15 Top-Keywords von Topic 11: heiraten, kind, tochter, verheiraten, wohnen, kinder, gebären, sohn, arbeiten, schwester, eltern, sterben, lernen, wohnung, krieg.
[64]

Wenn im Stadtstaat Zürich um 1805 von ›Finanzen‹ die Rede ist, meint der Begriff etwas anderes als 50 Jahre später, im Konstrukt eines Bundesstaates, der selbst eine Finanzhoheit hat. Selbiges gilt für Begrifflichkeiten wie ›Staat‹ (meint zuerst den Kanton, später den Bundesstaat) oder Fragen zur Einbürgerung, die bis 1848 von den Kantonen erfolgte und danach sowohl Kommunen als auch den Bundesstaat involvierte.
[65]

Staatsarchiv des Kantons Zürich: MM 2.199 RRB 1873/0729 (hier durch die beschriebenen Preprocessing-Schritte ohne Satzzeichen und nur in Kleinschreibung).
[66]

Inhaltlich ist in diesem Topic kaum Information enthalten, da die auf das Korpus angewandte Stopword-Liste nur deutsche Wörter beinhaltet. Für mehrsprachige Korpora können natürlich mehrere Stopword-Listen genutzt werden; gegebenenfalls müssen die Dokumente hierfür gesplittet werden, um Wörter, die in einer Sprache ein Stopword, in der anderen bedeutungstragend sind, nicht fälschlicherweise zu entfernen. Für das vorliegende Korpus wurde wegen der geringen Menge der lateinischen Texte auf eine separate Liste verzichtet.
[67]

[Dre1], chunk 39. Übersetzung: Diesen Brief hieß Alexander lesen vor seinen Dienern, da erschraken sie. So sprach Alexander zu ihnen: »Ihr sollt euch nicht fürchten vor dieser Drohung. Wisst ihr nicht, dass die Hunde, die am meisten bellen, am wenigsten beißen.«
[68]

[Fre2], chunk 98.
[69]

[Hei4], chunk 88.
[70]

[Mue5], chunk 86.
[71]

[Stu3], chunk 22: »der was der pourern lieb und werd er tzweig die von perse und hielt dz rich in groszer er […] der strent mit den voi perse und gesiget und fide wider gen rom und do er nach zuo der statt kom do truog der hertzog philippo an mit verraterschafft dz der kayser erschlagen ward und er an dz rich ka hilippus richs not un jar und hett amen sun, der hiesz ouch phil ppus und tett der vetter der sun, mit im kayser sin, dz si beid richsnotent in dem ersten.«
[72]

Im hier untersuchten Beispielkorpus war dies bei keinem der getesteten Topics der Fall, weil eine gute Quellenkenntnis für eine fundierte Beurteilung der Methode nötig war und daher gut erschlossene Handschriften ausgewählt wurden.
[73]

Vgl. Du 2024, S. 14–15.
[74]

Eine ausführliche Beschreibung der Werte: Du 2024, S. 14–16.
[75]

Vgl. dazu ausführlich: Hodel et al. 2022.
[76]

Vgl. Grootendorst 2024.
[77]

Vgl. McInnes et al. 2016, hier: How HDBSCAN Works; Grootendorst 2024, hier: Hyperparameter Tuning.
[78]

Vgl. Möbus 2020.
[79]

Vgl. Stammbach et al. 2023.
[80]

Vgl. dazu Wilkinson et al. 2016.

Bibliografie

Nikolaos Aletras / Mark Stevenson: Evaluating Topic Coherence Using Distributional Semantics. In: Alexander Koller / Katrin Erk (Hg.): Proceedings of the 10^th International Conference on Computational Semantics. Long Papers (IWCS 2013, Potsdam, 19.–22.03.2013). Kerrville, Texas 2013, S. 13–22. PDF. [online]
R. Arun / V. Suresh / C. E. Veni Madhavan / M. N. Narasimha Murthy: On Finding the Natural Number of Topics with Latent Dirichlet Allocation: Some Observations. In: Mohammed J. Zaki / Jeffrey Xu Yu / B. Ravindran / Vikram Pudi (Hg.): Advances in Knowledge Discovery and Data Mining. Part I. 14^th Pacific-Asia Conference. Conference Proceedings (PAKDD 2010, Hyderabad, 21.–24.06.2010). Berlin u. a. 2010, S. 391–402. PDF. DOI: 10.1007/978-3-642-13657-3_43
Philipp Bayerschmidt / Dennis Möbus: Leben gelabelt. Computergestützte Inhaltverzeichnisse für Oral-History-Interviews. In: BIOS. Zeitschrift für Biographieforschung, Oral History und Lebensverlaufsanalysen 28 (2025), H. 1/2, S. 83–104. [Nachweis im GVK]
David M. Blei: Probabilistic Topic Models. Surveying a Suite of Algorithms That Offer a Solution to Managing Large Document Archives. In: Communications of the ACM 55 (2012), H. 4, S. 77–84. DOI: 10.1145/2133806.2133826
David M. Blei / Andrew Y. Ng / Michael I. Jordan: Latent Dirichlet Allocation. In: The Journal of Machine Learning Research 3 (2003), S. 993–1022. [online]
Marcel Bollmann: A Large-Scale Comparison of Historical Text Normalization Systems. In: Jill Burstein / Christy Doran / Thamar Solorio (Hg.): Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Minneapolis, 02.–07.06.2019). 2 Bände. Minneapolis 2019. Band 1 (2019): Long and Short Papers, S. 3885–3898. PDF. DOI: 10.18653/v1/N19-1389
Gerlof Bouma: Normalized (Pointwise) Mutual Information in Collocation Extraction. 2009. PDF. [online]
Megan R. Brett: Topic Modeling: A Basic Introduction. In: Journal of Digital Humanities 2 (2012), H. 1. HTML. [online]
Noah Bubenhofer: Semantische Äquivalenz in Geburtserzählungen: Anwendung von Word Embeddings. In: Zeitschrift für germanistische Linguistik 48 (2020), H. 3, S. 562–589. PDF. DOI: 10.1515/zgl-2020-2014
Patrick J. Burns: Constructing Stoplists for Historical Languages. In: Digital Classics Online 4 (2018), H. 2, S. 4–20. PDF. DOI: 10.11588/dco.2018.2.52124
Juan Cao / Tian Xia / Jintao Li / Youngdong Zhang / Sheng Tang: A Density-Based Method for Adaptive LDA Model Selection. In: Neurocomputing 72 (2009), H. 7–9, S. 1775–1781. HTML. DOI: 10.1016/j.neucom.2008.06.011
Jonathan Chang / Jordan Boyd-Graber / Sean Gerrish / Chong Wang / David M. Blei: Reading Tea Leaves: How Humans Interpret Topic Models. In: Yoshua Bengio / Dale Schuurmanns / John Lafferty / Chris Williams / Aron Culotta (Hg.): Advances in Neural Information Processing Systems. 22^nd Conference Proceedings (NIPS 2009, Vancouver, 07.-10.12.2009). La Jolla, US-CA 2009. PDF. [online]
Rob Churchill / Lisa Singh: The Evolution of Topic Modeling. In: ACM Computing Surveys 54 (2022), H. 10, S. 1–35. HTML. DOI: 10.1145/3507900
Romain Deveaud / Eric SanJuan / Patrice Bellot: Accurate and Effective Latent Concept Modeling for Ad Hoc Information Retrieval. In: Document Numérique 17 (2014), H. 1, S. 61–84. PDF. [online]
Jacob Devlin / Ming-Wei Chang / Kenton Lee / Kristina Toutanova: BERT. Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv. 11.10.2018. Version 2.0 vom 24.05.2019. HTML. DOI: 10.48550/arXiv.1810.04805
James Dobson: Interpretable Outputs. Criteria for Machine Learning in the Humanities. In: Digital Humanities Quarterly 15 (2021), H. 2. HTML. [online]
Caitlin Doogan / Wray Buntine: Topic Model or Topic Twaddle? Re-Evaluating Semantic Interpretability Measures. In: Kristina Toutanova / Anna Rumshisky / Luke Zettlemoyer / Dilek Hakkani-Tur / Iz Beltagy / Steven Bethard / Ryan Cotterell / Tanmoy Chakraborty / Yichao Zhou (Hg.): Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Online, 06.–11.06.2021). 2021, S. 3824–3848. PDF. [online]
Keli Du: Zum Verständnis des LDA Topic Modeling: eine Evaluation aus Sicht der Digital Humanities. Dissertation, Universität Würzburg. 2024. PDF. DOI: 10.25972/OPUS-34826
Susan T. Dumais: Latent Semantic Analysis. In: Annual Review of Information Science and Technology 38 (2004), H. 1, S. 188–230. HTML. DOI: 10.1002/aris.1440380105
Simon Flachs / Marcel Bollmann / Anders Søgaard: Historical Text Normalization with Delayed Rewards. In: Anna Korhonen / David Traum / Lluís Màrquez (Hg.): Proceedings of the 57^th Annual Meeting of the Association for Computational Linguistics (ACL 2019, Florenz, 28.07.–02.08.2019). Florenz 2019, S. 1614–1619. PDF. DOI: 10.18653/v1/P19-1157
Freie Universität Berlin. Universitätsbibliothek (Hg.): Oral-History.Digital. Letzter Zugriff: 07.01.2025. HTML. [online]
Shawn Graham / Scott B. Weingart / Ian Milligan / Kim Martin: Exploring Big Historical Data. The Historian’s Macroscope. 2. Auflage. Hackensach, US-NJ 2022. [Nachweis im GVK]
Shawn Graham / Scott B. Weingart / Ian Milligan: Getting Started with Topic Modeling and MALLET. In: Programming Historian 1 (2012). HTML. DOI: 10.46430/phen0017
Philip Grant / Ratan Sebastian / Marc Allassonnière-Tang / Sara Cosemans: Topic Modeling on Archive Documents from the 1970s: Global Policies on Refugees. In: Digital Scholarship in the Humanities 36 (2021), H. 4, S. 886–904. PDF. DOI: 10.1093/llc/fqab018
Thomas L. Griffiths / Mark Steyvers: Finding Scientific Topics. In: Proceedings of the National Academy of Sciences 101 (2004), Supplement 1, S. 5228–5235. PDF. DOI: 10.1073/pnas.0307752101
Maarten Grootendorst: BERTopic: Neural Topic Modeling with a Class-Based TF-IDF Procedure. arXiv. 11.03.2022. PDF. DOI: 10.48550/arXiv.2203.05794
Maarten Grootendorst: BERTopic. 2024. HTML. [online]
Handschriftencensus (Hg.): Twinger, Jakob, von Königshofen: ›Chronik‹ (dt.). Letzter Zugriff: 07.01.2025. HTML. [online]
Tobias Hodel / Dennis Möbus / Ina Serif: Von Inferenzen und Differenzen. Ein Vergleich von Topic-Modeling-Engines auf Grundlage historischer Korpora. In: Selin Gerlek / Sarah Kissler / Thorben Mämecke / Dennis Möbus (Hg.): Von Menschen und Maschinen – Mensch-Maschine-Interaktion in digitalen Kulturen. Hagen 2022, S. 181–205. PDF. DOI: 10.57813/20220623-153139-0
Alexander Hoyle / Pranav Goel / Denis Peskov / Andrew Hian-Cheong / Jordan Boyd-Graber / Philip Resnik: Is Automated Topic Model Evaluation Broken? The Incoherence of Coherence. In: Marc’Aurelio Ranzato / Alina Beygelzimer / Yann N. Dauphin / Percy S. Liang / Jennifer Wortman Vaughan (Hg.): Advances in Neural Information Processing Systems 34. 35^th Conference on Neural Information Processing Systems 2021. Conference Proceedings (NeurIPS 2021, Online, 06.–14.12.2021). 2021. PDF. [online]
Institut für Geschichte und Biographie der FernUniversität in Hagen (Hg.) (2025a): Archiv »Deutsches Gedächtnis«. Letzter Zugriff: 07.01.2025. HTML. [online]
Institut für Geschichte und Biographie der FernUniversität in Hagen (Hg.) (2025b): Projekt: KA3 – Kölner Zentrum Analyse und Archivierung von AV-Daten. Teilprojekt: Pilotprojekt Oral History. Letzter Zugriff: 07.01.2025. HTML. [online]
Daniel Jurafsky / James H. Martin: Speech and Language Processing. An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. 2. Auflage. Upper Saddle River, US-NJ u. a. 2009. [Nachweis im GVK]
Maria Khodorchenko / Nikolay Butakov / Denis Nasonov: Towards Better Evaluation of Topic Model Quality. In: Sergey Balandin / Evgeny Kucheryay / Tatiana Shatalova (Hg.): Proceedings of the 32^nd Conference of Open Innovations Association FRUCT (FRUCT’32, Tampere, FI, 09.–11.11.2022). 2 Hefte. Helsinki 2022. Heft 2 (2022), S. 128–134. PDF. [online]
Jey Han Lau / David Newman / Timothy Baldwin: Machine Reading Tea Leaves: Automatically Evaluating Topic Coherence and Topic Model Quality. In: Shuly Wintner / Sharon Goldwater / Stefan Riezler (Hg.): Proceedings of the 14^th Conference of the European Chapter of the Association for Computational Linguistics (Göteborg, SE, 26.-30.04.2014). Göteborg 2014, S. 530–539. PDF. DOI: 10.3115/v1/E14-1056
Zongxia Li / Andrew Mao / Daniel Stephens / Pranav Goel / Emily Walpole / Alden Dima / Juan Fung / Jordan Boyd-Graber: Improving the TENOR of Labeling: Re-Evaluating Topic Models for Content Analysis. arXiv. 29.01.2024. Version 2 vom 20.02.2024. PDF. DOI: 10.48550/arXiv.2401.16348
Elisa Linseisen: »Big Data of the Past«: Reflexionen über eine Episteme des Digitalen. In: Riley Linebaugh / Philipp McLean / Lisa Regazzoni / Bettina Severin-Barboutie (Hg.): Geschichtstheorie am Werk. 08.03.2022. Version vom 18.01.2023. HTML. DOI: 10.58079/pcx2
Leland McInnes / John Healy / Steve Astels: The hdbscan Clustering Library. 2016. HTML. [online]
Christopher Meaney / Therese A. Stukel / Peter C. Austin / Rahim Moineddin / Michelle Greiver / Michael Escobar: Quality Indices for Topic Model Selection and Evaluation. A Literature Review and Case Study. In: BMC Medical Informatics and Decision Making 23 (2023). PDF. DOI: 10.1186/s12911-023-02216-1
David Mimno / Hanna Wallach / Edmund Talley / Miriam Leenders / Andrew McCallum: Optimizing Semantic Coherence in Topic Models. In: Regina Barzilay / Mark Johnson (Hg.): Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing (EMNLP 2011, Edinburgh, 27.–31.07.2011). Edinburgh 2011, S. 262–272. PDF. [online]
Adam S. Miner / Sheridan A. Stewart / Meghan C. Halley / Laura K. Nelson / Eleni Linos: Formally Comparing Topic Models and Human-Generated Qualitative Coding of Physician Mothers’ Experiences of Workplace Discrimination. In: Big Data & Society 10 (2023). DOI: 10.1177/20539517221149106
Dennis Möbus: Holleriths Vermächtnis – ein Beitrag zur Geschichte von Frauen in der EDV. Topic Modeling als Methode digitaler Sekundäranalyse lebensgeschichtlicher Interviews. In: BIOS. Zeitschrift für Biographieforschung, Oral History und Lebensverlaufsanalysen 33 (2020), H. 1, S. 162–180. PDF. DOI: 10.3224/bios.v33i2.01
Nikita Murzintcev: Select Number of Topics for LDA Model. RPubs. 24.10.2016. HTML. [online]
Stephen Mutuvi / Antoine Deucet / Moses Odeo / Adam Jatowt: Evaluating the Impact of OCR Errors on Topic Modeling. In: Milena Dobreva / Annika Hinze / Maja Žumer (Hg.): Maturity and Innovation in Digital Libraries. Cham 2018, S. 3–14. HTML. DOI: 10.1007/978-3-030- 04257-8_1
David Newman / Jey Han Lau / Karl Grieser / Timothy Baldwin: Automatic Evaluation of Topic Coherence. In: Ron Kaplan / Jill Burstein / Mary Harper / Gerald Penn (Hg.): Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics. Conference Proceedings (Los Angeles, 02.–04.07.2010). Los Angeles 2010, S. 100–108. PDF. [online]
Lutz Niethammer (Hg.): »Die Jahre weiß man nicht, wo man die heute hinsetzen soll.« Faschismuserfahrungen im Ruhrgebiet. Berlin u. a. 1983. [Nachweis im GVK]
Hamed Rahimi / Jacob Louis Hoover / David Mimno / Hubert Naacke / Camelia Constantin / Bernd Amann: Contextualized Topic Coherence Metrics. arXiv. 23.05.2023. PDF. DOI: 10.48550/arXiv.2305.14587
Katie Rawson / Trevor Muñoz: Against Cleaning. In: Matthew K. Gold / Lauren F. Klein (Hg.): Debates in the Digital Humanities. Minneapolis 2019. HTML. [online]
Michael Röder / Andreas Both / Alexander Hinneburg: Exploring the Space of Topic Coherence Measures. In: Xueqi Cheng / Hang Li (Hg.): WSDM ’15. Proceedings of the Eighth ACM International Conference on Web Search and Data Mining (Shanghai, 02.–06.02.2015). Shanghai 2015, S. 399–408. PDF. DOI: 10.1145/2684822.2685324
Frank Rosner / Alexander Hinneburg / Michael Röder/ Martin Nettling / Andreas Both: Evaluating Topic Coherence Measures. arXiv. 25.03.2014. PDF. DOI: 10.48550/arXiv.1403.6397
Christof Schöch: Topic Modeling Genre. An Exploration of French Classical and Enlightenment Drama. arXiv. 24.03.2021 PDF. DOI: 10.48550/arXiv.2103.13019
Alexandra Schofield / Måns Magnusson / David Mimno: Pulling Out the Stops: Rethinking Stopword Removal for Topic Models. In: Mirella Lapata / Phil Blunsom / Alexander Koller (Hg.): Proceedings of the 15^th Conference of the European Chapter of the Association for Computational Linguistics (Valencia, 03.–07.04.2017). 2 Bände. Valencia 2017. Band 2 (2017): Short Papers, S. 432–436. PDF. [online]
Hanyu Shi / Martin Gerlach / Isabel Diersen / Doug Downey / Luis Amaral: A New Evaluation Framework for Topic Modeling Algorithms Based on Synthetic Corpora. In: Kamalika Chaudhuri / Masashi Sugiyama (Hg.): Proceedings of the 22^nd International Conference on Artificial Intelligence and Statistics (Naha, JP, 16.–18.04.2019; = Proceedings of Machine Learning Research, 89). 2019, S. 816–826. PDF. [online]
Ina Serif: Geschichte aus der Stadt. Überlieferung und Aneignungsformen der deutschen Chronik Jakob Twingers von Königshofen (= Kulturtopographie des alemannischen Raums, 11). Berlin u. a. 2020. [Nachweis im GVK]
Ina Serif: Der zerstreute Chronist. Zur Überlieferung der deutschsprachigen Chronik Jakob Twingers von Königshofen. In: Mittelalter. Interdisziplinäre Forschung und Rezeptionsgeschichte. 05.12.2015. Version vom 02.07.2025. HTML. DOI: 10.58079/rgxp
Ina Serif: tm_data. GitHub. 19.09.2024. Datenset. [online]
Severin Simmler / Thorsten Vitt / Steffen Pielström: Topic Modeling with Interactive Visualizations in a GUI Tool. In: DH 2019. Abstracts and Posters from the Digital Humanities 2019 Conference (Utrecht, 09.–12.07.2019). Utrecht 2019. PDF. DOI: 10.34894/ENV3TX
Dominik Stammbach / Vilém Zouhar / Alexander Hoyle / Mrinmaya Sachan / Elliott Ash: Revisiting Automated Topic Model Evaluation with Large Language Models. In: Houda Bouamor / Juan Pino / Kalika Bali (Hg.): Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing (EMNLP 2023, Singapur, 06.–10.12.2023). Singapur 2023, S. 9348–9357. PDF. [online]
Matthew A. Taddy: On Estimation and Selection for Topic Models. In: Neil D. Lawrence / Mark Girolami (Hg.): Artificial Intelligence and Statistics (La Palma, IC, 21.–23.04.2012) (= Proceedings of Machine Learning Research, 22). 2012, S. 1184–1193. PDF. [online]
Hanna M. Wallach / Iain Murray / Ruslan Salakhutdinov / David Mimno: Evaluation Methods for Topic Models. In: Andrea Danyluk (Hg.): ICML ’09. Proceedings of the 26^th International Conference on Machine Learning (Montreal, 14.–18.06.2009). New York 2009, S. 1105–1112. PDF. DOI: 10.1145/1553374.1553515
Sara J. Weston / Ian Shryock / Ryan Light / Phillip A. Fisher: Selecting the Number and Labels of Topics in Topic Modeling: A Tutorial. In: Advances in Methods and Practices in Psychological Science 6 (2023), H. 2. HTML. DOI: 10.1177/25152459231160105
Mark D. Wilkinson / Michel Dumontier / IJsbrand Jan Aalbersberg / Gabrielle Appleton / Myles Axton / Arie Baak / Niklas Blomberg / Jan-Willem Boiten / Luiz Bonino da Silva Santos / Philip Eric Bourne / Jildau Bouwman / Anthony J. Brookes / Tim Clark / Mercè Crosas / Ingrid Dillo / Olivier Dumon / Scott Edmunds / Chris T. Evelo / Richard Finkers / Alejandra Gonzalez-Beltran / Alasdair J. G. Gray / Paul Groth / Carole Goble / Jeffrey Sean Grethe / Jaap Heringa / Peter A. C. ’t Hoen / Rob Hooft / Tobias Kuhn / Ruben Kok / Joost Kok / Scott J. Lusher / Maryann Elizabeth Martone / Albert Mons / Abel Laerte Packer / Bengt Persson / Philippe Rocca-Serra / Marco Roos / Rene van Schaik / Susanna-Assunta Sansone / Erik Schultes / Thierry Sengstag / Ted Slater / George Strawn / Morris A. Swertz / Mark Thompson / Johan van der Lei / Erik van Mulligen / Jan Velterop / Andra Waagmeester / Peter Wittenburg / Katherine Wolstencroft / Jun Zhao / Barend Mons: The FAIR Guiding Principles for Scientific Data Management and Stewardship. In: Scientific Data 3 (2016). HTML. DOI: 10.1038/sdata.2016.18
Gerben Zaagsma: Der hybride Historiker. Geschichtsforschung im digitalen Zeitalter. Videoportal FernUniversität in Hagen. 11.08.2023. [online]

Weiterführende Literatur

Melanie Althage: Potenziale und Grenzen der Topic-Modellierung mit Latent Dirichlet Allocation für die Digital History. In: Karoline Dominika Döring / Stefan Haas / Mareike König / Jörg Wettlaufer (Hg.): Digital History. Konzepte, Methoden und Kritiken Digitaler Geschichtswissenschaft. Berlin u. a. 2022, S. 255–277. PDF. DOI: 10.1515/9783110757101-014
Peter Andorfer: Turing Test für das Topic Modeling. Von Menschen und Maschinen erstellte inhaltliche Analysen der Korrespondenz von Leo von Thun-Hohenstein im Vergleich. In: Zeitschrift für digitale Geisteswissenschaften 2 (2017). 25.04.2017. HTML. DOI: 10.17175/2017_002
Steve Cohen: Shifting Questions. New Paradigms for Oral History in a Digital World. In: The Oral History Review 40 (2013), H. 1, S. 154–167. PDF. DOI: 10.1093/ohr/oht036.
Martin Fechner / Andreas Weiß: Einsatz von Topic Modeling in den Geschichtswissenschaften: Wissensbestände des 19. Jahrhunderts. In: Zeitschrift für digitale Geisteswissenschaften 2 (2017). 19.12.2017. HTML. DOI: 10.17175/2017_005
Lina Franken / Nils Egger / Luis Fischer / Katharina Lillich / Florian Schmid: Nachnutzung von Forschungsdaten für qualitative Forschungen. Text Mining als Ansatz zur Exploration transkribierter Interviews. In: Dennis Eckhardt / Martina Klausner (Hg.): Digital[ität] Ethnografieren. Forschungsmethoden für den digitalen Alltag (= Kulturanthropologie Notizen, 85). Frankfurt / Main 2023, S. 188–222. PDF. DOI: 10.21248/ka-notizen.85.16
Matthias Lemke / Gregor Wiedemann (Hg.): Text Mining in den Sozialwissenschaften. Grundlagen und Anwendungen zwischen qualitativer und quantitativer Diskursanalyse. Wiesbaden 2016. PDF. DOI: 10.1007/978-3-658-07224-7
Christian Papilloud / Alexander Hinneburg: Qualitative Textanalyse mit Topic-Modellen. Eine Einführung für Sozialwissenschaftler. Wiesbaden u. a. 2018. [Nachweis im GVK]
Stephen M. Sloan: Swimming in the Exaflood. Oral History as Information in the Digital Age. In: Douglas Boyd / Mary Larson (Hg.): Oral History and Digital Humanities. Voice, Access, and Engagement. New York 2014, S. 175–186. [Nachweis im GVK]

Abbildungs- und Tabellenverzeichnis

Tab. 1: Vergleich von LUSIR-Topics mit unterschiedlichem Chunking.
Abb. 1: Vergleich zweier Topic-Modelle: 20 Topics, Chunks à 25 Sätze und Random Seed 123 auf der X-Achse bzw. Random Seed 100 auf der Y-Achse (je heller, desto höher die Übereinstimmung zweier Topics). [Grafik: Möbus et al. 2026]
Tab. 2: Untertage-Topics aus 2 Modellen im Vergleich: Zeilen 1 und 2 repräsentieren ein Modell mit 50 Topics, das auf nicht gechunkten Interviewtranskripten beruht, die Topic-Liste in Zeile 3 stammt vom finalen Modell mit 50 Topics, für das die Interviewtranskripte in Teile zu je 50 Sätzen zerlegt wurden.
Abb. 2: Evaluation 50–1.000 Topic-Anzahl in 50er-Schritten. [Grafik: Möbus et al. 2026]
Abb. 3: Evaluation 20–500 Topic-Anzahl in 20er-Schritten. [Grafik: Möbus et al. 2026]
Abb. 4: Evaluation 5–300 Topic-Anzahl in 5er-Schritten. [Grafik: Möbus et al. 2026]
Abb. 5: C_NPMI-Werte-Verteilung der Topics im Verhältnis zu ihrer Anzahl. [Aus: Du 2024, S. 88]
Tab. 3: LUSIR 20 Topics Chunks à 50 Sätze, Topics mit Bezug auf die Ruhrgebietsindustrie.
Tab. 4: LUSIR 20 Topics Chunks à 50 Sätze, Topics mit Bezug auf Freizeit und Kultur, Schule und Studium, Ausbildung, Büroarbeit.
Tab. 5: LUSIR 50 Topics Chunks à 50 Sätze, Topics mit Bezug auf Printmedien (5), Freizeit und Kultur (20), Urlaub und Reisen (29) und Sport (34).
Tab. 6: LUSIR 50 Topics Chunks à 50 Sätze, Topics mit Bezug auf Studium (3), Schule (21) und Büroarbeit (24).
Tab. 7: LUSIR 50 Topics Chunks à 50 Sätze, Topics mit Bezug auf Mobilität (23), Wohnen (28) und Rechtswesen (48).
Tab. 8: Eine für das Topic 26 (›Bergbau‹) repräsentative Interviewpassage.
Tab. 9: Eine für das Topic 20 (›Kultur‹) repräsentative Interviewpassage.
Tab. 10: Spätmittelalterliche Handschriften, 20 Topics, ohne Chunks, Topics ohne inhaltliche Ausrichtung (4), mit Bezug auf Alexandergeschichte (5) und die Weißenburg-Chronik (17).
Tab. 11: Spätmittelalterliche Handschriften, 50 Topics, ohne Chunks mit Bezug auf Weißenburg-Chronik (25).
Tab. 12: Spätmittelalterliche Handschriften, 50 Topics, 500er-Chunks, Topics mit Bezug auf Rezepte (3), Weißenburg-Chronik (22), Joseph und seine Brüder (25), Ulrichslegende (28).
Tab. 13: Spätmittelalterliche Handschriften, 50 Topics, 500er-Chunks, Topics mit lateinischen Begriffen (6) und dem Auszug aus Ägypten (90).
Tab. 14: Vergleich der Iteration anhand des Bergbau-Topics.
Abb. 6: Similarität von Topics, LDA mit 50 Topics auf der X-Achse, BERTopic mit 45 Topics auf der Y-Achse, beide mit 50er-Chunks. Je heller, desto größer die Übereinstimmung. Übereinstimmung ergibt sich aus dem prozentualen Anteil der Wörter, die in beiden Listen (n=20) vorkommen. [Grafik: Möbus et al. 2026]
Tab. 15: Auswirkungen des Chunking auf Mallet- und BERTopic-Modelle, angewendet auf mittelalterliche Sammelhandschriften.

Topic Modeling für die Geschichtswissenschaft

Abstract

1. Einleitung

2. Von Quellen zu Korpora und Daten

2.1 Topic Modeling: Funktionsweise und Implementierung

2.2 Korpora

2.2.1 Erstes Korpus: Zürcher Regierungsratsbeschlüsse aus dem 19. Jahrhundert

2.2.2 Zweites Korpus: lebensgeschichtliche Interviews aus den 1980er Jahren

2.2.3 Drittes Korpus: Spätmittelalterliche Chronikhandschriften

3. Preprocessing: Texte auf- und vorbereiten

3.1 Entfernen von Satzzeichen

3.1.1 Interviews

3.2 Kleinschreibung (Lower Casing)

3.2.1 Regierungsratsbeschlüsse

3.2.2 Handschriften

3.2.3 Interviews

3.3 Stopwords: Semantisch bedeutungslose Wörter entfernen

3.3.1 Regierungsratsbeschlüsse

3.3.2 Handschriften

3.3.3 Interviews

Stopword Removal (Threshold)

Stopword Removal (Liste)

3.4 Lemmatisierung: Arbeiten mit Grundformen von Wörtern

3.4.1 Interviews

3.5 Schlussfolgerungen zum Preprocessing

4. Weitere Optimierung: Chunking und Random Seeds

4.1 Chunking

4.2 Random Seed

4.3 Anwendung

4.3.1 Handschriften

4.3.2 Lebensgeschichtliche Interviews

5. Schätzung der optimalen Anzahl von Themen

5.1 Quantitative Evaluationsroutine

5.1.1 Verwendete Metriken

5.1.2 Evaluation der Korpora über die Metriken

5.1.3 Bewertung der quantitativen Evaluation

5.2 Qualitative Evaluation

5.2.1 Lebensgeschichtliche Interviews

Distant Reading der Topic-Listen

Scalable Readings zur Überprüfung der Topic-Repräsentation in den Texten

5.2.2 Regierungsratsbeschlüsse

5.2.3 Mittelalterliche Handschriften

Distant Reading der Topic-Listen

Scalable Readings zur Überprüfung der Topic-Repräsentation in den Texten

5.3 Weiteres Parametertuning: Iterationen

6. LDA und vektorisiertes Topic Modeling im Vergleich

6.1 Einführung

6.2 Anwendung

6.2.1 Lebensgeschichtliche Interviews (Stopwordremoval, Parametertuning und Chunking)

6.2.2 Regierungsratsbeschlüsse

6.2.3 Spätmittelalterliche Chronikhandschriften (Chunking)

7. Resumé

Fußnoten

Bibliografie

Weiterführende Literatur

Abbildungs- und Tabellenverzeichnis

Herausgegeben von