Abstract
Dieser Artikel behandelt die Operationalisierung von Figurentypen im deutschsprachigen Drama. Ausgehend von der dramen- und theatergeschichtlichen Forschung werden Figuren bestimmt, die einem der drei Figurentypen ›Intrigant*in‹, ›tugendhafte Tochter‹ und ›zärtlicher Vater‹ entsprechen. Für die Figuren wurden eigenschaftsbasierte Datensätze erstellt, die zu ihrer automatischen Klassifikation herangezogen werden. Neben die inhaltliche Komplexität von Figuren und die theoretische Bestimmung von Figurentypen tritt die methodische Herausforderung, ausgehend von einer kleinen Menge an Annotationen zu generalisieren. Unsere Experimente zeigen, dass sich die gewählten Typen jeweils innerhalb einer Grundgesamtheit als abgrenzbare Teilmengen herausbilden.- 1. Einleitung
- 2. Theaterpraktische Kontexte: Lessing und das Rollenfach
- 3. Von der Figur zum Figurentypus: Operationalisierung für Menschen
- 3.1 Methodische Vorüberlegungen
- 3.2 Annotation als Second-Hand Criticism
- 3.3 Bottom-up-Annotation
- 3.4 Top-down-Annotation
- 4. Operationalisierung für den Computer
- 4.1 Begriffe vermessen
- 4.2 Verwendete Features
- 4.2.1 Textstatistik
- 4.2.2 Netzwerkmaße
- 4.2.3 Bühnenpräsenz
- 4.2.4 Wortfelder
- 4.2.5 Topics
- 4.2.6 Handlungsverben
- 4.2.7 Sentiment
- 4.2.8 Figureninformationen
- 4.2.9 Priors
- 4.3 Übersicht
- 5. Experimente und Auswertung
- 5.1 Datensatz
- 5.2 Verteilung der Feature-Werte
- 5.3 Klassifikation: Automatische Erkennung von Figurentypen
- 5.4 Bildung von Teilmengen
- 5.5 Diskussion
- 6. Fazit und Ausblick
- Danksagungen
- Primärliteratur im Text
- Bibliographische Angaben
- Medienverzeichnis
1. Einleitung
[1]Mit einer Bitte wendet sich William Sampson am
Beginn des dritten Akts von Gotthold Ephraim
Lessings bürgerlichem Trauerspiel Miß Sara Sampson (1755)[1] an
seinen Bediensteten Waitwell: Er möge Williams Tochter und Titelheldin Sara eine Mitteilung überbringen. Es sei »der
Brief eines zärtlichen Vaters, der sich über nichts, als ihre
Abwesenheit beklaget«.[2] Diese der Figurenrede Sir Williams zu entnehmende direkte Selbstcharakterisierung[3] wird in der
Folgeszene nicht nur aufgegriffen, sondern dient als Anknüpfungspunkt für
die weitere Charakterisierung sowohl der Vater- als auch der Tochterfigur.
Bei der Briefübergabe wiederholt Diener Waitwell
die auffällige Formulierung und Selbstzuschreibung Sir
Williams als ›zärtlicher Vater‹[4] auch gegenüber Sara. Er überträgt dabei die Eigenschaft der Vaterfigur auf die
Tochter: Er »ist noch immer der zärtliche Vater, so wie sein Sarchen
noch immer die zärtliche Tochter ist«.[5] Der aktualisierende Wortlaut »noch
immer« deutet über die gegenwärtige Wahrnehmung Saras zum Zeitpunkt der Briefszene hinaus,
verdeutlicht er für Sara doch, dass Vater William ihr verzeihen wird beziehungsweise schon
verziehen hat. Somit suggeriert die Wendung ein überzeitlich stabiles
Verhältnis von Vater und Tochter: »Die Bindung« bleibe, so
Wilfried Barner, »auch dann erhalten, nachdem Sara die
Vater-Tochter-Beziehung gestört hat«.[6] Denn Sara entscheidet sich für ihre Liebe zu Mellefont und »gegen die väterliche
Autorität«.[7] Dieser
»Fehltritt«,[8] den sie angesichts der väterlichen
Vergebung später als »Irrtum«[9] bezeichnen wird, bleibt also vermeintlich
folgenlos.[10] Es scheint fast so, als könnten Vater und
Tochter aufgrund ihrer als natürlich wahrgenommenen
»Gefühle[] und Empfindungen« niemals dauerhaft »vom
Pfade der
»Er ist noch der zärtliche Vater? So liebt er mich ja noch? So muß er mich ja beklagen? Nein, nein, das tut er nicht; das kann er nicht tun! Siehst du denn nicht, wie unendlich jeder Seufzer, den er um mich verlöre, meine Verbrechen vergrößern würde? Müßte mir nicht die Gerechtigkeit des Himmels jede seiner Tränen, die ich ihm auspreßte, so anrechnen, als ob ich bei jeder derselben mein Laster und meinen Undank wiederholte? Ich erstarre über diesen Gedanken. Tränen koste ich ihm? Tränen? Und es sind andre Tränen, als Tränen der Freude? – Widersprich mir doch, Waitwell!«[12]
[3]Der Ausschnitt aus ihrer Figurenrede veranschaulicht, warum Sara von der Forschung als »Typ des gefühlvollen Menschen« betrachtet wird, dessen Moral vor allem dem Herzen folge.[13] ›Zärtlichkeit‹ und ›Herz‹, das seien entsprechend auch die maßgeblichen Begriffe, die die Beziehung von Vater und Tochter bestimmten und auf denen die Dramenhandlung gründe.[14] Hieran anknüpfend wird der dramatische Konflikt des Stückes »auf einen Fehler des ›zärtlichen Herzens‹, also der Liebesfähigkeit der Titelheldin«, zurückgeführt.[15] Noch in der Sterbeszene Saras wird die Charakterisierung William Sampsons als zärtlicher Vater ein letztes Mal wiederholt. Hier ist es seine dem Tode nahe Tochter, die erst sich selbst als »eine schuldige, eine reuende, eine gestrafte Tochter« und in Kontrast dazu ihren Vater als »beleidigt[]«, »großmüthig[]« und »zärtlich[]«[16]bezeichnet. Lessings Figuren, so ließe sich also folgern, betreiben durch ihre sprachliche Selbst- und Fremdcharakterisierung eine Form der innerfiktionalen Typenbildung, die sich in den poetologischen und theaterpraktischen Bezeichnungen der Rollenfächer wiederfindet.
[4]Als ›zärtlicher Vater‹ steht William Sampson exemplarisch für die zunehmende Abstufung und Unterscheidung einzelner Rollenfächer – hier der Vaterfigur –, die mit dem bürgerlichen Theater einhergeht.[17] Das Rollenfach gilt als »zentrale[s] Strukturprinzip der europäischen Theaterpraxis«.[18] Dabei organisiert es einerseits die Rollenverteilung: Dramenfiguren werden einem Rollenfach zugeordnet, das von bestimmten Schauspieler*innen bedient wird. Dadurch garantiert es andererseits einen »konkreten künstlerischen Wirkungsradius des jeweiligen Darstellers«.[19] Das Rollenfach zielt also auf theaterpraktische Überlegungen ab, basiert dabei aber auf literarischen Typen, die Autor*innen in ihren dramatischen Texten anlegen.[20] Mit Manfred Pfister lässt sich ein Figurentypus als eine Gruppe von Figuren bestimmen, die einen gewissen »Satz von Eigenschaften« teilt und somit eine Abstraktion des Individuellen darstellt.[21]
[5]Die skizzierte Verschränkung von Rollenfächern und Figurentypen machen wir uns im Folgenden zunutze, wenn wir versuchen, Figurentypen mithilfe von computergestützten Analysen zu identifizieren und deren Eigenschaften näher zu ergründen. Neben dem von Sir William verkörperten Typus des ›zärtlichen Vaters‹ rücken wir zwei weitere Figurentypen in den Fokus – nämlich die ›tugendhafte Tochter‹ und den/die ›Intrigant*in‹.[22] Während sich der ›zärtliche Vater‹ und die ›tugendhafte Tochter‹, wie wir es anhand von Lessings Stück umrissen haben, hauptsächlich durch die Vater-Tochter-Relation definieren, sind ›Intrigant*innen‹ durch ihr ambivalentes Changieren zwischen der Rolle des handelnden Akteurs und der des planvollen Beobachters bestimmt.[23] Schon hieran wird deutlich, dass die Zuweisung von Figur zu Figurentypus ein komplexes mehrschichtiges Problem darstellt.
[6]Die Analyse dramatischer Figurentypen kann auf Grundlagen aufbauen, die im Bereich der Computational Literary Studies seit geraumer Zeit diskutiert werden, prominent etwa am Beispiel der Erkennung von Protagonisten in literarischen Texten.[24] Bereits in den 1970er Jahren hat Manfred Pfister unter dem Begriff »[q]uantitative Dominanzrelationen«[25] eine erste Operationalisierung für Dramen vorgeschlagen, die Haupt- von Nebenfiguren unterscheiden sollte. Seine beiden Kriterien, die »Dauer der Bühnenpräsenz einer Figur« sowie ihr »Anteil[] am Haupttext«,[26] müssten jedoch eher als zu kontextualisierende Indizien denn vollkommen zuverlässige Kennzeichen bewertet werden. Für eine präzisere Einteilung des Bühnenpersonals, etwa nach der Handlungsfunktion der Figuren, mangele es – so Pfister – zudem an »differenzierteren handlungsgrammatischen Vorarbeiten«.[27]
[7]In unserem Beitrag werden wir die bestehenden computergestützten Ansätze erweitern und damit die von Pfister geforderte Differenzierung von Bühnenfiguren mittels quantitativer Analysen anstreben. Ziel ist es, automatisiert Figuren zu erkennen, die einem bestimmten Figurentypus zugehörig sind. Mithilfe von Methoden der maschinellen Sprachverarbeitung sollen also literaturwissenschaftlich aufschlussreiche Befunde über die drei Figurentypen und deren konstitutive Textmerkmale gewonnen werden. Dabei verschränken wir quantitative Methoden der digitalen Dramenanalyse mit qualitativen, indem maschinelle Lernverfahren und dramenhistorische Erkenntnisse zusammengeführt werden. Neben der Klassifikation und Analyse einzelner Figuren und Figurentypen ermöglichen wir durch diesen skalierten Blick der Korpusanalyse auch die zukünftige Analyse umgreifender Entwicklungslinien: Wie verändert sich das dramatische Personal hinsichtlich der dargestellten Figurentypen? Welche Gattungs- und Epochenunterschiede lassen sich beobachten?
[8]Als Datengrundlage verwenden wir deutschsprachige Dramen, die im GerDraCor-Korpus[28] machinenlesbar aufbereitet wurden, wobei wir uns auf den Zeitraum zwischen 1730 und 1850 konzentrieren. Dass damit nur eine relativ kurze Zeitspanne abgedeckt wird, ist zwei Gründen geschuldet: Zum einen stand das Drama von etwa 1850 bis 1880 deutlich im Schatten der erfolgreichen Prosagattungen des Realismus.[29] Zum anderen veränderte sich das Rollenfach und dessen Einfluss auf die Theaterpraxis im Laufe des 19. Jahrhunderts nachhaltig: Neue, am modernen Individuum orientierte Rollen entstanden und die Grenzen der einzelnen Fächer verschwammen zusehends. Zudem stieg die Zahl der Schauspieler*innen eines Ensembles mit dem weiter anwachsenden Repertoire der Theater.[30]
[9]Um die oben skizzierten Fragen behandeln zu können, werden wir in einem ersten Schritt einflussreiche theaterpraktische Kontexte für das deutschsprachige Drama des 18. und 19. Jahrhunderts ausführen (Abschnitt 2). Im Zentrum stehen hier die sogenannten Rollenfächer, die einen konzeptionellen Rahmen sowohl für die theoretische Bestimmung als auch für die Auswahl der Figurentypen bilden. Daran anschließend explizieren wir unsere methodischen Überlegungen, die ausgehend von Franco Morettis Konzept des Distant Reading in einer mehrstufigen Operationalisierung der Figurentypen münden (Abschnitt 3).[31] Es handelt sich hierbei um eine Operationalisierung für Menschen, die anhand von Annotationsbeispielen veranschaulicht wird. Die quantitative Vermessung der verschiedenen Figurentypen erfordert eine zweite, andere Art der Operationalisierung: Die Operationalisierung für den Computer, die die Eigenschaften literarischer Figuren durch Methoden der quantitativen Textanalyse in messbare Indikatoren überträgt (Abschnitt 4).[32] Diese dienen als Features für die computergestützten Auswertungen. In einer Reihe von Experimenten versuchen wir daraufhin, die drei genannten Figurentypen näher zu betrachten und die annotierten Figuren automatisch zuzuweisen. Die Auswertung und Gegenüberstellung einzelner Features und Figuren verspricht aufschlussreiche Einblicke in die Konzeption dramatischer Figuren (Abschnitt 5).
2. Theaterpraktische Kontexte: Lessing und das Rollenfach
[10]Früh entwickelte der junge Student Gotthold Ephraim Lessing – durch seinen Freund Christlob Mylius und seinen Schriftstellerkollegen Christian Felix Weiße in die Welt des Theaters eingeführt – ein ausgeprägtes Interesse für die praktische Seite der Bühnenstücke. Er besuchte Proben, stand in engem Kontakt mit der Schauspieltruppe von Friederike Caroline Neuber und übersetzte sogar fremdsprachige Stücke für ihre Inszenierungen.[33] In den späteren 1760er Jahren diskutierte und reflektierte Lessing als festangestellter Kritiker des Hamburger Nationaltheaters die aktuelle Theaterpraxis in wöchentlichen Kritiken, die schließlich – aufgrund von finanzieller Probleme und mangelndem Publikumsinteresse am regelmäßigen Turnus – unter gleichem Namen als Hamburgische Dramaturgie (1767–1769) in einem Sammelband erschienen sind.[34] In einem Brief an seinen Bruder Karl vom 26. September 1776 bat Lessing, inzwischen mit dem Nationaltheater in Mannheim in Kontakt stehend, um Hilfe bei der Suche nach Schauspieler*innen. Der Brief erwähnt explizit die Rollen des Vaters, der Mutter, des männlichen Liebhabers, der weiblichen Liebhaberin, der Dienerin und eines Mädchens, die es zu besetzen gelte.[35] Die angeführten Beispiele, so unspektakulär sie aus heutiger Sicht wirken, zeichnen Lessing als Kenner der zeitgenössischen Theaterpraxis aus. Als Dramatiker habe er Stücke für das ihm bekannte Theater geschrieben und dabei Rollen für die ihm bekannten Schauspieler konzipiert.[36] Dementsprechend stellt Edward P. Harris fest, dass »Lessings fundamentales Verständnis der Besetzungspraxis sowie individueller und ensemble-spezifischer Fähigkeiten […] ein Schlüsselelement seiner Dramaturgie«[37]seien.
[11]Als wichtiges Instrument der deutschen Theaterpraxis etablierte sich im 18. Jahrhundert das sogenannte Rollenfach.[38] Bernhard Diebold erläutert in einer noch immer einflussreichen, aber wenig trennscharfen Definition, dass ein Rollenfach aus »einer Gesamtheit von – in gewisser Beziehung – ähnlichen Rollen besteht«.[39] Diese Ähnlichkeit könne insofern literarisch sein, als dass sie auf »den Rollen zugrunde liegenden, vom Dichter geschaffenen Typen beruht und somit Fächer wie diejenigen der Helden, Väter, Intriganten […] bedingt«.[40] Die Ähnlichkeit der Rollen bezieht sich aber auch auf die Mittel ihrer künstlerischen Darstellung, die den/die individuelle/n Schauspieler*in auszeichnen.[41] Nicht selten spezialisierten sich Schauspieler*innen auf einzelne Rollenfächer, die sie immer wieder bedienten.[42] In vielen Fällen decken sich die literarischen Typen – zum Beispiel verschiedene Bedienstete – mit den Rollen des Schauspielers.[43] Rollenfächer scheinen also einerseits mit dem Konzept von Figurentypen vergleichbar zu sein, das schematisch beziehungsweise abstrakt angelegte Figuren zu kategorisieren versucht.[44] Andererseits ist das Rollenfachsystem aber in seinen Grenzen durchaus flexibel und historisch variabel.[45] Das System umfasst neben sozial klar definierten Typen beispielsweise auch die sogenannten Charakterrollen – ein Fach, das speziell auf dynamische, runde, komplexe oder individuelle Figuren zugeschnitten ist und damit Figuren umfasst, die den Grundgedanken des Fächersystems in Teilen unterlaufen.[46] Die einzelnen Fächer sollten daher nicht als allzu streng definierte Kategorien mit starren Grenzen betrachtet werden.[47] Die Spannung zwischen Individualität und typisch Abstraktem, die David Fishelov ganz grundsätzlich in jeder literarischen Figur als gegeben sieht, scheint durchaus auf die verschiedenen Rollenfächer übertragbar zu sein.[48]
[12]Die Ursprünge des Rollenfachs sind in den Improvisationstruppen der Commedia dell’arte zu finden, die dem deutschen Wandertheater im 17. und frühen 18. Jahrhundert als Vorbild dienten.[49] Noch in Lessings Emilia Galotti (1772), so konstatiert Wilfried Barner, schimmerten »Techniken der commedia dell’arte […] überall durch«.[50] Die Umstellung des Repertoires von Improvisationsstücken hin zu klassischen französischen und später zu regulären deutschen Stücken habe dann die Entwicklung des recht festen theaterpraktischen Systems der Rollenfächer nach sich gezogen. Denn eine ortsgebundene Theatergruppe musste ihr Repertoire um ein Vielfaches erweitern, um das Besucherinteresse weiterhin aufrechtzuerhalten.[51] Infolgedessen kristallisierten sich gewisse Konventionen heraus, die die verschiedenen Rollenfächer definierten und differenzierten. Während kleinere Theatertruppen mit lediglich vier Schauspielerinnen und vier Schauspielern zurechtkommen mussten – die sowohl tragische als auch komödiantische Rollen zu spielen hatten –,[52] konnten wirtschaftlich besser gestellte Häuser mit 16 und mehr Schauspieler*innen und daher auch mit differenzierteren Rollentypen planen.[53]
Brandes »Promemoria« | Schauspieler*in | Minna von Barnhelm | Emilia Galotti |
zärtlicher Alter | Meyer | – | Odoardo |
komischer Alter | Beil | Wirt | – |
Raisonneur | Herter | Bruchsal | – |
erster Liebhaber | Böck | Tellheim | Der Prinz |
zweyter Liebhaber | Zuccarini, Beck | Paul Werner | Appiani |
Petitmaitre, Fats usw. | Beck, Beil | Riccaut | |
erster Bedienter | Backhaus | – | Pirro |
zweyter Bedienter | Beil | – | Battista |
Charakterrolle | Böck, Brandes, Iffland | Just | Marinelli |
zärtliche Mutter | – | – | Claudia |
komische Mutter | Syler, Pöschel | Dame in Trauer | – |
erste Liebhaberin | Wallenstein, Pöschel | Minna | Orsina |
zweyte Liebhaberin | Seyler, Brands | – | Emilia |
dritte Liebhaberin zu naiven Rollen | Toscani | – | – |
erste und zweyte Soubrette | Toscani, Kummerfeld, Pöschel | Franziska | – |
Tab. 1: Brandesʼ Auflistung der Rollenfächer. [Harris 1992, S. 231]
[13]Tabelle 1 veranschaulicht das Ensemble des Mannheimer Nationaltheaters von 1778 bis 1780 unter der Leitung von Wolfgang von Dalberg.[54] Die Tabelle kombiniert eine Aufstellung der Schauspieler*innen des Ensembles mit einer typischen Liste von Rollenfächern, die Johann Christian Brandes bei seiner Bewerbung um die Leitung des Nationaltheaters im Jahr 1779 vorlegte.[55] Sie enthält auch zwei von Lessings Stücken, Emilia Galotti und das Lustspiel Minna von Barnhelm, oder das Soldatenglück (1767), wobei das letztere der Forschung heute als Paradebeispiel für eine gängige Rollenfach-Besetzung gilt.[56]
[14]Lessing, so urteilt Edward P. Harris, folgt den Konventionen des Rollenfach-Systems und akzeptiert dessen Limitierungen, um die Aufführbarkeit seiner Stücke zu gewährleisten. Für Emilia Galotti und Minna von Barnhelm etwa habe er typische deutsche Figuren konzipiert, die das übliche Rollenspektrum eines Theaterensembles abdecken, ohne dadurch aber »künstlerische Ausschmückung, Verfeinerung und Wirksamkeit […] einzuschränken«.[57]
3. Von der Figur zum Figurentypus: Operationalisierung für Menschen
3.1 Methodische Vorüberlegungen
[15]In unserem ersten, noch rein manuellen Schritt der quantitativen Analyse von dramatischen Figuren orientieren wir uns an Franco Morettis ursprünglicher Konzeption von Distant Reading,[58] die er erstmals in seinem Essay Conjectures on World Literature[59] 2000 konturierte. Moretti bestimmt Distant Reading dort als »›second-hand‹ criticism«, als »patchwork of other people’s research, without a single direct textual reading«.[60] In Anbetracht seines ambitionierten Fokus auf Weltliteratur – er nimmt sich hierfür Goethe sowie Marx und Engels zum Vorbild –[61] schlägt er mit einiger Polemik vor, auf die Lektüre von Primärliteratur zugunsten von Sekundärliteratur, also bereits existierender Expertise, die es nur mehr zusammenzutragen gelte, zu verzichten. Er versucht damit eine geeignete Methode für den Umgang mit literaturgeschichtlichen Fragestellungen zu finden, die sich nicht nur auf kanonische Texte beschränken, da diese nach Moretti »not even one per cent of published literature«[62] ausmachen würden.
[16]Obwohl methodisch unterspezifiziert bietet Morettis frühes distant reading-Verständnis für unsere Analyse der Dramenfiguren eine fruchtbare Perspektive. Denn die computationelle Untersuchung und automatische Identifizierung verschiedener Figurentypen erfordert einerseits einen theoretischen Unterbau, der die Typologie plausibilisiert. Andererseits werden aber auch annotierte Daten benötigt, die Eigenschaften und Merkmale der Figuren auszeichnen, um auf Basis derer eine Zuordnung zu einem Figurentypus zu ermöglichen. Die manuelle Klassifizierung literarischer Figuren lässt sich demnach als Operationalisierungsproblem für Menschen bezeichnen.
[17]Sowohl für mögliche Typologien als auch für die zu betrachtenden Eigenschaften der Figuren wurden in der Forschung bereits verschiedene Vorschläge zur Diskussion gestellt. In seiner grundlegenden Morphologie des Märchens (1928) schlägt Vladimir Propp eine Klassifikation vor, die auf »seven areas of action«[63]basiert, also die Handlungsmuster der Figuren in den Vordergrund rückt.[64] Edward Morgan Forster unterscheidet 1927 ganz basal zwischen ›runden‹ und ›flachen‹ Figuren:
»Flat characters were called ›humorous‹ in the seventeenth century, and are sometimes called types, and sometimes caricatures. […] In their purest form, they are constructed round a single idea or quality: when there is more than one factor in them, we get the beginning of the curve towards the round.«[65]
[19]Diese Dichotomie wurde jedoch als stark reduktiv empfunden, da sie die »degrees and nuances found in actual works of narrative fiction«[66] vernachlässige oder sogar tilge. Angesichts dieser Kritik entstanden differenziertere Taxonomien. Baruch Hochman etwa warb 1985 für acht dichotome Kategorien wie »Wholeness vs. Fragmentariness«, »Dynamism vs. Staticism« oder »Stylization vs. Naturalism«.[67] In der Dramengeschichte sind es vor allem drei Konzepte, die zur Kategorisierung von ein- und mehrdimensionalen Figuren herangezogen werden: Personifikation, Typ und Individuum. Während die Personifikation einer »realen Figur gegenüber am abstraktesten ist«,[68] verberge sich »hinter einer als Individuum konzipierten Figur die Intention, das Einmalige und Unwiederholbare hervorzukehren«.[69] Anders als Figurentypen, die vom Individuellen abstrahieren, »um ein überindividuelles Allgemeines repräsentieren zu können«, müsse die individuelle Figur über ihre »soziale, psychologische und ideologische Typik hinaus spezifiziert«[70] werden.
3.2 Annotation als Second-Hand Criticism
[20]Als Input für die computergestützten Analysen fertigen wir manuelle Annotationsdaten an, in denen jede Figur unseres Dramenkorpus einer in der Figurentypologie verankerten Figurengruppe zugeordnet wird. Dafür folgen wir Morettis Vorschlag, betreiben also zunächst Second-Hand Criticism. Um Eigenschaften und Charakterzüge möglichst vieler dramatischer Figuren bestimmen zu können – das schließt die eingehende Betrachtung jedes einzelnen Dramas im Korpus aus –, haben wir in einer ersten Annotation von der literaturwissenschaftlichen Forschung akkumuliertes, idealiter konsensuales (Handbuch-)Wissen konzentriert. Literatur- und Dramengeschichten, Handbücher, Lexika usw. wurden auf Zuschreibungen an die Figuren ausgewertet, die in den Stücken unseres Analysekorpus auftreten.[71] Ergebnis dieses Distant Reading ist ein Katalog von Charaktereigenschaften und Merkmalen, der mit Informationen zu Geschlecht oder Familienrelationen kombiniert werden kann, die oftmals bereits durch das zu Beginn eines Dramas gelistete Figurenverzeichnis zu erschließen sind.
[21]Anhand von Lessings 1755 uraufgeführter Miß Sara Sampson veranschaulichen wir diesen Eigenschaftenkatalog nachfolgend. Wir konzentrieren uns dabei exemplarisch auf die titelgebende Figur des Stücks. Sara ist, wie einleitend bereits ausgeführt, die Tochter von Sir William Sampson, einem britischen Landadeligen. Tabelle 2 zeigt ihre annotierten Eigenschaften anhand von sechs Überblicksdarstellungen der Sekundärliteratur. Obwohl diese verschieden ausführlich in ihrer Figurencharakterisierung und -beschreibung sind, zeichnen sie ein recht konsistentes Bild. Sara wird von der Forschung als tugendhaft und empfindsam beschrieben, ihr Handeln sei durch eine ihr eigene Gefühlsmoral bestimmt und ihre Liebe zu Mellefont übersteigt sogar die Autorität des Vaters.
Literaturangabe | Zugeschriebene Eigenschaften |
Figurenverzeichnis[72] | Tochter von William Sampson |
Dramenlexikon des 18. Jahrhunderts[73] | »dem englischen Landadel entstammend[]«; Geliebte, Tochter; »Entscheidung für die Liebe (d. h. gegen die väterliche Autorität)«; ist nicht »nur ›verführte Unschuld‹«; aufgrund von Schuldgefühlen unfähig, »das Verzeihen des Vaters anzunehmen«; »Tugendhochmut«; verkennt Situation mit Marwood; Marwoods Rivalin |
Geschichte des Dramas[74] | Vater-Tochter-Beziehung ist von »gegenseitiger zärtlicher Liebe bestimmt«, bedrohte Tugend, »tugendhafte[] Tochter«; Geliebte; Überführung der Beziehung mit Mellefont in eine Ehe als Wiedergutmachung ihres Fehltritts; empfindsam; »tugendhafte[s] Mädchen«; »innige Liebe«, die »Vater und Tochter verbindet«; Fehler ist verzeihbar; ihre Tugend ist wiederherstellbar; »stirbt als tugendhafte Tochter«; »Engel«, vergibt ihrer Mörderin |
Kindlers Literaturlexikon[75] | Tochter; drängt Mellefont zur Heirat; Sterbende; Tod lässt sich »nicht zwingend aus ihrer Verfehlung ableiten«; »von Gefühlsmoral bestimmte[s] Handeln«; »Mixtur aus Märtyrer-Tradition und bürgerlichem Identifikationsmodell«; Entwicklung von einer »starren und abstrakten Tugendauffassung zu einer gelebten Moral«; »geschwätzig-haarspalterisches Räsonieren über ihre Empfindungen« |
Geschichte des deutschen Dramas[76] | wird in »Unglück dieser Welt gerissen«; »Anerkenntnis, daß Gott ihr Schicksal richtig gefügt hat«; »glücklichere Nebenbuhlerin«; »von Gewissensnöten gepeinigt«; leidet; kann den »gefährlichen Verführer« nicht erkennen; Opfer; »dem Tode verfallen« |
Neue deutsche Literaturgeschichte[77] | »verfällt dem Verführer Mellefont«; »Abwendung von der Familie«; »weibliche[r] Idealtypus« |
Lessing-Handbuch[78] | »töchterliche Liebe«; leidet an ihrer Schuld; Rivalin von Marwood; rachsüchtig; schönes und sittliches Mädchen; sinnlich; Nebenbuhlerin; bereit zu vergeben; sanftmütig; Geliebte; »verkörpert die ›Liebe‹«; »unfähig zur Verstellung«, »keine ›reine Unschuld‹«, »›sündige‹ Liebe zu Mellefont« |
Tab. 2: Eigenschaftenkatalog von Sara Sampson. [Krautter et al. 2020]
3.3 Bottom-up-Annotation
[22]Das in diesem Eigenschaftenkatalog akkumulierte Wissen – also die sozialen, physischen und handlungsrelevanten Merkmale einer Figur – nutzen wir in der Folge für die Ausbildung der Figurentypologie und die Zuordnung der dramatischen Figuren. Wichtige Orientierung für diese Typologie bietet das für das Theater des 18. und frühen 19. Jahrhunderts so einflussreiche Rollenfachsystem. Wir versuchen dabei, die von Diebold angedeuteten Zusammenhänge von literarischem Figurentypus und Rollenfach analytisch zu verbinden.[79] Demnach müsste es möglich sein, konsistente Gruppen von Figuren zu finden, die einerseits demselben Rollenfach entstammen, also eine spezifische Art des Schauspiels erfordern, andererseits aber auch hinsichtlich ihrer textbasierten Eigenschaften als gruppenbildend aufgefasst werden können.[80] Ein Figurentyp in unserem Sinne ließe sich dann als eine Menge ähnlicher Figuren definieren, die bestimmte Eigenschaften und Merkmale teilen, die sie wiederum gegen andere Figuren hin abgrenzbar machen.[81] Die Herausforderungen bei der Ausdifferenzierung verschiedener Figurentypen wie auch der anschließenden Kategorisierung der Figuren, verdeutlicht Fishelov, der eine Spannung betont zwischen der »individuality of a character and the fact that this very individual is an ›intersection‹ of abstract typical traits«.[82] Das Bestreben einer quantitativen Analyse fügt dieser Spannung eine weitere Dimension hinzu: Eine binäre Unterscheidung zwischen weiblichen und männlichen Figuren allein ist etwa kaum hinreichend, um eine homogene Gruppe herauszubilden. Sie kann aber – kombiniert etwa mit weiteren Merkmalen wie dem Alter der Figuren oder ihrer sozialen Stellung – ein erster Schritt zur Typenbildung sein. Der Anspruch, auch »edle und ernsthafte Väter, polternde Alte, zärtliche, launigte Väter, freundliche, gütige, vornehme alte Herren, gefoppte Vormünder, hartherzige, bürgerliche Väter, drollige Hausväter usw«.[83] zu unterscheiden, ist jedoch aufgrund der nur noch marginalen Abweichungen sicherlich zu feingranular, nicht nur mit Blick auf die automatische Klassifizierung und die dafür benötigten Annotationsdaten. Es gilt also einen Skalierungsmodus zu finden, der die Komplexität einzelner literarischer Figuren so gut als möglich achtet, gleichzeitig aber auch die Grenzen ihrer computationellen (und mithin ihrer literaturwissenschaftlichen) Identifikation nicht überschreitet.
[23]Aus diesem Grund verfolgen wir eine Doppelstrategie, die durch unterschiedliche Erschließungstechniken gekennzeichnet ist. Anhand des erarbeiteten Eigenschaftenkatalogs, der die in der Sekundärliteratur gelisteten Charakterzüge zusammenführt, nehmen wir eine erste Bottom-up-Verortung vor, die der Erschließung von möglichen Zuschreibungen an die Figuren dient: Aus den Rollenfächern abgeleitete Typisierungen wie ›Liebhaberin‹, ›Vaterfigur‹ oder ›Bedienstete‹ werden dabei um spezifizierende Zuschreibungen ergänzt, wie etwa durch Handlungsfunktionen (›intrigiert‹, ›ist Bote‹) oder durch die Zugehörigkeit zu einem Stand (›Adel‹, ›Klerus‹). Die dadurch entstehende Liste umfasst insgesamt 43 Attribute, von denen jeder Figur bis zu vier zugewiesen wurden.[84] Hiermit sind alle Figuren unseres Korpus zumindest durch eines der 43 Attribute verschlagwortet und damit zugleich einer Gruppe von Figuren zugehörig, die diese Zuschreibungen verbindet. Es handelt sich hierbei also um eine approximative Operationalisierung von Figurenähnlichkeit, die sich an einer Annäherung an Figurentypen versucht.[85] Die annotierten Attribute – ›Mutter‹, ›Liebhaberin‹, ›Adelige‹, ›Militär‹, ›Gegenspieler‹, ›Künstler‹ usw. – sind zwar verwandt mit dem Zielphänomen Figurentypus, aber nicht deckungsgleich. Sie bleiben eher abstrakt und tragen deshalb vor allem indirekt zur Figurencharakterisierung bei. Die vorgenommene Formalisierung und Generalisierung kann im Einzelfall sogar dazu führen, dass wohlbekannte Informationen über die Figureneigenschaften nicht berücksichtigt werden können, da diese Informationen nicht als Attribut verschlagwortet wurden. Zu diesen unberücksichtigten Informationen gehört teilweise literaturwissenschaftliches Basiswissen, das in hohem Maße relevant für die Textinterpretationen ist, in unserem Ansatz aber nicht beachtet wurde (wie etwa die Frage, ob eine Figur den Freitod wählt, Mörder*in ist etc.). Unsere Prämisse für die Zuordnung von Attributen war es, sowohl unter Berücksichtigung dramengeschichtlicher Entwicklungen – etwa der Etablierung bürgerlicher Trauerspiele – als auch den innerfiktionalen Realitäten der Dramen, plausible Übereinstimmungen zu ermöglichen. Tabelle 3 listet beispielhaft fünf Figuren und die ihnen zugewiesenen Annotationen.
Drama | Figur | Bottom-up-Annotation (Attribute) |
Der sterbende Cato (1732) | Cäsar | ›Liebhaber‹, ›Gegenspieler‹, ›Tyrann‹ |
Miß Sara Sampson (1755) | Sara | ›Tochter‹, ›Liebhaberin‹ |
Der Hofmeister (1774) | Läufer | ›Gelehrter‹, ›Bediensteter‹, ›Vater‹, ›Liebhaber‹ |
Die Räuber (1781) | Franz Moor | ›Sohn‹, ›Bruder‹, ›Gegenspieler‹, ›Intrigant‹ |
Maria Magdalene (1844) | Meister Anton | ›Vater‹, ›(Klein-)Bürger‹ |
Tab. 3: Beispiele für die Bottom-up-Annotation. [Krautter et al. 2020]
3.4 Top-down-Annotation
[24]Die zweite Erschließungstechnik folgt einer umgekehrten Bewegung (Top-down). Ausgangspunkt waren hier nicht die Eigenschaften einzelner Dramenfiguren, sondern die bereits in der Forschung als solche diskutierten Figurentypen. Wir beschränken uns dabei bewusst auf drei stärker rezipierte Typen: den ›zärtlichen Vater‹, die ›tugendhafte Tochter‹ und den/die ›Intrigant*in‹. Die Zuordnung von Figur zu Figurentyp stützt sich hierbei nur noch in Teilen auf den Eigenschaftenkatalog, sie ist stattdessen zu einem großen Teil durch die Forschung und mitunter die Lektüre der Primärtexte fundiert. Der nachfolgende Abschnitt erläutert die drei gewählten Figurentypen und begründet die Auswahl der zugeordneten dramatischen Figuren. Wir beginnen mit den ›tugendhaften Töchtern‹.
[25]Das Konzept ist Brita Hempels Monografie Sara, Emilia, Luise: drei tugendhafte Töchter entlehnt und stellt den Versuch dar, das breite Feld der Töchter und Liebhaberinnen zu strukturieren.[86] Ziel ist es, eine möglichst vergleichbare Gruppe an Figuren zu kondensieren, die eine Mehrheit an Eigenschaften teilt. Hempel kategorisiert Sara Sampson, Emilia Galotti und Luise Miller als ›tugendhafte Töchter‹, die »in ihrem Verhalten kindliche Liebe und kindlichen Gehorsam mit weiblicher Tugend, mit Häuslichkeit und mit der in der empfindsamen Familie in besonders hohem Maße von den Frauen geforderten Kunst des Ausgleichens und Zurücksteckens vereinen« würden.[87] Dass der Tugendbegriff ein Schlüsselwort für solche Tochterfiguren ist,[88] betont auch Friedrich Vollhardt in seiner Lessing-Monografie, wenn er mit Blick auf Sara Sampson urteilt, dass sie im Drama als »Inbegriff tugendhafter Weiblichkeit vorgestellt« werde.[89] Sowohl in den beiden bürgerlichen Trauerspielen Lessings als auch in Schillers Kabale und Liebe nimmt die Vater-Tochter-Beziehung die zentrale Stellung innerhalb des familiären Zusammenlebens ein.[90] Die Töchter würden »auf die väterliche Zuneigung heftig und beinahe schwärmerisch« reagieren. Bei Emilia steigert sich dieser Eindruck zusätzlich durch ihr »Verhältnis zu ihrem Bräutigam«, das »konventionell und kühl« sei und sich somit deutlich von der Vater-Tochter-Beziehung absetze.[91]
[26]Neben die drei von Hempel geführten Beispiele haben wir zwei weitere Tochterfiguren gestellt, die den größeren Kreis der ›tugendhaften Töchter‹ abstecken und Sara Sampson, Emilia Galotti und Luise Miller literaturgeschichtlich einrahmen. Es handelt sich um Lottchen aus Christian Fürchtegott Gellerts Die zärtlichen Schwestern (1747) und die Titelfigur Agnes Bernauer aus Friedrich Hebbels gleichnamigem Trauerspiel. Während Gellerts Rührstück nur kurz vor Miß Sara Sampson veröffentlicht wurde, liegt zwischen Lessings Trauerspiel und Hebbels Agnes Bernauer (1851) fast ein ganzes Jahrhundert. Zwar wird sie von ihrem späteren Mann Albrecht als »ehr- und tugendsame Augsburger Bürgertochter«[92] verteidigt und auch die typischen Bestandteile des bürgerlichen Trauerspiels scheinen vordergründig alle vorhanden – die Liebesbindung zwischen Albrecht und Agnes, der sich daraus entspinnende Ständekonflikt, die Vater-Tochter-Beziehung (hier zusätzlich ergänzt um eine Vater-Sohn-Beziehung).[93]Hebbel akzentuiere das Trauerspiel im 5. Akt jedoch so, »daß eigentlich jene aufklärerische Perspektive verlorengeht, die das bürgerliche Trauerspiel in seinen herausragenden Beispielen so wichtig macht«, nämlich dass »die Moralität und das Glück des einzelnen Menschen jenseits jeglicher Standesbindung allmählich zur Basis des Lebens werde[]«.[94] Obwohl sie teilweise als »Hebbels ›Luise Millerin‹« gelesen wurde,[95] hebt sich Agnes Bernauer also nicht nur in der Entstehungszeit von den übrigen Dramen ab. Der zur Katastrophe führende Konflikt entzündet sich nicht mehr an der Reinheit und Unschuld der Tochter – die Heirat von Agnes und Albrecht ist nämlich längst vollzogen und hat letztlich auch den Segen des Vaters Caspar Bernauer erhalten –, sondern an dem Zerbröckeln von »Differenzen, auf deren Geltung der Staat gegründet ist«.[96]
Autor | Drama | ›tugendhafte Tochter‹ |
Gellert, Christian F. | Die zärtlichen Schwestern (1747) | Lottchen |
Lessing, Gotthold E. | Miß Sara Sampson (1755) | Sara |
Lessing, Gotthold E. | Emilia Galotti (1772) | Emilia |
Schiller, Friedrich | Kabale und Liebe (1784) | Luise |
Hebbel, Friedrich | Agnes Bernauer (1851) | Agnes |
Tab. 4: Übersicht der ausgewählten ›tugendhaften Töchter‹. [Krautter et al. 2020]
[27]Das Adjektiv ›zärtlich‹ wurde »im späten 18. Jahrhundert im Umfeld bürgerlicher Trauerspiele und Familiengemälde zur Ausdifferenzierung von Rollenfächern verwendet«, wie Anja Schonlau in ihrer Monografie Emotionen im Dramentext betont.[97] Diese Ausdifferenzierung wird etwa in Figuren des ›zärtlichen Vaters‹ evident, die wir zu Beginn unseres Beitrags anhand Sara Sampsons Vater Sir William exemplarisch konturiert haben. Die Reihe der ›zärtlichen Väter‹ haben wir zusätzlich zu William Sampson um die Figuren Odoardo Galotti (Emilia Galotti), Cleon (Die zärtlichen Schwestern), Musikus Miller (Kabale und Liebe) sowie Lord Berkeley (Sturm und Drang) ergänzt.
[28]Was zeichnet diese Väter nun aus? In seiner Studie zum Rollenfach des 18. Jahrhunderts urteilt Bernhard Diebold, dass »[d]ie ›zärtlichen‹ und gewöhnlich zugleich auch ›raisonnierenden‹ Väter [...] nichts als gut und milde« wären, »das beste wollen und moralisch reden« würden.[98] Das schließe eine gewisse »Verdrießlichkeit« aber keinesfalls aus, so dass der Übergang etwa zum ›polternden Vater‹ fließend sei.[99] So gleicht beispielsweise Sir Williams erste unerbittliche Reaktion, die die Flucht von Sara und Mellefont überhaupt erst bedingt, der Rachelogik Marwoods: »er ist bereit, Unrecht mi[t] Unrecht, Verletzung mit Abscheu, Böses mit Bösem zu vergelten«.[100]
[29]Für das bürgerliche Drama sei zudem eine »Emotionalisierung der Väter« zu beobachten, die der »Gefühlsvertiefung der Töchter« entspreche.[101] Die Väter sind auch ›empfindsame Väter‹:
»So kühl der alte Galotti oder der alte Miller ihren Ehefrauen begegnen, so wenig der alte Miller von der individualisierten Liebe zwischen Mann und Frau versteht oder – in Abwehr Ferdinands – zu verstehen vorgibt, so glühend lieben die beiden Alten ihre herrlichen Töchter.«[102]
[31]Gemein sei den Vaterfiguren auch eine gewisse Schwäche: Sowohl William Sampson als auch Odoardo Galotti würden die Katastrophe dadurch einleiten, dass sie »zu nachgiebig, zu ritterlich und liberal« handelten.[103] Von ihren »normativen Vorstellungen« könnten sie nur schwerlich abrücken.[104] Zu William Sampson hält Peter-André Alt deshalb fest: »Der milde, gerührte Vater war früher ein autoritärer Hausherr, der durch seine fehlende Flexibilität die unheilvollen Ereignisse fast zwangsläufig auslöste«.[105]
Autor | Drama | ›zärtlicher Vater‹ |
Gellert, Christian F. | Die zärtlichen Schwestern (1747) | Cleon |
Lessing, Gotthold E. | Miß Sara Sampson (1755) | William Sampson |
Lessing, Gotthold E. | Emilia Galotti (1772) | Odoardo Galotti |
Klinger, Friedrich M. | Sturm und Drang (1777) | Lord Berkeley |
Schiller, Friedrich | Kabale und Liebe (1784) | Miller |
Tab. 5: Übersicht der ausgewählten ›zärtlichen Väter‹. [Krautter et al. 2020]
[32]Die wohl heterogenste der drei angeführten Figurengruppen dürfte die der ›Intrigant*innen‹ sein.[106] Das mag schon in der Intrige selbst angelegt sein, die als »genuin dramatische[s] Prinzip, das Veränderung bewirkt« zu verstehen ist,[107] deshalb aber auch für vielfältige Erscheinungsformen offen ist.[108] Im literaturgeschichtlichen Zusammenhang ist sie zudem »zunächst moralisch indifferent«.[109] Sie kann ebenso einem guten Zweck dienen, wie die Katastrophe auslösen. So ließe sich zwischen »zerstörende[n] und rettende[n] Intrigen« unterscheiden, wodurch zugleich Charakter und Strategie der Intrigant*innen abgegrenzt werden könnten.[110] Probates Hilfsmittel intriganter Machenschaften ist häufig der Brief, den Peter Pütz als verlässliches »Vehikel der Intrige« bezeichnet.[111] In der satirischen Typenkomödie werde die Intrige »von den Vernünftigen in der Weise angelegt, daß sie zum Schein auf den Fehler desjenigen eingeht, gegen den sie sich richtet«.[112] Die tragische Intrige verlangt den Überlegungen Aristotelesʼ folgend nach Überraschung und Glaubwürdigkeit zugleich.[113] Die Intrige ist dabei im Wesentlichen kein Mittel der Selbstbestimmung des/der Intrigant*in, sondern dient als destabilisierendes, selektierendes Werkzeug.[114]
[33]Die Gruppe der ›Intrigant*innen‹ ist in unserem Fall als einzige nicht geschlechtsspezifisch. Alt bestimmt den/die Intrigant*in als »Figur der Intervention« – exemplarisch zieht er dafür Lessings Marinelli heran.[115] Dieser »verkörper[e] ein dynamisches Prinzip, das mit dem Begriff der ›Störung‹ zu beschreiben« sei.[116] Urheber der Intrige – auch das passt zum gewissenlosen Kammerherren Marinelli – sind nach Karl Eibl häufig Bedienstete.[117] Solche intriganten Höflingsfiguren, »aalglatte, willfährige und zynische Adlati«,[118] dürfen zu der Schaffenszeit Lessings als durchaus etabliert gelten.[119] Neben generell lasterhaftem Verhalten seien es vor allem einzelne Leidenschaften, die als Motivation zur tragischen Intrige dienen: »Neid, Hass und Eifersucht«.[120]
Autor | Drama | ›Intrigant*in‹ |
Gottsched, Johann Chr. | Sterbender Cato (1732) | Pharnaces |
Schlegel, Johann E. | Canut (1746) | Ulfo |
Lessing, Gotthold E. | Die Juden (1754) | Martin Krumm |
Lessing, Gotthold E. | Miß Sara Sampson (1755) | Marwood |
Lessing, Gotthold E. | Emilia Galotti (1772) | Marinelli |
Goethe, Johann W. | Götz von Berlichingen (1773) | Weißlingen |
Goethe, Johann W. | Götz von Berlichingen (1773) | Adelheid |
Klinger, Friedrich M. | Die neue Arria (1776) | Drullo |
Schiller, Friedrich | Die Räuber (1781) | Franz Moor |
Schiller, Friedrich | Die Verschwörung des Fiesco zu Genua (1783) | Fiesco |
Schiller, Friedrich | Kabale und Liebe (1784) | Wurm |
Iffland, August W. | Die Jäger (1785) | Amtmann |
Schiller, Friedrich | Maria Stuart (1800) | Graf von Leicester |
Kleist, Heinrich v. | Der zerbrochene Krug (1808) | Adam |
Nestroy, Johann | Das Mädl aus der Vorstadt (1841) | Kauz |
Tab. 6: Übersicht der ausgewählten ›Intrigant*innen‹. [Krautter et al. 2020]
4. Operationalisierung für den Computer
[34]Nach der inhaltlichen Auseinandersetzung mit Figurentypen und der Beschreibung der annotierten Daten diskutieren wir in diesem Abschnitt die Operationalisierung von Figurentypen für den Computer, so dass eine automatische Erkennung möglich wird.
4.1 Begriffe vermessen
[35]Als Operationalisierung für den Computer verstehen wir die Entwicklung von algorithmischen Routinen zur Erkennung von Begriffsinstanzen in Daten. Es geht hier darum, aus einer Menge von Figuren automatisch diejenigen identifizieren zu können, die zu einem bestimmten Figurentyp gehören. Die bisherigen Ausführungen verdeutlichen, dass die manuelle Zuweisung von Figurentypen in Dramen typischerweise über den Gesamttext (und weitere Kontexte, etwa theaterpraktische Überlegungen) erfolgt, also verschiedenste, zumeist semantische Kriterien berücksichtigt werden (müssen). Die Operationalisierung für den Computer macht es nötig, diese Kriterien sowohl möglichst genau zu approximieren als auch durch vergleichbare Informationen anzureichern, oder aber stark korrelierende, inhaltlich unabhängige Indikatoren zu finden.
[36]Abbildung 1 gibt unseren Ansatz zur Operationalisierung schematisch wieder. Da der Zielbegriff ›Figurentyp‹ nicht direkt messbar ist, wird er zunächst durch sieben weitere Teilbegriffe operationalisiert (›Figureninformation‹, ›Gattung/Epoche‹, …), die für eine Zuordnung relevant sind. Doch auch diese Begriffe lassen sich noch nicht direkt messen, müssen also weiter operationalisiert werden. Daraus ergibt sich eine Hierarchie, an deren Ende direkt messbare Indikatoren stehen (müssen).[121] In Abbildung 1 befinden sich am rechten Ende jeweils zweiteilige Kästen, in denen zum einen in Kurzform die konkrete Umsetzung angegeben ist, und zum anderen die Datenquelle, auf die sie sich bezieht. Metadaten werden hier durch Annotation ermittelt, wobei die Annotationen partiell bereits Teil des Korpus sind. Quelle der Metadaten ist aber in jedem Fall eine manuelle oder manuell überprüfte automatische Zuweisung. Die Textstruktur beschreibt Informationen, die deterministisch und regelbasiert aus einem XML-codierten Korpus extrahiert werden können. Hier sind das vor allem Informationen zur Kopräsenz von Figuren auf der Bühne. Die meisten Informationen extrahieren wir jedoch aus zwei Textebenen, der Figurenrede und den Bühnenanweisungen der Dramen, wofür verschiedene Verfahren zum Einsatz kommen, die in der Abbildung nur durch Stichworte angegeben sind und an späterer Stelle genauer erläutert werden.[122]
[37]Operationalisierungen wie diese müssen immer im Hinblick auf die Operationalisierbarkeit untergeordneter Begriffe vorgenommen werden, wobei sowohl pragmatische als auch theoretische Aspekte eine Rolle spielen. Damit ist die hier vorgenommene Operationalisierung ebenfalls ein Kompromiss zwischen Anspruch und Machbarkeit. Offensichtlich lässt sich etwa ein Begriff wie ›Handlung‹ nicht allein durch Verben repräsentieren. Auch die Interaktionen einer Figur können nur eingeschränkt durch Kopräsenznetzwerke abgebildet werden.[123] Zugleich ist die Abgrenzung der beiden Begriffe keinesfalls trennscharf: Handlung entsteht durch handelnde Figuren und deren Interaktion mit anderen Figuren. Gattungs- und Epochenunterschiede sorgen für zusätzliche Komplexität: Unterschiedliche Konventionen z. B. für das Einziehen von Szenengrenzen – entweder nach Auf- oder Abtritt von Figuren oder aber nach Ortswechseln – haben erheblichen Einfluss auf die Figurennetzwerke. Auch am unteren Ende der Operationalisierungshierarchie stellen sich weitere Fragen, die dieser Beitrag nur am Rande behandeln kann: So ist etwa die Erkennung von Referenzen in Texten, mit dem sich die Computerlinguistik unter dem Stichwort der Koreferenzauflösung seit vielen Jahren beschäftigt, ein keineswegs triviales Problem.[124]
[38]Nachfolgend werden die verwendeten Indikatoren aus einer technischen Perspektive erläutert und anschließend tabellarisch zusammengefasst. Zur klareren Differenzierung verwenden wir für einzelne Indikatoren die englische Bezeichnung ›feature‹. Die technischen Bezeichnungen der Features, die teilweise in den Abbildungen verwendet werden, sind jeweils in nichtproportionaler Schrift gesetzt.
4.2 Verwendete Features
[39]Die Features lassen sich anhand der verwendeten Techniken grob in folgende Gruppen einteilen:[125] Textstatistik, Netzwerkmaße, Bühnenpräsenz, Wortfelder, Topics, Handlungsverben, Sentiment, Figureninformationen und Priors. Im Folgenden beschreiben wir diese Features und ihre konkrete Implementierung näher.
4.2.1 Textstatistik
[40]Zu den textstatistischen Features zählen
-
tokens
: die Anzahl an Tokens, die eine Figur im Verlauf des Stücks äußert. Die absolute Anzahl an Tokens wird über die Anzahl an Tokens im gesamten Stück normalisiert.[126] -
utterances
: die Anzahl an Äußerungen, die eine Figur tätigt. Eine Äußerung ist hierbei als die Spanne an Tokens bestimmt, die eine Figur äußert, ohne von einer anderen Figur unterbrochen zu werden. -
utteranceLengthMean
: die in Tokens gemessene, durchschnittliche Länge der Äußerungen einer Figur. -
utteranceLengthSd
: die Standardabweichung der Länge der Äußerungen einer Figur. -
type-token-ratio
(TTR): Die TTR wird gebildet, indem die Anzahl an Types, also der unikalen Tokens, geteilt wird durch die Gesamtzahl der Tokens. Da die Höhe der TTR von der Textlänge abhängig ist und die annotierten Figuren unterschiedlich viel sprechen, verwenden wir eine standardisierte TTR, bei der der Text in Segmente gleicher Länge eingeteilt wird. Die TTR wird für jedes dieser Segmente einzeln berechnet und anschließend gemittelt. Wir haben uns hier für eine Segmentlänge von 200 Tokens entschieden.
4.2.2 Netzwerkmaße
[41]Netzwerkmaße beschreiben verschiedene Metriken, die eingesetzt werden können, um zentrale Knoten in (formalen) Netzwerken zu ermitteln. Die Netzwerkanalyse ist eine in den Computational Literary Studies häufig genutzte Technik zur Analyse von Figureninteraktionen. Dazu werden zunächst sogenannte Kopräsenzmatrizen erstellt, die die Information enthalten, welche Figuren zu welchem Zeitpunkt gemeinsam auftreten, also kopräsent sind. Wir zählen zwei Figuren als kopräsent, wenn sie sich in der gleichen Szene durch Figurenrede äußern. Die Knoten im Kopräsenznetzwerk stellen die Figuren dar, die Kanten zwischen Figuren repräsentieren die gemeinsame Präsenz und das Gewicht einer Kante ergibt sich aus der Zahl der Szenen, in denen zwei Figuren kopräsent sind.
[42]Auf diesen Netzwerken berechnen wir die Maße:
- Degree Centrality
(
degree
) - Weighted Degree Centrality
(
wdegree
) - Betweenness Centrality
(
between
) - Closeness Centrality
(
close
) - Eigenvector Centrality
(
eigen
).[127]
4.2.3 Bühnenpräsenz
[43]Da die beschriebenen Netzwerkmaße auf der gemeinsamen Bühnenpräsenz von Figuren basieren, decken sie nur einen Ausschnitt potentieller Figureninteraktionen ab. Die beiden folgenden Features konzentrieren sich deshalb auf die Präsenz einzelner Figuren. Wir unterteilen diese in eine aktive Präsenz, wenn also Figuren selbst auf der Bühne stehen und sprechen, sowie eine passive Präsenz, wenn in Dialogen über Figuren gesprochen wird, die nicht auf der Bühne stehen:
- Aktive Präsenz (
actives
): Anzahl an Szenen, in denen eine Figur spricht, normalisiert an der Gesamtzahl an Szenen des Stücks. - Passive Präsenz (
passives
): Anzahl an Szenen, in denen eine Figur namentlich erwähnt wird und nicht selbst spricht, normalisiert an der Gesamtzahl der Szenen des Stücks. - Darüber hinaus wird ermittelt, wann eine Figur zum ersten Mal
im Verlauf des Stücks auftritt und spricht
( und wann sie sich das letzte Mal im Stück äußert (firstBegin
)lastEnd
), jeweils relativ zur Gesamtlänge des Stücks.
4.2.4 Wortfelder
[44]Um die Semantiken der Figurenrede zu erschließen, nutzen wir sieben
verschiedene Wortfelder (WF
). Ein Wortfeld enthält
lemmatisierte Einträge zu Begriffen einer bestimmten Domäne, die wir
als relevant für die annotierte Zeitspanne (1730–1850) erachten. Für
jede Figur wird gezählt, wie oft sich das Lemma eines gesprochenen
Tokens in einer der Wortlisten wiederfindet und dies wird
anschließend durch die Gesamtzahl der von einer Figur gesprochenen
Tokens geteilt. Die Wortlisten wurden manuell angelegt und umfassen
die Bereiche Familie, Krieg, Liebe, Politik, Ratio, Religion und
Wirtschaft.[128]
4.2.5 Topics
[45]Neben den händisch angelegten Wortfeldern kann die Figurenrede
weitere Themenbereiche enthalten, an die wir uns mittels Topic Modeling[129] annähern. Hierzu bedienen
wir uns der Latent Dirichlet Allocation (LDA)
mit Gibbs Sampling. Als Eingabe verwenden wir
das GerDraCor-Korpus[130] und segmentieren die
einzelnen Dramen in Abschnitte von je 1000 Tokens. Wir betrachten
dabei lediglich diejenigen Tokens, die als Nomen, Verb, Adjektiv
oder Adverb ausgezeichnet wurden. Auch Eigennamen werden entfernt.
Die Anzahl der Topics wird auf 20 festgelegt, woraus sich die Topics
T1–T20
ergeben. Als Feature-Wert erhält jede Figur
die Posterior-Wahrscheinlichkeit eines
Topics, also die Wahrscheinlichkeit einer Figur, Tokens zu einem
bestimmten Topic zu äußern. Die Posterior-Wahrscheinlichkeit einer
Figur wird auf Grundlage aller Äußerungen dieser Figur ermittelt.
4.2.6 Handlungsverben
[46]Sowohl die Wortfelder als auch die Topics sollten zu einem gewissen Grad den Inhalt der Figurenrede wiedergeben und somit indirekt Aufschlüsse über die Funktion einer Figur für die Handlung des Dramas zulassen. Als weiteres Feature, das die Handlungsfunktion der Figuren zu quantifizieren versucht, nutzen wir die Verteilung von Verben im Dramentext. Dazu werden aus dem gesamten Korpus die zehn häufigsten Verben extrahiert – sowohl in den Figurenreden als auch in den Bühnenanweisungen –, die einer bestimmten Figur zugeordnet sind.[131] Modal- und Hilfsverben werden nicht gezählt. Für jede Figur wird anschließend die Häufigkeit der geäußerten Verben ermittelt und durch die gesamte Zahl der Tokens, die eine Figur spricht, geteilt. In Tabelle 7 sind die häufigsten Verben gelistet, aufgeschlüsselt nach Äußerungen und Bühnenanweisungen sowie in ihrer Frequenz absteigend.
Figurenrede (Präfix: utt.) | Bühnenanweisungen (Präfix: sd.) | |||
Verb | Anzahl | Verb | Anzahl | |
lassen | 2,655 | treten | 620 | |
sagen | 2,600 | gehen | 458 | |
kommen | 2,209 | kommen | 326 | |
sehen | 2,196 | stehen | 268 | |
machen | 2,109 | sehen | 204 | |
gehen | 1,922 | nehmen | 150 | |
geben | 1,594 | setzen | 149 | |
tun | 1,144 | fallen | 142 | |
wissen | 947 | ziehen | 112 | |
stehen | 925 | halten | 106 |
Tab. 7: Die häufigsten zehn Verben in Figurenrede (links) beziehungsweise Bühnenanweisungen (rechts), die als Approximation an Handlung eingesetzt werden. [Krautter et al. 2020]
4.2.7 Sentiment
[47]Um Einblicke in das Gefühlsleben einer Figur zu bekommen, bedienen
wir uns einer statischen Liste an positiv und negativ konnotierten
Wörtern aus dem SentiWS-Korpus[132]. Die Liste
enthält nach Wortarten sortierte lemmatisierte Einträge sowie
Gewichtungen und mögliche Flexionsformen zu den Lemmata. Ähnlich wie
für die Wortfelder gleichen wir die von einer Figur gesprochenen,
automatisch lemmatisierten Tokens mit beiden Listen ab und summieren
bei einem Treffer die Gewichtungen für die Funde. Die beiden daraus
resultierenden Endwerte (positiv und negativ) werden anschließend
durch die Zahl der gesprochenen Tokens einer Figur geteilt, um
Vergleichbarkeit zu gewährleisten. Daraus ergeben sich die beiden
Features
posRatio
und
negRatio
.
4.2.8 Figureninformationen
[48]Unter Metainformationen fallen die bereits zuvor angesprochenen
Eigenschaften einer Figur: Alter (age
), Geschlecht
(gender
) und sozialer Status
(socialStatus
). Mögliche Werte der Eigenschaften
sind jung / mittel / alt, weiblich / männlich, niedrig / mittel / hoch. Die
Informationen wurden durch manuelle Annotation gewonnen.[133]
Abgesehen von der Unterspezifiziertheit einiger Figuren bezüglich
ihres Alters und des relational zu bestimmenden sozialen Status
lassen sich diese Annotationen mit hoher Zuverlässigkeit
durchführen.[134]
4.2.9 Priors
[49]Unter Priors verstehen wir Informationen, die durch die Dramen und ihre Entstehung selbst gegeben und nicht unmittelbar an eine einzelne Figur geknüpft sind. Dennoch können diese Priors als Selektion dienen, um Stücke zu gruppieren und somit Figureneigenschaften zu kontextualisieren. Wir verwenden zwei Priors:
- Jahrzehnt (
decade
): Jeder Figur wird zugeordnet, in welchem Jahrzehnt das Drama, in dem sie auftritt, entstanden ist. - Prosa / Vers (
prose
): Jeder Figur wird zugeordnet, ob das Drama (überwiegend) in Versform oder Prosa geschrieben ist.
[50]Wir ermitteln dies automatisch über die Anzahl an
<l>
-,
<lg>
- und
<p>
-Tags in den GerDraCor-TEI-Daten eines
Stücks: eine Mehrzahl an Tags der Form
<l>
(line) und
<lg>
(line group) steht für Versform, eine Mehrzahl
an
<p>
-Tags
4.3 Übersicht
[51]Tabelle 8 zeigt die Features in
der Übersicht mit ihren Wertebereichen sowie einer Zuordnung aller
Features zu den Teilbegriffen aus Abbildung 1. Der Begriff Figurenstil wird z. B. über die Indikatoren
type-token-ratio
sowie Durchschnitt und
Standardabweichung der Längen der Äußerungen einer Figur
operationalisiert.
Teilbegriff | Feature | Wertebereich | Kommentar |
Figuren- information |
age | { young, middle-aged, old } | |
gender | { male, female } | ||
socialStatus | { low, middle, high } | ||
Gattung, Epoche | decade | [ 1730 ; 1850 ] | |
prose | { TRUE, FALSE } | ||
Gefühlswelt | posRatio | [ 0 ; 1 ] | |
negRatio | [ 0 ; 1 ] | ||
Themen | Familie, Krieg, Liebe, Politik, Ratio, Religion, Wirtschaft | jeweils [ 0 ; 1 ] | Wortfelder |
T1–20 | jeweils [ 0 ; 1 ] | Topic modeling | |
Interaktionen | degree | [ 0 ; 1 ] | |
wdegree | [ 1 ; 145 ] | ›weighted degree‹ | |
between | [ 0 ; 1 ] | ›betweenness centrality‹ | |
close | [ 0 ; 1 ] | ›closeness centrality‹ | |
eigen | [ 0 ; 1 ] | ›eigenvector centrality‹ | |
Bühnenpräsenz | actives | [ 0 ; 1 ] | aktive Präsenz |
passives | [ 0 ; 1 ] | passive Präsenz | |
firstBegin | [ 0 ; 1 ] | erste Äußerung | |
lastEnd | [ 0 ; 1 ] | letzte Äußerung | |
Tokens | [ 0 ; 1 ] | ||
utterances | [ 12 ; 368 ] | ||
Handlung | utt.geben, utt.gehen, utt.kommen, utt.lassen, utt.machen, utt.sagen, utt.sehen, utt.stehen, utt.tun, utt.wissen | jeweils [ 0 ; 1 ] | Verben in Figurenrede |
sd.gehen, sd.nehmen, sd.sehen, sd.treten, sd.kommen, sd.stehen, sd.setzen, sd.fallen, sd.ziehen, sd.halten | jeweils [ 0 ; 1 ] | Verben in Bühnenanweisungen | |
Figurenstil | TTR | [ 0 ; 1 ] | Type-Token-Ratio |
utterangeLengthMean | [ 0 ; 1 ] | ||
utteranceLengthSd | [ 0 ; 1 ] |
Tab. 8: Auflistung aller im Folgenden verwendeten Features, gruppiert nach den Teilbegriffen wie sie in Abbildung 1 verwendet werden. [Krautter et al. 2020]
5. Experimente und Auswertung
[55]Die vorgestellten Features nutzen wir im Folgenden, um mehrere Machine-Learning-Modelle zu trainieren. Damit verfolgen wir zwei Ziele: einerseits sollten die Modelle in der Lage sein, Figurentypen vorherzusagen, wenn die Features eine erfolgreiche Operationalisierung der Figuren und ihrer Typen darstellen. Die erzielte Performance kann also zu einer Qualitätsabschätzung über die Operationalisierung dienen. Andererseits lässt sich untersuchen, welche Features für die Erkennung besonders relevant waren. Davon erhoffen wir uns Einblicke in die zugrundeliegenden Eigenschaften, die die Figurentypen charakterisieren.
[56]Konkret beschreiben wir zunächst den Datensatz und betrachten daraufhin die Verteilung der Datenpunkte und Merkmale, bevor wir uns der automatischen Erkennung von Figurentypen als solche zuwenden. Anschließend richten wir den Blick auf die Features und ihren jeweiligen Beitrag, gefolgt von einer Visualisierung der Datenpunkte und ihrer Verteilung.
5.1 Datensatz
Figurentyp | Distinkte Figuren | Exkludierte Charakterisierungen | Rolle in Experimenten | |
SVM | PCA | |||
Insgesamt | 257 | |||
›Potentielle Intrigant*innen‹ | 228 | |||
›Intrigant*innen‹ | 15 (♀ = 2) | Positiv | ||
›Nicht-Intrigant*innen‹ | 213 | ›Tyrann*in‹, ›Strateg*in‹, ›Gegenspieler*in‹, ›Intrigant*in‹ | Negativ | |
›Vater‹ | 23 | Grundmenge | ||
›Zärtlicher Vater‹ | 5 | Positiv | Teilmenge | |
›Nicht-Zärtlicher Vater‹ | 225 | ›Vater‹, ›Alter‹, ›verheirateter Mann‹ | Negativ | |
›Tochter‹ | 26 | Grundmenge | ||
›Tugendhafte Tochter‹ | 5 | Positiv | Teilmenge | |
›Nicht-Tugendhafte Tochter‹ | 215 | ›Liebhaberin‹, ›unverheiratete Frau‹, ›Tochter‹, ›Schwester‹ | Negativ |
Tab. 9: Übersicht über den Datensatz und seine Verwendung in den Experimenten. ›SVM‹ bezeichnet das Klassifikationsexperiment (Abschnitt 5.3), ›PCA‹ das Experiment zur Bildung der Teilmengen (Abschnitt 5.4). Die Spalte ›Exkludierte Charakterisierungen‹ beschreibt, welche Eigenschaften eine Figur nicht haben darf, damit sie als Negativbeispiel verwendet werden kann. [Krautter et al. 2020]
[57]Tabelle 9 zeigt den Datensatz in einer Übersicht. Insgesamt umfasst er 257 Figuren aus 43 Stücken (durchschnittlich sechs Figuren pro Stück), die zwischen 1730 und 1850 uraufgeführt oder erstpubliziert wurden. Diese wurden 43 verschiedenen Figurencharakterisierungen zugeordnet, so dass insgesamt 468 Paare aus Figur und Charakterisierung im Datensatz enthalten sind. 25 Figuren ist einer der Typen ›Intrigant*in‹, ›zärtlicher Vater‹ oder ›tugendhafte Tochter‹ zugewiesen. Hierbei ist zu beachten, dass zwar jeweils eine Teilmenge der Figuren als ›Intrigant*in‹, eine Teilmenge der Väter als ›zärtlicher Vater‹ und eine Teilmenge der Töchter als ›tugendhafte Tochter‹ markiert ist, wir aber keine Annahmen über diejenigen Figuren treffen können, die nicht in der jeweiligen Teilmenge enthalten sind. Weil eine Vaterfigur nicht als ›zärtlicher Vater‹ annotiert ist, heißt das also nicht, dass sie nicht doch diesem Figurentypus entsprechen kann. Da für das Training von Klassifikationsverfahren die Existenz von Negativbeispielen eine zwingende Voraussetzung ist, haben wir für die folgenden Experimente jeweils verschiedene Figurengruppen gegenübergestellt. Ausgehend von der Menge aller Figuren wurden als Negativbeispiele jeweils andere Figuren gewählt, die nicht mit einer ähnlichen Charakterisierung ausgezeichnet waren. In Tabelle 9 sind diese Eigenschaften in der dritten Spalte aufgeführt. Als Negativbeispiele für die ›tugendhafte Tochter‹ dienen also Figuren, die weder ›Tochter‹, ›Liebhaberin‹, ›unverheiratete Frau‹ noch ›Schwester‹ sind. Damit sind in den Negativbeispielen für die ›tugendhafte Tochter‹ nur Figuren enthalten, die gar keine Töchter sind, was mit Recht kritisiert werden kann. Im vorliegenden Szenario gibt es zwei Möglichkeiten damit umzugehen, die wir hier aus Platzgründen nicht beide diskutieren können. Das erste Szenario würde im Datensatz Minimalpaare gegenüberstellen, also Figuren die sich möglichst ähnlich sind, aber in der Zielkategorie unterscheiden. Ein Beispiel hierfür wären zwei Tochterfiguren mit ähnlichen Strukturmerkmalen, von denen eine tugendhaft ist und die andere nicht. Ein maschinelles Lernverfahren könnte dann zielgerichtet auf die Unterschiede zwischen den Figuren schauen. Dieses Verfahren ist allerdings sehr voraussetzungsreich und auf Basis der Literaturgeschichte kaum zu leisten: Hinweise auf die Nicht-Zugehörigkeit zu einem Figurentyp finden sich praktisch gar nicht, ein entsprechender Datensatz wäre also nur im Zuge einer umfangreichen Interpretation einzelner Dramen erstellbar. Die von uns gewählte Alternative besteht darin, möglichst klar nicht zugehörige Figuren als Negativbeispiele zu verwenden. Dabei nehmen wir in Kauf, dass das Lernverfahren Zusammenhänge lernt, die offensichtlich sind, z. B. dass eine männliche Figur keine tugendhafte Tochter ist. Wir gehen allerdings davon aus, dass der auf diese Weise verfügbare größere Datensatz diesen Nachteil ausgleicht.
5.2 Verteilung der Feature-Werte
[58]Entsprechend der quantitativen Auswertungen erhält jede Figur in unserem Korpus für jedes der beschriebenen Features einen Wert. Auf diese Weise entsteht eine Matrix, in der die einzelnen Zeilen die untersuchten Figuren und die Spalten die zugehörigen Features darstellen. Die quantitativen Eigenschaften der Figuren lassen sich somit anhand der Zusammenschau ihrer Feature-Werte beschreiben. Dadurch ist es auch möglich, Figuren oder Figurengruppen hinsichtlich ihrer Feature-Werte miteinander zu vergleichen ‒ etwa anhand der in Abschnitt 3 beschriebenen Annotation von Attributen und Figurentypen.
[59]Abbildung 2
zeigt die Verteilung einer Auswahl von Features für die drei
Figurentypen ›Intrigant*in‹, ›tugendhafte Tochter‹ und ›zärtlicher
Vater‹. Die x-Achse gibt den Wertebereich eines Features an, während die
y-Achse die Anzahl an Figuren anzeigt, die diesen Wert für das jeweilige
feature annehmen. Die Figurenanzahl ist geglättet dargestellt, sodass
sich Trends verfolgen lassen. In der Feature-Verteilung wird deutlich,
dass kein einzelnes feature imstande ist, alle drei Typen trennscharf
voneinander abzugrenzen. Es lassen sich jedoch bestimmte Features
ausfindig machen, die aufschlussreiche Unterschiede in den Verteilungen
der Figurengruppen abbilden. Bei Feature
T16
(also das 16. Topic aus dem Topic Model) etwa haben alle drei Kurven ihren
Scheitelpunkt an verschiedenen Stellen – ein Großteil der ›zärtlichen
Väter‹ (rote Kurve) hat hier also einen höheren Wert (d. h. eine höhere
Wahrscheinlichkeit, Wörter aus dem Topic zu verwenden) als die
›tugendhaften Töchter‹ (orange Kurve) oder die ›Intrigant*innen‹ (blaue
Kurve). Ein ähnliches Bild zeigt sich bei dem Feature
passives
. Hier sind es vor allem die ›tugendhaften
Töchter‹, bei denen hohe Ausprägungen auszumachen sind. Zur Verdeutlichung sei
als Gegenbeispiel auf das Feature
close
(Closeness
Centrality) hingewiesen: Hier überlappen sich alle Kurven sehr stark, so
dass sich das Feature nicht als Unterscheidungskriterium eignet. In den
folgenden Experimenten versuchen wir mit maschinellen Lernverfahren
diejenigen Feature-Kombinationen zu finden, die einen Figurentypus am
besten charakterisieren und ihn gegen andere Figurengruppen abgrenzen.
5.3 Klassifikation: Automatische Erkennung von Figurentypen
[60]Für die Klassifikation verwenden wir den Algorithmus Support Vector Machine (SVM).[135] Auf einer Teilmenge der Daten, dem Trainingsset, findet der Algorithmus mithilfe der Features diejenigen Parameter, die die Figurentypen unterscheiden. Ein trainiertes SVM-Modell kann dann auf anderen Daten getestet werden, um zu überprüfen, ob auf Grundlage der gesehenen Datenpunkte generalisiert werden konnte. Erreicht das Modell auf unbekannten Testdaten eine hohe Performanz, kann das Training als geglückt angesehen werden und der Algorithmus hat gelernt, die Figurentypen auf Basis der Features zu unterscheiden.
[61]Vor dem Training führen wir zwei Vorverarbeitungsschritte aus: Da stark korrelierende Features redundante Informationen beisteuern, werden zunächst paarweise alle Features auf ihre Korrelation überprüft. Bei Paaren mit einem Pearson-Korrelationskoeffizient von mehr als 0,7 wird das Feature entfernt, das mit allen anderen am stärksten korreliert. Da unsere Daten außerdem stark ungleich verteilt sind (es gibt jeweils sehr viel mehr negative als positive Instanzen einer Klasse), verwenden wir SMOTE,[136] um dynamisch neue Trainingsbeispiele zu erzeugen. Ausgehend von Nearest Neighbors in den Feature-Werten erzeugt SMOTE artifizielle Datenpunkte. Auf diese Weise hilft SMOTE, Ungleichgewichte in den Klassen zu minimieren.
[62]Wir verwenden in allen folgenden Experimenten 10-fold-cross Validation, um die Daten in zehn unterschiedliche Gruppen aufzuteilen. In jedem Fold wird eine andere Aufteilung der Daten in Trainings- und Testdaten vorgenommen, sodass am Ende alle Datenpunkte einmal als Testdaten verwendet werden. Die so entstehenden Trainingsdaten übergeben wir an den SVM-Algorithmus, und erhalten zehn verschiedene Modelle, basierend auf den jeweiligen Trainingsdaten. Wir wenden jedes Modell auf sein jeweiliges Testset an und erhalten ein finales Testergebnis, indem wir den Durchschnitt aller zehn Modelle bilden. Als Evaluationsmetriken verwenden wir Precision, Recall und F1-Score.
[63]Um zu untersuchen, inwieweit welche Features zu einem guten Klassifikationsergebnis beitragen, analysieren wir zunächst Feature-Kompositionen. Dabei orientieren wir uns an den Dimensionen, die in Abbildung 1 dargestellt wurden. Eine Übersicht über die Qualität der Klassifikationsergebnisse ist in Tabelle 10 dargestellt. Der Typ ›Intrigant*in‹ kann dabei mit einem F1-Score von 0,7 am zuverlässigsten erkannt werden.
Figurentyp | Precision | Recall | F1 |
Intrigant*in | 0,90 | 0,60 | 0,70 |
Zärtlicher Vater | 0,50 | 0,50 | 0,50 |
Tugendhafte Tochter | 0,40 | 0,35 | 0,36 |
Tab. 10: Ergebnisse der automatischen Klassifikation. Gezeigt ist die positive Klasse, als Negativbeispiele dienen jeweils spezifisch ausgewählte Figurengruppen (siehe Abschnitt 5.1). [Krautter et al. 2020]
[64]Abbildung 3 zeigt die Klassifikationsergebnisse der einzelnen feature-Gruppen für ›Intrigant*innen‹. Die Verwendung aller Features (Diagramm Alle, oben links) erzielt die besten Klassifikationsergebnisse. Die Resultate unterstreichen, dass die Identifikation von dramatischen Figurentypen als multidimensionales Problem aufzufassen ist: Erst im Zusammenwirken der verschiedenen Dimensionen wird eine annehmbare Performanz erreicht. Schwächen zeigen sich vor allem mit Blick auf den recall, während die precision bei den meisten Gruppen höher ist. Das bedeutet, dass zwar nicht alle ›Intrigant*innen‹ erkannt wurden – die Figuren aber, die das Modell als ›Intrigant*in‹ auszeichnet, sind dies mit recht hoher Zuverlässigkeit.
[65]Die beiden Dimensionen, die in der Einzelwertung am besten abschneiden, sind Handlung und Themen. Das bestätigt die Annahme, dass ›Intrigant*innen‹ sich durch ihre Funktion für die Handlung auszeichnen, sich die Eigenschaft aber auch in den Semantiken der Figurenrede niederschlägt. Strukturelle (Präsenz, Interaktionen) und stilistische (Figurenstil) Merkmale scheinen alleine nicht geeignet für eine zuverlässige Erkennung.
[66]Die Messung von Feature Importance ist eine
Methode, um die Bedeutung einzelner Features für das
Klassifikationsergebnis zu ermitteln. Sie vergleicht nach und nach die
Performanz des Modells, wenn jeweils eines der Features entfernt wird.
Die Abnahme an Performanz entspricht dann der relativen Wichtigkeit des
entfernten Features für die Klassifikation.[137] Damit wird ein etwas genauerer Einblick in die
Wirkungsweise der Features und auch in die Operationalisierung insgesamt
erreicht. Die zehn wichtigsten Features für die Erkennung von
Intrigant*innen sind die folgenden (in Klammern jeweils der
Feature-Importance-Wert):
T1
(1,31),
T5
(1,05),
utterances
(1,05),
T8
(0,89),
between
(0,79),
T11
(0,77),
close
(0,73),
passives
(0,71),
T9
(0,71),
T13
(0,71). Das wichtigste Feature zur
Klassifikation von ›Intrigant*innen‹ ist also Topic 1, das nach
manueller Durchsicht hauptsächlich Wörter beinhaltet, die den
Themenkreis des familiären Zusammenlebens abdecken. Vor allem familiäre
Relationen werden abgebildet.[138] Dazu passt es, dass das Wortfeld
Familie
ebenfalls zu den vergleichsweise wichtigen
Features zählt. Zu beachten ist hier jedoch, dass eine hohe Feature Importance
nicht identisch ist mit hohen Feature-Werten. Die Wichtigkeit des
Features kann auch dadurch zustandekommen, dass alle ›Intrigant*innen‹
besonders geringe Ausprägungen dieser Features aufweisen. In jedem Fall
sind die Merkmale mit hoher Importance besser geeignet, die Figuren
zu unterscheiden, als diejenigen mit niedrigerer Importance.
5.4 Bildung von Teilmengen
[67]Da für die Figurengruppen der ›tugendhaften Töchter‹ und der ›zärtlichen Väter‹ jeweils nur fünf Figuren annotiert wurden, verspricht eine automatische Klassifikation kaum Einsichten. Um diese Klassen näher zu untersuchen, vergleichen wir deshalb ›tugendhafte Töchter‹ mit anderen Töchtern in unserem Datensatz. Das gleiche nehmen wir auch für die Gruppe der ›zärtlichen Väter‹ vor. Dabei verfolgen wir nicht mehr die oben skizzierte Strategie der zielgerichteten Zusammenstellung von Negativbeispielen, sondern versuchen nachvollziehbar zu machen, inwiefern sich die spezifischen Figurentypen auf Grundlage der Feature-Werte als Teilmenge eines gröberen Typs manifestieren.
[68]Hierzu verwenden wir eine Principal Component Analysis (PCA).[139] PCA ist ein mathematisches Verfahren, um hochdimensionale Daten mit geringstmöglichem Informationsverlust in eine niedrigere Zahl an Dimensionen zu überführen, um z. B. zweidimensionale Visualisierungen zu ermöglichen. Die auf diese Weise erzeugten Dimensionen werden Principle Components (Hauptkomponenten) genannt und nach der in ihnen enthaltenen Varianz absteigend sortiert. Die erste Hauptkomponente enthält also den größten Anteil der Streuung im Datensatz. Die nachfolgenden Abbildungen zeigen das Ergebnis einer solchen PCA für Töchter (Abbildung 4) beziehungsweise Väter (Abbildung 5), und zwar als paarweise Gegenüberstellungen der ersten drei Hauptkomponenten.[140] Es wird jeweils die Teilmenge der tugendhaften beziehungsweise zärtlichen Figuren mit der Grundmenge an Tochter- beziehungsweise Vaterfiguren verglichen. Auf die sonst übliche Darstellung der Variablen als Vektoren wurde aus Gründen der Lesbarkeit verzichtet.
[69]Die Abbildungen zeigen, dass sich sowohl die ›tugendhaften Töchter‹ als auch die ›zärtlichen Väter‹ (blaue Punkte) als eigene Gruppen innerhalb der Gesamtheit der ›Töchter‹ und ›Väter‹ etablieren (rote Punkte). Während die roten Punkte in allen Abbildungen im gesamten Darstellungsbereich verteilt sind, konzentrieren sich die blauen Punkte in vergleichsweise engen Bereichen. Ins Auge fällt hier insbesondere das mittlere Diagramm in Abbildung 4, das die Verteilung nach erster und dritter Hauptkomponente zeigt. Hier bilden die ›Töchter‹ die homogenste Gruppe und sind eng am Ursprung positioniert. Auf dieser Basis scheint eine automatische Erkennung von ›tugendhaften Töchtern‹ möglich.
[70]Unter den blauen Punkten befinden sich in vielen Abbildungen auch rote Punkte – Figuren, die ›Vater‹ beziehungsweise ›Tochter‹ sind, aber in unseren Annotationen nicht als ›zärtlich‹ beziehungsweise ›tugendhaft‹ ausgewiesen sind. Dies sind nicht notwendigerweise Fehler, da der Status dieser Figuren bezüglich ihrer Eigenschaften zum Teil unterbestimmt ist. Wir konzentrieren uns im Folgenden auf das jeweils linke Diagramm, in dem die Figuren nach der ersten und zweiten Hauptkomponente dargestellt sind. Im Einzelnen handelt es sich bei den roten Punkten um Gertrud aus Gustav Freytags Graf Waldemar (1847) als potentiell ›tugendhafte Tochter‹ sowie Präsident von Walter aus Schillers Kabale und Liebe (1784), den Baron aus Lessings Die Juden (1749) und Meister Anton aus Hebbels Maria Magdalene (1844) als potentielle ›zärtliche Väter‹.
[71]Freytag, als einer der Hauptvertreter des Bürgerlichen Realismus, verhandelt in seinem Waldemar soziale Problemkonstellationen, die aus dem bürgerlichen Trauerspiel bekannt sind. Dabei setzt er auch auf ganz ähnliche Figurenkonstellationen. In diesem Drama ist es die Gärtnerstochter Gertrud, die dem durch Werteverfall charakterisierten Adel in Person des Grafen Waldemar den Spiegel vorhält, diesen läutert und zu einem »neue[n] Leben voll freier, gesunder Thätigkeit« verhilft.[141] Sie ist also mit Gründen als eine tugendhafte, »fromme [Gärtners-]Tochter« zu lesen.[142]
[72]Bei den von der PCA als potentiell ›zärtlich‹ erkannten ›Vätern‹ sind ähnliche dramenhistorische Erklärungen der oben genannten Gruppierungen möglich. Hebbels Meister Anton gilt der Forschung zwar nicht als Vertreter der ›zärtlichen Väter‹, das Stück Maria Magdalene allerdings als das letzte bürgerliche Trauerspiel. Die durch Gattungskonventionen vorgeschriebenen Problemkonstellationen sind es auch in diesem Fall, die den ›Vater‹ als standesstolz und von der Sorge um die Familienehre geprägt charakterisieren. Diese Attribute teilt er wiederum mit Schillers Präsident von Walter, der als herrschsüchtiger, gewissenloser Machtmensch prima vista alles andere als ein ›zärtlicher Vater‹ zu sein scheint. Dass Präsident von Walter hier trotzdem in die Nähe der ›zärtlichen Väter‹ gerückt wird, kann entweder daran liegen, dass andere ihm ähnliche ›Väter‹ nicht in unseren Daten enthalten sind, oder dass hierfür eine Figureneigenschaft entscheidend ist, die durch unsere Operationalisierung nicht abgedeckt wird.
5.5 Diskussion
[73]Die automatische Klassifizierung von Figurentypen muss – dafür gibt es eine ganze Reihe an Ursachen – sowohl mit Blick auf ihre theoretische Konzeption als auch die technische Umsetzung als komplexe multidimensionale Problemstellung aufgefasst werden. Eine Herausforderung bildet dabei das heterogene Untersuchungskorpus. Zwar konzentrieren wir uns mit Blick auf den Einflussbereich der Rollenfächer auf einen literarhistorischen Zeitraum von nur knapp über 100 Jahren, finden darin aber ein breites Spektrum an literarischen Strömungen, welches wiederum starken Einfluss auf poetologische Überlegungen der Autor*innen ausübt.[143] Rollenvorstellungen ändern sich ebenso wie die an die Figurentypen geknüpfte Abstraktion vom Individuellen.[144] Das Korpus ist zudem weder auf eine spezifische Untergattung, etwa Komödien oder Tragödien, noch auf eine gezielt gewählte Gruppe von Autor*innen beschränkt. Für die 43 Dramen im Korpus zeichnen sich 22 Autor*innen verantwortlich. Zudem musste schnell deutlich werden, dass sich eine an literaturwissenschaftlicher Forschung orientierte Gruppierung von Figuren in Typen kaum durch die Fokussierung einzelner quantitativer Methoden, etwa mittels eines netzwerkanalytischen Zugangs alleine, abbilden lassen würde. Denn das war letztlich schon die Pointe, die Manfred Pfisters Ausführungen zur quantitativen Bestimmung von Haupt- und Nebenfiguren subsumierte.[145] Unser umfassender, in mehrere Schritte untergliederter Operationalisierungsansatz unterstreicht diese Beobachtung.
[74]In Anbetracht dessen können die Klassifikationsergebnisse der ›Intrigant*innen‹ durchaus als Erfolg gewertet werden – gerade da die ›Intrigant*innen‹ einen recht heterogenen Figurentypus darstellen. So ist Ulfo, der Antagonist in Johann Elias Schlegels Trauerspiel Canut (1746), nicht nur Intrigant, sondern zugleich der nach Macht strebende Gegenspieler des dänischen Königs Canut. Durch eine typische Briefintrige nimmt er Canuts Schwester Estrithe für sich ein. Die Intrige ist jedoch weniger der Auslöser als ein Symptom des dramatischen Konflikts: Ulfo ist geleitet von einem nicht zu brechenden Verlangen nach Ruhm, das seinen Verrat an Canut motiviert. Auch Lessings Intrigantin Marwood (Miß Sara Sampson) vertraut unter anderem (neben Verkleidung, Gift, Dolch) auf den Brief als Mittel der Intrige, sogar gleich mehrfach. Ähnlich wie diejenige Ulfos scheitert Marwoods erste Intrige aber daran, »daß das Laster nur kurze Zeit Verwirrung in die Welt der Tugend bringen kann«, wie Karl Eibl ausführt.[146]Marwood weist aber auch signifikante Unterschiede zu Ulfo auf. Schon ihr Geschlecht unterscheidet die beiden Figuren. Und auch die Motivation ihres Handelns ist eine andere: Marwood versucht ihren ehemaligen Geliebten Mellefont – sie haben eine gemeinsame Tochter – zurückzugewinnen. Der eigentlich zentrale dramatische Familienkonflikt zwischen William Sampson und seiner Tochter Sara ist Marwoods Intrigen vorgelagert und bietet diesen überhaupt erst das Einfallstor. Während sowohl Ulfo als auch Marwood für ihre persönlichen Interessen eintreten, ist die eigene Motivation des Kammerherren Marinelli eher sekundär. Doch von der »Figur des Anstifters, der die bösen Triebe im Herrscher aktiviert«,[147] wird er selbst zur dynamischen Figur, die nicht mehr nur »ein kleines heilsames Verbrechen« einfädelt,[148] sondern für »eine fundamentale Destabilisierung geregelter Verhältnisse« sorgt.[149]
[75]Die Herausforderungen im Umgang mit diesem wandelbaren Figurentypus lässt
sich exemplarisch anhand der
Tokens
erörtern, die die
Figuren im Laufe der Dramen äußern. Während diesem feature für die
Erkennung von Protagonisten und Titelfiguren plausiblerweise eine
zentrale Funktion zukommt,[150] rangieren die
Tokens
als Feature bei der Klassifizierung von
›Intrigant*innen‹ gerade noch im oberen Drittel der nach feature
importance sortierten Features. Abbildung 6 verdeutlicht, wie
verschieden die Redeanteile der einzelnen Intrigant*innen am jeweiligen
Dramentext ausfallen. Gemessen in
Tokens
nehmen Adam (Der zerbrochene Krug (1808)) und Fiesco (Die Verschwörung des Fiesco zu Genua
(1783)) weit über 30 Prozent der Redezeit im Drama ein. Der Spielraum
von Amtmann von Zeck (Die Jäger (1785)), Adelheid (Götz von Berlichingen (1773)) und Wurm (Kabale und Liebe (1784)) ist dagegen sehr viel eingeschränkter – ihre Redeanteile machen
noch nicht einmal zehn Prozent der gesamten Figurenrede aus.
[76]Trotz der schlaglichtartig skizzierten Unterschiede in der Figurenkonzeption gelingt es, mittels der in unserer Operationalisierung vorgeschlagenen Merkmalskombinatorik, ›Intrigant*innen‹ mit einem F1-Wert von 0,7 zu identifizieren. Die Erkennung ›nicht-intriganter‹ Figuren in unserem Korpus ist sogar nahezu fehlerfrei (F1: 0,98).[151] Werden einzelne Features isoliert betrachtet, sind sie in unserem Zuschnitt der Untersuchungen kaum in der Lage, aussagekräftige Erkenntnisse beizusteuern.[152] Die Analysen lassen sich jedoch auf einem hohen Level kombinieren und sind so imstande, Figurengruppen zu differenzieren. Da sich hierbei aber ein Nexus aus einer ganzen Reihe an miteinander verflochtenen und in Abhängigkeitsverhältnissen stehenden Figureneigenschaften ausbildet, ist die Interpretation der Datenwerte keineswegs trivial.
[77]Lässt sich diese Komplexität der Analysen durch ein Heranzoomen an die Dramentexte einfangen? Die in unseren
Annotationen gewählten ›tugendhaften Töchter‹ und ›zärtlichen Väter‹
stammen in der Hauptsache aus vier Dramen, nämlich Die zärtlichen Schwestern (1747), Miß Sara Sampson (1755), Emilia Galotti (1772) sowie Kabale und Liebe (1784). Aus diesen Dramen lassen sich also vier Figurenpaare bestehend
aus ›Vater‹ und ›Tochter‹ bilden, die abschließend näher betrachtet
werden sollen. Nimmt man an, dass die Konfliktlinien der
Vater-Tochter-Beziehung einerseits durch die Liebesbeziehung der Tochter
und andererseits durch die Wahrung der familiären Ordnung durch den
Vater abgesteckt werden, müsste sich dies in der Verwendung der
Wortfelder
Liebe
und
Familie
widerspiegeln.
Abbildung
7 und Abbildung 8 schlüsseln die Werte der beiden Wortfeldanalysen
für die vier Figurenpaare auf. Tatsächlich lässt sich ein Muster
wahrnehmen, das die formulierte Hypothese stützt. Während die ›Töchter‹
eher in Liebessemantiken zu sprechen scheinen, bedienen die ›Väter‹ eher
das Familienwortfeld. Emilia, die sich
häufiger im Familienwortfeld äußert als ihr Vater Odoardo, und Sir William, den im
Vergleich zu Sara ein leicht erhöhter Wert
für
Liebe
auszeichnet, sind die Ausnahmen. Diese
Beobachtung, das veranschaulichen die Werte der beiden Abbildungen
ebenfalls, haben aber einen eingeschränkten Geltungsbereich: Sie sind
auf die Figurenpaare einzelner Dramen limitiert. Dramenübergreifende
Analysen fallen deutlich heterogener aus. So bedient Sir William das Liebeswortfeld nicht nur in vergleichbarem
Maße wie Sara, seine Figurenrede ist überdies
stärker mit diesem Wortfeld assoziiert als diejenige Emilias oder Luises.
[78]Während individuelle Features wie die vorgestellten Wortfeldanalysen durchaus in der Lage sind, Einzelphänomene mit spezifisch zugeschnittenen Hypothesen auszuführen, sind sie alleine kaum geeignet, um von diesem Einzelphänomen zu abstrahieren. Ihre Analyseresultate lassen sich also nur schwer extrapolieren.
6. Fazit und Ausblick
[79]In diesem Beitrag haben wir eine literaturwissenschaftlich motivierte Operationalisierung von Figurentypen vorgenommen und vorgestellt. Dabei gehen wir von einem weiten Operationalisierungsbegriff aus: Sowohl die Entwicklung von Annotationsrichtlinien und -schemata ist eine Art der Operationalisierung als auch die Entwicklung von Programmen zur automatischen Erkennung, z. B. mit maschinellen Lernverfahren. Die Arten der Operationalisierung unterscheiden sich hinsichtlich derjenigen, die sie umsetzen: Annotationsrichtlinien werden von Menschen ausgeführt, Programme von Computern. Dies wiederum zieht nach sich, dass unterschiedlich atomare Indikatoren für die Erkennung verwendet werden können.
[80]Unsere Annotationsmethodik unterscheidet sich von anderen
Annotationsprojekten,[153] insofern wir keine nur auf Primärtexten und
Annotationsrichtlinien basierende Annotation anstreben. Stattdessen
verfolgen wir eine
[81]Das Annotationsverfahren hat zudem zur Folge, dass der erzeugte Datensatz eher klein ist. Die Notwendigkeit, aus einer verhältnismäßig kleinen Menge (Small Data) an Beobachtungen Generalisierungen abzuleiten, ist im Bereich der digitalen Geisteswissenschaften eine weit verbreitete Herausforderung: Aus wenigen Beispielen sollen möglichst generalisierbare Zusammenhänge gelernt werden. In dieses Szenario können quantitative Ansätze, die für Big-Data-Szenarien entwickelt wurden, nicht eins zu eins übertragen werden. Unsere oben beschriebene Strategie, um mit dieser Herausforderung umzugehen, ist mehrschrittig: Zunächst verwenden wir interpretierbare Teilbegriffe anstelle einer sogenannten End-to-End-Architektur. Dies führt bereits bei der Feature-Extraktion zu einer Abstraktion von der Textebene und damit zu einer Generalisierung. Hier lässt sich auch von Entwicklungen in der Computerlinguistik und maschinellen Lernverfahren profitieren, etwa Operationalisierungen von Teilbegriffen mit großen Datenmengen (wobei dann die Passung der Operationalisierung auf den Gegenstand zu validieren ist). Der zweite Teil der Strategie besteht in der zielgerichteten Zusammenstellung von Datensätzen und insbesondere der Auswahl von Negativbeispielen. Unser Ansatz besteht hier in der Auswahl möglichst sicherer negativer Beispiele: Durch den Ausschluss möglicherweise überlappender Figurengruppen (siehe Abschnitt 5.1) wurde sichergestellt, dass Figuren, die Positivbeispiele sein könnten, aber entweder in der konsultierten Forschung oder in unserem Zugriff (noch) nicht als solche dokumentiert sind, nicht als Negativbeispiele verwendet werden. Der dritte Teil der Strategie besteht in der Inspizierung und Visualisierung der gelernten Zusammenhänge, etwa durch Feature Importance oder die Principle Component Analysis. Irreführende Generalisierungen können auf diese Weise frühzeitig sichtbar gemacht und vermieden werden.
[82]Wie bereits der Titel des Beitrags verdeutlicht, gehen wir von einer starken Prämisse aus, nämlich dass »ein Vater [...] doch immer ein Vater« ist.[154] Weniger bildlich gesprochen heißt dies, dass das meta-dramatische, dem Diener Waitwell von Lessing in den Mund gelegte Diktum, eine Entsprechung in den dramatischen Texten hat: Es gibt so etwas wie auf Textbasis identifizierbare Figurentypen, die auch über die besetzungspragmatische Dimension der Theaterpraxis des 18. Jahrhunderts hinausgehen. Das Ergebnis unserer Analysen stützt diese, von der Literaturwissenschaft natürlich als Konsenswissen bekannte Annahme dahingehend, dass sich ›Intrigant*innen‹ recht gut automatisch erkennen lassen und dass ›zärtliche Väter‹ und ›tugendhafte Töchter‹ jeweils eine vergleichsweise homogene Teilmenge der ›Väter‹ beziehungsweise ›Töchter‹ bilden. Dabei wurden insbesondere drei Vaterfiguren identifiziert, deren genaue Bewertung noch aussteht. Auf den ersten Blick scheint es zumindest bei Meister Anton aus Hebbels Maria Magdalene gute Gründe zu geben, ihn in die Nähe der ›zärtlichen Väter‹ zu rücken. Für die anderen Figuren müsste eine eingehende literaturwissenschaftliche Überprüfung klären, inwieweit sie als ›zärtliche Väter‹ beziehungsweise ›tugendhafte Töchter‹ zu charakterisieren sind. Denn lassen sich solche Befunde hermeneutisch rekonstruieren, wäre ein schönes Beispiel für den Einsatz computationeller Methoden gegeben, der jene Ähnlichkeiten literarischer Textelemente identifizieren kann, die der literaturwissenschaftlichen Forschung noch nicht bekannt sind. Doch auch unabhängig von dieser Rekonstruktion ergeben sich literaturwissenschaftlich relevante Anschlussfragen: Denn selbst, wenn Figuren nicht dem gleichen Figurentypus entsprechen, können strukturelle, thematische oder stilistische Analogien zwischen ihnen intendiert sein und für eine Interpretation herangezogen werden.
Danksagungen
[83]Die in diesem Artikel vorgestellten Arbeiten wurden freundlicherweise durch die VolkswagenStiftung und ihre Förderung des Projektes Quantitative Drama Analytics (QuaDramA) ermöglicht, wofür wir danken. Wir danken außerdem Nora Ketschik und Sandra Schell für die kritische Durchsicht des Artikels sowie Nathalie Schürmann und Martin Glasbrenner für die Annotationsarbeit.