Abstract
Generalisierungen in Erzähltexten dienen typischerweise nicht oder nicht ausschließlich dazu, die erzählte Welt aufzubauen, sondern um Informationen über die Erzählinstanz, den Sinn des Erzählten oder die reale Welt bereitzustellen. Der Aufsatz leistet einen Beitrag zur linguistisch-literaturwissenschaftlichen Beschreibung von Generalisierungen, entwickelt ein Tagset für ihre Identifikation und Klassifikation und stellt die Ergebnisse ihrer kollaborativen Annotation in einem diachronen Korpus (1616–1930) dar. Die schließlich vorgestellten regelbasierten und statistischen Tagger zur automatischen Erkennung von Generalisierungen gewährleisten den Zugang zu einer breiten Basis von Textbeispielen und ermöglichen eine empirisch gesättigte Analyse der Funktionen von Generalisierungen und der assoziierten narratologischen Phänomene.
Generalisations in narrative texts typically do not or not exclusively serve to devise the narrated world, but provide information about the narrative instance, the meaning of what is told or the real world. The paper contributes to the linguistic-literary description of generalisations, develops a tagset for their identification and classification, and presents the results of their collaborative annotation in a diachronic corpus (1616–1930). Finally, the paper presents a rule-based and a statistical tagger for the automatic recognition of generalisations that allow users to access a variety of examples of the phenomenon and can be used in the analysis of the functions of generalisations and the associated narratological phenomena.
- 1. Einleitung
- 2. Generalisierungen in Theorie und Operationalisierung
- 2.1 Generizität und Quantifikation
- 2.2 Operationalisierungsansätze von Generizität und Quantifikation im Überblick
- 2.3 Operationalisierung von Generalisierungen in fiktionalen Erzähltexten
- 3. Annotation
- 3.1 Tagset und Anwendungsregeln
- 3.2 Korpus, Workflow und Agreement
- 4. Automatische Erkennung
- 4.1 Merkmale
- 4.2 Modelle und Algorithmen
- 4.2.1 Regelbasierter GenTagger
- 4.2.2 Statistischer GenTagger
- 5. Evaluation und Diskussion
- 6. Fazit und Ausblick
- Danksagungen
- Bibliographische Angaben
- Abbildungs- und Tabellenverzeichnis
1. Einleitung
[1]Das wohl bekannteste Beispiel für
Generalisierungen in der literaturwissenschaftlichen Forschung ist der erste Satz
aus Tolstojs Anna Karenina, an dem eine Vielzahl
aktueller Forschungspositionen erläutert werden können:
(1) Alle glücklichen Familien sind
einander ähnlich; aber jede unglückliche Familie ist auf ihre besondere Art
unglücklich.[1]
Martínez und Scheffel analysieren
dieses Beispiel in ihrer Diskussion des theoretischen
Satzes als eine »kommentierende Stellungnahme des
Erzählers über die Welt überhaupt« und unterscheiden sie von mimetischen
Sätzen, die »Informationen über die konkrete Beschaffenheit und
das Geschehen in der erzählten Welt« vermitteln.[2] Bei genauerer Betrachtung fällt allerdings auf, dass diese
vermeintlich strikte Trennung der Funktionen dem Beispiel nicht gerecht wird. Durch
die Generalisierung entsteht augenscheinlich eine Distanz zur erzählten Welt,[3] wodurch der Satz als Bemerkung über die nicht-fiktionale
Welt interpretiert werden kann – also als eine Behauptung über die Beschaffenheit
von Familien im Allgemeinen.[4] Der Satz kann aber zusätzlich als Vorhersage über die
Geschehnisse in der fiktionalen Welt interpretiert werden und somit als Leitfaden
zum Verständnis des Werkes an sich dienen. In (1) kann die Generalisierung demnach
auf eine explizite Erzählinstanz (overt narrator)
hinweisen und zugleich als Indikator für sogenannte nicht-fiktionale-Rede (non-fictional
speech)[5] gelten.[6] Vertreter*innen einer
Theorie der Literatur als soziale Institution betrachten generalisierende Aussagen
wie (1) als thematic statements, also als Hinweise
auf das Thema des betreffenden Werks.[7] In der Debatte um das Verhältnis von Wissen und
Literatur werden Generalisierungen als Beispiele für sogenannte explicit truths oder explizite Propositionen herangezogen, die möglicherweise eine besondere
Rolle für den kognitiven Wert fiktionaler Werke spielen.[8]
[2]Beispiel (1) illustriert demnach, dass Generalisierungen im Erzähltext offenbar Aussagen darstellen, die typischerweise nicht oder nicht nur dem Aufbau der erzählten Welt dienen, sondern diverse weitere Funktionen erfüllen können. Nichtsdestoweniger spielen sie in der Narratologie nur eine untergeordnete Rolle. Häufig ist umgangssprachlich von Verallgemeinerungen die Rede; eine empirische Untersuchung von Generalisierungen hinsichtlich ihrer werkimmanenten und textexternen Funktionen blieb bislang aus. So beruhen die bis dato in der Forschung formulierten Hypothesen zur Funktion von Generalisierungen meist auf wenigen ausgewählten Beispielsätzen kanonisierter Werke. Diachrone Perspektiven, etwa hinsichtlich einzelner Autor*innen, Epochen, literarischer Gattungen oder Strömungen, bleiben unausgeschöpft.
[3]Im Mittelpunkt des vorliegenden Aufsatzes stehen zwei Generalisierungstagger: ein regelbasierter und ein statistischer Tagger. Die Entwicklung der Tagger soll dazu dienen, einerseits Generalisierungen formal (d. h. linguistisch) zu untersuchen. Andererseits sollen die mit Generalisierungen assoziierten Funktionen und Effekte im Erzähltext analysiert werden können, insbesondere vor dem Hintergrund diachroner narratologischer Fragestellungen. Dementsprechend wird mit einem Korpus deutschsprachiger fiktionaler Erzähltexte gearbeitet, die zwischen 1616 und 1930 veröffentlicht wurden. Der Abschnitt 2 wird eingangs in die mit Generalisierungen assoziierten linguistischen Phänomene Quantifikation und Generizität und ihre computergestützte Operationalisierung einführen. Ein besonderes Augenmerk wird darauf liegen, die für uns zentrale Herausforderung für die Annotation von Generalisierungen zu bewältigen: Quantifikation und Generizität stellen einerseits klassische Gegenstände der semantischen Theoriebildung dar und sollen auf eine Weise annotiert werden, die eine linguistische Analyse der Annotation ermöglichen. Dennoch müssen annotierbare Indikatoren an der Satzoberfläche erkennbar sein, was insbesondere bei generischen Ausdrücken komplex ist. Diese Herausforderung ergibt sich aus unserer Engführung linguistischer und narratologischer Perspektiven auf das Thema Generalisierungen. Unser Ziel ist es, die Tagger insbesondere dafür zu nutzen, die Schnittstelle zwischen Formen und Funktionen von Generalisierungen im Erzähltext auszuleuchten. In Abschnitt 3 schildern wir unser Annotationsvorgehen, das die in der Forschungsliteratur vorhandenen Tagsets zur Annotation von Quantifikations- bzw. Generizitätsphänomenen um ein intuitives und theorieübergreifendes Vorgehen für deutschsprachige fiktionale Texte ergänzt. Zudem wird das Annotationskorpus beschrieben sowie Ergebnisse des Inter-Annotator-Agreements dargestellt. Es folgt eine Erläuterung zur Implementierung der Tagger in Abschnitt 4 und ihre Evaluation in Abschnitt 5.
2. Generalisierungen in Theorie und Operationalisierung
[4]Generalisierungen können auf verschiedene Weise im Satz sprachlich markiert sein. Typische Indikatoren sind allquantifizierte und generische Ausdrücke, die zu einer Äußerung naturgemäß generalisierende Bedeutungsanteile beitragen können. Quantifikation und Generizität stellen dabei klassische Gegenstände der semantischen Theoriebildung dar, weswegen bereits zahlreiche detaillierte und differenzierte Analysen und Modelle zu ihrer adäquaten Beschreibung vorliegen. Daraus ergibt sich die zentrale Herausforderung für die Annotation und die automatische Erkennung von Generalisierungen in Erzähltexten: Einerseits müssen annotierbare Indikatoren für Generalisierungen an der Satzoberfläche identifiziert werden können, andererseits muss jedwedes Annotationsschema auch theoretisch plausibel mit den etablierten semantischen Theorieansätzen kompatibel sein.
[5]Im Folgenden werden zunächst kurz die hier vorausgesetzten Annahmen der theoretischen Semantik zur Generizität und Quantifikation eingeführt. Daran anschließend werden relevante computerlinguistische Vorschläge zur Annotation generischer Ausdrücke diskutiert. Dabei wird auch deutlich werden, dass die vorgeschlagene Herangehensweise nur begrenzt auf Erzähltexte übertragbar ist.
2.1 Generizität und Quantifikation
[6]Mit generischen Aussagen ist es
möglich, über eine Klasse von Dingen oder Individuen gleichzeitig etwas auszusagen,
entweder durch auf diese Art oder Gattung referierende Nominalphrasen (NPn) wie in
Beispiel (2) oder auf Satzebene – in diesem Fall ist die Rede von
charakterisierenden oder generischen Sätzen.[9] Diese teilen
sich in entweder lexikalisch-charakterisierende Aussagen über Fakten (vgl. (3)) oder
habituell-charakterisierende Aussagen über wiederkehrende Ereignisse auf (vgl. (4)).
Beide Formen können auch im selben Satz auftreten (vgl. (3)).
(2) Löwen fressen Fleisch. (NP ›Löwen‹ referiert auf Gattung)(3) Ein Löwe hat eine Mähne. [10] (lexikalisch-charakterisierend, kombiniert
mit generisch verwendeter NP)(4) John trinkt nach dem Essen ein
Bier. (habitueller Satz)
Allen diesen generischen Aussagen ist
gemein, dass eindeutige Indikatoren für ihre generalisierende Lesart an der
Satzoberfläche fehlen. Aus diesem Grund sind die aufgeführten Aussagen in der Regel
ambig: Die indefinite Plural-NP Löwen in (2) ist eine
Form, die zwar häufig generische Lesarten auslöst, aber auch spezifisch verwendet
werden kann:
(5) Die Schließanlage im Zoo ist
kaputt. Es sind Löwen ausgebrochen. (spezifische Verwendung)
Ebenso verhält es sich mit Massennomen
im Singular. Nur in (6), nicht aber in (7) wird Gold
generisch verwendet:
(6) Gold glänzt.(7) Die Bank wurde ausgeraubt und es
wurde Gold gestohlen.
Auch definite und indefinite NPn im
Singular können generisch oder spezifisch interpretiert werden. Oft ist der Kontext
der ausschlaggebende Faktor dafür, ob eine generische Lesart vorliegt, vgl.
(8)–(10):
(8) Ein
Löwe hat eine Mähne. (Indefinite NP, löst standardmäßig eine
generalisierende Lesart aus)(9) Der
Löwe hat eine Mähne. (Definite NP, generalisierende Lesart je nach Kontext
möglich)(10) Ein Vater erklärt seinem Kind
Eigenschaften von Wildtieren. Er sagt: Der Elefant hat einen Rüssel. Der Löwe hat
eine Mähne. (Kontext triggert generalisierende Lesart)(11) Ein Vater und sein Kind stehen im
Zoo vor dem Löwenkäfig. Der Vater fragt das Kind, welches der Tiere eine Mähne hat.
Das Kind zeigt auf den männlichen, ausgewachsenen Löwen und sagt: Der Löwe hat eine
Mähne. (Kontext triggert eine spezifische Lesart)
Diese Beispiele illustrieren die hohe
Kontextabhängigkeit generischer Interpretationen; anhand der sprachlichen Formen
einer NP allein lässt sich noch nicht sicher bestimmen, ob diese NP generisch
interpretiert wird oder nicht. Die Theorie der generalisierten Quantoren
vorausgesetzt, nehmen wir an, dass charakterisierende und quantifizierte Sätze
dieselbe dreiteilige Struktur aufweisen, die aus einem Quantor (Q), einem Restriktor
(R) und einem nuklearen Skopus (S) besteht,[11] wobei jeder
Bestandteil einen bestimmten eigenen Bedeutungsbeitrag leistet. Der Quantor
allerdings muss in natürlichsprachlichen Sätzen nicht zwingend an der Satzoberfläche
ablesbar sein. Dies ist insbesondere bei generischen Sätzen der Fall. Wir erläutern
diese Struktur an einem Beispiel:
(12) Jede Wissenschaftlerin ist
klug.
Ein Quantor kann als eine Relation
zwischen zwei Mengen aufgefasst werden. Demnach drückt jede in (12) die Relation zwischen der Menge der Wissenschaftlerinnen und
der Menge der klugen Personen aus. Dabei legt er fest, dass die Menge der
Wissenschaftlerinnen vollständig in der Menge der klugen Personen enthalten ist,
also eine Teilmenge der klugen Personen bildet. Die NP Wissenschaftlerin stellt den Restriktor des Quantors
jede dar und beschreibt die Teilmenge, über die etwas
ausgesagt wird: die Menge aller Wissenschaftlerinnen. Das Prädikat ist klug bildet den (nuklearen) Skopus des Quantors,
wodurch die Eigenschaft, die dieser Menge zugeschrieben wird, erfasst ist. In
Beispielen wie (12) sind Q, R und S noch recht leicht oberflächennah zu erkennen,
bei Satzmaterial aus Erzähltexten wird sie ungleich komplexer, wie in Abschnitt 2.3 gezeigt wird.
[7]Sowohl mit quantifizierten als auch mit generischen Äußerungen können Generalisierungen ausgedrückt werden. Das mitunter größere Interesse, auch in der computerlinguistischen Forschung, liegt auf generischen Aussagen, da diese nicht durch Indikatoren an der Satzoberfläche gekennzeichnet und damit schwerer formal zu beschreiben und automatisch zu erkennen sind. In der Narratologie wiederum ist nicht klar, welche Formen von Generalisierungen prominenter in fiktionalen Texten sind oder welche Formen mit welchen Funktionen im Text eher korrelieren. Eine Einschränkung auf den einen oder den anderen linguistischen Forschungsschwerpunkt ist daher zum jetzigen Zeitpunkt nicht sinnvoll.
2.2 Operationalisierungsansätze von Generizität und Quantifikation im Überblick
[8]Es existiert eine beträchtliche Anzahl an Annotationsschemata, die dazu dienen sollen, quantifizierte oder generische Ausdrücke zu markieren. Ein Großteil dieser Vorschläge bezieht sich ausschließlich auf generische NPn[12] und arbeitet entsprechend mit einer limitierten Anzahl an Tags. So annotieren Friedrich et al. 2015, ob das Subjekt eines Satzes generisch auf eine Art oder Klasse referiert, und wenn ja, ob der umliegende Satz eine charakterisierende oder spezifische Aussage über diese Klasse trifft. Entsprechend dieser Unterteilung nutzen sie ein dreiteiliges Tagset:
[9]Tagset von Friedrich et al.:
- GEN; gen: generischer Satz mit generischem Subjekt
- NON-GEN; non gen: nicht-generischer Satz mit nicht-generischem Subjekt
- NON-Gen; gen: nicht generischer Satz mit generischem Subjekt
[10]Durch die Fokussierung auf generische
Subjekte werden Sätze mit generischen Objekten, aber nicht-generischen Subjekten aus
der Erhebung ausgeschlossen, obwohl auch in diesen Generalisierungen vorliegen
können, wie Beispiel (13) illustriert:
(13) John mag Kaffee.
Friedrich / Pinkal widmen sich
der automatischen Erkennung von habituellen Sätzen anhand des lexikalischen Aspekts
des Vollverbs.[13] Dieser Ansatz
ist strikt linguistisch motiviert: Der Aspekt des Vollverbs eines Satzes (dynamisch
oder statisch) bestimmt den Aspekt des Satzes. Hat das Vollverb eines Satzes
dynamischen Aspekt, kann dieser entweder auf habituelle oder episodische Sätze
hindeuten. Statische Verben hingegen führen üblicherweise zu statischen Sätzen. Je
nach Aspekt verändert sich die Funktion eines Satzes im (narrativen) Diskurs, so
werden generische Sätze üblicherweise mit Erzählpausen assoziiert.[14]
[11]Schließlich stellen Friedrich et al. 2016 auch ein integriertes Vorgehen vor, um generische NPn und habituelle Ausdrücke simultan zu annotieren und automatisch zu erkennen.[15] Das Ziel ihres Ansatzes ist die automatische Erkennung sogenannter situation entity types (SE types). Darunter fallen neben Ereignissen und Fakten auch sogenannte generative states, die einerseits generische Äußerungen und andererseits habituelle Äußerungen sein können. Bei der Annotation auf Satzebene wird der main referent, üblicherweise das Subjekt, als generisch oder nicht-generisch klassifiziert. Zudem wird das Vollverb hinsichtlich des lexikalischen Aspekts (dynamisch oder statisch) annotiert. Je nach Ergebnis werden dann die Tags generic sentence, generalizing sentence, state oder event vergeben.[16] Die Problematik, Sätze mit nicht-generischen Subjekten aber generischen Objekten (vgl. (13)) durch die Annotation auszuschließen, bleibt hier zwar bestehen, kann aber durch die Klasse state aufgefangen werden.
[12]Insgesamt ist die automatische Erkennung von Generalisierungen also nicht nur mit der automatischen Erkennung von generischen NPn oder Habitualität, sondern durch die Erkennung von (lexikalischem) Aspekt auch mit der Identifikation von temporalen Strukturen in Erzähltexten verknüpft. Nach unserer Kenntnis ist bis heute noch kein Versuch unternommen worden, Generalisierungen spezifisch in deutschsprachigen fiktionalen Erzähltexten zu erkennen. Wie sich in diesem Abschnitt herausgestellt hat, ist der Großteil der vorhandenen Ansätze computerlinguistisch ausgerichtet und bezieht sich meist auf faktuale Textsorten wie Zeitungstexte, (Online-) Lexikoneinträge und dergleichen. Außerdem wird überwiegend mit englischsprachigen Texten gearbeitet. Eine direkte Übertragung dieser Ansätze auf deutschsprachige fiktionale Texte ist nicht ohne Weiteres möglich – die Gründe hierfür werden im folgenden Abschnitt diskutiert.
2.3 Operationalisierung von Generalisierungen in fiktionalen Erzähltexten
[17]Die im vorangegangen Abschnitt erläuterten Tagsets sind computerlinguistisch motiviert und daher auf bestimmte semantische oder syntaktische Formen begrenzt. Da für uns nicht von vornherein klar ist, welche Formen von Generalisierungen für narratologische Fragestellungen relevant sind, ist ein solches ausschließlich an der Form orientiertes Vorgehen im Fall fiktionaler Erzähltexte ungeeignet. Es bestünde die Gefahr, einen Teil generalisierender Aussagen aus der Erhebung von vornherein auszuschließen und damit das Forschungsziel zu verfehlen. Hinzu kommt die Schwierigkeit, dass die hier vorgestellten Tagger auch auf älteren Sprachstufen bzw. nicht-kanonischen Ausdrucksweisen operieren können müssen, wenn auch diachrone narratologische Forschungsfragen beantwortet werden sollen.
[18]Die drei zentralen Herausforderungen für die Annotation von Generalisierungen lassen sich wie folgt umreißen: Die erste Schwierigkeit besteht darin, dass der Tagger Generalisierungen in Texten erkennen können muss, die ab 1600 veröffentlicht wurden. Speziell in den älteren Texten treten nicht nur typische lexikalische Ausdrücke und syntaktische Konstruktionen der jeweiligen Sprachstufen auf, sondern darüber hinaus lässt sich auch eine höhere Zahl an komplexen, teils mehrfach rekursiv eingebetteten Sätzen beobachten. Das ist nicht nur der Struktur des Deutschen geschuldet, sondern auch ein Charakteristikum fiktionaler Erzähltexte. In diesen Texten im Detail Restriktor, Skopus und Quantor zu identifizieren und adäquat zu annotieren, ist eine anspruchsvolle und zeitintensive Aufgabe, die auch ein hohes Maß an (linguistischem) Training für die Annotator*innen beansprucht. Dies sei anhand des Beispiels (14) kurz illustriert:
[19](14) Wenn Luciane, meine Tochter, die für die Welt geboren ist, sich dort für die Welt bildet, [...]; wenn sie durch Freiheit des Betragens, Anmut im Tanze, schickliche Bequemlichkeit des Gesprächs sich vor allen auszeichnet und durch ein angebornes herrschendes Wesen sich zur Königin des kleinen Kreises macht, wenn die Vorsteherin dieser Anstalt sie als kleine Gottheit ansieht, die nun erst unter ihren Händen recht gedeiht, die ihr Ehre machen, Zutrauen erwerben und einen Zufluß von andern jungen Personen verschaffen wird, wenn [...]: so ist dagegen, was sie schließlich von Ottilien erwähnt, nur immer Entschuldigung auf Entschuldigung [...].[17]
[20]Die durch wenn eingeleiteten konditionalen Nebensätze in Beispiel (14) fungieren augenscheinlich als Restriktoren für den durch so eingeleiteten Nebensatz und damit für nur eine Skopus-Einheit. Es ist allerdings unklar, ob hier quantifizierte Aussagen aneinandergereiht werden oder ob die einzelnen Restriktoren eine Einheit bilden.
[21]Zweitens ist es in der jetzigen
Untersuchungsphase zu früh, schon im Vorhinein abschließend festzulegen, welche
Formen von Generalisierungen für die narratologischen Fragestellungen im Zuge einer
quantitativen Datenerhebung relevant würden. Vorrangig scheint vielmehr zu sein,
Indikatoren für Generalisierungen an der Satzoberfläche aufzuspüren und einen Umgang
für die Fälle zu finden, in denen mehrere konkurrierende Marker zugleich auftreten.
So kommt es in fiktionalen Texten gehäuft vor, dass syntaktische Strukturen mehrere
Lesarten auslösen:
(15) Wer ein
Übel los sein will, der weiß immer, was er will.[18]
Hier liegt einerseits eine
Generalisierung über Personen vor, die ein Übel loswerden wollen und andererseits
über die Situationen, in denen sie das Übel loswerden wollen, nämlich immer. Welche der beiden Generalisierungen über die
andere regiert, ist ambig und die Auflösung dieser Ambiguität ist für die
automatische Erkennung nicht von zentralem Interesse. Eine linguistisch exakte
Annotation wäre in solchen Fällen zeitaufwändig und fehleranfällig.
[22]Drittens ist, wie bereits erläutert
wurde, nicht nur der Überfluss von Markern an der Satzoberfläche eine
Herausforderung, sondern auch die koverte Markierung von Generalisierungen etwa
durch generische NPn.
(16) Die
Landleute haben die rechten Kenntnisse; ihre Mitteilungen aber sind konfus und
nicht ehrlich. Die Studierten aus der Stadt und von den Akademien sind wohl klar
und ordentlich, aber es fehlt ihnen an der unmittelbaren Einsicht in die
Sache.[19]
In (16) wird eine Aussage über die
Gruppe von Landleuten und die Gruppe von Studierten gemacht. Diesen beiden Gruppen
werden zugleich prototypische Eigenschaften zugeschrieben. Ein overter Quantor
findet sich aber weder beim Subjekt noch beim Prädikat – nichtsdestotrotz ist eine
generalisierende Lesart möglich.
[23]Kurz zusammengefasst muss ein Tagset, das Generalisierungen in fiktionalen Texten umfassend annotierbar macht und der Implementierung eines Taggers vorausgeht, folgenden Adäquatheitsbedingungen genügen. Einerseits muss die linguistische Komplexität der unterschiedlichen Auftretensformen im Tagset abgebildet werden können. Dabei sollten aber nicht allzu formale Kategorien angesetzt werden, welche die Komplexität der Annotation in fiktionalen Texten unverhältnismäßig erhöhten und auch dem Anspruch, sämtliche Generalisierungen in Texten erkennen zu können, nicht gerecht würden. Andererseits sollte das Tagset jedoch derart auf linguistische Parameter zurückführbar sein, dass es auch einer qualitativen Datenbetrachtung standhält.
3. Annotation
[24]Nachdem im vorherigen Abschnitt die Hürden der Annotation von Generalisierungen in fiktionalen Erzähltexten beschrieben wurden, wird nun das Tagset und der Annotationsprozess geschildert. Der Abschnitt endet mit dem berechneten Inter-Annotator-Agreement und einigen Erläuterungen zur Erstellung der Goldstandards, auf deren Basis die Tagger implementiert werden.
3.1 Tagset und Anwendungsregeln
[25]Das Tagset erfasst mit dem Tag GI (für Generalisierende Interpretation), ob eine Passage eine Generalisierung ausdrückt, und mit diversen Subtags, welche Art der semantischen Quantifikation (universell, existenziell oder vage) vorliegt (vgl. Tabelle 1). Eine Passage besteht hierbei aus mindestens einem, möglicherweise mehreren aufeinanderfolgenden Teilsätzen. Weil Teilsätze somit die kleinste annotierbare Einheit darstellen, sprechen wir im Folgenden von einer Annotation auf Teilsatzebene. Die Annotation auf Teilsatzebene ermöglicht die Gratwanderung zwischen einer aus linguistischer Perspektive verwertbaren Annotation und einer Konzentration auf Oberflächenmerkmale, die für die Implementierung des Taggers zielführend ist. Auf diese Weise werden quantifizierte Aussagen in ihrem breiten Spektrum erfasst und gleichzeitig zeitökonomisch annotiert.
Subtag | Typ der Quantifikation | Natürlichsprachliches Beispiel |
ALL | universelle Quantifikation | alle, immer, jede*r |
MEIST | Mehrheitsquantifikation | meistens, am häufigsten |
EXIST | existenzielle Quantifikation | es gibt x, es existieren y |
DIV | vage Quantifikation | manchmal, teilweise, gewöhnlich, oft, etc. |
BARE | keine der zuvor genannten + koverte Quantifikation | generische NPn (z. B. Gold, Löwen) |
NEG | eine der oben genannten + Negation | Es gibt kein Gold, das braun ist. |
Tab. 1: Tagset MONACO. [Gödeke et al. 2022 nach Barth et al. 2021]
[26]Das Tagset ist wie folgt aufgebaut:
Die Subtags ALL, MEIST und EXIST korrespondieren mit Quantoren aus der formalen
Logik, die an der Satzoberfläche mit einer Reihe von Lexemen ausgedrückt werden
können.[20] Beim Subtag ALL
handelt es sich meist um Lexeme wie immer oder jede*r
,
jedes:
(17) Gedenken wir nur des Kalks, [der
zu allen Säuren eine große Neigung, eine entschiedene Vereinigungslust
äußert]GI
ALL![21]
Beim Subtag MEIST kommen Lexeme wie
meist oder meistens vor, die sich auf mehr als die Hälfte der bezeichneten Menge
beziehen:
(18) [...]; [aber es sind meistenteils
unbewußte Erinnerungen glücklicher und unglücklicher Folgen, die wir an eigenen oder
fremden Handlungen erlebt haben]GI MEIST.[22]
Das Subtag EXIST umfasst
generalisierende Passagen, die sich auf die Existenz der Individuen einer Klasse
beziehen und durch Prädikate der Existenz wie geben
und existieren markiert werden.[23]
(19) [Aber es gibt dergleichen noch,
es muß dergleichen geben oder doch wieder geben]GI
EXIST.[24]
Das Subtag DIV fängt alle vagen
Quantoren auf, insbesondere also Quantifikationen, die durch Adverbien wie manchmal, häufig, gelegentlich, selten ausgelöst werden. Diese
unterscheiden sich von den anderen natürlichsprachlichen Quantoren dadurch, dass
ihre Wahrheitsbedingungen nicht präzise beschreibbar sind.
(20) [Unsere vortreffliche Vorsteherin
läßt mich gewöhnlich die Briefe lesen, in welchen sie Beobachtungen über ihre
Zöglinge den Eltern und Vorgesetzten mitteilt]GI DIV.[25](21) »Es betrifft
unsern Freund, den Hauptmann,« antwortete Eduard. »Du
kennst die traurige Lage, [in die er, wie so mancher andere, ohne sein
Verschulden gesetzt ist]GI DIV.«[26]
Zusätzlich kann das Tagset
nicht-overte Quantifikation mit dem Subtag BARE erfassen. Dieser kann etwa im Fall
von generischen Subjekten oder generischen Objekten gesetzt werden, also dann, wenn
keine Quantifikation an der Satzoberfläche identifizierbar ist.
(22) [Die Landleute haben die rechten
Kenntnisse]GI BARE; [ihre Mitteilungen aber sind
konfus]GI BARE [und nicht ehrlich]GI NEG. [Die Studierten aus der Stadt und von den Akademien sind wohl klar
und ordentlich, aber es fehlt an der unmittelbaren Einsicht in die Sache]GI BARE.[27](23) [Die Männer denken mehr auf das
Einzelne, auf das Gegenwärtige]GI BARE;[28]
Das Subtag NEG umfasst sämtliche
generalisierte und negierte Aussagen, unabhängig von der syntaktischen Struktur. Die
syntaktische Struktur kann deshalb interessant sein, weil mit unterschiedlichen
syntaktischen Positionen von Negationen verschiedene Skopen von Negationen
einhergehen. Daher bestimmt die Syntax, was genau in einem Satz negiert wird; der
Quantor oder (Teile vom) Restriktor oder Skopus. Da diese informationsstrukturellen
Unterscheidungen für die automatische Erkennung von generalisierenden Aussagen nicht
relevant sind, wird jede generalisierende Aussage, die eine Negation enthält, mit
dem Subtag NEG annotiert. In diesem Fall überschreibt NEG alle möglichen anderen
Annotationen.
(24) [Unanfechtbare Wahrheiten gibt es
überhaupt nicht]GI NEG[29]
Zudem gelten bestimmte Regeln zum
Annotationsverfahren, die Mehrfachannotationen und ambige Fälle betreffen. So kann
es vorkommen, dass in derselben Passage auf verschiedene Weisen generalisiert wird.
Im folgenden Beispiel wird sowohl über Zeiträume (immer) als auch existenziell über Zank und Streit generalisiert. Da hier
konkurrierende Generalisierungsarten vorliegen, müssen zwei Subtags vergeben
werden.
(25) [[Es gibt doch bloß immer Zank
und Streit]GI ALL]GI EXIST[30]
Eine wichtige Ausnahme bildet hier das
Subtag BARE. BARE wird ausschließlich in den Fällen vergeben, in denen keine anderen
Subtags vergeben werden können:
(26) [Der Heilige Vater liebt seine
Untertanen gleichmäßig]GI BARE. (fikt. Bsp.)
In (27) wird allerdings sowohl über
Päpste (Der Heilige Vater) als auch über alle Untertanen generalisiert. Deshalb wird hier nur
ALL gesetzt.(27) [Der Heilige Vater liebt alle
seine Untertanen gleichmäßig]GI ALL[31]
Finden sich zwei Generalisierungen in
der gleichen Passage, die beide mit demselben Tag annotiert werden würden, wird
nicht doppelt annotiert. Im folgenden Beispiel fallen Jeder Heilige Vater und alle seine
Untertanen beide in die Kategorie ALL:
(28) [Jeder Heilige Vater liebt alle
seine Untertanen gleichmäßig]GI ALL (fikt. Bsp.)
Neben den Subtags stellt das Tagset
die Möglichkeit bereit, eine Passage als ambig zu
markieren. Ist in einem Beispiel wie (9) nicht eindeutig zu bestimmen, ob die
Aussage generalisierend oder spezifisch gemeint ist, kann dieses Subtag gesetzt
werden.
[27]Wie eingangs erwähnt, ermöglicht die
Annotationspraxis auf Teilsatzebene die Einbeziehung aller Quantifikationsformen in
natürlicher Sprache und ermöglicht zugleich ein zügiges Annotationsprozedere. Das
dargestellte Vorgehen unterscheidet sich aber auch in wesentlichen Punkten von
bereits bestehenden Annotationspraktiken in der Forschung zu Generizität und
Quantifikation, die in Abschnitt 2.2 erläutert
worden sind. Der wesentlichste Unterschied besteht darin, dass kein linguistisches
Training für die Annotierenden nötig ist, etwa Restriktor, Skopus und Quantor
auseinanderzuhalten. Zur Illustration der verschiedenen Vorgehensweisen sei hier ein
Beispiel aus Goethes Die Wahlverwandtschaften anhand
des Annotationsschemas von Friedrich et al. und unserem Konzept vergleichend
analysiert.[32] Das Schema von Friedrich et al.
(2016) bietet sich für einen Vergleich insbesondere deshalb an, weil ebenfalls
primär intuitiv auf Satzebene annotiert wird und dadurch die verschiedenen Formen
von Generizität erfasst werden, nämlich generische NPn und habituelle
Äußerungen.
(29) [Das Bewusstsein ist keine
hinlängliche Waffe, ja, manchmal eine gefährliche für den, der sie führt]GENERIC SENTENCE.[33]
Der main referent des Satzes, hier die
Subjekt-NP Das
Bewusstsein
, würde als generische
NP identifiziert werden. Das Verb sein hat statischen
lexikalischen Aspekt, entsprechend würde der gesamte Satz als Generic Sentence
klassifiziert werden.[34] Die
Negation verändert hier nicht den situation entity type des Satzes, weil sie sich
nur auf die Subjekt-NP bezieht.[35] Das
Annotationsprozedere ist damit elegant und in diesem Satz niedrigschwellig
anwendbar. Insbesondere in älteren fiktionalen Texten kommt aber die Problematik
hinzu, dass Verben hinsichtlich ihres Aspekts klassifiziert werden müssten, die im
aktuellen Sprachgebrauch nicht mehr vorkommen. Es ist daher mitunter schwierig, den
lexikalischen Aspekt abzuleiten, der einen ausschlaggebenden Hinweis für die
Klassifikation als generisch gibt. Zudem zeigt das Temporaladverb manchmal im zweiten Teilsatz die Habitualität an.
Diese Information geht durch die Art der Annotation verloren. Generalisierungen
kommen in vielfältigen Formen vor, daher ist es eine Priorität für uns, verschiedene
Lesarten durch die Annotation und später durch den Tagger erfassen zu können.
Vergleichend sei nun gezeigt, welche Tags mit unserem Tagset vergeben werden:
(30) [Das Bewusstsein ist keine
hinlängliche Waffe]NEG, [ja, manchmal eine gefährliche für
den, der sie führt]DIV.[36]
Der erste Teilsatz besteht aus einer
definiten generischen NP und einem diese NP charakterisierenden Prädikat. Würde
keine Negation in diesem Teilsatz stehen, qualifizierte sich dieser Teilsatz als
BARE; da aber eine Negation vorliegt und Negation alle anderen Subtags überschreibt,
wird das Subtag NEG vergeben. Der zweite Teilsatz wird mit dem Subtag Divers (DIV)
versehen, weil das Adverb manchmal eine habituelle
Generalisierung über eine vage Anzahl an Situationen ausdrückt.
3.2 Korpus, Workflow und Agreement
[32]Wie in der Einleitung geschildert, soll der Generalisierungstagger in allen Texten von 1600 bis 1950 Generalisierungen automatisch erkennen können. Entsprechend muss das Tagset auf Texten erprobt werden, die diesen Zeitraum und seine verschiedenen stilistischen und sprachlichen Eigenheiten repräsentieren. Das Gesamtkorpus besteht aus ausschließlich originär deutschsprachiger Erzählliteratur, von dem eine Teilmenge an Texten als Annotationskorpus genutzt wird. Jede*r Autor*in im Annotationskorpus ist durch einen Text vertreten. Im Korpus enthalten sind Romane, Novellen, Erzählungen und epische Versdichtungen mit sowohl Ich- (homodiegetischen) als auch Er- (heterodiegetischen) Erzählinstanzen. Die genaue Auswahl kann Tabelle 2 entnommen werden.
[33]Um der Repräsentationsfunktion für das Gesamtkorpus gerecht zu werden, werden die Annotationstexte zunächst nicht komplett annotiert, sondern auf die ersten 200 Sätze beschränkt. Der Nachteil unserer Auswahl ist zunächst, dass ohne den Rückgriff auf eine automatische Erkennung eine Betrachtung generalisierender Passagen werkimmanent erst nach fertiger Entwicklung der Tagger möglich sein wird. Es überwiegen aber die Vorteile – so sind die Annotationen nicht auf eine kleinere Menge von Texten beschränkt, erfassen dadurch mehrere Autor*innen und demzufolge eine größere Breite literarischer Epochen und Genres. Außerdem ist es so möglich, unterschiedliche Entwicklungsstadien der Sprache, von der Frühen Neuzeit an, zu berücksichtigen.
[34]Wir annotieren Generalisierungen mittels kollaborativer Annotation im webbasierten Tool CATMA 6.[37] Das Best-Practice-Modell von Gius / Jacke dient als Orientierung bei der Besprechung und Qualitätsprüfung der erstellten Annotationen.[38] Die bereits annotierten Texte sind unter dem Titel MONACO[39] in einem GitLab-Repository publiziert.
Text | Jahr | Goldstandard | Annotator*in | Gattung | Typ der Erzählinstanz | Kappa (Tokenebene) | Kappa (Teilsatzebene) |
Andreae: Die chymische Hochzeit | 1616 | nein | {’a _112’, ’a_107’} | Roman | homodiegetisch | 0,4883 | 0,5376 |
von Zesen: Adriatische Rosemund | 1645 | nein | {‘a_111’, ‘a_110’} | Roman | heterodiegetisch | 0,6017 | 0,5988 |
Grimmelshausen: Der abenteuerliche Simplicissimus | 1668 | nein | {‘a_111’, ‘a_107’} | Roman | homodiegetisch | 0,4652 | 0,6046 |
Lohenstein: Großmüthiger Feldherr Arminius oder Herrmann | 1689 | nein | {‘a_108‘, ‘a_109‘} | Roman | heterodiegetisch | 0,8062 | 0,7906 |
Schnabel: Die Insel Felsenburg | 1731 | nein | {‘a_111’, ‘a_112’} | Roman | homodiegetisch | 0,2169 | 0,1946 |
Gellert: Das Leben der schwedischen Gräfin von G | 1748 | ja | {‘a_109’, ‘a_108’} | Roman | homodiegetisch | 0,8663 | 0,8724 |
Wieland: Geschichte des Agathon | 1766, 1767 | ja | {‘a_109’, ‘a_112’, ‘a_108’, ‘a_111’, ‘a_110’, ‘a_107’} | Roman | homodiegetisch | 0,7763 | 0,7812 |
LaRoche: Geschichte des Fräuleins von Sternheim | 1771 | ja | {‘a_109’, ‘a_108’} | Roman | homodiegetisch | 0,8435 | 0,8352 |
Novalis: Die Lehrlinge zu Sais | 1802 | ja | {’a_112’, ’a_111’} | Roman | homodiegetisch | 0,4045 | 0,4108 |
Kleist: Michael Kohlhaas | 1808 | nein | {’a_109’, ’a_110’} | Erzählung | heterodiegetisch | 0,6376 | 0,5889 |
Goethe: Die Wahlverwandtschaften | 1809 | ja | {‘a_111’, ‘a_108’} | Roman | heterodiegetisch | 0,579 | 0,5688 |
Goethe: Die Wahlverwandtschaften | 1809 | ja | {‘a_112’, ‘a_107’} | Roman | heterodiegetisch | 0,7396 | 0,7948 |
Hoffmann: Der Sandmann | 1816 | ja | {‘a_112’, ‘a_107’} | Erzählung | homodiegetisch | 0,82 | 0,8316 |
Dahn: Kampf um Rom | 1876 | ja | {’a_112’, ’a_107’} | Roman | heterodiegetisch | 0,4173 | 0,5278 |
May: Winnetou II | 1893 | nein | {’a_107’, ’a r_112’} | Roman | homodiegetisch | 0,4099 | 0,3502 |
Fontane: Der Stechlin | 1895 | ja | {‘a_109’, ‘a_112’} | Roman | heterodiegetisch | 0,9118 | 0,8784 |
Kafka: Der Bau | 1923–1924 | ja | {‘a_111’, ‘a_110’} | Erzählung | homodiegetisch | 0,672 | 0,6816 |
Musil: Der Mann ohne Eigenschaften | 1930 | ja | {‘a_111’, ‘a_108’} | Roman | heterodiegetisch | 0,5029 | 0,4655 |
Makro-Durchschnitt | 0,6214 | 0,6293 |
Tab. 2: Korpus MONACO [Gödeke et al. 2022 nach Barth et al. 2021]
[35]Bisher wurden mit dem Tagset 17 Texte aus dem Annotationskorpus annotiert, die in der Regel jeweils von zwei Annotierenden zu bearbeiten sind. Für jede Annotierendenkombination berechnen wir Fleiss’ Kappa[40] basierend auf übereinstimmenden Tokens bzw. auf übereinstimmenden Teilsätzen. Bei überlappenden Annotationen wird ein Token bzw. ein Teilsatz nur dann als Übereinstimmung gewertet, wenn beide Annotierende die überlappenden Tags gesetzt haben.
[36]Im Mittel über alle Texte wird ein überzeugendes Agreement von 0,62 (Tokenebene) bzw. 0,63 (Teilsatzebene) erreicht. Die deutlichen Schwankungen (z. B. Schnabel Die Insel Felsenburg mit 0,22 bzw. Fontane Der Stechlin mit 0,91, vgl. Tabelle 2) sind präsumtiv neben den individuellen Fähigkeiten der Annotierenden auch auf die unterschiedliche Komplexität der literarischen Texte sowie auf die zugrundeliegende Sprachstufe zurückzuführen.
[37]Bisher wurden für zehn der Texte Goldstandards auf Basis der Erstannotationen erstellt. Hierbei gehen zwei Adjudikator*innen (aus der Gruppe der promovierenden Autor*innen dieses Aufsatzes) erneut die Erstannotationen durch, diskutieren die annotierten Textstellen und erstellen eine Expert*innenannotation, welche dann als Goldstandard genutzt werden kann. Neben der Beseitigung von Unachtsamkeitsfehlern in der Erstannotation hat die Adjudikation auch die Aufgabe, prävalente Lesarten von mehrdeutigen oder vagen Aussagen festzustellen (oder, in Einzelfällen, Aussagen als linguistisch ambig zu markieren, falls keine prävalente Lesart festzustellen ist).
4. Automatische Erkennung
[38]Im folgenden Abschnitt werden die in den regelbasierten Tagger eingebundenen Merkmale erläutert, auf denen später der statistische Tagger trainiert wurde.
4.1 Merkmale
[39]Das wichtigste Merkmal von
Generalisierungen sind Quantoren und quantifizierende Ausdrücke wie jede*r
,
alle
,
immer und dergleichen. Diese bestimmen die Klasse, in
die Teilsätze mit den entsprechenden Quantoren fallen, beispielsweise in die Klasse
ALL:
(31) [Jede Sache will gelernt sein]GI ALL[41](32) [Ebenso pünktlich liefen darauf
auch jedesmal kurze Antwortschreiben ein]GI ALL, die dem
lieben Freund und geschätzten Gelehrten dankten.[42]
Wir organisieren die entsprechenden
Quantoren und quantifizierenden Ausdrücke in einem Wörterbuch mit
Lemma-Subtag-Paaren (z. B. jede : ALL). Entsprechend
können ganze Teilsätze, in denen sie vorkommen, dem entsprechenden Subtag zugeordnet
werden. Eine Ausnahme davon bilden Phrasen, die mit deiktischen Ausdrücken auf
konkrete Objekte, Personen, Zeiten oder Orte referieren, weil in diesen Fällen keine
Generalisierungen vorliegen können. Um quantifizierte Ausdrücke mit einer
deiktischen Referenz ausschließen zu können, wurde eine Liste mit deiktischen
Markern erstellt.
[40]Wie bereits oben erläutert wurde, sind
wir mit dem Problem der koverten Quantifikation konfrontiert, die mit dem Subtag
BARE gekennzeichnet ist. Einerseits bieten sich NPn im Plural für den Ausdruck von
Generalisierungen an:
(33) [Regentropfen vereinigen sich
gern zu Strömen]GI BARE[43]
Andererseits können auch definite NPn
Generalisierungen markieren, sowohl im Plural als auch im Singular:
(34) [Der Räuber kann sehr leicht mein
Opfer werden, und ein süß schmeckendes]GI BARE[44]
Und auch der unbestimmte Artikel mit
Nomen im Singular kann generalisierend verwendet werden.
(35) [Aber ein Narr steckt sie
[tausend Mark] in den Strumpf]GI BARE, sagen die
Wirklichkeitsmenschen, [und ein Tüchtiger schafft etwas mit ihnen]GI BARE;[45]
Insgesamt sind Artikel, sowohl
bestimmte als auch unbestimmte, aber wenig verlässlich. Endgültig kann nur der
Kontext disambiguieren, ob eine definite oder indefinite NP generalisierend oder
spezifisch verwendet wird. Diese Unterscheidung ist in einem regelbasierten System
nicht umsetzbar. Wir haben festgestellt, dass die Suche nach NPn im Plural ohne
Artikel am wenigsten Fehler verursacht.
[41]Verbalphrasen (VPn) können auch
generalisierend sein. In diesem Fall handelt es sich meistens um habituelle
Äußerungen, die durch Adverbien wie täglich
,
oft oder überall
markiert werden. Außerdem gibt es Verben, die eine generalisierende Bedeutung haben.
Das sind zum einen Verben der Existenz, wie existieren und geben:
(36) [Aber es gibt leidenschaftliche
Räuber]GI EXIST[46]
Und zum anderen Verben, die über
Situationen generalisieren, wie pflegen zu:
(37) [Dann pflegen besonders
friedliche Zeiten zu kommen]GI BARE[47]
Eine weitere für Generalisierungen
relevante Kategorie des Verbs ist gnomisches
Präsens, also ein Präsens ohne zeitliche Bedeutung. Unter der
(simplifizierenden) Annahme, dass das Präsens in fiktionalen Texten meistens keine
Handlung ausdrückt, kann der Tagger nach einzelnen Teilsätzen in dieser Zeitform
suchen. Eine konkrete Ausnahme ist die direkte Rede, die zwar oft im Präsens steht,
aber nicht ohne Weiteres als Merkmal für gnomisches Präsens gewertet werden kann.
Ebenso verhält es sich mit dem historischen oder
szenischen Präsens, also einem Präsens, das aus
stilistischen Gründen für vergangene Geschehnisse verwendet wird, und typischerweise
mehrere Teilsätze im Präsens aufeinander folgen lässt:
(38) Von außen ist eigentlich nur ein
großes Loch sichtbar, dieses führt aber in Wirklichkeit nirgends hin, schon nach ein
paar Schritten stößt man auf natürliches festes Gestein.[48]
Darüber hinaus können auch bestimmte
syntaktische Strukturen auf Generalisierungen hindeuten. Komplexe Sätze der Formen
wenn … dann oder wer …
der sind in der Regel generalisierend. Solche Strukturen können einfach in
einem regelbasierten Tagger implementiert werden.
(39) [Wenn es aber Wirklichkeitssinn
gibt, und niemand wird bezweifeln, dass er seine Daseinsberechtigung hat, dann muss
es auch etwas geben, das man Möglichkeitssinn nennen kann]GI
EXIST[49](40) [Wer unter solchen Umständen was
Besseres sagen will, sagt immer was Schlechteres]GI
ALL[50]
Im Folgenden wird beschrieben, wie die
beschriebenen Merkmale in den beiden Taggern eingesetzt werden.
4.2 Modelle und Algorithmen
[42]Für die Implementierung der Textverarbeitungskomponenten wurde die Open-Source-Bibliothek spaCy[51] benutzt. Dem Generalisierungstagger (GenTagger) selbst sind eine Reihe von Komponenten vorgeschaltet, um linguistische Merkmale zu extrahieren (vgl. Abbildung 1). Da sich im Korpus teilweise Texte mit zeitspezifischer Schreibvariation befinden, ist die erste Komponente ein auf dem Deutschen Textarchiv[52] trainierter Normalisierer. Es folgen Lemmatisierer, Wortartentagger, Eigennamenerkenner (NER) und Satzerkenner, welche bereits im vortrainierten spaCy-Modell für das Deutsche enthalten sind. Als Nächstes folgen Dependenzparser, Wortformtagger (morphologische Analyse), Teilsatzerkenner und Verbformtagger (Teilsatzanalyse) aus Dönicke.[53] Als Letztes kommen ein Direkte-Rede-Tagger, der Text zwischen öffnenden und schließenden Anführungszeichen erkennt, sowie ein Koreferenzierer, der erkennt, wenn zwei verschiedene sprachliche Ausdrücke sich auf dieselbe Entität beziehen; bei diesem handelt es sich um eine Reimplementierung des Algorithmus aus Krug et al., der so erweitert wurde, dass nicht nur Figurenentitäten, sondern alle Eigennamen, NPn und Pronomina in die Koreferenzresolution einbezogen werden.[54][55]
4.2.1 Regelbasierter GenTagger
[43]Da zu Beginn der Arbeit weder Trainings- noch Testdaten vorlagen, wurde zunächst ein regelbasierter GenTagger entwickelt. Als Entwicklungsdatensatz dienten hierzu die ersten vier Kapitel aus Goethes Die Wahlverwandtschaften. Der Algorithmus wird in Abbildung 2 skizziert.
[44]Zunächst werden Generalisierungen auf Teilsatzebene gesucht (2–18), indem nach Quantor-Restriktor-Kombinationen gesucht wird. Dabei werden drei mögliche Fälle unterschieden:
[45]Wenn ein overter Quantor im Teilsatz vorkommt, ist der Restriktor die nächste übergeordnete NP oder VP (5–7). Lemma-Subtag-Paare (z. B. immer : ALL) werden dabei in einem manuell erstellten Wörterbuch gespeichert, wie in Abschnitt 4.1 beschrieben wurde.
[46]Wenn eine Form von existieren oder es gibt im Teilsatz vorkommt, kommen als Restriktor alle direkt untergeordneten NPn in Frage. In diesem Fall ist das Subtag EXIST (8–10).
[47]Wenn eine generische NP oder VP im Teilsatz vorkommt, hat diese keinen overten Quantor und das Subtag ist BARE (11–13). Indikatoren für generische NPn und VPn werden durch eine Vielzahl von Regeln beschrieben, die auf die zuvor extrahierten und oben beschriebenen linguistischen Merkmale zurückgreifen.
[48]Für einen gefundenen Restriktor wird dann überprüft, ob er oder eine mit ihm koreferente NP einen deiktischen Ausdruck enthält (14–16). In diesem Fall referiert er mit hoher Wahrscheinlichkeit auf eine spezifische Entität und kommt somit nicht für eine Generalisierung in Frage. Andernfalls wird das entsprechende Subtag für den Teilsatz vorgemerkt. Wurde mindestens ein Subtag für den aktuellen Teilsatz gespeichert, wird eine Passage instanziiert, die aus genau diesem Teilsatz und den zugehörigen Subtags besteht (17–18).
[49]Als Nächstes werden bestimmte Teilsatztypen zu Passagen zusammengeführt. In diesem Schritt werden Relativ- und Konditionalsätze mit ihren übergeordneten Teilsätzen verbunden und ihre Subtags vereinigt. In einem letzten Schritt wird erneut über alle Passagen iteriert (20–24). Kommt ein Negationsmarker vor, werden die Subtags für diese Passage auf NEG reduziert. Kommen mehr als ein Subtag in der Passage vor, wird BARE ggf. entfernt. So wird sichergestellt, dass NEG und BARE nicht in Kombination mit anderen Subtags auftreten.
4.2.2 Statistischer GenTagger
[50]Nach Die Wahlverwandtschaften wurden bisher die ersten 200 Sätze von 9 weiteren Texten mit Goldstandards annotiert, was es ermöglicht, einen statistischen GenTagger zu trainieren und zu testen. Als Testdaten verwenden wir Wielands Geschichte des Agathon,[56] in welchem wir Generalisierungen von allen sechs statt der üblichen zwei Annotierenden annotieren ließen.
[51]Für den statistischen GenTagger lässt sich ein Klassifikationsproblem auf Teilsatzebene definieren. Obwohl sich generalisierende Passagen überlappen können und somit theoretisch mehrere Subtags pro Teilsatz möglich sind, kommt dieser Fall in der Praxis kaum vor, weshalb wir uns auf eine einfache 7-Klassen-Klassifikation (eine Klasse pro Subtag plus eine Klasse für nicht-generalisierende Teilsätze) beschränken. Tabelle 3 zeigt, dass die Verteilung der Klassen zudem extrem unausgeglichen ist. Einige wenige generalisierende Passagen sind linguistisch (d. h. syntaktisch, semantisch, pragmatisch etc.) ambig und können daher nicht eindeutig annotiert werden. Solche Fälle wurden im Goldstandard markiert und sowohl beim Training als auch beim Testen der GenTagger ausgeschlossen.
Texte | Passagen | Teilsätze | |||||||
nicht-GI | BARE | NEG | ALL | DIV | EXIST | MEIST | |||
Trainingsdaten | 8 | 492 | 3316 | 421 | 197 | 175 | 94 | 23 | 5 |
Entwicklungsdaten | 1 | 191 | 1262 | 206 | 81 | 76 | 25 | 5 | 2 |
Testdaten | 1 | 45 | 794 | 37 | 40 | 27 | 15 | 3 | 3 |
Tab. 3: Größe der Trainings-, Entwicklungs- und Testdaten. [Gödeke et al. 2022]
[52]Da der regelbasierte Algorithmus einem Entscheidungsbaum ähnelt, wurde für die automatische Klassifikation ebenfalls ein Entscheidungsbaum[57] verwendet. Um einer Überanpassung an die Trainingsdaten entgegenzuwirken, wurde die maximale Baumtiefe auf 15 und die minimale Anzahl an Daten pro Blattknoten auf 2 gesetzt. Diese Werte haben sich auf den Entwicklungsdaten als gut erwiesen. Im Training wurde außerdem allen Klassen das gleiche Gewicht gegeben.
[53]Wir verwenden die gleichen Basismerkmale wie für den regelbasierten Tagger (vgl. Tabelle 4). Somit besitzt der Entscheidungsbaum die gleichen Grundlagen wie wir um Regeln zu formen. Ähnliche Merkmale wurden bereits von Reiter / Frank für die Erkennung generischer NPn extrahiert.[58] Zuerst werden Merkmale von allen NPn und VPn im Satz extrahiert. Diese werden zusätzlich zu neuen Merkmalen, z. B. ›(Subtag des Quantors : ALL, Numerus des NP-Kopfs : Plural, Artikel in NP? : nein)‹, kombiniert, die aus dem Subtag des Quantors und bis zu zwei weiteren Merkmalen bestehen. Das Maximum von drei Merkmalen hat sich auf den Entwicklungsdaten als optimal erwiesen. Auf Teilsatzebene werden hauptsächlich grammatikalische Eigenschaften wie z. B. Tempus extrahiert, um somit Phänomene wie das gnomische Präsens abzudecken. Da eine Passage aus mehreren Teilsätzen bestehen kann, wir aber nur Teilsätze klassifizieren, werden alle Merkmale nicht nur vom zu klassifizierenden Teilsatz extrahiert, sondern auch von seinen beiden Nachbarteilsätzen. Darüber hinaus werden noch einige Merkmale extrahiert, welche die Verknüpfung der benachbarten Teilsätze zum gefragten Teilsatz kennzeichnen, z. B. ob sie im gleichen Satz stehen. Es wurden außerdem eine Reihe von lexikalischen Merkmalen getestet, z. B. N-Gramme für die Teilsätze oder die Lemmata von Quantor und Restriktor; allerdings führten alle diese Erweiterungen zu einer niedrigeren Performanz auf den Entwicklungsdaten.
Ebene | Merkmale |
NPn im Teilsatz | Tag des Quantors oder BARE, Wortart des Quantors oder BARE, Wortart des NP-Kopfs, Dependenzrelation des NP-Kopfs, Numerus des NP-Kopfs, Artikel in NP?, Zahlwort in NP?, spezifisch? |
VPn im Teilsatz | Tag des Quantors oder BARE, Wortart des Quantors oder BARE, Wortart des VP-Kopfs, Häufigkeitsadverb in VP?, vager Mehrwortausdruck in VP?, spezifisch? |
Teilsatz | Tempus, Aspekt, Modus, Genus verbi, Finitheit, pflegen zu in Teilsatz?, direkte Rede?, Negation in Teilsatz?, Konditionalsatz?, Relativsatz? |
benachbarte Teilsätze | gleicher Satz?, direkt untergeordnet?, direkt übergeordnet? |
Tab. 4: Merkmale für den statistischen GenTagger; Fragezeichen markieren Boole’sche Merkmale. [Gödeke et al. 2022]
[54]Eine Inspektion des automatisch erstellten Entscheidungsbaums (vgl. Abbildung 3[59]) zeigt, dass zunächst Teilsätze mit den Merkmalen für MEIST, EXIST, NEG und ALL abgefragt werden, bevor nach Merkmalen für DIV, BARE und nicht-GI gesucht wird.
[55]Der zweite statistische GenTagger ist ein Zufallswald mit 100 Entscheidungsbäumen.[60] Da die statistischen GenTagger Teilsätze taggen, aber keine Passagen bestimmen, werden im Anschluss direkt aufeinanderfolgende Teilsätze mit dem gleichen Subtag zu Passagen verbunden. Dies dient lediglich der Weiterverarbeitung und hat keinen Einfluss auf die Evaluation, da die GenTagger ebenfalls auf Teilsatzebene evaluiert werden.
5. Evaluation und Diskussion
[56]Als Evaluationsmaße verwenden wir Precision (P), Recall (R) und F-Maß (F), welche für ein einzelnes Subtag y wie folgt definiert sind:
[57]Die Precision gibt also an, wie viele der mit y getaggten Teilsätze auch im Goldstandard mit y annotiert sind. Der Recall wiederum gibt an, wie viele der im Goldstandard mit y annotierten Teilsätze auch mit y getaggt wurden. Das F-Maß ist das harmonische Mittel der beiden.
[58]Aus anwendungstechnischer Sicht besitzt die Precision einen höheren Stellenwert als der Recall: Wenn nicht alle generalisierenden Passagen in einem Text ausgegeben werden (niedriger Recall), gehen lediglich interessante Fälle verloren. Wenn hingegen viele nicht-generalisierende Passagen ausgegeben werden (niedrige Precision), müssen die ausgegebenen Passagen manuell nachgefiltert werden. Ein hoher Recall ist natürlich ebenfalls wünschenswert. Bei der Entwicklung der GenTagger wurden daher hohe Werte für Precision und F-Maß auf den Entwicklungsdaten angestrebt.
[59]Im Falle mehrerer Subtags Y kann der Mikro-Durchschnitt der einzelnen Maße wie folgt gebildet werden:
[60]Die Mikro-Precision gibt also an, wie viele der getaggten Teilsätze korrekt getaggt wurden, während der Mikro-Recall angibt, wie viele der im Goldstandard annotierten Teilsätze korrekt getaggt wurden.
[61]Da die Subtags unterschiedlich häufig vorkommen, berechnen wir außerdem den Makro-Durchschnitt. Im Gegensatz zum Mikro-Durchschnitt, welcher jedem Teilsatz die gleiche Gewichtung gibt, gibt der Makro-Durchschnitt jedem Subtag die gleiche Gewichtung:
Methode | Entwicklungsdaten | Testdaten | ||||
Mikro-P | Mikro-R | Mikro-F | Mikro-P | Mikro-R | Mikro-F | |
Regelbasiert | 0,42 | 0,26 | 0,32 | 0,21 | 0,26 | 0,23 |
Entscheidungsbaum | 0,16 | 0,62 | 0,25 | 0,07 | 0,48 | 0,12 |
Zufallswald | 0,26 | 0,40 | 0,31 | 0,14 | 0,33 | 0,20 |
Tab. 5: Mikro-Durchschnitts-Werte der GenTagger auf Entwicklungs- und Testdaten. [Gödeke et al. 2022]
[62]Um einen ersten vergleichenden Überblick über die drei GenTagger zu bekommen, seien zunächst die Mikro-Durchschnitte in Tabelle 5 betrachtet. Sowohl auf den Entwicklungsdaten als auch auf den Testdaten erzielt der regelbasierte GenTagger höhere Werte für Precision und F-Maß als die statistischen GenTagger. Der Zufallswald-GenTagger zieht zwar fast mit dem regelbasierten GenTagger gleich, was das F-Maß betrifft, kann dies aber auf einen höheren Recall, nicht auf eine höhere Precision zurückführen. Wie zu erwarten, erzielt der Entscheidungsbaum niedrigere Werte für Precision und F-Maß als der Zufallswald, weshalb Ersterer im Folgenden nicht weiter betrachtet wird.
Regelbasiert | Zufallswald | |||||
P | R | F | P | R | F | |
ALL | 0,26 | 0,48 | 0,34 | 0,27 | 0,40 | 0,33 |
MEIST | 0,00 | 0,00 | 0,00 | 0,50 | 0,33 | 0,40 |
EXIST | 0,75 | 1,00 | 0,86 | 1,00 | 1,00 | 1,00 |
DIV | 0,09 | 0,13 | 0,10 | 0,31 | 0,33 | 0,32 |
BARE | 0,18 | 0,32 | 0,23 | 0,08 | 0,46 | 0,14 |
NEG | 0,30 | 0,75 | 0,12 | 0,14 | 0,10 | 0,12 |
Makro- | 0,26 | 0,33 | 0,28 | 0,39 | 0,44 | 0,39 |
Tab. 6: Tag-spezifische Makro-Durchschnittswerte der GenTagger auf den Testdaten. [Gödeke et al. 2022]
[63]Tabelle 6 schlüsselt die Evaluation nach den einzelnen Subtags auf,
wodurch individuelle Stärken und Schwächen der beiden GenTagger sichtbar werden. Im
Makro-Durchschnitt erzielt der Zufallswald um ca. 10% höhere Werte für Precision,
Recall und F-Maß als der regelbasierte GenTagger. Für ALL erzielen beide GenTagger
eine Precision von ca. 27% und ein F-Maß von ca. 33%. Für MEIST und EXIST gibt es
in
den Testdaten nur jeweils zwei Passagen:
(41) Und da es mehr als zu gewiß ist,
[daß der größeste Teil derjenigen, welche die große Welt ausmachen, wie Hippias
denkt, oder doch nach seinen Grundsätzen handelt]GI
MEIST.[61](42) Niemals hatte ihn ein weibliches
Aug erblickt, ohne die Schuld ihres Geschlechts zu bezahlen, [welches die Natur für
die Schönheit so empfindlich gemacht zu haben scheint, daß diese einzige Eigenschaft
den meisten unter ihnen die Abwesenheit aller übrigen verbirgt]GI MEIST.[62](43) [Ohne Zweifel gibt es wichtigere
als derjenige, auf den seine Wahl gefallen ist]GI
EXIST.[63](44) Aus diesem Grunde kann er ganz
zuverlässig versichern, [daß Agathon und die meisten übrigen Personen, [welche in
seine Geschichte eingeflochten sind]GI EXIST]GI MEIST, wirkliche Personen sind, [dergleichen es von je
her viele gegeben hat, und in dieser Stunde noch gibt]GI
EXIST.[64]
Der regelbasierte GenTagger vergibt
das Subtag MEIST nur zweimal, und zwar fälschlicherweise für die beiden Teilsätze
ab
daß in (44): Bei den meisten übrigen Personen handelt es sich um eine spezifische Gruppe. Somit
sind Precision und F-Maß 0. Der statistische GenTagger vergibt MEIST ebenfalls
zweimal, einmal korrekterweise in (42) und einmal fälschlicherweise für einen
Teilsatz, in dem am meisten adverbiell, nicht
quantifizierend gebraucht wird. Somit ist die Precision 50%. Keiner der beiden
GenTagger erkennt (41) als MEIST, da die Formulierung der
größeste Teil für eine Mehrheitsquantifikation nicht im Quantorenwörterbuch
enthalten ist, auf welche beide GenTagger zugreifen. (Diese Liste wird zwar nach wie
vor im Zuge der Annotation erweitert, aber natürlich wurden die Testdaten nicht
dafür herangezogen.) Die EXIST-Fälle erkennt der statistische GenTagger korrekt,
während der regelbasierte GenTagger einen zusätzlichen Teilsatz mit EXIST versieht,
ebenfalls in (44). Dabei handelt es sich um einen Folgefehler beim Verbinden von
Teilsätzen zu Passagen, der wiederum durch einen Fehler beim Parsen des Satzes
verursacht wird. Diese Art von Fehler kommt zwar auch bei den anderen Subtags vor,
sorgt bei nur vier getaggten Teilsätzen aber gleich für einen Precision-Verlust von
25%.
[64]Für DIV erzielt der Zufallswald ca. 20% höhere Werte für Precision und F-Maß als der regelbasierte GenTagger. Wir vermuten die Ursache dafür darin, dass vage Quantifikation in einer deutlich größeren Formvielfalt auftritt als All-, Mehrheits- und Existenzquantifikation. Der regelbasierte GenTagger verwendet dennoch nur eine Liste vager Quantoren und den Spezifitätstest, wohingegen der Zufallswald-GenTagger viel genauere Regeln erlernen kann. Für BARE verhält es sich umgekehrt – hier erzielt der Zufallswald ca. 10% schlechtere Werte für Precison und F-Maß. Da wir uns bei BARE nicht auf overte Quantoren verlassen konnten, wurde sehr viel Aufwand in die manuellen Regeln investiert, mit denen die automatisch erlernten Regeln des Zufallswaldes (noch) nicht mithalten können.[65]
[65]Obwohl NEG häufig in den Trainingsdaten vorkommt, erzielen beide GenTagger für dieses Subtag den niedrigsten Recall (abgesehen von MEIST für den regelbasierten Tagger), d. h. es werden kaum Teilsätze ausgegeben, die im Goldstandard mit NEG annotiert wurden. Zum Teil kann man dies darauf zurückführen, dass im Testtext einige ungewöhnlich lange NEG-Passagen vorkommen (die längste besteht aus 18 Teilsätzen), die GenTagger aber nur Merkmale von direkt benachbarten Teilsätzen mit einbeziehen. Befindet sich der Negationsmarker weiter vom aktuellen Teilsatz entfernt, wird dieser auch nicht mehr für die Klassifikation herangezogen, und es ist unwahrscheinlich, dass das Subtag NEG vergeben wird. Da BARE und NEG die häufigsten Subtags sind, haben diese Klassen auch den größten Einfluss auf die Mikro-Durchschnitts-Werte.
[66]Abschließend zeigt Abbildung 7 den Lerngraphen des Zufallswald-GenTaggers auf den Testdaten für eine wachsende Menge an Trainingstexten. Eine mögliche Interpretation des Graphen ist, dass das volle Potenzial des statistischen GenTagger noch nicht erreicht ist und die Performanz allein durch die Zugabe weiterer Trainingstexte gesteigert werden kann.
6. Fazit und Ausblick
[67]Das zentrale Ziel dieses Beitrags war es, einen Tagger für die automatische Erkennung von Generalisierungen in fiktionalen Erzähltexten vorzustellen. Für die Taggerimplementierung haben wir ein eigenes Tagset entwickelt, das alle Formen natürlichsprachlicher Quantifikation (allquantifiziert, vage, existenziell) auf Teilsatzebene annotierbar macht. Auf der Basis manuell erstellter Goldstandards wurden ein regelbasierter und ein statistischer Tagger entwickelt, die als zusätzliche Komponenten in die Textverarbeitungspipeline von spaCy eingebunden werden können.[66] Der statistische Zufallswald-Tagger erzielt in fast allen Kategorien die besseren Ergebnisse. Eine Ausnahme bilden Generalisierungen ohne overte Quantifikation, die der regelbasierte Tagger mit einer höheren Performanz klassifiziert. Da Generalisierungen ohne overte Quantifikation zahlenmäßig am häufigsten vorkommen, erreicht der regelbasierte Tagger ein höheres Mikro-F-Maß (24% vs. 20%), wohingegen der statistische Tagger ein höheres Makro-F-Maß erreicht (39% vs. 28%). Allerdings ist beim statistischen Tagger eine kontinuierlich steigende Lernkurve zu erkennen, was nahelegt, dass seine Performanz mit der verarbeiteten Textmenge steigt.
[68]Der Tagger trägt dazu bei, Generalisierungen in fiktionalen Erzähltexten als komplexes literarisches Phänomen erkennbar werden zu lassen. Davon profitiert insbesondere die Narratologie, insofern Generalisierungen Indikatoren für Phänomene wie Metanarration, einen overt narrator, nicht-fiktionale Rede und explicit truths sein können. Es werden diachrone Analysen ermöglicht, indem autor*innen-, strömungs- oder gattungsübergreifend Generalisierungen in Texten bezüglich ihrer Funktion empirisch untersucht werden können. Zudem wird eine Analyse von Generalisierungen auf verschiedenen Textebenen möglich, da sie sowohl im Erzähler- als auch im Figurentext auftreten können (vgl. (16), Abschnitt 2.3). Der Tagger bereichert jedoch nicht nur die Literaturwissenschaft, sondern auch die theoretische Linguistik, deren Modelle und Theorien zur Generizität und Quantifikation durch die Sprachdaten aus literarischen Erzähltexten vor neue Herausforderungen gestellt werden. Aber auch auf der Textebene kann die Linguistik Erkenntnisse gewinnen, da generische Aussagen typischerweise mit dem statischen Aspekt assoziiert werden.[67] Inwiefern Erzählpausen im narrativen Text mit statischem lexikalischem Aspekt einhergehen, ist eine spannende offene Forschungsfrage. Die zentrale kommende Aufgabe wird es sein, mehr Daten für den statistischen Tagger zu generieren, um die Performanz des Taggers zu verbessern. Auch soll überprüft werden, inwiefern neuronale Methoden eine noch höhere Trefferquote erzielen können.
Danksagungen
[69]Die VolkswagenStiftung und die Deutsche Forschungsgemeinschaft (424264086) haben die Arbeit an diesem Aufsatz ermöglicht, dafür bedanken wir uns herzlich. Wir danken zudem unseren studentischen Hilfskräften für ihre Annotationsarbeit: Friederike Altmann, Jan P. Lau, Jonas Lipski, Evelyn Ovsjannikov, Noreen Scheffel, Ruben M. Van Wijk und Marina L. Wurzbacher. Ebenfalls danken wir zwei anonymen Gutachter*innen für ihre Kommentare und Hinweise, von denen der vorliegende Aufsatz profitiert hat.
Fußnoten
-
[1]Vgl. Tolstoj 2012, S. 7.
-
[2]Scheffel / Martínez 2016, S. 104f.
-
[3]Nünning 1989, S. 50f.
-
[4]Vgl. die Diskussion in Gittel 2015, S. 148–168.
-
[5]
-
[6]Chatman 1978, S. 243.
-
[7]Vgl. Lamarque / Olsen 1994, S. 328–331; Lahn / Meister 2013, S. 176f.
-
[8]
-
[9]Krifka et al. 1995, S. 2.
-
[10]Ein wichtiger Unterschied zwischen Ein Löwe hat eine Mähne und Jeder Löwe hat eine Mähne besteht darin, dass generische Aussagen immer Ausnahmen erlauben, allquantifizierte Aussagen hingegen nicht. Aus linguistischer Perspektive ist es daher nicht angemessen, beiden Formen dieselben Wahrheitswerte zuzuordnen. Ergebnisse aus der Psycholinguistik stellen diese Annahme allerdings infrage, vgl. Leslie et al. 2011.
-
[11]Vgl. Lewis 1975; Barwise / Cooper 1981; Heim 1982; Benthem 1983; Krifka et al. 1995, S. 25; Kamp 2002.
-
[12]
-
[13]Vgl. Friedrich / Pinkal 2015.
-
[14]Vgl. Carlson 2006.
-
[15]Vgl. Friedrich et al. 2016.
-
[16]Vgl. Friedrich et al. 2015, S. 41.
-
[17]Vgl. Goethe 2012, S. 250.
-
[18]Vgl. Goethe 2012, S. 255.
-
[19]Vgl. Goethe 2012, S. 244.
-
[20]Siehe Dönicke et al. 2021 für eine ausführlichere formal-semantische Betrachtung des Tagsets.
-
[21]Vgl. Goethe 2012, S. 272.
-
[22]Vgl. Goethe 2012, S. 247.
-
[23]Das Subtag EXIST ist ausschließlich explizit existenziellen Aussagen vorbehalten. Wir gehen also etwa davon aus, dass eine indefinite Nominalphrase wie Ein Löwe keine existenzielle Quantifikation auslöst, sondern eine generische NP ist – insofern eine generalisierende Lesart vorliegt. Entsprechend würde Ein Einhorn existiert mit dem Tag EXIST annotiert werden.
-
[24]Vgl. Fontane 2012, S. 166.
-
[25]Vgl. Goethe 2012, S. 263.
-
[26]Vgl. Goethe 2012, S. 242.
-
[27]Vgl. Goethe 2012, S. 244.
-
[28]Vgl. Goethe 2012, S. 244.
-
[29]Vgl. Fontane 2012, S. 9.
-
[30]Vgl. Fontane 2012, S. 125.
-
[31]Vgl. Ernst 2012, S. 240.
-
[32]Vgl. Friedrich et al. 2016.
-
[33]Vgl. Goethe 2012, S. 247.
-
[34]Vgl. Friedrich et al. 2016, S. 41.
-
[35]Vgl. Friedrich et al. 2016, S. 36.
-
[36]Vgl. Goethe 2012, S. 247.
-
[37]Vgl. Gius et al. 2022.
-
[38]Vgl. Gius / Jacke 2016.
-
[39]Vgl. Barth et al. 2021.
-
[40]Vgl. Fleiss 1971.
-
[41]Vgl. Fontane 2012, S. 119.
-
[42]Vgl. Musil 1970, Kapitel 3.
-
[43]Vgl. Goethe 2012, S. 270.
-
[44]Vgl. Kafka 1990.
-
[45]Vgl. Musil 1970, Kapitel 4.
-
[46]Vgl. Kafka 1990.
-
[47]Vgl. Kafka 1990.
-
[48]Vgl. Kafka 1990.
-
[49]Vgl. Musil 1970, Kapitel 4.
-
[50]Vgl. Fontane 2012, S. 17.
-
[51]Vgl. Honnibal / Johnson 2015.
-
[52]
-
[53]Vgl. Dönicke 2020.
-
[54]Vgl. Krug et al. 2015.
-
[55]Wir wurden im Review darauf hingewiesen, dass Fehler bei der automatischen Erkennung von Generalisierung auch auf Fehler in Vorverarbeitungsschritten zurückzuführen sein können. In welchem Ausmaß Fehler aus den einzelnen Pipeline-Komponenten propagiert werden, kann an dieser Stelle nicht quantitativ eingeschätzt werden; jedoch wurden der Teilsatzerkenner und der Verbformtagger – zwei Komponenten, die relativ am Ende in der Pipeline eingebunden sind –, bereits in Dönicke 2020 in der Literaturdomäne getestet. Dort erreichten sie Performanzen (F-Maß) von 81% für die Erkennung von Teilsätzen sowie 93% für Tempus, 79% für Modus, 94% für Genus Verbi und 80% für Modalität.
-
[56]
-
[57]Vgl. Breiman et al. 1984.
-
[58]Vgl. Reiter / Frank 2010.
-
[59]Die Knoten lesen sich wie folgt: In der ersten Zeile stehen Anzahl und häufigste Klasse der Trainingsdaten (d. h. Teilsätze), die den Knoten erreichen (da wir jeder Klasse die gleiche Gewichtung geben, wird die Häufigkeit relativ zur Klassengröße berechnet); darunter steht die abgefragte Merkmalskombination, wobei der Index angibt, ob sie sich auf den zu klassifizierenden Teilsatz (i), seinen Vorgänger (i-1) oder seinen Nachfolger (i+1) bezieht. Auslassungspunkte markieren gestutzte Stellen im Baum.
-
[60]Vgl. Breiman 2001.
-
[61]Vgl. Wieland 2012, S. 377.
-
[62]Vgl. Wieland 2012, S. 385.
-
[63]Vgl. Wieland 2012, S. 375.
-
[64]Vgl. Wieland 2012, S. 375.
-
[65]Es sei an dieser Stelle angemerkt, dass der statistische GenTagger durchaus hätte dieselben Regeln erlernen können, da ihm alle dafür notwendigen Merkmale zur Verfügung standen.
-
[66]Die Tagger sind verfügbar in MONAPipe (Release v2.0); vgl. Barth et al. 2022.
-
[67]Vgl. Carlson 2006.
Bibliographische Angaben
- Florian Barth / Tillmann Dönicke / Benjamin Gittel / Luisa Gödeke / Anna Mareike Weimer / Anke Holler / Caroline Sporleder / Hanna Varachkina: MONACO: Modes of Narration and Attribution Corpus. 2021. [online]
- Florian Barth / Tillmann Dönicke / Hanna Varachkina / Caroline Sporleder: MONAPipe: Modes of Narration and Attribution Pipeline for German Computational Literary Studies and Language Analysis in spaCy. In: Proceedings of the 18th Conference on Natural Language Processing (KONVENS: Konferenz zur Verarbeitung natürlicher Sprache/Conference on Natural Language Processing, Potsdam, 12.–15.09.2022). [online]
- Jon Barwise / Robin Cooper: Generalized Quantifiers and Natural Language. In: Linguistics and Philosophy 4 (1981), H. 2, S. 159–219. [Nachweis im GVK]
- Johan van Benthem: The Logic of Natural Language. In: Philosophical Books 24 (1983), H. 2, S. 99–102. [Nachweis im GVK]
- Leo Breiman / Jerome H. Friedman / Richard A. Olshen / Charles J. Stone: Classification and Regression Trees. New York u. a. 1984. [Nachweis im GVK]
- Leo Breiman: Random Forests. In: Machine Learning 45 (2001). DOI: 10.1023/A:1010933404324 [Nachweis im GVK]
- Greg N. Carlson: Generics, Habituals, Iteratives. In: Encyclopedia of Language & Linguistics. Hg. von Keith Brown. 2. Auflage. Amsterdam u. a. 2006. [Nachweis im GVK]
- Seymour Chatman: Story and Discourse. Narrative Structure in Fiction and Film. New York, NY 1978. [Nachweis im GVK]
- Deutsches Textarchiv. Grundlage für ein Referenzkorpus der neuhochdeutschen Sprache. Hg. von Berlin-Brandenburgische Akademie der Wissenschaften. Berlin 2022. [online]
- Tillmann Dönicke: Clause-Level Tense, Mood, Voice and Modality Tagging for German. Düsseldorf 2020. DOI: 10.18653/v1/2020.tlt-1.1
- Tillmann Dönicke / Luisa Gödeke / Hanna Varachkina: Annotating Quantified Phenomena in Complex Sentence Structures Using the Example of Generalising Statements in Literary Texts. In: Proceedings of the 17th Joint ACL - ISO Workshop on Interoperable Semantic Annotation. Hg. von Harry Bunt. (ISA 17, Groningen, 16.–17.06.2021) Stroudsburg 2021, S. 20–32. [online]
- Paul Ernst: Die Uhr. In: TextGrid Repository. Digitale Bibliothek. Göttingen 2012. Handle: 11858/00-1734-0000-0002-A2A0-8
- Joseph L. Fleiss: Measuring nominal scale agreement among many raters. In: Psychological Bulletin 76 (1971), H. 5, S. 378–382. [Nachweis im GVK]
- Theodor Fontane: Der Stechlin. In: TextGrid Repository. Digitale Bibliothek. Göttingen 2012. Handle: 11858/00-1734-0000-0002-AECF-D
- Annemarie Friedrich / Manfred Pinkal: Automatic recognition of habituals: a three-way classification of clausal aspect. In: Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. Hg. von Lluís Màrquez / Chris Callison-Burch / Jian Su (EMNLP, Lisbon, 17.–21.09.2015). Red Hook, NY 2015. DOI: 10.18653/v1/D15-1294 [Nachweis im GVK]
- Annemarie Friedrich / Alexis Palmer / Melissa Peate Sørensen / Manfred Pinkal: Annotating genericity: a survey, a scheme, and a corpus. In: Proceedings of the 9th Linguistic Annotation Workshop. Hg. von Adam Meyers / Ines Rehbein / Heike Zinsmeister (LAW 9, Denver, CO, 31.05.–05.06.2015). Red Hook, NY 2015, S. 21–30. DOI: 10.3115/v1/W15-1603 [Nachweis im GVK]
- Annemarie Friedrich / Alexis Palmer / Manfred Pinkal: Situation entity types: automatic classification of clause-level aspect. In: Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Hg. von Katrin Erk / Noah A. Smith (ACL 54, Berlin, 07.–12.08.2016). Stroudsburg, PA 2016, S. 1757–1768. DOI: 10.18653/v1/P16-1166
- Benjamin Gittel: Essayismus als Fiktionalisierung von unsicheres Wissen prozessierender Reflexion. In: Scientia Poetica 19 (2015), H. 1, S. 136–171. [Nachweis im GVK]
- Evelyn Gius / Janina Jacke: Zur Annotation narratologischer Kategorien der Zeit. Guidelines zur Nutzung des CATMA-Tagsets. Version 2.0. Hamburg 2016. PDF. [online]
- Evelyn Gius / Jan Christoph Meister / Malte Meister / Marco Petris / Christian Bruck / Janina Jacke / Mareike Schumacher / Dominik Gerstorfer / Marie Flüh / Jan Horstmann: CATMA 6. Version 6.5. 2022. In: Zenodo. DOI: 10.5281/zenodo.1470118
- Johann Wolfgang von Goethe: Die Wahlverwandtschaften. In: TextGrid Repository. Digitale Bibliothek. Göttingen 2012. Handle: 11858/ 00-1734-0000-0006-6A93-D
- Irene Roswitha Heim: The Semantics of Definite and Indefinite Noun Phrases. Ann Arbor, Dissertation, University of MAassachusetts 1982. [Nachweis im GVK]
- Matthew Honnibal / Mark Johnson: An Improved Non-monotonic Transition System for Dependency Parsing. In: Conference on Empirical Methods in Natural Language Processing. Hg. von Association for Computational Linguistics. (EMNLP, Lissabon, 17.–21.09.2015). Red Hook, NY 2015, S. 1373–1378. DOI: 10.18653/v1/D15-1162 [Nachweis im GVK]
- Franz Kafka: Der Bau. In: Projekt Gutenberg. Hamburg. Basierend auf der Druckausgabe Frankfurt / Main 1990. [online]
- Hans Kamp: A Theory of Truth and Semantic Representation. In: Formal Semantics. The Essential Readings. Hg. von Paul Portner / Barbara H. Partee. Oxford 2002, S. 189–222. [Nachweis im GVK]
- Eva-Maria Konrad: Signposts of Factuality: On Genuine Assertions in Fictional Literature. In: Art and Belief. Hg. von Ema Sullivan-Bissett / Helen Bradley / Paul Noordhof. Oxford 2017, S. 42–62. (= Mind Association Occasional Series) [Nachweis im GVK]
- Eva-Maria Konrad: Dimensionen der Fiktionalität. Analyse eines Grundbegriffs der Literaturwissenschaft. Münster 2014. [Nachweis im GVK]
- Manfred Krifka / Francis Jeffry Pelletier / Gregory N. Carlson / Alice ter Meulen / Godehard Link / Gennaro Chierchia: Genericity: An Introduction. In: The generic book. Hg. von Greg N. Carlson / Francis Jeffry Pelletier. Chicago u. a. 1995, S. 1–124. [Nachweis im GVK]
- Markus Krug / Frank Puppe / Fotis Jannidis / Luisa Macharowsky / Isabella Reger / Lukas Weimer: Rule-based Coreference Resolution in German Historic Novels. In: Proceedings of the Fourth Workshop on Computational Linguistics for Literature. Hg. von Anna Feldman / Anna Kazantseva / Stan Szpakowicz / Corina Koolen (NAACL-HLT 4, Denver, 04.06.2015). Red Hook, NY 2015, S. 98–104. DOI: 10.3115/v1/W15-0711 [Nachweis im GVK]
- Silke Lahn / Jan Christoph Meister: Einführung in die Erzähltextanalyse. 2., aktualisierte Auflage. Stuttgart u. a. 2013. [Nachweis im GVK]
- Peter Lamarque / Stein H. Olsen: Truth, Fiction, and Literature. A Philosophical Perspective. Oxford 1994. [Nachweis im GVK]
- Sarah-Jane Leslie / Sangeet Khemlani / Sam Glucksberg: All Ducks Lay Eggs: The Generic Overgeneralization Effect. In: Journal of Memory and Language 65 (2011), H. 1, S. 15–31. [Nachweis im GVK]
- David K. Lewis: Adverbs of Quantification. In: Formal Semantics of Natural Language. Hg. von Edward L. Keenan. Cambridge, UK 1975, S. 178–188. [Nachweis im GVK]
- Jukka Mikkonen: Assertions in Literary Fiction. In: Minerva 13 (2009), S. 144–180. [online]
- Alexis Mitchell / Stephanie Strassel / Mark Przybocki / JK Davis / George R. Doddington / Ralph Grishman / Adam Meyers / Ada Brunstein / Lisa Ferro / Beth Sundheim: ACE-2 Version 1.0. LDC2003T11, Philadelphia 2003. DOI: 10.35111/kcqk-v224
- Robert Musil: Der Mann ohne Eigenschaften. Erstes Buch. Hg. von Adolf Frisé. In: Projekt Gutenberg. Hamburg. Basierend auf der Druckausgabe 1970. [online]
- Ansgar Nünning: Grundzüge eines kommunikationstheoretischen Modells der erzählerischen Vermittlung. Trier 1989. [Nachweis im GVK]
- Thomas Petraschka: Interpretation und Rationalität. Billigkeitsprinzipien in der philologischen Hermeneutik. Berlin 2014 (= Historia Hermeneutica / Series Studia, 11) [Nachweis im GVK]
- Nils Reiter / Anette Frank: Identifying Generic Noun Phrases. In: Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. Hg. von Jan Hajič / Sandra Carberry / Stephan Clark / Joakim Nivre (ACL 48, Uppsala, 11.–16.07.2010). Red Hook, NY 2010, S. 40–49. [online] [Nachweis im GVK]
- Michael Scheffel / Matías Martínez: Einführung in die Erzähltheorie. 10., überarbeitete Auflage. München 2016. [Nachweis im GVK]
- John R. Searle: The Logical Status of Fictional Discourse. In: New Literary History 6 (1975), H. 2, S. 319–332. [Nachweis im GVK]
- Lev Nikolaevič Tolstoj: Anna Karenina. In: TextGrid Repository. Digitale Bibliothek. Göttingen 2012. Handle: 11858/00-1734-0000-0005-57A8-B
- Achim Vesper: Literatur und Aussagen über Allgemeines. In: Wahrheit, Wissen und Erkenntnis in der Literatur. Philosophische Beiträge. Hg. von Christoph Demmerling / Íngrid Vendrell Ferran. Berlin 2014, S. 181–196. [Nachweis im GVK]
- Christopher Walker / Stephanie Strassel / Julie Medero / Kazuaki Maeda: ACE 2005 Multilingual Training Corpus LDC2006T06. Philadelphia 2006. DOI: 10.35111/mwxc-vh88
- Christoph Martin Wieland: Geschichte des Agathon. In: TextGrid Repository. Digitale Bibliothek. 2012. Handle: 11858/00-1734-0000-0005-A68F-A
Abbildungs- und Tabellenverzeichnis
- Tab. 1: Tagset MONACO. [Gödeke et al. 2022 nach Barth et al. 2021]
- Tab. 2: Korpus MONACO. [Gödeke et al. 2022 nach Barth et al. 2021]
- Abb. 1: Textverarbeitungskomponenten für verschiedene sprachliche Ebenen: Ein Text durchläuft die einzelnen Komponenten von links nach rechts und von oben nach unten. [Gödeke et al. 2022]
- Abb. 2: Regelbasierter GenTagger. [Gödeke et al. 2022]
- Tab. 3: Größe der Trainings-, Entwicklungs- und Testdaten. [Gödeke et al. 2022]
- Tab. 4: Merkmale für den statistischen GenTagger; Fragezeichen markieren Boole’sche Merkmale. [Gödeke et al. 2022]
- Abb. 3: Die wichtigsten Merkmale des Entscheidungsbaum-GenTaggers. [Gödeke et al. 2022]
- Abb. 4: Berechnung von Precision (P), Recall (R) und F-Maß (F) für ein einzelnes Subtag y. [Gödeke et al. 2022]
- Abb. 5: Berechnung des Mikro-Durchschnitts von Precision (P), Recall (R) und F-Maß (F). [Gödeke et al. 2022]
- Abb. 6: Berechnung des Makro-Durchschnitts von Precision (P), Recall (R) und F-Maß (F). [Gödeke et al. 2022]
- Tab. 5: Mikro-Durchschnitts-Werte der GenTagger auf Entwicklungs- und Testdaten. [Gödeke et al. 2022]
- Tab. 6: Tag-spezifische Makro-Durchschnittswerte der GenTagger auf den Testdaten. [Gödeke et al. 2022]
- Abb. 7: Performanz des Zufallswald-GenTaggers auf den Testdaten bei schrittweiser Hinzunahme von Trainingstexten. Autorennamen stehen als Kürzel für die einzelnen Werke. [Gödeke et al. 2022]