Versionen vergleichen von : Gute Wörter, schwaches Gattungssignal. Differenzen zwischen Roman-Subgenres und Dramen mit Delta und signifikantem Wortschatz aufspüren

AltNeu
7 7
8 DOI: 10.17175/2022_009 8 DOI: 10.17175/2022_009_v2
9 Nachweis im OPAC der Herzog August Bibliothek: 1819369722 9 Nachweis im OPAC der Herzog August Bibliothek: 1866422553
10 Erstveröffentlichung: 17.11.2022 10 Erstveröffentlichung: 17.11.2022
11 Version 2.0: 14.11.2023
11 Lizenz: Sofern nicht anders angegeben 12 Lizenz: Sofern nicht anders angegeben
14 Medienlizenzen: Medienrechte liegen bei den Autor*innen 15 Medienlizenzen: Medienrechte liegen bei den Autor*innen
15 Letzte Überprüfung aller Verweise: 25.10.2022 16 Letzte Überprüfung aller Verweise: 30.10.2023
16 GND-Verschlagwortung: Gattungstheorie | Literaturgattung | Literaturwissenschaft | Statistische Stilistik | 17 GND-Verschlagwortung: Gattungstheorie | Literaturgattung | Literaturwissenschaft | Statistische Stilistik | 
17 Empfohlene Zitierweise: Friedrich Michael Dimpel: Gute Wörter, schwaches Gattungssignal. Differenzen zwischen 18 Empfohlene Zitierweise: Friedrich Michael Dimpel: Gute Wörter, schwaches Gattungssignal. Differenzen zwischen
18 Roman-Subgenres und Dramen mit Delta und signifikantem Wortschatz 19 Roman-Subgenres und Dramen mit Delta und signifikantem Wortschatz
19 aufspüren. In: Zeitschrift für digitale Geisteswissenschaften. Wolfenbüttel 2022. text/html Format. DOI: 10.17175/2022_009 20 aufspüren. In: Zeitschrift für digitale Geisteswissenschaften 7 (2022). 17.11.2022. Version 2.0 vom 14.11.2023. HTML / XML / PDF. DOI: 10.17175/2022_009_v2
20
21 21
25 Abstract 25 Abstract
26
26 Untersucht wird, inwieweit sich die automatische Erkennung von Genres bzw. 27 Untersucht wird, inwieweit sich die automatische Erkennung von Genres bzw.
53 54
55
56 Version 2.0 (14.11.2023)
57 Korrekturen entlang der Monita in den Gutachten: Sprachliche Verbesserungen; Ergänzungen
58 in Kapitel 1 und 2 sowie in der Bibliografie; Ergänzung der Tabellenbeschriftungen,
59 Aufschlüsselung von Abkürzungen
60
61
54 1. Gattung und Stilometrie 62 1. Gattung und Stilometrie
55 2. Korpusgestaltung und Präprocessing 63 2. Korpusgestaltung und Präprocessing
56 3. Gute Wörter berechnen – Ermittlungsgruppe 64 3. Gute Wörter berechnen – Ermittlungsgruppe
57 4. Evaluierung – Kontrollgruppe 65 4. Evaluierung – Kontrollgruppe
58 4.1 Setting: Erkennungsquotentest mit fünf Vergleichstexten der 66 4.1 Setting: Erkennungsquotentest mit fünf Vergleichstexten der Zielklasse
59 Zielklasse
60 4.2 Setting: Tests mit F1-Wert und ARI 67 4.2 Setting: Tests mit F1-Wert und ARI
61 5. Ergebnisse 68 5. Ergebnisse
69 Testreihe A: ABE, BIL, GES, KOM, TRA
70 A1: Erkennungsquotentest mit fünf Vergleichstexten der Zielklasse
71 A2: ARI-Test mit 4 × 10 Distraktortexten
72 A3: ARI-Test mit 4 × 5 Distraktortexten
73 Test B: ABE, BIL, KOM
74 Test C: ABE, KOM, TRA
75 Test D: ABE, BIL, GES
76 D1: Erkennungsquotentest mit fünf Vergleichstexten der Zielklasse
77 D2: ARI-Test mit 2 × 10 Distraktortexten
78 D3: ARI-Test mit 2 × 5 Distraktortexten
79 D4: ARI-Test mit 2 × 10 Distraktortexten und größerem MFW-Bereich
62 6. Fazit 80 6. Fazit
71 Erkennungsquoten vorweisen kann,[1] ist die digitale Erkennung von literarischen Gattungen deutlich 89 Erkennungsquoten vorweisen kann,[1] ist die digitale Erkennung von literarischen Gattungen deutlich
72 anspruchsvoller.[2] Während bei Texten des*der gleichen Autors*in trotz aller 90 anspruchsvoller.[2] Während bei Texten der gleichen Autorin / des gleichen Autors trotz aller
73 Veränderungen im Laufe der Schaffensperiode des*der gleichen Autors*in und trotz 91 Veränderungen im Laufe der Schaffensperiode und trotz
74 einer möglichen Intention auf wechselnde Stilformen doch von einem mit sich selbst 92 einer möglichen Intention auf wechselnde Stilformen doch von einem mit sich selbst
77 sich bei der Zugehörigkeit eines Textes zu einer Gattung nicht um ein objektives 95 sich bei der Zugehörigkeit eines Textes zu einer Gattung nicht um ein objektives
78 Faktum, sondern um ein Attributionsphänomen – Literaturwissenschaftler*innen 96 Faktum, sondern um ein Attributionsphänomen – Literaturwissenschaftler*innen
79 schreiben Texten die Eigenschaft zu, einer Gattung anzugehören. Solche Zuweisungen 97 schreiben Texten die Eigenschaft zu, einer Gattung anzugehören. Solche Zuweisungen
87 ›Heldenepik‹ erhält. Dazu kommt, dass Gattungen nicht historisch konstant und 105 ›Heldenepik‹ erhält. Dazu kommt, dass Gattungen nicht historisch konstant und
88 gleichförmig bleiben – Gabriel Viehhauser zeigt in seiner Studie zum 106 gleichförmig bleiben – Gabriel Viehhauser zeigt in seiner Studie zum
89 mittelalterlichen Minnesang, wie sich Gattungswandel auch digital abbilden 107 mittelalterlichen Minnesang, wie sich Gattungswandel auch digital abbilden
92 Autorschaft (etwa bei sehr kurzen und nicht-normalisierten mittelhochdeutschen 110 Autorschaft (etwa bei sehr kurzen und nicht-normalisierten mittelhochdeutschen
93 Texten) Optimierungsverfahren entwickelt – etwa das Gute-Wörter-Verfahren, bei dem nicht alle Most-Frequent-Words (MFW), sondern signifikante Wortformen verwendet 111 Texten) Optimierungsverfahren entwickelt – etwa das Gute-Wörter-Verfahren, bei dem nicht alle Most-Frequent-Words (MFW), sondern signifikante Wortformen verwendet
94 werden.[5] In der vorliegenden Studie 112 werden.[5] In der vorliegenden Studie
99 zielgerichtet und unbeeinflusst durch Autorsignale oder Übersetzersignale untersucht werden kann, wird vermieden, mehrere 117 zielgerichtet und unbeeinflusst durch Autorsignale oder Übersetzersignale untersucht werden kann, wird vermieden, mehrere
100 Texte der gleichen Autor*innen und ins Deutsche übersetzte Texte zu verwenden. 118 Texte der gleichen Autor*innen und ins Deutsche übersetzte Texte zu berücksichtigen.
119 [3]Diese Studie ist also auf eine technische Fragestellung begrenzt – auf den Beitrag
120 des Gute-Wörter-Verfahrens zu einer verbesserten automatischen Textsortenerkennung.
121 Angestrebt wird nicht, traditionelle literaturwissenschaftliche Genre-Bestimmungen
122 zu kritisieren oder zu präzisieren.[6] Da versucht wird, eine Textsortenerkennung auf lexikalischer Basis vorzunehmen, könnte
123 dieser Versuch als Modellierung[7] einer Unterscheidbarkeit von Textsorten beschrieben werden. Für Computermodelle ist
124 wie auch bei herkömmlichen Modellen das Merkmal der verkürzten Repräsentation wesentlich –
125 das modellierte Objekt wird nicht vollständig durch das Modell abgebildet.[8] Aufgrund dieser Verkürzung ist es in der Regel problematisch, davon zu sprechen,
126 dass sich Ergebnisdaten, die auf der Basis von digitalen Modellen gewonnen werden,
127 unmittelbar dafür eignen, etwa hermeneutische Thesen zu verifizieren oder zu falsifizieren.[9]
128 [4]Gegenüber Studien, die auf Black-Box-Verfahren wie Maschinelles Lernen (siehe Anmerkung
129 2) setzen, haben Burrows’ Delta und das Gute-Wörter-Verfahren den Vorteil, dass die
130 Berechnungsgrundlage transparent nachvollzogen werden kann. Zudem lässt sich überprüfen,
131 welche Wortformen zur Textsortenunterscheidung besonders gut beitragen (siehe Anhang,
132 Tabelle 15).
101 133
103 135
104 [3]Verwendet wurden Texte, die im Internet frei verfügbar sind. Die meisten Texte 136 [5]Verwendet wurden Texte, die im Internet frei verfügbar sind. Die meisten Texte
105 entstammen dem Textgrid-Repository. Die Texte wurden dann als Abenteuerroman, 137 entstammen dem Textgrid-Repository. Die Texte wurden dann als Abenteuerroman,
107 literaturgeschichtlichen Darstellung oder in einem Forschungsbeitrag eine 139 literaturgeschichtlichen Darstellung oder in einem Forschungsbeitrag eine
108 einschlägige Bezeichnung vorgefunden wurde. 140 einschlägige Bezeichnung vorgefunden wurde.[10]
109 [4]Während der Einfluss des Übersetzersignals noch weniger gut erforscht ist,[6] kann das Autorsignal als ein 141 [6]Während der Einfluss des Übersetzersignals noch weniger gut erforscht ist,[11] kann das Autorsignal als ein
110 starkes stilometrisches Signal gelten.[7] 142 starkes stilometrisches Signal gelten.[12]
111 Falls beispielsweise bei der Untersuchung von Romansubgenres zahlreiche Texte von 143 Falls beispielsweise bei der Untersuchung von Romansubgenres zahlreiche Texte von
112 Karl May im Korpus vorhanden sind, ist denkbar, dass die Erkennung des Subgenres 144 Karl May im Korpus vorhanden sind, ist denkbar, dass die Erkennung des Subgenres
113 Abenteuerroman durch das Autorsignal von Karl May positiv beeinflusst wird – bei 145 Abenteuerroman durch das Autorsignal von Karl May positiv beeinflusst wird – bei
114 nicht wenigen Autor*innen ist eine gewisse Präferenz für eine oder wenige Gattungen 146 nicht wenigen Autor*innen ist eine gewisse Präferenz für eine oder wenige Gattungen
117 zusammenclustern, obwohl sie verschiedenen Gattungen zugeschrieben werden. Hettinger 149 zusammenclustern, obwohl sie verschiedenen Gattungen zugeschrieben werden. Hettinger
118 et al. berichten von einem Sinken der Erkennungsleistung, wenn man Autorduplikate 150 et al. berichten von einem Sinken der Erkennungsleistung, wenn man Autorduplikate
119 aus 151 aus
120 dem zuvor examinierten Korpus herausnimmt.[8] 152 dem zuvor examinierten Korpus herausnimmt.[13]
121 [5]Ein Problem bei der Korpus-Zusammenstellung sind Gattungsinterferenzen und mehrfache 153 [7]Ein Problem bei der Korpus-Zusammenstellung sind Gattungsinterferenzen und mehrfache
122 Labels: So ist Wilhelm Raabes Abu Telfan oder Die Heimkehr vom Mondgebirge sowohl als Entwicklungsroman, Gesellschaftsroman, Abenteuerroman, 154 Labels: So ist Wilhelm Raabes Abu Telfan oder Die Heimkehr vom Mondgebirge sowohl als Entwicklungsroman, Gesellschaftsroman, Abenteuerroman,
123 Bildungsroman und als Zeitroman eingestuft worden. Rolf Selbmann etwa bespricht 155 Bildungsroman als auch Zeitroman eingestuft worden. Rolf Selbmann etwa bespricht
124 einige offenbar als prototypisch verstandene Bildungsromane unter der Überschrift 156 einige offenbar als prototypisch verstandene Bildungsromane unter der Überschrift
125 »Zwischen Individualroman und Gesellschaftsroman«[9]; andernorts beruft sich 157 »Zwischen Individualroman und Gesellschaftsroman«[14]; andernorts beruft sich
126 Selbmann auf Benno von Wiese, der »die Epigonen [Immermann] zugleich als 158 Selbmann auf Benno von Wiese, der »die Epigonen [Immermann] zugleich als
127 ›Entwicklungsroman‹, als ›Abenteuerroman‹, als ›modernen Roman‹, wie auch als 159 ›Entwicklungsroman‹, als ›Abenteuerroman‹, als ›modernen Roman‹, wie auch als
128 ›gesellschaftlichen Zeitroman‹« versteht.[10] 160 ›gesellschaftlichen Zeitroman‹« versteht.[15]
129 [6]Bei der Korpus-Erstellung wurden Texte vermieden, die beispielsweise sowohl als 161 [8]Bei der Korpus-Erstellung wurden Texte vermieden, die beispielsweise sowohl als
130 Gesellschaftsroman als auch als Bildungsroman bezeichnet wurden, wodurch sich die 162 Gesellschaftsroman als auch als Bildungsroman bezeichnet wurden, wodurch sich die
137 können. 169 können.
138 [7]Für die Evaluierung des Gute-Wörter-Verfahrens wurden zwei überschneidungsfreie 170 [9]Für die Evaluierung des Gute-Wörter-Verfahrens wurden zwei überschneidungsfreie
139 Teilkorpora verwendet: Die 50 Texte der Ermittlungsgruppe, auf deren Grundlage die 171 Teilkorpora verwendet: Die 50 Texte der Ermittlungsgruppe, auf deren Grundlage die
141 (ebenfalls 50 Texte), die die Qualität der Gattungserkennung erfasst. 173 (ebenfalls 50 Texte), die die Qualität der Gattungserkennung erfasst.
142 [8]Autorduplikate im Korpus haben sich zwar nicht ganz vermeiden lassen, aber es konnten 174 [10]Autorduplikate im Korpus haben sich zwar nicht ganz vermeiden lassen, aber es konnten
143 doch Vorkehrungen getroffen werden, dass Autorduplikate weder bei der Berechnung der 175 doch Vorkehrungen getroffen werden, dass Autorduplikate weder bei der Berechnung der
152 184
153 [9]Im Vorfeld der Tests wurden einige Preprocessing-Schritte unternommen. Bei den Dramen 185 [11]Im Vorfeld der Tests wurden einige Präprocessing-Schritte unternommen. Bei den Dramen
154 habe ich die Regieanweisungen und die Sprecher*innenangaben entfernt. Die 186 habe ich die Regieanweisungen und die Sprecher*innenangaben entfernt. Die
156 mit Ausnahme der deutschen Umlaute wurden vereinheitlicht, Groß- in Kleinbuchstaben 188 mit Ausnahme der deutschen Umlaute wurden vereinheitlicht, Groß- in Kleinbuchstaben
157 konvertiert, Zahlen eliminiert. Weiterhin wurden die ersten 10% der Token entfernt. 189 konvertiert, Zahlen eliminiert. Weiterhin wurden die ersten 10 % der Token entfernt – mit diesem verbreiteten Verfahren werden paratextuelle Informationen und
158 190 Besonderheiten am Textanfang beseitigt.
159 3. Gute Wörter berechnen – Ermittlungsgruppe 191
160 192 3. Gute Wörter berechnen – Ermittlungsgruppe
161 [10]Das Verfahren zur Ermittlung der Guten Wörter ist ausführlich dokumentiert.[11] Für das 193
194 [12]Das Verfahren zur Ermittlung der Guten Wörter ist ausführlich dokumentiert.[16] Für das
162 Setting ist elementar, dass ein Text als Ratetext verwendet wird und gegen ein 195 Setting ist elementar, dass ein Text als Ratetext verwendet wird und gegen ein
163 Vergleichskorpus mit meist 15 bis 30 Distraktortexten getestet 196 Vergleichskorpus mit meist 15 bis 30 Distraktortexten getestet
164 wird. Das Vergleichskorpus enthält jedoch auch einen Vergleichstext der Zielklasse 197 wird. Das Vergleichskorpus enthält jedoch auch einen Vergleichstext der Zielklasse –
165198 bei Autorschaftsfragen ist also ein Text von der Autorin / dem Autor im Vergleichskorpus,
166 bei Autorschaftsfragen ist also ein Text von dem*der Autor*in im Vergleichskorpus, 199 von der / dem auch der Ratetext stammt; bei Gattungsfragen ein Vergleichstext der
167 von dem*der auch der Ratetext stammt; bei Gattungsfragen ein Vergleichstext der
168 gleichen Gattung. 200 gleichen Gattung.
169 [11]Wie bei Burrows’ Delta üblich, wird für jedes Wort der Most-Frequent-Words (MFWs) die relative Häufigkeit gezählt, 201 [13]Wie bei Burrows’ Delta üblich, wird für jedes Wort der Most-Frequent-Words (MFWs) die relative Häufigkeit gezählt,
170 Standardabweichung und Z-Werte berechnet und sodann die 202 Standardabweichung und Z-Werte berechnet und sodann die
177 Störfaktor für die Erkennung der Zielklasse. 209 Störfaktor für die Erkennung der Zielklasse.
178 [12]In einem Setting mit nur einem Distraktortext und zwei Texten der gleichen Klasse 210 [14]In einem Setting mit nur einem Distraktortext und zwei Texten der gleichen Klasse
179 ist 211 ist
185 Autorschaftserkennung erbringen, jedoch auch so viele False-Positives produzieren, dass dieses Parameterset problematisch 217 Autorschaftserkennung erbringen, jedoch auch so viele False-Positives produzieren, dass dieses Parameterset problematisch
186 ist.[12] 218 ist.[17]
187 [13]Verwendet wird für jede Textsorte nun eine Liste mit den Wortformen der 219 [15]Verwendet wird für jede Textsorte nun eine Liste mit den Wortformen der
188 durchschnittlich höchsten Level-2-Differenzen von allen Ratetexten zu allen 220 durchschnittlich höchsten Level-2-Differenzen von allen Ratetexten zu allen
203 fünf textsortenspezifische Listen mit Guten Wörtern an. 235 fünf textsortenspezifische Listen mit Guten Wörtern an.
204 [14]Im Distraktorkorpus befinden sich für jede der vier Textsorten der Nicht-Zielklasse 236 [16]Im Distraktorkorpus befinden sich für jede der vier Textsorten der Nicht-Zielklasse
205 jeweils die Ermittlungsgruppentexte mit Nummern 01–05. Da für die wenigen 237 jeweils die Ermittlungsgruppentexte mit Nummern 01–05. Da für die wenigen
207 ist 239 ist
208 bei Bildung der Gute-Wörter-Listen kein Autoduplikat im Spiel.[13] 240 bei Bildung der Gute-Wörter-Listen kein Autoduplikat im Spiel.[18]
209 [15]Zudem soll vermieden werden, dass Wortformen, die in den Ratetexten – also innerhalb 241 [17]Zudem soll vermieden werden, dass Wortformen, die in den Ratetexten – also innerhalb
210 der Zielgattung – recht selten vorkommen, berücksichtigt werden. Damit eine Wortform 242 der Zielgattung – recht selten vorkommen, berücksichtigt werden. Damit eine Wortform
211 bei der Bildung der Liste der Guten Wörter berücksichtigt wird, muss sie in 243 bei der Bildung der Liste der Guten Wörter berücksichtigt wird, muss sie in
215 geeigneten Parameter handelt, wurde in Prätests mit kleinem Korpus und niedriger 247 geeigneten Parameter handelt, wurde in Prätests mit kleinem Korpus und niedriger
216 Iterationszahl ermittelt.[14] 248 Iterationszahl ermittelt.[19]
217 249
218 4. Evaluierung – Kontrollgruppe 250 4. Evaluierung – Kontrollgruppe
219 251
220 [16]Die fünf Listen der Guten Wörter werden in vier textsortenbezogenen Kombinationen 252 [22]Die fünf Listen der Guten Wörter werden in vier textsortenbezogenen Kombinationen
221 mit 253 mit
223 255
224 Test A) Fünf Textsorten: ABE, BIL, GES, KOM, TRA[15] 256 Test A) Fünf Textsorten: ABE, BIL, GES, KOM, TRA[20]
225 257
229 261
230 [17]Da die Unterscheidung von Bildungs- und Gesellschaftsroman aufgrund der thematischen 262 [23]Da die Unterscheidung von Bildungs- und Gesellschaftsroman aufgrund der thematischen
231 Nähe beider Subgenres eine besondere Herausforderung darstellt, ist für die 263 Nähe beider Subgenres eine besondere Herausforderung darstellt, ist für die
232 Testreihen B und C die beste Unterscheidungsleistung zu erwarten. 264 Testreihen B und C die beste Unterscheidungsleistung zu erwarten.
233 [18]Für die Testreihen A und D wird angelehnt an Studien zu mittelhochdeutschen 265 [24]Für die Testreihen A und D wird angelehnt an Studien zu mittelhochdeutschen
234 Texten[16] zunächst ein 266 Texten[21] zunächst ein
235 reiner Erkennungsquotentest mit fünf Vergleichstexten der 267 reiner Erkennungsquotentest mit fünf Vergleichstexten der
236 Zielklasse durchgeführt; für alle vier Testreihen wird ein ARI-Test (Adjusted Rand Index) durchgeführt, bei dem zusätzlich auch die 268 Zielklasse durchgeführt; für alle vier Testreihen wird ein ARI-Test (Adjusted Rand Index) durchgeführt, bei dem zusätzlich auch die
237 Erkennungsquoten (Recall), False-Positives und F1-Werte ausgegeben werden – zum Setting siehe unten. 269 Erkennungsquoten (Recall), False-Positives und F1-Werte ausgegeben werden – zum Setting siehe unten.
238 [19]Die kürzeste Liste der Guten Wörter, die alle Wortformen mit einer Level-2-Differenz 270 [25]Die kürzeste Liste der Guten Wörter, die alle Wortformen mit einer Level-2-Differenz
239 von >0,2 enthält, umfasst bei den Komödien 495 Wortformen, die längste Liste bei 271 von >0,2 enthält, umfasst bei den Komödien 495 Wortformen, die längste Liste bei
244 300 und 400 MFWs. Wenn die Guten Wörter nicht in ausreichend vielen Texten im 276 300 und 400 MFWs. Wenn die Guten Wörter nicht in ausreichend vielen Texten im
245 aktuellen Test vorhanden sind,[17] wird das Gute Wort nicht verwendet. Wenn dadurch 277 aktuellen Test vorhanden sind,[22] wird das Gute Wort nicht verwendet. Wenn dadurch
246 nicht mehr ausreichend viele Gute Wörter vorhanden sind, wird die MFW-Liste im 278 nicht mehr ausreichend viele Gute Wörter vorhanden sind, wird die MFW-Liste im
249 bevorzugten Verwendung der Guten Wörter die Rede. 281 bevorzugten Verwendung der Guten Wörter die Rede.
250 [20]Näherungsweise bildet ein Test mit 200 MFWs einen Level-2-Differenzen-Mittelwert 282 [26]Näherungsweise bildet ein Test mit 200 MFWs einen Level-2-Differenzen-Mittelwert
251 >0,4 und ein Test mit 200 MFWs einen Level-2-Differenzen-Mittelwert >0,2 ab. In 283 >0,4 und ein Test mit 200 MFWs einen Level-2-Differenzen-Mittelwert >0,2 ab. In
252 der Liste für die Gesellschaftsromane – sie liegt hinsichtlich ihrer Länge im 284 der Liste für die Gesellschaftsromane – sie liegt hinsichtlich ihrer Länge im
253 Mittelfeld – ist bei Wortform Nr. 300 eine Level-2-Differenz von 0,32 vorhanden. 285 Mittelfeld – ist bei Wortform Nr. 300 eine Level-2-Differenz von 0,32 vorhanden.
254 4.1 Setting: Erkennungsquotentest mit fünf Vergleichstexten der 286 4.1 Setting: Erkennungsquotentest mit fünf Vergleichstexten der Zielklasse
255 Zielklasse 287
256 288 [27]Bei dieser Evaluierung kommen fast alle 50 Texte der Kontrollgruppe zum Einsatz. In
257 [21]Bei dieser Evaluierung kommen fast alle 50 Texte der Kontrollgruppe zum Einsatz. In
258 das Vergleichskorpus werden jeweils fünf (von zehn in der Kontrollgruppe vorhandenen) 289 das Vergleichskorpus werden jeweils fünf (von zehn in der Kontrollgruppe vorhandenen)
262 Distraktortexte. 293 Distraktortexte.
263 [22]Wenn ein Text als Distraktortext gelost wird, zu dem ein Autorenduplikat in den 294 [28]Wenn ein Text als Distraktortext gelost wird, zu dem ein Autorenduplikat in den
264 Kontrollgruppentexten der Zielgattung vorhanden ist, dann wird dieser Distraktortext 295 Kontrollgruppentexten der Zielgattung vorhanden ist, dann wird dieser Distraktortext
268 Distraktortexte im Vergleichskorpus berücksichtigt werden, so dass auch hier 299 Distraktortexte im Vergleichskorpus berücksichtigt werden, so dass auch hier
269 Autorenduplikate das Gattungssignal nicht überlagern können.[18] 300 Autorenduplikate das Gattungssignal nicht überlagern können.[23]
270 [23]Bei der Zielgattung wird zunächst reihum jeweils einer der zehn Kontrollgruppentexten 301 [29]Bei der Zielgattung wird zunächst reihum jeweils einer der zehn Kontrollgruppentexten
271 als Vergleichstext ins Vergleichskorpus gegeben. Vier weitere Texte der Zielgattung 302 als Vergleichstext ins Vergleichskorpus gegeben. Vier weitere Texte der Zielgattung
274 305
275 [24]Wenn dieser Test mit Volltexten (gekürzt auf 100.000 Wortformen) durchgeführt wird, 306 [30]Wenn dieser Test mit Volltexten (gekürzt auf 100.000 Wortformen) durchgeführt wird,
276 werden pro Gattung zehn Durchgänge absolviert, um die Zufälligkeiten bei der 307 werden pro Gattung zehn Durchgänge absolviert, um die Zufälligkeiten bei der
281 ist 312 ist
282 ›Ziehen ohne Zurücklegen‹. Wenn ein Text – wie bei den kürzeren Komödien und 313 ›Ziehen ohne Zurücklegen‹. Wenn ein Text – wie bei den kürzeren Komödien und
283 Tragödien – weniger als 11.000 Wortformen umfasst, gilt für diesen Text der Modus 314 Tragödien – weniger als 11.000 Wortformen umfasst, gilt für diesen Text der Modus
284 ›Ziehen mit Zurücklegen‹. 315 ›Ziehen mit Zurücklegen‹.
285 [25]Insgesamt befinden sich fünf Vergleichstexte der Zielgattung und 20 Distraktortexte 316 [31]Insgesamt befinden sich fünf Vergleichstexte der Zielgattung und 20 Distraktortexte
286 (bei Test A) bzw. zehn Distraktortexte (bei den Tests B–D) im Vergleichskorpus. Die 317 (bei Test A) bzw. zehn Distraktortexte (bei den Tests B–D) im Vergleichskorpus. Die
287 erwartete Erkennungsquote bei einer Zufallsverteilung liegt damit bei 20% (A) bzw. 318 erwartete Erkennungsquote bei einer Zufallsverteilung liegt damit bei 20 % (A) bzw.
288 bei 33% (B–D). 319 bei 33 % (B–D).
289 [26]Da in der vorliegenden Studie überprüft werden soll, ob und inwieweit die bevorzugte 320 [32]Da in der vorliegenden Studie überprüft werden soll, ob und inwieweit die bevorzugte
290 Berücksichtigung der Guten Wörter zu einer verbesserten Textsortenerkennung führt, 321 Berücksichtigung der Guten Wörter zu einer verbesserten Textsortenerkennung führt,
298 Analyseverfahren und Auswertungsmethoden. Der Umgang mit Autorduplikaten ist ebenso 329 Analyseverfahren und Auswertungsmethoden. Der Umgang mit Autorduplikaten ist ebenso
299 wenig einheitlich wie der Umgang mit mehrfachen Gattungslabels.[19] 330 wenig einheitlich wie der Umgang mit mehrfachen Gattungslabels.[24]
300 331
302 333
303 [27]Bei diesem Testverfahren gebe ich jeweils alle zehn Kontrollgruppentexte der 334 [33]Bei diesem Testverfahren gebe ich jeweils alle zehn Kontrollgruppentexte der
304 Nicht-Zielgattungen als Distraktortexte ins Korpus – es sei denn, es befindet 335 Nicht-Zielgattungen als Distraktortexte ins Korpus – es sei denn, es befindet
305 sich ein Autorenduplikat zu einem Text der Zielgattung darunter; in diesem Fall wird 336 sich ein Autorenduplikat zu einem Text der Zielgattung darunter; in diesem Fall wird
316 Delta-Abstand. 347 Delta-Abstand.
317 [28]Durchgeführt werden dieses Tests ohne weitere Optimierungsmaßnahmen wie das 348 [34]Durchgeführt werden diese Tests ohne weitere Optimierungsmaßnahmen wie das
318 Eliminieren von Pronomina, jedoch mit Berücksichtigung der jeweiligen 349 Eliminieren von Pronomina, jedoch mit Berücksichtigung der jeweiligen
319 Gute-Wörter-Liste und mit Z-Wert-Begrenzung auf 1,64.[20] Die Z-Wert-Begrenzung 350 Gute-Wörter-Liste und mit Z-Wert-Begrenzung auf 1,64.[25] Die Z-Wert-Begrenzung
320 wird aufgrund der Annahme verwendet, dass textspezifisches Vokabular, das nicht 351 wird aufgrund der Annahme verwendet, dass textspezifisches Vokabular, das nicht
323 beruhen, weniger stark auf den Delta-Wert durchschlagen. 354 beruhen, weniger stark auf den Delta-Wert durchschlagen.
324 [29]Bei der Auswertung ist zu bedenken, dass der ARI nicht direkt mit einer herkömmlichen 355 [35]Bei der Auswertung ist zu bedenken, dass der ARI nicht direkt mit einer herkömmlichen
325 Erkennungsquote zu vergleichen ist. Bei dem oben beschriebenen Setting würde eine 356 Erkennungsquote zu vergleichen ist. Bei dem oben beschriebenen Setting würde eine
326 Zufallsverteilung nicht eine Erkennungsquote von 0%, sondern von 20% bzw. 33% 357 Zufallsverteilung nicht eine Erkennungsquote von 0%, sondern von 20 % bzw. 33%
327 ergeben. Eine Zufallsverteilung beim ARI-Wert ergibt den Wert 0; Clusterergebnisse, 358 ergeben. Eine Zufallsverteilung beim ARI-Wert ergibt den Wert 0; Clusterergebnisse,
331 abweichenden Wert für die Zufallsverteilung bedingt. Dieser Effekt verringert sich, 362 abweichenden Wert für die Zufallsverteilung bedingt. Dieser Effekt verringert sich,
332 je mehr die Erkennungsquote gegen 100% und der ARI-Wert gegen 1 tendiert. 363 je mehr die Erkennungsquote gegen 100 % und der ARI-Wert gegen 1 tendiert.
333 [30]Neben dem ARI wird hier auch Erkennungsquote (Recall) und False-Positives-Quote 364 [36]Neben dem ARI wird hier auch Erkennungsquote (Recall) und False-Positives-Quote
334 notiert, auf deren Basis die Precision ermittelt und der F1-Score für die 365 notiert, auf deren Basis die Precision ermittelt und der F1-Score für die
337 herangezogen; für die Nicht-Zielgattungstexte wird also keine Erkennungsquote 368 herangezogen; für die Nicht-Zielgattungstexte wird also keine Erkennungsquote
338 ermittelt – deren Clusterverhalten geht ohnehin in den ARI ein. Bei der 369 ermittelt – deren Clusterverhalten geht ohnehin in den ARI ein. Bei der
339 False-Positives-Quote werden die Nicht-Zielgattungstexte berücksichtigt, die zur 370 False-Positives-Quote werden die Nicht-Zielgattungstexte berücksichtigt, die zur
340 Zielgattung den niedrigsten Delta-Abstand aufweisen. Da hier ein Zielklassentext 371 Zielgattung den niedrigsten Delta-Abstand aufweisen. Da hier ein Zielklassentext
341 gegen ein Korpus mit 9 Zielklassentexten und 38–40[21] Distraktortexten (A) 372 gegen ein Korpus mit 9 Zielklassentexten und 38–40[26] Distraktortexten (A)
342 bzw. 18–20 Distraktortexten (B–D) getestet wird, würde eine Zufallsverteilung bei 373 bzw. 18–20 Distraktortexten (B–D) getestet wird, würde eine Zufallsverteilung bei
343 ca. 374 ca.
344 18,4% (A) bzw. 31% (B–D) liegen. Die F1-Werte liegen durchwegs deutlich über den 375 18,4 % (A) bzw. 31 % (B–D) liegen. Die F1-Werte liegen durchwegs deutlich über den
345 ARI-Werten; bei letzteren gehen auch Anzahl und Clusteringverhalten der 376 ARI-Werten; bei letzteren gehen auch Anzahl und Clusteringverhalten der
360 391
361 200 392 200a
362 300 393 300a
363 400 394 400a
364 395
365 396
366 397
367 Gute & ZWB 398 Gutec & ZWBd
368 57,3 399 57,3b
369 63,4 400 63,4
385 416
386 Basis 417 Basise
387 45,4 418 45,4
424 455
456 a Anzahl der MFWs, die verwendet werdenb Erkennungsquote in %c Gute: Mit Gute-Wörter-Listed ZWB: Mit Z-Wert-Begrenzung auf 1,64e Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzung
457
458
459
425 Tab. 1: Test A1, Erkennungsquotentest mit fünf Vergleichstexten der Zielklasse, Test A1, 460 Tab. 1: Test A1, Erkennungsquotentest mit fünf Vergleichstexten der Zielklasse, Test A1,
426 ABE, BIL, GES, KOM, TRA. Beim Bag-of-Words-Test mit 10.000 MFWs werden die Texte 200 461 ABE, BIL, GES, KOM, TRA. Beim Bag-of-Words-Test mit 10.000 MFWs werden die Texte 200
427 verschiedenen Bag-Sets pro Gattung zugelost und Mittelwerte gebildet. Abkürzungen: 462 verschiedenen Bag-Sets pro Gattung zugelost und Mittelwerte gebildet.
428 Gute: Mit Gute-Wörter-Liste / ZWB: Mit Z-Wert-Begrenzung auf 1.64 / Basis: Ohne Gute-Wörter-Liste 463 [37]Die Guten Wörter führen zu einer deutlichen Verbesserung der Erkennungsquote. Der
429 und ohne Z-Wert-Begrenzung.
430 [31]Die Guten Wörter führen zu einer deutlichen Verbesserung der Erkennungsquote. Der
431 Verbesserungseffekt ist am stärksten ausgeprägt beim Bag-of-Words-Verfahren mit 464 Verbesserungseffekt ist am stärksten ausgeprägt beim Bag-of-Words-Verfahren mit
433 Z-Wert-Begrenzung erreicht. Im Vergleich zu Autorschaftsstudien liegen die Quoten 466 Z-Wert-Begrenzung erreicht. Im Vergleich zu Autorschaftsstudien liegen die Quoten
434 deutlich niedriger – dort werden Werte >90% erreicht, selbst wenn sich nur ein 467 deutlich niedriger – dort werden Werte >90 % erreicht, selbst wenn sich nur ein
435 Text des*der Zielautors*in im Vergleichskorpus befindet.[22] 468 Text der Zielautorin / des Zielautors im Vergleichskorpus befindet.[27]
436 469
443 Volltexte 476 Volltexte
444 200 477 200a
445 300 478 300a
446 400 479 400a
447 480
448 481
449 ARI Gute & ZWB 482 ARIc Guted & ZWBe
450 0,34 483 0,34b
451 0,28 484 0,28
466 499
467 ARI Basis 500 ARI Basisf
468 0,25 501 0,25
478 511
479 F1 Gute & ZWB 512 F1g Gute & ZWB
480 0,68 513 0,68
508 541
509 EQ Gute & ZWB 542 EQh Gute & ZWB
510 58 543 58
538 571
539 FP Gute & ZWB 572 FPi Gute & ZWB
540 12,4 573 12,4
568 601
569 Diff ARI 602 Diffj ARI
570 0,09 603 0,09
586 619
587 Tab. 2: Test A2, ARI-Test mit 4 × 10 Distraktortexten, ABE, BIL, GES, KOM, TRA. Abkürzungen: 620 a Anzahl der MFWs, die verwendet werdenb Erkennungsquote in %c ARI: Adjusted Rand Indexd Gute: Mit Gute-Wörter-Liste e ZWB: Mit Z-Wert-Begrenzung auf 1,64f Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzungg F1: Precision und Recall kombiniert h EQ: Erkennungsquote in % i FP: False-Positives-Quote in % (niedriger ist besser)j Diff: Differenzen zwischen Werten mit Gute-Wörter-Liste und mit Z-Wert-Begrenzung
588 ARI: Adjusted Rand Index / F1: Precision und Recall kombiniert / Gute: Mit Gute-Wörter-Liste 621 zum Basiswert
589 / ZWB: Mit Z-Wert-Begrenzung auf 1.64 / EQ: Erkennungsquote in % / FP: False-Positives-Quote 622
590 in % (niedriger ist besser) / Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzung 623
591 / Diff: Differenzen zwischen Werten mit Gute-Wörter-Liste und mit Z-Wert-Begrenzung 624
592 zum Basiswert. 625
593 [32]Die besten ARI-Werte finden sich bei der Kombination der bevorzugten Verwendung von 626 Tab. 2: Test A2, ARI-Test mit 4 × 10 Distraktortexten, ABE, BIL, GES, KOM, TRA.
627 [38]Die besten ARI-Werte finden sich bei der Kombination der bevorzugten Verwendung von
594 Guten Wörtern mit der Z-Wert-Begrenzung bei 200 MFWs sowie bei den Werten mit 628 Guten Wörtern mit der Z-Wert-Begrenzung bei 200 MFWs sowie bei den Werten mit
602 begünstigt ein größerer Vektor eine bessere Erkennung. 636 begünstigt ein größerer Vektor eine bessere Erkennung.
603 [33]Hier ein Blick in die Einzelwerte für die Gattungen bei 200 MFWs mit Guten Wörtern 637 [39]Hier ein Blick in die Einzelwerte für die Gattungen bei 200 MFWs mit Guten Wörtern
604 und Z-Wert-Begrenzung: 638 und Z-Wert-Begrenzung:
609 200 MFWs 643 200 MFWs
610 ARI 644 ARIa
611 F1 645 F1b
612 EQ 646 EQc
613 FP 647 FPd
614 648
650 684
685 a ARI: Adjusted Rand Indexb F1: Precision und Recall kombiniertc EQ: Erkennungsquote in %d FP: False-Positives-Quote in % (niedriger ist besser)
686
687
688
651 Tab. 3: Test A2, ARI-Test mit 4 × 10 Distraktortexten, Einzelwerte, ABE, 689 Tab. 3: Test A2, ARI-Test mit 4 × 10 Distraktortexten, Einzelwerte, ABE,
652 BIL, GES, KOM, TRA. 690 BIL, GES, KOM, TRA.
653 [34]Der Gesellschaftsroman erweist sich als problematisch – mit niedriger Erkennungsquote 691 [40]Der Gesellschaftsroman erweist sich als problematisch – mit niedriger Erkennungsquote
654 und hoher False-Positives-Rate. Auch Bildungsromane und Tragödien zeigen eine hohe 692 und hoher False-Positives-Rate. Auch Bildungsromane und Tragödien zeigen eine hohe
655 False-Positives-Rate. Überraschend niedrig ist die False-Positives-Rate beim 693 False-Positives-Rate. Überraschend niedrig ist die False-Positives-Rate beim
656 Abenteuerroman, der insgesamt recht gut erkannt werden kann.[23] 694 Abenteuerroman, der insgesamt recht gut erkannt werden kann.[28]
657 [35]Die Bag-of-Words-Technik (hier mit 10.000 Wortformen) führt zu einer Verbesserung 695 [41]Die Bag-of-Words-Technik (hier mit 10.000 Wortformen) führt zu einer Verbesserung
658 der 696 der
671 709
672 ARI 710 ARIa
673 0,28 711 0,28
677 715
678 F1 716 F1b
679 0,64 717 0,64
683 721
684 EQ 722 EQc
685 53,3 723 53,3
689 727
690 FP 728 FPd
691 13,9 729 13,9
693 15,7 731 15,7
732
733
734 a ARI: Adjusted Rand Indexb F1: Precision und Recall kombiniertc EQ: Erkennungsquote in %d FP: False-Positives-Quote in % (niedriger ist besser)
735
736
694 737
710 753
711 ARI Gute & ZWB 754 ARIa Guteb & ZWBc
712 0,31 755 0,31
728 771
729 ARI Basis 772 ARI Basisd
730 0,19 773 0,19
740 783
741 F1 Gute & ZWB 784 F1e Gute & ZWB
742 0,76 785 0,76
770 813
771 EQ Gute & ZWB 814 EQf Gute & ZWB
772 74,00 815 74,00
800 843
801 FP Gute & ZWB 844 FPg Gute & ZWB
802 20,20 845 20,20
830 873
831 Diff ARI 874 Diffh ARI
832 0,12 875 0,12
848 891
892 a ARI: Adjusted Rand Indexb Gute: Mit Gute-Wörter-Listec ZWB: Mit Z-Wert-Begrenzung auf 1,64d Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzunge F1: Precision und Recall kombiniertf EQ: Erkennungsquote in %g FP: False-Positives-Quote in % (niedriger ist besser)h Diff: Differenzen zwischen Werten mit Gute-Wörter-Liste und mit Z-Wert-Begrenzung
893 zum Basiswert
894
895
896
897
849 Tab. 5: Test A3, ARI-Test mit 4 × 5 Distraktortexten, ABE, BIL, GES, KOM, 898 Tab. 5: Test A3, ARI-Test mit 4 × 5 Distraktortexten, ABE, BIL, GES, KOM,
850 TRA. 899 TRA.
851 [36]Gegenüber dem Test mit 4 × 10 Distraktortexten geht eine Verbesserung der 900 [42]Gegenüber dem Test mit 4 × 10 Distraktortexten geht eine Verbesserung der
852 Erkennungsquote mit einer Verschlechterung der False-Positives-Quote einher. Bei 200 901 Erkennungsquote mit einer Verschlechterung der False-Positives-Quote einher. Bei 200
867 916
868 ARI Gute & ZWB 917 ARIa Guteb & ZWBc
869 0,62 918 0,62
885 934
886 ARI Basis 935 ARI Basisd
887 0,5 936 0,5
897 946
898 F1 Gute & ZWB 947 F1e Gute & ZWB
899 0,88 948 0,88
927 976
928 EQ Gute & ZWB 977 EQf Gute & ZWB
929 86,7 978 86,7
957 1006
958 FP Gute & ZWB 1007 FPg Gute & ZWB
959 10,0 1008 10,0
987 1036
988 Diff ARI 1037 Diffh ARI
989 0,12 1038 0,12
1005 1054
1055 a ARI: Adjusted Rand Indexb Gute: Mit Gute-Wörter-Listec ZWB: Mit Z-Wert-Begrenzung auf 1,64d Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzunge F1: Precision und Recall kombiniertf EQ: Erkennungsquote in %g FP: False-Positives-Quote in % (niedriger ist besser)h Diff: Differenzen zwischen Werten mit Gute-Wörter-Liste und mit Z-Wert-Begrenzung
1056 zum Basiswert
1057
1058
1059
1006 Tab. 6: Test B, ARI-Test mit 2 × 10 Distraktortexten, ABE, BIL, KOM. 1060 Tab. 6: Test B, ARI-Test mit 2 × 10 Distraktortexten, ABE, BIL, KOM.
1007 [37]Bei diesem Test bleibt der schwer unterscheidbare Gesellschaftsroman außen vor. Die 1061 [43]Bei diesem Test bleibt der schwer unterscheidbare Gesellschaftsroman außen vor. Die
1008 ARI-Werte verbessern sich in der Zeile ›Gute & ZWB‹ auf ein ordentliches Niveau, 1062 ARI-Werte verbessern sich in der Zeile ›Gute & ZWB‹ auf ein ordentliches Niveau,
1016 1070
1017 [38]Hier wird unter den Romansubgenres nur der besser unterscheidbare Abenteuerroman 1071 [44]Hier wird unter den Romansubgenres nur der besser unterscheidbare Abenteuerroman
1018 einbezogen. Test C ist der einzige Test in dieser Studie, in der nicht verschiedene 1072 einbezogen. Test C ist der einzige Test in dieser Studie, in der nicht verschiedene
1019 Romansubgenres beteiligt sind – hier kann man am ehesten von drei verschiedenen 1073 Romansubgenres beteiligt sind – hier kann man am ehesten von drei verschiedenen
1020 Gattungen sprechen. 1074 Gattungen sprechen.
1030 1084
1031 ARI Gute & ZWB 1085 ARIa Guteb & ZWBc
1032 0,45 1086 0,45
1048 1102
1049 ARI Basis 1103 ARI Basisd
1050 0,45 1104 0,45
1060 1114
1061 F1 Gute & ZWB 1115 F1e Gute & ZWB
1062 0,78 1116 0,78
1090 1144
1091 EQ Gute & ZWB 1145 EQf Gute & ZWB
1092 73,33 1146 73,33
1120 1174
1121 FP Gute & ZWB 1175 FPg Gute & ZWB
1122 13,68 1176 13,68
1150 1204
1151 Diff ARI 1205 Diffh ARI
1152 0,00 1206 0,00
1168 1222
1223 a ARI: Adjusted Rand Indexb Gute: Mit Gute-Wörter-Listec ZWB: Mit Z-Wert-Begrenzung auf 1,64d Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzunge F1: Precision und Recall kombiniertf EQ: Erkennungsquote in %g FP: False-Positives-Quote in % (niedriger ist besser)h Diff: Differenzen zwischen Werten mit Gute-Wörter-Liste und mit Z-Wert-Begrenzung
1224 zum Basiswert
1225
1226
1227
1169 Tab. 7: Test C, ARI-Test mit 2 × 10 Distraktortexten, ABE, KOM, TRA. 1228 Tab. 7: Test C, ARI-Test mit 2 × 10 Distraktortexten, ABE, KOM, TRA.
1170 [39]Bei den ARI-Werten wird hier ein Niveau erreicht, das zwischen dem ordentlichen 1229 [45]Bei den ARI-Werten wird hier ein Niveau erreicht, das zwischen dem ordentlichen
1171 Niveau der Testreihe B (ABE, BIL, KOM) und dem mäßigen Niveau der Testreihe A liegt. 1230 Niveau der Testreihe B (ABE, BIL, KOM) und dem mäßigen Niveau der Testreihe A liegt.
1174 Erkennungsquote. 1233 Erkennungsquote.
1175 [40]Auch hier setzen sich die Durchschnittswerte aus stark schwankenden Einzelwerten 1234 [46]Auch hier setzen sich die Durchschnittswerte aus stark schwankenden Einzelwerten
1176 zusammen: Während der Abenteuerroman sehr gut clustert, sind die Daten bei den 1235 zusammen: Während der Abenteuerroman sehr gut clustert, sind die Daten bei den
1205 1264
1265
1206 Tab. 8: Test C, ARI-Test mit 2 × 10 Distraktortexten, Einzelwerte, ABE, 1266 Tab. 8: Test C, ARI-Test mit 2 × 10 Distraktortexten, Einzelwerte, ABE,
1210 1270
1211 [41]Anders als in den Testreihen A–C werden hier keine verschiedenen Gattungen, sondern 1271 [47]Anders als in den Testreihen A–C werden hier keine verschiedenen Gattungen, sondern
1212 lediglich Romansubgenres untersucht. Dies hat den Vorteil, dass dabei die teils 1272 lediglich Romansubgenres untersucht. Dies hat den Vorteil, dass dabei die teils
1229 1289
1230 Gute & ZWB 1290 Gutea & ZWBb
1231 51,2 1291 51,2
1242 1302
1243 Basis 1303 Basisc
1244 35,7 1304 35,7
1271 1331
1332 a Gute: Mit Gute-Wörter-Listeb ZWB: Mit Z-Wert-Begrenzung auf 1,64c Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzung
1333
1334
1335
1336
1272 Tab. 9: Test D1, Erkennungsquotentest mit fünf Vergleichstexten der 1337 Tab. 9: Test D1, Erkennungsquotentest mit fünf Vergleichstexten der
1273 Zielklasse, ABE, BIL, GES. 1338 Zielklasse, ABE, BIL, GES.
1274 [42]Die Erkennungsquote mit den Optimierungstechniken ist beim Bag-of-Words-Verfahren 1339 [48]Die Erkennungsquote mit den Optimierungstechniken ist beim Bag-of-Words-Verfahren
1275 etwas besser als mit Volltexten; bei Test A war 1340 etwas besser als mit Volltexten; bei Test A war
1298 1363
1299 ARI Gute & ZWB 1364 ARIa Guteb & ZWBc
1300 0,22 1365 0,22
1316 1381
1317 ARI Basis 1382 ARI Basisd
1318 0,04 1383 0,04
1328 1393
1329 F1 Gute & ZWB 1394 F1e Gute & ZWB
1330 0,63 1395 0,63
1358 1423
1359 EQ Gute & ZWB 1424 EQf Gute & ZWB
1360 55 1425 55
1388 1453
1389 FP Gute & ZWB 1454 FPg Gute & ZWB
1390 18,29 1455 18,29
1418 1483
1419 Diff ARI 1484 Diffh ARI
1420 0,18 1485 0,18
1436 1501
1502 a ARI: Adjusted Rand Indexb Gute: Mit Gute-Wörter-Listec ZWB: Mit Z-Wert-Begrenzung auf 1,64d Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzunge F1: Precision und Recall kombiniertf EQ: Erkennungsquote in %g FP: False-Positives-Quote in % (niedriger ist besser)h Diff: Differenzen zwischen Werten mit Gute-Wörter-Liste und mit Z-Wert-Begrenzung
1503 zum Basiswert
1504
1505
1506
1507
1437 Tab. 10: Test D2, ARI-Test mit 2 × 10 Distraktortexten, ABE, BIL, GES. 1508 Tab. 10: Test D2, ARI-Test mit 2 × 10 Distraktortexten, ABE, BIL, GES.
1438 [43]Wiederum ist, wie ein Blick in die Subgenre-Einzelwerte in der Folgetabelle zeigt, 1509 [49]Wiederum ist, wie ein Blick in die Subgenre-Einzelwerte in der Folgetabelle zeigt,
1439 die Erkennung beim Abenteuerroman deutlich besser, das Clustering beim 1510 die Erkennung beim Abenteuerroman deutlich besser, das Clustering beim
1449 200 MFWs 1520 200 MFWs
1450 ARI 1521 ARIa
1451 F1 1522 F1b
1452 EQ 1523 EQc
1453 FP 1524 FPd
1454 1525
1476 1547
1548 a ARI: Adjusted Rand Indexb F1: Precision und Recall kombiniertc EQ: Erkennungsquote in %d FP: False-Positives-Quote in % (niedriger ist besser)
1549
1550
1551
1552
1477 Tab. 11: Test D2, ARI-Test mit 2 × 10 Distraktortexten, Einzelwerte, ABE, 1553 Tab. 11: Test D2, ARI-Test mit 2 × 10 Distraktortexten, Einzelwerte, ABE,
1481 1557
1482 [44]Die gleiche Tendenz auf noch schlechterem Niveau zeigt sich bei der Variante mit nur 1558 [50]Die gleiche Tendenz auf noch schlechterem Niveau zeigt sich bei der Variante mit nur
1483 fünf (statt zehn) ausgelosten Distraktortexten je Nicht-Zielklasse: 1559 fünf (statt zehn) ausgelosten Distraktortexten je Nicht-Zielklasse:
1493 1569
1494 ARI Gute & ZWB 1570 ARIa Guteb & ZWBc
1495 0,06 1571 0,06
1511 1587
1512 ARI Basis 1588 ARI Basisd
1513 -0,01 1589 -0,01
1523 1599
1524 F1 Gute & ZWB 1600 F1e Gute & ZWB
1525 0,60 1601 0,60
1553 1629
1554 EQ Gute & ZWB 1630 EQf Gute & ZWB
1555 59,00 1631 59,00
1583 1659
1584 FP Gute & ZWB 1660 FPg Gute & ZWB
1585 38,70 1661 38,70
1613 1689
1614 Diff ARI 1690 Diffh ARI
1615 0,07 1691 0,07
1631 1707
1708 a ARI: Adjusted Rand Indexb Gute: Mit Gute-Wörter-Listec ZWB: Mit Z-Wert-Begrenzung auf 1,64d Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzunge F1: Precision und Recall kombiniertf EQ: Erkennungsquote in %g FP: False-Positives-Quote in % (niedriger ist besser)h Diff: Differenzen zwischen Werten mit Gute-Wörter-Liste und mit Z-Wert-Begrenzung
1709 zum Basiswert
1710
1711
1712
1713
1632 Tab. 12: Test D3, ARI-Test mit 2 × 5 Distraktortexten, ABE, BIL, GES. 1714 Tab. 12: Test D3, ARI-Test mit 2 × 5 Distraktortexten, ABE, BIL, GES.
1633 [45]Problematisch an diesem Setting ist die Kombination von zehn Distraktortexten mit 1715 [51]Problematisch an diesem Setting ist die Kombination von zehn Distraktortexten mit
1634 neun Zielklassentexten, gegen die im Einzeltest ein Zielklassentext getestet wird. 1716 neun Zielklassentexten, gegen die im Einzeltest ein Zielklassentext getestet wird.
1635 Eine Zufallsverteilung würde eine Erkennungsquote von 31% ergeben. Die 1717 Eine Zufallsverteilung würde eine Erkennungsquote von 31 % ergeben. Die
1636 Erkennungsquoten müssten also deutlich höher liegen, um einen guten ARI-Wert zu 1718 Erkennungsquoten müssten also deutlich höher liegen, um einen guten ARI-Wert zu
1643 1725
1644 [46]Da die kürzeren Komödien und Tragödien hier unberücksichtigt bleiben, wird es 1726 [52]Da die kürzeren Komödien und Tragödien hier unberücksichtigt bleiben, wird es
1645 möglich, einen größeren Bereich an MFWs in den Test einzubeziehen. In den übrigen 1727 möglich, einen größeren Bereich an MFWs in den Test einzubeziehen. In den übrigen
1651 2.530 (GES) Wortformen. Bei der Evaluation werden nun 500–4.000 MFWs verwendet. 1733 2.530 (GES) Wortformen. Bei der Evaluation werden nun 500–4.000 MFWs verwendet.
1652 [47]Neben den üblichen Tests (in der Folgetabelle von unten nach oben: ›Basis‹: ohne Gute 1734 [53]Neben den üblichen Tests (in der Folgetabelle von unten nach oben: ›Basis‹: ohne Gute
1653 Wörter, ohne Z-Wert-Begrenzung; ›ZWB 1,64‹: nur Z-Wert-Begrenzung, ohne Gute Wörter; 1735 Wörter, ohne Z-Wert-Begrenzung; ›ZWB 1,64‹: nur Z-Wert-Begrenzung, ohne Gute Wörter;
1673 1755
1674 ARI G&ZWB 1,64 1756 ARIa Guteb & ZWBc 1,64
1675 0,19 1757 0,19
1684 1766
1685 ARI G&ZWB 1,2 1767 ARI Gute & ZWB 1,2
1686 0,17 1768 0,17
1695 1777
1696 ARI G&ZWB 1,0 1778 ARI Gute & ZWB 1,0
1697 0,14 1779 0,14
1706 1788
1707 ARI G&ZWBneg 1789 ARI Gute & ZWBneg
1708 0,17 1790 0,17
1739 1821
1740 ARI Basis 1822 ARI Basisd
1741 0,08 1823 0,08
1761 1843
1762 F1 G&ZWB 1,64 1844 F1e Gute & ZWB 1,64
1763 0,68 1845 0,68
1772 1854
1773 F1 G&ZWN 1,2 1855 F1 Gute & ZWB 1,2
1774 0,67 1856 0,67
1783 1865
1784 F1 G&ZWB 1,0 1866 F1 Gute & ZWB 1,0
1785 0,66 1867 0,66
1794 1876
1795 F1 G&ZWBneg 1877 F1 Gute & ZWBneg
1796 0,70 1878 0,70
1849 1931
1850 EQ G&ZWB 1,64 1932 EQf Gute & ZWB 1,64
1851 66,67 1933 66,67
1860 1942
1861 EQ G&ZWB 1,2 1943 EQ Gute & ZWB 1,2
1862 63,33 1944 63,33
1871 1953
1872 EQ G&ZWB 1,0 1954 EQ Gute & ZWB 1,0
1873 63,33 1955 63,33
1882 1964
1883 EQ G&ZWBneg 1965 EQ Gute & ZWBneg
1884 70 1966 70
1937 2019
1938 FP G&ZWB 1,64 2020 FPg Gute & ZWB 1,64
1939 29,74 2021 29,74
1948 2030
1949 FP G&ZWB 1,2 2031 FP Gute & ZWB 1,2
1950 26,14 2032 26,14
1959 2041
1960 FP G&ZWB 1,0 2042 FP Gute & ZWB 1,0
1961 27,81 2043 27,81
1970 2052
1971 FP G&ZWBneg 2053 FP Gute & ZWBneg
1972 31,32 2054 31,32
2014 2096
2097 a ARI: Adjusted Rand Indexb Gute: Mit Gute-Wörter-Listec ZWB: Mit Z-Wert-Begrenzung auf 1,64d Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzunge F1: Precision und Recall kombiniertf EQ: Erkennungsquote in %g FP: False-Positives-Quote in % (niedriger ist besser)
2098
2099
2100
2015 Tab. 13: Test D4, ARI-Test mit 2 × 10 Distraktortexten und großem 2101 Tab. 13: Test D4, ARI-Test mit 2 × 10 Distraktortexten und großem
2016 MFW-Bereich, Volltexte, ABE, BIL, GES. 2102 MFW-Bereich, Volltexte, ABE, BIL, GES.
2017 [48]Bei den optimalen Parametern (Gute Wörter kombiniert mit Z-Wert-Begrenzung auf 1,0) 2103 [54]Bei den optimalen Parametern (Gute Wörter kombiniert mit Z-Wert-Begrenzung auf 1,0)
2018 werden sowohl bei ARI, F1-Score, Erkennungsquote und False-Positives die besten Werte 2104 werden sowohl bei ARI, F1-Score, Erkennungsquote und False-Positives die besten Werte
2019 erreicht. Der F1-Score verbessert sich gegenüber dem besten Wert in Testreihe D2 (0,67) nun auf 0,76. 2105 erreicht. Der F1-Score verbessert sich gegenüber dem besten Wert in Testreihe D2 (0,67) nun auf 0,76.
2020 [49]Für die optimalen Werte wurde noch ein Bag-of-Words-Tests durchgeführt mit 2106 [55]Für die optimalen Werte wurde noch ein Bag-of-Words-Tests durchgeführt mit
2021 Bag-of-Words mit je 20.000 Wortformen und 200 Iterationen je Einzelwert (Rechenzeit: 2107 Bag-of-Words mit je 20.000 Wortformen und 200 Iterationen je Einzelwert (Rechenzeit:
2031 2117
2032 ARI G&ZWB 1,0 2118 ARIa Guteb & ZWBc 1,0
2033 0,14 2119 0,14
2036 2122
2037 F1 G&ZWB 1,0 2123 F1d Gute & ZWB 1,0
2038 0,66 2124 0,66
2041 2127
2042 EQ G&ZWB 1,0 2128 EQe Gute & ZWB 1,0
2043 64,7 2129 64,7
2046 2132
2047 FP G&ZWB 1,0 2133 FPf Gute & ZWB 1,0
2048 31,01 2134 31,01
2051 2137
2138 a ARI: Adjusted Rand Indexb Gute: Mit Gute-Wörter-Listec ZWB: Mit Z-Wert-Begrenzung auf 1,64d F1: Precision und Recall kombinierte EQ: Erkennungsquote in %f FP: False-Positives-Quote in % (niedriger ist besser)
2139
2140
2141
2142
2052 Tab. 14: Test D5, ARI-Test mit 2 × 10 Distraktortexten und großem 2143 Tab. 14: Test D5, ARI-Test mit 2 × 10 Distraktortexten und großem
2057 2148
2058 [50]Die Verwendung der Guten Wörter führt zu einer Verbesserung der Erkennungsquoten, 2149 [56]Die Verwendung der Guten Wörter führt zu einer Verbesserung der Erkennungsquoten,
2059 die 2150 die
2061 Kombination führen beide Techniken zu einer Verbesserung der Erkennungsquoten, die 2152 Kombination führen beide Techniken zu einer Verbesserung der Erkennungsquoten, die
2062 nicht auf Kosten einer Verschlechterung der False-Positives-Quote erfolgt – dies ist 2153 nicht auf Kosten einer Verschlechterung der False-Positives-Quote erfolgt – dies ist
2063 auch an den verbesserten ARI-Werten ablesbar. Insgesamt bleibt die Gattungserkennung 2154 auch an den verbesserten ARI-Werten ablesbar. Insgesamt bleibt die Gattungserkennung
2066 guter F1-Wert >0,9 erzielt. Der Test A2 mit allen fünf Textsorten bringt bei 200 2157 guter F1-Wert >0,9 erzielt. Der Test A2 mit allen fünf Textsorten bringt bei 200
2067 MFWs mäßige Erfolge mit F1: 0,68, einer Erkennungsquote von 58% bei immerhin nur 2158 MFWs mäßige Erfolge mit F1: 0,68, einer Erkennungsquote von 58 % bei immerhin nur
2068 12,4% False-Positives hervor (etwas verlagert in Test A3: F1: 0,77, Erkennungsquote: 2159 12,4 % False-Positives hervor (etwas verlagert in Test A3: F1: 0,77, Erkennungsquote:
2069 76%, False-Positives: 22,1%). 2160 76%, False-Positives: 22,1%).
2070 [51]In dieser Studie sollte geprüft werden, ob das Gute-Wörter-Verfahren zu einer 2161 [57]In dieser Studie sollte geprüft werden, ob das Gute-Wörter-Verfahren zu einer
2071 Verbesserung der Genre-Erkennung beitragen kann. Dazu lässt sich ein positiver Befund 2162 Verbesserung der Genre-Erkennung beitragen kann. Dazu lässt sich ein positiver Befund
2075 Textsortenlabels vermieden wurden. 2166 Textsortenlabels vermieden wurden.
2076 [52]Die gewählten Bildungs- und Gesellschaftsromane sowie Tragödien und Komödien auf 2167 [58]Die gewählten Bildungs- und Gesellschaftsromane sowie Tragödien und Komödien auf
2077 digitalem Weg zu unterscheiden, bleibt eine anspruchsvolle Herausforderung. Zu 2168 digitalem Weg zu unterscheiden, bleibt eine anspruchsvolle Herausforderung. Zu
2618 2709
2710
2619 Tab. 15: Auszug aus den textsortenspezifischen Gute-Wörter-Listen: Jeweils 2711 Tab. 15: Auszug aus den textsortenspezifischen Gute-Wörter-Listen: Jeweils
2664 2756
2757
2665 Tab. 16: Duplikate in den Listen der Guten Wörter. 2758 Tab. 16: Duplikate in den Listen der Guten Wörter.
2666 [53]Das Verfahren, dass die Guten Wörter für eine Textsorte in Relation zu den vier 2759 [59]Das Verfahren, dass die Guten Wörter für eine Textsorte in Relation zu den vier
2667 anderen Textsorten auf Basis der mehrfach gemittelten Level-2-Differenzen gebildet 2760 anderen Textsorten auf Basis der mehrfach gemittelten Level-2-Differenzen gebildet
2677 Abenteuerroman fehlerfrei gelingt (vgl. Test C). 2770 Abenteuerroman fehlerfrei gelingt (vgl. Test C).
2678 [54]Wörter, die man in semantischer Hinsicht vielleicht auch intuitiv mit der Textsorte 2771 [60]Wörter, die man in semantischer Hinsicht vielleicht auch intuitiv mit der Textsorte
2679 in Verbringen wollte, sind in den Gute-Wörter-Listen selten – die meisten Wortformen 2772 in Verbringen wollte, sind in den Gute-Wörter-Listen selten – die meisten Wortformen
2680 findet man auch sonst in längeren MfW-Listen. Wenn man gezielt sucht, könnten etwa 2773 findet man auch sonst in längeren MfW-Listen. Wenn man gezielt sucht, könnten etwa
2685 intersubjektiv nachvollziehbar zu begründen. 2778 intersubjektiv nachvollziehbar zu begründen.
2686 [55]Verben stehen recht erwartbar meist in der 3. Person Singular Präteritum, in der 2779 [61]Verben stehen recht erwartbar meist in der 3. Person Singular Präteritum, in der
2687 Abenteuerroman-Liste sind jedoch relativ viele Verben in der 2. Person Singular 2780 Abenteuerroman-Liste sind jedoch relativ viele Verben in der 2. Person Singular
2688 Präsens enthalten – womöglich ein Indikator für einen erhöhten Anteil an direkter 2781 Präsens enthalten – womöglich ein Indikator für einen erhöhten Anteil an direkter
2689 Figurenrede. Dass ›Berlin‹ in den Listen steht, könnte damit korrespondieren, dass 2782 Figurenrede. Dass ›Berlin‹ in den Listen steht, könnte damit korrespondieren, dass
2700 [1] 2793 [1]
2701 Vgl. etwa Büttner et al. 2794 Vgl. etwa Büttner et al. 2017.
2702 2017.
2703 2795
2704 [2] 2796 [2]
2705 Vgl. Hettinger et al. 2016a, S. 158. 2797 Vgl. Hettinger et al. 2016a, S. 158.
2706 Hettinger et al. 2015 berichten über eine verbesserte Erkennungsleistung mit Hilfe 2798 Hettinger et al. 2015 berichten über eine verbesserte Erkennungsleistung mit Hilfe
2707 von SVMs, die auf der Basis von LDA-Topics erzielt wurde; vgl. ähnlich Hettinger 2799 von SVMs, die auf der Basis von LDA-Topics erzielt wurde; vgl. ähnlich Hettinger
2708 et al. 2016b. Kim et al. 2017 vergleichen englische Abenteuerromane, humoristische 2800 et al. 2016b. Kim et al. 2017 vergleichen englische Abenteuerromane, humoristische
2709 Romane, Science Fiction, Liebesgeschichten und Detektivromane auf der Grundlage 2801 Romane, Science Fiction, Liebesgeschichten und Detektivromane auf der Grundlage
2711 Emotionsmodell mit Hilfe von Maschinellem Lernen (RF und MLP). Vgl. weiterhin 2803 Emotionsmodell mit Hilfe von Maschinellem Lernen (RF und MLP). Vgl. weiterhin
2712 Schöch 2020; Calvo Tello 2019; Ardanuy / Sporleder 2014; Underwood et al. 2013; Eder / Rybicki 2011; Sharoff et al. 2010; Stamatatos et al. 2000; Kessler et al. 2804 Schöch 2020; Calvo Tello 2019; Underwood 2016; Ardanuy / Sporleder 2014; Underwood et al. 2013; Eder / Rybicki 2011; Sharoff et al. 2010; Stamatatos et al. 2000; Kessler et al.
2713 1997. 2805 1997.
2726 [6] 2818 [6]
2819 Gittel / Köppe 2022, S. 13–22, kritisieren die Studie von Underwood 2016 für ihre Thesenbildung zu Genre-Grenzen, dem Generationen-Bezug von Genres und der
2820 Kohärenz von Genres, die auf der Grundlage von linguistischen Parametern mit Hilfe
2821 von maschinellem Lernen erfolgt. U.a. anhand der Textsorten Pastiche und Parodie stellen
2822 Gittel / Köppe in Frage, inwieweit linguistische Textmerkmale hinreichend für eine
2823 Genre-Bestimmung sein können.
2824
2825 [7]
2826 Zum Modellieren als zentrale Tätigkeit im DH-Bereich vgl. McCarty 2005.
2827
2828 [8]
2829 Stachowiak 1973, S. 132. Vgl. zur Approximation bei der Modellbildung Saam / Gautschi 2015, S. 26–38. McCarty 2005, S 24, weist darauf hin, dass auch in der traditionellen Literaturwissenschaft Modelle
2830 omnipräsent sind – etwa bei der Beschreibung von Epochen. Gittel / Köppe 2022, S. 20, kritisieren insbesondere, dass die digitale Modellierung von Underwood anders
2831 als literaturwissenschaftliche Beschreibungen Kontexte und paratextuelle Informationen
2832 nicht einbeziehen, diese können jedoch für die Erkennung der Gattung eines Textes
2833 entscheidend sein.
2834
2835 [9]
2836 Zur Trennung von Ergebnisdaten und Interpretation vgl. auch Dimpel 2015.
2837
2838 [10]
2839 Dieses Verfahren lässt sich durchaus kritisieren: Bedacht wird dabei nicht, wie oft
2840 einem Text die Eigenschaft zugesprochen wird, zu einer Textsorte zu gehören. Unberücksichtigt
2841 bleibt auch, ob die Zuordnungen auf einheitlichen Genre-Definitionen basieren. Um
2842 eigene Textsortenmodelle zu entwickeln und die Zuordnungen auf dieser Basis zu überprüfen,
2843 standen für die Studie nicht die nötigen Ressourcen zur Verfügung. Insoweit deviante
2844 Epochenbegriffe eingehen sollten, würden damit allerdings gelebte Praktiken im Fach
2845 berücksichtigt.
2846
2847 [11]
2727 Vgl. Büttner / Proisl 2016. 2848 Vgl. Büttner / Proisl 2016.
2728 2849
2729 [7] 2850 [12]
2730 Vgl. Schöch 2014. 2851 Vgl. Schöch 2014.
2731 2852
2732 [8] 2853 [13]
2733 Hettinger et al. 2854 Hettinger et al.
2734 2016a, S. 161. 2855 2016a, S. 161.
2735 2856
2736 [9] 2857 [14]
2737 Vgl. Selbmann 1994, S. 96–120. 2858 Vgl. Selbmann 1994, S. 96–120.
2738 2859
2739 [10] 2860 [15]
2740 Selbmann 2861 Selbmann
2742 2863
2743 [11] 2864 [16]
2744 Dimpel 2018a; Dimpel et al. 2019; vgl. weiterhin Dimpel 2018b. 2865 Dimpel 2018a; Dimpel et al. 2019; vgl. weiterhin Dimpel 2018b.
2745 Ein didaktisch aufbereiteter Foliensatz steht hier. 2866 Ein didaktisch aufbereiteter Foliensatz steht hier.
2746 2867
2747 [12] 2868 [17]
2748 In Dimpel / Proisl 2019. 2869 In Dimpel / Proisl 2019.
2749 2870
2750 [13] 2871 [18]
2751 2872
2752 Weitere Parameter für die Ermittlung der Guten Wörter: Verwendet wurden volle 2873 Weitere Parameter für die Ermittlung der Guten Wörter: Verwendet wurden volle
2753 Texte nach Entfernung der ersten 10% der Wortformen. Die häufigsten 1.200 MFWs 2874 Texte nach Entfernung der ersten 10 % der Wortformen. Die häufigsten 1.200 MFWs
2754 wurden verwendet. Experimente mit 1.500 MFWs haben schlechtere Ergebnisse 2875 wurden verwendet. Experimente mit 1.500 MFWs haben schlechtere Ergebnisse
2756 Tragödien teils recht kurz sind. Der kürzeste Text kommt nach dem Entfernen der 2877 Tragödien teils recht kurz sind. Der kürzeste Text kommt nach dem Entfernen der
2757 ersten 10% auf 5.473 Wortformen. Aus Rechenzeitgründen wurden Wortformen nach 2878 ersten 10 % auf 5.473 Wortformen. Aus Rechenzeitgründen wurden Wortformen nach
2758 75.000 Wortformen nicht mehr berücksichtigt (Cutoff) – über die Hälfte der Texte 2879 75.000 Wortformen nicht mehr berücksichtigt (Cutoff) – über die Hälfte der Texte
2759 ist ohnehin nicht länger als 50.000 Wortformen. 2880 ist ohnehin nicht länger als 50.000 Wortformen.
2760 2881
2761 [14] 2882 [19]
2762 In einem weiteren Prätest wurde 2883 In einem weiteren Prätest wurde
2771 2892
2772 [15] 2893 [20]
2773 Abkürzungen: 2894 Abkürzungen:
2776 2897
2777 [16] 2898 [21]
2778 Vgl. etwa Büttner et al. 2017. 2899 Vgl. etwa Büttner et al. 2017.
2779 2900
2780 [17] 2901 [22]
2781 Weiterhin werden von der 2902 Weiterhin werden von der
2786 2907
2787 [18] 2908 [23]
2788 In 2909 In
2793 2914
2794 [19] 2915 [24]
2795 Ardanuy / Sporleder 2014, S. 37, akzeptieren etwa eine Klassifizierung bei 2916 Ardanuy / Sporleder 2014, S. 37, akzeptieren etwa eine Klassifizierung bei
2796 mehrfachen Labels als korrekt, wenn die erkannte Klasse zumindest zu einem der 2917 mehrfachen Labels als korrekt, wenn die erkannte Klasse zumindest zu einem der
2797 Label passt, während in der vorliegenden Studie angestrebt wurde, Texte mit 2918 Label passt, während in der vorliegenden Studie angestrebt wurde, Texte mit
2798 mehrfachen Labels zu meiden. Eine Vergleichbarkeit der Studien leidet – wie so oft 2919 mehrfachen Labels zu meiden. Eine Vergleichbarkeit der Studien leidet – wie so oft
2799 im Bereich der Digital Humanities – auch darunter, dass viele Publikationsorgane 2920 im Bereich der Digital Humanities – auch darunter, dass viele Publikationsorgane
2800 den Maximalumfang der Beiträge auf derart wenige Seiten einschränken, dass eine 2921 den Maximalumfang der Beiträge auf derart wenige Seiten einschränken, dass eine
2804 2925
2805 [20] 2926 [25]
2806 Vgl. zur 2927 Vgl. zur
2807 Z-Wert-Begrenzung Evert et al. 2016; Dimpel 2018b. 2928 Z-Wert-Begrenzung Evert et al. 2016; Dimpel 2018b.
2808 2929
2809 [21] 2930 [26]
2810 Es sind 40 2931 Es sind 40
2813 2934
2814 [22] 2935 [27]
2815 Vgl. 2936 Vgl.
2816 etwa Büttner et al. 2017. 2937 etwa Büttner et al. 2017.
2817 2938
2818 [23] 2939 [28]
2819 2940
2820 Eine ähnliche Tendenz beobachten Hettinger et al. 2016a, S. 160. 2941 Eine ähnliche Tendenz beobachten Hettinger et al. 2016a, S. 160.
2821 2942
2831 (CLfL). Hg. von Association for Computational Linguistics. (EACL 2014, Göteborg, 2952 (CLfL). Hg. von Association for Computational Linguistics. (EACL 2014, Göteborg,
2832 27.04.2014) Stroudsburg, PA, 2014, S. 31–39. DOI: 10.3115/v1/W14-0905Andreas Büttner / Friedrich Michael Dimpel / Stefan Evert / Fotis 2953 27.04.2014) Stroudsburg, PA, 2014, S. 31–39. DOI: 10.3115/v1/W14-0905Andreas Büttner / Thomas Proisl: Stilometrie interdisziplinär: Merkmalsselektion
2833 Jannidis / Steffen Pielström / Thomas Proisl / Isabella Reger / Christof
2834 Schöch / Thorsten Vitt: „Delta“ in der stilometrischen Autorschaftsattribution. In:
2835 Zeitschrift für digitale Geisteswissenschaften 2 (2017). DOI: 10.17175/2017_006Andreas Büttner / Thomas Proisl: Stilometrie interdisziplinär: Merkmalsselektion
2836 zur Differenzierung zwischen Übersetzer- und Fachvokabular. In: Modellierung, 2954 zur Differenzierung zwischen Übersetzer- und Fachvokabular. In: Modellierung,
2838 Forschungsparadigma. DHd 2016. Konferenzabstracts. Hg. von Elisabeth Burr. (DHd: 3, 2956 Forschungsparadigma. DHd 2016. Konferenzabstracts. Hg. von Elisabeth Burr. (DHd: 3,
2839 Leipzig, 07.–12.03.2016) Duisburg 2016, S. 70–74. DOI: 10.5281/zenodo.3679331 [Nachweis im GVK] José Calvo Tello: Gattungserkennung über 500 Jahre. In: DHd 2019 Digital 2957 Leipzig, 07.–12.03.2016) Duisburg 2016, S. 70–74. DOI: 10.5281/zenodo.3679331 [Nachweis im GVK] Andreas Büttner / Friedrich Michael Dimpel / Stefan Evert / Fotis
2958 Jannidis / Steffen Pielström / Thomas Proisl / Isabella Reger / Christof
2959 Schöch / Thorsten Vitt: „Delta“ in der stilometrischen Autorschaftsattribution. In:
2960 Zeitschrift für digitale Geisteswissenschaften 2 (2017). DOI: 10.17175/2017_006José Calvo Tello: Gattungserkennung über 500 Jahre. In: DHd 2019 Digital
2840 Humanities: multimedial & multimodal. Konferenzabstracts. Hg. von Patrick Sahle. 2961 Humanities: multimedial & multimodal. Konferenzabstracts. Hg. von Patrick Sahle.
2841 (DHd: 6, Frankfurt am Main u. a., 25.–29.03.2019) Frankfurt/Main 2019, S. 292–294. 2962 (DHd: 6, Frankfurt am Main u. a., 25.–29.03.2019) Frankfurt/Main 2019, S. 292–294.
2842 DOI: 10.5281/zenodo.2600812Friedrich Michael Dimpel / Daniel Schlager / Katharina Zeppezauer-Wachauer: Der 2963 DOI: 10.5281/zenodo.2600812Friedrich Michael Dimpel: Der Computerphilologe als Interpret – ein Teilzeit-Empiriker?
2843 Streit um die Birne. Autorschafts-Attributionstest mit Burrows’ Delta und dessen 2964 In: Literatur interpretieren. Interdisziplinäre Beiträge zur Theorie und Praxis. Hg.
2844 Optimierung für Kurztexte am Beispiel der ‚Halben Birne‘ des Konrad von Würzburg. 2965 von Jan Borkowski / Stefan Descher / Felicitas Ferder / Philipp Heine. Münster 2015,
2845 In: 2966 S. 339–359. DOI: 10.30965/9783957438973_018Friedrich Michael Dimpel (2018a): Die guten ins Töpfchen: Zur Anwendbarkeit von
2846 Digitale Mediävistik. Hg. von Roman Bleier / Franz Fischer / Torsten
2847 Hiltmann / Gabriel Viehhauser / Georg Vogeler. Berlin u. a. 2019, S. 71–90. [Nachweis im GVK] Friedrich Michael Dimpel / Thomas Proisl: Gute Wörter für Delta: Verbesserung der
2848 Autorschaftsattribution durch autorspezifische distinktive Wörter. In: DHd 2019
2849 Digital Humanities: multimedial & multimodal. Konferenzabstracts. Hg. von Patrick
2850 Sahle. (DHd: 6, Frankfurt am Main u. a., 25.–29.03.2019) Frankfurt/Main 2019,
2851 S. 296–299. DOI: 10.5281/zenodo.2600812Friedrich Michael Dimpel (2018a): Die guten ins Töpfchen: Zur Anwendbarkeit von
2852 Burrows’ Delta bei kurzen mittelhochdeutschen Texten nebst eines Attributionstests 2967 Burrows’ Delta bei kurzen mittelhochdeutschen Texten nebst eines Attributionstests
2857 mittelhochdeutsche Texte, Z-Wert-Begrenzung und ein Normalisierungswörterbuch. Oder: 2972 mittelhochdeutsche Texte, Z-Wert-Begrenzung und ein Normalisierungswörterbuch. Oder:
2858 Auf welche Wörter kommt es bei Delta an? Göttingen 2018. (= Dariah-DE Working Papers, 2973 Auf welche Wörter kommt es bei Delta an? Göttingen 2018. (= Dariah-DE Working Papers,
2859 25) URN: urn:nbn:de:gbv:7-dariah-2017-5-1Maciej Eder / Jan Rybicki: Deeper Delta Across Genres and Languages: Do We Really 2974 25) URN: urn:nbn:de:gbv:7-dariah-2017-5-1Friedrich Michael Dimpel / Daniel Schlager / Katharina Zeppezauer-Wachauer: Der
2860 Need the Most Frequent Words? In: Literary and Linguistic Computing 26 (2011), H. 2975 Streit um die Birne. Autorschafts-Attributionstest mit Burrows’ Delta und dessen
2861 3, 2976 Optimierung für Kurztexte am Beispiel der ‚Halben Birne‘ des Konrad von Würzburg.
2862 S. 315–321. DOI: 10.1093/llc/fqr031 [Nachweis im GVK] Stefan Evert / Fotis Jannidis / Steffen Pielström / Isabella Reger / Christof 2977 In:
2863 Schöch / Thorsten Vitt: Burrows’ Delta verstehen. In: Modellierung, Vernetzung, 2978 Digitale Mediävistik. Hg. von Roman Bleier / Franz Fischer / Torsten
2979 Hiltmann / Gabriel Viehhauser / Georg Vogeler. Berlin u. a. 2019, S. 71–90. [Nachweis im GVK] Friedrich Michael Dimpel / Thomas Proisl: Gute Wörter für Delta: Verbesserung der
2980 Autorschaftsattribution durch autorspezifische distinktive Wörter. In: DHd 2019
2981 Digital Humanities: multimedial & multimodal. Konferenzabstracts. Hg. von Patrick
2982 Sahle. (DHd: 6, Frankfurt am Main u. a., 25.–29.03.2019) Frankfurt/Main 2019,
2983 S. 296–299. DOI: 10.5281/zenodo.2600812Maciej Eder / Jan Rybicki: Deeper Delta Across Genres and Languages: Do We Really
2984 Need the Most Frequent Words? In: Literary and Linguistic Computing 26 (2011), H. 3,
2985 S. 315–321. DOI: 10.1093/llc/fqr031 [Nachweis im GVK] Stefan Evert / Fotis Jannidis / Friedrich Michael Dimpel / Christof
2986 Schöcht / Steffen Pielströmt / Thorsten Vitt / Isabella Regert / Andreas Büttner /
2987 Thomas Proisl: Burrows Delta verstehen. In: Modellierung, Vernetzung,
2864 Visualisierung. Die Digital Humanities als fächerübergreifendes Forschungsparadigma. 2988 Visualisierung. Die Digital Humanities als fächerübergreifendes Forschungsparadigma.
2865 DHd 2016. Konferenzabstracts. Hg. von Elisabeth Burr. 2. überarbeitete und erweiterte 2989 DHd 2016. Konferenzabstracts. Hg. von Elisabeth Burr. 2. überarbeitete und erweiterte
2866 Ausgabe. (DHd: 3, Leipzig, 07.–12.03.2016) Duisburg 2016, S. 62–65. [online] Stephan Fuchs: Hybride Helden: Gwigalois und Willehalm. Beiträge zum Heldenbild 2990 Ausgabe. (DHd: 3, Leipzig, 07.–12.03.2016) Duisburg 2016, S. 83–86. DOI: 110.5281/zenodo.3679330Stephan Fuchs: Hybride Helden: Gwigalois und Willehalm. Beiträge zum Heldenbild
2867 und zur Poetik des Romans im frühen 13. Jahrhundert. Heidelberg 1997. (= Frankfurter 2991 und zur Poetik des Romans im frühen 13. Jahrhundert. Heidelberg 1997. (= Frankfurter
2868 Beiträge zur Germanistik, 31) [Nachweis im GVK] Lena Hettinger / Martin Becker / Isabella Reger / Fotis Jannidis / Andreas Hotho: 2992 Beiträge zur Germanistik, 31) [Nachweis im GVK] Benjamin Gittel / Tilmann Köppe: On the Distance Between Traditional and DH-Based
2993 Genre Theory. In: Digitale Verfahren in der Literaturwissenschaft. Hg. von Jan Horstmann /
2994 Frank Fischer. Münster 2022. (= Sonderausgabe Textpraxis. Digitales Journal für Philologie,
2995 6). DOI: 10.17879/64059431694Lena Hettinger / Martin Becker / Isabella Reger / Fotis Jannidis / Andreas Hotho:
2869 Genre classification on German novels. In: Database and expert systems applications. 2996 Genre classification on German novels. In: Database and expert systems applications.
2870 26th International Conference. Hg. von Qiming Chen / Abdelkader Hameurlain / Farouk 2997 26th International Conference. Hg. von Qiming Chen / Abdelkader Hameurlain / Farouk
2871 Toumani / Roland Wagner / Hendrik Decker. (DEXA: 26, Valencia, 01.–04.09.2015). Cham 2998 Toumani / Roland Wagner / Hendrik Decker. (DEXA: 26, Valencia, 01.–04.09.2015). Cham
2872 u. a. 2015, S. 249–253. DOI: 10.1109/DEXA.2015.62 [Nachweis im GVK] Lena Hettinger / Isabella Reger / Fotis Jannidis / Andreas Hotho (2016a): 2999 u. a. 2015, S. 249–253. DOI: 10.1109/DEXA.2015.62 [Nachweis im GVK] Lena Hettinger / Isabella Reger / Fotis Jannidis / Andreas Hotho (2016a):
2873 Classification of Literary Subgenres. In: Modellierung, Vernetzung, Visualisierung. 3000 Classification of Literary Subgenres. In: Modellierung, Vernetzung, Visualisierung.
2878 Humanities 2016. Conference Abstracts. (DH 2016, Krakau, 11.-16.07.2016) Krakau 2016. 3005 Humanities 2016. Conference Abstracts. (DH 2016, Krakau, 11.-16.07.2016) Krakau 2016.
2879 [online]Brett Kessler / Geoffrey Nunberg / Hinrich Schutze: Automatic Detection of Text 3006 [online]Brett Kessler / Geoffrey Nunberg / Hinrich Schütze: Automatic Detection of Text
2880 Genre. In: 35th Annual Meeting of the Association for Computational Linguistics and 3007 Genre. In: 35th Annual Meeting of the Association for Computational Linguistics and
2887 Feldman / Anna Kazantseva / Nils Reiter / Stan Szpakowicz. (SIGHUM: 11, Vancouver, 3014 Feldman / Anna Kazantseva / Nils Reiter / Stan Szpakowicz. (SIGHUM: 11, Vancouver,
2888 04.08.2017) Stroudsburg, PA, 2017, S. 17–26. DOI: 10.18653/v1/W17-2203Christof Schöch: Corneille, Molière et les autres. Stilometrische Analysen zu 3015 04.08.2017) Stroudsburg, PA, 2017, S. 17–26. DOI: 10.18653/v1/W17-2203Willard McCarty: Humanities Computing. London / New York 2005. [Nachweis im GVK] Nicole J. Saam / Thomas Gautschi: Modellbildung in den Sozialwissenschaften. In: Handbuch
3016 Modellbildung und Simulation in den Sozialwissenschaften. Hg. von Norman Braun / Nicole
3017 J. Saam. Wiesbaden 2015, S. 15–60. DOI: 10.1007/978-3-658-01164-2Christof Schöch: Corneille, Molière et les autres. Stilometrische Analysen zu
2889 Autorschaft und Gattungszugehörigkeit im französischen Theater der Klassik. In: 3018 Autorschaft und Gattungszugehörigkeit im französischen Theater der Klassik. In:
2890 Literaturwissenschaft im digitalen Medienwandel. Hg. von Christof Schöch / Lars 3019 Literaturwissenschaft im digitalen Medienwandel. Hg. von Christof Schöch / Lars
2891 Schneider. Berlin 2014, S. 130–157. (= Philologie im Netz / Beiheft, 7) PDF. [online] Christof Schöch: Computational Genre Analysis. In: Digital Humanities for Literary 3020 Schneider. Berlin 2014, S. 130–157. (= Philologie im Netz / Beiheft, 7) PDF. [online] Christof Schöch: Computational Genre Analysis. In: Digital Humanities for Literary
2892 Studies: Methods, Tools & Practices. Hg. von James O'Sullivan. College Station, 3021 Studies: Methods, Tools & Practices. Hg. von James O'Sullivan. College Station,
2893 TX 2020. Preprint. PDF. [online] Armin Schulz: Poetik des Hybriden. Schema, Variation und intertextuelle 3022 TX 2020. Preprint. PDF. [online] Armin Schulz: Poetik des Hybriden. Schema, Variation und intertextuelle
2894 Kombinatorik in der Minne- und Aventiureepik: ‚Willehalm von Orlens‘ – ‚Partonopier 3023 Kombinatorik in der Minne- und Aventiureepik: ‚Willehalm von Orlens‘ – ‚Partonopier
2895 und Meliur‘ – ‚Wilhelm von Österreich‘ – ‚Die schöne Magelone‘. Berlin 2000. (= 3024 und Meliur‘ – ‚Wilhelm von Österreich‘ – ‚Die schöne Magelone‘. Berlin 2000. (= Philologische
2896 Philologische Studien und Quellen, 161) [Nachweis im GVK] Rolf Selbmann: Der deutsche Bildungsroman. 2., überarbeitete und erweiterte 3025 Studien und Quellen, 161) [Nachweis im GVK] Rolf Selbmann: Der deutsche Bildungsroman. 2., überarbeitete und erweiterte
2897 Auflage. Stuttgart u. a. 1994. (= Sammlung Metzler, 214) [Nachweis im GVK] Serge Sharoff / Zhili Wu / Katja Markert: The Web Library of Babel: evaluating 3026 Auflage. Stuttgart u. a. 1994. (= Sammlung Metzler, 214) [Nachweis im GVK] Serge Sharoff / Zhili Wu / Katja Markert: The Web Library of Babel: evaluating
2898 genre collections. In: Proceedings of the 7th International Conference on Language 3027 genre collections. In: Proceedings of the 7th International Conference on Language
2900 Maegaard / Joseph Mariani / Jan Odijk / Stelios Piperidis / Mike Rosner / Daniel 3029 Maegaard / Joseph Mariani / Jan Odijk / Stelios Piperidis / Mike Rosner / Daniel
2901 Tapias. (LREC’10: 7, Valetta, 17.-23.05.2010) Paris 2010. PDF. [online] Efstathios Stamatatos / Nikos Fakotakis / George Kokkinakis: Automatic text 3030 Tapias. (LREC’10: 7, Valetta, 17.-23.05.2010) Paris 2010. PDF. [online] Herbert Stachowiak: Allgemeine Modelltheorie. Wien 1973. [Nachweis im GVK] Efstathios Stamatatos / Nikos Fakotakis / George Kokkinakis: Automatic text
2902 categorization in terms of genre and author. In: Computational Linguistics 26 (2000), 3031 categorization in terms of genre and author. In: Computational Linguistics 26 (2000),
2904 Optimierung für Kurztexte am Beispiel der ‚Halben Birne‘ des Konrad von Würzburg: 3033 Optimierung für Kurztexte am Beispiel der ‚Halben Birne‘ des Konrad von Würzburg:
2905 Anhang – Dimpel: Gute Wörter und Level-2-Differenzen bei Delta. Hg. von ULB Münster. 3034 Anhang – Dimpel: Gute Wörter und Level-2-Differenzen bei Delta. Hg. von ULB Münster.
2906 2022. [online] Ted Underwood / Michael L. Black / Loretta Auvil / Boris Capitanu: Mapping mutable 3035 2022. [online] Ted Underwood / Michael L. Black / Loretta Auvil / Boris Capitanu: Mapping mutable
2908 Conference on Big Data. Hg. von Hu Xiaohua. 2 Bde. (Silicon Valley, CA, 3037 Conference on Big Data. Hg. von Hu Xiaohua. 2 Bde. (Silicon Valley, CA,
2909 06.–09.10.2013) Piscataway, NJ 2013. Bd. 1: S. 95–103. DOI: 10.1109/BigData.2013.6691676 [Nachweis im GVK] Gabriel Viehhauser: Digitale Gattungsgeschichten. Minnesang zwischen generischer 3038 06.–09.10.2013) Piscataway, NJ 2013. Bd. 1: S. 95–103. DOI: 10.1109/BigData.2013.6691676 [Nachweis im GVK] Ted Underwood: The Life Cycles of Genres. In: Cultural Analytics 2 (2016), H. 2. DOI:
3039 10.22148/16.005Gabriel Viehhauser: Digitale Gattungsgeschichten. Minnesang zwischen generischer
2910 Konstanz und Wende. In: Zeitschrift für digitale Geisteswissenschaften 2 (2017). DOI: 3040 Konstanz und Wende. In: Zeitschrift für digitale Geisteswissenschaften 2 (2017). DOI:
2915 3045
3046
3047
2916 Tabellenverzeichnis 3048 Tabellenverzeichnis
2917 3049
2918 3050 Tab. 1: Test A1, Erkennungsquotentest mit fünf Vergleichstexten der Zielklasse, Test A1,
2919 Tab. 1: Test A1, Erkennungsquotentest mit fünf Vergleichstexten der Zielklasse, Test 3051 ABE, BIL, GES, KOM, TRA. Beim Bag-of-Words-Test mit 10.000 MFWs werden die Texte 200
2920 A1, ABE, BIL, GES, KOM, TRA. Beim Bag-of-Words-Test mit 10.000 MFWs werden die Texte 3052 verschiedenen Bag-Sets pro Gattung zugelost und Mittelwerte gebildet.
2921 200 verschiedenen Bag-Sets pro Gattung zugelost und Mittelwerte gebildet.
2922 Abkürzungen: Gute: Mit Gute-Wörter-Liste / ZWB: Mit Z-Wert-Begrenzung auf 1.64 /
2923 Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzung.
2924
2925
2926 Tab. 2: Test A2, ARI-Test mit 4 × 10 Distraktortexten, ABE, BIL, GES, KOM, TRA. 3053 Tab. 2: Test A2, ARI-Test mit 4 × 10 Distraktortexten, ABE, BIL, GES, KOM, TRA.
2927 Abkürzungen: ARI: Adjusted Rand Index / F1: Precision und Recall kombiniert / Gute: 3054 Tab. 3: Test A2, ARI-Test mit 4 × 10 Distraktortexten, Einzelwerte, ABE,
2928 Mit Gute-Wörter-Liste / ZWB: Mit Z-Wert-Begrenzung auf 1.64 / EQ: Erkennungsquote 3055 BIL, GES, KOM, TRA.
2929 in 3056 Tab. 4: Test A2, ARI-Test mit 4 × 10 Distraktortexten, Bag-of-Words, ABE,
2930 % / FP: False-Positives-Quote in % (niedriger ist besser) / Basis: Ohne 3057 BIL, GES, KOM, TRA.
2931 Gute-Wörter-Liste und ohne Z-Wert-Begrenzung / Diff: Differenzen zwischen Werten mit 3058 Tab. 5: Test A3, ARI-Test mit 4 × 5 Distraktortexten, ABE, BIL, GES, KOM,
2932 Gute-Wörter-Liste und mit Z-Wert-Begrenzung zum Basiswert. 3059 TRA.
2933
2934
2935 Tab. 3: Test A2, ARI-Test mit 4 × 10 Distraktortexten, Einzelwerte, ABE, BIL, GES,
2936 KOM, TRA.
2937
2938
2939 Tab. 4: Test A2, ARI-Test mit 4 × 10 Distraktortexten, Bag-of-Words, ABE, BIL, GES,
2940 KOM, TRA.
2941
2942
2943 Tab. 5: Test A3, ARI-Test mit 4 × 5 Distraktortexten, ABE, BIL, GES, KOM, TRA.
2944
2945
2946 Tab. 6: Test B, ARI-Test mit 2 × 10 Distraktortexten, ABE, BIL, KOM. 3060 Tab. 6: Test B, ARI-Test mit 2 × 10 Distraktortexten, ABE, BIL, KOM.
2947
2948
2949 Tab. 7: Test C, ARI-Test mit 2 × 10 Distraktortexten, ABE, KOM, TRA. 3061 Tab. 7: Test C, ARI-Test mit 2 × 10 Distraktortexten, ABE, KOM, TRA.
2950 3062 Tab. 8: Test C, ARI-Test mit 2 × 10 Distraktortexten, Einzelwerte, ABE,
2951 3063 KOM, TRA (Volltexte, mit Guten Wörtern und Z-Wert-Begrenzung).
2952 Tab. 8: Test C, ARI-Test mit 2 × 10 Distraktortexten, Einzelwerte, ABE, KOM, TRA 3064 Tab. 9: Test D1, Erkennungsquotentest mit fünf Vergleichstexten der
2953 (Volltexte, mit Guten Wörtern und Z-Wert-Begrenzung). 3065 Zielklasse, ABE, BIL, GES.
2954 3066 Tab. 10: Test D2, ARI-Test mit 2 × 10 Distraktortexten, ABE, BIL, GES.
2955 3067 Tab. 11: Test D2, ARI-Test mit 2 × 10 Distraktortexten, Einzelwerte, ABE,
2956 Tab. 9: Test D1, Erkennungsquotentest mit fünf Vergleichstexten der Zielklasse, ABE,
2957 BIL, GES. 3068 BIL, GES.
2958
2959
2960 Tab. 10: Test D2, ARI-Test mit 2 × 10 Distraktortexten, ABE, BIL, GES.
2961
2962
2963 Tab. 11: Test D2, ARI-Test mit 2 × 10 Distraktortexten, Einzelwerte, ABE, BIL,
2964 GES.
2965
2966
2967 Tab. 12: Test D3, ARI-Test mit 2 × 5 Distraktortexten, ABE, BIL, GES. 3069 Tab. 12: Test D3, ARI-Test mit 2 × 5 Distraktortexten, ABE, BIL, GES.
2968 3070 Tab. 13: Test D4, ARI-Test mit 2 × 10 Distraktortexten und großem
2969 3071 MFW-Bereich, Volltexte, ABE, BIL, GES.
2970 Tab. 13: Test D4, ARI-Test mit 2 × 10 Distraktortexten und großem MFW-Bereich, 3072 Tab. 14: Test D5, ARI-Test mit 2 × 10 Distraktortexten und großem
2971 Volltexte, ABE, BIL, GES. 3073 MFW-Bereich, Bag-of-Words (20.000 Wortformen), ABE, BIL, GES.
2972 3074 Tab. 15: Auszug aus den textsortenspezifischen Gute-Wörter-Listen: Jeweils
2973 3075 100 Wortformen mit den höchsten Level-2-Differenzen.
2974 Tab. 14: Test D5, ARI-Test mit 2 × 10 Distraktortexten und großem MFW-Bereich,
2975 Bag-of-Words (20.000 Wortformen), ABE, BIL, GES.
2976
2977
2978 Tab. 15: Auszug aus den textsortenspezifischen Gute-Wörter-Listen: Jeweils 100
2979 Wortformen mit den höchsten Level-2-Differenzen.
2980
2981
2982 Tab. 16: Duplikate in den Listen der Guten Wörter. 3076 Tab. 16: Duplikate in den Listen der Guten Wörter.