Versionen vergleichen von : Gute Wörter, schwaches Gattungssignal. Differenzen zwischen Roman-Subgenres und Dramen mit Delta und signifikantem Wortschatz aufspüren

AltNeu
7 7
8 DOI: 10.17175/2022_009_v2 8 DOI: 10.17175/2022_009
9 Nachweis im OPAC der Herzog August Bibliothek: 1866422553 9 Nachweis im OPAC der Herzog August Bibliothek: 1819369722
10 Erstveröffentlichung: 17.11.2022 10 Erstveröffentlichung: 17.11.2022
11 Version 2.0: 14.11.2023
12 Lizenz: Sofern nicht anders angegeben 11 Lizenz: Sofern nicht anders angegeben
15 Medienlizenzen: Medienrechte liegen bei den Autor*innen 14 Medienlizenzen: Medienrechte liegen bei den Autor*innen
16 Letzte Überprüfung aller Verweise: 30.10.2023 15 Letzte Überprüfung aller Verweise: 25.10.2022
17 GND-Verschlagwortung: Gattungstheorie | Literaturgattung | Literaturwissenschaft | Statistische Stilistik |  16 GND-Verschlagwortung: Gattungstheorie | Literaturgattung | Literaturwissenschaft | Statistische Stilistik |
18 Empfohlene Zitierweise: Friedrich Michael Dimpel: Gute Wörter, schwaches Gattungssignal. Differenzen zwischen 17 Empfohlene Zitierweise: Friedrich Michael Dimpel: Gute Wörter, schwaches Gattungssignal. Differenzen zwischen
19 Roman-Subgenres und Dramen mit Delta und signifikantem Wortschatz 18 Roman-Subgenres und Dramen mit Delta und signifikantem Wortschatz
20 aufspüren. In: Zeitschrift für digitale Geisteswissenschaften 7 (2022). 17.11.2022. Version 2.0 vom 14.11.2023. HTML / XML / PDF. DOI: 10.17175/2022_009_v2 19 aufspüren. In: Zeitschrift für digitale Geisteswissenschaften. Wolfenbüttel 2022. text/html Format. DOI: 10.17175/2022_009
20
21 21
25 Abstract 25 Abstract
26
27 Untersucht wird, inwieweit sich die automatische Erkennung von Genres bzw. 26 Untersucht wird, inwieweit sich die automatische Erkennung von Genres bzw.
54 53
55
56 Version 2.0 (14.11.2023)
57 Korrekturen entlang der Monita in den Gutachten: Sprachliche Verbesserungen; Ergänzungen
58 in Kapitel 1 und 2 sowie in der Bibliografie; Ergänzung der Tabellenbeschriftungen,
59 Aufschlüsselung von Abkürzungen
60
61
62 1. Gattung und Stilometrie 54 1. Gattung und Stilometrie
63 2. Korpusgestaltung und Präprocessing 55 2. Korpusgestaltung und Präprocessing
64 3. Gute Wörter berechnen – Ermittlungsgruppe 56 3. Gute Wörter berechnen – Ermittlungsgruppe
65 4. Evaluierung – Kontrollgruppe 57 4. Evaluierung – Kontrollgruppe
66 4.1 Setting: Erkennungsquotentest mit fünf Vergleichstexten der Zielklasse 58 4.1 Setting: Erkennungsquotentest mit fünf Vergleichstexten der
59 Zielklasse
67 4.2 Setting: Tests mit F1-Wert und ARI 60 4.2 Setting: Tests mit F1-Wert und ARI
68 5. Ergebnisse 61 5. Ergebnisse
69 Testreihe A: ABE, BIL, GES, KOM, TRA
70 A1: Erkennungsquotentest mit fünf Vergleichstexten der Zielklasse
71 A2: ARI-Test mit 4 × 10 Distraktortexten
72 A3: ARI-Test mit 4 × 5 Distraktortexten
73 Test B: ABE, BIL, KOM
74 Test C: ABE, KOM, TRA
75 Test D: ABE, BIL, GES
76 D1: Erkennungsquotentest mit fünf Vergleichstexten der Zielklasse
77 D2: ARI-Test mit 2 × 10 Distraktortexten
78 D3: ARI-Test mit 2 × 5 Distraktortexten
79 D4: ARI-Test mit 2 × 10 Distraktortexten und größerem MFW-Bereich
80 6. Fazit 62 6. Fazit
89 Erkennungsquoten vorweisen kann,[1] ist die digitale Erkennung von literarischen Gattungen deutlich 71 Erkennungsquoten vorweisen kann,[1] ist die digitale Erkennung von literarischen Gattungen deutlich
90 anspruchsvoller.[2] Während bei Texten der gleichen Autorin / des gleichen Autors trotz aller 72 anspruchsvoller.[2] Während bei Texten des*der gleichen Autors*in trotz aller
91 Veränderungen im Laufe der Schaffensperiode und trotz 73 Veränderungen im Laufe der Schaffensperiode des*der gleichen Autors*in und trotz
92 einer möglichen Intention auf wechselnde Stilformen doch von einem mit sich selbst 74 einer möglichen Intention auf wechselnde Stilformen doch von einem mit sich selbst
95 sich bei der Zugehörigkeit eines Textes zu einer Gattung nicht um ein objektives 77 sich bei der Zugehörigkeit eines Textes zu einer Gattung nicht um ein objektives
96 Faktum, sondern um ein Attributionsphänomen – Literaturwissenschaftler*innen 78 Faktum, sondern um ein Attributionsphänomen – Literaturwissenschaftler*innen
97 schreiben Texten die Eigenschaft zu, einer Gattung anzugehören. Solche Zuweisungen 79 schreiben Texten die Eigenschaft zu, einer Gattung anzugehören. Solche Zuweisungen
105 ›Heldenepik‹ erhält. Dazu kommt, dass Gattungen nicht historisch konstant und 87 ›Heldenepik‹ erhält. Dazu kommt, dass Gattungen nicht historisch konstant und
106 gleichförmig bleiben – Gabriel Viehhauser zeigt in seiner Studie zum 88 gleichförmig bleiben – Gabriel Viehhauser zeigt in seiner Studie zum
107 mittelalterlichen Minnesang, wie sich Gattungswandel auch digital abbilden 89 mittelalterlichen Minnesang, wie sich Gattungswandel auch digital abbilden
110 Autorschaft (etwa bei sehr kurzen und nicht-normalisierten mittelhochdeutschen 92 Autorschaft (etwa bei sehr kurzen und nicht-normalisierten mittelhochdeutschen
111 Texten) Optimierungsverfahren entwickelt – etwa das Gute-Wörter-Verfahren, bei dem nicht alle Most-Frequent-Words (MFW), sondern signifikante Wortformen verwendet 93 Texten) Optimierungsverfahren entwickelt – etwa das Gute-Wörter-Verfahren, bei dem nicht alle Most-Frequent-Words (MFW), sondern signifikante Wortformen verwendet
112 werden.[5] In der vorliegenden Studie 94 werden.[5] In der vorliegenden Studie
117 zielgerichtet und unbeeinflusst durch Autorsignale oder Übersetzersignale untersucht werden kann, wird vermieden, mehrere 99 zielgerichtet und unbeeinflusst durch Autorsignale oder Übersetzersignale untersucht werden kann, wird vermieden, mehrere
118 Texte der gleichen Autor*innen und ins Deutsche übersetzte Texte zu berücksichtigen. 100 Texte der gleichen Autor*innen und ins Deutsche übersetzte Texte zu verwenden.
119 [3]Diese Studie ist also auf eine technische Fragestellung begrenzt – auf den Beitrag
120 des Gute-Wörter-Verfahrens zu einer verbesserten automatischen Textsortenerkennung.
121 Angestrebt wird nicht, traditionelle literaturwissenschaftliche Genre-Bestimmungen
122 zu kritisieren oder zu präzisieren.[6] Da versucht wird, eine Textsortenerkennung auf lexikalischer Basis vorzunehmen, könnte
123 dieser Versuch als Modellierung[7] einer Unterscheidbarkeit von Textsorten beschrieben werden. Für Computermodelle ist
124 wie auch bei herkömmlichen Modellen das Merkmal der verkürzten Repräsentation wesentlich –
125 das modellierte Objekt wird nicht vollständig durch das Modell abgebildet.[8] Aufgrund dieser Verkürzung ist es in der Regel problematisch, davon zu sprechen,
126 dass sich Ergebnisdaten, die auf der Basis von digitalen Modellen gewonnen werden,
127 unmittelbar dafür eignen, etwa hermeneutische Thesen zu verifizieren oder zu falsifizieren.[9]
128 [4]Gegenüber Studien, die auf Black-Box-Verfahren wie Maschinelles Lernen (siehe Anmerkung
129 2) setzen, haben Burrows’ Delta und das Gute-Wörter-Verfahren den Vorteil, dass die
130 Berechnungsgrundlage transparent nachvollzogen werden kann. Zudem lässt sich überprüfen,
131 welche Wortformen zur Textsortenunterscheidung besonders gut beitragen (siehe Anhang,
132 Tabelle 15).
133 101
135 103
136 [5]Verwendet wurden Texte, die im Internet frei verfügbar sind. Die meisten Texte 104 [3]Verwendet wurden Texte, die im Internet frei verfügbar sind. Die meisten Texte
137 entstammen dem Textgrid-Repository. Die Texte wurden dann als Abenteuerroman, 105 entstammen dem Textgrid-Repository. Die Texte wurden dann als Abenteuerroman,
139 literaturgeschichtlichen Darstellung oder in einem Forschungsbeitrag eine 107 literaturgeschichtlichen Darstellung oder in einem Forschungsbeitrag eine
140 einschlägige Bezeichnung vorgefunden wurde.[10] 108 einschlägige Bezeichnung vorgefunden wurde.
141 [6]Während der Einfluss des Übersetzersignals noch weniger gut erforscht ist,[11] kann das Autorsignal als ein 109 [4]Während der Einfluss des Übersetzersignals noch weniger gut erforscht ist,[6] kann das Autorsignal als ein
142 starkes stilometrisches Signal gelten.[12] 110 starkes stilometrisches Signal gelten.[7]
143 Falls beispielsweise bei der Untersuchung von Romansubgenres zahlreiche Texte von 111 Falls beispielsweise bei der Untersuchung von Romansubgenres zahlreiche Texte von
144 Karl May im Korpus vorhanden sind, ist denkbar, dass die Erkennung des Subgenres 112 Karl May im Korpus vorhanden sind, ist denkbar, dass die Erkennung des Subgenres
145 Abenteuerroman durch das Autorsignal von Karl May positiv beeinflusst wird – bei 113 Abenteuerroman durch das Autorsignal von Karl May positiv beeinflusst wird – bei
146 nicht wenigen Autor*innen ist eine gewisse Präferenz für eine oder wenige Gattungen 114 nicht wenigen Autor*innen ist eine gewisse Präferenz für eine oder wenige Gattungen
149 zusammenclustern, obwohl sie verschiedenen Gattungen zugeschrieben werden. Hettinger 117 zusammenclustern, obwohl sie verschiedenen Gattungen zugeschrieben werden. Hettinger
150 et al. berichten von einem Sinken der Erkennungsleistung, wenn man Autorduplikate 118 et al. berichten von einem Sinken der Erkennungsleistung, wenn man Autorduplikate
151 aus 119 aus
152 dem zuvor examinierten Korpus herausnimmt.[13] 120 dem zuvor examinierten Korpus herausnimmt.[8]
153 [7]Ein Problem bei der Korpus-Zusammenstellung sind Gattungsinterferenzen und mehrfache 121 [5]Ein Problem bei der Korpus-Zusammenstellung sind Gattungsinterferenzen und mehrfache
154 Labels: So ist Wilhelm Raabes Abu Telfan oder Die Heimkehr vom Mondgebirge sowohl als Entwicklungsroman, Gesellschaftsroman, Abenteuerroman, 122 Labels: So ist Wilhelm Raabes Abu Telfan oder Die Heimkehr vom Mondgebirge sowohl als Entwicklungsroman, Gesellschaftsroman, Abenteuerroman,
155 Bildungsroman als auch Zeitroman eingestuft worden. Rolf Selbmann etwa bespricht 123 Bildungsroman und als Zeitroman eingestuft worden. Rolf Selbmann etwa bespricht
156 einige offenbar als prototypisch verstandene Bildungsromane unter der Überschrift 124 einige offenbar als prototypisch verstandene Bildungsromane unter der Überschrift
157 »Zwischen Individualroman und Gesellschaftsroman«[14]; andernorts beruft sich 125 »Zwischen Individualroman und Gesellschaftsroman«[9]; andernorts beruft sich
158 Selbmann auf Benno von Wiese, der »die Epigonen [Immermann] zugleich als 126 Selbmann auf Benno von Wiese, der »die Epigonen [Immermann] zugleich als
159 ›Entwicklungsroman‹, als ›Abenteuerroman‹, als ›modernen Roman‹, wie auch als 127 ›Entwicklungsroman‹, als ›Abenteuerroman‹, als ›modernen Roman‹, wie auch als
160 ›gesellschaftlichen Zeitroman‹« versteht.[15] 128 ›gesellschaftlichen Zeitroman‹« versteht.[10]
161 [8]Bei der Korpus-Erstellung wurden Texte vermieden, die beispielsweise sowohl als 129 [6]Bei der Korpus-Erstellung wurden Texte vermieden, die beispielsweise sowohl als
162 Gesellschaftsroman als auch als Bildungsroman bezeichnet wurden, wodurch sich die 130 Gesellschaftsroman als auch als Bildungsroman bezeichnet wurden, wodurch sich die
169 können. 137 können.
170 [9]Für die Evaluierung des Gute-Wörter-Verfahrens wurden zwei überschneidungsfreie 138 [7]Für die Evaluierung des Gute-Wörter-Verfahrens wurden zwei überschneidungsfreie
171 Teilkorpora verwendet: Die 50 Texte der Ermittlungsgruppe, auf deren Grundlage die 139 Teilkorpora verwendet: Die 50 Texte der Ermittlungsgruppe, auf deren Grundlage die
173 (ebenfalls 50 Texte), die die Qualität der Gattungserkennung erfasst. 141 (ebenfalls 50 Texte), die die Qualität der Gattungserkennung erfasst.
174 [10]Autorduplikate im Korpus haben sich zwar nicht ganz vermeiden lassen, aber es konnten 142 [8]Autorduplikate im Korpus haben sich zwar nicht ganz vermeiden lassen, aber es konnten
175 doch Vorkehrungen getroffen werden, dass Autorduplikate weder bei der Berechnung der 143 doch Vorkehrungen getroffen werden, dass Autorduplikate weder bei der Berechnung der
184 152
185 [11]Im Vorfeld der Tests wurden einige Präprocessing-Schritte unternommen. Bei den Dramen 153 [9]Im Vorfeld der Tests wurden einige Preprocessing-Schritte unternommen. Bei den Dramen
186 habe ich die Regieanweisungen und die Sprecher*innenangaben entfernt. Die 154 habe ich die Regieanweisungen und die Sprecher*innenangaben entfernt. Die
188 mit Ausnahme der deutschen Umlaute wurden vereinheitlicht, Groß- in Kleinbuchstaben 156 mit Ausnahme der deutschen Umlaute wurden vereinheitlicht, Groß- in Kleinbuchstaben
189 konvertiert, Zahlen eliminiert. Weiterhin wurden die ersten 10 % der Token entfernt – mit diesem verbreiteten Verfahren werden paratextuelle Informationen und 157 konvertiert, Zahlen eliminiert. Weiterhin wurden die ersten 10% der Token entfernt.
190 Besonderheiten am Textanfang beseitigt. 158
191 159 3. Gute Wörter berechnen – Ermittlungsgruppe
192 3. Gute Wörter berechnen – Ermittlungsgruppe 160
193 161 [10]Das Verfahren zur Ermittlung der Guten Wörter ist ausführlich dokumentiert.[11] Für das
194 [12]Das Verfahren zur Ermittlung der Guten Wörter ist ausführlich dokumentiert.[16] Für das
195 Setting ist elementar, dass ein Text als Ratetext verwendet wird und gegen ein 162 Setting ist elementar, dass ein Text als Ratetext verwendet wird und gegen ein
196 Vergleichskorpus mit meist 15 bis 30 Distraktortexten getestet 163 Vergleichskorpus mit meist 15 bis 30 Distraktortexten getestet
197 wird. Das Vergleichskorpus enthält jedoch auch einen Vergleichstext der Zielklasse – 164 wird. Das Vergleichskorpus enthält jedoch auch einen Vergleichstext der Zielklasse
198 bei Autorschaftsfragen ist also ein Text von der Autorin / dem Autor im Vergleichskorpus, 165
199 von der / dem auch der Ratetext stammt; bei Gattungsfragen ein Vergleichstext der 166 bei Autorschaftsfragen ist also ein Text von dem*der Autor*in im Vergleichskorpus,
167 von dem*der auch der Ratetext stammt; bei Gattungsfragen ein Vergleichstext der
200 gleichen Gattung. 168 gleichen Gattung.
201 [13]Wie bei Burrows’ Delta üblich, wird für jedes Wort der Most-Frequent-Words (MFWs) die relative Häufigkeit gezählt, 169 [11]Wie bei Burrows’ Delta üblich, wird für jedes Wort der Most-Frequent-Words (MFWs) die relative Häufigkeit gezählt,
202 Standardabweichung und Z-Werte berechnet und sodann die 170 Standardabweichung und Z-Werte berechnet und sodann die
209 Störfaktor für die Erkennung der Zielklasse. 177 Störfaktor für die Erkennung der Zielklasse.
210 [14]In einem Setting mit nur einem Distraktortext und zwei Texten der gleichen Klasse 178 [12]In einem Setting mit nur einem Distraktortext und zwei Texten der gleichen Klasse
211 ist 179 ist
217 Autorschaftserkennung erbringen, jedoch auch so viele False-Positives produzieren, dass dieses Parameterset problematisch 185 Autorschaftserkennung erbringen, jedoch auch so viele False-Positives produzieren, dass dieses Parameterset problematisch
218 ist.[17] 186 ist.[12]
219 [15]Verwendet wird für jede Textsorte nun eine Liste mit den Wortformen der 187 [13]Verwendet wird für jede Textsorte nun eine Liste mit den Wortformen der
220 durchschnittlich höchsten Level-2-Differenzen von allen Ratetexten zu allen 188 durchschnittlich höchsten Level-2-Differenzen von allen Ratetexten zu allen
235 fünf textsortenspezifische Listen mit Guten Wörtern an. 203 fünf textsortenspezifische Listen mit Guten Wörtern an.
236 [16]Im Distraktorkorpus befinden sich für jede der vier Textsorten der Nicht-Zielklasse 204 [14]Im Distraktorkorpus befinden sich für jede der vier Textsorten der Nicht-Zielklasse
237 jeweils die Ermittlungsgruppentexte mit Nummern 01–05. Da für die wenigen 205 jeweils die Ermittlungsgruppentexte mit Nummern 01–05. Da für die wenigen
239 ist 207 ist
240 bei Bildung der Gute-Wörter-Listen kein Autoduplikat im Spiel.[18] 208 bei Bildung der Gute-Wörter-Listen kein Autoduplikat im Spiel.[13]
241 [17]Zudem soll vermieden werden, dass Wortformen, die in den Ratetexten – also innerhalb 209 [15]Zudem soll vermieden werden, dass Wortformen, die in den Ratetexten – also innerhalb
242 der Zielgattung – recht selten vorkommen, berücksichtigt werden. Damit eine Wortform 210 der Zielgattung – recht selten vorkommen, berücksichtigt werden. Damit eine Wortform
243 bei der Bildung der Liste der Guten Wörter berücksichtigt wird, muss sie in 211 bei der Bildung der Liste der Guten Wörter berücksichtigt wird, muss sie in
247 geeigneten Parameter handelt, wurde in Prätests mit kleinem Korpus und niedriger 215 geeigneten Parameter handelt, wurde in Prätests mit kleinem Korpus und niedriger
248 Iterationszahl ermittelt.[19] 216 Iterationszahl ermittelt.[14]
249 217
250 4. Evaluierung – Kontrollgruppe 218 4. Evaluierung – Kontrollgruppe
251 219
252 [22]Die fünf Listen der Guten Wörter werden in vier textsortenbezogenen Kombinationen 220 [16]Die fünf Listen der Guten Wörter werden in vier textsortenbezogenen Kombinationen
253 mit 221 mit
255 223
256 Test A) Fünf Textsorten: ABE, BIL, GES, KOM, TRA[20] 224 Test A) Fünf Textsorten: ABE, BIL, GES, KOM, TRA[15]
257 225
261 229
262 [23]Da die Unterscheidung von Bildungs- und Gesellschaftsroman aufgrund der thematischen 230 [17]Da die Unterscheidung von Bildungs- und Gesellschaftsroman aufgrund der thematischen
263 Nähe beider Subgenres eine besondere Herausforderung darstellt, ist für die 231 Nähe beider Subgenres eine besondere Herausforderung darstellt, ist für die
264 Testreihen B und C die beste Unterscheidungsleistung zu erwarten. 232 Testreihen B und C die beste Unterscheidungsleistung zu erwarten.
265 [24]Für die Testreihen A und D wird angelehnt an Studien zu mittelhochdeutschen 233 [18]Für die Testreihen A und D wird angelehnt an Studien zu mittelhochdeutschen
266 Texten[21] zunächst ein 234 Texten[16] zunächst ein
267 reiner Erkennungsquotentest mit fünf Vergleichstexten der 235 reiner Erkennungsquotentest mit fünf Vergleichstexten der
268 Zielklasse durchgeführt; für alle vier Testreihen wird ein ARI-Test (Adjusted Rand Index) durchgeführt, bei dem zusätzlich auch die 236 Zielklasse durchgeführt; für alle vier Testreihen wird ein ARI-Test (Adjusted Rand Index) durchgeführt, bei dem zusätzlich auch die
269 Erkennungsquoten (Recall), False-Positives und F1-Werte ausgegeben werden – zum Setting siehe unten. 237 Erkennungsquoten (Recall), False-Positives und F1-Werte ausgegeben werden – zum Setting siehe unten.
270 [25]Die kürzeste Liste der Guten Wörter, die alle Wortformen mit einer Level-2-Differenz 238 [19]Die kürzeste Liste der Guten Wörter, die alle Wortformen mit einer Level-2-Differenz
271 von >0,2 enthält, umfasst bei den Komödien 495 Wortformen, die längste Liste bei 239 von >0,2 enthält, umfasst bei den Komödien 495 Wortformen, die längste Liste bei
276 300 und 400 MFWs. Wenn die Guten Wörter nicht in ausreichend vielen Texten im 244 300 und 400 MFWs. Wenn die Guten Wörter nicht in ausreichend vielen Texten im
277 aktuellen Test vorhanden sind,[22] wird das Gute Wort nicht verwendet. Wenn dadurch 245 aktuellen Test vorhanden sind,[17] wird das Gute Wort nicht verwendet. Wenn dadurch
278 nicht mehr ausreichend viele Gute Wörter vorhanden sind, wird die MFW-Liste im 246 nicht mehr ausreichend viele Gute Wörter vorhanden sind, wird die MFW-Liste im
281 bevorzugten Verwendung der Guten Wörter die Rede. 249 bevorzugten Verwendung der Guten Wörter die Rede.
282 [26]Näherungsweise bildet ein Test mit 200 MFWs einen Level-2-Differenzen-Mittelwert 250 [20]Näherungsweise bildet ein Test mit 200 MFWs einen Level-2-Differenzen-Mittelwert
283 >0,4 und ein Test mit 200 MFWs einen Level-2-Differenzen-Mittelwert >0,2 ab. In 251 >0,4 und ein Test mit 200 MFWs einen Level-2-Differenzen-Mittelwert >0,2 ab. In
284 der Liste für die Gesellschaftsromane – sie liegt hinsichtlich ihrer Länge im 252 der Liste für die Gesellschaftsromane – sie liegt hinsichtlich ihrer Länge im
285 Mittelfeld – ist bei Wortform Nr. 300 eine Level-2-Differenz von 0,32 vorhanden. 253 Mittelfeld – ist bei Wortform Nr. 300 eine Level-2-Differenz von 0,32 vorhanden.
286 4.1 Setting: Erkennungsquotentest mit fünf Vergleichstexten der Zielklasse 254 4.1 Setting: Erkennungsquotentest mit fünf Vergleichstexten der
287 255 Zielklasse
288 [27]Bei dieser Evaluierung kommen fast alle 50 Texte der Kontrollgruppe zum Einsatz. In 256
257 [21]Bei dieser Evaluierung kommen fast alle 50 Texte der Kontrollgruppe zum Einsatz. In
289 das Vergleichskorpus werden jeweils fünf (von zehn in der Kontrollgruppe vorhandenen) 258 das Vergleichskorpus werden jeweils fünf (von zehn in der Kontrollgruppe vorhandenen)
293 Distraktortexte. 262 Distraktortexte.
294 [28]Wenn ein Text als Distraktortext gelost wird, zu dem ein Autorenduplikat in den 263 [22]Wenn ein Text als Distraktortext gelost wird, zu dem ein Autorenduplikat in den
295 Kontrollgruppentexten der Zielgattung vorhanden ist, dann wird dieser Distraktortext 264 Kontrollgruppentexten der Zielgattung vorhanden ist, dann wird dieser Distraktortext
299 Distraktortexte im Vergleichskorpus berücksichtigt werden, so dass auch hier 268 Distraktortexte im Vergleichskorpus berücksichtigt werden, so dass auch hier
300 Autorenduplikate das Gattungssignal nicht überlagern können.[23] 269 Autorenduplikate das Gattungssignal nicht überlagern können.[18]
301 [29]Bei der Zielgattung wird zunächst reihum jeweils einer der zehn Kontrollgruppentexten 270 [23]Bei der Zielgattung wird zunächst reihum jeweils einer der zehn Kontrollgruppentexten
302 als Vergleichstext ins Vergleichskorpus gegeben. Vier weitere Texte der Zielgattung 271 als Vergleichstext ins Vergleichskorpus gegeben. Vier weitere Texte der Zielgattung
305 274
306 [30]Wenn dieser Test mit Volltexten (gekürzt auf 100.000 Wortformen) durchgeführt wird, 275 [24]Wenn dieser Test mit Volltexten (gekürzt auf 100.000 Wortformen) durchgeführt wird,
307 werden pro Gattung zehn Durchgänge absolviert, um die Zufälligkeiten bei der 276 werden pro Gattung zehn Durchgänge absolviert, um die Zufälligkeiten bei der
312 ist 281 ist
313 ›Ziehen ohne Zurücklegen‹. Wenn ein Text – wie bei den kürzeren Komödien und 282 ›Ziehen ohne Zurücklegen‹. Wenn ein Text – wie bei den kürzeren Komödien und
314 Tragödien – weniger als 11.000 Wortformen umfasst, gilt für diesen Text der Modus 283 Tragödien – weniger als 11.000 Wortformen umfasst, gilt für diesen Text der Modus
315 ›Ziehen mit Zurücklegen‹. 284 ›Ziehen mit Zurücklegen‹.
316 [31]Insgesamt befinden sich fünf Vergleichstexte der Zielgattung und 20 Distraktortexte 285 [25]Insgesamt befinden sich fünf Vergleichstexte der Zielgattung und 20 Distraktortexte
317 (bei Test A) bzw. zehn Distraktortexte (bei den Tests B–D) im Vergleichskorpus. Die 286 (bei Test A) bzw. zehn Distraktortexte (bei den Tests B–D) im Vergleichskorpus. Die
318 erwartete Erkennungsquote bei einer Zufallsverteilung liegt damit bei 20 % (A) bzw. 287 erwartete Erkennungsquote bei einer Zufallsverteilung liegt damit bei 20% (A) bzw.
319 bei 33 % (B–D). 288 bei 33% (B–D).
320 [32]Da in der vorliegenden Studie überprüft werden soll, ob und inwieweit die bevorzugte 289 [26]Da in der vorliegenden Studie überprüft werden soll, ob und inwieweit die bevorzugte
321 Berücksichtigung der Guten Wörter zu einer verbesserten Textsortenerkennung führt, 290 Berücksichtigung der Guten Wörter zu einer verbesserten Textsortenerkennung führt,
329 Analyseverfahren und Auswertungsmethoden. Der Umgang mit Autorduplikaten ist ebenso 298 Analyseverfahren und Auswertungsmethoden. Der Umgang mit Autorduplikaten ist ebenso
330 wenig einheitlich wie der Umgang mit mehrfachen Gattungslabels.[24] 299 wenig einheitlich wie der Umgang mit mehrfachen Gattungslabels.[19]
331 300
333 302
334 [33]Bei diesem Testverfahren gebe ich jeweils alle zehn Kontrollgruppentexte der 303 [27]Bei diesem Testverfahren gebe ich jeweils alle zehn Kontrollgruppentexte der
335 Nicht-Zielgattungen als Distraktortexte ins Korpus – es sei denn, es befindet 304 Nicht-Zielgattungen als Distraktortexte ins Korpus – es sei denn, es befindet
336 sich ein Autorenduplikat zu einem Text der Zielgattung darunter; in diesem Fall wird 305 sich ein Autorenduplikat zu einem Text der Zielgattung darunter; in diesem Fall wird
347 Delta-Abstand. 316 Delta-Abstand.
348 [34]Durchgeführt werden diese Tests ohne weitere Optimierungsmaßnahmen wie das 317 [28]Durchgeführt werden dieses Tests ohne weitere Optimierungsmaßnahmen wie das
349 Eliminieren von Pronomina, jedoch mit Berücksichtigung der jeweiligen 318 Eliminieren von Pronomina, jedoch mit Berücksichtigung der jeweiligen
350 Gute-Wörter-Liste und mit Z-Wert-Begrenzung auf 1,64.[25] Die Z-Wert-Begrenzung 319 Gute-Wörter-Liste und mit Z-Wert-Begrenzung auf 1,64.[20] Die Z-Wert-Begrenzung
351 wird aufgrund der Annahme verwendet, dass textspezifisches Vokabular, das nicht 320 wird aufgrund der Annahme verwendet, dass textspezifisches Vokabular, das nicht
354 beruhen, weniger stark auf den Delta-Wert durchschlagen. 323 beruhen, weniger stark auf den Delta-Wert durchschlagen.
355 [35]Bei der Auswertung ist zu bedenken, dass der ARI nicht direkt mit einer herkömmlichen 324 [29]Bei der Auswertung ist zu bedenken, dass der ARI nicht direkt mit einer herkömmlichen
356 Erkennungsquote zu vergleichen ist. Bei dem oben beschriebenen Setting würde eine 325 Erkennungsquote zu vergleichen ist. Bei dem oben beschriebenen Setting würde eine
357 Zufallsverteilung nicht eine Erkennungsquote von 0%, sondern von 20 % bzw. 33% 326 Zufallsverteilung nicht eine Erkennungsquote von 0%, sondern von 20% bzw. 33%
358 ergeben. Eine Zufallsverteilung beim ARI-Wert ergibt den Wert 0; Clusterergebnisse, 327 ergeben. Eine Zufallsverteilung beim ARI-Wert ergibt den Wert 0; Clusterergebnisse,
362 abweichenden Wert für die Zufallsverteilung bedingt. Dieser Effekt verringert sich, 331 abweichenden Wert für die Zufallsverteilung bedingt. Dieser Effekt verringert sich,
363 je mehr die Erkennungsquote gegen 100 % und der ARI-Wert gegen 1 tendiert. 332 je mehr die Erkennungsquote gegen 100% und der ARI-Wert gegen 1 tendiert.
364 [36]Neben dem ARI wird hier auch Erkennungsquote (Recall) und False-Positives-Quote 333 [30]Neben dem ARI wird hier auch Erkennungsquote (Recall) und False-Positives-Quote
365 notiert, auf deren Basis die Precision ermittelt und der F1-Score für die 334 notiert, auf deren Basis die Precision ermittelt und der F1-Score für die
368 herangezogen; für die Nicht-Zielgattungstexte wird also keine Erkennungsquote 337 herangezogen; für die Nicht-Zielgattungstexte wird also keine Erkennungsquote
369 ermittelt – deren Clusterverhalten geht ohnehin in den ARI ein. Bei der 338 ermittelt – deren Clusterverhalten geht ohnehin in den ARI ein. Bei der
370 False-Positives-Quote werden die Nicht-Zielgattungstexte berücksichtigt, die zur 339 False-Positives-Quote werden die Nicht-Zielgattungstexte berücksichtigt, die zur
371 Zielgattung den niedrigsten Delta-Abstand aufweisen. Da hier ein Zielklassentext 340 Zielgattung den niedrigsten Delta-Abstand aufweisen. Da hier ein Zielklassentext
372 gegen ein Korpus mit 9 Zielklassentexten und 38–40[26] Distraktortexten (A) 341 gegen ein Korpus mit 9 Zielklassentexten und 38–40[21] Distraktortexten (A)
373 bzw. 18–20 Distraktortexten (B–D) getestet wird, würde eine Zufallsverteilung bei 342 bzw. 18–20 Distraktortexten (B–D) getestet wird, würde eine Zufallsverteilung bei
374 ca. 343 ca.
375 18,4 % (A) bzw. 31 % (B–D) liegen. Die F1-Werte liegen durchwegs deutlich über den 344 18,4% (A) bzw. 31% (B–D) liegen. Die F1-Werte liegen durchwegs deutlich über den
376 ARI-Werten; bei letzteren gehen auch Anzahl und Clusteringverhalten der 345 ARI-Werten; bei letzteren gehen auch Anzahl und Clusteringverhalten der
391 360
392 200a 361 200
393 300a 362 300
394 400a 363 400
395 364
396 365
397 366
398 Gutec & ZWBd 367 Gute & ZWB
399 57,3b 368 57,3
400 63,4 369 63,4
416 385
417 Basise 386 Basis
418 45,4 387 45,4
455 424
456 a Anzahl der MFWs, die verwendet werdenb Erkennungsquote in %c Gute: Mit Gute-Wörter-Listed ZWB: Mit Z-Wert-Begrenzung auf 1,64e Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzung
457
458
459
460 Tab. 1: Test A1, Erkennungsquotentest mit fünf Vergleichstexten der Zielklasse, Test A1, 425 Tab. 1: Test A1, Erkennungsquotentest mit fünf Vergleichstexten der Zielklasse, Test A1,
461 ABE, BIL, GES, KOM, TRA. Beim Bag-of-Words-Test mit 10.000 MFWs werden die Texte 200 426 ABE, BIL, GES, KOM, TRA. Beim Bag-of-Words-Test mit 10.000 MFWs werden die Texte 200
462 verschiedenen Bag-Sets pro Gattung zugelost und Mittelwerte gebildet. 427 verschiedenen Bag-Sets pro Gattung zugelost und Mittelwerte gebildet. Abkürzungen:
463 [37]Die Guten Wörter führen zu einer deutlichen Verbesserung der Erkennungsquote. Der 428 Gute: Mit Gute-Wörter-Liste / ZWB: Mit Z-Wert-Begrenzung auf 1.64 / Basis: Ohne Gute-Wörter-Liste
429 und ohne Z-Wert-Begrenzung.
430 [31]Die Guten Wörter führen zu einer deutlichen Verbesserung der Erkennungsquote. Der
464 Verbesserungseffekt ist am stärksten ausgeprägt beim Bag-of-Words-Verfahren mit 431 Verbesserungseffekt ist am stärksten ausgeprägt beim Bag-of-Words-Verfahren mit
466 Z-Wert-Begrenzung erreicht. Im Vergleich zu Autorschaftsstudien liegen die Quoten 433 Z-Wert-Begrenzung erreicht. Im Vergleich zu Autorschaftsstudien liegen die Quoten
467 deutlich niedriger – dort werden Werte >90 % erreicht, selbst wenn sich nur ein 434 deutlich niedriger – dort werden Werte >90% erreicht, selbst wenn sich nur ein
468 Text der Zielautorin / des Zielautors im Vergleichskorpus befindet.[27] 435 Text des*der Zielautors*in im Vergleichskorpus befindet.[22]
469 436
476 Volltexte 443 Volltexte
477 200a 444 200
478 300a 445 300
479 400a 446 400
480 447
481 448
482 ARIc Guted & ZWBe 449 ARI Gute & ZWB
483 0,34b 450 0,34
484 0,28 451 0,28
499 466
500 ARI Basisf 467 ARI Basis
501 0,25 468 0,25
511 478
512 F1g Gute & ZWB 479 F1 Gute & ZWB
513 0,68 480 0,68
541 508
542 EQh Gute & ZWB 509 EQ Gute & ZWB
543 58 510 58
571 538
572 FPi Gute & ZWB 539 FP Gute & ZWB
573 12,4 540 12,4
601 568
602 Diffj ARI 569 Diff ARI
603 0,09 570 0,09
619 586
620 a Anzahl der MFWs, die verwendet werdenb Erkennungsquote in %c ARI: Adjusted Rand Indexd Gute: Mit Gute-Wörter-Liste e ZWB: Mit Z-Wert-Begrenzung auf 1,64f Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzungg F1: Precision und Recall kombiniert h EQ: Erkennungsquote in % i FP: False-Positives-Quote in % (niedriger ist besser)j Diff: Differenzen zwischen Werten mit Gute-Wörter-Liste und mit Z-Wert-Begrenzung 587 Tab. 2: Test A2, ARI-Test mit 4 × 10 Distraktortexten, ABE, BIL, GES, KOM, TRA. Abkürzungen:
621 zum Basiswert 588 ARI: Adjusted Rand Index / F1: Precision und Recall kombiniert / Gute: Mit Gute-Wörter-Liste
622 589 / ZWB: Mit Z-Wert-Begrenzung auf 1.64 / EQ: Erkennungsquote in % / FP: False-Positives-Quote
623 590 in % (niedriger ist besser) / Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzung
624 591 / Diff: Differenzen zwischen Werten mit Gute-Wörter-Liste und mit Z-Wert-Begrenzung
625 592 zum Basiswert.
626 Tab. 2: Test A2, ARI-Test mit 4 × 10 Distraktortexten, ABE, BIL, GES, KOM, TRA. 593 [32]Die besten ARI-Werte finden sich bei der Kombination der bevorzugten Verwendung von
627 [38]Die besten ARI-Werte finden sich bei der Kombination der bevorzugten Verwendung von
628 Guten Wörtern mit der Z-Wert-Begrenzung bei 200 MFWs sowie bei den Werten mit 594 Guten Wörtern mit der Z-Wert-Begrenzung bei 200 MFWs sowie bei den Werten mit
636 begünstigt ein größerer Vektor eine bessere Erkennung. 602 begünstigt ein größerer Vektor eine bessere Erkennung.
637 [39]Hier ein Blick in die Einzelwerte für die Gattungen bei 200 MFWs mit Guten Wörtern 603 [33]Hier ein Blick in die Einzelwerte für die Gattungen bei 200 MFWs mit Guten Wörtern
638 und Z-Wert-Begrenzung: 604 und Z-Wert-Begrenzung:
643 200 MFWs 609 200 MFWs
644 ARIa 610 ARI
645 F1b 611 F1
646 EQc 612 EQ
647 FPd 613 FP
648 614
684 650
685 a ARI: Adjusted Rand Indexb F1: Precision und Recall kombiniertc EQ: Erkennungsquote in %d FP: False-Positives-Quote in % (niedriger ist besser)
686
687
688
689 Tab. 3: Test A2, ARI-Test mit 4 × 10 Distraktortexten, Einzelwerte, ABE, 651 Tab. 3: Test A2, ARI-Test mit 4 × 10 Distraktortexten, Einzelwerte, ABE,
690 BIL, GES, KOM, TRA. 652 BIL, GES, KOM, TRA.
691 [40]Der Gesellschaftsroman erweist sich als problematisch – mit niedriger Erkennungsquote 653 [34]Der Gesellschaftsroman erweist sich als problematisch – mit niedriger Erkennungsquote
692 und hoher False-Positives-Rate. Auch Bildungsromane und Tragödien zeigen eine hohe 654 und hoher False-Positives-Rate. Auch Bildungsromane und Tragödien zeigen eine hohe
693 False-Positives-Rate. Überraschend niedrig ist die False-Positives-Rate beim 655 False-Positives-Rate. Überraschend niedrig ist die False-Positives-Rate beim
694 Abenteuerroman, der insgesamt recht gut erkannt werden kann.[28] 656 Abenteuerroman, der insgesamt recht gut erkannt werden kann.[23]
695 [41]Die Bag-of-Words-Technik (hier mit 10.000 Wortformen) führt zu einer Verbesserung 657 [35]Die Bag-of-Words-Technik (hier mit 10.000 Wortformen) führt zu einer Verbesserung
696 der 658 der
709 671
710 ARIa 672 ARI
711 0,28 673 0,28
715 677
716 F1b 678 F1
717 0,64 679 0,64
721 683
722 EQc 684 EQ
723 53,3 685 53,3
727 689
728 FPd 690 FP
729 13,9 691 13,9
731 15,7 693 15,7
732
733
734 a ARI: Adjusted Rand Indexb F1: Precision und Recall kombiniertc EQ: Erkennungsquote in %d FP: False-Positives-Quote in % (niedriger ist besser)
735
736
737 694
753 710
754 ARIa Guteb & ZWBc 711 ARI Gute & ZWB
755 0,31 712 0,31
771 728
772 ARI Basisd 729 ARI Basis
773 0,19 730 0,19
783 740
784 F1e Gute & ZWB 741 F1 Gute & ZWB
785 0,76 742 0,76
813 770
814 EQf Gute & ZWB 771 EQ Gute & ZWB
815 74,00 772 74,00
843 800
844 FPg Gute & ZWB 801 FP Gute & ZWB
845 20,20 802 20,20
873 830
874 Diffh ARI 831 Diff ARI
875 0,12 832 0,12
891 848
892 a ARI: Adjusted Rand Indexb Gute: Mit Gute-Wörter-Listec ZWB: Mit Z-Wert-Begrenzung auf 1,64d Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzunge F1: Precision und Recall kombiniertf EQ: Erkennungsquote in %g FP: False-Positives-Quote in % (niedriger ist besser)h Diff: Differenzen zwischen Werten mit Gute-Wörter-Liste und mit Z-Wert-Begrenzung
893 zum Basiswert
894
895
896
897
898 Tab. 5: Test A3, ARI-Test mit 4 × 5 Distraktortexten, ABE, BIL, GES, KOM, 849 Tab. 5: Test A3, ARI-Test mit 4 × 5 Distraktortexten, ABE, BIL, GES, KOM,
899 TRA. 850 TRA.
900 [42]Gegenüber dem Test mit 4 × 10 Distraktortexten geht eine Verbesserung der 851 [36]Gegenüber dem Test mit 4 × 10 Distraktortexten geht eine Verbesserung der
901 Erkennungsquote mit einer Verschlechterung der False-Positives-Quote einher. Bei 200 852 Erkennungsquote mit einer Verschlechterung der False-Positives-Quote einher. Bei 200
916 867
917 ARIa Guteb & ZWBc 868 ARI Gute & ZWB
918 0,62 869 0,62
934 885
935 ARI Basisd 886 ARI Basis
936 0,5 887 0,5
946 897
947 F1e Gute & ZWB 898 F1 Gute & ZWB
948 0,88 899 0,88
976 927
977 EQf Gute & ZWB 928 EQ Gute & ZWB
978 86,7 929 86,7
1006 957
1007 FPg Gute & ZWB 958 FP Gute & ZWB
1008 10,0 959 10,0
1036 987
1037 Diffh ARI 988 Diff ARI
1038 0,12 989 0,12
1054 1005
1055 a ARI: Adjusted Rand Indexb Gute: Mit Gute-Wörter-Listec ZWB: Mit Z-Wert-Begrenzung auf 1,64d Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzunge F1: Precision und Recall kombiniertf EQ: Erkennungsquote in %g FP: False-Positives-Quote in % (niedriger ist besser)h Diff: Differenzen zwischen Werten mit Gute-Wörter-Liste und mit Z-Wert-Begrenzung
1056 zum Basiswert
1057
1058
1059
1060 Tab. 6: Test B, ARI-Test mit 2 × 10 Distraktortexten, ABE, BIL, KOM. 1006 Tab. 6: Test B, ARI-Test mit 2 × 10 Distraktortexten, ABE, BIL, KOM.
1061 [43]Bei diesem Test bleibt der schwer unterscheidbare Gesellschaftsroman außen vor. Die 1007 [37]Bei diesem Test bleibt der schwer unterscheidbare Gesellschaftsroman außen vor. Die
1062 ARI-Werte verbessern sich in der Zeile ›Gute & ZWB‹ auf ein ordentliches Niveau, 1008 ARI-Werte verbessern sich in der Zeile ›Gute & ZWB‹ auf ein ordentliches Niveau,
1070 1016
1071 [44]Hier wird unter den Romansubgenres nur der besser unterscheidbare Abenteuerroman 1017 [38]Hier wird unter den Romansubgenres nur der besser unterscheidbare Abenteuerroman
1072 einbezogen. Test C ist der einzige Test in dieser Studie, in der nicht verschiedene 1018 einbezogen. Test C ist der einzige Test in dieser Studie, in der nicht verschiedene
1073 Romansubgenres beteiligt sind – hier kann man am ehesten von drei verschiedenen 1019 Romansubgenres beteiligt sind – hier kann man am ehesten von drei verschiedenen
1074 Gattungen sprechen. 1020 Gattungen sprechen.
1084 1030
1085 ARIa Guteb & ZWBc 1031 ARI Gute & ZWB
1086 0,45 1032 0,45
1102 1048
1103 ARI Basisd 1049 ARI Basis
1104 0,45 1050 0,45
1114 1060
1115 F1e Gute & ZWB 1061 F1 Gute & ZWB
1116 0,78 1062 0,78
1144 1090
1145 EQf Gute & ZWB 1091 EQ Gute & ZWB
1146 73,33 1092 73,33
1174 1120
1175 FPg Gute & ZWB 1121 FP Gute & ZWB
1176 13,68 1122 13,68
1204 1150
1205 Diffh ARI 1151 Diff ARI
1206 0,00 1152 0,00
1222 1168
1223 a ARI: Adjusted Rand Indexb Gute: Mit Gute-Wörter-Listec ZWB: Mit Z-Wert-Begrenzung auf 1,64d Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzunge F1: Precision und Recall kombiniertf EQ: Erkennungsquote in %g FP: False-Positives-Quote in % (niedriger ist besser)h Diff: Differenzen zwischen Werten mit Gute-Wörter-Liste und mit Z-Wert-Begrenzung
1224 zum Basiswert
1225
1226
1227
1228 Tab. 7: Test C, ARI-Test mit 2 × 10 Distraktortexten, ABE, KOM, TRA. 1169 Tab. 7: Test C, ARI-Test mit 2 × 10 Distraktortexten, ABE, KOM, TRA.
1229 [45]Bei den ARI-Werten wird hier ein Niveau erreicht, das zwischen dem ordentlichen 1170 [39]Bei den ARI-Werten wird hier ein Niveau erreicht, das zwischen dem ordentlichen
1230 Niveau der Testreihe B (ABE, BIL, KOM) und dem mäßigen Niveau der Testreihe A liegt. 1171 Niveau der Testreihe B (ABE, BIL, KOM) und dem mäßigen Niveau der Testreihe A liegt.
1233 Erkennungsquote. 1174 Erkennungsquote.
1234 [46]Auch hier setzen sich die Durchschnittswerte aus stark schwankenden Einzelwerten 1175 [40]Auch hier setzen sich die Durchschnittswerte aus stark schwankenden Einzelwerten
1235 zusammen: Während der Abenteuerroman sehr gut clustert, sind die Daten bei den 1176 zusammen: Während der Abenteuerroman sehr gut clustert, sind die Daten bei den
1264 1205
1265
1266 Tab. 8: Test C, ARI-Test mit 2 × 10 Distraktortexten, Einzelwerte, ABE, 1206 Tab. 8: Test C, ARI-Test mit 2 × 10 Distraktortexten, Einzelwerte, ABE,
1270 1210
1271 [47]Anders als in den Testreihen A–C werden hier keine verschiedenen Gattungen, sondern 1211 [41]Anders als in den Testreihen A–C werden hier keine verschiedenen Gattungen, sondern
1272 lediglich Romansubgenres untersucht. Dies hat den Vorteil, dass dabei die teils 1212 lediglich Romansubgenres untersucht. Dies hat den Vorteil, dass dabei die teils
1289 1229
1290 Gutea & ZWBb 1230 Gute & ZWB
1291 51,2 1231 51,2
1302 1242
1303 Basisc 1243 Basis
1304 35,7 1244 35,7
1331 1271
1332 a Gute: Mit Gute-Wörter-Listeb ZWB: Mit Z-Wert-Begrenzung auf 1,64c Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzung
1333
1334
1335
1336
1337 Tab. 9: Test D1, Erkennungsquotentest mit fünf Vergleichstexten der 1272 Tab. 9: Test D1, Erkennungsquotentest mit fünf Vergleichstexten der
1338 Zielklasse, ABE, BIL, GES. 1273 Zielklasse, ABE, BIL, GES.
1339 [48]Die Erkennungsquote mit den Optimierungstechniken ist beim Bag-of-Words-Verfahren 1274 [42]Die Erkennungsquote mit den Optimierungstechniken ist beim Bag-of-Words-Verfahren
1340 etwas besser als mit Volltexten; bei Test A war 1275 etwas besser als mit Volltexten; bei Test A war
1363 1298
1364 ARIa Guteb & ZWBc 1299 ARI Gute & ZWB
1365 0,22 1300 0,22
1381 1316
1382 ARI Basisd 1317 ARI Basis
1383 0,04 1318 0,04
1393 1328
1394 F1e Gute & ZWB 1329 F1 Gute & ZWB
1395 0,63 1330 0,63
1423 1358
1424 EQf Gute & ZWB 1359 EQ Gute & ZWB
1425 55 1360 55
1453 1388
1454 FPg Gute & ZWB 1389 FP Gute & ZWB
1455 18,29 1390 18,29
1483 1418
1484 Diffh ARI 1419 Diff ARI
1485 0,18 1420 0,18
1501 1436
1502 a ARI: Adjusted Rand Indexb Gute: Mit Gute-Wörter-Listec ZWB: Mit Z-Wert-Begrenzung auf 1,64d Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzunge F1: Precision und Recall kombiniertf EQ: Erkennungsquote in %g FP: False-Positives-Quote in % (niedriger ist besser)h Diff: Differenzen zwischen Werten mit Gute-Wörter-Liste und mit Z-Wert-Begrenzung
1503 zum Basiswert
1504
1505
1506
1507
1508 Tab. 10: Test D2, ARI-Test mit 2 × 10 Distraktortexten, ABE, BIL, GES. 1437 Tab. 10: Test D2, ARI-Test mit 2 × 10 Distraktortexten, ABE, BIL, GES.
1509 [49]Wiederum ist, wie ein Blick in die Subgenre-Einzelwerte in der Folgetabelle zeigt, 1438 [43]Wiederum ist, wie ein Blick in die Subgenre-Einzelwerte in der Folgetabelle zeigt,
1510 die Erkennung beim Abenteuerroman deutlich besser, das Clustering beim 1439 die Erkennung beim Abenteuerroman deutlich besser, das Clustering beim
1520 200 MFWs 1449 200 MFWs
1521 ARIa 1450 ARI
1522 F1b 1451 F1
1523 EQc 1452 EQ
1524 FPd 1453 FP
1525 1454
1547 1476
1548 a ARI: Adjusted Rand Indexb F1: Precision und Recall kombiniertc EQ: Erkennungsquote in %d FP: False-Positives-Quote in % (niedriger ist besser)
1549
1550
1551
1552
1553 Tab. 11: Test D2, ARI-Test mit 2 × 10 Distraktortexten, Einzelwerte, ABE, 1477 Tab. 11: Test D2, ARI-Test mit 2 × 10 Distraktortexten, Einzelwerte, ABE,
1557 1481
1558 [50]Die gleiche Tendenz auf noch schlechterem Niveau zeigt sich bei der Variante mit nur 1482 [44]Die gleiche Tendenz auf noch schlechterem Niveau zeigt sich bei der Variante mit nur
1559 fünf (statt zehn) ausgelosten Distraktortexten je Nicht-Zielklasse: 1483 fünf (statt zehn) ausgelosten Distraktortexten je Nicht-Zielklasse:
1569 1493
1570 ARIa Guteb & ZWBc 1494 ARI Gute & ZWB
1571 0,06 1495 0,06
1587 1511
1588 ARI Basisd 1512 ARI Basis
1589 -0,01 1513 -0,01
1599 1523
1600 F1e Gute & ZWB 1524 F1 Gute & ZWB
1601 0,60 1525 0,60
1629 1553
1630 EQf Gute & ZWB 1554 EQ Gute & ZWB
1631 59,00 1555 59,00
1659 1583
1660 FPg Gute & ZWB 1584 FP Gute & ZWB
1661 38,70 1585 38,70
1689 1613
1690 Diffh ARI 1614 Diff ARI
1691 0,07 1615 0,07
1707 1631
1708 a ARI: Adjusted Rand Indexb Gute: Mit Gute-Wörter-Listec ZWB: Mit Z-Wert-Begrenzung auf 1,64d Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzunge F1: Precision und Recall kombiniertf EQ: Erkennungsquote in %g FP: False-Positives-Quote in % (niedriger ist besser)h Diff: Differenzen zwischen Werten mit Gute-Wörter-Liste und mit Z-Wert-Begrenzung
1709 zum Basiswert
1710
1711
1712
1713
1714 Tab. 12: Test D3, ARI-Test mit 2 × 5 Distraktortexten, ABE, BIL, GES. 1632 Tab. 12: Test D3, ARI-Test mit 2 × 5 Distraktortexten, ABE, BIL, GES.
1715 [51]Problematisch an diesem Setting ist die Kombination von zehn Distraktortexten mit 1633 [45]Problematisch an diesem Setting ist die Kombination von zehn Distraktortexten mit
1716 neun Zielklassentexten, gegen die im Einzeltest ein Zielklassentext getestet wird. 1634 neun Zielklassentexten, gegen die im Einzeltest ein Zielklassentext getestet wird.
1717 Eine Zufallsverteilung würde eine Erkennungsquote von 31 % ergeben. Die 1635 Eine Zufallsverteilung würde eine Erkennungsquote von 31% ergeben. Die
1718 Erkennungsquoten müssten also deutlich höher liegen, um einen guten ARI-Wert zu 1636 Erkennungsquoten müssten also deutlich höher liegen, um einen guten ARI-Wert zu
1725 1643
1726 [52]Da die kürzeren Komödien und Tragödien hier unberücksichtigt bleiben, wird es 1644 [46]Da die kürzeren Komödien und Tragödien hier unberücksichtigt bleiben, wird es
1727 möglich, einen größeren Bereich an MFWs in den Test einzubeziehen. In den übrigen 1645 möglich, einen größeren Bereich an MFWs in den Test einzubeziehen. In den übrigen
1733 2.530 (GES) Wortformen. Bei der Evaluation werden nun 500–4.000 MFWs verwendet. 1651 2.530 (GES) Wortformen. Bei der Evaluation werden nun 500–4.000 MFWs verwendet.
1734 [53]Neben den üblichen Tests (in der Folgetabelle von unten nach oben: ›Basis‹: ohne Gute 1652 [47]Neben den üblichen Tests (in der Folgetabelle von unten nach oben: ›Basis‹: ohne Gute
1735 Wörter, ohne Z-Wert-Begrenzung; ›ZWB 1,64‹: nur Z-Wert-Begrenzung, ohne Gute Wörter; 1653 Wörter, ohne Z-Wert-Begrenzung; ›ZWB 1,64‹: nur Z-Wert-Begrenzung, ohne Gute Wörter;
1755 1673
1756 ARIa Guteb & ZWBc 1,64 1674 ARI G&ZWB 1,64
1757 0,19 1675 0,19
1766 1684
1767 ARI Gute & ZWB 1,2 1685 ARI G&ZWB 1,2
1768 0,17 1686 0,17
1777 1695
1778 ARI Gute & ZWB 1,0 1696 ARI G&ZWB 1,0
1779 0,14 1697 0,14
1788 1706
1789 ARI Gute & ZWBneg 1707 ARI G&ZWBneg
1790 0,17 1708 0,17
1821 1739
1822 ARI Basisd 1740 ARI Basis
1823 0,08 1741 0,08
1843 1761
1844 F1e Gute & ZWB 1,64 1762 F1 G&ZWB 1,64
1845 0,68 1763 0,68
1854 1772
1855 F1 Gute & ZWB 1,2 1773 F1 G&ZWN 1,2
1856 0,67 1774 0,67
1865 1783
1866 F1 Gute & ZWB 1,0 1784 F1 G&ZWB 1,0
1867 0,66 1785 0,66
1876 1794
1877 F1 Gute & ZWBneg 1795 F1 G&ZWBneg
1878 0,70 1796 0,70
1931 1849
1932 EQf Gute & ZWB 1,64 1850 EQ G&ZWB 1,64
1933 66,67 1851 66,67
1942 1860
1943 EQ Gute & ZWB 1,2 1861 EQ G&ZWB 1,2
1944 63,33 1862 63,33
1953 1871
1954 EQ Gute & ZWB 1,0 1872 EQ G&ZWB 1,0
1955 63,33 1873 63,33
1964 1882
1965 EQ Gute & ZWBneg 1883 EQ G&ZWBneg
1966 70 1884 70
2019 1937
2020 FPg Gute & ZWB 1,64 1938 FP G&ZWB 1,64
2021 29,74 1939 29,74
2030 1948
2031 FP Gute & ZWB 1,2 1949 FP G&ZWB 1,2
2032 26,14 1950 26,14
2041 1959
2042 FP Gute & ZWB 1,0 1960 FP G&ZWB 1,0
2043 27,81 1961 27,81
2052 1970
2053 FP Gute & ZWBneg 1971 FP G&ZWBneg
2054 31,32 1972 31,32
2096 2014
2097 a ARI: Adjusted Rand Indexb Gute: Mit Gute-Wörter-Listec ZWB: Mit Z-Wert-Begrenzung auf 1,64d Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzunge F1: Precision und Recall kombiniertf EQ: Erkennungsquote in %g FP: False-Positives-Quote in % (niedriger ist besser)
2098
2099
2100
2101 Tab. 13: Test D4, ARI-Test mit 2 × 10 Distraktortexten und großem 2015 Tab. 13: Test D4, ARI-Test mit 2 × 10 Distraktortexten und großem
2102 MFW-Bereich, Volltexte, ABE, BIL, GES. 2016 MFW-Bereich, Volltexte, ABE, BIL, GES.
2103 [54]Bei den optimalen Parametern (Gute Wörter kombiniert mit Z-Wert-Begrenzung auf 1,0) 2017 [48]Bei den optimalen Parametern (Gute Wörter kombiniert mit Z-Wert-Begrenzung auf 1,0)
2104 werden sowohl bei ARI, F1-Score, Erkennungsquote und False-Positives die besten Werte 2018 werden sowohl bei ARI, F1-Score, Erkennungsquote und False-Positives die besten Werte
2105 erreicht. Der F1-Score verbessert sich gegenüber dem besten Wert in Testreihe D2 (0,67) nun auf 0,76. 2019 erreicht. Der F1-Score verbessert sich gegenüber dem besten Wert in Testreihe D2 (0,67) nun auf 0,76.
2106 [55]Für die optimalen Werte wurde noch ein Bag-of-Words-Tests durchgeführt mit 2020 [49]Für die optimalen Werte wurde noch ein Bag-of-Words-Tests durchgeführt mit
2107 Bag-of-Words mit je 20.000 Wortformen und 200 Iterationen je Einzelwert (Rechenzeit: 2021 Bag-of-Words mit je 20.000 Wortformen und 200 Iterationen je Einzelwert (Rechenzeit:
2117 2031
2118 ARIa Guteb & ZWBc 1,0 2032 ARI G&ZWB 1,0
2119 0,14 2033 0,14
2122 2036
2123 F1d Gute & ZWB 1,0 2037 F1 G&ZWB 1,0
2124 0,66 2038 0,66
2127 2041
2128 EQe Gute & ZWB 1,0 2042 EQ G&ZWB 1,0
2129 64,7 2043 64,7
2132 2046
2133 FPf Gute & ZWB 1,0 2047 FP G&ZWB 1,0
2134 31,01 2048 31,01
2137 2051
2138 a ARI: Adjusted Rand Indexb Gute: Mit Gute-Wörter-Listec ZWB: Mit Z-Wert-Begrenzung auf 1,64d F1: Precision und Recall kombinierte EQ: Erkennungsquote in %f FP: False-Positives-Quote in % (niedriger ist besser)
2139
2140
2141
2142
2143 Tab. 14: Test D5, ARI-Test mit 2 × 10 Distraktortexten und großem 2052 Tab. 14: Test D5, ARI-Test mit 2 × 10 Distraktortexten und großem
2148 2057
2149 [56]Die Verwendung der Guten Wörter führt zu einer Verbesserung der Erkennungsquoten, 2058 [50]Die Verwendung der Guten Wörter führt zu einer Verbesserung der Erkennungsquoten,
2150 die 2059 die
2152 Kombination führen beide Techniken zu einer Verbesserung der Erkennungsquoten, die 2061 Kombination führen beide Techniken zu einer Verbesserung der Erkennungsquoten, die
2153 nicht auf Kosten einer Verschlechterung der False-Positives-Quote erfolgt – dies ist 2062 nicht auf Kosten einer Verschlechterung der False-Positives-Quote erfolgt – dies ist
2154 auch an den verbesserten ARI-Werten ablesbar. Insgesamt bleibt die Gattungserkennung 2063 auch an den verbesserten ARI-Werten ablesbar. Insgesamt bleibt die Gattungserkennung
2157 guter F1-Wert >0,9 erzielt. Der Test A2 mit allen fünf Textsorten bringt bei 200 2066 guter F1-Wert >0,9 erzielt. Der Test A2 mit allen fünf Textsorten bringt bei 200
2158 MFWs mäßige Erfolge mit F1: 0,68, einer Erkennungsquote von 58 % bei immerhin nur 2067 MFWs mäßige Erfolge mit F1: 0,68, einer Erkennungsquote von 58% bei immerhin nur
2159 12,4 % False-Positives hervor (etwas verlagert in Test A3: F1: 0,77, Erkennungsquote: 2068 12,4% False-Positives hervor (etwas verlagert in Test A3: F1: 0,77, Erkennungsquote:
2160 76%, False-Positives: 22,1%). 2069 76%, False-Positives: 22,1%).
2161 [57]In dieser Studie sollte geprüft werden, ob das Gute-Wörter-Verfahren zu einer 2070 [51]In dieser Studie sollte geprüft werden, ob das Gute-Wörter-Verfahren zu einer
2162 Verbesserung der Genre-Erkennung beitragen kann. Dazu lässt sich ein positiver Befund 2071 Verbesserung der Genre-Erkennung beitragen kann. Dazu lässt sich ein positiver Befund
2166 Textsortenlabels vermieden wurden. 2075 Textsortenlabels vermieden wurden.
2167 [58]Die gewählten Bildungs- und Gesellschaftsromane sowie Tragödien und Komödien auf 2076 [52]Die gewählten Bildungs- und Gesellschaftsromane sowie Tragödien und Komödien auf
2168 digitalem Weg zu unterscheiden, bleibt eine anspruchsvolle Herausforderung. Zu 2077 digitalem Weg zu unterscheiden, bleibt eine anspruchsvolle Herausforderung. Zu
2709 2618
2710
2711 Tab. 15: Auszug aus den textsortenspezifischen Gute-Wörter-Listen: Jeweils 2619 Tab. 15: Auszug aus den textsortenspezifischen Gute-Wörter-Listen: Jeweils
2756 2664
2757
2758 Tab. 16: Duplikate in den Listen der Guten Wörter. 2665 Tab. 16: Duplikate in den Listen der Guten Wörter.
2759 [59]Das Verfahren, dass die Guten Wörter für eine Textsorte in Relation zu den vier 2666 [53]Das Verfahren, dass die Guten Wörter für eine Textsorte in Relation zu den vier
2760 anderen Textsorten auf Basis der mehrfach gemittelten Level-2-Differenzen gebildet 2667 anderen Textsorten auf Basis der mehrfach gemittelten Level-2-Differenzen gebildet
2770 Abenteuerroman fehlerfrei gelingt (vgl. Test C). 2677 Abenteuerroman fehlerfrei gelingt (vgl. Test C).
2771 [60]Wörter, die man in semantischer Hinsicht vielleicht auch intuitiv mit der Textsorte 2678 [54]Wörter, die man in semantischer Hinsicht vielleicht auch intuitiv mit der Textsorte
2772 in Verbringen wollte, sind in den Gute-Wörter-Listen selten – die meisten Wortformen 2679 in Verbringen wollte, sind in den Gute-Wörter-Listen selten – die meisten Wortformen
2773 findet man auch sonst in längeren MfW-Listen. Wenn man gezielt sucht, könnten etwa 2680 findet man auch sonst in längeren MfW-Listen. Wenn man gezielt sucht, könnten etwa
2778 intersubjektiv nachvollziehbar zu begründen. 2685 intersubjektiv nachvollziehbar zu begründen.
2779 [61]Verben stehen recht erwartbar meist in der 3. Person Singular Präteritum, in der 2686 [55]Verben stehen recht erwartbar meist in der 3. Person Singular Präteritum, in der
2780 Abenteuerroman-Liste sind jedoch relativ viele Verben in der 2. Person Singular 2687 Abenteuerroman-Liste sind jedoch relativ viele Verben in der 2. Person Singular
2781 Präsens enthalten – womöglich ein Indikator für einen erhöhten Anteil an direkter 2688 Präsens enthalten – womöglich ein Indikator für einen erhöhten Anteil an direkter
2782 Figurenrede. Dass ›Berlin‹ in den Listen steht, könnte damit korrespondieren, dass 2689 Figurenrede. Dass ›Berlin‹ in den Listen steht, könnte damit korrespondieren, dass
2793 [1] 2700 [1]
2794 Vgl. etwa Büttner et al. 2017. 2701 Vgl. etwa Büttner et al.
2702 2017.
2795 2703
2796 [2] 2704 [2]
2797 Vgl. Hettinger et al. 2016a, S. 158. 2705 Vgl. Hettinger et al. 2016a, S. 158.
2798 Hettinger et al. 2015 berichten über eine verbesserte Erkennungsleistung mit Hilfe 2706 Hettinger et al. 2015 berichten über eine verbesserte Erkennungsleistung mit Hilfe
2799 von SVMs, die auf der Basis von LDA-Topics erzielt wurde; vgl. ähnlich Hettinger 2707 von SVMs, die auf der Basis von LDA-Topics erzielt wurde; vgl. ähnlich Hettinger
2800 et al. 2016b. Kim et al. 2017 vergleichen englische Abenteuerromane, humoristische 2708 et al. 2016b. Kim et al. 2017 vergleichen englische Abenteuerromane, humoristische
2801 Romane, Science Fiction, Liebesgeschichten und Detektivromane auf der Grundlage 2709 Romane, Science Fiction, Liebesgeschichten und Detektivromane auf der Grundlage
2803 Emotionsmodell mit Hilfe von Maschinellem Lernen (RF und MLP). Vgl. weiterhin 2711 Emotionsmodell mit Hilfe von Maschinellem Lernen (RF und MLP). Vgl. weiterhin
2804 Schöch 2020; Calvo Tello 2019; Underwood 2016; Ardanuy / Sporleder 2014; Underwood et al. 2013; Eder / Rybicki 2011; Sharoff et al. 2010; Stamatatos et al. 2000; Kessler et al. 2712 Schöch 2020; Calvo Tello 2019; Ardanuy / Sporleder 2014; Underwood et al. 2013; Eder / Rybicki 2011; Sharoff et al. 2010; Stamatatos et al. 2000; Kessler et al.
2805 1997. 2713 1997.
2818 [6] 2726 [6]
2819 Gittel / Köppe 2022, S. 13–22, kritisieren die Studie von Underwood 2016 für ihre Thesenbildung zu Genre-Grenzen, dem Generationen-Bezug von Genres und der 2727 Vgl. Büttner / Proisl 2016.
2820 Kohärenz von Genres, die auf der Grundlage von linguistischen Parametern mit Hilfe
2821 von maschinellem Lernen erfolgt. U.a. anhand der Textsorten Pastiche und Parodie stellen
2822 Gittel / Köppe in Frage, inwieweit linguistische Textmerkmale hinreichend für eine
2823 Genre-Bestimmung sein können.
2824 2728
2825 [7] 2729 [7]
2826 Zum Modellieren als zentrale Tätigkeit im DH-Bereich vgl. McCarty 2005. 2730 Vgl. Schöch 2014.
2827 2731
2828 [8] 2732 [8]
2829 Stachowiak 1973, S. 132. Vgl. zur Approximation bei der Modellbildung Saam / Gautschi 2015, S. 26–38. McCarty 2005, S 24, weist darauf hin, dass auch in der traditionellen Literaturwissenschaft Modelle 2733 Hettinger et al.
2830 omnipräsent sind – etwa bei der Beschreibung von Epochen. Gittel / Köppe 2022, S. 20, kritisieren insbesondere, dass die digitale Modellierung von Underwood anders 2734 2016a, S. 161.
2831 als literaturwissenschaftliche Beschreibungen Kontexte und paratextuelle Informationen
2832 nicht einbeziehen, diese können jedoch für die Erkennung der Gattung eines Textes
2833 entscheidend sein.
2834 2735
2835 [9] 2736 [9]
2836 Zur Trennung von Ergebnisdaten und Interpretation vgl. auch Dimpel 2015. 2737 Vgl. Selbmann 1994, S. 96–120.
2837 2738
2838 [10] 2739 [10]
2839 Dieses Verfahren lässt sich durchaus kritisieren: Bedacht wird dabei nicht, wie oft
2840 einem Text die Eigenschaft zugesprochen wird, zu einer Textsorte zu gehören. Unberücksichtigt
2841 bleibt auch, ob die Zuordnungen auf einheitlichen Genre-Definitionen basieren. Um
2842 eigene Textsortenmodelle zu entwickeln und die Zuordnungen auf dieser Basis zu überprüfen,
2843 standen für die Studie nicht die nötigen Ressourcen zur Verfügung. Insoweit deviante
2844 Epochenbegriffe eingehen sollten, würden damit allerdings gelebte Praktiken im Fach
2845 berücksichtigt.
2846
2847 [11]
2848 Vgl. Büttner / Proisl 2016.
2849
2850 [12]
2851 Vgl. Schöch 2014.
2852
2853 [13]
2854 Hettinger et al.
2855 2016a, S. 161.
2856
2857 [14]
2858 Vgl. Selbmann 1994, S. 96–120.
2859
2860 [15]
2861 Selbmann 2740 Selbmann
2863 2742
2864 [16] 2743 [11]
2865 Dimpel 2018a; Dimpel et al. 2019; vgl. weiterhin Dimpel 2018b. 2744 Dimpel 2018a; Dimpel et al. 2019; vgl. weiterhin Dimpel 2018b.
2866 Ein didaktisch aufbereiteter Foliensatz steht hier. 2745 Ein didaktisch aufbereiteter Foliensatz steht hier.
2867 2746
2868 [17] 2747 [12]
2869 In Dimpel / Proisl 2019. 2748 In Dimpel / Proisl 2019.
2870 2749
2871 [18] 2750 [13]
2872 2751
2873 Weitere Parameter für die Ermittlung der Guten Wörter: Verwendet wurden volle 2752 Weitere Parameter für die Ermittlung der Guten Wörter: Verwendet wurden volle
2874 Texte nach Entfernung der ersten 10 % der Wortformen. Die häufigsten 1.200 MFWs 2753 Texte nach Entfernung der ersten 10% der Wortformen. Die häufigsten 1.200 MFWs
2875 wurden verwendet. Experimente mit 1.500 MFWs haben schlechtere Ergebnisse 2754 wurden verwendet. Experimente mit 1.500 MFWs haben schlechtere Ergebnisse
2877 Tragödien teils recht kurz sind. Der kürzeste Text kommt nach dem Entfernen der 2756 Tragödien teils recht kurz sind. Der kürzeste Text kommt nach dem Entfernen der
2878 ersten 10 % auf 5.473 Wortformen. Aus Rechenzeitgründen wurden Wortformen nach 2757 ersten 10% auf 5.473 Wortformen. Aus Rechenzeitgründen wurden Wortformen nach
2879 75.000 Wortformen nicht mehr berücksichtigt (Cutoff) – über die Hälfte der Texte 2758 75.000 Wortformen nicht mehr berücksichtigt (Cutoff) – über die Hälfte der Texte
2880 ist ohnehin nicht länger als 50.000 Wortformen. 2759 ist ohnehin nicht länger als 50.000 Wortformen.
2881 2760
2882 [19] 2761 [14]
2883 In einem weiteren Prätest wurde 2762 In einem weiteren Prätest wurde
2892 2771
2893 [20] 2772 [15]
2894 Abkürzungen: 2773 Abkürzungen:
2897 2776
2898 [21] 2777 [16]
2899 Vgl. etwa Büttner et al. 2017. 2778 Vgl. etwa Büttner et al. 2017.
2900 2779
2901 [22] 2780 [17]
2902 Weiterhin werden von der 2781 Weiterhin werden von der
2907 2786
2908 [23] 2787 [18]
2909 In 2788 In
2914 2793
2915 [24] 2794 [19]
2916 Ardanuy / Sporleder 2014, S. 37, akzeptieren etwa eine Klassifizierung bei 2795 Ardanuy / Sporleder 2014, S. 37, akzeptieren etwa eine Klassifizierung bei
2917 mehrfachen Labels als korrekt, wenn die erkannte Klasse zumindest zu einem der 2796 mehrfachen Labels als korrekt, wenn die erkannte Klasse zumindest zu einem der
2918 Label passt, während in der vorliegenden Studie angestrebt wurde, Texte mit 2797 Label passt, während in der vorliegenden Studie angestrebt wurde, Texte mit
2919 mehrfachen Labels zu meiden. Eine Vergleichbarkeit der Studien leidet – wie so oft 2798 mehrfachen Labels zu meiden. Eine Vergleichbarkeit der Studien leidet – wie so oft
2920 im Bereich der Digital Humanities – auch darunter, dass viele Publikationsorgane 2799 im Bereich der Digital Humanities – auch darunter, dass viele Publikationsorgane
2921 den Maximalumfang der Beiträge auf derart wenige Seiten einschränken, dass eine 2800 den Maximalumfang der Beiträge auf derart wenige Seiten einschränken, dass eine
2925 2804
2926 [25] 2805 [20]
2927 Vgl. zur 2806 Vgl. zur
2928 Z-Wert-Begrenzung Evert et al. 2016; Dimpel 2018b. 2807 Z-Wert-Begrenzung Evert et al. 2016; Dimpel 2018b.
2929 2808
2930 [26] 2809 [21]
2931 Es sind 40 2810 Es sind 40
2934 2813
2935 [27] 2814 [22]
2936 Vgl. 2815 Vgl.
2937 etwa Büttner et al. 2017. 2816 etwa Büttner et al. 2017.
2938 2817
2939 [28] 2818 [23]
2940 2819
2941 Eine ähnliche Tendenz beobachten Hettinger et al. 2016a, S. 160. 2820 Eine ähnliche Tendenz beobachten Hettinger et al. 2016a, S. 160.
2942 2821
2952 (CLfL). Hg. von Association for Computational Linguistics. (EACL 2014, Göteborg, 2831 (CLfL). Hg. von Association for Computational Linguistics. (EACL 2014, Göteborg,
2953 27.04.2014) Stroudsburg, PA, 2014, S. 31–39. DOI: 10.3115/v1/W14-0905Andreas Büttner / Thomas Proisl: Stilometrie interdisziplinär: Merkmalsselektion 2832 27.04.2014) Stroudsburg, PA, 2014, S. 31–39. DOI: 10.3115/v1/W14-0905Andreas Büttner / Friedrich Michael Dimpel / Stefan Evert / Fotis
2833 Jannidis / Steffen Pielström / Thomas Proisl / Isabella Reger / Christof
2834 Schöch / Thorsten Vitt: „Delta“ in der stilometrischen Autorschaftsattribution. In:
2835 Zeitschrift für digitale Geisteswissenschaften 2 (2017). DOI: 10.17175/2017_006Andreas Büttner / Thomas Proisl: Stilometrie interdisziplinär: Merkmalsselektion
2954 zur Differenzierung zwischen Übersetzer- und Fachvokabular. In: Modellierung, 2836 zur Differenzierung zwischen Übersetzer- und Fachvokabular. In: Modellierung,
2956 Forschungsparadigma. DHd 2016. Konferenzabstracts. Hg. von Elisabeth Burr. (DHd: 3, 2838 Forschungsparadigma. DHd 2016. Konferenzabstracts. Hg. von Elisabeth Burr. (DHd: 3,
2957 Leipzig, 07.–12.03.2016) Duisburg 2016, S. 70–74. DOI: 10.5281/zenodo.3679331 [Nachweis im GVK] Andreas Büttner / Friedrich Michael Dimpel / Stefan Evert / Fotis 2839 Leipzig, 07.–12.03.2016) Duisburg 2016, S. 70–74. DOI: 10.5281/zenodo.3679331 [Nachweis im GVK] José Calvo Tello: Gattungserkennung über 500 Jahre. In: DHd 2019 Digital
2958 Jannidis / Steffen Pielström / Thomas Proisl / Isabella Reger / Christof
2959 Schöch / Thorsten Vitt: „Delta“ in der stilometrischen Autorschaftsattribution. In:
2960 Zeitschrift für digitale Geisteswissenschaften 2 (2017). DOI: 10.17175/2017_006José Calvo Tello: Gattungserkennung über 500 Jahre. In: DHd 2019 Digital
2961 Humanities: multimedial & multimodal. Konferenzabstracts. Hg. von Patrick Sahle. 2840 Humanities: multimedial & multimodal. Konferenzabstracts. Hg. von Patrick Sahle.
2962 (DHd: 6, Frankfurt am Main u. a., 25.–29.03.2019) Frankfurt/Main 2019, S. 292–294. 2841 (DHd: 6, Frankfurt am Main u. a., 25.–29.03.2019) Frankfurt/Main 2019, S. 292–294.
2963 DOI: 10.5281/zenodo.2600812Friedrich Michael Dimpel: Der Computerphilologe als Interpret – ein Teilzeit-Empiriker? 2842 DOI: 10.5281/zenodo.2600812Friedrich Michael Dimpel / Daniel Schlager / Katharina Zeppezauer-Wachauer: Der
2964 In: Literatur interpretieren. Interdisziplinäre Beiträge zur Theorie und Praxis. Hg. 2843 Streit um die Birne. Autorschafts-Attributionstest mit Burrows’ Delta und dessen
2965 von Jan Borkowski / Stefan Descher / Felicitas Ferder / Philipp Heine. Münster 2015, 2844 Optimierung für Kurztexte am Beispiel der ‚Halben Birne‘ des Konrad von Würzburg.
2966 S. 339–359. DOI: 10.30965/9783957438973_018Friedrich Michael Dimpel (2018a): Die guten ins Töpfchen: Zur Anwendbarkeit von 2845 In:
2846 Digitale Mediävistik. Hg. von Roman Bleier / Franz Fischer / Torsten
2847 Hiltmann / Gabriel Viehhauser / Georg Vogeler. Berlin u. a. 2019, S. 71–90. [Nachweis im GVK] Friedrich Michael Dimpel / Thomas Proisl: Gute Wörter für Delta: Verbesserung der
2848 Autorschaftsattribution durch autorspezifische distinktive Wörter. In: DHd 2019
2849 Digital Humanities: multimedial & multimodal. Konferenzabstracts. Hg. von Patrick
2850 Sahle. (DHd: 6, Frankfurt am Main u. a., 25.–29.03.2019) Frankfurt/Main 2019,
2851 S. 296–299. DOI: 10.5281/zenodo.2600812Friedrich Michael Dimpel (2018a): Die guten ins Töpfchen: Zur Anwendbarkeit von
2967 Burrows’ Delta bei kurzen mittelhochdeutschen Texten nebst eines Attributionstests 2852 Burrows’ Delta bei kurzen mittelhochdeutschen Texten nebst eines Attributionstests
2972 mittelhochdeutsche Texte, Z-Wert-Begrenzung und ein Normalisierungswörterbuch. Oder: 2857 mittelhochdeutsche Texte, Z-Wert-Begrenzung und ein Normalisierungswörterbuch. Oder:
2973 Auf welche Wörter kommt es bei Delta an? Göttingen 2018. (= Dariah-DE Working Papers, 2858 Auf welche Wörter kommt es bei Delta an? Göttingen 2018. (= Dariah-DE Working Papers,
2974 25) URN: urn:nbn:de:gbv:7-dariah-2017-5-1Friedrich Michael Dimpel / Daniel Schlager / Katharina Zeppezauer-Wachauer: Der 2859 25) URN: urn:nbn:de:gbv:7-dariah-2017-5-1Maciej Eder / Jan Rybicki: Deeper Delta Across Genres and Languages: Do We Really
2975 Streit um die Birne. Autorschafts-Attributionstest mit Burrows’ Delta und dessen 2860 Need the Most Frequent Words? In: Literary and Linguistic Computing 26 (2011), H.
2976 Optimierung für Kurztexte am Beispiel der ‚Halben Birne‘ des Konrad von Würzburg. 2861 3,
2977 In: 2862 S. 315–321. DOI: 10.1093/llc/fqr031 [Nachweis im GVK] Stefan Evert / Fotis Jannidis / Steffen Pielström / Isabella Reger / Christof
2978 Digitale Mediävistik. Hg. von Roman Bleier / Franz Fischer / Torsten 2863 Schöch / Thorsten Vitt: Burrows’ Delta verstehen. In: Modellierung, Vernetzung,
2979 Hiltmann / Gabriel Viehhauser / Georg Vogeler. Berlin u. a. 2019, S. 71–90. [Nachweis im GVK] Friedrich Michael Dimpel / Thomas Proisl: Gute Wörter für Delta: Verbesserung der
2980 Autorschaftsattribution durch autorspezifische distinktive Wörter. In: DHd 2019
2981 Digital Humanities: multimedial & multimodal. Konferenzabstracts. Hg. von Patrick
2982 Sahle. (DHd: 6, Frankfurt am Main u. a., 25.–29.03.2019) Frankfurt/Main 2019,
2983 S. 296–299. DOI: 10.5281/zenodo.2600812Maciej Eder / Jan Rybicki: Deeper Delta Across Genres and Languages: Do We Really
2984 Need the Most Frequent Words? In: Literary and Linguistic Computing 26 (2011), H. 3,
2985 S. 315–321. DOI: 10.1093/llc/fqr031 [Nachweis im GVK] Stefan Evert / Fotis Jannidis / Friedrich Michael Dimpel / Christof
2986 Schöcht / Steffen Pielströmt / Thorsten Vitt / Isabella Regert / Andreas Büttner /
2987 Thomas Proisl: Burrows Delta verstehen. In: Modellierung, Vernetzung,
2988 Visualisierung. Die Digital Humanities als fächerübergreifendes Forschungsparadigma. 2864 Visualisierung. Die Digital Humanities als fächerübergreifendes Forschungsparadigma.
2989 DHd 2016. Konferenzabstracts. Hg. von Elisabeth Burr. 2. überarbeitete und erweiterte 2865 DHd 2016. Konferenzabstracts. Hg. von Elisabeth Burr. 2. überarbeitete und erweiterte
2990 Ausgabe. (DHd: 3, Leipzig, 07.–12.03.2016) Duisburg 2016, S. 83–86. DOI: 110.5281/zenodo.3679330Stephan Fuchs: Hybride Helden: Gwigalois und Willehalm. Beiträge zum Heldenbild 2866 Ausgabe. (DHd: 3, Leipzig, 07.–12.03.2016) Duisburg 2016, S. 62–65. [online] Stephan Fuchs: Hybride Helden: Gwigalois und Willehalm. Beiträge zum Heldenbild
2991 und zur Poetik des Romans im frühen 13. Jahrhundert. Heidelberg 1997. (= Frankfurter 2867 und zur Poetik des Romans im frühen 13. Jahrhundert. Heidelberg 1997. (= Frankfurter
2992 Beiträge zur Germanistik, 31) [Nachweis im GVK] Benjamin Gittel / Tilmann Köppe: On the Distance Between Traditional and DH-Based 2868 Beiträge zur Germanistik, 31) [Nachweis im GVK] Lena Hettinger / Martin Becker / Isabella Reger / Fotis Jannidis / Andreas Hotho:
2993 Genre Theory. In: Digitale Verfahren in der Literaturwissenschaft. Hg. von Jan Horstmann /
2994 Frank Fischer. Münster 2022. (= Sonderausgabe Textpraxis. Digitales Journal für Philologie,
2995 6). DOI: 10.17879/64059431694Lena Hettinger / Martin Becker / Isabella Reger / Fotis Jannidis / Andreas Hotho:
2996 Genre classification on German novels. In: Database and expert systems applications. 2869 Genre classification on German novels. In: Database and expert systems applications.
2997 26th International Conference. Hg. von Qiming Chen / Abdelkader Hameurlain / Farouk 2870 26th International Conference. Hg. von Qiming Chen / Abdelkader Hameurlain / Farouk
2998 Toumani / Roland Wagner / Hendrik Decker. (DEXA: 26, Valencia, 01.–04.09.2015). Cham 2871 Toumani / Roland Wagner / Hendrik Decker. (DEXA: 26, Valencia, 01.–04.09.2015). Cham
2999 u. a. 2015, S. 249–253. DOI: 10.1109/DEXA.2015.62 [Nachweis im GVK] Lena Hettinger / Isabella Reger / Fotis Jannidis / Andreas Hotho (2016a): 2872 u. a. 2015, S. 249–253. DOI: 10.1109/DEXA.2015.62 [Nachweis im GVK] Lena Hettinger / Isabella Reger / Fotis Jannidis / Andreas Hotho (2016a):
3000 Classification of Literary Subgenres. In: Modellierung, Vernetzung, Visualisierung. 2873 Classification of Literary Subgenres. In: Modellierung, Vernetzung, Visualisierung.
3005 Humanities 2016. Conference Abstracts. (DH 2016, Krakau, 11.-16.07.2016) Krakau 2016. 2878 Humanities 2016. Conference Abstracts. (DH 2016, Krakau, 11.-16.07.2016) Krakau 2016.
3006 [online]Brett Kessler / Geoffrey Nunberg / Hinrich Schütze: Automatic Detection of Text 2879 [online]Brett Kessler / Geoffrey Nunberg / Hinrich Schutze: Automatic Detection of Text
3007 Genre. In: 35th Annual Meeting of the Association for Computational Linguistics and 2880 Genre. In: 35th Annual Meeting of the Association for Computational Linguistics and
3014 Feldman / Anna Kazantseva / Nils Reiter / Stan Szpakowicz. (SIGHUM: 11, Vancouver, 2887 Feldman / Anna Kazantseva / Nils Reiter / Stan Szpakowicz. (SIGHUM: 11, Vancouver,
3015 04.08.2017) Stroudsburg, PA, 2017, S. 17–26. DOI: 10.18653/v1/W17-2203Willard McCarty: Humanities Computing. London / New York 2005. [Nachweis im GVK] Nicole J. Saam / Thomas Gautschi: Modellbildung in den Sozialwissenschaften. In: Handbuch 2888 04.08.2017) Stroudsburg, PA, 2017, S. 17–26. DOI: 10.18653/v1/W17-2203Christof Schöch: Corneille, Molière et les autres. Stilometrische Analysen zu
3016 Modellbildung und Simulation in den Sozialwissenschaften. Hg. von Norman Braun / Nicole
3017 J. Saam. Wiesbaden 2015, S. 15–60. DOI: 10.1007/978-3-658-01164-2Christof Schöch: Corneille, Molière et les autres. Stilometrische Analysen zu
3018 Autorschaft und Gattungszugehörigkeit im französischen Theater der Klassik. In: 2889 Autorschaft und Gattungszugehörigkeit im französischen Theater der Klassik. In:
3019 Literaturwissenschaft im digitalen Medienwandel. Hg. von Christof Schöch / Lars 2890 Literaturwissenschaft im digitalen Medienwandel. Hg. von Christof Schöch / Lars
3020 Schneider. Berlin 2014, S. 130–157. (= Philologie im Netz / Beiheft, 7) PDF. [online] Christof Schöch: Computational Genre Analysis. In: Digital Humanities for Literary 2891 Schneider. Berlin 2014, S. 130–157. (= Philologie im Netz / Beiheft, 7) PDF. [online] Christof Schöch: Computational Genre Analysis. In: Digital Humanities for Literary
3021 Studies: Methods, Tools & Practices. Hg. von James O'Sullivan. College Station, 2892 Studies: Methods, Tools & Practices. Hg. von James O'Sullivan. College Station,
3022 TX 2020. Preprint. PDF. [online] Armin Schulz: Poetik des Hybriden. Schema, Variation und intertextuelle 2893 TX 2020. Preprint. PDF. [online] Armin Schulz: Poetik des Hybriden. Schema, Variation und intertextuelle
3023 Kombinatorik in der Minne- und Aventiureepik: ‚Willehalm von Orlens‘ – ‚Partonopier 2894 Kombinatorik in der Minne- und Aventiureepik: ‚Willehalm von Orlens‘ – ‚Partonopier
3024 und Meliur‘ – ‚Wilhelm von Österreich‘ – ‚Die schöne Magelone‘. Berlin 2000. (= Philologische 2895 und Meliur‘ – ‚Wilhelm von Österreich‘ – ‚Die schöne Magelone‘. Berlin 2000. (=
3025 Studien und Quellen, 161) [Nachweis im GVK] Rolf Selbmann: Der deutsche Bildungsroman. 2., überarbeitete und erweiterte 2896 Philologische Studien und Quellen, 161) [Nachweis im GVK] Rolf Selbmann: Der deutsche Bildungsroman. 2., überarbeitete und erweiterte
3026 Auflage. Stuttgart u. a. 1994. (= Sammlung Metzler, 214) [Nachweis im GVK] Serge Sharoff / Zhili Wu / Katja Markert: The Web Library of Babel: evaluating 2897 Auflage. Stuttgart u. a. 1994. (= Sammlung Metzler, 214) [Nachweis im GVK] Serge Sharoff / Zhili Wu / Katja Markert: The Web Library of Babel: evaluating
3027 genre collections. In: Proceedings of the 7th International Conference on Language 2898 genre collections. In: Proceedings of the 7th International Conference on Language
3029 Maegaard / Joseph Mariani / Jan Odijk / Stelios Piperidis / Mike Rosner / Daniel 2900 Maegaard / Joseph Mariani / Jan Odijk / Stelios Piperidis / Mike Rosner / Daniel
3030 Tapias. (LREC’10: 7, Valetta, 17.-23.05.2010) Paris 2010. PDF. [online] Herbert Stachowiak: Allgemeine Modelltheorie. Wien 1973. [Nachweis im GVK] Efstathios Stamatatos / Nikos Fakotakis / George Kokkinakis: Automatic text 2901 Tapias. (LREC’10: 7, Valetta, 17.-23.05.2010) Paris 2010. PDF. [online] Efstathios Stamatatos / Nikos Fakotakis / George Kokkinakis: Automatic text
3031 categorization in terms of genre and author. In: Computational Linguistics 26 (2000), 2902 categorization in terms of genre and author. In: Computational Linguistics 26 (2000),
3033 Optimierung für Kurztexte am Beispiel der ‚Halben Birne‘ des Konrad von Würzburg: 2904 Optimierung für Kurztexte am Beispiel der ‚Halben Birne‘ des Konrad von Würzburg:
3034 Anhang – Dimpel: Gute Wörter und Level-2-Differenzen bei Delta. Hg. von ULB Münster. 2905 Anhang – Dimpel: Gute Wörter und Level-2-Differenzen bei Delta. Hg. von ULB Münster.
3035 2022. [online] Ted Underwood / Michael L. Black / Loretta Auvil / Boris Capitanu: Mapping mutable 2906 2022. [online] Ted Underwood / Michael L. Black / Loretta Auvil / Boris Capitanu: Mapping mutable
3037 Conference on Big Data. Hg. von Hu Xiaohua. 2 Bde. (Silicon Valley, CA, 2908 Conference on Big Data. Hg. von Hu Xiaohua. 2 Bde. (Silicon Valley, CA,
3038 06.–09.10.2013) Piscataway, NJ 2013. Bd. 1: S. 95–103. DOI: 10.1109/BigData.2013.6691676 [Nachweis im GVK] Ted Underwood: The Life Cycles of Genres. In: Cultural Analytics 2 (2016), H. 2. DOI: 2909 06.–09.10.2013) Piscataway, NJ 2013. Bd. 1: S. 95–103. DOI: 10.1109/BigData.2013.6691676 [Nachweis im GVK] Gabriel Viehhauser: Digitale Gattungsgeschichten. Minnesang zwischen generischer
3039 10.22148/16.005Gabriel Viehhauser: Digitale Gattungsgeschichten. Minnesang zwischen generischer
3040 Konstanz und Wende. In: Zeitschrift für digitale Geisteswissenschaften 2 (2017). DOI: 2910 Konstanz und Wende. In: Zeitschrift für digitale Geisteswissenschaften 2 (2017). DOI:
3045 2915
3046
3047
3048 Tabellenverzeichnis 2916 Tabellenverzeichnis
3049 2917
3050 Tab. 1: Test A1, Erkennungsquotentest mit fünf Vergleichstexten der Zielklasse, Test A1, 2918
3051 ABE, BIL, GES, KOM, TRA. Beim Bag-of-Words-Test mit 10.000 MFWs werden die Texte 200 2919 Tab. 1: Test A1, Erkennungsquotentest mit fünf Vergleichstexten der Zielklasse, Test
3052 verschiedenen Bag-Sets pro Gattung zugelost und Mittelwerte gebildet. 2920 A1, ABE, BIL, GES, KOM, TRA. Beim Bag-of-Words-Test mit 10.000 MFWs werden die Texte
2921 200 verschiedenen Bag-Sets pro Gattung zugelost und Mittelwerte gebildet.
2922 Abkürzungen: Gute: Mit Gute-Wörter-Liste / ZWB: Mit Z-Wert-Begrenzung auf 1.64 /
2923 Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzung.
2924
2925
3053 Tab. 2: Test A2, ARI-Test mit 4 × 10 Distraktortexten, ABE, BIL, GES, KOM, TRA. 2926 Tab. 2: Test A2, ARI-Test mit 4 × 10 Distraktortexten, ABE, BIL, GES, KOM, TRA.
3054 Tab. 3: Test A2, ARI-Test mit 4 × 10 Distraktortexten, Einzelwerte, ABE, 2927 Abkürzungen: ARI: Adjusted Rand Index / F1: Precision und Recall kombiniert / Gute:
3055 BIL, GES, KOM, TRA. 2928 Mit Gute-Wörter-Liste / ZWB: Mit Z-Wert-Begrenzung auf 1.64 / EQ: Erkennungsquote
3056 Tab. 4: Test A2, ARI-Test mit 4 × 10 Distraktortexten, Bag-of-Words, ABE, 2929 in
3057 BIL, GES, KOM, TRA. 2930 % / FP: False-Positives-Quote in % (niedriger ist besser) / Basis: Ohne
3058 Tab. 5: Test A3, ARI-Test mit 4 × 5 Distraktortexten, ABE, BIL, GES, KOM, 2931 Gute-Wörter-Liste und ohne Z-Wert-Begrenzung / Diff: Differenzen zwischen Werten mit
3059 TRA. 2932 Gute-Wörter-Liste und mit Z-Wert-Begrenzung zum Basiswert.
2933
2934
2935 Tab. 3: Test A2, ARI-Test mit 4 × 10 Distraktortexten, Einzelwerte, ABE, BIL, GES,
2936 KOM, TRA.
2937
2938
2939 Tab. 4: Test A2, ARI-Test mit 4 × 10 Distraktortexten, Bag-of-Words, ABE, BIL, GES,
2940 KOM, TRA.
2941
2942
2943 Tab. 5: Test A3, ARI-Test mit 4 × 5 Distraktortexten, ABE, BIL, GES, KOM, TRA.
2944
2945
3060 Tab. 6: Test B, ARI-Test mit 2 × 10 Distraktortexten, ABE, BIL, KOM. 2946 Tab. 6: Test B, ARI-Test mit 2 × 10 Distraktortexten, ABE, BIL, KOM.
2947
2948
3061 Tab. 7: Test C, ARI-Test mit 2 × 10 Distraktortexten, ABE, KOM, TRA. 2949 Tab. 7: Test C, ARI-Test mit 2 × 10 Distraktortexten, ABE, KOM, TRA.
3062 Tab. 8: Test C, ARI-Test mit 2 × 10 Distraktortexten, Einzelwerte, ABE, 2950
3063 KOM, TRA (Volltexte, mit Guten Wörtern und Z-Wert-Begrenzung). 2951
3064 Tab. 9: Test D1, Erkennungsquotentest mit fünf Vergleichstexten der 2952 Tab. 8: Test C, ARI-Test mit 2 × 10 Distraktortexten, Einzelwerte, ABE, KOM, TRA
3065 Zielklasse, ABE, BIL, GES. 2953 (Volltexte, mit Guten Wörtern und Z-Wert-Begrenzung).
2954
2955
2956 Tab. 9: Test D1, Erkennungsquotentest mit fünf Vergleichstexten der Zielklasse, ABE,
2957 BIL, GES.
2958
2959
3066 Tab. 10: Test D2, ARI-Test mit 2 × 10 Distraktortexten, ABE, BIL, GES. 2960 Tab. 10: Test D2, ARI-Test mit 2 × 10 Distraktortexten, ABE, BIL, GES.
3067 Tab. 11: Test D2, ARI-Test mit 2 × 10 Distraktortexten, Einzelwerte, ABE, 2961
3068 BIL, GES. 2962
2963 Tab. 11: Test D2, ARI-Test mit 2 × 10 Distraktortexten, Einzelwerte, ABE, BIL,
2964 GES.
2965
2966
3069 Tab. 12: Test D3, ARI-Test mit 2 × 5 Distraktortexten, ABE, BIL, GES. 2967 Tab. 12: Test D3, ARI-Test mit 2 × 5 Distraktortexten, ABE, BIL, GES.
3070 Tab. 13: Test D4, ARI-Test mit 2 × 10 Distraktortexten und großem 2968
3071 MFW-Bereich, Volltexte, ABE, BIL, GES. 2969
3072 Tab. 14: Test D5, ARI-Test mit 2 × 10 Distraktortexten und großem 2970 Tab. 13: Test D4, ARI-Test mit 2 × 10 Distraktortexten und großem MFW-Bereich,
3073 MFW-Bereich, Bag-of-Words (20.000 Wortformen), ABE, BIL, GES. 2971 Volltexte, ABE, BIL, GES.
3074 Tab. 15: Auszug aus den textsortenspezifischen Gute-Wörter-Listen: Jeweils 2972
3075 100 Wortformen mit den höchsten Level-2-Differenzen. 2973
2974 Tab. 14: Test D5, ARI-Test mit 2 × 10 Distraktortexten und großem MFW-Bereich,
2975 Bag-of-Words (20.000 Wortformen), ABE, BIL, GES.
2976
2977
2978 Tab. 15: Auszug aus den textsortenspezifischen Gute-Wörter-Listen: Jeweils 100
2979 Wortformen mit den höchsten Level-2-Differenzen.
2980
2981
3076 Tab. 16: Duplikate in den Listen der Guten Wörter. 2982 Tab. 16: Duplikate in den Listen der Guten Wörter.