Versionen vergleichen | ZfdG - Zeitschrift für digitale Geisteswissenschaften

Versionen vergleichen von : Gute Wörter, schwaches Gattungssignal. Differenzen zwischen Roman-Subgenres und Dramen mit Delta und signifikantem Wortschatz aufspüren

Alt		Neu
7		7
8	DOI: 10.17175/2022_009~~_v2~~	8	DOI: 10.17175/2022_009
9	Nachweis im OPAC der Herzog August Bibliothek: ~~1866422553~~	9	Nachweis im OPAC der Herzog August Bibliothek: 1819369722
10	Erstveröffentlichung: 17.11.2022	10	Erstveröffentlichung: 17.11.2022
11	Version 2.0: 14.11.2023
12	Lizenz: Sofern nicht anders angegeben	11	Lizenz: Sofern nicht anders angegeben
15	Medienlizenzen: Medienrechte liegen bei den Autor*innen	14	Medienlizenzen: Medienrechte liegen bei den Autor*innen
16	Letzte Überprüfung aller Verweise: 30.10.~~2023~~	15	Letzte Überprüfung aller Verweise: 25.10.2022
17	GND-Verschlagwortung: Gattungstheorie \| Literaturgattung \| Literaturwissenschaft \| Statistische Stilistik \|	16	GND-Verschlagwortung: Gattungstheorie \| Literaturgattung \| Literaturwissenschaft \| Statistische Stilistik \|
18	Empfohlene Zitierweise: Friedrich Michael Dimpel: Gute Wörter, schwaches Gattungssignal. Differenzen zwischen	17	Empfohlene Zitierweise: Friedrich Michael Dimpel: Gute Wörter, schwaches Gattungssignal. Differenzen zwischen
19	Roman-Subgenres und Dramen mit Delta und signifikantem Wortschatz	18	Roman-Subgenres und Dramen mit Delta und signifikantem Wortschatz
20	aufspüren. In: Zeitschrift für digitale Geisteswissenschaften 7 (2022). 17.11.2022. Version 2.0 vom 14.11.2023. HTML / XML / PDF. DOI: 10.17175/2022_009_v2	19	aufspüren. In: Zeitschrift für digitale Geisteswissenschaften. Wolfenbüttel 2022. text/html Format. DOI: 10.17175/2022_009
		20
21		21
25	Abstract	25	Abstract
26
27	Untersucht wird, inwieweit sich die automatische Erkennung von Genres bzw.	26	Untersucht wird, inwieweit sich die automatische Erkennung von Genres bzw.
54		53
55
56	Version 2.0 (14.11.2023)
57	Korrekturen entlang der Monita in den Gutachten: Sprachliche Verbesserungen; Ergänzungen
58	in Kapitel 1 und 2 sowie in der Bibliografie; Ergänzung der Tabellenbeschriftungen,
59	Aufschlüsselung von Abkürzungen
60
61
62	1. Gattung und Stilometrie	54	1. Gattung und Stilometrie
63	2. Korpusgestaltung und Präprocessing	55	2. Korpusgestaltung und Präprocessing
64	3. Gute Wörter berechnen – Ermittlungsgruppe	56	3. Gute Wörter berechnen – Ermittlungsgruppe
65	4. Evaluierung – Kontrollgruppe	57	4. Evaluierung – Kontrollgruppe
66	4.1 Setting: Erkennungsquotentest mit fünf Vergleichstexten der Zielklasse	58	4.1 Setting: Erkennungsquotentest mit fünf Vergleichstexten der
		59	Zielklasse
67	4.2 Setting: Tests mit F1-Wert und ARI	60	4.2 Setting: Tests mit F1-Wert und ARI
68	5. Ergebnisse	61	5. Ergebnisse
69	Testreihe A: ABE, BIL, GES, KOM, TRA
70	A1: Erkennungsquotentest mit fünf Vergleichstexten der Zielklasse
71	A2: ARI-Test mit 4 × 10 Distraktortexten
72	A3: ARI-Test mit 4 × 5 Distraktortexten
73	Test B: ABE, BIL, KOM
74	Test C: ABE, KOM, TRA
75	Test D: ABE, BIL, GES
76	D1: Erkennungsquotentest mit fünf Vergleichstexten der Zielklasse
77	D2: ARI-Test mit 2 × 10 Distraktortexten
78	D3: ARI-Test mit 2 × 5 Distraktortexten
79	D4: ARI-Test mit 2 × 10 Distraktortexten und größerem MFW-Bereich
80	6. Fazit	62	6. Fazit
89	Erkennungsquoten vorweisen kann,[1] ist die digitale Erkennung von literarischen Gattungen deutlich	71	Erkennungsquoten vorweisen kann,[1] ist die digitale Erkennung von literarischen Gattungen deutlich
90	anspruchsvoller.[2] Während bei Texten der gleichen ~~Autorin / des gleichen~~ Autors trotz aller	72	anspruchsvoller.[2] Während bei Texten desder gleichen Autorsin trotz aller
91	Veränderungen im Laufe der Schaffensperiode und trotz	73	Veränderungen im Laufe der Schaffensperiode desder gleichen Autorsin und trotz
92	einer möglichen Intention auf wechselnde Stilformen doch von einem mit sich selbst	74	einer möglichen Intention auf wechselnde Stilformen doch von einem mit sich selbst
95	sich bei der Zugehörigkeit eines Textes zu einer Gattung nicht um ein objektives	77	sich bei der Zugehörigkeit eines Textes zu einer Gattung nicht um ein objektives
96	Faktum, sondern um ein Attributionsphänomen – Literaturwissenschaftler*innen	78	Faktum, sondern um ein Attributionsphänomen – Literaturwissenschaftler*innen
97	schreiben Texten die Eigenschaft zu, einer Gattung anzugehören. Solche Zuweisungen	79	schreiben Texten die Eigenschaft zu, einer Gattung anzugehören. Solche Zuweisungen
105	›Heldenepik‹ erhält. Dazu kommt, dass Gattungen nicht historisch konstant und	87	›Heldenepik‹ erhält. Dazu kommt, dass Gattungen nicht historisch konstant und
106	gleichförmig bleiben – Gabriel Viehhauser zeigt in seiner Studie zum	88	gleichförmig bleiben – Gabriel Viehhauser zeigt in seiner Studie zum
107	mittelalterlichen Minnesang, wie sich Gattungswandel auch digital abbilden	89	mittelalterlichen Minnesang, wie sich Gattungswandel auch digital abbilden
110	Autorschaft (etwa bei sehr kurzen und nicht-normalisierten mittelhochdeutschen	92	Autorschaft (etwa bei sehr kurzen und nicht-normalisierten mittelhochdeutschen
111	Texten) Optimierungsverfahren entwickelt – etwa das Gute-Wörter-Verfahren, bei dem nicht alle Most-Frequent-Words (MFW), sondern signifikante Wortformen verwendet	93	Texten) Optimierungsverfahren entwickelt – etwa das Gute-Wörter-Verfahren, bei dem nicht alle Most-Frequent-Words (MFW), sondern signifikante Wortformen verwendet
112	werden.[5] In der vorliegenden Studie	94	werden.[5] In der vorliegenden Studie
117	zielgerichtet und unbeeinflusst durch Autorsignale oder Übersetzersignale untersucht werden kann, wird vermieden, mehrere	99	zielgerichtet und unbeeinflusst durch Autorsignale oder Übersetzersignale untersucht werden kann, wird vermieden, mehrere
118	Texte der gleichen Autor*innen und ins Deutsche übersetzte Texte zu berücksichtigen.	100	Texte der gleichen Autor*innen und ins Deutsche übersetzte Texte zu verwenden.
119	[3]Diese Studie ist also auf eine technische Fragestellung begrenzt – auf den Beitrag
120	des Gute-Wörter-Verfahrens zu einer verbesserten automatischen Textsortenerkennung.
121	Angestrebt wird nicht, traditionelle literaturwissenschaftliche Genre-Bestimmungen
122	zu kritisieren oder zu präzisieren.[6] Da versucht wird, eine Textsortenerkennung auf lexikalischer Basis vorzunehmen, könnte
123	dieser Versuch als Modellierung[7] einer Unterscheidbarkeit von Textsorten beschrieben werden. Für Computermodelle ist
124	wie auch bei herkömmlichen Modellen das Merkmal der verkürzten Repräsentation wesentlich –
125	das modellierte Objekt wird nicht vollständig durch das Modell abgebildet.[8] Aufgrund dieser Verkürzung ist es in der Regel problematisch, davon zu sprechen,
126	dass sich Ergebnisdaten, die auf der Basis von digitalen Modellen gewonnen werden,
127	unmittelbar dafür eignen, etwa hermeneutische Thesen zu verifizieren oder zu falsifizieren.[9]
128	[4]Gegenüber Studien, die auf Black-Box-Verfahren wie Maschinelles Lernen (siehe Anmerkung
129	2) setzen, haben Burrows’ Delta und das Gute-Wörter-Verfahren den Vorteil, dass die
130	Berechnungsgrundlage transparent nachvollzogen werden kann. Zudem lässt sich überprüfen,
131	welche Wortformen zur Textsortenunterscheidung besonders gut beitragen (siehe Anhang,
132	Tabelle 15).
133		101
135		103
136	[5]Verwendet wurden Texte, die im Internet frei verfügbar sind. Die meisten Texte	104	[3]Verwendet wurden Texte, die im Internet frei verfügbar sind. Die meisten Texte
137	entstammen dem Textgrid-Repository. Die Texte wurden dann als Abenteuerroman,	105	entstammen dem Textgrid-Repository. Die Texte wurden dann als Abenteuerroman,
139	literaturgeschichtlichen Darstellung oder in einem Forschungsbeitrag eine	107	literaturgeschichtlichen Darstellung oder in einem Forschungsbeitrag eine
140	einschlägige Bezeichnung vorgefunden wurde.~~[10]~~	108	einschlägige Bezeichnung vorgefunden wurde.
141	[6]Während der Einfluss des Übersetzersignals noch weniger gut erforscht ist,[11] kann das Autorsignal als ein	109	[4]Während der Einfluss des Übersetzersignals noch weniger gut erforscht ist,[6] kann das Autorsignal als ein
142	starkes stilometrisches Signal gelten.[12]	110	starkes stilometrisches Signal gelten.[7]
143	Falls beispielsweise bei der Untersuchung von Romansubgenres zahlreiche Texte von	111	Falls beispielsweise bei der Untersuchung von Romansubgenres zahlreiche Texte von
144	Karl May im Korpus vorhanden sind, ist denkbar, dass die Erkennung des Subgenres	112	Karl May im Korpus vorhanden sind, ist denkbar, dass die Erkennung des Subgenres
145	Abenteuerroman durch das Autorsignal von Karl May positiv beeinflusst wird – bei	113	Abenteuerroman durch das Autorsignal von Karl May positiv beeinflusst wird – bei
146	nicht wenigen Autor*innen ist eine gewisse Präferenz für eine oder wenige Gattungen	114	nicht wenigen Autor*innen ist eine gewisse Präferenz für eine oder wenige Gattungen
149	zusammenclustern, obwohl sie verschiedenen Gattungen zugeschrieben werden. Hettinger	117	zusammenclustern, obwohl sie verschiedenen Gattungen zugeschrieben werden. Hettinger
150	et al. berichten von einem Sinken der Erkennungsleistung, wenn man Autorduplikate	118	et al. berichten von einem Sinken der Erkennungsleistung, wenn man Autorduplikate
151	aus	119	aus
152	dem zuvor examinierten Korpus herausnimmt.[13]	120	dem zuvor examinierten Korpus herausnimmt.[8]
153	[7]Ein Problem bei der Korpus-Zusammenstellung sind Gattungsinterferenzen und mehrfache	121	[5]Ein Problem bei der Korpus-Zusammenstellung sind Gattungsinterferenzen und mehrfache
154	Labels: So ist Wilhelm Raabes Abu Telfan oder Die Heimkehr vom Mondgebirge sowohl als Entwicklungsroman, Gesellschaftsroman, Abenteuerroman,	122	Labels: So ist Wilhelm Raabes Abu Telfan oder Die Heimkehr vom Mondgebirge sowohl als Entwicklungsroman, Gesellschaftsroman, Abenteuerroman,
155	Bildungsroman als ~~auch~~ Zeitroman eingestuft worden. Rolf Selbmann etwa bespricht	123	Bildungsroman und als Zeitroman eingestuft worden. Rolf Selbmann etwa bespricht
156	einige offenbar als prototypisch verstandene Bildungsromane unter der Überschrift	124	einige offenbar als prototypisch verstandene Bildungsromane unter der Überschrift
157	»Zwischen Individualroman und Gesellschaftsroman«[14]; andernorts beruft sich	125	»Zwischen Individualroman und Gesellschaftsroman«[9]; andernorts beruft sich
158	Selbmann auf Benno von Wiese, der »die Epigonen [Immermann] zugleich als	126	Selbmann auf Benno von Wiese, der »die Epigonen [Immermann] zugleich als
159	›Entwicklungsroman‹, als ›Abenteuerroman‹, als ›modernen Roman‹, wie auch als	127	›Entwicklungsroman‹, als ›Abenteuerroman‹, als ›modernen Roman‹, wie auch als
160	›gesellschaftlichen Zeitroman‹« versteht.[15]	128	›gesellschaftlichen Zeitroman‹« versteht.[10]
161	[8]Bei der Korpus-Erstellung wurden Texte vermieden, die beispielsweise sowohl als	129	[6]Bei der Korpus-Erstellung wurden Texte vermieden, die beispielsweise sowohl als
162	Gesellschaftsroman als auch als Bildungsroman bezeichnet wurden, wodurch sich die	130	Gesellschaftsroman als auch als Bildungsroman bezeichnet wurden, wodurch sich die
169	können.	137	können.
170	[9]Für die Evaluierung des Gute-Wörter-Verfahrens wurden zwei überschneidungsfreie	138	[7]Für die Evaluierung des Gute-Wörter-Verfahrens wurden zwei überschneidungsfreie
171	Teilkorpora verwendet: Die 50 Texte der Ermittlungsgruppe, auf deren Grundlage die	139	Teilkorpora verwendet: Die 50 Texte der Ermittlungsgruppe, auf deren Grundlage die
173	(ebenfalls 50 Texte), die die Qualität der Gattungserkennung erfasst.	141	(ebenfalls 50 Texte), die die Qualität der Gattungserkennung erfasst.
174	[10]Autorduplikate im Korpus haben sich zwar nicht ganz vermeiden lassen, aber es konnten	142	[8]Autorduplikate im Korpus haben sich zwar nicht ganz vermeiden lassen, aber es konnten
175	doch Vorkehrungen getroffen werden, dass Autorduplikate weder bei der Berechnung der	143	doch Vorkehrungen getroffen werden, dass Autorduplikate weder bei der Berechnung der
184		152
185	[11]Im Vorfeld der Tests wurden einige ~~Präprocessing~~-Schritte unternommen. Bei den Dramen	153	[9]Im Vorfeld der Tests wurden einige Preprocessing-Schritte unternommen. Bei den Dramen
186	habe ich die Regieanweisungen und die Sprecher*innenangaben entfernt. Die	154	habe ich die Regieanweisungen und die Sprecher*innenangaben entfernt. Die
188	mit Ausnahme der deutschen Umlaute wurden vereinheitlicht, Groß- in Kleinbuchstaben	156	mit Ausnahme der deutschen Umlaute wurden vereinheitlicht, Groß- in Kleinbuchstaben
189	konvertiert, Zahlen eliminiert. Weiterhin wurden die ersten 10 % der Token entfernt – mit diesem verbreiteten Verfahren werden paratextuelle Informationen und	157	konvertiert, Zahlen eliminiert. Weiterhin wurden die ersten 10% der Token entfernt.
190	Besonderheiten am Textanfang beseitigt.	158
191		159	3. Gute Wörter berechnen – Ermittlungsgruppe
192	3. Gute Wörter berechnen – Ermittlungsgruppe	160
193		161	[10]Das Verfahren zur Ermittlung der Guten Wörter ist ausführlich dokumentiert.[11] Für das
194	[12]Das Verfahren zur Ermittlung der Guten Wörter ist ausführlich dokumentiert.[16] Für das
195	Setting ist elementar, dass ein Text als Ratetext verwendet wird und gegen ein	162	Setting ist elementar, dass ein Text als Ratetext verwendet wird und gegen ein
196	Vergleichskorpus mit meist 15 bis 30 Distraktortexten getestet	163	Vergleichskorpus mit meist 15 bis 30 Distraktortexten getestet
197	wird. Das Vergleichskorpus enthält jedoch auch einen Vergleichstext der Zielklasse –	164	wird. Das Vergleichskorpus enthält jedoch auch einen Vergleichstext der Zielklasse
198	bei Autorschaftsfragen ist also ein Text von der Autorin / dem Autor im Vergleichskorpus,	165	–
199	von der / dem auch der Ratetext stammt; bei Gattungsfragen ein Vergleichstext der	166	bei Autorschaftsfragen ist also ein Text von demder Autorin im Vergleichskorpus,
		167	von dem*der auch der Ratetext stammt; bei Gattungsfragen ein Vergleichstext der
200	gleichen Gattung.	168	gleichen Gattung.
201	[13]Wie bei Burrows’ Delta üblich, wird für jedes Wort der Most-Frequent-Words (MFWs) die relative Häufigkeit gezählt,	169	[11]Wie bei Burrows’ Delta üblich, wird für jedes Wort der Most-Frequent-Words (MFWs) die relative Häufigkeit gezählt,
202	Standardabweichung und Z-Werte berechnet und sodann die	170	Standardabweichung und Z-Werte berechnet und sodann die
209	Störfaktor für die Erkennung der Zielklasse.	177	Störfaktor für die Erkennung der Zielklasse.
210	[14]In einem Setting mit nur einem Distraktortext und zwei Texten der gleichen Klasse	178	[12]In einem Setting mit nur einem Distraktortext und zwei Texten der gleichen Klasse
211	ist	179	ist
217	Autorschaftserkennung erbringen, jedoch auch so viele False-Positives produzieren, dass dieses Parameterset problematisch	185	Autorschaftserkennung erbringen, jedoch auch so viele False-Positives produzieren, dass dieses Parameterset problematisch
218	ist.[17]	186	ist.[12]
219	[15]Verwendet wird für jede Textsorte nun eine Liste mit den Wortformen der	187	[13]Verwendet wird für jede Textsorte nun eine Liste mit den Wortformen der
220	durchschnittlich höchsten Level-2-Differenzen von allen Ratetexten zu allen	188	durchschnittlich höchsten Level-2-Differenzen von allen Ratetexten zu allen
235	fünf textsortenspezifische Listen mit Guten Wörtern an.	203	fünf textsortenspezifische Listen mit Guten Wörtern an.
236	[16]Im Distraktorkorpus befinden sich für jede der vier Textsorten der Nicht-Zielklasse	204	[14]Im Distraktorkorpus befinden sich für jede der vier Textsorten der Nicht-Zielklasse
237	jeweils die Ermittlungsgruppentexte mit Nummern 01–05. Da für die wenigen	205	jeweils die Ermittlungsgruppentexte mit Nummern 01–05. Da für die wenigen
239	ist	207	ist
240	bei Bildung der Gute-Wörter-Listen kein Autoduplikat im Spiel.[18]	208	bei Bildung der Gute-Wörter-Listen kein Autoduplikat im Spiel.[13]
241	[17]Zudem soll vermieden werden, dass Wortformen, die in den Ratetexten – also innerhalb	209	[15]Zudem soll vermieden werden, dass Wortformen, die in den Ratetexten – also innerhalb
242	der Zielgattung – recht selten vorkommen, berücksichtigt werden. Damit eine Wortform	210	der Zielgattung – recht selten vorkommen, berücksichtigt werden. Damit eine Wortform
243	bei der Bildung der Liste der Guten Wörter berücksichtigt wird, muss sie in	211	bei der Bildung der Liste der Guten Wörter berücksichtigt wird, muss sie in
247	geeigneten Parameter handelt, wurde in Prätests mit kleinem Korpus und niedriger	215	geeigneten Parameter handelt, wurde in Prätests mit kleinem Korpus und niedriger
248	Iterationszahl ermittelt.[19]	216	Iterationszahl ermittelt.[14]
249		217
250	4. Evaluierung – Kontrollgruppe	218	4. Evaluierung – Kontrollgruppe
251		219
252	[22]Die fünf Listen der Guten Wörter werden in vier textsortenbezogenen Kombinationen	220	[16]Die fünf Listen der Guten Wörter werden in vier textsortenbezogenen Kombinationen
253	mit	221	mit
255		223
256	Test A) Fünf Textsorten: ABE, BIL, GES, KOM, TRA[20]	224	Test A) Fünf Textsorten: ABE, BIL, GES, KOM, TRA[15]
257		225
261		229
262	[23]Da die Unterscheidung von Bildungs- und Gesellschaftsroman aufgrund der thematischen	230	[17]Da die Unterscheidung von Bildungs- und Gesellschaftsroman aufgrund der thematischen
263	Nähe beider Subgenres eine besondere Herausforderung darstellt, ist für die	231	Nähe beider Subgenres eine besondere Herausforderung darstellt, ist für die
264	Testreihen B und C die beste Unterscheidungsleistung zu erwarten.	232	Testreihen B und C die beste Unterscheidungsleistung zu erwarten.
265	[24]Für die Testreihen A und D wird angelehnt an Studien zu mittelhochdeutschen	233	[18]Für die Testreihen A und D wird angelehnt an Studien zu mittelhochdeutschen
266	Texten[21] zunächst ein	234	Texten[16] zunächst ein
267	reiner Erkennungsquotentest mit fünf Vergleichstexten der	235	reiner Erkennungsquotentest mit fünf Vergleichstexten der
268	Zielklasse durchgeführt; für alle vier Testreihen wird ein ARI-Test (Adjusted Rand Index) durchgeführt, bei dem zusätzlich auch die	236	Zielklasse durchgeführt; für alle vier Testreihen wird ein ARI-Test (Adjusted Rand Index) durchgeführt, bei dem zusätzlich auch die
269	Erkennungsquoten (Recall), False-Positives und F1-Werte ausgegeben werden – zum Setting siehe unten.	237	Erkennungsquoten (Recall), False-Positives und F1-Werte ausgegeben werden – zum Setting siehe unten.
270	[25]Die kürzeste Liste der Guten Wörter, die alle Wortformen mit einer Level-2-Differenz	238	[19]Die kürzeste Liste der Guten Wörter, die alle Wortformen mit einer Level-2-Differenz
271	von >0,2 enthält, umfasst bei den Komödien 495 Wortformen, die längste Liste bei	239	von >0,2 enthält, umfasst bei den Komödien 495 Wortformen, die längste Liste bei
276	300 und 400 MFWs. Wenn die Guten Wörter nicht in ausreichend vielen Texten im	244	300 und 400 MFWs. Wenn die Guten Wörter nicht in ausreichend vielen Texten im
277	aktuellen Test vorhanden sind,[22] wird das Gute Wort nicht verwendet. Wenn dadurch	245	aktuellen Test vorhanden sind,[17] wird das Gute Wort nicht verwendet. Wenn dadurch
278	nicht mehr ausreichend viele Gute Wörter vorhanden sind, wird die MFW-Liste im	246	nicht mehr ausreichend viele Gute Wörter vorhanden sind, wird die MFW-Liste im
281	bevorzugten Verwendung der Guten Wörter die Rede.	249	bevorzugten Verwendung der Guten Wörter die Rede.
282	[26]Näherungsweise bildet ein Test mit 200 MFWs einen Level-2-Differenzen-Mittelwert	250	[20]Näherungsweise bildet ein Test mit 200 MFWs einen Level-2-Differenzen-Mittelwert
283	>0,4 und ein Test mit 200 MFWs einen Level-2-Differenzen-Mittelwert >0,2 ab. In	251	>0,4 und ein Test mit 200 MFWs einen Level-2-Differenzen-Mittelwert >0,2 ab. In
284	der Liste für die Gesellschaftsromane – sie liegt hinsichtlich ihrer Länge im	252	der Liste für die Gesellschaftsromane – sie liegt hinsichtlich ihrer Länge im
285	Mittelfeld – ist bei Wortform Nr. 300 eine Level-2-Differenz von 0,32 vorhanden.	253	Mittelfeld – ist bei Wortform Nr. 300 eine Level-2-Differenz von 0,32 vorhanden.
286	4.1 Setting: Erkennungsquotentest mit fünf Vergleichstexten der Zielklasse	254	4.1 Setting: Erkennungsquotentest mit fünf Vergleichstexten der
287		255	Zielklasse
288	[27]Bei dieser Evaluierung kommen fast alle 50 Texte der Kontrollgruppe zum Einsatz. In	256
		257	[21]Bei dieser Evaluierung kommen fast alle 50 Texte der Kontrollgruppe zum Einsatz. In
289	das Vergleichskorpus werden jeweils fünf (von zehn in der Kontrollgruppe vorhandenen)	258	das Vergleichskorpus werden jeweils fünf (von zehn in der Kontrollgruppe vorhandenen)
293	Distraktortexte.	262	Distraktortexte.
294	[28]Wenn ein Text als Distraktortext gelost wird, zu dem ein Autorenduplikat in den	263	[22]Wenn ein Text als Distraktortext gelost wird, zu dem ein Autorenduplikat in den
295	Kontrollgruppentexten der Zielgattung vorhanden ist, dann wird dieser Distraktortext	264	Kontrollgruppentexten der Zielgattung vorhanden ist, dann wird dieser Distraktortext
299	Distraktortexte im Vergleichskorpus berücksichtigt werden, so dass auch hier	268	Distraktortexte im Vergleichskorpus berücksichtigt werden, so dass auch hier
300	Autorenduplikate das Gattungssignal nicht überlagern können.[23]	269	Autorenduplikate das Gattungssignal nicht überlagern können.[18]
301	[29]Bei der Zielgattung wird zunächst reihum jeweils einer der zehn Kontrollgruppentexten	270	[23]Bei der Zielgattung wird zunächst reihum jeweils einer der zehn Kontrollgruppentexten
302	als Vergleichstext ins Vergleichskorpus gegeben. Vier weitere Texte der Zielgattung	271	als Vergleichstext ins Vergleichskorpus gegeben. Vier weitere Texte der Zielgattung
305		274
306	[30]Wenn dieser Test mit Volltexten (gekürzt auf 100.000 Wortformen) durchgeführt wird,	275	[24]Wenn dieser Test mit Volltexten (gekürzt auf 100.000 Wortformen) durchgeführt wird,
307	werden pro Gattung zehn Durchgänge absolviert, um die Zufälligkeiten bei der	276	werden pro Gattung zehn Durchgänge absolviert, um die Zufälligkeiten bei der
312	ist	281	ist
313	›Ziehen ohne Zurücklegen‹. Wenn ein Text – wie bei den kürzeren Komödien und	282	›Ziehen ohne Zurücklegen‹. Wenn ein Text – wie bei den kürzeren Komödien und
314	Tragödien – weniger als 11.000 Wortformen umfasst, gilt für diesen Text der Modus	283	Tragödien – weniger als 11.000 Wortformen umfasst, gilt für diesen Text der Modus
315	›Ziehen mit Zurücklegen‹.	284	›Ziehen mit Zurücklegen‹.
316	[31]Insgesamt befinden sich fünf Vergleichstexte der Zielgattung und 20 Distraktortexte	285	[25]Insgesamt befinden sich fünf Vergleichstexte der Zielgattung und 20 Distraktortexte
317	(bei Test A) bzw. zehn Distraktortexte (bei den Tests B–D) im Vergleichskorpus. Die	286	(bei Test A) bzw. zehn Distraktortexte (bei den Tests B–D) im Vergleichskorpus. Die
318	erwartete Erkennungsquote bei einer Zufallsverteilung liegt damit bei 20 % (A) bzw.	287	erwartete Erkennungsquote bei einer Zufallsverteilung liegt damit bei 20% (A) bzw.
319	bei 33 % (B–D).	288	bei 33% (B–D).
320	[32]Da in der vorliegenden Studie überprüft werden soll, ob und inwieweit die bevorzugte	289	[26]Da in der vorliegenden Studie überprüft werden soll, ob und inwieweit die bevorzugte
321	Berücksichtigung der Guten Wörter zu einer verbesserten Textsortenerkennung führt,	290	Berücksichtigung der Guten Wörter zu einer verbesserten Textsortenerkennung führt,
329	Analyseverfahren und Auswertungsmethoden. Der Umgang mit Autorduplikaten ist ebenso	298	Analyseverfahren und Auswertungsmethoden. Der Umgang mit Autorduplikaten ist ebenso
330	wenig einheitlich wie der Umgang mit mehrfachen Gattungslabels.[24]	299	wenig einheitlich wie der Umgang mit mehrfachen Gattungslabels.[19]
331		300
333		302
334	[33]Bei diesem Testverfahren gebe ich jeweils alle zehn Kontrollgruppentexte der	303	[27]Bei diesem Testverfahren gebe ich jeweils alle zehn Kontrollgruppentexte der
335	Nicht-Zielgattungen als Distraktortexte ins Korpus – es sei denn, es befindet	304	Nicht-Zielgattungen als Distraktortexte ins Korpus – es sei denn, es befindet
336	sich ein Autorenduplikat zu einem Text der Zielgattung darunter; in diesem Fall wird	305	sich ein Autorenduplikat zu einem Text der Zielgattung darunter; in diesem Fall wird
347	Delta-Abstand.	316	Delta-Abstand.
348	[34]Durchgeführt werden ~~diese~~ Tests ohne weitere Optimierungsmaßnahmen wie das	317	[28]Durchgeführt werden dieses Tests ohne weitere Optimierungsmaßnahmen wie das
349	Eliminieren von Pronomina, jedoch mit Berücksichtigung der jeweiligen	318	Eliminieren von Pronomina, jedoch mit Berücksichtigung der jeweiligen
350	Gute-Wörter-Liste und mit Z-Wert-Begrenzung auf 1,64.[25] Die Z-Wert-Begrenzung	319	Gute-Wörter-Liste und mit Z-Wert-Begrenzung auf 1,64.[20] Die Z-Wert-Begrenzung
351	wird aufgrund der Annahme verwendet, dass textspezifisches Vokabular, das nicht	320	wird aufgrund der Annahme verwendet, dass textspezifisches Vokabular, das nicht
354	beruhen, weniger stark auf den Delta-Wert durchschlagen.	323	beruhen, weniger stark auf den Delta-Wert durchschlagen.
355	[35]Bei der Auswertung ist zu bedenken, dass der ARI nicht direkt mit einer herkömmlichen	324	[29]Bei der Auswertung ist zu bedenken, dass der ARI nicht direkt mit einer herkömmlichen
356	Erkennungsquote zu vergleichen ist. Bei dem oben beschriebenen Setting würde eine	325	Erkennungsquote zu vergleichen ist. Bei dem oben beschriebenen Setting würde eine
357	Zufallsverteilung nicht eine Erkennungsquote von 0%, sondern von 20 % bzw. 33%	326	Zufallsverteilung nicht eine Erkennungsquote von 0%, sondern von 20% bzw. 33%
358	ergeben. Eine Zufallsverteilung beim ARI-Wert ergibt den Wert 0; Clusterergebnisse,	327	ergeben. Eine Zufallsverteilung beim ARI-Wert ergibt den Wert 0; Clusterergebnisse,
362	abweichenden Wert für die Zufallsverteilung bedingt. Dieser Effekt verringert sich,	331	abweichenden Wert für die Zufallsverteilung bedingt. Dieser Effekt verringert sich,
363	je mehr die Erkennungsquote gegen 100 % und der ARI-Wert gegen 1 tendiert.	332	je mehr die Erkennungsquote gegen 100% und der ARI-Wert gegen 1 tendiert.
364	[36]Neben dem ARI wird hier auch Erkennungsquote (Recall) und False-Positives-Quote	333	[30]Neben dem ARI wird hier auch Erkennungsquote (Recall) und False-Positives-Quote
365	notiert, auf deren Basis die Precision ermittelt und der F1-Score für die	334	notiert, auf deren Basis die Precision ermittelt und der F1-Score für die
368	herangezogen; für die Nicht-Zielgattungstexte wird also keine Erkennungsquote	337	herangezogen; für die Nicht-Zielgattungstexte wird also keine Erkennungsquote
369	ermittelt – deren Clusterverhalten geht ohnehin in den ARI ein. Bei der	338	ermittelt – deren Clusterverhalten geht ohnehin in den ARI ein. Bei der
370	False-Positives-Quote werden die Nicht-Zielgattungstexte berücksichtigt, die zur	339	False-Positives-Quote werden die Nicht-Zielgattungstexte berücksichtigt, die zur
371	Zielgattung den niedrigsten Delta-Abstand aufweisen. Da hier ein Zielklassentext	340	Zielgattung den niedrigsten Delta-Abstand aufweisen. Da hier ein Zielklassentext
372	gegen ein Korpus mit 9 Zielklassentexten und 38–40[26] Distraktortexten (A)	341	gegen ein Korpus mit 9 Zielklassentexten und 38–40[21] Distraktortexten (A)
373	bzw. 18–20 Distraktortexten (B–D) getestet wird, würde eine Zufallsverteilung bei	342	bzw. 18–20 Distraktortexten (B–D) getestet wird, würde eine Zufallsverteilung bei
374	ca.	343	ca.
375	18,4 % (A) bzw. 31 % (B–D) liegen. Die F1-Werte liegen durchwegs deutlich über den	344	18,4% (A) bzw. 31% (B–D) liegen. Die F1-Werte liegen durchwegs deutlich über den
376	ARI-Werten; bei letzteren gehen auch Anzahl und Clusteringverhalten der	345	ARI-Werten; bei letzteren gehen auch Anzahl und Clusteringverhalten der
391		360
392	~~200a~~	361	200
393	~~300a~~	362	300
394	~~400a~~	363	400
395		364
396		365
397		366
398	~~Gutec~~ & ~~ZWBd~~	367	Gute & ZWB
399	57,3b	368	57,3
400	63,4	369	63,4
416		385
417	~~Basise~~	386	Basis
418	45,4	387	45,4
455		424
456	a Anzahl der MFWs, die verwendet werdenb Erkennungsquote in %c Gute: Mit Gute-Wörter-Listed ZWB: Mit Z-Wert-Begrenzung auf 1,64e Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzung
457
458
459
460	Tab. 1: Test A1, Erkennungsquotentest mit fünf Vergleichstexten der Zielklasse, Test A1,	425	Tab. 1: Test A1, Erkennungsquotentest mit fünf Vergleichstexten der Zielklasse, Test A1,
461	ABE, BIL, GES, KOM, TRA. Beim Bag-of-Words-Test mit 10.000 MFWs werden die Texte 200	426	ABE, BIL, GES, KOM, TRA. Beim Bag-of-Words-Test mit 10.000 MFWs werden die Texte 200
462	verschiedenen Bag-Sets pro Gattung zugelost und Mittelwerte gebildet.	427	verschiedenen Bag-Sets pro Gattung zugelost und Mittelwerte gebildet. Abkürzungen:
463	[37]Die Guten Wörter führen zu einer deutlichen Verbesserung der Erkennungsquote. Der	428	Gute: Mit Gute-Wörter-Liste / ZWB: Mit Z-Wert-Begrenzung auf 1.64 / Basis: Ohne Gute-Wörter-Liste
		429	und ohne Z-Wert-Begrenzung.
		430	[31]Die Guten Wörter führen zu einer deutlichen Verbesserung der Erkennungsquote. Der
464	Verbesserungseffekt ist am stärksten ausgeprägt beim Bag-of-Words-Verfahren mit	431	Verbesserungseffekt ist am stärksten ausgeprägt beim Bag-of-Words-Verfahren mit
466	Z-Wert-Begrenzung erreicht. Im Vergleich zu Autorschaftsstudien liegen die Quoten	433	Z-Wert-Begrenzung erreicht. Im Vergleich zu Autorschaftsstudien liegen die Quoten
467	deutlich niedriger – dort werden Werte >90 % erreicht, selbst wenn sich nur ein	434	deutlich niedriger – dort werden Werte >90% erreicht, selbst wenn sich nur ein
468	Text der ~~Zielautorin / des~~ Zielautors im Vergleichskorpus befindet.[27]	435	Text desder Zielautorsin im Vergleichskorpus befindet.[22]
469		436
476	Volltexte	443	Volltexte
477	~~200a~~	444	200
478	~~300a~~	445	300
479	~~400a~~	446	400
480		447
481		448
482	~~ARIc Guted~~ & ~~ZWBe~~	449	ARI Gute & ZWB
483	0,~~34b~~	450	0,34
484	0,28	451	0,28
499		466
500	ARI ~~Basisf~~	467	ARI Basis
501	0,25	468	0,25
511		478
512	~~F1g~~ Gute & ZWB	479	F1 Gute & ZWB
513	0,68	480	0,68
541		508
542	~~EQh~~ Gute & ZWB	509	EQ Gute & ZWB
543	58	510	58
571		538
572	~~FPi~~ Gute & ZWB	539	FP Gute & ZWB
573	12,4	540	12,4
601		568
602	~~Diffj~~ ARI	569	Diff ARI
603	0,09	570	0,09
619		586
620	a Anzahl der MFWs, die verwendet werdenb Erkennungsquote in %c ARI: Adjusted Rand Indexd Gute: Mit Gute-Wörter-Liste e ZWB: Mit Z-Wert-Begrenzung auf 1,64f Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzungg F1: Precision und Recall kombiniert h EQ: Erkennungsquote in % i FP: False-Positives-Quote in % (niedriger ist besser)j Diff: Differenzen zwischen Werten mit Gute-Wörter-Liste und mit Z-Wert-Begrenzung	587	Tab. 2: Test A2, ARI-Test mit 4 × 10 Distraktortexten, ABE, BIL, GES, KOM, TRA. Abkürzungen:
621	zum Basiswert	588	ARI: Adjusted Rand Index / F1: Precision und Recall kombiniert / Gute: Mit Gute-Wörter-Liste
622		589	/ ZWB: Mit Z-Wert-Begrenzung auf 1.64 / EQ: Erkennungsquote in % / FP: False-Positives-Quote
623		590	in % (niedriger ist besser) / Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzung
624		591	/ Diff: Differenzen zwischen Werten mit Gute-Wörter-Liste und mit Z-Wert-Begrenzung
625		592	zum Basiswert.
626	Tab. 2: Test A2, ARI-Test mit 4 × 10 Distraktortexten, ABE, BIL, GES, KOM, TRA.	593	[32]Die besten ARI-Werte finden sich bei der Kombination der bevorzugten Verwendung von
627	[38]Die besten ARI-Werte finden sich bei der Kombination der bevorzugten Verwendung von
628	Guten Wörtern mit der Z-Wert-Begrenzung bei 200 MFWs sowie bei den Werten mit	594	Guten Wörtern mit der Z-Wert-Begrenzung bei 200 MFWs sowie bei den Werten mit
636	begünstigt ein größerer Vektor eine bessere Erkennung.	602	begünstigt ein größerer Vektor eine bessere Erkennung.
637	[39]Hier ein Blick in die Einzelwerte für die Gattungen bei 200 MFWs mit Guten Wörtern	603	[33]Hier ein Blick in die Einzelwerte für die Gattungen bei 200 MFWs mit Guten Wörtern
638	und Z-Wert-Begrenzung:	604	und Z-Wert-Begrenzung:
643	200 MFWs	609	200 MFWs
644	~~ARIa~~	610	ARI
645	~~F1b~~	611	F1
646	~~EQc~~	612	EQ
647	~~FPd~~	613	FP
648		614
684		650
685	a ARI: Adjusted Rand Indexb F1: Precision und Recall kombiniertc EQ: Erkennungsquote in %d FP: False-Positives-Quote in % (niedriger ist besser)
686
687
688
689	Tab. 3: Test A2, ARI-Test mit 4 × 10 Distraktortexten, Einzelwerte, ABE,	651	Tab. 3: Test A2, ARI-Test mit 4 × 10 Distraktortexten, Einzelwerte, ABE,
690	BIL, GES, KOM, TRA.	652	BIL, GES, KOM, TRA.
691	[40]Der Gesellschaftsroman erweist sich als problematisch – mit niedriger Erkennungsquote	653	[34]Der Gesellschaftsroman erweist sich als problematisch – mit niedriger Erkennungsquote
692	und hoher False-Positives-Rate. Auch Bildungsromane und Tragödien zeigen eine hohe	654	und hoher False-Positives-Rate. Auch Bildungsromane und Tragödien zeigen eine hohe
693	False-Positives-Rate. Überraschend niedrig ist die False-Positives-Rate beim	655	False-Positives-Rate. Überraschend niedrig ist die False-Positives-Rate beim
694	Abenteuerroman, der insgesamt recht gut erkannt werden kann.[28]	656	Abenteuerroman, der insgesamt recht gut erkannt werden kann.[23]
695	[41]Die Bag-of-Words-Technik (hier mit 10.000 Wortformen) führt zu einer Verbesserung	657	[35]Die Bag-of-Words-Technik (hier mit 10.000 Wortformen) führt zu einer Verbesserung
696	der	658	der
709		671
710	~~ARIa~~	672	ARI
711	0,28	673	0,28
715		677
716	~~F1b~~	678	F1
717	0,64	679	0,64
721		683
722	~~EQc~~	684	EQ
723	53,3	685	53,3
727		689
728	~~FPd~~	690	FP
729	13,9	691	13,9
731	15,7	693	15,7
732
733
734	a ARI: Adjusted Rand Indexb F1: Precision und Recall kombiniertc EQ: Erkennungsquote in %d FP: False-Positives-Quote in % (niedriger ist besser)
735
736
737		694
753		710
754	~~ARIa Guteb~~ & ~~ZWBc~~	711	ARI Gute & ZWB
755	0,31	712	0,31
771		728
772	ARI ~~Basisd~~	729	ARI Basis
773	0,19	730	0,19
783		740
784	~~F1e~~ Gute & ZWB	741	F1 Gute & ZWB
785	0,76	742	0,76
813		770
814	~~EQf~~ Gute & ZWB	771	EQ Gute & ZWB
815	74,00	772	74,00
843		800
844	~~FPg~~ Gute & ZWB	801	FP Gute & ZWB
845	20,20	802	20,20
873		830
874	~~Diffh~~ ARI	831	Diff ARI
875	0,12	832	0,12
891		848
892	a ARI: Adjusted Rand Indexb Gute: Mit Gute-Wörter-Listec ZWB: Mit Z-Wert-Begrenzung auf 1,64d Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzunge F1: Precision und Recall kombiniertf EQ: Erkennungsquote in %g FP: False-Positives-Quote in % (niedriger ist besser)h Diff: Differenzen zwischen Werten mit Gute-Wörter-Liste und mit Z-Wert-Begrenzung
893	zum Basiswert
894
895
896
897
898	Tab. 5: Test A3, ARI-Test mit 4 × 5 Distraktortexten, ABE, BIL, GES, KOM,	849	Tab. 5: Test A3, ARI-Test mit 4 × 5 Distraktortexten, ABE, BIL, GES, KOM,
899	TRA.	850	TRA.
900	[42]Gegenüber dem Test mit 4 × 10 Distraktortexten geht eine Verbesserung der	851	[36]Gegenüber dem Test mit 4 × 10 Distraktortexten geht eine Verbesserung der
901	Erkennungsquote mit einer Verschlechterung der False-Positives-Quote einher. Bei 200	852	Erkennungsquote mit einer Verschlechterung der False-Positives-Quote einher. Bei 200
916		867
917	~~ARIa Guteb~~ & ~~ZWBc~~	868	ARI Gute & ZWB
918	0,62	869	0,62
934		885
935	ARI ~~Basisd~~	886	ARI Basis
936	0,5	887	0,5
946		897
947	~~F1e~~ Gute & ZWB	898	F1 Gute & ZWB
948	0,88	899	0,88
976		927
977	~~EQf~~ Gute & ZWB	928	EQ Gute & ZWB
978	86,7	929	86,7
1006		957
1007	~~FPg~~ Gute & ZWB	958	FP Gute & ZWB
1008	10,0	959	10,0
1036		987
1037	~~Diffh~~ ARI	988	Diff ARI
1038	0,12	989	0,12
1054		1005
1055	a ARI: Adjusted Rand Indexb Gute: Mit Gute-Wörter-Listec ZWB: Mit Z-Wert-Begrenzung auf 1,64d Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzunge F1: Precision und Recall kombiniertf EQ: Erkennungsquote in %g FP: False-Positives-Quote in % (niedriger ist besser)h Diff: Differenzen zwischen Werten mit Gute-Wörter-Liste und mit Z-Wert-Begrenzung
1056	zum Basiswert
1057
1058
1059
1060	Tab. 6: Test B, ARI-Test mit 2 × 10 Distraktortexten, ABE, BIL, KOM.	1006	Tab. 6: Test B, ARI-Test mit 2 × 10 Distraktortexten, ABE, BIL, KOM.
1061	[43]Bei diesem Test bleibt der schwer unterscheidbare Gesellschaftsroman außen vor. Die	1007	[37]Bei diesem Test bleibt der schwer unterscheidbare Gesellschaftsroman außen vor. Die
1062	ARI-Werte verbessern sich in der Zeile ›Gute & ZWB‹ auf ein ordentliches Niveau,	1008	ARI-Werte verbessern sich in der Zeile ›Gute & ZWB‹ auf ein ordentliches Niveau,
1070		1016
1071	[44]Hier wird unter den Romansubgenres nur der besser unterscheidbare Abenteuerroman	1017	[38]Hier wird unter den Romansubgenres nur der besser unterscheidbare Abenteuerroman
1072	einbezogen. Test C ist der einzige Test in dieser Studie, in der nicht verschiedene	1018	einbezogen. Test C ist der einzige Test in dieser Studie, in der nicht verschiedene
1073	Romansubgenres beteiligt sind – hier kann man am ehesten von drei verschiedenen	1019	Romansubgenres beteiligt sind – hier kann man am ehesten von drei verschiedenen
1074	Gattungen sprechen.	1020	Gattungen sprechen.
1084		1030
1085	~~ARIa Guteb~~ & ~~ZWBc~~	1031	ARI Gute & ZWB
1086	0,45	1032	0,45
1102		1048
1103	ARI ~~Basisd~~	1049	ARI Basis
1104	0,45	1050	0,45
1114		1060
1115	~~F1e~~ Gute & ZWB	1061	F1 Gute & ZWB
1116	0,78	1062	0,78
1144		1090
1145	~~EQf~~ Gute & ZWB	1091	EQ Gute & ZWB
1146	73,33	1092	73,33
1174		1120
1175	~~FPg~~ Gute & ZWB	1121	FP Gute & ZWB
1176	13,68	1122	13,68
1204		1150
1205	~~Diffh~~ ARI	1151	Diff ARI
1206	0,00	1152	0,00
1222		1168
1223	a ARI: Adjusted Rand Indexb Gute: Mit Gute-Wörter-Listec ZWB: Mit Z-Wert-Begrenzung auf 1,64d Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzunge F1: Precision und Recall kombiniertf EQ: Erkennungsquote in %g FP: False-Positives-Quote in % (niedriger ist besser)h Diff: Differenzen zwischen Werten mit Gute-Wörter-Liste und mit Z-Wert-Begrenzung
1224	zum Basiswert
1225
1226
1227
1228	Tab. 7: Test C, ARI-Test mit 2 × 10 Distraktortexten, ABE, KOM, TRA.	1169	Tab. 7: Test C, ARI-Test mit 2 × 10 Distraktortexten, ABE, KOM, TRA.
1229	[45]Bei den ARI-Werten wird hier ein Niveau erreicht, das zwischen dem ordentlichen	1170	[39]Bei den ARI-Werten wird hier ein Niveau erreicht, das zwischen dem ordentlichen
1230	Niveau der Testreihe B (ABE, BIL, KOM) und dem mäßigen Niveau der Testreihe A liegt.	1171	Niveau der Testreihe B (ABE, BIL, KOM) und dem mäßigen Niveau der Testreihe A liegt.
1233	Erkennungsquote.	1174	Erkennungsquote.
1234	[46]Auch hier setzen sich die Durchschnittswerte aus stark schwankenden Einzelwerten	1175	[40]Auch hier setzen sich die Durchschnittswerte aus stark schwankenden Einzelwerten
1235	zusammen: Während der Abenteuerroman sehr gut clustert, sind die Daten bei den	1176	zusammen: Während der Abenteuerroman sehr gut clustert, sind die Daten bei den
1264		1205
1265
1266	Tab. 8: Test C, ARI-Test mit 2 × 10 Distraktortexten, Einzelwerte, ABE,	1206	Tab. 8: Test C, ARI-Test mit 2 × 10 Distraktortexten, Einzelwerte, ABE,
1270		1210
1271	[47]Anders als in den Testreihen A–C werden hier keine verschiedenen Gattungen, sondern	1211	[41]Anders als in den Testreihen A–C werden hier keine verschiedenen Gattungen, sondern
1272	lediglich Romansubgenres untersucht. Dies hat den Vorteil, dass dabei die teils	1212	lediglich Romansubgenres untersucht. Dies hat den Vorteil, dass dabei die teils
1289		1229
1290	~~Gutea~~ & ~~ZWBb~~	1230	Gute & ZWB
1291	51,2	1231	51,2
1302		1242
1303	~~Basisc~~	1243	Basis
1304	35,7	1244	35,7
1331		1271
1332	a Gute: Mit Gute-Wörter-Listeb ZWB: Mit Z-Wert-Begrenzung auf 1,64c Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzung
1333
1334
1335
1336
1337	Tab. 9: Test D1, Erkennungsquotentest mit fünf Vergleichstexten der	1272	Tab. 9: Test D1, Erkennungsquotentest mit fünf Vergleichstexten der
1338	Zielklasse, ABE, BIL, GES.	1273	Zielklasse, ABE, BIL, GES.
1339	[48]Die Erkennungsquote mit den Optimierungstechniken ist beim Bag-of-Words-Verfahren	1274	[42]Die Erkennungsquote mit den Optimierungstechniken ist beim Bag-of-Words-Verfahren
1340	etwas besser als mit Volltexten; bei Test A war	1275	etwas besser als mit Volltexten; bei Test A war
1363		1298
1364	~~ARIa Guteb~~ & ~~ZWBc~~	1299	ARI Gute & ZWB
1365	0,22	1300	0,22
1381		1316
1382	ARI ~~Basisd~~	1317	ARI Basis
1383	0,04	1318	0,04
1393		1328
1394	~~F1e~~ Gute & ZWB	1329	F1 Gute & ZWB
1395	0,63	1330	0,63
1423		1358
1424	~~EQf~~ Gute & ZWB	1359	EQ Gute & ZWB
1425	55	1360	55
1453		1388
1454	~~FPg~~ Gute & ZWB	1389	FP Gute & ZWB
1455	18,29	1390	18,29
1483		1418
1484	~~Diffh~~ ARI	1419	Diff ARI
1485	0,18	1420	0,18
1501		1436
1502	a ARI: Adjusted Rand Indexb Gute: Mit Gute-Wörter-Listec ZWB: Mit Z-Wert-Begrenzung auf 1,64d Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzunge F1: Precision und Recall kombiniertf EQ: Erkennungsquote in %g FP: False-Positives-Quote in % (niedriger ist besser)h Diff: Differenzen zwischen Werten mit Gute-Wörter-Liste und mit Z-Wert-Begrenzung
1503	zum Basiswert
1504
1505
1506
1507
1508	Tab. 10: Test D2, ARI-Test mit 2 × 10 Distraktortexten, ABE, BIL, GES.	1437	Tab. 10: Test D2, ARI-Test mit 2 × 10 Distraktortexten, ABE, BIL, GES.
1509	[49]Wiederum ist, wie ein Blick in die Subgenre-Einzelwerte in der Folgetabelle zeigt,	1438	[43]Wiederum ist, wie ein Blick in die Subgenre-Einzelwerte in der Folgetabelle zeigt,
1510	die Erkennung beim Abenteuerroman deutlich besser, das Clustering beim	1439	die Erkennung beim Abenteuerroman deutlich besser, das Clustering beim
1520	200 MFWs	1449	200 MFWs
1521	~~ARIa~~	1450	ARI
1522	~~F1b~~	1451	F1
1523	~~EQc~~	1452	EQ
1524	~~FPd~~	1453	FP
1525		1454
1547		1476
1548	a ARI: Adjusted Rand Indexb F1: Precision und Recall kombiniertc EQ: Erkennungsquote in %d FP: False-Positives-Quote in % (niedriger ist besser)
1549
1550
1551
1552
1553	Tab. 11: Test D2, ARI-Test mit 2 × 10 Distraktortexten, Einzelwerte, ABE,	1477	Tab. 11: Test D2, ARI-Test mit 2 × 10 Distraktortexten, Einzelwerte, ABE,
1557		1481
1558	[50]Die gleiche Tendenz auf noch schlechterem Niveau zeigt sich bei der Variante mit nur	1482	[44]Die gleiche Tendenz auf noch schlechterem Niveau zeigt sich bei der Variante mit nur
1559	fünf (statt zehn) ausgelosten Distraktortexten je Nicht-Zielklasse:	1483	fünf (statt zehn) ausgelosten Distraktortexten je Nicht-Zielklasse:
1569		1493
1570	~~ARIa Guteb~~ & ~~ZWBc~~	1494	ARI Gute & ZWB
1571	0,06	1495	0,06
1587		1511
1588	ARI ~~Basisd~~	1512	ARI Basis
1589	-0,01	1513	-0,01
1599		1523
1600	~~F1e~~ Gute & ZWB	1524	F1 Gute & ZWB
1601	0,60	1525	0,60
1629		1553
1630	~~EQf~~ Gute & ZWB	1554	EQ Gute & ZWB
1631	59,00	1555	59,00
1659		1583
1660	~~FPg~~ Gute & ZWB	1584	FP Gute & ZWB
1661	38,70	1585	38,70
1689		1613
1690	~~Diffh~~ ARI	1614	Diff ARI
1691	0,07	1615	0,07
1707		1631
1708	a ARI: Adjusted Rand Indexb Gute: Mit Gute-Wörter-Listec ZWB: Mit Z-Wert-Begrenzung auf 1,64d Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzunge F1: Precision und Recall kombiniertf EQ: Erkennungsquote in %g FP: False-Positives-Quote in % (niedriger ist besser)h Diff: Differenzen zwischen Werten mit Gute-Wörter-Liste und mit Z-Wert-Begrenzung
1709	zum Basiswert
1710
1711
1712
1713
1714	Tab. 12: Test D3, ARI-Test mit 2 × 5 Distraktortexten, ABE, BIL, GES.	1632	Tab. 12: Test D3, ARI-Test mit 2 × 5 Distraktortexten, ABE, BIL, GES.
1715	[51]Problematisch an diesem Setting ist die Kombination von zehn Distraktortexten mit	1633	[45]Problematisch an diesem Setting ist die Kombination von zehn Distraktortexten mit
1716	neun Zielklassentexten, gegen die im Einzeltest ein Zielklassentext getestet wird.	1634	neun Zielklassentexten, gegen die im Einzeltest ein Zielklassentext getestet wird.
1717	Eine Zufallsverteilung würde eine Erkennungsquote von 31 % ergeben. Die	1635	Eine Zufallsverteilung würde eine Erkennungsquote von 31% ergeben. Die
1718	Erkennungsquoten müssten also deutlich höher liegen, um einen guten ARI-Wert zu	1636	Erkennungsquoten müssten also deutlich höher liegen, um einen guten ARI-Wert zu
1725		1643
1726	[52]Da die kürzeren Komödien und Tragödien hier unberücksichtigt bleiben, wird es	1644	[46]Da die kürzeren Komödien und Tragödien hier unberücksichtigt bleiben, wird es
1727	möglich, einen größeren Bereich an MFWs in den Test einzubeziehen. In den übrigen	1645	möglich, einen größeren Bereich an MFWs in den Test einzubeziehen. In den übrigen
1733	2.530 (GES) Wortformen. Bei der Evaluation werden nun 500–4.000 MFWs verwendet.	1651	2.530 (GES) Wortformen. Bei der Evaluation werden nun 500–4.000 MFWs verwendet.
1734	[53]Neben den üblichen Tests (in der Folgetabelle von unten nach oben: ›Basis‹: ohne Gute	1652	[47]Neben den üblichen Tests (in der Folgetabelle von unten nach oben: ›Basis‹: ohne Gute
1735	Wörter, ohne Z-Wert-Begrenzung; ›ZWB 1,64‹: nur Z-Wert-Begrenzung, ohne Gute Wörter;	1653	Wörter, ohne Z-Wert-Begrenzung; ›ZWB 1,64‹: nur Z-Wert-Begrenzung, ohne Gute Wörter;
1755		1673
1756	~~ARIa Guteb & ZWBc~~ 1,64	1674	ARI G&ZWB 1,64
1757	0,19	1675	0,19
1766		1684
1767	ARI ~~Gute & ZWB~~ 1,2	1685	ARI G&ZWB 1,2
1768	0,17	1686	0,17
1777		1695
1778	ARI ~~Gute & ZWB~~ 1,0	1696	ARI G&ZWB 1,0
1779	0,14	1697	0,14
1788		1706
1789	ARI ~~Gute & ZWBneg~~	1707	ARI G&ZWBneg
1790	0,17	1708	0,17
1821		1739
1822	ARI ~~Basisd~~	1740	ARI Basis
1823	0,08	1741	0,08
1843		1761
1844	~~F1e Gute & ZWB~~ 1,64	1762	F1 G&ZWB 1,64
1845	0,68	1763	0,68
1854		1772
1855	F1 ~~Gute & ZWB~~ 1,2	1773	F1 G&ZWN 1,2
1856	0,67	1774	0,67
1865		1783
1866	F1 ~~Gute & ZWB~~ 1,0	1784	F1 G&ZWB 1,0
1867	0,66	1785	0,66
1876		1794
1877	F1 ~~Gute & ZWBneg~~	1795	F1 G&ZWBneg
1878	0,70	1796	0,70
1931		1849
1932	~~EQf Gute & ZWB~~ 1,64	1850	EQ G&ZWB 1,64
1933	66,67	1851	66,67
1942		1860
1943	EQ ~~Gute & ZWB~~ 1,2	1861	EQ G&ZWB 1,2
1944	63,33	1862	63,33
1953		1871
1954	EQ ~~Gute & ZWB~~ 1,0	1872	EQ G&ZWB 1,0
1955	63,33	1873	63,33
1964		1882
1965	EQ ~~Gute & ZWBneg~~	1883	EQ G&ZWBneg
1966	70	1884	70
2019		1937
2020	~~FPg Gute & ZWB~~ 1,64	1938	FP G&ZWB 1,64
2021	29,74	1939	29,74
2030		1948
2031	FP ~~Gute & ZWB~~ 1,2	1949	FP G&ZWB 1,2
2032	26,14	1950	26,14
2041		1959
2042	FP ~~Gute & ZWB~~ 1,0	1960	FP G&ZWB 1,0
2043	27,81	1961	27,81
2052		1970
2053	FP ~~Gute & ZWBneg~~	1971	FP G&ZWBneg
2054	31,32	1972	31,32
2096		2014
2097	a ARI: Adjusted Rand Indexb Gute: Mit Gute-Wörter-Listec ZWB: Mit Z-Wert-Begrenzung auf 1,64d Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzunge F1: Precision und Recall kombiniertf EQ: Erkennungsquote in %g FP: False-Positives-Quote in % (niedriger ist besser)
2098
2099
2100
2101	Tab. 13: Test D4, ARI-Test mit 2 × 10 Distraktortexten und großem	2015	Tab. 13: Test D4, ARI-Test mit 2 × 10 Distraktortexten und großem
2102	MFW-Bereich, Volltexte, ABE, BIL, GES.	2016	MFW-Bereich, Volltexte, ABE, BIL, GES.
2103	[54]Bei den optimalen Parametern (Gute Wörter kombiniert mit Z-Wert-Begrenzung auf 1,0)	2017	[48]Bei den optimalen Parametern (Gute Wörter kombiniert mit Z-Wert-Begrenzung auf 1,0)
2104	werden sowohl bei ARI, F1-Score, Erkennungsquote und False-Positives die besten Werte	2018	werden sowohl bei ARI, F1-Score, Erkennungsquote und False-Positives die besten Werte
2105	erreicht. Der F1-Score verbessert sich gegenüber dem besten Wert in Testreihe D2 (0,67) nun auf 0,76.	2019	erreicht. Der F1-Score verbessert sich gegenüber dem besten Wert in Testreihe D2 (0,67) nun auf 0,76.
2106	[55]Für die optimalen Werte wurde noch ein Bag-of-Words-Tests durchgeführt mit	2020	[49]Für die optimalen Werte wurde noch ein Bag-of-Words-Tests durchgeführt mit
2107	Bag-of-Words mit je 20.000 Wortformen und 200 Iterationen je Einzelwert (Rechenzeit:	2021	Bag-of-Words mit je 20.000 Wortformen und 200 Iterationen je Einzelwert (Rechenzeit:
2117		2031
2118	~~ARIa Guteb & ZWBc~~ 1,0	2032	ARI G&ZWB 1,0
2119	0,14	2033	0,14
2122		2036
2123	~~F1d Gute & ZWB~~ 1,0	2037	F1 G&ZWB 1,0
2124	0,66	2038	0,66
2127		2041
2128	~~EQe Gute & ZWB~~ 1,0	2042	EQ G&ZWB 1,0
2129	64,7	2043	64,7
2132		2046
2133	~~FPf Gute & ZWB~~ 1,0	2047	FP G&ZWB 1,0
2134	31,01	2048	31,01
2137		2051
2138	a ARI: Adjusted Rand Indexb Gute: Mit Gute-Wörter-Listec ZWB: Mit Z-Wert-Begrenzung auf 1,64d F1: Precision und Recall kombinierte EQ: Erkennungsquote in %f FP: False-Positives-Quote in % (niedriger ist besser)
2139
2140
2141
2142
2143	Tab. 14: Test D5, ARI-Test mit 2 × 10 Distraktortexten und großem	2052	Tab. 14: Test D5, ARI-Test mit 2 × 10 Distraktortexten und großem
2148		2057
2149	[56]Die Verwendung der Guten Wörter führt zu einer Verbesserung der Erkennungsquoten,	2058	[50]Die Verwendung der Guten Wörter führt zu einer Verbesserung der Erkennungsquoten,
2150	die	2059	die
2152	Kombination führen beide Techniken zu einer Verbesserung der Erkennungsquoten, die	2061	Kombination führen beide Techniken zu einer Verbesserung der Erkennungsquoten, die
2153	nicht auf Kosten einer Verschlechterung der False-Positives-Quote erfolgt – dies ist	2062	nicht auf Kosten einer Verschlechterung der False-Positives-Quote erfolgt – dies ist
2154	auch an den verbesserten ARI-Werten ablesbar. Insgesamt bleibt die Gattungserkennung	2063	auch an den verbesserten ARI-Werten ablesbar. Insgesamt bleibt die Gattungserkennung
2157	guter F1-Wert >0,9 erzielt. Der Test A2 mit allen fünf Textsorten bringt bei 200	2066	guter F1-Wert >0,9 erzielt. Der Test A2 mit allen fünf Textsorten bringt bei 200
2158	MFWs mäßige Erfolge mit F1: 0,68, einer Erkennungsquote von 58 % bei immerhin nur	2067	MFWs mäßige Erfolge mit F1: 0,68, einer Erkennungsquote von 58% bei immerhin nur
2159	12,4 % False-Positives hervor (etwas verlagert in Test A3: F1: 0,77, Erkennungsquote:	2068	12,4% False-Positives hervor (etwas verlagert in Test A3: F1: 0,77, Erkennungsquote:
2160	76%, False-Positives: 22,1%).	2069	76%, False-Positives: 22,1%).
2161	[57]In dieser Studie sollte geprüft werden, ob das Gute-Wörter-Verfahren zu einer	2070	[51]In dieser Studie sollte geprüft werden, ob das Gute-Wörter-Verfahren zu einer
2162	Verbesserung der Genre-Erkennung beitragen kann. Dazu lässt sich ein positiver Befund	2071	Verbesserung der Genre-Erkennung beitragen kann. Dazu lässt sich ein positiver Befund
2166	Textsortenlabels vermieden wurden.	2075	Textsortenlabels vermieden wurden.
2167	[58]Die gewählten Bildungs- und Gesellschaftsromane sowie Tragödien und Komödien auf	2076	[52]Die gewählten Bildungs- und Gesellschaftsromane sowie Tragödien und Komödien auf
2168	digitalem Weg zu unterscheiden, bleibt eine anspruchsvolle Herausforderung. Zu	2077	digitalem Weg zu unterscheiden, bleibt eine anspruchsvolle Herausforderung. Zu
2709		2618
2710
2711	Tab. 15: Auszug aus den textsortenspezifischen Gute-Wörter-Listen: Jeweils	2619	Tab. 15: Auszug aus den textsortenspezifischen Gute-Wörter-Listen: Jeweils
2756		2664
2757
2758	Tab. 16: Duplikate in den Listen der Guten Wörter.	2665	Tab. 16: Duplikate in den Listen der Guten Wörter.
2759	[59]Das Verfahren, dass die Guten Wörter für eine Textsorte in Relation zu den vier	2666	[53]Das Verfahren, dass die Guten Wörter für eine Textsorte in Relation zu den vier
2760	anderen Textsorten auf Basis der mehrfach gemittelten Level-2-Differenzen gebildet	2667	anderen Textsorten auf Basis der mehrfach gemittelten Level-2-Differenzen gebildet
2770	Abenteuerroman fehlerfrei gelingt (vgl. Test C).	2677	Abenteuerroman fehlerfrei gelingt (vgl. Test C).
2771	[60]Wörter, die man in semantischer Hinsicht vielleicht auch intuitiv mit der Textsorte	2678	[54]Wörter, die man in semantischer Hinsicht vielleicht auch intuitiv mit der Textsorte
2772	in Verbringen wollte, sind in den Gute-Wörter-Listen selten – die meisten Wortformen	2679	in Verbringen wollte, sind in den Gute-Wörter-Listen selten – die meisten Wortformen
2773	findet man auch sonst in längeren MfW-Listen. Wenn man gezielt sucht, könnten etwa	2680	findet man auch sonst in längeren MfW-Listen. Wenn man gezielt sucht, könnten etwa
2778	intersubjektiv nachvollziehbar zu begründen.	2685	intersubjektiv nachvollziehbar zu begründen.
2779	[61]Verben stehen recht erwartbar meist in der 3. Person Singular Präteritum, in der	2686	[55]Verben stehen recht erwartbar meist in der 3. Person Singular Präteritum, in der
2780	Abenteuerroman-Liste sind jedoch relativ viele Verben in der 2. Person Singular	2687	Abenteuerroman-Liste sind jedoch relativ viele Verben in der 2. Person Singular
2781	Präsens enthalten – womöglich ein Indikator für einen erhöhten Anteil an direkter	2688	Präsens enthalten – womöglich ein Indikator für einen erhöhten Anteil an direkter
2782	Figurenrede. Dass ›Berlin‹ in den Listen steht, könnte damit korrespondieren, dass	2689	Figurenrede. Dass ›Berlin‹ in den Listen steht, könnte damit korrespondieren, dass
2793	[1]	2700	[1]
2794	Vgl. etwa Büttner et al. 2017.	2701	Vgl. etwa Büttner et al.
		2702	2017.
2795		2703
2796	[2]	2704	[2]
2797	Vgl. Hettinger et al. 2016a, S. 158.	2705	Vgl. Hettinger et al. 2016a, S. 158.
2798	Hettinger et al. 2015 berichten über eine verbesserte Erkennungsleistung mit Hilfe	2706	Hettinger et al. 2015 berichten über eine verbesserte Erkennungsleistung mit Hilfe
2799	von SVMs, die auf der Basis von LDA-Topics erzielt wurde; vgl. ähnlich Hettinger	2707	von SVMs, die auf der Basis von LDA-Topics erzielt wurde; vgl. ähnlich Hettinger
2800	et al. 2016b. Kim et al. 2017 vergleichen englische Abenteuerromane, humoristische	2708	et al. 2016b. Kim et al. 2017 vergleichen englische Abenteuerromane, humoristische
2801	Romane, Science Fiction, Liebesgeschichten und Detektivromane auf der Grundlage	2709	Romane, Science Fiction, Liebesgeschichten und Detektivromane auf der Grundlage
2803	Emotionsmodell mit Hilfe von Maschinellem Lernen (RF und MLP). Vgl. weiterhin	2711	Emotionsmodell mit Hilfe von Maschinellem Lernen (RF und MLP). Vgl. weiterhin
2804	Schöch 2020; Calvo Tello 2019; ~~Underwood 2016;~~ Ardanuy / Sporleder 2014; Underwood et al. 2013; Eder / Rybicki 2011; Sharoff et al. 2010; Stamatatos et al. 2000; Kessler et al.	2712	Schöch 2020; Calvo Tello 2019; Ardanuy / Sporleder 2014; Underwood et al. 2013; Eder / Rybicki 2011; Sharoff et al. 2010; Stamatatos et al. 2000; Kessler et al.
2805	1997.	2713	1997.
2818	[6]	2726	[6]
2819	Gittel / Köppe 2022, S. 13–22, kritisieren die Studie von Underwood 2016 für ihre Thesenbildung zu Genre-Grenzen, dem Generationen-Bezug von Genres und der	2727	Vgl. Büttner / Proisl 2016.
2820	Kohärenz von Genres, die auf der Grundlage von linguistischen Parametern mit Hilfe
2821	von maschinellem Lernen erfolgt. U.a. anhand der Textsorten Pastiche und Parodie stellen
2822	Gittel / Köppe in Frage, inwieweit linguistische Textmerkmale hinreichend für eine
2823	Genre-Bestimmung sein können.
2824		2728
2825	[7]	2729	[7]
2826	~~Zum Modellieren als zentrale Tätigkeit im DH-Bereich vgl~~. ~~McCarty 2005~~.	2730	Vgl. Schöch 2014.
2827		2731
2828	[8]	2732	[8]
2829	Stachowiak 1973, S. 132. Vgl. zur Approximation bei der Modellbildung Saam / Gautschi 2015, S. 26–38. McCarty 2005, S 24, weist darauf hin, dass auch in der traditionellen Literaturwissenschaft Modelle	2733	Hettinger et al.
2830	omnipräsent sind – etwa bei der Beschreibung von Epochen. Gittel / Köppe 2022, S. 20, kritisieren insbesondere, dass die digitale Modellierung von Underwood anders	2734	2016a, S. 161.
2831	als literaturwissenschaftliche Beschreibungen Kontexte und paratextuelle Informationen
2832	nicht einbeziehen, diese können jedoch für die Erkennung der Gattung eines Textes
2833	entscheidend sein.
2834		2735
2835	[9]	2736	[9]
2836	~~Zur Trennung von Ergebnisdaten und Interpretation vgl~~. ~~auch Dimpel 2015~~.	2737	Vgl. Selbmann 1994, S. 96–120.
2837		2738
2838	[10]	2739	[10]
2839	Dieses Verfahren lässt sich durchaus kritisieren: Bedacht wird dabei nicht, wie oft
2840	einem Text die Eigenschaft zugesprochen wird, zu einer Textsorte zu gehören. Unberücksichtigt
2841	bleibt auch, ob die Zuordnungen auf einheitlichen Genre-Definitionen basieren. Um
2842	eigene Textsortenmodelle zu entwickeln und die Zuordnungen auf dieser Basis zu überprüfen,
2843	standen für die Studie nicht die nötigen Ressourcen zur Verfügung. Insoweit deviante
2844	Epochenbegriffe eingehen sollten, würden damit allerdings gelebte Praktiken im Fach
2845	berücksichtigt.
2846
2847	[11]
2848	Vgl. Büttner / Proisl 2016.
2849
2850	[12]
2851	Vgl. Schöch 2014.
2852
2853	[13]
2854	Hettinger et al.
2855	2016a, S. 161.
2856
2857	[14]
2858	Vgl. Selbmann 1994, S. 96–120.
2859
2860	[15]
2861	Selbmann	2740	Selbmann
2863		2742
2864	[16]	2743	[11]
2865	Dimpel 2018a; Dimpel et al. 2019; vgl. weiterhin Dimpel 2018b.	2744	Dimpel 2018a; Dimpel et al. 2019; vgl. weiterhin Dimpel 2018b.
2866	Ein didaktisch aufbereiteter Foliensatz steht hier.	2745	Ein didaktisch aufbereiteter Foliensatz steht hier.
2867		2746
2868	[17]	2747	[12]
2869	In Dimpel / Proisl 2019.	2748	In Dimpel / Proisl 2019.
2870		2749
2871	[18]	2750	[13]
2872		2751
2873	Weitere Parameter für die Ermittlung der Guten Wörter: Verwendet wurden volle	2752	Weitere Parameter für die Ermittlung der Guten Wörter: Verwendet wurden volle
2874	Texte nach Entfernung der ersten 10 % der Wortformen. Die häufigsten 1.200 MFWs	2753	Texte nach Entfernung der ersten 10% der Wortformen. Die häufigsten 1.200 MFWs
2875	wurden verwendet. Experimente mit 1.500 MFWs haben schlechtere Ergebnisse	2754	wurden verwendet. Experimente mit 1.500 MFWs haben schlechtere Ergebnisse
2877	Tragödien teils recht kurz sind. Der kürzeste Text kommt nach dem Entfernen der	2756	Tragödien teils recht kurz sind. Der kürzeste Text kommt nach dem Entfernen der
2878	ersten 10 % auf 5.473 Wortformen. Aus Rechenzeitgründen wurden Wortformen nach	2757	ersten 10% auf 5.473 Wortformen. Aus Rechenzeitgründen wurden Wortformen nach
2879	75.000 Wortformen nicht mehr berücksichtigt (Cutoff) – über die Hälfte der Texte	2758	75.000 Wortformen nicht mehr berücksichtigt (Cutoff) – über die Hälfte der Texte
2880	ist ohnehin nicht länger als 50.000 Wortformen.	2759	ist ohnehin nicht länger als 50.000 Wortformen.
2881		2760
2882	[19]	2761	[14]
2883	In einem weiteren Prätest wurde	2762	In einem weiteren Prätest wurde
2892		2771
2893	[20]	2772	[15]
2894	Abkürzungen:	2773	Abkürzungen:
2897		2776
2898	[21]	2777	[16]
2899	Vgl. etwa Büttner et al. 2017.	2778	Vgl. etwa Büttner et al. 2017.
2900		2779
2901	[22]	2780	[17]
2902	Weiterhin werden von der	2781	Weiterhin werden von der
2907		2786
2908	[23]	2787	[18]
2909	In	2788	In
2914		2793
2915	[24]	2794	[19]
2916	Ardanuy / Sporleder 2014, S. 37, akzeptieren etwa eine Klassifizierung bei	2795	Ardanuy / Sporleder 2014, S. 37, akzeptieren etwa eine Klassifizierung bei
2917	mehrfachen Labels als korrekt, wenn die erkannte Klasse zumindest zu einem der	2796	mehrfachen Labels als korrekt, wenn die erkannte Klasse zumindest zu einem der
2918	Label passt, während in der vorliegenden Studie angestrebt wurde, Texte mit	2797	Label passt, während in der vorliegenden Studie angestrebt wurde, Texte mit
2919	mehrfachen Labels zu meiden. Eine Vergleichbarkeit der Studien leidet – wie so oft	2798	mehrfachen Labels zu meiden. Eine Vergleichbarkeit der Studien leidet – wie so oft
2920	im Bereich der Digital Humanities – auch darunter, dass viele Publikationsorgane	2799	im Bereich der Digital Humanities – auch darunter, dass viele Publikationsorgane
2921	den Maximalumfang der Beiträge auf derart wenige Seiten einschränken, dass eine	2800	den Maximalumfang der Beiträge auf derart wenige Seiten einschränken, dass eine
2925		2804
2926	[25]	2805	[20]
2927	Vgl. zur	2806	Vgl. zur
2928	Z-Wert-Begrenzung Evert et al. 2016; Dimpel 2018b.	2807	Z-Wert-Begrenzung Evert et al. 2016; Dimpel 2018b.
2929		2808
2930	[26]	2809	[21]
2931	Es sind 40	2810	Es sind 40
2934		2813
2935	[27]	2814	[22]
2936	Vgl.	2815	Vgl.
2937	etwa Büttner et al. 2017.	2816	etwa Büttner et al. 2017.
2938		2817
2939	[28]	2818	[23]
2940		2819
2941	Eine ähnliche Tendenz beobachten Hettinger et al. 2016a, S. 160.	2820	Eine ähnliche Tendenz beobachten Hettinger et al. 2016a, S. 160.
2942		2821
2952	(CLfL). Hg. von Association for Computational Linguistics. (EACL 2014, Göteborg,	2831	(CLfL). Hg. von Association for Computational Linguistics. (EACL 2014, Göteborg,
2953	27.04.2014) Stroudsburg, PA, 2014, S. 31–39. DOI: 10.3115/v1/W14-0905Andreas Büttner / Thomas Proisl: Stilometrie interdisziplinär: Merkmalsselektion	2832	27.04.2014) Stroudsburg, PA, 2014, S. 31–39. DOI: 10.3115/v1/W14-0905Andreas Büttner / Friedrich Michael Dimpel / Stefan Evert / Fotis
		2833	Jannidis / Steffen Pielström / Thomas Proisl / Isabella Reger / Christof
		2834	Schöch / Thorsten Vitt: „Delta“ in der stilometrischen Autorschaftsattribution. In:
		2835	Zeitschrift für digitale Geisteswissenschaften 2 (2017). DOI: 10.17175/2017_006Andreas Büttner / Thomas Proisl: Stilometrie interdisziplinär: Merkmalsselektion
2954	zur Differenzierung zwischen Übersetzer- und Fachvokabular. In: Modellierung,	2836	zur Differenzierung zwischen Übersetzer- und Fachvokabular. In: Modellierung,
2956	Forschungsparadigma. DHd 2016. Konferenzabstracts. Hg. von Elisabeth Burr. (DHd: 3,	2838	Forschungsparadigma. DHd 2016. Konferenzabstracts. Hg. von Elisabeth Burr. (DHd: 3,
2957	Leipzig, 07.–12.03.2016) Duisburg 2016, S. 70–74. DOI: 10.5281/zenodo.3679331 [Nachweis im GVK] Andreas Büttner / Friedrich Michael Dimpel / Stefan Evert / Fotis	2839	Leipzig, 07.–12.03.2016) Duisburg 2016, S. 70–74. DOI: 10.5281/zenodo.3679331 [Nachweis im GVK] José Calvo Tello: Gattungserkennung über 500 Jahre. In: DHd 2019 Digital
2958	Jannidis / Steffen Pielström / Thomas Proisl / Isabella Reger / Christof
2959	Schöch / Thorsten Vitt: „Delta“ in der stilometrischen Autorschaftsattribution. In:
2960	Zeitschrift für digitale Geisteswissenschaften 2 (2017). DOI: 10.17175/2017_006José Calvo Tello: Gattungserkennung über 500 Jahre. In: DHd 2019 Digital
2961	Humanities: multimedial & multimodal. Konferenzabstracts. Hg. von Patrick Sahle.	2840	Humanities: multimedial & multimodal. Konferenzabstracts. Hg. von Patrick Sahle.
2962	(DHd: 6, Frankfurt am Main u. a., 25.–29.03.2019) Frankfurt/Main 2019, S. 292–294.	2841	(DHd: 6, Frankfurt am Main u. a., 25.–29.03.2019) Frankfurt/Main 2019, S. 292–294.
2963	DOI: 10.5281/zenodo.2600812Friedrich Michael Dimpel: Der Computerphilologe als Interpret – ein Teilzeit-Empiriker?	2842	DOI: 10.5281/zenodo.2600812Friedrich Michael Dimpel / Daniel Schlager / Katharina Zeppezauer-Wachauer: Der
2964	In: Literatur interpretieren. Interdisziplinäre Beiträge zur Theorie und Praxis. Hg.	2843	Streit um die Birne. Autorschafts-Attributionstest mit Burrows’ Delta und dessen
2965	von Jan Borkowski / Stefan Descher / Felicitas Ferder / Philipp Heine. Münster 2015,	2844	Optimierung für Kurztexte am Beispiel der ‚Halben Birne‘ des Konrad von Würzburg.
2966	S. 339–359. DOI: 10.30965/9783957438973_018Friedrich Michael Dimpel (2018a): Die guten ins Töpfchen: Zur Anwendbarkeit von	2845	In:
		2846	Digitale Mediävistik. Hg. von Roman Bleier / Franz Fischer / Torsten
		2847	Hiltmann / Gabriel Viehhauser / Georg Vogeler. Berlin u. a. 2019, S. 71–90. [Nachweis im GVK] Friedrich Michael Dimpel / Thomas Proisl: Gute Wörter für Delta: Verbesserung der
		2848	Autorschaftsattribution durch autorspezifische distinktive Wörter. In: DHd 2019
		2849	Digital Humanities: multimedial & multimodal. Konferenzabstracts. Hg. von Patrick
		2850	Sahle. (DHd: 6, Frankfurt am Main u. a., 25.–29.03.2019) Frankfurt/Main 2019,
		2851	S. 296–299. DOI: 10.5281/zenodo.2600812Friedrich Michael Dimpel (2018a): Die guten ins Töpfchen: Zur Anwendbarkeit von
2967	Burrows’ Delta bei kurzen mittelhochdeutschen Texten nebst eines Attributionstests	2852	Burrows’ Delta bei kurzen mittelhochdeutschen Texten nebst eines Attributionstests
2972	mittelhochdeutsche Texte, Z-Wert-Begrenzung und ein Normalisierungswörterbuch. Oder:	2857	mittelhochdeutsche Texte, Z-Wert-Begrenzung und ein Normalisierungswörterbuch. Oder:
2973	Auf welche Wörter kommt es bei Delta an? Göttingen 2018. (= Dariah-DE Working Papers,	2858	Auf welche Wörter kommt es bei Delta an? Göttingen 2018. (= Dariah-DE Working Papers,
2974	25) URN: urn:nbn:de:gbv:7-dariah-2017-5-1Friedrich Michael Dimpel / Daniel Schlager / Katharina Zeppezauer-Wachauer: Der	2859	25) URN: urn:nbn:de:gbv:7-dariah-2017-5-1Maciej Eder / Jan Rybicki: Deeper Delta Across Genres and Languages: Do We Really
2975	Streit um die Birne. Autorschafts-Attributionstest mit Burrows’ Delta und dessen	2860	Need the Most Frequent Words? In: Literary and Linguistic Computing 26 (2011), H.
2976	Optimierung für Kurztexte am Beispiel der ‚Halben Birne‘ des Konrad von Würzburg.	2861	3,
2977	In:	2862	S. 315–321. DOI: 10.1093/llc/fqr031 [Nachweis im GVK] Stefan Evert / Fotis Jannidis / Steffen Pielström / Isabella Reger / Christof
2978	Digitale Mediävistik. Hg. von Roman Bleier / Franz Fischer / Torsten	2863	Schöch / Thorsten Vitt: Burrows’ Delta verstehen. In: Modellierung, Vernetzung,
2979	Hiltmann / Gabriel Viehhauser / Georg Vogeler. Berlin u. a. 2019, S. 71–90. [Nachweis im GVK] Friedrich Michael Dimpel / Thomas Proisl: Gute Wörter für Delta: Verbesserung der
2980	Autorschaftsattribution durch autorspezifische distinktive Wörter. In: DHd 2019
2981	Digital Humanities: multimedial & multimodal. Konferenzabstracts. Hg. von Patrick
2982	Sahle. (DHd: 6, Frankfurt am Main u. a., 25.–29.03.2019) Frankfurt/Main 2019,
2983	S. 296–299. DOI: 10.5281/zenodo.2600812Maciej Eder / Jan Rybicki: Deeper Delta Across Genres and Languages: Do We Really
2984	Need the Most Frequent Words? In: Literary and Linguistic Computing 26 (2011), H. 3,
2985	S. 315–321. DOI: 10.1093/llc/fqr031 [Nachweis im GVK] Stefan Evert / Fotis Jannidis / Friedrich Michael Dimpel / Christof
2986	Schöcht / Steffen Pielströmt / Thorsten Vitt / Isabella Regert / Andreas Büttner /
2987	Thomas Proisl: Burrows Delta verstehen. In: Modellierung, Vernetzung,
2988	Visualisierung. Die Digital Humanities als fächerübergreifendes Forschungsparadigma.	2864	Visualisierung. Die Digital Humanities als fächerübergreifendes Forschungsparadigma.
2989	DHd 2016. Konferenzabstracts. Hg. von Elisabeth Burr. 2. überarbeitete und erweiterte	2865	DHd 2016. Konferenzabstracts. Hg. von Elisabeth Burr. 2. überarbeitete und erweiterte
2990	Ausgabe. (DHd: 3, Leipzig, 07.–12.03.2016) Duisburg 2016, S. 83–86. DOI: 110.5281/zenodo.3679330Stephan Fuchs: Hybride Helden: Gwigalois und Willehalm. Beiträge zum Heldenbild	2866	Ausgabe. (DHd: 3, Leipzig, 07.–12.03.2016) Duisburg 2016, S. 62–65. [online] Stephan Fuchs: Hybride Helden: Gwigalois und Willehalm. Beiträge zum Heldenbild
2991	und zur Poetik des Romans im frühen 13. Jahrhundert. Heidelberg 1997. (= Frankfurter	2867	und zur Poetik des Romans im frühen 13. Jahrhundert. Heidelberg 1997. (= Frankfurter
2992	Beiträge zur Germanistik, 31) [Nachweis im GVK] Benjamin Gittel / Tilmann Köppe: On the Distance Between Traditional and DH-Based	2868	Beiträge zur Germanistik, 31) [Nachweis im GVK] Lena Hettinger / Martin Becker / Isabella Reger / Fotis Jannidis / Andreas Hotho:
2993	Genre Theory. In: Digitale Verfahren in der Literaturwissenschaft. Hg. von Jan Horstmann /
2994	Frank Fischer. Münster 2022. (= Sonderausgabe Textpraxis. Digitales Journal für Philologie,
2995	6). DOI: 10.17879/64059431694Lena Hettinger / Martin Becker / Isabella Reger / Fotis Jannidis / Andreas Hotho:
2996	Genre classification on German novels. In: Database and expert systems applications.	2869	Genre classification on German novels. In: Database and expert systems applications.
2997	26th International Conference. Hg. von Qiming Chen / Abdelkader Hameurlain / Farouk	2870	26th International Conference. Hg. von Qiming Chen / Abdelkader Hameurlain / Farouk
2998	Toumani / Roland Wagner / Hendrik Decker. (DEXA: 26, Valencia, 01.–04.09.2015). Cham	2871	Toumani / Roland Wagner / Hendrik Decker. (DEXA: 26, Valencia, 01.–04.09.2015). Cham
2999	u. a. 2015, S. 249–253. DOI: 10.1109/DEXA.2015.62 [Nachweis im GVK] Lena Hettinger / Isabella Reger / Fotis Jannidis / Andreas Hotho (2016a):	2872	u. a. 2015, S. 249–253. DOI: 10.1109/DEXA.2015.62 [Nachweis im GVK] Lena Hettinger / Isabella Reger / Fotis Jannidis / Andreas Hotho (2016a):
3000	Classification of Literary Subgenres. In: Modellierung, Vernetzung, Visualisierung.	2873	Classification of Literary Subgenres. In: Modellierung, Vernetzung, Visualisierung.
3005	Humanities 2016. Conference Abstracts. (DH 2016, Krakau, 11.-16.07.2016) Krakau 2016.	2878	Humanities 2016. Conference Abstracts. (DH 2016, Krakau, 11.-16.07.2016) Krakau 2016.
3006	[online]Brett Kessler / Geoffrey Nunberg / Hinrich ~~Schütze~~: Automatic Detection of Text	2879	[online]Brett Kessler / Geoffrey Nunberg / Hinrich Schutze: Automatic Detection of Text
3007	Genre. In: 35th Annual Meeting of the Association for Computational Linguistics and	2880	Genre. In: 35th Annual Meeting of the Association for Computational Linguistics and
3014	Feldman / Anna Kazantseva / Nils Reiter / Stan Szpakowicz. (SIGHUM: 11, Vancouver,	2887	Feldman / Anna Kazantseva / Nils Reiter / Stan Szpakowicz. (SIGHUM: 11, Vancouver,
3015	04.08.2017) Stroudsburg, PA, 2017, S. 17–26. DOI: 10.18653/v1/W17-2203Willard McCarty: Humanities Computing. London / New York 2005. [Nachweis im GVK] Nicole J. Saam / Thomas Gautschi: Modellbildung in den Sozialwissenschaften. In: Handbuch	2888	04.08.2017) Stroudsburg, PA, 2017, S. 17–26. DOI: 10.18653/v1/W17-2203Christof Schöch: Corneille, Molière et les autres. Stilometrische Analysen zu
3016	Modellbildung und Simulation in den Sozialwissenschaften. Hg. von Norman Braun / Nicole
3017	J. Saam. Wiesbaden 2015, S. 15–60. DOI: 10.1007/978-3-658-01164-2Christof Schöch: Corneille, Molière et les autres. Stilometrische Analysen zu
3018	Autorschaft und Gattungszugehörigkeit im französischen Theater der Klassik. In:	2889	Autorschaft und Gattungszugehörigkeit im französischen Theater der Klassik. In:
3019	Literaturwissenschaft im digitalen Medienwandel. Hg. von Christof Schöch / Lars	2890	Literaturwissenschaft im digitalen Medienwandel. Hg. von Christof Schöch / Lars
3020	Schneider. Berlin 2014, S. 130–157. (= Philologie im Netz / Beiheft, 7) PDF. [online] Christof Schöch: Computational Genre Analysis. In: Digital Humanities for Literary	2891	Schneider. Berlin 2014, S. 130–157. (= Philologie im Netz / Beiheft, 7) PDF. [online] Christof Schöch: Computational Genre Analysis. In: Digital Humanities for Literary
3021	Studies: Methods, Tools & Practices. Hg. von James O'Sullivan. College Station,	2892	Studies: Methods, Tools & Practices. Hg. von James O'Sullivan. College Station,
3022	TX 2020. Preprint. PDF. [online] Armin Schulz: Poetik des Hybriden. Schema, Variation und intertextuelle	2893	TX 2020. Preprint. PDF. [online] Armin Schulz: Poetik des Hybriden. Schema, Variation und intertextuelle
3023	Kombinatorik in der Minne- und Aventiureepik: ‚Willehalm von Orlens‘ – ‚Partonopier	2894	Kombinatorik in der Minne- und Aventiureepik: ‚Willehalm von Orlens‘ – ‚Partonopier
3024	und Meliur‘ – ‚Wilhelm von Österreich‘ – ‚Die schöne Magelone‘. Berlin 2000. (= ~~Philologische~~	2895	und Meliur‘ – ‚Wilhelm von Österreich‘ – ‚Die schöne Magelone‘. Berlin 2000. (=
3025	Studien und Quellen, 161) [Nachweis im GVK] Rolf Selbmann: Der deutsche Bildungsroman. 2., überarbeitete und erweiterte	2896	Philologische Studien und Quellen, 161) [Nachweis im GVK] Rolf Selbmann: Der deutsche Bildungsroman. 2., überarbeitete und erweiterte
3026	Auflage. Stuttgart u. a. 1994. (= Sammlung Metzler, 214) [Nachweis im GVK] Serge Sharoff / Zhili Wu / Katja Markert: The Web Library of Babel: evaluating	2897	Auflage. Stuttgart u. a. 1994. (= Sammlung Metzler, 214) [Nachweis im GVK] Serge Sharoff / Zhili Wu / Katja Markert: The Web Library of Babel: evaluating
3027	genre collections. In: Proceedings of the 7th International Conference on Language	2898	genre collections. In: Proceedings of the 7th International Conference on Language
3029	Maegaard / Joseph Mariani / Jan Odijk / Stelios Piperidis / Mike Rosner / Daniel	2900	Maegaard / Joseph Mariani / Jan Odijk / Stelios Piperidis / Mike Rosner / Daniel
3030	Tapias. (LREC’10: 7, Valetta, 17.-23.05.2010) Paris 2010. PDF. [online] ~~Herbert Stachowiak: Allgemeine Modelltheorie. Wien 1973. [Nachweis im GVK]~~ Efstathios Stamatatos / Nikos Fakotakis / George Kokkinakis: Automatic text	2901	Tapias. (LREC’10: 7, Valetta, 17.-23.05.2010) Paris 2010. PDF. [online] Efstathios Stamatatos / Nikos Fakotakis / George Kokkinakis: Automatic text
3031	categorization in terms of genre and author. In: Computational Linguistics 26 (2000),	2902	categorization in terms of genre and author. In: Computational Linguistics 26 (2000),
3033	Optimierung für Kurztexte am Beispiel der ‚Halben Birne‘ des Konrad von Würzburg:	2904	Optimierung für Kurztexte am Beispiel der ‚Halben Birne‘ des Konrad von Würzburg:
3034	Anhang – Dimpel: Gute Wörter und Level-2-Differenzen bei Delta. Hg. von ULB Münster.	2905	Anhang – Dimpel: Gute Wörter und Level-2-Differenzen bei Delta. Hg. von ULB Münster.
3035	2022. [online] Ted Underwood / Michael L. Black / Loretta Auvil / Boris Capitanu: Mapping mutable	2906	2022. [online] Ted Underwood / Michael L. Black / Loretta Auvil / Boris Capitanu: Mapping mutable
3037	Conference on Big Data. Hg. von Hu Xiaohua. 2 Bde. (Silicon Valley, CA,	2908	Conference on Big Data. Hg. von Hu Xiaohua. 2 Bde. (Silicon Valley, CA,
3038	06.–09.10.2013) Piscataway, NJ 2013. Bd. 1: S. 95–103. DOI: 10.1109/BigData.2013.6691676 [Nachweis im GVK] Ted Underwood: The Life Cycles of Genres. In: Cultural Analytics 2 (2016), H. 2. DOI:	2909	06.–09.10.2013) Piscataway, NJ 2013. Bd. 1: S. 95–103. DOI: 10.1109/BigData.2013.6691676 [Nachweis im GVK] Gabriel Viehhauser: Digitale Gattungsgeschichten. Minnesang zwischen generischer
3039	10.22148/16.005Gabriel Viehhauser: Digitale Gattungsgeschichten. Minnesang zwischen generischer
3040	Konstanz und Wende. In: Zeitschrift für digitale Geisteswissenschaften 2 (2017). DOI:	2910	Konstanz und Wende. In: Zeitschrift für digitale Geisteswissenschaften 2 (2017). DOI:
3045		2915
3046
3047
3048	Tabellenverzeichnis	2916	Tabellenverzeichnis
3049		2917
3050	Tab. 1: Test A1, Erkennungsquotentest mit fünf Vergleichstexten der Zielklasse, Test A1,	2918
3051	ABE, BIL, GES, KOM, TRA. Beim Bag-of-Words-Test mit 10.000 MFWs werden die Texte 200	2919	Tab. 1: Test A1, Erkennungsquotentest mit fünf Vergleichstexten der Zielklasse, Test
3052	verschiedenen Bag-Sets pro Gattung zugelost und Mittelwerte gebildet.	2920	A1, ABE, BIL, GES, KOM, TRA. Beim Bag-of-Words-Test mit 10.000 MFWs werden die Texte
		2921	200 verschiedenen Bag-Sets pro Gattung zugelost und Mittelwerte gebildet.
		2922	Abkürzungen: Gute: Mit Gute-Wörter-Liste / ZWB: Mit Z-Wert-Begrenzung auf 1.64 /
		2923	Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzung.
		2924
		2925
3053	Tab. 2: Test A2, ARI-Test mit 4 × 10 Distraktortexten, ABE, BIL, GES, KOM, TRA.	2926	Tab. 2: Test A2, ARI-Test mit 4 × 10 Distraktortexten, ABE, BIL, GES, KOM, TRA.
3054	Tab. 3: Test A2, ARI-Test mit 4 × 10 Distraktortexten, Einzelwerte, ABE,	2927	Abkürzungen: ARI: Adjusted Rand Index / F1: Precision und Recall kombiniert / Gute:
3055	BIL, GES, KOM, TRA.	2928	Mit Gute-Wörter-Liste / ZWB: Mit Z-Wert-Begrenzung auf 1.64 / EQ: Erkennungsquote
3056	Tab. 4: Test A2, ARI-Test mit 4 × 10 Distraktortexten, Bag-of-Words, ABE,	2929	in
3057	BIL, GES, KOM, TRA.	2930	% / FP: False-Positives-Quote in % (niedriger ist besser) / Basis: Ohne
3058	Tab. 5: Test A3, ARI-Test mit 4 × 5 Distraktortexten, ABE, BIL, GES, KOM,	2931	Gute-Wörter-Liste und ohne Z-Wert-Begrenzung / Diff: Differenzen zwischen Werten mit
3059	TRA.	2932	Gute-Wörter-Liste und mit Z-Wert-Begrenzung zum Basiswert.
		2933
		2934
		2935	Tab. 3: Test A2, ARI-Test mit 4 × 10 Distraktortexten, Einzelwerte, ABE, BIL, GES,
		2936	KOM, TRA.
		2937
		2938
		2939	Tab. 4: Test A2, ARI-Test mit 4 × 10 Distraktortexten, Bag-of-Words, ABE, BIL, GES,
		2940	KOM, TRA.
		2941
		2942
		2943	Tab. 5: Test A3, ARI-Test mit 4 × 5 Distraktortexten, ABE, BIL, GES, KOM, TRA.
		2944
		2945
3060	Tab. 6: Test B, ARI-Test mit 2 × 10 Distraktortexten, ABE, BIL, KOM.	2946	Tab. 6: Test B, ARI-Test mit 2 × 10 Distraktortexten, ABE, BIL, KOM.
		2947
		2948
3061	Tab. 7: Test C, ARI-Test mit 2 × 10 Distraktortexten, ABE, KOM, TRA.	2949	Tab. 7: Test C, ARI-Test mit 2 × 10 Distraktortexten, ABE, KOM, TRA.
3062	Tab. 8: Test C, ARI-Test mit 2 × 10 Distraktortexten, Einzelwerte, ABE,	2950
3063	KOM, TRA (Volltexte, mit Guten Wörtern und Z-Wert-Begrenzung).	2951
3064	Tab. 9: Test D1, Erkennungsquotentest mit fünf Vergleichstexten der	2952	Tab. 8: Test C, ARI-Test mit 2 × 10 Distraktortexten, Einzelwerte, ABE, KOM, TRA
3065	Zielklasse, ABE, BIL, GES.	2953	(Volltexte, mit Guten Wörtern und Z-Wert-Begrenzung).
		2954
		2955
		2956	Tab. 9: Test D1, Erkennungsquotentest mit fünf Vergleichstexten der Zielklasse, ABE,
		2957	BIL, GES.
		2958
		2959
3066	Tab. 10: Test D2, ARI-Test mit 2 × 10 Distraktortexten, ABE, BIL, GES.	2960	Tab. 10: Test D2, ARI-Test mit 2 × 10 Distraktortexten, ABE, BIL, GES.
3067	Tab. 11: Test D2, ARI-Test mit 2 × 10 Distraktortexten, Einzelwerte, ABE,	2961
3068	BIL, GES.	2962
		2963	Tab. 11: Test D2, ARI-Test mit 2 × 10 Distraktortexten, Einzelwerte, ABE, BIL,
		2964	GES.
		2965
		2966
3069	Tab. 12: Test D3, ARI-Test mit 2 × 5 Distraktortexten, ABE, BIL, GES.	2967	Tab. 12: Test D3, ARI-Test mit 2 × 5 Distraktortexten, ABE, BIL, GES.
3070	Tab. 13: Test D4, ARI-Test mit 2 × 10 Distraktortexten und großem	2968
3071	MFW-Bereich, Volltexte, ABE, BIL, GES.	2969
3072	Tab. 14: Test D5, ARI-Test mit 2 × 10 Distraktortexten und großem	2970	Tab. 13: Test D4, ARI-Test mit 2 × 10 Distraktortexten und großem MFW-Bereich,
3073	MFW-Bereich, Bag-of-Words (20.000 Wortformen), ABE, BIL, GES.	2971	Volltexte, ABE, BIL, GES.
3074	Tab. 15: Auszug aus den textsortenspezifischen Gute-Wörter-Listen: Jeweils	2972
3075	100 Wortformen mit den höchsten Level-2-Differenzen.	2973
		2974	Tab. 14: Test D5, ARI-Test mit 2 × 10 Distraktortexten und großem MFW-Bereich,
		2975	Bag-of-Words (20.000 Wortformen), ABE, BIL, GES.
		2976
		2977
		2978	Tab. 15: Auszug aus den textsortenspezifischen Gute-Wörter-Listen: Jeweils 100
		2979	Wortformen mit den höchsten Level-2-Differenzen.
		2980
		2981
3076	Tab. 16: Duplikate in den Listen der Guten Wörter.	2982	Tab. 16: Duplikate in den Listen der Guten Wörter.

Versionen vergleichen von : Gute Wörter, schwaches Gattungssignal. Differenzen zwischen Roman-Subgenres und Dramen mit Delta und signifikantem Wortschatz aufspüren

Version: 2.0 vom 14.11.2023

Mit Markup vergleichen

Version: 1.0 vom 17.11.2022