Versionen vergleichen von : Gute Wörter, schwaches Gattungssignal. Differenzen zwischen Roman-Subgenres und Dramen mit Delta und signifikantem Wortschatz aufspüren
Alt | Neu | ||
---|---|---|---|
7 | 7 | ||
8 | DOI: 10.17175/2022_009 | 8 | DOI: 10.17175/2022_009 |
9 | Nachweis im OPAC der Herzog August Bibliothek: | 9 | Nachweis im OPAC der Herzog August Bibliothek: 1819369722 |
10 | Erstveröffentlichung: 17.11.2022 | 10 | Erstveröffentlichung: 17.11.2022 |
11 | Version 2.0: 14.11.2023 | ||
12 | Lizenz: Sofern nicht anders angegeben | 11 | Lizenz: Sofern nicht anders angegeben |
15 | Medienlizenzen: Medienrechte liegen bei den Autor*innen | 14 | Medienlizenzen: Medienrechte liegen bei den Autor*innen |
16 | Letzte Überprüfung aller Verweise: | 15 | Letzte Überprüfung aller Verweise: 25.10.2022 |
17 | GND-Verschlagwortung: Gattungstheorie | 16 | GND-Verschlagwortung: Gattungstheorie | Literaturgattung | Literaturwissenschaft | Statistische Stilistik | |
18 | Empfohlene Zitierweise: Friedrich Michael Dimpel: Gute Wörter, schwaches Gattungssignal. Differenzen zwischen | 17 | Empfohlene Zitierweise: Friedrich Michael Dimpel: Gute Wörter, schwaches Gattungssignal. Differenzen zwischen |
19 | Roman-Subgenres und Dramen mit Delta und signifikantem Wortschatz | 18 | Roman-Subgenres und Dramen mit Delta und signifikantem Wortschatz |
20 | aufspüren. In: Zeitschrift für digitale Geisteswissenschaften 7 (2022). 17.11.2022. Version 2.0 vom 14.11.2023. HTML / XML / PDF. DOI: 10.17175/2022_009_v2 | 19 | aufspüren. In: Zeitschrift für digitale Geisteswissenschaften. Wolfenbüttel 2022. text/html Format. DOI: 10.17175/2022_009 |
20 | |||
21 | 21 | ||
25 | Abstract | 25 | Abstract |
26 | |||
27 | Untersucht wird, inwieweit sich die automatische Erkennung von Genres bzw. | 26 | Untersucht wird, inwieweit sich die automatische Erkennung von Genres bzw. |
54 | 53 | ||
55 | |||
56 | Version 2.0 (14.11.2023) | ||
57 | Korrekturen entlang der Monita in den Gutachten: Sprachliche Verbesserungen; Ergänzungen | ||
58 | in Kapitel 1 und 2 sowie in der Bibliografie; Ergänzung der Tabellenbeschriftungen, | ||
59 | Aufschlüsselung von Abkürzungen | ||
60 | |||
61 | |||
62 | 1. Gattung und Stilometrie | 54 | 1. Gattung und Stilometrie |
63 | 2. Korpusgestaltung und Präprocessing | 55 | 2. Korpusgestaltung und Präprocessing |
64 | 3. Gute Wörter berechnen – Ermittlungsgruppe | 56 | 3. Gute Wörter berechnen – Ermittlungsgruppe |
65 | 4. Evaluierung – Kontrollgruppe | 57 | 4. Evaluierung – Kontrollgruppe |
66 | 4.1 Setting: Erkennungsquotentest mit fünf Vergleichstexten der Zielklasse | 58 | 4.1 Setting: Erkennungsquotentest mit fünf Vergleichstexten der |
59 | Zielklasse | ||
67 | 4.2 Setting: Tests mit F1-Wert und ARI | 60 | 4.2 Setting: Tests mit F1-Wert und ARI |
68 | 5. Ergebnisse | 61 | 5. Ergebnisse |
69 | Testreihe A: ABE, BIL, GES, KOM, TRA | ||
70 | A1: Erkennungsquotentest mit fünf Vergleichstexten der Zielklasse | ||
71 | A2: ARI-Test mit 4 × 10 Distraktortexten | ||
72 | A3: ARI-Test mit 4 × 5 Distraktortexten | ||
73 | Test B: ABE, BIL, KOM | ||
74 | Test C: ABE, KOM, TRA | ||
75 | Test D: ABE, BIL, GES | ||
76 | D1: Erkennungsquotentest mit fünf Vergleichstexten der Zielklasse | ||
77 | D2: ARI-Test mit 2 × 10 Distraktortexten | ||
78 | D3: ARI-Test mit 2 × 5 Distraktortexten | ||
79 | D4: ARI-Test mit 2 × 10 Distraktortexten und größerem MFW-Bereich | ||
80 | 6. Fazit | 62 | 6. Fazit |
89 | Erkennungsquoten vorweisen kann,[1] ist die digitale Erkennung von literarischen Gattungen deutlich | 71 | Erkennungsquoten vorweisen kann,[1] ist die digitale Erkennung von literarischen Gattungen deutlich |
90 | anspruchsvoller.[2] Während bei Texten der gleichen | 72 | anspruchsvoller.[2] Während bei Texten des*der gleichen Autors*in trotz aller |
91 | Veränderungen im Laufe der Schaffensperiode und trotz | 73 | Veränderungen im Laufe der Schaffensperiode des*der gleichen Autors*in und trotz |
92 | einer möglichen Intention auf wechselnde Stilformen doch von einem mit sich selbst | 74 | einer möglichen Intention auf wechselnde Stilformen doch von einem mit sich selbst |
95 | sich bei der Zugehörigkeit eines Textes zu einer Gattung nicht um ein objektives | 77 | sich bei der Zugehörigkeit eines Textes zu einer Gattung nicht um ein objektives |
96 | Faktum, sondern um ein Attributionsphänomen | 78 | Faktum, sondern um ein Attributionsphänomen – Literaturwissenschaftler*innen |
97 | schreiben Texten die Eigenschaft zu, einer Gattung anzugehören. Solche Zuweisungen | 79 | schreiben Texten die Eigenschaft zu, einer Gattung anzugehören. Solche Zuweisungen |
105 | ›Heldenepik‹ erhält. Dazu kommt, dass Gattungen nicht historisch konstant und | 87 | ›Heldenepik‹ erhält. Dazu kommt, dass Gattungen nicht historisch konstant und |
106 | gleichförmig bleiben | 88 | gleichförmig bleiben – Gabriel Viehhauser zeigt in seiner Studie zum |
107 | mittelalterlichen Minnesang, wie sich Gattungswandel auch digital abbilden | 89 | mittelalterlichen Minnesang, wie sich Gattungswandel auch digital abbilden |
110 | Autorschaft (etwa bei sehr kurzen und nicht-normalisierten mittelhochdeutschen | 92 | Autorschaft (etwa bei sehr kurzen und nicht-normalisierten mittelhochdeutschen |
111 | Texten) Optimierungsverfahren entwickelt | 93 | Texten) Optimierungsverfahren entwickelt – etwa das Gute-Wörter-Verfahren, bei dem nicht alle Most-Frequent-Words (MFW), sondern signifikante Wortformen verwendet |
112 | werden.[5] In der vorliegenden Studie | 94 | werden.[5] In der vorliegenden Studie |
117 | zielgerichtet und unbeeinflusst durch Autorsignale oder Übersetzersignale untersucht werden kann, wird vermieden, mehrere | 99 | zielgerichtet und unbeeinflusst durch Autorsignale oder Übersetzersignale untersucht werden kann, wird vermieden, mehrere |
118 | Texte der gleichen Autor*innen und ins Deutsche übersetzte Texte zu berücksichtigen. | 100 | Texte der gleichen Autor*innen und ins Deutsche übersetzte Texte zu verwenden. |
119 | [3]Diese Studie ist also auf eine technische Fragestellung begrenzt – auf den Beitrag | ||
120 | des Gute-Wörter-Verfahrens zu einer verbesserten automatischen Textsortenerkennung. | ||
121 | Angestrebt wird nicht, traditionelle literaturwissenschaftliche Genre-Bestimmungen | ||
122 | zu kritisieren oder zu präzisieren.[6] Da versucht wird, eine Textsortenerkennung auf lexikalischer Basis vorzunehmen, könnte | ||
123 | dieser Versuch als Modellierung[7] einer Unterscheidbarkeit von Textsorten beschrieben werden. Für Computermodelle ist | ||
124 | wie auch bei herkömmlichen Modellen das Merkmal der verkürzten Repräsentation wesentlich – | ||
125 | das modellierte Objekt wird nicht vollständig durch das Modell abgebildet.[8] Aufgrund dieser Verkürzung ist es in der Regel problematisch, davon zu sprechen, | ||
126 | dass sich Ergebnisdaten, die auf der Basis von digitalen Modellen gewonnen werden, | ||
127 | unmittelbar dafür eignen, etwa hermeneutische Thesen zu verifizieren oder zu falsifizieren.[9] | ||
128 | [4]Gegenüber Studien, die auf Black-Box-Verfahren wie Maschinelles Lernen (siehe Anmerkung | ||
129 | 2) setzen, haben Burrows’ Delta und das Gute-Wörter-Verfahren den Vorteil, dass die | ||
130 | Berechnungsgrundlage transparent nachvollzogen werden kann. Zudem lässt sich überprüfen, | ||
131 | welche Wortformen zur Textsortenunterscheidung besonders gut beitragen (siehe Anhang, | ||
132 | Tabelle 15). | ||
133 | 101 | ||
135 | 103 | ||
136 | [ | 104 | [3]Verwendet wurden Texte, die im Internet frei verfügbar sind. Die meisten Texte |
137 | entstammen dem Textgrid-Repository. Die Texte wurden dann als Abenteuerroman, | 105 | entstammen dem Textgrid-Repository. Die Texte wurden dann als Abenteuerroman, |
139 | literaturgeschichtlichen Darstellung oder in einem Forschungsbeitrag eine | 107 | literaturgeschichtlichen Darstellung oder in einem Forschungsbeitrag eine |
140 | einschlägige Bezeichnung vorgefunden wurde. | 108 | einschlägige Bezeichnung vorgefunden wurde. |
141 | [ | 109 | [4]Während der Einfluss des Übersetzersignals noch weniger gut erforscht ist,[6] kann das Autorsignal als ein |
142 | starkes stilometrisches Signal gelten.[ | 110 | starkes stilometrisches Signal gelten.[7] |
143 | Falls beispielsweise bei der Untersuchung von Romansubgenres zahlreiche Texte von | 111 | Falls beispielsweise bei der Untersuchung von Romansubgenres zahlreiche Texte von |
144 | Karl May im Korpus vorhanden sind, ist denkbar, dass die Erkennung des Subgenres | 112 | Karl May im Korpus vorhanden sind, ist denkbar, dass die Erkennung des Subgenres |
145 | Abenteuerroman durch das Autorsignal von Karl May positiv beeinflusst wird | 113 | Abenteuerroman durch das Autorsignal von Karl May positiv beeinflusst wird – bei |
146 | nicht wenigen Autor*innen ist eine gewisse Präferenz für eine oder wenige Gattungen | 114 | nicht wenigen Autor*innen ist eine gewisse Präferenz für eine oder wenige Gattungen |
149 | zusammenclustern, obwohl sie verschiedenen Gattungen zugeschrieben werden. Hettinger | 117 | zusammenclustern, obwohl sie verschiedenen Gattungen zugeschrieben werden. Hettinger |
150 | et | 118 | et al. berichten von einem Sinken der Erkennungsleistung, wenn man Autorduplikate |
151 | aus | 119 | aus |
152 | dem zuvor examinierten Korpus herausnimmt.[ | 120 | dem zuvor examinierten Korpus herausnimmt.[8] |
153 | [ | 121 | [5]Ein Problem bei der Korpus-Zusammenstellung sind Gattungsinterferenzen und mehrfache |
154 | Labels: So ist Wilhelm Raabes Abu Telfan oder Die Heimkehr vom Mondgebirge sowohl als Entwicklungsroman, Gesellschaftsroman, Abenteuerroman, | 122 | Labels: So ist Wilhelm Raabes Abu Telfan oder Die Heimkehr vom Mondgebirge sowohl als Entwicklungsroman, Gesellschaftsroman, Abenteuerroman, |
155 | Bildungsroman als | 123 | Bildungsroman und als Zeitroman eingestuft worden. Rolf Selbmann etwa bespricht |
156 | einige offenbar als prototypisch verstandene Bildungsromane unter der Überschrift | 124 | einige offenbar als prototypisch verstandene Bildungsromane unter der Überschrift |
157 | »Zwischen Individualroman und Gesellschaftsroman«[ | 125 | »Zwischen Individualroman und Gesellschaftsroman«[9]; andernorts beruft sich |
158 | Selbmann auf Benno von Wiese, der »die Epigonen [Immermann] zugleich als | 126 | Selbmann auf Benno von Wiese, der »die Epigonen [Immermann] zugleich als |
159 | ›Entwicklungsroman‹, als ›Abenteuerroman‹, als ›modernen Roman‹, wie auch als | 127 | ›Entwicklungsroman‹, als ›Abenteuerroman‹, als ›modernen Roman‹, wie auch als |
160 | ›gesellschaftlichen Zeitroman‹« versteht.[ | 128 | ›gesellschaftlichen Zeitroman‹« versteht.[10] |
161 | [ | 129 | [6]Bei der Korpus-Erstellung wurden Texte vermieden, die beispielsweise sowohl als |
162 | Gesellschaftsroman als auch als Bildungsroman bezeichnet wurden, wodurch sich die | 130 | Gesellschaftsroman als auch als Bildungsroman bezeichnet wurden, wodurch sich die |
169 | können. | 137 | können. |
170 | [ | 138 | [7]Für die Evaluierung des Gute-Wörter-Verfahrens wurden zwei überschneidungsfreie |
171 | Teilkorpora verwendet: Die 50 Texte der Ermittlungsgruppe, auf deren Grundlage die | 139 | Teilkorpora verwendet: Die 50 Texte der Ermittlungsgruppe, auf deren Grundlage die |
173 | (ebenfalls 50 Texte), die die Qualität der Gattungserkennung erfasst. | 141 | (ebenfalls 50 Texte), die die Qualität der Gattungserkennung erfasst. |
174 | [ | 142 | [8]Autorduplikate im Korpus haben sich zwar nicht ganz vermeiden lassen, aber es konnten |
175 | doch Vorkehrungen getroffen werden, dass Autorduplikate weder bei der Berechnung der | 143 | doch Vorkehrungen getroffen werden, dass Autorduplikate weder bei der Berechnung der |
184 | 152 | ||
185 | [ | 153 | [9]Im Vorfeld der Tests wurden einige Preprocessing-Schritte unternommen. Bei den Dramen |
186 | habe ich die Regieanweisungen und die Sprecher*innenangaben entfernt. Die | 154 | habe ich die Regieanweisungen und die Sprecher*innenangaben entfernt. Die |
188 | mit Ausnahme der deutschen Umlaute wurden vereinheitlicht, Groß- in Kleinbuchstaben | 156 | mit Ausnahme der deutschen Umlaute wurden vereinheitlicht, Groß- in Kleinbuchstaben |
189 | konvertiert, Zahlen eliminiert. Weiterhin wurden die ersten 10 % der Token entfernt – mit diesem verbreiteten Verfahren werden paratextuelle Informationen und | 157 | konvertiert, Zahlen eliminiert. Weiterhin wurden die ersten 10% der Token entfernt. |
190 | Besonderheiten am Textanfang beseitigt. | 158 | |
191 | 159 | 3. Gute Wörter berechnen – Ermittlungsgruppe | |
192 | 3. Gute Wörter berechnen – Ermittlungsgruppe | 160 | |
193 | 161 | [10]Das Verfahren zur Ermittlung der Guten Wörter ist ausführlich dokumentiert.[11] Für das | |
194 | [12]Das Verfahren zur Ermittlung der Guten Wörter ist ausführlich dokumentiert.[16] Für das | ||
195 | Setting ist elementar, dass ein Text als Ratetext verwendet wird und gegen ein | 162 | Setting ist elementar, dass ein Text als Ratetext verwendet wird und gegen ein |
196 | Vergleichskorpus mit meist 15 bis 30 Distraktortexten getestet | 163 | Vergleichskorpus mit meist 15 bis 30 Distraktortexten getestet |
197 | wird. Das Vergleichskorpus enthält jedoch auch einen Vergleichstext der Zielklasse – | 164 | wird. Das Vergleichskorpus enthält jedoch auch einen Vergleichstext der Zielklasse |
198 | bei Autorschaftsfragen ist also ein Text von der Autorin / dem Autor im Vergleichskorpus, | 165 | – |
199 | von der / dem auch der Ratetext stammt; bei Gattungsfragen ein Vergleichstext der | 166 | bei Autorschaftsfragen ist also ein Text von dem*der Autor*in im Vergleichskorpus, |
167 | von dem*der auch der Ratetext stammt; bei Gattungsfragen ein Vergleichstext der | ||
200 | gleichen Gattung. | 168 | gleichen Gattung. |
201 | [ | 169 | [11]Wie bei Burrows’ Delta üblich, wird für jedes Wort der Most-Frequent-Words (MFWs) die relative Häufigkeit gezählt, |
202 | Standardabweichung und Z-Werte berechnet und sodann die | 170 | Standardabweichung und Z-Werte berechnet und sodann die |
209 | Störfaktor für die Erkennung der Zielklasse. | 177 | Störfaktor für die Erkennung der Zielklasse. |
210 | [ | 178 | [12]In einem Setting mit nur einem Distraktortext und zwei Texten der gleichen Klasse |
211 | ist | 179 | ist |
217 | Autorschaftserkennung erbringen, jedoch auch so viele False-Positives produzieren, dass dieses Parameterset problematisch | 185 | Autorschaftserkennung erbringen, jedoch auch so viele False-Positives produzieren, dass dieses Parameterset problematisch |
218 | ist.[ | 186 | ist.[12] |
219 | [ | 187 | [13]Verwendet wird für jede Textsorte nun eine Liste mit den Wortformen der |
220 | durchschnittlich höchsten Level-2-Differenzen von allen Ratetexten zu allen | 188 | durchschnittlich höchsten Level-2-Differenzen von allen Ratetexten zu allen |
235 | fünf textsortenspezifische Listen mit Guten Wörtern an. | 203 | fünf textsortenspezifische Listen mit Guten Wörtern an. |
236 | [ | 204 | [14]Im Distraktorkorpus befinden sich für jede der vier Textsorten der Nicht-Zielklasse |
237 | jeweils die Ermittlungsgruppentexte mit Nummern 01–05. Da für die wenigen | 205 | jeweils die Ermittlungsgruppentexte mit Nummern 01–05. Da für die wenigen |
239 | ist | 207 | ist |
240 | bei Bildung der Gute-Wörter-Listen kein Autoduplikat im Spiel.[ | 208 | bei Bildung der Gute-Wörter-Listen kein Autoduplikat im Spiel.[13] |
241 | [ | 209 | [15]Zudem soll vermieden werden, dass Wortformen, die in den Ratetexten – also innerhalb |
242 | der Zielgattung | 210 | der Zielgattung – recht selten vorkommen, berücksichtigt werden. Damit eine Wortform |
243 | bei der Bildung der Liste der Guten Wörter berücksichtigt wird, muss sie in | 211 | bei der Bildung der Liste der Guten Wörter berücksichtigt wird, muss sie in |
247 | geeigneten Parameter handelt, wurde in Prätests mit kleinem Korpus und niedriger | 215 | geeigneten Parameter handelt, wurde in Prätests mit kleinem Korpus und niedriger |
248 | Iterationszahl ermittelt.[ | 216 | Iterationszahl ermittelt.[14] |
249 | 217 | ||
250 | 4. Evaluierung | 218 | 4. Evaluierung – Kontrollgruppe |
251 | 219 | ||
252 | [ | 220 | [16]Die fünf Listen der Guten Wörter werden in vier textsortenbezogenen Kombinationen |
253 | mit | 221 | mit |
255 | 223 | ||
256 | Test A) Fünf Textsorten: ABE, BIL, GES, KOM, TRA[ | 224 | Test A) Fünf Textsorten: ABE, BIL, GES, KOM, TRA[15] |
257 | 225 | ||
261 | 229 | ||
262 | [ | 230 | [17]Da die Unterscheidung von Bildungs- und Gesellschaftsroman aufgrund der thematischen |
263 | Nähe beider Subgenres eine besondere Herausforderung darstellt, ist für die | 231 | Nähe beider Subgenres eine besondere Herausforderung darstellt, ist für die |
264 | Testreihen B und C die beste Unterscheidungsleistung zu erwarten. | 232 | Testreihen B und C die beste Unterscheidungsleistung zu erwarten. |
265 | [ | 233 | [18]Für die Testreihen A und D wird angelehnt an Studien zu mittelhochdeutschen |
266 | Texten[ | 234 | Texten[16] zunächst ein |
267 | reiner Erkennungsquotentest mit fünf Vergleichstexten der | 235 | reiner Erkennungsquotentest mit fünf Vergleichstexten der |
268 | Zielklasse durchgeführt; für alle vier Testreihen wird ein ARI-Test (Adjusted Rand Index) durchgeführt, bei dem zusätzlich auch die | 236 | Zielklasse durchgeführt; für alle vier Testreihen wird ein ARI-Test (Adjusted Rand Index) durchgeführt, bei dem zusätzlich auch die |
269 | Erkennungsquoten (Recall), False-Positives und F1-Werte ausgegeben werden | 237 | Erkennungsquoten (Recall), False-Positives und F1-Werte ausgegeben werden – zum Setting siehe unten. |
270 | [ | 238 | [19]Die kürzeste Liste der Guten Wörter, die alle Wortformen mit einer Level-2-Differenz |
271 | von >0,2 enthält, umfasst bei den Komödien 495 Wortformen, die längste Liste bei | 239 | von >0,2 enthält, umfasst bei den Komödien 495 Wortformen, die längste Liste bei |
276 | 300 und 400 MFWs. Wenn die Guten Wörter nicht in ausreichend vielen Texten im | 244 | 300 und 400 MFWs. Wenn die Guten Wörter nicht in ausreichend vielen Texten im |
277 | aktuellen Test vorhanden sind,[ | 245 | aktuellen Test vorhanden sind,[17] wird das Gute Wort nicht verwendet. Wenn dadurch |
278 | nicht mehr ausreichend viele Gute Wörter vorhanden sind, wird die MFW-Liste im | 246 | nicht mehr ausreichend viele Gute Wörter vorhanden sind, wird die MFW-Liste im |
281 | bevorzugten Verwendung der Guten Wörter die Rede. | 249 | bevorzugten Verwendung der Guten Wörter die Rede. |
282 | [ | 250 | [20]Näherungsweise bildet ein Test mit 200 MFWs einen Level-2-Differenzen-Mittelwert |
283 | >0,4 und ein Test mit 200 MFWs einen Level-2-Differenzen-Mittelwert >0,2 ab. In | 251 | >0,4 und ein Test mit 200 MFWs einen Level-2-Differenzen-Mittelwert >0,2 ab. In |
284 | der Liste für die Gesellschaftsromane – sie liegt hinsichtlich ihrer Länge im | 252 | der Liste für die Gesellschaftsromane – sie liegt hinsichtlich ihrer Länge im |
285 | Mittelfeld – ist bei Wortform Nr. 300 eine Level-2-Differenz von 0,32 vorhanden. | 253 | Mittelfeld – ist bei Wortform Nr. 300 eine Level-2-Differenz von 0,32 vorhanden. |
286 | 4.1 Setting: Erkennungsquotentest mit fünf Vergleichstexten der Zielklasse | 254 | 4.1 Setting: Erkennungsquotentest mit fünf Vergleichstexten der |
287 | 255 | Zielklasse | |
288 | [27]Bei dieser Evaluierung kommen fast alle 50 Texte der Kontrollgruppe zum Einsatz. In | 256 | |
257 | [21]Bei dieser Evaluierung kommen fast alle 50 Texte der Kontrollgruppe zum Einsatz. In | ||
289 | das Vergleichskorpus werden jeweils fünf (von zehn in der Kontrollgruppe vorhandenen) | 258 | das Vergleichskorpus werden jeweils fünf (von zehn in der Kontrollgruppe vorhandenen) |
293 | Distraktortexte. | 262 | Distraktortexte. |
294 | [ | 263 | [22]Wenn ein Text als Distraktortext gelost wird, zu dem ein Autorenduplikat in den |
295 | Kontrollgruppentexten der Zielgattung vorhanden ist, dann wird dieser Distraktortext | 264 | Kontrollgruppentexten der Zielgattung vorhanden ist, dann wird dieser Distraktortext |
299 | Distraktortexte im Vergleichskorpus berücksichtigt werden, so dass auch hier | 268 | Distraktortexte im Vergleichskorpus berücksichtigt werden, so dass auch hier |
300 | Autorenduplikate das Gattungssignal nicht überlagern können.[ | 269 | Autorenduplikate das Gattungssignal nicht überlagern können.[18] |
301 | [ | 270 | [23]Bei der Zielgattung wird zunächst reihum jeweils einer der zehn Kontrollgruppentexten |
302 | als Vergleichstext ins Vergleichskorpus gegeben. Vier weitere Texte der Zielgattung | 271 | als Vergleichstext ins Vergleichskorpus gegeben. Vier weitere Texte der Zielgattung |
305 | 274 | ||
306 | [ | 275 | [24]Wenn dieser Test mit Volltexten (gekürzt auf 100.000 Wortformen) durchgeführt wird, |
307 | werden pro Gattung zehn Durchgänge absolviert, um die Zufälligkeiten bei der | 276 | werden pro Gattung zehn Durchgänge absolviert, um die Zufälligkeiten bei der |
312 | ist | 281 | ist |
313 | ›Ziehen ohne Zurücklegen‹. Wenn ein Text | 282 | ›Ziehen ohne Zurücklegen‹. Wenn ein Text – wie bei den kürzeren Komödien und |
314 | Tragödien | 283 | Tragödien – weniger als 11.000 Wortformen umfasst, gilt für diesen Text der Modus |
315 | ›Ziehen mit Zurücklegen‹. | 284 | ›Ziehen mit Zurücklegen‹. |
316 | [ | 285 | [25]Insgesamt befinden sich fünf Vergleichstexte der Zielgattung und 20 Distraktortexte |
317 | (bei Test A) bzw. zehn Distraktortexte (bei den Tests B–D) im Vergleichskorpus. Die | 286 | (bei Test A) bzw. zehn Distraktortexte (bei den Tests B–D) im Vergleichskorpus. Die |
318 | erwartete Erkennungsquote bei einer Zufallsverteilung liegt damit bei 20 | 287 | erwartete Erkennungsquote bei einer Zufallsverteilung liegt damit bei 20% (A) bzw. |
319 | bei 33 | 288 | bei 33% (B–D). |
320 | [ | 289 | [26]Da in der vorliegenden Studie überprüft werden soll, ob und inwieweit die bevorzugte |
321 | Berücksichtigung der Guten Wörter zu einer verbesserten Textsortenerkennung führt, | 290 | Berücksichtigung der Guten Wörter zu einer verbesserten Textsortenerkennung führt, |
329 | Analyseverfahren und Auswertungsmethoden. Der Umgang mit Autorduplikaten ist ebenso | 298 | Analyseverfahren und Auswertungsmethoden. Der Umgang mit Autorduplikaten ist ebenso |
330 | wenig einheitlich wie der Umgang mit mehrfachen Gattungslabels.[ | 299 | wenig einheitlich wie der Umgang mit mehrfachen Gattungslabels.[19] |
331 | 300 | ||
333 | 302 | ||
334 | [ | 303 | [27]Bei diesem Testverfahren gebe ich jeweils alle zehn Kontrollgruppentexte der |
335 | Nicht-Zielgattungen als Distraktortexte ins Korpus | 304 | Nicht-Zielgattungen als Distraktortexte ins Korpus – es sei denn, es befindet |
336 | sich ein Autorenduplikat zu einem Text der Zielgattung darunter; in diesem Fall wird | 305 | sich ein Autorenduplikat zu einem Text der Zielgattung darunter; in diesem Fall wird |
347 | Delta-Abstand. | 316 | Delta-Abstand. |
348 | [ | 317 | [28]Durchgeführt werden dieses Tests ohne weitere Optimierungsmaßnahmen wie das |
349 | Eliminieren von Pronomina, jedoch mit Berücksichtigung der jeweiligen | 318 | Eliminieren von Pronomina, jedoch mit Berücksichtigung der jeweiligen |
350 | Gute-Wörter-Liste und mit Z-Wert-Begrenzung auf 1,64.[ | 319 | Gute-Wörter-Liste und mit Z-Wert-Begrenzung auf 1,64.[20] Die Z-Wert-Begrenzung |
351 | wird aufgrund der Annahme verwendet, dass textspezifisches Vokabular, das nicht | 320 | wird aufgrund der Annahme verwendet, dass textspezifisches Vokabular, das nicht |
354 | beruhen, weniger stark auf den Delta-Wert durchschlagen. | 323 | beruhen, weniger stark auf den Delta-Wert durchschlagen. |
355 | [ | 324 | [29]Bei der Auswertung ist zu bedenken, dass der ARI nicht direkt mit einer herkömmlichen |
356 | Erkennungsquote zu vergleichen ist. Bei dem oben beschriebenen Setting würde eine | 325 | Erkennungsquote zu vergleichen ist. Bei dem oben beschriebenen Setting würde eine |
357 | Zufallsverteilung nicht eine Erkennungsquote von 0%, sondern von 20 | 326 | Zufallsverteilung nicht eine Erkennungsquote von 0%, sondern von 20% bzw. 33% |
358 | ergeben. Eine Zufallsverteilung beim ARI-Wert ergibt den Wert 0; Clusterergebnisse, | 327 | ergeben. Eine Zufallsverteilung beim ARI-Wert ergibt den Wert 0; Clusterergebnisse, |
362 | abweichenden Wert für die Zufallsverteilung bedingt. Dieser Effekt verringert sich, | 331 | abweichenden Wert für die Zufallsverteilung bedingt. Dieser Effekt verringert sich, |
363 | je mehr die Erkennungsquote gegen 100 | 332 | je mehr die Erkennungsquote gegen 100% und der ARI-Wert gegen 1 tendiert. |
364 | [ | 333 | [30]Neben dem ARI wird hier auch Erkennungsquote (Recall) und False-Positives-Quote |
365 | notiert, auf deren Basis die Precision ermittelt und der F1-Score für die | 334 | notiert, auf deren Basis die Precision ermittelt und der F1-Score für die |
368 | herangezogen; für die Nicht-Zielgattungstexte wird also keine Erkennungsquote | 337 | herangezogen; für die Nicht-Zielgattungstexte wird also keine Erkennungsquote |
369 | ermittelt | 338 | ermittelt – deren Clusterverhalten geht ohnehin in den ARI ein. Bei der |
370 | False-Positives-Quote werden die Nicht-Zielgattungstexte berücksichtigt, die zur | 339 | False-Positives-Quote werden die Nicht-Zielgattungstexte berücksichtigt, die zur |
371 | Zielgattung den niedrigsten Delta-Abstand aufweisen. Da hier ein Zielklassentext | 340 | Zielgattung den niedrigsten Delta-Abstand aufweisen. Da hier ein Zielklassentext |
372 | gegen ein Korpus mit 9 Zielklassentexten und 38–40[ | 341 | gegen ein Korpus mit 9 Zielklassentexten und 38–40[21] Distraktortexten (A) |
373 | bzw. 18–20 Distraktortexten (B–D) getestet wird, würde eine Zufallsverteilung bei | 342 | bzw. 18–20 Distraktortexten (B–D) getestet wird, würde eine Zufallsverteilung bei |
374 | ca. | 343 | ca. |
375 | 18,4 | 344 | 18,4% (A) bzw. 31% (B–D) liegen. Die F1-Werte liegen durchwegs deutlich über den |
376 | ARI-Werten; bei letzteren gehen auch Anzahl und Clusteringverhalten der | 345 | ARI-Werten; bei letzteren gehen auch Anzahl und Clusteringverhalten der |
391 | 360 | ||
392 | | 361 | 200 |
393 | | 362 | 300 |
394 | | 363 | 400 |
395 | 364 | ||
396 | 365 | ||
397 | 366 | ||
398 | | 367 | Gute & ZWB |
399 | 57, | 368 | 57,3 |
400 | 63,4 | 369 | 63,4 |
416 | 385 | ||
417 | | 386 | Basis |
418 | 45,4 | 387 | 45,4 |
455 | 424 | ||
456 | a Anzahl der MFWs, die verwendet werdenb Erkennungsquote in %c Gute: Mit Gute-Wörter-Listed ZWB: Mit Z-Wert-Begrenzung auf 1,64e Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzung | ||
457 | |||
458 | |||
459 | |||
460 | Tab. 1: Test A1, Erkennungsquotentest mit fünf Vergleichstexten der Zielklasse, Test A1, | 425 | Tab. 1: Test A1, Erkennungsquotentest mit fünf Vergleichstexten der Zielklasse, Test A1, |
461 | ABE, BIL, GES, KOM, TRA. Beim Bag-of-Words-Test mit 10.000 MFWs werden die Texte 200 | 426 | ABE, BIL, GES, KOM, TRA. Beim Bag-of-Words-Test mit 10.000 MFWs werden die Texte 200 |
462 | verschiedenen Bag-Sets pro Gattung zugelost und Mittelwerte gebildet. | 427 | verschiedenen Bag-Sets pro Gattung zugelost und Mittelwerte gebildet. Abkürzungen: |
463 | [37]Die Guten Wörter führen zu einer deutlichen Verbesserung der Erkennungsquote. Der | 428 | Gute: Mit Gute-Wörter-Liste / ZWB: Mit Z-Wert-Begrenzung auf 1.64 / Basis: Ohne Gute-Wörter-Liste |
429 | und ohne Z-Wert-Begrenzung. | ||
430 | [31]Die Guten Wörter führen zu einer deutlichen Verbesserung der Erkennungsquote. Der | ||
464 | Verbesserungseffekt ist am stärksten ausgeprägt beim Bag-of-Words-Verfahren mit | 431 | Verbesserungseffekt ist am stärksten ausgeprägt beim Bag-of-Words-Verfahren mit |
466 | Z-Wert-Begrenzung erreicht. Im Vergleich zu Autorschaftsstudien liegen die Quoten | 433 | Z-Wert-Begrenzung erreicht. Im Vergleich zu Autorschaftsstudien liegen die Quoten |
467 | deutlich niedriger | 434 | deutlich niedriger – dort werden Werte >90% erreicht, selbst wenn sich nur ein |
468 | Text der | 435 | Text des*der Zielautors*in im Vergleichskorpus befindet.[22] |
469 | 436 | ||
476 | Volltexte | 443 | Volltexte |
477 | | 444 | 200 |
478 | | 445 | 300 |
479 | | 446 | 400 |
480 | 447 | ||
481 | 448 | ||
482 | | 449 | ARI Gute & ZWB |
483 | 0, | 450 | 0,34 |
484 | 0,28 | 451 | 0,28 |
499 | 466 | ||
500 | ARI | 467 | ARI Basis |
501 | 0,25 | 468 | 0,25 |
511 | 478 | ||
512 | | 479 | F1 Gute & ZWB |
513 | 0,68 | 480 | 0,68 |
541 | 508 | ||
542 | | 509 | EQ Gute & ZWB |
543 | 58 | 510 | 58 |
571 | 538 | ||
572 | | 539 | FP Gute & ZWB |
573 | 12,4 | 540 | 12,4 |
601 | 568 | ||
602 | | 569 | Diff ARI |
603 | 0,09 | 570 | 0,09 |
619 | 586 | ||
620 | a Anzahl der MFWs, die verwendet werdenb Erkennungsquote in %c ARI: Adjusted Rand Indexd Gute: Mit Gute-Wörter-Liste e ZWB: Mit Z-Wert-Begrenzung auf 1,64f Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzungg F1: Precision und Recall kombiniert h EQ: Erkennungsquote in % i FP: False-Positives-Quote in % (niedriger ist besser)j Diff: Differenzen zwischen Werten mit Gute-Wörter-Liste und mit Z-Wert-Begrenzung | 587 | Tab. 2: Test A2, ARI-Test mit 4 × 10 Distraktortexten, ABE, BIL, GES, KOM, TRA. Abkürzungen: |
621 | zum Basiswert | 588 | ARI: Adjusted Rand Index / F1: Precision und Recall kombiniert / Gute: Mit Gute-Wörter-Liste |
622 | 589 | / ZWB: Mit Z-Wert-Begrenzung auf 1.64 / EQ: Erkennungsquote in % / FP: False-Positives-Quote | |
623 | 590 | in % (niedriger ist besser) / Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzung | |
624 | 591 | / Diff: Differenzen zwischen Werten mit Gute-Wörter-Liste und mit Z-Wert-Begrenzung | |
625 | 592 | zum Basiswert. | |
626 | Tab. 2: Test A2, ARI-Test mit 4 × 10 Distraktortexten, ABE, BIL, GES, KOM, TRA. | 593 | [32]Die besten ARI-Werte finden sich bei der Kombination der bevorzugten Verwendung von |
627 | [38]Die besten ARI-Werte finden sich bei der Kombination der bevorzugten Verwendung von | ||
628 | Guten Wörtern mit der Z-Wert-Begrenzung bei 200 MFWs sowie bei den Werten mit | 594 | Guten Wörtern mit der Z-Wert-Begrenzung bei 200 MFWs sowie bei den Werten mit |
636 | begünstigt ein größerer Vektor eine bessere Erkennung. | 602 | begünstigt ein größerer Vektor eine bessere Erkennung. |
637 | [ | 603 | [33]Hier ein Blick in die Einzelwerte für die Gattungen bei 200 MFWs mit Guten Wörtern |
638 | und Z-Wert-Begrenzung: | 604 | und Z-Wert-Begrenzung: |
643 | 200 MFWs | 609 | 200 MFWs |
644 | | 610 | ARI |
645 | | 611 | F1 |
646 | | 612 | EQ |
647 | | 613 | FP |
648 | 614 | ||
684 | 650 | ||
685 | a ARI: Adjusted Rand Indexb F1: Precision und Recall kombiniertc EQ: Erkennungsquote in %d FP: False-Positives-Quote in % (niedriger ist besser) | ||
686 | |||
687 | |||
688 | |||
689 | Tab. 3: Test A2, ARI-Test mit 4 × 10 Distraktortexten, Einzelwerte, ABE, | 651 | Tab. 3: Test A2, ARI-Test mit 4 × 10 Distraktortexten, Einzelwerte, ABE, |
690 | BIL, GES, KOM, TRA. | 652 | BIL, GES, KOM, TRA. |
691 | [ | 653 | [34]Der Gesellschaftsroman erweist sich als problematisch – mit niedriger Erkennungsquote |
692 | und hoher False-Positives-Rate. Auch Bildungsromane und Tragödien zeigen eine hohe | 654 | und hoher False-Positives-Rate. Auch Bildungsromane und Tragödien zeigen eine hohe |
693 | False-Positives-Rate. Überraschend niedrig ist die False-Positives-Rate beim | 655 | False-Positives-Rate. Überraschend niedrig ist die False-Positives-Rate beim |
694 | Abenteuerroman, der insgesamt recht gut erkannt werden kann.[ | 656 | Abenteuerroman, der insgesamt recht gut erkannt werden kann.[23] |
695 | [ | 657 | [35]Die Bag-of-Words-Technik (hier mit 10.000 Wortformen) führt zu einer Verbesserung |
696 | der | 658 | der |
709 | 671 | ||
710 | | 672 | ARI |
711 | 0,28 | 673 | 0,28 |
715 | 677 | ||
716 | | 678 | F1 |
717 | 0,64 | 679 | 0,64 |
721 | 683 | ||
722 | | 684 | EQ |
723 | 53,3 | 685 | 53,3 |
727 | 689 | ||
728 | | 690 | FP |
729 | 13,9 | 691 | 13,9 |
731 | 15,7 | 693 | 15,7 |
732 | |||
733 | |||
734 | a ARI: Adjusted Rand Indexb F1: Precision und Recall kombiniertc EQ: Erkennungsquote in %d FP: False-Positives-Quote in % (niedriger ist besser) | ||
735 | |||
736 | |||
737 | 694 | ||
753 | 710 | ||
754 | | 711 | ARI Gute & ZWB |
755 | 0,31 | 712 | 0,31 |
771 | 728 | ||
772 | ARI | 729 | ARI Basis |
773 | 0,19 | 730 | 0,19 |
783 | 740 | ||
784 | | 741 | F1 Gute & ZWB |
785 | 0,76 | 742 | 0,76 |
813 | 770 | ||
814 | | 771 | EQ Gute & ZWB |
815 | 74,00 | 772 | 74,00 |
843 | 800 | ||
844 | | 801 | FP Gute & ZWB |
845 | 20,20 | 802 | 20,20 |
873 | 830 | ||
874 | | 831 | Diff ARI |
875 | 0,12 | 832 | 0,12 |
891 | 848 | ||
892 | a ARI: Adjusted Rand Indexb Gute: Mit Gute-Wörter-Listec ZWB: Mit Z-Wert-Begrenzung auf 1,64d Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzunge F1: Precision und Recall kombiniertf EQ: Erkennungsquote in %g FP: False-Positives-Quote in % (niedriger ist besser)h Diff: Differenzen zwischen Werten mit Gute-Wörter-Liste und mit Z-Wert-Begrenzung | ||
893 | zum Basiswert | ||
894 | |||
895 | |||
896 | |||
897 | |||
898 | Tab. 5: Test A3, ARI-Test mit 4 × 5 Distraktortexten, ABE, BIL, GES, KOM, | 849 | Tab. 5: Test A3, ARI-Test mit 4 × 5 Distraktortexten, ABE, BIL, GES, KOM, |
899 | TRA. | 850 | TRA. |
900 | [ | 851 | [36]Gegenüber dem Test mit 4 × 10 Distraktortexten geht eine Verbesserung der |
901 | Erkennungsquote mit einer Verschlechterung der False-Positives-Quote einher. Bei 200 | 852 | Erkennungsquote mit einer Verschlechterung der False-Positives-Quote einher. Bei 200 |
916 | 867 | ||
917 | | 868 | ARI Gute & ZWB |
918 | 0,62 | 869 | 0,62 |
934 | 885 | ||
935 | ARI | 886 | ARI Basis |
936 | 0,5 | 887 | 0,5 |
946 | 897 | ||
947 | | 898 | F1 Gute & ZWB |
948 | 0,88 | 899 | 0,88 |
976 | 927 | ||
977 | | 928 | EQ Gute & ZWB |
978 | 86,7 | 929 | 86,7 |
1006 | 957 | ||
1007 | | 958 | FP Gute & ZWB |
1008 | 10,0 | 959 | 10,0 |
1036 | 987 | ||
1037 | | 988 | Diff ARI |
1038 | 0,12 | 989 | 0,12 |
1054 | 1005 | ||
1055 | a ARI: Adjusted Rand Indexb Gute: Mit Gute-Wörter-Listec ZWB: Mit Z-Wert-Begrenzung auf 1,64d Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzunge F1: Precision und Recall kombiniertf EQ: Erkennungsquote in %g FP: False-Positives-Quote in % (niedriger ist besser)h Diff: Differenzen zwischen Werten mit Gute-Wörter-Liste und mit Z-Wert-Begrenzung | ||
1056 | zum Basiswert | ||
1057 | |||
1058 | |||
1059 | |||
1060 | Tab. 6: Test B, ARI-Test mit 2 × 10 Distraktortexten, ABE, BIL, KOM. | 1006 | Tab. 6: Test B, ARI-Test mit 2 × 10 Distraktortexten, ABE, BIL, KOM. |
1061 | [ | 1007 | [37]Bei diesem Test bleibt der schwer unterscheidbare Gesellschaftsroman außen vor. Die |
1062 | ARI-Werte verbessern sich in der Zeile ›Gute & ZWB‹ auf ein ordentliches Niveau, | 1008 | ARI-Werte verbessern sich in der Zeile ›Gute & ZWB‹ auf ein ordentliches Niveau, |
1070 | 1016 | ||
1071 | [ | 1017 | [38]Hier wird unter den Romansubgenres nur der besser unterscheidbare Abenteuerroman |
1072 | einbezogen. Test C ist der einzige Test in dieser Studie, in der nicht verschiedene | 1018 | einbezogen. Test C ist der einzige Test in dieser Studie, in der nicht verschiedene |
1073 | Romansubgenres beteiligt sind | 1019 | Romansubgenres beteiligt sind – hier kann man am ehesten von drei verschiedenen |
1074 | Gattungen sprechen. | 1020 | Gattungen sprechen. |
1084 | 1030 | ||
1085 | | 1031 | ARI Gute & ZWB |
1086 | 0,45 | 1032 | 0,45 |
1102 | 1048 | ||
1103 | ARI | 1049 | ARI Basis |
1104 | 0,45 | 1050 | 0,45 |
1114 | 1060 | ||
1115 | | 1061 | F1 Gute & ZWB |
1116 | 0,78 | 1062 | 0,78 |
1144 | 1090 | ||
1145 | | 1091 | EQ Gute & ZWB |
1146 | 73,33 | 1092 | 73,33 |
1174 | 1120 | ||
1175 | | 1121 | FP Gute & ZWB |
1176 | 13,68 | 1122 | 13,68 |
1204 | 1150 | ||
1205 | | 1151 | Diff ARI |
1206 | 0,00 | 1152 | 0,00 |
1222 | 1168 | ||
1223 | a ARI: Adjusted Rand Indexb Gute: Mit Gute-Wörter-Listec ZWB: Mit Z-Wert-Begrenzung auf 1,64d Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzunge F1: Precision und Recall kombiniertf EQ: Erkennungsquote in %g FP: False-Positives-Quote in % (niedriger ist besser)h Diff: Differenzen zwischen Werten mit Gute-Wörter-Liste und mit Z-Wert-Begrenzung | ||
1224 | zum Basiswert | ||
1225 | |||
1226 | |||
1227 | |||
1228 | Tab. 7: Test C, ARI-Test mit 2 × 10 Distraktortexten, ABE, KOM, TRA. | 1169 | Tab. 7: Test C, ARI-Test mit 2 × 10 Distraktortexten, ABE, KOM, TRA. |
1229 | [ | 1170 | [39]Bei den ARI-Werten wird hier ein Niveau erreicht, das zwischen dem ordentlichen |
1230 | Niveau der Testreihe B (ABE, BIL, KOM) und dem mäßigen Niveau der Testreihe A liegt. | 1171 | Niveau der Testreihe B (ABE, BIL, KOM) und dem mäßigen Niveau der Testreihe A liegt. |
1233 | Erkennungsquote. | 1174 | Erkennungsquote. |
1234 | [ | 1175 | [40]Auch hier setzen sich die Durchschnittswerte aus stark schwankenden Einzelwerten |
1235 | zusammen: Während der Abenteuerroman sehr gut clustert, sind die Daten bei den | 1176 | zusammen: Während der Abenteuerroman sehr gut clustert, sind die Daten bei den |
1264 | 1205 | ||
1265 | |||
1266 | Tab. 8: Test C, ARI-Test mit 2 × 10 Distraktortexten, Einzelwerte, ABE, | 1206 | Tab. 8: Test C, ARI-Test mit 2 × 10 Distraktortexten, Einzelwerte, ABE, |
1270 | 1210 | ||
1271 | [ | 1211 | [41]Anders als in den Testreihen A–C werden hier keine verschiedenen Gattungen, sondern |
1272 | lediglich Romansubgenres untersucht. Dies hat den Vorteil, dass dabei die teils | 1212 | lediglich Romansubgenres untersucht. Dies hat den Vorteil, dass dabei die teils |
1289 | 1229 | ||
1290 | | 1230 | Gute & ZWB |
1291 | 51,2 | 1231 | 51,2 |
1302 | 1242 | ||
1303 | | 1243 | Basis |
1304 | 35,7 | 1244 | 35,7 |
1331 | 1271 | ||
1332 | a Gute: Mit Gute-Wörter-Listeb ZWB: Mit Z-Wert-Begrenzung auf 1,64c Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzung | ||
1333 | |||
1334 | |||
1335 | |||
1336 | |||
1337 | Tab. 9: Test D1, Erkennungsquotentest mit fünf Vergleichstexten der | 1272 | Tab. 9: Test D1, Erkennungsquotentest mit fünf Vergleichstexten der |
1338 | Zielklasse, ABE, BIL, GES. | 1273 | Zielklasse, ABE, BIL, GES. |
1339 | [ | 1274 | [42]Die Erkennungsquote mit den Optimierungstechniken ist beim Bag-of-Words-Verfahren |
1340 | etwas besser als mit Volltexten; bei Test A war | 1275 | etwas besser als mit Volltexten; bei Test A war |
1363 | 1298 | ||
1364 | | 1299 | ARI Gute & ZWB |
1365 | 0,22 | 1300 | 0,22 |
1381 | 1316 | ||
1382 | ARI | 1317 | ARI Basis |
1383 | 0,04 | 1318 | 0,04 |
1393 | 1328 | ||
1394 | | 1329 | F1 Gute & ZWB |
1395 | 0,63 | 1330 | 0,63 |
1423 | 1358 | ||
1424 | | 1359 | EQ Gute & ZWB |
1425 | 55 | 1360 | 55 |
1453 | 1388 | ||
1454 | | 1389 | FP Gute & ZWB |
1455 | 18,29 | 1390 | 18,29 |
1483 | 1418 | ||
1484 | | 1419 | Diff ARI |
1485 | 0,18 | 1420 | 0,18 |
1501 | 1436 | ||
1502 | a ARI: Adjusted Rand Indexb Gute: Mit Gute-Wörter-Listec ZWB: Mit Z-Wert-Begrenzung auf 1,64d Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzunge F1: Precision und Recall kombiniertf EQ: Erkennungsquote in %g FP: False-Positives-Quote in % (niedriger ist besser)h Diff: Differenzen zwischen Werten mit Gute-Wörter-Liste und mit Z-Wert-Begrenzung | ||
1503 | zum Basiswert | ||
1504 | |||
1505 | |||
1506 | |||
1507 | |||
1508 | Tab. 10: Test D2, ARI-Test mit 2 × 10 Distraktortexten, ABE, BIL, GES. | 1437 | Tab. 10: Test D2, ARI-Test mit 2 × 10 Distraktortexten, ABE, BIL, GES. |
1509 | [ | 1438 | [43]Wiederum ist, wie ein Blick in die Subgenre-Einzelwerte in der Folgetabelle zeigt, |
1510 | die Erkennung beim Abenteuerroman deutlich besser, das Clustering beim | 1439 | die Erkennung beim Abenteuerroman deutlich besser, das Clustering beim |
1520 | 200 MFWs | 1449 | 200 MFWs |
1521 | | 1450 | ARI |
1522 | | 1451 | F1 |
1523 | | 1452 | EQ |
1524 | | 1453 | FP |
1525 | 1454 | ||
1547 | 1476 | ||
1548 | a ARI: Adjusted Rand Indexb F1: Precision und Recall kombiniertc EQ: Erkennungsquote in %d FP: False-Positives-Quote in % (niedriger ist besser) | ||
1549 | |||
1550 | |||
1551 | |||
1552 | |||
1553 | Tab. 11: Test D2, ARI-Test mit 2 × 10 Distraktortexten, Einzelwerte, ABE, | 1477 | Tab. 11: Test D2, ARI-Test mit 2 × 10 Distraktortexten, Einzelwerte, ABE, |
1557 | 1481 | ||
1558 | [ | 1482 | [44]Die gleiche Tendenz auf noch schlechterem Niveau zeigt sich bei der Variante mit nur |
1559 | fünf (statt zehn) ausgelosten Distraktortexten je Nicht-Zielklasse: | 1483 | fünf (statt zehn) ausgelosten Distraktortexten je Nicht-Zielklasse: |
1569 | 1493 | ||
1570 | | 1494 | ARI Gute & ZWB |
1571 | 0,06 | 1495 | 0,06 |
1587 | 1511 | ||
1588 | ARI | 1512 | ARI Basis |
1589 | -0,01 | 1513 | -0,01 |
1599 | 1523 | ||
1600 | | 1524 | F1 Gute & ZWB |
1601 | 0,60 | 1525 | 0,60 |
1629 | 1553 | ||
1630 | | 1554 | EQ Gute & ZWB |
1631 | 59,00 | 1555 | 59,00 |
1659 | 1583 | ||
1660 | | 1584 | FP Gute & ZWB |
1661 | 38,70 | 1585 | 38,70 |
1689 | 1613 | ||
1690 | | 1614 | Diff ARI |
1691 | 0,07 | 1615 | 0,07 |
1707 | 1631 | ||
1708 | a ARI: Adjusted Rand Indexb Gute: Mit Gute-Wörter-Listec ZWB: Mit Z-Wert-Begrenzung auf 1,64d Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzunge F1: Precision und Recall kombiniertf EQ: Erkennungsquote in %g FP: False-Positives-Quote in % (niedriger ist besser)h Diff: Differenzen zwischen Werten mit Gute-Wörter-Liste und mit Z-Wert-Begrenzung | ||
1709 | zum Basiswert | ||
1710 | |||
1711 | |||
1712 | |||
1713 | |||
1714 | Tab. 12: Test D3, ARI-Test mit 2 × 5 Distraktortexten, ABE, BIL, GES. | 1632 | Tab. 12: Test D3, ARI-Test mit 2 × 5 Distraktortexten, ABE, BIL, GES. |
1715 | [ | 1633 | [45]Problematisch an diesem Setting ist die Kombination von zehn Distraktortexten mit |
1716 | neun Zielklassentexten, gegen die im Einzeltest ein Zielklassentext getestet wird. | 1634 | neun Zielklassentexten, gegen die im Einzeltest ein Zielklassentext getestet wird. |
1717 | Eine Zufallsverteilung würde eine Erkennungsquote von 31 | 1635 | Eine Zufallsverteilung würde eine Erkennungsquote von 31% ergeben. Die |
1718 | Erkennungsquoten müssten also deutlich höher liegen, um einen guten ARI-Wert zu | 1636 | Erkennungsquoten müssten also deutlich höher liegen, um einen guten ARI-Wert zu |
1725 | 1643 | ||
1726 | [ | 1644 | [46]Da die kürzeren Komödien und Tragödien hier unberücksichtigt bleiben, wird es |
1727 | möglich, einen größeren Bereich an MFWs in den Test einzubeziehen. In den übrigen | 1645 | möglich, einen größeren Bereich an MFWs in den Test einzubeziehen. In den übrigen |
1733 | 2.530 (GES) Wortformen. Bei der Evaluation werden nun 500–4.000 MFWs verwendet. | 1651 | 2.530 (GES) Wortformen. Bei der Evaluation werden nun 500–4.000 MFWs verwendet. |
1734 | [ | 1652 | [47]Neben den üblichen Tests (in der Folgetabelle von unten nach oben: ›Basis‹: ohne Gute |
1735 | Wörter, ohne Z-Wert-Begrenzung; ›ZWB 1,64‹: nur Z-Wert-Begrenzung, ohne Gute Wörter; | 1653 | Wörter, ohne Z-Wert-Begrenzung; ›ZWB 1,64‹: nur Z-Wert-Begrenzung, ohne Gute Wörter; |
1755 | 1673 | ||
1756 | | 1674 | ARI G&ZWB 1,64 |
1757 | 0,19 | 1675 | 0,19 |
1766 | 1684 | ||
1767 | ARI | 1685 | ARI G&ZWB 1,2 |
1768 | 0,17 | 1686 | 0,17 |
1777 | 1695 | ||
1778 | ARI | 1696 | ARI G&ZWB 1,0 |
1779 | 0,14 | 1697 | 0,14 |
1788 | 1706 | ||
1789 | ARI | 1707 | ARI G&ZWBneg |
1790 | 0,17 | 1708 | 0,17 |
1821 | 1739 | ||
1822 | ARI | 1740 | ARI Basis |
1823 | 0,08 | 1741 | 0,08 |
1843 | 1761 | ||
1844 | | 1762 | F1 G&ZWB 1,64 |
1845 | 0,68 | 1763 | 0,68 |
1854 | 1772 | ||
1855 | F1 | 1773 | F1 G&ZWN 1,2 |
1856 | 0,67 | 1774 | 0,67 |
1865 | 1783 | ||
1866 | F1 | 1784 | F1 G&ZWB 1,0 |
1867 | 0,66 | 1785 | 0,66 |
1876 | 1794 | ||
1877 | F1 | 1795 | F1 G&ZWBneg |
1878 | 0,70 | 1796 | 0,70 |
1931 | 1849 | ||
1932 | | 1850 | EQ G&ZWB 1,64 |
1933 | 66,67 | 1851 | 66,67 |
1942 | 1860 | ||
1943 | EQ | 1861 | EQ G&ZWB 1,2 |
1944 | 63,33 | 1862 | 63,33 |
1953 | 1871 | ||
1954 | EQ | 1872 | EQ G&ZWB 1,0 |
1955 | 63,33 | 1873 | 63,33 |
1964 | 1882 | ||
1965 | EQ | 1883 | EQ G&ZWBneg |
1966 | 70 | 1884 | 70 |
2019 | 1937 | ||
2020 | | 1938 | FP G&ZWB 1,64 |
2021 | 29,74 | 1939 | 29,74 |
2030 | 1948 | ||
2031 | FP | 1949 | FP G&ZWB 1,2 |
2032 | 26,14 | 1950 | 26,14 |
2041 | 1959 | ||
2042 | FP | 1960 | FP G&ZWB 1,0 |
2043 | 27,81 | 1961 | 27,81 |
2052 | 1970 | ||
2053 | FP | 1971 | FP G&ZWBneg |
2054 | 31,32 | 1972 | 31,32 |
2096 | 2014 | ||
2097 | a ARI: Adjusted Rand Indexb Gute: Mit Gute-Wörter-Listec ZWB: Mit Z-Wert-Begrenzung auf 1,64d Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzunge F1: Precision und Recall kombiniertf EQ: Erkennungsquote in %g FP: False-Positives-Quote in % (niedriger ist besser) | ||
2098 | |||
2099 | |||
2100 | |||
2101 | Tab. 13: Test D4, ARI-Test mit 2 × 10 Distraktortexten und großem | 2015 | Tab. 13: Test D4, ARI-Test mit 2 × 10 Distraktortexten und großem |
2102 | MFW-Bereich, Volltexte, ABE, BIL, GES. | 2016 | MFW-Bereich, Volltexte, ABE, BIL, GES. |
2103 | [ | 2017 | [48]Bei den optimalen Parametern (Gute Wörter kombiniert mit Z-Wert-Begrenzung auf 1,0) |
2104 | werden sowohl bei ARI, F1-Score, Erkennungsquote und False-Positives die besten Werte | 2018 | werden sowohl bei ARI, F1-Score, Erkennungsquote und False-Positives die besten Werte |
2105 | erreicht. Der F1-Score verbessert sich gegenüber dem besten Wert in Testreihe D2 (0,67) nun auf 0,76. | 2019 | erreicht. Der F1-Score verbessert sich gegenüber dem besten Wert in Testreihe D2 (0,67) nun auf 0,76. |
2106 | [ | 2020 | [49]Für die optimalen Werte wurde noch ein Bag-of-Words-Tests durchgeführt mit |
2107 | Bag-of-Words mit je 20.000 Wortformen und 200 Iterationen je Einzelwert (Rechenzeit: | 2021 | Bag-of-Words mit je 20.000 Wortformen und 200 Iterationen je Einzelwert (Rechenzeit: |
2117 | 2031 | ||
2118 | | 2032 | ARI G&ZWB 1,0 |
2119 | 0,14 | 2033 | 0,14 |
2122 | 2036 | ||
2123 | | 2037 | F1 G&ZWB 1,0 |
2124 | 0,66 | 2038 | 0,66 |
2127 | 2041 | ||
2128 | | 2042 | EQ G&ZWB 1,0 |
2129 | 64,7 | 2043 | 64,7 |
2132 | 2046 | ||
2133 | | 2047 | FP G&ZWB 1,0 |
2134 | 31,01 | 2048 | 31,01 |
2137 | 2051 | ||
2138 | a ARI: Adjusted Rand Indexb Gute: Mit Gute-Wörter-Listec ZWB: Mit Z-Wert-Begrenzung auf 1,64d F1: Precision und Recall kombinierte EQ: Erkennungsquote in %f FP: False-Positives-Quote in % (niedriger ist besser) | ||
2139 | |||
2140 | |||
2141 | |||
2142 | |||
2143 | Tab. 14: Test D5, ARI-Test mit 2 × 10 Distraktortexten und großem | 2052 | Tab. 14: Test D5, ARI-Test mit 2 × 10 Distraktortexten und großem |
2148 | 2057 | ||
2149 | [ | 2058 | [50]Die Verwendung der Guten Wörter führt zu einer Verbesserung der Erkennungsquoten, |
2150 | die | 2059 | die |
2152 | Kombination führen beide Techniken zu einer Verbesserung der Erkennungsquoten, die | 2061 | Kombination führen beide Techniken zu einer Verbesserung der Erkennungsquoten, die |
2153 | nicht auf Kosten einer Verschlechterung der False-Positives-Quote erfolgt | 2062 | nicht auf Kosten einer Verschlechterung der False-Positives-Quote erfolgt – dies ist |
2154 | auch an den verbesserten ARI-Werten ablesbar. Insgesamt bleibt die Gattungserkennung | 2063 | auch an den verbesserten ARI-Werten ablesbar. Insgesamt bleibt die Gattungserkennung |
2157 | guter F1-Wert >0,9 erzielt. Der Test A2 mit allen fünf Textsorten bringt bei 200 | 2066 | guter F1-Wert >0,9 erzielt. Der Test A2 mit allen fünf Textsorten bringt bei 200 |
2158 | MFWs mäßige Erfolge mit F1: 0,68, einer Erkennungsquote von 58 | 2067 | MFWs mäßige Erfolge mit F1: 0,68, einer Erkennungsquote von 58% bei immerhin nur |
2159 | 12,4 | 2068 | 12,4% False-Positives hervor (etwas verlagert in Test A3: F1: 0,77, Erkennungsquote: |
2160 | 76%, False-Positives: 22,1%). | 2069 | 76%, False-Positives: 22,1%). |
2161 | [ | 2070 | [51]In dieser Studie sollte geprüft werden, ob das Gute-Wörter-Verfahren zu einer |
2162 | Verbesserung der Genre-Erkennung beitragen kann. Dazu lässt sich ein positiver Befund | 2071 | Verbesserung der Genre-Erkennung beitragen kann. Dazu lässt sich ein positiver Befund |
2166 | Textsortenlabels vermieden wurden. | 2075 | Textsortenlabels vermieden wurden. |
2167 | [ | 2076 | [52]Die gewählten Bildungs- und Gesellschaftsromane sowie Tragödien und Komödien auf |
2168 | digitalem Weg zu unterscheiden, bleibt eine anspruchsvolle Herausforderung. Zu | 2077 | digitalem Weg zu unterscheiden, bleibt eine anspruchsvolle Herausforderung. Zu |
2709 | 2618 | ||
2710 | |||
2711 | Tab. 15: Auszug aus den textsortenspezifischen Gute-Wörter-Listen: Jeweils | 2619 | Tab. 15: Auszug aus den textsortenspezifischen Gute-Wörter-Listen: Jeweils |
2756 | 2664 | ||
2757 | |||
2758 | Tab. 16: Duplikate in den Listen der Guten Wörter. | 2665 | Tab. 16: Duplikate in den Listen der Guten Wörter. |
2759 | [ | 2666 | [53]Das Verfahren, dass die Guten Wörter für eine Textsorte in Relation zu den vier |
2760 | anderen Textsorten auf Basis der mehrfach gemittelten Level-2-Differenzen gebildet | 2667 | anderen Textsorten auf Basis der mehrfach gemittelten Level-2-Differenzen gebildet |
2770 | Abenteuerroman fehlerfrei gelingt (vgl. Test C). | 2677 | Abenteuerroman fehlerfrei gelingt (vgl. Test C). |
2771 | [ | 2678 | [54]Wörter, die man in semantischer Hinsicht vielleicht auch intuitiv mit der Textsorte |
2772 | in Verbringen wollte, sind in den Gute-Wörter-Listen selten | 2679 | in Verbringen wollte, sind in den Gute-Wörter-Listen selten – die meisten Wortformen |
2773 | findet man auch sonst in längeren MfW-Listen. Wenn man gezielt sucht, könnten etwa | 2680 | findet man auch sonst in längeren MfW-Listen. Wenn man gezielt sucht, könnten etwa |
2778 | intersubjektiv nachvollziehbar zu begründen. | 2685 | intersubjektiv nachvollziehbar zu begründen. |
2779 | [ | 2686 | [55]Verben stehen recht erwartbar meist in der 3. Person Singular Präteritum, in der |
2780 | Abenteuerroman-Liste sind jedoch relativ viele Verben in der 2. Person Singular | 2687 | Abenteuerroman-Liste sind jedoch relativ viele Verben in der 2. Person Singular |
2781 | Präsens enthalten | 2688 | Präsens enthalten – womöglich ein Indikator für einen erhöhten Anteil an direkter |
2782 | Figurenrede. Dass ›Berlin‹ in den Listen steht, könnte damit korrespondieren, dass | 2689 | Figurenrede. Dass ›Berlin‹ in den Listen steht, könnte damit korrespondieren, dass |
2793 | [1] | 2700 | [1] |
2794 | Vgl. etwa Büttner et al. 2017. | 2701 | Vgl. etwa Büttner et al. |
2702 | 2017. | ||
2795 | 2703 | ||
2796 | [2] | 2704 | [2] |
2797 | Vgl. Hettinger et | 2705 | Vgl. Hettinger et al. 2016a, S. 158. |
2798 | Hettinger et | 2706 | Hettinger et al. 2015 berichten über eine verbesserte Erkennungsleistung mit Hilfe |
2799 | von SVMs, die auf der Basis von LDA-Topics erzielt wurde; vgl. ähnlich Hettinger | 2707 | von SVMs, die auf der Basis von LDA-Topics erzielt wurde; vgl. ähnlich Hettinger |
2800 | et | 2708 | et al. 2016b. Kim et al. 2017 vergleichen englische Abenteuerromane, humoristische |
2801 | Romane, Science Fiction, Liebesgeschichten und Detektivromane auf der Grundlage | 2709 | Romane, Science Fiction, Liebesgeschichten und Detektivromane auf der Grundlage |
2803 | Emotionsmodell mit Hilfe von Maschinellem Lernen (RF und MLP). Vgl. weiterhin | 2711 | Emotionsmodell mit Hilfe von Maschinellem Lernen (RF und MLP). Vgl. weiterhin |
2804 | Schöch 2020; Calvo Tello 2019; | 2712 | Schöch 2020; Calvo Tello 2019; Ardanuy / Sporleder 2014; Underwood et al. 2013; Eder / Rybicki 2011; Sharoff et al. 2010; Stamatatos et al. 2000; Kessler et al. |
2805 | 1997. | 2713 | 1997. |
2818 | [6] | 2726 | [6] |
2819 | Gittel / Köppe 2022, S. 13–22, kritisieren die Studie von Underwood 2016 für ihre Thesenbildung zu Genre-Grenzen, dem Generationen-Bezug von Genres und der | 2727 | Vgl. Büttner / Proisl 2016. |
2820 | Kohärenz von Genres, die auf der Grundlage von linguistischen Parametern mit Hilfe | ||
2821 | von maschinellem Lernen erfolgt. U.a. anhand der Textsorten Pastiche und Parodie stellen | ||
2822 | Gittel / Köppe in Frage, inwieweit linguistische Textmerkmale hinreichend für eine | ||
2823 | Genre-Bestimmung sein können. | ||
2824 | 2728 | ||
2825 | [7] | 2729 | [7] |
2826 | | 2730 | Vgl. Schöch 2014. |
2827 | 2731 | ||
2828 | [8] | 2732 | [8] |
2829 | Stachowiak 1973, S. 132. Vgl. zur Approximation bei der Modellbildung Saam / Gautschi 2015, S. 26–38. McCarty 2005, S 24, weist darauf hin, dass auch in der traditionellen Literaturwissenschaft Modelle | 2733 | Hettinger et al. |
2830 | omnipräsent sind – etwa bei der Beschreibung von Epochen. Gittel / Köppe 2022, S. 20, kritisieren insbesondere, dass die digitale Modellierung von Underwood anders | 2734 | 2016a, S. 161. |
2831 | als literaturwissenschaftliche Beschreibungen Kontexte und paratextuelle Informationen | ||
2832 | nicht einbeziehen, diese können jedoch für die Erkennung der Gattung eines Textes | ||
2833 | entscheidend sein. | ||
2834 | 2735 | ||
2835 | [9] | 2736 | [9] |
2836 | | 2737 | Vgl. Selbmann 1994, S. 96–120. |
2837 | 2738 | ||
2838 | [10] | 2739 | [10] |
2839 | Dieses Verfahren lässt sich durchaus kritisieren: Bedacht wird dabei nicht, wie oft | ||
2840 | einem Text die Eigenschaft zugesprochen wird, zu einer Textsorte zu gehören. Unberücksichtigt | ||
2841 | bleibt auch, ob die Zuordnungen auf einheitlichen Genre-Definitionen basieren. Um | ||
2842 | eigene Textsortenmodelle zu entwickeln und die Zuordnungen auf dieser Basis zu überprüfen, | ||
2843 | standen für die Studie nicht die nötigen Ressourcen zur Verfügung. Insoweit deviante | ||
2844 | Epochenbegriffe eingehen sollten, würden damit allerdings gelebte Praktiken im Fach | ||
2845 | berücksichtigt. | ||
2846 | |||
2847 | [11] | ||
2848 | Vgl. Büttner / Proisl 2016. | ||
2849 | |||
2850 | [12] | ||
2851 | Vgl. Schöch 2014. | ||
2852 | |||
2853 | [13] | ||
2854 | Hettinger et al. | ||
2855 | 2016a, S. 161. | ||
2856 | |||
2857 | [14] | ||
2858 | Vgl. Selbmann 1994, S. 96–120. | ||
2859 | |||
2860 | [15] | ||
2861 | Selbmann | 2740 | Selbmann |
2863 | 2742 | ||
2864 | [ | 2743 | [11] |
2865 | Dimpel 2018a; Dimpel et | 2744 | Dimpel 2018a; Dimpel et al. 2019; vgl. weiterhin Dimpel 2018b. |
2866 | Ein didaktisch aufbereiteter Foliensatz steht hier. | 2745 | Ein didaktisch aufbereiteter Foliensatz steht hier. |
2867 | 2746 | ||
2868 | [ | 2747 | [12] |
2869 | In Dimpel / Proisl 2019. | 2748 | In Dimpel / Proisl 2019. |
2870 | 2749 | ||
2871 | [ | 2750 | [13] |
2872 | 2751 | ||
2873 | Weitere Parameter für die Ermittlung der Guten Wörter: Verwendet wurden volle | 2752 | Weitere Parameter für die Ermittlung der Guten Wörter: Verwendet wurden volle |
2874 | Texte nach Entfernung der ersten 10 | 2753 | Texte nach Entfernung der ersten 10% der Wortformen. Die häufigsten 1.200 MFWs |
2875 | wurden verwendet. Experimente mit 1.500 MFWs haben schlechtere Ergebnisse | 2754 | wurden verwendet. Experimente mit 1.500 MFWs haben schlechtere Ergebnisse |
2877 | Tragödien teils recht kurz sind. Der kürzeste Text kommt nach dem Entfernen der | 2756 | Tragödien teils recht kurz sind. Der kürzeste Text kommt nach dem Entfernen der |
2878 | ersten 10 | 2757 | ersten 10% auf 5.473 Wortformen. Aus Rechenzeitgründen wurden Wortformen nach |
2879 | 75.000 Wortformen nicht mehr berücksichtigt (Cutoff) | 2758 | 75.000 Wortformen nicht mehr berücksichtigt (Cutoff) – über die Hälfte der Texte |
2880 | ist ohnehin nicht länger als 50.000 Wortformen. | 2759 | ist ohnehin nicht länger als 50.000 Wortformen. |
2881 | 2760 | ||
2882 | [ | 2761 | [14] |
2883 | In einem weiteren Prätest wurde | 2762 | In einem weiteren Prätest wurde |
2892 | 2771 | ||
2893 | [ | 2772 | [15] |
2894 | Abkürzungen: | 2773 | Abkürzungen: |
2897 | 2776 | ||
2898 | [ | 2777 | [16] |
2899 | Vgl. etwa Büttner et | 2778 | Vgl. etwa Büttner et al. 2017. |
2900 | 2779 | ||
2901 | [ | 2780 | [17] |
2902 | Weiterhin werden von der | 2781 | Weiterhin werden von der |
2907 | 2786 | ||
2908 | [ | 2787 | [18] |
2909 | In | 2788 | In |
2914 | 2793 | ||
2915 | [ | 2794 | [19] |
2916 | Ardanuy / Sporleder 2014, S. | 2795 | Ardanuy / Sporleder 2014, S. 37, akzeptieren etwa eine Klassifizierung bei |
2917 | mehrfachen Labels als korrekt, wenn die erkannte Klasse zumindest zu einem der | 2796 | mehrfachen Labels als korrekt, wenn die erkannte Klasse zumindest zu einem der |
2918 | Label passt, während in der vorliegenden Studie angestrebt wurde, Texte mit | 2797 | Label passt, während in der vorliegenden Studie angestrebt wurde, Texte mit |
2919 | mehrfachen Labels zu meiden. Eine Vergleichbarkeit der Studien leidet | 2798 | mehrfachen Labels zu meiden. Eine Vergleichbarkeit der Studien leidet – wie so oft |
2920 | im Bereich der Digital Humanities | 2799 | im Bereich der Digital Humanities – auch darunter, dass viele Publikationsorgane |
2921 | den Maximalumfang der Beiträge auf derart wenige Seiten einschränken, dass eine | 2800 | den Maximalumfang der Beiträge auf derart wenige Seiten einschränken, dass eine |
2925 | 2804 | ||
2926 | [ | 2805 | [20] |
2927 | Vgl. zur | 2806 | Vgl. zur |
2928 | Z-Wert-Begrenzung Evert et | 2807 | Z-Wert-Begrenzung Evert et al. 2016; Dimpel 2018b. |
2929 | 2808 | ||
2930 | [ | 2809 | [21] |
2931 | Es sind 40 | 2810 | Es sind 40 |
2934 | 2813 | ||
2935 | [ | 2814 | [22] |
2936 | Vgl. | 2815 | Vgl. |
2937 | etwa Büttner et | 2816 | etwa Büttner et al. 2017. |
2938 | 2817 | ||
2939 | [ | 2818 | [23] |
2940 | 2819 | ||
2941 | Eine ähnliche Tendenz beobachten Hettinger et | 2820 | Eine ähnliche Tendenz beobachten Hettinger et al. 2016a, S. 160. |
2942 | 2821 | ||
2952 | (CLfL). Hg. von Association for Computational Linguistics. (EACL 2014, Göteborg, | 2831 | (CLfL). Hg. von Association for Computational Linguistics. (EACL 2014, Göteborg, |
2953 | 27.04.2014) Stroudsburg, PA, 2014, S. 31–39. DOI: 10.3115/v1/W14-0905Andreas Büttner / Thomas Proisl: Stilometrie interdisziplinär: Merkmalsselektion | 2832 | 27.04.2014) Stroudsburg, PA, 2014, S. 31–39. DOI: 10.3115/v1/W14-0905Andreas Büttner / Friedrich Michael Dimpel / Stefan Evert / Fotis |
2833 | Jannidis / Steffen Pielström / Thomas Proisl / Isabella Reger / Christof | ||
2834 | Schöch / Thorsten Vitt: „Delta“ in der stilometrischen Autorschaftsattribution. In: | ||
2835 | Zeitschrift für digitale Geisteswissenschaften 2 (2017). DOI: 10.17175/2017_006Andreas Büttner / Thomas Proisl: Stilometrie interdisziplinär: Merkmalsselektion | ||
2954 | zur Differenzierung zwischen Übersetzer- und Fachvokabular. In: Modellierung, | 2836 | zur Differenzierung zwischen Übersetzer- und Fachvokabular. In: Modellierung, |
2956 | Forschungsparadigma. DHd 2016. Konferenzabstracts. Hg. von Elisabeth Burr. (DHd: 3, | 2838 | Forschungsparadigma. DHd 2016. Konferenzabstracts. Hg. von Elisabeth Burr. (DHd: 3, |
2957 | Leipzig, 07.–12.03.2016) Duisburg 2016, S. 70–74. DOI: 10.5281/zenodo.3679331 [Nachweis im GVK] Andreas Büttner / Friedrich Michael Dimpel / Stefan Evert / Fotis | 2839 | Leipzig, 07.–12.03.2016) Duisburg 2016, S. 70–74. DOI: 10.5281/zenodo.3679331 [Nachweis im GVK] José Calvo Tello: Gattungserkennung über 500 Jahre. In: DHd 2019 Digital |
2958 | Jannidis / Steffen Pielström / Thomas Proisl / Isabella Reger / Christof | ||
2959 | Schöch / Thorsten Vitt: „Delta“ in der stilometrischen Autorschaftsattribution. In: | ||
2960 | Zeitschrift für digitale Geisteswissenschaften 2 (2017). DOI: 10.17175/2017_006José Calvo Tello: Gattungserkennung über 500 Jahre. In: DHd 2019 Digital | ||
2961 | Humanities: multimedial & multimodal. Konferenzabstracts. Hg. von Patrick Sahle. | 2840 | Humanities: multimedial & multimodal. Konferenzabstracts. Hg. von Patrick Sahle. |
2962 | (DHd: 6, Frankfurt am Main u. a., 25.–29.03.2019) Frankfurt/Main 2019, S. 292–294. | 2841 | (DHd: 6, Frankfurt am Main u. a., 25.–29.03.2019) Frankfurt/Main 2019, S. 292–294. |
2963 | DOI: 10.5281/zenodo.2600812Friedrich Michael Dimpel: Der Computerphilologe als Interpret – ein Teilzeit-Empiriker? | 2842 | DOI: 10.5281/zenodo.2600812Friedrich Michael Dimpel / Daniel Schlager / Katharina Zeppezauer-Wachauer: Der |
2964 | In: Literatur interpretieren. Interdisziplinäre Beiträge zur Theorie und Praxis. Hg. | 2843 | Streit um die Birne. Autorschafts-Attributionstest mit Burrows’ Delta und dessen |
2965 | von Jan Borkowski / Stefan Descher / Felicitas Ferder / Philipp Heine. Münster 2015, | 2844 | Optimierung für Kurztexte am Beispiel der ‚Halben Birne‘ des Konrad von Würzburg. |
2966 | S. 339–359. DOI: 10.30965/9783957438973_018Friedrich Michael Dimpel (2018a): Die guten ins Töpfchen: Zur Anwendbarkeit von | 2845 | In: |
2846 | Digitale Mediävistik. Hg. von Roman Bleier / Franz Fischer / Torsten | ||
2847 | Hiltmann / Gabriel Viehhauser / Georg Vogeler. Berlin u. a. 2019, S. 71–90. [Nachweis im GVK] Friedrich Michael Dimpel / Thomas Proisl: Gute Wörter für Delta: Verbesserung der | ||
2848 | Autorschaftsattribution durch autorspezifische distinktive Wörter. In: DHd 2019 | ||
2849 | Digital Humanities: multimedial & multimodal. Konferenzabstracts. Hg. von Patrick | ||
2850 | Sahle. (DHd: 6, Frankfurt am Main u. a., 25.–29.03.2019) Frankfurt/Main 2019, | ||
2851 | S. 296–299. DOI: 10.5281/zenodo.2600812Friedrich Michael Dimpel (2018a): Die guten ins Töpfchen: Zur Anwendbarkeit von | ||
2967 | Burrows’ Delta bei kurzen mittelhochdeutschen Texten nebst eines Attributionstests | 2852 | Burrows’ Delta bei kurzen mittelhochdeutschen Texten nebst eines Attributionstests |
2972 | mittelhochdeutsche Texte, Z-Wert-Begrenzung und ein Normalisierungswörterbuch. Oder: | 2857 | mittelhochdeutsche Texte, Z-Wert-Begrenzung und ein Normalisierungswörterbuch. Oder: |
2973 | Auf welche Wörter kommt es bei Delta an? Göttingen 2018. (= Dariah-DE Working Papers, | 2858 | Auf welche Wörter kommt es bei Delta an? Göttingen 2018. (= Dariah-DE Working Papers, |
2974 | 25) URN: urn:nbn:de:gbv:7-dariah-2017-5-1Friedrich Michael Dimpel / Daniel Schlager / Katharina Zeppezauer-Wachauer: Der | 2859 | 25) URN: urn:nbn:de:gbv:7-dariah-2017-5-1Maciej Eder / Jan Rybicki: Deeper Delta Across Genres and Languages: Do We Really |
2975 | Streit um die Birne. Autorschafts-Attributionstest mit Burrows’ Delta und dessen | 2860 | Need the Most Frequent Words? In: Literary and Linguistic Computing 26 (2011), H. |
2976 | Optimierung für Kurztexte am Beispiel der ‚Halben Birne‘ des Konrad von Würzburg. | 2861 | 3, |
2977 | In: | 2862 | S. 315–321. DOI: 10.1093/llc/fqr031 [Nachweis im GVK] Stefan Evert / Fotis Jannidis / Steffen Pielström / Isabella Reger / Christof |
2978 | Digitale Mediävistik. Hg. von Roman Bleier / Franz Fischer / Torsten | 2863 | Schöch / Thorsten Vitt: Burrows’ Delta verstehen. In: Modellierung, Vernetzung, |
2979 | Hiltmann / Gabriel Viehhauser / Georg Vogeler. Berlin u. a. 2019, S. 71–90. [Nachweis im GVK] Friedrich Michael Dimpel / Thomas Proisl: Gute Wörter für Delta: Verbesserung der | ||
2980 | Autorschaftsattribution durch autorspezifische distinktive Wörter. In: DHd 2019 | ||
2981 | Digital Humanities: multimedial & multimodal. Konferenzabstracts. Hg. von Patrick | ||
2982 | Sahle. (DHd: 6, Frankfurt am Main u. a., 25.–29.03.2019) Frankfurt/Main 2019, | ||
2983 | S. 296–299. DOI: 10.5281/zenodo.2600812Maciej Eder / Jan Rybicki: Deeper Delta Across Genres and Languages: Do We Really | ||
2984 | Need the Most Frequent Words? In: Literary and Linguistic Computing 26 (2011), H. 3, | ||
2985 | S. 315–321. DOI: 10.1093/llc/fqr031 [Nachweis im GVK] Stefan Evert / Fotis Jannidis / Friedrich Michael Dimpel / Christof | ||
2986 | Schöcht / Steffen Pielströmt / Thorsten Vitt / Isabella Regert / Andreas Büttner / | ||
2987 | Thomas Proisl: Burrows Delta verstehen. In: Modellierung, Vernetzung, | ||
2988 | Visualisierung. Die Digital Humanities als fächerübergreifendes Forschungsparadigma. | 2864 | Visualisierung. Die Digital Humanities als fächerübergreifendes Forschungsparadigma. |
2989 | DHd 2016. Konferenzabstracts. Hg. von Elisabeth Burr. 2. überarbeitete und erweiterte | 2865 | DHd 2016. Konferenzabstracts. Hg. von Elisabeth Burr. 2. überarbeitete und erweiterte |
2990 | Ausgabe. (DHd: 3, Leipzig, 07.–12.03.2016) Duisburg 2016, S. 83–86. DOI: 110.5281/zenodo.3679330Stephan Fuchs: Hybride Helden: Gwigalois und Willehalm. Beiträge zum Heldenbild | 2866 | Ausgabe. (DHd: 3, Leipzig, 07.–12.03.2016) Duisburg 2016, S. 62–65. [online] Stephan Fuchs: Hybride Helden: Gwigalois und Willehalm. Beiträge zum Heldenbild |
2991 | und zur Poetik des Romans im frühen 13. Jahrhundert. Heidelberg 1997. (= Frankfurter | 2867 | und zur Poetik des Romans im frühen 13. Jahrhundert. Heidelberg 1997. (= Frankfurter |
2992 | Beiträge zur Germanistik, 31) [Nachweis im GVK] Benjamin Gittel / Tilmann Köppe: On the Distance Between Traditional and DH-Based | 2868 | Beiträge zur Germanistik, 31) [Nachweis im GVK] Lena Hettinger / Martin Becker / Isabella Reger / Fotis Jannidis / Andreas Hotho: |
2993 | Genre Theory. In: Digitale Verfahren in der Literaturwissenschaft. Hg. von Jan Horstmann / | ||
2994 | Frank Fischer. Münster 2022. (= Sonderausgabe Textpraxis. Digitales Journal für Philologie, | ||
2995 | 6). DOI: 10.17879/64059431694Lena Hettinger / Martin Becker / Isabella Reger / Fotis Jannidis / Andreas Hotho: | ||
2996 | Genre classification on German novels. In: Database and expert systems applications. | 2869 | Genre classification on German novels. In: Database and expert systems applications. |
2997 | 26th International Conference. Hg. von Qiming Chen | 2870 | 26th International Conference. Hg. von Qiming Chen / Abdelkader Hameurlain / Farouk |
2998 | Toumani | 2871 | Toumani / Roland Wagner / Hendrik Decker. (DEXA: 26, Valencia, 01.–04.09.2015). Cham |
2999 | u. | 2872 | u. a. 2015, S. 249–253. DOI: 10.1109/DEXA.2015.62 [Nachweis im GVK] Lena Hettinger / Isabella Reger / Fotis Jannidis / Andreas Hotho (2016a): |
3000 | Classification of Literary Subgenres. In: Modellierung, Vernetzung, Visualisierung. | 2873 | Classification of Literary Subgenres. In: Modellierung, Vernetzung, Visualisierung. |
3005 | Humanities 2016. Conference Abstracts. (DH 2016, Krakau, 11.-16.07.2016) Krakau 2016. | 2878 | Humanities 2016. Conference Abstracts. (DH 2016, Krakau, 11.-16.07.2016) Krakau 2016. |
3006 | [online]Brett Kessler / Geoffrey Nunberg / Hinrich | 2879 | [online]Brett Kessler / Geoffrey Nunberg / Hinrich Schutze: Automatic Detection of Text |
3007 | Genre. In: 35th Annual Meeting of the Association for Computational Linguistics and | 2880 | Genre. In: 35th Annual Meeting of the Association for Computational Linguistics and |
3014 | Feldman / Anna Kazantseva / Nils Reiter / Stan Szpakowicz. (SIGHUM: 11, Vancouver, | 2887 | Feldman / Anna Kazantseva / Nils Reiter / Stan Szpakowicz. (SIGHUM: 11, Vancouver, |
3015 | 04.08.2017) Stroudsburg, PA, 2017, S. 17–26. DOI: 10.18653/v1/W17-2203Willard McCarty: Humanities Computing. London / New York 2005. [Nachweis im GVK] Nicole J. Saam / Thomas Gautschi: Modellbildung in den Sozialwissenschaften. In: Handbuch | 2888 | 04.08.2017) Stroudsburg, PA, 2017, S. 17–26. DOI: 10.18653/v1/W17-2203Christof Schöch: Corneille, Molière et les autres. Stilometrische Analysen zu |
3016 | Modellbildung und Simulation in den Sozialwissenschaften. Hg. von Norman Braun / Nicole | ||
3017 | J. Saam. Wiesbaden 2015, S. 15–60. DOI: 10.1007/978-3-658-01164-2Christof Schöch: Corneille, Molière et les autres. Stilometrische Analysen zu | ||
3018 | Autorschaft und Gattungszugehörigkeit im französischen Theater der Klassik. In: | 2889 | Autorschaft und Gattungszugehörigkeit im französischen Theater der Klassik. In: |
3019 | Literaturwissenschaft im digitalen Medienwandel. Hg. von Christof Schöch / Lars | 2890 | Literaturwissenschaft im digitalen Medienwandel. Hg. von Christof Schöch / Lars |
3020 | Schneider. Berlin 2014, S. 130–157. (= | 2891 | Schneider. Berlin 2014, S. 130–157. (= Philologie im Netz / Beiheft, 7) PDF. [online] Christof Schöch: Computational Genre Analysis. In: Digital Humanities for Literary |
3021 | Studies: Methods, Tools & Practices. Hg. von James O'Sullivan. College Station, | 2892 | Studies: Methods, Tools & Practices. Hg. von James O'Sullivan. College Station, |
3022 | TX 2020. Preprint. PDF. [online] Armin Schulz: Poetik des Hybriden. Schema, Variation und intertextuelle | 2893 | TX 2020. Preprint. PDF. [online] Armin Schulz: Poetik des Hybriden. Schema, Variation und intertextuelle |
3023 | Kombinatorik in der Minne- und Aventiureepik: ‚Willehalm von Orlens‘ | 2894 | Kombinatorik in der Minne- und Aventiureepik: ‚Willehalm von Orlens‘ – ‚Partonopier |
3024 | und Meliur‘ | 2895 | und Meliur‘ – ‚Wilhelm von Österreich‘ – ‚Die schöne Magelone‘. Berlin 2000. (= |
3025 | Studien und Quellen, 161) [Nachweis im GVK] Rolf Selbmann: Der deutsche Bildungsroman. 2., überarbeitete und erweiterte | 2896 | Philologische Studien und Quellen, 161) [Nachweis im GVK] Rolf Selbmann: Der deutsche Bildungsroman. 2., überarbeitete und erweiterte |
3026 | Auflage. Stuttgart u. | 2897 | Auflage. Stuttgart u. a. 1994. (= Sammlung Metzler, 214) [Nachweis im GVK] Serge Sharoff / Zhili Wu / Katja Markert: The Web Library of Babel: evaluating |
3027 | genre collections. In: Proceedings of the 7th International Conference on Language | 2898 | genre collections. In: Proceedings of the 7th International Conference on Language |
3029 | Maegaard / Joseph Mariani / Jan Odijk / Stelios Piperidis / Mike Rosner / Daniel | 2900 | Maegaard / Joseph Mariani / Jan Odijk / Stelios Piperidis / Mike Rosner / Daniel |
3030 | Tapias. (LREC’10: 7, Valetta, 17.-23.05.2010) Paris 2010. PDF. [online] | 2901 | Tapias. (LREC’10: 7, Valetta, 17.-23.05.2010) Paris 2010. PDF. [online] Efstathios Stamatatos / Nikos Fakotakis / George Kokkinakis: Automatic text |
3031 | categorization in terms of genre and author. In: Computational Linguistics 26 (2000), | 2902 | categorization in terms of genre and author. In: Computational Linguistics 26 (2000), |
3033 | Optimierung für Kurztexte am Beispiel der ‚Halben Birne‘ des Konrad von Würzburg: | 2904 | Optimierung für Kurztexte am Beispiel der ‚Halben Birne‘ des Konrad von Würzburg: |
3034 | Anhang | 2905 | Anhang – Dimpel: Gute Wörter und Level-2-Differenzen bei Delta. Hg. von ULB Münster. |
3035 | 2022. [online] Ted Underwood / Michael L. Black / Loretta Auvil / Boris Capitanu: Mapping mutable | 2906 | 2022. [online] Ted Underwood / Michael L. Black / Loretta Auvil / Boris Capitanu: Mapping mutable |
3037 | Conference on Big Data. Hg. von Hu Xiaohua. 2 Bde. (Silicon Valley, CA, | 2908 | Conference on Big Data. Hg. von Hu Xiaohua. 2 Bde. (Silicon Valley, CA, |
3038 | 06.–09.10.2013) Piscataway, NJ 2013. Bd. 1: S. 95–103. DOI: 10.1109/BigData.2013.6691676 [Nachweis im GVK] Ted Underwood: The Life Cycles of Genres. In: Cultural Analytics 2 (2016), H. 2. DOI: | 2909 | 06.–09.10.2013) Piscataway, NJ 2013. Bd. 1: S. 95–103. DOI: 10.1109/BigData.2013.6691676 [Nachweis im GVK] Gabriel Viehhauser: Digitale Gattungsgeschichten. Minnesang zwischen generischer |
3039 | 10.22148/16.005Gabriel Viehhauser: Digitale Gattungsgeschichten. Minnesang zwischen generischer | ||
3040 | Konstanz und Wende. In: Zeitschrift für digitale Geisteswissenschaften 2 (2017). DOI: | 2910 | Konstanz und Wende. In: Zeitschrift für digitale Geisteswissenschaften 2 (2017). DOI: |
3045 | 2915 | ||
3046 | |||
3047 | |||
3048 | Tabellenverzeichnis | 2916 | Tabellenverzeichnis |
3049 | 2917 | ||
3050 | Tab. 1: Test A1, Erkennungsquotentest mit fünf Vergleichstexten der Zielklasse, Test A1, | 2918 | |
3051 | ABE, BIL, GES, KOM, TRA. Beim Bag-of-Words-Test mit 10.000 MFWs werden die Texte 200 | 2919 | Tab. 1: Test A1, Erkennungsquotentest mit fünf Vergleichstexten der Zielklasse, Test |
3052 | verschiedenen Bag-Sets pro Gattung zugelost und Mittelwerte gebildet. | 2920 | A1, ABE, BIL, GES, KOM, TRA. Beim Bag-of-Words-Test mit 10.000 MFWs werden die Texte |
2921 | 200 verschiedenen Bag-Sets pro Gattung zugelost und Mittelwerte gebildet. | ||
2922 | Abkürzungen: Gute: Mit Gute-Wörter-Liste / ZWB: Mit Z-Wert-Begrenzung auf 1.64 / | ||
2923 | Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzung. | ||
2924 | |||
2925 | |||
3053 | Tab. 2: Test A2, ARI-Test mit 4 × 10 Distraktortexten, ABE, BIL, GES, KOM, TRA. | 2926 | Tab. 2: Test A2, ARI-Test mit 4 × 10 Distraktortexten, ABE, BIL, GES, KOM, TRA. |
3054 | Tab. 3: Test A2, ARI-Test mit 4 × 10 Distraktortexten, Einzelwerte, ABE, | 2927 | Abkürzungen: ARI: Adjusted Rand Index / F1: Precision und Recall kombiniert / Gute: |
3055 | BIL, GES, KOM, TRA. | 2928 | Mit Gute-Wörter-Liste / ZWB: Mit Z-Wert-Begrenzung auf 1.64 / EQ: Erkennungsquote |
3056 | Tab. 4: Test A2, ARI-Test mit 4 × 10 Distraktortexten, Bag-of-Words, ABE, | 2929 | in |
3057 | BIL, GES, KOM, TRA. | 2930 | % / FP: False-Positives-Quote in % (niedriger ist besser) / Basis: Ohne |
3058 | Tab. 5: Test A3, ARI-Test mit 4 × 5 Distraktortexten, ABE, BIL, GES, KOM, | 2931 | Gute-Wörter-Liste und ohne Z-Wert-Begrenzung / Diff: Differenzen zwischen Werten mit |
3059 | TRA. | 2932 | Gute-Wörter-Liste und mit Z-Wert-Begrenzung zum Basiswert. |
2933 | |||
2934 | |||
2935 | Tab. 3: Test A2, ARI-Test mit 4 × 10 Distraktortexten, Einzelwerte, ABE, BIL, GES, | ||
2936 | KOM, TRA. | ||
2937 | |||
2938 | |||
2939 | Tab. 4: Test A2, ARI-Test mit 4 × 10 Distraktortexten, Bag-of-Words, ABE, BIL, GES, | ||
2940 | KOM, TRA. | ||
2941 | |||
2942 | |||
2943 | Tab. 5: Test A3, ARI-Test mit 4 × 5 Distraktortexten, ABE, BIL, GES, KOM, TRA. | ||
2944 | |||
2945 | |||
3060 | Tab. 6: Test B, ARI-Test mit 2 × 10 Distraktortexten, ABE, BIL, KOM. | 2946 | Tab. 6: Test B, ARI-Test mit 2 × 10 Distraktortexten, ABE, BIL, KOM. |
2947 | |||
2948 | |||
3061 | Tab. 7: Test C, ARI-Test mit 2 × 10 Distraktortexten, ABE, KOM, TRA. | 2949 | Tab. 7: Test C, ARI-Test mit 2 × 10 Distraktortexten, ABE, KOM, TRA. |
3062 | Tab. 8: Test C, ARI-Test mit 2 × 10 Distraktortexten, Einzelwerte, ABE, | 2950 | |
3063 | KOM, TRA (Volltexte, mit Guten Wörtern und Z-Wert-Begrenzung). | 2951 | |
3064 | Tab. 9: Test D1, Erkennungsquotentest mit fünf Vergleichstexten der | 2952 | Tab. 8: Test C, ARI-Test mit 2 × 10 Distraktortexten, Einzelwerte, ABE, KOM, TRA |
3065 | Zielklasse, ABE, BIL, GES. | 2953 | (Volltexte, mit Guten Wörtern und Z-Wert-Begrenzung). |
2954 | |||
2955 | |||
2956 | Tab. 9: Test D1, Erkennungsquotentest mit fünf Vergleichstexten der Zielklasse, ABE, | ||
2957 | BIL, GES. | ||
2958 | |||
2959 | |||
3066 | Tab. 10: Test D2, ARI-Test mit 2 × 10 Distraktortexten, ABE, BIL, GES. | 2960 | Tab. 10: Test D2, ARI-Test mit 2 × 10 Distraktortexten, ABE, BIL, GES. |
3067 | Tab. 11: Test D2, ARI-Test mit 2 × 10 Distraktortexten, Einzelwerte, ABE, | 2961 | |
3068 | BIL, GES. | 2962 | |
2963 | Tab. 11: Test D2, ARI-Test mit 2 × 10 Distraktortexten, Einzelwerte, ABE, BIL, | ||
2964 | GES. | ||
2965 | |||
2966 | |||
3069 | Tab. 12: Test D3, ARI-Test mit 2 × 5 Distraktortexten, ABE, BIL, GES. | 2967 | Tab. 12: Test D3, ARI-Test mit 2 × 5 Distraktortexten, ABE, BIL, GES. |
3070 | Tab. 13: Test D4, ARI-Test mit 2 × 10 Distraktortexten und großem | 2968 | |
3071 | MFW-Bereich, Volltexte, ABE, BIL, GES. | 2969 | |
3072 | Tab. 14: Test D5, ARI-Test mit 2 × 10 Distraktortexten und großem | 2970 | Tab. 13: Test D4, ARI-Test mit 2 × 10 Distraktortexten und großem MFW-Bereich, |
3073 | MFW-Bereich, Bag-of-Words (20.000 Wortformen), ABE, BIL, GES. | 2971 | Volltexte, ABE, BIL, GES. |
3074 | Tab. 15: Auszug aus den textsortenspezifischen Gute-Wörter-Listen: Jeweils | 2972 | |
3075 | 100 Wortformen mit den höchsten Level-2-Differenzen. | 2973 | |
2974 | Tab. 14: Test D5, ARI-Test mit 2 × 10 Distraktortexten und großem MFW-Bereich, | ||
2975 | Bag-of-Words (20.000 Wortformen), ABE, BIL, GES. | ||
2976 | |||
2977 | |||
2978 | Tab. 15: Auszug aus den textsortenspezifischen Gute-Wörter-Listen: Jeweils 100 | ||
2979 | Wortformen mit den höchsten Level-2-Differenzen. | ||
2980 | |||
2981 | |||
3076 | Tab. 16: Duplikate in den Listen der Guten Wörter. | 2982 | Tab. 16: Duplikate in den Listen der Guten Wörter. |