Versionen vergleichen von : Gute Wörter, schwaches Gattungssignal. Differenzen zwischen Roman-Subgenres und Dramen mit Delta und signifikantem Wortschatz aufspüren
Alt | Neu | ||
---|---|---|---|
7 | 7 | ||
8 | DOI: 10.17175/2022_009 | 8 | DOI: 10.17175/2022_009_v2 |
9 | Nachweis im OPAC der Herzog August Bibliothek: | 9 | Nachweis im OPAC der Herzog August Bibliothek: 1866422553 |
10 | Erstveröffentlichung: 17.11.2022 | 10 | Erstveröffentlichung: 17.11.2022 |
11 | Version 2.0: 14.11.2023 | ||
11 | Lizenz: Sofern nicht anders angegeben | 12 | Lizenz: Sofern nicht anders angegeben |
14 | Medienlizenzen: Medienrechte liegen bei den Autor*innen | 15 | Medienlizenzen: Medienrechte liegen bei den Autor*innen |
15 | Letzte Überprüfung aller Verweise: | 16 | Letzte Überprüfung aller Verweise: 30.10.2023 |
16 | GND-Verschlagwortung: Gattungstheorie | 17 | GND-Verschlagwortung: Gattungstheorie | Literaturgattung | Literaturwissenschaft | Statistische Stilistik | |
17 | Empfohlene Zitierweise: Friedrich Michael Dimpel: Gute Wörter, schwaches Gattungssignal. Differenzen zwischen | 18 | Empfohlene Zitierweise: Friedrich Michael Dimpel: Gute Wörter, schwaches Gattungssignal. Differenzen zwischen |
18 | Roman-Subgenres und Dramen mit Delta und signifikantem Wortschatz | 19 | Roman-Subgenres und Dramen mit Delta und signifikantem Wortschatz |
19 | aufspüren. In: Zeitschrift für digitale Geisteswissenschaften. Wolfenbüttel 2022. text/html Format. DOI: 10.17175/2022_009 | 20 | aufspüren. In: Zeitschrift für digitale Geisteswissenschaften 7 (2022). 17.11.2022. Version 2.0 vom 14.11.2023. HTML / XML / PDF. DOI: 10.17175/2022_009_v2 |
20 | |||
21 | 21 | ||
25 | Abstract | 25 | Abstract |
26 | |||
26 | Untersucht wird, inwieweit sich die automatische Erkennung von Genres bzw. | 27 | Untersucht wird, inwieweit sich die automatische Erkennung von Genres bzw. |
53 | 54 | ||
55 | |||
56 | Version 2.0 (14.11.2023) | ||
57 | Korrekturen entlang der Monita in den Gutachten: Sprachliche Verbesserungen; Ergänzungen | ||
58 | in Kapitel 1 und 2 sowie in der Bibliografie; Ergänzung der Tabellenbeschriftungen, | ||
59 | Aufschlüsselung von Abkürzungen | ||
60 | |||
61 | |||
54 | 1. Gattung und Stilometrie | 62 | 1. Gattung und Stilometrie |
55 | 2. Korpusgestaltung und Präprocessing | 63 | 2. Korpusgestaltung und Präprocessing |
56 | 3. Gute Wörter berechnen – Ermittlungsgruppe | 64 | 3. Gute Wörter berechnen – Ermittlungsgruppe |
57 | 4. Evaluierung – Kontrollgruppe | 65 | 4. Evaluierung – Kontrollgruppe |
58 | 4.1 Setting: Erkennungsquotentest mit fünf Vergleichstexten der | 66 | 4.1 Setting: Erkennungsquotentest mit fünf Vergleichstexten der Zielklasse |
59 | Zielklasse | ||
60 | 4.2 Setting: Tests mit F1-Wert und ARI | 67 | 4.2 Setting: Tests mit F1-Wert und ARI |
61 | 5. Ergebnisse | 68 | 5. Ergebnisse |
69 | Testreihe A: ABE, BIL, GES, KOM, TRA | ||
70 | A1: Erkennungsquotentest mit fünf Vergleichstexten der Zielklasse | ||
71 | A2: ARI-Test mit 4 × 10 Distraktortexten | ||
72 | A3: ARI-Test mit 4 × 5 Distraktortexten | ||
73 | Test B: ABE, BIL, KOM | ||
74 | Test C: ABE, KOM, TRA | ||
75 | Test D: ABE, BIL, GES | ||
76 | D1: Erkennungsquotentest mit fünf Vergleichstexten der Zielklasse | ||
77 | D2: ARI-Test mit 2 × 10 Distraktortexten | ||
78 | D3: ARI-Test mit 2 × 5 Distraktortexten | ||
79 | D4: ARI-Test mit 2 × 10 Distraktortexten und größerem MFW-Bereich | ||
62 | 6. Fazit | 80 | 6. Fazit |
71 | Erkennungsquoten vorweisen kann,[1] ist die digitale Erkennung von literarischen Gattungen deutlich | 89 | Erkennungsquoten vorweisen kann,[1] ist die digitale Erkennung von literarischen Gattungen deutlich |
72 | anspruchsvoller.[2] Während bei Texten | 90 | anspruchsvoller.[2] Während bei Texten der gleichen Autorin / des gleichen Autors trotz aller |
73 | Veränderungen im Laufe der Schaffensperiode | 91 | Veränderungen im Laufe der Schaffensperiode und trotz |
74 | einer möglichen Intention auf wechselnde Stilformen doch von einem mit sich selbst | 92 | einer möglichen Intention auf wechselnde Stilformen doch von einem mit sich selbst |
77 | sich bei der Zugehörigkeit eines Textes zu einer Gattung nicht um ein objektives | 95 | sich bei der Zugehörigkeit eines Textes zu einer Gattung nicht um ein objektives |
78 | Faktum, sondern um ein Attributionsphänomen | 96 | Faktum, sondern um ein Attributionsphänomen – Literaturwissenschaftler*innen |
79 | schreiben Texten die Eigenschaft zu, einer Gattung anzugehören. Solche Zuweisungen | 97 | schreiben Texten die Eigenschaft zu, einer Gattung anzugehören. Solche Zuweisungen |
87 | ›Heldenepik‹ erhält. Dazu kommt, dass Gattungen nicht historisch konstant und | 105 | ›Heldenepik‹ erhält. Dazu kommt, dass Gattungen nicht historisch konstant und |
88 | gleichförmig bleiben | 106 | gleichförmig bleiben – Gabriel Viehhauser zeigt in seiner Studie zum |
89 | mittelalterlichen Minnesang, wie sich Gattungswandel auch digital abbilden | 107 | mittelalterlichen Minnesang, wie sich Gattungswandel auch digital abbilden |
92 | Autorschaft (etwa bei sehr kurzen und nicht-normalisierten mittelhochdeutschen | 110 | Autorschaft (etwa bei sehr kurzen und nicht-normalisierten mittelhochdeutschen |
93 | Texten) Optimierungsverfahren entwickelt | 111 | Texten) Optimierungsverfahren entwickelt – etwa das Gute-Wörter-Verfahren, bei dem nicht alle Most-Frequent-Words (MFW), sondern signifikante Wortformen verwendet |
94 | werden.[5] In der vorliegenden Studie | 112 | werden.[5] In der vorliegenden Studie |
99 | zielgerichtet und unbeeinflusst durch Autorsignale oder Übersetzersignale untersucht werden kann, wird vermieden, mehrere | 117 | zielgerichtet und unbeeinflusst durch Autorsignale oder Übersetzersignale untersucht werden kann, wird vermieden, mehrere |
100 | Texte der gleichen Autor*innen und ins Deutsche übersetzte Texte zu verwenden. | 118 | Texte der gleichen Autor*innen und ins Deutsche übersetzte Texte zu berücksichtigen. |
119 | [3]Diese Studie ist also auf eine technische Fragestellung begrenzt – auf den Beitrag | ||
120 | des Gute-Wörter-Verfahrens zu einer verbesserten automatischen Textsortenerkennung. | ||
121 | Angestrebt wird nicht, traditionelle literaturwissenschaftliche Genre-Bestimmungen | ||
122 | zu kritisieren oder zu präzisieren.[6] Da versucht wird, eine Textsortenerkennung auf lexikalischer Basis vorzunehmen, könnte | ||
123 | dieser Versuch als Modellierung[7] einer Unterscheidbarkeit von Textsorten beschrieben werden. Für Computermodelle ist | ||
124 | wie auch bei herkömmlichen Modellen das Merkmal der verkürzten Repräsentation wesentlich – | ||
125 | das modellierte Objekt wird nicht vollständig durch das Modell abgebildet.[8] Aufgrund dieser Verkürzung ist es in der Regel problematisch, davon zu sprechen, | ||
126 | dass sich Ergebnisdaten, die auf der Basis von digitalen Modellen gewonnen werden, | ||
127 | unmittelbar dafür eignen, etwa hermeneutische Thesen zu verifizieren oder zu falsifizieren.[9] | ||
128 | [4]Gegenüber Studien, die auf Black-Box-Verfahren wie Maschinelles Lernen (siehe Anmerkung | ||
129 | 2) setzen, haben Burrows’ Delta und das Gute-Wörter-Verfahren den Vorteil, dass die | ||
130 | Berechnungsgrundlage transparent nachvollzogen werden kann. Zudem lässt sich überprüfen, | ||
131 | welche Wortformen zur Textsortenunterscheidung besonders gut beitragen (siehe Anhang, | ||
132 | Tabelle 15). | ||
101 | 133 | ||
103 | 135 | ||
104 | [ | 136 | [5]Verwendet wurden Texte, die im Internet frei verfügbar sind. Die meisten Texte |
105 | entstammen dem Textgrid-Repository. Die Texte wurden dann als Abenteuerroman, | 137 | entstammen dem Textgrid-Repository. Die Texte wurden dann als Abenteuerroman, |
107 | literaturgeschichtlichen Darstellung oder in einem Forschungsbeitrag eine | 139 | literaturgeschichtlichen Darstellung oder in einem Forschungsbeitrag eine |
108 | einschlägige Bezeichnung vorgefunden wurde. | 140 | einschlägige Bezeichnung vorgefunden wurde.[10] |
109 | [ | 141 | [6]Während der Einfluss des Übersetzersignals noch weniger gut erforscht ist,[11] kann das Autorsignal als ein |
110 | starkes stilometrisches Signal gelten.[ | 142 | starkes stilometrisches Signal gelten.[12] |
111 | Falls beispielsweise bei der Untersuchung von Romansubgenres zahlreiche Texte von | 143 | Falls beispielsweise bei der Untersuchung von Romansubgenres zahlreiche Texte von |
112 | Karl May im Korpus vorhanden sind, ist denkbar, dass die Erkennung des Subgenres | 144 | Karl May im Korpus vorhanden sind, ist denkbar, dass die Erkennung des Subgenres |
113 | Abenteuerroman durch das Autorsignal von Karl May positiv beeinflusst wird | 145 | Abenteuerroman durch das Autorsignal von Karl May positiv beeinflusst wird – bei |
114 | nicht wenigen Autor*innen ist eine gewisse Präferenz für eine oder wenige Gattungen | 146 | nicht wenigen Autor*innen ist eine gewisse Präferenz für eine oder wenige Gattungen |
117 | zusammenclustern, obwohl sie verschiedenen Gattungen zugeschrieben werden. Hettinger | 149 | zusammenclustern, obwohl sie verschiedenen Gattungen zugeschrieben werden. Hettinger |
118 | et | 150 | et al. berichten von einem Sinken der Erkennungsleistung, wenn man Autorduplikate |
119 | aus | 151 | aus |
120 | dem zuvor examinierten Korpus herausnimmt.[ | 152 | dem zuvor examinierten Korpus herausnimmt.[13] |
121 | [ | 153 | [7]Ein Problem bei der Korpus-Zusammenstellung sind Gattungsinterferenzen und mehrfache |
122 | Labels: So ist Wilhelm Raabes Abu Telfan oder Die Heimkehr vom Mondgebirge sowohl als Entwicklungsroman, Gesellschaftsroman, Abenteuerroman, | 154 | Labels: So ist Wilhelm Raabes Abu Telfan oder Die Heimkehr vom Mondgebirge sowohl als Entwicklungsroman, Gesellschaftsroman, Abenteuerroman, |
123 | Bildungsroman | 155 | Bildungsroman als auch Zeitroman eingestuft worden. Rolf Selbmann etwa bespricht |
124 | einige offenbar als prototypisch verstandene Bildungsromane unter der Überschrift | 156 | einige offenbar als prototypisch verstandene Bildungsromane unter der Überschrift |
125 | »Zwischen Individualroman und Gesellschaftsroman«[ | 157 | »Zwischen Individualroman und Gesellschaftsroman«[14]; andernorts beruft sich |
126 | Selbmann auf Benno von Wiese, der »die Epigonen [Immermann] zugleich als | 158 | Selbmann auf Benno von Wiese, der »die Epigonen [Immermann] zugleich als |
127 | ›Entwicklungsroman‹, als ›Abenteuerroman‹, als ›modernen Roman‹, wie auch als | 159 | ›Entwicklungsroman‹, als ›Abenteuerroman‹, als ›modernen Roman‹, wie auch als |
128 | ›gesellschaftlichen Zeitroman‹« versteht.[ | 160 | ›gesellschaftlichen Zeitroman‹« versteht.[15] |
129 | [ | 161 | [8]Bei der Korpus-Erstellung wurden Texte vermieden, die beispielsweise sowohl als |
130 | Gesellschaftsroman als auch als Bildungsroman bezeichnet wurden, wodurch sich die | 162 | Gesellschaftsroman als auch als Bildungsroman bezeichnet wurden, wodurch sich die |
137 | können. | 169 | können. |
138 | [ | 170 | [9]Für die Evaluierung des Gute-Wörter-Verfahrens wurden zwei überschneidungsfreie |
139 | Teilkorpora verwendet: Die 50 Texte der Ermittlungsgruppe, auf deren Grundlage die | 171 | Teilkorpora verwendet: Die 50 Texte der Ermittlungsgruppe, auf deren Grundlage die |
141 | (ebenfalls 50 Texte), die die Qualität der Gattungserkennung erfasst. | 173 | (ebenfalls 50 Texte), die die Qualität der Gattungserkennung erfasst. |
142 | [ | 174 | [10]Autorduplikate im Korpus haben sich zwar nicht ganz vermeiden lassen, aber es konnten |
143 | doch Vorkehrungen getroffen werden, dass Autorduplikate weder bei der Berechnung der | 175 | doch Vorkehrungen getroffen werden, dass Autorduplikate weder bei der Berechnung der |
152 | 184 | ||
153 | [ | 185 | [11]Im Vorfeld der Tests wurden einige Präprocessing-Schritte unternommen. Bei den Dramen |
154 | habe ich die Regieanweisungen und die Sprecher*innenangaben entfernt. Die | 186 | habe ich die Regieanweisungen und die Sprecher*innenangaben entfernt. Die |
156 | mit Ausnahme der deutschen Umlaute wurden vereinheitlicht, Groß- in Kleinbuchstaben | 188 | mit Ausnahme der deutschen Umlaute wurden vereinheitlicht, Groß- in Kleinbuchstaben |
157 | konvertiert, Zahlen eliminiert. Weiterhin wurden die ersten 10% der Token entfernt. | 189 | konvertiert, Zahlen eliminiert. Weiterhin wurden die ersten 10 % der Token entfernt – mit diesem verbreiteten Verfahren werden paratextuelle Informationen und |
158 | 190 | Besonderheiten am Textanfang beseitigt. | |
159 | 3. Gute Wörter berechnen – Ermittlungsgruppe | 191 | |
160 | 192 | 3. Gute Wörter berechnen – Ermittlungsgruppe | |
161 | [10]Das Verfahren zur Ermittlung der Guten Wörter ist ausführlich dokumentiert.[11] Für das | 193 | |
194 | [12]Das Verfahren zur Ermittlung der Guten Wörter ist ausführlich dokumentiert.[16] Für das | ||
162 | Setting ist elementar, dass ein Text als Ratetext verwendet wird und gegen ein | 195 | Setting ist elementar, dass ein Text als Ratetext verwendet wird und gegen ein |
163 | Vergleichskorpus mit meist 15 bis 30 Distraktortexten getestet | 196 | Vergleichskorpus mit meist 15 bis 30 Distraktortexten getestet |
164 | wird. Das Vergleichskorpus enthält jedoch auch einen Vergleichstext der Zielklasse | 197 | wird. Das Vergleichskorpus enthält jedoch auch einen Vergleichstext der Zielklasse – |
165 | – | 198 | bei Autorschaftsfragen ist also ein Text von der Autorin / dem Autor im Vergleichskorpus, |
166 | bei Autorschaftsfragen ist also ein Text von dem*der Autor*in im Vergleichskorpus, | 199 | von der / dem auch der Ratetext stammt; bei Gattungsfragen ein Vergleichstext der |
167 | von dem*der auch der Ratetext stammt; bei Gattungsfragen ein Vergleichstext der | ||
168 | gleichen Gattung. | 200 | gleichen Gattung. |
169 | [ | 201 | [13]Wie bei Burrows’ Delta üblich, wird für jedes Wort der Most-Frequent-Words (MFWs) die relative Häufigkeit gezählt, |
170 | Standardabweichung und Z-Werte berechnet und sodann die | 202 | Standardabweichung und Z-Werte berechnet und sodann die |
177 | Störfaktor für die Erkennung der Zielklasse. | 209 | Störfaktor für die Erkennung der Zielklasse. |
178 | [ | 210 | [14]In einem Setting mit nur einem Distraktortext und zwei Texten der gleichen Klasse |
179 | ist | 211 | ist |
185 | Autorschaftserkennung erbringen, jedoch auch so viele False-Positives produzieren, dass dieses Parameterset problematisch | 217 | Autorschaftserkennung erbringen, jedoch auch so viele False-Positives produzieren, dass dieses Parameterset problematisch |
186 | ist.[ | 218 | ist.[17] |
187 | [ | 219 | [15]Verwendet wird für jede Textsorte nun eine Liste mit den Wortformen der |
188 | durchschnittlich höchsten Level-2-Differenzen von allen Ratetexten zu allen | 220 | durchschnittlich höchsten Level-2-Differenzen von allen Ratetexten zu allen |
203 | fünf textsortenspezifische Listen mit Guten Wörtern an. | 235 | fünf textsortenspezifische Listen mit Guten Wörtern an. |
204 | [ | 236 | [16]Im Distraktorkorpus befinden sich für jede der vier Textsorten der Nicht-Zielklasse |
205 | jeweils die Ermittlungsgruppentexte mit Nummern 01–05. Da für die wenigen | 237 | jeweils die Ermittlungsgruppentexte mit Nummern 01–05. Da für die wenigen |
207 | ist | 239 | ist |
208 | bei Bildung der Gute-Wörter-Listen kein Autoduplikat im Spiel.[ | 240 | bei Bildung der Gute-Wörter-Listen kein Autoduplikat im Spiel.[18] |
209 | [ | 241 | [17]Zudem soll vermieden werden, dass Wortformen, die in den Ratetexten – also innerhalb |
210 | der Zielgattung | 242 | der Zielgattung – recht selten vorkommen, berücksichtigt werden. Damit eine Wortform |
211 | bei der Bildung der Liste der Guten Wörter berücksichtigt wird, muss sie in | 243 | bei der Bildung der Liste der Guten Wörter berücksichtigt wird, muss sie in |
215 | geeigneten Parameter handelt, wurde in Prätests mit kleinem Korpus und niedriger | 247 | geeigneten Parameter handelt, wurde in Prätests mit kleinem Korpus und niedriger |
216 | Iterationszahl ermittelt.[ | 248 | Iterationszahl ermittelt.[19] |
217 | 249 | ||
218 | 4. Evaluierung | 250 | 4. Evaluierung – Kontrollgruppe |
219 | 251 | ||
220 | [ | 252 | [22]Die fünf Listen der Guten Wörter werden in vier textsortenbezogenen Kombinationen |
221 | mit | 253 | mit |
223 | 255 | ||
224 | Test A) Fünf Textsorten: ABE, BIL, GES, KOM, TRA[ | 256 | Test A) Fünf Textsorten: ABE, BIL, GES, KOM, TRA[20] |
225 | 257 | ||
229 | 261 | ||
230 | [ | 262 | [23]Da die Unterscheidung von Bildungs- und Gesellschaftsroman aufgrund der thematischen |
231 | Nähe beider Subgenres eine besondere Herausforderung darstellt, ist für die | 263 | Nähe beider Subgenres eine besondere Herausforderung darstellt, ist für die |
232 | Testreihen B und C die beste Unterscheidungsleistung zu erwarten. | 264 | Testreihen B und C die beste Unterscheidungsleistung zu erwarten. |
233 | [ | 265 | [24]Für die Testreihen A und D wird angelehnt an Studien zu mittelhochdeutschen |
234 | Texten[ | 266 | Texten[21] zunächst ein |
235 | reiner Erkennungsquotentest mit fünf Vergleichstexten der | 267 | reiner Erkennungsquotentest mit fünf Vergleichstexten der |
236 | Zielklasse durchgeführt; für alle vier Testreihen wird ein ARI-Test (Adjusted Rand Index) durchgeführt, bei dem zusätzlich auch die | 268 | Zielklasse durchgeführt; für alle vier Testreihen wird ein ARI-Test (Adjusted Rand Index) durchgeführt, bei dem zusätzlich auch die |
237 | Erkennungsquoten (Recall), False-Positives und F1-Werte ausgegeben werden | 269 | Erkennungsquoten (Recall), False-Positives und F1-Werte ausgegeben werden – zum Setting siehe unten. |
238 | [ | 270 | [25]Die kürzeste Liste der Guten Wörter, die alle Wortformen mit einer Level-2-Differenz |
239 | von >0,2 enthält, umfasst bei den Komödien 495 Wortformen, die längste Liste bei | 271 | von >0,2 enthält, umfasst bei den Komödien 495 Wortformen, die längste Liste bei |
244 | 300 und 400 MFWs. Wenn die Guten Wörter nicht in ausreichend vielen Texten im | 276 | 300 und 400 MFWs. Wenn die Guten Wörter nicht in ausreichend vielen Texten im |
245 | aktuellen Test vorhanden sind,[ | 277 | aktuellen Test vorhanden sind,[22] wird das Gute Wort nicht verwendet. Wenn dadurch |
246 | nicht mehr ausreichend viele Gute Wörter vorhanden sind, wird die MFW-Liste im | 278 | nicht mehr ausreichend viele Gute Wörter vorhanden sind, wird die MFW-Liste im |
249 | bevorzugten Verwendung der Guten Wörter die Rede. | 281 | bevorzugten Verwendung der Guten Wörter die Rede. |
250 | [ | 282 | [26]Näherungsweise bildet ein Test mit 200 MFWs einen Level-2-Differenzen-Mittelwert |
251 | >0,4 und ein Test mit 200 MFWs einen Level-2-Differenzen-Mittelwert >0,2 ab. In | 283 | >0,4 und ein Test mit 200 MFWs einen Level-2-Differenzen-Mittelwert >0,2 ab. In |
252 | der Liste für die Gesellschaftsromane – sie liegt hinsichtlich ihrer Länge im | 284 | der Liste für die Gesellschaftsromane – sie liegt hinsichtlich ihrer Länge im |
253 | Mittelfeld – ist bei Wortform Nr. 300 eine Level-2-Differenz von 0,32 vorhanden. | 285 | Mittelfeld – ist bei Wortform Nr. 300 eine Level-2-Differenz von 0,32 vorhanden. |
254 | 4.1 Setting: Erkennungsquotentest mit fünf Vergleichstexten der | 286 | 4.1 Setting: Erkennungsquotentest mit fünf Vergleichstexten der Zielklasse |
255 | Zielklasse | 287 | |
256 | 288 | [27]Bei dieser Evaluierung kommen fast alle 50 Texte der Kontrollgruppe zum Einsatz. In | |
257 | [21]Bei dieser Evaluierung kommen fast alle 50 Texte der Kontrollgruppe zum Einsatz. In | ||
258 | das Vergleichskorpus werden jeweils fünf (von zehn in der Kontrollgruppe vorhandenen) | 289 | das Vergleichskorpus werden jeweils fünf (von zehn in der Kontrollgruppe vorhandenen) |
262 | Distraktortexte. | 293 | Distraktortexte. |
263 | [ | 294 | [28]Wenn ein Text als Distraktortext gelost wird, zu dem ein Autorenduplikat in den |
264 | Kontrollgruppentexten der Zielgattung vorhanden ist, dann wird dieser Distraktortext | 295 | Kontrollgruppentexten der Zielgattung vorhanden ist, dann wird dieser Distraktortext |
268 | Distraktortexte im Vergleichskorpus berücksichtigt werden, so dass auch hier | 299 | Distraktortexte im Vergleichskorpus berücksichtigt werden, so dass auch hier |
269 | Autorenduplikate das Gattungssignal nicht überlagern können.[ | 300 | Autorenduplikate das Gattungssignal nicht überlagern können.[23] |
270 | [ | 301 | [29]Bei der Zielgattung wird zunächst reihum jeweils einer der zehn Kontrollgruppentexten |
271 | als Vergleichstext ins Vergleichskorpus gegeben. Vier weitere Texte der Zielgattung | 302 | als Vergleichstext ins Vergleichskorpus gegeben. Vier weitere Texte der Zielgattung |
274 | 305 | ||
275 | [ | 306 | [30]Wenn dieser Test mit Volltexten (gekürzt auf 100.000 Wortformen) durchgeführt wird, |
276 | werden pro Gattung zehn Durchgänge absolviert, um die Zufälligkeiten bei der | 307 | werden pro Gattung zehn Durchgänge absolviert, um die Zufälligkeiten bei der |
281 | ist | 312 | ist |
282 | ›Ziehen ohne Zurücklegen‹. Wenn ein Text | 313 | ›Ziehen ohne Zurücklegen‹. Wenn ein Text – wie bei den kürzeren Komödien und |
283 | Tragödien | 314 | Tragödien – weniger als 11.000 Wortformen umfasst, gilt für diesen Text der Modus |
284 | ›Ziehen mit Zurücklegen‹. | 315 | ›Ziehen mit Zurücklegen‹. |
285 | [ | 316 | [31]Insgesamt befinden sich fünf Vergleichstexte der Zielgattung und 20 Distraktortexte |
286 | (bei Test A) bzw. zehn Distraktortexte (bei den Tests B–D) im Vergleichskorpus. Die | 317 | (bei Test A) bzw. zehn Distraktortexte (bei den Tests B–D) im Vergleichskorpus. Die |
287 | erwartete Erkennungsquote bei einer Zufallsverteilung liegt damit bei 20% (A) bzw. | 318 | erwartete Erkennungsquote bei einer Zufallsverteilung liegt damit bei 20 % (A) bzw. |
288 | bei 33% (B–D). | 319 | bei 33 % (B–D). |
289 | [ | 320 | [32]Da in der vorliegenden Studie überprüft werden soll, ob und inwieweit die bevorzugte |
290 | Berücksichtigung der Guten Wörter zu einer verbesserten Textsortenerkennung führt, | 321 | Berücksichtigung der Guten Wörter zu einer verbesserten Textsortenerkennung führt, |
298 | Analyseverfahren und Auswertungsmethoden. Der Umgang mit Autorduplikaten ist ebenso | 329 | Analyseverfahren und Auswertungsmethoden. Der Umgang mit Autorduplikaten ist ebenso |
299 | wenig einheitlich wie der Umgang mit mehrfachen Gattungslabels.[ | 330 | wenig einheitlich wie der Umgang mit mehrfachen Gattungslabels.[24] |
300 | 331 | ||
302 | 333 | ||
303 | [ | 334 | [33]Bei diesem Testverfahren gebe ich jeweils alle zehn Kontrollgruppentexte der |
304 | Nicht-Zielgattungen als Distraktortexte ins Korpus | 335 | Nicht-Zielgattungen als Distraktortexte ins Korpus – es sei denn, es befindet |
305 | sich ein Autorenduplikat zu einem Text der Zielgattung darunter; in diesem Fall wird | 336 | sich ein Autorenduplikat zu einem Text der Zielgattung darunter; in diesem Fall wird |
316 | Delta-Abstand. | 347 | Delta-Abstand. |
317 | [ | 348 | [34]Durchgeführt werden diese Tests ohne weitere Optimierungsmaßnahmen wie das |
318 | Eliminieren von Pronomina, jedoch mit Berücksichtigung der jeweiligen | 349 | Eliminieren von Pronomina, jedoch mit Berücksichtigung der jeweiligen |
319 | Gute-Wörter-Liste und mit Z-Wert-Begrenzung auf 1,64.[ | 350 | Gute-Wörter-Liste und mit Z-Wert-Begrenzung auf 1,64.[25] Die Z-Wert-Begrenzung |
320 | wird aufgrund der Annahme verwendet, dass textspezifisches Vokabular, das nicht | 351 | wird aufgrund der Annahme verwendet, dass textspezifisches Vokabular, das nicht |
323 | beruhen, weniger stark auf den Delta-Wert durchschlagen. | 354 | beruhen, weniger stark auf den Delta-Wert durchschlagen. |
324 | [ | 355 | [35]Bei der Auswertung ist zu bedenken, dass der ARI nicht direkt mit einer herkömmlichen |
325 | Erkennungsquote zu vergleichen ist. Bei dem oben beschriebenen Setting würde eine | 356 | Erkennungsquote zu vergleichen ist. Bei dem oben beschriebenen Setting würde eine |
326 | Zufallsverteilung nicht eine Erkennungsquote von 0%, sondern von 20% bzw. 33% | 357 | Zufallsverteilung nicht eine Erkennungsquote von 0%, sondern von 20 % bzw. 33% |
327 | ergeben. Eine Zufallsverteilung beim ARI-Wert ergibt den Wert 0; Clusterergebnisse, | 358 | ergeben. Eine Zufallsverteilung beim ARI-Wert ergibt den Wert 0; Clusterergebnisse, |
331 | abweichenden Wert für die Zufallsverteilung bedingt. Dieser Effekt verringert sich, | 362 | abweichenden Wert für die Zufallsverteilung bedingt. Dieser Effekt verringert sich, |
332 | je mehr die Erkennungsquote gegen 100% und der ARI-Wert gegen 1 tendiert. | 363 | je mehr die Erkennungsquote gegen 100 % und der ARI-Wert gegen 1 tendiert. |
333 | [ | 364 | [36]Neben dem ARI wird hier auch Erkennungsquote (Recall) und False-Positives-Quote |
334 | notiert, auf deren Basis die Precision ermittelt und der F1-Score für die | 365 | notiert, auf deren Basis die Precision ermittelt und der F1-Score für die |
337 | herangezogen; für die Nicht-Zielgattungstexte wird also keine Erkennungsquote | 368 | herangezogen; für die Nicht-Zielgattungstexte wird also keine Erkennungsquote |
338 | ermittelt | 369 | ermittelt – deren Clusterverhalten geht ohnehin in den ARI ein. Bei der |
339 | False-Positives-Quote werden die Nicht-Zielgattungstexte berücksichtigt, die zur | 370 | False-Positives-Quote werden die Nicht-Zielgattungstexte berücksichtigt, die zur |
340 | Zielgattung den niedrigsten Delta-Abstand aufweisen. Da hier ein Zielklassentext | 371 | Zielgattung den niedrigsten Delta-Abstand aufweisen. Da hier ein Zielklassentext |
341 | gegen ein Korpus mit 9 Zielklassentexten und 38–40[ | 372 | gegen ein Korpus mit 9 Zielklassentexten und 38–40[26] Distraktortexten (A) |
342 | bzw. 18–20 Distraktortexten (B–D) getestet wird, würde eine Zufallsverteilung bei | 373 | bzw. 18–20 Distraktortexten (B–D) getestet wird, würde eine Zufallsverteilung bei |
343 | ca. | 374 | ca. |
344 | 18,4% (A) bzw. 31% (B–D) liegen. Die F1-Werte liegen durchwegs deutlich über den | 375 | 18,4 % (A) bzw. 31 % (B–D) liegen. Die F1-Werte liegen durchwegs deutlich über den |
345 | ARI-Werten; bei letzteren gehen auch Anzahl und Clusteringverhalten der | 376 | ARI-Werten; bei letzteren gehen auch Anzahl und Clusteringverhalten der |
360 | 391 | ||
361 | | 392 | 200a |
362 | | 393 | 300a |
363 | | 394 | 400a |
364 | 395 | ||
365 | 396 | ||
366 | 397 | ||
367 | | 398 | Gutec & ZWBd |
368 | 57, | 399 | 57,3b |
369 | 63,4 | 400 | 63,4 |
385 | 416 | ||
386 | | 417 | Basise |
387 | 45,4 | 418 | 45,4 |
424 | 455 | ||
456 | a Anzahl der MFWs, die verwendet werdenb Erkennungsquote in %c Gute: Mit Gute-Wörter-Listed ZWB: Mit Z-Wert-Begrenzung auf 1,64e Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzung | ||
457 | |||
458 | |||
459 | |||
425 | Tab. 1: Test A1, Erkennungsquotentest mit fünf Vergleichstexten der Zielklasse, Test A1, | 460 | Tab. 1: Test A1, Erkennungsquotentest mit fünf Vergleichstexten der Zielklasse, Test A1, |
426 | ABE, BIL, GES, KOM, TRA. Beim Bag-of-Words-Test mit 10.000 MFWs werden die Texte 200 | 461 | ABE, BIL, GES, KOM, TRA. Beim Bag-of-Words-Test mit 10.000 MFWs werden die Texte 200 |
427 | verschiedenen Bag-Sets pro Gattung zugelost und Mittelwerte gebildet. Abkürzungen: | 462 | verschiedenen Bag-Sets pro Gattung zugelost und Mittelwerte gebildet. |
428 | Gute: Mit Gute-Wörter-Liste / ZWB: Mit Z-Wert-Begrenzung auf 1.64 / Basis: Ohne Gute-Wörter-Liste | 463 | [37]Die Guten Wörter führen zu einer deutlichen Verbesserung der Erkennungsquote. Der |
429 | und ohne Z-Wert-Begrenzung. | ||
430 | [31]Die Guten Wörter führen zu einer deutlichen Verbesserung der Erkennungsquote. Der | ||
431 | Verbesserungseffekt ist am stärksten ausgeprägt beim Bag-of-Words-Verfahren mit | 464 | Verbesserungseffekt ist am stärksten ausgeprägt beim Bag-of-Words-Verfahren mit |
433 | Z-Wert-Begrenzung erreicht. Im Vergleich zu Autorschaftsstudien liegen die Quoten | 466 | Z-Wert-Begrenzung erreicht. Im Vergleich zu Autorschaftsstudien liegen die Quoten |
434 | deutlich niedriger | 467 | deutlich niedriger – dort werden Werte >90 % erreicht, selbst wenn sich nur ein |
435 | Text | 468 | Text der Zielautorin / des Zielautors im Vergleichskorpus befindet.[27] |
436 | 469 | ||
443 | Volltexte | 476 | Volltexte |
444 | | 477 | 200a |
445 | | 478 | 300a |
446 | | 479 | 400a |
447 | 480 | ||
448 | 481 | ||
449 | | 482 | ARIc Guted & ZWBe |
450 | 0, | 483 | 0,34b |
451 | 0,28 | 484 | 0,28 |
466 | 499 | ||
467 | ARI | 500 | ARI Basisf |
468 | 0,25 | 501 | 0,25 |
478 | 511 | ||
479 | | 512 | F1g Gute & ZWB |
480 | 0,68 | 513 | 0,68 |
508 | 541 | ||
509 | | 542 | EQh Gute & ZWB |
510 | 58 | 543 | 58 |
538 | 571 | ||
539 | | 572 | FPi Gute & ZWB |
540 | 12,4 | 573 | 12,4 |
568 | 601 | ||
569 | | 602 | Diffj ARI |
570 | 0,09 | 603 | 0,09 |
586 | 619 | ||
587 | Tab. 2: Test A2, ARI-Test mit 4 × 10 Distraktortexten, ABE, BIL, GES, KOM, TRA. Abkürzungen: | 620 | a Anzahl der MFWs, die verwendet werdenb Erkennungsquote in %c ARI: Adjusted Rand Indexd Gute: Mit Gute-Wörter-Liste e ZWB: Mit Z-Wert-Begrenzung auf 1,64f Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzungg F1: Precision und Recall kombiniert h EQ: Erkennungsquote in % i FP: False-Positives-Quote in % (niedriger ist besser)j Diff: Differenzen zwischen Werten mit Gute-Wörter-Liste und mit Z-Wert-Begrenzung |
588 | ARI: Adjusted Rand Index / F1: Precision und Recall kombiniert / Gute: Mit Gute-Wörter-Liste | 621 | zum Basiswert |
589 | / ZWB: Mit Z-Wert-Begrenzung auf 1.64 / EQ: Erkennungsquote in % / FP: False-Positives-Quote | 622 | |
590 | in % (niedriger ist besser) / Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzung | 623 | |
591 | / Diff: Differenzen zwischen Werten mit Gute-Wörter-Liste und mit Z-Wert-Begrenzung | 624 | |
592 | zum Basiswert. | 625 | |
593 | [32]Die besten ARI-Werte finden sich bei der Kombination der bevorzugten Verwendung von | 626 | Tab. 2: Test A2, ARI-Test mit 4 × 10 Distraktortexten, ABE, BIL, GES, KOM, TRA. |
627 | [38]Die besten ARI-Werte finden sich bei der Kombination der bevorzugten Verwendung von | ||
594 | Guten Wörtern mit der Z-Wert-Begrenzung bei 200 MFWs sowie bei den Werten mit | 628 | Guten Wörtern mit der Z-Wert-Begrenzung bei 200 MFWs sowie bei den Werten mit |
602 | begünstigt ein größerer Vektor eine bessere Erkennung. | 636 | begünstigt ein größerer Vektor eine bessere Erkennung. |
603 | [ | 637 | [39]Hier ein Blick in die Einzelwerte für die Gattungen bei 200 MFWs mit Guten Wörtern |
604 | und Z-Wert-Begrenzung: | 638 | und Z-Wert-Begrenzung: |
609 | 200 MFWs | 643 | 200 MFWs |
610 | | 644 | ARIa |
611 | | 645 | F1b |
612 | | 646 | EQc |
613 | | 647 | FPd |
614 | 648 | ||
650 | 684 | ||
685 | a ARI: Adjusted Rand Indexb F1: Precision und Recall kombiniertc EQ: Erkennungsquote in %d FP: False-Positives-Quote in % (niedriger ist besser) | ||
686 | |||
687 | |||
688 | |||
651 | Tab. 3: Test A2, ARI-Test mit 4 × 10 Distraktortexten, Einzelwerte, ABE, | 689 | Tab. 3: Test A2, ARI-Test mit 4 × 10 Distraktortexten, Einzelwerte, ABE, |
652 | BIL, GES, KOM, TRA. | 690 | BIL, GES, KOM, TRA. |
653 | [ | 691 | [40]Der Gesellschaftsroman erweist sich als problematisch – mit niedriger Erkennungsquote |
654 | und hoher False-Positives-Rate. Auch Bildungsromane und Tragödien zeigen eine hohe | 692 | und hoher False-Positives-Rate. Auch Bildungsromane und Tragödien zeigen eine hohe |
655 | False-Positives-Rate. Überraschend niedrig ist die False-Positives-Rate beim | 693 | False-Positives-Rate. Überraschend niedrig ist die False-Positives-Rate beim |
656 | Abenteuerroman, der insgesamt recht gut erkannt werden kann.[ | 694 | Abenteuerroman, der insgesamt recht gut erkannt werden kann.[28] |
657 | [ | 695 | [41]Die Bag-of-Words-Technik (hier mit 10.000 Wortformen) führt zu einer Verbesserung |
658 | der | 696 | der |
671 | 709 | ||
672 | | 710 | ARIa |
673 | 0,28 | 711 | 0,28 |
677 | 715 | ||
678 | | 716 | F1b |
679 | 0,64 | 717 | 0,64 |
683 | 721 | ||
684 | | 722 | EQc |
685 | 53,3 | 723 | 53,3 |
689 | 727 | ||
690 | | 728 | FPd |
691 | 13,9 | 729 | 13,9 |
693 | 15,7 | 731 | 15,7 |
732 | |||
733 | |||
734 | a ARI: Adjusted Rand Indexb F1: Precision und Recall kombiniertc EQ: Erkennungsquote in %d FP: False-Positives-Quote in % (niedriger ist besser) | ||
735 | |||
736 | |||
694 | 737 | ||
710 | 753 | ||
711 | | 754 | ARIa Guteb & ZWBc |
712 | 0,31 | 755 | 0,31 |
728 | 771 | ||
729 | ARI | 772 | ARI Basisd |
730 | 0,19 | 773 | 0,19 |
740 | 783 | ||
741 | | 784 | F1e Gute & ZWB |
742 | 0,76 | 785 | 0,76 |
770 | 813 | ||
771 | | 814 | EQf Gute & ZWB |
772 | 74,00 | 815 | 74,00 |
800 | 843 | ||
801 | | 844 | FPg Gute & ZWB |
802 | 20,20 | 845 | 20,20 |
830 | 873 | ||
831 | | 874 | Diffh ARI |
832 | 0,12 | 875 | 0,12 |
848 | 891 | ||
892 | a ARI: Adjusted Rand Indexb Gute: Mit Gute-Wörter-Listec ZWB: Mit Z-Wert-Begrenzung auf 1,64d Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzunge F1: Precision und Recall kombiniertf EQ: Erkennungsquote in %g FP: False-Positives-Quote in % (niedriger ist besser)h Diff: Differenzen zwischen Werten mit Gute-Wörter-Liste und mit Z-Wert-Begrenzung | ||
893 | zum Basiswert | ||
894 | |||
895 | |||
896 | |||
897 | |||
849 | Tab. 5: Test A3, ARI-Test mit 4 × 5 Distraktortexten, ABE, BIL, GES, KOM, | 898 | Tab. 5: Test A3, ARI-Test mit 4 × 5 Distraktortexten, ABE, BIL, GES, KOM, |
850 | TRA. | 899 | TRA. |
851 | [ | 900 | [42]Gegenüber dem Test mit 4 × 10 Distraktortexten geht eine Verbesserung der |
852 | Erkennungsquote mit einer Verschlechterung der False-Positives-Quote einher. Bei 200 | 901 | Erkennungsquote mit einer Verschlechterung der False-Positives-Quote einher. Bei 200 |
867 | 916 | ||
868 | | 917 | ARIa Guteb & ZWBc |
869 | 0,62 | 918 | 0,62 |
885 | 934 | ||
886 | ARI | 935 | ARI Basisd |
887 | 0,5 | 936 | 0,5 |
897 | 946 | ||
898 | | 947 | F1e Gute & ZWB |
899 | 0,88 | 948 | 0,88 |
927 | 976 | ||
928 | | 977 | EQf Gute & ZWB |
929 | 86,7 | 978 | 86,7 |
957 | 1006 | ||
958 | | 1007 | FPg Gute & ZWB |
959 | 10,0 | 1008 | 10,0 |
987 | 1036 | ||
988 | | 1037 | Diffh ARI |
989 | 0,12 | 1038 | 0,12 |
1005 | 1054 | ||
1055 | a ARI: Adjusted Rand Indexb Gute: Mit Gute-Wörter-Listec ZWB: Mit Z-Wert-Begrenzung auf 1,64d Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzunge F1: Precision und Recall kombiniertf EQ: Erkennungsquote in %g FP: False-Positives-Quote in % (niedriger ist besser)h Diff: Differenzen zwischen Werten mit Gute-Wörter-Liste und mit Z-Wert-Begrenzung | ||
1056 | zum Basiswert | ||
1057 | |||
1058 | |||
1059 | |||
1006 | Tab. 6: Test B, ARI-Test mit 2 × 10 Distraktortexten, ABE, BIL, KOM. | 1060 | Tab. 6: Test B, ARI-Test mit 2 × 10 Distraktortexten, ABE, BIL, KOM. |
1007 | [ | 1061 | [43]Bei diesem Test bleibt der schwer unterscheidbare Gesellschaftsroman außen vor. Die |
1008 | ARI-Werte verbessern sich in der Zeile ›Gute & ZWB‹ auf ein ordentliches Niveau, | 1062 | ARI-Werte verbessern sich in der Zeile ›Gute & ZWB‹ auf ein ordentliches Niveau, |
1016 | 1070 | ||
1017 | [ | 1071 | [44]Hier wird unter den Romansubgenres nur der besser unterscheidbare Abenteuerroman |
1018 | einbezogen. Test C ist der einzige Test in dieser Studie, in der nicht verschiedene | 1072 | einbezogen. Test C ist der einzige Test in dieser Studie, in der nicht verschiedene |
1019 | Romansubgenres beteiligt sind | 1073 | Romansubgenres beteiligt sind – hier kann man am ehesten von drei verschiedenen |
1020 | Gattungen sprechen. | 1074 | Gattungen sprechen. |
1030 | 1084 | ||
1031 | | 1085 | ARIa Guteb & ZWBc |
1032 | 0,45 | 1086 | 0,45 |
1048 | 1102 | ||
1049 | ARI | 1103 | ARI Basisd |
1050 | 0,45 | 1104 | 0,45 |
1060 | 1114 | ||
1061 | | 1115 | F1e Gute & ZWB |
1062 | 0,78 | 1116 | 0,78 |
1090 | 1144 | ||
1091 | | 1145 | EQf Gute & ZWB |
1092 | 73,33 | 1146 | 73,33 |
1120 | 1174 | ||
1121 | | 1175 | FPg Gute & ZWB |
1122 | 13,68 | 1176 | 13,68 |
1150 | 1204 | ||
1151 | | 1205 | Diffh ARI |
1152 | 0,00 | 1206 | 0,00 |
1168 | 1222 | ||
1223 | a ARI: Adjusted Rand Indexb Gute: Mit Gute-Wörter-Listec ZWB: Mit Z-Wert-Begrenzung auf 1,64d Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzunge F1: Precision und Recall kombiniertf EQ: Erkennungsquote in %g FP: False-Positives-Quote in % (niedriger ist besser)h Diff: Differenzen zwischen Werten mit Gute-Wörter-Liste und mit Z-Wert-Begrenzung | ||
1224 | zum Basiswert | ||
1225 | |||
1226 | |||
1227 | |||
1169 | Tab. 7: Test C, ARI-Test mit 2 × 10 Distraktortexten, ABE, KOM, TRA. | 1228 | Tab. 7: Test C, ARI-Test mit 2 × 10 Distraktortexten, ABE, KOM, TRA. |
1170 | [ | 1229 | [45]Bei den ARI-Werten wird hier ein Niveau erreicht, das zwischen dem ordentlichen |
1171 | Niveau der Testreihe B (ABE, BIL, KOM) und dem mäßigen Niveau der Testreihe A liegt. | 1230 | Niveau der Testreihe B (ABE, BIL, KOM) und dem mäßigen Niveau der Testreihe A liegt. |
1174 | Erkennungsquote. | 1233 | Erkennungsquote. |
1175 | [ | 1234 | [46]Auch hier setzen sich die Durchschnittswerte aus stark schwankenden Einzelwerten |
1176 | zusammen: Während der Abenteuerroman sehr gut clustert, sind die Daten bei den | 1235 | zusammen: Während der Abenteuerroman sehr gut clustert, sind die Daten bei den |
1205 | 1264 | ||
1265 | |||
1206 | Tab. 8: Test C, ARI-Test mit 2 × 10 Distraktortexten, Einzelwerte, ABE, | 1266 | Tab. 8: Test C, ARI-Test mit 2 × 10 Distraktortexten, Einzelwerte, ABE, |
1210 | 1270 | ||
1211 | [ | 1271 | [47]Anders als in den Testreihen A–C werden hier keine verschiedenen Gattungen, sondern |
1212 | lediglich Romansubgenres untersucht. Dies hat den Vorteil, dass dabei die teils | 1272 | lediglich Romansubgenres untersucht. Dies hat den Vorteil, dass dabei die teils |
1229 | 1289 | ||
1230 | | 1290 | Gutea & ZWBb |
1231 | 51,2 | 1291 | 51,2 |
1242 | 1302 | ||
1243 | | 1303 | Basisc |
1244 | 35,7 | 1304 | 35,7 |
1271 | 1331 | ||
1332 | a Gute: Mit Gute-Wörter-Listeb ZWB: Mit Z-Wert-Begrenzung auf 1,64c Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzung | ||
1333 | |||
1334 | |||
1335 | |||
1336 | |||
1272 | Tab. 9: Test D1, Erkennungsquotentest mit fünf Vergleichstexten der | 1337 | Tab. 9: Test D1, Erkennungsquotentest mit fünf Vergleichstexten der |
1273 | Zielklasse, ABE, BIL, GES. | 1338 | Zielklasse, ABE, BIL, GES. |
1274 | [ | 1339 | [48]Die Erkennungsquote mit den Optimierungstechniken ist beim Bag-of-Words-Verfahren |
1275 | etwas besser als mit Volltexten; bei Test A war | 1340 | etwas besser als mit Volltexten; bei Test A war |
1298 | 1363 | ||
1299 | | 1364 | ARIa Guteb & ZWBc |
1300 | 0,22 | 1365 | 0,22 |
1316 | 1381 | ||
1317 | ARI | 1382 | ARI Basisd |
1318 | 0,04 | 1383 | 0,04 |
1328 | 1393 | ||
1329 | | 1394 | F1e Gute & ZWB |
1330 | 0,63 | 1395 | 0,63 |
1358 | 1423 | ||
1359 | | 1424 | EQf Gute & ZWB |
1360 | 55 | 1425 | 55 |
1388 | 1453 | ||
1389 | | 1454 | FPg Gute & ZWB |
1390 | 18,29 | 1455 | 18,29 |
1418 | 1483 | ||
1419 | | 1484 | Diffh ARI |
1420 | 0,18 | 1485 | 0,18 |
1436 | 1501 | ||
1502 | a ARI: Adjusted Rand Indexb Gute: Mit Gute-Wörter-Listec ZWB: Mit Z-Wert-Begrenzung auf 1,64d Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzunge F1: Precision und Recall kombiniertf EQ: Erkennungsquote in %g FP: False-Positives-Quote in % (niedriger ist besser)h Diff: Differenzen zwischen Werten mit Gute-Wörter-Liste und mit Z-Wert-Begrenzung | ||
1503 | zum Basiswert | ||
1504 | |||
1505 | |||
1506 | |||
1507 | |||
1437 | Tab. 10: Test D2, ARI-Test mit 2 × 10 Distraktortexten, ABE, BIL, GES. | 1508 | Tab. 10: Test D2, ARI-Test mit 2 × 10 Distraktortexten, ABE, BIL, GES. |
1438 | [ | 1509 | [49]Wiederum ist, wie ein Blick in die Subgenre-Einzelwerte in der Folgetabelle zeigt, |
1439 | die Erkennung beim Abenteuerroman deutlich besser, das Clustering beim | 1510 | die Erkennung beim Abenteuerroman deutlich besser, das Clustering beim |
1449 | 200 MFWs | 1520 | 200 MFWs |
1450 | | 1521 | ARIa |
1451 | | 1522 | F1b |
1452 | | 1523 | EQc |
1453 | | 1524 | FPd |
1454 | 1525 | ||
1476 | 1547 | ||
1548 | a ARI: Adjusted Rand Indexb F1: Precision und Recall kombiniertc EQ: Erkennungsquote in %d FP: False-Positives-Quote in % (niedriger ist besser) | ||
1549 | |||
1550 | |||
1551 | |||
1552 | |||
1477 | Tab. 11: Test D2, ARI-Test mit 2 × 10 Distraktortexten, Einzelwerte, ABE, | 1553 | Tab. 11: Test D2, ARI-Test mit 2 × 10 Distraktortexten, Einzelwerte, ABE, |
1481 | 1557 | ||
1482 | [ | 1558 | [50]Die gleiche Tendenz auf noch schlechterem Niveau zeigt sich bei der Variante mit nur |
1483 | fünf (statt zehn) ausgelosten Distraktortexten je Nicht-Zielklasse: | 1559 | fünf (statt zehn) ausgelosten Distraktortexten je Nicht-Zielklasse: |
1493 | 1569 | ||
1494 | | 1570 | ARIa Guteb & ZWBc |
1495 | 0,06 | 1571 | 0,06 |
1511 | 1587 | ||
1512 | ARI | 1588 | ARI Basisd |
1513 | -0,01 | 1589 | -0,01 |
1523 | 1599 | ||
1524 | | 1600 | F1e Gute & ZWB |
1525 | 0,60 | 1601 | 0,60 |
1553 | 1629 | ||
1554 | | 1630 | EQf Gute & ZWB |
1555 | 59,00 | 1631 | 59,00 |
1583 | 1659 | ||
1584 | | 1660 | FPg Gute & ZWB |
1585 | 38,70 | 1661 | 38,70 |
1613 | 1689 | ||
1614 | | 1690 | Diffh ARI |
1615 | 0,07 | 1691 | 0,07 |
1631 | 1707 | ||
1708 | a ARI: Adjusted Rand Indexb Gute: Mit Gute-Wörter-Listec ZWB: Mit Z-Wert-Begrenzung auf 1,64d Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzunge F1: Precision und Recall kombiniertf EQ: Erkennungsquote in %g FP: False-Positives-Quote in % (niedriger ist besser)h Diff: Differenzen zwischen Werten mit Gute-Wörter-Liste und mit Z-Wert-Begrenzung | ||
1709 | zum Basiswert | ||
1710 | |||
1711 | |||
1712 | |||
1713 | |||
1632 | Tab. 12: Test D3, ARI-Test mit 2 × 5 Distraktortexten, ABE, BIL, GES. | 1714 | Tab. 12: Test D3, ARI-Test mit 2 × 5 Distraktortexten, ABE, BIL, GES. |
1633 | [ | 1715 | [51]Problematisch an diesem Setting ist die Kombination von zehn Distraktortexten mit |
1634 | neun Zielklassentexten, gegen die im Einzeltest ein Zielklassentext getestet wird. | 1716 | neun Zielklassentexten, gegen die im Einzeltest ein Zielklassentext getestet wird. |
1635 | Eine Zufallsverteilung würde eine Erkennungsquote von 31% ergeben. Die | 1717 | Eine Zufallsverteilung würde eine Erkennungsquote von 31 % ergeben. Die |
1636 | Erkennungsquoten müssten also deutlich höher liegen, um einen guten ARI-Wert zu | 1718 | Erkennungsquoten müssten also deutlich höher liegen, um einen guten ARI-Wert zu |
1643 | 1725 | ||
1644 | [ | 1726 | [52]Da die kürzeren Komödien und Tragödien hier unberücksichtigt bleiben, wird es |
1645 | möglich, einen größeren Bereich an MFWs in den Test einzubeziehen. In den übrigen | 1727 | möglich, einen größeren Bereich an MFWs in den Test einzubeziehen. In den übrigen |
1651 | 2.530 (GES) Wortformen. Bei der Evaluation werden nun 500–4.000 MFWs verwendet. | 1733 | 2.530 (GES) Wortformen. Bei der Evaluation werden nun 500–4.000 MFWs verwendet. |
1652 | [ | 1734 | [53]Neben den üblichen Tests (in der Folgetabelle von unten nach oben: ›Basis‹: ohne Gute |
1653 | Wörter, ohne Z-Wert-Begrenzung; ›ZWB 1,64‹: nur Z-Wert-Begrenzung, ohne Gute Wörter; | 1735 | Wörter, ohne Z-Wert-Begrenzung; ›ZWB 1,64‹: nur Z-Wert-Begrenzung, ohne Gute Wörter; |
1673 | 1755 | ||
1674 | | 1756 | ARIa Guteb & ZWBc 1,64 |
1675 | 0,19 | 1757 | 0,19 |
1684 | 1766 | ||
1685 | ARI | 1767 | ARI Gute & ZWB 1,2 |
1686 | 0,17 | 1768 | 0,17 |
1695 | 1777 | ||
1696 | ARI | 1778 | ARI Gute & ZWB 1,0 |
1697 | 0,14 | 1779 | 0,14 |
1706 | 1788 | ||
1707 | ARI | 1789 | ARI Gute & ZWBneg |
1708 | 0,17 | 1790 | 0,17 |
1739 | 1821 | ||
1740 | ARI | 1822 | ARI Basisd |
1741 | 0,08 | 1823 | 0,08 |
1761 | 1843 | ||
1762 | | 1844 | F1e Gute & ZWB 1,64 |
1763 | 0,68 | 1845 | 0,68 |
1772 | 1854 | ||
1773 | F1 | 1855 | F1 Gute & ZWB 1,2 |
1774 | 0,67 | 1856 | 0,67 |
1783 | 1865 | ||
1784 | F1 | 1866 | F1 Gute & ZWB 1,0 |
1785 | 0,66 | 1867 | 0,66 |
1794 | 1876 | ||
1795 | F1 | 1877 | F1 Gute & ZWBneg |
1796 | 0,70 | 1878 | 0,70 |
1849 | 1931 | ||
1850 | | 1932 | EQf Gute & ZWB 1,64 |
1851 | 66,67 | 1933 | 66,67 |
1860 | 1942 | ||
1861 | EQ | 1943 | EQ Gute & ZWB 1,2 |
1862 | 63,33 | 1944 | 63,33 |
1871 | 1953 | ||
1872 | EQ | 1954 | EQ Gute & ZWB 1,0 |
1873 | 63,33 | 1955 | 63,33 |
1882 | 1964 | ||
1883 | EQ | 1965 | EQ Gute & ZWBneg |
1884 | 70 | 1966 | 70 |
1937 | 2019 | ||
1938 | | 2020 | FPg Gute & ZWB 1,64 |
1939 | 29,74 | 2021 | 29,74 |
1948 | 2030 | ||
1949 | FP | 2031 | FP Gute & ZWB 1,2 |
1950 | 26,14 | 2032 | 26,14 |
1959 | 2041 | ||
1960 | FP | 2042 | FP Gute & ZWB 1,0 |
1961 | 27,81 | 2043 | 27,81 |
1970 | 2052 | ||
1971 | FP | 2053 | FP Gute & ZWBneg |
1972 | 31,32 | 2054 | 31,32 |
2014 | 2096 | ||
2097 | a ARI: Adjusted Rand Indexb Gute: Mit Gute-Wörter-Listec ZWB: Mit Z-Wert-Begrenzung auf 1,64d Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzunge F1: Precision und Recall kombiniertf EQ: Erkennungsquote in %g FP: False-Positives-Quote in % (niedriger ist besser) | ||
2098 | |||
2099 | |||
2100 | |||
2015 | Tab. 13: Test D4, ARI-Test mit 2 × 10 Distraktortexten und großem | 2101 | Tab. 13: Test D4, ARI-Test mit 2 × 10 Distraktortexten und großem |
2016 | MFW-Bereich, Volltexte, ABE, BIL, GES. | 2102 | MFW-Bereich, Volltexte, ABE, BIL, GES. |
2017 | [ | 2103 | [54]Bei den optimalen Parametern (Gute Wörter kombiniert mit Z-Wert-Begrenzung auf 1,0) |
2018 | werden sowohl bei ARI, F1-Score, Erkennungsquote und False-Positives die besten Werte | 2104 | werden sowohl bei ARI, F1-Score, Erkennungsquote und False-Positives die besten Werte |
2019 | erreicht. Der F1-Score verbessert sich gegenüber dem besten Wert in Testreihe D2 (0,67) nun auf 0,76. | 2105 | erreicht. Der F1-Score verbessert sich gegenüber dem besten Wert in Testreihe D2 (0,67) nun auf 0,76. |
2020 | [ | 2106 | [55]Für die optimalen Werte wurde noch ein Bag-of-Words-Tests durchgeführt mit |
2021 | Bag-of-Words mit je 20.000 Wortformen und 200 Iterationen je Einzelwert (Rechenzeit: | 2107 | Bag-of-Words mit je 20.000 Wortformen und 200 Iterationen je Einzelwert (Rechenzeit: |
2031 | 2117 | ||
2032 | | 2118 | ARIa Guteb & ZWBc 1,0 |
2033 | 0,14 | 2119 | 0,14 |
2036 | 2122 | ||
2037 | | 2123 | F1d Gute & ZWB 1,0 |
2038 | 0,66 | 2124 | 0,66 |
2041 | 2127 | ||
2042 | | 2128 | EQe Gute & ZWB 1,0 |
2043 | 64,7 | 2129 | 64,7 |
2046 | 2132 | ||
2047 | | 2133 | FPf Gute & ZWB 1,0 |
2048 | 31,01 | 2134 | 31,01 |
2051 | 2137 | ||
2138 | a ARI: Adjusted Rand Indexb Gute: Mit Gute-Wörter-Listec ZWB: Mit Z-Wert-Begrenzung auf 1,64d F1: Precision und Recall kombinierte EQ: Erkennungsquote in %f FP: False-Positives-Quote in % (niedriger ist besser) | ||
2139 | |||
2140 | |||
2141 | |||
2142 | |||
2052 | Tab. 14: Test D5, ARI-Test mit 2 × 10 Distraktortexten und großem | 2143 | Tab. 14: Test D5, ARI-Test mit 2 × 10 Distraktortexten und großem |
2057 | 2148 | ||
2058 | [ | 2149 | [56]Die Verwendung der Guten Wörter führt zu einer Verbesserung der Erkennungsquoten, |
2059 | die | 2150 | die |
2061 | Kombination führen beide Techniken zu einer Verbesserung der Erkennungsquoten, die | 2152 | Kombination führen beide Techniken zu einer Verbesserung der Erkennungsquoten, die |
2062 | nicht auf Kosten einer Verschlechterung der False-Positives-Quote erfolgt | 2153 | nicht auf Kosten einer Verschlechterung der False-Positives-Quote erfolgt – dies ist |
2063 | auch an den verbesserten ARI-Werten ablesbar. Insgesamt bleibt die Gattungserkennung | 2154 | auch an den verbesserten ARI-Werten ablesbar. Insgesamt bleibt die Gattungserkennung |
2066 | guter F1-Wert >0,9 erzielt. Der Test A2 mit allen fünf Textsorten bringt bei 200 | 2157 | guter F1-Wert >0,9 erzielt. Der Test A2 mit allen fünf Textsorten bringt bei 200 |
2067 | MFWs mäßige Erfolge mit F1: 0,68, einer Erkennungsquote von 58% bei immerhin nur | 2158 | MFWs mäßige Erfolge mit F1: 0,68, einer Erkennungsquote von 58 % bei immerhin nur |
2068 | 12,4% False-Positives hervor (etwas verlagert in Test A3: F1: 0,77, Erkennungsquote: | 2159 | 12,4 % False-Positives hervor (etwas verlagert in Test A3: F1: 0,77, Erkennungsquote: |
2069 | 76%, False-Positives: 22,1%). | 2160 | 76%, False-Positives: 22,1%). |
2070 | [ | 2161 | [57]In dieser Studie sollte geprüft werden, ob das Gute-Wörter-Verfahren zu einer |
2071 | Verbesserung der Genre-Erkennung beitragen kann. Dazu lässt sich ein positiver Befund | 2162 | Verbesserung der Genre-Erkennung beitragen kann. Dazu lässt sich ein positiver Befund |
2075 | Textsortenlabels vermieden wurden. | 2166 | Textsortenlabels vermieden wurden. |
2076 | [ | 2167 | [58]Die gewählten Bildungs- und Gesellschaftsromane sowie Tragödien und Komödien auf |
2077 | digitalem Weg zu unterscheiden, bleibt eine anspruchsvolle Herausforderung. Zu | 2168 | digitalem Weg zu unterscheiden, bleibt eine anspruchsvolle Herausforderung. Zu |
2618 | 2709 | ||
2710 | |||
2619 | Tab. 15: Auszug aus den textsortenspezifischen Gute-Wörter-Listen: Jeweils | 2711 | Tab. 15: Auszug aus den textsortenspezifischen Gute-Wörter-Listen: Jeweils |
2664 | 2756 | ||
2757 | |||
2665 | Tab. 16: Duplikate in den Listen der Guten Wörter. | 2758 | Tab. 16: Duplikate in den Listen der Guten Wörter. |
2666 | [ | 2759 | [59]Das Verfahren, dass die Guten Wörter für eine Textsorte in Relation zu den vier |
2667 | anderen Textsorten auf Basis der mehrfach gemittelten Level-2-Differenzen gebildet | 2760 | anderen Textsorten auf Basis der mehrfach gemittelten Level-2-Differenzen gebildet |
2677 | Abenteuerroman fehlerfrei gelingt (vgl. Test C). | 2770 | Abenteuerroman fehlerfrei gelingt (vgl. Test C). |
2678 | [ | 2771 | [60]Wörter, die man in semantischer Hinsicht vielleicht auch intuitiv mit der Textsorte |
2679 | in Verbringen wollte, sind in den Gute-Wörter-Listen selten | 2772 | in Verbringen wollte, sind in den Gute-Wörter-Listen selten – die meisten Wortformen |
2680 | findet man auch sonst in längeren MfW-Listen. Wenn man gezielt sucht, könnten etwa | 2773 | findet man auch sonst in längeren MfW-Listen. Wenn man gezielt sucht, könnten etwa |
2685 | intersubjektiv nachvollziehbar zu begründen. | 2778 | intersubjektiv nachvollziehbar zu begründen. |
2686 | [ | 2779 | [61]Verben stehen recht erwartbar meist in der 3. Person Singular Präteritum, in der |
2687 | Abenteuerroman-Liste sind jedoch relativ viele Verben in der 2. Person Singular | 2780 | Abenteuerroman-Liste sind jedoch relativ viele Verben in der 2. Person Singular |
2688 | Präsens enthalten | 2781 | Präsens enthalten – womöglich ein Indikator für einen erhöhten Anteil an direkter |
2689 | Figurenrede. Dass ›Berlin‹ in den Listen steht, könnte damit korrespondieren, dass | 2782 | Figurenrede. Dass ›Berlin‹ in den Listen steht, könnte damit korrespondieren, dass |
2700 | [1] | 2793 | [1] |
2701 | Vgl. etwa Büttner et al. | 2794 | Vgl. etwa Büttner et al. 2017. |
2702 | 2017. | ||
2703 | 2795 | ||
2704 | [2] | 2796 | [2] |
2705 | Vgl. Hettinger et | 2797 | Vgl. Hettinger et al. 2016a, S. 158. |
2706 | Hettinger et | 2798 | Hettinger et al. 2015 berichten über eine verbesserte Erkennungsleistung mit Hilfe |
2707 | von SVMs, die auf der Basis von LDA-Topics erzielt wurde; vgl. ähnlich Hettinger | 2799 | von SVMs, die auf der Basis von LDA-Topics erzielt wurde; vgl. ähnlich Hettinger |
2708 | et | 2800 | et al. 2016b. Kim et al. 2017 vergleichen englische Abenteuerromane, humoristische |
2709 | Romane, Science Fiction, Liebesgeschichten und Detektivromane auf der Grundlage | 2801 | Romane, Science Fiction, Liebesgeschichten und Detektivromane auf der Grundlage |
2711 | Emotionsmodell mit Hilfe von Maschinellem Lernen (RF und MLP). Vgl. weiterhin | 2803 | Emotionsmodell mit Hilfe von Maschinellem Lernen (RF und MLP). Vgl. weiterhin |
2712 | Schöch 2020; Calvo Tello 2019; Ardanuy / Sporleder 2014; Underwood et | 2804 | Schöch 2020; Calvo Tello 2019; Underwood 2016; Ardanuy / Sporleder 2014; Underwood et al. 2013; Eder / Rybicki 2011; Sharoff et al. 2010; Stamatatos et al. 2000; Kessler et al. |
2713 | 1997. | 2805 | 1997. |
2726 | [6] | 2818 | [6] |
2819 | Gittel / Köppe 2022, S. 13–22, kritisieren die Studie von Underwood 2016 für ihre Thesenbildung zu Genre-Grenzen, dem Generationen-Bezug von Genres und der | ||
2820 | Kohärenz von Genres, die auf der Grundlage von linguistischen Parametern mit Hilfe | ||
2821 | von maschinellem Lernen erfolgt. U.a. anhand der Textsorten Pastiche und Parodie stellen | ||
2822 | Gittel / Köppe in Frage, inwieweit linguistische Textmerkmale hinreichend für eine | ||
2823 | Genre-Bestimmung sein können. | ||
2824 | |||
2825 | [7] | ||
2826 | Zum Modellieren als zentrale Tätigkeit im DH-Bereich vgl. McCarty 2005. | ||
2827 | |||
2828 | [8] | ||
2829 | Stachowiak 1973, S. 132. Vgl. zur Approximation bei der Modellbildung Saam / Gautschi 2015, S. 26–38. McCarty 2005, S 24, weist darauf hin, dass auch in der traditionellen Literaturwissenschaft Modelle | ||
2830 | omnipräsent sind – etwa bei der Beschreibung von Epochen. Gittel / Köppe 2022, S. 20, kritisieren insbesondere, dass die digitale Modellierung von Underwood anders | ||
2831 | als literaturwissenschaftliche Beschreibungen Kontexte und paratextuelle Informationen | ||
2832 | nicht einbeziehen, diese können jedoch für die Erkennung der Gattung eines Textes | ||
2833 | entscheidend sein. | ||
2834 | |||
2835 | [9] | ||
2836 | Zur Trennung von Ergebnisdaten und Interpretation vgl. auch Dimpel 2015. | ||
2837 | |||
2838 | [10] | ||
2839 | Dieses Verfahren lässt sich durchaus kritisieren: Bedacht wird dabei nicht, wie oft | ||
2840 | einem Text die Eigenschaft zugesprochen wird, zu einer Textsorte zu gehören. Unberücksichtigt | ||
2841 | bleibt auch, ob die Zuordnungen auf einheitlichen Genre-Definitionen basieren. Um | ||
2842 | eigene Textsortenmodelle zu entwickeln und die Zuordnungen auf dieser Basis zu überprüfen, | ||
2843 | standen für die Studie nicht die nötigen Ressourcen zur Verfügung. Insoweit deviante | ||
2844 | Epochenbegriffe eingehen sollten, würden damit allerdings gelebte Praktiken im Fach | ||
2845 | berücksichtigt. | ||
2846 | |||
2847 | [11] | ||
2727 | Vgl. Büttner / Proisl 2016. | 2848 | Vgl. Büttner / Proisl 2016. |
2728 | 2849 | ||
2729 | [ | 2850 | [12] |
2730 | Vgl. Schöch 2014. | 2851 | Vgl. Schöch 2014. |
2731 | 2852 | ||
2732 | [ | 2853 | [13] |
2733 | Hettinger et | 2854 | Hettinger et al. |
2734 | 2016a, S. 161. | 2855 | 2016a, S. 161. |
2735 | 2856 | ||
2736 | [ | 2857 | [14] |
2737 | Vgl. Selbmann 1994, S. | 2858 | Vgl. Selbmann 1994, S. 96–120. |
2738 | 2859 | ||
2739 | [ | 2860 | [15] |
2740 | Selbmann | 2861 | Selbmann |
2742 | 2863 | ||
2743 | [ | 2864 | [16] |
2744 | Dimpel 2018a; Dimpel et | 2865 | Dimpel 2018a; Dimpel et al. 2019; vgl. weiterhin Dimpel 2018b. |
2745 | Ein didaktisch aufbereiteter Foliensatz steht hier. | 2866 | Ein didaktisch aufbereiteter Foliensatz steht hier. |
2746 | 2867 | ||
2747 | [ | 2868 | [17] |
2748 | In Dimpel / Proisl 2019. | 2869 | In Dimpel / Proisl 2019. |
2749 | 2870 | ||
2750 | [ | 2871 | [18] |
2751 | 2872 | ||
2752 | Weitere Parameter für die Ermittlung der Guten Wörter: Verwendet wurden volle | 2873 | Weitere Parameter für die Ermittlung der Guten Wörter: Verwendet wurden volle |
2753 | Texte nach Entfernung der ersten 10% der Wortformen. Die häufigsten 1.200 MFWs | 2874 | Texte nach Entfernung der ersten 10 % der Wortformen. Die häufigsten 1.200 MFWs |
2754 | wurden verwendet. Experimente mit 1.500 MFWs haben schlechtere Ergebnisse | 2875 | wurden verwendet. Experimente mit 1.500 MFWs haben schlechtere Ergebnisse |
2756 | Tragödien teils recht kurz sind. Der kürzeste Text kommt nach dem Entfernen der | 2877 | Tragödien teils recht kurz sind. Der kürzeste Text kommt nach dem Entfernen der |
2757 | ersten 10% auf 5.473 Wortformen. Aus Rechenzeitgründen wurden Wortformen nach | 2878 | ersten 10 % auf 5.473 Wortformen. Aus Rechenzeitgründen wurden Wortformen nach |
2758 | 75.000 Wortformen nicht mehr berücksichtigt (Cutoff) | 2879 | 75.000 Wortformen nicht mehr berücksichtigt (Cutoff) – über die Hälfte der Texte |
2759 | ist ohnehin nicht länger als 50.000 Wortformen. | 2880 | ist ohnehin nicht länger als 50.000 Wortformen. |
2760 | 2881 | ||
2761 | [ | 2882 | [19] |
2762 | In einem weiteren Prätest wurde | 2883 | In einem weiteren Prätest wurde |
2771 | 2892 | ||
2772 | [ | 2893 | [20] |
2773 | Abkürzungen: | 2894 | Abkürzungen: |
2776 | 2897 | ||
2777 | [ | 2898 | [21] |
2778 | Vgl. etwa Büttner et | 2899 | Vgl. etwa Büttner et al. 2017. |
2779 | 2900 | ||
2780 | [ | 2901 | [22] |
2781 | Weiterhin werden von der | 2902 | Weiterhin werden von der |
2786 | 2907 | ||
2787 | [ | 2908 | [23] |
2788 | In | 2909 | In |
2793 | 2914 | ||
2794 | [ | 2915 | [24] |
2795 | Ardanuy / Sporleder 2014, S. | 2916 | Ardanuy / Sporleder 2014, S. 37, akzeptieren etwa eine Klassifizierung bei |
2796 | mehrfachen Labels als korrekt, wenn die erkannte Klasse zumindest zu einem der | 2917 | mehrfachen Labels als korrekt, wenn die erkannte Klasse zumindest zu einem der |
2797 | Label passt, während in der vorliegenden Studie angestrebt wurde, Texte mit | 2918 | Label passt, während in der vorliegenden Studie angestrebt wurde, Texte mit |
2798 | mehrfachen Labels zu meiden. Eine Vergleichbarkeit der Studien leidet | 2919 | mehrfachen Labels zu meiden. Eine Vergleichbarkeit der Studien leidet – wie so oft |
2799 | im Bereich der Digital Humanities | 2920 | im Bereich der Digital Humanities – auch darunter, dass viele Publikationsorgane |
2800 | den Maximalumfang der Beiträge auf derart wenige Seiten einschränken, dass eine | 2921 | den Maximalumfang der Beiträge auf derart wenige Seiten einschränken, dass eine |
2804 | 2925 | ||
2805 | [ | 2926 | [25] |
2806 | Vgl. zur | 2927 | Vgl. zur |
2807 | Z-Wert-Begrenzung Evert et | 2928 | Z-Wert-Begrenzung Evert et al. 2016; Dimpel 2018b. |
2808 | 2929 | ||
2809 | [ | 2930 | [26] |
2810 | Es sind 40 | 2931 | Es sind 40 |
2813 | 2934 | ||
2814 | [ | 2935 | [27] |
2815 | Vgl. | 2936 | Vgl. |
2816 | etwa Büttner et | 2937 | etwa Büttner et al. 2017. |
2817 | 2938 | ||
2818 | [ | 2939 | [28] |
2819 | 2940 | ||
2820 | Eine ähnliche Tendenz beobachten Hettinger et | 2941 | Eine ähnliche Tendenz beobachten Hettinger et al. 2016a, S. 160. |
2821 | 2942 | ||
2831 | (CLfL). Hg. von Association for Computational Linguistics. (EACL 2014, Göteborg, | 2952 | (CLfL). Hg. von Association for Computational Linguistics. (EACL 2014, Göteborg, |
2832 | 27.04.2014) Stroudsburg, PA, 2014, S. 31–39. DOI: 10.3115/v1/W14-0905Andreas Büttner / Friedrich Michael Dimpel / Stefan Evert / Fotis | 2953 | 27.04.2014) Stroudsburg, PA, 2014, S. 31–39. DOI: 10.3115/v1/W14-0905Andreas Büttner / Thomas Proisl: Stilometrie interdisziplinär: Merkmalsselektion |
2833 | Jannidis / Steffen Pielström / Thomas Proisl / Isabella Reger / Christof | ||
2834 | Schöch / Thorsten Vitt: „Delta“ in der stilometrischen Autorschaftsattribution. In: | ||
2835 | Zeitschrift für digitale Geisteswissenschaften 2 (2017). DOI: 10.17175/2017_006Andreas Büttner / Thomas Proisl: Stilometrie interdisziplinär: Merkmalsselektion | ||
2836 | zur Differenzierung zwischen Übersetzer- und Fachvokabular. In: Modellierung, | 2954 | zur Differenzierung zwischen Übersetzer- und Fachvokabular. In: Modellierung, |
2838 | Forschungsparadigma. DHd 2016. Konferenzabstracts. Hg. von Elisabeth Burr. (DHd: 3, | 2956 | Forschungsparadigma. DHd 2016. Konferenzabstracts. Hg. von Elisabeth Burr. (DHd: 3, |
2839 | Leipzig, 07.–12.03.2016) Duisburg 2016, S. 70–74. DOI: 10.5281/zenodo.3679331 [Nachweis im GVK] José Calvo Tello: Gattungserkennung über 500 Jahre. In: DHd 2019 Digital | 2957 | Leipzig, 07.–12.03.2016) Duisburg 2016, S. 70–74. DOI: 10.5281/zenodo.3679331 [Nachweis im GVK] Andreas Büttner / Friedrich Michael Dimpel / Stefan Evert / Fotis |
2958 | Jannidis / Steffen Pielström / Thomas Proisl / Isabella Reger / Christof | ||
2959 | Schöch / Thorsten Vitt: „Delta“ in der stilometrischen Autorschaftsattribution. In: | ||
2960 | Zeitschrift für digitale Geisteswissenschaften 2 (2017). DOI: 10.17175/2017_006José Calvo Tello: Gattungserkennung über 500 Jahre. In: DHd 2019 Digital | ||
2840 | Humanities: multimedial & multimodal. Konferenzabstracts. Hg. von Patrick Sahle. | 2961 | Humanities: multimedial & multimodal. Konferenzabstracts. Hg. von Patrick Sahle. |
2841 | (DHd: 6, Frankfurt am Main u. a., 25.–29.03.2019) Frankfurt/Main 2019, S. 292–294. | 2962 | (DHd: 6, Frankfurt am Main u. a., 25.–29.03.2019) Frankfurt/Main 2019, S. 292–294. |
2842 | DOI: 10.5281/zenodo.2600812Friedrich Michael Dimpel / Daniel Schlager / Katharina Zeppezauer-Wachauer: Der | 2963 | DOI: 10.5281/zenodo.2600812Friedrich Michael Dimpel: Der Computerphilologe als Interpret – ein Teilzeit-Empiriker? |
2843 | Streit um die Birne. Autorschafts-Attributionstest mit Burrows’ Delta und dessen | 2964 | In: Literatur interpretieren. Interdisziplinäre Beiträge zur Theorie und Praxis. Hg. |
2844 | Optimierung für Kurztexte am Beispiel der ‚Halben Birne‘ des Konrad von Würzburg. | 2965 | von Jan Borkowski / Stefan Descher / Felicitas Ferder / Philipp Heine. Münster 2015, |
2845 | In: | 2966 | S. 339–359. DOI: 10.30965/9783957438973_018Friedrich Michael Dimpel (2018a): Die guten ins Töpfchen: Zur Anwendbarkeit von |
2846 | Digitale Mediävistik. Hg. von Roman Bleier / Franz Fischer / Torsten | ||
2847 | Hiltmann / Gabriel Viehhauser / Georg Vogeler. Berlin u. a. 2019, S. 71–90. [Nachweis im GVK] Friedrich Michael Dimpel / Thomas Proisl: Gute Wörter für Delta: Verbesserung der | ||
2848 | Autorschaftsattribution durch autorspezifische distinktive Wörter. In: DHd 2019 | ||
2849 | Digital Humanities: multimedial & multimodal. Konferenzabstracts. Hg. von Patrick | ||
2850 | Sahle. (DHd: 6, Frankfurt am Main u. a., 25.–29.03.2019) Frankfurt/Main 2019, | ||
2851 | S. 296–299. DOI: 10.5281/zenodo.2600812Friedrich Michael Dimpel (2018a): Die guten ins Töpfchen: Zur Anwendbarkeit von | ||
2852 | Burrows’ Delta bei kurzen mittelhochdeutschen Texten nebst eines Attributionstests | 2967 | Burrows’ Delta bei kurzen mittelhochdeutschen Texten nebst eines Attributionstests |
2857 | mittelhochdeutsche Texte, Z-Wert-Begrenzung und ein Normalisierungswörterbuch. Oder: | 2972 | mittelhochdeutsche Texte, Z-Wert-Begrenzung und ein Normalisierungswörterbuch. Oder: |
2858 | Auf welche Wörter kommt es bei Delta an? Göttingen 2018. (= Dariah-DE Working Papers, | 2973 | Auf welche Wörter kommt es bei Delta an? Göttingen 2018. (= Dariah-DE Working Papers, |
2859 | 25) URN: urn:nbn:de:gbv:7-dariah-2017-5-1Maciej Eder / Jan Rybicki: Deeper Delta Across Genres and Languages: Do We Really | 2974 | 25) URN: urn:nbn:de:gbv:7-dariah-2017-5-1Friedrich Michael Dimpel / Daniel Schlager / Katharina Zeppezauer-Wachauer: Der |
2860 | Need the Most Frequent Words? In: Literary and Linguistic Computing 26 (2011), H. | 2975 | Streit um die Birne. Autorschafts-Attributionstest mit Burrows’ Delta und dessen |
2861 | 3, | 2976 | Optimierung für Kurztexte am Beispiel der ‚Halben Birne‘ des Konrad von Würzburg. |
2862 | S. 315–321. DOI: 10.1093/llc/fqr031 [Nachweis im GVK] Stefan Evert / Fotis Jannidis / Steffen Pielström / Isabella Reger / Christof | 2977 | In: |
2863 | Schöch / Thorsten Vitt: Burrows’ Delta verstehen. In: Modellierung, Vernetzung, | 2978 | Digitale Mediävistik. Hg. von Roman Bleier / Franz Fischer / Torsten |
2979 | Hiltmann / Gabriel Viehhauser / Georg Vogeler. Berlin u. a. 2019, S. 71–90. [Nachweis im GVK] Friedrich Michael Dimpel / Thomas Proisl: Gute Wörter für Delta: Verbesserung der | ||
2980 | Autorschaftsattribution durch autorspezifische distinktive Wörter. In: DHd 2019 | ||
2981 | Digital Humanities: multimedial & multimodal. Konferenzabstracts. Hg. von Patrick | ||
2982 | Sahle. (DHd: 6, Frankfurt am Main u. a., 25.–29.03.2019) Frankfurt/Main 2019, | ||
2983 | S. 296–299. DOI: 10.5281/zenodo.2600812Maciej Eder / Jan Rybicki: Deeper Delta Across Genres and Languages: Do We Really | ||
2984 | Need the Most Frequent Words? In: Literary and Linguistic Computing 26 (2011), H. 3, | ||
2985 | S. 315–321. DOI: 10.1093/llc/fqr031 [Nachweis im GVK] Stefan Evert / Fotis Jannidis / Friedrich Michael Dimpel / Christof | ||
2986 | Schöcht / Steffen Pielströmt / Thorsten Vitt / Isabella Regert / Andreas Büttner / | ||
2987 | Thomas Proisl: Burrows Delta verstehen. In: Modellierung, Vernetzung, | ||
2864 | Visualisierung. Die Digital Humanities als fächerübergreifendes Forschungsparadigma. | 2988 | Visualisierung. Die Digital Humanities als fächerübergreifendes Forschungsparadigma. |
2865 | DHd 2016. Konferenzabstracts. Hg. von Elisabeth Burr. 2. überarbeitete und erweiterte | 2989 | DHd 2016. Konferenzabstracts. Hg. von Elisabeth Burr. 2. überarbeitete und erweiterte |
2866 | Ausgabe. (DHd: 3, Leipzig, 07.–12.03.2016) Duisburg 2016, S. 62–65. [online] Stephan Fuchs: Hybride Helden: Gwigalois und Willehalm. Beiträge zum Heldenbild | 2990 | Ausgabe. (DHd: 3, Leipzig, 07.–12.03.2016) Duisburg 2016, S. 83–86. DOI: 110.5281/zenodo.3679330Stephan Fuchs: Hybride Helden: Gwigalois und Willehalm. Beiträge zum Heldenbild |
2867 | und zur Poetik des Romans im frühen 13. Jahrhundert. Heidelberg 1997. (= Frankfurter | 2991 | und zur Poetik des Romans im frühen 13. Jahrhundert. Heidelberg 1997. (= Frankfurter |
2868 | Beiträge zur Germanistik, 31) [Nachweis im GVK] Lena Hettinger / Martin Becker / Isabella Reger / Fotis Jannidis / Andreas Hotho: | 2992 | Beiträge zur Germanistik, 31) [Nachweis im GVK] Benjamin Gittel / Tilmann Köppe: On the Distance Between Traditional and DH-Based |
2993 | Genre Theory. In: Digitale Verfahren in der Literaturwissenschaft. Hg. von Jan Horstmann / | ||
2994 | Frank Fischer. Münster 2022. (= Sonderausgabe Textpraxis. Digitales Journal für Philologie, | ||
2995 | 6). DOI: 10.17879/64059431694Lena Hettinger / Martin Becker / Isabella Reger / Fotis Jannidis / Andreas Hotho: | ||
2869 | Genre classification on German novels. In: Database and expert systems applications. | 2996 | Genre classification on German novels. In: Database and expert systems applications. |
2870 | 26th International Conference. Hg. von Qiming Chen | 2997 | 26th International Conference. Hg. von Qiming Chen / Abdelkader Hameurlain / Farouk |
2871 | Toumani | 2998 | Toumani / Roland Wagner / Hendrik Decker. (DEXA: 26, Valencia, 01.–04.09.2015). Cham |
2872 | u. | 2999 | u. a. 2015, S. 249–253. DOI: 10.1109/DEXA.2015.62 [Nachweis im GVK] Lena Hettinger / Isabella Reger / Fotis Jannidis / Andreas Hotho (2016a): |
2873 | Classification of Literary Subgenres. In: Modellierung, Vernetzung, Visualisierung. | 3000 | Classification of Literary Subgenres. In: Modellierung, Vernetzung, Visualisierung. |
2878 | Humanities 2016. Conference Abstracts. (DH 2016, Krakau, 11.-16.07.2016) Krakau 2016. | 3005 | Humanities 2016. Conference Abstracts. (DH 2016, Krakau, 11.-16.07.2016) Krakau 2016. |
2879 | [online]Brett Kessler / Geoffrey Nunberg / Hinrich | 3006 | [online]Brett Kessler / Geoffrey Nunberg / Hinrich Schütze: Automatic Detection of Text |
2880 | Genre. In: 35th Annual Meeting of the Association for Computational Linguistics and | 3007 | Genre. In: 35th Annual Meeting of the Association for Computational Linguistics and |
2887 | Feldman / Anna Kazantseva / Nils Reiter / Stan Szpakowicz. (SIGHUM: 11, Vancouver, | 3014 | Feldman / Anna Kazantseva / Nils Reiter / Stan Szpakowicz. (SIGHUM: 11, Vancouver, |
2888 | 04.08.2017) Stroudsburg, PA, 2017, S. 17–26. DOI: 10.18653/v1/W17-2203Christof Schöch: Corneille, Molière et les autres. Stilometrische Analysen zu | 3015 | 04.08.2017) Stroudsburg, PA, 2017, S. 17–26. DOI: 10.18653/v1/W17-2203Willard McCarty: Humanities Computing. London / New York 2005. [Nachweis im GVK] Nicole J. Saam / Thomas Gautschi: Modellbildung in den Sozialwissenschaften. In: Handbuch |
3016 | Modellbildung und Simulation in den Sozialwissenschaften. Hg. von Norman Braun / Nicole | ||
3017 | J. Saam. Wiesbaden 2015, S. 15–60. DOI: 10.1007/978-3-658-01164-2Christof Schöch: Corneille, Molière et les autres. Stilometrische Analysen zu | ||
2889 | Autorschaft und Gattungszugehörigkeit im französischen Theater der Klassik. In: | 3018 | Autorschaft und Gattungszugehörigkeit im französischen Theater der Klassik. In: |
2890 | Literaturwissenschaft im digitalen Medienwandel. Hg. von Christof Schöch / Lars | 3019 | Literaturwissenschaft im digitalen Medienwandel. Hg. von Christof Schöch / Lars |
2891 | Schneider. Berlin 2014, S. 130–157. (= | 3020 | Schneider. Berlin 2014, S. 130–157. (= Philologie im Netz / Beiheft, 7) PDF. [online] Christof Schöch: Computational Genre Analysis. In: Digital Humanities for Literary |
2892 | Studies: Methods, Tools & Practices. Hg. von James O'Sullivan. College Station, | 3021 | Studies: Methods, Tools & Practices. Hg. von James O'Sullivan. College Station, |
2893 | TX 2020. Preprint. PDF. [online] Armin Schulz: Poetik des Hybriden. Schema, Variation und intertextuelle | 3022 | TX 2020. Preprint. PDF. [online] Armin Schulz: Poetik des Hybriden. Schema, Variation und intertextuelle |
2894 | Kombinatorik in der Minne- und Aventiureepik: ‚Willehalm von Orlens‘ | 3023 | Kombinatorik in der Minne- und Aventiureepik: ‚Willehalm von Orlens‘ – ‚Partonopier |
2895 | und Meliur‘ | 3024 | und Meliur‘ – ‚Wilhelm von Österreich‘ – ‚Die schöne Magelone‘. Berlin 2000. (= Philologische |
2896 | | 3025 | Studien und Quellen, 161) [Nachweis im GVK] Rolf Selbmann: Der deutsche Bildungsroman. 2., überarbeitete und erweiterte |
2897 | Auflage. Stuttgart u. | 3026 | Auflage. Stuttgart u. a. 1994. (= Sammlung Metzler, 214) [Nachweis im GVK] Serge Sharoff / Zhili Wu / Katja Markert: The Web Library of Babel: evaluating |
2898 | genre collections. In: Proceedings of the 7th International Conference on Language | 3027 | genre collections. In: Proceedings of the 7th International Conference on Language |
2900 | Maegaard / Joseph Mariani / Jan Odijk / Stelios Piperidis / Mike Rosner / Daniel | 3029 | Maegaard / Joseph Mariani / Jan Odijk / Stelios Piperidis / Mike Rosner / Daniel |
2901 | Tapias. (LREC’10: 7, Valetta, 17.-23.05.2010) Paris 2010. PDF. [online] Efstathios Stamatatos / Nikos Fakotakis / George Kokkinakis: Automatic text | 3030 | Tapias. (LREC’10: 7, Valetta, 17.-23.05.2010) Paris 2010. PDF. [online] Herbert Stachowiak: Allgemeine Modelltheorie. Wien 1973. [Nachweis im GVK] Efstathios Stamatatos / Nikos Fakotakis / George Kokkinakis: Automatic text |
2902 | categorization in terms of genre and author. In: Computational Linguistics 26 (2000), | 3031 | categorization in terms of genre and author. In: Computational Linguistics 26 (2000), |
2904 | Optimierung für Kurztexte am Beispiel der ‚Halben Birne‘ des Konrad von Würzburg: | 3033 | Optimierung für Kurztexte am Beispiel der ‚Halben Birne‘ des Konrad von Würzburg: |
2905 | Anhang | 3034 | Anhang – Dimpel: Gute Wörter und Level-2-Differenzen bei Delta. Hg. von ULB Münster. |
2906 | 2022. [online] Ted Underwood / Michael L. Black / Loretta Auvil / Boris Capitanu: Mapping mutable | 3035 | 2022. [online] Ted Underwood / Michael L. Black / Loretta Auvil / Boris Capitanu: Mapping mutable |
2908 | Conference on Big Data. Hg. von Hu Xiaohua. 2 Bde. (Silicon Valley, CA, | 3037 | Conference on Big Data. Hg. von Hu Xiaohua. 2 Bde. (Silicon Valley, CA, |
2909 | 06.–09.10.2013) Piscataway, NJ 2013. Bd. 1: S. 95–103. DOI: 10.1109/BigData.2013.6691676 [Nachweis im GVK] Gabriel Viehhauser: Digitale Gattungsgeschichten. Minnesang zwischen generischer | 3038 | 06.–09.10.2013) Piscataway, NJ 2013. Bd. 1: S. 95–103. DOI: 10.1109/BigData.2013.6691676 [Nachweis im GVK] Ted Underwood: The Life Cycles of Genres. In: Cultural Analytics 2 (2016), H. 2. DOI: |
3039 | 10.22148/16.005Gabriel Viehhauser: Digitale Gattungsgeschichten. Minnesang zwischen generischer | ||
2910 | Konstanz und Wende. In: Zeitschrift für digitale Geisteswissenschaften 2 (2017). DOI: | 3040 | Konstanz und Wende. In: Zeitschrift für digitale Geisteswissenschaften 2 (2017). DOI: |
2915 | 3045 | ||
3046 | |||
3047 | |||
2916 | Tabellenverzeichnis | 3048 | Tabellenverzeichnis |
2917 | 3049 | ||
2918 | 3050 | Tab. 1: Test A1, Erkennungsquotentest mit fünf Vergleichstexten der Zielklasse, Test A1, | |
2919 | Tab. 1: Test A1, Erkennungsquotentest mit fünf Vergleichstexten der Zielklasse, Test | 3051 | ABE, BIL, GES, KOM, TRA. Beim Bag-of-Words-Test mit 10.000 MFWs werden die Texte 200 |
2920 | A1, ABE, BIL, GES, KOM, TRA. Beim Bag-of-Words-Test mit 10.000 MFWs werden die Texte | 3052 | verschiedenen Bag-Sets pro Gattung zugelost und Mittelwerte gebildet. |
2921 | 200 verschiedenen Bag-Sets pro Gattung zugelost und Mittelwerte gebildet. | ||
2922 | Abkürzungen: Gute: Mit Gute-Wörter-Liste / ZWB: Mit Z-Wert-Begrenzung auf 1.64 / | ||
2923 | Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzung. | ||
2924 | |||
2925 | |||
2926 | Tab. 2: Test A2, ARI-Test mit 4 × 10 Distraktortexten, ABE, BIL, GES, KOM, TRA. | 3053 | Tab. 2: Test A2, ARI-Test mit 4 × 10 Distraktortexten, ABE, BIL, GES, KOM, TRA. |
2927 | Abkürzungen: ARI: Adjusted Rand Index / F1: Precision und Recall kombiniert / Gute: | 3054 | Tab. 3: Test A2, ARI-Test mit 4 × 10 Distraktortexten, Einzelwerte, ABE, |
2928 | Mit Gute-Wörter-Liste / ZWB: Mit Z-Wert-Begrenzung auf 1.64 / EQ: Erkennungsquote | 3055 | BIL, GES, KOM, TRA. |
2929 | in | 3056 | Tab. 4: Test A2, ARI-Test mit 4 × 10 Distraktortexten, Bag-of-Words, ABE, |
2930 | % / FP: False-Positives-Quote in % (niedriger ist besser) / Basis: Ohne | 3057 | BIL, GES, KOM, TRA. |
2931 | Gute-Wörter-Liste und ohne Z-Wert-Begrenzung / Diff: Differenzen zwischen Werten mit | 3058 | Tab. 5: Test A3, ARI-Test mit 4 × 5 Distraktortexten, ABE, BIL, GES, KOM, |
2932 | Gute-Wörter-Liste und mit Z-Wert-Begrenzung zum Basiswert. | 3059 | TRA. |
2933 | |||
2934 | |||
2935 | Tab. 3: Test A2, ARI-Test mit 4 × 10 Distraktortexten, Einzelwerte, ABE, BIL, GES, | ||
2936 | KOM, TRA. | ||
2937 | |||
2938 | |||
2939 | Tab. 4: Test A2, ARI-Test mit 4 × 10 Distraktortexten, Bag-of-Words, ABE, BIL, GES, | ||
2940 | KOM, TRA. | ||
2941 | |||
2942 | |||
2943 | Tab. 5: Test A3, ARI-Test mit 4 × 5 Distraktortexten, ABE, BIL, GES, KOM, TRA. | ||
2944 | |||
2945 | |||
2946 | Tab. 6: Test B, ARI-Test mit 2 × 10 Distraktortexten, ABE, BIL, KOM. | 3060 | Tab. 6: Test B, ARI-Test mit 2 × 10 Distraktortexten, ABE, BIL, KOM. |
2947 | |||
2948 | |||
2949 | Tab. 7: Test C, ARI-Test mit 2 × 10 Distraktortexten, ABE, KOM, TRA. | 3061 | Tab. 7: Test C, ARI-Test mit 2 × 10 Distraktortexten, ABE, KOM, TRA. |
2950 | 3062 | Tab. 8: Test C, ARI-Test mit 2 × 10 Distraktortexten, Einzelwerte, ABE, | |
2951 | 3063 | KOM, TRA (Volltexte, mit Guten Wörtern und Z-Wert-Begrenzung). | |
2952 | Tab. 8: Test C, ARI-Test mit 2 × 10 Distraktortexten, Einzelwerte, ABE, KOM, TRA | 3064 | Tab. 9: Test D1, Erkennungsquotentest mit fünf Vergleichstexten der |
2953 | (Volltexte, mit Guten Wörtern und Z-Wert-Begrenzung). | 3065 | Zielklasse, ABE, BIL, GES. |
2954 | 3066 | Tab. 10: Test D2, ARI-Test mit 2 × 10 Distraktortexten, ABE, BIL, GES. | |
2955 | 3067 | Tab. 11: Test D2, ARI-Test mit 2 × 10 Distraktortexten, Einzelwerte, ABE, | |
2956 | Tab. 9: Test D1, Erkennungsquotentest mit fünf Vergleichstexten der Zielklasse, ABE, | ||
2957 | BIL, GES. | 3068 | BIL, GES. |
2958 | |||
2959 | |||
2960 | Tab. 10: Test D2, ARI-Test mit 2 × 10 Distraktortexten, ABE, BIL, GES. | ||
2961 | |||
2962 | |||
2963 | Tab. 11: Test D2, ARI-Test mit 2 × 10 Distraktortexten, Einzelwerte, ABE, BIL, | ||
2964 | GES. | ||
2965 | |||
2966 | |||
2967 | Tab. 12: Test D3, ARI-Test mit 2 × 5 Distraktortexten, ABE, BIL, GES. | 3069 | Tab. 12: Test D3, ARI-Test mit 2 × 5 Distraktortexten, ABE, BIL, GES. |
2968 | 3070 | Tab. 13: Test D4, ARI-Test mit 2 × 10 Distraktortexten und großem | |
2969 | 3071 | MFW-Bereich, Volltexte, ABE, BIL, GES. | |
2970 | Tab. 13: Test D4, ARI-Test mit 2 × 10 Distraktortexten und großem MFW-Bereich, | 3072 | Tab. 14: Test D5, ARI-Test mit 2 × 10 Distraktortexten und großem |
2971 | Volltexte, ABE, BIL, GES. | 3073 | MFW-Bereich, Bag-of-Words (20.000 Wortformen), ABE, BIL, GES. |
2972 | 3074 | Tab. 15: Auszug aus den textsortenspezifischen Gute-Wörter-Listen: Jeweils | |
2973 | 3075 | 100 Wortformen mit den höchsten Level-2-Differenzen. | |
2974 | Tab. 14: Test D5, ARI-Test mit 2 × 10 Distraktortexten und großem MFW-Bereich, | ||
2975 | Bag-of-Words (20.000 Wortformen), ABE, BIL, GES. | ||
2976 | |||
2977 | |||
2978 | Tab. 15: Auszug aus den textsortenspezifischen Gute-Wörter-Listen: Jeweils 100 | ||
2979 | Wortformen mit den höchsten Level-2-Differenzen. | ||
2980 | |||
2981 | |||
2982 | Tab. 16: Duplikate in den Listen der Guten Wörter. | 3076 | Tab. 16: Duplikate in den Listen der Guten Wörter. |