Versionen vergleichen von : Gute Wörter, schwaches Gattungssignal. Differenzen zwischen Roman-Subgenres und Dramen mit Delta und signifikantem Wortschatz aufspüren
| Alt | Neu | ||
|---|---|---|---|
| 7 | 7 | ||
| 8 | DOI: 10.17175/2022_009 | 8 | DOI: 10.17175/2022_009 |
| 9 | Nachweis im OPAC der Herzog August Bibliothek: | 9 | Nachweis im OPAC der Herzog August Bibliothek: 1819369722 |
| 10 | Erstveröffentlichung: 17.11.2022 | 10 | Erstveröffentlichung: 17.11.2022 |
| 11 | Version 2.0: 14.11.2023 | ||
| 12 | Lizenz: Sofern nicht anders angegeben | 11 | Lizenz: Sofern nicht anders angegeben |
| 15 | Medienlizenzen: Medienrechte liegen bei den Autor*innen | 14 | Medienlizenzen: Medienrechte liegen bei den Autor*innen |
| 16 | Letzte Überprüfung aller Verweise: | 15 | Letzte Überprüfung aller Verweise: 25.10.2022 |
| 17 | GND-Verschlagwortung: Gattungstheorie | 16 | GND-Verschlagwortung: Gattungstheorie | Literaturgattung | Literaturwissenschaft | Statistische Stilistik | |
| 18 | Empfohlene Zitierweise: Friedrich Michael Dimpel: Gute Wörter, schwaches Gattungssignal. Differenzen zwischen | 17 | Empfohlene Zitierweise: Friedrich Michael Dimpel: Gute Wörter, schwaches Gattungssignal. Differenzen zwischen |
| 19 | Roman-Subgenres und Dramen mit Delta und signifikantem Wortschatz | 18 | Roman-Subgenres und Dramen mit Delta und signifikantem Wortschatz |
| 20 | aufspüren. In: Zeitschrift für digitale Geisteswissenschaften 7 (2022). 17.11.2022. Version 2.0 vom 14.11.2023. HTML / XML / PDF. DOI: 10.17175/2022_009_v2 | 19 | aufspüren. In: Zeitschrift für digitale Geisteswissenschaften. Wolfenbüttel 2022. text/html Format. DOI: 10.17175/2022_009 |
| 20 | |||
| 21 | 21 | ||
| 25 | Abstract | 25 | Abstract |
| 26 | |||
| 27 | Untersucht wird, inwieweit sich die automatische Erkennung von Genres bzw. | 26 | Untersucht wird, inwieweit sich die automatische Erkennung von Genres bzw. |
| 54 | 53 | ||
| 55 | |||
| 56 | Version 2.0 (14.11.2023) | ||
| 57 | Korrekturen entlang der Monita in den Gutachten: Sprachliche Verbesserungen; Ergänzungen | ||
| 58 | in Kapitel 1 und 2 sowie in der Bibliografie; Ergänzung der Tabellenbeschriftungen, | ||
| 59 | Aufschlüsselung von Abkürzungen | ||
| 60 | |||
| 61 | |||
| 62 | 1. Gattung und Stilometrie | 54 | 1. Gattung und Stilometrie |
| 63 | 2. Korpusgestaltung und Präprocessing | 55 | 2. Korpusgestaltung und Präprocessing |
| 64 | 3. Gute Wörter berechnen – Ermittlungsgruppe | 56 | 3. Gute Wörter berechnen – Ermittlungsgruppe |
| 65 | 4. Evaluierung – Kontrollgruppe | 57 | 4. Evaluierung – Kontrollgruppe |
| 66 | 4.1 Setting: Erkennungsquotentest mit fünf Vergleichstexten der Zielklasse | 58 | 4.1 Setting: Erkennungsquotentest mit fünf Vergleichstexten der |
| 59 | Zielklasse | ||
| 67 | 4.2 Setting: Tests mit F1-Wert und ARI | 60 | 4.2 Setting: Tests mit F1-Wert und ARI |
| 68 | 5. Ergebnisse | 61 | 5. Ergebnisse |
| 69 | Testreihe A: ABE, BIL, GES, KOM, TRA | ||
| 70 | A1: Erkennungsquotentest mit fünf Vergleichstexten der Zielklasse | ||
| 71 | A2: ARI-Test mit 4 × 10 Distraktortexten | ||
| 72 | A3: ARI-Test mit 4 × 5 Distraktortexten | ||
| 73 | Test B: ABE, BIL, KOM | ||
| 74 | Test C: ABE, KOM, TRA | ||
| 75 | Test D: ABE, BIL, GES | ||
| 76 | D1: Erkennungsquotentest mit fünf Vergleichstexten der Zielklasse | ||
| 77 | D2: ARI-Test mit 2 × 10 Distraktortexten | ||
| 78 | D3: ARI-Test mit 2 × 5 Distraktortexten | ||
| 79 | D4: ARI-Test mit 2 × 10 Distraktortexten und größerem MFW-Bereich | ||
| 80 | 6. Fazit | 62 | 6. Fazit |
| 89 | Erkennungsquoten vorweisen kann,[1] ist die digitale Erkennung von literarischen Gattungen deutlich | 71 | Erkennungsquoten vorweisen kann,[1] ist die digitale Erkennung von literarischen Gattungen deutlich |
| 90 | anspruchsvoller.[2] Während bei Texten der gleichen | 72 | anspruchsvoller.[2] Während bei Texten des*der gleichen Autors*in trotz aller |
| 91 | Veränderungen im Laufe der Schaffensperiode und trotz | 73 | Veränderungen im Laufe der Schaffensperiode des*der gleichen Autors*in und trotz |
| 92 | einer möglichen Intention auf wechselnde Stilformen doch von einem mit sich selbst | 74 | einer möglichen Intention auf wechselnde Stilformen doch von einem mit sich selbst |
| 95 | sich bei der Zugehörigkeit eines Textes zu einer Gattung nicht um ein objektives | 77 | sich bei der Zugehörigkeit eines Textes zu einer Gattung nicht um ein objektives |
| 96 | Faktum, sondern um ein Attributionsphänomen | 78 | Faktum, sondern um ein Attributionsphänomen – Literaturwissenschaftler*innen |
| 97 | schreiben Texten die Eigenschaft zu, einer Gattung anzugehören. Solche Zuweisungen | 79 | schreiben Texten die Eigenschaft zu, einer Gattung anzugehören. Solche Zuweisungen |
| 105 | ›Heldenepik‹ erhält. Dazu kommt, dass Gattungen nicht historisch konstant und | 87 | ›Heldenepik‹ erhält. Dazu kommt, dass Gattungen nicht historisch konstant und |
| 106 | gleichförmig bleiben | 88 | gleichförmig bleiben – Gabriel Viehhauser zeigt in seiner Studie zum |
| 107 | mittelalterlichen Minnesang, wie sich Gattungswandel auch digital abbilden | 89 | mittelalterlichen Minnesang, wie sich Gattungswandel auch digital abbilden |
| 110 | Autorschaft (etwa bei sehr kurzen und nicht-normalisierten mittelhochdeutschen | 92 | Autorschaft (etwa bei sehr kurzen und nicht-normalisierten mittelhochdeutschen |
| 111 | Texten) Optimierungsverfahren entwickelt | 93 | Texten) Optimierungsverfahren entwickelt – etwa das Gute-Wörter-Verfahren, bei dem nicht alle Most-Frequent-Words (MFW), sondern signifikante Wortformen verwendet |
| 112 | werden.[5] In der vorliegenden Studie | 94 | werden.[5] In der vorliegenden Studie |
| 117 | zielgerichtet und unbeeinflusst durch Autorsignale oder Übersetzersignale untersucht werden kann, wird vermieden, mehrere | 99 | zielgerichtet und unbeeinflusst durch Autorsignale oder Übersetzersignale untersucht werden kann, wird vermieden, mehrere |
| 118 | Texte der gleichen Autor*innen und ins Deutsche übersetzte Texte zu berücksichtigen. | 100 | Texte der gleichen Autor*innen und ins Deutsche übersetzte Texte zu verwenden. |
| 119 | [3]Diese Studie ist also auf eine technische Fragestellung begrenzt – auf den Beitrag | ||
| 120 | des Gute-Wörter-Verfahrens zu einer verbesserten automatischen Textsortenerkennung. | ||
| 121 | Angestrebt wird nicht, traditionelle literaturwissenschaftliche Genre-Bestimmungen | ||
| 122 | zu kritisieren oder zu präzisieren.[6] Da versucht wird, eine Textsortenerkennung auf lexikalischer Basis vorzunehmen, könnte | ||
| 123 | dieser Versuch als Modellierung[7] einer Unterscheidbarkeit von Textsorten beschrieben werden. Für Computermodelle ist | ||
| 124 | wie auch bei herkömmlichen Modellen das Merkmal der verkürzten Repräsentation wesentlich – | ||
| 125 | das modellierte Objekt wird nicht vollständig durch das Modell abgebildet.[8] Aufgrund dieser Verkürzung ist es in der Regel problematisch, davon zu sprechen, | ||
| 126 | dass sich Ergebnisdaten, die auf der Basis von digitalen Modellen gewonnen werden, | ||
| 127 | unmittelbar dafür eignen, etwa hermeneutische Thesen zu verifizieren oder zu falsifizieren.[9] | ||
| 128 | [4]Gegenüber Studien, die auf Black-Box-Verfahren wie Maschinelles Lernen (siehe Anmerkung | ||
| 129 | 2) setzen, haben Burrows’ Delta und das Gute-Wörter-Verfahren den Vorteil, dass die | ||
| 130 | Berechnungsgrundlage transparent nachvollzogen werden kann. Zudem lässt sich überprüfen, | ||
| 131 | welche Wortformen zur Textsortenunterscheidung besonders gut beitragen (siehe Anhang, | ||
| 132 | Tabelle 15). | ||
| 133 | 101 | ||
| 135 | 103 | ||
| 136 | [ | 104 | [3]Verwendet wurden Texte, die im Internet frei verfügbar sind. Die meisten Texte |
| 137 | entstammen dem Textgrid-Repository. Die Texte wurden dann als Abenteuerroman, | 105 | entstammen dem Textgrid-Repository. Die Texte wurden dann als Abenteuerroman, |
| 139 | literaturgeschichtlichen Darstellung oder in einem Forschungsbeitrag eine | 107 | literaturgeschichtlichen Darstellung oder in einem Forschungsbeitrag eine |
| 140 | einschlägige Bezeichnung vorgefunden wurde. | 108 | einschlägige Bezeichnung vorgefunden wurde. |
| 141 | [ | 109 | [4]Während der Einfluss des Übersetzersignals noch weniger gut erforscht ist,[6] kann das Autorsignal als ein |
| 142 | starkes stilometrisches Signal gelten.[ | 110 | starkes stilometrisches Signal gelten.[7] |
| 143 | Falls beispielsweise bei der Untersuchung von Romansubgenres zahlreiche Texte von | 111 | Falls beispielsweise bei der Untersuchung von Romansubgenres zahlreiche Texte von |
| 144 | Karl May im Korpus vorhanden sind, ist denkbar, dass die Erkennung des Subgenres | 112 | Karl May im Korpus vorhanden sind, ist denkbar, dass die Erkennung des Subgenres |
| 145 | Abenteuerroman durch das Autorsignal von Karl May positiv beeinflusst wird | 113 | Abenteuerroman durch das Autorsignal von Karl May positiv beeinflusst wird – bei |
| 146 | nicht wenigen Autor*innen ist eine gewisse Präferenz für eine oder wenige Gattungen | 114 | nicht wenigen Autor*innen ist eine gewisse Präferenz für eine oder wenige Gattungen |
| 149 | zusammenclustern, obwohl sie verschiedenen Gattungen zugeschrieben werden. Hettinger | 117 | zusammenclustern, obwohl sie verschiedenen Gattungen zugeschrieben werden. Hettinger |
| 150 | et | 118 | et al. berichten von einem Sinken der Erkennungsleistung, wenn man Autorduplikate |
| 151 | aus | 119 | aus |
| 152 | dem zuvor examinierten Korpus herausnimmt.[ | 120 | dem zuvor examinierten Korpus herausnimmt.[8] |
| 153 | [ | 121 | [5]Ein Problem bei der Korpus-Zusammenstellung sind Gattungsinterferenzen und mehrfache |
| 154 | Labels: So ist Wilhelm Raabes Abu Telfan oder Die Heimkehr vom Mondgebirge sowohl als Entwicklungsroman, Gesellschaftsroman, Abenteuerroman, | 122 | Labels: So ist Wilhelm Raabes Abu Telfan oder Die Heimkehr vom Mondgebirge sowohl als Entwicklungsroman, Gesellschaftsroman, Abenteuerroman, |
| 155 | Bildungsroman als | 123 | Bildungsroman und als Zeitroman eingestuft worden. Rolf Selbmann etwa bespricht |
| 156 | einige offenbar als prototypisch verstandene Bildungsromane unter der Überschrift | 124 | einige offenbar als prototypisch verstandene Bildungsromane unter der Überschrift |
| 157 | »Zwischen Individualroman und Gesellschaftsroman«[ | 125 | »Zwischen Individualroman und Gesellschaftsroman«[9]; andernorts beruft sich |
| 158 | Selbmann auf Benno von Wiese, der »die Epigonen [Immermann] zugleich als | 126 | Selbmann auf Benno von Wiese, der »die Epigonen [Immermann] zugleich als |
| 159 | ›Entwicklungsroman‹, als ›Abenteuerroman‹, als ›modernen Roman‹, wie auch als | 127 | ›Entwicklungsroman‹, als ›Abenteuerroman‹, als ›modernen Roman‹, wie auch als |
| 160 | ›gesellschaftlichen Zeitroman‹« versteht.[ | 128 | ›gesellschaftlichen Zeitroman‹« versteht.[10] |
| 161 | [ | 129 | [6]Bei der Korpus-Erstellung wurden Texte vermieden, die beispielsweise sowohl als |
| 162 | Gesellschaftsroman als auch als Bildungsroman bezeichnet wurden, wodurch sich die | 130 | Gesellschaftsroman als auch als Bildungsroman bezeichnet wurden, wodurch sich die |
| 169 | können. | 137 | können. |
| 170 | [ | 138 | [7]Für die Evaluierung des Gute-Wörter-Verfahrens wurden zwei überschneidungsfreie |
| 171 | Teilkorpora verwendet: Die 50 Texte der Ermittlungsgruppe, auf deren Grundlage die | 139 | Teilkorpora verwendet: Die 50 Texte der Ermittlungsgruppe, auf deren Grundlage die |
| 173 | (ebenfalls 50 Texte), die die Qualität der Gattungserkennung erfasst. | 141 | (ebenfalls 50 Texte), die die Qualität der Gattungserkennung erfasst. |
| 174 | [ | 142 | [8]Autorduplikate im Korpus haben sich zwar nicht ganz vermeiden lassen, aber es konnten |
| 175 | doch Vorkehrungen getroffen werden, dass Autorduplikate weder bei der Berechnung der | 143 | doch Vorkehrungen getroffen werden, dass Autorduplikate weder bei der Berechnung der |
| 184 | 152 | ||
| 185 | [ | 153 | [9]Im Vorfeld der Tests wurden einige Preprocessing-Schritte unternommen. Bei den Dramen |
| 186 | habe ich die Regieanweisungen und die Sprecher*innenangaben entfernt. Die | 154 | habe ich die Regieanweisungen und die Sprecher*innenangaben entfernt. Die |
| 188 | mit Ausnahme der deutschen Umlaute wurden vereinheitlicht, Groß- in Kleinbuchstaben | 156 | mit Ausnahme der deutschen Umlaute wurden vereinheitlicht, Groß- in Kleinbuchstaben |
| 189 | konvertiert, Zahlen eliminiert. Weiterhin wurden die ersten 10 % der Token entfernt – mit diesem verbreiteten Verfahren werden paratextuelle Informationen und | 157 | konvertiert, Zahlen eliminiert. Weiterhin wurden die ersten 10% der Token entfernt. |
| 190 | Besonderheiten am Textanfang beseitigt. | 158 | |
| 191 | 159 | 3. Gute Wörter berechnen – Ermittlungsgruppe | |
| 192 | 3. Gute Wörter berechnen – Ermittlungsgruppe | 160 | |
| 193 | 161 | [10]Das Verfahren zur Ermittlung der Guten Wörter ist ausführlich dokumentiert.[11] Für das | |
| 194 | [12]Das Verfahren zur Ermittlung der Guten Wörter ist ausführlich dokumentiert.[16] Für das | ||
| 195 | Setting ist elementar, dass ein Text als Ratetext verwendet wird und gegen ein | 162 | Setting ist elementar, dass ein Text als Ratetext verwendet wird und gegen ein |
| 196 | Vergleichskorpus mit meist 15 bis 30 Distraktortexten getestet | 163 | Vergleichskorpus mit meist 15 bis 30 Distraktortexten getestet |
| 197 | wird. Das Vergleichskorpus enthält jedoch auch einen Vergleichstext der Zielklasse – | 164 | wird. Das Vergleichskorpus enthält jedoch auch einen Vergleichstext der Zielklasse |
| 198 | bei Autorschaftsfragen ist also ein Text von der Autorin / dem Autor im Vergleichskorpus, | 165 | – |
| 199 | von der / dem auch der Ratetext stammt; bei Gattungsfragen ein Vergleichstext der | 166 | bei Autorschaftsfragen ist also ein Text von dem*der Autor*in im Vergleichskorpus, |
| 167 | von dem*der auch der Ratetext stammt; bei Gattungsfragen ein Vergleichstext der | ||
| 200 | gleichen Gattung. | 168 | gleichen Gattung. |
| 201 | [ | 169 | [11]Wie bei Burrows’ Delta üblich, wird für jedes Wort der Most-Frequent-Words (MFWs) die relative Häufigkeit gezählt, |
| 202 | Standardabweichung und Z-Werte berechnet und sodann die | 170 | Standardabweichung und Z-Werte berechnet und sodann die |
| 209 | Störfaktor für die Erkennung der Zielklasse. | 177 | Störfaktor für die Erkennung der Zielklasse. |
| 210 | [ | 178 | [12]In einem Setting mit nur einem Distraktortext und zwei Texten der gleichen Klasse |
| 211 | ist | 179 | ist |
| 217 | Autorschaftserkennung erbringen, jedoch auch so viele False-Positives produzieren, dass dieses Parameterset problematisch | 185 | Autorschaftserkennung erbringen, jedoch auch so viele False-Positives produzieren, dass dieses Parameterset problematisch |
| 218 | ist.[ | 186 | ist.[12] |
| 219 | [ | 187 | [13]Verwendet wird für jede Textsorte nun eine Liste mit den Wortformen der |
| 220 | durchschnittlich höchsten Level-2-Differenzen von allen Ratetexten zu allen | 188 | durchschnittlich höchsten Level-2-Differenzen von allen Ratetexten zu allen |
| 235 | fünf textsortenspezifische Listen mit Guten Wörtern an. | 203 | fünf textsortenspezifische Listen mit Guten Wörtern an. |
| 236 | [ | 204 | [14]Im Distraktorkorpus befinden sich für jede der vier Textsorten der Nicht-Zielklasse |
| 237 | jeweils die Ermittlungsgruppentexte mit Nummern 01–05. Da für die wenigen | 205 | jeweils die Ermittlungsgruppentexte mit Nummern 01–05. Da für die wenigen |
| 239 | ist | 207 | ist |
| 240 | bei Bildung der Gute-Wörter-Listen kein Autoduplikat im Spiel.[ | 208 | bei Bildung der Gute-Wörter-Listen kein Autoduplikat im Spiel.[13] |
| 241 | [ | 209 | [15]Zudem soll vermieden werden, dass Wortformen, die in den Ratetexten – also innerhalb |
| 242 | der Zielgattung | 210 | der Zielgattung – recht selten vorkommen, berücksichtigt werden. Damit eine Wortform |
| 243 | bei der Bildung der Liste der Guten Wörter berücksichtigt wird, muss sie in | 211 | bei der Bildung der Liste der Guten Wörter berücksichtigt wird, muss sie in |
| 247 | geeigneten Parameter handelt, wurde in Prätests mit kleinem Korpus und niedriger | 215 | geeigneten Parameter handelt, wurde in Prätests mit kleinem Korpus und niedriger |
| 248 | Iterationszahl ermittelt.[ | 216 | Iterationszahl ermittelt.[14] |
| 249 | 217 | ||
| 250 | 4. Evaluierung | 218 | 4. Evaluierung – Kontrollgruppe |
| 251 | 219 | ||
| 252 | [ | 220 | [16]Die fünf Listen der Guten Wörter werden in vier textsortenbezogenen Kombinationen |
| 253 | mit | 221 | mit |
| 255 | 223 | ||
| 256 | Test A) Fünf Textsorten: ABE, BIL, GES, KOM, TRA[ | 224 | Test A) Fünf Textsorten: ABE, BIL, GES, KOM, TRA[15] |
| 257 | 225 | ||
| 261 | 229 | ||
| 262 | [ | 230 | [17]Da die Unterscheidung von Bildungs- und Gesellschaftsroman aufgrund der thematischen |
| 263 | Nähe beider Subgenres eine besondere Herausforderung darstellt, ist für die | 231 | Nähe beider Subgenres eine besondere Herausforderung darstellt, ist für die |
| 264 | Testreihen B und C die beste Unterscheidungsleistung zu erwarten. | 232 | Testreihen B und C die beste Unterscheidungsleistung zu erwarten. |
| 265 | [ | 233 | [18]Für die Testreihen A und D wird angelehnt an Studien zu mittelhochdeutschen |
| 266 | Texten[ | 234 | Texten[16] zunächst ein |
| 267 | reiner Erkennungsquotentest mit fünf Vergleichstexten der | 235 | reiner Erkennungsquotentest mit fünf Vergleichstexten der |
| 268 | Zielklasse durchgeführt; für alle vier Testreihen wird ein ARI-Test (Adjusted Rand Index) durchgeführt, bei dem zusätzlich auch die | 236 | Zielklasse durchgeführt; für alle vier Testreihen wird ein ARI-Test (Adjusted Rand Index) durchgeführt, bei dem zusätzlich auch die |
| 269 | Erkennungsquoten (Recall), False-Positives und F1-Werte ausgegeben werden | 237 | Erkennungsquoten (Recall), False-Positives und F1-Werte ausgegeben werden – zum Setting siehe unten. |
| 270 | [ | 238 | [19]Die kürzeste Liste der Guten Wörter, die alle Wortformen mit einer Level-2-Differenz |
| 271 | von >0,2 enthält, umfasst bei den Komödien 495 Wortformen, die längste Liste bei | 239 | von >0,2 enthält, umfasst bei den Komödien 495 Wortformen, die längste Liste bei |
| 276 | 300 und 400 MFWs. Wenn die Guten Wörter nicht in ausreichend vielen Texten im | 244 | 300 und 400 MFWs. Wenn die Guten Wörter nicht in ausreichend vielen Texten im |
| 277 | aktuellen Test vorhanden sind,[ | 245 | aktuellen Test vorhanden sind,[17] wird das Gute Wort nicht verwendet. Wenn dadurch |
| 278 | nicht mehr ausreichend viele Gute Wörter vorhanden sind, wird die MFW-Liste im | 246 | nicht mehr ausreichend viele Gute Wörter vorhanden sind, wird die MFW-Liste im |
| 281 | bevorzugten Verwendung der Guten Wörter die Rede. | 249 | bevorzugten Verwendung der Guten Wörter die Rede. |
| 282 | [ | 250 | [20]Näherungsweise bildet ein Test mit 200 MFWs einen Level-2-Differenzen-Mittelwert |
| 283 | >0,4 und ein Test mit 200 MFWs einen Level-2-Differenzen-Mittelwert >0,2 ab. In | 251 | >0,4 und ein Test mit 200 MFWs einen Level-2-Differenzen-Mittelwert >0,2 ab. In |
| 284 | der Liste für die Gesellschaftsromane – sie liegt hinsichtlich ihrer Länge im | 252 | der Liste für die Gesellschaftsromane – sie liegt hinsichtlich ihrer Länge im |
| 285 | Mittelfeld – ist bei Wortform Nr. 300 eine Level-2-Differenz von 0,32 vorhanden. | 253 | Mittelfeld – ist bei Wortform Nr. 300 eine Level-2-Differenz von 0,32 vorhanden. |
| 286 | 4.1 Setting: Erkennungsquotentest mit fünf Vergleichstexten der Zielklasse | 254 | 4.1 Setting: Erkennungsquotentest mit fünf Vergleichstexten der |
| 287 | 255 | Zielklasse | |
| 288 | [27]Bei dieser Evaluierung kommen fast alle 50 Texte der Kontrollgruppe zum Einsatz. In | 256 | |
| 257 | [21]Bei dieser Evaluierung kommen fast alle 50 Texte der Kontrollgruppe zum Einsatz. In | ||
| 289 | das Vergleichskorpus werden jeweils fünf (von zehn in der Kontrollgruppe vorhandenen) | 258 | das Vergleichskorpus werden jeweils fünf (von zehn in der Kontrollgruppe vorhandenen) |
| 293 | Distraktortexte. | 262 | Distraktortexte. |
| 294 | [ | 263 | [22]Wenn ein Text als Distraktortext gelost wird, zu dem ein Autorenduplikat in den |
| 295 | Kontrollgruppentexten der Zielgattung vorhanden ist, dann wird dieser Distraktortext | 264 | Kontrollgruppentexten der Zielgattung vorhanden ist, dann wird dieser Distraktortext |
| 299 | Distraktortexte im Vergleichskorpus berücksichtigt werden, so dass auch hier | 268 | Distraktortexte im Vergleichskorpus berücksichtigt werden, so dass auch hier |
| 300 | Autorenduplikate das Gattungssignal nicht überlagern können.[ | 269 | Autorenduplikate das Gattungssignal nicht überlagern können.[18] |
| 301 | [ | 270 | [23]Bei der Zielgattung wird zunächst reihum jeweils einer der zehn Kontrollgruppentexten |
| 302 | als Vergleichstext ins Vergleichskorpus gegeben. Vier weitere Texte der Zielgattung | 271 | als Vergleichstext ins Vergleichskorpus gegeben. Vier weitere Texte der Zielgattung |
| 305 | 274 | ||
| 306 | [ | 275 | [24]Wenn dieser Test mit Volltexten (gekürzt auf 100.000 Wortformen) durchgeführt wird, |
| 307 | werden pro Gattung zehn Durchgänge absolviert, um die Zufälligkeiten bei der | 276 | werden pro Gattung zehn Durchgänge absolviert, um die Zufälligkeiten bei der |
| 312 | ist | 281 | ist |
| 313 | ›Ziehen ohne Zurücklegen‹. Wenn ein Text | 282 | ›Ziehen ohne Zurücklegen‹. Wenn ein Text – wie bei den kürzeren Komödien und |
| 314 | Tragödien | 283 | Tragödien – weniger als 11.000 Wortformen umfasst, gilt für diesen Text der Modus |
| 315 | ›Ziehen mit Zurücklegen‹. | 284 | ›Ziehen mit Zurücklegen‹. |
| 316 | [ | 285 | [25]Insgesamt befinden sich fünf Vergleichstexte der Zielgattung und 20 Distraktortexte |
| 317 | (bei Test A) bzw. zehn Distraktortexte (bei den Tests B–D) im Vergleichskorpus. Die | 286 | (bei Test A) bzw. zehn Distraktortexte (bei den Tests B–D) im Vergleichskorpus. Die |
| 318 | erwartete Erkennungsquote bei einer Zufallsverteilung liegt damit bei 20 | 287 | erwartete Erkennungsquote bei einer Zufallsverteilung liegt damit bei 20% (A) bzw. |
| 319 | bei 33 | 288 | bei 33% (B–D). |
| 320 | [ | 289 | [26]Da in der vorliegenden Studie überprüft werden soll, ob und inwieweit die bevorzugte |
| 321 | Berücksichtigung der Guten Wörter zu einer verbesserten Textsortenerkennung führt, | 290 | Berücksichtigung der Guten Wörter zu einer verbesserten Textsortenerkennung führt, |
| 329 | Analyseverfahren und Auswertungsmethoden. Der Umgang mit Autorduplikaten ist ebenso | 298 | Analyseverfahren und Auswertungsmethoden. Der Umgang mit Autorduplikaten ist ebenso |
| 330 | wenig einheitlich wie der Umgang mit mehrfachen Gattungslabels.[ | 299 | wenig einheitlich wie der Umgang mit mehrfachen Gattungslabels.[19] |
| 331 | 300 | ||
| 333 | 302 | ||
| 334 | [ | 303 | [27]Bei diesem Testverfahren gebe ich jeweils alle zehn Kontrollgruppentexte der |
| 335 | Nicht-Zielgattungen als Distraktortexte ins Korpus | 304 | Nicht-Zielgattungen als Distraktortexte ins Korpus – es sei denn, es befindet |
| 336 | sich ein Autorenduplikat zu einem Text der Zielgattung darunter; in diesem Fall wird | 305 | sich ein Autorenduplikat zu einem Text der Zielgattung darunter; in diesem Fall wird |
| 347 | Delta-Abstand. | 316 | Delta-Abstand. |
| 348 | [ | 317 | [28]Durchgeführt werden dieses Tests ohne weitere Optimierungsmaßnahmen wie das |
| 349 | Eliminieren von Pronomina, jedoch mit Berücksichtigung der jeweiligen | 318 | Eliminieren von Pronomina, jedoch mit Berücksichtigung der jeweiligen |
| 350 | Gute-Wörter-Liste und mit Z-Wert-Begrenzung auf 1,64.[ | 319 | Gute-Wörter-Liste und mit Z-Wert-Begrenzung auf 1,64.[20] Die Z-Wert-Begrenzung |
| 351 | wird aufgrund der Annahme verwendet, dass textspezifisches Vokabular, das nicht | 320 | wird aufgrund der Annahme verwendet, dass textspezifisches Vokabular, das nicht |
| 354 | beruhen, weniger stark auf den Delta-Wert durchschlagen. | 323 | beruhen, weniger stark auf den Delta-Wert durchschlagen. |
| 355 | [ | 324 | [29]Bei der Auswertung ist zu bedenken, dass der ARI nicht direkt mit einer herkömmlichen |
| 356 | Erkennungsquote zu vergleichen ist. Bei dem oben beschriebenen Setting würde eine | 325 | Erkennungsquote zu vergleichen ist. Bei dem oben beschriebenen Setting würde eine |
| 357 | Zufallsverteilung nicht eine Erkennungsquote von 0%, sondern von 20 | 326 | Zufallsverteilung nicht eine Erkennungsquote von 0%, sondern von 20% bzw. 33% |
| 358 | ergeben. Eine Zufallsverteilung beim ARI-Wert ergibt den Wert 0; Clusterergebnisse, | 327 | ergeben. Eine Zufallsverteilung beim ARI-Wert ergibt den Wert 0; Clusterergebnisse, |
| 362 | abweichenden Wert für die Zufallsverteilung bedingt. Dieser Effekt verringert sich, | 331 | abweichenden Wert für die Zufallsverteilung bedingt. Dieser Effekt verringert sich, |
| 363 | je mehr die Erkennungsquote gegen 100 | 332 | je mehr die Erkennungsquote gegen 100% und der ARI-Wert gegen 1 tendiert. |
| 364 | [ | 333 | [30]Neben dem ARI wird hier auch Erkennungsquote (Recall) und False-Positives-Quote |
| 365 | notiert, auf deren Basis die Precision ermittelt und der F1-Score für die | 334 | notiert, auf deren Basis die Precision ermittelt und der F1-Score für die |
| 368 | herangezogen; für die Nicht-Zielgattungstexte wird also keine Erkennungsquote | 337 | herangezogen; für die Nicht-Zielgattungstexte wird also keine Erkennungsquote |
| 369 | ermittelt | 338 | ermittelt – deren Clusterverhalten geht ohnehin in den ARI ein. Bei der |
| 370 | False-Positives-Quote werden die Nicht-Zielgattungstexte berücksichtigt, die zur | 339 | False-Positives-Quote werden die Nicht-Zielgattungstexte berücksichtigt, die zur |
| 371 | Zielgattung den niedrigsten Delta-Abstand aufweisen. Da hier ein Zielklassentext | 340 | Zielgattung den niedrigsten Delta-Abstand aufweisen. Da hier ein Zielklassentext |
| 372 | gegen ein Korpus mit 9 Zielklassentexten und 38–40[ | 341 | gegen ein Korpus mit 9 Zielklassentexten und 38–40[21] Distraktortexten (A) |
| 373 | bzw. 18–20 Distraktortexten (B–D) getestet wird, würde eine Zufallsverteilung bei | 342 | bzw. 18–20 Distraktortexten (B–D) getestet wird, würde eine Zufallsverteilung bei |
| 374 | ca. | 343 | ca. |
| 375 | 18,4 | 344 | 18,4% (A) bzw. 31% (B–D) liegen. Die F1-Werte liegen durchwegs deutlich über den |
| 376 | ARI-Werten; bei letzteren gehen auch Anzahl und Clusteringverhalten der | 345 | ARI-Werten; bei letzteren gehen auch Anzahl und Clusteringverhalten der |
| 391 | 360 | ||
| 392 | | 361 | 200 |
| 393 | | 362 | 300 |
| 394 | | 363 | 400 |
| 395 | 364 | ||
| 396 | 365 | ||
| 397 | 366 | ||
| 398 | | 367 | Gute & ZWB |
| 399 | 57, | 368 | 57,3 |
| 400 | 63,4 | 369 | 63,4 |
| 416 | 385 | ||
| 417 | | 386 | Basis |
| 418 | 45,4 | 387 | 45,4 |
| 455 | 424 | ||
| 456 | a Anzahl der MFWs, die verwendet werdenb Erkennungsquote in %c Gute: Mit Gute-Wörter-Listed ZWB: Mit Z-Wert-Begrenzung auf 1,64e Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzung | ||
| 457 | |||
| 458 | |||
| 459 | |||
| 460 | Tab. 1: Test A1, Erkennungsquotentest mit fünf Vergleichstexten der Zielklasse, Test A1, | 425 | Tab. 1: Test A1, Erkennungsquotentest mit fünf Vergleichstexten der Zielklasse, Test A1, |
| 461 | ABE, BIL, GES, KOM, TRA. Beim Bag-of-Words-Test mit 10.000 MFWs werden die Texte 200 | 426 | ABE, BIL, GES, KOM, TRA. Beim Bag-of-Words-Test mit 10.000 MFWs werden die Texte 200 |
| 462 | verschiedenen Bag-Sets pro Gattung zugelost und Mittelwerte gebildet. | 427 | verschiedenen Bag-Sets pro Gattung zugelost und Mittelwerte gebildet. Abkürzungen: |
| 463 | [37]Die Guten Wörter führen zu einer deutlichen Verbesserung der Erkennungsquote. Der | 428 | Gute: Mit Gute-Wörter-Liste / ZWB: Mit Z-Wert-Begrenzung auf 1.64 / Basis: Ohne Gute-Wörter-Liste |
| 429 | und ohne Z-Wert-Begrenzung. | ||
| 430 | [31]Die Guten Wörter führen zu einer deutlichen Verbesserung der Erkennungsquote. Der | ||
| 464 | Verbesserungseffekt ist am stärksten ausgeprägt beim Bag-of-Words-Verfahren mit | 431 | Verbesserungseffekt ist am stärksten ausgeprägt beim Bag-of-Words-Verfahren mit |
| 466 | Z-Wert-Begrenzung erreicht. Im Vergleich zu Autorschaftsstudien liegen die Quoten | 433 | Z-Wert-Begrenzung erreicht. Im Vergleich zu Autorschaftsstudien liegen die Quoten |
| 467 | deutlich niedriger | 434 | deutlich niedriger – dort werden Werte >90% erreicht, selbst wenn sich nur ein |
| 468 | Text der | 435 | Text des*der Zielautors*in im Vergleichskorpus befindet.[22] |
| 469 | 436 | ||
| 476 | Volltexte | 443 | Volltexte |
| 477 | | 444 | 200 |
| 478 | | 445 | 300 |
| 479 | | 446 | 400 |
| 480 | 447 | ||
| 481 | 448 | ||
| 482 | | 449 | ARI Gute & ZWB |
| 483 | 0, | 450 | 0,34 |
| 484 | 0,28 | 451 | 0,28 |
| 499 | 466 | ||
| 500 | ARI | 467 | ARI Basis |
| 501 | 0,25 | 468 | 0,25 |
| 511 | 478 | ||
| 512 | | 479 | F1 Gute & ZWB |
| 513 | 0,68 | 480 | 0,68 |
| 541 | 508 | ||
| 542 | | 509 | EQ Gute & ZWB |
| 543 | 58 | 510 | 58 |
| 571 | 538 | ||
| 572 | | 539 | FP Gute & ZWB |
| 573 | 12,4 | 540 | 12,4 |
| 601 | 568 | ||
| 602 | | 569 | Diff ARI |
| 603 | 0,09 | 570 | 0,09 |
| 619 | 586 | ||
| 620 | a Anzahl der MFWs, die verwendet werdenb Erkennungsquote in %c ARI: Adjusted Rand Indexd Gute: Mit Gute-Wörter-Liste e ZWB: Mit Z-Wert-Begrenzung auf 1,64f Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzungg F1: Precision und Recall kombiniert h EQ: Erkennungsquote in % i FP: False-Positives-Quote in % (niedriger ist besser)j Diff: Differenzen zwischen Werten mit Gute-Wörter-Liste und mit Z-Wert-Begrenzung | 587 | Tab. 2: Test A2, ARI-Test mit 4 × 10 Distraktortexten, ABE, BIL, GES, KOM, TRA. Abkürzungen: |
| 621 | zum Basiswert | 588 | ARI: Adjusted Rand Index / F1: Precision und Recall kombiniert / Gute: Mit Gute-Wörter-Liste |
| 622 | 589 | / ZWB: Mit Z-Wert-Begrenzung auf 1.64 / EQ: Erkennungsquote in % / FP: False-Positives-Quote | |
| 623 | 590 | in % (niedriger ist besser) / Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzung | |
| 624 | 591 | / Diff: Differenzen zwischen Werten mit Gute-Wörter-Liste und mit Z-Wert-Begrenzung | |
| 625 | 592 | zum Basiswert. | |
| 626 | Tab. 2: Test A2, ARI-Test mit 4 × 10 Distraktortexten, ABE, BIL, GES, KOM, TRA. | 593 | [32]Die besten ARI-Werte finden sich bei der Kombination der bevorzugten Verwendung von |
| 627 | [38]Die besten ARI-Werte finden sich bei der Kombination der bevorzugten Verwendung von | ||
| 628 | Guten Wörtern mit der Z-Wert-Begrenzung bei 200 MFWs sowie bei den Werten mit | 594 | Guten Wörtern mit der Z-Wert-Begrenzung bei 200 MFWs sowie bei den Werten mit |
| 636 | begünstigt ein größerer Vektor eine bessere Erkennung. | 602 | begünstigt ein größerer Vektor eine bessere Erkennung. |
| 637 | [ | 603 | [33]Hier ein Blick in die Einzelwerte für die Gattungen bei 200 MFWs mit Guten Wörtern |
| 638 | und Z-Wert-Begrenzung: | 604 | und Z-Wert-Begrenzung: |
| 643 | 200 MFWs | 609 | 200 MFWs |
| 644 | | 610 | ARI |
| 645 | | 611 | F1 |
| 646 | | 612 | EQ |
| 647 | | 613 | FP |
| 648 | 614 | ||
| 684 | 650 | ||
| 685 | a ARI: Adjusted Rand Indexb F1: Precision und Recall kombiniertc EQ: Erkennungsquote in %d FP: False-Positives-Quote in % (niedriger ist besser) | ||
| 686 | |||
| 687 | |||
| 688 | |||
| 689 | Tab. 3: Test A2, ARI-Test mit 4 × 10 Distraktortexten, Einzelwerte, ABE, | 651 | Tab. 3: Test A2, ARI-Test mit 4 × 10 Distraktortexten, Einzelwerte, ABE, |
| 690 | BIL, GES, KOM, TRA. | 652 | BIL, GES, KOM, TRA. |
| 691 | [ | 653 | [34]Der Gesellschaftsroman erweist sich als problematisch – mit niedriger Erkennungsquote |
| 692 | und hoher False-Positives-Rate. Auch Bildungsromane und Tragödien zeigen eine hohe | 654 | und hoher False-Positives-Rate. Auch Bildungsromane und Tragödien zeigen eine hohe |
| 693 | False-Positives-Rate. Überraschend niedrig ist die False-Positives-Rate beim | 655 | False-Positives-Rate. Überraschend niedrig ist die False-Positives-Rate beim |
| 694 | Abenteuerroman, der insgesamt recht gut erkannt werden kann.[ | 656 | Abenteuerroman, der insgesamt recht gut erkannt werden kann.[23] |
| 695 | [ | 657 | [35]Die Bag-of-Words-Technik (hier mit 10.000 Wortformen) führt zu einer Verbesserung |
| 696 | der | 658 | der |
| 709 | 671 | ||
| 710 | | 672 | ARI |
| 711 | 0,28 | 673 | 0,28 |
| 715 | 677 | ||
| 716 | | 678 | F1 |
| 717 | 0,64 | 679 | 0,64 |
| 721 | 683 | ||
| 722 | | 684 | EQ |
| 723 | 53,3 | 685 | 53,3 |
| 727 | 689 | ||
| 728 | | 690 | FP |
| 729 | 13,9 | 691 | 13,9 |
| 731 | 15,7 | 693 | 15,7 |
| 732 | |||
| 733 | |||
| 734 | a ARI: Adjusted Rand Indexb F1: Precision und Recall kombiniertc EQ: Erkennungsquote in %d FP: False-Positives-Quote in % (niedriger ist besser) | ||
| 735 | |||
| 736 | |||
| 737 | 694 | ||
| 753 | 710 | ||
| 754 | | 711 | ARI Gute & ZWB |
| 755 | 0,31 | 712 | 0,31 |
| 771 | 728 | ||
| 772 | ARI | 729 | ARI Basis |
| 773 | 0,19 | 730 | 0,19 |
| 783 | 740 | ||
| 784 | | 741 | F1 Gute & ZWB |
| 785 | 0,76 | 742 | 0,76 |
| 813 | 770 | ||
| 814 | | 771 | EQ Gute & ZWB |
| 815 | 74,00 | 772 | 74,00 |
| 843 | 800 | ||
| 844 | | 801 | FP Gute & ZWB |
| 845 | 20,20 | 802 | 20,20 |
| 873 | 830 | ||
| 874 | | 831 | Diff ARI |
| 875 | 0,12 | 832 | 0,12 |
| 891 | 848 | ||
| 892 | a ARI: Adjusted Rand Indexb Gute: Mit Gute-Wörter-Listec ZWB: Mit Z-Wert-Begrenzung auf 1,64d Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzunge F1: Precision und Recall kombiniertf EQ: Erkennungsquote in %g FP: False-Positives-Quote in % (niedriger ist besser)h Diff: Differenzen zwischen Werten mit Gute-Wörter-Liste und mit Z-Wert-Begrenzung | ||
| 893 | zum Basiswert | ||
| 894 | |||
| 895 | |||
| 896 | |||
| 897 | |||
| 898 | Tab. 5: Test A3, ARI-Test mit 4 × 5 Distraktortexten, ABE, BIL, GES, KOM, | 849 | Tab. 5: Test A3, ARI-Test mit 4 × 5 Distraktortexten, ABE, BIL, GES, KOM, |
| 899 | TRA. | 850 | TRA. |
| 900 | [ | 851 | [36]Gegenüber dem Test mit 4 × 10 Distraktortexten geht eine Verbesserung der |
| 901 | Erkennungsquote mit einer Verschlechterung der False-Positives-Quote einher. Bei 200 | 852 | Erkennungsquote mit einer Verschlechterung der False-Positives-Quote einher. Bei 200 |
| 916 | 867 | ||
| 917 | | 868 | ARI Gute & ZWB |
| 918 | 0,62 | 869 | 0,62 |
| 934 | 885 | ||
| 935 | ARI | 886 | ARI Basis |
| 936 | 0,5 | 887 | 0,5 |
| 946 | 897 | ||
| 947 | | 898 | F1 Gute & ZWB |
| 948 | 0,88 | 899 | 0,88 |
| 976 | 927 | ||
| 977 | | 928 | EQ Gute & ZWB |
| 978 | 86,7 | 929 | 86,7 |
| 1006 | 957 | ||
| 1007 | | 958 | FP Gute & ZWB |
| 1008 | 10,0 | 959 | 10,0 |
| 1036 | 987 | ||
| 1037 | | 988 | Diff ARI |
| 1038 | 0,12 | 989 | 0,12 |
| 1054 | 1005 | ||
| 1055 | a ARI: Adjusted Rand Indexb Gute: Mit Gute-Wörter-Listec ZWB: Mit Z-Wert-Begrenzung auf 1,64d Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzunge F1: Precision und Recall kombiniertf EQ: Erkennungsquote in %g FP: False-Positives-Quote in % (niedriger ist besser)h Diff: Differenzen zwischen Werten mit Gute-Wörter-Liste und mit Z-Wert-Begrenzung | ||
| 1056 | zum Basiswert | ||
| 1057 | |||
| 1058 | |||
| 1059 | |||
| 1060 | Tab. 6: Test B, ARI-Test mit 2 × 10 Distraktortexten, ABE, BIL, KOM. | 1006 | Tab. 6: Test B, ARI-Test mit 2 × 10 Distraktortexten, ABE, BIL, KOM. |
| 1061 | [ | 1007 | [37]Bei diesem Test bleibt der schwer unterscheidbare Gesellschaftsroman außen vor. Die |
| 1062 | ARI-Werte verbessern sich in der Zeile ›Gute & ZWB‹ auf ein ordentliches Niveau, | 1008 | ARI-Werte verbessern sich in der Zeile ›Gute & ZWB‹ auf ein ordentliches Niveau, |
| 1070 | 1016 | ||
| 1071 | [ | 1017 | [38]Hier wird unter den Romansubgenres nur der besser unterscheidbare Abenteuerroman |
| 1072 | einbezogen. Test C ist der einzige Test in dieser Studie, in der nicht verschiedene | 1018 | einbezogen. Test C ist der einzige Test in dieser Studie, in der nicht verschiedene |
| 1073 | Romansubgenres beteiligt sind | 1019 | Romansubgenres beteiligt sind – hier kann man am ehesten von drei verschiedenen |
| 1074 | Gattungen sprechen. | 1020 | Gattungen sprechen. |
| 1084 | 1030 | ||
| 1085 | | 1031 | ARI Gute & ZWB |
| 1086 | 0,45 | 1032 | 0,45 |
| 1102 | 1048 | ||
| 1103 | ARI | 1049 | ARI Basis |
| 1104 | 0,45 | 1050 | 0,45 |
| 1114 | 1060 | ||
| 1115 | | 1061 | F1 Gute & ZWB |
| 1116 | 0,78 | 1062 | 0,78 |
| 1144 | 1090 | ||
| 1145 | | 1091 | EQ Gute & ZWB |
| 1146 | 73,33 | 1092 | 73,33 |
| 1174 | 1120 | ||
| 1175 | | 1121 | FP Gute & ZWB |
| 1176 | 13,68 | 1122 | 13,68 |
| 1204 | 1150 | ||
| 1205 | | 1151 | Diff ARI |
| 1206 | 0,00 | 1152 | 0,00 |
| 1222 | 1168 | ||
| 1223 | a ARI: Adjusted Rand Indexb Gute: Mit Gute-Wörter-Listec ZWB: Mit Z-Wert-Begrenzung auf 1,64d Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzunge F1: Precision und Recall kombiniertf EQ: Erkennungsquote in %g FP: False-Positives-Quote in % (niedriger ist besser)h Diff: Differenzen zwischen Werten mit Gute-Wörter-Liste und mit Z-Wert-Begrenzung | ||
| 1224 | zum Basiswert | ||
| 1225 | |||
| 1226 | |||
| 1227 | |||
| 1228 | Tab. 7: Test C, ARI-Test mit 2 × 10 Distraktortexten, ABE, KOM, TRA. | 1169 | Tab. 7: Test C, ARI-Test mit 2 × 10 Distraktortexten, ABE, KOM, TRA. |
| 1229 | [ | 1170 | [39]Bei den ARI-Werten wird hier ein Niveau erreicht, das zwischen dem ordentlichen |
| 1230 | Niveau der Testreihe B (ABE, BIL, KOM) und dem mäßigen Niveau der Testreihe A liegt. | 1171 | Niveau der Testreihe B (ABE, BIL, KOM) und dem mäßigen Niveau der Testreihe A liegt. |
| 1233 | Erkennungsquote. | 1174 | Erkennungsquote. |
| 1234 | [ | 1175 | [40]Auch hier setzen sich die Durchschnittswerte aus stark schwankenden Einzelwerten |
| 1235 | zusammen: Während der Abenteuerroman sehr gut clustert, sind die Daten bei den | 1176 | zusammen: Während der Abenteuerroman sehr gut clustert, sind die Daten bei den |
| 1264 | 1205 | ||
| 1265 | |||
| 1266 | Tab. 8: Test C, ARI-Test mit 2 × 10 Distraktortexten, Einzelwerte, ABE, | 1206 | Tab. 8: Test C, ARI-Test mit 2 × 10 Distraktortexten, Einzelwerte, ABE, |
| 1270 | 1210 | ||
| 1271 | [ | 1211 | [41]Anders als in den Testreihen A–C werden hier keine verschiedenen Gattungen, sondern |
| 1272 | lediglich Romansubgenres untersucht. Dies hat den Vorteil, dass dabei die teils | 1212 | lediglich Romansubgenres untersucht. Dies hat den Vorteil, dass dabei die teils |
| 1289 | 1229 | ||
| 1290 | | 1230 | Gute & ZWB |
| 1291 | 51,2 | 1231 | 51,2 |
| 1302 | 1242 | ||
| 1303 | | 1243 | Basis |
| 1304 | 35,7 | 1244 | 35,7 |
| 1331 | 1271 | ||
| 1332 | a Gute: Mit Gute-Wörter-Listeb ZWB: Mit Z-Wert-Begrenzung auf 1,64c Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzung | ||
| 1333 | |||
| 1334 | |||
| 1335 | |||
| 1336 | |||
| 1337 | Tab. 9: Test D1, Erkennungsquotentest mit fünf Vergleichstexten der | 1272 | Tab. 9: Test D1, Erkennungsquotentest mit fünf Vergleichstexten der |
| 1338 | Zielklasse, ABE, BIL, GES. | 1273 | Zielklasse, ABE, BIL, GES. |
| 1339 | [ | 1274 | [42]Die Erkennungsquote mit den Optimierungstechniken ist beim Bag-of-Words-Verfahren |
| 1340 | etwas besser als mit Volltexten; bei Test A war | 1275 | etwas besser als mit Volltexten; bei Test A war |
| 1363 | 1298 | ||
| 1364 | | 1299 | ARI Gute & ZWB |
| 1365 | 0,22 | 1300 | 0,22 |
| 1381 | 1316 | ||
| 1382 | ARI | 1317 | ARI Basis |
| 1383 | 0,04 | 1318 | 0,04 |
| 1393 | 1328 | ||
| 1394 | | 1329 | F1 Gute & ZWB |
| 1395 | 0,63 | 1330 | 0,63 |
| 1423 | 1358 | ||
| 1424 | | 1359 | EQ Gute & ZWB |
| 1425 | 55 | 1360 | 55 |
| 1453 | 1388 | ||
| 1454 | | 1389 | FP Gute & ZWB |
| 1455 | 18,29 | 1390 | 18,29 |
| 1483 | 1418 | ||
| 1484 | | 1419 | Diff ARI |
| 1485 | 0,18 | 1420 | 0,18 |
| 1501 | 1436 | ||
| 1502 | a ARI: Adjusted Rand Indexb Gute: Mit Gute-Wörter-Listec ZWB: Mit Z-Wert-Begrenzung auf 1,64d Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzunge F1: Precision und Recall kombiniertf EQ: Erkennungsquote in %g FP: False-Positives-Quote in % (niedriger ist besser)h Diff: Differenzen zwischen Werten mit Gute-Wörter-Liste und mit Z-Wert-Begrenzung | ||
| 1503 | zum Basiswert | ||
| 1504 | |||
| 1505 | |||
| 1506 | |||
| 1507 | |||
| 1508 | Tab. 10: Test D2, ARI-Test mit 2 × 10 Distraktortexten, ABE, BIL, GES. | 1437 | Tab. 10: Test D2, ARI-Test mit 2 × 10 Distraktortexten, ABE, BIL, GES. |
| 1509 | [ | 1438 | [43]Wiederum ist, wie ein Blick in die Subgenre-Einzelwerte in der Folgetabelle zeigt, |
| 1510 | die Erkennung beim Abenteuerroman deutlich besser, das Clustering beim | 1439 | die Erkennung beim Abenteuerroman deutlich besser, das Clustering beim |
| 1520 | 200 MFWs | 1449 | 200 MFWs |
| 1521 | | 1450 | ARI |
| 1522 | | 1451 | F1 |
| 1523 | | 1452 | EQ |
| 1524 | | 1453 | FP |
| 1525 | 1454 | ||
| 1547 | 1476 | ||
| 1548 | a ARI: Adjusted Rand Indexb F1: Precision und Recall kombiniertc EQ: Erkennungsquote in %d FP: False-Positives-Quote in % (niedriger ist besser) | ||
| 1549 | |||
| 1550 | |||
| 1551 | |||
| 1552 | |||
| 1553 | Tab. 11: Test D2, ARI-Test mit 2 × 10 Distraktortexten, Einzelwerte, ABE, | 1477 | Tab. 11: Test D2, ARI-Test mit 2 × 10 Distraktortexten, Einzelwerte, ABE, |
| 1557 | 1481 | ||
| 1558 | [ | 1482 | [44]Die gleiche Tendenz auf noch schlechterem Niveau zeigt sich bei der Variante mit nur |
| 1559 | fünf (statt zehn) ausgelosten Distraktortexten je Nicht-Zielklasse: | 1483 | fünf (statt zehn) ausgelosten Distraktortexten je Nicht-Zielklasse: |
| 1569 | 1493 | ||
| 1570 | | 1494 | ARI Gute & ZWB |
| 1571 | 0,06 | 1495 | 0,06 |
| 1587 | 1511 | ||
| 1588 | ARI | 1512 | ARI Basis |
| 1589 | -0,01 | 1513 | -0,01 |
| 1599 | 1523 | ||
| 1600 | | 1524 | F1 Gute & ZWB |
| 1601 | 0,60 | 1525 | 0,60 |
| 1629 | 1553 | ||
| 1630 | | 1554 | EQ Gute & ZWB |
| 1631 | 59,00 | 1555 | 59,00 |
| 1659 | 1583 | ||
| 1660 | | 1584 | FP Gute & ZWB |
| 1661 | 38,70 | 1585 | 38,70 |
| 1689 | 1613 | ||
| 1690 | | 1614 | Diff ARI |
| 1691 | 0,07 | 1615 | 0,07 |
| 1707 | 1631 | ||
| 1708 | a ARI: Adjusted Rand Indexb Gute: Mit Gute-Wörter-Listec ZWB: Mit Z-Wert-Begrenzung auf 1,64d Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzunge F1: Precision und Recall kombiniertf EQ: Erkennungsquote in %g FP: False-Positives-Quote in % (niedriger ist besser)h Diff: Differenzen zwischen Werten mit Gute-Wörter-Liste und mit Z-Wert-Begrenzung | ||
| 1709 | zum Basiswert | ||
| 1710 | |||
| 1711 | |||
| 1712 | |||
| 1713 | |||
| 1714 | Tab. 12: Test D3, ARI-Test mit 2 × 5 Distraktortexten, ABE, BIL, GES. | 1632 | Tab. 12: Test D3, ARI-Test mit 2 × 5 Distraktortexten, ABE, BIL, GES. |
| 1715 | [ | 1633 | [45]Problematisch an diesem Setting ist die Kombination von zehn Distraktortexten mit |
| 1716 | neun Zielklassentexten, gegen die im Einzeltest ein Zielklassentext getestet wird. | 1634 | neun Zielklassentexten, gegen die im Einzeltest ein Zielklassentext getestet wird. |
| 1717 | Eine Zufallsverteilung würde eine Erkennungsquote von 31 | 1635 | Eine Zufallsverteilung würde eine Erkennungsquote von 31% ergeben. Die |
| 1718 | Erkennungsquoten müssten also deutlich höher liegen, um einen guten ARI-Wert zu | 1636 | Erkennungsquoten müssten also deutlich höher liegen, um einen guten ARI-Wert zu |
| 1725 | 1643 | ||
| 1726 | [ | 1644 | [46]Da die kürzeren Komödien und Tragödien hier unberücksichtigt bleiben, wird es |
| 1727 | möglich, einen größeren Bereich an MFWs in den Test einzubeziehen. In den übrigen | 1645 | möglich, einen größeren Bereich an MFWs in den Test einzubeziehen. In den übrigen |
| 1733 | 2.530 (GES) Wortformen. Bei der Evaluation werden nun 500–4.000 MFWs verwendet. | 1651 | 2.530 (GES) Wortformen. Bei der Evaluation werden nun 500–4.000 MFWs verwendet. |
| 1734 | [ | 1652 | [47]Neben den üblichen Tests (in der Folgetabelle von unten nach oben: ›Basis‹: ohne Gute |
| 1735 | Wörter, ohne Z-Wert-Begrenzung; ›ZWB 1,64‹: nur Z-Wert-Begrenzung, ohne Gute Wörter; | 1653 | Wörter, ohne Z-Wert-Begrenzung; ›ZWB 1,64‹: nur Z-Wert-Begrenzung, ohne Gute Wörter; |
| 1755 | 1673 | ||
| 1756 | | 1674 | ARI G&ZWB 1,64 |
| 1757 | 0,19 | 1675 | 0,19 |
| 1766 | 1684 | ||
| 1767 | ARI | 1685 | ARI G&ZWB 1,2 |
| 1768 | 0,17 | 1686 | 0,17 |
| 1777 | 1695 | ||
| 1778 | ARI | 1696 | ARI G&ZWB 1,0 |
| 1779 | 0,14 | 1697 | 0,14 |
| 1788 | 1706 | ||
| 1789 | ARI | 1707 | ARI G&ZWBneg |
| 1790 | 0,17 | 1708 | 0,17 |
| 1821 | 1739 | ||
| 1822 | ARI | 1740 | ARI Basis |
| 1823 | 0,08 | 1741 | 0,08 |
| 1843 | 1761 | ||
| 1844 | | 1762 | F1 G&ZWB 1,64 |
| 1845 | 0,68 | 1763 | 0,68 |
| 1854 | 1772 | ||
| 1855 | F1 | 1773 | F1 G&ZWN 1,2 |
| 1856 | 0,67 | 1774 | 0,67 |
| 1865 | 1783 | ||
| 1866 | F1 | 1784 | F1 G&ZWB 1,0 |
| 1867 | 0,66 | 1785 | 0,66 |
| 1876 | 1794 | ||
| 1877 | F1 | 1795 | F1 G&ZWBneg |
| 1878 | 0,70 | 1796 | 0,70 |
| 1931 | 1849 | ||
| 1932 | | 1850 | EQ G&ZWB 1,64 |
| 1933 | 66,67 | 1851 | 66,67 |
| 1942 | 1860 | ||
| 1943 | EQ | 1861 | EQ G&ZWB 1,2 |
| 1944 | 63,33 | 1862 | 63,33 |
| 1953 | 1871 | ||
| 1954 | EQ | 1872 | EQ G&ZWB 1,0 |
| 1955 | 63,33 | 1873 | 63,33 |
| 1964 | 1882 | ||
| 1965 | EQ | 1883 | EQ G&ZWBneg |
| 1966 | 70 | 1884 | 70 |
| 2019 | 1937 | ||
| 2020 | | 1938 | FP G&ZWB 1,64 |
| 2021 | 29,74 | 1939 | 29,74 |
| 2030 | 1948 | ||
| 2031 | FP | 1949 | FP G&ZWB 1,2 |
| 2032 | 26,14 | 1950 | 26,14 |
| 2041 | 1959 | ||
| 2042 | FP | 1960 | FP G&ZWB 1,0 |
| 2043 | 27,81 | 1961 | 27,81 |
| 2052 | 1970 | ||
| 2053 | FP | 1971 | FP G&ZWBneg |
| 2054 | 31,32 | 1972 | 31,32 |
| 2096 | 2014 | ||
| 2097 | a ARI: Adjusted Rand Indexb Gute: Mit Gute-Wörter-Listec ZWB: Mit Z-Wert-Begrenzung auf 1,64d Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzunge F1: Precision und Recall kombiniertf EQ: Erkennungsquote in %g FP: False-Positives-Quote in % (niedriger ist besser) | ||
| 2098 | |||
| 2099 | |||
| 2100 | |||
| 2101 | Tab. 13: Test D4, ARI-Test mit 2 × 10 Distraktortexten und großem | 2015 | Tab. 13: Test D4, ARI-Test mit 2 × 10 Distraktortexten und großem |
| 2102 | MFW-Bereich, Volltexte, ABE, BIL, GES. | 2016 | MFW-Bereich, Volltexte, ABE, BIL, GES. |
| 2103 | [ | 2017 | [48]Bei den optimalen Parametern (Gute Wörter kombiniert mit Z-Wert-Begrenzung auf 1,0) |
| 2104 | werden sowohl bei ARI, F1-Score, Erkennungsquote und False-Positives die besten Werte | 2018 | werden sowohl bei ARI, F1-Score, Erkennungsquote und False-Positives die besten Werte |
| 2105 | erreicht. Der F1-Score verbessert sich gegenüber dem besten Wert in Testreihe D2 (0,67) nun auf 0,76. | 2019 | erreicht. Der F1-Score verbessert sich gegenüber dem besten Wert in Testreihe D2 (0,67) nun auf 0,76. |
| 2106 | [ | 2020 | [49]Für die optimalen Werte wurde noch ein Bag-of-Words-Tests durchgeführt mit |
| 2107 | Bag-of-Words mit je 20.000 Wortformen und 200 Iterationen je Einzelwert (Rechenzeit: | 2021 | Bag-of-Words mit je 20.000 Wortformen und 200 Iterationen je Einzelwert (Rechenzeit: |
| 2117 | 2031 | ||
| 2118 | | 2032 | ARI G&ZWB 1,0 |
| 2119 | 0,14 | 2033 | 0,14 |
| 2122 | 2036 | ||
| 2123 | | 2037 | F1 G&ZWB 1,0 |
| 2124 | 0,66 | 2038 | 0,66 |
| 2127 | 2041 | ||
| 2128 | | 2042 | EQ G&ZWB 1,0 |
| 2129 | 64,7 | 2043 | 64,7 |
| 2132 | 2046 | ||
| 2133 | | 2047 | FP G&ZWB 1,0 |
| 2134 | 31,01 | 2048 | 31,01 |
| 2137 | 2051 | ||
| 2138 | a ARI: Adjusted Rand Indexb Gute: Mit Gute-Wörter-Listec ZWB: Mit Z-Wert-Begrenzung auf 1,64d F1: Precision und Recall kombinierte EQ: Erkennungsquote in %f FP: False-Positives-Quote in % (niedriger ist besser) | ||
| 2139 | |||
| 2140 | |||
| 2141 | |||
| 2142 | |||
| 2143 | Tab. 14: Test D5, ARI-Test mit 2 × 10 Distraktortexten und großem | 2052 | Tab. 14: Test D5, ARI-Test mit 2 × 10 Distraktortexten und großem |
| 2148 | 2057 | ||
| 2149 | [ | 2058 | [50]Die Verwendung der Guten Wörter führt zu einer Verbesserung der Erkennungsquoten, |
| 2150 | die | 2059 | die |
| 2152 | Kombination führen beide Techniken zu einer Verbesserung der Erkennungsquoten, die | 2061 | Kombination führen beide Techniken zu einer Verbesserung der Erkennungsquoten, die |
| 2153 | nicht auf Kosten einer Verschlechterung der False-Positives-Quote erfolgt | 2062 | nicht auf Kosten einer Verschlechterung der False-Positives-Quote erfolgt – dies ist |
| 2154 | auch an den verbesserten ARI-Werten ablesbar. Insgesamt bleibt die Gattungserkennung | 2063 | auch an den verbesserten ARI-Werten ablesbar. Insgesamt bleibt die Gattungserkennung |
| 2157 | guter F1-Wert >0,9 erzielt. Der Test A2 mit allen fünf Textsorten bringt bei 200 | 2066 | guter F1-Wert >0,9 erzielt. Der Test A2 mit allen fünf Textsorten bringt bei 200 |
| 2158 | MFWs mäßige Erfolge mit F1: 0,68, einer Erkennungsquote von 58 | 2067 | MFWs mäßige Erfolge mit F1: 0,68, einer Erkennungsquote von 58% bei immerhin nur |
| 2159 | 12,4 | 2068 | 12,4% False-Positives hervor (etwas verlagert in Test A3: F1: 0,77, Erkennungsquote: |
| 2160 | 76%, False-Positives: 22,1%). | 2069 | 76%, False-Positives: 22,1%). |
| 2161 | [ | 2070 | [51]In dieser Studie sollte geprüft werden, ob das Gute-Wörter-Verfahren zu einer |
| 2162 | Verbesserung der Genre-Erkennung beitragen kann. Dazu lässt sich ein positiver Befund | 2071 | Verbesserung der Genre-Erkennung beitragen kann. Dazu lässt sich ein positiver Befund |
| 2166 | Textsortenlabels vermieden wurden. | 2075 | Textsortenlabels vermieden wurden. |
| 2167 | [ | 2076 | [52]Die gewählten Bildungs- und Gesellschaftsromane sowie Tragödien und Komödien auf |
| 2168 | digitalem Weg zu unterscheiden, bleibt eine anspruchsvolle Herausforderung. Zu | 2077 | digitalem Weg zu unterscheiden, bleibt eine anspruchsvolle Herausforderung. Zu |
| 2709 | 2618 | ||
| 2710 | |||
| 2711 | Tab. 15: Auszug aus den textsortenspezifischen Gute-Wörter-Listen: Jeweils | 2619 | Tab. 15: Auszug aus den textsortenspezifischen Gute-Wörter-Listen: Jeweils |
| 2756 | 2664 | ||
| 2757 | |||
| 2758 | Tab. 16: Duplikate in den Listen der Guten Wörter. | 2665 | Tab. 16: Duplikate in den Listen der Guten Wörter. |
| 2759 | [ | 2666 | [53]Das Verfahren, dass die Guten Wörter für eine Textsorte in Relation zu den vier |
| 2760 | anderen Textsorten auf Basis der mehrfach gemittelten Level-2-Differenzen gebildet | 2667 | anderen Textsorten auf Basis der mehrfach gemittelten Level-2-Differenzen gebildet |
| 2770 | Abenteuerroman fehlerfrei gelingt (vgl. Test C). | 2677 | Abenteuerroman fehlerfrei gelingt (vgl. Test C). |
| 2771 | [ | 2678 | [54]Wörter, die man in semantischer Hinsicht vielleicht auch intuitiv mit der Textsorte |
| 2772 | in Verbringen wollte, sind in den Gute-Wörter-Listen selten | 2679 | in Verbringen wollte, sind in den Gute-Wörter-Listen selten – die meisten Wortformen |
| 2773 | findet man auch sonst in längeren MfW-Listen. Wenn man gezielt sucht, könnten etwa | 2680 | findet man auch sonst in längeren MfW-Listen. Wenn man gezielt sucht, könnten etwa |
| 2778 | intersubjektiv nachvollziehbar zu begründen. | 2685 | intersubjektiv nachvollziehbar zu begründen. |
| 2779 | [ | 2686 | [55]Verben stehen recht erwartbar meist in der 3. Person Singular Präteritum, in der |
| 2780 | Abenteuerroman-Liste sind jedoch relativ viele Verben in der 2. Person Singular | 2687 | Abenteuerroman-Liste sind jedoch relativ viele Verben in der 2. Person Singular |
| 2781 | Präsens enthalten | 2688 | Präsens enthalten – womöglich ein Indikator für einen erhöhten Anteil an direkter |
| 2782 | Figurenrede. Dass ›Berlin‹ in den Listen steht, könnte damit korrespondieren, dass | 2689 | Figurenrede. Dass ›Berlin‹ in den Listen steht, könnte damit korrespondieren, dass |
| 2793 | [1] | 2700 | [1] |
| 2794 | Vgl. etwa Büttner et al. 2017. | 2701 | Vgl. etwa Büttner et al. |
| 2702 | 2017. | ||
| 2795 | 2703 | ||
| 2796 | [2] | 2704 | [2] |
| 2797 | Vgl. Hettinger et | 2705 | Vgl. Hettinger et al. 2016a, S. 158. |
| 2798 | Hettinger et | 2706 | Hettinger et al. 2015 berichten über eine verbesserte Erkennungsleistung mit Hilfe |
| 2799 | von SVMs, die auf der Basis von LDA-Topics erzielt wurde; vgl. ähnlich Hettinger | 2707 | von SVMs, die auf der Basis von LDA-Topics erzielt wurde; vgl. ähnlich Hettinger |
| 2800 | et | 2708 | et al. 2016b. Kim et al. 2017 vergleichen englische Abenteuerromane, humoristische |
| 2801 | Romane, Science Fiction, Liebesgeschichten und Detektivromane auf der Grundlage | 2709 | Romane, Science Fiction, Liebesgeschichten und Detektivromane auf der Grundlage |
| 2803 | Emotionsmodell mit Hilfe von Maschinellem Lernen (RF und MLP). Vgl. weiterhin | 2711 | Emotionsmodell mit Hilfe von Maschinellem Lernen (RF und MLP). Vgl. weiterhin |
| 2804 | Schöch 2020; Calvo Tello 2019; | 2712 | Schöch 2020; Calvo Tello 2019; Ardanuy / Sporleder 2014; Underwood et al. 2013; Eder / Rybicki 2011; Sharoff et al. 2010; Stamatatos et al. 2000; Kessler et al. |
| 2805 | 1997. | 2713 | 1997. |
| 2818 | [6] | 2726 | [6] |
| 2819 | Gittel / Köppe 2022, S. 13–22, kritisieren die Studie von Underwood 2016 für ihre Thesenbildung zu Genre-Grenzen, dem Generationen-Bezug von Genres und der | 2727 | Vgl. Büttner / Proisl 2016. |
| 2820 | Kohärenz von Genres, die auf der Grundlage von linguistischen Parametern mit Hilfe | ||
| 2821 | von maschinellem Lernen erfolgt. U.a. anhand der Textsorten Pastiche und Parodie stellen | ||
| 2822 | Gittel / Köppe in Frage, inwieweit linguistische Textmerkmale hinreichend für eine | ||
| 2823 | Genre-Bestimmung sein können. | ||
| 2824 | 2728 | ||
| 2825 | [7] | 2729 | [7] |
| 2826 | | 2730 | Vgl. Schöch 2014. |
| 2827 | 2731 | ||
| 2828 | [8] | 2732 | [8] |
| 2829 | Stachowiak 1973, S. 132. Vgl. zur Approximation bei der Modellbildung Saam / Gautschi 2015, S. 26–38. McCarty 2005, S 24, weist darauf hin, dass auch in der traditionellen Literaturwissenschaft Modelle | 2733 | Hettinger et al. |
| 2830 | omnipräsent sind – etwa bei der Beschreibung von Epochen. Gittel / Köppe 2022, S. 20, kritisieren insbesondere, dass die digitale Modellierung von Underwood anders | 2734 | 2016a, S. 161. |
| 2831 | als literaturwissenschaftliche Beschreibungen Kontexte und paratextuelle Informationen | ||
| 2832 | nicht einbeziehen, diese können jedoch für die Erkennung der Gattung eines Textes | ||
| 2833 | entscheidend sein. | ||
| 2834 | 2735 | ||
| 2835 | [9] | 2736 | [9] |
| 2836 | | 2737 | Vgl. Selbmann 1994, S. 96–120. |
| 2837 | 2738 | ||
| 2838 | [10] | 2739 | [10] |
| 2839 | Dieses Verfahren lässt sich durchaus kritisieren: Bedacht wird dabei nicht, wie oft | ||
| 2840 | einem Text die Eigenschaft zugesprochen wird, zu einer Textsorte zu gehören. Unberücksichtigt | ||
| 2841 | bleibt auch, ob die Zuordnungen auf einheitlichen Genre-Definitionen basieren. Um | ||
| 2842 | eigene Textsortenmodelle zu entwickeln und die Zuordnungen auf dieser Basis zu überprüfen, | ||
| 2843 | standen für die Studie nicht die nötigen Ressourcen zur Verfügung. Insoweit deviante | ||
| 2844 | Epochenbegriffe eingehen sollten, würden damit allerdings gelebte Praktiken im Fach | ||
| 2845 | berücksichtigt. | ||
| 2846 | |||
| 2847 | [11] | ||
| 2848 | Vgl. Büttner / Proisl 2016. | ||
| 2849 | |||
| 2850 | [12] | ||
| 2851 | Vgl. Schöch 2014. | ||
| 2852 | |||
| 2853 | [13] | ||
| 2854 | Hettinger et al. | ||
| 2855 | 2016a, S. 161. | ||
| 2856 | |||
| 2857 | [14] | ||
| 2858 | Vgl. Selbmann 1994, S. 96–120. | ||
| 2859 | |||
| 2860 | [15] | ||
| 2861 | Selbmann | 2740 | Selbmann |
| 2863 | 2742 | ||
| 2864 | [ | 2743 | [11] |
| 2865 | Dimpel 2018a; Dimpel et | 2744 | Dimpel 2018a; Dimpel et al. 2019; vgl. weiterhin Dimpel 2018b. |
| 2866 | Ein didaktisch aufbereiteter Foliensatz steht hier. | 2745 | Ein didaktisch aufbereiteter Foliensatz steht hier. |
| 2867 | 2746 | ||
| 2868 | [ | 2747 | [12] |
| 2869 | In Dimpel / Proisl 2019. | 2748 | In Dimpel / Proisl 2019. |
| 2870 | 2749 | ||
| 2871 | [ | 2750 | [13] |
| 2872 | 2751 | ||
| 2873 | Weitere Parameter für die Ermittlung der Guten Wörter: Verwendet wurden volle | 2752 | Weitere Parameter für die Ermittlung der Guten Wörter: Verwendet wurden volle |
| 2874 | Texte nach Entfernung der ersten 10 | 2753 | Texte nach Entfernung der ersten 10% der Wortformen. Die häufigsten 1.200 MFWs |
| 2875 | wurden verwendet. Experimente mit 1.500 MFWs haben schlechtere Ergebnisse | 2754 | wurden verwendet. Experimente mit 1.500 MFWs haben schlechtere Ergebnisse |
| 2877 | Tragödien teils recht kurz sind. Der kürzeste Text kommt nach dem Entfernen der | 2756 | Tragödien teils recht kurz sind. Der kürzeste Text kommt nach dem Entfernen der |
| 2878 | ersten 10 | 2757 | ersten 10% auf 5.473 Wortformen. Aus Rechenzeitgründen wurden Wortformen nach |
| 2879 | 75.000 Wortformen nicht mehr berücksichtigt (Cutoff) | 2758 | 75.000 Wortformen nicht mehr berücksichtigt (Cutoff) – über die Hälfte der Texte |
| 2880 | ist ohnehin nicht länger als 50.000 Wortformen. | 2759 | ist ohnehin nicht länger als 50.000 Wortformen. |
| 2881 | 2760 | ||
| 2882 | [ | 2761 | [14] |
| 2883 | In einem weiteren Prätest wurde | 2762 | In einem weiteren Prätest wurde |
| 2892 | 2771 | ||
| 2893 | [ | 2772 | [15] |
| 2894 | Abkürzungen: | 2773 | Abkürzungen: |
| 2897 | 2776 | ||
| 2898 | [ | 2777 | [16] |
| 2899 | Vgl. etwa Büttner et | 2778 | Vgl. etwa Büttner et al. 2017. |
| 2900 | 2779 | ||
| 2901 | [ | 2780 | [17] |
| 2902 | Weiterhin werden von der | 2781 | Weiterhin werden von der |
| 2907 | 2786 | ||
| 2908 | [ | 2787 | [18] |
| 2909 | In | 2788 | In |
| 2914 | 2793 | ||
| 2915 | [ | 2794 | [19] |
| 2916 | Ardanuy / Sporleder 2014, S. | 2795 | Ardanuy / Sporleder 2014, S. 37, akzeptieren etwa eine Klassifizierung bei |
| 2917 | mehrfachen Labels als korrekt, wenn die erkannte Klasse zumindest zu einem der | 2796 | mehrfachen Labels als korrekt, wenn die erkannte Klasse zumindest zu einem der |
| 2918 | Label passt, während in der vorliegenden Studie angestrebt wurde, Texte mit | 2797 | Label passt, während in der vorliegenden Studie angestrebt wurde, Texte mit |
| 2919 | mehrfachen Labels zu meiden. Eine Vergleichbarkeit der Studien leidet | 2798 | mehrfachen Labels zu meiden. Eine Vergleichbarkeit der Studien leidet – wie so oft |
| 2920 | im Bereich der Digital Humanities | 2799 | im Bereich der Digital Humanities – auch darunter, dass viele Publikationsorgane |
| 2921 | den Maximalumfang der Beiträge auf derart wenige Seiten einschränken, dass eine | 2800 | den Maximalumfang der Beiträge auf derart wenige Seiten einschränken, dass eine |
| 2925 | 2804 | ||
| 2926 | [ | 2805 | [20] |
| 2927 | Vgl. zur | 2806 | Vgl. zur |
| 2928 | Z-Wert-Begrenzung Evert et | 2807 | Z-Wert-Begrenzung Evert et al. 2016; Dimpel 2018b. |
| 2929 | 2808 | ||
| 2930 | [ | 2809 | [21] |
| 2931 | Es sind 40 | 2810 | Es sind 40 |
| 2934 | 2813 | ||
| 2935 | [ | 2814 | [22] |
| 2936 | Vgl. | 2815 | Vgl. |
| 2937 | etwa Büttner et | 2816 | etwa Büttner et al. 2017. |
| 2938 | 2817 | ||
| 2939 | [ | 2818 | [23] |
| 2940 | 2819 | ||
| 2941 | Eine ähnliche Tendenz beobachten Hettinger et | 2820 | Eine ähnliche Tendenz beobachten Hettinger et al. 2016a, S. 160. |
| 2942 | 2821 | ||
| 2952 | (CLfL). Hg. von Association for Computational Linguistics. (EACL 2014, Göteborg, | 2831 | (CLfL). Hg. von Association for Computational Linguistics. (EACL 2014, Göteborg, |
| 2953 | 27.04.2014) Stroudsburg, PA, 2014, S. 31–39. DOI: 10.3115/v1/W14-0905Andreas Büttner / Thomas Proisl: Stilometrie interdisziplinär: Merkmalsselektion | 2832 | 27.04.2014) Stroudsburg, PA, 2014, S. 31–39. DOI: 10.3115/v1/W14-0905Andreas Büttner / Friedrich Michael Dimpel / Stefan Evert / Fotis |
| 2833 | Jannidis / Steffen Pielström / Thomas Proisl / Isabella Reger / Christof | ||
| 2834 | Schöch / Thorsten Vitt: „Delta“ in der stilometrischen Autorschaftsattribution. In: | ||
| 2835 | Zeitschrift für digitale Geisteswissenschaften 2 (2017). DOI: 10.17175/2017_006Andreas Büttner / Thomas Proisl: Stilometrie interdisziplinär: Merkmalsselektion | ||
| 2954 | zur Differenzierung zwischen Übersetzer- und Fachvokabular. In: Modellierung, | 2836 | zur Differenzierung zwischen Übersetzer- und Fachvokabular. In: Modellierung, |
| 2956 | Forschungsparadigma. DHd 2016. Konferenzabstracts. Hg. von Elisabeth Burr. (DHd: 3, | 2838 | Forschungsparadigma. DHd 2016. Konferenzabstracts. Hg. von Elisabeth Burr. (DHd: 3, |
| 2957 | Leipzig, 07.–12.03.2016) Duisburg 2016, S. 70–74. DOI: 10.5281/zenodo.3679331 [Nachweis im GVK] Andreas Büttner / Friedrich Michael Dimpel / Stefan Evert / Fotis | 2839 | Leipzig, 07.–12.03.2016) Duisburg 2016, S. 70–74. DOI: 10.5281/zenodo.3679331 [Nachweis im GVK] José Calvo Tello: Gattungserkennung über 500 Jahre. In: DHd 2019 Digital |
| 2958 | Jannidis / Steffen Pielström / Thomas Proisl / Isabella Reger / Christof | ||
| 2959 | Schöch / Thorsten Vitt: „Delta“ in der stilometrischen Autorschaftsattribution. In: | ||
| 2960 | Zeitschrift für digitale Geisteswissenschaften 2 (2017). DOI: 10.17175/2017_006José Calvo Tello: Gattungserkennung über 500 Jahre. In: DHd 2019 Digital | ||
| 2961 | Humanities: multimedial & multimodal. Konferenzabstracts. Hg. von Patrick Sahle. | 2840 | Humanities: multimedial & multimodal. Konferenzabstracts. Hg. von Patrick Sahle. |
| 2962 | (DHd: 6, Frankfurt am Main u. a., 25.–29.03.2019) Frankfurt/Main 2019, S. 292–294. | 2841 | (DHd: 6, Frankfurt am Main u. a., 25.–29.03.2019) Frankfurt/Main 2019, S. 292–294. |
| 2963 | DOI: 10.5281/zenodo.2600812Friedrich Michael Dimpel: Der Computerphilologe als Interpret – ein Teilzeit-Empiriker? | 2842 | DOI: 10.5281/zenodo.2600812Friedrich Michael Dimpel / Daniel Schlager / Katharina Zeppezauer-Wachauer: Der |
| 2964 | In: Literatur interpretieren. Interdisziplinäre Beiträge zur Theorie und Praxis. Hg. | 2843 | Streit um die Birne. Autorschafts-Attributionstest mit Burrows’ Delta und dessen |
| 2965 | von Jan Borkowski / Stefan Descher / Felicitas Ferder / Philipp Heine. Münster 2015, | 2844 | Optimierung für Kurztexte am Beispiel der ‚Halben Birne‘ des Konrad von Würzburg. |
| 2966 | S. 339–359. DOI: 10.30965/9783957438973_018Friedrich Michael Dimpel (2018a): Die guten ins Töpfchen: Zur Anwendbarkeit von | 2845 | In: |
| 2846 | Digitale Mediävistik. Hg. von Roman Bleier / Franz Fischer / Torsten | ||
| 2847 | Hiltmann / Gabriel Viehhauser / Georg Vogeler. Berlin u. a. 2019, S. 71–90. [Nachweis im GVK] Friedrich Michael Dimpel / Thomas Proisl: Gute Wörter für Delta: Verbesserung der | ||
| 2848 | Autorschaftsattribution durch autorspezifische distinktive Wörter. In: DHd 2019 | ||
| 2849 | Digital Humanities: multimedial & multimodal. Konferenzabstracts. Hg. von Patrick | ||
| 2850 | Sahle. (DHd: 6, Frankfurt am Main u. a., 25.–29.03.2019) Frankfurt/Main 2019, | ||
| 2851 | S. 296–299. DOI: 10.5281/zenodo.2600812Friedrich Michael Dimpel (2018a): Die guten ins Töpfchen: Zur Anwendbarkeit von | ||
| 2967 | Burrows’ Delta bei kurzen mittelhochdeutschen Texten nebst eines Attributionstests | 2852 | Burrows’ Delta bei kurzen mittelhochdeutschen Texten nebst eines Attributionstests |
| 2972 | mittelhochdeutsche Texte, Z-Wert-Begrenzung und ein Normalisierungswörterbuch. Oder: | 2857 | mittelhochdeutsche Texte, Z-Wert-Begrenzung und ein Normalisierungswörterbuch. Oder: |
| 2973 | Auf welche Wörter kommt es bei Delta an? Göttingen 2018. (= Dariah-DE Working Papers, | 2858 | Auf welche Wörter kommt es bei Delta an? Göttingen 2018. (= Dariah-DE Working Papers, |
| 2974 | 25) URN: urn:nbn:de:gbv:7-dariah-2017-5-1Friedrich Michael Dimpel / Daniel Schlager / Katharina Zeppezauer-Wachauer: Der | 2859 | 25) URN: urn:nbn:de:gbv:7-dariah-2017-5-1Maciej Eder / Jan Rybicki: Deeper Delta Across Genres and Languages: Do We Really |
| 2975 | Streit um die Birne. Autorschafts-Attributionstest mit Burrows’ Delta und dessen | 2860 | Need the Most Frequent Words? In: Literary and Linguistic Computing 26 (2011), H. |
| 2976 | Optimierung für Kurztexte am Beispiel der ‚Halben Birne‘ des Konrad von Würzburg. | 2861 | 3, |
| 2977 | In: | 2862 | S. 315–321. DOI: 10.1093/llc/fqr031 [Nachweis im GVK] Stefan Evert / Fotis Jannidis / Steffen Pielström / Isabella Reger / Christof |
| 2978 | Digitale Mediävistik. Hg. von Roman Bleier / Franz Fischer / Torsten | 2863 | Schöch / Thorsten Vitt: Burrows’ Delta verstehen. In: Modellierung, Vernetzung, |
| 2979 | Hiltmann / Gabriel Viehhauser / Georg Vogeler. Berlin u. a. 2019, S. 71–90. [Nachweis im GVK] Friedrich Michael Dimpel / Thomas Proisl: Gute Wörter für Delta: Verbesserung der | ||
| 2980 | Autorschaftsattribution durch autorspezifische distinktive Wörter. In: DHd 2019 | ||
| 2981 | Digital Humanities: multimedial & multimodal. Konferenzabstracts. Hg. von Patrick | ||
| 2982 | Sahle. (DHd: 6, Frankfurt am Main u. a., 25.–29.03.2019) Frankfurt/Main 2019, | ||
| 2983 | S. 296–299. DOI: 10.5281/zenodo.2600812Maciej Eder / Jan Rybicki: Deeper Delta Across Genres and Languages: Do We Really | ||
| 2984 | Need the Most Frequent Words? In: Literary and Linguistic Computing 26 (2011), H. 3, | ||
| 2985 | S. 315–321. DOI: 10.1093/llc/fqr031 [Nachweis im GVK] Stefan Evert / Fotis Jannidis / Friedrich Michael Dimpel / Christof | ||
| 2986 | Schöcht / Steffen Pielströmt / Thorsten Vitt / Isabella Regert / Andreas Büttner / | ||
| 2987 | Thomas Proisl: Burrows Delta verstehen. In: Modellierung, Vernetzung, | ||
| 2988 | Visualisierung. Die Digital Humanities als fächerübergreifendes Forschungsparadigma. | 2864 | Visualisierung. Die Digital Humanities als fächerübergreifendes Forschungsparadigma. |
| 2989 | DHd 2016. Konferenzabstracts. Hg. von Elisabeth Burr. 2. überarbeitete und erweiterte | 2865 | DHd 2016. Konferenzabstracts. Hg. von Elisabeth Burr. 2. überarbeitete und erweiterte |
| 2990 | Ausgabe. (DHd: 3, Leipzig, 07.–12.03.2016) Duisburg 2016, S. 83–86. DOI: 110.5281/zenodo.3679330Stephan Fuchs: Hybride Helden: Gwigalois und Willehalm. Beiträge zum Heldenbild | 2866 | Ausgabe. (DHd: 3, Leipzig, 07.–12.03.2016) Duisburg 2016, S. 62–65. [online] Stephan Fuchs: Hybride Helden: Gwigalois und Willehalm. Beiträge zum Heldenbild |
| 2991 | und zur Poetik des Romans im frühen 13. Jahrhundert. Heidelberg 1997. (= Frankfurter | 2867 | und zur Poetik des Romans im frühen 13. Jahrhundert. Heidelberg 1997. (= Frankfurter |
| 2992 | Beiträge zur Germanistik, 31) [Nachweis im GVK] Benjamin Gittel / Tilmann Köppe: On the Distance Between Traditional and DH-Based | 2868 | Beiträge zur Germanistik, 31) [Nachweis im GVK] Lena Hettinger / Martin Becker / Isabella Reger / Fotis Jannidis / Andreas Hotho: |
| 2993 | Genre Theory. In: Digitale Verfahren in der Literaturwissenschaft. Hg. von Jan Horstmann / | ||
| 2994 | Frank Fischer. Münster 2022. (= Sonderausgabe Textpraxis. Digitales Journal für Philologie, | ||
| 2995 | 6). DOI: 10.17879/64059431694Lena Hettinger / Martin Becker / Isabella Reger / Fotis Jannidis / Andreas Hotho: | ||
| 2996 | Genre classification on German novels. In: Database and expert systems applications. | 2869 | Genre classification on German novels. In: Database and expert systems applications. |
| 2997 | 26th International Conference. Hg. von Qiming Chen | 2870 | 26th International Conference. Hg. von Qiming Chen / Abdelkader Hameurlain / Farouk |
| 2998 | Toumani | 2871 | Toumani / Roland Wagner / Hendrik Decker. (DEXA: 26, Valencia, 01.–04.09.2015). Cham |
| 2999 | u. | 2872 | u. a. 2015, S. 249–253. DOI: 10.1109/DEXA.2015.62 [Nachweis im GVK] Lena Hettinger / Isabella Reger / Fotis Jannidis / Andreas Hotho (2016a): |
| 3000 | Classification of Literary Subgenres. In: Modellierung, Vernetzung, Visualisierung. | 2873 | Classification of Literary Subgenres. In: Modellierung, Vernetzung, Visualisierung. |
| 3005 | Humanities 2016. Conference Abstracts. (DH 2016, Krakau, 11.-16.07.2016) Krakau 2016. | 2878 | Humanities 2016. Conference Abstracts. (DH 2016, Krakau, 11.-16.07.2016) Krakau 2016. |
| 3006 | [online]Brett Kessler / Geoffrey Nunberg / Hinrich | 2879 | [online]Brett Kessler / Geoffrey Nunberg / Hinrich Schutze: Automatic Detection of Text |
| 3007 | Genre. In: 35th Annual Meeting of the Association for Computational Linguistics and | 2880 | Genre. In: 35th Annual Meeting of the Association for Computational Linguistics and |
| 3014 | Feldman / Anna Kazantseva / Nils Reiter / Stan Szpakowicz. (SIGHUM: 11, Vancouver, | 2887 | Feldman / Anna Kazantseva / Nils Reiter / Stan Szpakowicz. (SIGHUM: 11, Vancouver, |
| 3015 | 04.08.2017) Stroudsburg, PA, 2017, S. 17–26. DOI: 10.18653/v1/W17-2203Willard McCarty: Humanities Computing. London / New York 2005. [Nachweis im GVK] Nicole J. Saam / Thomas Gautschi: Modellbildung in den Sozialwissenschaften. In: Handbuch | 2888 | 04.08.2017) Stroudsburg, PA, 2017, S. 17–26. DOI: 10.18653/v1/W17-2203Christof Schöch: Corneille, Molière et les autres. Stilometrische Analysen zu |
| 3016 | Modellbildung und Simulation in den Sozialwissenschaften. Hg. von Norman Braun / Nicole | ||
| 3017 | J. Saam. Wiesbaden 2015, S. 15–60. DOI: 10.1007/978-3-658-01164-2Christof Schöch: Corneille, Molière et les autres. Stilometrische Analysen zu | ||
| 3018 | Autorschaft und Gattungszugehörigkeit im französischen Theater der Klassik. In: | 2889 | Autorschaft und Gattungszugehörigkeit im französischen Theater der Klassik. In: |
| 3019 | Literaturwissenschaft im digitalen Medienwandel. Hg. von Christof Schöch / Lars | 2890 | Literaturwissenschaft im digitalen Medienwandel. Hg. von Christof Schöch / Lars |
| 3020 | Schneider. Berlin 2014, S. 130–157. (= | 2891 | Schneider. Berlin 2014, S. 130–157. (= Philologie im Netz / Beiheft, 7) PDF. [online] Christof Schöch: Computational Genre Analysis. In: Digital Humanities for Literary |
| 3021 | Studies: Methods, Tools & Practices. Hg. von James O'Sullivan. College Station, | 2892 | Studies: Methods, Tools & Practices. Hg. von James O'Sullivan. College Station, |
| 3022 | TX 2020. Preprint. PDF. [online] Armin Schulz: Poetik des Hybriden. Schema, Variation und intertextuelle | 2893 | TX 2020. Preprint. PDF. [online] Armin Schulz: Poetik des Hybriden. Schema, Variation und intertextuelle |
| 3023 | Kombinatorik in der Minne- und Aventiureepik: ‚Willehalm von Orlens‘ | 2894 | Kombinatorik in der Minne- und Aventiureepik: ‚Willehalm von Orlens‘ – ‚Partonopier |
| 3024 | und Meliur‘ | 2895 | und Meliur‘ – ‚Wilhelm von Österreich‘ – ‚Die schöne Magelone‘. Berlin 2000. (= |
| 3025 | Studien und Quellen, 161) [Nachweis im GVK] Rolf Selbmann: Der deutsche Bildungsroman. 2., überarbeitete und erweiterte | 2896 | Philologische Studien und Quellen, 161) [Nachweis im GVK] Rolf Selbmann: Der deutsche Bildungsroman. 2., überarbeitete und erweiterte |
| 3026 | Auflage. Stuttgart u. | 2897 | Auflage. Stuttgart u. a. 1994. (= Sammlung Metzler, 214) [Nachweis im GVK] Serge Sharoff / Zhili Wu / Katja Markert: The Web Library of Babel: evaluating |
| 3027 | genre collections. In: Proceedings of the 7th International Conference on Language | 2898 | genre collections. In: Proceedings of the 7th International Conference on Language |
| 3029 | Maegaard / Joseph Mariani / Jan Odijk / Stelios Piperidis / Mike Rosner / Daniel | 2900 | Maegaard / Joseph Mariani / Jan Odijk / Stelios Piperidis / Mike Rosner / Daniel |
| 3030 | Tapias. (LREC’10: 7, Valetta, 17.-23.05.2010) Paris 2010. PDF. [online] | 2901 | Tapias. (LREC’10: 7, Valetta, 17.-23.05.2010) Paris 2010. PDF. [online] Efstathios Stamatatos / Nikos Fakotakis / George Kokkinakis: Automatic text |
| 3031 | categorization in terms of genre and author. In: Computational Linguistics 26 (2000), | 2902 | categorization in terms of genre and author. In: Computational Linguistics 26 (2000), |
| 3033 | Optimierung für Kurztexte am Beispiel der ‚Halben Birne‘ des Konrad von Würzburg: | 2904 | Optimierung für Kurztexte am Beispiel der ‚Halben Birne‘ des Konrad von Würzburg: |
| 3034 | Anhang | 2905 | Anhang – Dimpel: Gute Wörter und Level-2-Differenzen bei Delta. Hg. von ULB Münster. |
| 3035 | 2022. [online] Ted Underwood / Michael L. Black / Loretta Auvil / Boris Capitanu: Mapping mutable | 2906 | 2022. [online] Ted Underwood / Michael L. Black / Loretta Auvil / Boris Capitanu: Mapping mutable |
| 3037 | Conference on Big Data. Hg. von Hu Xiaohua. 2 Bde. (Silicon Valley, CA, | 2908 | Conference on Big Data. Hg. von Hu Xiaohua. 2 Bde. (Silicon Valley, CA, |
| 3038 | 06.–09.10.2013) Piscataway, NJ 2013. Bd. 1: S. 95–103. DOI: 10.1109/BigData.2013.6691676 [Nachweis im GVK] Ted Underwood: The Life Cycles of Genres. In: Cultural Analytics 2 (2016), H. 2. DOI: | 2909 | 06.–09.10.2013) Piscataway, NJ 2013. Bd. 1: S. 95–103. DOI: 10.1109/BigData.2013.6691676 [Nachweis im GVK] Gabriel Viehhauser: Digitale Gattungsgeschichten. Minnesang zwischen generischer |
| 3039 | 10.22148/16.005Gabriel Viehhauser: Digitale Gattungsgeschichten. Minnesang zwischen generischer | ||
| 3040 | Konstanz und Wende. In: Zeitschrift für digitale Geisteswissenschaften 2 (2017). DOI: | 2910 | Konstanz und Wende. In: Zeitschrift für digitale Geisteswissenschaften 2 (2017). DOI: |
| 3045 | 2915 | ||
| 3046 | |||
| 3047 | |||
| 3048 | Tabellenverzeichnis | 2916 | Tabellenverzeichnis |
| 3049 | 2917 | ||
| 3050 | Tab. 1: Test A1, Erkennungsquotentest mit fünf Vergleichstexten der Zielklasse, Test A1, | 2918 | |
| 3051 | ABE, BIL, GES, KOM, TRA. Beim Bag-of-Words-Test mit 10.000 MFWs werden die Texte 200 | 2919 | Tab. 1: Test A1, Erkennungsquotentest mit fünf Vergleichstexten der Zielklasse, Test |
| 3052 | verschiedenen Bag-Sets pro Gattung zugelost und Mittelwerte gebildet. | 2920 | A1, ABE, BIL, GES, KOM, TRA. Beim Bag-of-Words-Test mit 10.000 MFWs werden die Texte |
| 2921 | 200 verschiedenen Bag-Sets pro Gattung zugelost und Mittelwerte gebildet. | ||
| 2922 | Abkürzungen: Gute: Mit Gute-Wörter-Liste / ZWB: Mit Z-Wert-Begrenzung auf 1.64 / | ||
| 2923 | Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzung. | ||
| 2924 | |||
| 2925 | |||
| 3053 | Tab. 2: Test A2, ARI-Test mit 4 × 10 Distraktortexten, ABE, BIL, GES, KOM, TRA. | 2926 | Tab. 2: Test A2, ARI-Test mit 4 × 10 Distraktortexten, ABE, BIL, GES, KOM, TRA. |
| 3054 | Tab. 3: Test A2, ARI-Test mit 4 × 10 Distraktortexten, Einzelwerte, ABE, | 2927 | Abkürzungen: ARI: Adjusted Rand Index / F1: Precision und Recall kombiniert / Gute: |
| 3055 | BIL, GES, KOM, TRA. | 2928 | Mit Gute-Wörter-Liste / ZWB: Mit Z-Wert-Begrenzung auf 1.64 / EQ: Erkennungsquote |
| 3056 | Tab. 4: Test A2, ARI-Test mit 4 × 10 Distraktortexten, Bag-of-Words, ABE, | 2929 | in |
| 3057 | BIL, GES, KOM, TRA. | 2930 | % / FP: False-Positives-Quote in % (niedriger ist besser) / Basis: Ohne |
| 3058 | Tab. 5: Test A3, ARI-Test mit 4 × 5 Distraktortexten, ABE, BIL, GES, KOM, | 2931 | Gute-Wörter-Liste und ohne Z-Wert-Begrenzung / Diff: Differenzen zwischen Werten mit |
| 3059 | TRA. | 2932 | Gute-Wörter-Liste und mit Z-Wert-Begrenzung zum Basiswert. |
| 2933 | |||
| 2934 | |||
| 2935 | Tab. 3: Test A2, ARI-Test mit 4 × 10 Distraktortexten, Einzelwerte, ABE, BIL, GES, | ||
| 2936 | KOM, TRA. | ||
| 2937 | |||
| 2938 | |||
| 2939 | Tab. 4: Test A2, ARI-Test mit 4 × 10 Distraktortexten, Bag-of-Words, ABE, BIL, GES, | ||
| 2940 | KOM, TRA. | ||
| 2941 | |||
| 2942 | |||
| 2943 | Tab. 5: Test A3, ARI-Test mit 4 × 5 Distraktortexten, ABE, BIL, GES, KOM, TRA. | ||
| 2944 | |||
| 2945 | |||
| 3060 | Tab. 6: Test B, ARI-Test mit 2 × 10 Distraktortexten, ABE, BIL, KOM. | 2946 | Tab. 6: Test B, ARI-Test mit 2 × 10 Distraktortexten, ABE, BIL, KOM. |
| 2947 | |||
| 2948 | |||
| 3061 | Tab. 7: Test C, ARI-Test mit 2 × 10 Distraktortexten, ABE, KOM, TRA. | 2949 | Tab. 7: Test C, ARI-Test mit 2 × 10 Distraktortexten, ABE, KOM, TRA. |
| 3062 | Tab. 8: Test C, ARI-Test mit 2 × 10 Distraktortexten, Einzelwerte, ABE, | 2950 | |
| 3063 | KOM, TRA (Volltexte, mit Guten Wörtern und Z-Wert-Begrenzung). | 2951 | |
| 3064 | Tab. 9: Test D1, Erkennungsquotentest mit fünf Vergleichstexten der | 2952 | Tab. 8: Test C, ARI-Test mit 2 × 10 Distraktortexten, Einzelwerte, ABE, KOM, TRA |
| 3065 | Zielklasse, ABE, BIL, GES. | 2953 | (Volltexte, mit Guten Wörtern und Z-Wert-Begrenzung). |
| 2954 | |||
| 2955 | |||
| 2956 | Tab. 9: Test D1, Erkennungsquotentest mit fünf Vergleichstexten der Zielklasse, ABE, | ||
| 2957 | BIL, GES. | ||
| 2958 | |||
| 2959 | |||
| 3066 | Tab. 10: Test D2, ARI-Test mit 2 × 10 Distraktortexten, ABE, BIL, GES. | 2960 | Tab. 10: Test D2, ARI-Test mit 2 × 10 Distraktortexten, ABE, BIL, GES. |
| 3067 | Tab. 11: Test D2, ARI-Test mit 2 × 10 Distraktortexten, Einzelwerte, ABE, | 2961 | |
| 3068 | BIL, GES. | 2962 | |
| 2963 | Tab. 11: Test D2, ARI-Test mit 2 × 10 Distraktortexten, Einzelwerte, ABE, BIL, | ||
| 2964 | GES. | ||
| 2965 | |||
| 2966 | |||
| 3069 | Tab. 12: Test D3, ARI-Test mit 2 × 5 Distraktortexten, ABE, BIL, GES. | 2967 | Tab. 12: Test D3, ARI-Test mit 2 × 5 Distraktortexten, ABE, BIL, GES. |
| 3070 | Tab. 13: Test D4, ARI-Test mit 2 × 10 Distraktortexten und großem | 2968 | |
| 3071 | MFW-Bereich, Volltexte, ABE, BIL, GES. | 2969 | |
| 3072 | Tab. 14: Test D5, ARI-Test mit 2 × 10 Distraktortexten und großem | 2970 | Tab. 13: Test D4, ARI-Test mit 2 × 10 Distraktortexten und großem MFW-Bereich, |
| 3073 | MFW-Bereich, Bag-of-Words (20.000 Wortformen), ABE, BIL, GES. | 2971 | Volltexte, ABE, BIL, GES. |
| 3074 | Tab. 15: Auszug aus den textsortenspezifischen Gute-Wörter-Listen: Jeweils | 2972 | |
| 3075 | 100 Wortformen mit den höchsten Level-2-Differenzen. | 2973 | |
| 2974 | Tab. 14: Test D5, ARI-Test mit 2 × 10 Distraktortexten und großem MFW-Bereich, | ||
| 2975 | Bag-of-Words (20.000 Wortformen), ABE, BIL, GES. | ||
| 2976 | |||
| 2977 | |||
| 2978 | Tab. 15: Auszug aus den textsortenspezifischen Gute-Wörter-Listen: Jeweils 100 | ||
| 2979 | Wortformen mit den höchsten Level-2-Differenzen. | ||
| 2980 | |||
| 2981 | |||
| 3076 | Tab. 16: Duplikate in den Listen der Guten Wörter. | 2982 | Tab. 16: Duplikate in den Listen der Guten Wörter. |