<?xml version="1.0" encoding="utf-8"?>
<TEI xmlns="http://www.tei-c.org/ns/1.0" xmlns:html="http://www.w3.org/1999/html"
   xmlns:tei="http://www.tei-c.org/ns/1.0" xmlns:xlink="http://www.w3.org/1999/xlink"
   xmlns:xhtml="http://www.w3.org/1999/xhtml">
   <teiHeader>
      <fileDesc>
         <titleStmt>
            <title>
               <biblStruct>
                  <analytic>
                     <title level="a">Gute Wörter, schwaches Gattungssignal. Differenzen zwischen
                        Roman-Subgenres und Dramen mit Delta und signifikantem Wortschatz
                        aufspüren</title>
                     <respStmt>
                           <persName>
                                 <forename>Friedrich Michael</forename>
                                 <surname>Dimpel</surname>
                              <email>mail@dimpel.de</email>
                              <idno type="gnd">1111656460</idno>
                              <idno type="orcid">0000-0003-4833-4897</idno>
                    <affiliation>Friedrich-Alexander-Universität Erlangen-Nürnberg</affiliation>
                           </persName>
                        <resp ref="http://id.loc.gov/vocabulary/relators/aut">Author</resp>
                     </respStmt>
                     <idno type="doi">10.17175/2022_009_v2</idno>
                     <idno type="ppn">1866422553</idno>
                     <idno type="zfdg">2022.009_v2</idno>
                     <idno type="url">https://www.zfdg.de/node/470</idno>
                     <date when="2022-11-17">17.11.2022</date>
                     <date when="2023-11-14">14.11.2023</date>
                  </analytic>
                  <monogr>
                     <title level="j">Zeitschrift für digitale Geisteswissenschaften</title>
                     <respStmt>
                        <resp>Publiziert von</resp>
                        <orgName role="marc_pbl">Herzog August Bibliothek</orgName>
                     </respStmt>
                     <respStmt>
                        <resp ref="http://id.loc.gov/vocabulary/relators/dtm">Transformation der Word Vorlage nach TEI</resp>
                        <persName>
                           <surname>Baumgarten</surname>
                           <forename>Marcus</forename>
                           <idno type="gnd">1192832655</idno>
                           <idno type="orcid">0000-0003-0801-9462</idno>
                        </persName>
                     </respStmt>
                     <availability status="free">
                        <p>Available at <ref target="https://www.zfdg.de">https://www.zfdg.de</ref>
                        </p>
                     </availability>
                     <imprint>
                       <biblScope unit="year">2022</biblScope>
                     <biblScope unit="artikel">09</biblScope>
                     </imprint>
                     </monogr>
               </biblStruct>
            </title>
         </titleStmt>
         <editionStmt>
            <edition>Elektronische Ausgabe nach TEI P5</edition>
         </editionStmt>
         <publicationStmt>
            <distributor>
               <name>
                  <orgName>Herzog August Bibliothek Wolfenbüttel</orgName>
               </name>
            </distributor>
            <idno type="doi">10.17175/zfdg.01</idno>
            <idno type="ppn">0819494402</idno>
            <authority>
               <name>Herzog August Bibliothek</name>
               <address>
                  <addrLine>Lessingplatz 1</addrLine>
                  <addrLine>38304 Wolfenbüttel</addrLine>
               </address>
            </authority>
            <authority>
               <name>Forschungsverbund Marbach Weimar Wolfenbüttel</name>
               <address>
                  <addrLine>Burgplatz 4</addrLine>
                  <addrLine>99423 Weimar </addrLine>
               </address>
            </authority>
            <availability status="free">
               <p> Sofern nicht anders angegeben </p>
               <licence target="https://creativecommons.org/licenses/by-sa/4.0/">CC BY-SA 4.0</licence>
            </availability>
            <availability status="free">
               <p> Available at <ref target="workID">https://www.zfdg.de; (c) Forschungsverbund
                     MWW</ref>
               </p>
            </availability>
         </publicationStmt>
         <sourceDesc>
            <p>Einreichung als Fachartikel in der ZfdG durch die Autor*innen</p>
         </sourceDesc>
      </fileDesc>
      <encodingDesc>
         <editorialDecl>            
            <p>Transformation der WORD-Vorlage nach XML/TEI-P5 durch TEI-Oxgarage und
               XSLT-Skripten</p>
            <p>Medienrechte liegen bei den Autor*innen</p>
            <p xml:lang="de">Lektorat des Textes durch die Redaktion in Person von <persName>Caroline Jansky</persName>.</p>
            <p>All links checked<date when="2023-10-30">30.10.2023</date>
            </p>
         </editorialDecl>
      </encodingDesc>
      <profileDesc>
         <creation>Einreichung als Artikel der Zeitschrift für digitale
            Geisteswissenschaften</creation>
         <langUsage>
            <language ident="de">Text auf Deutsch</language>
            <language ident="de">Abstract auf Deutsch</language>
            <language ident="en">Abstract auf Englisch</language>
         </langUsage>
         <textClass>
            <keywords scheme="gnd">
               <term>Gattungstheorie<ref target="4137287-6"/></term>
                  <term>Literaturgattung<ref target="4074285-4"/></term>
                     <term>Literaturwissenschaft<ref target="gnd/4036034-9"/></term>
                        <term>Statistische Stilistik<ref target="1130711129"/>
               </term>
            </keywords>
         </textClass>
      </profileDesc>
      <revisionDesc>         
         <change when="2023-11-14" n="2.0" status="published">
                        <p>Korrekturen entlang der Monita in den Gutachten: Sprachliche Verbesserungen; Ergänzungen in Kapitel 1 und 2 sowie in der Bibliografie; Ergänzung der Tabellenbeschriftungen, Aufschlüsselung von Abkürzungen</p>
         </change>
         
      </revisionDesc> 
   </teiHeader>
   <text>
      <body>
         <div>
            <div type="abstract">
               <argument xml:lang="de">
                  <p>Untersucht wird, inwieweit sich die automatische Erkennung von Genres bzw.
                     Subgenres mit Burrows’ Delta durch signifikantes Vokabular (›Gute Wörter‹) und
                     Z-Wert-Begrenzung verbessern lässt. Auf einem Teilkorpus werden zu den Genres
                     Abenteuerroman, Bildungsroman, Gesellschaftsroman, Komödie und Tragödie die
                     ›Guten Wörter‹ ermittelt; auf einem zweiten Teilkorpus wird evaluiert. Bei
                     allen fünf Textsorten steigen die F1-Werte durch diese Optimierungsmaßnahmen,
                     beispielsweise von 0,65 auf 0,77. Bei Abenteuerroman, Bildungsroman und Komödie
                     steigen die F1-Werte beispielsweise von 0,79 auf 0,91. Die Klassifikation von
                     Abenteuerroman versus Drama und von Komödie versus Abenteuer- und Bildungsroman
                     gelingt fehlerfrei (ARI=1). Während das Gute-Wörter-Verfahren den Recall
                     steigert, begrenzt die Z-Wert-Begrenzung die False-Positives.</p>
               </argument>
               <argument xml:lang="en">
                  <p>It is investigated to what extent the automatic recognition of genres or
                     subgenres by means of Burrows’ Delta can be improved by significant vocabulary
                     (›good words‹) and Z-value limitation. On one subcorpus, ›good words‹ are
                     determined on the genres adventure novel, Bildungsromans, social novel, comedy,
                     and tragedy; on a second subcorpus, they are evaluated. For all five text
                     types, the F1 values increase due to these optimization measures, for example
                     from 0.65 to 0.77. For adventure novel, Bildungsroman and comedy, the F1 values
                     increase, for example, from 0.79 to 0.91. The classification of adventure novel
                     versus drama and of comedy versus adventure and Bildungsroman succeeds without
                     errors (ARI=1). While the ›good word procedure‹ increases recall, the Z-score
                     limitation limits false positives.</p>
               </argument>
            </div>
            <div type="chapter">
               <head>1. Gattung und Stilometrie</head>
            <p>Während die Autorschaftserkennung auf digitalem Weg gut erforscht ist und sehr gute
               Erkennungsquoten vorweisen kann,<note type="footnote"> Vgl. etwa <ref type="bibliography" target="#Büttner_et_al_delta_2017">Büttner et&#160;al. 2017</ref>.</note> ist die digitale Erkennung von literarischen Gattungen deutlich
               anspruchsvoller.<note type="footnote"> Vgl. <ref type="bibliography" target="#hettinger_et_al_classification_2016a">Hettinger et&#160;al. 2016a</ref>, S. 158.
                  <ref type="bibliography" target="#hettinger_et_al_genre_2015">Hettinger et&#160;al. 2015</ref> berichten über eine verbesserte Erkennungsleistung mit Hilfe
                  von SVMs, die auf der Basis von LDA-Topics erzielt wurde; vgl. ähnlich <ref type="bibliography" target="#hettinger_et_al_significance_2016b">Hettinger
                     et&#160;al. 2016b</ref>. <ref type="bibliography" target="#kim_et_al_investigating_2017">Kim et&#160;al. 2017</ref> vergleichen englische Abenteuerromane, humoristische
                  Romane, Science Fiction, Liebesgeschichten und Detektivromane auf der Grundlage
                  von MFW-Bag-of-Words (Baseline), ›emotional arcs‹ und einem lexikalischen
                  Emotionsmodell mit Hilfe von Maschinellem Lernen (RF und MLP). Vgl. weiterhin
                  <ref type="bibliography" target="#schoech_computational_2020">Schöch 2020</ref>; <ref type="bibliography" target="#tello_gattungserkennung_2019">Calvo Tello 2019</ref>; <ref type="bibliography" target="#underwood_life-cycles_2016">Underwood 2016</ref>; <ref type="bibliography" target="#ardanuy_sporleder_clustering_2014">Ardanuy / Sporleder 2014</ref>; <ref type="bibliography" target="#underwood_et_al_mapping_2013">Underwood et&#160;al. 2013</ref>; <ref type="bibliography" target="#eder_rybicki_deeper_2011">Eder / Rybicki 2011</ref>; <ref type="bibliography" target="#sharoff_et_al_babel_2010">Sharoff et&#160;al. 2010</ref>; <ref type="bibliography" target="#stamatatos_et_al_categorization_2000">Stamatatos et&#160;al. 2000</ref>; <ref type="bibliography" target="#kessler_et_al_automatic_1997">Kessler et&#160;al.
                     1997</ref>.</note> Während bei Texten der gleichen Autorin&#160;/&#160;des gleichen Autors trotz aller
               Veränderungen im Laufe der Schaffensperiode und trotz
               einer möglichen Intention auf wechselnde Stilformen doch von einem mit sich selbst
               identischen Subjekt der Text-Origo ausgegangen werden kann, kann man Texte einer
               Gattungen nur schwerlich einer gemeinsamen Origo-Instanz zuordnen. Zudem handelt es
               sich bei der Zugehörigkeit eines Textes zu einer Gattung nicht um ein objektives
               Faktum, sondern um ein Attributionsphänomen&#160;– Literaturwissenschaftler*innen
               schreiben Texten die Eigenschaft zu, einer Gattung anzugehören. Solche Zuweisungen
               sind nicht immer eindeutig möglich, da nicht wenige Texte im Spannungsfeld zwischen
               mindestens zwei Gattungen verortet werden können;<note type="footnote"> Vgl. zu
                  Gattungshybriden etwa <ref type="bibliography" target="#fuchs_hybride_1997">Fuchs 1997</ref>; <ref type="bibliography" target="#schulz_poetik_2000">Schulz 2000</ref>.</note> so zeichnet sich etwa der <bibl>
                  <title type="desc">Willehalm</title>
               </bibl> von Wolfram von Eschenbach durch Gattungsinterferenzen aus, in dem neben dem
               Überlebenskampfmotiv (ein Kennzeichen der <term type="dh">Heldenepik</term>) auch
               zahlreiche höfische Passagen (Kennzeichen <term type="dh">höfischer Epik</term>)
               vorkommen. Mitunter folgen Gattungszuweisungen auch pragmatischen Kriterien, wenn
               etwa der <hi rend="italic">Willehalm</hi> für die Zwecke der Prüfungen im bayerischen
               Staatsexamen rubriziert werden muss und in diesem Rahmen das vereindeutigende Etikett
               ›Heldenepik‹ erhält. Dazu kommt, dass Gattungen nicht historisch konstant und
               gleichförmig bleiben&#160;– Gabriel Viehhauser zeigt in seiner Studie zum
               mittelalterlichen Minnesang, wie sich Gattungswandel auch digital abbilden
               lässt.<note type="footnote"> Vgl. <ref type="bibliography" target="#viehhauser_gattungsgeschichten_2017">Viehhauser 2017</ref>.</note>
            </p>
            <p>In Studien zur Autorschaftsattribution wurden für schwierige Fälle unklarer
               Autorschaft (etwa bei sehr kurzen und nicht-normalisierten mittelhochdeutschen
               Texten) Optimierungsverfahren entwickelt&#160;– etwa das <term type="dh"
                  >Gute-Wörter-Verfahren</term>, bei dem nicht alle <term type="dh"
                  >Most-Frequent-Words</term> (MFW), sondern signifikante Wortformen verwendet
                  werden.<note type="footnote"> Zur Verbesserung durch ›Gute Wörter‹ bei
                     Autorschaftsfragen vgl. <ref type="bibliography" target="#dimpel_proisl_delta_2019">Dimpel / Proisl 2019</ref>.</note> In der vorliegenden Studie
               soll geprüft werden, ob sich eine Verbesserung der Erkennungsleistung mit Hilfe des
               Guten-Wörter-Verfahrens auch bei Gattungsfragen einstellt. Untersucht werden 100
               deutsche Texte, die aus dem 19. Jahrhundert stammen oder die kurz davor bzw. danach
               verfasst wurden. Damit das <term type="dh">Gattungssignal</term> möglichst
               zielgerichtet und unbeeinflusst durch <term type="dh">Autorsignale</term> oder <term
                  type="dh">Übersetzersignale</term> untersucht werden kann, wird vermieden, mehrere
               Texte der gleichen Autor*innen und ins Deutsche übersetzte Texte zu berücksichtigen.</p>
               <p>Diese Studie ist also auf eine technische Fragestellung begrenzt&#160;– auf den Beitrag des Gute-Wörter-Verfahrens zu einer verbesserten automatischen Textsortenerkennung. Angestrebt wird nicht, traditionelle literaturwissenschaftliche Genre-Bestimmungen zu kritisieren oder zu präzisieren.<note type="footnote"><ref type="bibliography" target="#gittel_koeppe_distance_2022">Gittel&#160;/&#160;Köppe 2022</ref>, S.&#160;13–22, kritisieren die Studie von <ref type="bibliography" target="#underwood_life-cycles_2016">Underwood 2016</ref> für ihre Thesenbildung zu Genre-Grenzen, dem Generationen-Bezug von Genres und der Kohärenz von Genres, die auf der Grundlage von linguistischen Parametern mit Hilfe von maschinellem Lernen erfolgt. U.a. anhand der Textsorten Pastiche und Parodie stellen Gittel&#160;/&#160;Köppe in Frage, inwieweit linguistische Textmerkmale hinreichend für eine Genre-Bestimmung sein können.</note> Da versucht wird, eine Textsortenerkennung auf lexikalischer Basis vorzunehmen, könnte dieser Versuch als Modellierung<note type="footnote">Zum Modellieren als zentrale Tätigkeit im DH-Bereich vgl. <ref type="bibliography" target="#mccarty_humanities_2005">McCarty 2005</ref>.</note> einer Unterscheidbarkeit von Textsorten beschrieben werden. Für Computermodelle ist wie auch bei herkömmlichen Modellen das Merkmal der verkürzten Repräsentation wesentlich&#160;– das modellierte Objekt wird nicht vollständig durch das Modell abgebildet.<note type="footnote"><ref type="bibliography" target="#stachowiak_modelltheorie_1973">Stachowiak 1973</ref>, S.&#160;132. Vgl. zur Approximation bei der Modellbildung <ref type="bibliography" target="#saam-gautschi_modellbildung_2015">Saam&#160;/&#160;Gautschi 2015</ref>, S.&#160;26–38. <ref type="bibliography" target="#mccarty_humanities_2005">McCarty 2005</ref>, S 24, weist darauf hin, dass auch in der traditionellen Literaturwissenschaft Modelle omnipräsent sind&#160;– etwa bei der Beschreibung von Epochen. <ref type="bibliography" target="#gittel_koeppe_distance_2022">Gittel&#160;/&#160;Köppe 2022</ref>, S.&#160;20, kritisieren insbesondere, dass die digitale Modellierung von Underwood anders als literaturwissenschaftliche Beschreibungen Kontexte und paratextuelle Informationen nicht einbeziehen, diese können jedoch für die Erkennung der Gattung eines Textes entscheidend sein.</note> Aufgrund dieser Verkürzung ist es in der Regel problematisch, davon zu sprechen, dass sich Ergebnisdaten, die auf der Basis von digitalen Modellen gewonnen werden, unmittelbar dafür eignen, etwa hermeneutische Thesen zu verifizieren oder zu falsifizieren.<note type="footnote">Zur Trennung von Ergebnisdaten und Interpretation vgl. auch <ref type="bibliography" target="#dimpel_computerphilologe_2015">Dimpel 2015</ref>.</note></p>
               <p>Gegenüber Studien, die auf Black-Box-Verfahren wie Maschinelles Lernen (siehe Anmerkung 2) setzen, haben Burrows’ Delta und das Gute-Wörter-Verfahren den Vorteil, dass die Berechnungsgrundlage transparent nachvollzogen werden kann. Zudem lässt sich überprüfen, welche Wortformen zur Textsortenunterscheidung besonders gut beitragen (siehe Anhang, <ref type="intern" target="#tab015">Tabelle 15</ref>).</p>
            </div>
            <div type="chapter">
               <head>2. Korpusgestaltung und Präprocessing</head>
            
            <p>Verwendet wurden Texte, die im Internet frei verfügbar sind. Die meisten Texte
               entstammen dem Textgrid-Repository. Die Texte wurden dann als Abenteuerroman,
               Bildungsroman, Gesellschaftsroman, Komödie oder Tragödie eingestuft, wenn in einer
               literaturgeschichtlichen Darstellung oder in einem Forschungsbeitrag eine
               einschlägige Bezeichnung vorgefunden wurde.<note type="footnote">Dieses Verfahren lässt sich durchaus kritisieren: Bedacht wird dabei nicht, wie oft einem Text die Eigenschaft zugesprochen wird, zu einer Textsorte zu gehören. Unberücksichtigt bleibt auch, ob die Zuordnungen auf einheitlichen Genre-Definitionen basieren. Um eigene Textsortenmodelle zu entwickeln und die Zuordnungen auf dieser Basis zu überprüfen, standen für die Studie nicht die nötigen Ressourcen zur Verfügung. Insoweit deviante Epochenbegriffe eingehen sollten, würden damit allerdings gelebte Praktiken im Fach berücksichtigt.</note></p>
            <p>Während der Einfluss des Übersetzersignals noch weniger gut erforscht ist,<note
               type="footnote"> Vgl. <ref type="bibliography" target="#büttner_proisl_stilometrie_2016">Büttner / Proisl 2016</ref>.</note> kann das Autorsignal als ein
               starkes stilometrisches Signal gelten.<note type="footnote"> Vgl. <ref type="bibliography" target="#schoech_corneille_2014">Schöch 2014</ref>.</note>
               Falls beispielsweise bei der Untersuchung von Romansubgenres zahlreiche Texte von
               Karl May im Korpus vorhanden sind, ist denkbar, dass die Erkennung des Subgenres
               Abenteuerroman durch das Autorsignal von Karl May positiv beeinflusst wird&#160;– bei
               nicht wenigen Autor*innen ist eine gewisse Präferenz für eine oder wenige Gattungen
               erkennbar. Umgekehrt sind auch Fälle denkbar, in denen die gleichen Autor*innen in
               verschiedenen Gattungen wirken, so dass ihre Texte aufgrund des Autorsignals
               zusammenclustern, obwohl sie verschiedenen Gattungen zugeschrieben werden. Hettinger
               et&#160;al. berichten von einem Sinken der Erkennungsleistung, wenn man Autorduplikate aus
               dem zuvor examinierten Korpus herausnimmt.<note type="footnote"> <ref type="bibliography" target="#hettinger_et_al_classification_2016a">Hettinger et&#160;al.
                  2016a</ref>, S. 161.</note>
            </p>
            <p>Ein Problem bei der Korpus-Zusammenstellung sind Gattungsinterferenzen und mehrfache
               Labels: So ist Wilhelm Raabes <bibl>
                  <title type="desc">Abu Telfan</title>
               </bibl>
               <hi rend="italic"> oder </hi>
               <bibl>
                  <title type="desc">Die Heimkehr vom Mondgebirge</title>
               </bibl> sowohl als Entwicklungsroman, Gesellschaftsroman, Abenteuerroman,
               Bildungsroman als auch Zeitroman eingestuft worden. Rolf Selbmann etwa bespricht
               einige offenbar als prototypisch verstandene Bildungsromane unter der Überschrift
                  <quote>Zwischen Individualroman und Gesellschaftsroman</quote>
               <note type="footnote"> Vgl. <ref type="bibliography" target="#selbmann_bildungsroman_1994">Selbmann 1994</ref>, S.&#160;96–120.</note>; andernorts beruft sich
               Selbmann auf Benno von Wiese, der <quote>die <hi rend="italic">Epigonen</hi> [Immermann] zugleich als
                  ›Entwicklungsroman‹, als ›Abenteuerroman‹, als ›modernen Roman‹, wie auch als
                  ›gesellschaftlichen Zeitroman‹</quote> versteht.<note type="footnote"> <ref type="bibliography" target="#selbmann_bildungsroman_1994">Selbmann
                     1994</ref>, S. 111.</note>
            </p>
            <p>Bei der Korpus-Erstellung wurden Texte vermieden, die beispielsweise sowohl als
               Gesellschaftsroman als auch als Bildungsroman bezeichnet wurden, wodurch sich die
               Zahl der verfügbaren Texte deutlich reduziert hat. Weitere Einschränkungen ergaben
               sich durch das Vermeiden von Übersetzungen und Autorenduplikaten. Nur mit einiger
               Mühe war es möglich, je Textsorte 20 digitale Texte zu finden, die diese drei
               Kriterien erfüllt haben. Weiterhin wurden stark dialektal geprägte Texte wie
               ‚Sozialaristokraten‘ von Arno Holz nicht ins Korpus genommen. Selbstverständlich wäre
               es wünschenswert, diese Tests auf einer breiteren Textgrundlage wiederholen zu
               können.</p>
            <p>Für die Evaluierung des Gute-Wörter-Verfahrens wurden zwei überschneidungsfreie
               Teilkorpora verwendet: Die 50 Texte der Ermittlungsgruppe, auf deren Grundlage die
               Gute-Wörter-Listen berechnet werden, sind nicht enthalten in der Kontrollgruppe
               (ebenfalls 50 Texte), die die Qualität der Gattungserkennung erfasst. </p>
            <p>Autorduplikate im Korpus haben sich zwar nicht ganz vermeiden lassen, aber es konnten
               doch Vorkehrungen getroffen werden, dass Autorduplikate weder bei der Berechnung der
               Guten Wörter noch bei der Evaluation im jeweiligen Test berücksichtigt wurden.
               Doppelte Autor*innen, die jeweils einmal in der Kontrollgruppe und einmal in der
               Ermittlungsgruppe vorhanden sind, sind unproblematisch. Sichergestellt ist zudem,
               dass innerhalb einer Textsorte in den jeweils zehn Texten der Ermittlungs- und
               Kontrollgruppe kein Autorenduplikat vorkommt. Zudem wurden in den Fällen, in denen
               sich doppelte Autor*innen innerhalb der Kontroll- bzw. Ermittlungsgruppe nicht ganz
               vermeiden lassen, Texte der Duplikat-Autor*innen nur als <term type="dh"
                  >Ratetext</term> und nie als Vergleichstext im Vergleichskorpus (dazu mehr im <ref
                  type="intern" target="#hd3">folgenden Abschnitt</ref>) verwendet, so dass in jedem
               einzelnen Testlauf ausschließlich Texte verschiedener Autor*innen verwendet wurden. </p>
            <p>Im Vorfeld der Tests wurden einige Präprocessing-Schritte unternommen. Bei den Dramen
               habe ich die Regieanweisungen und die Sprecher*innenangaben entfernt. Die
               Zeichensätze wurden nach <term type="dh">ANSI</term> vereinheitlicht, Sonderzeichen
               mit Ausnahme der deutschen Umlaute wurden vereinheitlicht, Groß- in Kleinbuchstaben
               konvertiert, Zahlen eliminiert. Weiterhin wurden die ersten 10&#160;% der <term type="dh"
                  >Token</term> entfernt&#160;– mit diesem verbreiteten Verfahren werden paratextuelle Informationen und Besonderheiten am Textanfang beseitigt. </p>
            </div>
             <div type="chapter">
               <head>3. Gute Wörter berechnen&#160;– Ermittlungsgruppe</head>
            
            <p>Das Verfahren zur Ermittlung der Guten Wörter ist ausführlich dokumentiert.<note
               type="footnote"> <ref type="bibliography" target="#dimpel_töpfchen_2018a">Dimpel 2018a</ref>; <ref type="bibliography" target="#dimpel_et_al_streit_2019">Dimpel et&#160;al. 2019</ref>; vgl. weiterhin <ref type="bibliography" target="#dimpel_delta_2018b">Dimpel 2018b</ref>.
                  Ein didaktisch aufbereiteter Foliensatz steht <ref target="https://doi.org/10.17879/55189462574">hier</ref>. </note> Für das
               Setting ist elementar, dass ein Text als Ratetext verwendet wird und gegen ein
               Vergleichskorpus mit meist 15 bis 30 <term type="dh">Distraktortexten</term> getestet
               wird. Das Vergleichskorpus enthält jedoch auch einen Vergleichstext der Zielklasse&#160;–
               bei Autorschaftsfragen ist also ein Text von der Autorin&#160;/&#160;dem Autor im Vergleichskorpus,
               von der&#160;/&#160;dem auch der Ratetext stammt; bei Gattungsfragen ein Vergleichstext der
               gleichen Gattung. </p>
            <p>Wie bei Burrows’ Delta üblich, wird für jedes Wort der <term type="dh"
                  >Most-Frequent-Words</term> (MFWs) die relative Häufigkeit gezählt,
               Standardabweichung und <term type="dh">Z-Werte</term> berechnet und sodann die
               Z-Wert-Differenz zwischen dem Ratetext und jedem Vergleichstext. Zentral für die
               Ermittlung der Guten Wörter sind die <term type="dh">Level-2-Differenzen</term>, die
               man berechnet als Differenz aus der Z-Wert-Differenz zwischen Ratetext und
               Distraktortext einerseits und der Z-Wert-Differenz zwischen Ratetext und dem
               Vergleichstext der Zielklasse andererseits. Auf positiven Level-2-Differenzen beruht
               eine funktionierende Erkennung der Zielklasse. Negative Level-2-Differenzen sind ein
               Störfaktor für die Erkennung der Zielklasse. </p>
            <p>In einem Setting mit nur einem Distraktortext und zwei Texten der gleichen Klasse ist
               mathematisch unmittelbar evident, dass Wörter mit positiver Level-2-Differenz zu
               einem niedrigen <term type="dh">Delta-Wert</term> beitragen. In einem größeren
               Setting mit mehreren Distraktortexten sind verschiedene Parameter denkbar, mit deren
               Hilfe die Liste der Guten Wörter erstellt werden kann. Dimpel / Proisl haben gezeigt,
               dass <term type="dh">Parametersets</term> mit einem <term type="dh"
                  >Spitzenwertkriterium</term> zwar eine besonders gute Leistung bei
               Autorschaftserkennung erbringen, jedoch auch so viele <term type="dh"
                  >False-Positives</term> produzieren, dass dieses Parameterset problematisch
               ist.<note type="footnote"> In <ref type="bibliography" target="#dimpel_proisl_delta_2019">Dimpel / Proisl 2019</ref>.</note>
            </p>
            <p>Verwendet wird für jede Textsorte nun eine Liste mit den Wortformen der
               durchschnittlich höchsten Level-2-Differenzen von allen Ratetexten zu allen
               Distraktortexten. Um diese Liste der Mittelwerte an hohen Level-2-Differenzen zu
               erstellen, wird jeweils einer von zehn Texten der Zielgattung ins Distraktorkorpus
               als Gattungsvergleichstext gegeben. Die neun anderen Texte der Ermittlungsgruppe der
               jeweiligen Gattung werden reihum als Ratetext verwendet. Zu dem Ratetext, dem
               Gattungsvergleichstext und je einem der Distraktortexte wird die Level-2-Differenz
               berechnet. Aus diesen Level-2-Differenzen wird der Mittelwert der Level-2-Differenzen
               für diesen Ratetext und diesen Gattungsvergleichstext zu allen 20 Distraktortexten
               gebildet. Bei einem Gattungsvergleichstext und neun Ratetexten fallen für jede
               Wortform neun durchschnittliche Level-2-Differenzen an. Dieses Verfahren wird zehnmal
               wiederholt, so dass reihum jeder Text der Ermittlungsgruppe als
               Gattungsvergleichstext ins Distraktorkorpus gegeben wird und die anderen neun Texte
               als Ratetexte ›gegen‹ diesen getestet werden. Es fallen also insgesamt pro Wortform
               20 × 9 × 10 Level-2-Differenzen an, aus denen schließlich ein weiterer Mittelwert
               gebildet wird. Dieses Verfahren wird für jede Textsorte durchgeführt, es fallen also
               fünf textsortenspezifische Listen mit Guten Wörtern an. </p>
            <p>Im Distraktorkorpus befinden sich für jede der vier Textsorten der Nicht-Zielklasse
               jeweils die Ermittlungsgruppentexte mit Nummern 01–05. Da für die wenigen
               Autorduplikate im Ermittlungsgruppenkorpus hohe Nummern (08, 09) vergeben wurden, ist
               bei Bildung der Gute-Wörter-Listen kein Autoduplikat im Spiel.<note type="footnote">
                  Weitere Parameter für die Ermittlung der Guten Wörter: Verwendet wurden volle
                  Texte nach Entfernung der ersten 10&#160;% der Wortformen. Die häufigsten 1.200 MFWs
                  wurden verwendet. Experimente mit 1.500 MFWs haben schlechtere Ergebnisse
                  hervorgebracht. Dies hängt vermutlich damit zusammen, dass die Komödien und
                  Tragödien teils recht kurz sind. Der kürzeste Text kommt nach dem Entfernen der
                  ersten 10&#160;% auf 5.473 Wortformen. Aus Rechenzeitgründen wurden Wortformen nach
                  75.000 Wortformen nicht mehr berücksichtigt (Cutoff)&#160;– über die Hälfte der Texte
                  ist ohnehin nicht länger als 50.000 Wortformen.</note>
            </p>
            <p>Zudem soll vermieden werden, dass Wortformen, die in den Ratetexten&#160;– also innerhalb
               der Zielgattung&#160;– recht selten vorkommen, berücksichtigt werden. Damit eine Wortform
               bei der Bildung der Liste der Guten Wörter berücksichtigt wird, muss sie in
               mindestens vier von neun Ratetexten vorkommen. Damit sollen Eigenheiten von
               Einzeltexten, die mutmaßlich weniger relevant für die Gattung sind,
               unberücksichtigt bleiben. Dass es sich bei dem Parameter ›4 von 9‹ um einen
               geeigneten Parameter handelt, wurde in Prätests mit kleinem Korpus und niedriger
               Iterationszahl ermittelt.<note type="footnote"> In einem weiteren Prätest wurde
                  zunächst versucht, jeweils fünf Texte der Ermittlungsgruppe in einen
                  Pseudo-Gattungstext zusammen zu kopieren (mit Cutoff bei 75.000 Wortformen) und
                  diese Datei als Vergleichstext der Zielklasse im Vergleichskorpus zu verwenden.
                  ›Gegen‹ dieses Vergleichskorpus wurden einzeln die übrigen fünf Texte der
                  Ermittlungsgruppe als Ratetexte getestet. Die Gute-Wörter-Listen, die in diesem
                  Verfahren erzeugt wurden, haben ebenfalls schlechtere Ergebnisse hervorgebracht
                  als die Listen, die im oben beschriebenen ›Reihum‹-Verfahren generiert
                  wurden.</note>
            </p>
            </div>
            <div>
               <p></p>
               <p></p>
               <p></p>
               <p></p>
            </div>
            <div type="chapter">
               <head>4. Evaluierung&#160;– Kontrollgruppe </head>
            
            <p>Die fünf Listen der Guten Wörter werden in vier textsortenbezogenen Kombinationen mit
               Texten der Kontrollgruppe evaluiert:</p>
               <list type="unordered">
            <item>Test A) Fünf Textsorten: ABE, BIL, GES, KOM, TRA<note type="footnote"> Abkürzungen:
                  ABE: Abenteuerroman, BIL: Bildungsroman, GES: Gesellschaftsroman, KOM: Komödie,
                  TRA: Tragödie.</note></item>
<item>
Test B) Drei Textsorten: ABE, BIL, KOM</item>
                  <item>Test C) Drei Textsorten: ABE, KOM, TRA (ohne verschiedene Roman-Subgenres)</item>
                  <item>Test D) Drei Textsorten: ABE, BIL, GES (ausschließlich Roman-Subgenres)</item>
                  </list>
            <p>Da die Unterscheidung von Bildungs- und Gesellschaftsroman aufgrund der thematischen
               Nähe beider Subgenres eine besondere Herausforderung darstellt, ist für die
               Testreihen B und C die beste Unterscheidungsleistung zu erwarten. </p>
            <p>Für die Testreihen A und D wird angelehnt an Studien zu mittelhochdeutschen
               Texten<note type="footnote"> Vgl. etwa <ref type="bibliography" target="#Büttner_et_al_delta_2017">Büttner et&#160;al. 2017</ref>.</note> zunächst ein
               reiner <term type="dh">Erkennungsquotentest</term> mit fünf Vergleichstexten der
               Zielklasse durchgeführt; für alle vier Testreihen wird ein ARI-Test (<term type="dh"
                  >Adjusted Rand Index</term>) durchgeführt, bei dem zusätzlich auch die
               Erkennungsquoten (<term type="dh">Recall</term>), False-Positives und <term type="dh"
                  >F1-Werte</term> ausgegeben werden&#160;– zum Setting siehe unten.</p>
            <p>Die kürzeste Liste der Guten Wörter, die alle Wortformen mit einer Level-2-Differenz
               von &gt;0,2 enthält, umfasst bei den Komödien 495 Wortformen, die längste Liste bei
               den Abenteuerromanen 637 Einträge. Eine Level-2-Differenz von &gt;0,4 ist bei den
               Komödien bei den Wortformen mit den Nummern 1–254 vorhanden, bei den Abenteuerromanen
               bei den Wortformen 1–189. Auf einen Test, der exakt die in Dimpel / Proisl 2019
               geprüften Schwellenwerte ermittelt, wird verzichtet; getestet wird vielmehr mit 200,
               300 und 400 MFWs. Wenn die Guten Wörter nicht in ausreichend vielen Texten im
               aktuellen Test vorhanden sind,<note type="footnote"> Weiterhin werden von der
                  MFW-Liste nur Wortformen verwendet, die in mindestens zwei verschiedenen Texten
                  des Korpus vorkommen. Theoretisch denkbar ist, dass in einem Text beispielsweise
                  ein Figurenname derart hochfrequent vorkommt, dass er in die Liste der 400
                  häufigsten Wörter gelangt.</note> wird das Gute Wort nicht verwendet. Wenn dadurch
               nicht mehr ausreichend viele Gute Wörter vorhanden sind, wird die MFW-Liste im
               jeweiligen Test mit herkömmlichen MFWs ergänzt. Es werden also nicht unbedingt
               ausschließlich Gute Wörter berücksichtigt; insofern ist im Folgenden auch von einer
                  <hi rend="italic">bevorzugten Verwendung der Guten Wörter</hi> die Rede.</p>
            <p>Näherungsweise bildet ein Test mit 200 MFWs einen Level-2-Differenzen-Mittelwert
               &gt;0,4 und ein Test mit 200 MFWs einen Level-2-Differenzen-Mittelwert &gt;0,2 ab. In
               der Liste für die Gesellschaftsromane&#160;– sie liegt hinsichtlich ihrer Länge im
               Mittelfeld&#160;– ist bei Wortform Nr. 300 eine Level-2-Differenz von 0,32 vorhanden.</p>
            <div type="subchapter">
               <head>4.1 Setting: Erkennungsquotentest mit fünf Vergleichstexten der Zielklasse</head>
              <p>Bei dieser Evaluierung kommen fast alle 50 Texte der Kontrollgruppe zum Einsatz. In
               das Vergleichskorpus werden jeweils fünf (von zehn in der Kontrollgruppe vorhandenen)
               Texte pro Gattung per Losverfahren gegeben, die nicht zu der Zielgattung, für die
               jeweils auch die Guten Wörter berechnet wurden, gehören. Bei der Testreihe A) werden
               also für vier Gattungen je fünf Distraktortexte ausgelost, insgesamt damit 20
               Distraktortexte. </p>
            <p>Wenn ein Text als Distraktortext gelost wird, zu dem ein Autorenduplikat in den
               Kontrollgruppentexten der Zielgattung vorhanden ist, dann wird dieser Distraktortext
               zurückgelegt; stattdessen wird ein anderer Distraktortext dieser Gattung verwendet.
               Es ist also sichergestellt, dass die drei Textpaare, deren Autor*innen in den
               Kontrollgruppentexten doppelt vertreten sind, nur als Ratetexte und nicht als
               Distraktortexte im Vergleichskorpus berücksichtigt werden, so dass auch hier
               Autorenduplikate das Gattungssignal nicht überlagern können.<note type="footnote"> In
                  der Kontrollgruppe sind drei Duplikat-Paare vorhanden: Jean Paul (›bil_19,
                  Flegeljahre‹, ›ges_13, Blumen, Frucht und Dornenstücke‹), Heinrich Laube (›ges_15,
                  Junges Europa‹, ›tra_12, Monaldeschi‹) und Friedrich Schiller (›abe 12,
                  Geisterseher‹, ›tra 16, Wallensteins Lager‹).</note>
            </p>
            <p>Bei der Zielgattung wird zunächst reihum jeweils einer der zehn Kontrollgruppentexten
               als Vergleichstext ins Vergleichskorpus gegeben. Vier weitere Texte der Zielgattung
               werden jeweils ebenfalls als Vergleichstexte dem Vergleichskorpus zugelost. Die
               übrigen fünf Kontrollgruppentexte der Zielgattung werden als Ratetexte verwendet. </p>
            <p>Wenn dieser Test mit Volltexten (gekürzt auf 100.000 Wortformen) durchgeführt wird,
               werden pro Gattung zehn Durchgänge absolviert, um die Zufälligkeiten bei der
               Auslosung auszugleichen; verwendet werden die Durchschnittswerte aller Durchgänge.
               Wenn bei den Tests das <term type="dh">Bag-of-Words-Verfahren</term> zum Einsatz
               kommt, wird die Textzusammenstellung für jeweils 200 Bag-of-Words pro Gattung neu
               ausgelost. Als Bag-of-Words-Größe wird 10.000 Wortformen angesetzt. Standardmodus ist
               ›Ziehen ohne Zurücklegen‹. Wenn ein Text&#160;– wie bei den kürzeren Komödien und
               Tragödien&#160;– weniger als 11.000 Wortformen umfasst, gilt für diesen Text der Modus
               ›Ziehen mit Zurücklegen‹.</p>
            <p>Insgesamt befinden sich fünf Vergleichstexte der Zielgattung und 20 Distraktortexte
               (bei Test A) bzw. zehn Distraktortexte (bei den Tests B–D) im Vergleichskorpus. Die
               erwartete Erkennungsquote bei einer Zufallsverteilung liegt damit bei 20&#160;% (A) bzw.
               bei 33&#160;% (B–D). </p>
            <p>Da in der vorliegenden Studie überprüft werden soll, ob und inwieweit die bevorzugte
               Berücksichtigung der Guten Wörter zu einer verbesserten Textsortenerkennung führt,
               wird als Baseline im jeweiligen Test das gewählte Verfahren ohne Gute-Wörter-Liste
               und ohne Z-Wert-Begrenzung betrachtet. Eine allgemeine Baseline kann nicht angegeben
               werden: Einige der Studien, die in Fußnote 2 genannt sind, kommen zu F1-Werten etwas
               über 0,8, manche kommen zu etwas höheren, andere auch teils zu deutlich niedrigeren
               Ergebnissen. Allerdings sind die Studien nicht vergleichbar: Verwendet werden
               verschiedene Korpora, verschiedene Sprachen, teils übersetzte Texte, verschiedene
               Genres bzw. Subgenres, teils auch nicht-literarische Texte, verschiedene
               Analyseverfahren und Auswertungsmethoden. Der Umgang mit Autorduplikaten ist ebenso
               wenig einheitlich wie der Umgang mit mehrfachen Gattungslabels.<note type="footnote">
                  <ref type="bibliography" target="#ardanuy_sporleder_clustering_2014">Ardanuy / Sporleder 2014</ref>, S.&#160;37, akzeptieren etwa eine Klassifizierung bei
                  mehrfachen Labels als korrekt, wenn die erkannte Klasse zumindest zu einem der
                  Label passt, während in der vorliegenden Studie angestrebt wurde, Texte mit
                  mehrfachen Labels zu meiden. Eine Vergleichbarkeit der Studien leidet&#160;– wie so oft
                  im Bereich der Digital Humanities&#160;– auch darunter, dass viele Publikationsorgane
                  den Maximalumfang der Beiträge auf derart wenige Seiten einschränken, dass eine
                  Dokumentation von Setting, Parametern etc. nicht ausreichend möglich ist. Solche
                  Seiteneinschränkungen muten vor allem dort, wo Online-Publikationsformate gewählt
                  werden, geradezu absurd an.</note>
            </p>
            </div>
            <div type="subchapter">
               <head>4.2 Setting: Tests mit F1-Wert und ARI</head>
            
            <p>Bei diesem Testverfahren gebe ich jeweils alle zehn Kontrollgruppentexte der
               Nicht-Zielgattungen als Distraktortexte ins Korpus&#160;– es sei denn, es befindet
               sich ein Autorenduplikat zu einem Text der Zielgattung darunter; in diesem Fall wird
               dieser Distraktortext für den Test zur jeweiligen Zielgattung ersatzlos aus dem
               Korpus genommen, so dass statt 40 nur 38 oder 39 Distraktortexte (Testreihe A) oder
               statt 20 nur 18 oder 19 Distraktortexte (Testreihe B–D) verwendet werden. In einem
               alternativen Versuch (nur Testreihen A und D) werden nur fünf zufällige
               Distraktortexte je Nicht-Zielgattung (ohne Autorenduplikate zur Zielgattung)
               verwendet. Weiterhin werden alle zehn Texte der Zielgattung ins Korpus gegeben. Für
               alle möglichen Paare von jeweils zwei Texten des Korpus werden die Delta-Abstände
               berechnet. Die ARI-Berechnung ist als <term type="dh">Zweiklassenspiel</term>
               implementiert: Unterschieden wird zwischen der Zugehörigkeit zur Zielklasse und zur
               Nicht-Zielklasse. Über die Klassenzugehörigkeit entscheidet dabei der niedrigste
               Delta-Abstand. </p>
            <p>Durchgeführt werden diese Tests ohne weitere Optimierungsmaßnahmen wie das
               Eliminieren von Pronomina, jedoch mit Berücksichtigung der jeweiligen
               Gute-Wörter-Liste und mit Z-Wert-Begrenzung auf 1,64.<note type="footnote"> Vgl. zur
                  Z-Wert-Begrenzung <ref type="bibliography" target="#evert_et_al_burrows_2016">Evert et&#160;al. 2016</ref>; <ref type="bibliography" target="#dimpel_delta_2018b">Dimpel 2018b</ref>.</note> Die Z-Wert-Begrenzung
               wird aufgrund der Annahme verwendet, dass textspezifisches Vokabular, das nicht
               zugleich gattungsspezifisches Vokabular ist, auf diesem Weg mitunter aussortiert
               werden könnte; zugleich könnten Nullwerte, die auf fehlenden Wörtern im Einzeltext
               beruhen, weniger stark auf den Delta-Wert durchschlagen.</p>
            <p>Bei der Auswertung ist zu bedenken, dass der ARI nicht direkt mit einer herkömmlichen
               Erkennungsquote zu vergleichen ist. Bei dem oben beschriebenen Setting würde eine
               Zufallsverteilung nicht eine Erkennungsquote von 0%, sondern von 20&#160;% bzw. 33%
               ergeben. Eine Zufallsverteilung beim ARI-Wert ergibt den Wert 0; Clusterergebnisse,
               die schlechter als eine Zufallsverteilung sind, führen zu negativen ARI-Werten. Dass
               der ARI-Wert in vergleichbaren Konstellationen unter der Erkennungsquote liegt (wenn
               man den Einfluss der False-Positives unberücksichtigt lässt), ist bereits durch den
               abweichenden Wert für die Zufallsverteilung bedingt. Dieser Effekt verringert sich,
               je mehr die Erkennungsquote gegen 100&#160;% und der ARI-Wert gegen 1 tendiert. </p>
            <p>Neben dem ARI wird hier auch Erkennungsquote (Recall) und False-Positives-Quote
               notiert, auf deren Basis die Precision ermittelt und der F1-Score für die
               Zielgattungstexte ausgegeben wird. Für die Erkennungsquoten werden nur die
               Delta-Abstände zwischen den Texten der Zielgattung zu allen Texten im Korpus
               herangezogen; für die Nicht-Zielgattungstexte wird also keine Erkennungsquote
               ermittelt&#160;– deren Clusterverhalten geht ohnehin in den ARI ein. Bei der
               False-Positives-Quote werden die Nicht-Zielgattungstexte berücksichtigt, die zur
               Zielgattung den niedrigsten Delta-Abstand aufweisen. Da hier ein Zielklassentext
               gegen ein Korpus mit 9 Zielklassentexten und 38–40<note type="footnote"> Es sind 40
                  Distraktortexte, wenn kein Autorduplikat in der Zielklasse vorliegt; ansonsten je
                  nach Szenario ein oder zwei Distraktortexte weniger.</note> Distraktortexten (A)
               bzw. 18–20 Distraktortexten (B–D) getestet wird, würde eine Zufallsverteilung bei ca.
               18,4&#160;% (A) bzw. 31&#160;% (B–D) liegen. Die F1-Werte liegen durchwegs deutlich über den
               ARI-Werten; bei letzteren gehen auch Anzahl und Clusteringverhalten der
               Distraktortexte ein.</p>
            </div>
            </div>
            <div type="chapter">
               <head>5. Ergebnisse</head>
            
            <div type="subchapter">
               <head>Testreihe A: ABE, BIL, GES, KOM, TRA</head>
            </div>
            <div type="subchapter">
               <head>A1: Erkennungsquotentest mit fünf Vergleichstexten der Zielklasse</head>
            
            <table rend="rules" xml:id="gattungssignal_2022_t1">
               <row>
                  <cell/>
                  <cell>200<hi rend="super">a</hi></cell>
                  <cell>300<hi rend="super">a</hi></cell>
                  <cell>400<hi rend="super">a</hi></cell>
                  <cell/>
               </row>
               <row>
                  <cell>Gute<hi rend="super">c</hi> &amp; ZWB<hi rend="super">d</hi></cell>
                  <cell>57,3<hi rend="super">b</hi></cell>
                  <cell>
                     <hi rend="bold">63,4</hi>
                  </cell>
                  <cell>62,3</cell>
                  <cell rows="4">Bag-of-Words 10.000</cell>
               </row>
               <row>
                  <cell>Gute</cell>
                  <cell>50,0</cell>
                  <cell>53,4</cell>
                  <cell>51,9</cell>
                 
               </row>
               <row>
                  <cell>ZWB</cell>
                  <cell>48,2</cell>
                  <cell>45,4</cell>
                  <cell>44,0</cell>
                  
               </row>
               <row>
                  <cell>Basis<hi rend="super">e</hi></cell>
                  <cell>45,4</cell>
                  <cell>42,9</cell>
                  <cell>44,7</cell>
                  
               </row>
               <row>
                  <cell>Gute &amp; ZWB</cell>
                  <cell>51,6</cell>
                  <cell>57,2</cell>
                  <cell>56,8</cell>
                  <cell rows="4">
                     Volltexte
                  </cell>
               </row>
               <row>
                  <cell>Gute</cell>
                  <cell>61,2</cell>
                  <cell>60,8</cell>
                  <cell>
                     <hi rend="bold">65,6</hi>
                  </cell>
                  
               </row>
               <row>
                  <cell>ZWB</cell>
                  <cell>48,4</cell>
                  <cell>48,0</cell>
                  <cell>50,4</cell>
                  
               </row>
               <row>
                  <cell>Basis</cell>
                  <cell>46,4</cell>
                  <cell>44,0</cell>
                  <cell>47,6</cell>
                  
               </row>
               <row>
                  <cell>Zufallsquote</cell>
                  <cell>20,0</cell>
                  <cell>20,0</cell>
                  <cell>20,0</cell>
                 
               </row>
               <row>
               <cell cols="5">
                  <hi rend="super">a</hi> Anzahl der MFWs, die verwendet werden<lb/>
                  <hi rend="super">b</hi> Erkennungsquote in %<lb/>
                  <hi rend="super">c</hi> Gute: Mit Gute-Wörter-Liste<lb/>
                  <hi rend="super">d</hi> ZWB: Mit Z-Wert-Begrenzung auf 1,64<lb/>
                  <hi rend="super">e</hi> Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzung<lb/>
               </cell>
               </row>
               <trailer xml:id="tab001">
                  <ref type="intern" target="#tab1">Tab. 1</ref>: Test A1, Erkennungsquotentest mit fünf Vergleichstexten der Zielklasse, Test A1, ABE, BIL, GES, KOM, TRA. Beim Bag-of-Words-Test mit 10.000 MFWs werden die Texte 200 verschiedenen Bag-Sets pro Gattung zugelost und Mittelwerte gebildet.<ref type="graphic" target="#gattungssignal_2022_t1"/>
               </trailer>
               </table>
               
            <p>Die Guten Wörter führen zu einer deutlichen Verbesserung der Erkennungsquote. Der
               Verbesserungseffekt ist am stärksten ausgeprägt beim Bag-of-Words-Verfahren mit
               Z-Wert-Begrenzung; der höchste Wert insgesamt wird bei Volltexten und ohne
               Z-Wert-Begrenzung erreicht. Im Vergleich zu Autorschaftsstudien liegen die Quoten
               deutlich niedriger&#160;– dort werden Werte &gt;90&#160;% erreicht, selbst wenn sich nur ein
               Text der Zielautorin&#160;/&#160;des Zielautors im Vergleichskorpus befindet.<note type="footnote"> Vgl.
                  etwa <ref type="bibliography" target="#Büttner_et_al_delta_2017">Büttner et&#160;al. 2017</ref>.</note>
            </p>
            </div>
            <div type="subchapter">
               <head>A2: ARI-Test mit 4 × 10 Distraktortexten</head>
            
               <table rend="rules" xml:id="gattungssignal_2022_t2">
                  <row>
                     
                     <cell>Volltexte</cell>
                     
                     <cell>200<hi rend="super">a</hi></cell>
                     
                     <cell>300<hi rend="super">a</hi></cell>
                     
                     <cell>400<hi rend="super">a</hi></cell>
                     
                  </row>
                  <row>
                     
                     <cell>ARI<hi rend="super">c</hi> Gute<hi rend="super">d</hi> &amp; ZWB<hi rend="super">e</hi></cell>
                     
                     <cell>
                        <hi rend="bold">0,34</hi><hi rend="super">b</hi>
                     </cell>
                     
                     <cell>0,28</cell>
                     
                     <cell>0,26</cell>
                     
                  </row>
                  <row>
                     
                     <cell>ARI Gute</cell>
                     
                     <cell>0,28</cell>
                     
                     <cell>0,26</cell>
                     
                     <cell>0,25</cell>
                     
                  </row>
                  <row>
                     
                     <cell>ARI ZWB</cell>
                     
                     <cell>0,33</cell>
                     
                     <cell>0,31</cell>
                     
                     <cell>
                        <hi rend="bold">0,34</hi>
                     </cell>
                     
                  </row>
                  <row>
                     
                     <cell>ARI Basis<hi rend="super">f</hi></cell>
                     
                     <cell>0,25</cell>
                     
                     <cell>0,2</cell>
                     
                     <cell>0,25</cell>
                     
                  </row>
                  <row>
                     
                     <cell/>
                     
                     <cell/>
                     
                     <cell/>
                     
                     <cell/>
                     
                  </row>
                  <row>
                     
                     <cell>F1<hi rend="super">g</hi> Gute &amp; ZWB</cell>
                     
                     <cell>
                        <hi rend="bold">0,68</hi>
                     </cell>
                     
                     <cell>0,64</cell>
                     
                     <cell>0,65</cell>
                     
                  </row>
                  <row>
                     
                     <cell>F1 Gute</cell>
                     
                     <cell>0,66</cell>
                     
                     <cell>0,65</cell>
                     
                     <cell>0,66</cell>
                     
                  </row>
                  <row>
                     
                     <cell>F1 ZWB</cell>
                     
                     <cell>0,66</cell>
                     
                     <cell>0,63</cell>
                     
                     <cell>0,66</cell>
                     
                  </row>
                  <row>
                     
                     <cell>F1 Basis</cell>
                     
                     <cell>0,60</cell>
                     
                     <cell>0,56</cell>
                     
                     <cell>0,60</cell>
                     
                  </row>
                  <row>
                     
                     <cell/>
                     
                     <cell/>
                     
                     <cell/>
                     
                     <cell/>
                     
                  </row>
                  <row>
                     
                     <cell>EQ<hi rend="super">h</hi> Gute &amp; ZWB</cell>
                     
                     <cell>
                        <hi rend="bold">58</hi>
                     </cell>
                     
                     <cell>54</cell>
                     
                     <cell>46</cell>
                     
                  </row>
                  <row>
                     
                     <cell>EQ Gute</cell>
                     
                     <cell>56</cell>
                     
                     <cell>56</cell>
                     
                     <cell>
                        <hi rend="bold">58</hi>
                     </cell>
                     
                  </row>
                  <row>
                     
                     <cell>EQ ZWB</cell>
                     
                     <cell>54</cell>
                     
                     <cell>52</cell>
                     
                     <cell>43</cell>
                     
                  </row>
                  <row>
                     
                     <cell>EQ Basis</cell>
                     
                     <cell>48</cell>
                     
                     <cell>44</cell>
                     
                     <cell>48</cell>
                     
                  </row>
                  <row>
                     
                     <cell/>
                     
                     <cell/>
                     
                     <cell/>
                     
                     <cell/>
                     
                  </row>
                  <row>
                     
                     <cell>FP<hi rend="super">i</hi> Gute &amp; ZWB</cell>
                     
                     <cell>12,4</cell>
                     
                     <cell>13,9</cell>
                     
                     <cell>16,0</cell>
                     
                  </row>
                  <row>
                     
                     <cell>FP Gute</cell>
                     
                     <cell>14,5</cell>
                     
                     <cell>15,5</cell>
                     
                     <cell>18,1</cell>
                     
                  </row>
                  <row>
                     
                     <cell>FP ZWB</cell>
                     
                     <cell>10,8</cell>
                     
                     <cell>11,9</cell>
                     
                     <cell>
                        <hi rend="bold">9,8</hi>
                     </cell>
                     
                  </row>
                  <row>
                     
                     <cell>FP Basis</cell>
                     
                     <cell>12,9</cell>
                     
                     <cell>13,0</cell>
                     
                     <cell>12,5</cell>
                     
                  </row>
                  <row>
                     
                     <cell/>
                     
                     <cell/>
                     
                     <cell/>
                     
                     <cell/>
                     
                  </row>
                  <row>
                     
                     <cell>Diff<hi rend="super">j</hi> ARI</cell>
                     
                     <cell>0,09</cell>
                     
                     <cell>0,08</cell>
                     
                     <cell>0,01</cell>
                     
                  </row>
                  <row>
                     
                     <cell>Diff EQ</cell>
                     
                     <cell>10,0</cell>
                     
                     <cell>10,0</cell>
                     
                     <cell>8,0</cell>
                     
                  </row>
                  <row>
                     
                     <cell>Diff FP</cell>
                     
                     <cell>0,5</cell>
                     
                     <cell>-1,0</cell>
                     
                     <cell>-3,5</cell>
                     
                  </row>
                  <row>
                     <cell cols="4"><hi rend="super">a</hi> Anzahl der MFWs, die verwendet werden<lb/>
                        <hi rend="super">b</hi> Erkennungsquote in %<lb/>
                        <hi rend="super">c</hi> ARI: Adjusted Rand Index<lb/>
                        <hi rend="super">d</hi> Gute: Mit Gute-Wörter-Liste <lb/>
                        <hi rend="super">e</hi> ZWB: Mit Z-Wert-Begrenzung auf 1,64<lb/>
                        <hi rend="super">f</hi> Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzung<lb/>
                        <hi rend="super">g</hi> F1: Precision und Recall kombiniert <lb/>
                        <hi rend="super">h</hi> EQ: Erkennungsquote in&#160;% <lb/>
                        <hi rend="super">i</hi> FP: False-Positives-Quote in&#160;% (niedriger ist besser)<lb/>
                        <hi rend="super">j</hi> Diff: Differenzen zwischen Werten mit Gute-Wörter-Liste und mit Z-Wert-Begrenzung zum Basiswert
                     </cell>
                  </row>
                    <trailer xml:id="tab002"><ref type="intern" target="#tab2">Tab. 2</ref>: Test A2, ARI-Test mit 4 × 10 Distraktortexten, ABE, BIL, GES, KOM, TRA.<ref type="graphic" target="#gattungssignal_2022_t2"/></trailer>
               </table>
            <p>Die besten ARI-Werte finden sich bei der Kombination der bevorzugten Verwendung von
               Guten Wörtern mit der Z-Wert-Begrenzung bei 200 MFWs sowie bei den Werten mit
               Z-Wert-Begrenzung. Die Guten Wörter begünstigen eine Verbesserung der
               Erkennungsquote, die Z-Wert-Begrenzung führt zu einer besseren False-Positives-Quote
               bei einer etwas niedrigeren Erkennungsquote. Bei der Kombination beider Techniken
               verbessert sich bei 200 MFWs die False-Positives-Quote gegenüber dem Basiswert
               leicht; die Erkennungsquote bleibt zugleich deutlich besser. Bei 200 MFWs verbessert
               sich der ARI-Wert um 0,09 deutlich, jedoch insgesamt auf mäßigem Niveau. Bei 300 und
               400 MFWs gehen Gute Wörter mit schlechterer Level-2-Differenz ein; zugleich
               begünstigt ein größerer Vektor eine bessere Erkennung.</p>
            <p>Hier ein Blick in die Einzelwerte für die Gattungen bei 200 MFWs mit Guten Wörtern
               und Z-Wert-Begrenzung:</p>
               <table rend="rules" xml:id="gattungssignal_2022_t3">
                  <row>
                     
                     <cell>200 MFWs</cell>
                     
                     <cell>ARI<hi rend="super">a</hi></cell>
                     
                     <cell>F1<hi rend="super">b</hi></cell>
                     
                     <cell>EQ<hi rend="super">c</hi></cell>
                     
                     <cell>FP<hi rend="super">d</hi></cell>
                     
                  </row>
                  <row>
                     
                     <cell>ABE</cell>
                     
                     <cell>0,64</cell>
                     
                     <cell>0,81</cell>
                     
                     <cell>70</cell>
                     
                     <cell>2,6</cell>
                     
                  </row>
                  <row>
                     
                     <cell>BIL</cell>
                     
                     <cell>0,28</cell>
                     
                     <cell>0,68</cell>
                     
                     <cell>60</cell>
                     
                     <cell>15,4</cell>
                     
                  </row>
                  <row>
                     
                     <cell>GES</cell>
                     
                     <cell>0,11</cell>
                     
                     <cell>0,50</cell>
                     
                     <cell>40</cell>
                     
                     <cell>18,4</cell>
                     
                  </row>
                  <row>
                     
                     <cell>KOM</cell>
                     
                     <cell>0,38</cell>
                     
                     <cell>0,71</cell>
                     
                     <cell>60</cell>
                     
                     <cell>10,0</cell>
                     
                  </row>
                  <row>
                     
                     <cell>TRA</cell>
                     
                     <cell>0,27</cell>
                     
                     <cell>0,68</cell>
                     
                     <cell>60</cell>
                     
                     <cell>15,8</cell>
                     
                  </row>
                  <row>
                     <cell cols="5"><hi rend="super">a</hi> ARI: Adjusted Rand Index<lb/>
                        <hi rend="super">b</hi> F1: Precision und Recall kombiniert<lb/>
                        <hi rend="super">c</hi> EQ: Erkennungsquote in %<lb/>
                        <hi rend="super">d</hi> FP: False-Positives-Quote in&#160;% (niedriger ist besser)<lb/>
                     </cell>
                  </row>
                  <trailer xml:id="tab003"><ref type="intern" target="#tab3">Tab. 3</ref>: Test A2, ARI-Test mit 4 × 10 Distraktortexten, Einzelwerte, ABE,
                        BIL, GES, KOM, TRA.<ref type="graphic" target="#gattungssignal_2022_t3"/></trailer>
               </table>
            <p>Der Gesellschaftsroman erweist sich als problematisch&#160;– mit niedriger Erkennungsquote
               und hoher False-Positives-Rate. Auch Bildungsromane und Tragödien zeigen eine hohe
               False-Positives-Rate. Überraschend niedrig ist die False-Positives-Rate beim
               Abenteuerroman, der insgesamt recht gut erkannt werden kann.<note type="footnote">
                  Eine ähnliche Tendenz beobachten <ref type="bibliography" target="#hettinger_et_al_classification_2016a">Hettinger et&#160;al. 2016a</ref>, S. 160.</note>
            </p>
            <p>Die Bag-of-Words-Technik (hier mit 10.000 Wortformen) führt zu einer Verbesserung der
               Erkennungsquote bei 300 und 400 MFWs, jedoch auch zu mehr False-Positives, so dass
               die ARI-Werte etwas schlechter sind. Hier nur die Daten mit Guten Wörtern und
               Z-Wert-Begrenzung für alle fünf Gattungen:</p>
               <table rend="rules" xml:id="gattungssignal_2022_t4">
                  <row>
                     
                     <cell>MFWs</cell>
                     
                     <cell>200</cell>
                     
                     <cell>300</cell>
                     
                     <cell>400</cell>
                     
                  </row>
                  <row>
                     
                     <cell>ARI<hi rend="super">a</hi></cell>
                     
                     <cell>0,28</cell>
                     
                     <cell>0,31</cell>
                     
                     <cell>0,3</cell>
                     
                  </row>
                  <row>
                     
                     <cell>F1<hi rend="super">b</hi></cell>
                     
                     <cell>0,64</cell>
                     
                     <cell>0,69</cell>
                     
                     <cell>0,69</cell>
                     
                  </row>
                  <row>
                     
                     <cell>EQ<hi rend="super">c</hi></cell>
                     
                     <cell>53,3</cell>
                     
                     <cell>61,2</cell>
                     
                     <cell>61,2</cell>
                     
                  </row>
                  <row>
                     
                     <cell>FP<hi rend="super">d</hi></cell>
                     
                     <cell>13,9</cell>
                     
                     <cell>15,0</cell>
                     
                     <cell>15,7</cell>
                     
                  </row>
                  <row><cell cols="4"><hi rend="super">a</hi> ARI: Adjusted Rand Index<lb/>
                     <hi rend="super">b</hi> F1: Precision und Recall kombiniert<lb/>
                        <hi rend="super">c</hi> EQ: Erkennungsquote in %<lb/>
                           <hi rend="super">d</hi> FP: False-Positives-Quote in&#160;% (niedriger ist besser)
                  </cell></row>

                  <trailer xml:id="tab004"><ref type="intern" target="#tab4">Tab. 4</ref>: Test A2, ARI-Test mit 4 × 10 Distraktortexten, Bag-of-Words, ABE,
                     BIL, GES, KOM, TRA. <ref type="graphic" target="#gattungssignal_2022_t4"/></trailer>
               </table>
            </div>
            <div type="subchapter">
               <head>A3: ARI-Test mit 4 × 5 Distraktortexten</head>
               <table rend="rules" xml:id="gattungssignal_2022_t5">
                     <row>
                        <cell>Volltexte</cell>
                        <cell>200</cell>
                        <cell>300</cell>
                        <cell>400</cell>
                     </row>
                     <row>
                        <cell>ARI<hi rend="super">a</hi> Gute<hi rend="super">b</hi> &amp; ZWB<hi rend="super">c</hi></cell>
                        <cell>0,31</cell>
                        <cell>
                           <hi rend="bold">0,32</hi>
                        </cell>
                        <cell>0,30</cell>
                     </row>
                     <row>
                        <cell>ARI Gute</cell>
                        <cell>0,29</cell>
                        <cell>0,29</cell>
                        <cell>0,28</cell>
                     </row>
                     <row>
                        <cell>ARI ZWB</cell>
                        <cell>0,24</cell>
                        <cell>0,25</cell>
                        <cell>0,3</cell>
                     </row>
                     <row>
                        <cell>ARI Basis<hi rend="super">d</hi></cell>
                        <cell>0,19</cell>
                        <cell>0,16</cell>
                        <cell>0,19</cell>
                     </row>
                     <row>
                        <cell/>
                        <cell/>
                        <cell/>
                        <cell/>
                     </row>
                     <row>
                        <cell>F1<hi rend="super">e</hi> Gute &amp; ZWB</cell>
                        <cell>0,76</cell>
                        <cell>0,76</cell>
                        <cell>
                           <hi rend="bold">0,77</hi>
                        </cell>
                     </row>
                     <row>
                        <cell>F1 Gute</cell>
                        <cell>0,76</cell>
                        <cell>0,76</cell>
                        <cell>0,76</cell>
                     </row>
                     <row>
                        <cell>F1 ZWB</cell>
                        <cell>0,70</cell>
                        <cell>0,70</cell>
                        <cell>0,73</cell>
                     </row>
                     <row>
                        <cell>F1 Basis</cell>
                        <cell>0,65</cell>
                        <cell>0,62</cell>
                        <cell>0,65</cell>
                     </row>
                     <row>
                        <cell/>
                        <cell/>
                        <cell/>
                        <cell/>
                     </row>
                     <row>
                        <cell>EQ<hi rend="super">f</hi> Gute &amp; ZWB</cell>
                        <cell>74,00</cell>
                        <cell>73,80</cell>
                        <cell>76,00</cell>
                     </row>
                     <row>
                        <cell>EQ Gute</cell>
                        <cell>74,6</cell>
                        <cell>74,6</cell>
                        <cell>
                           <hi rend="bold">77</hi>
                        </cell>
                     </row>
                     <row>
                        <cell>EQ ZWB</cell>
                        <cell>63,8</cell>
                        <cell>64,6</cell>
                        <cell>68</cell>
                     </row>
                     <row>
                        <cell>EQ Basis</cell>
                        <cell>56,8</cell>
                        <cell>54,6</cell>
                        <cell>57</cell>
                     </row>
                     <row>
                        <cell/>
                        <cell/>
                        <cell/>
                        <cell/>
                     </row>
                     <row>
                        <cell>FP<hi rend="super">g</hi> Gute &amp; ZWB</cell>
                        <cell>20,20</cell>
                        <cell>19,90</cell>
                        <cell>22,10</cell>
                     </row>
                     <row>
                        <cell>FP Gute</cell>
                        <cell>21,8</cell>
                        <cell>22,6</cell>
                        <cell>24,8</cell>
                     </row>
                     <row>
                        <cell>FP ZWB</cell>
                        <cell>19,5</cell>
                        <cell>20,3</cell>
                        <cell>
                           <hi rend="bold">18</hi>
                        </cell>
                     </row>
                     <row>
                        <cell>FP Basis</cell>
                        <cell>18,9</cell>
                        <cell>20,7</cell>
                        <cell>19,4</cell>
                     </row>
                     <row>
                        <cell/>
                        <cell/>
                        <cell/>
                        <cell/>
                     </row>
                     <row>
                        <cell>Diff<hi rend="super">h</hi> ARI</cell>
                        <cell>0,12</cell>
                        <cell>0,16</cell>
                        <cell>0,11</cell>
                     </row>
                     <row>
                        <cell>Diff EQ</cell>
                        <cell>17,20</cell>
                        <cell>19,20</cell>
                        <cell>19,00</cell>
                     </row>
                     <row>
                        <cell>Diff FP</cell>
                        <cell>-1,30</cell>
                        <cell>0,80</cell>
                        <cell>-2,70</cell>
                     </row>
                  <row>
                     <cell cols="4"><hi rend="super">a</hi> ARI: Adjusted Rand Index<lb/>
                        <hi rend="super">b</hi> Gute: Mit Gute-Wörter-Liste<lb/>
                        <hi rend="super">c</hi> ZWB: Mit Z-Wert-Begrenzung auf 1,64<lb/>
                        <hi rend="super">d</hi> Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzung<lb/>
                        <hi rend="super">e</hi> F1: Precision und Recall kombiniert<lb/>
                        <hi rend="super">f</hi> EQ: Erkennungsquote in %<lb/>
                        <hi rend="super">g</hi> FP: False-Positives-Quote in&#160;% (niedriger ist besser)<lb/>
                        <hi rend="super">h</hi> Diff: Differenzen zwischen Werten mit Gute-Wörter-Liste und mit Z-Wert-Begrenzung zum Basiswert
                     </cell>
                  </row>
                  <trailer xml:id="tab005"><ref type="intern" target="#tab5">Tab. 5</ref>: Test A3, ARI-Test mit 4 × 5 Distraktortexten, ABE, BIL, GES, KOM,
                     TRA. <ref target="#gattungssignal_2022_t5"/></trailer>                
               </table>
            <p>Gegenüber dem Test mit 4 × 10 Distraktortexten geht eine Verbesserung der
               Erkennungsquote mit einer Verschlechterung der False-Positives-Quote einher. Bei 200
               MFWs ist die Verschlechterung der False-Positives-Quote nur leicht, bei 400 MFWs
               deutlich ausgeprägt. </p>
            </div>
            <div type="subchapter">
               <head>Test B: ABE, BIL, KOM</head>
               <table rend="rules" xml:id="gattungssignal_2022_t6">
                  <row>
                     
                     <cell>Volltexte</cell>
                     
                     <cell>200</cell>
                     
                     <cell>300</cell>
                     
                     <cell>400</cell>
                     
                  </row>
                  <row>
                     
                     <cell>ARI<hi rend="super">a</hi> Gute<hi rend="super">b</hi> &amp; ZWB<hi rend="super">c</hi></cell>
                     
                     <cell>0,62</cell>
                     
                     <cell>
                        <hi rend="bold">0,68</hi>
                     </cell>
                     
                     <cell>0,59</cell>
                     
                  </row>
                  <row>
                     
                     <cell>ARI Gute</cell>
                     
                     <cell>0,51</cell>
                     
                     <cell>0,62</cell>
                     
                     <cell>0,5</cell>
                     
                  </row>
                  <row>
                     
                     <cell>ARI ZWB</cell>
                     
                     <cell>0,5</cell>
                     
                     <cell>0,46</cell>
                     
                     <cell>
                        <hi rend="bold">0,68</hi>
                     </cell>
                     
                  </row>
                  <row>
                     
                     <cell>ARI Basis<hi rend="super">d</hi></cell>
                     
                     <cell>0,5</cell>
                     
                     <cell>0,46</cell>
                     
                     <cell>0,56</cell>
                     
                  </row>
                  <row>
                     
                     <cell/>
                     
                     <cell/>
                     
                     <cell/>
                     
                     <cell/>
                     
                  </row>
                  <row>
                     
                     <cell>F1<hi rend="super">e</hi> Gute &amp; ZWB</cell>
                     
                     <cell>0,88</cell>
                     
                     <cell>
                        <hi rend="bold">0,91</hi>
                     </cell>
                     
                     <cell>0,89</cell>
                     
                  </row>
                  <row>
                     
                     <cell>F1 Gute</cell>
                     
                     <cell>0,83</cell>
                     
                     <cell>0,89</cell>
                     
                     <cell>0,86</cell>
                     
                  </row>
                  <row>
                     
                     <cell>F1 ZWB</cell>
                     
                     <cell>0,81</cell>
                     
                     <cell>0,79</cell>
                     
                     <cell>0,90</cell>
                     
                  </row>
                  <row>
                     
                     <cell>F1 Basis</cell>
                     
                     <cell>0,81</cell>
                     
                     <cell>0,79</cell>
                     
                     <cell>0,84</cell>
                     
                  </row>
                  <row>
                     
                     <cell/>
                     
                     <cell/>
                     
                     <cell/>
                     
                     <cell/>
                     
                  </row>
                  <row>
                     
                     <cell>EQ<hi rend="super">f</hi> Gute &amp; ZWB</cell>
                     
                     <cell>86,7</cell>
                     
                     <cell>
                        <hi rend="bold">90,0</hi>
                     </cell>
                     
                     <cell>
                        <hi rend="bold">90,0</hi>
                     </cell>
                     
                  </row>
                  <row>
                     
                     <cell>EQ Gute</cell>
                     
                     <cell>80,0</cell>
                     
                     <cell>
                        <hi rend="bold">90,0</hi>
                     </cell>
                     
                     <cell>
                        <hi rend="bold">90,0</hi>
                     </cell>
                     
                  </row>
                  <row>
                     
                     <cell>EQ ZWB</cell>
                     
                     <cell>76,7</cell>
                     
                     <cell>73,3</cell>
                     
                     <cell>86,7</cell>
                     
                  </row>
                  <row>
                     
                     <cell>EQ Basis</cell>
                     
                     <cell>76,7</cell>
                     
                     <cell>73,3</cell>
                     
                     <cell>80,0</cell>
                     
                  </row>
                  <row>
                     
                     <cell/>
                     
                     <cell/>
                     
                     <cell/>
                     
                     <cell/>
                     
                  </row>
                  <row>
                     
                     <cell>FP<hi rend="super">g</hi> Gute &amp; ZWB</cell>
                     
                     <cell>10,0</cell>
                     
                     <cell>8,3</cell>
                     
                     <cell>13,3</cell>
                     
                  </row>
                  <row>
                     
                     <cell>FP Gute</cell>
                     
                     <cell>13,3</cell>
                     
                     <cell>11,7</cell>
                     
                     <cell>20,0</cell>
                     
                  </row>
                  <row>
                     
                     <cell>FP ZWB</cell>
                     
                     <cell>11,7</cell>
                     
                     <cell>13,3</cell>
                     
                     <cell>
                        <hi rend="bold">6,7</hi>
                     </cell>
                     
                  </row>
                  <row>
                     
                     <cell>FP Basis</cell>
                     
                     <cell>11,7</cell>
                     
                     <cell>13,3</cell>
                     
                     <cell>10,0</cell>
                     
                  </row>
                  <row>
                     
                     <cell/>
                     
                     <cell/>
                     
                     <cell/>
                     
                     <cell/>
                     
                  </row>
                  <row>
                     
                     <cell>Diff<hi rend="super">h</hi> ARI</cell>
                     
                     <cell>0,12</cell>
                     
                     <cell>0,22</cell>
                     
                     <cell>0,03</cell>
                     
                  </row>
                  <row>
                     
                     <cell>Diff EQ</cell>
                     
                     <cell>10,0</cell>
                     
                     <cell>16,7</cell>
                     
                     <cell>10,0</cell>
                     
                  </row>
                  <row>
                     
                     <cell>Diff FP</cell>
                     
                     <cell>1,7</cell>
                     
                     <cell>5,0</cell>
                     
                     <cell>-3,3</cell>
                     
                  </row>
                  <row>
                     <cell cols="4"><hi rend="super">a</hi> ARI: Adjusted Rand Index<lb/>
                        <hi rend="super">b</hi> Gute: Mit Gute-Wörter-Liste<lb/>
                        <hi rend="super">c</hi> ZWB: Mit Z-Wert-Begrenzung auf 1,64<lb/>
                        <hi rend="super">d</hi> Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzung<lb/>
                        <hi rend="super">e</hi> F1: Precision und Recall kombiniert<lb/>
                        <hi rend="super">f</hi> EQ: Erkennungsquote in %<lb/>
                        <hi rend="super">g</hi> FP: False-Positives-Quote in&#160;% (niedriger ist besser)<lb/>
                        <hi rend="super">h</hi> Diff: Differenzen zwischen Werten mit Gute-Wörter-Liste und mit Z-Wert-Begrenzung zum Basiswert</cell>
                  </row>
                  <trailer xml:id="tab006"><ref type="intern" target="#tab6">Tab. 6</ref>: Test B, ARI-Test mit 2 × 10 Distraktortexten, ABE, BIL, KOM. <ref type="graphic" target="#gattungssignal_2022_t6"/></trailer>
               </table>
            <p>Bei diesem Test bleibt der schwer unterscheidbare Gesellschaftsroman außen vor. Die
               ARI-Werte verbessern sich in der Zeile ›Gute &amp; ZWB‹ auf ein ordentliches Niveau,
               der F1-Wert kommt bei 300 MFWs auf ein gutes Niveau. Wiederum führen die Guten Wörter
               zu besseren Erkennungsquoten und die Z-Wert-Begrenzung zu besseren
               False-Positives-Quoten. In den Gattungseinzelwerten (hier nicht abgedruckt) ergibt
               sich eine optimale Erkennung der Komödie (ARI=1 bei 200–400 MFWs mit Guten Wörtern
               und Z-Wert-Begrenzung).</p>
            </div>
            <div type="subchapter">
               <head>Test C: ABE, KOM, TRA</head>
            
            <p>Hier wird unter den Romansubgenres nur der besser unterscheidbare Abenteuerroman
               einbezogen. Test C ist der einzige Test in dieser Studie, in der nicht verschiedene
               Romansubgenres beteiligt sind&#160;– hier kann man am ehesten von drei verschiedenen
               Gattungen sprechen.</p>
               <table rend="rules" xml:id="gattungssignal_2022_t7">
                  <row>
                     <cell>Volltexte</cell>
                     <cell>200</cell>
                     <cell>300</cell>
                     <cell>400</cell>
                  </row>
                  <row>
                     <cell>ARI<hi rend="super">a</hi> Gute<hi rend="super">b</hi> &amp; ZWB<hi rend="super">c</hi></cell>
                     <cell>0,45</cell>
                     <cell>
                        <hi rend="bold">0,53</hi>
                     </cell>
                     <cell>0,44</cell>
                  </row>
                  <row>
                     <cell>ARI Gute</cell>
                     <cell>0,47</cell>
                     <cell>0,43</cell>
                     <cell>0,38</cell>
                  </row>
                  <row>
                     <cell>ARI ZWB</cell>
                     <cell>0,5</cell>
                     <cell>0,45</cell>
                     <cell>0,5</cell>
                  </row>
                  <row>
                     <cell>ARI Basis<hi rend="super">d</hi></cell>
                     <cell>0,45</cell>
                     <cell>0,37</cell>
                     <cell>0,41</cell>
                  </row>
                  <row>
                     <cell/>
                     <cell/>
                     <cell/>
                     <cell/>
                  </row>
                  <row>
                     <cell>F1<hi rend="super">e</hi> Gute &amp; ZWB</cell>
                     <cell>0,78</cell>
                     <cell>
                        <hi rend="bold">0,85</hi>
                     </cell>
                     <cell>0,80</cell>
                  </row>
                  <row>
                     <cell>F1 Gute</cell>
                     <cell>0,80</cell>
                     <cell>0,80</cell>
                     <cell>0,75</cell>
                  </row>
                  <row>
                     <cell>F1 ZWB</cell>
                     <cell>0,81</cell>
                     <cell>0,78</cell>
                     <cell>0,81</cell>
                  </row>
                  <row>
                     <cell>F1 Basis</cell>
                     <cell>0,78</cell>
                     <cell>0,72</cell>
                     <cell>0,75</cell>
                  </row>
                  <row>
                     <cell/>
                     <cell/>
                     <cell/>
                     <cell/>
                  </row>
                  <row>
                     <cell>EQ<hi rend="super">f</hi> Gute &amp; ZWB</cell>
                     <cell>73,33</cell>
                     <cell>
                        <hi rend="bold">83,33</hi>
                     </cell>
                     <cell>80</cell>
                  </row>
                  <row>
                     <cell>EQ Gute</cell>
                     <cell>76,67</cell>
                     <cell>80</cell>
                     <cell>73,33</cell>
                  </row>
                  <row>
                     <cell>EQ ZWB</cell>
                     <cell>76,67</cell>
                     <cell>73,33</cell>
                     <cell>76,67</cell>
                  </row>
                  <row>
                     <cell>EQ Basis</cell>
                     <cell>73,33</cell>
                     <cell>66,67</cell>
                     <cell>70,0</cell>
                  </row>
                  <row>
                     <cell/>
                     <cell/>
                     <cell/>
                     <cell/>
                  </row>
                  <row>
                     <cell>FP<hi rend="super">g</hi> Gute &amp; ZWB</cell>
                     <cell>13,68</cell>
                     <cell>13,68</cell>
                     <cell>18,86</cell>
                  </row>
                  <row>
                     <cell>FP Gute</cell>
                     <cell>15,53</cell>
                     <cell>20,7</cell>
                     <cell>22,37</cell>
                  </row>
                  <row>
                     <cell>FP ZWB</cell>
                     <cell>
                        <hi rend="bold">11,93</hi>
                     </cell>
                     <cell>13,68</cell>
                     <cell>12,02</cell>
                  </row>
                  <row>
                     <cell>FP Basis</cell>
                     <cell>13,68</cell>
                     <cell>17,28</cell>
                     <cell>15,61</cell>
                  </row>
                  <row>
                     <cell/>
                     <cell/>
                     <cell/>
                     <cell/>
                  </row>
                  <row>
                     <cell>Diff<hi rend="super">h</hi> ARI</cell>
                     <cell>0,00</cell>
                     <cell>0,16</cell>
                     <cell>0,03</cell>
                  </row>
                  <row>
                     <cell>Diff EQ</cell>
                     <cell>0,00</cell>
                     <cell>16,66</cell>
                     <cell>10,00</cell>
                  </row>
                  <row>
                     <cell>Diff FP</cell>
                     <cell>0,00</cell>
                     <cell>3,60</cell>
                     <cell>-3,25</cell>
                  </row>
                  <row>
                     <cell cols="4"><hi rend="super">a</hi> ARI: Adjusted Rand Index<lb/>
                        <hi rend="super">b</hi> Gute: Mit Gute-Wörter-Liste<lb/>
                        <hi rend="super">c</hi> ZWB: Mit Z-Wert-Begrenzung auf 1,64<lb/>
                        <hi rend="super">d</hi> Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzung<lb/>
                        <hi rend="super">e</hi> F1: Precision und Recall kombiniert<lb/>
                        <hi rend="super">f</hi> EQ: Erkennungsquote in %<lb/>
                        <hi rend="super">g</hi> FP: False-Positives-Quote in&#160;% (niedriger ist besser)<lb/>
                        <hi rend="super">h</hi> Diff: Differenzen zwischen Werten mit Gute-Wörter-Liste und mit Z-Wert-Begrenzung zum Basiswert</cell>
                  </row>
                  <trailer xml:id="tab007"><ref type="intern" target="#tab7">Tab. 7</ref>: Test C, ARI-Test mit 2 × 10 Distraktortexten, ABE, KOM, TRA. <ref type="graphic" target="#gattungssignal_2022_t7"/></trailer>
               </table>
            <p>Bei den ARI-Werten wird hier ein Niveau erreicht, das zwischen dem ordentlichen
               Niveau der Testreihe B (ABE, BIL, KOM) und dem mäßigen Niveau der Testreihe A liegt.
               Wie bislang führt auch hier die Z-Wert-Begrenzung zu einer Verbesserung bei den
               False-Positives und die Gute-Wörter-Technik zu einer Verbesserung der
               Erkennungsquote. </p>
            <p>Auch hier setzen sich die Durchschnittswerte aus stark schwankenden Einzelwerten
               zusammen: Während der Abenteuerroman sehr gut clustert, sind die Daten bei den
               Tragödien ausgesprochen schlecht. </p>
            <table rend="rules" xml:id="gattungssignal_2022_t8">
               <row>
                  <cell>ARI</cell>
                  <cell>200</cell>
                  <cell>300</cell>
                  <cell>400</cell>
               </row>
               <row>
                  <cell>ABE</cell>
                  <cell>1</cell>
                  <cell>1</cell>
                  <cell>1</cell>
               </row>
               <row>
                  <cell>KOM</cell>
                  <cell>0,26</cell>
                  <cell>0,43</cell>
                  <cell>0,26</cell>
               </row>
               <row>
                  <cell>TRA</cell>
                  <cell>0,11</cell>
                  <cell>0,17</cell>
                  <cell>0,06</cell>
               </row>
               <trailer xml:id="tab008"><ref type="intern" target="#tab8">Tab. 8</ref>: Test C, ARI-Test mit 2 × 10 Distraktortexten, Einzelwerte, ABE,
              KOM, TRA (Volltexte, mit Guten Wörtern und Z-Wert-Begrenzung).<ref type="graphic" target="#gattungssignal_2022_t8"/></trailer>
            </table>
            </div>
            <div type="subchapter">
               <head>Test D: ABE, BIL, GES</head>
            
            <p>Anders als in den Testreihen A–C werden hier keine verschiedenen Gattungen, sondern
               lediglich Romansubgenres untersucht. Dies hat den Vorteil, dass dabei die teils
               kurzen Komödien und Tragödien gemieden werden können. Das Bag-of-Words-Verfahren
               kommt hier ohne Zurücklegen aus; ein weiterer Test (D4) mit einem größeren
               MFW-Bereich wird dadurch möglich. </p>
            </div>
            <div type="subchapter">
               <head>D1: Erkennungsquotentest mit fünf Vergleichstexten der Zielklasse</head>
            
            <table rend="rules" xml:id="gattungssignal_2022_t9">
               <row>
                  <cell/>
                  <cell>200</cell>
                  <cell>300</cell>
                  <cell>400</cell>
                  <cell/>
               </row>
               <row>
                  <cell>Gute<hi rend="super">a</hi> &amp; ZWB<hi rend="super">b</hi></cell>
                  <cell>
                     <hi rend="bold">51,2</hi>
                  </cell>
                  <cell>51,3</cell>
                  <cell>
                     <hi rend="bold">61,6</hi>
                  </cell>
                  <cell rows="3">Bag-of-Words 10.000</cell>
               </row>
               <row>
                  <cell>Gute</cell>
                  <cell>50,3</cell>
                  <cell>50,9</cell>
                  <cell>60,3</cell>
                  
               </row>
               <row>
                  <cell>Basis<hi rend="super">c</hi></cell>
                  <cell>35,7</cell>
                  <cell>44,9</cell>
                  <cell>41,2</cell>
                  
               </row>
               <row>
                  <cell>Gute &amp; ZWB</cell>
                  <cell>45,3</cell>
                  <cell>45,3</cell>
                  <cell>58,7</cell>
                  <cell rows="3">Volltexte</cell>
               </row>
               <row>
                  <cell>Gute</cell>
                  <cell>42,7</cell>
                  <cell>56,7</cell>
                  <cell>49,3</cell>
                 
               </row>
               <row>
                  <cell>Basis</cell>
                  <cell>34,7</cell>
                  <cell>47,3</cell>
                  <cell>36,7</cell>
                 
               </row>
               <row>
                  <cell>Zufallsquote</cell>
                  <cell>33,3</cell>
                  
               </row> 
               <row>
                  <cell cols="5"><hi rend="super">a</hi> Gute: Mit Gute-Wörter-Liste<lb/>
                     <hi rend="super">b</hi> ZWB: Mit Z-Wert-Begrenzung auf 1,64<lb/>
                     <hi rend="super">c</hi> Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzung
                  </cell>
               </row>
               <trailer xml:id="tab009"><ref type="intern" target="#tab9">Tab. 9</ref>: Test D1, Erkennungsquotentest mit fünf Vergleichstexten der
   Zielklasse, ABE, BIL, GES.<ref type="graphic" target="#gattungssignal_2022_t9"/></trailer>
            </table>
            <p>Die Erkennungsquote mit den Optimierungstechniken ist beim Bag-of-Words-Verfahren
               etwas besser als mit Volltexten; bei <ref type="intern" target="#hd8">Test A</ref> war
               jedoch zu beobachten, dass diese Verbesserung mit einer Verschlechterung der
               False-Positives-Quote einherging. Die Werte sind insgesamt etwas schlechter als die
               Erkennungsquoten in der folgenden Tabelle beim ARI-Test; die Bag-of-Words-Tests
               ergeben etwas höhere Werte. Während im ARI-Setting neun Zielklassentexte und 20
               Distraktortexte zum Abgleich zur Verfügung stehen, werden hier fünf Zielklassentexte
               und 10 Distraktortexte verwendet. Die Zufallsquote liegt beim ARI-Setting bei 31%,
               hier bei 33,3%, also in einer ähnlichen Größenordnung. Als These, die die niedrigeren
               Werte in diesem Setting erklären könnte, will ich die Überlegung notieren, dass die
               Gattungserkennung bei einem größeren Korpus besser funktionieren könnte, da hier
               Einzeltextspezifika weniger Gewicht haben könnten.</p>
            </div>
            <div type="subchapter">
               <head>D2: ARI-Test mit 2 × 10 Distraktortexten</head>
               <table rend="rules" xml:id="gattungssignal_2022_t10">
                  <row>
                     
                     <cell>Volltexte</cell>
                     
                     <cell>200</cell>
                     
                     <cell>300</cell>
                     
                     <cell>400</cell>
                     
                  </row>
                  <row>
                     
                     <cell>ARI<hi rend="super">a</hi> Gute<hi rend="super">b</hi> &amp; ZWB<hi rend="super">c</hi></cell>
                     
                     <cell>
                        <hi rend="bold">0,22</hi>
                     </cell>
                     
                     <cell>0,12</cell>
                     
                     <cell>0,2</cell>
                     
                  </row>
                  <row>
                     
                     <cell>ARI Gute</cell>
                     
                     <cell>0,16</cell>
                     
                     <cell>0,06</cell>
                     
                     <cell>0,12</cell>
                     
                  </row>
                  <row>
                     
                     <cell>ARI ZWB</cell>
                     
                     <cell>0,06</cell>
                     
                     <cell>0,04</cell>
                     
                     <cell>0,13</cell>
                     
                  </row>
                  <row>
                     
                     <cell>ARI Basis<hi rend="super">d</hi></cell>
                     
                     <cell>0,04</cell>
                     
                     <cell>0,04</cell>
                     
                     <cell>0,07</cell>
                     
                  </row>
                  <row>
                     
                     <cell/>
                     
                     <cell/>
                     
                     <cell/>
                     
                     <cell/>
                     
                  </row>
                  <row>
                     
                     <cell>F1<hi rend="super">e</hi> Gute &amp; ZWB</cell>
                     
                     <cell>0,63</cell>
                     
                     <cell>0,62</cell>
                     
                     <cell>
                        <hi rend="bold">0,67</hi>
                     </cell>
                     
                  </row>
                  <row>
                     
                     <cell>F1 Gute</cell>
                     
                     <cell>0,63</cell>
                     
                     <cell>0,54</cell>
                     
                     <cell>0,61</cell>
                     
                  </row>
                  <row>
                     
                     <cell>F1 ZWB</cell>
                     
                     <cell>0,48</cell>
                     
                     <cell>0,47</cell>
                     
                     <cell>0,57</cell>
                     
                  </row>
                  <row>
                     
                     <cell>F1 Basis</cell>
                     
                     <cell>0,48</cell>
                     
                     <cell>0,47</cell>
                     
                     <cell>0,53</cell>
                     
                  </row>
                  <row>
                     
                     <cell/>
                     
                     <cell/>
                     
                     <cell/>
                     
                     <cell/>
                     
                  </row>
                  <row>
                     
                     <cell>EQ<hi rend="super">f</hi> Gute &amp; ZWB</cell>
                     
                     <cell>55</cell>
                     
                     <cell>57,5</cell>
                     
                     <cell>
                        <hi rend="bold">65</hi>
                     </cell>
                     
                  </row>
                  <row>
                     
                     <cell>EQ Gute</cell>
                     
                     <cell>56,67</cell>
                     
                     <cell>50</cell>
                     
                     <cell>60</cell>
                     
                  </row>
                  <row>
                     
                     <cell>EQ ZWB</cell>
                     
                     <cell>40</cell>
                     
                     <cell>40</cell>
                     
                     <cell>50</cell>
                     
                  </row>
                  <row>
                     
                     <cell>EQ Basis</cell>
                     
                     <cell>40</cell>
                     
                     <cell>40</cell>
                     
                     <cell>46,67</cell>
                     
                  </row>
                  <row>
                     
                     <cell/>
                     
                     <cell/>
                     
                     <cell/>
                     
                     <cell/>
                     
                  </row>
                  <row>
                     
                     <cell>FP<hi rend="super">g</hi> Gute &amp; ZWB</cell>
                     
                     <cell>
                        <hi rend="bold">18,29</hi>
                     </cell>
                     
                     <cell>28,55</cell>
                     
                     <cell>28,68</cell>
                     
                  </row>
                  <row>
                     
                     <cell>FP Gute</cell>
                     
                     <cell>24,47</cell>
                     
                     <cell>36,58</cell>
                     
                     <cell>36,67</cell>
                     
                  </row>
                  <row>
                     
                     <cell>FP ZWB</cell>
                     
                     <cell>27,98</cell>
                     
                     <cell>29,65</cell>
                     
                     <cell>26,14</cell>
                     
                  </row>
                  <row>
                     
                     <cell>FP Basis</cell>
                     
                     <cell>27,98</cell>
                     
                     <cell>29,65</cell>
                     
                     <cell>27,89</cell>
                     
                  </row>
                  <row>
                     
                     <cell/>
                     
                     <cell/>
                     
                     <cell/>
                     
                     <cell/>
                     
                  </row>
                  <row>
                     
                     <cell>Diff<hi rend="super">h</hi> ARI</cell>
                     
                     <cell>0,18</cell>
                     
                     <cell>0,08</cell>
                     
                     <cell>0,13</cell>
                     
                  </row>
                  <row>
                     
                     <cell>Diff EQ</cell>
                     
                     <cell>15,00</cell>
                     
                     <cell>17,50</cell>
                     
                     <cell>18,33</cell>
                     
                  </row>
                  <row>
                     
                     <cell>Diff FP</cell>
                     
                     <cell>9,69</cell>
                     
                     <cell>1,10</cell>
                     
                     <cell>-0,79</cell>
                     
                  </row>
                  <row>
                     <cell cols="4"><hi rend="super">a</hi> ARI: Adjusted Rand Index<lb/>
                        <hi rend="super">b</hi> Gute: Mit Gute-Wörter-Liste<lb/>
                           <hi rend="super">c</hi> ZWB: Mit Z-Wert-Begrenzung auf 1,64<lb/>
                              <hi rend="super">d</hi> Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzung<lb/>
                                 <hi rend="super">e</hi> F1: Precision und Recall kombiniert<lb/>
                                    <hi rend="super">f</hi> EQ: Erkennungsquote in %<lb/>
                                       <hi rend="super">g</hi> FP: False-Positives-Quote in&#160;% (niedriger ist besser)<lb/>
                                          <hi rend="super">h</hi> Diff: Differenzen zwischen Werten mit Gute-Wörter-Liste und mit Z-Wert-Begrenzung zum Basiswert
                     </cell>
                  </row>
                  <trailer xml:id="tab010"><ref type="intern" target="#tab10">Tab. 10</ref>: Test D2, ARI-Test mit 2 × 10 Distraktortexten, ABE, BIL, GES.<ref type="graphic" target="#gattungssignal_2022_t10"/></trailer>
               </table>
            <p>Wiederum ist, wie ein Blick in die Subgenre-Einzelwerte in der Folgetabelle zeigt,
               die Erkennung beim Abenteuerroman deutlich besser, das Clustering beim
               Gesellschaftsroman ist schlechter als eine Zufallsverteilung, es gibt über ein
               Drittel False-Positives. Damit hängt zusammen, dass das Niveau in der vorausgehenden
               Tabelle deutlich niedriger ist als bei den Testreihen A und B. Wiederum ist die
               Z-Wert-Begrenzung für eine Verbesserung bei den False-Positives und die
               Gute-Wörter-Technik für eine Verbesserung der Erkennungsquote verantwortlich.</p>
               <table rend="rules" xml:id="gattungssignal_2022_t11">
                  <row>
                     
                     <cell>200 MFWs</cell>
                     
                     <cell>ARI<hi rend="super">a</hi></cell>
                     
                     <cell>F1<hi rend="super">b</hi></cell>
                     
                     <cell>EQ<hi rend="super">c</hi></cell>
                     
                     <cell>FP<hi rend="super">d</hi></cell>
                     
                  </row>
                  <row>
                     
                     <cell>ABE</cell>
                     
                     <cell>0,413</cell>
                     
                     <cell>0,73</cell>
                     
                     <cell>60</cell>
                     
                     <cell>5</cell>
                     
                  </row>
                  <row>
                     
                     <cell>BIL</cell>
                     
                     <cell>0,06</cell>
                     
                     <cell>0,57</cell>
                     
                     <cell>50</cell>
                     
                     <cell>26,3</cell>
                     
                  </row>
                  <row>
                     
                     <cell>GES</cell>
                     
                     <cell>-0,005</cell>
                     
                     <cell>0,54</cell>
                     
                     <cell>50</cell>
                     
                     <cell>36,8</cell>
                     
                  </row>
                  <row>
                     <cell cols="5"><hi rend="super">a</hi> ARI: Adjusted Rand Index<lb/>
                        <hi rend="super">b</hi> F1: Precision und Recall kombiniert<lb/>
                        <hi rend="super">c</hi> EQ: Erkennungsquote in %<lb/>
                              <hi rend="super">d</hi> FP: False-Positives-Quote in&#160;% (niedriger ist besser)
                     </cell>
                  </row>
                  <trailer xml:id="tab011"><ref type="intern" target="#tab11">Tab. 11</ref>: Test D2, ARI-Test mit 2 × 10 Distraktortexten, Einzelwerte, ABE,
   BIL, GES. <ref type="graphic" target="#gattungssignal_2022_t11"/></trailer>
</table>
            </div>
            <div type="subchapter">
               <head>D3: ARI-Test mit 2 × 5 Distraktortexten</head>
            
            <p>Die gleiche Tendenz auf noch schlechterem Niveau zeigt sich bei der Variante mit nur
               fünf (statt zehn) ausgelosten Distraktortexten je Nicht-Zielklasse:</p>
               <table rend="rules" xml:id="gattungssignal_2022_t12">
                  <row>
                     <cell>Volltexte</cell>
                     <cell>200</cell>
                     <cell>300</cell>
                     <cell>400</cell>
                  </row>
                  <row>
                     <cell>ARI<hi rend="super">a</hi> Gute<hi rend="super">b</hi> &amp; ZWB<hi rend="super">c</hi></cell>
                     <cell>0,06</cell>
                     <cell>0,05</cell>
                     <cell>0,05</cell>
                  </row>
                  <row>
                     <cell>ARI Gute</cell>
                     <cell>0,04</cell>
                     <cell>0,05</cell>
                     <cell>
                        <hi rend="bold">0,07</hi>
                     </cell>
                  </row>
                  <row>
                     <cell>ARI ZWB</cell>
                     <cell>0,03</cell>
                     <cell>0,00</cell>
                     <cell>0,04</cell>
                  </row>
                  <row>
                     <cell>ARI Basis<hi rend="super">d</hi></cell>
                     <cell>-0,01</cell>
                     <cell>-0,01</cell>
                     <cell>0,02</cell>
                  </row>
                  <row>
                     <cell/>
                     <cell/>
                     <cell/>
                     <cell/>
                  </row>
                  <row>
                     <cell>F1<hi rend="super">e</hi> Gute &amp; ZWB</cell>
                     <cell>0,60</cell>
                     <cell>0,62</cell>
                     <cell>0,64</cell>
                  </row>
                  <row>
                     <cell>F1 Gute</cell>
                     <cell>0,63</cell>
                     <cell>0,61</cell>
                     <cell>
                        <hi rend="bold">0,65</hi>
                     </cell>
                  </row>
                  <row>
                     <cell>F1 ZWB</cell>
                     <cell>0,52</cell>
                     <cell>0,54</cell>
                     <cell>0,59</cell>
                  </row>
                  <row>
                     <cell>F1 Basis</cell>
                     <cell>0,54</cell>
                     <cell>0,55</cell>
                     <cell>0,58</cell>
                  </row>
                  <row>
                     <cell/>
                     <cell/>
                     <cell/>
                     <cell/>
                  </row>
                  <row>
                     <cell>EQ<hi rend="super">f</hi> Gute &amp; ZWB</cell>
                     <cell>59,00</cell>
                     <cell>65,00</cell>
                     <cell>68,30</cell>
                  </row>
                  <row>
                     <cell>EQ Gute</cell>
                     <cell>67,67</cell>
                     <cell>66,00</cell>
                     <cell>
                        <hi rend="bold">72,30</hi>
                     </cell>
                  </row>
                  <row>
                     <cell>EQ ZWB</cell>
                     <cell>52,70</cell>
                     <cell>55,00</cell>
                     <cell>61,30</cell>
                  </row>
                  <row>
                     <cell>EQ Basis</cell>
                     <cell>55,67</cell>
                     <cell>56,33</cell>
                     <cell>60,00</cell>
                  </row>
                  <row>
                     <cell/>
                     <cell/>
                     <cell/>
                     <cell/>
                  </row>
                  <row>
                     <cell>FP<hi rend="super">g</hi> Gute &amp; ZWB</cell>
                     <cell>
                        <hi rend="bold">38,70</hi>
                     </cell>
                     <cell>46,00</cell>
                     <cell>46,00</cell>
                  </row>
                  <row>
                     <cell>FP Gute</cell>
                     <cell>46,33</cell>
                     <cell>50,67</cell>
                     <cell>48,70</cell>
                  </row>
                  <row>
                     <cell>FP ZWB</cell>
                     <cell>49,00</cell>
                     <cell>48,00</cell>
                     <cell>46,30</cell>
                  </row>
                  <row>
                     <cell>FP Basis</cell>
                     <cell>49,33</cell>
                     <cell>49,33</cell>
                     <cell>47,67</cell>
                  </row>
                  <row>
                     <cell/>
                     <cell/>
                     <cell/>
                     <cell/>
                  </row>
                  <row>
                     <cell>Diff<hi rend="super">h</hi> ARI</cell>
                     <cell>0,07</cell>
                     <cell>0,06</cell>
                     <cell>0,03</cell>
                  </row>
                  <row>
                     <cell>Diff EQ</cell>
                     <cell>3,33</cell>
                     <cell>8,67</cell>
                     <cell>8,30</cell>
                  </row>
                  <row>
                     <cell>Diff FP</cell>
                     <cell>10,62</cell>
                     <cell>3,33</cell>
                     <cell>1,67</cell>
                  </row>
                  <row>
                     <cell cols="4"><hi rend="super">a</hi> ARI: Adjusted Rand Index<lb/>
                        <hi rend="super">b</hi> Gute: Mit Gute-Wörter-Liste<lb/>
                        <hi rend="super">c</hi> ZWB: Mit Z-Wert-Begrenzung auf 1,64<lb/>
                        <hi rend="super">d</hi> Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzung<lb/>
                        <hi rend="super">e</hi> F1: Precision und Recall kombiniert<lb/>
                        <hi rend="super">f</hi> EQ: Erkennungsquote in %<lb/>
                        <hi rend="super">g</hi> FP: False-Positives-Quote in&#160;% (niedriger ist besser)<lb/>
                        <hi rend="super">h</hi> Diff: Differenzen zwischen Werten mit Gute-Wörter-Liste und mit Z-Wert-Begrenzung zum Basiswert
                     </cell>
                  </row>
                  <trailer xml:id="tab012"><ref type="intern" target="#tab12">Tab. 12</ref>: Test D3, ARI-Test mit 2 × 5 Distraktortexten, ABE, BIL, GES. <ref type="graphic" target="#gattungssignal_2022_t12"/></trailer>
               </table>
            <p>Problematisch an diesem Setting ist die Kombination von zehn Distraktortexten mit
               neun Zielklassentexten, gegen die im Einzeltest ein Zielklassentext getestet wird.
               Eine Zufallsverteilung würde eine Erkennungsquote von 31&#160;% ergeben. Die
               Erkennungsquoten müssten also deutlich höher liegen, um einen guten ARI-Wert zu
               erzielen. Vor allem ist hier die False-Positives-Rate ausgesprochen schlecht, sie
               wird auch durch die Z-Wert-Begrenzung nur marginal verbessert. Anders als in den
               anderen Testreihen sinkt die False-Positives-Rate erst in der Kombination der beiden
               Optimierungstechniken, allerdings nicht auf ein ordentliches Niveau.</p>
            </div>
            <div type="subchapter">
               <head>D4: ARI-Test mit 2 × 10 Distraktortexten und größerem MFW-Bereich</head>
            
            <p>Da die kürzeren Komödien und Tragödien hier unberücksichtigt bleiben, wird es
               möglich, einen größeren Bereich an MFWs in den Test einzubeziehen. In den übrigen
               Testreihen werden Listen mit Guten Wörtern verwendet, die mithilfe von 1.200 MFWs
               ermittelt wurden. Die Anzahl dieser Guten Wörter, deren Level-2-Differenz &gt;0,2
               beträgt, liegt dort zwischen 495 und 637 Wortformen. Hier wurden nun die guten Wörter
               auf der Grundlage von 5.000 MFWs berechnet. Die Anzahl dieser Guten Wörter, deren
               Level-2-Differenz &gt;0,2 beträgt, liegt hier nun bei 2.572 (ABE), 2.405 (BIL) und
               2.530 (GES) Wortformen. Bei der Evaluation werden nun 500–4.000 MFWs verwendet. </p>
            <p>Neben den üblichen Tests (in der Folgetabelle von unten nach oben: ›Basis‹: ohne Gute
               Wörter, ohne Z-Wert-Begrenzung; ›ZWB 1,64‹: nur Z-Wert-Begrenzung, ohne Gute Wörter;
               ›Gute‹: nur Gute Wörter, ohne Z-Wert-Begrenzung) werden verschiedene Z-Wert-Parameter
               in Kombination mit den Gute-Wörter-Listen getestet: Bei ›ZWBneg‹ werden positive
               Z-Werte auf +1,64 und negative Z-Werte auf -0,7 begrenzt, bei ›ZWB 1,0‹, ›ZWB 1,2‹
               und ›ZWB 1,64‹ werden wie auch sonst die positiven und die negativen Z-Werte auf den
               Betrag der angegeben Werte begrenzt. </p>
                        <table rend="rules" xml:id="gattungssignal_2022_t13">
               <row>
                  <cell>Volltexte</cell>
                  <cell>500</cell>
                  <cell>1000</cell>
                  <cell>1500</cell>
                  <cell>2000</cell>
                  <cell>2500</cell>
                  <cell>3000</cell>
                  <cell>3500</cell>
                  <cell>4000</cell>
               </row>
               <row>
                  <cell>ARI<hi rend="super">a</hi> Gute<hi rend="super">b</hi> &amp; ZWB<hi rend="super">c</hi> 1,64</cell>
                  <cell>0,19</cell>
                  <cell>0,19</cell>
                  <cell>0,25</cell>
                  <cell>0,09</cell>
                  <cell>0,09</cell>
                  <cell>0,27</cell>
                  <cell>0,3</cell>
                  <cell>0,22</cell>
               </row>
               <row>
                  <cell>ARI Gute &amp; ZWB 1,2</cell>
                  <cell>0,17</cell>
                  <cell>0,17</cell>
                  <cell>0,23</cell>
                  <cell>0,17</cell>
                  <cell>0,16</cell>
                  <cell>
                     <hi rend="bold">0,31</hi>
                  </cell>
                  <cell>0,28</cell>
                  <cell>0,28</cell>
               </row>
               <row>
                  <cell>ARI Gute &amp; ZWB 1,0</cell>
                  <cell>0,14</cell>
                  <cell>0,18</cell>
                  <cell>0,19</cell>
                  <cell>0,21</cell>
                  <cell>0,16</cell>
                  <cell>0,29</cell>
                  <cell>
                     <hi rend="bold">0,33</hi>
                  </cell>
                  <cell>0,3</cell>
               </row>
               <row>
                  <cell>ARI Gute &amp; ZWBneg</cell>
                  <cell>0,17</cell>
                  <cell>0,15</cell>
                  <cell>0,22</cell>
                  <cell>0,21</cell>
                  <cell>0,08</cell>
                  <cell>0,3</cell>
                  <cell>0,26</cell>
                  <cell>0,21</cell>
               </row>
               <row>
                  <cell>ARI Gute</cell>
                  <cell>0,13</cell>
                  <cell>0,16</cell>
                  <cell>0,22</cell>
                  <cell>0,11</cell>
                  <cell>0,09</cell>
                  <cell>0,23</cell>
                  <cell>0,21</cell>
                  <cell>0,13</cell>
               </row>
               <row>
                  <cell>ARI ZWB 1,64</cell>
                  <cell>0,13</cell>
                  <cell>0,2</cell>
                  <cell>0,2</cell>
                  <cell>0,18</cell>
                  <cell>0,11</cell>
                  <cell>0,11</cell>
                  <cell>0,1</cell>
                  <cell>0,11</cell>
               </row>
               <row>
                  <cell>ARI Basis<hi rend="super">d</hi></cell>
                  <cell>0,08</cell>
                  <cell>0,11</cell>
                  <cell>0,14</cell>
                  <cell>0,14</cell>
                  <cell>0,11</cell>
                  <cell>0,08</cell>
                  <cell>0,09</cell>
                  <cell>0,08</cell>
               </row>
               <row>
                  <cell/>
                  <cell/>
                  <cell/>
                  <cell/>
                  <cell/>
                  <cell/>
                  <cell/>
                  <cell/>
                  <cell/>
               </row>
               <row>
                  <cell>F1<hi rend="super">e</hi> Gute &amp; ZWB 1,64</cell>
                  <cell>0,68</cell>
                  <cell>0,66</cell>
                  <cell>0,68</cell>
                  <cell>0,65</cell>
                  <cell>0,66</cell>
                  <cell>0,73</cell>
                  <cell>0,72</cell>
                  <cell>0,66</cell>
               </row>
               <row>
                  <cell>F1 Gute &amp; ZWB 1,2</cell>
                  <cell>0,67</cell>
                  <cell>0,69</cell>
                  <cell>0,71</cell>
                  <cell>0,68</cell>
                  <cell>0,70</cell>
                  <cell>0,74</cell>
                  <cell>0,73</cell>
                  <cell>0,70</cell>
               </row>
               <row>
                  <cell>F1 Gute &amp; ZWB 1,0</cell>
                  <cell>0,66</cell>
                  <cell>0,71</cell>
                  <cell>0,69</cell>
                  <cell>0,70</cell>
                  <cell>0,68</cell>
                  <cell>0,73</cell>
                  <cell>
                     <hi rend="bold">0,76</hi>
                  </cell>
                  <cell>0,74</cell>
               </row>
               <row>
                  <cell>F1 Gute &amp; ZWBneg</cell>
                  <cell>0,70</cell>
                  <cell>0,67</cell>
                  <cell>0,69</cell>
                  <cell>0,72</cell>
                  <cell>0,66</cell>
                  <cell>
                     <hi rend="bold">0,75</hi>
                  </cell>
                  <cell>0,72</cell>
                  <cell>0,65</cell>
               </row>
               <row>
                  <cell>F1 Gute</cell>
                  <cell>0,62</cell>
                  <cell>0,66</cell>
                  <cell>0,66</cell>
                  <cell>0,66</cell>
                  <cell>0,68</cell>
                  <cell>0,71</cell>
                  <cell>0,69</cell>
                  <cell>0,61</cell>
               </row>
               <row>
                  <cell>F1 ZWB 1,64</cell>
                  <cell>0,57</cell>
                  <cell>0,66</cell>
                  <cell>0,66</cell>
                  <cell>0,66</cell>
                  <cell>0,57</cell>
                  <cell>0,59</cell>
                  <cell>0,56</cell>
                  <cell>0,59</cell>
               </row>
               <row>
                  <cell>F1 Basis</cell>
                  <cell>0,51</cell>
                  <cell>0,60</cell>
                  <cell>0,63</cell>
                  <cell>0,63</cell>
                  <cell>0,59</cell>
                  <cell>0,53</cell>
                  <cell>0,56</cell>
                  <cell>0,53</cell>
               </row>
               <row>
                  <cell/>
                  <cell/>
                  <cell/>
                  <cell/>
                  <cell/>
                  <cell/>
                  <cell/>
                  <cell/>
                  <cell/>
               </row>
               <row>
                  <cell>EQ<hi rend="super">f</hi> Gute &amp; ZWB 1,64</cell>
                  <cell>66,67</cell>
                  <cell>66,67</cell>
                  <cell>66,67</cell>
                  <cell>66,67</cell>
                  <cell>66,67</cell>
                  <cell>70</cell>
                  <cell>66,67</cell>
                  <cell>60</cell>
               </row>
               <row>
                  <cell>EQ Gute &amp; ZWB 1,2</cell>
                  <cell>63,33</cell>
                  <cell>66,67</cell>
                  <cell>70</cell>
                  <cell>66,67</cell>
                  <cell>70</cell>
                  <cell>70</cell>
                  <cell>70</cell>
                  <cell>66,67</cell>
               </row>
               <row>
                  <cell>EQ Gute &amp; ZWB 1,0</cell>
                  <cell>63,33</cell>
                  <cell>70</cell>
                  <cell>66,67</cell>
                  <cell>66,67</cell>
                  <cell>66,67</cell>
                  <cell>70</cell>
                  <cell>
                     <hi rend="bold">73,33</hi>
                  </cell>
                  <cell>70</cell>
               </row>
               <row>
                  <cell>EQ Gute &amp; ZWBneg</cell>
                  <cell>70</cell>
                  <cell>70</cell>
                  <cell>66,67</cell>
                  <cell>
                     <hi rend="bold">73,33</hi>
                  </cell>
                  <cell>66,67</cell>
                  <cell>
                     <hi rend="bold">73,33</hi>
                  </cell>
                  <cell>70</cell>
                  <cell>60</cell>
               </row>
               <row>
                  <cell>EQ Gute</cell>
                  <cell>60</cell>
                  <cell>66,67</cell>
                  <cell>66,67</cell>
                  <cell>70</cell>
                  <cell>73,33</cell>
                  <cell>70</cell>
                  <cell>66,67</cell>
                  <cell>56,67</cell>
               </row>
               <row>
                  <cell>EQ ZWB 1,64</cell>
                  <cell>50</cell>
                  <cell>60</cell>
                  <cell>60</cell>
                  <cell>60</cell>
                  <cell>50</cell>
                  <cell>53,33</cell>
                  <cell>50</cell>
                  <cell>53,33</cell>
               </row>
               <row>
                  <cell>EQ Basis</cell>
                  <cell>43,33</cell>
                  <cell>53,33</cell>
                  <cell>56,67</cell>
                  <cell>56,67</cell>
                  <cell>53,33</cell>
                  <cell>46,67</cell>
                  <cell>50</cell>
                  <cell>46,67</cell>
               </row>
               <row>
                  <cell/>
                  <cell/>
                  <cell/>
                  <cell/>
                  <cell/>
                  <cell/>
                  <cell/>
                  <cell/>
                  <cell/>
               </row>
               <row>
                  <cell>FP<hi rend="super">g</hi> Gute &amp; ZWB 1,64</cell>
                  <cell>29,74</cell>
                  <cell>35</cell>
                  <cell>28,07</cell>
                  <cell>38,25</cell>
                  <cell>34,74</cell>
                  <cell>22,72</cell>
                  <cell>19,3</cell>
                  <cell>22,81</cell>
               </row>
               <row>
                  <cell>FP Gute &amp; ZWB 1,2</cell>
                  <cell>26,14</cell>
                  <cell>27,89</cell>
                  <cell>27,98</cell>
                  <cell>29,65</cell>
                  <cell>31,32</cell>
                  <cell>
                     <hi rend="bold">19,21</hi>
                  </cell>
                  <cell>20,96</cell>
                  <cell>22,81</cell>
               </row>
               <row>
                  <cell>FP Gute &amp; ZWB 1,0</cell>
                  <cell>27,81</cell>
                  <cell>27,89</cell>
                  <cell>27,89</cell>
                  <cell>24,39</cell>
                  <cell>29,56</cell>
                  <cell>20,96</cell>
                  <cell>
                     <hi rend="bold">19,21</hi>
                  </cell>
                  <cell>
                     <hi rend="bold">19,21</hi>
                  </cell>
               </row>
               <row>
                  <cell>FP Gute &amp; ZWBneg</cell>
                  <cell>31,32</cell>
                  <cell>38,33</cell>
                  <cell>26,23</cell>
                  <cell>31,49</cell>
                  <cell>34,65</cell>
                  <cell>22,72</cell>
                  <cell>24,47</cell>
                  <cell>24,56</cell>
               </row>
               <row>
                  <cell>FP Gute</cell>
                  <cell>33,25</cell>
                  <cell>35</cell>
                  <cell>35,09</cell>
                  <cell>41,84</cell>
                  <cell>41,75</cell>
                  <cell>26,23</cell>
                  <cell>26,23</cell>
                  <cell>27,98</cell>
               </row>
               <row>
                  <cell>FP ZWB 1,64</cell>
                  <cell>26,14</cell>
                  <cell>20,96</cell>
                  <cell>20,96</cell>
                  <cell>22,72</cell>
                  <cell>24,47</cell>
                  <cell>26,23</cell>
                  <cell>27,98</cell>
                  <cell>27,98</cell>
               </row>
               <row>
                  <cell>FP Basis</cell>
                  <cell>27,89</cell>
                  <cell>24,47</cell>
                  <cell>22,72</cell>
                  <cell>24,47</cell>
                  <cell>26,23</cell>
                  <cell>29,74</cell>
                  <cell>29,74</cell>
                  <cell>29,73</cell>
               </row>
                           <row>
                              <cell cols="9"><hi rend="super">a</hi> ARI: Adjusted Rand Index<lb/>
                                 <hi rend="super">b</hi> Gute: Mit Gute-Wörter-Liste<lb/>
                                 <hi rend="super">c</hi> ZWB: Mit Z-Wert-Begrenzung auf 1,64<lb/>
                                 <hi rend="super">d</hi> Basis: Ohne Gute-Wörter-Liste und ohne Z-Wert-Begrenzung<lb/>
                                 <hi rend="super">e</hi> F1: Precision und Recall kombiniert<lb/>
                                 <hi rend="super">f</hi> EQ: Erkennungsquote in %<lb/>
                                 <hi rend="super">g</hi> FP: False-Positives-Quote in&#160;% (niedriger ist besser)<lb/>
                              </cell>
                           </row>
                           <trailer xml:id="tab013"><ref type="intern" target="#tab13">Tab. 13</ref>: Test D4, ARI-Test mit 2 × 10 Distraktortexten und großem
                        MFW-Bereich, Volltexte, ABE, BIL, GES.<ref type="graphic" target="#gattungssignal_2022_t13"/></trailer>
                        </table>
            <p>Bei den optimalen Parametern (Gute Wörter kombiniert mit Z-Wert-Begrenzung auf 1,0)
               werden sowohl bei ARI, F1-Score, Erkennungsquote und False-Positives die besten Werte
               erreicht. Der F1-Score verbessert sich gegenüber dem besten Wert in <ref
                  type="graphic" target="#gattungssignal_2022_t10">Testreihe D2</ref> (0,67) nun auf 0,76. </p>
            <p>Für die optimalen Werte wurde noch ein Bag-of-Words-Tests durchgeführt mit
               Bag-of-Words mit je 20.000 Wortformen und 200 Iterationen je Einzelwert (Rechenzeit:
               gut eine Woche). Die Werte sind hier jedoch wieder schlechter:</p>
               <table rend="rules" xml:id="gattungssignal_2022_t14">
                  <row>
                     
                     <cell>BOW 20T</cell>
                     
                     <cell>3000</cell>
                     
                     <cell>3500</cell>
                     
                  </row>
                  <row>
                     
                     <cell>ARI<hi rend="super">a</hi> Gute<hi rend="super">b</hi> &amp; ZWB<hi rend="super">c</hi> 1,0</cell>
                     
                     <cell>0,14</cell>
                     
                     <cell>0,17</cell>
                     
                  </row>
                  <row>
                     
                     <cell>F1<hi rend="super">d</hi> Gute &amp; ZWB 1,0</cell>
                     
                     <cell>0,66</cell>
                     
                     <cell>0,67</cell>
                     
                  </row>
                  <row>
                     
                     <cell>EQ<hi rend="super">e</hi> Gute &amp; ZWB 1,0</cell>
                     
                     <cell>64,7</cell>
                     
                     <cell>
                        <hi rend="bold">64,2</hi>
                     </cell>
                     
                  </row>
                  <row>
                     
                     <cell>FP<hi rend="super">f</hi> Gute &amp; ZWB 1,0</cell>
                     
                     <cell>31,01</cell>
                     
                     <cell>27,23</cell>
                     
                  </row>
                  <row>
                     <cell cols="3"><hi rend="super">a</hi> ARI: Adjusted Rand Index<lb/>
                        <hi rend="super">b</hi> Gute: Mit Gute-Wörter-Liste<lb/>
                           <hi rend="super">c</hi> ZWB: Mit Z-Wert-Begrenzung auf 1,64<lb/>
                              <hi rend="super">d</hi> F1: Precision und Recall kombiniert<lb/>
                                 <hi rend="super">e</hi> EQ: Erkennungsquote in %<lb/>
                                    <hi rend="super">f</hi> FP: False-Positives-Quote in&#160;% (niedriger ist besser)
                     </cell>
                  </row>
                  <trailer xml:id="tab014"><ref type="intern" target="#tab14">Tab. 14</ref>: Test D5, ARI-Test mit 2 × 10 Distraktortexten und großem
   MFW-Bereich, Bag-of-Words (20.000 Wortformen), ABE, BIL, GES.<ref type="graphic" target="#gattungssignal_2022_t14"/></trailer>
               </table>
            </div>
            </div>
            <div type="chapter">
               <head>6. Fazit</head>
            
            <p>Die Verwendung der Guten Wörter führt zu einer Verbesserung der Erkennungsquoten, die
               Z-Wert-Begrenzung führt zu einer Verbesserung der False-Positives-Quote. In
               Kombination führen beide Techniken zu einer Verbesserung der Erkennungsquoten, die
               nicht auf Kosten einer Verschlechterung der False-Positives-Quote erfolgt&#160;– dies ist
               auch an den verbesserten ARI-Werten ablesbar. Insgesamt bleibt die Gattungserkennung
               ein schwieriges Geschäft. In Testreihe B wurden bei der Unterscheidung von
               Abenteuerroman, Bildungsroman und Komödie ordentliche Ergebnisse und zumindest ein
               guter F1-Wert &gt;0,9 erzielt. Der Test A2 mit allen fünf Textsorten bringt bei 200
               MFWs mäßige Erfolge mit F1: 0,68, einer Erkennungsquote von 58&#160;% bei immerhin nur
               12,4&#160;% False-Positives hervor (etwas verlagert in Test A3: F1: 0,77, Erkennungsquote:
               76%, False-Positives: 22,1%).</p>
            <p>In dieser Studie sollte geprüft werden, ob das Gute-Wörter-Verfahren zu einer
               Verbesserung der Genre-Erkennung beitragen kann. Dazu lässt sich ein positiver Befund
               festhalten. Wenn man fragt, wie gut die Erkennungsleistung dieser Verfahren bei der
               Textsortenklassifikation insgesamt ist, ist zu bedenken, dass mit 50 Texten nur ein
               relativ schmales Korpus evaluiert werden konnte, da Autorduplikate und mehrfache
               Textsortenlabels vermieden wurden. </p>
            <p>Die gewählten Bildungs- und Gesellschaftsromane sowie Tragödien und Komödien auf
               digitalem Weg zu unterscheiden, bleibt eine anspruchsvolle Herausforderung. Zu
               überlegen wäre, ob die schlechten Werte beim Gesellschaftsroman damit zusammenhängen
               könnten, dass gesellschaftliche Zustände auch bei den anderen Textsorten eine
               wichtige Rolle spielen. Die Unterscheidung des Abenteuerromans von Komödie und
               Tragödie und die Unterscheidung der Komödie von Abenteuer- und Bildungsroman gelingt
               in diesem Korpus immerhin fehlerfrei (ARI=1). </p></div>
            <div type="chapter">
               <head>Anhang: Gute-Wörter-Listen</head>
            <table rend="rules" xml:id="gattungssignal_2022_t15">
               <row>
                    
                  <cell>ABE</cell>
                    
                  <cell>BIL</cell>
                    
                  <cell>GES</cell>
                    
                  <cell>KOM</cell>
                    
                  <cell>TRA</cell>
                
               </row>
               <row>
                    
                  <cell>
                     <list type="unordered">
                     <item>gang</item>
                     <item>gilt</item>
                     <item>herzens</item>
                     <item>schienen</item>
                     <item>not</item>
                     <item>kampf</item>
                     <item>schlagen</item>
                     <item>unterbrach</item>
                     <item>übrigen</item>
                     <item>schön</item>
                     <item>o</item>
                     <item>schwieg</item>
                     <item>gehn</item>
                     <item>bisher</item>
                     <item>ohren</item>
                     <item>zwischen</item>
                     <item>geliebten</item>
                     <item>zukunft</item>
                     <item>folgte</item>
                     <item>einsam</item>
                     <item>geht</item>
                     <item>name</item>
                     <item>was</item>
                     <item>bitte</item>
                     <item>sehn</item>
                     <item>ach</item>
                     <item>ha</item>
                     <item>ewigen</item>
                     <item>ward</item>
                     <item>seltsam</item>
                     <item>bin</item>
                     <item>nimmer</item>
                     <item>dessen</item>
                     <item>gegen</item>
                     <item>hinzu</item>
                     <item>fern</item>
                     <item>liebe</item>
                     <item>nun</item>
                     <item>mein</item>
                     <item>herz</item>
                     <item>doch</item>
                     <item>einen</item>
                     <item>dank</item>
                     <item>feind</item>
                     <item>weh</item>
                     <item>wars</item>
                     <item>lust</item>
                     <item>verzeihen</item>
                     <item>nimmt</item>
                     <item>zufall</item>
                     <item>gehalten</item>
                     <item>getroffen</item>
                     <item>tritt</item>
                     <item>geh</item>
                     <item>indes</item>
                     <item>glücklich</item>
                     <item>eignen</item>
                     <item>denk</item>
                     <item>hört</item>
                     <item>fürstin</item>
                     <item>macht</item>
                     <item>glück</item>
                     <item>ehre</item>
                     <item>schrieb</item>
                     <item>tu</item>
                     <item>spielen</item>
                     <item>sie</item>
                     <item>treiben</item>
                     <item>fällt</item>
                     <item>sollst</item>
                     <item>pflicht</item>
                     <item>siehst</item>
                     <item>bitten</item>
                     <item>eh</item>
                     <item>hörte</item>
                     <item>daraus</item>
                     <item>tod</item>
                     <item>bekannt</item>
                     <item>hieß</item>
                     <item>offen</item>
                     <item>ichs</item>
                     <item>wußte</item>
                     <item>tode</item>
                     <item>allem</item>
                     <item>herr</item>
                     <item>sag</item>
                     <item>muß</item>
                     <item>zu</item>
                     <item>lieb</item>
                     <item>all</item>
                     <item>ist</item>
                     <item>lieben</item>
                     <item>halt</item>
                     <item>oft</item>
                     <item>alles</item>
                     <item>nimm</item>
                     <item>hatte</item>
                     <item>berlin</item>
                     <item>bleibt</item>
                     <item>sagt</item>
                     </list>
                  </cell>
                    
                  <cell>
                     <list type="unordered"><item>sicherheit</item>
                     <item>knaben</item>
                     <item>sorgen</item>
                     <item>erzählt</item>
                     <item>knabe</item>
                     <item>diesmal</item>
                     <item>erklärte</item>
                     <item>saßen</item>
                     <item>doch</item>
                     <item>seien</item>
                     <item>weh</item>
                     <item>soll</item>
                     <item>war</item>
                     <item>hier</item>
                     <item>kennt</item>
                     <item>nein</item>
                     <item>ha</item>
                     <item>in</item>
                     <item>holen</item>
                     <item>blieben</item>
                     <item>ecke</item>
                     <item>was</item>
                     <item>halt</item>
                     <item>stets</item>
                     <item>legen</item>
                     <item>sage</item>
                     <item>wollen</item>
                     <item>wußte</item>
                     <item>mirs</item>
                     <item>ah</item>
                     <item>geh</item>
                     <item>gefangen</item>
                     <item>kommen</item>
                     <item>geht</item>
                     <item>wort</item>
                     <item>bin</item>
                     <item>frieden</item>
                     <item>sieh</item>
                     <item>ja</item>
                     <item>kenne</item>
                     <item>will</item>
                     <item>kommt</item>
                     <item>gott</item>
                     <item>fall</item>
                     <item>konnte</item>
                     <item>streckte</item>
                     <item>hast</item>
                     <item>bitte</item>
                     <item>oh</item>
                     <item>ort</item>
                     <item>müssen</item>
                     <item>kampf</item>
                     <item>waffen</item>
                     <item>rasch</item>
                     <item>allerdings</item>
                     <item>laßt</item>
                     <item>ei</item>
                     <item>kapitel</item>
                     <item>waren</item>
                     <item>unmöglich</item>
                     <item>sollen</item>
                     <item>durch</item>
                     <item>sies</item>
                     <item>fällt</item>
                     <item>herr</item>
                     <item>hieß</item>
                     <item>verließ</item>
                     <item>erzählen</item>
                     <item>giebt</item>
                     <item>heftig</item>
                     <item>lassen</item>
                     <item>lieb</item>
                     <item>hm</item>
                     <item>gegangen</item>
                     <item>wahr</item>
                     <item>ab</item>
                     <item>tag</item>
                     <item>komm</item>
                     <item>drückte</item>
                     <item>also</item>
                     <item>hierher</item>
                     <item>über</item>
                     <item>hören</item>
                     <item>denkt</item>
                     <item>euer</item>
                     <item>ohr</item>
                     <item>tränen</item>
                     <item>besser</item>
                     <item>arm</item>
                     <item>ersten</item>
                     <item>bringt</item>
                     <item>dienst</item>
                     <item>bringen</item>
                     <item>aus</item>
                     <item>not</item>
                     <item>sollst</item>
                     <item>berlin</item>
                     <item>frei</item>
                     <item>bord</item>
                     <item>meinst</item></list>
                  </cell>
                    
                  <cell>
                     <list type="unordered"><item>wißt</item>
                     <item>zieht</item>
                     <item>strom</item>
                     <item>jenem</item>
                     <item>nase</item>
                     <item>obgleich</item>
                     <item>höher</item>
                     <item>zorn</item>
                     <item>stimmen</item>
                     <item>mich</item>
                     <item>fern</item>
                     <item>ich</item>
                     <item>mir</item>
                     <item>weiber</item>
                     <item>erklärte</item>
                     <item>körper</item>
                     <item>ha</item>
                     <item>o</item>
                     <item>hatte</item>
                     <item>ziel</item>
                     <item>aufmerksamkeit</item>
                     <item>schlagen</item>
                     <item>wars</item>
                     <item>meinem</item>
                     <item>setzt</item>
                     <item>meines</item>
                     <item>waffen</item>
                     <item>meiner</item>
                     <item>meinen</item>
                     <item>denken</item>
                     <item>als</item>
                     <item>offen</item>
                     <item>hört</item>
                     <item>hölle</item>
                     <item>seid</item>
                     <item>eure</item>
                     <item>meine</item>
                     <item>allerlei</item>
                     <item>machte</item>
                     <item>ruf</item>
                     <item>euren</item>
                     <item>soll</item>
                     <item>seufzte</item>
                     <item>eurer</item>
                     <item>macht</item>
                     <item>setzte</item>
                     <item>sich</item>
                     <item>tische</item>
                     <item>mein</item>
                     <item>hielten</item>
                     <item>gestalten</item>
                     <item>bin</item>
                     <item>uns</item>
                     <item>deine</item>
                     <item>niemals</item>
                     <item>hilfe</item>
                     <item>deinen</item>
                     <item>sagt</item>
                     <item>steht</item>
                     <item>deines</item>
                     <item>euer</item>
                     <item>abschied</item>
                     <item>indes</item>
                     <item>manchmal</item>
                     <item>wahrhaftig</item>
                     <item>lebt</item>
                     <item>befehl</item>
                     <item>still</item>
                     <item>tritt</item>
                     <item>deren</item>
                     <item>tod</item>
                     <item>denkt</item>
                     <item>gefahr</item>
                     <item>führt</item>
                     <item>wollt</item>
                     <item>euch</item>
                     <item>lager</item>
                     <item>männer</item>
                     <item>setzen</item>
                     <item>laut</item>
                     <item>gebracht</item>
                     <item>sah</item>
                     <item>schöner</item>
                     <item>lebe</item>
                     <item>vertrauen</item>
                     <item>plan</item>
                     <item>gott</item>
                     <item>hunde</item>
                     <item>mittel</item>
                     <item>kommt</item>
                     <item>spricht</item>
                     <item>fällt</item>
                     <item>verlassen</item>
                     <item>ruhig</item>
                     <item>braut</item>
                     <item>sollst</item>
                     <item>fragte</item>
                     <item>will</item>
                     <item>schmerz</item>
                     <item>halten</item></list>
                  </cell>
                    
                  <cell>
                     <list type="unordered"><item>stieß</item>
                     <item>tages</item>
                     <item>schlug</item>
                     <item>kannte</item>
                     <item>riß</item>
                     <item>hing</item>
                     <item>lag</item>
                     <item>ergriff</item>
                     <item>blieben</item>
                     <item>erschien</item>
                     <item>flog</item>
                     <item>standen</item>
                     <item>hielt</item>
                     <item>fuhr</item>
                     <item>stieg</item>
                     <item>empor</item>
                     <item>war</item>
                     <item>und</item>
                     <item>trat</item>
                     <item>fiel</item>
                     <item>weiten</item>
                     <item>wilden</item>
                     <item>hatte</item>
                     <item>wurde</item>
                     <item>wolken</item>
                     <item>öffnete</item>
                     <item>reichte</item>
                     <item>wenigen</item>
                     <item>zwischen</item>
                     <item>dessen</item>
                     <item>ging</item>
                     <item>mochte</item>
                     <item>ist</item>
                     <item>suchte</item>
                     <item>lachte</item>
                     <item>folgte</item>
                     <item>schien</item>
                     <item>hob</item>
                     <item>mannes</item>
                     <item>stand</item>
                     <item>ich</item>
                     <item>wußte</item>
                     <item>neben</item>
                     <item>schob</item>
                     <item>weile</item>
                     <item>tiefer</item>
                     <item>stellte</item>
                     <item>wand</item>
                     <item>konnte</item>
                     <item>hörte</item>
                     <item>blickte</item>
                     <item>griff</item>
                     <item>des</item>
                     <item>sprang</item>
                     <item>erhob</item>
                     <item>gespräch</item>
                     <item>lächeln</item>
                     <item>mußten</item>
                     <item>schritte</item>
                     <item>meer</item>
                     <item>warf</item>
                     <item>ließ</item>
                     <item>las</item>
                     <item>verließ</item>
                     <item>sah</item>
                     <item>wandte</item>
                     <item>sies</item>
                     <item>faßte</item>
                     <item>regen</item>
                     <item>kaum</item>
                     <item>richtung</item>
                     <item>erkannte</item>
                     <item>fühlte</item>
                     <item>durfte</item>
                     <item>hat</item>
                     <item>erzählte</item>
                     <item>unterbrach</item>
                     <item>obwohl</item>
                     <item>gehalten</item>
                     <item>zug</item>
                     <item>gab</item>
                     <item>dasselbe</item>
                     <item>fragte</item>
                     <item>schatten</item>
                     <item>rief</item>
                     <item>zog</item>
                     <item>langsam</item>
                     <item>blieb</item>
                     <item>drückte</item>
                     <item>gegenüber</item>
                     <item>schüttelte</item>
                     <item>einzelne</item>
                     <item>traf</item>
                     <item>stimme</item>
                     <item>tief</item>
                     <item>sagte</item>
                     <item>lagen</item>
                     <item>hatten</item>
                     <item>antlitz</item>
                     <item>trieb</item></list>
                  </cell>
                    
                  <cell>
                     <list type="unordered"><item>mußte</item>
                     <item>mochte</item>
                     <item>fuhr</item>
                     <item>blieben</item>
                     <item>einigen</item>
                     <item>hatte</item>
                     <item>weder</item>
                     <item>öffnete</item>
                     <item>hatten</item>
                     <item>demselben</item>
                     <item>waren</item>
                     <item>erzählen</item>
                     <item>standen</item>
                     <item>machte</item>
                     <item>war</item>
                     <item>wurde</item>
                     <item>ewig</item>
                     <item>frieden</item>
                     <item>unsere</item>
                     <item>lächelte</item>
                     <item>sagte</item>
                     <item>führte</item>
                     <item>vielmehr</item>
                     <item>setzte</item>
                     <item>zeigte</item>
                     <item>schwere</item>
                     <item>sieh</item>
                     <item>wußte</item>
                     <item>konnte</item>
                     <item>konnten</item>
                     <item>schienen</item>
                     <item>blieb</item>
                     <item>während</item>
                     <item>fragte</item>
                     <item>heraus</item>
                     <item>schob</item>
                     <item>gerade</item>
                     <item>hinzu</item>
                     <item>kannte</item>
                     <item>verschwunden</item>
                     <item>davon</item>
                     <item>ziemlich</item>
                     <item>mußten</item>
                     <item>anderer</item>
                     <item>erzählte</item>
                     <item>wandte</item>
                     <item>mehrere</item>
                     <item>erkannte</item>
                     <item>desselben</item>
                     <item>unterbrach</item>
                     <item>sprang</item>
                     <item>begann</item>
                     <item>ohne</item>
                     <item>dabei</item>
                     <item>schüttelte</item>
                     <item>drückte</item>
                     <item>erklärte</item>
                     <item>beiden</item>
                     <item>endlich</item>
                     <item>hundert</item>
                     <item>nachher</item>
                     <item>wurden</item>
                     <item>folgte</item>
                     <item>fremde</item>
                     <item>stand</item>
                     <item>suchte</item>
                     <item>weniger</item>
                     <item>dagegen</item>
                     <item>steht</item>
                     <item>blickte</item>
                     <item>bauern</item>
                     <item>ließen</item>
                     <item>sprache</item>
                     <item>worden</item>
                     <item>doktor</item>
                     <item>flüsterte</item>
                     <item>vier</item>
                     <item>stube</item>
                     <item>darüber</item>
                     <item>rief</item>
                     <item>dorf</item>
                     <item>erwiderte</item>
                     <item>stieß</item>
                     <item>einige</item>
                     <item>sondern</item>
                     <item>lachte</item>
                     <item>richtung</item>
                     <item>andere</item>
                     <item>faßte</item>
                     <item>beinahe</item>
                     <item>daher</item>
                     <item>menge</item>
                     <item>denen</item>
                     <item>hause</item>
                     <item>legte</item>
                     <item>obwohl</item>
                     <item>einzelne</item>
                     <item>drei</item>
                     <item>deren</item>
                     <item>nämlich</item></list>
                  </cell>
                
               </row>
               <trailer xml:id="tab015"><ref type="intern" target="#tab15">Tab. 15</ref>: Auszug aus den textsortenspezifischen Gute-Wörter-Listen: Jeweils
   100 Wortformen mit den höchsten Level-2-Differenzen.<ref type="graphic" target="#gattungssignal_2022_t15gattungssignal_2022_t15"/></trailer>
            </table>
            <table rend="rules" xml:id="gattungssignal_2022_t16">
               <row>
                  <cell>ABE-BIL</cell>
                  <cell>51</cell>
               </row>
               <row>
                  <cell>ABE-GES</cell>
                  <cell>43</cell>
               </row>
               <row>
                  <cell>ABE-KOM</cell>
                  <cell>37</cell>
               </row>
               <row>
                  <cell>ABE-TRA</cell>
                  <cell>27</cell>
               </row>
               <row>
                  <cell>BIL-GES</cell>
                  <cell>42</cell>
               </row>
               <row>
                  <cell>BIL-KOM</cell>
                  <cell>32</cell>
               </row>
               <row>
                  <cell>BIL-TRA</cell>
                  <cell>27</cell>
               </row>
               <row>
                  <cell>GES-KOM</cell>
                  <cell>34</cell>
               </row>
               <row>
                  <cell>GES-TRA</cell>
                  <cell>30</cell>
               </row>
               <row>
                  <cell>KOM-TRA</cell>
                  <cell>85</cell>
               </row>
               <trailer xml:id="tab016"><ref type="intern" target="#tab16">Tab. 16</ref>: Duplikate in den Listen der Guten Wörter.<ref type="graphic" target="#gattungssignal_2022_t16"/></trailer>
            </table>
            <p>Das Verfahren, dass die Guten Wörter für eine Textsorte in Relation zu den vier
               anderen Textsorten auf Basis der mehrfach gemittelten Level-2-Differenzen gebildet
               wurden, bringt es mit sich, dass Wortformen auch dann in eine Gute-Wörter-Liste
               gelangen können, wenn die Unterscheidungsleistung zu zwei anderen Textsorten nur
               mäßig, die Unterscheidungsleistung zu zwei nochmals anderen Textsorten jedoch hoch
               ist. Dadurch ist es möglich, dass einige Wortformen in mehreren gattungsspezifischen
               Listen auftreten. Die hohe Zahl von 85 Duplikaten bei Komödien und Tragödien ist
               überraschend; womöglich sind hier viele Wortformen eingegangen, die auf den
               Unterschieden zwischen Drama und Roman beruhen. Damit korrespondieren könnte auch,
               dass die Guten Wörter nur mäßig dazu beitragen, die F1-Scores bei der Unterscheidung
               von Komödie und Tragödie zu verbessern, während die Unterscheidung von Drama und
               Abenteuerroman fehlerfrei gelingt (vgl. <ref type="intern" target="#hd13"
                  >Test C</ref>).</p>
            <p>Wörter, die man in semantischer Hinsicht vielleicht auch intuitiv mit der Textsorte
               in Verbringen wollte, sind in den Gute-Wörter-Listen selten&#160;– die meisten Wortformen
               findet man auch sonst in längeren MfW-Listen. Wenn man gezielt sucht, könnten etwa
               ›fern‹ oder ›Zufall‹ typisch für ein Abenteuer-Sujet sein, ›erklärte‹ für den
               Bildungsroman (wobei diese Wortform auch bei Gesellschaftsroman und Tragödie
               vorkommt), ›schwere‹ oder ›verschwunden‹ würden in Tragödien nicht überraschen.
               Allerdings wäre es keine geringe Herausforderung, Kriterien für eine solche Intuition
               intersubjektiv nachvollziehbar zu begründen.</p>
            <p>Verben stehen recht erwartbar meist in der 3. Person Singular Präteritum, in der
               Abenteuerroman-Liste sind jedoch relativ viele Verben in der 2. Person Singular
               Präsens enthalten&#160;– womöglich ein Indikator für einen erhöhten Anteil an direkter
               Figurenrede. Dass ›Berlin‹ in den Listen steht, könnte damit korrespondieren, dass
               nur zehn Texte je Textsorte für die Berechnung der Listen verwendet wurden; bei einem
               größeren Korpus würden solche vermutlich textspezifischen Wörter nicht in die Listen
               eingehen.</p>
            </div>
         </div>
            <div type="bibliography">
               <head>Bibliografische Angaben</head>
            <listBibl>
            <bibl xml:id="ardanuy_sporleder_clustering_2014">Mariona Coll Ardanuy / Caroline Sporleder: Structure-based Clustering of Novels.
               In: Proceedings of the 3rd Workshop on Computational Linguistics for Literature
               (CLfL). Hg. von Association for Computational Linguistics. (EACL 2014, Göteborg,
               27.04.2014) Stroudsburg, PA, 2014, S. 31–39. DOI: <ref
                  target="http://dx.doi.org/10.3115/v1/W14-0905">10.3115/v1/W14-0905</ref>
            </bibl>
                        <bibl xml:id="büttner_proisl_stilometrie_2016">Andreas Büttner / Thomas Proisl: Stilometrie interdisziplinär: Merkmalsselektion
               zur Differenzierung zwischen Übersetzer- und Fachvokabular. In: Modellierung,
               Vernetzung, Visualisierung. Die Digital Humanities als fächerübergreifendes
               Forschungsparadigma. DHd 2016. Konferenzabstracts. Hg. von Elisabeth Burr. (DHd: 3,
               Leipzig, 07.–12.03.2016) Duisburg 2016, S. 70–74. DOI: <ref
                  target="https://doi.org/10.5281/zenodo.3679331">10.5281/zenodo.3679331</ref> <ptr type="gbv" cRef="858156008"/></bibl>
               <bibl xml:id="Büttner_et_al_delta_2017">Andreas Büttner / Friedrich Michael Dimpel / Stefan Evert / Fotis
                  Jannidis / Steffen Pielström / Thomas Proisl / Isabella Reger / Christof
                  Schöch / Thorsten Vitt: „Delta“ in der stilometrischen Autorschaftsattribution. In:
                  Zeitschrift für digitale Geisteswissenschaften 2 (2017). DOI: <ref
                     target="http://dx.doi.org/10.17175/2017_006">10.17175/2017_006</ref>
               </bibl>
               <bibl xml:id="tello_gattungserkennung_2019">José Calvo Tello: Gattungserkennung über 500 Jahre. In: DHd 2019 Digital
               Humanities: multimedial &amp; multimodal. Konferenzabstracts. Hg. von Patrick Sahle.
               (DHd: 6, Frankfurt am Main u.&#160;a., 25.–29.03.2019) Frankfurt/Main 2019, S. 292–294.
               DOI: <ref target="https://doi.org/10.5281/zenodo.2600812"
                  >10.5281/zenodo.2600812</ref>
            </bibl>
               <bibl xml:id="dimpel_computerphilologe_2015">Friedrich Michael Dimpel: Der Computerphilologe als Interpret&#160;– ein Teilzeit-Empiriker? In: Literatur interpretieren. Interdisziplinäre Beiträge zur Theorie und Praxis. Hg. von Jan Borkowski&#160;/ Stefan Descher&#160;/ Felicitas Ferder&#160;/ Philipp Heine. Münster 2015, S.&#160;339–359. DOI: 10.30965/9783957438973_018</bibl>
            <bibl xml:id="dimpel_töpfchen_2018a">Friedrich Michael Dimpel (2018a): Die guten ins Töpfchen: Zur Anwendbarkeit von
               Burrows’ Delta bei kurzen mittelhochdeutschen Texten nebst eines Attributionstests zu
               Konrads ‚Halber Birne‘. In: DHd 2018. Kritik der digitalen Vernunft.
               Konferenzabstracts. Hg. von Georg Vogeler. (DHd: 5, Köln, 26.02.–02.03.2018) Köln
               2018, S. 168–173. DOI: <ref target="https://doi.org/10.5281/zenodo.3684897"
                  >10.5281/zenodo.3684897</ref>
            </bibl>
            <bibl xml:id="dimpel_delta_2018b">Friedrich Michael Dimpel (2018b): Ein Delta-Rätsel: Nicht-normalisierte
               mittelhochdeutsche Texte, Z-Wert-Begrenzung und ein Normalisierungswörterbuch. Oder:
               Auf welche Wörter kommt es bei Delta an? Göttingen 2018. (=&#160;Dariah-DE Working Papers,
               25) URN: <ref target="http://nbn-resolving.de/urn:nbn:de:gbv:7-dariah-2017-5-1"
                  >urn:nbn:de:gbv:7-dariah-2017-5-1</ref>
            </bibl>
               <bibl xml:id="dimpel_et_al_streit_2019">Friedrich Michael Dimpel / Daniel Schlager / Katharina Zeppezauer-Wachauer: Der
                  Streit um die Birne. Autorschafts-Attributionstest mit Burrows’ Delta und dessen
                  Optimierung für Kurztexte am Beispiel der ‚Halben Birne‘ des Konrad von Würzburg. In:
                  Digitale Mediävistik. Hg. von Roman Bleier / Franz Fischer / Torsten
                  Hiltmann / Gabriel Viehhauser / Georg Vogeler. Berlin u.&#160;a. 2019, S. 71–90. <ptr type="gbv" cRef="167073062X"/></bibl>
               <bibl xml:id="dimpel_proisl_delta_2019">Friedrich Michael Dimpel / Thomas Proisl: Gute Wörter für Delta: Verbesserung der
                  Autorschaftsattribution durch autorspezifische distinktive Wörter. In: DHd 2019
                  Digital Humanities: multimedial &amp; multimodal. Konferenzabstracts. Hg. von Patrick
                  Sahle. (DHd: 6, Frankfurt am Main u.&#160;a., 25.–29.03.2019) Frankfurt/Main 2019,
                  S. 296–299. DOI: <ref target="https://doi.org/10.5281/zenodo.2600812"
                     >10.5281/zenodo.2600812</ref>
               </bibl>
            <bibl xml:id="eder_rybicki_deeper_2011">Maciej Eder / Jan Rybicki: Deeper Delta Across Genres and Languages: Do We Really
               Need the Most Frequent Words? In: Literary and Linguistic Computing 26 (2011), H.&#160;3,
               S.&#160;315–321. DOI: <ref target="https://doi.org/10.1093/llc/fqr031"
                  >10.1093/llc/fqr031</ref> <ptr type="gbv" cRef="50563922X"/></bibl>
               <bibl xml:id="evert_et_al_burrows_2016">Stefan Evert / Fotis Jannidis / Friedrich Michael Dimpel&#160;/ Christof
                  Schöcht&#160;/ Steffen Pielströmt&#160;/ Thorsten Vitt&#160;/ Isabella Regert&#160;/ Andreas Büttner&#160;/ Thomas Proisl: Burrows Delta verstehen. In: Modellierung, Vernetzung,
               Visualisierung. Die Digital Humanities als fächerübergreifendes Forschungsparadigma.
               DHd 2016. Konferenzabstracts. Hg. von Elisabeth Burr. 2. überarbeitete und erweiterte
               Ausgabe. (DHd: 3, Leipzig, 07.–12.03.2016) Duisburg 2016, S. 83–86. DOI: <ref target="https://zenodo.org/doi/10.5281/zenodo.3679330">110.5281/zenodo.3679330</ref>  </bibl>
            <bibl xml:id="fuchs_hybride_1997">Stephan Fuchs: Hybride Helden: Gwigalois und Willehalm. Beiträge zum Heldenbild
               und zur Poetik des Romans im frühen 13. Jahrhundert. Heidelberg 1997. (=&#160;Frankfurter
               Beiträge zur Germanistik, 31) <ptr type="gbv" cRef="274372053"/></bibl>
               <bibl xml:id="gittel_koeppe_distance_2022">Benjamin Gittel&#160;/ Tilmann Köppe: On the Distance Between Traditional and DH-Based Genre Theory. In: Digitale Verfahren in der Literaturwissenschaft. Hg. von Jan Horstmann&#160;/ Frank Fischer. Münster 2022. (=&#160;Sonderausgabe Textpraxis. Digitales Journal für Philologie, 6). DOI: 10.17879/64059431694</bibl>
               <bibl xml:id="hettinger_et_al_genre_2015">Lena Hettinger / Martin Becker / Isabella Reger / Fotis Jannidis / Andreas Hotho:
                  Genre classification on German novels. In: Database and expert systems applications.
                  26th International Conference. Hg. von Qiming Chen&#160;/ Abdelkader Hameurlain&#160;/ Farouk
                  Toumani&#160;/ Roland Wagner&#160;/ Hendrik Decker. (DEXA: 26, Valencia, 01.–04.09.2015). Cham
                  u.&#160;a. 2015, S. 249–253. DOI: <ref target="https://doi.org/10.1109/DEXA.2015.62"
                     >10.1109/DEXA.2015.62</ref> <ptr type="gbv" cRef="1521531668"/></bibl>
               <bibl xml:id="hettinger_et_al_classification_2016a">Lena Hettinger / Isabella Reger / Fotis Jannidis / Andreas Hotho (2016a):
                  Classification of Literary Subgenres. In: Modellierung, Vernetzung, Visualisierung.
                  Die Digital Humanities als fächerübergreifendes Forschungsparadigma. DHd 2016.
                  Konferenzabstracts. Hg. von Elisabeth Burr. (DHd: 3, Leipzig, 07.–12.03.2016)
                  Duisburg 2016, S. 158–162. DOI: <ref target="https://doi.org/10.5281/zenodo.3679331"
                     >10.5281/zenodo.3679331</ref> <ptr type="gbv" cRef="858156008"/></bibl>
            <bibl xml:id="hettinger_et_al_significance_2016b">Lena Hettinger / Fotis Jannidis / Isabella Reger / Andreas Hotho (2016b):
               Significance Testing for the Classification of Literary Subgenres. In: Digital
               Humanities 2016. Conference Abstracts. (DH 2016, Krakau, 11.-16.07.2016) Krakau 2016.
                  [<ref target="https://dh2016.adho.org/abstracts/173">online</ref>]</bibl>
<bibl xml:id="kessler_et_al_automatic_1997">Brett Kessler / Geoffrey Nunberg / Hinrich Schütze: Automatic Detection of Text
               Genre. In: 35th Annual Meeting of the Association for Computational Linguistics and
               8th Conference of the European Chapter of the Association for Computational
               Linguistics. (ACL: 35 - EACL '97, Madrid, 07.–12.07.1997) Morristown, NJ 1997,
               S. 32–38. DOI: <ref target="http://dx.doi.org/10.3115/976909.979622"
                  >10.3115/976909.979622</ref> <ptr type="gbv" cRef="316297569"/></bibl>
            <bibl xml:id="kim_et_al_investigating_2017">Evgeny Kim / Sebastian Padó / Roman Klinger: Investigating the Relationship
               between Literary Genres and Emotional Plot Development. In: Proceedings of the Joint
               SIGHUM Workshop on Computational Linguistics for Cultural Heritage, Social Sciences,
               Humanities and Literature. Hg. von Beatrice Alex / Stefania Degaetano-Ortlieb / Anna
               Feldman / Anna Kazantseva / Nils Reiter / Stan Szpakowicz. (SIGHUM: 11, Vancouver,
               04.08.2017) Stroudsburg, PA, 2017, S. 17–26. DOI: <ref
                  target="http://dx.doi.org/10.18653/v1/W17-2203">10.18653/v1/W17-2203</ref>
            </bibl>
               <bibl xml:id="mccarty_humanities_2005">Willard McCarty: Humanities Computing. London&#160;/&#160;New York 2005. <ptr type="gbv" cRef="482300566"/></bibl>
               <bibl xml:id="saam-gautschi_modellbildung_2015">Nicole J. Saam&#160;/ Thomas Gautschi: Modellbildung in den Sozialwissenschaften. In: Handbuch Modellbildung und Simulation in den Sozialwissenschaften. Hg. von Norman Braun&#160;/ Nicole J. Saam. Wiesbaden 2015, S.&#160;15–60. DOI: 10.1007/978-3-658-01164-2</bibl>
               <bibl xml:id="schoech_corneille_2014">Christof Schöch: Corneille, Molière et les autres. Stilometrische Analysen zu
                  Autorschaft und Gattungszugehörigkeit im französischen Theater der Klassik. In:
                  Literaturwissenschaft im digitalen Medienwandel. Hg. von Christof Schöch / Lars
                  Schneider. Berlin 2014, S. 130–157. (=&#160;Philologie im Netz&#160;/&#160;Beiheft, 7) PDF. [<ref
                     target="http://web.fu-berlin.de/phin/beiheft7/b7t08.pdf">online</ref>] </bibl>
            <bibl xml:id="schoech_computational_2020">Christof Schöch: Computational Genre Analysis. In: Digital Humanities for Literary
               Studies: Methods, Tools &amp; Practices. Hg. von James O'Sullivan. College Station,
               TX 2020. Preprint. PDF. [<ref
                  target="https://www.dropbox.com/s/4ixvo2v5d3jkw7f/Schoech_2019_Computational-Genre-Analysis-preprint.pdf?dl=0"
                  >online</ref>] </bibl>
            <bibl xml:id="schulz_poetik_2000">Armin Schulz: Poetik des Hybriden. Schema, Variation und intertextuelle
               Kombinatorik in der Minne- und Aventiureepik: ‚Willehalm von Orlens‘&#160;– ‚Partonopier
               und Meliur‘&#160;– ‚Wilhelm von Österreich‘&#160;– ‚Die schöne Magelone‘. Berlin 2000. (=&#160;Philologische Studien und Quellen, 161) <ptr type="gbv" cRef="313490295"/></bibl>
            <bibl xml:id="selbmann_bildungsroman_1994">Rolf Selbmann: Der deutsche Bildungsroman. 2., überarbeitete und erweiterte
               Auflage. Stuttgart u.&#160;a. 1994. (=&#160;Sammlung Metzler, 214) <ptr type="gbv" cRef="147843162"/></bibl>
            <bibl xml:id="sharoff_et_al_babel_2010">Serge Sharoff / Zhili Wu / Katja Markert: The Web Library of Babel: evaluating
               genre collections. In: Proceedings of the 7th International Conference on Language
               Resources and Evaluation. Hg. von Nicoletta Calzolari / Khalid Choukri / Bente
               Maegaard / Joseph Mariani / Jan Odijk / Stelios Piperidis / Mike Rosner / Daniel
               Tapias. (LREC’10: 7, Valetta, 17.-23.05.2010) Paris 2010. PDF. [<ref
                  target="http://www.lrec-conf.org/proceedings/lrec2010/pdf/28_Paper.pdf"
                  >online</ref>] </bibl>
            <bibl xml:id="stachowiak_modelltheorie_1973">Herbert Stachowiak: Allgemeine Modelltheorie. Wien 1973. <ptr type="gbv" cRef="024950270"/></bibl>
            <bibl xml:id="stamatatos_et_al_categorization_2000">Efstathios Stamatatos / Nikos Fakotakis / George Kokkinakis: Automatic text
               categorization in terms of genre and author. In: Computational Linguistics 26 (2000),
               S. 471–495. DOI: <ref target="https://doi.org/10.1162/089120100750105920"
                  >10.1162/089120100750105920</ref>
            </bibl>
            <bibl xml:id="ulb-muenster_streit_2022">Der Streit um die Birne. Autorschafts-Attributionstest mit Burrows’ Delta und dessen
               Optimierung für Kurztexte am Beispiel der ‚Halben Birne‘ des Konrad von Würzburg:
               Anhang&#160;– Dimpel: Gute Wörter und Level-2-Differenzen bei Delta. Hg. von ULB Münster.
               2022. [<ref
                  target="https://miami.uni-muenster.de/Record/bc949a25-0d22-48e2-a1fb-c4ac1421f8e8"
                  >online</ref>] </bibl>
            <bibl xml:id="underwood_et_al_mapping_2013">Ted Underwood / Michael L. Black / Loretta Auvil / Boris Capitanu: Mapping mutable
               genres in structurally complex volumes. In: Proceedings of the IEEE International
               Conference on Big Data. Hg. von Hu Xiaohua. 2 Bde. (Silicon Valley, CA,
               06.–09.10.2013) Piscataway, NJ 2013. Bd. 1: S. 95–103. DOI: <ref
                  target="https://doi.org/10.1109/BigData.2013.6691676"
                  >10.1109/BigData.2013.6691676</ref> <ptr type="gbv" cRef="779034104"/></bibl>
               <bibl xml:id="underwood_life-cycles_2016">Ted Underwood: The Life Cycles of Genres. In: Cultural Analytics 2 (2016), H.&#160;2. DOI: <ref target="https://doi.org/10.22148/16.005">10.22148/16.005</ref></bibl>
            <bibl xml:id="viehhauser_gattungsgeschichten_2017">Gabriel Viehhauser: Digitale Gattungsgeschichten. Minnesang zwischen generischer
               Konstanz und Wende. In: Zeitschrift für digitale Geisteswissenschaften 2 (2017). DOI:
                  <ref target="https://doi.org/10.17175/2017_003">10.17175/2017_003</ref>
            </bibl></listBibl>
            </div>
         <div type="abbildungsnachweis">
            <head>Tabellenverzeichnis</head>
            <desc type="table" xml:id="tab1"><ref target="#tab001">Tab. 1</ref>: Test A1, Erkennungsquotentest mit fünf Vergleichstexten der Zielklasse, Test A1, ABE, BIL, GES, KOM, TRA. Beim Bag-of-Words-Test mit 10.000 MFWs werden die Texte 200 verschiedenen Bag-Sets pro Gattung zugelost und Mittelwerte gebildet.<ref type="graphic" target="#gattungssignal_2022_t1"/></desc>
            <desc type="table" xml:id="tab2"><ref target="#tab002">Tab. 2</ref>: Test A2, ARI-Test mit 4 × 10 Distraktortexten, ABE, BIL, GES, KOM, TRA.<ref type="graphic" target="#gattungssignal_2022_t2"/></desc>
            <desc type="table" xml:id="tab3"><ref target="#tab003">Tab. 3</ref>: Test A2, ARI-Test mit 4 × 10 Distraktortexten, Einzelwerte, ABE,
               BIL, GES, KOM, TRA.<ref type="graphic" target="#gattungssignal_2022_t3"/></desc>
            <desc type="table" xml:id="tab4"><ref target="#tab004">Tab. 4</ref>: Test A2, ARI-Test mit 4 × 10 Distraktortexten, Bag-of-Words, ABE,
               BIL, GES, KOM, TRA.<ref type="graphic" target="#gattungssignal_2022_t4"/></desc>
            <desc type="table" xml:id="tab5"><ref target="#tab005">Tab. 5</ref>: Test A3, ARI-Test mit 4 × 5 Distraktortexten, ABE, BIL, GES, KOM,
               TRA.<ref type="graphic" target="#gattungssignal_2022_t5"/></desc>
            <desc type="table" xml:id="tab6"><ref target="#tab006">Tab. 6</ref>: Test B, ARI-Test mit 2 × 10 Distraktortexten, ABE, BIL, KOM.<ref type="graphic" target="#gattungssignal_2022_t6"/></desc>
            <desc type="table" xml:id="tab7"><ref target="#tab007">Tab. 7</ref>: Test C, ARI-Test mit 2 × 10 Distraktortexten, ABE, KOM, TRA.<ref type="graphic" target="#gattungssignal_2022_t7"/></desc>
            <desc type="table" xml:id="tab8"><ref target="#tab008">Tab. 8</ref>: Test C, ARI-Test mit 2 × 10 Distraktortexten, Einzelwerte, ABE,
               KOM, TRA (Volltexte, mit Guten Wörtern und Z-Wert-Begrenzung).<ref type="graphic" target="#gattungssignal_2022_t8"/></desc>
            <desc type="table" xml:id="tab9"><ref target="#tab009">Tab. 9</ref>: Test D1, Erkennungsquotentest mit fünf Vergleichstexten der
               Zielklasse, ABE, BIL, GES.<ref type="graphic" target="#gattungssignal_2022_t9"/></desc>
            <desc type="table" xml:id="tab10"><ref target="#tab010">Tab. 10</ref>: Test D2, ARI-Test mit 2 × 10 Distraktortexten, ABE, BIL, GES.<ref type="graphic" target="#gattungssignal_2022_t10"/></desc>
            <desc type="table" xml:id="tab11"><ref target="#tab011">Tab. 11</ref>: Test D2, ARI-Test mit 2 × 10 Distraktortexten, Einzelwerte, ABE,
               BIL, GES.<ref type="graphic" target="#gattungssignal_2022_t11"/></desc>
            <desc type="table" xml:id="tab12"><ref target="#tab012">Tab. 12</ref>: Test D3, ARI-Test mit 2 × 5 Distraktortexten, ABE, BIL, GES.<ref type="graphic" target="#gattungssignal_2022_t12"/></desc>
            <desc type="table" xml:id="tab13"><ref target="#tab013">Tab. 13</ref>: Test D4, ARI-Test mit 2 × 10 Distraktortexten und großem
               MFW-Bereich, Volltexte, ABE, BIL, GES.<ref type="graphic" target="#gattungssignal_2022_t13"/></desc>
            <desc type="table" xml:id="tab14"><ref target="#tab014">Tab. 14</ref>: Test D5, ARI-Test mit 2 × 10 Distraktortexten und großem
               MFW-Bereich, Bag-of-Words (20.000 Wortformen), ABE, BIL, GES.<ref type="graphic" target="#gattungssignal_2022_t14"/></desc>
            <desc type="table" xml:id="tab15"><ref target="#tab015">Tab. 15</ref>: Auszug aus den textsortenspezifischen Gute-Wörter-Listen: Jeweils
               100 Wortformen mit den höchsten Level-2-Differenzen.<ref type="graphic" target="#gattungssignal_2022_t15"/></desc>
            <desc type="table" xml:id="tab16"><ref target="#tab016">Tab. 16</ref>: Duplikate in den Listen der Guten Wörter.<ref type="graphic" target="#gattungssignal_2022_t16"/></desc>
         </div>
      </body>
   </text>
</TEI>
