<?xml version="1.0" encoding="utf-8"?>
<?xml-model href="https://zfdg.de/sites/default/files/medien/zfdg.rng" type="application/xml" schematypens="http://relaxng.org/ns/structure/1.0"?>
<?xml-model href="https://zfdg.de/sites/default/files/medien/zfdg.rng" type="application/xml" schematypens="http://purl.oclc.org/dsdl/schematron"?>
<TEI xmlns="http://www.tei-c.org/ns/1.0" xmlns:tei="http://www.tei-c.org/ns/1.0">
   <teiHeader>
      <fileDesc>
         <titleStmt>
            <title level="a" type="full">Ähnlichkeiten erklären. Explainable Artificial Intelligence
               für die multimodale Bildsuche und -&#x200d;analyse in der Kunstgeschichte</title>
            <title level="a" type="short">Ähnlichkeiten erklären</title>
            <respStmt>
               <resp ref="http://id.loc.gov/vocabulary/relators/aut">Author</resp>
               <persName>
                  <forename>Julian</forename>
                  <surname>Stalter</surname>
                  <email>julian.stalter@kunstgeschichte.uni-muenchen.de</email>
                  <idno type="gnd">1269024078</idno>
                  <idno type="orcid">0000-0003-1149-1688</idno>
                  <affiliation>Ludwig-Maximilians-Universität München</affiliation>
               </persName>
               <resp ref="https://credit.niso.org/contributor-roles/conceptualization/"
                  >Conceptualization</resp>
               <resp ref="https://credit.niso.org/contributor-roles/data-curation/">Data
                  curation</resp>
               <resp ref="https://credit.niso.org/contributor-roles/funding-acquisition/">Funding
                  acquisition</resp>
               <resp ref="https://credit.niso.org/contributor-roles/investigation/"
                  >Investigation</resp>
               <resp ref="https://credit.niso.org/contributor-roles/methodology/">Methodology</resp>
               <resp ref="https://credit.niso.org/contributor-roles/project-administration/">Project
                  administration</resp>
               <resp ref="https://credit.niso.org/contributor-roles/writing-original-draft/"
                  >Writing&#160;– original draft</resp>
            </respStmt>
            <respStmt>
               <resp ref="http://id.loc.gov/vocabulary/relators/aut">Author</resp>
               <persName>
                  <forename>Matthias</forename>
                  <surname>Springstein</surname>
                  <email>matthias.springstein@tib.eu</email>
                  <idno type="gnd">1374806765</idno>
                  <idno type="orcid">0000-0002-6509-8534</idno>
                  <affiliation>Technische Informationsbibliothek (TIB) Hannover</affiliation>
               </persName>
               <resp ref="https://credit.niso.org/contributor-roles/investigation/"
                  >Investigation</resp>
               <resp ref="https://credit.niso.org/contributor-roles/methodology/">Methodology</resp>
               <resp ref="https://credit.niso.org/contributor-roles/software/">Software</resp>
               <resp ref="https://credit.niso.org/contributor-roles/visualization/"
                  >Visualization</resp>
               <resp ref="https://credit.niso.org/contributor-roles/writing-original-draft/"
                  >Writing&#160;– original draft</resp>
            </respStmt>
            <respStmt>
               <resp ref="http://id.loc.gov/vocabulary/relators/aut">Author</resp>
               <persName>
                  <forename>Stefanie</forename>
                  <surname>Schneider</surname>
                  <email>stefanie.schneider@itg.uni-muenchen.de</email>
                  <idno type="gnd">1220379301</idno>
                  <idno type="orcid">0000-0003-4915-6949</idno>
                  <affiliation>Ludwig-Maximilians-Universität München</affiliation>
               </persName>
               <resp ref="https://credit.niso.org/contributor-roles/conceptualization/"
                  >Conceptualization</resp>
               <resp ref="https://credit.niso.org/contributor-roles/data-curation/">Data
                  curation</resp>
               <resp ref="https://credit.niso.org/contributor-roles/funding-acquisition/">Funding
                  acquisition</resp>
               <resp ref="https://credit.niso.org/contributor-roles/methodology/">Methodology</resp>
               <resp ref="https://credit.niso.org/contributor-roles/software/">Software</resp>
               <resp ref="https://credit.niso.org/contributor-roles/supervision/">Supervision</resp>
               <resp ref="https://credit.niso.org/contributor-roles/visualization/"
                  >Visualization</resp>
               <resp ref="https://credit.niso.org/contributor-roles/writing-review-editing/"
                  >Writing&#160;– review &amp; editing</resp>
            </respStmt>
         </titleStmt>
         <editionStmt>
            <edition n="1.0"/>
            <respStmt>
               <resp ref="http://id.loc.gov/vocabulary/relators/dtm">Technische Redaktion</resp>
               <persName>
                  <forename>Martin</forename>
                  <surname>de la Iglesia</surname>
                  <idno type="gnd">1095143719</idno>
                  <idno type="orcid">0000-0002-9319-4793</idno>
               </persName>
            </respStmt>
            <respStmt>
               <resp ref="http://id.loc.gov/vocabulary/relators/dtm">Technische Redaktion</resp>
               <persName>
                  <forename>Maximilian</forename>
                  <surname>Görmar</surname>
                  <idno type="gnd">1077317964</idno>
                  <idno type="orcid">0000-0003-3608-1140</idno>
               </persName>
            </respStmt>
            <respStmt>
               <resp ref="http://id.loc.gov/vocabulary/relators/pfr">Textredaktion</resp>
               <persName>
                  <forename>Maximilian</forename>
                  <surname>Görmar</surname>
                  <idno type="gnd">1077317964</idno>
                  <idno type="orcid">0000-0003-3608-1140</idno>
               </persName>
            </respStmt>
         </editionStmt>
         <publicationStmt>
            <publisher n="Redaktionssitz">
               <orgName>Herzog August Bibliothek</orgName>
               <address>
                  <addrLine>Lessingplatz 1</addrLine>
                  <addrLine>38304 Wolfenbüttel</addrLine>
               </address>
            </publisher>
            <publisher n="herausgebendes Organ">
               <orgName>Forschungsverbund Marbach Weimar Wolfenbüttel</orgName>
               <address>
                  <addrLine>Burgplatz 4</addrLine>
                  <addrLine>99423 Weimar</addrLine>
               </address>
            </publisher>
            <publisher n="herausgebendes Organ">
               <orgName>Digital Humanities im deutschsprachigen Raum e. V.</orgName>
               <address>
                  <addrLine>Hamburg</addrLine>
               </address>
            </publisher>
            <date n="1.0" when="2026-05-21">21.05.2026</date>
            <idno type="doi">10.17175/sb008_003</idno>
            <idno type="ppn">1933638664</idno>
            <availability status="free">
               <licence target="https://creativecommons.org/licenses/by-sa/4.0/">CC BY-SA 4.0,
                  sofern nicht anders angegeben.</licence>
            </availability>
         </publicationStmt>
         <seriesStmt>
            <title level="j">Zeitschrift für digitale Geisteswissenschaften</title>
            <title level="m">Bildähnlichkeit und Bildsuche: Geistes- und
               informationswissenschaftliche Zugänge zu historischem Material</title>
            <title level="s">Sonderbände</title>
            <respStmt>
               <resp ref="http://id.loc.gov/vocabulary/relators/edt">Editor</resp>
               <persName>
                  <forename>Hartmut</forename>
                  <surname>Beyer</surname>
                  <email>beyer@hab.de</email>
                  <idno type="gnd">136449824</idno>
                  <idno type="orcid">0000-0002-1158-1547</idno>
                  <affiliation>Herzog August Bibliothek Wolfenbüttel</affiliation>
               </persName>
            </respStmt>
            <respStmt>
               <resp ref="http://id.loc.gov/vocabulary/relators/edt">Editor</resp>
               <persName>
                  <forename>Thomas</forename>
                  <surname>Mandl</surname>
                  <email>mandl@uni-hildesheim.de</email>
                  <idno type="gnd">138432600</idno>
                  <idno type="orcid">0000-0002-8398-9699</idno>
                  <affiliation>Universität Hildesheim, Institut für Informationswissenschaft &amp;
                     Sprachtechnologie</affiliation>
               </persName>
            </respStmt>
            <idno type="issn">2510-1366</idno>
            <idno type="ppn">1930709293</idno>
            <idno type="doi">10.17175/sb008</idno>
            <idno type="url">https://www.zfdg.de/sonderband/8</idno>
            <biblScope unit="specialvolume">8</biblScope>
            <biblScope unit="article">3</biblScope>
         </seriesStmt>
         <sourceDesc>
            <p>Born digital: no previous source exists.</p>
         </sourceDesc>
      </fileDesc>
      <encodingDesc>
         <editorialDecl>
            <p>Letzte Überprüfung aller Verweise: <date when="2026-01-23">23.01.2026</date>
            </p>
         </editorialDecl>
         <schemaRef url="https://zfdg.de/sites/default/files/medien/zfdg.odd"/>
      </encodingDesc>
      <profileDesc>
         <textClass>
            <keywords n="Beitragstyp">
               <term>Fachartikel</term>
            </keywords>
            <keywords n="GND">
               <term ref="https://d-nb.info/gnd/7503709-9">Kunstgeschichte</term>
               <term ref="https://d-nb.info/gnd/1263068472">Erklärbare künstliche Intelligenz</term>
               <term ref="https://d-nb.info/gnd/4202994-6">Ähnlichkeit</term>
               <term ref="https://d-nb.info/gnd/4145391-8">Bildanalyse</term>
            </keywords>
         </textClass>
      </profileDesc>
   </teiHeader>
   <text xml:lang="de">
      <front>
         <div type="abstract" xml:lang="de">
            <p>Der Beitrag untersucht das Konzept der Ähnlichkeit im Rahmen der <term type="dh"
                  >Explainable Artificial Intelligence (XAI)</term> in Modellen des maschinellen
               Lernens für die kunsthistorische Bildsuche und <seg type="nobreak"
                  >-&#x200d;analyse</seg>. Anhand des bildorientierten Forschungswerkzeugs
                  <title>iART</title> wird gezeigt, welche Parameter in künstlichen neuronalen
               Netzen die Ergebnisse der Bildsuche bestimmen und wie. Dabei werden zwei
               entscheidende Faktoren hervorgehoben: die Architektur der neuronalen Netze und die
               verwendeten Trainingsdaten. Durch die Anwendung von Methoden der <term type="dh"
                  >XAI</term> können diese Prozesse transparenter gemacht werden, um ein kritisches
               Verständnis ihrer Anwendung in der kunsthistorischen Forschung zu fördern. Dieser
               interdisziplinäre Ansatz unterstreicht die Notwendigkeit von Transparenz und
               methodischer Reflexion beim Einsatz von Technologien des maschinellen Lernens in den
               Geisteswissenschaften.</p>
         </div>
         <div type="abstract" xml:lang="en">
            <p>This article examines the concept of similarity in the context of <term type="dh"
                  >Explainable Artificial Intelligence (XAI)</term> in machine learning models for
               art-historical image search and analysis. Using the image-oriented research tool
                  <title>iART</title>, it is shown which parameters in artificial neural networks
               determine the results of image search and how. Two decisive factors are highlighted:
               the architecture of the neural networks and the training data used. By applying <term
                  type="dh">XAI</term> methods, these processes can be made more transparent in
               order to promote a critical understanding of their application in art-historical
               research. This interdisciplinary approach emphasizes the necessity for transparency
               and methodological reflection when using machine learning technologies in the
               humanities.</p>
         </div>
      </front>
      <body>
         <div type="chapter">
            <head>1. Die Rolle(n) der Ähnlichkeit in algorithmischen Prozessen der Bildsuche und
               -&#x200d;analyse</head>
            <p>Geben Nutzer*innen der Bildersuchmaschine <hi rend="italic">iART</hi>
               <note type="footnote">
                  <ref type="bibliography" target="#springstein_et_al_engine_2021">Springstein
                     et&#160;al. 2021</ref>; <ref type="bibliography"
                     target="#schneider_et_al_suchmaschine_2022">Schneider et&#160;al. 2022</ref>.
                     <title>iART</title>, kurz für <title>Interaktives Analyse- und
                     Retrieval-Tool</title>, wurde im Rahmen eines von der DFG geförderten Projekts
                  von 2019 bis 2021 entwickelt vom Lehrstuhl für Mittlere und Neuere Kunstgeschichte
                  der Ludwig-Maximilians-Universität München, der Forschungsgruppe Visual Analytics
                  der Technischen Informationsbibliothek (TIB) Hannover und der Fachgruppe
                  Intelligente Systeme und Maschinelles Lernen des Heinz Nixdorf Instituts der
                  Universität Paderborn. Es handelt sich um eine für kunsthistorische Bildinhalte
                  optimierte Suchmaschine, die verschiedene <term type="dh"
                  >Deep-Learning</term>-Methoden zur automatischen Klassifizierung und
                  Ähnlichkeitsbestimmung von Bildern einsetzt.</note> den Begriff ›creation‹<note
                  type="footnote"> Da das in <hi rend="italic">iART</hi> verwendete Modell
                  größtenteils mit Daten in englischer Sprache trainiert wurde, wird ebenso die
                  Suche auf Englisch durchgeführt. Die deutsche Entsprechung der Suchanfrage wäre
                  ›Erschaffung‹ oder ›Schöpfung‹.</note> in den <ref
                  target="https://www.iart.vision/search?lang=en&amp;query=%2Btxt%3Acreation"
                  >Suchschlitz</ref> ein, erscheint zunächst ein <title>Studieblad Met Vier
                  Handen</title> (1710–1777) eines unbekannten Künstlers (<ref type="graphic"
                  target="#aehnlichkeiten_001">Abbildung 1</ref>). An dritter Stelle folgt wieder
               eine Studie von Händen, diesmal die eines Armbrustschützen. Sie halten einen Pfeil,
               dessen Spitze jedoch nicht zu erkennen ist, sondern eher an einen Stift oder Pinsel
               erinnert. Für Kunsthistoriker*innen ein interessantes Ergebnis: Beziehen sich diese
               Ergebnisse vielleicht auf die schöpferisch tätige Hand Gottes oder sogar der
               Künstler*innen, die aus Lehm, Erde oder mit dem Pinsel die Welt erschaffen und ihr
               Form geben? Greift hier die Suchmaschine, die auf Basis eines künstlichen neuronalen
               Netzes die Ergebnisse selektiert, kunsthistorische Topoi auf und liefert kontextuell
               anspruchsvolle Suchergebnisse? Erscheint <quote>der Künstler als Griffel der
                  Gottheit</quote>,<note type="footnote">
                  <ref type="bibliography" target="#kris_kurz_legende_2010">Kris&#160;/ Kurz
                     2010</ref>, S.&#160;74.</note> wie es Ernst Kris und Otto Kurz formuliert
               haben? Oder liegt eine andere, prosaischere Erklärung näher?</p>
            <figure>
               <graphic xml:id="aehnlichkeiten_001" url="Medien/aehnlichkeiten_001.png">
                  <desc>
                     <ref type="intern" target="#abb1">Abb.&#160;1</ref>: Suchergebnisse im
                     Forschungswerkzeug <hi rend="italic">iART</hi> für den Begriff ›creation‹.
                     [Bildquelle: <hi rend="italic">iART</hi>, Suchbegriff <ref
                        target="https://www.iart.vision/search?lang=en&amp;query=%2Btxt%3Acreation"
                        >creation</ref>]</desc>
               </graphic>
            </figure>
            <p>Auch in Michelangelos berühmter Darstellung der Erschaffung Adams (<title>The
                  Creation of Adam</title>, 1508–1512), die auf Platz fünf der Suchergebnisse
               rangiert, stehen zwei Hände im Mittelpunkt: Gott schwebt auf einer Wolke heran und
               richtet seinen Zeigefinger auf Adam, der wiederum seine linke Hand, auf sein Knie
               gestützt, Gott entgegenstreckt. Könnten die vielen Hände in den Suchergebnissen hier
               auf eine Ähnlichkeit hindeuten und ›creation‹ direkt mit Michelangelos Gemälde in
               Verbindung bringen? Eine Möglichkeit, diese Hypothese zu überprüfen, besteht darin,
               mit der Eingabe von ›creation of adam‹ gezielt nach Michelangelos <title>Erschaffung
                  Adams</title> zu suchen. Und tatsächlich finden sich in den <ref
                  target="https://www.iart.vision/search?lang=en&amp;query=%2Btxt%3Acreation%20of%20adam"
                  >Suchergebnissen</ref> weitere Studien von Händen; außerdem tauchen Werke wie das
               Relief <title>Die Vertreibung aus dem Paradies</title> (1649) eines unbekannten
               Künstlers auf, in dem der Engel eine ähnliche Zeigegeste aufweist wie Michelangelos
               Adam (<ref type="graphic" target="#aehnlichkeiten_002">Abbildung 2</ref>). Diese
               Ergebnisse deuten darauf hin, dass gerade dieser Aspekt&#160;– die Darstellung der
               Hände&#160;– mit dem Suchbegriff ›creation‹ und insbesondere mit Michelangelos Werk
               assoziiert wird. Es stellt sich jedoch die Frage, warum der Algorithmus gerade dieses
               Merkmal hervorhebt und nicht etwa die liegende Figur Adams, den sich auf der Wolke
               nähernden Gott oder andere in der Kunstgeschichte vertretene Schöpfungsszenen. Welche
               Faktoren beeinflussen also die Auswahl der Bilder, und welche Rolle spielt
               Ähnlichkeit in diesem algorithmischen Auswahlprozess?</p>
            <figure>
               <graphic xml:id="aehnlichkeiten_002" url="Medien/aehnlichkeiten_002.png">
                  <desc>
                     <ref type="intern" target="#abb2">Abb.&#160;2</ref>: Suchergebnisse im
                     Forschungswerkzeug <hi rend="italic">iART</hi> für den Begriff ›creation of
                     adam‹. [Bildquelle: <hi rend="italic">iART</hi>, Suchbegriff <ref
                        target="https://www.iart.vision/search?lang=en&amp;query=%2Btxt%3Acreation%20of%20adam"
                        >creation of adam</ref>]</desc>
               </graphic>
            </figure>
            <p>Im Folgenden untersuchen wir zwei Faktoren, die die Suchergebnisse in bildbasierten
               Forschungswerkzeugen wie <hi rend="italic">iART</hi> beeinflussen: (1) die
               Architektur neuronaler Netze und (2) die Daten, die in sie zum Training eingespeist
               werden. Dabei konzentrieren wir uns auf die <hi rend="italic">Dimensionen</hi> des
               Konzepts der Ähnlichkeit, und wie diese die algorithmisch generierten Ergebnisse
               bestimmen. Eingebettet in den Rahmen der <term type="dh">Explainable Artificial
                  Intelligence (XAI)</term> zielt der Beitrag darauf ab, die Entscheidungsprozesse
               künstlicher neuronaler Netze transparent zu machen,<note type="footnote">Vgl. <ref
                     type="bibliography" target="#molnar_machine_2020">Molnar 2020</ref>.</note> um
               komplexe Mechanismen in einer für Forscher*innen verständlichen Sprache
                  abzubilden.<note type="footnote"> Vgl. <ref type="bibliography"
                     target="#doshi-velez_kim_science_2017">Doshi-Velez&#160;/ Kim</ref>,
                  S.&#160;2.</note> Im Kontext von <hi rend="italic">iART</hi>&#160;– und ähnlichen
               geisteswissenschaftlichen Forschungswerkzeugen, die maschinelle Lernverfahren
                  integrieren<note type="footnote"> Vgl. <ref type="bibliography"
                     target="#ohm_et_al_2023">Ohm et&#160;al. 2023</ref>; <ref type="bibliography"
                     target="#offert_bell_bias_2021">Offert&#160;/ Bell 2023</ref>; <ref
                     type="bibliography" target="#ufer_et_al_retrieval">Ufer et&#160;al.
                  2021</ref>.</note>&#160;– können im Sinne des <term type="dh">Tool
                  Criticism</term> so auch Spezifika der jeweiligen Anwendung thematisiert
                  werden.<note type="footnote">Vgl. <ref type="bibliography"
                     target="#herrmann_et_al_tool_2023">Herrmann et al. 2023</ref>.</note> Auf diese
               Weise soll eine vertiefte Diskussion über den Gebrauch und die Auswirkungen von
               maschinellen Lernverfahren in der Kunstgeschichte angeregt werden. Durch die
               konstante Bezugnahme auf die eingangs vorgestellte Suche nach ›creation‹ wird die
               methodologische Herangehensweise illustriert und die Diskussion entlang eines
               spezifischen Anwendungsszenarios entfaltet. Dabei beleuchtet der Beitrag sowohl die
               mathematischen Grundlagen der Ähnlichkeitsbestimmung als auch deren Verortung im
               bildwissenschaftlichen Kontext. Dieser Bestandsaufnahme folgt ein Ausblick auf
               Methoden zur Verbesserung der Transparenz und Nachvollziehbarkeit von neuronalen
               Netzen, die für die Vorhersage der Netze entscheidende Bereiche visualisieren um die
               sogenannte <term type="dh">Black Box</term> der Modelle zu ›entmystifizieren‹.</p>
            <p>Diese Arbeiten sind Teil des Projekts <ref
                  target="https://gepris.dfg.de/gepris/projekt/510048106">Reflexionsbasierte
                  künstliche Intelligenz in der Kunstgeschichte</ref>, das im Rahmen des
               DFG-Schwerpunktprogramms <quote>Das digitale Bild</quote> seit 2022 gefördert wird.
               Die Kooperation zwischen der Technischen Informationsbibliothek (TIB) der Leibniz
               Universität Hannover und dem Lehrstuhl für Mittlere und Neuere Kunstgeschichte der
               Ludwig-Maximilians-Universität München befasst sich interdisziplinär mit den
               Herausforderungen, die sich aus dem Einsatz künstlicher neuronaler Netze in der
               kunsthistorischen Bildsuche und <seg type="nobreak">-&#x200d;analyse</seg> ergeben.
               Ziel des Projektes ist es, die spezifischen Anforderungen der Kunstgeschichte an den
               reflexiven Einsatz künstlicher neuronaler Netze im Forschungsprozess zu untersuchen.
               Dies beinhaltet die Erstellung eines kunsthistorischen Textkorpus, das mittels eines
               automatisierten Extraktionsprozesses in einen Wissensgraphen überführt wird; dieser
               Wissensgraph dient als Grundlage für das Training domänenspezifischer Modelle. Durch
               den Einsatz von Merkmalsvisualisierungen und sogenannten ›Szenengraphen‹ wird zudem
               eine verbesserte Nachvollziehbarkeit der Klassifikations- und
               Retrieval-Entscheidungen künstlicher neuronaler Netze angestrebt, um die
               Ergebnisfindung transparenter zu gestalten.<note type="footnote"> Vgl. <ref
                     type="bibliography" target="#stalter_et_al_reflectAI_2024">Stalter et&#160;al.
                     2024</ref>.</note> Der vorliegende Beitrag schließt an diesen letzten Aspekt
               an. Unserem interdisziplinären Ansatz folgend, möchten wir zunächst den Begriff der
               Ähnlichkeit in den jeweiligen Domänen verorten.</p>
         </div>
         <div type="chapter">
            <head>2. Vorgehensweisen zur bildorientierten Ähnlichkeitsbestimmung</head>
            <p>Der Begriff der Ähnlichkeit ist, wie vielfach diskutiert und kritisiert wurde,
               allgegenwärtig und doch nicht greifbar. Ähnlichkeit sei keine inhärente Eigenschaft
               einer Entität, sondern ein von außen bestimmtes Attribut, führt Nelson Goodman aus,
               und so <quote>relative, variable, [and] culture-dependent</quote>.<note
                  type="footnote">
                  <ref type="bibliography" target="#goodman_strictures_1972">Goodman 1972</ref>,
                  S.&#160;437.</note> Ihre Bestimmung erfordere die Interpretation einer
               beobachtenden Instanz und sei daher von Natur aus von menschlichem Ermessen geprägt,
               so Michel Foucault.<note type="footnote">
                  <ref type="bibliography" target="#foucault_mots_1966">Foucault 1966</ref>,
                  S.&#160;41.</note>
            </p>
            <div type="subchapter">
               <head>2.1 Das Konzept der Ähnlichkeit aus kunsthistorischer Perspektive</head>
               <p>In der Kunstgeschichte wird Ähnlichkeit methodisch unter den Begriffen des
                  ›vergleichenden Sehens‹ und des ›vergleichenden Blicks‹ diskutiert. Dabei werden
                  mindestens zwei Objekte anhand verschiedener, zu definierender Merkmale
                  miteinander in Beziehung gesetzt und verglichen. Disziplingeschichtlich geht
                  dieser Vorgang bis ins 19. Jahrhundert auf Anton Springer zurück, der die
                  Kunstgeschichte als Formwissenschaft verstand: Ohne auf vorgefasste Theorien
                  zurückzugreifen, wollte er über Vergleiche zu grundlegenden Individual-, Orts- und
                  Zeitstilen gelangen.<note type="footnote"> Vgl. <ref type="bibliography"
                        target="#pfisterer_kunstgeschichte_2020">Pfisterer 2020</ref>,
                     S.&#160;154.</note>
               </p>
               <p>Diese vergleichende Betrachtung differenzierte sich später in zwei Varianten aus:
                  in die Analyse der Verschiedenheit der Erscheinungen und in der Analyse von
                  Gemeinsamkeiten, Analogien und Übergängen.<note type="footnote">Vgl. <ref
                        type="bibliography" target="#geimer_sehen_2010">Geimer 2010</ref>,
                     S.&#160;47.</note> Die Verschiedenheit der Erscheinungen wird methodisch bei
                  Heinrich Wölfflin angewandt, der mit <quote>Kontrasteindrücken</quote><note type="footnote">
                     <ref type="bibliography" target="#woelfflin_grundbegriffe_1915">Wölfflin
                        1915</ref>.</note> die Unterschiede in Gegensatzpaaren zu erfassen sucht.
                  Analogien hingegen verfolgt Aby Warburgs Bilderatlas <title>Mnemosyne</title>.
                  Dieser versammelt fotografische Reproduktionen auf Tafeln, um einen Überblick über
                  die Summe der Bilder zu geben, die durch die Übernahme von
                     <quote>Pathosformeln</quote> in einem Verwandtschaftsverhältnis zu einander
                     stehen.<note type="footnote">Vgl. <ref type="bibliography"
                        target="#thuerlemann_bild_2011">Thürlemann 2013</ref>, S.&#160;109.</note>
                  Pathosformeln, etwa als prägnante Ausdruckshaltungen, zeugen für Warburg von einer
                  jahrtausendelangen Tradierung bestimmter Gesten.<note type="footnote"> Vgl. <ref
                        type="bibliography" target="#ubl_symbol_2011">Ubl 2011</ref>,
                     S.&#160;430.</note> Die Tafeln stehen für Warburg damit in einem
                  Ähnlichkeitsverhältnis und können vergleichend betrachtet werden. Diese und andere
                  Formen der Ähnlichkeitsbestimmung bieten letztlich, wie George Kubler es
                  formuliert, eine Möglichkeit, das Universum zu verstehen, indem wir es durch
                  Identitäten&#160;– wie Klassen, Typen und Kategorien&#160;– vereinfachen. Auf
                  diese Weise kann die unendliche Folge nichtidentischer Ereignisse in ein endliches
                  System von Ähnlichkeiten überführt werden.<note type="footnote">
                     <ref type="bibliography" target="#kubler_shape_2008">Kubler 2008</ref>,
                     S.&#160;61.</note> Die so gebildeten Identitäten dienen auch in der
                  Kunstgeschichte als Grundlage für die vergleichende Betrachtung: Die Fähigkeit zur
                  Kategorienbildung setzt, nach Felix Thürlemann, voraus, <quote>das Gemeinsame und
                     das jeweils Eigene der […] zusammengestellten Bilder&#160;– sei es auf
                     inhaltlich-ikonografischer, sei es auf formal-stilistischer Ebene, begrifflich
                     zu fassen</quote>.<note type="footnote">
                     <ref type="bibliography" target="#thuerlemann_bild_2005">Thürlemann 2005</ref>,
                     S.&#160;167.</note>
               </p>
            </div>
            <div type="subchapter">
               <head>2.2 Das Konzept der Ähnlichkeit aus informatischer Perspektive</head>
               <p>Die algorithmische Mustererkennung hingegen beruht darauf, dass Ähnlichkeiten als
                  Nähe- und Abstandsverhältnisse in einem Vergleichsraum modelliert werden&#160;–
                  die Quantifizierung von Ähnlichkeit schafft erst deren Operationalisierung. In
                  diesem Raum stellt jedes Bild einen Vektor in einem hochdimensionalen
                  Koordinatenraum dar. Die relative Lage dieser Vektoren zueinander offenbart ihre
                  relationalen Zusammenhänge, die durch den Vergleich der extrahierten numerischen
                  Merkmale konkretisiert werden. Ziel ist es, die Ähnlichkeit als Wert zwischen 0
                  und 1 zu bestimmen, wobei Metriken wie der euklidische Abstand oder die
                  Kosinusähnlichkeit verwendet werden (<ref type="graphic"
                     target="#aehnlichkeiten_003">Abbildung 3</ref>).</p>
               <figure>
                  <graphic xml:id="aehnlichkeiten_003" url="Medien/aehnlichkeiten_003.png">
                     <desc>
                        <ref type="intern" target="#abb3">Abb.&#160;3</ref>: Visualisierung des
                        euklidischen Abstands d und der Kosinusähnlichkeit <hi rend="italic"
                           >cos</hi>(θ) zweier Merkmalsvektoren a und b, die die Kunstwerke
                           <title>Studieblad Met Vier Handen</title> (1710–1777) und <title>Studie
                           für die Hände eines Armbrustschützen</title> (1512–1516) repräsentieren.
                        [Grafik: Stefanie Schneider&#160;/ Matthias Springstein 2024]</desc>
                  </graphic>
               </figure>
               <p>In <term type="dh">Convolutional Neural Networks (CNNs)</term> wird ein
                  bildrepräsentierender Merkmalsvektor zum Beispiel erzeugt, indem die Pixel des
                  Eingabebildes sequentiell durch mehrere Schichten von Neuronen geleitet werden.
                  Diese Neuronen sind darauf ausgelegt, Bildmerkmale zu identifizieren, von
                  einfachen Farbgradienten in den ersten Schichten bis hin zu semantisch
                  interpretierbaren Mustern und Objektformen in höheren Schichten. Jede dieser
                  Schichten besteht aus einer Reihe von Filtern, die zunächst willkürlich
                  konfiguriert sind, aber während des Trainings zunehmend auf die Erkennung
                  bestimmter Merkmale eingestellt werden. Die <term type="dh">Outputs</term> dieser
                  Filter werden auf <term type="dh">Feature Maps</term> abgebildet, die die
                  Lokalisation und Relevanz der erkannten Merkmale im Bild anzeigen. Die Feature
                  Maps der tieferen Schichten schließlich werden zu einem Merkmalsvektor, dem
                  sogenannten <term type="dh">Embedding</term>, zusammengeführt, der das Bild in
                  einem hochdimensionalen Raum repräsentiert;<note type="footnote"> Vgl. <ref
                        type="bibliography" target="#goodfellow_et_al_nets_2014">Goodfellow
                        et&#160;al. 2016</ref>.</note> der euklidische Abstand, oder die
                  Kosinusähnlichkeit, bestimmt somit die zu quantifizierende Ähnlichkeit in diesem
                  Merkmalsraum. Sie bleibt jedoch, auch bei mathematischer Quantifizierung, ein von
                  menschlichen Urteilen geprägtes Konzept: Wenn bestimmte kulturelle oder
                  ästhetische Perspektiven in einem Datensatz überrepräsentiert sind, können diese
                  Präferenzen in das Modell eingeschrieben werden. Dies wiederum beeinflusst die Art
                  und Weise, wie das Modell Bilder wahrnimmt und welche Merkmale es als signifikant
                  für die Ähnlichkeitsbewertung ansieht&#160;– worauf im Folgenden zurückzukommen
                  sein wird.</p>
               <p>Aufgrund der vielfältigen in den Ähnlichkeitsraum eingeschriebenen Merkmale ist
                  auch die erfassbare Ähnlichkeit in Forschungswerkzeugen wie <hi rend="italic"
                     >iART</hi> variabel, sofern sie visuell fixiert werden kann: Bei einer Suche
                  nach ›creation‹ kann sie stilistischer oder ikonographischer Natur sein, aber auch
                  formal bedingt, etwa durch die Körperhaltung der dargestellten Figuren oder die
                  Farbgebung des Bildes. Eine Ähnlichkeit, die über das rein Visuelle hinausgeht und
                  auf der Historizität der Werke beruht, erfordert jedoch eine tiefer gehende,
                  kontextuelle Betrachtung, die beispielsweise von CNNs nicht explizit geleistet
                  wird.</p>
            </div>
         </div>
         <div type="chapter">
            <head>3. Ähnlichkeit als multimodales Konstrukt</head>
            <p>Das <quote>Gemeinsame und das jeweils Eigene [...] begrifflich zu
                  fassen</quote>,<note type="footnote">
                  <ref type="bibliography" target="#thuerlemann_bild_2005">Thürlemann 2005</ref>,
                  S.&#160;167.</note> wie Thürlemann es formuliert, und damit Kategorien zu bilden,
               ist für die kunsthistorische wie für die informatische Ähnlichkeitsbestimmung aus
               zwei Gründen zentral: Einerseits definiert sie ein oder mehrere Merkmale, die aus
               einer Auswahl eine definierte Teilmenge erzeugen&#160;– und damit Mengen, die als
               Kategorien definiert werden können; andererseits führt sie die Subsumtion dieser
               Teilmenge unter einen natürlichsprachlichen Begriff ein. Insbesondere der
               letztgenannte Aspekt muss auch in <hi rend="italic">iART</hi> berücksichtigt werden:
               In unserem Beispiel suchen wir mit Sprache nach visuellen Konzepten. Daraus ergibt
               sich zwangsläufig eine weitere Form der Ähnlichkeit: die des sprachlichen Begriffs zu
               einem visuellen Konzept. Ähnlichkeit ist hier multimodal zu verstehen&#160;– als
               Zusammenspiel von Bild und Text.</p>
            <div type="subchapter">
               <head>3.1 Multimodale Klassifizierung</head>
               <p>Wie viele andere neuronale Netze werden CNNs in der Regel überwacht trainiert:
                  Jedem Eingabebild wird eine textuelle Klasse zugeordnet. Diese Zuordnung
                  ermöglicht es dem Modell, zwischen vordefinierten Klassen (wie ›creation‹) zu
                  differenzieren, indem ein Merkmalsraum erzeugt wird, der die visuellen
                  Eigenschaften der jeweiligen Klasse repräsentiert. Jeder Klasse wird dabei&#160;–
                  als Maß für die Ähnlichkeit&#160;– eine Wahrscheinlichkeit zugeordnet, die die
                  Zugehörigkeit eines Bildes zu dieser Klasse angibt; ein Schwellenwert schränkt die
                  Auswahl auf die Klassen ein, deren Wahrscheinlichkeit hinreichend groß ist. Das
                  Modell kann demnach keine Klassen erkennen, die nicht im Trainingsdatensatz
                  enthalten sind, auch wenn sie ähnliche Merkmale aufweisen, oder semantische
                  Beziehungen zu bereits vordefinierten Kategorien (wie ›creation of adam‹)
                  besitzen&#160;– jede unbekannte Klasse muss zunächst durch Trainingsdaten visuell
                  spezifiziert werden.</p>
               <figure>
                  <graphic xml:id="aehnlichkeiten_004" url="Medien/aehnlichkeiten_004.png">
                     <desc>
                        <ref type="intern" target="#abb4">Abb.&#160;4</ref>: Schematische
                        Darstellung des Trainingsprozesses mit <hi rend="italic">CLIP</hi> anhand
                        eines Bild-Text-Paares zu Michelangelos <title>The Creation of Adam</title>
                        (1508–1512). [Grafik: Stefanie Schneider&#160;/ Matthias Springstein
                        2024]</desc>
                  </graphic>
               </figure>
               <p>Modelle wie <title>CLIP</title> (Contrastive Language-Image Pre-Training)<note
                     type="footnote">
                     <ref type="bibliography" target="#radford_et_al_2021">Radford et&#160;al.
                        2021</ref>.</note> erweitern diese Grenzen, indem sie Bilder selbstüberwacht
                  mit natürlichsprachlichen Beschreibungen für das Training verknüpfen. Sie
                  überführen Bild- und Textdaten mit modalitätsspezifischen Encodern, die auf
                  sogenannten Transformer-Modellen basieren,<note type="footnote"> Vgl. <ref
                        type="bibliography" target="#vaswani_et_al_2017">Vaswani et&#160;al.
                        2017</ref>.</note> in einen gemeinsamen Merkmalsraum, um die Korrespondenz
                  zwischen sprachlichem Begriff und visuellem Konzept zu erzeugen (<ref
                     type="graphic" target="#aehnlichkeiten_004">Abbildung 4</ref>). Wesentlich für
                  die <hi rend="italic">CLIP</hi>-Architektur ist es, die aus Bild und zugehörigem
                  Text generierten Embeddings so anzupassen, dass eine maximale Ähnlichkeit erreicht
                  wird und so ein räumliches Netzwerk ähnlicher sprachlicher Begriffe und visueller
                  Konzepte entsteht. Dieser Ansatz ermöglicht es, den realweltlichen Kontext eines
                  Bildes zu integrieren und die dem Bild innewohnende Komplexität adäquater als
                  bisherige Ansätze zu modellieren; nicht nur einfache, auf einen Begriff reduzierte
                  Klassen können auf diese Weise mit <hi rend="italic">CLIP</hi> erkannt werden,
                  sondern auch komplexe Szenarien, die in der kunsthistorischen Forschung
                  beispielsweise durch das alphanumerische Klassifikationssystem
                     <title>Iconclass</title><note type="footnote"><ref type="bibliography"
                        target="#van_de_waal_iconclass_1973">Van de Waal 1973–1985</ref>.</note>
                  abgebildet werden können. Wie in <ref type="graphic" target="#aehnlichkeiten_005"
                     >Abbildung 5</ref> dargestellt, können so für Michelangelos Adam ikonographisch
                  bedeutsame Notationen wie 93A211 (<quote>assemblies of the gods in the air,
                     possibly on the clouds</quote>) automatisch hinterlegt werden. Dadurch wird ein
                  semantischer Rahmen geschaffen, der die Generalisierbarkeit und die Anwendbarkeit
                  der Modelle auf eine Vielzahl von Domänen erhöht. Diese Fähigkeit, auch mit nicht
                  zum Training verwendeten Klassen umgehen zu können, wird in der Informatik als
                     <term type="dh">Zero-Shot-Lernen</term> bezeichnet.<note type="footnote"> Vgl.
                        <ref type="bibliography" target="#xian_et_al_learning_2019">Xian et&#160;al.
                        2019</ref>.</note> Die für jedes Bild gefundenen Klassen können in <hi
                     rend="italic">iART</hi> zum Beispiel zusammen mit den von der jeweiligen
                  Institution manuell bereitgestellten Metadaten verwendet werden, um die Ergebnisse
                  zu facettieren.</p>
               <figure>
                  <graphic xml:id="aehnlichkeiten_005" url="Medien/aehnlichkeiten_005.png">
                     <desc>
                        <ref type="intern" target="#abb5">Abb.&#160;5</ref>: Einzelobjektansicht von
                        Michelangelos <title>The Creation of Adam</title> (1508–1512) im
                        Forschungswerkzeug <hi rend="italic">iART</hi> mit den für das Bild
                        gefundenen Iconclass-Notationen. [Bilquelle: <hi rend="italic">iART</hi>,
                        Suchbegriff <ref
                           target="https://www.iart.vision/search?lang=en&amp;query=%2Btxt%3Acreation"
                           >creation</ref>]</desc>
                  </graphic>
               </figure>
            </div>
            <div type="subchapter">
               <head>3.2 Multimodales Retrieval</head>
               <p>
                  <hi rend="italic">CLIP</hi>s Zero-Shot-Fähigkeiten prädestinieren es sowohl für
                  Klassifikations- als auch für Retrieval-Aufgaben&#160;– den computergestützten
                  Prozess des Wiederfindens, hier von Bildern, die für die Nutzer*innen gemäß ihrem
                  Informationsbedarf relevant sein könnten. Bei einer Bild-zu-Bild-Suche wird der
                  Bild-Encoder von <hi rend="italic">CLIP</hi> im Retrieval zunächst dazu verwendet,
                  um die in einer Datenbank gespeicherten Bilder in Embeddings umzuwandeln, wie in
                     <ref type="graphic" target="#aehnlichkeiten_006">Abbildung 6</ref> zu sehen
                  ist, während eine (textuelle) Suchanfrage, ›creation of adam‹, über den
                  Text-Encoder verarbeitet wird. Das Embedding der Anfrage wird dann mit den
                  Embeddings der Bilder verglichen, und die Ergebnisse dieses Vergleichs nach der
                  Wahrscheinlichkeit sortiert, mit der das Bild das über den textuellen Begriff
                  gesuchte visuelle Konzept enthält; die Bilder mit der höchsten Übereinstimmung
                  werden zurückgegeben. Beispielsweise wird Michelangelos <title>The Creation of
                     Adam</title> in der Nähe des Begriffs ›creation‹ positioniert und mit hoher
                  Wahrscheinlichkeit in <hi rend="italic">iART</hi> angezeigt, wenn eine
                  entsprechende Suchanfrage gestellt wird. Da <hi rend="italic">CLIP</hi> als
                  sogenanntes Foundation Model mit einer großen Anzahl von Bild-Text-Paaren aus
                  unterschiedlichen Domänen trainiert wurde, verfügt es über ein grundlegendes
                     <quote>Weltwissen</quote><note type="footnote"> Vgl. <ref type="bibliography"
                        target="#bommasani_et_al_oppurtunities_2021">Bommasani et&#160;al.
                        2021</ref>.</note> für nachgelagerte Aufgaben&#160;– Downstream Tasks wie
                  ein kunsthistorisches Retrieval. Diese Verknüpfung von Bild und Text ermöglicht
                  es, den durch unimodale Methoden entstehenden Semantic Gap bei der Anwendung
                  digitaler Methoden zu überwinden. Vor allem visuelle Forschungsdaten können durch
                  die Einbettung in einen natürlichsprachigen Beschreibungskontext zielgerichteter
                  untersucht werden und Semantiken komplexer und facettenreicher wiedergeben. Die
                  Abkehr von den starren Kategorisierungen unimodaler Modelle hin zu intuitiven
                  Abfragen multimodaler Modelle birgt das Potenzial für einen Multimodal Turn in den
                  digitalen Geisteswissenschaften.<note type="footnote"> Vgl. <ref
                        type="bibliography" target="#smits_wevers_turn_2023">Smits&#160;/ Wevers
                        2023</ref>.</note>
               </p>
               <figure>
                  <graphic xml:id="aehnlichkeiten_006" url="Medien/aehnlichkeiten_006.png">
                     <desc>
                        <ref type="intern" target="#abb6">Abb.&#160;6</ref>: Schematische
                        Darstellung des Retrieval-Prozesses mit <hi rend="italic">CLIP</hi> für die
                        Suchanfrage ›creation of adam‹. [Grafik: Stefanie Schneider&#160;/ Matthias
                        Springstein 2024]</desc>
                  </graphic>
               </figure>
            </div>
         </div>
         <div type="chapter">
            <head>4. Die <hi rend="italic">Black Box</hi> künstlicher neuronaler Netze</head>
            <p>Beide in den vorangegangenen Abschnitten vorgestellten Modelle, CNNs und Transformer,
               sind zwar prinzipiell in der Lage, Ähnlichkeiten durch den Vergleich von
               Merkmalsvektoren zu quantifizieren, jedoch sind die Prozesse, durch die diese
               Vektoren während des Trainings generiert werden, nicht transparent; warum ein Merkmal
               als relevant erachtet wird und ein anderes nicht, bleibt unklar. Die Vielzahl der
               während des Trainings erlernten Parameter führt dazu, dass die Vorhersagen&#160;– und
               somit die Basis der Klassenzuordnungen&#160;– für die Nutzer*innen von
               Retrieval-Werkzeugen wie <hi rend="italic">iART</hi> einer sogenannten <term
                  type="dh">Black Box</term> gleichen.<note type="footnote"> Vgl. <ref
                     type="bibliography" target="#kuang_ai_2017">Kuang 2017</ref>.</note> In
               Transformer-Modellen erschwert der integrierte Aufmerksamkeitsmechanismus die
               Interpretation der Parameter zusätzlich, weil er keinen Einblick in die Merkmale der
               Trainingsbilder erlaubt, die die Entscheidungsfindung der Modelle tatsächlich
                  beeinflussen.<note type="footnote"> Vgl. <ref type="bibliography"
                     target="#vaswani_et_al_2017">Vaswani et&#160;al. 2017</ref>.</note> So ist
               nicht nachvollziehbar, ob die in <hi rend="italic">iART</hi> häufig in den
               Suchergebnissen vertretenen Hände für die Zuordnung zum Begriff ›creation‹ bedeutsam
               sind. Gerade aus der Perspektive der Geisteswissenschaften, die traditionell
               hermeneutisch das einzelne Objekt kontextualisieren, ist es entscheidend, der
               Opazität dieser Prozesse zu begegnen: <quote>[R]ather than providing descriptions
                  purely from the domains of a formal, technical and causal model of explanation
                  [...], these technologies would benefit from critical approaches that take account
                  of understanding, more common in the humanities and social sciences</quote>.<note
                  type="footnote">
                  <ref type="bibliography" target="#berry_turn_2023">Berry 2023</ref>.</note> Im
               Bereich der <term type="dh">XAI</term> werden daher Techniken entwickelt, die nicht
               nur die Prozesse erklären, sondern auch die den neuronalen Netzen zugrundeliegenden
               Konzepte verständlich machen.<note type="footnote"> Vgl. <ref type="bibliography"
                     target="#guidotti_et_al_survey_2019">Guidotti et&#160;al. 2019</ref>.</note>
               Neben Erklärbarkeit ist der Begriff der Interpretierbarkeit essentiell: Zielt
               Erklärbarkeit darauf ab, für den Menschen verständliche Erklärungen der
               Modellvorhersagen zu liefern, konzentriert sich Interpretierbarkeit darauf, wie diese
               Vorhersagen in den Merkmalsräumen der neuronalen Netze repräsentiert werden.<note
                  type="footnote"> Vgl. <ref type="bibliography"
                     target="#ries_et_al_reproducibility_2024">Ries et&#160;al. 2024</ref>,
                  S.&#160;3.</note>
            </p>
            <p>Bereits 2015 haben Google-Forscher unter der Leitung von Alexander Mordvintsev mit
                  <title>DeepDream</title> eine Technik zur Visualisierung eingeführt, um die
               Klassifizierungsprozesse von CNNs nachvollziehbar zu machen. <title>DeepDream</title>
               sollte nicht nur veranschaulichen, was ein Netz während des Trainings ›lernt‹,
               sondern auch zeigen, wie visuelle Konzepte kombiniert werden können und so Einblicke
               in die Ursprünge des kreativen Prozesses geben. Der Ansatz ermöglicht es, die
               ›Essenz‹ eines Konzepts zu visualisieren, indem seine für die Klassifizierung
               entscheidenden Merkmale dargestellt werden.<note type="footnote"> Vgl. <ref
                     type="bibliography" target="#mordvintsev_et_al_inceptionism_2015">Mordvintsev
                     et&#160;al. 2015</ref>.</note> In der Kunstgeschichte können diese Merkmale so
               durch hermeneutische Betrachtung in den Forschungsprozess integriert werden.<note
                  type="footnote"> Vgl. <ref type="bibliography" target="#offert_images_2018">Offert
                     2019</ref>.</note> Auch diese ›Sichtbarmachung‹ algorithmischer Prozesse ist
               jedoch nicht vollständig nachvollziehbar und sollte kritisch hinterfragt werden, da
               Visualisierungen&#160;– dem Begriff des Metabildes von W.J.T. Mitchell folgend&#160;–
               als ›Bilder von Bildern‹ betrachtet werden müssen, die ihre eigene Bedingtheit
                  reflektieren.<note type="footnote"> Vgl. <ref type="bibliography"
                     target="#offert_bell_bias_2021">Offert&#160;/ Bell 2021</ref>.</note> Ergänzend
               dazu bieten Aufmerksamkeitskarten, wie sie durch <term type="dh">Grad-CAM</term>
               (Gradient-weighted Class Activation Mapping) ermöglicht werden,<note type="footnote">
                  <ref type="bibliography" target="#selvaraju_et_al_2017">Selvaraju et&#160;al.
                     2017</ref>.</note> eine Methode zur Hervorhebung wichtiger Bildbereiche, bei
               der der Gradient zum Eingabebild anhand eines Suchbegriffs berechnet wird. Aus
               kunsthistorischer Sicht können zum Beispiel die Regionen eines Bildes identifiziert
               werden, die für die Klassenzuordnung durch künstliche neuronale Netze entscheidend
                  sind.<note type="footnote"> Vgl. <ref type="bibliography"
                     target="#bell_offert_reflections_2021">Bell&#160;/ Offert 2021</ref>.</note>
               Attribute, oder auch Körperhaltungen, die auf bestimmte Symbole, Berufe oder Stände
               hinweisen, können so effizient hervorgehoben und in ihrer Bedeutung validiert werden.
               Indem die Stärke der Assoziation zwischen einem sprachlichen Begriff und einem
               visuellen Konzept gemessen und als Heatmap dargestellt wird, können solche Techniken
               auch in multimodalen Architekturen verwendet werden, um sogenannte <quote>Mental
                  Images</quote><note type="footnote">
                  <ref type="bibliography" target="#impett_offert_art_2023">Impett&#160;/ Offert
                     2023</ref>.</note> von visuellen Konzepten zu erforschen, wie später gezeigt
               wird.</p>
         </div>
         <div type="chapter">
            <head>5. Aspekte der Erklärbarkeit maschinengenerierter Vorhersagen</head>
            <p>Für die Erklärbarkeit und die Interpretierbarkeit künstlicher neuronaler Netze ist
               die kritische Reflexion von Verzerrungen entscheidend: Um möglichst unverzerrte
               algorithmische Entscheidungsprozesse zu gewährleisten, muss jede Form der
               Voreingenommenheit gegenüber Individuen, Gruppen oder&#160;– auch&#160;– Objekten
               aufgrund inhärenter oder erworbener Merkmale vermieden werden.<note type="footnote">
                  Vgl. <ref type="bibliography" target="#mehrabi_et_al_survey_2021">Mehrabi
                     et&#160;al. 2021</ref>.</note> Verzerrungen, die bestimmte Gruppen entweder
               bevorzugen oder benachteiligen, werden unter dem Terminus der Diskriminierung
               subsumiert. Der Begriff, der sich vom lateinischen ›discriminare‹&#160;– dem
               Unterscheiden oder Trennen&#160;– ableitet, wird in sozialwissenschaftlichen wie
               informatischen Kontexten verwendet, allerdings mit unterschiedlichen Konnotationen:
               Während in der Informatik darunter vor allem das selektive Filtern und Ordnen von
               Daten verstanden wird, fokussiert der Begriff in den Sozialwissenschaften auf die
               ungerechte Behandlung von Individuen aufgrund sozialer Kategorien (etwa Geschlecht,
               Sexualität und Alter).<note type="footnote"> Vgl. <ref type="bibliography"
                     target="#apprich_et_al_discrimination_2018">Apprich et&#160;al. 2018</ref>,
                  S.&#160;9.</note> Verzerrungen in künstlichen neuronalen Netzen können aber ebenso
               im letzteren Sinne diskriminierend wirken. So lassen sich in maschinellen
               Lernverfahren bis zu sieben Arten von Verzerrungen unterscheiden,<note
                  type="footnote"> Vgl. <ref type="bibliography"
                     target="#suresh_guttag_framework_2021">Suresh&#160;/ Guttag 2021</ref>.</note>
               die wir im Folgenden auf drei Aspekte der Erklärbarkeit reduzieren: (1) historische
               Verzerrungen, (2) Verzerrungen des Datensatzes und (3) algorithmische
                  Verzerrungen.<note type="footnote"> Vgl. <ref type="bibliography"
                     target="#pasquinelli_joler_ai_2021">Pasquinelli&#160;/ Joler 2021</ref>,
                  S.&#160;1265.</note> Diese werden im Rahmen der Suchergebnisse zu ›creation‹ in
                  <hi rend="italic">iART</hi> eingehend analysiert und diskutiert, wobei
               Lösungsansätze zur Minimierung&#160;– oder zumindest ›Sichtbarmachung‹&#160;– der
               Verzerrungen mit sogenannten Aufmerksamkeitskarten aufgezeigt werden.</p>
            <p>Wie oben erwähnt, können diese Untersuchungen auch im Rahmen des <term type="dh">Tool
                  Criticism</term> betrachtet werden, bei dem epistemologische und methodologische
               Aspekte kritisch untersucht werden. Ziel ist es, implizite Eigenschaften&#160;– hier:
               Verzerrungen&#160;– aufzudecken, die in den verwendeten Werkzeugen verankert sind und
               derer sich weder Informatiker*innen noch Geisteswissenschaftler*innen in
               interdisziplinären Konstellationen zwangsläufig bewusst sind.<note type="footnote">
                  Vgl. <ref type="bibliography" target="#herrmann_et_al_tool_2023">Herrmann et al.
                     2023</ref>.</note>
            </p>
            <div type="subchapter">
               <head>5.1 Historische Verzerrung</head>
               <p>Historische Verzerrungen sind in der Kunstgeschichte das Ergebnis sich wandelnder
                  gesellschaftlicher Bedingungen, die sich in der Über- und Unterrepräsentation
                  bestimmter Gruppen, in der Wahl der Sujets und in etablierten Konventionen
                  niederschlagen. Entscheidungen über die Repräsentation in Kunstwerken&#160;– von
                  Menschen und ihren Funktionen&#160;– können daher exkludierend sein. Sie sind eng
                  mit den politischen und sozialen Dynamiken ihrer Zeit verbunden.<note
                     type="footnote"> Vgl. <ref type="bibliography"
                        target="#held_schneider_sozialgeschichte_1993">Held&#160;/ Schneider
                        1993</ref>, S.&#160;10–11.</note> Künstlerische Praktiken reflektieren immer
                  auch gesellschaftliche Auseinandersetzungen um Klasse, Geschlecht und andere
                  soziale Kategorien.<note type="footnote"> Vgl. <ref type="bibliography"
                        target="#pollock_vision_1988">Pollock 1988</ref>, S.&#160;9–10.</note>
               </p>
               <p>Wird Gott in den Ergebnissen der Suche nach ›creation of adam‹ in <hi
                     rend="italic">iART</hi> also stets als (alter) weißer Mann dargestellt, so
                  entspricht dies den Konventionen der jeweiligen zeitgenössischen Kunstproduktion
                  und -&#8205;praxis&#160;– die Verzerrung ist hier Teil des Forschungskontextes und
                  kein Defizit der Suchmaschine. Der Versuch, solche Formen historischer Verzerrung
                  auszugleichen, ist durchaus problematisch: So kann die historische Wahrheit als
                  solche verzerrt werden. Die erzwungene Integration von Diversität in generative
                  Modelle wie Googles Gemini AI führte beispielsweise zu historisch unzutreffenden
                  Darstellungen, etwa von schwarzen Wehrmachtssoldaten.<note type="footnote"> Vgl.
                        <ref type="bibliography" target="#grant_chatbots_2024">Grant
                     2024</ref>.</note> Solche Ergebnisse, die möglicherweise auf die Praxis des
                     <term type="dh">Shadow Prompting</term> zurückzuführen sind&#160;– eine
                  Methode, mit der die Ergebnisse absichtlich diversifiziert werden sollen, indem
                  die Eingabeaufforderung um Wörter wie ›black‹ erweitert wird –,<note
                     type="footnote"> Vgl. <ref type="bibliography" target="#salvaggio_light_2023"
                        >Salvaggio 2023</ref>.</note> sind für präzise wissenschaftliche Methoden
                  letztlich unbrauchbar, da sie falsche und ungenaue Resultate begünstigen. <term
                     type="dh">Data Balancing</term>, auf das in <ref type="intern" target="#hd12"
                     >Abschnitt 5.3 Algorithmische Verzerrung</ref> näher eingegangen wird, wäre
                  eine sinnvollere Möglichkeit, diese Verzerrung auszugleichen.</p>
            </div>
            <div type="subchapter">
               <head>5.2 Verzerrung des Datensatzes</head>
               <p>Verzerrungen des Datensatzes ergeben sich aus der Annotation und Kuration der
                  Trainingsdaten. Diese Verzerrungen wirken sich je nach Modell und Aufgabenstellung
                  unterschiedlich auf die Ergebnisse aus: Für überwacht trainierte Modelle wie CNNs
                  sind mit sprachlichen Begriffen annotierte Trainingsdaten grundlegend, wie sie
                  etwa in Datenbanken wie ImageNet vorliegen.<note type="footnote"> Vgl. <ref
                        type="bibliography" target="#deng_et_al_image_2009">Deng et&#160;al.
                        2009</ref>.</note> Die Verwendung veralteter Taxonomien wie WordNet und der
                  darin enthaltenen diskriminierenden und simplifizierenden Begriffe führt jedoch zu
                  problematischen Klassifikationen.<note type="footnote"> Vgl. <ref
                        type="bibliography" target="#crawford_paglen_ai_2019">Crawford&#160;/ Paglen
                        2019</ref>.</note> Darüber hinaus erschwert die Mehrdeutigkeit sowohl der
                  sprachlichen Begriffe als auch der visuellen Konzepte die Annotation.<note
                     type="footnote"> Vgl. <ref type="bibliography"
                        target="#orr_crawford_construction_2023">Orr&#160;/ Crawford
                     2023</ref>.</note> Für Modelle, deren Training selbstüberwacht ohne
                  vordefinierte Klassen erfolgt, ist dagegen die Konstitution der Bild-Text-Paare
                  entscheidend: Für den Trainingsdatensatz von <hi rend="italic">CLIP</hi> wurden
                  beispielsweise auf Grundlage von Wikipedia-Schlagwörtern 500.000 Suchanfragen
                  durchgeführt, die jeweils bis zu 20.000 Bild-Text-Paare lieferten&#160;– insgesamt
                  also 400 Millionen Paare.<note type="footnote"> Vgl. <ref type="bibliography"
                        target="#radford_et_al_2021">Radford et&#160;al. 2021</ref>,
                     S.&#160;3.</note> Bei dieser Datenmenge ist es nahezu unmöglich, alle
                  potenziell fragwürdigen Inhalte herauszufiltern und damit Verzerrungen
                  grundsätzlich zu vermeiden. So geben die Autor*innen des Modells zu bedenken:
                     <quote>[O]ur system [...] disproportionately attached labels to do with hair
                     and appearance in general to women more than men. [...] Additionally, [it]
                     attached some labels that described high status occupations disproportionately
                     more often to men such as ›executive‹ and ›doctor‹. This [...] points to
                     historical gendered differences</quote>.<note type="footnote">
                     <ref type="bibliography" target="#radford_et_al_2021">Radford et&#160;al.
                        2021</ref>, S.&#160;23.</note> Diese&#160;– teilweise auch historisch
                  begingte&#160;– Verzerrung in den Trainingsdaten führte dazu, dass
                  prestigeträchtige Berufe in den Beschreibungstexten (der Abbildungen) von Männern
                  überrepräsentiert waren, während in denen von Frauen eher äußerliche Merkmale im
                  Vordergrund standen. Solche Formen der Über- und Unterrepräsentation spiegeln sich
                  auch in den Ergebnissen der Modelle wider.</p>
               <p>Verzerrungen des Datensatzes müssen auch im Hinblick auf die Anwendung der
                  Modelle&#160;– hier in der Kunstgeschichte&#160;– diskutiert werden: Die Art und
                  Weise, wie Kunstwerke online dargestellt und beschrieben werden, beeinflusst
                  implizit die Ergebnisse der Ähnlichkeitsbestimmung. Aber nicht nur hier entstehen
                  Fehldarstellungen: Da vor allem nicht-kunsthistorische Daten für das Training von
                  computationalen Modellen verwendet werden, stammt die Mehrzahl der Klassen und
                  Bild-Text-Paare nicht aus der Kunstgeschichte selbst, sondern aus Datenbanken für
                  Stock-Fotografie, von Internet-Shops oder <title>Wikimedia Commons</title>&#160;–
                  um nur einige der für unseren Kontext relevanten Kategorien zu nennen.<note
                     type="footnote"> Vgl. <ref type="bibliography"
                        target="#buschek_thorp_models_2024">Buschek&#160;/ Thorp 2024</ref>.</note>
                  Die Überprüfung der Konstitution der Trainingsdaten von <hi rend="italic"
                     >CLIP</hi> ist dabei nur durch eigene stichprobenartige Recherchen möglich, da
                  die Daten nicht frei verfügbar sind. Wir führen daher exemplarisch zwei Recherchen
                  durch: eine für ›creation‹ auf <ref
                     target="https://www.google.com/search?q=creation&amp;udm=2&amp;source=lnt&amp;tbs=sur:cl"
                     >Google</ref>, gefiltert nach Bildern mit Creative-Commons-Lizenz (<ref
                     type="graphic" target="#aehnlichkeiten_007">Abbildung 7</ref>) und eine für
                  ›creation of adam‹ auf der E-Commerce-Website <ref
                     target="https://www.etsy.com/search?q=creation+of+adam">Etsy</ref> (<ref
                     type="graphic" target="#aehnlichkeiten_008">Abbildung 8</ref>). Die bereits in
                     <hi rend="italic">iART</hi> beobachtete Assoziation des Begriffs ›creation‹ mit
                  Händen bestätigt sich in der Google-Suche: Auch hier finden sich zahlreiche Hände,
                  ob als Emoji&#160;– in Anlehnung an Michelangelos Werk&#160;– oder als
                  fotorealistische Darstellung (eines Mystikers mit Turban). Auch die Suche nach
                  ›creation of adam‹ auf Etsy ergibt, dass häufig nur die ikonische Handgeste des
                  Kunstwerks reproduziert wird; der (vollständige) Titel des Kunstwerks wird jedoch
                  trotzdem in den Beschreibungstexten angegeben.</p>
               <figure>
                  <graphic xml:id="aehnlichkeiten_007" url="Medien/aehnlichkeiten_007.png">
                     <desc>
                        <ref type="intern" target="#abb7">Abb.&#160;7</ref>: Suchergebnisse für den
                        Begriff ›creation‹ auf Google, gefiltert nach Bildern mit
                        Creative-Commons-Lizenz. [Bildquelle: Google, Suchbegriff <ref
                           target="https://www.google.com/search?q=creation&amp;udm=2&amp;source=lnt&amp;tbs=sur:cl"
                           >creation / Filter nach CC-Lizenz</ref>]</desc>
                  </graphic>
               </figure>
               <figure>
                  <graphic xml:id="aehnlichkeiten_008" url="Medien/aehnlichkeiten_008.png">
                     <desc>
                        <ref type="intern" target="#abb8">Abb.&#160;8</ref>: Suchergebnisse auf der
                        E-Commerce-Website Etsy für den Begriff ›creation of adam‹. [Bildquelle:
                        Etsy, Suchbegriff <ref
                           target="https://www.etsy.com/search?q=creation+of+adam">creation of
                           adam</ref>]</desc>
                  </graphic>
               </figure>
               <p>Erhält das Modell nun im Training für den sprachlichen Begriff ›creation‹ viele
                  dieser Abbildungen von Händen als Bild-Text-Paare, so weist auch der sich bildende
                  Merkmalsraum eine größere Ähnlichkeit des Begriffs ›creation‹ mit Händen als mit
                  Adam oder der Darstellung Gottes auf. Die hierdurch resultierende Verzerrung der
                  Trainingsdaten kann also dazu führen, dass das Modell nur das visuelle Konzept der
                  Hände als entscheidend für den Begriff ›creation‹ abspeichert und bei zukünftigen
                  Suchanfragen bevorzugt ausgibt.</p>
            </div>
            <div type="subchapter">
               <head>5.3 Algorithmische Verzerrung</head>
               <p>Algorithmische Verzerrungen entstehen durch Wechselwirkungen zwischen den beiden
                  zuvor genannten Verzerrungen&#160;– der historischen Verzerrung und der Verzerrung
                  des Datensatzes&#160;– und können sich gegenseitig verstärken. Die in künstlichen
                  neuronalen Netzen ablaufenden Prozesse komprimieren eben diese Trainingsdaten,
                  wobei Informationen verloren gehen oder sich in ihrer Gewichtung ändern
                     können.<note type="footnote"> Vgl. <ref type="bibliography"
                        target="#pasquinelli_joler_ai_2021">Pasquinelli&#160;/ Joler 2021</ref>,
                     S.&#160;1265.</note> Um algorithmische Verzerrungen einzuschränken, ist es
                  entscheidend, klar definierte Fairnesskriterien festzulegen.<note type="footnote">
                     Vgl. <ref type="bibliography" target="#corbett-davies_et_al_decision_2017"
                        >Corbett-Davies et&#160;al. 2017</ref>.</note> Verzerrungen in den
                  Trainingsdaten sollten nicht als unveränderlich betrachtet, sondern durch den
                  Algorithmus behandelt werden.<note type="footnote"> Vgl. <ref type="bibliography"
                        target="#narayanan_fairness_2019">Narayanan 2019</ref>.</note> Dazu gibt es
                  verschiedene Ansätze: Attribute wie Ethnie oder Geschlecht können etwa beim
                  Training abgeschwächt werden;<note type="footnote"> Vgl. <ref type="bibliography"
                        target="#hardt_et_al_equality_2016">Hardt et&#160;al. 2016</ref>.</note>
                  auch durch Methoden wie <term type="dh">Data Balancing</term> kann eine geringere
                  Diskriminierung erreicht werden.<note type="footnote"> Vgl. <ref
                        type="bibliography" target="#alabdulmoshin_et_al_data_2024">Alabdulmohsin
                        et&#160;al. 2024</ref>.</note> Insbesondere Zero-Shot-Modelle wie <hi
                     rend="italic">CLIP</hi> tendieren zum sogenannten <term type="dh">Association
                     Bias</term>, bei dem soziale Stereotype nicht nur durch Repräsentation, sondern
                  auch durch Assoziation reproduziert werden.<note type="footnote"> Vgl. <ref
                        type="bibliography" target="#alabdulmoshin_et_al_data_2024">Alabdulmohsin
                        et&#160;al. 2024</ref>.</note> So könnte der Begriff ›creation‹ eher
                  männlich konnotiert sein, also mit Gott und Adam assoziiert werden, aber weniger
                  mit Frauen, obwohl auch hier Assoziationen denkbar wären.</p>
               <p>Erschwerend für die Auseinandersetzung mit algorithmischen Verzerrungen kommt
                  hinzu, dass beim Training künstlicher neuronaler Netze die Eingaben&#160;– Texte
                  wie Bilder&#160;– in undurchsichtige Strukturen überführt werden, die es den
                  Nutzer*innen erschweren, die konkreten Prozesse der Ähnlichkeitsbestimmung
                  nachzuvollziehen&#160;– und damit auch die in den Eingaben angelegten
                  Verzerrungen. Interne Prozesse der jeweiligen Trainingsverfahren beeinflussen
                  zudem die Wissensrepräsentation im Merkmalsraum. Die daraus resultierende
                  Intransparenz verhindert, dass Nutzer*innen dynamische Prozesse, die zur
                  Entscheidungsfindung beitragen, effektiv analysieren können und erschwert die
                  Bewertung der Modellergebnisse erheblich.</p>
            </div>
            <div type="subchapter">
               <head>5.4 Aufmerksamkeitskarten</head>
               <p>Eine leicht generalisierbare Methode, diese Verzerrungen zu identifizieren und
                  kritisch in den Prozess der Ähnlichkeitsbestimmung einzubeziehen, sind die bereits
                  erwähnten Aufmerksamkeitskarten. Diese Karten geben ein visuelles Feedback
                  darüber, welche Teile einer Eingabe den größten Einfluss auf die Modellausgabe
                  haben und visualisieren somit, welche Merkmale für die Entscheidungsfindung des
                  Modells besonders relevant sind. Da Aufmerksamkeitskarten mit verschiedenen
                  Modalitäten kompatibel sind, können zum Beispiel für die Klassifikation visueller
                  Konzepte relevante Bildbereiche oder bei Textübersetzungen bestimmte Wortgruppen
                  hervorgehoben werden. Etabliert haben sich verschiedene
                  Berechnungsverfahren&#160;– wie <term type="dh">Grad-CAM</term><note type="footnote">
                     <ref type="bibliography" target="#selvaraju_et_al_2017">Selvaraju et&#160;al.
                        2017</ref>.</note> –, von denen die meisten darauf beruhen, dass ein
                  Suchbegriff vorgegeben und daraus der Gradient zum Eingabebild berechnet wird. In
                  moderneren Architekturen werden jedoch zunehmend sogenannte
                  Aufmerksamkeitsschichten eingesetzt, die es dem Netz ermöglichen, automatisch zu
                  lernen, welche Bild- oder Textregion für eine Vorhersage relevant ist&#160;– wobei
                  die Verschachtelung mehrerer solcher Schichten die Darstellung weiter
                  verkomplizieren kann.<note type="footnote"> Vgl. <ref type="bibliography"
                        target="#vaswani_et_al_2017">Vaswani et&#160;al. 2017</ref>.</note> Um die
                  internen Prozesse von <hi rend="italic">CLIP</hi> zu visualisieren, können wir die
                  Zero-Shot-Fähigkeit des Modells nutzen: Sie erlaubt uns, kleinere Bildregionen
                  auszuwählen und jede dieser Regionen mit dem Merkmalsvektor eines Eingabewortes zu
                  vergleichen. Auf diese Weise können Ähnlichkeiten zwischen der visualisierten
                  Region und dem konkreten sprachlichen Begriff in einem Raster dargestellt
                  werden.</p>
               <p>So werden in <ref type="graphic" target="#aehnlichkeiten_009">Abbildung 9</ref>
                  einzelne Bildregionen von vier Kunstwerken mit <hi rend="italic">CLIPSeg</hi><note type="footnote">
                     <ref type="bibliography" target="#lueddecke_ecker_image_2022">Lüddecke&#160;/
                        Ecker 2022</ref>.</note> hervorgehoben und mit visuellen Konzepten assoziiert. Betrachten wir zunächst Michelangelos Gemälde
                  selbst: Die Aufmerksamkeitskarte zur Suchanfrage ›creation of adam‹ fokussiert
                  nicht alle Bereiche des Gemäldes gleichermaßen, sondern vor allem die Figur Adams
                  unten links&#160;– obwohl die Anfrage dem Bildtitel entspricht (<ref
                     type="graphic" target="#aehnlichkeiten_009">Abbildung 9b</ref>). Bei der Suche
                  nach ›creation‹ hingegen werden alle Bereiche hervorgehoben, vor allem Adam und
                  Gott scheinen für das Konzept ausschlaggebend zu sein (<ref type="graphic"
                     target="#aehnlichkeiten_009">Abbildung 9c</ref>). Schließlich zeigt die Suche
                  nach ›hand‹, wie <hi rend="italic">CLIPSeg</hi> spezifische Begriffe erkennt und
                  nur den jeweils für das Konzept relevanten Bereich markiert (<ref type="graphic"
                     target="#aehnlichkeiten_009">Abbildung 9d</ref>). Auch die Studie für die Hände
                  eines Armbrustschützen (1512–1516), die in <hi rend="italic">iART</hi> an dritter
                  Stelle bei ›creation‹ zurückgegeben wird, zeigt Interessantes: So scheinen alle
                  dargestellten Hände stark auf die Begriffe ›creation‹ und ›creation of adam‹ zu
                  reagieren (<ref type="graphic" target="#aehnlichkeiten_009">Abbildungen 9j</ref>
                  und <ref type="graphic" target="#aehnlichkeiten_009">9k</ref>). In Annibale
                  Carraccis Gemälde <title>Pan und Diana</title> (1597–1602) hingegen aktiviert die
                  Suche nach ›creation of adam‹ besonders den Kopf- und Schulterbereich des Fauns
                     (<ref type="graphic" target="#aehnlichkeiten_009">Abbildung 9f</ref>). Hier ist
                  eine Ähnlichkeit mit Michelangelos liegender Adam-Figur zu vermuten. Bei
                  ›creation‹ erweitert sich dieser Bereich und fokussiert stärker auf die
                  Interaktion&#160;– erweitert sich also um die dargestellte Diana; beide Figuren
                  sind durch die Geste der Hand miteinander verbunden (<ref type="graphic"
                     target="#aehnlichkeiten_009">Abbildung 9g</ref>). Auch im Relief <title>Die
                     Vertreibung aus dem Paradies</title> (1649) sehen wir dieses kompositorische
                  Verhältnis betont: Bei ›creation‹ zeigt sich der Bereich, der die beiden
                  Figurengruppen verbindet, hervorgehoben, während bei ›creation of adam‹ vor allem
                  die männliche Figur rechts unten&#160;– tatsächlich Adam&#160;– betont wird (<ref
                     type="graphic" target="#aehnlichkeiten_009">Abbildungen 9n</ref> und <ref
                     type="graphic" target="#aehnlichkeiten_009">9o</ref>).</p>
               <figure>
                  <graphic xml:id="aehnlichkeiten_009" url="Medien/aehnlichkeiten_009.png">
                     <desc>
                        <ref type="intern" target="#abb9">Abb.&#160;9</ref>: Aufmerksamkeitskarten
                        für vier Bilder, die im Forschungswerkzeug <hi rend="italic">iART</hi> für
                        den Begriff ›creation‹ zurückgegeben werden: Michelangelos Erschaffung Adams
                        (1508–1512; a–d), Annibale Carraccis Pan und Diana (1597–1602; e–h), Studie
                        für die Hände eines Armbrustschützen (1512–1516; i–l) und Die Vertreibung
                        aus dem Paradies (1649; m–p). Die Karten wurden mit <hi rend="italic"
                           >CLIP</hi>Seg (<ref type="bibliography"
                           target="#lueddecke_ecker_image_2022">Lüddecke&#160;/ Ecker 2022</ref>)
                        und den Begriffen ›creation of adam‹, ›creation‹ und ›hand‹ erstellt.
                        [Grafik: Matthias Springstein&#160;/ Stefanie Schneider 2024]</desc>
                  </graphic>
               </figure>
               <p>Was können uns diese Visualisierungen nun über den Prozess der
                  Ähnlichkeitsbestimmung und die gewonnenen Ähnlichkeitsverhältnisse sagen? Während
                  bei ›creation of adam‹ insbesondere Bildregionen aktiviert werden, die männliche
                  Aktdarstellungen zeigen, liegt der Schwerpunkt bei der Suche nach ›creation‹ eher
                  auf der Bildkomposition und der Interaktion zwischen den Figuren: So werden hier
                  Figuren und ihre jeweilige durch eine Handgeste dominierte Verbindung bevorzugt
                  ausgegeben. Die Darstellung der Hände wiederum scheint auf alle drei Begriffe
                  anzusprechen. Das Modell findet also Ähnlichkeiten zwischen sprachlichem Begriff
                  und visuellem Konzept nicht nur bei den dargestellten Figuren und
                  Figurenkonstellationen, sondern auch bei der Zuordnung abstrakter Begriffe zu
                  einer bestimmten Bildregion, die sich in den Kunstwerken wiederfindet. Dies
                  unterstützt die Hypothese, dass die als Trainingsdaten verwendeten Bild-Text-Paare
                  die Hände stark mit dem Begriff der ›creation‹ assoziieren.</p>
            </div>
         </div>
         <div type="chapter">
            <head>6. Fazit und Ausblick</head>
            <p>Ausgehend von zwei kunsthistorischen Fallstudien wurden in diesem Beitrag Dimensionen
               des Konzepts der Ähnlichkeit vorgestellt und&#160;– damit einhergehend&#160;–
               Faktoren untersucht, die die Ähnlichkeitsbestimmung in künstlichen neuronalen Netzen
               beeinflussen. Darüber hinaus wurde mit den sogenannten Aufmerksamkeitskarten eine
               Methode dargelegt, die eine transparentere Nachvollziehbarkeit der
               Ähnlichkeitsbestimmung im automatisierten Bild-Retrieval gewährleisten kann.</p>
            <p>Aus kunsthistorischer Sicht konnte Ähnlichkeit als inhaltliche oder formale
               Gemeinsamkeit beschrieben werden, die sich unter bestimmten Identitäten
               zusammenfassen lässt. In der Informatik hingegen wird Ähnlichkeit als Nähe- oder
               Abstandsverhältnis in einem Vergleichsraum definiert, das als Zahl zwischen 0 und 1
               dargestellt werden kann. Zentral für den Beitrag war die Integration multimodaler
               Ansätze zur Operationalisierung der Ähnlichkeitsbestimmung, beispielsweise in der
               Text-zu-Bild-Suche. In diesem Szenario wird die Dimension der Ähnlichkeit eines
               visuellen Konzepts um die Ähnlichkeit eines sprachlichen Begriffs erweitert. Im Sinne
               einer erklärbaren und interpretierbaren Anwendung künstlicher neuronaler Netze in der
               Kunstgeschichte wurden weiterhin mögliche Parameter untersucht, die einen Einfluss
               oder sogar eine Verzerrung der Ergebnisse bedingen können. So wurde herausgearbeitet,
               dass neben den algorithmischen Prozessen auch die Zusammensetzung der Trainingsdaten
               bei der Ähnlichkeitssuche eine Rolle für die Qualität der Suchergebnisse spielt.</p>
            <p>Deutlich wurde, wie durch interdisziplinäre Zusammenarbeit verschiedene Aspekte
               dieser komplexen Thematik untersucht und mit jeweils eigenen Methoden bearbeitet
               werden können. Nur durch Anwendung, Untersuchung und kritische Reflexion sowohl von
               informatischer als auch von kunsthistorischer Seite kann die Funktionalität und der
               domänenspezifische Einsatz der Werkzeuge in einem Forschungsprozess gewährleistet
               werden. Eine möglichst enge Zusammenarbeit bei der Auswahl und Aufbereitung der
               Trainingsdaten sowie bei der Erprobung und Evaluierung der Methoden für transparente
               und erklärbare Ergebnisse ist dabei zielführend.</p>
            <p>Perspektivisch sind weitere Aspekte der Zusammenarbeit beider Disziplinen zu nennen,
               die die Ähnlichkeitsbestimmung, aber auch generell den domänenspezifischen Einsatz
               künstlicher neuronaler Netze verbessern und transparenter machen. Die Integration von
               domänenspezifischen Informationen in die Trainingsdaten könnte durch die Verwendung
               von strukturiertem Wissen in Form von Wissensgraphen angereichert werden. Dies
               ermöglicht die Einbindung entsprechender Datenrepositorien in den Trainingsprozess,
               was nicht nur die Qualität der Ergebnisse für spezifische Anwendungsbereiche
               verbessert, sondern auch die Transparenz der Trainingsdaten erhöht. Das Sammeln,
               Zusammenführen und Aufbereiten von Daten in maschinenlesbarer Form ist ein
               interdisziplinärer Prozess, der Expertise aus informatischer und
               geisteswissenschaftlicher Warte erfordert.</p>
            <p>Durch multimodale Modelle wird die Kontextualisierung von Bild und Text
               ermöglicht&#160;– und damit die Interaktion mit den Modellen in natürlicher Sprache.
               Es ist nicht nur möglich, mit Text nach Bildern zu suchen, sondern die Modelle können
               auch Beschreibungen generieren oder anhand von Bildern Fragen beantworten. Dieser
               Prozess bietet Forscher*innen die Möglichkeit, Einblicke in die Repräsentation des
               Wissens im Merkmalsraum zu erhalten und spezifische Aspekte und Konzepte zu erfragen.
               Solche Methoden der direkten Interaktion mit dem Modell könnten die reflexive Nutzung
               künstlicher neuronaler Netze verbessern und eine intuitive Auseinandersetzung mit dem
               im Merkmalsraum organisierten Wissen ermöglichen.</p>
         </div>
      </body>
      <back>
         <div type="bibliography">
            <head>Bibliografie</head>
            <listBibl>
               <bibl xml:id="alabdulmoshin_et_al_data_2024">Ibrahim Alabdulmohsin&#160;/ Xiao
                  Wang&#160;/ Andreas Steiner&#160;/ Priya Goyal&#160;/ Alexander D’Amour&#160;/
                  Xiaohua Zhai: CLIP the Bias. How Useful is Balancing Data in Multimodal Learning?
                  arXiv. 07.03.2024. PDF. DOI: <ref
                     target="https://doi.org/10.48550/arXiv.2403.04547"
                     >10.48550/arXiv.2403.04547</ref>
               </bibl>
               <bibl xml:id="apprich_et_al_discrimination_2018">Clemens Apprich&#160;/ Wendy Hui
                  Kyong Chun&#160;/ Florian Cramer&#160;/ Hito Steyerl: Pattern Discrimination. In
                  Search of Media. Minneapolis u.&#160;a. 2018. DOI: <ref
                     target="https://doi.org/10.14619/1457">10.14619/1457</ref>
               </bibl>
               <bibl xml:id="bell_offert_reflections_2021">Peter Bell&#160;/ Fabian Offert:
                  Reflections on Connoisseurship and Computer Vision. In: Journal of Art
                  Historiography 24 (2021). PDF. [<ref
                     target="https://arthistoriography.wordpress.com/wp-content/uploads/2021/05/bell-offert.pdf"
                     >online</ref>]</bibl>
               <bibl xml:id="berry_turn_2023">David Berry: The Explainability Turn. In: Digital
                  Humanities Quarterly 17 (2023), H.&#160;2. HTML. [<ref
                     target="https://www.digitalhumanities.org/dhq/vol/17/2/000685/000685.html"
                     >online</ref>]</bibl>
               <bibl xml:id="bommasani_et_al_oppurtunities_2021">Rishi Bommasani&#160;/ Drew A. Hudson&#160;/ Ehsan Adeli&#160;/ Russ Altman&#160;/ Simran Arora&#160;/ Sydney von Arx&#160;/ Michael S. Bernstein&#160;/ Jeannette Bohg&#160;/ Antoine Bosselut&#160;/ Emma Brunskill&#160;/ Erik Brynjolfsson&#160;/ Shyamal Buch&#160;/ Dallas Card&#160;/ Rodrigo Castellon&#160;/ Niladri Chatterji&#160;/ Annie Chen&#160;/ Kathleen Creel&#160;/ Jared Quincy Davis&#160;/ Dora Demszky&#160;/ Chris Donahue&#160;/ Moussa Doumbouya&#160;/ Esin Durmus&#160;/ Stefano Ermon&#160;/ John Etchemendy&#160;/ Kawin Ethayarajh&#160;/ Li Fei-Fei&#160;/ Chelsea Finn&#160;/ Trevor Gale&#160;/ Lauren Gillespie&#160;/ Karan Goel&#160;/ Noah Goodman&#160;/ Shelby Grossman&#160;/ Neel Guha&#160;/ Tatsunori Hashimoto&#160;/ Peter Henderson&#160;/ John Hewitt&#160;/ Daniel E. Ho&#160;/ Jenny Hong&#160;/ Kyle Hsu&#160;/ Jing Huang&#160;/ Thomas Icard&#160;/ Saahil Jain&#160;/ Dan Jurafsky&#160;/ Pratyusha Kalluri&#160;/ Siddharth Karamcheti&#160;/ Geoff Keeling&#160;/ Fereshte Khani&#160;/ Omar Khattab&#160;/ Pang Wei Koh&#160;/ Mark Krass&#160;/ Ranjay Krishna&#160;/ Rohith Kuditipudi&#160;/ Ananya Kumar&#160;/ Faisal Ladhak&#160;/ Mina Lee&#160;/ Tony Lee&#160;/ Jure Leskovec&#160;/ Isabelle Levent&#160;/ Xiang Lisa Li&#160;/ Xuechen Li&#160;/ Tengyu Ma&#160;/ Ali Malik&#160;/ Christopher D. Manning&#160;/ Suvir Mirchandani&#160;/ Eric Mitchell&#160;/ Zanele Munyikwa&#160;/ Suraj Nair&#160;/ Avanika Narayan&#160;/ Deepak Narayanan&#160;/ Ben Newman&#160;/ Allen Nie&#160;/ Juan Carlos Niebles&#160;/ Hamed Nilforoshan&#160;/ Julian Nyarko&#160;/ Giray Ogut&#160;/ Laurel Orr&#160;/ Isabel Papadimitriou&#160;/ Joon Sung Park&#160;/ Chris Piech&#160;/ Eva Portelance&#160;/ Christopher Potts&#160;/ Aditi Raghunathan&#160;/ Rob Reich&#160;/ Hongyu Ren&#160;/ Frieda Rong&#160;/ Yusuf Roohani&#160;/ Camilo Ruiz&#160;/ Jack Ryan&#160;/ Christopher Ré&#160;/ Dorsa Sadigh&#160;/ Shiori Sagawa&#160;/ Keshav Santhanam&#160;/ Andy Shih&#160;/ Krishnan Srinivasan&#160;/ Alex Tamkin&#160;/ Rohan Taori&#160;/ Armin W. Thomas&#160;/ Florian Tramèr&#160;/ Rose E. Wang&#160;/ William Wang&#160;/ Bohan Wu&#160;/ Jiajun Wu&#160;/ Yuhuai Wu&#160;/ Sang Michael Xie&#160;/ Michihiro Yasunaga&#160;/, Jiaxuan You&#160;/ Matei Zaharia&#160;/ Michael Zhang&#160;/ Tianyi Zhang&#160;/ Xikun Zhang&#160;/ Yuhui Zhang&#160;/ Lucia Zheng&#160;/ Kaitlyn Zhou&#160;/ Percy Liang : On the Opportunities and Risks of Foundation Models.
                  arXiv. 16.08.2021. Version 3 vom 12.07.2022. PDF. DOI: <ref
                     target="https://doi.org/10.48550/arXiv.2108.07258"
                     >10.48550/arXiv.2108.07258</ref>
               </bibl>
               <bibl xml:id="buschek_thorp_models_2024">Christo Buschek&#160;/ Jer Thorp: Models All
                  The Way Down. 2024. [<ref target="https://knowingmachines.org/models-all-the-way"
                     >online</ref>]</bibl>
               <bibl xml:id="crawford_paglen_ai_2019">Kate Crawford&#160;/ Trevor Paglen: Excavating
                  AI. The Politics of Images in Machine Learning Training Sets. 19.09.2019. HTML. [<ref
                     target="https://excavating.ai/">online</ref>]</bibl>
               <bibl xml:id="corbett-davies_et_al_decision_2017">Sam Corbett-Davies&#160;/ Emma
                  Pierson&#160;/ Avi Feller&#160;/ Sharad Goel&#160;/ Aziz Huq: Algorithmic Decision
                  Making and the Cost of Fairness. In: Stan Matwin&#160;/ Shipeng Yu&#160;/ Faisal
                  Farooq (Hg.): Proceedings of the 23rd ACM SIGKDD International Conference on
                  Knowledge Discovery and Data Mining (Halifax, CA-NS, 13.–17.08.2017), S.&#160;797–806.
                  PDF. DOI: <ref target="https://doi.org/10.1145/3097983.3098095"
                     >10.1145/3097983.3098095</ref>
               </bibl>
               <bibl xml:id="deng_et_al_image_2009">Jia Deng&#160;/ Wei Dong&#160;/ Richard
                  Socher&#160;/ Li-Jia Li&#160;/ Li Fei-Fei: ImageNet. A Large-Scale Hierarchical
                  Image Database. In: 2009 IEEE Conference on Computer Vision and Pattern
                  Recognition (CVPR 2009, Miami, 20.–25.06.2009), S.&#160;248–255. PDF. DOI: <ref
                     target="https://doi.org/10.1109/CVPR.2009.5206848"
                     >10.1109/CVPR.2009.5206848</ref>
               </bibl>
               <bibl xml:id="doshi-velez_kim_science_2017">Finale Doshi-Velez&#160;/ Been Kim:
                  Towards A Rigorous Science of Interpretable Machine Learning. arXiv. 28.02.2017.
                  Version 2 vom 02.03.2017. PDF. DOI: <ref
                     target="https://doi.org/10.48550/arXiv.1702.08608"
                     >10.48550/arXiv.1702.08608</ref>
               </bibl>
               <bibl xml:id="foucault_mots_1966">Michel Foucault: Les Mots et les Choses. Une
                  archéologie des sciences humaines. Paris 1966. <ptr type="gbv" cRef="1613164890"/>
               </bibl>
               <bibl xml:id="geimer_sehen_2010">Peter Geimer: Vergleichendes Sehen oder Gleichheit
                  aus Versehen. In: Lena Bader&#160;/ Martin Gaier&#160;/ Falk Wolf (Hg.):
                  Vergleichendes Sehen (=&#160;Eikones). München 2010, S.&#160;45–69. <ptr
                     type="gbv" cRef="61514179X"/>
               </bibl>
               <bibl xml:id="goodfellow_et_al_nets_2014">Ian Goodfellow&#160;/ Jean
                  Pouget-Abadie&#160;/ Mehdi Mirza&#160;/ Bing Xu&#160;/ David Warde-Farley&#160;/
                  Sherjil Ozair&#160;/ Aaron Courville&#160;/ Yoshua Bengio: Generative Adversarial
                  Nets. In: Zoubin Ghahramani&#160;/ Max Welling&#160;/ Corinna Cortes&#160;/ Neil
                  D. Lawrence&#160;/ Kilian Q. Weinberger (Hg.): Advances in Neural Information
                  Processing Systems 27. Annual Conference on Neural Information Processing Systems
                  (Montreal, 08.–13.12.2014), S.&#160;2672–2680. PDF. [<ref
                     target="https://papers.nips.cc/paper_files/paper/2014/hash/f033ed80deb0234979a61f95710dbe25-Abstract.html"
                     >online</ref>] </bibl>
               <bibl xml:id="goodman_strictures_1972">Nelson Goodman: Seven Strictures on
                  Similarity. In: Nelson Goodman (Hg.): Problems and Projects. Indianapolis 1972,
                  S.&#160;437–447. <ptr type="gbv" cRef="021957460"/>
               </bibl>
               <bibl xml:id="grant_chatbots_2024">Nico Grant: Google Chatbot’s A.I. Images Put
                  People of Color in Nazi-Era Uniforms. In: The New York Times vom 22.02.2024. [<ref
                     target="https://www.nytimes.com/2024/02/22/technology/google-gemini-german-uniforms.html"
                     >online</ref>]</bibl>
               <bibl xml:id="guidotti_et_al_survey_2019">Riccardo Guidotti&#160;/ Anna
                  Monreale&#160;/ Salvatore Ruggiere&#160;/ Franco Turini&#160;/ Fosca
                  Gianotti&#160;/ Dino Pedreschi: A Survey of Methods for Explaining Black Box
                  Models. In: Sartaj Sahni (Hg.): ACM Computing Surveys 51 (2019), H.&#160;5,
                  S.&#160;1–42. PDF. DOI: <ref target="https://doi.org/10.1145/3236009"
                     >10.1145/3236009</ref>
               </bibl>
               <bibl xml:id="hardt_et_al_equality_2016">Moritz Hardt&#160;/ Eric Price&#160;/ Nati
                  Srebro: Equality of Opportunity in Supervised Learning. In: Daniel D. Lee&#160;/
                  Ulrike von Luxburg&#160;/ Roman Garnett&#160;/ Masashi Sugiyama&#160;/ Isabelle
                  Guyon (Hg.): Advances in Neural Information Processing Systems 29 (Barcelona,
                  05.–10.12.2016). PDF. [<ref
                     target="https://proceedings.neurips.cc/paper_files/paper/2016/file/6a9659feb1216f14f7384ba499518b38-Paper.pdf"
                     >online</ref>]</bibl>
               <bibl xml:id="held_schneider_sozialgeschichte_1993">Jutta Held&#160;/ Norbert
                  Schneider: Sozialgeschichte der Malerei. Vom Spätmittelalter bis ins 20.
                  Jahrhundert. Köln 1993. <ptr type="gbv" cRef="277425565"/>
               </bibl>
               <bibl xml:id="herrmann_et_al_tool_2023">Berenike Herrmann&#160;/ Anne-Sophie
                  Bories&#160;/ Francesca Frontini&#160;/ Clèmence Jacquot&#160;/ Steffen
                  Pielström&#160;/ Simone Rebora&#160;/ Geoffrey Rockwell&#160;/ Stéfan Sinclair:
                  Tool Criticism in Practice. On Methods, Tools and Aims of Computational Literary
                  Studies. In: Digital Humanities Quarterly 17 (2023), H.&#160;2. HTML. [<ref
                     target="https://www.digitalhumanities.org/dhq/vol/17/2/000687/000687.html"
                     >online</ref>]</bibl>
               <bibl xml:id="impett_offert_art_2023">Leonardo Impett&#160;/ Fabian Offert: There Is
                  a Digital Art History. arXiv. 14.08.2023. PDF. DOI: <ref
                     target="https://doi.org/10.48550/arXiv.2308.07464"
                     >10.48550/arXiv.2308.07464</ref>
               </bibl>
               <bibl xml:id="kris_kurz_legende_2010">Ernst Kris&#160;/ Otto Kurz: Die Legende vom
                  Künstler. Frankfurt&#160;/ Main 2010. <ptr type="gbv" cRef="682917346"/>
               </bibl>
               <bibl xml:id="kuang_ai_2017">Cliff Kuang: Can A.I. Be Taught to Explain Itself? In:
                  The New York Times vom 21.11.2017. [<ref
                     target="https://www.nytimes.com/2017/11/21/magazine/can-ai-be-taught-to-explain-itself.html"
                     >online</ref>]</bibl>
               <bibl xml:id="kubler_shape_2008">George Kubler: The Shape of Time. Remarks on the
                  History of Things. New Haven 2008. <ptr type="gbv" cRef="562685057"/>
               </bibl>
               <bibl xml:id="li_et_al_bootstrapping_2023">Junnan Li&#160;/ Dongxu Li&#160;/ Silvio
                  Savarese&#160;/ Steven Hoi: BLIP-2. Bootstrapping Language-Image Pre-Training with
                  Frozen Image Encoders and Large Language Models. In: Andreas Krause&#160;/ Emma
                  Brunskill&#160;/ Kyunghyun Cho&#160;/ Barbara Engelhardt&#160;/ Sivan
                  Sabato&#160;/ Jonathan Scarlett (Hg.): International Conference on Machine
                  Learning. Proceedings of Machine Learning Research (ICML 2023, Honolulu,
                  23.–29.07.2023), S.&#160;19730–19742. [<ref
                     target="https://proceedings.mlr.press/v202/li23q.html">online</ref>]</bibl>
               <bibl xml:id="lueddecke_ecker_image_2022">Timo Lüddecke&#160;/ Alexander Ecker: Image
                  Segmentation Using Text and Image Prompts. In: Proceedings of the IEEE/CVF
                  Conference on Computer Vision and Pattern Recognition (CVPR 2022, New Orleans,
                  19.–24.06.2022), S.&#160;7086–7096. PDF. DOI: <ref
                     target="https://doi.org/10.1109/CVPR52688.2022.00695"
                     >10.1109/CVPR52688.2022.00695</ref>
               </bibl>
               <bibl xml:id="mehrabi_et_al_survey_2021">Ninareh Mehrabi&#160;/ Fred
                  Morstatter&#160;/ Nripsuta Saxena&#160;/ Kristina Lerman&#160;/ Aram Galstyan: In:
                  A Survey on Bias and Fairness in Machine Learning. In: ACM Computing Surveys 54
                  (2021), H.&#160;6, S.&#160;1–35. [<ref
                     target="https://dl.acm.org/doi/10.1145/3457607">online</ref>]</bibl>
               <bibl xml:id="molnar_machine_2020">Christoph Molnar: Interpretable Machine Learning.
                  A Guide for Making Black Box Models Explainable. München 2020. <ptr type="gbv"
                     cRef="1799921506"/>
               </bibl>
               <bibl xml:id="mordvintsev_et_al_inceptionism_2015">Alexander Mordvintsev&#160;/
                  Christopher Olah&#160;/ Mike Tyka: Inceptionism. Going Deeper into Neural
                  Networks. In: Google Research Blog, 18.06.2015. HTML. [<ref
                     target="https://research.google/blog/inceptionism-going-deeper-into-neural-networks/"
                     >online</ref>]</bibl>
               <bibl xml:id="narayanan_fairness_2019">Arvind Narayanan: TL;DS. 21 Fairness
                  Definition and Their Politics. In: Dora’s World. Blog. 19.07.2019. HTML. [<ref
                     target="https://shubhamjain0594.github.io/post/tlds-arvind-fairness-definitions/"
                     >online</ref>]</bibl>
               <bibl xml:id="offert_bell_bias_2021">Fabian Offert&#160;/ Peter Bell: Perceptual Bias
                  and Technical Metapictures. Critical Machine Vision as a Humanities Challenge. In:
                  AI &amp; SOCIETY 36 (2021), H.&#160;4, S.&#160;1133–1144. PDF. DOI: <ref
                     target="https://doi.org/10.1007/s00146-020-01058-z"
                     >10.1007/s00146-020-01058-z</ref>
               </bibl>
               <bibl xml:id="offert_images_2018">Fabian Offert: Images of Image Machines. Visual
                  Interpretability in Computer Vision for Art. In: Laura Leal-Taixé&#160;/ Stefan
                  Roth (Hg.): Computer Vision&#160;– ECCV 2018 Workshops (München, 08.–14.09.2018),
                  S.&#160;710–715. PDF. DOI: <ref
                     target="https://doi.org/10.1007/978-3-030-11012-3_54"
                     >10.1007/978-3-030-11012-3_54</ref>
               </bibl>
               <bibl xml:id="ohm_et_al_2023">Tillmann Ohm&#160;/ Mar Canet Sola&#160;/ Andres
                  Karjus&#160;/ Maximilian Schich: Collection Space Navigator. An Interactive
                  Visualization Interface for Multidimensional Datasets. In: Roger Malina&#160;/
                  Kang Zhang&#160;/ Wei Zeng&#160;/ Günter Wallner (Hg.): VINCI 2023. 16<hi
                     rend="super">th</hi> International Symposium on Visual Information
                  Communication and Interaction. Konferenzproceedings (Guangzhou, 22.–24.09.2023).
                  New York 2023. PDF. DOI: <ref target="https://doi.org/10.1145/3615522.3615546"
                     >10.1145/3615522.3615546</ref>
               </bibl>
               <bibl xml:id="orr_crawford_construction_2023">Will Orr&#160;/ Kate Crawford: The
                  Social Construction of Datasets. On the Practices, Processes and Challenges of
                  Dataset Creation for Machine Learning. SocArxiv. 07.11.2023. PDF. DOI: <ref
                     target="https://doi.org/10.31235/osf.io/8c9uh">10.31235/osf.io/8c9uh</ref>
               </bibl>
               <bibl xml:id="pasquinelli_joler_ai_2021">Matteo Pasquinelli&#160;/ Vladan Joler: The
                  Nooscope Manifested. AI as Instrument of Knowledge Extractivism. In: AI &amp;
                  SOCIETY 36 (2021), H.&#160;4, S.&#160;1263–1280. PDF. DOI: <ref
                     target="https://doi.org/10.1007/s00146-020-01097-6"
                     >10.1007/s00146-020-01097-6</ref>
               </bibl>
               <bibl xml:id="pfisterer_kunstgeschichte_2020">Ulrich Pfisterer: Kunstgeschichte. Zur
                  Einführung. Hamburg 2020. <ptr type="gbv" cRef="826683975"/>
               </bibl>
               <bibl xml:id="pollock_vision_1988">Griselda Pollock: Vision and Difference. Feminism,
                  Feminitity and the Histories of Art. London u.&#160;a. 1988. <ptr type="gbv"
                     cRef="025408224"/>
               </bibl>
               <bibl xml:id="radford_et_al_2021">Alec Radford&#160;/ Jong Wook Kim&#160;/ Chris
                  Hallacy&#160;/ Aditya Ramesh&#160;/ Gabriel Goh&#160;/ Sandhini Agarwal&#160;/
                  Girish Sastry&#160;/ Amanda Askell&#160;/ Pamela Mishkin&#160;/ Jack Clark&#160;/
                  Gretchen Krueger&#160;/ Ilya Sutskever: Learning Transferable Visual Models From
                  Natural Language Supervision. In: Marina Meila&#160;/ Tong Zhang (Hg.): 38th
                  International Conference on Machine Learning. Conference Proceedings (Online,
                  18.–24.07.2021). 2021, S.&#160;8748–8763. HTML. [<ref
                     target="https://proceedings.mlr.press/v139/radford21a.html"
                  >online</ref>]</bibl>
               <bibl xml:id="ries_et_al_reproducibility_2024">Thorsten Ries&#160;/ Karina van
                  Dalen-Oskam&#160;/ Fabian Oﬀert: Reproducibility and Explainability in Digital
                  Humanities. In: International Journal of Digital Humanities 6 (2024), H.1, S.&#160;1–7.
                  PDF. <ref target="https://doi.org/10.1007/s42803-023-00083-w">DOI:
                     10.1007/s42803-023-00083-w</ref>
               </bibl>
               <bibl xml:id="salvaggio_light_2023">Eryk Salvaggio: Shining a Light on »Shadow
                  Prompting«. In: Tech Policy Press. 19.10.2023. HTML. [<ref
                     target="https://www.techpolicy.press/shining-a-light-on-shadow-prompting/"
                     >online</ref>]</bibl>
               <bibl xml:id="schneider_et_al_suchmaschine_2022">Stefanie Schneider&#160;/ Matthias
                  Springstein&#160;/ Javad Rahnama&#160;/ Hubertus Kohle&#160;/ Ralph Ewerth&#160;/
                  Eyke Hüllermeier: iART. Eine Suchmaschine zur Unterstützung von bildorientierten
                  Forschungsprozessen. In: Michaela Geierhos (Hg.): 8. Tagung des Verbands Digital
                  Humanities im deutschsprachigen Raum e. V. (DHd 2022, online, 07.–11.03.2022),
                  S.&#160;142–147. PDF. DOI: <ref target="https://doi.org/10.5281/zenodo.6328175"
                     >10.5281/zenodo.6328175</ref></bibl>
               <bibl xml:id="selvaraju_et_al_2017">Ramprasaath R. Selvaraju&#160;/ Michael
                  Cogswell&#160;/ Abhishek Das&#160;/ Ramakrishna Vedantam&#160;/ Devi Parikh&#160;/
                  Dhruv Batra: Grad-CAM. Visual Explanations from Deep Networks via Gradient-Based
                  Localization. In: IEEE International Conference on Computer Vision (ICCV 2017,
                  Venedig, 22.–29.10.2017), S.&#160;618–626. PDF. DOI: <ref
                     target="https://doi.org/10.1109/ICCV.2017.74">10.1109/ICCV.2017.74</ref>
               </bibl>
               <bibl xml:id="smits_wevers_turn_2023">Thomas Smits&#160;/ Melvin Wevers: A Multimodal
                  Turn in Digital Humanities. Using Contrastive Machine Learning Models to Explore,
                  Enrich, and Analyze Digital Visual Historical Collections. In: Digital Scholarship
                  in the Humanities 38 (2023), H.&#160;3, S.&#160;1267–1280. PDF. DOI: <ref
                     target="https://doi.org/10.1093/llc/fqad008">10.1093/llc/fqad008</ref>
               </bibl>
               <bibl xml:id="springstein_et_al_engine_2021">Matthias Springstein&#160;/ Stefanie
                  Schneider&#160;/ Javad Rahnama&#160;/ Eyke Hüllermeier&#160;/ Hubertus
                  Kohle&#160;/ Ralph Ewerth: iART. A Search Engine for Art-Historical Images to
                  Support Research in the Humanities. In: Heng Tao Shen&#160;/ Yueting Zhuang&#160;/
                  John R. Smith&#160;/ Yang Yang&#160;/ Pablo Cesar&#160;/ Florian Metze&#160;/
                  Balakrishnan Prabhakaran (Hg.): MM ’21. ACM Multimedia (Chengdu&#160;/ online,
                  20.–24.10.2021), S.&#160;2801–2803. PDF. DOI: <ref
                     target="https://doi.org/10.1145/3474085.3478564"
                  >10.1145/3474085.3478564</ref></bibl>
               <bibl xml:id="stalter_et_al_reflectAI_2024">Julian Stalter&#160;/ Matthias
                  Springstein&#160;/ Maximilian Kristen&#160;/ Stefanie Schneider&#160;/ Eric
                  Müller-Budack&#160;/ Ralph Ewerth&#160;/ Hubertus Kohle: ReflectAI:
                  Reflexionsbasierte künstliche Intelligenz in der Kunstgeschichte. In: Joëlle
                  Weis&#160;/ Thomas Haider&#160;/ Estelle Bunout (Hg.): Book of Abstracts DHd2024.
                  Quo vadis DH (Passau, 26.02.–01.03.2024). Passau 2024, S. 414–417. PDF. DOI: <ref
                     target="https://doi.org/10.5281/zenodo.10686565"
                  >10.5281/zenodo.10686565</ref></bibl>
               <bibl xml:id="sundarajan_et_al_attribution_2017">Mukund Sundararajan&#160;/ Ankur
                  Taly&#160;/ Qiqi Yan: Axiomatic Attribution for Deep Networks. In: Doina
                  Precup&#160;/ Yee Whye Teh (Hg.): Proceedings of the 34th International Conference
                  on Machine Learning (ICML 2017, Sydney, 06.–11.08.2017), S.&#160;3319–3328. PDF.
                     [<ref
                     target="https://proceedings.mlr.press/v70/sundararajan17a/sundararajan17a.pdf"
                     >online</ref>]</bibl>
               <bibl xml:id="suresh_guttag_framework_2021">Harini Suresh&#160;/ John V. Guttag: A
                  Framework for Understanding Sources of Harm Throughout the Machine Learning Life
                  Cycle. In: Equity and Access in Algorithms, Mechanisms, and Optimization (EAAMO
                  2021, New York, 05.–09.10.2021). PDF. DOI: <ref
                     target="https://doi.org/10.1145/3465416.3483305">10.1145/3465416.3483305</ref>
               </bibl>
               <bibl xml:id="thuerlemann_bild_2005">Felix Thürlemann: Bild gegen Bild. In: Aleida
                  Assmann&#160;/ Ulrich Gaier&#160;/ Gisela Trommsdorff (Hg.): Zwischen Literatur
                  und Anthropologie. Diskurse, Medien, Performanzen. Tübingen 2005, S.&#160;163–174.
                     <ptr type="gbv" cRef="477279309"/>
               </bibl>
               <bibl xml:id="thuerlemann_bild_2011">Felix Thürlemann: Mehr als ein Bild. Für eine
                  Kunstgeschichte des hyperimage. München 2013. <ptr type="gbv" cRef="1603779566"/>
               </bibl>
               <bibl xml:id="ubl_symbol_2011">Ralph Ubl: Symbol. In: Ulrich Pfisterer (Hg.): Metzler
                  Lexikon Kunstgeschichte. Stuttgart 2011, S.&#160;426–433. <ptr type="gbv"
                     cRef="1617290068"/>
               </bibl>
               <bibl xml:id="ufer_et_al_retrieval">Nikolai Ufer&#160;/ Max Simon&#160;/ Sabine
                  Lang&#160;/ Björn Ommer: Large-Scale Interactive Retrieval in Art Collections
                  Using Multi-Style Feature Aggregation. In: PLoS ONE 16 (2021), H.&#160;11. DOI:
                     <ref target="https://doi.org/10.1371/journal.pone.0259718"
                     >10.1371/journal.pone.0259718</ref>
               </bibl>
               <bibl xml:id="van_de_waal_iconclass_1973">Henri van de Waal: Iconclass. An
                  Iconographic Classification System. Completed and Edited by L. D. Couprie with R.
                  H. Fuchs. Amsterdam 1973–1985. <ptr type="gbv" cRef="124613594"/>
               </bibl>
               <bibl xml:id="vaswani_et_al_2017">Ashish Vaswani&#160;/ Noam Shazeer&#160;/ Niki
                  Parmar&#160;/ Jakob Uszkoreit&#160;/ Llion Jones&#160;/ Aidan N. Gomez&#160;/
                  Lukasz Kaiser&#160;/ Illia Polosukhin: Attention is All you Need. In: Isabelle
                  Guyon&#160;/ Ulrike von Luxburg&#160;/ Samy Bengio&#160;/ Hanna M. Wallach&#160;/
                  Rob Fergus&#160;/ S.&#160;V. N. Vishwanathan&#160;/ Roman Garnett (Hg.): Advances
                  in Neural Information Processing Systems 30. Annual Conference on Neural
                  Information Processing Systems 2017 (Long Beach, US-CA, 04.–09.12.2017),
                  S.&#160;5998–6008. PDF. [<ref
                     target="https://proceedings.neurips.cc/paper/2017/hash/3f5ee243547dee91fbd053c1c4a845aa-Abstract.html"
                     >online</ref>]</bibl>
               <bibl xml:id="woelfflin_grundbegriffe_1915">Heinrich Wölfflin: Kunstgeschichtliche
                  Grundbegriffe. Das Problem der Stilentwickelung in der neueren Kunst. München
                  1915. <ptr type="gbv" cRef="1078781613"/>
               </bibl>
               <bibl xml:id="xian_et_al_learning_2019">Yongqin Xian&#160;/ Christoph H.
                  Lampert&#160;/ Bernt Schiele&#160;/ Zeynep Akata: Zero-Shot Learning. A
                  Comprehensive Evaluation of the Good, the Bad and the Ugly. In: IEEE Transactions
                  on Pattern Analysis and Machine Intelligence 41 (2019), H.&#160;9,
                  S.&#160;2251–2265. PDF. DOI: <ref
                     target="https://doi.org/10.1109/TPAMI.2018.2857768"
                     >10.1109/TPAMI.2018.2857768</ref>
               </bibl>
            </listBibl>
         </div>
      </back>
   </text>
</TEI>
