Eine Tulpe ist eine Tulpe ist keine Tulpe. Ein Dialog über Methoden und Fachdiskurse in der Kunstwissenschaft und Informatik

Dialog

Seit der Antike wird der literarische Dialog durchgängig als Form des theoretischen Diskurses genutzt, häufig um sich ungeklärten Fragestellungen anzunähern oder um weit auseinanderliegende Positionen durch vertiefende Argumentationsketten anzunähern. Vgl. Föllinger / Müller 2013. Wir gehen davon aus, dass KI im kunstwissenschaftlichen Diskurs weit mehr sein kann als ein technisches Hilfsmittel. Wir wollen den Dialog nutzen, um herauszufinden, was die jeweils andere Seite wissen sollte über Methoden und Arbeitsweisen der zunächst weit auseinanderliegenden geisteswissenschaftlich und technisch arbeitenden Fachdisziplinen.

Elke Katharina Wittich: Wir arbeiten an der Leibniz Universität in mehreren Projekten daran, die technischen Möglichkeiten der KI mit qualitativen Fragestellungen der Kunstwissenschaft zu verbinden. Zu diesen Fragestellungen zählen solche zur Ikonographie und zu Gattungen mit hohen quantitativen Ausprägungen wie der Numismatik oder der Druckgraphik. Übergeordnet stellt sich die Frage, ob bzw. wie Wissenschaftsdisziplinen zusammenarbeiten können, wenn die eine qualitativ und häufig induktiv und die andere quantitativ und maßgeblich deduktiv arbeitet? Kann eine Bildsuchmaschine, wie Ihr sie gerade entwickelt, diese unterschiedlichen methodischen Ansätze zusammenführen?

Ralph Ewerth: Die Idee unserer Bildsuchmaschine iART ist, Forschende mit bildwissenschaftlichen Fragestellungen bei der Recherche nach Bildern unterschiedlicher Gattungen zu unterstützen (vgl. Abbildung 1). In einem nächsten Schritt planen wir Funktionalitäten, die auch beim formalen oder inhaltlichen Vergleich von Bildern helfen. Diese Bildsuchmaschine haben wir in einem von der DFG geförderten Projekt (siehe Projekthomepage bzw. GEPRIS) zusammen mit einem Kollegen aus der Kunstgeschichte (Prof. Hubertus Kohle) und einem weiteren Informatiker (Prof. Eyke Hüllermeier), beide LMU München, entwickelt. In der Suchmaschine iART kann man mithilfe einer textuellen Suchanfrage oder einem Beispielbild nach ähnlichen Bildern in verschiedenen Datenbanken, die frei zugreifbar sind, suchen. Die Bilder in den Datenbanken werden zuvor mit unseren KI-Methoden, genauer mit Methoden des maschinellen Sehens (Computer Vision) automatisch analysiert und mithilfe von hochdimensionalen Vektoren, bestehend aus vielen Zahlenwerten, hinsichtlich unterschiedlicher Aspekte beschrieben. Diese Aspekte können sich auf die Farbgebung, das Vorhandensein von Objekten, aber auch auf interpretatorische Aspekte beziehen.

Abb. 1: Internetseite der Bildsuchmaschine iART. [Screenshot: Elke Katharina Wittich 2025]

Elke Katharina Wittich: Du sprichst von numerischer Beschreibung, unser Werkzeug ist die Sprache. Für uns Kunstwissenschaftler*innen stellt die Bildanalyse eine sehr grundlegende Methodik dar, die auf einer genauen Bildbeschreibung fußt.Vgl. Boehm 1995. Beschrieben wird deduktiv vom Großen zum Kleinen und vom Formalen zum Inhaltlichen. Wertungen werden strengstens vermieden. Ich nutze ein prägnantes Beispiel von Martin Warnke, und zitiere in Kürze eine exemplarische Bildanalyse aus seinem berühmten Buch über Peter Paul Rubens zum großformatigen Gemälde Die Folgen des Krieges von 1637–38, heute im Palazzo Pitti in Florenz (vgl. Abbildung 2).

Abb. 2: Peter Paul Rubens: Die Folgen des Krieges, 1637–38, Palazzo Pitti, Florenz [Bild: Wikimedia Commons, Public Domain]

Der vehemente Diagonalzug aus dem Bild […], beherrscht das Bildfeld. Das gerade hochgestemmte Säulenpaar am linken Bildrand dient optisch nur als Anhaltspunkt, von dem aus die Sturzvorgänge im Bild verfolgt werden können: die klagend vorkippende Europa, die weggezerrte Venus, die vergeblichen Griffe der Putti und der erfolgreiche Zugriff der Furie. Der vordringende Mars bedroht mit der Spitze seines Kurzschwertes die weggedrückten Opfer des eisernen Zeitalters, die Reste aus dem goldenen Zeitalter sind. Warnke 2006, S. 151.

Ralph Ewerth: Um die Unterschiede von Bildanalyse in unseren beiden Disziplinen zu zeigen, ist dies ein sehr gutes Beispiel. Für den Entwurf von Algorithmen oder die Annotation von Trainingsbeispielen anhand von KI-Methoden (genauer gesagt, für Methoden des maschinellen Lernens, einem Teilgebiet der KI), die anhand von Beispieldaten Muster in diesen Daten lernen, wäre diese Bildanalyse bzw. Bildbeschreibung nur eingeschränkt hilfreich. Aus meiner Sicht würde eine präzise Definition der hier verwendeten Begriffe wie ›Diagonalzug‹ oder ›vehementer Diagonalzug‹, ›dient optisch nur als Anhaltspunkt‹, ›klagend‹, ›vorkippend‹, ›weggezerrte Venus‹, ›vergeblichen Griffe‹ etc. fehlen. Vermutlich ist es auch nicht leicht möglich, diese Begriffe formal strikt zu definieren.

Elke Katharina Wittich: Martin Warnke nutzt seine Bildbeschreibung als ein hermeneutisches Werkzeug mit langer philosophischer Tradition; allein die Wortprägung Sturzvorgänge im BildWarnke 2006, S. 151. zeigt ja, wie mit sprachlichen Mitteln eine bildanaloge Ausdruckskraft erzeugt wird. Nicht umsonst gilt Ekphrasis, das Übertreffen des Kunstwerks durch seine Beschreibung, als hohe Kunst.Vgl. Kennedy / Meek (Hg.) 2019. Geben wir nicht etwas Wichtiges auf, wenn wir uns auf technische Beschreibungen verlassen? Oder anders gefragt: Vielleicht machen wir uns durch eine an technischen Bedarfen ausgerichtete Beschreibung erst in letzter Konsequenz bewusst, welche Qualitäten eine kunstwissenschaftlich angelegte Bildbeschreibung hat.

Ralph Ewerth: Hierzu habe ich zu wenig Kenntnisse in der Kunstgeschichte. Als Informatiker scheinen mir hier (formale) Bildbeschreibung und Bildanalyse / -‍interpretation vermischt und diese Vermischung erscheint mir ein Nachteil zu sein. Es wird nicht beschrieben, warum die Sturzvorgänge als solche interpretiert werden, könnten es nicht auch Flug- oder Schwebevorgänge sein? Ich denke, eine strengere Trennung von formalen Aspekten (Farbe, Form, Textur, im Bild vorhandene Objekte und Szenerie, soweit nur anhand des Bildes erkennbar) und Analyse und Interpretation (kann ich Objekte näher spezifizieren, Personenidentitäten erkennen und weitere Informationen, z. B. den Ort oder Metaphorik, deuten mithilfe von Kontextinformationen außerhalb des Bildes) könnte hier von Nutzen sein und auch den Dialog von Informatik und Kunstgeschichte verbessern.

Elke Katharina Wittich: Natürlich können wir Objekte und Personen an Attributen, Haltungen oder Kontexten erkennen – dieses Wissen und die Erfahrung damit, in welcher Zeit Kontexte in welcher Form eingesetzt wurden, macht ja einen guten Teil unserer Wissenschaft aus.

Ralph Ewerth: Außerdem sind meiner Ansicht nach hier Bildbeschreibung und die Bildanalyse / -‍interpretation vermischt. So sind in der Beschreibung des Formalen bereits (subjektive) Interpretationen und Informationen, die sich nicht allein aus dem Bild entnehmen lassen, enthalten.

Elke Katharina Wittich: Das mag daran liegen, dass in der Kunst des 17. Jahrhunderts die formale Anlage eines Bildes häufig mit einer semantischen Aussage eng verschränkt ist. Nehmen wir bei dem Gemälde Die Folgen des Krieges den Fuß des Mars, er wird genau auf der unteren Bildmitte aufgesetzt (Abbildung 3). Auf dieser Bildmitte ballen sich die Ereignisse, eine imaginäre Linie verläuft durch den Helm und ein Auge des Kriegsgottes Mars, dann durch ein Handgelenk der Venus, schließlich durch das Knie und einen Fuß des Mars. Dieser Fuß zertritt ein Blatt mit dem Bild der drei Grazien, die in einem solchen Krieg offenbar keinen Ort haben. Kann KI die Engführung von formalen und semantischen Aspekten erkennen?

Abb. 3: Peter Paul Rubens: [Fuß des Mars]. Detail der Folgen des Krieges, 1637–38. Palazzo Pitti, Florenz [Bild: Wikimedia Commons, Public Domain]

Ralph Ewerth: Grundsätzlich erscheint mir das möglich. Zu einem gewissen Grad, der für Forschende aus der Kunstgeschichte aber nicht ausreichend gut und korrekt ist, können dies Vision-Language-Modelle möglicherweise bereits. Bei diesen Modellen gibt es aber noch mehrere Probleme: 1) Sie erzeugen zu oft Halluzinationen oder stellen falsche Aussagen auf. 2) Nicht alle diese Modelle greifen, Stand jetzt, auf externe Wissensquellen zu bzw. können die Korrektheit der Informationen in diesen nicht gut bewerten. 3) Daher können sie oftmals, Stand jetzt, keine Quellen ihres ›Wissens‹ benennen bzw. nicht korrekt zitieren.

Elke Katharina Wittich: Verstehe, ganz grundsätzlich kann Eure Technik nur gut sein, wenn sie Zugang zu ausreichend und qualitativ hochwertigen Quellen erhält und diese erschließen kann. Die Bildanalyse mittels Computer-Vision-Methoden, die mit Beispieldaten trainiert wurden, beruft sich auf zahlreiche Muster aus anderen Bildern, d. h. sie ist nur möglich durch den Vergleich mit sehr vielen Mustern, die zuvor gesammelt, eingegeben und von neuronalen Netzwerken erlernt wurden. Unsere kunstwissenschaftliche Bildanalyse ist jedoch in der Regel am Einzelobjekt ausgerichtet, zum Beispiel am Martyrium des Heiligen Sebastian von Andreas Mantegna, entstanden 1450, heute im Kunsthistorischen Museum in Wien; man kann es in iART unter dem Suchbegriff ›Saint Sebastian‹ auffinden (Abbildungen 4 und 5). Wir fertigen eine genaue Bildbeschreibung an und gehen dann weiter zur Analyse, erst auf dieser Grundlage setzt die Interpretation an.

Abb. 4: Ergebnis der Bildsuche unter dem Suchbegriff ›Saint Sebastian‹ in iART. [Screenshot: Elke Katharina Wittich 2025]

Abb. 5: Andrea Mantegna: Heiliger Sebastian, 1450, Kunsthistorisches Museum, Wien. [Bild: Wikimedia Commons, Public Domain]

Hierzu ziehen wir Vergleichsbeispiele vom gleichen und anderen Künstlern der gleichen Zeit heran wie der Heilige Sebastian von Sandro Botticelli von 1474 aus den Staatlichen Museen zu Berlin, ein weiteres Exemplar von Andrea Mantegna aus dem Louvre in Paris und eines von Liberale da Verona von 1495 aus der Brera in Mailand. Wir schauen auch, wie sich der Bildtypus zuvor und danach entwickelt hat, etwa im Zusammenhang mit dem Auftreten von Seuchen (der Heilige Sebastian wurde als Schutzpatron gegen die Pest angerufen). Vgl. Matt (Hg.) 2003. Das heißt, wir arbeiten grundsätzlich nicht quantitativ, sondern qualitativ.

Ralph Ewerth: Die Annahme am Anfang, dass Bildanalyse sich auf zahlreiche Muster aus anderen Bildern berufe, trifft meines Erachtens nicht genau das danach genannte Szenario. Wir Menschen könnten schwerlich eine Bildbeschreibung erstellen für ein einzelnes Bild, wenn wir nicht Tag für Tag unseres Lebens massenhaft visuelle Informationen gesehen und Informationen dazu erhalten hätten, was diese visuellen Informationen zu bedeuten haben. Vereinfacht gesagt, auch wenn die menschliche visuelle Wahrnehmung gänzlich anders als Computer-Vision-Modelle funktioniert: Auch wir Menschen erkennen und interpretieren Objekte durch die Verarbeitung von sehr vielen Mustern, die wir zuvor wahrgenommen haben, und über deren Art und Bedeutung wir Informationen erhalten haben. Wenn wir wiederum künstliche neuronale Netze trainiert haben (mit vielen Bildern), dann können wir damit auch einzelne Objekte analysieren und dann im nächsten Schritt Ähnlichkeitsvergleiche mit anderen ausgewählten Bildern ziehen.

Elke Katharina Wittich: Und dennoch beruft sich die Kunstwissenschaft auf eine jahrhundertelange Tradition seit der Renaissance, also einer Zeit, die wohl kunsttheoretisch über Wahrnehmung und Wahrnehmungstäuschung diskutierte, jedoch über keinerlei Kenntnisse kognitiv psychischer Funktionen verfügte. Stattdessen wurden aber die Methoden der Wahrnehmung ganz ohne Maschine verfeinert. Ich kann aus meinem Studium nur bestätigen, dass wir eine Schule des Sehens, ein intensives Training der Wahrnehmung visueller Erscheinungen durchlaufen haben. Dies war kognitiv durchaus anstrengend, aber darauf beruht ein hohes Gut unserer Zunft, die sogenannte ›Kennerschaft‹; neben Wahrnehmung zählen auch Erinnern und Ordnen, also das Wissen um die Ausprägungen der Erscheinungen und ihre Verortung in Ort und Zeit.

Ralph Ewerth: Sicher können Forschende aus der Kunstgeschichte besser qualitative Analysen durchführen, während die KI-Methoden den Vorteil in quantitativen Fragestellungen bzw. der Verarbeitung von großen Bilddatenmengen haben. Letztlich liegt die Chance hier darin, dass Mensch (als Forschende) und Maschine (als ›intelligentes‹ Werkzeug) zusammenarbeiten. Ich denke, die typischen Vergleiche (die ich auch gerne anstelle), ob Mensch oder Maschine etwas besser können, sind oft gar nicht so relevant bzw. zielführend, hier in dem Sinne, dass wir möglichst rasch zu neuen Erkenntnissen in der Forschung kommen möchten.

Elke Katharina Wittich: Ich komme noch einmal auf den Heiligen Sebastian zurück, um Dir unsere Interessen und Vorgehensweisen zu erklären. Es geht uns um den Bildtypus: das ungewöhnlich überhöhte Format, die Nahsichtigkeit, die Körperhaltung, die Engführung mit ruinösen antiken Bau- und auch mit antiken Körperformen. Vor allem aber geht es uns um das eine Bild. Und wir haben eine grundlegende Ordnung nach Zeit und Raum hinterlegt, würden also zum Beispiel Mantegnas Sebastian nicht mit einem Bildwerk aus viel späterer Zeit oder mit einem Artefakt von einem anderen Kontinent vergleichen wollen. Wir würden vielmehr Gruppen von Kunstwerken um ein oder zwei zentrale Bildwerke formieren, an denen etwas gezeigt werden kann. Diese Gruppen sind jedoch, verglichen mit Datensätzen in der Data Science, recht klein.

Ralph Ewerth: Ja, dies ist für eine Maschine kein Problem, hier gehe ich davon aus, dass ein*e Forscher*in den relevanten Datenbestand entsprechend eingrenzt und eine Software wie iART ermöglicht dies den Nutzenden zum Beispiel bereits. So kann man etwa die Suche auf bestimmte Datenbanken und anhand weiterer Kriterien mittels facettierter Suche eingrenzen. Außerdem arbeiten wir gerade an Erweiterungen von iART, um den Vergleich zwischen zwei oder mehreren Bildwerken anhand von automatisch generierten Merkmalen formaler oder inhaltlicher Art zu ermöglichen.

Elke Katharina Wittich: Unter dem Stichwort ›Saint Sebastian‹ sind auf iART jedoch auch Werke zu finden, die keinen Heiligen Sebastian zeigen, sondern mythologische oder andere religiöse Figuren, häufig Christus. Hier kann man den Zusammenhang noch nachvollziehen, da eine hypothetische Christusähnlichkeit ein ausgemachtes Ziel solcher Bildstrategien war. Vgl. Aurnhammer / Steiger (Hg.) 2020. Aber es taucht in iART zum Beispiel auch ein Merkur von Hendrick Goltzius aus dem Jahr 1611 auf, den man leicht am geflügelten Helm erkennen kann (Abbildungen 4 unten links und Abbildung 6). Ein*e Kunsthistoriker*in erkennt natürlich sofort, dass die beiden Gemälde des Heiligen Sebastian wenig mit dem Merkur von Goltzius zu tun haben. Wie also funktioniert Mustererkennung, wenn doch hier entscheidende Details wie der geflügelte Helm und der Kaduceus (Schlangenstab) nicht zur Identifikation der Figur als Merkur genutzt wurden?

Abb. 6: Hendrick Goltzius: Merkur, 1611, Frans Hals Museum, Haarlem. [Bild: Wikimedia Commons, Public Domain]

Ralph Ewerth: Die Mustererkennung, hier in Form der Ähnlichkeitssuche, basiert auf dem Vergleich von hochdimensionalen Vektoren, die jeweils aus einer festen Anzahl von Zahlenwerten bestehen. Hierbei kann es passieren, dass eine Ähnlichkeit in Aspekten vorliegt, die für uns Menschen generell oder im jeweiligen Suchkontext irrelevant sind.

Anzumerken ist auch, dass in iART eine feste Zahl von Suchtreffern zurückgeliefert wird, zum Beispiel 200. Sollte es in der durchsuchten Datenbank aber nur 50 relevante Bilder (hier mit Heiligen ähnlich zu Saint Sebastian) geben, dann werden auch 150 irrelevante Bilder zurückgeliefert. Man könnte natürlich versuchen, dies automatisch zu erkennen, dies ist aber schwieriger als es zunächst den Anschein haben mag und noch nicht mit hoher Genauigkeit möglich.

Elke Katharina Wittich: Nun ja, wir wundern uns dann natürlich, weil wir die 150 irrelevanten Bilder nicht zuordnen können, wie wir es gewohnt sind. Und dies führt uns zu einem zentralen Kritikpunkt an den Digital Humanities, er betrifft die Anhäufung von Kunstwerken, denen eine oder mehrere Sachverhalte gemeinsam sind, denn eine solche Akkumulation wird weder eine Theorie begründen können noch zuverlässig Erkenntnisgewinn evozieren; Vgl. Leroi 2015. dies ist dem Grundkonflikt zwischen quantitativer und qualitativer Methodik geschuldet. Mit Methoden der Computer Vision kann man in Bildern Objekte erkennen, mit automatischer Posenschätzung die Haltung von Figuren oder Objekten bestimmen und viele analoge Beispiele, z. B. bei den Beinen des Heiligen Sebastian, ausfindig machen. Vgl. Szeliski 2022. Das ist schon interessant, aber eben keine Frage der Quantität. Und ob künstlerisch gestaltete Figuren in Malerei und Skulptur verschiedener Zeiten in ihren Körperhaltungen vergleichbar sind, nach welchen Kriterien dies erkundet und welche auf Erkenntnis abzielende Frage so beantwortet würde, ist damit nicht geklärt.

Wir Kunstwissenschaftler*innen glaubten lange, uns so grundsätzlich von Naturwissenschaftler*innen zu unterscheiden, dass in der englischen Sprache nur eine der Gruppen den Begriff der Science in der Bezeichnung führen konnte, eben die Natural Science, während die Humanities bloß dastanden mit nichts als sich selbst. Wir kommen aus einer seit der Renaissance gepflegten Tradition kunsttheoretisch abwägender Diskurse, um Gegenstände der Kunstausübung und Kunstrezeption, um Schritt für Schritt eine philosophisch fundierte Begründung von Werturteilen herauszuarbeiten.

Nehmen wir die Allegorie des Disegno, also der Zeichenkunst, von Angelika Kauffmann von 1778–1780 aus der Royal Academy in London (Abbildung 7). Vgl. Baumgärtel et al. 2024. Eine Frau zeichnet den Torso Belvedere in Rückenansicht. Wie man diesen Torso, wie man besonders die fehlenden Unterschenkel und Arme ergänzen könnte, war damals Gegenstand ästhetischer Diskurse, ihn von allen Seiten zu zeichnen Praxis der Künstler*innen. Man muss sich vorstellen, die Figuren zu drehen. Tut man dies, so erkennt man, dass die Frau beim zeichnerischen Nachvollzug die Körperhaltung des Pythagoras aus Raffaels Schule von Athen von 1510–1511 im Vatikan einnimmt, sich also absichert bei einer berühmten antiken Skulptur und gleichzeitig bei einem Künstler, der das Antikenstudium perfektioniert hat. Solche Adaptionen, nicht nur ganzer Figuren, sondern einzelner Körperteile und ihrer Posen – gedrehter Köpfe, erhobener Arme, übergeschlagener Beine – aufzuspüren, könnte mit Unterstützung durch KI sicherlich hilfreich sein. Für uns stellt sich dennoch die Frage: Würde es einen zusätzlichen Erkenntnisgewinn erbringen, darüber hinaus auch die schiere Masse an solchen Adaptionen zu kennen?

Abb. 7: Angelika Kauffmann: Allegorie des Disegno, 1778–1780, Royal Academy at Burlington House, London. [Bild: Royal Academy, Public Domain]

Ralph Ewerth: Zunächst wäre ich neugierig, welche Digital-Humanities-Arbeiten einfach ›Kunstwerke anhäufen‹? Zur Frage, ob die Kenntnis von vielen Adaptionen einen Erkenntnisgewinn bringt: Wenn es hierzu keine interessante Forschungsfragestellungen in der Kunstgeschichte gibt, dann bringt es nichts. Vielleicht gibt es aber durchaus solche Forschungsfragen, bei denen es wichtig wäre, die Adaptionen zu kennen?

Elke Katharina Wittich: Man müsste es erproben, täten wir dies nicht, würden wir uns im Umkehrschluss die Möglichkeit nehmen, Neues zu entdecken, wären wie gefangen in Gruppen von Kunstwerken, die über lange Zeiträume als zusammengehörig tradiert, wohl auch gelegentlich variiert oder ergänzt wurden, jedoch als verbindlicher Kanon Gegenstand der immer weiter getriebenen Diskurse waren. Diese Diskurse thematisieren ebenfalls tradierte Methoden und Kontexte, nur selten werden sie grundlegend neu ausgerichtet. Schon die Aussicht darauf, dass KI diese kanonischen Gruppen, Kontexte und Methoden in Frage stellen könnte, rüttelt an den Grundfesten der Disziplin.

Es muss einmal gesagt werden: Wir haben einfach ein Problem mit dem Unfertigen der KI-gestützten Technik, sie ist noch so unvollkommen. Wir haben in der Kunstgeschichte oder Archäologie eine sehr strenge Lehre durchlaufen: Gefordert wurden Denkmälerkenntnis und methodische Fertigkeiten in einer Kombination aus methodischem Vorgehen und ausgefeilter Argumentationstechnik. Wir tun uns nicht nur schwer damit, unvollkommene KI-gestützte Recherchetools zu nutzen, es ist ausgeschlossen dies zu tun.

Ralph Ewerth: Ich verstehe das Argument nicht ganz. Wenn die Alternative ist, gar nicht in einem Bilddatenbestand suchen zu können, dann würde ich doch lieber mit einem ›unvollkommenen‹ Recherche-Tool suchen, als gar nicht suchen zu können. Sehr viele und die meisten der wissenschaftlich tätigen Menschen nutzen in ihrem Berufs- und Forschungsalltag seit über 20 Jahren Suchmaschinen, die unvollkommen sind, aber dennoch für viele Aufgaben von großem Nutzen. Wir hörten nicht auf, Suchmaschinen zu nutzen, nur weil manchmal die Ergebnisse nicht zufriedenstellend waren oder auch noch sind, und gleichzeitig wurden die Technologien dahinter immer ausgefeilter.

Und: Vielleicht ist es für Deine Forschungsprozesse und Vorgehensweisen als Kunsthistorikerin nicht hilfreich, aber es könnte für andere Forschende in den Digital Humanities hilfreich sein, die große Bilddatenbanken nach bestimmten Motiven durchsuchen möchten oder sich von den teils überraschenden – und zugegebenermaßen auch Fehler enthaltenden – Trefferlisten zu neuen Fragestellungen inspirieren lassen möchten.

Es kommt sicherlich darauf an, dass man eine gewisse KI-Methoden-Kompetenz hat und versteht, für welche Teile des Forschungsprozesses KI-Methoden eingesetzt werden können und für welche nicht. Hierbei sind aber vor allem auch wir Informatiker und Software-Entwickler gefragt, die Tools leicht erlernbar und verstehbar zu gestalten. Hier haben wir auch bei iART noch einiges zu tun. Ansonsten: Wenn eine Methode eine zu hohe Fehlerrate für einen bestimmten Forschungszweck hat, dann sollte man sie natürlich nicht einsetzen.

Elke Katharina Wittich: Für die Forschung in der Kunst- und Bildwissenschaft wurden zu früheren Zeiten umfangreiche Zettelkästen, später dann aufbauend komplexe Bilddatenbanken zu kunstwissenschaftlichen Fragestellungen aufgebaut. Prominente Beispiele wie die seit 1995 an der Humboldt Universität zu Berlin angesiedelte Bilddatenbank Census of Antique Works of Art and Architecture Known in the Renaissance sind zwar in der Nutzung anspruchsvoll, zeigen jedoch andererseits das hohe Potenzial solch komplexer Vernetzung von Wissensständen. Vgl. Census of Antique Works of Art 2022. KI könnte womöglich mehr, das dauert aber noch.

Ralph Ewerth: Ich denke, die KI-gestützten Methoden sind Werkzeuge, die man entsprechend ihrer Fähigkeiten einsetzen sollte. Wenn diese Fähigkeiten für bestimmte Forschungszwecke nicht ausreichen, dann sollte man sie klarerweise nicht einsetzen. Hilfreich sind diese Methoden immer dann, wenn es darum geht eine große Menge von Daten zu analysieren oder eine große Menge von Daten zu durchsuchen – dies kann natürlich auch die Suche nach Kontextinformationen beinhalten, die nicht in der Bilddatenbank enthalten sind, sondern in anderen Datenbanken, im Web, oder bei einem Chatbot erfragt werden können. Die Suche bzw. Analyse von großen Datenmengen sind Aufgabenstellungen, die wir Menschen in der Regel nicht so gut bewältigen können wie Maschinen.

Elke Katharina Wittich: Ich gebe ein Beispiel: in Rom steht seit der Antike das überlebensgroße Reiterstandbild des Marc Aurel. Ein Künstler könnte dieses Reiterstandbild im 16. Jahrhundert adaptiert haben, um damit einen König oder Kurfürsten in Vergleich mit dem berühmten antiken Herrscher zu setzen, eine über lange Zeiträume vielfach genutzte Bildstrategie. Vgl. Warnke 2011; Groeling 2007. Aber dieser Künstler war nie in Rom. Um den Beweis zu führen, dass der Künstler das Reiterstandbild dennoch gekannt haben könnte, würde man im Census nachsehen, ob das Reiterstandbild damals als Druckgraphik verbreitet war. Es geht also um das Aufspüren von Belegen für Thesen.

Ralph Ewerth: Ja, das ist ein gutes Beispiel für ein Suchszenario mit einer Anfrage, die mit einer Suchmaschine wie iART heute unterstützt und möglicherweise mit einer einzigen Suchanfrage beantwortet werden kann. Und hierbei kann die Suchanfrage sogar in natürlicher Sprache formuliert werden – dies ist etwas, das vor vier Jahren technisch in der Qualität noch gar nicht möglich war: beliebige Anfragen an eine Bilddatenbank in natürlicher Sprache zu formulieren, weit über einzelne Stichwörter oder Wortlisten hinaus – und oftmals plausible Ergebnislisten mit relevanten Bildern zu erhalten.

Elke Katharina Wittich: Anders als Census würde aber eine durch KI-unterstützte Suche, zum Beispiel in iART, unter dem Schlagwort ›man on a horse‹ viele Adaptionen des Reiterstandbilds des Marc Aurel, daneben aber noch unzählige andere Reiter auf Pferden zeigen – für unsere Begriffe unsortiert, für Euch sicherlich eher Entwicklungsstand. Selbst wenn ich die Möglichkeiten zur Einschränkung der Suchparameter in iART nutze, finde ich u. a. eine kleine Adaption des Reiterstandbilds in Porzellan, die ich tatsächlich noch nicht kannte, aber ich muss sie dennoch aus unzähligen anderen, für die Frage nicht relevanten Bildern heraussuchen.

Ralph Ewerth: Für einen solchen Fall bietet iART bereits eine Möglichkeit, die Bilder aus den Suchergebnissen zu gruppieren (sortieren), nämlich mittels der Clusteringfunktion. Primär ist iART eine Suchmaschine, das Gruppieren und Sortieren von Bildern ist aber in einem weiteren Schritt möglich; facettierte Suche wäre eine weitere Möglichkeit, die Trefferliste auf Knopfdruck einzuschränken.

Elke Katharina Wittich: Als wir für die Tagung in Wolfenbüttel unseren Vortrag vorbereiteten, stellte ich fest, dass Ihr nicht Iconclass zur Metadaten-Annotation nutzt. Vgl. Iconclass 2024. Ich vermutete, dass die Suche nach Bildähnlichkeit allein auf Grundlage visueller Merkmale – Formen, Mustern, Verdichtungen usw. – geschieht. Dies hatte im Umkehrschluss meine Einschätzung provoziert, dass ich unter diesen Voraussetzungen nicht finden kann, was ich als Kunstwissenschaftlerin annehme finden zu müssen, denn meine antrainierten Suchkriterien sind nicht rein visuell. Ich hatte damals dafür plädiert – und bei der Tagung gab es für dieses Argument Unterstützung –, Eure Methoden und die Klassifikation nach Iconclass zu verbinden; dies würde sehr viele Irrläufer aussortieren helfen, die uns noch so sehr stören.

Ralph Ewerth: Unser Ansatz unterstützt nicht nur die Suche nach Bildähnlichkeit allein auf Grundlage visueller Merkmale. Wenn Metadaten nach der Iconclass-Taxonomie vorhanden sind, dann können diese von einer Bildsuchmaschine wie iART bereits jetzt direkt genutzt werden, als Stichwort für eine facettierte Suche.

Elke Katharina Wittich: Dies ist ein sehr gutes Beispiel dafür, wie sich die Disziplinen annähern können, um die zugänglichen Technologien für die wissenschaftliche Praxis zu adaptieren und nutzbar zu machen. Auch sehe ich im Dialog die große Chance die Weiterentwicklung der Technologien einerseits durch die Reflexion methodischer Anforderungen und andererseits durch kritische Fragen zu fördern.

Ralph Ewerth: Die Frage ist allerdings, wie zuvor eine große Menge von Bilddaten nach der sehr umfangreichen Iconclass-Taxonomie annotiert werden kann. Für uns Menschen ist das in der Regel zu zeit- und kostenintensiv. Auch für KI-Methoden ist es ein schwieriges Problem aus mehreren Gründen, wir haben hierfür vor kurzem ein System vorgestellt, das diesen manuellen Prozess teilweise automatisieren kann durch generierte Vorschläge. Vgl. Springstein et al. 2024.

Das von uns genutzte Vision-Language-Modell, das unabhängig von vorab definierten Kategorisierungen wie Iconclass ist, ist grundsätzlich in der Lage, auch Personen, Objekte und Bedeutungen von Bildinhalten zu erkennen. Hierbei arbeitet es natürlich nicht perfekt und macht dabei auch Fehler. Zudem können unabhängig von der Bildähnlichkeitssuche auch weitere Metadaten, sofern verfügbar, in die Suche mit einbezogen werden. Wir arbeiten daran, diese Metadaten automatisch zu generieren mittels der oben erwähnten Methode und hoffen, dies bald auch in iART integrieren zu können.

Elke Katharina Wittich: Das ist gut, denn eine Einschränkung der Suche auf visuelle Merkmale bedeutet für meine kunstwissenschaftliche Recherche mit iART, dass ich alles Erlernte, also die Suche nach Künstlernamen und Objekttiteln, nach Bild- oder Bautypen, nach Zeiträumen und Orten beiseiteschieben und abstrakter vorgehen muss. Es ist schon sehr ungewohnt, weder mit ›Marc Aurel‹ noch mit ›Reiterstandbild‹ noch mit ›Spätantike‹ arbeiten zu können, sondern ›man on a horse‹ einzugeben, um zum Reiterstandbild des Marc Aurel zu gelangen. Andererseits habe ich trotz all meiner Denkmälerkenntnis noch nie eine solche Zusammenstellung analoger Bildmotive gesehen wie unter dem Suchbegriff ›man on a horse‹ in iART.

Ralph Ewerth: Grundsätzlich ist es möglich, mit Vision-Language-Modellen wie dem CLIP-Modell Vgl. Radford et al. 2021. mit all den genannten Suchanfragen zu recherchieren und oftmals auch relevante Treffer zu erhalten. Es stimmt aber, dass man diese Modelle noch weiter verbessern muss, indem man sie z. B. spezifisch mit Daten aus der Kunstgeschichte trainiert oder feinanpasst.

Elke Katharina Wittich: Bei van Gogh kann das gehen, unter den Schlagworten ›Marc Aurel‹ und auch ›equestrian statue of Marc Aurelius‹ habe ich – Stand Oktober 2024 – noch nicht das Gewünschte gefunden. Wahrscheinlich muss ich mich darauf einstellen, dass sich diese Technik entwickelt, rasch zwar, aber sie ist eben noch nicht in allen Belangen ausgereift. Zugleich bin ich davon überzeugt, dass wir Kunstwissenschaftler*innen Euch vieles mitteilen und erklären müssten, damit Ihr die Technik gut einsetzbar gestaltet. Denn wie solltet Ihr wissen, was wir brauchen und was uns voranbringen kann, wenn wir es Euch nicht sagen?

Ralph Ewerth: Das Ungewohnte könnte sein, dass Du in iART mit noch viel umfangreicheren Beschreibungen nach Bildern suchen kannst, so wie ich das oben beschrieben habe.

Elke Katharina Wittich: Ja, das ist aufregend und eine Option auf die Weiterentwicklung der Disziplin. Ich sehe auch noch weitere Felder, in denen sich Eure Technologie als Motor der reflexiven Auseinandersetzung mit unserer Disziplin erweisen könnte. Aufgrund der Beschäftigung mit KI habe ich mich nun sehr viel mit Klassifizierungen befasst und muss sagen, auch Iconclass ist menschengemacht, also mit Wertungen behaftet, z. B. werden bestimmte Gattungen anderen gegenüber bevorzugt, gut erforschte Kontexte sind überproportional vertreten, andere gar nicht aufgenommen, gattungsübergreifende Zusammenhänge werden eher negiert als herausgestellt und vieles mehr. Vielleicht sollte man iART und Euren Methoden erst einmal Platz geben, solche Zusammenhänge rein visuell zu vermitteln, und diesen Prozess kritisch begleiten?

Die Auseinandersetzung mit KI kann die Aufmerksamkeit dafür schärfen, wie normiert kunstwissenschaftliche Klassifizierungen sind, etwa die Frage, was zusammengehört und was miteinander in Beziehung gesetzt wird. Das Werk eines Künstlers oder einer Künstlerin gehört zusammen, Beispiele einer Gattung aus der gleichen Zeit und dem gleichen Umfeld wie niederländische Stillleben des 17. Jahrhunderts können gemeinsam diskutiert, stilistische Ausprägungen wie Obergaden gotischer Kathedralen miteinander verglichen werden. Man kommt vom einzelnen Werk und geht über eine vergleichbare Gruppe zu Kontexten.

Ralph Ewerth: Mein Eindruck von der Iconclass-Taxonomie ist auch, dass die Kategorien nicht sehr scharf und präzise definiert sind und Verzerrungen enthalten, z. B. in dem Sinne, dass bestimmte Kategorien überproportional vertreten sind. Hier denke ich in der Tat, dass algorithmische oder neuronale Modelle dazu beitragen können, Definitionen zu überdenken und zu präzisieren.

Elke Katharina Wittich: In jedem Fall werden digitale Techniken und Methoden einen Einfluss auf unser Denken haben; bestenfalls könnten sie Erkenntnisse und neue Taxonomien hervorbringen. Methoden, Klassifizierungen, Ordnungen und Argumentationsketten kommen auf den Prüfstand, mutmaßlich werden monographische Studien an Bedeutung verlieren. Wir werden unser Tun überdenken müssen, z. B. unseren Hang zur historischen Ordnung. Womöglich haben wir uns in einer geschichtsphilosophischen Konzeption des 19. Jahrhunderts verfangen und KI-gestützte Untersuchungen größerer Datenmengen würden uns neue Zugänge eröffnen. Im Grunde sieht man bereits an digitalen Enzyklopädien, dass sich Wissensstände und mit ihnen Erschließungsmethoden radikal ändern. Vgl. Rahmstorf 2023.

Wenn man einmal – nur als Gedankenexperiment – sagen würde, unsere Setzungen, welche Bilder wie in welchen Gruppen zusammengehören, würden durch KI unterwandert und mitsamt den Kanonbildungen aufgrund von Forschungstraditionen gänzlich infrage gestellt: Wäre es diesen Preis wert, die über lange Zeit geprägten kunstwissenschaftlichen Diskurse mit sämtlichen, doch häufig auf Forscherpersönlichkeiten oder Schulen zentrierten Wertungen beiseiteschieben zu können und Neuland zu betreten, ein Neuland, das uns durch die schiere Masse an Bildbeispielen zu anderen Ordnungssystemen zwingt?

Ralph Ewerth: Ja, ich würde aber nicht sagen, dass es uns durch die schiere Masse zu anderen Ordnungssystemen bringt, sondern uns die Möglichkeit gibt, auf Knopfdruck nach sehr unterschiedlichen Eigenschaften Bilder der Ähnlichkeit nach zu suchen bzw. zu gruppieren.

Elke Katharina Wittich: Mit einem Projekt zur Digitalisierung und Bereitstellung von Münzdaten bereiten wir gemeinsam u. a. eine akademische Weiterbildung von Kurator*innen von Sammlungsbeständen in Museen und anderen Institutionen vor: wie können sie die Digitalisierung zur Aufarbeitung bislang wenig beachteter Objekte und zugleich zu Ausstellungen nutzen, die in dieser Form ohne KI nicht möglich wären? Vgl. Keskintepe / Woschech (Hg.) 2021; Murphy et al. (Hg.) 2022. Von diesem Projekt verspreche ich mir viele Erkenntnisse über das Zusammenwirken von Kunstwissenschaft und Informatik, da wir am konkreten Fall methodische Probleme z. B. der Rezeption lösen müssen.

In der Kunstwissenschaft und Archäologie ist Antikenrezeption sehr gut erforscht. Auf Münzen und Medaillen erscheinen die Verfahren der Antikenrezeption wie in einem Brennglas gebündelt, denn die Bildaussagen müssen auf sehr kleinem Raum unterkommen. Sie sind darum häufig abstrahiert und setzen auf wiederkehrende Prinzipien. So werden Herrscher häufig im strengen Profil oder als Büste gezeigt und somit in die Tradition römischer Kaiser gestellt. Kann es sein, dass iART oder andere KI-unterstützte Suchfunktionen so viele Münzen in dieser Tradition finden werden, dass frühere qualitativ ausgerichtete Fragestellungen der Numismatik infrage gestellt werden?

Ralph Ewerth: Das verstehe ich nicht ganz. Wieso werden qualitativ ausgerichtete Fragestellungen infrage gestellt, wenn eine Bildsuchmaschine viele Beispiele hierzu finden würde? Dies wäre doch vielmehr eine quantitative oder empirische Unterstützung der qualitativen Aussage, oder?

Elke Katharina Wittich: Nicht zwangsläufig. Kunstwissenschaft und Archäologie haben eine lange Tradition, dadurch haben sich Fragestellungen nach dem Zusammenhang von Kunstwerken herausgebildet, die das gleiche Thema behandeln, zur gleichen Zeit entstanden sind oder aus der Hand eines Künstlers stammen. Also hat man Gruppen wie eben jenen heiligen Sebastian in der Kunst des 15. Jahrhunderts oder das Augustusbild der römischen Antike oder auch Darstellungen des gekreuzigten Christus aus dem Spätmittelalter vergleichend untersucht und sie in eine Reihung gebracht, die aufwendig begründet wurde.

An der zeitgenössischen Kunst kann man bereits deutlich ablesen, wie sehr digitale Methoden die Kunstpraxis verändern. In der älteren Kunst ist das hypothetische Christusbild – obgleich vielfältig imaginierend dargestellt, kopiert und adaptiert – immer das eine Bild des einen Gottes. Neuere, teils, jedoch nicht notwendig KI-generierte Kunst wie z. B. von Lucio Greco, zeigt unter dem Titel 100 Faces of Christ mit Öl auf Leinwand, also einer althergebrachten Materialität, einen geschundenen Christus, eingebunden in eine Masse anderer leidender Christusfiguren, allesamt der Kunstgeschichte des Mittelalters und der Renaissance entlehnt (Abbildung 8). Vgl. Greco 2023. Die visuelle Verwandtschaft der künstlerischen Zusammenschau von Adaptionen mit dem Suchergebnis in Bilddatenbanken ist frappierend und macht uns Kunstwissenschaftler*innen zugleich deutlich, dass wir mit solchen Zusammenstellungen bislang nicht gearbeitet haben.

Abb. 8: Lucio Greco: 100 Faces of Christ, 99teilig, 2016–2022, NordArt 2023. [Fotografie: Elke Katharina Wittich 2023]

KI rüttelt also an den Traditionen in der Wissenschaftsgeschichte unserer Disziplin und das ist sicher nicht direkt beabsichtigt bei der Entwicklung von KI-Methoden. Häufig gibt es berühmte Wissenschaftler*innen, die, begründet mit ihrer Kennerschaft, einen Standard gesetzt haben. Andere Autor*innen erheben dann später mit einem neu entdeckten Beispiel in der Gruppe Anspruch auf Umstellung der Ordnung. An dem Ansatz a) eine überschaubare und nachweislich zusammengehörige Gruppe an Artefakten in b) eine wissenschaftlich begründete Ordnung zu bringen und sich dabei c) auf Kennerschaft ausgewiesener Fachkolleg*innen zu verlassen, ändert dies aber nichts.

Erst KI bringt Unruhe ins System, dann nämlich, wenn sehr viel mehr Beispiele eingebracht werden, die nominell zur Gruppe der Artefakte gehören könnten, weil inzwischen ganze Sammlungsbestände digitalisiert wurden und auch lange nicht gezeigte Sammlungsteile aus den riesigen Depots großer Museen zugänglich sind. Haben denn die Kunstwissenschaftler*innen dies mit ihrer Kennerschaft nicht gewusst, diese Beispiele nicht gekannt? Ich überspitze hier bewusst, um die Tragweite zu verdeutlichen. Ganz bestimmt wird dies die Sicht auf jene älteren kanonischen Schriften und damit auch auf die Methodik verändern.

Ralph Ewerth: Das erscheint mir eher ein Fortschritt zu sein und kein Problem darzustellen. Selbst eine herausragende Kennerschaft muss bzw. kann im Allgemeinen doch nicht perfekt sein. Im besten Fall lernen wir etwas darüber, wenn Forschende Lücken in ihrer Kennerschaft hatten und können ggf. unvollständige oder verzerrte Schlussfolgerungen entdecken. Ich würde annehmen, dass sich Forschende, die sich für das Thema begeistern, gerade auch diese mit der beschriebenen Kennerschaft, darüber freuen, neue Denkanstöße und Hinweise zu erhalten – im Sinne der Sache und insbesondere des Erkenntnisfortschritts. Dies würde nicht bedeuten, frühere wissenschaftliche Leistungen oder Kennerschaft infrage zu stellen, sondern die zugrundeliegende Forschung noch besser zu verstehen, neu einordnen zu können, oder gar frühere Erkenntnisse zu widerlegen. Es wäre doch nicht vernünftig, ein Werkzeug trotz der möglichen Vorteile nicht zu nutzen, wenn es uns zum Beispiel hilft, zu neuen Erkenntnissen zu gelangen – nur weil es zu einem früheren Zeitpunkt notwendig war, ohne dieses Werkzeug auszukommen.

Es kommt meines Erachtens darauf an, sich der Stärken und Schwächen von Mensch und Maschine (KI) bewusst zu sein: Mit einer riesigen Menge von Daten umgehen zu können, das ist der potenzielle Vorteil von Maschinen. Die Suchergebnisse und andere systemgenerierte Artefakte qualitativ einzuordnen, zu hinterfragen, zu reflektieren und zu neuen Erkenntnissen zu gelangen, hier sind wir Menschen den Maschinen – noch – überlegen.

Elke Katharina Wittich: Mit digitalen Methoden können sehr viel rascher als bislang weitaus mehr Gegenstände des jeweiligen Forschungsgebietes zusammengestellt oder zugänglich gemacht werden; gleichzeitig wird auch viel mehr dazu veröffentlicht. Anders als z. B. die Geschichtswissenschaft und weiter gefasst die Digital Humanities verharren etliche Kunsthistoriker*innen noch in der Vorstellung, wir könnten unseren Zuständigkeitsbereich weiterhin überschauen. Vgl. Jannidis et al. (Hg.) 2017; Antenhofer et al. 2024. Aber alles deutet darauf hin, dass dies kaum so bleiben kann. Mindestens werden z. B. die Vorzüge digitaler Editionspraktiken oder digitaler Rekonstruktionen von Kulturgut neue Standards definieren. Vgl. KulturGutRetter 2024.

Vielleicht brauchen wir neue Ordnungssysteme. Es zeigt sich ja schon etwas länger, dass quantitativ erschließbare Wissensstände in ihren angestammten Behältnissen – Sammlungen und Archive – eine größere Aufmerksamkeit erhalten. Vgl. Kunstforum 2022. Auch Praktiken wie das Sammeln, das Beschreiben und Beschriften, das Memorieren, auch das Umsortieren nach anderen Kategorien gehören dazu. Interessanterweise beschäftigen sich Künstler*innen, die mit KI arbeiten, wie z. B. die Britin Anna Ridler mit solchen Praktiken. Vgl. Ridler 2018. Sie hat Tausende von Tulpen fotografiert und per Hand klassifiziert, bevor sie eine KI mit den Daten trainiert hat.

Ralph Ewerth: Der Vorteil von KI-Systemen ist, dass sie in sehr kurzer Zeit große Datenmengen nach unterschiedlichen Kriterien gruppieren oder klassifizieren können. Beim Gruppieren werden Datenobjekte, hier Bilder, der Ähnlichkeit nach in gleiche (wenn sehr ähnlich) oder unterschiedliche (wenn eher unähnlich) Gruppen zugeordnet. Bei der Klassifikation werden Bilder Kategorien zugeordnet, und zwar anhand automatisch erlernter Regeln, die aber leider für Menschen typischerweise nicht gut interpretierbar sind. Es wird aber momentan intensiv daran geforscht, die hinter solchen Zuordnungen liegenden Regeln und Muster den Nutzer*innen besser erklären zu können. Hierfür kommen natürlich auch große Sprachmodelle in Frage.

Elke Katharina Wittich: Tatsächlich modelliert Anna Ridler in Myriad (Tulips) (2018) (Abbildung 9) und dem darauf aufbauenden Mosaic Virus (2019) ihre Daten, das heißt sie definiert mit Annotationen Datenstrukturen und ihre Beziehungen untereinander. Vgl. Ridler 2019. Dies geschieht auf der Grundlage ihrer Klassifizierungen nach Farben und dem Zustand der Blüte vom Aufblühen bis zum vollständigen Verblühen. Dabei nutzt sie jahrhundertelang gepflegte Praktiken wie z. B. die bereits im 17. Jahrhundert gängige Darstellung von Blühpflanzen in allen Stadien; bei ihr wird dann eine Videoinstallation KI-generierter auf- und abblühender Tulpen daraus.

Abb. 9: Anna Ridler: Tulips, 2018, Website der Künstlerin. [Screenshot: Elke Katharina Wittich 2025]

Anna Ridler schreibt:

The process of making datasets is almost like craft – repetitive, time-consuming, …, but necessary in order to produce something beautiful. And there is a skill to it […]. If the dataset is too big, […], the results will be too good and the quirks and oddities that make it an interesting medium to explore will disappear; if it is too small it will not have enough information […], either producing nothing or one or two variations […]. Therefore, each photograph is carefully selected, as part of an iterative process, to produce the type of result that I desired. Ridler 2018.

Dies ist dann mehr eine künstlerische Form des Modellierens oder?

Ralph Ewerth: Einerseits ja, es ist aber auch recht technisch. Denn das, was Anna Ridler hier bezüglich der Erstellung von Datensätzen beschreibt, ist auch bei der Erstellung von Trainingsdatenmengen ein wichtiger Aspekt. Wenn ich einem KI-System beibringen möchte, in Bildern Rosen, Tulpen, Lilien etc. unterscheiden zu können, dann benötige ich eine ausreichend große Menge von Beispielen. Wenn aber in der Klasse ›Tulpen‹ rote Tulpen dominieren, dann wird das System möglicherweise gelbe Tulpen nicht gut von anderen hellen Blumen unterscheiden können. Wenn in der Klasse ›Rose‹ zudem Bilder mit gelben Rosen dominieren, dann lernt das System eine ungewollte und zu Klassifikationsfehlern führende Verzerrung: Wenn eine gelbe Blume in einem neuen Bild klassifiziert werden soll, dann wird das System zur Antwort ›Rose‹ tendieren. Das heißt, es ist wichtig, dass für jede Blumenklasse alle möglichen Erscheinungsformen von Objekten – wir nennen das in der Regel Merkmale (Features) – oft genug und ungefähr gleich oft vorkommen. Und heutige große neuronale Netze benötigen grundsätzlich sehr viele Beispiele, um solche Klassen und Merkmale selbstständig zu lernen.

Elke Katharina Wittich: In der zeitgenössischen Kunst arbeitet man also längst mit KI, auch ist bereits von digitalen Bildkulturen die Rede, Vgl. Merzmensch 2023. das heißt KI ist einerseits ein Werkzeug, andererseits viel mehr: Themenlieferant, Impulsgeber der Konzepte und auch aktives Material, das sich weiterdenkt. Und dies ist etwas anderes als Bewegung im Bewegtbild, denn potenziell arbeitet KI, ist sie einmal angestoßen, weiter, immer weiter, so wie Mikroben. Jedenfalls ist dies bei der Finnin Jenna Sutela so, in nimiia cétiï (2018) kommunizieren KI und Mikroben in einer gemeinsam entwickelten Sprache, die wir nicht verstehen. Vgl. Sutela 2024.

Ralph Ewerth: Da möchte ich gerne einhaken, denn die Analogie mit den Mikroben ist nicht vollständig korrekt. Das ist eine oft zu hörende Annahme, dass KI-Systeme permanent – quasi live – dazulernen. Es gibt zwar eine Richtung des Maschinellen Lernens, die sich damit beschäftigt, die kommt aber meines Erachtens bei den meisten Anwendungen nicht zum Einsatz. Bei vielen eingesetzten Systemen ist es so, dass ein bestimmter Lernstand konserviert wird und man wendet ein fertig trainiertes System an, das man zuvor evaluiert hat. Mit der Zeit sammelt man dann möglicherweise neue Daten, sei es aus der Interaktion mit dem System oder aus anderen Datenquellen. Es kann aber Tage, Wochen, Monate dauern, bis man eine neue Version eines Systems trainiert hat, welche die vorherige Version ersetzt.

Elke Katharina Wittich: In der zeitgenössischen Kunst prägt KI einen neuartigen Zugang zu Kunst, häufig über die Erfahrung ephemerer und immersiver Räume, in denen wir sind oder unter bestimmten, technisch erzeugten Umständen sein könnten. Vgl. Fast (Hg.) 2023. Dies hat natürlich eine lange Vorgeschichte in der Ablösung der bildenden Künste von vormodernen Praktiken in der Zeit um 1800 und dann nochmals radikaler um 1900; dies betrifft u. a. die Ablösung von ikonographischen Sinnsystemen, denn z. B. abstrakte Kompositionen entziehen sich vollständig einem solchen Zugriff. Die Rolle von KI in der zeitgenössischen Kunst wird man zudem nur vor dem Hintergrund der Konzeptkunst und der Medienkunst das 20. und beginnenden 21. Jahrhunderts erschließen können.

Dann ist es aber tatsächlich so, dass man als Kunstwissenschaftler*in diesen Ausprägungen nicht mehr gerecht werden kann, wenn man nicht auch die technischen Aspekte von KI einschätzen kann. Schlüssel zum Zugang zu diesen Techniken in der zeitgenössischen Kunst sind jedoch weiterhin die genaue Beschreibung und der Einbezug der Bedingungen unserer Wahrnehmung. Allerdings verstehen wir in der Kunstwissenschaft etwas anderes darunter als Ihr in der Informatik, nämlich einen theoriegeprägten philosophischen Zugang im Gegensatz zu einem psychologisch-physiologischen Ansatz. Vgl. Hartmann (Hg.) 2024; Weier 2019. Zwar gibt es eine wahrnehmungsorientierte Kunstwissenschaft, die für den Bereich der Moderne ja doch auch mit Emotionen und damit psychologischen Effekten rechnen muss, aber diese Ansätze scheinen sich doch sehr von Euren Zugängen zu unterscheiden.

Wer sich als Kunstwissenschaftler*in nicht mit den technischen Voraussetzungen und Wirkweisen, kurz mit der Logik der KI auskennt, könnte rasch ins Hintertreffen geraten, kann nicht mehr mitreden. Früher kam man als Mittelalterspezialist*in gut ohne Theoreme zeitgenössischer Kunst aus, mit KI könnte es jedoch anders werden. Anwendungen von KI prägen neben Kunstpraxis und Kunstmarkt zeitgleich in weitreichender Weise viele und zentrale Bereiche unserer Lebensumwelt, richten sie neu aus, manipulieren mitunter: das Gesundheitswesen ebenso wie das Bankwesen und das Bildungswesen. Vgl. Jörrisen 2020; Ackermann / Egger (Hg.) 2021. In der kunstwissenschaftlichen Praxis wirken sie durch Recherche, digitale Publikationspraktiken und die Anlage und Erschließung von Datenbanken auch in die Forschung von Mittelalterspezialist*innen hinein – man wird sich nicht entziehen können.

Vielleicht kommt bildende Kunst gerade erst im Zeitalter von KI zu ihrer eigentlichen subversiven Stärke, der irrlichternden Spiegelung der Zustände, der unübersehbaren Hervorhebung der Fehlstellen, der marktschreierischen Herausstellung der absurden Menge an Energie, die KI-generierte Kunst benötigt, Vgl. Scheer 2019. um da zu sein und schnell auch wieder nicht mehr da zu sein, dann nämlich, wenn das technische Werkzeug nicht mehr in der Version, mit der ein Kunstwerk hervorgebraucht wurde, verfügbar ist. Mit der alten Version von bildgenerierender KI ist dann auch das Kunstwerk aussortiert, nicht mehr aufrufbar.

Als es mir zu viel wurde mit der großen Begeisterung an der KI-gestützten Suche nach Bildähnlichkeit, habe ich mir als Intervention den Titel unseres Beitrags ausgedacht: eine Tulpe ist eine Tulpe ist keine Tulpe. Damit spiele ich auf ein Blatt aus dem Sinnepoppen von Roemer Visscher aus dem Jahr 1614 an, ein Emblem-Buch (Abbildung 10). Vgl. Strasser / Wade 2004; Küpper 2005. Siehe auch Emblematica online 2010–2022. Die beiden Tulpen sind auf diesem Blatt nahsichtig vorgestellt, unten liegen, wie bei einer botanischen Zeichnung, Zwiebeln. Wie in der Emblematik üblich, werden die Tulpen nicht als Pflanzen gesehen, sondern als Sinnbild, stehen nämlich für die Dummheit im Umgang mit Geld. Een dwaes en zijn gelt zijn haest ghescheyden – Ein Narr und sein Geld sind schnell voneinander getrennt. Zitiert nach der Ausgabe in der Universitätsbibliothek Leiden.

Abb. 10: Ergebnis der Bildsuche unter dem Suchbegriff ›tulips‹ in iART mit einen Blatt aus Sinnepoppen von Roemer Visscher, 1614. [Screenshot: Elke Katharina Wittich 2025]

Ich spreche von dem Unterschied zwischen der bildlichen Darstellung einer Tulpe, mit der eine Tulpe gezeigt werden soll, und der bildlichen Darstellung einer Tulpe, die sinnbildlich für die Torheit, mit teuren Tulpen zu spekulieren, steht. Denn das Blatt aus dem Emblembuch Sinnepoppen von 1614 nimmt Bezug auf die sogenannte Tulpomanie in den Niederlanden des 17. Jahrhunderts, als man für eine Tulpenzwiebel so viel zahlen musste wie für ein Bürgerhaus in Amsterdam. Vgl. Goldgar 2007. Auch Anna Ridler nimmt darauf Bezug, das Auf- und Abblühen der KI-generierten Tulpen in Mosaic Virus ist von Börsenkursen ausgelöst.

Andererseits kann alles, was man anhand von Form, Farbe und Umriss, Art und Charakteristik, Materialität, Herstellungsweise, gar Prozessualität und Entwicklungsoption beschreiben kann, auch nachgeahmt, demnach von KI genutzt werden. Es könnte also eine ›Ähnlichkeit = Sinnbild‹ definiert werden, die sich von anderen Ähnlichkeiten in der Kunstwissenschaft unterscheidet, z. B. eine Ähnlichkeit in der Pinselführung als einem technischen Aspekt, eine Ähnlichkeit in der Motivwahl als einer intellektuellen Entscheidung zugunsten der Bildaussage und eine Ähnlichkeit der Form, letztere abgelesen sowohl an Körpern wie an Bauteilen.

Ralph Ewerth: Die große Herausforderung für die Ähnlichkeitssuche in einer Bilddatenbank mit einem Anfragebild ist, dass ohne weitere Kontextinformation völlig unklar ist, nach welchen Aspekten und Eigenschaften (›Features‹) eines Bildes ähnliche Bilder gefunden werden sollen. Woher sollte eine Bildsuchmaschine das wissen? Genau so könnte ein Mensch mit dieser knapp formulierten Aufgabe wenig anfangen: Finde mir bitte ein ähnliches Bild zu diesem Tulpenbild! So etwas können wir gut als ein ›ill-posed problem‹, eine schlecht formulierte Problemstellung bezeichnen. Eine solche Bitte bzw. Anfrage ist zu unscharf definiert und benötigt mehr Kontext und spezifische, möglichst objektivierbare Ähnlichkeitskriterien.

Elke Katharina Wittich: Dies ist ein gutes Beispiel: wie sollten wiederum wir wissen, was die Maschine kann und was nicht bzw. was wir ihr sagen müssten, damit sie gut arbeiten kann?

Ralph Ewerth: Ein KI-System kann – glücklicherweise – nicht die Gedanken der Nutzer*innen lesen, und selbst wenn – könnten wir Menschen immer genau ausdrücken, wonach wir suchen? Dies bedeutet, dass man dem System weitere Informationen geben muss, zum Beispiel, dass es um Farbe, Form, Textur, Objekt, Motiv, Epoche, historischen, gesellschaftlichen und kulturellen Kontext, Symbolik etc. oder um eine Kombination solcher Aspekte geht. Je konfigurierbarer das System ist oder je mehr es natürlichsprachige Anweisungen (Eingaben = ›Prompts‹) versteht, umso besser.

Elke Katharina Wittich: Allerdings müsste man auch die Theoreme einbeziehen, dass man sich im 18. Jahrhundert mit ›Ähnlichkeit‹ auf einen ästhetischen Diskurs bezieht, der von einem Artikel in Johann Georg Sulzers Allgemeine(r) Theorie der Schönen Künste ausgelöst wurde, während im 20. Jahrhundert gerade der ›Abdruck‹ von Menschen und Objekten, also eine zu genaue und darum nicht erstrebenswerte ›Ähnlichkeit‹ im Sinne Sulzers, eine ganz andere Wertigkeit hatte. Vgl. Sulzer 1771; Didi-Huberman 1999. Man müsste also bei ›Ähnlichkeit‹ zwischen einer vollständigen Entsprechung von Dargestelltem und Darstellung und verschiedenen Graden der ›Ähnlichkeit‹ unterscheiden.

Ralph Ewerth: In einem KI-System werden typischerweise solche ›Ähnlichkeitsgrade‹ berechnet, entweder für ein Merkmal oder eine Menge von Merkmalen; alternativ könnte man eine Distanzmetrik verwenden, die den Grad an Unähnlichkeit misst. Die Werte einer Ähnlichkeitsmetrik liegen üblicherweise entweder zwischen 0 und 1 oder zwischen -1 und 1, das hängt von der Art der gewählten Metrik, d. h. Ähnlichkeitsfunktion ab. Der Wert 1 wäre zu vergeben, wenn man ein Bild mit einer exakten Kopie vergleicht, geringere Werte deuten auf eine geringere Ähnlichkeit hin. Insofern unterscheidet man also nur graduelle Abstufungen von Ähnlichkeit und streng genommen fällt ein Bild nie aus der Kategorie ›ähnlich‹ heraus. Das wäre Definitionssache: wir könnten sagen, wenn die Ähnlichkeit zwischen zwei Bildern 0 ist, dann sind sie unähnlich. Wollen wir sie aber anfangen ähnlich zu nennen bei einem Ähnlichkeitswert von 0,00000001? Oder doch lieber ab einem Wert über 0,5? Für Klassifikationsaufgaben muss man hier sinnvolle Schwellenwerte finden, erfreulicherweise nehmen uns KI-Systeme diese Aufgabe ab, aber machen hierbei auch Fehler – im Übrigen oftmals zwangsläufig, wenn es sich um Grenzfälle, subjektive Klassifizierungen oder nicht sehr präzise definierte oder definierbare Kategorien handelt.

Elke Katharina Wittich: Sehr reizvoll scheint es mir auch zu sein, das Aufeinandertreffen von Bild und Text wie in den Emblembüchern genauer zu untersuchen und mit Wissenschaftstheorien und -‍praktiken wie dem Memorieren in Verbindung zu bringen. Kunstwerke stehen in Traditionen, Künstler*innen nehmen darauf Bezug und schaffen komplexe semantische Systeme. Anna Ridler zum Beispiel interpretiert die Tradition der Blumenstillleben und der botanischen Illustrationen des 17. Jahrhunderts und überträgt zugleich die Börsenspekulation in zeitgenössische Ausdrucksformen. Wir Kunstwissenschaftler*innen sind es jedoch weniger gewohnt, dieses Wissen als System zu abstrahieren, wie es mit Methoden und Technologien der Knowledge Representation in der Informatik möglich ist. Vgl. Harmelen et al. (Hg.) 2008.

Die Ikonographie als kunstwissenschaftliche Methodik muss ein wunderbares Experimentierfeld für die Computer Vision sein, allerdings eines mit Fallstricken, wie das Beispiel aus der Emblematik zeigt. Für manche Kunstgattungen und manche Zeiten wird man jedoch sehr viel finden, wenn KI nach Umrissen z. B. verschiedener Vögel fahndet, allein auf dem Paradiesgärtchen im Frankfurter Städel lassen sich mehr als zehn verschiedene Vogelarten finden. Aber man muss halt wissen, dass nicht alle Kunstwerke auf diese Weise sinnvoll bearbeitet werden können, und es auch weitere Methoden mit anderen Anforderungen gibt.

Ralph Ewerth: Ein Computer-Vision-System nutzt typischerweise nur die Bildinformation als Eingabe. Daraus lassen sich natürlich keine Interpretationen bezüglich einer möglichen Symbolik und Bedeutung in einem bestimmten zeitlichen, geografischen, künstlerischen Kontext ableiten. Hierzu benötigt man gewissermaßen multimodale KI-Systeme, die gleichzeitig Informationen aus anderen Ausdrucksformen (Modalitäten) wie zum Beispiel Text oder einer Wissensrepräsentation in einem Wissensgraphen verarbeiten und daraus Schlussfolgerungen ziehen können.

Elke Katharina Wittich: Man muss auch bedenken, dass nicht alle Kunst ikonographisch angelegt ist, dies bricht in der Moderne auf. Und schwierig wird es mit Bildmustern, denen komplexe ästhetische Verweissysteme hinterlegt sind. Bei antiken Skulpturen ist dies der Fall bzw. ihrer Haltung, Kopfwendung, der Hände und Füße, die man bei Raffael wiederfindet und dann in den folgenden Generationen bei Nachahmern in Italien und den Niederlanden, häufig gedreht, anders gekleidet, neu frisiert, häufig in anderen Gattungen ausgeführt und von der zweidimensionalen Ansicht in eine dreidimensionale Figur übertragen – auch sprachlich ist dieses Phänomen mit Antikenrezeption nur unzureichend klassifiziert.

Das wäre aber aus meiner Perspektive ein erstrebenswertes Ziel, mit Hilfe von KI zum Beispiel den Census zu potenzieren und eben nicht nur Antique Works of Art and Architecture Known in the Renaissance zu erschließen, sondern darüber hinaus mit Posen- und Gestenerkennung die Körperpartien antiker Skulpturen in der Kunst der Frühen Neuzeit aufzuspüren. Vielleicht würde es helfen, wenn wir Kunstwissenschaftler*innen viel mehr davon berichteten, was wir suchen und mit welchen Strategien Künstler*innen zu verschiedenen Zeiten gearbeitet haben. Auf jeden Fall sollten wir uns austauschen.

Ralph Ewerth: Ja, dem kann ich mich nur anschließen. Und vielleicht würde es helfen, wenn wir Informatiker noch besser erklärten, was KI-Methoden können und was nicht. Aber ich bin sehr optimistisch, dass wir da auf beiden Seiten und in den Digital Humanities noch große Fortschritte machen werden.