Bildähnlichkeit und Bildsuche: Geistes- und informationswissenschaftliche Zugänge zu historischem Material

Der vorliegende Sonderband der ZfdG geht zurück auf die Tagung ›Ähnlichkeit und Methode: Digitale Perspektiven für die Arbeit mit historischem Bildmaterial‹, die vom 11.–13.10.2023 an der Herzog August Bibliothek Wolfenbüttel stattfand. Organisiert wurde sie im Rahmen des Projekts ›Automatische Bilderkennung frühneuzeitlicher Porträtgrafik als App‹ (PortApp), gefördert vom Niedersächsischen Ministerium für Wissenschaft und Kultur (MWK). Die Tagung widmete sich aktuellen Entwicklungen der KI-gestützten Bilderkennung und ihren Auswirkungen auf die Arbeit mit historischem Bildmaterial in den Geisteswissenschaften sowie an den bestandshaltenden Institutionen.

Ausgangspunkt der Tagung war der Begriff der Ähnlichkeit. Die Suche nach Ähnlichkeiten kann als fundamentale Methode der Digital Humanities im Bereich der Bildanalyse gelten. Damit verweist die automatische Bildverarbeitung auf den Ähnlichkeitsbegriff, dessen produktive Neufassung ein generelles Desiderat der Bildwissenschaften ist. Seine Rückbindung an den Wahrnehmungsprozess und der hierüber einfließende Relativismus sorgen neben den in künstlerischen Werkprozessen bewusst erzeugten Ähnlichkeiten für eine Vervielfachung der Beschreibungsmöglichkeiten für Ähnlichkeit. Die Entwicklung KI-gestützter Bilderkennung und die kontinuierliche Erweiterung digitaler Bildsammlungen im kunsthistorischen Bereich regt die Entwicklung von Ansätzen für deren Adressierbarkeit anhand von Kriterien visueller Ähnlichkeit an. Neben Bildähnlichkeitssuchen für betont heterogene Datenbanken entstehen auf spezielle Sammlungen zugeschnittene Tools, die näher eingegrenzte Forschungsinteressen bedienen.

Die Kategorie der Ähnlichkeit erhält durch die aktuelle technische Entwicklung völlig neue Relevanz, insofern die maschinelle Analyse eine Vielzahl an Ähnlichkeiten zutage fördert, deren Einordnung nur durch umfassende Berücksichtigung der möglichen Beziehungen zwischen Bildern möglich ist. Von der KI erkannte Ähnlichkeiten können eine Vielzahl an Ursachen haben, darunter Material und Technik, Darstellungskonventionen, Imitation und Reproduktion sowie die Identität des dargestellten Gegenstandes. In die Entwicklung automatischer Bilderkennungssysteme fließt daher eine Fülle von Vorannahmen ein, und die Suchergebnisse weisen einen kaum zu vermeidenden Bias in Hinblick auf die ausgewählten Bildelemente und Trainingsmethoden auf. Herausforderung ist es daher, automatische Bilderkennung und Interpretation in eine produktive Wechselbeziehung zu bringen. Um der Problematik des Ähnlichkeitsbegriffs in bildwissenschaftlicher Perspektive Rechnung zu tragen, wurde der thematische Fokus für die Publikation des Sonderbandes angepasst: Es wird nicht mehr von einer objektiv zu erfassenden Ähnlichkeit ausgegangen, die die Grundlage der digitalen Methodik bilden kann, sondern stattdessen wird die Ähnlichkeit von ihrer digitalen Erfassbarkeit in der Bildsuche her gedacht.

Die Vorträge umfassten eine große Bandbreite an geisteswissenschaftlich relevantem Material, darunter antike Vasen, klassische Malerei, Buchillustrationen, Ornamentik und heutige Fotografie. Neben Kunsthistoriker*innen kamen auch Vertreter*innen der Informationswissenschaft sowie Kurator*nnen von Bilddatenbanken zu Wort. Die Vorträge zeigten, dass zwischen menschlicher Bildinterpretation und den Ergebnissen der automatischen Bilderkennung trotz aller Fortschritte unverändert ein großer Abstand besteht, so dass eine geisteswissenschaftliche Nutzung der Ergebnisse vielfach nur in der Vorselektion aus dem sonst unübersehbaren Bildmaterial besteht. Eine wichtige Voraussetzung für die Automatisierung spezieller Fragestellungen besteht im Vorhandensein umfassender Trainingsdaten, die gerade für historisches Material und das jeweils spezifische Erkenntnisinteresse nur sehr aufwändig zu gewinnen sind. Der durch das Trainingsmaterial erzeugte Bias erweist sich als ein zentrales Problem der automatisierten Bildforschung. Einerseits handelt es sich um Algorithmen, die an modernem Material und oft aus einem kommerziellen Interesse heraus entwickelt wurden (dazu besonders Leonardo Impett), andererseits bevorzugt auch die Materialauswahl der Kulturinstitutionen den Mainstream der europäischen Hochkultur (was u. a. im Vortrag von Beate Löffler deutlich wurde). Hieraus folgt die Notwendigkeit eines materialspezifischen Trainings, das forschungsrelevante Bildpartien priorisiert (dazu z. B. Corinna Reinhardt sowie die Beiträge zu PortApp). Als wichtiger Schritt hin zu einer geisteswissenschaftlichen Nutzbarkeit automatisierter Bildsuchen wurden immer wieder multimodale Modelle dargestellt (z. B. durch Julian Stalter und Peter Bell), die textuelle und bildliche Informationen gleichzeitig prozessieren. Insgesamt ist der Begriff der Ähnlichkeit in der geisteswissenschaftlichen Tradition zu vielschichtig und unscharf, um auf automatisierte Bilderkennungsverfahren übertragen zu werden. Auch ohne das ist aber die informationstechnische Bestimmung partieller Übereinstimmungen von großem Wert für die bildwissenschaftliche Arbeit.

Die Beiträge des Sonderbands

Die Verarbeitung von Bildern für die Geisteswissenschaften erfordert den interdisziplinären Dialog zwischen Bildwissenschaften und digitalen Wissenschaften. Die Metapher des Dialogs ergreifen Elke Katharina Wittich und Ralph Ewerth als Leitidee für ihren Beitrag. Sie führen dieses Gespräch im Sinne eines Sokratischen Dialogs, der von Grundbegriffen ausgeht. So zeigt sich oft schnell, wie heterogen Grundbegriffe wie Ähnlichkeit oder Klassifikation verstanden werden. Dabei wird auch die Suchmaschine iART diskutiert, die von der TIB Hannover entwickelt und gehostet wird. Das System iART erlaubt die Nutzung von sehr aktuellen multimodalen Modellen für die Suche in kunsthistorischen Beständen. So können Textsuchen unmittelbar auf Bilder angewandt werden, ohne dass eine textuelle Übereinstimmung mit vergebenen Metadaten erforderlich ist.

Die Suchmaschine iART bildet auch den Gegenstand des Beitrags von Julian Stalter, Matthias Springstein und Stefanie Schneider. Sie erweitern darin das Konzept der Ähnlichkeitssuche im Bild- und Textraum noch um eine Erklärungskomponente. Ausgehend von einigen Beispielen aus der Kunstgeschichte zeigen sie den Spannungsraum auf, den Ergebnisse in iART erzeugen können. Grundsätzlich erzeugen tiefe Lernsysteme, wie sie auch in Bildverarbeitungssystemen auf der Basis von Convolutional Neural Networks (CNNs) implementiert sind, Ergebnisse, die durch völlig undurchsichtige Verfahren zustande kommen. Ideen aus dem Bereich Explainable Artificial Intelligence (XAI) versuchen, Gründe für Entscheidungen zu liefern. Gerade in der Forschung verlangen die Nutzenden auch Erklärungen. Stalter et al. nehmen dazu mit der Architektur der neuronalen Netze und den genutzten Trainingsdaten zwei Aspekte in den Blick, die bei den meisten Systemen sehr intransparent sind, welche jedoch gute Ansätze für eine bessere Verständlichkeit und damit ein kritischeres Verständnis bieten.

Ines Röckl, Thomas Hudcovic und Gabriel Zachmann stellen eine sehr spannende interdisziplinäre Auseinandersetzung mit einem ornamentalen Element vor. Die Rocaille, die im 18. Jahrhundert in Augsburg entwickelt wurde, greift Muscheln und Baumrinde als Basis auf und kombiniert diese zu schwunghaften und komplexen Mustern. Die innere Vielfalt der an sich unverkennbaren Klasse von Rocaille-Formen erforderte das Trainieren und Entwickeln eines eigenen, dafür optimierten Vision-Language-Modells, welches Ähnlichkeitsvorschläge finden und generieren kann.

Matthias Zinnen, Sabine Lang, Andreas Maier und Vincent Christlein stellen eine weitere Kooperation zwischen digitalen Wissenschaften und Bildwissenschaften vor. Die Grundlage für dieses Projekt liefern die Digitalisierungen von Auktions- und Verkaufskatalogen aus dem Kunsthandel (German Sales), aus denen zahlreiche Abbildungen von Kunstwerken extrahiert werden konnten. Eine derartige Datengrundlage unterstützt die Provenienzforschung, die bisher teilweise auf textbasierte Datenquellen beschränkt blieb. Das Projekt greift auch auf aktuelle Bildsuchverfahren auf der Basis tiefer Embeddings zurück, um sehr ähnliche Objekte zu erkennen.

Ulf Otto greift ebenfalls einen speziellen Datenbestand aus dem kulturellen Erbe auf und befasst sich mit Theaterfotografie. Der Autor stellt die Frage nach der Ähnlichkeit von zwei Szenen auf der Bühne und stößt damit an die Fundamente der Disziplin. Der Autor betont, wie die Akzeptanz von Daten als Grundlage für die Disziplin eine neue Perspektive öffnet und andere Fragestellungen erst erlaubt. Der Beitrag geht auf Szenen und Körper als Objekte der Fotografie ein und diskutiert wie mehrere andere die notwendigen Anpassungen bei neuronalen Architekturen und Lernverfahren.

Auch der Ansatz von Beate Löffler nutzt neuronale Modellarchitekturen, um Inhalte durchsuchbar zu machen. In ihrem Beitrag steht die Zuordnung von Bildern zu geographischen und zeitlichen Angaben im Fokus. Dieser Zusammenhang fehlt oft bei ethnographischen Sammlungen und könnte bei einer automatischen Erkennung hergestellt werden. Eine spezifische Anpassung von Bildsystemen für die Architektur war dazu erforderlich. Das Projekt nutzt also Bildsucherverfahren für die Architekturgeschichte und exploriert die Grenzen dieser Methoden.

Anhand der Bildähnlichkeitssuche für die druckgrafischen Portraits der Herzog August Bibliothek (PortApp) beschreiben Thomas Mandl, Sebastian Diem, Hole Rößler und Hartmut Beyer die Forschungsrelevanz einer Bildähnlichkeitssuche für diese in der Frühen Neuzeit weitverbreitete und bislang wenig erforschte Gattung bildender Kunst. Sie ergibt sich sowohl aus der Masse des Materials als auch aus den spezifischen Überlieferungsbedingungen, die durch Wiederverwendung und Kontextwechsel einzelner Portraits gekennzeichnet sind. Im Vergleich mit anderen Bildsuchmaschinen zu historischem Material wird der technische Ansatz von PortApp herausgearbeitet; er beruht auf der Kombination mehrerer Deep-Learning-Modelle im Rahmen eines Ensemblemodells, das ein für Nutzende konfigurierbares Ranking erzeugt.

Mit der praktischen Anwendbarkeit der Bildähnlichkeitssuche für Portraits beschäftigt sich Nina Niedermeier in ihrem Beitrag ›Kunsthistorische Streiflichter in die Blackbox‹. Ein besonderer Schwerpunkt liegt auf der Identifikation von Bildregionen (regions of interest), durch die Nutzer*nnen ihre Suchanfrage durch individuelle Schwerpunktsetzungen modulieren können. Der Artikel wertet anhand dreier Fallstudien die Funktionalität der Ähnlichkeitssuche und ihren Nutzen hinsichtlich kunsthistorischer Fragestellungen aus.

Insgesamt geben die ausgewählten Beiträge einen sehr guten Einblick in das aktuelle Ringen der Bild-Disziplinen bei der reflektierten Integration von KI-Verfahren in ihr Methodenrepertoire.

Hildesheim und Wolfenbüttel, im April 2026 Thomas Mandl und Hartmut Beyer