Abstract
Der Artikel behandelt linguistische Transformationsprozesse altgriechischer Quellen, die zwischen dem 9. und 11. Jh. n. Chr. ins Arabische übersetzt wurden. Die Datenbank Glossarium Graeco-Arabicum nimmt sich dieses Themas an und nutzt Visualisierungen, um ein Verständnis für das stets wachsende Korpus von ca. 100.000 Worteinträgen zu erlangen. Mehrere Beispiele demonstrieren mögliche Visualisierungsverfahren für Korpusstrukturen, lexikalische Differenzierungen, grammatische Transformation und Übersetzungsprozesse einzelner Lexeme.
The paper deals with linguistic transformation processes from ancient Greek sources which were translated into classical Arabic from the 9th to 11th century AD. The database Glossarium Graeco-Arabicum concentrates on this topic and utilizes visualizations to develop an understanding of the still growing corpus of about 100,000 word records. Various examples demonstrate possible visualization methods for corpus structures, lexical differentiation, grammatical transformation and translation processes for single lexemes.
- 1. Einleitung
- 1.1 Übersetzungen als Gegenstand der Digital Humanities
- 1.2 Das Glossarium Graeco-Arabicum
- 1.3 Visualisierung als Interpretationshilfe großer Datenmengen
- 2. Methodik
- 2.1 »Mapping« the Words?
- 2.2 Thematische Zielsetzungen
- 2.3 Mögliche Visualisierungsverfahren
- 3. Umsetzung
- 3.1 Korpus-Überblick
- 3.2 Differenziertheit der Sprache
- 3.3 Transformation von Wortarten
- 3.4 Übersetzungsvarianten
- 4. Zusammenfassung und Ausblick
- Bibliographische Angaben
- Abbildungslegenden und -nachweise
1. Einleitung
1.1 Übersetzungen als Gegenstand der Digital Humanities
Die computergestützte Analyse von Sprachen und ihren Strukturen gehört zu den frühesten Anwendungsbereichen der Digital Humanities. Ob die abstrakten Strukturen von Informationstechnik und Linguistik besonders leicht übereinzubringen waren, ob große Datenmengen die Verwendung von Computern nahelegten oder welche anderen Faktoren hier noch im Spiel gewesen sein mögen, darf hier eine offene Frage bleiben. Als ein Vorzug der Computerlinguistik stellte sich jedenfalls bald heraus, dass das Ziel der digitalen Erfassung von sprachbezogenen Daten sich nicht darauf beschränken muss, ein elektronisches Pendant eines gedruckten Nachschlagewerkes zu erstellen. Hingegen liegt ihr großes Potenzial darin, komplexe quantitative oder strukturelle Analysen durchführen und dadurch Hinweise auf die Geschichte, den Aufbau und die Funktionsweisen von Sprachen gewinnen zu können.[1]
Während digitale Ressourcen, die sich mit genau einer Sprache beschäftigen, zahlreich und vielfältig aufgestellt sind, fristen bilinguale Ressourcen derzeit noch ein Nischendasein. Dabei besitzen gerade diese für Untersuchungen von Kulturtransfers eine große Bedeutung. Die Grundannahme ist, dass in einem bestimmten Kontext das Interesse besteht, eine Mitteilung in einer anderen Sprache auszudrücken bzw. eine solche zu verstehen. Übersetzungen sind somit ein bedeutender Teil von interkulturellen Strömungen. Als historische Quellen kommen dabei u. a. schriftlich tradierte Übersetzungen infrage. Durch den Übersetzungsvorgang werden jedoch nicht nur Informationen transportiert, sondern zum Teil auch Ausdrucksweisen struktureller und lexikalischer Art in die andere Sprache übertragen. Übersetzungen geben somit Impulse für kulturelle Entwicklungen, die sich in Lexik und Grammatik niederschlagen können. Systematisch aufgebaute bilinguale Ressourcen sind daher für das Verständnis von Kulturtransfers von entscheidender Bedeutung.
Solche Transferprozesse verlaufen in der Regel lediglich in einer Richtung, sind also in ihrer Wirkung nicht reziprok. Eine Gegenseitigkeit läge erst vor, wenn auch ein gleichwertiger Transferprozess in die andere Richtung vorliegen würde. Dies jedoch ist im Fall von Übersetzungen meist nicht zutreffend (bzw. geschieht dies meist nicht auf derselben Ebene). Somit genügt es häufig, lediglich eine Übertragungsrichtung zu betrachten, um eine kulturelle Strömung zu untersuchen. Ein besonderer Fall sind Rezeptionen früherer Kulturen, wie z. B. die Antikenrezeption in der Renaissance. Diese gehen logischerweise ausschließlich einseitig vonstatten, da sie chronologisch weit nachgeordnet sind. Im Folgenden soll das Glossarium Graeco-Arabicum, das sich mit arabischen Übersetzungen altgriechischer Schriften beschäftigt, als Beispiel für einen solchen rezeptiven Transferprozess dienen.
1.2 Das Glossarium Graeco-Arabicum
Das Glossarium Graeco-Arabicum hat sich der lexikalischen Erschließung eines Korpus angenommen, das in mehrfacher Hinsicht von besonderem Interesse ist.[2] Während einer Blüteperiode arabischer Sprache und Kultur, die etwa vom 9. bis zum 11. Jh. n. Chr. währte, fand im Raum Bagdad eine intensive arabische Rezeption klassischer griechischer Schriften statt.[3] Die Schriften von Aristoteles, Plato, Euklid, Galen und vieler anderer wurden meist von Übersetzern mit christlich geprägtem Hintergrund in die arabische Sprache übertragen und für das Studium der Philosophie, Mathematik, Medizin, Astronomie und anderer Wissenschaften verwendet (Abbildung 1). Es handelt sich somit um einen historischen, interkulturellen und interreligiösen Transferprozess von altgriechischer Literatur in die hocharabische Kultur durch Mittelsmänner christlicher Prägung.
Das Korpus des Glossarium Graeco-Arabicum[4] basiert auf 76 Originaltexten und ihren Übersetzungen. Es umfasst bisher knapp über 100.000 Worteinträge, wobei ein Eintrag aus einem Inhaltswort des altgriechischen Originaltextes und der entsprechenden Wendung in der hocharabischen Übersetzung besteht. Daneben werden die grammatischen Eigenschaften der Wörter erfasst (Wortart und Wurzel). Ein vollständiger Eintrag enthält außerdem einen genauen Nachweis mit Stellenzitat (Abbildung 2). Das Glossarium ist außerdem mit anderen digitalen Ressourcen aus dem Bereich der Graeco-Arabica verlinkt, etwa mit der Perseus Digital Library, der G2A Web Application for Literary Computing und dem Digital Corpus for Graeco-Arabic Studies. Seit Anfang 2016 sind die Texte außerdem mit den Namen ihrer Autoren und (sofern bekannt) ihrer Übersetzer verknüpft; in den meisten Fällen erfolgte mithilfe von Normdaten (GND, VIAF) eine Anbindung an Bibliothekskataloge und die englischsprachige Wikipedia.
Das ursprüngliche Ziel des Projektes bestand lediglich in der Erstellung des Print-Lexikons GALex.[5] Begonnen in den 1980er Jahren, bestand die Datensammlung zunächst noch aus handbeschriebenen Karteikarten (vgl. Abbildung 3). Diese wurden später digitalisiert und werden seitdem händisch[6] in eine relationale Datenbank transkribiert,[7] die seitdem unter dem Titel Glossarium Graeco-Arabicum geführt wird.[8] Die Bewältigung der technischen Herausforderungen, welche die parallele Verwendung der griechischen und arabischen Schriftzeichen mit diversen Diakritika bzw. Vokalzeichen mit sich brachte, stellte einen wichtigen Schritt für die wissenschaftliche Arbeit sowie die nachhaltige Nutzbarkeit der Datenbank dar.[9] Dank entsprechender Förderung und infrastruktureller Unterstützung konnte die Datenbank zu einem komplexen Forschungsinstrument weitergestaltet werden.[10] Sie hat sich von einer relativ einfachen und zunächst nur intern genutzten Datenbankanwendung zu einem offenen digitalen Lexikon weiterentwickelt und existiert heute parallel zu dem Print-Lexikon GALex, das bislang die Einträge von Alif bis Bāʾ abdeckt. Die Datenbank umfasst zwar das vollständige lexikalische Spektrum, jedoch befindet sich hier die Erfassung und redaktionelle Bearbeitung der Daten noch im Prozess. Trotz ihres work-in-progress-Charakters wird sie bereits regelmäßig für die und von der Forschung genutzt und zählt derzeit ca. 30–40 wiederkehrende internationale Benutzer im Monat.[11] Der Fortbestand und vor allem die inhaltliche und technische Weiterentwicklung der Datenbank sind derzeit mittelfristig gesichert.[12]
1.3 Visualisierung als Interpretationshilfe großer Datenmengen
Die Digital Humanities gelten als Vorreiter einer Bewegung, die Alternativen zu herkömmlichen philologischen Erschließungsmethoden sucht, um mithilfe digitaler Techniken Hinweise auf bislang nicht erkannte oder beachtete Phänomene zu erlangen.[13] Darunter finden sich z. B. explorative Ansätze, die unter anderem als »Serendipity« bekannt sind[14] und von der Geisteswissenschaft nur wenig geschätzt werden, da sie nicht von konkretem Erkenntnisinteresse geleitet seien. Indessen müssen sich quantitative Auswertungen den Vorwurf gefallen lassen, dass sie das Ergebnis bereits in rein numerischen Aussagen sähen. Jedoch entziehen sich die ozeanartigen Mengen an digital verfügbaren Informationen häufig einer hermeneutischen Herangehensweise, so dass alternative Verfahren erprobt werden müssen, auch wenn die letztlichen Erkenntnisgewinne zunächst noch nicht absehbar sind.
Auch im Glossarium Graeco-Arabicum macht es die stetig ansteigende Datenmenge zunehmend schwieriger, sich einen Gesamtüberblick über das zugrundeliegende Korpus oder auch nur Auszüge davon zu verschaffen. Zwar decken die typischen Datenbankmechanismen mit Suchformularen und Ergebnislisten die basalen Bedürfnisse ab, jedoch genügt diese Funktionalität bei einer Gesamtdatenmenge von über 100.000 Datensätzen mittlerweile fast nur noch in Spezialfällen, da allgemeiner gehaltene Suchanfragen bereits eine unüberschaubare Menge an Ergebnissen produzieren können. Die herkömmliche Funktionalität wird somit perspektivisch nicht mehr ausreichen. In der Konsequenz werden die Datenbankinhalte für die Benutzer mehr und mehr intransparent, und es wird zunehmen unklar, wie einzelne Informationen überhaupt einzuordnen und zu bewerten sind.
Um der Forschung weiterhin eine solide Grundlage zu bieten, ist es somit notwendig, das Material in alternativen Formen zu präsentieren. In dieser Hinsicht bieten insbesondere Visualisierungen eine große Chance, da sie eine Vielzahl von semantischen Ebenen simultan abbilden und außerdem sowohl für die Wissenschaft als auch für die interessierte Öffentlichkeit einen attraktiven Zugang zu digitalen Ressourcen bieten können. Visualisierungen können Nutzern einen unmittelbaren Aufschluss über das Verhältnis von Datenstrukturen und Inhalten bieten und damit entscheidende Hinweise auf interpretative Möglichkeiten geben.[15] Auf dieser Grundlage ist es möglich, auch aus großen Datenmengen neue Impulse für die geisteswissenschaftliche Forschung zu generieren.
2. Methodik
2.1 »Mapping« the Words?
Die Illustration (Abbildung 4) zeigt ein astronomisches Labor in Istanbul aus dem 16. Jahrhundert. Die Gelehrten hantieren mit allerlei wissenschaftlichen Werkzeugen, wie Quadrant, Astrolabium, Sanduhren und Himmelsglobus, und übertragen ihre Ergebnisse auf Karten und in Notizbücher. Sie versuchen, mit ihren Geräten das Geschehen am Sternenhimmel zu messen und abzubilden, um die Bewegungen der Himmelskörper besser verstehen und deuten zu können. Diese Vielfalt von Beobachtungswerkzeugen und ein detailliertes Verzeichnen der Ergebnisse fungieren hier als zentrale Voraussetzungen für das Verstehen komplexer Prozesse. Wissensproduktion ist in diesem Fall somit ein Vorgang aus Messung, Kartierung und Interpretation. Die Kartierung spielt dabei eine besondere Rolle, da sie zwischen den Datenerhebungen bzw. Messungen und der Interpretation vermitteln kann.
Das Glossarium Graeco-Arabicum zielt vorrangig auf Übersetzungsstrukturen und beinhaltet im Wesentlichen eine große Menge von griechisch-arabischen Wortpaaren, die jeweils ihren Quellen und Übersetzern zugeordnet sind. Räumlich beschränken sich die Inhalte auf die Gegend von Bagdad, da hier die reichste und intensivste Produktion von Übersetzungen stattfand. Insofern zielt der Titel dieser Untersuchung nicht auf geographische oder astronomische Dimensionen ab, sondern auf linguistische Strukturen und deren Veränderungen durch Übersetzungsprozesse. Eine grafische Abbildung soll es dem Betrachter erlauben, diese Strukturen ähnlich wie auf einer Landkarte erkennen und lesen zu können.[16] Diese »Karten« bilden dann im besten Falle eine selbständige Referenz für die Forschung.
Wie aber sollten Visualisierungen beschaffen sein, damit sie Forschungsfragen tatsächlich sinnvoll unterstützen? Welche Methoden der mehrdimensionalen Darstellung bieten sich an? Ab welchem Punkt leistet eine Visualisierung mehr als die Ergebnisliste einer Datenbankabfrage? Haben Visualisierungen überhaupt das Potenzial, eine Referenz für die Forschung zu bilden, oder dienen sie lediglich einer simplifizierten Anschauung?
Edward Tufte formulierte in seinem Buch The Visual Display of Quantitative Information unter dem Stichpunkt »Principles of Graphical Excellence«[17] einige Leitlinien für die Konzipierung von Visualisierungen und wies darin auf folgende bedeutende Aspekte hin:
- Die Aussagekraft von Visualisierungen steigt, je mehr inhaltliche Dimensionen darin gleichzeitig abgebildet und in Beziehung gesetzt werden.
- Eine gute Visualisierung stellt Informationen komprimiert, aber ohne Verlust von Transparenz und Vielfalt dar.
Zentral ist somit das Design in seinem formalen und strukturellen Aufbau. Wichtig für die Nutzer der Visualisierung ist somit eine klare Dokumentation und Kommunikation dessen, was und auf welche Art und Weise es dargestellt wird. Nachgeordnet sind laut dieser Anschauung grafische Stilmittel, wenn sie lediglich zugunsten eines Effektes angewendet werden, sowie suggestives Design, sofern es vorgefertigte Aussagen in den Vordergrund stellt. Hingegen ist ausschlaggebend, das Interesse des Betrachters zu wecken, indem mögliche Korrelationen sichtbar gemacht werden, jedoch die Interpretation letztendlich ihm überlassen bleibt.
Nach einer Auswahl, welche Themen und welche damit verknüpften Erkenntnisinteressen durch eine Visualisierung dargestellt werden sollen, ist somit außerdem zu klären:
- welche Dimensionen dazu notwendig sind,
- welche Korrelationen erwartet werden,
- welche Visualisierungsstrategien dafür infrage kommen und
- wie die Darstellung für Betrachter optimiert werden kann.
2.2 Thematische Zielsetzungen
Die Entwicklung der Visualisierungen soll die folgenden Aspekte der Datenbank unterstützen:
- Wie kann das Quellenkorpus übersichtlich dargestellt werden? Wie sind die Texte historisch einzuordnen und welche Relevanz besitzen sie innerhalb des Korpus? Hier sind Umfang der Texte sowie zeitliche Einordnung von Quelle und Übersetzung in Relation zu setzen. Dies dient vor allem der Kommunikation mit den Nutzern, denen das Korpus noch nicht vertraut ist. (vgl. Abschnitt 3.1)
- Welche allgemeinen sprachlichen Unterschiede bestehen zwischen Ausgangs- und Zieltexten? Verwenden die Übersetzungen grundsätzlich ein breiteres Vokabular oder besteht eine Tendenz zur sprachlichen Synthetisierung? Hier sind die Texte hinsichtlich ihrer Differenzierung des Vokabulars von Ausgangs- und Zielsprache in Relation zu setzen. (vgl. Abschnitt 3.2)
- Wie wurden die Texte auf grammatischer Ebene transformiert? Wie gingen die jeweiligen Übersetzer mit den strukturellen Unterschieden zwischen Griechisch und Arabisch um? Welche Unterschiede lassen sich unter den Übersetzern ausmachen? Welche griechischen Wortarten sind mit welchen arabischen umgesetzt worden, und welche Unterschiede lassen sich dabei bei bestimmten Autoren oder Quellen erkennen? (vgl. Abschnitt 3.3)
- Wie kann auf einen Blick dargestellt werden, welche Ursprünge und Übersetzungsvarianten für ein bestimmtes Lemma vorliegen, inklusive der möglichen Rolle von Autoren und Übersetzern? Es ist zu zeigen, wie ein Wort, das in Texten verschiedener Autoren vorkommt, von den verschiedenen Übersetzern umgesetzt wurde. (vgl. Abschnitt 3.4)
2.3 Mögliche Visualisierungsverfahren
Welche Visualisierungsverfahren kommen infrage, um die hier aufgezählten Aspekte grafisch abzubilden? Es liegt auf der Hand, dass die typischen, mit zwei Parametern auskommenden Torten- oder Balkendiagramme nicht genügen, um Korrelationen sichtbar zu machen und gleichzeitig die Komplexität der Thematik beizubehalten. Angestrebt werden Darstellungen, die mindestens drei Parameter gleichzeitig abbilden.
Drei basale Ansätze der Visualisierung sollen im Folgenden zur Anwendung kommen:
- Koordinatensysteme stellen Informationen als Punkte dar und erlauben es, unter Zuhilfenahme von Farben, Größen und Formen, fünf Dimensionen gleichzeitig darzustellen (und sogar mehr, wenn als Parameter z. B. noch Muster und Linienstärken hinzugenommen werden).
- Mit Treemaps, die Informationen als Flächen abbilden, lassen sich gleichzeitig Mengen- und Hierarchieverhältnisse darstellen.[18] Zur Abbildung weiterer Dimensionen kommen hier Farben oder z. B. auch Muster infrage.
- Flussdiagramme, die Bewegungen darstellen, erlauben die Abbildung von mehrstufigen Prozessen. Darunter ermöglicht die Variante des Sankey-Diagramms[19] speziell die Abbildung von quantitativen Mengenbewegungen.
Aus den hier gezeigten Ansätzen geht hervor, dass die Wahl des Visualisierungsverfahrens bereits durch den Gegenstand und die Darstellungsintention determiniert wird.
3. Umsetzung
Auf der technischen Ebene kommt die API Google Chart Tools zum Einsatz, welche eine sehr zuverlässige, ausreichend flexible und zudem kostenlose Möglichkeit bietet, auf einer Website Visualisierungen zu erzeugen. Die API basiert auf JavaScript und generiert bereits mit wenigen Konfigurationsparametern passable Ergebnisse. Die Daten werden im JSON-Format an die API übergeben.
3.1 Korpus-Überblick
Erblickt man einen neu angeschafften Band im Bücherregal, erkennt man sofort, welchen Umfang dieser im Vergleich zu den anderen Bänden im Regal hat. Man greift einen Band heraus, blättert durch die Seiten und verschafft sich einen schnellen Einblick in die inhaltliche Struktur. Dies ist ein großer Vorzug des Buches. Bei den meisten Datenbanken ist dies nicht möglich: Die Kenntnis über Umfang und Struktur des Korpus bleibt häufig verborgen, selten besteht die Möglichkeit, sich einen Überblick zu verschaffen. Dabei ist dieser Prozess von großer Bedeutung. Für das sehr vielfältige Korpus des Glossarium Graeco-Arabicum wurde mit einer Treemap experimentiert, um dem Nutzer einen ersten Überblick zu verschaffen.
Die Treemap (Abbildung 5) gliedert die 76 Quellen des Korpus nach der Anzahl der jeweils darin erfassten Wörter. Jede Fläche entspricht dabei einer Quelle und ist proportional zur Anzahl der erfassten Wörter. Der Übersichtlichkeit halber wurden schwächer repräsentierte Quellen in drei Gruppen zusammengefasst (2.000–4.000 Wörter, 1.000–2.000 Wörter und weniger als 1.000 Wörter). Es ist sofort erkennbar, dass gut die Hälfte des Korpus von acht sehr umfangreich dokumentierten Quellen bestimmt wird. An dieser Stelle ist darauf hinzuweisen, dass die Anzahl der erfassten Wörter nicht zwingend der Länge des tatsächlichen Textes entspricht; einige Quellen sind lediglich durch eine repräsentative Auswahl von Wörtern vertreten.
Ferner gibt die Farbcodierung Aufschluss über den Übersetzer: Grün kennzeichnet eine Quelle, deren Übersetzer bekannt ist, Blau hingegen alle anderen. Der Überblick zeigt, dass die große Mehrheit der Übersetzer bekannt ist (bei 46 der insgesamt 76 Quellen), tendenziell vor allem bei den umfangreicheren Quellen.
Die alternative Gliederung nach Autoren (Abbildung 6) zeigt grundsätzlich ein ähnliches Bild, gibt jedoch Aufschluss über die unterschiedliche Relevanz der Autoren für das Korpus. Ähnlich wie bei der Sortierung nach Quellen, jedoch hier noch ausgeprägter, bestimmen wenige Autoren den größten Teil des Korpus. Es wird jedoch auch deutlich, dass z. B. Aristoteles und Galen mit einer Vielzahl von Texten vertreten sind, während Artemidorus, der Autor der umfangreichsten Quelle, nur mit einem Text vertreten ist. Dies verdeutlicht, dass eine sehr heterogene Überlieferungssituation vorliegt. Zudem wird sichtbar, dass die Übersetzer, vor jene von Artemidorus und Hippokrates, noch nicht identifiziert sind. Durch Anklicken des jeweiligen Autors werden dessen Texte, wiederum in quantitativem Verhältnis, angezeigt.
Für eine chronologische Perspektive, die gleichzeitig die Relevanz des jeweiligen Autors bzw. Übersetzers innerhalb des Korpus in den Blick nimmt, wurde ein »Balloon Chart« entworfen (Abbildung 7). Jeder Kreis auf einer Zeitleiste entspricht einem Autor; die Größe und die vertikale Position entsprechen der Anzahl der Quellen, die von diesem Autor bzw. Übersetzer stammen. Dadurch entsteht zum einen ein Häufungseffekt in den besonders produktiven Zeitabschnitten, zum anderen steigen durch den Ballon-Effekt die stärker gewichteten Autoren und Übersetzer nach oben auf und heben sich dadurch deutlich ab.
3.2 Differenziertheit der Sprache
Im Vergleich der Texte mit ihren Übersetzungen kann festgestellt werden, dass gelegentlich eine Tendenz zur Ausdifferenzierung des Vokabulars besteht, während in anderen Fällen eine verallgemeinernde Sprache gewählt wird. In welchem Maße liegt eine ganz allgemeine Tendenz vor, wenn vom Griechischen ins Arabische übersetzt wird, und in welchem Maße ist dies abhängig von Übersetzer und Ursprungstext? Diese Fragen können durch einen Mengenvergleich von distinkten griechischen und arabischen Lexemen in den jeweiligen Quellen beantwortet werden.
Jeder Punkt auf dieser Grafik (Abbildung 8) entspricht einem Text. Die Abszissenachse bildet die Anzahl der distinkten griechischen Lexeme ab, die Ordinatenachse entsprechend die arabischen. Aufgrund der numerischen Verteilung wird eine logarithmische Skala verwendet. Bei einer exakten Gleichverteilung von griechischen und arabischen distinkten Lexemen würde eine Quelle auf der Mitteldiagonale erscheinen; eine Tendenz zu mehr Differenzierung im griechischen Ursprungstext würde in einer Position weiter rechts unten resultieren bzw. – im umgekehrten Fall – in einer Position weiter links oben. Zudem kommt eine Farbcodierung zum Einsatz: Eine Abweichung von weniger als 5% wird rot markiert. Größere Abweichungen werden grün für das Arabische bzw. blau für das Griechische gekennzeichnet.
Zunächst wird anhand der Grafik deutlich, dass in der Mehrheit der Quellen die Zielsprache ausdifferenzierter als die Ausgangssprache ist. Jedoch zeichnet sich diese Tendenz vor allem in der unteren Hälfte der Grafik (< 500 Wörter) ab, nivelliert sich im mittleren Bereich (500–1.000 Wörter) und schlägt im oberen Bereich (> 1.000 Wörter) um. Die umfangreicheren Texte sind damit jedoch nicht zwangsläufig sprachlich weniger differenziert; vielmehr ist anzunehmen, dass die Ausdifferenzierung, die bei kleineren Texten zu beobachten ist, bei größeren Texten überproportional viele Überschneidungen erzeugt und dadurch einen statistisch rückwirkenden Effekt erzielt.
Die Auswertung nach Übersetzern (Abbildung 9) bestätigt diese Vermutung. In diesem Diagramm sind die Texte nach ihren Übersetzern zusammengefasst, so dass die Wortmengen der einzelnen Texte verschmelzen. Auch hier zeichnet sich eine deutliche Verschiebung zugunsten der Ursprungssprache im oberen Bereich ab.
Besondere Erwähnung verdienen außerdem die beiden Texte De virtutibus et vitiis sowie Divisiones quae vulgo dicuntur Aristoteleae, die durch hohe Wortvielfalt im Arabischen hervortreten; dies erklärt sich vorrangig dadurch, dass für diesen Text zwei Übersetzungen vorliegen, nämlich von Theodore Abū Qurra (ca. 750–ca. 823) und von Ibn al-Ṭayyib (980–1043).
Insgesamt zeigt sich durch die Beobachtungen, welchen Wert das statistische Kriterium der Differenziertheit des Vokabulars überhaupt besitzt. Es verhält sich relativ zum Gesamtumfang der untersuchten Wortmenge und kann nicht als absoluter Wert betrachtet werden. Deutlich vom Mittel abweichende Werte weisen dennoch auf beachtenswerte Phänomene hin.
3.3 Transformation von Wortarten
Das folgende Beispiel geht näher auf sprachliche Strukturen und deren Transformation durch Übersetzung ein. Die Grammatiken des Griechischen und des Arabischen sind voneinander so verschieden, dass bei einer Übersetzung eine Wortart in vielen Fällen zwingend verändert werden muss. So z. B. besitzt das Arabische keine Entsprechung des griechischen Gerundivums, weshalb dafür in der arabischen Übersetzung eine andere Wortart zu finden ist. Die Idiomatik der Sprache und die interpretative Funktion des Übersetzers üben ebenfalls einen starken Einfluss auf die Veränderung der Wortarten aus. Diese Kreativität im Übersetzungsprozess soll im Folgenden sichtbar werden, ohne dass eine Expertise in einer oder beiden Sprachen notwendig ist.
Die Grafik (Abbildung 10) zeigt für den Übersetzer Ḥunayn b. Isḥāq, welche griechischen Wortarten (Abszissenachse) er mit welcher Häufigkeit in eine arabische Wortart (Ordinatenachse) überträgt. Die Größe des Schnittpunktes repräsentiert die absolute Häufigkeit, während die Farbe die Häufigkeit in Relation zur jeweiligen Wortart widerspiegelt. Erkennbar ist nun z. B., dass Ḥunayn das griechische Gerundivum und Gerundium am häufigsten als Verben überträgt. Adjektive transformiert er meist zu Nomen, und Nomen unter anderem in die Nominalform maṣdar. Unter den mehr syntaktischen Typen (Pronomen, Präpositionen, Konjunktionen, Partikel) ist an der »Insel« in der oberen rechten Ecke ein gewisser Austausch untereinander erkennbar. Allgemein besteht zudem eine starke Tendenz, die unterschiedlichsten Worttypen als Nomen oder Verb zu übersetzen, wie an der Häufung auf der horizontalen Linie verb bzw. noun zu erkennen ist. Über die Auswahl des Schnittpunktes gelangt man zu einer Liste der einzelnen Wortpaare, die nun genauer unter die Lupe genommen werden können.
Das Schema für Isḥāq b. Ḥunayn (der Sohn von Ḥunayn b. Isḥāq, vgl. Abbildung 11) weist einige Unterschiede auf. Die Syntax-Insel oben rechts ist etwas schwächer ausgeprägt, während die Tendenz zur Nominalisierung und zur maṣdar-Bildung stärker ist; auch der Einsatz des Elativs ist verstärkt. Auch hier verrät ein Klick auf die Schnittpunkte, welche Wörter sich hinter der Statistik verbergen.
3.4 Übersetzungsvarianten
Das folgende Beispiel geht über die grammatisch-quantitative Ebene hinaus und konzentriert sich auf die Übersetzungsprozesse einzelner Wörter. Es gehört zu den zentralen Aufgaben eines zweisprachigen Wörterbuchs, die Vielfalt an Übersetzungsmöglichkeiten abzubilden. Die Ursache für die Vielfalt liegt zum einen in den unterschiedlichen Kontexten, in denen ein Wort verwendet wird, und zum anderen in der Auslegung des Übersetzers. Mit diesen Zusammenhängen beschäftigt sich das dritte Beispiel, das mit einem Sankey-Diagramm experimentiert.
Gelesen von links nach rechts, zeigt die Grafik (Abbildung 12) den Übersetzungsprozess für das Wort ἄνθρωπος (anthropos, »Mensch«). Es taucht in verschiedenen Texten von Aristoteles, Artemidorus, Galen und Hippokrates auf, darunter am häufigsten in den (wie in Abschnitt 3.1 gesehen) besonders umfangreichen Quellen Oneirocritica und Analytica posteriora. In den meisten Fällen wird das Wort mit آنس (ʾns, »Mensch«) übersetzt, häufig aber auch mit رجل (rǧl, »Mann«).[20] Es wird ersichtlich, dass die Übersetzer Biṭrīq und Ḥasan genau diese beiden Fälle abdecken, während Ḥunayn die Variante آهل (ʾhl, »Volk, Gruppe«) bevorzugt. Die Varianten من (mn, »jemand«) und قوم (qwm, »Menschenmenge«) sind hingegen besonders durch den unbekannten Übersetzter von Oneirocritica geprägt.
Nutzer können einen Knotenpunkt (senkrechte Balken) anklicken und damit die Verbindungen hervorgehoben sehen. Bei Betrachtung der Knotenpunkte auf der rechten Seite kann eine größere Auffächerung der Varianten آنس (ʾns, »Mensch«) und رجل (rǧl, »Mann«) bemerkt werden, während die anderen Varianten fast durchgehend von nur einem Übersetzer stammen. Dies deutet darauf hin, dass die letzteren Varianten besondere Fälle sind, die inhaltlich durch den Ursprungstext oder interpretativ durch den Übersetzer bedingt sind.
Zum Vergleich soll das Sankey-Diagramm für das Wort θεός (dios, »Gott«) betrachtet werden (Abbildung 13). Hier macht das Schema einen völlig anderen Eindruck: Dominiert wird die Grafik durch die Übersetzung von Oneirocritica, in der θεός meist als ملك (lʾk, »Engel«) übersetzt wird; eine monotheistisch geprägte Interpretation, da in der griechischen Vorlage »Gott« im Plural steht. Eher am Rande steht hingegen das heute geläufige الّٰله (ʾlh, »Allah«), das hier vor allem in den Übersetzungen der aristotelischen Texte auftritt.
Sankey-Diagramme haben ihre Grenzen allerdings darin, dass sie bei sehr vielen Varianten kaum noch Übersichtlichkeit herstellen können. Hier müssen ggf. noch mehr Aggregationsmöglichkeiten geschaffen werden, um ähnliche Varianten zusammenzufassen. Ein weiteres Desiderat ist die Einbeziehung chronologischer Daten; dazu ist die gewählte API jedoch noch nicht ausreichend konfigurierbar.
4. Zusammenfassung und Ausblick
Die vier präsentierten Beispiele zeigen mit sehr unterschiedlichen Methoden, wie Übersetzungsstrukturen vielschichtig visualisiert werden können. Von Korpusstrukturen über lexikalische Differenzierungen und grammatische Transformationen bis hin zu Übersetzungsprozessen einzelner Lexeme konnten Strukturen aufgezeigt werden, die ohne eine Visualisierung nicht mit einem Blick erfassbar bzw. nur mit sehr vielen Worten erklärbar gewesen wären. Diese Strukturen werfen neue Fragen an das Material hinsichtlich bisheriger Beschreibungen und Betrachtungsweisen auf und liefern somit einen Beitrag zum wissenschaftlichen Diskurs.
Zudem werden die Strukturen sowohl für Fachleute als auch für Laien erkennbar und erfüllen auf allen Ebenen – von der Übersicht des Gesamtkorpus bis hin zum einzelnen Wort – einerseits einen didaktischen, andererseits einen professionellen Zweck. Laien finden einen schnellen Einstieg über visuelle Hilfsmittel; Fachleute erkennen in den Strukturen untersuchenswerte Phänomene und werden mithilfe interaktiver Daten an die konkreten herangeführt; Redakteure schließlich können die Konsistenz des Korpus überprüfen.
Visualisierungen geben Anstöße und inspirieren durch ihre unmittelbare Wirkung. Sie suggerieren möglicherweise aber auch Zusammenhänge, die sich als Trugschlüsse offenbaren. Durch eine genaue Dokumentation und Erläuterung der Erfassungsmethodik kann dies jedoch weitgehend transparent gemacht werden und Missverständnissen vorbeugen. Visualisierungen erklären jedoch nichts von sich aus bzw. liefern keine Interpretation eines Sachverhalts. Diese kann letztlich nur eine tiefergehende wissenschaftliche Untersuchung leisten. Visualisierungen bedürfen einer transparenten Erläuterung dessen, was zu sehen ist; umso besser sie dies tun, desto mehr werden sie tatsächlich zu einer verdichteten, grafischen Narration und kommen dem Ideal näher, ein selbständiges wissenschaftliches Medium zu werden.
Fußnoten
-
[1]So praktiziert es z. B. bereits das REDE-Projekt für deutsche Dialekte.
-
[2]Das Thema war bereits Gegenstand eines Vortrags (vgl. Arzhanov / Roeder 2016).
-
[3]Vgl. D’Ancona 2013, passim.
-
[4]Glossarium Graeco-Arabicum, European Research Council; Ruhr-Universität Bochum; Berlin-Brandenburgische Akademie der Wissenschaften; die jeweils aktuelle Entwicklungsversion findet sich hier. Vgl. dazu auch Endress et al. 2013; Arzhanov / Roeder 2013.
-
[5]Vgl. Endress / Gutas 1992.
-
[6]OCR bzw. ICR sind nicht möglich, da es sich um handschriftliche Eintragungen von sehr vielen Bearbeitern handelt.
-
[7]Vgl. Arnzen et al. 2012.
-
[8]Das Glossarium Graeco-Arabicum wird seit 2008 von der Berlin-Brandenburgischen Akademie der Wissenschaften gehostet.
-
[9]Vgl. Roeder 2015, passim.
-
[10]Zuletzt 2010 bis 2015 im Rahmen des ERC-Projektes Greek into Arabic. Philosophical and Linguistic Bridges (Advanced Grant 249431); die Ergebnisse wurden u. a. auf dem internationalen Workshop Plotinus East and West. The Enneads in Arabic and Latin (Pisa, 3.–6. November 2014) von Yury Arzhanov, Gerhard Endreß und Torsten Roeder vorgestellt.
-
[11]Ausgewertet durch die Analysesoftware Piwik Nutzungsdaten von August 2014 bis Dezember 2015.
-
[12]Die Datenbank wird unter dem Namen »Hun@yn.Net« in das neue Projekt Transmission of Classical Scientific and Philosophical Literature from Greek into Syriac and Arabic integriert, das Mitte 2016 unter der Leitung von Dr. Grigory Kessel an der Österreichischen Akademie der Wissenschaften startet und für fünf Jahre als ERC Starting Grant gefördert werden wird, vgl. ÖAW, Vier neue ERC-Starting Grants.
-
[13]Vgl. dazu den ausführlichen Band von Oakes / Ji 2012.
-
[14]Vgl. Thudt et al. 2012, passim.
-
[15]Vgl. Tufte 2001, passim.
-
[16]Dies wurde z. B. für ein historisches Sprachkorpus des Englischen demonstriert; vgl. Alexander 2010, passim.
-
[17]Vgl. Tufte 2001, S. 51.
-
[18]Für einen historischen Überblick und eine Einführung in die verschiedenen Algorithmen vgl. Shneiderman / Plaisant 2009 sowie Leydesdorff / Welbers 2011.
-
[19]Benannt nach dem irischen Ingenieur Matthew Henry Phineas Riall Sankey (1853–1925), der eine graphische Darstellung von simultanen Mengenflüssen entwickelte, in denen Proportionen und Flussrichtung gleichzeitig sichtbar werden. Eine Zusammenstellung von Anwendungsbeispielen findet sich z. B. unter Sankey Diagrams. A Sankey diagram says more than 1000 pie charts.
-
[20]Die Transliteration erfolgt grundsätzlich nach den Regeln der DMG, vgl. Glossarium Graeco-Arabicum, Transliteration.
Bibliographische Angaben
- Marc Alexander: The Various Forms of Civilization Arranged in Chronological Strata. Manipulating the Historical Thesaurus of the OED. In: Cunning passages, contrived corridors. Unexpected Essays in the History of Lexicography. Hg. von Michael Adams. Monza 2010, S. 309–322. [Nachweis im GVK]
- Yury Arzhanov / Torsten Roeder: The Glossarium Graeco-Arabicum. Linguistic Research and Database Design in Polyalphabetic Environments. Vortrag im Digital Classicists Berlin Seminar, 19. November 2013. Podcast. [online]
- Rüdiger Arnzen / Yury Arzhanov / Gerhard Endress: Griechische Wissenschaft in arabischer Sprache. In: RUBIN Wissenschaftsmagazin (2012), H. 1, S. 14–21. PDF. [online] [Nachweis im GVK]
- Rüdiger Arnzen / Yury Arzhanov / Gerhard Endress: Griechische Wissenschaft in arabischer Sprache. Ein griechisch-arabisches Fachwörterbuch der internationalen Wissensgesellschaft im klassischen Islam. In: Studia graeco-arabica 3 (2013), S. 143–156. PDF. [online] [Nachweis im GVK]
- Cristina D’Ancona: Greek Sources in Arabic and Islamic Philosophy. In: The Stanford Encyclopedia of Philosophy. Hg. von Edward N. Zalta. 2. Oktober 2013. text/html. [online]
- Gerhard Endress / Dimitri Gutas: A Greek and Arabic Lexicon (GALex), Leiden 1992ff. [Nachweis im GVK]
- Loet Leydesdorff / Kasper Welbers: The semantic mapping of words and co-words in contexts. In: Journal of Informetrics 5 (2011), H. 3, S. 469–475. [Nachweis im GVK]
- Quantitative Methods in Corpus-Based Translation Studies. A practical guide to descriptive translation research. Hg. von Michael P. Oakes / Meng Ji. Amsterdam, Philadelphia 2012 (= Studies in Corpus Linguistics 51). [Nachweis im GVK]
- Torsten Roeder: Alpha into Alif. Schnittstellen zwischen Schriftkunde und Informatik am Beispiel von Unicode im Glossarium Graeco-Arabicum. In: Studia graeco-arabica 5 (2015), S. 345–363. PDF. [online] [Nachweis im GVK]
- Torsten Roeder / Yury Arzhanov: Experimental visualizations of translation structures between Ancient Greek and Classical Arabic, Vortrag im Digital Classicists Berlin Seminar am 19. Januar 2016. Podcast. [online]
- Ben Shneiderman / Catherine Plaisant: Treemaps for space-constrained visualization of hierarchies, 2009–2014. text/html. [online]
- Alice Thudt / Uta Hinrichs / Sheelagh Carpendale: The bohemian bookshelf: supporting serendipitous book discoveries through information visualization. In: Proceedings of the SIGCHI Conference on Human Factors in Computing Systems (CHI ’12). New York 2012, S. 1461–1470. PDF. [online]
- Edward R. Tufte: The Visual Display of Quantitative Information. Creshire 2001. [Nachweis im GVK]
Abbildungslegenden und -nachweise
- Abb. 1: Aristoteles als Lehrer, aus dem Kitāb naʿt al-hayawān (13. Jh.), British Library, MS Or. 2784, fol. 96r. Wiedergegeben und zitiert nach: Seyyed Hossein Nasr, Islamic Science. An Illustrated Study, World of Islam Festival Publishing, 1976, S. 50, Plate 22 (etwaige Urheberrechte sind zu beachten).
- Abb. 2: Glossarium Graeco-Arabicum, Glossary: λόγος | قول. Screenshot erzeugt am 17.01.2016. text/html Format. [online]
- Abb. 3: Karteikarten des Glossarium Graeco-Arabicum. Foto: privat.
- Abb. 4: Astronomen bei der Arbeit, aus dem Shāhanshāhī-nāmah (16. Jh.), University Library Istanbul, MS No. FY 1404. Wiedergegeben und zitiert nach: Seyyed Hossein Nasr, Islamic Science. An Illustrated Study, World of Islam Festival Publishing, 1976, S. 113, Plate 65 (etwaige Urheberrechte sind zu beachten).
- Abb. 5: Glossarium Graeco-Arabicum, Corpus Treemap by Source. Screenshot erzeugt am 16.01.2016. text/html Format. [online]
- Abb. 6: Glossarium Graeco-Arabicum, Corpus Treemap by Author. Screenshot erzeugt am 16.01.2016. text/html Format. [online]
- Abb. 7: Glossarium Graeco-Arabicum, Author and Translator Timemap. Screenshot erzeugt am 16.01.2016. text/html Format. [online]
- Abb. 8: Glossarium Graeco-Arabicum, Distinct Lexemes by Source. Screenshot erzeugt am 16.01.2016. text/html Format. [online]
- Abb. 9: Glossarium Graeco-Arabicum, Distinct Lexemes by Translator. Screenshot erzeugt am 16.01.2016. text/html Format. [online]
- Abb. 10: Glossarium Graeco-Arabicum, Compared Parts of Speech for Ḥunayn b. Isḥāq. Screenshot erzeugt am 18.01.2016. text/html Format. [online]
- Abb. 11: Glossarium Graeco-Arabicum, Compared Parts of Speech for Isḥāq b. Ḥunayn. Screenshot erzeugt am 18.01.2016. text/html Format. [online]