Zurück

Bomber’s Baedeker – vom Text zum Bild zur Datenquelle

Downloads

4

Views

1077

Close Peer Review

Kategorie

Data Paper

Version 1.0

22.09.2021
Beitrag in Sonderband 5
Felix Bach Autoreninformationen
Stefan Schmunk Autoreninformationen
Cristian Secco Autoreninformationen
Thorsten Wübbena Autoreninformationen

DOI: 10.17175/sb005_004

Nachweis im OPAC der Herzog August Bibliothek: 1770855890

Erstveröffentlichung: 22.09.2021

Lizenz: Sofern nicht anders angegeben Creative Commons Lizenzvertrag

Medienlizenzen: Medienrechte liegen bei den Autor*innen

Letzte Überprüfung aller Verweise: 16.09.2021

GND-Verschlagwortung: Bomber’s Baedeker | Datentransformation ‹OCR› ‹XML› ‹Python› | Digitalisierung | Informatik | Optische Zeichenerkennung |

Empfohlene Zitierweise: Felix Bach, Stefan Schmunk, Cristian Secco, Thorsten Wübbena: Bomber’s Baedeker – vom Text zum Bild zur Datenquelle. In: Fabrikation von Erkenntnis – Experimente in den Digital Humanities. Hg. von Manuel Burghardt, Lisa Dieckmann, Timo Steyer, Peer Trilcke, Niels Walkowski, Joëlle Weis, Ulrike Wuttke. Wolfenbüttel 2021. (= Zeitschrift für digitale Geisteswissenschaften / Sonderbände, 5) text/html Format. DOI: 10.17175/sb005_004


Abstract

Das zweibändige Druckwerk The Bomber’s Baedeker. A Guide to the Economic Importance of German Towns and Cities wurde während des Zweiten Weltkrieges vom britischen Foreign Office und dem Ministry of Economic Warfare erstellt. Darin sind Städte des Deutschen Reichs mit mehr als tausend Einwohner*innen und Informationen zu deren kriegswichtigen Infrastrukturen, Industrie- und Produktionsanlagen aufgeführt. Weltweit existieren nur noch vier nachgewiesene Exemplare und keines davon war bislang für die wissenschaftliche Nutzung digital zugänglich. Der Bomber’s Baedeker wurde 2019 in der Bibliothek des Leibniz-Instituts für Europäische Geschichte (IEG) (wieder-)entdeckt, in Kooperation mit der Universitätsbibliothek Mainz digitalisiert und im Rahmen einer institutionsübergreifenden Kooperation vom Bereich Digitale historische Forschung | DH Lab des IEG und von der Hochschule Darmstadt, u. a. in Lehrveranstaltungen mit Studierenden, erschlossen und aufbereitet, so dass der Bomber’s Baedeker nun als offene, maschinenlesbare Datenquelle unter Einhaltung der FAIR-Prinzipien genutzt, analysiert und weiterbearbeitet werden kann.

The two-volume printed work The Bomber's Baedeker. A Guide to the Economic Importance of German Towns and Cities was produced by the British Foreign Office and the Ministry of Economic Warfare during the Second World War. It lists towns and cities of the German Reich with more than a thousand inhabitants and information on their war-related infrastructure, industrial and production facilities. Only four verified copies still exist worldwide and none of them has been digitally accessible for scholarly use until now. In 2019, The Bomber's Baedeker was (re-)discovered in the library of the Leibniz Institute of European History (IEG), digitised in cooperation with the University Library of Mainz and made accessible and processed in a cross-institutional cooperation between the Digital Historical Research Unit | DH Lab of the IEG and the Darmstadt University of Applied Sciences, including in courses with students, so that The Bomber's Baedeker can now be used, analysed and further processed as an open, machine-readable data source in compliance with the FAIR principles.


1. Einleitung

[1]»Handbuch für den Feuersturm« war der Titel der Frankfurt Allgemeinen Zeitung im Juni 2019[1] zum zweibändigen Werk The Bomber’s Baedeker. A Guide to the Economic Importance of German Towns and Cities.[2] Anlass für die Berichterstattung war die vollständige Digitalisierung der zweiten Auflage der seltenen britischen Quelle aus dem Jahr 1944 (809 Seiten, Quartformat, 6 ganzseitige Karten). Diese Ausgabe ist weltweit nur noch in vier Exemplaren nachweisbar, so dass es durchaus als Glückstreffer bezeichnet werden kann, dass dieses Exemplar in der Forschungsbibliothek des Leibniz-Instituts für Europäische Geschichte (IEG) entdeckt und in einem gemeinsamen Projekt für eine digitale Nutzung vorbereitet wurde. Der Titel Bomber’s Baedeker verwundert zugleich ein wenig, denn inhaltlich werden keine touristischen und sehenswerten Reiseziele identifiziert und beschrieben, wie sie die namensgebenden roten Reiseführer Karl Baedekers seit dem 19. Jahrhundert[3] liefern, sondern es werden ausschließlich militärische, infrastrukturelle und ökonomisch-kriegswichtige Ziele der Royal Air Force für den Bombenkrieg gegen das Deutsche Reich im Zweiten Weltkrieg identifiziert. Das zweibändige Druckwerk enthält Informationen zu Orten mit mehr als tausend Einwohner*innen, sofern dort aus Sicht des britischen Foreign Office und des Ministry of Economic Warfare kriegswichtige Industrie- und Produktionsanlagen vorhanden waren. Die Daten zur geografischen Lage, Einwohnerzahl, Entfernung zu London sowie umfassende Beschreibungen von mehr als 500 Städten in Deutschland wurden im Bestreben zusammengestellt, eine möglichst effektive und effiziente Auswahl von potenziellen Zielen zu ermöglichen.[4]

[2]Für das Lesen der Quelle ist die digitale Bereitstellung als gemeinfreies Digitalisat hinreichend, für eine Auswertung der enthaltenen Daten kann dies aus Sicht der Digitalen Geisteswissenschaften aber nur als erster Schritt betrachtet werden. Nach der Transformation zu einer digitalen Bilddatei ist die Weiterverarbeitung zu maschinenlesbaren Daten für zahlreiche Methoden der Digital Humanities ein wichtiger Schritt in der Aufbereitung. Im Fall des Bomber's Baedeker wurde dies durch eine Verbesserung der Zeichenerkennung und Überführung der Inhalte in ein standardisiertes Datenformat durchgeführt, so dass dadurch digitale Analysen ermöglicht werden. Seit 2019 findet daher im Rahmen einiger kleinerer Projekte eine intensive wissenschaftliche Auseinandersetzung und zugleich eine datenspezifische Aufbereitung statt, so dass die Qualität der maschinenlesbaren Daten stetig verbessert wurde.

2. Hintergrund

[3]Woher genau die Bezeichnung Bomber's Baedeker stammt und wie deren etymologische Entwicklung zu deuten ist, lässt sich nicht mit hundertprozentiger Sicherheit belegen. Vermutlich ist diese Namensgebung eine Reaktion auf die im Frühjahr 1942 durch die Deutsche Luftwaffe ausgeführten Angriffe auf Exeter, Bath, Norwich, York und Canterbury.[5] Als Begründung der Auswahl der Ziele wurden von deutscher Seite in einer Pressekonferenz des Auswärtigen Amtes im April 1942 die Auszeichnung dieser Städte im Baedeker-Reiseführer für England angegeben.[6] Verständlicherweise sorgte dies in der britischen Bevölkerung für einen ungeheuren öffentlichen Furor, da durch diese Aussage deutlich wurde, dass eben nicht ausschließlich militärische Ziele bzw. Industriestandorte, sondern vielmehr bewusst historisch bedeutsame Städte von deutscher Seite als Ziele ausgewählt wurden.[7]

[4]Diese Vorgänge und insbesondere die enorme öffentliche Empörung dürften dazu geführt haben, dass die Mitarbeiter*innen des Foreign Office und des Ministry of Economic Warfare, welche die Analyse der militärisch und wirtschaftlich bedeutsamen Ziele im Deutschen Reich bereits 1942 – eben zum Zeitpunkt der sogenannten ›Baedeker Raids‹ – durchführten, ihrerseits wiederum den Namen Bomber’s Baedeker für die eigenen Aufstellungen wählten. Die erste Auflage des Bomber’s Baedeker erschien dann auch ein Jahr später und deckt sich mit den alliierten Absprachen zu einem gemeinsamen ›Bomber Command‹ zwischen Großbritannien und den USA auf der Casablanca-Konferenz im Januar 1943, auf der u. a. festgelegt wurde: Vordringliches Ziel des Bomber Command ist die fortschreitende Zerstörung des deutschen militärischen, industriellen und wirtschaftlichen Systems, um die Moral des deutschen Volkes bis zu einem Grad zu untergraben, wo seine Fähigkeit zum bewaffneten Widerstand entscheidend geschwächt ist.[8]

[5]Zeitgleich wurde im britischen Unterhaus das Dehousing Paper verabschiedet, in dem als strategisches Ziel der britischen Bomberverbände die gezielte Zerstörung von Wohngebieten vorgesehen wurde – einer Doktrin mit Namen ›Moral Bombing‹, an der bis zum Ende des Zweiten Weltkrieges festgehalten wurde und die bereits im Frühjahr 1942 zum 1.000-Bomber-Angriff gegen Köln führte.[9] Es ist allerdings festzuhalten, dass die Auswahl der tatsächlichen Ziele dem Bomber Command und dem Air Ministry oblag und deshalb nicht eindeutig nachvollziehbar ist, welche Rolle der Bomber’s Baedeker insbesondere bei der Wahl der Angriffsziele tatsächlich besaß – vor allem, weil in diesem ausschließlich infrastrukturelle und wirtschaftliche Ziele angegeben waren. Die Datengrundlage für die Erhebung durch das Foreign Office und das Ministry of Economic Warfare bildeten – neben Informationen aus der Feindaufklärung, Adressbüchern, Luftaufnahmen, Berichten von Emigrant*innen etc. – vor allem die Unterlagen der britischen Rückversicherer. Bei diesen waren seit Mitte der 1930er-Jahre die Brandversicherungen der deutschen Versicherungsunternehmen abgesichert. Da es sich um eine Pflichtversicherung für alle Gebäude im Deutschen Reich handelte, stellte dies eine vollständige Datenbasis dar, um eine umfassende Quartiersanalyse aller deutschen Städte zu erstellen. Darüber hinaus konnten hierüber die Standorte aller Firmen identifiziert werden und über deren Namen und Eigentümer*innen war zugleich zu erfahren, was dort höchstwahrscheinlich produziert wurde. Auch konnte diesen Unterlagen Informationen über die Bausubstanz der Gebäude entnommen werden. Auf dieser Basis war es möglich, eine höchst detaillierte Topographie jeder einzelnen deutschen Stadt zu erstellen und zugleich die Unterschiede in der quartierbezogenen Bausubstanz zu erfassen.[10] De facto war genau dies der Schlüssel für die alliierten Luftangriffe gegen Deutschland, bei denen gezielt Städte bzw. Stadtteile mit leicht entzündbaren und brennbaren Baustoffen angegriffen wurden.[11] Folgt man dieser Argumentation, so wird daraus deutlich, dass Bomber’s Baedeker eher für strategische Planungen genutzt wurde und weniger eine taktische Bedeutung besaß.

[6]Während in der ersten Auflage des Bomber’s Baedeker von 1943 nur 392 Städte mit einer Größe über 15.000 Einwohner berücksichtigt wurden, beinhaltet die zweite Auflage von 1944 insgesamt 518 Städte und umfasst auch Kleinstädte ab einer Größe von 1.000 Einwohnern. Dieser Umstand ist u. a. darauf zurückzuführen, dass ab Mitte 1943 eine Verlagerung von kriegswichtigen Produktionsstätten aus den Städten erfolgte.[12] Für die Datenerhebung und ‑aufbereitung im Rahmen des zugrunde liegenden Projektes wurde die zweite Auflage von 1944 verwendet, die neben der Nennung der jeweiligen Stadt mit entsprechenden Breiten- und Längenangaben und der Flugdistanz (in Meilen) zu London einleitend auch eine kurze Beschreibung der Stadt mit geographischen Markern (in der Nähe liegende Flüsse, Berge, Seen, Wälder etc.) sowie eine Kategorisierung der Ziele gibt.[13] Folgende Kategorisierung wird im Bomber’s Baedeker für alle Städte angewandt:[14]

  • Transportwesen
  • Infrastruktur (Wasser, Elektrizität etc.)
  • Festbrennstoffe (Bergbau, Brennstofflager etc.)
  • Flüssigbrennstoffe (Raffinerien, Brennstofflager etc.)
  • Eisen- und Stahlindustrie
  • Sonstige metallverarbeitende Betriebe
  • Flugzeuge und Motoren
  • Werften
  • Sonstige Industrie- und Rüstungsbetriebe
  • Chemie- und Munitionsbetriebe
  • Textil-, Seide-, Zellstoff- und Papierbetriebe
  • Gummi- und Reifenhersteller
  • Lederindustrie
  • Nahrungsmittelindustrie

[7]Die aus Sicht der beiden Ministerien kriegswichtige Bedeutung dieser Kategorien wurde zudem auf einer Skala von 1 bis 3 bewertet, wobei anzumerken ist, dass nicht alle Kategorien bei allen Städten zu finden sind.

3. Datenerhebung – vom Bild zum XML

[8]Die hier am Bomber’s Baedeker durchgeführte Transformation des Inhalts eines gedruckten Buchs in maschinenlesbare Daten – auf Grundlage einer zuvor erstellten digitalen 1:1-Abbildung (Repräsentant) – ist ein wichtiger Baustein im Prozess der Datenaufbereitung und zumeist die Voraussetzung für die Anwendung zahlreicher Methoden und Verfahren der Digital Humanities.

[9]Wie oben beschrieben, besitzt die Bibliothek des IEG mit dem zweibändigen Werk eines der wenigen noch verfügbaren Exemplare. Mit dieser Situation geht auch eine entsprechende Verantwortung einher, zum einen in konservatorischer Hinsicht und zum anderen im Hinblick auf die Verfügbarmachung des Inhalts für die Forschung. Beiden Aspekten kann mithilfe der Digitalisierung begegnet werden. Deshalb wurde im Rahmen eines gemeinsamen Vorhabens zwischen IEG und der Universitätsbibliothek der Johannes Gutenberg-Universität Mainz im dortigen Servicezentrum Digitalisierung und Fotodokumentation der Bomber’s Baedeker im Jahr 2019 digitalisiert. Die angefertigten Digitalisate (in den Formaten ›.jpg‹ und ›.pdf‹) stehen seitdem in Gutenberg Capture, dem Online-Portal der Universitätsbibliothek zur digitalen Erschließung und Bereitstellung von Quellenmaterial für die Wissenschaft, zur Verfügung.[15]

[10]Im Zuge der Digitalisierung wurde durch die Universitätsbibliothek auch eine erste Erschließung des Textes mittels Optical Character Recognition (OCR) durchgeführt.

[11]An dieser Stelle setzte die Machbarkeitsstudie an, die im Wintersemester 2019 / 20 an der Hochschule Darmstadt durchgeführt wurde, und in deren Rahmen das Konzept für einen automatisierten Prozess der XML-isierung und einer OCR-Verbesserung des Bomber’s Baedeker entstand. Dieses Konzept war ein erster, methodologisch wichtiger Baustein, der dann im Rahmen einer Zusammenarbeit zwischen der Hochschule Darmstadt, der Bibliothek des IEG und dem Bereich Digitale historische Forschung | DH Lab (ebenfalls IEG) umgesetzt wurde. Die ersten experimentellen Ansätze der Transformation der Quelle zu Daten wurden hier realisiert und auf Grundlage dieser datafication – also der Umwandlung von Informationen in maschinenlesbare, quantifizierbare Daten zum Zweck der Aggregation und Analyse – und der entsprechenden Verfügbarmachung ist nun eine weitergehende Bearbeitung und Analyse dieser Daten möglich.

3.1. OCR

[12]Die Inhalte des Bomber’s Baedeker werden bereits im Druck stark strukturiert dargestellt und sind daher grundsätzlich sehr gut geeignet, um die darin enthaltenen Informationen in eine maschinenlesbare, objektorientierte und strukturierte Form zu bringen. Eine nähere Betrachtung ergibt, dass jeweils zwei Hauptabschnitte pro Stadt aufgeführt werden, die sich in folgende Muster aufgliedern:

Abb. 1: ›Kopfteil‹ (Düren), Ausschnitt [The
                           Bomber's Baedeker. Guide to the economic importance of German towns and
                           cities, London 1944, S. 176. [Public Domain Mark 1.0]
Abb. 1: ›Kopfteil‹ (Düren), Ausschnitt [The Bomber's Baedeker. Guide to the economic importance of German towns and cities, London 1944, S. 176. [Public Domain Mark 1.0]

[13]I. Kopfteil

  • Name der Stadt (Großbuchstaben, Sperrsatz), dahinter in Klammern: die Verwaltungseinheit und gegebenenfalls die Region.
  • In der nächsten Zeile: Geokoordinaten der Stadt im Format ›00° 00’ N. 00° 00’ E:‹. Hier sind Variationen zu beobachten. So tauchen auch einstellige Angaben auf und es existieren nicht immer Nachkommastellen in den Geokoordinaten, also z. B. ›00° N. 00° E:‹.
  • Im Anschluss an die Koordinaten folgt die Entfernung zu London in Meilen, im Format ›000 miles:‹.
  • Die letzte Information in der zweiten Zeile des Kopfteils gibt die Einwohnerzahl in Klammern wieder.
Abb. 2: ›Beschreibungsteil‹ (Düren), Ausschnitt
                           [The Bomber's Baedeker. Guide to the economic importance of German towns
                           and cities, London 1944, S. 176. [Public Domain Mark 1.0]
Abb. 2: ›Beschreibungsteil‹ (Düren), Ausschnitt [The Bomber's Baedeker. Guide to the economic importance of German towns and cities, London 1944, S. 176. [Public Domain Mark 1.0]

[14]II. Beschreibungsteil

  • Eine knappe Beschreibung der wichtigsten Charakteristika der jeweiligen Stadt (z. B. grobe geographische Verortung, Verkehrsinfrastruktur, industrielle Bedeutung).
  • Strukturierung nach Kategorien (z. B. ›Transportation‹, ›Liquid Fuels and Substitutes‹ usw.)
  • Es folgt eine detaillierte Auflistung der wichtigsten Ziele innerhalb der Kategorie, pro potenzielles Ziel unterteilt in drei Punkte:
    • Name und Beschreibung des Ziels.
    • Standort.
    • Priorität (in absteigender Reihenfolge ›1‹ bis ›3‹ sowie ›–‹ für nicht erwähnenswerte bzw. nicht einschätzbare Ziele).

[15]Ein Blick in eines der bei Gutenberg Capture zur Verfügung stehenden Digitalisate im PDF-Format zeigt, dass hier bereits ein OCR-Verfahren eingesetzt wurde. Jede Seite verfügt über einen Text-Layer, der es ermöglicht, im Dokument zu suchen. Die Ergebnisse des verwendeten OCR-Verfahrens sind aber insgesamt nur für eine einfache Suche verwendbar, wenig verlässlich und letztlich nicht für eine direkte Umwandlung im Sinne des Vorhabens geeignet. Nach entsprechender Analyse[16] kann von einer OCR-Genauigkeit von ungefähr 80 % ausgegangen werden, wobei die für die effiziente Umsetzung des Projektes benötigte Erkennungsqualität aber mindestens bei mehr als 95 % liegen sollte.[17] Die vorliegenden OCR-Daten waren daher nicht für eine Prozessierung nutzbar und die OCR musste erneut durchgeführt werden. Angesichts dieses neuen Zwischenschritts ergab sich auch die Situation einer erneuten, genauen Betrachtung des digitalen Ausgangsmaterials. Zwei Probleme zeigten sich direkt, zum einen der Vergilbungsgrad der Seiten und die daraus resultierende zu geringe Helligkeit des Digitalisats, so dass relevante Details nicht von der OCR erkannt werden konnten (false negative) beziehungsweise irrelevante Artefakte auf dem Papier erkannt wurden (false positive). Zum anderen zeigten sich einige Schwächen im Kontrast des Schriftbilds, was angesichts des Alters der Schreibmaschinenseiten des physischen Originals und dessen Nutzungsszenarien nicht weiter verwundert.[18]

[16]Nach der Entscheidung für eine erneute OCR-Behandlung fiel die Wahl zunächst auf die freie Software Tesseract.[19] Allerdings erwies sich diese im operativen Einsatz zum Zeitpunkt Ende 2019 als nicht sehr geeignet bei der Behandlung größerer Textmengen, da eine Aufteilung des Konvoluts notwendig geworden wäre. Im Falle des Bomber’s Baedeker, mit mehr als 800 Seiten, wäre hier ein erheblicher Zeitaufwand entstanden.

[17]Als Alternative kam stattdessen das Werkzeug FineReader der Firma ABBYY zum Zuge,[20] mit dem sich zum Zeitpunkt der OCR-Verbesserung unkompliziert auch PDF-Dateien größeren Umfangs verarbeiten ließen. Darüber hinaus bietet diese Software die Option, mehrere Sprachen gleichzeitig verarbeiten zu lassen, was in der vorliegenden Situation von großem Nutzen war, da der Löwenanteil des Textes zwar auf Englisch[21] verfasst ist, aber aufgrund der behandelten Gegenstände natürlich auch zahlreiche deutsche Begriffe, wie z. B. Städtenamen etc., zu finden sind.

[18]Die vollumfängliche Verarbeitung dauerte drei Stunden und das Ergebnis wurde in einer TXT-Datei gespeichert. Durch dieses Vorgehen konnte die Genauigkeit – ohne Veränderung oder Bearbeitung des Digitalisats – gesteigert werden. Letztlich war aber auch die damit erzielte Gesamtgenauigkeit nicht ausreichend, so dass eine Bildbearbeitung der digitalen Vorlage notwendig wurde, um die anvisierten Ziele in eine realistische Nähe rücken zu lassen. Um eine optimale Erkennung der gedruckten Zeichen zu erreichen, war es nötig, den Kontrast zu erhöhen. Hierzu wurde die in MacOS integrierte Applikation Fotos genutzt, mit der dann auf sehr einfache Art Bildkorrekturen erstellt, kopiert und in der Gesamtheit auf alle Seiten angewendet wurden. Nach dieser Optimierung konnten die Ergebnisse des OCR-Verfahrens erneut und sehr deutlich gesteigert werden, so dass nun eine Genauigkeit von ca. 95 % vorlag.[22] Da auf diesem Weg keine weiteren großen Verbesserungen der OCR-Qualität zu erwarten waren, wurde fortan zur weiteren Steigerung der Datenqualität auf ein Python-Skript gesetzt, so dass zum Zeitpunkt der Veröffentlichung des Data-Papers im September 2021 eine Zeichengenauigkeit von mehr als 99 % erreicht werden konnte.

3.2. Python-Skript

[19]Die Struktur des für das weitere Vorgehen geschriebenen Python-Skripts kann in drei Schritte unterteilt werden. Schritt Eins stellt das Preprocessing dar. Hier werden wiederholt auftretende Fehler aus dem OCR-Verfahren verbessert, die in der nachfolgenden Ausführung weiterer Schritte im Skript zu Fehlern oder fehlerhafter Erfassung der Objekte führen könnten. Zusätzlich werden strukturelle Abweichungen an die im Bomber’s Baedeker vorwiegend genutzten Normen angepasst und es werden Funktionen ausgeführt, die folgende Muster in den oben beschriebenen Kopf- und Beschreibungsteilen erkennen: Städtenamen, Land / Region, Koordinaten, Entfernung zu London, Bevölkerungszahl, Informationstext und strategische Ziele der beschriebenen Stadt. Darüber hinaus wird auf Seitenebene die referenzierende URL in Gutenberg Capture erzeugt.

[20]Die oben genannten Funktionen liefern eine Liste von erkannten Inhalten und hier setzt der zweite Schritt an. Die Anzahl der Inhalte ist aufgrund der vorgegebenen Struktur immer dieselbe und jeder Listeneintrag korrespondiert mit dem entsprechenden Eintrag in der Vorlage. Der vierte Eintrag in der generierten Liste der Bevölkerungszahlen zum Beispiel ist aus dem vierten Eintrag in der Liste der erkannten Städte entstanden. Für die weitere Verarbeitung werden diese Listen nun in ein sogenanntes Dictionary umgewandelt und hier wird jedem Wert ein Schlüssel zugeordnet, wodurch die Daten nun so gespeichert werden können, dass klar ist, welche Informationen sie enthalten. Auf diese Weise haben wir ein Dictionary mit Listen erstellt, die schon alle benötigten Informationen enthalten.

[21]Im dritten und letzten Schritt wird dieses Dictionary dann in eine XML-Datei eingefügt.[23] Damit hier nicht in eine komplett leere Datei geschrieben wird, wurde die Grundstruktur vorher schon erstellt. Beim Prozess des Exports werden alle Inhalte aus dem Data-Dictionary eingelesen, sowie die Seitenzahlen aus dem Originaldokument. Nun kann eine XML-Baumstruktur erzeugt werden, an die zuerst die Städtenamen angefügt werden. Anschließend wird jeder Stadt-Eintrag mit den dazugehörigen Informationen gefüllt. Als letzter Schritt wird die XML-Datei exportiert und die entstandenen HTML-Entitäten werden aufgelöst.[24]

3.3. Bereitstellung

[22]Neben dem Python-Skript für die OCR-Optimierung finden sich in dem Projekt-Repositorium auch die aus seiner Anwendung entstandenen Daten: für jeden Band des Bomber’s Baedeker liegt eine XML-Datei vor, in welcher der entsprechend formal strukturierte und angereicherte Text enthalten ist.[25] Zukünftige Versionen mit verbesserter Datenqualität werden dort ebenfalls publiziert.

[23]Bei der Bereitstellung des Datensatzes und des Skripts wurden die FAIR Data Principles umfänglich berücksichtigt.[26] Für die Erfüllung dieser Prinzipien sorgen die Zugriffsmöglichkeiten per GitHub-Repository und die Veröffentlichung der erzeugten Daten in Zenodo, womit ein persistenter Identifikator (DOI) einhergeht.[27] Für die rechtliche Sicherheit bei der Wiederverwendung von Daten und Skript sorgen die gewählten Lizenzen (Creative Commons Lizenz, CC BY-SA 4.0[28] für die Daten sowie die GNU General Public License[29] für das Python-Skript).

4. Forschungs- und Nachnutzungspotenzial

[24]Wie oben bereits geschildert, handelte es sich bei dieser Bereitstellung der nachnutzbaren Daten des Bomber’s Baedeker um ein Vorhaben, welches mit einem überschaubaren Ressourceneinsatz durchgeführt wurde. Der Fokus lag dabei primär auf der persistenten Verfügbarmachung des Datenbestands für die scientific community. Eine basale, aber dennoch nicht zu vernachlässigende Verbesserung, die sich für die Forscher*innen direkt aus dem digitalen Angebot ergibt, spiegelt sich im vereinfachten Umgang mit dem Text wider. In den bereitgestellten Daten lassen sich Such- und Analyseszenarien durchspielen, deren Umsetzung ausschließlich auf dieser digitalen Grundlage möglich sind.

[25]Die bislang durchgeführten Arbeiten haben die Grundlagen geschaffen, um in einem nächsten Schritt ein digitales Editionsvorhaben durchzuführen. Allein im Bereich der Auszeichnung und Anreicherung mit Normdaten – z. B. bei den Städte- oder Firmennamen – besteht großes Potenzial für weitere Analysen. Neben der weiteren Aufbereitung der Daten sehen wir ein breites Feld an möglichen Forschungsfragen, die an den Text bzw. die Daten gestellt werden können. So wäre ein Abgleich der im Bomber’s Baedeker vorgeschlagenen Ziele im Deutschen Reich mit den tatsächlich bombardierten Städten und Einrichtungen eine interessante Forschungsfrage, um einerseits Rückschlüsse auf die praktische Anwendung im Hinblick auf die Zielvorgaben der Royal Airforce zu geben. Andererseits können die detaillierten Standortinformationen der Firmen aus wirtschaftshistorischer Perspektive erstmals einen annähernd vollständigen Überblick über die Branchenverteilung in den 1930er- und 1940er-Jahren geben. In beiden Fällen wäre noch zu prüfen, wie exakt die vermerkten Geokoordinaten angegeben sind und ob sich gegebenenfalls ein geographisches Muster aus den ermittelten Abweichungen herauslesen lässt.

[26]Unsere Arbeiten ermöglichen nun einen datengetriebenen Analyseansatz. Während mit einer traditionellen Methodik oftmals Karten ausschließlich rein visuell analysiert werden und zugleich deren Richtigkeit und Entstehungskontexte nur partiell hinterfragt werden können, z. B. ob die Ersteller*innen – wie in Abb. 3 dargestellt – eindeutige und gültige Geoangaben verwendet haben, besitzen datengetriebene Ansätze der Visual Analytics weitaus größere Möglichkeiten und können aufzeigen, auf welcher Datenbasis die entsprechenden Angaben generiert wurden.

Abb. 3: Klassische Visualisierung der Ziele nach
                        höchster Priorität aus dem Bomber’s Baedeker. [Uta Hohn: The Bomber’s Baedeker – Target Book
                  for Strategic Bombing in the Economic warfare against German Towns 1943–1954. In: Uta Hohn: The Bomber’s Baedeker – Target Book
                  for Strategic Bombing in the Economic warfare against German Towns 1943–1954. In: Hohn 1994, S. 216.]
Abb. 3: Klassische Visualisierung der Ziele nach höchster Priorität aus dem Bomber’s Baedeker. [Uta Hohn: The Bomber’s Baedeker – Target Book for Strategic Bombing in the Economic warfare against German Towns 1943–1954. In: Hohn 1994, S. 216.]

[27]Dies ist allerdings erst dann möglich, wenn die entsprechenden Angaben maschinenlesbar vorliegen und so aufbereitet werden, dass sie visuell interpretiert werden können. Die Darstellung in Abb. 4 wurde – basierend auf den im Bomber’s Baedeker gemachten Angaben der Geokoordinaten – mittels Tableau[30] und dem DARIAH-DE Geo-Browser[31] angefertigt. Hier ist erkennbar, dass die Ersteller*innen des Bomber’s Baedeker eine klassische (Raster-)Papierkarte als Vorlage benutzt haben müssen, mit deren Hilfe die entsprechenden Geokoordinaten in die Textfassung übertragen wurden. Auffällig ist, dass die validen Geokoordinaten aufgrund des damaligen technischen Standes der Flugzeug-Leitsysteme keine Bedeutung besaßen, da die Flugzeuge mittels Radio-Leitstrahlen navigierten. Die Geokoordinaten hatten dementsprechend nur einen untergeordneten Informationsgehalt. Auch können auf diese Weise fehlerhafte Angaben im Bomber’s Baedeker schneller identifiziert werden – wie beispielsweise, dass Mannheim versehentlich mit den Geokoordinaten von Kiew versehen wurde. Alleine durch dieses Beispiel wird deutlich, dass die Angabe der Geokoordinaten nur eine zusätzliche faktisch rein kartographische Information darstellt.

Abb. 4: Visualisierung der im Bomber’s Baedeker
                        benannten Zielstädte basierend auf den angegebenen zeitgenössischen
                        Geokoordinaten mittels DARIAH-DE Geo-Browser und Tableau. [Bach / Secco
                           2021]
Abb. 4: Visualisierung der im Bomber’s Baedeker benannten Zielstädte basierend auf den angegebenen zeitgenössischen Geokoordinaten mittels DARIAH-DE Geo-Browser und Tableau. [Bach / Secco 2021]

[28]Wichtiger war zum Zeitpunkt der Erstellung in den 1940er-Jahren also vielmehr die Entfernung zu London und über welche Planquadrate die Flugzeuge fliegen mussten, um ihre Ziele zu erreichen. Wetterbedingungen, die Abwehrmaßnahmen der Deutschen Luftwaffe, aber auch welche Ziele in der Nähe lagen, die alternativ angeflogen werden konnten, wenn das eigentliche Ziel nicht erreicht werden konnte, spielten eine größere Rolle, als die richtige Angabe der Geokoordinaten.

[29]Allein durch dieses Beispiel wird deutlich, dass die basale Erschließung dieses Datensatzes in XML und die dadurch hergestellte Maschinenlesbarkeit ungeheures Forschungspotenzial verspricht. Momentan arbeiten wir daran, dieses Beispiel auf die Ebene der einzelnen Städte herunterzubrechen, um zu analysieren und einzuschätzen, wie gut und valide die Alliierten tatsächlich über die Standorte von Infrastrukturen und Industrieanlagen informiert waren. Der Abgleich mit zeitgenössischen Stadtplänen und Adressbüchern ermöglicht diesbezüglich die Durchführung valider Datenanalysen.

5. Ausblick

[30]Wie nicht zuletzt an diesem Beispiel der Verfügbarmachung des Bomber’s Baedeker nachzuvollziehen ist, stellen wissenschaftliche Bibliotheken bereits eine große Anzahl von Digitalisaten bereit. In einigen Fällen wurden bereits OCR-Verfahren eingesetzt, um den Nutzer*innen weitergehende Möglichkeiten zu bieten. Leider liegen die angebotenen OCR-Daten nicht immer in einer Qualität vor, die eine digitale Bearbeitung ohne weiteren Aufwand für die Vorverarbeitung erlaubt. Diese Situation belastet die ohnehin knappen Ressourcen in Forschungsprojekten.

[31]Es wäre wünschenswert, wenn die hier festgehaltene Herausforderung der Erstellung von manschinenlesbaren Datensets zukünftig von Bibliotheken, Forschungsdateninfrastrukturinitiativen und Wissenschaftler*innen gemeinsam adressiert werden könnte. Auf diese Weise kann eine höhere, leichter verarbeitbare Datenqualität in den Angeboten der Bibliotheken zur Unterstützung der digital forschenden Wissenschaftler*innen generiert werden.

[32]Nachdem die Bereitstellung des Volltextes für die Nutzer*innen mehr oder weniger fest im Portfolio der Bibliotheken verankert ist, wäre der nächste Schritt, das Bewusstsein für die Notwendigkeit einer hohen Datenqualität (über die Metadaten hinaus) zu schärfen. Trotz vieler guter Beispiele für Ansätze und Umsetzungen sind hier weitere Aktivitäten notwendig, um das Mindset und die aktuelle Praxis zu verändern. Die geisteswissenschaftlichen Initiativen in der Nationalen Forschungsdateninfrastruktur (NFDI) und seine relevanten Teilnehmenden wären die idealen Multiplikator*innen, um die Standards der Datenbereitstellung für digitale Texte voranzutreiben.


Fußnoten


Bibliographische Angaben

  • Felix Bach / Cristian Secco / Stefan Schmunk / Thorsten Wübbena: The Bomber's Baedeker. A Guide to the Economic Importance of German Towns and Cities. In: zenodo.org. Data set vom 26.07.2021. DOI: 10.5281/zenodo.5138504

  • Das Deutsche Reich in der Defensive – Strategischer Luftkrieg in Europa, Krieg im Westen und in Ostasien 1943 bis 1944/45. Hg. von Horst Boog / Gerhard Krebs / Detlef Vogel. Stuttgart u. a. 2001. (= Das Deutsche Reich und der Zweite Weltkrieg, 7) [Nachweis im GVK]

  • Martin Böhm: Die Royal Air Force und der Luftkrieg 1922–1945. Personelle, kognitive und konzeptionelle Kontinuitäten und Entwicklungen. Paderborn 2015. [Nachweis im GVK]

  • Rainer Burger: Handbuch für den Feuersturm. In: Frankfurter Allgemeine Zeitung. Artikel vom 26.06.2019. [online]

  • Creative Commons-Lizenzen. Hg. von Creative Commons. Mountain View, CA 2021. [online]

  • DARIAH-DE Geo-Browser. Hg. von DARIAH-DE. Version 3.6.7. Göttingen 2021. [online]

  • DFG-Praxisregeln ›Digitalisierung‹. Hg. von Deutsche Forschungsgemeinschaft. Bonn 2016. PDF. [online]

  • FAIR Data Principles. Hg. von GOFair. In: go-fair.org. Leiden u. a. 2016–2021. [online]

  • GNU General Public License. Hg. von Free Software Foundation, Inc. Version 3 vom 29.06.2007. [online]

  • Uta Hohn: The Bomber's Baedeker-target book for strategic bombing in the Economic Warfare against German Towns 1943–45. In: GeoJournal 34 (1994), H. 2, S. 213–230. [Nachweis im GVK]

  • Rebecca Knuth: Burning Books and Leveling Libraires. Extremist Violence and Cultural Destruction. Westport, CT 2006. [Nachweis im GVK]

  • Norman Longmatte: The Bombers: The RAF offensive against Germany 1939–1945. London u. a. 1983. [Nachweis im GVK]

  • Rolf-Dieter Müller: Der Bombenkrieg 1939–1945. Berlin 2004. [Nachweis im GVK]

  • Susanne Müller: Die Welt des Baedeker. Eine Medienkulturgeschichte des Reiseführers 1830–1945. Frankfurt/Main u. a. 2012. [Nachweis im GVK]

  • Richard Overy: Der Bombenkrieg: Europa 1939–1945. Berlin 2014. [Nachweis im GVK]

  • Niall Rothnie: The Baedeker Blitz. Hitler’s Attack on Britain’s Historic Cities. Shepperton 1992. [Nachweis im GVK]

  • Stefan Schmunk: Entweder KZ oder ordentliche Deutsche. Die Luftwaffe und der Arbeitseinsatz 1942–1944. Darmstadt 2005. In: researchgate.net. DOI: 10.13140/rg.2.2.20030.08003

  • Tableau. Hg. von Tableau Software. In: tableau.com. Seattle, WA 2003–2021. [online]

  • The Bomber's Baedeker. Guide to the economic importance of German towns and cities. (Foreign Office & Ministry of Economic Warfare). 2 Bände. London 1944. In: Gutenberg Capture. Hg. von Universitätsbibliothek Mainz. Online-Ausgabe. Mainz 2019. URN: urn:nbn:de:hebis:77-vcol-20056

  • The Bomber’s Baedeker Guide to the economic importance of German towns and cities. London 1944. Softwareskripte und Dokumentation. Hg. von IEG Mainz. In: github.com. 2021. [online]

  • TNA London, AIR 41 / 5, Directive 21 January 1943, International Law of the Air, 1939–1945, Confidential supplement to Air Power and War Rights, 1946, zitiert nach: Böhm, Martin: Die Royal Air Force und der Luftkrieg 1922–1945. Paderborn 2015, S. 147.

  • Baedeker Raids. The story of the historic towns and cities in Britain targeted by the German Air Force in Spring 1942. Hg. von Imperial War Museums. London 05.07.2019–05.01.2020. In: Google Arts and Culture. Virtuelle Ausstellung. 2021. [online]


Abbildungsverzeichnis

  • Abb. 1: ›Kopfteil‹ (Düren), Ausschnitt [The Bomber's Baedeker. Guide to the economic importance of German towns and cities, London 1944, S. 176. Public Domain Mark 1.0; online].
  • Abb. 2: ›Beschreibungsteil‹ (Düren), Ausschnitt [The Bomber's Baedeker. Guide to the economic importance of German towns and cities, London 1944, S. 176. Public Domain Mark 1.0; online].
  • Abb. 3: Klassische Visualisierung der Ziele nach höchster Priorität aus dem Bomber’s Baedeker. [Uta Hohn: The Bomber’s Baedeker – Target Book for Strategic Bombing in the Economic warfare against German Towns 1943–1954. In: Hohn 1994, S. 216.]
  • Abb. 4: Visualisierung der im Bomber’s Baedeker benannten Zielstädte basierend auf den angegebenen zeitgenössischen Geokoordinaten mittels DARIAH-DE Geo-Browser und Tableau. [Bach / Secco 2021]
Heft / Sonderband: 
Fabrikation von Erkenntnis. Experimente in den Digital Humanities

Funktionen

Download XMLDownload XSLTDownload PDF