Versionen vergleichen von : Automatisiertes Record Linkage in prosopographischen Datenbeständen am Beispiel historischer Quellen Leipzigs

AltNeu
1Automatisiertes Record Linkage in prosopographischen Datenbeständen am Beispiel historischer Quellen Leipzigs 1Automatisiertes Record Linkage in prosopographischen Datenbeständen am Beispiel historischer Quellen Leipzigs
2
2 3
9 10
10 DOI: 10.17175/2023_001 11 DOI: 10.17175/2023_001_v2
11 Nachweis im OPAC der Herzog August Bibliothek: 1819370283 12 Nachweis im OPAC der Herzog August Bibliothek: 185844733X
12 Erstveröffentlichung: 26.01.2023 13 Erstveröffentlichung: 26.01.2023
14 Version 2.0: 29.09.2023
13 Lizenz: Sofern nicht anders angegeben 15 Lizenz: Sofern nicht anders angegeben
16 Medienlizenzen: Medienrechte liegen bei den Autor*innen 18 Medienlizenzen: Medienrechte liegen bei den Autor*innen
17 Letzte Überprüfung aller Verweise: 12.01.2023 19 Letzte Überprüfung aller Verweise: 31.08.2023
18 GND-Verschlagwortung: Duplikaterkennung | Datenverknüpfung | Personenbezogene Daten | Algorithmus | Genealogie | Geschichtswissenschaft |  20 GND-Verschlagwortung: Duplikaterkennung | Datenverknüpfung | Personenbezogene Daten | Algorithmus | Genealogie | Geschichtswissenschaft | 
19 Empfohlene Zitierweise: Jan Michael Goldberg, Marcel Mernitz: Automatisiertes Record Linkage in prosopographischen 21 Empfohlene Zitierweise: Jan Michael Goldberg / Marcel Mernitz: Automatisiertes Record Linkage in prosopographischen
20 Datenbeständen am Beispiel historischer Quellen Leipzigs. In: Zeitschrift für digitale Geisteswissenschaften 8 (2023). HTML / XML / PDF. DOI: 10.17175/2023_001 22 Datenbeständen am Beispiel historischer Quellen Leipzigs. In: Zeitschrift für digitale Geisteswissenschaften 8 (2023). 26.01.2023. Version 2.0 vom 29.09.2023. HTML / XML / PDF. DOI: 10.17175/2023_001_v2
21
22 23
26 Abstract 27 Abstract
28
27 In dieser Studie wird ein automatisierter Ansatz zum Record Linkage in 29 In dieser Studie wird ein automatisierter Ansatz zum Record Linkage in
53 55
56
57
58
59 Version 2.0 (29.09.2023)
60 Inhaltliche Ergänzungen an mehreren Stellen gemäß Gutachten.
54 61
135 historischen Leipziger Quellen unterzieht. Abschließend wird das Ergebnis 142 historischen Leipziger Quellen unterzieht. Abschließend wird das Ergebnis
136 zusammengefasst. Der Algorithmus selbst wird in der Programmiersprache Python 3.6 143 zusammengefasst. Der Algorithmus selbst wird in der Programmiersprache Python 3.8
137 umgesetzt und ist im Online-Repositorium zu finden. 144 umgesetzt und ist im Online-Repositorium zu finden.
160 [6]Zum Record Linkage können verschiedenste Variablen herangezogen werden. 167 [6]Zum Record Linkage können verschiedenste Variablen herangezogen werden.
161 Grundlegend dabei ist, dass Variablen / Attribute zur Verfügung stehen, die 168 Grundlegend dabei ist, dass Variablen / Attribute zur Verfügung stehen, die
162 einen identischen Schlüssel aufweisen.[13] Dies kann beispielsweise der Name, das Geburtsdatum 169 einen identischen Schlüssel aufweisen.[13] Dies kann beispielsweise der Name, das Geburtsdatum
171 Vornamens.[16] 178 Vornamens.[16]
172 [8]Efremova et al. nutzen dahingegen ein ›disjunctive blocking‹.[17] Darin werden die ersten 179 [8]Efremova et al. nutzen dahingegen ein ›disjunctive blocking‹.[17] Darin werden die ersten
173 Buchstaben eines Namens einer phonetischen Analyse unterzogen. Nur, wenn diese 180 Buchstaben eines Namens einer phonetischen Analyse unterzogen. Nur, wenn diese
178 Distanz. 185 Distanz.
179 [9]Statt einer binären Verknüpfung (Zuordnung / keine Zuordnung) gibt es auch 186 [9]Statt einer binären Verknüpfung (Zuordnung / keine Zuordnung) gibt es auch
180 Systeme, die Abstufungen verwenden. Sichere Verknüpfungen werden darin anders 187 Systeme, die Abstufungen verwenden. Sichere Verknüpfungen werden darin anders
184 Verknüpfung.[19] 191 Verknüpfung.[19]
185 [10]Anhand englischer Daten zeigen Georgala et al., dass String-Metriken wie die 192 [10]Anhand englischer Daten zeigen Georgala et al., dass String-Metriken wie die
186 Levenshtein- oder Jaro-Winkler-Distanz besser als phonetische 193 Levenshtein- oder Jaro-Winkler-Distanz besser als phonetische
189 [11]Zur Unterstützung des Record Linkage existieren verschiedene Programme. In 196 [11]Zur Unterstützung des Record Linkage existieren verschiedene Programme. In
190 diese soll hier nicht im Detail eingeführt werden. Beispielhaft genannt wird 197 diese wird hier nicht im Detail eingeführt. Lediglich beispielhaft genannt werden
191 eine Lösung, die explizit auf das Record Linkage von genealogischen 198 drei Lösungen. Eine Lösung, die explizit auf das Record Linkage von genealogischen
192 GEDCOM-Dateien (GEnealogical Data COMmunication, siehe unten) ausgelegt ist: GedTool.[21] Zur Verschmelzung 199 GEDCOM-Dateien (GEnealogical Data COMmunication, siehe unten) ausgelegt ist: GedTool.[21] Zur Identifizierung von Dateneinträgen zu gleichen Personen können darin bis zu acht
193 von Personen können darin bis zu acht Kriterien wie der Vorname, der Nachname 200 Kriterien wie der Vorname, der Nachname
194 oder eine ID bestimmt werden, die übereinstimmen müssen, damit Personen 201 oder eine ID bestimmt werden. Stimmen diese überein, kann ein Record Linkage stattfinden.
195 verschmolzen werden können. Die Einträge, auf die die Kriterien zutreffen, 202 Alle Einträge, die den definierten Kriterien entsprechen,
196 werden gemeinsam angezeigt und können dann nachfolgend manuell zusammengeführt 203 werden gemeinsam angezeigt und können nachfolgend manuell zusammengeführt
197 werden. Eine phonetische Suche mit den Algorithmen Soundex, Kölner 204 werden. Eine phonetische Suche mit den Algorithmen Soundex, Kölner
198 Phonetik und Double Metaphone kann ebenfalls ausgeführt werden.[22] Hierbei handelt es 205 Phonetik und Double Metaphone kann ebenfalls ausgeführt werden.[22] Hierbei handelt es
199 sich also um eine semi-automatisierte Lösung. 206 sich demnach um eine semi-automatisierte Lösung.
200 [12]Ein weiteres Record-Linkage-Programm stellt Demolink dar. Fure evaluiert dieses anhand norwegischer Daten und kommt zu dem 207 [12]Ein weiteres Record-Linkage-Programm stellt Demolink dar. Eli Fure evaluiert dieses anhand norwegischer Daten. Sie kommt zu dem
201 Schluss, dass eine Vorstellung über den historischen Kontext einer Quelle 208 Schluss, dass für die Anwendung eine Vorstellung über den historischen Kontext einer
202 notwendig ist, um – im Vergleich mit einer automatisierten Lösung – gute 209 Quelle
203 Ergebnisse zu erzielen. Damit meint sie, dass die Forschenden z. B. Wissen 210 notwendig ist, um bessere Ergebnisse als eine automatisierte Lösung zu erzielen. Damit
211 meint sie, dass die Forschenden u. a. Wissen
204 darüber haben müssen, welche Namen im untersuchten Gebiet gleich sind, ohne 212 darüber haben müssen, welche Namen im untersuchten Gebiet gleich sind, ohne
205 dass ein Algorithmus sie zuordnen kann. Ein Beispiel dafür ist, dass die Namen 213 dass ein Algorithmus sie zuordnen kann. Hierzu seien
206 Goldberg und Goldbrich in Nordböhmen und der südlichen Oberlausitz bis etwa zur 214 menschliche Eigenschaften notwendig.[23] Ein Beispiel dafür sind die Namen
207 zweiten Hälfte des 18. Jahrhunderts synonym verwendet werden. Hierzu seien 215 Goldberg und Goldbrich, die in Nordböhmen und der südlichen Oberlausitz bis etwa zur
208 menschliche Eigenschaften notwendig.[23] 216 zweiten Hälfte des 18. Jahrhunderts synonym verwendet werden.
209 [13]Abramitzky et al. zeigen jedoch auf, dass auch automatisierte Vorgehensweisen 217 [13]Zuletzt genannt wird OpenRefine. Zwar hat OpenRefine ein breiteres Anwendungsgebiet, kann jedoch auch zum Rekord Linkage verwendet werden.
210 zufriedenstellende Ergebnisse erzielen können.[24] Da nie mit Sicherheit bestimmt werden kann, 218 Ein Vorteil ist, dass hierdurch eigene Daten mit Referenzressourcen wie Wikidata abgeglichen
219 und verbunden werden können. Auch unterstützt OpenRefine die Reconciliation Service API, ein Protokoll zum Datenmatching im Web.[24]
220 [14]Abramitzky et al. zeigen jedoch auf, dass auch automatisierte Vorgehensweisen
221 zufriedenstellende Ergebnisse erzielen können.[25] Da nie mit Sicherheit bestimmt werden kann,
211 ob zwei Records tatsächlich dieselbe Entität beschreiben, sind solche Vorgehen 222 ob zwei Records tatsächlich dieselbe Entität beschreiben, sind solche Vorgehen
212 probabilistisch. Bei einem Vergleich verschiedener Methoden durch Abramitzky et al. 223 probabilistisch. Bei einem Vergleich verschiedener Methoden durch Abramitzky et al.
213 erreichen auch automatisierte Ansätze Falschpositivraten von unter fünf Prozent. Zudem 224 erreichen auch automatisierte Ansätze Falschpositivraten von unter fünf Prozent. Zudem
214 zeigen sie, dass auch Menschen nicht frei von Fehlern sind und ebenfalls falschpositive 225 zeigen sie, dass auch Menschen nicht frei von Fehlern sind und ebenfalls falschpositive
215 Ergebnisse erzeugen.[25] In ihrem 226 Ergebnisse erzeugen.[26] In ihrem
216 automatischen Ansatz demonstrieren Abramitzky et al. ein dreischrittiges 227 automatischen Ansatz demonstrieren Abramitzky et al. ein dreischrittiges
217 Verfahren: Zunächst sind (1.) Variablen für die Verknüpfung auszuwählen, dann 228 Verfahren: Zunächst sind (1.) Variablen für die Verknüpfung auszuwählen, dann
220 ein, schließlich wird (3.) die Wahrscheinlichkeit der Übereinstimmung 231 ein, schließlich wird (3.) die Wahrscheinlichkeit der Übereinstimmung
221 bewertet.[26] 232 bewertet.[27]
222 Die hohe Verlässlichkeit ihrer Vorgehensweise zeigt sich darin, dass sie bei 233 Die hohe Verlässlichkeit ihrer Vorgehensweise zeigt sich darin, dass sie bei
224 Verknüpfungen ihrer Daten ähnliche Resultate wie in bereits bestehenden, 235 Verknüpfungen ihrer Daten ähnliche Resultate wie in bereits bestehenden,
225 manuellen Verknüpfungen erhalten.[27] 236 manuellen Verknüpfungen erhalten.[28]
237 [15]Da der Algorithmus mit der Programmiersprache Python umgesetzt wird, liegt auch die
238 Verwendung Python-spezifischer Bibliotheken nahe (z. B. RecordLinkage von Jonathan de Bruin). Zunächst jedoch wird der Algorithmus fernab von den Möglichkeiten
239 oder Restriktionen programmiersprachenspezifischer Bibliotheken entwickelt. Deswegen
240 findet keine Vorfestlegung auf solche statt. Zugleich aber sind solche Bibliotheken
241 sinnvolle Werkzeuge, um Record-Linkage-Herausforderungen praktisch zu begegnen; auch
242 zur Umsetzung des Algorithmus in diesem Fall.
243 [16]Grundsätzlich ist es zudem möglich, Methoden des maschinellen Lernens auf Record-Linkage-Herausforderungen
244 anzuwenden. So könnte beispielsweise die Ähnlichkeit manuell verknüpfter Datensätze
245 ausgewertet werden, um die Systematik der Verknüpfungen zu erkennen auch auf weitere
246 Daten anzuwenden. Solchen Ansätzen gemein ist jedoch, dass das erzeugte Modell – und
247 somit das Ergebnis – von den Trainingsdaten abhängig ist. Aus diesem Grund wird in
248 diesem Algorithmus bewusst darauf verzichtet, da bekannte genealogische Heuristiken
249 zunächst in einem statischen Modell formalisiert werden sollen. Darauf aufbauend kann
250 nachfolgende Forschung diese Ergebnisse nutzen, Verfahren maschinellen Lernens zu
251 implementieren.
252
226 253
228 255
229 [14]Besonders interessant erscheint die Anwendung eines automatisierten Record 256 [17]Besonders interessant erscheint die Anwendung eines automatisierten Record
230 Linkage auf große Datenbestände mit genealogisch relevanten Daten. Das Record 257 Linkage auf große Datenbestände mit genealogisch relevanten Daten. Das Record
239 zu den Eltern und Kindern ergänzt. 266 zu den Eltern und Kindern ergänzt.
240 [15]Quellen, die genealogisch relevante Daten enthalten, sind sehr unterschiedlich 267 [18]Quellen, die genealogisch relevante Daten enthalten, sind sehr unterschiedlich
241 strukturiert. Die zugrundeliegenden Primärquellen sind oftmals Manuskripte. 268 strukturiert. Die zugrundeliegenden Primärquellen sind oftmals Manuskripte.
242 Hier sind vorwiegend Kirchenbücher zu nennen. Verschiedene prosopographische 269 Hier sind vorwiegend Kirchenbücher zu nennen. Verschiedene prosopographische
243 Quellen enthalten dabei unterschiedliche Informationen.[28] Allerdings existiert auch eine große Menge an 270 Quellen enthalten dabei unterschiedliche Informationen.[29] Allerdings existiert auch eine große Menge an
244 Sekundärquellen, die bereits aufgearbeitete Daten präsentieren. Solche Daten 271 Sekundärquellen, die bereits aufgearbeitete Daten präsentieren. Solche Daten
249 entwickelt. 276 entwickelt.
250 [16]Für diese Studie wird davon ausgegangen, dass einzelne Quellen so aufgearbeitet 277 [19]Für diese Studie wird davon ausgegangen, dass einzelne Quellen so aufgearbeitet
251 werden können, dass sie in einer Tabelle vorliegen. Jeder Eintrag der Quelle 278 werden können, dass sie in einer Tabelle vorliegen. Jeder Eintrag der Quelle
254 Weiteren als Record bezeichnet. Herausforderung hierbei ist, dass die 281 Weiteren als Record bezeichnet. Herausforderung hierbei ist, dass die
255 Datenfelder / Spalten tatsächlich vergleichbare Informationen enthalten müssen. Die 282 Datenfelder / Spalten tatsächlich vergleichbare Informationen enthalten müssen. Die
256 Zuordnung von Informationen aus einer Quelle in die korrekten Datenfelder ist 283 Zuordnung von Informationen aus einer Quelle in die korrekten Datenfelder ist
262 Definition des Inhalts der Datenfelder unerlässlich. 289 Definition des Inhalts der Datenfelder unerlässlich.
263 [17]Als wesentlicher Standard zum Austausch genealogischer Informationen hat sich 290 [20]Als wesentlicher Standard zum Austausch genealogischer Informationen hat sich
264 das GEDCOM-Format herausgebildet.[29] In diesem werden einzelne 291 das GEDCOM-Format herausgebildet.[30] In diesem werden einzelne
265 Informationen sogenannten Tags zugewiesen, die eine ähnliche Funktion wie 292 Informationen sogenannten Tags zugewiesen, die eine ähnliche Funktion wie
266 Datenfelder / Spalten haben (z. B. beschreibt der Tag OCCU eine Berufsangabe). 293 Datenfelder / Spalten haben (z. B. beschreibt der Tag OCCU eine Berufsangabe).
267 Aber auch aus GEDCOM-Daten ergeben sich Probleme: Zwar sind diese strukturiert, 294 Aber auch aus GEDCOM-Daten ergeben sich Probleme: Zwar sind diese strukturiert,
268 doch gibt es nicht für alle Informationen eigene Tags. Auch wenn mit GEDCOM 5.5.1 295 doch gibt es nicht für alle Informationen eigene Tags. Auch wenn mit GEDCOM 5.5.1
269 ein Standard existiert,[30] legt dieser nicht immer fest, welcher Inhalt den Tags zugeordnet werden darf. Im 296 ein Standard existiert,[31] legt dieser nicht immer fest, welcher Inhalt den Tags zugeordnet werden darf. Im
270 Standard ist 297 Standard ist
274 ausfüllen, wie es ihnen beliebt und wie sie diese interpretieren. 301 ausfüllen, wie es ihnen beliebt und wie sie diese interpretieren.
275 [18]Einen weiteren Standard stellt Gedbas4all dar.[31] Anders als GEDCOM, in der die 302 [21]Einen weiteren Standard stellt Gedbas4all dar.[32] Anders als GEDCOM, in der die
276 einzelnen Informationen zu einer Person zwar zusammengeführt, die 303 einzelnen Informationen zu einer Person zwar zusammengeführt, die
280 konkret definiert wurden. Besonders für die Zeitangaben gibt es eine 307 konkret definiert wurden. Besonders für die Zeitangaben gibt es eine
281 detaillierte Normierung.[32] Das Datenmodell enthält jedoch nicht zu 308 detaillierte Normierung.[33] Das Datenmodell enthält jedoch nicht zu
282 allen möglichen Variablen eine detaillierte Erläuterung. Zudem hat es noch 309 allen möglichen Variablen eine detaillierte Erläuterung. Zudem hat es noch
283 keine weite Verbreitung gefunden. 310 keine weite Verbreitung gefunden.
284 [19]Es zeigt sich, dass kein allgemeingültiges und ausreichend detailliertes System 311 [22]Es zeigt sich, dass kein allgemeingültiges und ausreichend detailliertes System
285 zur Definition vieler möglicher Schlüssel für ein Record Linkage auf Basis 312 zur Definition vieler möglicher Schlüssel für ein Record Linkage auf Basis
291 318
292 [20]Die oben aufgeführten Algorithmen scheinen auf ihre jeweiligen Anwendungen bezogen 319 [23]Die oben aufgeführten Algorithmen scheinen auf ihre jeweiligen Anwendungen bezogen
293 zwar effektiv zu sein, doch können sie nicht auf alle 320 zwar effektiv zu sein, doch können sie nicht auf alle
311 Lösungen als tauglich erwiesen haben. 338 Lösungen als tauglich erwiesen haben.
312 [21]Der Algorithmus wird im Folgenden textuell erklärt. Die Erläuterung orientiert 339 [24]Der Algorithmus wird im Folgenden textuell erklärt. Die Erläuterung orientiert
313 sich am Aufbau der programmtechnischen Umsetzung. Es ist insbesondere auch ein 340 sich am Aufbau der programmtechnischen Umsetzung. Es ist insbesondere auch ein
316 Programmiersprache Python 3.8 umgesetzt. Dieser ist im Online-Repositorium verfügbar. 343 Programmiersprache Python 3.8 umgesetzt. Dieser ist im Online-Repositorium verfügbar.
317 [22]Wesentliche Herausforderungen bestehen in der Normierung, Strukturierung und 344 [25]Wesentliche Herausforderungen bestehen in der Normierung, Strukturierung und
318 Bereinigung von Eingangsdaten sowie der Prüfung einer Similarität zwischen 345 Bereinigung von Eingangsdaten sowie der Prüfung einer Similarität zwischen
323 wird eine Normalform der Daten definiert (im Weiteren Normform), in die die 350 wird eine Normalform der Daten definiert (im Weiteren Normform), in die die
324 Eingangsdaten gebracht werden müssen. Dies geschieht, damit die Datenfelder / 351 Eingangsdaten gebracht werden müssen. Dies geschieht, damit die Datenfelder / 
325 Spalten gleichartige Daten enthalten. Daran anschließend wird die Datenbereinigung 352 Spalten gleichartige Daten enthalten. Daran anschließend wird die Datenbereinigung
330 357
331 [23]Der Algorithmus ist auf prosopographische Quellen angepasst, die genealogisch 358 [26]Der Algorithmus ist auf prosopographische Quellen angepasst, die genealogisch
332 relevante Daten enthalten. Es ist denkbar, dass es viele prosopographische 359 relevante Daten enthalten. Es ist denkbar, dass es viele prosopographische
333 Quellen gibt, die Daten enthalten, welche durch die Normform nicht adäquat 360 Quellen gibt, die Daten enthalten, welche durch die Normform nicht adäquat
334 abgebildet werden (z. B. Immatrikulationslisten). Hier wird deutlich, dass 361 abgebildet werden (z. B. Immatrikulationslisten). Hier wird deutlich, dass
335 nicht alle erdenklichen (und praktisch auch irgendwo vorkommenden) Attribute 362 nicht alle erdenklichen (und praktisch auch irgendwo vorkommenden) Attribute
340 ergänzt werden. 367 ergänzt werden.
341 [24]Der grundlegende Ablauf zur Verarbeitung der Daten ist in Abbildung 1 ersichtlich. Um den Algorithmus 368 [27]Der grundlegende Ablauf zur Verarbeitung der Daten ist in Abbildung 1 ersichtlich. Um den Algorithmus
342 ausführen zu können, müssen die Daten aufbereitet werden. Das kann manuell, 369 ausführen zu können, müssen die Daten aufbereitet werden. Das kann manuell,
343 aber auch durch ein gesondertes Programm geschehen.[33] Der Algorithmus ist darauf 370 aber auch durch ein gesondertes Programm geschehen.[34] Der Algorithmus ist darauf
344 ausgelegt, zwei in der Normform vorliegende Datensätze dem Record Linkage zu 371 ausgelegt, zwei in der Normform vorliegende Datensätze dem Record Linkage zu
345 unterziehen.[34] Nach der Zusammenführung kann der entstandene, verknüpfte 372 unterziehen.[35] Nach der Zusammenführung kann der entstandene, verknüpfte
346 Datensatz dann in weitere, übliche Formate wie z. B. GEDCOM übertragen werden. 373 Datensatz dann in weitere, übliche Formate wie z. B. GEDCOM übertragen werden.
347 Zur Erstellung einer GEDCOM-Datei aus dem Ergebnis des Algorithmus kann 374 Zur Erstellung einer GEDCOM-Datei aus dem Ergebnis des Algorithmus kann
349 GEDCOM-Datei findet hier jedoch keine weitere Erläuterung, sondern ist der 376 GEDCOM-Datei findet hier jedoch keine weitere Erläuterung, sondern ist der
350 Bedienungsanleitung des Programms zu entnehmen.[35] 377 Bedienungsanleitung des Programms zu entnehmen.[36]
351 378
352 379
353 Abb. 1: Ablauf der 380 Abb. 1: Ablauf der
354 Datenverarbeitung. [Goldberg / Mernitz 2023] 381 Datenverarbeitung. [Goldberg / Mernitz 2023]
355 382
356 [25]Nach der Transformation in die Normform wird eine Bereinigung und weitere 383 [28]Nach der Transformation in die Normform wird eine Bereinigung und weitere
357 Strukturierung der Informationen vorgenommen. Dieser Schritt ist notwendig, 384 Strukturierung der Informationen vorgenommen. Dieser Schritt ist notwendig,
359 korrigieren. 386 korrigieren.
360 [26]Nachfolgend wird ein Vergleich zwischen einzelnen Records erzeugt. Für jede 387 [29]Nachfolgend wird ein Vergleich zwischen einzelnen Records erzeugt. Für jede
361 Zeile in der ersten Tabelle wird dazu geprüft, ob die einzelnen Records der 388 Zeile in der ersten Tabelle wird dazu geprüft, ob die einzelnen Records der
364 ausschließen sollen (z. B. ist eine Taufe nach dem Tod nicht möglich). 391 ausschließen sollen (z. B. ist eine Taufe nach dem Tod nicht möglich).
365 [27]Danach wird für die nichtdisjunkten Records eine Similaritätsprüfung 392 [30]Danach wird für die nichtdisjunkten Records eine Similaritätsprüfung
366 durchgeführt. Hierdurch soll herausgefunden werden, ob die Personen similär 393 durchgeführt. Hierdurch soll herausgefunden werden, ob die Personen similär
367 sind – also diese beiden Records dieselbe historisch existierende Person 394 sind – also diese beiden Records dieselbe historisch existierende Person
368 beschreiben und die Informationen entsprechend zu verknüpfen sind. Hierzu 395 beschreiben und die Informationen entsprechend zu verknüpfen sind. Hierzu
375 Sicherheit von einer Similarität ausgegangen werden kann. 402 Sicherheit von einer Similarität ausgegangen werden kann.
376 [28]Der grundlegende Ablauf ist in Abbildung 2 dargestellt. Eine ausführliche Erläuterung der einzelnen 403 [31]Der grundlegende Ablauf ist in Abbildung 2 dargestellt. Eine ausführliche Erläuterung der einzelnen
377 Schritte findet in den folgenden Abschnitten statt. 404 Schritte findet in den folgenden Abschnitten statt.
379 406
380 Abb. 2: Funktionsweise des 407 Abb. 2: Funktionsweise des
381 Algorithmus als Nassi-Shneiderman-Diagramm. [Goldberg / Mernitz 2023] 408 Algorithmus als Nassi-Shneiderman-Diagramm. [Goldberg / Mernitz 2023]
382 409
385 412
386 [29]Um Daten in eine Normform zu überführen, ist die Definition einer solchen 413 [32]Um Daten in eine Normform zu überführen, ist die Definition einer solchen
387 notwendig. Das umfasst (1.) die Definition eines Formats und (2.) die 414 notwendig. Das umfasst (1.) die Definition eines Formats und (2.) die
388 Definition des Inhalts (die möglichen Schlüssel der Variablen / Attribute). Zum 415 Definition des Inhalts (die möglichen Schlüssel der Variablen / Attribute). Zum
389 Format wird festgelegt, dass es sich bei der Normform um eine CSV-Datei 416 Format wird festgelegt, dass es sich bei der Normform um eine CSV-Datei
455 Uhrzeit. Die GEDCOM-Systematik zur Beschreibung ungenauer Zeitpunkte ist 482 Uhrzeit. Die GEDCOM-Systematik zur Beschreibung ungenauer Zeitpunkte ist
456 anzuwenden (z. B. ›BET … AND …‹ für ein Ereignis in einer 483 anzuwenden (z. B. ›BET … AND …‹ für ein Ereignis in einer
457 Zeitspanne). 484 Zeitspanne).
484 Uhrzeit. Die GEDCOM-Systematik zur Beschreibung ungenauer Zeitpunkte ist 511 Uhrzeit. Die GEDCOM-Systematik zur Beschreibung ungenauer Zeitpunkte ist
485 anzuwenden (z. B. ›BET … AND …‹ für ein Ereignis in einer 512 anzuwenden (z. B. ›BET … AND …‹ für ein Ereignis in einer
486 Zeitspanne). 513 Zeitspanne).
502 eine weitere Spezifikation der Uhrzeit. Die GEDCOM-Systematik zur 529 eine weitere Spezifikation der Uhrzeit. Die GEDCOM-Systematik zur
503 Beschreibung ungenauer Zeitpunkte ist anzuwenden (z. B. ›BET … AND …‹ für 530 Beschreibung ungenauer Zeitpunkte ist anzuwenden (z. B. ›BET … AND …‹ für
504 ein Ereignis in einer Zeitspanne). 531 ein Ereignis in einer Zeitspanne).
537 Uhrzeit. Die GEDCOM-Systematik zur Beschreibung ungenauer Zeitpunkte ist 564 Uhrzeit. Die GEDCOM-Systematik zur Beschreibung ungenauer Zeitpunkte ist
538 anzuwenden (z. B. ›BET … AND …‹ für ein Ereignis in einer 565 anzuwenden (z. B. ›BET … AND …‹ für ein Ereignis in einer
539 Zeitspanne). 566 Zeitspanne).
571 Uhrzeit. Die GEDCOM-Systematik zur Beschreibung ungenauer Zeitpunkte ist 598 Uhrzeit. Die GEDCOM-Systematik zur Beschreibung ungenauer Zeitpunkte ist
572 anzuwenden (z. B. ›BET … AND …‹ für ein Ereignis in einer 599 anzuwenden (z. B. ›BET … AND …‹ für ein Ereignis in einer
573 Zeitspanne). 600 Zeitspanne).
600 627
628
601 Tab. 1: Definition von Datenfeldern. 629 Tab. 1: Definition von Datenfeldern.
602 [Goldberg / Mernitz 2023] 630 [Goldberg / Mernitz 2023]
603 [30]Die Normform enthält dabei nicht alle möglichen Bestandteile prosopographischer 631 [33]Die Normform enthält dabei nicht alle möglichen Bestandteile prosopographischer
604 Quellen. Daneben sind weitere Charakteristika denkbar, die sich auf das Leben 632 Quellen. Daneben sind weitere Charakteristika denkbar, die sich auf das Leben
605 von Personen beziehen und in prosopographischen Quellen vorkommen (u. a. 633 von Personen beziehen und in prosopographischen Quellen vorkommen (u. a.
606 Taufpaten, Trauzeugen, Täufer, weitere Bezugspersonen, Adressen zu bestimmten 634 Taufpaten, Trauzeugen, Täufer, weitere Bezugspersonen, Adressen zu bestimmten
616 644
617 [31]Trotz der Normform können die Daten nicht immer direkt miteinander in einen 645 [34]Trotz der Normform können die Daten nicht immer direkt miteinander in einen
618 Vergleich gesetzt werden. Es ist eine weitere Bereinigung des Inhalts 646 Vergleich gesetzt werden. Es ist eine weitere Bereinigung des Inhalts
619 notwendig. Darunter gehört z. B. die Veränderung des Datumsformats. Ferner 647 notwendig. Darunter gehört z. B. die Veränderung des Datumsformats. Ferner
620 betrifft die Bereinigung insbesondere die Vornamen (siehe Abschnitt 3.3.1, ›Aufbereitung der 648 betrifft die Bereinigung insbesondere die Vornamen (siehe Abschnitt 3.3.1, ›Aufbereitung der
625 Zeitangaben‹). Die Bereinigung von Ortsangaben dahingegen ist derzeit nicht 653 Zeitangaben‹). Die Bereinigung von Ortsangaben dahingegen ist derzeit nicht
626 implementiert, kann aber ergänzt werden.[36] 654 implementiert, kann aber ergänzt werden.[37]
627 3.3.1 Aufbereitung der Namen 655 3.3.1 Aufbereitung der Namen
628 656
629 [32]Namensbezeichnungen können verschiedene Eigenschaften besitzen, die ein 657 [35]Namensbezeichnungen können verschiedene Eigenschaften besitzen, die ein
630 Record Linkage erschweren. Ein Beispiel dafür sind Abkürzungen 658 Record Linkage erschweren. Ein Beispiel dafür sind Abkürzungen
640 Vornamen werden durch Leerzeichen separiert als Liste gespeichert. 668 Vornamen werden durch Leerzeichen separiert als Liste gespeichert.
641 [33]Um den Nutzen der Vornamen für das Record Linkage zu erhöhen, wird aus den 669 [36]Um den Nutzen der Vornamen für das Record Linkage zu erhöhen, wird aus den
642 Angaben zum Vornamen das Geschlecht erkannt – sofern diese Information nicht 670 Angaben zum Vornamen das Geschlecht erkannt – sofern diese Information nicht
643 gesondert vorliegt. Hierzu werden die Vornamen, die auf ein A oder E enden, 671 gesondert vorliegt. Hierzu werden die Vornamen, die auf ein A oder E enden,
644 als weiblich erkannt. Dazu wird jeweils der erste Vorname herangezogen.[37] Etliche Ausnahmen sind gesondert 672 als weiblich erkannt. Dazu wird jeweils der erste Vorname herangezogen.[38] Etliche Ausnahmen sind gesondert
645 definiert (z. B. Ingeborg, Elisabeth). 673 definiert (z. B. Ingeborg, Elisabeth).
648 676
649 [34]Ähnlich wie bei den Namen können auch Berufsangaben eine Abkürzung erfahren. 677 [37]Ähnlich wie bei den Namen können auch Berufsangaben eine Abkürzung erfahren.
650 Auch diese werden mit Hilfe einer initial definierten Liste aufgelöst und 678 Auch diese werden mit Hilfe einer initial definierten Liste aufgelöst und
657 Tätigkeit, sondern weitergehende Informationen über den Rechtsstatus, 685 Tätigkeit, sondern weitergehende Informationen über den Rechtsstatus,
658 Wohnsitz oder einen Zeitbezug enthalten.[38] Mehrere Berufsangaben werden 686 Wohnsitz oder einen Zeitbezug enthalten.[39] Mehrere Berufsangaben werden
659 anhand des Kommas oder eines ›und‹ aufgesplittet als Liste gespeichert. 687 anhand des Kommas oder eines ›und‹ aufgesplittet als Liste gespeichert.
662 690
663 [35]Zeitangaben können verschiedene Formate aufweisen. Das liegt vor allem in 691 [38]Zeitangaben können verschiedene Formate aufweisen. Das liegt vor allem in
664 dem Umstand begründet, dass Zeitangaben nicht immer ein konkretes, 692 dem Umstand begründet, dass Zeitangaben nicht immer ein konkretes,
674 702
675 [36]Genealogische Heuristiken helfen dabei, die Records zu identifizieren, die 703 [39]Genealogische Heuristiken helfen dabei, die Records zu identifizieren, die
676 dieselbe Entität beschreiben. Ihre Formalisierung führt zu Logikoperationen, 704 dieselbe Entität beschreiben. Ihre Formalisierung führt zu Logikoperationen,
678 auf den vorhandenen Variablen. Jedoch können schon bei einem Datensatz mit 30 706 auf den vorhandenen Variablen. Jedoch können schon bei einem Datensatz mit 30
679 verschiedenen zu vergleichenden Variablen (Variable vorhanden / nicht 707 verschiedenen zu vergleichenden Variablen (Variable vorhanden / nicht
680 vorhanden) insgesamt etwa eine Milliarde mögliche Kombinationen auftreten.[39] Der 708 vorhanden) insgesamt etwa eine Milliarde mögliche Kombinationen auftreten.[40] Der
681 Vergleich von zwei Datensätzen erhöht diese Zahl der möglichen Kombinationen 709 Vergleich von zwei Datensätzen erhöht diese Zahl der möglichen Kombinationen
682 auf mehr als eine Trillion.[40] Für diese Anzahl an 710 auf mehr als eine Trillion.[41] Für diese Anzahl an
683 Kombinationen ist eine manuelle Definition von Verarbeitungsfolgen nicht 711 Kombinationen ist eine manuelle Definition von Verarbeitungsfolgen nicht
687 keinen Schluss auf den Zusammenhang von Records zu. 715 keinen Schluss auf den Zusammenhang von Records zu.
688 [37]Hierzu können zunächst verschiedene Variablen zusammengefasst werden, die 716 [40]Hierzu können zunächst verschiedene Variablen zusammengefasst werden, die
689 ähnliche Merkmale aufweisen (z. B. Datumsangaben, Ortsangaben, Namen). 717 ähnliche Merkmale aufweisen (z. B. Datumsangaben, Ortsangaben, Namen).
690 Vergleiche sind nur innerhalb dieser Gruppen sinnhaft. Diese Definition 718 Vergleiche sind nur innerhalb dieser Gruppen sinnhaft. Diese Definition
693 beschrieben: Wenn z. B. eine Taufe nach dem Tod stattfindet, dann ist eine 721 beschrieben: Wenn z. B. eine Taufe nach dem Tod stattfindet, dann ist eine
694 Similarität auszuschließen.[41] Es bleibt eine deutlich minimierte Anzahl an 722 Similarität auszuschließen.[42] Es bleibt eine deutlich minimierte Anzahl an
695 Variablenkombinationen übrig, bei denen ein genauerer Vergleich sinnhaft 723 Variablenkombinationen übrig, bei denen ein genauerer Vergleich sinnhaft
700 728
701 [38]Eine Gruppe von Vergleichen kann vorgenommen werden, wenn in beiden Records 729 [41]Eine Gruppe von Vergleichen kann vorgenommen werden, wenn in beiden Records
702 gleichartige Variablen vorliegen. Dazu ist ein Wissen über die Beziehungen 730 gleichartige Variablen vorliegen. Dazu ist ein Wissen über die Beziehungen
723 Die (teilweise) Übereinstimmung von Vornamen kann Aufschluss 751 Die (teilweise) Übereinstimmung von Vornamen kann Aufschluss
724 über die Zusammenführung der Personen liefern.[42] 752 über die Zusammenführung der Personen liefern.[43]
725 753
737 Übereinstimmung von Nachnamen in unterschiedlichen Kategorien nur 765 Übereinstimmung von Nachnamen in unterschiedlichen Kategorien nur
738 bei surnameUnknown ein Indiz für eine Übereinstimmung ist.[43] 766 bei surnameUnknown ein Indiz für eine Übereinstimmung ist.[44]
739 767
745 birthday und baptismday: Taufdatum und Geburtsdatum liegen oft 773 birthday und baptismday: Taufdatum und Geburtsdatum liegen oft
746 nah beieinander.[44] Eine Person kann nicht vor 774 nah beieinander.[45] Eine Person kann nicht vor
747 ihrer Geburt getauft werden. 775 ihrer Geburt getauft werden.
838 werden, die sich nicht ähnlich sind und dadurch nur schwer über 866 werden, die sich nicht ähnlich sind und dadurch nur schwer über
839 String-Matching-Methoden erkannt werden können (z. B. 867 String-Matching-Methoden erkannt werden können (z. B.
840 »Feuerwehrmann« und 868 »Feuerwehrmann« und
845 hier angenommen, dass es sich nicht um dieselbe Person handelt. Dabei 873 hier angenommen, dass es sich nicht um dieselbe Person handelt. Dabei
846 sind detaillierte Quellen gemeint (z. B. ein konkreter Heiratseintrag mit 874 sind detaillierte Quellen gemeint (z. B. ein konkreter Heiratseintrag mit
847 laufender Nummer in einem Heiratsregister). 875 laufender Nummer in einem Heiratsregister).
851 879
852 [39]Sind im vorigen Abschnitt mögliche Vergleiche zwischen Variablen beschrieben 880 [42]Sind im vorigen Abschnitt mögliche Vergleiche zwischen Variablen beschrieben
853 worden, findet nun eine Definition konkreter Kriterien statt, die ein 881 worden, findet nun eine Definition konkreter Kriterien statt, die ein
862 erheblichen Verbesserung der Laufzeit. 890 erheblichen Verbesserung der Laufzeit.
863 [40]Die meisten hier vorgestellten Regeln sind in Hinblick auf die kulturelle 891 [43]Die meisten hier vorgestellten Regeln sind in Hinblick auf die kulturelle
864 Praxis und den Ablauf von Lebensereignissen logisch. So kann eine Person 892 Praxis und den Ablauf von Lebensereignissen logisch. So kann eine Person
872 mit genealogischen Daten. 900 mit genealogischen Daten.
873 [41]Zunächst sind Records disjunkt, wenn sie auf demselben Eintrag in einer 901 [44]Zunächst sind Records disjunkt, wenn sie auf demselben Eintrag in einer
874 Quelle basieren. Das kann beispielsweise in Taufeinträgen der Fall sein, bei 902 Quelle basieren. Das kann beispielsweise in Taufeinträgen der Fall sein, bei
881 nicht in anderen Einträgen vorkommen können und ein weiterer Vergleich aus 909 nicht in anderen Einträgen vorkommen können und ein weiterer Vergleich aus
882 Laufzeitgründen deshalb nicht notwendig ist.[45] Wenn beide Records 910 Laufzeitgründen deshalb nicht notwendig ist.[46] Wenn beide Records
883 ein Geschlecht aufweisen, dieses aber nicht dasselbe ist, so sind sie 911 ein Geschlecht aufweisen, dieses aber nicht dasselbe ist, so sind sie
894 sterben, bevor sie beerdigt werden kann. 922 sterben, bevor sie beerdigt werden kann.
895 [42]Wenn die Geburtsdaten beider Personen vorhanden und trotzdem unterschiedlich 923 [45]Wenn die Geburtsdaten beider Personen vorhanden und trotzdem unterschiedlich
896 sind, so beschreiben sie nicht dieselbe Person. Ebenso verhält es sich mit 924 sind, so beschreiben sie nicht dieselbe Person. Ebenso verhält es sich mit
900 Abweichungen lässt. 928 Abweichungen lässt.
901 [43]Aus dem Vergleich mit den Eltern ergeben sich einige Zustände, die ein 929 [46]Aus dem Vergleich mit den Eltern ergeben sich einige Zustände, die ein
902 ausschließendes Kriterium darstellen. So kann der Tod des eigenen Vaters 930 ausschließendes Kriterium darstellen. So kann der Tod des eigenen Vaters
911 können. 939 können.
912 [44]Folgende Regeln führen zur Ungleichheit der Records (similarity = 0): 940 [47]Folgende Regeln führen zur Ungleichheit der Records (similarity = 0):
913 941
914 Wenn sex != sex 942 Wenn sex ! = sex
915 Wenn source == source 943 Wenn source = = source
916 Wenn Differenz von birthday von id und deathday von idFather > 9 944 Wenn Differenz von birthday von id und deathday von idFather > 9
923 Monate 951 Monate
924 Wenn birthday von id > deathday von idMother[46] 952 Wenn birthday von id > deathday von idMother[47]
925 Wenn birthday von id > burialday von idMother 953 Wenn birthday von id > burialday von idMother
1018 1046
1019 [45]In der programmtechnischen Umsetzung ist ergänzend eine optionale Variable 1047 [48]Programmtechnisch sind die Vergleiche mit IF-ELSE-Anweisungen umgesetzt. Ferner ist
1048 ergänzend eine optionale Variable
1020 (sortingBySurnameGiven) angelegt, mit der im Fall identischer zu 1049 (sortingBySurnameGiven) angelegt, mit der im Fall identischer zu
1027 1056
1028 [46]Kann nicht erkannt werden, dass zwei Records disjunkt sind, so wird die 1057 [49]Kann nicht erkannt werden, dass zwei Records disjunkt sind, so wird die
1029 Similarität dieser weiter geprüft. Dazu wird ein Fuzzy-Vergleich der Vor- 1058 Similarität dieser weiter geprüft. Dazu wird ein Fuzzy-Vergleich der Vor-
1030 und Nachnamen vorgenommen. Zum Vergleich dieser Strings wird die 1059 und Nachnamen vorgenommen. Zum Vergleich dieser Strings wird die
1031 Jaro-Winkler-Distanz ausgewählt, weil diese bei Georgala et al. zu guten 1060 Jaro-Winkler-Distanz ausgewählt, weil diese bei Georgala et al. zu guten
1032 Ergebnissen führt.[47] Georgala et al. erzielen mittels einer ROC-Kurve[48] ein optimales Ergebnis bei einem Grenzwert von 0,70.[49] Um die Anzahl 1061 Ergebnissen führt.[48] Georgala et al. erzielen mittels einer ROC-Kurve[49] ein optimales Ergebnis bei einem Grenzwert von 0,70.[50] Um die Anzahl
1033 der falschpositiven Zuordnungen zu verringern, wird in unserem Ansatz jedoch 1062 der falschpositiven Zuordnungen zu verringern, wird in unserem Ansatz jedoch
1044 den deutschen Sprachraum ausgerichtet ist. Buchstaben werden dabei in Zahlen 1073 den deutschen Sprachraum ausgerichtet ist. Buchstaben werden dabei in Zahlen
1045 codiert.[50] Ist der 1074 codiert.[51] Ist der
1046 Wert der Kölner Phonetik gleich und liegt die Jaro-Winkler-Distanz bei über 1075 Wert der Kölner Phonetik gleich und liegt die Jaro-Winkler-Distanz bei über
1047 0,60, wird hier ebenfalls von einer Similarität ausgegangen. 1076 0,60, wird hier ebenfalls von einer Similarität ausgegangen. Der Wert der Kölner Phonetik
1048 [47]Nach dem Test der Nachnamen wird zudem die Similarität der Vornamen 1077 wird im Programmcode über die Bibliothek kph ermittelt. Für die Berechnung der Jaro-Winkler-Distanz wird hingegen die Bibliothek
1078 distance genutzt.
1079 [50]Nach dem Test der Nachnamen wird zudem die Similarität der Vornamen
1049 überprüft. Überschreitet die Jaro-Winkler-Distanz auch bei einem Vergleich 1080 überprüft. Überschreitet die Jaro-Winkler-Distanz auch bei einem Vergleich
1055 erhält dann einen Wert von 0. 1086 erhält dann einen Wert von 0.
1056 [48]Die Similaritätsprüfung stützt sich im Algorithmus damit nur auf die 1087 [51]Die Similaritätsprüfung stützt sich im Algorithmus damit nur auf die
1057 Ähnlichkeit von Vor- und Nachnamen. Dabei können perspektivisch auch weitere 1088 Ähnlichkeit von Vor- und Nachnamen. Dabei können perspektivisch auch weitere
1060 eine Kombination dieser zu implementieren. 1091 eine Kombination dieser zu implementieren.
1061 [49]Wenn mehrere Matches vorhanden sind, wird geprüft, welches über die größte 1092 [52]Wenn mehrere Matches vorhanden sind, wird geprüft, welches über die größte
1062 Übereinstimmung verfügt. Nur das passendste wird zusammengeführt. Es wird 1093 Übereinstimmung verfügt. Nur das passendste wird zusammengeführt. Es wird
1069 Ergebnistabelle wiederholt ausgeführt werden. 1100 Ergebnistabelle wiederholt ausgeführt werden.
1070 [50]Neben der Similaritätsprüfung gibt es noch einen sogenannten Prioritätswert. 1101 [53]Neben der Similaritätsprüfung gibt es noch einen sogenannten Prioritätswert.
1071 Dieser wird ermittelt, um nicht nur Disjunktionsregeln und die Ähnlichkeit 1102 Dieser wird ermittelt, um nicht nur Disjunktionsregeln und die Ähnlichkeit
1078 zusammengeführt, wenn sie zugleich verschiedene Variablenkombinationen 1109 zusammengeführt, wenn sie zugleich verschiedene Variablenkombinationen
1079 aufweisen (z. B. beide ein Geburts- und Taufdatum), die die 1110 aufweisen (z. B. beide ein Geburts- und Taufdatum), die die
1080 Disjunktionsprüfung überstanden haben. Darunter fallen folgende 1111 Disjunktionsprüfung überstanden haben. Darunter fallen folgende
1093 1124
1094 [51]Wird erkannt, dass zwei Records dieselbe Entität beschreiben, sind diese 1125 [54]Wird erkannt, dass zwei Records dieselbe Entität beschreiben, sind diese
1095 zusammenzuführen. Es wird ein neuer Record in einer neuen Tabelle kreiert, die 1126 zusammenzuführen. Es wird ein neuer Record in einer neuen Tabelle kreiert, die
1106 separiert zusammengeführt. 1137 separiert zusammengeführt.
1107 [52]Die neue Tabelle enthält neben allen (wie oben beschrieben zusammengeführten) 1138 [55]Die neue Tabelle enthält neben allen (wie oben beschrieben zusammengeführten)
1108 Variablen zudem die Spalte idGlobal. Diese globale ID stellt eine neu erzeugte 1139 Variablen zudem die Spalte idGlobal. Diese globale ID stellt eine neu erzeugte
1114 dieser Variablen. 1145 dieser Variablen.
1115 [53]Solche Records, zu denen kein Pendant im jeweils anderen Datensatz gefunden 1146 [56]Solche Records, zu denen kein Pendant im jeweils anderen Datensatz gefunden
1116 wird, werden unverändert in die neue Tabelle überführt. Ausnahme ist allerdings 1147 wird, werden unverändert in die neue Tabelle überführt. Ausnahme ist allerdings
1141 1172
1173
1142 Tab. 2: Zusätzliche Variablen eines 1174 Tab. 2: Zusätzliche Variablen eines
1143 zusammengeführten Datensatzes. [Goldberg / Mernitz 2023] 1175 zusammengeführten Datensatzes. [Goldberg / Mernitz 2023]
1144 1176
1147 1179
1148 [54]Leipzig ist eine Stadt, an der sich zwei große historische Handelsrouten Europas 1180 [57]Leipzig ist eine Stadt, an der sich zwei große historische Handelsrouten Europas
1149 kreuzen: die Via Regia von Ost nach West sowie die Via Imperii von Nord nach 1181 kreuzen: die Via Regia von Ost nach West sowie die Via Imperii von Nord nach
1150 Süd.[51] Diese 1182 Süd.[52] Diese
1151 geografische Lage bot für die Entwicklung Leipzigs, vor allem als Messe- und 1183 geografische Lage bot für die Entwicklung Leipzigs, vor allem als Messe- und
1156 Informationen bietet Leipzig ein geeignetes Beispiel zur Validierung des 1188 Informationen bietet Leipzig ein geeignetes Beispiel zur Validierung des
1157 beschriebenen Algorithmus. Innerhalb dieser Validierung werden zwei Quellen / 1189 beschriebenen Algorithmus. Innerhalb dieser Validierung werden zwei Quellen / 
1158 Datenbestände betrachtet: die Kartei Leipziger Familien (KLF) und die Kartei 1190 Datenbestände betrachtet: die Kartei Leipziger Familien (KLF) und die Kartei
1160 zumindest teilweise Daten über dieselben Personen enthalten. Aufgrund des 1192 zumindest teilweise Daten über dieselben Personen enthalten. Aufgrund des
1161 unterschiedlichen Gegenstands,[52] vor allem aber wegen unterschiedlicher Zeiträume, sind nicht 1193 unterschiedlichen Gegenstands,[53] vor allem aber wegen unterschiedlicher Zeiträume, sind nicht
1162 alle Personen in beiden Datenbeständen zu finden. Zum Teil spielt auch eine 1194 alle Personen in beiden Datenbeständen zu finden. Zum Teil spielt auch eine
1165 ein. 1197 ein.
1166 [55]In dem folgenden Abschnitt wird zunächst die Struktur der hier verwendeten 1198 [58]In dem folgenden Abschnitt wird zunächst die Struktur der hier verwendeten
1167 Datenbestände beschrieben, bevor der Algorithmus auf sie angewendet wird. Die 1199 Datenbestände beschrieben, bevor der Algorithmus auf sie angewendet wird. Die
1173 1205
1174 [56]Im Folgenden wird zunächst auf die KLF eingegangen. Danach folgt die KLK. 1206 [59]Im Folgenden wird zunächst auf die KLF eingegangen. Danach folgt die KLK.
1175 4.1.1 Kartei Leipziger Familien (ca. 1550–1850) 1207 4.1.1 Kartei Leipziger Familien (ca. 1550–1850)
1176 1208
1177 [57]In der KLF sind viele Informationen über in Leipzig ansässige Familien 1209 [60]In der KLF sind viele Informationen über in Leipzig ansässige Familien
1178 enthalten. Die Kartei wurde von einer Mitarbeiterin der Deutschen 1210 enthalten. Die Kartei wurde von einer Mitarbeiterin der Deutschen
1182 Jahrhunderts. Auf 20.000 Karteikarten sind dort etwa 200.000 1214 Jahrhunderts. Auf 20.000 Karteikarten sind dort etwa 200.000
1183 Personen(einträge) dokumentiert.[53] Die Karteikarten 1215 Personen(einträge) dokumentiert.[54] Die Karteikarten
1184 enthalten jeweils Angaben zu einem Ehemann, seiner Ehefrau und deren 1216 enthalten jeweils Angaben zu einem Ehemann, seiner Ehefrau und deren
1186 Karte verzeichnet. Die Karteikarten sind untereinander nicht über eindeutige 1218 Karte verzeichnet. Die Karteikarten sind untereinander nicht über eindeutige
1187 Identifikatoren wie Kartennummern verknüpft.[54] 1219 Identifikatoren wie Kartennummern verknüpft.[55]
1188 [58]Im Rahmen eines Datenerfassungsprojekts durch den Verein für 1220 [61]Im Rahmen eines Datenerfassungsprojekts durch den Verein für
1189 Computergenealogie wurde die Kartei digitalisiert.[55] Dazu wurden die Scans der Karteikarten manuell 1221 Computergenealogie wurde die Kartei digitalisiert.[56] Dazu wurden die Scans der Karteikarten manuell
1190 abgetippt. Datenfelder im genutzten Datenerfassungssystem (DES) sind der 1222 abgetippt. Datenfelder im genutzten Datenerfassungssystem (DES) sind der
1195 vergeben wird). Des Weiteren existieren besondere, KLF-spezifische Angaben 1227 vergeben wird). Des Weiteren existieren besondere, KLF-spezifische Angaben
1196 zur Rolle, zur Bezugsperson und zur Art der Beziehung zur Bezugsperson.[56] Es gibt die Rollen 1228 zur Rolle, zur Bezugsperson und zur Art der Beziehung zur Bezugsperson.[57] Es gibt die Rollen
1197 Familienoberhaupt, Kind, Ehefrau und Drittperson. Ersteres beschreibt einen 1229 Familienoberhaupt, Kind, Ehefrau und Drittperson. Ersteres beschreibt einen
1204 der Beziehung beschreibt dahingegen das Verhältnis zur Drittperson (Ehemann 1236 der Beziehung beschreibt dahingegen das Verhältnis zur Drittperson (Ehemann
1205 / Ehefrau / Vater). Damit sind die Felder nicht direkt der definierten 1237  / Ehefrau / Vater). Damit sind die Felder nicht direkt der definierten
1206 Normform zuzuordnen, sondern müssen zunächst umgewandelt werden. Dieses 1238 Normform zuzuordnen, sondern müssen zunächst umgewandelt werden. Dieses
1208 beispielhaft, dass die Umwandlung in die Normform aufwendig sein kann. 1240 beispielhaft, dass die Umwandlung in die Normform aufwendig sein kann.
1209 [59]Ein Schwerpunkt dieses Programms besteht dabei in der Umwandlung von 1241 [62]Ein Schwerpunkt dieses Programms besteht dabei in der Umwandlung von
1210 Altersangaben: Dabei wird im Algorithmus der Sonderfall abgedeckt, dass in 1242 Altersangaben: Dabei wird im Algorithmus der Sonderfall abgedeckt, dass in
1216 Separierung wäre ein alternativ mögliches Vorgehen. 1248 Separierung wäre ein alternativ mögliches Vorgehen.
1217 [60]Da Altersangaben nur in Beziehung mit anderen Variablen interpretiert werden 1249 [63]Da Altersangaben nur in Beziehung mit anderen Variablen interpretiert werden
1218 können, bezieht die Aufbereitung dieser Daten weitere Informationen eines 1250 können, bezieht die Aufbereitung dieser Daten weitere Informationen eines
1219 Records mit ein (z. B. das Alter bei Tod und das Todesdatum zur Berechnung 1251 Records mit ein (z. B. das Alter bei Tod und das Todesdatum zur Berechnung
1220 des Geburtszeitpunkts). Für die Aufbereitung ist aufgrund der relativen 1252 des Geburtszeitpunkts). Für die Aufbereitung ist aufgrund der relativen
1222 Datumsangaben des Records notwendig. 1254 Datumsangaben des Records notwendig.
1223 [61]Es wird zunächst geprüft, ob die Zeitangabe einer normierten Schreibweise 1255 [64]Es wird zunächst geprüft, ob die Zeitangabe einer normierten Schreibweise
1224 entspricht. Diese wird hier als D.M.YYYY definiert und darüber ermittelt, ob 1256 entspricht. Diese wird hier als D.M.YYYY definiert und darüber ermittelt, ob
1238 1270
1239 [62]Bei den ersten vier der fünf Fälle kann eine Zeitangabe abgeleitet werden. 1271 [65]Bei den ersten vier der fünf Fälle kann eine Zeitangabe abgeleitet werden.
1240 Im fünften Fall besteht die Herausforderung darin, zu erkennen, dass es sich 1272 Im fünften Fall besteht die Herausforderung darin, zu erkennen, dass es sich
1253 Datumsformat vorliegt. 1285 Datumsformat vorliegt.
1254 [63]Die grundsätzliche Zuordnung der KLF zu den Datenfeldern der Normform wird 1286 [66]Die grundsätzliche Zuordnung der KLF zu den Datenfeldern der Normform wird
1255 wie in Tabelle 3 1287 wie in Tabelle 3
1329 1361
1362
1330 Tab. 3: Direkte Umwandlung der 1363 Tab. 3: Direkte Umwandlung der
1331 KLF-Struktur in die Normform. [Goldberg / Mernitz 2023] 1364 KLF-Struktur in die Normform. [Goldberg / Mernitz 2023]
1332 [64]Die KLF-Variablen Rolle, Bezugsperson, Art der Beziehung und ID werden zudem 1365 [67]Die KLF-Variablen Rolle, Bezugsperson, Art der Beziehung und ID werden zudem
1333 herangezogen, um weitere Variablen der Normform zu füllen (vgl. Tabelle 4). 1366 herangezogen, um weitere Variablen der Normform zu füllen (vgl. Tabelle 4).
1344 Karteikarte. Eine Ehefrau erhält die ID des Familienoberhauptes auf 1377 Karteikarte. Eine Ehefrau erhält die ID des Familienoberhauptes auf
1345 derselben Karteikarte. Eine Drittperson vom Typ Ehefrau / Ehemann 1378 derselben Karteikarte. Eine Drittperson vom Typ Ehefrau / Ehemann
1346 führt dazu, dass bei der Drittperson wie auch bei der Bezugsperson 1379 führt dazu, dass bei der Drittperson wie auch bei der Bezugsperson
1358 1391
1392
1359 Tab. 4: Indirekte Umwandlung der 1393 Tab. 4: Indirekte Umwandlung der
1360 KLF-Struktur in die Normform. [Goldberg / Mernitz 2023] 1394 KLF-Struktur in die Normform. [Goldberg / Mernitz 2023]
1361 1395
1363 1397
1364 [65]Für das Amt Leipzig liegen für die Zeit von 1696 bis 1829 Testamente 1398 [68]Für das Amt Leipzig liegen für die Zeit von 1696 bis 1829 Testamente
1365 innerhalb von 120 Bänden im Sächsischen Staatsarchiv vor.[57] Zum Auffinden von Testamentsvorgängen existiert eine 1399 innerhalb von 120 Bänden im Sächsischen Staatsarchiv vor.[58] Zum Auffinden von Testamentsvorgängen existiert eine
1366 Kartei – die KLK. Auch die KLK ist im Rahmen eines Datenerfassungsprojektes 1400 Kartei – die KLK. Auch die KLK ist im Rahmen eines Datenerfassungsprojektes
1367 des Vereins für Computergenealogie mit Hilfe des DES erfasst worden und online einsehbar.[58] Sie umfasst 4.800 1401 des Vereins für Computergenealogie mit Hilfe des DES erfasst worden und online einsehbar.[59] Sie umfasst 4.800
1368 Karteikarten, auf denen jeweils zu einer Person die entsprechenden Vorgänge 1402 Karteikarten, auf denen jeweils zu einer Person die entsprechenden Vorgänge
1370 Jedoch können auch Drittpersonen auf den Karten erscheinen. Dazu gibt es in 1404 Jedoch können auch Drittpersonen auf den Karten erscheinen. Dazu gibt es in
1371 der KLK die Variable ›Rolle‹, in der zwischen Erblasser*innen und Drittpersonen / 1405 der KLK die Variable ›Rolle‹, in der zwischen Erblasser*innen und Drittpersonen / 
1372 Verwandten unterschieden wird. Dies führt dazu, dass ca. 6.500 1406 Verwandten unterschieden wird. Dies führt dazu, dass ca. 6.500
1376 dokumentiert. 1410 dokumentiert.
1377 [66]Auch die Variablen der KLK-Erfassung lassen sich in die Normform umwandeln. 1411 [69]Auch die Variablen der KLK-Erfassung lassen sich in die Normform umwandeln.
1378 Wie bei der KLF gibt es dabei Variablen, die sich direkt auf die Normform 1412 Wie bei der KLF gibt es dabei Variablen, die sich direkt auf die Normform
1452 1486
1487
1453 Tab. 5: Direkte Umwandlung der 1488 Tab. 5: Direkte Umwandlung der
1454 KLK-Struktur in die Normform. [Goldberg / Mernitz 2023] 1489 KLK-Struktur in die Normform. [Goldberg / Mernitz 2023]
1455 [67]Die indirekte Herleitung betrifft vor allem die Nachnamen. In der KLK sind 1490 [70]Die indirekte Herleitung betrifft vor allem die Nachnamen. In der KLK sind
1456 nämlich die vorherigen Nachnamen mit abgebildet. Wenn der Teilstring 1491 nämlich die vorherigen Nachnamen mit abgebildet. Wenn der Teilstring
1465 angegebene Nachname immer der Geburtsname ist. 1500 angegebene Nachname immer der Geburtsname ist.
1466 [68]Auch bei den IDs findet eine indirekte Zuordnung statt. Wenn eine 1501 [71]Auch bei den IDs findet eine indirekte Zuordnung statt. Wenn eine
1467 Drittperson definiert ist und diese den Typ ›Ehemann‹ oder ›Ehefrau‹ 1502 Drittperson definiert ist und diese den Typ ›Ehemann‹ oder ›Ehefrau‹
1468 aufweist, dann wird die ID des Ehepartners / der Ehepartnerin hinzugefügt. Gleiches 1503 aufweist, dann wird die ID des Ehepartners / der Ehepartnerin hinzugefügt. Gleiches
1469 erfolgt bei 1504 erfolgt bei
1476 Dubletten ist hierbei die Quellenangabe (Band und Blatt) der Testamente. 1511 Dubletten ist hierbei die Quellenangabe (Band und Blatt) der Testamente.
1477 Wenn nur die ID eines Ehepartners / einer Ehepartnerin verändert wird, deutet es darauf 1512 Wenn nur die ID eines Ehepartners / einer Ehepartnerin verändert wird, deutet es darauf
1478 hin, dass 1513 hin, dass
1481 Drittperson fehlt. 1516 Drittperson fehlt.
1482 [69]Des Weiteren wird angenommen, dass die Testamentseröffnung kurz nach dem Tod 1517 [72]Des Weiteren wird angenommen, dass die Testamentseröffnung kurz nach dem Tod
1483 vorgenommen wird. Liegt also kein Todestag vor, so wird das Jahr der 1518 vorgenommen wird. Liegt also kein Todestag vor, so wird das Jahr der
1494 idSpouse1, idSpouse2, idSpouse3 1529 idSpouse1, idSpouse2, idSpouse3
1495 Wenn eine Drittperson (›Rolle‹ == Drittperson / Verwandter) vom Typ 1530 Wenn eine Drittperson (›Rolle‹ = = Drittperson / Verwandter) vom Typ
1496 Ehefrau oder Ehemann vorhanden ist (›Art der Beziehung‹), dann wird 1531 Ehefrau oder Ehemann vorhanden ist (›Art der Beziehung‹), dann wird
1500 idFather, idMother 1535 idFather, idMother
1501 Wenn eine Drittperson vom Typ Vater / Mutter / Sohn / Tochter 1536 Wenn eine Drittperson vom Typ Vater / Mutter / Sohn / Tochter
1502 vorhanden ist, dann wird die ID entsprechend ergänzt. 1537 vorhanden ist, dann wird die ID entsprechend ergänzt.
1509 lastname 1544 lastname
1510 surnamenGiven, surnameUnkown, surnameMarriage1, surnameMarriage2, 1545 surnameGiven, surnameUnkown, surnameMarriage1, surnameMarriage2,
1511 surnameMarriage3 1546 surnameMarriage3
1517 1552
1553
1518 Tab. 6: Indirekte Umwandlung der 1554 Tab. 6: Indirekte Umwandlung der
1519 KLK-Struktur in die Normform. [Goldberg / Mernitz 2023] 1555 KLK-Struktur in die Normform. [Goldberg / Mernitz 2023]
1520 1556
1523 1559
1524 [70]Da sowohl in der KLK und KLF Personen mehrfach genannt werden können, ist 1560 [73]Da sowohl in der KLK und KLF Personen mehrfach genannt werden können, ist
1525 zunächst ein Vergleich der beiden normformatierten Datentabellen mit sich 1561 zunächst ein Vergleich der beiden normformatierten Datentabellen mit sich
1534 auch umgesetzt worden sind. 1570 auch umgesetzt worden sind.
1535 [71]Dennoch wird eine manuelle Überprüfung der zusammengeführten Records 1571 [74]Dennoch wird eine manuelle Überprüfung der zusammengeführten Records
1536 vorgenommen. Da nicht alle Records überprüft werden können, werden nur die 1572 vorgenommen. Da nicht alle Records überprüft werden können, werden nur die
1537 Personen behandelt, deren Geburtsname mit ›A‹ beginnt.[59] Von diesen 4.251 Records werden 651 1573 Personen behandelt, deren Geburtsname mit ›A‹ beginnt.[60] Von diesen 4.251 Records werden 651
1538 zusammengeführt (15,3 Prozent). Dabei konnten einige falschpositive Ergebnisse 1574 zusammengeführt (15,3 Prozent). Dabei konnten einige falschpositive Ergebnisse
1546 Abitzsch (14457495 und 14458366), Maria Arnst (14556375 und 14556424) und Paul 1582 Abitzsch (14457495 und 14458366), Maria Arnst (14556375 und 14556424) und Paul
1547 Arnst (14556496 und 14560610). Bei dem / den Bäcker(n) Anton Arnoldt (14554173 und 1583 Arnst (14556496 und 14560610). Bei dem / den Bäcker(n) Anton Arnoldt (14554173 und
1548 14554184) wird es sich 1584 14554184) wird es sich
1558 Falschpositiven bei 1,7 Prozent. 1594 Falschpositiven bei 1,7 Prozent.
1559 [72]Weiterhin ist auffällig, dass bei vielen Personen ein positiver Prioritätswert 1595 [75]Weiterhin ist auffällig, dass bei vielen Personen ein positiver Prioritätswert
1560 aufgrund gleicher Heiratsdaten oder gleicher Berufsangaben zustande kommt. 1596 aufgrund gleicher Heiratsdaten oder gleicher Berufsangaben zustande kommt.
1568 darstellt. 1604 darstellt.
1569 [73]Die Relevanz von Berufsangaben für den Prioritätswert führt auch dazu, dass 1605 [76]Die Relevanz von Berufsangaben für den Prioritätswert führt auch dazu, dass
1570 etwas mehr Männer (58,7 Prozent) als Frauen zusammengeführt werden. Um mehr 1606 etwas mehr Männer (58,7 Prozent) als Frauen zusammengeführt werden. Um mehr
1578 priorisiert werden. 1614 priorisiert werden.
1579 [74]Bemerkenswert ist auch, dass Vor- und Nachname bei den zusammengeführten 1615 [77]Bemerkenswert ist auch, dass Vor- und Nachname bei den zusammengeführten
1580 Personen in 90,6 Prozent der Fälle exakt übereinstimmen. Das liegt auch darin 1616 Personen in 90,6 Prozent der Fälle exakt übereinstimmen. Das liegt auch darin
1586 »Christine« etc.). 1622 »Christine« etc.).
1587 [75]Zudem ist zu vermuten, dass es im gesamten Datensatz eine nicht näher bekannte 1623 [78]Zudem ist zu vermuten, dass es im gesamten Datensatz eine nicht näher bekannte
1588 Anzahl von falschnegativen Zuordnungen gibt – also Records, die zusammengeführt 1624 Anzahl von falschnegativen Zuordnungen gibt – also Records, die zusammengeführt
1589 werden müssten, es aber nicht wurden. Für diesen Abgleich wäre eine 1625 werden müssten, es aber nicht wurden. Für diesen Abgleich wäre eine
1595 eine mehrfache Iteration also hilfreich sein. 1631 eine mehrfache Iteration also hilfreich sein.
1596 [76]Dass mit dem hier vorgestellten Algorithmus jedoch ein 1632 [79]Dass mit dem hier vorgestellten Algorithmus jedoch ein
1597 erheblicher Teil der tatsächlich zusammenzuführenden Records auch 1633 erheblicher Teil der tatsächlich zusammenzuführenden Records auch
1598 zusammengeführt wird, zeigt ein Vergleich mit der Personenzusammenführung des 1634 zusammengeführt wird, zeigt ein Vergleich mit der Personenzusammenführung des
1599 Genealogie-Programms Ahnenblatt 2.99[60]: Wird die GEDCOM-Datei dort hineingeladen und werden die 1635 Genealogie-Programms Ahnenblatt 2.99[61]: Wird die GEDCOM-Datei dort hineingeladen und werden die
1600 Vorschläge zur Zusammenführung der Personen ohne weiteren manuellen Eingriff 1636 Vorschläge zur Zusammenführung der Personen ohne weiteren manuellen Eingriff
1601 ausgeführt, werden 25.329 von 241.466 Personen zusammengeführt.[61] Das entspricht mit 10,5 1637 ausgeführt, werden 25.329 von 241.466 Personen zusammengeführt.[62] Das entspricht mit 10,5
1602 Prozent einem deutlich geringeren Anteil als im Test der mit »A« beginnenden 1638 Prozent einem deutlich geringeren Anteil als im Test der mit »A« beginnenden
1624 KLK 1660 KLK
1625 413 zusammengeführt bei 5.761 Personen (Anteil: 7,2 Prozent)[62] 1661 413 zusammengeführt bei 5.761 Personen (Anteil: 7,2 Prozent)[63]
1626 41 zusammengeführt bei 5.802 Personen (Anteil: 0,7 Prozent)[63] 1662 41 zusammengeführt bei 5.802 Personen (Anteil: 0,7 Prozent)[64]
1663
1627 1664
1629 Tab. 7: Übersicht über die Anzahl 1666 Tab. 7: Übersicht über die Anzahl
1630 der verknüpften Personen aus den Normformen. [Goldberg / Mernitz 2023] 1667 der verknüpften Personen aus den Normformen. [Goldberg / Mernitz 2023]
1631 [77]Insgesamt sind die Ergebnisse des Algorithmus also gut: Ein nicht näher zu 1668 [80]Insgesamt sind die Ergebnisse des Algorithmus also gut: Ein nicht näher zu
1632 quantifizierender, aber erheblicher Teil der tatsächlich zusammenzuführenden 1669 quantifizierender, aber erheblicher Teil der tatsächlich zusammenzuführenden
1638 die Formalisierung und Automatisierung genealogischer Heuristiken kann 1675 die Formalisierung und Automatisierung genealogischer Heuristiken kann
1639 erweitert und das Record Linkage somit verbessert werden.[64] 1676 erweitert und das Record Linkage somit verbessert werden.[65]
1640 1677
1643 1680
1644 [78]Gleiches mit Gleichem zu verbinden – darin besteht eine Herausforderung im Umgang 1681 [81]Gleiches mit Gleichem zu verbinden – darin besteht eine Herausforderung im Umgang
1645 mit historischen Personendaten. Der vorgestellte Ansatz leistet einen Beitrag, 1682 mit historischen Personendaten. Der vorgestellte Ansatz leistet einen Beitrag,
1661 Anpassung an die jeweiligen Herausforderungen. 1698 Anpassung an die jeweiligen Herausforderungen.
1662 [79]Hierbei zeigt sich sowohl ein großer Vorteil als auch ein großer Nachteil der 1699 [82]Hierbei zeigt sich sowohl ein großer Vorteil als auch ein großer Nachteil der
1663 vorgestellten Lösung: Der Vorteil besteht darin, dass der Algorithmus besonders 1700 vorgestellten Lösung: Der Vorteil besteht darin, dass der Algorithmus besonders
1673 Der Algorithmus kann hier beispielsweise bei der Erstellung von 1710 Der Algorithmus kann hier beispielsweise bei der Erstellung von
1674 Ortsfamilienbüchern ein nützliches Werkzeug sein. 1711 Ortsfamilienbüchern ein nützliches Werkzeug sein. Hierzu gilt es in einem nächsten
1675 [80]Nachteilig ist der Algorithmus dahingegen, wenn nur wenige Informationen über die 1712 Schritt, die Nachnutzung des Programmcodes niederschwelliger möglich zu machen, beispielsweise
1713 durch ein Webinterface. Ziel ist es, dass zwei Normform-Tabellen als CSV-Dateien in
1714 einem Webbrowser hochgeladen werden können. Hier würde zudem die Möglichkeit bestehen,
1715 diverse Funktionen des Algorithmus ab- oder anzuschalten oder Grenzwerte zu variieren.
1716 [83]Nachteilig ist der Algorithmus dahingegen, wenn nur wenige Informationen über die
1676 durch die Records beschriebenen Personen vorhanden sind. Sind beispielsweise nur 1717 durch die Records beschriebenen Personen vorhanden sind. Sind beispielsweise nur
1686 Nichtsdestotrotz stellt das entwickelte Programm ein geeignetes Grundgerüst für 1727 Nichtsdestotrotz stellt das entwickelte Programm ein geeignetes Grundgerüst für
1687 die Anpassung dar. 1728 die Anpassung dar. Weiteres Potenzial besteht in der Evaluation und Integration von
1688 [81] 1729 Methoden maschinellen Lernens, die hier, wie eingangs erläutert, bewusst nicht genutzt
1730 worden sind.
1689 1731
1701 werden öffentlich zur Verfügung gestellt und können zur Forschung und Bildung 1743 werden öffentlich zur Verfügung gestellt und können zur Forschung und Bildung
1702 genutzt werden. Vgl. Kaplan 2015, S. 73. 1744 genutzt werden. Vgl. Kaplan 2015, S. 73.
1703 1745
1707 [3] 1749 [3]
1708 Vgl. Hin et al. 2016, S. 50. 1750 Vgl. Hin et al. 2016, S. 50.
1709 1751
1711 Vgl. Feigenbaum 2016; 1753 Vgl. Feigenbaum 2016;
1712 Hin et al. 2016, S. 50, 52; 1754 Hin et al. 2016, S. 50, 52;
1713 Massey 2017, S. 129, 131. 1755 Massey 2017, S. 129, 131.
1714 1756
1716 Vgl. Massey 2017, 1758 Vgl. Massey 2017,
1717 S. 130. 1759 S. 130.
1718 1760
1728 [8] 1770 [8]
1729 Als Einführung in die Grundlagen des Themas vgl. Gu et al. 1771 Als Einführung in die Grundlagen des Themas vgl. Gu et al.
1730 2003. 1772 2003.
1737 Resultate erzielt sie mit probabilistischen Matching-Techniken. Vgl. Massey 1779 Resultate erzielt sie mit probabilistischen Matching-Techniken. Vgl. Massey
1738 2017, S. 129, 140. 1780 2017, S. 129, 140.
1739 1781
1740 [10] 1782 [10]
1741 Vgl. Gellatly 2015, S. 114, 122. 1783 Vgl. Gellatly 2015, S. 114, 122.
1742 1784
1744 Vgl. 1786 Vgl.
1745 Christen et al. 2015, S. 87. 1787 Christen et al. 2015, S. 87.
1746 1788
1748 1790
1749 Vgl. Georgala et al. 2015, S. 173. 1791 Vgl. Georgala et al. 2015, S. 173.
1750 1792
1751 [13] 1793 [13]
1752 Vgl. Baxter et al. 1794 Vgl. Baxter et al.
1753 2003, S. 2. 1795 2003, S. 2.
1754 1796
1758 Restriktionen einbeziehe, beispielsweise des möglichen 1800 Restriktionen einbeziehe, beispielsweise des möglichen
1759 Schwangerschaftszeitraums der Frau. Vgl. Nanayakkara et al. 1801 Schwangerschaftszeitraums der Frau. Vgl. Nanayakkara et al.
1760 2018. 1802 2018.
1762 [15] 1804 [15]
1763 Vgl. Gellatly 2015, S. 116. 1805 Vgl. Gellatly 2015, S. 116.
1764 1806
1765 [16] 1807 [16]
1766 Vgl. Gellatly 2015, S. 122f. 1808 Vgl. Gellatly 2015, S. 122f.
1767 1809
1768 [17] 1810 [17]
1769 Vgl. Efremova et al. 2015. 1811 Vgl. Efremova et al. 2015.
1770 1812
1771 [18] 1813 [18]
1772 Vgl. Thorvaldsen et al. 2015, S. 1814 Vgl. Thorvaldsen et al. 2015, S.
1773 163f. 1815 163f.
1775 [19] 1817 [19]
1776 Vgl. Thorvaldsen et al. 2015, S. 1818 Vgl. Thorvaldsen et al. 2015, S.
1777 168. 1819 168.
1779 [20] 1821 [20]
1780 Vgl. Georgala et al. 2015, S. 187. 1822 Vgl. Georgala et al. 2015, S. 187.
1781 1823
1795 [24] 1837 [24]
1838 Vgl. Delpeuch et al. 2023.
1839
1840 [25]
1796 Vgl. 1841 Vgl.
1797 Abramitzky et al. 2021. 1842 Abramitzky et al. 2021.
1798
1799 [25]
1800 Vgl. Abramitzky et al. 2021, S. 865.
1801 1843
1802 [26] 1844 [26]
1803 Vgl. Abramitzky et al. 2020, S. 94. 1845 Vgl. Abramitzky et al. 2021, S. 865.
1804 1846
1805 [27] 1847 [27]
1848 Vgl. Abramitzky et al. 2020, S. 94.
1849
1850 [28]
1806 Dieses stellt zugleich 1851 Dieses stellt zugleich
1808 Record-Linkage-Algorithmen in der ökonomischen Forschung dar. Vgl. 1853 Record-Linkage-Algorithmen in der ökonomischen Forschung dar. Vgl.
1809 Abramitzky et al. 2020, S. 106f. 1854 Abramitzky et al. 2020, S. 106f.
1810
1811 [28]
1812
1813 Efremova et al. nennen beispielsweise Variablen, die sie aus der Analyse von
1814 Geburts-, Todes- und Heiratsdokumenten erhalten. Vgl. Efremova et al. 2015,
1815 S. 132.
1816 1855
1817 [29] 1856 [29]
1857
1858 Efremova et al. nennen beispielsweise Variablen, die sie aus der Analyse von
1859 Geburts-, Todes- und Heiratsdokumenten erhalten. Vgl. Efremova et al. 2015,
1860 S. 132.
1861
1862 [30]
1818 Vgl. Gellatly 2015, S. 1863 Vgl. Gellatly 2015, S.
1819 112; Harviainen / Björk 2018, S. 4. 1864 112; Harviainen / Björk 2018, S. 4.
1820 1865
1821 [30] 1866 [31]
1822 Vgl. The Church of Jesus 1867 Vgl. The Church of Jesus
1824 1869
1825 [31] 1870 [32]
1826 Vgl. 1871 Vgl.
1828 1873
1829 [32] 1874 [33]
1830 Vgl. Verein für 1875 Vgl. Verein für
1832 1877
1833 [33] 1878 [34]
1834 In 1879 In
1844 1889
1845 [34] 1890 [35]
1846 Sollten mehr als zwei Datensätze 1891 Sollten mehr als zwei Datensätze
1852 1897
1853 [35] 1898 [36]
1854 Vgl. 1899 Vgl.
1856 1901
1857 [36] 1902 [37]
1858 Ortsangaben 1903 Ortsangaben
1869 Bevölkerung ist es wahrscheinlicher, dass Lebensereignisse in einer 1914 Bevölkerung ist es wahrscheinlicher, dass Lebensereignisse in einer
1870 begrenzten geografischen Distanz stattgefunden haben. Vgl. Bähr et al. 1915 begrenzten geografischen Distanz stattgefunden haben. Vgl. Bähr et al.
1871 1992; Kocka et al. 1980. Für den Erfolg eines Record Linkage kann es also 1916 1992; Kocka et al. 1980. Für den Erfolg eines Record Linkage kann es also
1872 auch relevant sein, ob Orte geografisch nah beieinander zu finden sind. 1917 auch relevant sein, ob Orte geografisch nah beieinander zu finden sind.
1873 Vgl. Efremova et al. 2015, S. 135, 139–141. Die Aufbereitung der Ortsangaben 1918 Vgl. Efremova et al. 2015, S. 135, 139–141. Die Aufbereitung der Ortsangaben
1874 kann an den von Goldberg definierten, auf den deutschen Sprachraum 1919 kann an den von Goldberg definierten, auf den deutschen Sprachraum
1878 1923
1879 [37] 1924 [38]
1880 In der deutschen Sprache enden Frauennamen traditionell 1925 In der deutschen Sprache enden Frauennamen traditionell
1886 1931
1887 [38] 1932 [39]
1888 Zur 1933 Zur
1889 Separierung solcher berufsfernen Angaben kann auf Goldberg / Moeller 2022 hingewiesen werden, die Kriterien zur Bereinigung von Berufsangaben aufstellen. 1934 Separierung solcher berufsfernen Angaben kann auf Goldberg / Moeller 2022 hingewiesen werden, die Kriterien zur Bereinigung von Berufsangaben aufstellen.
1890
1891 [39]
1892 230 = 1.073.741.824.
1893 1935
1894 [40] 1936 [40]
1895 1.073.741.8242 = 1.152.921.504.606.850.000. 1937 230 = 1.073.741.824.
1896 1938
1897 [41] 1939 [41]
1940 1.073.741.8242  = 1.152.921.504.606.850.000.
1941
1942 [42]
1898 Sonderformen bei einzelnen 1943 Sonderformen bei einzelnen
1899 Glaubensgemeinschaften, z. B. die Totentaufe der Mormonen, bleiben 1944 Glaubensgemeinschaften, z. B. die Totentaufe der Mormonen, bleiben
1900 unberücksichtigt. 1945 unberücksichtigt.
1901 1946
1902 [42] 1947 [43]
1903 Der Vergleich darf sich aber nicht nur auf einzelne Vornamen 1948 Der Vergleich darf sich aber nicht nur auf einzelne Vornamen
1911 1956
1912 [43] 1957 [44]
1913 Beispielsweise ist eine Person, die als 1958 Beispielsweise ist eine Person, die als
1918 1963
1919 [44] 1964 [45]
1920 Die hier definierten Regeln 1965 Die hier definierten Regeln
1923 1968
1924 [45] 1969 [46]
1925 Wenn für 1970 Wenn für
1930 1975
1931 [46] 1976 [47]
1932 1977
1936 1981
1937 [47] 1982 [48]
1938 Vgl. Georgala et al. 2015, S. 1983 Vgl. Georgala et al. 2015, S.
1939 187. 1984 187.
1940 1985
1941 [48] 1986 [49]
1942 Receiver Operating Characteristic, vgl. Fan et al. 1987 Receiver Operating Characteristic, vgl. Fan et al.
1943 2006. 1988 2006.
1944 1989
1945 [49]
1946 Vgl. Georgala et al. 2015, S. 185.
1947
1948 [50] 1990 [50]
1949 Vgl. Postel 1969, S. 928. 1991 Vgl. Georgala et al. 2015, S. 185.
1950 1992
1951 [51] 1993 [51]
1952 Vgl. Schönfelder / Börngen 2015, S. 39. 1994 Vgl. Postel 1969, S. 928.
1953 1995
1954 [52] 1996 [52]
1997 Vgl. Schönfelder / Börngen 2015, S. 39.
1998
1999 [53]
1955 Bei der KLK ist vor allem 2000 Bei der KLK ist vor allem
1958 2003
1959 [53] 2004 [54]
1960 Munke 2019, S. 118. 2005 Munke 2019, S. 118.
1961 Personen innerhalb der KLF können also doppelt vorkommen, indem sie auf 2006 Personen innerhalb der KLF können also doppelt vorkommen, indem sie auf
1966 2011
1967 [54] 2012 [55]
1968 Für eine 2013 Für eine
1971 2016
1972 [55] 2017 [56]
1973 Online durchsuchbar, vgl. Verein für Computergenealogie 2018 Online durchsuchbar, vgl. Verein für Computergenealogie
1975 2020
1976 [56] 2021 [57]
1977 Erwähnenswert ist, dass nicht jedes Feld einen Eintrag 2022 Erwähnenswert ist, dass nicht jedes Feld einen Eintrag
1980 2025
1981 [57] 2026 [58]
1982 Sächsisches Staatsarchiv. Bestand 20009 Amt 2027 Sächsisches Staatsarchiv. Bestand 20009 Amt
1984 2029
1985 [58] 2030 [59]
1986 Verein für Computergenealogie 2019–2021. 2031 Verein für Computergenealogie 2019–2021.
1987 2032
1988 [59] 2033 [60]
1989 2034
1994 2039
1995 [60] 2040 [61]
1996 Vgl. Böttcher 2041 Vgl. Böttcher
1998 2043
1999 [61] 2044 [62]
2000 Die Zusammenführung basiert hierbei auf gleichen Namen und 2045 Die Zusammenführung basiert hierbei auf gleichen Namen und
2001 einem gleichen Ereignisdatum (z. B. das Taufdatum) und betrifft auch die 2046 einem gleichen Ereignisdatum (z. B. das Taufdatum) und betrifft auch die
2002 nähere Verwandtschaft der betreffenden Personen wie die Eltern, Kinder oder 2047 nähere Verwandtschaft der betreffenden Personen wie die Eltern, Kinder oder
2003 Geschwister. Vgl. Böttcher 2018, S. 17. 2048 Geschwister. Vgl. Böttcher 2018, S. 17.
2004 2049
2005 [62] 2050 [63]
2006 Hier werden die Daten genutzt, nachdem die KLF und 2051 Hier werden die Daten genutzt, nachdem die KLF und
2010 2055
2011 [63] 2056 [64]
2012 Die KLK enthält zwar 6.524 Personendatensätze. Die 2057 Die KLK enthält zwar 6.524 Personendatensätze. Die
2016 2061
2017 [64] 2062 [65]
2018 2063
2030 2075
2031 Ran Abramitzky / Leah Boustan / Katherine Eriksson / James Feigenbaum / 2076 Ran Abramitzky / Leah Boustan / Katherine Eriksson / James Feigenbaum /
2032 Santiago Pérez: Automated Linking of Historical Data. In: Journal of Economic 2077 Santiago Pérez: Automated Linking of Historical Data. In: Journal of Economic
2033 Literature 59 (2021), H. 3, S. 865–918. DOI: 10.1257/jel.20201599 2078 Literature 59 (2021), H. 3, S. 865–918. DOI: 10.1257/jel.20201599
2034 [Nachweis im GVK] Ran Abramitzky / Roy Mill / Santiago Pérez: Linking individuals across 2079 [Nachweis im GVK] Ran Abramitzky / Roy Mill / Santiago Pérez: Linking individuals across
2035 historical sources: A fully automated approach. In: Historical Methods: A Journal 2080 historical sources: A fully automated approach. In: Historical Methods: A Journal
2036 of Quantitative and Interdisciplinary History 53 (2020), H. 2, S. 94–111. DOI: 10.1080/01615440.2018.1543034 2081 of Quantitative and Interdisciplinary History 53 (2020), H. 2, S. 94–111. DOI: 10.1080/01615440.2018.1543034
2037 [Nachweis im GVK] Jürgen Bähr / Christoph Jentsch / Wolfgang Kuls: Bevölkerungsgeographie. Berlin 2082 [Nachweis im GVK] Jürgen Bähr / Christoph Jentsch / Wolfgang Kuls: Bevölkerungsgeographie. Berlin
2038 u. a. 1992. (= Lehrbuch der allgemeinen Geographie, 9). [Nachweis im GVK] Rohan Baxter / Peter Christen / Tim Churches: A Comparison of Fast Blocking 2083 u. a. 1992. (= Lehrbuch der allgemeinen Geographie, 9). [Nachweis im GVK] Rohan Baxter / Peter Christen / Tim Churches: A Comparison of Fast Blocking
2039 Methods for Record Linkage. 2003. PDF. [online]Dirk Böttcher: Ahnenblatt Handbuch. 2018. PDF. [online]Peter Christen / Dinusha Vatsalan / Zhichun Fu: Advanced Record Linkage Methods 2084 Methods for Record Linkage. 2003. PDF. [online]Dirk Böttcher: Ahnenblatt Handbuch. 2018. PDF. [online]Peter Christen / Dinusha Vatsalan / Zhichun Fu: Advanced Record Linkage Methods
2040 and Privacy Aspects for Population Reconstruction. A Survey and Case Studies. In: 2085 and Privacy Aspects for Population Reconstruction. A Survey and Case Studies. In:
2041 Population Reconstruction. Hg. von Gerrit Bloothooft / Peter Christen / Kees 2086 Population Reconstruction. Hg. von Gerrit Bloothooft / Peter Christen / Kees
2042 Mandemakers / Marijn Schraagen. Cham u. a. 2015, S. 87–110. DOI: 10.1007/978-3-319-19884-2_5 2087 Mandemakers / Marijn Schraagen. Cham u. a. 2015, S. 87–110. DOI: 10.1007/978-3-319-19884-2_5
2043 [Nachweis im GVK] The Church of Jesus Christ of Latter-day Saints: The GEDCOM Standard. Salt Lake City 2088 [Nachweis im GVK] The Church of Jesus Christ of Latter-day Saints: The GEDCOM Standard. Salt Lake City
2044 2019. Release 2089 2019. Release
2045 5.5.1. vom 15.11.2019. PDF. [online]Julia Efremova / Bijan Ranjbar-Sahraei / Hossein Rahmani / Frans A. Oliehoek / 2090 5.5.1. vom 15.11.2019. PDF. [online]Antonin Delpeuch / Adrian Pohl / Fabian Steeg / Thad Guidry Sr. / Osma Suominen: Reconciliation
2046 Toon Calders / Karl Tuyls / Gerhard Weiss: Multi-Source Entity Resolution for 2091 Service API v0.2. A Protocol for Data Matching on the Web. Final Community Group Report.
2047 Genealogical Data. In: Population Reconstruction. Hg. von Gerrit Bloothooft / 2092 10.04.2023. HTML. [online]Julia Efremova / Bijan Ranjbar-Sahraei / Hossein Rahmani / Frans A. Oliehoek /
2048 Peter Christen / Kees Mandemakers / Marijn Schraagen. Cham u. a. 2015, S. 129–154. 2093 Toon Calders / Karl Tuyls / Gerhard Weiss: Multi-Source Entity Resolution for
2049 DOI: 10.1007/978-3-319-19884-2_7 [Nachweis im GVK] Jerome Fan / Suneel Upadhye / Andrew Worster: Understanding receiver operating 2094 Genealogical Data. In: Population Reconstruction. Hg. von Gerrit Bloothooft /
2095 Peter Christen / Kees Mandemakers / Marijn Schraagen. Cham u. a. 2015, S. 129–154.
2096 DOI: 10.1007/978-3-319-19884-2_7 [Nachweis im GVK] Jerome Fan / Suneel Upadhye / Andrew Worster: Understanding receiver operating
2050 characteristic (ROC) curves. In: Canadian Journal of Emergency Medicine 8 (2006), 2097 characteristic (ROC) curves. In: Canadian Journal of Emergency Medicine 8 (2006),
2051 H. 1, S. 19–20. DOI: 10.1017/S1481803500013336 [Nachweis im GVK] James J. Feigenbaum: Automated census record linking: a machine learning 2098 H. 1, S. 19–20. DOI: 10.1017/S1481803500013336 [Nachweis im GVK] James J. Feigenbaum: Automated census record linking: a machine learning
2052 approach. 2016. Handle: 2144/27526Eli Fure: Interactive Record Linkage: The Cumulative Construction of Life 2099 approach. 2016. Handle: 2144/27526Eli Fure: Interactive Record Linkage: The Cumulative Construction of Life
2053 Courses. In: Demographic Research 3 (2000). 12.12.2000. DOI: 10.4054/DemRes.2000.3.11Corry Gellatly: Reconstructing Historical Populations from Genealogical Data 2100 Courses. In: Demographic Research 3 (2000). 12.12.2000. DOI: 10.4054/DemRes.2000.3.11Corry Gellatly: Reconstructing Historical Populations from Genealogical Data
2054 Files. In: Population Reconstruction. Hg. von Gerrit Bloothooft / Peter Christen / 2101 Files. In: Population Reconstruction. Hg. von Gerrit Bloothooft / Peter Christen /
2055 Kees Mandemakers / Marijn Schraagen. Cham u. a. 2015, S. 111–128. DOI: 10.1007/978-3-319-19884-2_6 2102 Kees Mandemakers / Marijn Schraagen. Cham u. a. 2015, S. 111–128. DOI: 10.1007/978-3-319-19884-2_6
2056 [Nachweis im GVK] Kleanthi Georgala / Benjamin van der Burgh / Marvin Meeng / Arno Knobbe: Record 2103 [Nachweis im GVK] Kleanthi Georgala / Benjamin van der Burgh / Marvin Meeng / Arno Knobbe: Record
2057 Linkage in Medieval and Early Modern Text. In: Population Reconstruction. Hg. von 2104 Linkage in Medieval and Early Modern Text. In: Population Reconstruction. Hg. von
2058 Gerrit Bloothooft / Peter Christen / Kees Mandemakers / Marijn Schraagen. Cham u. 2105 Gerrit Bloothooft / Peter Christen / Kees Mandemakers / Marijn Schraagen. Cham u.
2059 a. 2015, S. 173–195. DOI: 10.1007/978-3-319-19884-2_9 [Nachweis im GVK] Jan Michael Goldberg: Kontextsensitive Entscheidungsfindung zur automatisierten 2106 a. 2015, S. 173–195. DOI: 10.1007/978-3-319-19884-2_9 [Nachweis im GVK] Jan Michael Goldberg: Kontextsensitive Entscheidungsfindung zur automatisierten
2060 Identifizierung und Clusterung deutschsprachiger Urbanonyme. In: Zeitschrift für 2107 Identifizierung und Clusterung deutschsprachiger Urbanonyme. In: Zeitschrift für
2061 digitale Geisteswissenschaften 7 (2022). 10.10.2022. DOI: 10.17175/2022_005Jan Michael Goldberg / Katrin Moeller: Automatisierte Identifikation und 2108 digitale Geisteswissenschaften 7 (2022). 10.10.2022. DOI: 10.17175/2022_005Jan Michael Goldberg / Katrin Moeller: Automatisierte Identifikation und
2062 Lemmatisierung historischer Berufsbezeichnungen in deutschsprachigen 2109 Lemmatisierung historischer Berufsbezeichnungen in deutschsprachigen
2063 Datenbeständen. In: Zeitschrift für digitale Geisteswissenschaften 7 (2022). 08.03.2022. 2110 Datenbeständen. In: Zeitschrift für digitale Geisteswissenschaften 7 (2022). 08.03.2022.
2064 DOI: 10.17175/2022_002Lifang Gu / Rohan Baxter / Deanne Vickers / Chris Rainsford: Record Linkage: 2111 DOI: 10.17175/2022_002Lifang Gu / Rohan Baxter / Deanne Vickers / Chris Rainsford: Record Linkage:
2065 Current Practice and Future Directions. In: CMIS Technical Report 03/83 (2003). 2112 Current Practice and Future Directions. In: CMIS Technical Report 03/83 (2003).
2066 PDF. [online]J. Tuomas Harviainen / Bo-Christer Björk: Genealogy, GEDCOM, and popularity 2113 PDF. [online]J. Tuomas Harviainen / Bo-Christer Björk: Genealogy, GEDCOM, and popularity
2067 implications. In: Informaatiotutkimus 37 (2018), H. 3, S. 4–14. DOI: 10.23978/inf.76066 [Nachweis im GVK] Saskia Hin / Dalia A. Conde / Adam Lenart: New light on Roman census papyri 2114 implications. In: Informaatiotutkimus 37 (2018), H. 3, S. 4–14. DOI: 10.23978/inf.76066 [Nachweis im GVK] Saskia Hin / Dalia A. Conde / Adam Lenart: New light on Roman census papyri
2068 through semi-automated record linkage. In: Historical Methods: A Journal of 2115 through semi-automated record linkage. In: Historical Methods: A Journal of
2069 Quantitative and Interdisciplinary History 49 (2016), H. 1, S. 50–65. DOI: 10.1080/01615440.2015.1071226 2116 Quantitative and Interdisciplinary History 49 (2016), H. 1, S. 50–65. DOI: 10.1080/01615440.2015.1071226
2070 [Nachweis im GVK] Frédéric Kaplan: The Venice Time Machine. In: DocEng ’15: Proceedings of the 2117 [Nachweis im GVK] Frédéric Kaplan: The Venice Time Machine. In: DocEng ’15: Proceedings of the
2071 2015 ACM Symposium on Document Engineering (DocEng, Lausanne, 08.–11.09.2015). New 2118 2015 ACM Symposium on Document Engineering (DocEng, Lausanne, 08.–11.09.2015). New
2072 York 2015, S. 73. DOI: 10.1145/2682571.2797071Jürgen Kocka / Karl Ditt / Josef Mooser / Heinz Reif / Reinhard Schüren: 2119 York 2015, S. 73. DOI: 10.1145/2682571.2797071Jürgen Kocka / Karl Ditt / Josef Mooser / Heinz Reif / Reinhard Schüren:
2073 Familie und soziale Platzierung. Studien zum Verhältnis von Familie, sozialer 2120 Familie und soziale Platzierung. Studien zum Verhältnis von Familie, sozialer
2074 Mobilität und Heiratsverhalten an westfälischen Beispielen im späten 18. und 19. 2121 Mobilität und Heiratsverhalten an westfälischen Beispielen im späten 18. und 19.
2075 Jahrhundert. Wiesbaden 1980 (= Forschungsberichte des Landes Nordrhein-Westfalen, 2122 Jahrhundert. Wiesbaden 1980 (= Forschungsberichte des Landes Nordrhein-Westfalen,
2076 2953). DOI: 10.1007/978-3-322-87746-8Catherine G. Massey: Playing with matches: An assessment of accuracy in linked 2123 2953). DOI: 10.1007/978-3-322-87746-8Catherine G. Massey: Playing with matches: An assessment of accuracy in linked
2077 historical data. In: Historical Methods: A Journal of Quantitative and 2124 historical data. In: Historical Methods: A Journal of Quantitative and
2078 Interdisciplinary History 50 (2017), H. 3, S. 129–143. DOI: 10.1080/01615440.2017.1288598 2125 Interdisciplinary History 50 (2017), H. 3, S. 129–143. DOI: 10.1080/01615440.2017.1288598
2079 [Nachweis im GVK] Martin Munke: Citizen Science / Bürgerwissenschaft. Projekte, Probleme, 2126 [Nachweis im GVK] Martin Munke: Citizen Science / Bürgerwissenschaft. Projekte, Probleme,
2080 Perspektiven am Beispiel Sachsen. In: Forschungsdesign 4.0. Datengenerierung und 2127 Perspektiven am Beispiel Sachsen. In: Forschungsdesign 4.0. Datengenerierung und
2081 Wissenstransfer in interdisziplinärer Perspektive. Hg. von Jens Klingner / Merve 2128 Wissenstransfer in interdisziplinärer Perspektive. Hg. von Jens Klingner / Merve
2082 Lühr (Dresden, 19.–21.04.2018). Dresden 2019, S. 107–124. DOI: 10.25366/2019.11Charini Nanayakkara / Peter Christen / Thilina Ranbaduge: Temporal graph-based 2129 Lühr (Dresden, 19.–21.04.2018). Dresden 2019, S. 107–124. DOI: 10.25366/2019.11Charini Nanayakkara / Peter Christen / Thilina Ranbaduge: Temporal graph-based
2083 clustering for historical record linkage. In: Proceedings of 14th International 2130 clustering for historical record linkage. In: Proceedings of 14th International
2086 Personennamen auf der Grundlage der Gestaltanalyse. In: IBM-Nachrichten 19 (1969), 2133 Personennamen auf der Grundlage der Gestaltanalyse. In: IBM-Nachrichten 19 (1969),
2087 S. 925–931. [Nachweis im GVK] Günther Schönfelder / Michael Börngen: Naturräumliche Grundlagen. Landschaft 2134 S. 925–931. [Nachweis im GVK] Günther Schönfelder / Michael Börngen: Naturräumliche Grundlagen. Landschaft
2088 und Klima. In: Geschichte der Stadt Leipzig. Hg. von Uwe John / Enno Bünz. 4 Bde. 2135 und Klima. In: Geschichte der Stadt Leipzig. Hg. von Uwe John / Enno Bünz. 4 Bde.
2089 Leipzig 2015–2019. Bd. 1 (2015): Von den Anfängen bis zur Reformation, S. 33–47. 2136 Leipzig 2015–2019. Bd. 1 (2015): Von den Anfängen bis zur Reformation, S. 33–47.
2090 [Nachweis im GVK] Peter Schulz: GEDTOOL. Makrosammlung für GEDCOM-Dateien. V. 2.7 vom 14.09.2017. 2137 [Nachweis im GVK] Peter Schulz: GEDTOOL. Makrosammlung für GEDCOM-Dateien. V. 2.7 vom 14.09.2017.
2091 PDF. [online] Gunnar Thorvaldsen / Andersen Trygve / Hilde L. Sommerseth: Record Linkage in 2138 PDF. [online] Gunnar Thorvaldsen / Andersen Trygve / Hilde L. Sommerseth: Record Linkage in
2092 the Historical Population Register for Norway. In: Population Reconstruction. 2139 the Historical Population Register for Norway. In: Population Reconstruction.
2093 Hg. von Gerrit Bloothooft / Peter Christen / Kees Mandemakers / Marijn Schraagen. 2140 Hg. von Gerrit Bloothooft / Peter Christen / Kees Mandemakers / Marijn Schraagen.
2094 Cham u. a. 2015, S. 155–171. DOI: 10.1007/978-3-319-19884-2_8 [Nachweis im GVK] Time Machine Organisation: Local Time Machines. 2022. HTML. [online]Verein für Computergenealogie (2016a): Gedbas4all / Datenmodell. In: GenWiki. 2141 Cham u. a. 2015, S. 155–171. DOI: 10.1007/978-3-319-19884-2_8 [Nachweis im GVK] Time Machine Organisation: Local Time Machines. 2022. HTML. [online]Verein für Computergenealogie (2016a): Gedbas4all / Datenmodell. In: GenWiki.
2095 Das Genealogie-Wiki. 2016. HTML. [online] Verein für Computergenealogie (2016b): Gedbas4all / Datumsangaben. In: GenWiki. 2142 Das Genealogie-Wiki. 2016. HTML. [online] Verein für Computergenealogie (2016b): Gedbas4all / Datumsangaben. In: GenWiki.
2096 Das Genealogie-Wiki. 2016. HTML. [online]Verein für Computergenealogie: Kartei Leipziger Familien. In: GenWiki. Das 2143 Das Genealogie-Wiki. 2016. HTML. [online]Verein für Computergenealogie: Kartei Leipziger Familien. In: GenWiki. Das
2102 2149
2150
2151
2103 Abbildungs- und Tabellenverzeichnis 2152 Abbildungs- und Tabellenverzeichnis
2104 2153
2105 2154 Abb. 1: Ablauf der Datenverarbeitung. [Goldberg / Mernitz 2023]
2106 Abb. 1: 2155 Abb. 2: Funktionsweise des Algorithmus als Nassi-Shneiderman-Diagramm. [Goldberg / Mernitz
2107 Ablauf der Datenverarbeitung. [Goldberg / Mernitz 2023]
2108
2109
2110 Abb. 2:
2111 Funktionsweise des Algorithmus als Nassi-Shneiderman-Diagramm. [Goldberg / Mernitz
2112 2023] 2156 2023]
2113
2114
2115 Tab. 1: 2157 Tab. 1:
2116 Definition von Datenfeldern. [Goldberg / Mernitz 2023] 2158 Definition von Datenfeldern. [Goldberg / Mernitz 2023]
2117
2118
2119 Tab. 2: 2159 Tab. 2:
2120 Zusätzliche Variablen eines zusammengeführten Datensatzes. [Goldberg / Mernitz 2023] 2160 Zusätzliche Variablen eines zusammengeführten Datensatzes. [Goldberg / Mernitz 2023]
2121
2122
2123 Tab. 3: 2161 Tab. 3:
2124 Direkte Umwandlung der KLF-Struktur in die Normform. [Goldberg / Mernitz 2023] 2162 Direkte Umwandlung der KLF-Struktur in die Normform. [Goldberg / Mernitz 2023]
2125
2126
2127 Tab. 4: 2163 Tab. 4:
2128 Indirekte Umwandlung der KLF-Struktur in die Normform. [Goldberg / Mernitz 2023] 2164 Indirekte Umwandlung der KLF-Struktur in die Normform. [Goldberg / Mernitz 2023]
2129
2130
2131 Tab. 5: 2165 Tab. 5:
2132 Direkte Umwandlung der KLK-Struktur in die Normform. [Goldberg / Mernitz 2023] 2166 Direkte Umwandlung der KLK-Struktur in die Normform. [Goldberg / Mernitz 2023]
2133
2134
2135 Tab. 6: 2167 Tab. 6:
2136 Indirekte Umwandlung der KLK-Struktur in die Normform. [Goldberg / Mernitz 2023] 2168 Indirekte Umwandlung der KLK-Struktur in die Normform. [Goldberg / Mernitz 2023]
2137
2138
2139 Tab. 7: 2169 Tab. 7:
2140 Übersicht über die Anzahl der verknüpften Personen aus den Normformen. [Goldberg / 2170 Übersicht über die Anzahl der verknüpften Personen aus den Normformen. [Goldberg /
2141 Mernitz 2023] 2171 Mernitz 2023]