Versionen vergleichen von : Automatisiertes Record Linkage in prosopographischen Datenbeständen am Beispiel historischer Quellen Leipzigs
Alt | Neu | ||
---|---|---|---|
1 | Automatisiertes Record Linkage in prosopographischen Datenbeständen am Beispiel historischer Quellen Leipzigs | 1 | Automatisiertes Record Linkage in prosopographischen Datenbeständen am Beispiel historischer Quellen Leipzigs |
2 | |||
2 | 3 | ||
9 | 10 | ||
10 | DOI: 10.17175/2023_001 | 11 | DOI: 10.17175/2023_001_v2 |
11 | Nachweis im OPAC der Herzog August Bibliothek: | 12 | Nachweis im OPAC der Herzog August Bibliothek: 185844733X |
12 | Erstveröffentlichung: 26.01.2023 | 13 | Erstveröffentlichung: 26.01.2023 |
14 | Version 2.0: 29.09.2023 | ||
13 | Lizenz: Sofern nicht anders angegeben | 15 | Lizenz: Sofern nicht anders angegeben |
16 | Medienlizenzen: Medienrechte liegen bei den Autor*innen | 18 | Medienlizenzen: Medienrechte liegen bei den Autor*innen |
17 | Letzte Überprüfung aller Verweise: | 19 | Letzte Überprüfung aller Verweise: 31.08.2023 |
18 | GND-Verschlagwortung: Duplikaterkennung | Datenverknüpfung | Personenbezogene Daten | Algorithmus | Genealogie | Geschichtswissenschaft | | 20 | GND-Verschlagwortung: Duplikaterkennung | Datenverknüpfung | Personenbezogene Daten | Algorithmus | Genealogie | Geschichtswissenschaft | |
19 | Empfohlene Zitierweise: Jan Michael Goldberg, Marcel Mernitz: Automatisiertes Record Linkage in prosopographischen | 21 | Empfohlene Zitierweise: Jan Michael Goldberg / Marcel Mernitz: Automatisiertes Record Linkage in prosopographischen |
20 | Datenbeständen am Beispiel historischer Quellen Leipzigs. In: Zeitschrift für digitale Geisteswissenschaften 8 (2023). HTML / XML / PDF. DOI: 10.17175/2023_001 | 22 | Datenbeständen am Beispiel historischer Quellen Leipzigs. In: Zeitschrift für digitale Geisteswissenschaften 8 (2023). 26.01.2023. Version 2.0 vom 29.09.2023. HTML / XML / PDF. DOI: 10.17175/2023_001_v2 |
21 | |||
22 | 23 | ||
26 | Abstract | 27 | Abstract |
28 | |||
27 | In dieser Studie wird ein automatisierter Ansatz zum Record Linkage in | 29 | In dieser Studie wird ein automatisierter Ansatz zum Record Linkage in |
53 | 55 | ||
56 | |||
57 | |||
58 | |||
59 | Version 2.0 (29.09.2023) | ||
60 | Inhaltliche Ergänzungen an mehreren Stellen gemäß Gutachten. | ||
54 | 61 | ||
135 | historischen Leipziger Quellen unterzieht. Abschließend wird das Ergebnis | 142 | historischen Leipziger Quellen unterzieht. Abschließend wird das Ergebnis |
136 | zusammengefasst. Der Algorithmus selbst wird in der Programmiersprache Python 3. | 143 | zusammengefasst. Der Algorithmus selbst wird in der Programmiersprache Python 3.8 |
137 | umgesetzt und ist im Online-Repositorium zu finden. | 144 | umgesetzt und ist im Online-Repositorium zu finden. |
160 | [6]Zum Record Linkage können verschiedenste Variablen herangezogen werden. | 167 | [6]Zum Record Linkage können verschiedenste Variablen herangezogen werden. |
161 | Grundlegend dabei ist, dass Variablen | 168 | Grundlegend dabei ist, dass Variablen / Attribute zur Verfügung stehen, die |
162 | einen identischen Schlüssel aufweisen.[13] Dies kann beispielsweise der Name, das Geburtsdatum | 169 | einen identischen Schlüssel aufweisen.[13] Dies kann beispielsweise der Name, das Geburtsdatum |
171 | Vornamens.[16] | 178 | Vornamens.[16] |
172 | [8]Efremova et | 179 | [8]Efremova et al. nutzen dahingegen ein ›disjunctive blocking‹.[17] Darin werden die ersten |
173 | Buchstaben eines Namens einer phonetischen Analyse unterzogen. Nur, wenn diese | 180 | Buchstaben eines Namens einer phonetischen Analyse unterzogen. Nur, wenn diese |
178 | Distanz. | 185 | Distanz. |
179 | [9]Statt einer binären Verknüpfung (Zuordnung | 186 | [9]Statt einer binären Verknüpfung (Zuordnung / keine Zuordnung) gibt es auch |
180 | Systeme, die Abstufungen verwenden. Sichere Verknüpfungen werden darin anders | 187 | Systeme, die Abstufungen verwenden. Sichere Verknüpfungen werden darin anders |
184 | Verknüpfung.[19] | 191 | Verknüpfung.[19] |
185 | [10]Anhand englischer Daten zeigen Georgala et | 192 | [10]Anhand englischer Daten zeigen Georgala et al., dass String-Metriken wie die |
186 | Levenshtein- oder Jaro-Winkler-Distanz besser als phonetische | 193 | Levenshtein- oder Jaro-Winkler-Distanz besser als phonetische |
189 | [11]Zur Unterstützung des Record Linkage existieren verschiedene Programme. In | 196 | [11]Zur Unterstützung des Record Linkage existieren verschiedene Programme. In |
190 | diese | 197 | diese wird hier nicht im Detail eingeführt. Lediglich beispielhaft genannt werden |
191 | | 198 | drei Lösungen. Eine Lösung, die explizit auf das Record Linkage von genealogischen |
192 | GEDCOM-Dateien (GEnealogical Data COMmunication, siehe unten) ausgelegt ist: GedTool.[21] Zur | 199 | GEDCOM-Dateien (GEnealogical Data COMmunication, siehe unten) ausgelegt ist: GedTool.[21] Zur Identifizierung von Dateneinträgen zu gleichen Personen können darin bis zu acht |
193 | | 200 | Kriterien wie der Vorname, der Nachname |
194 | oder eine ID bestimmt werden, | 201 | oder eine ID bestimmt werden. Stimmen diese überein, kann ein Record Linkage stattfinden. |
195 | | 202 | Alle Einträge, die den definierten Kriterien entsprechen, |
196 | werden gemeinsam angezeigt und können | 203 | werden gemeinsam angezeigt und können nachfolgend manuell zusammengeführt |
197 | werden. Eine phonetische Suche mit den Algorithmen Soundex, Kölner | 204 | werden. Eine phonetische Suche mit den Algorithmen Soundex, Kölner |
198 | Phonetik und Double Metaphone kann ebenfalls ausgeführt werden.[22] Hierbei handelt es | 205 | Phonetik und Double Metaphone kann ebenfalls ausgeführt werden.[22] Hierbei handelt es |
199 | sich also um eine semi-automatisierte Lösung. | 206 | sich demnach um eine semi-automatisierte Lösung. |
200 | [12]Ein weiteres Record-Linkage-Programm stellt Demolink dar. Fure evaluiert dieses anhand norwegischer Daten und kommt zu dem | 207 | [12]Ein weiteres Record-Linkage-Programm stellt Demolink dar. Eli Fure evaluiert dieses anhand norwegischer Daten. Sie kommt zu dem |
201 | Schluss, dass eine Vorstellung über den historischen Kontext einer Quelle | 208 | Schluss, dass für die Anwendung eine Vorstellung über den historischen Kontext einer |
202 | notwendig ist, um – im Vergleich mit einer automatisierten Lösung – gute | 209 | Quelle |
203 | Ergebnisse zu erzielen. Damit meint sie, dass die Forschenden z. B. Wissen | 210 | notwendig ist, um bessere Ergebnisse als eine automatisierte Lösung zu erzielen. Damit |
211 | meint sie, dass die Forschenden u. a. Wissen | ||
204 | darüber haben müssen, welche Namen im untersuchten Gebiet gleich sind, ohne | 212 | darüber haben müssen, welche Namen im untersuchten Gebiet gleich sind, ohne |
205 | dass ein Algorithmus sie zuordnen kann. Ein Beispiel dafür ist, dass die Namen | 213 | dass ein Algorithmus sie zuordnen kann. Hierzu seien |
206 | Goldberg und Goldbrich in Nordböhmen und der südlichen Oberlausitz bis etwa zur | 214 | menschliche Eigenschaften notwendig.[23] Ein Beispiel dafür sind die Namen |
207 | zweiten Hälfte des 18. Jahrhunderts synonym verwendet werden. Hierzu seien | 215 | Goldberg und Goldbrich, die in Nordböhmen und der südlichen Oberlausitz bis etwa zur |
208 | menschliche Eigenschaften notwendig.[23] | 216 | zweiten Hälfte des 18. Jahrhunderts synonym verwendet werden. |
209 | [13]Abramitzky et al. zeigen jedoch auf, dass auch automatisierte Vorgehensweisen | 217 | [13]Zuletzt genannt wird OpenRefine. Zwar hat OpenRefine ein breiteres Anwendungsgebiet, kann jedoch auch zum Rekord Linkage verwendet werden. |
210 | zufriedenstellende Ergebnisse erzielen können.[24] Da nie mit Sicherheit bestimmt werden kann, | 218 | Ein Vorteil ist, dass hierdurch eigene Daten mit Referenzressourcen wie Wikidata abgeglichen |
219 | und verbunden werden können. Auch unterstützt OpenRefine die Reconciliation Service API, ein Protokoll zum Datenmatching im Web.[24] | ||
220 | [14]Abramitzky et al. zeigen jedoch auf, dass auch automatisierte Vorgehensweisen | ||
221 | zufriedenstellende Ergebnisse erzielen können.[25] Da nie mit Sicherheit bestimmt werden kann, | ||
211 | ob zwei Records tatsächlich dieselbe Entität beschreiben, sind solche Vorgehen | 222 | ob zwei Records tatsächlich dieselbe Entität beschreiben, sind solche Vorgehen |
212 | probabilistisch. Bei einem Vergleich verschiedener Methoden durch Abramitzky et | 223 | probabilistisch. Bei einem Vergleich verschiedener Methoden durch Abramitzky et al. |
213 | erreichen auch automatisierte Ansätze Falschpositivraten von unter fünf Prozent. Zudem | 224 | erreichen auch automatisierte Ansätze Falschpositivraten von unter fünf Prozent. Zudem |
214 | zeigen sie, dass auch Menschen nicht frei von Fehlern sind und ebenfalls falschpositive | 225 | zeigen sie, dass auch Menschen nicht frei von Fehlern sind und ebenfalls falschpositive |
215 | Ergebnisse erzeugen.[ | 226 | Ergebnisse erzeugen.[26] In ihrem |
216 | automatischen Ansatz demonstrieren Abramitzky et | 227 | automatischen Ansatz demonstrieren Abramitzky et al. ein dreischrittiges |
217 | Verfahren: Zunächst sind (1.) Variablen für die Verknüpfung auszuwählen, dann | 228 | Verfahren: Zunächst sind (1.) Variablen für die Verknüpfung auszuwählen, dann |
220 | ein, schließlich wird (3.) die Wahrscheinlichkeit der Übereinstimmung | 231 | ein, schließlich wird (3.) die Wahrscheinlichkeit der Übereinstimmung |
221 | bewertet.[ | 232 | bewertet.[27] |
222 | Die hohe Verlässlichkeit ihrer Vorgehensweise zeigt sich darin, dass sie bei | 233 | Die hohe Verlässlichkeit ihrer Vorgehensweise zeigt sich darin, dass sie bei |
224 | Verknüpfungen ihrer Daten ähnliche Resultate wie in bereits bestehenden, | 235 | Verknüpfungen ihrer Daten ähnliche Resultate wie in bereits bestehenden, |
225 | manuellen Verknüpfungen erhalten.[27] | 236 | manuellen Verknüpfungen erhalten.[28] |
237 | [15]Da der Algorithmus mit der Programmiersprache Python umgesetzt wird, liegt auch die | ||
238 | Verwendung Python-spezifischer Bibliotheken nahe (z. B. RecordLinkage von Jonathan de Bruin). Zunächst jedoch wird der Algorithmus fernab von den Möglichkeiten | ||
239 | oder Restriktionen programmiersprachenspezifischer Bibliotheken entwickelt. Deswegen | ||
240 | findet keine Vorfestlegung auf solche statt. Zugleich aber sind solche Bibliotheken | ||
241 | sinnvolle Werkzeuge, um Record-Linkage-Herausforderungen praktisch zu begegnen; auch | ||
242 | zur Umsetzung des Algorithmus in diesem Fall. | ||
243 | [16]Grundsätzlich ist es zudem möglich, Methoden des maschinellen Lernens auf Record-Linkage-Herausforderungen | ||
244 | anzuwenden. So könnte beispielsweise die Ähnlichkeit manuell verknüpfter Datensätze | ||
245 | ausgewertet werden, um die Systematik der Verknüpfungen zu erkennen auch auf weitere | ||
246 | Daten anzuwenden. Solchen Ansätzen gemein ist jedoch, dass das erzeugte Modell – und | ||
247 | somit das Ergebnis – von den Trainingsdaten abhängig ist. Aus diesem Grund wird in | ||
248 | diesem Algorithmus bewusst darauf verzichtet, da bekannte genealogische Heuristiken | ||
249 | zunächst in einem statischen Modell formalisiert werden sollen. Darauf aufbauend kann | ||
250 | nachfolgende Forschung diese Ergebnisse nutzen, Verfahren maschinellen Lernens zu | ||
251 | implementieren. | ||
252 | |||
226 | 253 | ||
228 | 255 | ||
229 | [ | 256 | [17]Besonders interessant erscheint die Anwendung eines automatisierten Record |
230 | Linkage auf große Datenbestände mit genealogisch relevanten Daten. Das Record | 257 | Linkage auf große Datenbestände mit genealogisch relevanten Daten. Das Record |
239 | zu den Eltern und Kindern ergänzt. | 266 | zu den Eltern und Kindern ergänzt. |
240 | [ | 267 | [18]Quellen, die genealogisch relevante Daten enthalten, sind sehr unterschiedlich |
241 | strukturiert. Die zugrundeliegenden Primärquellen sind oftmals Manuskripte. | 268 | strukturiert. Die zugrundeliegenden Primärquellen sind oftmals Manuskripte. |
242 | Hier sind vorwiegend Kirchenbücher zu nennen. Verschiedene prosopographische | 269 | Hier sind vorwiegend Kirchenbücher zu nennen. Verschiedene prosopographische |
243 | Quellen enthalten dabei unterschiedliche Informationen.[ | 270 | Quellen enthalten dabei unterschiedliche Informationen.[29] Allerdings existiert auch eine große Menge an |
244 | Sekundärquellen, die bereits aufgearbeitete Daten präsentieren. Solche Daten | 271 | Sekundärquellen, die bereits aufgearbeitete Daten präsentieren. Solche Daten |
249 | entwickelt. | 276 | entwickelt. |
250 | [ | 277 | [19]Für diese Studie wird davon ausgegangen, dass einzelne Quellen so aufgearbeitet |
251 | werden können, dass sie in einer Tabelle vorliegen. Jeder Eintrag der Quelle | 278 | werden können, dass sie in einer Tabelle vorliegen. Jeder Eintrag der Quelle |
254 | Weiteren als Record bezeichnet. Herausforderung hierbei ist, dass die | 281 | Weiteren als Record bezeichnet. Herausforderung hierbei ist, dass die |
255 | Datenfelder | 282 | Datenfelder / Spalten tatsächlich vergleichbare Informationen enthalten müssen. Die |
256 | Zuordnung von Informationen aus einer Quelle in die korrekten Datenfelder ist | 283 | Zuordnung von Informationen aus einer Quelle in die korrekten Datenfelder ist |
262 | Definition des Inhalts der Datenfelder unerlässlich. | 289 | Definition des Inhalts der Datenfelder unerlässlich. |
263 | [ | 290 | [20]Als wesentlicher Standard zum Austausch genealogischer Informationen hat sich |
264 | das GEDCOM-Format herausgebildet.[ | 291 | das GEDCOM-Format herausgebildet.[30] In diesem werden einzelne |
265 | Informationen sogenannten Tags zugewiesen, die eine ähnliche Funktion wie | 292 | Informationen sogenannten Tags zugewiesen, die eine ähnliche Funktion wie |
266 | Datenfelder | 293 | Datenfelder / Spalten haben (z. B. beschreibt der Tag OCCU eine Berufsangabe). |
267 | Aber auch aus GEDCOM-Daten ergeben sich Probleme: Zwar sind diese strukturiert, | 294 | Aber auch aus GEDCOM-Daten ergeben sich Probleme: Zwar sind diese strukturiert, |
268 | doch gibt es nicht für alle Informationen eigene Tags. Auch wenn mit GEDCOM 5.5.1 | 295 | doch gibt es nicht für alle Informationen eigene Tags. Auch wenn mit GEDCOM 5.5.1 |
269 | ein Standard existiert,[ | 296 | ein Standard existiert,[31] legt dieser nicht immer fest, welcher Inhalt den Tags zugeordnet werden darf. Im |
270 | Standard ist | 297 | Standard ist |
274 | ausfüllen, wie es ihnen beliebt und wie sie diese interpretieren. | 301 | ausfüllen, wie es ihnen beliebt und wie sie diese interpretieren. |
275 | [ | 302 | [21]Einen weiteren Standard stellt Gedbas4all dar.[32] Anders als GEDCOM, in der die |
276 | einzelnen Informationen zu einer Person zwar zusammengeführt, die | 303 | einzelnen Informationen zu einer Person zwar zusammengeführt, die |
280 | konkret definiert wurden. Besonders für die Zeitangaben gibt es eine | 307 | konkret definiert wurden. Besonders für die Zeitangaben gibt es eine |
281 | detaillierte Normierung.[ | 308 | detaillierte Normierung.[33] Das Datenmodell enthält jedoch nicht zu |
282 | allen möglichen Variablen eine detaillierte Erläuterung. Zudem hat es noch | 309 | allen möglichen Variablen eine detaillierte Erläuterung. Zudem hat es noch |
283 | keine weite Verbreitung gefunden. | 310 | keine weite Verbreitung gefunden. |
284 | [ | 311 | [22]Es zeigt sich, dass kein allgemeingültiges und ausreichend detailliertes System |
285 | zur Definition vieler möglicher Schlüssel für ein Record Linkage auf Basis | 312 | zur Definition vieler möglicher Schlüssel für ein Record Linkage auf Basis |
291 | 318 | ||
292 | [ | 319 | [23]Die oben aufgeführten Algorithmen scheinen auf ihre jeweiligen Anwendungen bezogen |
293 | zwar effektiv zu sein, doch können sie nicht auf alle | 320 | zwar effektiv zu sein, doch können sie nicht auf alle |
311 | Lösungen als tauglich erwiesen haben. | 338 | Lösungen als tauglich erwiesen haben. |
312 | [ | 339 | [24]Der Algorithmus wird im Folgenden textuell erklärt. Die Erläuterung orientiert |
313 | sich am Aufbau der programmtechnischen Umsetzung. Es ist insbesondere auch ein | 340 | sich am Aufbau der programmtechnischen Umsetzung. Es ist insbesondere auch ein |
316 | Programmiersprache Python 3.8 umgesetzt. Dieser ist im Online-Repositorium verfügbar. | 343 | Programmiersprache Python 3.8 umgesetzt. Dieser ist im Online-Repositorium verfügbar. |
317 | [ | 344 | [25]Wesentliche Herausforderungen bestehen in der Normierung, Strukturierung und |
318 | Bereinigung von Eingangsdaten sowie der Prüfung einer Similarität zwischen | 345 | Bereinigung von Eingangsdaten sowie der Prüfung einer Similarität zwischen |
323 | wird eine Normalform der Daten definiert (im Weiteren Normform), in die die | 350 | wird eine Normalform der Daten definiert (im Weiteren Normform), in die die |
324 | Eingangsdaten gebracht werden müssen. Dies geschieht, damit die Datenfelder | 351 | Eingangsdaten gebracht werden müssen. Dies geschieht, damit die Datenfelder / |
325 | Spalten gleichartige Daten enthalten. Daran anschließend wird die Datenbereinigung | 352 | Spalten gleichartige Daten enthalten. Daran anschließend wird die Datenbereinigung |
330 | 357 | ||
331 | [ | 358 | [26]Der Algorithmus ist auf prosopographische Quellen angepasst, die genealogisch |
332 | relevante Daten enthalten. Es ist denkbar, dass es viele prosopographische | 359 | relevante Daten enthalten. Es ist denkbar, dass es viele prosopographische |
333 | Quellen gibt, die Daten enthalten, welche durch die Normform nicht adäquat | 360 | Quellen gibt, die Daten enthalten, welche durch die Normform nicht adäquat |
334 | abgebildet werden (z. | 361 | abgebildet werden (z. B. Immatrikulationslisten). Hier wird deutlich, dass |
335 | nicht alle erdenklichen (und praktisch auch irgendwo vorkommenden) Attribute | 362 | nicht alle erdenklichen (und praktisch auch irgendwo vorkommenden) Attribute |
340 | ergänzt werden. | 367 | ergänzt werden. |
341 | [ | 368 | [27]Der grundlegende Ablauf zur Verarbeitung der Daten ist in Abbildung 1 ersichtlich. Um den Algorithmus |
342 | ausführen zu können, müssen die Daten aufbereitet werden. Das kann manuell, | 369 | ausführen zu können, müssen die Daten aufbereitet werden. Das kann manuell, |
343 | aber auch durch ein gesondertes Programm geschehen.[ | 370 | aber auch durch ein gesondertes Programm geschehen.[34] Der Algorithmus ist darauf |
344 | ausgelegt, zwei in der Normform vorliegende Datensätze dem Record Linkage zu | 371 | ausgelegt, zwei in der Normform vorliegende Datensätze dem Record Linkage zu |
345 | unterziehen.[ | 372 | unterziehen.[35] Nach der Zusammenführung kann der entstandene, verknüpfte |
346 | Datensatz dann in weitere, übliche Formate wie z. | 373 | Datensatz dann in weitere, übliche Formate wie z. B. GEDCOM übertragen werden. |
347 | Zur Erstellung einer GEDCOM-Datei aus dem Ergebnis des Algorithmus kann | 374 | Zur Erstellung einer GEDCOM-Datei aus dem Ergebnis des Algorithmus kann |
349 | GEDCOM-Datei findet hier jedoch keine weitere Erläuterung, sondern ist der | 376 | GEDCOM-Datei findet hier jedoch keine weitere Erläuterung, sondern ist der |
350 | Bedienungsanleitung des Programms zu entnehmen.[ | 377 | Bedienungsanleitung des Programms zu entnehmen.[36] |
351 | 378 | ||
352 | 379 | ||
353 | Abb. | 380 | Abb. 1: Ablauf der |
354 | Datenverarbeitung. [Goldberg | 381 | Datenverarbeitung. [Goldberg / Mernitz 2023] |
355 | 382 | ||
356 | [ | 383 | [28]Nach der Transformation in die Normform wird eine Bereinigung und weitere |
357 | Strukturierung der Informationen vorgenommen. Dieser Schritt ist notwendig, | 384 | Strukturierung der Informationen vorgenommen. Dieser Schritt ist notwendig, |
359 | korrigieren. | 386 | korrigieren. |
360 | [ | 387 | [29]Nachfolgend wird ein Vergleich zwischen einzelnen Records erzeugt. Für jede |
361 | Zeile in der ersten Tabelle wird dazu geprüft, ob die einzelnen Records der | 388 | Zeile in der ersten Tabelle wird dazu geprüft, ob die einzelnen Records der |
364 | ausschließen sollen (z. B. ist eine Taufe nach dem Tod nicht möglich). | 391 | ausschließen sollen (z. B. ist eine Taufe nach dem Tod nicht möglich). |
365 | [ | 392 | [30]Danach wird für die nichtdisjunkten Records eine Similaritätsprüfung |
366 | durchgeführt. Hierdurch soll herausgefunden werden, ob die Personen similär | 393 | durchgeführt. Hierdurch soll herausgefunden werden, ob die Personen similär |
367 | sind | 394 | sind – also diese beiden Records dieselbe historisch existierende Person |
368 | beschreiben und die Informationen entsprechend zu verknüpfen sind. Hierzu | 395 | beschreiben und die Informationen entsprechend zu verknüpfen sind. Hierzu |
375 | Sicherheit von einer Similarität ausgegangen werden kann. | 402 | Sicherheit von einer Similarität ausgegangen werden kann. |
376 | [ | 403 | [31]Der grundlegende Ablauf ist in Abbildung 2 dargestellt. Eine ausführliche Erläuterung der einzelnen |
377 | Schritte findet in den folgenden Abschnitten statt. | 404 | Schritte findet in den folgenden Abschnitten statt. |
379 | 406 | ||
380 | Abb. | 407 | Abb. 2: Funktionsweise des |
381 | Algorithmus als Nassi-Shneiderman-Diagramm. [Goldberg | 408 | Algorithmus als Nassi-Shneiderman-Diagramm. [Goldberg / Mernitz 2023] |
382 | 409 | ||
385 | 412 | ||
386 | [ | 413 | [32]Um Daten in eine Normform zu überführen, ist die Definition einer solchen |
387 | notwendig. Das umfasst (1.) die Definition eines Formats und (2.) die | 414 | notwendig. Das umfasst (1.) die Definition eines Formats und (2.) die |
388 | Definition des Inhalts (die möglichen Schlüssel der Variablen | 415 | Definition des Inhalts (die möglichen Schlüssel der Variablen / Attribute). Zum |
389 | Format wird festgelegt, dass es sich bei der Normform um eine CSV-Datei | 416 | Format wird festgelegt, dass es sich bei der Normform um eine CSV-Datei |
455 | Uhrzeit. Die GEDCOM-Systematik zur Beschreibung ungenauer Zeitpunkte ist | 482 | Uhrzeit. Die GEDCOM-Systematik zur Beschreibung ungenauer Zeitpunkte ist |
456 | anzuwenden (z. | 483 | anzuwenden (z. B. ›BET … AND …‹ für ein Ereignis in einer |
457 | Zeitspanne). | 484 | Zeitspanne). |
484 | Uhrzeit. Die GEDCOM-Systematik zur Beschreibung ungenauer Zeitpunkte ist | 511 | Uhrzeit. Die GEDCOM-Systematik zur Beschreibung ungenauer Zeitpunkte ist |
485 | anzuwenden (z. | 512 | anzuwenden (z. B. ›BET … AND …‹ für ein Ereignis in einer |
486 | Zeitspanne). | 513 | Zeitspanne). |
502 | eine weitere Spezifikation der Uhrzeit. Die GEDCOM-Systematik zur | 529 | eine weitere Spezifikation der Uhrzeit. Die GEDCOM-Systematik zur |
503 | Beschreibung ungenauer Zeitpunkte ist anzuwenden (z. | 530 | Beschreibung ungenauer Zeitpunkte ist anzuwenden (z. B. ›BET … AND …‹ für |
504 | ein Ereignis in einer Zeitspanne). | 531 | ein Ereignis in einer Zeitspanne). |
537 | Uhrzeit. Die GEDCOM-Systematik zur Beschreibung ungenauer Zeitpunkte ist | 564 | Uhrzeit. Die GEDCOM-Systematik zur Beschreibung ungenauer Zeitpunkte ist |
538 | anzuwenden (z. | 565 | anzuwenden (z. B. ›BET … AND …‹ für ein Ereignis in einer |
539 | Zeitspanne). | 566 | Zeitspanne). |
571 | Uhrzeit. Die GEDCOM-Systematik zur Beschreibung ungenauer Zeitpunkte ist | 598 | Uhrzeit. Die GEDCOM-Systematik zur Beschreibung ungenauer Zeitpunkte ist |
572 | anzuwenden (z. | 599 | anzuwenden (z. B. ›BET … AND …‹ für ein Ereignis in einer |
573 | Zeitspanne). | 600 | Zeitspanne). |
600 | 627 | ||
628 | |||
601 | Tab. 1: Definition von Datenfeldern. | 629 | Tab. 1: Definition von Datenfeldern. |
602 | [Goldberg | 630 | [Goldberg / Mernitz 2023] |
603 | [ | 631 | [33]Die Normform enthält dabei nicht alle möglichen Bestandteile prosopographischer |
604 | Quellen. Daneben sind weitere Charakteristika denkbar, die sich auf das Leben | 632 | Quellen. Daneben sind weitere Charakteristika denkbar, die sich auf das Leben |
605 | von Personen beziehen und in prosopographischen Quellen vorkommen (u. | 633 | von Personen beziehen und in prosopographischen Quellen vorkommen (u. a. |
606 | Taufpaten, Trauzeugen, Täufer, weitere Bezugspersonen, Adressen zu bestimmten | 634 | Taufpaten, Trauzeugen, Täufer, weitere Bezugspersonen, Adressen zu bestimmten |
616 | 644 | ||
617 | [ | 645 | [34]Trotz der Normform können die Daten nicht immer direkt miteinander in einen |
618 | Vergleich gesetzt werden. Es ist eine weitere Bereinigung des Inhalts | 646 | Vergleich gesetzt werden. Es ist eine weitere Bereinigung des Inhalts |
619 | notwendig. Darunter gehört z. | 647 | notwendig. Darunter gehört z. B. die Veränderung des Datumsformats. Ferner |
620 | betrifft die Bereinigung insbesondere die Vornamen (siehe Abschnitt 3.3.1, ›Aufbereitung der | 648 | betrifft die Bereinigung insbesondere die Vornamen (siehe Abschnitt 3.3.1, ›Aufbereitung der |
625 | Zeitangaben‹). Die Bereinigung von Ortsangaben dahingegen ist derzeit nicht | 653 | Zeitangaben‹). Die Bereinigung von Ortsangaben dahingegen ist derzeit nicht |
626 | implementiert, kann aber ergänzt werden.[ | 654 | implementiert, kann aber ergänzt werden.[37] |
627 | 3.3.1 Aufbereitung der Namen | 655 | 3.3.1 Aufbereitung der Namen |
628 | 656 | ||
629 | [ | 657 | [35]Namensbezeichnungen können verschiedene Eigenschaften besitzen, die ein |
630 | Record Linkage erschweren. Ein Beispiel dafür sind Abkürzungen | 658 | Record Linkage erschweren. Ein Beispiel dafür sind Abkürzungen |
640 | Vornamen werden durch Leerzeichen separiert als Liste gespeichert. | 668 | Vornamen werden durch Leerzeichen separiert als Liste gespeichert. |
641 | [ | 669 | [36]Um den Nutzen der Vornamen für das Record Linkage zu erhöhen, wird aus den |
642 | Angaben zum Vornamen das Geschlecht erkannt | 670 | Angaben zum Vornamen das Geschlecht erkannt – sofern diese Information nicht |
643 | gesondert vorliegt. Hierzu werden die Vornamen, die auf ein A oder E enden, | 671 | gesondert vorliegt. Hierzu werden die Vornamen, die auf ein A oder E enden, |
644 | als weiblich erkannt. Dazu wird jeweils der erste Vorname herangezogen.[ | 672 | als weiblich erkannt. Dazu wird jeweils der erste Vorname herangezogen.[38] Etliche Ausnahmen sind gesondert |
645 | definiert (z. B. Ingeborg, Elisabeth). | 673 | definiert (z. B. Ingeborg, Elisabeth). |
648 | 676 | ||
649 | [ | 677 | [37]Ähnlich wie bei den Namen können auch Berufsangaben eine Abkürzung erfahren. |
650 | Auch diese werden mit Hilfe einer initial definierten Liste aufgelöst und | 678 | Auch diese werden mit Hilfe einer initial definierten Liste aufgelöst und |
657 | Tätigkeit, sondern weitergehende Informationen über den Rechtsstatus, | 685 | Tätigkeit, sondern weitergehende Informationen über den Rechtsstatus, |
658 | Wohnsitz oder einen Zeitbezug enthalten.[ | 686 | Wohnsitz oder einen Zeitbezug enthalten.[39] Mehrere Berufsangaben werden |
659 | anhand des Kommas oder eines ›und‹ aufgesplittet als Liste gespeichert. | 687 | anhand des Kommas oder eines ›und‹ aufgesplittet als Liste gespeichert. |
662 | 690 | ||
663 | [ | 691 | [38]Zeitangaben können verschiedene Formate aufweisen. Das liegt vor allem in |
664 | dem Umstand begründet, dass Zeitangaben nicht immer ein konkretes, | 692 | dem Umstand begründet, dass Zeitangaben nicht immer ein konkretes, |
674 | 702 | ||
675 | [ | 703 | [39]Genealogische Heuristiken helfen dabei, die Records zu identifizieren, die |
676 | dieselbe Entität beschreiben. Ihre Formalisierung führt zu Logikoperationen, | 704 | dieselbe Entität beschreiben. Ihre Formalisierung führt zu Logikoperationen, |
678 | auf den vorhandenen Variablen. Jedoch können schon bei einem Datensatz mit 30 | 706 | auf den vorhandenen Variablen. Jedoch können schon bei einem Datensatz mit 30 |
679 | verschiedenen zu vergleichenden Variablen (Variable vorhanden | 707 | verschiedenen zu vergleichenden Variablen (Variable vorhanden / nicht |
680 | vorhanden) insgesamt etwa eine Milliarde mögliche Kombinationen auftreten.[ | 708 | vorhanden) insgesamt etwa eine Milliarde mögliche Kombinationen auftreten.[40] Der |
681 | Vergleich von zwei Datensätzen erhöht diese Zahl der möglichen Kombinationen | 709 | Vergleich von zwei Datensätzen erhöht diese Zahl der möglichen Kombinationen |
682 | auf mehr als eine Trillion.[ | 710 | auf mehr als eine Trillion.[41] Für diese Anzahl an |
683 | Kombinationen ist eine manuelle Definition von Verarbeitungsfolgen nicht | 711 | Kombinationen ist eine manuelle Definition von Verarbeitungsfolgen nicht |
687 | keinen Schluss auf den Zusammenhang von Records zu. | 715 | keinen Schluss auf den Zusammenhang von Records zu. |
688 | [ | 716 | [40]Hierzu können zunächst verschiedene Variablen zusammengefasst werden, die |
689 | ähnliche Merkmale aufweisen (z. | 717 | ähnliche Merkmale aufweisen (z. B. Datumsangaben, Ortsangaben, Namen). |
690 | Vergleiche sind nur innerhalb dieser Gruppen sinnhaft. Diese Definition | 718 | Vergleiche sind nur innerhalb dieser Gruppen sinnhaft. Diese Definition |
693 | beschrieben: Wenn z. B. eine Taufe nach dem Tod stattfindet, dann ist eine | 721 | beschrieben: Wenn z. B. eine Taufe nach dem Tod stattfindet, dann ist eine |
694 | Similarität auszuschließen.[ | 722 | Similarität auszuschließen.[42] Es bleibt eine deutlich minimierte Anzahl an |
695 | Variablenkombinationen übrig, bei denen ein genauerer Vergleich sinnhaft | 723 | Variablenkombinationen übrig, bei denen ein genauerer Vergleich sinnhaft |
700 | 728 | ||
701 | [ | 729 | [41]Eine Gruppe von Vergleichen kann vorgenommen werden, wenn in beiden Records |
702 | gleichartige Variablen vorliegen. Dazu ist ein Wissen über die Beziehungen | 730 | gleichartige Variablen vorliegen. Dazu ist ein Wissen über die Beziehungen |
723 | Die (teilweise) Übereinstimmung von Vornamen kann Aufschluss | 751 | Die (teilweise) Übereinstimmung von Vornamen kann Aufschluss |
724 | über die Zusammenführung der Personen liefern.[ | 752 | über die Zusammenführung der Personen liefern.[43] |
725 | 753 | ||
737 | Übereinstimmung von Nachnamen in unterschiedlichen Kategorien nur | 765 | Übereinstimmung von Nachnamen in unterschiedlichen Kategorien nur |
738 | bei surnameUnknown ein Indiz für eine Übereinstimmung ist.[ | 766 | bei surnameUnknown ein Indiz für eine Übereinstimmung ist.[44] |
739 | 767 | ||
745 | birthday und baptismday: Taufdatum und Geburtsdatum liegen oft | 773 | birthday und baptismday: Taufdatum und Geburtsdatum liegen oft |
746 | nah beieinander.[ | 774 | nah beieinander.[45] Eine Person kann nicht vor |
747 | ihrer Geburt getauft werden. | 775 | ihrer Geburt getauft werden. |
838 | werden, die sich nicht ähnlich sind und dadurch nur schwer über | 866 | werden, die sich nicht ähnlich sind und dadurch nur schwer über |
839 | String-Matching-Methoden erkannt werden können (z. | 867 | String-Matching-Methoden erkannt werden können (z. B. |
840 | »Feuerwehrmann« und | 868 | »Feuerwehrmann« und |
845 | hier angenommen, dass es sich nicht um dieselbe Person handelt. Dabei | 873 | hier angenommen, dass es sich nicht um dieselbe Person handelt. Dabei |
846 | sind detaillierte Quellen gemeint (z. | 874 | sind detaillierte Quellen gemeint (z. B. ein konkreter Heiratseintrag mit |
847 | laufender Nummer in einem Heiratsregister). | 875 | laufender Nummer in einem Heiratsregister). |
851 | 879 | ||
852 | [ | 880 | [42]Sind im vorigen Abschnitt mögliche Vergleiche zwischen Variablen beschrieben |
853 | worden, findet nun eine Definition konkreter Kriterien statt, die ein | 881 | worden, findet nun eine Definition konkreter Kriterien statt, die ein |
862 | erheblichen Verbesserung der Laufzeit. | 890 | erheblichen Verbesserung der Laufzeit. |
863 | [ | 891 | [43]Die meisten hier vorgestellten Regeln sind in Hinblick auf die kulturelle |
864 | Praxis und den Ablauf von Lebensereignissen logisch. So kann eine Person | 892 | Praxis und den Ablauf von Lebensereignissen logisch. So kann eine Person |
872 | mit genealogischen Daten. | 900 | mit genealogischen Daten. |
873 | [ | 901 | [44]Zunächst sind Records disjunkt, wenn sie auf demselben Eintrag in einer |
874 | Quelle basieren. Das kann beispielsweise in Taufeinträgen der Fall sein, bei | 902 | Quelle basieren. Das kann beispielsweise in Taufeinträgen der Fall sein, bei |
881 | nicht in anderen Einträgen vorkommen können und ein weiterer Vergleich aus | 909 | nicht in anderen Einträgen vorkommen können und ein weiterer Vergleich aus |
882 | Laufzeitgründen deshalb nicht notwendig ist.[ | 910 | Laufzeitgründen deshalb nicht notwendig ist.[46] Wenn beide Records |
883 | ein Geschlecht aufweisen, dieses aber nicht dasselbe ist, so sind sie | 911 | ein Geschlecht aufweisen, dieses aber nicht dasselbe ist, so sind sie |
894 | sterben, bevor sie beerdigt werden kann. | 922 | sterben, bevor sie beerdigt werden kann. |
895 | [ | 923 | [45]Wenn die Geburtsdaten beider Personen vorhanden und trotzdem unterschiedlich |
896 | sind, so beschreiben sie nicht dieselbe Person. Ebenso verhält es sich mit | 924 | sind, so beschreiben sie nicht dieselbe Person. Ebenso verhält es sich mit |
900 | Abweichungen lässt. | 928 | Abweichungen lässt. |
901 | [ | 929 | [46]Aus dem Vergleich mit den Eltern ergeben sich einige Zustände, die ein |
902 | ausschließendes Kriterium darstellen. So kann der Tod des eigenen Vaters | 930 | ausschließendes Kriterium darstellen. So kann der Tod des eigenen Vaters |
911 | können. | 939 | können. |
912 | [ | 940 | [47]Folgende Regeln führen zur Ungleichheit der Records (similarity = 0): |
913 | 941 | ||
914 | Wenn sex != | 942 | Wenn sex ! = sex |
915 | Wenn source | 943 | Wenn source = = source |
916 | Wenn Differenz von birthday von id und deathday von idFather > 9 | 944 | Wenn Differenz von birthday von id und deathday von idFather > 9 |
923 | Monate | 951 | Monate |
924 | Wenn birthday von id > deathday von idMother[ | 952 | Wenn birthday von id > deathday von idMother[47] |
925 | Wenn birthday von id > burialday von idMother | 953 | Wenn birthday von id > burialday von idMother |
1018 | 1046 | ||
1019 | [45]In der programmtechnischen Umsetzung ist ergänzend eine optionale Variable | 1047 | [48]Programmtechnisch sind die Vergleiche mit IF-ELSE-Anweisungen umgesetzt. Ferner ist |
1048 | ergänzend eine optionale Variable | ||
1020 | (sortingBySurnameGiven) angelegt, mit der im Fall identischer zu | 1049 | (sortingBySurnameGiven) angelegt, mit der im Fall identischer zu |
1027 | 1056 | ||
1028 | [ | 1057 | [49]Kann nicht erkannt werden, dass zwei Records disjunkt sind, so wird die |
1029 | Similarität dieser weiter geprüft. Dazu wird ein Fuzzy-Vergleich der Vor- | 1058 | Similarität dieser weiter geprüft. Dazu wird ein Fuzzy-Vergleich der Vor- |
1030 | und Nachnamen vorgenommen. Zum Vergleich dieser Strings wird die | 1059 | und Nachnamen vorgenommen. Zum Vergleich dieser Strings wird die |
1031 | Jaro-Winkler-Distanz ausgewählt, weil diese bei Georgala et | 1060 | Jaro-Winkler-Distanz ausgewählt, weil diese bei Georgala et al. zu guten |
1032 | Ergebnissen führt.[ | 1061 | Ergebnissen führt.[48] Georgala et al. erzielen mittels einer ROC-Kurve[49] ein optimales Ergebnis bei einem Grenzwert von 0,70.[50] Um die Anzahl |
1033 | der falschpositiven Zuordnungen zu verringern, wird in unserem Ansatz jedoch | 1062 | der falschpositiven Zuordnungen zu verringern, wird in unserem Ansatz jedoch |
1044 | den deutschen Sprachraum ausgerichtet ist. Buchstaben werden dabei in Zahlen | 1073 | den deutschen Sprachraum ausgerichtet ist. Buchstaben werden dabei in Zahlen |
1045 | codiert.[ | 1074 | codiert.[51] Ist der |
1046 | Wert der Kölner Phonetik gleich und liegt die Jaro-Winkler-Distanz bei über | 1075 | Wert der Kölner Phonetik gleich und liegt die Jaro-Winkler-Distanz bei über |
1047 | 0,60, wird hier ebenfalls von einer Similarität ausgegangen. | 1076 | 0,60, wird hier ebenfalls von einer Similarität ausgegangen. Der Wert der Kölner Phonetik |
1048 | [47]Nach dem Test der Nachnamen wird zudem die Similarität der Vornamen | 1077 | wird im Programmcode über die Bibliothek kph ermittelt. Für die Berechnung der Jaro-Winkler-Distanz wird hingegen die Bibliothek |
1078 | distance genutzt. | ||
1079 | [50]Nach dem Test der Nachnamen wird zudem die Similarität der Vornamen | ||
1049 | überprüft. Überschreitet die Jaro-Winkler-Distanz auch bei einem Vergleich | 1080 | überprüft. Überschreitet die Jaro-Winkler-Distanz auch bei einem Vergleich |
1055 | erhält dann einen Wert von 0. | 1086 | erhält dann einen Wert von 0. |
1056 | [ | 1087 | [51]Die Similaritätsprüfung stützt sich im Algorithmus damit nur auf die |
1057 | Ähnlichkeit von Vor- und Nachnamen. Dabei können perspektivisch auch weitere | 1088 | Ähnlichkeit von Vor- und Nachnamen. Dabei können perspektivisch auch weitere |
1060 | eine Kombination dieser zu implementieren. | 1091 | eine Kombination dieser zu implementieren. |
1061 | [ | 1092 | [52]Wenn mehrere Matches vorhanden sind, wird geprüft, welches über die größte |
1062 | Übereinstimmung verfügt. Nur das passendste wird zusammengeführt. Es wird | 1093 | Übereinstimmung verfügt. Nur das passendste wird zusammengeführt. Es wird |
1069 | Ergebnistabelle wiederholt ausgeführt werden. | 1100 | Ergebnistabelle wiederholt ausgeführt werden. |
1070 | [ | 1101 | [53]Neben der Similaritätsprüfung gibt es noch einen sogenannten Prioritätswert. |
1071 | Dieser wird ermittelt, um nicht nur Disjunktionsregeln und die Ähnlichkeit | 1102 | Dieser wird ermittelt, um nicht nur Disjunktionsregeln und die Ähnlichkeit |
1078 | zusammengeführt, wenn sie zugleich verschiedene Variablenkombinationen | 1109 | zusammengeführt, wenn sie zugleich verschiedene Variablenkombinationen |
1079 | aufweisen (z. | 1110 | aufweisen (z. B. beide ein Geburts- und Taufdatum), die die |
1080 | Disjunktionsprüfung überstanden haben. Darunter fallen folgende | 1111 | Disjunktionsprüfung überstanden haben. Darunter fallen folgende |
1093 | 1124 | ||
1094 | [ | 1125 | [54]Wird erkannt, dass zwei Records dieselbe Entität beschreiben, sind diese |
1095 | zusammenzuführen. Es wird ein neuer Record in einer neuen Tabelle kreiert, die | 1126 | zusammenzuführen. Es wird ein neuer Record in einer neuen Tabelle kreiert, die |
1106 | separiert zusammengeführt. | 1137 | separiert zusammengeführt. |
1107 | [ | 1138 | [55]Die neue Tabelle enthält neben allen (wie oben beschrieben zusammengeführten) |
1108 | Variablen zudem die Spalte idGlobal. Diese globale ID stellt eine neu erzeugte | 1139 | Variablen zudem die Spalte idGlobal. Diese globale ID stellt eine neu erzeugte |
1114 | dieser Variablen. | 1145 | dieser Variablen. |
1115 | [ | 1146 | [56]Solche Records, zu denen kein Pendant im jeweils anderen Datensatz gefunden |
1116 | wird, werden unverändert in die neue Tabelle überführt. Ausnahme ist allerdings | 1147 | wird, werden unverändert in die neue Tabelle überführt. Ausnahme ist allerdings |
1141 | 1172 | ||
1173 | |||
1142 | Tab. 2: Zusätzliche Variablen eines | 1174 | Tab. 2: Zusätzliche Variablen eines |
1143 | zusammengeführten Datensatzes. [Goldberg | 1175 | zusammengeführten Datensatzes. [Goldberg / Mernitz 2023] |
1144 | 1176 | ||
1147 | 1179 | ||
1148 | [ | 1180 | [57]Leipzig ist eine Stadt, an der sich zwei große historische Handelsrouten Europas |
1149 | kreuzen: die Via Regia von Ost nach West sowie die Via Imperii von Nord nach | 1181 | kreuzen: die Via Regia von Ost nach West sowie die Via Imperii von Nord nach |
1150 | Süd.[ | 1182 | Süd.[52] Diese |
1151 | geografische Lage bot für die Entwicklung Leipzigs, vor allem als Messe- und | 1183 | geografische Lage bot für die Entwicklung Leipzigs, vor allem als Messe- und |
1156 | Informationen bietet Leipzig ein geeignetes Beispiel zur Validierung des | 1188 | Informationen bietet Leipzig ein geeignetes Beispiel zur Validierung des |
1157 | beschriebenen Algorithmus. Innerhalb dieser Validierung werden zwei Quellen | 1189 | beschriebenen Algorithmus. Innerhalb dieser Validierung werden zwei Quellen / |
1158 | Datenbestände betrachtet: die Kartei Leipziger Familien (KLF) und die Kartei | 1190 | Datenbestände betrachtet: die Kartei Leipziger Familien (KLF) und die Kartei |
1160 | zumindest teilweise Daten über dieselben Personen enthalten. Aufgrund des | 1192 | zumindest teilweise Daten über dieselben Personen enthalten. Aufgrund des |
1161 | unterschiedlichen Gegenstands,[ | 1193 | unterschiedlichen Gegenstands,[53] vor allem aber wegen unterschiedlicher Zeiträume, sind nicht |
1162 | alle Personen in beiden Datenbeständen zu finden. Zum Teil spielt auch eine | 1194 | alle Personen in beiden Datenbeständen zu finden. Zum Teil spielt auch eine |
1165 | ein. | 1197 | ein. |
1166 | [ | 1198 | [58]In dem folgenden Abschnitt wird zunächst die Struktur der hier verwendeten |
1167 | Datenbestände beschrieben, bevor der Algorithmus auf sie angewendet wird. Die | 1199 | Datenbestände beschrieben, bevor der Algorithmus auf sie angewendet wird. Die |
1173 | 1205 | ||
1174 | [ | 1206 | [59]Im Folgenden wird zunächst auf die KLF eingegangen. Danach folgt die KLK. |
1175 | 4.1.1 Kartei Leipziger Familien (ca. 1550–1850) | 1207 | 4.1.1 Kartei Leipziger Familien (ca. 1550–1850) |
1176 | 1208 | ||
1177 | [ | 1209 | [60]In der KLF sind viele Informationen über in Leipzig ansässige Familien |
1178 | enthalten. Die Kartei wurde von einer Mitarbeiterin der Deutschen | 1210 | enthalten. Die Kartei wurde von einer Mitarbeiterin der Deutschen |
1182 | Jahrhunderts. Auf 20.000 Karteikarten sind dort etwa 200.000 | 1214 | Jahrhunderts. Auf 20.000 Karteikarten sind dort etwa 200.000 |
1183 | Personen(einträge) dokumentiert.[ | 1215 | Personen(einträge) dokumentiert.[54] Die Karteikarten |
1184 | enthalten jeweils Angaben zu einem Ehemann, seiner Ehefrau und deren | 1216 | enthalten jeweils Angaben zu einem Ehemann, seiner Ehefrau und deren |
1186 | Karte verzeichnet. Die Karteikarten sind untereinander nicht über eindeutige | 1218 | Karte verzeichnet. Die Karteikarten sind untereinander nicht über eindeutige |
1187 | Identifikatoren wie Kartennummern verknüpft.[ | 1219 | Identifikatoren wie Kartennummern verknüpft.[55] |
1188 | [ | 1220 | [61]Im Rahmen eines Datenerfassungsprojekts durch den Verein für |
1189 | Computergenealogie wurde die Kartei digitalisiert.[ | 1221 | Computergenealogie wurde die Kartei digitalisiert.[56] Dazu wurden die Scans der Karteikarten manuell |
1190 | abgetippt. Datenfelder im genutzten Datenerfassungssystem (DES) sind der | 1222 | abgetippt. Datenfelder im genutzten Datenerfassungssystem (DES) sind der |
1195 | vergeben wird). Des Weiteren existieren besondere, KLF-spezifische Angaben | 1227 | vergeben wird). Des Weiteren existieren besondere, KLF-spezifische Angaben |
1196 | zur Rolle, zur Bezugsperson und zur Art der Beziehung zur Bezugsperson.[ | 1228 | zur Rolle, zur Bezugsperson und zur Art der Beziehung zur Bezugsperson.[57] Es gibt die Rollen |
1197 | Familienoberhaupt, Kind, Ehefrau und Drittperson. Ersteres beschreibt einen | 1229 | Familienoberhaupt, Kind, Ehefrau und Drittperson. Ersteres beschreibt einen |
1204 | der Beziehung beschreibt dahingegen das Verhältnis zur Drittperson (Ehemann | 1236 | der Beziehung beschreibt dahingegen das Verhältnis zur Drittperson (Ehemann |
1205 | / | 1237 | / Ehefrau / Vater). Damit sind die Felder nicht direkt der definierten |
1206 | Normform zuzuordnen, sondern müssen zunächst umgewandelt werden. Dieses | 1238 | Normform zuzuordnen, sondern müssen zunächst umgewandelt werden. Dieses |
1208 | beispielhaft, dass die Umwandlung in die Normform aufwendig sein kann. | 1240 | beispielhaft, dass die Umwandlung in die Normform aufwendig sein kann. |
1209 | [ | 1241 | [62]Ein Schwerpunkt dieses Programms besteht dabei in der Umwandlung von |
1210 | Altersangaben: Dabei wird im Algorithmus der Sonderfall abgedeckt, dass in | 1242 | Altersangaben: Dabei wird im Algorithmus der Sonderfall abgedeckt, dass in |
1216 | Separierung wäre ein alternativ mögliches Vorgehen. | 1248 | Separierung wäre ein alternativ mögliches Vorgehen. |
1217 | [ | 1249 | [63]Da Altersangaben nur in Beziehung mit anderen Variablen interpretiert werden |
1218 | können, bezieht die Aufbereitung dieser Daten weitere Informationen eines | 1250 | können, bezieht die Aufbereitung dieser Daten weitere Informationen eines |
1219 | Records mit ein (z. | 1251 | Records mit ein (z. B. das Alter bei Tod und das Todesdatum zur Berechnung |
1220 | des Geburtszeitpunkts). Für die Aufbereitung ist aufgrund der relativen | 1252 | des Geburtszeitpunkts). Für die Aufbereitung ist aufgrund der relativen |
1222 | Datumsangaben des Records notwendig. | 1254 | Datumsangaben des Records notwendig. |
1223 | [ | 1255 | [64]Es wird zunächst geprüft, ob die Zeitangabe einer normierten Schreibweise |
1224 | entspricht. Diese wird hier als D.M.YYYY definiert und darüber ermittelt, ob | 1256 | entspricht. Diese wird hier als D.M.YYYY definiert und darüber ermittelt, ob |
1238 | 1270 | ||
1239 | [ | 1271 | [65]Bei den ersten vier der fünf Fälle kann eine Zeitangabe abgeleitet werden. |
1240 | Im fünften Fall besteht die Herausforderung darin, zu erkennen, dass es sich | 1272 | Im fünften Fall besteht die Herausforderung darin, zu erkennen, dass es sich |
1253 | Datumsformat vorliegt. | 1285 | Datumsformat vorliegt. |
1254 | [ | 1286 | [66]Die grundsätzliche Zuordnung der KLF zu den Datenfeldern der Normform wird |
1255 | wie in Tabelle 3 | 1287 | wie in Tabelle 3 |
1329 | 1361 | ||
1362 | |||
1330 | Tab. 3: Direkte Umwandlung der | 1363 | Tab. 3: Direkte Umwandlung der |
1331 | KLF-Struktur in die Normform. [Goldberg | 1364 | KLF-Struktur in die Normform. [Goldberg / Mernitz 2023] |
1332 | [ | 1365 | [67]Die KLF-Variablen Rolle, Bezugsperson, Art der Beziehung und ID werden zudem |
1333 | herangezogen, um weitere Variablen der Normform zu füllen (vgl. Tabelle 4). | 1366 | herangezogen, um weitere Variablen der Normform zu füllen (vgl. Tabelle 4). |
1344 | Karteikarte. Eine Ehefrau erhält die ID des Familienoberhauptes auf | 1377 | Karteikarte. Eine Ehefrau erhält die ID des Familienoberhauptes auf |
1345 | derselben Karteikarte. Eine Drittperson vom Typ Ehefrau | 1378 | derselben Karteikarte. Eine Drittperson vom Typ Ehefrau / Ehemann |
1346 | führt dazu, dass bei der Drittperson wie auch bei der Bezugsperson | 1379 | führt dazu, dass bei der Drittperson wie auch bei der Bezugsperson |
1358 | 1391 | ||
1392 | |||
1359 | Tab. 4: Indirekte Umwandlung der | 1393 | Tab. 4: Indirekte Umwandlung der |
1360 | KLF-Struktur in die Normform. [Goldberg | 1394 | KLF-Struktur in die Normform. [Goldberg / Mernitz 2023] |
1361 | 1395 | ||
1363 | 1397 | ||
1364 | [ | 1398 | [68]Für das Amt Leipzig liegen für die Zeit von 1696 bis 1829 Testamente |
1365 | innerhalb von 120 Bänden im Sächsischen Staatsarchiv vor.[ | 1399 | innerhalb von 120 Bänden im Sächsischen Staatsarchiv vor.[58] Zum Auffinden von Testamentsvorgängen existiert eine |
1366 | Kartei | 1400 | Kartei – die KLK. Auch die KLK ist im Rahmen eines Datenerfassungsprojektes |
1367 | des Vereins für Computergenealogie mit Hilfe des DES erfasst worden und online einsehbar.[ | 1401 | des Vereins für Computergenealogie mit Hilfe des DES erfasst worden und online einsehbar.[59] Sie umfasst 4.800 |
1368 | Karteikarten, auf denen jeweils zu einer Person die entsprechenden Vorgänge | 1402 | Karteikarten, auf denen jeweils zu einer Person die entsprechenden Vorgänge |
1370 | Jedoch können auch Drittpersonen auf den Karten erscheinen. Dazu gibt es in | 1404 | Jedoch können auch Drittpersonen auf den Karten erscheinen. Dazu gibt es in |
1371 | der KLK die Variable ›Rolle‹, in der zwischen Erblasser*innen und Drittpersonen | 1405 | der KLK die Variable ›Rolle‹, in der zwischen Erblasser*innen und Drittpersonen / |
1372 | Verwandten unterschieden wird. Dies führt dazu, dass ca. 6.500 | 1406 | Verwandten unterschieden wird. Dies führt dazu, dass ca. 6.500 |
1376 | dokumentiert. | 1410 | dokumentiert. |
1377 | [ | 1411 | [69]Auch die Variablen der KLK-Erfassung lassen sich in die Normform umwandeln. |
1378 | Wie bei der KLF gibt es dabei Variablen, die sich direkt auf die Normform | 1412 | Wie bei der KLF gibt es dabei Variablen, die sich direkt auf die Normform |
1452 | 1486 | ||
1487 | |||
1453 | Tab. 5: Direkte Umwandlung der | 1488 | Tab. 5: Direkte Umwandlung der |
1454 | KLK-Struktur in die Normform. [Goldberg | 1489 | KLK-Struktur in die Normform. [Goldberg / Mernitz 2023] |
1455 | [ | 1490 | [70]Die indirekte Herleitung betrifft vor allem die Nachnamen. In der KLK sind |
1456 | nämlich die vorherigen Nachnamen mit abgebildet. Wenn der Teilstring | 1491 | nämlich die vorherigen Nachnamen mit abgebildet. Wenn der Teilstring |
1465 | angegebene Nachname immer der Geburtsname ist. | 1500 | angegebene Nachname immer der Geburtsname ist. |
1466 | [ | 1501 | [71]Auch bei den IDs findet eine indirekte Zuordnung statt. Wenn eine |
1467 | Drittperson definiert ist und diese den Typ ›Ehemann‹ oder ›Ehefrau‹ | 1502 | Drittperson definiert ist und diese den Typ ›Ehemann‹ oder ›Ehefrau‹ |
1468 | aufweist, dann wird die ID des Ehepartners | 1503 | aufweist, dann wird die ID des Ehepartners / der Ehepartnerin hinzugefügt. Gleiches |
1469 | erfolgt bei | 1504 | erfolgt bei |
1476 | Dubletten ist hierbei die Quellenangabe (Band und Blatt) der Testamente. | 1511 | Dubletten ist hierbei die Quellenangabe (Band und Blatt) der Testamente. |
1477 | Wenn nur die ID eines Ehepartners | 1512 | Wenn nur die ID eines Ehepartners / einer Ehepartnerin verändert wird, deutet es darauf |
1478 | hin, dass | 1513 | hin, dass |
1481 | Drittperson fehlt. | 1516 | Drittperson fehlt. |
1482 | [ | 1517 | [72]Des Weiteren wird angenommen, dass die Testamentseröffnung kurz nach dem Tod |
1483 | vorgenommen wird. Liegt also kein Todestag vor, so wird das Jahr der | 1518 | vorgenommen wird. Liegt also kein Todestag vor, so wird das Jahr der |
1494 | idSpouse1, idSpouse2, idSpouse3 | 1529 | idSpouse1, idSpouse2, idSpouse3 |
1495 | Wenn eine Drittperson (›Rolle‹ | 1530 | Wenn eine Drittperson (›Rolle‹ = = Drittperson / Verwandter) vom Typ |
1496 | Ehefrau oder Ehemann vorhanden ist (›Art der Beziehung‹), dann wird | 1531 | Ehefrau oder Ehemann vorhanden ist (›Art der Beziehung‹), dann wird |
1500 | idFather, idMother | 1535 | idFather, idMother |
1501 | Wenn eine Drittperson vom Typ Vater | 1536 | Wenn eine Drittperson vom Typ Vater / Mutter / Sohn / Tochter |
1502 | vorhanden ist, dann wird die ID entsprechend ergänzt. | 1537 | vorhanden ist, dann wird die ID entsprechend ergänzt. |
1509 | lastname | 1544 | lastname |
1510 | | 1545 | surnameGiven, surnameUnkown, surnameMarriage1, surnameMarriage2, |
1511 | surnameMarriage3 | 1546 | surnameMarriage3 |
1517 | 1552 | ||
1553 | |||
1518 | Tab. 6: Indirekte Umwandlung der | 1554 | Tab. 6: Indirekte Umwandlung der |
1519 | KLK-Struktur in die Normform. [Goldberg | 1555 | KLK-Struktur in die Normform. [Goldberg / Mernitz 2023] |
1520 | 1556 | ||
1523 | 1559 | ||
1524 | [ | 1560 | [73]Da sowohl in der KLK und KLF Personen mehrfach genannt werden können, ist |
1525 | zunächst ein Vergleich der beiden normformatierten Datentabellen mit sich | 1561 | zunächst ein Vergleich der beiden normformatierten Datentabellen mit sich |
1534 | auch umgesetzt worden sind. | 1570 | auch umgesetzt worden sind. |
1535 | [ | 1571 | [74]Dennoch wird eine manuelle Überprüfung der zusammengeführten Records |
1536 | vorgenommen. Da nicht alle Records überprüft werden können, werden nur die | 1572 | vorgenommen. Da nicht alle Records überprüft werden können, werden nur die |
1537 | Personen behandelt, deren Geburtsname mit ›A‹ beginnt.[ | 1573 | Personen behandelt, deren Geburtsname mit ›A‹ beginnt.[60] Von diesen 4.251 Records werden 651 |
1538 | zusammengeführt (15,3 Prozent). Dabei konnten einige falschpositive Ergebnisse | 1574 | zusammengeführt (15,3 Prozent). Dabei konnten einige falschpositive Ergebnisse |
1546 | Abitzsch (14457495 und 14458366), Maria Arnst (14556375 und 14556424) und Paul | 1582 | Abitzsch (14457495 und 14458366), Maria Arnst (14556375 und 14556424) und Paul |
1547 | Arnst (14556496 und 14560610). Bei dem | 1583 | Arnst (14556496 und 14560610). Bei dem / den Bäcker(n) Anton Arnoldt (14554173 und |
1548 | 14554184) wird es sich | 1584 | 14554184) wird es sich |
1558 | Falschpositiven bei 1,7 Prozent. | 1594 | Falschpositiven bei 1,7 Prozent. |
1559 | [ | 1595 | [75]Weiterhin ist auffällig, dass bei vielen Personen ein positiver Prioritätswert |
1560 | aufgrund gleicher Heiratsdaten oder gleicher Berufsangaben zustande kommt. | 1596 | aufgrund gleicher Heiratsdaten oder gleicher Berufsangaben zustande kommt. |
1568 | darstellt. | 1604 | darstellt. |
1569 | [ | 1605 | [76]Die Relevanz von Berufsangaben für den Prioritätswert führt auch dazu, dass |
1570 | etwas mehr Männer (58,7 Prozent) als Frauen zusammengeführt werden. Um mehr | 1606 | etwas mehr Männer (58,7 Prozent) als Frauen zusammengeführt werden. Um mehr |
1578 | priorisiert werden. | 1614 | priorisiert werden. |
1579 | [ | 1615 | [77]Bemerkenswert ist auch, dass Vor- und Nachname bei den zusammengeführten |
1580 | Personen in 90,6 Prozent der Fälle exakt übereinstimmen. Das liegt auch darin | 1616 | Personen in 90,6 Prozent der Fälle exakt übereinstimmen. Das liegt auch darin |
1586 | »Christine« etc.). | 1622 | »Christine« etc.). |
1587 | [ | 1623 | [78]Zudem ist zu vermuten, dass es im gesamten Datensatz eine nicht näher bekannte |
1588 | Anzahl von falschnegativen Zuordnungen gibt | 1624 | Anzahl von falschnegativen Zuordnungen gibt – also Records, die zusammengeführt |
1589 | werden müssten, es aber nicht wurden. Für diesen Abgleich wäre eine | 1625 | werden müssten, es aber nicht wurden. Für diesen Abgleich wäre eine |
1595 | eine mehrfache Iteration also hilfreich sein. | 1631 | eine mehrfache Iteration also hilfreich sein. |
1596 | [ | 1632 | [79]Dass mit dem hier vorgestellten Algorithmus jedoch ein |
1597 | erheblicher Teil der tatsächlich zusammenzuführenden Records auch | 1633 | erheblicher Teil der tatsächlich zusammenzuführenden Records auch |
1598 | zusammengeführt wird, zeigt ein Vergleich mit der Personenzusammenführung des | 1634 | zusammengeführt wird, zeigt ein Vergleich mit der Personenzusammenführung des |
1599 | Genealogie-Programms Ahnenblatt 2.99[ | 1635 | Genealogie-Programms Ahnenblatt 2.99[61]: Wird die GEDCOM-Datei dort hineingeladen und werden die |
1600 | Vorschläge zur Zusammenführung der Personen ohne weiteren manuellen Eingriff | 1636 | Vorschläge zur Zusammenführung der Personen ohne weiteren manuellen Eingriff |
1601 | ausgeführt, werden 25.329 von 241.466 Personen zusammengeführt.[ | 1637 | ausgeführt, werden 25.329 von 241.466 Personen zusammengeführt.[62] Das entspricht mit 10,5 |
1602 | Prozent einem deutlich geringeren Anteil als im Test der mit »A« beginnenden | 1638 | Prozent einem deutlich geringeren Anteil als im Test der mit »A« beginnenden |
1624 | KLK | 1660 | KLK |
1625 | 413 zusammengeführt bei 5.761 Personen (Anteil: 7,2 Prozent)[62] | 1661 | 413 zusammengeführt bei 5.761 Personen (Anteil: 7,2 Prozent)[63] |
1626 | 41 zusammengeführt bei 5.802 Personen (Anteil: 0,7 Prozent)[63] | 1662 | 41 zusammengeführt bei 5.802 Personen (Anteil: 0,7 Prozent)[64] |
1663 | |||
1627 | 1664 | ||
1629 | Tab. 7: Übersicht über die Anzahl | 1666 | Tab. 7: Übersicht über die Anzahl |
1630 | der verknüpften Personen aus den Normformen. [Goldberg | 1667 | der verknüpften Personen aus den Normformen. [Goldberg / Mernitz 2023] |
1631 | [ | 1668 | [80]Insgesamt sind die Ergebnisse des Algorithmus also gut: Ein nicht näher zu |
1632 | quantifizierender, aber erheblicher Teil der tatsächlich zusammenzuführenden | 1669 | quantifizierender, aber erheblicher Teil der tatsächlich zusammenzuführenden |
1638 | die Formalisierung und Automatisierung genealogischer Heuristiken kann | 1675 | die Formalisierung und Automatisierung genealogischer Heuristiken kann |
1639 | erweitert und das Record Linkage somit verbessert werden.[ | 1676 | erweitert und das Record Linkage somit verbessert werden.[65] |
1640 | 1677 | ||
1643 | 1680 | ||
1644 | [ | 1681 | [81]Gleiches mit Gleichem zu verbinden – darin besteht eine Herausforderung im Umgang |
1645 | mit historischen Personendaten. Der vorgestellte Ansatz leistet einen Beitrag, | 1682 | mit historischen Personendaten. Der vorgestellte Ansatz leistet einen Beitrag, |
1661 | Anpassung an die jeweiligen Herausforderungen. | 1698 | Anpassung an die jeweiligen Herausforderungen. |
1662 | [ | 1699 | [82]Hierbei zeigt sich sowohl ein großer Vorteil als auch ein großer Nachteil der |
1663 | vorgestellten Lösung: Der Vorteil besteht darin, dass der Algorithmus besonders | 1700 | vorgestellten Lösung: Der Vorteil besteht darin, dass der Algorithmus besonders |
1673 | Der Algorithmus kann hier beispielsweise bei der Erstellung von | 1710 | Der Algorithmus kann hier beispielsweise bei der Erstellung von |
1674 | Ortsfamilienbüchern ein nützliches Werkzeug sein. | 1711 | Ortsfamilienbüchern ein nützliches Werkzeug sein. Hierzu gilt es in einem nächsten |
1675 | [80]Nachteilig ist der Algorithmus dahingegen, wenn nur wenige Informationen über die | 1712 | Schritt, die Nachnutzung des Programmcodes niederschwelliger möglich zu machen, beispielsweise |
1713 | durch ein Webinterface. Ziel ist es, dass zwei Normform-Tabellen als CSV-Dateien in | ||
1714 | einem Webbrowser hochgeladen werden können. Hier würde zudem die Möglichkeit bestehen, | ||
1715 | diverse Funktionen des Algorithmus ab- oder anzuschalten oder Grenzwerte zu variieren. | ||
1716 | [83]Nachteilig ist der Algorithmus dahingegen, wenn nur wenige Informationen über die | ||
1676 | durch die Records beschriebenen Personen vorhanden sind. Sind beispielsweise nur | 1717 | durch die Records beschriebenen Personen vorhanden sind. Sind beispielsweise nur |
1686 | Nichtsdestotrotz stellt das entwickelte Programm ein geeignetes Grundgerüst für | 1727 | Nichtsdestotrotz stellt das entwickelte Programm ein geeignetes Grundgerüst für |
1687 | die Anpassung dar. | 1728 | die Anpassung dar. Weiteres Potenzial besteht in der Evaluation und Integration von |
1688 | [81] | 1729 | Methoden maschinellen Lernens, die hier, wie eingangs erläutert, bewusst nicht genutzt |
1730 | worden sind. | ||
1689 | 1731 | ||
1701 | werden öffentlich zur Verfügung gestellt und können zur Forschung und Bildung | 1743 | werden öffentlich zur Verfügung gestellt und können zur Forschung und Bildung |
1702 | genutzt werden. Vgl. Kaplan 2015, S. | 1744 | genutzt werden. Vgl. Kaplan 2015, S. 73. |
1703 | 1745 | ||
1707 | [3] | 1749 | [3] |
1708 | Vgl. Hin et | 1750 | Vgl. Hin et al. 2016, S. 50. |
1709 | 1751 | ||
1711 | Vgl. Feigenbaum 2016; | 1753 | Vgl. Feigenbaum 2016; |
1712 | Hin et | 1754 | Hin et al. 2016, S. 50, 52; |
1713 | Massey 2017, S. | 1755 | Massey 2017, S. 129, 131. |
1714 | 1756 | ||
1716 | Vgl. Massey 2017, | 1758 | Vgl. Massey 2017, |
1717 | S. | 1759 | S. 130. |
1718 | 1760 | ||
1728 | [8] | 1770 | [8] |
1729 | Als Einführung in die Grundlagen des Themas vgl. Gu et | 1771 | Als Einführung in die Grundlagen des Themas vgl. Gu et al. |
1730 | 2003. | 1772 | 2003. |
1737 | Resultate erzielt sie mit probabilistischen Matching-Techniken. Vgl. Massey | 1779 | Resultate erzielt sie mit probabilistischen Matching-Techniken. Vgl. Massey |
1738 | 2017, S. | 1780 | 2017, S. 129, 140. |
1739 | 1781 | ||
1740 | [10] | 1782 | [10] |
1741 | Vgl. Gellatly 2015, S. | 1783 | Vgl. Gellatly 2015, S. 114, 122. |
1742 | 1784 | ||
1744 | Vgl. | 1786 | Vgl. |
1745 | Christen et | 1787 | Christen et al. 2015, S. 87. |
1746 | 1788 | ||
1748 | 1790 | ||
1749 | Vgl. Georgala et | 1791 | Vgl. Georgala et al. 2015, S. 173. |
1750 | 1792 | ||
1751 | [13] | 1793 | [13] |
1752 | Vgl. Baxter et | 1794 | Vgl. Baxter et al. |
1753 | 2003, S. | 1795 | 2003, S. 2. |
1754 | 1796 | ||
1758 | Restriktionen einbeziehe, beispielsweise des möglichen | 1800 | Restriktionen einbeziehe, beispielsweise des möglichen |
1759 | Schwangerschaftszeitraums der Frau. Vgl. Nanayakkara et | 1801 | Schwangerschaftszeitraums der Frau. Vgl. Nanayakkara et al. |
1760 | 2018. | 1802 | 2018. |
1762 | [15] | 1804 | [15] |
1763 | Vgl. Gellatly 2015, S. | 1805 | Vgl. Gellatly 2015, S. 116. |
1764 | 1806 | ||
1765 | [16] | 1807 | [16] |
1766 | Vgl. Gellatly 2015, S. | 1808 | Vgl. Gellatly 2015, S. 122f. |
1767 | 1809 | ||
1768 | [17] | 1810 | [17] |
1769 | Vgl. Efremova et | 1811 | Vgl. Efremova et al. 2015. |
1770 | 1812 | ||
1771 | [18] | 1813 | [18] |
1772 | Vgl. Thorvaldsen et | 1814 | Vgl. Thorvaldsen et al. 2015, S. |
1773 | 163f. | 1815 | 163f. |
1775 | [19] | 1817 | [19] |
1776 | Vgl. Thorvaldsen et | 1818 | Vgl. Thorvaldsen et al. 2015, S. |
1777 | 168. | 1819 | 168. |
1779 | [20] | 1821 | [20] |
1780 | Vgl. Georgala et | 1822 | Vgl. Georgala et al. 2015, S. 187. |
1781 | 1823 | ||
1795 | [24] | 1837 | [24] |
1838 | Vgl. Delpeuch et al. 2023. | ||
1839 | |||
1840 | [25] | ||
1796 | Vgl. | 1841 | Vgl. |
1797 | Abramitzky et al. 2021. | 1842 | Abramitzky et al. 2021. |
1798 | |||
1799 | [25] | ||
1800 | Vgl. Abramitzky et al. 2021, S. 865. | ||
1801 | 1843 | ||
1802 | [26] | 1844 | [26] |
1803 | Vgl. Abramitzky et | 1845 | Vgl. Abramitzky et al. 2021, S. 865. |
1804 | 1846 | ||
1805 | [27] | 1847 | [27] |
1848 | Vgl. Abramitzky et al. 2020, S. 94. | ||
1849 | |||
1850 | [28] | ||
1806 | Dieses stellt zugleich | 1851 | Dieses stellt zugleich |
1808 | Record-Linkage-Algorithmen in der ökonomischen Forschung dar. Vgl. | 1853 | Record-Linkage-Algorithmen in der ökonomischen Forschung dar. Vgl. |
1809 | Abramitzky et al. 2020, S. 106f. | 1854 | Abramitzky et al. 2020, S. 106f. |
1810 | |||
1811 | [28] | ||
1812 | |||
1813 | Efremova et al. nennen beispielsweise Variablen, die sie aus der Analyse von | ||
1814 | Geburts-, Todes- und Heiratsdokumenten erhalten. Vgl. Efremova et al. 2015, | ||
1815 | S. 132. | ||
1816 | 1855 | ||
1817 | [29] | 1856 | [29] |
1857 | |||
1858 | Efremova et al. nennen beispielsweise Variablen, die sie aus der Analyse von | ||
1859 | Geburts-, Todes- und Heiratsdokumenten erhalten. Vgl. Efremova et al. 2015, | ||
1860 | S. 132. | ||
1861 | |||
1862 | [30] | ||
1818 | Vgl. Gellatly 2015, S. | 1863 | Vgl. Gellatly 2015, S. |
1819 | 112; Harviainen | 1864 | 112; Harviainen / Björk 2018, S. 4. |
1820 | 1865 | ||
1821 | [ | 1866 | [31] |
1822 | Vgl. The Church of Jesus | 1867 | Vgl. The Church of Jesus |
1824 | 1869 | ||
1825 | [ | 1870 | [32] |
1826 | Vgl. | 1871 | Vgl. |
1828 | 1873 | ||
1829 | [ | 1874 | [33] |
1830 | Vgl. Verein für | 1875 | Vgl. Verein für |
1832 | 1877 | ||
1833 | [ | 1878 | [34] |
1834 | In | 1879 | In |
1844 | 1889 | ||
1845 | [ | 1890 | [35] |
1846 | Sollten mehr als zwei Datensätze | 1891 | Sollten mehr als zwei Datensätze |
1852 | 1897 | ||
1853 | [ | 1898 | [36] |
1854 | Vgl. | 1899 | Vgl. |
1856 | 1901 | ||
1857 | [ | 1902 | [37] |
1858 | Ortsangaben | 1903 | Ortsangaben |
1869 | Bevölkerung ist es wahrscheinlicher, dass Lebensereignisse in einer | 1914 | Bevölkerung ist es wahrscheinlicher, dass Lebensereignisse in einer |
1870 | begrenzten geografischen Distanz stattgefunden haben. Vgl. Bähr et | 1915 | begrenzten geografischen Distanz stattgefunden haben. Vgl. Bähr et al. |
1871 | 1992; Kocka et | 1916 | 1992; Kocka et al. 1980. Für den Erfolg eines Record Linkage kann es also |
1872 | auch relevant sein, ob Orte geografisch nah beieinander zu finden sind. | 1917 | auch relevant sein, ob Orte geografisch nah beieinander zu finden sind. |
1873 | Vgl. Efremova et | 1918 | Vgl. Efremova et al. 2015, S. 135, 139–141. Die Aufbereitung der Ortsangaben |
1874 | kann an den von Goldberg definierten, auf den deutschen Sprachraum | 1919 | kann an den von Goldberg definierten, auf den deutschen Sprachraum |
1878 | 1923 | ||
1879 | [ | 1924 | [38] |
1880 | In der deutschen Sprache enden Frauennamen traditionell | 1925 | In der deutschen Sprache enden Frauennamen traditionell |
1886 | 1931 | ||
1887 | [ | 1932 | [39] |
1888 | Zur | 1933 | Zur |
1889 | Separierung solcher berufsfernen Angaben kann auf Goldberg / Moeller 2022 hingewiesen werden, die Kriterien zur Bereinigung von Berufsangaben aufstellen. | 1934 | Separierung solcher berufsfernen Angaben kann auf Goldberg / Moeller 2022 hingewiesen werden, die Kriterien zur Bereinigung von Berufsangaben aufstellen. |
1890 | |||
1891 | [39] | ||
1892 | 230 = 1.073.741.824. | ||
1893 | 1935 | ||
1894 | [40] | 1936 | [40] |
1895 | 1.073.741. | 1937 | 230 = 1.073.741.824. |
1896 | 1938 | ||
1897 | [41] | 1939 | [41] |
1940 | 1.073.741.8242 = 1.152.921.504.606.850.000. | ||
1941 | |||
1942 | [42] | ||
1898 | Sonderformen bei einzelnen | 1943 | Sonderformen bei einzelnen |
1899 | Glaubensgemeinschaften, z. | 1944 | Glaubensgemeinschaften, z. B. die Totentaufe der Mormonen, bleiben |
1900 | unberücksichtigt. | 1945 | unberücksichtigt. |
1901 | 1946 | ||
1902 | [ | 1947 | [43] |
1903 | Der Vergleich darf sich aber nicht nur auf einzelne Vornamen | 1948 | Der Vergleich darf sich aber nicht nur auf einzelne Vornamen |
1911 | 1956 | ||
1912 | [ | 1957 | [44] |
1913 | Beispielsweise ist eine Person, die als | 1958 | Beispielsweise ist eine Person, die als |
1918 | 1963 | ||
1919 | [ | 1964 | [45] |
1920 | Die hier definierten Regeln | 1965 | Die hier definierten Regeln |
1923 | 1968 | ||
1924 | [ | 1969 | [46] |
1925 | Wenn für | 1970 | Wenn für |
1930 | 1975 | ||
1931 | [ | 1976 | [47] |
1932 | 1977 | ||
1936 | 1981 | ||
1937 | [ | 1982 | [48] |
1938 | Vgl. Georgala et | 1983 | Vgl. Georgala et al. 2015, S. |
1939 | 187. | 1984 | 187. |
1940 | 1985 | ||
1941 | [ | 1986 | [49] |
1942 | Receiver Operating Characteristic, vgl. Fan et | 1987 | Receiver Operating Characteristic, vgl. Fan et al. |
1943 | 2006. | 1988 | 2006. |
1944 | 1989 | ||
1945 | [49] | ||
1946 | Vgl. Georgala et al. 2015, S. 185. | ||
1947 | |||
1948 | [50] | 1990 | [50] |
1949 | Vgl. | 1991 | Vgl. Georgala et al. 2015, S. 185. |
1950 | 1992 | ||
1951 | [51] | 1993 | [51] |
1952 | Vgl. | 1994 | Vgl. Postel 1969, S. 928. |
1953 | 1995 | ||
1954 | [52] | 1996 | [52] |
1997 | Vgl. Schönfelder / Börngen 2015, S. 39. | ||
1998 | |||
1999 | [53] | ||
1955 | Bei der KLK ist vor allem | 2000 | Bei der KLK ist vor allem |
1958 | 2003 | ||
1959 | [ | 2004 | [54] |
1960 | Munke 2019, S. | 2005 | Munke 2019, S. 118. |
1961 | Personen innerhalb der KLF können also doppelt vorkommen, indem sie auf | 2006 | Personen innerhalb der KLF können also doppelt vorkommen, indem sie auf |
1966 | 2011 | ||
1967 | [ | 2012 | [55] |
1968 | Für eine | 2013 | Für eine |
1971 | 2016 | ||
1972 | [ | 2017 | [56] |
1973 | Online durchsuchbar, vgl. Verein für Computergenealogie | 2018 | Online durchsuchbar, vgl. Verein für Computergenealogie |
1975 | 2020 | ||
1976 | [ | 2021 | [57] |
1977 | Erwähnenswert ist, dass nicht jedes Feld einen Eintrag | 2022 | Erwähnenswert ist, dass nicht jedes Feld einen Eintrag |
1980 | 2025 | ||
1981 | [ | 2026 | [58] |
1982 | Sächsisches Staatsarchiv. Bestand 20009 Amt | 2027 | Sächsisches Staatsarchiv. Bestand 20009 Amt |
1984 | 2029 | ||
1985 | [ | 2030 | [59] |
1986 | Verein für Computergenealogie 2019–2021. | 2031 | Verein für Computergenealogie 2019–2021. |
1987 | 2032 | ||
1988 | [ | 2033 | [60] |
1989 | 2034 | ||
1994 | 2039 | ||
1995 | [ | 2040 | [61] |
1996 | Vgl. Böttcher | 2041 | Vgl. Böttcher |
1998 | 2043 | ||
1999 | [ | 2044 | [62] |
2000 | Die Zusammenführung basiert hierbei auf gleichen Namen und | 2045 | Die Zusammenführung basiert hierbei auf gleichen Namen und |
2001 | einem gleichen Ereignisdatum (z. | 2046 | einem gleichen Ereignisdatum (z. B. das Taufdatum) und betrifft auch die |
2002 | nähere Verwandtschaft der betreffenden Personen wie die Eltern, Kinder oder | 2047 | nähere Verwandtschaft der betreffenden Personen wie die Eltern, Kinder oder |
2003 | Geschwister. Vgl. Böttcher 2018, S. | 2048 | Geschwister. Vgl. Böttcher 2018, S. 17. |
2004 | 2049 | ||
2005 | [ | 2050 | [63] |
2006 | Hier werden die Daten genutzt, nachdem die KLF und | 2051 | Hier werden die Daten genutzt, nachdem die KLF und |
2010 | 2055 | ||
2011 | [ | 2056 | [64] |
2012 | Die KLK enthält zwar 6.524 Personendatensätze. Die | 2057 | Die KLK enthält zwar 6.524 Personendatensätze. Die |
2016 | 2061 | ||
2017 | [ | 2062 | [65] |
2018 | 2063 | ||
2030 | 2075 | ||
2031 | Ran Abramitzky | 2076 | Ran Abramitzky / Leah Boustan / Katherine Eriksson / James Feigenbaum / |
2032 | Santiago Pérez: Automated Linking of Historical Data. In: Journal of Economic | 2077 | Santiago Pérez: Automated Linking of Historical Data. In: Journal of Economic |
2033 | Literature 59 (2021), H. 3, S. | 2078 | Literature 59 (2021), H. 3, S. 865–918. DOI: 10.1257/jel.20201599 |
2034 | [Nachweis im GVK] Ran Abramitzky | 2079 | [Nachweis im GVK] Ran Abramitzky / Roy Mill / Santiago Pérez: Linking individuals across |
2035 | historical sources: A fully automated approach. In: Historical Methods: A Journal | 2080 | historical sources: A fully automated approach. In: Historical Methods: A Journal |
2036 | of Quantitative and Interdisciplinary History 53 (2020), H. 2, S. | 2081 | of Quantitative and Interdisciplinary History 53 (2020), H. 2, S. 94–111. DOI: 10.1080/01615440.2018.1543034 |
2037 | [Nachweis im GVK] Jürgen Bähr | 2082 | [Nachweis im GVK] Jürgen Bähr / Christoph Jentsch / Wolfgang Kuls: Bevölkerungsgeographie. Berlin |
2038 | u. | 2083 | u. a. 1992. (= Lehrbuch der allgemeinen Geographie, 9). [Nachweis im GVK] Rohan Baxter / Peter Christen / Tim Churches: A Comparison of Fast Blocking |
2039 | Methods for Record Linkage. 2003. PDF. [online]Dirk Böttcher: Ahnenblatt Handbuch. 2018. PDF. [online]Peter Christen | 2084 | Methods for Record Linkage. 2003. PDF. [online]Dirk Böttcher: Ahnenblatt Handbuch. 2018. PDF. [online]Peter Christen / Dinusha Vatsalan / Zhichun Fu: Advanced Record Linkage Methods |
2040 | and Privacy Aspects for Population Reconstruction. A Survey and Case Studies. In: | 2085 | and Privacy Aspects for Population Reconstruction. A Survey and Case Studies. In: |
2041 | Population Reconstruction. Hg. von Gerrit Bloothooft | 2086 | Population Reconstruction. Hg. von Gerrit Bloothooft / Peter Christen / Kees |
2042 | Mandemakers | 2087 | Mandemakers / Marijn Schraagen. Cham u. a. 2015, S. 87–110. DOI: 10.1007/978-3-319-19884-2_5 |
2043 | [Nachweis im GVK] The Church of Jesus Christ of Latter-day Saints: The GEDCOM Standard. Salt Lake City | 2088 | [Nachweis im GVK] The Church of Jesus Christ of Latter-day Saints: The GEDCOM Standard. Salt Lake City |
2044 | 2019. Release | 2089 | 2019. Release |
2045 | 5.5.1. vom 15.11.2019. PDF. [online]Julia Efremova / Bijan Ranjbar-Sahraei / Hossein Rahmani / Frans A. Oliehoek / | 2090 | 5.5.1. vom 15.11.2019. PDF. [online]Antonin Delpeuch / Adrian Pohl / Fabian Steeg / Thad Guidry Sr. / Osma Suominen: Reconciliation |
2046 | Toon Calders / Karl Tuyls / Gerhard Weiss: Multi-Source Entity Resolution for | 2091 | Service API v0.2. A Protocol for Data Matching on the Web. Final Community Group Report. |
2047 | Genealogical Data. In: Population Reconstruction. Hg. von Gerrit Bloothooft / | 2092 | 10.04.2023. HTML. [online]Julia Efremova / Bijan Ranjbar-Sahraei / Hossein Rahmani / Frans A. Oliehoek / |
2048 | Peter Christen / Kees Mandemakers / Marijn Schraagen. Cham u. a. 2015, S. 129–154. | 2093 | Toon Calders / Karl Tuyls / Gerhard Weiss: Multi-Source Entity Resolution for |
2049 | DOI: 10.1007/978-3-319-19884-2_7 [Nachweis im GVK] Jerome Fan / Suneel Upadhye / Andrew Worster: Understanding receiver operating | 2094 | Genealogical Data. In: Population Reconstruction. Hg. von Gerrit Bloothooft / |
2095 | Peter Christen / Kees Mandemakers / Marijn Schraagen. Cham u. a. 2015, S. 129–154. | ||
2096 | DOI: 10.1007/978-3-319-19884-2_7 [Nachweis im GVK] Jerome Fan / Suneel Upadhye / Andrew Worster: Understanding receiver operating | ||
2050 | characteristic (ROC) curves. In: Canadian Journal of Emergency Medicine 8 (2006), | 2097 | characteristic (ROC) curves. In: Canadian Journal of Emergency Medicine 8 (2006), |
2051 | H. | 2098 | H. 1, S. 19–20. DOI: 10.1017/S1481803500013336 [Nachweis im GVK] James J. Feigenbaum: Automated census record linking: a machine learning |
2052 | approach. 2016. Handle: 2144/27526Eli Fure: Interactive Record Linkage: The Cumulative Construction of Life | 2099 | approach. 2016. Handle: 2144/27526Eli Fure: Interactive Record Linkage: The Cumulative Construction of Life |
2053 | Courses. In: Demographic Research 3 (2000). 12.12.2000. DOI: 10.4054/DemRes.2000.3.11Corry Gellatly: Reconstructing Historical Populations from Genealogical Data | 2100 | Courses. In: Demographic Research 3 (2000). 12.12.2000. DOI: 10.4054/DemRes.2000.3.11Corry Gellatly: Reconstructing Historical Populations from Genealogical Data |
2054 | Files. In: Population Reconstruction. Hg. von Gerrit Bloothooft | 2101 | Files. In: Population Reconstruction. Hg. von Gerrit Bloothooft / Peter Christen / |
2055 | Kees Mandemakers | 2102 | Kees Mandemakers / Marijn Schraagen. Cham u. a. 2015, S. 111–128. DOI: 10.1007/978-3-319-19884-2_6 |
2056 | [Nachweis im GVK] Kleanthi Georgala | 2103 | [Nachweis im GVK] Kleanthi Georgala / Benjamin van der Burgh / Marvin Meeng / Arno Knobbe: Record |
2057 | Linkage in Medieval and Early Modern Text. In: Population Reconstruction. Hg. von | 2104 | Linkage in Medieval and Early Modern Text. In: Population Reconstruction. Hg. von |
2058 | Gerrit Bloothooft | 2105 | Gerrit Bloothooft / Peter Christen / Kees Mandemakers / Marijn Schraagen. Cham u. |
2059 | a. 2015, S. | 2106 | a. 2015, S. 173–195. DOI: 10.1007/978-3-319-19884-2_9 [Nachweis im GVK] Jan Michael Goldberg: Kontextsensitive Entscheidungsfindung zur automatisierten |
2060 | Identifizierung und Clusterung deutschsprachiger Urbanonyme. In: Zeitschrift für | 2107 | Identifizierung und Clusterung deutschsprachiger Urbanonyme. In: Zeitschrift für |
2061 | digitale Geisteswissenschaften 7 (2022). 10.10.2022. DOI: 10.17175/2022_005Jan Michael Goldberg | 2108 | digitale Geisteswissenschaften 7 (2022). 10.10.2022. DOI: 10.17175/2022_005Jan Michael Goldberg / Katrin Moeller: Automatisierte Identifikation und |
2062 | Lemmatisierung historischer Berufsbezeichnungen in deutschsprachigen | 2109 | Lemmatisierung historischer Berufsbezeichnungen in deutschsprachigen |
2063 | Datenbeständen. In: Zeitschrift für digitale Geisteswissenschaften 7 (2022). 08.03.2022. | 2110 | Datenbeständen. In: Zeitschrift für digitale Geisteswissenschaften 7 (2022). 08.03.2022. |
2064 | DOI: 10.17175/2022_002Lifang Gu | 2111 | DOI: 10.17175/2022_002Lifang Gu / Rohan Baxter / Deanne Vickers / Chris Rainsford: Record Linkage: |
2065 | Current Practice and Future Directions. In: CMIS Technical Report 03/83 (2003). | 2112 | Current Practice and Future Directions. In: CMIS Technical Report 03/83 (2003). |
2066 | PDF. [online]J. Tuomas Harviainen | 2113 | PDF. [online]J. Tuomas Harviainen / Bo-Christer Björk: Genealogy, GEDCOM, and popularity |
2067 | implications. In: Informaatiotutkimus 37 (2018), H. | 2114 | implications. In: Informaatiotutkimus 37 (2018), H. 3, S. 4–14. DOI: 10.23978/inf.76066 [Nachweis im GVK] Saskia Hin / Dalia A. Conde / Adam Lenart: New light on Roman census papyri |
2068 | through semi-automated record linkage. In: Historical Methods: A Journal of | 2115 | through semi-automated record linkage. In: Historical Methods: A Journal of |
2069 | Quantitative and Interdisciplinary History 49 (2016), H. 1, S. | 2116 | Quantitative and Interdisciplinary History 49 (2016), H. 1, S. 50–65. DOI: 10.1080/01615440.2015.1071226 |
2070 | [Nachweis im GVK] Frédéric Kaplan: The Venice Time Machine. In: DocEng ’15: Proceedings of the | 2117 | [Nachweis im GVK] Frédéric Kaplan: The Venice Time Machine. In: DocEng ’15: Proceedings of the |
2071 | 2015 ACM Symposium on Document Engineering (DocEng, Lausanne, 08.–11.09.2015). New | 2118 | 2015 ACM Symposium on Document Engineering (DocEng, Lausanne, 08.–11.09.2015). New |
2072 | York 2015, S. | 2119 | York 2015, S. 73. DOI: 10.1145/2682571.2797071Jürgen Kocka / Karl Ditt / Josef Mooser / Heinz Reif / Reinhard Schüren: |
2073 | Familie und soziale Platzierung. Studien zum Verhältnis von Familie, sozialer | 2120 | Familie und soziale Platzierung. Studien zum Verhältnis von Familie, sozialer |
2074 | Mobilität und Heiratsverhalten an westfälischen Beispielen im späten 18. und 19. | 2121 | Mobilität und Heiratsverhalten an westfälischen Beispielen im späten 18. und 19. |
2075 | Jahrhundert. Wiesbaden 1980 (= | 2122 | Jahrhundert. Wiesbaden 1980 (= Forschungsberichte des Landes Nordrhein-Westfalen, |
2076 | 2953). DOI: 10.1007/978-3-322-87746-8Catherine G. Massey: Playing with matches: An assessment of accuracy in linked | 2123 | 2953). DOI: 10.1007/978-3-322-87746-8Catherine G. Massey: Playing with matches: An assessment of accuracy in linked |
2077 | historical data. In: Historical Methods: A Journal of Quantitative and | 2124 | historical data. In: Historical Methods: A Journal of Quantitative and |
2078 | Interdisciplinary History 50 (2017), H. 3, S. | 2125 | Interdisciplinary History 50 (2017), H. 3, S. 129–143. DOI: 10.1080/01615440.2017.1288598 |
2079 | [Nachweis im GVK] Martin Munke: Citizen Science | 2126 | [Nachweis im GVK] Martin Munke: Citizen Science / Bürgerwissenschaft. Projekte, Probleme, |
2080 | Perspektiven am Beispiel Sachsen. In: Forschungsdesign 4.0. Datengenerierung und | 2127 | Perspektiven am Beispiel Sachsen. In: Forschungsdesign 4.0. Datengenerierung und |
2081 | Wissenstransfer in interdisziplinärer Perspektive. Hg. von Jens Klingner | 2128 | Wissenstransfer in interdisziplinärer Perspektive. Hg. von Jens Klingner / Merve |
2082 | Lühr (Dresden, 19.–21.04.2018). Dresden 2019, S. | 2129 | Lühr (Dresden, 19.–21.04.2018). Dresden 2019, S. 107–124. DOI: 10.25366/2019.11Charini Nanayakkara / Peter Christen / Thilina Ranbaduge: Temporal graph-based |
2083 | clustering for historical record linkage. In: Proceedings of 14th International | 2130 | clustering for historical record linkage. In: Proceedings of 14th International |
2086 | Personennamen auf der Grundlage der Gestaltanalyse. In: IBM-Nachrichten 19 (1969), | 2133 | Personennamen auf der Grundlage der Gestaltanalyse. In: IBM-Nachrichten 19 (1969), |
2087 | S. | 2134 | S. 925–931. [Nachweis im GVK] Günther Schönfelder / Michael Börngen: Naturräumliche Grundlagen. Landschaft |
2088 | und Klima. In: Geschichte der Stadt Leipzig. Hg. von Uwe John | 2135 | und Klima. In: Geschichte der Stadt Leipzig. Hg. von Uwe John / Enno Bünz. 4 Bde. |
2089 | Leipzig 2015–2019. Bd. 1 (2015): Von den Anfängen bis zur Reformation, S. | 2136 | Leipzig 2015–2019. Bd. 1 (2015): Von den Anfängen bis zur Reformation, S. 33–47. |
2090 | [Nachweis im GVK] Peter Schulz: GEDTOOL. Makrosammlung für GEDCOM-Dateien. V. 2.7 vom 14.09.2017. | 2137 | [Nachweis im GVK] Peter Schulz: GEDTOOL. Makrosammlung für GEDCOM-Dateien. V. 2.7 vom 14.09.2017. |
2091 | PDF. [online] Gunnar Thorvaldsen | 2138 | PDF. [online] Gunnar Thorvaldsen / Andersen Trygve / Hilde L. Sommerseth: Record Linkage in |
2092 | the Historical Population Register for Norway. In: Population Reconstruction. | 2139 | the Historical Population Register for Norway. In: Population Reconstruction. |
2093 | Hg. von Gerrit Bloothooft | 2140 | Hg. von Gerrit Bloothooft / Peter Christen / Kees Mandemakers / Marijn Schraagen. |
2094 | Cham u. | 2141 | Cham u. a. 2015, S. 155–171. DOI: 10.1007/978-3-319-19884-2_8 [Nachweis im GVK] Time Machine Organisation: Local Time Machines. 2022. HTML. [online]Verein für Computergenealogie (2016a): Gedbas4all / Datenmodell. In: GenWiki. |
2095 | Das Genealogie-Wiki. 2016. HTML. [online] Verein für Computergenealogie (2016b): Gedbas4all | 2142 | Das Genealogie-Wiki. 2016. HTML. [online] Verein für Computergenealogie (2016b): Gedbas4all / Datumsangaben. In: GenWiki. |
2096 | Das Genealogie-Wiki. 2016. HTML. [online]Verein für Computergenealogie: Kartei Leipziger Familien. In: GenWiki. Das | 2143 | Das Genealogie-Wiki. 2016. HTML. [online]Verein für Computergenealogie: Kartei Leipziger Familien. In: GenWiki. Das |
2102 | 2149 | ||
2150 | |||
2151 | |||
2103 | Abbildungs- und Tabellenverzeichnis | 2152 | Abbildungs- und Tabellenverzeichnis |
2104 | 2153 | ||
2105 | 2154 | Abb. 1: Ablauf der Datenverarbeitung. [Goldberg / Mernitz 2023] | |
2106 | Abb. 1: | 2155 | Abb. 2: Funktionsweise des Algorithmus als Nassi-Shneiderman-Diagramm. [Goldberg / Mernitz |
2107 | Ablauf der Datenverarbeitung. [Goldberg / Mernitz 2023] | ||
2108 | |||
2109 | |||
2110 | Abb. 2: | ||
2111 | Funktionsweise des Algorithmus als Nassi-Shneiderman-Diagramm. [Goldberg / Mernitz | ||
2112 | 2023] | 2156 | 2023] |
2113 | |||
2114 | |||
2115 | Tab. 1: | 2157 | Tab. 1: |
2116 | Definition von Datenfeldern. [Goldberg / Mernitz 2023] | 2158 | Definition von Datenfeldern. [Goldberg / Mernitz 2023] |
2117 | |||
2118 | |||
2119 | Tab. 2: | 2159 | Tab. 2: |
2120 | Zusätzliche Variablen eines zusammengeführten Datensatzes. [Goldberg / Mernitz 2023] | 2160 | Zusätzliche Variablen eines zusammengeführten Datensatzes. [Goldberg / Mernitz 2023] |
2121 | |||
2122 | |||
2123 | Tab. 3: | 2161 | Tab. 3: |
2124 | Direkte Umwandlung der KLF-Struktur in die Normform. [Goldberg / Mernitz 2023] | 2162 | Direkte Umwandlung der KLF-Struktur in die Normform. [Goldberg / Mernitz 2023] |
2125 | |||
2126 | |||
2127 | Tab. 4: | 2163 | Tab. 4: |
2128 | Indirekte Umwandlung der KLF-Struktur in die Normform. [Goldberg / Mernitz 2023] | 2164 | Indirekte Umwandlung der KLF-Struktur in die Normform. [Goldberg / Mernitz 2023] |
2129 | |||
2130 | |||
2131 | Tab. 5: | 2165 | Tab. 5: |
2132 | Direkte Umwandlung der KLK-Struktur in die Normform. [Goldberg / Mernitz 2023] | 2166 | Direkte Umwandlung der KLK-Struktur in die Normform. [Goldberg / Mernitz 2023] |
2133 | |||
2134 | |||
2135 | Tab. 6: | 2167 | Tab. 6: |
2136 | Indirekte Umwandlung der KLK-Struktur in die Normform. [Goldberg / Mernitz 2023] | 2168 | Indirekte Umwandlung der KLK-Struktur in die Normform. [Goldberg / Mernitz 2023] |
2137 | |||
2138 | |||
2139 | Tab. 7: | 2169 | Tab. 7: |
2140 | 2170 | Übersicht über die Anzahl der verknüpften Personen aus den Normformen. [Goldberg / | |
2141 | Mernitz 2023] | 2171 | Mernitz 2023] |