Versionen vergleichen von : Vorzüge von Auszügen – Urheberrechtlich geschützte Texte in den digitalen Geisteswissenschaften (nach-)nutzen

AltNeu
17 Felicitas Kleinkopf 17 Felicitas Kleinkopf
18 Kontakt: felicitas.kleinkopf@kit.eduInstitution: Karlsruher Institut für Technologie, Institut für Informations- und 18 Kontakt: felicitas.kleinkopf@kit.eduInstitution: Karlsruher Institut für Technologie, Institut für
19 Wirtschaftsrecht, Zentrum für Angewandte Rechtswissenschaft GND: 1268974757ORCID: 0000-0001-8670-2668 19 Informations- und Wirtschaftsrecht, Zentrum für Angewandte
20 Rechtswissenschaft GND: 1268974757ORCID: 0000-0001-8670-2668
20 Jonas Kuhn 21 Jonas Kuhn
28 29
29 DOI: 10.17175/2022_007 30 DOI: 10.17175/2022_007_v2
30 Nachweis im OPAC der Herzog August Bibliothek: 1816418234 31 Nachweis im OPAC der Herzog August Bibliothek: 1845597966
31 Erstveröffentlichung: 03.11.2022 32 Erstveröffentlichung: 03.11.2022
33 Version 2.0: 22.06.2023
32 Lizenz: Sofern nicht anders angegeben 34 Lizenz: Sofern nicht anders angegeben
34 36
35 Medienlizenzen: Medienrechte liegen bei den Autor*innen. 37 Medienlizenzen: Medienrechte liegen bei den Autor*innen
36 Letzte Überprüfung aller Verweise: 22.09.2022 38 Letzte Überprüfung aller Verweise: 06.09.2022
37 GND-Verschlagwortung: Urheberrecht | Data Mining | Infrastruktur | Open Science | Digital Humanities | Forschungsdaten | 39 GND-Verschlagwortung: Urheberrecht | Data Mining | Infrastruktur | Open Science | Digital Humanities | Forschungsdaten | 
38 Empfohlene Zitierweise: Melanie Andresen, Markus Gärtner, Sibylle Hermann, Janina Jacke, Nora Ketschik, Felicitas Kleinkopf, Jonas Kuhn: Vorzüge von Auszügen – Urheberrechtlich geschützte Texte in 40 Empfohlene Zitierweise: Melanie Andresen, Markus Gärtner, Sibylle Hermann, Janina Jacke, Nora Ketschik, Felicitas Kleinkopf, Jonas Kuhn, Axel Pichler: Vorzüge von Auszügen – Urheberrechtlich geschützte Texte in
39 den digitalen Geisteswissenschaften (nach-)nutzen. In: Zeitschrift für digitale Geisteswissenschaften. Wolfenbüttel 2022. text/html Format. DOI: 10.17175/2022_007 41 den digitalen Geisteswissenschaften (nach-)nutzen. In: Zeitschrift für digitale Geisteswissenschaften 7 (2022). 03.11.2022. Version 2.0 vom 22.06.2023. HTML / XML / PDF. DOI: 10.17175/2022_007_v2
40
41 42
45 Abstract 46 Abstract
47
46 Um urheberrechtlichen Einschränkungen beim Austausch zu Forschungsergebnissen 48 Um urheberrechtlichen Einschränkungen beim Austausch zu Forschungsergebnissen
71 73
74
75 Version 2.0 (22.06.2023)
76 Korrekturen in Text und Fußnoten anhand der Monita in den Gutachten. Ergänzungen in
77 der Bibliografie.
78
79
72 1. Einleitung 80 1. Einleitung
86 5. Fazit 94 5. Fazit
87 Bibliographische Angaben 95 Bibliografische Angaben
88 Abbildungs- und Tabellenverzeichnis 96 Abbildungs- und Tabellenverzeichnis
93 [1]Die korpusorientierte Forschung an Texten und anderen Materialien in den digitalen 101 [1]Die korpusorientierte Forschung an Texten und anderen Materialien in den digitalen
94 Geisteswissenschaften ist durch das deutsche Urheberrecht eingeschränkt, das die 102 Geisteswissenschaften[1] ist durch das
95 Weitergabe von Forschungsdaten zu geschützten Werken und deren Archivierung nur in 103 deutsche Urheberrecht eingeschränkt, das die Weitergabe von Forschungsdaten zu
96 engen Grenzen erlaubt.[1] Die Restriktionen erschweren die 104 geschützten Werken und deren Archivierung nur in engen Grenzen erlaubt.[2]
97 Einhaltung der guten wissenschaftlichen Praxis sowie der FAIR-Prinzipien für Forschungsdateninfrastrukturen.[2] In 105 Die Restriktionen erschweren die Einhaltung der guten wissenschaftlichen Praxis
98 vielen Projekten wird deshalb aus pragmatischen Gründen gänzlich darauf 106 sowie der FAIR-Prinzipien für
99 verzichtet, urheberrechtlich geschützte Texte einzubeziehen. Nicht selten bedeutet 107 Forschungsdateninfrastrukturen.[3] In vielen Projekten wird deshalb aus pragmatischen
100 dies, dass zeitgenössische Texte – und mit ihnen bestimmte Fragestellungen – 108 Gründen gänzlich darauf verzichtet, urheberrechtlich geschützte Texte
101 nahezu vollständig ausgeblendet werden (müssen).[3] Eine so weitreichende 109 einzubeziehen. Nicht selten bedeutet dies, dass zeitgenössische Texte – und mit
102 Beschneidung des Gegenstandsbereichs führt jedoch nicht nur zu Verzerrungen der 110 ihnen bestimmte Fragestellungen – nahezu vollständig ausgeblendet werden
111 (müssen).[4] Eine so weitreichende Beschneidung des
112 Gegenstandsbereichs führt jedoch nicht nur zu Verzerrungen der
103 Forschungslandschaft, die aus geisteswissenschaftlich-fachlichen Gründen 113 Forschungslandschaft, die aus geisteswissenschaftlich-fachlichen Gründen
104 problematisch sind, sie hat häufig auch zur Folge, dass sich die Entwicklung 114 problematisch sind, sie hat häufig auch zur Folge, dass sich die Entwicklung
105 algorithmischer Verfahren mit sehr kleinen Datensätzen und / oder einer heterogenen 115 algorithmischer Verfahren mit sehr kleinen Datensätzen und / oder einer
106 Kombination von Quellen behelfen muss. 116 heterogenen Kombination von Quellen behelfen muss.
107 [2]Selbstverständlich besteht für Forscher*innen die Möglichkeit, für die Forschung 117 [2]Selbstverständlich besteht für Forscher*innen die Möglichkeit, für die Forschung
128 Reihe von digitalen Analyseverfahren geeignet sind, die den Text jedoch aus 138 Reihe von digitalen Analyseverfahren geeignet sind, die den Text jedoch aus
129 urheberrechtlicher Perspektive hinreichend verfremden.[4] Diese abgeleiteten Textformate halten beispielsweise 139 urheberrechtlicher Perspektive hinreichend verfremden.[5] Diese abgeleiteten Textformate halten beispielsweise für
130 für Textsegmente wie Kapitel oder Abschnitte lediglich die Häufigkeit der 140 Textsegmente wie Kapitel oder Abschnitte lediglich die Häufigkeit der enthaltenen
131 enthaltenen Einzelwörter oder n-Gramme (also kurzen 141 Einzelwörter oder n-Gramme (also kurzen Wortsequenzen)
132 Wortsequenzen) fest. Gängige Verfahren der Makroanalyse,[5] die etwa lexikalische Indikatoren für die Dynamik 142 fest. Gängige Verfahren der Makroanalyse,[6] die etwa lexikalische Indikatoren für die Dynamik des Textverlaufs
133 des Textverlaufs heranziehen, können auf dieser Basis zur Anwendung kommen. Der 143 heranziehen, können auf dieser Basis zur Anwendung kommen. Der Urheberrechtsschutz
134 Urheberrechtsschutz wird dabei durch den Aufbruch der Textstruktur aufgehoben, 144 wird dabei durch den Aufbruch der Textstruktur aufgehoben, sodass Restriktionen
135 sodass Restriktionen zur Archivierung, Weitergabe und Veröffentlichung der 145 zur Archivierung, Weitergabe und Veröffentlichung der Datensätze nicht mehr zum
136 Datensätze nicht mehr zum Tragen kommen. Das Konzept der abgeleiteten Textformate 146 Tragen kommen. Das Konzept der abgeleiteten Textformate leistet somit einen großen
137 leistet somit einen großen Beitrag zur Replizierbarkeit von Forschung und 147 Beitrag zur Replizierbarkeit von Forschung und Nachnutzbarkeit von
138 Nachnutzbarkeit von Forschungsdaten. 148 Forschungsdaten.
139 [5]Allerdings stößt das Konzept der abgeleiteten Formate dort an seine Grenzen, wo 149 [5]Allerdings stößt das Konzept der abgeleiteten Formate dort an seine Grenzen, wo
148 der komplementär zum Konzept der abgeleiteten Textformate eingesetzt werden kann 158 der komplementär zum Konzept der abgeleiteten Textformate eingesetzt werden kann
149 (vgl. Abbildung 1). Dieser 159 (vgl. Abbildung 1).
150 Ansatz nutzt das bestehende Recht zur Weitergabe von prozentual begrenzten 160 Dieser Ansatz nutzt das bestehende Recht zur Weitergabe von prozentual begrenzten
151 Auszügen geschützter Werke zu Zwecken der wissenschaftlichen Forschung (§ 60c 161 Auszügen geschützter Werke zu Zwecken der wissenschaftlichen Forschung (§ 60c UrhG)
152 UrhG) und überträgt dies auf die Herausgabe von Korpusauszügen. Der erlaubte 162 und überträgt dies auf die Herausgabe von Korpusauszügen. Der erlaubte Umfang
153 Umfang dieser Auszüge beträgt zwar in der Regel nur 15 Prozent eines Werks, der 163 dieser Auszüge beträgt zwar in der Regel nur 15 Prozent eines Werks, der
154 XSample-Ansatz ermöglicht jedoch eine dynamische, auf das individuelle 164 XSample-Ansatz ermöglicht jedoch eine dynamische, auf das individuelle
157 vorhandenen Annotationen genau spezifizieren, welche Teile des Korpus für sie 167 vorhandenen Annotationen genau spezifizieren, welche Teile des Korpus für sie
158 relevant sind. Auf diese Weise werden die rechtlichen Möglichkeiten in einer 168 relevant sind. Dabei stellt der XSample-Ansatz sicher, dass die geschützten
169 Primärdaten bei der Modellierung der Suchanfrage für die Nachnutzer*innen nicht
170 einsehbar sind. Auf diese Weise werden die rechtlichen Möglichkeiten in einer
159 zielführenden Art und Weise ausgeschöpft und nachhaltige Forschung mit 171 zielführenden Art und Weise ausgeschöpft und nachhaltige Forschung mit
178 [7]Der vorliegende Beitrag geht in Kapitel 2 190 [7]Der vorliegende Beitrag geht in Kapitel 2
179 zunächst auf die rechtlichen Grundlagen ein, die für Verfahren des Text- und Data-Mining (TDM)[6] gelten und die Rahmenbedingungen für das hier präsentierte 191 zunächst auf die rechtlichen Grundlagen ein, die für Verfahren des Text- und Data-Mining (TDM)[7] gelten und die Rahmenbedingungen für das hier präsentierte
180 Auszugskonzept schaffen. Kapitel 3 stellt 192 Auszugskonzept schaffen. Kapitel 3 stellt
182 innerhalb des rechtlichen Rahmens technisch umgesetzt werden kann. Dabei werden 194 innerhalb des rechtlichen Rahmens technisch umgesetzt werden kann. Dabei werden
183 insbesondere die unterschiedlichen Akteur*innen in den Blick genommen sowie Schritte 195 insbesondere die unterschiedlichen Akteur*innen in den Blick genommen sowie
184 der Datenvorbereitung und verschiedene Möglichkeiten der Auszugsgenerierung 196 Schritte der Datenvorbereitung und verschiedene Möglichkeiten der
185 vorgestellt. Anschließend werden in Kapitel 197 Auszugsgenerierung vorgestellt. Anschließend werden in Kapitel 4 zwei Nutzungsszenarien präsentiert, die im
186 4 zwei Nutzungsszenarien präsentiert, die im Kontext konkreter 198 Kontext konkreter Forschungsfragen ausführen, inwieweit abgeleitete Textformate
187 Forschungsfragen ausführen, inwieweit abgeleitete Textformate und / oder das 199 und / oder das Auszugskonzeptkonzept für die Reproduktion ihrer Forschung und die
188 Auszugskonzeptkonzept für die Reproduktion ihrer Forschung und die Nachnutzung 200 Nachnutzung ihrer Daten praktikabel sind. Das erste Nutzungsszenario widmet sich
189 ihrer Daten praktikabel sind. Das erste Nutzungsszenario widmet sich der 201 der Wissenschaftssprache der geisteswissenschaftlichen Fächer
190 Wissenschaftssprache der geisteswissenschaftlichen Fächer Literaturwissenschaft, 202 Literaturwissenschaft, Linguistik und Philosophie und erstellt dazu ein Korpus aus
191 Linguistik und Philosophie und erstellt dazu ein Korpus aus insgesamt 135 203 insgesamt 135 urheberrechtlich geschützten Zeitschriftenartikeln. Das zweite
192 urheberrechtlich geschützten Zeitschriftenartikeln. Das zweite Nutzungsszenario 204 Nutzungsszenario beschäftigt sich mit dem Phänomen des unzuverlässigen Erzählens,
193 beschäftigt sich mit dem Phänomen des unzuverlässigen Erzählens, das in einem 205 das in einem ersten Zugang anhand eines Korpus aus acht deutschsprachigen
194 ersten Zugang anhand eines Korpus aus acht deutschsprachigen fiktionalen 206 fiktionalen Erzählungen aus dem 19. bis zum 21. Jahrhundert untersucht wird, die
195 Erzählungen aus dem 19. bis zum 21. Jahrhundert untersucht wird, die teilweise dem 207 teilweise dem Urheberrecht unterliegen. Nach Abschluss der Forschung sollen die
196 Urheberrecht unterliegen. Nach Abschluss der Forschung sollen die Daten für die 208 Daten für die Überprüfung der Ergebnisse und zur Nachnutzung in weiteren Projekten
197 Überprüfung der Ergebnisse und zur Nachnutzung in weiteren Projekten zur Verfügung 209 zur Verfügung gestellt werden. Das Fazit in Kapitel 5 fasst die Ergebnisse zusammen und leitet praktische
198 gestellt werden. Das Fazit in Kapitel 5 210 Handlungsempfehlungen und Desiderate ab.
199 fasst die Ergebnisse zusammen und leitet praktische Handlungsempfehlungen und
200 Desiderate ab.
201 211
210 im Juni 2021, als die Richtlinie zum Urheberrecht im digitalen 220 im Juni 2021, als die Richtlinie zum Urheberrecht im digitalen
211 Binnenmarkt (Digital Single Market-, kurz DSM-Richtlinie) im Urheberrechtsgesetz (UrhG) umgesetzt wurde. Um einen kurzen Überblick 221 Binnenmarkt (Digital Single Market-, kurz DSM-Richtlinie) im Urheberrechtsgesetz (UrhG) umgesetzt wurde. Um einen kurzen
212 über die Entwicklung der Gesetzeslage zu geben, wird nachfolgend (Kapitel 2.1) skizziert, in welchem Umfang 222 Überblick über die Entwicklung der Gesetzeslage zu geben, wird nachfolgend (Kapitel 2.1) skizziert, in welchem Umfang
213 Vervielfältigungen (§ 16 UrhG) und öffentliche Zugänglichmachungen (§ 19a UrhG) 223 Vervielfältigungen (§ 16 UrhG) und
224 öffentliche Zugänglichmachungen (§ 19a UrhG)
214 für die Erstellung und (gemeinsame) Beforschung von Korpora im Kontext von TDM in 225 für die Erstellung und (gemeinsame) Beforschung von Korpora im Kontext von TDM in
215 den verschiedenen Gesetzesfassungen erlaubt waren bzw. sind.[7] Daran anschließend werden Fragen nach der 226 den verschiedenen Gesetzesfassungen erlaubt waren bzw. sind.[8] Daran anschließend werden Fragen nach der
216 Zugänglichmachung und Nachnutzbarkeit von Korpora sowie mögliche Lösungsansätze 227 Zugänglichmachung und Nachnutzbarkeit von Korpora sowie mögliche Lösungsansätze
230 enthalten, sein Werk zu vervielfältigen und es öffentlich zugänglich zu machen. 241 enthalten, sein Werk zu vervielfältigen und es öffentlich zugänglich zu machen.
231 Eine ausdrückliche Erlaubnis[8] dieser Handlungen 242 Eine ausdrückliche Erlaubnis[9] dieser Handlungen
232 wurde im Jahr 2018 durch das Gesetz zur Angleichung des Urheberrechts an die 243 wurde im Jahr 2018 durch das Gesetz zur Angleichung des Urheberrechts an die
244 [10]Aufgrund des Gesetzes zum Urheberrecht im digitalen 255 [10]Aufgrund des Gesetzes zum Urheberrecht im digitalen
245 Binnenmarkt vom 7. Juni 2021[9] hat sich der 256 Binnenmarkt vom 7. Juni 2021[10] hat
246 Rechtsrahmen ein weiteres Mal verändert. Seitdem darf Forschung mit TDM auch zu 257 sich der Rechtsrahmen ein weiteres Mal verändert. Seitdem darf Forschung mit
247 anderen Zwecken als zur nicht-kommerziellen wissenschaftlichen Forschung (diese 258 TDM auch zu anderen Zwecken als zur nicht-kommerziellen wissenschaftlichen
248 ist weiterhin in § 60d UrhG geregelt), z. B. in Unternehmen oder in der Presse, 259 Forschung (diese ist weiterhin in § 60d UrhG geregelt), z. B. in Unternehmen
249 praktiziert werden, wenn auch in eingeschränktem Umfang (§ 44b UrhG). Die 260 oder in der Presse, praktiziert werden, wenn auch in eingeschränktem Umfang
250 Erlaubnis ist dabei nach wie vor an den rechtmäßigen Zugang gebunden. Dieser 261 (§ 44b
251 rechtmäßige Zugang liegt dann vor, wenn die genutzten Texte in Buchform 262 UrhG).[11] Die Erlaubnis ist
252 vorliegen, im Internet frei abrufbar sind oder als E-Books lizenziert 263 dabei nach wie vor an den rechtmäßigen Zugang gebunden. Dieser rechtmäßige
253 wurden.[10] § 60d 264 Zugang liegt dann vor, wenn die genutzten Texte in Buchform vorliegen, im
254 UrhG wurde außerdem um Befugnisse zugunsten von sogenannten 265 Internet frei abrufbar sind oder als E-Books lizenziert wurden.[12] Neu ist auch, dass
255 Kulturerbe-Einrichtungen erweitert. Neu ist auch, dass jedenfalls für 266 jedenfalls für Vervielfältigungen im Rahmen von TDM nunmehr keine Vergütung
256 Vervielfältigungen im Rahmen von TDM nunmehr keine Vergütung mehr anfällt 267 mehr anfällt (§ 60h Abs. 2 Nr. 3 UrhG). Diese war zuvor durch die jeweiligen
257 (§ 60h Abs. 2 Nr. 3 UrhG). Diese war zuvor durch die jeweiligen Einrichtungen 268 Einrichtungen zu tragen.
258 zu tragen.
259 269
261 271
262 [11]§ 60d UrhG in seiner aktuellen Fassung erlaubt es u. a. Forschungs- und 272 [11]§ 60d UrhG in seiner aktuellen Fassung erlaubt t es bestimmten privilegierten
263 sogenannten Kulturerbe-Einrichtungen, dazu zählen auch die in diesem Aufsatz 273 Personenkreisen und Einrichtungen, vollständige Werke zu Zwecken des TDM zu
264 adressierten Forschungsinfrastruktureinrichtungen, vollständige Werke zu 274 vervielfältigen (Abs. 1 bis 3) und die Vervielfältigungen (d. h. nicht die
265 Zwecken des TDM zu vervielfältigen (Abs. 1 bis 3) und die Vervielfältigungen 275 unveränderten Ursprungsmaterialien) für die gemeinsame wissenschaftliche
266 (d. h. nicht die unveränderten Ursprungsmaterialien) für die gemeinsame 276 Forschung bestimmt abgegrenzten Personenkreisen sowie einzelnen Dritten zur
267 wissenschaftliche Forschung bestimmt abgegrenzten Personenkreisen sowie 277 Überprüfung der wissenschaftlichen Forschung öffentlich zugänglich zu machen
268 einzelnen Dritten zur Überprüfung der wissenschaftlichen Forschung öffentlich 278 (Abs. 4 S. 1). Im Gegensatz zu seiner Vorgängernorm knüpft § 60d UrhG in seiner
269 zugänglich zu machen (Abs. 4 S. 1). Die Zugänglichmachung ist jeweils zu 279 neuen Fassung nicht allgemein an nicht-kommerzielle wissenschaftliche
270 beenden, wenn die gemeinsame Forschung oder die Überprüfung abgeschlossen ist 280 Zwecke[13] an, sondern
271 (Abs. 4 S. 2). 281 berechtigt Forschungsorganisationen (Hochschulen, Forschungsinstitute und
282 sonstige Einrichtungen, die wissenschaftliche Forschung betreiben, hierzu
283 zählen auch die in diesem Beitrag adressierten
284 Forschungsinfrastruktureinrichtungen), sofern diese 1. nicht kommerzielle
285 Zwecke verfolgen, 2. sämtliche Gewinne in die Forschung reinvestieren oder 3.
286 im Rahmen eines staatlich anerkannten Auftrags im öffentlichen Interesse tätig
287 sind. Public-Private-Partnerships, d. h. Kooperationen mit privaten
288 Unternehmen, sind nur dann erfasst, wenn letztere keinen bestimmenden Einfluss
289 auf die Forschungsorganisation haben und keinen bevorzugten Zugang zu den
290 Forschungsergebnissen erhalten (§ 60d Abs. 2 S. 3 UrhG). § 60d Abs. 3 Nr. 1
291 UrhG benennt nunmehr auch ausdrücklich sogenannte Kulturerbe-Einrichtungen wie
292 Bibliotheken, Museen, Archive und Einrichtungen im Bereich des Ton- und
293 Filmerbes, wobei hier nicht an nicht-kommerzielle Zwecke, sondern an ihre
294 öffentliche Zugänglichkeit angeknüpft wird. Individualforscher*innen sind
295 weiterhin unter der Voraussetzung, dass sie nicht-kommerzielle Zwecke
296 verfolgen, erfasst (§ 60d Abs. 3 Nr. 2 UrhG). Die öffentliche Zugänglichmachung
297 steht unter der Voraussetzung der nicht-kommerziellen Zwecke, sodass auch die
298 öffentlich zugänglichen Kulturerbe-Einrichtungen diese letztlich beachten
299 müssen, um vom vollen Umfang der Erlaubnisse des § 60d UrhG zu profitieren. Die
300 Zugänglichmachung ist jeweils zu beenden, wenn die gemeinsame Forschung oder
301 die Überprüfung abgeschlossen ist (Abs. 4 S. 2).
272 [12]Die Befugnis zur Weitergabe der Korpora während der Forschungsarbeiten ist also 302 [12]Die Befugnis zur Weitergabe der Korpora während der Forschungsarbeiten ist also
278 Öffentlichkeit angehören, d. h. zu denen keine persönliche Beziehung existiert, 308 Öffentlichkeit angehören, d. h. zu denen keine persönliche Beziehung existiert,
279 vgl. § 15 Abs. 3 UrhG, und die einer »unbestimmten Zahl potentieller 309 vgl. § 15 Abs.
310 3 UrhG, und die einer »unbestimmten Zahl potentieller
280 Adressaten« und einer »ziemlich großen Zahl von 311 Adressaten« und einer »ziemlich großen Zahl von
281 Personen« angehören.[11] Die Erlaubnis, 312 Personen« angehören.[14] Die
282 Korpora während der TDM-Forschungsarbeiten weiterzugeben (§ 60d Abs. 4 S. 1 313 Erlaubnis, Korpora während der TDM-Forschungsarbeiten weiterzugeben (§ 60d Abs.
283 UrhG), bezieht sich hingegen nur auf bestimmt abgegrenzte, d. h. weiter 314 4 S. 1 UrhG), bezieht sich hingegen nur auf bestimmt abgegrenzte, d. h. weiter
284 eingegrenzte Personenkreise, die der Öffentlichkeit angehören. Bei 315 eingegrenzte Personenkreise, die der Öffentlichkeit angehören. Bei
285 Forschungsgruppen handelt es sich in der Regel nicht um eine 316 Forschungsgruppen handelt es sich in der Regel nicht um eine
286 Öffentlichkeit,[12] 317 Öffentlichkeit,[15] weswegen
287 weswegen es auf diese Erlaubnis in den meisten Fällen nicht ankommt. 318 es auf diese Erlaubnis in den meisten Fällen nicht ankommt.
288 [13]Die TDM-Korpora dürfen gemäß § 60d UrhG so lange aufbewahrt werden, wie es für 319 [13]Die TDM-Korpora dürfen gemäß § 60d UrhG so lange aufbewahrt werden, wie es für
290 im Regelfall die von der guten wissenschaftlichen Praxis geforderten zehn 321 im Regelfall die von der guten wissenschaftlichen Praxis geforderten zehn
291 Jahre,[13] sie kann im Einzelfall aber auch kürzer oder länger bemessen 322 Jahre,[16] sie kann im Einzelfall aber auch kürzer oder länger
292 sein. Aufgrund der Wissenschaftsfreiheit unterliegt die Einschätzung der 323 bemessen sein. Aufgrund der Wissenschaftsfreiheit unterliegt die Einschätzung
293 Aufbewahrungsdauer den Forschenden und ist nur eingeschränkt überprüfbar.[14] 324 der Aufbewahrungsdauer den Forschenden und ist nur eingeschränkt
325 überprüfbar.[17]
294 [14]Eine Erlaubnis, die Korpora zur Aufbewahrung an 326 [14]Eine Erlaubnis, die Korpora zur Aufbewahrung an
297 Auslegung aus der Gesetzesbegründung abgeleitet werden, denn diese scheint von 329 Auslegung aus der Gesetzesbegründung abgeleitet werden, denn diese scheint von
298 einer Aufbewahrung durch Kulturerbe-Einrichtungen auszugehen:[15] »Hiernach kann auch eine dauerhafte Speicherung erforderlich und folglich 330 einer Aufbewahrung durch Kulturerbe-Einrichtungen auszugehen:[18] »Hiernach kann auch eine dauerhafte Speicherung erforderlich und folglich
299 zulässig sein, insbesondere, wenn sie durch Kulturerbe-Einrichtungen und 331 zulässig sein, insbesondere, wenn sie durch Kulturerbe-Einrichtungen und
300 nicht durch die Forschungseinrichtung selbst erfolgt«.[16] Möglich ist aber in jedem 332 nicht durch die Forschungseinrichtung selbst erfolgt«.[19] Möglich ist aber in
301 Fall, die TDM-Projekte gleich von Beginn an auf zentralen Bibliotheksservern 333 jedem Fall, die TDM-Projekte gleich von Beginn an auf zentralen
302 bzw. einrichtungsübergreifenden Servern anzusiedeln, sodass dort die 334 Bibliotheksservern bzw. einrichtungsübergreifenden Servern anzusiedeln, sodass
303 Archivierung ohne eine gesonderte Übermittlung erfolgen kann. Dann bewegt man 335 dort die Archivierung ohne eine gesonderte Übermittlung erfolgen kann. Dann
304 sich im Rahmen dessen, was die Gesetzesbegründung ausdrücklich enthält, und 336 bewegt man sich im Rahmen dessen, was die Gesetzesbegründung ausdrücklich
305 vermeidet gleichzeitig, das Korpus erneut zu vervielfältigen (§ 16 UrhG). 337 enthält, und vermeidet gleichzeitig, das Korpus erneut zu vervielfältigen (§ 16
338 UrhG).
306 [15]Unklar ist aber weiterhin, ob zu Zwecken von Anschlussforschungen auf die 339 [15]Unklar ist aber weiterhin, ob zu Zwecken von Anschlussforschungen auf die
307 Korpora zugegriffen werden kann. Gemäß § 60d Abs. 5 UrhG dürfen die Korpora 340 Korpora zugegriffen werden kann. Gemäß § 60d Abs. 5 UrhG dürfen die Korpora
308 (nach dem Gesetz jedoch nicht die unveränderten Ursprungsdaten)[17] so lange aufbewahrt 341 (nach dem Gesetz jedoch nicht die unveränderten Ursprungsdaten)[20] so lange aufbewahrt werden, wie
309 werden, wie es für Zwecke der Überprüfung der Qualität der wissenschaftlichen 342 es für Zwecke der Überprüfung der Qualität der wissenschaftlichen Forschung
310 Forschung oder für die Forschung selbst erforderlich ist. Das impliziert, dass 343 oder für die Forschung selbst erforderlich ist. Das impliziert, dass es auch
311 es auch abseits der Überprüfung wissenschaftliches Interesse an den Korpora 344 abseits der Überprüfung wissenschaftliches Interesse an den Korpora geben kann.
312 geben kann. Auch die DSM-Richtlinie setzt voraus, dass nach Abschluss der 345 Auch die DSM-Richtlinie setzt voraus, dass nach Abschluss der
313 Forschungsarbeiten bzw. während der Langzeitarchivierung noch Interesse an 346 Forschungsarbeiten bzw. während der Langzeitarchivierung noch Interesse an
314 weiterer Beforschung der Korpora bestehen kann:[18] »Die Nutzung zum Zwecke der wissenschaftlichen 347 weiterer Beforschung der Korpora bestehen kann:[21] »Die Nutzung zum Zwecke der wissenschaftlichen Forschung außerhalb des
315 Forschung außerhalb des Text und Data Mining, etwa die Begutachtung unter 348 Text und Data Mining, etwa die Begutachtung unter wissenschaftlichen
316 wissenschaftlichen Fachkollegen und gemeinsame Forschungsarbeiten, sollte 349 Fachkollegen und gemeinsame Forschungsarbeiten, sollte nach wie vor unter
317 nach wie vor unter die Ausnahme oder Beschränkung im Sinne von Artikel 5 350 die Ausnahme oder Beschränkung im Sinne von Artikel 5 Absatz 3 Buchstabe a
318 Absatz 3 Buchstabe a der Richtlinie 2001/29/EG fallen, sofern diese 351 der Richtlinie 2001/29/EG fallen, sofern diese Bestimmung anwendbar
319 Bestimmung anwendbar ist.«[19] 352 ist.«[22] Für eine
320 [16]Für eine
321 Nachnutzung der Korpora kommen neben den von Schöch et al. vorgestellten 353 Nachnutzung der Korpora kommen neben den von Schöch et al. vorgestellten
322 abgeleiteten Textformaten sogenannte Closed-Room-Zugänge[20] (§§ 60e Abs. 4, 354 abgeleiteten Textformaten sogenannte Closed-Room-Zugänge[23] (§§ 60e Abs. 4, 60f UrhG)
323 60f UrhG) und die Erlaubnis der auszugsweisen Nutzung zu Zwecken der 355 und die Erlaubnis der auszugsweisen Nutzung zu Zwecken der wissenschaftlichen
324 wissenschaftlichen Forschung (§ 60c UrhG) in Betracht. Nachfolgend werden diese 356 Forschung (§ 60c UrhG) in Betracht. Nachfolgend werden diese beiden Optionen
325 beiden Optionen dargestellt und gegeneinander abgewogen. 357 dargestellt und gegeneinander abgewogen.
326 [17]§§ 60e Abs. 4, 60f UrhG erlauben es Bibliotheken und anderen 358 [16]§§ 60e Abs. 4, 60f UrhG erlauben es Bibliotheken und anderen
327 Kulturerbe-Einrichtungen wie öffentlich zugänglichen Museen, ihren Nutzer*innen 359 Kulturerbe-Einrichtungen wie öffentlich zugänglichen Museen, ihren Nutzer*innen
328 Werke aus ihrem Bestand an Terminals in ihren Räumen für deren Forschung oder 360 Werke aus ihrem Bestand an Terminals in ihren Räumen für deren Forschung oder
329 private Studien zugänglich zu machen (sogenannte Terminal-Schranke). Die Nutzer*innen dürfen sogenannte Anschlusskopien[21] im Umfang von zehn Prozent erstellen. Einzelne Werke geringen 361 private Studien zugänglich zu machen (sogenannte Terminal-Schranke). Die Nutzer*innen dürfen sogenannte Anschlusskopien[24] im Umfang von zehn Prozent erstellen. Einzelne Werke geringen
330 Umfangs[22] wie Beiträge aus 362 Umfangs[25] wie Beiträge aus
331 wissenschaftlichen Zeitschriften dürfen hingegen vollständig genutzt werden. 363 wissenschaftlichen Zeitschriften dürfen hingegen vollständig genutzt werden.
335 UrhG ist gleichwohl, dass jedenfalls der erste Zugriff auf die Werke nur an 367 UrhG ist gleichwohl, dass jedenfalls der erste Zugriff auf die Werke nur an
336 Terminals vor Ort erfolgen kann (sogenannte Closed-room-Zugänge).[23] 368 Terminals vor Ort erfolgen kann (sogenannte Closed-Room-Zugänge).[26]
337 [18]Anders verhält es sich mit § 60c UrhG, der Erlaubnisnorm für Zwecke der 369 [17]Anders verhält es sich mit § 60c UrhG, der Erlaubnisnorm für Zwecke der
338 nicht-kommerziellen wissenschaftlichen Forschung, auf den sich das hier 370 nicht-kommerziellen wissenschaftlichen Forschung, auf den sich das hier
346 gerechtfertigt ist« vorzusehen. 378 gerechtfertigt ist« vorzusehen.
347 [19]§ 60c Abs. 1 Nr. 1 UrhG erlaubt es, zu Zwecken der nicht-kommerziellen 379 [18]§ 60c Abs. 1 Nr. 1 UrhG erlaubt es, zu Zwecken der nicht-kommerziellen
348 wissenschaftlichen Forschung bis zu 15 Prozent von Werken und auch vollständige 380 wissenschaftlichen Forschung bis zu 15 Prozent von Werken und auch vollständige
354 erlaubt ist allerdings, Werke für eine gesamte Einrichtung frei abrufbar zu 386 erlaubt ist allerdings, Werke für eine gesamte Einrichtung frei abrufbar zu
355 stellen.[24] 387 machen.[27] Die
356 [20]Wenn Forschende also nach § 60c UrhG Texte auszugsweise zur Nachnutzung 388 nicht-kommerziellen Zwecke können auch bei Drittmittelforschung sowie dann
389 vorliegen, wenn Forschende ihre Ergebnisse in einem Verlag veröffentlichen und
390 Honorare erhalten, kommerzielle Zwecke sind aber jedenfalls dann anzunehmen,
391 wenn Forschung betrieben wird, um Waren oder Dienstleistungen zu entwickeln und
392 diese zu vermarkten.[28] Entscheidend ist bei der
393 Bestimmung der nicht-kommerziellen Zwecke nicht die organisatorische
394 Einrichtung oder Finanzierung, sondern, ob die jeweilige Nutzung auf
395 Gewinnerzielung ausgerichtet ist.[29]
396 [19]Wenn Forschende also nach § 60c UrhG Texte auszugsweise zur Nachnutzung
357 erhalten und diese anschließend für TDM im Sinne des § 60d UrhG nutzen, werden 397 erhalten und diese anschließend für TDM im Sinne des § 60d UrhG nutzen, werden
359 einerseits der InfoSoc-Richtlinie und andererseits der DSM-Richtlinie), 399 einerseits der InfoSoc-Richtlinie und andererseits der DSM-Richtlinie),
360 miteinander kombiniert. Das ist rechtlich möglich.[25] 400 miteinander kombiniert. Das ist rechtlich möglich.[30]
361 [21]Daneben entspricht die Nachnutzbarkeit auf Grundlage des § 60c UrhG auch den 401 [20]Daneben entspricht die Nachnutzbarkeit auf Grundlage des § 60c UrhG auch den
362 Interessen der Urheber*innen, das gilt insbesondere deswegen, weil § 60c UrhG 402 Interessen der Urheber*innen, das gilt insbesondere deswegen, weil § 60c UrhG
363 vergütungspflichtig ist (§ 60h UrhG) und dadurch ein finanzieller Ausgleich für 403 vergütungspflichtig ist (§ 60h UrhG) und dadurch ein finanzieller Ausgleich für
364 die Rechteinhaber*innen hergestellt wird, schließlich ist für eine Nutzung gemäß 404 die Rechteinhaber*innen hergestellt wird, schließlich ist für eine Nutzung
365 § 60d UrhG ein rechtmäßiger Zugang erforderlich, der zumeist einen finanziellen 405 gemäß § 60d UrhG ein rechtmäßiger Zugang erforderlich, der zumeist einen
366 Ausgleich für den*die Urheber*in enthält. § 60c UrhG setzt diesen rechtmäßigen Zugang 406 finanziellen Ausgleich für den*die Urheber*in enthält. § 60c UrhG setzt diesen
367 allerdings nicht voraus. Die Vergütung stellt also einen Ausgleich der 407 rechtmäßigen Zugang allerdings nicht voraus. Die Vergütung stellt also einen
368 urheberrechtlichen Interessen her. Insgesamt ermöglicht § 60c UrhG insofern 408 Ausgleich der urheberrechtlichen Interessen her. Insgesamt ermöglicht § 60c
369 eine flexiblere Korpus-Nachnutzung als §§ 60e Abs. 4, 60f UrhG, weswegen sich 409 UrhG insofern eine flexiblere Korpus-Nachnutzung als §§ 60e Abs. 4, 60f UrhG,
370 das in XSample entwickelte Konzept auf § 60c UrhG stützt. 410 weswegen sich das in XSample entwickelte Konzept auf § 60c UrhG stützt.
371 411
373 413
374 [22]Zusammenfassend orientiert sich das hier vorgestellte Auszugskonzept an 414 [21]Zusammenfassend orientiert sich das hier vorgestellte Auszugskonzept an
375 folgenden rechtlichen Einschränkungen, die von 415 folgenden rechtlichen Einschränkungen, die von
376 Forschungsinfrastruktureinrichtungen, die Korpora mit geschützten Texten bereitstellen möchten, zu prüfen sind: 416 Forschungsinfrastruktureinrichtungen, die Korpora mit geschützten Texten
377 [23]Einbeziehung der Forschungsinfrastruktureinrichtungen: 417 bereitstellen möchten, zu prüfen sind:
418 [22]Einbeziehung der Forschungsinfrastruktureinrichtungen:
378 Forschungsinfrastruktureinrichtungen, die die Korpora aufbewahren und 419 Forschungsinfrastruktureinrichtungen, die die Korpora aufbewahren und
380 integriert werden. 421 integriert werden.
381 [24]Aufbewahrungsdauer: Forscher*innen, die die Korpora 422 [23]Aufbewahrungsdauer: Forscher*innen, die die Korpora
382 bereitstellen möchten, sollten eine der Forschung angemessenen 423 bereitstellen möchten, sollten eine der Forschung angemessenen
383 Aufbewahrungsdauer für die Korpora vorschlagen. Wenn diese von den von der DFG 424 Aufbewahrungsdauer für die Korpora vorschlagen. Wenn diese von den von der DFG
384 vorgeschlagenen zehn Jahren[26] abweicht, 425 vorgeschlagenen zehn Jahren[31] abweicht, sollte eine explizite Begründung
385 sollte eine explizite Begründung erfolgen. 426 erfolgen.
386 [25]Inhalt der Korpora: Die gespeicherten und gegebenenfalls 427 [24]Inhalt der Korpora: Die gespeicherten und gegebenenfalls
387 bereitgestellten Korpora dürfen nicht die unveränderten Ursprungsdaten 428 bereitgestellten Korpora dürfen nicht die unveränderten Ursprungsdaten
389 Lizenzen erworben. 430 Lizenzen erworben.
390 [26]Nachnutzung: Nachnutzer*innen müssen nicht-kommerzielle, 431 [25]Nachnutzung: Nachnutzer*innen müssen nicht-kommerzielle,
391 wissenschaftliche Zwecke verfolgen. Die Korpusauszüge dürfen nur bestimmt 432 wissenschaftliche Zwecke verfolgen. Die Verifizierung kann dadurch erfolgen,
433 dass Interessierte sich in Bezug auf die Zugehörigkeit zu einer
434 Forschungseinrichtung verifizieren und zudem versichern, die Daten nur für die
435 nicht-kommerzielle wissenschaftliche Forschung zu verwenden.[32] Die Korpusauszüge dürfen nur bestimmt
392 abgegrenzten Personenkreisen zugänglich gemacht werden, d. h. auf individuelle 436 abgegrenzten Personenkreisen zugänglich gemacht werden, d. h. auf individuelle
393 Anfrage. 437 Anfrage.
394 [27]Umfang der Korpusauszüge: Korpusauszüge dürfen maximal 438 [26]Umfang der Korpusauszüge: Korpusauszüge dürfen maximal
395 15 Prozent ganzer Werke betragen, kurze Werke wie z. B. Aufsätze aus 439 15 Prozent ganzer Werke betragen, kurze Werke wie z. B. Aufsätze aus
401 445
402 [28]Wie im vorigen Kapitel beschrieben, bedient 446 [27]Wie im vorigen Kapitel beschrieben, bedient
403 sich der in XSample verfolgte Ansatz der rechtlichen Erlaubnis, Auszüge bis zu 447 sich der in XSample verfolgte Ansatz der rechtlichen Erlaubnis, Auszüge bis zu
408 umrissen. Hierfür werden zunächst die Workflow-Akteur*innen (Kapitel 3.1) und die im Workflow eingesetzten 452 umrissen. Hierfür werden zunächst die Workflow-Akteur*innen (Kapitel 3.1) und die im Workflow eingesetzten
409 Serverkomponenten (Kapitel 3.2) vorgestellt. 453 Serverkomponenten (Kapitel 3.2)
410 Im Anschluss werden die Vorbereitungsschritte für die Erstellung eines Auszugs 454 vorgestellt. Im Anschluss werden die Vorbereitungsschritte für die Erstellung
411 (Kapitel 3.3) sowie verschiedene 455 eines Auszugs (Kapitel 3.3) sowie
412 Möglichkeiten der Auszugsgenerierung (Kapitel 456 verschiedene Möglichkeiten der Auszugsgenerierung (Kapitel 3.4) erläutert. Für letztere liegt der Fokus auf
413 3.4) erläutert. Für letztere liegt der Fokus auf der Verwendung im Korpus 457 der Verwendung im Korpus enthaltener Annotationen, um mittels Suchanfragen Auszüge
414 enthaltener Annotationen, um mittels Suchanfragen Auszüge zu erhalten, die optimal 458 zu erhalten, die optimal auf die Bedürfnisse der Nachnutzer*innen zugeschnitten
415 auf die Bedürfnisse der Nachnutzer*innen zugeschnitten sind. Abschließend wird die 459 sind. Abschließend wird die Nachhaltigkeit und Nachnutzbarkeit der hier
416 Nachhaltigkeit und Nachnutzbarkeit der hier vorgestellten Infrastruktur 460 vorgestellten Infrastruktur thematisiert (Kapitel 3.5).
417 thematisiert (Kapitel 3.5).
418 3.1 Workflow-Akteur*innen 461 3.1 Workflow-Akteur*innen
419 462
420 [29]XSample unterscheidet zwischen drei Akteur*innen im Workflow: Erstens den 463 [28]XSample unterscheidet zwischen drei Akteur*nnen im Workflow: Erstens den
421 Infrastrukturbetreiber*innen, zweitens den Datenanbieter*innen / -lieferant*innen und 464 Infrastrukturbetreiber*innen, zweitens den Datenanbieter*innen /
422 drittens den Nachnutzer*innen. Infrastrukturbetreiber*innen gehören zu den oben 465 -lieferant*innen und drittens den Nachnutzer*innen.
423 adressierten Forschungsinfrastruktureinrichtungen und bieten die 466 Infrastrukturbetreiber*innen gehören zu den oben adressierten
424 infrastrukturelle Komponente zur Ablage und Verwaltung der verschiedenen im 467 Forschungsinfrastruktureinrichtungen und bieten die infrastrukturelle
425 Workflow anfallenden Daten. Eine zentrale Bedeutung kommt hierbei der 468 Komponente zur Ablage und Verwaltung der verschiedenen im Workflow anfallenden
426 Authentifizierung von Nutzer*innen und einem feingranularen Rechtemanagement 469 Daten. Eine zentrale Bedeutung kommt hierbei der Authentifizierung von
427 zu, um die beschriebenen rechtlichen Bedingungen (z. B. Zugriffsbeschränkung 470 Nutzer*innen und einem feingranularen Rechtemanagement zu, um die beschriebenen
428 für bestimmt abgegrenzte Personenkreise) erfüllen zu können. Neben der reinen 471 rechtlichen Bedingungen (z. B. Zugriffsbeschränkung für bestimmt abgegrenzte
429 Datenablage dient das zugrundeliegende Repositorium mit seiner Weboberfläche 472 Personenkreise) erfüllen zu können. Neben der reinen Datenablage dient das
430 gleichzeitig als zentraler Einstiegspunkt für die weiteren beteiligten 473 zugrundeliegende Repositorium mit seiner Weboberfläche gleichzeitig als
431 Akteur*innen. Als Datenlieferant*innen werden im XSample-Kontext sämtliche 474 zentraler Einstiegspunkt für die weiteren beteiligten Akteur*innen. Als
432 Personen oder Personenkreise bezeichnet, welche (gemäß § 60d UrhG) TDM auf 475 Datenlieferant*innen werden im XSample-Kontext sämtliche Personen oder
433 geschützten Werken zum Zwecke nicht-kommerzieller Forschung durchführen und die 476 Personenkreise bezeichnet, welche (gemäß § 60d UrhG) TDM auf geschützten Werken
434 dabei erzeugten Korpora zur Nachnutzung durch XSample verfügbar machen möchten. 477 zum Zwecke nicht-kommerzieller Forschung durchführen und die dabei erzeugten
435 Die Gruppe der Nachnutzer*innen schließlich beinhaltet die nach § 60c UrhG 478 Korpora zur Nachnutzung durch XSample verfügbar machen möchten. Die Gruppe der
436 bestimmt abgegrenzten Personenkreise, denen auszugsweise Zugang zu geschützten 479 Nachnutzer*innen schließlich beinhaltet die nach § 60c UrhG bestimmt
437 Werken zum Zwecke nicht-kommerzieller Forschung gewährt werden darf. 480 abgegrenzten Personenkreise, denen auszugsweise Zugang zu geschützten Werken
481 zum Zwecke nicht-kommerzieller Forschung gewährt werden darf.
438 482
440 484
441 [30]Innerhalb des XSample-Workflows kommen zwei getrennte Serverkomponenten zum 485 [29]Innerhalb des XSample-Workflows kommen zwei getrennte Serverkomponenten zum
442 Einsatz: das Repositorium und die Auszugsgenerierung. Beide stehen unter der 486 Einsatz: das Repositorium und die Auszugsgenerierung. Beide stehen unter der
444 Weboberflächen. 488 Weboberflächen.
445 [31]Das Repositorium dient vorwiegend der Ablage und Verwaltung der Korpus- und 489 [30]Das Repositorium dient vorwiegend der Ablage und Verwaltung der Korpus- und
446 eventuell Ursprungsdaten und wird innerhalb des Prototyps durch eine 490 eventuell Ursprungsdaten und wird innerhalb des Prototyps durch eine
464 Zugriff abgeschirmt sind. 508 Zugriff abgeschirmt sind.
465 [32]Neben dem Repositorium stellt die Auszugsgenerierung als eigener Server die 509 [31]Neben dem Repositorium stellt die Auszugsgenerierung als eigener Server die
466 zweite Komponente im XSample-Workflow dar. Sie leitet Nutzer*innen auf einer 510 zweite Komponente im XSample-Workflow dar. Sie leitet Nutzer*innen auf einer
488 532
489 [33]Bevor Auszüge aus einem Korpus generiert werden können, sind mehrere 533 [32]Bevor Auszüge aus einem Korpus generiert werden können, sind mehrere
490 Vorbereitungsschritte notwendig: 534 Vorbereitungsschritte notwendig:
491 Zulässige Formate: Alle für die Auszüge zu verwendenden 535 [33]Zulässige Formate: Alle für die Auszüge zu verwendenden
492 Dateien des Korpus müssen in einem nicht öffentlich zugreifbaren Bereich 536 Dateien des Korpus müssen in einem nicht öffentlich zugreifbaren Bereich
494 Prototypenimplementierung ist bisher nur eine begrenzte Anzahl von Formaten für 538 Prototypenimplementierung ist bisher nur eine begrenzte Anzahl von Formaten für
495 Ursprungsdaten (PDF, EPUB oder TXT) und Annotationen (TEI-Subset und 539 Ursprungsdaten (PDF, EPUB oder TXT) und Annotationen (TEI-Subset und CoNLL-ähnliche tabellarische Formate) vorgesehen. Während
496 CoNLL-ähnliche tabellarische Formate) vorgesehen. Werden unveränderte 540 der Konzeptphase lag hierbei der Fokus auf EPUB und TXT
497 Ursprungsdaten eingegliedert, ist von Seiten der Infrastrukturbetreiber*innen 541 Primärdaten, sowie Annotationen in einem Subset des weit verbreiteten TEI-Formats aus dem zweiten
498 und Datenanbieter*innen auch zu prüfen, ob für die verwendeten Werke 542 Nutzungsszenario (Kapitel 4.2). Bedingt durch zeitliche Überschneidungen
543 verschob sich dieser Fokus im Verlauf der Implementierungsphase auf Daten des
544 ersten Nutzungsszenarios (Kapitel 4.1), konkret auf PDF-Dateien und das
545 tabellarische Format des CoNLL-2009-Shared-Tasks. Werden unveränderte Ursprungsdaten
546 eingegliedert, ist von Seiten der Infrastrukturbetreiber*innen und
547 Datenanbieter*innen auch zu prüfen, ob für die verwendeten Werke
499 Archivierungsrechte oder Lizenzen mit äquivalenten Berechtigungen vorliegen, 548 Archivierungsrechte oder Lizenzen mit äquivalenten Berechtigungen vorliegen,
515 große Hürde darstellen. Dies sollte schon frühzeitig im Projekt eingeplant 564 große Hürde darstellen. Dies sollte schon frühzeitig im Projekt eingeplant
516 werden, damit die notwendigen und nicht selten ›format-fremden‹[27] Informationen nicht im Forschungsprozess 565 werden, damit die notwendigen und nicht selten ›format-fremden‹[33] Informationen nicht im
517 verloren gehen und entweder durch manuellen Zusatzaufwand oder Anpassung 566 Forschungsprozess verloren gehen und entweder durch manuellen Zusatzaufwand
518 automatischer Verarbeitungsschritte wiederhergestellt werden müssen. Die Ablage 567 oder Anpassung automatischer Verarbeitungsschritte wiederhergestellt werden
519 der Alignierungsinformationen erfolgt analog zu obigen Ursprungs- und 568 müssen. Die Ablage der Alignierungsinformationen erfolgt analog zu obigen
520 Annotationsdateien in einem nicht-öffentlichen Bereich. 569 Ursprungs- und Annotationsdateien in einem nicht-öffentlichen Bereich.
521 [35]Erzeugung eines Manifests: Als letztes muss ein 570 [35]Erzeugung eines Manifests: Als letztes muss ein
549 [36]Beim folgenden Beispiel handelt es sich um ein Manifest mit Informationen zu 598 [36]Beim folgenden Beispiel handelt es sich um ein Manifest mit Informationen zu
550 Primärdaten im Repositorium, Rechteinhaber*innen und voreingestellten Werten für die 599 Primärdaten im Repositorium, Rechteinhaber*innen und voreingestellten Werten
551 statische Auszugsgenerierung. Das beschriebene Beispielkorpus ist eine 600 für die statische Auszugsgenerierung. Das beschriebene Beispielkorpus ist eine
552 100-seitige PDF-Datei (verlinkt im 601 100-seitige PDF-Datei (verlinkt im
594 [38]Sind alle Vorbereitungsschritte abgeschlossen, können Nachnutzer*innen über die 643 [38]Sind alle Vorbereitungsschritte abgeschlossen, können Nachnutzer*innen über die
595 Dataverse-Oberfläche (Abbildung 644 Dataverse-Oberfläche (Abbildung 2) eine Zugriffsanfrage auf die XSample-Manifeste stellen.
596 2) eine Zugriffsanfrage auf die XSample-Manifeste stellen. Wenn diese 645 Wenn diese durch die Infrastrukturbetreiber*innen akzeptiert wird, dürfen die
597 durch die Infrastrukturbetreiber*innen akzeptiert wird, dürfen die 646 Nachnutzer*innen auf den XSample-Server (Abbildung 3) weitergeleitet werden, wo
598 Nachnutzer*innen auf den XSample-Server (Abbildung 3) weitergeleitet werden, wo die 647 die eigentliche Konfiguration und Erstellung der Auszüge erfolgt. Da einzelnen
599 eigentliche Konfiguration und Erstellung der Auszüge erfolgt. Da einzelnen
600 Nutzer*innen nach § 60c UrhG jeweils nur maximal 15 Prozent eines geschützten 648 Nutzer*innen nach § 60c UrhG jeweils nur maximal 15 Prozent eines geschützten
625 (Korpus-)Ressourcen. Anschließend haben Nutzer*innen die Möglichkeit, zwischen 673 (Korpus-)Ressourcen. Anschließend haben Nutzer*innen die Möglichkeit, zwischen
626 drei Arten der Auszugsgenerierung (vgl. Abbildung 3, unten links) auszuwählen: Als 674 drei Arten der Auszugsgenerierung (vgl. Abbildung 3, unten links) auszuwählen:
627 simpelste Lösung kann ein statisch definierter Auszug (beispielsweise die 675 Als simpelste Lösung kann ein statisch definierter Auszug (beispielsweise die
628 ersten 10 Prozent oder ein anderer im Manifest definierter Abschnitt) gewählt 676 ersten 10 Prozent oder ein anderer im Manifest definierter Abschnitt) gewählt
629 werden. Wird mehr Kontrolle über die Zusammensetzung des Auszugs gewünscht, 677 werden. Wird mehr Kontrolle über die Zusammensetzung des Auszugs gewünscht,
630 bietet die zweite Alternative (vgl. Abbildung 4) die Möglichkeit, die Auszugsgrenzen innerhalb der 678 bietet die zweite Alternative (vgl. Abbildung 4) die Möglichkeit, die
631 Ursprungsdaten frei zu definieren (z. B. die Seiten 20 bis 33). Auch hier wird 679 Auszugsgrenzen innerhalb der Ursprungsdaten frei zu definieren (z. B. die
632 eine zusammenhängende Sequenz an Seiten / Segmenten geliefert. 680 Seiten 20 bis 33). Auch hier wird eine zusammenhängende Sequenz an Seiten /
681 Segmenten geliefert. In jedem Falle stehen die Auszugsdaten am Ende des
682 Workflows direkt als zip-Datei zum Download zur Verfügung, zusammen mit
683 bibliografischen Informationen zu den Auszügen und den Rechteinhaber*innen.
633 684
642 oder Passagen interessieren. Um dem gerecht zu werden, wird als dritte 693 oder Passagen interessieren. Um dem gerecht zu werden, wird als dritte
643 Alternative eine Korpusanfrageschnittstelle[28] integriert, die Suchanfragen auf Basis der im Korpus 694 Alternative eine Korpusanfrageschnittstelle[34] integriert, die Suchanfragen auf Basis der im Korpus
644 enthaltenen Annotationen ermöglicht. Dadurch lassen sich beispielsweise gezielt 695 enthaltenen Annotationen ermöglicht. Dadurch lassen sich beispielsweise gezielt
645 bestimmte syntaktische Konstruktionen finden[29], die dann als Kandidaten für 696 bestimmte syntaktische Konstruktionen finden[35], die dann als Kandidaten für
646 die Auszugserstellung genutzt werden (vgl. Abbildung 5). Basierend auf diesen 697 die Auszugserstellung genutzt werden (vgl. Abbildung 5). Basierend auf diesen
649 sicherstellen, dass die Auszüge optimal auf die individuellen Bedürfnisse der 700 sicherstellen, dass die Auszüge optimal auf die individuellen Bedürfnisse der
650 Nutzer*innen zugeschnitten sind. 701 Nutzer*innen zugeschnitten sind. Da Nutzer*innen zu diesem Zeitpunkt der
702 Auszugsgenerierung noch kein Zugriff auf die geschützten Daten gewährt werden
703 kann, wird lediglich eine visuelle Verteilung der Treffer und möglicher
704 Auszugssegmente angeboten. Etablierte Such- und Visualisierungswerkzeuge wie
705 ANNIS[36] oder
706 KorAP[37] stellen
707 zwar umfangreiche Such- und Exportmöglichkeiten zur Verfügung, bieten aber
708 nicht diese notwendige Abschirmung der Daten bis zur finalen Auszugserstellung.
709 Die den beiden erwähnten und anderen bestehenden Suchwerkzeugen zugrunde
710 liegenden Anfragesprachen und -Schnittstellen könnten allerdings als
711 Alternativen zu den im Prototypen integrierten Optionen für ICARUS und ICARUS2
712 dienen.
651 713
656 direkt visualisiert und Nutzer*innen anschließend die Möglichkeit 718 direkt visualisiert und Nutzer*innen anschließend die Möglichkeit
657 gegeben, die für sie relevanten Segmente exakt auszuwählen. [Gärtner 2021] 719 gegeben, die für sie relevanten Segmente exakt auszuwählen. [Gärtner
720 2021]
658 721
681 können, werden nur diejenigen weiterhin angeboten, die sich bewährt haben. 744 können, werden nur diejenigen weiterhin angeboten, die sich bewährt haben.
682 [42]Die Software für den Prototypen ist open-source öffentlich verfügbar und kann 745 [42]Die Software für den Prototypen
683 somit auch von anderen Einrichtungen genutzt werden, um eine eigene Instanz des 746 ist open-source öffentlich verfügbar und kann somit auch von anderen
684 XSample-Servers zu betreiben. Neben einem laufenden Dataverse-Server wird 747 Einrichtungen genutzt werden, um eine eigene Instanz des XSample-Servers zu
685 lediglich eine SQL-basierte Datenbank benötigt, um den XSample-Server in 748 betreiben. Neben einem laufenden Dataverse-Server wird lediglich eine
686 bestehende Infrastruktur integrieren zu können. Die Anforderungen an 749 SQL-basierte Datenbank benötigt, um den XSample-Server in bestehende
687 Rechenleistung und Speicherplatz für den Prototypen sind hierbei 750 Infrastruktur integrieren zu können. Die Anforderungen an Rechenleistung und
688 überschaubar. 751 Speicherplatz für den Prototypen sind hierbei überschaubar.
689 [43]Zwar ist der aktuelle Prototyp auf die Schnittstelle zu Dataverse beschränkt, 752 [43]Zwar ist der aktuelle Prototyp auf die Schnittstelle zu Dataverse beschränkt,
711 Disziplinen Literaturwissenschaft, Linguistik und Philosophie. Es handelt sich 774 Disziplinen Literaturwissenschaft, Linguistik und Philosophie. Es handelt sich
712 dabei um die Replikation einer Studie[30] zur Frage, wie sich 775 dabei um die Replikation einer Studie[38]
713 die Wissenschaftssprachen von Linguistik und Literaturwissenschaft voneinander 776 zur Frage, wie sich die Wissenschaftssprachen von Linguistik und
714 unterscheiden. Als Datengrundlage der Originalstudie dienen jeweils 30 777 Literaturwissenschaft voneinander unterscheiden. Als Datengrundlage der
715 Dissertationen aus den beiden Fächern. Die Unterschiede zwischen den beiden 778 Originalstudie dienen jeweils 30 Dissertationen aus den beiden Fächern. Die
716 Teilkorpora werden in einem datengeleiteten Verfahren mithilfe von maschinellem 779 Unterschiede zwischen den beiden Teilkorpora werden in einem datengeleiteten
717 Lernen ermittelt. Daran anschließend erfolgt eine Interpretation der 780 Verfahren mithilfe von maschinellem Lernen ermittelt. Daran anschließend
718 deutlichsten Unterschiede vor dem Hintergrund wissenschaftstheoretischer 781 erfolgt eine Interpretation der deutlichsten Unterschiede vor dem Hintergrund
719 Merkmale der beiden Disziplinen. In der Replikationsstudie werden im 782 wissenschaftstheoretischer Merkmale der beiden Disziplinen. In der
720 Wesentlichen zwei Modifikationen vorgenommen: Erstens erfolgt eine Veränderung 783 Replikationsstudie werden im Wesentlichen zwei Modifikationen vorgenommen:[39] Erstens
721 der Variable ›Textsorte‹ von Dissertationen hin zu Zeitschriftenartikeln. 784 erfolgt eine Veränderung der Variable ›Textsorte‹ von Dissertationen hin zu
722 Während die Autor*innen von Dissertationen mit ihren Texten zwar ihre 785 Zeitschriftenartikeln. Während die Autor*innen von Dissertationen mit ihren
723 Beherrschung der fachtypischen Wissenschaftssprache nachweisen, durchlaufen 786 Texten zwar ihre Beherrschung der fachtypischen Wissenschaftssprache
724 Zeitschriftenartikel in der Regel mehr Schritte der Qualitätssicherung. Sie 787 nachweisen, durchlaufen Zeitschriftenartikel in der Regel mehr Schritte der
725 werden außerdem von der Fachgemeinschaft breiter rezipiert, sodass sie auch als 788 Qualitätssicherung. Sie werden außerdem von der Fachgemeinschaft breiter
726 repräsentativer für die jeweilige fachspezifische Wissenschaftssprache gelten 789 rezipiert, sodass sie auch als repräsentativer für die jeweilige
727 können. Zweitens wird die Datengrundlage um die Philosophie als drittes 790 fachspezifische Wissenschaftssprache gelten können. Zweitens wird die
728 geisteswissenschaftliches Fach erweitert. Dadurch werden Literaturwissenschaft 791 Datengrundlage um die Philosophie als drittes geisteswissenschaftliches Fach
729 und Linguistik nochmals aus einer neuen Perspektive beleuchtet, nämlich im 792 erweitert. Dadurch werden Literaturwissenschaft und Linguistik nochmals aus
730 Kontrast zur Philosophie. Außerdem ist mit der Hinzunahme des dritten Faches 793 einer neuen Perspektive beleuchtet, nämlich im Kontrast zur Philosophie.
731 ein Schritt dahingehend getan, Aussagen über die Wissenschaftssprache der 794 Außerdem ist mit der Hinzunahme des dritten Faches ein Schritt dahingehend
732 Geisteswissenschaften im Allgemeinen zu treffen. 795 getan, Aussagen über die Wissenschaftssprache der Geisteswissenschaften im
796 Allgemeinen zu treffen.
733 [46]Das Korpus umfasst insgesamt 135 Zeitschriftenartikel, jeweils 45 pro Fach. 797 [46]Das Korpus umfasst insgesamt 135 Zeitschriftenartikel, jeweils 45 pro Fach.
734 Alle Texte werden automatisch mit Lemmata, Wortarten und syntaktischen 798 Alle Texte werden automatisch mit Lemmata, Wortarten und syntaktischen
735 Dependenzen annotiert. Für den XSample-Workflow werden die annotierten Texte im CoNLL-Format an der Universitätsbibliothek Stuttgart 799 Dependenzen annotiert. Für den XSample-Workflow werden die annotierten Texte im
736 gespeichert. Die Ursprungsdaten im PDF-Format werden gemeinsam mit den 800 CoNLL-2009-Format an der Universitätsbibliothek Stuttgart gespeichert. Die
737 Annotationen im Repositorium aufbewahrt. Um sicherzustellen, dass von den 801 Ursprungsdaten im PDF-Format werden gemeinsam mit den Annotationen im
738 annotierten Daten wieder auf die PDF-Seiten der Ursprungsdaten geschlossen 802 Repositorium aufbewahrt. Um sicherzustellen, dass von den annotierten Daten
739 werden kann, müssen hierbei Informationen zur Alignierung der beiden 803 wieder auf die PDF-Seiten der Ursprungsdaten geschlossen werden kann, müssen
740 Dateiformate gespeichert werden. Im Falle dieses Nutzungsszenarios erfolgt dies 804 hierbei Informationen zur Alignierung der beiden Dateiformate gespeichert
741 in Form einer einfachen Tabelle für jedes Dokument, die für jeden fortlaufend 805 werden. Im Falle dieses Nutzungsszenarios erfolgt dies in Form einer einfachen
742 nummerierten Satz verzeichnet, auf welcher Seite oder welchen Seiten im 806 Tabelle für jedes Dokument, die für jeden fortlaufend nummerierten Satz
743 PDF-Dokument er zu finden ist. 807 verzeichnet, auf welcher Seite oder welchen Seiten im PDF-Dokument er zu finden
744 [47]Im Fokus der Replikationsstudie stehen Einzelwörter und Wortartentags (Unigramme), während die vorausgehende Studie[31] einen besonderen Schwerpunkt auf 808 ist.
745 Sequenzen legt, die entlang der syntaktischen Dependenzen im Satz gebildet 809 [47]Im Fokus der Replikationsstudie steht der Teil der vorausgehende Studie[40],
746 werden. Hiervon abgesehen orientiert sich die Replikationsstudie in 810 der Einzelwörter und Wortartentags (Unigramme)
747 methodischer Hinsicht eng am Original: Im ersten Schritt werden die Merkmale 811 betrachtet.[41]
748 mit den größten Unterschieden zwischen den Teilkorpora auf datengeleitete Weise 812 In methodischer Hinsicht orientiert sich die Replikationsstudie eng am
749 ermittelt. Zu diesem Zweck wird mit dem maschinellen Lernverfahren der Support-Vector-Machine (SVM) ein Klassifikator trainiert, 813 Original: Im ersten Schritt werden die Merkmale mit den größten Unterschieden
750 der jeweils zwischen Texten aus zwei der drei Disziplinen unterscheiden soll. 814 zwischen den Teilkorpora auf datengeleitete Weise ermittelt. Zu diesem Zweck
751 Die lineare SVM bietet die Möglichkeit, auf die Koeffizienten zuzugreifen, die 815 wird mit dem maschinellen Lernverfahren der Support-Vector-Machine (SVM) ein Klassifikator trainiert, der
752 für jedes Merkmal ausdrücken, wie hilfreich es für die Klassifikationsaufgabe 816 jeweils zwischen Texten aus zwei der drei Disziplinen unterscheiden soll. Die
753 war. Anhand dieser Koeffizienten wird ein Feature-Ranking wie in Tabelle 1 erstellt, das die 817 lineare SVM bietet die Möglichkeit, auf die Koeffizienten zuzugreifen, die für
754 größten Unterschiede zwischen den Teilkorpora (im Sinne der SVM) darstellt. Der 818 jedes Merkmal ausdrücken, wie hilfreich es für die Klassifikationsaufgabe war.
755 zweite Schritt der Analyse besteht dann in der Interpretation dieses 819 Anhand dieser Koeffizienten wird ein Feature-Ranking wie in Tabelle 1 erstellt, das die größten Unterschiede
756 Feature-Rankings. Welche sprachlichen Unterschiede verbergen sich hinter den 820 zwischen den Teilkorpora (im Sinne der SVM) darstellt. Der zweite Schritt der
757 Merkmalen und (wie) können sie anhand wissenschaftstheoretischer Merkmale der 821 Analyse besteht dann in der Interpretation dieses Feature-Rankings. Welche
758 Disziplinen erklärt werden? Während der erste Schritt rein datengeleitet 822 sprachlichen Unterschiede verbergen sich hinter den Merkmalen und (wie) können
759 arbeitet, muss für die Interpretation auf unterschiedliche Ressourcen 823 sie anhand wissenschaftstheoretischer Merkmale der Disziplinen erklärt werden?
760 zurückgegriffen werden: Erstens ist der erneute Rückgriff auf das Korpus 824 Während der erste Schritt rein datengeleitet arbeitet, muss für die
761 notwendig, um verstehen zu können, wie das Merkmal in den Texten verwendet 825 Interpretation auf unterschiedliche Ressourcen zurückgegriffen werden: Erstens
762 wird. Zweitens muss Wissen über die wissenschaftstheoretischen Merkmale der 826 ist der erneute Rückgriff auf das Korpus notwendig, um verstehen zu können, wie
763 Disziplinen sowie bereits vorhandene empirische Erkenntnisse zu den 827 das Merkmal in den Texten verwendet wird. Zweitens muss Wissen über die
764 vorliegenden Phänomenen herangezogen werden, um die Daten in einen funktionalen 828 wissenschaftstheoretischen Merkmale der Disziplinen sowie bereits vorhandene
765 Zusammenhang setzen und gegebenenfalls erklären zu können. 829 empirische Erkenntnisse zu den vorliegenden Phänomenen herangezogen werden, um
830 die Daten in einen funktionalen Zusammenhang setzen und gegebenenfalls erklären
831 zu können.
766 832
865 931
866 Tab. 1: Die distinktivsten 932 Tab. 1: Die distinktivsten Wortarten
867 Wortarten für die Unterscheidung von Philosophie und Literaturwissenschaft 933 für die Unterscheidung von Philosophie und Literaturwissenschaft im Sinne
868 im Sinne der SVM. Das verwendete Tagset ist das STTS (Schiller et al. 934 der SVM. Das verwendete Tagset ist das STTS (Schiller et al. 1999). [Andresen
869 1999). [Andresen 2022] 935 2022]
870 [48]Diese Schritte werden im Folgenden am Beispiel der Analyse der Verwendung des 936 [48]Diese Schritte werden im Folgenden am Beispiel der Analyse der Verwendung des
873 Überprüfung und Re-Validierung der Analyseresultate vonnöten sind. 939 Überprüfung und Re-Validierung der Analyseresultate vonnöten sind.
874 [49]Tabelle 1 zeigt das Ranking 940 [49]Tabelle 1 zeigt das Ranking der 15
875 der 15 distinktivsten Wortarten für den Vergleich von Philosophie und 941 distinktivsten Wortarten für den Vergleich von Philosophie und
876 Literaturwissenschaft. Während sich aus diesen Ergebnissen zahlreiche relevante 942 Literaturwissenschaft. Während sich aus diesen Ergebnissen zahlreiche relevante
887 Stichprobe von 100 Sätzen, in denen wir verwendet 953 Stichprobe von 100 Sätzen, in denen wir verwendet
888 wird, nach dem Zufallsprinzip ausgewählt und manuell klassifiziert. Dabei wurde 954 wird, nach dem Zufallsprinzip ausgewählt und manuell in Bezug auf ihre Funktion
889 auf die Klassifikation von wir-Verwendungen im 955 klassifiziert. Dabei wurde auf die Klassifikation von wir-Verwendungen im deutschsprachigen akademischen Diskurs von
890 deutschsprachigen akademischen Diskurs von Kresta[32] 956 Kresta[42] zurückgegriffen. Kresta
891 zurückgegriffen. Kresta unterscheidet vier Gebrauchsweisen von wir in deutschsprachigen akademischen Texten: Das 957 unterscheidet vier Gebrauchsweisen von wir in
892 Pronomen wird verwendet, 958 deutschsprachigen akademischen Texten: Das Pronomen wird verwendet,
893 a.) um auf die tatsächlichen Verfasser*innen eines Textes zu verweisen 959 a.) um auf die tatsächlichen Verfasser*innen eines Textes zu verweisen
901 967
902 [50]Die Stichproben zeigen (vgl. Tabelle 2) in den Texten fachspezifische Muster der wir-Verwendungen: So sind sich die 968 [50]Die Stichproben zeigen (vgl. Tabelle
903 literaturwissenschaftlichen und philosophischen Texte darin ähnlich, dass in 969 2) in den Texten fachspezifische Muster der wir-Verwendungen: So sind sich die literaturwissenschaftlichen und
904 beiden Gruppen die Verwendung des Gemeinschafts-wir 970 philosophischen Texte darin ähnlich, dass in beiden Gruppen die Verwendung des
905 dominiert, während in den linguistischen Aufsätzen die Verwendung des 971 Gemeinschafts-wir dominiert, während in den
906 Autor*innen-wir vorherrscht. Die Dominanz des 972 linguistischen Aufsätzen die Verwendung des Autor*innen-wir vorherrscht. Die Dominanz des Autor*innen-wir in der Linguistik lässt sich dadurch erklären, dass die Texte
907 Autor*innen-wir in der Linguistik lässt sich 973 tatsächlich mehrheitlich von mehreren Autor*innen verfasst wurden (siehe
908 dadurch erklären, dass die Texte tatsächlich mehrheitlich von mehreren 974 Beispiel 1). Diese Praxis scheint in der Linguistik weitaus üblicher zu sein
909 Autor*innen verfasst wurden (siehe Beispiel 1). Diese Praxis scheint in der 975 als in den anderen beiden Fächern. Die Ähnlichkeit von Philosophie und
910 Linguistik weitaus üblicher zu sein als in den anderen beiden Fächern. Die 976 Literaturwissenschaft in ihrer Verwendung des Gemeinschafts-wir mag hingegen verwundern, da die beiden Fächer häufig ihre
911 Ähnlichkeit von Philosophie und Literaturwissenschaft in ihrer Verwendung des 977 formal-sprachlichen Unterschiede betonen. Insbesondere in der Philosophie dient
912 Gemeinschafts-wir mag hingegen verwundern, da die 978 die Kennzeichnung eines philosophischen Ansatzes als ›literarisch‹ oft der
913 beiden Fächer häufig ihre formal-sprachlichen Unterschiede betonen. 979 Kritik am philosophischen Gehalt desselben.[43] Eine Auswertung der konkreten Belegstellen
914 Insbesondere in der Philosophie dient die Kennzeichnung eines philosophischen 980 zeigt jedoch, dass es sich in den beiden Fächern um unterschiedlich geartete
915 Ansatzes als ›literarisch‹ oft der Kritik am philosophischen Gehalt 981 Manifestationen des Gemeinschafts-wir handelt, die
916 desselben.[33] Eine Auswertung der konkreten 982 man wiederum mit landläufigen Kennzeichen der beiden Fächer in Verbindung
917 Belegstellen zeigt jedoch, dass es sich in den beiden Fächern um 983 bringen kann: So dominiert in der Stichprobe aus der Philosophie ein Gebrauch
918 unterschiedlich geartete Manifestationen des Gemeinschafts-wir handelt, die man wiederum mit landläufigen Kennzeichen der 984 des Gemeinschafts-wir, der letztendlich auf die
919 beiden Fächer in Verbindung bringen kann: So dominiert in der Stichprobe aus 985 grundlegenden Bedingungen des menschlichen Denkens und Handelns abzielt, wie
920 der Philosophie ein Gebrauch des Gemeinschafts-wir 986 das Beispiel 2 belegt. In der Stichprobe aus der Literaturwissenschaft, deren
921 der letztendlich auf die grundlegenden Bedingungen des menschlichen Denkens und 987 zentralen Tätigkeiten die Lektüre und Interpretation von Texten sind, wird in
922 Handelns abzielt, wie das Beispiel 2 belegt. In der Stichprobe aus der 988 31 der 54 Verwendungen des Gemeinschafts-wir genau
923 Literaturwissenschaft, deren zentralen Tätigkeiten die Lektüre und 989 auf jene Praxis verwiesen, indem eine Art ›ideale*r Leser*in‹ konstituiert wird
924 Interpretation von Texten sind, wird in 31 der 54 Verwendungen des 990 (siehe Beispiel 3), weswegen in diesem Fall auch vom Leser*innen-wir gesprochen werden kann.
925 Gemeinschafts-wir genau auf jene Praxis
926 verwiesen, indem eine Art ›ideale*r Leser*in‹ konstituiert wird (siehe Beispiel
927 3), weswegen in diesem Fall auch vom Leser*innen-wir
928 gesprochen werden kann.
929 991
974 1036
975 Tab. 2: Manuelle Kategorisierung 1037 Tab. 2: Manuelle Kategorisierung der
976 der wir-Verwendung in einer Stichprobe von 100 Instanzen pro Disziplin. [Pichler 2022] 1038 wir-Verwendung in einer Stichprobe von 100
1039 Instanzen pro Disziplin. [Pichler 2022]
977 [51]Folgende Textausschnitte sollen als Beispiele für die nach Fachrichtung 1040 [51]Folgende Textausschnitte sollen als Beispiele für die nach Fachrichtung
996 unterschiedlichen Phasen der Analyse verbunden sind: Für die datengeleitete 1059 unterschiedlichen Phasen der Analyse verbunden sind: Für die datengeleitete
997 Ermittlung distinktiver Merkmale ist es ausreichend, wenn die Texte nur in Form 1060 Ermittlung distinktiver Merkmale ist es für Nachnutzer*innen oder
998 von n-Gramm-Frequenzen, also in einem abgeleiteten Format, vorliegen. Auf der 1061 Gutachter*innen ausreichend, wenn ihnen die Texte nur in Form von
1062 n-Gramm-Frequenzen, also in einem abgeleiteten Format, vorliegen. Auf der
999 Grundlage von z. B. Wortartenfrequenzen kann dieser Teil der Analyse direkt 1063 Grundlage von z. B. Wortartenfrequenzen kann dieser Teil der Analyse direkt
1000 reproduziert werden.[34] Außerdem ist es etwa 1064 reproduziert werden.[44] Außerdem ist es etwa
1001 möglich, die distinktiven Merkmale auf den gleichen Daten mithilfe anderer 1065 möglich, die distinktiven Merkmale auf den gleichen Daten mithilfe anderer
1007 Textformate gedeckt. 1071 Textformate gedeckt.
1008 [53]Geht es hingegen um die Interpretation der Daten, reichen Frequenzinformationen 1072 [53]Geht es hingegen um eine Interpretation der Daten, welche auf semantische und
1009 nicht mehr aus. Um das Phänomen zu verstehen und gegebenenfalls erklären zu 1073 pragmatische Dimensionen abzielt, reichen Frequenzinformationen nicht mehr aus,
1010 können, ist es notwendig, konkrete Verwendungen im Korpus mitsamt ihrem Kontext 1074 um das Vorgehen in der Studie im Rahmen eines Gutachten zu bewerten oder eigene
1011 zu sichten. Die notwendige Kontextgröße hängt dabei von der Natur des 1075 Schlüsse aus den Daten zu ziehen. Um konkrete (semantische oder pragmatische)
1012 untersuchten Phänomens ab. Für die wir-Analyse 1076 Phänomene, wie zum Beispiel in Hinblick auf den Gebrauch von wir, zu verstehen
1013 wurden pro Fach 100 zufällige Sätze untersucht. Ein zumindest 1077 und gegebenenfalls erklären zu können, ist es notwendig, konkrete Verwendungen
1014 stichprobenartiger Zugriff auf Volltextdaten, wie er durch den XSample-Ansatz 1078 im Korpus mitsamt ihrem Kontext zu sichten. Die notwendige Kontextgröße hängt
1015 ermöglicht wird, ist zentral, um geisteswissenschaftlich fundierte Aussagen 1079 dabei von der Natur des untersuchten Phänomens ab. Für die wir-Analyse wurden pro Fach 100 zufällige Sätze untersucht. Ein
1016 treffen und nachvollziehbar machen zu können. 1080 zumindest stichprobenartiger Zugriff auf Volltextdaten, wie er durch den
1081 XSample-Ansatz ermöglicht wird, ist zentral, um geisteswissenschaftlich
1082 fundierte Aussagen treffen und nachvollziehbar machen zu können.
1017 1083
1024 unzutreffende, zweifelhafte oder in relevanter Hinsicht unvollständige Aussagen 1090 unzutreffende, zweifelhafte oder in relevanter Hinsicht unvollständige Aussagen
1025 über die Fakten oder Ereignisse der erzählten Welt tätigt.[35] 1091 über die Fakten oder Ereignisse der erzählten Welt tätigt.[45]
1026 [55]Im Gegensatz zum ersten Anwendungsfall handelt es sich beim zweiten nicht um 1092 [55]Im Gegensatz zum ersten Anwendungsfall handelt es sich beim zweiten nicht um
1031 Erzählen gilt in der Literaturwissenschaft einerseits als stark 1097 Erzählen gilt in der Literaturwissenschaft einerseits als stark
1032 interpretationsabhängiges Phänomen,[36] andererseits listet die Forschung zahlreiche 1098 interpretationsabhängiges Phänomen,[46] andererseits listet die Forschung zahlreiche
1033 sprachliche Indikatoren, die auf unzuverlässiges Erzählen hinweisen 1099 sprachliche Indikatoren, die auf unzuverlässiges Erzählen hinweisen
1034 können.[37] 1100 können.[47] Leser*innen können solche Merkmale – unter Rückgriff auf
1035 Leser*innen können solche Merkmale – unter Rückgriff auf allgemeines Weltwissen 1101 allgemeines Weltwissen sowie literarische und literaturwissenschaftliche
1036 sowie literarische und literaturwissenschaftliche Kontexte – zum Anlass nehmen, 1102 Kontexte – zum Anlass nehmen, der Erzählinstanz eines fiktionalen Textes
1037 der Erzählinstanz eines fiktionalen Textes Unzuverlässigkeit zuzuschreiben. In 1103 Unzuverlässigkeit zuzuschreiben. In diesem Rahmen entwickeln sie eine
1038 diesem Rahmen entwickeln sie eine inhaltsspezifizierende Interpretation[38] des Textes, d. h. sie 1104 inhaltsspezifizierende Interpretation[48] des Textes, d. h. sie bilden Annahmen darüber, was in der
1039 bilden Annahmen darüber, was in der fiktiven Welt des Textes wahr und was 1105 fiktiven Welt des Textes wahr und was falsch ist.
1040 falsch ist.
1041 [56]Um die Schluss- und Argumentationsprozesse bei der Feststellung bzw. 1106 [56]Um die Schluss- und Argumentationsprozesse bei der Feststellung bzw.
1058 angewandt. Für die Teilfragen (1) und (2) werden automatische Verfahren zur 1123 angewandt. Für die Teilfragen (1) und (2) werden automatische Verfahren zur
1059 Erkennung von Named Entities[39] und Redewiedergabe[40] verwendet, zusätzlich wurden Koreferenzen 1124 Erkennung von Named Entities[49] und Redewiedergabe[50] verwendet, zusätzlich wurden Koreferenzen
1060 exemplarisch manuell annotiert. Für Fragen (3) und (4) muss – wie es bei der 1125 exemplarisch manuell annotiert. Für Fragen (3) und (4) muss – wie es bei der
1062 zunächst ein eigenes Annotationsschema entwickelt werden, das dann im Rahmen 1127 zunächst ein eigenes Annotationsschema entwickelt werden, das dann im Rahmen
1063 manueller Annotation auf die Texte angewandt wird.[41] Für Frage (5) 1128 manueller Annotation auf die Texte angewandt wird.[51] Für Frage (5)
1064 wird exemplarisch eine Indikatorengruppe aus der Unzuverlässigkeitsforschung in 1129 wird exemplarisch eine Indikatorengruppe aus der Unzuverlässigkeitsforschung in
1065 den Fokus genommen: die Verwendung emotionaler bzw. wertender Sprache, für 1130 den Fokus genommen: die Verwendung emotionaler bzw. wertender Sprache, für
1066 deren Erkennung eine Kombination aus automatischer Sentimentanalyse[42] und manueller Emotionsanalyse 1131 deren Erkennung eine Kombination aus automatischer Sentimentanalyse[52] und manueller Emotionsanalyse
1067 eingesetzt wird. 1132 eingesetzt wird.
1070 der Operationalisierung literaturwissenschaftlicher Forschungsfragen als auch 1135 der Operationalisierung literaturwissenschaftlicher Forschungsfragen als auch
1071 technisch im Hinblick auf die Anpassung oder Neuentwicklung von Tools.[43] Deswegen kann 1136 technisch im Hinblick auf die Anpassung oder Neuentwicklung von Tools.[53] Deswegen kann es bei der Auswertung der
1072 es bei der Auswertung der Pilotstudie noch nicht darum gehen, die übergeordnete 1137 Pilotstudie noch nicht darum gehen, die übergeordnete Forschungsfrage zu den
1073 Forschungsfrage zu den Schluss- und Argumentationsprozessen bei der 1138 Schluss- und Argumentationsprozessen bei der Feststellung unzuverlässigen
1074 Feststellung unzuverlässigen Erzählens zu beantworten. Dennoch kann ein 1139 Erzählens zu beantworten. Dennoch kann ein Einblick in die Daten bereits in
1075 Einblick in die Daten bereits in diesem Zwischenstadium aufschlussreich sein. 1140 diesem Zwischenstadium aufschlussreich sein. Generell ist Forschung im Bereich
1076 Generell ist Forschung im Bereich der Digital Humanities (und besonders im 1141 der Digital Humanities (und besonders im Bereich der Computational Literary Studies) stärker als in den traditionellen
1077 Bereich der Computational Literary Studies) stärker als 1142 Geisteswissenschaften durch »Prozessualität, Vorläufigkeit und
1078 in den traditionellen Geisteswissenschaften durch »Prozessualität, 1143 ›Nichtwissen‹«[54] gekennzeichnet. Dies lässt sich durchaus als Stärke
1079 Vorläufigkeit und ›Nichtwissen‹«[44] gekennzeichnet. Dies lässt sich 1144 dieser Ansätze verstehen, weil dadurch die Zwischenschritte der Forschung und
1080 durchaus als Stärke dieser Ansätze verstehen, weil dadurch die Zwischenschritte 1145 Entwicklung dokumentiert (und damit durch Dritte einsehbar) werden, die in
1081 der Forschung und Entwicklung dokumentiert (und damit durch Dritte einsehbar) 1146 nicht-digitalen literaturwissenschaftlichen Zugängen oft implizit bleiben.
1082 werden, die in nicht-digitalen literaturwissenschaftlichen Zugängen oft
1083 implizit bleiben.
1084 [59]Beim zweiten Nutzungsszenario dient eine Einsicht in die Daten durch Dritte 1147 [59]Beim zweiten Nutzungsszenario dient eine Einsicht in die Daten durch Dritte
1099 mittels abgeleiteter Textformate (z. B. bestimmter tokenbasierter 1162 mittels abgeleiteter Textformate (z. B. bestimmter tokenbasierter
1100 Formate[45]) geprüft 1163 Formate[55])
1101 werden. Zusätzlich können Nachnutzer*innen sich damit ebenfalls einen ersten 1164 geprüft werden. Zusätzlich können Nachnutzer*nnen sich damit ebenfalls einen
1102 Eindruck hinsichtlich der im jeweiligen Text auftretenden Figuren 1165 ersten Eindruck hinsichtlich der im jeweiligen Text auftretenden Figuren
1103 verschaffen.[46] 1166 verschaffen.[56]
1104 Automatische Sentimentanalyse: Um zu beurteilen, ob 1167 Automatische Sentimentanalyse: Um zu beurteilen, ob
1132 Analyse sind oft langwierige Prozesse und benötigen im Rahmen von manueller 1195 Analyse sind oft langwierige Prozesse und benötigen im Rahmen von manueller
1133 (und meist kollaborativer) Annotation häufig mehrere Durchläufe.[47] Im Rahmen 1196 (und meist kollaborativer) Annotation häufig mehrere Durchläufe.[57] Im Rahmen
1134 des zweiten Nutzungsszenarios hat ein erster dieser Durchläufe 1197 des zweiten Nutzungsszenarios hat ein erster dieser Durchläufe
1169 eines generischen Tagsets für diese Annotationsaufgabe wünschenswert, in dem 1232 eines generischen Tagsets für diese Annotationsaufgabe wünschenswert, in dem
1170 beispielsweise Propositionen in Typen (z. B. in singular, particularized und general) unterteilt und verschiedene Rollen der Propositionen im Rahmen von Argumenten (Prämisse und 1233 beispielsweise Propositionen in Typen (z. B. in singular, particularized und general) unterteilt und verschiedene Rollen der
1171 Konklusion) unterschieden werden. 1234 Propositionen im Rahmen von Argumenten (Prämisse und Konklusion)
1172 Deshalb ist zu erwarten, dass sich die Annotationskategorien und 1235 unterschieden werden. Deshalb ist zu erwarten, dass sich die
1173 Anwendungsrichtlinien noch erheblich verändern werden. Aus diesem Grund kann 1236 Annotationskategorien und Anwendungsrichtlinien noch erheblich verändern
1174 der Nachvollzug der einzelnen Operationalisierungsschritte durch Dritte von 1237 werden. Aus diesem Grund kann der Nachvollzug der einzelnen
1175 besonderer Bedeutung sein. Dieser wird wieder durch Zugriff auf 1238 Operationalisierungsschritte durch Dritte von besonderer Bedeutung sein.
1176 Annotationskategorien / Anwendungsrichtlinien im Manifest sowie (mindestens) 1239 Dieser wird wieder durch Zugriff auf Annotationskategorien /
1177 zusammenhängende Textabschnitte ermöglicht. An dieser Stelle tritt ein 1240 Anwendungsrichtlinien im Manifest sowie (mindestens) zusammenhängende
1178 weiterer Unterschied zur manuellen Emotionsanalyse zutage: Während bei der 1241 Textabschnitte ermöglicht. An dieser Stelle tritt ein weiterer Unterschied
1179 Emotionsanalyse anhand sprachlicher Indikatoren vornehmlich einzelne Wörter 1242 zur manuellen Emotionsanalyse zutage: Während bei der Emotionsanalyse anhand
1180 annotiert werden, betrifft die Annotation bei der Analyse in Frage stehender Propositionen mindestens Teilsätze. Tokenbasierte abgeleitete Textformate sind 1243 sprachlicher Indikatoren vornehmlich einzelne Wörter annotiert werden,
1181 deswegen weder für den Nachvollzug der Kategorienentwicklung oder der 1244 betrifft die Annotation bei der Analyse in Frage stehender Propositionen
1245 mindestens Teilsätze. Tokenbasierte abgeleitete Textformate sind deswegen
1246 weder für den Nachvollzug der Kategorienentwicklung oder der
1182 Annotationsentscheidungen noch für einen ersten Einblick in die Ergebnisse 1247 Annotationsentscheidungen noch für einen ersten Einblick in die Ergebnisse
1203 Anwendungsfälle deutlich stärker annähert als abgeleitete Textformate und 1268 Anwendungsfälle deutlich stärker annähert als abgeleitete Textformate und
1204 Forschenden eine Möglichkeit bietet, (auch) an urheberrechtlich geschützten Texten solch komplexe literarische 1269 Forschenden eine Möglichkeit bietet, (auch) an urheberrechtlich geschützten
1205 Phänomene zu untersuchen. 1270 Texten solch komplexe literarische Phänomene zu untersuchen.
1206 1271
1229 die Nützlichkeit dieses Ansatzes für das individuelle Forschungsvorhaben zu 1294 die Nützlichkeit dieses Ansatzes für das individuelle Forschungsvorhaben zu
1230 maximieren, ermöglicht der XSample-Workflow den Nutzer*innen, Textauszüge flexibel 1295 maximieren, ermöglicht der XSample-Workflow den Nutzer*nnen, Textauszüge flexibel
1231 anhand von Suchanfragen an den Text und seine Annotationen auszuwählen. 1296 anhand von Suchanfragen an den Text und seine Annotationen auszuwählen.
1293 [1] 1358 [1]
1294 Die Namen der Autor*innen sind in den 1359 Die Namen der Autor*innen sind in
1295 Verfasserangaben alphabetisch aufgelistet. Im Projekt befanden sich juristische 1360 den Verfasserangaben alphabetisch aufgelistet. Im Projekt befanden sich
1296 Fragestellungen im Arbeitsschwerpunkt von Felicitas Kleinkopf; Markus Gärtner 1361 juristische Fragestellungen im Arbeitsschwerpunkt von Felicitas Kleinkopf;
1297 befasste sich mit der technischen Umsetzung der Infrastruktur; das erste 1362 Markus Gärtner befasste sich mit der technischen Umsetzung der Infrastruktur;
1298 Nutzungsszenario wurde von Melanie Andresen und Axel Pichler, das zweite von 1363 das erste Nutzungsszenario wurde von Melanie Andresen und Axel Pichler, das
1299 Janina Jacke und Nora Ketschik bearbeitet; Sibylle Hermann koordinierte die 1364 zweite von Janina Jacke und Nora Ketschik bearbeitet; Sibylle Hermann
1300 Projektarbeit und die Anbindung an die bibliothekarische Infrastruktur; Jonas 1365 koordinierte die Projektarbeit und die Anbindung an die bibliothekarische
1301 Kuhn war für konzeptionelle Fragen verantwortlich. Die textuelle Darstellung in 1366 Infrastruktur; Jonas Kuhn war für konzeptionelle Fragen verantwortlich. Die
1302 diesem Artikel wurde gemeinschaftlich von den Projektbeteiligten des XSample-Projekts, auch über die Zuständigkeitsgrenzen 1367 textuelle Darstellung in diesem Artikel wurde gemeinschaftlich von den
1303 im Projekt hinweg, erstellt. 1368 Projektbeteiligten des XSample-Projekts, auch über
1369 die Zuständigkeitsgrenzen im Projekt hinweg, erstellt.
1304 1370
1305 [2] 1371 [2]
1306 Die FAIR-Prinzipien formulieren vier 1372 Ähnliche Restriktionen gibt es auch in anderen Rechtsordnungen,
1307 zentrale Anforderungen an Forschungsdaten: Sie sollten Findable, Accessible, 1373 das betrifft aufgrund derselben zugrunde liegenden EU-Urheberrechts-Richtlinien
1308 Interoperable und Reusable sein, siehe Wilkinson et al. 2016. 1374 insbesondere die EU-Mitgliedsstaaten, während insbesondere das US-amerikanische
1375 Copyright-Law mit der sogenannten Fair-Use-Doktrin grundsätzlich anders
1376 ausgestaltet ist. Gegenstand dieser Darstellung ist allerdings allein das
1377 deutsche Urheberrecht inklusive seiner Grundlagen aus dem Unionsrecht.
1309 1378
1310 [3] 1379 [3]
1311 Der Schutz 1380 Die FAIR-Prinzipien
1312 von Texten durch das deutsche Urheberrecht endet siebzig Jahre nach Tod der 1381 formulieren vier zentrale Anforderungen an Forschungsdaten: Sie sollten
1313 Autor*innen, sodass kein direkter Zusammenhang zwischen Publikationsjahr und 1382 Findable, Accessible, Interoperable und Reusable sein, siehe Wilkinson et al.
1314 dem Ende des urheberrechtlichen Schutzes besteht. 1383 2016.
1315 1384
1316 [4] 1385 [4]
1317 Vgl. 1386 Der Schutz von Texten durch das deutsche
1318 Schöch et al. 2020. 1387 Urheberrecht endet siebzig Jahre nach Tod der Autor*innen, sodass kein direkter
1388 Zusammenhang zwischen Publikationsjahr und dem Ende des urheberrechtlichen
1389 Schutzes besteht.
1319 1390
1320 [5] 1391 [5]
1392 Vgl.
1393 Schöch et al.
1394 2020.
1321 1395
1396 [6]
1322 Vgl. Jockers 2013. 1397 Vgl. Jockers 2013.
1323 1398
1324 [6] 1399
1400 [7]
1325 Unter TDM versteht 1401 Unter TDM versteht
1327 digitalen oder digitalisierten Werken, um daraus Informationen insbesondere 1403 digitalen oder digitalisierten Werken, um daraus Informationen insbesondere
1328 über Muster, Trends und Korrelationen zu gewinnen« (§§ 44b Abs. 1, 1404 über Muster, Trends und Korrelationen zu gewinnen« (§§ 44b Abs.
1329 60d Abs. 1 UrhG). Unterschieden wird rechtlich zwischen der eigentlichen 1405 1, 60d Abs. 1 UrhG). Unterschieden wird rechtlich zwischen der
1330 automatisierten Analyse, die urheberrechtlich freigestellt ist, und den dafür 1406 eigentlichen automatisierten Analyse, die urheberrechtlich freigestellt ist,
1331 notwendigen Vorbereitungsschritten, die wiederum urheberrechtlich relevant 1407 und den dafür notwendigen Vorbereitungsschritten, die wiederum urheberrechtlich
1332 sind. Unter das gesetzgeberische Verständnis von TDM kann ein Großteil 1408 relevant sind. Unter das gesetzgeberische Verständnis von TDM kann ein Großteil
1333 textbasierter Forschung gefasst werden, auch wenn die Forscher*innen ihre 1409 textbasierter Forschung gefasst werden, auch wenn die Forscher*innen ihre
1336 1412
1337 [7] 1413 [8]
1338 1414
1339 Einen umfassenderen Überblick über die Detailfragen des Forschungsprozesses 1415 Einen umfassenderen Überblick über die Detailfragen des Forschungsprozesses
1340 bieten zum alten Recht Dreier / Schulze 2018, § 60d; 1416 bieten zum alten Recht Dreier / Schulze 2018, § 60d; Kleinkopf et al. 2021; vorwiegend auch
1341 Kleinkopf et al. 2021; 1417 Schöch et al.
1342 vorwiegend auch Schöch et al. 2020, Randnummer 5–14; zu § 60d in seiner neuen Fassung, 1418 2020, Absatz 5–14; zu § 60d in seiner neuen Fassung, vgl. Dreier in Dreier / Schulze
1343 vgl. Dreier in Dreier / Schulze 2022, § 44b und § 60d; 1419 2022, § 44b und § 60d; Raue 2021; Kleinkopf / Pflüger 2021, S. 645–647;
1344 Raue 2021; 1420 eine Betrachtung auf EU-Ebene bieten Gärtner et al. 2021, S. 11–13. Vgl.
1345 Kleinkopf / Pflüger 2021, S. 645–647; 1421 auch Kleinkopf
1346 eine Betrachtung auf EU-Ebene bieten 1422 2022.
1347 Gärtner et
1348 al. 2021, S. 11–13.
1349 1423
1350 [8] 1424 [9]
1351 Erlaubnisnormen werden im 1425 Erlaubnisnormen werden im
1354 1428
1355 [9]
1356 Bundesgesetzblatt Jahrgang
1357 2021 Teil I Nr. 27, ausgegeben zu Bonn am 4. Juni 2021.
1358
1359 [10] 1429 [10]
1360 Vertraglich oder technisch darf das TDM im 1430 Bundesgesetzblatt
1361 Rahmen wissenschaftlicher Zwecke (§ 60d UrhG) auch im Grundsatz nicht 1431 Jahrgang 2021 Teil I Nr. 27, ausgegeben zu Bonn am 4. Juni 2021.
1362 ausgeschlossen werden (§ 60g Abs. 1, 95b Abs. 1, 3 UrhG). Etwas anderes gilt
1363 für kommerzielles TDM im Rahmen des § 44b UrhG oder für die Sicherung der
1364 Funktionsfähigkeit technischer Systeme (§ 60d Abs. 6 UrhG).
1365 1432
1366 [11] 1433 [11]
1367 Dreier in Dreier / 1434 In diesen kommerziellen Kontexten dürfen
1368 Schulze 2022, § 15 Randnummer 38 mit Verweis auf den EuGH. 1435 für das TDM Werke vervielfältigt werden (§ 44b Abs. 2 S. 1 UrhG), diese
1436 müssen aber gelöscht werden, wenn sie für das TDM nicht mehr erforderlich
1437 sind (§ 44b Abs. 2 S. 2 UrhG). Zudem können Rechteinhaber*innen an ihren
1438 Werken (maschinenlesbare) Nutzungsvorbehalte anbringen, die von denjenigen,
1439 die auf Grundlage des § 44b UrhG TDM betreiben, ab dem Zeitpunkt ihrer
1440 Erklärung beachtet werden müssen (§ 44b Abs. 3 S. 1, 2 UrhG). Im Rahmen des
1441 § 44b UrhG ist nicht erlaubt, Werke oder Werkteile öffentlich zugänglich zu
1442 machen, auch nicht an bestimmt abgegrenzte Personenkreise. Aufgrund der
1443 Löschpflicht dürfen die erstellten Korpora auch nicht längerfristig
1444 aufbewahrt werden. Für wissenschaftliche Zwecke ist es deswegen unbedingt
1445 notwendig, sich auf § 60d UrhG berufen zu können.
1369 1446
1370 [12] 1447 [12]
1448 Vertraglich oder technisch darf das TDM im Rahmen
1449 wissenschaftlicher Zwecke (§ 60d UrhG) auch im Grundsatz nicht
1450 ausgeschlossen werden (§§ 60g Abs.
1451 1, 95b Abs. 1, 3 UrhG). Etwas anderes gilt für kommerzielles TDM im
1452 Rahmen des § 44b UrhG oder für die Sicherung der Funktionsfähigkeit
1453 technischer Systeme (§ 60d Abs. 6 UrhG).
1454
1455 [13]
1456 Vgl. zum genauen Verständnis der
1457 nicht-kommerziellen Zwecke die Ausführungen in Absatz 19.
1458
1459 [14]
1460 Dreier in Dreier / Schulze
1461 2022, § 15 Randnummer 38 mit Verweis auf den EuGH.
1462
1463 [15]
1371 Vgl. Raue 2021, S. 799. 1464 Vgl. Raue 2021, S. 799.
1372 1465
1373 [13] 1466 [16]
1374 Vgl. Leitlinien zur Sicherung der guten wissenschaftlichen Praxis, 1467 Vgl. Leitlinien zur Sicherung der guten
1375 Deutsche Forschungsgemeinschaft 2019, 1468 wissenschaftlichen Praxis, Deutsche Forschungsgemeinschaft 2019,
1376 Leitlinie 17. 1469 Leitlinie 17.
1377 1470
1378 [14] 1471 [17]
1379 Vgl. Raue 2021, S. 799. 1472 Vgl. Raue 2021, S. 799.
1380 1473
1381 [15] 1474 [18]
1382 Vgl. Kleinkopf / Pflüger 2021, S. 647. 1475 Vgl. Kleinkopf / Pflüger 2021, S.
1476 647.
1383 1477
1384 [16] 1478 [19]
1385 Bundestagsdrucksache 19/27426, S. 97. 1479 Bundestagsdrucksache 19/27426, S. 97.
1386 1480
1387 [17] 1481 [20]
1388 Etwas anderes kann gelten, wenn die Ursprungsdaten 1482 Etwas anderes kann gelten, wenn die Ursprungsdaten
1390 1484
1391 [18] 1485 [21]
1392 Vgl. 1486 Vgl. Kleinkopf / Pflüger
1393 Kleinkopf / Pflüger 2021, S. 647. 1487 2021, S. 647.
1394 1488
1395 [19] 1489 [22]
1396 Erwägungsgrund 15 S. 5 DSM-Richtlinie. 1490 Erwägungsgrund 15 S. 5 DSM-Richtlinie.
1397 1491
1398 [20] 1492 [23]
1399 Vgl. Schöch et al. 2020, Randnummer 4 f. 1493 Vgl. Schöch et al. 2020, Absatz
1494 4f.
1400 1495
1401 [21] 1496 [24]
1402 Der Terminus ›Anschlusskopie‹ meint, dass sich die 1497 Der Terminus ›Anschlusskopie‹ meint, dass sich die
1407 1502
1408 [22] 1503 [25]
1409 Unter ›geringem Umfang‹ werden gemeinhin 25 1504 Unter ›geringem Umfang‹ werden gemeinhin 25
1410 Seiten verstanden, vgl. Dreier in Dreier / Schulze 2022, § 60c Randnummer 15, 1505 Seiten verstanden, vgl. Dreier in Dreier / Schulze 2022, § 60c Randnummer
1411 § 60a Randnummer 22; Bundestagsdrucksache 18/12329, S. 35. 1506 15, § 60a Randnummer 22; Bundestagsdrucksache 18/12329, S. 35.
1412 1507
1413 [23] 1508 [26]
1414 Vgl. Schöch et al. 2020, Randnummer 5. 1509 Vgl. Schöch et al. 2020, Absatz
1510 5.
1415 1511
1416 [24] 1512 [27]
1417 Das entspräche einer Einstellung in ein 1513 Das entspräche einer Einstellung in ein
1418 Universitäts-Intranet, diese ist jedoch gerade nicht erlaubt, vgl. Dreier in 1514 Universitäts-Intranet, diese ist jedoch gerade nicht erlaubt, vgl. Dreier in
1419 Dreier / Schulze 2022, § 60c Randnummer 9; Bundestagsdrucksache 15 / 837, S. 34. 1515 Dreier / Schulze
1516 2022, § 60c Randnummer 9; Bundestagsdrucksache 15 / 837, S. 34.
1420 1517
1421 [25] 1518 [28]
1519 Vgl. Dreier in Dreier / Schulze
1520 2022, § 60c Randnummer 6 mit Verweis auf die Gesetzesbegründung,
1521 Bundestagsdrucksache 18/12329, S. 39.
1522
1523 [29]
1524 Vgl. Dreier in Dreier / Schulze
1525 2022, § 60a Randnummer 7.
1526
1527 [30]
1422 Nach 1528 Nach
1423 der DSM-Richtlinie ist es zulässig, weitere Nutzungen der TDM-Korpora auf 1529 der DSM-Richtlinie ist es zulässig, weitere Nutzungen der TDM-Korpora
1424 die ältere InfoSoc-Richtlinie zu stützen, das besagt zum einen 1530 auf die ältere InfoSoc-Richtlinie zu stützen, das besagt zum einen
1425 Erwägungsgrund 15 S. 5 und zum anderen Art. 24 Abs. 2, 25 DSM-RL. Auch die 1531 Erwägungsgrund 15 S. 5 und zum anderen Art. 24 Abs. 2, 25 DSM-Richtlinie.
1426 Rechtsprechung hat bereits in der Vergangenheit urheberrechtliche 1532 Auch die Rechtsprechung hat bereits in der Vergangenheit urheberrechtliche
1427 Erlaubnisnormen miteinander kombiniert, wenn ihre jeweiligen Voraussetzungen 1533 Erlaubnisnormen miteinander kombiniert, wenn ihre jeweiligen Voraussetzungen
1431 1537
1432 [26] 1538 [31]
1433 Leitlinien zur Sicherung 1539 Leitlinien zur Sicherung der
1434 der guten wissenschaftlichen Praxis, Deutsche Forschungsgemeinschaft 2019, Leitlinie 17. 1540 guten wissenschaftlichen Praxis, Deutsche Forschungsgemeinschaft 2019,
1541 Leitlinie 17.
1435 1542
1436 [27] 1543 [32]
1544 Den Einrichtungen werden auch beim Kopienversand keine
1545 weitergehenden Prüfpflichten auferlegt, es sei denn, es handelt sich um
1546 offensichtliche Missbrauchsfälle, vgl. Dreier in Dreier / Schulze 2022, § 60e Randnummer
1547 17, 27, 28; Stieper in Schricker / Loewenheim 2020,
1548 § 60e Randnummer 37.
1549
1550 [33]
1437 Metainformationen wie Seitenzahlen auf der Ebene von Sätzen 1551 Metainformationen wie Seitenzahlen auf der Ebene von Sätzen
1438 oder einzelnen Worten im Text sind in etablierten Annotationsschemata oder 1552 oder einzelnen Worten im Text sind in etablierten Annotationsschemata oder
1439 Formaten in der Regel nicht vorgesehen und erfordern somit zusätzlichen Aufwand, bzw. 1553 Formaten in der Regel nicht vorgesehen und erfordern somit zusätzlichen
1440 spezielle Anpassungen. 1554 Aufwand, bzw. spezielle Anpassungen.
1441 1555
1442 [28] 1556 [34]
1443 Vgl. Gärtner 1557 Vgl. Gärtner
1445 1559
1446 [29] 1560 [35]
1447 Sofern 1561 Sofern
1449 1563
1450 [30] 1564 [36]
1565 Vgl. Krause / Zeldes 2016.
1566
1567 [37]
1568 Vgl. Diewald et al. 2106.
1569
1570 [38]
1451 Bei der 1571 Bei der
1453 1573
1454 [31] 1574 [39]
1575 Es handelt sich dementsprechend um eine sogenannte
1576 ›approximative Replikation‹ (Porte 2012, S. 8).
1577
1578 [40]
1455 Vgl. Andresen 2022. 1579 Vgl. Andresen 2022.
1456 1580
1457 [32] 1581 [41]
1458 Vgl. 1582 Die ursprüngliche Studie (Andresen
1459 Kresta 1995, S. 130–147, vgl. auch 1583 2022) legt zusätzlich einen besonderen Schwerpunkt auf Sequenzen,
1460 Steinhoff 2007, S. 206f. 1584 die entlang der syntaktischen Dependenzen im Satz gebildet werden.
1461 1585
1462 [33] 1586 [42]
1463 Vgl. zum Beispiel Jürgen Habermas’ Kritik 1587 Vgl. Kresta 1995, S.130–147,
1464 an der Einebnung des Gattungsunterschiedes zwischen 1588 vgl. auch Steinhoff 2007, S. 206f.
1465 Philosophie und Literatur, Habermas 1988, S. 217.
1466 1589
1467 [34] 1590 [43]
1591 Vgl. zum
1592 Beispiel Jürgen Habermas’ Kritik an der Einebnung des Gattungsunterschiedes zwischen
1593 Philosophie und Literatur, Habermas
1594 1988, S. 217.
1595
1596 [44]
1468 Der Schritt von den Originaldaten zu 1597 Der Schritt von den Originaldaten zu
1474 1603
1475 [35] 1604 [45]
1476 Vgl. Martínez / Scheffel 2009, S. 100; 1605 Vgl. Martínez
1477 Kindt 2008, S. 48. 1606 / Scheffel 2009, S. 100; Kindt 2008, S. 48.
1478 1607
1479 [36] 1608 [46]
1480 Vgl. Yacobi 1981; 1609 Vgl. Yacobi 1981;
1481 Nünning 1999. 1610 Nünning
1611 1999.
1482 1612
1483 [37] 1613 [47]
1484 Vgl. Nünning 1998; 1614 Vgl. Nünning 1998; Allrath
1485 Allrath 1998. 1615 1998.
1486 1616
1487 [38] 1617 [48]
1488 Vgl. Folde 2015, S. 366. 1618 Vgl. Folde 2015,
1619 S. 366.
1489 1620
1490 [39] 1621 [49]
1491 Verwendet wurde hier der 1622 Verwendet wurde hier der
1492 Stanford Named Entity 1623 Stanford
1493 Recognizer. 1624 Named Entity Recognizer.
1494 1625
1495 [40] 1626 [50]
1496 Für die Erkennung von direkter Rede wurde ein simpler 1627 Für die Erkennung von direkter Rede wurde ein simpler
1497 Tagger entwickelt, der auf der Identifikation von Anführungszeichen basiert; 1628 Tagger entwickelt, der auf der Identifikation von Anführungszeichen basiert;
1498 indirekte Rede wurde mithilfe eines verfügbaren Taggers annotiert 1629 indirekte Rede wurde mithilfe eines verfügbaren Taggers
1499 . Alle erzeugten Annotationen wurden anschließend gesichtet und 1630 annotiert. Alle erzeugten Annotationen wurden anschließend gesichtet und
1500 gegebenenfalls korrigiert. 1631 gegebenenfalls korrigiert.
1501 1632
1502 [41] 1633 [51]
1503 Für 1634 Für
1505 1636
1506 [42] 1637 [52]
1507 Zum Einsatz kam hier SentText, vgl. Schmidt et al. 2021. 1638 Zum Einsatz kam hier SentText, vgl. Schmidt et al.
1639 2021.
1508 1640
1641 [53]
1642 Vgl. Gius 2019; Pichler /
1643 Reiter 2021.
1509 1644
1510 [43] 1645 [54]
1511 Vgl. Gius 2019; 1646 Schruhl
1512 Pichler / Reiter 2021. 1647 2018.
1513 1648
1514 [44] 1649 [55]
1515 Schruhl 2018.
1516
1517 [45]
1518 Vgl. Schöch et al. 2020. 1650 Vgl. Schöch et al. 2020.
1519 1651
1520 [46] 1652 [56]
1521 Tatsächlich ist (auch eine eigens 1653 Tatsächlich ist (auch eine eigens
1522 trainierte) Named Entity Recognition nur in eingeschränktem Maße für die 1654 trainierte) Named Entity Recognition nur in eingeschränktem Maße für die
1523 Identifikation der relevanten Akteur*innen / Instanzen geeignet, da gerade in 1655 Identifikation der relevanten Akteur*innen / Instanzen geeignet, da
1524 potenziell unzuverlässigen Erzählungen häufig homodiegetische 1656 gerade in potenziell unzuverlässigen Erzählungen häufig homodiegetische
1525 Erzähler*innen (›Ich-Erzähler*innen‹) auftreten, auf die nicht oder 1657 Erzähler*innen (›Ich-Erzähler*innen‹) auftreten, auf die nicht oder
1527 1659
1528 [47] 1660 [57]
1529 Vgl. Gius / Jacke 2017; 1661 Vgl. Gius / Jacke 2017; Reiter 2020.
1530 Reiter 2020.
1531 1662
1538 1669
1539 Gaby Allrath: »But why will you say that I am mad?« Textuelle Signale für 1670 Gaby Allrath: »But why will you say that I am
1540 die Ermittlung von unreliable narration. In: Unreliable Narration. Studien zur 1671 mad?« Textuelle Signale für die Ermittlung von unreliable narration. In:
1541 Theorie und Praxis unglaubwürdigen Erzählens in der englischsprachigen 1672 Unreliable Narration. Studien zur Theorie und Praxis unglaubwürdigen Erzählens
1542 Erzählliteratur. Hg. von Ansgar Nünning / Carola Surkamp / Bruno Zerweck. Trier 1673 in der englischsprachigen Erzählliteratur. Hg. von Ansgar Nünning / Carola
1543 1998, S. 59–80. [Nachweis im GVK] Melanie Andresen: Datengeleitete Sprachbeschreibung mit syntaktischen 1674 Surkamp / Bruno Zerweck. Trier 1998, S. 59–80. [Nachweis im GVK] Melanie Andresen: Datengeleitete
1544 Annotationen. Eine Korpusanalyse am Beispiel der germanistischen 1675 Sprachbeschreibung mit syntaktischen Annotationen. Eine Korpusanalyse am
1545 Wissenschaftssprachen. Tübingen 2022. (= Korpuslinguistik und interdisziplinäre 1676 Beispiel der germanistischen Wissenschaftssprachen. Tübingen 2022. (=
1546 Perspektiven auf Sprache (CLIP), 10). [Nachweis im GVK] Thomas Dreier / Gernot Schulze: UrhG – Urheberrechtsgesetz, 1677 Korpuslinguistik und interdisziplinäre Perspektiven auf Sprache (CLIP), 10).
1547 Verwertungsgesellschaftengesetz, Kunsturhebergesetz. Kommentar. 6. Auflage. 1678 [Nachweis im GVK] Nils Diewald / Michael Hanl / Eliza Margaretha /
1548 München 2018. [Nachweis im GVK] Thomas Dreier / Gernot Schulze: UrhG – Urheberrechtsgesetz, 1679 Joachim Bingel / Marc Kupietz / Piotr Bański / Andreas Witt: KorAP
1549 Urheberrechts-Diensteanbieter-Gesetz, Verwertungsgesellschaftengesetz, 1680 Architecture. Diving in the Deep Sea of Corpus Data In: Proceedings of the 10th
1550 Nebenurheberrecht, Kunsturheberrecht. Kommentar. 7. Auflage. München 2022. 1681 International Conference on Language Resources and Evaluation (LREC 2016). Hg.
1551 [Nachweis im GVK] Christian Folde: Grounding Interpretation. In: British Journal of Aesthetics 1682 von European Language Resources Association (ELRA). (LREC 2016: Portorož,
1552 55 (2015), H. 3, S. 361–374. [Nachweis im GVK] Deutsche Forschungsgemeinschaft: Leitlinien zur Sicherung der guten 1683 23.–28.05.2016). Paris 2016: European Language Resources Association (ELRA), S.
1553 wissenschaftlichen Praxis, Kodex, 2019. DOI: 10.5281/zenodo.6472827Markus Gärtner: The Corpus Query Middleware of Tomorrow − A Proposal for a 1684 3586–3591. PDF. [online] [Nachweis im GVK] Thomas Dreier / Gernot Schulze: UrhG –
1554 Hybrid Corpus Query Architecture. In: Proceedings of the 8th Workshop on 1685 Urheberrechtsgesetz, Verwertungsgesellschaftengesetz, Kunsturhebergesetz.
1555 Challenges in the Management of Large Corpora. Hg. von Piotr Bański / Adrien 1686 Kommentar. 6. Auflage. München 2018. [Nachweis im GVK] Thomas Dreier / Gernot Schulze: UrhG –
1556 Barbaresi / Simon Clematide / Marc Kupietz / Harald Lüngen / Ines Pisetta. 1687 Urheberrechtsgesetz, Urheberrechts-Diensteanbieter-Gesetz,
1557 (CMLC 8, Marseille, 11.–16.05.2020) Stroudsburg, PA 2020, S. 31–39. [online] Markus Gärtner / Felicitas Kleinkopf / Melanie Andresen / Sybille Hermann: 1688 Verwertungsgesellschaftengesetz, Nebenurheberrecht, Kunsturheberrecht.
1558 Corpus Reusability and Copyright – Challenges and Opportunities. In: 1689 Kommentar. 7. Auflage. München 2022. [Nachweis im GVK] Christian Folde: Grounding
1559 Proceedings of the Workshop on Challenges in the Management of Large Corpor. 1690 Interpretation. In: British Journal of Aesthetics 55 (2015), H. 3, S. 361–374.
1560 Hg. von Harald Lüngen / Marc Kupietz / Piotr Bański / Adrien Barbaresi / Simon 1691 [Nachweis im GVK] Deutsche Forschungsgemeinschaft: Leitlinien zur
1561 Clematide / Ines Pisetta. (CMLC 9, Limerick, 12.07.2021) Mannheim 2021, S. 1692 Sicherung der guten wissenschaftlichen Praxis, Kodex, 2019. DOI: 10.5281/zenodo.6472827Markus Gärtner / Katrin Schweitzer /
1562 10–19. DOI: 10.14618/ids-pub-10467 [Nachweis im GVK] Evelyn Gius: Computationelle Textanalysen als fünfdimensionales Problem: Ein 1693 Kerstin Eckart / Jonas Kuhn: Multi-modal Visualization and Search for Text and
1563 Modell zur Beschreibung von Komplexität. In: LitLab Pamphlet 8 (2019). [online] Evelyn Gius / Janina Jacke: The Hermeneutic Profit of Annotation: On 1694 Prosody Annotations. In: Proceedings of the 53rd Annual Meeting of the
1564 Preventing and Fostering Disagreement in Literary Analysis. In: International 1695 Association for Computational Linguistics and the 7th International Joint
1565 Journal of Humanities and Arts Computing 11 (2017), H. 2, S. 233–254. DOI: 10.3366/ijhac.2017.0194 [Nachweis im GVK] Jürgen Habermas: Der philosophische Diskurs der Moderne. Zwölf Vorlesungen. 1696 Conference on Natural Language Processing of the Asian Federation of Natural
1566 Frankfurt / Main 1988. (= Suhrkamp-Taschenbuch Wissenschaft, 749). 1697 Language Processing: System Demonstrations. Hg. von Association for
1567 [Nachweis im GVK] Matthew Lee Jockers: Macroanalysis: Digital methods and literary history. 1698 Computational Linguistics. (ACL 53: Beijing, 27.–29.07.2015). Red Hook, NY
1568 Urbana, IL u. a. 2013. [Nachweis im GVK] Tom Kindt: Unzuverlässiges Erzählen und literarische Moderne: eine 1699 2015, S. 25–30. PDF. DOI: 10.3115/v1/P15-4005Markus Gärtner / Jonas Kuhn: A Lightweight
1569 Untersuchung der Romane von Ernst Weiß. Tübingen 2008. (= Studien zur deutschen 1700 Modeling Middleware for Corpus Processing. In: Proceedings of the Eleventh
1570 Literatur, 184). [Nachweis im GVK] Felicitas Kleinkopf / Janina Jacke / Markus Gärtner: Text- und Data-Mining – 1701 International Conference on Language Resources and Evaluation. Hg. von European
1571 Urheberrechtliche Grenzen der Nachnutzung wissenschaftlicher Korpora bei 1702 Language Resources Association (ELRA). (LREC 2018: Miyazaki, Mai 2018),
1572 computergestützten Verfahren und digitalen Ressourcen. In: MMR. Zeitschrift für 1703 Miyazaki 2018, S. 1087–1095. PDF. [online]Markus Gärtner: The Corpus Query Middleware of
1573 IT-Recht und Recht der Digitalisierung 24 (2021), H. 3, S. 196–200. DOI: 10.18419/opus-11445 [Nachweis im GVK] Felicitas Kleinkopf / Thomas Pflüger: Digitale Bildung, Wissenschaft und 1704 Tomorrow − A Proposal for a Hybrid Corpus Query Architecture. In: Proceedings
1574 Kultur – Welcher urheberrechtliche Reformbedarf verbleibt nach Umsetzung der 1705 of the 8th Workshop on Challenges in the Management of Large Corpora. Hg. von
1575 DSM-RL durch das Gesetz zum Urheberrecht im digitalen Binnenmarkt? In: 1706 Piotr Bański / Adrien Barbaresi / Simon Clematide / Marc Kupietz / Harald
1576 Zeitschrift für Urheber- und Medienrecht 56 (2021), H. 8 / 9, S. 643–655. 1707 Lüngen / Ines Pisetta. (CMLC 8, Marseille, 11.–16.05.2020) Stroudsburg, PA
1577 [Nachweis im GVK] Ronald Kresta: Realisierungsformen der Interpersonalität in vier 1708 2020, S. 31–39. [online] Markus Gärtner / Felicitas Kleinkopf / Melanie
1578 linguistischen Fachtextsorten des Englischen und des Deutschen (= Theorie und 1709 Andresen / Sybille Hermann: Corpus Reusability and Copyright – Challenges and
1579 Vermittlung der Sprache, 24). Frankfurt / Main u. a. 1995. [Nachweis im GVK] Matías Martínez / Michael Scheffel: Einführung in die Erzähltheorie. 8. 1710 Opportunities. In: Proceedings of the Workshop on Challenges in the Management
1580 Aufage. (= C.-H.-Beck-Studium). München 2009. [Nachweis im GVK] Ansgar Nünning: »Unreliable Narration« zur Einführung. Grundzüge einer 1711 of Large Corpor. Hg. von Harald Lüngen / Marc Kupietz / Piotr Bański / Adrien
1581 kognitiv-narratologischen Theorie und Analyse unglaubwürdigen Erzählens. In: 1712 Barbaresi / Simon Clematide / Ines Pisetta. (CMLC 9, Limerick, 12.07.2021)
1582 Unreliable Narration. Studien zur Theorie und Praxis unglaubwürdigen Erzählens. 1713 Mannheim 2021, S. 10–19. DOI: 10.14618/ids-pub-10467 [Nachweis im GVK] Evelyn Gius: Computationelle Textanalysen
1583 Hg. von Ansgar Nünning / Bruno Zerweck / Carola Surkamp. Trier 1998, S. 3–39. 1714 als fünfdimensionales Problem: Ein Modell zur Beschreibung von Komplexität. In:
1584 [Nachweis im GVK] Ansgar Nünning: Unreliable, Compared to What? Towards a Cognitive Theory of 1715 LitLab Pamphlet 8 (2019). [online] Evelyn Gius / Janina Jacke: The Hermeneutic Profit
1585 »Unreliable Narration«. Prolegomena and Hypotheses. In: Grenzüberschreitungen. 1716 of Annotation: On Preventing and Fostering Disagreement in Literary Analysis.
1586 Narratologie im Kontext / Transcending Boundaries. Narratology in Context. Hg. 1717 In: International Journal of Humanities and Arts Computing 11 (2017), H. 2, S.
1587 von Walter Grünzweig / Andreas Solbach. Tübingen 1999, S. 53–73. [Nachweis im GVK] Axel Pichler / Nils Reiter: Zur Operationalisierung 1718 233–254. DOI: 10.3366/ijhac.2017.0194 [Nachweis im GVK] Jürgen Habermas: Der philosophische Diskurs
1588 literaturwissenschaftlicher Begriffe in der algorithmischen Textanalyse. Eine 1719 der Moderne. Zwölf Vorlesungen. Frankfurt / Main 1988. (= Suhrkamp-Taschenbuch
1589 Annäherung über Norbert Altenhofers hermeneutische Modellinterpretation von 1720 Wissenschaft, 749). [Nachweis im GVK] Matthew Lee Jockers: Macroanalysis: Digital
1590 Kleists Das Erdbeben in Chili. In: Journal of Literary Theory 15 (2021), H. 1–2, S. 1–29. [online] [Nachweis im GVK] Benjamin Raue: Die Freistellung von Datenanalysen durch die neuen Text und 1721 methods and literary history. Urbana, IL u. a. 2013. [Nachweis im GVK] Tom Kindt: Unzuverlässiges Erzählen und
1591 Data Mining-Schranken. In: Zeitschrift für Urheber- und Medienrecht 56 (2021), 1722 literarische Moderne: eine Untersuchung der Romane von Ernst Weiß. Tübingen
1592 H. 10, S. 793-802. [Nachweis im GVK] Nils Reiter: Anleitung zur Erstellung von Annotationsrichtlinien. In: 1723 2008. (= Studien zur deutschen Literatur, 184). [Nachweis im GVK] Felicitas Kleinkopf: Text- und Data-Mining. Die
1593 Reflektierte algorithmische Textanalyse. Hg. von Nils Reiter / Axel Pichler / 1724 Anforderungen digitaler Forschungsmethoden an ein innovations- und
1594 Jonas Kuhn. Berlin u. a. 2020, S. 193–202. DOI: 10.1515/9783110693973-009 [Nachweis im GVK] Richtlinie (EU) 2019/790 des Europäischen Parlaments und des Rates vom 17. April 2019 über das Urheberrecht und die verwandten Schutzrechte im digitalen Binnenmarkt und zur Änderung der Richtlinien 96/9/EG und 2001/29/EG. [online]Anne Schiller / Simone Teufel / Christine Thielen / Christine Stöckert: 1725 wissenschaftsfreundliches Urheberrecht. (= Schriftenreihe des Archivs für
1595 Guidelines für das Tagging deutscher Textcorpora mit STTS (kleines und großes 1726 Urheber- und Medienrecht, 300). Baden-Baden 2022. PDF. DOI: 10.5771/9783748935360Felicitas Kleinkopf / Janina Jacke / Markus
1596 Tagset). 1999. PDF. [online] 1727 Gärtner: Text- und Data-Mining – Urheberrechtliche Grenzen der Nachnutzung
1597 Christof Schöch / Frédéric Döhl / Achim Rettinger / Evelyn Gius / Peer 1728 wissenschaftlicher Korpora bei computergestützten Verfahren und digitalen
1598 Trilcke / Peter Leinen / Fotis Jannidis / Maria Hinzmann / Jörg Röpke: 1729 Ressourcen. In: MMR. Zeitschrift für IT-Recht und Recht der Digitalisierung 24
1599 Abgeleitete Textformate: Text und Data Mining mit urheberrechtlich geschützten 1730 (2021), H. 3, S. 196–200. DOI: 10.18419/opus-11445 [Nachweis im GVK] Felicitas Kleinkopf / Thomas Pflüger:
1600 Textbeständen. In: Zeitschrift für digitale Geisteswissenschaften 5 (2020). 1731 Digitale Bildung, Wissenschaft und Kultur – Welcher urheberrechtliche
1601 DOI: 10.17175/2020_006Friederike Schruhl: Objektumgangsnormen in der Literaturwissenschaft. In: Wie Digitalität 1732 Reformbedarf verbleibt nach Umsetzung der DSM-RL durch das Gesetz zum
1602 die Geisteswissenschaften verändert: Neue 1733 Urheberrecht im digitalen Binnenmarkt? In: Zeitschrift für Urheber- und
1603 Forschungsgegenstände und Methoden. Hg. von Martin Huber / Sybille Krämer. Wolfenbüttel 1734 Medienrecht 56 (2021), H. 8 / 9, S. 643–655. [Nachweis im GVK] Thomas Krause / Amir Zeldes: ANNIS3. A New
1604 2018. (= 1735 Architecture for Generic Corpus Query and Visualization. In: Digital
1605 Sonderband der Zeitschrift für digitale Geisteswissenschaften, 3) DOI: 10.17175/sb003_012Thomas Schmidt / Johanna Dangel / Christian Wolff: SentText: A Tool for 1736 Scholarship in the Humanities 31 (2016). H. 1, S. 118–139. 24.10.2014. DOI:
1606 Lexicon-based Sentiment Analysis in Digital Humanities. In: Information between 1737 10.1093/llc/fqu057Ronald Kresta: Realisierungsformen
1607 Data and Knowledge. Information Science and its Neighbors from Data Science to 1738 der Interpersonalität in vier linguistischen Fachtextsorten des Englischen und
1608 Digital Humanities. Proceedings of the 16th International Symposium of 1739 des Deutschen (= Theorie und Vermittlung der Sprache, 24). Frankfurt / Main u.
1609 Information Science. Hg. von Christian Wolff / Thomas Schmidt. (ISI 16, 1740 a. 1995. [Nachweis im GVK] Matías Martínez / Michael Scheffel:
1610 Regensburg, 08–10.03.202) Glückstadt 2021, S. 156–172. DOI: 10.5283/epub.44943 1741 Einführung in die Erzähltheorie. 8. Auflage. (= C.-H.-Beck-Studium). München
1611 [Nachweis im GVK] Torsten Steinhoff: Wissenschaftliche Textkompetenz: Sprachgebrauch und 1742 2009. [Nachweis im GVK] Ansgar Nünning: »Unreliable Narration« zur
1612 Schreibentwicklung in wissenschaftlichen Texten von Studenten und Experten. 1743 Einführung. Grundzüge einer kognitiv-narratologischen Theorie und Analyse
1613 Tübingen 2007. (= Reihe Germanistische Linguistik, 280) [Nachweis im GVK] Mark D. Wilkinson / Michel Dumontier / IJsbrand Jan Aalbersberg / Gabrielle Appleton / Myles Axton / Arie Baak / Niklas Blomberg / Jan-Willem Boiten / Luiz Bonino da Silva Santos / Philip E. Bourne / Jildau Bouwman / Anthony J. Brookes / Tim Clark / Mercè Crosas / Ingrid Dillo / Olivier Dumon / Scott Edmunds / Chris T. Evelo / Richard Finkers / Alejandra Gonzalez-Beltran / Alasdair J.G. Gray / Paul Groth / Carole Goble / Jeffrey S. Grethe / Jaap Heringa / Peter A.C ’t Hoen / Rob Hooft / Tobias Kuhn / Ruben Kok / Joost Kok / Scott J. Lusher / Maryann E. Martone / Albert Mons / Abel L. Packer / Bengt Persson / Philippe Rocca-Serra / Marco Roos / Rene van Schaik / Susanna-Assunta Sansone / Erik Schultes / Thierry Sengstag / Ted Slater / George Strawn / Morris A. Swertz / Mark Thompson / Johan van der Lei / Erik van Mulligen / Jan Velterop / Andra Waagmeester / Peter Wittenburg / Katherine Wolstencroft / Jun Zhao / Barend Mons: The FAIR 1744 unglaubwürdigen Erzählens. In: Unreliable Narration. Studien zur Theorie und
1614 Guiding Principles for scientific data management and stewardship. In: 1745 Praxis unglaubwürdigen Erzählens. Hg. von Ansgar Nünning / Bruno Zerweck /
1615 Scientific Data 3 (2016), Artikelnummer 160018. DOI: 10.1038/sdata.2016.18 [Nachweis im GVK] Tamar Yacobi: Fictional reliability as a communicative problem. In: Poetics 1746 Carola Surkamp. Trier 1998, S. 3–39. [Nachweis im GVK] Ansgar Nünning: Unreliable, Compared to
1616 Today 2 (1981), H. 2, S. 113–126. [Nachweis im GVK] 1747 What? Towards a Cognitive Theory of »Unreliable Narration«. Prolegomena and
1748 Hypotheses. In: Grenzüberschreitungen. Narratologie im Kontext / Transcending
1749 Boundaries. Narratology in Context. Hg. von Walter Grünzweig / Andreas Solbach.
1750 Tübingen 1999, S. 53–73. [Nachweis im GVK] Axel Pichler / Nils Reiter: Zur
1751 Operationalisierung literaturwissenschaftlicher Begriffe in der algorithmischen
1752 Textanalyse. Eine Annäherung über Norbert Altenhofers hermeneutische
1753 Modellinterpretation von Kleists Das Erdbeben in Chili. In: Journal of Literary
1754 Theory 15 (2021), H. 1–2, S. 1–29. [online] [Nachweis im GVK] Graeme Porte: Introduction. In: Replication
1755 Research in Applied Linguistics. Hg. von Graeme Porte. (= Cambridge Applied
1756 Linguistics Series). Cambridge u. a. 2012, S. 1–17.Benjamin Raue: Die Freistellung von
1757 Datenanalysen durch die neuen Text und Data Mining-Schranken. In: Zeitschrift
1758 für Urheber- und Medienrecht 56 (2021), H. 10, S. 793-802. [Nachweis im GVK] Nils Reiter: Anleitung zur Erstellung von
1759 Annotationsrichtlinien. In: Reflektierte algorithmische Textanalyse. Hg. von
1760 Nils Reiter / Axel Pichler / Jonas Kuhn. Berlin u. a. 2020, S. 193–202. DOI:
1761 10.1515/9783110693973-009 [Nachweis im GVK] Richtlinie (EU) 2019/790 des Europäischen
1762 Parlaments und des Rates vom 17. April 2019 über das Urheberrecht und die
1763 verwandten Schutzrechte im digitalen Binnenmarkt und zur Änderung der
1764 Richtlinien 96/9/EG und 2001/29/EG. [online]Anne Schiller / Simone Teufel / Christine
1765 Thielen / Christine Stöckert: Guidelines für das Tagging deutscher Textcorpora
1766 mit STTS (kleines und großes Tagset). 1999. PDF: [online] Christof Schöch / Frédéric Döhl / Achim
1767 Rettinger / Evelyn Gius / Peer Trilcke / Peter Leinen / Fotis Jannidis / Maria
1768 Hinzmann / Jörg Röpke: Abgeleitete Textformate: Text und Data Mining mit
1769 urheberrechtlich geschützten Textbeständen. In: Zeitschrift für digitale
1770 Geisteswissenschaften 5 (2020). DOI: 10.17175/2020_006Urheberrecht. UrhG, KUG, VGG.
1771 Kommentar. Hg. von Gerhard Schricker / Ulrich Loewenheim / Matthias Leistner.
1772 6. neu bearbeitete Auflage. München 2020. [Nachweis im GVK] Friederike Schruhl: Objektumgangsnormen
1773 in der Literaturwissenschaft. In: Wie Digitalität die Geisteswissenschaften
1774 verändert: Neue Forschungsgegenstände und Methoden. Hg. von Martin Huber /
1775 Sybille Krämer. Wolfenbüttel 2018. (= Sonderband der Zeitschrift für digitale
1776 Geisteswissenschaften, 3) DOI: 10.17175/sb003_012Thomas Schmidt / Johanna Dangel / Christian
1777 Wolff: SentText: A Tool for Lexicon-based Sentiment Analysis in Digital
1778 Humanities. In: Information between Data and Knowledge. Information Science and
1779 its Neighbors from Data Science to Digital Humanities. Proceedings of the 16th
1780 International Symposium of Information Science. Hg. von Christian Wolff /
1781 Thomas Schmidt. (ISI 16, Regensburg, 08–10.03.202) Glückstadt 2021, S. 156–172.
1782 DOI: 10.5283/epub.44943 [Nachweis im GVK] Torsten Steinhoff: Wissenschaftliche
1783 Textkompetenz: Sprachgebrauch und Schreibentwicklung in wissenschaftlichen
1784 Texten von Studenten und Experten. Tübingen 2007. (= Reihe Germanistische
1785 Linguistik, 280) [Nachweis im GVK] Mark D. Wilkinson / Michel Dumontier / IJsbrand
1786 Jan Aalbersberg / Gabrielle Appleton / Myles Axton / Arie Baak / Niklas
1787 Blomberg / Jan-Willem Boiten / Luiz Bonino da Silva Santos / Philip E. Bourne /
1788 Jildau Bouwman / Anthony J. Brookes / Tim Clark / Mercè Crosas / Ingrid Dillo /
1789 Olivier Dumon / Scott Edmunds / Chris T. Evelo / Richard Finkers / Alejandra
1790 Gonzalez-Beltran / Alasdair J.G. Gray / Paul Groth / Carole Goble / Jeffrey S.
1791 Grethe / Jaap Heringa / Peter A.C ’t Hoen / Rob Hooft / Tobias Kuhn / Ruben Kok
1792 / Joost Kok / Scott J. Lusher / Maryann E. Martone / Albert Mons / Abel L.
1793 Packer / Bengt Persson / Philippe Rocca-Serra / Marco Roos / Rene van Schaik /
1794 Susanna-Assunta Sansone / Erik Schultes / Thierry Sengstag / Ted Slater /
1795 George Strawn / Morris A. Swertz / Mark Thompson / Johan van der Lei / Erik van
1796 Mulligen / Jan Velterop / Andra Waagmeester / Peter Wittenburg / Katherine
1797 Wolstencroft / Jun Zhao / Barend Mons: The FAIR Guiding Principles for
1798 scientific data management and stewardship. In: Scientific Data 3 (2016),
1799 Artikelnummer 160018. DOI: 10.1038/sdata.2016.18 [Nachweis im GVK] Tamar Yacobi: Fictional reliability as a
1800 communicative problem. In: Poetics Today 2 (1981), H. 2, S. 113–126. [Nachweis im GVK]
1617 1801
1626 1810
1627 Abb. 2: Dataverse-Oberfläche für ein XSample-Manifest. Rechts unten kann die 1811 Abb. 2: Dataverse-Oberfläche für ein XSample-Manifest.
1628 Weiterleitung auf den XSample-Server angestoßen werden. [Gärtner 2021] 1812 Rechts unten kann die Weiterleitung auf den XSample-Server angestoßen werden.
1813 [Gärtner
1814 2021]
1629 1815
1630 1816
1631 Abb. 3: Startseite des XSample-Servers nach Weiterleitung aus dem zugehörigen 1817 Abb. 3: Startseite des XSample-Servers nach Weiterleitung
1632 Dataverse und Validierung der Manifest-Datei. [Gärtner 2021] 1818 aus dem zugehörigen Dataverse und Validierung der Manifest-Datei. [Gärtner 2021]
1633 1819
1634 1820
1635 Abb. 4: Grafische Oberfläche zur flexiblen Auswahl der Auszugsgrenzen. [Gärtner 2021] 1821 Abb. 4: Grafische Oberfläche zur flexiblen Auswahl der
1822 Auszugsgrenzen. [Gärtner
1823 2021]
1636 1824
1637 1825
1638 Abb. 5: Exemplarische Oberfläche 1826 Abb. 5: Exemplarische Oberfläche zur Auszugsgenerierung
1639 zur Auszugsgenerierung mittels Suchanfrage basierend auf enthaltenen 1827 mittels Suchanfrage basierend auf enthaltenen Annotationen. Die Verteilung der
1640 Annotationen. Die Verteilung der Suchergebnisse über das Korpus wird 1828 Suchergebnisse über das Korpus wird direkt visualisiert und Nutzer*innen
1641 direkt visualisiert und Nutzer*innen anschließend die Möglichkeit 1829 anschließend die Möglichkeit gegeben, die für sie relevanten Segmente exakt
1642 gegeben, die für sie relevanten Segmente exakt auszuwählen. [Gärtner 2021] 1830 auszuwählen. [Gärtner
1831 2021]
1643 1832
1646 distinktivsten Wortarten für die Unterscheidung von Philosophie und 1835 distinktivsten Wortarten für die Unterscheidung von Philosophie und
1647 Literaturwissenschaft im Sinne der SVM. Das verwendete Tagset ist das STTS 1836 Literaturwissenschaft im Sinne der SVM. Das verwendete Tagset ist das STTS (Schiller et al.
1648 (Schiller et al. 1999). [Andresen 2022] 1837 1999). [Andresen 2022]
1649 1838