Versionen vergleichen von : Vorzüge von Auszügen – Urheberrechtlich geschützte Texte in den digitalen Geisteswissenschaften (nach-)nutzen
Alt | Neu | ||
---|---|---|---|
17 | Felicitas Kleinkopf | 17 | Felicitas Kleinkopf |
18 | Kontakt: felicitas.kleinkopf@kit.eduInstitution: Karlsruher Institut für Technologie, Institut für | 18 | Kontakt: felicitas.kleinkopf@kit.eduInstitution: Karlsruher Institut für Technologie, Institut für Informations- und |
19 | Informations- und Wirtschaftsrecht, Zentrum für Angewandte | 19 | Wirtschaftsrecht, Zentrum für Angewandte Rechtswissenschaft GND: 1268974757ORCID: 0000-0001-8670-2668 |
20 | Rechtswissenschaft GND: 1268974757ORCID: 0000-0001-8670-2668 | ||
21 | Jonas Kuhn | 20 | Jonas Kuhn |
29 | 28 | ||
30 | DOI: 10.17175/2022_007 | 29 | DOI: 10.17175/2022_007 |
31 | Nachweis im OPAC der Herzog August Bibliothek: | 30 | Nachweis im OPAC der Herzog August Bibliothek: 1816418234 |
32 | Erstveröffentlichung: 03.11.2022 | 31 | Erstveröffentlichung: 03.11.2022 |
33 | Version 2.0: 22.06.2023 | ||
34 | Lizenz: Sofern nicht anders angegeben | 32 | Lizenz: Sofern nicht anders angegeben |
36 | 34 | ||
37 | Medienlizenzen: Medienrechte liegen bei den Autor*innen | 35 | Medienlizenzen: Medienrechte liegen bei den Autor*innen. |
38 | Letzte Überprüfung aller Verweise: 06.09.2022 | 36 | Letzte Überprüfung aller Verweise: 22.09.2022 |
39 | GND-Verschlagwortung: Urheberrecht | Data Mining | Infrastruktur | Open Science | Digital Humanities | Forschungsdaten | | 37 | GND-Verschlagwortung: Urheberrecht | Data Mining | Infrastruktur | Open Science | Digital Humanities | Forschungsdaten | |
40 | Empfohlene Zitierweise: Melanie Andresen, Markus Gärtner, Sibylle Hermann, Janina Jacke, Nora Ketschik, Felicitas Kleinkopf, Jonas Kuhn, Axel Pichler: Vorzüge von Auszügen – Urheberrechtlich geschützte Texte in | 38 | Empfohlene Zitierweise: Melanie Andresen, Markus Gärtner, Sibylle Hermann, Janina Jacke, Nora Ketschik, Felicitas Kleinkopf, Jonas Kuhn: Vorzüge von Auszügen – Urheberrechtlich geschützte Texte in |
41 | den digitalen Geisteswissenschaften (nach-)nutzen. In: Zeitschrift für digitale Geisteswissenschaften 7 (2022). 03.11.2022. Version 2.0 vom 22.06.2023. HTML / XML / PDF. DOI: 10.17175/2022_007_v2 | 39 | den digitalen Geisteswissenschaften (nach-)nutzen. In: Zeitschrift für digitale Geisteswissenschaften. Wolfenbüttel 2022. text/html Format. DOI: 10.17175/2022_007 |
40 | |||
42 | 41 | ||
46 | Abstract | 45 | Abstract |
47 | |||
48 | Um urheberrechtlichen Einschränkungen beim Austausch zu Forschungsergebnissen | 46 | Um urheberrechtlichen Einschränkungen beim Austausch zu Forschungsergebnissen |
73 | 71 | ||
74 | |||
75 | Version 2.0 (22.06.2023) | ||
76 | Korrekturen in Text und Fußnoten anhand der Monita in den Gutachten. Ergänzungen in | ||
77 | der Bibliografie. | ||
78 | |||
79 | |||
80 | 1. Einleitung | 72 | 1. Einleitung |
94 | 5. Fazit | 86 | 5. Fazit |
95 | | 87 | Bibliographische Angaben |
96 | Abbildungs- und Tabellenverzeichnis | 88 | Abbildungs- und Tabellenverzeichnis |
101 | [1]Die korpusorientierte Forschung an Texten und anderen Materialien in den digitalen | 93 | [1]Die korpusorientierte Forschung an Texten und anderen Materialien in den digitalen |
102 | Geisteswissenschaften[1] ist durch das | 94 | Geisteswissenschaften ist durch das deutsche Urheberrecht eingeschränkt, das die |
103 | deutsche Urheberrecht eingeschränkt, das die Weitergabe von Forschungsdaten zu | 95 | Weitergabe von Forschungsdaten zu geschützten Werken und deren Archivierung nur in |
104 | geschützten Werken und deren Archivierung nur in engen Grenzen erlaubt.[2] | 96 | engen Grenzen erlaubt.[1] Die Restriktionen erschweren die |
105 | Die Restriktionen erschweren die Einhaltung der guten wissenschaftlichen Praxis | 97 | Einhaltung der guten wissenschaftlichen Praxis sowie der FAIR-Prinzipien für Forschungsdateninfrastrukturen.[2] In |
106 | sowie der FAIR-Prinzipien für | 98 | vielen Projekten wird deshalb aus pragmatischen Gründen gänzlich darauf |
107 | Forschungsdateninfrastrukturen.[3] In vielen Projekten wird deshalb aus pragmatischen | 99 | verzichtet, urheberrechtlich geschützte Texte einzubeziehen. Nicht selten bedeutet |
108 | Gründen gänzlich darauf verzichtet, urheberrechtlich geschützte Texte | 100 | dies, dass zeitgenössische Texte – und mit ihnen bestimmte Fragestellungen – |
109 | einzubeziehen. Nicht selten bedeutet dies, dass zeitgenössische Texte – und mit | 101 | nahezu vollständig ausgeblendet werden (müssen).[3] Eine so weitreichende |
110 | ihnen bestimmte Fragestellungen – nahezu vollständig ausgeblendet werden | 102 | Beschneidung des Gegenstandsbereichs führt jedoch nicht nur zu Verzerrungen der |
111 | (müssen).[4] Eine so weitreichende Beschneidung des | ||
112 | Gegenstandsbereichs führt jedoch nicht nur zu Verzerrungen der | ||
113 | Forschungslandschaft, die aus geisteswissenschaftlich-fachlichen Gründen | 103 | Forschungslandschaft, die aus geisteswissenschaftlich-fachlichen Gründen |
114 | problematisch sind, sie hat häufig auch zur Folge, dass sich die Entwicklung | 104 | problematisch sind, sie hat häufig auch zur Folge, dass sich die Entwicklung |
115 | algorithmischer Verfahren mit sehr kleinen Datensätzen und / oder einer | 105 | algorithmischer Verfahren mit sehr kleinen Datensätzen und / oder einer heterogenen |
116 | | 106 | Kombination von Quellen behelfen muss. |
117 | [2]Selbstverständlich besteht für Forscher*innen die Möglichkeit, für die Forschung | 107 | [2]Selbstverständlich besteht für Forscher*innen die Möglichkeit, für die Forschung |
138 | Reihe von digitalen Analyseverfahren geeignet sind, die den Text jedoch aus | 128 | Reihe von digitalen Analyseverfahren geeignet sind, die den Text jedoch aus |
139 | urheberrechtlicher Perspektive hinreichend verfremden.[ | 129 | urheberrechtlicher Perspektive hinreichend verfremden.[4] Diese abgeleiteten Textformate halten beispielsweise |
140 | Textsegmente wie Kapitel oder Abschnitte lediglich die Häufigkeit der | 130 | für Textsegmente wie Kapitel oder Abschnitte lediglich die Häufigkeit der |
141 | Einzelwörter oder n-Gramme (also kurzen | 131 | enthaltenen Einzelwörter oder n-Gramme (also kurzen |
142 | fest. Gängige Verfahren der Makroanalyse,[ | 132 | Wortsequenzen) fest. Gängige Verfahren der Makroanalyse,[5] die etwa lexikalische Indikatoren für die Dynamik |
143 | heranziehen, können auf dieser Basis zur Anwendung kommen. Der | 133 | des Textverlaufs heranziehen, können auf dieser Basis zur Anwendung kommen. Der |
144 | wird dabei durch den Aufbruch der Textstruktur aufgehoben, | 134 | Urheberrechtsschutz wird dabei durch den Aufbruch der Textstruktur aufgehoben, |
145 | zur Archivierung, Weitergabe und Veröffentlichung der | 135 | sodass Restriktionen zur Archivierung, Weitergabe und Veröffentlichung der |
146 | Tragen kommen. Das Konzept der abgeleiteten Textformate | 136 | Datensätze nicht mehr zum Tragen kommen. Das Konzept der abgeleiteten Textformate |
147 | Beitrag zur Replizierbarkeit von Forschung und | 137 | leistet somit einen großen Beitrag zur Replizierbarkeit von Forschung und |
148 | Forschungsdaten. | 138 | Nachnutzbarkeit von Forschungsdaten. |
149 | [5]Allerdings stößt das Konzept der abgeleiteten Formate dort an seine Grenzen, wo | 139 | [5]Allerdings stößt das Konzept der abgeleiteten Formate dort an seine Grenzen, wo |
158 | der komplementär zum Konzept der abgeleiteten Textformate eingesetzt werden kann | 148 | der komplementär zum Konzept der abgeleiteten Textformate eingesetzt werden kann |
159 | (vgl. Abbildung 1). | 149 | (vgl. Abbildung 1). Dieser |
160 | | 150 | Ansatz nutzt das bestehende Recht zur Weitergabe von prozentual begrenzten |
161 | Auszügen geschützter Werke zu Zwecken der wissenschaftlichen Forschung (§ 60c | 151 | Auszügen geschützter Werke zu Zwecken der wissenschaftlichen Forschung (§ 60c |
162 | und überträgt dies auf die Herausgabe von Korpusauszügen. Der erlaubte | 152 | UrhG) und überträgt dies auf die Herausgabe von Korpusauszügen. Der erlaubte |
163 | dieser Auszüge beträgt zwar in der Regel nur 15 Prozent eines Werks, der | 153 | Umfang dieser Auszüge beträgt zwar in der Regel nur 15 Prozent eines Werks, der |
164 | XSample-Ansatz ermöglicht jedoch eine dynamische, auf das individuelle | 154 | XSample-Ansatz ermöglicht jedoch eine dynamische, auf das individuelle |
167 | vorhandenen Annotationen genau spezifizieren, welche Teile des Korpus für sie | 157 | vorhandenen Annotationen genau spezifizieren, welche Teile des Korpus für sie |
168 | relevant sind. Dabei stellt der XSample-Ansatz sicher, dass die geschützten | 158 | relevant sind. Auf diese Weise werden die rechtlichen Möglichkeiten in einer |
169 | Primärdaten bei der Modellierung der Suchanfrage für die Nachnutzer*innen nicht | ||
170 | einsehbar sind. Auf diese Weise werden die rechtlichen Möglichkeiten in einer | ||
171 | zielführenden Art und Weise ausgeschöpft und nachhaltige Forschung mit | 159 | zielführenden Art und Weise ausgeschöpft und nachhaltige Forschung mit |
190 | [7]Der vorliegende Beitrag geht in Kapitel 2 | 178 | [7]Der vorliegende Beitrag geht in Kapitel 2 |
191 | zunächst auf die rechtlichen Grundlagen ein, die für Verfahren des Text- und Data-Mining (TDM)[ | 179 | zunächst auf die rechtlichen Grundlagen ein, die für Verfahren des Text- und Data-Mining (TDM)[6] gelten und die Rahmenbedingungen für das hier präsentierte |
192 | Auszugskonzept schaffen. Kapitel 3 stellt | 180 | Auszugskonzept schaffen. Kapitel 3 stellt |
194 | innerhalb des rechtlichen Rahmens technisch umgesetzt werden kann. Dabei werden | 182 | innerhalb des rechtlichen Rahmens technisch umgesetzt werden kann. Dabei werden |
195 | insbesondere die unterschiedlichen Akteur*innen in den Blick genommen sowie | 183 | insbesondere die unterschiedlichen Akteur*innen in den Blick genommen sowie Schritte |
196 | Schritte der Datenvorbereitung und verschiedene Möglichkeiten der | 184 | der Datenvorbereitung und verschiedene Möglichkeiten der Auszugsgenerierung |
197 | Auszugsgenerierung vorgestellt. Anschließend werden in Kapitel 4 zwei Nutzungsszenarien präsentiert, die im | 185 | vorgestellt. Anschließend werden in Kapitel |
198 | Kontext konkreter Forschungsfragen ausführen, inwieweit abgeleitete Textformate | 186 | 4 zwei Nutzungsszenarien präsentiert, die im Kontext konkreter |
199 | und / oder das Auszugskonzeptkonzept für die Reproduktion ihrer Forschung und die | 187 | Forschungsfragen ausführen, inwieweit abgeleitete Textformate und / oder das |
200 | Nachnutzung ihrer Daten praktikabel sind. Das erste Nutzungsszenario widmet sich | 188 | Auszugskonzeptkonzept für die Reproduktion ihrer Forschung und die Nachnutzung |
201 | der Wissenschaftssprache der geisteswissenschaftlichen Fächer | 189 | ihrer Daten praktikabel sind. Das erste Nutzungsszenario widmet sich der |
202 | Literaturwissenschaft, Linguistik und Philosophie und erstellt dazu ein Korpus aus | 190 | Wissenschaftssprache der geisteswissenschaftlichen Fächer Literaturwissenschaft, |
203 | insgesamt 135 urheberrechtlich geschützten Zeitschriftenartikeln. Das zweite | 191 | Linguistik und Philosophie und erstellt dazu ein Korpus aus insgesamt 135 |
204 | Nutzungsszenario beschäftigt sich mit dem Phänomen des unzuverlässigen Erzählens, | 192 | urheberrechtlich geschützten Zeitschriftenartikeln. Das zweite Nutzungsszenario |
205 | das in einem ersten Zugang anhand eines Korpus aus acht deutschsprachigen | 193 | beschäftigt sich mit dem Phänomen des unzuverlässigen Erzählens, das in einem |
206 | fiktionalen Erzählungen aus dem 19. bis zum 21. Jahrhundert untersucht wird, die | 194 | ersten Zugang anhand eines Korpus aus acht deutschsprachigen fiktionalen |
207 | teilweise dem Urheberrecht unterliegen. Nach Abschluss der Forschung sollen die | 195 | Erzählungen aus dem 19. bis zum 21. Jahrhundert untersucht wird, die teilweise dem |
208 | Daten für die Überprüfung der Ergebnisse und zur Nachnutzung in weiteren Projekten | 196 | Urheberrecht unterliegen. Nach Abschluss der Forschung sollen die Daten für die |
209 | zur Verfügung gestellt werden. Das Fazit in Kapitel 5 fasst die Ergebnisse zusammen und leitet praktische | 197 | Überprüfung der Ergebnisse und zur Nachnutzung in weiteren Projekten zur Verfügung |
210 | Handlungsempfehlungen und Desiderate ab. | 198 | gestellt werden. Das Fazit in Kapitel 5 |
199 | fasst die Ergebnisse zusammen und leitet praktische Handlungsempfehlungen und | ||
200 | Desiderate ab. | ||
211 | 201 | ||
220 | im Juni 2021, als die Richtlinie zum Urheberrecht im digitalen | 210 | im Juni 2021, als die Richtlinie zum Urheberrecht im digitalen |
221 | Binnenmarkt (Digital Single Market-, kurz DSM-Richtlinie) im Urheberrechtsgesetz (UrhG) umgesetzt wurde. Um einen kurzen | 211 | Binnenmarkt (Digital Single Market-, kurz DSM-Richtlinie) im Urheberrechtsgesetz (UrhG) umgesetzt wurde. Um einen kurzen Überblick |
222 | Überblick über die Entwicklung der Gesetzeslage zu geben, wird nachfolgend (Kapitel 2.1) skizziert, in welchem Umfang | 212 | über die Entwicklung der Gesetzeslage zu geben, wird nachfolgend (Kapitel 2.1) skizziert, in welchem Umfang |
223 | Vervielfältigungen (§ 16 UrhG) und | 213 | Vervielfältigungen (§ 16 UrhG) und öffentliche Zugänglichmachungen (§ 19a UrhG) |
224 | öffentliche Zugänglichmachungen (§ 19a UrhG) | ||
225 | für die Erstellung und (gemeinsame) Beforschung von Korpora im Kontext von TDM in | 214 | für die Erstellung und (gemeinsame) Beforschung von Korpora im Kontext von TDM in |
226 | den verschiedenen Gesetzesfassungen erlaubt waren bzw. sind.[ | 215 | den verschiedenen Gesetzesfassungen erlaubt waren bzw. sind.[7] Daran anschließend werden Fragen nach der |
227 | Zugänglichmachung und Nachnutzbarkeit von Korpora sowie mögliche Lösungsansätze | 216 | Zugänglichmachung und Nachnutzbarkeit von Korpora sowie mögliche Lösungsansätze |
241 | enthalten, sein Werk zu vervielfältigen und es öffentlich zugänglich zu machen. | 230 | enthalten, sein Werk zu vervielfältigen und es öffentlich zugänglich zu machen. |
242 | Eine ausdrückliche Erlaubnis[ | 231 | Eine ausdrückliche Erlaubnis[8] dieser Handlungen |
243 | wurde im Jahr 2018 durch das Gesetz zur Angleichung des Urheberrechts an die | 232 | wurde im Jahr 2018 durch das Gesetz zur Angleichung des Urheberrechts an die |
255 | [10]Aufgrund des Gesetzes zum Urheberrecht im digitalen | 244 | [10]Aufgrund des Gesetzes zum Urheberrecht im digitalen |
256 | Binnenmarkt vom 7. Juni 2021[10] hat | 245 | Binnenmarkt vom 7. Juni 2021[9] hat sich der |
257 | sich der Rechtsrahmen ein weiteres Mal verändert. Seitdem darf Forschung mit | 246 | Rechtsrahmen ein weiteres Mal verändert. Seitdem darf Forschung mit TDM auch zu |
258 | TDM auch zu anderen Zwecken als zur nicht-kommerziellen wissenschaftlichen | 247 | anderen Zwecken als zur nicht-kommerziellen wissenschaftlichen Forschung (diese |
259 | Forschung (diese ist weiterhin in § 60d UrhG geregelt), z. B. in Unternehmen | 248 | ist weiterhin in § 60d UrhG geregelt), z. B. in Unternehmen oder in der Presse, |
260 | oder in der Presse, praktiziert werden, wenn auch in eingeschränktem Umfang | 249 | praktiziert werden, wenn auch in eingeschränktem Umfang (§ 44b UrhG). Die |
261 | (§ 44b | 250 | Erlaubnis ist dabei nach wie vor an den rechtmäßigen Zugang gebunden. Dieser |
262 | UrhG).[11] Die Erlaubnis ist | 251 | rechtmäßige Zugang liegt dann vor, wenn die genutzten Texte in Buchform |
263 | dabei nach wie vor an den rechtmäßigen Zugang gebunden. Dieser rechtmäßige | 252 | vorliegen, im Internet frei abrufbar sind oder als E-Books lizenziert |
264 | Zugang liegt dann vor, wenn die genutzten Texte in Buchform vorliegen, im | 253 | wurden.[10] § 60d |
265 | Internet frei abrufbar sind oder als E-Books lizenziert wurden.[12] Neu ist auch, dass | 254 | UrhG wurde außerdem um Befugnisse zugunsten von sogenannten |
266 | jedenfalls für Vervielfältigungen im Rahmen von TDM nunmehr keine Vergütung | 255 | Kulturerbe-Einrichtungen erweitert. Neu ist auch, dass jedenfalls für |
267 | mehr anfällt (§ 60h Abs. 2 Nr. 3 UrhG). Diese war zuvor durch die jeweiligen | 256 | Vervielfältigungen im Rahmen von TDM nunmehr keine Vergütung mehr anfällt |
268 | Einrichtungen zu tragen. | 257 | (§ 60h Abs. 2 Nr. 3 UrhG). Diese war zuvor durch die jeweiligen Einrichtungen |
258 | zu tragen. | ||
269 | 259 | ||
271 | 261 | ||
272 | [11]§ 60d UrhG in seiner aktuellen Fassung erlaubt t es bestimmten privilegierten | 262 | [11]§ 60d UrhG in seiner aktuellen Fassung erlaubt es u. a. Forschungs- und |
273 | Personenkreisen und Einrichtungen, vollständige Werke zu Zwecken des TDM zu | 263 | sogenannten Kulturerbe-Einrichtungen, dazu zählen auch die in diesem Aufsatz |
274 | vervielfältigen (Abs. 1 bis 3) und die Vervielfältigungen (d. h. nicht die | 264 | adressierten Forschungsinfrastruktureinrichtungen, vollständige Werke zu |
275 | unveränderten Ursprungsmaterialien) für die gemeinsame wissenschaftliche | 265 | Zwecken des TDM zu vervielfältigen (Abs. 1 bis 3) und die Vervielfältigungen |
276 | Forschung bestimmt abgegrenzten Personenkreisen sowie einzelnen Dritten zur | 266 | (d. h. nicht die unveränderten Ursprungsmaterialien) für die gemeinsame |
277 | Überprüfung der wissenschaftlichen Forschung öffentlich zugänglich zu machen | 267 | wissenschaftliche Forschung bestimmt abgegrenzten Personenkreisen sowie |
278 | (Abs. 4 S. 1). Im Gegensatz zu seiner Vorgängernorm knüpft § 60d UrhG in seiner | 268 | einzelnen Dritten zur Überprüfung der wissenschaftlichen Forschung öffentlich |
279 | neuen Fassung nicht allgemein an nicht-kommerzielle wissenschaftliche | 269 | zugänglich zu machen (Abs. 4 S. 1). Die Zugänglichmachung ist jeweils zu |
280 | Zwecke[13] an, sondern | 270 | beenden, wenn die gemeinsame Forschung oder die Überprüfung abgeschlossen ist |
281 | berechtigt Forschungsorganisationen (Hochschulen, Forschungsinstitute und | 271 | (Abs. 4 S. 2). |
282 | sonstige Einrichtungen, die wissenschaftliche Forschung betreiben, hierzu | ||
283 | zählen auch die in diesem Beitrag adressierten | ||
284 | Forschungsinfrastruktureinrichtungen), sofern diese 1. nicht kommerzielle | ||
285 | Zwecke verfolgen, 2. sämtliche Gewinne in die Forschung reinvestieren oder 3. | ||
286 | im Rahmen eines staatlich anerkannten Auftrags im öffentlichen Interesse tätig | ||
287 | sind. Public-Private-Partnerships, d. h. Kooperationen mit privaten | ||
288 | Unternehmen, sind nur dann erfasst, wenn letztere keinen bestimmenden Einfluss | ||
289 | auf die Forschungsorganisation haben und keinen bevorzugten Zugang zu den | ||
290 | Forschungsergebnissen erhalten (§ 60d Abs. 2 S. 3 UrhG). § 60d Abs. 3 Nr. 1 | ||
291 | UrhG benennt nunmehr auch ausdrücklich sogenannte Kulturerbe-Einrichtungen wie | ||
292 | Bibliotheken, Museen, Archive und Einrichtungen im Bereich des Ton- und | ||
293 | Filmerbes, wobei hier nicht an nicht-kommerzielle Zwecke, sondern an ihre | ||
294 | öffentliche Zugänglichkeit angeknüpft wird. Individualforscher*innen sind | ||
295 | weiterhin unter der Voraussetzung, dass sie nicht-kommerzielle Zwecke | ||
296 | verfolgen, erfasst (§ 60d Abs. 3 Nr. 2 UrhG). Die öffentliche Zugänglichmachung | ||
297 | steht unter der Voraussetzung der nicht-kommerziellen Zwecke, sodass auch die | ||
298 | öffentlich zugänglichen Kulturerbe-Einrichtungen diese letztlich beachten | ||
299 | müssen, um vom vollen Umfang der Erlaubnisse des § 60d UrhG zu profitieren. Die | ||
300 | Zugänglichmachung ist jeweils zu beenden, wenn die gemeinsame Forschung oder | ||
301 | die Überprüfung abgeschlossen ist (Abs. 4 S. 2). | ||
302 | [12]Die Befugnis zur Weitergabe der Korpora während der Forschungsarbeiten ist also | 272 | [12]Die Befugnis zur Weitergabe der Korpora während der Forschungsarbeiten ist also |
308 | Öffentlichkeit angehören, d. h. zu denen keine persönliche Beziehung existiert, | 278 | Öffentlichkeit angehören, d. h. zu denen keine persönliche Beziehung existiert, |
309 | vgl. § 15 Abs. | 279 | vgl. § 15 Abs. 3 UrhG, und die einer »unbestimmten Zahl potentieller |
310 | 3 UrhG, und die einer »unbestimmten Zahl potentieller | ||
311 | Adressaten« und einer »ziemlich großen Zahl von | 280 | Adressaten« und einer »ziemlich großen Zahl von |
312 | Personen« angehören.[ | 281 | Personen« angehören.[11] Die Erlaubnis, |
313 | | 282 | Korpora während der TDM-Forschungsarbeiten weiterzugeben (§ 60d Abs. 4 S. 1 |
314 | | 283 | UrhG), bezieht sich hingegen nur auf bestimmt abgegrenzte, d. h. weiter |
315 | eingegrenzte Personenkreise, die der Öffentlichkeit angehören. Bei | 284 | eingegrenzte Personenkreise, die der Öffentlichkeit angehören. Bei |
316 | Forschungsgruppen handelt es sich in der Regel nicht um eine | 285 | Forschungsgruppen handelt es sich in der Regel nicht um eine |
317 | Öffentlichkeit,[ | 286 | Öffentlichkeit,[12] |
318 | es auf diese Erlaubnis in den meisten Fällen nicht ankommt. | 287 | weswegen es auf diese Erlaubnis in den meisten Fällen nicht ankommt. |
319 | [13]Die TDM-Korpora dürfen gemäß § 60d UrhG so lange aufbewahrt werden, wie es für | 288 | [13]Die TDM-Korpora dürfen gemäß § 60d UrhG so lange aufbewahrt werden, wie es für |
321 | im Regelfall die von der guten wissenschaftlichen Praxis geforderten zehn | 290 | im Regelfall die von der guten wissenschaftlichen Praxis geforderten zehn |
322 | Jahre,[16] sie kann im Einzelfall aber auch kürzer oder länger | 291 | Jahre,[13] sie kann im Einzelfall aber auch kürzer oder länger bemessen |
323 | bemessen sein. Aufgrund der Wissenschaftsfreiheit unterliegt die Einschätzung | 292 | sein. Aufgrund der Wissenschaftsfreiheit unterliegt die Einschätzung der |
324 | der Aufbewahrungsdauer den Forschenden und ist nur eingeschränkt | 293 | Aufbewahrungsdauer den Forschenden und ist nur eingeschränkt überprüfbar.[14] |
325 | überprüfbar.[17] | ||
326 | [14]Eine Erlaubnis, die Korpora zur Aufbewahrung an | 294 | [14]Eine Erlaubnis, die Korpora zur Aufbewahrung an |
329 | Auslegung aus der Gesetzesbegründung abgeleitet werden, denn diese scheint von | 297 | Auslegung aus der Gesetzesbegründung abgeleitet werden, denn diese scheint von |
330 | einer Aufbewahrung durch Kulturerbe-Einrichtungen auszugehen:[ | 298 | einer Aufbewahrung durch Kulturerbe-Einrichtungen auszugehen:[15] »Hiernach kann auch eine dauerhafte Speicherung erforderlich und folglich |
331 | zulässig sein, insbesondere, wenn sie durch Kulturerbe-Einrichtungen und | 299 | zulässig sein, insbesondere, wenn sie durch Kulturerbe-Einrichtungen und |
332 | nicht durch die Forschungseinrichtung selbst erfolgt«.[19] Möglich ist aber in | 300 | nicht durch die Forschungseinrichtung selbst erfolgt«.[16] Möglich ist aber in jedem |
333 | jedem Fall, die TDM-Projekte gleich von Beginn an auf zentralen | 301 | Fall, die TDM-Projekte gleich von Beginn an auf zentralen Bibliotheksservern |
334 | Bibliotheksservern bzw. einrichtungsübergreifenden Servern anzusiedeln, sodass | 302 | bzw. einrichtungsübergreifenden Servern anzusiedeln, sodass dort die |
335 | dort die Archivierung ohne eine gesonderte Übermittlung erfolgen kann. Dann | 303 | Archivierung ohne eine gesonderte Übermittlung erfolgen kann. Dann bewegt man |
336 | bewegt man sich im Rahmen dessen, was die Gesetzesbegründung ausdrücklich | 304 | sich im Rahmen dessen, was die Gesetzesbegründung ausdrücklich enthält, und |
337 | enthält, und vermeidet gleichzeitig, das Korpus erneut zu vervielfältigen (§ 16 | 305 | vermeidet gleichzeitig, das Korpus erneut zu vervielfältigen (§ 16 UrhG). |
338 | UrhG). | ||
339 | [15]Unklar ist aber weiterhin, ob zu Zwecken von Anschlussforschungen auf die | 306 | [15]Unklar ist aber weiterhin, ob zu Zwecken von Anschlussforschungen auf die |
340 | Korpora zugegriffen werden kann. Gemäß § 60d Abs. 5 UrhG dürfen die Korpora | 307 | Korpora zugegriffen werden kann. Gemäß § 60d Abs. 5 UrhG dürfen die Korpora |
341 | (nach dem Gesetz jedoch nicht die unveränderten Ursprungsdaten)[ | 308 | (nach dem Gesetz jedoch nicht die unveränderten Ursprungsdaten)[17] so lange aufbewahrt |
342 | es für Zwecke der Überprüfung der Qualität der wissenschaftlichen | 309 | werden, wie es für Zwecke der Überprüfung der Qualität der wissenschaftlichen |
343 | oder für die Forschung selbst erforderlich ist. Das impliziert, dass | 310 | Forschung oder für die Forschung selbst erforderlich ist. Das impliziert, dass |
344 | abseits der Überprüfung wissenschaftliches Interesse an den Korpora | 311 | es auch abseits der Überprüfung wissenschaftliches Interesse an den Korpora |
345 | Auch die DSM-Richtlinie setzt voraus, dass nach Abschluss der | 312 | geben kann. Auch die DSM-Richtlinie setzt voraus, dass nach Abschluss der |
346 | Forschungsarbeiten bzw. während der Langzeitarchivierung noch Interesse an | 313 | Forschungsarbeiten bzw. während der Langzeitarchivierung noch Interesse an |
347 | weiterer Beforschung der Korpora bestehen kann:[21] »Die Nutzung zum Zwecke der wissenschaftlichen Forschung außerhalb des | 314 | weiterer Beforschung der Korpora bestehen kann:[18] »Die Nutzung zum Zwecke der wissenschaftlichen |
348 | Text und Data Mining, etwa die Begutachtung unter wissenschaftlichen | 315 | Forschung außerhalb des Text und Data Mining, etwa die Begutachtung unter |
349 | Fachkollegen und gemeinsame Forschungsarbeiten, sollte nach wie vor unter | 316 | wissenschaftlichen Fachkollegen und gemeinsame Forschungsarbeiten, sollte |
350 | die Ausnahme oder Beschränkung im Sinne von Artikel 5 Absatz 3 Buchstabe a | 317 | nach wie vor unter die Ausnahme oder Beschränkung im Sinne von Artikel 5 |
351 | der Richtlinie 2001/29/EG fallen, sofern diese Bestimmung anwendbar | 318 | Absatz 3 Buchstabe a der Richtlinie 2001/29/EG fallen, sofern diese |
352 | ist.«[22] Für eine | 319 | Bestimmung anwendbar ist.«[19] |
320 | [16]Für eine | ||
353 | Nachnutzung der Korpora kommen neben den von Schöch et al. vorgestellten | 321 | Nachnutzung der Korpora kommen neben den von Schöch et al. vorgestellten |
354 | abgeleiteten Textformaten sogenannte Closed-Room-Zugänge[ | 322 | abgeleiteten Textformaten sogenannte Closed-Room-Zugänge[20] (§§ 60e Abs. 4, |
355 | und die Erlaubnis der auszugsweisen Nutzung zu Zwecken der | 323 | 60f UrhG) und die Erlaubnis der auszugsweisen Nutzung zu Zwecken der |
356 | Forschung (§ 60c UrhG) in Betracht. Nachfolgend werden diese | 324 | wissenschaftlichen Forschung (§ 60c UrhG) in Betracht. Nachfolgend werden diese |
357 | dargestellt und gegeneinander abgewogen. | 325 | beiden Optionen dargestellt und gegeneinander abgewogen. |
358 | [ | 326 | [17]§§ 60e Abs. 4, 60f UrhG erlauben es Bibliotheken und anderen |
359 | Kulturerbe-Einrichtungen wie öffentlich zugänglichen Museen, ihren Nutzer*innen | 327 | Kulturerbe-Einrichtungen wie öffentlich zugänglichen Museen, ihren Nutzer*innen |
360 | Werke aus ihrem Bestand an Terminals in ihren Räumen für deren Forschung oder | 328 | Werke aus ihrem Bestand an Terminals in ihren Räumen für deren Forschung oder |
361 | private Studien zugänglich zu machen (sogenannte Terminal-Schranke). Die Nutzer*innen dürfen sogenannte Anschlusskopien[ | 329 | private Studien zugänglich zu machen (sogenannte Terminal-Schranke). Die Nutzer*innen dürfen sogenannte Anschlusskopien[21] im Umfang von zehn Prozent erstellen. Einzelne Werke geringen |
362 | Umfangs[ | 330 | Umfangs[22] wie Beiträge aus |
363 | wissenschaftlichen Zeitschriften dürfen hingegen vollständig genutzt werden. | 331 | wissenschaftlichen Zeitschriften dürfen hingegen vollständig genutzt werden. |
367 | UrhG ist gleichwohl, dass jedenfalls der erste Zugriff auf die Werke nur an | 335 | UrhG ist gleichwohl, dass jedenfalls der erste Zugriff auf die Werke nur an |
368 | Terminals vor Ort erfolgen kann (sogenannte Closed- | 336 | Terminals vor Ort erfolgen kann (sogenannte Closed-room-Zugänge).[23] |
369 | [ | 337 | [18]Anders verhält es sich mit § 60c UrhG, der Erlaubnisnorm für Zwecke der |
370 | nicht-kommerziellen wissenschaftlichen Forschung, auf den sich das hier | 338 | nicht-kommerziellen wissenschaftlichen Forschung, auf den sich das hier |
378 | gerechtfertigt ist« vorzusehen. | 346 | gerechtfertigt ist« vorzusehen. |
379 | [ | 347 | [19]§ 60c Abs. 1 Nr. 1 UrhG erlaubt es, zu Zwecken der nicht-kommerziellen |
380 | wissenschaftlichen Forschung bis zu 15 Prozent von Werken und auch vollständige | 348 | wissenschaftlichen Forschung bis zu 15 Prozent von Werken und auch vollständige |
386 | erlaubt ist allerdings, Werke für eine gesamte Einrichtung frei abrufbar zu | 354 | erlaubt ist allerdings, Werke für eine gesamte Einrichtung frei abrufbar zu |
387 | machen.[27] Die | 355 | stellen.[24] |
388 | nicht-kommerziellen Zwecke können auch bei Drittmittelforschung sowie dann | 356 | [20]Wenn Forschende also nach § 60c UrhG Texte auszugsweise zur Nachnutzung |
389 | vorliegen, wenn Forschende ihre Ergebnisse in einem Verlag veröffentlichen und | ||
390 | Honorare erhalten, kommerzielle Zwecke sind aber jedenfalls dann anzunehmen, | ||
391 | wenn Forschung betrieben wird, um Waren oder Dienstleistungen zu entwickeln und | ||
392 | diese zu vermarkten.[28] Entscheidend ist bei der | ||
393 | Bestimmung der nicht-kommerziellen Zwecke nicht die organisatorische | ||
394 | Einrichtung oder Finanzierung, sondern, ob die jeweilige Nutzung auf | ||
395 | Gewinnerzielung ausgerichtet ist.[29] | ||
396 | [19]Wenn Forschende also nach § 60c UrhG Texte auszugsweise zur Nachnutzung | ||
397 | erhalten und diese anschließend für TDM im Sinne des § 60d UrhG nutzen, werden | 357 | erhalten und diese anschließend für TDM im Sinne des § 60d UrhG nutzen, werden |
399 | einerseits der InfoSoc-Richtlinie und andererseits der DSM-Richtlinie), | 359 | einerseits der InfoSoc-Richtlinie und andererseits der DSM-Richtlinie), |
400 | miteinander kombiniert. Das ist rechtlich möglich.[ | 360 | miteinander kombiniert. Das ist rechtlich möglich.[25] |
401 | [ | 361 | [21]Daneben entspricht die Nachnutzbarkeit auf Grundlage des § 60c UrhG auch den |
402 | Interessen der Urheber*innen, das gilt insbesondere deswegen, weil § 60c UrhG | 362 | Interessen der Urheber*innen, das gilt insbesondere deswegen, weil § 60c UrhG |
403 | vergütungspflichtig ist (§ 60h UrhG) und dadurch ein finanzieller Ausgleich für | 363 | vergütungspflichtig ist (§ 60h UrhG) und dadurch ein finanzieller Ausgleich für |
404 | die Rechteinhaber*innen hergestellt wird, schließlich ist für eine Nutzung | 364 | die Rechteinhaber*innen hergestellt wird, schließlich ist für eine Nutzung gemäß |
405 | | 365 | § 60d UrhG ein rechtmäßiger Zugang erforderlich, der zumeist einen finanziellen |
406 | | 366 | Ausgleich für den*die Urheber*in enthält. § 60c UrhG setzt diesen rechtmäßigen Zugang |
407 | | 367 | allerdings nicht voraus. Die Vergütung stellt also einen Ausgleich der |
408 | | 368 | urheberrechtlichen Interessen her. Insgesamt ermöglicht § 60c UrhG insofern |
409 | | 369 | eine flexiblere Korpus-Nachnutzung als §§ 60e Abs. 4, 60f UrhG, weswegen sich |
410 | | 370 | das in XSample entwickelte Konzept auf § 60c UrhG stützt. |
411 | 371 | ||
413 | 373 | ||
414 | [ | 374 | [22]Zusammenfassend orientiert sich das hier vorgestellte Auszugskonzept an |
415 | folgenden rechtlichen Einschränkungen, die von | 375 | folgenden rechtlichen Einschränkungen, die von |
416 | Forschungsinfrastruktureinrichtungen, die Korpora mit geschützten Texten | 376 | Forschungsinfrastruktureinrichtungen, die Korpora mit geschützten Texten bereitstellen möchten, zu prüfen sind: |
417 | bereitstellen möchten, zu prüfen sind: | 377 | [23]Einbeziehung der Forschungsinfrastruktureinrichtungen: |
418 | [22]Einbeziehung der Forschungsinfrastruktureinrichtungen: | ||
419 | Forschungsinfrastruktureinrichtungen, die die Korpora aufbewahren und | 378 | Forschungsinfrastruktureinrichtungen, die die Korpora aufbewahren und |
421 | integriert werden. | 380 | integriert werden. |
422 | [ | 381 | [24]Aufbewahrungsdauer: Forscher*innen, die die Korpora |
423 | bereitstellen möchten, sollten eine der Forschung angemessenen | 382 | bereitstellen möchten, sollten eine der Forschung angemessenen |
424 | Aufbewahrungsdauer für die Korpora vorschlagen. Wenn diese von den von der DFG | 383 | Aufbewahrungsdauer für die Korpora vorschlagen. Wenn diese von den von der DFG |
425 | vorgeschlagenen zehn Jahren[ | 384 | vorgeschlagenen zehn Jahren[26] abweicht, |
426 | erfolgen. | 385 | sollte eine explizite Begründung erfolgen. |
427 | [ | 386 | [25]Inhalt der Korpora: Die gespeicherten und gegebenenfalls |
428 | bereitgestellten Korpora dürfen nicht die unveränderten Ursprungsdaten | 387 | bereitgestellten Korpora dürfen nicht die unveränderten Ursprungsdaten |
430 | Lizenzen erworben. | 389 | Lizenzen erworben. |
431 | [25]Nachnutzung: Nachnutzer*innen müssen nicht-kommerzielle, | 390 | [26]Nachnutzung: Nachnutzer*innen müssen nicht-kommerzielle, |
432 | wissenschaftliche Zwecke verfolgen. Die Verifizierung kann dadurch erfolgen, | 391 | wissenschaftliche Zwecke verfolgen. Die Korpusauszüge dürfen nur bestimmt |
433 | dass Interessierte sich in Bezug auf die Zugehörigkeit zu einer | ||
434 | Forschungseinrichtung verifizieren und zudem versichern, die Daten nur für die | ||
435 | nicht-kommerzielle wissenschaftliche Forschung zu verwenden.[32] Die Korpusauszüge dürfen nur bestimmt | ||
436 | abgegrenzten Personenkreisen zugänglich gemacht werden, d. h. auf individuelle | 392 | abgegrenzten Personenkreisen zugänglich gemacht werden, d. h. auf individuelle |
437 | Anfrage. | 393 | Anfrage. |
438 | [ | 394 | [27]Umfang der Korpusauszüge: Korpusauszüge dürfen maximal |
439 | 15 Prozent ganzer Werke betragen, kurze Werke wie z. B. Aufsätze aus | 395 | 15 Prozent ganzer Werke betragen, kurze Werke wie z. B. Aufsätze aus |
445 | 401 | ||
446 | [ | 402 | [28]Wie im vorigen Kapitel beschrieben, bedient |
447 | sich der in XSample verfolgte Ansatz der rechtlichen Erlaubnis, Auszüge bis zu | 403 | sich der in XSample verfolgte Ansatz der rechtlichen Erlaubnis, Auszüge bis zu |
452 | umrissen. Hierfür werden zunächst die Workflow-Akteur*innen (Kapitel 3.1) und die im Workflow eingesetzten | 408 | umrissen. Hierfür werden zunächst die Workflow-Akteur*innen (Kapitel 3.1) und die im Workflow eingesetzten |
453 | Serverkomponenten (Kapitel 3.2) | 409 | Serverkomponenten (Kapitel 3.2) vorgestellt. |
454 | vorgestellt. Im Anschluss werden die Vorbereitungsschritte für die Erstellung | 410 | Im Anschluss werden die Vorbereitungsschritte für die Erstellung eines Auszugs |
455 | eines Auszugs (Kapitel 3.3) sowie | 411 | (Kapitel 3.3) sowie verschiedene |
456 | verschiedene Möglichkeiten der Auszugsgenerierung (Kapitel 3.4) erläutert. Für letztere liegt der Fokus auf | 412 | Möglichkeiten der Auszugsgenerierung (Kapitel |
457 | der Verwendung im Korpus enthaltener Annotationen, um mittels Suchanfragen Auszüge | 413 | 3.4) erläutert. Für letztere liegt der Fokus auf der Verwendung im Korpus |
458 | zu erhalten, die optimal auf die Bedürfnisse der Nachnutzer*innen zugeschnitten | 414 | enthaltener Annotationen, um mittels Suchanfragen Auszüge zu erhalten, die optimal |
459 | sind. Abschließend wird die Nachhaltigkeit und Nachnutzbarkeit der hier | 415 | auf die Bedürfnisse der Nachnutzer*innen zugeschnitten sind. Abschließend wird die |
460 | vorgestellten Infrastruktur thematisiert (Kapitel 3.5). | 416 | Nachhaltigkeit und Nachnutzbarkeit der hier vorgestellten Infrastruktur |
417 | thematisiert (Kapitel 3.5). | ||
461 | 3.1 Workflow-Akteur*innen | 418 | 3.1 Workflow-Akteur*innen |
462 | 419 | ||
463 | [28]XSample unterscheidet zwischen drei Akteur*nnen im Workflow: Erstens den | 420 | [29]XSample unterscheidet zwischen drei Akteur*innen im Workflow: Erstens den |
464 | Infrastrukturbetreiber*innen, zweitens den Datenanbieter*innen / | 421 | Infrastrukturbetreiber*innen, zweitens den Datenanbieter*innen / -lieferant*innen und |
465 | -lieferant*innen und drittens den Nachnutzer*innen. | 422 | drittens den Nachnutzer*innen. Infrastrukturbetreiber*innen gehören zu den oben |
466 | Infrastrukturbetreiber*innen gehören zu den oben adressierten | 423 | adressierten Forschungsinfrastruktureinrichtungen und bieten die |
467 | Forschungsinfrastruktureinrichtungen und bieten die infrastrukturelle | 424 | infrastrukturelle Komponente zur Ablage und Verwaltung der verschiedenen im |
468 | Komponente zur Ablage und Verwaltung der verschiedenen im Workflow anfallenden | 425 | Workflow anfallenden Daten. Eine zentrale Bedeutung kommt hierbei der |
469 | Daten. Eine zentrale Bedeutung kommt hierbei der Authentifizierung von | 426 | Authentifizierung von Nutzer*innen und einem feingranularen Rechtemanagement |
470 | Nutzer*innen und einem feingranularen Rechtemanagement zu, um die beschriebenen | 427 | zu, um die beschriebenen rechtlichen Bedingungen (z. B. Zugriffsbeschränkung |
471 | rechtlichen Bedingungen (z. B. Zugriffsbeschränkung für bestimmt abgegrenzte | 428 | für bestimmt abgegrenzte Personenkreise) erfüllen zu können. Neben der reinen |
472 | Personenkreise) erfüllen zu können. Neben der reinen Datenablage dient das | 429 | Datenablage dient das zugrundeliegende Repositorium mit seiner Weboberfläche |
473 | zugrundeliegende Repositorium mit seiner Weboberfläche gleichzeitig als | 430 | gleichzeitig als zentraler Einstiegspunkt für die weiteren beteiligten |
474 | zentraler Einstiegspunkt für die weiteren beteiligten Akteur*innen. Als | 431 | Akteur*innen. Als Datenlieferant*innen werden im XSample-Kontext sämtliche |
475 | Datenlieferant*innen werden im XSample-Kontext sämtliche Personen oder | 432 | Personen oder Personenkreise bezeichnet, welche (gemäß § 60d UrhG) TDM auf |
476 | Personenkreise bezeichnet, welche (gemäß § 60d UrhG) TDM auf geschützten Werken | 433 | geschützten Werken zum Zwecke nicht-kommerzieller Forschung durchführen und die |
477 | zum Zwecke nicht-kommerzieller Forschung durchführen und die dabei erzeugten | 434 | dabei erzeugten Korpora zur Nachnutzung durch XSample verfügbar machen möchten. |
478 | Korpora zur Nachnutzung durch XSample verfügbar machen möchten. Die Gruppe der | 435 | Die Gruppe der Nachnutzer*innen schließlich beinhaltet die nach § 60c UrhG |
479 | Nachnutzer*innen schließlich beinhaltet die nach § 60c UrhG bestimmt | 436 | bestimmt abgegrenzten Personenkreise, denen auszugsweise Zugang zu geschützten |
480 | abgegrenzten Personenkreise, denen auszugsweise Zugang zu geschützten Werken | 437 | Werken zum Zwecke nicht-kommerzieller Forschung gewährt werden darf. |
481 | zum Zwecke nicht-kommerzieller Forschung gewährt werden darf. | ||
482 | 438 | ||
484 | 440 | ||
485 | [ | 441 | [30]Innerhalb des XSample-Workflows kommen zwei getrennte Serverkomponenten zum |
486 | Einsatz: das Repositorium und die Auszugsgenerierung. Beide stehen unter der | 442 | Einsatz: das Repositorium und die Auszugsgenerierung. Beide stehen unter der |
488 | Weboberflächen. | 444 | Weboberflächen. |
489 | [ | 445 | [31]Das Repositorium dient vorwiegend der Ablage und Verwaltung der Korpus- und |
490 | eventuell Ursprungsdaten und wird innerhalb des Prototyps durch eine | 446 | eventuell Ursprungsdaten und wird innerhalb des Prototyps durch eine |
508 | Zugriff abgeschirmt sind. | 464 | Zugriff abgeschirmt sind. |
509 | [ | 465 | [32]Neben dem Repositorium stellt die Auszugsgenerierung als eigener Server die |
510 | zweite Komponente im XSample-Workflow dar. Sie leitet Nutzer*innen auf einer | 466 | zweite Komponente im XSample-Workflow dar. Sie leitet Nutzer*innen auf einer |
532 | 488 | ||
533 | [ | 489 | [33]Bevor Auszüge aus einem Korpus generiert werden können, sind mehrere |
534 | Vorbereitungsschritte notwendig: | 490 | Vorbereitungsschritte notwendig: |
535 | | 491 | Zulässige Formate: Alle für die Auszüge zu verwendenden |
536 | Dateien des Korpus müssen in einem nicht öffentlich zugreifbaren Bereich | 492 | Dateien des Korpus müssen in einem nicht öffentlich zugreifbaren Bereich |
538 | Prototypenimplementierung ist bisher nur eine begrenzte Anzahl von Formaten für | 494 | Prototypenimplementierung ist bisher nur eine begrenzte Anzahl von Formaten für |
539 | Ursprungsdaten (PDF, EPUB oder TXT) und Annotationen (TEI-Subset und CoNLL-ähnliche tabellarische Formate) vorgesehen. Während | 495 | Ursprungsdaten (PDF, EPUB oder TXT) und Annotationen (TEI-Subset und |
540 | der Konzeptphase lag hierbei der Fokus auf EPUB und TXT | 496 | CoNLL-ähnliche tabellarische Formate) vorgesehen. Werden unveränderte |
541 | Primärdaten, sowie Annotationen in einem Subset des weit verbreiteten TEI-Formats aus dem zweiten | 497 | Ursprungsdaten eingegliedert, ist von Seiten der Infrastrukturbetreiber*innen |
542 | Nutzungsszenario (Kapitel 4.2). Bedingt durch zeitliche Überschneidungen | 498 | und Datenanbieter*innen auch zu prüfen, ob für die verwendeten Werke |
543 | verschob sich dieser Fokus im Verlauf der Implementierungsphase auf Daten des | ||
544 | ersten Nutzungsszenarios (Kapitel 4.1), konkret auf PDF-Dateien und das | ||
545 | tabellarische Format des CoNLL-2009-Shared-Tasks. Werden unveränderte Ursprungsdaten | ||
546 | eingegliedert, ist von Seiten der Infrastrukturbetreiber*innen und | ||
547 | Datenanbieter*innen auch zu prüfen, ob für die verwendeten Werke | ||
548 | Archivierungsrechte oder Lizenzen mit äquivalenten Berechtigungen vorliegen, | 499 | Archivierungsrechte oder Lizenzen mit äquivalenten Berechtigungen vorliegen, |
564 | große Hürde darstellen. Dies sollte schon frühzeitig im Projekt eingeplant | 515 | große Hürde darstellen. Dies sollte schon frühzeitig im Projekt eingeplant |
565 | werden, damit die notwendigen und nicht selten ›format-fremden‹[ | 516 | werden, damit die notwendigen und nicht selten ›format-fremden‹[27] Informationen nicht im Forschungsprozess |
566 | | 517 | verloren gehen und entweder durch manuellen Zusatzaufwand oder Anpassung |
567 | | 518 | automatischer Verarbeitungsschritte wiederhergestellt werden müssen. Die Ablage |
568 | | 519 | der Alignierungsinformationen erfolgt analog zu obigen Ursprungs- und |
569 | | 520 | Annotationsdateien in einem nicht-öffentlichen Bereich. |
570 | [35]Erzeugung eines Manifests: Als letztes muss ein | 521 | [35]Erzeugung eines Manifests: Als letztes muss ein |
598 | [36]Beim folgenden Beispiel handelt es sich um ein Manifest mit Informationen zu | 549 | [36]Beim folgenden Beispiel handelt es sich um ein Manifest mit Informationen zu |
599 | Primärdaten im Repositorium, Rechteinhaber*innen und voreingestellten Werten | 550 | Primärdaten im Repositorium, Rechteinhaber*innen und voreingestellten Werten für die |
600 | | 551 | statische Auszugsgenerierung. Das beschriebene Beispielkorpus ist eine |
601 | 100-seitige PDF-Datei (verlinkt im | 552 | 100-seitige PDF-Datei (verlinkt im |
643 | [38]Sind alle Vorbereitungsschritte abgeschlossen, können Nachnutzer*innen über die | 594 | [38]Sind alle Vorbereitungsschritte abgeschlossen, können Nachnutzer*innen über die |
644 | Dataverse-Oberfläche (Abbildung 2) eine Zugriffsanfrage auf die XSample-Manifeste stellen. | 595 | Dataverse-Oberfläche (Abbildung |
645 | Wenn diese durch die Infrastrukturbetreiber*innen akzeptiert wird, dürfen die | 596 | 2) eine Zugriffsanfrage auf die XSample-Manifeste stellen. Wenn diese |
646 | Nachnutzer*innen auf den XSample-Server (Abbildung 3) weitergeleitet werden, wo | 597 | durch die Infrastrukturbetreiber*innen akzeptiert wird, dürfen die |
647 | die eigentliche Konfiguration und Erstellung der Auszüge erfolgt. Da einzelnen | 598 | Nachnutzer*innen auf den XSample-Server (Abbildung 3) weitergeleitet werden, wo die |
599 | eigentliche Konfiguration und Erstellung der Auszüge erfolgt. Da einzelnen | ||
648 | Nutzer*innen nach § 60c UrhG jeweils nur maximal 15 Prozent eines geschützten | 600 | Nutzer*innen nach § 60c UrhG jeweils nur maximal 15 Prozent eines geschützten |
673 | (Korpus-)Ressourcen. Anschließend haben Nutzer*innen die Möglichkeit, zwischen | 625 | (Korpus-)Ressourcen. Anschließend haben Nutzer*innen die Möglichkeit, zwischen |
674 | drei Arten der Auszugsgenerierung (vgl. Abbildung 3, unten links) auszuwählen: | 626 | drei Arten der Auszugsgenerierung (vgl. Abbildung 3, unten links) auszuwählen: Als |
675 | | 627 | simpelste Lösung kann ein statisch definierter Auszug (beispielsweise die |
676 | ersten 10 Prozent oder ein anderer im Manifest definierter Abschnitt) gewählt | 628 | ersten 10 Prozent oder ein anderer im Manifest definierter Abschnitt) gewählt |
677 | werden. Wird mehr Kontrolle über die Zusammensetzung des Auszugs gewünscht, | 629 | werden. Wird mehr Kontrolle über die Zusammensetzung des Auszugs gewünscht, |
678 | bietet die zweite Alternative (vgl. Abbildung 4) die Möglichkeit, die | 630 | bietet die zweite Alternative (vgl. Abbildung 4) die Möglichkeit, die Auszugsgrenzen innerhalb der |
679 | Auszugsgrenzen innerhalb der Ursprungsdaten frei zu definieren (z. B. die | 631 | Ursprungsdaten frei zu definieren (z. B. die Seiten 20 bis 33). Auch hier wird |
680 | Seiten 20 bis 33). Auch hier wird eine zusammenhängende Sequenz an Seiten / | 632 | eine zusammenhängende Sequenz an Seiten / Segmenten geliefert. |
681 | Segmenten geliefert. In jedem Falle stehen die Auszugsdaten am Ende des | ||
682 | Workflows direkt als zip-Datei zum Download zur Verfügung, zusammen mit | ||
683 | bibliografischen Informationen zu den Auszügen und den Rechteinhaber*innen. | ||
684 | 633 | ||
693 | oder Passagen interessieren. Um dem gerecht zu werden, wird als dritte | 642 | oder Passagen interessieren. Um dem gerecht zu werden, wird als dritte |
694 | Alternative eine Korpusanfrageschnittstelle[ | 643 | Alternative eine Korpusanfrageschnittstelle[28] integriert, die Suchanfragen auf Basis der im Korpus |
695 | enthaltenen Annotationen ermöglicht. Dadurch lassen sich beispielsweise gezielt | 644 | enthaltenen Annotationen ermöglicht. Dadurch lassen sich beispielsweise gezielt |
696 | bestimmte syntaktische Konstruktionen finden[ | 645 | bestimmte syntaktische Konstruktionen finden[29], die dann als Kandidaten für |
697 | die Auszugserstellung genutzt werden (vgl. Abbildung 5). Basierend auf diesen | 646 | die Auszugserstellung genutzt werden (vgl. Abbildung 5). Basierend auf diesen |
700 | sicherstellen, dass die Auszüge optimal auf die individuellen Bedürfnisse der | 649 | sicherstellen, dass die Auszüge optimal auf die individuellen Bedürfnisse der |
701 | Nutzer*innen zugeschnitten sind. Da Nutzer*innen zu diesem Zeitpunkt der | 650 | Nutzer*innen zugeschnitten sind. |
702 | Auszugsgenerierung noch kein Zugriff auf die geschützten Daten gewährt werden | ||
703 | kann, wird lediglich eine visuelle Verteilung der Treffer und möglicher | ||
704 | Auszugssegmente angeboten. Etablierte Such- und Visualisierungswerkzeuge wie | ||
705 | ANNIS[36] oder | ||
706 | KorAP[37] stellen | ||
707 | zwar umfangreiche Such- und Exportmöglichkeiten zur Verfügung, bieten aber | ||
708 | nicht diese notwendige Abschirmung der Daten bis zur finalen Auszugserstellung. | ||
709 | Die den beiden erwähnten und anderen bestehenden Suchwerkzeugen zugrunde | ||
710 | liegenden Anfragesprachen und -Schnittstellen könnten allerdings als | ||
711 | Alternativen zu den im Prototypen integrierten Optionen für ICARUS und ICARUS2 | ||
712 | dienen. | ||
713 | 651 | ||
718 | direkt visualisiert und Nutzer*innen anschließend die Möglichkeit | 656 | direkt visualisiert und Nutzer*innen anschließend die Möglichkeit |
719 | gegeben, die für sie relevanten Segmente exakt auszuwählen. [Gärtner | 657 | gegeben, die für sie relevanten Segmente exakt auszuwählen. [Gärtner 2021] |
720 | 2021] | ||
721 | 658 | ||
744 | können, werden nur diejenigen weiterhin angeboten, die sich bewährt haben. | 681 | können, werden nur diejenigen weiterhin angeboten, die sich bewährt haben. |
745 | [42]Die Software für den Prototypen | 682 | [42]Die Software für den Prototypen ist open-source öffentlich verfügbar und kann |
746 | | 683 | somit auch von anderen Einrichtungen genutzt werden, um eine eigene Instanz des |
747 | | 684 | XSample-Servers zu betreiben. Neben einem laufenden Dataverse-Server wird |
748 | | 685 | lediglich eine SQL-basierte Datenbank benötigt, um den XSample-Server in |
749 | | 686 | bestehende Infrastruktur integrieren zu können. Die Anforderungen an |
750 | | 687 | Rechenleistung und Speicherplatz für den Prototypen sind hierbei |
751 | | 688 | überschaubar. |
752 | [43]Zwar ist der aktuelle Prototyp auf die Schnittstelle zu Dataverse beschränkt, | 689 | [43]Zwar ist der aktuelle Prototyp auf die Schnittstelle zu Dataverse beschränkt, |
774 | Disziplinen Literaturwissenschaft, Linguistik und Philosophie. Es handelt sich | 711 | Disziplinen Literaturwissenschaft, Linguistik und Philosophie. Es handelt sich |
775 | dabei um die Replikation einer Studie[38] | 712 | dabei um die Replikation einer Studie[30] zur Frage, wie sich |
776 | zur Frage, wie sich die Wissenschaftssprachen von Linguistik und | 713 | die Wissenschaftssprachen von Linguistik und Literaturwissenschaft voneinander |
777 | Literaturwissenschaft voneinander unterscheiden. Als Datengrundlage der | 714 | unterscheiden. Als Datengrundlage der Originalstudie dienen jeweils 30 |
778 | Originalstudie dienen jeweils 30 Dissertationen aus den beiden Fächern. Die | 715 | Dissertationen aus den beiden Fächern. Die Unterschiede zwischen den beiden |
779 | Unterschiede zwischen den beiden Teilkorpora werden in einem datengeleiteten | 716 | Teilkorpora werden in einem datengeleiteten Verfahren mithilfe von maschinellem |
780 | Verfahren mithilfe von maschinellem Lernen ermittelt. Daran anschließend | 717 | Lernen ermittelt. Daran anschließend erfolgt eine Interpretation der |
781 | erfolgt eine Interpretation der deutlichsten Unterschiede vor dem Hintergrund | 718 | deutlichsten Unterschiede vor dem Hintergrund wissenschaftstheoretischer |
782 | wissenschaftstheoretischer Merkmale der beiden Disziplinen. In der | 719 | Merkmale der beiden Disziplinen. In der Replikationsstudie werden im |
783 | Replikationsstudie werden im Wesentlichen zwei Modifikationen vorgenommen:[39] Erstens | 720 | Wesentlichen zwei Modifikationen vorgenommen: Erstens erfolgt eine Veränderung |
784 | erfolgt eine Veränderung der Variable ›Textsorte‹ von Dissertationen hin zu | 721 | der Variable ›Textsorte‹ von Dissertationen hin zu Zeitschriftenartikeln. |
785 | Zeitschriftenartikeln. Während die Autor*innen von Dissertationen mit ihren | 722 | Während die Autor*innen von Dissertationen mit ihren Texten zwar ihre |
786 | Texten zwar ihre Beherrschung der fachtypischen Wissenschaftssprache | 723 | Beherrschung der fachtypischen Wissenschaftssprache nachweisen, durchlaufen |
787 | nachweisen, durchlaufen Zeitschriftenartikel in der Regel mehr Schritte der | 724 | Zeitschriftenartikel in der Regel mehr Schritte der Qualitätssicherung. Sie |
788 | Qualitätssicherung. Sie werden außerdem von der Fachgemeinschaft breiter | 725 | werden außerdem von der Fachgemeinschaft breiter rezipiert, sodass sie auch als |
789 | rezipiert, sodass sie auch als repräsentativer für die jeweilige | 726 | repräsentativer für die jeweilige fachspezifische Wissenschaftssprache gelten |
790 | fachspezifische Wissenschaftssprache gelten können. Zweitens wird die | 727 | können. Zweitens wird die Datengrundlage um die Philosophie als drittes |
791 | Datengrundlage um die Philosophie als drittes geisteswissenschaftliches Fach | 728 | geisteswissenschaftliches Fach erweitert. Dadurch werden Literaturwissenschaft |
792 | erweitert. Dadurch werden Literaturwissenschaft und Linguistik nochmals aus | 729 | und Linguistik nochmals aus einer neuen Perspektive beleuchtet, nämlich im |
793 | einer neuen Perspektive beleuchtet, nämlich im Kontrast zur Philosophie. | 730 | Kontrast zur Philosophie. Außerdem ist mit der Hinzunahme des dritten Faches |
794 | Außerdem ist mit der Hinzunahme des dritten Faches ein Schritt dahingehend | 731 | ein Schritt dahingehend getan, Aussagen über die Wissenschaftssprache der |
795 | getan, Aussagen über die Wissenschaftssprache der Geisteswissenschaften im | 732 | Geisteswissenschaften im Allgemeinen zu treffen. |
796 | Allgemeinen zu treffen. | ||
797 | [46]Das Korpus umfasst insgesamt 135 Zeitschriftenartikel, jeweils 45 pro Fach. | 733 | [46]Das Korpus umfasst insgesamt 135 Zeitschriftenartikel, jeweils 45 pro Fach. |
798 | Alle Texte werden automatisch mit Lemmata, Wortarten und syntaktischen | 734 | Alle Texte werden automatisch mit Lemmata, Wortarten und syntaktischen |
799 | Dependenzen annotiert. Für den XSample-Workflow werden die annotierten Texte im | 735 | Dependenzen annotiert. Für den XSample-Workflow werden die annotierten Texte im CoNLL-Format an der Universitätsbibliothek Stuttgart |
800 | CoNLL-2009-Format an der Universitätsbibliothek Stuttgart gespeichert. Die | 736 | gespeichert. Die Ursprungsdaten im PDF-Format werden gemeinsam mit den |
801 | Ursprungsdaten im PDF-Format werden gemeinsam mit den Annotationen im | 737 | Annotationen im Repositorium aufbewahrt. Um sicherzustellen, dass von den |
802 | Repositorium aufbewahrt. Um sicherzustellen, dass von den annotierten Daten | 738 | annotierten Daten wieder auf die PDF-Seiten der Ursprungsdaten geschlossen |
803 | wieder auf die PDF-Seiten der Ursprungsdaten geschlossen werden kann, müssen | 739 | werden kann, müssen hierbei Informationen zur Alignierung der beiden |
804 | hierbei Informationen zur Alignierung der beiden Dateiformate gespeichert | 740 | Dateiformate gespeichert werden. Im Falle dieses Nutzungsszenarios erfolgt dies |
805 | werden. Im Falle dieses Nutzungsszenarios erfolgt dies in Form einer einfachen | 741 | in Form einer einfachen Tabelle für jedes Dokument, die für jeden fortlaufend |
806 | Tabelle für jedes Dokument, die für jeden fortlaufend nummerierten Satz | 742 | nummerierten Satz verzeichnet, auf welcher Seite oder welchen Seiten im |
807 | verzeichnet, auf welcher Seite oder welchen Seiten im PDF-Dokument er zu finden | 743 | PDF-Dokument er zu finden ist. |
808 | ist. | 744 | [47]Im Fokus der Replikationsstudie stehen Einzelwörter und Wortartentags (Unigramme), während die vorausgehende Studie[31] einen besonderen Schwerpunkt auf |
809 | [47]Im Fokus der Replikationsstudie steht der Teil der vorausgehende Studie[40], | 745 | Sequenzen legt, die entlang der syntaktischen Dependenzen im Satz gebildet |
810 | der Einzelwörter und Wortartentags (Unigramme) | 746 | werden. Hiervon abgesehen orientiert sich die Replikationsstudie in |
811 | betrachtet.[41] | 747 | methodischer Hinsicht eng am Original: Im ersten Schritt werden die Merkmale |
812 | In methodischer Hinsicht orientiert sich die Replikationsstudie eng am | 748 | mit den größten Unterschieden zwischen den Teilkorpora auf datengeleitete Weise |
813 | Original: Im ersten Schritt werden die Merkmale mit den größten Unterschieden | 749 | ermittelt. Zu diesem Zweck wird mit dem maschinellen Lernverfahren der Support-Vector-Machine (SVM) ein Klassifikator trainiert, |
814 | zwischen den Teilkorpora auf datengeleitete Weise ermittelt. Zu diesem Zweck | 750 | der jeweils zwischen Texten aus zwei der drei Disziplinen unterscheiden soll. |
815 | wird mit dem maschinellen Lernverfahren der Support-Vector-Machine (SVM) ein Klassifikator trainiert, der | 751 | Die lineare SVM bietet die Möglichkeit, auf die Koeffizienten zuzugreifen, die |
816 | jeweils zwischen Texten aus zwei der drei Disziplinen unterscheiden soll. Die | 752 | für jedes Merkmal ausdrücken, wie hilfreich es für die Klassifikationsaufgabe |
817 | lineare SVM bietet die Möglichkeit, auf die Koeffizienten zuzugreifen, die für | 753 | war. Anhand dieser Koeffizienten wird ein Feature-Ranking wie in Tabelle 1 erstellt, das die |
818 | jedes Merkmal ausdrücken, wie hilfreich es für die Klassifikationsaufgabe war. | 754 | größten Unterschiede zwischen den Teilkorpora (im Sinne der SVM) darstellt. Der |
819 | Anhand dieser Koeffizienten wird ein Feature-Ranking wie in Tabelle 1 erstellt, das die größten Unterschiede | 755 | zweite Schritt der Analyse besteht dann in der Interpretation dieses |
820 | zwischen den Teilkorpora (im Sinne der SVM) darstellt. Der zweite Schritt der | 756 | Feature-Rankings. Welche sprachlichen Unterschiede verbergen sich hinter den |
821 | Analyse besteht dann in der Interpretation dieses Feature-Rankings. Welche | 757 | Merkmalen und (wie) können sie anhand wissenschaftstheoretischer Merkmale der |
822 | sprachlichen Unterschiede verbergen sich hinter den Merkmalen und (wie) können | 758 | Disziplinen erklärt werden? Während der erste Schritt rein datengeleitet |
823 | sie anhand wissenschaftstheoretischer Merkmale der Disziplinen erklärt werden? | 759 | arbeitet, muss für die Interpretation auf unterschiedliche Ressourcen |
824 | Während der erste Schritt rein datengeleitet arbeitet, muss für die | 760 | zurückgegriffen werden: Erstens ist der erneute Rückgriff auf das Korpus |
825 | Interpretation auf unterschiedliche Ressourcen zurückgegriffen werden: Erstens | 761 | notwendig, um verstehen zu können, wie das Merkmal in den Texten verwendet |
826 | ist der erneute Rückgriff auf das Korpus notwendig, um verstehen zu können, wie | 762 | wird. Zweitens muss Wissen über die wissenschaftstheoretischen Merkmale der |
827 | das Merkmal in den Texten verwendet wird. Zweitens muss Wissen über die | 763 | Disziplinen sowie bereits vorhandene empirische Erkenntnisse zu den |
828 | wissenschaftstheoretischen Merkmale der Disziplinen sowie bereits vorhandene | 764 | vorliegenden Phänomenen herangezogen werden, um die Daten in einen funktionalen |
829 | empirische Erkenntnisse zu den vorliegenden Phänomenen herangezogen werden, um | 765 | Zusammenhang setzen und gegebenenfalls erklären zu können. |
830 | die Daten in einen funktionalen Zusammenhang setzen und gegebenenfalls erklären | ||
831 | zu können. | ||
832 | 766 | ||
931 | 865 | ||
932 | Tab. 1: Die distinktivsten | 866 | Tab. 1: Die distinktivsten |
933 | für die Unterscheidung von Philosophie und Literaturwissenschaft | 867 | Wortarten für die Unterscheidung von Philosophie und Literaturwissenschaft |
934 | der SVM. Das verwendete Tagset ist das STTS (Schiller et al. | 868 | im Sinne der SVM. Das verwendete Tagset ist das STTS (Schiller et al. |
935 | 2022] | 869 | 1999). [Andresen 2022] |
936 | [48]Diese Schritte werden im Folgenden am Beispiel der Analyse der Verwendung des | 870 | [48]Diese Schritte werden im Folgenden am Beispiel der Analyse der Verwendung des |
939 | Überprüfung und Re-Validierung der Analyseresultate vonnöten sind. | 873 | Überprüfung und Re-Validierung der Analyseresultate vonnöten sind. |
940 | [49]Tabelle 1 zeigt das Ranking | 874 | [49]Tabelle 1 zeigt das Ranking |
941 | distinktivsten Wortarten für den Vergleich von Philosophie und | 875 | der 15 distinktivsten Wortarten für den Vergleich von Philosophie und |
942 | Literaturwissenschaft. Während sich aus diesen Ergebnissen zahlreiche relevante | 876 | Literaturwissenschaft. Während sich aus diesen Ergebnissen zahlreiche relevante |
953 | Stichprobe von 100 Sätzen, in denen wir verwendet | 887 | Stichprobe von 100 Sätzen, in denen wir verwendet |
954 | wird, nach dem Zufallsprinzip ausgewählt und manuell | 888 | wird, nach dem Zufallsprinzip ausgewählt und manuell klassifiziert. Dabei wurde |
955 | | 889 | auf die Klassifikation von wir-Verwendungen im |
956 | Kresta[ | 890 | deutschsprachigen akademischen Diskurs von Kresta[32] |
957 | unterscheidet vier Gebrauchsweisen von wir in | 891 | zurückgegriffen. Kresta unterscheidet vier Gebrauchsweisen von wir in deutschsprachigen akademischen Texten: Das |
958 | | 892 | Pronomen wird verwendet, |
959 | a.) um auf die tatsächlichen Verfasser*innen eines Textes zu verweisen | 893 | a.) um auf die tatsächlichen Verfasser*innen eines Textes zu verweisen |
967 | 901 | ||
968 | [50]Die Stichproben zeigen (vgl. Tabelle | 902 | [50]Die Stichproben zeigen (vgl. Tabelle 2) in den Texten fachspezifische Muster der wir-Verwendungen: So sind sich die |
969 | 2) in den Texten fachspezifische Muster der wir-Verwendungen: So sind sich die literaturwissenschaftlichen und | 903 | literaturwissenschaftlichen und philosophischen Texte darin ähnlich, dass in |
970 | philosophischen Texte darin ähnlich, dass in beiden Gruppen die Verwendung des | 904 | beiden Gruppen die Verwendung des Gemeinschafts-wir |
971 | Gemeinschafts-wir dominiert, während in den | 905 | dominiert, während in den linguistischen Aufsätzen die Verwendung des |
972 | linguistischen Aufsätzen die Verwendung des Autor*innen-wir vorherrscht. Die Dominanz des Autor*innen-wir in der Linguistik lässt sich dadurch erklären, dass die Texte | 906 | Autor*innen-wir vorherrscht. Die Dominanz des |
973 | tatsächlich mehrheitlich von mehreren Autor*innen verfasst wurden (siehe | 907 | Autor*innen-wir in der Linguistik lässt sich |
974 | Beispiel 1). Diese Praxis scheint in der Linguistik weitaus üblicher zu sein | 908 | dadurch erklären, dass die Texte tatsächlich mehrheitlich von mehreren |
975 | als in den anderen beiden Fächern. Die Ähnlichkeit von Philosophie und | 909 | Autor*innen verfasst wurden (siehe Beispiel 1). Diese Praxis scheint in der |
976 | Literaturwissenschaft in ihrer Verwendung des Gemeinschafts-wir mag hingegen verwundern, da die beiden Fächer häufig ihre | 910 | Linguistik weitaus üblicher zu sein als in den anderen beiden Fächern. Die |
977 | formal-sprachlichen Unterschiede betonen. Insbesondere in der Philosophie dient | 911 | Ähnlichkeit von Philosophie und Literaturwissenschaft in ihrer Verwendung des |
978 | die Kennzeichnung eines philosophischen Ansatzes als ›literarisch‹ oft der | 912 | Gemeinschafts-wir mag hingegen verwundern, da die |
979 | Kritik am philosophischen Gehalt desselben.[43] Eine Auswertung der konkreten Belegstellen | 913 | beiden Fächer häufig ihre formal-sprachlichen Unterschiede betonen. |
980 | zeigt jedoch, dass es sich in den beiden Fächern um unterschiedlich geartete | 914 | Insbesondere in der Philosophie dient die Kennzeichnung eines philosophischen |
981 | Manifestationen des Gemeinschafts-wir handelt, die | 915 | Ansatzes als ›literarisch‹ oft der Kritik am philosophischen Gehalt |
982 | man wiederum mit landläufigen Kennzeichen der beiden Fächer in Verbindung | 916 | desselben.[33] Eine Auswertung der konkreten |
983 | bringen kann: So dominiert in der Stichprobe aus der Philosophie ein Gebrauch | 917 | Belegstellen zeigt jedoch, dass es sich in den beiden Fächern um |
984 | des Gemeinschafts-wir, der letztendlich auf die | 918 | unterschiedlich geartete Manifestationen des Gemeinschafts-wir handelt, die man wiederum mit landläufigen Kennzeichen der |
985 | grundlegenden Bedingungen des menschlichen Denkens und Handelns abzielt, wie | 919 | beiden Fächer in Verbindung bringen kann: So dominiert in der Stichprobe aus |
986 | das Beispiel 2 belegt. In der Stichprobe aus der Literaturwissenschaft, deren | 920 | der Philosophie ein Gebrauch des Gemeinschafts-wir |
987 | zentralen Tätigkeiten die Lektüre und Interpretation von Texten sind, wird in | 921 | der letztendlich auf die grundlegenden Bedingungen des menschlichen Denkens und |
988 | 31 der 54 Verwendungen des Gemeinschafts-wir genau | 922 | Handelns abzielt, wie das Beispiel 2 belegt. In der Stichprobe aus der |
989 | auf jene Praxis verwiesen, indem eine Art ›ideale*r Leser*in‹ konstituiert wird | 923 | Literaturwissenschaft, deren zentralen Tätigkeiten die Lektüre und |
990 | (siehe Beispiel 3), weswegen in diesem Fall auch vom Leser*innen-wir gesprochen werden kann. | 924 | Interpretation von Texten sind, wird in 31 der 54 Verwendungen des |
925 | Gemeinschafts-wir genau auf jene Praxis | ||
926 | verwiesen, indem eine Art ›ideale*r Leser*in‹ konstituiert wird (siehe Beispiel | ||
927 | 3), weswegen in diesem Fall auch vom Leser*innen-wir | ||
928 | gesprochen werden kann. | ||
991 | 929 | ||
1036 | 974 | ||
1037 | Tab. 2: Manuelle Kategorisierung der | 975 | Tab. 2: Manuelle Kategorisierung |
1038 | wir-Verwendung in einer Stichprobe von 100 | 976 | der wir-Verwendung in einer Stichprobe von 100 Instanzen pro Disziplin. [Pichler 2022] |
1039 | Instanzen pro Disziplin. [Pichler 2022] | ||
1040 | [51]Folgende Textausschnitte sollen als Beispiele für die nach Fachrichtung | 977 | [51]Folgende Textausschnitte sollen als Beispiele für die nach Fachrichtung |
1059 | unterschiedlichen Phasen der Analyse verbunden sind: Für die datengeleitete | 996 | unterschiedlichen Phasen der Analyse verbunden sind: Für die datengeleitete |
1060 | Ermittlung distinktiver Merkmale ist es für Nachnutzer*innen oder | 997 | Ermittlung distinktiver Merkmale ist es ausreichend, wenn die Texte nur in Form |
1061 | Gutachter*innen ausreichend, wenn ihnen die Texte nur in Form von | 998 | von n-Gramm-Frequenzen, also in einem abgeleiteten Format, vorliegen. Auf der |
1062 | n-Gramm-Frequenzen, also in einem abgeleiteten Format, vorliegen. Auf der | ||
1063 | Grundlage von z. B. Wortartenfrequenzen kann dieser Teil der Analyse direkt | 999 | Grundlage von z. B. Wortartenfrequenzen kann dieser Teil der Analyse direkt |
1064 | reproduziert werden.[ | 1000 | reproduziert werden.[34] Außerdem ist es etwa |
1065 | möglich, die distinktiven Merkmale auf den gleichen Daten mithilfe anderer | 1001 | möglich, die distinktiven Merkmale auf den gleichen Daten mithilfe anderer |
1071 | Textformate gedeckt. | 1007 | Textformate gedeckt. |
1072 | [53]Geht es hingegen um eine Interpretation der Daten, welche auf semantische und | 1008 | [53]Geht es hingegen um die Interpretation der Daten, reichen Frequenzinformationen |
1073 | pragmatische Dimensionen abzielt, reichen Frequenzinformationen nicht mehr aus, | 1009 | nicht mehr aus. Um das Phänomen zu verstehen und gegebenenfalls erklären zu |
1074 | um das Vorgehen in der Studie im Rahmen eines Gutachten zu bewerten oder eigene | 1010 | können, ist es notwendig, konkrete Verwendungen im Korpus mitsamt ihrem Kontext |
1075 | Schlüsse aus den Daten zu ziehen. Um konkrete (semantische oder pragmatische) | 1011 | zu sichten. Die notwendige Kontextgröße hängt dabei von der Natur des |
1076 | Phänomene, wie zum Beispiel in Hinblick auf den Gebrauch von wir, zu verstehen | 1012 | untersuchten Phänomens ab. Für die wir-Analyse |
1077 | und gegebenenfalls erklären zu können, ist es notwendig, konkrete Verwendungen | 1013 | wurden pro Fach 100 zufällige Sätze untersucht. Ein zumindest |
1078 | im Korpus mitsamt ihrem Kontext zu sichten. Die notwendige Kontextgröße hängt | 1014 | stichprobenartiger Zugriff auf Volltextdaten, wie er durch den XSample-Ansatz |
1079 | dabei von der Natur des untersuchten Phänomens ab. Für die wir-Analyse wurden pro Fach 100 zufällige Sätze untersucht. Ein | 1015 | ermöglicht wird, ist zentral, um geisteswissenschaftlich fundierte Aussagen |
1080 | zumindest stichprobenartiger Zugriff auf Volltextdaten, wie er durch den | 1016 | treffen und nachvollziehbar machen zu können. |
1081 | XSample-Ansatz ermöglicht wird, ist zentral, um geisteswissenschaftlich | ||
1082 | fundierte Aussagen treffen und nachvollziehbar machen zu können. | ||
1083 | 1017 | ||
1090 | unzutreffende, zweifelhafte oder in relevanter Hinsicht unvollständige Aussagen | 1024 | unzutreffende, zweifelhafte oder in relevanter Hinsicht unvollständige Aussagen |
1091 | über die Fakten oder Ereignisse der erzählten Welt tätigt.[ | 1025 | über die Fakten oder Ereignisse der erzählten Welt tätigt.[35] |
1092 | [55]Im Gegensatz zum ersten Anwendungsfall handelt es sich beim zweiten nicht um | 1026 | [55]Im Gegensatz zum ersten Anwendungsfall handelt es sich beim zweiten nicht um |
1097 | Erzählen gilt in der Literaturwissenschaft einerseits als stark | 1031 | Erzählen gilt in der Literaturwissenschaft einerseits als stark |
1098 | interpretationsabhängiges Phänomen,[ | 1032 | interpretationsabhängiges Phänomen,[36] andererseits listet die Forschung zahlreiche |
1099 | sprachliche Indikatoren, die auf unzuverlässiges Erzählen hinweisen | 1033 | sprachliche Indikatoren, die auf unzuverlässiges Erzählen hinweisen |
1100 | können.[47] Leser*innen können solche Merkmale – unter Rückgriff auf | 1034 | können.[37] |
1101 | allgemeines Weltwissen sowie literarische und literaturwissenschaftliche | 1035 | Leser*innen können solche Merkmale – unter Rückgriff auf allgemeines Weltwissen |
1102 | Kontexte – zum Anlass nehmen, der Erzählinstanz eines fiktionalen Textes | 1036 | sowie literarische und literaturwissenschaftliche Kontexte – zum Anlass nehmen, |
1103 | Unzuverlässigkeit zuzuschreiben. In diesem Rahmen entwickeln sie eine | 1037 | der Erzählinstanz eines fiktionalen Textes Unzuverlässigkeit zuzuschreiben. In |
1104 | inhaltsspezifizierende Interpretation[48] des Textes, d. h. sie bilden Annahmen darüber, was in der | 1038 | diesem Rahmen entwickeln sie eine inhaltsspezifizierende Interpretation[38] des Textes, d. h. sie |
1105 | fiktiven Welt des Textes wahr und was falsch ist. | 1039 | bilden Annahmen darüber, was in der fiktiven Welt des Textes wahr und was |
1040 | falsch ist. | ||
1106 | [56]Um die Schluss- und Argumentationsprozesse bei der Feststellung bzw. | 1041 | [56]Um die Schluss- und Argumentationsprozesse bei der Feststellung bzw. |
1123 | angewandt. Für die Teilfragen (1) und (2) werden automatische Verfahren zur | 1058 | angewandt. Für die Teilfragen (1) und (2) werden automatische Verfahren zur |
1124 | Erkennung von Named Entities[ | 1059 | Erkennung von Named Entities[39] und Redewiedergabe[40] verwendet, zusätzlich wurden Koreferenzen |
1125 | exemplarisch manuell annotiert. Für Fragen (3) und (4) muss – wie es bei der | 1060 | exemplarisch manuell annotiert. Für Fragen (3) und (4) muss – wie es bei der |
1127 | zunächst ein eigenes Annotationsschema entwickelt werden, das dann im Rahmen | 1062 | zunächst ein eigenes Annotationsschema entwickelt werden, das dann im Rahmen |
1128 | manueller Annotation auf die Texte angewandt wird.[ | 1063 | manueller Annotation auf die Texte angewandt wird.[41] Für Frage (5) |
1129 | wird exemplarisch eine Indikatorengruppe aus der Unzuverlässigkeitsforschung in | 1064 | wird exemplarisch eine Indikatorengruppe aus der Unzuverlässigkeitsforschung in |
1130 | den Fokus genommen: die Verwendung emotionaler bzw. wertender Sprache, für | 1065 | den Fokus genommen: die Verwendung emotionaler bzw. wertender Sprache, für |
1131 | deren Erkennung eine Kombination aus automatischer Sentimentanalyse[ | 1066 | deren Erkennung eine Kombination aus automatischer Sentimentanalyse[42] und manueller Emotionsanalyse |
1132 | eingesetzt wird. | 1067 | eingesetzt wird. |
1135 | der Operationalisierung literaturwissenschaftlicher Forschungsfragen als auch | 1070 | der Operationalisierung literaturwissenschaftlicher Forschungsfragen als auch |
1136 | technisch im Hinblick auf die Anpassung oder Neuentwicklung von Tools.[53] Deswegen kann es bei der Auswertung der | 1071 | technisch im Hinblick auf die Anpassung oder Neuentwicklung von Tools.[43] Deswegen kann |
1137 | Pilotstudie noch nicht darum gehen, die übergeordnete Forschungsfrage zu den | 1072 | es bei der Auswertung der Pilotstudie noch nicht darum gehen, die übergeordnete |
1138 | Schluss- und Argumentationsprozessen bei der Feststellung unzuverlässigen | 1073 | Forschungsfrage zu den Schluss- und Argumentationsprozessen bei der |
1139 | Erzählens zu beantworten. Dennoch kann ein Einblick in die Daten bereits in | 1074 | Feststellung unzuverlässigen Erzählens zu beantworten. Dennoch kann ein |
1140 | diesem Zwischenstadium aufschlussreich sein. Generell ist Forschung im Bereich | 1075 | Einblick in die Daten bereits in diesem Zwischenstadium aufschlussreich sein. |
1141 | der Digital Humanities (und besonders im Bereich der Computational Literary Studies) stärker als in den traditionellen | 1076 | Generell ist Forschung im Bereich der Digital Humanities (und besonders im |
1142 | Geisteswissenschaften durch »Prozessualität, Vorläufigkeit und | 1077 | Bereich der Computational Literary Studies) stärker als |
1143 | ›Nichtwissen‹«[54] gekennzeichnet. Dies lässt sich durchaus als Stärke | 1078 | in den traditionellen Geisteswissenschaften durch »Prozessualität, |
1144 | dieser Ansätze verstehen, weil dadurch die Zwischenschritte der Forschung und | 1079 | Vorläufigkeit und ›Nichtwissen‹«[44] gekennzeichnet. Dies lässt sich |
1145 | Entwicklung dokumentiert (und damit durch Dritte einsehbar) werden, die in | 1080 | durchaus als Stärke dieser Ansätze verstehen, weil dadurch die Zwischenschritte |
1146 | nicht-digitalen literaturwissenschaftlichen Zugängen oft implizit bleiben. | 1081 | der Forschung und Entwicklung dokumentiert (und damit durch Dritte einsehbar) |
1082 | werden, die in nicht-digitalen literaturwissenschaftlichen Zugängen oft | ||
1083 | implizit bleiben. | ||
1147 | [59]Beim zweiten Nutzungsszenario dient eine Einsicht in die Daten durch Dritte | 1084 | [59]Beim zweiten Nutzungsszenario dient eine Einsicht in die Daten durch Dritte |
1162 | mittels abgeleiteter Textformate (z. B. bestimmter tokenbasierter | 1099 | mittels abgeleiteter Textformate (z. B. bestimmter tokenbasierter |
1163 | Formate[ | 1100 | Formate[45]) geprüft |
1164 | | 1101 | werden. Zusätzlich können Nachnutzer*innen sich damit ebenfalls einen ersten |
1165 | | 1102 | Eindruck hinsichtlich der im jeweiligen Text auftretenden Figuren |
1166 | verschaffen.[ | 1103 | verschaffen.[46] |
1167 | Automatische Sentimentanalyse: Um zu beurteilen, ob | 1104 | Automatische Sentimentanalyse: Um zu beurteilen, ob |
1195 | Analyse sind oft langwierige Prozesse und benötigen im Rahmen von manueller | 1132 | Analyse sind oft langwierige Prozesse und benötigen im Rahmen von manueller |
1196 | (und meist kollaborativer) Annotation häufig mehrere Durchläufe.[ | 1133 | (und meist kollaborativer) Annotation häufig mehrere Durchläufe.[47] Im Rahmen |
1197 | des zweiten Nutzungsszenarios hat ein erster dieser Durchläufe | 1134 | des zweiten Nutzungsszenarios hat ein erster dieser Durchläufe |
1232 | eines generischen Tagsets für diese Annotationsaufgabe wünschenswert, in dem | 1169 | eines generischen Tagsets für diese Annotationsaufgabe wünschenswert, in dem |
1233 | beispielsweise Propositionen in Typen (z. B. in singular, particularized und general) unterteilt und verschiedene Rollen der | 1170 | beispielsweise Propositionen in Typen (z. B. in singular, particularized und general) unterteilt und verschiedene Rollen der Propositionen im Rahmen von Argumenten (Prämisse und |
1234 | Propositionen im Rahmen von Argumenten (Prämisse und Konklusion) | 1171 | Konklusion) unterschieden werden. |
1235 | unterschieden werden. Deshalb ist zu erwarten, dass sich die | 1172 | Deshalb ist zu erwarten, dass sich die Annotationskategorien und |
1236 | Annotationskategorien und Anwendungsrichtlinien noch erheblich verändern | 1173 | Anwendungsrichtlinien noch erheblich verändern werden. Aus diesem Grund kann |
1237 | werden. Aus diesem Grund kann der Nachvollzug der einzelnen | 1174 | der Nachvollzug der einzelnen Operationalisierungsschritte durch Dritte von |
1238 | Operationalisierungsschritte durch Dritte von besonderer Bedeutung sein. | 1175 | besonderer Bedeutung sein. Dieser wird wieder durch Zugriff auf |
1239 | Dieser wird wieder durch Zugriff auf Annotationskategorien / | 1176 | Annotationskategorien / Anwendungsrichtlinien im Manifest sowie (mindestens) |
1240 | Anwendungsrichtlinien im Manifest sowie (mindestens) zusammenhängende | 1177 | zusammenhängende Textabschnitte ermöglicht. An dieser Stelle tritt ein |
1241 | Textabschnitte ermöglicht. An dieser Stelle tritt ein weiterer Unterschied | 1178 | weiterer Unterschied zur manuellen Emotionsanalyse zutage: Während bei der |
1242 | zur manuellen Emotionsanalyse zutage: Während bei der Emotionsanalyse anhand | 1179 | Emotionsanalyse anhand sprachlicher Indikatoren vornehmlich einzelne Wörter |
1243 | sprachlicher Indikatoren vornehmlich einzelne Wörter annotiert werden, | 1180 | annotiert werden, betrifft die Annotation bei der Analyse in Frage stehender Propositionen mindestens Teilsätze. Tokenbasierte abgeleitete Textformate sind |
1244 | betrifft die Annotation bei der Analyse in Frage stehender Propositionen | 1181 | deswegen weder für den Nachvollzug der Kategorienentwicklung oder der |
1245 | mindestens Teilsätze. Tokenbasierte abgeleitete Textformate sind deswegen | ||
1246 | weder für den Nachvollzug der Kategorienentwicklung oder der | ||
1247 | Annotationsentscheidungen noch für einen ersten Einblick in die Ergebnisse | 1182 | Annotationsentscheidungen noch für einen ersten Einblick in die Ergebnisse |
1268 | Anwendungsfälle deutlich stärker annähert als abgeleitete Textformate und | 1203 | Anwendungsfälle deutlich stärker annähert als abgeleitete Textformate und |
1269 | Forschenden eine Möglichkeit bietet, (auch) an urheberrechtlich geschützten | 1204 | Forschenden eine Möglichkeit bietet, (auch) an urheberrechtlich geschützten Texten solch komplexe literarische |
1270 | | 1205 | Phänomene zu untersuchen. |
1271 | 1206 | ||
1294 | die Nützlichkeit dieses Ansatzes für das individuelle Forschungsvorhaben zu | 1229 | die Nützlichkeit dieses Ansatzes für das individuelle Forschungsvorhaben zu |
1295 | maximieren, ermöglicht der XSample-Workflow den Nutzer* | 1230 | maximieren, ermöglicht der XSample-Workflow den Nutzer*innen, Textauszüge flexibel |
1296 | anhand von Suchanfragen an den Text und seine Annotationen auszuwählen. | 1231 | anhand von Suchanfragen an den Text und seine Annotationen auszuwählen. |
1358 | [1] | 1293 | [1] |
1359 | Die Namen der Autor*innen sind in | 1294 | Die Namen der Autor*innen sind in den |
1360 | den Verfasserangaben alphabetisch aufgelistet. Im Projekt befanden sich | 1295 | Verfasserangaben alphabetisch aufgelistet. Im Projekt befanden sich juristische |
1361 | juristische Fragestellungen im Arbeitsschwerpunkt von Felicitas Kleinkopf; | 1296 | Fragestellungen im Arbeitsschwerpunkt von Felicitas Kleinkopf; Markus Gärtner |
1362 | Markus Gärtner befasste sich mit der technischen Umsetzung der Infrastruktur; | 1297 | befasste sich mit der technischen Umsetzung der Infrastruktur; das erste |
1363 | das erste Nutzungsszenario wurde von Melanie Andresen und Axel Pichler, das | 1298 | Nutzungsszenario wurde von Melanie Andresen und Axel Pichler, das zweite von |
1364 | zweite von Janina Jacke und Nora Ketschik bearbeitet; Sibylle Hermann | 1299 | Janina Jacke und Nora Ketschik bearbeitet; Sibylle Hermann koordinierte die |
1365 | koordinierte die Projektarbeit und die Anbindung an die bibliothekarische | 1300 | Projektarbeit und die Anbindung an die bibliothekarische Infrastruktur; Jonas |
1366 | Infrastruktur; Jonas Kuhn war für konzeptionelle Fragen verantwortlich. Die | 1301 | Kuhn war für konzeptionelle Fragen verantwortlich. Die textuelle Darstellung in |
1367 | textuelle Darstellung in diesem Artikel wurde gemeinschaftlich von den | 1302 | diesem Artikel wurde gemeinschaftlich von den Projektbeteiligten des XSample-Projekts, auch über die Zuständigkeitsgrenzen |
1368 | Projektbeteiligten des XSample-Projekts, auch über | 1303 | im Projekt hinweg, erstellt. |
1369 | die Zuständigkeitsgrenzen im Projekt hinweg, erstellt. | ||
1370 | 1304 | ||
1371 | [2] | 1305 | [2] |
1372 | Ähnliche Restriktionen gibt es auch in anderen Rechtsordnungen, | 1306 | Die FAIR-Prinzipien formulieren vier |
1373 | das betrifft aufgrund derselben zugrunde liegenden EU-Urheberrechts-Richtlinien | 1307 | zentrale Anforderungen an Forschungsdaten: Sie sollten Findable, Accessible, |
1374 | insbesondere die EU-Mitgliedsstaaten, während insbesondere das US-amerikanische | 1308 | Interoperable und Reusable sein, siehe Wilkinson et al. 2016. |
1375 | Copyright-Law mit der sogenannten Fair-Use-Doktrin grundsätzlich anders | ||
1376 | ausgestaltet ist. Gegenstand dieser Darstellung ist allerdings allein das | ||
1377 | deutsche Urheberrecht inklusive seiner Grundlagen aus dem Unionsrecht. | ||
1378 | 1309 | ||
1379 | [3] | 1310 | [3] |
1380 | | 1311 | Der Schutz |
1381 | | 1312 | von Texten durch das deutsche Urheberrecht endet siebzig Jahre nach Tod der |
1382 | | 1313 | Autor*innen, sodass kein direkter Zusammenhang zwischen Publikationsjahr und |
1383 | | 1314 | dem Ende des urheberrechtlichen Schutzes besteht. |
1384 | 1315 | ||
1385 | [4] | 1316 | [4] |
1386 | Der Schutz von Texten durch das deutsche | 1317 | Vgl. |
1387 | Urheberrecht endet siebzig Jahre nach Tod der Autor*innen, sodass kein direkter | 1318 | Schöch et al. 2020. |
1388 | Zusammenhang zwischen Publikationsjahr und dem Ende des urheberrechtlichen | ||
1389 | Schutzes besteht. | ||
1390 | 1319 | ||
1391 | [5] | 1320 | [5] |
1392 | Vgl. | 1321 | |
1393 | Schöch et al. | 1322 | Vgl. Jockers 2013. |
1394 | 2020. | ||
1395 | 1323 | ||
1396 | [6] | 1324 | [6] |
1397 | Vgl. Jockers 2013. | ||
1398 | |||
1399 | |||
1400 | [7] | ||
1401 | Unter TDM versteht | 1325 | Unter TDM versteht |
1403 | digitalen oder digitalisierten Werken, um daraus Informationen insbesondere | 1327 | digitalen oder digitalisierten Werken, um daraus Informationen insbesondere |
1404 | über Muster, Trends und Korrelationen zu gewinnen« (§§ 44b Abs. | 1328 | über Muster, Trends und Korrelationen zu gewinnen« (§§ 44b Abs. 1, |
1405 | | 1329 | 60d Abs. 1 UrhG). Unterschieden wird rechtlich zwischen der eigentlichen |
1406 | | 1330 | automatisierten Analyse, die urheberrechtlich freigestellt ist, und den dafür |
1407 | | 1331 | notwendigen Vorbereitungsschritten, die wiederum urheberrechtlich relevant |
1408 | | 1332 | sind. Unter das gesetzgeberische Verständnis von TDM kann ein Großteil |
1409 | textbasierter Forschung gefasst werden, auch wenn die Forscher*innen ihre | 1333 | textbasierter Forschung gefasst werden, auch wenn die Forscher*innen ihre |
1412 | 1336 | ||
1413 | [ | 1337 | [7] |
1414 | 1338 | ||
1415 | Einen umfassenderen Überblick über die Detailfragen des Forschungsprozesses | 1339 | Einen umfassenderen Überblick über die Detailfragen des Forschungsprozesses |
1416 | bieten zum alten Recht Dreier / Schulze 2018, § 60d; Kleinkopf et al. 2021; vorwiegend auch | 1340 | bieten zum alten Recht Dreier / Schulze 2018, § 60d; |
1417 | Schöch et al. | 1341 | Kleinkopf et al. 2021; |
1418 | 2020, Absatz 5–14; zu § 60d in seiner neuen Fassung, vgl. Dreier in Dreier / Schulze | 1342 | vorwiegend auch Schöch et al. 2020, Randnummer 5–14; zu § 60d in seiner neuen Fassung, |
1419 | 2022, § 44b und § 60d; Raue 2021; Kleinkopf / Pflüger 2021, S. 645–647; | 1343 | vgl. Dreier in Dreier / Schulze 2022, § 44b und § 60d; |
1420 | eine Betrachtung auf EU-Ebene bieten Gärtner et al. 2021, S. 11–13. Vgl. | 1344 | Raue 2021; |
1421 | auch Kleinkopf | 1345 | Kleinkopf / Pflüger 2021, S. 645–647; |
1422 | 2022. | 1346 | eine Betrachtung auf EU-Ebene bieten |
1347 | Gärtner et | ||
1348 | al. 2021, S. 11–13. | ||
1423 | 1349 | ||
1424 | [ | 1350 | [8] |
1425 | Erlaubnisnormen werden im | 1351 | Erlaubnisnormen werden im |
1428 | 1354 | ||
1355 | [9] | ||
1356 | Bundesgesetzblatt Jahrgang | ||
1357 | 2021 Teil I Nr. 27, ausgegeben zu Bonn am 4. Juni 2021. | ||
1358 | |||
1429 | [10] | 1359 | [10] |
1430 | Bundesgesetzblatt | 1360 | Vertraglich oder technisch darf das TDM im |
1431 | Jahrgang 2021 Teil I Nr. 27, ausgegeben zu Bonn am 4. Juni 2021. | 1361 | Rahmen wissenschaftlicher Zwecke (§ 60d UrhG) auch im Grundsatz nicht |
1362 | ausgeschlossen werden (§ 60g Abs. 1, 95b Abs. 1, 3 UrhG). Etwas anderes gilt | ||
1363 | für kommerzielles TDM im Rahmen des § 44b UrhG oder für die Sicherung der | ||
1364 | Funktionsfähigkeit technischer Systeme (§ 60d Abs. 6 UrhG). | ||
1432 | 1365 | ||
1433 | [11] | 1366 | [11] |
1434 | In diesen kommerziellen Kontexten dürfen | 1367 | Dreier in Dreier / |
1435 | für das TDM Werke vervielfältigt werden (§ 44b Abs. 2 S. 1 UrhG), diese | 1368 | Schulze 2022, § 15 Randnummer 38 mit Verweis auf den EuGH. |
1436 | müssen aber gelöscht werden, wenn sie für das TDM nicht mehr erforderlich | ||
1437 | sind (§ 44b Abs. 2 S. 2 UrhG). Zudem können Rechteinhaber*innen an ihren | ||
1438 | Werken (maschinenlesbare) Nutzungsvorbehalte anbringen, die von denjenigen, | ||
1439 | die auf Grundlage des § 44b UrhG TDM betreiben, ab dem Zeitpunkt ihrer | ||
1440 | Erklärung beachtet werden müssen (§ 44b Abs. 3 S. 1, 2 UrhG). Im Rahmen des | ||
1441 | § 44b UrhG ist nicht erlaubt, Werke oder Werkteile öffentlich zugänglich zu | ||
1442 | machen, auch nicht an bestimmt abgegrenzte Personenkreise. Aufgrund der | ||
1443 | Löschpflicht dürfen die erstellten Korpora auch nicht längerfristig | ||
1444 | aufbewahrt werden. Für wissenschaftliche Zwecke ist es deswegen unbedingt | ||
1445 | notwendig, sich auf § 60d UrhG berufen zu können. | ||
1446 | 1369 | ||
1447 | [12] | 1370 | [12] |
1448 | Vertraglich oder technisch darf das TDM im Rahmen | 1371 | Vgl. Raue 2021, S. 799. |
1449 | wissenschaftlicher Zwecke (§ 60d UrhG) auch im Grundsatz nicht | ||
1450 | ausgeschlossen werden (§§ 60g Abs. | ||
1451 | 1, 95b Abs. 1, 3 UrhG). Etwas anderes gilt für kommerzielles TDM im | ||
1452 | Rahmen des § 44b UrhG oder für die Sicherung der Funktionsfähigkeit | ||
1453 | technischer Systeme (§ 60d Abs. 6 UrhG). | ||
1454 | 1372 | ||
1455 | [13] | 1373 | [13] |
1456 | Vgl. zum genauen Verständnis der | 1374 | Vgl. Leitlinien zur Sicherung der guten wissenschaftlichen Praxis, |
1457 | nicht-kommerziellen Zwecke die Ausführungen in Absatz 19. | 1375 | Deutsche Forschungsgemeinschaft 2019, |
1376 | Leitlinie 17. | ||
1458 | 1377 | ||
1459 | [14] | 1378 | [14] |
1460 | Dreier in Dreier / Schulze | 1379 | Vgl. Raue 2021, S. 799. |
1461 | 2022, § 15 Randnummer 38 mit Verweis auf den EuGH. | ||
1462 | 1380 | ||
1463 | [15] | 1381 | [15] |
1464 | Vgl. | 1382 | Vgl. Kleinkopf / Pflüger 2021, S. 647. |
1465 | 1383 | ||
1466 | [16] | 1384 | [16] |
1467 | Vgl. Leitlinien zur Sicherung der guten | 1385 | Bundestagsdrucksache 19/27426, S. 97. |
1468 | wissenschaftlichen Praxis, Deutsche Forschungsgemeinschaft 2019, | ||
1469 | Leitlinie 17. | ||
1470 | 1386 | ||
1471 | [17] | 1387 | [17] |
1472 | Vgl. Raue 2021, S. 799. | ||
1473 | |||
1474 | [18] | ||
1475 | Vgl. Kleinkopf / Pflüger 2021, S. | ||
1476 | 647. | ||
1477 | |||
1478 | [19] | ||
1479 | Bundestagsdrucksache 19/27426, S. 97. | ||
1480 | |||
1481 | [20] | ||
1482 | Etwas anderes kann gelten, wenn die Ursprungsdaten | 1388 | Etwas anderes kann gelten, wenn die Ursprungsdaten |
1484 | 1390 | ||
1485 | [ | 1391 | [18] |
1486 | Vgl. | 1392 | Vgl. |
1487 | | 1393 | Kleinkopf / Pflüger 2021, S. 647. |
1488 | 1394 | ||
1489 | [ | 1395 | [19] |
1490 | Erwägungsgrund 15 S. 5 DSM-Richtlinie. | 1396 | Erwägungsgrund 15 S. 5 DSM-Richtlinie. |
1491 | 1397 | ||
1492 | [23] | 1398 | [20] |
1493 | Vgl. Schöch et al. 2020, Absatz | 1399 | Vgl. Schöch et al. 2020, Randnummer 4 f. |
1494 | 4f. | ||
1495 | 1400 | ||
1496 | [ | 1401 | [21] |
1497 | Der Terminus ›Anschlusskopie‹ meint, dass sich die | 1402 | Der Terminus ›Anschlusskopie‹ meint, dass sich die |
1502 | 1407 | ||
1503 | [ | 1408 | [22] |
1504 | Unter ›geringem Umfang‹ werden gemeinhin 25 | 1409 | Unter ›geringem Umfang‹ werden gemeinhin 25 |
1505 | Seiten verstanden, vgl. Dreier in Dreier / Schulze 2022, § 60c Randnummer | 1410 | Seiten verstanden, vgl. Dreier in Dreier / Schulze 2022, § 60c Randnummer 15, |
1506 | | 1411 | § 60a Randnummer 22; Bundestagsdrucksache 18/12329, S. 35. |
1507 | 1412 | ||
1508 | [26] | 1413 | [23] |
1509 | Vgl. Schöch et al. 2020, Absatz | 1414 | Vgl. Schöch et al. 2020, Randnummer 5. |
1510 | 5. | ||
1511 | 1415 | ||
1512 | [ | 1416 | [24] |
1513 | Das entspräche einer Einstellung in ein | 1417 | Das entspräche einer Einstellung in ein |
1514 | Universitäts-Intranet, diese ist jedoch gerade nicht erlaubt, vgl. Dreier in | 1418 | Universitäts-Intranet, diese ist jedoch gerade nicht erlaubt, vgl. Dreier in |
1515 | Dreier / Schulze | 1419 | Dreier / Schulze 2022, § 60c Randnummer 9; Bundestagsdrucksache 15 / 837, S. 34. |
1516 | 2022, § 60c Randnummer 9; Bundestagsdrucksache 15 / 837, S. 34. | ||
1517 | 1420 | ||
1518 | [28] | 1421 | [25] |
1519 | Vgl. Dreier in Dreier / Schulze | ||
1520 | 2022, § 60c Randnummer 6 mit Verweis auf die Gesetzesbegründung, | ||
1521 | Bundestagsdrucksache 18/12329, S. 39. | ||
1522 | |||
1523 | [29] | ||
1524 | Vgl. Dreier in Dreier / Schulze | ||
1525 | 2022, § 60a Randnummer 7. | ||
1526 | |||
1527 | [30] | ||
1528 | Nach | 1422 | Nach |
1529 | der DSM-Richtlinie ist es zulässig, weitere Nutzungen der TDM-Korpora | 1423 | der DSM-Richtlinie ist es zulässig, weitere Nutzungen der TDM-Korpora auf |
1530 | | 1424 | die ältere InfoSoc-Richtlinie zu stützen, das besagt zum einen |
1531 | Erwägungsgrund 15 S. 5 und zum anderen Art. 24 Abs. 2, 25 DSM- | 1425 | Erwägungsgrund 15 S. 5 und zum anderen Art. 24 Abs. 2, 25 DSM-RL. Auch die |
1532 | | 1426 | Rechtsprechung hat bereits in der Vergangenheit urheberrechtliche |
1533 | Erlaubnisnormen miteinander kombiniert, wenn ihre jeweiligen Voraussetzungen | 1427 | Erlaubnisnormen miteinander kombiniert, wenn ihre jeweiligen Voraussetzungen |
1537 | 1431 | ||
1538 | [31] | 1432 | [26] |
1539 | Leitlinien zur Sicherung der | 1433 | Leitlinien zur Sicherung |
1540 | guten wissenschaftlichen Praxis, Deutsche Forschungsgemeinschaft 2019, | 1434 | der guten wissenschaftlichen Praxis, Deutsche Forschungsgemeinschaft 2019, Leitlinie 17. |
1541 | Leitlinie 17. | ||
1542 | 1435 | ||
1543 | [32] | 1436 | [27] |
1544 | Den Einrichtungen werden auch beim Kopienversand keine | ||
1545 | weitergehenden Prüfpflichten auferlegt, es sei denn, es handelt sich um | ||
1546 | offensichtliche Missbrauchsfälle, vgl. Dreier in Dreier / Schulze 2022, § 60e Randnummer | ||
1547 | 17, 27, 28; Stieper in Schricker / Loewenheim 2020, | ||
1548 | § 60e Randnummer 37. | ||
1549 | |||
1550 | [33] | ||
1551 | Metainformationen wie Seitenzahlen auf der Ebene von Sätzen | 1437 | Metainformationen wie Seitenzahlen auf der Ebene von Sätzen |
1552 | oder einzelnen Worten im Text sind in etablierten Annotationsschemata oder | 1438 | oder einzelnen Worten im Text sind in etablierten Annotationsschemata oder |
1553 | Formaten in der Regel nicht vorgesehen und erfordern somit zusätzlichen | 1439 | Formaten in der Regel nicht vorgesehen und erfordern somit zusätzlichen Aufwand, bzw. |
1554 | | 1440 | spezielle Anpassungen. |
1555 | 1441 | ||
1556 | [ | 1442 | [28] |
1557 | Vgl. Gärtner | 1443 | Vgl. Gärtner |
1559 | 1445 | ||
1560 | [ | 1446 | [29] |
1561 | Sofern | 1447 | Sofern |
1563 | 1449 | ||
1564 | [36] | 1450 | [30] |
1565 | Vgl. Krause / Zeldes 2016. | ||
1566 | |||
1567 | [37] | ||
1568 | Vgl. Diewald et al. 2106. | ||
1569 | |||
1570 | [38] | ||
1571 | Bei der | 1451 | Bei der |
1573 | 1453 | ||
1574 | [39] | 1454 | [31] |
1575 | Es handelt sich dementsprechend um eine sogenannte | ||
1576 | ›approximative Replikation‹ (Porte 2012, S. 8). | ||
1577 | |||
1578 | [40] | ||
1579 | Vgl. Andresen 2022. | 1455 | Vgl. Andresen 2022. |
1580 | 1456 | ||
1581 | [ | 1457 | [32] |
1582 | | 1458 | Vgl. |
1583 | | 1459 | Kresta 1995, S. 130–147, vgl. auch |
1584 | | 1460 | Steinhoff 2007, S. 206f. |
1585 | 1461 | ||
1586 | [42] | 1462 | [33] |
1587 | Vgl. Kresta 1995, S.130–147, | 1463 | Vgl. zum Beispiel Jürgen Habermas’ Kritik |
1588 | vgl. auch Steinhoff 2007, S. 206f. | 1464 | an der Einebnung des Gattungsunterschiedes zwischen |
1465 | Philosophie und Literatur, Habermas 1988, S. 217. | ||
1589 | 1466 | ||
1590 | [43] | 1467 | [34] |
1591 | Vgl. zum | ||
1592 | Beispiel Jürgen Habermas’ Kritik an der Einebnung des Gattungsunterschiedes zwischen | ||
1593 | Philosophie und Literatur, Habermas | ||
1594 | 1988, S. 217. | ||
1595 | |||
1596 | [44] | ||
1597 | Der Schritt von den Originaldaten zu | 1468 | Der Schritt von den Originaldaten zu |
1603 | 1474 | ||
1604 | [ | 1475 | [35] |
1605 | Vgl. Martínez | 1476 | Vgl. Martínez / Scheffel 2009, S. 100; |
1606 | | 1477 | Kindt 2008, S. 48. |
1607 | 1478 | ||
1608 | [ | 1479 | [36] |
1609 | Vgl. Yacobi 1981; | 1480 | Vgl. Yacobi 1981; |
1610 | Nünning | 1481 | Nünning 1999. |
1611 | 1999. | ||
1612 | 1482 | ||
1613 | [ | 1483 | [37] |
1614 | Vgl. Nünning 1998; | 1484 | Vgl. Nünning 1998; |
1615 | | 1485 | Allrath 1998. |
1616 | 1486 | ||
1617 | [48] | 1487 | [38] |
1618 | Vgl. Folde 2015, | 1488 | Vgl. Folde 2015, S. 366. |
1619 | S. 366. | ||
1620 | 1489 | ||
1621 | [ | 1490 | [39] |
1622 | Verwendet wurde hier der | 1491 | Verwendet wurde hier der |
1623 | Stanford | 1492 | Stanford Named Entity |
1624 | | 1493 | Recognizer. |
1625 | 1494 | ||
1626 | [ | 1495 | [40] |
1627 | Für die Erkennung von direkter Rede wurde ein simpler | 1496 | Für die Erkennung von direkter Rede wurde ein simpler |
1628 | Tagger entwickelt, der auf der Identifikation von Anführungszeichen basiert; | 1497 | Tagger entwickelt, der auf der Identifikation von Anführungszeichen basiert; |
1629 | indirekte Rede wurde mithilfe eines verfügbaren Taggers | 1498 | indirekte Rede wurde mithilfe eines verfügbaren Taggers annotiert |
1630 | | 1499 | . Alle erzeugten Annotationen wurden anschließend gesichtet und |
1631 | gegebenenfalls korrigiert. | 1500 | gegebenenfalls korrigiert. |
1632 | 1501 | ||
1633 | [ | 1502 | [41] |
1634 | Für | 1503 | Für |
1636 | 1505 | ||
1637 | [52] | 1506 | [42] |
1638 | Zum Einsatz kam hier SentText, vgl. Schmidt et al. | 1507 | Zum Einsatz kam hier SentText, vgl. Schmidt et al. 2021. |
1639 | 2021. | ||
1640 | 1508 | ||
1641 | [53] | ||
1642 | Vgl. Gius 2019; Pichler / | ||
1643 | Reiter 2021. | ||
1644 | 1509 | ||
1645 | [ | 1510 | [43] |
1646 | | 1511 | Vgl. Gius 2019; |
1647 | | 1512 | Pichler / Reiter 2021. |
1648 | 1513 | ||
1649 | [55] | 1514 | [44] |
1515 | Schruhl 2018. | ||
1516 | |||
1517 | [45] | ||
1650 | Vgl. Schöch et al. 2020. | 1518 | Vgl. Schöch et al. 2020. |
1651 | 1519 | ||
1652 | [ | 1520 | [46] |
1653 | Tatsächlich ist (auch eine eigens | 1521 | Tatsächlich ist (auch eine eigens |
1654 | trainierte) Named Entity Recognition nur in eingeschränktem Maße für die | 1522 | trainierte) Named Entity Recognition nur in eingeschränktem Maße für die |
1655 | Identifikation der relevanten Akteur*innen / Instanzen geeignet, da | 1523 | Identifikation der relevanten Akteur*innen / Instanzen geeignet, da gerade in |
1656 | | 1524 | potenziell unzuverlässigen Erzählungen häufig homodiegetische |
1657 | Erzähler*innen (›Ich-Erzähler*innen‹) auftreten, auf die nicht oder | 1525 | Erzähler*innen (›Ich-Erzähler*innen‹) auftreten, auf die nicht oder |
1659 | 1527 | ||
1660 | [57] | 1528 | [47] |
1661 | Vgl. Gius / Jacke 2017; Reiter 2020. | 1529 | Vgl. Gius / Jacke 2017; |
1530 | Reiter 2020. | ||
1662 | 1531 | ||
1669 | 1538 | ||
1670 | Gaby Allrath: »But why will you say that I am | 1539 | Gaby Allrath: »But why will you say that I am mad?« Textuelle Signale für |
1671 | mad?« Textuelle Signale für die Ermittlung von unreliable narration. In: | 1540 | die Ermittlung von unreliable narration. In: Unreliable Narration. Studien zur |
1672 | Unreliable Narration. Studien zur Theorie und Praxis unglaubwürdigen Erzählens | 1541 | Theorie und Praxis unglaubwürdigen Erzählens in der englischsprachigen |
1673 | in der englischsprachigen Erzählliteratur. Hg. von Ansgar Nünning / Carola | 1542 | Erzählliteratur. Hg. von Ansgar Nünning / Carola Surkamp / Bruno Zerweck. Trier |
1674 | Surkamp / Bruno Zerweck. Trier 1998, S. 59–80. [Nachweis im GVK] Melanie Andresen: Datengeleitete | 1543 | 1998, S. 59–80. [Nachweis im GVK] Melanie Andresen: Datengeleitete Sprachbeschreibung mit syntaktischen |
1675 | Sprachbeschreibung mit syntaktischen Annotationen. Eine Korpusanalyse am | 1544 | Annotationen. Eine Korpusanalyse am Beispiel der germanistischen |
1676 | Beispiel der germanistischen Wissenschaftssprachen. Tübingen 2022. (= | 1545 | Wissenschaftssprachen. Tübingen 2022. (= Korpuslinguistik und interdisziplinäre |
1677 | Korpuslinguistik und interdisziplinäre Perspektiven auf Sprache (CLIP), 10). | 1546 | Perspektiven auf Sprache (CLIP), 10). [Nachweis im GVK] Thomas Dreier / Gernot Schulze: UrhG – Urheberrechtsgesetz, |
1678 | [Nachweis im GVK] Nils Diewald / Michael Hanl / Eliza Margaretha / | 1547 | Verwertungsgesellschaftengesetz, Kunsturhebergesetz. Kommentar. 6. Auflage. |
1679 | Joachim Bingel / Marc Kupietz / Piotr Bański / Andreas Witt: KorAP | 1548 | München 2018. [Nachweis im GVK] Thomas Dreier / Gernot Schulze: UrhG – Urheberrechtsgesetz, |
1680 | Architecture. Diving in the Deep Sea of Corpus Data In: Proceedings of the 10th | 1549 | Urheberrechts-Diensteanbieter-Gesetz, Verwertungsgesellschaftengesetz, |
1681 | International Conference on Language Resources and Evaluation (LREC 2016). Hg. | 1550 | Nebenurheberrecht, Kunsturheberrecht. Kommentar. 7. Auflage. München 2022. |
1682 | von European Language Resources Association (ELRA). (LREC 2016: Portorož, | 1551 | [Nachweis im GVK] Christian Folde: Grounding Interpretation. In: British Journal of Aesthetics |
1683 | 23.–28.05.2016). Paris 2016: European Language Resources Association (ELRA), S. | 1552 | 55 (2015), H. 3, S. 361–374. [Nachweis im GVK] Deutsche Forschungsgemeinschaft: Leitlinien zur Sicherung der guten |
1684 | 3586–3591. PDF. [online] [Nachweis im GVK] Thomas Dreier / Gernot Schulze: UrhG – | 1553 | wissenschaftlichen Praxis, Kodex, 2019. DOI: 10.5281/zenodo.6472827Markus Gärtner: The Corpus Query Middleware of Tomorrow − A Proposal for a |
1685 | Urheberrechtsgesetz, Verwertungsgesellschaftengesetz, Kunsturhebergesetz. | 1554 | Hybrid Corpus Query Architecture. In: Proceedings of the 8th Workshop on |
1686 | Kommentar. 6. Auflage. München 2018. [Nachweis im GVK] Thomas Dreier / Gernot Schulze: UrhG – | 1555 | Challenges in the Management of Large Corpora. Hg. von Piotr Bański / Adrien |
1687 | Urheberrechtsgesetz, Urheberrechts-Diensteanbieter-Gesetz, | 1556 | Barbaresi / Simon Clematide / Marc Kupietz / Harald Lüngen / Ines Pisetta. |
1688 | Verwertungsgesellschaftengesetz, Nebenurheberrecht, Kunsturheberrecht. | 1557 | (CMLC 8, Marseille, 11.–16.05.2020) Stroudsburg, PA 2020, S. 31–39. [online] Markus Gärtner / Felicitas Kleinkopf / Melanie Andresen / Sybille Hermann: |
1689 | Kommentar. 7. Auflage. München 2022. [Nachweis im GVK] Christian Folde: Grounding | 1558 | Corpus Reusability and Copyright – Challenges and Opportunities. In: |
1690 | Interpretation. In: British Journal of Aesthetics 55 (2015), H. 3, S. 361–374. | 1559 | Proceedings of the Workshop on Challenges in the Management of Large Corpor. |
1691 | [Nachweis im GVK] Deutsche Forschungsgemeinschaft: Leitlinien zur | 1560 | Hg. von Harald Lüngen / Marc Kupietz / Piotr Bański / Adrien Barbaresi / Simon |
1692 | Sicherung der guten wissenschaftlichen Praxis, Kodex, 2019. DOI: 10.5281/zenodo.6472827Markus Gärtner / Katrin Schweitzer / | 1561 | Clematide / Ines Pisetta. (CMLC 9, Limerick, 12.07.2021) Mannheim 2021, S. |
1693 | Kerstin Eckart / Jonas Kuhn: Multi-modal Visualization and Search for Text and | 1562 | 10–19. DOI: 10.14618/ids-pub-10467 [Nachweis im GVK] Evelyn Gius: Computationelle Textanalysen als fünfdimensionales Problem: Ein |
1694 | Prosody Annotations. In: Proceedings of the 53rd Annual Meeting of the | 1563 | Modell zur Beschreibung von Komplexität. In: LitLab Pamphlet 8 (2019). [online] Evelyn Gius / Janina Jacke: The Hermeneutic Profit of Annotation: On |
1695 | Association for Computational Linguistics and the 7th International Joint | 1564 | Preventing and Fostering Disagreement in Literary Analysis. In: International |
1696 | Conference on Natural Language Processing of the Asian Federation of Natural | 1565 | Journal of Humanities and Arts Computing 11 (2017), H. 2, S. 233–254. DOI: 10.3366/ijhac.2017.0194 [Nachweis im GVK] Jürgen Habermas: Der philosophische Diskurs der Moderne. Zwölf Vorlesungen. |
1697 | Language Processing: System Demonstrations. Hg. von Association for | 1566 | Frankfurt / Main 1988. (= Suhrkamp-Taschenbuch Wissenschaft, 749). |
1698 | Computational Linguistics. (ACL 53: Beijing, 27.–29.07.2015). Red Hook, NY | 1567 | [Nachweis im GVK] Matthew Lee Jockers: Macroanalysis: Digital methods and literary history. |
1699 | 2015, S. 25–30. PDF. DOI: 10.3115/v1/P15-4005Markus Gärtner / Jonas Kuhn: A Lightweight | 1568 | Urbana, IL u. a. 2013. [Nachweis im GVK] Tom Kindt: Unzuverlässiges Erzählen und literarische Moderne: eine |
1700 | Modeling Middleware for Corpus Processing. In: Proceedings of the Eleventh | 1569 | Untersuchung der Romane von Ernst Weiß. Tübingen 2008. (= Studien zur deutschen |
1701 | International Conference on Language Resources and Evaluation. Hg. von European | 1570 | Literatur, 184). [Nachweis im GVK] Felicitas Kleinkopf / Janina Jacke / Markus Gärtner: Text- und Data-Mining – |
1702 | Language Resources Association (ELRA). (LREC 2018: Miyazaki, Mai 2018), | 1571 | Urheberrechtliche Grenzen der Nachnutzung wissenschaftlicher Korpora bei |
1703 | Miyazaki 2018, S. 1087–1095. PDF. [online]Markus Gärtner: The Corpus Query Middleware of | 1572 | computergestützten Verfahren und digitalen Ressourcen. In: MMR. Zeitschrift für |
1704 | Tomorrow − A Proposal for a Hybrid Corpus Query Architecture. In: Proceedings | 1573 | IT-Recht und Recht der Digitalisierung 24 (2021), H. 3, S. 196–200. DOI: 10.18419/opus-11445 [Nachweis im GVK] Felicitas Kleinkopf / Thomas Pflüger: Digitale Bildung, Wissenschaft und |
1705 | of the 8th Workshop on Challenges in the Management of Large Corpora. Hg. von | 1574 | Kultur – Welcher urheberrechtliche Reformbedarf verbleibt nach Umsetzung der |
1706 | Piotr Bański / Adrien Barbaresi / Simon Clematide / Marc Kupietz / Harald | 1575 | DSM-RL durch das Gesetz zum Urheberrecht im digitalen Binnenmarkt? In: |
1707 | Lüngen / Ines Pisetta. (CMLC 8, Marseille, 11.–16.05.2020) Stroudsburg, PA | 1576 | Zeitschrift für Urheber- und Medienrecht 56 (2021), H. 8 / 9, S. 643–655. |
1708 | 2020, S. 31–39. [online] Markus Gärtner / Felicitas Kleinkopf / Melanie | 1577 | [Nachweis im GVK] Ronald Kresta: Realisierungsformen der Interpersonalität in vier |
1709 | Andresen / Sybille Hermann: Corpus Reusability and Copyright – Challenges and | 1578 | linguistischen Fachtextsorten des Englischen und des Deutschen (= Theorie und |
1710 | Opportunities. In: Proceedings of the Workshop on Challenges in the Management | 1579 | Vermittlung der Sprache, 24). Frankfurt / Main u. a. 1995. [Nachweis im GVK] Matías Martínez / Michael Scheffel: Einführung in die Erzähltheorie. 8. |
1711 | of Large Corpor. Hg. von Harald Lüngen / Marc Kupietz / Piotr Bański / Adrien | 1580 | Aufage. (= C.-H.-Beck-Studium). München 2009. [Nachweis im GVK] Ansgar Nünning: »Unreliable Narration« zur Einführung. Grundzüge einer |
1712 | Barbaresi / Simon Clematide / Ines Pisetta. (CMLC 9, Limerick, 12.07.2021) | 1581 | kognitiv-narratologischen Theorie und Analyse unglaubwürdigen Erzählens. In: |
1713 | Mannheim 2021, S. 10–19. DOI: 10.14618/ids-pub-10467 [Nachweis im GVK] Evelyn Gius: Computationelle Textanalysen | 1582 | Unreliable Narration. Studien zur Theorie und Praxis unglaubwürdigen Erzählens. |
1714 | als fünfdimensionales Problem: Ein Modell zur Beschreibung von Komplexität. In: | 1583 | Hg. von Ansgar Nünning / Bruno Zerweck / Carola Surkamp. Trier 1998, S. 3–39. |
1715 | LitLab Pamphlet 8 (2019). [online] Evelyn Gius / Janina Jacke: The Hermeneutic Profit | 1584 | [Nachweis im GVK] Ansgar Nünning: Unreliable, Compared to What? Towards a Cognitive Theory of |
1716 | of Annotation: On Preventing and Fostering Disagreement in Literary Analysis. | 1585 | »Unreliable Narration«. Prolegomena and Hypotheses. In: Grenzüberschreitungen. |
1717 | In: International Journal of Humanities and Arts Computing 11 (2017), H. 2, S. | 1586 | Narratologie im Kontext / Transcending Boundaries. Narratology in Context. Hg. |
1718 | 233–254. DOI: 10.3366/ijhac.2017.0194 [Nachweis im GVK] Jürgen Habermas: Der philosophische Diskurs | 1587 | von Walter Grünzweig / Andreas Solbach. Tübingen 1999, S. 53–73. [Nachweis im GVK] Axel Pichler / Nils Reiter: Zur Operationalisierung |
1719 | der Moderne. Zwölf Vorlesungen. Frankfurt / Main 1988. (= Suhrkamp-Taschenbuch | 1588 | literaturwissenschaftlicher Begriffe in der algorithmischen Textanalyse. Eine |
1720 | Wissenschaft, 749). [Nachweis im GVK] Matthew Lee Jockers: Macroanalysis: Digital | 1589 | Annäherung über Norbert Altenhofers hermeneutische Modellinterpretation von |
1721 | methods and literary history. Urbana, IL u. a. 2013. [Nachweis im GVK] Tom Kindt: Unzuverlässiges Erzählen und | 1590 | Kleists Das Erdbeben in Chili. In: Journal of Literary Theory 15 (2021), H. 1–2, S. 1–29. [online] [Nachweis im GVK] Benjamin Raue: Die Freistellung von Datenanalysen durch die neuen Text und |
1722 | literarische Moderne: eine Untersuchung der Romane von Ernst Weiß. Tübingen | 1591 | Data Mining-Schranken. In: Zeitschrift für Urheber- und Medienrecht 56 (2021), |
1723 | 2008. (= Studien zur deutschen Literatur, 184). [Nachweis im GVK] Felicitas Kleinkopf: Text- und Data-Mining. Die | 1592 | H. 10, S. 793-802. [Nachweis im GVK] Nils Reiter: Anleitung zur Erstellung von Annotationsrichtlinien. In: |
1724 | Anforderungen digitaler Forschungsmethoden an ein innovations- und | 1593 | Reflektierte algorithmische Textanalyse. Hg. von Nils Reiter / Axel Pichler / |
1725 | wissenschaftsfreundliches Urheberrecht. (= Schriftenreihe des Archivs für | 1594 | Jonas Kuhn. Berlin u. a. 2020, S. 193–202. DOI: 10.1515/9783110693973-009 [Nachweis im GVK] Richtlinie (EU) 2019/790 des Europäischen Parlaments und des Rates vom 17. April 2019 über das Urheberrecht und die verwandten Schutzrechte im digitalen Binnenmarkt und zur Änderung der Richtlinien 96/9/EG und 2001/29/EG. [online]Anne Schiller / Simone Teufel / Christine Thielen / Christine Stöckert: |
1726 | Urheber- und Medienrecht, 300). Baden-Baden 2022. PDF. DOI: 10.5771/9783748935360Felicitas Kleinkopf / Janina Jacke / Markus | 1595 | Guidelines für das Tagging deutscher Textcorpora mit STTS (kleines und großes |
1727 | Gärtner: Text- und Data-Mining – Urheberrechtliche Grenzen der Nachnutzung | 1596 | Tagset). 1999. PDF. [online] |
1728 | wissenschaftlicher Korpora bei computergestützten Verfahren und digitalen | 1597 | Christof Schöch / Frédéric Döhl / Achim Rettinger / Evelyn Gius / Peer |
1729 | Ressourcen. In: MMR. Zeitschrift für IT-Recht und Recht der Digitalisierung 24 | 1598 | Trilcke / Peter Leinen / Fotis Jannidis / Maria Hinzmann / Jörg Röpke: |
1730 | (2021), H. 3, S. 196–200. DOI: 10.18419/opus-11445 [Nachweis im GVK] Felicitas Kleinkopf / Thomas Pflüger: | 1599 | Abgeleitete Textformate: Text und Data Mining mit urheberrechtlich geschützten |
1731 | Digitale Bildung, Wissenschaft und Kultur – Welcher urheberrechtliche | 1600 | Textbeständen. In: Zeitschrift für digitale Geisteswissenschaften 5 (2020). |
1732 | Reformbedarf verbleibt nach Umsetzung der DSM-RL durch das Gesetz zum | 1601 | DOI: 10.17175/2020_006Friederike Schruhl: Objektumgangsnormen in der Literaturwissenschaft. In: Wie Digitalität |
1733 | Urheberrecht im digitalen Binnenmarkt? In: Zeitschrift für Urheber- und | 1602 | die Geisteswissenschaften verändert: Neue |
1734 | Medienrecht 56 (2021), H. 8 / 9, S. 643–655. [Nachweis im GVK] Thomas Krause / Amir Zeldes: ANNIS3. A New | 1603 | Forschungsgegenstände und Methoden. Hg. von Martin Huber / Sybille Krämer. Wolfenbüttel |
1735 | Architecture for Generic Corpus Query and Visualization. In: Digital | 1604 | 2018. (= |
1736 | Scholarship in the Humanities 31 (2016). H. 1, S. 118–139. 24.10.2014. DOI: | 1605 | Sonderband der Zeitschrift für digitale Geisteswissenschaften, 3) DOI: 10.17175/sb003_012Thomas Schmidt / Johanna Dangel / Christian Wolff: SentText: A Tool for |
1737 | 10.1093/llc/fqu057Ronald Kresta: Realisierungsformen | 1606 | Lexicon-based Sentiment Analysis in Digital Humanities. In: Information between |
1738 | der Interpersonalität in vier linguistischen Fachtextsorten des Englischen und | 1607 | Data and Knowledge. Information Science and its Neighbors from Data Science to |
1739 | des Deutschen (= Theorie und Vermittlung der Sprache, 24). Frankfurt / Main u. | 1608 | Digital Humanities. Proceedings of the 16th International Symposium of |
1740 | a. 1995. [Nachweis im GVK] Matías Martínez / Michael Scheffel: | 1609 | Information Science. Hg. von Christian Wolff / Thomas Schmidt. (ISI 16, |
1741 | Einführung in die Erzähltheorie. 8. Auflage. (= C.-H.-Beck-Studium). München | 1610 | Regensburg, 08–10.03.202) Glückstadt 2021, S. 156–172. DOI: 10.5283/epub.44943 |
1742 | 2009. [Nachweis im GVK] Ansgar Nünning: »Unreliable Narration« zur | 1611 | [Nachweis im GVK] Torsten Steinhoff: Wissenschaftliche Textkompetenz: Sprachgebrauch und |
1743 | Einführung. Grundzüge einer kognitiv-narratologischen Theorie und Analyse | 1612 | Schreibentwicklung in wissenschaftlichen Texten von Studenten und Experten. |
1744 | unglaubwürdigen Erzählens. In: Unreliable Narration. Studien zur Theorie und | 1613 | Tübingen 2007. (= Reihe Germanistische Linguistik, 280) [Nachweis im GVK] Mark D. Wilkinson / Michel Dumontier / IJsbrand Jan Aalbersberg / Gabrielle Appleton / Myles Axton / Arie Baak / Niklas Blomberg / Jan-Willem Boiten / Luiz Bonino da Silva Santos / Philip E. Bourne / Jildau Bouwman / Anthony J. Brookes / Tim Clark / Mercè Crosas / Ingrid Dillo / Olivier Dumon / Scott Edmunds / Chris T. Evelo / Richard Finkers / Alejandra Gonzalez-Beltran / Alasdair J.G. Gray / Paul Groth / Carole Goble / Jeffrey S. Grethe / Jaap Heringa / Peter A.C ’t Hoen / Rob Hooft / Tobias Kuhn / Ruben Kok / Joost Kok / Scott J. Lusher / Maryann E. Martone / Albert Mons / Abel L. Packer / Bengt Persson / Philippe Rocca-Serra / Marco Roos / Rene van Schaik / Susanna-Assunta Sansone / Erik Schultes / Thierry Sengstag / Ted Slater / George Strawn / Morris A. Swertz / Mark Thompson / Johan van der Lei / Erik van Mulligen / Jan Velterop / Andra Waagmeester / Peter Wittenburg / Katherine Wolstencroft / Jun Zhao / Barend Mons: The FAIR |
1745 | Praxis unglaubwürdigen Erzählens. Hg. von Ansgar Nünning / Bruno Zerweck / | 1614 | Guiding Principles for scientific data management and stewardship. In: |
1746 | Carola Surkamp. Trier 1998, S. 3–39. [Nachweis im GVK] Ansgar Nünning: Unreliable, Compared to | 1615 | Scientific Data 3 (2016), Artikelnummer 160018. DOI: 10.1038/sdata.2016.18 [Nachweis im GVK] Tamar Yacobi: Fictional reliability as a communicative problem. In: Poetics |
1747 | What? Towards a Cognitive Theory of »Unreliable Narration«. Prolegomena and | 1616 | Today 2 (1981), H. 2, S. 113–126. [Nachweis im GVK] |
1748 | Hypotheses. In: Grenzüberschreitungen. Narratologie im Kontext / Transcending | ||
1749 | Boundaries. Narratology in Context. Hg. von Walter Grünzweig / Andreas Solbach. | ||
1750 | Tübingen 1999, S. 53–73. [Nachweis im GVK] Axel Pichler / Nils Reiter: Zur | ||
1751 | Operationalisierung literaturwissenschaftlicher Begriffe in der algorithmischen | ||
1752 | Textanalyse. Eine Annäherung über Norbert Altenhofers hermeneutische | ||
1753 | Modellinterpretation von Kleists Das Erdbeben in Chili. In: Journal of Literary | ||
1754 | Theory 15 (2021), H. 1–2, S. 1–29. [online] [Nachweis im GVK] Graeme Porte: Introduction. In: Replication | ||
1755 | Research in Applied Linguistics. Hg. von Graeme Porte. (= Cambridge Applied | ||
1756 | Linguistics Series). Cambridge u. a. 2012, S. 1–17.Benjamin Raue: Die Freistellung von | ||
1757 | Datenanalysen durch die neuen Text und Data Mining-Schranken. In: Zeitschrift | ||
1758 | für Urheber- und Medienrecht 56 (2021), H. 10, S. 793-802. [Nachweis im GVK] Nils Reiter: Anleitung zur Erstellung von | ||
1759 | Annotationsrichtlinien. In: Reflektierte algorithmische Textanalyse. Hg. von | ||
1760 | Nils Reiter / Axel Pichler / Jonas Kuhn. Berlin u. a. 2020, S. 193–202. DOI: | ||
1761 | 10.1515/9783110693973-009 [Nachweis im GVK] Richtlinie (EU) 2019/790 des Europäischen | ||
1762 | Parlaments und des Rates vom 17. April 2019 über das Urheberrecht und die | ||
1763 | verwandten Schutzrechte im digitalen Binnenmarkt und zur Änderung der | ||
1764 | Richtlinien 96/9/EG und 2001/29/EG. [online]Anne Schiller / Simone Teufel / Christine | ||
1765 | Thielen / Christine Stöckert: Guidelines für das Tagging deutscher Textcorpora | ||
1766 | mit STTS (kleines und großes Tagset). 1999. PDF: [online] Christof Schöch / Frédéric Döhl / Achim | ||
1767 | Rettinger / Evelyn Gius / Peer Trilcke / Peter Leinen / Fotis Jannidis / Maria | ||
1768 | Hinzmann / Jörg Röpke: Abgeleitete Textformate: Text und Data Mining mit | ||
1769 | urheberrechtlich geschützten Textbeständen. In: Zeitschrift für digitale | ||
1770 | Geisteswissenschaften 5 (2020). DOI: 10.17175/2020_006Urheberrecht. UrhG, KUG, VGG. | ||
1771 | Kommentar. Hg. von Gerhard Schricker / Ulrich Loewenheim / Matthias Leistner. | ||
1772 | 6. neu bearbeitete Auflage. München 2020. [Nachweis im GVK] Friederike Schruhl: Objektumgangsnormen | ||
1773 | in der Literaturwissenschaft. In: Wie Digitalität die Geisteswissenschaften | ||
1774 | verändert: Neue Forschungsgegenstände und Methoden. Hg. von Martin Huber / | ||
1775 | Sybille Krämer. Wolfenbüttel 2018. (= Sonderband der Zeitschrift für digitale | ||
1776 | Geisteswissenschaften, 3) DOI: 10.17175/sb003_012Thomas Schmidt / Johanna Dangel / Christian | ||
1777 | Wolff: SentText: A Tool for Lexicon-based Sentiment Analysis in Digital | ||
1778 | Humanities. In: Information between Data and Knowledge. Information Science and | ||
1779 | its Neighbors from Data Science to Digital Humanities. Proceedings of the 16th | ||
1780 | International Symposium of Information Science. Hg. von Christian Wolff / | ||
1781 | Thomas Schmidt. (ISI 16, Regensburg, 08–10.03.202) Glückstadt 2021, S. 156–172. | ||
1782 | DOI: 10.5283/epub.44943 [Nachweis im GVK] Torsten Steinhoff: Wissenschaftliche | ||
1783 | Textkompetenz: Sprachgebrauch und Schreibentwicklung in wissenschaftlichen | ||
1784 | Texten von Studenten und Experten. Tübingen 2007. (= Reihe Germanistische | ||
1785 | Linguistik, 280) [Nachweis im GVK] Mark D. Wilkinson / Michel Dumontier / IJsbrand | ||
1786 | Jan Aalbersberg / Gabrielle Appleton / Myles Axton / Arie Baak / Niklas | ||
1787 | Blomberg / Jan-Willem Boiten / Luiz Bonino da Silva Santos / Philip E. Bourne / | ||
1788 | Jildau Bouwman / Anthony J. Brookes / Tim Clark / Mercè Crosas / Ingrid Dillo / | ||
1789 | Olivier Dumon / Scott Edmunds / Chris T. Evelo / Richard Finkers / Alejandra | ||
1790 | Gonzalez-Beltran / Alasdair J.G. Gray / Paul Groth / Carole Goble / Jeffrey S. | ||
1791 | Grethe / Jaap Heringa / Peter A.C ’t Hoen / Rob Hooft / Tobias Kuhn / Ruben Kok | ||
1792 | / Joost Kok / Scott J. Lusher / Maryann E. Martone / Albert Mons / Abel L. | ||
1793 | Packer / Bengt Persson / Philippe Rocca-Serra / Marco Roos / Rene van Schaik / | ||
1794 | Susanna-Assunta Sansone / Erik Schultes / Thierry Sengstag / Ted Slater / | ||
1795 | George Strawn / Morris A. Swertz / Mark Thompson / Johan van der Lei / Erik van | ||
1796 | Mulligen / Jan Velterop / Andra Waagmeester / Peter Wittenburg / Katherine | ||
1797 | Wolstencroft / Jun Zhao / Barend Mons: The FAIR Guiding Principles for | ||
1798 | scientific data management and stewardship. In: Scientific Data 3 (2016), | ||
1799 | Artikelnummer 160018. DOI: 10.1038/sdata.2016.18 [Nachweis im GVK] Tamar Yacobi: Fictional reliability as a | ||
1800 | communicative problem. In: Poetics Today 2 (1981), H. 2, S. 113–126. [Nachweis im GVK] | ||
1801 | 1617 | ||
1810 | 1626 | ||
1811 | Abb. 2: Dataverse-Oberfläche für ein XSample-Manifest. | 1627 | Abb. 2: Dataverse-Oberfläche für ein XSample-Manifest. Rechts unten kann die |
1812 | Rechts unten kann die Weiterleitung auf den XSample-Server angestoßen werden. | 1628 | Weiterleitung auf den XSample-Server angestoßen werden. [Gärtner 2021] |
1813 | [Gärtner | ||
1814 | 2021] | ||
1815 | 1629 | ||
1816 | 1630 | ||
1817 | Abb. 3: Startseite des XSample-Servers nach Weiterleitung | 1631 | Abb. 3: Startseite des XSample-Servers nach Weiterleitung aus dem zugehörigen |
1818 | | 1632 | Dataverse und Validierung der Manifest-Datei. [Gärtner 2021] |
1819 | 1633 | ||
1820 | 1634 | ||
1821 | Abb. 4: Grafische Oberfläche zur flexiblen Auswahl der | 1635 | Abb. 4: Grafische Oberfläche zur flexiblen Auswahl der Auszugsgrenzen. [Gärtner 2021] |
1822 | Auszugsgrenzen. [Gärtner | ||
1823 | 2021] | ||
1824 | 1636 | ||
1825 | 1637 | ||
1826 | Abb. 5: Exemplarische Oberfläche zur Auszugsgenerierung | 1638 | Abb. 5: Exemplarische Oberfläche |
1827 | mittels Suchanfrage basierend auf enthaltenen Annotationen. Die Verteilung der | 1639 | zur Auszugsgenerierung mittels Suchanfrage basierend auf enthaltenen |
1828 | Suchergebnisse über das Korpus wird direkt visualisiert und Nutzer*innen | 1640 | Annotationen. Die Verteilung der Suchergebnisse über das Korpus wird |
1829 | anschließend die Möglichkeit gegeben, die für sie relevanten Segmente exakt | 1641 | direkt visualisiert und Nutzer*innen anschließend die Möglichkeit |
1830 | auszuwählen. [Gärtner | 1642 | gegeben, die für sie relevanten Segmente exakt auszuwählen. [Gärtner 2021] |
1831 | 2021] | ||
1832 | 1643 | ||
1835 | distinktivsten Wortarten für die Unterscheidung von Philosophie und | 1646 | distinktivsten Wortarten für die Unterscheidung von Philosophie und |
1836 | Literaturwissenschaft im Sinne der SVM. Das verwendete Tagset ist das STTS | 1647 | Literaturwissenschaft im Sinne der SVM. Das verwendete Tagset ist das STTS |
1837 | | 1648 | (Schiller et al. 1999). [Andresen 2022] |
1838 | 1649 |