Versionen vergleichen von : Vorzüge von Auszügen – Urheberrechtlich geschützte Texte in den digitalen Geisteswissenschaften (nach-)nutzen
Alt | Neu | ||
---|---|---|---|
17 | Felicitas Kleinkopf | 17 | Felicitas Kleinkopf |
18 | Kontakt: felicitas.kleinkopf@kit.eduInstitution: Karlsruher Institut für Technologie, Institut für Informations- und | 18 | Kontakt: felicitas.kleinkopf@kit.eduInstitution: Karlsruher Institut für Technologie, Institut für |
19 | Wirtschaftsrecht, Zentrum für Angewandte Rechtswissenschaft GND: 1268974757ORCID: 0000-0001-8670-2668 | 19 | Informations- und Wirtschaftsrecht, Zentrum für Angewandte |
20 | Rechtswissenschaft GND: 1268974757ORCID: 0000-0001-8670-2668 | ||
20 | Jonas Kuhn | 21 | Jonas Kuhn |
28 | 29 | ||
29 | DOI: 10.17175/2022_007 | 30 | DOI: 10.17175/2022_007_v2 |
30 | 31 | Nachweis im OPAC der Herzog August Bibliothek: 1845597966 | |
31 | Erstveröffentlichung: 03.11.2022 | 32 | Erstveröffentlichung: 03.11.2022 |
33 | Version 2.0: 22.06.2023 | ||
32 | Lizenz: Sofern nicht anders angegeben | 34 | Lizenz: Sofern nicht anders angegeben |
34 | 36 | ||
35 | Medienlizenzen: Medienrechte liegen bei den Autor*innen. | 37 | Medienlizenzen: Medienrechte liegen bei den Autor*innen |
36 | Letzte Überprüfung aller Verweise: 22.09.2022 | 38 | Letzte Überprüfung aller Verweise: 06.09.2022 |
37 | GND-Verschlagwortung: Urheberrecht | Data Mining | Infrastruktur | Open Science | Digital Humanities | Forschungsdaten | | 39 | GND-Verschlagwortung: Urheberrecht | Data Mining | Infrastruktur | Open Science | Digital Humanities | Forschungsdaten | |
38 | Empfohlene Zitierweise: Melanie Andresen, Markus Gärtner, Sibylle Hermann, Janina Jacke, Nora Ketschik, Felicitas Kleinkopf, Jonas Kuhn: Vorzüge von Auszügen – Urheberrechtlich geschützte Texte in | 40 | Empfohlene Zitierweise: Melanie Andresen, Markus Gärtner, Sibylle Hermann, Janina Jacke, Nora Ketschik, Felicitas Kleinkopf, Jonas Kuhn, Axel Pichler: Vorzüge von Auszügen – Urheberrechtlich geschützte Texte in |
39 | den digitalen Geisteswissenschaften (nach-)nutzen. In: Zeitschrift für digitale Geisteswissenschaften. Wolfenbüttel 2022. text/html Format. DOI: 10.17175/2022_007 | 41 | den digitalen Geisteswissenschaften (nach-)nutzen. In: Zeitschrift für digitale Geisteswissenschaften 7 (2022). 03.11.2022. Version 2.0 vom 22.06.2023. HTML / XML / PDF. DOI: 10.17175/2022_007_v2 |
40 | |||
41 | 42 | ||
45 | Abstract | 46 | Abstract |
47 | |||
46 | Um urheberrechtlichen Einschränkungen beim Austausch zu Forschungsergebnissen | 48 | Um urheberrechtlichen Einschränkungen beim Austausch zu Forschungsergebnissen |
71 | 73 | ||
74 | |||
75 | Version 2.0 (22.06.2023) | ||
76 | Korrekturen in Text und Fußnoten anhand der Monita in den Gutachten. Ergänzungen in | ||
77 | der Bibliografie. | ||
78 | |||
79 | |||
72 | 1. Einleitung | 80 | 1. Einleitung |
86 | 5. Fazit | 94 | 5. Fazit |
87 | | 95 | Bibliografische Angaben |
88 | Abbildungs- und Tabellenverzeichnis | 96 | Abbildungs- und Tabellenverzeichnis |
93 | [1]Die korpusorientierte Forschung an Texten und anderen Materialien in den digitalen | 101 | [1]Die korpusorientierte Forschung an Texten und anderen Materialien in den digitalen |
94 | Geisteswissenschaften ist durch das deutsche Urheberrecht eingeschränkt, das die | 102 | Geisteswissenschaften[1] ist durch das |
95 | Weitergabe von Forschungsdaten zu geschützten Werken und deren Archivierung nur in | 103 | deutsche Urheberrecht eingeschränkt, das die Weitergabe von Forschungsdaten zu |
96 | engen Grenzen erlaubt.[1] Die Restriktionen erschweren die | 104 | geschützten Werken und deren Archivierung nur in engen Grenzen erlaubt.[2] |
97 | Einhaltung der guten wissenschaftlichen Praxis sowie der FAIR-Prinzipien für Forschungsdateninfrastrukturen.[2] In | 105 | Die Restriktionen erschweren die Einhaltung der guten wissenschaftlichen Praxis |
98 | vielen Projekten wird deshalb aus pragmatischen Gründen gänzlich darauf | 106 | sowie der FAIR-Prinzipien für |
99 | verzichtet, urheberrechtlich geschützte Texte einzubeziehen. Nicht selten bedeutet | 107 | Forschungsdateninfrastrukturen.[3] In vielen Projekten wird deshalb aus pragmatischen |
100 | dies, dass zeitgenössische Texte – und mit ihnen bestimmte Fragestellungen – | 108 | Gründen gänzlich darauf verzichtet, urheberrechtlich geschützte Texte |
101 | nahezu vollständig ausgeblendet werden (müssen).[3] Eine so weitreichende | 109 | einzubeziehen. Nicht selten bedeutet dies, dass zeitgenössische Texte – und mit |
102 | Beschneidung des Gegenstandsbereichs führt jedoch nicht nur zu Verzerrungen der | 110 | ihnen bestimmte Fragestellungen – nahezu vollständig ausgeblendet werden |
111 | (müssen).[4] Eine so weitreichende Beschneidung des | ||
112 | Gegenstandsbereichs führt jedoch nicht nur zu Verzerrungen der | ||
103 | Forschungslandschaft, die aus geisteswissenschaftlich-fachlichen Gründen | 113 | Forschungslandschaft, die aus geisteswissenschaftlich-fachlichen Gründen |
104 | problematisch sind, sie hat häufig auch zur Folge, dass sich die Entwicklung | 114 | problematisch sind, sie hat häufig auch zur Folge, dass sich die Entwicklung |
105 | algorithmischer Verfahren mit sehr kleinen Datensätzen und / oder einer | 115 | algorithmischer Verfahren mit sehr kleinen Datensätzen und / oder einer |
106 | Kombination von Quellen behelfen muss. | 116 | heterogenen Kombination von Quellen behelfen muss. |
107 | [2]Selbstverständlich besteht für Forscher*innen die Möglichkeit, für die Forschung | 117 | [2]Selbstverständlich besteht für Forscher*innen die Möglichkeit, für die Forschung |
128 | Reihe von digitalen Analyseverfahren geeignet sind, die den Text jedoch aus | 138 | Reihe von digitalen Analyseverfahren geeignet sind, die den Text jedoch aus |
129 | urheberrechtlicher Perspektive hinreichend verfremden.[ | 139 | urheberrechtlicher Perspektive hinreichend verfremden.[5] Diese abgeleiteten Textformate halten beispielsweise für |
130 | | 140 | Textsegmente wie Kapitel oder Abschnitte lediglich die Häufigkeit der enthaltenen |
131 | | 141 | Einzelwörter oder n-Gramme (also kurzen Wortsequenzen) |
132 | | 142 | fest. Gängige Verfahren der Makroanalyse,[6] die etwa lexikalische Indikatoren für die Dynamik des Textverlaufs |
133 | | 143 | heranziehen, können auf dieser Basis zur Anwendung kommen. Der Urheberrechtsschutz |
134 | | 144 | wird dabei durch den Aufbruch der Textstruktur aufgehoben, sodass Restriktionen |
135 | | 145 | zur Archivierung, Weitergabe und Veröffentlichung der Datensätze nicht mehr zum |
136 | | 146 | Tragen kommen. Das Konzept der abgeleiteten Textformate leistet somit einen großen |
137 | | 147 | Beitrag zur Replizierbarkeit von Forschung und Nachnutzbarkeit von |
138 | | 148 | Forschungsdaten. |
139 | [5]Allerdings stößt das Konzept der abgeleiteten Formate dort an seine Grenzen, wo | 149 | [5]Allerdings stößt das Konzept der abgeleiteten Formate dort an seine Grenzen, wo |
148 | der komplementär zum Konzept der abgeleiteten Textformate eingesetzt werden kann | 158 | der komplementär zum Konzept der abgeleiteten Textformate eingesetzt werden kann |
149 | (vgl. Abbildung 1). | 159 | (vgl. Abbildung 1). |
150 | Ansatz nutzt das bestehende Recht zur Weitergabe von prozentual begrenzten | 160 | Dieser Ansatz nutzt das bestehende Recht zur Weitergabe von prozentual begrenzten |
151 | Auszügen geschützter Werke zu Zwecken der wissenschaftlichen Forschung (§ 60c | 161 | Auszügen geschützter Werke zu Zwecken der wissenschaftlichen Forschung (§ 60c UrhG) |
152 | | 162 | und überträgt dies auf die Herausgabe von Korpusauszügen. Der erlaubte Umfang |
153 | | 163 | dieser Auszüge beträgt zwar in der Regel nur 15 Prozent eines Werks, der |
154 | XSample-Ansatz ermöglicht jedoch eine dynamische, auf das individuelle | 164 | XSample-Ansatz ermöglicht jedoch eine dynamische, auf das individuelle |
157 | vorhandenen Annotationen genau spezifizieren, welche Teile des Korpus für sie | 167 | vorhandenen Annotationen genau spezifizieren, welche Teile des Korpus für sie |
158 | relevant sind. Auf diese Weise werden die rechtlichen Möglichkeiten in einer | 168 | relevant sind. Dabei stellt der XSample-Ansatz sicher, dass die geschützten |
169 | Primärdaten bei der Modellierung der Suchanfrage für die Nachnutzer*innen nicht | ||
170 | einsehbar sind. Auf diese Weise werden die rechtlichen Möglichkeiten in einer | ||
159 | zielführenden Art und Weise ausgeschöpft und nachhaltige Forschung mit | 171 | zielführenden Art und Weise ausgeschöpft und nachhaltige Forschung mit |
178 | [7]Der vorliegende Beitrag geht in Kapitel 2 | 190 | [7]Der vorliegende Beitrag geht in Kapitel 2 |
179 | zunächst auf die rechtlichen Grundlagen ein, die für Verfahren des Text- und Data-Mining (TDM)[ | 191 | zunächst auf die rechtlichen Grundlagen ein, die für Verfahren des Text- und Data-Mining (TDM)[7] gelten und die Rahmenbedingungen für das hier präsentierte |
180 | Auszugskonzept schaffen. Kapitel 3 stellt | 192 | Auszugskonzept schaffen. Kapitel 3 stellt |
182 | innerhalb des rechtlichen Rahmens technisch umgesetzt werden kann. Dabei werden | 194 | innerhalb des rechtlichen Rahmens technisch umgesetzt werden kann. Dabei werden |
183 | insbesondere die unterschiedlichen Akteur*innen in den Blick genommen sowie Schritte | 195 | insbesondere die unterschiedlichen Akteur*innen in den Blick genommen sowie |
184 | der Datenvorbereitung und verschiedene Möglichkeiten der Auszugsgenerierung | 196 | Schritte der Datenvorbereitung und verschiedene Möglichkeiten der |
185 | vorgestellt. Anschließend werden in Kapitel | 197 | Auszugsgenerierung vorgestellt. Anschließend werden in Kapitel 4 zwei Nutzungsszenarien präsentiert, die im |
186 | 4 zwei Nutzungsszenarien präsentiert, die im Kontext konkreter | 198 | Kontext konkreter Forschungsfragen ausführen, inwieweit abgeleitete Textformate |
187 | Forschungsfragen ausführen, inwieweit abgeleitete Textformate und / oder das | 199 | und / oder das Auszugskonzeptkonzept für die Reproduktion ihrer Forschung und die |
188 | Auszugskonzeptkonzept für die Reproduktion ihrer Forschung und die Nachnutzung | 200 | Nachnutzung ihrer Daten praktikabel sind. Das erste Nutzungsszenario widmet sich |
189 | ihrer Daten praktikabel sind. Das erste Nutzungsszenario widmet sich der | 201 | der Wissenschaftssprache der geisteswissenschaftlichen Fächer |
190 | Wissenschaftssprache der geisteswissenschaftlichen Fächer Literaturwissenschaft, | 202 | Literaturwissenschaft, Linguistik und Philosophie und erstellt dazu ein Korpus aus |
191 | Linguistik und Philosophie und erstellt dazu ein Korpus aus insgesamt 135 | 203 | insgesamt 135 urheberrechtlich geschützten Zeitschriftenartikeln. Das zweite |
192 | urheberrechtlich geschützten Zeitschriftenartikeln. Das zweite Nutzungsszenario | 204 | Nutzungsszenario beschäftigt sich mit dem Phänomen des unzuverlässigen Erzählens, |
193 | beschäftigt sich mit dem Phänomen des unzuverlässigen Erzählens, das in einem | 205 | das in einem ersten Zugang anhand eines Korpus aus acht deutschsprachigen |
194 | ersten Zugang anhand eines Korpus aus acht deutschsprachigen fiktionalen | 206 | fiktionalen Erzählungen aus dem 19. bis zum 21. Jahrhundert untersucht wird, die |
195 | Erzählungen aus dem 19. bis zum 21. Jahrhundert untersucht wird, die teilweise dem | 207 | teilweise dem Urheberrecht unterliegen. Nach Abschluss der Forschung sollen die |
196 | Urheberrecht unterliegen. Nach Abschluss der Forschung sollen die Daten für die | 208 | Daten für die Überprüfung der Ergebnisse und zur Nachnutzung in weiteren Projekten |
197 | Überprüfung der Ergebnisse und zur Nachnutzung in weiteren Projekten zur Verfügung | 209 | zur Verfügung gestellt werden. Das Fazit in Kapitel 5 fasst die Ergebnisse zusammen und leitet praktische |
198 | gestellt werden. Das Fazit in Kapitel 5 | 210 | Handlungsempfehlungen und Desiderate ab. |
199 | fasst die Ergebnisse zusammen und leitet praktische Handlungsempfehlungen und | ||
200 | Desiderate ab. | ||
201 | 211 | ||
210 | im Juni 2021, als die Richtlinie zum Urheberrecht im digitalen | 220 | im Juni 2021, als die Richtlinie zum Urheberrecht im digitalen |
211 | Binnenmarkt (Digital Single Market-, kurz DSM-Richtlinie) im Urheberrechtsgesetz (UrhG) umgesetzt wurde. Um einen kurzen Überblick | 221 | Binnenmarkt (Digital Single Market-, kurz DSM-Richtlinie) im Urheberrechtsgesetz (UrhG) umgesetzt wurde. Um einen kurzen |
212 | über die Entwicklung der Gesetzeslage zu geben, wird nachfolgend (Kapitel 2.1) skizziert, in welchem Umfang | 222 | Überblick über die Entwicklung der Gesetzeslage zu geben, wird nachfolgend (Kapitel 2.1) skizziert, in welchem Umfang |
213 | Vervielfältigungen (§ 16 UrhG) und öffentliche Zugänglichmachungen (§ 19a UrhG) | 223 | Vervielfältigungen (§ 16 UrhG) und |
224 | öffentliche Zugänglichmachungen (§ 19a UrhG) | ||
214 | für die Erstellung und (gemeinsame) Beforschung von Korpora im Kontext von TDM in | 225 | für die Erstellung und (gemeinsame) Beforschung von Korpora im Kontext von TDM in |
215 | den verschiedenen Gesetzesfassungen erlaubt waren bzw. sind.[ | 226 | den verschiedenen Gesetzesfassungen erlaubt waren bzw. sind.[8] Daran anschließend werden Fragen nach der |
216 | Zugänglichmachung und Nachnutzbarkeit von Korpora sowie mögliche Lösungsansätze | 227 | Zugänglichmachung und Nachnutzbarkeit von Korpora sowie mögliche Lösungsansätze |
230 | enthalten, sein Werk zu vervielfältigen und es öffentlich zugänglich zu machen. | 241 | enthalten, sein Werk zu vervielfältigen und es öffentlich zugänglich zu machen. |
231 | Eine ausdrückliche Erlaubnis[ | 242 | Eine ausdrückliche Erlaubnis[9] dieser Handlungen |
232 | wurde im Jahr 2018 durch das Gesetz zur Angleichung des Urheberrechts an die | 243 | wurde im Jahr 2018 durch das Gesetz zur Angleichung des Urheberrechts an die |
244 | [10]Aufgrund des Gesetzes zum Urheberrecht im digitalen | 255 | [10]Aufgrund des Gesetzes zum Urheberrecht im digitalen |
245 | Binnenmarkt vom 7. Juni 2021[9] hat sich der | 256 | Binnenmarkt vom 7. Juni 2021[10] hat |
246 | Rechtsrahmen ein weiteres Mal verändert. Seitdem darf Forschung mit TDM auch zu | 257 | sich der Rechtsrahmen ein weiteres Mal verändert. Seitdem darf Forschung mit |
247 | anderen Zwecken als zur nicht-kommerziellen wissenschaftlichen Forschung (diese | 258 | TDM auch zu anderen Zwecken als zur nicht-kommerziellen wissenschaftlichen |
248 | ist weiterhin in § 60d UrhG geregelt), z. B. in Unternehmen oder in der Presse, | 259 | Forschung (diese ist weiterhin in § 60d UrhG geregelt), z. B. in Unternehmen |
249 | praktiziert werden, wenn auch in eingeschränktem Umfang (§ 44b UrhG). Die | 260 | oder in der Presse, praktiziert werden, wenn auch in eingeschränktem Umfang |
250 | Erlaubnis ist dabei nach wie vor an den rechtmäßigen Zugang gebunden. Dieser | 261 | (§ 44b |
251 | rechtmäßige Zugang liegt dann vor, wenn die genutzten Texte in Buchform | 262 | UrhG).[11] Die Erlaubnis ist |
252 | vorliegen, im Internet frei abrufbar sind oder als E-Books lizenziert | 263 | dabei nach wie vor an den rechtmäßigen Zugang gebunden. Dieser rechtmäßige |
253 | wurden.[10] § 60d | 264 | Zugang liegt dann vor, wenn die genutzten Texte in Buchform vorliegen, im |
254 | UrhG wurde außerdem um Befugnisse zugunsten von sogenannten | 265 | Internet frei abrufbar sind oder als E-Books lizenziert wurden.[12] Neu ist auch, dass |
255 | Kulturerbe-Einrichtungen erweitert. Neu ist auch, dass jedenfalls für | 266 | jedenfalls für Vervielfältigungen im Rahmen von TDM nunmehr keine Vergütung |
256 | Vervielfältigungen im Rahmen von TDM nunmehr keine Vergütung mehr anfällt | 267 | mehr anfällt (§ 60h Abs. 2 Nr. 3 UrhG). Diese war zuvor durch die jeweiligen |
257 | (§ 60h Abs. 2 Nr. 3 UrhG). Diese war zuvor durch die jeweiligen Einrichtungen | 268 | Einrichtungen zu tragen. |
258 | zu tragen. | ||
259 | 269 | ||
261 | 271 | ||
262 | [11]§ 60d UrhG in seiner aktuellen Fassung erlaubt es u. a. Forschungs- und | 272 | [11]§ 60d UrhG in seiner aktuellen Fassung erlaubt t es bestimmten privilegierten |
263 | sogenannten Kulturerbe-Einrichtungen, dazu zählen auch die in diesem Aufsatz | 273 | Personenkreisen und Einrichtungen, vollständige Werke zu Zwecken des TDM zu |
264 | adressierten Forschungsinfrastruktureinrichtungen, vollständige Werke zu | 274 | vervielfältigen (Abs. 1 bis 3) und die Vervielfältigungen (d. h. nicht die |
265 | Zwecken des TDM zu vervielfältigen (Abs. 1 bis 3) und die Vervielfältigungen | 275 | unveränderten Ursprungsmaterialien) für die gemeinsame wissenschaftliche |
266 | (d. h. nicht die unveränderten Ursprungsmaterialien) für die gemeinsame | 276 | Forschung bestimmt abgegrenzten Personenkreisen sowie einzelnen Dritten zur |
267 | wissenschaftliche Forschung bestimmt abgegrenzten Personenkreisen sowie | 277 | Überprüfung der wissenschaftlichen Forschung öffentlich zugänglich zu machen |
268 | einzelnen Dritten zur Überprüfung der wissenschaftlichen Forschung öffentlich | 278 | (Abs. 4 S. 1). Im Gegensatz zu seiner Vorgängernorm knüpft § 60d UrhG in seiner |
269 | zugänglich zu machen (Abs. 4 S. 1). Die Zugänglichmachung ist jeweils zu | 279 | neuen Fassung nicht allgemein an nicht-kommerzielle wissenschaftliche |
270 | beenden, wenn die gemeinsame Forschung oder die Überprüfung abgeschlossen ist | 280 | Zwecke[13] an, sondern |
271 | (Abs. 4 S. 2). | 281 | berechtigt Forschungsorganisationen (Hochschulen, Forschungsinstitute und |
282 | sonstige Einrichtungen, die wissenschaftliche Forschung betreiben, hierzu | ||
283 | zählen auch die in diesem Beitrag adressierten | ||
284 | Forschungsinfrastruktureinrichtungen), sofern diese 1. nicht kommerzielle | ||
285 | Zwecke verfolgen, 2. sämtliche Gewinne in die Forschung reinvestieren oder 3. | ||
286 | im Rahmen eines staatlich anerkannten Auftrags im öffentlichen Interesse tätig | ||
287 | sind. Public-Private-Partnerships, d. h. Kooperationen mit privaten | ||
288 | Unternehmen, sind nur dann erfasst, wenn letztere keinen bestimmenden Einfluss | ||
289 | auf die Forschungsorganisation haben und keinen bevorzugten Zugang zu den | ||
290 | Forschungsergebnissen erhalten (§ 60d Abs. 2 S. 3 UrhG). § 60d Abs. 3 Nr. 1 | ||
291 | UrhG benennt nunmehr auch ausdrücklich sogenannte Kulturerbe-Einrichtungen wie | ||
292 | Bibliotheken, Museen, Archive und Einrichtungen im Bereich des Ton- und | ||
293 | Filmerbes, wobei hier nicht an nicht-kommerzielle Zwecke, sondern an ihre | ||
294 | öffentliche Zugänglichkeit angeknüpft wird. Individualforscher*innen sind | ||
295 | weiterhin unter der Voraussetzung, dass sie nicht-kommerzielle Zwecke | ||
296 | verfolgen, erfasst (§ 60d Abs. 3 Nr. 2 UrhG). Die öffentliche Zugänglichmachung | ||
297 | steht unter der Voraussetzung der nicht-kommerziellen Zwecke, sodass auch die | ||
298 | öffentlich zugänglichen Kulturerbe-Einrichtungen diese letztlich beachten | ||
299 | müssen, um vom vollen Umfang der Erlaubnisse des § 60d UrhG zu profitieren. Die | ||
300 | Zugänglichmachung ist jeweils zu beenden, wenn die gemeinsame Forschung oder | ||
301 | die Überprüfung abgeschlossen ist (Abs. 4 S. 2). | ||
272 | [12]Die Befugnis zur Weitergabe der Korpora während der Forschungsarbeiten ist also | 302 | [12]Die Befugnis zur Weitergabe der Korpora während der Forschungsarbeiten ist also |
278 | Öffentlichkeit angehören, d. h. zu denen keine persönliche Beziehung existiert, | 308 | Öffentlichkeit angehören, d. h. zu denen keine persönliche Beziehung existiert, |
279 | vgl. § 15 Abs. 3 UrhG, und die einer »unbestimmten Zahl potentieller | 309 | vgl. § 15 Abs. |
310 | 3 UrhG, und die einer »unbestimmten Zahl potentieller | ||
280 | Adressaten« und einer »ziemlich großen Zahl von | 311 | Adressaten« und einer »ziemlich großen Zahl von |
281 | Personen« angehören.[ | 312 | Personen« angehören.[14] Die |
282 | Korpora während der TDM-Forschungsarbeiten weiterzugeben (§ 60d Abs. | 313 | Erlaubnis, Korpora während der TDM-Forschungsarbeiten weiterzugeben (§ 60d Abs. |
283 | UrhG), bezieht sich hingegen nur auf bestimmt abgegrenzte, d. h. weiter | 314 | 4 S. 1 UrhG), bezieht sich hingegen nur auf bestimmt abgegrenzte, d. h. weiter |
284 | eingegrenzte Personenkreise, die der Öffentlichkeit angehören. Bei | 315 | eingegrenzte Personenkreise, die der Öffentlichkeit angehören. Bei |
285 | Forschungsgruppen handelt es sich in der Regel nicht um eine | 316 | Forschungsgruppen handelt es sich in der Regel nicht um eine |
286 | Öffentlichkeit,[ | 317 | Öffentlichkeit,[15] weswegen |
287 | | 318 | es auf diese Erlaubnis in den meisten Fällen nicht ankommt. |
288 | [13]Die TDM-Korpora dürfen gemäß § 60d UrhG so lange aufbewahrt werden, wie es für | 319 | [13]Die TDM-Korpora dürfen gemäß § 60d UrhG so lange aufbewahrt werden, wie es für |
290 | im Regelfall die von der guten wissenschaftlichen Praxis geforderten zehn | 321 | im Regelfall die von der guten wissenschaftlichen Praxis geforderten zehn |
291 | Jahre,[13] sie kann im Einzelfall aber auch kürzer oder länger bemessen | 322 | Jahre,[16] sie kann im Einzelfall aber auch kürzer oder länger |
292 | sein. Aufgrund der Wissenschaftsfreiheit unterliegt die Einschätzung der | 323 | bemessen sein. Aufgrund der Wissenschaftsfreiheit unterliegt die Einschätzung |
293 | Aufbewahrungsdauer den Forschenden und ist nur eingeschränkt überprüfbar.[14] | 324 | der Aufbewahrungsdauer den Forschenden und ist nur eingeschränkt |
325 | überprüfbar.[17] | ||
294 | [14]Eine Erlaubnis, die Korpora zur Aufbewahrung an | 326 | [14]Eine Erlaubnis, die Korpora zur Aufbewahrung an |
297 | Auslegung aus der Gesetzesbegründung abgeleitet werden, denn diese scheint von | 329 | Auslegung aus der Gesetzesbegründung abgeleitet werden, denn diese scheint von |
298 | einer Aufbewahrung durch Kulturerbe-Einrichtungen auszugehen:[ | 330 | einer Aufbewahrung durch Kulturerbe-Einrichtungen auszugehen:[18] »Hiernach kann auch eine dauerhafte Speicherung erforderlich und folglich |
299 | zulässig sein, insbesondere, wenn sie durch Kulturerbe-Einrichtungen und | 331 | zulässig sein, insbesondere, wenn sie durch Kulturerbe-Einrichtungen und |
300 | nicht durch die Forschungseinrichtung selbst erfolgt«.[16] Möglich ist aber in jedem | 332 | nicht durch die Forschungseinrichtung selbst erfolgt«.[19] Möglich ist aber in |
301 | Fall, die TDM-Projekte gleich von Beginn an auf zentralen Bibliotheksservern | 333 | jedem Fall, die TDM-Projekte gleich von Beginn an auf zentralen |
302 | bzw. einrichtungsübergreifenden Servern anzusiedeln, sodass dort die | 334 | Bibliotheksservern bzw. einrichtungsübergreifenden Servern anzusiedeln, sodass |
303 | Archivierung ohne eine gesonderte Übermittlung erfolgen kann. Dann bewegt man | 335 | dort die Archivierung ohne eine gesonderte Übermittlung erfolgen kann. Dann |
304 | sich im Rahmen dessen, was die Gesetzesbegründung ausdrücklich enthält, und | 336 | bewegt man sich im Rahmen dessen, was die Gesetzesbegründung ausdrücklich |
305 | vermeidet gleichzeitig, das Korpus erneut zu vervielfältigen (§ 16 UrhG). | 337 | enthält, und vermeidet gleichzeitig, das Korpus erneut zu vervielfältigen (§ 16 |
338 | UrhG). | ||
306 | [15]Unklar ist aber weiterhin, ob zu Zwecken von Anschlussforschungen auf die | 339 | [15]Unklar ist aber weiterhin, ob zu Zwecken von Anschlussforschungen auf die |
307 | Korpora zugegriffen werden kann. Gemäß § 60d Abs. 5 UrhG dürfen die Korpora | 340 | Korpora zugegriffen werden kann. Gemäß § 60d Abs. 5 UrhG dürfen die Korpora |
308 | 341 | (nach dem Gesetz jedoch nicht die unveränderten Ursprungsdaten)[20] so lange aufbewahrt werden, wie | |
309 | | 342 | es für Zwecke der Überprüfung der Qualität der wissenschaftlichen Forschung |
310 | | 343 | oder für die Forschung selbst erforderlich ist. Das impliziert, dass es auch |
311 | | 344 | abseits der Überprüfung wissenschaftliches Interesse an den Korpora geben kann. |
312 | | 345 | Auch die DSM-Richtlinie setzt voraus, dass nach Abschluss der |
313 | Forschungsarbeiten bzw. während der Langzeitarchivierung noch Interesse an | 346 | Forschungsarbeiten bzw. während der Langzeitarchivierung noch Interesse an |
314 | weiterer Beforschung der Korpora bestehen kann:[18] »Die Nutzung zum Zwecke der wissenschaftlichen | 347 | weiterer Beforschung der Korpora bestehen kann:[21] »Die Nutzung zum Zwecke der wissenschaftlichen Forschung außerhalb des |
315 | Forschung außerhalb des Text und Data Mining, etwa die Begutachtung unter | 348 | Text und Data Mining, etwa die Begutachtung unter wissenschaftlichen |
316 | wissenschaftlichen Fachkollegen und gemeinsame Forschungsarbeiten, sollte | 349 | Fachkollegen und gemeinsame Forschungsarbeiten, sollte nach wie vor unter |
317 | nach wie vor unter die Ausnahme oder Beschränkung im Sinne von Artikel 5 | 350 | die Ausnahme oder Beschränkung im Sinne von Artikel 5 Absatz 3 Buchstabe a |
318 | Absatz 3 Buchstabe a der Richtlinie 2001/29/EG fallen, sofern diese | 351 | der Richtlinie 2001/29/EG fallen, sofern diese Bestimmung anwendbar |
319 | Bestimmung anwendbar ist.«[19] | 352 | ist.«[22] Für eine |
320 | [16]Für eine | ||
321 | Nachnutzung der Korpora kommen neben den von Schöch et al. vorgestellten | 353 | Nachnutzung der Korpora kommen neben den von Schöch et al. vorgestellten |
322 | 354 | abgeleiteten Textformaten sogenannte Closed-Room-Zugänge[23] (§§ 60e Abs. 4, 60f UrhG) | |
323 | | 355 | und die Erlaubnis der auszugsweisen Nutzung zu Zwecken der wissenschaftlichen |
324 | | 356 | Forschung (§ 60c UrhG) in Betracht. Nachfolgend werden diese beiden Optionen |
325 | | 357 | dargestellt und gegeneinander abgewogen. |
326 | [ | 358 | [16]§§ 60e Abs. 4, 60f UrhG erlauben es Bibliotheken und anderen |
327 | Kulturerbe-Einrichtungen wie öffentlich zugänglichen Museen, ihren Nutzer*innen | 359 | Kulturerbe-Einrichtungen wie öffentlich zugänglichen Museen, ihren Nutzer*innen |
328 | Werke aus ihrem Bestand an Terminals in ihren Räumen für deren Forschung oder | 360 | Werke aus ihrem Bestand an Terminals in ihren Räumen für deren Forschung oder |
329 | private Studien zugänglich zu machen (sogenannte Terminal-Schranke). Die Nutzer*innen dürfen sogenannte Anschlusskopien[ | 361 | private Studien zugänglich zu machen (sogenannte Terminal-Schranke). Die Nutzer*innen dürfen sogenannte Anschlusskopien[24] im Umfang von zehn Prozent erstellen. Einzelne Werke geringen |
330 | Umfangs[ | 362 | Umfangs[25] wie Beiträge aus |
331 | wissenschaftlichen Zeitschriften dürfen hingegen vollständig genutzt werden. | 363 | wissenschaftlichen Zeitschriften dürfen hingegen vollständig genutzt werden. |
335 | UrhG ist gleichwohl, dass jedenfalls der erste Zugriff auf die Werke nur an | 367 | UrhG ist gleichwohl, dass jedenfalls der erste Zugriff auf die Werke nur an |
336 | Terminals vor Ort erfolgen kann (sogenannte Closed- | 368 | Terminals vor Ort erfolgen kann (sogenannte Closed-Room-Zugänge).[26] |
337 | [ | 369 | [17]Anders verhält es sich mit § 60c UrhG, der Erlaubnisnorm für Zwecke der |
338 | nicht-kommerziellen wissenschaftlichen Forschung, auf den sich das hier | 370 | nicht-kommerziellen wissenschaftlichen Forschung, auf den sich das hier |
346 | gerechtfertigt ist« vorzusehen. | 378 | gerechtfertigt ist« vorzusehen. |
347 | [ | 379 | [18]§ 60c Abs. 1 Nr. 1 UrhG erlaubt es, zu Zwecken der nicht-kommerziellen |
348 | wissenschaftlichen Forschung bis zu 15 Prozent von Werken und auch vollständige | 380 | wissenschaftlichen Forschung bis zu 15 Prozent von Werken und auch vollständige |
354 | erlaubt ist allerdings, Werke für eine gesamte Einrichtung frei abrufbar zu | 386 | erlaubt ist allerdings, Werke für eine gesamte Einrichtung frei abrufbar zu |
355 | stellen.[24] | 387 | machen.[27] Die |
356 | [20]Wenn Forschende also nach § 60c UrhG Texte auszugsweise zur Nachnutzung | 388 | nicht-kommerziellen Zwecke können auch bei Drittmittelforschung sowie dann |
389 | vorliegen, wenn Forschende ihre Ergebnisse in einem Verlag veröffentlichen und | ||
390 | Honorare erhalten, kommerzielle Zwecke sind aber jedenfalls dann anzunehmen, | ||
391 | wenn Forschung betrieben wird, um Waren oder Dienstleistungen zu entwickeln und | ||
392 | diese zu vermarkten.[28] Entscheidend ist bei der | ||
393 | Bestimmung der nicht-kommerziellen Zwecke nicht die organisatorische | ||
394 | Einrichtung oder Finanzierung, sondern, ob die jeweilige Nutzung auf | ||
395 | Gewinnerzielung ausgerichtet ist.[29] | ||
396 | [19]Wenn Forschende also nach § 60c UrhG Texte auszugsweise zur Nachnutzung | ||
357 | erhalten und diese anschließend für TDM im Sinne des § 60d UrhG nutzen, werden | 397 | erhalten und diese anschließend für TDM im Sinne des § 60d UrhG nutzen, werden |
359 | einerseits der InfoSoc-Richtlinie und andererseits der DSM-Richtlinie), | 399 | einerseits der InfoSoc-Richtlinie und andererseits der DSM-Richtlinie), |
360 | miteinander kombiniert. Das ist rechtlich möglich.[ | 400 | miteinander kombiniert. Das ist rechtlich möglich.[30] |
361 | [ | 401 | [20]Daneben entspricht die Nachnutzbarkeit auf Grundlage des § 60c UrhG auch den |
362 | Interessen der Urheber*innen, das gilt insbesondere deswegen, weil § 60c UrhG | 402 | Interessen der Urheber*innen, das gilt insbesondere deswegen, weil § 60c UrhG |
363 | vergütungspflichtig ist (§ 60h UrhG) und dadurch ein finanzieller Ausgleich für | 403 | vergütungspflichtig ist (§ 60h UrhG) und dadurch ein finanzieller Ausgleich für |
364 | die Rechteinhaber*innen hergestellt wird, schließlich ist für eine Nutzung | 404 | die Rechteinhaber*innen hergestellt wird, schließlich ist für eine Nutzung |
365 | § 60d UrhG ein rechtmäßiger Zugang erforderlich, der zumeist einen | 405 | gemäß § 60d UrhG ein rechtmäßiger Zugang erforderlich, der zumeist einen |
366 | Ausgleich für den*die Urheber*in enthält. § 60c UrhG setzt diesen | 406 | finanziellen Ausgleich für den*die Urheber*in enthält. § 60c UrhG setzt diesen |
367 | allerdings nicht voraus. Die Vergütung stellt also einen | 407 | rechtmäßigen Zugang allerdings nicht voraus. Die Vergütung stellt also einen |
368 | urheberrechtlichen Interessen her. Insgesamt ermöglicht § 60c | 408 | Ausgleich der urheberrechtlichen Interessen her. Insgesamt ermöglicht § 60c |
369 | eine flexiblere Korpus-Nachnutzung als §§ 60e Abs. 4, 60f UrhG, | 409 | UrhG insofern eine flexiblere Korpus-Nachnutzung als §§ 60e Abs. 4, 60f UrhG, |
370 | das in XSample entwickelte Konzept auf § 60c UrhG stützt. | 410 | weswegen sich das in XSample entwickelte Konzept auf § 60c UrhG stützt. |
371 | 411 | ||
373 | 413 | ||
374 | [ | 414 | [21]Zusammenfassend orientiert sich das hier vorgestellte Auszugskonzept an |
375 | folgenden rechtlichen Einschränkungen, die von | 415 | folgenden rechtlichen Einschränkungen, die von |
376 | Forschungsinfrastruktureinrichtungen, die Korpora mit geschützten Texten bereitstellen möchten, zu prüfen sind: | 416 | Forschungsinfrastruktureinrichtungen, die Korpora mit geschützten Texten |
377 | [23]Einbeziehung der Forschungsinfrastruktureinrichtungen: | 417 | bereitstellen möchten, zu prüfen sind: |
418 | [22]Einbeziehung der Forschungsinfrastruktureinrichtungen: | ||
378 | Forschungsinfrastruktureinrichtungen, die die Korpora aufbewahren und | 419 | Forschungsinfrastruktureinrichtungen, die die Korpora aufbewahren und |
380 | integriert werden. | 421 | integriert werden. |
381 | [ | 422 | [23]Aufbewahrungsdauer: Forscher*innen, die die Korpora |
382 | bereitstellen möchten, sollten eine der Forschung angemessenen | 423 | bereitstellen möchten, sollten eine der Forschung angemessenen |
383 | Aufbewahrungsdauer für die Korpora vorschlagen. Wenn diese von den von der DFG | 424 | Aufbewahrungsdauer für die Korpora vorschlagen. Wenn diese von den von der DFG |
384 | vorgeschlagenen zehn Jahren[ | 425 | vorgeschlagenen zehn Jahren[31] abweicht, sollte eine explizite Begründung |
385 | | 426 | erfolgen. |
386 | [ | 427 | [24]Inhalt der Korpora: Die gespeicherten und gegebenenfalls |
387 | bereitgestellten Korpora dürfen nicht die unveränderten Ursprungsdaten | 428 | bereitgestellten Korpora dürfen nicht die unveränderten Ursprungsdaten |
389 | Lizenzen erworben. | 430 | Lizenzen erworben. |
390 | [26]Nachnutzung: Nachnutzer*innen müssen nicht-kommerzielle, | 431 | [25]Nachnutzung: Nachnutzer*innen müssen nicht-kommerzielle, |
391 | wissenschaftliche Zwecke verfolgen. Die Korpusauszüge dürfen nur bestimmt | 432 | wissenschaftliche Zwecke verfolgen. Die Verifizierung kann dadurch erfolgen, |
433 | dass Interessierte sich in Bezug auf die Zugehörigkeit zu einer | ||
434 | Forschungseinrichtung verifizieren und zudem versichern, die Daten nur für die | ||
435 | nicht-kommerzielle wissenschaftliche Forschung zu verwenden.[32] Die Korpusauszüge dürfen nur bestimmt | ||
392 | abgegrenzten Personenkreisen zugänglich gemacht werden, d. h. auf individuelle | 436 | abgegrenzten Personenkreisen zugänglich gemacht werden, d. h. auf individuelle |
393 | Anfrage. | 437 | Anfrage. |
394 | [ | 438 | [26]Umfang der Korpusauszüge: Korpusauszüge dürfen maximal |
395 | 15 Prozent ganzer Werke betragen, kurze Werke wie z. B. Aufsätze aus | 439 | 15 Prozent ganzer Werke betragen, kurze Werke wie z. B. Aufsätze aus |
401 | 445 | ||
402 | [ | 446 | [27]Wie im vorigen Kapitel beschrieben, bedient |
403 | sich der in XSample verfolgte Ansatz der rechtlichen Erlaubnis, Auszüge bis zu | 447 | sich der in XSample verfolgte Ansatz der rechtlichen Erlaubnis, Auszüge bis zu |
408 | umrissen. Hierfür werden zunächst die Workflow-Akteur*innen (Kapitel 3.1) und die im Workflow eingesetzten | 452 | umrissen. Hierfür werden zunächst die Workflow-Akteur*innen (Kapitel 3.1) und die im Workflow eingesetzten |
409 | Serverkomponenten (Kapitel 3.2) vorgestellt. | 453 | Serverkomponenten (Kapitel 3.2) |
410 | Im Anschluss werden die Vorbereitungsschritte für die Erstellung eines Auszugs | 454 | vorgestellt. Im Anschluss werden die Vorbereitungsschritte für die Erstellung |
411 | (Kapitel 3.3) sowie verschiedene | 455 | eines Auszugs (Kapitel 3.3) sowie |
412 | Möglichkeiten der Auszugsgenerierung (Kapitel | 456 | verschiedene Möglichkeiten der Auszugsgenerierung (Kapitel 3.4) erläutert. Für letztere liegt der Fokus auf |
413 | 3.4) erläutert. Für letztere liegt der Fokus auf der Verwendung im Korpus | 457 | der Verwendung im Korpus enthaltener Annotationen, um mittels Suchanfragen Auszüge |
414 | enthaltener Annotationen, um mittels Suchanfragen Auszüge zu erhalten, die optimal | 458 | zu erhalten, die optimal auf die Bedürfnisse der Nachnutzer*innen zugeschnitten |
415 | auf die Bedürfnisse der Nachnutzer*innen zugeschnitten sind. Abschließend wird die | 459 | sind. Abschließend wird die Nachhaltigkeit und Nachnutzbarkeit der hier |
416 | Nachhaltigkeit und Nachnutzbarkeit der hier vorgestellten Infrastruktur | 460 | vorgestellten Infrastruktur thematisiert (Kapitel 3.5). |
417 | thematisiert (Kapitel 3.5). | ||
418 | 3.1 Workflow-Akteur*innen | 461 | 3.1 Workflow-Akteur*innen |
419 | 462 | ||
420 | [29]XSample unterscheidet zwischen drei Akteur*innen im Workflow: Erstens den | 463 | [28]XSample unterscheidet zwischen drei Akteur*nnen im Workflow: Erstens den |
421 | Infrastrukturbetreiber*innen, zweitens den Datenanbieter*innen / -lieferant*innen und | 464 | Infrastrukturbetreiber*innen, zweitens den Datenanbieter*innen / |
422 | drittens den Nachnutzer*innen. Infrastrukturbetreiber*innen gehören zu den oben | 465 | -lieferant*innen und drittens den Nachnutzer*innen. |
423 | adressierten Forschungsinfrastruktureinrichtungen und bieten die | 466 | Infrastrukturbetreiber*innen gehören zu den oben adressierten |
424 | infrastrukturelle Komponente zur Ablage und Verwaltung der verschiedenen im | 467 | Forschungsinfrastruktureinrichtungen und bieten die infrastrukturelle |
425 | Workflow anfallenden Daten. Eine zentrale Bedeutung kommt hierbei der | 468 | Komponente zur Ablage und Verwaltung der verschiedenen im Workflow anfallenden |
426 | Authentifizierung von Nutzer*innen und einem feingranularen Rechtemanagement | 469 | Daten. Eine zentrale Bedeutung kommt hierbei der Authentifizierung von |
427 | zu, um die beschriebenen rechtlichen Bedingungen (z. B. Zugriffsbeschränkung | 470 | Nutzer*innen und einem feingranularen Rechtemanagement zu, um die beschriebenen |
428 | für bestimmt abgegrenzte Personenkreise) erfüllen zu können. Neben der reinen | 471 | rechtlichen Bedingungen (z. B. Zugriffsbeschränkung für bestimmt abgegrenzte |
429 | Datenablage dient das zugrundeliegende Repositorium mit seiner Weboberfläche | 472 | Personenkreise) erfüllen zu können. Neben der reinen Datenablage dient das |
430 | gleichzeitig als zentraler Einstiegspunkt für die weiteren beteiligten | 473 | zugrundeliegende Repositorium mit seiner Weboberfläche gleichzeitig als |
431 | Akteur*innen. Als Datenlieferant*innen werden im XSample-Kontext sämtliche | 474 | zentraler Einstiegspunkt für die weiteren beteiligten Akteur*innen. Als |
432 | Personen oder Personenkreise bezeichnet, welche (gemäß § 60d UrhG) TDM auf | 475 | Datenlieferant*innen werden im XSample-Kontext sämtliche Personen oder |
433 | geschützten Werken zum Zwecke nicht-kommerzieller Forschung durchführen und die | 476 | Personenkreise bezeichnet, welche (gemäß § 60d UrhG) TDM auf geschützten Werken |
434 | dabei erzeugten Korpora zur Nachnutzung durch XSample verfügbar machen möchten. | 477 | zum Zwecke nicht-kommerzieller Forschung durchführen und die dabei erzeugten |
435 | Die Gruppe der Nachnutzer*innen schließlich beinhaltet die nach § 60c UrhG | 478 | Korpora zur Nachnutzung durch XSample verfügbar machen möchten. Die Gruppe der |
436 | bestimmt abgegrenzten Personenkreise, denen auszugsweise Zugang zu geschützten | 479 | Nachnutzer*innen schließlich beinhaltet die nach § 60c UrhG bestimmt |
437 | Werken zum Zwecke nicht-kommerzieller Forschung gewährt werden darf. | 480 | abgegrenzten Personenkreise, denen auszugsweise Zugang zu geschützten Werken |
481 | zum Zwecke nicht-kommerzieller Forschung gewährt werden darf. | ||
438 | 482 | ||
440 | 484 | ||
441 | [ | 485 | [29]Innerhalb des XSample-Workflows kommen zwei getrennte Serverkomponenten zum |
442 | Einsatz: das Repositorium und die Auszugsgenerierung. Beide stehen unter der | 486 | Einsatz: das Repositorium und die Auszugsgenerierung. Beide stehen unter der |
444 | Weboberflächen. | 488 | Weboberflächen. |
445 | [ | 489 | [30]Das Repositorium dient vorwiegend der Ablage und Verwaltung der Korpus- und |
446 | eventuell Ursprungsdaten und wird innerhalb des Prototyps durch eine | 490 | eventuell Ursprungsdaten und wird innerhalb des Prototyps durch eine |
464 | Zugriff abgeschirmt sind. | 508 | Zugriff abgeschirmt sind. |
465 | [ | 509 | [31]Neben dem Repositorium stellt die Auszugsgenerierung als eigener Server die |
466 | zweite Komponente im XSample-Workflow dar. Sie leitet Nutzer*innen auf einer | 510 | zweite Komponente im XSample-Workflow dar. Sie leitet Nutzer*innen auf einer |
488 | 532 | ||
489 | [ | 533 | [32]Bevor Auszüge aus einem Korpus generiert werden können, sind mehrere |
490 | Vorbereitungsschritte notwendig: | 534 | Vorbereitungsschritte notwendig: |
491 | Zulässige Formate: Alle für die Auszüge zu verwendenden | 535 | [33]Zulässige Formate: Alle für die Auszüge zu verwendenden |
492 | Dateien des Korpus müssen in einem nicht öffentlich zugreifbaren Bereich | 536 | Dateien des Korpus müssen in einem nicht öffentlich zugreifbaren Bereich |
494 | Prototypenimplementierung ist bisher nur eine begrenzte Anzahl von Formaten für | 538 | Prototypenimplementierung ist bisher nur eine begrenzte Anzahl von Formaten für |
495 | Ursprungsdaten (PDF, EPUB oder TXT) und Annotationen (TEI-Subset und | 539 | Ursprungsdaten (PDF, EPUB oder TXT) und Annotationen (TEI-Subset und CoNLL-ähnliche tabellarische Formate) vorgesehen. Während |
496 | CoNLL-ähnliche tabellarische Formate) vorgesehen. Werden unveränderte | 540 | der Konzeptphase lag hierbei der Fokus auf EPUB und TXT |
497 | Ursprungsdaten eingegliedert, ist von Seiten der Infrastrukturbetreiber*innen | 541 | Primärdaten, sowie Annotationen in einem Subset des weit verbreiteten TEI-Formats aus dem zweiten |
498 | und Datenanbieter*innen auch zu prüfen, ob für die verwendeten Werke | 542 | Nutzungsszenario (Kapitel 4.2). Bedingt durch zeitliche Überschneidungen |
543 | verschob sich dieser Fokus im Verlauf der Implementierungsphase auf Daten des | ||
544 | ersten Nutzungsszenarios (Kapitel 4.1), konkret auf PDF-Dateien und das | ||
545 | tabellarische Format des CoNLL-2009-Shared-Tasks. Werden unveränderte Ursprungsdaten | ||
546 | eingegliedert, ist von Seiten der Infrastrukturbetreiber*innen und | ||
547 | Datenanbieter*innen auch zu prüfen, ob für die verwendeten Werke | ||
499 | Archivierungsrechte oder Lizenzen mit äquivalenten Berechtigungen vorliegen, | 548 | Archivierungsrechte oder Lizenzen mit äquivalenten Berechtigungen vorliegen, |
515 | große Hürde darstellen. Dies sollte schon frühzeitig im Projekt eingeplant | 564 | große Hürde darstellen. Dies sollte schon frühzeitig im Projekt eingeplant |
516 | werden, damit die notwendigen und nicht selten ›format-fremden‹[ | 565 | werden, damit die notwendigen und nicht selten ›format-fremden‹[33] Informationen nicht im |
517 | verloren gehen und entweder durch manuellen Zusatzaufwand | 566 | Forschungsprozess verloren gehen und entweder durch manuellen Zusatzaufwand |
518 | automatischer Verarbeitungsschritte wiederhergestellt werden | 567 | oder Anpassung automatischer Verarbeitungsschritte wiederhergestellt werden |
519 | der Alignierungsinformationen erfolgt analog zu obigen | 568 | müssen. Die Ablage der Alignierungsinformationen erfolgt analog zu obigen |
520 | Annotationsdateien in einem nicht-öffentlichen Bereich. | 569 | Ursprungs- und Annotationsdateien in einem nicht-öffentlichen Bereich. |
521 | [35]Erzeugung eines Manifests: Als letztes muss ein | 570 | [35]Erzeugung eines Manifests: Als letztes muss ein |
549 | [36]Beim folgenden Beispiel handelt es sich um ein Manifest mit Informationen zu | 598 | [36]Beim folgenden Beispiel handelt es sich um ein Manifest mit Informationen zu |
550 | Primärdaten im Repositorium, Rechteinhaber*innen und voreingestellten Werten | 599 | Primärdaten im Repositorium, Rechteinhaber*innen und voreingestellten Werten |
551 | statische Auszugsgenerierung. Das beschriebene Beispielkorpus ist eine | 600 | für die statische Auszugsgenerierung. Das beschriebene Beispielkorpus ist eine |
552 | 100-seitige PDF-Datei (verlinkt im | 601 | 100-seitige PDF-Datei (verlinkt im |
594 | [38]Sind alle Vorbereitungsschritte abgeschlossen, können Nachnutzer*innen über die | 643 | [38]Sind alle Vorbereitungsschritte abgeschlossen, können Nachnutzer*innen über die |
595 | Dataverse-Oberfläche (Abbildung | 644 | Dataverse-Oberfläche (Abbildung 2) eine Zugriffsanfrage auf die XSample-Manifeste stellen. |
596 | 2) eine Zugriffsanfrage auf die XSample-Manifeste stellen. Wenn diese | 645 | Wenn diese durch die Infrastrukturbetreiber*innen akzeptiert wird, dürfen die |
597 | durch die Infrastrukturbetreiber*innen akzeptiert wird, dürfen die | 646 | Nachnutzer*innen auf den XSample-Server (Abbildung 3) weitergeleitet werden, wo |
598 | Nachnutzer*innen auf den XSample-Server (Abbildung 3) weitergeleitet werden, wo die | 647 | die eigentliche Konfiguration und Erstellung der Auszüge erfolgt. Da einzelnen |
599 | eigentliche Konfiguration und Erstellung der Auszüge erfolgt. Da einzelnen | ||
600 | Nutzer*innen nach § 60c UrhG jeweils nur maximal 15 Prozent eines geschützten | 648 | Nutzer*innen nach § 60c UrhG jeweils nur maximal 15 Prozent eines geschützten |
625 | (Korpus-)Ressourcen. Anschließend haben Nutzer*innen die Möglichkeit, zwischen | 673 | (Korpus-)Ressourcen. Anschließend haben Nutzer*innen die Möglichkeit, zwischen |
626 | drei Arten der Auszugsgenerierung (vgl. Abbildung 3, unten links) auszuwählen: | 674 | drei Arten der Auszugsgenerierung (vgl. Abbildung 3, unten links) auszuwählen: |
627 | simpelste Lösung kann ein statisch definierter Auszug (beispielsweise die | 675 | Als simpelste Lösung kann ein statisch definierter Auszug (beispielsweise die |
628 | ersten 10 Prozent oder ein anderer im Manifest definierter Abschnitt) gewählt | 676 | ersten 10 Prozent oder ein anderer im Manifest definierter Abschnitt) gewählt |
629 | werden. Wird mehr Kontrolle über die Zusammensetzung des Auszugs gewünscht, | 677 | werden. Wird mehr Kontrolle über die Zusammensetzung des Auszugs gewünscht, |
630 | bietet die zweite Alternative (vgl. Abbildung 4) die Möglichkeit, die Auszugsgrenzen innerhalb der | 678 | bietet die zweite Alternative (vgl. Abbildung 4) die Möglichkeit, die |
631 | Ursprungsdaten frei zu definieren (z. B. die Seiten 20 bis 33). Auch hier wird | 679 | Auszugsgrenzen innerhalb der Ursprungsdaten frei zu definieren (z. B. die |
632 | eine zusammenhängende Sequenz an Seiten / Segmenten geliefert. | 680 | Seiten 20 bis 33). Auch hier wird eine zusammenhängende Sequenz an Seiten / |
681 | Segmenten geliefert. In jedem Falle stehen die Auszugsdaten am Ende des | ||
682 | Workflows direkt als zip-Datei zum Download zur Verfügung, zusammen mit | ||
683 | bibliografischen Informationen zu den Auszügen und den Rechteinhaber*innen. | ||
633 | 684 | ||
642 | oder Passagen interessieren. Um dem gerecht zu werden, wird als dritte | 693 | oder Passagen interessieren. Um dem gerecht zu werden, wird als dritte |
643 | Alternative eine Korpusanfrageschnittstelle[ | 694 | Alternative eine Korpusanfrageschnittstelle[34] integriert, die Suchanfragen auf Basis der im Korpus |
644 | enthaltenen Annotationen ermöglicht. Dadurch lassen sich beispielsweise gezielt | 695 | enthaltenen Annotationen ermöglicht. Dadurch lassen sich beispielsweise gezielt |
645 | bestimmte syntaktische Konstruktionen finden[ | 696 | bestimmte syntaktische Konstruktionen finden[35], die dann als Kandidaten für |
646 | die Auszugserstellung genutzt werden (vgl. Abbildung 5). Basierend auf diesen | 697 | die Auszugserstellung genutzt werden (vgl. Abbildung 5). Basierend auf diesen |
649 | sicherstellen, dass die Auszüge optimal auf die individuellen Bedürfnisse der | 700 | sicherstellen, dass die Auszüge optimal auf die individuellen Bedürfnisse der |
650 | Nutzer*innen zugeschnitten sind. | 701 | Nutzer*innen zugeschnitten sind. Da Nutzer*innen zu diesem Zeitpunkt der |
702 | Auszugsgenerierung noch kein Zugriff auf die geschützten Daten gewährt werden | ||
703 | kann, wird lediglich eine visuelle Verteilung der Treffer und möglicher | ||
704 | Auszugssegmente angeboten. Etablierte Such- und Visualisierungswerkzeuge wie | ||
705 | ANNIS[36] oder | ||
706 | KorAP[37] stellen | ||
707 | zwar umfangreiche Such- und Exportmöglichkeiten zur Verfügung, bieten aber | ||
708 | nicht diese notwendige Abschirmung der Daten bis zur finalen Auszugserstellung. | ||
709 | Die den beiden erwähnten und anderen bestehenden Suchwerkzeugen zugrunde | ||
710 | liegenden Anfragesprachen und -Schnittstellen könnten allerdings als | ||
711 | Alternativen zu den im Prototypen integrierten Optionen für ICARUS und ICARUS2 | ||
712 | dienen. | ||
651 | 713 | ||
656 | direkt visualisiert und Nutzer*innen anschließend die Möglichkeit | 718 | direkt visualisiert und Nutzer*innen anschließend die Möglichkeit |
657 | gegeben, die für sie relevanten Segmente exakt auszuwählen. [Gärtner 2021] | 719 | gegeben, die für sie relevanten Segmente exakt auszuwählen. [Gärtner |
720 | 2021] | ||
658 | 721 | ||
681 | können, werden nur diejenigen weiterhin angeboten, die sich bewährt haben. | 744 | können, werden nur diejenigen weiterhin angeboten, die sich bewährt haben. |
682 | [42]Die Software für den Prototypen | 745 | [42]Die Software für den Prototypen |
683 | somit auch von anderen | 746 | ist open-source öffentlich verfügbar und kann somit auch von anderen |
684 | XSample-Servers zu | 747 | Einrichtungen genutzt werden, um eine eigene Instanz des XSample-Servers zu |
685 | lediglich eine | 748 | betreiben. Neben einem laufenden Dataverse-Server wird lediglich eine |
686 | bestehende | 749 | SQL-basierte Datenbank benötigt, um den XSample-Server in bestehende |
687 | Rechenleistung und | 750 | Infrastruktur integrieren zu können. Die Anforderungen an Rechenleistung und |
688 | überschaubar. | 751 | Speicherplatz für den Prototypen sind hierbei überschaubar. |
689 | [43]Zwar ist der aktuelle Prototyp auf die Schnittstelle zu Dataverse beschränkt, | 752 | [43]Zwar ist der aktuelle Prototyp auf die Schnittstelle zu Dataverse beschränkt, |
711 | Disziplinen Literaturwissenschaft, Linguistik und Philosophie. Es handelt sich | 774 | Disziplinen Literaturwissenschaft, Linguistik und Philosophie. Es handelt sich |
712 | dabei um die Replikation einer Studie[30] zur Frage, wie sich | 775 | dabei um die Replikation einer Studie[38] |
713 | die Wissenschaftssprachen von Linguistik und Literaturwissenschaft voneinander | 776 | zur Frage, wie sich die Wissenschaftssprachen von Linguistik und |
714 | unterscheiden. Als Datengrundlage der Originalstudie dienen jeweils 30 | 777 | Literaturwissenschaft voneinander unterscheiden. Als Datengrundlage der |
715 | Dissertationen aus den beiden Fächern. Die Unterschiede zwischen den beiden | 778 | Originalstudie dienen jeweils 30 Dissertationen aus den beiden Fächern. Die |
716 | Teilkorpora werden in einem datengeleiteten Verfahren mithilfe von maschinellem | 779 | Unterschiede zwischen den beiden Teilkorpora werden in einem datengeleiteten |
717 | Lernen ermittelt. Daran anschließend erfolgt eine Interpretation der | 780 | Verfahren mithilfe von maschinellem Lernen ermittelt. Daran anschließend |
718 | deutlichsten Unterschiede vor dem Hintergrund wissenschaftstheoretischer | 781 | erfolgt eine Interpretation der deutlichsten Unterschiede vor dem Hintergrund |
719 | Merkmale der beiden Disziplinen. In der Replikationsstudie werden im | 782 | wissenschaftstheoretischer Merkmale der beiden Disziplinen. In der |
720 | Wesentlichen zwei Modifikationen vorgenommen: Erstens erfolgt eine Veränderung | 783 | Replikationsstudie werden im Wesentlichen zwei Modifikationen vorgenommen:[39] Erstens |
721 | der Variable ›Textsorte‹ von Dissertationen hin zu Zeitschriftenartikeln. | 784 | erfolgt eine Veränderung der Variable ›Textsorte‹ von Dissertationen hin zu |
722 | Während die Autor*innen von Dissertationen mit ihren Texten zwar ihre | 785 | Zeitschriftenartikeln. Während die Autor*innen von Dissertationen mit ihren |
723 | Beherrschung der fachtypischen Wissenschaftssprache nachweisen, durchlaufen | 786 | Texten zwar ihre Beherrschung der fachtypischen Wissenschaftssprache |
724 | Zeitschriftenartikel in der Regel mehr Schritte der Qualitätssicherung. Sie | 787 | nachweisen, durchlaufen Zeitschriftenartikel in der Regel mehr Schritte der |
725 | werden außerdem von der Fachgemeinschaft breiter rezipiert, sodass sie auch als | 788 | Qualitätssicherung. Sie werden außerdem von der Fachgemeinschaft breiter |
726 | repräsentativer für die jeweilige fachspezifische Wissenschaftssprache gelten | 789 | rezipiert, sodass sie auch als repräsentativer für die jeweilige |
727 | können. Zweitens wird die Datengrundlage um die Philosophie als drittes | 790 | fachspezifische Wissenschaftssprache gelten können. Zweitens wird die |
728 | geisteswissenschaftliches Fach erweitert. Dadurch werden Literaturwissenschaft | 791 | Datengrundlage um die Philosophie als drittes geisteswissenschaftliches Fach |
729 | und Linguistik nochmals aus einer neuen Perspektive beleuchtet, nämlich im | 792 | erweitert. Dadurch werden Literaturwissenschaft und Linguistik nochmals aus |
730 | Kontrast zur Philosophie. Außerdem ist mit der Hinzunahme des dritten Faches | 793 | einer neuen Perspektive beleuchtet, nämlich im Kontrast zur Philosophie. |
731 | ein Schritt dahingehend getan, Aussagen über die Wissenschaftssprache der | 794 | Außerdem ist mit der Hinzunahme des dritten Faches ein Schritt dahingehend |
732 | Geisteswissenschaften im Allgemeinen zu treffen. | 795 | getan, Aussagen über die Wissenschaftssprache der Geisteswissenschaften im |
796 | Allgemeinen zu treffen. | ||
733 | [46]Das Korpus umfasst insgesamt 135 Zeitschriftenartikel, jeweils 45 pro Fach. | 797 | [46]Das Korpus umfasst insgesamt 135 Zeitschriftenartikel, jeweils 45 pro Fach. |
734 | Alle Texte werden automatisch mit Lemmata, Wortarten und syntaktischen | 798 | Alle Texte werden automatisch mit Lemmata, Wortarten und syntaktischen |
735 | Dependenzen annotiert. Für den XSample-Workflow werden die annotierten Texte im CoNLL-Format an der Universitätsbibliothek Stuttgart | 799 | Dependenzen annotiert. Für den XSample-Workflow werden die annotierten Texte im |
736 | gespeichert. Die Ursprungsdaten im PDF-Format werden gemeinsam mit den | 800 | CoNLL-2009-Format an der Universitätsbibliothek Stuttgart gespeichert. Die |
737 | Annotationen im Repositorium aufbewahrt. Um sicherzustellen, dass von den | 801 | Ursprungsdaten im PDF-Format werden gemeinsam mit den Annotationen im |
738 | annotierten Daten wieder auf die PDF-Seiten der Ursprungsdaten geschlossen | 802 | Repositorium aufbewahrt. Um sicherzustellen, dass von den annotierten Daten |
739 | werden kann, müssen hierbei Informationen zur Alignierung der beiden | 803 | wieder auf die PDF-Seiten der Ursprungsdaten geschlossen werden kann, müssen |
740 | Dateiformate gespeichert werden. Im Falle dieses Nutzungsszenarios erfolgt dies | 804 | hierbei Informationen zur Alignierung der beiden Dateiformate gespeichert |
741 | in Form einer einfachen Tabelle für jedes Dokument, die für jeden fortlaufend | 805 | werden. Im Falle dieses Nutzungsszenarios erfolgt dies in Form einer einfachen |
742 | nummerierten Satz verzeichnet, auf welcher Seite oder welchen Seiten im | 806 | Tabelle für jedes Dokument, die für jeden fortlaufend nummerierten Satz |
743 | PDF-Dokument er zu finden ist. | 807 | verzeichnet, auf welcher Seite oder welchen Seiten im PDF-Dokument er zu finden |
744 | [47]Im Fokus der Replikationsstudie stehen Einzelwörter und Wortartentags (Unigramme), während die vorausgehende Studie[31] einen besonderen Schwerpunkt auf | 808 | ist. |
745 | Sequenzen legt, die entlang der syntaktischen Dependenzen im Satz gebildet | 809 | [47]Im Fokus der Replikationsstudie steht der Teil der vorausgehende Studie[40], |
746 | werden. Hiervon abgesehen orientiert sich die Replikationsstudie in | 810 | der Einzelwörter und Wortartentags (Unigramme) |
747 | methodischer Hinsicht eng am Original: Im ersten Schritt werden die Merkmale | 811 | betrachtet.[41] |
748 | mit den größten Unterschieden zwischen den Teilkorpora auf datengeleitete Weise | 812 | In methodischer Hinsicht orientiert sich die Replikationsstudie eng am |
749 | ermittelt. Zu diesem Zweck wird mit dem maschinellen Lernverfahren der Support-Vector-Machine (SVM) ein Klassifikator trainiert, | 813 | Original: Im ersten Schritt werden die Merkmale mit den größten Unterschieden |
750 | der jeweils zwischen Texten aus zwei der drei Disziplinen unterscheiden soll. | 814 | zwischen den Teilkorpora auf datengeleitete Weise ermittelt. Zu diesem Zweck |
751 | Die lineare SVM bietet die Möglichkeit, auf die Koeffizienten zuzugreifen, die | 815 | wird mit dem maschinellen Lernverfahren der Support-Vector-Machine (SVM) ein Klassifikator trainiert, der |
752 | für jedes Merkmal ausdrücken, wie hilfreich es für die Klassifikationsaufgabe | 816 | jeweils zwischen Texten aus zwei der drei Disziplinen unterscheiden soll. Die |
753 | war. Anhand dieser Koeffizienten wird ein Feature-Ranking wie in Tabelle 1 erstellt, das die | 817 | lineare SVM bietet die Möglichkeit, auf die Koeffizienten zuzugreifen, die für |
754 | größten Unterschiede zwischen den Teilkorpora (im Sinne der SVM) darstellt. Der | 818 | jedes Merkmal ausdrücken, wie hilfreich es für die Klassifikationsaufgabe war. |
755 | zweite Schritt der Analyse besteht dann in der Interpretation dieses | 819 | Anhand dieser Koeffizienten wird ein Feature-Ranking wie in Tabelle 1 erstellt, das die größten Unterschiede |
756 | Feature-Rankings. Welche sprachlichen Unterschiede verbergen sich hinter den | 820 | zwischen den Teilkorpora (im Sinne der SVM) darstellt. Der zweite Schritt der |
757 | Merkmalen und (wie) können sie anhand wissenschaftstheoretischer Merkmale der | 821 | Analyse besteht dann in der Interpretation dieses Feature-Rankings. Welche |
758 | Disziplinen erklärt werden? Während der erste Schritt rein datengeleitet | 822 | sprachlichen Unterschiede verbergen sich hinter den Merkmalen und (wie) können |
759 | arbeitet, muss für die Interpretation auf unterschiedliche Ressourcen | 823 | sie anhand wissenschaftstheoretischer Merkmale der Disziplinen erklärt werden? |
760 | zurückgegriffen werden: Erstens ist der erneute Rückgriff auf das Korpus | 824 | Während der erste Schritt rein datengeleitet arbeitet, muss für die |
761 | notwendig, um verstehen zu können, wie das Merkmal in den Texten verwendet | 825 | Interpretation auf unterschiedliche Ressourcen zurückgegriffen werden: Erstens |
762 | wird. Zweitens muss Wissen über die wissenschaftstheoretischen Merkmale der | 826 | ist der erneute Rückgriff auf das Korpus notwendig, um verstehen zu können, wie |
763 | Disziplinen sowie bereits vorhandene empirische Erkenntnisse zu den | 827 | das Merkmal in den Texten verwendet wird. Zweitens muss Wissen über die |
764 | vorliegenden Phänomenen herangezogen werden, um die Daten in einen funktionalen | 828 | wissenschaftstheoretischen Merkmale der Disziplinen sowie bereits vorhandene |
765 | Zusammenhang setzen und gegebenenfalls erklären zu können. | 829 | empirische Erkenntnisse zu den vorliegenden Phänomenen herangezogen werden, um |
830 | die Daten in einen funktionalen Zusammenhang setzen und gegebenenfalls erklären | ||
831 | zu können. | ||
766 | 832 | ||
865 | 931 | ||
866 | Tab. 1: Die distinktivsten | 932 | Tab. 1: Die distinktivsten Wortarten |
867 | | 933 | für die Unterscheidung von Philosophie und Literaturwissenschaft im Sinne |
868 | | 934 | der SVM. Das verwendete Tagset ist das STTS (Schiller et al. 1999). [Andresen |
869 | | 935 | 2022] |
870 | [48]Diese Schritte werden im Folgenden am Beispiel der Analyse der Verwendung des | 936 | [48]Diese Schritte werden im Folgenden am Beispiel der Analyse der Verwendung des |
873 | Überprüfung und Re-Validierung der Analyseresultate vonnöten sind. | 939 | Überprüfung und Re-Validierung der Analyseresultate vonnöten sind. |
874 | [49]Tabelle 1 zeigt das Ranking | 940 | [49]Tabelle 1 zeigt das Ranking der 15 |
875 | | 941 | distinktivsten Wortarten für den Vergleich von Philosophie und |
876 | Literaturwissenschaft. Während sich aus diesen Ergebnissen zahlreiche relevante | 942 | Literaturwissenschaft. Während sich aus diesen Ergebnissen zahlreiche relevante |
887 | Stichprobe von 100 Sätzen, in denen wir verwendet | 953 | Stichprobe von 100 Sätzen, in denen wir verwendet |
888 | wird, nach dem Zufallsprinzip ausgewählt und manuell | 954 | wird, nach dem Zufallsprinzip ausgewählt und manuell in Bezug auf ihre Funktion |
889 | auf die Klassifikation von wir-Verwendungen im | 955 | klassifiziert. Dabei wurde auf die Klassifikation von wir-Verwendungen im deutschsprachigen akademischen Diskurs von |
890 | | 956 | Kresta[42] zurückgegriffen. Kresta |
891 | | 957 | unterscheidet vier Gebrauchsweisen von wir in |
892 | Pronomen wird verwendet, | 958 | deutschsprachigen akademischen Texten: Das Pronomen wird verwendet, |
893 | a.) um auf die tatsächlichen Verfasser*innen eines Textes zu verweisen | 959 | a.) um auf die tatsächlichen Verfasser*innen eines Textes zu verweisen |
901 | 967 | ||
902 | [50]Die Stichproben zeigen (vgl. Tabelle 2) in den Texten fachspezifische Muster der wir-Verwendungen: So sind sich die | 968 | [50]Die Stichproben zeigen (vgl. Tabelle |
903 | literaturwissenschaftlichen und philosophischen Texte darin ähnlich, dass in | 969 | 2) in den Texten fachspezifische Muster der wir-Verwendungen: So sind sich die literaturwissenschaftlichen und |
904 | beiden Gruppen die Verwendung des Gemeinschafts-wir | 970 | philosophischen Texte darin ähnlich, dass in beiden Gruppen die Verwendung des |
905 | dominiert, während in den linguistischen Aufsätzen die Verwendung des | 971 | Gemeinschafts-wir dominiert, während in den |
906 | Autor*innen-wir vorherrscht. Die Dominanz des | 972 | linguistischen Aufsätzen die Verwendung des Autor*innen-wir vorherrscht. Die Dominanz des Autor*innen-wir in der Linguistik lässt sich dadurch erklären, dass die Texte |
907 | Autor*innen-wir in der Linguistik lässt sich | 973 | tatsächlich mehrheitlich von mehreren Autor*innen verfasst wurden (siehe |
908 | dadurch erklären, dass die Texte tatsächlich mehrheitlich von mehreren | 974 | Beispiel 1). Diese Praxis scheint in der Linguistik weitaus üblicher zu sein |
909 | Autor*innen verfasst wurden (siehe Beispiel 1). Diese Praxis scheint in der | 975 | als in den anderen beiden Fächern. Die Ähnlichkeit von Philosophie und |
910 | Linguistik weitaus üblicher zu sein als in den anderen beiden Fächern. Die | 976 | Literaturwissenschaft in ihrer Verwendung des Gemeinschafts-wir mag hingegen verwundern, da die beiden Fächer häufig ihre |
911 | Ähnlichkeit von Philosophie und Literaturwissenschaft in ihrer Verwendung des | 977 | formal-sprachlichen Unterschiede betonen. Insbesondere in der Philosophie dient |
912 | Gemeinschafts-wir mag hingegen verwundern, da die | 978 | die Kennzeichnung eines philosophischen Ansatzes als ›literarisch‹ oft der |
913 | beiden Fächer häufig ihre formal-sprachlichen Unterschiede betonen. | 979 | Kritik am philosophischen Gehalt desselben.[43] Eine Auswertung der konkreten Belegstellen |
914 | Insbesondere in der Philosophie dient die Kennzeichnung eines philosophischen | 980 | zeigt jedoch, dass es sich in den beiden Fächern um unterschiedlich geartete |
915 | Ansatzes als ›literarisch‹ oft der Kritik am philosophischen Gehalt | 981 | Manifestationen des Gemeinschafts-wir handelt, die |
916 | desselben.[33] Eine Auswertung der konkreten | 982 | man wiederum mit landläufigen Kennzeichen der beiden Fächer in Verbindung |
917 | Belegstellen zeigt jedoch, dass es sich in den beiden Fächern um | 983 | bringen kann: So dominiert in der Stichprobe aus der Philosophie ein Gebrauch |
918 | unterschiedlich geartete Manifestationen des Gemeinschafts-wir handelt, die man wiederum mit landläufigen Kennzeichen der | 984 | des Gemeinschafts-wir, der letztendlich auf die |
919 | beiden Fächer in Verbindung bringen kann: So dominiert in der Stichprobe aus | 985 | grundlegenden Bedingungen des menschlichen Denkens und Handelns abzielt, wie |
920 | der Philosophie ein Gebrauch des Gemeinschafts-wir | 986 | das Beispiel 2 belegt. In der Stichprobe aus der Literaturwissenschaft, deren |
921 | der letztendlich auf die grundlegenden Bedingungen des menschlichen Denkens und | 987 | zentralen Tätigkeiten die Lektüre und Interpretation von Texten sind, wird in |
922 | Handelns abzielt, wie das Beispiel 2 belegt. In der Stichprobe aus der | 988 | 31 der 54 Verwendungen des Gemeinschafts-wir genau |
923 | Literaturwissenschaft, deren zentralen Tätigkeiten die Lektüre und | 989 | auf jene Praxis verwiesen, indem eine Art ›ideale*r Leser*in‹ konstituiert wird |
924 | Interpretation von Texten sind, wird in 31 der 54 Verwendungen des | 990 | (siehe Beispiel 3), weswegen in diesem Fall auch vom Leser*innen-wir gesprochen werden kann. |
925 | Gemeinschafts-wir genau auf jene Praxis | ||
926 | verwiesen, indem eine Art ›ideale*r Leser*in‹ konstituiert wird (siehe Beispiel | ||
927 | 3), weswegen in diesem Fall auch vom Leser*innen-wir | ||
928 | gesprochen werden kann. | ||
929 | 991 | ||
974 | 1036 | ||
975 | Tab. 2: Manuelle Kategorisierung | 1037 | Tab. 2: Manuelle Kategorisierung der |
976 | der wir-Verwendung in einer Stichprobe von 100 Instanzen pro Disziplin. [Pichler 2022] | 1038 | wir-Verwendung in einer Stichprobe von 100 |
1039 | Instanzen pro Disziplin. [Pichler 2022] | ||
977 | [51]Folgende Textausschnitte sollen als Beispiele für die nach Fachrichtung | 1040 | [51]Folgende Textausschnitte sollen als Beispiele für die nach Fachrichtung |
996 | unterschiedlichen Phasen der Analyse verbunden sind: Für die datengeleitete | 1059 | unterschiedlichen Phasen der Analyse verbunden sind: Für die datengeleitete |
997 | Ermittlung distinktiver Merkmale ist es ausreichend, wenn die Texte nur in Form | 1060 | Ermittlung distinktiver Merkmale ist es für Nachnutzer*innen oder |
998 | von n-Gramm-Frequenzen, also in einem abgeleiteten Format, vorliegen. Auf der | 1061 | Gutachter*innen ausreichend, wenn ihnen die Texte nur in Form von |
1062 | n-Gramm-Frequenzen, also in einem abgeleiteten Format, vorliegen. Auf der | ||
999 | Grundlage von z. B. Wortartenfrequenzen kann dieser Teil der Analyse direkt | 1063 | Grundlage von z. B. Wortartenfrequenzen kann dieser Teil der Analyse direkt |
1000 | reproduziert werden.[ | 1064 | reproduziert werden.[44] Außerdem ist es etwa |
1001 | möglich, die distinktiven Merkmale auf den gleichen Daten mithilfe anderer | 1065 | möglich, die distinktiven Merkmale auf den gleichen Daten mithilfe anderer |
1007 | Textformate gedeckt. | 1071 | Textformate gedeckt. |
1008 | [53]Geht es hingegen um die Interpretation der Daten, reichen Frequenzinformationen | 1072 | [53]Geht es hingegen um eine Interpretation der Daten, welche auf semantische und |
1009 | nicht mehr aus. Um das Phänomen zu verstehen und gegebenenfalls erklären zu | 1073 | pragmatische Dimensionen abzielt, reichen Frequenzinformationen nicht mehr aus, |
1010 | können, ist es notwendig, konkrete Verwendungen im Korpus mitsamt ihrem Kontext | 1074 | um das Vorgehen in der Studie im Rahmen eines Gutachten zu bewerten oder eigene |
1011 | zu sichten. Die notwendige Kontextgröße hängt dabei von der Natur des | 1075 | Schlüsse aus den Daten zu ziehen. Um konkrete (semantische oder pragmatische) |
1012 | untersuchten Phänomens ab. Für die wir-Analyse | 1076 | Phänomene, wie zum Beispiel in Hinblick auf den Gebrauch von wir, zu verstehen |
1013 | wurden pro Fach 100 zufällige Sätze untersucht. Ein zumindest | 1077 | und gegebenenfalls erklären zu können, ist es notwendig, konkrete Verwendungen |
1014 | stichprobenartiger Zugriff auf Volltextdaten, wie er durch den XSample-Ansatz | 1078 | im Korpus mitsamt ihrem Kontext zu sichten. Die notwendige Kontextgröße hängt |
1015 | ermöglicht wird, ist zentral, um geisteswissenschaftlich fundierte Aussagen | 1079 | dabei von der Natur des untersuchten Phänomens ab. Für die wir-Analyse wurden pro Fach 100 zufällige Sätze untersucht. Ein |
1016 | treffen und nachvollziehbar machen zu können. | 1080 | zumindest stichprobenartiger Zugriff auf Volltextdaten, wie er durch den |
1081 | XSample-Ansatz ermöglicht wird, ist zentral, um geisteswissenschaftlich | ||
1082 | fundierte Aussagen treffen und nachvollziehbar machen zu können. | ||
1017 | 1083 | ||
1024 | unzutreffende, zweifelhafte oder in relevanter Hinsicht unvollständige Aussagen | 1090 | unzutreffende, zweifelhafte oder in relevanter Hinsicht unvollständige Aussagen |
1025 | über die Fakten oder Ereignisse der erzählten Welt tätigt.[ | 1091 | über die Fakten oder Ereignisse der erzählten Welt tätigt.[45] |
1026 | [55]Im Gegensatz zum ersten Anwendungsfall handelt es sich beim zweiten nicht um | 1092 | [55]Im Gegensatz zum ersten Anwendungsfall handelt es sich beim zweiten nicht um |
1031 | Erzählen gilt in der Literaturwissenschaft einerseits als stark | 1097 | Erzählen gilt in der Literaturwissenschaft einerseits als stark |
1032 | interpretationsabhängiges Phänomen,[ | 1098 | interpretationsabhängiges Phänomen,[46] andererseits listet die Forschung zahlreiche |
1033 | sprachliche Indikatoren, die auf unzuverlässiges Erzählen hinweisen | 1099 | sprachliche Indikatoren, die auf unzuverlässiges Erzählen hinweisen |
1034 | können.[37] | 1100 | können.[47] Leser*innen können solche Merkmale – unter Rückgriff auf |
1035 | Leser*innen können solche Merkmale – unter Rückgriff auf allgemeines Weltwissen | 1101 | allgemeines Weltwissen sowie literarische und literaturwissenschaftliche |
1036 | sowie literarische und literaturwissenschaftliche Kontexte – zum Anlass nehmen, | 1102 | Kontexte – zum Anlass nehmen, der Erzählinstanz eines fiktionalen Textes |
1037 | der Erzählinstanz eines fiktionalen Textes Unzuverlässigkeit zuzuschreiben. In | 1103 | Unzuverlässigkeit zuzuschreiben. In diesem Rahmen entwickeln sie eine |
1038 | diesem Rahmen entwickeln sie eine inhaltsspezifizierende Interpretation[38] des Textes, d. h. sie | 1104 | inhaltsspezifizierende Interpretation[48] des Textes, d. h. sie bilden Annahmen darüber, was in der |
1039 | bilden Annahmen darüber, was in der fiktiven Welt des Textes wahr und was | 1105 | fiktiven Welt des Textes wahr und was falsch ist. |
1040 | falsch ist. | ||
1041 | [56]Um die Schluss- und Argumentationsprozesse bei der Feststellung bzw. | 1106 | [56]Um die Schluss- und Argumentationsprozesse bei der Feststellung bzw. |
1058 | angewandt. Für die Teilfragen (1) und (2) werden automatische Verfahren zur | 1123 | angewandt. Für die Teilfragen (1) und (2) werden automatische Verfahren zur |
1059 | Erkennung von Named Entities[ | 1124 | Erkennung von Named Entities[49] und Redewiedergabe[50] verwendet, zusätzlich wurden Koreferenzen |
1060 | exemplarisch manuell annotiert. Für Fragen (3) und (4) muss – wie es bei der | 1125 | exemplarisch manuell annotiert. Für Fragen (3) und (4) muss – wie es bei der |
1062 | zunächst ein eigenes Annotationsschema entwickelt werden, das dann im Rahmen | 1127 | zunächst ein eigenes Annotationsschema entwickelt werden, das dann im Rahmen |
1063 | manueller Annotation auf die Texte angewandt wird.[ | 1128 | manueller Annotation auf die Texte angewandt wird.[51] Für Frage (5) |
1064 | wird exemplarisch eine Indikatorengruppe aus der Unzuverlässigkeitsforschung in | 1129 | wird exemplarisch eine Indikatorengruppe aus der Unzuverlässigkeitsforschung in |
1065 | den Fokus genommen: die Verwendung emotionaler bzw. wertender Sprache, für | 1130 | den Fokus genommen: die Verwendung emotionaler bzw. wertender Sprache, für |
1066 | deren Erkennung eine Kombination aus automatischer Sentimentanalyse[ | 1131 | deren Erkennung eine Kombination aus automatischer Sentimentanalyse[52] und manueller Emotionsanalyse |
1067 | eingesetzt wird. | 1132 | eingesetzt wird. |
1070 | der Operationalisierung literaturwissenschaftlicher Forschungsfragen als auch | 1135 | der Operationalisierung literaturwissenschaftlicher Forschungsfragen als auch |
1071 | technisch im Hinblick auf die Anpassung oder Neuentwicklung von Tools.[43] Deswegen kann | 1136 | technisch im Hinblick auf die Anpassung oder Neuentwicklung von Tools.[53] Deswegen kann es bei der Auswertung der |
1072 | es bei der Auswertung der Pilotstudie noch nicht darum gehen, die übergeordnete | 1137 | Pilotstudie noch nicht darum gehen, die übergeordnete Forschungsfrage zu den |
1073 | Forschungsfrage zu den Schluss- und Argumentationsprozessen bei der | 1138 | Schluss- und Argumentationsprozessen bei der Feststellung unzuverlässigen |
1074 | Feststellung unzuverlässigen Erzählens zu beantworten. Dennoch kann ein | 1139 | Erzählens zu beantworten. Dennoch kann ein Einblick in die Daten bereits in |
1075 | Einblick in die Daten bereits in diesem Zwischenstadium aufschlussreich sein. | 1140 | diesem Zwischenstadium aufschlussreich sein. Generell ist Forschung im Bereich |
1076 | Generell ist Forschung im Bereich der Digital Humanities (und besonders im | 1141 | der Digital Humanities (und besonders im Bereich der Computational Literary Studies) stärker als in den traditionellen |
1077 | Bereich der Computational Literary Studies) stärker als | 1142 | Geisteswissenschaften durch »Prozessualität, Vorläufigkeit und |
1078 | in den traditionellen Geisteswissenschaften durch »Prozessualität, | 1143 | ›Nichtwissen‹«[54] gekennzeichnet. Dies lässt sich durchaus als Stärke |
1079 | Vorläufigkeit und ›Nichtwissen‹«[44] gekennzeichnet. Dies lässt sich | 1144 | dieser Ansätze verstehen, weil dadurch die Zwischenschritte der Forschung und |
1080 | durchaus als Stärke dieser Ansätze verstehen, weil dadurch die Zwischenschritte | 1145 | Entwicklung dokumentiert (und damit durch Dritte einsehbar) werden, die in |
1081 | der Forschung und Entwicklung dokumentiert (und damit durch Dritte einsehbar) | 1146 | nicht-digitalen literaturwissenschaftlichen Zugängen oft implizit bleiben. |
1082 | werden, die in nicht-digitalen literaturwissenschaftlichen Zugängen oft | ||
1083 | implizit bleiben. | ||
1084 | [59]Beim zweiten Nutzungsszenario dient eine Einsicht in die Daten durch Dritte | 1147 | [59]Beim zweiten Nutzungsszenario dient eine Einsicht in die Daten durch Dritte |
1099 | mittels abgeleiteter Textformate (z. B. bestimmter tokenbasierter | 1162 | mittels abgeleiteter Textformate (z. B. bestimmter tokenbasierter |
1100 | Formate[ | 1163 | Formate[55]) |
1101 | werden. Zusätzlich können Nachnutzer* | 1164 | geprüft werden. Zusätzlich können Nachnutzer*nnen sich damit ebenfalls einen |
1102 | Eindruck hinsichtlich der im jeweiligen Text auftretenden Figuren | 1165 | ersten Eindruck hinsichtlich der im jeweiligen Text auftretenden Figuren |
1103 | verschaffen.[ | 1166 | verschaffen.[56] |
1104 | Automatische Sentimentanalyse: Um zu beurteilen, ob | 1167 | Automatische Sentimentanalyse: Um zu beurteilen, ob |
1132 | Analyse sind oft langwierige Prozesse und benötigen im Rahmen von manueller | 1195 | Analyse sind oft langwierige Prozesse und benötigen im Rahmen von manueller |
1133 | (und meist kollaborativer) Annotation häufig mehrere Durchläufe.[ | 1196 | (und meist kollaborativer) Annotation häufig mehrere Durchläufe.[57] Im Rahmen |
1134 | des zweiten Nutzungsszenarios hat ein erster dieser Durchläufe | 1197 | des zweiten Nutzungsszenarios hat ein erster dieser Durchläufe |
1169 | eines generischen Tagsets für diese Annotationsaufgabe wünschenswert, in dem | 1232 | eines generischen Tagsets für diese Annotationsaufgabe wünschenswert, in dem |
1170 | beispielsweise Propositionen in Typen (z. B. in singular, particularized und general) unterteilt und verschiedene Rollen der Propositionen im Rahmen von Argumenten (Prämisse und | 1233 | beispielsweise Propositionen in Typen (z. B. in singular, particularized und general) unterteilt und verschiedene Rollen der |
1171 | Konklusion) unterschieden werden. | 1234 | Propositionen im Rahmen von Argumenten (Prämisse und Konklusion) |
1172 | Deshalb ist zu erwarten, dass sich die Annotationskategorien und | 1235 | unterschieden werden. Deshalb ist zu erwarten, dass sich die |
1173 | Anwendungsrichtlinien noch erheblich verändern werden. Aus diesem Grund kann | 1236 | Annotationskategorien und Anwendungsrichtlinien noch erheblich verändern |
1174 | der Nachvollzug der einzelnen Operationalisierungsschritte durch Dritte von | 1237 | werden. Aus diesem Grund kann der Nachvollzug der einzelnen |
1175 | besonderer Bedeutung sein. Dieser wird wieder durch Zugriff auf | 1238 | Operationalisierungsschritte durch Dritte von besonderer Bedeutung sein. |
1176 | Annotationskategorien / Anwendungsrichtlinien im Manifest sowie (mindestens) | 1239 | Dieser wird wieder durch Zugriff auf Annotationskategorien / |
1177 | zusammenhängende Textabschnitte ermöglicht. An dieser Stelle tritt ein | 1240 | Anwendungsrichtlinien im Manifest sowie (mindestens) zusammenhängende |
1178 | weiterer Unterschied zur manuellen Emotionsanalyse zutage: Während bei der | 1241 | Textabschnitte ermöglicht. An dieser Stelle tritt ein weiterer Unterschied |
1179 | Emotionsanalyse anhand sprachlicher Indikatoren vornehmlich einzelne Wörter | 1242 | zur manuellen Emotionsanalyse zutage: Während bei der Emotionsanalyse anhand |
1180 | annotiert werden, betrifft die Annotation bei der Analyse in Frage stehender Propositionen mindestens Teilsätze. Tokenbasierte abgeleitete Textformate sind | 1243 | sprachlicher Indikatoren vornehmlich einzelne Wörter annotiert werden, |
1181 | deswegen weder für den Nachvollzug der Kategorienentwicklung oder der | 1244 | betrifft die Annotation bei der Analyse in Frage stehender Propositionen |
1245 | mindestens Teilsätze. Tokenbasierte abgeleitete Textformate sind deswegen | ||
1246 | weder für den Nachvollzug der Kategorienentwicklung oder der | ||
1182 | Annotationsentscheidungen noch für einen ersten Einblick in die Ergebnisse | 1247 | Annotationsentscheidungen noch für einen ersten Einblick in die Ergebnisse |
1203 | Anwendungsfälle deutlich stärker annähert als abgeleitete Textformate und | 1268 | Anwendungsfälle deutlich stärker annähert als abgeleitete Textformate und |
1204 | Forschenden eine Möglichkeit bietet, (auch) an urheberrechtlich geschützten | 1269 | Forschenden eine Möglichkeit bietet, (auch) an urheberrechtlich geschützten |
1205 | Phänomene zu untersuchen. | 1270 | Texten solch komplexe literarische Phänomene zu untersuchen. |
1206 | 1271 | ||
1229 | die Nützlichkeit dieses Ansatzes für das individuelle Forschungsvorhaben zu | 1294 | die Nützlichkeit dieses Ansatzes für das individuelle Forschungsvorhaben zu |
1230 | maximieren, ermöglicht der XSample-Workflow den Nutzer* | 1295 | maximieren, ermöglicht der XSample-Workflow den Nutzer*nnen, Textauszüge flexibel |
1231 | anhand von Suchanfragen an den Text und seine Annotationen auszuwählen. | 1296 | anhand von Suchanfragen an den Text und seine Annotationen auszuwählen. |
1293 | [1] | 1358 | [1] |
1294 | Die Namen der Autor*innen sind in den | 1359 | Die Namen der Autor*innen sind in |
1295 | Verfasserangaben alphabetisch aufgelistet. Im Projekt befanden sich juristische | 1360 | den Verfasserangaben alphabetisch aufgelistet. Im Projekt befanden sich |
1296 | Fragestellungen im Arbeitsschwerpunkt von Felicitas Kleinkopf; Markus Gärtner | 1361 | juristische Fragestellungen im Arbeitsschwerpunkt von Felicitas Kleinkopf; |
1297 | befasste sich mit der technischen Umsetzung der Infrastruktur; das erste | 1362 | Markus Gärtner befasste sich mit der technischen Umsetzung der Infrastruktur; |
1298 | Nutzungsszenario wurde von Melanie Andresen und Axel Pichler, das zweite von | 1363 | das erste Nutzungsszenario wurde von Melanie Andresen und Axel Pichler, das |
1299 | Janina Jacke und Nora Ketschik bearbeitet; Sibylle Hermann koordinierte die | 1364 | zweite von Janina Jacke und Nora Ketschik bearbeitet; Sibylle Hermann |
1300 | Projektarbeit und die Anbindung an die bibliothekarische Infrastruktur; Jonas | 1365 | koordinierte die Projektarbeit und die Anbindung an die bibliothekarische |
1301 | Kuhn war für konzeptionelle Fragen verantwortlich. Die textuelle Darstellung in | 1366 | Infrastruktur; Jonas Kuhn war für konzeptionelle Fragen verantwortlich. Die |
1302 | diesem Artikel wurde gemeinschaftlich von den Projektbeteiligten des XSample-Projekts, auch über die Zuständigkeitsgrenzen | 1367 | textuelle Darstellung in diesem Artikel wurde gemeinschaftlich von den |
1303 | im Projekt hinweg, erstellt. | 1368 | Projektbeteiligten des XSample-Projekts, auch über |
1369 | die Zuständigkeitsgrenzen im Projekt hinweg, erstellt. | ||
1304 | 1370 | ||
1305 | [2] | 1371 | [2] |
1306 | Die FAIR-Prinzipien formulieren vier | 1372 | Ähnliche Restriktionen gibt es auch in anderen Rechtsordnungen, |
1307 | zentrale Anforderungen an Forschungsdaten: Sie sollten Findable, Accessible, | 1373 | das betrifft aufgrund derselben zugrunde liegenden EU-Urheberrechts-Richtlinien |
1308 | Interoperable und Reusable sein, siehe Wilkinson et al. 2016. | 1374 | insbesondere die EU-Mitgliedsstaaten, während insbesondere das US-amerikanische |
1375 | Copyright-Law mit der sogenannten Fair-Use-Doktrin grundsätzlich anders | ||
1376 | ausgestaltet ist. Gegenstand dieser Darstellung ist allerdings allein das | ||
1377 | deutsche Urheberrecht inklusive seiner Grundlagen aus dem Unionsrecht. | ||
1309 | 1378 | ||
1310 | [3] | 1379 | [3] |
1311 | | 1380 | Die FAIR-Prinzipien |
1312 | | 1381 | formulieren vier zentrale Anforderungen an Forschungsdaten: Sie sollten |
1313 | | 1382 | Findable, Accessible, Interoperable und Reusable sein, siehe Wilkinson et al. |
1314 | | 1383 | 2016. |
1315 | 1384 | ||
1316 | [4] | 1385 | [4] |
1317 | Vgl. | 1386 | Der Schutz von Texten durch das deutsche |
1318 | Schöch et al. 2020. | 1387 | Urheberrecht endet siebzig Jahre nach Tod der Autor*innen, sodass kein direkter |
1388 | Zusammenhang zwischen Publikationsjahr und dem Ende des urheberrechtlichen | ||
1389 | Schutzes besteht. | ||
1319 | 1390 | ||
1320 | [5] | 1391 | [5] |
1392 | Vgl. | ||
1393 | Schöch et al. | ||
1394 | 2020. | ||
1321 | 1395 | ||
1396 | [6] | ||
1322 | Vgl. Jockers 2013. | 1397 | Vgl. Jockers 2013. |
1323 | 1398 | ||
1324 | [6] | 1399 | |
1400 | [7] | ||
1325 | Unter TDM versteht | 1401 | Unter TDM versteht |
1327 | digitalen oder digitalisierten Werken, um daraus Informationen insbesondere | 1403 | digitalen oder digitalisierten Werken, um daraus Informationen insbesondere |
1328 | über Muster, Trends und Korrelationen zu gewinnen« (§§ 44b Abs. | 1404 | über Muster, Trends und Korrelationen zu gewinnen« (§§ 44b Abs. |
1329 | 60d Abs. 1 UrhG). Unterschieden wird rechtlich zwischen der | 1405 | 1, 60d Abs. 1 UrhG). Unterschieden wird rechtlich zwischen der |
1330 | automatisierten Analyse, die urheberrechtlich freigestellt ist, | 1406 | eigentlichen automatisierten Analyse, die urheberrechtlich freigestellt ist, |
1331 | notwendigen Vorbereitungsschritten, die wiederum urheberrechtlich | 1407 | und den dafür notwendigen Vorbereitungsschritten, die wiederum urheberrechtlich |
1332 | sind. Unter das gesetzgeberische Verständnis von TDM kann ein Großteil | 1408 | relevant sind. Unter das gesetzgeberische Verständnis von TDM kann ein Großteil |
1333 | textbasierter Forschung gefasst werden, auch wenn die Forscher*innen ihre | 1409 | textbasierter Forschung gefasst werden, auch wenn die Forscher*innen ihre |
1336 | 1412 | ||
1337 | [ | 1413 | [8] |
1338 | 1414 | ||
1339 | Einen umfassenderen Überblick über die Detailfragen des Forschungsprozesses | 1415 | Einen umfassenderen Überblick über die Detailfragen des Forschungsprozesses |
1340 | bieten zum alten Recht Dreier / Schulze 2018, § 60d; | 1416 | bieten zum alten Recht Dreier / Schulze 2018, § 60d; Kleinkopf et al. 2021; vorwiegend auch |
1341 | Kleinkopf et al. 2021; | 1417 | Schöch et al. |
1342 | vorwiegend auch Schöch et al. 2020, Randnummer 5–14; zu § 60d in seiner neuen Fassung, | 1418 | 2020, Absatz 5–14; zu § 60d in seiner neuen Fassung, vgl. Dreier in Dreier / Schulze |
1343 | vgl. Dreier in Dreier / Schulze 2022, § 44b und § 60d; | 1419 | 2022, § 44b und § 60d; Raue 2021; Kleinkopf / Pflüger 2021, S. 645–647; |
1344 | Raue 2021; | 1420 | eine Betrachtung auf EU-Ebene bieten Gärtner et al. 2021, S. 11–13. Vgl. |
1345 | Kleinkopf / Pflüger 2021, S. 645–647; | 1421 | auch Kleinkopf |
1346 | eine Betrachtung auf EU-Ebene bieten | 1422 | 2022. |
1347 | Gärtner et | ||
1348 | al. 2021, S. 11–13. | ||
1349 | 1423 | ||
1350 | [ | 1424 | [9] |
1351 | Erlaubnisnormen werden im | 1425 | Erlaubnisnormen werden im |
1354 | 1428 | ||
1355 | [9] | ||
1356 | Bundesgesetzblatt Jahrgang | ||
1357 | 2021 Teil I Nr. 27, ausgegeben zu Bonn am 4. Juni 2021. | ||
1358 | |||
1359 | [10] | 1429 | [10] |
1360 | Vertraglich oder technisch darf das TDM im | 1430 | Bundesgesetzblatt |
1361 | Rahmen wissenschaftlicher Zwecke (§ 60d UrhG) auch im Grundsatz nicht | 1431 | Jahrgang 2021 Teil I Nr. 27, ausgegeben zu Bonn am 4. Juni 2021. |
1362 | ausgeschlossen werden (§ 60g Abs. 1, 95b Abs. 1, 3 UrhG). Etwas anderes gilt | ||
1363 | für kommerzielles TDM im Rahmen des § 44b UrhG oder für die Sicherung der | ||
1364 | Funktionsfähigkeit technischer Systeme (§ 60d Abs. 6 UrhG). | ||
1365 | 1432 | ||
1366 | [11] | 1433 | [11] |
1367 | Dreier in Dreier / | 1434 | In diesen kommerziellen Kontexten dürfen |
1368 | Schulze 2022, § 15 Randnummer 38 mit Verweis auf den EuGH. | 1435 | für das TDM Werke vervielfältigt werden (§ 44b Abs. 2 S. 1 UrhG), diese |
1436 | müssen aber gelöscht werden, wenn sie für das TDM nicht mehr erforderlich | ||
1437 | sind (§ 44b Abs. 2 S. 2 UrhG). Zudem können Rechteinhaber*innen an ihren | ||
1438 | Werken (maschinenlesbare) Nutzungsvorbehalte anbringen, die von denjenigen, | ||
1439 | die auf Grundlage des § 44b UrhG TDM betreiben, ab dem Zeitpunkt ihrer | ||
1440 | Erklärung beachtet werden müssen (§ 44b Abs. 3 S. 1, 2 UrhG). Im Rahmen des | ||
1441 | § 44b UrhG ist nicht erlaubt, Werke oder Werkteile öffentlich zugänglich zu | ||
1442 | machen, auch nicht an bestimmt abgegrenzte Personenkreise. Aufgrund der | ||
1443 | Löschpflicht dürfen die erstellten Korpora auch nicht längerfristig | ||
1444 | aufbewahrt werden. Für wissenschaftliche Zwecke ist es deswegen unbedingt | ||
1445 | notwendig, sich auf § 60d UrhG berufen zu können. | ||
1369 | 1446 | ||
1370 | [12] | 1447 | [12] |
1448 | Vertraglich oder technisch darf das TDM im Rahmen | ||
1449 | wissenschaftlicher Zwecke (§ 60d UrhG) auch im Grundsatz nicht | ||
1450 | ausgeschlossen werden (§§ 60g Abs. | ||
1451 | 1, 95b Abs. 1, 3 UrhG). Etwas anderes gilt für kommerzielles TDM im | ||
1452 | Rahmen des § 44b UrhG oder für die Sicherung der Funktionsfähigkeit | ||
1453 | technischer Systeme (§ 60d Abs. 6 UrhG). | ||
1454 | |||
1455 | [13] | ||
1456 | Vgl. zum genauen Verständnis der | ||
1457 | nicht-kommerziellen Zwecke die Ausführungen in Absatz 19. | ||
1458 | |||
1459 | [14] | ||
1460 | Dreier in Dreier / Schulze | ||
1461 | 2022, § 15 Randnummer 38 mit Verweis auf den EuGH. | ||
1462 | |||
1463 | [15] | ||
1371 | Vgl. Raue 2021, S. 799. | 1464 | Vgl. Raue 2021, S. 799. |
1372 | 1465 | ||
1373 | [ | 1466 | [16] |
1374 | Vgl. Leitlinien zur Sicherung der guten | 1467 | Vgl. Leitlinien zur Sicherung der guten |
1375 | Deutsche Forschungsgemeinschaft 2019, | 1468 | wissenschaftlichen Praxis, Deutsche Forschungsgemeinschaft 2019, |
1376 | Leitlinie 17. | 1469 | Leitlinie 17. |
1377 | 1470 | ||
1378 | [ | 1471 | [17] |
1379 | Vgl. Raue 2021, S. 799. | 1472 | Vgl. Raue 2021, S. 799. |
1380 | 1473 | ||
1381 | [15] | 1474 | [18] |
1382 | Vgl. Kleinkopf / Pflüger 2021, S. 647. | 1475 | Vgl. Kleinkopf / Pflüger 2021, S. |
1476 | 647. | ||
1383 | 1477 | ||
1384 | [ | 1478 | [19] |
1385 | Bundestagsdrucksache 19/27426, S. 97. | 1479 | Bundestagsdrucksache 19/27426, S. 97. |
1386 | 1480 | ||
1387 | [ | 1481 | [20] |
1388 | Etwas anderes kann gelten, wenn die Ursprungsdaten | 1482 | Etwas anderes kann gelten, wenn die Ursprungsdaten |
1390 | 1484 | ||
1391 | [ | 1485 | [21] |
1392 | Vgl. | 1486 | Vgl. Kleinkopf / Pflüger |
1393 | | 1487 | 2021, S. 647. |
1394 | 1488 | ||
1395 | [ | 1489 | [22] |
1396 | Erwägungsgrund 15 S. 5 DSM-Richtlinie. | 1490 | Erwägungsgrund 15 S. 5 DSM-Richtlinie. |
1397 | 1491 | ||
1398 | [20] | 1492 | [23] |
1399 | Vgl. Schöch et al. 2020, Randnummer 4 f. | 1493 | Vgl. Schöch et al. 2020, Absatz |
1494 | 4f. | ||
1400 | 1495 | ||
1401 | [ | 1496 | [24] |
1402 | Der Terminus ›Anschlusskopie‹ meint, dass sich die | 1497 | Der Terminus ›Anschlusskopie‹ meint, dass sich die |
1407 | 1502 | ||
1408 | [ | 1503 | [25] |
1409 | Unter ›geringem Umfang‹ werden gemeinhin 25 | 1504 | Unter ›geringem Umfang‹ werden gemeinhin 25 |
1410 | Seiten verstanden, vgl. Dreier in Dreier / Schulze 2022, § 60c Randnummer | 1505 | Seiten verstanden, vgl. Dreier in Dreier / Schulze 2022, § 60c Randnummer |
1411 | § 60a Randnummer 22; Bundestagsdrucksache 18/12329, S. 35. | 1506 | 15, § 60a Randnummer 22; Bundestagsdrucksache 18/12329, S. 35. |
1412 | 1507 | ||
1413 | [23] | 1508 | [26] |
1414 | Vgl. Schöch et al. 2020, Randnummer 5. | 1509 | Vgl. Schöch et al. 2020, Absatz |
1510 | 5. | ||
1415 | 1511 | ||
1416 | [ | 1512 | [27] |
1417 | Das entspräche einer Einstellung in ein | 1513 | Das entspräche einer Einstellung in ein |
1418 | Universitäts-Intranet, diese ist jedoch gerade nicht erlaubt, vgl. Dreier in | 1514 | Universitäts-Intranet, diese ist jedoch gerade nicht erlaubt, vgl. Dreier in |
1419 | Dreier / Schulze 2022, § 60c Randnummer 9; Bundestagsdrucksache 15 / 837, S. 34. | 1515 | Dreier / Schulze |
1516 | 2022, § 60c Randnummer 9; Bundestagsdrucksache 15 / 837, S. 34. | ||
1420 | 1517 | ||
1421 | [25] | 1518 | [28] |
1519 | Vgl. Dreier in Dreier / Schulze | ||
1520 | 2022, § 60c Randnummer 6 mit Verweis auf die Gesetzesbegründung, | ||
1521 | Bundestagsdrucksache 18/12329, S. 39. | ||
1522 | |||
1523 | [29] | ||
1524 | Vgl. Dreier in Dreier / Schulze | ||
1525 | 2022, § 60a Randnummer 7. | ||
1526 | |||
1527 | [30] | ||
1422 | Nach | 1528 | Nach |
1423 | der DSM-Richtlinie ist es zulässig, weitere Nutzungen der TDM-Korpora | 1529 | der DSM-Richtlinie ist es zulässig, weitere Nutzungen der TDM-Korpora |
1424 | die ältere InfoSoc-Richtlinie zu stützen, das besagt zum einen | 1530 | auf die ältere InfoSoc-Richtlinie zu stützen, das besagt zum einen |
1425 | Erwägungsgrund 15 S. 5 und zum anderen Art. 24 Abs. 2, 25 DSM- | 1531 | Erwägungsgrund 15 S. 5 und zum anderen Art. 24 Abs. 2, 25 DSM-Richtlinie. |
1426 | Rechtsprechung hat bereits in der Vergangenheit urheberrechtliche | 1532 | Auch die Rechtsprechung hat bereits in der Vergangenheit urheberrechtliche |
1427 | Erlaubnisnormen miteinander kombiniert, wenn ihre jeweiligen Voraussetzungen | 1533 | Erlaubnisnormen miteinander kombiniert, wenn ihre jeweiligen Voraussetzungen |
1431 | 1537 | ||
1432 | [26] | 1538 | [31] |
1433 | Leitlinien zur Sicherung | 1539 | Leitlinien zur Sicherung der |
1434 | der guten wissenschaftlichen Praxis, Deutsche Forschungsgemeinschaft 2019, Leitlinie 17. | 1540 | guten wissenschaftlichen Praxis, Deutsche Forschungsgemeinschaft 2019, |
1541 | Leitlinie 17. | ||
1435 | 1542 | ||
1436 | [27] | 1543 | [32] |
1544 | Den Einrichtungen werden auch beim Kopienversand keine | ||
1545 | weitergehenden Prüfpflichten auferlegt, es sei denn, es handelt sich um | ||
1546 | offensichtliche Missbrauchsfälle, vgl. Dreier in Dreier / Schulze 2022, § 60e Randnummer | ||
1547 | 17, 27, 28; Stieper in Schricker / Loewenheim 2020, | ||
1548 | § 60e Randnummer 37. | ||
1549 | |||
1550 | [33] | ||
1437 | Metainformationen wie Seitenzahlen auf der Ebene von Sätzen | 1551 | Metainformationen wie Seitenzahlen auf der Ebene von Sätzen |
1438 | oder einzelnen Worten im Text sind in etablierten Annotationsschemata oder | 1552 | oder einzelnen Worten im Text sind in etablierten Annotationsschemata oder |
1439 | Formaten in der Regel nicht vorgesehen und erfordern somit zusätzlichen | 1553 | Formaten in der Regel nicht vorgesehen und erfordern somit zusätzlichen |
1440 | spezielle Anpassungen. | 1554 | Aufwand, bzw. spezielle Anpassungen. |
1441 | 1555 | ||
1442 | [ | 1556 | [34] |
1443 | Vgl. Gärtner | 1557 | Vgl. Gärtner |
1445 | 1559 | ||
1446 | [ | 1560 | [35] |
1447 | Sofern | 1561 | Sofern |
1449 | 1563 | ||
1450 | [30] | 1564 | [36] |
1565 | Vgl. Krause / Zeldes 2016. | ||
1566 | |||
1567 | [37] | ||
1568 | Vgl. Diewald et al. 2106. | ||
1569 | |||
1570 | [38] | ||
1451 | Bei der | 1571 | Bei der |
1453 | 1573 | ||
1454 | [31] | 1574 | [39] |
1575 | Es handelt sich dementsprechend um eine sogenannte | ||
1576 | ›approximative Replikation‹ (Porte 2012, S. 8). | ||
1577 | |||
1578 | [40] | ||
1455 | Vgl. Andresen 2022. | 1579 | Vgl. Andresen 2022. |
1456 | 1580 | ||
1457 | [ | 1581 | [41] |
1458 | | 1582 | Die ursprüngliche Studie (Andresen |
1459 | | 1583 | 2022) legt zusätzlich einen besonderen Schwerpunkt auf Sequenzen, |
1460 | | 1584 | die entlang der syntaktischen Dependenzen im Satz gebildet werden. |
1461 | 1585 | ||
1462 | [33] | 1586 | [42] |
1463 | Vgl. zum Beispiel Jürgen Habermas’ Kritik | 1587 | Vgl. Kresta 1995, S.130–147, |
1464 | an der Einebnung des Gattungsunterschiedes zwischen | 1588 | vgl. auch Steinhoff 2007, S. 206f. |
1465 | Philosophie und Literatur, Habermas 1988, S. 217. | ||
1466 | 1589 | ||
1467 | [34] | 1590 | [43] |
1591 | Vgl. zum | ||
1592 | Beispiel Jürgen Habermas’ Kritik an der Einebnung des Gattungsunterschiedes zwischen | ||
1593 | Philosophie und Literatur, Habermas | ||
1594 | 1988, S. 217. | ||
1595 | |||
1596 | [44] | ||
1468 | Der Schritt von den Originaldaten zu | 1597 | Der Schritt von den Originaldaten zu |
1474 | 1603 | ||
1475 | [ | 1604 | [45] |
1476 | Vgl. Martínez | 1605 | Vgl. Martínez |
1477 | Kindt 2008, S. 48. | 1606 | / Scheffel 2009, S. 100; Kindt 2008, S. 48. |
1478 | 1607 | ||
1479 | [ | 1608 | [46] |
1480 | Vgl. Yacobi 1981; | 1609 | Vgl. Yacobi 1981; |
1481 | Nünning 1999. | 1610 | Nünning |
1611 | 1999. | ||
1482 | 1612 | ||
1483 | [ | 1613 | [47] |
1484 | Vgl. Nünning 1998; | 1614 | Vgl. Nünning 1998; Allrath |
1485 | | 1615 | 1998. |
1486 | 1616 | ||
1487 | [38] | 1617 | [48] |
1488 | Vgl. Folde 2015, S. 366. | 1618 | Vgl. Folde 2015, |
1619 | S. 366. | ||
1489 | 1620 | ||
1490 | [ | 1621 | [49] |
1491 | Verwendet wurde hier der | 1622 | Verwendet wurde hier der |
1492 | Stanford | 1623 | Stanford |
1493 | Recognizer. | 1624 | Named Entity Recognizer. |
1494 | 1625 | ||
1495 | [ | 1626 | [50] |
1496 | Für die Erkennung von direkter Rede wurde ein simpler | 1627 | Für die Erkennung von direkter Rede wurde ein simpler |
1497 | Tagger entwickelt, der auf der Identifikation von Anführungszeichen basiert; | 1628 | Tagger entwickelt, der auf der Identifikation von Anführungszeichen basiert; |
1498 | indirekte Rede wurde mithilfe eines verfügbaren Taggers | 1629 | indirekte Rede wurde mithilfe eines verfügbaren Taggers |
1499 | . Alle erzeugten Annotationen wurden anschließend gesichtet und | 1630 | annotiert. Alle erzeugten Annotationen wurden anschließend gesichtet und |
1500 | gegebenenfalls korrigiert. | 1631 | gegebenenfalls korrigiert. |
1501 | 1632 | ||
1502 | [ | 1633 | [51] |
1503 | Für | 1634 | Für |
1505 | 1636 | ||
1506 | [42] | 1637 | [52] |
1507 | Zum Einsatz kam hier SentText, vgl. Schmidt et al. 2021. | 1638 | Zum Einsatz kam hier SentText, vgl. Schmidt et al. |
1639 | 2021. | ||
1508 | 1640 | ||
1641 | [53] | ||
1642 | Vgl. Gius 2019; Pichler / | ||
1643 | Reiter 2021. | ||
1509 | 1644 | ||
1510 | [ | 1645 | [54] |
1511 | | 1646 | Schruhl |
1512 | | 1647 | 2018. |
1513 | 1648 | ||
1514 | [44] | 1649 | [55] |
1515 | Schruhl 2018. | ||
1516 | |||
1517 | [45] | ||
1518 | Vgl. Schöch et al. 2020. | 1650 | Vgl. Schöch et al. 2020. |
1519 | 1651 | ||
1520 | [ | 1652 | [56] |
1521 | Tatsächlich ist (auch eine eigens | 1653 | Tatsächlich ist (auch eine eigens |
1522 | trainierte) Named Entity Recognition nur in eingeschränktem Maße für die | 1654 | trainierte) Named Entity Recognition nur in eingeschränktem Maße für die |
1523 | Identifikation der relevanten Akteur*innen / Instanzen geeignet, da | 1655 | Identifikation der relevanten Akteur*innen / Instanzen geeignet, da |
1524 | potenziell unzuverlässigen Erzählungen häufig homodiegetische | 1656 | gerade in potenziell unzuverlässigen Erzählungen häufig homodiegetische |
1525 | Erzähler*innen (›Ich-Erzähler*innen‹) auftreten, auf die nicht oder | 1657 | Erzähler*innen (›Ich-Erzähler*innen‹) auftreten, auf die nicht oder |
1527 | 1659 | ||
1528 | [47] | 1660 | [57] |
1529 | Vgl. Gius / Jacke 2017; | 1661 | Vgl. Gius / Jacke 2017; Reiter 2020. |
1530 | Reiter 2020. | ||
1531 | 1662 | ||
1538 | 1669 | ||
1539 | Gaby Allrath: »But why will you say that I am mad?« Textuelle Signale für | 1670 | Gaby Allrath: »But why will you say that I am |
1540 | die Ermittlung von unreliable narration. In: Unreliable Narration. Studien zur | 1671 | mad?« Textuelle Signale für die Ermittlung von unreliable narration. In: |
1541 | Theorie und Praxis unglaubwürdigen Erzählens in der englischsprachigen | 1672 | Unreliable Narration. Studien zur Theorie und Praxis unglaubwürdigen Erzählens |
1542 | Erzählliteratur. Hg. von Ansgar Nünning / Carola Surkamp / Bruno Zerweck. Trier | 1673 | in der englischsprachigen Erzählliteratur. Hg. von Ansgar Nünning / Carola |
1543 | 1998, S. 59–80. [Nachweis im GVK] Melanie Andresen: Datengeleitete Sprachbeschreibung mit syntaktischen | 1674 | Surkamp / Bruno Zerweck. Trier 1998, S. 59–80. [Nachweis im GVK] Melanie Andresen: Datengeleitete |
1544 | Annotationen. Eine Korpusanalyse am Beispiel der germanistischen | 1675 | Sprachbeschreibung mit syntaktischen Annotationen. Eine Korpusanalyse am |
1545 | Wissenschaftssprachen. Tübingen 2022. (= Korpuslinguistik und interdisziplinäre | 1676 | Beispiel der germanistischen Wissenschaftssprachen. Tübingen 2022. (= |
1546 | Perspektiven auf Sprache (CLIP), 10). [Nachweis im GVK] Thomas Dreier / Gernot Schulze: UrhG – Urheberrechtsgesetz, | 1677 | Korpuslinguistik und interdisziplinäre Perspektiven auf Sprache (CLIP), 10). |
1547 | Verwertungsgesellschaftengesetz, Kunsturhebergesetz. Kommentar. 6. Auflage. | 1678 | [Nachweis im GVK] Nils Diewald / Michael Hanl / Eliza Margaretha / |
1548 | München 2018. [Nachweis im GVK] Thomas Dreier / Gernot Schulze: UrhG – Urheberrechtsgesetz, | 1679 | Joachim Bingel / Marc Kupietz / Piotr Bański / Andreas Witt: KorAP |
1549 | Urheberrechts-Diensteanbieter-Gesetz, Verwertungsgesellschaftengesetz, | 1680 | Architecture. Diving in the Deep Sea of Corpus Data In: Proceedings of the 10th |
1550 | Nebenurheberrecht, Kunsturheberrecht. Kommentar. 7. Auflage. München 2022. | 1681 | International Conference on Language Resources and Evaluation (LREC 2016). Hg. |
1551 | [Nachweis im GVK] Christian Folde: Grounding Interpretation. In: British Journal of Aesthetics | 1682 | von European Language Resources Association (ELRA). (LREC 2016: Portorož, |
1552 | 55 (2015), H. 3, S. 361–374. [Nachweis im GVK] Deutsche Forschungsgemeinschaft: Leitlinien zur Sicherung der guten | 1683 | 23.–28.05.2016). Paris 2016: European Language Resources Association (ELRA), S. |
1553 | wissenschaftlichen Praxis, Kodex, 2019. DOI: 10.5281/zenodo.6472827Markus Gärtner: The Corpus Query Middleware of Tomorrow − A Proposal for a | 1684 | 3586–3591. PDF. [online] [Nachweis im GVK] Thomas Dreier / Gernot Schulze: UrhG – |
1554 | Hybrid Corpus Query Architecture. In: Proceedings of the 8th Workshop on | 1685 | Urheberrechtsgesetz, Verwertungsgesellschaftengesetz, Kunsturhebergesetz. |
1555 | Challenges in the Management of Large Corpora. Hg. von Piotr Bański / Adrien | 1686 | Kommentar. 6. Auflage. München 2018. [Nachweis im GVK] Thomas Dreier / Gernot Schulze: UrhG – |
1556 | Barbaresi / Simon Clematide / Marc Kupietz / Harald Lüngen / Ines Pisetta. | 1687 | Urheberrechtsgesetz, Urheberrechts-Diensteanbieter-Gesetz, |
1557 | (CMLC 8, Marseille, 11.–16.05.2020) Stroudsburg, PA 2020, S. 31–39. [online] Markus Gärtner / Felicitas Kleinkopf / Melanie Andresen / Sybille Hermann: | 1688 | Verwertungsgesellschaftengesetz, Nebenurheberrecht, Kunsturheberrecht. |
1558 | Corpus Reusability and Copyright – Challenges and Opportunities. In: | 1689 | Kommentar. 7. Auflage. München 2022. [Nachweis im GVK] Christian Folde: Grounding |
1559 | Proceedings of the Workshop on Challenges in the Management of Large Corpor. | 1690 | Interpretation. In: British Journal of Aesthetics 55 (2015), H. 3, S. 361–374. |
1560 | Hg. von Harald Lüngen / Marc Kupietz / Piotr Bański / Adrien Barbaresi / Simon | 1691 | [Nachweis im GVK] Deutsche Forschungsgemeinschaft: Leitlinien zur |
1561 | Clematide / Ines Pisetta. (CMLC 9, Limerick, 12.07.2021) Mannheim 2021, S. | 1692 | Sicherung der guten wissenschaftlichen Praxis, Kodex, 2019. DOI: 10.5281/zenodo.6472827Markus Gärtner / Katrin Schweitzer / |
1562 | 10–19. DOI: 10.14618/ids-pub-10467 [Nachweis im GVK] Evelyn Gius: Computationelle Textanalysen als fünfdimensionales Problem: Ein | 1693 | Kerstin Eckart / Jonas Kuhn: Multi-modal Visualization and Search for Text and |
1563 | Modell zur Beschreibung von Komplexität. In: LitLab Pamphlet 8 (2019). [online] Evelyn Gius / Janina Jacke: The Hermeneutic Profit of Annotation: On | 1694 | Prosody Annotations. In: Proceedings of the 53rd Annual Meeting of the |
1564 | Preventing and Fostering Disagreement in Literary Analysis. In: International | 1695 | Association for Computational Linguistics and the 7th International Joint |
1565 | Journal of Humanities and Arts Computing 11 (2017), H. 2, S. 233–254. DOI: 10.3366/ijhac.2017.0194 [Nachweis im GVK] Jürgen Habermas: Der philosophische Diskurs der Moderne. Zwölf Vorlesungen. | 1696 | Conference on Natural Language Processing of the Asian Federation of Natural |
1566 | Frankfurt / Main 1988. (= Suhrkamp-Taschenbuch Wissenschaft, 749). | 1697 | Language Processing: System Demonstrations. Hg. von Association for |
1567 | [Nachweis im GVK] Matthew Lee Jockers: Macroanalysis: Digital methods and literary history. | 1698 | Computational Linguistics. (ACL 53: Beijing, 27.–29.07.2015). Red Hook, NY |
1568 | Urbana, IL u. a. 2013. [Nachweis im GVK] Tom Kindt: Unzuverlässiges Erzählen und literarische Moderne: eine | 1699 | 2015, S. 25–30. PDF. DOI: 10.3115/v1/P15-4005Markus Gärtner / Jonas Kuhn: A Lightweight |
1569 | Untersuchung der Romane von Ernst Weiß. Tübingen 2008. (= Studien zur deutschen | 1700 | Modeling Middleware for Corpus Processing. In: Proceedings of the Eleventh |
1570 | Literatur, 184). [Nachweis im GVK] Felicitas Kleinkopf / Janina Jacke / Markus Gärtner: Text- und Data-Mining – | 1701 | International Conference on Language Resources and Evaluation. Hg. von European |
1571 | Urheberrechtliche Grenzen der Nachnutzung wissenschaftlicher Korpora bei | 1702 | Language Resources Association (ELRA). (LREC 2018: Miyazaki, Mai 2018), |
1572 | computergestützten Verfahren und digitalen Ressourcen. In: MMR. Zeitschrift für | 1703 | Miyazaki 2018, S. 1087–1095. PDF. [online]Markus Gärtner: The Corpus Query Middleware of |
1573 | IT-Recht und Recht der Digitalisierung 24 (2021), H. 3, S. 196–200. DOI: 10.18419/opus-11445 [Nachweis im GVK] Felicitas Kleinkopf / Thomas Pflüger: Digitale Bildung, Wissenschaft und | 1704 | Tomorrow − A Proposal for a Hybrid Corpus Query Architecture. In: Proceedings |
1574 | Kultur – Welcher urheberrechtliche Reformbedarf verbleibt nach Umsetzung der | 1705 | of the 8th Workshop on Challenges in the Management of Large Corpora. Hg. von |
1575 | DSM-RL durch das Gesetz zum Urheberrecht im digitalen Binnenmarkt? In: | 1706 | Piotr Bański / Adrien Barbaresi / Simon Clematide / Marc Kupietz / Harald |
1576 | Zeitschrift für Urheber- und Medienrecht 56 (2021), H. 8 / 9, S. 643–655. | 1707 | Lüngen / Ines Pisetta. (CMLC 8, Marseille, 11.–16.05.2020) Stroudsburg, PA |
1577 | [Nachweis im GVK] Ronald Kresta: Realisierungsformen der Interpersonalität in vier | 1708 | 2020, S. 31–39. [online] Markus Gärtner / Felicitas Kleinkopf / Melanie |
1578 | linguistischen Fachtextsorten des Englischen und des Deutschen (= Theorie und | 1709 | Andresen / Sybille Hermann: Corpus Reusability and Copyright – Challenges and |
1579 | Vermittlung der Sprache, 24). Frankfurt / Main u. a. 1995. [Nachweis im GVK] Matías Martínez / Michael Scheffel: Einführung in die Erzähltheorie. 8. | 1710 | Opportunities. In: Proceedings of the Workshop on Challenges in the Management |
1580 | Aufage. (= C.-H.-Beck-Studium). München 2009. [Nachweis im GVK] Ansgar Nünning: »Unreliable Narration« zur Einführung. Grundzüge einer | 1711 | of Large Corpor. Hg. von Harald Lüngen / Marc Kupietz / Piotr Bański / Adrien |
1581 | kognitiv-narratologischen Theorie und Analyse unglaubwürdigen Erzählens. In: | 1712 | Barbaresi / Simon Clematide / Ines Pisetta. (CMLC 9, Limerick, 12.07.2021) |
1582 | Unreliable Narration. Studien zur Theorie und Praxis unglaubwürdigen Erzählens. | 1713 | Mannheim 2021, S. 10–19. DOI: 10.14618/ids-pub-10467 [Nachweis im GVK] Evelyn Gius: Computationelle Textanalysen |
1583 | Hg. von Ansgar Nünning / Bruno Zerweck / Carola Surkamp. Trier 1998, S. 3–39. | 1714 | als fünfdimensionales Problem: Ein Modell zur Beschreibung von Komplexität. In: |
1584 | [Nachweis im GVK] Ansgar Nünning: Unreliable, Compared to What? Towards a Cognitive Theory of | 1715 | LitLab Pamphlet 8 (2019). [online] Evelyn Gius / Janina Jacke: The Hermeneutic Profit |
1585 | »Unreliable Narration«. Prolegomena and Hypotheses. In: Grenzüberschreitungen. | 1716 | of Annotation: On Preventing and Fostering Disagreement in Literary Analysis. |
1586 | Narratologie im Kontext / Transcending Boundaries. Narratology in Context. Hg. | 1717 | In: International Journal of Humanities and Arts Computing 11 (2017), H. 2, S. |
1587 | von Walter Grünzweig / Andreas Solbach. Tübingen 1999, S. 53–73. [Nachweis im GVK] Axel Pichler / Nils Reiter: Zur Operationalisierung | 1718 | 233–254. DOI: 10.3366/ijhac.2017.0194 [Nachweis im GVK] Jürgen Habermas: Der philosophische Diskurs |
1588 | literaturwissenschaftlicher Begriffe in der algorithmischen Textanalyse. Eine | 1719 | der Moderne. Zwölf Vorlesungen. Frankfurt / Main 1988. (= Suhrkamp-Taschenbuch |
1589 | Annäherung über Norbert Altenhofers hermeneutische Modellinterpretation von | 1720 | Wissenschaft, 749). [Nachweis im GVK] Matthew Lee Jockers: Macroanalysis: Digital |
1590 | Kleists Das Erdbeben in Chili. In: Journal of Literary Theory 15 (2021), H. 1–2, S. 1–29. [online] [Nachweis im GVK] Benjamin Raue: Die Freistellung von Datenanalysen durch die neuen Text und | 1721 | methods and literary history. Urbana, IL u. a. 2013. [Nachweis im GVK] Tom Kindt: Unzuverlässiges Erzählen und |
1591 | Data Mining-Schranken. In: Zeitschrift für Urheber- und Medienrecht 56 (2021), | 1722 | literarische Moderne: eine Untersuchung der Romane von Ernst Weiß. Tübingen |
1592 | H. 10, S. 793-802. [Nachweis im GVK] Nils Reiter: Anleitung zur Erstellung von Annotationsrichtlinien. In: | 1723 | 2008. (= Studien zur deutschen Literatur, 184). [Nachweis im GVK] Felicitas Kleinkopf: Text- und Data-Mining. Die |
1593 | Reflektierte algorithmische Textanalyse. Hg. von Nils Reiter / Axel Pichler / | 1724 | Anforderungen digitaler Forschungsmethoden an ein innovations- und |
1594 | Jonas Kuhn. Berlin u. a. 2020, S. 193–202. DOI: 10.1515/9783110693973-009 [Nachweis im GVK] Richtlinie (EU) 2019/790 des Europäischen Parlaments und des Rates vom 17. April 2019 über das Urheberrecht und die verwandten Schutzrechte im digitalen Binnenmarkt und zur Änderung der Richtlinien 96/9/EG und 2001/29/EG. [online]Anne Schiller / Simone Teufel / Christine Thielen / Christine Stöckert: | 1725 | wissenschaftsfreundliches Urheberrecht. (= Schriftenreihe des Archivs für |
1595 | Guidelines für das Tagging deutscher Textcorpora mit STTS (kleines und großes | 1726 | Urheber- und Medienrecht, 300). Baden-Baden 2022. PDF. DOI: 10.5771/9783748935360Felicitas Kleinkopf / Janina Jacke / Markus |
1596 | Tagset). 1999. PDF. [online] | 1727 | Gärtner: Text- und Data-Mining – Urheberrechtliche Grenzen der Nachnutzung |
1597 | Christof Schöch / Frédéric Döhl / Achim Rettinger / Evelyn Gius / Peer | 1728 | wissenschaftlicher Korpora bei computergestützten Verfahren und digitalen |
1598 | Trilcke / Peter Leinen / Fotis Jannidis / Maria Hinzmann / Jörg Röpke: | 1729 | Ressourcen. In: MMR. Zeitschrift für IT-Recht und Recht der Digitalisierung 24 |
1599 | Abgeleitete Textformate: Text und Data Mining mit urheberrechtlich geschützten | 1730 | (2021), H. 3, S. 196–200. DOI: 10.18419/opus-11445 [Nachweis im GVK] Felicitas Kleinkopf / Thomas Pflüger: |
1600 | Textbeständen. In: Zeitschrift für digitale Geisteswissenschaften 5 (2020). | 1731 | Digitale Bildung, Wissenschaft und Kultur – Welcher urheberrechtliche |
1601 | DOI: 10.17175/2020_006Friederike Schruhl: Objektumgangsnormen in der Literaturwissenschaft. In: Wie Digitalität | 1732 | Reformbedarf verbleibt nach Umsetzung der DSM-RL durch das Gesetz zum |
1602 | die Geisteswissenschaften verändert: Neue | 1733 | Urheberrecht im digitalen Binnenmarkt? In: Zeitschrift für Urheber- und |
1603 | Forschungsgegenstände und Methoden. Hg. von Martin Huber / Sybille Krämer. Wolfenbüttel | 1734 | Medienrecht 56 (2021), H. 8 / 9, S. 643–655. [Nachweis im GVK] Thomas Krause / Amir Zeldes: ANNIS3. A New |
1604 | 2018. (= | 1735 | Architecture for Generic Corpus Query and Visualization. In: Digital |
1605 | Sonderband der Zeitschrift für digitale Geisteswissenschaften, 3) DOI: 10.17175/sb003_012Thomas Schmidt / Johanna Dangel / Christian Wolff: SentText: A Tool for | 1736 | Scholarship in the Humanities 31 (2016). H. 1, S. 118–139. 24.10.2014. DOI: |
1606 | Lexicon-based Sentiment Analysis in Digital Humanities. In: Information between | 1737 | 10.1093/llc/fqu057Ronald Kresta: Realisierungsformen |
1607 | Data and Knowledge. Information Science and its Neighbors from Data Science to | 1738 | der Interpersonalität in vier linguistischen Fachtextsorten des Englischen und |
1608 | Digital Humanities. Proceedings of the 16th International Symposium of | 1739 | des Deutschen (= Theorie und Vermittlung der Sprache, 24). Frankfurt / Main u. |
1609 | Information Science. Hg. von Christian Wolff / Thomas Schmidt. (ISI 16, | 1740 | a. 1995. [Nachweis im GVK] Matías Martínez / Michael Scheffel: |
1610 | Regensburg, 08–10.03.202) Glückstadt 2021, S. 156–172. DOI: 10.5283/epub.44943 | 1741 | Einführung in die Erzähltheorie. 8. Auflage. (= C.-H.-Beck-Studium). München |
1611 | [Nachweis im GVK] Torsten Steinhoff: Wissenschaftliche Textkompetenz: Sprachgebrauch und | 1742 | 2009. [Nachweis im GVK] Ansgar Nünning: »Unreliable Narration« zur |
1612 | Schreibentwicklung in wissenschaftlichen Texten von Studenten und Experten. | 1743 | Einführung. Grundzüge einer kognitiv-narratologischen Theorie und Analyse |
1613 | Tübingen 2007. (= Reihe Germanistische Linguistik, 280) [Nachweis im GVK] Mark D. Wilkinson / Michel Dumontier / IJsbrand Jan Aalbersberg / Gabrielle Appleton / Myles Axton / Arie Baak / Niklas Blomberg / Jan-Willem Boiten / Luiz Bonino da Silva Santos / Philip E. Bourne / Jildau Bouwman / Anthony J. Brookes / Tim Clark / Mercè Crosas / Ingrid Dillo / Olivier Dumon / Scott Edmunds / Chris T. Evelo / Richard Finkers / Alejandra Gonzalez-Beltran / Alasdair J.G. Gray / Paul Groth / Carole Goble / Jeffrey S. Grethe / Jaap Heringa / Peter A.C ’t Hoen / Rob Hooft / Tobias Kuhn / Ruben Kok / Joost Kok / Scott J. Lusher / Maryann E. Martone / Albert Mons / Abel L. Packer / Bengt Persson / Philippe Rocca-Serra / Marco Roos / Rene van Schaik / Susanna-Assunta Sansone / Erik Schultes / Thierry Sengstag / Ted Slater / George Strawn / Morris A. Swertz / Mark Thompson / Johan van der Lei / Erik van Mulligen / Jan Velterop / Andra Waagmeester / Peter Wittenburg / Katherine Wolstencroft / Jun Zhao / Barend Mons: The FAIR | 1744 | unglaubwürdigen Erzählens. In: Unreliable Narration. Studien zur Theorie und |
1614 | Guiding Principles for scientific data management and stewardship. In: | 1745 | Praxis unglaubwürdigen Erzählens. Hg. von Ansgar Nünning / Bruno Zerweck / |
1615 | Scientific Data 3 (2016), Artikelnummer 160018. DOI: 10.1038/sdata.2016.18 [Nachweis im GVK] Tamar Yacobi: Fictional reliability as a communicative problem. In: Poetics | 1746 | Carola Surkamp. Trier 1998, S. 3–39. [Nachweis im GVK] Ansgar Nünning: Unreliable, Compared to |
1616 | Today 2 (1981), H. 2, S. 113–126. [Nachweis im GVK] | 1747 | What? Towards a Cognitive Theory of »Unreliable Narration«. Prolegomena and |
1748 | Hypotheses. In: Grenzüberschreitungen. Narratologie im Kontext / Transcending | ||
1749 | Boundaries. Narratology in Context. Hg. von Walter Grünzweig / Andreas Solbach. | ||
1750 | Tübingen 1999, S. 53–73. [Nachweis im GVK] Axel Pichler / Nils Reiter: Zur | ||
1751 | Operationalisierung literaturwissenschaftlicher Begriffe in der algorithmischen | ||
1752 | Textanalyse. Eine Annäherung über Norbert Altenhofers hermeneutische | ||
1753 | Modellinterpretation von Kleists Das Erdbeben in Chili. In: Journal of Literary | ||
1754 | Theory 15 (2021), H. 1–2, S. 1–29. [online] [Nachweis im GVK] Graeme Porte: Introduction. In: Replication | ||
1755 | Research in Applied Linguistics. Hg. von Graeme Porte. (= Cambridge Applied | ||
1756 | Linguistics Series). Cambridge u. a. 2012, S. 1–17.Benjamin Raue: Die Freistellung von | ||
1757 | Datenanalysen durch die neuen Text und Data Mining-Schranken. In: Zeitschrift | ||
1758 | für Urheber- und Medienrecht 56 (2021), H. 10, S. 793-802. [Nachweis im GVK] Nils Reiter: Anleitung zur Erstellung von | ||
1759 | Annotationsrichtlinien. In: Reflektierte algorithmische Textanalyse. Hg. von | ||
1760 | Nils Reiter / Axel Pichler / Jonas Kuhn. Berlin u. a. 2020, S. 193–202. DOI: | ||
1761 | 10.1515/9783110693973-009 [Nachweis im GVK] Richtlinie (EU) 2019/790 des Europäischen | ||
1762 | Parlaments und des Rates vom 17. April 2019 über das Urheberrecht und die | ||
1763 | verwandten Schutzrechte im digitalen Binnenmarkt und zur Änderung der | ||
1764 | Richtlinien 96/9/EG und 2001/29/EG. [online]Anne Schiller / Simone Teufel / Christine | ||
1765 | Thielen / Christine Stöckert: Guidelines für das Tagging deutscher Textcorpora | ||
1766 | mit STTS (kleines und großes Tagset). 1999. PDF: [online] Christof Schöch / Frédéric Döhl / Achim | ||
1767 | Rettinger / Evelyn Gius / Peer Trilcke / Peter Leinen / Fotis Jannidis / Maria | ||
1768 | Hinzmann / Jörg Röpke: Abgeleitete Textformate: Text und Data Mining mit | ||
1769 | urheberrechtlich geschützten Textbeständen. In: Zeitschrift für digitale | ||
1770 | Geisteswissenschaften 5 (2020). DOI: 10.17175/2020_006Urheberrecht. UrhG, KUG, VGG. | ||
1771 | Kommentar. Hg. von Gerhard Schricker / Ulrich Loewenheim / Matthias Leistner. | ||
1772 | 6. neu bearbeitete Auflage. München 2020. [Nachweis im GVK] Friederike Schruhl: Objektumgangsnormen | ||
1773 | in der Literaturwissenschaft. In: Wie Digitalität die Geisteswissenschaften | ||
1774 | verändert: Neue Forschungsgegenstände und Methoden. Hg. von Martin Huber / | ||
1775 | Sybille Krämer. Wolfenbüttel 2018. (= Sonderband der Zeitschrift für digitale | ||
1776 | Geisteswissenschaften, 3) DOI: 10.17175/sb003_012Thomas Schmidt / Johanna Dangel / Christian | ||
1777 | Wolff: SentText: A Tool for Lexicon-based Sentiment Analysis in Digital | ||
1778 | Humanities. In: Information between Data and Knowledge. Information Science and | ||
1779 | its Neighbors from Data Science to Digital Humanities. Proceedings of the 16th | ||
1780 | International Symposium of Information Science. Hg. von Christian Wolff / | ||
1781 | Thomas Schmidt. (ISI 16, Regensburg, 08–10.03.202) Glückstadt 2021, S. 156–172. | ||
1782 | DOI: 10.5283/epub.44943 [Nachweis im GVK] Torsten Steinhoff: Wissenschaftliche | ||
1783 | Textkompetenz: Sprachgebrauch und Schreibentwicklung in wissenschaftlichen | ||
1784 | Texten von Studenten und Experten. Tübingen 2007. (= Reihe Germanistische | ||
1785 | Linguistik, 280) [Nachweis im GVK] Mark D. Wilkinson / Michel Dumontier / IJsbrand | ||
1786 | Jan Aalbersberg / Gabrielle Appleton / Myles Axton / Arie Baak / Niklas | ||
1787 | Blomberg / Jan-Willem Boiten / Luiz Bonino da Silva Santos / Philip E. Bourne / | ||
1788 | Jildau Bouwman / Anthony J. Brookes / Tim Clark / Mercè Crosas / Ingrid Dillo / | ||
1789 | Olivier Dumon / Scott Edmunds / Chris T. Evelo / Richard Finkers / Alejandra | ||
1790 | Gonzalez-Beltran / Alasdair J.G. Gray / Paul Groth / Carole Goble / Jeffrey S. | ||
1791 | Grethe / Jaap Heringa / Peter A.C ’t Hoen / Rob Hooft / Tobias Kuhn / Ruben Kok | ||
1792 | / Joost Kok / Scott J. Lusher / Maryann E. Martone / Albert Mons / Abel L. | ||
1793 | Packer / Bengt Persson / Philippe Rocca-Serra / Marco Roos / Rene van Schaik / | ||
1794 | Susanna-Assunta Sansone / Erik Schultes / Thierry Sengstag / Ted Slater / | ||
1795 | George Strawn / Morris A. Swertz / Mark Thompson / Johan van der Lei / Erik van | ||
1796 | Mulligen / Jan Velterop / Andra Waagmeester / Peter Wittenburg / Katherine | ||
1797 | Wolstencroft / Jun Zhao / Barend Mons: The FAIR Guiding Principles for | ||
1798 | scientific data management and stewardship. In: Scientific Data 3 (2016), | ||
1799 | Artikelnummer 160018. DOI: 10.1038/sdata.2016.18 [Nachweis im GVK] Tamar Yacobi: Fictional reliability as a | ||
1800 | communicative problem. In: Poetics Today 2 (1981), H. 2, S. 113–126. [Nachweis im GVK] | ||
1617 | 1801 | ||
1626 | 1810 | ||
1627 | Abb. 2: Dataverse-Oberfläche für ein XSample-Manifest. Rechts unten kann die | 1811 | Abb. 2: Dataverse-Oberfläche für ein XSample-Manifest. |
1628 | Weiterleitung auf den XSample-Server angestoßen werden. [Gärtner 2021] | 1812 | Rechts unten kann die Weiterleitung auf den XSample-Server angestoßen werden. |
1813 | [Gärtner | ||
1814 | 2021] | ||
1629 | 1815 | ||
1630 | 1816 | ||
1631 | Abb. 3: Startseite des XSample-Servers nach Weiterleitung | 1817 | Abb. 3: Startseite des XSample-Servers nach Weiterleitung |
1632 | Dataverse und Validierung der Manifest-Datei. [Gärtner 2021] | 1818 | aus dem zugehörigen Dataverse und Validierung der Manifest-Datei. [Gärtner 2021] |
1633 | 1819 | ||
1634 | 1820 | ||
1635 | Abb. 4: Grafische Oberfläche zur flexiblen Auswahl der Auszugsgrenzen. [Gärtner 2021] | 1821 | Abb. 4: Grafische Oberfläche zur flexiblen Auswahl der |
1822 | Auszugsgrenzen. [Gärtner | ||
1823 | 2021] | ||
1636 | 1824 | ||
1637 | 1825 | ||
1638 | Abb. 5: Exemplarische Oberfläche | 1826 | Abb. 5: Exemplarische Oberfläche zur Auszugsgenerierung |
1639 | zur Auszugsgenerierung mittels Suchanfrage basierend auf enthaltenen | 1827 | mittels Suchanfrage basierend auf enthaltenen Annotationen. Die Verteilung der |
1640 | Annotationen. Die Verteilung der Suchergebnisse über das Korpus wird | 1828 | Suchergebnisse über das Korpus wird direkt visualisiert und Nutzer*innen |
1641 | direkt visualisiert und Nutzer*innen anschließend die Möglichkeit | 1829 | anschließend die Möglichkeit gegeben, die für sie relevanten Segmente exakt |
1642 | gegeben, die für sie relevanten Segmente exakt auszuwählen. [Gärtner 2021] | 1830 | auszuwählen. [Gärtner |
1831 | 2021] | ||
1643 | 1832 | ||
1646 | distinktivsten Wortarten für die Unterscheidung von Philosophie und | 1835 | distinktivsten Wortarten für die Unterscheidung von Philosophie und |
1647 | Literaturwissenschaft im Sinne der SVM. Das verwendete Tagset ist das STTS | 1836 | Literaturwissenschaft im Sinne der SVM. Das verwendete Tagset ist das STTS (Schiller et al. |
1648 | | 1837 | 1999). [Andresen 2022] |
1649 | 1838 |