Versionen vergleichen | ZfdG - Zeitschrift für digitale Geisteswissenschaften

Versionen vergleichen von : Vorstellung eines (teil-)automatisierten Verfahrens zur Analyse der Multimodalität von Webseiten

Alt		Neu
7		7
8	DOI: 10.17175/2021_003~~_v2~~	8	DOI: 10.17175/2021_003
9	Nachweis im OPAC der Herzog August Bibliothek: ~~183965256X~~	9	Nachweis im OPAC der Herzog August Bibliothek: ppn 1749189682
10	Erstveröffentlichung: 09.09.2021	10	Erstveröffentlichung: 09.09.2021
11	~~Version 2.0: 21.03.2023~~	11
12	Lizenz: Sofern nicht anders angegeben	12	Lizenz: Sofern nicht anders angegeben
15	Medienlizenzen: Medienrechte liegen bei den Autor*innen	15	Medienlizenzen: Medienrechte liegen bei den Autor*innen
		16
16	Letzte Überprüfung aller Verweise: 23.08.2021	17	Letzte Überprüfung aller Verweise: 23.08.2021
		18
17	GND-Verschlagwortung: Cluster-Analyse \| Maschinelles Lernen \| Multimodalität \| Sozialwissenschaften \| Website \|	19	GND-Verschlagwortung: Cluster-Analyse \| Maschinelles Lernen \| Multimodalität \| Sozialwissenschaften \| Website \|
		20
18	Empfohlene Zitierweise: Thomas Jurczyk: Vorstellung eines (teil-)automatisierten Verfahrens zur	21	Empfohlene Zitierweise: Thomas Jurczyk: Vorstellung eines (teil-)automatisierten Verfahrens zur
19	Analyse der Multimodalität von Webseiten. In: Zeitschrift für digitale Geisteswissenschaften 6 (2021). Erstveröffentlichung 09.09.2021. Version 2.0 vom 21.03.2023. HTML / XML / PDF. DOI: 10.17175/2021_003_v2	22	Analyse der Multimodalität von Webseiten. In: Zeitschrift für digitale Geisteswissenschaften. Wolfenbüttel 2021. text/html Format. DOI: 10.17175/2021_003
20		23
21		24
22		25
23		26
24		27
25	Abstract	28	AbstractDer vorliegende Artikel möchte ein Verfahren zur (teil-)automatisierten Analyse
26	Der vorliegende Artikel beschreibt ein Verfahren zur (teil-)automatisierten Analyse	29	der Multimodalität von Webseiten vorstellen und diskutieren. Dabei steht im
27	der Multimodalität von Webseiten. Dabei steht im	30	Fokus, unbekannte Webseiten auf deren Multimodalität hin zu untersuchen, ohne
28	Fokus, unbekannte Webseiten auf deren multimodale Grundstrukturen hin zu untersuchen,
29	ohne
30	dass diese vorher annotiert oder sonst anderweitig in Bezug auf ihre	31	dass diese vorher annotiert oder sonst anderweitig in Bezug auf ihre
31	Multimodalität analysiert worden wären. Zusätzlich zur Etablierung eines	32	Multimodalität analysiert worden wären. Zusätzlich zur Etablierung eines
32	(teil-)automatisierten Verfahrens ~~erötert~~ dieser Artikel die Frage, ~~ob es einen Zusammenhang~~	33	(teil-)automatisierten Verfahrens möchte dieser Artikel die Frage diskutieren,
33	~~zwischen der~~ Klassifizierung der Multimodalität von Webseiten ~~und den gesellschaftlichen~~	34	inwiefern die Klassifizierung der Multimodalität von Webseiten im Zusammenhang
34	Domänen ~~gibt~~, aus denen die Webseiten stammen	35	mit den gesellschaftlichen Domänen steht, aus denen die Webseiten stammen
35	(Politik, Wirtschaft, Religion etc.).	36	(Politik, Wirtschaft, Religion etc.).
38		39
39		40	This article presents and discusses a method for the (partially) automated
40	This article presents a method for the (partially) automated
41	analysis of the multimodality of web pages. The focus lies on analyzing unknown	41	analysis of the multimodality of web pages. The focus lies on analyzing unknown
42	web pages for their ~~multimodal structure~~ without annotating them beforehand. In	42	web pages for their multimodality without annotating them beforehand. In
43	addition to establishing a (partially) automated procedure, this article ~~discusses~~	43	addition to establishing a (partially) automated procedure, this article wants
44	the question if the classification of the multimodality	44	to discuss the question to what extent the classification of the multimodality
45	of web pages is related to the social domains from which the web pages	45	of web pages is related to the social domains from which the web pages
47		47
48
49
50	Version 2.0 (21.03.2023)
51	Es wurden folgende Änderungen vorgenommen: Inhaltliche und strukturelle Anpassungen,
52	wie sie von den Gutachten angemerkt worden sind. Aktualisierung und Ergänzung der
53	Fußnoten und der bibliografischen Angaben. Formale Korrekturen.
54		48
80	sowie audio-visuelle Elemente wie Videos untersucht.	74	sowie audio-visuelle Elemente wie Videos untersucht.
		75
81	[2]Aufgrund der Komplexität multimodaler Strukturen, die teils sehr diverse modes	76	[2]Aufgrund der Komplexität multimodaler Strukturen, die teils sehr diverse modes
82	miteinander kombinieren, konzentriert sich die Forschung zum Beispiel im Bereich	77	miteinander kombinieren, konzentriert sich die Forschung zum Beispiel im Bereich
83	der Bildlinguistik oder der Analyse von Webseiten zumeist auf eine	78	der Bildlinguistik oder im Kontext der Analyse von Webseiten zumeist auf eine
84	qualitativ-manuelle Analyse des Zusammenspiels der verschiedenen modes, wobei die	79	qualitativ-manuelle Analyse des Zusammenspiels der verschiedenen modes, wobei die
85	Ergebnisse der Einzelanalysen dann durchaus quantitativ synthetisiert für	80	Ergebnisse der Einzelanalysen dann durchaus quantitativ synthetisiert für
86	allgemeinere Aussagen herangezogen werden.[2] Um die komplexe Rolle multimodaler Strukturen für	81	allgemeinere Aussagen herangezogen werden.[2] Um die Komplexität der Multimodalität für
87	den Prozess der Zeichengenerierung adäquat zu	82	den Prozess der Zeichengenerierung beispielsweise auf Webseiten adäquat zu
88	besprechen, ist eine manuell-qualitative Untersuchung oft unersetzlich, da deren	83	besprechen, ist eine manuell-qualitative Untersuchung durchaus sinnvoll, da deren
89	Automatisierung derzeit nicht realisierbar ist. Dies ist unter anderem dadurch bedingt,	84	Automatisierung nur sehr schwer realisierbar ist; nicht zuletzt, weil die
90	dass die
91	menschliche Perzeption und Einschätzung in diesem Prozess eine zentrale Rolle	85	menschliche Perzeption und Einschätzung in diesem Prozess eine zentrale Rolle
92	spielen und Aspekte wie der initiale Eindruck einer Sehfläche stark vom/von der jeweiligen	86	spielen und Aspekte wie der initiale Eindruck einer Sehfläche stark vom jeweiligen
93	Betrachter*in abhängen.[3] Aufgrund der Schwierigkeit einer technischen Umsetzung geht es bei dem hier vorgestellten	87	Betrachter abhängen.[3]
94	Verfahren nicht darum, die komplexe multimodale Struktur einer Webseite en detail	88	[3]Das hier vorzustellende Analyseverfahren möchte trotz dieser Schwierigkeiten eine
95	automatisiert zu analysieren, sondern sich auf die Untersuchung ihrer multimodalen	89	Möglichkeit aufzeigen, wie zumindest grobe Strukturmerkmale der Multimodalität von
96	Grundstruktur zu beschränken.	90	Webseiten (teil-)automatisiert untersucht und zusammengefasst werden können. Ein
97		91	solches quantitatives, (teil-)automatisiertes Verfahren steht dabei keinesfalls im
98	[3]Unter multimodalen Grundstrukturen wird in diesem Artikel die Existenz, Quantität	92	Widerspruch zu den etablierten manuell-qualitativen Zugängen, sondern möchte diese
99	und Größe einzelner modes (bildliche Elemente, Texte, audio-visuelle Elemente wie	93	lediglich um eine neue Perspektive ergänzen sowie in ihrer Durchführung
100	Videos) und deren Verhältnis zueinander auf den zu untersuchenden Webseiten verstanden.	94	unterstützen. Beispielsweise könnte ein etabliertes automatisiertes Verfahren
101	Ich hoffe, in diesem Artikel zu zeigen, dass bereits eine Analyse dieser Grundstrukturen	95	künftig dazu genutzt werden, größere Datenmengen (in diesem Falle von Webseiten)
102	etwas zum multimodalen Verständnis (und entsprechend der Kategorisierung) von Webseiten	96	hinsichtlich ihrer multimodalen Struktur vorzufiltern, um damit eine gezieltere
103	beitragen kann, auch ohne weitere Zusammenhänge wie Bildachsen, Farben, das konkrete	97	qualitativ-manuelle Analyse einzelner Fallbeispiele aus den unterschiedlichen
104	visuelle Ensemble von Text und Bild, Bildvektoren[4] oder die konkreten semantischen Inhalte von Text, Bild und Video einzubeziehen.	98	Clustern zu ermöglichen. Darüber hinaus kann eine automatisierte Analyse und
105	Dieses Verfahren der Analyse multimodaler Grundstrukturen ersetzt somit keine tiefergehende	99	Kategorisierung auch dazu verwendet werden, bestehende Klassifizierungen aus der
106	qualitative Analyse, aber es soll dazu beitragen, bei größeren Datensätzen Vorauswahlen	100	qualitativ-manuellen Forschung zu kontrastieren, empirisch zu untermauern oder zu
107	zu vereinfachen und die qualitative Analyse perspektivisch um eine quantitativ-computergestütztes	101	erweitern.[4]
108	Verfahren zu ergänzen.[5] Selbstverständlich wäre es wünschenswert, die Analyse der multimodalen Grundstrukturen,	102	[4]Versuche eines computergestützten Vorgehens bei der Analyse multimodaler
109	beispielsweise im Bereich von Bildern, auch auf die oben genannten Bereiche auszuweiten.	103	Strukturen finden sich bei O’Halloran et al.[5] Allerdings fokussieren sich die dort vorgestellten Ansätze auf
110	Dies bringt jedoch technische Herausforderungen bei der Umsetzung mit sich, die in	104	die (automatisierte) Analyse kürzerer Sequenzen (beispielsweise eines
111	diesem Artikel nicht geleistet werden können, und bei denen fraglich ist, ob sie zumindest	105	Interviewausschnitts) oder sie arbeiten mit bereits annotierten oder anderweitig
112	zum derzeitigen Zeitpunkt in Konkurrenz zu einer menschlichen qualitativ-manuellen	106	vorstrukturierten Daten (siehe auch Kapitel
113	Untersuchung treten können und sollten.[6]	107	2).
114	[4]Zusätzlich zur Etablierung eines (teil-)automatisierten Verfahrens diskutiert dieser	108
115	Artikel die Frage, inwiefern die Klassifizierung der Multimodalität	109	[5]Zusätzlich zur Etablierung eines (teil-)automatisierten Verfahrens möchte dieser
		110	Artikel die Frage diskutieren, inwiefern die Klassifizierung der Multimodalität
116	von Webseiten im Zusammenhang mit den gesellschaftlichen Domänen steht, aus denen	111	von Webseiten im Zusammenhang mit den gesellschaftlichen Domänen steht, aus denen
117	die Webseiten stammen (Politik, Wirtschaft, Religion, Universität ~~/ Wissenschaft~~, Journalismus, Unterhaltung). ~~In diesem Kontext gilt es~~ zu ~~untersuchen~~, ob bestimmte multimodale ~~Grundstrukturen~~	112	die Webseiten stammen (Politik, Wirtschaft, Religion, Universität, Journalismus, Unterhaltung). Es wäre zu fragen, ob bestimmte multimodale
118	von Webseiten bereits unabhängig von der konkreten Semantik ihrer	113	Strukturen von Webseiten bereits unabhängig von der konkreten Semantik ihrer
119	verwendeten modes (beispielsweise eines dargestellten Kreuzes als bildliches	114	verwendeten modes (beispielsweise eines dargestellten Kreuzes als bildliches
121	Zugespitzt gefragt: Gibt es politische, wirtschaftliche oder religiöse multimodale	116	Zugespitzt gefragt: Gibt es politische, wirtschaftliche oder religiöse multimodale
122	Strukturen auf Webseiten, die voneinander unterscheidbar sind, ohne die Semantik oder	117	Strukturen auf Webseiten, die voneinander unterscheidbar sind, ohne die Semantik
123	tiefergehende multimodale Strukturen (Bildachsen etc.) der jeweils konkret verwendeten	118	der jeweils konkret verwendeten modes einzubeziehen?
124	modes einzubeziehen?	119
125	[5]Im Folgenden wird in einem ersten Schritt (Kapitel	120	[6]Im Folgenden wird in einem ersten Schritt (Kapitel
126	2) detaillierter auf das Forschungsinteresse dieses Artikels und den Forschungsstand	121	2) nochmals detaillierter auf das Forschungsinteresse dieses Artikels
127	eingegangen. Im Zentrum stehen hier aktuelle Forschungen im Bereich der Analyse der	122	eingegangen. Hierbei richtet sich der Blick auf aktuelle Forschungen im Bereich
128		123	Multimodalität von Webseiten und deren potentielle Ergänzung durch ein
129	Multimodalität von Webseiten und deren Umsetzung durch ein
130	(teil-)automatisiertes Verfahren zur Analyse unbekannter Datensätze. Anschließend	124	(teil-)automatisiertes Verfahren zur Analyse unbekannter Datensätze. Anschließend
136	kategorisiert, wobei die Untersuchung und der Nachvollzug der Ergebnisse im Fokus	130	kategorisiert, wobei die Untersuchung und der Nachvollzug der Ergebnisse im Fokus
137	stehen. Im abschließenden Kapitel (5) werden die Ergebnisse des (teil-)automatisierten Analysevorgangs	131	stehen. Im abschließenden letzten Kapitel (5) werden die Ergebnisse des (teil-)automatisierten Analysevorgangs
138	diskutiert und evaluiert. In diesem Zusammenhang stehen vor allem die Fragen nach	132	diskutiert und evaluiert. In diesem Zusammenhang stehen vor allem die Fragen nach
142		136
		137
143	2. Forschungsfrage und Forschungsstand	138	2. Forschungsfrage und Forschungsstand
144		139
145	[6]Die Forschungsfrage dieses Artikels betrifft die Möglichkeit einer automatisierten	140	[7]Die Forschungsfrage dieses Artikels betrifft die Möglichkeit einer automatisierten
146	Auswertung und Klassifizierung unbekannter Webseiten auf Basis ihrer multimodalen	141	Auswertung und Klassifizierung unbekannter Webseiten auf Basis ihrer multimodalen
147	Eigenschaften. Ansätze in Richtung einer automatisierten Auswertung multimodaler	142	Eigenschaften. Ansätze in Richtung einer automatisierten Auswertung multimodaler
148	Strukturen finden sich unter anderem bei O’Halloran et al.[7] und auf der Webseite des Multimodal Analysis	143	Strukturen finden sich unter anderem bei O’Halloran et al.[6] und auf der Webseite des Multimodal Analysis
149	Lab.[8] Darüber hinaus gibt es zahlreiche Literatur über die Analyse der Multimodalität von	144	Lab.[7]
150	Webseiten,[9] die allerdings zumeist auf qualitative Methoden und somit auf die Untersuchung einzelner	145	[8]Obwohl sich die Multimodalitätsforschung nicht auf Webseiten beschränkt, sondern
151	Fallbeispiele fokussiert ist.[10] Es gibt innerhalb der Multimodalitätsforschung jedoch durchaus Bestrebungen, quantitative	146	an unterschiedlichsten Medien und Formen der Multimodalität interessiert ist,[8] konzentriert sich
152	(computergestütze) Verfahren zu etablieren.[11] Dieser Artikel möchte die existierenden Tendenzen einer stärkeren Integration quantitativer
153	(computergestützter) Verfahren in die Multimodalitätsanalyse aufgreifen und um eine
154	Methode zur (teil-)automatisierten Auswertung multimodaler Grundstrukturen von Webseiten
155	erweitern, die weiterhin ein Desideratum darstellt, wie das folgende Zitat beispielhaft
156	verdeutlicht:
157	»Thus, moving from ‚manual analysis and discursive interpretation of a limited number
158	of multimodal texts toward automated recognition of multimodal meanings across large
159	data sets remains the ›latest challenge in the field‹ (O’Halloran et al., 2016, 17).«[12]
160	[8]Trotzdem sich die Multimodalitätsforschung nicht auf Webseiten beschränkt, sondern
161	an unterschiedlichsten Medien und Formen der Multimodalität interessiert ist,[13] konzentriert sich
162	dieser Artikel auf Webseiten. Webseiten haben gegenüber Werbeplakaten, gedruckten	147	dieser Artikel auf Webseiten. Webseiten haben gegenüber Werbeplakaten, gedruckten
163	Zeitungen oder Filmen den Vorteil, dass sie bereits in einer digitalen und in	148	Zeitungen oder Filmen den Vorteil, dass sie bereits in einer digitalen und in
164	Bezug auf ~~ihr multimodales Arrangement~~ vorstrukturierten Form vorliegen. So sind	149	Bezug auf ihre Multimodalität vorstrukturierten Form vorliegen. So sind
165	beispielsweise eingebundene Bilder auf Webseiten meist durch die Nutzung von	150	beispielsweise eingebundene Bilder auf Webseiten meist durch die Nutzung von
167	gekennzeichnet, die sich	152	gekennzeichnet, die sich
168	leicht automatisiert identifizieren und mit entsprechenden Parsern	153	relativ leicht automatisiert identifizieren und mit entsprechenden Parsern
169	auslesen lassen. Dasselbe gilt für Texte oder die Einbindung von Videos auf	154	auslesen lassen. Selbiges gilt für Texte oder die Einbindung von Videos auf
170	Webseiten. Somit entfallen bei der automatisierten Analyse von Webseiten die ansonsten	155	Webseiten. Somit entfallen im Falle von Webseiten die ansonsten notwendigen und
171	notwendigen und
172	zeitaufwendigen Schritte der Digitalisierung und anschließenden Vorstrukturierung	156	zeitaufwendigen Schritte der Digitalisierung und anschließenden Vorstrukturierung
173	der Digitalisate, beispielsweise durch Annotationen.	157	der Digitalisate, beispielsweise durch Annotationen.
174	[9]Darüber hinaus sind Webseiten weit verbreitet und finden sich in fast allen	158
		159	[9]Darüber hinaus sind Webseiten sehr populär und finden sich in fast allen
175	gesellschaftlichen Bereichen (Wirtschaft, Religion, Wissenschaft, private	160	gesellschaftlichen Bereichen (Wirtschaft, Religion, Wissenschaft, private
176	Seiten usw.). Diese Tatsache erlaubt es, im Kontext der Analyse und	161	Seiten usw.). Diese Tatsache erlaubt es, im Kontext der Analyse und
177	Kategorisierung der multimodalen Grundstruktur von Webseiten die Frage zu stellen,	162	Kategorisierung der Multimodalität von Webseiten die Frage zu stellen, inwieweit
178	inwieweit	163	Cluster von Webseiten mit ähnlichen multimodalen Strukturen mit den
179	Cluster von Webseiten mit ähnlichen multimodalen Eigenschaften mit den
180	gesellschaftlichen Feldern korrelieren, aus denen sie stammen. Gibt es	164	gesellschaftlichen Feldern korrelieren, aus denen sie stammen. Gibt es
181	beispielsweise ein charakteristisches Ensemble multimodaler Grundstrukturen auf politischen	165	beispielsweise eine bestimmte Form von Multimodalität auf politischen Webseiten,
182	Webseiten,	166	die sich von der religiöser Webseiten unterscheidet, sodass diese nicht nur auf
183	das sich von dem religiöser Webseiten unterscheidet, sodass diese nicht nur auf
184	inhaltlicher, sondern auch auf formaler Ebene unterscheidbar sind? Oder lassen	167	inhaltlicher, sondern auch auf formaler Ebene unterscheidbar sind? Oder lassen
185	sich ~~multimodale~~ Muster über die Grenzen gesellschaftlicher Domänen	168	sich multimodal-strukturelle Muster über die Grenzen gesellschaftlicher Domänen
186	hinweg ~~beobachten~~, sodass etwaige inhaltliche Unterschiede zwischen den Seiten	169	hinweg verfolgen, sodass etwaige inhaltliche Unterschiede zwischen den Seiten
187	(Semantik) von einer gemeinsamen multimodalen ~~Grundstruktur~~ (Form) überdeckt werden,	170	(Semantik) von einer gemeinsamen multimodalen Struktur (Form) überdeckt werden,
188	die einem übergreifenden Webseiten-Typ entsprechen? Um diese ~~Fragen~~ zu	171	die einem übergreifenden Webseiten-Typ entsprechen? Um diese Frage(n) zu
189	beantworten, wurden die Webseiten aus dem Testdatensatz zum einen hinsichtlich der	172	beantworten, wurden die Webseiten aus dem Testdatensatz zum einen hinsichtlich der
190	gesellschaftlichen Domäne, aus der sie stammen, sowie auch des ihnen zuweisbaren	173	gesellschaftlichen Domäne, aus der sie stammen, sowie auch des ihnen zuweisbaren
191	Webseiten-Typs nach Stefan Meier[14]	174	Webseiten-Typs nach Stefan Meier[9]
192	vorannotiert.[15]	175	vorannotiert.[10]
193	[10]Im Folgenden soll eine Methode vorgestellt werden, wie ein solches Programm zur	176	[10]Im Folgenden soll eine Methode vorgestellt werden, wie ein solches Programm zur
194	(teil-)automatisierten Analyse ~~multimodaler Grundstrukturen~~ aussehen könnte. Die	177	(teil-)automatisierten Analyse von Multimodalität aussehen könnte. Die
195	(teil-)automatisierte Analyse wird im Kontext dieses Artikels mit der	178	(teil-)automatisierte Analyse wird im Kontext dieses Artikels mit der
205	Dokumentationszwecken auf meinem GitHub Account	188	Dokumentationszwecken auf meinem GitHub Account
206	bereitgestellt.[16]	189	bereitgestellt.[11]
207		190
209		192
210	[11]Die Methode der (teil-)automatisierten Analyse multimodaler ~~Grundstrukturen~~ von	193	[11]Die Methode der (teil-)automatisierten Analyse multimodaler Strukturen von
211	Webseiten besteht aus ~~drei~~ Schritten, die in Form eines in Python	194	Webseiten besteht aus folgenden Schritten, die in Form eines in Python
212	geschriebenen Programms implementiert und ausgeführt werden.[17]	195	geschriebenen Programms implementiert und ausgeführt werden.[12]
213	[12]Die hier vorgeschlagene Methode zur Analyse der Multimodalität von Webseiten	196	[12]Die hier vorgeschlagene Methode zur Analyse der Multimodalität von Webseiten
215	die Operationalisierbarkeit stark vereinfacht, sondern in Anlehnung an die	198	die Operationalisierbarkeit stark vereinfacht, sondern in Anlehnung an die
216	Sehflächen aus dem Bereich der Bildlinguistik[18] den Schwerpunkt der Analysen auf den multimodalen	199	Sehflächen aus dem Bereich der Bildlinguistik[13] den Schwerpunkt der Analysen auf den multimodalen
217	Ersteindruck der Seiten legt. Die Beschränkung auf einzelne Webseitenteile (landing	200	Ersteindruck der Seiten legt. Es geht also nicht darum, die Komplexität einzelner
218	pages) ist zudem auch bei qualitativ-manuellen Analysen gängig.[19] Es geht also nicht darum, die Komplexität einzelner
219	Webseiten unter Einbezug ihrer Unterseiten und deren multimodaler Struktur zu	201	Webseiten unter Einbezug ihrer Unterseiten und deren multimodaler Struktur zu
221	Nutzer*innen beim erstmaligen Betreten der Seite eröffnet.	203	Nutzer*innen beim erstmaligen Betreten der Seite eröffnet.
		204
222	[13]Weil diese Art der Erstwahrnehmung der Webseiten wiederum stark von den	205	[13]Weil diese Art der Erstwahrnehmung der Webseiten wiederum stark von den
229	denen auf dem hier verwendeten Desktop Computer unterscheiden können.	212	denen auf dem hier verwendeten Desktop Computer unterscheiden können.
		213
230	[14]Die Definition der ersten Wahrnehmungsebene einer Sehfläche aus der Bildlinguistik	214	[14]Die Definition der ersten Wahrnehmungsebene einer Sehfläche aus der Bildlinguistik
240	Startseite, was zwar über den Moment des Ersteindrucks hinausgeht, aber den	224	Startseite, was zwar über den Moment des Ersteindrucks hinausgeht, aber den
241	multimodalen Charakter der Webseite dafür adäquater in seiner Gesamtheit repräsentiert.	225	multimodalen Charakter der Webseite dafür adäquater repräsentiert.
		226
242	[15]Die Methode lässt sich in drei Schritte unterteilen: 1) Corpuserstellung, 2)	227	[15]Die Methode lässt sich in drei Schritte unterteilen: 1) Corpuserstellung, 2)
248	der Daten benötigt wird.	233	der Daten benötigt wird.
		234
249	[16]Diese drei Schritte werden im Folgenden detailliert diskutiert und anhand einer	235	[16]Diese drei Schritte werden im Folgenden detailliert diskutiert und anhand einer
250	exemplarischen Implementierung in Python umgesetzt.	236	exemplarischen Implementierung in Python umgesetzt.
		237
251	3.1 Corpuserstellung	238	3.1 Corpuserstellung
256	Programms angelegt werden. Im Kontext dieses Artikels enthält die betreffende	243	Programms angelegt werden. Im Kontext dieses Artikels enthält die betreffende
257	CSV-Datei die folgenden drei Spalten:[20]	244	CSV-Datei die folgenden drei Spalten:[14]
258
259		245
272	Tab. 1: Beispiel eines Eintrags einer Webseite in der	258	Tab. 1: Beispiel eines Eintrags einer Webseite in der
273	Datei ›websites.csv‹. [Jurczyk 2021]	259	Datei ›websites.csv‹. [Jurczyk 2021][18]Die erste Spalte enthält die URLs der Webseiten, die zweite deren
274	[18]~~Die erste Spalte enthält~~ die ~~URLs~~ der ~~Webseiten, die zweite deren~~	260	gesellschaftliche Domäne (in der hier gezeigten Zeile UNI für Universität)[15] und die Einordnung der
275	~~gesellschaftliche Domäne (in~~ ~~der hier gezeigten Zeile UNI für Universität)~~[21] ~~und die Einordnung der~~	261	Webseite nach den von Stefan Meier[16] vorgeschlagenen Webseiten-Typen in:
276	~~Webseite nach den von Stefan Meier[22] vorgeschlagenen Webseiten-Typen in:~~	262
277		263
286		272
		273
287	from scraper import Corpus	274	from scraper import Corpus
288		275
289
290		276
294		280
295	[20]Da die Startseiten von sozialen Netzwerken wie Facebook oder Twitter zumeist das Einloggen	281	[20]Hierzu wird die Corpus-Klasse importiert und als Corpus-Objekt initialisiert.
296	der User*innen erfordern und kampagnenorientierte Webseiten nicht immer leicht von
297	imageorientierten Webseiten zu unterscheiden sind, wurde die Auswahl der Webseiten-Typen
298	der Einfachheit halber in dieser Analyse auf die zwei Typen der newsorientierten und
299	imageorientierten Webseiten beschränkt. Eine spätere Integration der beiden anderen
300	Typen kann jedoch leicht nachträglich vorgenommen werden und wäre für eine Ausweitung
301	der in diesem Artikel beispielhaft behandelten Fragestellung interessant. Die Typologie Meiers ist auf primäre Handlungstypen aufgebaut,, wobei sich newsorientierte
302	Webseiten auf »prototypische journalistische Angebote, die durch ständig aktualisierten Contentwechsel
303	über das politische, kulturelle, wirtschaftliche, soziale und sportliche Geschehen«[23] konzentrieren, während imageorientierte Webseiten »der Vorstellung und (Selbst)Darstellung einer Einzelperson, einer Institution, eines
304	Unternehmens«[24] dienen. Sie bieten damit ein geeignetes Mittel, Webseiten transparent auf Basis einer
305	bestimmten Eigenschaft (Handlungstypen) zu klassifizieren, die wiederum mit den Ergebnissen
306	der (teil-)automatisierten Analyse der multimodalen Grundstruktur verglichen werden
307	können, um so eine mögliche Verbindung zwischen ›Handlungstypen‹ und multimodaler
308	Grundstruktur nachzuvollziehen. Eine solche Korrelation zwischen Handlungstypen und
309	multimodaler Strukturierung wird von Stefan Meier als gegeben angesehen,[25] weshalb es interessant und zur Überprüfung des hier vorgeschlagenen Verfahrens wichtig
310	ist, die Ergebnisse der (teil-)automatisierten Analyse mit der Kategorisierung nach
311	Meier zu vergleichen, um auf sowohl Gemeinsamkeiten als auch Unstimmigkeiten zwischen
312	den beiden Klassifizierungen aufmerksam machen zu können.
313	[21]Hierzu wird die Corpus-Klasse importiert und als Corpus-Objekt initialisiert.
314	Das Corpus wird daraufhin mit der Methode	282	Das Corpus wird daraufhin mit der Methode
319	Entsprechend muss dieser Teil des Programms nur einmal ausgeführt werden.	287	Entsprechend muss dieser Teil des Programms nur einmal ausgeführt werden.
320	[22]Die	288
321	initCorpus()-Methode iteriert über die in ›websites.csv‹	289	[21]Die
322	befindlichen URLs und öffnet diese mit Selenium[26] in einem Browserfenster auf	290	initCorpus() Methode iteriert über die in ›websites.csv‹
323	Bildschirmgröße.[27] Die User*innen sind daraufhin aufgefordert,	291	befindlichen URLs und öffnet diese mit Selenium[17] in einem Browserfenster auf
		292	Bildschirmgröße.[18] Die User*innen sind daraufhin aufgefordert,
324	etwaige aufpoppende Banner beziehungsweise Abfragen manuell zu bestätigen.	293	etwaige aufpoppende Banner beziehungsweise Abfragen manuell zu bestätigen.
326	Webseite im Jupyter Notebook bestätigt werden. Nachdem automatisiert bis zum Ende der Webseite	295	Webseite im Jupyter Notebook bestätigt werden. Nachdem automatisiert bis zum Ende der Webseite
327	gescrollt wurde,[28] speichert das Programm für jede Seite den	296	gescrollt wurde,[19] speichert das Programm für jede Seite den
328	beim Aufruf der Webseite aktuellen HTML-Code in einem separaten Ordner namens	297	beim Aufruf der Webseite aktuellen HTML-Code in einem separaten Ordner namens
335	initialisiert wird, werden alle Daten im Ordner ›CorpusData‹ überschrieben.	304	initialisiert wird, werden alle Daten im Ordner ›CorpusData‹ überschrieben.
336	[23]Warum wird dieser Vorgang lediglich teil- und nicht vollautomatisiert	305
		306	[22]Warum wird dieser Vorgang lediglich teil- und nicht vollautomatisiert
337	durchgeführt? Der Hauptgrund hierfür liegt im Anspruch des Programms, sehr	307	durchgeführt? Der Hauptgrund hierfür liegt im Anspruch des Programms, sehr
339	Seiten, die Inhalte dynamisch nachladen oder überhaupt erst durch eine	309	Seiten, die Inhalte dynamisch nachladen oder überhaupt erst durch eine
340	Bestätigung der User*innen aufgerufen werden können,[29] sind nur sehr	310	Bestätigung der User*innen aufgerufen werden können,[20] sind nur sehr
341	schwer ohne Kenntnisse des Webseitenaufbaus automatisiert abrufbar. Selenium wird in diesem Artikel gegenüber anderen Bibliotheken wie requests der	311	schwer ohne Kenntnisse des Webseitenaufbaus automatisiert abrufbar. Selenium wird in diesem Artikel gegenüber anderen Bibliotheken wie requests der
348		318
		319
349	3.2 Bilder, Videos und Texte	320	3.2 Bilder, Videos und Texte
350		321
351	[24]Nachdem das Corpus initialisiert wurde, muss im nächsten Schritt die	322	[23]Nachdem das Corpus initialisiert wurde, muss im nächsten Schritt die
352		323
363		334
		335
364	from data_preparation import DataPreparation	336	from data_preparation import DataPreparation
372		344
373	[25]Genau wie im ersten Schritt der Corpus-Initialisierung arbeitet die	345	[24]Genau wie im ersten Schritt der Corpus-Initialisierung arbeitet die
374		346
375	getImages()-Methode ebenfalls mit Selenium und erfordert die manuelle Bestätigung der User*innen. Die	347	getImages() Methode ebenfalls mit Selenium und erfordert die manuelle Bestätigung der User*innen. Die
376		348
377	getimages()-Methode ruft die einzelnen Webseiten auf und	349	getimages() Methode ruft die einzelnen Webseiten auf und
378	speichert die Bild- und Videoinformationen in einem Byte-File	350	speichert die Bild- und Videoinformationen in einem Byte-File
383	einer Webseite.	355	einer Webseite.
384	[26]Im abschließenden Schritt des Aufrufs der	356
385	createAnalyzerDict()-Methode wird das für die Analyse zentrale ›merged_data_dict.pickle‹ erstellt.	357	[25]Im abschließenden Schritt des Aufrufs der
		358	createAnalyzerDict()
		359	Methode wird das für die Analyse zentrale ›merged_data_dict.pickle‹ erstellt.
386	Die Generierung der in dieser Datei enthaltenen Informationen werden	360	Die Generierung der in dieser Datei enthaltenen Informationen werden
390		364
391	Anzahl der Bilder auf der Webseite[30]	365
392	Anzahl der großen, mittleren, kleinen und sehr kleinen Bilder[31]	366	Anzahl der Bilder auf der Webseite[21]
		367	Anzahl der großen, mittleren, kleinen und sehr kleinen Bilder[22]
393	Anzahl der Hintergrundbilder	368	Anzahl der Hintergrundbilder
394	Anzahl der Videos[32]	369	Anzahl der Videos[23]
395	Anzahl der großen und kleinen Videos[33]	370	Anzahl der großen und kleinen Videos[24]
396	Die Gesamtlänge textlicher Elemente auf der Seite[34]	371	Die Gesamtlänge textlicher Elemente auf der Seite[25]
397	Die Anzahl der Überschriften	372	Die Anzahl der Überschriften
401		376
402	[27]Darüber hinaus enthält die Datei zu Dokumentationszwecken und für die weitere	377	[26]Darüber hinaus enthält die Datei zu Dokumentationszwecken und für die weitere
403	Analyse die vollständigen Daten, darunter die URLs zu den Bildern und Videos,	378	Analyse die vollständigen Daten, darunter die URLs zu den Bildern und Videos,
406		381
		382
407	3.3 Analyse	383	3.3 Analyse
408		384
409	[28]Der Analyseteil der hier vorzustellenden Methode wurde in der Datei	385	[27]Der Analyseteil der hier vorzustellenden Methode wurde in der Datei
410	›analyzer.py‹ realisiert. Die Analyse basiert auf einem k-Means-Clustering, das es erlaubt, die Datensätze auf Basis ihrer	386	›analyzer.py‹ realisiert. Die Analyse basiert auf einem k-Means-Clustering, das es erlaubt, die Datensätze auf Basis ihrer
411	Features[35] zu Gruppen mit ähnlichen	387	Features[26] zu Gruppen mit ähnlichen
412	Eigenschaften zusammenzufassen.[36] Die Klasse	388	Eigenschaften zusammenzufassen.[27] Die Klasse
413		389
418	Analyzer() außerdem folgende relationale Werte:	394	Analyzer() außerdem folgende relationale Werte:
419	[29]Jeweils das Verhältnis zwischen großen / mittleren / kleinen / sehr kleinen	395
		396	[28]Jeweils das Verhältnis zwischen großen / mittleren / kleinen / sehr kleinen
420	Bildern und der Gesamtzahl der Bilder auf einer Webseite	397	Bildern und der Gesamtzahl der Bilder auf einer Webseite
		398
421		399
423	der Textlänge	401	der Textlänge
		402
424	Das Verhältnis zwischen großen und mittleren Bildern und der	403	Das Verhältnis zwischen großen und mittleren Bildern und der
425	Textlänge	404	Textlänge
		405
426	Das Verhältnis zwischen internen und externen Links	406	Das Verhältnis zwischen internen und externen Links
429		409
430	[30]Der Ablauf der Analyse besteht aus folgenden Schritten:	410
		411	[29]Der Ablauf der Analyse besteht aus folgenden Schritten:
		412
431		413
439	werden.	421	werden.
		422
440	Der zweite Schritt besteht in der Standardisierung der Daten mit Hilfe	423	Der zweite Schritt besteht in der Standardisierung der Daten mit Hilfe
442	StandardScaler()-Klasse, die eine	425	StandardScaler()-Klasse, die eine
443	Standardisierung der Daten durch Berechnung der z-scores ermöglicht.[37] Obwohl dieser	426	Standardisierung der Daten durch Berechnung der z-scores ermöglicht.[28] Obwohl dieser
444	Schritt optional ist und die Analyse auch mit den nicht standardisierten	427	Schritt optional ist und die Analyse auch mit den nicht standardisierten
447	allem aus den unterschiedlichen Scales zwischen den Features	430	allem aus den unterschiedlichen Scales zwischen den Features
448	resultieren.[38]	431	resultieren.[29]
449	Anschließend können die ausgewählten (standardisierten) Features mit der	432	Anschließend können die ausgewählten (standardisierten) Features mit der
455	Clustern innerhalb des Jupyter Notebook.	438	Clustern innerhalb des Jupyter Notebook.
		439
456	Mit der Methode	440	Mit der Methode
461	Feature-Auswahl zu ermitteln. Die ideale Anzahl der Cluster lässt sich	445	Feature-Auswahl zu ermitteln. Die ideale Anzahl der Cluster lässt sich
462	dadurch ermitteln, ~~dass~~ in dem Plot nach der Anzahl k-Cluster gesucht wird	446	dadurch ermitteln, das in dem Plot nach der Anzahl k-Cluster gesucht wird
463	(X-Achse), bei der die Kurve des Plots einen Knick hat und merklich	447	(X-Achse), bei der die Kurve des Plots einen Knick hat und merklich
464	abflacht.[39]	448	abflacht.[30]
465	Anschließend erlaubt es die Methode	449	Anschließend erlaubt es die Methode
468	jeweiligen Clustern enthaltenen Webseiten zu erstellen und diese in	452	jeweiligen Clustern enthaltenen Webseiten zu erstellen und diese in
469	separaten Ordnern abzuspeichern. Die Screenshots werden wie in Kapitel 3.1 teilautomatisiert mit Selenium erstellt, wobei die User*innen dazu aufgefordert sind, etwaige	453	separaten Ordnern abzuspeichern. Die Screenshots werden dabei wie in Kapitel 3.1 teilautomatisiert mit Selenium erstellt, wobei die User*innen dazu aufgefordert sind, etwaige
470	erscheinende Warnungen und Abfragen manuell zu entfernen. Die Sammlung von	454	erscheinende Warnungen und Abfragen manuell zu entfernen. Die Sammlung von
473	eines Clusters von den Nutzer*innen manuell miteinander verglichen	457	eines Clusters von den Nutzer*innen manuell miteinander verglichen
474	werden.[40]	458	werden.[31]
475		459
476	[31]Der Code zur Realisierung der hier beschriebenen Analyse sieht in der hier	460	[30]Der Code zur Realisierung der hier beschriebenen Analyse sieht in der hier
477	vorgestellten Implementierung wie folgt aus:	461	vorgestellten Implementierung wie folgt aus:
479		463
		464
480	from analyzer import Analyzer	465	from analyzer import Analyzer
521		506
522	[32]Die auf diese Weise entstandenen Cluster können nun von den User*innen dazu	507	[31]Die auf diese Weise entstandenen Cluster können nun von den User*innen dazu
523	genutzt werden, weitere Untersuchungen durchzuführen, wobei ein erster Schritt	508	genutzt werden, weitere Untersuchungen durchzuführen, wobei ein erster Schritt
529	gesellschaftlicher Domäne und der multimodalen Struktur genutzt werden.	514	gesellschaftlicher Domäne und der multimodalen Struktur genutzt werden.
530	[33]Die hier vorgestellte Methode und Implementierung sollen im Folgenden anhand	515
		516	[32]Die hier vorgestellte Methode und Implementierung sollen im Folgenden anhand
531	eines ausgewählten Webseiten-Samples und dessen Analyse exemplifiziert	517	eines ausgewählten Webseiten-Samples und dessen Analyse exemplifiziert
534		520
		521
535	4. Analyse eines Webseiten-Samples	522	4. Analyse eines Webseiten-Samples
536		523
537	[34]Das in diesem Artikel verwendete Webseiten-Sample ist klein	524	[33]Das in diesem Artikel verwendete Webseiten-Sample ist verhältnismäßig klein
538	gewählt, um eine Überprüfung der Analyseergebnisse zu gewährleisten. Prinzipiell	525	gewählt, um eine Überprüfung der Analyseergebnisse zu gewährleisten. Prinzipiell
548	einer bestimmten Größe des Datensatzes nur noch schwer möglich.	535	einer bestimmten Größe des Datensatzes nur noch schwer möglich.
549	[35]Bei der Auswahl der Webseiten wurde darauf geachtet, Webseiten aus möglichst	536
550	diversen gesellschaftlichen Domänen sowie vom Webseiten-Typ newsorientierter oder	537	[34]Bei der Auswahl der Webseiten wurde darauf geachtet, Webseiten aus möglichst
551	imageorientierter Webseiten nach Meier (siehe Kapitel 3.1) miteinander zu	538	diversen gesellschaftlichen Domänen sowie verschiedener Webseiten-Typen nach Meier
		539	(siehe Kapitel 3.1) miteinander zu
552	kombinieren. Dies soll dabei helfen, die eingangs aufgeworfene Frage zu	540	kombinieren. Dies soll dabei helfen, die eingangs aufgeworfene Frage zu
554	beziehungsweise solche desselben Webseiten-Typs hinsichtlich ihres multimodalen	542	beziehungsweise solche desselben Webseiten-Typs hinsichtlich ihres multimodalen
555	Arrangements ähneln.	543	Arrangements ähneln. Da die Startseiten von sozialen Netzwerken wie Facebook oder
		544	Twitter zumeist das Einloggen der User*innen erfordern und kampagnenorientierte
		545	Webseiten nicht immer leicht von imageorientierten Webseiten zu unterscheiden
		546	sind, wurde die Auswahl der Webseiten-Typen der Einfachheit halber in dieser
		547	Analyse auf die zwei Typen der newsorientierten und imageorientierten Webseiten
		548	beschränkt. Eine spätere Integration der beiden anderen Typen kann jedoch leicht
		549	nachträglich vorgenommen werden und wäre für eine Ausweitung der in diesem Artikel
		550	beispielhaft behandelten Fragestellung interessant.
		551
556	4.1 Das Webseiten-Sample und Corpus-Erstellung	552	4.1 Das Webseiten-Sample und Corpus-Erstellung
557		553
558	[36]Das in diesem Artikel gewählte Webseiten-Corpus enthält die folgenden zwanzig	554	[35]Das in diesem Artikel gewählte Webseiten-Corpus enthält die folgenden zwanzig
559	Webseiten, die mit Blick auf ihre idealtypische Repräsentativität für bestimmte Domänen	555	Webseiten:
560	(beispielsweise Religion oder Wirtschaft) ausgesucht wurden:
561		556
673	besonders auf tagesaktuelle Neuigkeiten fokussiert ist. Siehe für diese	668	besonders auf tagesaktuelle Neuigkeiten fokussiert ist. Siehe für diese
674	problematische Einteilung auch das Kapitel 4.2.4). [Jurczyk 2021]	669	problematische Einteilung auch das Kapitel 4.2.4). [Jurczyk 2021][36]In einem ersten Schritt wird das Corpus wie in Kapitel 3.1 beschrieben initialisiert.[32] Daraufhin werden die Bilder und Videos der
675	[37]In einem ersten Schritt wird das Corpus wie in Kapitel 3.1 beschrieben initialisiert.[41] Daraufhin werden die Bilder und Videos der
676	einzelnen Webseiten mit Hilfe der	670	einzelnen Webseiten mit Hilfe der
680		674
		675
681	4.2 Analyse	676	4.2 Analyse
682		677
683	[38]Die Analyse mit Hilfe der	678	[37]Die Analyse mit Hilfe der
684	Analyzer()-Klasse wird mit	679	Analyzer()-Klasse wird mit
687		682
		683
688	In einem ersten Schritt werden alle erhobenen Features in die Analyse	684	In einem ersten Schritt werden alle erhobenen Features in die Analyse
690	Kapitel 3.2)	686	Kapitel 3.2)
		687
691	In einem zweiten Schritt werden nur die Bild- und Video-Features als	688	In einem zweiten Schritt werden nur die Bild- und Video-Features als
692	Basis für das Clustering genutzt (Bild- und Video-Features)[42]	689	Basis für das Clustering genutzt (Bild- und Video-Features)[33]
693	In einem dritten Schritt werden nur die Textlänge sowie die Anzahl der	690	In einem dritten Schritt werden nur die Textlänge sowie die Anzahl der
694	Überschriften einbezogen (Text-Features)	691	Überschriften einbezogen (Text-Features)
		692
695	Der letzte Schritt enthält eine Kombination der Text-, Video- und	693	Der letzte Schritt enthält eine Kombination der Text-, Video- und
696	Bild-Features (Text- und Bild-Features)[43]	694	Bild-Features (Text- und Bild-Features)[34]
697		695
698	[39]Im Folgenden ~~werden~~ die im Kontext der jeweilig ausgewählten Features	696	[38]Im Folgenden sollen die im Kontext der jeweilig ausgewählten Features
699	entstandenen Cluster vorgestellt und diskutiert. Dabei geht es während	697	entstandenen Cluster vorgestellt und diskutiert werden. Dabei geht es während
700	der Besprechung zum einen darum, wie nachvollziehbar die Cluster in Bezug auf	698	der Besprechung zum einen darum, wie nachvollziehbar die Cluster in Bezug auf
707	multimodalen Features der Seiten korrelieren.	705	multimodalen Features der Seiten korrelieren.
708	[40]Jede Teilanalyse beginnt mit der Erstellung eines ›Elbow-Plot‹, um einen	706
		707	[39]Jede Teilanalyse beginnt mit der Erstellung eines ›Elbow-Plot‹, um einen
709	Eindruck von der potentiell ›richtigen‹ Auswahl an Clustern zu erlangen.	708	Eindruck von der potentiell ›richtigen‹ Auswahl an Clustern zu erlangen.
714		713
		714
715	4.2.1 Vollständige Features	715	4.2.1 Vollständige Features
721		721
722	[41]Wie an dem ›Elbow-Plot‹ erkennbar ist, bietet es sich im Kontext der	722	[40]Wie an dem ›Elbow-Plot‹ erkennbar ist, bietet es sich im Kontext der
723	vollständigen Features an, einen möglichst hohen k-Wert für die Anzahl der	723	vollständigen Features an, einen möglichst hohen k-Wert für die Anzahl der
857	Clustering des Webseiten-Samples unter Einbezug aller Features. [Jurczyk	857	Clustering des Webseiten-Samples unter Einbezug aller Features. [Jurczyk
858	2021]	858	2021][41]Das Clustering unter Einbezug aller Features macht es auf den ersten Blick
859	[42]Das Clustering unter Einbezug aller Features macht es auf den ersten Blick
860	schwierig, eine Struktur beziehungsweise ein Muster in der Clusterbildung zu	859	schwierig, eine Struktur beziehungsweise ein Muster in der Clusterbildung zu
862	geringe Anzahl an Webseiten bedingt ist. Dies kann jedoch als Hinweis gewertet	861	geringe Anzahl an Webseiten bedingt ist. Dies kann jedoch als Hinweis gewertet
863	werden, dass die Webseiten in der Tat divers sind, was gut an den	862	werden, dass die Webseiten in der Tat relativ divers sind, was gut an den
864	Single-Webseiten-Clustern 3, 4 und 5 deutlich wird.	863	Single-Webseiten-Clustern 3, 4 und 5 deutlich wird.
865	[43]Neben der Feststellung, dass die Webseiten unter Einbezug aller Features	864
		865	[42]Neben der Feststellung, dass die Webseiten unter Einbezug aller Features
866	relativ divers sind, stechen zwei Cluster besonders hervor (Cluster 1 und	866	relativ divers sind, stechen zwei Cluster besonders hervor (Cluster 1 und
867	Cluster 2).	867	Cluster 2).
868	[44]Cluster 1 enthält vor allem Webseiten vom Typ ›News‹, die sich allerdings über	868
		869	[43]Cluster 1 enthält vor allem Webseiten vom Typ ›News‹, die sich allerdings über
869	ganz unterschiedliche Domänen erstrecken und von Entertainment Seiten (ign.com)	870	ganz unterschiedliche Domänen erstrecken und von Entertainment Seiten (ign.com)
874	verhältnismäßig wenige Überschriften (netzpolitik.org: 70, faz.net: 167,	875	verhältnismäßig wenige Überschriften (netzpolitik.org: 70, faz.net: 167,
875	heise.de: 164), dafür allerdings viele große Bilder beinhaltet	876	heise.de: 164), dafür allerdings viele große Bildern beinhaltet
876	(netzpolitik.org: 11, faz.net: 3, heise.de: 0).[44][45] Der zweite outlier ist die	877	(netzpolitik.org: 11, faz.net: 3, heise.de: 0)[35], was die Seite
		878	zusammen mit der Anordnung der News in nur einer Spalte deutlich aufgeräumter
		879	wirken lässt.[36] Der zweite outlier ist die
877	amerikanische News-Webseite nytimes.com. Diese fällt in eine gesonderte	880	amerikanische News-Webseite nytimes.com. Diese fällt in eine gesonderte
880	aus multimodaler Perspektive von den anderen Seiten abhebt.	883	aus multimodaler Perspektive von den anderen Seiten abhebt.
881	[45]Cluster 2 enthält vor allem Webseiten vom Typ ›Image‹, die ebenfalls aus	884
		885	[44]Cluster 2 enthält vor allem Webseiten vom Typ ›Image‹, die ebenfalls aus
882	verschiedenen gesellschaftlichen Bereichen stammen, wobei der Bereich der	886	verschiedenen gesellschaftlichen Bereichen stammen, wobei der Bereich der
883	›Ökonomie‹ (ECO) dominiert. Ein Blick auf die Werte der Features zeigt, dass im	887	›Ökonomie‹ (ECO) dominiert. Ein Blick auf die Werte der Features zeigt, dass im
884	Falle ~~der~~ Webseiten vom ~~Typ~~ ›Image‹ vor allem das Verhältnis zwischen großen	888	Falle die Webseiten vom Type ›Image‹ vor allem das Verhältnis zwischen großen
885	Bildern und der Anzahl der Gesamtbilder deutlich größer und umgekehrt das	889	Bildern und der Anzahl der Gesamtbilder deutlich größer und umgekehrt das
889	Überschriften.	893	Überschriften.
890	[46]Zusammenfassend kann festgehalten werden, dass der Einbezug aller Features	894
		895	[45]Zusammenfassend kann festgehalten werden, dass der Einbezug aller Features
891	bereits in ersten sinnvollen Clusterbildungen des multimodalen Arrangements	896	bereits in ersten sinnvollen Clusterbildungen des multimodalen Arrangements
896		901
		902
897	4.2.2 Bild- und Video-Features	903	4.2.2 Bild- und Video-Features
903		909
904	[47]Im Falle der Bild- und Video-Feature-Auswahl wird im ›Elbow-Plot‹ deutlich,	910	[46]Im Falle der Bild- und Video-Feature-Auswahl wird im ›Elbow-Plot‹ deutlich,
905	dass sich eine Clusteranzahl von k=6 für die Analyse anbietet. Ein	911	dass sich eine Clusteranzahl von k=6 für die Analyse anbietet. Ein
1039	Clustering des Webseiten-Samples unter Einbezug der Bild- und	1045	Clustering des Webseiten-Samples unter Einbezug der Bild- und
1040	Video-Features. [Jurczyk 2021]	1046	Video-Features. [Jurczyk 2021][47]Die Analyse basierend auf den Bild- und Video-Features ist in Bezug auf die
1041	[48]Die Analyse, basierend auf den Bild- und Video-Features, ist in Bezug auf die
1042	Domänen und Webseiten-Typen deutlich schwieriger zu interpretieren als im Falle	1047	Domänen und Webseiten-Typen deutlich schwieriger zu interpretieren als im Falle
1057		1062
1058	-Tags verwendet werden und sich dort sowohl in	1063	Tags verwendet werden und sich dort sowohl in
1059	Sachen Größe als auch Erscheinungsbild kaum von regulären Bildern	1064	Sachen Größe als auch Erscheinungsbild kaum von regulären Bildern
1062	vergleichen.	1067	vergleichen.
1063	[49]Insgesamt ist die Einschränkung der Features auf Bilder und Videos zwar	1068
		1069	[48]Insgesamt ist die Einschränkung der Features auf Bilder und Videos zwar
1064	geeignet, eine allgemeine Einschätzung der Distribution von Elementen zu	1070	geeignet, eine allgemeine Einschätzung der Distribution von Elementen zu
1069	im derzeitigen Zustand des Programms ohne eine Ausarbeitung der	1075	im derzeitigen Zustand des Programms ohne eine Ausarbeitung der
1070	Bildklassifizierungsstrategien während der Datengenerierung nicht geeignet. Eine Weiterentwicklung	1076	Bildklassifizierungsstrategien während der Datengenerierung nicht geeignet.
1071	des Programms könnte darin bestehen, anstelle der kategorialen Einteilung der Bild-Features	1077
1072	in große, mittlere und kleine Bilder direkt die Pixelanzahl als Feature
1073	einzubeziehen.
1074		1078
1081		1085
1082	[50]Im Falle der Text-Features lässt sich der ›Elbow‹ bei k=3 oder k=4 Clustern	1086	[49]Im Falle der Text-Features lässt sich der ›Elbow‹ bei k=3 oder k=4 Clustern
1083	erkennen, wobei in diesem Beispiel k=4 Cluster ausgewählt wurden. Das	1087	erkennen, wobei in diesem Beispiel k=4 Cluster ausgewählt wurden. Das
1217	Clustering des Webseiten-Samples unter Einbezug der Text-Features. [Jurczyk	1221	Clustering des Webseiten-Samples unter Einbezug der Text-Features. [Jurczyk
1218	2021]	1222	2021][50]Im Falle des Text-Clustering lassen sich eindeutige Trends erkennen, die vor
1219	[51]Im Falle des Text-Clustering lassen sich eindeutige Trends erkennen, die vor
1220	allem mit den Webseiten-Typen korrelieren (Cluster 1, Cluster 2 sowie Cluster	1223	allem mit den Webseiten-Typen korrelieren (Cluster 1, Cluster 2 sowie Cluster
1226	die Verwendung von	1229	die Verwendung von
1227	-Tags im unteren Bereich der Webseite	1230	Tags im unteren Bereich der Webseite
1228	von der Darstellung her kaum von einem regulären Text zu unterscheiden ist,	1231	von der Darstellung her kaum von einem regulären Text zu unterscheiden ist,
1229	weshalb nytimes.com eher in Cluster 2 einzuordnen ist.[46]	1232	weshalb nytimes.com eher in Cluster 2 einzuordnen ist.[37]
1230	[52]Cluster 2 enthält News-Webseiten, die eine große Anzahl an Wörtern und viele	1233	[51]Cluster 2 enthält News-Webseiten, die eine große Anzahl an Wörtern und viele
1231	Überschriften aufweisen und die damit als Idealtypen von News-Webseiten gelten	1234	Überschriften aufweisen und die damit als Idealtypen von News-Webseiten gelten
1234	wenige Überschriften beinhalten.	1237	wenige Überschriften beinhalten.
1235	[53]Insgesamt kann das auf den Textmengen basierende Clustering als durchaus	1238
		1239	[52]Insgesamt kann das auf den Textmengen basierende Clustering als durchaus
1236	sinnvoll angesehen werden, um den Typ einer Webseite zu klassifizieren. Auch	1240	sinnvoll angesehen werden, um den Typ einer Webseite zu klassifizieren. Auch
1237	deuten die Unterschiede in der Verwendung von Text, trotz der offensichtlich	1241	deuten die Unterschiede in der Verwendung von Text, trotz der offensichtlich
1238	vorhandenen Schwierigkeiten (siehe nytimes.com), auf eine unterschiedliche	1242	vorhandenen Schwierigkeiten (siehe nytimes.com), auch auf eine unterschiedliche
1239	Verwendung eines wichtigen multimodalen Elements hin (Schrift und deren	1243	Verwendung eines wichtigen multimodalen Elements hin (Schrift und deren
1241	Überschrift).	1245	Überschrift).
1242	[54]Der letzte Analyseschritt führt die Text-Features mit den Video- und	1246
		1247	[53]Der letzte Analyseschritt führt die Text-Features mit den Video- und
1243	Bild-Features zusammen. Im Gegensatz zum ersten Analyseschritt, der alle	1248	Bild-Features zusammen. Im Gegensatz zum ersten Analyseschritt, der alle
1249		1254
		1255
1250	4.2.4 Text-, Video- und Bild-Features	1256	4.2.4 Text-, Video- und Bild-Features
1256		1262
1257	[55]Im Falle einer Kombination der Text-, Bild- und Video-Features ist die Wahl der	1263	[54]Im Falle einer Kombination der Text-, Bild- und Video-Features ist die Wahl der
1258	Clusteranzahl auf Basis des ›Elbow-Plot‹ erneut schwierig und erinnert an die	1264	Clusteranzahl auf Basis des ›Elbow-Plot‹ erneut schwierig und erinnert an die
1394	Clustering des Webseiten-Samples unter Einbezug der Bild-, Video- und	1400	Clustering des Webseiten-Samples unter Einbezug der Bild-, Video- und
1395	Text-Features. [Jurczyk 2021]	1401	Text-Features. [Jurczyk 2021][55]Das hier ersichtliche feingliedrige Clustering zeichnet ein realistisches Bild
1396	[56]Das hier ersichtliche feingliedrige Clustering zeichnet ein realistisches Bild
1397	der multimodalen Struktur der im Webseiten-Sample enthaltenen Webseiten.	1402	der multimodalen Struktur der im Webseiten-Sample enthaltenen Webseiten.
1398	Besonders hervorzuheben sind Cluster 1 und Cluster 2.	1403	Besonders hervorzuheben sind Cluster 1 und Cluster 2.
1399	[57]Cluster 1 kann als ›Werbe-Cluster‹ bezeichnet werden, da es ausschließlich	1404
1400	Webseiten vom Typ ›Image‹ enthält, die sich durch eine geringe	1405	[56]Cluster 1 kann als ›Werbe-Cluster‹ bezeichnet werden, da es ausschließlich
		1406	Webseiten vom Typ ›Image‹ enthält, die sich durch eine relativ geringe
1401	Textmenge und eine geringe Anzahl an Bildern auszeichnen, die dafür aber meist	1407	Textmenge und eine geringe Anzahl an Bildern auszeichnen, die dafür aber meist
1402	sehr groß sind. ~~Der~~ Ersteindruck der Seiten erinnert damit an Werbeplakate oder	1408	sehr groß sind. Die Ersteindruck der Seiten erinnert damit an Werbeplakate oder
1403	Reklame in gedruckten Magazinen.[47] Die Seite adidas.de (Cluster 7) fällt nur deshalb aus diesem	1409	Reklame in gedruckten Magazinen.[38] Die Seite adidas.de (Cluster 7) fällt nur deshalb aus diesem
1404	Cluster heraus, weil sie ein (sehr großes) Video auf der Startseite platziert	1410	Cluster heraus, weil sie ein (sehr großes) Video auf der Startseite platziert
1405	hat und damit ein anderes multimodales Arrangement aufweist. Ein	1411	hat, und damit ein anderes multimodales Arrangement aufweist. Ein
1406	vergleichender Blick auf zwei Webseiten aus Cluster 1 (spd.de und	1412	vergleichender Blick auf zwei Webseiten aus Cluster 1 (spd.de und
1409	Webseiten werden eindeutig von großen Bildern und wenig Text, der eher den	1415	Webseiten werden eindeutig von großen Bildern und wenig Text, der eher den
1410	Bildern zuzuarbeiten scheint, dominiert.[48]	1416	Bildern zuzuarbeiten scheint, dominiert.[39]
1411		1417
1420		1426
1421	[58]Cluster 2 umfasst Webseiten mit, im Vergleich zu Cluster 1, viel Text, der	1427	[57]Cluster 2 umfasst Webseiten mit, im Vergleich zu Cluster 1, viel Text, der
1422	außerdem durch zahlreiche Überschriften unterteilt wird. Webseiten in Cluster 2	1428	außerdem durch zahlreiche Überschriften unterteilt wird. Webseiten in Cluster 2
1430		1436
		1437
1431	Abb. 7: Ansicht Startseite faz.de (Zoom-Stufe	1438	Abb. 7: Ansicht Startseite faz.de (Zoom-Stufe
1438		1445
1439	[59]Dass in Cluster 2 auch zwei Webseiten vom Typ ›Image‹ erscheinen, zeigt, dass	1446	[58]Dass in Cluster 2 auch zwei Webseiten vom Typ ›Image‹ erscheinen, zeigt, dass
1440	sich auch imageorientierte Webseiten durchaus als Newsportale multimodal	1447	sich auch imageorientierte Webseiten durchaus als Newsportale multimodal
1449	aber laut Impressum ausdrücklich als News-Webseite, die Neuigkeiten aus dem	1456	aber laut Impressum ausdrücklich als News-Webseite, die Neuigkeiten aus dem
1450	Bereich der ~~katholischen~~ Kirche berichtet bzw. in den Vordergrund stellt.	1457	Bereich der Katholischen Kirche berichtet bzw. in den Vordergrund stellt.
1451	Dennoch bleibt die Einteilung bezüglich des Webseiten-Typs in diesem Falle	1458	Dennoch bleibt die Einteilung bezüglich des Webseiten-Typs in diesem Falle
1452	problematisch und das gemeinsame Erscheinen von sowohl ekd.de als auch	1459	problematisch, und das gemeinsame Erscheinen von sowohl ekd.de als auch
1453	katholisch.de in einem News-orientierten Cluster weist darauf hin, dass beide	1460	katholisch.de in einem News-orientierten Cluster weist darauf hin, dass beide
1457	Ergebnis des Clusterings zu werten ist).	1464	Ergebnis des Clusterings zu werten ist).
1458	[60]Die Webseite nytimes.com fällt aufgrund eines zentral eingebundenen, wenn auch	1465
		1466	[59]Die Webseite nytimes.com fällt aufgrund eines zentral eingebundenen, wenn auch
1459	relativ klein ausfallenden Videos aus diesem Cluster heraus (und bildet mit	1467	relativ klein ausfallenden Videos aus diesem Cluster heraus (und bildet mit
1461	Cluster).	1469	Cluster).
1462	[61]Besonders hervorzuheben ist außerdem das Cluster 3, das mit der Seite	1470
		1471	[60]Besonders hervorzuheben ist außerdem das Cluster 3, das mit der Seite
1463	marginalien.hypothesis.org und ditib.de zwei Webseiten enthält, die	1472	marginalien.hypothesis.org und ditib.de zwei Webseiten enthält, die
1464	gewissermaßen Außenseiter innerhalb des Webseiten-Samples darstellen.[49] Die Webseite marginalien.hypothesis.org	1473	gewissermaßen Außenseiter innerhalb des Webseiten-Samples darstellen.[40] Die Webseite marginalien.hypothesis.org
1465	repräsentiert einen klassischen Blog, der nur wenige Bilder, dafür aber relativ	1474	repräsentiert einen klassischen Blog, der nur wenige Bilder, dafür aber relativ
1466	viel Text enthält und sich entsprechend von sowohl den imageorientierten	1475	viel Text enthält, und sich entsprechend von sowohl den imageorientierten
1467	Webseiten in Cluster 1 und den News-Webseiten in Cluster 2 absetzt. Die Seite	1476	Webseiten in Cluster 1 und den News-Webseiten in Cluster 2 absetzt. Die Seite
1474		1483
1475	[62]Dieser Artikel hat es sich zur Aufgabe gemacht, ein (teil-)automatisiertes	1484	[61]Dieser Artikel hat es sich zur Aufgabe gemacht, ein (teil-)automatisiertes
1476	Verfahren zur Analyse des multimodalen Arrangements von Webseiten vorzustellen,	1485	Verfahren zur Analyse des multimodalen Arrangements von Webseiten vorzustellen,
1477	anzuwenden und kritisch zu diskutieren. Im Fokus stand dabei die erste	1486	anzuwenden und kritisch zu diskutieren. Im Fokus stand dabei die erste
1478	Wahrnehmungsebene der multimodalen Grundstruktur der Webseiten, die während des	1487	Wahrnehmungsebene der multimodalen Struktur der Webseiten, die während des
1479	initialen Aufrufs der Webseiten eine zentrale Rolle spielt. Dabei war die Analyse	1488	initialen Aufrufs der Webseiten eine zentrale Rolle spielt (erste
1480	der Video-,	1489	Wahrnehmungsebene der Sehfläche). Im Zentrum stand dabei die Analyse der Video-,
1481	Bild-, Hyperlink- und Textelemente der Webseiten von hervorgehobener Bedeutung und	1490	Bild-, Hyperlink- und Textelemente der Webseiten, die anhand eines in Python
1482	wurde anhand eines in Python	1491	geschriebenen Programms gesammelt, verarbeitet und schließlich mit Hilfe eines
1483	geschriebenen Programms unter Anwendung eines k-Means-Clustering realisiert.	1492	k-Means-Clustering analysiert wurden.
1484	[63]Die Analyse in Kapitel 4 hat gezeigt, dass	1493
		1494	[62]Die Analyse in Kapitel 4 hat gezeigt, dass
1485	unterschiedliche Selektionen von Features zu unterschiedlichen Clusterbildungen	1495	unterschiedliche Selektionen von Features zu unterschiedlichen Clusterbildungen
1495	ermöglichen, die durch das hier aufgezeigte quantitative Verfahren keineswegs	1505	ermöglichen, die durch das hier aufgezeigte quantitative Verfahren keineswegs
1496	ersetzt, sondern lediglich ergänzt und vereinfacht werden soll (siehe Kapitel 2).	1506	ersetzt, sondern lediglich ergänzt und vereinfacht werden soll.
1497	[64]Neben der Vorstellung dieses (teil-)automatisierten Verfahrens hat es sich dieser	1507
		1508	[63]Neben der Vorstellung dieses (teil-)automatisierten Verfahrens hat es sich dieser
1498	Artikel ebenfalls zur Aufgabe gemacht zu fragen, inwieweit die auf Basis der	1509	Artikel ebenfalls zur Aufgabe gemacht zu fragen, inwieweit die auf Basis der
1501	mit den gefundenen Clustern korrelieren.	1512	mit den gefundenen Clustern korrelieren.
1502	[65]Insbesondere in Bezug auf die letztgenannten Webseiten-Typen kann nach	1513
		1514	[64]Insbesondere in Bezug auf die letztgenannten Webseiten-Typen kann nach
1503	Durchführung der Analyse gesagt werden, dass entsprechende Parallelen erkennbar	1515	Durchführung der Analyse gesagt werden, dass entsprechende Parallelen erkennbar
1511	Webseiten (ekd.de) die multimodale Form einer News-Webseite annehmen können.	1523	Webseiten (ekd.de) die multimodale Form einer News-Webseite annehmen können.
1512	[66]Keine Korrelation wurde hingegen zwischen den Clustern der multimodalen Analyse	1524
		1525	[65]Keine Korrelation wurde hingegen zwischen den Clustern der multimodalen Analyse
1513	und den gesellschaftlichen Domänen ersichtlich, aus denen die jeweiligen Webseiten	1526	und den gesellschaftlichen Domänen ersichtlich, aus denen die jeweiligen Webseiten
1531	treten kann.	1544	treten kann.
1532	[67]Einschränkend für die Resultate dieses Artikels muss hervorgehoben werden, dass zentrale	1545
1533	Aspekte der multimodalen Analyse in der hier vorgestellten Methode aus technischen
1534	Gründen nicht umgesetzt werden konnten (siehe dazu beispielhaft die Reduktion der
1535	Analyse der Bildelemente auf deren Größe und Anzahl, die wichtige Aspekte wie Bildachsen,
1536	Farben und den gesamten inhaltlichen Bereich ausklammert). Dies weist zum einen auf
1537	die Notwendigkeit komplementärer qualitativer Auswertungen im Sinne eines mixed-methods
1538	approach hin[50], zeigt aber auch das Potential für künftige Ausweitungen der hier vorgestellten Methode,
1539	die es sich zum Ziel machen könnten, zusätzliche Features (beispielsweise der Farbe)
1540	automatisiert mit einzubeziehen.
1541		1546
1548	[1]	1553	[1]
1549	Lyons 2016, S. 268f.;	1554
1550	Stöckl 2016, S. 4f.; Wildfeuer et al. 2019 S. 23f.. In Bezug auf modes vgl. Kress 2017; Bateman et al. 2017, S. 16..	1555	Lyons 2016, 268f.;
		1556	Stöckl 2016, S. 4f. In Bezug auf modes vgl. Kress 2017.
		1557
1551		1558
1552	[2]	1559	[2]
		1560
1553	Vgl. Stöckl 2011;	1561	Vgl. Stöckl 2011;
1555	Jewitt (Hg.) 2017. Für Webseiten vgl.	1563	Jewitt (Hg.) 2017. Für Webseiten vgl.
1556	Meier 2016; Djonov / Knox 2014; Freudenberg /	1564	Meier 2016; Freudenberg /
1557	Sharbat Dar 2021.	1565	Sharbat Dar [im Erscheinen].
		1566
1558		1567
1559	[3]	1568	[3]
		1569
1560	Vgl. die komplexe Terminologie einer	1570	Vgl. die komplexe Terminologie einer
1563		1573
		1574
1564	[4]	1575	[4]
1565	Meer / Pick 2019, S. 60 (mit Bezug auf Ulrich Schmitz’ Theorie zu »Sehflächen«).	1576
		1577	Vgl. Meier 2016, S. 429f.
		1578
1566		1579
1567	[5]	1580	[5]
1568	Vgl. Meier 2016, S. 429f.	1581
		1582	O'Halloran et
		1583	al. 2017.
		1584
1569		1585
1570	[6]	1586	[6]
1571	Vgl. auch die Schwierigkeiten bei der automatisierten Analyse des Text-Bild-Verhältnisses	1587
1572	in Pflaeging et al. 2021, S. 111f.	1588
1573		1589	Vgl. O'Halloran et al. 2017;
1574	[7]
1575
1576	Vgl. O’Halloran et al. 2017;
1577	Wignell et al. 2021;	1590	Wignell et al. 2021;
1580		1593
		1594
		1595	[7]
		1596
		1597	Multimodal Analysis Lab (Hg.) 2013.
		1598
		1599
1581	[8]	1600	[8]
1582	Multimodal Analysis Lab (Hg.) 2013.	1601
		1602	Siehe die Beispiele in Jewitt (Hg.) 2017.
		1603
1583		1604
1584	[9]	1605	[9]
1585	Vgl. u. a. Meier 2016; Djonov / Knox 2014; Bateman et al. 2021, S. 346ff.	1606
		1607	Meier 2016, S. 429f.
		1608
1586		1609
1587	[10]	1610	[10]
1588	Vgl. Djonov / Knox 2014; Freudenberg / Sharbat Dar 2021.	1611
1589
1590	[11]
1591	Für die allgemeine Debatte zur Frage der Ausweitung multimodaler Analysen von der
1592	Generalisierung von Fallbeispielen hin zu (automatisierten) Korpusanalysen vgl. u.
1593	a. Thomas 2019; Jewitt 2017; Bateman et al. 2017, S. 152ff.
1594
1595	[12]
1596	Thomas 2019, S. 72. Vgl. auch Thomas 2019, S. 73ff.
1597
1598	[13]
1599	Siehe die Beispiele in Jewitt (Hg.) 2017.
1600
1601	[14]
1602	Meier 2016, S. 429f.
1603
1604	[15]
1605	Eine solche Vorannotation scheint auf den	1612	Eine solche Vorannotation scheint auf den
1613		1620
1614	[16]	1621
		1622	[11]
		1623
1615	Jurczyk 2021a.	1624	Jurczyk 2021a.
1616		1625
1617	[17]	1626
		1627	[12]
		1628
1618		1629
1621		1632
1622	[18]	1633
		1634	[13]
		1635
1623	Vgl. Meer /	1636	Vgl. Meer /
1624	Pick 2019, S. 59f.; Schmitz 2011.	1637	Pick 2019, S. 59f.
1625		1638
1626	[19]	1639
1627	Vgl. Djonov / Knox 2014.	1640	[14]
1628		1641
1629	[20]
1630	Wie bereits	1642	Wie bereits
1631	angemerkt, erfolgt die Auswertung unabhängig von den Domänen und Typen.	1643	angemerkt, erfolgt die Auswertung unabhängig von den Domänen und Typen.
1632	Diese können also in einer anderen Implementierung weggelassen	1644	Diese können also in einer anderen Implementierung durchaus weggelassen
1633	werden, ohne dass das eigentliche Verfahren davon beeinflusst würde. Sie	1645	werden, ohne dass das eigentliche Verfahren davon beeinflusst würde. Sie
1637		1649
1638	[21]	1650
		1651	[15]
		1652
1639	Die	1653	Die
1644	Sichtung des Materials induktiv generiert. Diese können bei Erweiterung des	1658	Sichtung des Materials induktiv generiert. Diese können bei Erweiterung des
1645	Datensatzes ebenfalls erweitert werden, beispielsweise durch Kunst (ART) oder einer allgemeineren Kategorie Bildung (EDU).	1659	Datensatzes natürlich ebenfalls erweitert werden, beispielsweise durch Kunst (ART) oder einer allgemeineren Kategorie Bildung (EDU).
1646		1660
1647	[22]	1661
		1662	[16]
		1663
1648	Vgl. Meier 2016, S.	1664	Vgl. Meier 2016, S.
1650		1666
1651	[23]	1667
1652	Meier 2016, S. 429.	1668	[17]
1653		1669
1654	[24]
1655	Meier 2016, S. 429; für die anderen Webseiten-Typen, vgl. Meier 2016, S. 430f.
1656
1657	[25]
1658	So zeichnen sich laut Meier newsorientierte Webseiten durch Kachel-Strukturen, Teasertexte
1659	mit Bildern usw. aus, vgl. Meier 2016, S. 429.
1660
1661	[26]
1662	Bei Selenium handelt es sich hier um ein Framework, das	1670	Bei Selenium handelt es sich hier um ein Framework, das
1665		1673
1666	[27]	1674
		1675	[18]
		1676
1667	Im Falle der hier vorgestellten	1677	Im Falle der hier vorgestellten
1669		1679
1670	[28]	1680
		1681	[19]
		1682
1671	Dies ist notwendig, falls gewisse	1683	Dies ist notwendig, falls gewisse
1674		1686
1675	[29]	1687
		1688	[20]
		1689
1676		1690
1679		1693
1680	[30]	1694
		1695	[21]
		1696
1681	SVG-Dateien	1697	SVG-Dateien
1686		1702
1687	[31]	1703
		1704	[22]
		1705
1688	Groß: Größer als 700px (Höhe oder Breite). Mittel:	1706	Groß: Größer als 700px (Höhe oder Breite). Mittel:
1691		1709
1692	[32]	1710
		1711	[23]
		1712
1693	Hier wurden nur die auf der Seite	1713	Hier wurden nur die auf der Seite
1698		1718
1699	[33]	1719
		1720	[24]
		1721
1700	Groß: Größer	1722	Groß: Größer
1703		1725
1704	[34]	1726
		1727	[25]
		1728
1705		1729
1713		1737
1714	[35]	1738
1715	Unter einem Feature versteht man im Kontext des maschinellen Lernens gemeinhin eine	1739	[26]
1716	Kombination aus den Eigenschaften oder Attributen, die für bestimmte Phänomene erhoben	1740
1717	werden (hier also Anzahl der Bilder, Textlänge, Anzahl Videos etc.), und deren konkrete	1741	Unter Features versteht man im Kontext des maschinellen
1718	Werte (also zum Beispiel 10 Bilder, 2.540 Wörter, 2 Videos etc.). Die Begrifflichkeiten	1742	Lernens die Eigenschaften oder Attribute, die für bestimmte Phänomene erhoben
1719	werden allerdings nicht immer einheitlich verwendet. Vgl. Géron 2019, S. 8.	1743	werden (hier also Anzahl der Bilder, Textlänge, Anzahl Videos etc.), und deren
1720		1744	konkrete Werte (also zum Beispiel 10 Bilder, 2.540 Wörter, 2 Videos etc.) in
1721	[36]	1745	der Analyse genutzt werden. Die Begrifflichkeiten werden allerdings nicht immer
		1746	einheitlich verwendet. Vgl. Géron 2019, S. 8.
		1747
		1748
		1749	[27]
		1750
1722	Ein weiteres Beispiel, in	1751	Ein weiteres Beispiel, in
1723	dem k-Means-Clustering für die Analyse von Multimodalität verwendet wurde,	1752	dem k-Means-Clustering für die Analyse von Multimodalität verwendet wurde,
1724	findet sich in O’Halloran et al. 2017. Zur Funktionsweise von	1753	findet sich in O'Halloran et al. 2017. Zur Funktionsweise von
1725	k-Means-Clustering vgl. u. a. Géron 2019 und mein Clustering Tutorial	1754	k-Means-Clustering vgl. u. a. Géron 2019 und mein Clustering Tutorial
1728		1757
1729	[37]	1758
		1759	[28]
		1760
1730	Für die Details der	1761	Für die Details der
1733		1764
1734	[38]	1765
		1766	[29]
		1767
1735	Beispielsweise kann es passieren, dass	1768	Beispielsweise kann es passieren, dass
1741		1774
1742	[39]	1775
		1776	[30]
		1777
1743	Genauere Erläuterungen zu dieser Methode	1778	Genauere Erläuterungen zu dieser Methode
1757		1792
1758	[40]	1793
		1794	[31]
		1795
1759	Wobei die Einbindung von Videoelementen nur	1796	Wobei die Einbindung von Videoelementen nur
1761		1798
1762	[41]	1799
		1800	[32]
		1801
1763	Die im	1802	Die im
1768		1807
1769	[42]	1808
		1809	[33]
		1810
1770	In die Analyse einbezogen werden die folgenden Features:	1811	In die Analyse einbezogen werden die folgenden Features:
1775		1816
1776	[43]	1817
		1818	[34]
		1819
1777	In die Analyse	1820	In die Analyse
1782		1825
1783	[44]	1826
		1827	[35]
		1828
1784	Dies liegt	1829	Dies liegt
1785	allerdings bei heise.de nur daran, dass viele der Bilder nur ganz knapp an	1830	allerdings bei heise.de nur daran, dass viele der Bilder nur ganz knapp an
1786	zusammen mit der Anordnung der News in nur einer Spalte deutlich ›aufgeräumter‹
1787	der Grenze für große Bilder (700px) gescheitert sind.	1831	der Grenze für große Bilder (700px) gescheitert sind.
1788		1832
1789	[45]	1833
		1834	[36]
		1835
1790	Die absoluten Werte der Features für das	1836	Die absoluten Werte der Features für das
1794		1840
1795	[46]	1841
		1842	[37]
		1843
1796		1844
1803		1851
1804	[47]	1852
		1853	[38]
		1854
1805	Meer / Pick 2019, S.	1855	Meer / Pick 2019, S.
1806	65–68; Schmitz 2011.	1856	65–68.
1807		1857
1808	[48]	1858
		1859	[39]
		1860
1809	Die folgende	1861	Die folgende
1821		1873
1822	[49]	1874
		1875	[40]
		1876
1823	Diese beiden Webseiten sind auch in den vorangegangenen	1877	Diese beiden Webseiten sind auch in den vorangegangenen
1826		1880
1827	[50]
1828	Vgl. Bateman et al. 2017, S. 140f.
1829		1881
1836		1888
1837	Emilia Djonov / John Knox: How-to-Analyze Webpages. In: Interactions, Images and	1889	Maren Freudenberg / Dunja Sharbat Dar: Popular Cultural Representations of
1838	Texts: A Reader in Multimodality. Hg. von Sigrid Norris / Carmen Daniela Maier. Berlin
1839	/ Boston 2014, S. 171–193.Empirical Multimodality Research: Methods, Evaluations, Implications. Hg. von Jana
1840	Pflaeging / Janina Wildfeuer / John Bateman. Berlin / Boston 2021. DOI: 10.1515/9783110725001
1841	[Nachweis im GVK] Maren Freudenberg / Dunja Sharbat Dar: Popular Cultural Representations of
1842	Femininity in the International Christian Fellowship: An Analysis of the	1890	Femininity in the International Christian Fellowship: An Analysis of the
1843	»Ladies Lounge 2021« Webpage. In: Zeitschrift für Religion, Gesellschaft und	1891	»Ladies Lounge 2021« Webpage. In: Zeitschrift für Religion, Gesellschaft und
1844	Politik 5 (1), S. 271–293. [Nachweis im GVK] Aurélien Géron: Hands-on machine learning with Scikit-Learn, Keras, and	1892	Politik. [im Erscheinen] [Nachweis im GVK]
		1893	Aurélien Géron: Hands-on machine learning with Scikit-Learn, Keras, and
1845	TensorFlow. Concepts, tools, and techniques to build intelligent systems.	1894	TensorFlow. Concepts, tools, and techniques to build intelligent systems.
1846	Beijing u. a. 2019. [Nachweis im GVK] Interactions, Images and Texts: A Reader in Multimodality. Hg. von Sigrid Norris /	1895	Beijing u. a. 2019. [Nachweis im GVK]
1847	Carmen Daniela Maier. Berlin / Boston 2014. [Nachweis im GVK] Multimodal Analysis Lab. Hg. von Interactive & Digital Media Institute	1896	Multimodal Analysis Lab. Hg. von Interactive & Digital Media Institute
1848	(IDMI). 2013. [online]The Routledge handbook of multimodal analysis. Hg. von Carey Jewitt. 2.	1897	(IDMI). 2013. [online]
1849	Auflage. London u. a. 2017. (= Routledge handbooks) [Nachweis im GVK] Thomas Jurczyk (2021a): ZfdG Website Scraper. In: GitHub. 22.02.2021. [online] Thomas Jurczyk (2021b): Clustering with Scikit-Learn in Python. In: The	1898	The Routledge handbook of multimodal analysis. Hg. von Carey Jewitt. 2.
1850	Programming Historian (2021).Gunther Rolf Kress: What is mode? In: The Routledge handbook of multimodal	1899	Auflage. London u. a. 2017. (= Routledge handbooks) [Nachweis im GVK]
		1900	Thomas Jurczyk (2021a): ZfdG Website Scraper. In: GitHub. 22.02.2021. [online]
		1901	Thomas Jurczyk (2021b): Clustering with Scikit-Learn in Python. In: The
		1902	Programming Historian (2021). [im Erscheinen]
		1903	Gunther Rolf Kress: What is mode? In: The Routledge handbook of multimodal
1851	analysis. Hg. von Carey Jewitt. 2. Auflage. London u. a. 2017, S. 60–76. (=	1904	analysis. Hg. von Carey Jewitt. 2. Auflage. London u. a. 2017, S. 60–76. (=
1852	Routledge handbooks) [Nachweis im GVK] Agnieszka Lyons: Multimodality. In: Research Methods in Intercultural	1905	Routledge handbooks) [Nachweis im GVK]
		1906	Agnieszka Lyons: Multimodality. In: Research Methods in Intercultural
1853	Communication. Hg. von Zhu Hua. Wiley-Blackwell, NJ 2016, S. 268–280.	1907	Communication. Hg. von Zhu Hua. Wiley-Blackwell, NJ 2016, S. 268–280.
1854	Siehe auch [Nachweis im GVK] Dorothee Meer / Ina Pick: Einführung in die Angewandte Linguistik.	1908	Siehe auch [Nachweis im GVK]
1855	Gespräche, Texte, Medienformate analysieren. Stuttgart 2019. [Nachweis im GVK] Stefan Meier: Websites als multimodale digitale Texte. In: Handbuch Sprache	1909	Dorothee Meer / Ina Pick: Einführung in die Angewandte Linguistik.
		1910	Gespräche, Texte, Medienformate analysieren. Stuttgart 2019. [Nachweis im GVK]
		1911	Stefan Meier: Websites als multimodale digitale Texte. In: Handbuch Sprache
1856	im multimodalen Kontext. Hg. von Hartmut Stöckl / Nina-Maria Klug. Berlin u. a.	1912	im multimodalen Kontext. Hg. von Hartmut Stöckl / Nina-Maria Klug. Berlin u. a.
1857	2016, S. 410–436. (= Handbücher Sprachwissen, 7) [Nachweis im GVK] ~~Multimodality: Foundations, Research and Analysis – A Problem-Oriented Introduction.~~	1913	2016, S. 410–436. (= Handbücher Sprachwissen, 7) [Nachweis im GVK]
1858	~~Hg. von John Bateman / Janina Wildfeuer / Tuomo Hiippala. Berlin / Boston 2017. [Nachweis im GVK] 896249808Kay~~ O’Halloran / Sabine Tan / Peter Wignell / Rui Wang / Kevin Chai /	1914	Kay O’Halloran / Sabine Tan / Peter Wignell / Rui Wang / Kevin Chai /
1859	Rebecca Lange: Towards a Discipline of Multimodality: Parallels to Mathematics	1915	Rebecca Lange: Towards a Discipline of Multimodality: Parallels to Mathematics
1861	and the Challenge of Diversity. Hg. von Janina Wildfeuer. 1. Auflage. Boston MA	1917	and the Challenge of Diversity. Hg. von Janina Wildfeuer. 1. Auflage. Boston MA
1862	2020, S. 93–112. [Nachweis im GVK] Kay L. O’Halloran / Marissa K. L. E / Sabine Tan: Multimodal analytics.	1918	2020, S. 93–112. [Nachweis im GVK]
		1919	Kay L. O'Halloran / Marissa K. L. E / Sabine Tan: Multimodal analytics.
1863	Software and visualization techniques for analyzing and interpreting multimodal	1920	Software and visualization techniques for analyzing and interpreting multimodal
1865	2. Auflage. London u. a. 2017, S. 386–396. (= Routledge handbooks)	1922	2. Auflage. London u. a. 2017, S. 386–396. (= Routledge handbooks)
1866	[Nachweis im GVK] ~~Ulrich Schmitz: Sehflächenforschung. Eine Einführung. In: Bildlinguistik. Theorien~~	1923	[Nachweis im GVK]
1867	~~– Methoden – Fallbeispiele~~. Hg. von ~~Hans-Joachim Diekmannshenke / Michael Klemm /~~	1924	SeleniumHQ Browser Automation. In: selenium.dev. Hg. von Software Freedom Conservancy.
1868	~~Hartmut Stöckl~~. ~~Berlin 2011, S. 23–42. (= Philologische Studien und Quellen, 228).~~	1925	2004-2021. [online]
1869	~~[Nachweis im GVK] SeleniumHQ Browser Automation~~. In: ~~selenium~~.~~dev~~. Hg. von ~~Software Freedom Conservancy.~~	1926	Sklearn.preprocessing. StandardScaler. In: scikit learn.org. Hg. von scikit-learn
1870	~~2004~~-2021. [online]~~Sklearn.preprocessing. StandardScaler. In: scikit learn.org. Hg. von scikit-learn~~	1927	developers. 2007-2021. [online]
1871	~~developers. 2007-2021. [online]~~Hartmut Stöckl: Sprache-Bild-Texte lesen. Bausteine zur Methodik einer	1928	Hartmut Stöckl: Sprache-Bild-Texte lesen. Bausteine zur Methodik einer
1872	Grundkompetenz. In: Bildlinguistik. Theorien - Methoden - Fallbeispiele. Hg.	1929	Grundkompetenz. In: Bildlinguistik. Theorien - Methoden - Fallbeispiele. Hg.
1873	von Hans-Joachim Diekmannshenke / Michael Klemm / Hartmut Stöckl. Berlin 2011,	1930	von Hans-Joachim Diekmannshenke / Michael Klemm / Hartmut Stöckl. Berlin 2011,
1874	S. 45–70. (= Philologische Studien und Quellen, 228) [Nachweis im GVK] Hartmut Stöckl: Multimodalität. Semiotische und textlinguistische	1931	S. 45–70. (= Philologische Studien und Quellen, 228) [Nachweis im GVK]
		1932	Hartmut Stöckl: Multimodalität. Semiotische und textlinguistische
1875	Grundlagen. In: Handbuch Sprache im multimodalen Kontext. Hg. von Hartmut	1933	Grundlagen. In: Handbuch Sprache im multimodalen Kontext. Hg. von Hartmut
1876	Stöckl / Nina-Maria Klug. Berlin u. a. 2016, S. 3–35. (= Handbücher	1934	Stöckl / Nina-Maria Klug. Berlin u. a. 2016, S. 3–35. (= Handbücher
1877	Sprachwissen, 7) [Nachweis im GVK] Martin Thomas: Making a Virtue of Material Values: Tactical and Strategic Benefits	1935	Sprachwissen, 7) [Nachweis im GVK]
1878	for Scaling Multimodal Analysis. In: Multimodality: Disciplinary Thoughts and the	1936	Peter Wignell / Kevin Chai / Sabine Tan / Kay O’Halloran / Rebecca Lange:
1879	Challenge of Diversity. Hg. von Janina Wildfeuer / Jana Pflaeging / John Bateman /
1880	Ognyan Seizov / Chiao-I Tseng. Berlin / Boston 2019, S. 69–92.Peter Wignell / Kevin Chai / Sabine Tan / Kay O’Halloran / Rebecca Lange:
1881	Natural Language Understanding and Multimodal Discourse Analysis for	1937	Natural Language Understanding and Multimodal Discourse Analysis for
1888		1944
		1945
1889	Abbildungslegenden und -nachweise	1946	Abbildungslegenden und -nachweise
1898	charakterisiert, da es sich der eigenen Ausrichtung nach um eine (katholische)	1955	charakterisiert, da es sich der eigenen Ausrichtung nach um eine (katholische)
1899	Nachrichtenseite handelt. Siehe für diese	1956	Nachrichtenseite handelt. [Jurczyk 2021]
1900	problematische Einteilung auch das Kapitel 4.2.4). [Jurczyk 2021]
1901		1957

Versionen vergleichen von : Vorstellung eines (teil-)automatisierten Verfahrens zur Analyse der Multimodalität von Webseiten

Version: 2.0 vom 21.03.2023

Mit Markup vergleichen

Version: 1.0 vom 09.09.2021