-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathMainz2018.html
397 lines (326 loc) · 15.2 KB
/
Mainz2018.html
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
<!doctype html>
<html lang="en">
<head>
<meta charset="utf-8">
<!-- CUSTOMIZE THIS! -->
<title>Zeta -- Mainz 2018</title>
<meta name="author" content="Christof Schöch">
<!-- END -->
<meta name="description" content="Slides">
<meta name="apple-mobile-web-app-capable" content="yes">
<meta name="apple-mobile-web-app-status-bar-style" content="black-translucent">
<meta name="viewport" content="width=device-width, initial-scale=1.0, maximum-scale=1.0, user-scalable=no, minimal-ui">
<link rel="stylesheet" href="css/reveal.css">
<link rel="stylesheet" href="css/theme/simple.css" id="theme">
<!-- Code syntax highlighting -->
<link rel="stylesheet" href="lib/css/zenburn.css">
<!-- Printing and PDF exports -->
<script>
var link = document.createElement( 'link' );
link.rel = 'stylesheet';
link.type = 'text/css';
link.href = window.location.search.match( /print-pdf/gi ) ? 'css/print/pdf.css' : 'css/print/paper.css';
document.getElementsByTagName( 'head' )[0].appendChild( link );
</script>
<!--[if lt IE 9]>
<script src="lib/js/html5shiv.js"></script>
<![endif]-->
</head>
<body>
<div class="reveal">
<div class="slides">
<section data-markdown="" data-separator="^\n---\n" data-separator-vertical="^\n--\n" data-charset="utf-8" data-background-image="img/basics/uni-trier_icon.png" data-background-size="50px" data-background-position="right 10px top 10px">
<script type="text/template">
<!-- THIS IS WHERE THE CONTENT GOES! -->
<!-- Any section element inside of this container is displayed as a slide -->
<br/>
# Kontrastive Analyse mit Zeta
<br/>
<hr/>
<br/>
<br/>
Christof Schöch (mit José Calvo, Daniel Schlör, <br/>Ulrike Henny, Albin Zehe, Henning Gebhard)
<br/>
<small>
<br/>**Ringvorlesung *Transdisziplinäre Aspekte digitaler Methodik* **
<br/>Hochschule Mainz / IEG Mainz, 16. Mai 2018
</small>
<hr/>
<br/>
<img height="60" data-src="img/basics/uni-trier.png"></img>
---
<img height="550" data-src="img/tdm.png"></img>
<br/>http://www.text-und-data-mining.de
---
# Überblick
<br/>
1. [Zahlen und Bedeutung](#/2)
2. [Distinktivitätsmaße](#/3)
3. [Zeta: Funktionsweise](#/4)
4. [Zeta: Anwendungsbeispiel](#(5)
5. [Varianten und Evaluation](#/6)
6. [Fazit](#/7)
---
# 1. Zahlen und Bedeutung
--
## Ein paar neuere Ergebnisse
<br/>
* Durchschnittliche Satzlänge in Simenons<br/>Romanen: 12.1 Wörter <!-- .element: class="fragment" data-fragment-index="1" -->
* Thematische Ähnlichkeit<br/>der Romane von Leroux und Ponson: 0.05 <!-- .element: class="fragment" data-fragment-index="2" -->
* Wahrscheinlichkeit des "Todes"-Topics in<br/>französischen Krimis: 2.0% <!-- .element: class="fragment" data-fragment-index="3" -->
--
## Wie bekommen Zahlen eine Bedeutung?
<br/>
<p>Durch Vergleich mit...</p> <!-- .element: class="fragment" data-fragment-index="1" -->
* einer Spannbreite möglicher Werte <!-- .element: class="fragment" data-fragment-index="2" -->
* einer Spannbreite typischer Werte <!-- .element: class="fragment" data-fragment-index="3" -->
* den Werten in relevanten Vergleichsdaten <!-- .element: class="fragment" data-fragment-index="4" -->
--
## Mittlere Satzlänge
<a href="img/novel-simenon-vs-contemporains_1900-2000_creation-SL-mean_scatterplot.svg"><img src="img/novel-simenon-vs-contemporains_1900-2000_creation-SL-mean_scatterplot.svg" height="500"/></a>
Simenon: 12.1 | Zeitgenossen: 15.1 Wörter
--
## Thematische Ähnlichkeit
<a href="img/6_clustering_marked.png"><img src="img/6_clustering_marked.png" height="500"/></a>
<p>Ponson/Leroux: 0.05 | Boisgobey/Gaboriau: 0.12</p>
--
## Topic-Wahrscheinlichkeit
<a href="img/2_topic49-wordle-comparison.png"><img src="img/2_topic49-wordle-comparison.png" height="450"/></a>
<br/>Nicht-Krimis: 0.4% | Krimis: 2.0%
<br/>Signifikant unterschiedliche Verteilung? ja <!-- .element: class="fragment" data-fragment-index="1" -->
---
# 2. Distinktivitätsmaße
--
## Ausgangslage
<br/>
* Omnipräsenz der vergleichenden,<br/>kontrastierenden Analyse von Texten <!-- .element: class="fragment" data-fragment-index="1" -->
* Zahlreiche Maße der Distinktivität<br/>von Merkmalen ("keyness") <!-- .element: class="fragment" data-fragment-index="2" -->
* Standard-Tools, die sie implementieren:<br/>Antconc, WordCruncher, TXM, stylo, etc. <!-- .element: class="fragment" data-fragment-index="3" -->
--
## Wozu Distinktivitätsmaße?
<br/>
* Antwort auf die Frage <!-- .element: class="fragment" data-fragment-index="1" -->
* Wie ungewöhnlich ist meine Beobachtung?
* Wie distinktiv ist das beobachtete Merkmal?
* Zwei Perspektiven: <!-- .element: class="fragment" data-fragment-index="2" -->
* Ich mache ein Beobachtung: Wie distinktiv ist sie?
* Von allen denkbaren Merkmalen: welche sind am distinktivsten?
--
## Was ist "Distinktivität"?
<br/>
* Beruht auf dem Vergleich zweier Gruppen
* Reine Häufigkeit reicht nicht aus (=typisch)
* Vergleichsweise ungewöhnliche Häufigkeit (=distinktiv)
--
## Typisch Deutsch?
<a href="img/bier1.jpg"><img src="img/bier1.jpg" height="500"/></a>
<small><small>
Source: User:Benreis <br/>https://commons.wikimedia.org/wiki/File:Aufse%C3%9F_Bier.jpg | licence: [CC-BY-SA](https://creativecommons.org/licenses/by-sa/3.0/deed.en)</small></small>
--
## Distinctly German!
<img src="img/apfelschorle1.jpg" height="200"/><img src="img/apfelschorle1.jpg" height="200"/><img src="img/apfelschorle1.jpg" height="200"/><img src="img/apfelschorle1.jpg" height="200"/>
<br/>
<img src="img/apfelschorle1.jpg" height="200"/><img src="img/apfelschorle1.jpg" height="200"/><img src="img/apfelschorle1.jpg" height="200"/><img src="img/apfelschorle1.jpg" height="200"/>
<p><small><small>
Source: User:Bundesstefan <br/>https://commons.wikimedia.org/wiki/File:Apfelschorle.jpg | licence: public domain.</small></small></p>
--
## Anforderungen an Distinktivitätsmaße
<br/>
* Distinktivität gegenüber Häufigkeit sinnvoll abwägen (Funktionswörter) <!-- .element: class="fragment" data-fragment-index="1" -->
* Distinktive Merkmale für die Gruppe insgesamt (Namen) <!-- .element: class="fragment" data-fragment-index="2" -->
* Cut-off der Distinktivität erkennbar (Signifikanztest) <!-- .element: class="fragment" data-fragment-index="3" -->
* Interpretierbarkeit der Ergebnisse <!-- .element: class="fragment" data-fragment-index="4" -->
--
## Gruppen von Distinktivitätsmaßen
<br/>
1. Erwartete vs. beobachtete Werte<br/>(bspw. log-likelihood-ratio) <!-- .element: class="fragment" data-fragment-index="1" -->
2. Gewichtung der Häufigkeiten (bspw. tf-idf) <!-- .element: class="fragment" data-fragment-index="2" -->
3. Hypothesentests zum Vergleich von Verteilungen<br/>(bspw. Welch’s t-Test, Wilcoxon-Test) <!-- .element: class="fragment" data-fragment-index="3" -->
4. Dispersionsmaße (bspw. deviation of proportions) <!-- .element: class="fragment" data-fragment-index="4" -->
---
# 3. Was ist Zeta?
--
## Zeta: Grundlage
<br/>
**dp<sub>i</sub>(Z) = df<sub> i</sub>(Z) / n(Z)**
<br/>
<br/>
* Z = Zielgruppe, V = Vergleichsgruppe
* Jeder Text wird in Dokumente (Segmente) gleicher Länge geteilt
* dp<sub>i</sub> (document proportion) = Anteil der Dokumente, in denen Merkmal *i* vorkommt
--
## Zeta: Berechnung
<br/>
**Zeta<sub>i</sub> = dp<sub>i</sub>(Z) - dp<sub>i</sub>(V)**
<br/>
<br/>
* dp<sub>i</sub> = Anteil der Dokumente einer Gruppe,<br/>in denen Merkmal *i* vorkommt
* Zeta: Subtraktion der Anteile in Z und V
* Berechnung für jedes Wort, absteigende Sortierung
--
## Zeta: Eigenschaften
<br/>
* Beruht auf dem Vergleich der Dispersionsgrade<!-- .element: class="fragment" data-fragment-index="1" -->
* Zeta liegt zwischen -1 und +1 (feste theoretische Spanne) <!-- .element: class="fragment" data-fragment-index="1" -->
* Kein inhärenter Schwellenwert der Distinktivität,<br/> kein inhärenter Signifikanztest <!-- .element: class="fragment" data-fragment-index="2" -->
--
## Zeta: Eigenschaften
<br/>
* Ungleichmäßig verteilte Merkmale (Figurennamen)<br/>bekommen keine hohe Zeta-Werte <!-- .element: class="fragment" data-fragment-index="2" -->
* Sehr weit verbreitete Merkmale (Funktionswörter)<br/>bekommen keine hohen Zeta-Werte <!-- .element: class="fragment" data-fragment-index="3" -->
* Bevorzugt Merkmale von mittlerer Häufigkeit<br/>(Inhaltswörter: Interpretierbarkeit) <!-- .element: class="fragment" data-fragment-index="4" -->
--
## Statistische Eigenschaften
<p><a href="img/fig-1_docprops-und-zetascores_mit-pointer.png"><img height="500" src="img/fig-1_docprops-und-zetascores_mit-pointer.png"></img></a></p>
<p>Dokument-Anteile und Zeta-Werte (Franz. Theater)</p>
---
# 4. Anwendungsbeispiel<br/>Französisches Theater
--
## Distinktive Wörter
<a href="img/zetascores_comedie-tragedie_1000-lemmata-all.svg"><img height="500" src="img/zetascores_comedie-tragedie_1000-lemmata-all.png"></img></a>
<br/>Tragödie (links) vs. Komödie (rechts)
--
## PCA mit 50 distinktiven Merkmalen
<a href="img/threeway_pca.png"><img height="500" src="img/threeway_pca.png"></img></a>
<br/>Komödien (rot) | Tragikomödien (grün) | Tragödien (blau)
--
## Boxplot der Verteilungen (PC1)
<a href="img/pcboxplot_comedie-tragedie-tragicomedie_3000-lemmata-all-25_rotated.png"><img height="500" src="img/pcboxplot_comedie-tragedie-tragicomedie_3000-lemmata-all-25_rotated.png"></img></a>
<br/>Komödien (rot) | Tragikomödien (grün) | Tragödien (blau)
--
## Typische Vertreter einer Gattung
<a href="img/worksbyzeta_subgenre-tragedie-comedie_3000-lemmata-all_100.svg"><img height="500" src="img/worksbyzeta_subgenre-tragedie-comedie_3000-lemmata-all_100.png"></img></a>
<br/>Werke nach Anteil der Komödien-/Tragödienwörter
--
## Ergebnisse: Zeta und Gattungen
<br/>
* Position der Tragikomödie:<br/> näher verwandt mit Tragödie als mit Komödie <!-- .element: class="fragment" data-fragment-index="1" -->
* Frage der Gattungen:<br/> "gute" Exemplare vs. Mischformen <!-- .element: class="fragment" data-fragment-index="2" -->
---
# 5. Varianten und Evaluation
--
## Varianten von Zeta
<br/>
* Mathematische Variation<!-- .element: class="fragment" data-fragment-index="1" -->
1. Statt document-proportions: relative Häufigkeiten
2. Statt Subtraktion der Werte: Division
3. Statt unmodifizierte Werte: Logarithmus der Werte<br/><br/>
* Motivation: Gewünschte Effekte<!-- .element: class="fragment" data-fragment-index="2" -->
1. Verringerter Begrenzungseffekt
2. Verbesserte Distinktivität
3. Unverminderte Interpretierbarkeit
--
## Acht Varianten
<br/>
<img height="400" src="img/varianten-tabelle.png"></img>
<br/>
<p>\*sd0 = Burrows Zeta; sd2 = log2-Zeta</p>
--
## Effekt auf Distinktivitätswerte
<br/>
<img height="350" src="img/illustration_Zeta-vs-adjZeta_extremes3b.png"></img>
<br/>
<small>Théâtre classique (Tragödie): sd0 vs. sd2</small>
--
## Effekt auf Distinktivitätswerte
<br/>
<img height="350" src="img/illustration_Zeta-vs-adjZeta_extremes3c.png"></img>
<br/>
<small>Théâtre classique (Tragödie): sd0 vs. sd2</small>
--
## Klassifikationstask: Überblick
<br/>
<img height="400" src="img/varianten-ergebnisse.png"></img>
<!--
| | document | proportions| relative |Häufigkeiten|
|-----------------|:-----------:|:----------:|:-----------:|:----------:|
| | **normal** | **log2** | **normal** | **log2** |
| **subtraction** | 0.81 | 0.98 | 0.48 | 0.83 |
| **division** | 0.79 | 0.85 | 0.75 | 0.79 |
-->
<br/>
<small>Klassifikationstask: Tragödie vs. Komödie;<br/>Linearer SVM-Klassifier mit 40 top-distinktiven Merkmalen,<br/> dreifache Cross-Validation; tf-idf Baseline 0.49</small>
--
## Klassifikationstask: Detail
<img height="500" src="img/image1.png"></img>
<br/>
<small>(Nach Zeta-Variante und Segmentlänge)</small>
---
# 6. Fazit
--
## Ergebnisse
<br/>
* Zeta: Nützliches Distinktivitätsmaß <!-- .element: class="fragment" data-fragment-index="1" -->
* mathematisch sehr einfach
* gut interpretierbare Ergebnisse
* Zeta-Varianten <!-- .element: class="fragment" data-fragment-index="2" -->
* sd2 (log2-Zeta) verschiebt die Wortliste
* sd2 erhöht Klassifikationsgüte und Robustheit
--
## Nächste Schritte
<br/>
* Einfluss der Segmentlänge (DH2018) <!-- .element: class="fragment" data-fragment-index="1" -->
* Interpretierbarkeit je nach Variante;<br/>Zielkonflikt Distinktivität vs. Interpretierbarkeit? <!-- .element: class="fragment" data-fragment-index="2" -->
* Systematische Evaluation der Zeta-Varianten <br/>und etablierter keyness-Maßen (siehe Lijffijt) <!-- .element: class="fragment" data-fragment-index="3" -->
--
## Vielen Dank!
<br/>
<br/>
**Literaturhinweise**
<small>
* Burrows, John F. (2007). "All the way through: testing for authorship in different frequency strata". _Literary and Linguistic Computing_, 22(1): 27-48.
* Gries, Stephan. "Dispersions and adjusted frequencies in corpora". *International Journal of Corpus Linguistics* 13:4 (2008), 403–437.
* Hoover, David L. “Teasing out Authorship and Style with T-Tests and Zeta.” In _Digital Humanities Conference_. London, 2010. http://dh2010.cch.kcl.ac.uk/academic-programme/abstracts/papers/html/ab-658.html.
* Lijffijt, Jefrey et al. “Significance Testing of Word Frequencies in Corpora.” _Digital Scholarship in the Humanities_ 31, no. 2 (2014): 374–97. doi:10.1093/llc/fqu064.
* Oakes, Michael P. _Statistics for Corpus Linguistics_. Edinburgh: Edinburgh Univ. Press, 1998.
* Rayson, Paul, and R. Garside. “Comparing Corpora Using Frequency Profiling.” In _Proceedings of the Workshop on Comparing Corpora_, 1–6. Hong Kong: ACM, 2000.
* Schöch, Christof. „Zeta für die kontrastive Analyse literarischer Texte. Theorie, Implementierung, Fallstudie“, in: _Quantitative Ansätze in den Literatur- und Geisteswissenschaften_, hg. Toni Bernhard et al. Berlin: de Gruyter, 2018. https://www.degruyter.com/view/books/9783110523300/9783110523300-004/9783110523300-004.xml
<p><br/>With special thanks to pygal and reveal.js</p>
</small>
--
<br/>
<br/>
<br/>
## Danke!
<br/>
<br/>
<br/>
<br/>
<br/>
<hr/>
<p>Christof Schöch, 2018</p>
<p><a href="https://christofs.github.io/">christofs.github.io</a></p>
<p><a href="https://creativecommons.org/licenses/by/4.0/">CC-BY 4.0</a><br/></p>
<hr/>
<br/>
<br/>
</script>
</section>
<!-- DON'T TOUCH UNLESS YOU KNOW WHAT YOU'RE DOING :-) -->
</div>
<script src="lib/js/head.min.js"></script>
<script src="js/reveal.js"></script>
<script>
// Full list of configuration options available at:
// https://github.com/hakimel/reveal.js#configuration
Reveal.initialize({
controls: true,
progress: true,
slideNumber: true,
history: true,
center: true,
transition: 'slide', // none/fade/slide/convex/concave/zoom
// Optional reveal.js plugins
dependencies: [
{ src: 'lib/js/classList.js', condition: function() { return !document.body.classList; } },
{ src: 'plugin/markdown/marked.js', condition: function() { return !!document.querySelector( '[data-markdown]' ); } },
{ src: 'plugin/markdown/markdown.js', condition: function() { return !!document.querySelector( '[data-markdown]' ); } },
{ src: 'plugin/highlight/highlight.js', async: true, callback: function() { hljs.initHighlightingOnLoad(); } },
{ src: 'plugin/zoom-js/zoom.js', async: true },
{ src: 'plugin/notes/notes.js', async: true }
]
});
Reveal.configure({ slideNumber: 'c' });
</script>
</body>
</html>