# Liebe & Tod in der
Deutschen Nationalbibliothek ## Der DNB-Katalog als Forschungsobjekt der
digitalen Literaturwissenschaft
[**Frank Fischer**](https://www.hse.ru/en/org/persons/182492735) Higher School of Economics, Moskau · DARIAH-EU Twitter: [**@umblaetterer**](https://twitter.com/umblaetterer)
(= aktualisierte Version des Vortrags mit Robert Jäschke [HU Berlin] am 1. März 2018 in Köln)
Diese Präsentation: [**bit.ly/2m5gAna**](https://bit.ly/2m5gAna)
[IBG-Forum Wissenschafts- und Buchgeschichte 2019](https://www.dnb.de/DE/Kulturell/Veranstaltungskalender/Fachveranstaltungen/wissenschaftsUndBuchgeschichte.html) · Leipzig · 1. Oktober 2019 -- ## Inhalt
1. [Intro](#/1) 2. [Beschreibung des Frameworks](#/2) 3. [Output](#/3) 4. [Anwendungsfall 1: Romantitel](#/4) 5. [Anwendungsfall 2: Romanumfänge](#/5) 6. [Fazit](#/6) 7. [Bibliografie](#/7) --- # 1. Intro -- ## DNB FTW!
![DNB-Gebäude am Deutschen Platz in Leipzig](images/dnb-german-library-leipzig-2008.jpg)
DNB-Gebäude am Deutschen Platz in Leipzig (2008). (Bildquelle: [Wikimedia Commons](https://commons.wikimedia.org/wiki/File:Deutsche_Buecherei_(German_Library%29_2008-Feb.jpg)) -- ## Ausgangslage
- Sammelauftrag der Deutschen Nationalbibliothek (DNB) beginnt 1913 und bezieht sich auf »lückenlos alle deutschen und deutschsprachigen Publikationen« ([»Wir über uns«](http://www.dnb.de/DE/Wir/wir_node.html), 16. März 2017) - Datendienst der DNB: https://data.dnb.de/opendata/ – dritteljährlicher Komplettabzug der Katalogdaten im RDF-Format (CC0-Lizenz 😊) - Stand 23. Juni 2017: 14 102 309 Datensätze (Stand 10. Juli 2019: 15 340 604 Datensätze) - **bisher kaum Versuche der Nutzbarmachung für geisteswissenschaftliche Studien** - eine überzeugende Ausnahme: - Häntzschel, Günter; Hummel, Adrian; Zedler, Jörg (2009): *Deutschsprachige Buchkultur der 1950er Jahre. Fiktionale Literatur in Quellen, Analysen und Interpretationen.* Wiesbaden: Harrassowitz 2009. ([Google Books](https://books.google.com/books?id=t88xc3CzK60C)) -- ## Ziele dieses Vortrags
- allgemein formuliert: - Nutzbarmachung von Katalogmetadaten zur Bearbeitung konkreter literaturwissenschaftlicher Forschungsfragen - technisch formuliert: - einfaches Framework, um verschiedene Aspekte des DNB-Katalogs zu untersuchen - zwei Anwendungsszenarien aus der Praxis der digitalen Literaturwissenschaft: - Romantitel - Romanumfänge -- ## Romane in der DNB
- **~ 180 000** Romane in der DNB (laut [»rdau:P60493«](http://www.rdaregistry.info/Elements/u/#P60493), Label: »has other title information«) - Achtung: das ist nicht die Gesamtanzahl an tatsächlichen Romanen - Grund: Nachauflagen und Übersetzungen zählen mit hinein, außerdem ist die Befüllung des Feldes teils inkonsistent - Größenordnung zum Vergleich: - Franco Morettis Untersuchung zur Länge von Romantiteln von 2009 (»Style Inc. Reflections on **Seven Thousand** Titles (British Novels, 1740–1850)«) --- # 2. Beschreibung des Frameworks -- ## Art und Umfang der DNB-Daten
- typische Linked-Data-Formate (RDF/XML, JSON-LD, usw.) - üblicher Ansatz: - geeignete Datenbank (Triple-Store) - Anfragen mit Hilfe der entsprechenden Anfragesprache (i. A. SPARQL) - flexible Anfragen möglich, leichte Einbindung weiterer Datenquellen - Größe der Daten (unkomprimiert ca. 21 GB): hohe Anforderungen an die Hardware, Konfiguration und Optimierung der Datenbank aufwendig - Ziele: - kompakte und leicht nachzuvollziehende Lösung - was schön wäre: Bereitstellung einer fertig konfigurierten Arbeitsumgebung in Form eines Docker-Containers, in der die Daten in einer Datenbank verfüg- und analysierbar sind -- ## Datensatz - »Titeldaten der DNB«: 14 102 309 Datensätze und 227 212 707 Tripel (»Fakten«) - neben Angaben zu Büchern auch Angaben zu weiteren Medientypen wie etwa Zeitschriften - Titel, Erscheinungsjahr, bei Buchobjekten meist auch Seitenanzahl und Format ```xml
(DE-101)977225631
9783828979253
Pp. : EUR 99.90 (Gesamtw. in 50 Bd.)
3828979254
Pp. : EUR 99.90 (Gesamtw. in 50 Bd.)
(OCoLC)163100976
Die Leiden des jungen Werther
Weltbild
Augsburg
Augsburg : Weltbild
174 S.
2005
Roman
``` -- ## Linked Data - Beschreibung mittels standardisierter Vokabularien (z. B. Dublin Core oder Bibo) ermöglicht Verlinkung mit weiteren Datensätzen - Angabe zu Autor*innen durch die numerische GND-Kennung ermöglicht Verknüpfung der Daten mit u. a. Wikidata ```xml
``` - Wikidata: auf Linked Data basierendes Datenmodell - enthält u. a. Daten zu zahlreichen Persönlichkeiten, etwa Namen, Geburtsdaten, Berufe, Werke und, falls vorhanden, GND-Kennung - Beispiel: https://www.wikidata.org/wiki/Q5879 (J. W. Goethe) -- ## Framework ![Überblick über das Framework](images/framework.svg) alle Schritte im [GitHub-Repository](https://github.com/weltliteratur/dnb) dokumentiert -- ## 1. Schritt:
Vorverarbeitung und Konvertierung von RDF/XML zu JSON (rdf2json.py) - RDF/XML: i. A. Verarbeitung im Hauptspeicher, nicht als Datenstrom - unpraktikabel aufgrund der Größe der Daten - alle wesentlichen Daten zu einem Medium innerhalb `
` - Verarbeitung mittels SAX-Parser als XML - Extraktion der Metadaten (z. B. »dcterms:contributor«, »dcterms:language«, »dc:title«, »dcterms:extent«, »rdau:P60493«) - Speicherung als JSON - JSON: i. A. platzsparender als RDF/XML - kann leicht in Elasticsearch eingeladen werden – ein geplanter nächster Schritt -- ## 2. Schritt:
Extraktion von Daten zu Autor*innen aus Wikidata (Wikidata-Toolkit) - Ziel: Anreicherung des DNB-Datensatzes mit Informationen aus Wikidata - beispielsweise Geburtsdatum/‑ort, Beruf, Verweis auf vorhandene Artikel in Wikipedia - Python-Bibliothek für Wikidata veraltet → Rückgriff auf Java-basiertes [Wikidata-Toolkit](https://github.com/Wikidata/Wikidata-Toolkit) - Herunterladen des aktuell (14.08.2017) 16 GB großen komprimierten Wikidata-Datensatzes - zwei Durchgänge: 1. Extraktion aller Elemente mit einer GND-Kennung einschließlich ausgewählter Merkmale 2. Ergänzung der Werte der Merkmale (z. B. Sprache, Ort) - Ergebnis als JSON -- ## 3. Schritt:
Normalisierung und Anreicherung
(json2json.py) - Python-Skript implementiert Pipeline: - Einlesen aller Daten aus den vorherigen Schritten - Verknüpfung mittels GND-Kennung - Extraktion von Metadatenangaben (z. B. Seitenanzahlangabe) - Vereinfachung und Normalisierung - Filterung von Datensätzen mit fehlenden Angaben - spaltenbasierte Ausgabe als TSV - Vereinfachung: v. A. Entfernen von Namespace-Präfixen - etwa `http://id.loc.gov/vocabulary/iso639-2/` bei der Angabe der Sprache - Extraktion von Seitenanzahlen/Jahreszahlen mit Hilfe eines regulären Ausdrucks - Normierung von Verlagsnamen mit Hilfe einer Normtabelle möglich - notwendig, da keine standardisierte Schreibung innerhalb des Katalogs -- ## 4. Schritt:
Analyse
(awk, sort, datamash, gnuplot, ...) - TSV-Dateien können mit den üblichen Unix-Werkzeugen wie `awk`, `sort`, `uniq`, etc. leicht verarbeitet und analysiert werden ```sh datamash -g1 median 2 mean 2 min 2 max 2 count 2 q1 2 q3 2 \ < items_per_year-novel_page_author.tsv \ > issued_pages_stats.tsv ``` - Visualisierung mit gnuplot --- # 3. Output -- ## Repräsentativität
- DNB strebt Vollständigkeit an, kein Sammelgebietsbias wie andere Bibliotheken - entsprechende Zahlen sagen etwas über vergangene Realitäten auf dem deutschsprachigen Buchmarkt aus (vgl. Häntzschel et al. 2009) - die Tabelle auf der nächsten Folie rankt Autor*innen nach Anzahl der verzeichneten Romane in der DNB - Verfasser*innen aus dem Unterhaltungsbereich ganz oben - Achtung: die Anzahl der verzeichneten Medien umfasst Neuauflagen - Konsalik hat also nicht über 2 000 Romane geschrieben -- ## Plätze 1–10
| Autor*in | Romane | |:-:|--: | | Heinz G. Konsalik | 2 232 | | Marie Louise Fischer | 1 264 | | Gert Fritz Unger | 1 013 | | Georges Simenon | 783 | | Utta Danella | 778 | | Edgar Wallace | 654 | | Hedwig Courths-Mahler | 647 | | Eleanor Hibbert | 635 | | Pearl S. Buck | 596 | | Alistair MacLean | 582 |
Romanautor*innen geordnet nach Anzahl der Werke (inkl. Nachauflagen) im DNB-Katalog.
-- ## Plätze 11–20
| Autor*in | Romane | |:-:|--: | | Stephen King | 577 | | Georgette Heyer | 576 | | Agatha Christie | 574 | | Theodor Fontane | 565 | | Hans Ernst | 563 | | Lion Feuchtwanger | 501 | | Erich Maria Remarque | 419 | | Hans Hellmut Kirst | 411 | | Johannes Mario Simmel | 403 | | Hans Fallada | 396 |
Romanautor*innen geordnet nach Anzahl der Werke (inkl. Nachauflagen) im DNB-Katalog.
-- ## Visualisierung von Subdatensätzen (1/2)
- von den
etwa **14,1 Mio.** Objekten im DNB-Datensatz
weisen
etwa **8,3 Mio.** extrahierbare Seitenanzahlen auf (59 %)
- laut Datenfeld »rdau:P60493« sind insgesamt
**353 498** der Medien ›Romane‹
, davon weisen wiederum
**316 518** Umfangsangaben
auf und
**180 219** eine*n Verfasser*in, die/der mindestens einen Wikipedia-Eintrag (in egal welcher Sprache) besitzt
- Verschränkung mit Wikipedia als bedeutungsgebender Instanz, um *vanity works*, selbstverlegte Books on Demand usw. herauszufiltern (für andere Forschungsfragen wären diese aber durchaus interessant)
-- ## Visualisierung von Subdatensätzen (2/2) ![zeitliche Verteilung fünf verschiedener Subdatensätze](images/items_per_year_de.svg)
Fünf verschieden qualifizierte Subdatensätze des DNB-Katalogs in zeitlicher Verteilung.
--- # 4. Anwendungsfall 1:
Romantitel -- ## Vorläufer der Romantitelforschung
- Large-Scale-Analysen bibliografischer Metadaten, etwa die Entwicklung von Romantiteln - Vorläufer: Werner Bergengruens Bibliothekarsfantasie »Titulus« von 1960 (manuelle Sammlung und Systematisierung von Romantiteln) - weiterer Vorläufer: Morettis erwähnte Studie »Style Inc.« (2009), hier schon datengestützt -- ## Häufigste Substantive in Romantiteln
| Substantiv | Frequenz | |:-:|:-:| | Liebe | 3 117 | | Mann | 1 906 | | Frau | 1 686 | | Tod | 1 537 | | Nacht | 1 505 | | Leben | 1 496 | | Welt | 1 188 | | Haus | 1 158 | | Zeit | 1 037 | | Schatten | 1 029 |
Häufigste Substantive in Romantiteln im gesamten DNB-Katalog.
-- ## Aus dem Schlagwortbaukasten, siehe auch:
Jim Pandzko feat. Jan Böhmermann: »Menschen Leben Tanzen Welt«. (Neo Magazin Royale, 5. April 2017, [YouTube-Direktlink](https://www.youtube.com/watch?v=h8MVXC_hqNY))
-- ## Häufigste Trigramme in Titeln
| Trigramm | Frequenz | |:-:|:-:| | Das Geheimnis der | 238 | Das Haus der | 224 | Der Mann der | 189 | Das Geheimnis des | 175 | Die Tochter des | 160 | Im Schatten des | 128 | Der Mann im | 128 | Das Lied der | 125 | Die Frau des | 124 | Die Reise nach | 108
Häufigste Trigramme in Romantiteln im DNB-Katalog.
-- ## DNB Goes Ngram Viewer (1/2) ![zeitlicher Verlauf ausgewählter Wörter in Romantiteln (absolut)](images/year_title.svg)
Vorkommen ausgewählter Wörter in Romantiteln im zeitlichen Verlauf (**absolut**).
-- ## DNB Goes Ngram Viewer (2/2) ![zeitlicher Verlauf ausgewählter Wörter in Romantiteln (relativ)](images/year_title_rel.svg)
Vorkommen ausgewählter Wörter in Romantiteln im zeitlichen Verlauf (**relativ**). · OMNIA VINCIT AMOR.
--- # 5. Anwendungsfall 2: Romanumfänge -- ## Romanumfangsforschung
- Erforschung des Einflusses von Textlängen auf Rezeptions-, Interpretations- und Kanonisierungsprozesse - quantitative Beschreibung des literarischen Erbes - empirische Zuarbeit zu einer entstehenden Theorie des literarischen Textumfangs - mehr dazu: - Fischer/Jäschke: *Ein Quantum Literatur. Empirische Daten zu einer Theorie des literarischen Textumfangs.* DFG-Symposium »Digitale Literaturwissenschaft«. Villa Vigoni, 9.–13. Oktober 2017. (entsprechender Sammelband demnächst bei Metzler) -- ## Realitätsabgleich ![Bücher pro Seitenanzahl](images/pages_200-400_de.svg)
Anzahl der Bücher pro Seitenanzahl im Umfangsbereich 200 bis 400 Seiten.
**Publikumsfrage:** Es gibt einen Peak aller 16 Seiten, weil …
-- ## Entwicklung des Romanumfangs seit 1913 ![mittlere Seitenanzahl pro Jahr](images/issued_pages_1913_de.svg)
Entwicklung der mittleren Seitenanzahl pro Jahr seit 1913. – Scheint eine Vermutung von Helge Malchow zu bestätigen: »Mit dem Einzug des Computers in den Schreibprozess sind die Romane nach meinem Eindruck im Durchschnitt um zehn Prozent länger geworden.« ([*Die Zeit* 47/2012](http://www.zeit.de/2012/47/Buecher-Internet-Literatur-Verleger/komplettansicht))
--- # 6. Fazit -- ## Zusammenfassung und Ausblick
- Katalogdaten/Metadaten sind ein sinnvolles Untersuchungsobjekt der Literaturwissenschaft - vorgestelltes Framework soll einfacher Explorier- und Kontrollierbarkeit der Daten dienen - zwei Anwendungsfälle als Inspiration - in Zukunft: Austausch/Interaktion zwischen Wissenschaftler*innen und Bibliotheken/Datendiensten stärken - Idee: Workshop zur *literaturwissenschaftlichen* Beschäftigung mit Katalogdaten? --- ## 7. Bibliografie 📚 * Bergengruen, Werner (1960): Titulus. Das ist: Miszellen, Kollektaneen u. fragmentar., mit gelegentl. Irrtümern durchsetzte Gedanken zur Naturgeschichte d. dt. Buchtitels oder unbetitelter Lebensroman e. Bibliotheksbeamten. Zürich: Verlag der Arche. * DNB (2017): [»Wir über uns«](http://www.dnb.de/DE/Wir/wir_node.html), Stand 16. März 2017. * Fischer, Frank; Jäschke, Robert (2017): Ein Quantum Literatur. Empirische Daten zu einer Theorie des literarischen Textumfangs. DFG-Symposium »Digitale Literaturwissenschaft«. Villa Vigoni, 9.–13. Oktober 2017. (Entsprechender Sammelband erscheint demnächst.) * Häntzschel, Günter; Hummel, Adrian; Zedler, Jörg (2009): [Deutschsprachige Buchkultur der 1950er Jahre. Fiktionale Literatur in Quellen, Analysen und Interpretationen.](https://books.google.com/books?id=t88xc3CzK60C) Wiesbaden: Harrassowitz 2009. * Moretti, Franco (2009): Style Inc. Reflections on Seven Thousand Titles (British Novels, 1740–1850). In: Critical Inquiry, Vol. 36, No. 1 (Autumn 2009), S. 134–158. * Pandzko, Jim; Böhmermann, Jan (2017): [Menschen Leben Tanzen Welt](https://youtu.be/h8MVXC_hqNY) [Musikvideo]. In: Neo Magazin Royale, 5. April 2017. * Schmidt, Ben (2017): [A brief visual history of MARC cataloging at the Library of Congress](http://sappingattention.blogspot.de/2017/05/a-brief-visual-history-of-marc.html) [Blogpost]. In: Sapping Attention, 16. Mai 2017. * Arbeitsrepositorium: [github.com/weltliteratur/dnb](https://github.com/weltliteratur/dnb)