Workshop “Topic Modeling”

ReferentInnen:
Ulrike Henny (ulrike.henny@uni-wuerzburg.de) und
Christof Schöch (christof.schoech@uni-wuerzburg.de)

CCeH, Universität zu Köln, in Kooperation mit DiXiT

Termin: 9.12.2016 von 9:00-17:30, Besprechungsraum des CCeH (Universitätsstraße 22, Dachgeschoss rechts)

Kurzbeschreibung

Topic Modeling ist eine quantitative Methode der Textanalyse, die zum Ziel hat, einen Zugriff auf (im weitesten Sinne) inhaltliche Muster in umfangreichen Textsammlungen anzubieten. Um Topic Modeling mit eigenen Textdaten durchzuführen, sind drei wesentliche Schritte notwendig: Erstens das Vorbereiten der Texte und Metadaten für die Analyse; zweitens der eigentliche Vorgang des Topic Modelings, d.h. der Extraktion von Struktur in den Daten; und drittens die Aufbereitung und Visualisierung des Modells in einer Form, die eine Interpretation der Ergebnisse erlaubt. Ziel des Workshops “Topic Modeling” ist es, die TeilnehmerInnen in die Lage zu versetzen, den vollständigen Arbeitsablauf für das Topic Modeling am eigenen Rechner und mit eigenen Textdaten durchzuführen.

Vorbereitung und praktische Voraussetzungen:

Wir empfehlen die vorbereitende Lektüre des folgenden Beitrags zu den Grundlagen von Topic Modeling:
David Blei, “Probabilistic Topic Models”, 2012: https://www.cs.princeton.edu/~blei/papers/Blei2012.pdf.

Wir bitten alle TeilnehmerInnen, ihren eigenen Laptop mitzubringen und vor der Veranstaltung Python3 (aktuelle Version, mindestens aber 3.4) einschließlich der Pakete numpy, pandas, matplotlib, scipy, seaborn und wordcloud zu installieren. Bei Problemen mit der Installation bitten wir darum, uns vorab zu kontaktieren. Programmierkenntnisse sind hilfreich, aber nicht erforderlich. Wir werden vorbereitete Textsammlungen in verschiedenen Sprachen für die Durchführung des Topic Modeling anbieten, bei Interesse können die TeilneherInnen auch mit eigenen Daten arbeiten.
Benötigt werden möglichst viele Dokumente im Volltext (einfache Textdateien) und Metadaten zu den Texten in tabellarischer Form (z. B. im Format CSV) mit Angaben wie ID des Textes, AutorIn, Erstellungsjahr, usw., je nach Erkenntnisinteresse.

Programm:

Folien

09:00-10:30: Vorstellungsrunde, inhaltliche Einführung, Installation

10:30-11:00: Kaffeepause

11:00-13:00: Workflow I: Preprocessing & Topic Modeling

13:00-14:00: Mittagspause

14:00-15:30: Workflow II: Visualisierung

15:30-16:00: Kaffeepause

16:00-17:30: Diskussion von Ergebnissen & Ausblick

etwa 17:30: Ende der Veranstaltung

Teilnehmerzahl ist begrenzt
Anmeldungen und Rückfragen an info-cceh@uni-koeln.de