Workshop “Topic Modeling”
ReferentInnen:
Ulrike Henny (ulrike.henny@uni-wuerzburg.de) und
Christof Schöch (christof.schoech@uni-wuerzburg.de)
CCeH, Universität zu Köln, in Kooperation mit DiXiT
Termin: 9.12.2016 von 9:00-17:30, Besprechungsraum des CCeH (Universitätsstraße 22, Dachgeschoss rechts)
Kurzbeschreibung
Topic Modeling ist eine quantitative Methode der Textanalyse, die zum Ziel hat, einen Zugriff auf (im weitesten Sinne) inhaltliche Muster in umfangreichen Textsammlungen anzubieten. Um Topic Modeling mit eigenen Textdaten durchzuführen, sind drei wesentliche Schritte notwendig: Erstens das Vorbereiten der Texte und Metadaten für die Analyse; zweitens der eigentliche Vorgang des Topic Modelings, d.h. der Extraktion von Struktur in den Daten; und drittens die Aufbereitung und Visualisierung des Modells in einer Form, die eine Interpretation der Ergebnisse erlaubt. Ziel des Workshops “Topic Modeling” ist es, die TeilnehmerInnen in die Lage zu versetzen, den vollständigen Arbeitsablauf für das Topic Modeling am eigenen Rechner und mit eigenen Textdaten durchzuführen.
Vorbereitung und praktische Voraussetzungen:
Wir empfehlen die vorbereitende Lektüre des folgenden Beitrags zu den Grundlagen von Topic Modeling:
David Blei, “Probabilistic Topic Models”, 2012: https://www.cs.princeton.edu/~blei/papers/Blei2012.pdf.
Wir bitten alle TeilnehmerInnen, ihren eigenen Laptop mitzubringen und vor der Veranstaltung Python3 (aktuelle Version, mindestens aber 3.4) einschließlich der Pakete numpy, pandas, matplotlib, scipy, seaborn und wordcloud zu installieren. Bei Problemen mit der Installation bitten wir darum, uns vorab zu kontaktieren. Programmierkenntnisse sind hilfreich, aber nicht erforderlich. Wir werden vorbereitete Textsammlungen in verschiedenen Sprachen für die Durchführung des Topic Modeling anbieten, bei Interesse können die TeilneherInnen auch mit eigenen Daten arbeiten.
Benötigt werden möglichst viele Dokumente im Volltext (einfache Textdateien) und Metadaten zu den Texten in tabellarischer Form (z. B. im Format CSV) mit Angaben wie ID des Textes, AutorIn, Erstellungsjahr, usw., je nach Erkenntnisinteresse.
Programm:
Folien
09:00-10:30: Vorstellungsrunde, inhaltliche Einführung, Installation
10:30-11:00: Kaffeepause
11:00-13:00: Workflow I: Preprocessing & Topic Modeling
13:00-14:00: Mittagspause
14:00-15:30: Workflow II: Visualisierung
15:30-16:00: Kaffeepause
16:00-17:30: Diskussion von Ergebnissen & Ausblick
etwa 17:30: Ende der Veranstaltung
Teilnehmerzahl ist begrenzt
Anmeldungen und Rückfragen an info-cceh@uni-koeln.de