Workshop “Topic Modeling”

Workshop “Topic Modeling”

ReferentInnen:
Ulrike Henny (ulrike.henny@uni-wuerzburg.de) und
Christof Schöch (christof.schoech@uni-wuerzburg.de)

CCeH, Universität zu Köln, in Kooperation mit DiXiT

Termin: 9.12.2016 von 9:00-17:30, Besprechungsraum des CCeH (Universitätsstraße 22, Dachgeschoss rechts)

Kurzbeschreibung

Topic Modeling ist eine quantitative Methode der Textanalyse, die zum Ziel hat, einen Zugriff auf (im weitesten Sinne) inhaltliche Muster in umfangreichen Textsammlungen anzubieten. Um Topic Modeling mit eigenen Textdaten durchzuführen, sind drei wesentliche Schritte notwendig: Erstens das Vorbereiten der Texte und Metadaten für die Analyse; zweitens der eigentliche Vorgang des Topic Modelings, d.h. der Extraktion von Struktur in den Daten; und drittens die Aufbereitung und Visualisierung des Modells in einer Form, die eine Interpretation der Ergebnisse erlaubt. Ziel des Workshops “Topic Modeling” ist es, die TeilnehmerInnen in die Lage zu versetzen, den vollständigen Arbeitsablauf für das Topic Modeling am eigenen Rechner und mit eigenen Textdaten durchzuführen.

Vorbereitung und praktische Voraussetzungen:

Wir empfehlen die vorbereitende Lektüre des folgenden Beitrags zu den Grundlagen von Topic Modeling:
David Blei, “Probabilistic Topic Models”, 2012: https://www.cs.princeton.edu/~blei/papers/Blei2012.pdf.

Wir bitten alle TeilnehmerInnen, ihren eigenen Laptop mitzubringen und vor der Veranstaltung Python3 (aktuelle Version, mindestens aber 3.4) einschließlich der Pakete numpy, pandas, matplotlib, scipy, seaborn und wordcloud zu installieren. Bei Problemen mit der Installation bitten wir darum, uns vorab zu kontaktieren. Programmierkenntnisse sind hilfreich, aber nicht erforderlich. Wir werden vorbereitete Textsammlungen in verschiedenen Sprachen für die Durchführung des Topic Modeling anbieten, bei Interesse können die TeilneherInnen auch mit eigenen Daten arbeiten.
Benötigt werden möglichst viele Dokumente im Volltext (einfache Textdateien) und Metadaten zu den Texten in tabellarischer Form (z. B. im Format CSV) mit Angaben wie ID des Textes, AutorIn, Erstellungsjahr, usw., je nach Erkenntnisinteresse.

Programm:

Folien

09:00-10:30: Vorstellungsrunde, inhaltliche Einführung, Installation

10:30-11:00: Kaffeepause

11:00-13:00: Workflow I: Preprocessing & Topic Modeling

13:00-14:00: Mittagspause

14:00-15:30: Workflow II: Visualisierung

15:30-16:00: Kaffeepause

16:00-17:30: Diskussion von Ergebnissen & Ausblick

etwa 17:30: Ende der Veranstaltung

Teilnehmerzahl ist begrenzt
Anmeldungen und Rückfragen an info-cceh@uni-koeln.de

Internationaler Open Access Workshop

Open Access and Open Data in Language Research and Documentation: Opportunities and Challenges

SOAS World Languages Institute in collaboration with the Cologne Center for eHumanities and the University and City Library of Cologne is running the international workshop Open Access and Open Data in Language Research and Documentation: Opportunities and Challenges in Cologne, Germany from October 10-12, 2016.

Open Access, unrestricted online access to publicly funded peer-reviewed publications, has become a major movement in the academic world over the past decade. While Open Access to publications is generally supported, the call for access to the primary materials — the data on which the publications are based — is contested and sometimes hotly debated, especially in the documentation of endangered languages. At the same time, best practice in scientific conduct and sharing of data are basic academic principles.

Funded by the Volkswagen Stiftung the workshop is bringing together researchers, archivists, speakers, users, funders and research institutions from different geographical areas to discuss key issues in evaluating challenges and opportunities and provide practical solutions to Open Access/Open Data of primary documentation materials. UNESCO’s Universal Access and Preservation Section, Information Society Division, Communication and Information Sector is partnering to support policy development in the sector and to provide practical teaching materials.

Conference organizers:

Mandana Seyfeddinipur, Ph.D., School of Oriental and African Studies, University of London, Endangered Languages Documentation Programme

PD Dr. Sebastian Drude, Universiteit Utrecht, CLARIN

Apl. Prof. Dr. Patrick Sahle, Cologne Center for eHumanities, University of Cologne

Dr. Hubertus Neuhausen, University and City Library of Cologne, University of Cologne

Workshop participation by invitation only.

More information can be found here

RTI refresher course by Dr Kathryn E. Piquette

Dr Kathryn E. Piquette (University College London) will hold a Refresher Course on Reflectance Transformation Imaging (RTI), an advanced imaging technique for the documentation and research of cultural heritage.

The course will take place at the University of Cologne on 7 – 9 September.

Dr. Kathryn E. Piquette

Dr. Piquette has been practicing dome-based RTI and Highlight RTI (H-RTI) for over four years on a wide array of artefacts and other material surface types in museum collections around the world, as well as in a variety of field contexts. Her currently work revolves around the Magica Levantina project (http://papyri.uni-koeln.de/magica-levantina/index.html) and the development of Infrared RTI for the Herculaneum papyri. She received training in RTI techniques from Cultural Heritage Imaging (CHI) and bases her course on their 4-day training. For more information on the trainings, services and resources offered by CHI, visit: http://culturalheritageimaging.org/Technologies/RTI/

Arbeitstreffen zur Zitierbarkeit und Adressierbarkeit digitaler Forschungsressourcen bei den Akademien der Wissenschaften

Am 23./24. August 2016 findet am CCeH (Koordinierungsstelle Digital Humanities der Nordrhein-Westfälischen Akademie der Wissenschaften und der Künste) das erste Arbeitstreffen einer dem Thema gewidmeten Unterarbeitgruppe der AG eHumanities der Union der deutschen Akademien der Wissenschaften statt.

Agenda: Zitierbarkeit und Adressierbarkeit digitaler Ressourcen

Voraussetzung für die wissenschaftliche Verwendung und Nachnutzung digitaler Daten und Publikationen aus den Akademieprojekten ist ihre Zitierbarkeit und Adressierbarkeit. Anders als bei gedruckten Publikationen, mit ihrem medienspezifischen Referenzsystem der bibliografischen Angaben und Seitenzahlen, besteht bei digitalen Ressourcen eine noch unentwickelte und bestenfalls hochgradig heterogene Landschaft an Technologien und Standards zur Identifikation und Prädikation digitaler Objekte.

Um die Ergebnisse der akademiegetragenen Grundlagenforschung hinsichtlich ihrer Zitierbarkeit und Adressierbarkeit möglichst einheitlich, zukunftsfähig und nachhaltig gestalten zu können, sollen in einem mehrstufigen Prozess Handreichungen zu minimalen, empfohlenen und erweiterten Vorgehensweisen im Rahmen der Akademieforschung erarbeitet werden.

Die erste Stufe bildet dabei die Erfassung des Ist-Zustandes durch die Zusammenstellung, systematische Aufarbeitung und Bewertung der derzeit in den Projekten realisierten Zitationsschemata sowie deren Typisierung, theoretische Fundierung und Bestimmung der Granularität. Auf dieser Basis können aktuelle Brennpunkte und best practice-Lösungen bestimmt und zunächst grobe Handlungsempfehlungen formuliert werden.

In den darauf folgende Stufen sollen die Handlungsempfehlungen konkretisiert sowie alternative Technologien kritisch analysiert und deren Verwendungspotenzial bestimmt werden. Für die Implementation dauerhafter Adressierungsschemata sind möglichst einfach umsetzbare Vorschläge zu machen.

Roadmap: mögliche Aufgaben und Schritte

  • Aufgabe 1: Konzeptionelle Grundlagen
    • Verfügbarkeit, Identifizierung, Wissenschaftliche Praxis
    • Typisierung digitaler Ressourcen (Text, Bild, Video, Ton, Datenbank, Software)
    • Wie werden wir forschen? Prospektive Verwendungsszenarien: Zwischen Literaturzitat und Portalintegration. Zitierbarkeit für Menschen? Adressierbarkeit für Maschinen?
  • Aufgabe 2: Grundsätzlich bestehende Ansätze und Lösungen
    • Identifikationssysteme: PURL, URN, DOI, ARK, Handle, Permalink etc.
    • Feingranulare Textadressierung: zum Beispiel CTS
    • Empfehlungen der DFG und anderer Akteure (derzeit keine Empfehlungen für Texte!)
  • Aufgabe 3: Analyse der Situation in den Akademievorhaben
    • Wo bestehen schon PID-Systeme, wo fehlen sie noch?
    • Wo gibt es bereits Pläne für laufende Vorhaben?
  • Aufgabe 4: Handlungsempfehlungen
    • Welche Lösungen für welche Projekttypen und Datenarten?
    • Mögliche externe Partner bei der Realisierung von PID-Systemen
    • Gleiche Lösungen für gleiche Problemlagen! Wie erreichen wir Konvergenz über die Einzelakademien hinweg?
  • Aufgabe 5: Begleitung der Umsetzung von PID-Lösungen in den Vorhaben und Akademien

Teilnehmer

Lecture: “The CMV+P document model”

Digitalized and born-digital documents are being changed all the time. How can we discuss changes like “rephrasing a sentence” when all the computer sees is a different string of bits? In the talk “The CMV+P document model” Dr. Gioele Barabucci (CCeH) will introduce a novel document model that allows humans and computer to compare different documents and different versions of the same document at multiple interpretative levels.

When and where

The talk will be held on the 24th of October, 11:00 in the Seminar room of the CCeH (Universitätsstraße 22).

Abstract

The CMV+P model is a layered document model that can describe any electronic document. Each document is seen a stack of layered abstraction levels, each characterized by three components: Content, Model and Variant. This layered structure allows for the co-existence of many separate and concurrent document formats. Such a structure is needed to refer with precision to parts of a changing document, as well as to identify at which of these layer a modification has been done (did I modify some bits or did a split a paragraph of text?).

“A new digital edition of St Patrick’s writings: canonical text vs manuscript transcription”, Presentation by Dr. Roman Bleier (MSC/DiXiT)

25th August 2016, 16:00h
CCeH, Seminar Room (Universitätsstraße 22)

Everybody welcome!

Abstract:

Arguably the most important sources for fifthcentury Irish history are two contemporary epistles written by St Patrick. These epistles survived in seven medieval manuscript witnesses in repositories in Ireland, England and Europe. During my PhD at Trinity College Dublin I created TEI transcriptions of the manuscripts following a documentary editing approach.
Currently, I am working as DiXiT Experienced Researcher at the Centre for Information Modelling Austrian Centre for Digital Humanities at the University of Graz on the topic Canonical reference & sustainability of digital editions. As part of my DiXiT research, I develop a new digital edition of St Patrick’s epistles based on the above mentioned TEI transcriptions. This new edition will serve as a case study for my research in canonical referencing and, at the same time, it will provide a new digital resource for the study of the versions of St Patrick’s texts from a documentary perspective.
This work-in-progress paper will briefly introduce the primary sources, the rationale for the development of the TEI transcriptions and discuss my current thoughts about possible directions for the new edition of St Patrick’s epistles.

Short biographical note:

Roman Bleier studied history and religious studies at the University of Graz. He completed a PhD in Digital Arts and Humanities (DAH) at Trinity College Dublin and works now as DiXiT Marie Curie fellow at the Centre for Information Modelling Austrian Centre for Digital Humanities, University of Graz.

“Letters 1916: Building and understanding a large corpus of correspondence” Presentation by Richard Hadden (DiXiT-Fellow)

“Letters 1916: Building and understanding a large corpus of correspondence”
Presentation by Richard Hadden (DiXiT-Fellow)

When and where

The talk will be held on July 5th 2016, 16:00 in the Seminar room of the CCeH (Universitätsstraße 22).

Abstract:

This presentation will look firstly at the work behind building the Letters of 1916 corpus, a collection of correspondence from 1915 and 1916, covering the period leading up to, and the aftermath of, the Easter Rising. As Ireland’s first “public digital humanities project”, the corpus is strongly reliant on crowd-sourced methodologies for sourcing, digitising and transcribing letters. This first section will discuss the tools and workflow employed, including automated processes for converting crowd-transcribed and marked-up text into full TEI documents.

The next section will showcase a number of letters from the corpus, highlighting above all the effects upon correspondence itself of the political situation in Ireland: the Rising is, after all, a revolution that began in a post office.

The final section looks more deeply at my own research into the corpus, asking what questions can be legitimately asked of such a large and disparate corpus over and above its obvious utility as a collection of individual texts. It will explore the many problems to be considered in the application of digital humanities
techniques such as topic modelling to a corpus of this nature.

“The web as a platform”, Guest lecture by Andrea Marchesini (Mozilla Foundation)

“The web as a platform”, Guest lecture by Andrea Marchesini (Mozilla Foundation)

When and where

The talk will be held on May 11th 2016, 17:00-18:30 in the Seminar room of the CCeH (Universitätsstraße 22).

Abstract

The web is in ongoing and rapid evolution. Often there is a huge gap between what browsers offer and web-developers’ knowledge, within the fields of multi-threading programming, network interception, offline management, 3d APIs, inter-context communication, hardware and networking APIs and so on. I will focus on two main issues: firstly, the reason why we should consider any web-page at the same level as an application; secondly, how browsers can offer functionalities in order to reach the complexity and performance of native apps: for instance, JIT, WebGL and multi-threading computation.
I would like to have a horizontal discussion with the DH community about HTML5 and web technologies in general, as well as a deep conversation about new standards. It would be interesting to hear more about your projects and your interests in order to create new networks and exchange ideas.

Andrea Marchesini is currently working in Mozilla platform – hacking on DOM, WebAPIs, Workers, privacy and security components.

Lecture: “The Web stack in 2016: From the original static web sites to the current bleeding-edge web technologies”

How has the Web changed since its inception? In which direction(s) is it evolving at the moment? In the talk “The Web stack in 2016: From the original static web sites to the current bleeding-edge web technologies” Dr. Gioele Barabucci (CCeH) will discuss how the Web has progressed since its early days at CERN.

When and where

The talk will be held on May 10th 2016, 14:00-16:00 in the Seminar room of the CCeH (Universitätsstraße 22).

Abstract

The talk will touch many technical details but also more general aspects of the development of the web. It will show how the Web worked originally (a simple server sending static files and a simple browser visualizing static HTML pages) and how it works now (with layers of middleware, with a lot of computation being moved into the clients via JS or NaCL, with clients being small devices with 10cm screens and with pages generated on the fly via PHP or XQuery). How did we get here? How will things evolve from this point? Does the development of the Web conflicts with the will to preserve all the data and the knowledge that flows through it?

Workshop: project data management with git

For every humanist that always wanted to know what this “git” thing is that everybody seems to be talking about these days:

On April 26., 14:00 we will have a workshop about Management of humanities research data with Git and GitHub. Everybody interested is very welcome to attend.

Topics:

– git basics: version management
– commits / merges: best practices
– collaborative editing of (XML) research data using GitHub
– Using GitHub for project management: readme, issues, wiki