News

Workshop “Topic Modeling”

Workshop “Topic Modeling”

ReferentInnen:
Ulrike Henny (ulrike.henny@uni-wuerzburg.de) und
Christof Schöch (christof.schoech@uni-wuerzburg.de)

CCeH, Universität zu Köln, in Kooperation mit DiXiT

Termin: 9.12.2016 von 9:00-17:30, Besprechungsraum des CCeH (Universitätsstraße 22, Dachgeschoss rechts)

Kurzbeschreibung

Topic Modeling ist eine quantitative Methode der Textanalyse, die zum Ziel hat, einen Zugriff auf (im weitesten Sinne) inhaltliche Muster in umfangreichen Textsammlungen anzubieten. Um Topic Modeling mit eigenen Textdaten durchzuführen, sind drei wesentliche Schritte notwendig: Erstens das Vorbereiten der Texte und Metadaten für die Analyse; zweitens der eigentliche Vorgang des Topic Modelings, d.h. der Extraktion von Struktur in den Daten; und drittens die Aufbereitung und Visualisierung des Modells in einer Form, die eine Interpretation der Ergebnisse erlaubt. Ziel des Workshops “Topic Modeling” ist es, die TeilnehmerInnen in die Lage zu versetzen, den vollständigen Arbeitsablauf für das Topic Modeling am eigenen Rechner und mit eigenen Textdaten durchzuführen.

Vorbereitung und praktische Voraussetzungen:

Wir empfehlen die vorbereitende Lektüre des folgenden Beitrags zu den Grundlagen von Topic Modeling:
David Blei, “Probabilistic Topic Models”, 2012: https://www.cs.princeton.edu/~blei/papers/Blei2012.pdf.

Wir bitten alle TeilnehmerInnen, ihren eigenen Laptop mitzubringen und vor der Veranstaltung Python3 (aktuelle Version, mindestens aber 3.4) einschließlich der Pakete numpy, pandas, matplotlib, scipy, seaborn und wordcloud zu installieren. Bei Problemen mit der Installation bitten wir darum, uns vorab zu kontaktieren. Programmierkenntnisse sind hilfreich, aber nicht erforderlich. Wir werden vorbereitete Textsammlungen in verschiedenen Sprachen für die Durchführung des Topic Modeling anbieten, bei Interesse können die TeilneherInnen auch mit eigenen Daten arbeiten.
Benötigt werden möglichst viele Dokumente im Volltext (einfache Textdateien) und Metadaten zu den Texten in tabellarischer Form (z. B. im Format CSV) mit Angaben wie ID des Textes, AutorIn, Erstellungsjahr, usw., je nach Erkenntnisinteresse.

Programm:

Folien

09:00-10:30: Vorstellungsrunde, inhaltliche Einführung, Installation

10:30-11:00: Kaffeepause

11:00-13:00: Workflow I: Preprocessing & Topic Modeling

13:00-14:00: Mittagspause

14:00-15:30: Workflow II: Visualisierung

15:30-16:00: Kaffeepause

16:00-17:30: Diskussion von Ergebnissen & Ausblick

etwa 17:30: Ende der Veranstaltung

Teilnehmerzahl ist begrenzt
Anmeldungen und Rückfragen an info-cceh@uni-koeln.de

Niklas-Luhmann Archiv bei der Veranstaltungsreihe “Basis Zwei”

Am Samstag, dem 29.10.2016 um 14 Uhr werden Johannes Schmidt von der Soziologischen Fakultät der Universität Bielefeld mit Martina Gödel und Sebastian Zimmer vom CCeH im Rahmen der Veranstaltungsreihe “Basis Zwei” einen Vortrag über die konzeptionellen und technischen Herausforderungen der Erschließung von Niklas Luhmanns Zettelkasten halten.

Abstract

Martina Gödel, Johannes Schmidt, Sebastian Zimmer – Niklas Luhmanns Zettelkasten: ein “preadaptive advance” digitaler Datenbanken?

Der bedeutende Soziologe Niklas Luhmann entwickelte im Laufe seiner 25-jährigen Forschungstätigkeit an der Universität Bielefeld eine universale Sozial- und Gesellschaftstheorie, die er in etwa 50 Büchern und 500 Aufsätzen publiziert hat. Als Basis für diese erstaunliche Produktivität diente Luhmann ein Zettelkasten, den er über vierzig Jahre lang systematisch gefüllt und gepflegt hat. Diese Sammlung von 90.000 Notizzetteln ist durch vier Merkmale gekennzeichnet: eine nicht-hierarchische Ordnungsstruktur, ein damit zusammenhängendes spezifisches Nummerierungssystem der Zettel, ein Verweisungsprinzip, das die Notizen untereinander und quer durch die Zettelsammlung vernetzt, sowie ein mehrere tausend Begriffe umfassendes Schlagwortregister.
Im Zuge der Nachlasserschließung werden die Zettel zunächst digitalisiert, in einem zweiten Schritt transkribiert und fachwissenschaftlich editiert. Ziel dieses Prozesses ist eine Reproduktion der Sammlung, die die Möglichkeiten der modernen digitalen Technik nutzt, um sie lesbar und ihre Genese nachvollziehbar zu machen. Das Projekt ist aufgrund der Masse und der Heterogenität des Materials sowie des datenbanksimulierenden Ansatzes des Luhmannschen Zettelkastens nicht nur fachwissenschaftlich, sondern auch technisch eine Herausforderung.
Als Basis für die digitale Präsentation des Zettelkastens werden hochstrukturierte XML-Dateien erstellt, die die Möglichkeit bieten, den transkribierten Text mit Informationen anzureichern. Jeder Zettel wird semantisch als freie, einzelne Gedankeneinheit begriffen, die in Verbindung mit anderen Einheiten steht. Implizit enthaltene Informationen werden durch Zettel-IDs und Schlagwortregisterverlinkungen explizit gemacht. Darüber hinaus soll der Nutzer auch die Zettelreihungen nachvollziehen können und so z.B. Auffälligkeiten wie Konzentrationen, aber auch ‚schwarze Löcher‘ im Zettelbestand für ihn sichtbar werden. Das von Luhmann nicht im Detail und im Voraus geplante Wachstum der Sammlung wird so in seinem ganzen Ausmaß transparent und die Gedankenentwicklung nachvollziehbar. Neben einer Arbeitsoberfläche, die es Fachwissenschaftlern ohne tiefere Technologiekenntnisse erlaubt, weiterführend mit dem Zettelkasten zu arbeiten, werden die Daten im weiteren Verlauf der Nachlasserschließung im Projektportal veröffentlicht.
Ziel des Vortrags ist, den Bestand und die Funktionalität des von Luhmann hinterlassenen Zettelkastens zu beschreiben, um dann in einem zweiten Schritt jenes Vorhaben der Digitalisierung genauer darzustellen.

Die Veranstaltungsreihe Basis Zwei

Digitaltechnik – Kunst – Denken
Eine transdisziplinäre Veranstaltungsreihe

Hannover, 01.10. – 24.11.2016

Die Digitaltechnik bringt tiefgreifende Wandlungen auch der Kunst-, Musik- und Wissensproduktion mit sich. Die transdisziplinäre Veranstaltungsreihe Basis Zwei fragt nach den Zusammenhängen: Welche neuen Möglichkeiten eröffnet der Computer, welche Herausforderungen stellt er etwa im Bereich der Komposition, der Musikproduktion oder in den Geisteswissenschaften? Inwieweit formt der Computer als Modell und als Werkzeug zur Simulation unser Bild der Welt?

Weiterführende Links

Basis Zwei Homepage
Basis Zwei Programmheft
Details zum Vortrag

Renaissance Women Writers in Italy and Germany – CCeH researcher Tiziana Mancinelli funded by NetEx program

A Digital Scholarly Edition of Renaissance Women Writers in Italy and Germany

We are pleased to announce that Dr. Tiziana Mancinelli (CCeH) and Dr. Anna Cappellotto (University of Verona) have been awarded a research grant within the programme Network & Exchange – NetEx, a measure of the Female Professors Programme II at the University of Cologne.

The funded project aims at exploring the role, in/visibility, and position of women writers in Italian and German Literature during the Renaissance from a cross-cultural perspective, in both print and digital scholarly editions. We propose an inclusive, case study based approach, which asks questions from a gender perspective about the process of the realisation of digital archives and Digital Humanities Scholarships. By investigating a corpus of works written by women about their status and roles and by engaging in a literary and philological analysis, we will look at the hierarchical structure of hegemonic power in the field of social discursive practices.

In order to examine the various aspects and features of a cross-cultural and gender gaze throughout the Renaissance, the project will collect, systematize and explore the contribution of women writers in Germany and Italy. We will consider the works of Italian women such as Vittoria Colonna (1492-1547), Veronica Gambara (1485-1550) Gaspara Stampa (1524-1554), and Veronica Franco (1546-1591), who, as courtesans and gentildonne, made an original contribution to the Italian Renaissance, from poetry to the epistolary genre.

While in Italy courtesans had a prominent role in literary production, in Germany Caritas Pirckheimer (1467-1532) represented the typology of virgo docta. The abbess had a lengthy correspondence with contemporary leading humanists; in addition, she wrote a chronicle of events which took place at her monastery, which conveys an extremely vivid image of the history of the Reformation. Moreover, the public and private correspondence written by Margaret of Austria (1480-1530) will be included in the project to explore the writing of a well-educated noblewoman and patron.

In conclusion, with the expertise and support of the CCeH and IDE, this project will deal with both technical (infrastructures, annotation, workflow) and theoretical issues in order to challenge the dominant paradigm, through the metadata curation and the categories used for it. It will also question how categories could contribute to the construction of socio-cultural identities and the literary canon.

Do not hesitate to contact us for further information! Anyone interested in the subject is encouraged to send enquiries, contributions and suggestions to:

Dr. Tiziana Mancinelli (University of Cologne) email: tiziana.mancinelli@uni-koeln.de

Dr. Anna Cappellotto (University of Verona) email: anna.cappellotto @univr.it

(Image: Vittoria Colonna, Ritratto di Michelangelo, c. 1550, British Museum, London; from Wikimedia Commons)

Internationaler Open Access Workshop

Open Access and Open Data in Language Research and Documentation: Opportunities and Challenges

SOAS World Languages Institute in collaboration with the Cologne Center for eHumanities and the University and City Library of Cologne is running the international workshop Open Access and Open Data in Language Research and Documentation: Opportunities and Challenges in Cologne, Germany from October 10-12, 2016.

Open Access, unrestricted online access to publicly funded peer-reviewed publications, has become a major movement in the academic world over the past decade. While Open Access to publications is generally supported, the call for access to the primary materials — the data on which the publications are based — is contested and sometimes hotly debated, especially in the documentation of endangered languages. At the same time, best practice in scientific conduct and sharing of data are basic academic principles.

Funded by the Volkswagen Stiftung the workshop is bringing together researchers, archivists, speakers, users, funders and research institutions from different geographical areas to discuss key issues in evaluating challenges and opportunities and provide practical solutions to Open Access/Open Data of primary documentation materials. UNESCO’s Universal Access and Preservation Section, Information Society Division, Communication and Information Sector is partnering to support policy development in the sector and to provide practical teaching materials.

Conference organizers:

Mandana Seyfeddinipur, Ph.D., School of Oriental and African Studies, University of London, Endangered Languages Documentation Programme

PD Dr. Sebastian Drude, Universiteit Utrecht, CLARIN

Apl. Prof. Dr. Patrick Sahle, Cologne Center for eHumanities, University of Cologne

Dr. Hubertus Neuhausen, University and City Library of Cologne, University of Cologne

Workshop participation by invitation only.

More information can be found here

2nd Colloquium in Digital Cultural Heritage, 26 Oct 2016

The second Colloquium in Digital Cultural Heritage, organised by Prof. Paliou (Archäoinformatik) and Dr. Eide (Historisch-Kulturwissenschaftliche Informationsverarbeitung), will take place on Wednesday October 26 in the Küpperstift.

PD Dr. Chariklea Armoni, Dr. Gregor Staab, Prof. Dr. Jürgen Hammerstaedt

“Projekte der digitalen Erschliessung und Erforschung von Kulturgut an der Arbeitsstelle für Papyrologie, Epigraphik und Numismatik des Instituts für Altertumskunde”

When: 26.10.2016, 18:00 s.t.
Where: Raum 101, Archäologisches Institut, Kerpener Str. 30

In dem Vortrag wird es zunächst um die beiden fast abgeschlossenen Projekte einer digitalen Erschließung der Kölner Münzen und Papyri gehen, die in Zusammenarbeit mit dem CCeH und der Universitätsbibliothek vorgenommen wurden. Anschließend geht es um laufende und in Planung befindliche Arbeiten. Sie betreffen 3D- und GIS-Forschung an der große philosophischen Inschrift des Diogenes von Oinoanda, die geplante Einbindung von Reflectance Transformation Imaging mit weiteren Visualisierungsmethoden von Papyri sowie das Vorhaben einer Visualisierung ungeöffneter Papyri mit X-Ray- Phase-Contrast Imaging.

RTI refresher course by Dr Kathryn E. Piquette

Dr Kathryn E. Piquette (University College London) will hold a Refresher Course on Reflectance Transformation Imaging (RTI), an advanced imaging technique for the documentation and research of cultural heritage.

The course will take place at the University of Cologne on 7 – 9 September.

Dr. Kathryn E. Piquette

Dr. Piquette has been practicing dome-based RTI and Highlight RTI (H-RTI) for over four years on a wide array of artefacts and other material surface types in museum collections around the world, as well as in a variety of field contexts. Her currently work revolves around the Magica Levantina project (http://papyri.uni-koeln.de/magica-levantina/index.html) and the development of Infrared RTI for the Herculaneum papyri. She received training in RTI techniques from Cultural Heritage Imaging (CHI) and bases her course on their 4-day training. For more information on the trainings, services and resources offered by CHI, visit: http://culturalheritageimaging.org/Technologies/RTI/

Arbeitstreffen zur Zitierbarkeit und Adressierbarkeit digitaler Forschungsressourcen bei den Akademien der Wissenschaften

Am 23./24. August 2016 findet am CCeH (Koordinierungsstelle Digital Humanities der Nordrhein-Westfälischen Akademie der Wissenschaften und der Künste) das erste Arbeitstreffen einer dem Thema gewidmeten Unterarbeitgruppe der AG eHumanities der Union der deutschen Akademien der Wissenschaften statt.

Agenda: Zitierbarkeit und Adressierbarkeit digitaler Ressourcen

Voraussetzung für die wissenschaftliche Verwendung und Nachnutzung digitaler Daten und Publikationen aus den Akademieprojekten ist ihre Zitierbarkeit und Adressierbarkeit. Anders als bei gedruckten Publikationen, mit ihrem medienspezifischen Referenzsystem der bibliografischen Angaben und Seitenzahlen, besteht bei digitalen Ressourcen eine noch unentwickelte und bestenfalls hochgradig heterogene Landschaft an Technologien und Standards zur Identifikation und Prädikation digitaler Objekte.

Um die Ergebnisse der akademiegetragenen Grundlagenforschung hinsichtlich ihrer Zitierbarkeit und Adressierbarkeit möglichst einheitlich, zukunftsfähig und nachhaltig gestalten zu können, sollen in einem mehrstufigen Prozess Handreichungen zu minimalen, empfohlenen und erweiterten Vorgehensweisen im Rahmen der Akademieforschung erarbeitet werden.

Die erste Stufe bildet dabei die Erfassung des Ist-Zustandes durch die Zusammenstellung, systematische Aufarbeitung und Bewertung der derzeit in den Projekten realisierten Zitationsschemata sowie deren Typisierung, theoretische Fundierung und Bestimmung der Granularität. Auf dieser Basis können aktuelle Brennpunkte und best practice-Lösungen bestimmt und zunächst grobe Handlungsempfehlungen formuliert werden.

In den darauf folgende Stufen sollen die Handlungsempfehlungen konkretisiert sowie alternative Technologien kritisch analysiert und deren Verwendungspotenzial bestimmt werden. Für die Implementation dauerhafter Adressierungsschemata sind möglichst einfach umsetzbare Vorschläge zu machen.

Roadmap: mögliche Aufgaben und Schritte

  • Aufgabe 1: Konzeptionelle Grundlagen
    • Verfügbarkeit, Identifizierung, Wissenschaftliche Praxis
    • Typisierung digitaler Ressourcen (Text, Bild, Video, Ton, Datenbank, Software)
    • Wie werden wir forschen? Prospektive Verwendungsszenarien: Zwischen Literaturzitat und Portalintegration. Zitierbarkeit für Menschen? Adressierbarkeit für Maschinen?
  • Aufgabe 2: Grundsätzlich bestehende Ansätze und Lösungen
    • Identifikationssysteme: PURL, URN, DOI, ARK, Handle, Permalink etc.
    • Feingranulare Textadressierung: zum Beispiel CTS
    • Empfehlungen der DFG und anderer Akteure (derzeit keine Empfehlungen für Texte!)
  • Aufgabe 3: Analyse der Situation in den Akademievorhaben
    • Wo bestehen schon PID-Systeme, wo fehlen sie noch?
    • Wo gibt es bereits Pläne für laufende Vorhaben?
  • Aufgabe 4: Handlungsempfehlungen
    • Welche Lösungen für welche Projekttypen und Datenarten?
    • Mögliche externe Partner bei der Realisierung von PID-Systemen
    • Gleiche Lösungen für gleiche Problemlagen! Wie erreichen wir Konvergenz über die Einzelakademien hinweg?
  • Aufgabe 5: Begleitung der Umsetzung von PID-Lösungen in den Vorhaben und Akademien

Teilnehmer

Lecture: “The CMV+P document model”

Digitalized and born-digital documents are being changed all the time. How can we discuss changes like “rephrasing a sentence” when all the computer sees is a different string of bits? In the talk “The CMV+P document model” Dr. Gioele Barabucci (CCeH) will introduce a novel document model that allows humans and computer to compare different documents and different versions of the same document at multiple interpretative levels.

When and where

The talk will be held on the 24th of October, 11:00 in the Seminar room of the CCeH (Universitätsstraße 22).

Abstract

The CMV+P model is a layered document model that can describe any electronic document. Each document is seen a stack of layered abstraction levels, each characterized by three components: Content, Model and Variant. This layered structure allows for the co-existence of many separate and concurrent document formats. Such a structure is needed to refer with precision to parts of a changing document, as well as to identify at which of these layer a modification has been done (did I modify some bits or did a split a paragraph of text?).

“A new digital edition of St Patrick’s writings: canonical text vs manuscript transcription”, Presentation by Dr. Roman Bleier (MSC/DiXiT)

25th August 2016, 16:00h
CCeH, Seminar Room (Universitätsstraße 22)

Everybody welcome!

Abstract:

Arguably the most important sources for fifthcentury Irish history are two contemporary epistles written by St Patrick. These epistles survived in seven medieval manuscript witnesses in repositories in Ireland, England and Europe. During my PhD at Trinity College Dublin I created TEI transcriptions of the manuscripts following a documentary editing approach.
Currently, I am working as DiXiT Experienced Researcher at the Centre for Information Modelling Austrian Centre for Digital Humanities at the University of Graz on the topic Canonical reference & sustainability of digital editions. As part of my DiXiT research, I develop a new digital edition of St Patrick’s epistles based on the above mentioned TEI transcriptions. This new edition will serve as a case study for my research in canonical referencing and, at the same time, it will provide a new digital resource for the study of the versions of St Patrick’s texts from a documentary perspective.
This work-in-progress paper will briefly introduce the primary sources, the rationale for the development of the TEI transcriptions and discuss my current thoughts about possible directions for the new edition of St Patrick’s epistles.

Short biographical note:

Roman Bleier studied history and religious studies at the University of Graz. He completed a PhD in Digital Arts and Humanities (DAH) at Trinity College Dublin and works now as DiXiT Marie Curie fellow at the Centre for Information Modelling Austrian Centre for Digital Humanities, University of Graz.