News – Page 4

Workshop on critical apparatus, 11-12 January 2018

We are pleased to invite you to a two-day workshop that aims at exploring the theories, methodologies, and tools of the critical apparatus. This seminar is organised by Ca’ Foscari University of Venice together with University of Cologne – CCeH (Cologne Centre for eHumanities) and Dipartimento di Studi Linguistici e Culturali Comparati, within the ERC StG Project BIFLOW seminar programme “Lingue, saperi e conflitti nell’Italia medievale 3 (2018)”. The first day will give an introduction to the encoding of a critical apparatus through TEI (Text Encoding Initiative), whereas the second day will discuss in depth the theoretical framework surrounding the methods and methodologies, as well as the advantages and disadvantages of the new technologies on this topic.

Dipartimento di Studi Umanistici, Ca’ Foscari – Aula Milone

More information on the BIFLOW website.

Anmeldung zur DHd-Konferenz 2018 in Köln

Die Anmeldung für die Teilnahme an der DHd-Konferenz 2018 (26. Februar 2018 – 01. März 2018) in Köln ist ab sofort im ConfTool unter möglich.

Bis zum 31. Januar 2018 ist ein Frühbucherrabatt verfügbar. Zu den Standardkonditionen können Sie sich bis einschließlich 19. Februar 2018 registrieren.

Das vorläufige Tagungsprogramm finden Sie sowohl im ConfTool als auch auf der Konferenz-Homepage.

Im Rahmen der DHd-Konferenz werden insgesamt 20 DFG-Reisestipendien für Promovierte, 25 Gerda Henkel-Reisestipendien für Promovierende und 9 DHd-/CLARIN-/DARIAH-Reisestipendien für Studierende vergeben.

Vortragende und Beteiligte, denen nur geringe oder keine finanzielle Mittel im Rahmen eigener Stellen und Projekte zur Verfügung stehen, werden ermuntert, ihr Interesse an einem Stipendium bei der Registrierung im ConfTool zu bekunden. Eine formlose Bewerbung mit aktuellem Lebenslauf ist bis zum 15. Januar 2018 an die folgende Adresse zu senden: stipendien-dhd2018@uni-koeln.de.

Weitere Informationen zum Bewerbungs- und Vergabeverfahren finden sich ebenfalls auf der Konferenz-Webseite.

Falls Sie noch weitere Fragen haben sollten, stehen wir Ihnen gerne unter info-dhd2018@uni-koeln.de zur Verfügung.

Wir freuen uns auf Ihren Besuch in Köln!

Im Namen aller VeranstalterInnen und OrganisatorInnen

CCeChristmas is coming… 15 December 2017

This year’s most faboulous CCeChristmas party will take place on Friday, 15 December, from 6 pm.

Delicious food and drinks will be provided, Christmas kitties will be projected. Und wie jedes Jahr, so auch dieses wird die House-Formation CCeCatch ihr stimmungsvolles Jahresendzeitprogramm The Sound of Besinnlichkeit herunterleiern.

Das CCeH möchte sich bei allen MitarbeiterInnen, KollegInnen, PartnerInnen und FreundInnen für die erfolgreiche Zusammenarbeit in einem ertragreichen Jahr 2017 bedanken (siehe z.B. CCeHarvest) und blickt voll der Freude und Zuversicht ins nächste (insb. natürlich auf die DHd2018).

Everyone most warmly invited!

Merry Christmas,
Santa CCeClaus

Sviatoslav Drach erhält Fakultätspreis der philosophischen Fakultät

Am 28.07.2017 wurde der CCeH-Mitarbeiter und Master-Student der Informationsverarbeitung Sviatoslav Drach für seine Bachelorarbeit unter der Betreuung von Prof. Dr. Patrick Sahle mit dem Fakultätspreis ausgezeichnet.

Im Rahmen der Bachelorarbeit „WP CatVis – Eine Webanwendung für Harvesting und Visualisierung des Kategoriensystems der Wikipedia als Wissensordnung“ hat Sviatoslav Drach die Kategoriensysteme der Wikipedia untersucht und dazu eine Webanwendung zur Analyse und Visualisierung dieser hierarchischen Wissensordnungen entwickelt.

Im theoretischen Teil der Arbeit wurden verschiedene Visualisierungstypen, die in der Anwendung eingesetzt werden, evaluiert. Das Vorgehen bei der Erstellung der Anwendung wurde dokumentiert und die Anwendung sowie die erzeugten Visualisierungen diskutiert.

Die Anwendung selbst nimmt eine Startkategorie entgegen (Abb. 1) und „harvested“ (sammelt) dann alle Unterkategorien.

Abbildung 1: Benutzeroberfläche von WP CatVis (Ausschnitt aus der Startseite)

Die gesammelten Daten werden aufbereitet und schließlich unter Verwendung von Bausteinen aus der Javascript-Programmbibliothek D3 in vier unterschiedliche Diagrammtypen umgerechnet.

Das Layout “Simple List” oder einfach geordnete Liste, ist im Prinzip keine Visualisierungstechnik, sondern eine einfache Auflistung der Unterkategorien. Sie zeigt die Anzahl der Unterkategorien in der jeweiligen Oberkategorie und die gesamte sowie einmalige Anzahl der Kategorien (Abb. 2).

Abbildung 2: Visualisierung des Wikipedia-Kategoriensystems „Sänger“ in Form von Simple List

Das Collapsible Tree Layout zeigt hierarchische Zusammenhänge zwischen einzelnen Kategorien, indem es jede Kategorie als einen Knoten auf einer ihr hierarchisch entsprechenden Ebene präsentiert (Abb. 3).

Abbildung 3: Visualisierung des Wikipedia-Kategoriensystems „Sänger“ im Collapsible Tree Layout

Das Graph-Layout (Force-Directed Graph with Mouseover) veranschaulicht das beispielhafte Wikipedia-Kategoriensystem „Sänger“ in Form eines Netzwerkes (Abb. 4).

Abbildung 4: Visualisierung des Wikipedia-Kategoriensystems „Sänger“ im Graphen-Layout

Das Zoomable Circle Packing Layout veranschaulicht nicht nur die hierarchischen Zusammenhänge zwischen den einzelnen Kategorien durch Farbhervorhebungen, sondern es zeigt mit Hilfe der unterschiedlichen Kreisgrößen die proportionale Verteilung der Menge an Artikelseiten, die den einzelnen Kategorien zugewiesenen sind. Das Layout ist insofern interaktiv, als dass in die hierarchisch tieferen Ebenen hineingezoomt werden kann (Abb. 5).

Abbildung 5: Visualisierung des Wikipedia-Kategoriensystems „Sänger“ im Zoomable Circle Packing Layout

Die gesamte Anwendung hat zwei Nutzungsrichtungen:

Erstens kann sie benutzt werden, um Kategorienbäume zu visualisieren und damit die Struktur, die Verhältnisse und die Quantitäten einzelner Kategoriensysteme besser zu verstehen.

Zweitens können die gesammelten Daten und Visualisierungen benutzt werden, um die Struktur der Wikipedia selbst und die Art und Weise, in der Informationen organisiert werden, nachzuvollziehen und mögliche kulturelle Unterschiede zwischen den verschiedenen Sprachversionen zu analysieren.

Für die Zukunft ist geplant, die Anwendung öffentlich zugänglich zu machen und weitere Layouts und Features hinzuzufügen. Damit wäre u.a. die Grundlage geschaffen, die Kategoriensysteme der Wikipedia sprachübergreifend zu analysieren.

Papyri Wörterlisten, jetzt online verfügbar

Die WörterListen (WL) sind ein Hilfsmittel für die griechische Papyrologie, d.h. für die Spezialdisziplin der klassischen Altertumswissenschaften, die sich mit der Edition und Auswertung der in der Zeit zwischen ca. 300 v.Chr. und 700 n.Chr. in Ägypten auf Griechisch (und z.T. auch auf Latein) geschriebenen Papyri (und anderen Schriftträgern) befaßt. In den WL werden die Wörter, Namen, geographischen Begriffe usw. gesammelt, die in den Registern zu den seit etwa dem Jahre 1995 veröffentlichten Editionen griechisch (und z.T. auch lateinisch) verfasster dokumentarischer Papyri aufgelistet sind.

Dieter Hagedorn pflegt diese kumulierten Register seit 2000 in einer eigenen Datenbank und hat sie bislang als PDF veröffentlicht. Im Rahmen der Digitalisierungsaktivitäten der Nordrhein-Westfälischen Akademie der Wissenschaften und der Künste wird auch die Kölner Papyrussammlung sowie umliegende Quellen zu Online-Ressourcen umgebaut. Das CCeH hat deshalb eine Webanwendung für die Wörterlisten entwickelt, in die Dieter Hagedorn und Klaus Maresch vom Institut für Altertumskunde der Universität zu Köln auch in Zukunft neue Daten einpflegen werden. Die Anwendung selbst basiert auf eXist und ist unter Peter Dängelis konzeptioneller Leitung von Ben Bigalke realisiert worden.

Benutzung der Wörterlisten

Die Webanwendung ist unter https://papyri.uni-koeln.de/papyri-woerterlisten verfügbar.

Um für ein bestimmtes Wort die (bisher erfassten) Publikationen nachzuschlagen, in denen es vorkommt, hat der Nutzer mehrere Möglichkeiten:

Durch Klick auf einen Buchstaben im lateinischen oder griechischen Alphabet und wahlweise eine der Kategorien lässt sich eine Liste aller mit dem gewählten Buchstaben beginnenden Wörter laden, die dann über die gegebenen Buchstabenkombinationen weiter gefiltert werden kann. Dieses Vorgehen ist z.B. hilfreich, wenn sich nur Teile eines zu transkribierenden Wortes sicher lesen lassen.
Durch Eintrag einer beliebigen Buchstabenfolge in das Suchfeld oben rechts neben dem griechischen Alphabet läßt sich nach deren Vorkommen in dem Gesamtbestand der WL suchen, unabhängig von der Position der eingegebenen Buchstaben in den Wörtern.
Detaillierte Suchmöglichkeiten bietet die „Erweiterte Suche“. Hier kann man ebenfalls die Suche auf einzelne Abteilungen der WL beschränken, hat aber auch die Wahl, die Position der Buchstabenfolge im Wort festzulegen. Markiert man z.B. „Wortende“, dann findet man u. a. alle entsprechend endenden Verben. Diese Option ersetzt daher die Funktion des „Konträrindex“ der bisherigen pdf-Version.

Ein Klick auf das gesuchte Wort führt zu einer Resultatansicht, in der alle Belegstellen aufgeführt sind. Eine Verlinkung dieser Werke zum entsprechenden Literatureintrag auf papyri.info ist im Ansatz umgesetzt, sie soll aber noch dahingehend erweitert werden, dass man dort direkt eine Volltextsuche im entsprechenden Band aufrufen kann.

Neben weiteren Metadaten lässt sich auch die dem Eintrag zugrundeliegende TEI-Datei aufrufen.

Datenerstellung und Übernahme

Anglegt und gepflegt wurden die Wörterlisten ab 2000 durch Dieter Hagedorn zunächst in einer eigens erstellten Hypercard-Datenbank. Die den Registern gewonnenen Rohdaten wurden darin kompiliert und via rtf-Export in Word ein PDF-Output erzeugt. In jüngerer Zeit erfolgte die Kompilation durch Scripts einer FileMaker Pro-Datenbank und die Weitergabe an Word geschah über einen Export im html-Format. In dieser Umgebung werden die Listen gegenwärtig auch weiter gepflegt, es schließt nun aber ein anderes Übernahme-Szenario an:

Mit jeder neuen Fassung der Wörterlisten werden die Daten aus FileMaker in dessen XML-Format exportiert. Die resultierenden Dateien werden durch eine XProc-Pipeline ins TEI-Zielformat transformiert, wobei verschiedene neue Metadaten mit aufgenommen werden, unter anderem eine stabile Identifikationsnummer der Form wl-grc-00001 bzw.wl-la-00001. Sobald alle Auffälligkeiten bereinigt sind, die in einem Exportbericht ausgegeben werden, erfolgt die finale Konversion. Die so gewonnenen Daten werden als neue Version nach Github geschrieben und von dort an die Webanwendung sowie automatisch auch an die Forschungsdatenplattform Zenodo übergeben. Die Daten führen so gewissermaßen ein von der Webanwendung unabhängiges Eigenleben.

Vgl.
doi.org/10.5281/zenodo.6419707

Rückmeldungen zu den Inhalten und der Anwendung nimmt das Wörterlisten-Team gerne unter papyri-woerterlisten@uni-koeln.de entgegen.

Colloquium in Digital Cultural Heritage, Programme 2017/18

Historisch-Kulturwissenschaftliche Informationsverarbeitung am Institut für Digital Humanities und Archäoinformatik am Archäologischen Institut,
Mittwochs, um 18 Uhr, Raum 101, Archäologisches Institut

Visualization-virtualization-fabrication
18.10.2017 | Dr. Lena Kotoula (University of Central Lancashire (UK))

Don’t fear black boxes – Künstliche Intelligenz und Digital Humanities
25.10.2017 | Dr. Jan Wieners (University of Cologne)

Symposium by the CCeH: Questioning models: Intersectionality in Digital Humanities (see full programme)
08.11.2017 | Universität zu Köln | Hauptgebäude, Alter Senatssaal | 18.00 Uhr
– Dr. Vera Fusshauer (Goethe-Universität Frankfurt am Main) | Faulty, Clumsy, Negligible? Reevaluating the Language and Contents of Early Modern Princesses’ Letters
– Prof. Dr. Serena Sapegno (Sapienza University of Rome) | The case of Vittoria Colonna

32² Shades of grey. Unscharfe Logik und andere Qualen im Umgang zwischen Μοῦσαι und τέχνη
15.11.2017 | Prof. Dr. Manfred Thaller (University of Cologne)

ArchAIDE – Archaeological Automatic Interpretation and Documentation of Ceramics
22.11.2017 | Michael Remmy/Felix Kußmaul (University of Cologne)

The Threats to Scholarly Editing, or Why We Have Nothing to Fear But Scholarship Itself
29.11.2017 | Dr. Joris van Zundert (Royal Netherlands Academy of Arts and Sciences)

Presence in Virtual Archaeology
06.12.2017 | Dr. Laia Pujol (Pompeu Fabra University (Spain))

Erkenntnishorizonte: Zu Fragen der Wissenschaftstheorie im digitalen Zeitalter
13.12.2017 | Tessa Gengnagel (University of Cologne)

Extreme data processing in computational archaeology
10.01.2018 | Benjamin Ducke (DAI Berlin)

TBC linked to CIDOC-CRM
17.01.2018 | Dr. Martin Doerr (ICS – FORTH, Crete)

Social Identities in the Prehistoric Rock Art of the Brandberg/Dâureb, Namibia
24.01.2018 | E. Fäder/O. Vogels/Dr. T. Lenssen-Erz/Jun.-Prof. Dr. B. Mathiak (University of Cologne)

Modellieren durch mediale Transformation
31.01.2018 | Zoe Schubert (University of Cologne)

Full programme (PDF-Download)

Stellenausschreibungen im Forschungsprojekt SustainLife

Zur Vorbereitung und Durchführung des Forschungsprojektes “SustainLife – Erhalt lebender, digitaler Systeme für die Geisteswissenschaften” unter der Leitung von Prof. Dr. Brigitte Mathiak sucht das Data Center for the Humanities (DCH) zum 01.01.2018 eine/n wissenschaftliche/n Mitarbeiter/in und eine wissenschaftliche Hilfskraft (WHB).

Die Bewerbungsfrist ist jeweils am 15.11.2017.

Weitere Informationen:

wissenschaftliche/r Mitarbeiter/in

wissenschaftliche Hilfskraft (WHB)

Zur Projektbeschreibung: “SustainLife – Erhalt lebender, digitaler Systeme für die Geisteswissenschaften”

Manfred Thaller: From History to Applied Science in the Humanities, HSR Supplement 29 (2017)

Das CCeH freut sich, auf die Veröffentlichung eines Supplementbandes der Zeitschrift “Historical Social Research” hinzuweisen, in dem verschiedene Artikel von Prof. Manfred Thaller versammelt und mit einem autobiographischen Essay verbunden werden. Die Beiträge illustrieren das Denken und Wirken einer herausragenden Forscherpersönlichkeit, der auch das CCeH sein Bestehen mit verdankt. Der Band beleuchtet damit auch einige konzeptionelle Grundlagen der Formierung der Digital Humanities an der Universität zu Köln und macht sie über diese Neuveröffentlichung besser zugänglich.

Weitere Informationen zum HSR Supplement 29 (2017) von der GESIS-Webseite:

“Im Zuge der methodologischen Öffnung der bis dahin sehr traditionellen Geschichtswissenschaften in den 1970ern erschien EDV-Anwendung in historischen Forschungsprojekten als eine innovative, interdisziplinärer Ausrichtung. Anfangs fokussierte man – besonders stark getrieben durch die Kölner QUANTUM-Gruppe – fast ausschließlich auf quantitative Analysen. Doch schon kurze Zeit später erweiterte sich das Feld, indem man versuchte, die ganze Bandbreite von informationstechnologischen Möglichkeiten einzusetzen. Manfred Thaller war ein entscheidender Akteur in dieser Entwicklung. Mehr als 20 Jahre lang arbeitete er am Max Plack Institut für Geschichte in Göttingen daran, IT-Tools und -Methoden direkt auf historische Forschung auszurichten. Schließlich wurde Thaller auf den ersten Lehrstuhl für Fachinformatik in den Geisteswissenschaften berufen, der ausdrücklich nicht linguistisch ausgerichtet war: Bis zu seiner Emeritierung 2016 forschte und lehrte Manfred Thaller am Institut „Historisch-Kulturwissenschaftliche Informationsverarbeitung“ an der Universität zu Köln.

Dieser HSR-Supplementband beginnt mit einem autobiografischen Essay, in dem Manfred Thaller die Entwicklung dieses interdisziplinäre Feldes von „History & Computing“ bis hin zur „Digital Humanities“ beschreibt. Das Fazit seiner Erinnerungen ist zwiespältig: Hinter einer glänzenden Fassade mit häufig oberflächlichen Projekten und kurzfristigen Zielen wurde das enorme epistemische Potenzial ernsthafter Anwendung von Informatik auf die Geschichte oft nicht erkannt. Die hier neu abgedruckten 13 Beiträge aus mehr als 30 Jahren beschreiben die vielfältigen Herausforderungen, vor denen man stand (und steht), wenn es um eine ernsthafte interdisziplinäre Zusammenarbeit zwischen Informatik und Geisteswissenschaften geht. Neben allgemeinen methodologischen Überlegungen, fokussieren die Beiträge auf die Spezifika von Text und Zeit in historischen Quellen. Das Ziel: Aus den vielen Fäden ein allgemeingültiges Modell für die Repräsentation historischer Informationen in der Informationstechnologie zu machen.”

Autobiographische Anmerkungen

Manfred Thaller: Between the Chairs. An Interdisciplinary Career. [Abstract]

Beiträge

Manfred Thaller: Automation on Parnassus. CLIO – A Databank Oriented System for Historians [1980]. [Abstract]
Manfred Thaller: Ungefähre Exaktheit. Theoretische Grundlagen und praktische Möglichkeiten einer Formulierung historischer Quellen als Produkte ,unscharfer’ Systeme [1984]. [Abstract]
Manfred Thaller: Vorüberlegungen für einen internationalen Workshop über die Schaffung, Verbindung und Nutzung großer interdisziplinärer Quellenbanken in den historischen Wissenschaften [1986]. [Abstract]
Manfred Thaller: Entzauberungen: Die Entwicklung einer fachspezifischen historischen Datenverarbeitung in der Bundesrepublik [1990]. [Abstract]
Manfred Thaller: The Need for a Theory of Historical Computing [1991]. [Abstract]
Manfred Thaller: The Need for Standards: Data Modelling and Exchange [1991]. [Abstract]
Manfred Thaller: Von der Mißverständlichkeit des Selbstverständlichen. Beobachtungen zur Diskussion über die Nützlichkeit formaler Verfahren in der Geschichtswissenschaft [1992]. [Abstract]
Manfred Thaller: The Archive on Top of Your Desk. An Introduction to Self-Documenting Image Files [1993]. [Abstract]
Manfred Thaller: Historical Information Science: Is there such a Thing? New Comments on an old Idea [1993]. [Abstract]
Manfred Thaller: Source Oriented Data Processing and Quantification: Distrustful Brothers [1995]. [Abstract]
Manfred Thaller: From the Digitized to the Digital Library [2001]. [Abstract]
Manfred Thaller: Reproduktion, Erschließung, Edition, Interpretation: Ihre Beziehungen in einer digitalen Welt [2005]. [Abstract]
Manfred Thaller: The Cologne Information Model: Representing Information Persistently [2009]. [Abstract]

Presentation: Mohammad Aljayyousi on the project “iNovel”, 15 Nov 2017

Assistant Professor Mohammad Aljayyousi, Philadelphia University Amman, Department of English Language and Literature, is a visiting scholar at the CCeH from October 2017 to March 2018. His stay is funded by the DAAD. During his time at Cologne University, Mr. Aljayyousi will contribute to the CCeH’s work in the field of literary studies and widen his own skills in Digital Humanities. In particular, he will work on his own research project “iNovel”. Dr. Aljayyousi is going to present and openly discuss his research at a public lecture on …

iCriticism:
An Interactive, Innovative and Inter-medial Approach to Literature
Wednesday, November, 15th, 15:00
CCeH – Meeting Room (Universitätsstr. 22)

All are welcome …

Abstract

iCriticism: An Interactive, Innovative and Inter-medial Approach to Literature.

The presentation will introduce a new approach, to the study of literature in the digital age tentatively called, iCriticism. Broadly speaking, iCriticism is a response to the fact that reading now takes place in an ecosystem of devices including both print and digital, and it starts from the belief that the computer is a unique invention which is adaptable to a wide variety of uses. Within literary studies, the computer can be used in a humanistic way to best serve the purposes of the field. Some main principles of the approach that will be elaborated on in the presentation include the following:

Texts are multi-dimensional and heterogeneous and the relation among their various dimensions, codes of significance, or levels is not heuristic.
The algorithmic, dynamic nature of traditional texts.
Rejection of formal logic and the CRUM (Computational-Representational Understanding of Mind) paradigm as the only option.
Material conditions, including textuality, are created in the space between physical and non-physical (human) factors.
Digitizing texts is a process of translation / rewriting that can result in pedagogical tools.
The computer technology can introduce fun and increase the engagement of students through attention to experiential aspects, and the multiple roles that the student can play: user-player-learner-reader-writer.

XML Pipelines and XProc 3.0: Report of the WG Meeting in Aachen

Last week (14th and 15th of September 2017) a meeting of the XProc 3.0 working group took place in Aachen, organized by Achim Berndzen of xml-project and Gerrit Imsieke of le-tex and hosted by LOGOI.

The meeting was extremely successful, consensus has been reached on many topics and important roadblocks have been overcome. I will tell you about what the WG accomplished in a second. Before that allow me to introduce XProc, XML pipelines and explain why they are useful. (If you already know all this stuff, skip directly to the XProc 3 section, that’s OK. :))

XML pipelines? What are you talking about?

Everybody who has worked with XML knows that real-world applications are always born as simple transformations (“I’ll just convert this XML to HTML with XSLT”) but quickly develop into a big tangled web of unreadable code as soon as you have to deal the inevitable…

small mistakes in the input (“wait, why is there a <p> inside a <em>?”),
flaws in the receiving applications (“let’s have a separate output for Internet Explorer 6, so that the poor students access this from the library”) or
requests from the project collaborators (“could you make a summary version with only one sentence per chapter?”).

Addressing all these needs can be done, but doing it by adding fixes on top of fixes on the original core transformation is a nightmare in terms of maintenance and readability.

Small steps and scripts

A better way to solve all these issues is splitting monolithic transformations into smaller pieces, or steps. (More about how our experience at the CCeH in splitting complicated transformations into focused steps in a future article.)

Now that you have all these steps, how do you transform the input into the output in practice?

Are you going to run each step manually, clicking around in your XML editor? I hope not.

A much better way to run this split transformation is to create a shell script that takes the input file, applies the first step (fix the small mistakes), then the second (transform into HTML) and then, if requested, the third (uglify HTML to make it IE6 compatible).

Such a script would work just fine but it has many problems:

Either you hardcode how to invoke the XSLT processor or you have to write an abstraction layer that allows you to call other XSLT processors.
Requires a working Bash shell environment (not that easy to get on Windows).
Does not provide any kind of validation of the intermediate results.
Requires a deserialization/serialization cycle for each step.
Gets rapidly very complex as soon as other steps, conditional steps and loops are added.
Works only on a single document.

We could address all these problems ourselves making a better script. Or we could avoid reinventing the wheel and make use of XProc and write a declarative XML pipeline.

Enter XML pipelines and XProc

XProc is a language for writing declarative XML pipelines.

An XML pipeline is a series of steps though which an XML documents flow, just as in the shell script in the previous example. However, in contrast with a shell script, XProc pipelines are:

Declarative: you state what you want and the XProc interpreter chooses the right tools. (A PDF transformation? Let’s use Apache FOP. An XSLT Transformation? Let’s use libxslt. Oh, are we running inside oXygen? Let’s use the internal Saxon-EE engine then.)
Portable: pipelines can run wherever there is a XProc interpreter: Linux, Windows, Mac OS, you name it.
Specialized for XML: documents are not deserialized and serialized in each step.
Can have more than one input and produce more than one output.
Easily extend to intricate pipelines with loops and parallel branches.

An example pipeline looks like the following

<p:pipeline xmlns:p="http://www.w3.org/ns/xproc" version="1.0">
    <p:xslt>
        <p:input port="stylesheet">
            <p:document href="fix-mistakes.xsl"/>
        </p:input>
    </p:xslt>

    <p:xslt>
        <p:input port="stylesheet">
            <p:document href="convert-doc.xsl"/>
        </p:input>
    </p:xslt>

    <p:xslt use-when="p:system-property('ie6-compatible') = 'true'">
        <p:input port="stylesheet">
            <p:document href="make-ie6-compatible.xsl"/>
        </p:input>
    </p:xslt>
</p:pipeline>

XProc 3.0

XProc 3.0 is the upcoming version of XProc. The original XProc 1 specifications have been published in 2010 by the W3C and since then users and implementers have found small problems, inconsistencies as well as ergonomic issues that make writing XProc pipelines harder than it should.

The focus of XProc 3 is simplifying the language, making implementations behave in more sensible way by default and making it possible to process non-XML documents (think LaTeX or graphic files).

During last week’s working group meeting in Aachen plenty of progress has been done in this direction, with consensus reached on many key issues. I will summarize the main outcomes; the minutes are available at https://github.com/xproc/Workshop-2017-09/wiki/Agenda-and-Minutes.

Simplified and streamlined language

The actual unnecessary distinction between a pipeline and a step will be removed. (It turns out that the current definition of a pipeline makes it so strict that nobody is actually using it.)
The definition of a port and the use of a port will use different names. (This often confused beginners.)
Non XML documents will become first-class citizens in XProc 3.0 and treated exactly as XML documents.
The well known try/catch/finally construct will be introduced.

Run-time evaluation and extension

A new eval step will be introduced to run dynamically created pipelines.
User functions written in XPath, XSLT and XQuery will be usable in all fields where XPath can be used.

Diagnostic and debugging

Steps will be able to output side-information on the diagnostic, forwarded to stderr by default.
Implementation will provide a way to dump all the temporary documents produced by the intermediate steps.
A separate specification will standardize error reporting (so that XML editors like oXygen will be able to highlight where the problem occurred).

Plenty of interesting stuff, isn’t it? If you are interested in the development of XProc 3.0 or XProc in general, please participate in the discussions held on the XProc mailing list, join the W3C Community group, and suggest improvements on the XProc developement website.

See you at the next XProc meeting!