Am 28.07.2017 wurde der CCeH-Mitarbeiter und Master-Student der Informationsverarbeitung Sviatoslav Drach für seine Bachelorarbeit unter der Betreuung von Prof. Dr. Patrick Sahle mit dem Fakultätspreis ausgezeichnet.
Im Rahmen der Bachelorarbeit „WP CatVis – Eine Webanwendung für Harvesting und Visualisierung des Kategoriensystems der Wikipedia als Wissensordnung“ hat Sviatoslav Drach die Kategoriensysteme der Wikipedia untersucht und dazu eine Webanwendung zur Analyse und Visualisierung dieser hierarchischen Wissensordnungen entwickelt.
Im theoretischen Teil der Arbeit wurden verschiedene Visualisierungstypen, die in der Anwendung eingesetzt werden, evaluiert. Das Vorgehen bei der Erstellung der Anwendung wurde dokumentiert und die Anwendung sowie die erzeugten Visualisierungen diskutiert.
Die Anwendung selbst nimmt eine Startkategorie entgegen (Abb. 1) und „harvested“ (sammelt) dann alle Unterkategorien.
Die gesammelten Daten werden aufbereitet und schließlich unter Verwendung von Bausteinen aus der Javascript-Programmbibliothek D3 in vier unterschiedliche Diagrammtypen umgerechnet.
Das Layout “Simple List” oder einfach geordnete Liste, ist im Prinzip keine Visualisierungstechnik, sondern eine einfache Auflistung der Unterkategorien. Sie zeigt die Anzahl der Unterkategorien in der jeweiligen Oberkategorie und die gesamte sowie einmalige Anzahl der Kategorien (Abb. 2).
Das Collapsible Tree Layout zeigt hierarchische Zusammenhänge zwischen einzelnen Kategorien, indem es jede Kategorie als einen Knoten auf einer ihr hierarchisch entsprechenden Ebene präsentiert (Abb. 3).
Das Graph-Layout (Force-Directed Graph with Mouseover) veranschaulicht das beispielhafte Wikipedia-Kategoriensystem „Sänger“ in Form eines Netzwerkes (Abb. 4).
Das Zoomable Circle Packing Layout veranschaulicht nicht nur die hierarchischen Zusammenhänge zwischen den einzelnen Kategorien durch Farbhervorhebungen, sondern es zeigt mit Hilfe der unterschiedlichen Kreisgrößen die proportionale Verteilung der Menge an Artikelseiten, die den einzelnen Kategorien zugewiesenen sind. Das Layout ist insofern interaktiv, als dass in die hierarchisch tieferen Ebenen hineingezoomt werden kann (Abb. 5).
Die gesamte Anwendung hat zwei Nutzungsrichtungen:
Erstens kann sie benutzt werden, um Kategorienbäume zu visualisieren und damit die Struktur, die Verhältnisse und die Quantitäten einzelner Kategoriensysteme besser zu verstehen.
Zweitens können die gesammelten Daten und Visualisierungen benutzt werden, um die Struktur der Wikipedia selbst und die Art und Weise, in der Informationen organisiert werden, nachzuvollziehen und mögliche kulturelle Unterschiede zwischen den verschiedenen Sprachversionen zu analysieren.
Für die Zukunft ist geplant, die Anwendung öffentlich zugänglich zu machen und weitere Layouts und Features hinzuzufügen. Damit wäre u.a. die Grundlage geschaffen, die Kategoriensysteme der Wikipedia sprachübergreifend zu analysieren.