Erfassung von Wissensorganisationssystemen in BARTOC - Ergebnis eines Projektseminars an der Hochschule Hannover

DOI: http://dx.doi.org/10.11588/ip.2017.2.40335

Jakob VOSS, Laura BODE, Diana HAMASUR, Laura ISBANNER, Jan JÄGER, Ebru KURTAR, Kim Antonia PETERS, Melis RUFAIOGLU, Christian SCHNEEVOGT, Romy STELTER, Jennifer WIEGAND, Ann Christin WILD, Remziye YILDIRIMER

Erfassung von Wissensorganisationssystemen in BARTOC

Ergebnis eines Projektseminars an der Hochschule Hannover

Zusammenfassung

Das Basel Register of Thesauri, Ontologies & Classifications (BARTOC) hat sich innerhalb weniger Jahre mit mehr als 2.700 Einträgen zu einem umfangreichen Verzeichnis von Wissensorganisationssystemen entwickelt. Im Sommersemester 2017 wurde diese Entwicklung von einem Projektseminar mit Bachelor-Studierenden der Hochschule Hannover begleitet. Eine Revision und Erweiterung der Inhalte von BARTOC führte zu einer besseren Abdeckung ausgewählter Metadatenfelder. Darüber hinaus wurden verschiedene Statistiken, Informationsmaterialien und ein neues Logo erstellt.

Schlüsselwörter

BARTOC, Normdatenverzeichnis, Katalogisierung, Projektbericht

Cataloging Knowledge Organisation Systems in BARTOC - results of a student project at Hannover University of Applied Sciences and Arts

Abstract

The Basel Register of Thesauri, Ontologies & Classifications (BARTOC) has quickly become the most comprehensive directory of knowledge organisation systems with more than 2,700 entries in less than four years. In the summer semester 2017 a project of bachelor students from Hannover University of Applied Sciences and Arts supported and analyzed the content and development of BARTOC. The project resulted in a revision with improved coverage of selected metadata fields, several statistics, information materials, and a new logo.

Keywords

BARTOC, terminology registry, cataloging, project report

Inhaltsverzeichnis

1 Einleitung

1.1 Das Normdaten-Verzeichnis BARTOC

1.2 Ein Projektseminar an der Hochschule Hannover

2 Erfassung

2.1. Datenschema

2.2 Ergänzung und Aktualisierung

2.3 Neuanlegung von Einträgen

3 Analyse

3.1. Ablauf

3.1. Ergebnisse

4 Präsentation

5 Zusammenfassung und Bewertung

Quellen

AutorInnen

1 Einleitung

Das Basel Register of Thesauri, Ontologies & Classifications (BARTOC)1 hat sich innerhalb weniger Jahre zur vermutlich umfangreichsten Datenbank von Wissensorganisationssystemen entwickelt. Ein Teil dieser Entwicklung basiert auf einem Projekt mit Studierenden der Hochschule Hannover, das im Folgenden vorgestellt werden soll.

1.1 Das Normdaten-Verzeichnis BARTOC

BARTOC ist eine Datenbank von Wissensorganisationssystemen (engl. Knowledge Organisation Systems, kurz KOS), die von Dr. Andreas Ledl an der Universitätsbibliothek Basel betrieben wird. Vorläufer war ein 2012 von ihm gegründetes Thesaurusportal (Ledl 2017). Bei der Erfassung in BARTOC wird Ledl von Redakteurinnen und Redakteuren aus neun europäischen Ländern unterstützt.2

BARTOC verzeichnet alle Arten von KOS, unabhängig von Fachgebiet, Sprache, Publikationsformat und Zugangsmöglichkeit. Primäres Ziel ist die einheitliche Erfassung von Klassifikationen, Thesauri und Normdateien. Die Sichtbarkeit dieser KOS soll mit der Verzeichnung erhöht und ihre jeweiligen Funktionen hervorgehoben werden. Darüber hinaus soll das Verzeichnis Informationskompetenzen unterstützen und den Wissensaustausch fördern. Die Inhalte von BARTOC stehen als Open Data in verschiedenen Formaten zur Verfügung.3 Technische Grundlage ist das Content-Management-System Drupal.

Durch Erfassung mit mehrsprachigen Vokabularen wie Eurovoc und DDC ist BARTOC in 20 Sprachen verfügbar. Seit der Gründung im November 2013 wurden Informationen zu rund 2.700 Wissensorganisationssystemen und 80 weiteren Normdaten-Verzeichnissen gesammelt.

1.2 Ein Projektseminar an der Hochschule Hannover

Der Bachelorstudiengang Informationsmanagement der Hochschule Hannover beinhaltet im 6. Semester ein Projektseminar, um zuvor erlernte Methoden des Projektmanagements in die Praxis umzusetzen. Für das Sommersemester 2017 wurde von Dr. Jakob Voß ein Projekt zur Übersicht von Systemen zur Wissensorganisation angeboten.4 Ziel des Projekts war es, auf Basis von BARTOC eine Übersicht von Systemen zur Wissensorganisation (Klassifikationen, Thesauri, Ontologien etc.) zu schaffen bzw. zu verbessern. Den 12 Studierenden standen für die Durchführung 14 Präsenztermine sowie Zeit zur Projektarbeit außerhalb der Anwesenheitszeiten zur Verfügung.

Zu Beginn des Projekts wurden – nach einer Einführung in BARTOC – Arbeitsgruppen gebildet und Teilziele festgelegt. Die Gruppe Erfassung kümmerte sich um die Aktualisierung und Vervollständigung der Einträge in BARTOC, die Gruppe Analyse beschäftigte sich mit der statistischen Auswertung der BARTOC-Inhalte und die Gruppe Präsentation war dafür zuständig, die ermittelten Daten attraktiv zu präsentieren und allgemein über BARTOC zu informieren.

2 Erfassung

Nach Einführung in die Katalogisierung mit BARTOC und einer Abschätzung des Arbeitsumfangs wurde beschlossen, die Erfassung von Wissensorganisationssystemen im Wesentlichen auf bereits in BARTOC verzeichnete Systeme zu beschränken. Zu den Ausnahmen gehörten einige im Projekt coli-conc ermittelten Bibliotheksklassifikationen und verwandte Systeme (Balakrishnan & Agne 2016), sodass BARTOC inzwischen zumindest alle KOS enthalten sollte, die im deutschsprachigen bibliothekarischen Bereich überregional genutzt werden (GND, RVK, DDC, BK, STW, …). Statt im großen Maßstab weitere Systeme zu ermitteln und in BARTOC zu ergänzen, konzentrierte sich die Erfassung also auf die Vervollständigung und Vereinheitlichung von Einträgen, um eine möglichst gleichwertige Datenqualität zu gewährleisten.

2.1. Datenschema

In Zusammenarbeit mit der gesamten Projektgruppe wurden die wichtigsten Felder, die in jedem BARTOC-Eintrag vorhanden sein sollten, festgelegt (Tabelle 1).

Feld Beschreibung Stand zu Beginn Stand am Ende
Title Titel in Vorlageform 100,0 % 100,0 %
KOS-Type Art des KOS (siehe Tabelle 2) 100,0 % 100,0 %
English Title Englischer Titel oder Übersetzung 30,0 % 77,3 %
Abstract Nicht-englisches Abstract in Vorlageform 81,0 % 79,0 %
English Abstract Englisches Abstract 8,0 % 55,3 %
Link Homepage (sofern online verfügbar) 98,0 % 98,3 %
Access Zugänglichkeit des KOS (frei, nach Registrierung oder nach Lizenzierung) 80,0 % 81,0 %
DDC Thematische Einordnung bis zur dritten Ebene der DDC 85,0 % 85,2 %
Language Sprache(n) in der das KOS vorliegt 81,0 % 81,3 %
Location Ort der Urheber oder Herausgeber 100,0 % 100,0 %
Licence Lizenz unter der KOS verfügbar ist, z.B. Creative Commons-Varianten 15,0 % 60,1 %
Wikidata Entsprechender Eintrag in Wikidata 9,0 % 9,6 %

Tabelle 1: Übersicht der bearbeiteten Felder und Veränderung der Belegung im Verlauf des Projekts

Eine vollständige Liste aller Felder, der darin verwendeten Vokabulare und das Mapping der BARTOC-Daten nach RDF sind an anderer Stelle beschrieben (Ledl & Voß 2016). Da Datenschema und Erfassungspraxis in den letzten Jahren erweitert wurden, waren die Einträge in BARTOC zu Beginn des Projektes nicht auf dem gleichen Stand.

2.2 Ergänzung und Aktualisierung

Zur besseren Übersicht diente eine Tabelle aller Einträge aus BARTOC, die nach KOS-Typ sortiert wurde. Ein Teil der Einträge wurde jeweils wöchentlich zugeteilt und der Reihe nach abgearbeitet. Im Rahmen des Projekts konnten so alle KOS-Typen bis auf List, Taxonomy und Ontology vollständig bearbeitet und auf einen qualitativ gleichwertigen Stand gebracht werden. Die Einträge vom Typ Ontology blieben ausgespart, da geplant ist, diese Datensätze in Zukunft aus dem Verzeichnis Linked Open Vocabularies (LOV)5 nach BARTOC zu übernehmen. Da viele relevante Felder bereits ausgefüllt waren, konzentrierte sich die Ergänzung und Aktualisierung vor allem auf die Abstracts, englische Titel, Links und Lizenzen. Alle URLs wurden auf ihre Aktualität hin geprüft. Sofern ein Link nicht mehr aktuell war, musste recherchiert werden, ob das jeweilige KOS noch existiert und ggf. unter einer anderen Adresse erreichbar ist. Bei den Lizenzen fiel auf, dass viele Webseiten dazu keine Angaben machen. Der Anteil von Einträgen, bei denen die Lizenz mit “unknown” gekennzeichnet werden mussten, blieb daher sehr hoch.

Im weiteren Verlauf der Arbeit fiel bei der Datenanalyse auf, dass die Angabe der Location zum Teil sowohl auf Deutsch als auch auf Englisch möglich war. Dies verfälschte nicht nur die Statistik, sondern war auch für Nutzerinnen und Nutzer nicht verständlich. Daher wurde für alle Einträge mit deutschsprachiger Location der entsprechende englische Wert eingetragen. Die deutschen Bezeichnungen wurden anschließend von Andreas Ledl entfernt. Außerdem wurde die Belegung der Felder Abstract und English Abstract so angepasst, dass bei bereits englischsprachigen KOS nicht mehr zwei identische Abstracts angezeigt werden. Wir vereinbarten dazu, das Feld Abstract nur für nicht-englische Abstracts zu belegen und stattdessen das Feld English Abstract immer auszufüllen.

2.3 Neuanlegen von Einträgen

Beim Anlegen neuer Einträge in BARTOC ist auf deutlich mehr zu achten als bei ihrer Ergänzung. Zuerst müssen Informationen recherchiert werden, die in der Quelle des KOS nicht gleich ersichtlich sind, z.B. Autor und/oder Herausgeber. Danach können alle relevanten Felder ausgefüllt werden. Zur Ermittlung passender DDC-Hauptklassen verwendeten wir WebDewey Search.6 Für den Autor oder Herausgeber muss zudem die entsprechende URI in VIAF nachgeschlagen und als Link in BARTOC eingetragen werden. In Wikidata muss überprüft werden, ob ein Artikel zum jeweiligen KOS vorhanden ist. Schließlich muss bei Neuanlegung eine Adresse ergänzt werden. Dafür wird zunächst das Land ausgewählt, danach die Adresse eingetragen und anschließend im Location-Feld die entsprechende Stadt aus einer Liste ausgewählt.

3 Analyse

In der ersten Präsenzveranstaltung wurde die Arbeitsgruppe zur Datenanalyse zunächst in zwei Untergruppen aufgeteilt: die eine Gruppe konzentrierte sich auf die Auswertung vergebener DDC-Notationen, während sich die andere mit der allgemeinen Auswertung vorhandener Datenfelder beschäftigte. Beide Auswertungen wurden anschließend zusammengeführt und ausgebaut.

3.1. Ablauf

Um die Datenanalyse gemeinsam durchführen zu können, wurde die BARTOC-Datenbank im CSV-Format heruntergeladen und in ein Google Sheets-Dokument übertragen. Eine vollständige Automatisierung dieses Verfahrens war leider aufgrund technischer Eigenheiten von Drupal und Google Sheets nicht möglich, sodass die Tabelle wöchentlich per Hand mit neuen CSV-Downloads aktualisiert werden musste. Alle weiteren Auswertungen fanden in eigenen Tabellenblättern im gemeinsamen Dokument statt (Abbildung 1). Zunächst mussten die Daten bereinigt und ergänzt werden. Dies beinhaltete die Ermittlung zunächst fehlender Felder im CSV-Export, das Aufsplitten von Feldern mit mehreren Werten und die Eliminierung von Dubletten. Nach einiger Einarbeitung in die Funktionen von Google Sheets konnten diese Schritte weitgehend automatisiert werden.

Abb. 1: Ablauf der Datenanalyse

3.1. Ergebnisse

Die Analyse bestand aus folgenden Tabellenblättern:

Fehlende Werte: Enthält eine Übersicht der belegten Felder (Tabelle 1)

DDC-Analyse: Zuordnung der Einträge nach Themengebieten (Abbildung 2). Neben den DDC-Hauptklassen wurden auch die Unterklassen bis zur dritten Ebene ausgewertet.

Abb. 2: Verteilung der Einträge auf DDC-Klassen der ersten Ebene

KOS-Typen: enthält die absoluten Zahlen und die Prozentzahlen der in BARTOC erfassten KOS-Typen (Tabelle 2). Die Liste entspricht den Typen der DCMI NKOS Task Group (2015). Zu beachten ist, dass Mehrfachnennungen möglich sind. Den größten Teil machen Klassifikationen, Ontologien und Thesauri mit je etwa 20 bis 30% aus.

KOS-Typ Anzahl Prozent
classification scheme 811 27,91%
ontology 709 24,40%
thesaurus 648 22,30%
glossary 230 7,91%
terminology 113 3,89%
taxonomy 90 3,10%
list 89 3,06%
subject heading scheme 67 2,31%
name authority list 66 2,27%
dictionary 61 2,10%
gazetteer 8 0,28%
categorization scheme 7 0,24%
semantic network 6 0,21%
synonym ring 1 0,03%

Tabelle 2: Anzahl der KOS nach Typen zum Ende des Projekt

Access: Der überwiegende Teil der Wissensorganisationssysteme ist frei zugänglich. Nur bei etwa 3% ist eine ggf. kostenpflichtige Registrierung erforderlich.

Lizenzen: Für rund 20% der Einträge konnten Lizenzangaben ermittelt werden, davon in 396 Fällen (64%) eine freie Lizenz (Creative Commons o.Ä.).

Location: Aus den Ortsangaben wurden die Länder extrahiert und in einem Flächenkartogramm auf einer Weltkarte dargestellt. Die extreme Verteilung mit Schwerpunkt auf USA und Europa erforderte eine logarithmierte Darstellung.

Abb. 3: Verteilung der verzeichneten Systeme auf Länder (logarithmierte Darstellung)

Languages: Insgesamt sind Einträge in 112 Sprachen verzeichnet, wobei Englisch, Deutsch, Französisch und Spanisch mit zusammen fast 60% mit Abstand am häufigsten vorkommen.

Date: Aus dem Eintragsdatum konnte das Wachstum von BARTOC rekonstruiert werden (Abbildung 4). Es zeigt sich ein kontinuierlicher Anstieg von durchschnittlich über 30 Systemen pro Monat und zusätzlichen einmaligen Eintragungen größerer Mengen wie die knapp 600 Ontologien aus Linked Open Vocabularies im Mai 2017.

Abb. 4: Wachstum der Einträge in BARTOC (Stand: 23.05.2017)

4 Präsentation

Zur Präsentation der Inhalte von BARTOC war zunächst geplant, einen Flyer und ein Poster als Informationsmaterial zu entwerfen. Die Intention dabei war, potentiellen Nutzerinnen und Nutzern einen allgemeinen Überblick zu verschaffen und die Reichweite von BARTOC zu erhöhen. Für dieses Vorhaben wurde zunächst der englischsprachige Wikipedia-Artikel über BARTOC ins Deutsche übersetzt und in die deutschsprachige Wikipedia eingetragen.7

Als weitere Aufgabe kam die Gestaltung eines neuen Logos für BARTOC hinzu. Diese Teilaufgabe konnte in wenigen Wochen mit dem in Abbildung 5 dargestellten Ergebnis abgeschlossen werden. Zudem wurde vom Logo ein Favicon für die BARTOC-Homepage abgeleitet.

Abb. 5: Neues BARTOC-Logo

Für den Flyer und das Plakat wurden zunächst ein grobes Layout erstellt und parallel dazu mögliche Inhalte geplant und gesammelt. Dazu gehörten neben Texten auch Grafiken, die einen Einblick in Inhalte und Struktur von BARTOC geben sollten. Die sich dabei ergebenden Anforderungen für die Datenauswertung wurden an die Analyse-Gruppe zur Erarbeitung weitergegeben. Die Arbeit der Präsentations-Gruppe konzentrierte sich zunächst auf die Gestaltung des Flyers (Abbildung 6).8

Abb. 6: Flyer zur Präsentation von BARTOC

Im Laufe des Projekts wurden einzelne Ergebnisse der Analyse mit Mitteln der Informationsvisualisierung grafisch dargestellt. Viele Visualisierungen mussten wieder verworfen werden, weil das Datenmaterial zu einseitig war und damit keine sinnvolle Umsetzung ermöglichte. So war beispielsweise ein Balken-aus-Kreis-Diagramm für die verzeichneten Themengebiete geplant, um die Sozialwissenschaften weiter aufzuschlüsseln, zu denen es die meisten Einträge in BARTOC gibt. Auch die Zugriffsmöglichkeiten (etwa 70% frei) und die verwendeten Lizenzen der erfassten KOS (etwa 85% unbekannt) boten sich für eine praktikable Visualisierung nicht an.

Die letztendlich für den Flyer und weitere Präsentationen fertiggestellten Grafiken bestehen aus einem Balkendiagramm für die verzeichneten Themengebiete (Abbildung 2), einem Flächenkartogramm mit den logarithmierten Einträgen pro Land (Abbildung 3) und einem Liniendiagramm, das die Zunahme der Einträge im zeitlichen Verlauf zeigt (Abbildung 4).

Eine gewisse Zeit und Arbeit nahm das Ausprobieren mehrerer Varianten für die Weltkarte in Anspruch. Prinzipiell sollten sich die Länder im Flächenkartogramm automatisch aus den Ergebnissen der Datenanalyse einfärben lassen. Die Analyse mit Google Sheets musste allerdings im Laufe des Projekts mehrmals angepasst werden, sodass für die Erstellung einer vollautomatischen Lösung letztlich nicht genügend Zeit blieb.

In der zweiten Projekthälfte wurde entschieden, das Plakat zugunsten eines Projektberichts in Form des vorliegenden Fachartikels aufzugeben. Dies bot sich auch an, weil wir den Stand des Projekts zur Projekthalbzeit bereits in einem informellen Zwischenbericht zusammengefasst hatten. Abschließend wurde eine 5-minütige Präsentation des gesamten Projekts für die gemeinsame Abschlussveranstaltung an der Hochschule Hannover erstellt.

5 Zusammenfassung und Bewertung

Das Basel Register of Thesauri, Ontologies & Classifications (BARTOC) bietet eine gute Grundlage für Übersichten von Wissensorganisationssystemen. Das Ziel des von März bis Juni 2017 an der Hochschule Hannover durchgeführten Projektes konnte daher gut erreicht werden. Die dazu notwendige Arbeit bestand im Wesentlichen aus einer Revision der Inhalte von BARTOC, einer Analyse der Datensätze mit Google Sheets und der Erstellung von Informationsmaterial. Die Ergebnisse sind im vorliegenden Artikel und in einem eigenen Code-Repository verfügbar.9 Zunächst wurde ein deutscher Wikipedia-Artikel zu BARTOC erstellt und das alte Logo durch ein neues mit Favicon ersetzt. Während der Projektphase wurden ein interner Zwischenbericht zur Projektarbeit verfasst und verschiedene Grafiken und Statistiken erstellt. Die Texte und Grafiken bildeten die Grundlage für einen Flyer mit den wichtigsten Informationen zu BARTOC. Abschließend wurde eine kurze Präsentation zum Projekt erstellt und vorgetragen.

Zu Beginn des Projekts bestanden noch einige Unklarheiten, die jedoch bald geklärt werden konnten. Die notwendigen Fähigkeiten zur Datenbereinigung, Tabellenkalkulation und Statistik mussten wir uns teilweise erst im Laufe des Projekts aneignen, sodass an einigen Stellen mehrfach Hand angelegt werden musste. Auch im Bereich der Präsentation war zunächst eine Einarbeitung in unterschiedliche Werkzeuge (Bildbearbeitung, Layout etc.) notwendig. Der Lerneffekt – insbesondere im Umgang mit Google Sheets zur Datenanalyse – war dafür umso größer, auch wenn sich nicht alle Prozesse automatisieren ließen.

Im Laufe des Projekts konnten so alle Übersichten rechtzeitig fertiggestellt und eine bedeutende Zahl von Einträgen in BARTOC verbessert werden (siehe Tabelle 1). Dass bei der Erschließung nicht für alle wesentlichen Felder 100% erreicht wurden, liegt im Wesentlichen daran, dass Ontologien ausgeklammert wurden und sich Informationen zu einigen Wissensorganisationssystemen nur schwer ermitteln ließen. Insgesamt war das Projekt für BARTOC wie für die Studierenden ein Gewinn und konnte mit sehr zufriedenstellenden Ergebnissen abgeschlossen werden.

Quellen

Balakrishnan, Uma; Agne, Jana (11.08.2016): Umfrage zur Sacherschließung und Konkordanzprojekten 2016. coli-con report 6. Zugriff am 18.09.2017. Verfügbar unter: http://coli-conc.gbv.de/publications/Umfrageergebnisse.pdf.

DVMI NKOS Task Group (2015): KOS Types Vocabulary. Zugriff am 18.09.2017. Verfügbar unter: https://github.com/dcmi/archive/blob/master/mediawiki_wiki/DCMI_NKOS_Task_Group.md#NKOS_Vocabularies.

Ledl, Andreas (11.05.2017): BARTOC und coli-conc. Internetarchäologie und Zukunftsforschung zum Verhältnis zweier Projekte. Präsentiert auf dem Subject Indexing & Information Technology Workshop, Göttingen. Zugriff am 18.09.2017. Verfügbar unter: https://si-it-workshop.gbv.de/wp-content/uploads/2017/01/Ledl_Vortrag_SI_IT_Goettingen.pdf.

Ledl, Andreas; Voß, Jakob (2016): Describing Knowledge Organization Systems in BARTOC and JSKOS. In: Erdman Thomsen, Hanne; Pareja-Lora, Antonio; Madsen, Bodil Nistrup: Term Bases And Linguistic Linked Open Data. Frederiksberg: Copenhagen Business School, S. 168-178. Zugriff am 18.09.2017. Verfügbar unter: http://openarchive.cbs.dk/handle/10398/9323.

AutorInnen

Jakob Voß, Verbundzentrale des GBV, Platz der Göttinger Sieben 1, D-37073 Göttingen jakob.voss@gbv.de

Laura Bode, Hochschule Hannover

Diana Hamasur, Hochschule Hannover

dianadb@web.de

Laura Isbanner, Hochschule Hannover

Jan Jäger, Hochschule Hannover

jan.jaeger@stud.hs-hannover.de

Ebru Kurtar, Hochschule Hannover

ebru-kilinc@hotmail.de

Kim Peters, Hochschule Hannover

Melis Rufaioglu, Hochschule Hannover

melis_rufaioglu@gmx.de

Christian Schneevogt, Hochschule Hannover

Romy Stelter, Hochschule Hannover

Jennifer Wiegand, Hochschule Hannover

Ann Christin Wild, Hochschule Hannover

Remziye Yildirimer, Hochschule Hannover

remziye.yildirimer94@gmail.com