Ontologiemetriken zur Datenqualitätsverbesserung

Authors: 
Cherix, Didier
Year: 
2013
Language: 
German
Abstract: 
Die Datenqualität ist ein weitreichendes Thema. Bei vielen Anwendun- gen und Verfahren spielt sie eine große Rolle. Semantic Web ist da kei- ne Ausnahme. Die Vollständigkeit, Fehlerfreiheit und Genauigkeit der Daten ist maßgebend für die Qualität des Ergebnisses. Im Semantic Web sind Ontologien die wichtigsten Datenquellen. Deswegen ist es wesent- lich, diese auf ihre Datenqualität untersuchen zu können. In dieser Ar- beit stellen wir ein Verfahren vor, um die Datenqualität einer Ontologie zu überprüfen und potentielle Fehler zu erkennen. Als erstes zeigen wir, wie aus einer Startmenge an fehlerhaften Daten (Goldstandard) andere Fehlerquellen gefunden werden können. Mit Hilfe von Clustern erweitern wir einen Goldstandard, um neue Fehler zu finden. Mit Hilfe dieser Verfahren konnten fehlerhafte Daten in DBpedia wiedergefun- den werden. Da ein solcher Goldstandard nicht immer existiert, zeigen wir Metho- den, um Fehlerquellen ohne ihn zu finden. Die verschiedenen Verfah- ren liefern eine Menge an potentiell fehlerhaften Daten. Diese Daten sollen per Hand evaluiert werden und daraus die nötigen Regeln oder Tests abgeleitet werden. Mit diesen Verfahren konnte ein hoher Recall an fehlerhafte Daten erzielt werden. Außerdem zeigen wir Fälle, die von anderen Verfahren unter anderem Databugger [41], nicht erkannt werden.
AttachmentSize
thesis.pdf1.21 MB