Institute for Web Science and Technologies
Refine
Year of publication
Document Type
- Master's Thesis (19)
- Part of Periodical (15)
- Doctoral Thesis (11)
- Study Thesis (5)
- Bachelor Thesis (3)
- Diploma Thesis (3)
- Habilitation (1)
Keywords
- Semantic Web (3)
- ontology (3)
- Linked Open Data (2)
- Maschinelles Lernen (2)
- OWL (2)
- OWL <Informatik> (2)
- Ontology (2)
- RDF <Informatik> (2)
- SPARQL (2)
- mobile phone (2)
Institute
Navigation is a natural way to explore and discover content in a digital environment. Hence, providers of online information systems such as Wikipedia---a free online encyclopedia---are interested in providing navigational support to their users. To this end, an essential task approached in this thesis is the analysis and modeling of navigational user behavior in information networks with the goal of paving the way for the improvement and maintenance of web-based systems. Using large-scale log data from Wikipedia, this thesis first studies information access by contrasting search and navigation as the two main information access paradigms on the Web. Second, this thesis validates and builds upon existing navigational hypotheses to introduce an adaptation of the well-known PageRank algorithm. This adaptation is an improvement of the standard PageRank random surfer navigation model that results in a more "reasonable surfer" by accounting for the visual position of links, the information network regions they lead to, and the textual similarity between the link source and target articles. Finally, using agent-based simulations, this thesis compares user models that have a different knowledge of the network topology in order to investigate the amount and type of network topological information needed for efficient navigation. An evaluation of agents' success on four different networks reveals that in order to navigate efficiently, users require only a small amount of high-quality knowledge of the network topology. Aside from the direct benefits to content ranking provided by the "reasonable surfer" version of PageRank, the empirical insights presented in this thesis may also have an impact on system design decisions and Wikipedia editor guidelines, i.e., for link placement and webpage layout.
Die nächste Generation des World Wide Web, das Semantic Web, erlaubt Benutzern, Unmengen an Informationen über die Grenzen von Webseiten und Anwendungen hinaus zu veröffentlichen und auszutauschen. Die Prinzipien von Linked Data beschreiben Konventionen, um diese Informationen maschinenlesbar zu veröffentlichen. Obwohl es sich aktuell meist um Linked Open Data handelt, deren Verbreitung nicht beschränkt, sondern explizit erwünscht ist, existieren viele Anwendungsfälle, in denen der Zugriff auf Linked Data in Resource Description Framework (RDF) Repositories regelbar sein soll. Bisher existieren lediglich Ansätze für die Lösung dieser Problemstellung, weshalb die Veröffentlichung von vertraulichen Inhalten mittels Linked Data bisher nicht möglich war.
Aktuell können schützenswerte Informationen nur mit Hilfe eines externen Betreibers kontrolliert veröffentlicht werden. Dabei werden alle Daten auf dessen System abgelegt und verwaltet. Für einen wirksamen Schutz sind weitere Zugriffsrichtlinien, Authentifizierung von Nutzern sowie eine sichere Datenablage notwendig.
Beispiele für ein solches Szenario finden sich bei den sozialen Netzwerken wie Facebook oder StudiVZ. Die Authentifizierung aller Nutzer findet über eine zentrale Webseite statt. Anschließend kann beispielsweise über eine Administrationsseite der Zugriff auf Informationen für bestimmte Nutzergruppen definiert werden. Trotz der aufgezeigten Schutzmechanismen hat der Betreiber selbst immer Zugriff auf die Daten und Inhalte aller Nutzer.
Dieser Zustand ist nicht zufriedenstellend.
Die Idee des Semantic Webs stellt einen alternativen Ansatz zur Verfügung. Der Nutzer legt seine Daten an einer von ihm kontrollierten Stelle ab, beispielsweise auf seinem privaten Server. Im Gegensatz zum zuvor vorgestellten Szenario ist somit jeder Nutzer selbst für Kontrollmechanismen wie Authentifizierung und Zugriffsrichtlinien verantwortlich.
Innerhalb der vorliegenden Arbeit wird ein Framework konzeptioniert und entworfen, welches es mit Hilfe von Regeln erlaubt, den Zugriff auf RDF-Repositories zu beschränken. In Kapitel 2 werden zunächst die bereits existierenden Ansätze für die Zugriffssteuerung vertraulicher Daten im Sematic Web vorgestellt. Des Weiteren werden in Kapitel 3 grundlegende Mechanismen und Techniken erläutert, welche in dieser Arbeit Verwendung finden. In Kapitel 4 wird die Problemstellung konkretisiert und anhand eines Beispielszenarios analysiert.
Nachdem Anforderungen und Ansprüche erhoben sind, werden in Kapitel 6 verschiedene Lösungsansätze, eine erste Implementierung und ein Prototyp vorgestellt. Abschließend werden die Ergebnisse der Arbeit und die resultierenden Ausblicke in Kapitel 7 zusammengefasst.
This thesis focuses on approximate inference in assumption-based argumentation frameworks. Argumentation provides a significant idea in the computerization of theoretical and practical reasoning in AI. And it has a close connection with AI, engaging in arguments to perform scientific reasoning. The fundamental approach in this field is abstract argumentation frameworks developed by Dung. Assumption-based argumentation can be regarded as an instance of abstract argumentation with structured arguments. When facing a large scale of data, a challenge of reasoning in assumption-based argumentation is how to construct arguments and resolve attacks over a given claim with minimal cost of computation and acceptable accuracy at the same time. This thesis proposes and investigates approximate methods that randomly select and construct samples of frameworks based on graphical dispute derivations to solve this problem. The presented approach aims to improve reasoning performance and get an acceptable trade-off between computational time and accuracy. The evaluation shows that for reasoning in assumption-based argumentation, in general, the running time is reduced with the cost of slightly low accuracy by randomly sampling and constructing inference rules for potential arguments over a query.
Der Idee des Semantic Desktop liegen die gleichen Konzepte zugrunde wie dem Semantic Web mit dem Unterschied, dass sie nun auf die Applikationen und Daten eines durchschnittlichen Desktops angewendet werden. Insbesondere geht es darum, die unterschiedlichen Sichten auf Daten, die durch unterschiedliche Anwendungen erzeugt werden, über eine kontextübergreifende Beschreibung zu integrieren. Z.B. können sich zwei Programme darin unterscheiden, dass eine E-Mail-Adresse in dem einen als aktiver Link dargestellt wird, über den sich direkt eine E-Mail versenden lässt, in dem anderen aber lediglich als Zeichenkette. In der angestrebten idealen Welt des Semantic Desktop würde diese Adresse unabhängig von ihrem Anzeigekontext auch als solche erkannt und behandelt. Ziel der Arbeit ist die Entwicklung einer Integrationsmöglichkeit, die es Applikationen erlaubt, Informationen über ihre Inhalte auszutauschen. Hierzu werden zunächst die Anforderungen an die zu erarbeitende Kommunikationskomponente aufgeführt und daraus das technische Umfeld abgeleitet. Dabei wird vor allem auf die einzusetzenden Technologien eingegangen, und die angewendeten Konzepte werden erläutert. Die Entwicklung und Beschreibung einer Testanwendung schließen den technischen Teil ab. Zuletzt wird die gesamte Entwicklung kritisch diskutiert und ein Ausblick auf mögliche fortführende Entwicklungen geboten.
The purpose of this thesis is to explore the sentiment distributions of Wikipedia concepts.
We analyse the sentiment of the entire English Wikipedia corpus, which includes 5,669,867 articles and 1,906,375 talks, by using a lexicon-based method with four different lexicons.
Also, we explore the sentiment distributions from a time perspective using the sentiment scores obtained from our selected corpus. The results obtained have been compared not only between articles and talks but also among four lexicons: OL, MPQA, LIWC, and ANEW.
Our findings show that among the four lexicons, MPQA has the highest sensitivity and ANEW has the lowest sensitivity to emotional expressions. Wikipedia articles show more sentiments than talks according to OL, MPQA, and LIWC, whereas Wikipedia talks show more sentiments than articles according to ANEW. Besides, the sentiment has a trend regarding time series, and each lexicon has its own bias regarding text describing different things.
Moreover, our research provides three interactive widgets for visualising sentiment distributions for Wikipedia concepts regarding the time and geolocation attributes of concepts.
Graphs are known to be a good representation of structured data. TGraphs, which are typed, attributed, ordered, and directed graphs, are a very general kind of graphs that can be used for many domains. The Java Graph Laboratory (JGraLab) provides an efficient implementation of TGraphs with all their properties. JGraLab ships with many features, including a query language (GReQL2) for extracting data from a graph. However, it lacks a generic library for important common graph algorithms. This mid-study thesis extends JGraLab with a generic algorithm library called Algolib, which provides a generic and extensible implementation of several important common graph algorithms. The major aspects of this work are the generic nature of Algolib, its extensibility, and the methods of software engineering that were used for achieving both. Algolib is designed to be extensible in two ways. Existing algorithms can be extended for solving specialized problems and further algorithms can be easily added to the library.
In this article we analyze the privacy aspects of a mobile sensor application used for recording urban travel patterns as part of a travel-survey service. This service has been developed and field-tested within the Live+Gov EU Project. The privacy analysis follows a structured approach established in. Eight privacy recommendations are derived, and have already led to corresponding enhancements of the travel-survey service.