Filtern
Erscheinungsjahr
Dokumenttyp
- Dissertation (11)
- Masterarbeit (7)
- Habilitation (1)
Sprache
- Englisch (19) (entfernen)
Schlagworte
- 2019 European Parliament Election (1)
- Articles for Deletion (1)
- Association Rules (1)
- Data Mining (1)
- Enhanced Representation (1)
- Eye Tracking (1)
- Formale Ontologie (1)
- Function Words (1)
- GazeTheWeb (1)
- Handsfree editing (1)
Institut
Folksonomien sind Web 2.0 Plattformen, in denen Benutzer verschiedene Inhalte miteinander teilen können. Die Inhalte können mit Hilfe von Stichwörtern, den sogenannten Tags, kategorisiert und organisiert werden. Die verschiedenen Folksonomien unterstützen unterschiedliche Inhaltstypen wie zum Beispiel Webseiten (Delicious), Bilder (Flickr) oder Videos (YouTube). Aufgrund ihrer einfachen Benutzungsweise haben Folksonomien viele Millionen Benutzer. Die einfache Benutzungsweise führt aber auch zu einigen Problemen. Diese Doktorarbeit beschäftigt sich mit drei der wichtigsten Probleme und beschreibt Methoden, wie sie gelöst werden können. Das erste dieser Probleme tritt auf, wenn Benutzer die Folksonomien nach bestimmten Inhalten durchsuchen wollen. Häufig können dabei nicht alle relevanten Inhalte gefunden werden, da diesen relevante Stichwörter fehlen. Dementsprechend tritt das zweite Problem während der Vergabe von Stichwörtern auf. Manche Folksonomien, wie zum Beispiel Delicious, unterstützen ihre Benutzer dabei, indem sie ihnen mögliche Stichwörter empfehlen. Andere Folksonomien, wie zum Beispiel Flickr, bieten keine solche Unterstützung. Die Empfehlung von Stichwörtern hilft dem Benutzer dabei, Inhalte auf einfache Art und Weise mit den jeweils relevanten Stichwörtern zu versehen. Das dritte Problem besteht darin, dass weder Stichwörter noch Inhalte mit einer festen Semantik versehen sind und mehrdeutig sein können. Das Problem entsteht dadurch, dass die Benutzer die Stichwörter vollkommen frei rnverwenden können. Die automatische Identifizierung der Semantik von Stichwörtern und Inhalten hilft dabei, die dadurch entstehenden Probleme zu reduzieren. Diese Doktorarbeit stellt mehrere Methoden vor, wie verschiedene Quellen für semantische Informationen benutzt werden können, um die vorher genannten drei Probleme zu lösen. In dieser Doktorarbeit benutzen wir als Quellen Internetsuchmaschinen, soziale Netzwerke im Internet und die gemeinsamen Vorkommen von Stichwörtern in Folksonomien. Die Verwendung der verschiedenen Quellen reduziert den Aufwand bei der Erstellung von Systemen, die die vorher genannten Probleme lösen. Die vorgestellten Methoden wurden auf einem großen Datensatz evaluiert. Die erzielten Ergebnisse legen nahe, dass semantische Informationen bei der Lösung der Probleme helfen, die während der Suche von Inhalten, der Empfehlung von Stichwörtern als auch der automatischen Identifizierung der Semantik von Stichwörtern und Inhalten auftreten.
Knowledge-based authentication methods are vulnerable to Shoulder surfing phenomenon.
The widespread usage of these methods and not addressing the limitations it has could result in the user’s information to be compromised. User authentication method ought to be effortless to use and efficient, nevertheless secure.
The problem that we face concerning the security of PIN (Personal Identification Number) or password entry is shoulder surfing, in which a direct or indirect malicious observer could identify the user sensitive information. To tackle this issue we present TouchGaze which combines gaze signals and touch capabilities, as an input method for entering user’s credentials. Gaze signals will be primarily used to enhance targeting and touch for selecting. In this work, we have designed three different PIN entry method which they all have similar interfaces. For the evaluation, these methods were compared based on efficiency, accuracy, and usability. The results uncovered that despite the fact that gaze-based methods require extra time for the user to get familiar with yet it is considered more secure. In regards to efficiency, it has the similar error margin to the traditional PIN entry methods.
The Web contains some extremely valuable information; however, often poor quality, inaccurate, irrelevant or fraudulent information can also be found. With the increasing amount of data available, it is becoming more and more difficult to distinguish truth from speculation on the Web. One of the most, if not the most, important criterion used to evaluate data credibility is the information source, i.e., the data origin. Trust in the information source is a valuable currency users have to evaluate such data. Data popularity, recency (or the time of validity), reliability, or vagueness ascribed to the data may also help users to judge the validity and appropriateness of information sources. We call this knowledge derived from the data the provenance of the data. Provenance is an important aspect of the Web. It is essential in identifying the suitability, veracity, and reliability of information, and in deciding whether information is to be trusted, reused, or even integrated with other information sources. Therefore, models and frameworks for representing, managing, and using provenance in the realm of Semantic Web technologies and applications are critically required. This thesis highlights the benefits of the use of provenance in different Web applications and scenarios. In particular, it presents management frameworks for querying and reasoning in the Semantic Web with provenance, and presents a collection of Semantic Web tools that explore provenance information when ranking and updating caches of Web data. To begin, this thesis discusses a highly exible and generic approach to the treatment of provenance when querying RDF datasets. The approach re-uses existing RDF modeling possibilities in order to represent provenance. It extends SPARQL query processing in such a way that given a SPARQL query for data, one may request provenance without modifying it. The use of provenance within SPARQL queries helps users to understand how RDF facts arederived, i.e., it describes the data and the operations used to produce the derived facts. Turning to more expressive Semantic Web data models, an optimized algorithm for reasoning and debugging OWL ontologies with provenance is presented. Typical reasoning tasks over an expressive Description Logic (e.g., using tableau methods to perform consistency checking, instance checking, satisfiability checking, and so on) are in the worst case doubly exponential, and in practice are often likewise very expensive. With the algorithm described in this thesis, however, one can efficiently reason in OWL ontologies with provenance, i.e., provenance is efficiently combined and propagated within the reasoning process. Users can use the derived provenance information to judge the reliability of inferences and to find errors in the ontology. Next, this thesis tackles the problem of providing to Web users the right content at the right time. The challenge is to efficiently rank a stream of messages based on user preferences. Provenance is used to represent preferences, i.e., the user defines his preferences over the messages' popularity, recency, etc. This information is then aggregated to obtain a joint ranking. The aggregation problem is related to the problem of preference aggregation in Social Choice Theory. The traditional problem formulation of preference aggregation assumes a I fixed set of preference orders and a fixed set of domain elements (e.g. messages). This work, however, investigates how an aggregated preference order has to be updated when the domain is dynamic, i.e., the aggregation approach ranks messages 'on the y' as the message passes through the system. Consequently, this thesis presents computational approaches for online preference aggregation that handle the dynamic setting more efficiently than standard ones. Lastly, this thesis addresses the scenario of caching data from the Linked Open Data (LOD) cloud. Data on the LOD cloud changes frequently and applications relying on that data - by pre-fetching data from the Web and storing local copies of it in a cache - need to continually update their caches. In order to make best use of the resources (e.g., network bandwidth for fetching data, and computation time) available, it is vital to choose a good strategy to know when to fetch data from which data source. A strategy to cope with data changes is to check for provenance. Provenance information delivered by LOD sources can denote when the resource on the Web has been changed last. Linked Data applications can benefit from this piece of information since simply checking on it may help users decide which sources need to be updated. For this purpose, this work describes an investigation of the availability and reliability of provenance information in the Linked Data sources. Another strategy for capturing data changes is to exploit provenance in a time-dependent function. Such a function should measure the frequency of the changes of LOD sources. This work describes, therefore, an approach to the analysis of data dynamics, i.e., the analysis of the change behavior of Linked Data sources over time, followed by the investigation of different scheduling update strategies to keep local LOD caches up-to-date. This thesis aims to prove the importance and benefits of the use of provenance in different Web applications and scenarios. The exibility of the approaches presented, combined with their high scalability, make this thesis a possible building block for the Semantic Web proof layer cake - the layer of provenance knowledge.
Die weltweite Vernetzung von semantischen Information schreitet stetig voran und erfährt mit der Linked Data Initiative immer mehr Aufmerksamkeit. Bei Linked Data werden verschiedene Datensätze aus unterschiedlichen Domänen und von diversen Anbietern in einem einheitlichen Format (RDF) zur Verfügung gestellt und miteinander verknüpft. Strukturell ist das schnell wachsende Linked Data Netzwerk sehr ähnlich zum klassischen World Wide Web mit seinen verlinkten HTML Seiten. Bei Linked Data handelt es sich jedoch um URI-referenzierte Entitäten, deren Eigenschaften und Links durch RDF-Triple ausgedrückt werden. Neben dem Dereferenzieren von URIs besteht mit SPARQL auch die Möglichkeit, ähnlich wie bei Datenbanken, komplexe algebraische Anfragen zu formulieren und über sogenannte SPARQL Endpoints auf einer Datenquelle auswerten zu lassen. Eine SPARQL Anfrage über mehrere Linked Data Quellen ist jedoch kompliziert und bedarf einer föderierten Infrastruktur in der mehrere verteilte Datenquellen integriert werden, so dass es nach außen wie eine einzige große Datenquelle erscheint. Die Föderation von Linked Data hat viele Ähnlichkeiten mit verteilten und föderierten Datenbanken. Es gibt aber wichtige Unterschiede, die eine direkte Adpation von bestehenden Datenbanktechnologien schwierig machen. Dazu gehört unter anderem die große Anzahl heterogener Datenquellen in der Linked Data Cloud, Beschränkungen von SPARQL Endpoints, und die teils starke Korrelation in den RDF Daten. Daher befasst sich die vorliegende Arbeit primär mit der Optimierung von verteilten SPARQL Anfragen auf föderierten RDF Datenquellen. Die Grundlage dafür ist SPLENDID, ein effizientes Optimierungverfahren für die Ausführung von verteilten SPARQL Anfragen in einer skalierbaren und flexiblen Linked Data Föderationsinfrastruktur. Zwei Aspekte sind dabei besonders wichtig: die automatische Auswahl von passenden Datenquellen für beliebige SPARQL Anfragen und die Berechnung des optimalen Ausführungsplans (Join Reihenfolge) basierend auf einem Kostenmodell. Die dafür erforderlichen statistischen Information werden mit Hilfe von VOID-basierten Datenquellenbeschreibungen zur Verfügung gestellt. Darüberhinaus wird auch des Management verteilter statistischer Daten untersucht und eine Benchmark-Methodologie
Ontologien sind wichtige Werkzeuge zur Wissensrepräsentation und elementare Bausteine des Semantic Web. Sie sind jedoch nicht statisch und können sich über die Zeit verändern. Die Gründe hierfür sind vielfältig: Konzepte innerhalb einer Ontologie können fehlerhaft modelliert worden sein, die von der Ontologie repräsentierte Domäne kann sich verändern oder eine Ontologie kann wiederverwendet werden und muss an den neuen Kontext angepasst oder mit bestehenden Ontologien verbunden werden. Die Schwierigkeit dieses Prozesses hat zur Entstehung des Forschungsfeldes der Ontology Change geführt. Das Entfernen von Wissen aus Ontologien ist ein wichtiger Aspekt dieses Änderungsprozesses, da selbst das Hinzufügen neuen Wissens zu einer Ontologie das Entfernen bestehenden Wissens notwendig machen kann, falls dieses mit den neuen Vorstellungen in Konflikt steht. Dieses Entfernen muss jedoch wohldurchdacht sein, da das Ändern bestehender Konzepte leicht zu viel Wissen aus der Ontologie entfernen oder die semantische Bedeutung der Konzepte auf eine potenziell unerwartete Weise verändern kann. In dieser Arbeit wird daher ein formaler Operator zum präzisen Entfernen von Wissen aus Konzepten vorgestellt. Dieser basiert auf der Beschreibungslogik EL und baut partiell auf den Postulaten für Belief Set und Belief Base Contraction sowie der Arbeit von Suchanek et al. auf. Hierfür wird zunächst ein Einstieg in das Thema Ontologien und die Ontologiesprache OWL 2 gegeben und das Problemfeld der Ontology Change wird erläutert. Es wird dann gezeigt, wie ein formaler Operator diesen Prozess unterstützen kann und weshalb die Beschreibungslogik EL einen guten Ausgangspunkt für die Entwicklung eines solchen Operators darstellt. Anschließend wird ein Einblick in das Feld der Beschreibungslogiken gegeben. Hierfür wird die Geschichte der Beschreibungslogik kurz umrissen, Anwendungsgebiete werden genannt und es werden Standardprobleme in dieser Logik erläutert. In diesem Zusammenhang wird die Beschreibungslogik EL formal eingeführt. In einem nächsten Schritt werden verwandte Arbeiten untersucht und es wird gezeigt, warum das Recovery- und Relevance-Postulat für das Entfernen von Wissen aus Konzepten nicht unmittelbar anwendbar ist. Die hier gewonnenen Erkenntnisse werden anschließend dazu genutzt, die Anforderungen an den Operator zu formalisieren. Diese basieren hauptsächlich auf den Postulaten für Belief Set und Belief Base Contraction. Zusätzlich werden weitere Eigenschaften formuliert welche den Verlust des Recovery- bzw. Relevance-Postulates ausgleichen sollen. In einem nächsten Schritt wird der Operator definiert und es wird gezeigt, dass diese Definition das präzise Entfernen von Wissen aus EL-Konzepten gestattet. Mittels formaler Beweise wird zudem gezeigt, dass diese Definition alle zuvor aufgestellten Anforderungen erfüllt. In einem weiteren Beispiel wird dargestellt, wie der Operator in Verbindung mit sogenannten Laconic Justifications verwendet werden kann, um einen menschlichen Ontology-Editor durch das automatisierte Entfernen von unerwünschten Konsequenzen aus der Ontologie zu unterstützen. Aufbauend auf Algorithmen, welche aus der formalen Definition des Operators abgeleitet wurden, wird ein Plugin zum Entfernen von Wissen aus Ontologien für den Ontology-Editor Protégé vorgestellt. Anschließend werden die bisherigen Erkenntnisse zusammengefasst und es wird ein Fazit gezogen. Die Arbeit schließt mit einem Ausblick über mögliche zukünftige Forschung.
The distributed setting of RDF stores in the cloud poses many challenges. One such challenge is how the data placement on the compute nodes can be optimized to improve the query performance. To address this challenge, several evaluations in the literature have investigated the effects of existing data placement strategies on the query performance. A common drawback in theses evaluations is that it is unclear whether the observed behaviors were caused by the data placement strategies (if different RDF stores were evaluated as a whole) or reflect the behavior in distributed RDF stores (if cloud processing frameworks like Hadoop MapReduce are used for the evaluation). To overcome these limitations, this thesis develops a novel benchmarking methodology for data placement strategies that uses a data-placement-strategy-independent distributed RDF store to analyze the effect of the data placement strategies on query performance.
With this evaluation methodology the frequently used data placement strategies have been evaluated. This evaluation challenged the commonly held belief that data placement strategies that emphasize local computation, such as minimal edge-cut cover, lead to faster query executions. The results indicate that queries with a high workload may be executed faster on hash-based data placement strategies than on, e.g., minimal edge-cut covers. The analysis of the additional measurements indicates that vertical parallelization (i.e., a well-distributed workload) may be more important than horizontal containment (i.e., minimal data transport) for efficient query processing.
Moreover, to find a data placement strategy with a high vertical parallelization, the thesis tests the hypothesis that collocating small connected triple sets on the same compute node while balancing the amount of triples stored on the different compute nodes leads to a high vertical parallelization. Specifically, the thesis proposes two such data placement strategies. The first strategy called overpartitioned minimal edge-cut cover was found in the literature and the second strategy is the newly developed molecule hash cover. The evaluation revealed a balanced query workload and a high horizontal containment, which lead to a high vertical parallelization. As a result these strategies showed a better query performance than the frequently used data placement strategies.
This thesis presents novel approaches for integrating context information into probabilistic models. Data from social media is typically associated with metadata, which includes context information such as timestamps, geographical coordinates or links to user profiles. Previous studies showed the benefits of using such context information in probabilistic models, e.g.\ improved predictive performance. In practice, probabilistic models which account for context information still play a minor role in data analysis. There are multiple reasons for this. Existing probabilistic models often are complex, the implementation is difficult, implementations are not publicly available, or the parameter estimation is computationally too expensive for large datasets. Additionally, existing models are typically created for a specific type of content and context and lack the flexibility to be applied to other data.
This thesis addresses these problems by introducing a general approach for modelling multiple, arbitrary context variables in probabilistic models and by providing efficient inference schemes and implementations.
In the first half of this thesis, the importance of context and the potential of context information for probabilistic modelling is shown theoretically and in practical examples. In the second half, the example of topic models is employed for introducing a novel approach to context modelling based on document clusters and adjacency relations in the context space. They can cope with areas of sparse observations and These models allow for the first time the efficient, explicit modelling of arbitrary context variables including cyclic and spherical context (such as temporal cycles or geographical coordinates). Using the novel three-level hierarchical multi-Dirichlet process presented in this thesis, the adjacency of ontext clusters can be exploited and multiple contexts can be modelled and weighted at the same time. Efficient inference schemes are derived which yield interpretable model parameters that allow analyse the relation between observations and context.
Das Web ist ein wesentlicher Bestandteil der Transformation unserer Gesellschaft in das digitale Zeitalter. Wir nutzen es zur Kommunikation, zum Einkaufen und für unsere berufliche Tätigkeit. Der größte Teil der Benutzerinteraktion im Web erfolgt über Webseiten. Daher sind die Benutzbarkeit und Zugänglichkeit von Webseiten relevante Forschungsbereiche, um das Web nützlicher zu machen. Eyetracking ist ein Werkzeug, das in beiden Bereichen hilfreich sein kann. Zum einen um Usability-Tests durchzuführen, zum anderen um die Zugänglichkeit zu verbessern. Es kann verwendet werden, um die Aufmerksamkeit der Benutzer auf Webseiten zu verstehen und Usability-Experten in ihrem Entscheidungsprozess zu unterstützen. Darüber hinaus kann Eyetracking als Eingabemethode zur Steuerung einer Webseite verwendet werden. Dies ist besonders nützlich für Menschen mit motorischen Beeinträchtigungen, die herkömmliche Eingabegeräte wie Maus und Tastatur nicht benutzen können. Allerdings werden Webseiten aufgrund von Dynamiken, d. h. wechselnden Inhalten wie animierte Menüs und Bilderkarussells, immer komplexer. Wir brauchen allgemeine Ansätze zum Verständnis der Dynamik auf Webseiten, die eine effiziente Usability-Analyse und eine angenehme Interaktion mit Eyetracking ermöglichen. Im ersten Teil dieser Arbeit berichten wir über unsere Forschung zur Verbesserung der blickbasierten Analyse von dynamischen Webseiten. Eyetracking kann verwendet werden, um die Blicke von Nutzern auf Webseiten zu erfassen. Die Blicke zeigen einem Usability-Experten, welche Teile auf der Webseite gelesen, überflogen oder übersprungen worden sind. Die Aggregation von Blicken ermöglicht einem Usability-Experten allgemeine Eindrücke über die Aufmerksamkeit der Nutzer, bevor sie sich mit dem individuellen Verhalten befasst. Dafür müssen alle Blicke entsprechend des von den Nutzern erlebten Inhalten verstanden werden. Die Benutzererfahrung wird jedoch stark von wechselnden Inhalten beeinflusst, da diese einen wesentlichen Teil des angezeigten Bildes ausmachen können. Wir grenzen unterschiedliche Zustände von Webseiten inklusive wechselnder Inhalte ab, so dass Blicke von mehreren Nutzern korrekt aggregiert werden können. Im zweiten Teil dieser Arbeit berichten wir über unsere Forschung zur Verbesserung der blickbasierten Interaktion mit dynamischen Webseiten. Eyetracking kann verwendet werden, um den Blick während der Nutzung zu erheben. Der Blick kann als Eingabe zur Steuerung einer Webseite interpretiert werden. Heutzutage wird die Blicksteuerung meist zur Emulation einer Maus oder Tastatur verwendet, was eine komfortable Bedienung erschwert. Es gibt wenige Webbrowser-Prototypen, die Blicke direkt zur Interaktion mit Webseiten nutzen. Diese funktionieren außerdem nicht auf dynamischen Webseiten. Wir haben eine Methode entwickelt, um Interaktionselemente wie Hyperlinks und Texteingaben effizient auf Webseiten mit wechselnden Inhalten zu extrahieren. Wir passen die Interaktion mit diesen Elementen für Eyetracking an, so dass ein Nutzer bequem und freihändig im Web surfen kann. Beide Teile dieser Arbeit schließen mit nutzerzentrierten Evaluationen unserer Methoden ab, wobei jeweils die Verbesserungen der Nutzererfahrung für Usability-Experten bzw. für Menschen mit motorischen Beeinträchtigungen untersucht werden.
Commonsense reasoning can be seen as a process of identifying dependencies amongst events and actions. Understanding the circumstances surrounding these events requires background knowledge with sufficient breadth to cover a wide variety of domains. In the recent decades, there has been a lot of work in extracting commonsense knowledge, a number of these projects provide their collected data as semantic networks such as ConceptNet and CausalNet. In this thesis, we attempt to undertake the Choice Of Plausible Alternatives (COPA) challenge, a problem set with 1000 questions written in multiple-choice format with a premise and two alternative choices for each question. Our approach differs from previous work by using shortest paths between concepts in a causal graph with the edge weight as causality metric. We use CausalNet as primary network and implement a few design choices to explore the strengths and drawbacks of this approach, and propose an extension using ConceptNet by leveraging its commonsense knowledge base.