004 Datenverarbeitung; Informatik
Filtern
Erscheinungsjahr
Dokumenttyp
- Ausgabe (Heft) zu einer Zeitschrift (14)
- Dissertation (6)
- Studienarbeit (5)
- Diplomarbeit (3)
- Masterarbeit (3)
- Bachelorarbeit (2)
- Habilitation (1)
Schlagworte
- Semantic Web (3)
- ontology (3)
- Linked Open Data (2)
- Maschinelles Lernen (2)
- OWL (2)
- OWL <Informatik> (2)
- Ontology (2)
- RDF <Informatik> (2)
- SPARQL (2)
- mobile phone (2)
Institut
- Institute for Web Science and Technologies (34) (entfernen)
Das Web ist ein wesentlicher Bestandteil der Transformation unserer Gesellschaft in das digitale Zeitalter. Wir nutzen es zur Kommunikation, zum Einkaufen und für unsere berufliche Tätigkeit. Der größte Teil der Benutzerinteraktion im Web erfolgt über Webseiten. Daher sind die Benutzbarkeit und Zugänglichkeit von Webseiten relevante Forschungsbereiche, um das Web nützlicher zu machen. Eyetracking ist ein Werkzeug, das in beiden Bereichen hilfreich sein kann. Zum einen um Usability-Tests durchzuführen, zum anderen um die Zugänglichkeit zu verbessern. Es kann verwendet werden, um die Aufmerksamkeit der Benutzer auf Webseiten zu verstehen und Usability-Experten in ihrem Entscheidungsprozess zu unterstützen. Darüber hinaus kann Eyetracking als Eingabemethode zur Steuerung einer Webseite verwendet werden. Dies ist besonders nützlich für Menschen mit motorischen Beeinträchtigungen, die herkömmliche Eingabegeräte wie Maus und Tastatur nicht benutzen können. Allerdings werden Webseiten aufgrund von Dynamiken, d. h. wechselnden Inhalten wie animierte Menüs und Bilderkarussells, immer komplexer. Wir brauchen allgemeine Ansätze zum Verständnis der Dynamik auf Webseiten, die eine effiziente Usability-Analyse und eine angenehme Interaktion mit Eyetracking ermöglichen. Im ersten Teil dieser Arbeit berichten wir über unsere Forschung zur Verbesserung der blickbasierten Analyse von dynamischen Webseiten. Eyetracking kann verwendet werden, um die Blicke von Nutzern auf Webseiten zu erfassen. Die Blicke zeigen einem Usability-Experten, welche Teile auf der Webseite gelesen, überflogen oder übersprungen worden sind. Die Aggregation von Blicken ermöglicht einem Usability-Experten allgemeine Eindrücke über die Aufmerksamkeit der Nutzer, bevor sie sich mit dem individuellen Verhalten befasst. Dafür müssen alle Blicke entsprechend des von den Nutzern erlebten Inhalten verstanden werden. Die Benutzererfahrung wird jedoch stark von wechselnden Inhalten beeinflusst, da diese einen wesentlichen Teil des angezeigten Bildes ausmachen können. Wir grenzen unterschiedliche Zustände von Webseiten inklusive wechselnder Inhalte ab, so dass Blicke von mehreren Nutzern korrekt aggregiert werden können. Im zweiten Teil dieser Arbeit berichten wir über unsere Forschung zur Verbesserung der blickbasierten Interaktion mit dynamischen Webseiten. Eyetracking kann verwendet werden, um den Blick während der Nutzung zu erheben. Der Blick kann als Eingabe zur Steuerung einer Webseite interpretiert werden. Heutzutage wird die Blicksteuerung meist zur Emulation einer Maus oder Tastatur verwendet, was eine komfortable Bedienung erschwert. Es gibt wenige Webbrowser-Prototypen, die Blicke direkt zur Interaktion mit Webseiten nutzen. Diese funktionieren außerdem nicht auf dynamischen Webseiten. Wir haben eine Methode entwickelt, um Interaktionselemente wie Hyperlinks und Texteingaben effizient auf Webseiten mit wechselnden Inhalten zu extrahieren. Wir passen die Interaktion mit diesen Elementen für Eyetracking an, so dass ein Nutzer bequem und freihändig im Web surfen kann. Beide Teile dieser Arbeit schließen mit nutzerzentrierten Evaluationen unserer Methoden ab, wobei jeweils die Verbesserungen der Nutzererfahrung für Usability-Experten bzw. für Menschen mit motorischen Beeinträchtigungen untersucht werden.
Graph-based data formats are flexible in representing data. In particular semantic data models, where the schema is part of the data, gained traction and commercial success in recent years. Semantic data models are also the basis for the Semantic Web - a Web of data governed by open standards in which computer programs can freely access the provided data. This thesis is concerned with the correctness of programs that access semantic data. While the flexibility of semantic data models is one of their biggest strengths, it can easily lead to programmers accidentally not accounting for unintuitive edge cases. Often, such exceptions surface during program execution as run-time errors or unintended side-effects. Depending on the exact condition, a program may run for a long time before the error occurs and the program crashes.
This thesis defines type systems that can detect and avoid such run-time errors based on schema languages available for the Semantic Web. In particular, this thesis uses the Web Ontology Language (OWL) and its theoretic underpinnings, i.e., description logics, as well as the Shapes Constraint Language (SHACL) to define type systems that provide type-safe data access to semantic data graphs. Providing a safe type system is an established methodology for proving the absence of run-time errors in programs without requiring execution. Both schema languages are based on possible world semantics but differ in the treatment of incomplete knowledge. While OWL allows for modelling incomplete knowledge through an open-world semantics, SHACL relies on a fixed domain and closed-world semantics. We provide the formal underpinnings for type systems based on each of the two schema languages. In particular, we base our notion of types on sets of values which allows us to specify a subtype relation based on subset semantics. In case of description logics, subsumption is a routine problem. For
the type system based on SHACL, we are able to translate it into a description
logic subsumption problem.
Social-Media Plattformen wie Twitter oder Reddit bieten Nutzern nahezu ohne Beschränkungen die Möglichkeit, ihre Meinungen über aktuelle Ereignisse zu veröffentlichen, diese mit anderen zu teilen und darüber zu diskutieren. Während die Mehrheit der Nutzer diese Plattformen nur als reines Diskussionsportal verwenden, gibt es jedoch Nutzergruppen, welche aktiv und gezielt versuchen, diese veröffentlichten Meinungen in ihrem Sinne zu beeinflussen bzw. zu manipulieren. Durch wiederholtes Verbreiten von bearbeiteten Fake-News oder stark polarisierenden Meinungen im gesamten politischen Spektrum können andere Nutzer beeinflusst, manipuliert und unter Umständen zum Träger von Hassreden und extremen politischen Positionen werden. Viele dieser Nutzergruppen sind vor allem in englischsprachigen Portalen anzutreffen, in denen sie sich überwiegend als Muttersprachler ausgeben. In dieser Arbeit stellen wir eine Methode vor, englische Muttersprachler und Nicht-Muttersprachler, die Englisch als Fremdsprache verwenden, anhand von ausgewählten englischen Social Media Texten zu unterscheiden. Dazu implementieren wir textmerkmalbasierte Modelle, welche für traditionelle Machine-Learning Prozesse und neuartigen AutoML-Pipelines zur Klassifizierung von Texten verwendet werden. Wir klassifizieren dabei Sprachfamilie, Muttersprache und Ursprung eines beliebigen englischen Textes. Die Modelle werden an einem bestehenden Datensatz von Reddit, welcher hauptsächlich aus englischen Texten von europäischen Nutzern besteht, und einem neu erstellten Twitter Datensatz, der Tweets von aktuellen Themen in verschiedenen Ländern enthält, angewandt. Wir evaluieren dabei vergleichsweise die erhaltenen Resultate unserer Pipeline zu traditionellen Maschinenlernprozessen zur Texterkennung anhand von Präzision, Genauigkeit und F1-Maßen der Vorhersagen. Wir vergleichen zudem die Ergebnisse auf Unterschiede der Sprachnutzung auf den unterschiedlichen Plattformen sowie den ausgewählten Themenbereichen. Dabei erzielen wir eine hohe Vorhersagewahrscheinlichkeit für alle gewählten Kategorien des erstellten Twitter Datensatzes und stellen unter anderem eine hohe Abweichung in Bezug auf die durchschnittliche Textlänge insbesondere bei Nutzern aus dem baltoslawischen Sprachraum fest.
Current political issues are often reflected in social media discussions, gathering politicians and voters on common platforms. As these can affect the public perception of politics, the inner dynamics and backgrounds of such debates are of great scientific interest. This thesis takes user generated messages from an up-to-date dataset of considerable relevance as Time Series, and applies a topic-based analysis of inspiration and agenda setting to it. The Institute for Web Science and Technologies of the University Koblenz-Landau has collected Twitter data generated beforehand by candidates of the European Parliament Election 2019. This work processes and analyzes the dataset for various properties, while focusing on the influence of politicians and media on online debates. An algorithm to cluster tweets into topical threads is introduced. Subsequently, Sequential Association Rules are mined, yielding wide array of potential influence relations between both actors and topics. The elaborated methodology can be configured with different parameters and is extensible in functionality and scope of application.
The content aggregator platform Reddit has established itself as one of the most popular websites in the world. However, scientific research on Reddit is hindered as Reddit allows (and even encourages) user anonymity, i.e., user profiles do not contain personal information such as the gender. Inferring the gender of users in large-scale could enable the analysis of gender-specific areas of interest, reactions to events, and behavioral patterns. In this direction, this thesis suggests a machine learning approach of estimating the gender of Reddit users. By exploiting specific conventions in parts of the website, we obtain a ground truth for more than 190 million comments of labeled users. This data is then used to train machine learning classifiers to use them to gain insights about the gender balance of particular subreddits and the platform in general. By comparing a variety of different approaches for classification algorithm, we find that character-level convolutional neural network achieves performance with an 82.3% F1 score on a task of predicting a gender of a user based on his/her comments. The score surpasses 85% mark for frequent users with more than 50 comments. Furthermore, we discover that female users are less active on Reddit platform, they write fewer comments and post in fewer subreddits on average, when compared to male users.
“Did I say something wrong?” A word-level analysis of Wikipedia articles for deletion discussions
(2016)
Diese Arbeit beschäftigt sich damit, linguistische Erkenntnisse auf Wortebene über schriftlichen Diskussionen zu gewinnen. Die Unterscheidung zwischen Botschaften, welche sich förderlich auf Diskussionen auswirken und jene, welche diese unterbrechen, spielte dabei eine besondere Rolle. Hierbei lag ein Schwerpunkt darauf, zu ermitteln, ob Ich- und Du-Botschaften charakteristisch für die beiden Kommunikationsarten sind. Diese Botschaften sind über Jahre hinweg zu Empfehlungen für erfolgreiche Kommunikation avanciert. Ihre zugeschriebene Wirkung wurde zwar mehrfach bestätigt, jedoch geschah dies stets in kleineren Studien. Deshalb wurde in dieser Arbeit mithilfe der Löschdiskussionen der englischen Wikipedia und der Liste gesperrter Nutzer eine vollautomatische Erstellung eines annotierten Datensatzes entwickelt. Dabei wurden Diskussionsbotschaften entweder als förderlich oder schädlich für einen konstruktiven Diskussionsverlauf markiert. Dieser Datensatz wurde anschließend im Rahmen einer binären Klassifikation verwendet, um charakteristische Worte für die beiden Kommunikationsarten zu bestimmen. Es wurde zudem untersucht, ob anhand von Synsemantika (auch bekannt als Funktionswörter) wie Pronomen oder Konjunktionen eine Entscheidung über die Kommunikationsart einer Botschaft getroffen werden kann. Du-Botschaften wurden, übereinstimmend mit ihrer zugeschriebenen negativen Auswirkung auf Kommunikation, als schädlich in den durchgeführten Untersuchungen identifiziert. Entgegen der zugeschriebenen positiven Auswirkung von Ich-Botschaften, wurde bei diesen ebenfalls eine schädlich Wirkung festgestellt. Eine klare Aussage über die Relevanz von Synsemantika konnte anhand der Ergebnisse nicht getroffen werden. Weitere charakteristische Worte konnten nicht festgestellt werden. Die Ergebnisse deuten darauf hin, dass ein anderes Modell textliche Diskussionen potentiell besser abbilden könnte.
This habilitation thesis collects works addressing several challenges on handling uncertainty and inconsistency in knowledge representation. In particular, this thesis contains works which introduce quantitative uncertainty based on probability theory into abstract argumentation frameworks. The formal semantics of this extension is investigated and its application for strategic argumentation in agent dialogues is discussed. Moreover, both the computational as well as the meaningfulness of approaches to analyze inconsistencies, both in classical logics as well as logics for uncertain reasoning is investigated. Finally, this thesis addresses the implementation challenges for various kinds of knowledge representation formalisms employing any notion of inconsistency tolerance or uncertainty.
Viele Menschen kommunizieren und interagieren zunehmend über soziale Online-Netzwerke wie Twitter oder Facebook, oder tauschen Meinungen mit Freunden oder auch Fremden aus. Durch die zunehmende Verfügbarkeit des Internets wird auch Wissen für immer mehr Menschen offen verfügbar gemacht. Beispiele hierfür sind die Online-Enzyklopädie Wikipedia oder auch die vielfältigen Informationen in diversen Webforen und Webseiten. Diese zwei Netzwerkkategorien - Soziale Netzwerke und Wissensnetzwerke - verändern sich sehr schnell. Fast sekündlich befreunden sich neue Nutzer in sozialen Netzwerken und Wikipedia-Artikel werden überarbeitet und neu mit anderen Artikeln verlinkt. Diese Änderungen an der Verlinkung von Menschen oder Wissensbausteinen folgen bestimmten strukturellen Regeln und Charakteristiken, die weit weniger zufällig sind als man zunächst annehmen würde.
Das Ziel dieser Doktorarbeit ist es, drei charakteristische Verlinkungsmuster in diesen zwei Netzwerkkategorien vorherzusagen: das Hinzufügen von neuen Verlinkungen, das Entfernen bestehender Verbindungen und das Vorhandensein von latent negativen Verlinkungen. Zunächst widmen wir uns dem relativ neuen Problem der Vorhersage von Entlinkungen in einem Netzwerk. Hierzu gibt es zahlreiche soziologische Vorarbeiten, die nahelegen, dass die Ursachen zur Entstehung von Beziehungsabbrüchen komplementär zu den Gründen für neue Beziehungen sind. Obwohl diese Arbeiten eine strukturelle Ähnlichkeit der Probleme vermuten lassen, zeigen wir, dass beide Probleme nicht komplementär zueinander sind. Insbesondere zeigen wir, dass das dynamische Zusammenspiel von neuen Verlinkungen und Entlinkungen in Netzwerken durch die vier Zustände des Wachstums, des Zerfalls, der Stabilität und der Instabilität charakterisiert ist. Für Wissensnetzwerke zeigen wir, dass die Vorhersagbarkeit von Entlinkungen deutlich verbessert wird, wenn zeitliche Informationen wie der Zeitpunkt von einzelnen Netzwerkergeignissen mit genutzt werden. Wir präsentieren und evaluieren hierfür insgesamt vier verschiedene Strategien, die von zeitlichen Informationen Gebrauch machen. Für soziale Netzwerke analysieren wir, welche strukturellen Einflussfaktoren zur Entstehung und Löschung von Links zwischen Benutzern in Twitter indikativ sind. Auch hier zeigt sich, dass zeitliche Informationen darüber, dass eine Kante schon einmal gelöscht wurde, die Vorhersagbarkeit von Verlinkungen und insbesondere Entlinkungen enorm verbessert. Im letzten Teil der Doktorarbeit zeigen wir, wie negative Beziehungen (beispielsweise Misstrauen oder Feindschaft) aus positiven Beziehungen zwischen Nutzern (etwa Vertrauen und Freundschaft) abgeleitet werden können. Dies ist besonders relevant für Netzwerke, in denen nur positive Beziehungen kenntlich gemacht werden können. Für dieses Szenario zeigen wir, wie latent negative Beziehungen zwischen Nutzern dennoch erkannt werden können.
Mit der zunehmenden Verbreitung digitaler Kameras nimmt die Anzahl der aufgenommen Fotos drastisch zu. Fotos werden sowohl für den privaten Gebrauch aufgenommen und auf eigenen Festplatten gespeichert, als auch im Internet verbreitet. Die Verwaltung dieser großen Datenmengen stellt eine Herausforderung dar, bei der Benutzer zunehmend unterstützt werden müssen. Die automatische Analyse von Bildinhalten anhand von Algorithmen ist ein ungelöstes Problem und kann kaum die Bedürfnisse menschlicher Nutzer erfüllen. Daher werden häufig Metainformationen genutzt, um z.B. abgebildete Szenen textuell zu beschreiben oder Bewertungen zu Fotos zu speichern. Im Rahmen dieser Arbeit wird untersucht, wie diese Metainformationen ohne zusätzlichen Aufwand für Benutzer generiert werden können. Dazu werden Augenbewegungen von Benutzern mit einem Eyetrackinggerät erfasst und die daraus abgeleitete visuelle Aufmerksamkeit als Informationsquelle genutzt.
Aufgrund von fallenden Hardwarepreisen bei gleichzeitig zunehmender Konkurrenz sind die Preise für Eyetracker in den letzten Jahren stark gefallen und ihre Bedienbarkeit wurde vereinfacht. Es wird angenommen, dass die Erfassung von Blickdaten bald mit alltäglichen Geräten wie Laptops möglich sein wird, während Benutzer z.B. verschiedenen Beschäftigungen mit digitalen Bildern nachgehen. Die Auswertung dieser Blickinformationen erlaubt es, Informationen ohne zusätzlichen Aufwand für den Menschen bereitzustellen.
Im ersten Teil dieser Arbeit wird untersucht, ob durch die Auswertung von Blickinformationen, Schlagworte Bildregionen zugewiesen werden können, mit dem Ziel abgebildete Szenen zu beschreiben. Insgesamt wurden drei Experimente durchgeführt um die Qualität der Beschreibungen zu untersuchen. Im ersten Experiment entschieden Teilnehmer durch das Drücken bestimmter Tasten, ob ein gegebenes Objekt auf einem Foto zu sehen war. In der zweiten Studie suchten Benutzer mit einer simulierten Bildersuche nach Fotos von bestimmten Objekten. Im dritten Experiment klassifizierten Benutzer Fotos bezüglich gegebener Objektnamen in einem eyetracking-gesteuerten Spiel. In jedem Experiment wurden die Augenbewegungen aufgezeichnet und die Objektnamen bzw. Suchbegriffe entsprechenden Bildregionen zugeordnet. Die Ergebnisse zeigen, dass in den verschiedenen Anwendungen Bildinhalte durch Blickpfadanalysen sinnvoll beschrieben werden können. Im zweiten Teil wird die Identifizierung von interessanten Fotos in einer Sammlung von Fotos anhand von Blickbewegungen erforscht, mit dem Ziel, Benutzern individuelle Fotoauswahlen anzubieten, nachdem sie Fotos in einer Sammlung betrachtet haben. Durch den Vergleich der unter Einbeziehung der visuellen Aufmerksamkeit automatisch erstellten Auswahlen mit manuell von den Benutzer erstellten Auswahlen, wird das Potential von Blickinformation in der Erkennung wichtiger Fotos deutlich.
Die Ergebnisse dieser Arbeit zeigen das große und bisher ungenutzte Potential der impliziten Nutzung von Blickdaten. Es kann von menschlichen Fähigkeiten profitiert werden, besonders dort, wo Algorithmen die menschliche Wahrnehmung noch lange nicht simulieren können.
The way information is presented to users in online community platforms has an influence on the way the users create new information. This is the case, for instance, in question-answering fora, crowdsourcing platforms or other social computation settings. To better understand the effects of presentation policies on user activity, we introduce a generative model of user behaviour in this paper. Running simulations based on this user behaviour we demonstrate the ability of the model to evoke macro phenomena comparable to the ones observed on real world data.