Dissertation
Filtern
Dokumenttyp
- Dissertation (2) (entfernen)
Sprache
- Englisch (2) (entfernen)
Institut
- Fachbereich 4 (2) (entfernen)
Soziale Netzwerke sind allgegenwärtige Strukturen, die wir jeden Tag generieren und bereichern, während wir uns über Plattformen der sozialen Medien, E-Mails und jede andere Art von Interaktion mit Menschen verbinden. Während diese Strukturen für uns nicht greifbar sind, sind sie sehr wichtige Informationsträger. Zum Beispiel kann die politische Neigung unserer Freunde ein Näherungswert sein, um unsere eigenen politischen Präferenzen zu identifizieren. Gleichermaßen
kann die Kreditwürdigkeit unserer Freunde entscheidend bei der Gewährung oder Ablehnung unserer eigenen Kredite sein. Diese Erklärungskraft wird bei der Gesetzgebung, bei Unternehmensentscheidungen und in der Forschung genutzt, da sie maschinellen Lerntechniken hilft, genaue Vorhersagen zu treffen. Diese Verallgemeinerungen kommen jedoch häufig nur der Mehrheit der Menschen zugute, welche die allgemeine Struktur des Netzwerks prägen, und benachteiligen unterrepräsentierte Gruppen, indem sie ihre Mittel und Möglichkeiten begrenzen. Daher ist es wichtig zuerst zu verstehen, wie sich soziale Netzwerke bilden, um dann zu überprüfen, inwieweit ihre Mechanismen der Kantenbildung dazu beitragen, soziale Ungleichheiten in Algorithmen des maschinellen Lernens zu verstärken.
Zu diesem Zweck schlage ich im ersten Teil dieser Arbeit HopRank und Janus vor, zwei Methoden um die Mechanismen der Kantenbildung in realen ungerichteten sozialen Netzwerken zu charakterisieren. HopRank ist ein Modell der Daten-Hamsterei in Netzwerken. Sein Schlüsselkonzept ist ein gezinkter zufälliger Wanderer, der auf Übergangswahrscheinlichkeiten zwischen K-Hop-Nachbarschaften basiert. Janus ist ein Bayessches Rahmenwerk, mit dem wir plausible Hypothesen der Kantenbildung in Fällen identifizieren und bewerten können, in denen Knoten zusätzliche Daten enthalten. Im zweiten Teil dieser Arbeit untersuche ich die Auswirkungen dieser Mechanismen - welche die Kantenbildung in sozialen Netzwerken erklären - auf das maschinelle Lernen. Insbesondere untersuche ich den Einfluss von Homophilie, bevorzugter Bindung, Kantendichte, Anteil von Minderheiten und der Richtung von Verbindungen sowohl auf Leistung als auch auf systematische Fehler von kollektiver Klassifizierung und auf die Sichtbarkeit von Minderheiten in Top-K-Rängen. Meine Ergebnisse zeigen eine starke Korrelation zwischen der Netzwerkstruktur und den Ergebnissen des maschinellen Lernens. Dies legt nahe, dass die systematische Diskriminierung spezieller Personen: (i) durch den Netzwerktyp vorweggenommen und (ii) durch strategisches Verbinden im Netzwerk verhindert werden kann.
Semantic-Web-Technologien haben sich als Schlüssel für die Integration verteilter und heterogener Datenquellen im Web erwiesen, da sie die Möglichkeit bieten, typisierte Verknüpfungen zwischen Ressourcen auf dynamische Weise und nach den Prinzipien von sogenannten Dataspaces zu definieren. Die weit verbreitete Einführung dieser Technologien in den letzten Jahren führte zu einer großen Menge und Vielfalt von Datensätzen, die als maschinenlesbare RDF-Daten veröffentlicht wurden und nach ihrer Verknüpfung das sogenannte Web of Data bilden. Angesichts des großen Datenumfangs werden diese Verknüpfungen normalerweise durch Berechnungsmethoden generiert, den Inhalt von RDF-Datensätzen analysieren und die Entitäten und Schemaelemente identifizieren, die über die Verknüpfungen verbunden werden sollen. Analog zu jeder anderen Art von Daten müssen Links die Kriterien für Daten hoher Qualität erfüllen (z. B. syntaktisch und semantisch genau, konsistent, aktuell), um wirklich nützlich und leicht zu konsumieren zu sein. Trotz der Fortschritte auf dem Gebiet des maschinellen Lernens ist die menschliche Intelligenz für die Suche nach qualitativ hochwertigen Verbindungen nach wie vor von entscheidender Bedeutung: Menschen können Algorithmen trainieren, die Ausgabe von Algorithmen in Bezug auf die Leistung validieren, und auch die resultierenden Links erweitern. Allerdings sind Menschen – insbesondere erfahrene Menschen – nur begrenzt verfügbar. Daher kann die Ausweitung der Datenqualitätsmanagementprozesse von Dateneigentümern/-verlegern auf ein breiteres Publikum den Lebenszyklus des Datenqualitätsmanagements erheblich verbessern.
Die jüngsten Fortschritte bei Human Computation und bei Peer-Production-Technologien eröffneten neue Wege für Techniken zur Verwaltung von Mensch-Maschine-Daten, die es ermöglichten, Nicht-Experten in bestimmte Aufgaben einzubeziehen und Methoden für kooperative Ansätze bereitzustellen. Die in dieser Arbeit vorgestellten Forschungsarbeiten nutzen solche Technologien und untersuchen Mensch-Maschine-Methoden, die das Management der Verbindungsqualität im Semantic Web erleichtern sollen. Zunächst wird unter Berücksichtigung der Dimension der Verbindungsgenauigkeit eine Crowdsourcing Methode zur Ontology Alignment vorgestellt. Diese Methode, die auch auf Entitäten anwendbar ist, wird als Ergänzung zu automatischen Ontology Alignment implementiert. Zweitens werden neuartige Maßnahmen zur Dimension des Informationsgewinns eingeführt, die durch die Verknüpfungen erleichtert werden. Diese entropiezentrierten Maßnahmen liefern Datenmanagern Informationen darüber, inwieweit die Entitäten im verknüpften Datensatz Informationen in Bezug auf Entitätsbeschreibung, Konnektivität und Schemaheterogenität erhalten. Drittens wenden wir Wikidata - den erfolgreichsten Fall eines verknüpften Datensatzes, der von einer Gemeinschaft von Menschen und Bots kuratiert, verknüpft und verwaltet wird - als Fallstudie an und wenden deskriptive und prädiktive Data Mining-Techniken an, um die Ungleichheit der Teilnahme und den Nutzerschwung zu untersuchen. Unsere Ergebnisse und Methoden können Community-Managern helfen, Entscheidungen darüber zu treffen, wann/wie mit Maßnahmen zur Nutzerbindung eingegriffen werden soll. Zuletzt wird eine Ontologie zur Modellierung der Geschichte der Crowd-Beiträge auf verschiedenen Marktplätzen vorgestellt. Während der Bereich des Mensch-Maschine-Datenmanagements komplexe soziale und technische Herausforderungen mit sich bringt, zielen die Beiträge dieser Arbeit darauf ab, zur Entwicklung dieses noch aufstrebenden Bereichs beizutragen.