• search hit 1 of 1
Back to Result List

Cultural neighbourhoods, or approaches to quantifying cultural contextualisation in multilingual knowledge repository Wikipedia

  • As a multilingual system,Wikipedia provides many challenges for academics and engineers alike. One such challenge is cultural contextualisation of Wikipedia content, and the lack of approaches to effectively quantify it. Additionally, what seems to lack is the intent of establishing sound computational practices and frameworks for measuring cultural variations in the data. Current approaches seem to mostly be dictated by the data availability, which makes it difficult to apply them in other contexts. Another common drawback is that they rarely scale due to a significant qualitative or translation effort. To address these limitations, this thesis develops and tests two modular quantitative approaches. They are aimed at quantifying culture-related phenomena in systems which rely on multilingual user-generated content. In particular, they allow to: (1) operationalise a custom concept of culture in a system; (2) quantify and compare culture-specific content- or coverage biases in such a system; and (3) map a large scale landscape of shared cultural interests and focal points. Empirical validation of these approaches is split into two parts. First, an approach to mapping Wikipedia communities of shared co-editing interests is validated on two large Wikipedia datasets comprising multilateral geopolitical and linguistic editor communities. Both datasets reveal measurable clusters of consistent co-editing interest, and computationally confirm that these clusters correspond to existing colonial, religious, socio economic, and geographical ties. Second, an approach to quantifying content differences is validated on a multilingual Wikipedia dataset, and a multi-platform (Wikipedia and Encyclopedia Britannica) dataset. Both are limited to a selected knowledge domain of national history. This analysis allows, for the first time on the large scale, to quantify and visualise the distribution of historical focal points in the articles on national histories. All results are cross-validated either by domain experts, or external datasets. Main thesis contributions. This thesis: (1) presents an effort to formalise the process of measuring cultural variations in user-generated data; (2) introduces and tests two novel approaches to quantifying cultural contextualisation in multilingual data; (3) synthesises a valuable overview of literature on defining and quantifying culture; (4) provides important empirical insights on the effect of culture on Wikipedia content and coverage; demonstrates that Wikipedia is not contextfree, and these differences should not be treated as noise, but rather, as an important feature of the data. (5) makes practical service contributions through sharing data and visualisations.
  • Als mehrsprachiges System stelltWikipedia viele Herausforderungen sowohl an Akademiker als auch an Ingenieure. Eine dieser Herausforderungen ist die kulturelle Kontextualisierung der Wikipedia-Inhalte und der Mangel an Ansätzen zu ihrer effektiven Quantifizierung. Außerdem scheint es an der Absicht zu fehlen, solide Berechnungspraktiken und Rahmenbedingungen für die Messung kultureller Variationen in dem Datenmaterial zu schaffen. Die derzeitigen Ansätze scheinen hauptsächlich von der Datenverfügbarkeit diktiert zu werden, was ihre Anwendung in anderen Kontexten erschwert. Ein weiterer häufiger Nachteil ist, dass sie aufgrund eines erheblichen qualitativen oder Übersetzungsaufwands selten skalieren. Um diesen Einschränkungen zu begegnen, werden in dieser Arbeit zwei modulare quantitative Ansätze entwickelt und getestet. Sie zielen darauf ab, kulturbezogene Phänomene in Systemen zu quantifizieren, die auf mehrsprachigem, nutzergeneriertem Inhalt beruhen. Insbesondere ermöglichen sie es: (1) einen benutzerdefinierten Kulturbegriff in einem System zu operationalisieren; (2) kulturspezifische Inhalts- oder Abdeckungsverzerrungen in einem solchen System zu quantifizieren und zu vergleichen; und (3) eine großräumige Landschaft mit gemeinsamen kulturellen Interessen und Schwerpunkten abzubilden. Die empirische Validierung dieser Ansätze ist in zwei Teile gegliedert. Erstens wird ein Ansatz zur Kartierung von Wikipedia-Gemeinschaften mit gemeinsamen redaktionellen Interessen auf zwei großenWikipedia Datensätzen validiert, die multilaterale geopolitische und sprachliche Redakteursgemeinschaften umfassen. Beide Datensätze zeigen messbare Cluster von konsistenten Mitredaktionsinteressen und bestätigen rechnerisch, dass diese Cluster mit bestehenden kolonialen, religiösen, sozioökonomischen und geographischen Bindungen übereinstimmen. Zweitens wird ein Ansatz zur Quantifizierung von Inhaltsunterschieden anhand eines mehrsprachigen Wikipedia-Datensatzes und eines Multiplattform-Datensatzes (Wikipedia und Encyclopedia Britannica) validiert. Beide sind auf einen ausgewählten Wissensbereich der Nationalgeschichte beschränkt. Diese Analyse ermöglicht es erstmals im großen Maßstab, die Verteilung der historischen Schwerpunkte in den Artikeln zur Nationalgeschichte zu quantifizieren und zu visualisieren. Alle Ergebnisse werden entweder von Fachexperten oder von externen Datensätzen kreuzvalidiert. Die wichtigsten Beiträge der Dissertation. Diese Dissertation: (1) stellt einen Versuch dar, den Prozess der Messung kultureller Variationen in nutzergeneriertem Datenmaterial zu formalisieren; (2) stellt zwei neue Ansätze zur Quantifizierung der kulturellen Kontextualisierung in mehrsprachigem Datenmaterial vor und testet sie; (3) schafft einen wertvollen Überblick über die Literatur zur Definition und Quantifizierung von Kultur; (4) liefert wichtige empirische Erkenntnisse über die Wirkung von Kultur auf den Inhalt und die Abdeckung von Wikipedia; zeigt, dass Wikipedia nicht kontextfrei ist, und dass diese Unterschiede nicht als Rauschen, sondern als ein wichtiges Merkmal des Datenmaterials behandelt werden sollten. (5) leistet einen praktischen Beitrag durch das Teilen von Datenmaterial und Visualisierungen.

Download full text files

Export metadata

Additional Services

Share in Twitter Search Google Scholar
Metadaten
Author:Anna Samoilenko
URN:urn:nbn:de:kola-22065
Referee:Steffen Staab
Document Type:Doctoral Thesis
Language:English
Date of completion:2021/06/30
Date of publication:2021/06/30
Publishing institution:Universität Koblenz-Landau, Universitätsbibliothek
Granting institution:Universität Koblenz-Landau, Campus Koblenz, Fachbereich 4
Date of final exam:2021/06/16
Release Date:2021/06/30
Number of pages:viii, 134
Institutes:Fachbereich 4 / Institute for Web Science and Technologies
Licence (German):License LogoEs gilt das deutsche Urheberrecht: § 53 UrhG