Dynamische Aktualitätsbewertung von statistischen Informationen bei der Optimierung föderierter SPARQL-Queries auf veränderlichen Datenquellen
- Ein neueres Thema innerhalb des Forschungsbereichs Semantic Web behandelt die Verarbeitung von Anfragen über Linked Open Data (LOD). Wie in der Literatur bereits diskutiert wurde, lässt sich der losen Zergliederung innerhalb des "Web of Data" und dessen Datenquellen durch moderne föderierte Verarbeitungsstrategien bezüglich eingehender Anfragen begegnen. Dieser Ansatz ist jedoch umso mehr abhängig von aktuellen statistischen Informationen (Datenstatistiken) über sämtliche der benutzten Datenquellen einerseits, und genauen Schätzungen von Kardinalitäten und Selektivitäten andererseits. Da föderierte Datenquellen im Allgemeinen keine Auskunft über die Statistik der von ihnen verwalteten Daten geben, schlagen sich Änderungen an diesen Daten nicht automatisch in den zentralen Datenstatistikkatalogen nieder - die verwalteten Datenstatistiken werden obsolet. In der vorliegenden Arbeit wird die Erweiterung eines RDF-basierten Query-Federators beschrieben, die die Obsoleszenz von zentral verwalteten Datenstatistiken beurteilen und eine gegebenenfalls notwendige Aktualisierung einzelner Datenstatistiken unternehmen können soll. Als Grundlage dazu dient die Beobachtung auftretender Fehler in der Kardinalitätsschätzung ausgewerteter Queries. Eine Evaluation des Systems wird anschließend beschrieben. Die Ergebnisse zeigen die prinzipielle Richtigkeit der zugrundeliegenden Überlegungen, die praktische Anwendbarkeit kann jedoch nicht überzeugend demonstriert werden. Die Wiederverwendung der entwickelten Systemerweiterung für vielversprechendere Ansätze erscheint jedoch möglich und wird diskutiert.
- A trending topic in Semantic Web research deals with the processing of queries over Linked Open Data (LOD). As has been shown in literature, the loose nature of the "web of data" and data sources within can be accounted for by employing federated query processing strategies. This approach, however, is all the more dependent on both up-to-date statistical summaries (data statistics) of the sources in use and accurate and precise estimation of cardinalities and selectivities. In general, federated data sources are to be seen as black-boxes w.r.t. data statistics, as no interchange of such information can be expected. Because of this, it is possible for individual data statistics to become obsolete, if the corresponding source is subjected to data changes cumulating over time. In this thesis an adaptive system is being proposed, that complements a given RDF-based query federator. Through observation and analysis of the error of the cardinality estimation of incoming queries, it tries to infer the obsolescence of individual data statistics, triggering updates of data statistics found to be obsolete. An evaluation of the system shows, that the approach to this solution is plausible. Yet, in practice no satisfying results could be acquired, that would prove a true practicality. Still, parts of the system proposed may be re-used for related tasks that could be more promising.