Geographic Feature Mining: Framework and Fundamental Tasks for Geographic Knowledge Discovery from User-generated Data

Sengstock, Christian

[thumbnail of Geographic Feature Mining (Dissertation, Christian Sengstock)]

Vorschau

PDF, Englisch (Geographic Feature Mining (Dissertation, Christian Sengstock)) - Hauptdokument
Download (39MB) | Nutzungsbedingungen

Zitieren von Dokumenten: Bitte verwenden Sie für Zitate nicht die URL in der Adresszeile Ihres Webbrowsers, sondern entweder die angegebene DOI, URN oder die persistente URL, deren langfristige Verfügbarkeit wir garantieren. [mehr ...]

DOI: 10.11588/heidok.00018356
URN: urn:nbn:de:bsz:16-heidok-183567

Abstract

We live in a data-rich environment where massive amounts of data such as text messages, articles, images, and search queries are continuously generated by users. In this environment, new opportunities to discover and utilize knowledge about the real-world arise, such as the extraction and description of places and events from social media records, the organization of documents by spatio-temporal topics, and the prediction of epidemics by search engine queries. Major challenges addressed in these data- and application-specific works arise from the unstructured and complex nature of the data, and the high level of uncertainty and sparsity of the attributes.

Despite the evident progress in utilizing specific data sources for different applications, there remains a lack of common concepts and techniques on how to exploit the data as high-quality sensors of geographic space in a general manner. However, such a general point of view allows to address the common challenges and to define fundamental building blocks to deal with problems in fields like information retrieval, recommender systems, market research, health surveillance, and social sciences.

In this thesis, we develop concepts and techniques to utilize various kinds of user-generated data as a steady source of information about geographic processes and entities (together called geographic phenomena). For this, we introduce a novel conceptual data mining framework, called geographic feature mining, that provides the foundation to discover and extract highly informative and discriminative dimensions of geographic space in a unifying and systematic fashion. This is achieved by representing the qualitative and geographic information in the records as geographic feature signals, each constituting a potential dimensions to describe geographic space. The mining process then determines highly informative features or feature combinations from the candidate sets that can be used as a steady source of auxiliary information for domain-specific applications.

In developing the framework, we make contributions to several fundamental problems: (1) We introduce a novel probabilistic model to extract high-quality geographic feature signals. The signals are robust to noise and background distributions, and the model allows to exploit diverse kinds of qualitative and geographic information in the records. This flexibility is achieved by utilizing a Bayesian network model and the robustness by choosing appropriate prior distributions. (2) We address the problem of categorizing and selecting geographic features based on their spatio-temporal type, such as feature signals having landmark, regional, or global semantics. For this, we introduce representations of the signals by interaction characteristics and evaluate their performance in clustering and data summarization tasks. (3) To extract a small number of highly informative feature combinations that reflect geographic phenomena, we introduce a model that extracts latent geographic features from the candidate signals using dimensionality reduction. We show that this model outperforms document-centric topic models with respect to the informativeness of the extracted phenomena, and we exhaustively evaluate how different statistical properties of the approaches affect the characteristics of the resulting feature combinations.

Übersetzung des Abstracts (Deutsch)

Heute wird permanent eine Vielzahl unterschiedlicher Daten von Benutzern erzeugt, wie Textnachrichten, Artikel, Bilder oder Suchanfragen. Hierdurch ergeben sich neuartige Möglichkeiten, um geographische Phänomene zu erkennen und dieses Wissen für Anwendungen nutzbar zu machen. Dazu gehören etwa die Extraktion von interessanten Orten und Ereignissen anhand von Informationen in sozialen Medien, die Organisation von Dokumenten auf Basis von geographischen Themen oder die Vorhersage von Epidemien mittels Suchanfragen. Grundlegende Herausforderungen in diesen oft daten- und anwendungsspezifischen Arbeiten liegen in der unstrukturierten und komplexen Natur der Daten und in den großen Unsicherheiten bezüglich der Aussagekraft der Attribute.

Trotz zahlreicher Fortschritte bei der Analyse von benutzergenerierten Daten fehlt es an grundlegenden Konzepten und Techniken, um diese als Sensoren für geographische Phänomene zu verstehen und nutzbar zu machen. Solch ein grundlegender Ansatz würde es jedoch erlauben, elementare Probleme zu identifizieren und hierdurch fundamentale Bausteine zur Lösung von Forschungsproblemen im Bereich des Information Retrieval, der Empfehlungssysteme, der Marktforschung, des Gesundheitswesens und der Sozialwissenschaften zu entwickeln.

Diese Dissertation entwickelt Techniken und Konzepte zur Nutzung von benutzergenerierten Daten als eine ständige Informationsquelle über geographische Phänomene. Wir präsentieren ein neuartiges konzeptionelles Data Mining-Rahmenwerk, genannt "Geographic Feature Mining". Dieses erlaubt es, geographische Phänomene aus verschieden-artigen Datensätze in einer einheitlichen und systematischen Art und Weise zu extrahieren, indem die jeweiligen qualitativen und geographischen Information als "geographische Feature-Signale" beschrieben werden. Hierbei bildet jedes Signal eine potentielle Dimension, um den geographischen Raum zu beschreiben. Die Aufgabe des Mining-Prozesses ist es dann, hoch-informative Signale oder Signal-Kombinationen zu extrahieren und diese als geographisches Wissen für domänenspezifische Analysen und Anwendungen verfügbar zu machen.

Durch die Entwicklung des Rahmenwerks leisten wir zudem mehrere Beiträge zu fundamentalen Forschungsproblemen. (1) Wir präsentieren einen neuartigen probabilistischen Ansatz, um hochwertige geographische Feature-Signale zu extrahieren. Die extrahierten Signale sind robust gegenüber einer Vielzahl von Unsicherheiten in den Daten. Zudem erlaubt es das Modell, eine Vielzahl an qualitativen und geographischen Informationen in den Daten auszunutzen. (2) Wir befassen uns mit dem Problem, geographische Feature-Signale auf Basis ihrer semantischen Ähnlichkeit zu kategorisieren und zu selektieren, wie etwa Signale, welche einen einzelnen Ort, mehrere Orte oder eine Region beschreiben. Hierfür führen wir Repräsentationen der Signale basierend auf ihrer "Interaktions-Charakteristik" ein. (3) Um eine kleine Anzahl informativer Signal-Kombinationen aufzudecken, präsentieren wir ein Modell mit dem "latente geographische Dimensionen" aus einer Vielzahl von Feature-Signalen mittels Dimensionalitäts-Reduktion extrahiert werden können. Alle vorgestellten Methoden werden in umfangreichen und vergleichenden Experimenten hinsichtlich ihrer Effektivität evaluiert. Hierzu verwenden wir reale Daten aus Photo-Communities, Microblogs und von Wikipedia.

Dokumententyp:	Dissertation
Erstgutachter:	Gertz, Prof. Dr. Michael
Tag der Prüfung:	27 Februar 2015
Erstellungsdatum:	10 Mrz. 2015 10:20
Erscheinungsjahr:	2015
Institute/Einrichtungen:	Fakultät für Mathematik und Informatik > Institut für Informatik
DDC-Sachgruppe:	004 Informatik 500 Naturwissenschaften und Mathematik
Normierte Schlagwörter:	Spatial Data Mining, Data Mining, Knowledge Discovery, Geographic Information Science, Social Media
Freie Schlagwörter:	Geographic Knowledge Discovery, User-generated Data, Social Media Analysis, Geographic Feature Mining