Directly to content
  1. Publishing |
  2. Search |
  3. Browse |
  4. Recent items rss |
  5. Open Access |
  6. Jur. Issues |
  7. DeutschClear Cookie - decide language by browser settings

Statistical analysis of dependent data - Topics in empirical process theory with applications to neural networks, and survival analysis

Phandoidaen, Nathawut

German Title: Statistische Analyse von abhängigen Daten - Themen in empirischer Prozesstheorie mit Anwendung auf neuronale Netzwerke, und Ereigniszeitanalyse

[thumbnail of phd_thesis.pdf]
Preview
PDF, English - main document
Download (4MB) | Lizenz: Creative Commons LizenzvertragStatistical analysis of dependent data - Topics in empirical process theory with applications to neural networks, and survival analysis by Phandoidaen, Nathawut underlies the terms of Creative Commons Attribution-NonCommercial-NoDerivatives 4.0

Citation of documents: Please do not cite the URL that is displayed in your browser location input, instead use the DOI, URN or the persistent URL below, as we can guarantee their long-time accessibility.

Abstract

In this doctoral dissertation we will investigate dependence structures in three different cases.

We first provide a framework for empirical process theory of (locally) stationary processes for classes of either smooth or nonsmooth functions. The theory is approached by using the so-called functional dependence measure in order to quantify dependence. This work extends known results for stationary Markov chains and mixing sequences while accounting for additional time dependence. The main contributions consist of functional central limit theorems and nonasymptotic maximal inequalities. These can be employed to show, for example, uniform convergence rates for nonparametric regression with locally stationary noise. We further derive rates for kernel density estimators in the case of stationary and locally stationary observations. A special focus is placed on the functional convergence of the empirical distribution function (EDF). Comparisons with results based on other measures of dependence are carried out, as well.

In a subsequent step, we consider high-dimensional stationary processes where new observations are generated by a noisy transformation of past observations. By means of our previous results we prove oracle inequalities for the empirical risk minimizer if the data is generated by either an absolutely regular mixing sequence ( β -mixing) or a Bernoulli shift process under functional dependence. Assuming that the underlying transformation of our data follows an encoder-decoder structure, we construct an encoder-decoder neural network estimator for the prediction of future time steps. We give upper bounds for the expected forecast error under specific structural and sparsity conditions on the network architecture. In a quantitative simulation we discuss the behavior of network estimators under different model assumptions and provide a weather forecast for German cities using data available by the German Meteorological Service (Deutsche Wetterdienst).

Moving onto a different setting, we study the nonparametric estimation of an unknown survival function with support on the positive real line based on a sample with multiplicative measurement errors. The proposed fully data-driven procedure involves an estimation step of the survival function’s Mellin transform and a regularization of the Mellin transform’s inverse by a spectral cut-off. A data-driven choice of the cut-off parameter balances bias and variance. In order to discuss the bias term, we consider Mellin-Sobolev spaces which characterize the regularity of the unknown survival function by the decay behavior of its Mellin transform. When analyzing the variance term we consider the standard i.i.d. case and incorporate dependent observations in form of Bernoulli shift processes and absolutely regular mixing sequences. In the i.i.d. setting we are able to show minimax-optimality over Mellin-Sobolev spaces for the spectral cut-off estimator.

Translation of abstract (German)

In der vorliegenden Disssertation beschäftigen wir uns mit abhängigen Daten in drei verschiedenen Situationen. Als erstes untersuchen wir die emprisiche Prozesstheorie für (lokal) stationäre Prozesse bezüglich Klassen von glatten bzw. nichtglatten Funktionen. Dabei durchleuchten wir unsere Theorie unter dem funktionalen Abhängigkeitsmaß (functional dependence measure) und führen eine zusätzliche Abhängigkeit in der Zeit ein. Wir formulieren funktionale zentrale Grenzwertsätze und nichtasymptotische Maximalungleichungen. Unsere Resultate erweitern bereits bekannte Ergebnisse auf dem Gebiet der stationären Markovketten und mischenden Prozesse (mixing sequences). Als Anwendung unserer Theorie leiten wir gleichmäßige Konvergenzraten für nichtparametrische Regression mit lokal stationärem Rauschen sowie die funktionale Konvergenz der empirischen Verteilungsfunktion her. Weiterhin folgern wir gleichmäßige Konvergenzraten für den Kerndichte-Schätzer im (lokal) stationären Fall. Sämtliche Ergebnisse werden in der bestehenden Literatur eingeordnet und verglichen.

In einer daran anschließenden Abhandlung wenden wir uns dem Gebiet des statistischen Lernens zu. Wir betrachten dabei hoch-dimensionale stationäre Daten, die aus einer verrauschten Transformation vergangener Beobachtungen hervorgehen. Basierend auf unseren vorherigen Resultaten und ausgehend von Realisierungen eines absolut regulären mischenden Prozesses oder eines Bernoulli-Shift-Prozesses unter dem funktionalen Abhängigkeitsmaß leiten wir Orakelungleichungen für den empirischen Risikominimierer her. Wenn wir davon ausgehen, dass die Daten einer Kodierung-Dekodierung-Struktur folgen, so sind wir in der Lage einen Neuronalen-Netzwerk-Schätzer zu konstruieren, der eine Vorhersage für zukünftige Zeitpunkte erlaubt. Unter spezifischen strukturellen Bedingungen und Spärlichkeitsannahmen (sparsity) an die zugehörigen Netzwerke lässt sich der erwartete Vorhersagefehler nach oben abschätzen. Über quantitative Simulationen untersuchen wir das Verhalten von Netzwerk-Schätzern unter verschiedenen Modellannahmen. Wir stellen abschließend eine praktische Anwedung durch die Wettervorhersage von deutschen Städten mit den Daten des Deutschen Wetterdienstes vor.

In einer weiteren Untersuchung von abhängigen Daten widmen wir uns der nichtparametrischen Schätzung der Überlebensfunktion auf der positiven reellen Achse durch Stichproben mit mulitplikativen Messabweichungen. Das vorgeschlagene datengetriebene Verfahren in dieser Arbeit basiert auf der Schätzung der entsprechenden MellinTransformierten und einer Regularisierung ihrer Inversen durch einen spektralen Cut-Off; die datengetriebene Wahl des Cut-Off-Parameters gleicht üblicherweise den Bias und die Varianz aus (bias-variance trade-o ff ). Für die Analyse des Bias-Terms führen wir sogenannte Mellin-Sobolev-Räume ein, welche die Regularität der Überlebensfunktion durch das Zerfallverhalten ihrer Mellin-Transformierten charakterisiert. Den Varianz-Term werden wir anhand von unabhängig, identisch verteilten (i.i.d.) Beobachtungen und abhängigen Daten durchleuchten. Wie zuvor spezialisieren wir uns auf BernoulliShift-Prozesse unter dem funktionalen Abhängigkeitsmaß und auf absolut regulär mischende Prozesse. Im i.i.d.-Fall erreichen wir Minimax-Optimalität des sprektralen CutOff-Schätzers auf Mellin-Sobolev-Räumen.

Document type: Dissertation
Supervisor: Dahlhaus, Prof. Dr. Rainer
Place of Publication: Heidelberg
Date of thesis defense: 11 July 2022
Date Deposited: 15 Jul 2022 05:26
Date: 2022
Faculties / Institutes: The Faculty of Mathematics and Computer Science > Institut für Mathematik
DDC-classification: 310 General statistics
510 Mathematics
About | FAQ | Contact | Imprint |
OA-LogoDINI certificate 2013Logo der Open-Archives-Initiative