Statistical tools to model space-time data with a focus on biodiversity applications
Gerber, Florian. Statistical tools to model space-time data with a focus on biodiversity applications. 2017, University of Zurich, Faculty of Science.
Abstract
Statistische Modelle sind wichtige Hilfsmittel um Raum-Zeit-Daten wie Satellitenbilder und ökologische Feldmessungen zu analysieren und interpretieren. Dabei verunmöglichen komplexe Datenstrukturen und immer grössere Datenmengen den Gebrauch von herkömmlichen geostatistischen Methoden wie Kriging. Diese Unzulänglichkeit eröffnet das aktive und attraktive Forschungsgebiet der angewandten Raum-Zeit-Statistik für grosse Daten. Die in dieser Arbeit präsentierten Fortschritte auf diesem Gebiet sind hauptsächlich durch ökologische Fragestellungen betreffend die arktische Vegetation und deren Anpassungen an die globale Klimaerwärmung motiviert. Quantitative Aussagen über die arktische Vegetation beruhen hauptsächlich auf zwei fundamental verschiedenen Arten von Messungen: Die eine Art besteht aus Feldmessungen von biologisch relevanten Parametern, die andere stützt sich auf Fernerkundungsdaten und die daraus abgeleiteten Vegetationsindizes. Beide Ansätze führen zu Raum-Zeit-Daten und bringen verschiedene Probleme mit sich, welche gültige Aussagen für die ganze Arktis erschweren. Zum Beispiel gibt es relativ wenige Orte mit Feldmessungen und die Fernerkundungsdaten sind häufig beeinträchtigt durch mit Wolken, Schnee und Wasser bedeckte Landschaften. Diese Doktorarbeit präsentiert eine Reihe von statistischen und rechnerischen Entwicklungen, welche helfen die Aussagen zur Vegetation der Arktis zu präzisieren. Die Arbeit ist in fünf Manuskripte aufgeteilt: Paper I behandelt den 64-bit Ausbau der R Erweiterung spam, welche neu dünnbesetzte Matrizen mit mehr als 2 31 von Null verschiede Einträgen manipulieren kann. Besagter Ausbau ermöglichte grosse fernerkundungsbasierte Vegetationsindex Daten mit einem nicht stationären Gauss-Prozess zu modellieren. Die 64-bit Erweiterung basiert auf der R Erweiterung dotCall64, welche in Paper II detailliert diskutiert wird. Ferner beschreibt Paper III eine neue Methode um fehlende Werte in raum-zeitlichen Fernerkundungsdaten zu berechnen. Dabei berechnet die Methode jeden fehlenden Wert einzeln. Sie sucht eine geeignete Raum-Zeit-Teilmenge der Daten und wendet Sortieralgorithmen für Bilder sowie Quantilsregression an. Um auch sehr grosse Daten mit leistungsstarken Rechnern bearbeiten zu können verfügt die dazugehörige R Erweiterung gapfill über ein modulares Design mit Möglichkeiten zur parallelen Datenverarbeitung. Paper IV behandelt verschiedene Umsetzungs- und Validationsstrategien von bayesschen hierarchischen Modellen für Zähldaten. Wie in der Einleitung dieser Arbeit skizziert sind Fortschritte auf diesem Gebiet vielversprechend um Daten von verschiedenen Quellen, zum Beispiel Daten zum Vorkommen von Pflanzenarten und Vegetationsindex Daten, gemeinsam zu modellieren. Schliesslich stellt Paper V eine Fallstudie vor, welche arktische Feldmessungen der Biodiversität mit einer fernerkundungsbasierten Landschaftscharakterisierung verbindet. Genauer werden die Abhängigkeiten zwischen Biodiversitätsindizes basierend auf Daten des Arctic Vegetation Archive und Landschaftscharakterisierungen mit Vegetationsindex Daten und einem Höhenmodell untersucht.
Statistical models are important means to analyze and interpret space-time data, such as satellite datasets and ecological field measurements. However, complex data structures and increasing dataset sizes make it impossible to use standard geostatistical methods like kriging. The resulting methodological gap opens up an active and attractive research area, namely the one of applied spatio-temporal statistics for large datasets. The herein presented advances in that field are mainly motivated by ecological research questions centered around the Arctic vegetation and its response to global warming. Quantitative statements about the Arctic vegetation are typically based on two fundamentally different types of measurements: field measurements of biologically relevant parameters on the one hand and remotely sensed vegetation indices on the other. Both techniques lead to spatio-temporal data and face various challenges, which make it difficult to characterize vegetation at Pan-Arctic scale. For instance, the spatial sparsity of field measurements and the fact that satellite observations are often confounded by cloud, snow, and water covered surfaces are major drawbacks. This PhD thesis presents a series of statistical and computational developments, which help to improve the quality of quantitative statements about the Arctic vegetation. The thesis is structured into five self-contained paper manuscripts: Paper I is concerned with making the sparse matrix algebra R package spam capable of handling large 64-bit matrices with 2 31 and more non-zero elements. This enabled fitting a non-stationary spatial Gaussian process model to a large remote sensing based vegetation index dataset. The 64-bit extension is based on the R package dotCall64, which is discussed in detail in Paper II. Paper III introduces a new spatio-temporal prediction method for missing values in satellite data. The method predicts each missing value separately by selecting a suitable spatio-temporal subset followed by an image sorting procedure and quantile regression. To be able to process massive amounts of data with large computer systems the corresponding R package gapfill features a modular design with an emphasis on parallel computing. Paper IV elaborates on different implementation and validation strategies for spatial Bayesian hierarchical models for count data. As sketched in the introduction of the thesis, advances in that direction are promising to jointly model data from various sources, such as Arctic plant abundance data and remotely sensed vegetation indices. Eventually, Paper V presents a case-study, in which Arctic plot scale biodiversity measurements are related to remote sensing based landscape characterizations. More precisely, relations between biodiversity indices derived from field measurements of the Arctic Vegetation Archive and landscape characterizations based on vegetation index data as well as a digital elevation model are explored.
Abstract
Statistische Modelle sind wichtige Hilfsmittel um Raum-Zeit-Daten wie Satellitenbilder und ökologische Feldmessungen zu analysieren und interpretieren. Dabei verunmöglichen komplexe Datenstrukturen und immer grössere Datenmengen den Gebrauch von herkömmlichen geostatistischen Methoden wie Kriging. Diese Unzulänglichkeit eröffnet das aktive und attraktive Forschungsgebiet der angewandten Raum-Zeit-Statistik für grosse Daten. Die in dieser Arbeit präsentierten Fortschritte auf diesem Gebiet sind hauptsächlich durch ökologische Fragestellungen betreffend die arktische Vegetation und deren Anpassungen an die globale Klimaerwärmung motiviert. Quantitative Aussagen über die arktische Vegetation beruhen hauptsächlich auf zwei fundamental verschiedenen Arten von Messungen: Die eine Art besteht aus Feldmessungen von biologisch relevanten Parametern, die andere stützt sich auf Fernerkundungsdaten und die daraus abgeleiteten Vegetationsindizes. Beide Ansätze führen zu Raum-Zeit-Daten und bringen verschiedene Probleme mit sich, welche gültige Aussagen für die ganze Arktis erschweren. Zum Beispiel gibt es relativ wenige Orte mit Feldmessungen und die Fernerkundungsdaten sind häufig beeinträchtigt durch mit Wolken, Schnee und Wasser bedeckte Landschaften. Diese Doktorarbeit präsentiert eine Reihe von statistischen und rechnerischen Entwicklungen, welche helfen die Aussagen zur Vegetation der Arktis zu präzisieren. Die Arbeit ist in fünf Manuskripte aufgeteilt: Paper I behandelt den 64-bit Ausbau der R Erweiterung spam, welche neu dünnbesetzte Matrizen mit mehr als 2 31 von Null verschiede Einträgen manipulieren kann. Besagter Ausbau ermöglichte grosse fernerkundungsbasierte Vegetationsindex Daten mit einem nicht stationären Gauss-Prozess zu modellieren. Die 64-bit Erweiterung basiert auf der R Erweiterung dotCall64, welche in Paper II detailliert diskutiert wird. Ferner beschreibt Paper III eine neue Methode um fehlende Werte in raum-zeitlichen Fernerkundungsdaten zu berechnen. Dabei berechnet die Methode jeden fehlenden Wert einzeln. Sie sucht eine geeignete Raum-Zeit-Teilmenge der Daten und wendet Sortieralgorithmen für Bilder sowie Quantilsregression an. Um auch sehr grosse Daten mit leistungsstarken Rechnern bearbeiten zu können verfügt die dazugehörige R Erweiterung gapfill über ein modulares Design mit Möglichkeiten zur parallelen Datenverarbeitung. Paper IV behandelt verschiedene Umsetzungs- und Validationsstrategien von bayesschen hierarchischen Modellen für Zähldaten. Wie in der Einleitung dieser Arbeit skizziert sind Fortschritte auf diesem Gebiet vielversprechend um Daten von verschiedenen Quellen, zum Beispiel Daten zum Vorkommen von Pflanzenarten und Vegetationsindex Daten, gemeinsam zu modellieren. Schliesslich stellt Paper V eine Fallstudie vor, welche arktische Feldmessungen der Biodiversität mit einer fernerkundungsbasierten Landschaftscharakterisierung verbindet. Genauer werden die Abhängigkeiten zwischen Biodiversitätsindizes basierend auf Daten des Arctic Vegetation Archive und Landschaftscharakterisierungen mit Vegetationsindex Daten und einem Höhenmodell untersucht.
Statistical models are important means to analyze and interpret space-time data, such as satellite datasets and ecological field measurements. However, complex data structures and increasing dataset sizes make it impossible to use standard geostatistical methods like kriging. The resulting methodological gap opens up an active and attractive research area, namely the one of applied spatio-temporal statistics for large datasets. The herein presented advances in that field are mainly motivated by ecological research questions centered around the Arctic vegetation and its response to global warming. Quantitative statements about the Arctic vegetation are typically based on two fundamentally different types of measurements: field measurements of biologically relevant parameters on the one hand and remotely sensed vegetation indices on the other. Both techniques lead to spatio-temporal data and face various challenges, which make it difficult to characterize vegetation at Pan-Arctic scale. For instance, the spatial sparsity of field measurements and the fact that satellite observations are often confounded by cloud, snow, and water covered surfaces are major drawbacks. This PhD thesis presents a series of statistical and computational developments, which help to improve the quality of quantitative statements about the Arctic vegetation. The thesis is structured into five self-contained paper manuscripts: Paper I is concerned with making the sparse matrix algebra R package spam capable of handling large 64-bit matrices with 2 31 and more non-zero elements. This enabled fitting a non-stationary spatial Gaussian process model to a large remote sensing based vegetation index dataset. The 64-bit extension is based on the R package dotCall64, which is discussed in detail in Paper II. Paper III introduces a new spatio-temporal prediction method for missing values in satellite data. The method predicts each missing value separately by selecting a suitable spatio-temporal subset followed by an image sorting procedure and quantile regression. To be able to process massive amounts of data with large computer systems the corresponding R package gapfill features a modular design with an emphasis on parallel computing. Paper IV elaborates on different implementation and validation strategies for spatial Bayesian hierarchical models for count data. As sketched in the introduction of the thesis, advances in that direction are promising to jointly model data from various sources, such as Arctic plant abundance data and remotely sensed vegetation indices. Eventually, Paper V presents a case-study, in which Arctic plot scale biodiversity measurements are related to remote sensing based landscape characterizations. More precisely, relations between biodiversity indices derived from field measurements of the Arctic Vegetation Archive and landscape characterizations based on vegetation index data as well as a digital elevation model are explored.
TrendTerms displays relevant terms of the abstract of this publication and related documents on a map. The terms and their relations were extracted from ZORA using word statistics. Their timelines are taken from ZORA as well. The bubble size of a term is proportional to the number of documents where the term occurs. Red, orange, yellow and green colors are used for terms that occur in the current document; red indicates high interlinkedness of a term with other terms, orange, yellow and green decreasing interlinkedness. Blue is used for terms that have a relation with the terms in this document, but occur in other documents.
You can navigate and zoom the map. Mouse-hovering a term displays its timeline, clicking it yields the associated documents.