Header

UZH-Logo

Maintenance Infos

Statistical tools to model space-time data with a focus on biodiversity applications


Gerber, Florian. Statistical tools to model space-time data with a focus on biodiversity applications. 2017, University of Zurich, Faculty of Science.

Abstract

Statistische Modelle sind wichtige Hilfsmittel um Raum-Zeit-Daten wie Satellitenbilder und ökologische Feldmessungen zu analysieren und interpretieren. Dabei verunmöglichen komplexe Datenstrukturen und immer grössere Datenmengen den Gebrauch von herkömmlichen geostatistischen Methoden wie Kriging. Diese Unzulänglichkeit eröffnet das aktive und attraktive Forschungsgebiet der angewandten Raum-Zeit-Statistik für grosse Daten. Die in dieser Arbeit präsentierten Fortschritte auf diesem Gebiet sind hauptsächlich durch ökologische Fragestellungen betreffend die arktische Vegetation und deren Anpassungen an die globale Klimaerwärmung motiviert. Quantitative Aussagen über die arktische Vegetation beruhen hauptsächlich auf zwei fundamental verschiedenen Arten von Messungen: Die eine Art besteht aus Feldmessungen von biologisch relevanten Parametern, die andere stützt sich auf Fernerkundungsdaten und die daraus abgeleiteten Vegetationsindizes. Beide Ansätze führen zu Raum-Zeit-Daten und bringen verschiedene Probleme mit sich, welche gültige Aussagen für die ganze Arktis erschweren. Zum Beispiel gibt es relativ wenige Orte mit Feldmessungen und die Fernerkundungsdaten sind häufig beeinträchtigt durch mit Wolken, Schnee und Wasser bedeckte Landschaften. Diese Doktorarbeit präsentiert eine Reihe von statistischen und rechnerischen Entwicklungen, welche helfen die Aussagen zur Vegetation der Arktis zu präzisieren. Die Arbeit ist in fünf Manuskripte aufgeteilt: Paper I behandelt den 64-bit Ausbau der R Erweiterung spam, welche neu dünnbesetzte Matrizen mit mehr als 2 31 von Null verschiede Einträgen manipulieren kann. Besagter Ausbau ermöglichte grosse fernerkundungsbasierte Vegetationsindex Daten mit einem nicht stationären Gauss-Prozess zu modellieren. Die 64-bit Erweiterung basiert auf der R Erweiterung dotCall64, welche in Paper II detailliert diskutiert wird. Ferner beschreibt Paper III eine neue Methode um fehlende Werte in raum-zeitlichen Fernerkundungsdaten zu berechnen. Dabei berechnet die Methode jeden fehlenden Wert einzeln. Sie sucht eine geeignete Raum-Zeit-Teilmenge der Daten und wendet Sortieralgorithmen für Bilder sowie Quantilsregression an. Um auch sehr grosse Daten mit leistungsstarken Rechnern bearbeiten zu können verfügt die dazugehörige R Erweiterung gapfill über ein modulares Design mit Möglichkeiten zur parallelen Datenverarbeitung. Paper IV behandelt verschiedene Umsetzungs- und Validationsstrategien von bayesschen hierarchischen Modellen für Zähldaten. Wie in der Einleitung dieser Arbeit skizziert sind Fortschritte auf diesem Gebiet vielversprechend um Daten von verschiedenen Quellen, zum Beispiel Daten zum Vorkommen von Pflanzenarten und Vegetationsindex Daten, gemeinsam zu modellieren. Schliesslich stellt Paper V eine Fallstudie vor, welche arktische Feldmessungen der Biodiversität mit einer fernerkundungsbasierten Landschaftscharakterisierung verbindet. Genauer werden die Abhängigkeiten zwischen Biodiversitätsindizes basierend auf Daten des Arctic Vegetation Archive und Landschaftscharakterisierungen mit Vegetationsindex Daten und einem Höhenmodell untersucht.

Statistical models are important means to analyze and interpret space-time data, such as satellite datasets and ecological field measurements. However, complex data structures and increasing dataset sizes make it impossible to use standard geostatistical methods like kriging. The resulting methodological gap opens up an active and attractive research area, namely the one of applied spatio-temporal statistics for large datasets. The herein presented advances in that field are mainly motivated by ecological research questions centered around the Arctic vegetation and its response to global warming. Quantitative statements about the Arctic vegetation are typically based on two fundamentally different types of measurements: field measurements of biologically relevant parameters on the one hand and remotely sensed vegetation indices on the other. Both techniques lead to spatio-temporal data and face various challenges, which make it difficult to characterize vegetation at Pan-Arctic scale. For instance, the spatial sparsity of field measurements and the fact that satellite observations are often confounded by cloud, snow, and water covered surfaces are major drawbacks. This PhD thesis presents a series of statistical and computational developments, which help to improve the quality of quantitative statements about the Arctic vegetation. The thesis is structured into five self-contained paper manuscripts: Paper I is concerned with making the sparse matrix algebra R package spam capable of handling large 64-bit matrices with 2 31 and more non-zero elements. This enabled fitting a non-stationary spatial Gaussian process model to a large remote sensing based vegetation index dataset. The 64-bit extension is based on the R package dotCall64, which is discussed in detail in Paper II. Paper III introduces a new spatio-temporal prediction method for missing values in satellite data. The method predicts each missing value separately by selecting a suitable spatio-temporal subset followed by an image sorting procedure and quantile regression. To be able to process massive amounts of data with large computer systems the corresponding R package gapfill features a modular design with an emphasis on parallel computing. Paper IV elaborates on different implementation and validation strategies for spatial Bayesian hierarchical models for count data. As sketched in the introduction of the thesis, advances in that direction are promising to jointly model data from various sources, such as Arctic plant abundance data and remotely sensed vegetation indices. Eventually, Paper V presents a case-study, in which Arctic plot scale biodiversity measurements are related to remote sensing based landscape characterizations. More precisely, relations between biodiversity indices derived from field measurements of the Arctic Vegetation Archive and landscape characterizations based on vegetation index data as well as a digital elevation model are explored.

Abstract

Statistische Modelle sind wichtige Hilfsmittel um Raum-Zeit-Daten wie Satellitenbilder und ökologische Feldmessungen zu analysieren und interpretieren. Dabei verunmöglichen komplexe Datenstrukturen und immer grössere Datenmengen den Gebrauch von herkömmlichen geostatistischen Methoden wie Kriging. Diese Unzulänglichkeit eröffnet das aktive und attraktive Forschungsgebiet der angewandten Raum-Zeit-Statistik für grosse Daten. Die in dieser Arbeit präsentierten Fortschritte auf diesem Gebiet sind hauptsächlich durch ökologische Fragestellungen betreffend die arktische Vegetation und deren Anpassungen an die globale Klimaerwärmung motiviert. Quantitative Aussagen über die arktische Vegetation beruhen hauptsächlich auf zwei fundamental verschiedenen Arten von Messungen: Die eine Art besteht aus Feldmessungen von biologisch relevanten Parametern, die andere stützt sich auf Fernerkundungsdaten und die daraus abgeleiteten Vegetationsindizes. Beide Ansätze führen zu Raum-Zeit-Daten und bringen verschiedene Probleme mit sich, welche gültige Aussagen für die ganze Arktis erschweren. Zum Beispiel gibt es relativ wenige Orte mit Feldmessungen und die Fernerkundungsdaten sind häufig beeinträchtigt durch mit Wolken, Schnee und Wasser bedeckte Landschaften. Diese Doktorarbeit präsentiert eine Reihe von statistischen und rechnerischen Entwicklungen, welche helfen die Aussagen zur Vegetation der Arktis zu präzisieren. Die Arbeit ist in fünf Manuskripte aufgeteilt: Paper I behandelt den 64-bit Ausbau der R Erweiterung spam, welche neu dünnbesetzte Matrizen mit mehr als 2 31 von Null verschiede Einträgen manipulieren kann. Besagter Ausbau ermöglichte grosse fernerkundungsbasierte Vegetationsindex Daten mit einem nicht stationären Gauss-Prozess zu modellieren. Die 64-bit Erweiterung basiert auf der R Erweiterung dotCall64, welche in Paper II detailliert diskutiert wird. Ferner beschreibt Paper III eine neue Methode um fehlende Werte in raum-zeitlichen Fernerkundungsdaten zu berechnen. Dabei berechnet die Methode jeden fehlenden Wert einzeln. Sie sucht eine geeignete Raum-Zeit-Teilmenge der Daten und wendet Sortieralgorithmen für Bilder sowie Quantilsregression an. Um auch sehr grosse Daten mit leistungsstarken Rechnern bearbeiten zu können verfügt die dazugehörige R Erweiterung gapfill über ein modulares Design mit Möglichkeiten zur parallelen Datenverarbeitung. Paper IV behandelt verschiedene Umsetzungs- und Validationsstrategien von bayesschen hierarchischen Modellen für Zähldaten. Wie in der Einleitung dieser Arbeit skizziert sind Fortschritte auf diesem Gebiet vielversprechend um Daten von verschiedenen Quellen, zum Beispiel Daten zum Vorkommen von Pflanzenarten und Vegetationsindex Daten, gemeinsam zu modellieren. Schliesslich stellt Paper V eine Fallstudie vor, welche arktische Feldmessungen der Biodiversität mit einer fernerkundungsbasierten Landschaftscharakterisierung verbindet. Genauer werden die Abhängigkeiten zwischen Biodiversitätsindizes basierend auf Daten des Arctic Vegetation Archive und Landschaftscharakterisierungen mit Vegetationsindex Daten und einem Höhenmodell untersucht.

Statistical models are important means to analyze and interpret space-time data, such as satellite datasets and ecological field measurements. However, complex data structures and increasing dataset sizes make it impossible to use standard geostatistical methods like kriging. The resulting methodological gap opens up an active and attractive research area, namely the one of applied spatio-temporal statistics for large datasets. The herein presented advances in that field are mainly motivated by ecological research questions centered around the Arctic vegetation and its response to global warming. Quantitative statements about the Arctic vegetation are typically based on two fundamentally different types of measurements: field measurements of biologically relevant parameters on the one hand and remotely sensed vegetation indices on the other. Both techniques lead to spatio-temporal data and face various challenges, which make it difficult to characterize vegetation at Pan-Arctic scale. For instance, the spatial sparsity of field measurements and the fact that satellite observations are often confounded by cloud, snow, and water covered surfaces are major drawbacks. This PhD thesis presents a series of statistical and computational developments, which help to improve the quality of quantitative statements about the Arctic vegetation. The thesis is structured into five self-contained paper manuscripts: Paper I is concerned with making the sparse matrix algebra R package spam capable of handling large 64-bit matrices with 2 31 and more non-zero elements. This enabled fitting a non-stationary spatial Gaussian process model to a large remote sensing based vegetation index dataset. The 64-bit extension is based on the R package dotCall64, which is discussed in detail in Paper II. Paper III introduces a new spatio-temporal prediction method for missing values in satellite data. The method predicts each missing value separately by selecting a suitable spatio-temporal subset followed by an image sorting procedure and quantile regression. To be able to process massive amounts of data with large computer systems the corresponding R package gapfill features a modular design with an emphasis on parallel computing. Paper IV elaborates on different implementation and validation strategies for spatial Bayesian hierarchical models for count data. As sketched in the introduction of the thesis, advances in that direction are promising to jointly model data from various sources, such as Arctic plant abundance data and remotely sensed vegetation indices. Eventually, Paper V presents a case-study, in which Arctic plot scale biodiversity measurements are related to remote sensing based landscape characterizations. More precisely, relations between biodiversity indices derived from field measurements of the Arctic Vegetation Archive and landscape characterizations based on vegetation index data as well as a digital elevation model are explored.

Statistics

Downloads

19 downloads since deposited on 16 Dec 2019
18 downloads since 12 months
Detailed statistics

Additional indexing

Item Type:Dissertation (monographical)
Referees:Furrer Reinhard, Schaepman-Strub Gabriela, Schaepman Michael E, Hothorn Torsten
Communities & Collections:07 Faculty of Science > Institute of Mathematics
UZH Dissertations
Dewey Decimal Classification:510 Mathematics
Language:English
Place of Publication:Zürich
Date:2017
Deposited On:16 Dec 2019 12:18
Last Modified:07 Apr 2020 07:20
Number of Pages:172
OA Status:Green

Download

Green Open Access

Download PDF  'Statistical tools to model space-time data with a focus on biodiversity applications'.
Preview
Content: Published Version
Language: English
Filetype: PDF
Size: 46MB