Header

UZH-Logo

Maintenance Infos

Generalised linear mixed models: likelihood and Bayesian computations with applications in epidemiology


Sauter, Rafael. Generalised linear mixed models: likelihood and Bayesian computations with applications in epidemiology. 2015, University of Zurich, Faculty of Science.

Abstract

Wiederholtes Messen desselben Patienten impliziert, dass die erhobenen Beobachtungen nicht unabhängig sind, da diese von denselben patientenspezifischen Eigenschaften beeinflusst werden. Ein generalisiertes lineares gemischtes Modell (GLMM) berücksichtigt diese Abhängigkeiten, indem patientenspezifische Modellparameter eingeführt werden, die als zufällige Effekte bezeichnet werden. Die Struktur der Abhängigkeiten in den Daten kann Formen annehmen, die verschieden sind von der, welche durch wiederholtes beobachten derselben Patienten auftritt. Es kann eine zeitliche, räumliche oder zeit-räumliche Abhängigkeit, im zugrunde liegenden Prozess, vorhanden sein. Auch ein Netzwerk aus verschiedenen Einheiten, die verbunden sind und wiederholt beobachtet werden, kann den Einschluss von zufälligen Effekten in einem GLMM motivieren. Ein GLMM schützt, bei gegebener Struktur der zufälligen Effekte, den bedingten Erwartungswert der interessierenden Parameter, die als fixe Effekte bezeichnet werden. Die Likelihood Inferenz bestimmt die bedingten Schätzwerte durch numerische Integration uber die zufälligen Effekte, da dieses Problem generell nicht analytisch lösbar ist. Die numerische Integration kann rechnerisch schwer lösbar sein, je nach Komplexität der Struktur der zufälligen Effekte und der verfügbaren Daten. Ein Bayesianischer Inferenz Ansatz bildet die Struktur der zufälligen Effekt, unter Einschluss von Priori-Verteilungen für diese Parameter, ab. Der Einschluss von Priori-Verteilungen ist flexibel und kann die unterschiedliche, verfügbare Information auf verschiedenen Ebenen des Modells abbilden. Bayesianische Inferenz wird üblicherweise mit einer Markov-Chain-Monte-Carlo (MCMC) Simulation durchgefuhrt, die eine grosse Rechenleistung verlangt. Falls der Struktur der zufälligen Effekte ausschliesslich Gaussche Priori-Verteilungen zugewiesen werden, nur eine zusätzliche Ebene von Hyperparametern und eine beschränkte Ordnung der Abhängigkeiten zwischen den Einheiten angenommen wird – so dass ein Gaussches Markov Zufallsfeld resultiert – kann die Methode der integrated nested Laplace approximations (INLA) als Alternative zu MCMC verwendet werden. INLA verlangt weniger Rechenleistung, was insbesondere fur komplexe Modelle ein Vorteil ist. Diese Dissertation untersucht beide Inferenz Methoden fur GLMMs, diskutiert damit verbundene rechentechnische Aspekte und erläutert diese anhand mehrerer epidemiologischen Anwendungen. Als Erstes wird die Likelihood Inferenz fur ein linear gemischtes Modell, ba- sierend auf longitudinale Daten aus der Schweizerischen HIV Kohortenstudie durchgeführt. Das Modell untersucht, ob vorherig beobachtete Lymphozyt-Subtypen relevante Prädiktoren für den Krankheitsverlauf von unbehandelten und behandelten HIV infizierte Patienten sind. Im darauf folgenden Teil wird diskutiert wie die spezielle Situation, bei welcher patientenspezifische longitudinale Profile keine Variation in der Ausgangsgrosse haben, die Likelihood und Bayesianische Inferenz mit INLA beeinflussen. Wir zeigen, dass mit einem zunehmenden Anteil an Patienten, welche keine Variation in der Ausgangsgrosse haben, die Maximum like-lihood (ML) Schätzung der Parameter, in einem Modell mit einer binären Ausgangsgrosse, numerische Probleme verursacht. Weiterhin zeigen wir, dass in einem solchen Fall INLA Schätzungen generiert, die weder mit ML noch mit MCMC Schätzungen ubereinstimmen. Im dritten Teil diskutieren wir wie die besondere Abhängigkeitsstruktur einer Netzwerk Meta-Analyse, unter Berucksichtigung der versuchsspezifischen Heterogenität und moglicher Inkonsistenzen im Netzwerk, mit INLA implementiert wird. Der letzte Teil der Dissertation untersucht die Verwendung von informativen Priori-Verteilungen, welche adaptive Gewichte verwenden, die anhand der beobachteten Daten bestimmt werden. Üblicherweise werden nicht informative und unkorrelierte Priori-Verteilung fur die fixen Effekte in einem GLMM angenommen. In manchen Situationen kann diese Annahme zu unrealistischen Parameter Schätzungen führen. Adaptives gewichten der Priori-Verteilungen, basierend auf den beobachteten Daten und unter Einschluss von Korrelationen, kann dazu dienen dieses Problem zu beheben.


Repeatedly observing the same patient implies that these samples will not be independent, as they are affected by the same common patient-specific characteristics. A generalized linear mixed model (GLMM) takes this dependency structure into account by introducing patient- specific model parameters which are called random effects. The dependency structure in the collected data could have various forms, though other than the one which arises from repeatedly observing patients in a study population. A temporal, spatial or even spatio-temporal pattern may be present in the underlying sampling process. Or a network of different clusters which are connected and repeatedly observed may motivate the inclusion of random effects in a GLMM. Given the random effect structure, a GLMM investigates the conditional expectation for the parameters of interest, which are called fixed effects. In likelihood inference, the conditional estimates are determined by numerically integrating over the random effects, as in general this problem is not analytically solvable. The numerical integration may be computationally difficult to solve, depending on the complexity of the random effect structure and the data at hand. A Bayesian inference approach maps the random effect structure by including prior distributions for these parameters. The inclusion of prior distributions is flexible and may reflect different stages of information at different levels of the model. Bayesian inference is commonly carried out using computationally intensive Markov chain Monte Carlo (MCMC) sampling. If exclusively Gaussian priors are assigned to the random effect structure, with only one additional level of hyperparameters and a limited order of dependencies between clusters – such that a Gaussian Markov random field results – one can apply integrated nested Laplace approximations (INLA). INLA is an alternative to MCMC and requires less computational effort, which especially for complex models is an huge advantage. This thesis investigates both inference approaches for GLMMs, discusses related computational issues and illustrates these with several epidemiological applications. First, likelihood inference is carried out for a model based on longitudinal data from the Swiss HIV cohort study. This model investigates if past lymphocyte subtypes are relevant predictors for the disease progression among untreated and treated HIV infected patients. In the second part we discuss how the special situation, in which patient-specific longitudinal profiles show no variation in the response, influences the likelihood and Bayesian inference with INLA. We show that, with an increasing proportion of patients who have no variation in the response, numerical issues arise in the Maximum likelihood (ML) estimation of a binary response GLMM. Furthermore, we show that in this case INLA produces estimates that are inconsistent with ML or MCMC inference. In the third part we discuss how the particular dependency structure of a network meta-analysis is implemented with INLA, taking into account trial specific het- erogeneity and possible network inconsistencies. The last part of the thesis examines the use of informative priors which use adaptive weights that are based on the observed data. Usually the prior distributions for the fixed effects in a GLMM are assumed to be uninformative and uncorrelated. In some situations this assumption may lead to unrealistic parameter estimates. An adaptively weighted informative prior distribution may help to resolve this problem.

Abstract

Wiederholtes Messen desselben Patienten impliziert, dass die erhobenen Beobachtungen nicht unabhängig sind, da diese von denselben patientenspezifischen Eigenschaften beeinflusst werden. Ein generalisiertes lineares gemischtes Modell (GLMM) berücksichtigt diese Abhängigkeiten, indem patientenspezifische Modellparameter eingeführt werden, die als zufällige Effekte bezeichnet werden. Die Struktur der Abhängigkeiten in den Daten kann Formen annehmen, die verschieden sind von der, welche durch wiederholtes beobachten derselben Patienten auftritt. Es kann eine zeitliche, räumliche oder zeit-räumliche Abhängigkeit, im zugrunde liegenden Prozess, vorhanden sein. Auch ein Netzwerk aus verschiedenen Einheiten, die verbunden sind und wiederholt beobachtet werden, kann den Einschluss von zufälligen Effekten in einem GLMM motivieren. Ein GLMM schützt, bei gegebener Struktur der zufälligen Effekte, den bedingten Erwartungswert der interessierenden Parameter, die als fixe Effekte bezeichnet werden. Die Likelihood Inferenz bestimmt die bedingten Schätzwerte durch numerische Integration uber die zufälligen Effekte, da dieses Problem generell nicht analytisch lösbar ist. Die numerische Integration kann rechnerisch schwer lösbar sein, je nach Komplexität der Struktur der zufälligen Effekte und der verfügbaren Daten. Ein Bayesianischer Inferenz Ansatz bildet die Struktur der zufälligen Effekt, unter Einschluss von Priori-Verteilungen für diese Parameter, ab. Der Einschluss von Priori-Verteilungen ist flexibel und kann die unterschiedliche, verfügbare Information auf verschiedenen Ebenen des Modells abbilden. Bayesianische Inferenz wird üblicherweise mit einer Markov-Chain-Monte-Carlo (MCMC) Simulation durchgefuhrt, die eine grosse Rechenleistung verlangt. Falls der Struktur der zufälligen Effekte ausschliesslich Gaussche Priori-Verteilungen zugewiesen werden, nur eine zusätzliche Ebene von Hyperparametern und eine beschränkte Ordnung der Abhängigkeiten zwischen den Einheiten angenommen wird – so dass ein Gaussches Markov Zufallsfeld resultiert – kann die Methode der integrated nested Laplace approximations (INLA) als Alternative zu MCMC verwendet werden. INLA verlangt weniger Rechenleistung, was insbesondere fur komplexe Modelle ein Vorteil ist. Diese Dissertation untersucht beide Inferenz Methoden fur GLMMs, diskutiert damit verbundene rechentechnische Aspekte und erläutert diese anhand mehrerer epidemiologischen Anwendungen. Als Erstes wird die Likelihood Inferenz fur ein linear gemischtes Modell, ba- sierend auf longitudinale Daten aus der Schweizerischen HIV Kohortenstudie durchgeführt. Das Modell untersucht, ob vorherig beobachtete Lymphozyt-Subtypen relevante Prädiktoren für den Krankheitsverlauf von unbehandelten und behandelten HIV infizierte Patienten sind. Im darauf folgenden Teil wird diskutiert wie die spezielle Situation, bei welcher patientenspezifische longitudinale Profile keine Variation in der Ausgangsgrosse haben, die Likelihood und Bayesianische Inferenz mit INLA beeinflussen. Wir zeigen, dass mit einem zunehmenden Anteil an Patienten, welche keine Variation in der Ausgangsgrosse haben, die Maximum like-lihood (ML) Schätzung der Parameter, in einem Modell mit einer binären Ausgangsgrosse, numerische Probleme verursacht. Weiterhin zeigen wir, dass in einem solchen Fall INLA Schätzungen generiert, die weder mit ML noch mit MCMC Schätzungen ubereinstimmen. Im dritten Teil diskutieren wir wie die besondere Abhängigkeitsstruktur einer Netzwerk Meta-Analyse, unter Berucksichtigung der versuchsspezifischen Heterogenität und moglicher Inkonsistenzen im Netzwerk, mit INLA implementiert wird. Der letzte Teil der Dissertation untersucht die Verwendung von informativen Priori-Verteilungen, welche adaptive Gewichte verwenden, die anhand der beobachteten Daten bestimmt werden. Üblicherweise werden nicht informative und unkorrelierte Priori-Verteilung fur die fixen Effekte in einem GLMM angenommen. In manchen Situationen kann diese Annahme zu unrealistischen Parameter Schätzungen führen. Adaptives gewichten der Priori-Verteilungen, basierend auf den beobachteten Daten und unter Einschluss von Korrelationen, kann dazu dienen dieses Problem zu beheben.


Repeatedly observing the same patient implies that these samples will not be independent, as they are affected by the same common patient-specific characteristics. A generalized linear mixed model (GLMM) takes this dependency structure into account by introducing patient- specific model parameters which are called random effects. The dependency structure in the collected data could have various forms, though other than the one which arises from repeatedly observing patients in a study population. A temporal, spatial or even spatio-temporal pattern may be present in the underlying sampling process. Or a network of different clusters which are connected and repeatedly observed may motivate the inclusion of random effects in a GLMM. Given the random effect structure, a GLMM investigates the conditional expectation for the parameters of interest, which are called fixed effects. In likelihood inference, the conditional estimates are determined by numerically integrating over the random effects, as in general this problem is not analytically solvable. The numerical integration may be computationally difficult to solve, depending on the complexity of the random effect structure and the data at hand. A Bayesian inference approach maps the random effect structure by including prior distributions for these parameters. The inclusion of prior distributions is flexible and may reflect different stages of information at different levels of the model. Bayesian inference is commonly carried out using computationally intensive Markov chain Monte Carlo (MCMC) sampling. If exclusively Gaussian priors are assigned to the random effect structure, with only one additional level of hyperparameters and a limited order of dependencies between clusters – such that a Gaussian Markov random field results – one can apply integrated nested Laplace approximations (INLA). INLA is an alternative to MCMC and requires less computational effort, which especially for complex models is an huge advantage. This thesis investigates both inference approaches for GLMMs, discusses related computational issues and illustrates these with several epidemiological applications. First, likelihood inference is carried out for a model based on longitudinal data from the Swiss HIV cohort study. This model investigates if past lymphocyte subtypes are relevant predictors for the disease progression among untreated and treated HIV infected patients. In the second part we discuss how the special situation, in which patient-specific longitudinal profiles show no variation in the response, influences the likelihood and Bayesian inference with INLA. We show that, with an increasing proportion of patients who have no variation in the response, numerical issues arise in the Maximum likelihood (ML) estimation of a binary response GLMM. Furthermore, we show that in this case INLA produces estimates that are inconsistent with ML or MCMC inference. In the third part we discuss how the particular dependency structure of a network meta-analysis is implemented with INLA, taking into account trial specific het- erogeneity and possible network inconsistencies. The last part of the thesis examines the use of informative priors which use adaptive weights that are based on the observed data. Usually the prior distributions for the fixed effects in a GLMM are assumed to be uninformative and uncorrelated. In some situations this assumption may lead to unrealistic parameter estimates. An adaptively weighted informative prior distribution may help to resolve this problem.

Statistics

Downloads

852 downloads since deposited on 03 Jul 2018
354 downloads since 12 months
Detailed statistics

Additional indexing

Item Type:Dissertation (monographical)
Referees:Held Leonhard, Faes Christel, Furrer Reinhard, Günthard Huldrych F, Hothorn Torsten
Communities & Collections:04 Faculty of Medicine > Epidemiology, Biostatistics and Prevention Institute (EBPI)
UZH Dissertations
Dewey Decimal Classification:570 Life sciences; biology
Language:English
Place of Publication:Zürich
Date:2015
Deposited On:03 Jul 2018 08:52
Last Modified:15 Apr 2021 14:46
Number of Pages:184
OA Status:Green
Free access at:Official URL. An embargo period may apply.

Download

Green Open Access

Download PDF  'Generalised linear mixed models: likelihood and Bayesian computations with applications in epidemiology'.
Preview
Content: Published Version
Filetype: PDF
Size: 3MB