Header

UZH-Logo

Maintenance Infos

Predictive crossvalidation and baseline correction in mixed models for longitudinal data


Braun, Julia. Predictive crossvalidation and baseline correction in mixed models for longitudinal data. 2013, University of Zurich, Faculty of Science.

Abstract

Gemischte Modelle bilden eine sehr flexible Klasse von Modellen zur Analyse longitudinaler Daten. Sowohl feste Effekte, die sich auf die Gesamtpopulation beziehen, als auch individuelle zufällige Effekte können so geschätzt werden. Zusätzlich kann serielle Korrelation verwendet werden, die Abhängigkeiten zwischen Messungen desselben Individuums über die Zeit berück- sichtigt. Aufgrund der speziellen Struktur longitudinaler Daten ist es aber leider in vielen Fällen nicht möglich, bestimmte Methoden anzuwenden, die bei normalen linearen Modellen relativ einfach sind. Stattdessen müssen diese Methoden für die Verwendung in gemischten Modellen angepasst werden. Zwei Beispiele, bei denen substantielle Veränderungen bestimmter Methoden nötig sind, wenn sie bei gemischten Modellen verwendet werden sollen, werden in dieser Arbeit diskutiert. Zunächst beschäftigen wir uns mit dem Problem der Modellwahl. In normalen linearen oder generalisierten linearen Modellen müssen nur die Einflussgrössen gewählt werden. In gemis- chten Modellen ist jedoch auch eine Entscheidung bezüglich der Berücksichtigung von zuälligen Effekten und serieller Korrelation nötig. Übliche Modellwahlkriterien wie Akaikes Information- skriterium (AIC) und das Baysianische Informationskriterium (BIC) müssen zu diesem Zweck verändert werden. Wir schlagen einen alternativen Ansatz zur Wahl linearer gemischter Mod- elle aus prädiktiver Perspektive vor, wo der Durchschnitt von korrekten Bewertungsregeln, wie dem logarithmischen Score oder dem ”continuous ranked probability score”, zum Vergleich der Vorhersageeigenschaften verschiedener Modelle dient. Die Verwendung eines Leave-One-Out- Kreuzvalidierungsansatzes, bei dem das jeweilige Modell nur einmal berechnet werden muss, ermöglicht vergleichsweise schnelle Berechnungen. Der Zusammenhang zwischen dem durch- schnittlichen kreuzvalidierten logarithmischen Score und dem bedingten AIC wird erläutert, und die Methodik wird anhand eines Datensatzes der Swiss HIV Cohort Study (SHCS) demonstriert mit dem Ziel, ein geeignetes Modell zur Vorhersage der CD4+-Lymphozytenzahlen bei HIV- Patienten zu finden. In einem zweiten Schritt wird die prädiktive Kreuzvalidierung für die Verwendung bei gener- alisierten gemischten Modellen erweitert. Dieser Ansatz ist sehr ähnlich wie bei linearen gemis- chten Modellen und basiert auch auf Kreuzvalidierung mit nur einer Modellanpassung. Allerdings kann hier die prädiktive Verteilung nicht mehr analytisch hergeleitet werden. Daher schlagen wir vor, einen Bayesianischen iterativen gewichteten Kleinste-Quadrate-Algorithmus zur Schätzung der individuellen zufälligen Effekte zu verwenden. Wir demonstrieren die Anwendung dieser Methodik für binär-logistische und log-lineare Poisson"=Regression und vergleichen die Ergeb- nisse mit denen alternativer Methoden. Zuletzt untersuchen wir, wie man Veränderungen über die Zeit in verschiedenen Gruppen vergleichen kann. Um gültige Vergleiche durchzuführen, muss sichergestellt sein, dass die Verän- derung in allen Gruppen bezüglich ähnlicher Startwerte betrachtet wird. Besonders in Beobach- tungsstudien sind Messungen zusätzlich auch noch mit Messfehlern behaftet, so dass der wahre Startwert gar nicht beobachtet werden kann. In einem vor kurzem veröffentlichten Artikel wird vorgeschlagen, dieses Problem dadurch zu lösen, dass man ein lineares gemischtes Modell an alle Daten inklusive der Startwerte anpasst und danach die erwartete Veränderung bedingt auf den zugrunde liegenden wahren Startwert berechnet. Da diese Methodik nur eine sehr eingeschränkte Auswahl von Modellen erlaubt, erweitern wir sie, so dass auch zeitabhängige Einflussgrössen und beliebige Interaktionen verwendet werden können. Zusätzlich leiten wir die bedingte erwartete Veränderung in bivariaten Modellen her, so dass auch der Messfehler in anderen zeitvariieren- den Einflussgrössen berücksichtigt werden kann. Wir wenden die vorgeschlagene Technik an, um zu zeigen, dass eine gleichzeitige Infektion mit HIV-1 und Hepatitis C eine unterschiedliche Entwicklung der CD4+ Lymphozyten verursacht. Mixed models represent a very flexible and commonly used model class for the analysis of longitudinal data. They allow for the estimation of both population-specific fixed effects and individual random effects. Additionally, serial correlation can be added to cover dependencies of the measurements of the same individual. Unfortunately, the special structure of longitudinal data makes the use of some fairly simple techniques used in normal linear or generalized linear models impossible, and much more refined methods have to be applied. Two examples of such methods that require substantial modifications when intended for mixed models are given in this thesis. The first issue concerns model choice in mixed models. In a normal linear or generalized linear model, only the covariates have to be chosen. In mixed models, however, a decision on the inclusion and the type of random effects and serial correlation has to be made. Widely used criteria for model choice such as Akaike’s information criterion (AIC) or the Bayesian information criterion (BIC) have to be adapted for this task. We present an alternative approach to selection of linear mixed models from a predictive point of view, where mean proper scoring rules like the logarithmic score or the continuous ranked probability score are calculated to assess and compare a model’s predictive abilities. An approximate leave-one-out crossvalidation approach where the model has to be fitted just once enables fast computations in comparison to a full leave-one-out crossvalidation. Relations of the mean crossvalidated logarithmic score and the recently proposed conditional AIC are discussed. The methodology is applied to a data set from the Swiss HIV Cohort Study (SHCS) to select a suitable model for predicting the course of CD4+ lymphocyte counts. Subsequently, the predictive crossvalidation method is extended to the case of generalized linear mixed models. As in the linear mixed model case, the idea of approximate crossvalidation with one single model fit is applied. However, the calculation of the leave-one-out predictive distribution can no longer be done analytically. Therefore, we propose to use a Bayesian iter- atively weighted least squares (IWLS) algorithm for the calculation of the individual random effects. Two applications of the methodology for binary logistic and log-linear Poisson regression are presented, and comparisons to alternative methods are shown. The second issue concerns the comparison of temporal changes in different groups. For valid comparisons, it has to be made sure that changes are compared with respect to similar baseline values in all groups. Especially in observational studies, measurements are subject to measurement error, so that the true baseline value cannot be known. In a recent paper, it is suggested to tackle this problem by fitting a linear mixed model to all data including the baseline measurement, and then calculating the expected change from baseline conditional on the underlying true baseline value. As the original methodology can only be used for a very narrow set of models, we extend it so that time-dependent covariates and arbitrary interactions can be included. Additionally, we derive the expected change from underlying baseline in bivariate models, so that the baseline measurement error of other time-varying covariates is taken into account. In the application, we demonstrate that a joint infection with HIV-1 and hepatitis C leads to different change in CD4+ counts.

Abstract

Gemischte Modelle bilden eine sehr flexible Klasse von Modellen zur Analyse longitudinaler Daten. Sowohl feste Effekte, die sich auf die Gesamtpopulation beziehen, als auch individuelle zufällige Effekte können so geschätzt werden. Zusätzlich kann serielle Korrelation verwendet werden, die Abhängigkeiten zwischen Messungen desselben Individuums über die Zeit berück- sichtigt. Aufgrund der speziellen Struktur longitudinaler Daten ist es aber leider in vielen Fällen nicht möglich, bestimmte Methoden anzuwenden, die bei normalen linearen Modellen relativ einfach sind. Stattdessen müssen diese Methoden für die Verwendung in gemischten Modellen angepasst werden. Zwei Beispiele, bei denen substantielle Veränderungen bestimmter Methoden nötig sind, wenn sie bei gemischten Modellen verwendet werden sollen, werden in dieser Arbeit diskutiert. Zunächst beschäftigen wir uns mit dem Problem der Modellwahl. In normalen linearen oder generalisierten linearen Modellen müssen nur die Einflussgrössen gewählt werden. In gemis- chten Modellen ist jedoch auch eine Entscheidung bezüglich der Berücksichtigung von zuälligen Effekten und serieller Korrelation nötig. Übliche Modellwahlkriterien wie Akaikes Information- skriterium (AIC) und das Baysianische Informationskriterium (BIC) müssen zu diesem Zweck verändert werden. Wir schlagen einen alternativen Ansatz zur Wahl linearer gemischter Mod- elle aus prädiktiver Perspektive vor, wo der Durchschnitt von korrekten Bewertungsregeln, wie dem logarithmischen Score oder dem ”continuous ranked probability score”, zum Vergleich der Vorhersageeigenschaften verschiedener Modelle dient. Die Verwendung eines Leave-One-Out- Kreuzvalidierungsansatzes, bei dem das jeweilige Modell nur einmal berechnet werden muss, ermöglicht vergleichsweise schnelle Berechnungen. Der Zusammenhang zwischen dem durch- schnittlichen kreuzvalidierten logarithmischen Score und dem bedingten AIC wird erläutert, und die Methodik wird anhand eines Datensatzes der Swiss HIV Cohort Study (SHCS) demonstriert mit dem Ziel, ein geeignetes Modell zur Vorhersage der CD4+-Lymphozytenzahlen bei HIV- Patienten zu finden. In einem zweiten Schritt wird die prädiktive Kreuzvalidierung für die Verwendung bei gener- alisierten gemischten Modellen erweitert. Dieser Ansatz ist sehr ähnlich wie bei linearen gemis- chten Modellen und basiert auch auf Kreuzvalidierung mit nur einer Modellanpassung. Allerdings kann hier die prädiktive Verteilung nicht mehr analytisch hergeleitet werden. Daher schlagen wir vor, einen Bayesianischen iterativen gewichteten Kleinste-Quadrate-Algorithmus zur Schätzung der individuellen zufälligen Effekte zu verwenden. Wir demonstrieren die Anwendung dieser Methodik für binär-logistische und log-lineare Poisson"=Regression und vergleichen die Ergeb- nisse mit denen alternativer Methoden. Zuletzt untersuchen wir, wie man Veränderungen über die Zeit in verschiedenen Gruppen vergleichen kann. Um gültige Vergleiche durchzuführen, muss sichergestellt sein, dass die Verän- derung in allen Gruppen bezüglich ähnlicher Startwerte betrachtet wird. Besonders in Beobach- tungsstudien sind Messungen zusätzlich auch noch mit Messfehlern behaftet, so dass der wahre Startwert gar nicht beobachtet werden kann. In einem vor kurzem veröffentlichten Artikel wird vorgeschlagen, dieses Problem dadurch zu lösen, dass man ein lineares gemischtes Modell an alle Daten inklusive der Startwerte anpasst und danach die erwartete Veränderung bedingt auf den zugrunde liegenden wahren Startwert berechnet. Da diese Methodik nur eine sehr eingeschränkte Auswahl von Modellen erlaubt, erweitern wir sie, so dass auch zeitabhängige Einflussgrössen und beliebige Interaktionen verwendet werden können. Zusätzlich leiten wir die bedingte erwartete Veränderung in bivariaten Modellen her, so dass auch der Messfehler in anderen zeitvariieren- den Einflussgrössen berücksichtigt werden kann. Wir wenden die vorgeschlagene Technik an, um zu zeigen, dass eine gleichzeitige Infektion mit HIV-1 und Hepatitis C eine unterschiedliche Entwicklung der CD4+ Lymphozyten verursacht. Mixed models represent a very flexible and commonly used model class for the analysis of longitudinal data. They allow for the estimation of both population-specific fixed effects and individual random effects. Additionally, serial correlation can be added to cover dependencies of the measurements of the same individual. Unfortunately, the special structure of longitudinal data makes the use of some fairly simple techniques used in normal linear or generalized linear models impossible, and much more refined methods have to be applied. Two examples of such methods that require substantial modifications when intended for mixed models are given in this thesis. The first issue concerns model choice in mixed models. In a normal linear or generalized linear model, only the covariates have to be chosen. In mixed models, however, a decision on the inclusion and the type of random effects and serial correlation has to be made. Widely used criteria for model choice such as Akaike’s information criterion (AIC) or the Bayesian information criterion (BIC) have to be adapted for this task. We present an alternative approach to selection of linear mixed models from a predictive point of view, where mean proper scoring rules like the logarithmic score or the continuous ranked probability score are calculated to assess and compare a model’s predictive abilities. An approximate leave-one-out crossvalidation approach where the model has to be fitted just once enables fast computations in comparison to a full leave-one-out crossvalidation. Relations of the mean crossvalidated logarithmic score and the recently proposed conditional AIC are discussed. The methodology is applied to a data set from the Swiss HIV Cohort Study (SHCS) to select a suitable model for predicting the course of CD4+ lymphocyte counts. Subsequently, the predictive crossvalidation method is extended to the case of generalized linear mixed models. As in the linear mixed model case, the idea of approximate crossvalidation with one single model fit is applied. However, the calculation of the leave-one-out predictive distribution can no longer be done analytically. Therefore, we propose to use a Bayesian iter- atively weighted least squares (IWLS) algorithm for the calculation of the individual random effects. Two applications of the methodology for binary logistic and log-linear Poisson regression are presented, and comparisons to alternative methods are shown. The second issue concerns the comparison of temporal changes in different groups. For valid comparisons, it has to be made sure that changes are compared with respect to similar baseline values in all groups. Especially in observational studies, measurements are subject to measurement error, so that the true baseline value cannot be known. In a recent paper, it is suggested to tackle this problem by fitting a linear mixed model to all data including the baseline measurement, and then calculating the expected change from baseline conditional on the underlying true baseline value. As the original methodology can only be used for a very narrow set of models, we extend it so that time-dependent covariates and arbitrary interactions can be included. Additionally, we derive the expected change from underlying baseline in bivariate models, so that the baseline measurement error of other time-varying covariates is taken into account. In the application, we demonstrate that a joint infection with HIV-1 and hepatitis C leads to different change in CD4+ counts.

Statistics

Downloads

37 downloads since deposited on 10 Apr 2019
20 downloads since 12 months
Detailed statistics

Additional indexing

Item Type:Dissertation (monographical)
Referees:Held Leonhard, Furrer Reinhard
Communities & Collections:UZH Dissertations
Dewey Decimal Classification:Unspecified
Language:English
Place of Publication:Zürich
Date:2013
Deposited On:10 Apr 2019 12:20
Last Modified:15 Apr 2021 15:01
Number of Pages:105
OA Status:Green

Download

Green Open Access

Download PDF  'Predictive crossvalidation and baseline correction in mixed models for longitudinal data'.
Preview
Content: Published Version
Language: English
Filetype: PDF
Size: 1MB