Header

UZH-Logo

Maintenance Infos

Objective bayesian variable and function selection with hyper-g priors


Sabanés Bové, Daniel. Objective bayesian variable and function selection with hyper-g priors. 2013, University of Zurich, Faculty of Science.

Abstract

Die zwei grössten Herausforderungen der Bayesianischen Modellwahl sind die Spezifizierung von Priori-Verteilungen für die Parameter aller Modelle und die Berechnung der daraus resul- tierenden Posteriori-Wahrscheinlichkeiten der Modelle über die marginalen Likelihood-Werte. Mittlerweile gibt es eine breite Literatur zu automatischen und objektiven Priori-Verteilungen. Diese befreien den Statistiker von der manuellen Spezifizierung der Priori-Verteilungen für die Parameter, die schwierig ist wenn keine substantielle Priori-Information vorliegt. Ein wichtiger Vertreter ist die g-Priori von Zellner, die im linearen Modell aufgrund verschiede- ner günstiger Eigenschaften beliebt ist. Daraus entstehen stetige Mischungen von g-Priori- Verteilungen wenn man wiederum eine Priori-Verteilung für den Priori-Kovarianzmatrix- Faktor g annimmt. Diese sogenannten Hyper-g Priori-Verteilungen erübrigen die manuelle Wahl von g, das sehr einflussreich in der statistischen Analyse sein kann, und erhalten teil- weise trotzdem eine geschlossene Form für die marginalen Likelihood-Werte. In einer früheren Arbeit benutzten wir fraktionelle Polynome (FP), die eine Erweiterung der klassischen Polynome sind, in Verbindung mit Hyper-g Priori-Verteilungen, um Kovariablen- und Funktions-Wahl in linearen Modellen zu betreiben. Für generalisierte lineare Modelle (GLM) ist eine Normalverteilung mit Null als Mittelwertsvektor und mit g multiplizierter in- verser erwarteter Fisher-Informations-Matrix als Kovarianzmatrix der natürliche Kandidat für eine verallgemeinerte g-Priori. Die verallgemeinerte Hyper-g Priori-Verteilung beinhaltet zu- sätzlich eine Priori-Verteilung für g. Wir lösen das Hauptproblem, die Berechnung der margi- nalen Likelihood-Werte, mittels einer integrierten Laplace-Approximation. Diese erlaubt eine effiziente Erkundung des Modellraums mittels einer stochastischen Modell-Suche basierend auf Markov-Ketten Monte Carlo, da sie die gleichzeitige Ziehung von unterschiedlich dimen- sionierten Parametern der verschiedenen Modelle vermeidet. Nachdem vielversprechende Modelle gefunden wurden, können jeweils die Parameter mit Hilfe eines Metropolis-Hastings Verfahrens gezogen werden. Splines sind flexibler als FP und damit eine attraktive Alternative. Wir stellen sie als gemischte Modelle dar, wobei der nicht-lineare Anteil durch die zufälligen Effekte parametrisiert wird. Nachdem diese heraus integriert sind, können wir die Hyper-g Priori-Verteilung auf die ver- bliebenen Koeffizienten, welche die linearen Anteile der Kovariablen-Effekte parametrisieren, anwenden. Ein additives Modell ist dann definiert durch die (ganzzahligen) Freiheitsgrade aller Kovariablen-Effekte, wobei wir auch den Ausschluss von Kovariablen und exakt linea- re Effekte zulassen. Für GLM verwenden wir den iterierten gewichteten Kleinste-Quadrate Algorithmus um ein lineares Modell zu erhalten, von dem wir dann die passende Struktur der Priori-Kovarianzmatrix für die Hyper-g Priori-Verteilung ableiten. Eine Simulationsstudie zeigt auf dass unser Verfahren konkurrenzfähig ist im Vergleich zu anderen Bayesianischen additiven Modellwahl-Verfahren. Wir verwenden es zur Schätzung des Diabetes-Risikos mit- tels logistischer Regression. Um Überlebenszeiten zu analysieren, erweitern wir die Hyper-g Priori-Verteilung auf Propor- tionale Hazards Regression. Als ersten Ansatz verwenden wir eine Poisson-Approximation der vollen Likelihood, die bereits von Cai und Betensky (2003) vorgeschlagen wurde. Wir be- schreiben wie diese fehlerhafte Approximation mit Hilfe einer Erweiterung des Datensatzes korrigiert werden kann. Diese Methode hat den Nachteil dass der Datensatz quadratisch mit der Stichprobengrösse wächst. Der zweite Ansatz erhält die lineare Daten-Komplexität und basiert auf sogenannten Test-basierten Bayes Faktoren (TBF), die von Johnson (2005) vorge- schlagen wurden. Statt die marginalen Likelihood-Werte für die Original-Daten zu berechnen, werden sie hier für die (partiellen) Likelihood-Quotienten Teststatistiken (auch als Devian- zen bezeichnet) berechnet. Wir erklären wieso die implizit angenommene Priori-Verteilung genau unserer verallgemeinerten g-Priori-Verteilung entspricht. Wir spezifizieren eine Priori- Verteilung für den Skalierungsfaktor g, was uns zu TBF-basierten Hyper-g Priori-Verteilungen führt. Bei der Entwicklung eines klinischen Vorhersage-Modells mit logistischer Regression beobachten wir eine gute Approximations- und Vorhersage-Genauigkeit unseres Ansatzes. Bei der Anwendung auf Cox-Regression erhalten wir ähnliche Ergebnisse wie mit der Poisson- Approximation. Bayesian model selection poses two main challenges: the specification of parameter priors for all models, and the computation of the resulting posterior model probabilities via the marginal likelihoods. There is now a large literature on automatic and objective parameter priors, which unburden the statistician from eliciting manually the parameter priors for all models in the absence of substantive prior information. One important example is Zellner’s g-prior, which has become a favourite choice of prior in the Gaussian linear model, due to various favourable properties. Continuous mixtures of Zellner’s g-priors are obtained by assigning a hyperprior to the prior covariance factor g. These hyper-g priors avoid the user’s choice of g, which can be very influential in the statistical analysis, and allow for a closed form marginal likelihood for specific hyperpriors. In earlier work we used fractional polynomial (FP) transformations, which are an extension of classical polynomials, together with hyper-g priors, to perform variable and function se- lection in Gaussian models. For generalized linear models (GLMs), a natural candidate for a generalized g-prior is a mean-zero Gaussian prior on the regression coefficients, with the in- verse expected Fisher information multiplied with g as the covariance matrix. The generalized hyper-g prior specifies an additional (arbitrary) hyperprior on the scaling factor g. We solve the main difficulty, the computation of the marginal likelihood, with an integrated Laplace ap- proximation. This accurate approach allows to explore the model space with a Markov chain Monte Carlo (MCMC) based stochastic search, avoiding the simultaneous sampling of model parameters of varying dimensions and yielding a sample of promising models. Subsequently we sample model-specific parameters using a tuning-free Metropolis-Hastings algorithm. Splines are an attractive alternative to FPs, because they are more flexible. We represent the splines as mixed models, where the non-linear parts are parametrized by the random effects. After integrating them out, we can apply the hyper-g prior to the remaining coefficients that parametrize the linear parts of the covariate effects. Each additive model is defined by the collection of (integer) degrees of freedom for all covariates, where we also allow for exclusion and strictly linear inclusion of covariates. For GLMs, we use the the iteratively weighted least squares algorithm to obtain a linear model approximation, from which we then derive the appropriate form of the prior covariance matrix for the hyper-g prior. In a simulation study we find that our method performs competitively in comparison with several other Bayesian additive model selection procedures. We use the method to derive logistic regression models for estimating diabetes risk. In order to analyse survival data, we extend the hyper-g prior to proportional hazards re- gression. The first idea is to use a Poisson model approximation of the full likelihood, which was first proposed by Cai and Betensky (2003). We describe how it can be corrected, and obtain a data augmentation which has quadratic complexity in the sample size. The second idea retains linear complexity, and builds on so-called test-based Bayes factors (TBFs), which were proposed by Johnson (2005). Instead of computing the marginal likelihood for the orig- inal data, it essentially computes the marginal likelihood for the (partial) likelihood ratio test statistics (also called deviances). We explain that the prior which is implicit in this approxima- tion is exactly our generalised g-prior, and assign a hyperprior to the scaling factor g, which leads to TBF-based hyper-g priors. For the development of a clinical prediction model with logistic regression, we observe good approximation accuracy and competitive performance in a bootstrap study. For a Cox regression application, we observe similar results as with the Poisson model approximation.

Abstract

Die zwei grössten Herausforderungen der Bayesianischen Modellwahl sind die Spezifizierung von Priori-Verteilungen für die Parameter aller Modelle und die Berechnung der daraus resul- tierenden Posteriori-Wahrscheinlichkeiten der Modelle über die marginalen Likelihood-Werte. Mittlerweile gibt es eine breite Literatur zu automatischen und objektiven Priori-Verteilungen. Diese befreien den Statistiker von der manuellen Spezifizierung der Priori-Verteilungen für die Parameter, die schwierig ist wenn keine substantielle Priori-Information vorliegt. Ein wichtiger Vertreter ist die g-Priori von Zellner, die im linearen Modell aufgrund verschiede- ner günstiger Eigenschaften beliebt ist. Daraus entstehen stetige Mischungen von g-Priori- Verteilungen wenn man wiederum eine Priori-Verteilung für den Priori-Kovarianzmatrix- Faktor g annimmt. Diese sogenannten Hyper-g Priori-Verteilungen erübrigen die manuelle Wahl von g, das sehr einflussreich in der statistischen Analyse sein kann, und erhalten teil- weise trotzdem eine geschlossene Form für die marginalen Likelihood-Werte. In einer früheren Arbeit benutzten wir fraktionelle Polynome (FP), die eine Erweiterung der klassischen Polynome sind, in Verbindung mit Hyper-g Priori-Verteilungen, um Kovariablen- und Funktions-Wahl in linearen Modellen zu betreiben. Für generalisierte lineare Modelle (GLM) ist eine Normalverteilung mit Null als Mittelwertsvektor und mit g multiplizierter in- verser erwarteter Fisher-Informations-Matrix als Kovarianzmatrix der natürliche Kandidat für eine verallgemeinerte g-Priori. Die verallgemeinerte Hyper-g Priori-Verteilung beinhaltet zu- sätzlich eine Priori-Verteilung für g. Wir lösen das Hauptproblem, die Berechnung der margi- nalen Likelihood-Werte, mittels einer integrierten Laplace-Approximation. Diese erlaubt eine effiziente Erkundung des Modellraums mittels einer stochastischen Modell-Suche basierend auf Markov-Ketten Monte Carlo, da sie die gleichzeitige Ziehung von unterschiedlich dimen- sionierten Parametern der verschiedenen Modelle vermeidet. Nachdem vielversprechende Modelle gefunden wurden, können jeweils die Parameter mit Hilfe eines Metropolis-Hastings Verfahrens gezogen werden. Splines sind flexibler als FP und damit eine attraktive Alternative. Wir stellen sie als gemischte Modelle dar, wobei der nicht-lineare Anteil durch die zufälligen Effekte parametrisiert wird. Nachdem diese heraus integriert sind, können wir die Hyper-g Priori-Verteilung auf die ver- bliebenen Koeffizienten, welche die linearen Anteile der Kovariablen-Effekte parametrisieren, anwenden. Ein additives Modell ist dann definiert durch die (ganzzahligen) Freiheitsgrade aller Kovariablen-Effekte, wobei wir auch den Ausschluss von Kovariablen und exakt linea- re Effekte zulassen. Für GLM verwenden wir den iterierten gewichteten Kleinste-Quadrate Algorithmus um ein lineares Modell zu erhalten, von dem wir dann die passende Struktur der Priori-Kovarianzmatrix für die Hyper-g Priori-Verteilung ableiten. Eine Simulationsstudie zeigt auf dass unser Verfahren konkurrenzfähig ist im Vergleich zu anderen Bayesianischen additiven Modellwahl-Verfahren. Wir verwenden es zur Schätzung des Diabetes-Risikos mit- tels logistischer Regression. Um Überlebenszeiten zu analysieren, erweitern wir die Hyper-g Priori-Verteilung auf Propor- tionale Hazards Regression. Als ersten Ansatz verwenden wir eine Poisson-Approximation der vollen Likelihood, die bereits von Cai und Betensky (2003) vorgeschlagen wurde. Wir be- schreiben wie diese fehlerhafte Approximation mit Hilfe einer Erweiterung des Datensatzes korrigiert werden kann. Diese Methode hat den Nachteil dass der Datensatz quadratisch mit der Stichprobengrösse wächst. Der zweite Ansatz erhält die lineare Daten-Komplexität und basiert auf sogenannten Test-basierten Bayes Faktoren (TBF), die von Johnson (2005) vorge- schlagen wurden. Statt die marginalen Likelihood-Werte für die Original-Daten zu berechnen, werden sie hier für die (partiellen) Likelihood-Quotienten Teststatistiken (auch als Devian- zen bezeichnet) berechnet. Wir erklären wieso die implizit angenommene Priori-Verteilung genau unserer verallgemeinerten g-Priori-Verteilung entspricht. Wir spezifizieren eine Priori- Verteilung für den Skalierungsfaktor g, was uns zu TBF-basierten Hyper-g Priori-Verteilungen führt. Bei der Entwicklung eines klinischen Vorhersage-Modells mit logistischer Regression beobachten wir eine gute Approximations- und Vorhersage-Genauigkeit unseres Ansatzes. Bei der Anwendung auf Cox-Regression erhalten wir ähnliche Ergebnisse wie mit der Poisson- Approximation. Bayesian model selection poses two main challenges: the specification of parameter priors for all models, and the computation of the resulting posterior model probabilities via the marginal likelihoods. There is now a large literature on automatic and objective parameter priors, which unburden the statistician from eliciting manually the parameter priors for all models in the absence of substantive prior information. One important example is Zellner’s g-prior, which has become a favourite choice of prior in the Gaussian linear model, due to various favourable properties. Continuous mixtures of Zellner’s g-priors are obtained by assigning a hyperprior to the prior covariance factor g. These hyper-g priors avoid the user’s choice of g, which can be very influential in the statistical analysis, and allow for a closed form marginal likelihood for specific hyperpriors. In earlier work we used fractional polynomial (FP) transformations, which are an extension of classical polynomials, together with hyper-g priors, to perform variable and function se- lection in Gaussian models. For generalized linear models (GLMs), a natural candidate for a generalized g-prior is a mean-zero Gaussian prior on the regression coefficients, with the in- verse expected Fisher information multiplied with g as the covariance matrix. The generalized hyper-g prior specifies an additional (arbitrary) hyperprior on the scaling factor g. We solve the main difficulty, the computation of the marginal likelihood, with an integrated Laplace ap- proximation. This accurate approach allows to explore the model space with a Markov chain Monte Carlo (MCMC) based stochastic search, avoiding the simultaneous sampling of model parameters of varying dimensions and yielding a sample of promising models. Subsequently we sample model-specific parameters using a tuning-free Metropolis-Hastings algorithm. Splines are an attractive alternative to FPs, because they are more flexible. We represent the splines as mixed models, where the non-linear parts are parametrized by the random effects. After integrating them out, we can apply the hyper-g prior to the remaining coefficients that parametrize the linear parts of the covariate effects. Each additive model is defined by the collection of (integer) degrees of freedom for all covariates, where we also allow for exclusion and strictly linear inclusion of covariates. For GLMs, we use the the iteratively weighted least squares algorithm to obtain a linear model approximation, from which we then derive the appropriate form of the prior covariance matrix for the hyper-g prior. In a simulation study we find that our method performs competitively in comparison with several other Bayesian additive model selection procedures. We use the method to derive logistic regression models for estimating diabetes risk. In order to analyse survival data, we extend the hyper-g prior to proportional hazards re- gression. The first idea is to use a Poisson model approximation of the full likelihood, which was first proposed by Cai and Betensky (2003). We describe how it can be corrected, and obtain a data augmentation which has quadratic complexity in the sample size. The second idea retains linear complexity, and builds on so-called test-based Bayes factors (TBFs), which were proposed by Johnson (2005). Instead of computing the marginal likelihood for the orig- inal data, it essentially computes the marginal likelihood for the (partial) likelihood ratio test statistics (also called deviances). We explain that the prior which is implicit in this approxima- tion is exactly our generalised g-prior, and assign a hyperprior to the scaling factor g, which leads to TBF-based hyper-g priors. For the development of a clinical prediction model with logistic regression, we observe good approximation accuracy and competitive performance in a bootstrap study. For a Cox regression application, we observe similar results as with the Poisson model approximation.

Statistics

Downloads

45 downloads since deposited on 11 Apr 2019
45 downloads since 12 months
Detailed statistics

Additional indexing

Item Type:Dissertation (monographical)
Referees:Held Leonhard, Furrer Reinhard
Communities & Collections:UZH Dissertations
Dewey Decimal Classification:Unspecified
Language:English
Place of Publication:Zürich
Date:2013
Deposited On:11 Apr 2019 12:53
Last Modified:25 Sep 2019 00:14
Number of Pages:203
OA Status:Green
Related URLs:https://www.recherche-portal.ch/primo-explore/fulldisplay?docid=ebi01_prod010267956&context=L&vid=ZAD&search_scope=default_scope&tab=default_tab&lang=de_DE (Library Catalogue)

Download

Green Open Access

Download PDF  'Objective bayesian variable and function selection with hyper-g priors'.
Preview
Content: Published Version
Language: English
Filetype: PDF
Size: 2MB