Header

UZH-Logo

Maintenance Infos

Additive Bayesian networks for multivariate data : parameter learning, model fitting and applications in veterinary epidemiology


Pittavino, Marta. Additive Bayesian networks for multivariate data : parameter learning, model fitting and applications in veterinary epidemiology. 2016, University of Zurich, Faculty of Science.

Abstract

Veterin¨ repidemiologie, eine der facettenreichen Anwendungen der Statistik, zielt darauf ver- a mutete Zusammenh¨ nge zwischen Kovariaten oder Pr¨ diktoren und einer oder mehr Ziel- a a variablen zu untersuchen. H¨ ufig sind die zugrundeliegenden biologischen Prozesse kom- a plex und resultieren in multiplen Abh¨ ngigkeiten innerhalb der Pr¨ diktoren und der Zielva- a a riablen. Standardverfahren der Epidemiologie und Statistik sind nur begrenzt geeignet, um multiple Abh¨ ngigkeiten multivariater Daten zu beschreiben. Die hier vorgestellte Arbeit ver- a wendet und entwickelt eine Methodik weiter, die sich dieser Herausforderung stellt: Additi- ve Bayesianische Netze (ABN). ABN ist ein graphisches Modell, dass durch die Darstellung ¨ der gemeinsamen Wahrscheinlichkeitsverteilung die ublichen generalisierten linearen Model- le (GLM) ausweitet auf multiple abh¨ ngige Variablen. a

Die PhD Arbeit besteht aus vier Teilen. In den ersten beiden Teilen wird die praktische Anwen- dung von ABN anhand von zwei veterin¨ repidemiologischen Fallstudien dargestellt. Hierbei a wird der zus¨ tzliche Nutzen durch ABN im Vergleich zu klassischen Verfahren deutlich. Die a ausgewerteten multivariaten Daten weisen haupts¨ chlich bin¨ re, aber auch kontinuierliche a a und Poisson Datenformate auf. Ziel der ersten Studie war es, vergleichend ausgewertet mit ¨ ABN und GLM, Risikofaktoren fur eine Infektion mit Leptospira interrogans sv pomona zu ¨ ¨ ¨ bestimmen. Dass personliche Schutzausrustung die Odds einer Infektion erhoht, also nicht ¨ ¨ ¨ schutzt, wurde nur in der Auswertung mit ABN deutlich. Grund hierfur ist die Moglichkeit ¨ in ABN die Abh¨ ngigkeiten zwischen allen Variablen zu berucksichtigen. Die zweite Fall- a a a ¨ studie besch¨ ftigt sich mit der Einstellung von Tier¨ rzten gegenuber der Euthanasie in der Kleintierpraxis und Pr¨ diktoren wie zum Beispiel Alter und Geschlecht. Mit klassischen Ver- a fahren ist es schwierig, die Effekte von Alter und Geschlecht in Beobachtungsstudien ge- a ¨ a ¨ trennt zu sch¨ tzen, da die jungeren Tier¨ rzte mehrheitlich weiblich und die alteren m¨ nnlich a ¨ sind. Auch hier erwies sich die Anwendung von ABN, aufgrund der Moglichkeit komplexe Abh¨ ngigkeiten zwischen verschiedenen Variablen darzustellen, als vorteilhaft. Ebenfalls nur a durch ABN wurde die Bedeutung der Arbeit in einem Team deutlich: diese Variable wies ¨ ¨ die hochste Anzahl an Verknupfungen zu allen anderen Variablen auf und unterstreicht die ¨ unterstutzende Rolle eines Teams in stressvollen Situationen. Die Zuverl¨ ssigkeit der ABN a Modelle wurde durch ein parametrisches Bootstrapverfahren mittels Markov Chain Monte ¨ ¨ Carlo (MCMC) mithilfe der Software JAGS uberpruft. Der dritte Teil der PhD Arbeit beinhal- tet Anpassung und Verbesserung einer Software zum Lernen und Anpassen von ABN Mo- ¨ dellen: dem R Paket (ABN). Dies beinhaltete die Modifikation von Funktionen fur die graphi- ¨ sche Darstellung und die entsprechende Dokumentation. Der Hohepunkt dieser PhD Arbeit liegt im Erkenntnisgewinn der ABN zugrundeliegenden Theorie. Hierbei sind zwei Heraus- forderungen im Zusammenhang mit der Bayesianischen Modellauswahl herauszustreichen: Die Spezifikation der Parameterprior und die Berechnung der resultierenden Posteriorwahr- scheinlichkeiten mittels marginalem Likelihood. Ein geeigneter konjugierter Parameterprior ¨ ¨ fur ABN, der die Dirichlet-Dichte fur additive Parameter generalisiert, wird vorgestellt. Die- ¨ ¨ ser Prior erfullt die erwunschte Eigenschaft der Unabh¨ ngigkeit der Bayesianischen Netze a ¨ und uberwindet das Problem der kompletten Datenseparation, die mit anderen ausgew¨ hlten a ¨ Priors vorkommen kann. Weiterhin wurde eine analytische Losung der marginalen Like- lihood gefunden, die ohne Laplace Approximation oder MCMC Methoden angewendet wer- ¨ ¨ den kann. Nachgewiesen wurde ebenfalls die Score Aquivalenzeigenschaft, dass aquivalente Netze die gleiche Scorefunktion erlangen. Durch die praktische Anwendung in zwei vete- rin¨ repidemiologischen Studien, die Anpassung einer ABN-Software und einer vereinfachten a ¨ Berechnungsmoglichkeit der marginalen Likelihood tr¨ gt diese PhD Arbeit zu einer Weiter- a entwicklung der ABN-Methodik bei. Veterinary epidemiology, one of the multifaceted applications of statistics, primarily aims to investigate hypothesized relationships between covariates or predictors of interest and one, or more, outcome variables. Commonly, the biological processes, which generated the data, are extremely complex, resulting in multiple dependencies between explanatory and response variables. Standard epidemiological and statistical approaches have shown a limited ability to sufficiently describe such inter-dependent multivariate connections. The following work extends and improves a methodology that addresses these issues: additive Bayesian networks (ABNs). ABNs are types of graphical model that extend the usual Generalized Linear Model (GLM) to multiple dependent variables through the representation of their joint probability.

The PhD thesis consists of four parts. The work begins with the presentation of the commonly ‘used’ ABN methodology in veterinary epidemiology. Two relevant case studies are presented, giving evidence that ABN models offer added value compared to existing standard statistical and epidemiological methods, i.e., GLM. The multivariate data analyzed are mainly binary, but also continuous and count data. The objective of the first case study was to identify factors associated with Leptospira interrogans sv Pomona infection by exploring the advantages and disadvantages of the two methodologies. Thanks to ABN’s capacity to model the relationships between all the variables, the results prove that personal protective gears increased the odds of infection, hence they are in fact not protective. This information was not obtained when the data were analyzed only with GLM. The second case study examines the attitudes of Austrian veterinarians towards euthanasia of small animals. Association between gender and age with views on euthanasia have been found. ABN methodology helped to disentangle the role of gender in relation with age, mainly young females working in small animal practices were influencing the outcome. These features were revealed by ABN due to its ability to capture the natural complexity of data more effectively. Evidence on the importance of the number of veterinarians working together was demonstrated considering the highest number of links, in ABN models, to others variables. This highlights the supporting role of a team in stressful situations. To ensure robustness and reliability of ABN models a parametric bootstrapping approach was implemented, using a Markov Chain Monte Carlo (MCMC) technique in the software JAGS. The third part consists of the update and improvement of a software for fit- ting and learning ABN models: the R package abn. Modifications of functions, more related to the model graphical representation, were implemented and the documentations related to the R package entirely restructured and rewritten. The final part of this work relies on an improvement related to the underlying theory for ABN models. Two main challenges posed by Bayesian model selection have been addressed: the specification of parameter priors and the computation of the resulting posterior model probabilities via the marginal likelihood. A suitable conjugate prior for ABN which generalizes the Dirichlet density for additive pa- rameters has been introduced. This prior satisfies the desirable independence assumptions for Bayesian networks and overcomes the issue of complete data separation occurring with previous prior choices. Furthermore, an analytic expression for the marginal likelihood was found, which avoids using the Laplace Approximation or MCMC method. Then, the score equivalence property, i.e., equivalent networks get the same score function, has been shown. This work contributes to a better promotion of ABN methodology by illustrating their prac- tical application to veterinary epidemiology, by improving software useful to deal with these models and by gaining better knowledge of the posterior density and an easier computation of the marginal likelihood.

Abstract

Veterin¨ repidemiologie, eine der facettenreichen Anwendungen der Statistik, zielt darauf ver- a mutete Zusammenh¨ nge zwischen Kovariaten oder Pr¨ diktoren und einer oder mehr Ziel- a a variablen zu untersuchen. H¨ ufig sind die zugrundeliegenden biologischen Prozesse kom- a plex und resultieren in multiplen Abh¨ ngigkeiten innerhalb der Pr¨ diktoren und der Zielva- a a riablen. Standardverfahren der Epidemiologie und Statistik sind nur begrenzt geeignet, um multiple Abh¨ ngigkeiten multivariater Daten zu beschreiben. Die hier vorgestellte Arbeit ver- a wendet und entwickelt eine Methodik weiter, die sich dieser Herausforderung stellt: Additi- ve Bayesianische Netze (ABN). ABN ist ein graphisches Modell, dass durch die Darstellung ¨ der gemeinsamen Wahrscheinlichkeitsverteilung die ublichen generalisierten linearen Model- le (GLM) ausweitet auf multiple abh¨ ngige Variablen. a

Die PhD Arbeit besteht aus vier Teilen. In den ersten beiden Teilen wird die praktische Anwen- dung von ABN anhand von zwei veterin¨ repidemiologischen Fallstudien dargestellt. Hierbei a wird der zus¨ tzliche Nutzen durch ABN im Vergleich zu klassischen Verfahren deutlich. Die a ausgewerteten multivariaten Daten weisen haupts¨ chlich bin¨ re, aber auch kontinuierliche a a und Poisson Datenformate auf. Ziel der ersten Studie war es, vergleichend ausgewertet mit ¨ ABN und GLM, Risikofaktoren fur eine Infektion mit Leptospira interrogans sv pomona zu ¨ ¨ ¨ bestimmen. Dass personliche Schutzausrustung die Odds einer Infektion erhoht, also nicht ¨ ¨ ¨ schutzt, wurde nur in der Auswertung mit ABN deutlich. Grund hierfur ist die Moglichkeit ¨ in ABN die Abh¨ ngigkeiten zwischen allen Variablen zu berucksichtigen. Die zweite Fall- a a a ¨ studie besch¨ ftigt sich mit der Einstellung von Tier¨ rzten gegenuber der Euthanasie in der Kleintierpraxis und Pr¨ diktoren wie zum Beispiel Alter und Geschlecht. Mit klassischen Ver- a fahren ist es schwierig, die Effekte von Alter und Geschlecht in Beobachtungsstudien ge- a ¨ a ¨ trennt zu sch¨ tzen, da die jungeren Tier¨ rzte mehrheitlich weiblich und die alteren m¨ nnlich a ¨ sind. Auch hier erwies sich die Anwendung von ABN, aufgrund der Moglichkeit komplexe Abh¨ ngigkeiten zwischen verschiedenen Variablen darzustellen, als vorteilhaft. Ebenfalls nur a durch ABN wurde die Bedeutung der Arbeit in einem Team deutlich: diese Variable wies ¨ ¨ die hochste Anzahl an Verknupfungen zu allen anderen Variablen auf und unterstreicht die ¨ unterstutzende Rolle eines Teams in stressvollen Situationen. Die Zuverl¨ ssigkeit der ABN a Modelle wurde durch ein parametrisches Bootstrapverfahren mittels Markov Chain Monte ¨ ¨ Carlo (MCMC) mithilfe der Software JAGS uberpruft. Der dritte Teil der PhD Arbeit beinhal- tet Anpassung und Verbesserung einer Software zum Lernen und Anpassen von ABN Mo- ¨ dellen: dem R Paket (ABN). Dies beinhaltete die Modifikation von Funktionen fur die graphi- ¨ sche Darstellung und die entsprechende Dokumentation. Der Hohepunkt dieser PhD Arbeit liegt im Erkenntnisgewinn der ABN zugrundeliegenden Theorie. Hierbei sind zwei Heraus- forderungen im Zusammenhang mit der Bayesianischen Modellauswahl herauszustreichen: Die Spezifikation der Parameterprior und die Berechnung der resultierenden Posteriorwahr- scheinlichkeiten mittels marginalem Likelihood. Ein geeigneter konjugierter Parameterprior ¨ ¨ fur ABN, der die Dirichlet-Dichte fur additive Parameter generalisiert, wird vorgestellt. Die- ¨ ¨ ser Prior erfullt die erwunschte Eigenschaft der Unabh¨ ngigkeit der Bayesianischen Netze a ¨ und uberwindet das Problem der kompletten Datenseparation, die mit anderen ausgew¨ hlten a ¨ Priors vorkommen kann. Weiterhin wurde eine analytische Losung der marginalen Like- lihood gefunden, die ohne Laplace Approximation oder MCMC Methoden angewendet wer- ¨ ¨ den kann. Nachgewiesen wurde ebenfalls die Score Aquivalenzeigenschaft, dass aquivalente Netze die gleiche Scorefunktion erlangen. Durch die praktische Anwendung in zwei vete- rin¨ repidemiologischen Studien, die Anpassung einer ABN-Software und einer vereinfachten a ¨ Berechnungsmoglichkeit der marginalen Likelihood tr¨ gt diese PhD Arbeit zu einer Weiter- a entwicklung der ABN-Methodik bei. Veterinary epidemiology, one of the multifaceted applications of statistics, primarily aims to investigate hypothesized relationships between covariates or predictors of interest and one, or more, outcome variables. Commonly, the biological processes, which generated the data, are extremely complex, resulting in multiple dependencies between explanatory and response variables. Standard epidemiological and statistical approaches have shown a limited ability to sufficiently describe such inter-dependent multivariate connections. The following work extends and improves a methodology that addresses these issues: additive Bayesian networks (ABNs). ABNs are types of graphical model that extend the usual Generalized Linear Model (GLM) to multiple dependent variables through the representation of their joint probability.

The PhD thesis consists of four parts. The work begins with the presentation of the commonly ‘used’ ABN methodology in veterinary epidemiology. Two relevant case studies are presented, giving evidence that ABN models offer added value compared to existing standard statistical and epidemiological methods, i.e., GLM. The multivariate data analyzed are mainly binary, but also continuous and count data. The objective of the first case study was to identify factors associated with Leptospira interrogans sv Pomona infection by exploring the advantages and disadvantages of the two methodologies. Thanks to ABN’s capacity to model the relationships between all the variables, the results prove that personal protective gears increased the odds of infection, hence they are in fact not protective. This information was not obtained when the data were analyzed only with GLM. The second case study examines the attitudes of Austrian veterinarians towards euthanasia of small animals. Association between gender and age with views on euthanasia have been found. ABN methodology helped to disentangle the role of gender in relation with age, mainly young females working in small animal practices were influencing the outcome. These features were revealed by ABN due to its ability to capture the natural complexity of data more effectively. Evidence on the importance of the number of veterinarians working together was demonstrated considering the highest number of links, in ABN models, to others variables. This highlights the supporting role of a team in stressful situations. To ensure robustness and reliability of ABN models a parametric bootstrapping approach was implemented, using a Markov Chain Monte Carlo (MCMC) technique in the software JAGS. The third part consists of the update and improvement of a software for fit- ting and learning ABN models: the R package abn. Modifications of functions, more related to the model graphical representation, were implemented and the documentations related to the R package entirely restructured and rewritten. The final part of this work relies on an improvement related to the underlying theory for ABN models. Two main challenges posed by Bayesian model selection have been addressed: the specification of parameter priors and the computation of the resulting posterior model probabilities via the marginal likelihood. A suitable conjugate prior for ABN which generalizes the Dirichlet density for additive pa- rameters has been introduced. This prior satisfies the desirable independence assumptions for Bayesian networks and overcomes the issue of complete data separation occurring with previous prior choices. Furthermore, an analytic expression for the marginal likelihood was found, which avoids using the Laplace Approximation or MCMC method. Then, the score equivalence property, i.e., equivalent networks get the same score function, has been shown. This work contributes to a better promotion of ABN methodology by illustrating their prac- tical application to veterinary epidemiology, by improving software useful to deal with these models and by gaining better knowledge of the posterior density and an easier computation of the marginal likelihood.

Statistics

Downloads

8 downloads since deposited on 27 Oct 2016
7 downloads since 12 months
Detailed statistics

Additional indexing

Item Type:Dissertation (monographical)
Referees:Furrer Reinhard
Communities & Collections:UZH Dissertations
Dewey Decimal Classification:570 Life sciences; biology
Language:English
Place of Publication:Zürich
Date:2016
Deposited On:27 Oct 2016 10:48
Last Modified:08 Feb 2019 15:15
Number of Pages:236
OA Status:Green
Related URLs:https://www.recherche-portal.ch/primo-explore/fulldisplay?docid=ebi01_prod010723438&context=L&vid=ZAD&search_scope=default_scope&tab=default_tab&lang=de_DE (Library Catalogue)

Download

Download PDF  'Additive Bayesian networks for multivariate data : parameter learning, model fitting and applications in veterinary epidemiology'.
Preview
Content: Published Version
Language: English
Filetype: PDF
Size: 6MB