Header

UZH-Logo

Maintenance Infos

Robustness, reproducibility and ecological consistency in the demarcation of operational taxonomic units from complex sequencing data


Schmidt, Thomas Sebastian Benedikt. Robustness, reproducibility and ecological consistency in the demarcation of operational taxonomic units from complex sequencing data. 2014, University of Zurich, Faculty of Science.

Abstract

Summary The microbial world is notoriously elusive to direct observation. Microbes are ‘small and many’, and studying them in a community context is a formidable challenge, both technically and conceptually. Technical challenges have traditionally resided in resolution and throughput, but are arguably being overcome by recent advances in sequencing technology. However, while detailed microbial surveys are becoming available for many environments, technological bias remains an issue, as organisms are being observed only indirectly, represented by sequences. Moreover, conceptually, a mere census is little more than a ‘parts list’ of an environment and not necessarily informative of the ecological roles of organisms, nor of their interactions. Even more pressing conceptual challenges reside in the lack of a unifying bacterial species concept, and in the identification of meaningful microbial diversity units from complex sequencing data. In practice, ‘true’ microbial lineages are often approximated by Operational Taxonomic Units (OTUs), defined as clusters of sequence similarity with respect to a taxonomic marker gene. Although OTUs are arguably ‘proxies for proxies of proxies’ (lineages are approximated as clusters of marker gene sequences, which in turn represent organisms), they are an integral part of the contemporary microbial ecology toolbox. The demarcation of ‘meaningful’ OTUs from complex sequencing datasets remains an open problem. Many approaches to sequence clustering have been suggested, but in spite of notable attempts towards increased standardization, no universally applied one-fit-all method has emerged. Rather, the choice of sequence clustering method introduces variability when analyzing microbial ecology data. In this thesis, one main aim has been to quantify this variability introduced by the choice of OTU demarcation method, and to assess the impact of method choice on downstream biological descriptions. In a multidimensional approach, OTUs were demarcated from a global, comprehensive dataset of small subunit (SSU) rRNA gene sequences according to different widely employed clustering methods, and under varying clustering parameters. The analyses revealed surprising trends in the similarity of partitions in terms of cluster composition, as well as in the robustness of methods to changing parameters. The presented results pertain to the reproducibility of biological findings in microbial ecology: they explore how robust OTU-based analyses are to the choice of experimental approach. In a complementary analysis, it was investigated how well impartially clustered OTUs approximate ‘true’ microbial lineages. One frequently cited criterion for ‘good’ (i.e., theory-compliant) units of microbial diversity is ecological consistency. The general ecological consistency of OTUs was assessed based on curated contextual sequence annotations. It was found that OTUs are indeed generally, though not perfectly, ecologically consistent, at least at the studied ecological resolution. However, there were marked differences in ecological consistency between different widely used methods. As ecological similarity is generally correlated with SSU sequence similarity, and as ecological homogeneity is a criterion for ‘true’ microbial lineages, the observed differences in OTU ecological consistency were interpreted in terms of clustering quality. The findings presented in this thesis may inform the design of microbial ecology studies, and recommendations on the choice of clustering method are provided. Moreover, the presented findings are potentially relevant beyond microbial ecology, in particular to the fields of microbial taxonomy and systematics. As the study of microbial communities advances, analyses such as presented in this thesis will be integral to providing robust, reproducible and consistent approaches to the computational analysis of complex sequencing data. Zusammenfassung Die Welt der Mikroorganismen entzieht sich der unmittelbaren Beobachtung. Mikroben sind ‘klein und zahlreich’ – sie im Kontext von Lebensgemeinschaften zu untersuchen ist eine technische und konzeptionelle Herausforderung. Technische Herausforderungen stellten traditionell Auflösung und Durchsatz dar; jedoch scheinen diese durch jüngste Fortschritte der Sequenzierungstechnologie grösstenteils überwunden. Nichtsdestotrotz bedingt die indirekte Beobachtung von Mikroorganismen – welche durch spezifische Sequenzen lediglich repräsentiert werden – weiterhin technologieimmanente Bias. Des Weiteren entspricht selbst ein umfassender Zensus mikrobiellen Lebens in einem bestimmten Mikrobiom letztlich nur einer ‘Liste von Bestandteilen’ mit begrenzter Aussagekraft bezüglich ökologischer Zusammenhänge. Wesentlich dringlichere konzeptionelle Hürden stellen zudem der Mangel eines einheitlichen theoretischen Unterbaus für bakterielle Spezies-Konzepte, sowie die sinnvolle Unterteilung komplexer Sequenzdatensätze in elementare Diversitätseinheiten dar. In der Praxis werden mikrobielle Spezies häufig durch Operational Taxonomic Units (OTUs, etwa: ‘operationelle Taxonomieeinheiten’) angenähert, definiert als Gruppen (‘Cluster’) von Markergen- Sequenzen mit hoher Ähnlichkeit. Obwohl OTUs unbestreitbar ‘stellvertretende Stellvertreter von Stellvertretern’ sind (Spezies werden als Cluster von Markergen-Sequenzen angenähert, die wiederum stellvertretend für Organismen stehen), sind sie unverzichtbar im Arsenal zeitgenössischer Methoden der mikrobiellen Ökologie. Die Unterteilung komplexer Sequenzdatensätze in ‘sinnvolle’ OTUs ist dabei ein ungelöstes Problem. Viele Ansätze existieren, jedoch ist trotz grosser Anstrengungen hinsichtlich stärkerer Standardisierung keine einzelne Methode als universell anwendbar und sinnvoll etabliert. Stattdessen bedingen unterschiedliche Ansätze eine erhöhte Variabilität in der Analyse ökologischer Datensätze. Ein Hauptaugenmerk der vorliegenden Dissertation liegt auf der Quantifizierung dieser Flexibilität, die durch die Wahl unterschiedlicher OTU-Definitionen erzeugt wird, sowie auf deren Einfluss auf nachfolgende biologische Analysen. In einem mehrdimensionalen Ansatz wurde ein globaler Datensatz von small subunit (SSU) ribosomalen RNA-Gensequenzen in OTUs unterteilt, gemäss einiger weit verbreiteter OTU-Definitionen und unter wechselnden Parametern. Mehrere überraschende Beobachtungen bezüglich Ähnlichkeit von OTU-Sets zwischen Methoden, sowie bezüglich der Anfälligkeit von Clustering gegenüber Parametervariation werden beschrieben. Die diskutierten Ergebnisse betreffen insbesondere die Reproduzierbarkeit biologischer Erkenntnisse in der mikrobiellen Ökologie: sie erkunden, wie robust OTU-basierte Analysen gegenüber unterschiedlichen experimentellen Zugängen sind. In einem komplementären Ansatz wurde zudem untersucht, wie gut OTUs ‘tatsächliche’ mikrobielle Spezies anzunähern vermögen. Ein häufig erwähntes Kriterium für ‘gute’ (im Sinne von, ‘theorie-konforme’) Diversitätseinheiten ist ökologische Konsistenz. Diese wurde mithilfe von kuratierten Sequenz-Metadaten für OTUs bestimmt. Es konnte gezeigt werden, dass OTUs in der gewählten ökologischen Auflösung generell, jedoch nicht vollkommen, ökologisch konsistent sind. Es wurden jedoch deutliche Unterschiede zwischen verschiedenen Methoden beobachtet. Da ökologische und SSU-Sequenz-Ähnlichkeit korrelieren, und da ökologische Homogenität ein Merkmal ‘tatsächlicher’ mikrobieller Spezies ist, lassen sich die beobachteten Unterschiede in der ökologischen Konsistenz als Qualitätsunterschiede interpretieren. Die in dieser Dissertation präsentierten Ergebnisse tragen zur informierten Planung und Durchführung von Experimenten in der mikrobiellen Ökologie bei, betreffen darüber hinaus aber auch die mikrobielle Taxonomie und Systematik. Mit zunehmendem technologischen Fortschritt in der Untersuchung mikrobieller Lebensgemeinschaften können Ansätze wie der hier präsentierte zur Entwicklung robuster, reproduzierbarer und konsistenter Ansätze zur Analyse komplexer Sequenzdatensätze beitragen.

Abstract

Summary The microbial world is notoriously elusive to direct observation. Microbes are ‘small and many’, and studying them in a community context is a formidable challenge, both technically and conceptually. Technical challenges have traditionally resided in resolution and throughput, but are arguably being overcome by recent advances in sequencing technology. However, while detailed microbial surveys are becoming available for many environments, technological bias remains an issue, as organisms are being observed only indirectly, represented by sequences. Moreover, conceptually, a mere census is little more than a ‘parts list’ of an environment and not necessarily informative of the ecological roles of organisms, nor of their interactions. Even more pressing conceptual challenges reside in the lack of a unifying bacterial species concept, and in the identification of meaningful microbial diversity units from complex sequencing data. In practice, ‘true’ microbial lineages are often approximated by Operational Taxonomic Units (OTUs), defined as clusters of sequence similarity with respect to a taxonomic marker gene. Although OTUs are arguably ‘proxies for proxies of proxies’ (lineages are approximated as clusters of marker gene sequences, which in turn represent organisms), they are an integral part of the contemporary microbial ecology toolbox. The demarcation of ‘meaningful’ OTUs from complex sequencing datasets remains an open problem. Many approaches to sequence clustering have been suggested, but in spite of notable attempts towards increased standardization, no universally applied one-fit-all method has emerged. Rather, the choice of sequence clustering method introduces variability when analyzing microbial ecology data. In this thesis, one main aim has been to quantify this variability introduced by the choice of OTU demarcation method, and to assess the impact of method choice on downstream biological descriptions. In a multidimensional approach, OTUs were demarcated from a global, comprehensive dataset of small subunit (SSU) rRNA gene sequences according to different widely employed clustering methods, and under varying clustering parameters. The analyses revealed surprising trends in the similarity of partitions in terms of cluster composition, as well as in the robustness of methods to changing parameters. The presented results pertain to the reproducibility of biological findings in microbial ecology: they explore how robust OTU-based analyses are to the choice of experimental approach. In a complementary analysis, it was investigated how well impartially clustered OTUs approximate ‘true’ microbial lineages. One frequently cited criterion for ‘good’ (i.e., theory-compliant) units of microbial diversity is ecological consistency. The general ecological consistency of OTUs was assessed based on curated contextual sequence annotations. It was found that OTUs are indeed generally, though not perfectly, ecologically consistent, at least at the studied ecological resolution. However, there were marked differences in ecological consistency between different widely used methods. As ecological similarity is generally correlated with SSU sequence similarity, and as ecological homogeneity is a criterion for ‘true’ microbial lineages, the observed differences in OTU ecological consistency were interpreted in terms of clustering quality. The findings presented in this thesis may inform the design of microbial ecology studies, and recommendations on the choice of clustering method are provided. Moreover, the presented findings are potentially relevant beyond microbial ecology, in particular to the fields of microbial taxonomy and systematics. As the study of microbial communities advances, analyses such as presented in this thesis will be integral to providing robust, reproducible and consistent approaches to the computational analysis of complex sequencing data. Zusammenfassung Die Welt der Mikroorganismen entzieht sich der unmittelbaren Beobachtung. Mikroben sind ‘klein und zahlreich’ – sie im Kontext von Lebensgemeinschaften zu untersuchen ist eine technische und konzeptionelle Herausforderung. Technische Herausforderungen stellten traditionell Auflösung und Durchsatz dar; jedoch scheinen diese durch jüngste Fortschritte der Sequenzierungstechnologie grösstenteils überwunden. Nichtsdestotrotz bedingt die indirekte Beobachtung von Mikroorganismen – welche durch spezifische Sequenzen lediglich repräsentiert werden – weiterhin technologieimmanente Bias. Des Weiteren entspricht selbst ein umfassender Zensus mikrobiellen Lebens in einem bestimmten Mikrobiom letztlich nur einer ‘Liste von Bestandteilen’ mit begrenzter Aussagekraft bezüglich ökologischer Zusammenhänge. Wesentlich dringlichere konzeptionelle Hürden stellen zudem der Mangel eines einheitlichen theoretischen Unterbaus für bakterielle Spezies-Konzepte, sowie die sinnvolle Unterteilung komplexer Sequenzdatensätze in elementare Diversitätseinheiten dar. In der Praxis werden mikrobielle Spezies häufig durch Operational Taxonomic Units (OTUs, etwa: ‘operationelle Taxonomieeinheiten’) angenähert, definiert als Gruppen (‘Cluster’) von Markergen- Sequenzen mit hoher Ähnlichkeit. Obwohl OTUs unbestreitbar ‘stellvertretende Stellvertreter von Stellvertretern’ sind (Spezies werden als Cluster von Markergen-Sequenzen angenähert, die wiederum stellvertretend für Organismen stehen), sind sie unverzichtbar im Arsenal zeitgenössischer Methoden der mikrobiellen Ökologie. Die Unterteilung komplexer Sequenzdatensätze in ‘sinnvolle’ OTUs ist dabei ein ungelöstes Problem. Viele Ansätze existieren, jedoch ist trotz grosser Anstrengungen hinsichtlich stärkerer Standardisierung keine einzelne Methode als universell anwendbar und sinnvoll etabliert. Stattdessen bedingen unterschiedliche Ansätze eine erhöhte Variabilität in der Analyse ökologischer Datensätze. Ein Hauptaugenmerk der vorliegenden Dissertation liegt auf der Quantifizierung dieser Flexibilität, die durch die Wahl unterschiedlicher OTU-Definitionen erzeugt wird, sowie auf deren Einfluss auf nachfolgende biologische Analysen. In einem mehrdimensionalen Ansatz wurde ein globaler Datensatz von small subunit (SSU) ribosomalen RNA-Gensequenzen in OTUs unterteilt, gemäss einiger weit verbreiteter OTU-Definitionen und unter wechselnden Parametern. Mehrere überraschende Beobachtungen bezüglich Ähnlichkeit von OTU-Sets zwischen Methoden, sowie bezüglich der Anfälligkeit von Clustering gegenüber Parametervariation werden beschrieben. Die diskutierten Ergebnisse betreffen insbesondere die Reproduzierbarkeit biologischer Erkenntnisse in der mikrobiellen Ökologie: sie erkunden, wie robust OTU-basierte Analysen gegenüber unterschiedlichen experimentellen Zugängen sind. In einem komplementären Ansatz wurde zudem untersucht, wie gut OTUs ‘tatsächliche’ mikrobielle Spezies anzunähern vermögen. Ein häufig erwähntes Kriterium für ‘gute’ (im Sinne von, ‘theorie-konforme’) Diversitätseinheiten ist ökologische Konsistenz. Diese wurde mithilfe von kuratierten Sequenz-Metadaten für OTUs bestimmt. Es konnte gezeigt werden, dass OTUs in der gewählten ökologischen Auflösung generell, jedoch nicht vollkommen, ökologisch konsistent sind. Es wurden jedoch deutliche Unterschiede zwischen verschiedenen Methoden beobachtet. Da ökologische und SSU-Sequenz-Ähnlichkeit korrelieren, und da ökologische Homogenität ein Merkmal ‘tatsächlicher’ mikrobieller Spezies ist, lassen sich die beobachteten Unterschiede in der ökologischen Konsistenz als Qualitätsunterschiede interpretieren. Die in dieser Dissertation präsentierten Ergebnisse tragen zur informierten Planung und Durchführung von Experimenten in der mikrobiellen Ökologie bei, betreffen darüber hinaus aber auch die mikrobielle Taxonomie und Systematik. Mit zunehmendem technologischen Fortschritt in der Untersuchung mikrobieller Lebensgemeinschaften können Ansätze wie der hier präsentierte zur Entwicklung robuster, reproduzierbarer und konsistenter Ansätze zur Analyse komplexer Sequenzdatensätze beitragen.

Statistics

Downloads

27 downloads since deposited on 02 Apr 2019
25 downloads since 12 months
Detailed statistics

Additional indexing

Item Type:Dissertation (monographical)
Referees:von Mering Christian, Shimizu Kentaro
Communities & Collections:UZH Dissertations
Dewey Decimal Classification:Unspecified
Language:English
Place of Publication:Zürich
Date:2014
Deposited On:02 Apr 2019 14:57
Last Modified:07 Apr 2020 07:17
Number of Pages:133
OA Status:Green
Related URLs:https://www.recherche-portal.ch/primo-explore/fulldisplay?docid=ebi01_prod010258779&context=L&vid=ZAD&search_scope=default_scope&tab=default_tab&lang=de_DE (Library Catalogue)

Download

Green Open Access

Download PDF  'Robustness, reproducibility and ecological consistency in the demarcation of operational taxonomic units from complex sequencing data'.
Preview
Content: Published Version
Language: English
Filetype: PDF
Size: 20MB