Identification of regulatory regions in the Drosophila dmyc gene : bioinformatics analyses combined with reporter activity studies
Kharazmi, Jasmine. Identification of regulatory regions in the Drosophila dmyc gene : bioinformatics analyses combined with reporter activity studies. 2013, University of Zurich, Faculty of Science.
Abstract
Eine der wichtigsten Fragen in der Biologie des streng regulierten myc Gens ist, wie sowohl seine hohe Expression in wachsenden und sich teilenden Zellen als auch seine verminderte Aktivität während der Differenzierung und in adultem Leben erreicht wird. Das Produkt des Proto-Onkogens myc, ein nukleäres Phosphoprotein, spielt eine essenzielle Rolle in der Wachstumskontrolle eines jeden Organismus. Das Gen ist evolutionär konserviert, und die wichtigsten Strukturdomänen des Myc Proteins bestehen aus einer sequenzspezifischen DNA-bindenden Domäne, der sogenannten “basic region/helix-loop-helix/leucine zipper” (bHLHLZ) und einer N-terminalen Transaktivierungsdomäne. Diese beiden Motive sind essenziel für die Funktion von myc in der Zellwachstumskontrolle, der Regulierung der Apoptose, und der Zelldifferenzierung. Den genauen Kontrollmechanismus des c-myc Gens in Vertebraten als ein “immediate early gene” zu verstehen, ist immer noch eine Herausforderung. Da Drosophila nur eine Kopie des myc Gens enthält, anstatt mindestens drei Isoformen wie in der Maus, und die Fruchtfliege ein gut etabliertes genetisches Modelsystem darstellt, ist es möglich die cis-regulatorischen Elemente in dmyc zu studieren. Das Ziel dieses Projektes bestand aus folgenden Punkten: (i) Identifizierung der cis- regulatorischen Elemente in der 5‘-UTR, der intragenischen Region, und in der 3‘- UTR, die für die endogene Expression des dmyc Gens verantwortlich sind; (ii) Aufklärung des Mechnismus der dmyc Transkriptionstermination; (iii) Charakterisierung der möglichen Transkriptionsinitiationsseiten; (iv) Erläuterung des Mechanismus der dmyc RNA-Spleissung. Um diese Fragen zu beantworten wurde wie folgt vorgegangen: 1) Bioinformatik-basierende Analyse der nichtkodierenden Regionen des dmyc Gens, um die regulatorischen Elemente zu identifizieren und daraus die Exprerimente zu planen; 2) Studien der Aktivität des lacZ-Reporters unter der Kontrolle der regulatorischen Teile des dmyc Gens; und 3) Anwendung des 5‘ RACE zur Aufklärung des Spleissmechanismus. Daraus wurden die unten aufgeführten Resultate erzielt, die zu folgenden Schlussfolgerungen führten: Durch den Vergleich eines 40-kb Referenz-DNA Fragmentes des dmyc Lokus auf dem X Chromosom, auf dem das dmyc Gen liegt und der orthologen Sequenzen von 12 sequenzierten Drosophiliden mittels dem phylogenetischen footprinting Bioinformatik Programm EvoPrinter und cis-Decoder wurden mehrere mutmassliche Enhancer-Regionen mit konservierten Sequenzen gefunden. Darunter befanden sich mehrere konservierte E-Boxen, welche bevorzugte Myc-Bindungsstellen des CACGTG und CACTTG Typs sind. In der Intron 2 Region, identifizierten wir neben zwei konservierten E-Boxen mehrere Cluster konservierter Sequenzenblöcke upstream des vorhergesagten intronischen Promotors. Zwei der identifizierten Cluster konservierter Sequenzen umfassen: (i) ein Wiederholungssequenz-Element (ATGTTGCCA) wobei der Kern (TGTTGC) sich dreimal wiederholt und (ii) ein Dead- Ringer für den HLHm-3-2-Enhancer (CGCGTGGGAAAA), in welchem sich die Konsensus-Bindungsstelle (GTGGGAA) für den suppressor of Hairy wing su(Hw) befindet. Im großen 3'-UTR-Bereich stellten wir Cluster konservierter Sequenzblöcke fest, aber keine E-Boxen. Eine Suche mit PROMOTER 2.0 (ein Bioinformatik Programm basierend auf neuronalen Netzwerken und genetischem Algorithmus), ergab eine potentielle Promotorregion (bezeichnet als P0) im äußersten Bereich upstream. Eine Suche mit DNASTAR Lasergene 9.1 (Modul: GeneQuest) identifizierte den P1-Promotor in den proximalen 5'-UTR-Sequenzen, das P2 Downstream-Promotorelement (DPE) in Intron 2 und drei potentielle Polyadenylierungssignale in der 3'-UTR. Auf Grundlage der bionformatischen Analysen und dem Auftreten geeigneter Restriktionsstellen in den nicht kodierenden Regionen wurden verschiedene Deletionskonstrukte hergestellt. Die Transgene wurden entweder in y1 w1118 oder attB Fliegenembryonen injiziert, um unabhängige transgene Fliegenlinien zu etablieren. Die Aktivität des lacZ Reporters wurde im dritten instar Larvenstadium im Gehirn, den Imaginalscheiben, Embryonen und Ovarien der etablierten Fliegenlinien analysiert. Im Gehirn ist lacZ in einer Reihe von Zellen meist proximaler Teile beider Hemisphären und entlang des ventralen Ganglions exprimiert. Diese Zellen könnten neuronale Vorläuferzellen sein, die eine hohe Wachstumsrate und Zellteilung aufweisen bevor sie differenzieren. Die lacZ-Aktivität in den Zellen in den vorderen Teilen der Hemisphären könnte eine bestimmte Klasse von kontinuierlich proliferierenden Neuroblasten, sogennante Mushroom Body Neuroblasten (MBNbs), sein. In der Flügelscheibe ist lacZ meist um den Flügel Beutel und in der Notum Region exprimiert. In der Augenscheibe wird lacZ überwiegend anterior und posterior der morphogenetischen Furche (MF), und in der Antennenscheibe in der Mitte und ringförmig um die Mitte exprimiert. In der Beinscheibe wird die Reporteraktivität in konzentrischen Ringen in der Mitte der Scheibe mit einem Loch in der Mitte beobachtet. Die einzelnen Zellen in den Bein- und Flügelscheiben mit lacZ-Färbung, könnten Vorläuferzellen für Sinnesorgane (SOP) sein, die sich vor der terminalen Mitose und Differenzierung aktiv teilen. Im frühen Embryo sind mütterliche Transkripte nachweisbar. Später während der Erweiterung der Keimanlage ist dmyc intensiviert im Mesoderm, mid-gut, Rachen und dem anal-Pad detektierbar. In den Ovarien wird die Aktivität von dmyc überwiegend in den Nährzellen, Eizellen und schwach an der Spitze des Germariums detektiert. Die beobachteten Muster in den getesteten Geweben korrelieren mit der endogenen dmyc Lokalisierung. Die Expression mit dem Konstrukt, das nur die Sequenz des Intron 2 enthält, zeigt die Existenz einer downstream liegenden Initiationsstelle, welche die Transkription des Reportergens antreibt. Dies entspricht der Erkenntnis, dass viele der entwicklungsmäßig aktiven Gene modularen cis-regulatorischer Elemente enthalten, um Gene während verschiedener Entwicklungsstadien der Entwicklung ein- und auszuschalten. Aus den erhaltenen Ergebnissen schließe ich, dass die meisten, wenn nicht alle der regulatorischen Elemente, die für die korrekte Expression von lacZ im larvalen Gehirn und Scheiben, Embryonen und erwachsenen weiblichen Gewebe erforderlich sind, innerhalb des getesteten 40-kb-Fragment des dmyc LoKus vorhanden sind. Weiter schließe ich, dass die Sequenzen einschließlich des Intron 1, der 5'-UTR, sowie etwa 100 bp upstream der Transkriptionsstartstelle des P1-Promotors ausreichend sind, um ein dmyc-ähnliches Muster der Reporteraktivität in ovariellen Oocyten, Nährzellen und im Embryo, jedoch nicht in larvalen Geweben zu erhalten. Schliesslich wird dmyc wie viele entwicklungsregulierte Gene wahrscheinlich von verschiedenen Transkriptionsinitiation-Einheiten transkribiert, welche eine sich weit upstream befindende regulatorische Region, ein TATA-Box enthaltender proximaler Komplex und ein TATA-loses downstream Promotor-Element zusammen mit einem Initiator innerhalb der Intron 2 Region enthält. Analyse der Polyadenylierungssignale, Poly (A)1, Poly (A)2, und Poly (A)3, am dmyc 3'-Ende ergaben, dass das dmyc Gen unterschiedliche Transkripte mit kürzeren und längeren Längen erzeugen würde, was den Angaben aus der Literatur entspricht. Die 5'-RACE-Analyse der cDNA-Enden von dmyc legt die Transkriptionsstartstelle am P1-Promotor 18 Basenpaare upstream des Starts der bekannten EST GM01143 innerhalb des 5-'UTR fest, wobei ein A als die erste Base transkribiert wird. Die Daten zeigen, dass die erste TATA-Box, welche zuvor rechnerisch vorhergesagt wurde, genutzt wird, um dmyc mRNA voller Länge zu generieren. Das größte Transkript enthält alle drei Exons, das nach der Entfernung der Introns durch konstitutiv regulierten Spleißmechanismus erzeugt wird. Diese Erkenntnisse können sich für eine weitere Analyse der cis-Elemente von dmyc und dessen strenger Regulierung auf Transkriptionsebene als nützliche Werkzeuge erweisen. Summary A fundamental question about the biology of the developmentally regulated myc gene is how both its high expression in growing and dividing cells as well as its down regulation during differentiation is maintained. The product of the proto-oncogene myc is a transcription factor, a crucial regulator of growth and proliferation during animal development. As an evolutionarily conserved gene regulatory protein, Myc contains a sequence specific “basic region/helix-loop-helix/leucine zipper” (bHLHLZ) DNA binding domain and an N-terminal transactivation domain, both essential for its biological activity in cell growth control, differentiation and apoptosis. Understanding the regulation of mammalian c-myc as an “immediate early gene” at the level of transcription is still a challenge. Due to the presence of only one copy of the dmyc gene (instead of at least three isoforms as in mouse), and well-established Drosophila genetic models, it is possible to study the cis-regulatory elements in dmyc. The aim of this study was fourfold: (i) to identify cis-regulatory control elements in the 5’-UTR, intragenic region, and 3’-UTR responsible for the expression of the endogenous dmyc; (ii) to elucidate the mechanism of transcription termination; (iii) to characterize putative transcription initiation sites; (iv) to define the mechanism of dmyc RNA splicing. To answer these questions, three approaches were applied: 1) bioinformatics-based analyses for revealing the complexity of dmyc transcriptional regulation as well as for obtaining guidance for designing the experiments to test various transcriptional control elements/regions of the dmyc gene; 2) study of lacZ reporter activity under the control of the dmyc promoter and other potential regulatory regions; and 3) application of 5’ RACE (Rapid Amplification of cDNA Ends) and subsequent sequencing of data obtained to map the start of the transcript and elucidate the mechanisms of RNA splicing. The approaches used in this study enabled us to obtain the results explained bellow and draw the following conclusions: Alignment of a 40-kb reference DNA fragment on the X chromosome, harboring the dmyc gene of D. melanogaster, and orthologous sequences from 12 sequenced Drosophilids with the phylogenetic footprinting bioinformatics tools EvoPrinter and cis-Decoder identified several putative enhancer regions with conserved sequences, including several conserved E-boxes, which are preferred Myc binding sites of both the CACGTG and CACTTG type. In the intron 2 region, in addition to two conserved E-boxes we identified multiple clusters of conserved sequence blocks upstream of the predicted intronic promoter. Two of the several identified clusters of conserved sequences include: (i) a repeat sequence element (ATGTTGCCA) where the core (TGTTGC) is repeated three times and (ii) a dead-ringer for the HLHm-3-2 enhancer (CGCGTGGGAAAA), within which the consensus binding site (GTGGGAA) for suppressor of Hairy wing su(Hw), resides. In the large 3'-UTR region, we identified clusters of conserved sequence blocks, but no E-boxes. A search with the bioinformatics tool neural network genetic algorithm PROMOTER 2.0 detected a potential promoter region (dubbed as P0) in the far upstream region, and a search with DNASTAR Lasergene 9.1 (module: GeneQuest) identified the P1 promoter in the proximal 5’-UTR sequences, the P2 downstream promoter element (DPE) in intron 2, and three potential polyadenylation signals in the 3’-UTR. On the basis of the computational analyses and the appearance of suitable restriction sites in the noncoding regions, different deletion constructs were made. The transgenes were injected either into the y 1 w1118 or attB fly embryos to establish independent transgenic stocks. The activity of lacZ reporter was analyzed in third instar larval brain, imaginal discs, embryos and ovaries of the established fly lines. In the brain lacZ is expressed in a number of cells mostly in proximal parts of both hemispheres and along the ventral ganglion. These cells could refer to neuronal precursor cells, which undergo a high rate of growth and cell division before differentiating. The lacZ activity in the cells in the front parts of the hemispheres could represent a certain class of continuously proliferating neuroblasts, namely mushroom body neuroblasts (MBNbs). In the wing disc lacZ is mostly expressed around the wing pouch and in the notum region. In the eye disc lacZ is predominantly expressed anterior and posterior of the morphogenetic furrow (MF), and in the antennal disc in the central region. In the leg disc the reporter activity is observed in concentric rings in the middle of the disc with a hole in the center. The single cells in the leg and wing discs staining for lacZ could refer to sensory organ precursor cells (SOPs) that divide actively before terminal mitosis and differentiation. In the early embryo maternal transcripts are detectable, later during germ band extension dmyc intensifies in the mesoderm, mid-gut, pharynx, and anal pad. In the ovary, dmyc activity is predominantly detected in the nurse cells and oocyte, and weakly at the tip of germarium. The patterns observed in the tested tissues correlates with endogenous dmyc localization. The expression obtained with the construct containing only intron 2 sequences indicates the existence of a downstream initiation site driving the transcription of the reporter gene. This corresponds to the finding that many of the developmentally active genes contain modular cis-regulatory elements in order to switch the gene on and off during different stages of development. From the results obtained, I conclude that most, if not all of the regulatory elements required for the correct expression of lacZ in larval brain and discs, embryos, and adult female tissues are present within the tested 40-kb fragment of the dmyc locus. I further conclude the sequences including intron 1, the 5'-UTR, and approximately 100 bp upstream of the transcription start site from P1 promoter is sufficient to give reporter activity in a dmyc-like pattern in both ovarian oocyte, nurse cells, and in the embryo, but not in larval tissues. Finally, like many developmentally regulated genes, dmyc is likely to be transcribed from multiple transcription initiation units including a far upstream regulatory region, a TATA box containing proximal complex and a TATA-less downstream promoter element in conjunction with an initiator within the intron 2 region. Analysis of the polyadenylation signals, poly (A)1, poly (A)2, and poly (A)3, at the dmyc 3'-end revealed that the dmyc gene would be predicted to produce different transcripts with shorter and longer lengths, as known from literature. 5’ RACE analysis of the dmyc cDNA ends mapped the transcription start site at the P1 promoter 18 base pairs upstream of the start of the known EST GM01143 within the 5’-UTR, an A residue being transcribed as the first base. The data show that the first TATA box, previously computationally predicted, is utilized to generate dmyc full length mRNA. The largest transcript contains all three exons generated after the removal of the introns by regulated splicing mechanism. These findings may provide valuable tools for a further analysis of dmyc cis-elements and mechanism of dmyc tight regulation at transcriptional level.
Abstract
Eine der wichtigsten Fragen in der Biologie des streng regulierten myc Gens ist, wie sowohl seine hohe Expression in wachsenden und sich teilenden Zellen als auch seine verminderte Aktivität während der Differenzierung und in adultem Leben erreicht wird. Das Produkt des Proto-Onkogens myc, ein nukleäres Phosphoprotein, spielt eine essenzielle Rolle in der Wachstumskontrolle eines jeden Organismus. Das Gen ist evolutionär konserviert, und die wichtigsten Strukturdomänen des Myc Proteins bestehen aus einer sequenzspezifischen DNA-bindenden Domäne, der sogenannten “basic region/helix-loop-helix/leucine zipper” (bHLHLZ) und einer N-terminalen Transaktivierungsdomäne. Diese beiden Motive sind essenziel für die Funktion von myc in der Zellwachstumskontrolle, der Regulierung der Apoptose, und der Zelldifferenzierung. Den genauen Kontrollmechanismus des c-myc Gens in Vertebraten als ein “immediate early gene” zu verstehen, ist immer noch eine Herausforderung. Da Drosophila nur eine Kopie des myc Gens enthält, anstatt mindestens drei Isoformen wie in der Maus, und die Fruchtfliege ein gut etabliertes genetisches Modelsystem darstellt, ist es möglich die cis-regulatorischen Elemente in dmyc zu studieren. Das Ziel dieses Projektes bestand aus folgenden Punkten: (i) Identifizierung der cis- regulatorischen Elemente in der 5‘-UTR, der intragenischen Region, und in der 3‘- UTR, die für die endogene Expression des dmyc Gens verantwortlich sind; (ii) Aufklärung des Mechnismus der dmyc Transkriptionstermination; (iii) Charakterisierung der möglichen Transkriptionsinitiationsseiten; (iv) Erläuterung des Mechanismus der dmyc RNA-Spleissung. Um diese Fragen zu beantworten wurde wie folgt vorgegangen: 1) Bioinformatik-basierende Analyse der nichtkodierenden Regionen des dmyc Gens, um die regulatorischen Elemente zu identifizieren und daraus die Exprerimente zu planen; 2) Studien der Aktivität des lacZ-Reporters unter der Kontrolle der regulatorischen Teile des dmyc Gens; und 3) Anwendung des 5‘ RACE zur Aufklärung des Spleissmechanismus. Daraus wurden die unten aufgeführten Resultate erzielt, die zu folgenden Schlussfolgerungen führten: Durch den Vergleich eines 40-kb Referenz-DNA Fragmentes des dmyc Lokus auf dem X Chromosom, auf dem das dmyc Gen liegt und der orthologen Sequenzen von 12 sequenzierten Drosophiliden mittels dem phylogenetischen footprinting Bioinformatik Programm EvoPrinter und cis-Decoder wurden mehrere mutmassliche Enhancer-Regionen mit konservierten Sequenzen gefunden. Darunter befanden sich mehrere konservierte E-Boxen, welche bevorzugte Myc-Bindungsstellen des CACGTG und CACTTG Typs sind. In der Intron 2 Region, identifizierten wir neben zwei konservierten E-Boxen mehrere Cluster konservierter Sequenzenblöcke upstream des vorhergesagten intronischen Promotors. Zwei der identifizierten Cluster konservierter Sequenzen umfassen: (i) ein Wiederholungssequenz-Element (ATGTTGCCA) wobei der Kern (TGTTGC) sich dreimal wiederholt und (ii) ein Dead- Ringer für den HLHm-3-2-Enhancer (CGCGTGGGAAAA), in welchem sich die Konsensus-Bindungsstelle (GTGGGAA) für den suppressor of Hairy wing su(Hw) befindet. Im großen 3'-UTR-Bereich stellten wir Cluster konservierter Sequenzblöcke fest, aber keine E-Boxen. Eine Suche mit PROMOTER 2.0 (ein Bioinformatik Programm basierend auf neuronalen Netzwerken und genetischem Algorithmus), ergab eine potentielle Promotorregion (bezeichnet als P0) im äußersten Bereich upstream. Eine Suche mit DNASTAR Lasergene 9.1 (Modul: GeneQuest) identifizierte den P1-Promotor in den proximalen 5'-UTR-Sequenzen, das P2 Downstream-Promotorelement (DPE) in Intron 2 und drei potentielle Polyadenylierungssignale in der 3'-UTR. Auf Grundlage der bionformatischen Analysen und dem Auftreten geeigneter Restriktionsstellen in den nicht kodierenden Regionen wurden verschiedene Deletionskonstrukte hergestellt. Die Transgene wurden entweder in y1 w1118 oder attB Fliegenembryonen injiziert, um unabhängige transgene Fliegenlinien zu etablieren. Die Aktivität des lacZ Reporters wurde im dritten instar Larvenstadium im Gehirn, den Imaginalscheiben, Embryonen und Ovarien der etablierten Fliegenlinien analysiert. Im Gehirn ist lacZ in einer Reihe von Zellen meist proximaler Teile beider Hemisphären und entlang des ventralen Ganglions exprimiert. Diese Zellen könnten neuronale Vorläuferzellen sein, die eine hohe Wachstumsrate und Zellteilung aufweisen bevor sie differenzieren. Die lacZ-Aktivität in den Zellen in den vorderen Teilen der Hemisphären könnte eine bestimmte Klasse von kontinuierlich proliferierenden Neuroblasten, sogennante Mushroom Body Neuroblasten (MBNbs), sein. In der Flügelscheibe ist lacZ meist um den Flügel Beutel und in der Notum Region exprimiert. In der Augenscheibe wird lacZ überwiegend anterior und posterior der morphogenetischen Furche (MF), und in der Antennenscheibe in der Mitte und ringförmig um die Mitte exprimiert. In der Beinscheibe wird die Reporteraktivität in konzentrischen Ringen in der Mitte der Scheibe mit einem Loch in der Mitte beobachtet. Die einzelnen Zellen in den Bein- und Flügelscheiben mit lacZ-Färbung, könnten Vorläuferzellen für Sinnesorgane (SOP) sein, die sich vor der terminalen Mitose und Differenzierung aktiv teilen. Im frühen Embryo sind mütterliche Transkripte nachweisbar. Später während der Erweiterung der Keimanlage ist dmyc intensiviert im Mesoderm, mid-gut, Rachen und dem anal-Pad detektierbar. In den Ovarien wird die Aktivität von dmyc überwiegend in den Nährzellen, Eizellen und schwach an der Spitze des Germariums detektiert. Die beobachteten Muster in den getesteten Geweben korrelieren mit der endogenen dmyc Lokalisierung. Die Expression mit dem Konstrukt, das nur die Sequenz des Intron 2 enthält, zeigt die Existenz einer downstream liegenden Initiationsstelle, welche die Transkription des Reportergens antreibt. Dies entspricht der Erkenntnis, dass viele der entwicklungsmäßig aktiven Gene modularen cis-regulatorischer Elemente enthalten, um Gene während verschiedener Entwicklungsstadien der Entwicklung ein- und auszuschalten. Aus den erhaltenen Ergebnissen schließe ich, dass die meisten, wenn nicht alle der regulatorischen Elemente, die für die korrekte Expression von lacZ im larvalen Gehirn und Scheiben, Embryonen und erwachsenen weiblichen Gewebe erforderlich sind, innerhalb des getesteten 40-kb-Fragment des dmyc LoKus vorhanden sind. Weiter schließe ich, dass die Sequenzen einschließlich des Intron 1, der 5'-UTR, sowie etwa 100 bp upstream der Transkriptionsstartstelle des P1-Promotors ausreichend sind, um ein dmyc-ähnliches Muster der Reporteraktivität in ovariellen Oocyten, Nährzellen und im Embryo, jedoch nicht in larvalen Geweben zu erhalten. Schliesslich wird dmyc wie viele entwicklungsregulierte Gene wahrscheinlich von verschiedenen Transkriptionsinitiation-Einheiten transkribiert, welche eine sich weit upstream befindende regulatorische Region, ein TATA-Box enthaltender proximaler Komplex und ein TATA-loses downstream Promotor-Element zusammen mit einem Initiator innerhalb der Intron 2 Region enthält. Analyse der Polyadenylierungssignale, Poly (A)1, Poly (A)2, und Poly (A)3, am dmyc 3'-Ende ergaben, dass das dmyc Gen unterschiedliche Transkripte mit kürzeren und längeren Längen erzeugen würde, was den Angaben aus der Literatur entspricht. Die 5'-RACE-Analyse der cDNA-Enden von dmyc legt die Transkriptionsstartstelle am P1-Promotor 18 Basenpaare upstream des Starts der bekannten EST GM01143 innerhalb des 5-'UTR fest, wobei ein A als die erste Base transkribiert wird. Die Daten zeigen, dass die erste TATA-Box, welche zuvor rechnerisch vorhergesagt wurde, genutzt wird, um dmyc mRNA voller Länge zu generieren. Das größte Transkript enthält alle drei Exons, das nach der Entfernung der Introns durch konstitutiv regulierten Spleißmechanismus erzeugt wird. Diese Erkenntnisse können sich für eine weitere Analyse der cis-Elemente von dmyc und dessen strenger Regulierung auf Transkriptionsebene als nützliche Werkzeuge erweisen. Summary A fundamental question about the biology of the developmentally regulated myc gene is how both its high expression in growing and dividing cells as well as its down regulation during differentiation is maintained. The product of the proto-oncogene myc is a transcription factor, a crucial regulator of growth and proliferation during animal development. As an evolutionarily conserved gene regulatory protein, Myc contains a sequence specific “basic region/helix-loop-helix/leucine zipper” (bHLHLZ) DNA binding domain and an N-terminal transactivation domain, both essential for its biological activity in cell growth control, differentiation and apoptosis. Understanding the regulation of mammalian c-myc as an “immediate early gene” at the level of transcription is still a challenge. Due to the presence of only one copy of the dmyc gene (instead of at least three isoforms as in mouse), and well-established Drosophila genetic models, it is possible to study the cis-regulatory elements in dmyc. The aim of this study was fourfold: (i) to identify cis-regulatory control elements in the 5’-UTR, intragenic region, and 3’-UTR responsible for the expression of the endogenous dmyc; (ii) to elucidate the mechanism of transcription termination; (iii) to characterize putative transcription initiation sites; (iv) to define the mechanism of dmyc RNA splicing. To answer these questions, three approaches were applied: 1) bioinformatics-based analyses for revealing the complexity of dmyc transcriptional regulation as well as for obtaining guidance for designing the experiments to test various transcriptional control elements/regions of the dmyc gene; 2) study of lacZ reporter activity under the control of the dmyc promoter and other potential regulatory regions; and 3) application of 5’ RACE (Rapid Amplification of cDNA Ends) and subsequent sequencing of data obtained to map the start of the transcript and elucidate the mechanisms of RNA splicing. The approaches used in this study enabled us to obtain the results explained bellow and draw the following conclusions: Alignment of a 40-kb reference DNA fragment on the X chromosome, harboring the dmyc gene of D. melanogaster, and orthologous sequences from 12 sequenced Drosophilids with the phylogenetic footprinting bioinformatics tools EvoPrinter and cis-Decoder identified several putative enhancer regions with conserved sequences, including several conserved E-boxes, which are preferred Myc binding sites of both the CACGTG and CACTTG type. In the intron 2 region, in addition to two conserved E-boxes we identified multiple clusters of conserved sequence blocks upstream of the predicted intronic promoter. Two of the several identified clusters of conserved sequences include: (i) a repeat sequence element (ATGTTGCCA) where the core (TGTTGC) is repeated three times and (ii) a dead-ringer for the HLHm-3-2 enhancer (CGCGTGGGAAAA), within which the consensus binding site (GTGGGAA) for suppressor of Hairy wing su(Hw), resides. In the large 3'-UTR region, we identified clusters of conserved sequence blocks, but no E-boxes. A search with the bioinformatics tool neural network genetic algorithm PROMOTER 2.0 detected a potential promoter region (dubbed as P0) in the far upstream region, and a search with DNASTAR Lasergene 9.1 (module: GeneQuest) identified the P1 promoter in the proximal 5’-UTR sequences, the P2 downstream promoter element (DPE) in intron 2, and three potential polyadenylation signals in the 3’-UTR. On the basis of the computational analyses and the appearance of suitable restriction sites in the noncoding regions, different deletion constructs were made. The transgenes were injected either into the y 1 w1118 or attB fly embryos to establish independent transgenic stocks. The activity of lacZ reporter was analyzed in third instar larval brain, imaginal discs, embryos and ovaries of the established fly lines. In the brain lacZ is expressed in a number of cells mostly in proximal parts of both hemispheres and along the ventral ganglion. These cells could refer to neuronal precursor cells, which undergo a high rate of growth and cell division before differentiating. The lacZ activity in the cells in the front parts of the hemispheres could represent a certain class of continuously proliferating neuroblasts, namely mushroom body neuroblasts (MBNbs). In the wing disc lacZ is mostly expressed around the wing pouch and in the notum region. In the eye disc lacZ is predominantly expressed anterior and posterior of the morphogenetic furrow (MF), and in the antennal disc in the central region. In the leg disc the reporter activity is observed in concentric rings in the middle of the disc with a hole in the center. The single cells in the leg and wing discs staining for lacZ could refer to sensory organ precursor cells (SOPs) that divide actively before terminal mitosis and differentiation. In the early embryo maternal transcripts are detectable, later during germ band extension dmyc intensifies in the mesoderm, mid-gut, pharynx, and anal pad. In the ovary, dmyc activity is predominantly detected in the nurse cells and oocyte, and weakly at the tip of germarium. The patterns observed in the tested tissues correlates with endogenous dmyc localization. The expression obtained with the construct containing only intron 2 sequences indicates the existence of a downstream initiation site driving the transcription of the reporter gene. This corresponds to the finding that many of the developmentally active genes contain modular cis-regulatory elements in order to switch the gene on and off during different stages of development. From the results obtained, I conclude that most, if not all of the regulatory elements required for the correct expression of lacZ in larval brain and discs, embryos, and adult female tissues are present within the tested 40-kb fragment of the dmyc locus. I further conclude the sequences including intron 1, the 5'-UTR, and approximately 100 bp upstream of the transcription start site from P1 promoter is sufficient to give reporter activity in a dmyc-like pattern in both ovarian oocyte, nurse cells, and in the embryo, but not in larval tissues. Finally, like many developmentally regulated genes, dmyc is likely to be transcribed from multiple transcription initiation units including a far upstream regulatory region, a TATA box containing proximal complex and a TATA-less downstream promoter element in conjunction with an initiator within the intron 2 region. Analysis of the polyadenylation signals, poly (A)1, poly (A)2, and poly (A)3, at the dmyc 3'-end revealed that the dmyc gene would be predicted to produce different transcripts with shorter and longer lengths, as known from literature. 5’ RACE analysis of the dmyc cDNA ends mapped the transcription start site at the P1 promoter 18 base pairs upstream of the start of the known EST GM01143 within the 5’-UTR, an A residue being transcribed as the first base. The data show that the first TATA box, previously computationally predicted, is utilized to generate dmyc full length mRNA. The largest transcript contains all three exons generated after the removal of the introns by regulated splicing mechanism. These findings may provide valuable tools for a further analysis of dmyc cis-elements and mechanism of dmyc tight regulation at transcriptional level.
TrendTerms displays relevant terms of the abstract of this publication and related documents on a map. The terms and their relations were extracted from ZORA using word statistics. Their timelines are taken from ZORA as well. The bubble size of a term is proportional to the number of documents where the term occurs. Red, orange, yellow and green colors are used for terms that occur in the current document; red indicates high interlinkedness of a term with other terms, orange, yellow and green decreasing interlinkedness. Blue is used for terms that have a relation with the terms in this document, but occur in other documents.
You can navigate and zoom the map. Mouse-hovering a term displays its timeline, clicking it yields the associated documents.