Lexical innovation on the internet - neologisms in blogs
Smyk-Bhattacharjee, Dorota. Lexical innovation on the internet - neologisms in blogs. 2009, University of Zurich, Faculty of Arts.
Abstract
Studien im Bereich des Sprachwandels beschreiben traditionellerweise diachronische Veränderungen in den Kernsubsystemen der Sprache und versuchen, diese zu erklären. Obwohl ein Grossteil der Sprachwissenschaftler sich darüber einig ist, dass die aktuellen Entwicklungen in einer Sprache am klarsten im Wortschatz reflektiert werden, lassen die lexikographischen und morphologischen Zugänge zur Beobachtung des lexikalischen Wandels wichtige Fragen offen. So beschäftigen sich letztere typischerweise mit Veränderungen, die schon stattgefunden haben, statt sich dem sich zum aktuellen Zeitpunkt vollziehenden Wandel zu widmen. Die vorliegende Dissertation bietet eine innovative Lösung zur Untersuchung des sich vollziehenden lexikalischen Wandels sowohl in Bezug auf die Datenquelle als auch bzgl. der verwendeten Methodologie. In den vergangenen 20 Jahren hat das Internet unsere Art zu leben, zu arbeiten und zu kommunizieren drastisch beeinflusst. Das Internet bietet aber auch eine Masse an frei zugänglichen Sprachdaten und damit neue Möglichkeiten für die Sprachforschung. Die in dieser Arbeit verwendeten Daten stammen aus einem Korpus englischsprachiger Blogs, eine Art Computer gestützte Kommunikation (computer-mediated communication, CMC). Blogs bieten eine neue, beispiellose Möglichkeit, Wörtern nachzuspüren zum Zeitpunkt, in der sie Eingang in die Sprache finden. Um die Untersuchung des Korpus zu vereinfachen, wurde eine Software mit dem Namen Indiana entwickelt. Dieses Instrument verbindet den Korpus basierten Zugang mit einer lexikographischen Analyse. Indiana verwendet eine Kombination von HTML-to-text converter, eine kumulative Datenbank und verschiede Filter, um potentielle Neologismen im Korpus identifizieren zu können. Die vorliegende Dissertation bietet neben dem innovativen methodologischen Beitrag einen unfassende Beschreibung und Analyse von Blogs als Quelle für die linguistische Forschung. Zum einen werden morphologische Muster analysiert, die bis dato marginalisiert wurden und bei den traditionellen Klassifizierungsmustern untergingen, und zum anderen werden detaillierte Fallstudien präsentiert, die das Aufkommen, die Verbreitung und die Institutionalisierung von spezifischen neuen lexikalischen Einheiten dokumentieren. Die Resultate bestätigen, dass das Internet die Sprachregelungsmechanismen beeinflusst und Innovationen im Internet ein Hinweis auf den Sprachwandel im Allgemeinen sind. Discussions about language change traditionally describe and attempt to explain diachronic alterations to the core subsystems of language. Though most scholars agree that vocabulary reflects ongoing changes in a language most clearly, the lexicographic and morphological approaches to observing lexical change have left serious gaps. They typically study the change that has already occurred, rather than change in progress. This thesis offers an innovative solution to studying lexical change in progress, both in terms of the data source and methodology. In the past two decades, the Internet has dramatically influenced the way we live, work, socialize, and communicate. It has also offered new opportunities for language research, providing abundant, freely available, linguistic data. The data used in this work comes from English language blogs, a genre of computer-mediated communication (CMC) native to the Web. Blogs offer unprecedented opportunities for tracing words as they come into the language. For the purpose of this research, a corpus of blogs has been compiled. To facilitate this research a software tool, named Indiana, has been developed. It fuses the corpus-based approach with lexicographic analysis. Indiana combines a HTML-to-text converter, a cumulative database, and a series of filters, to identify potential neologisms in my corpus. Apart from the methodological contribution, this thesis offers a comprehensive description and analysis of blogs as sources for linguistic inquiry. It analyses the previously marginalized morphological patters that often escape traditional classification patterns. It also presents detailed case studies of institutionalization, spread and emergence of specific new lexical items. The findings confirm that the Internet does affect language regulation mechanisms and innovation on the Internet is an indication of language change in general.
Abstract
Studien im Bereich des Sprachwandels beschreiben traditionellerweise diachronische Veränderungen in den Kernsubsystemen der Sprache und versuchen, diese zu erklären. Obwohl ein Grossteil der Sprachwissenschaftler sich darüber einig ist, dass die aktuellen Entwicklungen in einer Sprache am klarsten im Wortschatz reflektiert werden, lassen die lexikographischen und morphologischen Zugänge zur Beobachtung des lexikalischen Wandels wichtige Fragen offen. So beschäftigen sich letztere typischerweise mit Veränderungen, die schon stattgefunden haben, statt sich dem sich zum aktuellen Zeitpunkt vollziehenden Wandel zu widmen. Die vorliegende Dissertation bietet eine innovative Lösung zur Untersuchung des sich vollziehenden lexikalischen Wandels sowohl in Bezug auf die Datenquelle als auch bzgl. der verwendeten Methodologie. In den vergangenen 20 Jahren hat das Internet unsere Art zu leben, zu arbeiten und zu kommunizieren drastisch beeinflusst. Das Internet bietet aber auch eine Masse an frei zugänglichen Sprachdaten und damit neue Möglichkeiten für die Sprachforschung. Die in dieser Arbeit verwendeten Daten stammen aus einem Korpus englischsprachiger Blogs, eine Art Computer gestützte Kommunikation (computer-mediated communication, CMC). Blogs bieten eine neue, beispiellose Möglichkeit, Wörtern nachzuspüren zum Zeitpunkt, in der sie Eingang in die Sprache finden. Um die Untersuchung des Korpus zu vereinfachen, wurde eine Software mit dem Namen Indiana entwickelt. Dieses Instrument verbindet den Korpus basierten Zugang mit einer lexikographischen Analyse. Indiana verwendet eine Kombination von HTML-to-text converter, eine kumulative Datenbank und verschiede Filter, um potentielle Neologismen im Korpus identifizieren zu können. Die vorliegende Dissertation bietet neben dem innovativen methodologischen Beitrag einen unfassende Beschreibung und Analyse von Blogs als Quelle für die linguistische Forschung. Zum einen werden morphologische Muster analysiert, die bis dato marginalisiert wurden und bei den traditionellen Klassifizierungsmustern untergingen, und zum anderen werden detaillierte Fallstudien präsentiert, die das Aufkommen, die Verbreitung und die Institutionalisierung von spezifischen neuen lexikalischen Einheiten dokumentieren. Die Resultate bestätigen, dass das Internet die Sprachregelungsmechanismen beeinflusst und Innovationen im Internet ein Hinweis auf den Sprachwandel im Allgemeinen sind. Discussions about language change traditionally describe and attempt to explain diachronic alterations to the core subsystems of language. Though most scholars agree that vocabulary reflects ongoing changes in a language most clearly, the lexicographic and morphological approaches to observing lexical change have left serious gaps. They typically study the change that has already occurred, rather than change in progress. This thesis offers an innovative solution to studying lexical change in progress, both in terms of the data source and methodology. In the past two decades, the Internet has dramatically influenced the way we live, work, socialize, and communicate. It has also offered new opportunities for language research, providing abundant, freely available, linguistic data. The data used in this work comes from English language blogs, a genre of computer-mediated communication (CMC) native to the Web. Blogs offer unprecedented opportunities for tracing words as they come into the language. For the purpose of this research, a corpus of blogs has been compiled. To facilitate this research a software tool, named Indiana, has been developed. It fuses the corpus-based approach with lexicographic analysis. Indiana combines a HTML-to-text converter, a cumulative database, and a series of filters, to identify potential neologisms in my corpus. Apart from the methodological contribution, this thesis offers a comprehensive description and analysis of blogs as sources for linguistic inquiry. It analyses the previously marginalized morphological patters that often escape traditional classification patterns. It also presents detailed case studies of institutionalization, spread and emergence of specific new lexical items. The findings confirm that the Internet does affect language regulation mechanisms and innovation on the Internet is an indication of language change in general.
TrendTerms displays relevant terms of the abstract of this publication and related documents on a map. The terms and their relations were extracted from ZORA using word statistics. Their timelines are taken from ZORA as well. The bubble size of a term is proportional to the number of documents where the term occurs. Red, orange, yellow and green colors are used for terms that occur in the current document; red indicates high interlinkedness of a term with other terms, orange, yellow and green decreasing interlinkedness. Blue is used for terms that have a relation with the terms in this document, but occur in other documents.
You can navigate and zoom the map. Mouse-hovering a term displays its timeline, clicking it yields the associated documents.