Header

UZH-Logo

Maintenance Infos

Document clustering in large German corpora using Natural Language Processing


Forster, Richard. Document clustering in large German corpora using Natural Language Processing. 2006, University of Zurich, Faculty of Arts.

Abstract

Seitdem die Computer und das Internet in unseren Alltag getreten sind, hat die Informationsmenge, zu der wir theoretisch Zugang haben, exponentiell zugenommen. Eine Methode, um diese gewaltige Datenflut zu bewältigen, ist die Clusteranalyse, mit der grosse unstrukturierte Textmengen in Haufen von miteinander verwandten Dokumenten unterteilt werden können. Text-Clustering besteht aus zwei grundlegenden Schritten: der Text-Repräsentation und dem Clustering. Trotz umfangreicher Literatur zur Clusteranalyse fehlt ein eigenständiges Lehrbuch zum Text-Clustering, weshalb der erste Teil dieser Arbeit einer systematischen Übersicht über die Cluster-Algorithmen und die geläufigen Text- Repräsentationsmethoden gewidmet ist. Anschliessend wird ein Schema zur Klassifikation von Text-Clustering-Anwendungen eingeführt, das sich an den zeitkritischen Komponenten orientiert. Der zweite Teil untersucht die Verwendung Natürlichsprachlicher Datenverarbeitung (Natural Language Processing - NLP) bei der Text-Repräsentation. Zu diesem Zweck werden fünf grosse deutsche Korpora zusammengestellt und beschrieben. NLP-Techniken aller Art werden über den fünf Sammlungen zur Anwendung gebracht und evaluiert. Es zeigt sich, dass der Erfolg vieler NLP-Methoden vom jeweiligen Korpus abhängt, wofür hypothetische Erklärungen formuliert werden. Insgesamt sprechen die Ergebnisse sowohl für wie wider den Einsatz von NLP. Für die Mehrheit der untersuchten Fälle kann jedoch ein deutliches Verbesserungspotential durch Natürlichsprachliche Datenverarbeitungsmethoden gezeigt werden.

Ever since the advent of computer systems and, in particular, the Internet, the amount of information theoretically at our disposal has been increasing exponentially. One way to deal with the extraordinary flood of data is cluster analysis. It is used here to divide large unstructured document corpora into groups of more or less closely related documents. Document clustering consists of two fundamental stages: document representation and clustering. Despite a number of detailed textbooks on cluster analysis in general, no such work seems to have been carried out on the specific needs of document clustering. The first part of the thesis is therefore dedicated to comprehensive surveys of existing clustering algorithms and document representation techniques. In addition, a scheme is presented for classifying different clustering applications in accordance with their time-criticality. The second part of the thesis is devoted to an evaluation of Natural Language Processing (NLP) as a means of improving the document representations. To this end, five large German data sets have been compiled and described. NLP techniques ranging from the very simple to complex syntactic and semantic models were evaluated on these five data sets. It emerges that the success of many NLP representation techniques depends on the data under consideration, for which a hypothetical explanation is offered. All in all, evidence is found both pro and contra Natural Language Processing. For the majority of individual cases, distinct potential for improvement through NLP can be shown.

Abstract

Seitdem die Computer und das Internet in unseren Alltag getreten sind, hat die Informationsmenge, zu der wir theoretisch Zugang haben, exponentiell zugenommen. Eine Methode, um diese gewaltige Datenflut zu bewältigen, ist die Clusteranalyse, mit der grosse unstrukturierte Textmengen in Haufen von miteinander verwandten Dokumenten unterteilt werden können. Text-Clustering besteht aus zwei grundlegenden Schritten: der Text-Repräsentation und dem Clustering. Trotz umfangreicher Literatur zur Clusteranalyse fehlt ein eigenständiges Lehrbuch zum Text-Clustering, weshalb der erste Teil dieser Arbeit einer systematischen Übersicht über die Cluster-Algorithmen und die geläufigen Text- Repräsentationsmethoden gewidmet ist. Anschliessend wird ein Schema zur Klassifikation von Text-Clustering-Anwendungen eingeführt, das sich an den zeitkritischen Komponenten orientiert. Der zweite Teil untersucht die Verwendung Natürlichsprachlicher Datenverarbeitung (Natural Language Processing - NLP) bei der Text-Repräsentation. Zu diesem Zweck werden fünf grosse deutsche Korpora zusammengestellt und beschrieben. NLP-Techniken aller Art werden über den fünf Sammlungen zur Anwendung gebracht und evaluiert. Es zeigt sich, dass der Erfolg vieler NLP-Methoden vom jeweiligen Korpus abhängt, wofür hypothetische Erklärungen formuliert werden. Insgesamt sprechen die Ergebnisse sowohl für wie wider den Einsatz von NLP. Für die Mehrheit der untersuchten Fälle kann jedoch ein deutliches Verbesserungspotential durch Natürlichsprachliche Datenverarbeitungsmethoden gezeigt werden.

Ever since the advent of computer systems and, in particular, the Internet, the amount of information theoretically at our disposal has been increasing exponentially. One way to deal with the extraordinary flood of data is cluster analysis. It is used here to divide large unstructured document corpora into groups of more or less closely related documents. Document clustering consists of two fundamental stages: document representation and clustering. Despite a number of detailed textbooks on cluster analysis in general, no such work seems to have been carried out on the specific needs of document clustering. The first part of the thesis is therefore dedicated to comprehensive surveys of existing clustering algorithms and document representation techniques. In addition, a scheme is presented for classifying different clustering applications in accordance with their time-criticality. The second part of the thesis is devoted to an evaluation of Natural Language Processing (NLP) as a means of improving the document representations. To this end, five large German data sets have been compiled and described. NLP techniques ranging from the very simple to complex syntactic and semantic models were evaluated on these five data sets. It emerges that the success of many NLP representation techniques depends on the data under consideration, for which a hypothetical explanation is offered. All in all, evidence is found both pro and contra Natural Language Processing. For the majority of individual cases, distinct potential for improvement through NLP can be shown.

Statistics

Downloads

248 downloads since deposited on 20 Jun 2019
248 downloads since 12 months
Detailed statistics

Additional indexing

Item Type:Dissertation (monographical)
Referees:Hess Michael, Bernstein Abraham
Communities & Collections:UZH Dissertations
Dewey Decimal Classification:Unspecified
Language:English
Place of Publication:Zürich
Date:2006
Deposited On:20 Jun 2019 08:54
Last Modified:25 Sep 2019 00:11
Number of Pages:263
OA Status:Green
Related URLs:https://www.recherche-portal.ch/primo-explore/fulldisplay?docid=ebi01_prod005228458&context=L&vid=ZAD&search_scope=default_scope&tab=default_tab&lang=de_DE (Library Catalogue)

Download

Green Open Access

Download PDF  'Document clustering in large German corpora using Natural Language Processing'.
Preview
Content: Published Version
Language: English
Filetype: PDF
Size: 2MB