Header

UZH-Logo

Maintenance Infos

Requirements for a parallel treebank search tool


Merz, C; Volk, M (2005). Requirements for a parallel treebank search tool. In: GLDV-Conference, Bonn, Germany, 2005 - 2005.

Abstract

Parallel treebanks, i.e. syntactically annotated corpora of translated texts, are invaluable resources for cross-linguistic research. Whereas some parallel treebanks have been created, little work has been devoted to parallel treebank query systems. In this paper, we compare experiences from monolingual corpus query tools and project these insights for the development of parallel treebank search tools. We distinguish between two different query types, namely single constraint queries and combined constraint queries, and show how the certainty of the alignment information can be included in the search result as well.
Suggestions for graphical output representation are also made. We show that a large amount of the work which has been done on monolingual treebanking can be used with parallel treebanks as well, although additional requirements need to
be observed and fulfilled.

Parallele Baumbanken, d.h. syntaktisch annotierte Korpora aus übersetzten Texten, sind wertvolle Ressourcen für die sprachübergreifende Forschung.
Obwohl bereits einige parallele Baumbanken erstellt wurden, findet man noch fast keine Arbeiten zum Thema der dazugehörigen Suchwerkzeuge. In diesem Artikel vergleichen wir Erfahrungen, die mit einsprachigen Korpusabfragesystemen
gemacht wurden, und übertragen diese Erkenntnisse auf die Entwicklung eines Abfragesystems für parallele Baumbanken. Wir unterscheiden zwei verschiedene Abfragearten, nämlich Abfragen mit einfachen Baumbedingungen und Abfragen mit kombinierten Baumbedingungen. Wir veranschaulichen, wie Angaben zur Sicherheit der Alinierung in die Suchresultate miteinbezogen werden können und machen einen Vorschlag zur graphischen Abbildung der Suchresultate. Wir zeigen auf, dass ein grosser Teil der Erfahrungen mit einsprachigen Baumbanken für parallele Baumbanken weiterverwendet werden kann, betonen aber, dass zusätzliche Anforderungen beachtet und realisiert werden müssen.

Abstract

Parallel treebanks, i.e. syntactically annotated corpora of translated texts, are invaluable resources for cross-linguistic research. Whereas some parallel treebanks have been created, little work has been devoted to parallel treebank query systems. In this paper, we compare experiences from monolingual corpus query tools and project these insights for the development of parallel treebank search tools. We distinguish between two different query types, namely single constraint queries and combined constraint queries, and show how the certainty of the alignment information can be included in the search result as well.
Suggestions for graphical output representation are also made. We show that a large amount of the work which has been done on monolingual treebanking can be used with parallel treebanks as well, although additional requirements need to
be observed and fulfilled.

Parallele Baumbanken, d.h. syntaktisch annotierte Korpora aus übersetzten Texten, sind wertvolle Ressourcen für die sprachübergreifende Forschung.
Obwohl bereits einige parallele Baumbanken erstellt wurden, findet man noch fast keine Arbeiten zum Thema der dazugehörigen Suchwerkzeuge. In diesem Artikel vergleichen wir Erfahrungen, die mit einsprachigen Korpusabfragesystemen
gemacht wurden, und übertragen diese Erkenntnisse auf die Entwicklung eines Abfragesystems für parallele Baumbanken. Wir unterscheiden zwei verschiedene Abfragearten, nämlich Abfragen mit einfachen Baumbedingungen und Abfragen mit kombinierten Baumbedingungen. Wir veranschaulichen, wie Angaben zur Sicherheit der Alinierung in die Suchresultate miteinbezogen werden können und machen einen Vorschlag zur graphischen Abbildung der Suchresultate. Wir zeigen auf, dass ein grosser Teil der Erfahrungen mit einsprachigen Baumbanken für parallele Baumbanken weiterverwendet werden kann, betonen aber, dass zusätzliche Anforderungen beachtet und realisiert werden müssen.

Statistics

Downloads

96 downloads since deposited on 27 Aug 2009
14 downloads since 12 months
Detailed statistics

Additional indexing

Item Type:Conference or Workshop Item (Paper), refereed, original work
Communities & Collections:06 Faculty of Arts > Institute of Computational Linguistics
Dewey Decimal Classification:000 Computer science, knowledge & systems
410 Linguistics
Language:English
Event End Date:2005
Deposited On:27 Aug 2009 13:01
Last Modified:11 Aug 2017 06:02

Download

Preview Icon on Download
Preview
Filetype: PDF
Size: 1MB