Header

UZH-Logo

Maintenance Infos

Wenn Algorithmen Zeitschriften lesen. Vom Mehrwert automatisierter Textanreicherung


Gasser, Michael; Wanger, Regina; Prada Ziegler, Ismail (2018). Wenn Algorithmen Zeitschriften lesen. Vom Mehrwert automatisierter Textanreicherung. o-bib : Das offene Bibliotheksjournal, 5(4):181-192.

Abstract

In Zusammenarbeit mit dem Institut für Computerlinguistik der Universität Zürich (ICL UZH) lancierte die ETH-Bibliothek Zürich ein Pilotprojekt im Bereich automatisierter Textanreicherung. Grundlage für den Piloten bildeten Volltextdateien der Schweizer Zeitschriftenplattform E-Periodica. Anhand eines ausgewählten Korpus dieser OCR-Daten wurden mit automatisierten Verfahren Tests in den Bereichen OCR-Korrektur, Erkennung von Personen-, Orts- und Ländernamen sowie Verlinkung identifizierter Personen mit der Gemeinsamen Normdatei GND durchgeführt. Insgesamt wurden sehr positive Resultate erzielt. Das verwendete System dient nun als Grundlage für den weiteren Kompetenzausbau der ETH-Bibliothek auf diesem Gebiet. Das gesamte bestehende Angebot der Plattform E-Periodica soll automatisiert angereichert und um neue Funktionalitäten erweitert werden. Dies mit dem Ziel, Forschenden einen Mehrwert bei der Informationsbeschaffung zu bieten. Im vorliegenden Beitrag werden Projektinhalt, Methodik und Resultate erläutert sowie das weitere Vorgehen skizziert.

Abstract

In Zusammenarbeit mit dem Institut für Computerlinguistik der Universität Zürich (ICL UZH) lancierte die ETH-Bibliothek Zürich ein Pilotprojekt im Bereich automatisierter Textanreicherung. Grundlage für den Piloten bildeten Volltextdateien der Schweizer Zeitschriftenplattform E-Periodica. Anhand eines ausgewählten Korpus dieser OCR-Daten wurden mit automatisierten Verfahren Tests in den Bereichen OCR-Korrektur, Erkennung von Personen-, Orts- und Ländernamen sowie Verlinkung identifizierter Personen mit der Gemeinsamen Normdatei GND durchgeführt. Insgesamt wurden sehr positive Resultate erzielt. Das verwendete System dient nun als Grundlage für den weiteren Kompetenzausbau der ETH-Bibliothek auf diesem Gebiet. Das gesamte bestehende Angebot der Plattform E-Periodica soll automatisiert angereichert und um neue Funktionalitäten erweitert werden. Dies mit dem Ziel, Forschenden einen Mehrwert bei der Informationsbeschaffung zu bieten. Im vorliegenden Beitrag werden Projektinhalt, Methodik und Resultate erläutert sowie das weitere Vorgehen skizziert.

Statistics

Citations

Dimensions.ai Metrics

Altmetrics

Downloads

31 downloads since deposited on 08 Feb 2019
7 downloads since 12 months
Detailed statistics

Additional indexing

Item Type:Journal Article, not_refereed, original work
Communities & Collections:06 Faculty of Arts > Institute of Computational Linguistics
Dewey Decimal Classification:000 Computer science, knowledge & systems
410 Linguistics
Uncontrolled Keywords:Bibliothekswesen, COMPUTERLINGUISTIK, Named entity recognition (NER), Named entity linking (NEL), OCR
Language:German
Date:10 December 2018
Deposited On:08 Feb 2019 10:09
Last Modified:30 Jan 2020 14:07
Publisher:VDB - Verein Deutscher Bibliothekarinnen und Bibliothekare
Number of Pages:193
ISSN:2363-9814
OA Status:Gold
Free access at:Publisher DOI. An embargo period may apply.
Publisher DOI:https://doi.org/10.5282/o-bib/2018H4S181-192
Related URLs:http://hdl.handle.net/20.500.11850/310357 (Library Catalogue)
  • Content: Published Version
  • Language: German
  • Licence: Creative Commons: Attribution 4.0 International (CC BY 4.0)