Header

UZH-Logo

Maintenance Infos

Visualization and interactive exploration of spatio-temporal and thematic information in digital text archives


Bruggmann, André. Visualization and interactive exploration of spatio-temporal and thematic information in digital text archives. 2017, University of Zurich, Faculty of Science.

Abstract

i



While rapidly growing unstructured and semi-structured online digital text archives (e.g., Google Books) potentially offer a wealth of useful and important information to all of us in the information society, limited access mechanisms hinder the effective and efficient extraction of interesting, meaningful, and relevant information from these data archives. Adopting a GIScience perspective in this thesis, we aim to provide interested information seekers with visual and interactive means to access relevant spatial, temporal, and thematic information, and latent structures found in large digital text archives, using a typical digital text archive in the humanities as a case study. Unstructured and semi-structured, now increasingly digitally accessible text archives from the humanities are particularly interesting for geographers, as they contain a wealth of spatial, temporal, and thematic information, largely untapped for spatio-temporal and thematic data analyses in geography to date.

We address this research challenge using a three-pronged approach, informed by state-of-the-art GIScience methods and techniques. First, we demonstrate that spatial (i.e., place names), temporal (i.e., dates), and thematic information (i.e., topics in text documents) can be automatically retrieved from the Historical Dictionary of Switzerland (HDS), as one typical, digitally available semi-structured text archive in the humanities. We then show that the retrieved information can be meaningfully transformed and reorganized using a spatialization approach, such that this information can be presented to information seekers in the humanities in two-dimensional spatialized displays for further data exploration. These spatialized displays visually uncover latent spatio-temporal and thematic structures in the HDS text archive. Finally, adopting a user-centered graphical interface design and evaluation approach, we integrate spatialized displays in interactive online web interfaces, to make reorganized spatio-temporal and thematic information from the HDS available to information seekers for further exploration and knowledge discovery.

For that we constructed spatialized network maps and a spatialized thematic landscape map display with spatio-temporal and thematic information automatically retrieved from the digital HDS. The spatialized network maps depict relationships between Swiss toponyms in different centuries based on how often toponyms co-occur in the same HDS articles. The spatialized thematic landscape map display, created based on the self-organizing map ii

technique, displays HDS articles as points on a map where thematically similar articles are placed closer to one another in the map than to semantically less similar articles. The maps can be explored interactively. To create useful and usable interactive web interfaces, including the spatialized displays, we involved target users early on in the interface design and development process. Target users provided valuable feedback in the performed utility and usability evaluations. This helped us to iteratively develop perceptually salient and cognitively supportive graphical user interfaces to the HDS text archive. It also facilitated access to and sense-making of the depicted information about the history of Switzerland.

This thesis has three major contributions: first, we provide a comprehensive text information retrieval approach going beyond existing approaches to extract information from text documents in the humanities and present a completely automatic approach to retrieve spatio-temporal and thematic information from a semi-structured text archive. Second, we illustrate how spatialization techniques can be used to depict spatio-temporal and thematic relationships and interconnections in the humanities, revealed by transforming and reorganizing the retrieved information. Third, we contribute a systematic user-centered method to incorporate the spatialized displays in interactive web interfaces. This allows interested information seekers in the humanities to explore spatio-temporal and thematic relationships and structures interactively, using advanced geovisual analytics approaches commonly known in GIScience, but still mostly unknown in history and the humanities.

The systematic evaluation of the automatically retrieved information from the HDS showed satisfactory quality, which suggests that this approach might be successful for other similar unstructured and semi-structured digital text archives in the humanities that include spatio-temporal and thematic information. Furthermore, the systematic evaluation of the constructed spatialized displays with target users suggests that using spatialized network displays to depict spatio-temporal relationships and interconnections, coupled with a spatialized thematic landscape to depict semantic similarities in text documents, aid target users in the humanities to gain new insights about spatio-temporal and thematic information buried in the HDS. The results of a final combined utility and usability study further reveals that target users are indeed able to interactively and visually explore the HDS text archive, and make sense of the novel spatialized displays.

In summary, this thesis highlights how advanced GIScience methods and approaches can be successfully transferred to the humanities to facilitate information access from growing unstructured and semi-structured text archives that also include spatio-temporal and thematic information. iii



Einerseits stehen uns heutzutage immer mehr Informationen in unstrukturierten und semi-strukturierten digitalen Textarchiven (z.B. Google Books) online zur Verfügung. Andererseits fehlen uns oftmals effiziente Hilfsmittel, um interessante und sinnvolle Informationen aus diesen Textarchiven zu extrahieren. Ziel dieser Arbeit ist es, interessierten Personen einen visuellen und interaktiven Zugang zu räumlichen, zeitlichen und thematischen Informationen und versteckten Zusammenhängen in solchen Textarchiven zu ermöglichen. Dazu verwenden wir Methoden der Geographischen Informationswissenschaften (= GIScience), die wir auf ein typisches digitales Textarchiv in den Geistes- und Sozialwissenschaften anwenden. Für GeographInnen sind unstrukturierte und semi-strukturierte Textarchive der Geistes- und Sozialwissenschaften, die vermehrt digital verfügbar sind, besonders interessant, da sie eine Fülle von räumlichen, zeitlichen und thematischen Informationen beinhalten, die bisher nur sehr selten in räumlich-zeitlichen oder thematischen Studien in der Geographie analysiert wurden.

Wir stellen einen dreistufigen Ansatz vor, welcher auf Methoden und Techniken der GIScience zurückgreift. Zuerst zeigen wir, dass räumliche (z.B. Ortsnamen), zeitliche (z.B. Daten) und thematische Informationen (z.B. Themen von Textdokumenten) automatisch aus dem Historischen Lexikon der Schweiz (HLS), welches ein typisches digitales semi-strukturiertes Textarchiv der Geistes- und Sozialwissenschaften ist, extrahiert werden können. Dann zeigen wir, wie die extrahierten Daten transformiert und reorganisiert werden können, um zweidimensionale Darstellungen zu erstellen. Die Darstellungen basieren auf dem Spatialization-Ansatz und ermöglichen die visuelle Erkundung der in den Daten versteckten räumlich-zeitlichen und thematischen Zusammenhänge. In einem letzten Schritt wenden wir einen nutzerzentrierten Design- und Evaluationsansatz an, um die Darstellungen in interaktiven Webanwendungen interessierten Personen zur Verfügung zu stellen, und erleichtern es ihnen damit, neue Erkenntnisse zu räumlich-zeitlichen und thematischen Informationen und Zusammenhängen im HLS zu gewinnen.

Dazu haben wir Netzwerk-Karten und eine Themenlandschaftskarte erstellt. Die Netzwerk-Karten stellen Beziehungen zwischen Ortschaften der Schweiz in verschiedenen Jahrhunderten dar. Diese Beziehungen basieren auf der gemeinsamen Nennung der Ortschaften in Artikeln des HLS. Die Themenlandschaftskarte stellt HLS-Artikel als Punkte iv

auf einer Karte dar, wobei sich thematisch ähnliche Artikel näher beieinander befinden als thematisch unähnliche Artikel. Beide Karten können interaktiv erkundet werden. Um nützliche und nutzerfreundliche interaktive Webanwendungen dieser Karten zu erstellen, haben wir Personen unserer Zielgruppe früh in den Design- und Entwicklungsprozess der Anwendungen involviert. Die Personen haben uns wertvolle Rückmeldungen gegeben, die uns dabei geholfen haben, die Webanwendungen iterativ weiterzuentwickeln und perzeptuell sowie kognitiv ansprechend zu gestalten. Dies soll den interaktiven Zugang zu Informationen und mögliche Erkenntnisgewinne zur Geschichte der Schweiz erleichtern.

Diese Arbeit leistet drei wichtige Forschungsbeiträge: Wir stellen einen ganzheitlichen Ansatz vor, welcher bisherige Ansätze erweitert, indem er aufzeigt, wie räumlich-zeitliche und thematische Informationen komplett automatisch aus einem semi-strukturierten Textarchiv in den Geistes- und Sozialwissenschaften extrahiert werden können. Zusätzlich zeigen wir auf, wie der Spatialization-Ansatz zur Reorganisation der extrahierten Daten und zum Darstellen von räumlich-zeitlichen und thematischen Zusammenhängen in den Geistes- und Sozialwissenschaften genutzt werden kann. Ausserdem leisten wir einen Beitrag, indem wir einen systematischen und nutzerzentrierten Ansatz vorschlagen, der es erlaubt, die Darstellungen in interaktiven Webanwendungen Personen in den Geistes- und Sozialwissenschaften zur Verfügung zu stellen. Die dafür verwendeten Methoden sind in den GIScience verbreitet, haben jedoch bisher kaum Eingang in die Geschichtswissenschaften sowie allgemein in die Geistes- und Sozialwissenschaften gefunden.

Eine Evaluation hat aufgezeigt, dass die Resultate der automatischen Extraktion von räumlich-zeitlichen und thematischen Informationen befriedigend sind und dass der gezeigte Ansatz daher auf weitere unstrukturierte und semi-strukturierte digitale Textarchive in den Geistes- und Sozialwissenschaften, welche räumlich-zeitliche sowie thematische Informationen beinhalten, angewendet werden kann. Die systematische Evaluation der Karten hat gezeigt, dass die Netzwerk-Karten Personen dabei helfen, räumlich-zeitliche Zusammenhänge zu erkennen, und dass die Themenlandschaftskarte hilfreich ist, um thematische Ähnlichkeiten von Textdokumenten darzustellen. Eine Abschlussstudie zur Nützlichkeit und zur Benutzerfreundlichkeit hat ausserdem gezeigt, dass die Personen unserer Zielgruppe die interaktiven und visuellen Suchfunktionen in den Webanwendungen erfolgreich dazu benutzt haben, um neue Erkenntnisse über Raum, Zeit und Themen der Geschichte der Schweiz zu gewinnen.

Zusammenfassend kann gesagt werden, dass diese Arbeit darlegt, wie GIScience-Ansätze und -Methoden dazu genutzt werden können, um den Zugang zu unstrukturierten und semi-strukturierten Textarchiven in den Geistes- und Sozialwissenschaften, welche räumlich-zeitliche und thematische Informationen beinhalten, zu erleichtern.

Abstract

i



While rapidly growing unstructured and semi-structured online digital text archives (e.g., Google Books) potentially offer a wealth of useful and important information to all of us in the information society, limited access mechanisms hinder the effective and efficient extraction of interesting, meaningful, and relevant information from these data archives. Adopting a GIScience perspective in this thesis, we aim to provide interested information seekers with visual and interactive means to access relevant spatial, temporal, and thematic information, and latent structures found in large digital text archives, using a typical digital text archive in the humanities as a case study. Unstructured and semi-structured, now increasingly digitally accessible text archives from the humanities are particularly interesting for geographers, as they contain a wealth of spatial, temporal, and thematic information, largely untapped for spatio-temporal and thematic data analyses in geography to date.

We address this research challenge using a three-pronged approach, informed by state-of-the-art GIScience methods and techniques. First, we demonstrate that spatial (i.e., place names), temporal (i.e., dates), and thematic information (i.e., topics in text documents) can be automatically retrieved from the Historical Dictionary of Switzerland (HDS), as one typical, digitally available semi-structured text archive in the humanities. We then show that the retrieved information can be meaningfully transformed and reorganized using a spatialization approach, such that this information can be presented to information seekers in the humanities in two-dimensional spatialized displays for further data exploration. These spatialized displays visually uncover latent spatio-temporal and thematic structures in the HDS text archive. Finally, adopting a user-centered graphical interface design and evaluation approach, we integrate spatialized displays in interactive online web interfaces, to make reorganized spatio-temporal and thematic information from the HDS available to information seekers for further exploration and knowledge discovery.

For that we constructed spatialized network maps and a spatialized thematic landscape map display with spatio-temporal and thematic information automatically retrieved from the digital HDS. The spatialized network maps depict relationships between Swiss toponyms in different centuries based on how often toponyms co-occur in the same HDS articles. The spatialized thematic landscape map display, created based on the self-organizing map ii

technique, displays HDS articles as points on a map where thematically similar articles are placed closer to one another in the map than to semantically less similar articles. The maps can be explored interactively. To create useful and usable interactive web interfaces, including the spatialized displays, we involved target users early on in the interface design and development process. Target users provided valuable feedback in the performed utility and usability evaluations. This helped us to iteratively develop perceptually salient and cognitively supportive graphical user interfaces to the HDS text archive. It also facilitated access to and sense-making of the depicted information about the history of Switzerland.

This thesis has three major contributions: first, we provide a comprehensive text information retrieval approach going beyond existing approaches to extract information from text documents in the humanities and present a completely automatic approach to retrieve spatio-temporal and thematic information from a semi-structured text archive. Second, we illustrate how spatialization techniques can be used to depict spatio-temporal and thematic relationships and interconnections in the humanities, revealed by transforming and reorganizing the retrieved information. Third, we contribute a systematic user-centered method to incorporate the spatialized displays in interactive web interfaces. This allows interested information seekers in the humanities to explore spatio-temporal and thematic relationships and structures interactively, using advanced geovisual analytics approaches commonly known in GIScience, but still mostly unknown in history and the humanities.

The systematic evaluation of the automatically retrieved information from the HDS showed satisfactory quality, which suggests that this approach might be successful for other similar unstructured and semi-structured digital text archives in the humanities that include spatio-temporal and thematic information. Furthermore, the systematic evaluation of the constructed spatialized displays with target users suggests that using spatialized network displays to depict spatio-temporal relationships and interconnections, coupled with a spatialized thematic landscape to depict semantic similarities in text documents, aid target users in the humanities to gain new insights about spatio-temporal and thematic information buried in the HDS. The results of a final combined utility and usability study further reveals that target users are indeed able to interactively and visually explore the HDS text archive, and make sense of the novel spatialized displays.

In summary, this thesis highlights how advanced GIScience methods and approaches can be successfully transferred to the humanities to facilitate information access from growing unstructured and semi-structured text archives that also include spatio-temporal and thematic information. iii



Einerseits stehen uns heutzutage immer mehr Informationen in unstrukturierten und semi-strukturierten digitalen Textarchiven (z.B. Google Books) online zur Verfügung. Andererseits fehlen uns oftmals effiziente Hilfsmittel, um interessante und sinnvolle Informationen aus diesen Textarchiven zu extrahieren. Ziel dieser Arbeit ist es, interessierten Personen einen visuellen und interaktiven Zugang zu räumlichen, zeitlichen und thematischen Informationen und versteckten Zusammenhängen in solchen Textarchiven zu ermöglichen. Dazu verwenden wir Methoden der Geographischen Informationswissenschaften (= GIScience), die wir auf ein typisches digitales Textarchiv in den Geistes- und Sozialwissenschaften anwenden. Für GeographInnen sind unstrukturierte und semi-strukturierte Textarchive der Geistes- und Sozialwissenschaften, die vermehrt digital verfügbar sind, besonders interessant, da sie eine Fülle von räumlichen, zeitlichen und thematischen Informationen beinhalten, die bisher nur sehr selten in räumlich-zeitlichen oder thematischen Studien in der Geographie analysiert wurden.

Wir stellen einen dreistufigen Ansatz vor, welcher auf Methoden und Techniken der GIScience zurückgreift. Zuerst zeigen wir, dass räumliche (z.B. Ortsnamen), zeitliche (z.B. Daten) und thematische Informationen (z.B. Themen von Textdokumenten) automatisch aus dem Historischen Lexikon der Schweiz (HLS), welches ein typisches digitales semi-strukturiertes Textarchiv der Geistes- und Sozialwissenschaften ist, extrahiert werden können. Dann zeigen wir, wie die extrahierten Daten transformiert und reorganisiert werden können, um zweidimensionale Darstellungen zu erstellen. Die Darstellungen basieren auf dem Spatialization-Ansatz und ermöglichen die visuelle Erkundung der in den Daten versteckten räumlich-zeitlichen und thematischen Zusammenhänge. In einem letzten Schritt wenden wir einen nutzerzentrierten Design- und Evaluationsansatz an, um die Darstellungen in interaktiven Webanwendungen interessierten Personen zur Verfügung zu stellen, und erleichtern es ihnen damit, neue Erkenntnisse zu räumlich-zeitlichen und thematischen Informationen und Zusammenhängen im HLS zu gewinnen.

Dazu haben wir Netzwerk-Karten und eine Themenlandschaftskarte erstellt. Die Netzwerk-Karten stellen Beziehungen zwischen Ortschaften der Schweiz in verschiedenen Jahrhunderten dar. Diese Beziehungen basieren auf der gemeinsamen Nennung der Ortschaften in Artikeln des HLS. Die Themenlandschaftskarte stellt HLS-Artikel als Punkte iv

auf einer Karte dar, wobei sich thematisch ähnliche Artikel näher beieinander befinden als thematisch unähnliche Artikel. Beide Karten können interaktiv erkundet werden. Um nützliche und nutzerfreundliche interaktive Webanwendungen dieser Karten zu erstellen, haben wir Personen unserer Zielgruppe früh in den Design- und Entwicklungsprozess der Anwendungen involviert. Die Personen haben uns wertvolle Rückmeldungen gegeben, die uns dabei geholfen haben, die Webanwendungen iterativ weiterzuentwickeln und perzeptuell sowie kognitiv ansprechend zu gestalten. Dies soll den interaktiven Zugang zu Informationen und mögliche Erkenntnisgewinne zur Geschichte der Schweiz erleichtern.

Diese Arbeit leistet drei wichtige Forschungsbeiträge: Wir stellen einen ganzheitlichen Ansatz vor, welcher bisherige Ansätze erweitert, indem er aufzeigt, wie räumlich-zeitliche und thematische Informationen komplett automatisch aus einem semi-strukturierten Textarchiv in den Geistes- und Sozialwissenschaften extrahiert werden können. Zusätzlich zeigen wir auf, wie der Spatialization-Ansatz zur Reorganisation der extrahierten Daten und zum Darstellen von räumlich-zeitlichen und thematischen Zusammenhängen in den Geistes- und Sozialwissenschaften genutzt werden kann. Ausserdem leisten wir einen Beitrag, indem wir einen systematischen und nutzerzentrierten Ansatz vorschlagen, der es erlaubt, die Darstellungen in interaktiven Webanwendungen Personen in den Geistes- und Sozialwissenschaften zur Verfügung zu stellen. Die dafür verwendeten Methoden sind in den GIScience verbreitet, haben jedoch bisher kaum Eingang in die Geschichtswissenschaften sowie allgemein in die Geistes- und Sozialwissenschaften gefunden.

Eine Evaluation hat aufgezeigt, dass die Resultate der automatischen Extraktion von räumlich-zeitlichen und thematischen Informationen befriedigend sind und dass der gezeigte Ansatz daher auf weitere unstrukturierte und semi-strukturierte digitale Textarchive in den Geistes- und Sozialwissenschaften, welche räumlich-zeitliche sowie thematische Informationen beinhalten, angewendet werden kann. Die systematische Evaluation der Karten hat gezeigt, dass die Netzwerk-Karten Personen dabei helfen, räumlich-zeitliche Zusammenhänge zu erkennen, und dass die Themenlandschaftskarte hilfreich ist, um thematische Ähnlichkeiten von Textdokumenten darzustellen. Eine Abschlussstudie zur Nützlichkeit und zur Benutzerfreundlichkeit hat ausserdem gezeigt, dass die Personen unserer Zielgruppe die interaktiven und visuellen Suchfunktionen in den Webanwendungen erfolgreich dazu benutzt haben, um neue Erkenntnisse über Raum, Zeit und Themen der Geschichte der Schweiz zu gewinnen.

Zusammenfassend kann gesagt werden, dass diese Arbeit darlegt, wie GIScience-Ansätze und -Methoden dazu genutzt werden können, um den Zugang zu unstrukturierten und semi-strukturierten Textarchiven in den Geistes- und Sozialwissenschaften, welche räumlich-zeitliche und thematische Informationen beinhalten, zu erleichtern.

Statistics

Downloads

111 downloads since deposited on 14 Feb 2018
64 downloads since 12 months
Detailed statistics

Additional indexing

Item Type:Dissertation (monographical)
Referees:Fabrikant Sara Irina
Communities & Collections:UZH Dissertations
Dewey Decimal Classification:910 Geography & travel
Language:English
Place of Publication:Zürich
Date:2017
Deposited On:14 Feb 2018 16:00
Last Modified:24 Sep 2019 23:18
Number of Pages:239
OA Status:Green
Free access at:Related URL. An embargo period may apply.
Related URLs:https://www.recherche-portal.ch/primo-explore/fulldisplay?docid=ebi01_prod010935693&context=L&vid=ZAD&search_scope=default_scope&tab=default_tab&lang=de_DE (Library Catalogue)

Download

Download PDF  'Visualization and interactive exploration of spatio-temporal and thematic information in digital text archives'.
Preview
Content: Published Version
Language: English
Filetype: PDF
Size: 9MB