Visuelle Analyse von Text

Wie kann man Überblick über lange Texte gewinnen? Vorstellung einiger Visual Analytics Werkzeuge zur Text Analyse (27.02.2018)

Förderjahr 2017 / Project Call #12 / ProjektID: 2116 / Projekt: ContractVis

Während wir visuellen Darstellungen von Zahlenverhältnissen (z.B. Wahlergebnisse als Balkendiagramm) oder Zeitreihen (z.B. Tageshöchsttemperatur als Liniendiagramm) oft in Zeitungen oder anderen Medien begegnen können, sind visuelle Darstellungen von Text weniger naheliegend – außer natürlich den Text komplett hinzuschreiben. Durch die geschickte Kombination von Algorithmen und Visualisierungen lassen sich relevante Information auch aus langen Texten kompakt darstellen und können je nach Interesse gezielt weiter erforscht werden.

Im folgenden Blogpost sollen einige solche visuellen Textanalyse Werkzeuge vorgestellt werden.

Word Cloud (erzeugt mit EdWordle)

Word Clouds fassen einen Text zusammen, indem sie die häufigsten Wörter in absteigender Schriftgröße darstellen. Diese Wörter werden so platziert, dass sich ein auf Kompaktheit optimiertes Layout ergibt, das oft auch ästhetisch ansprechend ist. Eine Einschränkung von Word Clouds ist, dass der visuelle Vergleich zwischen zwei Wort Clouds nicht leicht möglich ist, weil selbst geringe Änderungen am Text ein komplett anderes Layout ergeben können.

Online Tool: z.B. http://www.edwordle.net/

Referenz: Viégas, F. B., & Wattenberg, M. (2008). Tag Clouds and the Case for Vernacular Visualization. Interactions, 15(4), 49–52. https://doi.org/10.1145/1374489.1374501

Word Tree (generiert mit dem Tool von Jason Davies)

Ein Word Tree zeigt alle Textpassagen in denen ein gesuchtes Stichwort (im Bild “mouse”) vorkommt und stellt diese als einen Baum dar. So werden alle Passagen zusammengefasst, in denen das nächste bzw. übernächste Wort dasselbe ist. Im Bild sieht man oben alle Passagen, in denen “mouse, who” vorkommt. Rechts im Bild können wir drei Sätze mit dem Stichwort im Detail lesen. Die Leiste in der Mitte zeigt, wo im gesamten Text das Stichwort vorkommt.

Online Tool: https://www.jasondavies.com/wordtree/

Referenz: Wattenberg, M., & Viegas, F. B. (2008). The Word Tree, an Interactive Visual Concordance. IEEE Transactions on Visualization and Computer Graphics, 14(6), 1221–1228. https://doi.org/10.1109/TVCG.2008.172

DocuBurst tool searching for "animal" and hyponyms

Auch DocuBurst starten wir mit einem Stichwort. Daraufhin wird der Text nach Unterbegriffen (Hyponyme) dieses Stichwortes durchsucht. Beispielsweise finden wir bei der Suche nach “animal” die Tiere “mouse”, “cat” oder “goldfish”. Diese Hierarchie von Begriffen wird in einer sogenannten Sunburst Visualisierung dargestellt. Im Bild wurde “mouse” ausgewählt und wir sehen rechts in der Leiste, die Stellen wo dieses Wort vorkommt. Die Box unten zeigt eine dieser Stellen im Detail, sodass der Begriff im Kontext steht.

Desktop Tool: https://github.com/vialab/docuburst-desktop/

Referenz: Collins, C., Carpendale, S., & Penn, G. (2009). DocuBurst: Visualizing Document Content using Language Structure. Computer Graphics Forum, 28(3), 1039–1046. https://doi.org/10.1111/j.1467-8659.2009.01439.x

VarifocalReader ist ein Forschungsprototyp der Universität Stuttgart, der speziell für die Analyse historischer Bücher entwickelt wurde. Dazu werden Zusammenfassung des Textes auf mehreren Ebenen wie Kapitel, Absätze oder Zeilen als Word Cloud oder Balkendiagramm dargestellt. Von links nach rechts rückt der Fokus immer mehr zum Detail - bis hin zu Scans der Seiten aus den Originalbüchern.

Website: http://epoetics.visus.uni-stuttgart.de/

Referenz: Koch, S., John, M., Wörner, M., Müller, A., & Ertl, T. (2014). VarifocalReader: In-Depth Visual Analysis of Large Text Documents. IEEE Transactions on Visualization and Computer Graphics, 20(12), 1723–1732. https://doi.org/10.1109/TVCG.2014.2346677

Die Visual Readability Analysis der Universität Konstanz ist ein Forschungsprototyp, der Autoren unterstützen soll ihre Texte gezielt auf bessere Lesbarkeit hin zu überarbeiten. Dazu werden pro Satz verschiedene Kennzahlen wie Komplexität des Vokabulars und Satzlänge berechnet und mittels Farbkodierung (blau für leicht lesbar bis rot für schwer lesbar) dargestellt (vgl. Bild).

Website: https://www.vis.uni-konstanz.de/forschung/text/age-suitability-and-readability-analysis/

Referenz: Oelke, D., Spretke, D., Stoffel, A., & Keim, D. A. (2012). Visual Readability Analysis: How to Make Your Writings Easier to Read. IEEE Transactions on Visualization and Computer Graphics, 18(5), 662–674. https://doi.org/10.1109/TVCG.2011.266

Diese Auswahl von Methoden und Beispielen zur visuellen Textanalyse zeigt Möglichkeiten auf, wie wir in ContractVis Vertragstexte aufbereiten könnten. Mehr dazu in den folgenden Blogposts.

Für alle, die zu Ende gelesen haben, gibt es noch eine Gewinnfrage: Der Text welchen Buches wurde in den ersten drei Bildern analysiert? Für die erste richtige Antwort (per NetIdee / Twitter / Email) gibt es eine Flasche Traubensaft vom Weingut Roch (abzuholen in St. Pölten).

Alexander Rind

Alexander is passionate about data and, thus, creates interactive visual interfaces that support humans in exploring and making sense of their data. For this, he employs methods of information visualization, visual analytics, and user-centered design.

Skills:

Visual Analytics

Information Visualization

User-Centered Design

Usability

Research

D3.js

Web Development

Alexander Rind

07.03.2018

Stimmt genau: Grundlage der Word Cloud, Word Tree und DocuBurst Bilder war "Alice's Adventures in Wonderland by Lewis Carroll", das als free ebook von Projekt Gutenberg angeboten wird.

Christoph

05.03.2018

Ich glaube es ist Alice im Wunderland :-)

Weitere Blogbeiträge

Förderjahr 2017 / Project Call #12 / ProjektID: 2116 / Projekt: ContractVis

Tags:

Alexander Rind

Skills:

Weitere Blogbeiträge

Abschluss

Usability Test

HighLighter Onboarding

ContractVis auf der SEMANTiCS

Development in Progress

Sommerloch

ContractVis Wireframes

ContractVis Personas und Szenarien

ContractVis bei der Langen Nacht der Forschung 2018

Bring deine Ideen in ContractVis ein!

ContractVis im Radio

ContractVis Kickoff