Neue Funktionen im CrossAsia ITR Explorer

Nachdem wir nun schon eine ganze Weile im Hintergrund an der Performance und einigen kleineren Details des ITR Explorers geschraubt und diese “stillschweigend” veröffentlicht haben, ist es nun an der Zeit, einige wichtige Neuerungen und Funktionen vorzustellen.

Der ITR Explorer erlaubt es, Suchergebnisse auf Basis der Ressourcen im CrossAsia Integrierten Text-Repositorium (CrossAsia ITR) zu kombinieren und zu vergleichen und deren Überschneidungen bzw. die Verteilung über die Zeit zu visualisieren. Damit der Einstieg in die Nutzung leichter wird, haben wir zum einen das Layout etwas klarer strukturiert. Die einzelnen “Schritte” sind als solche nun deutlicher hervorgehoben und mit jeweils eigenen kurzen Erläuterungen (i) versehen. Zum anderen ist ein weiterer wichtiger “Schritt” bzw. eine neue Funktion hinzugekommen: die Recherche kann jetzt auf eine oder eine Auswahl von Ressourcen fokussiert werden.

Begleitend zum Start des ITR-Explorers im Dezember 2019 haben wir bereits einen Blog-Beitrag mit einer Einführung in die Idee und die Features dieses Tools erstellt. Eine ganze Reihe Details haben sich seitdem geändert, so dass eine kurze Führung Schritt für Schritt durch die neue Seite sinnvoll erscheint:

  1. Auswahl der zu durchsuchenden Ressourcen. Diese haben wir nach Quellentyp wie z.B. Zeitungen oder Archivmaterialien gegliedert, um die Orientierung in den mittlerweile 35 Ressourcen etwas zu erleichtern. Es kann nur eine Quelle, z.B. die Foreign Office Files China, ausgewählt werden oder es kann gleichzeitig noch die zu Japan oder die Zeitung Japan Chronicle usw. hinzugewählt werden. Wenn *keine* Ressource auswählt wird, wird in *allen* Ressourcen gesucht.
  2. Eingabe der Suchtermini. Wie gehabt werden die Wörter/Zeichenfolgen gesucht, so wie sie eingegeben werden. Es gibt also kein “stemming”, nur Groß-/Kleinschreibungen werden normalisiert. Bereits in der Pipeline und innerhalb der nächsten Tage ebenfalls online ist die Möglichkeit, ein CJK mapping zu aktivieren (also 广 廣 werden “gleich” behandelt). Außerdem wird es möglich sein, die Phrasensuche an- und auszuschalten (also “men from Mars” sucht exakt diese Folge von Wörtern). Achtung: eine Kombination beider Funktionen ist nicht möglich.
  3. Suchergebnisse anzeigen und kombinieren. Für jede Suche, d.h. bestimmte Termini/Phrase in einer bestimmten Auswahl an Ressourcen (bzw. allen), wird ein Ergebnisset erzeugt. Hier ein kurzes Was-ist-was eines solchen Ergebnissets:
  4. Visualisierung der Ergebnisse.  Aktuell stehen zwei Typen von Visualisierung zur Verfügung: 1. ein Venn-Diagramm, das Größenverhältnisse und Überschneidungen von Ergebnissets darstellt, und 2. ein Liniendiagram mit den Achsen Treffermenge und Datum, mit dem An- und Abschwellen der Häufigkeit eines Worts oder einer Phrase angezeigt werden. Dabei ist es wichtig zu beachten, dass die Granularität der Ressourcen der vom Anbieter gelieferten bibliographischen Einheit (Buch/Dokument/Heft/Artikel) entspricht. Nur bei den chinesischen Zeitungen People’s Daily (人民日报) und Ta-kung pao (大公報) und auch der Sammlung “Missionary Journals” bezieht sich ein Treffer auf einen Artikel, bei den anderen Zeitungen, wie z.B. Japan Chronicle hingegen auf eine Ausgabe (z.B. das Heft vom 18. Januar 1940), bei den chinesischen Lokalmonographien oder Foreign Office Files etc. auf ein ganzes Buch bzw. Dokument.
    Hier noch je ein Beispiel für die beiden Visualisierungstypen, die zeigen sollen, wie man sich u.U. einer Recherche zu der unterschiedlichen Gewichtung bzw. dem zeitlichen Verlauf des Interesses für bestimmte Formen der Umweltverschmutzung in der VR-chinesischen People’s Daily nähern könnte.
    a. Venn-Diagramm

    Vergleich des Vorkommens der Wörter “Wasser” 水 und “Boden” 土地  mit dem Wort “Verschmutzung” 污染  in Artikeln der Peoples’ Daily (1949-2009): 32% der Artikel mit dem Wort “Verschmutzung” enthalten auch das Wort “Wasser”, 13% das Wort “Boden”, 6% beide Wörter (in der Grafik weiß umrahmt). Auf welchen Ressourcen die Abfrage basiert, ist im Ergebnisset unter “source” hinterlegt. Es lässt sich u.U. eine gewisse Dominanz von “Wasser” gegenüber “Boden” im Zusammenhang mit “Verschmutzung” ausmachen; auffälliger ist aber, das “Wasser” (also das Schriftzeichen 水!) eine deutlich höhere Präsenz in anderen Kontexten aufweist.


    b. Linien-Diagramm

    Anzahl an Artikeln in der People’s Daily im Zeitraum 1975 bis 1990 (ausgewählt über den grauen Block unterhalb des Diagrams), in denen “Verschmutzung” UND “Wasser” (orange) bzw. “Verschmutzung” UND “Boden” (blau) vorkommt im Vergleich zu allen Artikeln, in denen “Verschmutzung” (grün) vorkommt. Die “kleine” Spitze 1986 ist sicher Tschernobyl geschuldet, aber was verursachte die Spitze in 1983?

     

    Der ITR Explorer bietet erste Anhaltspunkte für statistische Auffälligkeiten und zeitliche Häufungen, und damit Hinweise, wo Ressourcen und Texte/Titel mit relevanten Inhalten enthalten sein könn(t)en. Eine granularere Anzeige der Datenpunkte auf der Zeitachse (aktuell werden die Datenpunkte auf das Jahr aggregiert) sowie eine analytische Visualisierung der Trefferverteilung in einem einzelnen, ausgewählten Titel, sind Überlegungen, wie hier unsere Entwicklungen weiter gehen könnten.

  5. Anzeige der Titel im ausgewählten Trefferbereich. In Punkt 5 verlässt man die analytische Bühne des ITR Explorers und gelangt – nach einer Authentifizierung als CrossAsia Nutzer:in – zu den Volltexten der einzelnen Titel eines Trefferbereichs. Die Titelliste aktualisiert sich, je nachdem welche Trefferbereiche ausgewählt werden. Sie kann direkt von einem Ergebnisset aus erzeugt werden (siehe oben die Erläuterung eines Ergebnissets), oder durch die Auswahl eines Überschneidungsbereichs im Venn-Diagramm, oder man begrenzt die Treffer auf einen bestimmten Zeitabschnitt durch Verschieben des Auswahlbereichs im Liniendiagram (wie im Visualisierungsbeispiel b, oben). Über den Link in der rechten Spalte versuchen wir, Sie direkt zum gewünschten Titel zu lenken. In einigen Fällen ist dies leider nicht möglich. Die Design der Datenbank People’s Daily (1949-2009) z.B. erlaubt keinen direkten Aufruf einer Ausgabe oder gar eines bestimmten Artikels. Hier muss man sich nach Aufruf der Datenbank, noch einmal zum entsprechenden Artikel durchklicken.

Titelanzeige zu (einem anderen) Trefferset aus den “Missionary Journals” und North China Herald. Die Listen können nach Titel, Set (d.h. in wievielen Ergebnissets ist der Titel enthalten) und Datum sortiert werden.

 

Haben Sie Ideen oder Vorschläge?

Sie als Nutzer:in mit konkreten Forschungsfragen haben sicher Wünsche, Vorstellungen, Ideen, welche weiteren Features oder “Blicke” auf die Daten des CrossAsia ITR hilfreich für Sie und andere wären. Hier sind wir besonders an Sichten aus einer analytischen Distanz interessiert, die wir dann auch Nutzer:innen außerhalb der CrossAsia Community zur Verfügung stellen können. Aber auch Dinge *hinter* einem CrossAsia-Login würden wir gern mit Ihnen zusammen entwickeln. Schreiben Sie uns!