Aktuelles

Informationen zu Forschungsdaten in den asienbezogenen Wissenschaften veröffentlicht

Forschungsdaten sind ein hochaktuelles Thema, das zunehmend auch in den Asienwissenschaften diskutiert wird. Im Rahmen des FID Asien haben wir – nicht zuletzt auf ausdrücklichen Wunsch seitens der Wissenschaft – das Thema ebenfalls auf unsere Agenda gesetzt. Ziel ist, eine Angebots-, Informations- und Beratungsstruktur zu asienbezogenen Forschungsdaten aufzubauen und zu etablieren. Dabei wollen wir sowohl Anwendungsfragen seitens der Wissenschaft berücksichtigen, als auch Aktivitäten auf nationaler Ebene begleiten. Daraus sollen Lösungsansätze und Empfehlungen zum Forschungsdatenmanagement für die asienbezogenen Wissenschaften entwickelt werden. Nicht zuletzt wollen wir Wissenschaftlerinnen und Wissenschaftler sowie Projekte dabei unterstützen, einen geeigneten Ort zur Veröffentlichung ihrer Forschungsdaten zu finden – sei es bei CrossAsia oder in einem anderen, fachlich geeigneten Repositorium. Für mehr Informationen zu den Aktivitäten von CrossAsia bezüglich Forschungsdaten siehe das FID Programm sowie auf den „Über uns“-Seiten.

Was ist bisher geschehen?

Ende letzten Jahres hatten wir uns zunächst mit den asienwissenschaftlichen Fachgesellschaften sowie Vertreterinnen und Vertretern aus einigen exemplarischen Projekten in einem Workshop zusammengesetzt, um zu sehen, wo die Asienwissenschaften stehen, welche Aktivitäten sinnvoll erscheinen, um das Thema nicht nur verstärkt auf die Agenda zu bringen, sondern auch nachhaltig und koordiniert anzugehen. Mehr dazu können Sie in dem Bericht zum Workshop nachlesen.

Als ein Ergebnis aus dem Workshop haben wir in einer Online-Umfrage versucht von Ihnen zu erfahren, wie Ihre Erfahrungen mit Forschungsdaten sind. Wir haben sowohl nach Ihren Erfahrungen zur Recherche nach und der Veröffentlichung von Forschungsdaten gefragt, als auch nach Ihren Bedürfnissen an einem Beratungsangebot. Auch hierzu haben wir die Ergebnisse der Umfrage veröffentlicht.

Basierend auf diesen Erbnissen und Erkenntnissen haben wir nun kürzlich einige erste Informationen zu Forschungsdaten und deren Management in den asienbezogenen Wissenschaften online gestellt. Auf der Seite, die in einem Frage-Antwort-Format gehalten ist, finden Sie Hinweise sowie Links mit weiterführenden Informationen u.a. zu folgenden Themen: Was ist beim Arbeiten mit asienbezogenen Forschungsdaten zu beachten? Welche Empfehlungen diesbezüglich existieren bereits? Was ist bei der Projektantragstellung zu berücksichtigen? Wo können Sie entsprechende Daten recherchieren und selbst publizieren? Die Zusammenstellung mit Informationen zu Forschungsdaten in den asienbezogenen Wissenschaften finden Sie auf unserer Webseite unter „Service“.

Wir freuen uns, wenn Sie mit uns zum Thema Forschungsdaten ins Gespräch kommen. Gerne können Sie sich mit all Ihren Fragen und Ideen an uns wenden, als Kommentar im Forum zu diesem Beitrag oder per E-Mail: x-asia@sbb.spk-berlin.de.

Testzugang für 中国电子书库 China E-Book Hub bis zum 31. Oktober

Bis zum 31. Oktober haben Sie die Möglichkeit, die Plattform China E-Book Hub 中国电子书库 zu testen. Sie enthält derzeit rund 470.000 E-Ressourcen (Bücher, Zeitschriften, Zeitungen etc.) Die Titel sind z.T. Publikationen aus jüngerer Zeit, lt. Datenbankanbieter sind 20 % in den letzten drei, 40 % in den letzten fünf Jahren bei Verlagen sowohl aus der VR China, als auch Hongkong und Taiwan erschienen. Die Plattform untergliedert sich in sieben Subdatenbanken wie z.B. 中国学术电子书库 („China Academic Library“) mit derzeit 4.000 Titeln,  民国文库 („Publications from the Period of the Republic of China“) mit derzeit rund 150.000 Büchern, Zeitschriften sowie Zeitungen, 中国地方志库 („China Gazetteer Library“) mit derzeit rund 17.000 Titeln usw. Für diesen Testzugang wurden 500 Titel freigeschaltet, die Sie durch Anklicken des grau unterlegten Buttons „My resources“ erreichen. Die Titel können in Segmenten heruntergeladen und im Volltext durchsucht werden. Weitere Funktionen, wie Einfügen von Lesezeichen bzw. Ablegen von Notizen stehen derzeit noch nicht zur Verfügung.

Wir möchten Sie um reges Ausprobieren der Datenbank und Ihr Feedback bitten. Schreiben Sie uns (an diese Adresse: x-asia(at)sbb.spk-berlin.de)  oder auch im Forum, sollten Sie Interesse an einer dauerhaften Lizensierung der Datenbank haben.

 

 

Testzugang für die Ta Kung Pao 大公報 (1902-1949) bis 31. Dezember

Die Tageszeitung Ta Kung Pao 大公報 wurde 1902 in Tianjin gegründet und erschien fast durchgängig während der Kriegsjahre bis 1949 in verschiedenen Städten Chinas, neben Tianjin in den Städten Shanghai, Hankou, Chongqing, Hongkong und Guilin (und besteht noch bis heute fort). Für den Zeitraum 1902 bis 1949 steht sie ab sofort bis Ende des Jahres (31. Dezember 2019) für alle CrossAsia Nutzerinnen und Nutzer zum Testen bereit.

In der Datenbank enthalten sind neben den gescannten Artikeln der Ausgaben aus den verschiedenen Städten auch die Volltexte, die durchsucht und ebenfalls heruntergeladen werden können. Hier im Bild die entsprechenden Zeiträume sowie die Angabe, ob der Volltext vollständig enthalten ist oder nicht:

 

Das Trefferergebnis gibt eine Übersicht über die jeweilige Ausgabe mit Datum, Seitenangabe, Artikeltitel und dem Abstract bzw. Volltext, ggf. mit hervorgehobenen Suchbegriff. Ein Klick auf den Artikeltitel öffnet ein Fenster mit dem entsprechenden Artikel im Volltext und PDF sowie dessen Verortung in der entsprechenden Ausgabe, d.h. linker Hand befindet sich eine Inhaltsangabe der jeweiligen Ausgabe. Des Weiteren wird angeboten, direkt aus der Trefferübersicht den Volltext zu öffnen, der als txt-Dateien heruntergeladen werden kann, den ausgeschnittenen Artikel als PDF, ebenfalls ggf. mit hervorgehobenen Suchbegriff, oder die gesamte Seite mit Hervorhebung des gesuchten Artikels zu öffnen. Die Ansicht der gesamten Seite erlaubt es auch, sich durch die verschiedenen Seiten der entsprechenden Ausgabe zu klicken, sowie die Ausgaben der folgenden Tage zu öffnen. Sofern im Artikel vorhanden wird in der Trefferanzeige auch auf enthaltene Tabellen hingewiesen (附圖表).

Neben dem Lesebereich mit der Trefferanzeige und einer einfachen Suche gibt es zwei weitere Reiter: die erweiterte Suche sowie einen thematischen Zugang, mit Kommentaren und einer Auswahl von Artikeln zur Wirtschaft, internationalen Nachrichten und Film etc.

Dies sind einige Funktionalitäten der Datenbank. In der Menüleiste ist unter „操作說明“ ein PDF mit Tipps zur Suche und Verwendung der Datenbank verlinkt.

Lassen Sie uns wissen, wie Sie die Datenbank für Ihre Recherche finden und ob Sie meinen, dass dies eine wertvolle Ergänzung des Datenbankangebots in CrossAsia wäre. Schreiben Sie als Forumsbeitrag (über den Kommentar unten) oder per Mail an x-asia@sbb.spk-berlin.de.

Ihr CrossAsia Team

Testzugang für gesamtes Unihan Portfolio (bis 4. Oktober!)

Alle 54 Datenbanken im Angebot von Unihan wurden für CrossAsia Nutzer und Nutzerinnen geöffnet. Der Testzugang läuft vorerst bis zum 4.Oktober. Das Portfolio von Unihan umfasst zahlreiche historische Materialien zum kaiserzeitlichen China aus dem Ersten Historischen Archiv. Um nur einige zu nennen: 明清内阁大库史料集刊, 清朝起居注, 清代外交档案, 清代科举硃卷集成, 清末陆军海军文献汇编 aber auch Kompilationen von Materialien mit Bezug zur Ming oder Song Dynastie (禁毁明代史料, 两宋研究史料汇编全文数据库 u.a.).

Die Ressourcen kommen im gewohnten Unihan look-and-feel: Image und Volltext in paraller Ansicht, Suche über alle Ressourcen, Volltext mit allen Zeichenvarianten getippt (wofür die Installation eines extra Fonts notwendig ist).

Hinweis: In der Übersicht erscheinen auch die „regulären“ CrossAsia Datenbanken als „Testzugang“. Nicht irritieren lassen. Bereits von CrossAsia dauerhaft subskribiert sind 清会典, 清實錄, 十通, 四部丛刊 2009增补版 (das sind 四部丛刊 und 四部备要 zusammen) und 中国历代石刻史料汇编.

Melden Sie uns, welche Ressourcen für Sie noch wichtig und relevant sind. Als Forumsbeitrag (über Kommentar unten) oder per Mail an x-asia@sbb.spk-berlin.de

Ihr CrossAsia Team

Neuerscheinung bei CrossAsia-eBooks: Ungers „Grammatik des Klassischen Chinesisch“

Verfasst von Dr. Kerstin Storm, Uni Münster.

Vor dreißig Jahren kündigte Ulrich Unger (1930–2006) erstmals die Veröffentlichung einer Grammatik des Klassischen Chinesisch, also der Sprache des 5. bis 3. Jahrhunderts v.Chr. in China, an. Sie sollte mit der unter Sinologen gut bekannten Einführung in das Klassische Chinesisch (Wiesbaden: Harrassowitz, 1985) und dem Glossar des Klassischen Chinesisch (Wiesbaden: Harrassowitz, 1989) eine unzertrennliche Dreiheit bilden. Unger konnte sein Vorhaben vor seinem Tod nicht mehr realisieren, sodass das Entstandene bislang nur teilweise und nur unter Freunden und Schülern des Autors verbreitet war.

Heute erscheint nun die Grammatik des Klassischen Chinesisch von Ulrich Unger erstmals als Ganzes. Ursprünglich auf neun Bände angelegt, ist sie mit ihren knapp 1500 Seiten die umfangreichste westlichsprachige Beschreibung der Klassischen Sprache Chinas. Entstanden in den Jahren zwischen 1980 und 2000 und nun herausgegeben und mit einem ausführlichen Vorwort versehen von Reinhard Emmerich, wurde die Grammatik in den vergangenen drei Jahren zur besseren Durchsuchbarkeit digital überarbeitet und zusammengefügt. Sie soll Sinologen, Linguisten und Interessierten, Lehrerenden und Studierenden, als praktikables Nachschlagewerk dienen. Von unschätzbarem Wert in der Grammatik sind Ungers aus den Quellen zitierte abertausend Beispielsätze, anhand derer er grammatikalische Phänomene erklärt und belegt.

Ulrich Unger und Reinhard Emmerich: Grammatik des Klassischen Chinesisch. Heidelberg, Berlin: CrossAsia-eBooks, 2019.
ISBN (PDF): 978-3-946742-60-9
DOI: https://doi.org/10.11588/xabooks.506

CrossAsia-eBooks ist die Open-Access-Publikationsplattform des FID Asien für wissenschaftliche E-Books aus dem Bereich der Asienwissenschaften. Wenn Sie ebenfalls Interesse daran haben, Ihre Forschungsarbeit bei uns zu veröffentlichen, dann nehmen sie mit uns Kontakt auf!

Kamakura ibun

Lizenz für die Kamakura ibun

Wir freuen uns mitteilen zu können, dass die Onlineausgabe der Kamakura ibun 鎌倉遺文 dauerhaft lizenziert werden konnte und bedanken uns herzlich bei allen, die uns hinsichtlich dieser Ressource ein Feedback gegeben haben.

Die Materialsammlung mit historischen Dokumenten der Kamakura-Zeit (1185-1333) erschien ursprünglich in 42 Bänden plus vier Supplementbänden beim Verlag Tōkyōdō. Das Werk ist Teil der Datenbank JapanKnowledge. Um die Kamakura ibun zu recherchieren, rufen Sie bitte wie üblich JapanKnowledge über die Datenbankseite von CrossAsia auf. In JapanKnowledge finden Sie die Kamakura ibun in dem Bereich „JKBooks“ ganz unten. Die Kamakura ibun können sowohl über die einfache Suche (基本検索) als auch über die ausführliche Suche (詳細検(個別)索) im Volltext durchsucht werden. Die Onlineausgabe bietet neben dem elektronischen Volltext auch die entsprechende Seite aus dem Druckexemplar, was ein Lesen der Dokumente in übersichtlicher Form erlaubt. Darüber hinaus sind die Datensätze mit der Datenbank des Historiographischen Instituts der Universität Tokyo verknüpft, die ebenfalls die Kamakura ibun anbietet. Gegebenenfalls sind über diesen Link auch Scans der Originaldokumente einsehbar.

Nähere Informationen finden Sie auf der Seite des Datenbankanbieters:
Auf Englisch
Auf Japanisch
Einen Flyer mit einer Kurzerläuterung finden Sie hier.

Ergebnisse der Umfrage zu Forschungsdaten in den asienbezogenen Wissenschaften

Im Frühjahr haben wir Sie als FID Asien gemeinsam mit den Fachgesellschaften (DGA, DMG, DVCS, GJF, VfK, VSJF) zu Forschungsdaten in den asienbezogenen Wissenschaften befragt. Ziel der Umfrage war, zu ermitteln, wie Sie im Forschungsprozess mit ihren asienbezogenen Daten umgehen, welche Erfahrungen und Meinungen Sie zur Recherche und Nachnutzung sowie Erstellung und Bereitstellung von Forschungsdaten haben und welche Unterstützungsangebote Sie bereits erhalten, bzw. welche Sie sich seitens des FID Asien wünschen.

Wir möchten Ihnen an dieser Stelle ganz herzlich für Ihre rege Beteiligung und die vielfältigen, äußerst hilfreichen Hinweise danken, die Sie uns gegeben haben. Die Beteiligung an der Umfrage und die Ergebnisse zeigen sehr deutlich, dass Forschungsdaten und der Umgang mit diesen auch in den asienbezogenen Wissenschaften bereits wichtige Themen sind, aber es auch noch einigen Erklärungs- und Diskussionsbedarf gibt. Mit diesem Beitrag möchten wir über eine Auswertung der Ergebnisse hinaus versuchen, die Diskussion weiter anzuregen und zugleich in einigen Bereichen vielleicht etwas mehr Klarheit schaffen.

Im Folgenden finden Sie eine Auswertung der Umfrage mit den wichtigsten Ergebnissen und Grafiken sowie mit Erläuterungen; eine vollständige Aufführung aller Tabellen und Grafiken finden Sie zum Download anbei.

 

 

 


Wer waren die Teilnehmenden an der Umfrage?

Für die Umfrage sind 128 vollständig ausgefüllte Antwortbögen bei uns eingegangen. Die Antwortbögen wurden überwiegend von Professor*innen und Wissenschaftlichen Angestellten (je 26% der Befragten) eingereicht. 16% der Teilnehmenden schreiben ihre Promotion und 9% studieren. Die Teilnehmenden sind überwiegend an Universitäten bzw. Hochschulen tätig (80%), ein deutlich kleinerer Anteil ist an außeruniversitären Einrichtungen (knapp 9%) und Bibliotheken (6%) tätig. 66% der Teilnehmenden haben in den letzten 10 Jahren vorwiegend in Deutschland gewirkt, gefolgt von Asien und Europa (ohne Deutschland) mit ca. 13% bzw. 11%.

Bezüglich ihres Forschungsinteresses nennen die Teilnehmenden mit Abstand am häufigsten die Region China, Taiwan, Hongkong und Macao sowie Japan, mit 45% bzw. 44% (siehe Abb. 1). Die Verteilung spiegelt etwa die Nutzergruppen in CrossAsia wider.

Die Teilnehmenden verorten ihr Forschungsgebiet mit 40% in den Geschichtswissenschaften, gefolgt von den Literaturwissenschaften / Philologien (25%), Politologie (23%), Religionswissenschaften (17%) sowie Philosophie und Soziologie (je 15%). Für eine Grafik siehe Abb. 2. Unter „Sonstiges“ wurden insbesondere Schnittmengen zwischen verschiedenen Fächern genannt oder Spezialisierungen, wie Medizingeschichte, Sozialpolitik oder Technikstudien.

Bezüglich der Vorerfahrungen mit digitalen Forschungsdaten und Forschungsdatenrepositorien haben wir um eine Selbsteinschätzung gebeten. Etwa Dreiviertel der Teilnehmenden haben demnach Erfahrungen, wie Abb. 3 zeigt: 13% schätzen ihre Erfahrungen als weitrechend ein, 32% sagen sie haben einige Erfahrungen und 30% haben erste Erfahrungen.

 


Warum sind Forschungsdaten wichtig?

Wir haben danach gefragt, ob die Teilnehmenden eine Initiative, digitale Forschungsdaten von gesicherter Qualität für die asienbezogene Forschung zu sammeln und aufzubereiten, für unterstützenswert halten. Insgesamt mehr als 90% der Befragten haben mit „Ja, auf jeden Fall“ (66%) oder „Eher ja“ (27%) geantwortet. Die genannten Gründe, warum eine solche Initiative wichtig ist, sind vielfältig; viele werden unten in den weiteren Fragen noch ausführlicher behandelt. Stichwörter sind Transparenz, Nachvollziehbarkeit von Forschung, Sicherung von Forschungsergebnissen, und Erhöhung und Verbesserung der Zugänglichkeit zu Wissen. Weitere wichtige Argumente für eine solche Initiative sind, erstens, dass (fachspezifische) Standards für Qualitätskriterien und Qualitätssicherung entwickelt werden können (bspw. Datenstandards und Standards für die Beschreibung der Daten, i.e. Metadatenstandards, sowie Standards für den Austausch von Daten bspw. über Schnittstellen etc.) und, zweitens, dass Synergieeffekte erlangt werden können, bspw. durch die Beratung von Projekten bereits in der Antragsstellung und das Bereitstellen von Best Practice Beispielen, damit Standards von Anfang an mit eingeplant und eingehalten werden können.

Die überwiegende Mehrzahl der Antwortenden (88%) meint, dass recherchierbare und nachnutzbare asienbezogene Forschungsdaten einen Mehrwert für die Forschung darstellen. Abb. 4 zeigt die Gründe, die am stärksten priorisiert werden. Diese Frage war auf bis zu drei Antwortmöglichkeiten beschränkt. Den Kommentaren zufolge war die gewünschte Priorisierung hier nicht immer einfach. Dies zeigt sich auch daran, dass die Verteilung der Antworten sich über alle Optionen erstreckt.

 


Wie werden Daten im Forschungsprozess erstellt und gesichert?

Wir fragten nach der Verwendung von digitalen Werkzeugen für die Forschung. Hier war keine Begrenzung der Antwortoptionen gesetzt. Insgesamt haben wir von den 128 Teilnehmenden 505 Antworten erhalten. Im Schnitt verwendet somit jede/r vier verschiedene Tools für seine/ihre Forschung.

Einige Tools wie Portale und Datenbanken (91%) sowie Office Software (82%) können als Standardtools angesehen werden. Speziellere Tools wie zur Analyse (30%), Annotation (23%), Visualisierung (20%) und zum Erstellen von Editionen (16%) werden jedoch noch vergleichsweise wenig verwendet (siehe Abb. 5).

Die nächsten Fragen befassen sich mit dem Sichern von Daten.

66% der Befragten sichern ihre gesammelten Daten im Laufe des Forschungsprozesses unaufgefordert, sodass am Ende des Forschungsprozesses digitale Forschungsdaten vorliegen, davon 43% wann immer es möglich ist und 56% wenn es ihnen sinnvoll erscheint. 14% der Befragten sichern nur, wenn sie explizit dazu aufgefordert werden und 4% sichern ihre Daten nicht. 11% der Teilnehmenden sagen, dass bei ihnen keine Daten anfallen.

Aber wo speichern die Forscherinnen und Forscher ihre digitale Datengrundlage?

Die überwiegende Anzahl derer, bei denen Daten im Verlauf des Forschungsprozesses anfallen, speichert diese auf dem eigenen Arbeitsrechner (65%) und/oder auf einem externen Medium wie Festplatte, CD/DVD, USB-Stick (55%). Nur etwas mehr als 5% der Antwortenden, das sind sieben Personen, speichern ihre Daten auch in einem Repositorium (siehe Abb. 6). Als Sonstiges wurde noch die Veröffentlichung ergänzt, das bedeutet die Veröffentlichung der Forschungsdaten bspw. in einem sogenannten Data Journal oder als Ergänzung zu einer wissenschaftlichen Publikation (Stichwort „enhanced publication“).

Die sieben Personen, die ihre digitalen Forschungsdaten auch in einem Repositorium speichern, haben 10 Antworten gegeben. Fünf der Antwortenden speichern ihre Daten in einem universitären bzw. institutionellen Repositorium, zwei jeweils bei GitHub und Zenodo und eine Person bei TextGrid.

 


Wie sieht es mit der Recherche und Nachnutzung von digitalen Forschungsdaten aus?

Wir haben nach der Nachnutzung digitaler Forschungsdaten gefragt, sowohl selbst generierter Daten als auch solcher anderer Wissenschaftler*innen. Mit Nachnutzung digitaler Forschungsdaten meinen wir, dass Forschungsdaten – die häufig auch über den ursprünglichen Erzeugungs- und Forschungskontext hinaus einen bleibenden Wert haben – Grundlage für andere Forschungsfragen und -vorhaben bilden können. Von den Befragten – Mehrfachantworten waren möglich – hat die überwiegende Anzahl der Antwortenden schon einmal Daten nachgenutzt. Bei diesem Datenmaterial hat es sich entweder um selbsterstelltes Datenmaterial gehandelt, oder um solches aus einer Projektgruppe mit eigener Beteiligung, bei anderen Forschenden angefragtes Material oder aus einem Datenarchiv. Knapp 20% der Befragten hat nach eigenen Angaben bislang keine Daten nachgenutzt (siehe Abb. 7).

Uns haben in der Folge insbesondere zwei Dinge interessiert:

Erstens, wenn schon einmal Daten nachgenutzt wurden, um welche Art von Daten hat es sich gehandelt?

Wie in den Geistes- und Sozialwissenschaften zu erwarten, hat die überwiegende Anzahl der Teilnehmenden bereits mit Textdaten (70%) gearbeitet, gefolgt von bibliographischen Daten (42%), Bilddaten (39%) und numerischen, statistischen Daten (35%). Andere Datenformate wie audiovisuelle Daten, Programmcodes etc. spielen aktuell eine deutlich untergeordnete Rolle (siehe Abb. 8).

Zweitens, wenn die nachgenutzten Daten aus einem Datenarchiv/Repositorium stammen, wo bzw. wie wurden sie gefunden?

Von 42 Personen haben wir insgesamt 67 Antworten erhalten. Ergebnis ist hier, dass von den Befragten überwiegend universitäre bzw. institutionelle Repositorien verwendet werden (14%) oder aber Datenarchive aus Asien (12,5%). Von den zentralen Angeboten wie Repositorien und Nachweissystemen wurden überwiegend – jedoch zugleich in sehr geringem Maße – GitHub (7%) und Zenodo (6%) genannt (siehe Abb. 9). Unter Sonstiges wurden beispielweise GRETIL (Göttingen Register of Electronic Texts in Indian Languages) ergänzt oder der UK Data Service, der Zugang zu soziologischen und wirtschaftlichen Daten bietet.

 

Wir haben diejenigen gebeten, die angegeben haben, dass sie Daten aus einem Repositorium in Asien verwendet haben, dies zu spezifizieren. Genannt wurden folgende Angebote bzw. Institutionen:

  • Academia Sinica Taiwan – Datenbanken
  • Center for Open Data in the Humanities (Japan, NII)
  • Docusky (National Taiwan University)
  • eGangotri Digital Preservation Trust (über archive.org)
  • Indira Gandhi Center for the Arts
  • JACAR (Japan Center for Asian Historical Records)
  • Kansai University Library – Datenbanken
  • Kindai University Library – Datenbanken
  • Kokubunken (National Institute of Japanese Literature Repository) – Repositorium
  • National Bureau of Statistics of China – statistische Datenbanken
  • National Diet Library – Datenbanken
  • Nichibunken (International Research Center for Japanese Studies) – Datenbanken
  • NINJAL (National Institute for Japanese Language and Linguistics) – Datenbanken
  • SAT Daizōkyō Text Database – Korpus buddhistischer Texte

Auffällig ist, dass zusätzlich zu den obengenannten auch einige lizenzpflichtige Datenbanken angegeben wurden, die über CrossAsia zugänglich sind. Dies war so mit der Frage nicht beabsichtigt; wir hatten auf Daten abgezielt, die in verschiedenen Forschungskontexten entstanden sind und veröffentlicht wurden. Ein Beispiel wäre, in einem Forschungsprojekt werden Archivmaterialien aus bspw. einer lizenzpflichtigen Datenbank verwendet, die nur als Images zur Verfügung stehen. Ein mögliches Forschungsdatum wäre in dem Beispiel die Transkription und Annotation der Texte. Aus Forschersicht ist aber sicherlich nicht falsch anzunehmen, dass es erst einmal unerheblich ist – sofern die Qualität gesichert und das Entstehen der Daten dokumentiert ist – woher die Daten kommen, die für die jeweilige Fragestellung relevant sind. Deutlich wurde uns bei den Antworten, dass hier gegebenenfalls noch Aufklärungs- bzw. Definitionsarbeit notwendig ist, was – zumindest in diesem Kontext – mit Forschungsdaten, Datenrepositorien etc. gemeint ist.

Nachdem wir erfahren haben, wo Daten gefunden werden und was für Daten das sind, haben uns die Kriterien interessiert, die Forscherinnen und Forscher an die Nachnutzung von Forschungsdaten aus einem Repositorium stellen.

Dazu haben wir mittels einer Matrixfrage gebeten, folgende drei Kriterien nach ihrer Wichtigkeit zu bewerten, wobei die Skala von 1 = „sehr wichtig“ bis 5 = „überhaupt nicht wichtig“ reicht. Alle Kriterien wurden von 70% der Befragten als „wichtig“ oder „sehr wichtig“ eingestuft (siehe Abb. 10):

  • Beschreibung und Kontextualisierung der Daten (als Beleg für deren Erstellung auf der Basis bester wissenschaftlicher Praxis)
  • Angaben zu Lizenzen und den Möglichkeiten der Nachnutzung
  • Zitierbarkeit der Daten (Permalink)

Als weitere wichtige Kriterien wurden darüber hinaus noch genannt:

  • gut angelegte Suchmaschinen
  • Verwendung offener, nicht-proprietärer Standards
  • Verwendung quelloffener, nicht-proprietärer Software
  • Zeichenkodierung (chinesisch, japanisch, koreanisch etc.)
  • rechtliche und ethische Aspekte (wie Einverständnis-Erklärung der untersuchten Personen, Schutz von Anonymität / Persönlichkeitsrechten bei qualitativen Daten)
  • Interoperabilität der Daten

Als letzte Frage in diesem Abschnitt haben wir nach Problemen bei der Recherche nach Forschungsdaten in Datenrepositorien gefragt. Auch hier waren wieder Mehrfachantworten möglich. Wir haben von 127 Personen 221 Antworten erhalten (siehe Abb. 11). Davon haben 37 Personen (29%) bisher keine Probleme identifizieren können. Die restlichen 185 Antworten verteilen sich auf alle von uns vorgeschlagenen Kriterien. Am häufigsten werden von den Befragten allerdings nicht-Unicode-kompatible Schriften (42%), nicht-lateinische Schriften (32%) und proprietäre Formate (25%) genannt.

Weitere genannte Aspekte unter Sonstiges thematisieren mangelnde Quellenangaben, unklare Nutzungsrechte und eine nicht gesicherte Zugänglichkeit.

 


Wie sieht es mit der Bereitschaft zum Teilen von Daten aus?

Wir haben nach digitalen Forschungsdaten gefragt, die aus Sicht der Forschenden von anderen nachgenutzt werden können. Bei den Antworten wird deutlich, dass die größte Gruppe (58 Personen oder 45%) unsicher ist, ob die Daten, die sie im Rahmen ihrer Forschung erstellt oder zusammengestellt haben, für andere Wissenschaftler*innen nützlich sein könnten. 30% antworten mit „ja“ und 19% mit „nein“. Dies wäre also ein weiterer wichtiger Aspekt, wo mehr Vermittlungs- und Aufklärungsarbeit geleistet werden kann, dass erstellte Daten auch in anderen Kontexten mit ganz anderen Fragestellungen, auch solchen, die mit dem ursprünglichen Forschungsobjekt nichts zu tun haben müssen, nützlich sein können. Zu denken wäre hier bspw. an Metastudien, die Studiendesigns anderer Wissenschaftler zum Forschungsgegenstand nehmen. Diese Unsicherheit rührt sicherlich auch daher, dass nicht immer klar ist, wie aus den Ergebnissen und Nebenprodukten der eigenen Forschung Daten mit einer gewissen Abstraktionsebene generiert werden können, sodass diese für andere Kontexte nützlich sind.

Wir haben die 39 Personen, die mit „ja“ geantwortet haben, gebeten zu spezifizieren, um was für Daten es sich handelt, die aus ihrer Sicht von anderen nachnutzbar sind. Unter den 104 Antworten wurden mit Abstand am häufigsten Textdaten (von 24% der Befragten) genannt, gefolgt von Bilddaten (15%), bibliographischen Daten und statistischen/numerischen Daten (jeweils 12%). Audiodaten, Programmcode, Videodaten und Geodaten wurden von nur 6 oder weniger Personen genannt (weniger als 5%), digitale 3D Modelle wurden gar nicht genannt. Unter Sonstiges wurden noch Grundrisse, Scans von Manuskripten und Archivdaten ergänzt, wobei diese sich in vielen Fällen – je nach Inhalt – einem der oben genannten Kategorien zuordnen lassen (Textdaten, Bilddaten, numerische Daten).

Mit 86% kann sich die überwiegende Anzahl der Befragten vorstellen, Teile ihrer Forschungsdaten für andere zur Verfügung zu stellen. Nur 10 Personen (8%) stimmen jedoch einer bedingungslosen Bereitstellung der eigenen Forschungsdaten für andere zu. Die meisten knüpfen dies an Bedingungen:

  • dass die jeweilige Person als Quelle angegeben und über die Nutzung informiert wird (61%).
  • dass die jeweilige Person ein OK geben muss, bevor der Zugriff auf die Daten erfolgen kann (11%).

Knapp 4% (5 Personen) sprechen sich gegen eine Bereitstellung der Daten aus und 9% (12 Personen) enthalten sich einer Stellungnahme.

Unter Sonstiges werden weitere individuelle Bedingungen genannt, die teils aus Kombinationen der obenstehenden Bedingungen bestehen, teils die Informant*innen mitberücksichtigt und teils die Veröffentlichung der Daten berührt.

Wir haben nach den Gründen gefragt, die für eine Veröffentlichung der eigenen Forschungsdaten sprechen (Abb. 12), als auch nach solchen gegen eine Veröffentlichung (Abb. 13). Auch hier waren wieder Mehrfachantworten möglich.

Bei den Gründen für eine Veröffentlichung werden die „inhaltlichen“ Aspekte relativ häufig genannt (40% oder mehr der Befragten), wohingegen die strukturellen Aspekte, wie Anforderungen seitens Fördergeber oder Fördermittel, relativ wenig zum Tragen kommen (10% oder weniger).

Die inhaltlichen Aspekte sind:

  • Möglichkeit der Nachnutzung der Daten durch andere Wissenschaftler*innen (71% der Befragten)
  • Qualitätssicherung und Nachvollziehbarkeit der Forschung (69%)
  • Langzeitarchivierung der Daten (66%)
  • Zitierfähigkeit der Daten (Permalink) (55%)
  • Schutz vor Plagiaten bzw. davor, dass das Forschungsthema durch andere Wissenschaftler*innen besetzt wird (40%)

Bei den Kontra-Argumenten überwiegen die organisatorisch-strukturellen Gründe: 62% der Befragten nennen den Zeitaufwand für die Aufbereitung (Kuratierung) der Daten vor der Übergabe, 45% nennen die Kosten bzw. das fehlende Budget, 37% fehlt das technische Know-how und 34% geben an, sie haben keine Kontrolle über die Verwendung ihrer Forschungsdaten.

28% der Befragten sagen jeweils, dass die Daten urheberrechtsbelastet sind und/oder Persönlichkeitsrechte betreffen. Unter Sonstiges wurde noch ergänzt, dass die Daten politisch sensibles Material enthalten können.

Als nächstes haben wir gefragt, nach welchen Kriterien die Wissenschaftler*innen Daten auswählen würden, die sie zugänglich machen.

Nur eine geringere Anzahl an Personen würde alle Forschungsdaten zugänglich machen (22 Personen oder 17%). Die Mehrzahl würde dies an bestimmte Bedingungen knüpfen: als Ergänzung zu einer Publikation (58%), von anderen angefragte/benötigte Daten (44%), aussagekräftige Daten/Materialien (42%) und Daten, die aus Projekten entstehen, die mit öffentlichen Mitteln gefördert werden (32%). Auffällig ist, dass gerade der Punkt „Kritische Forschungsdaten“, also solche, die ggf. nicht reproduzierbar sind und besonders einer Sicherung bedürfen, nur von 34 Personen oder 27% genannt wird. Originalschrift scheint auch weniger ein Kriterium zu sein; auch dies wird nur von 26% genannt (siehe Abb. 14).

 

Anschließend haben wir die Teilnehmer*innen gebeten, die drei wichtigsten Eigenschaften eines Forschungsdatenrepositoriums (Abb. 15) sowie die nötigen Rahmenbedingungen (Abb. 16) zu benennen. Dabei ging es uns um eine Priorisierung, dass alle aufgeführten Aspekte irgendwie wichtig sind, war vorausgesetzt.

Bezüglich der Frage nach den Eigenschaften eines Repositoriums wurde von den Befragten mit Abstand am häufigsten die Vertrauenswürdigkeit der betreibenden Organisation angeführt (57%), gefolgt von einer eindeutigen Zitierbarkeit der Daten (38%), differenzierten und kontrollierten Zugriffsrechten (30%) sowie besonderen Schutzmechanismen für sensible Einzelinformationen (28%).

Interessant ist, dass die zuverlässige Auffindbarkeit von Daten in Originalschrift und die Verzeichnung des Bestands in anderen Systemen bspw. über Schnittstellen vergleichsweise selten genannt wurden (20% und 12% der Befragten). Dies mag vielleicht daran liegen, dass sowohl das verwendete Vokabular als auch die Thematik unter Wissenschaftler*innen weniger verwendet wird, sondern eher bibliothekarischer Natur ist.

Bezüglich der Rahmenbedingungen wurden fast alle vorgeschlagenen Punkte gleich bewertet mit etwa 20-31% der Befragten, abgesehen dem Aspekt „Klare Nutzungs-/Lizenzvereinbarungen zwischen Datengebenden, Archiv und Nutzenden“ (54%) sowie „Übertragung eventueller Verpflichtungen (wie Veröffentlichung, Archivierung etc.)“ (5%).

In einer Matrixfrage haben wir die Forscherinnen und Forscher gebeten zu bewerten, wie wichtig ihnen folgende Kriterien sind, wenn sie eigene asienwissenschaftliche Forschungsdaten veröffentlichen (wollen/würden). Die Skala reicht erneut von 1 = „sehr wichtig“ bis 5 = „überhaupt nicht wichtig“ (siehe Abb. 17).

Die Kriterien mit den Prozentwerten der Befragten, die sehr wichtig oder wichtig angekreuzt haben, lauten akkumuliert:

  • Beschreibung der Daten in Originalschrift möglich (73%)
  • Beschreibung der Daten in Transliteration / Transkription möglich (63%)
  • Beschreibung der Daten auf Deutsch / Englisch möglich (73%)
  • Verwendung von fach- / region- / sprachspezifischen Terminologien (z.B. Maße, Einheiten) (54%)
  • Verwendung fachspezifisch und international gängiger Metadatenstandards (57%)

Alle fünf Kriterien werden demnach überwiegend als wichtig oder sehr wichtig eingestuft. Auffällig ist, dass die Beschreibung der Daten in Originalschrift sowie auf Deutsch / Englisch als besonders wichtig erachtet werden. 50% bzw. 47% der Befragten bewerten dies als sehr wichtig.

Auffällig ist auch, dass bei den zwei zuletzt genannten Kriterien besonders viele Teilnehmenden keine Antwort geben (13% und 17%). Dies kann entweder auf den Fragentyp zurückzuführen sein, oder aber die beiden Kriterien sind ggf. ebenfalls weniger verständlich.

 


Welche Unterstützung und Informationsangebote gibt es und welche werden benötigt?

Im letzten Themenblock haben uns Informationsangebote zu Forschungsdaten und der Umgang mit diesen sowie Bedarfe an solchen Angeboten interessiert. Wir haben gefragt, wie umfänglich die Teilnehmenden sich an ihren wissenschaftlichen Einrichtungen in Bezug auf Forschungsdaten beraten fühlen. 36% der Befragten fühlen sich vollumfänglich oder in einigen Themenbereichen gut beraten, 45% fühlen sich gar nicht oder nicht ausreichend beraten. Der größte Anteil antwortete im Mittelfeld, d.h. zu einigen Themenbereichen oder nicht ausreichend, akkumuliert beläuft sich dies auf 60%.

Wir haben diejenigen gefragt, die positiv geantwortet haben (46 Personen), in welchen Themenbereichen sie Unterstützung erhalten. Hier waren Mehrfachantworten möglich. Eher dominant sind technische/organisatorische Themen wie Datenmanagement, Open-Access-Lizenzen, Datenformate etc. Eher weniger häufig genannt werden Rechtsaspekte und praktische Belange, wie „Wie finde ich ein Repositorium?“ oder „Was muss ich bei der Dokumentation der Daten beachten?“

  • Datenmanagement allgemein (21% der Befragten)
  • Open-Access-Lizenzen (16%)
  • Technische Fragen zu Datentypen, Formaten, Metadatenstandards (13%)
  • Langzeitarchivierung (12%)
  • Urheberrecht (11%)
  • Dokumentation der beschreibenden Daten (Metadaten) (9%)
  • Ethik und Persönlichkeitsrechte (9%)
  • Repositorium finden (7%)

In der nächsten Frage wollten wir nun wissen, welche Beratungs- und Informationsbedarfe seitens des FID Asien gewünscht werden. Hier waren wieder Mehrfachantworten möglich.

Nur 16 Personen (12%) haben keinen Bedarf an Beratungsangeboten gemeldet. Die restlichen 406 Antworten verteilen sich folgendermaßen auf die vorgeschlagenen Themen:

  • Datenmanagement allgemein (55% der Befragten)
  • Technische Fragen zu Datentypen, Formaten, Metadatenstandards (48%)
  • Dokumentation der beschreibenden Daten (Metadaten) (46%)
  • Langzeitarchivierung (41%)
  • Open-Access-Lizenzen (38%)
  • Urheberrecht (37%)
  • Repositorium finden (27%)
  • Ethik und Persönlichkeitsrechte (21%)

Auch hier ist auffallend, dass Rechtsfragen weniger häufig genannt werden. Unter Sonstiges wurde u.a. noch die Interoperabilität von Forschungsdaten genannt.

Die nächste Frage befasst sich mit den Angeboten des FID Asien, die sich aktuell in Vorbereitung befinden (siehe Abb. 18). Hier wurde in einer Matrixfrage auf einer Skala von 1 = „sehr wichtig“ bis 5 = „überhaupt nicht wichtig“ nach der Wichtigkeit dieser Angebote gefragt.

Zwei Angebote des FID Asien wurden thematisiert. Erstens, im Zusammenhang mit den im CrossAsia ITR (Integriertes Textrepositorium) gespeicherten Volltexten aus lizenzierten Datenbanken soll es in Zukunft möglich sein, diese Volltexte über Schnittstellen anzusprechen und in digitale Werkzeuge zu laden. Daran gekoppelt sind natürlich einerseits ein Authentifizierungssystem, andererseits die Idee, die mittels digitaler Werkzeuge angereicherten Daten ins ITR zurückzuspielen und dort dauerhaft referenzierbar bereitzustellen. Dieses Angebot wurde von 52% der Befragten als wichtig oder sehr wichtig bezeichnet.

Zweitens stellten wir ein Angebot im Zusammenhang mit den Open Access Publikationsplattformen des FID Asien vor: die dauerhafte Speicherung und Verwaltung von Forschungsdaten mit Bezug zu Open Access-Publikationen, die auf den ePublishing Plattformen des FID Asien veröffentlicht sind, inkl. deren Verknüpfung zu den zugehörigen Publikationen. Dies wurde sogar von 65% der Befragten als wichtig oder sehr wichtig bezeichnet.

Auffallend ist, dass auch bei dieser Matrixfrage wieder der Anteil derjenigen, die keine Antwort gegeben haben, relativ hoch ist (24% bzw. 18%). Ein Grund dafür kann u.U. sein, dass die vorgestellten Angebote nicht ausreichend bekannt sind oder ungenügend erläutert wurden.

Daran anschließend haben wir gefragt, welche Angebote mit Bezug auf Forschungsdaten vom FID Asien gewünscht werden, die nicht bereits genannt wurden. Hier wurde insbesondere ein Verzeichnis von fachrelevanten Repositorien bzw. eine Übersicht, Bibliographie oder Metakatalog zu Forschungsdaten mit Asienbezug genannt, die in relevanten Repositorien verzeichnet bzw. veröffentlicht sind. Unterstrichen wurde dieser Wunsch mit dem Hinweis, dass Daten in Originalschrift häufig in den Repositorien nicht (zuverlässig) nachgewiesen werden.

Abschließend haben wir in diesem Themenkomplex noch gefragt, wenn Daten vor- und aufbereitet werden, sodass Dritte diese nutzen können, zu welchen Aspekten besonders Unterstützung benötigt wird (siehe Abb. 19). Hier haben wir eine Priorisierung angestrebt.

Angeführt wird die Liste von fachspezifischen Aspekten, wie Empfehlungen zum Umgang mit Forschungsdaten (44% der Befragten) und Standards für eine angemessene Dokumentation (34%). Dies wird gefolgt von eher technischen Themen, wie unterstützende Software-Tools für die Aufbereitung und Bereinigung von Daten (32%) oder Beratung bei technischen Fragen (25%). Rechtliche Aspekte finden sich eher im Mittelfeld oder unter den weniger häufig genannten Punkten. So wird Beratung zum bzw. eine Auseinandersetzung mit dem Urheberrecht von 28% der Teilnehmenden gewünscht und selbiges zum Datenschutz von 20%. Eine fachspezifische Auseinandersetzung zu ethischen Fragen im Zusammenhang mit personenbezogenen Fragen wird von 9% gewünscht.

18% sagen, dass sie eher keine Zeit für die Aufbereitung von Daten, die nicht unmittelbar etwas mit ihrer Forschung zu tun haben, aufbringen wollen.

 

Im Freitextfeld für abschließende Kommentare zur Umfrage haben wir u.a. Hinweise erhalten, dass das Thema als sehr wichtig erachtet wird und gewünscht wird, dass zukünftige Wissenschaftler-Generationen bereits während des Studiums für die Frage des Umgangs mit und der Bereitschaft zur Veröffentlichung von Forschungsdaten sensibilisiert werden sollten. So wurde auch darauf hingewiesen, dass es für manche in der Umfrage verwendeten Begriffe hilfreich gewesen wäre, wenn zu diesen eine Definition mitgeliefert worden wäre, um sowohl ein gemeinsames Verständnis zu haben, als auch diejenigen, die noch nicht so tief in der Materie sind, mit einzubinden.


Was soll nun mit diesen Erkenntnissen geschehen?

Das Thema Forschungsdaten in den asienbezogenen Wissenschaften wurde bereits auf der CrossAsia Fachtagung im Januar 2018 gemeinsam als wichtig identifiziert und der FID Asien hat diese Anforderung der Wissenschaft in den Nachfolgeantrag mit aufgenommen. Die Aufgabe, ein entsprechendes Beratungs- und Informationsangebot zu entwickeln, das Sie bei allen Fragen rund um das Thema Forschungsdaten unterstützen soll, haben wir also schon für die Förderrunde 2019-2021 auf der Agenda. Die Ergebnisse der Umfrage helfen uns – und vielleicht auch Ihnen – zu beurteilen, wo wir in den asienbezogenen Wissenschaften derzeit „in Summe“ stehen. Für den FID Asien ist dabei wichtig, nicht nur den bereits im Thema fortgeschritteneren Forschenden als Ansprechpartner zur Verfügung zu stehen, sondern auch grundlegende Kenntnisse zu Forschungsdaten, Nachweise zu bereits bestehenden Angeboten und Informationen zu aktuellen Entwicklungen für die gesamte Community zusammenzutragen und bereitzustellen. Diese Aufgabe können wir nun auf der Basis Ihrer vielen hilfreichen Antworten und Anregungen, die wir im Rahmen der Umfrage erfahren haben, etwas zielgenauer angehen. Wir laden Sie ein, uns auch im weiteren Prozess mit Ihren Anregungen und Ihrem Feedback zu begleiten.

人民日报 – People’s Daily – neu retrospektiv und tagesaktuell

Ab sofort können wir Ihnen Zugang zu einer neuen Datenbank für die 人民日报 (People’s Daily) anbieten. Die Datenbank umfasst alle Jahrgänge seit der Gründung der Zeitung im Jahr 1946 und wird täglich aktualisiert. Sie kann im Volltext in einfacher oder erweiterter Suche durchsucht, gefundene Artikel können heruntergeladen bzw. ausgedruckt werden.

Sie finden die Datenbank über den Menüpunkt Ressourcen > Datenbanken und mit der Auswahl der Klassifikation „Newspapers & Magazines“ sowie der Sprache „Chinese“.

 

Neuerscheinung bei CrossAsia-eBooks – Early Modern India: Literatures and Images, Texts and Languages

Interessieren Sie sich für indische Sprachen, Persisch, Sanskrit? Für die Beziehungen zwischen verschiedenen Yoga-Traditionen?
Dann lesen Sie CrossAsia-eBooks‘ neueste Open Access Veröffentlichung Early Modern India: Literatures and Images, Texts and Languages, herausgegeben von Maya Burger und Nadia Cattoni (Université de Lausanne).

Dieses Buch präsentiert aktuelle wissenschaftliche Forschungen zu einer der wichtigsten literarischen und historischen Epochen der Frühen Neuzeit aus einer Vielzahl von Perspektiven. Es enthält eine Auswahl von Beiträgen, die auf der 12. International Conference on Early Modern Literatures of North India vorgestellt wurden. Das Organisationsprinzip des Bandes liegt in der Erforschung der Verbindungen zwischen einer Vielzahl von Sprachen (indische Volkssprachen, Persisch, Sanskrit), Medien (Texte, Bilder) und Traditionen (Hindu, Jaina, Sikh, Muslim). Die Rolle der persischen Sprache und die Bedeutung der Übersetzungen vom Sanskrit in Persische werden vor dem Hintergrund des “translational turn” diskutiert.

 

Der Band kann als Gesamt-PDF oder in einzelnen Kapiteln auf der CrossAsia-eBooks Webseite gelesen und heruntergeladen werden. Die Hardcover-Ausgabe ist im lokalen Buchhandel oder über den Online-Buchhandel erhältlich.

CrossAsia-eBooks ist die Open-Access-Publikationsplattform von CrossAsia für wissenschaftliche E-Books aus dem Bereich der Asienwissenschaften. Wenn Sie ebenfalls Interesse daran haben, Ihre Forschungsarbeit bei uns zu veröffentlichen, dann nehmen Sie mit uns Kontakt auf!

“Texte aufräumen” – die ersten CrossAsia N-Gramm-Pakete stehen zum Download bereit

  • de
  • en

Die meisten kennen sicherlich Ursus Wehrlis Buch „Kunst aufräumen“. Dort wird z.B. Keith Harings „Untitled“ (1986) in seine einzelnen Farbsegmente zerlegt und diese werden fein säuberlich nach Farben und Größe geordnet übereinander gestapelt (siehe z.B. hier). Ganz ähnlich geht das Erstellen von N-Grammen vor. Der eigentliche Text wird in seine Einzelteile zerlegt, identische Einzelteile werden zusammengetragen und dann wird gezählt: was gibt es wie oft. Damit wird sogar noch etwas ökonomischer als bei Herrn Wehrli „aufgeräumt“. Die eigentliche Struktur, das Gesamtbild, wird aufgelöst und der Text strikt statistisch und auf der Basis seiner Einzelteile betrachtet. Was im Fall von N-Grammen als „Einzelteil“ gilt, kann dabei variieren. In Texten in lateinischer Schrift können das die Buchstaben sein oder die durch Leerstellen identifizierbaren Wörter oder auch zwei oder drei (etc.) aufeinanderfolgende Buchstaben oder Wörter.

„Aufräumen“ Ostasiatisch

Für ostasiatische Texte sind die am sichersten korrekt zu identifizierenden Einzelteile die verschiedenen Schriftzeichen (chinesische Schriftzeichen oder auch japanische bzw. koreanische Silbenzeichen). An einem Beispiel lässt sich gut zeigen, wie konzeptionell einfach N-Gramme zunächst gedacht sind. Aus den ersten zwei Phrasen des Daode jing

道可道,非常道。名可名,非常名。無名天地之始, 有名萬物之母。

… wird (hier ohne die Satzzeichen, da die im Original i.d.R. ja auch nicht zur Verfügung stehen) im Fall von 1-Grammen (Monogramm bzw. Engl. unigram) folgendes:

名, 5
道, 3
可, 2
非, 2

常, 2
之, 2
無, 1
天, 1

地, 1
始, 1
有, 1
萬, 1

物, 1
母, 1

… im Fall von 2-Grammen (Bigramm bzw. Engl. bigram), bei denen die Einzelteile nicht aneinander angrenzen, sondern sich schuppenartig überlagern (also 道可, 可道, 道非 etc.), nach Anzahl gestaffelt dieses:

非常, 2
道可, 1
可道, 1
道非, 1
常道, 1
道名, 1

名可, 1
可名, 1
名非, 1
常名, 1
名無, 1
無名, 1

名天, 1
天地, 1
地之, 1
之始, 1
始有, 1
有名, 1

名萬, 1
萬物, 1
物之, 1
之母, 1

Die 3-Gramm (Trigramm bzw. Engl. trigram) Liste würde noch länger und keiner der 3-Gramme würde – auf diesen kleinen Abschnitt bezogen – mehr als einmal vorkommen. Zwei Dinge werden klar: N-Gramme machen für kurze Texte keinen Sinn und die Listen werden schnell sehr groß. Für den gesamten Korpus des Xuxiu Siku quanshu mit 5.446 Titeln sind das 27.387 Monogramme, bzw. 13.216.542 Bigramme; allein für das Beispiel Buwu quanshu 卜筮全書 aus dem Headerbild werden bereits 3.382 Monogramme, 64.438 Bigramme und 125.010 Trigramme gebildet.

Große Listen und dann?

Nur N-Gramm Listen von ganzen Büchern oder sogar ganzen Korpora von Büchern sind in der Lage, inhaltliche Tendenzen aufzuzeigen: treten z.B. bestimmte „Einzelteile“ auffällig oft gemeinsam auf? Was fällt auf, wenn man verschiedene N-Gramm Listen (von Büchern oder Korpora) miteinander vergleicht? Wenn diese rein auf den Textinhalt bezogenen Informationen dann mit den bibliographischen Angaben zu den Büchern in Zusammenhang gesetzt werden, lassen sich Verschiebungen von Gewichtungen und Zusammenspiel dieser „Einzelteile“ über einem Zeitstrahl analysieren oder Charakteristika für bestimmte Autoren oder Buchthemen usw. herausarbeiten.

Der Google-Ngram Viewer oder der HathiTrust Bookworm werden wohl zumeist für genau solche Visualisierungen der Popularität von verschiedenen Termini im Vergleich und über einen Zeitstrahl verwendet. Doch N-Gramme – bereinigt und „geschärft“ durch weitere analytische Routinen – können die Basis für viele weitergreifende Fragen und Antworten bilden. Manche dieser Dinge fallen u.U. auch beim Lesen oder „close reading“ auf – natürlich! Aber N-Gramme gehen erbarmungslos statistisch vor und lassen sich nicht von Leseerwartungen und Standardinterpretationen beeinflussen. Und noch einen großen Vorteil bieten N-Gramme: der eigentliche (lizenzgeschützte) Text ist hinter einer statistischen Analyse seiner Einzelteile verschwunden und die Bereitstellung dieser Statistik stellt keine Verletzung der von CrossAsia abgeschlossenen Hosting- und Indexierungsrechte dar.

Schritt für Schritt in die Zukunft

Das Headerbild zum Artikel zeigt, wie aus dem originalen Druckbild ein durchsuchbarer Volltext wird und aus diesem dann Listen mit 1-, 2-, und 3-Grammen. Die einzelne N-Gramm-Liste selbst ist dabei nur bedingt von Nutzen. Erst wenn sie zusammen mit vielen Listen und mittels Tools und Routinen analysiert wird, zeigt sich das Potential. Die Zahl unserer Nutzerinnen und Nutzer, die auf der Basis solcher Listen ihre eigenen Analysen durchführen, wird sicher in den nächsten Jahren stark zunehmen, da immer öfter digitale Analysemethoden und Formen des „distant reading“ in geisteswissenschaftliche Curricula eingebunden werden. Doch wir arbeiten daran, parallel zu Services wie CrossAsia N-Gramm Listen, Analyse- und Visualisierungstools zu entwickeln, die allen Nutzerinnen und Nutzern einen einfachen Zugang zu unserem beständig wachsenden Fundus an Texten im Repositorium erlauben.

Erste Stationen

Als erstes Tool dafür ist die CrossAsia Volltextsuche Ende April 2018 mit zwei Versionen online gegangen. Ihr Suchraum ist nunmehr auf rund 130.000 Titel mit über 15,4 Mio. Textseiten angewachsen. Die Volltextsuche arbeitet auf Basis einer Wort-Suche in Kombination mit den Buchmetadaten und wird auf lange Sicht – so ist zu vermuten – die Anforderung, Hinweise auf relevante oder interessante Ressourcen zu geben, nicht optimal erfüllen können: zum einen unterscheiden sich die bibliographischen Metadaten der einzelnen Sammlungen stark und als Filter eignen sich im Grunde nur allen gemeinsame Metadatenfelder, zum anderen werden immer mehr Ressourcen durchsucht und man verliert leicht in der großen Treffermenge den Überblick.

Ziel von Aktivitäten wie der Generierung von N-Grammen und der Entwicklung von digitalen Tools zur Ermittlung von Ähnlichkeiten zwischen Texten und der Identifikation von Themen ist, die Texte nicht mehr allein unter dem Blickwinkel ihrer bibliographischen Beschreibung zu betrachten, sondern die Texte auch „über sich selbst“ sprechen zu lassen. N-Gramme, topic modeling (d.h. die Algorithmus-gesteuerte Identifikation von „Themen“ eines Buchs), Named-entity recognition (d.h. das automatische Erkennen und markieren von Personen- und Ortsnamen u.ä.) etc. sind Formen solcher Selbstbeschreibungen von Texten. Wir experimentieren aktuell mit verschiedenen solcher Zugänge, Visualisierungen und Analysen der Textkorpora im CrossAsia ITR und diese sollen der reinen Volltextsuche in naher Zukunft zur Seite gestellt werden.

CrossAsia N-Gramm Service

Drei erste Pakete mit N-Grammen (1-, 2-, und 3-Gramme) der im CrossAsia Integrierten Textrepositorium (ITR) gehosteten Texte haben wir nun als Service für unsere Nutzerinnen und Nutzer – und darüber hinaus – zum Download bereitgestellt (CrossAsia N-gramn Service). Das sind 1. der über 5.400 Titel umfassende schriftsprachliche, chinesische Textkorpus Xuxiu Siku Quanshu 續修四庫全書, 2. das 1906 herausgegebene daoistische Textkompendium Daozang jiyao 道藏辑要 (ca. 300 Titel) und 3. eine über 10.000 Titel große Zusammenstellung von chinesischen Lokalmonographien (difang zhi 地方誌) der Song bis Republikzeit inklusive einiger älterer geographischer Texte.

Die N-Gramme sind hierbei jeweils auf Buchebene generiert worden. Die ID, also der Name der Datei, verweist auf den entsprechenden Metadatensatz in den ebenfalls zum Download bereitstehenden Tabellen mit Metadaten. Einige Hinweise zu dieser ersten Version von N-Grammen: es wurde keine Dublettenkontrolle durchgeführt (also ob z.B. dieselbe Lokalmonographie mehrmals im Korpus vorkommt) und es wurde keine Normalisierung der Zeichenvarianten vorgenommen (bei der z.B. 回, 囬, 廻, 囘 als gleichwertige Zeichen behandelt würden). An Interpunktionen weisen die Volltexte nur chinesische Klammern zur Markierung von Unterüberschriften u.ä. (wie 【 und 】) auf. Auch diese Klammern haben wir in der aktuellen Version getilgt. Wie immer bei der Verwendung von Algorithmen, ist die oben versprochene erbarmungslos statistische Herangehensweise von n-grams natürlich abhängig von einigen sensiblen Entscheidungen beim Vorbereiten der Daten und keine Entscheidung ist für alle Forschungsfragen gleich passend.

Wir sind neugierig!

Helfen Ihnen diese N-Gramm-Listen bei Ihrer Forschung? Was können wir hier besser machen? Haben Sie andere Vorschläge für computergenerierte Informationen über die Texte, die wir zur Verfügung stellen sollten? Wir freuen uns von Ihnen zu unserem neuen Service zu hören!

x-asia@sbb.spk-berlin.de