Aktuelles

Neuerscheinung bei CrossAsia-eBooks: Ungers „Grammatik des Klassischen Chinesisch“

Verfasst von Dr. Kerstin Storm, Uni Münster.

Vor dreißig Jahren kündigte Ulrich Unger (1930–2006) erstmals die Veröffentlichung einer Grammatik des Klassischen Chinesisch, also der Sprache des 5. bis 3. Jahrhunderts v.Chr. in China, an. Sie sollte mit der unter Sinologen gut bekannten Einführung in das Klassische Chinesisch (Wiesbaden: Harrassowitz, 1985) und dem Glossar des Klassischen Chinesisch (Wiesbaden: Harrassowitz, 1989) eine unzertrennliche Dreiheit bilden. Unger konnte sein Vorhaben vor seinem Tod nicht mehr realisieren, sodass das Entstandene bislang nur teilweise und nur unter Freunden und Schülern des Autors verbreitet war.

Heute erscheint nun die Grammatik des Klassischen Chinesisch von Ulrich Unger erstmals als Ganzes. Ursprünglich auf neun Bände angelegt, ist sie mit ihren knapp 1500 Seiten die umfangreichste westlichsprachige Beschreibung der Klassischen Sprache Chinas. Entstanden in den Jahren zwischen 1980 und 2000 und nun herausgegeben und mit einem ausführlichen Vorwort versehen von Reinhard Emmerich, wurde die Grammatik in den vergangenen drei Jahren zur besseren Durchsuchbarkeit digital überarbeitet und zusammengefügt. Sie soll Sinologen, Linguisten und Interessierten, Lehrerenden und Studierenden, als praktikables Nachschlagewerk dienen. Von unschätzbarem Wert in der Grammatik sind Ungers aus den Quellen zitierte abertausend Beispielsätze, anhand derer er grammatikalische Phänomene erklärt und belegt.

Ulrich Unger und Reinhard Emmerich: Grammatik des Klassischen Chinesisch. Heidelberg, Berlin: CrossAsia-eBooks, 2019.
ISBN (PDF): 978-3-946742-60-9
DOI: https://doi.org/10.11588/xabooks.506

CrossAsia-eBooks ist die Open-Access-Publikationsplattform des FID Asien für wissenschaftliche E-Books aus dem Bereich der Asienwissenschaften. Wenn Sie ebenfalls Interesse daran haben, Ihre Forschungsarbeit bei uns zu veröffentlichen, dann nehmen sie mit uns Kontakt auf!

Kamakura ibun

Lizenz für die Kamakura ibun

Wir freuen uns mitteilen zu können, dass die Onlineausgabe der Kamakura ibun 鎌倉遺文 dauerhaft lizenziert werden konnte und bedanken uns herzlich bei allen, die uns hinsichtlich dieser Ressource ein Feedback gegeben haben.

Die Materialsammlung mit historischen Dokumenten der Kamakura-Zeit (1185-1333) erschien ursprünglich in 42 Bänden plus vier Supplementbänden beim Verlag Tōkyōdō. Das Werk ist Teil der Datenbank JapanKnowledge. Um die Kamakura ibun zu recherchieren, rufen Sie bitte wie üblich JapanKnowledge über die Datenbankseite von CrossAsia auf. In JapanKnowledge finden Sie die Kamakura ibun in dem Bereich „JKBooks“ ganz unten. Die Kamakura ibun können sowohl über die einfache Suche (基本検索) als auch über die ausführliche Suche (詳細検(個別)索) im Volltext durchsucht werden. Die Onlineausgabe bietet neben dem elektronischen Volltext auch die entsprechende Seite aus dem Druckexemplar, was ein Lesen der Dokumente in übersichtlicher Form erlaubt. Darüber hinaus sind die Datensätze mit der Datenbank des Historiographischen Instituts der Universität Tokyo verknüpft, die ebenfalls die Kamakura ibun anbietet. Gegebenenfalls sind über diesen Link auch Scans der Originaldokumente einsehbar.

Nähere Informationen finden Sie auf der Seite des Datenbankanbieters:
Auf Englisch
Auf Japanisch
Einen Flyer mit einer Kurzerläuterung finden Sie hier.

Ergebnisse der Umfrage zu Forschungsdaten in den asienbezogenen Wissenschaften

Im Frühjahr haben wir Sie als FID Asien gemeinsam mit den Fachgesellschaften (DGA, DMG, DVCS, GJF, VfK, VSJF) zu Forschungsdaten in den asienbezogenen Wissenschaften befragt. Ziel der Umfrage war, zu ermitteln, wie Sie im Forschungsprozess mit ihren asienbezogenen Daten umgehen, welche Erfahrungen und Meinungen Sie zur Recherche und Nachnutzung sowie Erstellung und Bereitstellung von Forschungsdaten haben und welche Unterstützungsangebote Sie bereits erhalten, bzw. welche Sie sich seitens des FID Asien wünschen.

Wir möchten Ihnen an dieser Stelle ganz herzlich für Ihre rege Beteiligung und die vielfältigen, äußerst hilfreichen Hinweise danken, die Sie uns gegeben haben. Die Beteiligung an der Umfrage und die Ergebnisse zeigen sehr deutlich, dass Forschungsdaten und der Umgang mit diesen auch in den asienbezogenen Wissenschaften bereits wichtige Themen sind, aber es auch noch einigen Erklärungs- und Diskussionsbedarf gibt. Mit diesem Beitrag möchten wir über eine Auswertung der Ergebnisse hinaus versuchen, die Diskussion weiter anzuregen und zugleich in einigen Bereichen vielleicht etwas mehr Klarheit schaffen.

Im Folgenden finden Sie eine Auswertung der Umfrage mit den wichtigsten Ergebnissen und Grafiken sowie mit Erläuterungen; eine vollständige Aufführung aller Tabellen und Grafiken finden Sie zum Download anbei.

 

 

 


Wer waren die Teilnehmenden an der Umfrage?

Für die Umfrage sind 128 vollständig ausgefüllte Antwortbögen bei uns eingegangen. Die Antwortbögen wurden überwiegend von Professor*innen und Wissenschaftlichen Angestellten (je 26% der Befragten) eingereicht. 16% der Teilnehmenden schreiben ihre Promotion und 9% studieren. Die Teilnehmenden sind überwiegend an Universitäten bzw. Hochschulen tätig (80%), ein deutlich kleinerer Anteil ist an außeruniversitären Einrichtungen (knapp 9%) und Bibliotheken (6%) tätig. 66% der Teilnehmenden haben in den letzten 10 Jahren vorwiegend in Deutschland gewirkt, gefolgt von Asien und Europa (ohne Deutschland) mit ca. 13% bzw. 11%.

Bezüglich ihres Forschungsinteresses nennen die Teilnehmenden mit Abstand am häufigsten die Region China, Taiwan, Hongkong und Macao sowie Japan, mit 45% bzw. 44% (siehe Abb. 1). Die Verteilung spiegelt etwa die Nutzergruppen in CrossAsia wider.

Die Teilnehmenden verorten ihr Forschungsgebiet mit 40% in den Geschichtswissenschaften, gefolgt von den Literaturwissenschaften / Philologien (25%), Politologie (23%), Religionswissenschaften (17%) sowie Philosophie und Soziologie (je 15%). Für eine Grafik siehe Abb. 2. Unter „Sonstiges“ wurden insbesondere Schnittmengen zwischen verschiedenen Fächern genannt oder Spezialisierungen, wie Medizingeschichte, Sozialpolitik oder Technikstudien.

Bezüglich der Vorerfahrungen mit digitalen Forschungsdaten und Forschungsdatenrepositorien haben wir um eine Selbsteinschätzung gebeten. Etwa Dreiviertel der Teilnehmenden haben demnach Erfahrungen, wie Abb. 3 zeigt: 13% schätzen ihre Erfahrungen als weitrechend ein, 32% sagen sie haben einige Erfahrungen und 30% haben erste Erfahrungen.

 


Warum sind Forschungsdaten wichtig?

Wir haben danach gefragt, ob die Teilnehmenden eine Initiative, digitale Forschungsdaten von gesicherter Qualität für die asienbezogene Forschung zu sammeln und aufzubereiten, für unterstützenswert halten. Insgesamt mehr als 90% der Befragten haben mit „Ja, auf jeden Fall“ (66%) oder „Eher ja“ (27%) geantwortet. Die genannten Gründe, warum eine solche Initiative wichtig ist, sind vielfältig; viele werden unten in den weiteren Fragen noch ausführlicher behandelt. Stichwörter sind Transparenz, Nachvollziehbarkeit von Forschung, Sicherung von Forschungsergebnissen, und Erhöhung und Verbesserung der Zugänglichkeit zu Wissen. Weitere wichtige Argumente für eine solche Initiative sind, erstens, dass (fachspezifische) Standards für Qualitätskriterien und Qualitätssicherung entwickelt werden können (bspw. Datenstandards und Standards für die Beschreibung der Daten, i.e. Metadatenstandards, sowie Standards für den Austausch von Daten bspw. über Schnittstellen etc.) und, zweitens, dass Synergieeffekte erlangt werden können, bspw. durch die Beratung von Projekten bereits in der Antragsstellung und das Bereitstellen von Best Practice Beispielen, damit Standards von Anfang an mit eingeplant und eingehalten werden können.

Die überwiegende Mehrzahl der Antwortenden (88%) meint, dass recherchierbare und nachnutzbare asienbezogene Forschungsdaten einen Mehrwert für die Forschung darstellen. Abb. 4 zeigt die Gründe, die am stärksten priorisiert werden. Diese Frage war auf bis zu drei Antwortmöglichkeiten beschränkt. Den Kommentaren zufolge war die gewünschte Priorisierung hier nicht immer einfach. Dies zeigt sich auch daran, dass die Verteilung der Antworten sich über alle Optionen erstreckt.

 


Wie werden Daten im Forschungsprozess erstellt und gesichert?

Wir fragten nach der Verwendung von digitalen Werkzeugen für die Forschung. Hier war keine Begrenzung der Antwortoptionen gesetzt. Insgesamt haben wir von den 128 Teilnehmenden 505 Antworten erhalten. Im Schnitt verwendet somit jede/r vier verschiedene Tools für seine/ihre Forschung.

Einige Tools wie Portale und Datenbanken (91%) sowie Office Software (82%) können als Standardtools angesehen werden. Speziellere Tools wie zur Analyse (30%), Annotation (23%), Visualisierung (20%) und zum Erstellen von Editionen (16%) werden jedoch noch vergleichsweise wenig verwendet (siehe Abb. 5).

Die nächsten Fragen befassen sich mit dem Sichern von Daten.

66% der Befragten sichern ihre gesammelten Daten im Laufe des Forschungsprozesses unaufgefordert, sodass am Ende des Forschungsprozesses digitale Forschungsdaten vorliegen, davon 43% wann immer es möglich ist und 56% wenn es ihnen sinnvoll erscheint. 14% der Befragten sichern nur, wenn sie explizit dazu aufgefordert werden und 4% sichern ihre Daten nicht. 11% der Teilnehmenden sagen, dass bei ihnen keine Daten anfallen.

Aber wo speichern die Forscherinnen und Forscher ihre digitale Datengrundlage?

Die überwiegende Anzahl derer, bei denen Daten im Verlauf des Forschungsprozesses anfallen, speichert diese auf dem eigenen Arbeitsrechner (65%) und/oder auf einem externen Medium wie Festplatte, CD/DVD, USB-Stick (55%). Nur etwas mehr als 5% der Antwortenden, das sind sieben Personen, speichern ihre Daten auch in einem Repositorium (siehe Abb. 6). Als Sonstiges wurde noch die Veröffentlichung ergänzt, das bedeutet die Veröffentlichung der Forschungsdaten bspw. in einem sogenannten Data Journal oder als Ergänzung zu einer wissenschaftlichen Publikation (Stichwort „enhanced publication“).

Die sieben Personen, die ihre digitalen Forschungsdaten auch in einem Repositorium speichern, haben 10 Antworten gegeben. Fünf der Antwortenden speichern ihre Daten in einem universitären bzw. institutionellen Repositorium, zwei jeweils bei GitHub und Zenodo und eine Person bei TextGrid.

 


Wie sieht es mit der Recherche und Nachnutzung von digitalen Forschungsdaten aus?

Wir haben nach der Nachnutzung digitaler Forschungsdaten gefragt, sowohl selbst generierter Daten als auch solcher anderer Wissenschaftler*innen. Mit Nachnutzung digitaler Forschungsdaten meinen wir, dass Forschungsdaten – die häufig auch über den ursprünglichen Erzeugungs- und Forschungskontext hinaus einen bleibenden Wert haben – Grundlage für andere Forschungsfragen und -vorhaben bilden können. Von den Befragten – Mehrfachantworten waren möglich – hat die überwiegende Anzahl der Antwortenden schon einmal Daten nachgenutzt. Bei diesem Datenmaterial hat es sich entweder um selbsterstelltes Datenmaterial gehandelt, oder um solches aus einer Projektgruppe mit eigener Beteiligung, bei anderen Forschenden angefragtes Material oder aus einem Datenarchiv. Knapp 20% der Befragten hat nach eigenen Angaben bislang keine Daten nachgenutzt (siehe Abb. 7).

Uns haben in der Folge insbesondere zwei Dinge interessiert:

Erstens, wenn schon einmal Daten nachgenutzt wurden, um welche Art von Daten hat es sich gehandelt?

Wie in den Geistes- und Sozialwissenschaften zu erwarten, hat die überwiegende Anzahl der Teilnehmenden bereits mit Textdaten (70%) gearbeitet, gefolgt von bibliographischen Daten (42%), Bilddaten (39%) und numerischen, statistischen Daten (35%). Andere Datenformate wie audiovisuelle Daten, Programmcodes etc. spielen aktuell eine deutlich untergeordnete Rolle (siehe Abb. 8).

Zweitens, wenn die nachgenutzten Daten aus einem Datenarchiv/Repositorium stammen, wo bzw. wie wurden sie gefunden?

Von 42 Personen haben wir insgesamt 67 Antworten erhalten. Ergebnis ist hier, dass von den Befragten überwiegend universitäre bzw. institutionelle Repositorien verwendet werden (14%) oder aber Datenarchive aus Asien (12,5%). Von den zentralen Angeboten wie Repositorien und Nachweissystemen wurden überwiegend – jedoch zugleich in sehr geringem Maße – GitHub (7%) und Zenodo (6%) genannt (siehe Abb. 9). Unter Sonstiges wurden beispielweise GRETIL (Göttingen Register of Electronic Texts in Indian Languages) ergänzt oder der UK Data Service, der Zugang zu soziologischen und wirtschaftlichen Daten bietet.

 

Wir haben diejenigen gebeten, die angegeben haben, dass sie Daten aus einem Repositorium in Asien verwendet haben, dies zu spezifizieren. Genannt wurden folgende Angebote bzw. Institutionen:

  • Academia Sinica Taiwan – Datenbanken
  • Center for Open Data in the Humanities (Japan, NII)
  • Docusky (National Taiwan University)
  • eGangotri Digital Preservation Trust (über archive.org)
  • Indira Gandhi Center for the Arts
  • JACAR (Japan Center for Asian Historical Records)
  • Kansai University Library – Datenbanken
  • Kindai University Library – Datenbanken
  • Kokubunken (National Institute of Japanese Literature Repository) – Repositorium
  • National Bureau of Statistics of China – statistische Datenbanken
  • National Diet Library – Datenbanken
  • Nichibunken (International Research Center for Japanese Studies) – Datenbanken
  • NINJAL (National Institute for Japanese Language and Linguistics) – Datenbanken
  • SAT Daizōkyō Text Database – Korpus buddhistischer Texte

Auffällig ist, dass zusätzlich zu den obengenannten auch einige lizenzpflichtige Datenbanken angegeben wurden, die über CrossAsia zugänglich sind. Dies war so mit der Frage nicht beabsichtigt; wir hatten auf Daten abgezielt, die in verschiedenen Forschungskontexten entstanden sind und veröffentlicht wurden. Ein Beispiel wäre, in einem Forschungsprojekt werden Archivmaterialien aus bspw. einer lizenzpflichtigen Datenbank verwendet, die nur als Images zur Verfügung stehen. Ein mögliches Forschungsdatum wäre in dem Beispiel die Transkription und Annotation der Texte. Aus Forschersicht ist aber sicherlich nicht falsch anzunehmen, dass es erst einmal unerheblich ist – sofern die Qualität gesichert und das Entstehen der Daten dokumentiert ist – woher die Daten kommen, die für die jeweilige Fragestellung relevant sind. Deutlich wurde uns bei den Antworten, dass hier gegebenenfalls noch Aufklärungs- bzw. Definitionsarbeit notwendig ist, was – zumindest in diesem Kontext – mit Forschungsdaten, Datenrepositorien etc. gemeint ist.

Nachdem wir erfahren haben, wo Daten gefunden werden und was für Daten das sind, haben uns die Kriterien interessiert, die Forscherinnen und Forscher an die Nachnutzung von Forschungsdaten aus einem Repositorium stellen.

Dazu haben wir mittels einer Matrixfrage gebeten, folgende drei Kriterien nach ihrer Wichtigkeit zu bewerten, wobei die Skala von 1 = „sehr wichtig“ bis 5 = „überhaupt nicht wichtig“ reicht. Alle Kriterien wurden von 70% der Befragten als „wichtig“ oder „sehr wichtig“ eingestuft (siehe Abb. 10):

  • Beschreibung und Kontextualisierung der Daten (als Beleg für deren Erstellung auf der Basis bester wissenschaftlicher Praxis)
  • Angaben zu Lizenzen und den Möglichkeiten der Nachnutzung
  • Zitierbarkeit der Daten (Permalink)

Als weitere wichtige Kriterien wurden darüber hinaus noch genannt:

  • gut angelegte Suchmaschinen
  • Verwendung offener, nicht-proprietärer Standards
  • Verwendung quelloffener, nicht-proprietärer Software
  • Zeichenkodierung (chinesisch, japanisch, koreanisch etc.)
  • rechtliche und ethische Aspekte (wie Einverständnis-Erklärung der untersuchten Personen, Schutz von Anonymität / Persönlichkeitsrechten bei qualitativen Daten)
  • Interoperabilität der Daten

Als letzte Frage in diesem Abschnitt haben wir nach Problemen bei der Recherche nach Forschungsdaten in Datenrepositorien gefragt. Auch hier waren wieder Mehrfachantworten möglich. Wir haben von 127 Personen 221 Antworten erhalten (siehe Abb. 11). Davon haben 37 Personen (29%) bisher keine Probleme identifizieren können. Die restlichen 185 Antworten verteilen sich auf alle von uns vorgeschlagenen Kriterien. Am häufigsten werden von den Befragten allerdings nicht-Unicode-kompatible Schriften (42%), nicht-lateinische Schriften (32%) und proprietäre Formate (25%) genannt.

Weitere genannte Aspekte unter Sonstiges thematisieren mangelnde Quellenangaben, unklare Nutzungsrechte und eine nicht gesicherte Zugänglichkeit.

 


Wie sieht es mit der Bereitschaft zum Teilen von Daten aus?

Wir haben nach digitalen Forschungsdaten gefragt, die aus Sicht der Forschenden von anderen nachgenutzt werden können. Bei den Antworten wird deutlich, dass die größte Gruppe (58 Personen oder 45%) unsicher ist, ob die Daten, die sie im Rahmen ihrer Forschung erstellt oder zusammengestellt haben, für andere Wissenschaftler*innen nützlich sein könnten. 30% antworten mit „ja“ und 19% mit „nein“. Dies wäre also ein weiterer wichtiger Aspekt, wo mehr Vermittlungs- und Aufklärungsarbeit geleistet werden kann, dass erstellte Daten auch in anderen Kontexten mit ganz anderen Fragestellungen, auch solchen, die mit dem ursprünglichen Forschungsobjekt nichts zu tun haben müssen, nützlich sein können. Zu denken wäre hier bspw. an Metastudien, die Studiendesigns anderer Wissenschaftler zum Forschungsgegenstand nehmen. Diese Unsicherheit rührt sicherlich auch daher, dass nicht immer klar ist, wie aus den Ergebnissen und Nebenprodukten der eigenen Forschung Daten mit einer gewissen Abstraktionsebene generiert werden können, sodass diese für andere Kontexte nützlich sind.

Wir haben die 39 Personen, die mit „ja“ geantwortet haben, gebeten zu spezifizieren, um was für Daten es sich handelt, die aus ihrer Sicht von anderen nachnutzbar sind. Unter den 104 Antworten wurden mit Abstand am häufigsten Textdaten (von 24% der Befragten) genannt, gefolgt von Bilddaten (15%), bibliographischen Daten und statistischen/numerischen Daten (jeweils 12%). Audiodaten, Programmcode, Videodaten und Geodaten wurden von nur 6 oder weniger Personen genannt (weniger als 5%), digitale 3D Modelle wurden gar nicht genannt. Unter Sonstiges wurden noch Grundrisse, Scans von Manuskripten und Archivdaten ergänzt, wobei diese sich in vielen Fällen – je nach Inhalt – einem der oben genannten Kategorien zuordnen lassen (Textdaten, Bilddaten, numerische Daten).

Mit 86% kann sich die überwiegende Anzahl der Befragten vorstellen, Teile ihrer Forschungsdaten für andere zur Verfügung zu stellen. Nur 10 Personen (8%) stimmen jedoch einer bedingungslosen Bereitstellung der eigenen Forschungsdaten für andere zu. Die meisten knüpfen dies an Bedingungen:

  • dass die jeweilige Person als Quelle angegeben und über die Nutzung informiert wird (61%).
  • dass die jeweilige Person ein OK geben muss, bevor der Zugriff auf die Daten erfolgen kann (11%).

Knapp 4% (5 Personen) sprechen sich gegen eine Bereitstellung der Daten aus und 9% (12 Personen) enthalten sich einer Stellungnahme.

Unter Sonstiges werden weitere individuelle Bedingungen genannt, die teils aus Kombinationen der obenstehenden Bedingungen bestehen, teils die Informant*innen mitberücksichtigt und teils die Veröffentlichung der Daten berührt.

Wir haben nach den Gründen gefragt, die für eine Veröffentlichung der eigenen Forschungsdaten sprechen (Abb. 12), als auch nach solchen gegen eine Veröffentlichung (Abb. 13). Auch hier waren wieder Mehrfachantworten möglich.

Bei den Gründen für eine Veröffentlichung werden die „inhaltlichen“ Aspekte relativ häufig genannt (40% oder mehr der Befragten), wohingegen die strukturellen Aspekte, wie Anforderungen seitens Fördergeber oder Fördermittel, relativ wenig zum Tragen kommen (10% oder weniger).

Die inhaltlichen Aspekte sind:

  • Möglichkeit der Nachnutzung der Daten durch andere Wissenschaftler*innen (71% der Befragten)
  • Qualitätssicherung und Nachvollziehbarkeit der Forschung (69%)
  • Langzeitarchivierung der Daten (66%)
  • Zitierfähigkeit der Daten (Permalink) (55%)
  • Schutz vor Plagiaten bzw. davor, dass das Forschungsthema durch andere Wissenschaftler*innen besetzt wird (40%)

Bei den Kontra-Argumenten überwiegen die organisatorisch-strukturellen Gründe: 62% der Befragten nennen den Zeitaufwand für die Aufbereitung (Kuratierung) der Daten vor der Übergabe, 45% nennen die Kosten bzw. das fehlende Budget, 37% fehlt das technische Know-how und 34% geben an, sie haben keine Kontrolle über die Verwendung ihrer Forschungsdaten.

28% der Befragten sagen jeweils, dass die Daten urheberrechtsbelastet sind und/oder Persönlichkeitsrechte betreffen. Unter Sonstiges wurde noch ergänzt, dass die Daten politisch sensibles Material enthalten können.

Als nächstes haben wir gefragt, nach welchen Kriterien die Wissenschaftler*innen Daten auswählen würden, die sie zugänglich machen.

Nur eine geringere Anzahl an Personen würde alle Forschungsdaten zugänglich machen (22 Personen oder 17%). Die Mehrzahl würde dies an bestimmte Bedingungen knüpfen: als Ergänzung zu einer Publikation (58%), von anderen angefragte/benötigte Daten (44%), aussagekräftige Daten/Materialien (42%) und Daten, die aus Projekten entstehen, die mit öffentlichen Mitteln gefördert werden (32%). Auffällig ist, dass gerade der Punkt „Kritische Forschungsdaten“, also solche, die ggf. nicht reproduzierbar sind und besonders einer Sicherung bedürfen, nur von 34 Personen oder 27% genannt wird. Originalschrift scheint auch weniger ein Kriterium zu sein; auch dies wird nur von 26% genannt (siehe Abb. 14).

 

Anschließend haben wir die Teilnehmer*innen gebeten, die drei wichtigsten Eigenschaften eines Forschungsdatenrepositoriums (Abb. 15) sowie die nötigen Rahmenbedingungen (Abb. 16) zu benennen. Dabei ging es uns um eine Priorisierung, dass alle aufgeführten Aspekte irgendwie wichtig sind, war vorausgesetzt.

Bezüglich der Frage nach den Eigenschaften eines Repositoriums wurde von den Befragten mit Abstand am häufigsten die Vertrauenswürdigkeit der betreibenden Organisation angeführt (57%), gefolgt von einer eindeutigen Zitierbarkeit der Daten (38%), differenzierten und kontrollierten Zugriffsrechten (30%) sowie besonderen Schutzmechanismen für sensible Einzelinformationen (28%).

Interessant ist, dass die zuverlässige Auffindbarkeit von Daten in Originalschrift und die Verzeichnung des Bestands in anderen Systemen bspw. über Schnittstellen vergleichsweise selten genannt wurden (20% und 12% der Befragten). Dies mag vielleicht daran liegen, dass sowohl das verwendete Vokabular als auch die Thematik unter Wissenschaftler*innen weniger verwendet wird, sondern eher bibliothekarischer Natur ist.

Bezüglich der Rahmenbedingungen wurden fast alle vorgeschlagenen Punkte gleich bewertet mit etwa 20-31% der Befragten, abgesehen dem Aspekt „Klare Nutzungs-/Lizenzvereinbarungen zwischen Datengebenden, Archiv und Nutzenden“ (54%) sowie „Übertragung eventueller Verpflichtungen (wie Veröffentlichung, Archivierung etc.)“ (5%).

In einer Matrixfrage haben wir die Forscherinnen und Forscher gebeten zu bewerten, wie wichtig ihnen folgende Kriterien sind, wenn sie eigene asienwissenschaftliche Forschungsdaten veröffentlichen (wollen/würden). Die Skala reicht erneut von 1 = „sehr wichtig“ bis 5 = „überhaupt nicht wichtig“ (siehe Abb. 17).

Die Kriterien mit den Prozentwerten der Befragten, die sehr wichtig oder wichtig angekreuzt haben, lauten akkumuliert:

  • Beschreibung der Daten in Originalschrift möglich (73%)
  • Beschreibung der Daten in Transliteration / Transkription möglich (63%)
  • Beschreibung der Daten auf Deutsch / Englisch möglich (73%)
  • Verwendung von fach- / region- / sprachspezifischen Terminologien (z.B. Maße, Einheiten) (54%)
  • Verwendung fachspezifisch und international gängiger Metadatenstandards (57%)

Alle fünf Kriterien werden demnach überwiegend als wichtig oder sehr wichtig eingestuft. Auffällig ist, dass die Beschreibung der Daten in Originalschrift sowie auf Deutsch / Englisch als besonders wichtig erachtet werden. 50% bzw. 47% der Befragten bewerten dies als sehr wichtig.

Auffällig ist auch, dass bei den zwei zuletzt genannten Kriterien besonders viele Teilnehmenden keine Antwort geben (13% und 17%). Dies kann entweder auf den Fragentyp zurückzuführen sein, oder aber die beiden Kriterien sind ggf. ebenfalls weniger verständlich.

 


Welche Unterstützung und Informationsangebote gibt es und welche werden benötigt?

Im letzten Themenblock haben uns Informationsangebote zu Forschungsdaten und der Umgang mit diesen sowie Bedarfe an solchen Angeboten interessiert. Wir haben gefragt, wie umfänglich die Teilnehmenden sich an ihren wissenschaftlichen Einrichtungen in Bezug auf Forschungsdaten beraten fühlen. 36% der Befragten fühlen sich vollumfänglich oder in einigen Themenbereichen gut beraten, 45% fühlen sich gar nicht oder nicht ausreichend beraten. Der größte Anteil antwortete im Mittelfeld, d.h. zu einigen Themenbereichen oder nicht ausreichend, akkumuliert beläuft sich dies auf 60%.

Wir haben diejenigen gefragt, die positiv geantwortet haben (46 Personen), in welchen Themenbereichen sie Unterstützung erhalten. Hier waren Mehrfachantworten möglich. Eher dominant sind technische/organisatorische Themen wie Datenmanagement, Open-Access-Lizenzen, Datenformate etc. Eher weniger häufig genannt werden Rechtsaspekte und praktische Belange, wie „Wie finde ich ein Repositorium?“ oder „Was muss ich bei der Dokumentation der Daten beachten?“

  • Datenmanagement allgemein (21% der Befragten)
  • Open-Access-Lizenzen (16%)
  • Technische Fragen zu Datentypen, Formaten, Metadatenstandards (13%)
  • Langzeitarchivierung (12%)
  • Urheberrecht (11%)
  • Dokumentation der beschreibenden Daten (Metadaten) (9%)
  • Ethik und Persönlichkeitsrechte (9%)
  • Repositorium finden (7%)

In der nächsten Frage wollten wir nun wissen, welche Beratungs- und Informationsbedarfe seitens des FID Asien gewünscht werden. Hier waren wieder Mehrfachantworten möglich.

Nur 16 Personen (12%) haben keinen Bedarf an Beratungsangeboten gemeldet. Die restlichen 406 Antworten verteilen sich folgendermaßen auf die vorgeschlagenen Themen:

  • Datenmanagement allgemein (55% der Befragten)
  • Technische Fragen zu Datentypen, Formaten, Metadatenstandards (48%)
  • Dokumentation der beschreibenden Daten (Metadaten) (46%)
  • Langzeitarchivierung (41%)
  • Open-Access-Lizenzen (38%)
  • Urheberrecht (37%)
  • Repositorium finden (27%)
  • Ethik und Persönlichkeitsrechte (21%)

Auch hier ist auffallend, dass Rechtsfragen weniger häufig genannt werden. Unter Sonstiges wurde u.a. noch die Interoperabilität von Forschungsdaten genannt.

Die nächste Frage befasst sich mit den Angeboten des FID Asien, die sich aktuell in Vorbereitung befinden (siehe Abb. 18). Hier wurde in einer Matrixfrage auf einer Skala von 1 = „sehr wichtig“ bis 5 = „überhaupt nicht wichtig“ nach der Wichtigkeit dieser Angebote gefragt.

Zwei Angebote des FID Asien wurden thematisiert. Erstens, im Zusammenhang mit den im CrossAsia ITR (Integriertes Textrepositorium) gespeicherten Volltexten aus lizenzierten Datenbanken soll es in Zukunft möglich sein, diese Volltexte über Schnittstellen anzusprechen und in digitale Werkzeuge zu laden. Daran gekoppelt sind natürlich einerseits ein Authentifizierungssystem, andererseits die Idee, die mittels digitaler Werkzeuge angereicherten Daten ins ITR zurückzuspielen und dort dauerhaft referenzierbar bereitzustellen. Dieses Angebot wurde von 52% der Befragten als wichtig oder sehr wichtig bezeichnet.

Zweitens stellten wir ein Angebot im Zusammenhang mit den Open Access Publikationsplattformen des FID Asien vor: die dauerhafte Speicherung und Verwaltung von Forschungsdaten mit Bezug zu Open Access-Publikationen, die auf den ePublishing Plattformen des FID Asien veröffentlicht sind, inkl. deren Verknüpfung zu den zugehörigen Publikationen. Dies wurde sogar von 65% der Befragten als wichtig oder sehr wichtig bezeichnet.

Auffallend ist, dass auch bei dieser Matrixfrage wieder der Anteil derjenigen, die keine Antwort gegeben haben, relativ hoch ist (24% bzw. 18%). Ein Grund dafür kann u.U. sein, dass die vorgestellten Angebote nicht ausreichend bekannt sind oder ungenügend erläutert wurden.

Daran anschließend haben wir gefragt, welche Angebote mit Bezug auf Forschungsdaten vom FID Asien gewünscht werden, die nicht bereits genannt wurden. Hier wurde insbesondere ein Verzeichnis von fachrelevanten Repositorien bzw. eine Übersicht, Bibliographie oder Metakatalog zu Forschungsdaten mit Asienbezug genannt, die in relevanten Repositorien verzeichnet bzw. veröffentlicht sind. Unterstrichen wurde dieser Wunsch mit dem Hinweis, dass Daten in Originalschrift häufig in den Repositorien nicht (zuverlässig) nachgewiesen werden.

Abschließend haben wir in diesem Themenkomplex noch gefragt, wenn Daten vor- und aufbereitet werden, sodass Dritte diese nutzen können, zu welchen Aspekten besonders Unterstützung benötigt wird (siehe Abb. 19). Hier haben wir eine Priorisierung angestrebt.

Angeführt wird die Liste von fachspezifischen Aspekten, wie Empfehlungen zum Umgang mit Forschungsdaten (44% der Befragten) und Standards für eine angemessene Dokumentation (34%). Dies wird gefolgt von eher technischen Themen, wie unterstützende Software-Tools für die Aufbereitung und Bereinigung von Daten (32%) oder Beratung bei technischen Fragen (25%). Rechtliche Aspekte finden sich eher im Mittelfeld oder unter den weniger häufig genannten Punkten. So wird Beratung zum bzw. eine Auseinandersetzung mit dem Urheberrecht von 28% der Teilnehmenden gewünscht und selbiges zum Datenschutz von 20%. Eine fachspezifische Auseinandersetzung zu ethischen Fragen im Zusammenhang mit personenbezogenen Fragen wird von 9% gewünscht.

18% sagen, dass sie eher keine Zeit für die Aufbereitung von Daten, die nicht unmittelbar etwas mit ihrer Forschung zu tun haben, aufbringen wollen.

 

Im Freitextfeld für abschließende Kommentare zur Umfrage haben wir u.a. Hinweise erhalten, dass das Thema als sehr wichtig erachtet wird und gewünscht wird, dass zukünftige Wissenschaftler-Generationen bereits während des Studiums für die Frage des Umgangs mit und der Bereitschaft zur Veröffentlichung von Forschungsdaten sensibilisiert werden sollten. So wurde auch darauf hingewiesen, dass es für manche in der Umfrage verwendeten Begriffe hilfreich gewesen wäre, wenn zu diesen eine Definition mitgeliefert worden wäre, um sowohl ein gemeinsames Verständnis zu haben, als auch diejenigen, die noch nicht so tief in der Materie sind, mit einzubinden.


Was soll nun mit diesen Erkenntnissen geschehen?

Das Thema Forschungsdaten in den asienbezogenen Wissenschaften wurde bereits auf der CrossAsia Fachtagung im Januar 2018 gemeinsam als wichtig identifiziert und der FID Asien hat diese Anforderung der Wissenschaft in den Nachfolgeantrag mit aufgenommen. Die Aufgabe, ein entsprechendes Beratungs- und Informationsangebot zu entwickeln, das Sie bei allen Fragen rund um das Thema Forschungsdaten unterstützen soll, haben wir also schon für die Förderrunde 2019-2021 auf der Agenda. Die Ergebnisse der Umfrage helfen uns – und vielleicht auch Ihnen – zu beurteilen, wo wir in den asienbezogenen Wissenschaften derzeit „in Summe“ stehen. Für den FID Asien ist dabei wichtig, nicht nur den bereits im Thema fortgeschritteneren Forschenden als Ansprechpartner zur Verfügung zu stehen, sondern auch grundlegende Kenntnisse zu Forschungsdaten, Nachweise zu bereits bestehenden Angeboten und Informationen zu aktuellen Entwicklungen für die gesamte Community zusammenzutragen und bereitzustellen. Diese Aufgabe können wir nun auf der Basis Ihrer vielen hilfreichen Antworten und Anregungen, die wir im Rahmen der Umfrage erfahren haben, etwas zielgenauer angehen. Wir laden Sie ein, uns auch im weiteren Prozess mit Ihren Anregungen und Ihrem Feedback zu begleiten.

人民日报 – People’s Daily – neu retrospektiv und tagesaktuell

Ab sofort können wir Ihnen Zugang zu einer neuen Datenbank für die 人民日报 (People’s Daily) anbieten. Die Datenbank umfasst alle Jahrgänge seit der Gründung der Zeitung im Jahr 1946 und wird täglich aktualisiert. Sie kann im Volltext in einfacher oder erweiterter Suche durchsucht, gefundene Artikel können heruntergeladen bzw. ausgedruckt werden.

Sie finden die Datenbank über den Menüpunkt Ressourcen > Datenbanken und mit der Auswahl der Klassifikation „Newspapers & Magazines“ sowie der Sprache „Chinese“.

 

Kamakura ibun

Testzugang zu Kamakura ibun

Bis zum 2. Juli 2019 können wir einen Testzugang zur Onlineausgabe der Kamakura ibun 鎌倉遺文 anbieten. Die Materialsammlung mit historischen Dokumenten der Kamakura-Zeit (1185-1333) erschien ursprünglich in 42 Bänden plus vier Supplementbänden beim Verlag Tōkyōdō. Die Ressource ist Teil der Datenbank JapanKnowledge. Um die Kamakura ibun zu recherchieren, rufen Sie bitte wie üblich JapanKnowledge über die Datenbankseite von CrossAsia auf.

In JapanKnowledge finden Sie die Kamakura ibun in dem Bereich „JKBooks“ ganz unten. Die Kamakura ibun können sowohl über die einfache Suche (基本検索) als auch über die ausführliche Suche (詳細検(個別)索) im Volltext durchsucht werden. Die Onlineausgabe bietet neben dem elektronischen Volltext auch die entsprechende Seite aus dem Druckexemplar, was ein Lesen der Dokumente in übersichtlicher Form erlaubt. Darüber hinaus sind die Datensätze mit der Datenbank des Historiographischen Instituts der Universität Tokyo verknüpft, die ebenfalls die Kamakura ibun anbietet. Gegebenenfalls sind über diesen Link auch Scans der Originaldokumente einsehbar.

Wenn Sie eine dauerhafte Lizenzierung dieses Angebots wünschen, schreiben Sie uns bitte eine kurze Email (x-asia@sbb.spk-berlin.de) oder melden Sie sich gerne über das CrossAsia Forum. Wir freuen uns auf Ihre Rückmeldungen!

Nähere Informationen finden Sie auf der Seite des Datenbankanbieters:
Auf Englisch
Auf Japanisch
Einen Flyer mit einer Kurzerläuterung finden Sie hier.

Neuerscheinung bei CrossAsia-eBooks – Early Modern India: Literatures and Images, Texts and Languages

Interessieren Sie sich für indische Sprachen, Persisch, Sanskrit? Für die Beziehungen zwischen verschiedenen Yoga-Traditionen?
Dann lesen Sie CrossAsia-eBooks‘ neueste Open Access Veröffentlichung Early Modern India: Literatures and Images, Texts and Languages, herausgegeben von Maya Burger und Nadia Cattoni (Université de Lausanne).

Dieses Buch präsentiert aktuelle wissenschaftliche Forschungen zu einer der wichtigsten literarischen und historischen Epochen der Frühen Neuzeit aus einer Vielzahl von Perspektiven. Es enthält eine Auswahl von Beiträgen, die auf der 12. International Conference on Early Modern Literatures of North India vorgestellt wurden. Das Organisationsprinzip des Bandes liegt in der Erforschung der Verbindungen zwischen einer Vielzahl von Sprachen (indische Volkssprachen, Persisch, Sanskrit), Medien (Texte, Bilder) und Traditionen (Hindu, Jaina, Sikh, Muslim). Die Rolle der persischen Sprache und die Bedeutung der Übersetzungen vom Sanskrit in Persische werden vor dem Hintergrund des “translational turn” diskutiert.

 

Der Band kann als Gesamt-PDF oder in einzelnen Kapiteln auf der CrossAsia-eBooks Webseite gelesen und heruntergeladen werden. Die Hardcover-Ausgabe ist im lokalen Buchhandel oder über den Online-Buchhandel erhältlich.

CrossAsia-eBooks ist die Open-Access-Publikationsplattform von CrossAsia für wissenschaftliche E-Books aus dem Bereich der Asienwissenschaften. Wenn Sie ebenfalls Interesse daran haben, Ihre Forschungsarbeit bei uns zu veröffentlichen, dann nehmen Sie mit uns Kontakt auf!

“Texte aufräumen” – die ersten CrossAsia N-Gramm-Pakete stehen zum Download bereit

  • de
  • en

Die meisten kennen sicherlich Ursus Wehrlis Buch „Kunst aufräumen“. Dort wird z.B. Keith Harings „Untitled“ (1986) in seine einzelnen Farbsegmente zerlegt und diese werden fein säuberlich nach Farben und Größe geordnet übereinander gestapelt (siehe z.B. hier). Ganz ähnlich geht das Erstellen von N-Grammen vor. Der eigentliche Text wird in seine Einzelteile zerlegt, identische Einzelteile werden zusammengetragen und dann wird gezählt: was gibt es wie oft. Damit wird sogar noch etwas ökonomischer als bei Herrn Wehrli „aufgeräumt“. Die eigentliche Struktur, das Gesamtbild, wird aufgelöst und der Text strikt statistisch und auf der Basis seiner Einzelteile betrachtet. Was im Fall von N-Grammen als „Einzelteil“ gilt, kann dabei variieren. In Texten in lateinischer Schrift können das die Buchstaben sein oder die durch Leerstellen identifizierbaren Wörter oder auch zwei oder drei (etc.) aufeinanderfolgende Buchstaben oder Wörter.

„Aufräumen“ Ostasiatisch

Für ostasiatische Texte sind die am sichersten korrekt zu identifizierenden Einzelteile die verschiedenen Schriftzeichen (chinesische Schriftzeichen oder auch japanische bzw. koreanische Silbenzeichen). An einem Beispiel lässt sich gut zeigen, wie konzeptionell einfach N-Gramme zunächst gedacht sind. Aus den ersten zwei Phrasen des Daode jing

道可道,非常道。名可名,非常名。無名天地之始, 有名萬物之母。

… wird (hier ohne die Satzzeichen, da die im Original i.d.R. ja auch nicht zur Verfügung stehen) im Fall von 1-Grammen (Monogramm bzw. Engl. unigram) folgendes:

名, 5
道, 3
可, 2
非, 2

常, 2
之, 2
無, 1
天, 1

地, 1
始, 1
有, 1
萬, 1

物, 1
母, 1

… im Fall von 2-Grammen (Bigramm bzw. Engl. bigram), bei denen die Einzelteile nicht aneinander angrenzen, sondern sich schuppenartig überlagern (also 道可, 可道, 道非 etc.), nach Anzahl gestaffelt dieses:

非常, 2
道可, 1
可道, 1
道非, 1
常道, 1
道名, 1

名可, 1
可名, 1
名非, 1
常名, 1
名無, 1
無名, 1

名天, 1
天地, 1
地之, 1
之始, 1
始有, 1
有名, 1

名萬, 1
萬物, 1
物之, 1
之母, 1

Die 3-Gramm (Trigramm bzw. Engl. trigram) Liste würde noch länger und keiner der 3-Gramme würde – auf diesen kleinen Abschnitt bezogen – mehr als einmal vorkommen. Zwei Dinge werden klar: N-Gramme machen für kurze Texte keinen Sinn und die Listen werden schnell sehr groß. Für den gesamten Korpus des Xuxiu Siku quanshu mit 5.446 Titeln sind das 27.387 Monogramme, bzw. 13.216.542 Bigramme; allein für das Beispiel Buwu quanshu 卜筮全書 aus dem Headerbild werden bereits 3.382 Monogramme, 64.438 Bigramme und 125.010 Trigramme gebildet.

Große Listen und dann?

Nur N-Gramm Listen von ganzen Büchern oder sogar ganzen Korpora von Büchern sind in der Lage, inhaltliche Tendenzen aufzuzeigen: treten z.B. bestimmte „Einzelteile“ auffällig oft gemeinsam auf? Was fällt auf, wenn man verschiedene N-Gramm Listen (von Büchern oder Korpora) miteinander vergleicht? Wenn diese rein auf den Textinhalt bezogenen Informationen dann mit den bibliographischen Angaben zu den Büchern in Zusammenhang gesetzt werden, lassen sich Verschiebungen von Gewichtungen und Zusammenspiel dieser „Einzelteile“ über einem Zeitstrahl analysieren oder Charakteristika für bestimmte Autoren oder Buchthemen usw. herausarbeiten.

Der Google-Ngram Viewer oder der HathiTrust Bookworm werden wohl zumeist für genau solche Visualisierungen der Popularität von verschiedenen Termini im Vergleich und über einen Zeitstrahl verwendet. Doch N-Gramme – bereinigt und „geschärft“ durch weitere analytische Routinen – können die Basis für viele weitergreifende Fragen und Antworten bilden. Manche dieser Dinge fallen u.U. auch beim Lesen oder „close reading“ auf – natürlich! Aber N-Gramme gehen erbarmungslos statistisch vor und lassen sich nicht von Leseerwartungen und Standardinterpretationen beeinflussen. Und noch einen großen Vorteil bieten N-Gramme: der eigentliche (lizenzgeschützte) Text ist hinter einer statistischen Analyse seiner Einzelteile verschwunden und die Bereitstellung dieser Statistik stellt keine Verletzung der von CrossAsia abgeschlossenen Hosting- und Indexierungsrechte dar.

Schritt für Schritt in die Zukunft

Das Headerbild zum Artikel zeigt, wie aus dem originalen Druckbild ein durchsuchbarer Volltext wird und aus diesem dann Listen mit 1-, 2-, und 3-Grammen. Die einzelne N-Gramm-Liste selbst ist dabei nur bedingt von Nutzen. Erst wenn sie zusammen mit vielen Listen und mittels Tools und Routinen analysiert wird, zeigt sich das Potential. Die Zahl unserer Nutzerinnen und Nutzer, die auf der Basis solcher Listen ihre eigenen Analysen durchführen, wird sicher in den nächsten Jahren stark zunehmen, da immer öfter digitale Analysemethoden und Formen des „distant reading“ in geisteswissenschaftliche Curricula eingebunden werden. Doch wir arbeiten daran, parallel zu Services wie CrossAsia N-Gramm Listen, Analyse- und Visualisierungstools zu entwickeln, die allen Nutzerinnen und Nutzern einen einfachen Zugang zu unserem beständig wachsenden Fundus an Texten im Repositorium erlauben.

Erste Stationen

Als erstes Tool dafür ist die CrossAsia Volltextsuche Ende April 2018 mit zwei Versionen online gegangen. Ihr Suchraum ist nunmehr auf rund 130.000 Titel mit über 15,4 Mio. Textseiten angewachsen. Die Volltextsuche arbeitet auf Basis einer Wort-Suche in Kombination mit den Buchmetadaten und wird auf lange Sicht – so ist zu vermuten – die Anforderung, Hinweise auf relevante oder interessante Ressourcen zu geben, nicht optimal erfüllen können: zum einen unterscheiden sich die bibliographischen Metadaten der einzelnen Sammlungen stark und als Filter eignen sich im Grunde nur allen gemeinsame Metadatenfelder, zum anderen werden immer mehr Ressourcen durchsucht und man verliert leicht in der großen Treffermenge den Überblick.

Ziel von Aktivitäten wie der Generierung von N-Grammen und der Entwicklung von digitalen Tools zur Ermittlung von Ähnlichkeiten zwischen Texten und der Identifikation von Themen ist, die Texte nicht mehr allein unter dem Blickwinkel ihrer bibliographischen Beschreibung zu betrachten, sondern die Texte auch „über sich selbst“ sprechen zu lassen. N-Gramme, topic modeling (d.h. die Algorithmus-gesteuerte Identifikation von „Themen“ eines Buchs), Named-entity recognition (d.h. das automatische Erkennen und markieren von Personen- und Ortsnamen u.ä.) etc. sind Formen solcher Selbstbeschreibungen von Texten. Wir experimentieren aktuell mit verschiedenen solcher Zugänge, Visualisierungen und Analysen der Textkorpora im CrossAsia ITR und diese sollen der reinen Volltextsuche in naher Zukunft zur Seite gestellt werden.

CrossAsia N-Gramm Service

Drei erste Pakete mit N-Grammen (1-, 2-, und 3-Gramme) der im CrossAsia Integrierten Textrepositorium (ITR) gehosteten Texte haben wir nun als Service für unsere Nutzerinnen und Nutzer – und darüber hinaus – zum Download bereitgestellt (CrossAsia N-gramn Service). Das sind 1. der über 5.400 Titel umfassende schriftsprachliche, chinesische Textkorpus Xuxiu Siku Quanshu 續修四庫全書, 2. das 1906 herausgegebene daoistische Textkompendium Daozang jiyao 道藏辑要 (ca. 300 Titel) und 3. eine über 10.000 Titel große Zusammenstellung von chinesischen Lokalmonographien (difang zhi 地方誌) der Song bis Republikzeit inklusive einiger älterer geographischer Texte.

Die N-Gramme sind hierbei jeweils auf Buchebene generiert worden. Die ID, also der Name der Datei, verweist auf den entsprechenden Metadatensatz in den ebenfalls zum Download bereitstehenden Tabellen mit Metadaten. Einige Hinweise zu dieser ersten Version von N-Grammen: es wurde keine Dublettenkontrolle durchgeführt (also ob z.B. dieselbe Lokalmonographie mehrmals im Korpus vorkommt) und es wurde keine Normalisierung der Zeichenvarianten vorgenommen (bei der z.B. 回, 囬, 廻, 囘 als gleichwertige Zeichen behandelt würden). An Interpunktionen weisen die Volltexte nur chinesische Klammern zur Markierung von Unterüberschriften u.ä. (wie 【 und 】) auf. Auch diese Klammern haben wir in der aktuellen Version getilgt. Wie immer bei der Verwendung von Algorithmen, ist die oben versprochene erbarmungslos statistische Herangehensweise von n-grams natürlich abhängig von einigen sensiblen Entscheidungen beim Vorbereiten der Daten und keine Entscheidung ist für alle Forschungsfragen gleich passend.

Wir sind neugierig!

Helfen Ihnen diese N-Gramm-Listen bei Ihrer Forschung? Was können wir hier besser machen? Haben Sie andere Vorschläge für computergenerierte Informationen über die Texte, die wir zur Verfügung stellen sollten? Wir freuen uns von Ihnen zu unserem neuen Service zu hören!

x-asia@sbb.spk-berlin.de

Südostasien: 700 E-Books des ISEAS – Yusof Ishak Instituts. Testzugang bis 7. Juni

CrossAsia bietet den registrierten Nutzerinnen und Nutzern über den Anbieter IG Publishing einen Testzugang zu der E-Book-Sammlung des in Singapur ansässigen ISEAS – Yusof Ishak Instituts, eines der führenden Südostasien-Forschungszentren und Herausgeber von wissenschaftlichen Büchern und Zeitschriften mit dem Schwerpunkt auf Politik, Wirtschaft, soziale Fragen und gesellschaftliche Entwicklungstrends in Südostasien und dem asiatisch-pazifischen Raum. Zu den Publikationen gehört u.a. auch die Reihe „Trends in Southeast Asia“.

Die Sammlung umfasst zurzeit 742 Publikationen aus den Jahren 1980-2019. Bei der einfachen Suche können Filter gesetzt werden (Fachgebiet, Erscheinungsjahr, Sprache). Bei der erweiterten Suche können weitere Suchkriterien einbezogen werden. Zu den Treffern erscheinen Images und kurze Resümees. Die Titel sind im Volltext durchsuchbar.

Bitte testen Sie die Datenbank und senden Sie uns gerne Ihr Feedback: x-asia@sbb.spk-berlin.de

 

Testzugang zur Datenbank 中華數字書苑 · 圖片庫

Ab sofort können wir Ihnen einen Testzugang zur Datenbank 中華數字書苑 · 圖片庫 („Apabi Picture Database“) anbieten. Die Datenbank versammelt umfangreiches Bildmaterial aus chinesischen und westlichen Publikationen aus allen Bereichen der bildenden Kunst. In der Datenbank kann in Sparten wie z.B. Porträtmalerei, Kalligraphie etc., bzw. nach Region und Entstehungszeit gebrowst werden. Die Datenbank ist zudem mittels einfacher und erweiterter Suche durchsuchbar. Für die gefundenen Kunstwerke bzw. Bilddokumente werden eine Kurzbeschreibung sowie Querverweise und weiterführende Literatur angeboten, leider werden nicht in jedem Fall Quellenangaben gemacht.

Wir möchten Sie um reges Ausprobieren der Datenbank und Ihr Feedback bitten. Schreiben Sie uns (an diese Adresse: x-asia(at)sbb.spk-berlin.de)  oder auch im Forum, sollten Sie Interesse an einer dauerhaften Lizensierung der Datenbank haben.

Der Testzugang endet am 11.06.2019

Umfrage Forschungsdaten – Newsletter 18

  • de
  • en

Umfrage zu Forschungsdaten in den asienbezogenen Wissenschaften

Liebe Asienwissenschaftlerin, lieber Asienwissenschaftler,
liebe Nutzerin, lieber Nutzer von CrossAsia,

der aktuelle Newsletter steht ganz im Zeichen von Forschungsdaten. Diese erlangen aufgrund des digitalen Wandels in der Wissenschaft und des Einsatzes computergestützter Methoden zunehmend an Bedeutung. Dies betrifft nicht nur die Geistes-, Kultur- und Sozialwissenschaften im Allgemeinen, sondern auch die Asienwissenschaften, wo bisher im Gegensatz zu anderen Disziplinen vergleichsweise wenig passiert ist. Drei wichtige Aspekte bezüglich Forschungsdaten haben sich in der Diskussion um digitale Forschungsdaten herauskristallisiert:

  • Der Anspruch der guten wissenschaftlichen Praxis und der damit geforderten Nachvollziehbarkeit der Forschungsbasis im Kontext digitaler Forschungsdaten.
  • Forschungsdaten als zitierfähige Datenpublikationen, die nicht nur der Forschungsfrage, in deren Kontext sie entstanden sind, als Basis dienen können, sondern darüber hinaus für verschiedenste Nachnutzungen bereit stehen.
  • Die Präsentation der Forschungsdaten in der Form, dass sie mittels digitaler Werkzeuge genutzt werden können und bspw. über Visualisierungen und statistische Methoden weitere, u.U. nicht vorausgesehene Erkenntnisse durch eine Nutzungsverbesserung der Daten generieren können.

Die Diskussion um digitale Forschungsdaten betrifft darüber hinaus aber auch zahlreiche rechtliche, ethische und organisatorische Aspekte, wie bspw. die Einwilligung zur Nachnutzung der Daten durch andere Forscherinnen und Forscher, das Einholen des Einverständnisses zur Nachnutzung der Daten durch bspw. Studienteilnehmer*innen und den Schutz von Persönlichkeitsrechten sowie anderer sensitiver Daten.

Das Thema Forschungsdaten inklusive des Umgangs mit diesen ist längst auch auf der Agenda von Wissenschaftsgremien und Forschungsförderern angekommen. So ruft die DFG bspw. Wissenschaftlerinnen und Wissenschaftler dazu auf, bei der Antragsstellung bereits ein Konzept für den Umgang mit Forschungsdaten in dem Projekt zu entwickeln.

Der FID Asien, der von der DFG maßgeblich finanziell unterstützt wird, möchte die Fachcommunity der Wissenschaftlerinnen und Wissenschaftler, die zu Asien forschen, beim Forschungsdatenmanagement unterstützen und innerhalb der Fachcommunity eine Diskussion zum Thema anstoßen. Dies geschieht auch vor dem Hintergrund der sich aktuell etablierenden Nationalen Forschungsdateninfrastruktur (NFDI). Die Asienwissenschaften sind aufgefordert, auf Bedarfe und Besonderheiten bezüglich Forschungsdaten aufmerksam zu machen, damit diese in die allgemeine Diskussion eingebracht und bei der Erarbeitung der infrastrukturellen und technischen Rahmenbedingungen berücksichtigt werden können.

Um diesen Dialog anzustoßen möchte der FID Asien gemeinsam mit den Fachgesellschaften (DGA, DMG, DVCS, GJF, VfK, VSJF) von Ihrer Expertise lernen und von Ihnen erfahren, wie Sie im Forschungsprozess mit ihren Daten umgehen, welche Erfahrungen und Meinungen Sie zur Recherche und Nachnutzung sowie Erstellung und Bereitstellung von Forschungsdaten haben.

Wir würden uns sehr freuen, wenn Sie sich einen Augenblick Zeit für diese Umfrage nehmen. Die Beantwortung dauert ca. 20 Minuten. Die Ergebnisse der Umfrage werden wir bei ausreichender Beteiligung im CrossAsia Blog veröffentlichen.

Die Umfrage ist offen bis: 8. April 2019

Weitere interessante und neue Entwicklungen aus CrossAsia

Neu lizenzierte Datenbanken und Testzugänge

Vielen Dank für Ihre Unterstützung!

Ihr Team vom FID Asien