Kamakura ibun

Lizenz für die Kamakura ibun

Wir freuen uns mitteilen zu können, dass die Onlineausgabe der Kamakura ibun 鎌倉遺文 dauerhaft lizenziert werden konnte und bedanken uns herzlich bei allen, die uns hinsichtlich dieser Ressource ein Feedback gegeben haben.

Die Materialsammlung mit historischen Dokumenten der Kamakura-Zeit (1185-1333) erschien ursprünglich in 42 Bänden plus vier Supplementbänden beim Verlag Tōkyōdō. Das Werk ist Teil der Datenbank JapanKnowledge. Um die Kamakura ibun zu recherchieren, rufen Sie bitte wie üblich JapanKnowledge über die Datenbankseite von CrossAsia auf. In JapanKnowledge finden Sie die Kamakura ibun in dem Bereich „JKBooks“ ganz unten. Die Kamakura ibun können sowohl über die einfache Suche (基本検索) als auch über die ausführliche Suche (詳細検(個別)索) im Volltext durchsucht werden. Die Onlineausgabe bietet neben dem elektronischen Volltext auch die entsprechende Seite aus dem Druckexemplar, was ein Lesen der Dokumente in übersichtlicher Form erlaubt. Darüber hinaus sind die Datensätze mit der Datenbank des Historiographischen Instituts der Universität Tokyo verknüpft, die ebenfalls die Kamakura ibun anbietet. Gegebenenfalls sind über diesen Link auch Scans der Originaldokumente einsehbar.

Nähere Informationen finden Sie auf der Seite des Datenbankanbieters:
Auf Englisch
Auf Japanisch
Einen Flyer mit einer Kurzerläuterung finden Sie hier.

Ergebnisse der Umfrage zu Forschungsdaten in den asienbezogenen Wissenschaften

Im Frühjahr haben wir Sie als FID Asien gemeinsam mit den Fachgesellschaften (DGA, DMG, DVCS, GJF, VfK, VSJF) zu Forschungsdaten in den asienbezogenen Wissenschaften befragt. Ziel der Umfrage war, zu ermitteln, wie Sie im Forschungsprozess mit ihren asienbezogenen Daten umgehen, welche Erfahrungen und Meinungen Sie zur Recherche und Nachnutzung sowie Erstellung und Bereitstellung von Forschungsdaten haben und welche Unterstützungsangebote Sie bereits erhalten, bzw. welche Sie sich seitens des FID Asien wünschen.

Wir möchten Ihnen an dieser Stelle ganz herzlich für Ihre rege Beteiligung und die vielfältigen, äußerst hilfreichen Hinweise danken, die Sie uns gegeben haben. Die Beteiligung an der Umfrage und die Ergebnisse zeigen sehr deutlich, dass Forschungsdaten und der Umgang mit diesen auch in den asienbezogenen Wissenschaften bereits wichtige Themen sind, aber es auch noch einigen Erklärungs- und Diskussionsbedarf gibt. Mit diesem Beitrag möchten wir über eine Auswertung der Ergebnisse hinaus versuchen, die Diskussion weiter anzuregen und zugleich in einigen Bereichen vielleicht etwas mehr Klarheit schaffen.

Im Folgenden finden Sie eine Auswertung der Umfrage mit den wichtigsten Ergebnissen und Grafiken sowie mit Erläuterungen; eine vollständige Aufführung aller Tabellen und Grafiken finden Sie zum Download anbei.

 

 

Read more

人民日报 – People’s Daily – neu retrospektiv und tagesaktuell

Ab sofort können wir Ihnen Zugang zu einer neuen Datenbank für die 人民日报 (People’s Daily) anbieten. Die Datenbank umfasst alle Jahrgänge seit der Gründung der Zeitung im Jahr 1946 und wird täglich aktualisiert. Sie kann im Volltext in einfacher oder erweiterter Suche durchsucht, gefundene Artikel können heruntergeladen bzw. ausgedruckt werden.

Sie finden die Datenbank über den Menüpunkt Ressourcen > Datenbanken und mit der Auswahl der Klassifikation „Newspapers & Magazines“ sowie der Sprache „Chinese“.

 

Neuerscheinung bei CrossAsia-eBooks – Early Modern India: Literatures and Images, Texts and Languages

Interessieren Sie sich für indische Sprachen, Persisch, Sanskrit? Für die Beziehungen zwischen verschiedenen Yoga-Traditionen?
Dann lesen Sie CrossAsia-eBooks’ neueste Open Access Veröffentlichung Early Modern India: Literatures and Images, Texts and Languages, herausgegeben von Maya Burger und Nadia Cattoni (Université de Lausanne).

Dieses Buch präsentiert aktuelle wissenschaftliche Forschungen zu einer der wichtigsten literarischen und historischen Epochen der Frühen Neuzeit aus einer Vielzahl von Perspektiven. Es enthält eine Auswahl von Beiträgen, die auf der 12. International Conference on Early Modern Literatures of North India vorgestellt wurden. Das Organisationsprinzip des Bandes liegt in der Erforschung der Verbindungen zwischen einer Vielzahl von Sprachen (indische Volkssprachen, Persisch, Sanskrit), Medien (Texte, Bilder) und Traditionen (Hindu, Jaina, Sikh, Muslim). Die Rolle der persischen Sprache und die Bedeutung der Übersetzungen vom Sanskrit in Persische werden vor dem Hintergrund des “translational turn” diskutiert.

 

Der Band kann als Gesamt-PDF oder in einzelnen Kapiteln auf der CrossAsia-eBooks Webseite gelesen und heruntergeladen werden. Die Hardcover-Ausgabe ist im lokalen Buchhandel oder über den Online-Buchhandel erhältlich.

CrossAsia-eBooks ist die Open-Access-Publikationsplattform von CrossAsia für wissenschaftliche E-Books aus dem Bereich der Asienwissenschaften. Wenn Sie ebenfalls Interesse daran haben, Ihre Forschungsarbeit bei uns zu veröffentlichen, dann nehmen Sie mit uns Kontakt auf!

„Tidying Up Texts“ – CrossAsia has published its first n-gram packages for download

Perhaps you have seen Ursus Wehrli’s book “Tidying Up Art” where he takes pieces of art, separates the various shapes and colours and sorts them into neat heaps (see for example Keith Haring’s painting “Untitled” from 1986 here). N-grams aim to achieve somewhat similar: A text is segmented into component parts and identical parts are put together and counted. Arguably, this is an even more economical way of “tidying up” than that used by Mr Wehrli. The original structure and meaning of the text is disassembled and the text is viewed from a strictly statistical angle on the basis of these parts of the text. What we consider the “parts” of a text is not fixed. For example, parts of a Latin script text can be individual letters, or words identified by spacing, or two or more consecutive words or letters.

“Tidying up” texts in East Asian scripts

The safest “parts” that can be identified in East Asian scripts are the individual characters (either Chinese characters or Japanese and Korean syllables). Let’s take the first two phrases of the Daode jing to show how straightforward the basic concept of n-grams is:

道可道,非常道。名可名,非常名。無名天地之始, 有名萬物之母。

With unigrams (also called 1-grams), every individual character counts as a unit (we skip the punctuation which normally doesn’t exist in historical versions of this text). For this short passage, a list of unigrams and their frequencies looks like this:

名, 5
道, 3
可, 2
非, 2

常, 2
之, 2
無, 1
天, 1

地, 1
始, 1
有, 1
萬, 1

物, 1
母, 1

With bigrams (or 2-grams), two consecutive characters count as a unit. Consequently, the units overlap each other by one character (道可, 可道,道非 and so on). The result is the following:

非常, 2
道可, 1
可道, 1
道非, 1
常道, 1
道名, 1

名可, 1
可名, 1
名非, 1
常名, 1
名無, 1
無名, 1

名天, 1
天地, 1
地之, 1
之始, 1
始有, 1
有名, 1

名萬, 1
萬物, 1
物之, 1
之母, 1

In the case of trigrams (or 3-grams) the lists get even longer and – when taking this short paragraph as the basis – each of the trigrams (道可道, 可道非, 道非常) would appear just once. Two things become immediately clear: n-grams only make sense for longer texts and n-gram lists grow quickly in size. The corpus of the Xuxiu Siku quanshu 續修四庫全書 with 5,446 titles produces 27,387 unigrams and 13,216,542 bigrams; even a title like Buwu quanshu 卜筮全書 (which is used in the header) has 3,382 unigrams, 64,438 bigrams and 125,010 trigrams.

Long lists – and then?

Only n-gram lists of complete books or large text corpora are capable of building the basis for analyses interpreting the contents at large: do specific n-grams often appear together? What is noticeable when comparing n-gram lists of different books or corpora with each other? When putting these n-gram lists back into the context of the bibliographical information about the specific books, are there any discernable shifts over time, in the oeuvre of an author or in a certain genre? What appears where more or less often or what n-grams appear or not appear together?

Two well-established sources of n-grams are the Google-Ngram Viewer or the HathiTrust Bookworm. Both are known for displaying shifts in popularity of certain terms over time. But n-grams – maybe cleaned and sharpened using additional analytical means – can be the raw material for even more advanced explorations and hypotheses. Many of the things that n-grams can detect are also discernible via “close reading” – of course! But n-grams are ruthlessly neutral, approaching texts with purely statistical means unaffected by reading habits and preconceptions of the field. And they have one more big advantage: the original (license protected) fulltext disappears behind a statistical list of its parts and thus does not violate the license agreements CrossAsia has signed with its commercial partners.

Step by step into the future

The header image on top of this blog post shows an original print face of the Buwu quanshu 卜筮全書, the corresponding (searchable) fulltext and lists of uni-, bi- and trigrams for the whole text. Without further information, the lists themselves are of limited use. Only by comparing them with other lists and analyzing them using digital tools and routines comes their full potential to the fore. The number of our users that can do their own analyses on the basis of n-grams will surely grow within the next years, especially since many curricula in the humanities have started to include analytical methods using digital humanity tools and “distant reading”. But we at CrossAsia are also working on services – in addition to providing the n-gram lists themselves (CrossAsia N-gram Service) – that allow users to explore, analyze and visualize these n-grams. Our aim is to give a better overview and access to the growing number of texts hosted in our CrossAsia ITR (Integrated Text Repositorium).

First accomplishments

A first tool developed by CrossAsia aiming to help users find relevant materials is the CrossAsia Fulltext Search that went online April 2018 in a “guided” and an “explorative” version. The search currently covers about 130,000 titles and over 15.4 million book pages. The Fulltext Search works on the basis of a word search in combination with the metadata of the titles. This is a good start but we presume that in the long run it will not be able to fulfill the requirement to guide users to resources relevant to their research question – at least not alone. One obstacle is the divergence of metadata of the titles so that no clean filter terms to drill down search results can be offered. Another obstacle is the sheer number of returned hits which make it impossible to gain a clear overview.

N-grams and the corresponding tools can help find similarities between texts or identify the topics of a text, among other things. Thus, they provide ways to look at texts not only from the angle of their bibliographic description but make the texts “talk about themselves”. N-grams, topic modeling (i.e. an algorithm-based identification of the topics of a text), named-entity recognition (i.e. the automatic detection and mark-up of personal or geographic names etc.) are forms of such self-descriptions of a text. We at CrossAsia are currently experimenting with different forms of access, visualization and analysis of the contents stored in the CrossAsia ITR that will supplement the Fulltext Search in the near future.

CrossAsia N-Gram Service

The first three sets of n-grams (uni-, bi- and trigrams) of texts stored in the CrossAsia ITR have been uploaded and are now available to all users, CrossAsia and beyond (CrossAsia N-gramn Service). The three sets are 1. the Xuxiu Siku Quanshu續修四庫全書corpus of 5,400+ historical Chinese titles; 2. the Daoist text compendium Daozang jiyao 道藏辑要 with about 300 titles compiled in 1906; and 3. a collection of over 10,000 local gazetteer titles covering the period from the Song dynasty to Republican China and some older geographical texts.

The n-grams of these sets are generated on the book level, with the name of a book’s n-gram file matching the ID given in the metadata table of the specific set, which is also available for download. A few caveats for this first version of n-gram sets: we did not check the sets for duplicates (so the local gazetteer set might contain the same text more than once); we did not do any kind of character normalization (which would have counted the variants 回, 囬, 廻, 囘 as the same character); and we removed any kind of brackets such as【 and 】etc. that in some cases marked entries or sub-chapters in the texts. So, as with all algorithms, the ruthless neutrality of n-grams claimed above in fact depends on sensible preprocessing decisions, and no decision can be equally well-suited for all possible research questions.

We are curious!

Are these n-gram sets helpful for your research? What can we improve? Do you have suggestions for further computer based information about the texts we should offer in our service? We look forward to hearing your feedback about this new CrossAsia service!

x-asia@sbb.spk-berlin.de

Südostasien: 700 E-Books des ISEAS – Yusof Ishak Instituts. Testzugang bis 7. Juni

CrossAsia bietet den registrierten Nutzerinnen und Nutzern über den Anbieter IG Publishing einen Testzugang zu der E-Book-Sammlung des in Singapur ansässigen ISEAS – Yusof Ishak Instituts, eines der führenden Südostasien-Forschungszentren und Herausgeber von wissenschaftlichen Büchern und Zeitschriften mit dem Schwerpunkt auf Politik, Wirtschaft, soziale Fragen und gesellschaftliche Entwicklungstrends in Südostasien und dem asiatisch-pazifischen Raum. Zu den Publikationen gehört u.a. auch die Reihe „Trends in Southeast Asia“.

Die Sammlung umfasst zurzeit 742 Publikationen aus den Jahren 1980-2019. Bei der einfachen Suche können Filter gesetzt werden (Fachgebiet, Erscheinungsjahr, Sprache). Bei der erweiterten Suche können weitere Suchkriterien einbezogen werden. Zu den Treffern erscheinen Images und kurze Resümees. Die Titel sind im Volltext durchsuchbar.

Bitte testen Sie die Datenbank und senden Sie uns gerne Ihr Feedback: x-asia@sbb.spk-berlin.de

 

Testzugang zur Datenbank 中華數字書苑 · 圖片庫

Ab sofort können wir Ihnen einen Testzugang zur Datenbank 中華數字書苑 · 圖片庫 (“Apabi Picture Database”) anbieten. Die Datenbank versammelt umfangreiches Bildmaterial aus chinesischen und westlichen Publikationen aus allen Bereichen der bildenden Kunst. In der Datenbank kann in Sparten wie z.B. Porträtmalerei, Kalligraphie etc., bzw. nach Region und Entstehungszeit gebrowst werden. Die Datenbank ist zudem mittels einfacher und erweiterter Suche durchsuchbar. Für die gefundenen Kunstwerke bzw. Bilddokumente werden eine Kurzbeschreibung sowie Querverweise und weiterführende Literatur angeboten, leider werden nicht in jedem Fall Quellenangaben gemacht.

Wir möchten Sie um reges Ausprobieren der Datenbank und Ihr Feedback bitten. Schreiben Sie uns (an diese Adresse: x-asia(at)sbb.spk-berlin.de)  oder auch im Forum, sollten Sie Interesse an einer dauerhaften Lizensierung der Datenbank haben.

Der Testzugang endet am 11.06.2019

Research data survey – Newsletter 18

Survey on research data in Asia related studies

Dear Asian studies researcher,
Dear CrossAsia user,

The current newsletter is all about research data. Research data is becoming increasingly important due to the digital change in scientific research and the use of computer-based methods. This applies not only to the humanities, cultural and social sciences in general, but also to Asian studies, where comparatively little has been done so far in contrast to other disciplines. In the debate on digital research data there are three important aspects to be mentioned:

  • The principle for good scientific practice and making the research basis comprehensible.
  • Research data as citable data publications that can not only serve as a basis for the research question and the context in which they were created, but are also available for a wide variety of alternative usages.
  • The presentation of the research data that can be used with digital tools and can, for example, generate further, probably unforeseen findings by “improving the use” of the data, e.g. via visualisations and statistical methods.

In addition, the discussion about digital research data also concerns several legal, ethical and organisational aspects, such as allowing other researchers to re-use the data, obtaining e.g. study participants’ consent to the subsequent use of the data, and the protection of personal rights and other sensitive data.

The topic of research data, including how to deal with it, is on the agenda of scientific committees and research foundations. For example, the German Research Foundation (DFG) calls on researchers, when submitting their project proposal, to include a concept for how to deal with research data in the respective project.

The Specialised Information Service Asia (FID Asia) project, which receives substantial financial support from the DFG, has the aim to support the specialised community researching on Asia in managing research data and to initiate a debate on the subject within the research community. We also take into account the National Research Data Infrastructure (NFDI), which is currently being established. We would like to ask the Asian studies community to draw attention to the needs and special features of research data so that we can help communicate these, so that these will be taken into account in the development of the infrastructural and technical framework of the NFDI.

In order to initiate this dialogue, FID Asia, together with the research associations (DGA, DMG, DVCS, GJF, VfK, VSJF), would like to learn from your expertise. We would like to know what you do with your data in the research process, what experiences and opinions you have regarding re-use as well as the creation and provision of research data.

We would be very glad if you would take a moment to complete this survey. To answer the survey will take about 20 minutes. We will publish the results of the survey in the CrossAsia Blog if there is sufficient participation.

The survey is open until: 8 April 2019

Further interesting and new developments from CrossAsia (only in German)

Recently licensed databases and trials (only in German)

Thank you very much for your support.

Your FID Asia team

Foreign Broadcast Information Service (FBIS) Daily Reports, 1941-1996

Testzugang zu FBIS vom 1.3.2019 bis 31.05.2019

Eine Gruppe von Fachinformationsdiensten (FID) und die Staatsbibliothek zu Berlin mit ihrem FID Asien bemühen sich seit geraumer Zeit, die Datenbank „Foreign Broadcast Information Service (FBIS) Daily Reports, 1941-1996“ zu lizenzieren. Die Inhalte sind thematisch nicht nur für verschiedene FID relevant, sondern bieten auch für die interdisziplinäre und transregionale Forschung eine hervorragende Quellengrundlage. Aus diesem Grund strebt die Staatsbibliothek zu Berlin in Abstimmung mit mehreren FID eine Lizenz an, die sowohl die Zugänge und Nutzungsmöglichkeiten im Rahmen aller FID ermöglicht und darüber hinaus als Nationallizenz allen berechtigten Einrichtungen zur Verfügung stehen soll. Die Verhandlungen mit dem Anbieter sind vorläufig abgeschlossen, momentaner Stand ist: das Lizenzmodell einer FID- und Nationallizenz (u.a. inkl. Archivierungs- und Hostingrechten sowie Rechten für Text- und Datamining) wurde anbieterseitig akzeptiert und gleichzeitig konnten die Kosten verhandelt werden.

Uns ist wichtig, von Ihnen zu erfahren, ob unsere Annahme korrekt ist, dass FBIS nicht nur wenigen FID exklusiv zur Verfügung stehen soll, sondern es sinnvoller ist, eine inklusive Lösung für die inter- und transregionale Forschung in Deutschland anzustreben. Dazu dient dieser Testzugang, der über verschiedene Zugangswege sicherstellen soll, dass FBIS gründlich getestet und geprüft werden kann. Nutzen Sie bitte das CrossAsia-Forum oder schicken Sie uns bitte eine Nachricht mit Ihrer Rückmeldung.

Im Anschluss plant die Staatsbibliothek zu Berlin –bei positiver Rückmeldung aus der Wissenschaft – die DFG um finanzielle Unterstützung bei der Lizenzierung von FBIS zu bitten.

Zu den Inhalten:

Foreign Broadcast Information Service (FBIS) Daily Reports, 1941-1996

Die Tagesberichte des Foreign Broadcast Information Service (FBIS) waren für die US-Regierung für mehr als ein halbes Jahrhundert die Quelle für global frei zugängliche Informationen schlechthin. Aufgabe des im Jahr 1941 innerhalb des Office of the Coordinator of Information gegründeten und seit 1947 der CIA unterstellten FBIS war es, im Dienste der politischen Entscheidungsträger und Analysten abgefangene Rundfunksendungen ausländischer Regierungen, offizielle Nachrichtendienste sowie geheime Rundfunksendungen aus besetzten Gebieten weltweit zu überwachen, aufzunehmen, zu transkribieren und schließlich aus über 50 Sprachen zu übersetzen.

Die Datenbank des Anbieters Readex versammelt somit eine Fülle von Informationen aus über 100 Ländern der Welt außerhalb der USA zu den Schlüsselthemen des 20. Jh. wie Kalter Krieg, Nahost-Konflikt, Rassenbeziehungen, Apartheid, Atomwaffen etc.

Die Datenbank gliedert sich in die drei Teile:

FBIS Daily Reports 1941-1974

FBIS Daily Reports 1974-1996

  • Part 1: Middle East, Africa, Near East and South Asia (MEA, NES)
  • Part 2: Sub-Saharan Africa & South Asia (SSA, SAF, AFR, SAS)
  • Part 3: China (CHI)
  • Part 4: Asia, Pacific and East Asia (APA, EAS)
  • Part 5: Latin America (LAT, LAM)
  • Part 6: Eastern Europe (EEU)
  • Part 7: Soviet Union and Central Eurasia (SOV)
  • Part 8: Western Europe (WEU).

sowie

FBIS Daily Reports Annexes

Die Berichte werden als Images angeboten, können im Volltext durchsucht und im PDF-Format heruntergeladen werden. Hilfreich ist es, große Treffermengen durch die Suche nach Kontinenten bzw. Ländern oder Regionen, das Genre wie Text, Exzerpt, Zusammenfassung etc. oder Titel des Berichtes oder auch zeitlich einzugrenzen. Zudem kann nach bestimmten historischen Ereignissen wie z.B. Berlin Blockade gesucht werden.

Bericht: Forschungsdatenworkshop

Forschungsdaten in den asienbezogenen Wissenschaften

Bericht zum Workshop am 6. Dezember 2018, 11-15 Uhr, in der Staatsbibliothek zu Berlin

 

Teilnehmerinnen und Teilnehmer des Workshops

Matthias Arnold (Heidelberg Research Architecture, Universität Heidelberg)
Prof. Carmen Brandt (DGA, Universität Bonn)
Daniela Claus-Kim (FU Berlin)
Dr. Carolin Dunkel (Staatsbibliothek zu Berlin)
Christian Dunkel (Staatsbibliothek zu Berlin)
Dr. Tania Becker von Falkenstein (DVCS, TU Berlin)
Prof. Robert Horres (Universität Tübingen)
Matthias Kaun (Staatsbibliothek zu Berlin)
Dr. Florian Kräutli (MPI Wissenschaftsgeschichte)
Hanno Lecher (Bereichsbibliothek Ostasien, UB Heidelberg)
Prof. Daniel Leese (The Maoist Legacy, Universität Freiburg)
Jens Ludwig (Stiftung Preußischer Kulturbesitz)
Maximilian Mehner, M.A. (DMG Südasien, Universität Marburg)
Nicole Merkel (UB Heidelberg)
Dr. Florian Pölking (VfK, Universität Bochum)
Prof. Cornelia Reiher (VSJF, FU Berlin, CrossAsia Fachbeirat)
Prof. Florian C. Reiter (DMG, HU Berlin)
David Schulze (Stiftung Wissenschaft und Politik)
Prof. Yvonne Schulz Zinda (VfK, Universität Hamburg)
Dr. Miriam Seeger (Staatsbibliothek zu Berlin)
Dr. Martina Siebert (Staatsbibliothek zu Berlin)
Franziska Trempler (Staatsbibliothek zu Berlin)
Dr. Cosima Wagner (GJF, Campusbibliothek, FU Berlin)
Prof. Urs Matthias Zachmann (GJF, FU Berlin)

Protokoll: Dr. Martina Siebert

 

Der FID Asien hat zum 6. Dezember 2018 nach Berlin eingeladen, um zum Thema Forschungsdaten in den Asienwissenschaften ins Gespräch zu kommen. Eingeladen waren sowohl Repräsentanten der relevanten Fachgesellschaften (DGA, DMG, DVCS, GJF, VfK, VSJF) als auch Vertreterinnen und Vertreter von Projekten und Institutionen, in denen größere Mengen an Daten in eigenen Infrastrukturen generiert und gehostet werden. Gemeinsam ist allen Teilnehmerinnen und Teilnehmern die Aufgabe, sich um die langfristige Sicherstellung der Zugänglichkeit und die Nachhaltigkeit von Forschungsdaten kümmern zu wollen bzw. zu müssen, auch um die Anforderungen der DFG diesbezüglich zu erfüllen. Eines der Ziele war es, zu diskutieren, ob der FID Asien sich in diesem Bereich für die asienbezogenen Wissenschaften stärker als bislang engagieren soll und ob bzw. wie er sich in die verschiedenen bereits bestehenden lokalen, regionalen und / oder nationalen Aktivitäten einbringen sollte. Es sollte gemeinsam ausgelotet werden ob, und wenn ja, wie man sich im Fach gemeinsam zum Thema Forschungsdaten koordinieren und positionieren möchte.

FID Asien und Forschungsdaten

Zur Einleitung haben Matthias Kaun (Leiter der Ostasienabteilung der Staatsbibliothek zu Berlin) und Miriam Seeger (Fachreferentin für China, Hongkong, Macao und Taiwan) umrissen, in welcher Form Forschungsdaten als Aufgabe im Rahmen des FID Antrags für die zweite Förderphase (2019-2021) definiert wurden und wie geplant ist, das Aktionsfeld “Forschungsdaten” in den kommenden drei Jahren im FID Asien auszufüllen (siehe auch den Antragstext). Es sind vor allem zwei Stoßrichtungen vorgesehen: zum einen der Aufbau eines Beratungs- und Informationsangebots und kooperativen Netzwerks zwischen der Wissenschaft und Infrastrukturanbietern zu Forschungsdaten in den asienbezogenen Wissenschaften, zum anderen das Umsetzen und Testen von konkreten infrastrukturellen Anforderungen der Wissenschaft für die Generierung und Speicherung von Forschungsdaten im CrossAsia ITR (Integrierten Textrepositorium) oder einem “Zuliefersystem” (wie für Bilddaten z.B. einem iiif-Editor) anhand von exemplarischen Partnerprojekten.

Diese parallele Vorgehensweise zielt darauf ab, Kompetenzen und Zuständigkeiten effizient und nachhaltig in einem Netzwerk zu verteilen – mit der Bereitschaft des FID Asien hier koordinierend tätig zu werden – aber auch selbst Expertise zu generieren. In einigen Fällen wird es in Zukunft sinnvoll sein, selbst “host” zu sein. Dies sind vor allem solche Fälle, in denen auf der Basis von Materialien aus dem CrossAsia Portfolio oder dem des FID Asien Forschungsdaten entstehen, die – verlinkt mit den Vorlagen – in das CrossAsia ITR zurückgespeichert werden sollen.

Forschungsdaten: was und warum

Die Frage der “Definition” von Forschungsdaten hat schon viele Stellungnahmen beschäftigt. In einem kurzen Überblick über die Entwicklung des Förderrahmens für Forschungsdaten und Infrastrukturen (Stichwort “Nationale Forschungsdateninfrastruktur” NFDI; “Rat für Informationsinfrastrukturen” RfII) hat Jens Ludwig (Stabstelle “Digitale Transformation” der Stiftung Preußischer Kulturbesitz) u.a. drei Aspekte von Forschungsdaten hervorgehoben, die auch eine zeitliche Entwicklung und zunehmende Wichtigkeit von Forschungsdaten in und für die Wissenschaften nachzeichnen. Begonnen mit dem Anspruch der guten wissenschaftlichen Praxis und der damit geforderten “Nachvollziehbarkeit” der Forschungsbasis haben sich die Erwartungen an Forschungsdaten sukzessive weiterentwickelt. Im nächsten Schritt war ein Forschungsdatum eine zitierfähige Datenpublikation, die nicht nur der Forschungsfrage, in deren Kontext sie entstanden ist, als Basis dienen kann, sondern darüber hinaus für verschiedenste “Nachnutzungen” bereit stehen sollte. Heute sollen Forschungsdaten darüber hinaus idealerweise so präsentiert werden, dass sie mittels digitaler Werkzeuge, über Visualisierungen und statistische Methoden (Ngram, Co-occurrence etc.) weitere, u.U. nicht vorausgesehene Erkenntnisse durch eine “Nutzungsverbesserung” der Daten generieren können.

“Bedarfs”-Communities und Fach-Communities

Die im Rahmen der NFDI beschlossene finanzielle Förderung blickt nicht so sehr auf diese verschiedenen Nutzungsstufen von Forschungsdaten. Hier liegt der Fokus erst einmal darauf, eine vernetzte “Struktur” von Kompetenzen und keinen “Ort” in Form eines Daten-Repositoriums o.ä. aufzubauen. Durch die Förderung soll sichergestellt werden, dass die verschiedenen wissenschaftlichen Bereiche und Methoden “Sprech- und Handlungsfähigkeit” erlangen und aktive Fachcommunities ihre “Bedarfe selbst ermitteln und priorisieren.” Grenzen sollen jedoch nicht “spezialistisch oder exklusiv” sein, sondern wenn sie gezogen werden, anhand verschiedener Bedarfe bestimmt werden. Die Förderung dieser Konsortien und Infrastrukturen ist vor allem auf eine größere Effizienz des Wissenschaftssystems fokussiert. Somit werden im Rahmen der NFDI “Köpfe” bzw. ca. 30 solcher Konsortien gefördert und nicht in erster Linie die dafür notwendige “Technik.”

Auch die asienbezogenen Wissenschaften sollten das Thema Forschungsdaten, so der Vorschlag, von eben solchen Infrastrukturen und kooperativen Netzwerken her angehen und weniger über Fragen der Formate u.ä. räsonieren. Zudem ist in der Regel “speichern” kein ausreichendes Ziel, da die Daten ja gefunden werden müssen. Sie müssen zudem interoperabel genug sein, so dass sie in anderen Kontexten sinnvoll verwendet werden können. Forscher erwarten heute u.U. Werkzeuge, um die Daten zu explorieren und – mehr oder weniger – direkt am “Fundort” zu analysieren. Doch wie weit soll / muss / möchte man hier gehen?

Die Frage der Breite der asienbezogenen Wissenschaften, in der alle geistes- und sozialwissenschaftlichen Disziplinen mit ihren speziellen und vielfältigen Formen von Forschungsdaten und -methoden vertreten sind, hat die Diskussionsrunde beschäftigt. Die NFDI-Konsortien sprechen von “aktiven Fachcommunities” die ihre “Bedarfe” selbst ermitteln sollen. Ist das auf die asienbezogenen Wissenschaften in ihrer gesamten Breite anwendbar und ein Konsens vorstellbar? Haben die verschiedenen geistes- und sozialwissenschaftlichen Arbeitsmethoden gemeinsame Bedarfe? Sehr deutlich wurde hier auch davor gewarnt mit diesen NFDI-Konsortien nicht eine vermeintliche “Kleinstaatlichkeit der Regionalstudien” zu reproduzieren oder gar zu verfestigen. Sollen sich sozialwissenschaftlich arbeitende Projekte deshalb mit ihren Forschungsdaten eher an sozialwissenschaftliche Forschungsdateninfrastrukturen wenden? Spielt die “Nicht-Lateinschriftlichkeit” hier eine Rolle und ist sie ein taugliches verbindendes Element? Sollte es ein Asien-NFDI-Konsortium geben, um sicher zu stellen, dass regionalspezifische Anforderungen nicht vergessen werden? Wer sind hier die besten Partner, um eine Forschungsdaten-Infrastruktur für die asienbezogenen (oder regionalspezifischen) Wissenschaften aufzubauen? Sind diese vielleicht nicht in Europa zu finden, sondern in Asien bzw. den entsprechenden Ländern selbst?

Kann es “eine” Datenbank geben, in die alle Projekte ihre Daten speichern und damit keine Projektzeit für den Aufbau eigener Datenbanken verbrauchen (und dann Zeit dafür brauchen, diese Daten zu überführen etc.)? D.h. kann man einen allen gemeinsamen “Bedarf” abstrahieren und diesen in eine datentechnische Struktur überführen? Interessant war in diesem Zusammenhang der Bericht aus dem MPIWG, wo anhand eines Beispielprojekts die Tauglichkeit des CIDOC Conceptual Reference Models (CIDOC-CRM) getestet wird, Forschungsdaten in Form eines “knowledge graph” abzubilden.

Im Rahmen der Vorstellung der einzelnen Fachgesellschaften und Infrastrukturvertreter wurden eine Reihe weitere Bedarfe und Bedenken genannt: Verbreitung und Nachnutzung von Forschungsdaten können ethische Fragen aufwerfen, Persönlichkeitsrechte müssen berücksichtigt werden, und auch der Kopierschutz muss beachtet werden. Eine Infrastruktur muss in der Lage sein, all diese Anforderungen zu erfüllen.

Wer ist bzw. sollte für was zuständig sein? Welche Aktivitäten gibt es bereits?

Neben der Frage, ob eine Methode oder der regionale Bezug die sinnvollere Abgrenzung zu anderen NFDI-Konsortien bilden, stand auch die Frage im Raum, wie die Universitätsbibliotheken sich hier in Zukunft positionieren wollen. Für das wissenschaftliche Profil einer Universität ist es wichtig, in ihrem Kontext entstandene Daten auch selbst zu präsentieren (vgl. z.B. Repositorien für Doktorarbeiten). Für die Forscher selbst ist sicherlich der fachliche Zugang relevanter (und in der Regel auch vertrauter). Können die Fachgesellschaften hier Rollen übernehmen bzw. sich Aufgaben innerhalb eines Netzwerkes vorstellen? Wie ist die aktuelle Struktur in den jeweiligen Gesellschaften und gibt es bereits eine Position zu Forschungsdaten? Wie sehen Infrastruktureinrichtungen ihre aktuellen oder geplanten Aktivitäten in dieser Richtung?

Im Rahmen der Kurzberichte der Vertreter der Fachgesellschaften und Infrastruktur-Einrichtungen bzw. Projekte, die eine Infrastruktur aufbauen wollen oder aufgebaut haben, sind einige wichtige Dinge zur Sprache gekommen. Die beiden überregional wirkenden Asien-Fachgesellschaften, die Deutsche Morgenländische Gesellschaft (DMG) und die Deutschen Gesellschaft für Asienkunde e. V. (DGA), haben hier bislang noch keine strukturierte Aktivität unternommen oder Leitlinien zu diesem Thema erstellt. Die Ziele der DMG sind insbesondere die Förderung der Wissenschaften und die Publikation ihrer Ergebnisse, die sie mit ihrem Organ der ZDMG ausreichend repräsentiert sieht. Da ihre Mitglieder vor allem philologisch arbeiten, liegt ein Interessenfokus der DMG auf dem adäquaten Zugang zu Quellen. Die DMG greift regional zudem noch weiter aus als “asienbezogen” und vertritt auch Forschung zu Afrika. Die sinologische Fachgesellschaft, die Deutsche Vereinigung für Chinastudien (DVCS), hat in ähnlicher Weise bislang auch noch keine strukturierte Aktivität unternommen. Die 230-250 Mitglieder des DVCS stammen vorwiegend aus dem Mittelbau. Zum aktuellen Zeitpunkt gibt es keine top-down Beratung innerhalb der DVCS im Hinblick auf Forschungsdaten. Die Fachgesellschaft der Koreanistik, die Vereinigung für Koreaforschung e.V. (VfK), hat ebenfalls noch keine Position zum Thema entwickelt, möchte sich aber in die weitere Diskussion einbringen und Ziele mitgestalten.

In beiden vertretenen japanologischen Fachgesellschaften, der Gesellschaft für Japanforschung (GJF) und der Vereinigung für Sozialwissenschaftliche Japanforschung (VSJF), gibt es Mitglieder, die bereits intensiv mit Big Data arbeiten und eine AG der GJF, die sich mit dem Thema Umgang mit Forschungsdaten beschäftigen wird, wurde auf dem Japanologentag (2018) ins Leben gerufen. Ziel der AG ist es, Aktivitäten besser zu vernetzen und ein Positionspapier zu Forschungsdaten zu erstellen.

Im Juli 2018 fand organisiert durch das vom BMBF geförderte Forschungsprojekt “FDM_OAS-Orient” ein überregionaler Workshop zum Thema “Nicht-lateinische Schriften in multilingualen Umgebungen: Forschungsdaten und Digital Humanities in den Regionalstudien” an der Campusbibliothek der FU Berlin statt, an dem u.a. Vertreterinnen und Vertreter beider Fachgesellschaften sowie des FID Asien und FID Nahost-, Nordafrika- und Islamstudien teilgenommen haben (siehe den Workshop-Bericht im DHd Blog).

Die anwesenden Infrastrukturvertreter konnten konkreter von bereits bestehenden Strukturen berichten und haben weitere Ziele oder auch spezifische Problematiken thematisiert. Die “Heidelberg Research Infrastructure” sammelt seit mehreren Jahren bereits Erfahrungen darin, verschiedenste Quellenformate zu speichern und so aufzubereiten, dass damit wissenschaftliche Daten erzeugt werden können. Sie versucht dabei, Grundprinzipien wie Nachhaltigkeit und Anschlussfähigkeit an größere Netzwerke und die strikte Trennung von Metadaten und Daten zu wahren. Forschungsarbeiten aus dem Bereich der Sinologie sind hier erstes Testgebiet. Wenn man noch tiefer in Daten-Projekte hineinschaut, werden weitere Aspekte deutlich. Im Freiburger Projekt zur Chinesischen Kulturrevolution “The Maoist Legacy” ist eine Datenbank mit Materialien der Kulturrevolution entstanden, die auch anderen Forschern zur Verfügung steht. Da es sich jedoch um z.T. sensible und auch Persönlichkeitsrechte behaftete Daten handelt, mussten mehrere Zugrifflevels eingerichtet werden. Bereits die Speicherung dieser Daten kann Rechtsfragen aufwerfen, die nicht jede Institution bereit oder auch fähig ist zu klären. Die Bibliothek des MPIWG berichtete aus vor allem zwei Bereichen, in denen sie aktuell in Bezug auf Forschungsdaten aktiv ist. Zum einen, das oben erwähnte “übersetzen” von Datenbeziehungen mittels einer Ontologie, zum anderen die Überlegungen wie mit digitalen, analytischen Werkzeugen auf lizenzgeschützten Materialien gearbeitet werden kann, ohne die entsprechenden Lizenzen zu verletzen. Der zunehmenden Bedeutung von digitalen Datenanalysen auch in den Geisteswissenschaften trägt die Universität Tübingen Rechnung, indem sie einen Masterstudiengang anbietet, der Digital Humanities und Regionalstudien vereint. Auch wenn viel über digitale Daten und DH gesprochen wird, so ist doch weitere Lobby-Arbeit notwendig, damit Ergebnisse und Methoden, die von Forschern entwickelt werden – auch in Fächern wie der Japanologie oder Sinologie – als wissenschaftliche Leistung anerkannt und karrieretechnisch als relevant erachtet werden. Infrastrukturen können (und sollten) also auch ein Qualitätssigel sein und Daten darin somit nicht als “weggeschenkt” gelten, sondern umgekehrt die Forscher oder das Projekt “prominenter” machen.

Die FU Berlin brachte zwei weitere wichtige Aspekte bezüglich des digitalen Wandels ein: Erstens wird laut Deutschem Bibliotheksverband (dbv) ein Trend deutlich, dass wissenschaftliche Bibliotheken zu einer passgenauen Informations- und Medienversorgung zunehmend auch zeitgemäße Dienste und Werkzeuge zur Unterstützung des Life-Cycle in Forschung, Lehre und Studium entwickeln und anbieten (siehe: Wissenschaftliche Bibliotheken 2025, hrsg. vom DBV, Jan. 2018).

Zweitens ist es meistens nicht sinnvoll, als Institution den Weg des “digitalen Wandels” alleine zu bestreiten, auch nicht wenn man die Größe einer Universität hat. Kooperation wird immer wichtiger. In einigen Institutionen fusionieren Datenzentren bzw. Anbieter für digitale Medien und Technologien in Forschung und Lehre mit den Bibliotheken (so in Planung an der FU Berlin) und die drei Berliner Universitäten – HU, FU und TU – wollen gemeinsam mit der Charité Universitätsmedizin einen Verbundantrag im Rahmen der Exzellenzinitiative einreichen (Stand Dez. 2018), in der der digitale Wandel eine zentrale Rolle spielen soll.

Festzuhalten ist, dass der Grad der Bereitschaft zu und die Ausgestaltung von neuen bibliothekarischen Dienstleistungen in den Bereichen Forschungsdatenmanagement und Digital Humanities allgemein sowie für die Regionalwissenschaften im Besonderen stark standortabhängig ist und ein großes Gefälle von Hochschule zu Hochschule aufweist.

Gibt es einen nächsten gemeinsamen Schritt und wie könnte der aussehen?

Voraussichtlich im ersten Quartal 2019 wird die Ausschreibung für NFDI-Konsortien verkündet. Kann man ein solches Angebot der NFDI z.B. nutzen, um gemeinsam auszuloten, wie ein kooperatives Vorgehen in diesen neuen Feldern gestaltet werden könnte? In diesem Zuge müsste auch definiert werden, wie Aktivitäten im Rahmen der zweiten Runde des FID und solche im Rahmen der NFDI verzahnt werden könnten.

Brauchen die asienbezogenen Wissenschaften etwas Vergleichbares wie den “Rat für Sozial- und Wirtschaftsdaten” (RatSWD), einen “Asien-Rat”, der von politischem Interesse für die Sichtbarkeit der Regionalstudienfächer und ihrer Anforderungen an Forschungsinfrastrukturen ist? Könnte dieser Rat in nationalen Kontexten agieren und die asienbezogene Forschung dort sprechfähig machen? Von welchem nationalen Interesse wäre so ein “Asien-Rat” bzw. was wären seine Aufgaben?

Bei allen ausformulierten Anforderungen zu Forschungsdaten und Infrastrukturen muss man bedenken, dass zukünftige Forschungsanträge und -ergebnisse daran gemessen werden.

Um das breitere Interesse und die Anforderungen der Forschenden, Lehrenden und Studierenden am Thema Forschungsdaten und Forschungsdateninfrastruktur zu ermitteln, soll eine Umfrage erstellt und über relevante Mailing-Listen, den CrossAsia Newsletter und u.U. auch die Fachgesellschaften verbreitet werden. Die Fachverbände werden gebeten, sich ebenfalls zur Frage zu positionieren (u.U. auch anhand des Fragebogens). Sie sollen zudem Position dazu beziehen, ob und wie sie sich in den weiteren Prozess einbringen wollen.

CrossAsia übernimmt für den Entwurf des Fragebogens die Federführung. Der Entwurf wird im ersten  Quartal 2019 an die Teilnehmerinnen und Teilnehmer der Runde mit Bitte um Kommentierung geschickt.

Zum Abschluss hier noch einige Kommentare, Vorschläge und mögliche Ziele, die im Rahmen der Diskussionen bezüglich Forschungsdaten, den Bedürfnissen der Wissenschaftlerinnen und Wissenschaftler genannt wurden:

  • Position zu Formaten und Standards sollten gemeinsam entwickelt werden.
  • Fragen und Klärungsansätze zu rechtlichen und ethischen Probleme mit Daten sollten zusammengetragen und allen Daten-Forschern klar vor Augen geführt werden.
  • Kooperationen sollten das Ziel haben, aus den verschiedenen konkreten Beispielen Daten-Abstraktionen zu entwickeln, die schließlich das regionalspezifische in den Hintergrund stellen.
  • Asien auch in diesen Kontexten beizubehalten ist als Teil der Lobbyarbeit für die eigene wissenschaftliche Disziplin wichtig.
  • Auch wenn Fachgesellschaften z.T. ihre Bedürfnisse bereits identifiziert haben, mangelt es ihnen an passender Infrastruktur, die sie oft nicht aus eigener Kraft aufbauen können.
  • Solche Aufgaben sollten in einer Governance-Struktur verwirklicht werden, die in der Lage ist, Partikularinteressen nicht zu unterdrücken.
  • Es sollten keine “Daten-Container” gebaut werden; Ziel sollte vielmehr sein, in Richtung Open Data, Open Science zu gehen.