Logo of the Europeana Tech Conference 2023

Vom lesenden Menschen zu lernenden Maschinen – über die Möglichkeiten von Gaia-x für das kulturelle Erbe

Dieser Beitrag ist eine Verschriftlichung des gleichnamigen Vortrags über die ersten Erfahrungen, Daten aus dem ITR von CrossAsia in Gaia-X zu publizieren und auf diesem Wege der Forschung und vor allem den Digital Huminaties zur Verfügung zu stellen. Der Vortrag wurde am 11. Oktober 2023 im Rahmen der Europeana Tech Conference 2023 in Den Haag gehalten.

Ausgangspunkt der Reise Richtung Gaia-X stellt die CrossAsia Webseite dar. CrossAsia ist das von der Staatsbibliothek zu Berlin verantwortete Portal, in dem alle Services des von der DFG geförderten Fachinformationsdienstes Asien und weiteren Angebote gebündelt werden. Der Fachinformationsdienst richtet sich an Wissenschaftlerinnen und Wissenschaftler aus den asienbezogenen Geisteswissenschaften und hat seinen Schwerpunkt auf Ost-, Zentral- und Südostasien. Die Staatsbibliothek sammelt nicht nur Materialien aus und über diese asiatischen Regionen, sondern hat sich bereits vor mehr als 20 Jahren für eine e-preferred-Strategie entschieden. Wann immer ein elektronisches Medium wie Zeitschrift oder Buch dauerhaft lizenziert werden kann, wird kein gedrucktes Exemplar erworben, sondern das elektronische Dokument lizenziert. Hierbei versucht die Staatsbibliothek neben den überregionalen oder nationalen Zugangsrechten auch die Rechte für die lokale Archivierung der Dokumente inkl. Text- und Datamining-Rechten nach Verhandlungen zu erlangen. Neben den Einträgen in den Nachweissystemen kommt der Verwaltung der lizenzierten Daten wie Bilddaten, Volltexten, Film- und Tondokumenten eine besondere Bedeutung zu. Ein erster Dienst, der aus der Verwaltung der digitalen Objekte entwickelt wurde, ist die CrossAsia-Volltextsuche. Diese basiert neben eigenen digitalisierten und mit Volltexten ausgestatteten Objekten auf lizenzierten Objekten von Verlagen und anderen Anbietern. Hierbei handelt es sich hauptsächlich um Text- und Bildmaterialien aus historischen Quellen, von Büchern über wissenschaftliche Artikel bis hin zu aktuellen Zeitungen. Bislang sind insbesondere Materialien in Englisch und Chinesisch repräsentiert; das Angebot wird auch in Hinblick auf die anderen Sprachen kontinuierlich ausgebaut.

All diese Inhalte werden im sogenannten Integrierten Textrepository (ITR) archiviert. Technische Grundlage hier ist eine Infrastruktur basierend auf der Fedora Repository Software. Gleichzeitig stellen wir die Durchsuchbarkeit der Inhalte über einen Solr-Index dar. Dieser enthält momentan fast 70 Millionen Dokumente und ist weltweit eine einmalige Sammlung für lizenzfreie und lizenzbehaftete digitale Ressourcen in den Asienwissenschaften.

Aus diesem Grunde haben viele Wissenschaftlerinnen und Wissenschaftler ein großes Interesse, in diesen Inhalten Muster zu entdecken, neue Zusammenhänge zu erkennen und neue Erkenntnisse mit eigenen Algorithmen und Programmen durch Text- und Datamining zu gewinnen. Der FID Asien besitzt zwar das Recht, seine Nutzerinnen und Nutzern solche Analysen direkt durchführen zu lassen. Hierbei stellt sich jedoch die Frage, wie Code und Inhalte zusammenkommen?

Eine naheliegende Idee wäre ein zusätzlicher Service, der es Wissenschaftlerinnen und Wissenschaftlern ermöglicht, ganze Sammlungen aus dem ITR herunterzuladen. Allerdings ist die Datenmenge im ITR sehr groß, so dass unter Umständen mehrere Terrabyte von Daten heruntergeladen werden müssten. Dies kann je nach Netzwerkgeschwindigkeit Wochen dauern. Zudem wird die weitere Verbreitung der Daten mit dem Download unkontrollierbar, was für alle lizenzierten Inhalte äußerst kritisch ist und zu Vertragsverletzungen führen kann. Dies wiederum schafft Probleme mit Verlagen, mit denen die Staatsbibliothek Verträge geschlossen hat. Schließlich basiert ein Lizenzvertrag auf gegenseitigem Vertrauen, weshalb eine strengere Zugriffskontrolle auf die Daten notwendig ist.

Eine andere Idee ist, dass Wissenschaftlerinnen und Wissenschaftler in die Staatsbibliothek kommen und sich dort mit ihrem eigenen Laptop über die IT-Infrastruktur der SBB direkt mit dem ITR verbinden und dann die entsprechenden Analysen durchführen. Dies ist aus Zeit- und Kostengründen nicht immer realisierbar, vor allem wenn eine ferne Anreise notwendig ist. Und auch in diesem Fall muss kontrolliert werden, ob Daten in zu großem Umfang aus dem ITR abgezogen werden und die Staatsbibliothek damit die Kontrolle über ihre in den Lizenzverträgen eingegangenen Verpflichtungen verliert.

Ein weiteres Problem stellen die erforderlichen Computer-Ressourcen dar, die z.B. für das Training im Rahmen des maschinellen Lernens benötigt werden und die ein einfacher Laptop nicht bieten kann. Daher kann auch die Verfügbarkeit der notwendigen Rechenleistung ein Problem sein.

Ausgehend von dieser Problematik begann unsere Suche nach einer Möglichkeit, unsere Daten und unser ITR für Text- und Datamining zu öffnen. Dabei stießen wir auf Gaia-X. Gaia-X ist eine europäische Initiative für eine unabhängige Cloud-Infrastruktur, wobei es sich eher um ein Framework als um eine weitere Cloud-Plattform wie Amazon Webservices oder Google handelt, die sich in verschiedene Domänen aufgliedert.

Die wichtigsten Eigenschaften des Gaia-X Frameworks sind im Folgenden aufgeführt:

  • Volle Souveränität über die eigenen Daten. Die Kontrolle über die Daten bleibt stets beim Eigentümer.
  • Dezentralität, d.h., es gibt keinen zentralen Punkt im Netzwerk, der für das Funktionieren notwendig ist.
  • Ein Regelwerk zur Schaffung von Vertrauen und spezielle Services (verfügbar als Open Source), die von allen Netzwerkteilnehmern genutzt werden können, um zu überprüfen, ob andere auch die Regeln einhalten. Gaia-X ist also ein föderales System mit implizitem Vertrauen.
  • Gaia-X ist interoperabel, da es keine vorgeschriebene technische Infrastruktur für die Teilnahme gibt.
  • Mit Gaia-X ist es möglich, fachspezifische Dataspaces zu erstellen und diese miteinander zu verknüpfen.

Abbildung 1 zeigt einen Überblick über die Gaia-X Domäne, die wir uns näher angeschaut haben. Links ist das Trust Framework mit den verbundenen föderierten Diensten dargestellt, die dazu genutzt werden können, um die Compliance von allen Teilnehmenden zu überprüfen. Rechts oben finden sich die Portale, die den Einstiegspunkt in die fachspezifischen Dataspaces in Gaia-X darstellen.

 

 

Alles, was in einem Portal veröffentlicht wird, wird im föderierten Katalog verzeichnet, der in der Abbildung neben den Portalen zu sehen ist. Dieser Katalog ist unabhängig von den Portalen und enthält Informationen über alle Assets in Gaia-X. Nutzerinnen und Nutzer besuchen ein Portal und sehen die Inhalte abhängig vom Portal in einer fachspezifischen Ansicht des föderierten Katalogs. Die Inhalte sind jedoch nicht an das Portal gebunden und können jederzeit und überall im Gaia-X-Netzwerk genutzt werden. Auch deswegen ist Gaia-X als dezentral zu bezeichnen.

Um herauszufinden, wie uns diese Eigenschaften unterstützen können, um Text- und Datamining im ITR zu ermöglichen, haben wir ein Proof-of-Concept gestartet. Das Ergebnis war ein eigenes CrossAsia Portal in Gaia-X. Inhalte eines solchen Portals sind sogenannte Service-Offerings in Gaia-X. Dies kann entweder ein Dataset oder ein Algorithmus sein. Für ein Dataset besteht die Möglichkeit des gesicherten Downloads, was bedeutet, dass die URL des Datensatzes niemals sichtbar wird. Gleichzeitig kann zum Beispiel die gesamte Anzahl an Downloads festgelegt werden.

Eine weitere Möglichkeit besteht darin, Compute-To-Data für ein Dataset zu aktivieren. Dies ermöglicht es Nutzerinnen und Nutzern, die Daten mit einem veröffentlichten Algorithmus zu verknüpfen und einen Compute Job zu starten. Die Nutzerinnen und Nutzer erhalten nur die Ergebnisse ihres Compute-Jobs, nicht die Daten selbst. Auf diese Weise können wir die Daten aus unserem ITR für Text- und Datamining anbieten, ohne dass jemand Daten herunterladen oder verschieben muss.

Dies funktioniert, weil hier das Ocean Protocol die technische Grundlage von Gaia-X darstellt. Abbildung 2 zeigt einen vereinfachten technischen Ablauf für Compute-To-Data. Die Schritte sind relativ einfach: zunächst suchen die Nutzerinnen und Nutzer die Daten und den Algorithmus aus dem föderierten Katalog (vorausgesetzt, es bestehen entsprechende Zugriffsrechte). Dann werden Daten und Algorithmus in einen isolierten Execution Pod geladen, der innerhalb einer Kubernetes-Umgebung startet. Einzig die Ergebnisse des Algorithmus und Logfiles zur Ausführung werden dann dem Nutzer oder der Nutzerin zur Verfügung gestellt. Am Ende wird der Execution Pod gelöscht.

 

 

Das Veröffentlichen von Datasets und Algorithmen und deren Verbindung hat wie in der Theorie beschrieben funktioniert. Daher kann der Proof-of-Concept als Erfolg angesehen werden: eine Bibliothek kann Datasets in Gaia-X veröffentlichen, Wissenschaftlerinnen und Wissenschaftler können einen Algorithmus veröffentlichen und beides über das Portal kombinieren. Die gewünschten Ergebnisse werden zur Verfügung gestellt, ohne das die Sicherheit der Daten gefährdet wird – keine Downloads sind notwendig und alle Daten bleiben bei der Institution, die sie veröffentlicht hat.

Mit der Ersteinrichtung des Portals muss jedoch festgestellt werden, dass noch einige Verbesserungen notwendig sind, bevor die Lösung in größerem Umfang gut genutzt werden kann. Wer das Portal ausprobieren möchte, wird feststellen, dass der Einstieg in das Gaia-X Netzwerk nicht einfach ist und einiger Erklärungen bedarf. Da es sich bei der Datenbank des föderierten Katalogs um einen Distributed Ledger handelt, wird ein Wallet zur Identifizierung und Rechtegewährung benötigt. Daher muss im Browser ein Wallet (z.B. MetaMask) installiert und konfiguriert werden. Nach dem Einstieg ins Netzwerk ist jedoch die Veröffentlichung von Datasets und Algorithmen recht einfach, wenn auch die Verwendung von Daten bzw. das Starten eines Compute-Jobs eine Reihe von Bestätigungen bestimmter Transaktionen auf dem Ledger erfordert.

Zusammenfassend lässt sich feststellen, dass Gaia-X eine interessante neue Möglichkeit für GLAM-Institutionen ist, ihre schützenswürdigen Daten anzubieten. Gaia-X ist derzeit noch stark von wirtschaftlichen und industriellen Interessen mit einer starken kommerziellen Ausrichtung getrieben. Dennoch haben wir uns entschieden, vor allem aufgrund der guten Ergebnisse, unsere Aktivitäten in Gaia-X fortzuführen und den Proof-of-Concept zu einer Pilotanwendung weiterzuentwickeln. Hier arbeiten wir an ersten Verbesserungen der User-Experience und werden in Kürze weitere Use-Cases mit wissenschaftlichem Fokus durchführen. Wir engagieren uns gleichzeitig in der Gaia-X und Ocean-Protocol-Community, um auch nicht-kommerzielle Anwendungsfälle in Gaia-X besser zu ermöglichen und Gaia-X zu einem wissenschaftlichen Ökosystem für fachspezifische Dataspaces weiterzuentwickeln.

Basierend auf unseren Erfahrungen aus dem Proof-of-Concept möchten wir Einrichtungen des Kulturerbes vorschlagen, darüber nachzudenken, wie Gaia-X und das Ocean Protocol sie dabei unterstützen können ein Fullstack-Dataprovider zu werden. Und eben nicht nur ein Dataprovider für Metadaten, um Kulturartefakte zu finden, nicht nur ein Dataprovider für Texte zum Lesen, Audios zum Hören, Bilder oder Videos zum Ansehen oder Forschungsdaten zum Analysieren. Sondern vielmehr ein Dataprovider, der solche Kulturdaten in hoher Qualität auch für Algorithmen und Netzwerke für maschinelles Lernen anbietet und dabei – sofern notwendig – die Hoheit über die Daten behält.

Derzeit werden Large Language Models stark von großen Unternehmen wie OpenAI, Google oder Facebook kontrolliert. Wenn jedoch jeder die Möglichkeit erhält, seine eigenen Modelle mit Daten von GLAM- Institutionen zu trainieren, kann das maschinelle Lernen demokratisiert werden. Da jeder Zugang zu den Daten hat, die er oder sie für seine Algorithmen benötigt – entweder zu freien Daten oder bei lizenzierten Daten dort, wo ein entsprechendes Zugriffs- und Lizenzrecht besteht. Neue Ansätze wie Federated Learning können dabei helfen und den Prozess sogar noch stark vereinfachen. Unser Ziel ist es, das Training künstlicher Intelligenz zu verbessern, indem wir unsere digitalen Lesesäle für die Algorithmen öffnen und nicht nur die neuen Möglichkeiten der künstlichen Intelligenz selbst zu nutzen.

Referenzen

Wenn Sie interessiert sind, die Lösung zu testen und Unterstützung benötigen, wenden Sie sich bitte an x-asia(at)sbb.spk-berlin.de

CrossAsia

DH Infrastruktur in Japan

Beim 18. deutschsprachigen Japanologentag Ende August 2022 online organisiert von der Japanologie Düsseldorf fand eine Session mit Vertreter:innen von drei Infrastruktureinrichtungen statt, die Services, Datensätze, Tools sowie Informationsplattformen rund um Forschung und Lehre in den Digital Humanities (kurz DH) in Japan anbieten. Zunächst präsentierten die Gäste in parallelen Breakout Rooms die Aktivitäten ihrer Einrichtungen, bevor sich im Anschluss alle Teilnehmenden zu einer gemeinsamen Diskussionsrunde versammelten. Die Themen waren u.a. Fortbildung im Umgang mit DH oder Möglichkeiten der zukünftigen Zusammenarbeit. Im Folgenden findet sich ein kurzer Überblick über die Inhalte der Beiträge sowie Links zu den PPTs. Die Vortragenden haben zugestimmt, dass ihre PPTs unter der Lizenz CC-BY nachgenutzt werden dürfen.

TOKUHARA Naoko vom NDL Lab der National Diet Library (NDL), Tokyo, stellte die Vision ihrer Bibliothek für die Jahre 2021-2025 vor, in deren Mittelpunkt der digitale Wandel („digital shift“) steht, der die gesamte Gesellschaft und ihre Kommunikationswege erfasst hat. Um dieser Veränderung gerecht zu werden, hat sich die NDL u.a. ein umfassendes Digitalisierungsprogramm ihrer Bestände vorgenommen, welches moderne Druckwerke, Zeitschriften, vormoderne Titel, Amtsdruckschriften, Zeitungen und Dissertationen gleichermaßen umfasst. Auch wenn Teile dieser Digitalisate nur in den Räumen der NDL oder nur für registrierte Einrichtungen des Digitized Contents Transmission Service zugänglich sind, stellt diese Intensivierung der Digitalisierungsmaßnahmen einen erheblichen Schritt in Richtung weltweite Zugänglichkeit zu den Sammlungen der NDL dar. Das so genannte „Research and Development for Next-Generation Systems Office (R&D Office)“, welches Frau Tokuhara leitet, entwickelt Services und Tools, um den Herausforderungen der Digitalisierung zu begegnen. Zu den Angeboten (s.a. den GitHub Account der NDL) zählen:

  • massenhaft erstellte Textdaten unter Verwendung eines kommerziellen OCR-Programms (inkl. Trainingsdatensets)
  • ein selbst entwickeltes OCR-Programm für die Texterkennung, das so genannte „NDLOCR“ (inkl. Trainingsdatensets)
  • eine Volltextsuche in den digitalen Sammlungen der NDL
  • die Entwicklung eines NDL Ngram Viewers

Nähere Informationen zu den Aktivitäten finden Sie auf den verlinkten Webseiten oder in dieser PPT.

 

KITAMOTO Asanobu leitet das ROIS-DS Center for Open Data in the Humanities (CODH), Tokyo. Das CODH bietet eine ganze Reihe von offenen Datensets sowie Tools für die DH an. Dabei werden nicht nur Texte, sondern auch der Umgang mit Bilddaten und Karten berücksichtigt. Das Angebot ist breit gefächert und umfasst u.a.:

  • Datensets für Edo-zeitliche Kochrezepte, Landkarten, Siegel und vormoderne Texte
  • Trainingsdaten für die OCR-Erschließung von Zeitschriften wie Kokumin no tomo, Meiroku Zasshi (Kindai OCR)
  • Trainingsdatenset für Kursivschrift (kuzushiji)
  • Miwo App, welche das Lesen von Texten in kuzushiji unterstützt
  • Open Software, wie die IIIF Curation Platform, welche die Zusammenstellung eigener Bilddatensammlungen ermöglicht
  • Beispielprojekte, wie Edomi, welches Text- und Bildinformationen mit Bezug zu Edo (heute: Tokyo) sowohl thematisch als auch geographisch aufbereitet

Nähere Informationen zu den Aktivitäten finden Sie auf den verlinkten Webseiten oder in dieser PPT.

 

NAGASAKI Kiyonori ist Senior Fellow am International Institute for Digital Humanities, Tokyo, und einer der national wie international engagiertesten “Digital Humanists” in Japan. In seiner Präsentation zu “Access to Digital Tools, Resources, and Methods for Japanese Studies” legte er den Fokus auf Informationsmöglichkeiten zu DH in Japan. Seine PPT bietet einen konzisen Überblick samt Links zu wichtigen Akteur:innen, Webseiten und eine Leseliste DH-bezogener Fachliteratur. Herr Nagasaki verwies u.a. auf das japanische Fachmagazin “Digital Humanities Monthly”, den von ihm geführten Blog und Kalender zu DH-bezogenen Aktivitäten in Japan sowie das Netzwerk DH Japan. Des Weiteren setzt er sich für die Verbreitung des TEI-Standards in Japan ein. Zu diesem Zweck hat Herr Nagasaki mit weiteren Kollegen die Arbeitsgruppe TEI-C東アジア/日本語分科会 gegründet. In den regelmäßigen online Treffen der Arbeitsgruppe kann man sich über die konkrete Anwendung des TEI-Standard für japanischen Texte austauschen.

Nähere Informationen zu den Aktivitäten finden Sie auf den verlinkten Webseiten oder in dieser PPT.

CrossAsia

Japanologentag 2022

Vom 24.-26.08.2022 wird der 18. Deutschsprachige Japanologentag durch das Institut für Modernes Japan an der Heinrich-Heine-Universität Düsseldorf als Online-Veranstaltung ausgerichtet. Zum Zeitpunkt der Veröffentlichung dieses Beitrags ist die Registrierung noch geöffnet. Die Teilnahme ist kostenlos, die Anzahl der Teilnehmenden ist jedoch begrenzt.

In der Sektion Informations- und Ressourcenwissenschaften, die von Ursula Flache vom CrossAsia Team der Staatsbibliothek zu Berlin-Preußischer Kulturbesitz (SBB-PK) gemeinsam mit Cosima Wagner von der Universitätsbibliothek der FU Berlin organisiert wird, bietet sich ein breit gefächertes Programm rund um digitale Angebote, Tools, Open Access und informatorische Infrastruktureinrichtungen für die japanbezogene Forschung.

In der gemeinsam mit der Sektion Medien durchgeführten Session zu Open Scholarship und Japanologie (InfoRess01,) soll die Diskussion angestoßen werden, wie man vermehrt eine Kultur der „Offenheit” im Fach etablieren kann. Drei kurze Inputreferate dazu liefern Elisabeth Scherer (Heinrich-Heine-Universität Düsseldorf) mit ihrem Beitrag zu Open Educational Resources, Martin Roth (Ritsumeikan Universität) und Magnus Pfeffer (Hochschule der Medien, Stuttgart) mit der Vorstellung ihres DFG-geförderten Visual Media Graph Projekts sowie Ursula Flache (SBB-PK) mit einer Präsentation über das CrossAsia Open Access Repository.

Informationskompetenzschulungen spielen eine bedeutende Rolle in der Ausbildung kommender Generationen von Forscher:innen. Die betreffende Session (InfoRess02) richtet sich deshalb nicht nur an Bibliothekar:innen (teaching librarian), sondern ebenso an alle Lehrenden und Tutor:innen, die in diesem Bereich tätig sind. Zunächst wird Theresia Peucker (Freie Universität Berlin, Campusbibliothek) anhand eines Praxisbeispiels Potenziale der universitären Vermittlung von Informationskompetenz aufzeigen. Anschließend sollen in der gemeinsamen Diskussion Best Practices, Herausforderungen und mögliche Lösungen besprochen werden. Neben den Panelist:innen Ursula Flache (SBB-PK), Nobutake Kamiya (Universität Zürich, OAS Bibliothek), Theresia Peucker (FU Berlin), Cosima Wagner (FU Berlin) sowie Chantal Weber (Universität zu Köln) sind alle Anwesenden eingeladen, sich mit ihren eigenen Erfahrungen und Verbesserungsideen einzubringen.

In einer weiteren Session, die gemeinsam mit der Sektion Medien organisiert wird, liegt der Fokus auf dem Thema „Daten“ (InfoRess03). Zoltan Kacsuk (Hochschule der Medien, Stuttgart) und Martin Roth (Ritsumeikan Universität) beleuchten datenbasierte Repräsentationen als Zugänge zur visuellen Medienkultur Japans. Nobutake Kamiya (Universität Zürich) berichtet von seiner Analyse japanischsprachiger Twitter-Daten mit Tools wie Elasticsearch, Kibana und Kuromoji. Martina Siebert und Christian Dunkel (SBB-PK) stellen im Zusammenhang mit dem CrossAsia Integrated Text Repository (ITR) Tools zur Recherche, Analyse und Mehrwerterzeugung insbesondere im Hinblick auf die CrossAsia IIIF-Plattform vor.

Dem Thema Forschungsdatenmanagement ist eine Diskussionsrunde (InfoRess05, in japanischer Sprache) gewidmet, die den Austausch mit Anbietenden von digitalen Ressourcen bzw. Infrastrukturen in Japan befördern soll. Eingeladen sind dazu Nagasaki Kiyonori (International Institute for Digital Humanities, Tokyo), Kitamoto Asanobu (National Institute of Informatics / Center for Open Data in the Humanities, Tokyo) und Tokuhara Naoko (National Diet Library, Tokyo), die nicht nur mit den Panelist:innen Nobutake Kamiya (Universität Zürich), Cosima Wagner (FU Berlin) und Ursula Flache (SBB-PK), sondern für das Gespräch mit allen Interessierten zur Verfügung stehen. Zur Einstimmung auf die Diskussion finden sich in diesem FUBox Dokument (DSGV-konforme Plattform der FU Berlin) vier Fragen. Über Ihr (anonymes) Feedback bis zum 22.08.22 würden wir uns sehr freuen! Bitte tragen Sie Ihre Antworten direkt im FUBox Dokument ein.

Zwei Workshops sind laufenden Projekten im Bereich der Digital Humanities gewidmet. Stephan Köhn, Paul Schoppe und Martin Thomas (Universität zu Köln) präsentieren im ersten Workshop (InfoRess04) ihre im Rahmen eines DFG-Projekts begonnene Datenbank zu enzyklopädischen Wörterbüchern der Edo-Zeit, den Setsuyōshū, mit der philologisches Arbeiten ins digitale Zeitalter überführt wird. Die damit verbundenen Herausforderungen sollen mit den Anwesenden diskutiert werden. Im zweiten Workshop (InfoRess06) stellen Koray Birenheide und Bastian Voigtmann (Goethe-Universität Frankfurt) die an der Frankfurter Japanologie entwickelte Software DemiScript als Werkzeug zur digitalen Erschließung japanischer Holzdrucke anhand zweier Lehrforschungsprojekte vor.

In der gemeinsamen Abschlussdiskussion der Sektionen Medien, Wirtschaft und Informations- und Ressourcenwissenschaften soll ausgelotet werden, welche Herausforderungen die digitale Transformation für die japanologische Forschung und Lehre birgt und wie sie diesen konstruktiv begegnen kann. Besonders in den Blick genommen werden die Themenbereiche “Daten-Arbeit, arbeiten mit Daten”, “Digitalität und gesellschaftliche Teilhabe” sowie “Plattform Japanologie?!”. Die Sektionsleitenden Ursula Flache (SBB-PK), Takahiro Nishiyama (Universität Bonn), Martin Roth (Ritsumeikan Universität) und Cosima Wagner (FU Berlin) freuen sich auf Ihre rege Beteiligung!

Bis bald beim Japanologentag 2022!

Einladung zum virtuellen Workshop “FAIRe Forschungsdaten step by step” von CLARIAH-DE

CLARIAH-DE, der Zusammenschluss der geisteswissenschaftlichen digitalen Forschungsinfrastruktur-Verbünde CLARIN-D und DARIAH-DE, richtet Ende August einen zweitägigen virtuellen Workshop mit dem Titel „FAIRe Forschungsdaten step by step“ aus, der sich insbesondere an Forschende der Geisteswissenschaften und benachbarter Disziplinen richtet, die bisher wenig Erfahrung mit digitalen Forschungsmethoden und -angeboten gesammelt haben. Den Teilnehmer:innen soll durch diesen Workshop der Einstieg in das Thema digitales Forschungsdatenmanagement und -publizieren erleichtert werden.

Folgende und weitere Fragen sollen im Rahmen des Workshops beantwortet werden:

  • Welche Vorteile ergeben sich durch das FAIRe Forschungsdatenmanagement mit einer digitalen Forschungsinfrastruktur?
  • Was ist bei der nachhaltigen Sicherung meiner Forschungsdaten zu bedenken?
  • Wie und wo stelle ich sie anderen bestmöglich zur Verfügung?
  • Welche Metadaten sind dafür notwendig und wie können sie sinnvoll vergeben werden?
  • Wie nutze ich bestehende Forschungsdaten nach?

Workshop: FAIRe Forschungsdaten step by step
Organisation:
CLARIAH-DE (Sonja Friedrichs, Melina Jander, Nanette Rißler-Pipka)
Termin: 30.–31. August 2021 (Tag 1: 10:00–15:15 Uhr, Tag 2: 10:00–13:30 Uhr)
Workshopsprache: Deutsch
Registrierung: s. DHdBlog

Weitere Informationen zum Inhalt des Workshops und den Link für die Registrierung (bis 25.8.) finden Sie im DHdBlog.

Forschungsdaten in den Asienwissenschaften: NFDI Konsortium Text+ bittet um Ihre Mithilfe

Im Zuge der Vorbereitungen zur Einreichung eines Förderantrags in der zweiten NFDI-Runde bittet das Forschungsdaten-Konsortium Text+ mit zwei Aufrufen um Mithilfe aus den geisteswissenschaftlichen Communities. Ziel ist, die Bedarfe und verschiedenen Nutzungsszenarien in den unterschiedlichen Disziplinen zu ermitteln, sodass diese repräsentativ in den Antrag und die Überlegungen zu einer Forschungsdateninfrastruktur einfließen können.

Als FID Asien unterstützen wir diese zwei Aufrufe zur Beteiligung und würden uns freuen, wenn Sie Ihre Erfahrungen, Forschungsfragen, Bedarfe sowie beispielhafte Datensets aus den drei Datendomänen digitale Sammlungen, lexikalische Ressourcen und Editionen bei Text+ einreichen. Gerade vor dem Hintergrund der vielfältigen Daten in den Sprachen und Schriften Asiens in unseren wissenschaftlichen Projekten sollten diese Beiträge für das Konsortium von besonderem Interesse sein.

Call for User Stories: Sammlung konkreter Bedarfe aus der Text+-Community

Einreichen von Forschungsdaten: Angebote für Forschungsdaten zur Integration im Rahmen von Text+

Die Einreichungsfrist ist der 16. August 2020.

 

 

Informationen zu Forschungsdaten in den asienbezogenen Wissenschaften veröffentlicht

Forschungsdaten sind ein hochaktuelles Thema, das zunehmend auch in den Asienwissenschaften diskutiert wird. Im Rahmen des FID Asien haben wir – nicht zuletzt auf ausdrücklichen Wunsch seitens der Wissenschaft – das Thema ebenfalls auf unsere Agenda gesetzt. Ziel ist, eine Angebots-, Informations- und Beratungsstruktur zu asienbezogenen Forschungsdaten aufzubauen und zu etablieren. Dabei wollen wir sowohl Anwendungsfragen seitens der Wissenschaft berücksichtigen, als auch Aktivitäten auf nationaler Ebene begleiten. Daraus sollen Lösungsansätze und Empfehlungen zum Forschungsdatenmanagement für die asienbezogenen Wissenschaften entwickelt werden. Nicht zuletzt wollen wir Wissenschaftlerinnen und Wissenschaftler sowie Projekte dabei unterstützen, einen geeigneten Ort zur Veröffentlichung ihrer Forschungsdaten zu finden – sei es bei CrossAsia oder in einem anderen, fachlich geeigneten Repositorium. Für mehr Informationen zu den Aktivitäten von CrossAsia bezüglich Forschungsdaten siehe das FID Programm sowie auf den „Über uns“-Seiten.

Was ist bisher geschehen?

Ende letzten Jahres hatten wir uns zunächst mit den asienwissenschaftlichen Fachgesellschaften sowie Vertreterinnen und Vertretern aus einigen exemplarischen Projekten in einem Workshop zusammengesetzt, um zu sehen, wo die Asienwissenschaften stehen, welche Aktivitäten sinnvoll erscheinen, um das Thema nicht nur verstärkt auf die Agenda zu bringen, sondern auch nachhaltig und koordiniert anzugehen. Mehr dazu können Sie in dem Bericht zum Workshop nachlesen.

Als ein Ergebnis aus dem Workshop haben wir in einer Online-Umfrage versucht von Ihnen zu erfahren, wie Ihre Erfahrungen mit Forschungsdaten sind. Wir haben sowohl nach Ihren Erfahrungen zur Recherche nach und der Veröffentlichung von Forschungsdaten gefragt, als auch nach Ihren Bedürfnissen an einem Beratungsangebot. Auch hierzu haben wir die Ergebnisse der Umfrage veröffentlicht.

Basierend auf diesen Erbnissen und Erkenntnissen haben wir nun kürzlich einige erste Informationen zu Forschungsdaten und deren Management in den asienbezogenen Wissenschaften online gestellt. Auf der Seite, die in einem Frage-Antwort-Format gehalten ist, finden Sie Hinweise sowie Links mit weiterführenden Informationen u.a. zu folgenden Themen: Was ist beim Arbeiten mit asienbezogenen Forschungsdaten zu beachten? Welche Empfehlungen diesbezüglich existieren bereits? Was ist bei der Projektantragstellung zu berücksichtigen? Wo können Sie entsprechende Daten recherchieren und selbst publizieren? Die Zusammenstellung mit Informationen zu Forschungsdaten in den asienbezogenen Wissenschaften finden Sie auf unserer Webseite unter „Service“.

Wir freuen uns, wenn Sie mit uns zum Thema Forschungsdaten ins Gespräch kommen. Gerne können Sie sich mit all Ihren Fragen und Ideen an uns wenden, als Kommentar im Forum zu diesem Beitrag oder per E-Mail: x-asia@sbb.spk-berlin.de.

Ergebnisse der Umfrage zu Forschungsdaten in den asienbezogenen Wissenschaften

Im Frühjahr haben wir Sie als FID Asien gemeinsam mit den Fachgesellschaften (DGA, DMG, DVCS, GJF, VfK, VSJF) zu Forschungsdaten in den asienbezogenen Wissenschaften befragt. Ziel der Umfrage war, zu ermitteln, wie Sie im Forschungsprozess mit ihren asienbezogenen Daten umgehen, welche Erfahrungen und Meinungen Sie zur Recherche und Nachnutzung sowie Erstellung und Bereitstellung von Forschungsdaten haben und welche Unterstützungsangebote Sie bereits erhalten, bzw. welche Sie sich seitens des FID Asien wünschen.

Wir möchten Ihnen an dieser Stelle ganz herzlich für Ihre rege Beteiligung und die vielfältigen, äußerst hilfreichen Hinweise danken, die Sie uns gegeben haben. Die Beteiligung an der Umfrage und die Ergebnisse zeigen sehr deutlich, dass Forschungsdaten und der Umgang mit diesen auch in den asienbezogenen Wissenschaften bereits wichtige Themen sind, aber es auch noch einigen Erklärungs- und Diskussionsbedarf gibt. Mit diesem Beitrag möchten wir über eine Auswertung der Ergebnisse hinaus versuchen, die Diskussion weiter anzuregen und zugleich in einigen Bereichen vielleicht etwas mehr Klarheit schaffen.

Im Folgenden finden Sie eine Auswertung der Umfrage mit den wichtigsten Ergebnissen und Grafiken sowie mit Erläuterungen; eine vollständige Aufführung aller Tabellen und Grafiken finden Sie zum Download anbei.

 

 

Weiterlesen

Umfrage Forschungsdaten – Newsletter 18

Umfrage zu Forschungsdaten in den asienbezogenen Wissenschaften

Liebe Asienwissenschaftlerin, lieber Asienwissenschaftler,
liebe Nutzerin, lieber Nutzer von CrossAsia,

der aktuelle Newsletter steht ganz im Zeichen von Forschungsdaten. Diese erlangen aufgrund des digitalen Wandels in der Wissenschaft und des Einsatzes computergestützter Methoden zunehmend an Bedeutung. Dies betrifft nicht nur die Geistes-, Kultur- und Sozialwissenschaften im Allgemeinen, sondern auch die Asienwissenschaften, wo bisher im Gegensatz zu anderen Disziplinen vergleichsweise wenig passiert ist. Drei wichtige Aspekte bezüglich Forschungsdaten haben sich in der Diskussion um digitale Forschungsdaten herauskristallisiert:

  • Der Anspruch der guten wissenschaftlichen Praxis und der damit geforderten Nachvollziehbarkeit der Forschungsbasis im Kontext digitaler Forschungsdaten.
  • Forschungsdaten als zitierfähige Datenpublikationen, die nicht nur der Forschungsfrage, in deren Kontext sie entstanden sind, als Basis dienen können, sondern darüber hinaus für verschiedenste Nachnutzungen bereit stehen.
  • Die Präsentation der Forschungsdaten in der Form, dass sie mittels digitaler Werkzeuge genutzt werden können und bspw. über Visualisierungen und statistische Methoden weitere, u.U. nicht vorausgesehene Erkenntnisse durch eine Nutzungsverbesserung der Daten generieren können.

Die Diskussion um digitale Forschungsdaten betrifft darüber hinaus aber auch zahlreiche rechtliche, ethische und organisatorische Aspekte, wie bspw. die Einwilligung zur Nachnutzung der Daten durch andere Forscherinnen und Forscher, das Einholen des Einverständnisses zur Nachnutzung der Daten durch bspw. Studienteilnehmer*innen und den Schutz von Persönlichkeitsrechten sowie anderer sensitiver Daten.

Das Thema Forschungsdaten inklusive des Umgangs mit diesen ist längst auch auf der Agenda von Wissenschaftsgremien und Forschungsförderern angekommen. So ruft die DFG bspw. Wissenschaftlerinnen und Wissenschaftler dazu auf, bei der Antragsstellung bereits ein Konzept für den Umgang mit Forschungsdaten in dem Projekt zu entwickeln.

Der FID Asien, der von der DFG maßgeblich finanziell unterstützt wird, möchte die Fachcommunity der Wissenschaftlerinnen und Wissenschaftler, die zu Asien forschen, beim Forschungsdatenmanagement unterstützen und innerhalb der Fachcommunity eine Diskussion zum Thema anstoßen. Dies geschieht auch vor dem Hintergrund der sich aktuell etablierenden Nationalen Forschungsdateninfrastruktur (NFDI). Die Asienwissenschaften sind aufgefordert, auf Bedarfe und Besonderheiten bezüglich Forschungsdaten aufmerksam zu machen, damit diese in die allgemeine Diskussion eingebracht und bei der Erarbeitung der infrastrukturellen und technischen Rahmenbedingungen berücksichtigt werden können.

Um diesen Dialog anzustoßen möchte der FID Asien gemeinsam mit den Fachgesellschaften (DGA, DMG, DVCS, GJF, VfK, VSJF) von Ihrer Expertise lernen und von Ihnen erfahren, wie Sie im Forschungsprozess mit ihren Daten umgehen, welche Erfahrungen und Meinungen Sie zur Recherche und Nachnutzung sowie Erstellung und Bereitstellung von Forschungsdaten haben.

Wir würden uns sehr freuen, wenn Sie sich einen Augenblick Zeit für diese Umfrage nehmen. Die Beantwortung dauert ca. 20 Minuten. Die Ergebnisse der Umfrage werden wir bei ausreichender Beteiligung im CrossAsia Blog veröffentlichen.

Die Umfrage ist offen bis: 8. April 2019

Weitere interessante und neue Entwicklungen aus CrossAsia

Neu lizenzierte Datenbanken und Testzugänge

Vielen Dank für Ihre Unterstützung!

Ihr Team vom FID Asien

Bericht: Forschungsdatenworkshop

Forschungsdaten in den asienbezogenen Wissenschaften

Bericht zum Workshop am 6. Dezember 2018, 11-15 Uhr, in der Staatsbibliothek zu Berlin

 

Teilnehmerinnen und Teilnehmer des Workshops

Matthias Arnold (Heidelberg Research Architecture, Universität Heidelberg)
Prof. Carmen Brandt (DGA, Universität Bonn)
Daniela Claus-Kim (FU Berlin)
Dr. Carolin Dunkel (Staatsbibliothek zu Berlin)
Christian Dunkel (Staatsbibliothek zu Berlin)
Dr. Tania Becker von Falkenstein (DVCS, TU Berlin)
Prof. Robert Horres (Universität Tübingen)
Matthias Kaun (Staatsbibliothek zu Berlin)
Dr. Florian Kräutli (MPI Wissenschaftsgeschichte)
Hanno Lecher (Bereichsbibliothek Ostasien, UB Heidelberg)
Prof. Daniel Leese (The Maoist Legacy, Universität Freiburg)
Jens Ludwig (Stiftung Preußischer Kulturbesitz)
Maximilian Mehner, M.A. (DMG Südasien, Universität Marburg)
Nicole Merkel (UB Heidelberg)
Dr. Florian Pölking (VfK, Universität Bochum)
Prof. Cornelia Reiher (VSJF, FU Berlin, CrossAsia Fachbeirat)
Prof. Florian C. Reiter (DMG, HU Berlin)
David Schulze (Stiftung Wissenschaft und Politik)
Prof. Yvonne Schulz Zinda (VfK, Universität Hamburg)
Dr. Miriam Seeger (Staatsbibliothek zu Berlin)
Dr. Martina Siebert (Staatsbibliothek zu Berlin)
Franziska Trempler (Staatsbibliothek zu Berlin)
Dr. Cosima Wagner (GJF, Campusbibliothek, FU Berlin)
Prof. Urs Matthias Zachmann (GJF, FU Berlin)

Protokoll: Dr. Martina Siebert

 

Der FID Asien hat zum 6. Dezember 2018 nach Berlin eingeladen, um zum Thema Forschungsdaten in den Asienwissenschaften ins Gespräch zu kommen. Eingeladen waren sowohl Repräsentanten der relevanten Fachgesellschaften (DGA, DMG, DVCS, GJF, VfK, VSJF) als auch Vertreterinnen und Vertreter von Projekten und Institutionen, in denen größere Mengen an Daten in eigenen Infrastrukturen generiert und gehostet werden. Gemeinsam ist allen Teilnehmerinnen und Teilnehmern die Aufgabe, sich um die langfristige Sicherstellung der Zugänglichkeit und die Nachhaltigkeit von Forschungsdaten kümmern zu wollen bzw. zu müssen, auch um die Anforderungen der DFG diesbezüglich zu erfüllen. Eines der Ziele war es, zu diskutieren, ob der FID Asien sich in diesem Bereich für die asienbezogenen Wissenschaften stärker als bislang engagieren soll und ob bzw. wie er sich in die verschiedenen bereits bestehenden lokalen, regionalen und / oder nationalen Aktivitäten einbringen sollte. Es sollte gemeinsam ausgelotet werden ob, und wenn ja, wie man sich im Fach gemeinsam zum Thema Forschungsdaten koordinieren und positionieren möchte.

FID Asien und Forschungsdaten

Zur Einleitung haben Matthias Kaun (Leiter der Ostasienabteilung der Staatsbibliothek zu Berlin) und Miriam Seeger (Fachreferentin für China, Hongkong, Macao und Taiwan) umrissen, in welcher Form Forschungsdaten als Aufgabe im Rahmen des FID Antrags für die zweite Förderphase (2019-2021) definiert wurden und wie geplant ist, das Aktionsfeld „Forschungsdaten“ in den kommenden drei Jahren im FID Asien auszufüllen (siehe auch den Antragstext). Es sind vor allem zwei Stoßrichtungen vorgesehen: zum einen der Aufbau eines Beratungs- und Informationsangebots und kooperativen Netzwerks zwischen der Wissenschaft und Infrastrukturanbietern zu Forschungsdaten in den asienbezogenen Wissenschaften, zum anderen das Umsetzen und Testen von konkreten infrastrukturellen Anforderungen der Wissenschaft für die Generierung und Speicherung von Forschungsdaten im CrossAsia ITR (Integrierten Textrepositorium) oder einem „Zuliefersystem“ (wie für Bilddaten z.B. einem iiif-Editor) anhand von exemplarischen Partnerprojekten.

Diese parallele Vorgehensweise zielt darauf ab, Kompetenzen und Zuständigkeiten effizient und nachhaltig in einem Netzwerk zu verteilen – mit der Bereitschaft des FID Asien hier koordinierend tätig zu werden – aber auch selbst Expertise zu generieren. In einigen Fällen wird es in Zukunft sinnvoll sein, selbst „host“ zu sein. Dies sind vor allem solche Fälle, in denen auf der Basis von Materialien aus dem CrossAsia Portfolio oder dem des FID Asien Forschungsdaten entstehen, die – verlinkt mit den Vorlagen – in das CrossAsia ITR zurückgespeichert werden sollen.

Forschungsdaten: was und warum

Die Frage der „Definition“ von Forschungsdaten hat schon viele Stellungnahmen beschäftigt. In einem kurzen Überblick über die Entwicklung des Förderrahmens für Forschungsdaten und Infrastrukturen (Stichwort „Nationale Forschungsdateninfrastruktur“ NFDI; „Rat für Informationsinfrastrukturen“ RfII) hat Jens Ludwig (Stabstelle „Digitale Transformation“ der Stiftung Preußischer Kulturbesitz) u.a. drei Aspekte von Forschungsdaten hervorgehoben, die auch eine zeitliche Entwicklung und zunehmende Wichtigkeit von Forschungsdaten in und für die Wissenschaften nachzeichnen. Begonnen mit dem Anspruch der guten wissenschaftlichen Praxis und der damit geforderten „Nachvollziehbarkeit“ der Forschungsbasis haben sich die Erwartungen an Forschungsdaten sukzessive weiterentwickelt. Im nächsten Schritt war ein Forschungsdatum eine zitierfähige Datenpublikation, die nicht nur der Forschungsfrage, in deren Kontext sie entstanden ist, als Basis dienen kann, sondern darüber hinaus für verschiedenste „Nachnutzungen“ bereit stehen sollte. Heute sollen Forschungsdaten darüber hinaus idealerweise so präsentiert werden, dass sie mittels digitaler Werkzeuge, über Visualisierungen und statistische Methoden (Ngram, Co-occurrence etc.) weitere, u.U. nicht vorausgesehene Erkenntnisse durch eine „Nutzungsverbesserung“ der Daten generieren können.

„Bedarfs“-Communities und Fach-Communities

Die im Rahmen der NFDI beschlossene finanzielle Förderung blickt nicht so sehr auf diese verschiedenen Nutzungsstufen von Forschungsdaten. Hier liegt der Fokus erst einmal darauf, eine vernetzte „Struktur“ von Kompetenzen und keinen „Ort“ in Form eines Daten-Repositoriums o.ä. aufzubauen. Durch die Förderung soll sichergestellt werden, dass die verschiedenen wissenschaftlichen Bereiche und Methoden „Sprech- und Handlungsfähigkeit“ erlangen und aktive Fachcommunities ihre „Bedarfe selbst ermitteln und priorisieren.“ Grenzen sollen jedoch nicht „spezialistisch oder exklusiv“ sein, sondern wenn sie gezogen werden, anhand verschiedener Bedarfe bestimmt werden. Die Förderung dieser Konsortien und Infrastrukturen ist vor allem auf eine größere Effizienz des Wissenschaftssystems fokussiert. Somit werden im Rahmen der NFDI „Köpfe“ bzw. ca. 30 solcher Konsortien gefördert und nicht in erster Linie die dafür notwendige „Technik.“

Auch die asienbezogenen Wissenschaften sollten das Thema Forschungsdaten, so der Vorschlag, von eben solchen Infrastrukturen und kooperativen Netzwerken her angehen und weniger über Fragen der Formate u.ä. räsonieren. Zudem ist in der Regel „speichern“ kein ausreichendes Ziel, da die Daten ja gefunden werden müssen. Sie müssen zudem interoperabel genug sein, so dass sie in anderen Kontexten sinnvoll verwendet werden können. Forscher erwarten heute u.U. Werkzeuge, um die Daten zu explorieren und – mehr oder weniger – direkt am „Fundort“ zu analysieren. Doch wie weit soll / muss / möchte man hier gehen?

Die Frage der Breite der asienbezogenen Wissenschaften, in der alle geistes- und sozialwissenschaftlichen Disziplinen mit ihren speziellen und vielfältigen Formen von Forschungsdaten und -methoden vertreten sind, hat die Diskussionsrunde beschäftigt. Die NFDI-Konsortien sprechen von „aktiven Fachcommunities“ die ihre „Bedarfe“ selbst ermitteln sollen. Ist das auf die asienbezogenen Wissenschaften in ihrer gesamten Breite anwendbar und ein Konsens vorstellbar? Haben die verschiedenen geistes- und sozialwissenschaftlichen Arbeitsmethoden gemeinsame Bedarfe? Sehr deutlich wurde hier auch davor gewarnt mit diesen NFDI-Konsortien nicht eine vermeintliche „Kleinstaatlichkeit der Regionalstudien“ zu reproduzieren oder gar zu verfestigen. Sollen sich sozialwissenschaftlich arbeitende Projekte deshalb mit ihren Forschungsdaten eher an sozialwissenschaftliche Forschungsdateninfrastrukturen wenden? Spielt die „Nicht-Lateinschriftlichkeit“ hier eine Rolle und ist sie ein taugliches verbindendes Element? Sollte es ein Asien-NFDI-Konsortium geben, um sicher zu stellen, dass regionalspezifische Anforderungen nicht vergessen werden? Wer sind hier die besten Partner, um eine Forschungsdaten-Infrastruktur für die asienbezogenen (oder regionalspezifischen) Wissenschaften aufzubauen? Sind diese vielleicht nicht in Europa zu finden, sondern in Asien bzw. den entsprechenden Ländern selbst?

Kann es „eine“ Datenbank geben, in die alle Projekte ihre Daten speichern und damit keine Projektzeit für den Aufbau eigener Datenbanken verbrauchen (und dann Zeit dafür brauchen, diese Daten zu überführen etc.)? D.h. kann man einen allen gemeinsamen „Bedarf“ abstrahieren und diesen in eine datentechnische Struktur überführen? Interessant war in diesem Zusammenhang der Bericht aus dem MPIWG, wo anhand eines Beispielprojekts die Tauglichkeit des CIDOC Conceptual Reference Models (CIDOC-CRM) getestet wird, Forschungsdaten in Form eines „knowledge graph“ abzubilden.

Im Rahmen der Vorstellung der einzelnen Fachgesellschaften und Infrastrukturvertreter wurden eine Reihe weitere Bedarfe und Bedenken genannt: Verbreitung und Nachnutzung von Forschungsdaten können ethische Fragen aufwerfen, Persönlichkeitsrechte müssen berücksichtigt werden, und auch der Kopierschutz muss beachtet werden. Eine Infrastruktur muss in der Lage sein, all diese Anforderungen zu erfüllen.

Wer ist bzw. sollte für was zuständig sein? Welche Aktivitäten gibt es bereits?

Neben der Frage, ob eine Methode oder der regionale Bezug die sinnvollere Abgrenzung zu anderen NFDI-Konsortien bilden, stand auch die Frage im Raum, wie die Universitätsbibliotheken sich hier in Zukunft positionieren wollen. Für das wissenschaftliche Profil einer Universität ist es wichtig, in ihrem Kontext entstandene Daten auch selbst zu präsentieren (vgl. z.B. Repositorien für Doktorarbeiten). Für die Forscher selbst ist sicherlich der fachliche Zugang relevanter (und in der Regel auch vertrauter). Können die Fachgesellschaften hier Rollen übernehmen bzw. sich Aufgaben innerhalb eines Netzwerkes vorstellen? Wie ist die aktuelle Struktur in den jeweiligen Gesellschaften und gibt es bereits eine Position zu Forschungsdaten? Wie sehen Infrastruktureinrichtungen ihre aktuellen oder geplanten Aktivitäten in dieser Richtung?

Im Rahmen der Kurzberichte der Vertreter der Fachgesellschaften und Infrastruktur-Einrichtungen bzw. Projekte, die eine Infrastruktur aufbauen wollen oder aufgebaut haben, sind einige wichtige Dinge zur Sprache gekommen. Die beiden überregional wirkenden Asien-Fachgesellschaften, die Deutsche Morgenländische Gesellschaft (DMG) und die Deutschen Gesellschaft für Asienkunde e. V. (DGA), haben hier bislang noch keine strukturierte Aktivität unternommen oder Leitlinien zu diesem Thema erstellt. Die Ziele der DMG sind insbesondere die Förderung der Wissenschaften und die Publikation ihrer Ergebnisse, die sie mit ihrem Organ der ZDMG ausreichend repräsentiert sieht. Da ihre Mitglieder vor allem philologisch arbeiten, liegt ein Interessenfokus der DMG auf dem adäquaten Zugang zu Quellen. Die DMG greift regional zudem noch weiter aus als „asienbezogen“ und vertritt auch Forschung zu Afrika. Die sinologische Fachgesellschaft, die Deutsche Vereinigung für Chinastudien (DVCS), hat in ähnlicher Weise bislang auch noch keine strukturierte Aktivität unternommen. Die 230-250 Mitglieder des DVCS stammen vorwiegend aus dem Mittelbau. Zum aktuellen Zeitpunkt gibt es keine top-down Beratung innerhalb der DVCS im Hinblick auf Forschungsdaten. Die Fachgesellschaft der Koreanistik, die Vereinigung für Koreaforschung e.V. (VfK), hat ebenfalls noch keine Position zum Thema entwickelt, möchte sich aber in die weitere Diskussion einbringen und Ziele mitgestalten.

In beiden vertretenen japanologischen Fachgesellschaften, der Gesellschaft für Japanforschung (GJF) und der Vereinigung für Sozialwissenschaftliche Japanforschung (VSJF), gibt es Mitglieder, die bereits intensiv mit Big Data arbeiten und eine AG der GJF, die sich mit dem Thema Umgang mit Forschungsdaten beschäftigen wird, wurde auf dem Japanologentag (2018) ins Leben gerufen. Ziel der AG ist es, Aktivitäten besser zu vernetzen und ein Positionspapier zu Forschungsdaten zu erstellen.

Im Juli 2018 fand organisiert durch das vom BMBF geförderte Forschungsprojekt „FDM_OAS-Orient“ ein überregionaler Workshop zum Thema „Nicht-lateinische Schriften in multilingualen Umgebungen: Forschungsdaten und Digital Humanities in den Regionalstudien“ an der Campusbibliothek der FU Berlin statt, an dem u.a. Vertreterinnen und Vertreter beider Fachgesellschaften sowie des FID Asien und FID Nahost-, Nordafrika- und Islamstudien teilgenommen haben (siehe den Workshop-Bericht im DHd Blog).

Die anwesenden Infrastrukturvertreter konnten konkreter von bereits bestehenden Strukturen berichten und haben weitere Ziele oder auch spezifische Problematiken thematisiert. Die „Heidelberg Research Infrastructure“ sammelt seit mehreren Jahren bereits Erfahrungen darin, verschiedenste Quellenformate zu speichern und so aufzubereiten, dass damit wissenschaftliche Daten erzeugt werden können. Sie versucht dabei, Grundprinzipien wie Nachhaltigkeit und Anschlussfähigkeit an größere Netzwerke und die strikte Trennung von Metadaten und Daten zu wahren. Forschungsarbeiten aus dem Bereich der Sinologie sind hier erstes Testgebiet. Wenn man noch tiefer in Daten-Projekte hineinschaut, werden weitere Aspekte deutlich. Im Freiburger Projekt zur Chinesischen Kulturrevolution „The Maoist Legacy“ ist eine Datenbank mit Materialien der Kulturrevolution entstanden, die auch anderen Forschern zur Verfügung steht. Da es sich jedoch um z.T. sensible und auch Persönlichkeitsrechte behaftete Daten handelt, mussten mehrere Zugrifflevels eingerichtet werden. Bereits die Speicherung dieser Daten kann Rechtsfragen aufwerfen, die nicht jede Institution bereit oder auch fähig ist zu klären. Die Bibliothek des MPIWG berichtete aus vor allem zwei Bereichen, in denen sie aktuell in Bezug auf Forschungsdaten aktiv ist. Zum einen, das oben erwähnte „übersetzen“ von Datenbeziehungen mittels einer Ontologie, zum anderen die Überlegungen wie mit digitalen, analytischen Werkzeugen auf lizenzgeschützten Materialien gearbeitet werden kann, ohne die entsprechenden Lizenzen zu verletzen. Der zunehmenden Bedeutung von digitalen Datenanalysen auch in den Geisteswissenschaften trägt die Universität Tübingen Rechnung, indem sie einen Masterstudiengang anbietet, der Digital Humanities und Regionalstudien vereint. Auch wenn viel über digitale Daten und DH gesprochen wird, so ist doch weitere Lobby-Arbeit notwendig, damit Ergebnisse und Methoden, die von Forschern entwickelt werden – auch in Fächern wie der Japanologie oder Sinologie – als wissenschaftliche Leistung anerkannt und karrieretechnisch als relevant erachtet werden. Infrastrukturen können (und sollten) also auch ein Qualitätssigel sein und Daten darin somit nicht als „weggeschenkt“ gelten, sondern umgekehrt die Forscher oder das Projekt „prominenter“ machen.

Die FU Berlin brachte zwei weitere wichtige Aspekte bezüglich des digitalen Wandels ein: Erstens wird laut Deutschem Bibliotheksverband (dbv) ein Trend deutlich, dass wissenschaftliche Bibliotheken zu einer passgenauen Informations- und Medienversorgung zunehmend auch zeitgemäße Dienste und Werkzeuge zur Unterstützung des Life-Cycle in Forschung, Lehre und Studium entwickeln und anbieten (siehe: Wissenschaftliche Bibliotheken 2025, hrsg. vom DBV, Jan. 2018).

Zweitens ist es meistens nicht sinnvoll, als Institution den Weg des „digitalen Wandels“ alleine zu bestreiten, auch nicht wenn man die Größe einer Universität hat. Kooperation wird immer wichtiger. In einigen Institutionen fusionieren Datenzentren bzw. Anbieter für digitale Medien und Technologien in Forschung und Lehre mit den Bibliotheken (so in Planung an der FU Berlin) und die drei Berliner Universitäten – HU, FU und TU – wollen gemeinsam mit der Charité Universitätsmedizin einen Verbundantrag im Rahmen der Exzellenzinitiative einreichen (Stand Dez. 2018), in der der digitale Wandel eine zentrale Rolle spielen soll.

Festzuhalten ist, dass der Grad der Bereitschaft zu und die Ausgestaltung von neuen bibliothekarischen Dienstleistungen in den Bereichen Forschungsdatenmanagement und Digital Humanities allgemein sowie für die Regionalwissenschaften im Besonderen stark standortabhängig ist und ein großes Gefälle von Hochschule zu Hochschule aufweist.

Gibt es einen nächsten gemeinsamen Schritt und wie könnte der aussehen?

Voraussichtlich im ersten Quartal 2019 wird die Ausschreibung für NFDI-Konsortien verkündet. Kann man ein solches Angebot der NFDI z.B. nutzen, um gemeinsam auszuloten, wie ein kooperatives Vorgehen in diesen neuen Feldern gestaltet werden könnte? In diesem Zuge müsste auch definiert werden, wie Aktivitäten im Rahmen der zweiten Runde des FID und solche im Rahmen der NFDI verzahnt werden könnten.

Brauchen die asienbezogenen Wissenschaften etwas Vergleichbares wie den „Rat für Sozial- und Wirtschaftsdaten“ (RatSWD), einen „Asien-Rat“, der von politischem Interesse für die Sichtbarkeit der Regionalstudienfächer und ihrer Anforderungen an Forschungsinfrastrukturen ist? Könnte dieser Rat in nationalen Kontexten agieren und die asienbezogene Forschung dort sprechfähig machen? Von welchem nationalen Interesse wäre so ein „Asien-Rat“ bzw. was wären seine Aufgaben?

Bei allen ausformulierten Anforderungen zu Forschungsdaten und Infrastrukturen muss man bedenken, dass zukünftige Forschungsanträge und -ergebnisse daran gemessen werden.

Um das breitere Interesse und die Anforderungen der Forschenden, Lehrenden und Studierenden am Thema Forschungsdaten und Forschungsdateninfrastruktur zu ermitteln, soll eine Umfrage erstellt und über relevante Mailing-Listen, den CrossAsia Newsletter und u.U. auch die Fachgesellschaften verbreitet werden. Die Fachverbände werden gebeten, sich ebenfalls zur Frage zu positionieren (u.U. auch anhand des Fragebogens). Sie sollen zudem Position dazu beziehen, ob und wie sie sich in den weiteren Prozess einbringen wollen.

CrossAsia übernimmt für den Entwurf des Fragebogens die Federführung. Der Entwurf wird im ersten  Quartal 2019 an die Teilnehmerinnen und Teilnehmer der Runde mit Bitte um Kommentierung geschickt.

Zum Abschluss hier noch einige Kommentare, Vorschläge und mögliche Ziele, die im Rahmen der Diskussionen bezüglich Forschungsdaten, den Bedürfnissen der Wissenschaftlerinnen und Wissenschaftler genannt wurden:

  • Position zu Formaten und Standards sollten gemeinsam entwickelt werden.
  • Fragen und Klärungsansätze zu rechtlichen und ethischen Probleme mit Daten sollten zusammengetragen und allen Daten-Forschern klar vor Augen geführt werden.
  • Kooperationen sollten das Ziel haben, aus den verschiedenen konkreten Beispielen Daten-Abstraktionen zu entwickeln, die schließlich das regionalspezifische in den Hintergrund stellen.
  • Asien auch in diesen Kontexten beizubehalten ist als Teil der Lobbyarbeit für die eigene wissenschaftliche Disziplin wichtig.
  • Auch wenn Fachgesellschaften z.T. ihre Bedürfnisse bereits identifiziert haben, mangelt es ihnen an passender Infrastruktur, die sie oft nicht aus eigener Kraft aufbauen können.
  • Solche Aufgaben sollten in einer Governance-Struktur verwirklicht werden, die in der Lage ist, Partikularinteressen nicht zu unterdrücken.
  • Es sollten keine „Daten-Container“ gebaut werden; Ziel sollte vielmehr sein, in Richtung Open Data, Open Science zu gehen.