Online-Workshop: AI and Knowledge in Action – CrossAsia and the Stabi Lab

Dear users,

Discover how the Staatsbibliothek zu Berlin is exploring the future of library services through two exciting lab initiatives: The CrossAsia Lab is experimenting how artificial intelligence can transform access to knowledge. Learn how multilingual, mixture, licensed and copyright protected materials with library services are being developed to make it easier than ever to discover and explore huge collections in different languages in scripts — no matter where you’re from or what language you speak. The Stabi Lab, on the other hand, focuses on knowledge transfer and collaboration. How can experimental spaces create room for innovation? Whether through collaborative research or joint projects, the Stabi Lab offers a wide range of opportunities for co-creation and future partnerships. It’s a space where ideas are tested, knowledge is shared, and new ways of working together are encouraged. Together, these labs showcase how the Staatsbibliothek zu Berlin is not only preserving knowledge — but actively shaping its future.

Date:  Thursday 6 November 2025, 14:00-15:30

Speaker: Hou-Ieong Ho, Roman Kuhn, John Woitkowitz

Join the meeting: https://spk-berlin.webex.com/spk-berlin/j.php?MTID=made1262f1f89b3e6c79b5b15fd405290

 

The event is part of Berlin Science Week. All events taking place at the Staatsbibliothek zu Berlin as part of Berlin Science Week can be found here.

The Advantages of Infrared Reflectography: Recovering the Title of a 19th Century Medical Recipe Book from China

Gastbeitrag von Dr. Thies Staack (Centre for the Study of Manuscript Cultures, University of Hamburg)

(Die deutschsprachige Version finden Sie im Stabi-Blog)

During the past few years, I have been conducting a research project on the collecting and exchange of medical recipes in 19th and early 20th century China at the Centre for the Study of Manuscript Cultures (CSMC) in Hamburg. Since manuscripts, both bound recipe books and individual recipes on loose leaves, played an important role in this respect, the Unschuld collection of Chinese medical manuscripts is an invaluable source for my research.

Among the close to 1,000 manuscripts from the Unschuld collection now housed at the Staatsbibliothek zu Berlin Preußischer Kulturbesitz (SBB-PK), there is a small thread-bound volume with an inconspicuous outside appearance but an extraordinarily rich content of overall roughly 800 mostly medical recipes. The manuscript with the shelf mark “Slg. Unschuld 8051” was produced in 19th century Canton and attests to a vibrant exchange of medical recipes during that period. I have introduced it in some more detail elsewhere. According to the description in the catalogue of the collection, published by Paul U. Unschuld and Zheng Jinsheng in 2012, the manuscript does not have an original title, which would usually be found on the front cover or on the first page of a volume. The title provided in the catalogue – Yifang jichao 醫方集抄 or “Hand-copied collection of medical formulas” – was obviously assigned by Unschuld and Zheng based on its content.

 

Fig. 1: Slg. Unschuld 8051, opened at the table of contents (photo by the author).

Fig. 1: Slg. Unschuld 8051, opened at the table of contents (photo by the author).

The fact that Slg. Unschuld 8051, like many other manuscripts from the Unschuld collection, has already been digitised is of tremendous help for my research. Still, to be able to thoroughly assess the materiality of this written artefact, for example, to get a feel for its size and weight, I went to Berlin to inspect Slg. Unschuld 8051 in the SBB reading room in April 2022. The first surprise was just how small and portable the volume is (see Fig. 1). It would easily fit into a pocket or sleeve and the stains on its covers suggest that it may indeed have been carried around a lot by its previous owners.

 

 

Fig. 2: The bottom edge of Slg. Unschuld 8051 under normal interior light (photo by the author).

When I turned the manuscript in my hands, I noticed what appeared to be writing with ink on the bottom of the volume (see Fig. 2). For some of the thread-bound Unschuld manuscripts images of the top, front and bottom edge as well as the spine have been included in the digitised version. This is, unfortunately, not the case for Slg. Unschuld 8051, which was digitised already in 2014. Hence, this was the first time I got to see the bottom edge of the manuscript. Due to the darkening of the paper at the edges, it was difficult to decipher any writing, but fortunately I had brought a portable digital microscope (Dino-Lite) from Hamburg, which allows analysis with the help of light in the invisible spectrum (ultraviolet and infrared light).

Carbon ink, which was traditionally used in China, is much more clearly visible under infrared light than it is under daylight. The infrared images taken with the Dino-Lite showed clearly discernible brushstrokes (see Fig. 3). Since the area that can be photographed with the microscope’s magnification is rather small, I had to piece together several images to be able to decipher whole characters (see Fig. 4), but this was sufficient to ascertain the presence of writing.

 

Fig. 3: One of the infrared images taken with the help of the Dino-Lite microscope (photo by the author).

Fig. 4: Combination of four Dino-Lite infrared images, together showing the character 世, with the help of image processing software (processed image by the author).

 

 

 

 

 

 

 

 

 

 

 

 

 

Fig. 5: Setup of the Opus Apollo infrared reflectography (IRR) camera above Slg. Unschuld 8051 in the Berlin State Library storage (photo by the author).

In order to acquire a high-quality infrared image of the whole bottom edge, my colleagues Ivan Shevchuk, Kyle Ann Huskin and Dr. Olivier Bonnerot from the CSMC helped me capture images with a professional infrared reflectography (IRR) camera (Opus Apollo) in September 2022 (see Fig. 5). Finally, it was possible to decipher the entire inscription of five characters (see Fig. 6).

The four larger characters, which must be read choushi zhencang 酧世珍藏, from right to left, on first sight resemble a typical ownership mark of a book collector. The expression zhencang 珍藏 “treasured collection (of)” together with a personal name could constitute a statement of ownership. However, book collectors more commonly used a seal stamp and red ink to apply their ownership mark. The fifth character in slightly smaller script to the very right (shang 上) hints towards the possibility that what we have here might rather be the title of the present recipe collection. Since the table of contents at the beginning of Slg. Unschuld 8051 lists recipes in a “first volume” (shang juan 上卷) and a “second volume” (xia juan 下卷), it is clear that the recipe collection comprised overall two volumes. Comparison with the actual recipe entries shows that the present volume is indeed the first of the two, which accords well with the small character written on the bottom edge. It is also worth pointing out that traditional thread-bound books – whether handwritten or printed – often had their title inscribed on their bottom edge in addition to the cover or title page. The reason for this is a common way of storage, with books being shelved lying flat on their back with the bottom edge facing towards the front. Hence, a title placed at this position is legible while the book is stored on a shelf, similar to the title on the spine of a “Western” book.

 

Fig. 6: Calibrated infrared reflectography (IRR) image of the bottom edge of Slg. Unschuld 8051 (photo by Olivier Bonnerot, Kyle Ann Huskin and Ivan Shevchuk).

If choushi zhencang 酧世珍藏 is in fact the title of this recipe book, it was probably selected by the compiler of the recipes for his personal collection. At least, this title is not found in the union catalogue of Chinese medical writings. The first two characters – with 酧 being a common variant of 酬 – seem to echo the title of the popular 19th c. household encyclopaedia Choushi jinnang 酬世錦囊 “Brocade Bag of Exchange with the World”, which provided guidance on etiquette and proper social interaction. As part of the title of a recipe collection, the expression “exchange with the world” could rather refer to the way in which the compiler got hold of the recipes, many of which are indeed noted as having been received from relatives, friends or acquaintances in Canton. Hence, it might be understood as “Treasured Collection of (Recipes obtained through) Exchange with the World”.

This example showcases not only the advantages of infrared reflectography, which can allow to decipher otherwise illegible writing on manuscripts. It also points to the fact that inclusion of images of all sides of a manuscript in its digital version – in the case of thread-bound volumes also the edges and the spine – would greatly benefit research. Nevertheless, it must be stressed that even this can never entirely replace a first-hand inspection of the original written artefact in the reading room.

 

The data set with infrared reflectography images of Slg. Unschuld 8051 has been published as:

Olivier Bonnerot, Kyle Ann Huskin, Ivan Shevchuk and Thies Staack (2025), Infrared Reflectography Images of the Writing on the Bottom Edge of Slg. Unschuld 8051, http://doi.org/10.25592/uhhfdm.16994.

 

Acknowledgements:

The author thanks Dr. Cordula Gumbrecht and Dr. Andreas Janke for valuable suggestions on an earlier draft of the text.

The research behind this contribution was funded by the Deutsche Forschungsgemeinschaft (DFG, German Research Foundation) under Germany’s Excellence Strategy – EXC 2176 “Understanding Written Artefacts: Material, Interaction and Transmission in Manuscript Cultures”, project no. 390893796. The research was conducted within the scope of the Centre for the Study of Manuscript Cultures (CSMC) at the University of Hamburg.

 

Feature image:

Two pages from the table of contents of Slg. Unschuld 8051, showing the recipes at the end of the first and the beginning of the second volume. Staatsbibliothek zu Berlin – PK, Slg. Unschuld 8051, f. 23v-24r, scan pages [48]-[49] (Retrieved from http://resolver.staatsbibliothek-berlin.de/SBB0000603200000048 and http://resolver.staatsbibliothek-berlin.de/SBB0000603200000049)

Vom lesenden Menschen zu lernenden Maschinen – über die Möglichkeiten von Gaia-x für das kulturelle Erbe

Dieser Beitrag ist eine Verschriftlichung des gleichnamigen Vortrags über die ersten Erfahrungen, Daten aus dem ITR von CrossAsia in Gaia-X zu publizieren und auf diesem Wege der Forschung und vor allem den Digital Huminaties zur Verfügung zu stellen. Der Vortrag wurde am 11. Oktober 2023 im Rahmen der Europeana Tech Conference 2023 in Den Haag gehalten.

Ausgangspunkt der Reise Richtung Gaia-X stellt die CrossAsia Webseite dar. CrossAsia ist das von der Staatsbibliothek zu Berlin verantwortete Portal, in dem alle Services des von der DFG geförderten Fachinformationsdienstes Asien und weiteren Angebote gebündelt werden. Der Fachinformationsdienst richtet sich an Wissenschaftlerinnen und Wissenschaftler aus den asienbezogenen Geisteswissenschaften und hat seinen Schwerpunkt auf Ost-, Zentral- und Südostasien. Die Staatsbibliothek sammelt nicht nur Materialien aus und über diese asiatischen Regionen, sondern hat sich bereits vor mehr als 20 Jahren für eine e-preferred-Strategie entschieden. Wann immer ein elektronisches Medium wie Zeitschrift oder Buch dauerhaft lizenziert werden kann, wird kein gedrucktes Exemplar erworben, sondern das elektronische Dokument lizenziert. Hierbei versucht die Staatsbibliothek neben den überregionalen oder nationalen Zugangsrechten auch die Rechte für die lokale Archivierung der Dokumente inkl. Text- und Datamining-Rechten nach Verhandlungen zu erlangen. Neben den Einträgen in den Nachweissystemen kommt der Verwaltung der lizenzierten Daten wie Bilddaten, Volltexten, Film- und Tondokumenten eine besondere Bedeutung zu. Ein erster Dienst, der aus der Verwaltung der digitalen Objekte entwickelt wurde, ist die CrossAsia-Volltextsuche. Diese basiert neben eigenen digitalisierten und mit Volltexten ausgestatteten Objekten auf lizenzierten Objekten von Verlagen und anderen Anbietern. Hierbei handelt es sich hauptsächlich um Text- und Bildmaterialien aus historischen Quellen, von Büchern über wissenschaftliche Artikel bis hin zu aktuellen Zeitungen. Bislang sind insbesondere Materialien in Englisch und Chinesisch repräsentiert; das Angebot wird auch in Hinblick auf die anderen Sprachen kontinuierlich ausgebaut.

All diese Inhalte werden im sogenannten Integrierten Textrepository (ITR) archiviert. Technische Grundlage hier ist eine Infrastruktur basierend auf der Fedora Repository Software. Gleichzeitig stellen wir die Durchsuchbarkeit der Inhalte über einen Solr-Index dar. Dieser enthält momentan fast 70 Millionen Dokumente und ist weltweit eine einmalige Sammlung für lizenzfreie und lizenzbehaftete digitale Ressourcen in den Asienwissenschaften.

Aus diesem Grunde haben viele Wissenschaftlerinnen und Wissenschaftler ein großes Interesse, in diesen Inhalten Muster zu entdecken, neue Zusammenhänge zu erkennen und neue Erkenntnisse mit eigenen Algorithmen und Programmen durch Text- und Datamining zu gewinnen. Der FID Asien besitzt zwar das Recht, seine Nutzerinnen und Nutzern solche Analysen direkt durchführen zu lassen. Hierbei stellt sich jedoch die Frage, wie Code und Inhalte zusammenkommen?

Eine naheliegende Idee wäre ein zusätzlicher Service, der es Wissenschaftlerinnen und Wissenschaftlern ermöglicht, ganze Sammlungen aus dem ITR herunterzuladen. Allerdings ist die Datenmenge im ITR sehr groß, so dass unter Umständen mehrere Terrabyte von Daten heruntergeladen werden müssten. Dies kann je nach Netzwerkgeschwindigkeit Wochen dauern. Zudem wird die weitere Verbreitung der Daten mit dem Download unkontrollierbar, was für alle lizenzierten Inhalte äußerst kritisch ist und zu Vertragsverletzungen führen kann. Dies wiederum schafft Probleme mit Verlagen, mit denen die Staatsbibliothek Verträge geschlossen hat. Schließlich basiert ein Lizenzvertrag auf gegenseitigem Vertrauen, weshalb eine strengere Zugriffskontrolle auf die Daten notwendig ist.

Eine andere Idee ist, dass Wissenschaftlerinnen und Wissenschaftler in die Staatsbibliothek kommen und sich dort mit ihrem eigenen Laptop über die IT-Infrastruktur der SBB direkt mit dem ITR verbinden und dann die entsprechenden Analysen durchführen. Dies ist aus Zeit- und Kostengründen nicht immer realisierbar, vor allem wenn eine ferne Anreise notwendig ist. Und auch in diesem Fall muss kontrolliert werden, ob Daten in zu großem Umfang aus dem ITR abgezogen werden und die Staatsbibliothek damit die Kontrolle über ihre in den Lizenzverträgen eingegangenen Verpflichtungen verliert.

Ein weiteres Problem stellen die erforderlichen Computer-Ressourcen dar, die z.B. für das Training im Rahmen des maschinellen Lernens benötigt werden und die ein einfacher Laptop nicht bieten kann. Daher kann auch die Verfügbarkeit der notwendigen Rechenleistung ein Problem sein.

Ausgehend von dieser Problematik begann unsere Suche nach einer Möglichkeit, unsere Daten und unser ITR für Text- und Datamining zu öffnen. Dabei stießen wir auf Gaia-X. Gaia-X ist eine europäische Initiative für eine unabhängige Cloud-Infrastruktur, wobei es sich eher um ein Framework als um eine weitere Cloud-Plattform wie Amazon Webservices oder Google handelt, die sich in verschiedene Domänen aufgliedert.

Die wichtigsten Eigenschaften des Gaia-X Frameworks sind im Folgenden aufgeführt:

  • Volle Souveränität über die eigenen Daten. Die Kontrolle über die Daten bleibt stets beim Eigentümer.
  • Dezentralität, d.h., es gibt keinen zentralen Punkt im Netzwerk, der für das Funktionieren notwendig ist.
  • Ein Regelwerk zur Schaffung von Vertrauen und spezielle Services (verfügbar als Open Source), die von allen Netzwerkteilnehmern genutzt werden können, um zu überprüfen, ob andere auch die Regeln einhalten. Gaia-X ist also ein föderales System mit implizitem Vertrauen.
  • Gaia-X ist interoperabel, da es keine vorgeschriebene technische Infrastruktur für die Teilnahme gibt.
  • Mit Gaia-X ist es möglich, fachspezifische Dataspaces zu erstellen und diese miteinander zu verknüpfen.

Abbildung 1 zeigt einen Überblick über die Gaia-X Domäne, die wir uns näher angeschaut haben. Links ist das Trust Framework mit den verbundenen föderierten Diensten dargestellt, die dazu genutzt werden können, um die Compliance von allen Teilnehmenden zu überprüfen. Rechts oben finden sich die Portale, die den Einstiegspunkt in die fachspezifischen Dataspaces in Gaia-X darstellen.

 

 

Alles, was in einem Portal veröffentlicht wird, wird im föderierten Katalog verzeichnet, der in der Abbildung neben den Portalen zu sehen ist. Dieser Katalog ist unabhängig von den Portalen und enthält Informationen über alle Assets in Gaia-X. Nutzerinnen und Nutzer besuchen ein Portal und sehen die Inhalte abhängig vom Portal in einer fachspezifischen Ansicht des föderierten Katalogs. Die Inhalte sind jedoch nicht an das Portal gebunden und können jederzeit und überall im Gaia-X-Netzwerk genutzt werden. Auch deswegen ist Gaia-X als dezentral zu bezeichnen.

Um herauszufinden, wie uns diese Eigenschaften unterstützen können, um Text- und Datamining im ITR zu ermöglichen, haben wir ein Proof-of-Concept gestartet. Das Ergebnis war ein eigenes CrossAsia Portal in Gaia-X. Inhalte eines solchen Portals sind sogenannte Service-Offerings in Gaia-X. Dies kann entweder ein Dataset oder ein Algorithmus sein. Für ein Dataset besteht die Möglichkeit des gesicherten Downloads, was bedeutet, dass die URL des Datensatzes niemals sichtbar wird. Gleichzeitig kann zum Beispiel die gesamte Anzahl an Downloads festgelegt werden.

Eine weitere Möglichkeit besteht darin, Compute-To-Data für ein Dataset zu aktivieren. Dies ermöglicht es Nutzerinnen und Nutzern, die Daten mit einem veröffentlichten Algorithmus zu verknüpfen und einen Compute Job zu starten. Die Nutzerinnen und Nutzer erhalten nur die Ergebnisse ihres Compute-Jobs, nicht die Daten selbst. Auf diese Weise können wir die Daten aus unserem ITR für Text- und Datamining anbieten, ohne dass jemand Daten herunterladen oder verschieben muss.

Dies funktioniert, weil hier das Ocean Protocol die technische Grundlage von Gaia-X darstellt. Abbildung 2 zeigt einen vereinfachten technischen Ablauf für Compute-To-Data. Die Schritte sind relativ einfach: zunächst suchen die Nutzerinnen und Nutzer die Daten und den Algorithmus aus dem föderierten Katalog (vorausgesetzt, es bestehen entsprechende Zugriffsrechte). Dann werden Daten und Algorithmus in einen isolierten Execution Pod geladen, der innerhalb einer Kubernetes-Umgebung startet. Einzig die Ergebnisse des Algorithmus und Logfiles zur Ausführung werden dann dem Nutzer oder der Nutzerin zur Verfügung gestellt. Am Ende wird der Execution Pod gelöscht.

 

 

Das Veröffentlichen von Datasets und Algorithmen und deren Verbindung hat wie in der Theorie beschrieben funktioniert. Daher kann der Proof-of-Concept als Erfolg angesehen werden: eine Bibliothek kann Datasets in Gaia-X veröffentlichen, Wissenschaftlerinnen und Wissenschaftler können einen Algorithmus veröffentlichen und beides über das Portal kombinieren. Die gewünschten Ergebnisse werden zur Verfügung gestellt, ohne das die Sicherheit der Daten gefährdet wird – keine Downloads sind notwendig und alle Daten bleiben bei der Institution, die sie veröffentlicht hat.

Mit der Ersteinrichtung des Portals muss jedoch festgestellt werden, dass noch einige Verbesserungen notwendig sind, bevor die Lösung in größerem Umfang gut genutzt werden kann. Wer das Portal ausprobieren möchte, wird feststellen, dass der Einstieg in das Gaia-X Netzwerk nicht einfach ist und einiger Erklärungen bedarf. Da es sich bei der Datenbank des föderierten Katalogs um einen Distributed Ledger handelt, wird ein Wallet zur Identifizierung und Rechtegewährung benötigt. Daher muss im Browser ein Wallet (z.B. MetaMask) installiert und konfiguriert werden. Nach dem Einstieg ins Netzwerk ist jedoch die Veröffentlichung von Datasets und Algorithmen recht einfach, wenn auch die Verwendung von Daten bzw. das Starten eines Compute-Jobs eine Reihe von Bestätigungen bestimmter Transaktionen auf dem Ledger erfordert.

Zusammenfassend lässt sich feststellen, dass Gaia-X eine interessante neue Möglichkeit für GLAM-Institutionen ist, ihre schützenswürdigen Daten anzubieten. Gaia-X ist derzeit noch stark von wirtschaftlichen und industriellen Interessen mit einer starken kommerziellen Ausrichtung getrieben. Dennoch haben wir uns entschieden, vor allem aufgrund der guten Ergebnisse, unsere Aktivitäten in Gaia-X fortzuführen und den Proof-of-Concept zu einer Pilotanwendung weiterzuentwickeln. Hier arbeiten wir an ersten Verbesserungen der User-Experience und werden in Kürze weitere Use-Cases mit wissenschaftlichem Fokus durchführen. Wir engagieren uns gleichzeitig in der Gaia-X und Ocean-Protocol-Community, um auch nicht-kommerzielle Anwendungsfälle in Gaia-X besser zu ermöglichen und Gaia-X zu einem wissenschaftlichen Ökosystem für fachspezifische Dataspaces weiterzuentwickeln.

Basierend auf unseren Erfahrungen aus dem Proof-of-Concept möchten wir Einrichtungen des Kulturerbes vorschlagen, darüber nachzudenken, wie Gaia-X und das Ocean Protocol sie dabei unterstützen können ein Fullstack-Dataprovider zu werden. Und eben nicht nur ein Dataprovider für Metadaten, um Kulturartefakte zu finden, nicht nur ein Dataprovider für Texte zum Lesen, Audios zum Hören, Bilder oder Videos zum Ansehen oder Forschungsdaten zum Analysieren. Sondern vielmehr ein Dataprovider, der solche Kulturdaten in hoher Qualität auch für Algorithmen und Netzwerke für maschinelles Lernen anbietet und dabei – sofern notwendig – die Hoheit über die Daten behält.

Derzeit werden Large Language Models stark von großen Unternehmen wie OpenAI, Google oder Facebook kontrolliert. Wenn jedoch jeder die Möglichkeit erhält, seine eigenen Modelle mit Daten von GLAM- Institutionen zu trainieren, kann das maschinelle Lernen demokratisiert werden. Da jeder Zugang zu den Daten hat, die er oder sie für seine Algorithmen benötigt – entweder zu freien Daten oder bei lizenzierten Daten dort, wo ein entsprechendes Zugriffs- und Lizenzrecht besteht. Neue Ansätze wie Federated Learning können dabei helfen und den Prozess sogar noch stark vereinfachen. Unser Ziel ist es, das Training künstlicher Intelligenz zu verbessern, indem wir unsere digitalen Lesesäle für die Algorithmen öffnen und nicht nur die neuen Möglichkeiten der künstlichen Intelligenz selbst zu nutzen.

Referenzen

Wenn Sie interessiert sind, die Lösung zu testen und Unterstützung benötigen, wenden Sie sich bitte an x-asia(at)sbb.spk-berlin.de

DH Infrastruktur in Japan

Beim 18. deutschsprachigen Japanologentag Ende August 2022 online organisiert von der Japanologie Düsseldorf fand eine Session mit Vertreter:innen von drei Infrastruktureinrichtungen statt, die Services, Datensätze, Tools sowie Informationsplattformen rund um Forschung und Lehre in den Digital Humanities (kurz DH) in Japan anbieten. Zunächst präsentierten die Gäste in parallelen Breakout Rooms die Aktivitäten ihrer Einrichtungen, bevor sich im Anschluss alle Teilnehmenden zu einer gemeinsamen Diskussionsrunde versammelten. Die Themen waren u.a. Fortbildung im Umgang mit DH oder Möglichkeiten der zukünftigen Zusammenarbeit. Im Folgenden findet sich ein kurzer Überblick über die Inhalte der Beiträge sowie Links zu den PPTs. Die Vortragenden haben zugestimmt, dass ihre PPTs unter der Lizenz CC-BY nachgenutzt werden dürfen.

TOKUHARA Naoko vom NDL Lab der National Diet Library (NDL), Tokyo, stellte die Vision ihrer Bibliothek für die Jahre 2021-2025 vor, in deren Mittelpunkt der digitale Wandel („digital shift“) steht, der die gesamte Gesellschaft und ihre Kommunikationswege erfasst hat. Um dieser Veränderung gerecht zu werden, hat sich die NDL u.a. ein umfassendes Digitalisierungsprogramm ihrer Bestände vorgenommen, welches moderne Druckwerke, Zeitschriften, vormoderne Titel, Amtsdruckschriften, Zeitungen und Dissertationen gleichermaßen umfasst. Auch wenn Teile dieser Digitalisate nur in den Räumen der NDL oder nur für registrierte Einrichtungen des Digitized Contents Transmission Service zugänglich sind, stellt diese Intensivierung der Digitalisierungsmaßnahmen einen erheblichen Schritt in Richtung weltweite Zugänglichkeit zu den Sammlungen der NDL dar. Das so genannte „Research and Development for Next-Generation Systems Office (R&D Office)“, welches Frau Tokuhara leitet, entwickelt Services und Tools, um den Herausforderungen der Digitalisierung zu begegnen. Zu den Angeboten (s.a. den GitHub Account der NDL) zählen:

  • massenhaft erstellte Textdaten unter Verwendung eines kommerziellen OCR-Programms (inkl. Trainingsdatensets)
  • ein selbst entwickeltes OCR-Programm für die Texterkennung, das so genannte „NDLOCR“ (inkl. Trainingsdatensets)
  • eine Volltextsuche in den digitalen Sammlungen der NDL
  • die Entwicklung eines NDL Ngram Viewers

Nähere Informationen zu den Aktivitäten finden Sie auf den verlinkten Webseiten oder in dieser PPT.

 

KITAMOTO Asanobu leitet das ROIS-DS Center for Open Data in the Humanities (CODH), Tokyo. Das CODH bietet eine ganze Reihe von offenen Datensets sowie Tools für die DH an. Dabei werden nicht nur Texte, sondern auch der Umgang mit Bilddaten und Karten berücksichtigt. Das Angebot ist breit gefächert und umfasst u.a.:

  • Datensets für Edo-zeitliche Kochrezepte, Landkarten, Siegel und vormoderne Texte
  • Trainingsdaten für die OCR-Erschließung von Zeitschriften wie Kokumin no tomo, Meiroku Zasshi (Kindai OCR)
  • Trainingsdatenset für Kursivschrift (kuzushiji)
  • Miwo App, welche das Lesen von Texten in kuzushiji unterstützt
  • Open Software, wie die IIIF Curation Platform, welche die Zusammenstellung eigener Bilddatensammlungen ermöglicht
  • Beispielprojekte, wie Edomi, welches Text- und Bildinformationen mit Bezug zu Edo (heute: Tokyo) sowohl thematisch als auch geographisch aufbereitet

Nähere Informationen zu den Aktivitäten finden Sie auf den verlinkten Webseiten oder in dieser PPT.

 

NAGASAKI Kiyonori ist Senior Fellow am International Institute for Digital Humanities, Tokyo, und einer der national wie international engagiertesten “Digital Humanists” in Japan. In seiner Präsentation zu “Access to Digital Tools, Resources, and Methods for Japanese Studies” legte er den Fokus auf Informationsmöglichkeiten zu DH in Japan. Seine PPT bietet einen konzisen Überblick samt Links zu wichtigen Akteur:innen, Webseiten und eine Leseliste DH-bezogener Fachliteratur. Herr Nagasaki verwies u.a. auf das japanische Fachmagazin “Digital Humanities Monthly”, den von ihm geführten Blog und Kalender zu DH-bezogenen Aktivitäten in Japan sowie das Netzwerk DH Japan. Des Weiteren setzt er sich für die Verbreitung des TEI-Standards in Japan ein. Zu diesem Zweck hat Herr Nagasaki mit weiteren Kollegen die Arbeitsgruppe TEI-C東アジア/日本語分科会 gegründet. In den regelmäßigen online Treffen der Arbeitsgruppe kann man sich über die konkrete Anwendung des TEI-Standard für japanischen Texte austauschen.

Nähere Informationen zu den Aktivitäten finden Sie auf den verlinkten Webseiten oder in dieser PPT.

Japanologentag 2022

Vom 24.-26.08.2022 wird der 18. Deutschsprachige Japanologentag durch das Institut für Modernes Japan an der Heinrich-Heine-Universität Düsseldorf als Online-Veranstaltung ausgerichtet. Zum Zeitpunkt der Veröffentlichung dieses Beitrags ist die Registrierung noch geöffnet. Die Teilnahme ist kostenlos, die Anzahl der Teilnehmenden ist jedoch begrenzt.

In der Sektion Informations- und Ressourcenwissenschaften, die von Ursula Flache vom CrossAsia Team der Staatsbibliothek zu Berlin-Preußischer Kulturbesitz (SBB-PK) gemeinsam mit Cosima Wagner von der Universitätsbibliothek der FU Berlin organisiert wird, bietet sich ein breit gefächertes Programm rund um digitale Angebote, Tools, Open Access und informatorische Infrastruktureinrichtungen für die japanbezogene Forschung.

In der gemeinsam mit der Sektion Medien durchgeführten Session zu Open Scholarship und Japanologie (InfoRess01,) soll die Diskussion angestoßen werden, wie man vermehrt eine Kultur der „Offenheit” im Fach etablieren kann. Drei kurze Inputreferate dazu liefern Elisabeth Scherer (Heinrich-Heine-Universität Düsseldorf) mit ihrem Beitrag zu Open Educational Resources, Martin Roth (Ritsumeikan Universität) und Magnus Pfeffer (Hochschule der Medien, Stuttgart) mit der Vorstellung ihres DFG-geförderten Visual Media Graph Projekts sowie Ursula Flache (SBB-PK) mit einer Präsentation über das CrossAsia Open Access Repository.

Informationskompetenzschulungen spielen eine bedeutende Rolle in der Ausbildung kommender Generationen von Forscher:innen. Die betreffende Session (InfoRess02) richtet sich deshalb nicht nur an Bibliothekar:innen (teaching librarian), sondern ebenso an alle Lehrenden und Tutor:innen, die in diesem Bereich tätig sind. Zunächst wird Theresia Peucker (Freie Universität Berlin, Campusbibliothek) anhand eines Praxisbeispiels Potenziale der universitären Vermittlung von Informationskompetenz aufzeigen. Anschließend sollen in der gemeinsamen Diskussion Best Practices, Herausforderungen und mögliche Lösungen besprochen werden. Neben den Panelist:innen Ursula Flache (SBB-PK), Nobutake Kamiya (Universität Zürich, OAS Bibliothek), Theresia Peucker (FU Berlin), Cosima Wagner (FU Berlin) sowie Chantal Weber (Universität zu Köln) sind alle Anwesenden eingeladen, sich mit ihren eigenen Erfahrungen und Verbesserungsideen einzubringen.

In einer weiteren Session, die gemeinsam mit der Sektion Medien organisiert wird, liegt der Fokus auf dem Thema „Daten“ (InfoRess03). Zoltan Kacsuk (Hochschule der Medien, Stuttgart) und Martin Roth (Ritsumeikan Universität) beleuchten datenbasierte Repräsentationen als Zugänge zur visuellen Medienkultur Japans. Nobutake Kamiya (Universität Zürich) berichtet von seiner Analyse japanischsprachiger Twitter-Daten mit Tools wie Elasticsearch, Kibana und Kuromoji. Martina Siebert und Christian Dunkel (SBB-PK) stellen im Zusammenhang mit dem CrossAsia Integrated Text Repository (ITR) Tools zur Recherche, Analyse und Mehrwerterzeugung insbesondere im Hinblick auf die CrossAsia IIIF-Plattform vor.

Dem Thema Forschungsdatenmanagement ist eine Diskussionsrunde (InfoRess05, in japanischer Sprache) gewidmet, die den Austausch mit Anbietenden von digitalen Ressourcen bzw. Infrastrukturen in Japan befördern soll. Eingeladen sind dazu Nagasaki Kiyonori (International Institute for Digital Humanities, Tokyo), Kitamoto Asanobu (National Institute of Informatics / Center for Open Data in the Humanities, Tokyo) und Tokuhara Naoko (National Diet Library, Tokyo), die nicht nur mit den Panelist:innen Nobutake Kamiya (Universität Zürich), Cosima Wagner (FU Berlin) und Ursula Flache (SBB-PK), sondern für das Gespräch mit allen Interessierten zur Verfügung stehen. Zur Einstimmung auf die Diskussion finden sich in diesem FUBox Dokument (DSGV-konforme Plattform der FU Berlin) vier Fragen. Über Ihr (anonymes) Feedback bis zum 22.08.22 würden wir uns sehr freuen! Bitte tragen Sie Ihre Antworten direkt im FUBox Dokument ein.

Zwei Workshops sind laufenden Projekten im Bereich der Digital Humanities gewidmet. Stephan Köhn, Paul Schoppe und Martin Thomas (Universität zu Köln) präsentieren im ersten Workshop (InfoRess04) ihre im Rahmen eines DFG-Projekts begonnene Datenbank zu enzyklopädischen Wörterbüchern der Edo-Zeit, den Setsuyōshū, mit der philologisches Arbeiten ins digitale Zeitalter überführt wird. Die damit verbundenen Herausforderungen sollen mit den Anwesenden diskutiert werden. Im zweiten Workshop (InfoRess06) stellen Koray Birenheide und Bastian Voigtmann (Goethe-Universität Frankfurt) die an der Frankfurter Japanologie entwickelte Software DemiScript als Werkzeug zur digitalen Erschließung japanischer Holzdrucke anhand zweier Lehrforschungsprojekte vor.

In der gemeinsamen Abschlussdiskussion der Sektionen Medien, Wirtschaft und Informations- und Ressourcenwissenschaften soll ausgelotet werden, welche Herausforderungen die digitale Transformation für die japanologische Forschung und Lehre birgt und wie sie diesen konstruktiv begegnen kann. Besonders in den Blick genommen werden die Themenbereiche “Daten-Arbeit, arbeiten mit Daten”, “Digitalität und gesellschaftliche Teilhabe” sowie “Plattform Japanologie?!”. Die Sektionsleitenden Ursula Flache (SBB-PK), Takahiro Nishiyama (Universität Bonn), Martin Roth (Ritsumeikan Universität) und Cosima Wagner (FU Berlin) freuen sich auf Ihre rege Beteiligung!

Bis bald beim Japanologentag 2022!

Einladung zum virtuellen Workshop “FAIRe Forschungsdaten step by step” von CLARIAH-DE

CLARIAH-DE, der Zusammenschluss der geisteswissenschaftlichen digitalen Forschungsinfrastruktur-Verbünde CLARIN-D und DARIAH-DE, richtet Ende August einen zweitägigen virtuellen Workshop mit dem Titel „FAIRe Forschungsdaten step by step“ aus, der sich insbesondere an Forschende der Geisteswissenschaften und benachbarter Disziplinen richtet, die bisher wenig Erfahrung mit digitalen Forschungsmethoden und -angeboten gesammelt haben. Den Teilnehmer:innen soll durch diesen Workshop der Einstieg in das Thema digitales Forschungsdatenmanagement und -publizieren erleichtert werden.

Folgende und weitere Fragen sollen im Rahmen des Workshops beantwortet werden:

  • Welche Vorteile ergeben sich durch das FAIRe Forschungsdatenmanagement mit einer digitalen Forschungsinfrastruktur?
  • Was ist bei der nachhaltigen Sicherung meiner Forschungsdaten zu bedenken?
  • Wie und wo stelle ich sie anderen bestmöglich zur Verfügung?
  • Welche Metadaten sind dafür notwendig und wie können sie sinnvoll vergeben werden?
  • Wie nutze ich bestehende Forschungsdaten nach?

Workshop: FAIRe Forschungsdaten step by step
Organisation:
CLARIAH-DE (Sonja Friedrichs, Melina Jander, Nanette Rißler-Pipka)
Termin: 30.–31. August 2021 (Tag 1: 10:00–15:15 Uhr, Tag 2: 10:00–13:30 Uhr)
Workshopsprache: Deutsch
Registrierung: s. DHdBlog

Weitere Informationen zum Inhalt des Workshops und den Link für die Registrierung (bis 25.8.) finden Sie im DHdBlog.

Forschungsdaten in den Asienwissenschaften: NFDI Konsortium Text+ bittet um Ihre Mithilfe

Im Zuge der Vorbereitungen zur Einreichung eines Förderantrags in der zweiten NFDI-Runde bittet das Forschungsdaten-Konsortium Text+ mit zwei Aufrufen um Mithilfe aus den geisteswissenschaftlichen Communities. Ziel ist, die Bedarfe und verschiedenen Nutzungsszenarien in den unterschiedlichen Disziplinen zu ermitteln, sodass diese repräsentativ in den Antrag und die Überlegungen zu einer Forschungsdateninfrastruktur einfließen können.

Als FID Asien unterstützen wir diese zwei Aufrufe zur Beteiligung und würden uns freuen, wenn Sie Ihre Erfahrungen, Forschungsfragen, Bedarfe sowie beispielhafte Datensets aus den drei Datendomänen digitale Sammlungen, lexikalische Ressourcen und Editionen bei Text+ einreichen. Gerade vor dem Hintergrund der vielfältigen Daten in den Sprachen und Schriften Asiens in unseren wissenschaftlichen Projekten sollten diese Beiträge für das Konsortium von besonderem Interesse sein.

Call for User Stories: Sammlung konkreter Bedarfe aus der Text+-Community

Einreichen von Forschungsdaten: Angebote für Forschungsdaten zur Integration im Rahmen von Text+

Die Einreichungsfrist ist der 16. August 2020.

 

 

Informationen zu Forschungsdaten in den asienbezogenen Wissenschaften veröffentlicht

Forschungsdaten sind ein hochaktuelles Thema, das zunehmend auch in den Asienwissenschaften diskutiert wird. Im Rahmen des FID Asien haben wir – nicht zuletzt auf ausdrücklichen Wunsch seitens der Wissenschaft – das Thema ebenfalls auf unsere Agenda gesetzt. Ziel ist, eine Angebots-, Informations- und Beratungsstruktur zu asienbezogenen Forschungsdaten aufzubauen und zu etablieren. Dabei wollen wir sowohl Anwendungsfragen seitens der Wissenschaft berücksichtigen, als auch Aktivitäten auf nationaler Ebene begleiten. Daraus sollen Lösungsansätze und Empfehlungen zum Forschungsdatenmanagement für die asienbezogenen Wissenschaften entwickelt werden. Nicht zuletzt wollen wir Wissenschaftlerinnen und Wissenschaftler sowie Projekte dabei unterstützen, einen geeigneten Ort zur Veröffentlichung ihrer Forschungsdaten zu finden – sei es bei CrossAsia oder in einem anderen, fachlich geeigneten Repositorium. Für mehr Informationen zu den Aktivitäten von CrossAsia bezüglich Forschungsdaten siehe das FID Programm sowie auf den „Über uns“-Seiten.

Was ist bisher geschehen?

Ende letzten Jahres hatten wir uns zunächst mit den asienwissenschaftlichen Fachgesellschaften sowie Vertreterinnen und Vertretern aus einigen exemplarischen Projekten in einem Workshop zusammengesetzt, um zu sehen, wo die Asienwissenschaften stehen, welche Aktivitäten sinnvoll erscheinen, um das Thema nicht nur verstärkt auf die Agenda zu bringen, sondern auch nachhaltig und koordiniert anzugehen. Mehr dazu können Sie in dem Bericht zum Workshop nachlesen.

Als ein Ergebnis aus dem Workshop haben wir in einer Online-Umfrage versucht von Ihnen zu erfahren, wie Ihre Erfahrungen mit Forschungsdaten sind. Wir haben sowohl nach Ihren Erfahrungen zur Recherche nach und der Veröffentlichung von Forschungsdaten gefragt, als auch nach Ihren Bedürfnissen an einem Beratungsangebot. Auch hierzu haben wir die Ergebnisse der Umfrage veröffentlicht.

Basierend auf diesen Erbnissen und Erkenntnissen haben wir nun kürzlich einige erste Informationen zu Forschungsdaten und deren Management in den asienbezogenen Wissenschaften online gestellt. Auf der Seite, die in einem Frage-Antwort-Format gehalten ist, finden Sie Hinweise sowie Links mit weiterführenden Informationen u.a. zu folgenden Themen: Was ist beim Arbeiten mit asienbezogenen Forschungsdaten zu beachten? Welche Empfehlungen diesbezüglich existieren bereits? Was ist bei der Projektantragstellung zu berücksichtigen? Wo können Sie entsprechende Daten recherchieren und selbst publizieren? Die Zusammenstellung mit Informationen zu Forschungsdaten in den asienbezogenen Wissenschaften finden Sie auf unserer Webseite unter „Service“.

Wir freuen uns, wenn Sie mit uns zum Thema Forschungsdaten ins Gespräch kommen. Gerne können Sie sich mit all Ihren Fragen und Ideen an uns wenden, als Kommentar im Forum zu diesem Beitrag oder per E-Mail: x-asia@sbb.spk-berlin.de.

Ergebnisse der Umfrage zu Forschungsdaten in den asienbezogenen Wissenschaften

Im Frühjahr haben wir Sie als FID Asien gemeinsam mit den Fachgesellschaften (DGA, DMG, DVCS, GJF, VfK, VSJF) zu Forschungsdaten in den asienbezogenen Wissenschaften befragt. Ziel der Umfrage war, zu ermitteln, wie Sie im Forschungsprozess mit ihren asienbezogenen Daten umgehen, welche Erfahrungen und Meinungen Sie zur Recherche und Nachnutzung sowie Erstellung und Bereitstellung von Forschungsdaten haben und welche Unterstützungsangebote Sie bereits erhalten, bzw. welche Sie sich seitens des FID Asien wünschen.

Wir möchten Ihnen an dieser Stelle ganz herzlich für Ihre rege Beteiligung und die vielfältigen, äußerst hilfreichen Hinweise danken, die Sie uns gegeben haben. Die Beteiligung an der Umfrage und die Ergebnisse zeigen sehr deutlich, dass Forschungsdaten und der Umgang mit diesen auch in den asienbezogenen Wissenschaften bereits wichtige Themen sind, aber es auch noch einigen Erklärungs- und Diskussionsbedarf gibt. Mit diesem Beitrag möchten wir über eine Auswertung der Ergebnisse hinaus versuchen, die Diskussion weiter anzuregen und zugleich in einigen Bereichen vielleicht etwas mehr Klarheit schaffen.

Im Folgenden finden Sie eine Auswertung der Umfrage mit den wichtigsten Ergebnissen und Grafiken sowie mit Erläuterungen; eine vollständige Aufführung aller Tabellen und Grafiken finden Sie zum Download anbei.

 

 

Weiterlesen

Umfrage Forschungsdaten – Newsletter 18

Umfrage zu Forschungsdaten in den asienbezogenen Wissenschaften

Liebe Asienwissenschaftlerin, lieber Asienwissenschaftler,
liebe Nutzerin, lieber Nutzer von CrossAsia,

der aktuelle Newsletter steht ganz im Zeichen von Forschungsdaten. Diese erlangen aufgrund des digitalen Wandels in der Wissenschaft und des Einsatzes computergestützter Methoden zunehmend an Bedeutung. Dies betrifft nicht nur die Geistes-, Kultur- und Sozialwissenschaften im Allgemeinen, sondern auch die Asienwissenschaften, wo bisher im Gegensatz zu anderen Disziplinen vergleichsweise wenig passiert ist. Drei wichtige Aspekte bezüglich Forschungsdaten haben sich in der Diskussion um digitale Forschungsdaten herauskristallisiert:

  • Der Anspruch der guten wissenschaftlichen Praxis und der damit geforderten Nachvollziehbarkeit der Forschungsbasis im Kontext digitaler Forschungsdaten.
  • Forschungsdaten als zitierfähige Datenpublikationen, die nicht nur der Forschungsfrage, in deren Kontext sie entstanden sind, als Basis dienen können, sondern darüber hinaus für verschiedenste Nachnutzungen bereit stehen.
  • Die Präsentation der Forschungsdaten in der Form, dass sie mittels digitaler Werkzeuge genutzt werden können und bspw. über Visualisierungen und statistische Methoden weitere, u.U. nicht vorausgesehene Erkenntnisse durch eine Nutzungsverbesserung der Daten generieren können.

Die Diskussion um digitale Forschungsdaten betrifft darüber hinaus aber auch zahlreiche rechtliche, ethische und organisatorische Aspekte, wie bspw. die Einwilligung zur Nachnutzung der Daten durch andere Forscherinnen und Forscher, das Einholen des Einverständnisses zur Nachnutzung der Daten durch bspw. Studienteilnehmer*innen und den Schutz von Persönlichkeitsrechten sowie anderer sensitiver Daten.

Das Thema Forschungsdaten inklusive des Umgangs mit diesen ist längst auch auf der Agenda von Wissenschaftsgremien und Forschungsförderern angekommen. So ruft die DFG bspw. Wissenschaftlerinnen und Wissenschaftler dazu auf, bei der Antragsstellung bereits ein Konzept für den Umgang mit Forschungsdaten in dem Projekt zu entwickeln.

Der FID Asien, der von der DFG maßgeblich finanziell unterstützt wird, möchte die Fachcommunity der Wissenschaftlerinnen und Wissenschaftler, die zu Asien forschen, beim Forschungsdatenmanagement unterstützen und innerhalb der Fachcommunity eine Diskussion zum Thema anstoßen. Dies geschieht auch vor dem Hintergrund der sich aktuell etablierenden Nationalen Forschungsdateninfrastruktur (NFDI). Die Asienwissenschaften sind aufgefordert, auf Bedarfe und Besonderheiten bezüglich Forschungsdaten aufmerksam zu machen, damit diese in die allgemeine Diskussion eingebracht und bei der Erarbeitung der infrastrukturellen und technischen Rahmenbedingungen berücksichtigt werden können.

Um diesen Dialog anzustoßen möchte der FID Asien gemeinsam mit den Fachgesellschaften (DGA, DMG, DVCS, GJF, VfK, VSJF) von Ihrer Expertise lernen und von Ihnen erfahren, wie Sie im Forschungsprozess mit ihren Daten umgehen, welche Erfahrungen und Meinungen Sie zur Recherche und Nachnutzung sowie Erstellung und Bereitstellung von Forschungsdaten haben.

Wir würden uns sehr freuen, wenn Sie sich einen Augenblick Zeit für diese Umfrage nehmen. Die Beantwortung dauert ca. 20 Minuten. Die Ergebnisse der Umfrage werden wir bei ausreichender Beteiligung im CrossAsia Blog veröffentlichen.

Die Umfrage ist offen bis: 8. April 2019

Weitere interessante und neue Entwicklungen aus CrossAsia

Neu lizenzierte Datenbanken und Testzugänge

Vielen Dank für Ihre Unterstützung!

Ihr Team vom FID Asien