Forschungsdaten Archive

CrossAsia DH Lunchtalks – Getting the Lines Right: Layout Analysis as the Critical First Step for Tibetan Newspaper HTR

23. März 2026/in Aktuelles, CrossAsia DH Lunchtalks, Forschungsdaten, OCR, Veranstaltungen/von CrossAsia

Dear users,

On March 24th at 12:30 pm (CET), we are pleased to host the second session of the CrossAsia DH Lunchtalks 2026. The talk will be given by Dr. Franz Xaver Erhard and is titled “Getting the Lines Right: Layout Analysis as the Critical First Step for Tibetan Newspaper HTR.” Dr. Erhard will introduce his the Divergent Discourses project, as well as TransYolo, a custom Python workflow to solve the layout analysis bottleneck in digitizing historical Tibetan newspapers.

Handwritten Text Recognition (HTR) has matured rapidly in recent years, and for many document types, the core recognition task is largely solved. Yet when researchers turn to historical Tibetan newspapers, progress stalls — not because HTR models fail, but because the lines are never correctly identified in the first place. This talk argues that layout analysis, not transcription, is the true bottleneck in Tibetan newspaper digitization, and that no single off-the-shelf tool is adequate for the task.

Tibetan newspapers such as the Tibet Daily (TID) collection present a combination of challenges that expose the limits of general-purpose layout tools: dense multi-column page designs with inconsistent column spacing, mixed scripts (Tibetan, Chinese, Latin), varying typefaces and handwriting styles across issues and periods, and the physical realities of digitized print — page skew, gutter distortion, and uneven illumination. These properties interact in ways that defeat standard segmentation approaches, producing incorrect line detections, boundary bleed-across, and broken reading order — all before a single character is recognized.

Transkribus, the dominant platform for historical HTR in the humanities, offers built-in layout analysis through its field models. These work well for their intended use cases, but Tibetan newspaper material sits well outside that scope: column layouts confuse region assignment, high line density triggers false positives, and the platform’s limited configurability makes targeted correction difficult. The lesson is not that Transkribus falls short, but that specialized material demands specialized solutions.

To meet this need, the talk introduces TransYolo, a custom Python workflow developed within the Divergent Discourses project (AHRC/DFG). TransYolo uses a YOLO model trained specifically on Tibetan newspaper pages to detect text lines, assigns detections to text regions previously detected with Transkribus, reconstructs reading order, and exports Transkribus-compatible PAGE XML. The example shows what becomes possible when layout analysis is treated as a problem in its own right.

About the speaker:

Dr. Franz Xaver Erhard is a Tibetologist specializing in Tibetan literature, biography, and cultural history, with close to a decade of fieldwork experience in Lhasa. He is the Principal Investigator of the DFG/AHRC cooperative project „Divergent Discourses: Processes of Narrative Construction in Tibet, 1955–1962,“ which compiles and analyses the first modern corpus of historical Tibetan newspapers using digital humanities methods, including computational tools for text recognition and natural language processing, to trace how divergent narratives emerged and evolved in PRC and exile publications during one of the most consequential periods of Tibetan history.

The lecture will be held in English. If you have any questions, please contact us at ostasienabt@sbb.spk-berlin.de.

The lecture will be streamed and recorded via Webex. You can take part in the lecture using your browser without having to install a special software. Please click on the respective button “To the lecture” below, follow the link “join via browser,” and enter your name.

To the lecture

You can find the full programm of CrossAsia DH Lunchtalks 2026 here. Further talks will also be announced on our blog as well as on Mastodon and BlueSky.

Yours,

CrossAsia Team

CrossAsia DH Lunchtalks – AI for the Humanities: A Case of Manchu OCR

2. Februar 2026/in Aktuelles, CrossAsia DH Lunchtalks, Forschungsdaten, Newsletter 36, OCR, Veranstaltungen/von CrossAsia

Dear users,

On February 3rd at 12:30 pm (CET), we are pleased to host the first session of the CrossAsia DH Lunchtalks 2026. The talk will be given by Dr. Yan Hon Michael Chung and is titled “AI for the Humanities: A Case of Manchu OCR.” Dr. Chung will introduce the development pipeline for creating an OCR model for Manchu-language documents and share his reflections on applying AI to humanities research.

Manchu, today an endangered language, was once the official language of China’s last imperial dynasty, the Qing (1644–1911). The Qing state produced an enormous corpus of Manchu-language documents, many of which have been digitized and made publicly available by archives and libraries worldwide. Despite this abundance of scanned materials, there is still no reliable, publicly accessible optical character recognition (OCR) system for Manchu, posing a major bottleneck for historical research.

This presentation introduces an end-to-end Manchu OCR system developed by fine-tuning a vision–language model (VLM), and uses it as a case study to reflect on the broader challenges of applying AI to humanities research. It identifies three structural constraints that distinguish humanities-oriented AI development from commercial or industrial settings: the scarcity of labeled training data, the unusually high accuracy requirements demanded by scholarly research, and the limited computational resources available to most humanities scholars.

To address these constraints, the project adopts a small-model, data-centric strategy. The OCR model is trained using a combination of large-scale synthetic data and carefully curated historical samples. Specifically, a LLaMA-3.2-11B Vision model is fine-tuned using approximately 60,000 synthetic Manchu images alongside 20,000 Manchu word images extracted from real Qing-era documents. The resulting model achieves up to 96% accuracy on unseen, real-world scanned Manchu sources.

The OCR pipeline is further enhanced through a custom Manchu word detection and segmentation model, combined with a post-processing large language model for typographical correction. Together, these components form a complete, practical Manchu OCR system built with state-of-the-art vision–language and language models. Beyond presenting technical results, this presentation argues that carefully constrained, accuracy-driven AI systems offer a viable and sustainable path for AI research in the humanities.

About the speaker:

Dr. Michael Chung is an Assistant Professor in Digital Humanities at the Hong Kong University of Science and Technology. Chung received his PhD in history from Emory University in 2025, and his BA and MPhil from the Chinese University of Hong Kong in 2012 and 2016 respectively. Chung’s research centers on the early Qing dynasty, with a focus on the transfer of European artillery technology and the formation of the Hanjun Eight Banners. As a digital humanist, Chung is currently developing a Manchu OCR system based on a fine-tuned vision-language model.

The lecture will be held in English. If you have any questions, please contact us at ostasienabt@sbb.spk-berlin.de.

To the lecture

You can find the full programm of CrossAsia DH Lunchtalks 2026 here. Further talks will also be announced on our blog as well as on Mastodon and BlueSky.

Yours,

CrossAsia Team

CrossAsia DH Lunchtalks Launching in February 2026

16. Januar 2026/in Aktuelles, CrossAsia DH Lunchtalks, Forschungsdaten, Newsletter 36, OCR, Veranstaltungen/von CrossAsia

Dear colleagues,

We are delighted to announce that the CrossAsia DH Lunchtalks will return in February 2026.

Originally launched between winter 2023 and spring 2024, the first DH Lunchtalk Series was warmly received by our community. Building on this success, the CrossAsia team and the Max Planck Institute for the History of Science (MPIWG) went on to co-host the international conference “Charting the European D-SEA: Digital Scholarship in East Asian Studies” in Berlin from 8–12 July 2024, bringing together around 120 participants from 19 countries and regions (read more).

In light of this strong engagement and our ongoing commitment to digital scholarship, we are pleased to relaunch the Lunchtalks as an online forum where scholars can share project updates, present new tools and methods, offer methodological insights, and showcase innovative research in Digital Asian Studies.

Between February and June 2026, the DH Lunchtalks will take place monthly. While the 2023–2024 season focused primarily on training in digital tools and platforms, the upcoming series will feature 60-minute lunchtime talks (including Q&A) by distinguished speakers presenting their latest digital research projects. The currently confirmed programme is as follows:

February 3
Dr. Michael Yan Hon CHUNG (Hong Kong University of Science and Technology)
AI for Endangered Documentary Archives: Manchu OCR
March 24
Dr. Franz Xaver Erhard (Leipzig University)
Getting the Lines Right: Layout Analysis as the Critical First Step for Tibetan Newspaper HTR
April 21
Dr. ZHAN Beibei (Yuelu Academy, Hunan University)
Reimagining Humanities Education: Interdisciplinary Cultivation in the Era of Digital Intelligence
May 21
Dr. CHEN Shih-Pei (Max Planck Institute for the History of Science) & Dr. Mariana Favila-Vázquez (CIESAS–Unidad Ciudad de México)
Structures of Knowing an Empire: Building Digital Analytical Tools for Chinese Local Gazetteers and Spanish Relaciones Geográficas
June 9
Dr. CHOI Donghyeok (Hong Kong Baptist University)
From Reading to Discovery: AI-Assisted Workflows for East Asian Historical Texts
June 23
Dr. Rafał Jan Felbur (Heidelberg University)
Born-digital Dictionary of Early Chinese Buddhist Translations

All DH Lunchtalks will take place from 12:30 to 13:30 (Central European Time) and will be held online via Webex. Further details for each session, including abstracts and access links, will be announced in advance on the CrossAsia blog. The first talk, by Prof. Michael Yan Hon Chung, will be announced shortly on CrossAsia.

If you have any questions about the DH Lunchtalks, or if you are interested in proposing a future talk and sharing your own digital research, please contact Dr. Jing Hu at jing.hu@sbb.spk-berlin.de.

We look forward to welcoming many of you to the CrossAsia DH Lunchtalks 2026!

Yours,

CrossAsia Team

Online-Workshop: AI and Knowledge in Action – CrossAsia and the Stabi Lab

4. November 2025/in Aktuelles, Forschungsdaten, Schulungen, Veranstaltungen/von CrossAsia

Dear users,

Discover how the Staatsbibliothek zu Berlin is exploring the future of library services through two exciting lab initiatives: The CrossAsia Lab is experimenting how artificial intelligence can transform access to knowledge. Learn how multilingual, mixture, licensed and copyright protected materials with library services are being developed to make it easier than ever to discover and explore huge collections in different languages in scripts — no matter where you’re from or what language you speak. The Stabi Lab, on the other hand, focuses on knowledge transfer and collaboration. How can experimental spaces create room for innovation? Whether through collaborative research or joint projects, the Stabi Lab offers a wide range of opportunities for co-creation and future partnerships. It’s a space where ideas are tested, knowledge is shared, and new ways of working together are encouraged. Together, these labs showcase how the Staatsbibliothek zu Berlin is not only preserving knowledge — but actively shaping its future.

Date: Thursday 6 November 2025, 14:00-15:30

Speaker: Hou-Ieong Ho, Roman Kuhn, John Woitkowitz

Join the meeting: https://spk-berlin.webex.com/spk-berlin/j.php?MTID=made1262f1f89b3e6c79b5b15fd405290

The event is part of Berlin Science Week. All events taking place at the Staatsbibliothek zu Berlin as part of Berlin Science Week can be found here.

SBB-PK

The Advantages of Infrared Reflectography: Recovering the Title of a 19th Century Medical Recipe Book from China

31. März 2025/in Aktuelles, Digitalisierung, Forschungsdaten, Handschriften/von CrossAsia

Gastbeitrag von Dr. Thies Staack (Centre for the Study of Manuscript Cultures, University of Hamburg)

(Die deutschsprachige Version finden Sie im Stabi-Blog)

During the past few years, I have been conducting a research project on the collecting and exchange of medical recipes in 19^th and early 20^th century China at the Centre for the Study of Manuscript Cultures (CSMC) in Hamburg. Since manuscripts, both bound recipe books and individual recipes on loose leaves, played an important role in this respect, the Unschuld collection of Chinese medical manuscripts is an invaluable source for my research.

Among the close to 1,000 manuscripts from the Unschuld collection now housed at the Staatsbibliothek zu Berlin Preußischer Kulturbesitz (SBB-PK), there is a small thread-bound volume with an inconspicuous outside appearance but an extraordinarily rich content of overall roughly 800 mostly medical recipes. The manuscript with the shelf mark “Slg. Unschuld 8051” was produced in 19^th century Canton and attests to a vibrant exchange of medical recipes during that period. I have introduced it in some more detail elsewhere. According to the description in the catalogue of the collection, published by Paul U. Unschuld and Zheng Jinsheng in 2012, the manuscript does not have an original title, which would usually be found on the front cover or on the first page of a volume. The title provided in the catalogue – Yifang jichao 醫方集抄 or “Hand-copied collection of medical formulas” – was obviously assigned by Unschuld and Zheng based on its content.

Fig. 1: Slg. Unschuld 8051, opened at the table of contents (photo by the author).

The fact that Slg. Unschuld 8051, like many other manuscripts from the Unschuld collection, has already been digitised is of tremendous help for my research. Still, to be able to thoroughly assess the materiality of this written artefact, for example, to get a feel for its size and weight, I went to Berlin to inspect Slg. Unschuld 8051 in the SBB reading room in April 2022. The first surprise was just how small and portable the volume is (see Fig. 1). It would easily fit into a pocket or sleeve and the stains on its covers suggest that it may indeed have been carried around a lot by its previous owners.

Fig. 2: The bottom edge of Slg. Unschuld 8051 under normal interior light (photo by the author).

When I turned the manuscript in my hands, I noticed what appeared to be writing with ink on the bottom of the volume (see Fig. 2). For some of the thread-bound Unschuld manuscripts images of the top, front and bottom edge as well as the spine have been included in the digitised version. This is, unfortunately, not the case for Slg. Unschuld 8051, which was digitised already in 2014. Hence, this was the first time I got to see the bottom edge of the manuscript. Due to the darkening of the paper at the edges, it was difficult to decipher any writing, but fortunately I had brought a portable digital microscope (Dino-Lite) from Hamburg, which allows analysis with the help of light in the invisible spectrum (ultraviolet and infrared light).

Carbon ink, which was traditionally used in China, is much more clearly visible under infrared light than it is under daylight. The infrared images taken with the Dino-Lite showed clearly discernible brushstrokes (see Fig. 3). Since the area that can be photographed with the microscope’s magnification is rather small, I had to piece together several images to be able to decipher whole characters (see Fig. 4), but this was sufficient to ascertain the presence of writing.

Fig. 3: One of the infrared images taken with the help of the Dino-Lite microscope (photo by the author).

Fig. 4: Combination of four Dino-Lite infrared images, together showing the character 世, with the help of image processing software (processed image by the author).

Fig. 5: Setup of the Opus Apollo infrared reflectography (IRR) camera above Slg. Unschuld 8051 in the Berlin State Library storage (photo by the author).

In order to acquire a high-quality infrared image of the whole bottom edge, my colleagues Ivan Shevchuk, Kyle Ann Huskin and Dr. Olivier Bonnerot from the CSMC helped me capture images with a professional infrared reflectography (IRR) camera (Opus Apollo) in September 2022 (see Fig. 5). Finally, it was possible to decipher the entire inscription of five characters (see Fig. 6).

The four larger characters, which must be read choushi zhencang 酧世珍藏, from right to left, on first sight resemble a typical ownership mark of a book collector. The expression zhencang 珍藏 “treasured collection (of)” together with a personal name could constitute a statement of ownership. However, book collectors more commonly used a seal stamp and red ink to apply their ownership mark. The fifth character in slightly smaller script to the very right (shang 上) hints towards the possibility that what we have here might rather be the title of the present recipe collection. Since the table of contents at the beginning of Slg. Unschuld 8051 lists recipes in a “first volume” (shang juan 上卷) and a “second volume” (xia juan 下卷), it is clear that the recipe collection comprised overall two volumes. Comparison with the actual recipe entries shows that the present volume is indeed the first of the two, which accords well with the small character written on the bottom edge. It is also worth pointing out that traditional thread-bound books – whether handwritten or printed – often had their title inscribed on their bottom edge in addition to the cover or title page. The reason for this is a common way of storage, with books being shelved lying flat on their back with the bottom edge facing towards the front. Hence, a title placed at this position is legible while the book is stored on a shelf, similar to the title on the spine of a “Western” book.

Fig. 6: Calibrated infrared reflectography (IRR) image of the bottom edge of Slg. Unschuld 8051 (photo by Olivier Bonnerot, Kyle Ann Huskin and Ivan Shevchuk).

If choushi zhencang 酧世珍藏 is in fact the title of this recipe book, it was probably selected by the compiler of the recipes for his personal collection. At least, this title is not found in the union catalogue of Chinese medical writings. The first two characters – with 酧 being a common variant of 酬 – seem to echo the title of the popular 19^th c. household encyclopaedia Choushi jinnang 酬世錦囊 “Brocade Bag of Exchange with the World”, which provided guidance on etiquette and proper social interaction. As part of the title of a recipe collection, the expression “exchange with the world” could rather refer to the way in which the compiler got hold of the recipes, many of which are indeed noted as having been received from relatives, friends or acquaintances in Canton. Hence, it might be understood as “Treasured Collection of (Recipes obtained through) Exchange with the World”.

This example showcases not only the advantages of infrared reflectography, which can allow to decipher otherwise illegible writing on manuscripts. It also points to the fact that inclusion of images of all sides of a manuscript in its digital version – in the case of thread-bound volumes also the edges and the spine – would greatly benefit research. Nevertheless, it must be stressed that even this can never entirely replace a first-hand inspection of the original written artefact in the reading room.

The data set with infrared reflectography images of Slg. Unschuld 8051 has been published as:

Olivier Bonnerot, Kyle Ann Huskin, Ivan Shevchuk and Thies Staack (2025), Infrared Reflectography Images of the Writing on the Bottom Edge of Slg. Unschuld 8051, http://doi.org/10.25592/uhhfdm.16994.

Acknowledgements:

The author thanks Dr. Cordula Gumbrecht and Dr. Andreas Janke for valuable suggestions on an earlier draft of the text.

The research behind this contribution was funded by the Deutsche Forschungsgemeinschaft (DFG, German Research Foundation) under Germany’s Excellence Strategy – EXC 2176 “Understanding Written Artefacts: Material, Interaction and Transmission in Manuscript Cultures”, project no. 390893796. The research was conducted within the scope of the Centre for the Study of Manuscript Cultures (CSMC) at the University of Hamburg.

Feature image:

Two pages from the table of contents of Slg. Unschuld 8051, showing the recipes at the end of the first and the beginning of the second volume. Staatsbibliothek zu Berlin – PK, Slg. Unschuld 8051, f. 23v-24r, scan pages [48]-[49] (Retrieved from http://resolver.staatsbibliothek-berlin.de/SBB0000603200000048 and http://resolver.staatsbibliothek-berlin.de/SBB0000603200000049)

Vom lesenden Menschen zu lernenden Maschinen – über die Möglichkeiten von Gaia-x für das kulturelle Erbe

14. November 2023/in Aktuelles, Digitalisierung, Fachinformationsdienst, Forschungsdaten, ITR und Entwicklungen, SBB/von Gerrit Gragert

Dieser Beitrag ist eine Verschriftlichung des gleichnamigen Vortrags über die ersten Erfahrungen, Daten aus dem ITR von CrossAsia in Gaia-X zu publizieren und auf diesem Wege der Forschung und vor allem den Digital Huminaties zur Verfügung zu stellen. Der Vortrag wurde am 11. Oktober 2023 im Rahmen der Europeana Tech Conference 2023 in Den Haag gehalten.

Ausgangspunkt der Reise Richtung Gaia-X stellt die CrossAsia Webseite dar. CrossAsia ist das von der Staatsbibliothek zu Berlin verantwortete Portal, in dem alle Services des von der DFG geförderten Fachinformationsdienstes Asien und weiteren Angebote gebündelt werden. Der Fachinformationsdienst richtet sich an Wissenschaftlerinnen und Wissenschaftler aus den asienbezogenen Geisteswissenschaften und hat seinen Schwerpunkt auf Ost-, Zentral- und Südostasien. Die Staatsbibliothek sammelt nicht nur Materialien aus und über diese asiatischen Regionen, sondern hat sich bereits vor mehr als 20 Jahren für eine e-preferred-Strategie entschieden. Wann immer ein elektronisches Medium wie Zeitschrift oder Buch dauerhaft lizenziert werden kann, wird kein gedrucktes Exemplar erworben, sondern das elektronische Dokument lizenziert. Hierbei versucht die Staatsbibliothek neben den überregionalen oder nationalen Zugangsrechten auch die Rechte für die lokale Archivierung der Dokumente inkl. Text- und Datamining-Rechten nach Verhandlungen zu erlangen. Neben den Einträgen in den Nachweissystemen kommt der Verwaltung der lizenzierten Daten wie Bilddaten, Volltexten, Film- und Tondokumenten eine besondere Bedeutung zu. Ein erster Dienst, der aus der Verwaltung der digitalen Objekte entwickelt wurde, ist die CrossAsia-Volltextsuche. Diese basiert neben eigenen digitalisierten und mit Volltexten ausgestatteten Objekten auf lizenzierten Objekten von Verlagen und anderen Anbietern. Hierbei handelt es sich hauptsächlich um Text- und Bildmaterialien aus historischen Quellen, von Büchern über wissenschaftliche Artikel bis hin zu aktuellen Zeitungen. Bislang sind insbesondere Materialien in Englisch und Chinesisch repräsentiert; das Angebot wird auch in Hinblick auf die anderen Sprachen kontinuierlich ausgebaut.

All diese Inhalte werden im sogenannten Integrierten Textrepository (ITR) archiviert. Technische Grundlage hier ist eine Infrastruktur basierend auf der Fedora Repository Software. Gleichzeitig stellen wir die Durchsuchbarkeit der Inhalte über einen Solr-Index dar. Dieser enthält momentan fast 70 Millionen Dokumente und ist weltweit eine einmalige Sammlung für lizenzfreie und lizenzbehaftete digitale Ressourcen in den Asienwissenschaften.

Aus diesem Grunde haben viele Wissenschaftlerinnen und Wissenschaftler ein großes Interesse, in diesen Inhalten Muster zu entdecken, neue Zusammenhänge zu erkennen und neue Erkenntnisse mit eigenen Algorithmen und Programmen durch Text- und Datamining zu gewinnen. Der FID Asien besitzt zwar das Recht, seine Nutzerinnen und Nutzern solche Analysen direkt durchführen zu lassen. Hierbei stellt sich jedoch die Frage, wie Code und Inhalte zusammenkommen?

Eine naheliegende Idee wäre ein zusätzlicher Service, der es Wissenschaftlerinnen und Wissenschaftlern ermöglicht, ganze Sammlungen aus dem ITR herunterzuladen. Allerdings ist die Datenmenge im ITR sehr groß, so dass unter Umständen mehrere Terrabyte von Daten heruntergeladen werden müssten. Dies kann je nach Netzwerkgeschwindigkeit Wochen dauern. Zudem wird die weitere Verbreitung der Daten mit dem Download unkontrollierbar, was für alle lizenzierten Inhalte äußerst kritisch ist und zu Vertragsverletzungen führen kann. Dies wiederum schafft Probleme mit Verlagen, mit denen die Staatsbibliothek Verträge geschlossen hat. Schließlich basiert ein Lizenzvertrag auf gegenseitigem Vertrauen, weshalb eine strengere Zugriffskontrolle auf die Daten notwendig ist.

Eine andere Idee ist, dass Wissenschaftlerinnen und Wissenschaftler in die Staatsbibliothek kommen und sich dort mit ihrem eigenen Laptop über die IT-Infrastruktur der SBB direkt mit dem ITR verbinden und dann die entsprechenden Analysen durchführen. Dies ist aus Zeit- und Kostengründen nicht immer realisierbar, vor allem wenn eine ferne Anreise notwendig ist. Und auch in diesem Fall muss kontrolliert werden, ob Daten in zu großem Umfang aus dem ITR abgezogen werden und die Staatsbibliothek damit die Kontrolle über ihre in den Lizenzverträgen eingegangenen Verpflichtungen verliert.

Ein weiteres Problem stellen die erforderlichen Computer-Ressourcen dar, die z.B. für das Training im Rahmen des maschinellen Lernens benötigt werden und die ein einfacher Laptop nicht bieten kann. Daher kann auch die Verfügbarkeit der notwendigen Rechenleistung ein Problem sein.

Ausgehend von dieser Problematik begann unsere Suche nach einer Möglichkeit, unsere Daten und unser ITR für Text- und Datamining zu öffnen. Dabei stießen wir auf Gaia-X. Gaia-X ist eine europäische Initiative für eine unabhängige Cloud-Infrastruktur, wobei es sich eher um ein Framework als um eine weitere Cloud-Plattform wie Amazon Webservices oder Google handelt, die sich in verschiedene Domänen aufgliedert.

Die wichtigsten Eigenschaften des Gaia-X Frameworks sind im Folgenden aufgeführt:

Volle Souveränität über die eigenen Daten. Die Kontrolle über die Daten bleibt stets beim Eigentümer.
Dezentralität, d.h., es gibt keinen zentralen Punkt im Netzwerk, der für das Funktionieren notwendig ist.
Ein Regelwerk zur Schaffung von Vertrauen und spezielle Services (verfügbar als Open Source), die von allen Netzwerkteilnehmern genutzt werden können, um zu überprüfen, ob andere auch die Regeln einhalten. Gaia-X ist also ein föderales System mit implizitem Vertrauen.
Gaia-X ist interoperabel, da es keine vorgeschriebene technische Infrastruktur für die Teilnahme gibt.
Mit Gaia-X ist es möglich, fachspezifische Dataspaces zu erstellen und diese miteinander zu verknüpfen.

Abbildung 1 zeigt einen Überblick über die Gaia-X Domäne, die wir uns näher angeschaut haben. Links ist das Trust Framework mit den verbundenen föderierten Diensten dargestellt, die dazu genutzt werden können, um die Compliance von allen Teilnehmenden zu überprüfen. Rechts oben finden sich die Portale, die den Einstiegspunkt in die fachspezifischen Dataspaces in Gaia-X darstellen.

Overview of the different components of Gaia-X

CC-BY-4.0 deltaDAO AG

Alles, was in einem Portal veröffentlicht wird, wird im föderierten Katalog verzeichnet, der in der Abbildung neben den Portalen zu sehen ist. Dieser Katalog ist unabhängig von den Portalen und enthält Informationen über alle Assets in Gaia-X. Nutzerinnen und Nutzer besuchen ein Portal und sehen die Inhalte abhängig vom Portal in einer fachspezifischen Ansicht des föderierten Katalogs. Die Inhalte sind jedoch nicht an das Portal gebunden und können jederzeit und überall im Gaia-X-Netzwerk genutzt werden. Auch deswegen ist Gaia-X als dezentral zu bezeichnen.

Um herauszufinden, wie uns diese Eigenschaften unterstützen können, um Text- und Datamining im ITR zu ermöglichen, haben wir ein Proof-of-Concept gestartet. Das Ergebnis war ein eigenes CrossAsia Portal in Gaia-X. Inhalte eines solchen Portals sind sogenannte Service-Offerings in Gaia-X. Dies kann entweder ein Dataset oder ein Algorithmus sein. Für ein Dataset besteht die Möglichkeit des gesicherten Downloads, was bedeutet, dass die URL des Datensatzes niemals sichtbar wird. Gleichzeitig kann zum Beispiel die gesamte Anzahl an Downloads festgelegt werden.

Eine weitere Möglichkeit besteht darin, Compute-To-Data für ein Dataset zu aktivieren. Dies ermöglicht es Nutzerinnen und Nutzern, die Daten mit einem veröffentlichten Algorithmus zu verknüpfen und einen Compute Job zu starten. Die Nutzerinnen und Nutzer erhalten nur die Ergebnisse ihres Compute-Jobs, nicht die Daten selbst. Auf diese Weise können wir die Daten aus unserem ITR für Text- und Datamining anbieten, ohne dass jemand Daten herunterladen oder verschieben muss.

Dies funktioniert, weil hier das Ocean Protocol die technische Grundlage von Gaia-X darstellt. Abbildung 2 zeigt einen vereinfachten technischen Ablauf für Compute-To-Data. Die Schritte sind relativ einfach: zunächst suchen die Nutzerinnen und Nutzer die Daten und den Algorithmus aus dem föderierten Katalog (vorausgesetzt, es bestehen entsprechende Zugriffsrechte). Dann werden Daten und Algorithmus in einen isolierten Execution Pod geladen, der innerhalb einer Kubernetes-Umgebung startet. Einzig die Ergebnisse des Algorithmus und Logfiles zur Ausführung werden dann dem Nutzer oder der Nutzerin zur Verfügung gestellt. Am Ende wird der Execution Pod gelöscht.

Das Veröffentlichen von Datasets und Algorithmen und deren Verbindung hat wie in der Theorie beschrieben funktioniert. Daher kann der Proof-of-Concept als Erfolg angesehen werden: eine Bibliothek kann Datasets in Gaia-X veröffentlichen, Wissenschaftlerinnen und Wissenschaftler können einen Algorithmus veröffentlichen und beides über das Portal kombinieren. Die gewünschten Ergebnisse werden zur Verfügung gestellt, ohne das die Sicherheit der Daten gefährdet wird – keine Downloads sind notwendig und alle Daten bleiben bei der Institution, die sie veröffentlicht hat.

Mit der Ersteinrichtung des Portals muss jedoch festgestellt werden, dass noch einige Verbesserungen notwendig sind, bevor die Lösung in größerem Umfang gut genutzt werden kann. Wer das Portal ausprobieren möchte, wird feststellen, dass der Einstieg in das Gaia-X Netzwerk nicht einfach ist und einiger Erklärungen bedarf. Da es sich bei der Datenbank des föderierten Katalogs um einen Distributed Ledger handelt, wird ein Wallet zur Identifizierung und Rechtegewährung benötigt. Daher muss im Browser ein Wallet (z.B. MetaMask) installiert und konfiguriert werden. Nach dem Einstieg ins Netzwerk ist jedoch die Veröffentlichung von Datasets und Algorithmen recht einfach, wenn auch die Verwendung von Daten bzw. das Starten eines Compute-Jobs eine Reihe von Bestätigungen bestimmter Transaktionen auf dem Ledger erfordert.

Zusammenfassend lässt sich feststellen, dass Gaia-X eine interessante neue Möglichkeit für GLAM-Institutionen ist, ihre schützenswürdigen Daten anzubieten. Gaia-X ist derzeit noch stark von wirtschaftlichen und industriellen Interessen mit einer starken kommerziellen Ausrichtung getrieben. Dennoch haben wir uns entschieden, vor allem aufgrund der guten Ergebnisse, unsere Aktivitäten in Gaia-X fortzuführen und den Proof-of-Concept zu einer Pilotanwendung weiterzuentwickeln. Hier arbeiten wir an ersten Verbesserungen der User-Experience und werden in Kürze weitere Use-Cases mit wissenschaftlichem Fokus durchführen. Wir engagieren uns gleichzeitig in der Gaia-X und Ocean-Protocol-Community, um auch nicht-kommerzielle Anwendungsfälle in Gaia-X besser zu ermöglichen und Gaia-X zu einem wissenschaftlichen Ökosystem für fachspezifische Dataspaces weiterzuentwickeln.

Basierend auf unseren Erfahrungen aus dem Proof-of-Concept möchten wir Einrichtungen des Kulturerbes vorschlagen, darüber nachzudenken, wie Gaia-X und das Ocean Protocol sie dabei unterstützen können ein Fullstack-Dataprovider zu werden. Und eben nicht nur ein Dataprovider für Metadaten, um Kulturartefakte zu finden, nicht nur ein Dataprovider für Texte zum Lesen, Audios zum Hören, Bilder oder Videos zum Ansehen oder Forschungsdaten zum Analysieren. Sondern vielmehr ein Dataprovider, der solche Kulturdaten in hoher Qualität auch für Algorithmen und Netzwerke für maschinelles Lernen anbietet und dabei – sofern notwendig – die Hoheit über die Daten behält.

Derzeit werden Large Language Models stark von großen Unternehmen wie OpenAI, Google oder Facebook kontrolliert. Wenn jedoch jeder die Möglichkeit erhält, seine eigenen Modelle mit Daten von GLAM- Institutionen zu trainieren, kann das maschinelle Lernen demokratisiert werden. Da jeder Zugang zu den Daten hat, die er oder sie für seine Algorithmen benötigt – entweder zu freien Daten oder bei lizenzierten Daten dort, wo ein entsprechendes Zugriffs- und Lizenzrecht besteht. Neue Ansätze wie Federated Learning können dabei helfen und den Prozess sogar noch stark vereinfachen. Unser Ziel ist es, das Training künstlicher Intelligenz zu verbessern, indem wir unsere digitalen Lesesäle für die Algorithmen öffnen und nicht nur die neuen Möglichkeiten der künstlichen Intelligenz selbst zu nutzen.

Referenzen

Abbildung 1 DeltaDAO AG https://www.delta-dao.com/ mit bestem Dank für die Erstellung des SBB Portals
Abbildung 2 Ocean Protocol Foundation https://docs.oceanprotocol.com/
Titlebild Europeana Foundation

Wenn Sie interessiert sind, die Lösung zu testen und Unterstützung benötigen, wenden Sie sich bitte an x-asia(at)sbb.spk-berlin.de

DH Infrastruktur in Japan

9. September 2022/in Aktuelles, Digitalisierung, Forschungsdaten, Newsletter 28, Veranstaltungen/von Ursula Flache

Beim 18. deutschsprachigen Japanologentag Ende August 2022 online organisiert von der Japanologie Düsseldorf fand eine Session mit Vertreter:innen von drei Infrastruktureinrichtungen statt, die Services, Datensätze, Tools sowie Informationsplattformen rund um Forschung und Lehre in den Digital Humanities (kurz DH) in Japan anbieten. Zunächst präsentierten die Gäste in parallelen Breakout Rooms die Aktivitäten ihrer Einrichtungen, bevor sich im Anschluss alle Teilnehmenden zu einer gemeinsamen Diskussionsrunde versammelten. Die Themen waren u.a. Fortbildung im Umgang mit DH oder Möglichkeiten der zukünftigen Zusammenarbeit. Im Folgenden findet sich ein kurzer Überblick über die Inhalte der Beiträge sowie Links zu den PPTs. Die Vortragenden haben zugestimmt, dass ihre PPTs unter der Lizenz CC-BY nachgenutzt werden dürfen.

TOKUHARA Naoko vom NDL Lab der National Diet Library (NDL), Tokyo, stellte die Vision ihrer Bibliothek für die Jahre 2021-2025 vor, in deren Mittelpunkt der digitale Wandel („digital shift“) steht, der die gesamte Gesellschaft und ihre Kommunikationswege erfasst hat. Um dieser Veränderung gerecht zu werden, hat sich die NDL u.a. ein umfassendes Digitalisierungsprogramm ihrer Bestände vorgenommen, welches moderne Druckwerke, Zeitschriften, vormoderne Titel, Amtsdruckschriften, Zeitungen und Dissertationen gleichermaßen umfasst. Auch wenn Teile dieser Digitalisate nur in den Räumen der NDL oder nur für registrierte Einrichtungen des Digitized Contents Transmission Service zugänglich sind, stellt diese Intensivierung der Digitalisierungsmaßnahmen einen erheblichen Schritt in Richtung weltweite Zugänglichkeit zu den Sammlungen der NDL dar. Das so genannte „Research and Development for Next-Generation Systems Office (R&D Office)“, welches Frau Tokuhara leitet, entwickelt Services und Tools, um den Herausforderungen der Digitalisierung zu begegnen. Zu den Angeboten (s.a. den GitHub Account der NDL) zählen:

massenhaft erstellte Textdaten unter Verwendung eines kommerziellen OCR-Programms (inkl. Trainingsdatensets)
ein selbst entwickeltes OCR-Programm für die Texterkennung, das so genannte „NDLOCR“ (inkl. Trainingsdatensets)
eine Volltextsuche in den digitalen Sammlungen der NDL
die Entwicklung eines NDL Ngram Viewers

Nähere Informationen zu den Aktivitäten finden Sie auf den verlinkten Webseiten oder in dieser PPT.

KITAMOTO Asanobu leitet das ROIS-DS Center for Open Data in the Humanities (CODH), Tokyo. Das CODH bietet eine ganze Reihe von offenen Datensets sowie Tools für die DH an. Dabei werden nicht nur Texte, sondern auch der Umgang mit Bilddaten und Karten berücksichtigt. Das Angebot ist breit gefächert und umfasst u.a.:

Datensets für Edo-zeitliche Kochrezepte, Landkarten, Siegel und vormoderne Texte
Trainingsdaten für die OCR-Erschließung von Zeitschriften wie Kokumin no tomo, Meiroku Zasshi (Kindai OCR)
Trainingsdatenset für Kursivschrift (kuzushiji)
Miwo App, welche das Lesen von Texten in kuzushiji unterstützt
Open Software, wie die IIIF Curation Platform, welche die Zusammenstellung eigener Bilddatensammlungen ermöglicht
Beispielprojekte, wie Edomi, welches Text- und Bildinformationen mit Bezug zu Edo (heute: Tokyo) sowohl thematisch als auch geographisch aufbereitet

Nähere Informationen zu den Aktivitäten finden Sie auf den verlinkten Webseiten oder in dieser PPT.

NAGASAKI Kiyonori ist Senior Fellow am International Institute for Digital Humanities, Tokyo, und einer der national wie international engagiertesten “Digital Humanists” in Japan. In seiner Präsentation zu “Access to Digital Tools, Resources, and Methods for Japanese Studies” legte er den Fokus auf Informationsmöglichkeiten zu DH in Japan. Seine PPT bietet einen konzisen Überblick samt Links zu wichtigen Akteur:innen, Webseiten und eine Leseliste DH-bezogener Fachliteratur. Herr Nagasaki verwies u.a. auf das japanische Fachmagazin “Digital Humanities Monthly”, den von ihm geführten Blog und Kalender zu DH-bezogenen Aktivitäten in Japan sowie das Netzwerk DH Japan. Des Weiteren setzt er sich für die Verbreitung des TEI-Standards in Japan ein. Zu diesem Zweck hat Herr Nagasaki mit weiteren Kollegen die Arbeitsgruppe TEI-C東アジア/日本語分科会 gegründet. In den regelmäßigen online Treffen der Arbeitsgruppe kann man sich über die konkrete Anwendung des TEI-Standard für japanischen Texte austauschen.

Nähere Informationen zu den Aktivitäten finden Sie auf den verlinkten Webseiten oder in dieser PPT.

Japanologentag 2022

15. August 2022/in E-Publishing, Forschungsdaten, Newsletter 28, Veranstaltungen/von Ursula Flache

Vom 24.-26.08.2022 wird der 18. Deutschsprachige Japanologentag durch das Institut für Modernes Japan an der Heinrich-Heine-Universität Düsseldorf als Online-Veranstaltung ausgerichtet. Zum Zeitpunkt der Veröffentlichung dieses Beitrags ist die Registrierung noch geöffnet. Die Teilnahme ist kostenlos, die Anzahl der Teilnehmenden ist jedoch begrenzt.

In der Sektion Informations- und Ressourcenwissenschaften, die von Ursula Flache vom CrossAsia Team der Staatsbibliothek zu Berlin-Preußischer Kulturbesitz (SBB-PK) gemeinsam mit Cosima Wagner von der Universitätsbibliothek der FU Berlin organisiert wird, bietet sich ein breit gefächertes Programm rund um digitale Angebote, Tools, Open Access und informatorische Infrastruktureinrichtungen für die japanbezogene Forschung.

In der gemeinsam mit der Sektion Medien durchgeführten Session zu Open Scholarship und Japanologie (InfoRess01,) soll die Diskussion angestoßen werden, wie man vermehrt eine Kultur der „Offenheit” im Fach etablieren kann. Drei kurze Inputreferate dazu liefern Elisabeth Scherer (Heinrich-Heine-Universität Düsseldorf) mit ihrem Beitrag zu Open Educational Resources, Martin Roth (Ritsumeikan Universität) und Magnus Pfeffer (Hochschule der Medien, Stuttgart) mit der Vorstellung ihres DFG-geförderten Visual Media Graph Projekts sowie Ursula Flache (SBB-PK) mit einer Präsentation über das CrossAsia Open Access Repository.

Informationskompetenzschulungen spielen eine bedeutende Rolle in der Ausbildung kommender Generationen von Forscher:innen. Die betreffende Session (InfoRess02) richtet sich deshalb nicht nur an Bibliothekar:innen (teaching librarian), sondern ebenso an alle Lehrenden und Tutor:innen, die in diesem Bereich tätig sind. Zunächst wird Theresia Peucker (Freie Universität Berlin, Campusbibliothek) anhand eines Praxisbeispiels Potenziale der universitären Vermittlung von Informationskompetenz aufzeigen. Anschließend sollen in der gemeinsamen Diskussion Best Practices, Herausforderungen und mögliche Lösungen besprochen werden. Neben den Panelist:innen Ursula Flache (SBB-PK), Nobutake Kamiya (Universität Zürich, OAS Bibliothek), Theresia Peucker (FU Berlin), Cosima Wagner (FU Berlin) sowie Chantal Weber (Universität zu Köln) sind alle Anwesenden eingeladen, sich mit ihren eigenen Erfahrungen und Verbesserungsideen einzubringen.

In einer weiteren Session, die gemeinsam mit der Sektion Medien organisiert wird, liegt der Fokus auf dem Thema „Daten“ (InfoRess03). Zoltan Kacsuk (Hochschule der Medien, Stuttgart) und Martin Roth (Ritsumeikan Universität) beleuchten datenbasierte Repräsentationen als Zugänge zur visuellen Medienkultur Japans. Nobutake Kamiya (Universität Zürich) berichtet von seiner Analyse japanischsprachiger Twitter-Daten mit Tools wie Elasticsearch, Kibana und Kuromoji. Martina Siebert und Christian Dunkel (SBB-PK) stellen im Zusammenhang mit dem CrossAsia Integrated Text Repository (ITR) Tools zur Recherche, Analyse und Mehrwerterzeugung insbesondere im Hinblick auf die CrossAsia IIIF-Plattform vor.

Dem Thema Forschungsdatenmanagement ist eine Diskussionsrunde (InfoRess05, in japanischer Sprache) gewidmet, die den Austausch mit Anbietenden von digitalen Ressourcen bzw. Infrastrukturen in Japan befördern soll. Eingeladen sind dazu Nagasaki Kiyonori (International Institute for Digital Humanities, Tokyo), Kitamoto Asanobu (National Institute of Informatics / Center for Open Data in the Humanities, Tokyo) und Tokuhara Naoko (National Diet Library, Tokyo), die nicht nur mit den Panelist:innen Nobutake Kamiya (Universität Zürich), Cosima Wagner (FU Berlin) und Ursula Flache (SBB-PK), sondern für das Gespräch mit allen Interessierten zur Verfügung stehen. Zur Einstimmung auf die Diskussion finden sich in diesem FUBox Dokument (DSGV-konforme Plattform der FU Berlin) vier Fragen. Über Ihr (anonymes) Feedback bis zum 22.08.22 würden wir uns sehr freuen! Bitte tragen Sie Ihre Antworten direkt im FUBox Dokument ein.

Zwei Workshops sind laufenden Projekten im Bereich der Digital Humanities gewidmet. Stephan Köhn, Paul Schoppe und Martin Thomas (Universität zu Köln) präsentieren im ersten Workshop (InfoRess04) ihre im Rahmen eines DFG-Projekts begonnene Datenbank zu enzyklopädischen Wörterbüchern der Edo-Zeit, den Setsuyōshū, mit der philologisches Arbeiten ins digitale Zeitalter überführt wird. Die damit verbundenen Herausforderungen sollen mit den Anwesenden diskutiert werden. Im zweiten Workshop (InfoRess06) stellen Koray Birenheide und Bastian Voigtmann (Goethe-Universität Frankfurt) die an der Frankfurter Japanologie entwickelte Software DemiScript als Werkzeug zur digitalen Erschließung japanischer Holzdrucke anhand zweier Lehrforschungsprojekte vor.

In der gemeinsamen Abschlussdiskussion der Sektionen Medien, Wirtschaft und Informations- und Ressourcenwissenschaften soll ausgelotet werden, welche Herausforderungen die digitale Transformation für die japanologische Forschung und Lehre birgt und wie sie diesen konstruktiv begegnen kann. Besonders in den Blick genommen werden die Themenbereiche “Daten-Arbeit, arbeiten mit Daten”, “Digitalität und gesellschaftliche Teilhabe” sowie “Plattform Japanologie?!”. Die Sektionsleitenden Ursula Flache (SBB-PK), Takahiro Nishiyama (Universität Bonn), Martin Roth (Ritsumeikan Universität) und Cosima Wagner (FU Berlin) freuen sich auf Ihre rege Beteiligung!

Bis bald beim Japanologentag 2022!

Einladung zum virtuellen Workshop “FAIRe Forschungsdaten step by step” von CLARIAH-DE

23. Juli 2021/in Aktuelles, Forschungsdaten/von CrossAsia

CLARIAH-DE, der Zusammenschluss der geisteswissenschaftlichen digitalen Forschungsinfrastruktur-Verbünde CLARIN-D und DARIAH-DE, richtet Ende August einen zweitägigen virtuellen Workshop mit dem Titel „FAIRe Forschungsdaten step by step“ aus, der sich insbesondere an Forschende der Geisteswissenschaften und benachbarter Disziplinen richtet, die bisher wenig Erfahrung mit digitalen Forschungsmethoden und -angeboten gesammelt haben. Den Teilnehmer:innen soll durch diesen Workshop der Einstieg in das Thema digitales Forschungsdatenmanagement und -publizieren erleichtert werden.

Folgende und weitere Fragen sollen im Rahmen des Workshops beantwortet werden:

Welche Vorteile ergeben sich durch das FAIRe Forschungsdatenmanagement mit einer digitalen Forschungsinfrastruktur?
Was ist bei der nachhaltigen Sicherung meiner Forschungsdaten zu bedenken?
Wie und wo stelle ich sie anderen bestmöglich zur Verfügung?
Welche Metadaten sind dafür notwendig und wie können sie sinnvoll vergeben werden?
Wie nutze ich bestehende Forschungsdaten nach?

Workshop: FAIRe Forschungsdaten step by step
Organisation: CLARIAH-DE (Sonja Friedrichs, Melina Jander, Nanette Rißler-Pipka)
Termin: 30.–31. August 2021 (Tag 1: 10:00–15:15 Uhr, Tag 2: 10:00–13:30 Uhr)
Workshopsprache: Deutsch
Registrierung: s. DHdBlog

Weitere Informationen zum Inhalt des Workshops und den Link für die Registrierung (bis 25.8.) finden Sie im DHdBlog.

Forschungsdaten in den Asienwissenschaften: NFDI Konsortium Text+ bittet um Ihre Mithilfe

7. August 2020/in Forschungsdaten/von Miriam Seeger

Im Zuge der Vorbereitungen zur Einreichung eines Förderantrags in der zweiten NFDI-Runde bittet das Forschungsdaten-Konsortium Text+ mit zwei Aufrufen um Mithilfe aus den geisteswissenschaftlichen Communities. Ziel ist, die Bedarfe und verschiedenen Nutzungsszenarien in den unterschiedlichen Disziplinen zu ermitteln, sodass diese repräsentativ in den Antrag und die Überlegungen zu einer Forschungsdateninfrastruktur einfließen können.

Als FID Asien unterstützen wir diese zwei Aufrufe zur Beteiligung und würden uns freuen, wenn Sie Ihre Erfahrungen, Forschungsfragen, Bedarfe sowie beispielhafte Datensets aus den drei Datendomänen digitale Sammlungen, lexikalische Ressourcen und Editionen bei Text+ einreichen. Gerade vor dem Hintergrund der vielfältigen Daten in den Sprachen und Schriften Asiens in unseren wissenschaftlichen Projekten sollten diese Beiträge für das Konsortium von besonderem Interesse sein.

Call for User Stories: Sammlung konkreter Bedarfe aus der Text+-Community

Einreichen von Forschungsdaten: Angebote für Forschungsdaten zur Integration im Rahmen von Text+

Die Einreichungsfrist ist der 16. August 2020.