Digitalisierung

Vom lesenden Menschen zu lernenden Maschinen – über die Möglichkeiten von Gaia-x für das kulturelle Erbe

Dieser Beitrag ist eine Verschriftlichung des gleichnamigen Vortrags über die ersten Erfahrungen, Daten aus dem ITR von CrossAsia in Gaia-X zu publizieren und auf diesem Wege der Forschung und vor allem den Digital Huminaties zur Verfügung zu stellen. Der Vortrag wurde am 11. Oktober 2023 im Rahmen der Europeana Tech Conference 2023 in Den Haag gehalten.

Ausgangspunkt der Reise Richtung Gaia-X stellt die CrossAsia Webseite dar. CrossAsia ist das von der Staatsbibliothek zu Berlin verantwortete Portal, in dem alle Services des von der DFG geförderten Fachinformationsdienstes Asien und weiteren Angebote gebündelt werden. Der Fachinformationsdienst richtet sich an Wissenschaftlerinnen und Wissenschaftler aus den asienbezogenen Geisteswissenschaften und hat seinen Schwerpunkt auf Ost-, Zentral- und Südostasien. Die Staatsbibliothek sammelt nicht nur Materialien aus und über diese asiatischen Regionen, sondern hat sich bereits vor mehr als 20 Jahren für eine e-preferred-Strategie entschieden. Wann immer ein elektronisches Medium wie Zeitschrift oder Buch dauerhaft lizenziert werden kann, wird kein gedrucktes Exemplar erworben, sondern das elektronische Dokument lizenziert. Hierbei versucht die Staatsbibliothek neben den überregionalen oder nationalen Zugangsrechten auch die Rechte für die lokale Archivierung der Dokumente inkl. Text- und Datamining-Rechten nach Verhandlungen zu erlangen. Neben den Einträgen in den Nachweissystemen kommt der Verwaltung der lizenzierten Daten wie Bilddaten, Volltexten, Film- und Tondokumenten eine besondere Bedeutung zu. Ein erster Dienst, der aus der Verwaltung der digitalen Objekte entwickelt wurde, ist die CrossAsia-Volltextsuche. Diese basiert neben eigenen digitalisierten und mit Volltexten ausgestatteten Objekten auf lizenzierten Objekten von Verlagen und anderen Anbietern. Hierbei handelt es sich hauptsächlich um Text- und Bildmaterialien aus historischen Quellen, von Büchern über wissenschaftliche Artikel bis hin zu aktuellen Zeitungen. Bislang sind insbesondere Materialien in Englisch und Chinesisch repräsentiert; das Angebot wird auch in Hinblick auf die anderen Sprachen kontinuierlich ausgebaut.

All diese Inhalte werden im sogenannten Integrierten Textrepository (ITR) archiviert. Technische Grundlage hier ist eine Infrastruktur basierend auf der Fedora Repository Software. Gleichzeitig stellen wir die Durchsuchbarkeit der Inhalte über einen Solr-Index dar. Dieser enthält momentan fast 70 Millionen Dokumente und ist weltweit eine einmalige Sammlung für lizenzfreie und lizenzbehaftete digitale Ressourcen in den Asienwissenschaften.

Aus diesem Grunde haben viele Wissenschaftlerinnen und Wissenschaftler ein großes Interesse, in diesen Inhalten Muster zu entdecken, neue Zusammenhänge zu erkennen und neue Erkenntnisse mit eigenen Algorithmen und Programmen durch Text- und Datamining zu gewinnen. Der FID Asien besitzt zwar das Recht, seine Nutzerinnen und Nutzern solche Analysen direkt durchführen zu lassen. Hierbei stellt sich jedoch die Frage, wie Code und Inhalte zusammenkommen?

Eine naheliegende Idee wäre ein zusätzlicher Service, der es Wissenschaftlerinnen und Wissenschaftlern ermöglicht, ganze Sammlungen aus dem ITR herunterzuladen. Allerdings ist die Datenmenge im ITR sehr groß, so dass unter Umständen mehrere Terrabyte von Daten heruntergeladen werden müssten. Dies kann je nach Netzwerkgeschwindigkeit Wochen dauern. Zudem wird die weitere Verbreitung der Daten mit dem Download unkontrollierbar, was für alle lizenzierten Inhalte äußerst kritisch ist und zu Vertragsverletzungen führen kann. Dies wiederum schafft Probleme mit Verlagen, mit denen die Staatsbibliothek Verträge geschlossen hat. Schließlich basiert ein Lizenzvertrag auf gegenseitigem Vertrauen, weshalb eine strengere Zugriffskontrolle auf die Daten notwendig ist.

Eine andere Idee ist, dass Wissenschaftlerinnen und Wissenschaftler in die Staatsbibliothek kommen und sich dort mit ihrem eigenen Laptop über die IT-Infrastruktur der SBB direkt mit dem ITR verbinden und dann die entsprechenden Analysen durchführen. Dies ist aus Zeit- und Kostengründen nicht immer realisierbar, vor allem wenn eine ferne Anreise notwendig ist. Und auch in diesem Fall muss kontrolliert werden, ob Daten in zu großem Umfang aus dem ITR abgezogen werden und die Staatsbibliothek damit die Kontrolle über ihre in den Lizenzverträgen eingegangenen Verpflichtungen verliert.

Ein weiteres Problem stellen die erforderlichen Computer-Ressourcen dar, die z.B. für das Training im Rahmen des maschinellen Lernens benötigt werden und die ein einfacher Laptop nicht bieten kann. Daher kann auch die Verfügbarkeit der notwendigen Rechenleistung ein Problem sein.

Ausgehend von dieser Problematik begann unsere Suche nach einer Möglichkeit, unsere Daten und unser ITR für Text- und Datamining zu öffnen. Dabei stießen wir auf Gaia-X. Gaia-X ist eine europäische Initiative für eine unabhängige Cloud-Infrastruktur, wobei es sich eher um ein Framework als um eine weitere Cloud-Plattform wie Amazon Webservices oder Google handelt, die sich in verschiedene Domänen aufgliedert.

Die wichtigsten Eigenschaften des Gaia-X Frameworks sind im Folgenden aufgeführt:

  • Volle Souveränität über die eigenen Daten. Die Kontrolle über die Daten bleibt stets beim Eigentümer.
  • Dezentralität, d.h., es gibt keinen zentralen Punkt im Netzwerk, der für das Funktionieren notwendig ist.
  • Ein Regelwerk zur Schaffung von Vertrauen und spezielle Services (verfügbar als Open Source), die von allen Netzwerkteilnehmern genutzt werden können, um zu überprüfen, ob andere auch die Regeln einhalten. Gaia-X ist also ein föderales System mit implizitem Vertrauen.
  • Gaia-X ist interoperabel, da es keine vorgeschriebene technische Infrastruktur für die Teilnahme gibt.
  • Mit Gaia-X ist es möglich, fachspezifische Dataspaces zu erstellen und diese miteinander zu verknüpfen.

Abbildung 1 zeigt einen Überblick über die Gaia-X Domäne, die wir uns näher angeschaut haben. Links ist das Trust Framework mit den verbundenen föderierten Diensten dargestellt, die dazu genutzt werden können, um die Compliance von allen Teilnehmenden zu überprüfen. Rechts oben finden sich die Portale, die den Einstiegspunkt in die fachspezifischen Dataspaces in Gaia-X darstellen.

 

 

Alles, was in einem Portal veröffentlicht wird, wird im föderierten Katalog verzeichnet, der in der Abbildung neben den Portalen zu sehen ist. Dieser Katalog ist unabhängig von den Portalen und enthält Informationen über alle Assets in Gaia-X. Nutzerinnen und Nutzer besuchen ein Portal und sehen die Inhalte abhängig vom Portal in einer fachspezifischen Ansicht des föderierten Katalogs. Die Inhalte sind jedoch nicht an das Portal gebunden und können jederzeit und überall im Gaia-X-Netzwerk genutzt werden. Auch deswegen ist Gaia-X als dezentral zu bezeichnen.

Um herauszufinden, wie uns diese Eigenschaften unterstützen können, um Text- und Datamining im ITR zu ermöglichen, haben wir ein Proof-of-Concept gestartet. Das Ergebnis war ein eigenes CrossAsia Portal in Gaia-X. Inhalte eines solchen Portals sind sogenannte Service-Offerings in Gaia-X. Dies kann entweder ein Dataset oder ein Algorithmus sein. Für ein Dataset besteht die Möglichkeit des gesicherten Downloads, was bedeutet, dass die URL des Datensatzes niemals sichtbar wird. Gleichzeitig kann zum Beispiel die gesamte Anzahl an Downloads festgelegt werden.

Eine weitere Möglichkeit besteht darin, Compute-To-Data für ein Dataset zu aktivieren. Dies ermöglicht es Nutzerinnen und Nutzern, die Daten mit einem veröffentlichten Algorithmus zu verknüpfen und einen Compute Job zu starten. Die Nutzerinnen und Nutzer erhalten nur die Ergebnisse ihres Compute-Jobs, nicht die Daten selbst. Auf diese Weise können wir die Daten aus unserem ITR für Text- und Datamining anbieten, ohne dass jemand Daten herunterladen oder verschieben muss.

Dies funktioniert, weil hier das Ocean Protocol die technische Grundlage von Gaia-X darstellt. Abbildung 2 zeigt einen vereinfachten technischen Ablauf für Compute-To-Data. Die Schritte sind relativ einfach: zunächst suchen die Nutzerinnen und Nutzer die Daten und den Algorithmus aus dem föderierten Katalog (vorausgesetzt, es bestehen entsprechende Zugriffsrechte). Dann werden Daten und Algorithmus in einen isolierten Execution Pod geladen, der innerhalb einer Kubernetes-Umgebung startet. Einzig die Ergebnisse des Algorithmus und Logfiles zur Ausführung werden dann dem Nutzer oder der Nutzerin zur Verfügung gestellt. Am Ende wird der Execution Pod gelöscht.

 

 

Das Veröffentlichen von Datasets und Algorithmen und deren Verbindung hat wie in der Theorie beschrieben funktioniert. Daher kann der Proof-of-Concept als Erfolg angesehen werden: eine Bibliothek kann Datasets in Gaia-X veröffentlichen, Wissenschaftlerinnen und Wissenschaftler können einen Algorithmus veröffentlichen und beides über das Portal kombinieren. Die gewünschten Ergebnisse werden zur Verfügung gestellt, ohne das die Sicherheit der Daten gefährdet wird – keine Downloads sind notwendig und alle Daten bleiben bei der Institution, die sie veröffentlicht hat.

Mit der Ersteinrichtung des Portals muss jedoch festgestellt werden, dass noch einige Verbesserungen notwendig sind, bevor die Lösung in größerem Umfang gut genutzt werden kann. Wer das Portal ausprobieren möchte, wird feststellen, dass der Einstieg in das Gaia-X Netzwerk nicht einfach ist und einiger Erklärungen bedarf. Da es sich bei der Datenbank des föderierten Katalogs um einen Distributed Ledger handelt, wird ein Wallet zur Identifizierung und Rechtegewährung benötigt. Daher muss im Browser ein Wallet (z.B. MetaMask) installiert und konfiguriert werden. Nach dem Einstieg ins Netzwerk ist jedoch die Veröffentlichung von Datasets und Algorithmen recht einfach, wenn auch die Verwendung von Daten bzw. das Starten eines Compute-Jobs eine Reihe von Bestätigungen bestimmter Transaktionen auf dem Ledger erfordert.

Zusammenfassend lässt sich feststellen, dass Gaia-X eine interessante neue Möglichkeit für GLAM-Institutionen ist, ihre schützenswürdigen Daten anzubieten. Gaia-X ist derzeit noch stark von wirtschaftlichen und industriellen Interessen mit einer starken kommerziellen Ausrichtung getrieben. Dennoch haben wir uns entschieden, vor allem aufgrund der guten Ergebnisse, unsere Aktivitäten in Gaia-X fortzuführen und den Proof-of-Concept zu einer Pilotanwendung weiterzuentwickeln. Hier arbeiten wir an ersten Verbesserungen der User-Experience und werden in Kürze weitere Use-Cases mit wissenschaftlichem Fokus durchführen. Wir engagieren uns gleichzeitig in der Gaia-X und Ocean-Protocol-Community, um auch nicht-kommerzielle Anwendungsfälle in Gaia-X besser zu ermöglichen und Gaia-X zu einem wissenschaftlichen Ökosystem für fachspezifische Dataspaces weiterzuentwickeln.

Basierend auf unseren Erfahrungen aus dem Proof-of-Concept möchten wir Einrichtungen des Kulturerbes vorschlagen, darüber nachzudenken, wie Gaia-X und das Ocean Protocol sie dabei unterstützen können ein Fullstack-Dataprovider zu werden. Und eben nicht nur ein Dataprovider für Metadaten, um Kulturartefakte zu finden, nicht nur ein Dataprovider für Texte zum Lesen, Audios zum Hören, Bilder oder Videos zum Ansehen oder Forschungsdaten zum Analysieren. Sondern vielmehr ein Dataprovider, der solche Kulturdaten in hoher Qualität auch für Algorithmen und Netzwerke für maschinelles Lernen anbietet und dabei – sofern notwendig – die Hoheit über die Daten behält.

Derzeit werden Large Language Models stark von großen Unternehmen wie OpenAI, Google oder Facebook kontrolliert. Wenn jedoch jeder die Möglichkeit erhält, seine eigenen Modelle mit Daten von GLAM- Institutionen zu trainieren, kann das maschinelle Lernen demokratisiert werden. Da jeder Zugang zu den Daten hat, die er oder sie für seine Algorithmen benötigt – entweder zu freien Daten oder bei lizenzierten Daten dort, wo ein entsprechendes Zugriffs- und Lizenzrecht besteht. Neue Ansätze wie Federated Learning können dabei helfen und den Prozess sogar noch stark vereinfachen. Unser Ziel ist es, das Training künstlicher Intelligenz zu verbessern, indem wir unsere digitalen Lesesäle für die Algorithmen öffnen und nicht nur die neuen Möglichkeiten der künstlichen Intelligenz selbst zu nutzen.

Referenzen

Wenn Sie interessiert sind, die Lösung zu testen und Unterstützung benötigen, wenden Sie sich bitte an x-asia(at)sbb.spk-berlin.de

Umfrage zu Digital Humanities | Survey on Digital Humanities

(English below)

 

Liebe CrossAsia Community,

wie bereits im Newsletter angekündigt, führen wir eine kurze Umfrage zu Digital Humanities in Bezug auf CrossAsia durch. Sie soll uns helfen, unsere Zielgruppe, Ihre Kompetenzen und Erwartungen besser kennen zu lernen.

Ein Klick auf den Link bringt Sie zur Umfrage-Seite. Die Umfrage dauert ca. 10 Minuten.

CrossAsia Umfrage zu Digital Humanities in deutsch.

 

Wir wünschen viel Spaß und freuen uns die Antworten.

 

Ihr / Euer

CrossAsia Team


Dear CrossAsia Community,

As already announced in the newsletter, we are conducting a short survey on Digital Humanities in relation to CrossAsia. It is intended to help us get to know our target group, your competencies and expectations better.

Clicking on the link will take you to the survey page. The survey will take about 10 minutes to complete.

CrossAsia survey on Digital Humanities in English.

 

We hope you have fun and look forward to receiving your answers.

 

Your

CrossAsia Team

Turfanakten des Museums für Asiatische Kunst jetzt online

Vor einer Weile sind bereits die Fotos und Zeichnungen aus dem Zusammenhang der „Deutschen Turfanexpeditionen“ als Präsentation online gegangen. Nun können auch die 21 Turfanakten, die im Museums für Asiatische Kunst (AKu) verwahrten werden, durchstöbert werden: https://iiif.crossasia.org/s/turfan.

Im Projekt wurden für das jeweilige Aktenstück/Seite die erwähnten Personen und Orte, Sender und Empfänger, sowie Sach- und Format-Schlagwörter erfasst.

Tipp: Nach Aufruf der Unterkollektion Akten, kann im Suchschlitz „Refine Search“ exklusive in dieser Unterkollektion gesucht werden.

 

Viel Spaß beim Stöbern!

Feedback gern an x-asia

Neues Themenportal zu japanischen Querrollen aus den Sammlungen der Staatsbibliothek zu Berlin

Wir möchten Sie gerne einladen, unser neues ⇒Themenportal zu den japanischen Querrollen in den Sammlungen der Staatsbibliothek zu erkunden. Diese großformatigen Werke, die bisher in den Digitalisierten Sammlungen der Bibliothek nur in der Form von Einzelbildern elektronisch zugänglich waren, können ab sofort auf der CrossAsia-Seite über den integrierten Viewer in ihrer gesamten Länge betrachtet werden. Neben frühen buddhistischen Drucken finden Sie hier reich illuminierte Werke aus der Edo-Zeit, aber auch einfache Werkstattkopien von Erzählungen oder handkolorierte Drucke von Prozessionen. Wir wünschen viele Spaß beim Erkunden.

Ein kleiner technischer Hinweis: Die Reaktionszeit des Viewers bis zur Anzeige der kompletten Rolle ist z.Z. noch etwas lang. Es dauert ggf. einige Sekunden, bis die Rolle sich aufbaut.

Typographia Sinica beim 3D Hackathon 2022

Am kommenden Wochenende, 24.-25.09., findet in der Staatsbibliothek zu Berlin das Kick-Off Treffen des sich über 4 Wochen erstreckenden 3D Hackathon Creating New Dimensions statt. Wir sind dabei mit einem 3D Modell der Typographia Sinica, dem von Andreas Müller (1630-1694) entworfenen Schrank mit mehr als 3.000 Drucktypen mit chinesischen Zeichen. Im Datenset enthalten sind sowohl das Möbel, als auch die Schubladen mit den Drucktypen. Sollten Sie Zeit, Lust und Interesse haben, mit den Daten zu experimentieren (auch Menschen ohne Programmierkenntnisse sind willkommen) sind Sie herzlich eingeladen, dabei zu sein. Die Anmeldung zum Hackathon ist noch möglich, einzelne Restplätze werden noch vergeben. Zur Anmeldung geht’s hier.

DH Infrastruktur in Japan

Beim 18. deutschsprachigen Japanologentag Ende August 2022 online organisiert von der Japanologie Düsseldorf fand eine Session mit Vertreter:innen von drei Infrastruktureinrichtungen statt, die Services, Datensätze, Tools sowie Informationsplattformen rund um Forschung und Lehre in den Digital Humanities (kurz DH) in Japan anbieten. Zunächst präsentierten die Gäste in parallelen Breakout Rooms die Aktivitäten ihrer Einrichtungen, bevor sich im Anschluss alle Teilnehmenden zu einer gemeinsamen Diskussionsrunde versammelten. Die Themen waren u.a. Fortbildung im Umgang mit DH oder Möglichkeiten der zukünftigen Zusammenarbeit. Im Folgenden findet sich ein kurzer Überblick über die Inhalte der Beiträge sowie Links zu den PPTs. Die Vortragenden haben zugestimmt, dass ihre PPTs unter der Lizenz CC-BY nachgenutzt werden dürfen.

TOKUHARA Naoko vom NDL Lab der National Diet Library (NDL), Tokyo, stellte die Vision ihrer Bibliothek für die Jahre 2021-2025 vor, in deren Mittelpunkt der digitale Wandel („digital shift“) steht, der die gesamte Gesellschaft und ihre Kommunikationswege erfasst hat. Um dieser Veränderung gerecht zu werden, hat sich die NDL u.a. ein umfassendes Digitalisierungsprogramm ihrer Bestände vorgenommen, welches moderne Druckwerke, Zeitschriften, vormoderne Titel, Amtsdruckschriften, Zeitungen und Dissertationen gleichermaßen umfasst. Auch wenn Teile dieser Digitalisate nur in den Räumen der NDL oder nur für registrierte Einrichtungen des Digitized Contents Transmission Service zugänglich sind, stellt diese Intensivierung der Digitalisierungsmaßnahmen einen erheblichen Schritt in Richtung weltweite Zugänglichkeit zu den Sammlungen der NDL dar. Das so genannte „Research and Development for Next-Generation Systems Office (R&D Office)“, welches Frau Tokuhara leitet, entwickelt Services und Tools, um den Herausforderungen der Digitalisierung zu begegnen. Zu den Angeboten (s.a. den GitHub Account der NDL) zählen:

  • massenhaft erstellte Textdaten unter Verwendung eines kommerziellen OCR-Programms (inkl. Trainingsdatensets)
  • ein selbst entwickeltes OCR-Programm für die Texterkennung, das so genannte „NDLOCR“ (inkl. Trainingsdatensets)
  • eine Volltextsuche in den digitalen Sammlungen der NDL
  • die Entwicklung eines NDL Ngram Viewers

Nähere Informationen zu den Aktivitäten finden Sie auf den verlinkten Webseiten oder in dieser PPT.

 

KITAMOTO Asanobu leitet das ROIS-DS Center for Open Data in the Humanities (CODH), Tokyo. Das CODH bietet eine ganze Reihe von offenen Datensets sowie Tools für die DH an. Dabei werden nicht nur Texte, sondern auch der Umgang mit Bilddaten und Karten berücksichtigt. Das Angebot ist breit gefächert und umfasst u.a.:

  • Datensets für Edo-zeitliche Kochrezepte, Landkarten, Siegel und vormoderne Texte
  • Trainingsdaten für die OCR-Erschließung von Zeitschriften wie Kokumin no tomo, Meiroku Zasshi (Kindai OCR)
  • Trainingsdatenset für Kursivschrift (kuzushiji)
  • Miwo App, welche das Lesen von Texten in kuzushiji unterstützt
  • Open Software, wie die IIIF Curation Platform, welche die Zusammenstellung eigener Bilddatensammlungen ermöglicht
  • Beispielprojekte, wie Edomi, welches Text- und Bildinformationen mit Bezug zu Edo (heute: Tokyo) sowohl thematisch als auch geographisch aufbereitet

Nähere Informationen zu den Aktivitäten finden Sie auf den verlinkten Webseiten oder in dieser PPT.

 

NAGASAKI Kiyonori ist Senior Fellow am International Institute for Digital Humanities, Tokyo, und einer der national wie international engagiertesten “Digital Humanists” in Japan. In seiner Präsentation zu “Access to Digital Tools, Resources, and Methods for Japanese Studies” legte er den Fokus auf Informationsmöglichkeiten zu DH in Japan. Seine PPT bietet einen konzisen Überblick samt Links zu wichtigen Akteur:innen, Webseiten und eine Leseliste DH-bezogener Fachliteratur. Herr Nagasaki verwies u.a. auf das japanische Fachmagazin “Digital Humanities Monthly”, den von ihm geführten Blog und Kalender zu DH-bezogenen Aktivitäten in Japan sowie das Netzwerk DH Japan. Des Weiteren setzt er sich für die Verbreitung des TEI-Standards in Japan ein. Zu diesem Zweck hat Herr Nagasaki mit weiteren Kollegen die Arbeitsgruppe TEI-C東アジア/日本語分科会 gegründet. In den regelmäßigen online Treffen der Arbeitsgruppe kann man sich über die konkrete Anwendung des TEI-Standard für japanischen Texte austauschen.

Nähere Informationen zu den Aktivitäten finden Sie auf den verlinkten Webseiten oder in dieser PPT.

Testzugang: „Enlarged YeonHaengRok Collections“ bis zum 7. Oktober

Ab sofort haben alle registrierten CrossAsia Nutzer:innen bis zum 7. Oktober 2022 die Möglichkeit, die koreanische Datenbank „Enlarged YeonHaengRok Collections“ zu testen.

Das YeonHaengRok ist eine Sammlung von Dokumenten und Reiseberichten, welche von koreanischen Gesandten und Delegationen der Goryeo und Joseon-Dynastie (13. bis 19. Jahrhundert) niedergeschrieben worden sind. Die Datenbank enthält dadurch detaillierte Aufzeichnungen zu den diplomatischen Beziehungen zwischen Korea und China und stellt dadurch extensive Beschreibungen über die politischen, wirtschaftlichen, wissenschaftlichen und kulturellen Verhältnisse im alten Ostasien zur Verfügung.

Die nun bei uns verfügbare sechste Ausgabe, „Enlarged Yeonhaengnok-Collections DB“, enthält 562 persönliche Aufzeichnungen identifizierter Autor:innen, darunter über 314 Gesandte und Delegationen, die Peking während der Goryeo- und Joseon-Dynastie (vom 13. bis 19. Jahrhundert) besuchten. Sie enthält Referenzen wie fotografische Editionsbilder, die aus ungefähr 101.000 Seiten besteht, darunter das „Tongmungwanji (通文館志)“ sowie das „Dongmunhwigo (同文彙考)“, und erhöht damit das allgemeine Niveau der Datenbank. So werden rund 1.800 Reiserouten nach China zusammengestellt und lassen die 700 Jahre währende Geschichte des Austauschs in Asien lebendig werden. Die Reiserouten nach Peking wurden in chronologischer Reihenfolge aufgezeichnet. Die detaillierten Inhaltsverzeichnisse, die auf den Reiseberichten basieren, erleichtern die Suche nach Inhalten. Darüber hinaus können die Dokumente nach Jahrhundert, Königen und Autor:innen durchsucht werden, was den Zugriff auf die Datenbank noch effizienter macht.

Die „Enlarged Yeonhaengnok-Collections“ wird für eine Registrierung auf der „UNESCO’s Memory of the World List“ vorbereitet.

Es finden sich Texte auf Chinesisch und Koreanisch sowie Digitalisate, Bilddateien und transkribierte Volltexte. Neben den genannten Suchfunktionen lassen sich die transkribierten Texte nach Wörtern durchsuchen.

Eine genauere Einführung zur Benutzung der Datenbank finden Sie hier.

Für den Zugang loggen Sie sich bitte wie üblich bei CrossAsia ein und folgen dann diesem Link.

Uns interessiert sehr, ob Sie das Angebot inhaltlich für sinnvoll erachten und ob die Datenbank für Ihre Forschung wichtig ist! Wir freuen uns daher über ein reges Testen der Plattform und Ihr Feedback! Senden Sie dieses uns gerne per Email an

x-asia@sbb.spk-berlin.de

Bandō-Sammlung des DIJ nun in Berlin

Ende 2021 kam die so genannte Bandō-Sammlung des Deutschen Instituts für Japanstudien (DIJ, Tokyo) als Depositum in die Betreuung durch die Ostasienabteilung der Staatsbibliothek zu Berlin-PK (SBB-PK). Während des ersten Weltkriegs gerieten nach der Kapitulation von Tsingtau (i.e. Qingdao) im November 1914 rund 4700 Deutsche und Österreich-Ungarn in japanische Kriegsgefangenschaft. Sie wurden zunächst in zwölf eher provisorisch eingerichteten Gefangenenlagern untergebracht, die über ganz Japan verteilt waren und teils aus ehemaligen Tempeln, Teehäusern und öffentlichen Gebäuden bestanden. Der Krieg zog sich jedoch länger hin als zunächst erwartet. Überdies wurde die zum Teil unzureichende Unterbringung bei Inspektionen, welche die Schutzmächte Deutschlands veranlassten, kritisiert. Letztlich kam es zur Errichtung neuer Barackenlager, in welche die Gefangenen größtenteils verlegt wurden. Mit ca. 1000 Personen war das Lager Bandō (Präfektur Tokushima) eines der größten Sammellager. Unter der Leitung des sehr human eingestellten Lagerkommandanten MATSUE Toyohisa konnte sich die Eigeninitiative der Kriegsgefangenen voll entfalten. Von Vorteil war hierbei, dass die wenigsten von ihnen Berufssoldaten waren, sondern sich als Reservisten oder Freiwillige für den Dienst gemeldet hatten und somit über die unterschiedlichsten Fachkenntnisse verfügten.

Werbung der Geba auf der Rückseite des „Führer durch die Ausstellung für Bildkunst und Handfertigkeit, Kriegsgefangenenlager Bando, 1918“ (Signatur B 01)

Werbung der Geba auf der Rückseite des „Führer durch die Ausstellung für Bildkunst und Handfertigkeit, Kriegsgefangenenlager Bando, 1918“ (Signatur B 01)

Mit Sport, Gemüseanbau und allerlei Gewerben – von der Lagerbäckerei Geba über Warmbadeanstalten bis hin zum Fotoatelier – wurde versucht, die langen Stunden der Gefangenschaft sinnvoll zu füllen. Darüber hinaus engagierten sich zahlreiche der Insassen bei kulturellen Veranstaltungen wie Konzerten, Theaterstücken, Unterrichts- und Vortragsreihen. Eine Druckerei entstand ebenfalls, wodurch die Aktivitäten der Gefangenen in den erhaltenen Lagerdrucken sehr gut dokumentiert sind. Die Bandō-Sammlung war ehemals 1998 vom DIJ erworben und 2004/2005 durch zwei Schenkungen ergänzt worden. Sie umfasst neben den beiden Zeitungen, dem „Täglichen Telegrammdienst Bando“ und „Die Baracke“, monographische Werke, Vortragstexte, Landkarten, Theater- und Konzertprogramme, Fotoaufnahmen sowie einige Stücke der Kriegsgefangenenpost. Des Weiteren werden zusätzlich Fotos, drei Fotoalben, weitere Gefangenenpost und eine Reihe Druckerzeugnisse unter der Bezeichnung „Bandō-Sammlung“ subsummiert, die eigentlich in anderen Kriegsgefangenenlagern wie beispielsweise Marugame und Kurume entstanden sind.

Als ein Beitrag des DIJ zur Initiative „Deutschland in Japan 2005/2006“ wurde so gut wie die komplette Bandō-Sammlung digitalisiert und der interessierten Öffentlichkeit zugänglich gemacht. Auf der auf Deutsch und Japanisch angelegten Webseite findet sich neben einem Katalog, der zahlreiche Titel bis auf Inhaltsebene erschließt, eine virtuelle Ausstellung, in welcher das Lagerleben unter anderem unter den Aspekten Verpflegung, Theater, Austausch zwischen Deutschen und Japanern sowie durch einen virtuellen Lagerrundgang beleuchtet wird. Perspektivisch sollen diese Inhalte auf Webseiten der SBB-PK umziehen und ein Portal zu Materialien, die mit den japanischen Kriegsgefangenenlagern von 1914-1920 in Verbindung stehen, geschaffen werden. Eine professionelle Neudigitalisierung der Sammlung befindet sich ebenfalls in Vorbereitung

Ursprünglich verfügte die SBB-PK über eine sehr umfängliche Sammlung an Lagerdrucken aus Bandō, welche jedoch im Zweiten Weltkrieg teilweise verloren ging. Trotz einiger Dopplungen bildet das Depositum des DIJ insofern eine höchst erfreuliche Erweiterung zu den Titeln, die sich noch im Bestand der SBB-PK befinden. Einige dieser Werke wurden vor einigen Jahren für die Europeana Collections 1914-1918, die dem Ersten Weltkrieg gewidmet ist, bereits digitalisiert wie beispielsweise der „Fremdenführer durch das Kriegsgefangenenlager Bando, Japan“, der im August 1918 angefertigt wurde, als rund 90 Gefangene aus dem Lager Kurume nach Bandō verlegt wurden. Aus jenem Lager Kurume stammt auch ein Konvolut von 39 Veranstaltungsprogrammen, welches 2013 von der SBB-PK erworben werden konnte und ebenfalls bereits in digitaler Form zugänglich ist.

„Hauptstraße“ im Lager Bandō (Signatur H 57-01)

„Hauptstraße“ im Lager Bandō (Signatur H 57-01)

The World of a Nineteenth-Century Uyghur Village

Eric Schluessel (Ph.D.) ist Sozialhistoriker und widmet sich in seiner Forschung vor allem der Region Xinjiang (Chinesisch Zentralasien) im 19. und 20. Jh. Derzeit ist er als Assistant Professor of History and International Affairs an der George Washington University tätig. Im Sommer 2021 hielt  er sich als Stipendiat im Rahmen des Stipendienprogramms der Stiftung Preußischer Kulturbesitz an der Staatsbibliothek zu Berlin auf und studierte vormoderne Handschriften aus Xinjiang. In diesem Blogpost gibt er einen kurzen Einblick in seine Forschung an der SBB.

 

The homeland of the Uyghur people now appears constantly in the news. This region in Northwestern China, called “Xinjiang” in Chinese, is a vast land of mountains, deserts, oases, and grasslands. Its autochthonous majority, known today as Uyghurs, speak a language related to Turkish and mainly practice Islam. Their homeland was incorporated into the China-based Qing empire in the 1750s, and the tension between Turko-Islamic and Chinese or Confucian cultures has shaped interactions between communities in the region ever since.

That tension is highly apparent in historical scholarship, which has tended to focus on the politics of Uyghur ethnic identity over the past two hundred years, for example the question of the origins of Uyghur nationalism. That is to say, the present issue of interethnic and religious conflict has helped define how historians think about the Uyghur past and select research topics.

In the midst of tragedy and politics, how can we remember that history is also the story of ordinary people? The history of everyday life is a powerful thing. It humanizes people in distant places and times by showing how their struggles and daily victories reflect our own. Now a pair of remarkable historical documents from villages in the Uyghur homeland at the Staatsbibliothek zu Berlin (SBB) are opening new windows into that history of everyday life by illuminating economic history at the village level.

The documents both arrived at SBB thanks to the Tibetologist, Mongolist, Indologist and Sinologist Georg Huth (1867–1906). In 1902, Huth traveled with a German Turfan expedition to the Uyghur homeland, specifically to the oasis of Turfan. There, in the town of Qarakhoja, he purchased a number of manuscripts written in Chaghatay, the literary language of which modern Uyghur is an immediate descendant. Following his death, those manuscripts were given to SBB. There, one key manuscript was cataloged but largely ignored, and another was forgotten about entirely until 2019, when Dr. Aysima Mirsultan, a librarian at SBB and expert in the history of the Turkic world, noticed it in the library’s vaults.

Figure 1 : An excerpt from Aurel Stein’s maps of the Uyghur homeland, indicating the oasis of Turfan and town of Qarakhoja (“Kara-khōja”) (Source: map based on no. 28 and 31 of item from “Digital Silk Road Project” (National Institute of Informatics/Digital Archive of Toyo Bunko Rare Books)

Those manuscripts, along with many other sources that have recently come to light, show how Uyghurs conceived of and undertook economic activities at the village level, and even used the institutions of the Qing empire to stabilize prices and provide relief to those affected by disasters. One manuscript, Ms. or. fol. 3303, is a notebook kept by a merchant who sold cloth, leather, and fur. It dates to 1895, which was a complicated year for the Uyghur homeland’s economy, as the Qing empire was withdrawing the subsidies that kept the Xinjiang government afloat. The other manuscript, the recently discovered Ms. or. fol. 4221, is actually a collection of ten notebooks dating to around the same time. These notebooks describe the activities of the “relief granary,” a special Chinese institution used to balance market prices for vital commodities by collecting grain and releasing it strategically onto the market.

I get the feeling that the merchant’s notebook (Ms. or. fol. 3303) received so little scholarly attention in part because the handwriting is so difficult to decipher. When we read it, we get a sense of a merchant with several apprentices, each of whom writes with different handwriting and spelling. One of them—the merchant himself, I think—had a clear and educated hand and favored a reed pen, while his underlings scrawled in ink or pencil, sounding words out letter-by-letter. Even common words can be difficult to decipher, let alone the obscure terminology related to cloth and leather. Many Chinese words also appear, but these are written in Arabic letters instead of Chinese characters, adding to the confusion.

Figure 2: A page from Ms. or. fol. 3303, showing the different “hands” that wrote in this notebook. Each entry is enclosed in a bubble.

Nevertheless, once we decipher the handwriting, the information within gives us an unprecedented picture of artisans and merchants in Turfan. We even see examples of women’s roles in production and the market. Several named women purchased cloth and other materials from the shop, and then returned later on to sell back the hats they had made. These colorful four-cornered skullcaps, called doppa, are a mainstay of Uyghur dress to this day. Let us consider the example of a woman named Harnisa:

Harnisa purchased 1 foot 3 inches of velvet at .8 silver coins.

Embroidered 12 doppas for us. Borrowed 8 silver. Purchased 1

spool of thread and ½ of cotton matting at .13 silver. Purchased 1

gold coin’s worth of black felt, 1 gold coin’s worth of soap.

Embroidered 3 brocade doppas for us. Embroidered 5 more

brocade doppas for us. Embroidered 5 more brocade doppas for

us. Purchased 1 piece of woven cotton cloth at .35 silver.

Embroidered 4 velvet doppas for us.

Clearly, Harnisa was a regular customer with a longstanding relationship with the shop. She was not alone – many other craftspeople, such as milliners and cobblers, also made bulk purchases from the shop every month. Other customers bought items for personal use: A shirt, or a headscarf, or perhaps an exceptionally fine robe that might be given as a wedding gift.

We can also tell from these entries more or less how much material it took to create a doppa. Indeed, the listed items are all part of a doppa: velvet, brocade, thread, cotton matting for the interior, and soap to stiffen the cloth.  One of those components, gold brocade, was the single most expensive item in the shop, sold at 1.25 silver per inch. (To put it in context, the same notebook states that the price of a loaf of bread was .1 silver.) But Harnisa did not buy her brocade from this shop—perhaps she found a better price elsewhere?

As we look more closely at the merchant’s notebook, families begin to appear: Amrullah the Baker paid his bills in bread, and sometimes his wife, Sherin, brought a few loaves to pay her bills, as well. Fathers, sons, and brothers regularly stopped by to pay each other’s debts, or to purchase gifts for one another. In the future, mapping these relationships will help enrich our understanding of how people organized themselves as families and as workers.

The collection of notebooks from the relief granary (Ms. or. fol. 4221) finally provide some context for the merchant’s records. These notebooks are also written in Chaghatay, but the scribes mainly favored the tools of Chinese writing, such as ink brushes that seem to have been poorly suited to writing the Arabic script. This means that the notebooks are written in a spidery handwriting that takes much practice to read, as well as a kind of shorthand derived from the choppy, dense grammar of Chinese documents. Not to mention, they also use many Chinese words!

Figure 3: Text from Ms. or. fol. 4221

 

Ongoing work on the relief granary notebooks, however, is revealing much about how the Qing state in its local form understood not only the prices of goods, but the value of other things: The notebooks record prices for a day of labor, an hour of water to irrigate one’s field, a small amount of tobacco, and other things that were part of the daily exchanges between ordinary people. Gradually, as it becomes possible to identify the many individuals named in these notebooks, and to compare other documents that describe their landholdings and professions, the world of an Uyghur village in the nineteenth century will come to life.

 

 

Naval Kishore Press – digital: Digitalisierung und Texterkennung bei Devanagari-Drucken

Der 1858 in der nordindischen Stadt Lakhnau gegründete Verlag Naval Kishore Press (NKP) entwickelte sich in den ca. hundert Jahren seines Bestehens zu einem der bedeutendsten Verlagsunternehmen Indiens. Zu Lebzeiten des Gründers Munshi Naval Kishore (1836-1895) veröffentlichte der Verlag geschätzte 5.000 Titel in den Sprachen Hindi, Sanskrit, Urdu, Arabisch, Persisch und Englisch. Inhaltlich deckte das Verlagsportfolio eine große Bandbreite ab – Schulbücher, Ratgeber, Texte der klassischen Sanskrit-Literatur, Literatur zum Islam, Koran-Ausgaben und Übersetzungen englischer Klassiker, wie z.B. die Dramen William Shakespeares, wurden publiziert. Die CATS Bibliothek / Abteilung Südasien der Universität Heidelberg besitzt mit ca. 2.000 Titeln der Naval Kishore Press einen repräsentativen Querschnitt der Veröffentlichungen dieses bedeutenden Verlagshauses.

Um diesen Schatz für Wissenschaftlerinnen und Wissenschaftler sichtbarer – und vor allem besser nutzbar – zu machen, wurde im Rahmen des FID Asien das Teilprojekt Naval Kishore Press – digital initiiert. Ausgewählte Hindi- und Sanskrit-Titel in Devanagari-Schrift aus der NKP Sammlung werden im Digitalisierungszentrum der UB Heidelberg digitalisiert. Aus diesen Bildfaksimiles werden unter Einsatz der Plattform Transkribus editierbare Volltextversionen erstellt. Die HTR Engine von Transkribus basiert auf künstlicher Intelligenz und wird folgendermaßen angewendet: Zunächst werden von ca. 200 Seiten des zu erkennenden Materials „Ground Truth“ (GT) Transkriptionen erstellt. Dabei handelt es sich um manuell transkribierte 1:1 Wiedergaben des Textes auf dem Bildfaksimile. Die GT und die Bildfaksimile werden verwendet um ein Datenmodell zu trainieren, dessen HTR Algorithmen auf künstlichen neuronalen Netzen basieren und mit dem nun weitere Devanagari-Text automatisch transkribiert werden können. Mit einer Character Error Rate (CER) von 2-5% beim Validierungssatz liefern die beiden trainierten Datenmodelle bereits hervorragende Ergebnisse.

Weiterlesen