Digitalisierung

Recap Hackathon zur Layouterkennung tibetischer Handschriften und Blockdrucke

Am 22.11. fand in Dresden ein Hackathon, organisiert von Cloud & Heat in Zusammenarbeit mit  AI Insights Saxony, statt. Einer der beiden Use cases wurde vom CrossAsis Team zur Verfügung gestellt: Die Layouterkennung tibetischer Handschriften und Blockdrucke. Ziel war es, die einzelnen Elemente auf den Seiten zu erkennen. Dazu gehören der Schriftblock, tibetische und ggf. chinesische Seitenzahlen sowie Illustrationen. Um den Hacker:innen die Besonderheiten vormoderner tibetischer Handschriften und Blockdrucke besser erläutern zu können, haben wir auch

Ausstellung tibetischer Blockdrucke und Handschriften während des Hackathons

einige Objekte nach Dresden geschickt, die den Teilnehmer:innen in einer kleinen Ausstellung präsentiert wurden. Es wurden verschiedenste Objekte gezeigt, um die Vielfalt der tibetischen Schriftkultur abzubilden. Die Objekte wurden mit regem Interesse begutachtet und ein Plan entwickelt, um die gesteckten Ziele zu erreichen.

Im Laufe des Tages entstand ein Tool auf der Basis eines bereitgestellten Large Language Modells, dass  das Layout tibetischer Texte relativ zuverlässig erkannt hat. Belohnt wurden die Mühen mit einem CrossAsia Beutel, gefüllt mit einigen Mitbringseln.

Doch das Interesse, sich mit tibetischer Layouterkennung zu beschäftigen, ist noch nicht erloschen, sodass einige Teilnehmer:innen des Hackathons weiterhin an diesem Projekt arbeiten wollen.

Wir danken Cloud & Heat für die Einladung und Nico Hoffmann für die Initiative und die Idee für die Kooperation!

 

Newsletter 32 – Sommer, Sonne und CrossAsia

Liebe CrossAsia Nutzer:innen,

 

der Sommer ist da und wir hoffen, Sie genießen die sonnigen Tage! Über die neuesten Entwicklungen bei CrossAsia informiert Sie dieser Newsletter in aller Kürze:

 

Aktuelle Testzugänge:

Chinese Dictionary Compendium bis zum 31.12.2024

Ihre Rückmeldungen zu den Datenbanken sind wichtig und helfen uns, bei der Entscheidung für oder gegen eine dauerhafte Lizenzierung.

 

Neu lizenzierte Datenbanken:

Shiryō Sanshū, Teil 2: Im November letzten Jahres wurde bereits Teil 1 des Werkes Shiryō Sanshū für CrossAsia lizenziert; seit dem 1. März 2024 können wir auch den zweiten Teil anbieten.

Encyclopedia of Turkic Languages and Linguistics: Im Juni konnten der FID Asien und der FID Nahost gemeinsam eine dauerhafte Lizenzierung der Encyclopedia of Turkic Languages and Linguistics ermöglichen, welche seitdem als Nationallizenz zur Verfügung steht.

 

Neuerungen beim Blauen Leihverkehr:

Seit April diesen Jahres gibt es folgende Serviceverbesserungen bzw. -änderungen beim Blauen Leihverkehr: Bestellungen von Materialien sind nun in allen Sprachen und Schriften möglich. Alle ausleihfähigen Bestände der Staatsbibliothek zu Berlin können bestellt werden. Es gibt eine neue Leihfrist von vier Monaten mit der Option von bis zu zwölf Verlängerungen, sofern keine Vormerkung vorliegt. Verlängerungen erfolgen durch die teilnehmende Bibliothek.

 

Erweiterung des CrossAsia ITR Explorers:

Der neue CrossAsia ITR-Newspaper Explorer ist ein Tool zur Recherche in lizenzierten Zeitungsmaterialien. Er bietet umfangreiche Suchfunktionen inkl. CJK-Zeichenmapping, Phrasensuche und die Möglichkeit zur Kombination von Ergebnismengen, und für die Ergebnispräsentation eine Heatmap-Visualisierung, um die zeitliche Verteilung von Suchergebnissen auf verschiedenen Skalen zu ermöglichen, von Jahrzehnt, Jahr, Monat bis hin zur Tagesebene. Die erste Version enthält vier Zeitungsquellen aus den Jahren 1832 bis 2012. Zu den enthaltenen Quellen zählen „Neueste-Mittheilungen“, „Historical Newspapers of China and South China Morning Post“, „Ta-kung Pao“ und „People’s Daily“.

 

CrossAsia Talks:

Vor der Sommerpause hat Dr. Xueqi JIANG am 18.07. „Zur abenteuerlichen Lebensgeschichte der beiden ersten Chinesen in Deutschland“, Asseng und Ahok, berichtet. Für alle Interessierten sei hier auch auf das dazugehörige Themenportal hingewiesen: https://themen.crossasia.org/fung-asseng/?lang=en.

Weiterhin ist die Dissertation von Herrn Dr. Jiang im CrossAsia Repository jetzt online zugänglich.

Im September melden wir uns dann am 26.09.2024 ab 18 Uhr mit Frau Dr. Barbara Wall (Universität Kopenhagen) und ihrem Vortrag „The Dynamic Essence of Transmedia Storytelling: A Graphical Approach to the Journey to the West in Korea“ zurück. Sie wird den im chinesischen Raum bekannten Roman „Die Reise nach Westen“ im Kontext der koreanischen Version vorstellen. Der Vortrag ist als Booktalk konzipiert, der sich auf ihre soeben erschienene Monographie bezieht.

 

Schenkung:

Im Mai hatte uns die Deutsch-Thailändischen Gesellschaft e.V. die Übernahme von thailändischen Büchern des 2023 verstorbenen thailändischen Arztes Dr.med. Suam Choke Kanokvichita angeboten. Das Interesse von Dr. Kanokvichita, der in Deutschland gelebt und praktiziert hatte, galt Thailand in seiner ganzen Vielfalt, was seine umfangreiche Büchersammlung widerspiegelte. Im Bereich der Medizin interessierte er sich besonders für traditionelle asiatische Medizin und sammelte Literatur zu dem Thema. Darüber hinaus verfasste er Bücher für Thailänder zum Erlernen des Thailändischen und für Thailänder zum Erlernen des Deutschen. Aus seinem Nachlass konnten wir ca. 170 Bücher in Thailändisch als Ergänzung für unsere Sammlung auswählen. Wir werden Sie informieren, wenn die Bücher zur Nutzung bereitstehen.

 

Kooperation:

Das Center for Digital Cultures der Academia Sinica (Taiwan) war zu Besuch bei CrossAsia. Am 16.7. konnten die Staatsbibliothek zu Berlin/CrossAsia ein Memorandum of Understanding (MOU) mit der Academia Sinica in Taiwan, vertreten durch das Center for Digital Cultures, unterzeichnen. Ziel der Vereinbarung ist es, die chinesischen Titel der Digitalen Sammlungen der SBB mit Volltexten zu versehen.

 

Fördermittel:

CrossAsia hat von der Korea Foundation einen Förderzuschuss für „e-Ressourcen für Koreastudien“ erhalten. Ziel dieses Zuschusses ist es, Abonnements für koreanische Datenbanken für CrossAsia zu unterstützen und elektronische Ressourcen für die Koreastudien erheblich auszubauen.

 

Rückblick:

Es fand eine Präsentation thailändischer Handschriften anlässlich des Besuchs der Prinzessin Maha Chakri Sirindhorn in der Staatsbibliothek statt. Die thailändische Prinzessin Maha Chakri Sirindhorn war am Vormittag des 03. Juli 2024 zu Gast in der Staatsbibliothek zu Berlin. Nach der Begrüßung durch Herrn Prof. Dr. Achim Bonte führte sie und ihre Delegation Herr Vincent Schmidt durch das Kulturwerk mit seinen Schätzen. Es schloss sich eine Präsentation thailändischer Handschriften an. Unter anderem erläuterte Frau Dr. Claudia Götze-Sam (Ostasienabteilung) ein Ramakian-Faltbuch aus dem 18. Jh. und eine illustrierte Handschrift über die Erfahrungen des Mönchs Phra Malay beim Besuch der unterschiedlichen buddhistischen Welten. Auf ausdrücklichen Wunsch der Prinzessin Sirindhorn zeigten ihr Frau Dr. Carolin Schreiber (Leiterin der Handschriften-Abteilung) Handschriften und Drucke aus dem deutschen und europäischen Kontext und Herr Dr. Martin Jeske (Kartenabteilung) Materialien mit Bezug zum Kalten Krieg.

 

Die Veranstaltung Charting the European D-SEA – Digital Scholarship in East Asian Studies – Workshops und Konferenz“ fand vom 08. – 12. Juli 2024 an der Staatsbibliothek statt. Es wurde ein Überblick über den aktuellen Stand der digitalen Forschung in den Ostasienwissenschaften in Europa gegeben, verschiedene Workshops und die Konferenz am Donnerstag und Freitag luden dazu ein, sich über die wichtigsten Methoden und Ressourcen zu informieren. Eine Nachlese zur Veranstaltung fasst die wichtigsten Punkte noch einmal zusammen.

 

Ausblick:

Auch in diesem Jahr bietet die Stiftung Preußischer Kulturbesitz (SPK) Forschungsstipendien für internationale Wissenschaftler:innen an. Die Stipendien stehen für Forschungsarbeiten in Berlin mit den umfangreichen Sammlungen der Staatsbibliothek zu Berlin, wie z.B. den Beständen der Ostasienabteilung und CrossAsia, sowie den Beständen anderer Institutionen der SPK zur Verfügung.

Die Bewerbungsfrist für ein Forschungsstipendium an der Staatsbibliothek zu Berlin endet wie jedes Jahr am 30. September.

Alle notwendigen Informationen für eine Bewerbung (Richtlinien, Voraussetzungen etc.) finden Sie hier: https://staatsbibliothek-berlin.de/extras/spezielle-interessen/stipendien

 

Wir freuen uns auf den gemeinsamen Austausch mit Ihnen nach der Sommerpause!

 

Ihr CrossAsia Team

Newsletter 31 – Kreuz und quer durch CrossAsia

Liebe CrossAsia Nutzer:innen,

wir senden Ihnen heute unseren CrossAsia-Newsletter über die neue CrossAsia-E-Mailliste, die wir für den Newsletter, aber auch für aktuelle Dinge und Belange im Kontext von CrossAsia und dem FID Asien, eingerichtet haben. Sie als Abonnent:in unseres Newsletters erhalten hiermit zuerst Zugang zur E-Mailliste. Die Liste steht Ihnen, nach der Anmeldung zum Austausch mit uns und der gesamten CrossAsia-Community zur Verfügung. Sie wird nicht moderiert. Wir freuen uns, diese neue Austauschmöglichkeit mit Ihnen zu erproben und sind auf Anregungen Ihrerseits gespannt!

Für alle diejenigen, die Interesse haben, steht dieser Link zur Registrierung bereit:

https://www.listserv.dfn.de/sympa/subscribe/crossasia?previous_action=info

Sollten Sie kein Interesse an dieser Liste haben, tragen Sie sich bitte hier wieder aus:

https://www.listserv.dfn.de/sympa/signoff/crossasia

Neue Lizenz für elektronische Zeitschriften aus der VR China

In den letzten Monaten gab es wichtige Änderungen im Bereich des Zugangs zu China Academic Journals (CAJ). Nachdem CNKI im November 2022 unsere Lizenz für CAJ gekündigt hat, haben wir in einem Ausschreibungsverfahren alternative Anbieter kontaktiert, um die Versorgung mit chinesischen elektronischen Zeitschriften sicherzustellen. Mit Unterstützung der Deutschen Forschungsgemeinschaft konnten wir Ende 2023 einen Lizenzvertrag mit Weipu 维普 (mit vollem Namen VIP 维普) erfolgreich abschließen. Weipu bietet Zugang zu über 70 Millionen Artikeln aus mehr als 15.000 Zeitschriften, teilweise ab dem Erscheinungsjahr 1955. Weipu unterscheidet sich von CAJ sowohl in der Zusammenstellung als auch in der Bedienung, weswegen Sie weitere Informationen zur Handhabung auf unserem Blog und hier im Newsletter verlinkt finden.

Themenportale und Digitale Sammlungen

Ansonsten hat sich bei CrossAsia seit letztem Jahr einiges getan: Das Themenportal „Das Vermächtnis Maos“ stellt das Projekt „Maoist Legacy“ unter der Leitung von Prof. Daniel Leese vor. Die im Projekt erarbeitete Datenbank stellt die größte digitale Sammlung von Dokumenten zur Frage der historischen Gerechtigkeit nach dem Tod Mao Zedongs dar und gibt Einblicke in die Zeit unmittelbar nach dem Maoismus Ende der 1970er und Anfang der 1980er Jahre. Im Projekt erstellte Metadaten wurden in CrossAsia integriert und sind im ITR recherchierbar sowie mit anderen CrossAsia-Daten vergleichbar.

Das zweite Themenportal „Im Banne Chinas“ – Der Sinologe Wolfgang Franke als Forscher und Vermittler“ beschäftigt sich mit dem Sinologen und Historiker Wolfgang Franke (1912-2007). Franke hat die deutsche Sinologie und den Blick auf China maßgeblich geprägt. Das Themenportal, das von Stefan Messingschlager (Hamburg) und Antje Platzek (Berlin) erarbeitet wurde, bietet einen umfassenden Einblick in sein Leben und Werk. Es zeigt, neben privaten Einblicken, u. a. seine lebenslange Verbundenheit mit China, seine Rolle als Wissenschaftler an der Universität Hamburg und seine Tätigkeit als Vermittler zwischen den Kulturen.

Unser Projekt mit Prof. SUGAWARA Jun 菅原純 (Universität Lanzhou) konnte erfolgreich abgeschlossen werden: Die Sammlung von 788 historischen Vertragsdokumenten aus Kashgar und Khotan ist eine einzigartige Sammlung, die von Prof. SUGAWARA Jun während eines Forschungsaufenthaltes in Kashgar in den frühen 2000er Jahren zufällig entdeckt, gesichert und später der Xinjiang University in Ürumchi geschenkt wurde, wo sie bis heute aufbewahrt wird. Die Dokumente dieser Sammlung, die zwischen der Mitte des 19. und der Mitte des 20. Jahrhunderts entstanden sind, bieten faszinierende Einblicke in verschiedene Bereiche des privaten Lebens in der Region Kashgar und Khotan. Sie umfassen eine Vielzahl von Verträgen, darunter Immobilienkäufe, Schenkungen, Rechtsstreitigkeiten, Erbschaften, Schulden, fromme Spenden, Prokura, Scheidungen, Pachtverträge und vieles mehr.

In einem Blogbeitrag hat unsere Kollegin, Frau Dr. Claudia Götze-Sam, vietnamesische Literatur aus den 1950er und 1960er Jahren vorgestellt, die jetzt online recherchierbar ist.

 

Vorträge und Schulungsangebote

Wir werden im neuen Jahr das Format der CrossAsia Talks fortsetzen, jetzt allerdings, sofern nicht anders angekündigt, als reine Online-Veranstaltung. Am 14. März 2024 wird Dr. Xueqi JIANG zum Thema „Zur abenteuerlichen Lebensgeschichte der beiden ersten Chinesen in Deutschland“, Asseng und Ahok, ab 16 Uhr starten. Als Vorbereitung sei auf das dazugehörige Themenportal hingewiesen.

Im letzten Newsletter haben wir über die geplanten Digital Humanities Lunchtalks berichtet. Diese Reihe von Kurzvorträgen ist gut angelaufen. Bei den bisherigen vier Veranstaltungen haben sich interessante Diskussionen und Kooperationsanfragen ergeben. Im März wird die vorerst letzte Veranstaltung dieser Reihe stattfinden. Im Sommer soll dann eine internationale Tagung zu Digital Humanities in den Asienwissenschaften in der Staatsbibliothek in Zusammenarbeit mit dem Max-Planck-Institut für Wissenschaftsgeschichte (Berlin) stattfinden, über die wir Sie rechtzeitig informieren werden.

Datenbanken und Erwerbungen

Wir haben für Sie die folgenden neuen Datenbanken lizenziert:

 

Wir freuen uns auf ein spannendes Jahr und den gemeinsamen Austausch mit Ihnen!

Ihr CrossAsia Team

 

Neue Digitale Sammlung: Kashgar Contractual Documents

Wir freuen uns, Ihnen im Rahmen der CrossAsia Digitalen Sammlungen eine neue Kollektion mit 788 historischen Vertragsdokumenten aus Kashgar und Khotan präsentieren zu können. Die Kollektion wurde von Prof. SUGAWARA Jun 菅原純 (Lanzhou University) während eines Forschungsaufenthalts in Kashgar in den frühen 2000er Jahren zufällig entdeckt, gesichert und später der Xinjiang University in Ürumchi geschenkt, wo sie heute aufbewahrt wird.

Die Dokumente der Sammlung entstanden zwischen Mitte des 19. und Mitte des 20. Jahrhunderts und dokumentieren verschiedenste Bereiche des privaten Lebens in der Region Kashgar und Khotan. Sie umfassen Verträge zu Immobilienverkäufen (baiʿ) und andere immobilienbezogene Verträge wie Schenkungen oder Tauschgeschäften, oder sie beziehen sich auf Rechtsstreitigkeiten (daʿwā), Erbschaft (mirāth), Schulden (madyūn), fromme Spenden (waqf), Prokura (wakālat), Scheidung, Pacht (ijāre) und anderes mehr.

Durchstöbern Sie die Sammlung anhand von Filtertermini oder blättern Sie sich durch eine Übersicht oder geben Sie einen Suchterm (English) in den Suchschlitz in der oberen rechten Ecke der Seite ein.

Die Digitalisierung und Ersterschließung wurde von der Japan Society for the Promotion of Science (JSPS) finanziert; zur Unterstützung der weiteren Forschung mit diesen Materialien haben Mitarbeiter:innen der Ostasienabteilung der Staatsbibliothek zu Berlin und CrossAsia die Transformation in iiif-Manifeste und die freie Online-Präsentation im Rahmen von CrossAsia umgesetzt.

In einem nächsten Schritt wird die Online-Präsentation mit der Möglichkeit für Nutzer ausgestattet, weitere Erschließungsdaten einzureichen, die nach einer kurzen Prüfung freigeschaltet und durchsuchbar gemacht werden können.

Logo of the Europeana Tech Conference 2023

Vom lesenden Menschen zu lernenden Maschinen – über die Möglichkeiten von Gaia-x für das kulturelle Erbe

Dieser Beitrag ist eine Verschriftlichung des gleichnamigen Vortrags über die ersten Erfahrungen, Daten aus dem ITR von CrossAsia in Gaia-X zu publizieren und auf diesem Wege der Forschung und vor allem den Digital Huminaties zur Verfügung zu stellen. Der Vortrag wurde am 11. Oktober 2023 im Rahmen der Europeana Tech Conference 2023 in Den Haag gehalten.

Ausgangspunkt der Reise Richtung Gaia-X stellt die CrossAsia Webseite dar. CrossAsia ist das von der Staatsbibliothek zu Berlin verantwortete Portal, in dem alle Services des von der DFG geförderten Fachinformationsdienstes Asien und weiteren Angebote gebündelt werden. Der Fachinformationsdienst richtet sich an Wissenschaftlerinnen und Wissenschaftler aus den asienbezogenen Geisteswissenschaften und hat seinen Schwerpunkt auf Ost-, Zentral- und Südostasien. Die Staatsbibliothek sammelt nicht nur Materialien aus und über diese asiatischen Regionen, sondern hat sich bereits vor mehr als 20 Jahren für eine e-preferred-Strategie entschieden. Wann immer ein elektronisches Medium wie Zeitschrift oder Buch dauerhaft lizenziert werden kann, wird kein gedrucktes Exemplar erworben, sondern das elektronische Dokument lizenziert. Hierbei versucht die Staatsbibliothek neben den überregionalen oder nationalen Zugangsrechten auch die Rechte für die lokale Archivierung der Dokumente inkl. Text- und Datamining-Rechten nach Verhandlungen zu erlangen. Neben den Einträgen in den Nachweissystemen kommt der Verwaltung der lizenzierten Daten wie Bilddaten, Volltexten, Film- und Tondokumenten eine besondere Bedeutung zu. Ein erster Dienst, der aus der Verwaltung der digitalen Objekte entwickelt wurde, ist die CrossAsia-Volltextsuche. Diese basiert neben eigenen digitalisierten und mit Volltexten ausgestatteten Objekten auf lizenzierten Objekten von Verlagen und anderen Anbietern. Hierbei handelt es sich hauptsächlich um Text- und Bildmaterialien aus historischen Quellen, von Büchern über wissenschaftliche Artikel bis hin zu aktuellen Zeitungen. Bislang sind insbesondere Materialien in Englisch und Chinesisch repräsentiert; das Angebot wird auch in Hinblick auf die anderen Sprachen kontinuierlich ausgebaut.

All diese Inhalte werden im sogenannten Integrierten Textrepository (ITR) archiviert. Technische Grundlage hier ist eine Infrastruktur basierend auf der Fedora Repository Software. Gleichzeitig stellen wir die Durchsuchbarkeit der Inhalte über einen Solr-Index dar. Dieser enthält momentan fast 70 Millionen Dokumente und ist weltweit eine einmalige Sammlung für lizenzfreie und lizenzbehaftete digitale Ressourcen in den Asienwissenschaften.

Aus diesem Grunde haben viele Wissenschaftlerinnen und Wissenschaftler ein großes Interesse, in diesen Inhalten Muster zu entdecken, neue Zusammenhänge zu erkennen und neue Erkenntnisse mit eigenen Algorithmen und Programmen durch Text- und Datamining zu gewinnen. Der FID Asien besitzt zwar das Recht, seine Nutzerinnen und Nutzern solche Analysen direkt durchführen zu lassen. Hierbei stellt sich jedoch die Frage, wie Code und Inhalte zusammenkommen?

Eine naheliegende Idee wäre ein zusätzlicher Service, der es Wissenschaftlerinnen und Wissenschaftlern ermöglicht, ganze Sammlungen aus dem ITR herunterzuladen. Allerdings ist die Datenmenge im ITR sehr groß, so dass unter Umständen mehrere Terrabyte von Daten heruntergeladen werden müssten. Dies kann je nach Netzwerkgeschwindigkeit Wochen dauern. Zudem wird die weitere Verbreitung der Daten mit dem Download unkontrollierbar, was für alle lizenzierten Inhalte äußerst kritisch ist und zu Vertragsverletzungen führen kann. Dies wiederum schafft Probleme mit Verlagen, mit denen die Staatsbibliothek Verträge geschlossen hat. Schließlich basiert ein Lizenzvertrag auf gegenseitigem Vertrauen, weshalb eine strengere Zugriffskontrolle auf die Daten notwendig ist.

Eine andere Idee ist, dass Wissenschaftlerinnen und Wissenschaftler in die Staatsbibliothek kommen und sich dort mit ihrem eigenen Laptop über die IT-Infrastruktur der SBB direkt mit dem ITR verbinden und dann die entsprechenden Analysen durchführen. Dies ist aus Zeit- und Kostengründen nicht immer realisierbar, vor allem wenn eine ferne Anreise notwendig ist. Und auch in diesem Fall muss kontrolliert werden, ob Daten in zu großem Umfang aus dem ITR abgezogen werden und die Staatsbibliothek damit die Kontrolle über ihre in den Lizenzverträgen eingegangenen Verpflichtungen verliert.

Ein weiteres Problem stellen die erforderlichen Computer-Ressourcen dar, die z.B. für das Training im Rahmen des maschinellen Lernens benötigt werden und die ein einfacher Laptop nicht bieten kann. Daher kann auch die Verfügbarkeit der notwendigen Rechenleistung ein Problem sein.

Ausgehend von dieser Problematik begann unsere Suche nach einer Möglichkeit, unsere Daten und unser ITR für Text- und Datamining zu öffnen. Dabei stießen wir auf Gaia-X. Gaia-X ist eine europäische Initiative für eine unabhängige Cloud-Infrastruktur, wobei es sich eher um ein Framework als um eine weitere Cloud-Plattform wie Amazon Webservices oder Google handelt, die sich in verschiedene Domänen aufgliedert.

Die wichtigsten Eigenschaften des Gaia-X Frameworks sind im Folgenden aufgeführt:

  • Volle Souveränität über die eigenen Daten. Die Kontrolle über die Daten bleibt stets beim Eigentümer.
  • Dezentralität, d.h., es gibt keinen zentralen Punkt im Netzwerk, der für das Funktionieren notwendig ist.
  • Ein Regelwerk zur Schaffung von Vertrauen und spezielle Services (verfügbar als Open Source), die von allen Netzwerkteilnehmern genutzt werden können, um zu überprüfen, ob andere auch die Regeln einhalten. Gaia-X ist also ein föderales System mit implizitem Vertrauen.
  • Gaia-X ist interoperabel, da es keine vorgeschriebene technische Infrastruktur für die Teilnahme gibt.
  • Mit Gaia-X ist es möglich, fachspezifische Dataspaces zu erstellen und diese miteinander zu verknüpfen.

Abbildung 1 zeigt einen Überblick über die Gaia-X Domäne, die wir uns näher angeschaut haben. Links ist das Trust Framework mit den verbundenen föderierten Diensten dargestellt, die dazu genutzt werden können, um die Compliance von allen Teilnehmenden zu überprüfen. Rechts oben finden sich die Portale, die den Einstiegspunkt in die fachspezifischen Dataspaces in Gaia-X darstellen.

 

 

Alles, was in einem Portal veröffentlicht wird, wird im föderierten Katalog verzeichnet, der in der Abbildung neben den Portalen zu sehen ist. Dieser Katalog ist unabhängig von den Portalen und enthält Informationen über alle Assets in Gaia-X. Nutzerinnen und Nutzer besuchen ein Portal und sehen die Inhalte abhängig vom Portal in einer fachspezifischen Ansicht des föderierten Katalogs. Die Inhalte sind jedoch nicht an das Portal gebunden und können jederzeit und überall im Gaia-X-Netzwerk genutzt werden. Auch deswegen ist Gaia-X als dezentral zu bezeichnen.

Um herauszufinden, wie uns diese Eigenschaften unterstützen können, um Text- und Datamining im ITR zu ermöglichen, haben wir ein Proof-of-Concept gestartet. Das Ergebnis war ein eigenes CrossAsia Portal in Gaia-X. Inhalte eines solchen Portals sind sogenannte Service-Offerings in Gaia-X. Dies kann entweder ein Dataset oder ein Algorithmus sein. Für ein Dataset besteht die Möglichkeit des gesicherten Downloads, was bedeutet, dass die URL des Datensatzes niemals sichtbar wird. Gleichzeitig kann zum Beispiel die gesamte Anzahl an Downloads festgelegt werden.

Eine weitere Möglichkeit besteht darin, Compute-To-Data für ein Dataset zu aktivieren. Dies ermöglicht es Nutzerinnen und Nutzern, die Daten mit einem veröffentlichten Algorithmus zu verknüpfen und einen Compute Job zu starten. Die Nutzerinnen und Nutzer erhalten nur die Ergebnisse ihres Compute-Jobs, nicht die Daten selbst. Auf diese Weise können wir die Daten aus unserem ITR für Text- und Datamining anbieten, ohne dass jemand Daten herunterladen oder verschieben muss.

Dies funktioniert, weil hier das Ocean Protocol die technische Grundlage von Gaia-X darstellt. Abbildung 2 zeigt einen vereinfachten technischen Ablauf für Compute-To-Data. Die Schritte sind relativ einfach: zunächst suchen die Nutzerinnen und Nutzer die Daten und den Algorithmus aus dem föderierten Katalog (vorausgesetzt, es bestehen entsprechende Zugriffsrechte). Dann werden Daten und Algorithmus in einen isolierten Execution Pod geladen, der innerhalb einer Kubernetes-Umgebung startet. Einzig die Ergebnisse des Algorithmus und Logfiles zur Ausführung werden dann dem Nutzer oder der Nutzerin zur Verfügung gestellt. Am Ende wird der Execution Pod gelöscht.

 

 

Das Veröffentlichen von Datasets und Algorithmen und deren Verbindung hat wie in der Theorie beschrieben funktioniert. Daher kann der Proof-of-Concept als Erfolg angesehen werden: eine Bibliothek kann Datasets in Gaia-X veröffentlichen, Wissenschaftlerinnen und Wissenschaftler können einen Algorithmus veröffentlichen und beides über das Portal kombinieren. Die gewünschten Ergebnisse werden zur Verfügung gestellt, ohne das die Sicherheit der Daten gefährdet wird – keine Downloads sind notwendig und alle Daten bleiben bei der Institution, die sie veröffentlicht hat.

Mit der Ersteinrichtung des Portals muss jedoch festgestellt werden, dass noch einige Verbesserungen notwendig sind, bevor die Lösung in größerem Umfang gut genutzt werden kann. Wer das Portal ausprobieren möchte, wird feststellen, dass der Einstieg in das Gaia-X Netzwerk nicht einfach ist und einiger Erklärungen bedarf. Da es sich bei der Datenbank des föderierten Katalogs um einen Distributed Ledger handelt, wird ein Wallet zur Identifizierung und Rechtegewährung benötigt. Daher muss im Browser ein Wallet (z.B. MetaMask) installiert und konfiguriert werden. Nach dem Einstieg ins Netzwerk ist jedoch die Veröffentlichung von Datasets und Algorithmen recht einfach, wenn auch die Verwendung von Daten bzw. das Starten eines Compute-Jobs eine Reihe von Bestätigungen bestimmter Transaktionen auf dem Ledger erfordert.

Zusammenfassend lässt sich feststellen, dass Gaia-X eine interessante neue Möglichkeit für GLAM-Institutionen ist, ihre schützenswürdigen Daten anzubieten. Gaia-X ist derzeit noch stark von wirtschaftlichen und industriellen Interessen mit einer starken kommerziellen Ausrichtung getrieben. Dennoch haben wir uns entschieden, vor allem aufgrund der guten Ergebnisse, unsere Aktivitäten in Gaia-X fortzuführen und den Proof-of-Concept zu einer Pilotanwendung weiterzuentwickeln. Hier arbeiten wir an ersten Verbesserungen der User-Experience und werden in Kürze weitere Use-Cases mit wissenschaftlichem Fokus durchführen. Wir engagieren uns gleichzeitig in der Gaia-X und Ocean-Protocol-Community, um auch nicht-kommerzielle Anwendungsfälle in Gaia-X besser zu ermöglichen und Gaia-X zu einem wissenschaftlichen Ökosystem für fachspezifische Dataspaces weiterzuentwickeln.

Basierend auf unseren Erfahrungen aus dem Proof-of-Concept möchten wir Einrichtungen des Kulturerbes vorschlagen, darüber nachzudenken, wie Gaia-X und das Ocean Protocol sie dabei unterstützen können ein Fullstack-Dataprovider zu werden. Und eben nicht nur ein Dataprovider für Metadaten, um Kulturartefakte zu finden, nicht nur ein Dataprovider für Texte zum Lesen, Audios zum Hören, Bilder oder Videos zum Ansehen oder Forschungsdaten zum Analysieren. Sondern vielmehr ein Dataprovider, der solche Kulturdaten in hoher Qualität auch für Algorithmen und Netzwerke für maschinelles Lernen anbietet und dabei – sofern notwendig – die Hoheit über die Daten behält.

Derzeit werden Large Language Models stark von großen Unternehmen wie OpenAI, Google oder Facebook kontrolliert. Wenn jedoch jeder die Möglichkeit erhält, seine eigenen Modelle mit Daten von GLAM- Institutionen zu trainieren, kann das maschinelle Lernen demokratisiert werden. Da jeder Zugang zu den Daten hat, die er oder sie für seine Algorithmen benötigt – entweder zu freien Daten oder bei lizenzierten Daten dort, wo ein entsprechendes Zugriffs- und Lizenzrecht besteht. Neue Ansätze wie Federated Learning können dabei helfen und den Prozess sogar noch stark vereinfachen. Unser Ziel ist es, das Training künstlicher Intelligenz zu verbessern, indem wir unsere digitalen Lesesäle für die Algorithmen öffnen und nicht nur die neuen Möglichkeiten der künstlichen Intelligenz selbst zu nutzen.

Referenzen

Wenn Sie interessiert sind, die Lösung zu testen und Unterstützung benötigen, wenden Sie sich bitte an x-asia(at)sbb.spk-berlin.de

Umfrage zu Digital Humanities | Survey on Digital Humanities

(English below)

 

Liebe CrossAsia Community,

wie bereits im Newsletter angekündigt, führen wir eine kurze Umfrage zu Digital Humanities in Bezug auf CrossAsia durch. Sie soll uns helfen, unsere Zielgruppe, Ihre Kompetenzen und Erwartungen besser kennen zu lernen.

Ein Klick auf den Link bringt Sie zur Umfrage-Seite. Die Umfrage dauert ca. 10 Minuten.

CrossAsia Umfrage zu Digital Humanities in deutsch.

 

Wir wünschen viel Spaß und freuen uns die Antworten.

 

Ihr / Euer

CrossAsia Team


Dear CrossAsia Community,

As already announced in the newsletter, we are conducting a short survey on Digital Humanities in relation to CrossAsia. It is intended to help us get to know our target group, your competencies and expectations better.

Clicking on the link will take you to the survey page. The survey will take about 10 minutes to complete.

CrossAsia survey on Digital Humanities in English.

 

We hope you have fun and look forward to receiving your answers.

 

Your

CrossAsia Team

Turfanakten des Museums für Asiatische Kunst jetzt online

Vor einer Weile sind bereits die Fotos und Zeichnungen aus dem Zusammenhang der „Deutschen Turfanexpeditionen“ als Präsentation online gegangen. Nun können auch die 21 Turfanakten, die im Museums für Asiatische Kunst (AKu) verwahrten werden, durchstöbert werden: https://iiif.crossasia.org/s/turfan.

Im Projekt wurden für das jeweilige Aktenstück/Seite die erwähnten Personen und Orte, Sender und Empfänger, sowie Sach- und Format-Schlagwörter erfasst.

Tipp: Nach Aufruf der Unterkollektion Akten, kann im Suchschlitz „Refine Search“ exklusive in dieser Unterkollektion gesucht werden.

 

Viel Spaß beim Stöbern!

Feedback gern an x-asia

Neues Themenportal zu japanischen Querrollen aus den Sammlungen der Staatsbibliothek zu Berlin

Wir möchten Sie gerne einladen, unser neues ⇒Themenportal zu den japanischen Querrollen in den Sammlungen der Staatsbibliothek zu erkunden. Diese großformatigen Werke, die bisher in den Digitalisierten Sammlungen der Bibliothek nur in der Form von Einzelbildern elektronisch zugänglich waren, können ab sofort auf der CrossAsia-Seite über den integrierten Viewer in ihrer gesamten Länge betrachtet werden. Neben frühen buddhistischen Drucken finden Sie hier reich illuminierte Werke aus der Edo-Zeit, aber auch einfache Werkstattkopien von Erzählungen oder handkolorierte Drucke von Prozessionen. Wir wünschen viele Spaß beim Erkunden.

Ein kleiner technischer Hinweis: Die Reaktionszeit des Viewers bis zur Anzeige der kompletten Rolle ist z.Z. noch etwas lang. Es dauert ggf. einige Sekunden, bis die Rolle sich aufbaut.

Typographia Sinica beim 3D Hackathon 2022

Am kommenden Wochenende, 24.-25.09., findet in der Staatsbibliothek zu Berlin das Kick-Off Treffen des sich über 4 Wochen erstreckenden 3D Hackathon Creating New Dimensions statt. Wir sind dabei mit einem 3D Modell der Typographia Sinica, dem von Andreas Müller (1630-1694) entworfenen Schrank mit mehr als 3.000 Drucktypen mit chinesischen Zeichen. Im Datenset enthalten sind sowohl das Möbel, als auch die Schubladen mit den Drucktypen. Sollten Sie Zeit, Lust und Interesse haben, mit den Daten zu experimentieren (auch Menschen ohne Programmierkenntnisse sind willkommen) sind Sie herzlich eingeladen, dabei zu sein. Die Anmeldung zum Hackathon ist noch möglich, einzelne Restplätze werden noch vergeben. Zur Anmeldung geht’s hier.

CrossAsia

DH Infrastruktur in Japan

Beim 18. deutschsprachigen Japanologentag Ende August 2022 online organisiert von der Japanologie Düsseldorf fand eine Session mit Vertreter:innen von drei Infrastruktureinrichtungen statt, die Services, Datensätze, Tools sowie Informationsplattformen rund um Forschung und Lehre in den Digital Humanities (kurz DH) in Japan anbieten. Zunächst präsentierten die Gäste in parallelen Breakout Rooms die Aktivitäten ihrer Einrichtungen, bevor sich im Anschluss alle Teilnehmenden zu einer gemeinsamen Diskussionsrunde versammelten. Die Themen waren u.a. Fortbildung im Umgang mit DH oder Möglichkeiten der zukünftigen Zusammenarbeit. Im Folgenden findet sich ein kurzer Überblick über die Inhalte der Beiträge sowie Links zu den PPTs. Die Vortragenden haben zugestimmt, dass ihre PPTs unter der Lizenz CC-BY nachgenutzt werden dürfen.

TOKUHARA Naoko vom NDL Lab der National Diet Library (NDL), Tokyo, stellte die Vision ihrer Bibliothek für die Jahre 2021-2025 vor, in deren Mittelpunkt der digitale Wandel („digital shift“) steht, der die gesamte Gesellschaft und ihre Kommunikationswege erfasst hat. Um dieser Veränderung gerecht zu werden, hat sich die NDL u.a. ein umfassendes Digitalisierungsprogramm ihrer Bestände vorgenommen, welches moderne Druckwerke, Zeitschriften, vormoderne Titel, Amtsdruckschriften, Zeitungen und Dissertationen gleichermaßen umfasst. Auch wenn Teile dieser Digitalisate nur in den Räumen der NDL oder nur für registrierte Einrichtungen des Digitized Contents Transmission Service zugänglich sind, stellt diese Intensivierung der Digitalisierungsmaßnahmen einen erheblichen Schritt in Richtung weltweite Zugänglichkeit zu den Sammlungen der NDL dar. Das so genannte „Research and Development for Next-Generation Systems Office (R&D Office)“, welches Frau Tokuhara leitet, entwickelt Services und Tools, um den Herausforderungen der Digitalisierung zu begegnen. Zu den Angeboten (s.a. den GitHub Account der NDL) zählen:

  • massenhaft erstellte Textdaten unter Verwendung eines kommerziellen OCR-Programms (inkl. Trainingsdatensets)
  • ein selbst entwickeltes OCR-Programm für die Texterkennung, das so genannte „NDLOCR“ (inkl. Trainingsdatensets)
  • eine Volltextsuche in den digitalen Sammlungen der NDL
  • die Entwicklung eines NDL Ngram Viewers

Nähere Informationen zu den Aktivitäten finden Sie auf den verlinkten Webseiten oder in dieser PPT.

 

KITAMOTO Asanobu leitet das ROIS-DS Center for Open Data in the Humanities (CODH), Tokyo. Das CODH bietet eine ganze Reihe von offenen Datensets sowie Tools für die DH an. Dabei werden nicht nur Texte, sondern auch der Umgang mit Bilddaten und Karten berücksichtigt. Das Angebot ist breit gefächert und umfasst u.a.:

  • Datensets für Edo-zeitliche Kochrezepte, Landkarten, Siegel und vormoderne Texte
  • Trainingsdaten für die OCR-Erschließung von Zeitschriften wie Kokumin no tomo, Meiroku Zasshi (Kindai OCR)
  • Trainingsdatenset für Kursivschrift (kuzushiji)
  • Miwo App, welche das Lesen von Texten in kuzushiji unterstützt
  • Open Software, wie die IIIF Curation Platform, welche die Zusammenstellung eigener Bilddatensammlungen ermöglicht
  • Beispielprojekte, wie Edomi, welches Text- und Bildinformationen mit Bezug zu Edo (heute: Tokyo) sowohl thematisch als auch geographisch aufbereitet

Nähere Informationen zu den Aktivitäten finden Sie auf den verlinkten Webseiten oder in dieser PPT.

 

NAGASAKI Kiyonori ist Senior Fellow am International Institute for Digital Humanities, Tokyo, und einer der national wie international engagiertesten “Digital Humanists” in Japan. In seiner Präsentation zu “Access to Digital Tools, Resources, and Methods for Japanese Studies” legte er den Fokus auf Informationsmöglichkeiten zu DH in Japan. Seine PPT bietet einen konzisen Überblick samt Links zu wichtigen Akteur:innen, Webseiten und eine Leseliste DH-bezogener Fachliteratur. Herr Nagasaki verwies u.a. auf das japanische Fachmagazin “Digital Humanities Monthly”, den von ihm geführten Blog und Kalender zu DH-bezogenen Aktivitäten in Japan sowie das Netzwerk DH Japan. Des Weiteren setzt er sich für die Verbreitung des TEI-Standards in Japan ein. Zu diesem Zweck hat Herr Nagasaki mit weiteren Kollegen die Arbeitsgruppe TEI-C東アジア/日本語分科会 gegründet. In den regelmäßigen online Treffen der Arbeitsgruppe kann man sich über die konkrete Anwendung des TEI-Standard für japanischen Texte austauschen.

Nähere Informationen zu den Aktivitäten finden Sie auf den verlinkten Webseiten oder in dieser PPT.