ITR und Entwicklungen

Wo landen eigentlich die bibliografischen Daten der elektronischen Titel?

Im Rahmen der Arbeiten im FID Projekt werden neben den zahlreichen digitalen Objekten wie Bildern, PDFs, XML etc. auch große Mengen von bibliographischen Metadaten verarbeitet, sowohl auf Buch- als auf Artikelebene. Das ist mal mehr, mal weniger aufwändig. Einige dieser Metadaten erhalten wir direkt von den Anbietern. Diese können nach wenigen Anpassungen bereits für die CrossAsia Suche oder den electronischen Online-Katalog (OPAC) bereit gestellt werden – andere müssen aus XML-Dateien, die Volltext und Metadaten enthalten, extrahiert werden. In jedem Fall versuchen wir, soviel bibliografische Informationen wie möglich mitzunehmen und zusätzliche aus den Daten, die uns zur Verfügung gestellt werden „herauszukitzeln“. Da es sich um jeweils sehr große Datenmengen handelt (z.B. 8000 Foreign Office Files oder 5400 Titel aus Xuxiu etc.) können diese Arbeiten nur semi-automatisch passieren. Für die Lokalmonographien und die Titel aus Xuxiu haben wir z.B. mit Hilfe von Online-Tools wie MARKUS die chinesischen Editionsangaben in westliche Jahreszahlen „übersetzen“ lassen und nach weiteren Manipulationen diese dann den Titeln als Metadatum hinzugefügt.

Wo landen diese Metadaten

Neben der Volltextsuche, die in einem früheren Beitrag hier vorgestellt wurde, sozusagen eine Spitze des Eisbergs „CrossAsia ITR“, die unsere Nutzer bereits sehen und verwenden, können wohl auch die Metadaten, die als Teil der Arbeiten am ITR entstehen, als eine solche Eisbergspitze gelten. Handelt es sich um sogenannte „unselbstständige“ Titel, also Artikel, Kapitel, Aktenstücke etc., dann werden diese über einen Solr-Index in die CrossAsia Suche eingebunden werden; Buchtitel fließen in der Regel  über den OPAC in die CrossAsia-Suche ein.

Wo sucht die CrossAsia Suche

Einen Überblick über den jeweils aktuellen Stand der in die Suche eingebundenen Ressourcen bietet das rot unterlegte „i“ hinter dem Suchschlitz auf der Seite der CrossAsia Suche. Daher lohnt es sich, hin und wieder einmal einen Blick auf diese Liste (siehe das Headerbild diese Beitrags) zu werfen. Erst kürzlich sind z.B. folgende Zeilen hier hinzugekommen:

  • Airiti Conference Proceedings (CEPS)
  • Airiti Electronic Periodicals (TEPS)
  • Airiti Theses & Dissertations (CETD)
  • FO China (Adam Matthews Digital)
  • China, Trade and Politics (Adam Matthews Digital)
  • China, America and the Pacific (Adam Matthews Digital)
  • Meiji Japan – Edward Morse collection (Adam Matthews Digital)

Das sind zusammen 11.000 Datensätze aus Adam Matthews Ressourcen und über 1 Mio. bibliographische Datensätze aus dem Airiti Portal (letztere werden im monatlichen Turnus aktualisiert).

Wie gewohnt wird für jeden Titel ein CrossAsia Link sowie ein Anbieterlink angeboten, damit sowohl registrierte CrossAsia-Nutzer*innen als auch Nutzer mit anderen Authentifizierungsmöglichkeiten von der CrossAsia Suche profitieren können.

CrossAsia ITR Volltextsuche (Beta)

Heute ist eine erste Beta-Version der Volltextsuche im Rahmen der CrossAsia Suche online gegangen. Die Volltexte stammen aus dem CrossAsia Integrierten Textrepositorium (CrossAsia ITR), eine im Rahmen der ersten Projektphase des FID aufgebauten Infrastruktur zur Archivierung und Bereitstellung von digitalen Objekten wie Bildern, Texten und Metadaten. Aktuell kann in folgenden Kollektionen recherchiert werden:

  • 人民日报 : People’s daily (von der ersten Ausgabe 1946 bis Ende August 2009, insgesamt 23.074 Ausgaben mit 1.594.648  Artikeln)
  • Foreign Office Files China (7892 Dokumente mit insgesamt 983.201 OCR-generierten Volltextseiten)
  • 續修四庫全書 (5445 Buchtitel mit 2.311.561 Seiten)
  • Local Gazetteers (2000 Buchtitel mit 2.496.431 Seiten)
  • 道藏輯要 (299 Buchtitel mit 21.237 Seiten)
  • Airiti ebooks (75 lizenierte eBook-Titel mit 26.654 Seiten)
  • Fulltext search in print books (15 Titel aus unserem Bestand, für die wir testweise einen durchsuchbaren Volltext mit OCR erstellt haben, insgesamt 4619 Seiten)

Zur CrossAsia ITR Volltextsuche gelangen Sie über den 4. Reiter auf der CrossAsia Suche oder auch direkt. Auf der Einstiegseite zur Suche – sowie unter dem (i) in der ITR Suche – finden Sie Erläuterungen zu den Besonderheiten der Suche und Hinweise zur Verwendung.

Viel Spaß beim Ausprobieren und wir freuen uns über Feedback unter x-asia@sbb.spk-berlin.de.

 

CrossAsia ITR – was schon ist und was noch kommt

Der Aufbau einer Infrastruktur für Meta- und Volltextdaten bildet als Aktionsfeld 4 einen zentralen Teil der Aufgaben, die sich CrossAsia im Rahmen der ersten FID-Phase gestellt hat. Wie kurz auf unserer Seite „Über CrossAsia“ ausgeführt, dient das „Integrierte Text-Repositorium“ CrossAsia ITR zum einen der Aufgabe, Texte, Bilder und Metadaten der für CrossAsia lizenzierten Datenbanken sicher und nachhaltig zu archivieren, zum anderen bietet es die Möglichkeit, diese Inhalte nahtlos in aktuelle und zukünftige CrossAsia Services einzubinden und im Rahmen der digitalen Wissenschaften für Analysen, Explorationen, Anreicherungen und Visualisierungen anbieten zu können. Das ITR ist dabei nicht *nur* ein Lager (z.B. auch für Forschungsdaten), sondern eine komplexe Infrastruktur mit Workflows und technischen Routinen für das Einspielen, Verwalten, und die Bereitstellung der Objekte des ITR (siehe Abbildung 1).

Abbildung 1: CrossAsia ITR Systemarchitektur

 

Wo finde ich denn das CrossAsia ITR und was ist drin?

Wie bei Lagern, Magazinen, Repositorien zumeist die Regel, ist auch das CrossAsia ITR vor allem Infrastruktur, d.h. es *ermöglicht* Dinge ohne selbst unmittelbar sichtbar und greifbar zu werden. Mit einer Reihe von Metadaten ragt das ITR, wie die Spitze eines Eisbergs, jedoch bereits in die CrossAsia Suche hinein. Dies sind z.B. alle 5.445 Titel des Xuxiu Siku quanshu, die 299 Titel aus dem Daozang jiyao, 7.099 eBook Titel, die über Airiti als PDA angeboten werden, und 7.892 Objekttitel der Foreign Office Files China. Einen Überblick darüber, was aktuell in die CrossAsia Suche integriert ist, erhalten Sie bei Klick auf das „i“ neben dem Suchschlitz der CrossAsia Suche. Wie gewohnt bieten diese Treffer einen CrossAsia Link, mit dem das Objekt in der Datenbank aufgerufen werden kann.

Weitere Kontingente an Metadaten und digitalen Objekten, die entweder bereits ins ITR integriert sind bzw. sich auf dem Weg dorthin befinden, sind die Metadaten der Zhonghua Ancient Book und Pishu Datenbanken, die Metadaten und Texte der Renmin Ribao (1946-2009) und Zhongguo fangzhiku, sowie Metadaten, Texte und Images der Datenbanken Meiji Japan, Siku quanshu, Qingdai shiliao, China, America and the Pacific, sowie China, Trade and Culture (Stand April 2018). Die Idee und Aufgabe von Metadaten-Objekten im ITR ist auch, eine Art „Regalplatz“ zu bilden, an dem in Zukunft z.B. das PDF des gesamten Titels abgelegt werden kann und Volltexte und digitale Bilder der Einzelseiten des Titel angehängt werden können. Alle Objekte des ITR sind adressierbar und werden mit Zugriffsrechten versehen.

Die Volltexte dieser im ITR archivierten Objekte können über eine „CrossAsia ITR Suche“ von Nutzerinnen und Nutzern recherchiert werden, um relevante Texte im CrossAsia Angebot zu entdecken und diese dann in den entsprechenden Datenbanken authentifiziert aufrufen zu können. Das ist sozusagen die zweite Spitze des ITR-Eisbergs. Die Volltext-Ressourcen des ITR werden seit April 2018 in zunächst einer prototypischen Beta-Version für eine CrossAsia Volltext-Suche eingebunden; demnächst folgt eine zweite Beta-Version mit anderen Suchoptionen. Dazu in Kürze mehr für Sie zum Testen und mit Erläuterungen der Funktionalitätenhier im Blog.

Experimentelle und analytische Zugänge zu den Objekten des ITR

In Zukunft wird das ITR uns und unseren Nutzerinnen und Nutzern weitere, deutlich flexiblere und auch experimentelle, explorative und analytische Zugänge und Gesamtschauen von Beständen bieten. Um Nutzerinnen und Nutzern das direkte Arbeiten mit den Beständen mittels digitaler Tools zu ermöglichen wird das ITR mit Schnittstellen ausgestattet, die – unter Einhaltung der Lizenzbedingungen – ein möglichst nahtloses Arbeiten mit den Volltexten ermöglichen sollen (für einen Entwurf einer Struktur, die diese Zugriffe reguliert und ermöglicht, siehe Abbildung 2).

Abbildung 2 – Architektur Schnittstelle

Das ITR soll weiterhin als Arbeitsplattform ausgebaut werden, die es einzelnen Nutzerinnen und Nutzern sowie Forschergruppen erlaubt, z.B. eigene Transkriptionen und Erschließungen von gescannten Texten und Bildmaterialien zu erstellen und diese über kontrollierte Workflows in das ITR zurückzuspielen und dort zu sichern, um sie wiederum über die ITR Suche anbieten zu können.

Das CrossAsia ITR hat das Ziel, der CrossAsia Community eine neue Sicht auf und neue Formen der Recherchen in den über CrossAsia angebotenen Materialien zu ermöglichen. Damit wollen wir Rechercheangebote für die digitalen Wissenschaften von heute entwickeln und die Grundlage für Forschungsanliegen von morgen legen. Das CrossAsia Team freut sich darauf, die Möglichkeiten der Recherche in den Volltexten des ITR gemeinsam mit der Community auszutesten und die Entwicklungen weiter voranzutreiben. Wir freuen uns über Ihre Rückmeldungen, Verbesserungsvorschläge und Ideen.

Über die neue Kategorie im CrossAsia Blog zu „ITR und Entwicklungen“ halten wir Sie über die weiteren Entwicklungen auf dem Laufenden.

CrossAsia Suche schlägt eine „Brücke“ zwischen elektronischer Recherche und gedrucktem Buch

Im letzten Oktober haben wir Ihnen bereits über die Einbindung von einigen CrossAsia Services in die CrossAsia Suche berichtet. Services wie die Bestellung von gedruckten, originalsprachigen Medien über den Blauen Leihverkehr und dem Absetzen eines Anschaffungsvorschlags (PDA) sind nun nur noch „einen Klick entfernt“. Heute nun möchten wir Sie auf die Einbindung eines weiteren Services hinweisen, mit dem Sie „mit einem Klick“ einen Blick in Titel aus unserem gedruckten Bestand werfen können. Das hat zum einen das Ziel, gedruckten und elektronischen Bestand „gleichberechtigter“ zu behandeln und Nachteile in der Recherchierbarkeit gedruckter Bestände zu verringern, zum anderen aber natürlich auch Ihnen als Nutzer mit einem schnellen Blick ins Buch einen Eindruck zu verschaffen, ob der Titel Ihren Erwartungen entspricht bevor Sie Ihn „als Papier“ zur Ausleihe bestellen.

Was haben wir also gemacht
Das chinesischen eBook Portal Duxiu, deren Angebot registrierten Nutzern über CrossAsia zur Verfügung steht, hat Titel unseres Bestands mit Ihrer Datenbank abgeglichen und vermerkt, ob die Staatsbibliothek zu Berlin ein Exemplar besitzt. Für Treffer, die positiv abgeglichen wurden, können wir Ihnen nun einen „Blick ins Buch“ anbieten. In der CrossAsia Suche unter „Staatsbibliothek zu Berlin“ finden Sie jetzt auch Titel mit einem Link zu „Sample pages“ (siehe Beispiel unten). Ein weiterer Link bringt Sie zum Titel in unserem OPAC, von wo aus Sie den Titel dann bestellen oder aufrufen können; „CrossAsia Lizenz“ bringt Sie zum Titel im Duxiu Portal.

Wenn Sie andersherum vorgehen, also in Duxiu recherchieren und wissen wollen, ob wir diesen Titel im Bestand haben, dann achten Sie in der Trefferliste der „Metadaten-Suche“ (图书) auf den Hinweis „馆藏纸本“. Das funktioniert natürlich nur, wenn Sie Duxiu mit der CrossAsia-Authentifizierung aufrufen. Die Metadaten-Suche in Duxiu durchsucht alle bibliographischen Daten (Titel, Autor, abstracts, etc.) und sie durchsucht das Inhaltsverzeichnis. Überall dort sucht die CrossAsia-Suche ebenfalls.


Noch ein Hinweis
Zahlreiche chinesische Bibliotheken haben ihren Bestand mit dem von Duxiu abgeglichen; das Duxiu-Portal kann deshalb für die einzelnen Titel auch anzeigen, wieviele Bibliotheken ihn in ihrem Bestand haben (im Beispiel oben 241*). So bekommt jeder Titel eine Art von „likes“ über das Duxiu Portal, denn: können sich 241 Bibliotheken in der Relevanz eines Titels irren 😉 ?

CrossAsia bietet Ihnen als Nutzer nun beide Richtungen: die Suche in Duxiu mit dem Hinweis auf unseren Bestand und andersherum die Suche in unserem Bestand mit dem Hinweis auf „Sample pages“ bei Duxiu.
Dieses Angebot, nämlich eine „Brücke“ zwischen elektronischer Suche und gedrucktem Bestand zu schlagen, ist derzeit noch ein bisschen China-lastig. Aber wir versuchen dieses Modell auch für andere Sprachen und Regionen umzusetzen bzw. die Bereitschaft und das Vertrauen bei den Anbietern hierzu aufzubauen.

In der CrossAsia-Suche unter „Duxiu“ finden Sie Treffer auch jenseits unseres Bestands – bzw. solche, die beim Abgleich nicht als identisch identifiziert wurden.

* Anm: Ein Klick auf die Zahl ruft eine Liste aller Bibliotheken auf, die den Titel nachgewiesen haben. Unter „Ausland“ (海外)  gibt es aktuell nur uns.