ITR und Entwicklungen

“Texte aufräumen” – die ersten CrossAsia N-Gramm-Pakete stehen zum Download bereit

  • de

Die meisten kennen sicherlich Ursus Wehrlis Buch „Kunst aufräumen“. Dort wird z.B. Keith Harings „Untitled“ (1986) in seine einzelnen Farbsegmente zerlegt und diese werden fein säuberlich nach Farben und Größe geordnet übereinander gestapelt (siehe z.B. hier). Ganz ähnlich geht das Erstellen von N-Grammen vor. Der eigentliche Text wird in seine Einzelteile zerlegt, identische Einzelteile werden zusammengetragen und dann wird gezählt: was gibt es wie oft. Damit wird sogar noch etwas ökonomischer als bei Herrn Wehrli „aufgeräumt“. Die eigentliche Struktur, das Gesamtbild, wird aufgelöst und der Text strikt statistisch und auf der Basis seiner Einzelteile betrachtet. Was im Fall von N-Grammen als „Einzelteil“ gilt, kann dabei variieren. In Texten in lateinischer Schrift können das die Buchstaben sein oder die durch Leerstellen identifizierbaren Wörter oder auch zwei oder drei (etc.) aufeinanderfolgende Buchstaben oder Wörter.

„Aufräumen“ Ostasiatisch

Für ostasiatische Texte sind die am sichersten korrekt zu identifizierenden Einzelteile die verschiedenen Schriftzeichen (chinesische Schriftzeichen oder auch japanische bzw. koreanische Silbenzeichen). An einem Beispiel lässt sich gut zeigen, wie konzeptionell einfach N-Gramme zunächst gedacht sind. Aus den ersten zwei Phrasen des Daode jing

道可道,非常道。名可名,非常名。無名天地之始, 有名萬物之母。

… wird (hier ohne die Satzzeichen, da die im Original i.d.R. ja auch nicht zur Verfügung stehen) im Fall von 1-Grammen (Monogramm bzw. Engl. unigram) folgendes:

名, 5
道, 3
可, 2
非, 2

常, 2
之, 2
無, 1
天, 1

地, 1
始, 1
有, 1
萬, 1

物, 1
母, 1

… im Fall von 2-Grammen (Bigramm bzw. Engl. bigram), bei denen die Einzelteile nicht aneinander angrenzen, sondern sich schuppenartig überlagern (also 道可, 可道, 道非 etc.), nach Anzahl gestaffelt dieses:

非常, 2
道可, 1
可道, 1
道非, 1
常道, 1
道名, 1

名可, 1
可名, 1
名非, 1
常名, 1
名無, 1
無名, 1

名天, 1
天地, 1
地之, 1
之始, 1
始有, 1
有名, 1

名萬, 1
萬物, 1
物之, 1
之母, 1

Die 3-Gramm (Trigramm bzw. Engl. trigram) Liste würde noch länger und keiner der 3-Gramme würde – auf diesen kleinen Abschnitt bezogen – mehr als einmal vorkommen. Zwei Dinge werden klar: N-Gramme machen für kurze Texte keinen Sinn und die Listen werden schnell sehr groß. Für den gesamten Korpus des Xuxiu Siku quanshu mit 5.446 Titeln sind das 27.387 Monogramme, bzw. 13.216.542 Bigramme; allein für das Beispiel Buwu quanshu 卜筮全書 aus dem Headerbild werden bereits 3.382 Monogramme, 64.438 Bigramme und 125.010 Trigramme gebildet.

Weiterlesen

Newsletter Nr. 17

Liebe CrossAsia-Nutzerinnen, liebe CrossAsia-Nutzer,

seit unserem letzten Newsletter im Frühjahr ist viel passiert. Wir haben im Mai den Folgeantrag für die zweite Förderphase des FID bei der DFG gestellt. Das bedeutet zugleich, dass wir kurz vor dem Ende der aktuellen Projektlaufzeit stehen. Zeit für einen kurzen Rückblick und eine Vorausschau:

Der bereits im Frühjahr freigeschalteten Betaversion der CrossAsia Volltextsuche (Typ A), die als „geführte Suche“ charakterisiert werden kann, wurde kürzlich eine zweite, mehr „explorative“ Betaversion einer Volltextsuche zur Seite gestellt (Typ B). Zugänglich sind beide Suchen über unsere neue Einstiegsseite zur CrossAsia Volltextsuche. Die Suchen wurden zudem um weitere Inhalte ergänzt. So sind nun auch zahlreiche englischsprachige Texte aus Archivmaterialien enthalten, weitere vormoderne chinesische Texte – Lokalmonographien, das Siku quanshu und historische Materialien aus der Qing-Zeit – sowie ein kleines, aber wachsendes Paket an eBooks mit aktuellen chinesischsprachigen wissenschaftlichen Publikationen. Die Suche wird auch weiterhin kontinuierlich um neue Inhalte und Features ergänzt. Lesen Sie mehr zum aktuellen Stand der Volltextsuchen im Beitrag „Noch mehr Volltextsuche für alle!“. Wir würden uns über Ihre Eindrücke und Ihr Feedback zu den zwei Volltextsuchen freuen (gerne im Forum oder per E-Mail). Teilen Sie uns mit, welche Funktionalitäten aus Ihrer Sicht sinnvoll sind, welche fehlen und was wir noch besser machen können.

Im Laufe diesen Jahres haben wir begonnen, besondere Sammlungen und Sammlungssegmente innerhalb unserer Bestände in Form von „Themenportalen“ vorzustellen und über die jeweiligen Recherchewege zu diesen bzw. die Nutzungsmöglichkeiten derselben zu informieren. Inzwischen sind bereits neun solcher Themenportale online. In den jüngsten zwei Präsentationen stellen wir das „Berlin-Kraków Projekt“ vor, dessen Ziel eine virtuelle Rekonstruktion der alte Ostasiensammlung der Preußischen Staatsbibliothek ist, sowie die „Bibliothek Otsuka“, die Sammlung des marxistisch geprägten Wirtschaftswissenschaftlers und Dichters Ōtsuka Kinnosuke (1892-1977).

In den kommenden drei Jahren – vorbehaltlich einer Zusage seitens der DFG – wird der FID sich auf ausdrücklichen Wunsch aus der Fachcommunity hin über die aktuell laufenden Entwicklungen und Aktivitäten hinaus zwei neuen Kernthemen widmen:

Erstens ist der Aufbau einer Informations- und Beratungsstruktur für asienbezogene Forschungsdaten geplant. Hierbei sollen sowohl Anwendungsfragen seitens der Wissenschaft berücksichtigt werden, als auch Aktivitäten auf nationaler Ebene, wie beispielsweise von RADAR und DARIAH-DE sowie die Empfehlungen des Rats für Informationsinfrastrukturen (RfII) zu Fragen im Bereich Forschungsdaten, Forschungsdatenmanagement und Datenkuratierung. Zweitens ist der Ausbau des ITR als Infrastruktur für digitale Objekte in allen Formaten geplant. Hier ist das Ziel, Digitalisierungs- und Erschließungsprojekten auch anderer Institutionen eine Infrastruktur beispielsweise für die Metadatenerzeugung anzubieten. Mehr dazu erfahren Sie in den kommenden Monaten hier im Blog.

Anbei finden Sie auch wieder die wichtigsten Blogbeiträge der vergangenen Monate im aktuellen CrossAsia Newsletter zum Nachlesen:

Neu lizenzierte Datenbanken

Frauenzeitschriften Fujin kôron und Fujin gahô

JapanKnowledge mit neuen Inhalten

NKScholar und 스콜라 Scholar

Diaolong 雕龍 – Portal

China Comprehensive Gazetteers 中國綜合方誌庫

Area Studies: China and Southeast Asia sowie Area Studies: Japan

China: Culture and Society

Interessantes und neue Entwicklungen aus CrossAsia

Noch mehr Volltextsuche für alle!

Wo landen eigentlich die bibliografischen Daten der elektronischen Titel?

Neue Themenportale

Berlin-Kraków Projekt

“Bibliothek Otsuka”

CrossAsia-eBooks

‚Neue Hallesche Berichte‘ online zugänglich – Kooperation zwischen den Franckeschen Stiftungen und CrossAsia-eBooks

„HerStory. Historical Scholarship between South Asia and Europe” – Festschrift zu Ehren von Professor Dr. Gita Dharampal-Frick

 

Seien Sie mit uns zusammen gespannt, wie es weitergeht und drücken Sie uns die Daumen für den FID-Antrag.

Viel Spaß beim Lesen des Newsletters wünscht Ihnen Ihr

CrossAsia-Team

Noch mehr Volltextsuche für alle!

Seit April steht bereits die erste Version der CrossAsia Volltextsuche zur Verfügung. Wir hatten damals über das CrossAsia Integrierte TextRepositorium (ITR) berichtet, und die Suche als eine Spitze dieses sonst von außen nicht sichtbaren „Eisbergs“ kurz vorgestellt. Seither ist viel passiert. Das ITR und die in die Volltextsuche eingebetteten Ressourcen sind kontinuierlich gewachsen und wir konnten jetzt auch eine zweite Variante der Volltextsuche freischalten. Zu beidem finden Sie mehr Details weiter unten. Ein wichtiger Punkt bei der Volltextsuche für uns ist, sie so anzubieten, dass sie *allen* Nutzer*innen zur Verfügung steht, also auch solchen, die keinen Zugang zu den jeweiligen Datenbanken haben bzw. deren Zugang nicht über CrossAsia ermöglicht wird. Damit fügt sich die Volltextsuche harmonisch in das Profil der eher „bibliographischen“ CrossAsia Suche ein, die ebenfalls frei zur Verfügung steht.

Schnipsel und Links

Die Treffer in der CrossAsia Volltextsuche werden als sehr kurze und fragmentierte Textschnipsel ausgegeben. Nur so ist es möglich, die Suche für alle zu öffnen und dabei die für diese Ressoucen vereinbarten Lizenzbedingungen zu wahren. Auch Nutzer*innen ohne Zugang zu den jeweiligen Datenbanken wird damit die Möglichkeit gegeben, einen Eindruck zu gewinnen, welche Quellen u.U. relevant für die eigene Fragestellung sind. Über verschiedene Links in den Treffern gelangt man zur kompletten Quelle. Für authentifizierte CrossAsia-Nutzer*innen führt das ‚rot‘ gefärbte Icon direkt zum Objekt im originalen Kontext der Datenbank; für Nutzer*innen mit anderen Zugangsmöglichkeiten – z.B. über den IP-Range ihrer Institution oder ein individuelles Login – wird parallel ein ‚graues‘ Icon angeboten. „Direkt zur Quelle“ bedeutet für die verschiedenen Ressoucen dann doch verschiedenes. In jedem Fall stellen wir möglichst treffgenaue Links zur Verfügung. D.h. wenn der Datenbankanbieter uns das ermöglicht, wird die entsprechende Seite angesteuert, in anderen Fällen gelangt man zumindest zum Buch oder Artikel und muß dort dann die im Treffer angegebene Seite (bzw. Imagenummer) aufschlagen. In einigen Fällen jedoch stehen nur Links zur jeweiligen Datenbank zur Verfügung. Hier ist der Weg dann etwas weiter bis zur Fundstelle (so aktuell z.B. der Fall für die People’s Daily und die Lokalmonographien der Erudition-Datenbank).

Noch mehr Volltexte für die Suche

Der Korpus an Texten, die in der CrossAsia Volltextsuche durchsucht werden können wächst kontinuierlich. Aktuell dominieren chinesische Texte und englische Texte mit Chinabezug, aber weitere Ressourcen, die auch für die Japan-, Korea- und weitere asienbezogene Forschung relevant sind, befinden sich bereits in der Pipeline. Aktuell können die Inhalte der folgenden, über CrossAsia lizenzierten Datenbanken recherchiert werden:

  • Adam Matthew – China, America, Pacific
  • Adam Matthew – China Trade & Politics
  • Adam Matthew – Foreign Office Files China
  • 道藏輯要
  • 中國地方誌 一集 (雕龍)
  • 中國地方誌 續集 (雕龍)
  • Missionary, Sinology, and Literary Periodicals (1817-1949)
  • Local Gazetteers (Erudition)
  • 人民日报 : People’s daily (1946-2009)
  • 清代史料
  • 四庫全書
  • 續修四庫全書

Darüberhinaus sind in die Volltextsuche einzelne lizenzierte Bände aus den Airiti und CNKI ebook-Portalen integriert, sowie ein Testsample an gedruckten Beständen, für die wir selbst mittels OCR einen Index erstellt haben. Zusammen sind das aktuell: 120 Tausend Titel (Buch- und Artikeltitel) mit über 13 Millionen Seiten. Das ist schon eine ziemlich große Eisbergspitze.

Noch mehr Suche für die Volltexte

Einigen Nutzer*innen ist die CrossAsia Volltextsuche Typ A mittlerweile schon vertraut. Jetzt haben wir ihr eine Volltextsuche Typ B zur Seite gestellt. Charakterisieren lassen sich die beiden als „geführte Suche“ (Typ A) und „explorative Suche“ (Typ B).

Typ A nimmt als Anker für die Suche Einheiten wie z.B. ein Buch oder eine Tagesausgabe der People’s Daily und verwendet die Anzahl der Seiten/Artikel mit Treffern darin als Kriterium für die Reihenfolge der Anzeige. Ein Buch mit mehr Seiten auf denen der Suchterm erscheint, wird also höher gerankt. Die „Anker“ bzw. Bücher etc. werden im Suchergebnis in der linken Spalte in diesem Ranking angezeigt; wählt man ein Objekt dort aus, erscheinen die Seiten mit Treffern aus dem ausgewählten Objekt in der mittleren Spalte. Diese sind nach Seitenzahl geordnet. Mit Hilfe der Filter in der rechten Spalte kann man die Treffermenge dann weiter reduzieren bzw. fokusieren. Es wird in Typ A  *nur* in den Inhalten der Seiten gesucht und diese Inhalte zu ihren jeweiligen Büchern o.ä. gebündelt ausgegeben.

Hier die Funktionen der drei Seitenbereiche von Typ A im Überblick:

Typ B behandelt alle Objekte gleichberechtigt. D.h. Bücher, Artikel oder Archivalien und die einzelnen Volltextseiten werden auf ihre Relevanz in Bezug auf den Suchterm vom Index bewertet und in der Reihenfolge dieser Bewertung (dem „score“) als Treffer ausgeliefert. Metadaten, Bescheibungen, Autorennamen, Volltexte – alles wird durchsucht und in bunt gemischter Reihe ausgegeben. Über Filter auf der linken Seite kann der Typ der Trefferobjekte gewählt werden (also ob nur Seiten oder nur Bücher bzw. Artikel und ihre Metadaten ausgeben werden sollen) oder auch Filter wie Jahr, subject u.ä. eingestellt werden. Dies kann wiederum nachträglich geschehen, in Typ B aber auch bevor ein Suchterm eingegeben wurde. Zu beachten hier ist, daß aktuell für Seiten keine inhaltlichen Filter zur Verfügung stehen. IE jenseits von Edge setzen die Filterfunktion nicht korrekt um.

 

Einen kurzen Überblick gibt auch die neue Einstiegsseite für die CrossAsia Volltextsuche. Mehr Informationen zu den jeweiligen Besonderheiten der beiden Such-Typen können über das „i“ hinter den Suchschlitzen aufgerufen werden.

Und was kommt dann?

Beide Suchmodi lösen Schranken zwischen verschiedenen Quellenkorpora und Texttypen auf, die durch die individuellen Datenbankzugänge geschaffen wurden, und ermöglichen damit – so hoffen wir – neue, bessere Wege, sich einen Überblick über die Quellenlage zu verschaffen und das Umfeld eines Suchterminus in einem möglichst breiten Spektrum von Texten zu ergründen. Details aus verschiedenen Datenkorpora werden gemeinsam angezeigt und werden jenseits der von der Datenbank vorgegebenen Logik ansteuerbar. Das ist ein wichtiger, aber doch auch nur ein erster Schritt. Um sich in diesen großen Mengen an Text nicht zu verlieren, wollen wir gemeinsam mit unseren Nutzern überlegen, wie innovative Rechereche- und Zugangsmodi aussehen könnten. Um zudem diese große Menge an Text für neue Forschungsfragen in den digitalen Geisteswissenschaften zu erschließen, arbeiten wir an Schnittstellen, über die Projekte (große und individuelle) mit diesen Daten in Zukunft arbeiten können, aber auch an Wegen über ein pre-processing diese Texte nicht nur über die Metadaten ihrer bibliographischen Einheit zu charakterisieren, sondern auch „aus sich selbst heraus“, d.h. mit Hilfe von automatisierter Textanreicherung und statistischen Auswertungen von Kollokationen u.ä. weitere Formen von „Metadaten“ zu generieren.

Über Hinweise, Feedback, Vorschläge, Kritik sind wir dankbar! Am besten direkt an x-asia@sbb.spk-berlin.de

(For a short English description of the CrossAsia Fulltext Search and the two types of searches please go to the entry page of CrossAsia Fulltext Search and the „i“ next to the search slot in both versions of the search)

 

Wo landen eigentlich die bibliografischen Daten der elektronischen Titel?

Im Rahmen der Arbeiten im FID Projekt werden neben den zahlreichen digitalen Objekten wie Bildern, PDFs, XML etc. auch große Mengen von bibliographischen Metadaten verarbeitet, sowohl auf Buch- als auf Artikelebene. Das ist mal mehr, mal weniger aufwändig. Einige dieser Metadaten erhalten wir direkt von den Anbietern. Diese können nach wenigen Anpassungen bereits für die CrossAsia Suche oder den electronischen Online-Katalog (OPAC) bereit gestellt werden – andere müssen aus XML-Dateien, die Volltext und Metadaten enthalten, extrahiert werden. In jedem Fall versuchen wir, soviel bibliografische Informationen wie möglich mitzunehmen und zusätzliche aus den Daten, die uns zur Verfügung gestellt werden „herauszukitzeln“. Da es sich um jeweils sehr große Datenmengen handelt (z.B. 8000 Foreign Office Files oder 5400 Titel aus Xuxiu etc.) können diese Arbeiten nur semi-automatisch passieren. Für die Lokalmonographien und die Titel aus Xuxiu haben wir z.B. mit Hilfe von Online-Tools wie MARKUS die chinesischen Editionsangaben in westliche Jahreszahlen „übersetzen“ lassen und nach weiteren Manipulationen diese dann den Titeln als Metadatum hinzugefügt.

Wo landen diese Metadaten

Neben der Volltextsuche, die in einem früheren Beitrag hier vorgestellt wurde, sozusagen eine Spitze des Eisbergs „CrossAsia ITR“, die unsere Nutzer bereits sehen und verwenden, können wohl auch die Metadaten, die als Teil der Arbeiten am ITR entstehen, als eine solche Eisbergspitze gelten. Handelt es sich um sogenannte „unselbstständige“ Titel, also Artikel, Kapitel, Aktenstücke etc., dann werden diese über einen Solr-Index in die CrossAsia Suche eingebunden werden; Buchtitel fließen in der Regel  über den OPAC in die CrossAsia-Suche ein.

Wo sucht die CrossAsia Suche

Einen Überblick über den jeweils aktuellen Stand der in die Suche eingebundenen Ressourcen bietet das rot unterlegte „i“ hinter dem Suchschlitz auf der Seite der CrossAsia Suche. Daher lohnt es sich, hin und wieder einmal einen Blick auf diese Liste (siehe das Headerbild diese Beitrags) zu werfen. Erst kürzlich sind z.B. folgende Zeilen hier hinzugekommen:

  • Airiti Conference Proceedings (CEPS)
  • Airiti Electronic Periodicals (TEPS)
  • Airiti Theses & Dissertations (CETD)
  • FO China (Adam Matthews Digital)
  • China, Trade and Politics (Adam Matthews Digital)
  • China, America and the Pacific (Adam Matthews Digital)
  • Meiji Japan – Edward Morse collection (Adam Matthews Digital)

Das sind zusammen 11.000 Datensätze aus Adam Matthews Ressourcen und über 1 Mio. bibliographische Datensätze aus dem Airiti Portal (letztere werden im monatlichen Turnus aktualisiert).

Wie gewohnt wird für jeden Titel ein CrossAsia Link sowie ein Anbieterlink angeboten, damit sowohl registrierte CrossAsia-Nutzer*innen als auch Nutzer mit anderen Authentifizierungsmöglichkeiten von der CrossAsia Suche profitieren können.

CrossAsia ITR Volltextsuche (Beta)

Heute ist eine erste Beta-Version der Volltextsuche im Rahmen der CrossAsia Suche online gegangen. Die Volltexte stammen aus dem CrossAsia Integrierten Textrepositorium (CrossAsia ITR), eine im Rahmen der ersten Projektphase des FID aufgebauten Infrastruktur zur Archivierung und Bereitstellung von digitalen Objekten wie Bildern, Texten und Metadaten. Aktuell kann in folgenden Kollektionen recherchiert werden:

  • 人民日报 : People’s daily (von der ersten Ausgabe 1946 bis Ende August 2009, insgesamt 23.074 Ausgaben mit 1.594.648  Artikeln)
  • Foreign Office Files China (7892 Dokumente mit insgesamt 983.201 OCR-generierten Volltextseiten)
  • 續修四庫全書 (5445 Buchtitel mit 2.311.561 Seiten)
  • Local Gazetteers (2000 Buchtitel mit 2.496.431 Seiten)
  • 道藏輯要 (299 Buchtitel mit 21.237 Seiten)
  • Airiti ebooks (75 lizenierte eBook-Titel mit 26.654 Seiten)
  • Fulltext search in print books (15 Titel aus unserem Bestand, für die wir testweise einen durchsuchbaren Volltext mit OCR erstellt haben, insgesamt 4619 Seiten)

Zur CrossAsia ITR Volltextsuche gelangen Sie über den 4. Reiter auf der CrossAsia Suche oder auch direkt. Auf der Einstiegseite zur Suche – sowie unter dem (i) in der ITR Suche – finden Sie Erläuterungen zu den Besonderheiten der Suche und Hinweise zur Verwendung.

Viel Spaß beim Ausprobieren und wir freuen uns über Feedback unter x-asia@sbb.spk-berlin.de.

 

CrossAsia ITR – was schon ist und was noch kommt

Der Aufbau einer Infrastruktur für Meta- und Volltextdaten bildet als Aktionsfeld 4 einen zentralen Teil der Aufgaben, die sich CrossAsia im Rahmen der ersten FID-Phase gestellt hat. Wie kurz auf unserer Seite „Über CrossAsia“ ausgeführt, dient das „Integrierte Text-Repositorium“ CrossAsia ITR zum einen der Aufgabe, Texte, Bilder und Metadaten der für CrossAsia lizenzierten Datenbanken sicher und nachhaltig zu archivieren, zum anderen bietet es die Möglichkeit, diese Inhalte nahtlos in aktuelle und zukünftige CrossAsia Services einzubinden und im Rahmen der digitalen Wissenschaften für Analysen, Explorationen, Anreicherungen und Visualisierungen anbieten zu können. Das ITR ist dabei nicht *nur* ein Lager (z.B. auch für Forschungsdaten), sondern eine komplexe Infrastruktur mit Workflows und technischen Routinen für das Einspielen, Verwalten, und die Bereitstellung der Objekte des ITR (siehe Abbildung 1).

Abbildung 1: CrossAsia ITR Systemarchitektur

 

Wo finde ich denn das CrossAsia ITR und was ist drin?

Wie bei Lagern, Magazinen, Repositorien zumeist die Regel, ist auch das CrossAsia ITR vor allem Infrastruktur, d.h. es *ermöglicht* Dinge ohne selbst unmittelbar sichtbar und greifbar zu werden. Mit einer Reihe von Metadaten ragt das ITR, wie die Spitze eines Eisbergs, jedoch bereits in die CrossAsia Suche hinein. Dies sind z.B. alle 5.445 Titel des Xuxiu Siku quanshu, die 299 Titel aus dem Daozang jiyao, 7.099 eBook Titel, die über Airiti als PDA angeboten werden, und 7.892 Objekttitel der Foreign Office Files China. Einen Überblick darüber, was aktuell in die CrossAsia Suche integriert ist, erhalten Sie bei Klick auf das „i“ neben dem Suchschlitz der CrossAsia Suche. Wie gewohnt bieten diese Treffer einen CrossAsia Link, mit dem das Objekt in der Datenbank aufgerufen werden kann.

Weitere Kontingente an Metadaten und digitalen Objekten, die entweder bereits ins ITR integriert sind bzw. sich auf dem Weg dorthin befinden, sind die Metadaten der Zhonghua Ancient Book und Pishu Datenbanken, die Metadaten und Texte der Renmin Ribao (1946-2009) und Zhongguo fangzhiku, sowie Metadaten, Texte und Images der Datenbanken Meiji Japan, Siku quanshu, Qingdai shiliao, China, America and the Pacific, sowie China, Trade and Culture (Stand April 2018). Die Idee und Aufgabe von Metadaten-Objekten im ITR ist auch, eine Art „Regalplatz“ zu bilden, an dem in Zukunft z.B. das PDF des gesamten Titels abgelegt werden kann und Volltexte und digitale Bilder der Einzelseiten des Titel angehängt werden können. Alle Objekte des ITR sind adressierbar und werden mit Zugriffsrechten versehen.

Die Volltexte dieser im ITR archivierten Objekte können über eine „CrossAsia ITR Suche“ von Nutzerinnen und Nutzern recherchiert werden, um relevante Texte im CrossAsia Angebot zu entdecken und diese dann in den entsprechenden Datenbanken authentifiziert aufrufen zu können. Das ist sozusagen die zweite Spitze des ITR-Eisbergs. Die Volltext-Ressourcen des ITR werden seit April 2018 in zunächst einer prototypischen Beta-Version für eine CrossAsia Volltext-Suche eingebunden; demnächst folgt eine zweite Beta-Version mit anderen Suchoptionen. Dazu in Kürze mehr für Sie zum Testen und mit Erläuterungen der Funktionalitätenhier im Blog.

Experimentelle und analytische Zugänge zu den Objekten des ITR

In Zukunft wird das ITR uns und unseren Nutzerinnen und Nutzern weitere, deutlich flexiblere und auch experimentelle, explorative und analytische Zugänge und Gesamtschauen von Beständen bieten. Um Nutzerinnen und Nutzern das direkte Arbeiten mit den Beständen mittels digitaler Tools zu ermöglichen wird das ITR mit Schnittstellen ausgestattet, die – unter Einhaltung der Lizenzbedingungen – ein möglichst nahtloses Arbeiten mit den Volltexten ermöglichen sollen (für einen Entwurf einer Struktur, die diese Zugriffe reguliert und ermöglicht, siehe Abbildung 2).

Abbildung 2 – Architektur Schnittstelle

Das ITR soll weiterhin als Arbeitsplattform ausgebaut werden, die es einzelnen Nutzerinnen und Nutzern sowie Forschergruppen erlaubt, z.B. eigene Transkriptionen und Erschließungen von gescannten Texten und Bildmaterialien zu erstellen und diese über kontrollierte Workflows in das ITR zurückzuspielen und dort zu sichern, um sie wiederum über die ITR Suche anbieten zu können.

Das CrossAsia ITR hat das Ziel, der CrossAsia Community eine neue Sicht auf und neue Formen der Recherchen in den über CrossAsia angebotenen Materialien zu ermöglichen. Damit wollen wir Rechercheangebote für die digitalen Wissenschaften von heute entwickeln und die Grundlage für Forschungsanliegen von morgen legen. Das CrossAsia Team freut sich darauf, die Möglichkeiten der Recherche in den Volltexten des ITR gemeinsam mit der Community auszutesten und die Entwicklungen weiter voranzutreiben. Wir freuen uns über Ihre Rückmeldungen, Verbesserungsvorschläge und Ideen.

Über die neue Kategorie im CrossAsia Blog zu „ITR und Entwicklungen“ halten wir Sie über die weiteren Entwicklungen auf dem Laufenden.

CrossAsia Suche schlägt eine „Brücke“ zwischen elektronischer Recherche und gedrucktem Buch

Im letzten Oktober haben wir Ihnen bereits über die Einbindung von einigen CrossAsia Services in die CrossAsia Suche berichtet. Services wie die Bestellung von gedruckten, originalsprachigen Medien über den Blauen Leihverkehr und dem Absetzen eines Anschaffungsvorschlags (PDA) sind nun nur noch „einen Klick entfernt“. Heute nun möchten wir Sie auf die Einbindung eines weiteren Services hinweisen, mit dem Sie „mit einem Klick“ einen Blick in Titel aus unserem gedruckten Bestand werfen können. Das hat zum einen das Ziel, gedruckten und elektronischen Bestand „gleichberechtigter“ zu behandeln und Nachteile in der Recherchierbarkeit gedruckter Bestände zu verringern, zum anderen aber natürlich auch Ihnen als Nutzer mit einem schnellen Blick ins Buch einen Eindruck zu verschaffen, ob der Titel Ihren Erwartungen entspricht bevor Sie Ihn „als Papier“ zur Ausleihe bestellen.

Was haben wir also gemacht
Das chinesischen eBook Portal Duxiu, deren Angebot registrierten Nutzern über CrossAsia zur Verfügung steht, hat Titel unseres Bestands mit Ihrer Datenbank abgeglichen und vermerkt, ob die Staatsbibliothek zu Berlin ein Exemplar besitzt. Für Treffer, die positiv abgeglichen wurden, können wir Ihnen nun einen „Blick ins Buch“ anbieten. In der CrossAsia Suche unter „Staatsbibliothek zu Berlin“ finden Sie jetzt auch Titel mit einem Link zu „Sample pages“ (siehe Beispiel unten). Ein weiterer Link bringt Sie zum Titel in unserem OPAC, von wo aus Sie den Titel dann bestellen oder aufrufen können; „CrossAsia Lizenz“ bringt Sie zum Titel im Duxiu Portal.

Wenn Sie andersherum vorgehen, also in Duxiu recherchieren und wissen wollen, ob wir diesen Titel im Bestand haben, dann achten Sie in der Trefferliste der „Metadaten-Suche“ (图书) auf den Hinweis „馆藏纸本“. Das funktioniert natürlich nur, wenn Sie Duxiu mit der CrossAsia-Authentifizierung aufrufen. Die Metadaten-Suche in Duxiu durchsucht alle bibliographischen Daten (Titel, Autor, abstracts, etc.) und sie durchsucht das Inhaltsverzeichnis. Überall dort sucht die CrossAsia-Suche ebenfalls.


Noch ein Hinweis
Zahlreiche chinesische Bibliotheken haben ihren Bestand mit dem von Duxiu abgeglichen; das Duxiu-Portal kann deshalb für die einzelnen Titel auch anzeigen, wieviele Bibliotheken ihn in ihrem Bestand haben (im Beispiel oben 241*). So bekommt jeder Titel eine Art von „likes“ über das Duxiu Portal, denn: können sich 241 Bibliotheken in der Relevanz eines Titels irren 😉 ?

CrossAsia bietet Ihnen als Nutzer nun beide Richtungen: die Suche in Duxiu mit dem Hinweis auf unseren Bestand und andersherum die Suche in unserem Bestand mit dem Hinweis auf „Sample pages“ bei Duxiu.
Dieses Angebot, nämlich eine „Brücke“ zwischen elektronischer Suche und gedrucktem Bestand zu schlagen, ist derzeit noch ein bisschen China-lastig. Aber wir versuchen dieses Modell auch für andere Sprachen und Regionen umzusetzen bzw. die Bereitschaft und das Vertrauen bei den Anbietern hierzu aufzubauen.

In der CrossAsia-Suche unter „Duxiu“ finden Sie Treffer auch jenseits unseres Bestands – bzw. solche, die beim Abgleich nicht als identisch identifiziert wurden.

* Anm: Ein Klick auf die Zahl ruft eine Liste aller Bibliotheken auf, die den Titel nachgewiesen haben. Unter „Ausland“ (海外)  gibt es aktuell nur uns.