ITR und Entwicklungen

Hackathon zur Layouterkennung tibetischer Handschriften und Blockdrucke

Am 22. November findet in Dresden ein Hackathon statt – und CrossAsia ist dabei!

Gemeinsamen mit Experten von Silicon Saxony und dem KI Netzwerk Dresden arbeiten wir an einer KI-basierten Layouterkennung für tibetische Handschriften und Blockdrucke. Es werden dabei leistungsstarke Modelle wie YOLO, SAM2 und GroundingDino zur automatischen Erkennung von Layouts und hier auch Illustrationen sowie Textinhalten benutzt. Im nächsten Schritt können Open-Source-Language-Models wie LLaMA 3.1 oder APIs (z.B. ChatGPT) eingesetzt werden, um die gesammelten Daten zu analysieren und Zusammenhänge zwischen Texten und Bildern zu erschließen. So können Lösungen für den automatischen Vergleich von Textinhalten in historischen Dokumenten und deren Annotation entwickelt werden.

Die Veranstaltung ist ideal für alle, die sich für den Einsatz von DH-Methoden und ihren Einsatz bei vormodernen Objekten interessieren.

Alle Infos im Überblick finden Sie auf der Webseite des Hackathons.

Eine kostenfreie Anmeldung ist hier möglich.

 

CrossAsia ITR-Newspaper Explorer

The CrossAsia ITR-Newspaper Explorer is a new member of the ITR-Explorer family focusing on newspaper materials. Similar to ITR-Explorer, it provides CJK (Chinese, Japanese and Korean characters) mapping, phrase searching and result set manipulation (using ∩ (AND), U (OR) and – (AND NOT) operators) for users to build more complex search results sets (for more details, see our previous blog post https://blog.crossasia.org/neue-funktionen-im-crossasia-itr-explorer/). ITR’s Newspaper Explorer introduces a new heat map visualisation that makes full use of the fine-granular data nature of newspapers and provides a better way to observe time distribution at different scales, from decade, year, month to day level.

In this first release, the CrossAsia ITR-Newspaper Explorer offers a diverse collection of four newspaper sources in Traditional Chinese, Simplified Chinese, English and German. These four data sources cover a period from 1882 to 2012. As with other ITR family members such as CrossAsia Fulltext Search and ITR Explorer, CrossAsia ITR Newspaper Explorer is committed to continually integrating new data sources to ensure a constantly evolving and enriching user experience.

Currently included Newspaper Sources:

1882-1894 Neueste-Mittheilungen (13.855 articles) German
1832-1998 Historical Newspapers of China and South China Morning Post (10.450.568 articles) English
1902-1949 Ta-kung Pao -大公報 (2.912.830 articles) T. Chinese
1949-2009 People’s Daily -人民日报 (1.594.631 articles) S. Chinese

 

The Heat Map visualisation uses different colour depth (light to dark red) to show the result distribution in decade (the 1st row), year (the 2nd row) and month (the 3rd row). Each time block represents all articles published in that period (in terms of year, month and day). Selecting a time block will activate the alignment of all other time rows, moving the nearest time block to the beginning of each row (fig.1). The list of titles at the end of the page will adjust accordingly, showing all articles published in the selected time block including a link to call up the issue or article in the original platform (fig.2).

Please note that depending on your search term huge result sets are returned and loading might take some time.

Fig.1: Heatmap distribution for “Berlin OR 柏林” in all four newspaper ressources. In the “year row” 1933 has been selected, so the rows for month and day adjusted accordingly.


Fig.2: Disply of all articles within the selected time period that match the search criteria. The link in the last column needs an authentication as CrossAsia user and leeds to either the article or the issue with the respective article. If the material is open access, you can obtain it directly.

CrossAsia ITR-Zeitungsexplorer

Der CrossAsia ITR-Newspaper Explorer ist ein neues Mitglied der ITR-Explorer-Familie mit einem Schwerpunkt auf Zeitungsmaterialien. Ähnlich wie der ITR-Explorer bietet er ein CJK-Matching für chinesische, japanische und koreanische Schriftzeichen, Phrasensuche und die Möglichkeit zur Kombination von Ergebnismengen (unter Verwendung der Operatoren ∩ (AND), U (OR) und – (AND NOT)), damit Benutzer:innen ihre eigene, komplexere Suchergebnismengen erstellen können (weitere Einzelheiten finden Sie in einem früheren Blogbeitrag https://blog.crossasia.org/neue-funktionen-im-crossasia-itr-explorer/). Die neue Heatmap-Visualisierung des ITR Newspaper Explorers nutzt die Feingranularität von Zeitungsdaten, um die zeitliche Verteilung von Suchergebnissen auf verschiedenen Skalen zu ermöglichen, von Jahrzehnt, Jahr, Monat bis hin zur Tagesebene.

In dieser ersten Version bietet der CrossAsia ITR-Zeitungsexplorer eine vielfältige Sammlung aus vier Zeitungsquellen in Chinesisch (traditionelle und vereinfachte Schriftzeichen), Englisch und Deutsch an. Diese vier Datenquellen decken einen Zeitraum von 1882 bis 2012 ab. Wie bei den anderen ITR-Produkten wie der CrossAsia Volltextsuche und dem ITR Explorer ist auch der CrossAsia ITR-Zeitungsexplorer bestrebt, kontinuierlich neue zu integrieren, und so eine sich ständig weiterentwickelnde und bereichernde Nutzererfahrung zu gewährleisten.

Aktuelle Quellen im Zeitungsexplorer:

1882-1894 Neueste-Mittheilungen (13.855 Artikel) German
1832-1998 Historical Newspapers of China and South China Morning Post (10.450.568 Artikel) English
1902-1949 Ta-kung Pao -大公報 (2.912.830 Artikel) T. Chinese
1949-2012 People’s Daily -人民日报 (1.594.631 Artikel) S. Chinese

 

Die Heatmap-Visualisierung verwendet verschiedene Farbtiefen (Hell- bis Dunkelrot), um die Verteilung der Ergebnisse nach Jahrzehnt (1. Zeile), Jahr (2. Zeile) und Monat (3. Zeile) darzustellen. Jeder Zeitblock repräsentiert alle in diesem Zeitraum veröffentlichten Artikel (in Bezug auf Jahr, Monat und Datum). Durch Auswahl eines Zeitblocks wird die Ausrichtung aller anderen Zeitzeilen aktiviert, wobei der nächstgelegene Zeitblock den Anfang einer Zeile einnimmt (Abb.1). Auch die Titelliste am Ende der Seite passt sich an, um jeweils alle für die Suche relevanten Artikel aufzulisten, die in dem ausgewählten Zeitblock veröffentlicht wurden. Die jeweiligen Titel können über einen Link in der Plattform des Anbieters aufgerufen werden (Abb.2).

Bitte beachten Sie, dass – je nach Suchbegriff – sehr große Treffermengen geladen werden und dieser Vorgang u.U. etwas Zeit in Anspruch nimmt.

Abb.1: Heatmap-Verteilung für “Berlin OR 柏林” in allen vier Zeitungsressourcen. In der “Jahreszeile” wurde 1933 ausgewählt, so dass die Zeilen für Monat und Tag entsprechend angepasst wurden.


Abb.2: Anzeige aller Artikel innerhalb des gewählten Zeitraums, die den Suchkriterien entsprechen. Der Link in der letzten Spalte erfordert eine Authentifizierung als CrossAsia-Nutzer:in und führt entweder zum Artikel oder zur Ausgabe mit dem jeweiligen Artikel. Wenn es sich um Open Access-Materialien handelt, gelangen Sie direkt zu diesen.

Written Mongol Romanised Vocabulary ist online!

Ab sofort steht Ihnen das Tool „Written Mongol Romanised Vocabulary“ im CrossAsia Lab zur Verfügung. Das Tool bietet eine Suche nach mongolischen Vokabeln in kyrillischer Schrift und verschiedenen Transliterationen. Der Wortschatz ist derzeit auf Lemma aus Buchtiteln im Besitz der Staatsbibliothek beschränkt. Weitere Updates sind geplant.

Dieses Tool wurde unter Mithilfe unseres ehrenamtlichen Mitarbeiters, Dr. Michael Balk, entwickelt. Das Ehrenamt an der Staatsbibliothek machte dieses Tool möglich. Written Mongol Romanised Vocabulary zeigt, wie das Ehrenamt positiv auch auf die Weiterentwicklung der Staatsbibliothek und ihrer Services wirkt.

Im CrossAsia Lab finden Sie weitere IT-Anwendungen und –Tools, die im Kontext von CrossAsia entwickelt und zur freien Nutzung zur Verfügung gestellt werden. Schauen Sie gern vorbei!

 

Englische Zeitungen aus China, 1832-1998: über 10 Mio. Artikeldaten neu in der CrossAsia Volltextsuche und dem ITR Explorer

Der Umfang der neu in die beiden Volltextsuchen (also geführt und explorativ) und den ITR-Explorer aufgenommenen Ressource ist ein guter Anlass, noch einmal auf diese frei für alle Nutzenden zugänglichen CrossAsia Services hinzuweisen. Mit den über ProQuest angebotenen Zeitungen “South China Morning Post” (1903-1998) und dem Paket englischsprachiger Zeitungen aus China der Jahre 1832-1953 (*) ist die Liste an “English Journals und Newspapers (published in/aimed at Asia)” des ITR-Explorers noch einmal signifikant erweitert worden. Auch wenn die Zeitungen in China erschienen sind, so wird die gesamte Region Asiens und darüber hinaus behandelt und ein Blick lohnt auch für jene, die sich nicht speziell für China interessieren: über 130.000 Artikel erwähnen z.B. “Indonesia”,  35.000 “Mongolia”.

Die Volltextsuchen bieten die Möglichkeit ein breites Spektrum an Datenbanken gemeinsam zu durchstöbern und strukturierte Recherchen über das Setzen von Filtern vorzunehmen; der ITR Explorer erlaubt einen anderen Blick auf die Ressourcen, indem er verschachtelte Abfragen und den visuellen Vergleich verschiedener Treffergruppen ermöglicht.

Ein Beispiel anhand der neuen Ressource

In einem ersten Schritt kann man auswählen welche Quellen durchsucht werden sollen:

Auswahl der Quellen, auf der die Suche basieren soll: Sektion "Newspapers and Journals"

Select source: Hier aus der Sektion “Newspapers and Journals” die neu hinzugefügten “Historical Newspapers und South China Morning Post

Auf Basis der Auswahl können Treffer-Sets erstellt und miteinander kombiniert werden:

Zwei Treffersets des ITR Explorer: links "worker", rechts "laborer"

Zwei Treffer-Sets auf der Basis der gewählten Quelle. Für das Set “worker” wurde ausgewählt es mit dem Set “laborer” zu kombinieren …

… und ein neues Set zu bilden: “laborer OR worker” enthält Artikel, in denen entweder das eine ODER das andere vorkommt

Die große Menge an Treffer zu generieren und deren Visualisierung z.B. über die Zeit zu berechnen, dauert seine Zeit. Geduld, Geduld 🙂

Hier noch ein Venn- oder Mengendiagramms, das die Verteilung von Artikeln, in denen die Wörter “laborer OR worker”, “poverty” und “peasant” vorkommen, optisch und zahlenmäßig greifbar macht:

Mengendiagramm der drei Treffersets für "laborer OR worker", "poverty" und "peasant". Das erste Set ist deutlich größer, als die anderen beiden; die Schnittmengen von "peasant" mit "poverty" ist kleiner als die der "laborer OR worker". Der Großteil der Artikel mit "laboror OR worker" jedoch erwähnt nicht das Wort "poverty"

Venn-Diagramm von drei Treffermengen. Auch wenn die Anzahl der Artikel mit “laborer OR worker”, die auch “poverty” erwähnen größer ist, als die “peasant” “poverty” Schnittmenge, so erwähnen der Großteil der “laborer OR worker” Artikel nicht das Wort “poverty”. Hier ausgewählt ist die kleine Schnittmenge aller drei Sets, die 647 Artikel umfasst.

Die CrossAsia Volltextsuche ist jetzt “bunt”

An Ressourcen sind in beiden CrossAsia Services mittlerweile nicht nur lizenzpflichtige Daten versammelt, sondern auch frei zugängliche bzw. freie, für die man einen individuellen Account beim Anbieter anlegen muss. Um hier immer gleich zu wissen, woran man ist, haben wir diese Links unterschiedlich gefärbt:

  • wie gehabt, rot für authentifizierte CrossAsia-Nutzer
  • grün für frei zugängliche Dinge, wie die Asien-relevanten OCR-Texte der Digitalen Sammlung der Staatsbibliothek
  • orange für Daten, für die man sich einen kostenfreien, individuellen Account anlegen muss, um sie vollständig einsehen zu können.

Welche Farbe auch immer, eine Snippet-Ansicht des Treffers gibt es immer und für alle Nutzenden, für solche mit und solche ohne CrossAsia Account.


* Hier noch eine Liste der im Paket enthaltenen Zeitungen: The Canton Times (1919-1920), The China Critic (1939-1946), China Monthly Review (1950-1953), The China Press (1925-1938), The China Weekly Review (1923-1950), The Chinese Recorder (1912-1938), The Chinese Recorder and Educational Review (1939-1941), The Chinese Recorder and Missionary Journal (1868-1912), The Chinese Repository (1832-1851), Millard’s China National Review (1919-1919), Millard’s Review of the Far East (1917-1919, 1919-1921), The North-China Herald (1850-1867), The North-China Herald and Market Report (1867-1869), The North-China Herald and Supreme Court & Consular Gazette (1870-1941), Peking Daily News (1914-1917), Peking Gazette (1915-1917), The Peking Leader (1918-1919), The Shanghai Gazette (1919-1921), The Shanghai Times (1914-1921), The Weekly Review (1922-1923), The Weekly Review of the Far East (1921-1922).


Wie immer freuen wir uns über Feedback und Hinweise! Schreiben Sie uns an x-asia@sbb.spk-berlin.de

Neue Funktionen im CrossAsia ITR Explorer

Nachdem wir nun schon eine ganze Weile im Hintergrund an der Performance und einigen kleineren Details des ITR Explorers geschraubt und diese “stillschweigend” veröffentlicht haben, ist es nun an der Zeit, einige wichtige Neuerungen und Funktionen vorzustellen.

Der ITR Explorer erlaubt es, Suchergebnisse auf Basis der Ressourcen im CrossAsia Integrierten Text-Repositorium (CrossAsia ITR) zu kombinieren und zu vergleichen und deren Überschneidungen bzw. die Verteilung über die Zeit zu visualisieren. Damit der Einstieg in die Nutzung leichter wird, haben wir zum einen das Layout etwas klarer strukturiert. Die einzelnen “Schritte” sind als solche nun deutlicher hervorgehoben und mit jeweils eigenen kurzen Erläuterungen (i) versehen. Zum anderen ist ein weiterer wichtiger “Schritt” bzw. eine neue Funktion hinzugekommen: die Recherche kann jetzt auf eine oder eine Auswahl von Ressourcen fokussiert werden.

Read more

CrossAsia ITR Explorer

Vor über einem Jahr haben wir begonnen eine Suche über jene Volltexte anzubieten, die bereits im CrossAsia ITR (Integriertes Text-Repositorium) angekommen sind. Der Korpus, in dem gesucht wird, ist mittlerweile auf 26 Datenbankressourcen mit zusammen 52,8 Millionen Seiten in über 325.000 Titeln angewachsen (eine Liste der Ressourcen finden Sie auf der Einstiegsseite zur Volltextsuche). Damit steht allen interessierten Nutzerinnen und Nutzern – auch jenseits einer CrossAsia Authentifizierung – ein sehr großer, stetig expandierender Suchraum zur Verfügung.

Um die “unendlichen Weiten” des ITR Textkorpus zu erforschen, möchten wir Ihnen heute einen weiteren Zugang vorstellen: den CrossAsia ITR Explorer. Ziel des ITR Explorers ist es, Ihnen in Zukunft eine Reihe von Möglichkeit anzubieten, um Suchergebnisse zu generieren, miteinander zu vergleichen, zu analysieren und zu visualisieren. Wir haben hier eine Reihe von Ideen im Kopf (und in Planung), möchten Ihnen aber heute einen ersten Aufschlag hierzu präsentieren.

Read more

Noch mehr Volltextsuche für alle!

Seit April steht bereits die erste Version der CrossAsia Volltextsuche zur Verfügung. Wir hatten damals über das CrossAsia Integrierte TextRepositorium (ITR) berichtet, und die Suche als eine Spitze dieses sonst von außen nicht sichtbaren “Eisbergs” kurz vorgestellt. Seither ist viel passiert. Das ITR und die in die Volltextsuche eingebetteten Ressourcen sind kontinuierlich gewachsen und wir konnten jetzt auch eine zweite Variante der Volltextsuche freischalten. Zu beidem finden Sie mehr Details weiter unten. Ein wichtiger Punkt bei der Volltextsuche für uns ist, sie so anzubieten, dass sie *allen* Nutzer*innen zur Verfügung steht, also auch solchen, die keinen Zugang zu den jeweiligen Datenbanken haben bzw. deren Zugang nicht über CrossAsia ermöglicht wird. Damit fügt sich die Volltextsuche harmonisch in das Profil der eher “bibliographischen” CrossAsia Suche ein, die ebenfalls frei zur Verfügung steht.

Schnipsel und Links

Die Treffer in der CrossAsia Volltextsuche werden als sehr kurze und fragmentierte Textschnipsel ausgegeben. Nur so ist es möglich, die Suche für alle zu öffnen und dabei die für diese Ressoucen vereinbarten Lizenzbedingungen zu wahren. Auch Nutzer*innen ohne Zugang zu den jeweiligen Datenbanken wird damit die Möglichkeit gegeben, einen Eindruck zu gewinnen, welche Quellen u.U. relevant für die eigene Fragestellung sind. Über verschiedene Links in den Treffern gelangt man zur kompletten Quelle. Für authentifizierte CrossAsia-Nutzer*innen führt das ‘rot’ gefärbte Icon direkt zum Objekt im originalen Kontext der Datenbank; für Nutzer*innen mit anderen Zugangsmöglichkeiten – z.B. über den IP-Range ihrer Institution oder ein individuelles Login – wird parallel ein ‘graues’ Icon angeboten. “Direkt zur Quelle” bedeutet für die verschiedenen Ressoucen dann doch verschiedenes. In jedem Fall stellen wir möglichst treffgenaue Links zur Verfügung. D.h. wenn der Datenbankanbieter uns das ermöglicht, wird die entsprechende Seite angesteuert, in anderen Fällen gelangt man zumindest zum Buch oder Artikel und muß dort dann die im Treffer angegebene Seite (bzw. Imagenummer) aufschlagen. In einigen Fällen jedoch stehen nur Links zur jeweiligen Datenbank zur Verfügung. Hier ist der Weg dann etwas weiter bis zur Fundstelle (so aktuell z.B. der Fall für die People’s Daily und die Lokalmonographien der Erudition-Datenbank).

Noch mehr Volltexte für die Suche

Der Korpus an Texten, die in der CrossAsia Volltextsuche durchsucht werden können wächst kontinuierlich. Aktuell dominieren chinesische Texte und englische Texte mit Chinabezug, aber weitere Ressourcen, die auch für die Japan-, Korea- und weitere asienbezogene Forschung relevant sind, befinden sich bereits in der Pipeline. Aktuell können die Inhalte der folgenden, über CrossAsia lizenzierten Datenbanken recherchiert werden:

  • Adam Matthew – China, America, Pacific
  • Adam Matthew – China Trade & Politics
  • Adam Matthew – Foreign Office Files China
  • 道藏輯要
  • 中國地方誌 一集 (雕龍)
  • 中國地方誌 續集 (雕龍)
  • Missionary, Sinology, and Literary Periodicals (1817-1949)
  • Local Gazetteers (Erudition)
  • 人民日报 : People’s daily (1946-2009)
  • 清代史料
  • 四庫全書
  • 續修四庫全書

Darüberhinaus sind in die Volltextsuche einzelne lizenzierte Bände aus den Airiti und CNKI ebook-Portalen integriert, sowie ein Testsample an gedruckten Beständen, für die wir selbst mittels OCR einen Index erstellt haben. Zusammen sind das aktuell: 120 Tausend Titel (Buch- und Artikeltitel) mit über 13 Millionen Seiten. Das ist schon eine ziemlich große Eisbergspitze.

Noch mehr Suche für die Volltexte

Einigen Nutzer*innen ist die CrossAsia Volltextsuche Typ A mittlerweile schon vertraut. Jetzt haben wir ihr eine Volltextsuche Typ B zur Seite gestellt. Charakterisieren lassen sich die beiden als “geführte Suche” (Typ A) und “explorative Suche” (Typ B).

Typ A nimmt als Anker für die Suche Einheiten wie z.B. ein Buch oder eine Tagesausgabe der People’s Daily und verwendet die Anzahl der Seiten/Artikel mit Treffern darin als Kriterium für die Reihenfolge der Anzeige. Ein Buch mit mehr Seiten auf denen der Suchterm erscheint, wird also höher gerankt. Die “Anker” bzw. Bücher etc. werden im Suchergebnis in der linken Spalte in diesem Ranking angezeigt; wählt man ein Objekt dort aus, erscheinen die Seiten mit Treffern aus dem ausgewählten Objekt in der mittleren Spalte. Diese sind nach Seitenzahl geordnet. Mit Hilfe der Filter in der rechten Spalte kann man die Treffermenge dann weiter reduzieren bzw. fokusieren. Es wird in Typ A  *nur* in den Inhalten der Seiten gesucht und diese Inhalte zu ihren jeweiligen Büchern o.ä. gebündelt ausgegeben.

Hier die Funktionen der drei Seitenbereiche von Typ A im Überblick:

Typ B behandelt alle Objekte gleichberechtigt. D.h. Bücher, Artikel oder Archivalien und die einzelnen Volltextseiten werden auf ihre Relevanz in Bezug auf den Suchterm vom Index bewertet und in der Reihenfolge dieser Bewertung (dem “score”) als Treffer ausgeliefert. Metadaten, Bescheibungen, Autorennamen, Volltexte – alles wird durchsucht und in bunt gemischter Reihe ausgegeben. Über Filter auf der linken Seite kann der Typ der Trefferobjekte gewählt werden (also ob nur Seiten oder nur Bücher bzw. Artikel und ihre Metadaten ausgeben werden sollen) oder auch Filter wie Jahr, subject u.ä. eingestellt werden. Dies kann wiederum nachträglich geschehen, in Typ B aber auch bevor ein Suchterm eingegeben wurde. Zu beachten hier ist, daß aktuell für Seiten keine inhaltlichen Filter zur Verfügung stehen. IE jenseits von Edge setzen die Filterfunktion nicht korrekt um.

 

Einen kurzen Überblick gibt auch die neue Einstiegsseite für die CrossAsia Volltextsuche. Mehr Informationen zu den jeweiligen Besonderheiten der beiden Such-Typen können über das “i” hinter den Suchschlitzen aufgerufen werden.

Und was kommt dann?

Beide Suchmodi lösen Schranken zwischen verschiedenen Quellenkorpora und Texttypen auf, die durch die individuellen Datenbankzugänge geschaffen wurden, und ermöglichen damit – so hoffen wir – neue, bessere Wege, sich einen Überblick über die Quellenlage zu verschaffen und das Umfeld eines Suchterminus in einem möglichst breiten Spektrum von Texten zu ergründen. Details aus verschiedenen Datenkorpora werden gemeinsam angezeigt und werden jenseits der von der Datenbank vorgegebenen Logik ansteuerbar. Das ist ein wichtiger, aber doch auch nur ein erster Schritt. Um sich in diesen großen Mengen an Text nicht zu verlieren, wollen wir gemeinsam mit unseren Nutzern überlegen, wie innovative Rechereche- und Zugangsmodi aussehen könnten. Um zudem diese große Menge an Text für neue Forschungsfragen in den digitalen Geisteswissenschaften zu erschließen, arbeiten wir an Schnittstellen, über die Projekte (große und individuelle) mit diesen Daten in Zukunft arbeiten können, aber auch an Wegen über ein pre-processing diese Texte nicht nur über die Metadaten ihrer bibliographischen Einheit zu charakterisieren, sondern auch “aus sich selbst heraus”, d.h. mit Hilfe von automatisierter Textanreicherung und statistischen Auswertungen von Kollokationen u.ä. weitere Formen von “Metadaten” zu generieren.

Über Hinweise, Feedback, Vorschläge, Kritik sind wir dankbar! Am besten direkt an x-asia@sbb.spk-berlin.de

(For a short English description of the CrossAsia Fulltext Search and the two types of searches please go to the entry page of CrossAsia Fulltext Search and the “i” next to the search slot in both versions of the search)

 

Wo landen eigentlich die bibliografischen Daten der elektronischen Titel?

Im Rahmen der Arbeiten im FID Projekt werden neben den zahlreichen digitalen Objekten wie Bildern, PDFs, XML etc. auch große Mengen von bibliographischen Metadaten verarbeitet, sowohl auf Buch- als auf Artikelebene. Das ist mal mehr, mal weniger aufwändig. Einige dieser Metadaten erhalten wir direkt von den Anbietern. Diese können nach wenigen Anpassungen bereits für die CrossAsia Suche oder den electronischen Online-Katalog (OPAC) bereit gestellt werden – andere müssen aus XML-Dateien, die Volltext und Metadaten enthalten, extrahiert werden. In jedem Fall versuchen wir, soviel bibliografische Informationen wie möglich mitzunehmen und zusätzliche aus den Daten, die uns zur Verfügung gestellt werden “herauszukitzeln”. Da es sich um jeweils sehr große Datenmengen handelt (z.B. 8000 Foreign Office Files oder 5400 Titel aus Xuxiu etc.) können diese Arbeiten nur semi-automatisch passieren. Für die Lokalmonographien und die Titel aus Xuxiu haben wir z.B. mit Hilfe von Online-Tools wie MARKUS die chinesischen Editionsangaben in westliche Jahreszahlen “übersetzen” lassen und nach weiteren Manipulationen diese dann den Titeln als Metadatum hinzugefügt.

Wo landen diese Metadaten

Neben der Volltextsuche, die in einem früheren Beitrag hier vorgestellt wurde, sozusagen eine Spitze des Eisbergs “CrossAsia ITR”, die unsere Nutzer bereits sehen und verwenden, können wohl auch die Metadaten, die als Teil der Arbeiten am ITR entstehen, als eine solche Eisbergspitze gelten. Handelt es sich um sogenannte “unselbstständige” Titel, also Artikel, Kapitel, Aktenstücke etc., dann werden diese über einen Solr-Index in die CrossAsia Suche eingebunden werden; Buchtitel fließen in der Regel  über den OPAC in die CrossAsia-Suche ein.

Wo sucht die CrossAsia Suche

Einen Überblick über den jeweils aktuellen Stand der in die Suche eingebundenen Ressourcen bietet das rot unterlegte “i” hinter dem Suchschlitz auf der Seite der CrossAsia Suche. Daher lohnt es sich, hin und wieder einmal einen Blick auf diese Liste (siehe das Headerbild diese Beitrags) zu werfen. Erst kürzlich sind z.B. folgende Zeilen hier hinzugekommen:

  • Airiti Conference Proceedings (CEPS)
  • Airiti Electronic Periodicals (TEPS)
  • Airiti Theses & Dissertations (CETD)
  • FO China (Adam Matthews Digital)
  • China, Trade and Politics (Adam Matthews Digital)
  • China, America and the Pacific (Adam Matthews Digital)
  • Meiji Japan – Edward Morse collection (Adam Matthews Digital)

Das sind zusammen 11.000 Datensätze aus Adam Matthews Ressourcen und über 1 Mio. bibliographische Datensätze aus dem Airiti Portal (letztere werden im monatlichen Turnus aktualisiert).

Wie gewohnt wird für jeden Titel ein CrossAsia Link sowie ein Anbieterlink angeboten, damit sowohl registrierte CrossAsia-Nutzer*innen als auch Nutzer mit anderen Authentifizierungsmöglichkeiten von der CrossAsia Suche profitieren können.

CrossAsia ITR Volltextsuche (Beta)

Heute ist eine erste Beta-Version der Volltextsuche im Rahmen der CrossAsia Suche online gegangen. Die Volltexte stammen aus dem CrossAsia Integrierten Textrepositorium (CrossAsia ITR), eine im Rahmen der ersten Projektphase des FID aufgebauten Infrastruktur zur Archivierung und Bereitstellung von digitalen Objekten wie Bildern, Texten und Metadaten. Aktuell kann in folgenden Kollektionen recherchiert werden:

  • 人民日报 : People’s daily (von der ersten Ausgabe 1946 bis Ende August 2009, insgesamt 23.074 Ausgaben mit 1.594.648  Artikeln)
  • Foreign Office Files China (7892 Dokumente mit insgesamt 983.201 OCR-generierten Volltextseiten)
  • 續修四庫全書 (5445 Buchtitel mit 2.311.561 Seiten)
  • Local Gazetteers (2000 Buchtitel mit 2.496.431 Seiten)
  • 道藏輯要 (299 Buchtitel mit 21.237 Seiten)
  • Airiti ebooks (75 lizenierte eBook-Titel mit 26.654 Seiten)
  • Fulltext search in print books (15 Titel aus unserem Bestand, für die wir testweise einen durchsuchbaren Volltext mit OCR erstellt haben, insgesamt 4619 Seiten)

Zur CrossAsia ITR Volltextsuche gelangen Sie über den 4. Reiter auf der CrossAsia Suche oder auch direkt. Auf der Einstiegseite zur Suche – sowie unter dem (i) in der ITR Suche – finden Sie Erläuterungen zu den Besonderheiten der Suche und Hinweise zur Verwendung.

Viel Spaß beim Ausprobieren und wir freuen uns über Feedback unter x-asia@sbb.spk-berlin.de.