ITR und Entwicklungen

Early Access Launch: The Newspaper Research Companion

(Deutsche Version: siehe unten)

Dear CrossAsia users,

We are excited to share that our new service, the Newspaper Research Companion (NRC), is now available in early access!

Built by the CrossAsia Lab over the past year, the NRC is an AI-powered research platform that transforms how large digitized newspaper archives can be accessed and explored. It opens up historical press to intelligent, cross-lingual discovery for the first time.

What Is the Newspaper Research Companion?

The NRC enables researchers to query, read, and analyse historical newspaper collections across multiple languages through a single interface, working entirely in their own language. In its current version, the NRC covers over 32.9 million article chunks drawn from 66 newspaper titles in German, Chinese (Traditional, Simplified, and Classical), English, and Russian, spanning the years 1785 to 2014. To view the full list of included titles, see the Resources table on NRC homepage.

Rather than matching keywords, the NRC understands the intent behind a question and retrieves material that is genuinely relevant to the research need, much like asking a knowledgeable colleague who happens to have read millions of historical newspaper articles across multiple languages.

Why Early Access?

The NRC is the first iteration of a service we will be continuously improving, expanding the available materials and refining its design and features over time. Some of the underlying licensing agreements are still being finalised, which means the current collection does not yet reflect the full scope of what the NRC will eventually cover.

Key Features of the NRC

  1. Ask real research questions. Owing to our AI-powered semantic search, rather than entering isolated search terms, users can pose complex, interpretive questions. How did German and Chinese newspapers cover the same event? How did the framing of a political figure shift over decades? How did Russian, German, and Chinese press traditions diverge during the same international crisis? The NRC synthesizes answers drawn from across the corpus, grounded in the actual sources it retrieves. Users can browse all sources or filter by region, time period, source language, or specific publication. Questions can be posed in any language, including mixed-language queries, so key terms need not be translated. Users can set the language of the results, choosing between English, German, French, Korean, Japanese or Traditional Chinese, or the original language of each material.

 

NRC search box with open filter feature including the result language setting and the resources table dropdown below.

 

  1. Access what was previously out of reach. A question posed in English can surface relevant articles from Russian, Chinese, or German-language sources, without the need for external translation support. The AI model captures meaning across languages rather than relying on surface-level word overlap.

 

  1. Understand sources at a glance. Every retrieved article is accompanied by an AI-generated summary in the user’s chosen language, making it possible to immediately assess the relevance and content of articles in Classical Chinese, Russian, or any other collection language, without having to read the original in full. Each result links directly to its original source, ensuring transparency and allowing CrossAsia users to verify the information and explore further with a single click.

 

 

  1. Auto-generated synthesis. Beyond individual articles, the NRC generates a short research report drawing on retrieved sources, with full references to the underlying originals – suitable for annotation, integration into research workflows, or as a foundation for further enquiry. The report can be downloaded as a PDF.

 

How Does It Work?

When a user poses a question, the NRC’s AI pipeline interprets the underlying information need, identifies historically significant terms across languages and time periods, and generates multilingual equivalents of key concepts to broaden coverage across the corpus. It then retrieves material across all supported languages simultaneously and filters results for relevance before generating a response grounded exclusively in the material that has passed the relevance check. Each step is transparently shown to the user as the system progresses:

 

 

All processing takes place within the IT infrastructure of the Staatsbibliothek zu Berlin. Licensed materials are never shown to unauthorized users. The NRC surfaces semantic context and links back to original sources without reproducing or replacing them. To learn more about our methodology, visit About Our Method on the NRC homepage.

Try It Now

We warmly invite you to explore the early access platform and share your impressions with us. Your feedback is invaluable for its continued development!

If you would like to take part in a 15-minute user interview and help shape the NRC’s future, please email x-asia@sbb.spk-berlin.de.

We hope you enjoy discovering the NRC!

Your CrossAsia Team

 


 

Liebe Nutzer:innen,

wir freuen uns, Ihnen mitteilen zu können, dass unser neuer Service, der Newspaper Research Companion (NRC), ab sofort im Early Access verfügbar ist!

Der im CrossAsia Lab entwickelte NRC ist eine KI-gestützte Rechercheplattform, die den Zugang zu großen digitalisierten Zeitungsarchiven grundlegend neu gestaltet. Erstmals wird die historische Presse einer intelligenten, sprachübergreifenden Recherche zugänglich.

Was ist der Newspaper Research Companion?

Der NRC ermöglicht es Forschenden, historische Zeitungsbestände in mehreren Sprachen über eine einzige Oberfläche abzufragen, zu lesen und zu analysieren – und das vollständig in der eigenen Sprache. In der aktuellen Version umfasst der NRC über 32,9 Millionen Artikelabschnitte aus 66 Zeitungstiteln in deutscher, chinesischer (traditionell, vereinfacht und klassisch), englischer und russischer Sprache aus den Jahren 1785 bis 2014. Die vollständige Liste der enthaltenen Titel finden Sie in der Quellentabelle auf der NRC-Startseite.

Anstatt bloß Schlagwörter abzugleichen, versteht der NRC die Intention hinter einer Frage und findet Material, das für das Forschungsanliegen tatsächlich relevant ist – ganz so, als würde man eine kundige Kollegin fragen, die zufällig Millionen historischer Zeitungsartikel in mehreren Sprachen gelesen hat.

Warum Early Access?

Der NRC ist die erste Ausbaustufe eines Services, den wir kontinuierlich weiterentwickeln werden, sowohl durch die Erweiterung der verfügbaren Materialien als auch durch die Verfeinerung von Design und Funktionen. Einige der zugrunde liegenden Lizenzvereinbarungen befinden sich noch in der finalen Abstimmung, sodass der aktuelle Bestand noch nicht den vollen Umfang dessen widerspiegelt, was der NRC künftig abdecken wird.

Die wichtigsten Funktionen des NRC

 

1. Stellen Sie echte Forschungsfragen. Dank unserer KI-gestützten semantischen Suche müssen Nutzer:innen keine isolierten Suchbegriffe mehr eingeben, sondern können komplexe, interpretative Fragen stellen: Wie berichteten deutsche und chinesische Zeitungen über dasselbe Ereignis? Wie veränderte sich die Darstellung einer politischen Persönlichkeit über Jahrzehnte hinweg? Wie unterschieden sich russische, deutsche und chinesische Pressetraditionen während derselben internationalen Krise? Der NRC erstellt synthetisierte Antworten aus dem gesamten Korpus, die auf den tatsächlich gefundenen Quellen beruhen. Nutzer:innen können alle Quellen durchsuchen oder nach Region, Zeitraum, Quellsprache oder einzelnen Publikationen filtern. Fragen können in jeder beliebigen Sprache gestellt werden, auch gemischtsprachig, sodass zentrale Begriffe nicht übersetzt werden müssen. Die Sprache der Ergebnisse lässt sich frei wählen: Englisch, Deutsch, Französisch, Koreanisch, Japanisch oder traditionelles Chinesisch – oder die Originalsprache des jeweiligen Materials.

NRC-Suchfeld mit geöffneten Filtern, darunter die Einstellung der Ergebnissprache, sowie darunterliegender ausklappbarer Quellentabelle.

2. Erschließen Sie bislang Unzugängliches. Eine auf Englisch gestellte Frage kann relevante Artikel aus russisch-, chinesisch- oder deutschsprachigen Quellen zutage fördern, ganz ohne externe Übersetzungshilfe. Das KI-Modell erfasst Bedeutung über Sprachgrenzen hinweg, anstatt sich auf oberflächliche Wortübereinstimmungen zu stützen.

3. Verstehen Sie Quellen auf einen Blick. Jeder gefundene Artikel wird von einer KI-generierten Zusammenfassung in der gewählten Sprache begleitet. So lässt sich die Relevanz und der Inhalt von Artikeln in klassischem Chinesisch, Russisch oder jeder anderen Sprache der Sammlung sofort einschätzen, ohne das Original vollständig lesen zu müssen. Jedes Ergebnis verlinkt direkt auf die Originalquelle. So können CrossAsia-Nutzer:innen die Informationen transparent nachvollziehen und mit einem einzigen Klick überprüfen oder vertiefend weiterrecherchieren.

4. Automatisch generierte Synthese. Über die einzelnen Artikel hinaus erstellt der NRC einen kurzen Forschungsbericht auf Grundlage der gefundenen Quellen mit vollständigen Verweisen auf die zugrunde liegenden Originale. Dieser eignet sich zur Annotation, zur Einbindung in Forschungsworkflows oder als Ausgangspunkt für weiterführende Untersuchungen. Der Bericht kann als PDF heruntergeladen werden.

 

Wie funktioniert das?

Wenn eine Frage gestellt wird, interpretiert die KI-Pipeline des NRC zunächst das zugrunde liegende Informationsbedürfnis, identifiziert historisch bedeutsame Begriffe über Sprachen und Epochen hinweg und generiert mehrsprachige Entsprechungen zentraler Konzepte, um die Abdeckung im Korpus zu erweitern. Anschließend ruft das System Material aus allen unterstützten Sprachen gleichzeitig ab und filtert die Ergebnisse nach Relevanz, bevor es eine Antwort generiert, die ausschließlich auf dem geprüften und als relevant eingestuften Quellenmaterial beruht. Jeder Schritt wird den Nutzer:innen während der Verarbeitung transparent angezeigt:

Die gesamte Verarbeitung findet innerhalb der IT-Infrastruktur der Staatsbibliothek zu Berlin statt. Lizenzierte Materialien verbleiben bei ihren jeweiligen Anbietern und werden nicht autorisierten Nutzer:innen zu keinem Zeitpunkt angezeigt. Der NRC stellt semantischen Kontext bereit und verlinkt auf die Originalquellen, ohne diese zu reproduzieren oder zu ersetzen. Mehr über unsere Methodik erfahren Sie unter „About Our Method“ auf der NRC-Startseite.

Jetzt ausprobieren

Wir laden Sie herzlich ein, die Early-Access-Plattform zu erkunden und uns Ihre Eindrücke mitzuteilen. Ihr Feedback ist für die Weiterentwicklung von unschätzbarem Wert!

Wenn Sie an einem 15-minütigen Nutzerinterview teilnehmen und die Zukunft des NRC mitgestalten möchten, schreiben Sie uns gerne an x-asia@sbb.spk-berlin.de.

Wir wünschen Ihnen viel Freude beim Entdecken des NRC!

Ihr CrossAsia-Team

 

Unlock newspaper knowledge with CrossAsia’s AI Explorer: explore and test two new features for finding similar and possibly relevant articles across languages

The defining characteristics of newspapers are timeliness (prompt reporting on current events), periodicity (regular publication), publicity (public dissemination of information accessible to everyone) and universality (broad thematic diversity ranging from politics to culture).

But what happens when we overcome language barriers and connect newspapers and news from different countries and languages? With the CrossAsia Newspaper Explorer, we can use technology to find similar and relevant articles across languages and scripts.

We added two new AI-powered features to the CrossAsia Newspaper Explorer one is and extension to the result sets you produced by one or combined search terms from one or more sources and will “Show results by similarity”, the other starts from one of the actual titles in your result set and triggers a “Cross-language search for similar titles.” These functions use vectors embeddings*, an advanced AI technique that captures the meaning of a text beyond individual words in that text and across different languages. No worries, you do not need to understand the underlying math, just be aware of that much: each text is transformed into a matrix of numbers describing the “meanings/concepts” in a text as a vector of a certain length and angle. Considered as “similar” are texts where length and angle of these “meanings” are close. Each text is described by hundreds of these vectors in a multi-dimensional space and to actually calculate closeness and display this in a 3D space the data is reduced in complexity.

We used stsb-xlm-r-multilingual (Ollama backend) to prepare the texts for this feature, for the display of the spatial relation and some other features we use Embedding Projector.

When selecting the “sources” for your search in the CrossAsia Newspaper Explorer, you will now notice a star icon  next to some data sources. This indicates that the source not only has a “word” index but in addition has been fully converted into embedding vectors and support the new features (fig.1).

*Note: Embedding vectors are numerical representations created by AI to understand and compare the meaning of text, even in different languages. For a more extensive explanation please see here: https://www.ibm.com/think/topics/vector-embedding

Fig.1: Source selection showing availability for new AI features.

 

Sounds too abstract? Let’s look at an example.

Every analysis in the ITR Explorer or Newspaper Explorer starts with producing result sets, i.e. searching for terms in sources, and – maybe – combining the result sets by OR, AND, or NOT.  Our showcase example is a combination with OR of a search for 旱災 (“drought” in Chinese) across selected Chinese and Japanese newspaper sources (with CJK Mapping enabled) plus a search for the word drought in English newspapers published in China: drought 旱災 (fig.2).

Fig.2. Production of a cross-language result set from English, Japanese and Chinese newspapers

 

Show result by similarity

Clicking the icon in the combined result set will trigger the “Show results by similarity” function which loads all AI-based embedding vectors of the articles in the result set to the display and analysis tool Embedding Projector that will show semantically similar content across languages as a distribution with different distances and angles in a 3D space defined by the used AI model.

Fig.3: Combined result set loaded in Embedding Projector with standard settings and PCA projection

 

The Embedding Projector interface consists of three main sections:

  • Left Panel: Shows the name and size of the loaded result set (blue frame), controls how the data points (dots) are labeled (red frame) and colored (green frame). This is the default setting. Titles appear on hover, colors reflect different data sources (src), and PCA is used for projection. Other available option for projection are UMAP and t-SNE. The “?” next to the projection gives an introduction how to use and interpret the projection.
  • Center Panel: Displays the interactive embedding viewer. You can zoom, rotate, and explore the data visually. A click on a dot opens a pop-up box with some basis metadata and CrossAsia link (in red) and Provider link (in black, for users with another IP access authentication) leading directly to the article in the provider’s database.
  • Right Panel: When clicking on one dot/title in the center panel, similar records are highlighted and the right panel with their distance, title, and direct link to their database. It is also possible to display only data points that match certain metadata criteria, such as containing a certain term or being published in the 1960ies (fig. 4).

Fig.4: Filtering the data points by metadata, here those of the 1960ies and showing the pop-up box for selected article.

 

In the next screenshot (fig.5), the same result set uses UMAP to project the records.

Fig.5: UMAP projection of result set “drought ∪ 旱災”

 

Let’s explore the cluster of records in the upper middle where blue (English), pink and red (Chinese from RMRB and Dagong bao) titles mix by drawing a box (see fig. 3, lilac framed icon) around that cluster. The selection suggests that the articles are “similar” because “water management/水利” play a central role in them.

Fig.6: Exploring one cluster of records in the UMAP projection

 

“Cross-language search for similar titles”

The second new feature of the CrossAsia ITR Newspaper Explorer is an addition to the fifth section in the ITR Explorer interface: “List of matching titles”. This function has the same features as the one described above, but displays not a pre-defined set of titles, but starts from one specific article within the result set to then search for similar titles across all data sources in which this AI feature is enabled. A click on the star icon next to one of the titles will trigger the search and display (fig. 7).

Fig.7: Starting an AI exploration from the list of matching titles

 

Starting from the Chinese article “捷克外長克萊門蒂斯作:紀念蘇捷同盟六週年永遠和蘇聯” (Czech Foreign Minister Clementis: Commemorating the Sixth Anniversary of the Soviet-Czech Alliance, Forever with the Soviet Union) the AI search will find “similar titles” also in other languages than Chinese such as the English newspaper article “CZECH’S FAREWELL TO SIBERIA” (fig. 8).

Fig.8: Display of result of a Chinese article will also show English articles that are considered similar in “meaning”

No tool makes sense without users!

Please share your experiences when using the new ITR Newspaper feature with us and the community. Have you found interesting and un-expected but useful results using this feature? Have you advised for other users how to best proceed making best use it? Please share as comments to this blog. Thank you!

The new features are – as are all CrossAsia Lab tools – open to all users and not confined to those being able to access the licensed databases. If you find flaws or errors or have suggestions for improvement, do not hesitate to contact us via the x-asia address or use the comment function in the CrossAsia Forum.

Hackathon zur Layouterkennung tibetischer Handschriften und Blockdrucke

Am 22. November findet in Dresden ein Hackathon statt – und CrossAsia ist dabei!

Gemeinsamen mit Experten von Silicon Saxony und dem KI Netzwerk Dresden arbeiten wir an einer KI-basierten Layouterkennung für tibetische Handschriften und Blockdrucke. Es werden dabei leistungsstarke Modelle wie YOLO, SAM2 und GroundingDino zur automatischen Erkennung von Layouts und hier auch Illustrationen sowie Textinhalten benutzt. Im nächsten Schritt können Open-Source-Language-Models wie LLaMA 3.1 oder APIs (z.B. ChatGPT) eingesetzt werden, um die gesammelten Daten zu analysieren und Zusammenhänge zwischen Texten und Bildern zu erschließen. So können Lösungen für den automatischen Vergleich von Textinhalten in historischen Dokumenten und deren Annotation entwickelt werden.

Die Veranstaltung ist ideal für alle, die sich für den Einsatz von DH-Methoden und ihren Einsatz bei vormodernen Objekten interessieren.

Alle Infos im Überblick finden Sie auf der Webseite des Hackathons.

Eine kostenfreie Anmeldung ist hier möglich.

 

CrossAsia ITR-Newspaper Explorer

The CrossAsia ITR-Newspaper Explorer is a new member of the ITR-Explorer family focusing on newspaper materials. Similar to ITR-Explorer, it provides CJK (Chinese, Japanese and Korean characters) mapping, phrase searching and result set manipulation (using ∩ (AND), U (OR) and – (AND NOT) operators) for users to build more complex search results sets (for more details, see our previous blog post https://blog.crossasia.org/neue-funktionen-im-crossasia-itr-explorer/). ITR’s Newspaper Explorer introduces a new heat map visualisation that makes full use of the fine-granular data nature of newspapers and provides a better way to observe time distribution at different scales, from decade, year, month to day level.

In this first release, the CrossAsia ITR-Newspaper Explorer offers a diverse collection of four newspaper sources in Traditional Chinese, Simplified Chinese, English and German. These four data sources cover a period from 1882 to 2012. As with other ITR family members such as CrossAsia Fulltext Search and ITR Explorer, CrossAsia ITR Newspaper Explorer is committed to continually integrating new data sources to ensure a constantly evolving and enriching user experience.

Currently included Newspaper Sources:

1882-1894 Neueste-Mittheilungen (13.855 articles) German
1832-1998 Historical Newspapers of China and South China Morning Post (10.450.568 articles) English
1902-1949 Ta-kung Pao -大公報 (2.912.830 articles) T. Chinese
1949-2009 People’s Daily -人民日报 (1.594.631 articles) S. Chinese

 

The Heat Map visualisation uses different colour depth (light to dark red) to show the result distribution in decade (the 1st row), year (the 2nd row) and month (the 3rd row). Each time block represents all articles published in that period (in terms of year, month and day). Selecting a time block will activate the alignment of all other time rows, moving the nearest time block to the beginning of each row (fig.1). The list of titles at the end of the page will adjust accordingly, showing all articles published in the selected time block including a link to call up the issue or article in the original platform (fig.2).

Please note that depending on your search term huge result sets are returned and loading might take some time.

Fig.1: Heatmap distribution for “Berlin OR 柏林” in all four newspaper ressources. In the “year row” 1933 has been selected, so the rows for month and day adjusted accordingly.


Fig.2: Disply of all articles within the selected time period that match the search criteria. The link in the last column needs an authentication as CrossAsia user and leeds to either the article or the issue with the respective article. If the material is open access, you can obtain it directly.

CrossAsia ITR-Zeitungsexplorer

Der CrossAsia ITR-Newspaper Explorer ist ein neues Mitglied der ITR-Explorer-Familie mit einem Schwerpunkt auf Zeitungsmaterialien. Ähnlich wie der ITR-Explorer bietet er ein CJK-Matching für chinesische, japanische und koreanische Schriftzeichen, Phrasensuche und die Möglichkeit zur Kombination von Ergebnismengen (unter Verwendung der Operatoren ∩ (AND), U (OR) und – (AND NOT)), damit Benutzer:innen ihre eigene, komplexere Suchergebnismengen erstellen können (weitere Einzelheiten finden Sie in einem früheren Blogbeitrag https://blog.crossasia.org/neue-funktionen-im-crossasia-itr-explorer/). Die neue Heatmap-Visualisierung des ITR Newspaper Explorers nutzt die Feingranularität von Zeitungsdaten, um die zeitliche Verteilung von Suchergebnissen auf verschiedenen Skalen zu ermöglichen, von Jahrzehnt, Jahr, Monat bis hin zur Tagesebene.

In dieser ersten Version bietet der CrossAsia ITR-Zeitungsexplorer eine vielfältige Sammlung aus vier Zeitungsquellen in Chinesisch (traditionelle und vereinfachte Schriftzeichen), Englisch und Deutsch an. Diese vier Datenquellen decken einen Zeitraum von 1882 bis 2012 ab. Wie bei den anderen ITR-Produkten wie der CrossAsia Volltextsuche und dem ITR Explorer ist auch der CrossAsia ITR-Zeitungsexplorer bestrebt, kontinuierlich neue zu integrieren, und so eine sich ständig weiterentwickelnde und bereichernde Nutzererfahrung zu gewährleisten.

Aktuelle Quellen im Zeitungsexplorer:

1882-1894 Neueste-Mittheilungen (13.855 Artikel) German
1832-1998 Historical Newspapers of China and South China Morning Post (10.450.568 Artikel) English
1902-1949 Ta-kung Pao -大公報 (2.912.830 Artikel) T. Chinese
1949-2012 People’s Daily -人民日报 (1.594.631 Artikel) S. Chinese

 

Die Heatmap-Visualisierung verwendet verschiedene Farbtiefen (Hell- bis Dunkelrot), um die Verteilung der Ergebnisse nach Jahrzehnt (1. Zeile), Jahr (2. Zeile) und Monat (3. Zeile) darzustellen. Jeder Zeitblock repräsentiert alle in diesem Zeitraum veröffentlichten Artikel (in Bezug auf Jahr, Monat und Datum). Durch Auswahl eines Zeitblocks wird die Ausrichtung aller anderen Zeitzeilen aktiviert, wobei der nächstgelegene Zeitblock den Anfang einer Zeile einnimmt (Abb.1). Auch die Titelliste am Ende der Seite passt sich an, um jeweils alle für die Suche relevanten Artikel aufzulisten, die in dem ausgewählten Zeitblock veröffentlicht wurden. Die jeweiligen Titel können über einen Link in der Plattform des Anbieters aufgerufen werden (Abb.2).

Bitte beachten Sie, dass – je nach Suchbegriff – sehr große Treffermengen geladen werden und dieser Vorgang u.U. etwas Zeit in Anspruch nimmt.

Abb.1: Heatmap-Verteilung für „Berlin OR 柏林“ in allen vier Zeitungsressourcen. In der „Jahreszeile“ wurde 1933 ausgewählt, so dass die Zeilen für Monat und Tag entsprechend angepasst wurden.


Abb.2: Anzeige aller Artikel innerhalb des gewählten Zeitraums, die den Suchkriterien entsprechen. Der Link in der letzten Spalte erfordert eine Authentifizierung als CrossAsia-Nutzer:in und führt entweder zum Artikel oder zur Ausgabe mit dem jeweiligen Artikel. Wenn es sich um Open Access-Materialien handelt, gelangen Sie direkt zu diesen.

Vom lesenden Menschen zu lernenden Maschinen – über die Möglichkeiten von Gaia-x für das kulturelle Erbe

Dieser Beitrag ist eine Verschriftlichung des gleichnamigen Vortrags über die ersten Erfahrungen, Daten aus dem ITR von CrossAsia in Gaia-X zu publizieren und auf diesem Wege der Forschung und vor allem den Digital Huminaties zur Verfügung zu stellen. Der Vortrag wurde am 11. Oktober 2023 im Rahmen der Europeana Tech Conference 2023 in Den Haag gehalten.

Ausgangspunkt der Reise Richtung Gaia-X stellt die CrossAsia Webseite dar. CrossAsia ist das von der Staatsbibliothek zu Berlin verantwortete Portal, in dem alle Services des von der DFG geförderten Fachinformationsdienstes Asien und weiteren Angebote gebündelt werden. Der Fachinformationsdienst richtet sich an Wissenschaftlerinnen und Wissenschaftler aus den asienbezogenen Geisteswissenschaften und hat seinen Schwerpunkt auf Ost-, Zentral- und Südostasien. Die Staatsbibliothek sammelt nicht nur Materialien aus und über diese asiatischen Regionen, sondern hat sich bereits vor mehr als 20 Jahren für eine e-preferred-Strategie entschieden. Wann immer ein elektronisches Medium wie Zeitschrift oder Buch dauerhaft lizenziert werden kann, wird kein gedrucktes Exemplar erworben, sondern das elektronische Dokument lizenziert. Hierbei versucht die Staatsbibliothek neben den überregionalen oder nationalen Zugangsrechten auch die Rechte für die lokale Archivierung der Dokumente inkl. Text- und Datamining-Rechten nach Verhandlungen zu erlangen. Neben den Einträgen in den Nachweissystemen kommt der Verwaltung der lizenzierten Daten wie Bilddaten, Volltexten, Film- und Tondokumenten eine besondere Bedeutung zu. Ein erster Dienst, der aus der Verwaltung der digitalen Objekte entwickelt wurde, ist die CrossAsia-Volltextsuche. Diese basiert neben eigenen digitalisierten und mit Volltexten ausgestatteten Objekten auf lizenzierten Objekten von Verlagen und anderen Anbietern. Hierbei handelt es sich hauptsächlich um Text- und Bildmaterialien aus historischen Quellen, von Büchern über wissenschaftliche Artikel bis hin zu aktuellen Zeitungen. Bislang sind insbesondere Materialien in Englisch und Chinesisch repräsentiert; das Angebot wird auch in Hinblick auf die anderen Sprachen kontinuierlich ausgebaut.

All diese Inhalte werden im sogenannten Integrierten Textrepository (ITR) archiviert. Technische Grundlage hier ist eine Infrastruktur basierend auf der Fedora Repository Software. Gleichzeitig stellen wir die Durchsuchbarkeit der Inhalte über einen Solr-Index dar. Dieser enthält momentan fast 70 Millionen Dokumente und ist weltweit eine einmalige Sammlung für lizenzfreie und lizenzbehaftete digitale Ressourcen in den Asienwissenschaften.

Aus diesem Grunde haben viele Wissenschaftlerinnen und Wissenschaftler ein großes Interesse, in diesen Inhalten Muster zu entdecken, neue Zusammenhänge zu erkennen und neue Erkenntnisse mit eigenen Algorithmen und Programmen durch Text- und Datamining zu gewinnen. Der FID Asien besitzt zwar das Recht, seine Nutzerinnen und Nutzern solche Analysen direkt durchführen zu lassen. Hierbei stellt sich jedoch die Frage, wie Code und Inhalte zusammenkommen?

Eine naheliegende Idee wäre ein zusätzlicher Service, der es Wissenschaftlerinnen und Wissenschaftlern ermöglicht, ganze Sammlungen aus dem ITR herunterzuladen. Allerdings ist die Datenmenge im ITR sehr groß, so dass unter Umständen mehrere Terrabyte von Daten heruntergeladen werden müssten. Dies kann je nach Netzwerkgeschwindigkeit Wochen dauern. Zudem wird die weitere Verbreitung der Daten mit dem Download unkontrollierbar, was für alle lizenzierten Inhalte äußerst kritisch ist und zu Vertragsverletzungen führen kann. Dies wiederum schafft Probleme mit Verlagen, mit denen die Staatsbibliothek Verträge geschlossen hat. Schließlich basiert ein Lizenzvertrag auf gegenseitigem Vertrauen, weshalb eine strengere Zugriffskontrolle auf die Daten notwendig ist.

Eine andere Idee ist, dass Wissenschaftlerinnen und Wissenschaftler in die Staatsbibliothek kommen und sich dort mit ihrem eigenen Laptop über die IT-Infrastruktur der SBB direkt mit dem ITR verbinden und dann die entsprechenden Analysen durchführen. Dies ist aus Zeit- und Kostengründen nicht immer realisierbar, vor allem wenn eine ferne Anreise notwendig ist. Und auch in diesem Fall muss kontrolliert werden, ob Daten in zu großem Umfang aus dem ITR abgezogen werden und die Staatsbibliothek damit die Kontrolle über ihre in den Lizenzverträgen eingegangenen Verpflichtungen verliert.

Ein weiteres Problem stellen die erforderlichen Computer-Ressourcen dar, die z.B. für das Training im Rahmen des maschinellen Lernens benötigt werden und die ein einfacher Laptop nicht bieten kann. Daher kann auch die Verfügbarkeit der notwendigen Rechenleistung ein Problem sein.

Ausgehend von dieser Problematik begann unsere Suche nach einer Möglichkeit, unsere Daten und unser ITR für Text- und Datamining zu öffnen. Dabei stießen wir auf Gaia-X. Gaia-X ist eine europäische Initiative für eine unabhängige Cloud-Infrastruktur, wobei es sich eher um ein Framework als um eine weitere Cloud-Plattform wie Amazon Webservices oder Google handelt, die sich in verschiedene Domänen aufgliedert.

Die wichtigsten Eigenschaften des Gaia-X Frameworks sind im Folgenden aufgeführt:

  • Volle Souveränität über die eigenen Daten. Die Kontrolle über die Daten bleibt stets beim Eigentümer.
  • Dezentralität, d.h., es gibt keinen zentralen Punkt im Netzwerk, der für das Funktionieren notwendig ist.
  • Ein Regelwerk zur Schaffung von Vertrauen und spezielle Services (verfügbar als Open Source), die von allen Netzwerkteilnehmern genutzt werden können, um zu überprüfen, ob andere auch die Regeln einhalten. Gaia-X ist also ein föderales System mit implizitem Vertrauen.
  • Gaia-X ist interoperabel, da es keine vorgeschriebene technische Infrastruktur für die Teilnahme gibt.
  • Mit Gaia-X ist es möglich, fachspezifische Dataspaces zu erstellen und diese miteinander zu verknüpfen.

Abbildung 1 zeigt einen Überblick über die Gaia-X Domäne, die wir uns näher angeschaut haben. Links ist das Trust Framework mit den verbundenen föderierten Diensten dargestellt, die dazu genutzt werden können, um die Compliance von allen Teilnehmenden zu überprüfen. Rechts oben finden sich die Portale, die den Einstiegspunkt in die fachspezifischen Dataspaces in Gaia-X darstellen.

 

 

Alles, was in einem Portal veröffentlicht wird, wird im föderierten Katalog verzeichnet, der in der Abbildung neben den Portalen zu sehen ist. Dieser Katalog ist unabhängig von den Portalen und enthält Informationen über alle Assets in Gaia-X. Nutzerinnen und Nutzer besuchen ein Portal und sehen die Inhalte abhängig vom Portal in einer fachspezifischen Ansicht des föderierten Katalogs. Die Inhalte sind jedoch nicht an das Portal gebunden und können jederzeit und überall im Gaia-X-Netzwerk genutzt werden. Auch deswegen ist Gaia-X als dezentral zu bezeichnen.

Um herauszufinden, wie uns diese Eigenschaften unterstützen können, um Text- und Datamining im ITR zu ermöglichen, haben wir ein Proof-of-Concept gestartet. Das Ergebnis war ein eigenes CrossAsia Portal in Gaia-X. Inhalte eines solchen Portals sind sogenannte Service-Offerings in Gaia-X. Dies kann entweder ein Dataset oder ein Algorithmus sein. Für ein Dataset besteht die Möglichkeit des gesicherten Downloads, was bedeutet, dass die URL des Datensatzes niemals sichtbar wird. Gleichzeitig kann zum Beispiel die gesamte Anzahl an Downloads festgelegt werden.

Eine weitere Möglichkeit besteht darin, Compute-To-Data für ein Dataset zu aktivieren. Dies ermöglicht es Nutzerinnen und Nutzern, die Daten mit einem veröffentlichten Algorithmus zu verknüpfen und einen Compute Job zu starten. Die Nutzerinnen und Nutzer erhalten nur die Ergebnisse ihres Compute-Jobs, nicht die Daten selbst. Auf diese Weise können wir die Daten aus unserem ITR für Text- und Datamining anbieten, ohne dass jemand Daten herunterladen oder verschieben muss.

Dies funktioniert, weil hier das Ocean Protocol die technische Grundlage von Gaia-X darstellt. Abbildung 2 zeigt einen vereinfachten technischen Ablauf für Compute-To-Data. Die Schritte sind relativ einfach: zunächst suchen die Nutzerinnen und Nutzer die Daten und den Algorithmus aus dem föderierten Katalog (vorausgesetzt, es bestehen entsprechende Zugriffsrechte). Dann werden Daten und Algorithmus in einen isolierten Execution Pod geladen, der innerhalb einer Kubernetes-Umgebung startet. Einzig die Ergebnisse des Algorithmus und Logfiles zur Ausführung werden dann dem Nutzer oder der Nutzerin zur Verfügung gestellt. Am Ende wird der Execution Pod gelöscht.

 

 

Das Veröffentlichen von Datasets und Algorithmen und deren Verbindung hat wie in der Theorie beschrieben funktioniert. Daher kann der Proof-of-Concept als Erfolg angesehen werden: eine Bibliothek kann Datasets in Gaia-X veröffentlichen, Wissenschaftlerinnen und Wissenschaftler können einen Algorithmus veröffentlichen und beides über das Portal kombinieren. Die gewünschten Ergebnisse werden zur Verfügung gestellt, ohne das die Sicherheit der Daten gefährdet wird – keine Downloads sind notwendig und alle Daten bleiben bei der Institution, die sie veröffentlicht hat.

Mit der Ersteinrichtung des Portals muss jedoch festgestellt werden, dass noch einige Verbesserungen notwendig sind, bevor die Lösung in größerem Umfang gut genutzt werden kann. Wer das Portal ausprobieren möchte, wird feststellen, dass der Einstieg in das Gaia-X Netzwerk nicht einfach ist und einiger Erklärungen bedarf. Da es sich bei der Datenbank des föderierten Katalogs um einen Distributed Ledger handelt, wird ein Wallet zur Identifizierung und Rechtegewährung benötigt. Daher muss im Browser ein Wallet (z.B. MetaMask) installiert und konfiguriert werden. Nach dem Einstieg ins Netzwerk ist jedoch die Veröffentlichung von Datasets und Algorithmen recht einfach, wenn auch die Verwendung von Daten bzw. das Starten eines Compute-Jobs eine Reihe von Bestätigungen bestimmter Transaktionen auf dem Ledger erfordert.

Zusammenfassend lässt sich feststellen, dass Gaia-X eine interessante neue Möglichkeit für GLAM-Institutionen ist, ihre schützenswürdigen Daten anzubieten. Gaia-X ist derzeit noch stark von wirtschaftlichen und industriellen Interessen mit einer starken kommerziellen Ausrichtung getrieben. Dennoch haben wir uns entschieden, vor allem aufgrund der guten Ergebnisse, unsere Aktivitäten in Gaia-X fortzuführen und den Proof-of-Concept zu einer Pilotanwendung weiterzuentwickeln. Hier arbeiten wir an ersten Verbesserungen der User-Experience und werden in Kürze weitere Use-Cases mit wissenschaftlichem Fokus durchführen. Wir engagieren uns gleichzeitig in der Gaia-X und Ocean-Protocol-Community, um auch nicht-kommerzielle Anwendungsfälle in Gaia-X besser zu ermöglichen und Gaia-X zu einem wissenschaftlichen Ökosystem für fachspezifische Dataspaces weiterzuentwickeln.

Basierend auf unseren Erfahrungen aus dem Proof-of-Concept möchten wir Einrichtungen des Kulturerbes vorschlagen, darüber nachzudenken, wie Gaia-X und das Ocean Protocol sie dabei unterstützen können ein Fullstack-Dataprovider zu werden. Und eben nicht nur ein Dataprovider für Metadaten, um Kulturartefakte zu finden, nicht nur ein Dataprovider für Texte zum Lesen, Audios zum Hören, Bilder oder Videos zum Ansehen oder Forschungsdaten zum Analysieren. Sondern vielmehr ein Dataprovider, der solche Kulturdaten in hoher Qualität auch für Algorithmen und Netzwerke für maschinelles Lernen anbietet und dabei – sofern notwendig – die Hoheit über die Daten behält.

Derzeit werden Large Language Models stark von großen Unternehmen wie OpenAI, Google oder Facebook kontrolliert. Wenn jedoch jeder die Möglichkeit erhält, seine eigenen Modelle mit Daten von GLAM- Institutionen zu trainieren, kann das maschinelle Lernen demokratisiert werden. Da jeder Zugang zu den Daten hat, die er oder sie für seine Algorithmen benötigt – entweder zu freien Daten oder bei lizenzierten Daten dort, wo ein entsprechendes Zugriffs- und Lizenzrecht besteht. Neue Ansätze wie Federated Learning können dabei helfen und den Prozess sogar noch stark vereinfachen. Unser Ziel ist es, das Training künstlicher Intelligenz zu verbessern, indem wir unsere digitalen Lesesäle für die Algorithmen öffnen und nicht nur die neuen Möglichkeiten der künstlichen Intelligenz selbst zu nutzen.

Referenzen

Wenn Sie interessiert sind, die Lösung zu testen und Unterstützung benötigen, wenden Sie sich bitte an x-asia(at)sbb.spk-berlin.de

Written Mongol Romanised Vocabulary ist online!

Ab sofort steht Ihnen das Tool „Written Mongol Romanised Vocabulary“ im CrossAsia Lab zur Verfügung. Das Tool bietet eine Suche nach mongolischen Vokabeln in kyrillischer Schrift und verschiedenen Transliterationen. Der Wortschatz ist derzeit auf Lemma aus Buchtiteln im Besitz der Staatsbibliothek beschränkt. Weitere Updates sind geplant.

Dieses Tool wurde unter Mithilfe unseres ehrenamtlichen Mitarbeiters, Dr. Michael Balk, entwickelt. Das Ehrenamt an der Staatsbibliothek machte dieses Tool möglich. Written Mongol Romanised Vocabulary zeigt, wie das Ehrenamt positiv auch auf die Weiterentwicklung der Staatsbibliothek und ihrer Services wirkt.

Im CrossAsia Lab finden Sie weitere IT-Anwendungen und –Tools, die im Kontext von CrossAsia entwickelt und zur freien Nutzung zur Verfügung gestellt werden. Schauen Sie gern vorbei!

 

Englische Zeitungen aus China, 1832-1998: über 10 Mio. Artikeldaten neu in der CrossAsia Volltextsuche und dem ITR Explorer

Der Umfang der neu in die beiden Volltextsuchen (also geführt und explorativ) und den ITR-Explorer aufgenommenen Ressource ist ein guter Anlass, noch einmal auf diese frei für alle Nutzenden zugänglichen CrossAsia Services hinzuweisen. Mit den über ProQuest angebotenen Zeitungen „South China Morning Post“ (1903-1998) und dem Paket englischsprachiger Zeitungen aus China der Jahre 1832-1953 (*) ist die Liste an „English Journals und Newspapers (published in/aimed at Asia)“ des ITR-Explorers noch einmal signifikant erweitert worden. Auch wenn die Zeitungen in China erschienen sind, so wird die gesamte Region Asiens und darüber hinaus behandelt und ein Blick lohnt auch für jene, die sich nicht speziell für China interessieren: über 130.000 Artikel erwähnen z.B. „Indonesia“,  35.000 „Mongolia“.

Die Volltextsuchen bieten die Möglichkeit ein breites Spektrum an Datenbanken gemeinsam zu durchstöbern und strukturierte Recherchen über das Setzen von Filtern vorzunehmen; der ITR Explorer erlaubt einen anderen Blick auf die Ressourcen, indem er verschachtelte Abfragen und den visuellen Vergleich verschiedener Treffergruppen ermöglicht.

Ein Beispiel anhand der neuen Ressource

In einem ersten Schritt kann man auswählen welche Quellen durchsucht werden sollen:

Auswahl der Quellen, auf der die Suche basieren soll: Sektion "Newspapers and Journals"

Select source: Hier aus der Sektion „Newspapers and Journals“ die neu hinzugefügten „Historical Newspapers und South China Morning Post

Auf Basis der Auswahl können Treffer-Sets erstellt und miteinander kombiniert werden:

Zwei Treffersets des ITR Explorer: links "worker", rechts "laborer"

Zwei Treffer-Sets auf der Basis der gewählten Quelle. Für das Set „worker“ wurde ausgewählt es mit dem Set „laborer“ zu kombinieren …

… und ein neues Set zu bilden: „laborer OR worker“ enthält Artikel, in denen entweder das eine ODER das andere vorkommt

Die große Menge an Treffer zu generieren und deren Visualisierung z.B. über die Zeit zu berechnen, dauert seine Zeit. Geduld, Geduld 🙂

Hier noch ein Venn- oder Mengendiagramms, das die Verteilung von Artikeln, in denen die Wörter „laborer OR worker“, „poverty“ und „peasant“ vorkommen, optisch und zahlenmäßig greifbar macht:

Mengendiagramm der drei Treffersets für "laborer OR worker", "poverty" und "peasant". Das erste Set ist deutlich größer, als die anderen beiden; die Schnittmengen von "peasant" mit "poverty" ist kleiner als die der "laborer OR worker". Der Großteil der Artikel mit "laboror OR worker" jedoch erwähnt nicht das Wort "poverty"

Venn-Diagramm von drei Treffermengen. Auch wenn die Anzahl der Artikel mit „laborer OR worker“, die auch „poverty“ erwähnen größer ist, als die „peasant“ „poverty“ Schnittmenge, so erwähnen der Großteil der „laborer OR worker“ Artikel nicht das Wort „poverty“. Hier ausgewählt ist die kleine Schnittmenge aller drei Sets, die 647 Artikel umfasst.

Die CrossAsia Volltextsuche ist jetzt „bunt“

An Ressourcen sind in beiden CrossAsia Services mittlerweile nicht nur lizenzpflichtige Daten versammelt, sondern auch frei zugängliche bzw. freie, für die man einen individuellen Account beim Anbieter anlegen muss. Um hier immer gleich zu wissen, woran man ist, haben wir diese Links unterschiedlich gefärbt:

  • wie gehabt, rot für authentifizierte CrossAsia-Nutzer
  • grün für frei zugängliche Dinge, wie die Asien-relevanten OCR-Texte der Digitalen Sammlung der Staatsbibliothek
  • orange für Daten, für die man sich einen kostenfreien, individuellen Account anlegen muss, um sie vollständig einsehen zu können.

Welche Farbe auch immer, eine Snippet-Ansicht des Treffers gibt es immer und für alle Nutzenden, für solche mit und solche ohne CrossAsia Account.


* Hier noch eine Liste der im Paket enthaltenen Zeitungen: The Canton Times (1919-1920), The China Critic (1939-1946), China Monthly Review (1950-1953), The China Press (1925-1938), The China Weekly Review (1923-1950), The Chinese Recorder (1912-1938), The Chinese Recorder and Educational Review (1939-1941), The Chinese Recorder and Missionary Journal (1868-1912), The Chinese Repository (1832-1851), Millard’s China National Review (1919-1919), Millard’s Review of the Far East (1917-1919, 1919-1921), The North-China Herald (1850-1867), The North-China Herald and Market Report (1867-1869), The North-China Herald and Supreme Court & Consular Gazette (1870-1941), Peking Daily News (1914-1917), Peking Gazette (1915-1917), The Peking Leader (1918-1919), The Shanghai Gazette (1919-1921), The Shanghai Times (1914-1921), The Weekly Review (1922-1923), The Weekly Review of the Far East (1921-1922).


Wie immer freuen wir uns über Feedback und Hinweise! Schreiben Sie uns an x-asia@sbb.spk-berlin.de

Neue Funktionen im CrossAsia ITR Explorer

Nachdem wir nun schon eine ganze Weile im Hintergrund an der Performance und einigen kleineren Details des ITR Explorers geschraubt und diese „stillschweigend“ veröffentlicht haben, ist es nun an der Zeit, einige wichtige Neuerungen und Funktionen vorzustellen.

Der ITR Explorer erlaubt es, Suchergebnisse auf Basis der Ressourcen im CrossAsia Integrierten Text-Repositorium (CrossAsia ITR) zu kombinieren und zu vergleichen und deren Überschneidungen bzw. die Verteilung über die Zeit zu visualisieren. Damit der Einstieg in die Nutzung leichter wird, haben wir zum einen das Layout etwas klarer strukturiert. Die einzelnen „Schritte“ sind als solche nun deutlicher hervorgehoben und mit jeweils eigenen kurzen Erläuterungen (i) versehen. Zum anderen ist ein weiterer wichtiger „Schritt“ bzw. eine neue Funktion hinzugekommen: die Recherche kann jetzt auf eine oder eine Auswahl von Ressourcen fokussiert werden.

Weiterlesen

CrossAsia ITR Explorer

Vor über einem Jahr haben wir begonnen eine Suche über jene Volltexte anzubieten, die bereits im CrossAsia ITR (Integriertes Text-Repositorium) angekommen sind. Der Korpus, in dem gesucht wird, ist mittlerweile auf 26 Datenbankressourcen mit zusammen 52,8 Millionen Seiten in über 325.000 Titeln angewachsen (eine Liste der Ressourcen finden Sie auf der Einstiegsseite zur Volltextsuche). Damit steht allen interessierten Nutzerinnen und Nutzern – auch jenseits einer CrossAsia Authentifizierung – ein sehr großer, stetig expandierender Suchraum zur Verfügung.

Um die „unendlichen Weiten“ des ITR Textkorpus zu erforschen, möchten wir Ihnen heute einen weiteren Zugang vorstellen: den CrossAsia ITR Explorer. Ziel des ITR Explorers ist es, Ihnen in Zukunft eine Reihe von Möglichkeit anzubieten, um Suchergebnisse zu generieren, miteinander zu vergleichen, zu analysieren und zu visualisieren. Wir haben hier eine Reihe von Ideen im Kopf (und in Planung), möchten Ihnen aber heute einen ersten Aufschlag hierzu präsentieren.

Weiterlesen