Perhaps you have seen Ursus Wehrli’s book “Tidying Up Art” where he takes pieces of art, separates the various shapes and colours and sorts them into neat heaps (see for example Keith Haring’s painting “Untitled” from 1986 here). N-grams aim to achieve somewhat similar: A text is segmented into component parts and identical parts are put together and counted. Arguably, this is an even more economical way of “tidying up” than that used by Mr Wehrli. The original structure and meaning of the text is disassembled and the text is viewed from a strictly statistical angle on the basis of these parts of the text. What we consider the “parts” of a text is not fixed. For example, parts of a Latin script text can be individual letters, or words identified by spacing, or two or more consecutive words or letters.
“Tidying up” texts in East Asian scripts
The safest “parts” that can be identified in East Asian scripts are the individual characters (either Chinese characters or Japanese and Korean syllables). Let’s take the first two phrases of the Daode jing to show how straightforward the basic concept of n-grams is:
道可道,非常道。名可名,非常名。無名天地之始, 有名萬物之母。
With unigrams (also called 1-grams), every individual character counts as a unit (we skip the punctuation which normally doesn’t exist in historical versions of this text). For this short passage, a list of unigrams and their frequencies looks like this:
With bigrams (or 2-grams), two consecutive characters count as a unit. Consequently, the units overlap each other by one character (道可, 可道,道非 and so on). The result is the following:
非常, 2
道可, 1
可道, 1
道非, 1
常道, 1
道名, 1
名可, 1
可名, 1
名非, 1
常名, 1
名無, 1
無名, 1
名天, 1
天地, 1
地之, 1
之始, 1
始有, 1
有名, 1
In the case of trigrams (or 3-grams) the lists get even longer and – when taking this short paragraph as the basis – each of the trigrams (道可道, 可道非, 道非常) would appear just once. Two things become immediately clear: n-grams only make sense for longer texts and n-gram lists grow quickly in size. The corpus of the Xuxiu Siku quanshu 續修四庫全書 with 5,446 titles produces 27,387 unigrams and 13,216,542 bigrams; even a title like Buwu quanshu 卜筮全書 (which is used in the header) has 3,382 unigrams, 64,438 bigrams and 125,010 trigrams.
Long lists – and then?
Only n-gram lists of complete books or large text corpora are capable of building the basis for analyses interpreting the contents at large: do specific n-grams often appear together? What is noticeable when comparing n-gram lists of different books or corpora with each other? When putting these n-gram lists back into the context of the bibliographical information about the specific books, are there any discernable shifts over time, in the oeuvre of an author or in a certain genre? What appears where more or less often or what n-grams appear or not appear together?
Two well-established sources of n-grams are the Google-Ngram Viewer or the HathiTrust Bookworm. Both are known for displaying shifts in popularity of certain terms over time. But n-grams – maybe cleaned and sharpened using additional analytical means – can be the raw material for even more advanced explorations and hypotheses. Many of the things that n-grams can detect are also discernible via “close reading” – of course! But n-grams are ruthlessly neutral, approaching texts with purely statistical means unaffected by reading habits and preconceptions of the field. And they have one more big advantage: the original (license protected) fulltext disappears behind a statistical list of its parts and thus does not violate the license agreements CrossAsia has signed with its commercial partners.
Step by step into the future
The header image on top of this blog post shows an original print face of the Buwu quanshu 卜筮全書, the corresponding (searchable) fulltext and lists of uni-, bi- and trigrams for the whole text. Without further information, the lists themselves are of limited use. Only by comparing them with other lists and analyzing them using digital tools and routines comes their full potential to the fore. The number of our users that can do their own analyses on the basis of n-grams will surely grow within the next years, especially since many curricula in the humanities have started to include analytical methods using digital humanity tools and “distant reading”. But we at CrossAsia are also working on services – in addition to providing the n-gram lists themselves (CrossAsia N-gram Service) – that allow users to explore, analyze and visualize these n-grams. Our aim is to give a better overview and access to the growing number of texts hosted in our CrossAsia ITR (Integrated Text Repositorium).
First accomplishments
A first tool developed by CrossAsia aiming to help users find relevant materials is the CrossAsia Fulltext Search that went online April 2018 in a “guided” and an “explorative” version. The search currently covers about 130,000 titles and over 15.4 million book pages. The Fulltext Search works on the basis of a word search in combination with the metadata of the titles. This is a good start but we presume that in the long run it will not be able to fulfill the requirement to guide users to resources relevant to their research question – at least not alone. One obstacle is the divergence of metadata of the titles so that no clean filter terms to drill down search results can be offered. Another obstacle is the sheer number of returned hits which make it impossible to gain a clear overview.
N-grams and the corresponding tools can help find similarities between texts or identify the topics of a text, among other things. Thus, they provide ways to look at texts not only from the angle of their bibliographic description but make the texts “talk about themselves”. N-grams, topic modeling (i.e. an algorithm-based identification of the topics of a text), named-entity recognition (i.e. the automatic detection and mark-up of personal or geographic names etc.) are forms of such self-descriptions of a text. We at CrossAsia are currently experimenting with different forms of access, visualization and analysis of the contents stored in the CrossAsia ITR that will supplement the Fulltext Search in the near future.
CrossAsia N-Gram Service
The first three sets of n-grams (uni-, bi- and trigrams) of texts stored in the CrossAsia ITR have been uploaded and are now available to all users, CrossAsia and beyond (CrossAsia N-gramn Service). The three sets are 1. the Xuxiu Siku Quanshu續修四庫全書corpus of 5,400+ historical Chinese titles; 2. the Daoist text compendium Daozang jiyao 道藏辑要 with about 300 titles compiled in 1906; and 3. a collection of over 10,000 local gazetteer titles covering the period from the Song dynasty to Republican China and some older geographical texts.
The n-grams of these sets are generated on the book level, with the name of a book’s n-gram file matching the ID given in the metadata table of the specific set, which is also available for download. A few caveats for this first version of n-gram sets: we did not check the sets for duplicates (so the local gazetteer set might contain the same text more than once); we did not do any kind of character normalization (which would have counted the variants 回, 囬, 廻, 囘 as the same character); and we removed any kind of brackets such as【 and 】etc. that in some cases marked entries or sub-chapters in the texts. So, as with all algorithms, the ruthless neutrality of n-grams claimed above in fact depends on sensible preprocessing decisions, and no decision can be equally well-suited for all possible research questions.
We are curious!
Are these n-gram sets helpful for your research? What can we improve? Do you have suggestions for further computer based information about the texts we should offer in our service? We look forward to hearing your feedback about this new CrossAsia service!
x-asia@sbb.spk-berlin.de
Testzugang für die Ta Kung Pao 大公報 (1902-1949) bis 31. Dezember
/in Aktuelles, Datenbanken, Newsletter 19/by CrossAsiaDie Tageszeitung Ta Kung Pao 大公報 wurde 1902 in Tianjin gegründet und erschien fast durchgängig während der Kriegsjahre bis 1949 in verschiedenen Städten Chinas, neben Tianjin in den Städten Shanghai, Hankou, Chongqing, Hongkong und Guilin (und besteht noch bis heute fort). Für den Zeitraum 1902 bis 1949 steht sie ab sofort bis Ende des Jahres (31. Dezember 2019) für alle CrossAsia Nutzerinnen und Nutzer zum Testen bereit.
In der Datenbank enthalten sind neben den gescannten Artikeln der Ausgaben aus den verschiedenen Städten auch die Volltexte, die durchsucht und ebenfalls heruntergeladen werden können. Hier im Bild die entsprechenden Zeiträume sowie die Angabe, ob der Volltext vollständig enthalten ist oder nicht:
Das Trefferergebnis gibt eine Übersicht über die jeweilige Ausgabe mit Datum, Seitenangabe, Artikeltitel und dem Abstract bzw. Volltext, ggf. mit hervorgehobenen Suchbegriff. Ein Klick auf den Artikeltitel öffnet ein Fenster mit dem entsprechenden Artikel im Volltext und PDF sowie dessen Verortung in der entsprechenden Ausgabe, d.h. linker Hand befindet sich eine Inhaltsangabe der jeweiligen Ausgabe. Des Weiteren wird angeboten, direkt aus der Trefferübersicht den Volltext zu öffnen, der als txt-Dateien heruntergeladen werden kann, den ausgeschnittenen Artikel als PDF, ebenfalls ggf. mit hervorgehobenen Suchbegriff, oder die gesamte Seite mit Hervorhebung des gesuchten Artikels zu öffnen. Die Ansicht der gesamten Seite erlaubt es auch, sich durch die verschiedenen Seiten der entsprechenden Ausgabe zu klicken, sowie die Ausgaben der folgenden Tage zu öffnen. Sofern im Artikel vorhanden wird in der Trefferanzeige auch auf enthaltene Tabellen hingewiesen (附圖表).
Neben dem Lesebereich mit der Trefferanzeige und einer einfachen Suche gibt es zwei weitere Reiter: die erweiterte Suche sowie einen thematischen Zugang, mit Kommentaren und einer Auswahl von Artikeln zur Wirtschaft, internationalen Nachrichten und Film etc.
Dies sind einige Funktionalitäten der Datenbank. In der Menüleiste ist unter „操作說明“ ein PDF mit Tipps zur Suche und Verwendung der Datenbank verlinkt.
Lassen Sie uns wissen, wie Sie die Datenbank für Ihre Recherche finden und ob Sie meinen, dass dies eine wertvolle Ergänzung des Datenbankangebots in CrossAsia wäre. Schreiben Sie als Forumsbeitrag (über den Kommentar unten) oder per Mail an x-asia@sbb.spk-berlin.de.
Ihr CrossAsia Team
Testzugang für gesamtes Unihan Portfolio (bis 4. Oktober!)
/in Aktuelles, Datenbanken/by CrossAsiaAlle 54 Datenbanken im Angebot von Unihan wurden für CrossAsia Nutzer und Nutzerinnen geöffnet. Der Testzugang läuft vorerst bis zum 4.Oktober. Das Portfolio von Unihan umfasst zahlreiche historische Materialien zum kaiserzeitlichen China aus dem Ersten Historischen Archiv. Um nur einige zu nennen: 明清内阁大库史料集刊, 清朝起居注, 清代外交档案, 清代科举硃卷集成, 清末陆军海军文献汇编 aber auch Kompilationen von Materialien mit Bezug zur Ming oder Song Dynastie (禁毁明代史料, 两宋研究史料汇编全文数据库 u.a.).
Die Ressourcen kommen im gewohnten Unihan look-and-feel: Image und Volltext in paraller Ansicht, Suche über alle Ressourcen, Volltext mit allen Zeichenvarianten getippt (wofür die Installation eines extra Fonts notwendig ist).
Hinweis: In der Übersicht erscheinen auch die “regulären” CrossAsia Datenbanken als “Testzugang”. Nicht irritieren lassen. Bereits von CrossAsia dauerhaft subskribiert sind 清会典, 清實錄, 十通, 四部丛刊 2009增补版 (das sind 四部丛刊 und 四部备要 zusammen) und 中国历代石刻史料汇编.
Melden Sie uns, welche Ressourcen für Sie noch wichtig und relevant sind. Als Forumsbeitrag (über Kommentar unten) oder per Mail an x-asia@sbb.spk-berlin.de
Ihr CrossAsia Team
Neuerscheinung bei CrossAsia-eBooks: Ungers “Grammatik des Klassischen Chinesisch”
/in Aktuelles, E-Publishing, Neuerscheinungen, Newsletter 19/by CrossAsiaVerfasst von Dr. Kerstin Storm, Uni Münster.
Heute erscheint nun die Grammatik des Klassischen Chinesisch von Ulrich Unger erstmals als Ganzes. Ursprünglich auf neun Bände angelegt, ist sie mit ihren knapp 1500 Seiten die umfangreichste westlichsprachige Beschreibung der Klassischen Sprache Chinas. Entstanden in den Jahren zwischen 1980 und 2000 und nun herausgegeben und mit einem ausführlichen Vorwort versehen von Reinhard Emmerich, wurde die Grammatik in den vergangenen drei Jahren zur besseren Durchsuchbarkeit digital überarbeitet und zusammengefügt. Sie soll Sinologen, Linguisten und Interessierten, Lehrerenden und Studierenden, als praktikables Nachschlagewerk dienen. Von unschätzbarem Wert in der Grammatik sind Ungers aus den Quellen zitierte abertausend Beispielsätze, anhand derer er grammatikalische Phänomene erklärt und belegt.
Ulrich Unger und Reinhard Emmerich: Grammatik des Klassischen Chinesisch. Heidelberg, Berlin: CrossAsia-eBooks, 2019.
ISBN (PDF): 978-3-946742-60-9
DOI: https://doi.org/10.11588/xabooks.506
CrossAsia-eBooks ist die Open-Access-Publikationsplattform des FID Asien für wissenschaftliche E-Books aus dem Bereich der Asienwissenschaften. Wenn Sie ebenfalls Interesse daran haben, Ihre Forschungsarbeit bei uns zu veröffentlichen, dann nehmen sie mit uns Kontakt auf!
Lizenz für die Kamakura ibun
/in Aktuelles, Datenbanken, Newsletter 19/by Ursula FlacheWir freuen uns mitteilen zu können, dass die Onlineausgabe der Kamakura ibun 鎌倉遺文 dauerhaft lizenziert werden konnte und bedanken uns herzlich bei allen, die uns hinsichtlich dieser Ressource ein Feedback gegeben haben.
Die Materialsammlung mit historischen Dokumenten der Kamakura-Zeit (1185-1333) erschien ursprünglich in 42 Bänden plus vier Supplementbänden beim Verlag Tōkyōdō. Das Werk ist Teil der Datenbank JapanKnowledge. Um die Kamakura ibun zu recherchieren, rufen Sie bitte wie üblich JapanKnowledge über die Datenbankseite von CrossAsia auf. In JapanKnowledge finden Sie die Kamakura ibun in dem Bereich „JKBooks“ ganz unten. Die Kamakura ibun können sowohl über die einfache Suche (基本検索) als auch über die ausführliche Suche (詳細検(個別)索) im Volltext durchsucht werden. Die Onlineausgabe bietet neben dem elektronischen Volltext auch die entsprechende Seite aus dem Druckexemplar, was ein Lesen der Dokumente in übersichtlicher Form erlaubt. Darüber hinaus sind die Datensätze mit der Datenbank des Historiographischen Instituts der Universität Tokyo verknüpft, die ebenfalls die Kamakura ibun anbietet. Gegebenenfalls sind über diesen Link auch Scans der Originaldokumente einsehbar.
Nähere Informationen finden Sie auf der Seite des Datenbankanbieters:
Auf Englisch
Auf Japanisch
Einen Flyer mit einer Kurzerläuterung finden Sie hier.
Ergebnisse der Umfrage zu Forschungsdaten in den asienbezogenen Wissenschaften
/in Aktuelles, Fachinformationsdienst, Forschungsdaten, Newsletter 19, Nutzerumfrage/by Miriam SeegerIm Frühjahr haben wir Sie als FID Asien gemeinsam mit den Fachgesellschaften (DGA, DMG, DVCS, GJF, VfK, VSJF) zu Forschungsdaten in den asienbezogenen Wissenschaften befragt. Ziel der Umfrage war, zu ermitteln, wie Sie im Forschungsprozess mit ihren asienbezogenen Daten umgehen, welche Erfahrungen und Meinungen Sie zur Recherche und Nachnutzung sowie Erstellung und Bereitstellung von Forschungsdaten haben und welche Unterstützungsangebote Sie bereits erhalten, bzw. welche Sie sich seitens des FID Asien wünschen.
Wir möchten Ihnen an dieser Stelle ganz herzlich für Ihre rege Beteiligung und die vielfältigen, äußerst hilfreichen Hinweise danken, die Sie uns gegeben haben. Die Beteiligung an der Umfrage und die Ergebnisse zeigen sehr deutlich, dass Forschungsdaten und der Umgang mit diesen auch in den asienbezogenen Wissenschaften bereits wichtige Themen sind, aber es auch noch einigen Erklärungs- und Diskussionsbedarf gibt. Mit diesem Beitrag möchten wir über eine Auswertung der Ergebnisse hinaus versuchen, die Diskussion weiter anzuregen und zugleich in einigen Bereichen vielleicht etwas mehr Klarheit schaffen.
Im Folgenden finden Sie eine Auswertung der Umfrage mit den wichtigsten Ergebnissen und Grafiken sowie mit Erläuterungen; eine vollständige Aufführung aller Tabellen und Grafiken finden Sie zum Download anbei.
Read more
人民日报 – People’s Daily – neu retrospektiv und tagesaktuell
/in Aktuelles, Datenbanken, Newsletter 19/by Cordula GumbrechtAb sofort können wir Ihnen Zugang zu einer neuen Datenbank für die 人民日报 (People’s Daily) anbieten. Die Datenbank umfasst alle Jahrgänge seit der Gründung der Zeitung im Jahr 1946 und wird täglich aktualisiert. Sie kann im Volltext in einfacher oder erweiterter Suche durchsucht, gefundene Artikel können heruntergeladen bzw. ausgedruckt werden.
Sie finden die Datenbank über den Menüpunkt Ressourcen > Datenbanken und mit der Auswahl der Klassifikation „Newspapers & Magazines“ sowie der Sprache „Chinese“.
Neuerscheinung bei CrossAsia-eBooks – Early Modern India: Literatures and Images, Texts and Languages
/in Aktuelles, E-Publishing, Newsletter 19/by CrossAsiaInteressieren Sie sich für indische Sprachen, Persisch, Sanskrit? Für die Beziehungen zwischen verschiedenen Yoga-Traditionen?
Dann lesen Sie CrossAsia-eBooks’ neueste Open Access Veröffentlichung Early Modern India: Literatures and Images, Texts and Languages, herausgegeben von Maya Burger und Nadia Cattoni (Université de Lausanne).
Dieses Buch präsentiert aktuelle wissenschaftliche Forschungen zu einer der wichtigsten literarischen und historischen Epochen der Frühen Neuzeit aus einer Vielzahl von Perspektiven. Es enthält eine Auswahl von Beiträgen, die auf der 12. International Conference on Early Modern Literatures of North India vorgestellt wurden. Das Organisationsprinzip des Bandes liegt in der Erforschung der Verbindungen zwischen einer Vielzahl von Sprachen (indische Volkssprachen, Persisch, Sanskrit), Medien (Texte, Bilder) und Traditionen (Hindu, Jaina, Sikh, Muslim). Die Rolle der persischen Sprache und die Bedeutung der Übersetzungen vom Sanskrit in Persische werden vor dem Hintergrund des “translational turn” diskutiert.
Der Band kann als Gesamt-PDF oder in einzelnen Kapiteln auf der CrossAsia-eBooks Webseite gelesen und heruntergeladen werden. Die Hardcover-Ausgabe ist im lokalen Buchhandel oder über den Online-Buchhandel erhältlich.
CrossAsia-eBooks ist die Open-Access-Publikationsplattform von CrossAsia für wissenschaftliche E-Books aus dem Bereich der Asienwissenschaften. Wenn Sie ebenfalls Interesse daran haben, Ihre Forschungsarbeit bei uns zu veröffentlichen, dann nehmen Sie mit uns Kontakt auf!
„Tidying Up Texts“ – CrossAsia has published its first n-gram packages for download
/in Aktuelles, Fachinformationsdienst/by Martina SiebertPerhaps you have seen Ursus Wehrli’s book “Tidying Up Art” where he takes pieces of art, separates the various shapes and colours and sorts them into neat heaps (see for example Keith Haring’s painting “Untitled” from 1986 here). N-grams aim to achieve somewhat similar: A text is segmented into component parts and identical parts are put together and counted. Arguably, this is an even more economical way of “tidying up” than that used by Mr Wehrli. The original structure and meaning of the text is disassembled and the text is viewed from a strictly statistical angle on the basis of these parts of the text. What we consider the “parts” of a text is not fixed. For example, parts of a Latin script text can be individual letters, or words identified by spacing, or two or more consecutive words or letters.
“Tidying up” texts in East Asian scripts
The safest “parts” that can be identified in East Asian scripts are the individual characters (either Chinese characters or Japanese and Korean syllables). Let’s take the first two phrases of the Daode jing to show how straightforward the basic concept of n-grams is:
道可道,非常道。名可名,非常名。無名天地之始, 有名萬物之母。
With unigrams (also called 1-grams), every individual character counts as a unit (we skip the punctuation which normally doesn’t exist in historical versions of this text). For this short passage, a list of unigrams and their frequencies looks like this:
名, 5
道, 3
可, 2
非, 2
常, 2
之, 2
無, 1
天, 1
地, 1
始, 1
有, 1
萬, 1
物, 1
母, 1
With bigrams (or 2-grams), two consecutive characters count as a unit. Consequently, the units overlap each other by one character (道可, 可道,道非 and so on). The result is the following:
非常, 2
道可, 1
可道, 1
道非, 1
常道, 1
道名, 1
名可, 1
可名, 1
名非, 1
常名, 1
名無, 1
無名, 1
名天, 1
天地, 1
地之, 1
之始, 1
始有, 1
有名, 1
名萬, 1
萬物, 1
物之, 1
之母, 1
In the case of trigrams (or 3-grams) the lists get even longer and – when taking this short paragraph as the basis – each of the trigrams (道可道, 可道非, 道非常) would appear just once. Two things become immediately clear: n-grams only make sense for longer texts and n-gram lists grow quickly in size. The corpus of the Xuxiu Siku quanshu 續修四庫全書 with 5,446 titles produces 27,387 unigrams and 13,216,542 bigrams; even a title like Buwu quanshu 卜筮全書 (which is used in the header) has 3,382 unigrams, 64,438 bigrams and 125,010 trigrams.
Long lists – and then?
Only n-gram lists of complete books or large text corpora are capable of building the basis for analyses interpreting the contents at large: do specific n-grams often appear together? What is noticeable when comparing n-gram lists of different books or corpora with each other? When putting these n-gram lists back into the context of the bibliographical information about the specific books, are there any discernable shifts over time, in the oeuvre of an author or in a certain genre? What appears where more or less often or what n-grams appear or not appear together?
Two well-established sources of n-grams are the Google-Ngram Viewer or the HathiTrust Bookworm. Both are known for displaying shifts in popularity of certain terms over time. But n-grams – maybe cleaned and sharpened using additional analytical means – can be the raw material for even more advanced explorations and hypotheses. Many of the things that n-grams can detect are also discernible via “close reading” – of course! But n-grams are ruthlessly neutral, approaching texts with purely statistical means unaffected by reading habits and preconceptions of the field. And they have one more big advantage: the original (license protected) fulltext disappears behind a statistical list of its parts and thus does not violate the license agreements CrossAsia has signed with its commercial partners.
Step by step into the future
The header image on top of this blog post shows an original print face of the Buwu quanshu 卜筮全書, the corresponding (searchable) fulltext and lists of uni-, bi- and trigrams for the whole text. Without further information, the lists themselves are of limited use. Only by comparing them with other lists and analyzing them using digital tools and routines comes their full potential to the fore. The number of our users that can do their own analyses on the basis of n-grams will surely grow within the next years, especially since many curricula in the humanities have started to include analytical methods using digital humanity tools and “distant reading”. But we at CrossAsia are also working on services – in addition to providing the n-gram lists themselves (CrossAsia N-gram Service) – that allow users to explore, analyze and visualize these n-grams. Our aim is to give a better overview and access to the growing number of texts hosted in our CrossAsia ITR (Integrated Text Repositorium).
First accomplishments
A first tool developed by CrossAsia aiming to help users find relevant materials is the CrossAsia Fulltext Search that went online April 2018 in a “guided” and an “explorative” version. The search currently covers about 130,000 titles and over 15.4 million book pages. The Fulltext Search works on the basis of a word search in combination with the metadata of the titles. This is a good start but we presume that in the long run it will not be able to fulfill the requirement to guide users to resources relevant to their research question – at least not alone. One obstacle is the divergence of metadata of the titles so that no clean filter terms to drill down search results can be offered. Another obstacle is the sheer number of returned hits which make it impossible to gain a clear overview.
N-grams and the corresponding tools can help find similarities between texts or identify the topics of a text, among other things. Thus, they provide ways to look at texts not only from the angle of their bibliographic description but make the texts “talk about themselves”. N-grams, topic modeling (i.e. an algorithm-based identification of the topics of a text), named-entity recognition (i.e. the automatic detection and mark-up of personal or geographic names etc.) are forms of such self-descriptions of a text. We at CrossAsia are currently experimenting with different forms of access, visualization and analysis of the contents stored in the CrossAsia ITR that will supplement the Fulltext Search in the near future.
CrossAsia N-Gram Service
The first three sets of n-grams (uni-, bi- and trigrams) of texts stored in the CrossAsia ITR have been uploaded and are now available to all users, CrossAsia and beyond (CrossAsia N-gramn Service). The three sets are 1. the Xuxiu Siku Quanshu續修四庫全書corpus of 5,400+ historical Chinese titles; 2. the Daoist text compendium Daozang jiyao 道藏辑要 with about 300 titles compiled in 1906; and 3. a collection of over 10,000 local gazetteer titles covering the period from the Song dynasty to Republican China and some older geographical texts.
The n-grams of these sets are generated on the book level, with the name of a book’s n-gram file matching the ID given in the metadata table of the specific set, which is also available for download. A few caveats for this first version of n-gram sets: we did not check the sets for duplicates (so the local gazetteer set might contain the same text more than once); we did not do any kind of character normalization (which would have counted the variants 回, 囬, 廻, 囘 as the same character); and we removed any kind of brackets such as【 and 】etc. that in some cases marked entries or sub-chapters in the texts. So, as with all algorithms, the ruthless neutrality of n-grams claimed above in fact depends on sensible preprocessing decisions, and no decision can be equally well-suited for all possible research questions.
We are curious!
Are these n-gram sets helpful for your research? What can we improve? Do you have suggestions for further computer based information about the texts we should offer in our service? We look forward to hearing your feedback about this new CrossAsia service!
x-asia@sbb.spk-berlin.de
Südostasien: 700 E-Books des ISEAS – Yusof Ishak Instituts. Testzugang bis 7. Juni
/in Aktuelles, Datenbanken/by Claudia Götze-SamCrossAsia bietet den registrierten Nutzerinnen und Nutzern über den Anbieter IG Publishing einen Testzugang zu der E-Book-Sammlung des in Singapur ansässigen ISEAS – Yusof Ishak Instituts, eines der führenden Südostasien-Forschungszentren und Herausgeber von wissenschaftlichen Büchern und Zeitschriften mit dem Schwerpunkt auf Politik, Wirtschaft, soziale Fragen und gesellschaftliche Entwicklungstrends in Südostasien und dem asiatisch-pazifischen Raum. Zu den Publikationen gehört u.a. auch die Reihe „Trends in Southeast Asia“.
Die Sammlung umfasst zurzeit 742 Publikationen aus den Jahren 1980-2019. Bei der einfachen Suche können Filter gesetzt werden (Fachgebiet, Erscheinungsjahr, Sprache). Bei der erweiterten Suche können weitere Suchkriterien einbezogen werden. Zu den Treffern erscheinen Images und kurze Resümees. Die Titel sind im Volltext durchsuchbar.
Bitte testen Sie die Datenbank und senden Sie uns gerne Ihr Feedback: x-asia@sbb.spk-berlin.de
Testzugang zur Datenbank 中華數字書苑 · 圖片庫
/in Aktuelles, Datenbanken/by Cordula GumbrechtAb sofort können wir Ihnen einen Testzugang zur Datenbank 中華數字書苑 · 圖片庫 (“Apabi Picture Database”) anbieten. Die Datenbank versammelt umfangreiches Bildmaterial aus chinesischen und westlichen Publikationen aus allen Bereichen der bildenden Kunst. In der Datenbank kann in Sparten wie z.B. Porträtmalerei, Kalligraphie etc., bzw. nach Region und Entstehungszeit gebrowst werden. Die Datenbank ist zudem mittels einfacher und erweiterter Suche durchsuchbar. Für die gefundenen Kunstwerke bzw. Bilddokumente werden eine Kurzbeschreibung sowie Querverweise und weiterführende Literatur angeboten, leider werden nicht in jedem Fall Quellenangaben gemacht.
Wir möchten Sie um reges Ausprobieren der Datenbank und Ihr Feedback bitten. Schreiben Sie uns (an diese Adresse: x-asia(at)sbb.spk-berlin.de) oder auch im Forum, sollten Sie Interesse an einer dauerhaften Lizensierung der Datenbank haben.
Der Testzugang endet am 11.06.2019