CiNii DissertationsとNDLデジタルコレクション

6月10日、CiNii Articlesで検索していたら突然「日本の博士論文をさがす」のリンクが表示され、CiNii Dissertationsが公開されたことを知りました。

NDL-OPACの書誌情報をベースとして、機関リポジトリとNDLデジタルコレクションのメタデータを統合することで、本文リンクを表示させることが可能になった点はすごいと思います。

機関リポジトリメタデータを収集するIRDBとCiNii Articlesとのデータ連携により、CiNii Articlesの詳細画面に機関リポジトリのリンクを表示させることは以前から実装されていました。しかし、メタデータのNIItypeがJournal Article、Departmental Bulletin Paper、Articleのいずれかに限定されていたため、博士論文は全文が登録されていたとしても連携対象外でした。

学術機関リポジトリ構築連携支援事業 │ ドキュメント │ システム情報 │ IRDBのハーベストについて
http://www.nii.ac.jp/irp/archive/system/irdb_harvest.html

もちろん、JAIROや各機関リポジトリではこれまでも検索可能でしたが、CiNii Dissertationsの公開により、CiNiiというプラットフォームで検索できるようになったことはユーザにとっても大きな変化だと思います。

ささくれさんが既に指摘しているように、メタデータ・フォーマットjunii2改訂などの影響により、メタデータに含まれるtextversionの記述にばらつきがあることが原因かもしれませんが、要旨ファイルのみ公開されている場合でも本文ありの「機関リポジトリ」アイコンが表示されています。できればtextversionで判断して要旨と本文で区別がつくようになればもっとよいかなと思いました。

あと、現時点では機関リポジトリに本文ファイルが登録されていないものはIRDBとのメタデータ連携対象外になっているようです。基本的にはNDL-OPACの書誌情報がベースとなっているので、旧制等を除き博士論文として検索できないものはないかもしれません。ただ、機関リポジトリメタデータが登録されるタイミングの方がNDL-OPACよりもおそらくはやいこと(たぶん)、本文ファイルが公開されていない場合に本文の内容を把握する場合に要旨があると便利、という点を考慮するとメタデータや要旨のみが機関リポジトリに登録されている場合でも連携対象にしていただけるとよいかなと思いました。

そして個人的に最もすごいと感じたのは、NDLデジタルコレクションとの連携です。NDLデジタルコレクションには、インターネット公開、図書館送信参加館対象、NDL館内限定公開の3種類ありますが、このうち、1991-2000年度に国立国会図書館に送付された博士論文をデジタル化した図書館送信対象のレコードは目次もついていてリッチなメタデータになっています。いまのところ、図書館送信参加館対象のものは「国立国会図書館デジタルコレクション限定公開」というアイコンが表示されていますが、図書館送信参加館のユーザにとっては、NDL館内限定公開とはアクセスの点からいってかなりの違いがあるので dcterms:rights で判断してアイコンも区別してもらえたらもっとよいかもしれません。

図書館送信は非常に便利なサービスですが、一般的な電子ジャーナルや電子ブックの利用とは異なり、図書館内の特定の端末で閲覧することになるので、ユーザにどうすれば利用することができるのかをつたえる必要があります。ホームページなどで広報はしていても、ユーザの検索行動の中でどのように示すかが悩むところです。もし、CiNiiの認証機能(Shibboleth認証かIPアドレス認証など)を用いて、図書館送信参加機関からのアクセスであれば、各図書館が作成している図書館送信サービスの利用案内ページへのリンクが表示されるようになるともっとわかりやすくなるかもしれません。

NDLデジタルコレクションの図書館送信対象コンテンツは博士論文以外にも、数多くの図書や雑誌論文が収録されています。今後は、CiNii BooksやCiNii ArticlesでもNDLデジタルコレクションのリンクが表示されるようになるとよいなぁと、CiNii Dissertationsをみてあらためて感じました。

HathiTrustの慶應義塾大学のコレクション

しばらく情報収集を怠っていたので,だいぶ遅れているのですが下記のTweetでHathiTrustに慶應義塾大学のコレクション8万冊が収録されたことを知りました。

Update on January 2014 Activities | HathiTrust Digital Library

”Volumes from Keio University” の説明からコレクションリストにリンクがはられています。クリックしてみると"All items (34,415)" ”Only full view (20,065)” とタブが分かれているのですが,”Only full view (20,065)” の資料でも,”Copyright: Public Domain in the United States, Google-digitized.”となっていて本文にアクセスできませんでした。

 HathiTrust Rights Database の説明によれば, 日本からもアクセス可能な"pd"と,アメリカ国内からのみアクセス可能な "pdus" とは分けられており,HathiTrustでは両者を含めて"public domain"と記述してあるので注意が必要です。

 

そこで,HathiTrustに収録されている慶應義塾大学のコレクションのうち,実際に日本からアクセス可能な資料はどのくらいあるのかHathifilesで調べてみました。

Hathifiles はHathiTrustの20項目弱ほどのメタデータをテキストタブ区切りで公開しているファイルです。今回は,hathi_full_20140301.txt.gz のデータをダウンロードして使用しました。

Hathifiles の6列目に"Source"という項目があり慶應からのデータであることを示す"JTKU"と入力されている行を抽出すると88,954行ありました。Hathifilesはvolumeなので8万冊という数字はこの数字のようです。

さて,この88,954件を3列目の"Rights"で集計した結果は下記の通りです。

  32,694  pd (public domain)

  30,661  pdus (public domain only when viewed in the US)

  13,143  und (undetermined copyright status)

  12,456  ic (in-copyright)

32,694冊は日本からもアクセスできるみたいですね(HathiTrustのRightsはかなり変動するので時間がたてばアクセス可能な冊数の増減すると思われます)。

 

"pdus"が結構多かったので1件だけとりあげて調べてみました。

 

世界三聖論 中西牛郎 著 松榮堂書店 1903

http://catalog.hathitrust.org/Record/100043024

上記のURLの末尾に".xml"を追加するとXML形式で詳細なメタデータを確認することができます。

http://catalog.hathitrust.org/Record/100043024.xml

<datafield tag="974" ind1=" " ind2=" ">

<subfield code="b">JTKU</subfield>

<subfield code="c">KEIO</subfield>

<subfield code="d">20140210</subfield>

<subfield code="s">google</subfield>

<subfield code="u">keio.10810642379</subfield>

<subfield code="z">11F@310@1</subfield>

<subfield code="r">pdus</subfield>

</datafield>

 

 subfield s に”google”とあるのでもしやと思いGoogleブックスを検索してみるとこちらでは全文アクセスが可能でした。

世界三聖論 - 中西牛郎 - Google ブックス

http://books.google.co.jp/books?id=VlyAsdO-EEYC

ちなみに,HathiTrustのsubfield u に"keio.10810642379"とありますが,"keio."を"KEIO"に変更してつなげるとGoogleブックスにもリンクをはれるようになっているみたいです。

http://books.google.com/books?vid=KEIO10810642379

 

 

 

漢籍整理のためのハンドブック―浙江省古籍普查手册

 中華古典籍保護計画の事業の一つとして中国全土で実施されている全国古籍普查のうち,浙江省で使用されているハンドブックが出版されていました*1

漢籍の知識や目録経験のない調査員向けのハンドブックというだけあって,随所に漢籍や登録システムの画像付きで説明されています。中国語がわからなくても眺めていればなんとなく雰囲気をつかむことができるのは有難いです。登録システムでは漢籍の書影も登録する必要があるので,ハンドブックにはデジタル一眼レフの使い方まで掲載されていました。

 

浙江省古籍保護中心編. 浙江省古籍普查手册. 国家图书馆出版社, 2013.7, 263p. ISBN: 9787501350742

  • 前言
  • 第一章 浙江省古籍普查概述
    • 第一節 普查範圉
    • 第二節 古籍常識
    • 第三節 普查員要求
    • 第四節 必借工具言舉隅
    • 第五節 普查流程
  • 第二章 全国古籍普查平臺功能及使用簡介
    • 第一節 應用環境
    • 第二節 使用指南
    • 第三節 平臺主要功能
  • 第三章 古籍普查著錄細則
    • 第一節 著錄原則
    • 第二節 著錄要求
    • 第三節 索書號・分類
    • 第四節 題名卷數
    • 第五節 著者
    • 第六節 卷數統計
    • 第七節 版本
    • 第八節 版式
    • 第九節 装幀・装具
    • 第十節 序跋
    • 第十一節 刻工
    • 第十二節 批校題跋
    • 第十三節 鈐印
    • 第十四節 附件・文獻來源
    • 第十五節 修復歴史
    • 第十六節 叢書及彙編書子目
  • 第四章 古籍定級
    • 第一節 古籍定級概説
    • 第二節 普查平臺定級著錄
  • 第五章 古籍定損
    • 第一節 古籍定損概説
    • 第二節 普查平臺定損著錄
  • 第六章 古籍普查書影著錄
    • 第一節 書影拍攝工具
    • 第二節 利用軟件和計算機拍攝書影
    • 第三節 古籍普查書影拍攝要求
    • 第四節 書影選取
    • 第五節 書影加工與保存
  • 第七章 古籍普查數據審核(本罩位審核)
  • 附錄1 古籍普查平臺操作流程圖
  • 附錄2 古籍定級標準
  • 附錄3 古籍特藏破損定級標準
  • 附錄4 [嘉慶]《大清一統志》縣級以上行政地區名稱表
  • 附錄5 普查登記流程全例

 

ちなみに,日本語の漢籍整理のためのハンドブックといえば,『漢籍目録―カードのとりかた』。漢籍の部位の名称や目録の用語などが日本と中国では違う場合もあるので,見比べるとおもしろいかもと思いました。

 

京都大学人文科学研究所附屬漢字情報研究センター編集. 漢籍目録 : カードのとりかた : 京都大学人文科学研究所漢籍目録カード作成要領. 朋友書店 , 2005.1, 139p.

  • 1. はじめに
  • 2. 漢籍の定義
  • 3. カード作成の目的
  • 4. 書名
  • 5. 巻数
  • 6. 撰者
  • 7. 鈔刻(出版事項)
  • 8. その他
  • 別項1. 叢書カード
  • 別項2. 坿出カード
  • 別項3. 地志カード
  • 語彙索引
  • 書名索引

カレントアウェアネス・ポータルのフィードアグリゲータ

GoogleでCAの記事を探していたら「フィードアグリゲータ」なるページを発見。カテゴリページによると設定されているのは下記の3種類みたい。

http://current.ndl.go.jp/aggregator/categories

  • レファレンス協同データベース新着事例
  • 図書館関係雑誌目次RSS
  • 海外発行の図書館関係雑誌目次RSS

記事にならなかった情報もあると思うので,館種やテーマごとのフィードアグリゲータのリンク集のようなものがCAにあると便利かもしれない。

OpenRefineを使って他のサイトからデータを取得する

Web APIを使えば他のサイトからデータを取得できるということは理解していても,実際にどうプログラミングすればよいのかわからず,自分でAPIを活用するというところまではできていませんでした。

そんなとき,たまたまOpenRefine というデータ分析・整形ソフトの存在を知って,わりと簡単にデータを取得することができたので,備忘のため記録しておきたいと思います。

試しに今回はNDLサーチのAPIを使用してNDLBibIDからJPNOを取得するということをしてみました。実際にデータを取得できたときは嬉しかったです。

1. OpenRefine をインストール

OpenRefine
http://openrefine.org/


日本語の解説動画もあります。

http://www.youtube.com/watch?v=ROW-ZNkk3E8


http://www.youtube.com/watch?v=wv4sIY6YSPk

作業2. NDLBibID のリスト読み込み

失敗すると怖いのとNDLさんに負荷がかかるので下記の5件のIDで試してみました。

  • NDLBibID.txt の作成
  • 中味はただ単にIDをならべただけのテキストファイルです。
    000000721617
    000000737950
    000000737752
    000000433328
    000008206906
  • OpenRefine を起動
  • Open ⇒ 参照 ⇒ NDLBibID.txt ⇒ Next(※Fixed-width field text files を選択して, Parse cell text into numbers, dates のチェックをはずさいないと,頭の0が消えてしまいます…。)
  • Creat Project ボタンをクリック

3. NDLサーチの API を使用して NDLBibID から RDF を取得する

  • 読み込んだNDLBibIDの列名の▼をクリック
  • Edit column ⇒ Add column by fetching URLs
  • Expression のボックスに下記の式?をコピペ
    "http://iss.ndl.go.jp/books/R100000002-I" + value + "-00.rdf"
  • New column name に適当な名前をつける
  • Throttle delay を 500 に修正
  • OK ボタン
  • NDLサーチの API を使用して NDLBibID から RDF を取得

4. RDF から JPNO を抽出

  • 取得した RDF 列の▼をクリック ⇒  Edit Cells ⇒ Transform
  • 下記の式? をコピペ                     
    if(contains(value, "http:\/\/id.ndl.go.jp\/jpno\/"),substring(value, indexOf(value, "http:\/\/id.ndl.go.jp\/jpno\/")+25, indexOf(value, "http:\/\/id.ndl.go.jp\/jpno\/")+33),"NO JPNO")
  • OK
  • JPNO があれば表示,なければNO JPNO と表示される

課題

  • 一度に何件ぐらい変換できるのか不明…(あまり多いとNDLさんにも負荷がかかるので注意すること)
  • 慣れた人ならもっとスマートなスクリプトをかけるような…特に Transform のところはもっと綺麗になるのではないだろうか。

ドイツ語圏の古典籍データベース利用事情とベルリン国立図書館のデジタル化プロジェクト(〈文化資源情報を考える〉 日本古典籍デジタル化と活用―その行方をめぐって) Part2

立命館大学アート・リサーチセンターで開催された「立命館大学大学院 文学研究科 行動文化情報学専攻 「文化情報学専修」新設記念連続講演会 第2回」のPart2はベルリン国立図書館東アジア部日本担当司書のクリスティアン・デュンケルさんの講演メモっです。ちょうど天理古典籍ワークショップ参加のために来日されていたのにあわせてこの講演会の場が設けられたということでした。

 


 

ドイツ語圏の古典籍データベース利用事情とベルリン国立図書館のデジタル化プロジェクト

立命館大学大学院文学研究科行動文化情報学専攻「文化情報学専修」設置準備企画連続講演会 第2回〈文化資源情報を考える〉日本古典籍デジタル化と活用―その行方をめぐって)
講師: クリスティアン・デュンケル 氏(ベルリン国立図書館東アジア部日本担当司書)
日時: 2013年6月28日(金) 18:00-19:30
場所: 立命館大学アート・リサーチセンター 多目的ルーム

 

ドイツ語圏の古典籍データベース利用事情
  • 18大学(ベルリン,ハンブルグなど15,スイス2,オーストリア1)で日本研究がおこなわれている
  • 教授,准教授 45人(スタッフ200人あまり)
  • そのうち古典籍にふれているのは15~20人ぐらい。

 

データベースの利用者
  • 研究者(大学院生レベルになると利用するようになる学生もいるが多くはない)
  • 博物館学芸員(展示会の準備などでよく利用)
  • 司書
    • 寄贈された和本がどのような内容かを調べる際に利用
    • 早稲田大学,立命館大学の古典籍データベースを目録をとるときなどによく参照している
    • 序文や跋文にくずし字でかかれた人名などを調べることも

     

 ベルリン国立図書館東アジア部の古典籍デジタル化プロジェクト

ベルリン国立図書館について youtube 動画で紹介


Für Forschung und Kultur - YouTube (Staatsbibliothek zu Berlin)

ベルリン国立図書館の特長あるコレクション

  • 新聞コレクション(世界中の新聞を収集)
  • 音楽関係資料(ベートーベン第九の自筆譜資料も所蔵)

東アジア部のスタッフ

  • 総勢 21人(地域別に活動)
  • 中国 7人
  • 日本 6.5人
  • 韓国 2人
  • 中央アジア(モンゴル等) 2人
  • 秘書,作業員等

東アジア部の古典籍資料

  • 1912年までに欧米語で出版された東アジア関係資料 4,000件(製本雑誌 1,000件含む)
  • チベット古典籍 400件
  • 満州古典籍 200件
  • 中国古典籍 600件
  • 日本古典籍 500件(2,800冊あまり)

デジタル化プロジェクト SSG 6,25 Digital

  • ドイツ研究振興協会(Deutsche Forschungsgemeinschaft: DFG)から資金提供を受けている(スキャナー2台と人件費)
  • デジタル化は館内のデジタル化センターでおこなう。外注はしていない。
  • プロジェクトは5年間で2014年4月に終了予定
デジタル化された古典籍へのアクセス方法

1. ベルリン国立図書館デジタルコレクションサイト(Digitalisierte Sammlungen der SB) http://digital.staatsbibliothek-berlin.de/dms/

  • 日本語でキーワード検索が可能
  • 資料タイプと主題で絞り込み可能なブラウジングメニュー
  • 東洋関係の古典籍は「Fächer」で「Ostasiatica」を選択すると参照可能
  • 詳細画面の左側には内容によるナビゲーション,右側には画像を表示
  • 洋装本されてしまった古典籍は90度以上開くことができず見開きでの撮影ができなかっため片面ずつの画像
  • 1ページ,1冊,全巻などの単位でPDFでダウンロードすることも可能。容量は大きめ
  • ドイツ語画面しかない
  • 80年代に出版された目録があるが,あまり知られておらず,デジタル公開してから世界中から問い合わせがくるようになった

2. ベルリン国立図書館東アジア部のOPAC http://gso.gbv.de/DB=1.97/

  • 日本語でキーワード検索可能
  • [SLW] Schlagwörter ([SUH] subject heading) を選択して「貴重書」で検索すると日本の古典籍がすべてヒットする
  • バイナリアイコンがデジタル化画像,ブックアイコンが紙資料
  • Elektron. Referenz (Electron. Reference) を選択するとデジタル化画像へ

3. CrossAsia http://crossasia.org/

  • 東アジア研究のためのポータルサイト
  • Digitale Sammlungen (Digital Collections) のサイトから「5. SSG 6,25 Digital」を選択するとデジタル画像一覧へ

 


 

感想

ドイツ語圏の古典籍データベースについては,あまり知らなかったので特にデジタル化画像へのアクセス方法について日本語で具体的に説明していただいて勉強になりました。また詳細画面で内容による目次がついているのには驚きました。日本でも古典籍アーカイブでも目次レベルまで対応しているものは少ないのではないでしょうか。今後は日本以外で構築されている日本の古典籍のデータベースにも注目していく必要がありそうですね。

 

国立国会図書館月報とEAJRS 2010 Conference Genoaでの発表資料でもベルリン国立書館東アジア部のデジタル化プロジェクトについて紹介されていました。

ウルズラ・フラッへ. ベルリン国立図書館について―東アジアコレクションを中心に. 国立国会図書館月報. 2013, 625, p.24-26. http://dl.ndl.go.jp/view/download/digidepo_8197816_po_geppo1304.pdf, (参照 2013-06-29).

FLACHE, Ursula. “The Digitization of the Berlin State Library's Collection of Japanese Rare Books”.  European Association of Japanese Resource Specialists 2010 Conference. Genoa, Italy, 2010-09-01/04. http://eajrs.net/files-eajrs/Ursula_EAJRS_2010_Digital.pdf, (accessed 2013-06-29).

 

古典籍総合データベース―デジタルアーカイブの意義と将来(〈文化資源情報を考える〉 日本古典籍デジタル化と活用―その行方をめぐって) Part1

立命館大学アート・リサーチセンターで開催された「立命館大学大学院 文学研究科 行動文化情報学専攻 「文化情報学専修」新設記念連続講演会 第2回」に行ってきました。

第1回は行きそびれたのですが,

先行する早稲田大学古典籍総合データベースを担当されている藤原秀之氏を迎え、関西地区では初めてのプロジェクト紹介をお願いした。

というお知らせを見て出かけてきました。

 


 

古典籍総合データベース―デジタルアーカイブの意義と将来

立命館大学大学院文学研究科行動文化情報学専攻「文化情報学専修」設置準備企画連続講演会 第2回〈文化資源情報を考える〉日本古典籍デジタル化と活用―その行方をめぐって)
講師: 藤原 秀之 氏(早稲田大学図書館特別資料室 調査役)
日時: 2013年6月28日(金) 18:00-19:30
場所: 立命館大学アート・リサーチセンター 多目的ルーム

 

資料をめぐる人々の思いと図書館(資料館等)の役割
  • 今の利用者の思い : すぐに見たい・資料に触れたい→資料についての情報提供と公開
  • 未来の利用者の思い : いつまでも現状のままであってほしい→資料の保存と管理

一見,相反する思いにどう応えるか

→さまざまな原本代替資料による提供(影印・翻刻・マイクロ資料・電子媒体)

→しかし,所蔵する古典籍すべてを対象とすることは難しい

 

早稲田大学図書館の「古典籍総合データベース(古典籍総合DB)」
  • 早稲田大学図書館 : 1882年創立(130年の歴史と全学で550万冊の蔵書)
  • 図書館が所蔵するすべての古典籍を対象。従来の原本代替資料にはない質と量。原簿で約30万点ほど確認。
  • 古典籍を「近現代に刊行され一般に流布した(している)書籍以外の資料全般の総称」と考えることで広範囲な資料を対象とする。特定のコレクションや分野に限定しない。
  • 目録は図書館で作成するレベルのものでそれほど細かくはないが,まず資料の所在を明らかにすることが重要

→インターネットを通じて広く世界に開かれたデータベースは,より多くの人々に原本の存在と,その詳細を伝えることができる有用な手段

 

データベース作成の流れ

出庫→書誌作成→検品→画像撮影→検品→公開(WINE・古典籍総合DB)

書誌作成・画像撮影

  • 作業は原物によることが原則
  • 冊子目録そのままではなくDB作成のために新たに目録をとりなおす
  • WINE収録の図書資料と規則は異なるが,一書誌一所蔵(記述対象資料毎に別書誌レコードを作成)
  • すべての作業を図書館内でおこなう(館外に持出さない)
  • 担当業者: 書誌作成=紀伊國屋書店,画像撮影=東京都板橋福祉工場

公開

  • WINE(OPAC)にリンク情報を追加
  • 古典籍総合データベース用に抽出
  • 古典籍総合データベースに登録されることで学外検索エンジン(Googleなど)にクロールされる
  • 世界中から検索可能に

 

古典籍総合DBの特長
  1. すべての分野を網羅的に収録: 未発見,未調査の資料との出会い
  2. 資料全巻を精細画像で収録: 実物に迫る迫力・原本代替資料としての役割
  3. 外部からのアクセス制限なし: 見たい,知りたい資料をネット上で「閲覧」

世界中のどこからでも全巻の精細画像をダウンロード,プリントアウト可能(掲載等は別途手続き必要)

 

これまでの成果: 特色あるコレクションの紹介

特色あるコレクション

世界各地からの反響

  • 月間100万件以上のアクセス(2006年: 23万件→2013年: 170万)
  • 出版,放映への提供も年間約700件を数える(2005年: 179件→2011年: 703件)
  • 古典籍総合データベースが公開される以前は,掲載依頼などに対応するためには原物を確認してもらう必要があったが,現在はDBからダウンロードして利用してもらえるようになった

 

今後の展開

従来のデータベース=データ蓄積型: 所蔵資料を次々に電子化
今後のデータベース= 活用・蓄積複合型: 蓄積したデータをより使いやすくする

  • 関連情報の付加: 既存の研究成果(論文・翻刻)とのリンク
  • 研究成果発表の場としての機能: 収載資料を用いた研究促進(古典籍e-journal創刊?, 機関リポジトリへのリンクなど様々な可能性)

 

まとめ

2005年4月からはじまった古典籍総合データベース構築作業も8年を経て新しいデータベースのあり方を模索している。これまでのようにデータを蓄積し,公開するだけではなく,より積極的に情報を提供し,活用できるような仕組みが求められており,他機関の動向も注視しながら検討を進めていきたい。

 


 

感想

お話をうかがって,約30万点の古典籍すべてを対象して網羅的かつ継続的にプロジェクトとしてデジタル化・データベース化されているという点がやはりすごいと思いました。古典籍を所蔵する図書館として,今のユーザだけでなく将来のユーザのためにデータベースを構築するという強い思いが印象に残りました。

ところで,古典籍総合データベースから論文や解題などの研究成果へのリンクを作成してデータベースのさらなる活用をはかるということでしたが,掲載許可申請をシステム化してそれと古典籍総合データベースとを連携させると効率的に関連情報の収集・公開の仕組みができるようになるかもしれないと感じました。

 

なお,古典籍総合データベースについては早稲田大学図書館紀要にも詳しく紹介されていました。

松下眞也. 古典籍総合データベースの構築と展開. 早稲田大学図書館紀要. 2006, 53, p.1-24.  http://www.wul.waseda.ac.jp/Libraries/kiyou/53/pdf/09-kotenseki.pdf, (参照 2013-06-29).