2015年07月04日

凸版印刷は、江戸期以前のくずし字で記されている古典籍の文字を判別し、テキストデータ化するOCR(光学文字認識)技術を開発した。同技術による古典籍のテキストデータ化サービスを2015年夏から試験的に開始する予定。

 
この技術は、江戸期以前の書物に使われているくずし字を自動で判読し、テキストデータ化することを可能にするもの。凸版印刷は、2013年からさまざまな書籍を高い精度でテキストデータ化する「高精度全文テキスト化サービス」を提供している。このサービスで確立したテキストデータ化技術のシステム基盤をベースに、公立学校法人公立はこだて未来大学(北海道函館市、中島秀之学長)の寺沢憲吾准教授が開発した「文書画像検索システム」と組み合わせることで、くずし字で記されている古典籍のOCR処理を実現した。

 
同技術開発に際して、14年度に実施した原理検証実験では、くずし字で記されている書物を80%以上の精度でOCR処理することに成功し、効率のよいテキストデータ化が可能であることを実証した。原理検証実験を行う上で、同社は、大学共同利用機関法人人間文化研究機構国文学研究資料館(国文研、東京都立川市、今西祐一郎館長)の古典籍共同研究事業センターとともに課題整理と検討を重ね、本技術の検証で使用する古典籍の選定に関する助言、および所蔵する古典籍の画像とテキスト情報の提供を受けている。

 

近年、大規模災害による資料アーカイブの必要性の見直しや、専門家の減少と資料の経年劣化による文化継承の危機的状況から、歴史的資料のデジタル化やテキストデータ化が求められている。しかし、総数100万点以上ともいわれる江戸期以前のくずし字で記されている古典籍は、専門家による判読が必要とされ、テキストデータ化が遅れていた。

 

日本文学研究者・東京大学大学院教授ロバート キャンベル氏の話
私たちは明治以前の日本を知るため、ひたすら文字を読む。しかし皮肉なことに、その文字は、近代150年の達成と引き換えに、まったく読めなくなってしまった。活字にだけ頼る人は、日本のことを、ほんの一部しか知ることができない。
気づきにくいことだが、欧米諸国とちがって、日本人は自らの歴史風土を自在に行き来する能力を失った。それ自体、世界史のなかでも特記すべきことだが、しかしここで新たな技術によって、豊穣な風土がふたたび開かれるかもしれない。驚くべきその可能性に賭けたいと思う。いままで読めなかった数百年分の智恵と笑いと涙こそ、世界遺産だと信じるからだ。

 

 

国文学研究資料館館長・今西祐一郎氏の話
古典籍は先人たちの知の宝庫だ。それを現代に活かすためにはまず文字が読めなければならないが、そこにはくずし字という大きな壁があった。本取り組みにより、時空を越えた「知」のアーカイブ化が革新的に進むことを確信している。本技術が、国文研が推進する「日本語の歴史的典籍の国際共同研究ネットワーク構築計画」で構築される「日本語の歴史的典籍データベース」に寄与することを期待している。

 

 

タグ:

技術・製品-関連の記事

PAGE TOP