TOPPAN、"くずし字"解読応用で中世ギリシャ語を読めるAI-OCR
TOPPANホールディングスは、一般には読み取りが困難とされる中世ギリシャ語の解読が可能なAI-OCRエンジンを開発した。
古い文書には、歴史的に貴重な史実や地域文化に関する多様な情報が記録されている一方で、その多くは現代人にとって判読が難しい手書き文字で書かれている。
TOPPANはこれまで、日本の歴史的資料の研究を支援するため、現代人には判読困難な「くずし字」で書かれた古文書の解読に関する取り組みを行なっており、2015年には、AI画像認識技術を活用して「くずし字」を解読する「くずし字OCR」の研究開発を開始している。今回の取り組みでは、こうした知見を活用することで、中世ギリシャ語の解読を可能にした。
中世ギリシャ語は、時代や書き手によって字形が異なるほか、単語の一部が省略される場合や、現代とは異なる綴りが用いられるなど、表記が一定ではないという特徴がある。また、単語と単語の間に区切りを設けずに文章が書かれていることもあり、専門知識のない現代人には読み取りが困難とされている。AI-OCRエンジンでは、100万字規模の字形や行のデータベースを学習データとして用意することで、中世ギリシャ語文字の解読を実現している。
ヴァチカン教皇庁図書館が保有する約5,000点のギリシャ語写本のうち、既に付加情報を加えた50点(IIIF画像約400枚)と翻刻テキストをAIの学習データとして活用。写本画像と翻刻テキストの高精度な学習に加え、専門家による目視確認も組み合わせることで、解読精度の向上と品質担保を両立した。これにより、膨大なギリシャ語写本コレクションのテキストデータ化を加速させるとともに、AI-OCRエンジンにおける中世ギリシャ語文字の認識精度95%以上の達成を目指す。
なお、今回の成果は、4月25日から印刷博物館で開催される企画展「名著誕生展 ヴァチカン教皇庁図書館III+」でデモンストレーションを行なう予定。
Vocabulary
General
Proper noun
JLPT N2
JLPT N1
| # | 言葉 | 意味 |
|---|---|---|
| 7 | ギリシャ語 | ギリシャご (ギリシャ語) : Greek (language) |
| 6 | 解読 | かいどく (解読) : deciphering; decoding |
| 5 | 中世 | ちゅうせい (中世) : Middle Ages (in Japan esp. the Kamakura and Muromachi periods); medieval times; mediaeval times |
| 3 | 困難 | こんなん (困難) : 1. difficulty; hardship; trouble; distress 2. infeasibility; inability (to carry out) |
| 3 | 現代人 | げんだいじん (現代人) : modern person; people of today |
| 3 | 書く | かく (書く) : 1. to write; to compose; to pen 2. to draw; to paint |
| 3 | くずし字 | くずしじ (くずし字) : character written in a cursive style |
| 3 | 活用 | かつよう (活用) : 1. practical use; application 2. conjugation; inflection |
| 3 | 単語 | たんご (単語) : word; vocabulary; (usually) single-character word |
| 3 | 学習 | がくしゅう (学習) : study; learning; tutorial |
| 3 | 写本 | しゃほん (写本) : manuscript (book); written copy of a book; codex; transcription; copying |
| 3 | 精度 | せいど (精度) : precision; accuracy |
| 2 | 読み取り | よみとり (読み取り) : reading (e.g. by a scanner) |
| 2 | 可能 | かのう (可能) : possible; potential; practicable; feasible |
| 2 | 歴史的 | れきしてき (歴史的) : historic; historical; traditional |
| 2 | 関する | かんする (関する) : to concern; to be related |
| 2 | 情報 | じょうほう (情報) : 1. information; news; intelligence; advices 2. information; data contained in characters, signals, code, etc. |
| 2 | 判読 | はんどく (判読) : decipherment; interpretation; making out; identification |
| 2 | 取り組み | とりくみ (取り組み) : 1. bout (in sports, etc.); match 2. effort; initiative; dealing with; grappling with; wrestling with |
| 2 | 行なう | おこなう (行う) : to perform; to do; to conduct oneself; to carry out |
| 2 | 異なる | ことなる (異なる) : to differ; to vary; to disagree |
| 2 | 文字 | もじ (文字) : 1. letter (of alphabet); character 2. writing |
| 2 | 教皇庁 | きょうこうちょう (教皇庁) : Curia |
| 2 | 画像 | がぞう (画像) : image; picture; portrait |
| 2 | 翻刻 | ほんこく (翻刻) : reprinting (of a book) |
| 1 | 一般 | いっぱん (一般) : 1. general; universal 2. ordinary; average; common; non-celebrity |
| 1 | 開発 | かいはつ (開発) : development; exploitation |
| 1 | 文書 | ぶんしょ (文書) : 1. document; writing; letter; papers; notes; records; archives 2. document addressed to someone |
| 1 | 貴重 | きちょう (貴重) : precious; valuable |
| 1 | 史実 | しじつ (史実) : historical fact |
| 1 | 多様 | たよう (多様) : diverse; varied |
| 1 | 記録 | きろく (記録) : 1. record; minutes; document 2. record (e.g. in sports); results; score |
| 1 | 手書き文字 | てがきもじ (手書き文字) : handwritten letter; handwritten character |
| 1 | 資料 | しりょう (資料) : materials; data; document |
| 1 | 支援 | しえん (支援) : support; backing; aid; assistance |
| 1 | 古文書 | こもんじょ (古文書) : 1. historical document; archives; old manuscript; paleograph 2. pre-Meiji era document addressed to someone in particular |
| 1 | 研究開発 | けんきゅうかいはつ (研究開発) : research and development; R&D |
| 1 | 開始 | かいし (開始) : start; commencement; beginning; initiation |
| 1 | 知見 | ちけん (知見) : expertise; experience; knowledge |
| 1 | 書き手 | かきて (書き手) : 1. writer; painter; drawer; calligrapher 2. skilful writer; skilful painter |
| 1 | 一部 | いちぶ (一部) : 1. one part; one portion; one section; some 2. one copy (e.g. of a document) |
| 1 | 省略 | しょうりゃく (省略) : omission; abbreviation; abridgment; abridgement |
| 1 | 現代 | げんだい (現代) : nowadays; modern era; modern times; present-day |
| 1 | 綴り | つづり (綴り) : 1. spelling 2. orthography |
| 1 | 用いる | もちいる (用いる) : to use; to make use of; to utilize; to utilise |
| 1 | 表記 | ひょうき (表記) : 1. expression in writing; written representation; notation; transcription; orthography 2. writing on the surface (e.g. an address on an envelope); inscribing on the face |
| 1 | 一定 | いってい (一定) : fixed; settled; constant; definite; uniform; regularized; regularised; defined; standardized; standardised; certain; prescribed |
| 1 | 特徴 | とくちょう (特徴) : feature; trait; characteristic; peculiarity; distinction |
| 1 | 区切り | くぎり (区切り) : 1. punctuation; pause; juncture 2. end; (place to) stop |
| 1 | 設ける | もうける (設ける) : 1. to prepare; to provide 2. to set up; to establish; to organize; to lay down (rules); to make (an excuse) |
| 1 | 専門知識 | せんもんちしき (専門知識) : expertise; special knowledge; technical knowledge; expert knowledge |
| 1 | 規模 | きぼ (規模) : scale; scope; plan; structure |
| 1 | 実現 | じつげん (実現) : implementation (e.g. of a system); materialization; materialisation; realization; realisation; actualization; actualisation |
| 1 | 保有 | ほゆう (保有) : possession; retention; maintenance |
| 1 | 既に | すでに (既に) : already; too late |
| 1 | 付加 | ふか (付加) : addition; annexation; appendage |
| 1 | 専門家 | せんもんか (専門家) : specialist; expert; professional; authority; pundit |
| 1 | 目視 | もくし (目視) : eyesight; seeing |
| 1 | 確認 | かくにん (確認) : confirmation; verification; validation; review; check; affirmation; identification |
| 1 | 組み合わせる | くみあわせる (組み合わせる) : to join together; to combine; to join up |
| 1 | 向上 | こうじょう (向上) : elevation; rise; improvement; advancement; progress |
| 1 | 品質 | ひんしつ (品質) : quality (of a product or a service) |
| 1 | 担保 | たんぽ (担保) : security; guarantee; collateral (e.g. mortgage) |
| 1 | 両立 | りょうりつ (両立) : compatibility; coexistence; standing together |
| 1 | 膨大 | ぼうだい (膨大) : 1. huge; vast; enormous; colossal; extensive; large 2. swelling; expansion |
| 1 | データ化 | データか (データ化) : digitization; digitalization |
| 1 | 加速 | かそく (加速) : acceleration; speeding up |
| 1 | 認識 | にんしき (認識) : recognition; awareness; perception; understanding; knowledge; cognition; cognizance; cognisance |
| 1 | 達成 | たっせい (達成) : achievement; attainment; accomplishment; realization |
| 1 | 目指す | めざす (目指す) : 1. to aim at (for, to do, to become); to try for; to have an eye on 2. to go toward; to head for |
| 1 | なお | なお (尚) : 1. still; yet 2. more; still more; greater; further |
| 1 | 成果 | せいか (成果) : (good) result; outcome; fruits (of one's labors); product; accomplishment |
| 1 | 印刷 | いんさつ (印刷) : printing |
| 1 | 博物館 | はくぶつかん (博物館) : museum |
| 1 | 開催 | かいさい (開催) : holding (a conference, exhibition, etc.); opening; hosting (e.g. the Olympics) |
| 1 | 企画展 | きかくてん (企画展) : special exhibition; themed exhibition; temporary exhibition |
| 1 | 名著 | めいちょ (名著) : famous book; masterpiece (literary work) |
| 1 | 誕生 | たんじょう (誕生) : birth; creation; formation |
| 1 | 展 | てん (展) : exhibition; exhibit |