IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日並 遼太の特許一覧 ▶ 石渡 祥之佑の特許一覧

特許7333526漫画の機械翻訳装置、漫画の対訳データベース生成装置、漫画の機械翻訳方法およびプログラム
<>
  • 特許-漫画の機械翻訳装置、漫画の対訳データベース生成装置、漫画の機械翻訳方法およびプログラム 図1
  • 特許-漫画の機械翻訳装置、漫画の対訳データベース生成装置、漫画の機械翻訳方法およびプログラム 図2
  • 特許-漫画の機械翻訳装置、漫画の対訳データベース生成装置、漫画の機械翻訳方法およびプログラム 図3
  • 特許-漫画の機械翻訳装置、漫画の対訳データベース生成装置、漫画の機械翻訳方法およびプログラム 図4
  • 特許-漫画の機械翻訳装置、漫画の対訳データベース生成装置、漫画の機械翻訳方法およびプログラム 図5
  • 特許-漫画の機械翻訳装置、漫画の対訳データベース生成装置、漫画の機械翻訳方法およびプログラム 図6
  • 特許-漫画の機械翻訳装置、漫画の対訳データベース生成装置、漫画の機械翻訳方法およびプログラム 図7
  • 特許-漫画の機械翻訳装置、漫画の対訳データベース生成装置、漫画の機械翻訳方法およびプログラム 図8
  • 特許-漫画の機械翻訳装置、漫画の対訳データベース生成装置、漫画の機械翻訳方法およびプログラム 図9
  • 特許-漫画の機械翻訳装置、漫画の対訳データベース生成装置、漫画の機械翻訳方法およびプログラム 図10
  • 特許-漫画の機械翻訳装置、漫画の対訳データベース生成装置、漫画の機械翻訳方法およびプログラム 図11
  • 特許-漫画の機械翻訳装置、漫画の対訳データベース生成装置、漫画の機械翻訳方法およびプログラム 図12
  • 特許-漫画の機械翻訳装置、漫画の対訳データベース生成装置、漫画の機械翻訳方法およびプログラム 図13
  • 特許-漫画の機械翻訳装置、漫画の対訳データベース生成装置、漫画の機械翻訳方法およびプログラム 図14
  • 特許-漫画の機械翻訳装置、漫画の対訳データベース生成装置、漫画の機械翻訳方法およびプログラム 図15
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-08-17
(45)【発行日】2023-08-25
(54)【発明の名称】漫画の機械翻訳装置、漫画の対訳データベース生成装置、漫画の機械翻訳方法およびプログラム
(51)【国際特許分類】
   G06F 40/58 20200101AFI20230818BHJP
   G06V 30/14 20220101ALI20230818BHJP
   G06V 30/194 20220101ALI20230818BHJP
   G06V 30/414 20220101ALI20230818BHJP
【FI】
G06F40/58
G06V30/14 340J
G06V30/194
G06V30/414
【請求項の数】 9
(21)【出願番号】P 2021541830
(86)(22)【出願日】2019-08-27
(86)【国際出願番号】 JP2019033444
(87)【国際公開番号】W WO2021038708
(87)【国際公開日】2021-03-04
【審査請求日】2021-11-08
【新規性喪失の例外の表示】特許法第30条第2項適用 2018年8月28日、Innovative Technologies 2018 採択技術発表 https://www.dcaj.or.jp/news/2018/08/innovative-technologies-2018.html
(73)【特許権者】
【識別番号】521488897
【氏名又は名称】日並 遼太
(73)【特許権者】
【識別番号】521488901
【氏名又は名称】石渡 祥之佑
(74)【代理人】
【識別番号】100180415
【弁理士】
【氏名又は名称】荒井 滋人
(74)【代理人】
【識別番号】100168572
【弁理士】
【氏名又は名称】後藤 仁志
(72)【発明者】
【氏名】日並 遼太
(72)【発明者】
【氏名】石渡 祥之佑
【審査官】成瀬 博之
(56)【参考文献】
【文献】特表2018-529133(JP,A)
【文献】特開2019-139629(JP,A)
【文献】特開平07-271916(JP,A)
【文献】特開2003-022269(JP,A)
【文献】村上聡一朗 他4名 SOUICHIROU MURAKAMI,機械翻訳における利用ドメインの自動推定,NTT DOCOMOテクニカル・ジャーナル[online],一般社団法人 電気通信協会,2019年07月,Vol.27 No.2,13-18頁
【文献】出羽達也,対訳文書から自動抽出した用語対訳による機械翻訳の訳語精度向上,電子情報通信学会技術研究報告,日本,社団法人電子情報通信学会,2001年07月16日,Vol.101 No.189,1-7頁
(58)【調査した分野】(Int.Cl.,DB名)
G06F 40/20-40/58
G06V 30/00-30/424
(57)【特許請求の範囲】
【請求項1】
第1自然言語を用いて作成された漫画を構成する第1自然言語画像より、文字領域を検出する文字領域検出部と、
前記文字領域より、前記第1自然言語の文字情報を推定する文字情報推定部と、
前記第1自然言語の文字情報を、対訳データベースを用いたニューラル機械翻訳により第2自然言語の文字情報に翻訳する機械翻訳部と、を備え、
前記対訳データベースは、参照漫画の第1自然言語参照画像に含まれる第1自然言語文字領域と前記参照漫画の第2自然言語参照画像に含まれ、第1自然言語文字領域に対応する第2自然言語文字領域とを検出し、前記第1自然言語文字領域に存在する第1自然言語文字情報および第2自然言語文字領域に存在する第2自然言語文字情報を抽出することにより自動生成した文の対訳情報を含み、
前記文字情報推定部は、学習済み文字認識モデルを用いて前記文字領域より、前記文字情報を推定し、
前記学習済み文字認識モデルは、複数種のフォントについての前記第1自然言語の複数のフォント画像と、前記フォント画像に変形、傾きおよび/またはノイズを付与した画像とを含む教師データを用いてResnetイメージ認識モジュールにより機械学習することにより、生成されたものである、漫画の機械翻訳装置。
【請求項2】
前記第1自然言語文字領域からの第1自然言語文字情報の抽出は、学習済み文字認識モデルを用いて前記第1自然言語文字情報を推定することにより行われ、
前記学習済み文字認識モデルは、複数種のフォントについての前記第1自然言語の複数のフォント画像と、前記フォント画像に変形、傾きおよび/またはノイズを付与した画像とを含む教師データを用いて機械学習することにより、生成されたものである、請求項1に記載の漫画の機械翻訳装置。
【請求項3】
前記第2自然言語文字領域からの第2自然言語文字情報の抽出は、学習済み第2自然言語文字認識モデルを用いて前記第2自然言語文字情報を推定することにより行われ、
前記学習済み第2自然言語文字認識モデルは、複数種のフォントについての前記第2自然言語の複数の第2自然言語フォント画像と、当該第2自然言語フォント画像に変形、傾きおよび/またはノイズを付与した画像とを含む教師データを用いてResnetイメージ認識モジュールにより機械学習することにより、生成されたものである、請求項1または2に記載の漫画の機械翻訳装置。
【請求項4】
前記第1自然言語が日本語である、請求項1~3のいずれか一項に記載の漫画の機械翻訳装置。
【請求項5】
さらに、前記機械翻訳部により翻訳された前記第2自然言語の文字情報を、前記第1自然言語画像に画像として付与し、第2自然言語画像を生成する、画像生成部を備える、請求項1~4のいずれか一項に記載の漫画の機械翻訳装置。
【請求項6】
参照漫画の第1自然言語参照画像に含まれる第1自然言語文字領域と前記参照漫画の第2自然言語参照画像に含まれ、第1自然言語文字領域に対応する第2自然言語文字領域とを検出する文字領域検出部と、
前記第1自然言語文字領域に存在する第1自然言語文字情報および第2自然言語文字領域に存在する第2自然言語文字情報を抽出する対訳情報抽出部と、
前記第1自然言語文字情報の少なくとも一部と、前記第2自然言語文字情報の少なくとも一部とを、文の対訳情報として格納する記憶部とを有し、
前記第1自然言語文字領域から第1自然言語文字情報の抽出は、学習済み文字認識モデルを用いて前記第1自然言語文字情報を推定することにより行われ、
前記学習済み文字認識モデルは、複数種のフォントについての第1自然言語の複数のフォント画像と、前記フォント画像に変形、傾きおよび/またはノイズを付与した画像とを含む教師データを用いてResnetイメージ認識モジュールにより機械学習することにより、生成されたものである、漫画の対訳データベース生成装置。
【請求項7】
前記第2自然言語文字領域からの第2自然言語文字情報の抽出は、学習済み第2自然言語文字認識モデルを用いて前記第2自然言語文字情報を推定することにより行われ、
前記学習済み第2自然言語文字認識モデルは、複数種のフォントについての第2自然言語の複数の第2自然言語フォント画像と、当該第2自然言語フォント画像に変形、傾きおよび/またはノイズを付与した画像とを含む教師データを用いてResnetイメージ認識モジュールにより機械学習することにより、生成されたものである、請求項6に記載の漫画の対訳データベース生成装置。
【請求項8】
プロセッサにより、
第1自然言語を用いて作成された漫画を構成する第1自然言語画像より、文字領域を検出することと、
前記文字領域より、前記第1自然言語の文字情報を推定することと、および
前記第1自然言語の文字情報を、対訳データベースを用いたニューラル機械翻訳により第2自然言語の文字情報に翻訳することと、を実行し、
前記対訳データベースは、参照漫画の第1自然言語参照画像に含まれる第1自然言語文字領域と前記参照漫画の第2自然言語参照画像に含まれ、第1自然言語文字領域に対応する第2自然言語文字領域とを検出し、前記第1自然言語文字領域に存在する第1自然言語文字情報および第2自然言語文字領域に存在する第2自然言語文字情報を抽出することにより自動生成した文の対訳情報を含み、
前記第1自然言語文字領域からの第1自然言語文字情報の抽出は、学習済み文字認識モデルを用いて前記第1自然言語文字情報を推定することにより行われ、
前記学習済み文字認識モデルは、複数種のフォントについての前記第1自然言語の複数のフォント画像と、前記フォント画像に変形、傾きおよび/またはノイズを付与した画像とを含む教師データを用いてResnetイメージ認識モジュールにより機械学習することにより、生成されたものである、漫画の機械翻訳方法。
【請求項9】
コンピュータを、
第1自然言語を用いて作成された漫画を構成する第1自然言語画像より、文字領域を検出する文字領域検出部と、
前記文字領域より、前記第1自然言語の文字情報を推定する文字情報推定部と、
前記第1自然言語の文字情報を、対訳データベースを用いたニューラル機械翻訳により第2自然言語の文字情報に翻訳する機械翻訳部と、を備え、
前記対訳データベースは、参照漫画の第1自然言語参照画像に含まれる第1自然言語文字領域と前記参照漫画の第2自然言語参照画像に含まれ、第1自然言語文字領域に対応する第2自然言語文字領域とを検出し、前記第1自然言語文字領域に存在する第1自然言語文字情報および第2自然言語文字領域に存在する第2自然言語文字情報を抽出することにより自動生成した文の対訳情報を含み、
前記第1自然言語文字領域からの第1自然言語文字情報の抽出は、学習済み文字認識モデルを用いて前記第1自然言語文字情報を推定することにより行われ、
前記学習済み文字認識モデルは、複数種のフォントについての前記第1自然言語の複数のフォント画像と、前記フォント画像に変形、傾きおよび/またはノイズを付与した画像とを含む教師データを用いてResnetイメージ認識モジュールにより機械学習することにより、生成されたものである、漫画の機械翻訳装置として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、漫画の機械翻訳装置、漫画の対訳データベース生成装置、漫画の機械翻訳方法およびプログラムに関する。
【背景技術】
【0002】
近年、コンピュータの処理能力の向上に伴い、ある自然言語で記載された文章を他の自然言語の文章に機械翻訳する方法が注目されており、種々の機械翻訳方法、装置が提案されている(例えば、特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2019-96303号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
ところで、現在、漫画の翻訳は、翻訳者の手によって行われている。翻訳者による翻訳では、漫画のストーリー等の状況に応じた柔軟な翻訳が行われるため、精度の高い翻訳が可能である。一方で、翻訳者による翻訳は、比較的費用が高いため、翻訳して他の地域、国において出版しても、著作権者や出版社が十分な利益を得られない場合がある。また、翻訳費用が高いことから、海外の出版社が翻訳権・出版権の買取を拒否し、正規の翻訳版が海外において出版されない場合もある。翻訳者による翻訳は、翻訳作業のために比較的長い時間を要する。したがって、正規の著作権者が漫画の翻訳を行って、他の地域、国において出版する前、あるいは正規の翻訳版が出版できずにいる間に、質の悪い海賊版が市場において売買されていることもあり得る。
【0005】
一方で、機械翻訳を用いた場合、比較的安価かつ迅速な翻訳が可能である。したがって、機械翻訳を用いた場合、翻訳者による翻訳において生じる欠点を解消できる。しかしながら、本発明者らが検討した結果、既存の機械翻訳方法を採用しても、精度の高い漫画の機械翻訳ができないことが判明した。
【0006】
本発明は、上記の課題を解決するためになされたものであって、精度の高い漫画の機械翻訳が可能な漫画の機械翻訳装置、漫画の機械翻訳方法およびプログラムならびにこれらのための漫画の対訳データベース生成装置を提供することを目的とする。
【課題を解決するための手段】
【0007】
上記の課題を解決するために提供される本発明の要旨は、主に以下の通りである。
(1) 第1自然言語を用いて作成された漫画を構成する第1自然言語画像より、文字領域を検出する文字領域検出部と、
前記文字領域より、前記第1自然言語の文字情報を推定する文字情報推定部と、
前記第1自然言語の文字情報を、対訳データベースを用いた機械翻訳により第2自然言語の文字情報に翻訳する機械翻訳部と、を備え、
前記対訳データベースは、参照漫画の第1自然言語参照画像に含まれる第1自然言語文字領域と前記参照漫画の第2自然言語参照画像に含まれ、第1自然言語文字領域に対応する第2自然言語文字領域とを検出し、前記第1自然言語文字領域に存在する第1自然言語文字情報および第2自然言語文字領域に存在する第2自然言語文字情報を抽出することにより自動生成した対訳情報を含む、漫画の機械翻訳装置。
(2) 前記文字情報推定部は、学習済み文字認識モデルを用いて前記文字領域より、前記文字情報を推定し、
前記学習済み文字認識モデルは、前記第1自然言語の1以上のフォント画像と、前記フォント画像に変形、傾きおよび/またはノイズを付与した画像とを含む教師データを用いて機械学習することにより、生成されたものである、(1)に記載の漫画の機械翻訳装置。
(3) 前記第1自然言語文字領域からの第1自然言語文字情報の抽出は、学習済み文字認識モデルを用いて前記第1自然言語文字情報を推定することにより行われ、
前記学習済み文字認識モデルは、前記第1自然言語の1以上のフォント画像と、前記フォント画像に変形、傾きおよび/またはノイズを付与した画像とを含む教師データを用いて機械学習することにより、生成されたものである、(1)または(2)に記載の漫画の機械翻訳装置。
(4) 前記第2自然言語文字領域からの第2自然言語文字情報の抽出は、学習済み第2自然言語文字認識モデルを用いて前記第2自然言語文字情報を推定することにより行われ、
前記学習済み第2自然言語文字認識モデルは、前記第2自然言語の1以上の第2自然言語フォント画像と、当該第2自然言語フォント画像に変形、傾きおよび/またはノイズを付与した画像とを含む教師データを用いて機械学習することにより、生成されたものである、(1)~(3)のいずれか一項に記載の漫画の機械翻訳装置。
(5) 前記第1自然言語が日本語である、(1)~(4)のいずれか一項に記載の漫画の機械翻訳装置。
(6) さらに、前記機械翻訳部により翻訳された前記第2自然言語の文字情報を、前記第1自然言語画像に画像として付与し、第2自然言語画像を生成する、画像生成部を備える、(1)~(5)のいずれか一項に記載の漫画の機械翻訳装置。
(7) 参照漫画の第1自然言語参照画像に含まれる第1自然言語文字領域と前記参照漫画の第2自然言語参照画像に含まれ、第1自然言語文字領域に対応する第2自然言語文字領域とを検出する文字領域検出部と、
前記第1自然言語文字領域に存在する第1自然言語文字情報および第2自然言語文字領域に存在する第2自然言語文字情報を抽出する対訳情報抽出部と、
前記第1言語文字情報の少なくとも一部と、前記第2言語文字情報の少なくとも一部とを、対訳情報として格納する記憶部とを有する、漫画の対訳データベース生成装置。
(8) 前記第1言語文字領域から第1自然言語文字情報の抽出は、学習済み文字認識モデルを用いて前記第1自然言語文字情報を推定することにより行われ、
前記学習済み文字認識モデルは、前記第1自然言語の1以上のフォント画像と、前記フォント画像に変形、傾きおよび/またはノイズを付与した画像とを含む教師データを用いて機械学習することにより、生成されたものである、(7)に記載の漫画の対訳データベース生成装置。
(9) 前記第2言語文字領域からの第2自然言語文字情報の抽出は、学習済み第2自然言語文字認識モデルを用いて前記第2自然言語文字情報を推定することにより行われ、
前記学習済み第2自然言語文字認識モデルは、前記第2自然言語の1以上の第2自然言語フォント画像と、当該第2自然言語フォント画像に変形、傾きおよび/またはノイズを付与した画像とを含む教師データを用いて機械学習することにより、生成されたものである、(8)に記載の漫画の対訳データベース生成装置。
(10) プロセッサにより、
第1自然言語を用いて作成された漫画を構成する第1自然言語画像より、文字領域を検出することと、
前記文字領域より、前記第1自然言語の文字情報を推定することと、および
前記第1自然言語の文字情報を、対訳データベースを用いた機械翻訳により第2自然言語の文字情報に翻訳することと、を実行し、
前記対訳データベースは、参照漫画の第1自然言語参照画像に含まれる第1自然言語文字領域と前記参照漫画の第2自然言語参照画像に含まれ、第1自然言語文字領域に対応する第2自然言語文字領域とを検出し、前記第1自然言語文字領域に存在する第1自然言語文字情報および第2自然言語文字領域に存在する第2自然言語文字情報を抽出することにより自動生成した対訳情報を含む、漫画の機械翻訳方法。
(11) コンピュータを、
第1自然言語を用いて作成された漫画を構成する第1自然言語画像より、文字領域を検出する文字領域検出部と、
前記文字領域より、前記第1自然言語の文字情報を推定する文字情報推定部と、
前記第1自然言語の文字情報を、対訳データベースを用いた機械翻訳により第2自然言語の文字情報に翻訳する機械翻訳部と、を備え、
前記対訳データベースは、参照漫画の第1自然言語参照画像に含まれる第1自然言語文字領域と前記参照漫画の第2自然言語参照画像に含まれ、第1自然言語文字領域に対応する第2自然言語文字領域とを検出し、前記第1自然言語文字領域に存在する第1自然言語文字情報および第2自然言語文字領域に存在する第2自然言語文字情報を抽出することにより自動生成した対訳情報を含む、漫画の機械翻訳装置として機能させるためのプログラム。
【発明の効果】
【0008】
以上、本発明によれば、精度の高い漫画の機械翻訳が可能な漫画の機械翻訳装置、漫画の機械翻訳方法およびプログラムならびにこれらのための漫画の対訳データベース生成装置を提供することができる。
【図面の簡単な説明】
【0009】
図1】本発明の一実施形態に係る漫画の機械翻訳装置の機能構成を説明するブロック図である。
図2図1に記載の漫画の機械翻訳装置において使用される学習済み文字認識モデルを生成する文字認識モデル生成装置の機能構成を説明するブロック図である。
図3】本発明の一実施形態に係る漫画の対訳データベース生成装置の機能構成を説明するブロック図である。
図4図2に示す文字認識モデル生成装置による教師データの生成処理を説明するための図である。
図5図3に示す漫画の対訳データベース生成装置による参照漫画の画像の取り込みおよび対応付けを説明するための図である。
図6図3に示す漫画の対訳データベース生成装置による文字領域の検出方法の一例を説明するための図である。
図7図3に示す漫画の対訳データベース生成装置による文字領域の検出方法の一例を説明するための図である。
図8図3に示す漫画の対訳データベース生成装置による文字列の特定方法の一例を説明するための図である。
図9図3に示す漫画の対訳データベース生成装置による文字列の特定方法の一例を説明するための図である。
図10図1に示す漫画の機械翻訳装置による文字情報の抽出方法の一例を説明するための図である。
図11図1に示す漫画の機械翻訳装置による第2自然言語の漫画画像の生成方法の一例を説明するための図である。
図12】本発明の一実施形態に係る文字認識モデル生成方法を説明するフローチャートである。
図13】本発明の一実施形態に係る漫画の対訳データベース生成方法を説明するフローチャートである。
図14】本発明の一実施形態に係る漫画の機械翻訳方法を説明するフローチャートである。
図15図1に示す漫画の機械翻訳装置のハードウェア構成の一例を示すブロック図である。
【発明を実施するための形態】
【0010】
以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。
<1.本発明者らによる検討>
まず、本発明の実施形態の説明に先立ち、本発明者らによる検討について説明する。上述したように、本発明者らが検討したところ、既存の機械翻訳方法を採用しても、精度の高い漫画の機械翻訳ができなかった。
【0011】
本発明者らは、この理由について以下のような可能性を考慮した。機械翻訳を精度よく行うためには対訳データベース(コーパス)が必要であるが、既存の対訳データベースは漫画の機械翻訳に適していない可能性がある。特に、漫画は、通常の文章とは異なり、漫画中の人物のセリフが主に文として記載されている。このようなセリフは、主語や述語の対応がない場合や、文が途切れている場合も多い。さらには、疑問符、感嘆符、長音符、慢符等の符号の使用方法も作者によって大きく異なる。
【0012】
このような可能性に鑑み、本発明者らは、鋭意検討して漫画の対訳情報を含む特定の対訳データベースを用いたところ、精度の高い機械翻訳が可能となることを見出し、本発明に至った。
【0013】
<2.システムの概要>
まず、本実施形態に係る漫画の機械翻訳装置(以下、単に「機械翻訳装置」ともいう)、および漫画の対訳データベース生成装置(以下、単に「対訳データベース生成装置」ともいう)を含む、漫画の機械翻訳システムの概要について説明する。図1は、本発明の一実施形態に係る機械翻訳装置の機能構成を説明するブロック図、図2は、図1に記載の機械翻訳装置において使用される学習済み文字認識モデルを生成する文字認識モデル生成装置の機能構成を説明するブロック図、図3は、本発明の一実施形態に係る対訳データベース生成装置の機能構成を説明するブロック図である。
【0014】
図1に示す機械翻訳装置100は、第1自然言語としての日本語を用いて作成された漫画中の日本語文字情報を、第2自然言語としての英語文字情報に機械翻訳する装置である。
【0015】
また、図2示す文字認識モデル生成装置200は、漫画画像に存在する自然言語文字情報を推定するための学習済み文字認識モデルを生成するための装置である。図3に示す対訳データベース生成装置300は、翻訳済みの参照漫画について、第1自然言語としての日本語と、第2自然言語としての英語との対訳情報を抽出し、対訳データベースを自動生成する装置である。
【0016】
そして、図1に示すように、これらの機械翻訳装置100、文字認識モデル生成装置200、対訳データベース生成装置300は、ネットワーク400を介して、相互に通信可能であり、漫画の機械翻訳システムを構成している。ここで、文字認識モデル生成装置200において生成される学習済み文字認識モデルは、機械翻訳装置100および対訳データベース生成装置300において利用される。また、対訳データベース生成装置300において生成される対訳データベースは、機械翻訳装置100における機械翻訳において使用される。したがって、説明の容易化のため、まず文字認識モデル生成装置200、対訳データベース生成装置300、次いで機械翻訳装置100の順に説明を行う。
【0017】
なお、本実施形態においては、一例として、第1自然言語が日本語であり、第2自然言語が英語である場合について説明する。しかしながら、第1自然言語、第2自然言語は、これらの自然言語に限定されるものではなく、文字を用いて記載される任意の自然言語であることができる。
【0018】
(2.1. 文字認識モデル生成装置200)
図2に示すように文字認識モデル生成装置200は、教師データ生成部210と、機械学習部230と、記憶部250とを有する。
【0019】
教師データ生成部210は、後述する機械学習部230で用いる教師データを生成する。具体的には、図4に示すように、教師データ生成部210は、複数種のフォントについての文字画像411を含む画像、すなわちフォント画像群410を用意し、これに変形、傾きおよび/またはノイズを付与した加工文字画像421を含む加工文字画像群420を生成する。ここで、フォント画像群410は、文字画像411により構成された単語、文、あるいは文字列もしくは行単位等の複数の文字画像411により構成される単位を含んでいてもよい。この場合、これらの単位ごとの文字認識モデルを生成することもできる。次いで、加工フォント画像群420中の加工文字画像421と、フォント画像群410中の文字画像411とを組み合わせて、学習用文字画像431を複数含む学習用文字画像群430を生成する。なお、フォント画像群410については、記憶部250中に保存されたデータを使用することができる。また、生成した学習用文字画像群430等の各種データは、必要に応じて記憶部250に送信されて保存されてもよい。
【0020】
なお、本開示においては、学習用文字画像群430は、図4に記載される態様に限定されるものではなく、学習用文字画像群430は、例えば、漫画に記載される文字画像、その他公知の文字認識データセットの文字画像等の文字画像をさらに含んでいてもよい。
【0021】
さらに、教師データ生成部210は、学習用文字画像群430中の各学習用文字画像431に対応する当該学習用文字画像431の文字情報を正解データとして用意する。学習用文字画像群430が加工文字画像421および文字画像411以外の文字画像を含む場合、当該文字画像に対しては必要に応じて手動でまたは自動的に正解データに対応する文字情報が付与されてもよい。そして、教師データ生成部210は、例題データである学習用文字画像群430と正解データとを含む教師データを生成する。生成した教師データは、機械学習部230へ直接出力されてもよいし、記憶部250において保存されてもよい。
【0022】
機械学習部230は、教師データ生成部210において生成した教師データを用いて機械学習を行い、学習済み文字認識モデルを生成する。機械学習において用いられる手法(アルゴリズム)は、特に限定されるものではなく、当業者が利用可能な各種手法を単独でまたは組み合わせて用いることができる。当該手法としては、例えば、ResNet(残渣ネットワーク)イメージ認識モジュール、CRNN(convolutional recurrent neural network)や、Bi-Directional LSTM(Long short-term memory)を含むLSTM等の畳み込みニューラルネットワークや再帰型ニューラルネットワーク等の各種ニューラルネットワークや、これらの組み合わせを挙げることができる。なお、学習済み文字認識モデルは、文字単位で文字情報を認識するものであってもよいし、単語、文、あるいは文字列もしくは行単位等の複数の文字により構成される単位で文字情報を認識するものであってもよい。機械学習部230は、生成した学習済み文字認識モデルを記憶部250に保存するとともに、必要に応じて機械翻訳装置100や対訳データベース生成装置300へ送信する。
【0023】
記憶部250は、教師データや学習済み文字認識モデルの生成に必要な各種情報を保存するとともに、生成した教師データや学習済み文字認識モデルを保存する。教師データや学習済み文字認識モデルの生成に必要な各種情報としては、例えば、フォント情報(文字画像および文字情報)、変形、傾き、ノイズ付与に必要な加工のための情報、機械学習のための手法に関する各種情報等が挙げられる。
【0024】
(2.2. 対訳データベース生成装置300)
対訳データベース生成装置300は、翻訳済みの参照漫画について、日本語と、英語との対訳情報を抽出し、対訳データベースを自動生成する。図3に示すように、対訳データベース生成装置300は、参照画像取得部310と、文字領域検出部330と、対訳情報抽出部350と、記憶部370とを有している。
【0025】
参照画像取得部310は、翻訳済みの参照漫画中の画像を取得し、日本語参照画像と英語参照画像とを対応付ける。ここで、参照漫画としては、第1の自然言語としての日本語で作成された日本語参照漫画500Jと、第2自然言語としての英語で作成された英語参照漫画500Eとが存在する漫画作品であれば、特に限定されず、任意のものを使用することができる。日本語参照漫画500Jおよび英語参照漫画500Eは、それぞれ電子的なテキストデータが付属していなくてもよい。本実施形態においては、後述する文字領域検出部330および対訳情報抽出部350により、精度よく、日本語文字情報および英語文字情報を抽出することができる。また、日本語参照漫画500Jおよび英語参照漫画500Eは、少なくともいずれかが翻訳者により翻訳されたものであることが好ましい。これにより、より精度の良い機械翻訳が可能になる。
【0026】
図5に示すように、参照画像取得部310は、まず、日本語参照漫画500Jおよび英語参照漫画500Eの各ページの画像を、それぞれ日本語参照画像510J、英語参照画像510Eとして取り込む(ここでn、mは自然数である)。ここで、一般に漫画は、絵と文字により表現されており、翻訳された際にも、原作の漫画と翻訳後の漫画とは、内容部分については、ページごとに対応する。しかしながら、表紙や目次の構成等によっては、原作の漫画と翻訳後の漫画とで対応位置(表紙からのページ数)が異なる場合がある。
【0027】
したがって、参照画像取得部310は、取り込まれた日本語参照漫画500Jの取り込まれた日本語参照画像510Jを英語参照漫画500Eの英語参照画像510Eと対応付ける。対応付けのための手法は特に限定されないが、例えば局所的な特徴量を演算することにより行うことができる。具体的には、AKAZE検出器等の検出器により、日本語参照画像510Jおよび英語参照画像510Eの局所記述子(local descriptor)を検出する。次いで、日本語参照画像510Jおよび英語参照画像510Eの2つのページのホモグラフィー行列を算出する。ついで、inlierと判断された局所的特徴のペアをカウントすることにより、日本語参照画像510Jおよび英語参照画像510Eの類似性を判断する。
【0028】
この結果に基づき、参照画像取得部310は、日本語参照画像510Jおよび英語参照画像510Eの対応付けを行う。例えば、図5においては、日本語参照画像510Jは英語参照画像510Eに、日本語参照画像510Jは英語参照画像510Eに、日本語参照画像510Jは英語参照画像510Eに対応付けられる。参照画像取得部310は、対応付けられた日本語参照画像510Jおよび英語参照画像510Eのペアを文字領域検出部330に出力するおよび/または記憶部370に保存する。なお、参照画像取得部310は、必要に応じて、保存または出力される日本語参照画像510Jおよび英語参照画像510Eに対してこれらの形状が一致するように画像補正を行ってもよい。例えば、参照画像取得部310は、日本語参照画像510Jおよび英語参照画像510Eのサイズを統一してもよいし、あるいは日本語参照画像510Jおよび英語参照画像510Eに存在する歪みや傾きを補正してもよい。
【0029】
図6図7に示すように、文字領域検出部330は、日本語参照画像510Jに含まれる日本語文字領域520J、530Jと英語参照画像510Eに含まれ、日本語文字領域に対応する英語文字領域520E、530Eとを検出する。
【0030】
日本語文字領域520J、530Jおよび英語文字領域520E、530Eの検出は、いかなる手法で行われてもよいが、例えば、物体検出器(object detector)により検出することができる。物体検出器としては、特に限定されるものではなく、例えば、R-CNN object detector、Fast R-CNN object detector、Faster R-CNN object detector、Mask R-CNN object detector等のR-CNN(Regions with Convolutional Neural Networks)系物体検出器、SSD(Single Shot MultiBox Detector)、YOLO(You Look Only Once)、M2Det等を用いることができる。
【0031】
また、日本語文字領域520J、530Jおよび英語文字領域520E、530Eのうち、一方の自然言語の文字領域のみ検出し、検出した文字領域の位置に基づき、他方の自然言語に存在する文字領域を特定してもよい。通常、漫画の文字情報は、翻訳後においても漫画の絵画中の同一位置に配置されるため、精度の良い文字領域の検出が可能である。さらに、物体検出処理に要する時間が節約される。例えば、図7において、日本語文字領域520J、530Jを物体検出処理により検出し、その後、英語参照画像510E中の日本語文字領域520J、530Jに対応する部位を英語文字領域520E、530Eとして特定することができる。
【0032】
対訳情報抽出部350は、文字領域検出部330により検出された日本語文字領域520J、530Jおよび英語文字領域520E、530Eより、それぞれ日本語文字情報521J、531Jおよび英語文字情報521E、531Eを抽出する。具体的には、対訳情報抽出部350は、日本語文字領域520J、530Jおよび英語文字領域520E、530Eにおいて存在する文字列を特定し、文字列に存在する文字情報を抽出する。
【0033】
文字列の特定は、一例として、以下のようにして行うことができる。通常、漫画中の文字列は、黒字で記載され、周囲が白色である。したがって、縦書きの文字列を検出する場合、図8に示すように、対訳情報抽出部350は、まず、文字領域540について、ピクセルの列541に分割し、列541中に連結された黒のピクセル部位が存在するか否かを判断し、黒のピクセル部位が存在する列543および列群545を特定する。その後、対訳情報抽出部350は、文字列としては小さい列543を除去して、列群545を文字列545として特定する。その後、必要に応じて、対訳情報抽出部350は、文字列545について分割を行い、文字画像547、549を得る。
【0034】
同様に、横書きの文字列を検出する場合、図9に示すように、対訳情報抽出部350は、まず、文字領域550について、ピクセルの行551に分割し、行551中に連結された黒のピクセル部位が存在するか否かを判断し、黒のピクセル部位が存在する行および行群553を特定する。その後、対訳情報抽出部350は、文字列としては小さい行を除去して、行群553を文字列553として特定する。
【0035】
なお、本開示は、図8図9に記載される態様に限定されるものではなく、対訳情報抽出部350は、文字列単位で物体検出を行うことにより、直接日本語文字領域520J、530Jおよび英語文字領域520E、530Eから文字列を検出してもよい。この場合、文字領域検出部330を省略することができる。この場合においても、物体検出器としては、特に限定されるものではなく、例えば、R-CNN object detector、Fast R-CNN object detector、Faster R-CNN object detector、Mask R-CNN object detector等のR-CNN(Regions with Convolutional Neural Networks)系物体検出器、SSD(Single Shot MultiBox Detector)、YOLO(You Look Only Once)、M2Det等を用いることができる。
【0036】
ついで、対訳情報抽出部350は、日本語文字領域520J、530Jおよび英語文字領域520E、530Eにおいて特定された文字列から、日本語文字情報521J、531Jおよび英語文字情報521E、531Eを抽出する。日本語文字情報521J、531Jおよび英語文字情報521E、531Eの抽出は、文字認識モデル生成装置200において生成した学習済み日本語文字認識モデルおよび学習済み英語文字認識モデルを用いて行うことができる。
【0037】
さらに、対訳情報抽出部350は、抽出された日本語文字情報521Jとこれに対応する英語文字情報521E、また日本語文字情報531Jとこれに対応する英語文字情報531Eを1対の文の対訳情報として特定し、後述する対訳データベース371に出力する。
【0038】
記憶部370は、対訳情報抽出部350において行われる処理に必要な各種情報を記憶するとともに、対訳データベース371を格納する。対訳情報抽出部350において行われる処理に必要な各種情報としては、例えば、学習済み日本語文字認識モデルおよび学習済み英語文字認識モデル等が挙げられる。
【0039】
また、対訳データベース371には、少なくとも対訳情報抽出部350において抽出された対訳情報を含む。対訳データベース371は、さらに、対訳情報抽出部350を用いずに得られた対訳情報を有してもよい。
【0040】
(2.3. 機械翻訳装置100)
図1に示すように、機械翻訳装置100は、機械翻訳学習部110と、漫画画像取得部120と、文字領域検出部130と、文字情報推定部140と、機械翻訳部150と、画像生成部160と、記憶部170とを有している。
【0041】
機械翻訳学習部110は、対訳情報抽出部350において生成された対訳データベース371を用いて、機械翻訳モデルの学習を行う。本実施形態においては、機械翻訳モデルとして、ニューラル機械翻訳器を用いる。ニューラル機械翻訳器としては、特に限定されるものではないが、例えば、Attention-based Encoder-Decoder、Convolutional Sequence to Sequence、Transformer等を用いることができる。機械翻訳学習部110は、学習済みの機械翻訳モデルを、記憶部170へ出力する。
【0042】
漫画画像取得部120は、図10に示すように、翻訳対象の漫画の各ページを漫画画像600Jとして取得する(nは自然数である)。漫画画像取得部120は、必要に応じて、漫画画像600Jに対して画像補正を行ってもよい。例えば、漫画画像取得部120は漫画画像600Jのサイズを各ページ間で統一してもよいし、あるいは漫画画像600Jに存在する歪みや傾きを補正してもよい。漫画画像600Jnの取得方法は、特に限定されず、電子データとして提供されるものを用いてもよいし、紙媒体の漫画をスキャンすることにより得てもよい。なお、ここで翻訳対象の漫画は、日本語にて作成されており、英語に翻訳されることが予定されているとする。
【0043】
文字領域検出部130は、漫画画像600Jより、文字領域610を検出する。文字領域610の検出は、文字領域検出部330と同様に、いかなる手法で行われてもよいが、例えば、物体検出器(object detector)により検出することができる。物体検出器としては、特に限定されるものではなく、例えば、R-CNN object detector、Fast R-CNN object detector、Faster R-CNN object detector、Mask R-CNN object detector等のR-CNN(Regions with Convolutional Neural Networks)系物体検出器、SSD(Single Shot MultiBox Detector)、YOLO(You Look Only Once)、M2Det等を用いることができる。なお、文字領域検出部130は、漫画画像600Jに存在する文字列を直接文字領域610として検出・特定してもよい。
【0044】
文字情報推定部140は、検出された文字領域610より、日本語の文字情報620Jを推定する。具体的には、文字情報推定部140は、文字領域610において存在する文字列を特定し、文字列に存在する文字情報620Jを抽出する。文字列の特定は、対訳情報抽出部350における手法と同様の手法により行うことができる。なお、文字領域検出部130が直接文字列を文字領域610として検出している場合、文字情報推定部140による文字列の特定は省略できる。
【0045】
ついで、文字情報推定部140は、文字領域610において特定された文字列から文字情報620Jを抽出する。文字情報620Jの抽出は、文字認識モデル生成装置200において生成した学習済み日本語文字認識モデルを用いて行うことができる。
【0046】
機械翻訳部150は、文字情報推定部140において推定された日本語の文字情報620Jを、機械翻訳により英語の文字情報620Eに翻訳する。機械翻訳部150における機械翻訳は、機械翻訳学習部110において学習した機械翻訳モデルにより行われる。この機械翻訳モデルは、対訳データベース371の対訳情報を利用して学習されたものであり、精度のよい翻訳が可能である。
【0047】
画像生成部160は、機械翻訳部150により翻訳された英語の文字情報620Eを、日本語で作成された漫画画像600Jに画像として付与し、英語の漫画画像600Eを生成する。具体的には、図11に示すように、画像生成部160は、漫画画像600J中の文字領域610を白色の領域とし、その後、文字情報620Eを画像として付与する。なお、文字情報620が付与される領域は、文字情報620Jが存在していた領域に対応していればよく、文字情報620Jが存在していた領域と一致しなくてもよい。
【0048】
記憶部170は、各部に対する入出力が可能であり、各部の処理に必要な情報を保存する。例えば、記憶部170は、漫画画像取得部120において処理されるための漫画画像600Jや、文字情報推定部140において使用される学習済み文字認識モデル、機械翻訳学習部110において生成したニューラル機械翻訳モデル等を記憶する。
【0049】
<3.漫画の機械翻訳方法、文字認識モデル生成方法および対訳データベース生成方法>
次に、上述した機械翻訳装置100、文字認識モデル生成装置200および対訳データベース生成装置300の動作について、漫画の機械翻訳方法、文字認識モデル生成方法および対訳データベース生成方法とともに説明する。なお、上記の装置構成の説明と同様、文字認識モデル生成方法および対訳データベース生成方法を説明した後、漫画の機械翻訳方法について説明する。
【0050】
(3.1 文字認識モデル生成方法)
本実施形態に係る文字認識モデル生成方法は、プロセッサにより、自然言語の1以上のフォント画像と、前記フォント画像に変形、傾きおよび/またはノイズを付与した画像とを含む教師データを用いて機械学習することにより、学習済み文字認識モデルを生成すること、を実行することを含む。
図12は、本実施形態に係る文字認識モデル生成方法についてのフローチャートである。
【0051】
本実施形態では、まず、教師データ生成部210により教師データが作成される。具体的には、教師データ生成部210は、記憶部250より、複数種のフォントについての文字画像411を含むフォント画像群410を取得する(S101)。
次に、教師データ生成部210は、フォント画像群410中の文字画像411に変形、傾きおよび/またはノイズを付与した加工文字画像421を含む加工文字画像群420を生成する(S103)。
【0052】
次に、教師データ生成部210は、加工フォント画像群420中の加工文字画像421と、フォント画像群410中の文字画像411とを組み合わせて、学習用文字画像431を複数含む学習用文字画像群430を生成する(S105)。
【0053】
最後に、機械学習部230により、教師データ生成部210において生成した教師データを用いて機械学習を行い、学習済み文字認識モデルを生成する(S107)。
【0054】
以上のようにして得られる学習済み文字認識モデルを用いた場合、多種多様なフォントや、その変形画像に対応して、漫画画像中の文字を認識することができる。すなわち、一般に、漫画は、一般の文書とは異なり、絵とともに文が記載されており、視覚的な要素が大きいことから、同一のページ中であっても、多種多様なフォントが用いられる。また、漫画中の会話のやり取りや状況を、臨場感を持って説明するために、多種多様なフォントがさらに変形されることもある。本発明者らが検討したところ、このような漫画中に記載される文は、一般的な光学式文字認識手段(OCR:Optical Character Recognition)では正確に認識することが困難である。これに対し、上記で得られる学習済み文字認識モデルを用いた場合、精度よく漫画中も文字情報を認識することができる。
【0055】
(3.2 対訳データベース生成方法)
本実施形態に係る対訳データベース生成方法は、プロセッサにより、参照漫画の第1自然言語参照画像に含まれる第1自然言語文字領域と前記参照漫画の第2自然言語参照画像に含まれ、第1自然言語文字領域に対応する第2自然言語文字領域とを検出することと、
前記第1自然言語文字領域に存在する第1自然言語文字情報および第2自然言語文字領域に存在する第2自然言語文字情報を抽出することと、を実行することを含む。
図13は、本実施形態に係る漫画の対訳データベース生成方法を説明するフローチャートである。以下、第1自然言語が日本語であり、第2自然言語が英語である場合について説明する。
【0056】
まず、各工程に先立ち、参照画像取得部310は、まず、日本語参照漫画500Jおよび英語参照漫画500Eの各ページの画像を、それぞれ日本語参照画像510J、英語参照画像510Eとして取り込む(ここでn、mは自然数である)(S201)。
次に、参照画像取得部310は、取り込まれた日本語参照漫画500Jの取り込まれた日本語参照画像510Jを英語参照漫画500Eの英語参照画像510Eと対応付ける(S203)。
【0057】
次いで、文字領域検出部330により、日本語参照画像510Jに含まれる日本語文字領域520J、530Jと英語参照画像510Eに含まれ、日本語文字領域に対応する英語文字領域520E、530Eとを検出する(S205)。なお、ここで文字領域検出部330は、日本語参照画像510J、英語参照画像510Eに含まれる文字列を直接日本語文字領域520J、530J、英語文字領域520E、530Eとして検出してもよい。
【0058】
次いで、対訳情報抽出部350により、文字領域検出部330により検出された日本語文字領域520J、530Jおよび英語文字領域520E、530Eより、それぞれ日本語文字情報521J、531Jおよび英語文字情報521E、531Eを抽出する(S207)。具体的には、対訳情報抽出部350により、日本語文字領域520J、530Jおよび英語文字領域520E、530Eにおいて存在する文字列を特定し、文字列に存在する文字情報を抽出する。文字領域検出部330が直接文字列を日本語文字領域520J、530J、英語文字領域520E、530Eとして特定した場合には、対訳情報抽出部350による文字列の特定は省略されることができる。日本語文字情報521J、531Jおよび英語文字情報521E、531Eの抽出は、文字認識モデル生成方法において生成した学習済み日本語文字認識モデルおよび学習済み英語文字認識モデルを用いて行うことができる。
【0059】
最後に、対訳情報抽出部350により、抽出された日本語文字情報521Jとこれに対応する英語文字情報521E、また日本語文字情報531Jとこれに対応する英語文字情報531Eを1対の文の対訳情報として特定し(S209)、後述する対訳データベース371に出力する。以上を行うことにより、対訳データベース371を生成することができる。
【0060】
以上によれば、漫画の対訳データベースを精度よくかつ迅速に自動生成することができる。特に、上記の対訳データベース生成方法は、漫画の対訳のテキストデータを必要とせず、対訳が存在する漫画が存在すればよいことから、多種多様な漫画から対訳を収集することができ、膨大なデータ量の対訳データベースを安価に生成することが容易である。また特に、文字認識モデル生成方法において生成した学習済み文字認識モデルを用いた場合、漫画特有の多種多様なフォントおよびこれの変形物にも対応して精度よく文字情報を認識することが可能となる。この結果、精度の良い対訳データベースを自動生成することが可能となる。
【0061】
(3.3 漫画の機械翻訳方法)
本実施形態に係る漫画の機械翻訳方法は、プロセッサにより、
第1自然言語を用いて作成された漫画を構成する第1自然言語画像より、文字領域を検出することと、
前記文字領域より、前記第1自然言語の文字情報を推定することと、および
前記第1自然言語の文字情報を、対訳データベースを用いた機械翻訳により第2自然言語の文字情報に翻訳することと、を実行することを含む。
図14は、本実施形態に係る漫画の機械翻訳方法を説明するフローチャートである。以下、第1自然言語が日本語であり、第2自然言語が英語である場合について説明する。
【0062】
まず、漫画画像取得部120により、翻訳対象の漫画の各ページを日本語の漫画画像600Jとして取得する(nは自然数である)(S301)。次いで、文字領域検出部130により、漫画画像600Jから文字領域610を検出する(S303)。
【0063】
次いで、文字情報推定部140により、検出された文字領域610から日本語の文字情報620Jを推定する(S305)。文字情報620Jの抽出は、文字認識モデル生成装置200において生成した学習済み日本語文字認識モデルを用いて行うことができる。
【0064】
次いで、機械翻訳部150により、文字情報推定部140において推定された日本語の文字情報620Jを、機械翻訳により英語の文字情報620Eに翻訳する(S307)。機械翻訳は、機械翻訳学習部110において学習した機械翻訳モデルにより行われる。
【0065】
最後に、画像生成部160により、機械翻訳部150により翻訳された英語の文字情報620Eを、日本語で作成された漫画画像600Jに画像として付与し、英語の漫画画像600Eを生成する(S307)。
【0066】
以上によれば、上述した漫画の対訳データベースを用いて機械翻訳を行うことにより、精度よくかつ迅速に漫画の機械翻訳を行うことが可能である。また特に、文字認識モデル生成方法において生成した学習済み文字認識モデルを用いた場合、漫画特有の多種多様なフォントおよびこれの変形物にも対応して精度よく文字情報を認識することが可能となる。この結果、機械翻訳の精度がより一層向上する。
【0067】
<4.ハードウェア構成例>
最後に、図15を参照して、本実施形態に係る漫画の機械翻訳装置100のハードウェア構成について説明する。図15は、本実施形態に係る漫画の機械翻訳装置のハードウェア構成の一例を示すブロック図である。なお、図15に示す情報処理装置(コンピュータ)900は、例えば、図1に示した機械翻訳装置100を実現し得る。本実施形態に係る機械翻訳装置100による情報処理は、ソフトウェアと、以下に説明するハードウェアとの協働により実現される。なお、漫画の対訳データベース生成装置300および文字認識モデル生成装置200についても同様である。
【0068】
図15に示すように、情報処理装置900は、CPU(Central Processing Unit)901、ROM(Read Only Memory)902、RAM(Random Access Memory)903及びホストバス904aを備える。また、情報処理装置900は、ブリッジ904、外部バス904b、インタフェース905、入力装置906、出力装置907、ストレージ装置908、ドライブ909、接続ポート911及び通信装置913を備える。情報処理装置900は、CPU901に代えて、又はこれとともに、電気回路、DSP(Digital Signal Processor)若しくはASIC(Application Specific Integrated Circuit)等の処理回路を有してもよい。
【0069】
CPU901は、プロセッサの一例であり、演算処理装置および制御装置として機能し、各種プログラムに従って情報処理装置900内の動作全般を制御する。また、CPU901は、マイクロプロセッサであってもよい。ROM902は、CPU901が使用するプログラムや演算パラメータ等を記憶する。RAM903は、CPU901の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。
【0070】
CPU901、ROM902及びRAM903は、CPUバスなどを含むホストバス904aにより相互に接続されている。ホストバス904aは、ブリッジ904を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス904bに接続されている。なお、必ずしもホストバス904a、ブリッジ904および外部バス904bを分離構成する必要はなく、1つのバスにこれらの機能を実装してもよい。
【0071】
入力装置906は、例えば、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、スイッチ及びレバー等、ユーザによって情報が入力される装置によって実現される。また、入力装置906は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理装置900の操作に対応した携帯電話やPDA(Personal Digital Assistant)等の外部接続機器であってもよい。さらに、入力装置906は、例えば、上記の入力手段を用いてユーザにより入力された情報に基づいて入力信号を生成し、CPU901に出力する入力制御回路などを含んでいてもよい。情報処理装置900のユーザは、この入力装置906を操作することにより、情報処理装置900に対して各種のデータを入力したり処理動作を指示したりすることができる。
【0072】
出力装置907は、取得した情報をユーザに対して視覚的又は聴覚的に通知することが可能な装置で形成される。このような装置として、CRT(Cathode Ray Tube)ディスプレイ装置、液晶ディスプレイ装置、プラズマディスプレイ装置、EL(Electroluminescence display)ディスプレイ装置、レーザープロジェクタ、LEDプロジェクタ及びランプ等の表示装置や、スピーカ及びヘッドホン等の音声出力装置等がある。出力装置907は、例えば、情報処理装置900が行った各種処理により得られた結果を出力する。具体的には、出力装置907は、情報処理装置900が行った各種処理により得られた結果を、テキスト、イメージ、表、グラフ等、様々な形式で視覚的に表示する。他方、音声出力装置を用いる場合は、再生された音声データや音響データ等からなるオーディオ信号をアナログ信号に変換して聴覚的に出力する。
【0073】
ストレージ装置908は、情報処理装置900の記憶部の一例として形成されたデータ格納用の装置である。ストレージ装置908は、例えば、HDD(Hard Disk Drive)等の磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス又は光磁気記憶デバイス等により実現される。ストレージ装置908は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置などを含んでもよい。このストレージ装置908は、CPU901が実行するプログラムや各種データ及び外部から取得した各種のデータ等を格納する。ストレージ装置908は、例えば、図1に示す記憶部170の機能を実行し得る。
【0074】
ドライブ909は、記憶媒体用リーダライタであり、情報処理装置900に内蔵、あるいは外付けされる。ドライブ909は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記憶媒体に記録されている情報を読み出して、RAM903に出力する。また、ドライブ909は、リムーバブル記憶媒体に情報を書き込むこともできる。
【0075】
接続ポート911は、外部機器と接続されるインタフェースであって、例えばUSB(Universal Serial Bus)などによりデータ伝送可能な外部機器との接続口である。
【0076】
通信装置913は、例えば、ネットワーク920に接続するための通信デバイス等で形成された通信インタフェースである。通信装置913は、例えば、有線若しくは無線LAN(Local Area Network)、LTE(Long Term Evolution)、Bluetooth(登録商標)又はWUSB(Wireless USB)用の通信カード等である。また、通信装置913は、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ又は各種通信用のモデム等であってもよい。この通信装置913は、例えば、インターネットや他の通信機器との間で、例えばTCP/IP等の所定のプロトコルに則して信号等を送受信することができる。
【0077】
なお、ネットワーク920は、ネットワーク920に接続されている装置から送信される情報の有線、または無線の伝送路である。例えば、ネットワーク920は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。また、ネットワーク920は、IP-VPN(Internet Protocol-Virtual Private Network)などの専用回線網を含んでもよい。
【0078】
<5.プログラムおよび記録媒体>
以上、本実施形態に係る機械翻訳装置100、漫画の対訳データベース生成装置300および文字認識モデル生成装置200およびこれを用いた各種方法について説明した。
したがって、本発明は、他の局面において、コンピュータをこれらの装置として機能させるためのプログラムにも関する。また、該プログラムを記憶させた記録媒体も提供される。
【0079】
<6.まとめ>
以上、図1~15を参照して、本発明の一実施形態について説明した。以上説明したように、本発明によれば、精度の高い漫画の機械翻訳が可能な漫画の機械翻訳装置、漫画の機械翻訳方法およびプログラムならびにこれらのための漫画の対訳データベース生成装置を提供することができる。特に、上述した漫画の対訳データベースを用いた場合、漫画の機械翻訳の精度が向上する。さらには、上述した学習済み文字認識モデルを用いることにより、従来困難であった漫画の画像より文字情報を精度よく認識することが可能となる。
【0080】
なお、本発明は、上記の実施形態に限定されるものではない。例えば、上述した実施形態においては、機械翻訳は、ニューラル機械翻訳であるとして説明したが、これに限定されない。機械翻訳としては、上述した漫画の対訳データベースを用いる限り、あらゆる統計的機械翻訳およびニューラル機械翻訳を用いることができる。
【0081】
また、例えば、上述した実施形態に係る漫画の機械翻訳装置、および漫画の対訳データベース生成装置は、上述した学習済み文字認識モデルを用いることとしたが、これに限定されず、本発明に係る漫画の機械翻訳装置、および漫画の対訳データベース生成装置は、上記学習済み文字認識モデルを用いていなくてもよい。
【0082】
また、例えば、上述した実施形態においては、学習用文字画像群430は、加工フォント画像群420中の加工文字画像421と、フォント画像群410中の文字画像411とを組み合わせて得られるものとして説明したが、本開示はこれに限定されない。例えば、学習用文字画像群は、加工フォント画像群420中の加工文字画像421と、フォント画像群410中の文字画像411を含まなくてもよい。この場合、学習用文字画像群は、漫画に記載される文字画像、その他公知の文字認識データセットの文字画像等のその他の文字画像を含むことができる。
【0083】
また、例えば、対訳データベースの生成における第1自然言語文字領域および第2自然言語文字領域の検出は、上述した物体検出器に限定されるものではなく、例えば、第1自然言語参照画像および第2自然言語参照画像の対応するページを重ね合わせ、異なる部分を第1自然言語文字領域および第2自然言語文字領域として検出してもよい。
【0084】
また、上述した説明では、第1自然言語が日本語であり、第2自然言語が英語であるものとして説明したが、本発明は、上述した実施形態に限定されるものではなく、第1自然言語および第2自然言語は、文字を用いて記載される任意の自然言語であることができる。
【0085】
また、上述した説明では、漫画の機械翻訳装置100、漫画の対訳データベース生成装置300および文字認識モデル生成装置200がそれぞれ1つの情報処理装置によって構成されるものとして説明したが、本発明はこれに限定されない。例えば、漫画の機械翻訳装置、漫画の対訳データベース生成装置および文字認識モデル生成装置は、それぞれ複数の情報処理装置により構成されていてもよい。また、漫画の機械翻訳装置、漫画の対訳データベース生成装置および文字認識モデル生成装置のうち2以上が、一つの情報処理装置において実現されていてもよい。
【0086】
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。
【符号の説明】
【0087】
100 機械翻訳装置
110 機械翻訳学習部
120 漫画画像取得部
130 文字領域検出部
140 文字情報推定部
150 機械翻訳部
160 画像生成部
170 記憶部
200 文字認識モデル生成装置
210 教師データ生成部
230 機械学習部
250 記憶部
300 対訳データベース生成装置
310 参照画像取得部
330 文字領域検出部
350 対訳情報抽出部
370 記憶部
371 対訳データベース
400 ネットワーク

図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15