IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社オレンジの特許一覧

特許7329281情報処理装置、方法、プログラム、およびシステム
<>
  • 特許-情報処理装置、方法、プログラム、およびシステム 図1
  • 特許-情報処理装置、方法、プログラム、およびシステム 図2
  • 特許-情報処理装置、方法、プログラム、およびシステム 図3
  • 特許-情報処理装置、方法、プログラム、およびシステム 図4
  • 特許-情報処理装置、方法、プログラム、およびシステム 図5
  • 特許-情報処理装置、方法、プログラム、およびシステム 図6
  • 特許-情報処理装置、方法、プログラム、およびシステム 図7
  • 特許-情報処理装置、方法、プログラム、およびシステム 図8
  • 特許-情報処理装置、方法、プログラム、およびシステム 図9
  • 特許-情報処理装置、方法、プログラム、およびシステム 図10
  • 特許-情報処理装置、方法、プログラム、およびシステム 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2023-08-09
(45)【発行日】2023-08-18
(54)【発明の名称】情報処理装置、方法、プログラム、およびシステム
(51)【国際特許分類】
   G06F 40/58 20200101AFI20230810BHJP
【FI】
G06F40/58
【請求項の数】 13
(21)【出願番号】P 2022123560
(22)【出願日】2022-08-02
【審査請求日】2022-08-03
【早期審査対象出願】
(73)【特許権者】
【識別番号】522307513
【氏名又は名称】株式会社オレンジ
(74)【代理人】
【識別番号】110002815
【氏名又は名称】IPTech弁理士法人
(72)【発明者】
【氏名】曽佐 顕
【審査官】成瀬 博之
(56)【参考文献】
【文献】特開2019-091361(JP,A)
【文献】横田広之 他4名,作者分類と線画のヒントを用いた漫画の画像修復,映像情報メディア学会技術報告,日本,(一社)映像情報メディア学会,2022年03月01日,Vol.46 No.10,53-56頁,ISSN 1342-6893
(58)【調査した分野】(Int.Cl.,DB名)
G06F 40/20-40/58
(57)【特許請求の範囲】
【請求項1】
コンピュータを、
第1コミック画像からテキストが記載された領域であるテキスト領域を特定する手段、
特定された前記テキスト領域に記載されているテキストの属性に基づいて、当該テキストが翻訳テキストによって置き換えられる対象となる対象テキストであるか否かを判定する手段、
前記第1コミック画像において、特定された前記テキスト領域のうち前記対象テキストが記載された第1テキスト領域が、前記第1コミック画像において前記第1テキスト領域によって遮蔽されていた背景の予測結果に相当する第1画素群に置き換わった第2コミック画像を生成する手段、
前記第2コミック画像に、前記対象テキストの翻訳結果である翻訳テキストを配置し、第3コミック画像を生成する手段、
として機能させ、
前記判定する手段は、前記テキストのフォントが特定の種別でない場合、または前記テキストのフォントサイズが基準値を超える場合に、当該テキストが対象テキストでないと判定する、
プログラム。
【請求項2】
コンピュータを、
第1コミック画像からテキストが記載された領域であるテキスト領域を特定する手段、
前記第1コミック画像において、特定された前記テキスト領域のうち翻訳テキストによって置き換えられる対象となる対象テキストが記載された第1テキスト領域が、前記第1コミック画像において前記第1テキスト領域によって遮蔽されていた背景の予測結果に相当する第1画素群に置き換わった第2コミック画像を生成する手段、
前記第2コミック画像に、前記対象テキストの翻訳結果である翻訳テキストを配置し、第3コミック画像を生成する手段、
として機能させ
前記第1画素群によって置き換えられる前記第1テキスト領域は、当該第1テキスト領域に記載されたテキストを構成する各文字を縁取りした領域である、
プログラム。
【請求項3】
前記第2コミック画像を生成する手段は、前記第1コミック画像に基づく入力データに学習済みモデルを適用することで、前記第2コミック画像を生成する、
請求項1または請求項2に記載のプログラム。
【請求項4】
前記コンピュータを、
前記対象テキストの書式または配置態様の少なくとも1つを推定する手段、
前記対象テキストの書式または配置態様の少なくとも1つの推定結果に基づいて、前記翻訳テキストの書式または配置態様の少なくとも1つを制御する手段、
として機能させる、請求項1または請求項2に記載のプログラム。
【請求項5】
前記コンピュータを、前記第1コミック画像からテキストを囲う吹き出し領域を特定する手段、として機能させ、
前記制御する手段は、特定された前記吹き出し領域に前記第1テキスト領域が配置されている場合に、前記翻訳テキストを記載するオブジェクトのサイズを前記吹き出し領域よりも大きくなるように設定し、かつ前記対象テキストを記載するオブジェクトの位置情報の推定結果を前記翻訳テキストを記載するオブジェクトの位置情報として引き継がせる
請求項4に記載のプログラム。
【請求項6】
前記コンピュータを、
特定された前記テキスト領域に記載されたテキストに含まれる固有表現を抽出する手段、
抽出された前記固有表現に対する訳語を取得する手段、
前記固有表現と、当該固有表現に対して取得された訳語とを関連付ける辞書情報をコミック作品別に管理する手段、
として機能させ、
前記第1コミック画像は、特定のコミック作品の一部分を構成し、
前記翻訳テキストは、テキストの機械翻訳を行うことのできる第1学習済みモデルに前記特定のコミック作品に対応する辞書情報を学習することで作成された派生モデルである第2学習済みモデルを用いて、前記対象テキストに対して機械翻訳を行うことで生成されたテキストである、
請求項1または請求項2に記載のプログラム。
【請求項7】
前記コンピュータを、特定された前記テキスト領域に記載されたテキストの機械翻訳を、前記第1コミック画像に関して抽出された全ての固有表現に対応する訳語が取得された後に行う手段、としてさらに機能させる、
請求項6に記載のプログラム。
【請求項8】
コンピュータが、
第1コミック画像からテキストが記載された領域であるテキスト領域を特定するステップと、
特定された前記テキスト領域に記載されているテキストの属性に基づいて、当該テキストが翻訳テキストによって置き換えられる対象となる対象テキストであるか否かを判定するステップと、
前記第1コミック画像において、特定された前記テキスト領域のうち前記対象テキストが記載された第1テキスト領域が、前記第1コミック画像において前記第1テキスト領域によって遮蔽されていた背景の予測結果に相当する第1画素群に置き換わった第2コミック画像を生成するステップと、
前記第2コミック画像に、前記対象テキストの翻訳結果である翻訳テキストを配置し、第3コミック画像を生成するステップと
を実行
前記判定するステップでは、前記テキストのフォントが特定の種別でない場合、または前記テキストのフォントサイズが基準値を超える場合に、当該テキストが対象テキストでないと判定する、
方法。
【請求項9】
コンピュータが、
第1コミック画像からテキストが記載された領域であるテキスト領域を特定するステップと、
前記第1コミック画像において、特定された前記テキスト領域のうち翻訳テキストによって置き換えられる対象となる対象テキストが記載された第1テキスト領域が、前記第1コミック画像において前記第1テキスト領域によって遮蔽されていた背景の予測結果に相当する第1画素群に置き換わった第2コミック画像を生成するステップと、
前記第2コミック画像に、前記対象テキストの翻訳結果である翻訳テキストを配置し、第3コミック画像を生成するステップと
を実行
前記第1画素群によって置き換えられる前記第1テキスト領域は、当該第1テキスト領域に記載されたテキストを構成する各文字を縁取りした領域である、
方法。
【請求項10】
第1コミック画像からテキストが記載された領域であるテキスト領域を特定する手段と、
特定された前記テキスト領域に記載されているテキストの属性に基づいて、当該テキストが翻訳テキストによって置き換えられる対象となる対象テキストであるか否かを判定する手段と、
前記第1コミック画像において、特定された前記テキスト領域のうち前記対象テキストが記載された第1テキスト領域が、前記第1コミック画像において前記第1テキスト領域によって遮蔽されていた背景の予測結果に相当する第1画素群に置き換わった第2コミック画像を生成する手段と、
前記第2コミック画像に、前記対象テキストの翻訳結果である翻訳テキストを配置し、第3コミック画像を生成する手段と
を具備
前記判定する手段は、前記テキストのフォントが特定の種別でない場合、または前記テキストのフォントサイズが基準値を超える場合に、当該テキストが対象テキストでないと判定する、
情報処理装置。
【請求項11】
第1コミック画像からテキストが記載された領域であるテキスト領域を特定する手段と、
前記第1コミック画像において、特定された前記テキスト領域のうち翻訳テキストによって置き換えられる対象となる対象テキストが記載された第1テキスト領域が、前記第1コミック画像において前記第1テキスト領域によって遮蔽されていた背景の予測結果に相当する第1画素群に置き換わった第2コミック画像を生成する手段と、
前記第2コミック画像に、前記対象テキストの翻訳結果である翻訳テキストを配置し、第3コミック画像を生成する手段と
を具備
前記第1画素群によって置き換えられる前記第1テキスト領域は、当該第1テキスト領域に記載されたテキストを構成する各文字を縁取りした領域である、
情報処理装置。
【請求項12】
第1情報処理装置と第2情報処理装置とを具備するシステムであって、
前記第1情報処理装置は、
第1コミック画像からテキストが記載された領域であるテキスト領域を特定する手段と、
特定された前記テキスト領域に記載されているテキストの属性に基づいて、当該テキストが翻訳テキストによって置き換えられる対象となる対象テキストであるか否かを判定する手段と、
前記第1コミック画像において、特定された前記テキスト領域のうち前記対象テキストが記載された第1テキスト領域が、前記第1コミック画像において前記第1テキスト領域によって遮蔽されていた背景の予測結果に相当する第1画素群に置き換わった第2コミック画像を生成する手段と、
前記第2コミック画像に、前記対象テキストの翻訳結果である翻訳テキストを配置し、第3コミック画像を生成する手段と、
前記第3コミック画像を前記第2情報処理装置へ送信する手段とを備え、
前記判定する手段は、前記テキストのフォントが特定の種別でない場合、または前記テキストのフォントサイズが基準値を超える場合に、当該テキストが対象テキストでないと判定する、
システム。
【請求項13】
第1情報処理装置と第2情報処理装置とを具備するシステムであって、
前記第1情報処理装置は、
第1コミック画像からテキストが記載された領域であるテキスト領域を特定する手段と、
前記第1コミック画像において、特定された前記テキスト領域のうち翻訳テキストによって置き換えられる対象となる対象テキストが記載された第1テキスト領域が、前記第1コミック画像において前記第1テキスト領域によって遮蔽されていた背景の予測結果に相当する第1画素群に置き換わった第2コミック画像を生成する手段と、
前記第2コミック画像に、前記対象テキストの翻訳結果である翻訳テキストを配置し、第3コミック画像を生成する手段と、
前記第3コミック画像を前記第2情報処理装置へ送信する手段とを備え、
前記第1画素群によって置き換えられる前記第1テキスト領域は、当該第1テキスト領域に記載されたテキストを構成する各文字を縁取りした領域である、
システム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、情報処理装置、方法、プログラム、およびシステムに関する。
【背景技術】
【0002】
ある言語で作成されたコミックを、他の言語使用者に提供するために、翻訳コミックを作成することがある。質の高い翻訳コミックを作成するにあたり、文章の翻訳に加え、写植作業のやり直しおよびそれに伴う背景の補完等を行う必要がある。コミックに含まれる文章は膨大であり、これらの作業を全て人力で行うことは非効率である。
【0003】
特許文献1には、原文を翻訳して翻訳文を生成し、検出された吹出部の範囲に基づいて、原文削除漫画の吹出部に当該翻訳文を挿入して翻訳漫画を生成する技術が開示されている。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2003-022269号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
コミックは、絵と文字との高度な融合である。また、言語間で、文字の記載順序(縦書き、横書き)、および同等の情報量を表現するために必要な文字数、などが異なり得る。故に、コミックに含まれる文字列を単に翻訳して置き換えただけでは、制作者の意図した表現との乖離が生じ、翻訳コミックの品質が低下するおそれがある。
【0006】
特許文献1に記載の技術では吹出部に翻訳文を挿入している。しかしながら、コミックは吹き出しの外に配置される文字列を含む場合があり、かかる文字列に対して当該技術をそのまま適用することはできない。
【0007】
本開示の目的は、翻訳コミックの作成業務を効率化することである。
【課題を解決するための手段】
【0008】
本開示の一態様のプログラムは、コンピュータを、第1コミック画像からテキストが記載された領域であるテキスト領域を特定する手段、第1コミック画像において、特定されたテキスト領域のうち翻訳テキストによって置き換えられる対象となる対象テキストが記載された第1テキスト領域が、第1コミック画像に応じた第1画素群に置き換わった第2コミック画像を生成する手段、第2コミック画像に、対象テキストの翻訳結果である翻訳テキストを配置し、第3コミック画像を生成する手段、として機能させる。
【図面の簡単な説明】
【0009】
図1】本実施形態の情報処理システムの構成を示すブロック図である。
図2】本実施形態のクライアント装置の構成を示すブロック図である。
図3】本実施形態のサーバの構成を示すブロック図である。
図4】本実施形態の一態様の説明図である。
図5】本実施形態のテキストデータベースのデータ構造を示す図である。
図6】本実施形態の情報処理のフローチャートである。
図7】本実施形態の情報処理において取得される入力コミック画像の例を示す図である。
図8】本実施形態の情報処理において取得される中間コミック画像の例を示す図である。
図9】本実施形態の情報処理において取得される出力コミック画像の例を示す図である。
図10】変形例1の辞書データベースのデータ構造を示す図である。
図11】変形例1の情報処理のフローチャートである。
【発明を実施するための形態】
【0010】
以下、本発明の一実施形態について、図面に基づいて詳細に説明する。なお、実施形態を説明するための図面において、同一の構成要素には原則として同一の符号を付し、その繰り返しの説明は省略する。
【0011】
(1)情報処理システムの構成
情報処理システムの構成について説明する。図1は、本実施形態の情報処理システムの構成を示すブロック図である。
【0012】
図1に示すように、情報処理システム1は、クライアント装置10と、サーバ30とを備える。
クライアント装置10及びサーバ30は、ネットワーク(例えば、インターネット又はイントラネット)NWを介して接続される。
【0013】
クライアント装置10は、サーバ30にリクエストを送信する情報処理装置の一例である。クライアント装置10は、例えば、スマートフォン、タブレット端末、又は、パーソナルコンピュータである。クライアント装置10は、例えば、以下のユーザによって使用され得る。
・コミックの出版者(出版会社の構成員を含む)
・コミックの翻訳者(翻訳会社の構成員を含む)
・コミックの制作者(制作会社の構成員を含む)
・コミックの取次者(出版取次会社または電子取次会社の構成員を含む)
【0014】
サーバ30は、クライアント装置10から送信されたリクエストに応じたレスポンスをクライアント装置10に提供する情報処理装置の一例である。サーバ30は、例えば、サーバコンピュータである。
【0015】
(1-1)クライアント装置の構成
クライアント装置の構成について説明する。図2は、本実施形態のクライアント装置の構成を示すブロック図である。
【0016】
図2に示すように、クライアント装置10は、記憶装置11と、プロセッサ12と、入出力インタフェース13と、通信インタフェース14とを備える。クライアント装置10は、ディスプレイ21に接続される。
【0017】
記憶装置11は、プログラム及びデータを記憶するように構成される。記憶装置11は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、及び、ストレージ(例えば、フラッシュメモリ又はハードディスク)の組合せである。
【0018】
プログラムは、例えば、以下のプログラムを含む。
・OS(Operating System)のプログラム
・情報処理を実行するアプリケーション(例えば、ウェブブラウザ、翻訳コミック作成支援用のアプリケーション)のプログラム
【0019】
データは、例えば、以下のデータを含む。
・情報処理において参照されるデータベース
・情報処理を実行することによって得られるデータ(つまり、情報処理の実行結果)
【0020】
プロセッサ12は、記憶装置11に記憶されたプログラムを起動することによって、クライアント装置10の機能を実現するコンピュータである。プロセッサ12は、例えば、以下の少なくとも1つである。
・CPU(Central Processing Unit)
・GPU(Graphic Processing Unit)
・ASIC(Application Specific Integrated Circuit)
・FPGA(Field Programmable Array)
【0021】
入出力インタフェース13は、クライアント装置10に接続される入力デバイスから情報(例えばユーザの指示)を取得し、かつ、クライアント装置10に接続される出力デバイスに情報(例えば画像信号)を出力するように構成される。
【0022】
入力デバイスは、例えば、キーボード、ポインティングデバイス、タッチパネル、又は、それらの組合せである。
出力デバイスは、例えば、ディスプレイ21、スピーカ、又は、それらの組合せである。
【0023】
通信インタフェース14は、クライアント装置10と外部装置(例えばサーバ30)との間の通信を制御するように構成される。
【0024】
ディスプレイ21は、画像(静止画、または動画)を表示するように構成される。ディスプレイ21は、例えば、液晶ディスプレイ、または有機ELディスプレイである。
【0025】
(1-2)サーバの構成
サーバの構成について説明する。図3は、本実施形態のサーバの構成を示すブロック図である。
【0026】
図3に示すように、サーバ30は、記憶装置31と、プロセッサ32と、入出力インタフェース33と、通信インタフェース34とを備える。
【0027】
記憶装置31は、プログラム及びデータを記憶するように構成される。記憶装置31は、例えば、ROM、RAM、及び、ストレージ(例えば、フラッシュメモリ又はハードディスク)の組合せである。
【0028】
プログラムは、例えば、以下のプログラムを含む。
・OSのプログラム
・情報処理を実行するアプリケーションのプログラム
【0029】
データは、例えば、以下のデータを含む。
・情報処理において参照されるデータベース
・情報処理の実行結果
【0030】
プロセッサ32は、記憶装置31に記憶されたプログラムを起動することによって、サーバ30の機能を実現するコンピュータである。プロセッサ32は、例えば、以下の少なくとも1つである。
・CPU
・GPU
・ASIC
・FPGA
【0031】
入出力インタフェース33は、サーバ30に接続される入力デバイスから情報(例えばユーザの指示)を取得し、かつ、サーバ30に接続される出力デバイスに情報(例えば画像信号)を出力するように構成される。
入力デバイスは、例えば、キーボード、ポインティングデバイス、タッチパネル、又は、それらの組合せである。
出力デバイスは、例えば、ディスプレイである。
【0032】
通信インタフェース34は、サーバ30と外部装置(例えばクライアント装置10)との間の通信を制御するように構成される。
【0033】
(2)実施形態の一態様
本実施形態の一態様について説明する。図4は、本実施形態の一態様の説明図である。
【0034】
図4に示すように、サーバ30は、コミック画像C10を取得する。図4の例では、コミック画像C10は1コマ分の画像であるが、サーバ30は任意の単位(例えば、任意の数のコマ、ページ、話、または巻)分の画像を取得可能である。コミック画像C10は、翻訳前の言語(以下、「原言語」という)のテキストT10a,T10bが記載されたテキスト領域を含む。
【0035】
サーバ30は、コミック画像C10からテキスト領域を特定する。各テキスト領域は、オブジェクト(例えばテキストボックスなどのテキストオブジェクト)として特定される。テキストオブジェクトは、例えばオブジェクトの属性情報(例えば、位置(座標)、傾き、サイズ、および形状、など)に加えて、テキストの情報(例えばテキストの内容、およびテキストの書式、など)を含むことができる。
【0036】
サーバ30は、特定したテキスト領域のうち、翻訳テキストによって置き換えられる対象となる(言い換えると、コミック画像C10の翻訳版を作成する過程で削除される対象となる)テキストT10a,T10b(「対象テキスト」の例)が記載されたテキスト領域が別の画素群に置き換わったコミック画像C11を生成する。サーバ30は、コミック画像C10に基づいて、コミック画像C11を生成する。一例として、サーバ30は、後述する学習済みモデルをコミック画像C10に基づく入力データに適用することで、コミック画像C11を生成する。この学習済みモデルは、例えば、テキスト領域が取り除かれる前のコミック画像に基づく学習用の入力データと、当該テキスト領域を取り除いた後に存在すると予想される背景を人間が例えば画像編集アプリケーションを操作して補完することで作成されたコミック画像に基づく教師データとを含む学習データセットを用いた教師あり学習により構築され得る。
【0037】
コミック画像C11では、コミック画像C10のテキストT10a,T10bが記載されたテキスト領域に対応する部分が、単なる空白等ではなく、コミック画像C10に応じた画素群に置き換わっている。故に、コミック画像C11は、コミック画像C10が有していた絵としての品質を維持できる。例えば、読者が、画素群を単体で、またはその周囲の画素とともに見た場合に、違和感を覚えにくい。
【0038】
サーバ30は、コミック画像C11に、テキストT10a,T10bの翻訳結果(機械翻訳または人による翻訳結果)である翻訳テキストT12a,T12bを配置することで、コミック画像C12を生成する。サーバ30は、テキストT10a,T10bが記載されたテキスト領域の位置に基づいて、翻訳テキストT12a,T12bの配置を決定する。一例として、サーバ30は、テキストT10a,T10bが記載されたテキスト領域(オブジェクト)の持つ位置情報を、翻訳テキストT12a,T12bが記載されたテキスト領域の位置情報として引き継がせるが、両者を完全に一致させる必要はない。
【0039】
このように、本実施形態のサーバ30は、コミック画像C10のうち翻訳テキストによって置き換えられる対象となるテキストT10a,T10bが記載されたテキスト領域が当該コミック画像C10に応じた画素群に置き換わったコミック画像C11を生成する。そして、サーバ30は、コミック画像C11に、テキストT10a,T10bの翻訳結果である翻訳テキストT12a,T12bを配置することで、コミック画像C12を生成する。これにより、コミック画像C12において、コミック画像C10ではテキストT10a,T10bによって遮蔽されていた画素が、翻訳テキストT12a,T12bによって遮蔽されず露出したとしても、当該画素は読者に違和感を与えにくい。つまり、サーバ30によれば、オリジナルのコミックではテキストによって遮蔽されていたが翻訳コミックでは翻訳テキストによって遮蔽されず露出する部分が生じたとしても、当該部分が人の手を要することなく自動的に補完されるので、翻訳コミックの作成業務を効率化することができる。
【0040】
(3)データベース
本実施形態のデータベースについて説明する。以下のデータベースは、記憶装置31に記憶される。
【0041】
(3-1)テキストデータベース
本実施形態のテキストデータベースについて説明する。図5は、本実施形態のテキストデータベースのデータ構造を示す図である。
【0042】
テキストデータベースには、テキスト情報を表すレコードが登録される。テキスト情報は、翻訳前のコミック作品に登場するテキスト(以下、原テキストという)に関する情報である。
テキストデータベースは、コミック作品毎に構築されてもよいし、複数のコミック作品に亘って構築されてもよい。
【0043】
図5に示すように、テキストデータベースは、「テキストID」フィールドと、「登場ページ」フィールドと、「原テキスト」フィールドと、「翻訳テキスト」フィールドと、「書式」フィールドと、「配置態様」フィールドと、「置換対象」フィールドと、を含む。各フィールドは、互いに関連付けられている。
【0044】
「テキストID」フィールドには、テキストIDが格納される。テキストIDは、レコードに対応する原テキストを識別する情報である。
【0045】
「登場ページ」フィールドには、登場ページ情報が格納される。登場ページ情報は、レコードに対応する原テキストが記載されているページに関する情報である。
【0046】
「原テキスト」フィールドには、原テキスト情報が格納される。原テキスト情報は、レコードに対応する原テキストの内容を示す。
【0047】
「翻訳テキスト」フィールドには、翻訳テキスト情報が格納される。翻訳テキスト情報は、レコードに対応する原テキストの翻訳結果の内容を示す。
【0048】
「書式」フィールドには、書式情報が格納される。書式情報は、レコードに対応する原テキストの書式に関する情報である。テキストの書式については後述する。なお、各レコードには、レコードに対応する原テキストの翻訳テキストの書式に関する情報も格納されてよい。
【0049】
「配置態様」フィールドには、配置態様情報が格納される。配置態様情報は、レコードに対応する原テキストの配置態様に関する情報である。テキストの配置態様については後述する。なお、各レコードには、レコードに対応する原テキストの翻訳テキストの配置態様に関する情報も格納されてよい。
【0050】
「置換対象」フィールドには、置換対象フラグが格納される。置換対象フラグは、レコードに対応する原テキストが後述する対象テキストであるか否かを示す。
【0051】
(4)情報処理
本実施形態の情報処理について説明する。図6は、本実施形態の情報処理のフローチャートである。図7は、本実施形態の情報処理において取得される入力コミック画像の例を示す図である。図8は、本実施形態の情報処理において取得される中間コミック画像の例を示す図である。図9は、本実施形態の情報処理において取得される出力コミック画像の例を示す図である。
【0052】
本実施形態の情報処理は、例えばクライアント装置10がユーザ(一例としてコミックの出版者)からの指示に基づいてサーバ30に出力コミック画像の生成を要求することで、開始し得る。
【0053】
図6に示すように、サーバ30は、コミック画像の取得(S130)を実行する。
具体的には、サーバ30は、入力コミック画像を取得する。入力コミック画像は、例えば第1言語(原言語)で作成されたコミックを構成する。サーバ30は、クライアント装置10から送信された入力コミック画像を受信してもよいし、記憶装置31に予め保存されている入力コミック画像を読み出してもよいし、外部装置(例えばスキャナ)に保存されている入力コミック画像の送信を要求してもよい。
【0054】
一例として、サーバ30は、図7に示す入力コミック画像C20を取得する。図7の入力コミック画像C20は、1ページ分の画像に相当する。入力コミック画像C20は、コマ割りされた絵と、テキストT21~T28と、吹き出し領域B24,B27とを含む。
【0055】
テキストT21,T22,T25,T28は、標準的なフォントで、吹き出し外(例えばキャラクタまたは背景等の絵の上)に配置されている。かかるテキストは、典型的には、キャプション、またはキャラクタの思考もしくは台詞、または効果音等を表現する。
【0056】
テキストT23,T26は、装飾的もしくは独特の種類、または基準値を超える大きさのフォント(つまり標準的でないフォント)で、吹き出し外に配置されている。かかるテキストは、典型的には効果音またはオノマトペ等を表現する。
【0057】
テキストT24,T27はそれぞれ、吹き出し領域B24,B27によって囲われている。かかるテキストは、典型的にはキャラクタの台詞または思考等を表現する。
【0058】
ステップS130の後に、サーバ30は、テキスト領域の特定(S131)を実行する。
具体的には、サーバ30は、ステップS130において取得した入力コミック画像に対して画像解析を行い、テキスト領域を特定する。図7の例では、サーバ30は、テキストT21~T28が記載されている領域をそれぞれ特定する。なお、画像解析は、学習済みモデルによる推論の実行を含み得る。
【0059】
ステップS131の後に、サーバ30は、吹き出し領域の特定(S132)を実行する。
具体的には、サーバ30は、ステップS130において取得した入力コミック画像に対して画像解析を行い、吹き出し領域を特定する。なお、画像解析は、学習済みモデルによる推論の実行を含み得る。一例として、サーバ30は、入力コミック画像に対してエッジ検出を行い、エッジによって形成される閉領域を吹き出し領域として特定してもよい。また、サーバ30は、ステップS131において特定したテキスト領域の周囲に探索範囲を制限してもよい。図7の例では、サーバ30は、吹き出し領域B24,B27をそれぞれ特定する。
なお、ステップS131とステップS132は、逆の順序で実行されてもよいし、並列的に実行されてもよい。
【0060】
ステップS132の後に、サーバ30は、テキストの解析(S133)を実行する。
具体的には、サーバ30は、ステップS131において特定したテキスト領域に記載されているテキストを抽出する。第1例として、サーバ30は、OCR(Optical Character Recognition)(AI OCRを含み得る)処理を行うことで、テキストを抽出してもよい。第2例として、サーバ30は、入力コミック画像に基づく入力データに学習済みモデルを適用することで、テキストを抽出してもよい。つまり、例えば、コミック画像に基づく学習用の入力データと、当該コミック画像に含まれるテキストに基づく教師データとを含む学習データセットを用いた教師あり学習により構築され得る。かかる学習済みモデルによれば、例えばOCR処理では抽出が困難な、特殊なフォントで記載されたテキスト、描き文字に相当するテキスト、などが抽出可能となる。
【0061】
サーバ30は、抽出したテキストの属性を推定する。テキストの属性は、テキストの書式、テキスト(オブジェクト)の配置態様、テキストのソース、またはそれらの組み合わせを含む。
【0062】
テキストの書式は、例えば以下の少なくとも1つを含むことができる。
・フォントサイズ
・フォントの種類
・フォントカラー
・行間
・文字間
・横書き/縦書き設定
・装飾(例えば、縁取、塗りつぶし、など)の有無
【0063】
テキストの配置態様は、例えば以下の少なくとも1つを含むことができる。
・テキストの位置(一例として、テキスト、または当該テキストを構成する文字列もしくは文字の代表点(例えば中心点)の位置)
・テキストの傾き(一例として、テキストを構成する文字の記載方向がコミック画像の上下方向または左右方向に対してどれだけ傾いているか)
・テキストオブジェクトのサイズ
・テキストオブジェクトの形状
【0064】
テキストのソースは、例えば、抽出したテキストがキャラクタに由来する(例えば、キャラクタの台詞、または思考に相当する)か、または効果音もしくはオノマトペに由来する(つまり、非言語の音、または動きの言語的表現に相当するか)、を表す。このほか、テキストのソースとして、動物の鳴き声に由来するテキスト、説明用のテキスト、等がさらに判別されてよい。
【0065】
サーバ30は、解析結果に基づいて、テキストデータベース(図5)に新規レコードを追加する。すなわち、サーバ30は、新規のテキストIDと、入力コミック画像に対応する登場ページ情報と、抽出したテキストに対応する原テキスト情報と、上記推定結果に基づく書式情報および配置態様情報を含むレコードを生成し、テキストデータベースに追加する。
【0066】
ステップS133の後に、サーバ30は、テキスト種別の判定(S134)を実行する。
具体的には、サーバ30は、ステップS133において抽出したテキストを、以下のいずれかの種別として判定する。
・翻訳テキストによって置き換えられる対象となるテキスト(以下、「対象テキスト」という)
・翻訳テキストによって置き換えられる対象とならないテキスト(以下、「非対象テキスト」という)
【0067】
サーバ30は、判定結果に基づいて、テキストデータベース(図5)において対応するレコードに含まれる置換対象フラグを設定する。
【0068】
後述するように、対象テキストは、図6の情報処理によって生成される出力コミック画像において維持されない(つまり、対応する翻訳テキストと置き換わる)。他方、非対象テキストは、出力コミック画像において維持される(一例として、対応する翻訳テキストと併存する)。
【0069】
テキスト種別の判定(S134)の第1例として、サーバ30は、クライアント装置10のユーザからの指示に応じて各テキストの種別を判定する。例えば、クライアント装置10は、サーバ30から抽出されたテキストの情報を取得し、当該情報に基づく画面をディスプレイ21に表示する。ユーザは、対象テキストを指定するユーザ指示、または非対象テキストを指定するユーザ指示を、クライアント装置10に対して行う。
【0070】
テキスト種別の判定(S134)の第2例として、サーバ30は、基準値以下のサイズのフォントを使用していると推定されたテキストを、対象テキストとして判定する。サーバ30は、基準値を超えるサイズのフォントを使用していると推定されたテキストを非対象テキストと判定する。
【0071】
テキスト種別の判定(S134)の第3例として、サーバ30は、キャラクタに由来すると推定されたテキストを、対象テキストとして判定する。サーバ30は、効果音またはオノマトペに由来すると推定されたテキストを非対象テキストと判定する。
【0072】
テキスト種別の判定(S134)の第4例として、サーバ30は、基準値以下のサイズのフォントを使用し、かつキャラクタに由来すると推定されたテキストを、対象テキストとして判定する。サーバ30は、基準値を超えるサイズのフォントを使用し、かつ効果音またはオノマトペに由来すると推定されたテキストを非対象テキストと判定する。
【0073】
図7の例では、サーバ30は、テキストT21~T22,T24~T25,T27~T28を対象テキストと判定する。他方、サーバ30は、テキストT23,T26を非対象テキストと判定する。
【0074】
ステップS134の後に、サーバ30は、中間コミック画像の生成(S135)を実行する。
具体的には、サーバ30は、ステップS130において取得した入力コミック画像のうち、ステップS134において判定した対象テキストが記載されたテキスト領域が別の画素群に置き換わった中間コミック画像を当該入力コミック画像に基づいて生成する。なお、中間コミック画像は、1つの画像(ファイル)であってもよいし、入力コミック画像のうち対象テキストが記載されたテキスト領域の上記画素群が重ねて配置された画像(つまり、レイヤー化された複数の画像)であってもよい。また、サーバ30は、必要な画素群を生成し、入力コミック画像上に配置することで中間コミック画像を構成してもよいし、生成した画素群と入力コミック画像を1つの画像として合成することで中間コミック画像を生成してもよい。
【0075】
一例として、サーバ30は、入力コミック画像に基づく入力データに学習済みモデルを適用することで、中間コミック画像を生成してもよい。ステップS135において使用可能な学習済みモデルは、テキスト領域の下にコミック画像の一部が描画されていたと仮定した場合に、当該一部を構成する画素群にふさわしい値を、入力コミック画像に基づいて推論する。例えば、テキスト領域が取り除かれる前の学習用のコミック画像に基づく学習用の入力データと、当該テキスト領域を取り除いた後に存在すると予想される背景を人間が例えば画像編集アプリケーションを操作して補完することで作成されたコミック画像に基づく教師データとを含む学習データセットを用いた教師あり学習により構築され得る。或いは、学習用のコミック画像に相当する教師データと、当該コミック画像の一部の領域を別の画素群(例えば、テキスト領域、または空白)に置き換えたコミック画像に基づく学習用の入力データとを含む学習データセットを用いた教師あり学習を行うことでこのような学習済みモデルを構築することができる。なお、学習済みモデルの入出力データは、コミック画像の全体に相当せずともよい。例えば、学習済みモデルの入力データは、テキスト領域の周囲の画素群に限られてもよいし、学習済みモデルの出力データは、テキスト領域を置き換えるための画素群に限られてもよい。
【0076】
一例として、サーバ30は、図8に示す中間コミック画像C30を生成する。図8の中間コミック画像C30は、コマ割りされた絵と、テキストT23,T26と、吹き出し領域B24,B27とを含む。
【0077】
中間コミック画像C30では、入力コミック画像C20に含まれていたテキストT21~T28のうち非対象テキストと判定されたテキストT23,T26が維持されている。他方、中間コミック画像C30では、入力コミック画像C20に含まれていたテキストT21~T28のうち対象テキストと判定されたテキストT21~T22,T24~T25,T27~T28が記載されていたテキスト領域は、別の画素群に置き換わっている。
【0078】
ステップS135の後に、サーバ30は、翻訳テキストの配置(S137)を実行する。
具体的には、サーバ30は、ステップS135において生成した中間コミック画像に対して、ステップS133において抽出したテキストに対応する翻訳テキストを配置する。これにより、サーバ30は、出力コミック画像を生成する。
【0079】
なお、出力コミック画像は、画像(つまり、中間コミック画像)と、当該画像上に配置されたテキストオブジェクトとの組み合わせであってもよい。つまり、出力コミック画像は、翻訳テキストの内容、書式、配置態様等を編集可能な状態で生成されてもよい。この場合に、サーバ30は、クライアント装置10のユーザからの指示(例えば作業完了指示)に応じて、画像およびテキストオブジェクトを1つの画像ファイルとして統合してもよい。
【0080】
サーバ30は、テキストに対して自ら機械翻訳処理を行うことで翻訳テキストを生成してもよいし、外部装置から翻訳テキストを取得してもよい。外部装置は、サーバ30からテキストを取得し、当該テキストに対して機械翻訳処理を行ってもよいし、当該テキストを翻訳者に対して提示し当該翻訳者から翻訳テキストの入力を受け付けてもよい。さらに、クライアント装置10のユーザ(例えば翻訳者)は、配置された翻訳テキストを必要に応じて編集することができる。サーバ30は、翻訳テキストの生成または編集に応じて、テキストデータベース(図5)における対応するレコードに含まれる翻訳テキスト情報を更新する。
【0081】
サーバ30は、翻訳前のテキストの書式または配置態様に基づいて、翻訳テキストの書式または配置態様を制御する。
【0082】
第1例として、サーバ30は、翻訳テキストの書式を、当該翻訳テキストに対応する対象テキストの書式と一致させる。また、サーバ30は、翻訳テキスト(オブジェクト)の位置(画像内の座標)、傾き、またはサイズを、当該翻訳テキストに対応する対象テキスト(オブジェクト)の位置、傾き、またはサイズに基づいて決定する。
【0083】
第2例として、サーバ30は、翻訳前のテキストが縦書きの言語(例えば日本語)であって、横書きの言語(例えば英語)のテキストへ翻訳される場合に、翻訳テキストを1文字ずつ、または1単語ずつ縦方向に配置してもよい。これにより、翻訳前のテキストのレイアウトを大きく崩すことなく、翻訳テキストを読みやすい態様で配置することができる。なお、翻訳テキストを1単語ずつ縦方向に配置する例において、サーバ30は、単語を構成する文字数が閾値を超える場合には、ハイフネーションにより単語を分割することで一行を構成する文字数が過度に多くならないようにしてもよい。
【0084】
第3例として、サーバ30は、ステップS132において特定された吹き出し領域に、対象テキストが記載されたテキスト領域が配置されている場合に、当該対象テキストに対応する翻訳テキストが当該吹き出し領域をはみ出さない範囲で当該翻訳テキストの書式および配置態様を制御する。例えば、サーバ30は、翻訳テキスト(オブジェクト)が吹き出し領域に収まるように位置およびサイズを設定し、設定されたオブジェクトに翻訳テキストが収まる範囲でフォントサイズを最大化する。ただし、一部の翻訳テキストのフォントサイズが他の翻訳テキストに比べて極端に大きくならないよう、フォントサイズに上限が設けられてよい。
【0085】
第4例として、上記第3例とは逆に、サーバ30は、ステップS132において特定された吹き出し領域に、対象テキストが記載されたテキスト領域が配置されている場合に、当該対象テキストに対応する翻訳テキストが当該吹き出し領域をはみ出すことを許容したうえで当該翻訳テキストの書式および配置態様を制御する。例えば、サーバ30は、翻訳テキスト(オブジェクト)のサイズが吹き出し領域よりも大きくなるように(例えば、翻訳テキストを記載するテキストボックスが吹き出し領域をはみ出すように)位置およびサイズを設定し、設定されたオブジェクトに翻訳テキストが収まる範囲でフォントサイズを最大化する。これにより、例えばスマートフォンなどの小画面のデバイスでコミックを閲覧する場合にも、翻訳テキストの判読性を確保することができる。
【0086】
第5例として、サーバ30は、学習済みモデルを用いて翻訳テキストの書式および配置態様を決定する。この学習済みモデルは、例えば、以下の情報のうち少なくとも1つに基づく入力データに適用され、翻訳テキストの最適な書式または配置態様を推論する。
・入力コミック画像または中間コミック画像
・翻訳前のテキストが記載されたテキスト領域が配置されている吹き出し領域の特定結果
・翻訳前のテキストの属性の推定結果
・翻訳前のテキストの種別の判定結果
・翻訳テキスト
このような学習済みモデルは、例えば、学習用のコミック画像に基づいて生成した学習用の入力データと、当該学習用のコミック画像に含まれる対象テキストに対応する翻訳テキストの書式または配置態様を人間が最適化した結果を示す教師データとを含む学習データセットを用いた教師あり学習を行うことで構築することができる。
【0087】
一例として、サーバ30は、図9に示す出力コミック画像C40を生成する。図9の出力コミック画像C40は、コマ割りされた絵と、テキストT23,T26,T41~T48と、吹き出し領域B24,B27とを含む。
【0088】
テキストT41~テキストT48は、それぞれテキストT21~T28に対応する翻訳テキストである。
【0089】
非対象テキストに相当するテキストT23,T26は、出力コミック画像C40において維持されている。テキストT43,T46は、対応するテキストT23,T26の周囲に配置される。
【0090】
サーバ30は、ステップS137を以て、図6の情報処理を終了する。
なお、サーバ30は、図6の情報処理を終了する前に、ステップS137において生成した出力コミック画像を外部装置(例えばクライアント装置10)へ送信してもよい。
【0091】
(5)小括
以上説明したように、本実施形態のサーバ30は、入力コミック画像からテキスト領域を特定し、入力コミック画像のうち対象テキストが記載されたテキスト領域が入力コミック画像に応じた画素群に置き換わった中間コミック画像を生成し、当該中間コミック画像に翻訳テキストを配置し、出力コミック画像を生成する。これにより、入力コミック画像の翻訳版に相当する出力コミック画像を効率的に作成することができる。また、対象テキストが記載されたテキスト領域が入力コミック画像から取り除かれることにより露出する部分が生じたとしても、当該部分が読者に与える違和感を抑制することができる。
【0092】
画素群は、入力コミック画像において、対象テキストが記載されたテキスト領域によって遮蔽されていた背景の予測結果に相当してもよい。これにより、周囲の見た目と調和した画素群によりテキスト領域が置き換わるので、読者に与える違和感をいっそう抑制することができる。
【0093】
サーバ30は、入力コミック画像に基づく入力データに学習済みモデルを適用することで、中間コミック画像を生成してもよい。これにより、テキスト領域が入力コミック画像の内容にふさわしい画素群に置き換わった中間コミック画像を生成することができる。
【0094】
サーバ30は、特定されたテキスト領域に記載されているテキストの属性に基づいて、当該テキストが対象テキストであるか否かを判定してもよい。これにより、画素群による置き換え(補完)に適さないテキスト(例えば広範囲な補完が必要となるテキスト)を対象テキストから除外することができる。例えば、サーバ30は、テキストが効果音またはオノマトペに由来する場合、またはテキストのフォントサイズが基準値を超える場合に、当該テキストが対象テキストでないと判定してもよい。これにより、原作者の個性が反映されやすい擬音語または擬態語に相当するテキストを維持したり、フォントサイズの大きいテキストに対して補完を行うことで目立つ粗が生じるのを防いだりすることができる。
【0095】
サーバ30は、対象テキストの書式または配置態様の少なくとも1つを推定し、当該推定結果に基づいて、翻訳テキストの書式または配置態様の少なくとも1つを制御してもよい。これにより、出力コミック画像における翻訳テキストの表現が、入力コミック画像における対象テキストの表現(原作者が何らかの意図を込めて決定した書式または配置態様)と乖離するのを抑制することができる。
【0096】
サーバ30は、入力コミック画像からテキストを囲う吹き出し領域を特定し、当該吹き出し領域に対象テキストが記載されたテキスト領域が配置されている場合に、翻訳テキストが当該吹き出し領域をはみ出すことを許容しながら当該翻訳テキストの書式または配置態様の少なくとも1つを制御してもよい。これにより、例えばスマートフォンなどの小画面のデバイスでコミックを閲覧する場合にも、翻訳テキストの判読性を確保することができる
【0097】
(6)変形例
本実施形態の変形例について説明する。
【0098】
(6-1)変形例1
変形例1について説明する。変形例1は、コミック作品毎に固有表現と訳語とを関連付ける辞書情報を管理する例である。
【0099】
(6-1-1)データベース
変形例1のデータベースについて説明する。以下のデータベースは、記憶装置31に記憶される。
【0100】
(6-1-1-1)辞書データベース
変形例1の辞書データベースについて説明する。図10は、変形例1の辞書データベースのデータ構造を示す図である。
【0101】
辞書データベースには、辞書情報が格納される。辞書情報は、コミック作品に出現した固有表現と、当該固有表現に対して割り当てられた訳語とを関連付ける。辞書データベースは、コミック作品別に管理される。例えば、各辞書データベースは、コミック作品を識別する識別子に関連付けられてよい。
【0102】
図10に示すように、辞書データベースは、「固有表現ID」フィールドと、「原表現」フィールドと、「訳語」フィールドと、「初出位置」フィールドと、「カテゴリ」フィールドと、「出現回数」フィールドとを含む。各フィールドは、互いに関連付けられている。
【0103】
「固有表現ID」フィールドには、固有表現IDが格納される。固有表現IDは、辞書情報に対応する固有表現を識別する。
【0104】
「原表現」フィールドには、原表現情報が格納される。原表現情報は、同一レコード内の固有表現IDによって特定される固有表現(以下、「対象固有表現」という)の原言語での表現に関する情報である。一例として、原表現情報は、対象固有表現を原言語で表記したテキストであってよい。
【0105】
「訳語」フィールドには、訳語情報が格納される。訳語情報は、対象固有表現の翻訳語の言語(以下、「目的言語」という)での表現(すなわち訳語)に関する情報である。一例として、訳語情報は、対象固有表現を目的言語で表記したテキストであってよい。訳語情報は、例えば人間の翻訳者によって指定される。
【0106】
「初出位置」フィールドには、初出位置情報が格納される。初出位置情報は、対象固有表現の初出位置に関する情報である。初出位置情報は、例えば、巻数、話数、ページ数、コマ数、またはそれらの組み合わせで表現されてよい。
【0107】
「カテゴリ」フィールドには、カテゴリ情報が格納される。カテゴリ情報は、対象固有表現が属するカテゴリに関する情報である。一例として、カテゴリは、キャラクタ名、組織名、地名、などを含むことができる。
【0108】
「出現回数」フィールドには、出現回数情報が格納される。出現回数情報は、対象固有表現の出現した回数に関する情報である。
【0109】
(6-1-2)情報処理
変形例1の情報処理について説明する。図11は、変形例1の情報処理のフローチャートである。
【0110】
変形例1の情報処理は、例えばクライアント装置10がユーザ(一例としてコミックの出版者)からの指示に基づいてサーバ30に出力コミック画像の生成を要求することで、開始し得る。
【0111】
図11に示すように、サーバ30は本実施形態の情報処理と同様に、コミック画像の取得(S130)、テキスト領域の特定(S131)、吹き出し領域の特定(S132)、およびテキストの解析(S133)を実行する。
【0112】
また、ステップS133の後に、サーバ30は本実施形態の情報処理と同様に、テキスト種別の判定(S134)、および中間コミック画像の生成(S135)を実行する。他方、サーバ30は、これらステップS134~S135の処理と並行して、以下に説明するステップS234~S236の処理を実行する。
【0113】
ステップS133の後に、サーバ30は、固有表現の抽出(S234)を実行する。
具体的には、サーバ30は、ステップS133において抽出したテキストを単語単位に分解する。テキストが日本語などの分かち書きされない言語に対応する場合には、サーバ30はテキストに対して形態素解析処理を行ってよい。
【0114】
サーバ30は、各単語を汎用辞書データベースと照合する。ここで、汎用辞書データベースには、一般的な単語(例えば、普通名詞、著名な固有名詞、等)とその訳語とを関連付ける汎用情報が格納される。汎用辞書データベースは、コミック作品に関わらず共通に使用される。サーバ30は、汎用辞書データベースに該当するレコードが格納されていない単語を固有表現として抽出する。
【0115】
サーバ30は、抽出した固有表現が処理対象のコミック作品において初出である場合に、辞書データベースに新規レコードを追加する。新規レコードには、新規の固有表現IDと、固有表現の抽出結果に応じた原表現情報と、固有表現の抽出位置に応じた初出位置情報と、出現回数が1回であることを示す出現回数情報とが格納される。他方、サーバ30は、抽出した固有表現が、処理対象のコミック作品において既出である場合には該当するレコードの出現回数情報を更新する。
【0116】
ステップS234の後に、サーバ30は、訳語の取得(S235)を実行する。
具体的には、サーバ30は、ステップS234において抽出した固有表現に対応し、かつ訳語情報が格納されていない固有表現の訳語を取得する。なお、ステップS234において固有表現が抽出されなかった場合に、ステップS235~S236は省略可能である。
【0117】
一例として、サーバ30は、固有表現情報(少なくとも原表現情報)をクライアント装置10へ送信し、クライアント装置10は固有表現情報をユーザ(例えば翻訳者)に提示する。例えば、クライアント装置10は、固有表現情報に基づく画面をディスプレイ21に表示する。画面に表示される情報には、固有表現が登場する場面のコミック画像が含まれてもよい。固有表現が登場する場面のコミック画像は、例えば、テキストデータベース(図5)において、当該固有表現が抽出された原テキストに対応するレコードに含まれる登場ページ情報および配置態様(位置)情報に基づいて特定可能である。クライアント装置10は、ユーザから固有表現に対する訳語の指定を受け付ける。クライアント装置10は、指定された訳語を特定可能な情報をサーバ30へ送信する。
【0118】
なお、クライアント装置10は、さらに、ユーザから固有表現に対するカテゴリの指定を受け付けてもよい。この場合に、クライアント装置10は、指定されたカテゴリを特定可能な情報をサーバ30へ送信する。
【0119】
ステップS235の後に、サーバ30は、辞書情報の更新(S236)を実行する。
具体的には、サーバ30は、ステップS235において取得した訳語情報を辞書データベース(図10)に格納する。また、サーバ30は、ステップS235においてカテゴリ情報を取得した場合には、当該カテゴリ情報を辞書データベース(図10)に格納してもよい。
【0120】
ステップS234~S236の処理を実行することで、ステップS130において取得した入力コミック画像におけるテキストに含まれる固有表現に対して適切な訳語を割り当てることができる。
【0121】
ステップS135およびステップS236の後に、サーバ30は、翻訳テキストの配置(S237)を実行する。
具体的には、サーバ30は、ステップS135において生成した中間コミック画像に対して、ステップS133において抽出したテキストに対応する翻訳テキストを配置する。これにより、サーバ30は、出力コミック画像を生成する。
【0122】
一例として、サーバ30または外部装置は、ステップS130において取得した入力コミック画像の属する特定のコミック作品に対応する辞書データベース(図10)を参照し、機械翻訳のための学習済みモデルの追加学習を行うことで、当該特定のコミック作品に特化した派生モデルを作成する。サーバ30または外部装置は、テキストに対して上記派生モデルを用いた機械翻訳処理を行うことで翻訳テキストを生成する。さらに、クライアント装置10のユーザ(例えば翻訳者)は、配置された翻訳テキストを必要に応じて編集することができる。サーバ30は、翻訳テキストの生成または編集に応じて、テキストデータベース(図5)における対応するレコードに含まれる翻訳テキスト情報を更新する。
【0123】
別の例として、サーバ30は、ステップS130において取得した入力コミック画像の属する特定のコミック作品に対応する辞書データベース(図10)を参照し、テキストに含まれる固有表現を対応する訳語に置き換えることで中間テキストを生成する。サーバ30は、中間テキストに対して自ら機械翻訳処理を行うことで翻訳テキストを生成してもよいし、外部装置から翻訳テキストを取得してもよい。外部装置は、サーバ30から中間テキストを取得し、当該中間テキストに対して機械翻訳処理を行ってもよいし、当該中間テキストを翻訳者に対して提示し当該翻訳者から翻訳テキストの指定を受け付けてもよい。さらに、クライアント装置10のユーザ(例えば翻訳者)は、配置された翻訳テキストを必要に応じて編集することができる。サーバ30は、翻訳テキストの生成または編集に応じて、テキストデータベース(図5)における対応するレコードに含まれる翻訳テキスト情報を更新する。
【0124】
さらなる別の例として、サーバ30、または外部装置が、入力コミック画像の属する特定のコミック作品に対応する辞書データベース(図10)を参照して、テキストに対する機械翻訳処理を行ってもよい。また、外部装置が、テキストおよび関連する辞書情報を翻訳者に対して提示し当該翻訳者から翻訳テキストの指定を受け付けてもよい。
【0125】
サーバ30は、翻訳前のテキストの書式または配置態様に基づいて、翻訳テキストの書式または配置態様を制御する。翻訳テキストの書式または配置態様を制御の具体例は、本実施形態の情報処理と同様である。
【0126】
サーバ30は、機械翻訳の実行範囲中の原テキストに含まれる全ての固有表現について、訳語の入力完了、または入力された訳語の確認完了を伝える操作を、クライアント装置10を介してユーザから受け付けたことに応じて、これらの原テキストの機械翻訳を開始してもよい。これにより、固有表現の訳語の指定漏れにより、不適切な翻訳テキストが生成され、作業効率が低下するのを防ぐことができる。
【0127】
サーバ30は、ステップS237を以て、図11の情報処理を終了する。
なお、サーバ30は、図11の情報処理を終了する前に、ステップS237において生成した出力コミック画像を外部装置(例えばクライアント装置10)へ送信してもよい。
【0128】
(6-1-3)小括
以上説明したように、変形例1のサーバ30は、特定されたテキスト領域に記載されたテキストに含まれる固有表現を抽出し、抽出された固有表現に対する訳語を取得してもよい。サーバ30は、固有表現と、当該固有表現に対して取得された訳語とを関連付ける辞書情報をコミック作品別に管理してもよい。これにより、コミック作品に特有の固有表現に対して適切かつ一貫した訳語を割り当てることができる。
【0129】
翻訳テキストは、機械翻訳のための第1学習済みモデルの追加学習を入力コミック画像が属する特定のコミック作品に対応する辞書情報に基づいて行うことで作成された第2学習済みモデルを用いて、対象テキストに対して機械翻訳を行うことで生成されたテキストであってよい。これにより、固有表現を含んだテキストであっても、適切な翻訳テキストを効率的に生成することができる。
【0130】
サーバ30は、特定されたテキスト領域に記載されたテキストの機械翻訳を、入力コミック画像に関して抽出された全ての固有表現に対応する訳語が取得された後に行ってもよい。これにより、固有表現の訳語が定まらないまま機械翻訳が行われ、適切でない翻訳テキストが配置されるのを防止することができる。
【0131】
(7)その他の変形例
記憶装置11は、ネットワークNWを介して、クライアント装置10と接続されてもよい。ディスプレイ21は、クライアント装置10と一体化されてもよい。記憶装置31は、ネットワークNWを介して、サーバ30と接続されてもよい。
【0132】
上記説明では情報処理システム1を、クライアント/サーバ型のシステムによって実装する例を示した。しかしながら、情報処理システム1は、スタンドアロン型のコンピュータ、またはピア・ツー・ピア型のシステムによって実装することもできる。
【0133】
上記説明では、各情報処理において各ステップを特定の順序で実行する例を示したが、各ステップの実行順序は、依存関係がない限りは説明した例に制限されない。上記の情報処理の各ステップは、クライアント装置10及びサーバ30の何れでも実行可能である。
【0134】
上記説明において、テキスト領域(テキストオブジェクト)が画素群に置き換わる例を示した。テキスト領域は、例えば楕円形(円形を含み得る)または多角形(例えば矩形、または矩形の組み合わせ)であってもよいし、当該テキスト領域に記載されたテキストを構成する各文字を縁取りした領域であってもよい。各文字を縁取りした領域をテキスト領域とすることで、画素値に置き換わる範囲を最小化することができる。すなわち、画素群による補完が読者に与える違和感をいっそう抑制することができる。
【0135】
サーバ30(または他の装置であってもよい)は、出力コミック画像を、特定の閲覧環境で閲覧するためのコミック画像へと変換してもよい。特定の閲覧環境とは、例えば、コミック画像の閲覧に用いるデバイスの種別(例えばスマートフォン)、またはデバイスの画面サイズ、解像度、もしくは向き、などであってよい。一例として、サーバ30は、特定の閲覧環境に対応するルールに従って、翻訳テキストの書式もしくは配置態様、または当該翻訳テキストを囲う吹き出し領域の書式もしくは配置態様の少なくとも1つを調整してもよい。これにより、出力コミック画像を特定の閲覧環境に対して最適化することができる。特定の閲覧環境に対応するルールとして、例えば以下の少なくとも1つが定められ得る。
・使用可能なフォントサイズ
・フォントカラーの使用可否
【0136】
上記説明では、サーバ30が、固有表現を自動抽出する例を示した。しかしながら、人間(例えば出版者)がコミック作品に登場する固有表現をリスト化してもよい。或いは、人間が作成した固有表現リストを、上記自動抽出により補完してもよい。一例として、サーバ30は、人間が作成した固有表現に基づいて、各固有表現の初出位置情報または出現回数情報を生成してもよい。
【0137】
以上、本発明の実施形態について詳細に説明したが、本発明の範囲は上記の実施形態に限定されない。また、上記の実施形態は、本発明の主旨を逸脱しない範囲において、種々の改良や変更が可能である。また、上記の実施形態及び変形例は、組合せ可能である。
【符号の説明】
【0138】
1 :情報処理システム
10 :クライアント装置
11 :記憶装置
12 :プロセッサ
13 :入出力インタフェース
14 :通信インタフェース
21 :ディスプレイ
30 :サーバ
31 :記憶装置
32 :プロセッサ
33 :入出力インタフェース
34 :通信インタフェース
【要約】
【課題】翻訳コミックの作成業務を効率化する。
【解決手段】本開示の一態様のプログラムは、コンピュータを、第1コミック画像からテキストが記載された領域であるテキスト領域を特定する手段、第1コミック画像において、特定されたテキスト領域のうち翻訳テキストによって置き換えられる対象となる対象テキストが記載された第1テキスト領域が、前記第1コミック画像に応じた第1画素群に置き換わった第2コミック画像を生成する手段、第2コミック画像に、対象テキストの翻訳結果である翻訳テキストを配置し、第3コミック画像を生成する手段、として機能させる。
【選択図】図4
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11