【文献】
Mogmo Inc.,"Comics translation service",Internet acrchive record of Mogmo's webpage[online],2012年11月 3日,[平成30年 8月 9日検索],インターネット,URL,https://web.archive.org/web/20121103212228/http://mogmo.com/solutions/publishers/translation/
(58)【調査した分野】(Int.Cl.,DB名)
前記方法は、前記デジタルグラフィックノベルコンテンツと提示メタデータとを含むパッケージ化デジタルグラフィックノベルを作成することをさらに備え、前記提示メタデータは、前記翻訳テキストと、前記翻訳テキストが対応する前記デジタルグラフィックノベルコンテンツの前記特徴のうち少なくとも1つの特徴の指示とを含み、前記方法はさらに、
前記少なくとも1つのプロセッサによって、前記パッケージ化デジタルグラフィックノベルを、前記提示メタデータに従った態様で前記デジタルグラフィックノベルコンテンツを提示するように構成される書籍リーダに提供することを備える、請求項1または2に記載の方法。
テキストを含む前記複数の吹き出しを含む前記デジタルグラフィックノベルコンテンツの前記特徴を判定することは、前記機械学習モデルの第2の人工神経回路網に前記複数の候補領域を入力することに応答して、前記少なくとも1つのプロセッサによって、前記第2の人工神経回路網から、テキストを含む前記複数の吹き出しを含む前記デジタルグラフィックノベルコンテンツの前記特徴を受信することを備える、請求項5に記載の方法。
前記命令は、実行されると、前記少なくとも1つのプロセッサを、前記デジタルグラフィックノベルコンテンツに含まれる描かれるキャラクタまたはオブジェクトに合わせた翻訳アルゴリズムを前記複数の吹き出しに含まれる前記テキストに少なくとも適用することによって前記テキストを自動的に翻訳するように構成する、請求項7に記載の電子装置。
前記命令は、実行されると、前記少なくとも1つのプロセッサを、前記機械学習モデルの第2の人工神経回路網に前記複数の候補領域を入力することに応答して、前記第2の人工神経回路網から、テキストを含む前記複数の吹き出しを含む前記デジタルグラフィックノベルコンテンツの前記特徴を少なくとも受信することによって、テキストを含む前記複数の吹き出しを含む前記デジタルグラフィックノベルコンテンツの前記特徴を判定するように構成する、請求項11に記載の電子装置。
前記命令は、実行されると、前記少なくとも1つのプロセッサを、前記デジタルグラフィックノベルコンテンツに含まれる描かれるキャラクタまたはオブジェクトに合わせた翻訳アルゴリズムを前記複数の吹き出しに含まれる前記テキストに少なくとも適用することによって前記テキストを自動的に翻訳するように構成する、請求項13に記載のコンピュータ読み取り可能記憶媒体。
前記命令は、実行されると、前記少なくとも1つのプロセッサを、前記機械学習モデルの第2の人工神経回路網に前記複数の候補領域を入力することに応答して、前記第2の人工神経回路網から、テキストを含む前記複数の吹き出しを含む前記デジタルグラフィックノベルコンテンツの前記特徴を少なくとも受信することによって、テキストを含む前記複数の吹き出しを含む前記デジタルグラフィックノベルコンテンツの前記特徴を判定するように構成する、請求項17に記載のコンピュータ読み取り可能記憶媒体。
【発明を実施するための形態】
【0008】
詳細な説明
発行者は、デジタルに入手可能なグラフィックノベルコンテンツの量を増やしている。19世紀にまで遡るグラフィックノベル、漫画本、およびコミックストリップの幅広い印刷全集も存在する。ある歴史家は、ローマのトラヤヌスの円柱およびバイユーのタペストリーなどの古代文明が作った芸術作品が本質的には同じ芸術の形態であると議論すらしている。便宜上、本明細書中では、話の流れのある一連の順序付けられた画像を備える任意のそのようなコンテンツを指すのにグラフィックノベルという用語を用いる。
【0009】
グラフィックノベルを読むことは、テキストベースの書籍を読むこととは異なる。現地に特有の読み順で(たとえば、英語圏の国では左から右へおよび上から下へ)読まれるテキストを主に通じて物語を語るよりもむしろ、グラフィックノベルの話は、(パネルとも称される)順序付けられた画像と吹き出しとの組合せを通して伝えられる。場合によっては、吹き出しは複数のパネルに重なる。さらに、ある事例(たとえば、多くの日本語のグラフィックノベル)では、テキストは右から左および上から下に読まれる。これらの要因は、グラフィックノベルの自動(または半自動)翻訳を提供する際の特定の課題となる。正確な翻訳を提供するには、語または句の文脈が重要であることが多い。そのため、パネルおよび吹き出しの意図される順序を知っておくと、正しい順序で対話を分析できるようになるので、高品質の翻訳の作成を支援することができる。さらに、グラフィックノベル中の画像の他の特徴は、翻訳を支援する付加的な文脈情報を提供することがある。語または句を2とおり(以上)に翻訳できる場合、対応の画像中の特定のキャラクタまたはオブジェクトの存在により、他の翻訳に対するある翻訳の可能性が高くなることがある。たとえば、英単語の「bow」は、一種の結び目、武器、身体的行為、または船の一部である可能性がある。語を含む画像がこれらのもののうち1つを描いていれば、それが正しい翻訳である可能性がある。
【0010】
システム概要
図(図)および以下の説明は例示のためにのみある実施形態を説明する。当業者は、以下の説明から、本明細書中に記載の原則から逸脱することなく、本明細書中に示される構造および方法の代替的な実施形態を用い得ることを容易に認識するであろう。ここでいくつかの実施形態を参照し、その例を添付の図に示す。実践可能な場合はどこでも、図で同様のまたは同じ参照番号を用いることがあり、同様のまたは同じ機能性を示すことがあることを注記する。
【0011】
図1は、デジタルグラフィックノベルの自動(または半自動)翻訳を提供するのに好適なネットワーク化コンピューティング環境100の1つの実施形態を示す。示されるように、環境100は、グラフィックノベルコーパス110、グラフィックノベル分析システム120、グラフィックノベル配信システム130、および書籍リーダ180を含み、そのすべてはネットワーク170を介して接続される。ネットワーク化コンピューティング環境100の他の実施形態は、異なるまたは付加的な構成要素を含む。さらに、本明細書中に記載のものとは異なる態様で構成要素間で機能を分散させてもよい。
【0012】
グラフィックノベルコーパス110は、グラフィックノベルのデジタル表示を記憶する。デジタル表示は、EPUBまたはPDFなどの任意の適切な形式を用いることができる。さまざまな実施形態では、デジタル表示は、発行者および著者によって予め作られて、既存の印刷済グラフィックノベルをスキャンすることによって作成されて、またはこれらの技術の組合せを用いてコンパイルされて、提供される。グラフィックノベルコーパス110を
図3を参照して以下に詳細に説明する。
【0013】
グラフィックノベル分析システム120は、機械学習技術を適用してデジタルグラフィックノベル内の特徴を同定するためのモデルを構築しかつ適用する。グラフィックノベル分析システム120は、テキストを含む同定される特徴の翻訳も提供する。1つの実施形態では、特徴は、パネルおよび吹き出しの場所と意図される読み順とを含む。同定されるテキストのより大きな文脈を提供することにより、意図される順序を用いて当該テキストの翻訳を支援する。他の実施形態では、特徴は、付加的にまたは代替的に、描かれるキャラクタ、描かれるオブジェクト(たとえば、扉、武器など)、イベント(たとえば、プロット、キャラクタ間の関係など)、雰囲気、1つのパネルと次のパネルとの間の所望の視覚的遷移(たとえば、パン、ズームアウト、およびズームインなど)、描かれる天気、ジャンル、右から左への(RTL)読み方、広告などを含む。これらの特徴の多くはグラフィックノベルに独特のものである。たとえば、テキストベースの書籍には著者がいるが、作画者はおらず、グラフィックノベルコンテンツの画像の中に描かれるキャラクタまたはオブジェクトを同定することは、同じものをテキスト中に同定することとは大きく異なる。同様に、テキストベースの書籍のページは左から右および上から下に読まれる一方で、グラフィックノベルは典型的に、順に読まれるページあたりのいくつかのパネルとパネルあたりのいくつかの吹き出しとを含有し、意図される読み順は、読み手の注意がページのあちこちに飛ぶことを求める。
【0014】
ある事例では、グラフィックノベル分析システム120は、デジタルグラフィックノベルのある特徴の同定を用いてテキストの翻訳を補助する。たとえば、1つの実施形態では、グラフィックノベル分析システム120がパネル中の特定のキャラクタを同定すると、これは、そのキャラクタ向けに設計された機械翻訳アルゴリズムを適用する。このキャラクタ特有のアルゴリズムは、キャラクタに関連付けられるよく使われる句の一覧を、準備されたその句の翻訳とともに含むことができる。機械翻訳アルゴリズムを機械学習して、そのキャラクタに関連付けられる正確な(just)対話のトレーニングセットから展開してもよい。グラフィックノベル分析システム120を
図4を参照して以下に詳細に説明する。
【0015】
グラフィックノベル配信システム130は、グラフィックノベルコンテンツと、グラフィックノベルコンテンツをどのように提示すべきかを示す提示メタデータとを含むパッケージ化グラフィックノベルを作成する。実施形態の1つの組では、グラフィックノベル配信システム130は、パッケージ化プロセスの一部としてグラフィックノベルコンテンツを翻訳する。1つのそのような実施形態では、提示メタデータは、同定される特徴と、同定される特徴の場所と、グラフィックノベル分析システム120が出力するようなパネル/吹き出しの意図される読み順とを含む。別のそのような実施形態では、グラフィックノベル配信システム130は、グラフィックノベル分析システム120からの出力を処理して、推奨される提示態様を判断する。この実施形態では、提示メタデータは、順序付けられた提示命令の一覧(たとえば、パネル1を全画面表示し、次にパネル2にパンし、かつ吹き出し1にズームインし、次にパネル2を全画面表示するようにズームアウトし、次に吹き出し2にズームインするなど)を含む。
【0016】
実施形態の別の組では、提示メタデータは、別の装置(たとえば書籍リーダ180)による翻訳を補助するメタデータを含む。1つのそのような実施形態では、提示メタデータは、同定される特徴、同定される特徴の場所、およびパネル/吹き出しの意図される読み順と、グラフィックノベル分析システム120が出力するような各々の吹き出しのコンテンツのプレーンテキスト表示とを含む。別のそのような実施形態では、提示メタデータは、吹き出し内にないグラフィックノベルコンテンツ中に含まれるテキスト(たとえば、標識(signs)上のテキスト、音響効果の視覚的誇張表現(emote)など)の場所およびプレーンテキスト表示も含む。グラフィックノベル配信システム130を
図5を参照して以下に詳細に説明する。
【0017】
書籍リーダ180は、デスクトップPC、ラップトップ、スマートフォン、タブレット、専用書籍リーダなどの、デジタルグラフィックノベルをユーザに提示することができる任意のコンピューティングデバイスであることができる。書籍リーダ180を3つだけ示すが、実際には、ネットワーク170を用いて環境100の他の構成要素と通信することができる多数の(たとえば何百万台もの)書籍リーダ180が存在する。1つの実施形態では、クライアント装置180は、グラフィックノベル配信システム130からパッケージ化デジタルグラフィックノベルを受信し、含まれる提示メタデータに従ってこれをユーザに提示する。例示的な書籍リーダ180を
図6を参照して以下に詳細に説明する。
【0018】
ネットワーク170は、ネットワーク化コンピューティング環境100の構成要素が互いと通信できるようにする。1つの実施形態では、ネットワーク170は、標準的な通信技術および/またはプロトコルを用い、インターネットを含むことができる。このように、ネットワーク170は、イーサネット(登録商標)、802.11、マイクロ波アクセスに関する世界的相互運用(WiMAX)、2G/3G/4G移動体通信プロトコル、デジタル加入者線(DSL)、非対称転送モード(ATM)、インフィニバンド(InfiniBand)、PCIエクスプレスアドバンストスイッチングなどの技術を用いたリンクを含むことができる。同様に、ネットワーク170上で用いられるネットワーク化プロトコルは、マルチプロトコルラベルスイッチング(MPLS)、伝送制御プロトコル/インターネットプロトコル(TCP/IP)、ユーザデータグラムプロトコル(UDP)、ハイパーテキスト転送プロトコル(HTTP)、シンプルメール転送プロトコル(SMTP)、ファイル転送プロトコル(FTP)などを含むことができる。ネットワーク110上で交換されるデータを、2値形態の画像データを含む技術および/または形式(たとえば、ポータブルネットワークグラフィック(Portable Network Graphics)(PNG))、ハイパーテキストマークアップ言語(HTML)、拡張可能マークアップ言語(XML)、ポータブルドキュメントフォーマット(PDF)、電子出版(EPUB)などを用いて表示することができる。さらに、リンクのうちすべてまたは一部を、セキュアソケットレイヤ(SSL)、トランスポート層セキュリティ(TLS)、仮想私設ネットワーク(VPN)、インターネットプロトコルセキュリティ(IPsec)などの従来の暗号化技術を用いて暗号化することができる。別の実施形態では、ネットワーク170上のエンティティは、上述のものの代わりにまたは上述のものに加えて、カスタムおよび/または専用データ通信技術を用いることができる。
【0019】
図2は、ネットワーク化コンピューティング環境100で用いるのに好適なコンピュータ200の1つの実施形態を示す高レベルブロック図である。チップセット204に結合される少なくとも1つのプロセッサ202を示す。チップセット204は、メモリコントローラハブ250と入出力(I/O)コントローラハブ255とを含む。メモリ206とグラフィックアダプタ213とはメモリコントローラハブ250に結合され、表示装置218はグラフィックアダプタ213に結合される。記憶装置208、キーボード210、ポインティングデバイス214、およびネットワークアダプタ216は、I/Oコントローラハブ255に結合される。コンピュータ200の他の実施形態は、異なるアーキテクチャを有する。たとえば、メモリ206は、ある実施形態ではプロセッサ202に直接に結合される。
【0020】
記憶装置208は、ハードドライブ、コンパクトディスク読み取り専用メモリ(CD−ROM)、DVD、または固体状態メモリデバイスなどの1つ以上の一時的でないコンピュータ読み取り可能記憶媒体を含む。メモリ206は、プロセッサ202が用いる命令およびデータを保持する。ポインティングデバイス214は、キーボード210と組合せて用いられてデータをコンピュータシステム200に入力する。グラフィックアダプタ213は、表示装置218上に画像および他の情報を表示させる。ある実施形態では、表示装置218は、ユーザ入力および選択を受けるためのタッチ画面能力を含む。ネットワークアダプタ216は、コンピュータシステム200をネットワーク110に結合する。コンピュータ200のある実施形態は、
図2に示されるものとは異なるまたはそれに付加的な構成要素を有する。たとえば、グラフィックノベル分析システム120を、本明細書中に記載の機能を提供するようにともに動作する複数のコンピュータ200から形成することができる。別の例として、クライアント装置180はスマートフォンであることができ、画面上キーボード210およびポインティングデバイス214機能性を提供するタッチ画面を含むことができる。
【0021】
コンピュータ200は、本明細書中に記載される機能性を提供するためのコンピュータプログラムモジュールを実行するように適合される。本明細書中で用いるように、「モジュール」という用語は、特定される機能性を提供するのに用いられるコンピュータプログラム命令または他の論理を指す。このように、モジュールを、ハードウェア、ファームウェア、またはソフトウェア、またはその組合せで実現することができる。1つの実施形態では、実行可能なコンピュータプログラム命令から形成されるプログラムモジュールは、記憶装置208上に記憶され、メモリ206中にロードされ、かつプロセッサ202によって実行される。
【0022】
例示的なシステム
図3は、グラフィックノベルコーパス110の1つの実施形態を示す。示されるように、グラフィックノベルコーパス110は、グラフィックノベルコンテンツ310と発行者メタデータ320とを含む。グラフィックノベルコーパス110の他の実施形態は、異なるまたは付加的な構成要素を含む。たとえば、グラフィックノベルコンテンツ310と発行者メタデータ320とを別個のエンティティとして示すが、コンテンツとメタデータとの両方に単一のデータ記憶を用いてもよい。
【0023】
グラフィックノベルコンテンツ310は、コーパス110中のグラフィックノベルのページの画像を含み、1つ以上の一時的でないコンピュータ読み取り可能記憶媒体上に記憶される。前述のように、発行者および著者が直接にグラフィックノベルコンテンツ310を提供することができる、または既存の印刷済グラフィックノベルをスキャンすることによってグラフィックノベルコンテンツ310を入手することができる。1つの実施形態では、グラフィックノベルコンテンツ310は、完全なグラフィックノベルのPDF文書を含み、PDFの各ページはグラフィックノベルのページの画像を含む。これに代えて、PDFの各ページは、単一のパネルまたは見開き2ページなどの、グラフィックノベルの1ページ超または未満を含んでもよい。別の実施形態では、グラフィックノベルコンテンツ310は、固定レイアウトEPUBファイルとして記憶される。当業者は、グラフィックノベルコンテンツ310を記憶することができる他の形式を認めるであろう。
【0024】
発行者メタデータ320は、題名、発行日、著者、作画者、発行者、シリーズ、主要キャラクタなどのグラフィックノベルについての情報を含む、グラフィックノベル発行者または著者が提供するメタデータである。既存の印刷済グラフィックノベルをスキャンすることによってグラフィックノベルコンテンツ320を生成する実施形態では、発行者メタデータが存在しないことがある。これに代えて、印刷済グラフィックノベルをスキャンする個人またはエンティティは、(たとえば、スキャンのプロセスの一部として電子形態でタイピングすることによって)発行者メタデータ320を提供することができる。
【0025】
図4は、グラフィックノベル分析システム120の1つの実施形態を示す。示されるように、グラフィックノベル分析システム120は、トレーニングモジュール410、予測モジュール420、検証モジュール430、および予測モデル記憶440を含む。グラフィックノベル分析システム120の他の実施形態は、異なるまたは付加的な構成要素を含む。さらに、本明細書中に記載されるのとは異なる態様で構成要素間で機能を分散させてもよい。たとえば、グラフィックノベル分析システム120は、予測モデル記憶440を含まなくてもよく、代わりにグラフィックノベルコーパス110に予測モデルを記憶する。別の例として、クラウドソーシングによるフィードバックを用いる実施形態では、検証モジュール430によるものである機能性の一部またはすべてをユーザ装置180のフィードバックモジュール620によって提供してもよい。
【0026】
トレーニングモジュール410は、グラフィックノベルのトレーニングセットから機械学習モデルを構築する。デジタルグラフィックノベルコンテンツに適用されると、モデルは、その中に含まれる特徴を予測する。1つの実施形態では、トレーニングモジュール410は、ランダムにコーパス110からデジタルグラフィックノベルのサブセットを選択してトレーニングセットとして用いる。他の実施形態では、サブセットは発行者メタデータ320に基づく。たとえば、トレーニングモジュール410は、1つ以上の特徴(たとえば、作画者、発行者、キャラクタなど)についてのある範囲の値を含めて、初期モデルが未知のグラフィックノベル中のそれらの特徴を正確に同定する確率を上昇させるようにサブセットを選択し得る。1つのそのような実施形態では、発行者メタデータを用いて、グラフィックノベルであるデジタル刊行物を同定し、(たとえば、ダウンロード数に基づいて)人気のあるグラフィックノベルのセットを同定し、右から左への読み方を含むか否かに基づいて(たとえば、発行者メタデータに基づいて)当該セットを2つの群に分割し、各群からいくつかのグラフィックノベルをランダムに選択することによってサブセットをポピュレートする。さらなる実施形態では、トレーニングセットを手作業で選択してトレーニングモジュール410に与える。また別の実施形態では、トレーニングデータを参加ユーザからクラウドソーシングして、これによりトレーニングセットは、参加ユーザが読むことを選ぶ、コーパス110からのデジタルグラフィックノベルとなる。
【0027】
トレーニングモジュール410は、教師トレーニング段階で用いるためのトレーニングセットを準備する。1つの実施形態では、トレーニングモジュール410は、トレーニングセット中のデジタルグラフィックノベルから(たとえば、個別のページに対応する)原画像を抽出する。他の実施形態では、トレーニングモジュール410は画像処理を行なう。1つのそのような実施形態では、トレーニングモジュール410は、各々の原画像の寸法を測り、トレーニングセット中の各々の画像が均一な大きさとなるようにリサイズ演算を適用する。トレーニングモジュール410は、(たとえば、スキャンの際の誤差により)画像が傾いているかどうかも判断し、必要に応じて傾き補正を適用する。他の実施形態では、自動コントラスト機能を適用する、均一平均明るさへ正規化する、自動カラーバランシングを行なうなどの、付加的なまたは異なる画像処理を現画像に適用する。
【0028】
トレーニングセットがどのように準備されても、トレーニングモジュール410はこれを用いて初期特徴同定モデルを構築する。実施形態の1つの組では、トレーニングモジュール410は、教師トレーニング段階で初期モデルを構築する。1つのそのような実施形態では、人のオペレータは、グラフィックノベルのページの画像を見せられ、パネルおよび吹き出しの場所および順序を示すよう促される。たとえば、オペレータは、ポインティングデバイスを用いて各パネルの周を順序立ててなぞり、ボタンを選択して吹き出しに移動し、各々の吹き出しの周を順になぞり得る。別の実施形態では、オペレータは、閉じたセット(たとえば、非吹き出しテキストの実体(instances)、描かれているかもしれないキャラクタの一覧など)から画像に含まれる他の特徴を選択するようにも依頼される。さらなる実施形態では、オペレータは、自由形式を用いてタグを付与することができる。(たとえば、クラウドソーシングを用いる)また別の実施形態では、オペレータは単に、従来のリーダを用いて行なうようにデジタルグラフィックノベルを読む。オペレータは、スクロール、ズーム、およびページめくりなどのナビゲーションコマンドを用いてグラフィックノベルを読み、トレーニングモジュール410は、オペレータが発するナビゲーションコマンドを記録する。同じグラフィックノベルを読みながら複数のオペレータが行なうナビゲーションの選択を集めることにより、トレーニングモジュール410は、将来の読み手がどのようなコンテンツの提示のされ方をより好むであろうかについての予測モデルを構築することができる。用いられる正確な方法論に拘らず、結果的に、人が同定する特徴を示すメタデータと対にされた一連の画像が得られる。
【0029】
実施形態の別のセットでは、初期モデルの一部またはすべてを発行者メタデータから構築する。1つのそのような実施形態では、トレーニングセットは、描かれるキャラクタ、著者、作画者、パネルおよび吹き出しの意図される読み順などのある特徴を同定する発行者メタデータを既に含むデジタルグラフィックノベルを含む。このように、トレーニングモジュール410は、印刷済グラフィックノベルをスキャンすることによって作製されるものなどの、対象の特徴を同定する発行者メタデータを含まないデジタルグラフィックノベルに適用することができる発行者メタデータからモデルを構築することができる。
【0030】
トレーニングモジュール410は、一連の画像と、対にされたメタデータとから初期モデルを構築する。ある実施形態では、モデルは、1つ以上の層の中のノードのセットからなる人工神経回路網である。各ノードは、所与の特徴が入力された画像の中に存在するか否かを予測するように構成され、各層の中のノードは、先の層の中のノードよりも低レベルの抽象度に対応する。たとえば、第1の層の中のノードは、入力された画像が1ページまたは2ページに対応するか否かを判断してもよく、第2の層の中のノードは各ページ中のパネルを同定してもよく、第3の層の中のノードは各パネルの中の吹き出しを同定してもよい。同様に、第1の層のノードはキャラクタの存在を判断してもよく、第2の層のノードはキャラクタのアイデンティティを判断してもよく、第3の層のノードは、(たとえば、キャラクタのアーク中の特に重要なイベントの前または後の)そのキャラクタの特定の時代を判断してもよい。1つの実施形態では、モデルを構築する際にも発行者メタデータを用いる。たとえば、特定のヒーローの存在は、異なる発行者のグラフィックノベルで典型的に見られる異なる悪役よりもむしろ、そのヒーローの強敵が存在する可能性を高める。他の実施形態では、グラフィックモデルなどの他の種類のモデルを用いる。当業者は、一連の画像と対にされたメタデータとから構築されて他の画像の特徴を予測することができる他の種類のモデルを認識し得る。
【0031】
1つの実施形態では、トレーニングモジュール410は、2段階プロセスを用いて初期モデルを構築する。第1の段階では、入力された画像は、対象の特徴を含むための候補である、画像中の固定された数の領域(たとえば100)を同定する神経回路網を通される。第2の段階では、同定された領域は、対象の特徴のアイデンティティの予測と予測の正しさの対応の確率とを生成する第2の神経回路網を通される。トレーニングモジュール410は次に、予測された特徴のセットを、入力された画像について人が同定した特徴のセットに変形するコストを算出する。
【0032】
モデルを更新するため、トレーニングモジュール410は、算出された変形コストに基づいて逆伝播アルゴリズムを適用する。アルゴリズムは、神経回路網を通してコスト情報を伝播させ、ノードの重み付けを調整して、入力された画像の特徴を同定する将来的な試みに関連付けられるコストを低減する。たとえば、人が提供する特徴が、特定のキャラクタが画像の中に存在することを含みかつキャラクタが80%の確実さで存在すると神経回路網が予測する場合、相違(または誤差)は20%である。1つの実施形態では、トレーニングモジュール410は、コストを最小化するように、傾斜降下法を適用して、各ノードに適用される重み付けを繰返し調整する。ノードの重み付けは少量ずつ調整され、結果的に得られる変形コストの低減(または増大)を用いて、コスト関数の傾斜(すなわち、ノードの重み付けに対してコストが変化する率)を算出する。トレーニングモジュール410は次に、(傾斜が方向を変えるコスト関数中の変曲点が示す)極少を見出すまで、傾斜が示す方向のノードの重み付けをさらに調整する。換言すると、ノード重み付けは、神経回路網が学習して時間とともにより正確な予測を生成するように調整される。
【0033】
予測モジュール420は、トレーニングセットの一部ではなかったグラフィックノベルコーパス110からの未トレーニング画像に機械学習モデルを適用する。機械学習モデルは、未トレーニング画像中に含まれる特徴の予測を生成する。1つの実施形態では、未トレーニング画像は数値マッピングに変換される。数値マッピングは、各々が画像の性質を表わす一連の整数値を含む。たとえば、マップ中の整数は、さまざまな色の優位性、縦方向または横方向に色が変化する平均的頻度、平均明るさなどを表わし得る。別の実施形態では、マッピングは、画像中のオブジェクトの座標、確率などの連続した量を表わす実数値を含む。当業者は、画像を数値マッピングに変換可能なさまざまなやり方を認識するであろう。
【0034】
1つの実施形態では、予測モジュール420は、数値マッピングを入力として神経回路網に与える。第1の層で開始して、ノードは、入力された画像(たとえば、数値マップまたはその一部)に基づいて入力されたデータを受信する。各々のノードは、それが受信する入力データを分析して、それが検出する特徴が入力された画像の中に存在する可能性があるか否かを判断する。特徴が存在すると判断すると、ノードは活性化する。活性化されたノードは、活性化されたノードの重み付けに基づいて入力データを修正し、修正された入力データを神経回路網の次の層の1つ以上のノードに送る。神経回路網中の終端ノードが活性化されると、神経回路網は、その終端ノードに対応する特徴が入力画像の中に存在するという予測を出力する。1つの実施形態では、神経回路網を通じて取った経路に沿って各ノードに割当てられる重み付けに基づいて予測の正しさの百分率確度が予測に割当てられる。
【0035】
予測モジュール420は、テキストを含むと予測された同定される特徴からテキストも抽出する。1つの実施形態では、予測モジュール420は、各々の吹き出しに光学式文字認識(OCR)アルゴリズムを適用して、その中に示されるテキストを機械可読形態に変換する。パネルおよび吹き出しの予測される順序が与えられると、予測モジュール420(またはグラフィックノベル配信システム130などの別のエンティティ)は、機械可読テキストを予測された意図される読み順に配置することができる。別の実施形態では、予測モジュール420は、パネルに含まれる非吹き出しテキストにもOCRアルゴリズムを適用する。非吹き出しテキストは、高度に様式化されている(たとえば、落書き、行為の誇張表現など)、および/または遠近法の効果(perspetive effects)(たとえば、「カメラ」に対して鋭角であるオブジェクトの側のテキスト)によって歪められていることが多い。予測モジュール420は、OCRアルゴリズムを適用する前に、遠近法の効果による歪みを推定してこれを考慮するなどの付加的な画像処理を適用してもよい。さらに、OCRアルゴリズムは、パネルの文脈(たとえば、描かれるオブジェクトおよびキャラクタ)を用いて精度を向上させることができる。たとえば、描かれるキャラクタの決まり文句は、その決まり文句のわずかな変形よりも、存在する可能性がより高い。別の例として、パネル中に描かれる行為を用いてOCRを改良することができる。たとえば、キャラクタが殴られているのをパネルが描いていれば、パネル中の行為の誇張表現は、(ボカッ、バシッ、バンなどの)語の短い一覧のうち1つを含む可能性がある。ある実施形態では、予測モジュール420がテキストを含むと同定しているがそれについてのOCRがうまくいかない画像の区域にフラグを立てて、人のオペレータがこれを見直し、オペレータは、テキストが存在しないと示す、描かれるテキストを提供する、またはテキストの翻訳を提供する、ことができる。
【0036】
検証モジュール430は、予測モジュール420が生成する画像の予測された特徴をユーザに提示し、ユーザは、予測された特徴の精度を示す検証情報を与える。1つの実施形態では、検証モジュール430は、正しいという確率が比較的低いもの、または特に重要であると考えられるもの(たとえば、主要キャラクタのアイデンティティ)などの、特に関心のある特徴をユーザに提示する。検証モジュール430は次に、提示された予測された特徴の精度を確認するようユーザを促す。たとえば、検証モジュール430は、画面上に予測された特徴(たとえば、キャラクタ、パネル、または吹き出し)を囲む輪郭線をつけて入力画像を表示し、1つは予測を正しいとして確認するものと、1つは予測が誤っていることを示すものとの2つのコントロールを与えてもよい。このように、検証情報は、予測が正しいか誤っているかの2値の指示である。他の実施形態では、検証モジュール430は、ユーザが、どのようにまたはなぜ予測が誤っているかを示す付加的な検証情報を与えるまたは修正された特徴情報を与えることができるようにするさらなるコントロールを提供する。たとえば、パネルの場所を予測する場合、検証モジュール430は、予測されたパネルの輪郭線のセグメントをユーザが「ドラッグアンドドロップ」して画像中のパネルの場所をより正確に反映できるようにしてもよい。
【0037】
検証モジュール430は、ユーザが提供する検証情報に基づいて予測を生成するのに用いられるモデルを更新する。1つの実施形態では、検証モジュール430は、トレーニングモジュール410を参照して上述したのと同様の逆伝播アルゴリズムおよび傾斜降下法を用いてモデルを更新する。別の実施形態では、検証モジュール430は、トレーニングモジュール410に否定例(すなわち、以前に予測された特徴を含まないと確認された画像)を与え、トレーニングモジュールは、これらの否定例を用いて、さらなるトレーニングを行なう。換言すると、トレーニングモジュール410は、ある特徴を含まないことがわかっている画像に基づいてもモデルを構築することができる。
【0038】
予測モデル記憶440は、トレーニングモジュールが生成しかつ検証モジュール430が更新した予測モデルを記憶する1つ以上のコンピュータ読み取り可能記憶媒体を含む。1つの実施形態では、予測モデル記憶440は、グラフィックノベル分析システム120内のハードドライブである。他の実施形態では、予測モデル記憶440は、クラウド記憶設備にまたはグラフィックノベルコーパス110の一部としてなど、どこかに位置する。
【0039】
図5は、グラフィックノベル配信システム130の1つの実施形態を示す。示されるように、グラフィックノベル配信システム130は、パッケージ化モジュール510、翻訳モジュール520、編集モジュール530、および配信データ記憶540を含む。グラフィックノベル配信システム130の他の実施形態は、異なるまたは付加的な構成要素を含む。さらに、本明細書中に記載するのとは異なる態様で機能を構成要素間に分散させてもよい。たとえば、書籍リーダ180が翻訳を行なう実施形態では、翻訳モジュール520を省略してもよい。
【0040】
パッケージ化モジュール510は、分析システム120が行なう分析に基づいてグラフィックノベルコンテンツと提示メタデータとを含むパッケージ化デジタルグラフィックノベルを作成する。提示メタデータは、機械学習モデルが出力する特徴予測から生成される。前述のように、さまざまな実施形態では、提示メタデータは、特徴ならびに対応の場所および読み順(適切な場合)の一覧、パンおよびズーム命令などのどのようにグラフィックノベルコンテンツを提示すべきかに関する具体的な命令、または両者の組合せを含む。提示メタデータは、グラフィックノベルコンテンツから抽出したテキストも含む。
【0041】
1つの実施形態では、パッケージ化モジュール510は、一連の順序付けられた画像(たとえば、グラフィックノベルのページあたり1枚の画像)と各画像に対応する提示メタデータとを含む、パッケージ化デジタルグラフィックノベル(たとえば、PDF、またはEPUB領域ベースナビゲーション1.0標準に準拠するものなどの固定レイアウトEPUBファイル)を作成する。所与の画像のメタデータは、デジタルグラフィックノベル分析システム120が同定するその画像の特徴を同定し、パネルおよび吹き出しの場所と読み順とを含む。メタデータは、吹き出しについて予測された順序での、吹き出しに含まれるテキストのプレーンテキスト表示も含む。別の実施形態では、メタデータは、吹き出しであるとは予測されなかったパネルの部分から抽出されるテキスト(たとえば、画像中の標識からのテキスト)と、その画像中のテキストの場所の指示とをさらに含む。他の実施形態では、特徴は、代替的にまたは付加的に、キャラクタ、雰囲気、天気、オブジェクト、作画者、著者、発行の年または時代などを含む。
【0042】
さらなる実施形態では、提示メタデータは、特徴のうちいくつかまたはすべてを明示的に同定するよりもむしろ、どのように書籍リーダ180が画像を提示すべきかを記述する。たとえば、提示メタデータは、吹き出しの場所および順序を同定する代わりに、所望の順にユーザの注意が吹き出しに向けられるように、ズームレベルの変更のセットおよび閲覧窓の中心を記述することができる。提示のさまざまな方法を
図6を参照して以下に詳細に説明する。
【0043】
翻訳モジュール520は、グラフィックノベルコンテンツ中に同定されるテキストを他の言語に翻訳する。翻訳モジュール520は、予測モジュール420が同定した特徴を活かして(leverage)翻訳を改良する。1つの実施形態では、翻訳モジュール520は、提示メタデータを更新または補足してテキストの翻訳を含める。ある実施形態では、書籍リーダ180が翻訳機能性を果たすことに留意されたい。ある実施形態では、書籍リーダ180は、提示メタデータを更新するよりもむしろ、翻訳テキストをローカルに(たとえばRAMに)記憶してもよい。
【0044】
1つの実施形態では、翻訳モジュール520は、吹き出しから抽出した機械可読テキストに機械翻訳アルゴリズムを適用する。予測された意図される読み順は、翻訳を支援する文脈情報を提供する。たとえば、一対の吹き出しが質問と答えとを含む場合、質問の内容が答えの翻訳を知らせることができ、その逆も然りである。この具体例として、答えが矢を放つと参照する場合、質問の中の「bow」という語は、結んだリボンではなく、矢を放つためのオブジェクトを参照する可能性がある。他の実施形態では、代替的にまたは付加的に他の予測された特徴を用いて翻訳を支援する。たとえば、パネル中に特定のキャラクタが同定されると、キャラクタの決まり文句および話し方を考慮してそのパネル中のテキストを翻訳することができる。1つのそのような実施形態では、用いられる機械翻訳アルゴリズムは、特定のキャラクタを含むコンテンツ、特定の著者によるコンテンツ、特定の発行者からのコンテンツなどのうち1つ以上の翻訳向けに誂えられる。別の実施形態では、パネル中に描かれる行為を用いて視覚的誇張表現の翻訳を支援する。たとえば、キャラクタが殴られているのをパネルが描いていれば、近くの視覚的誇張表現を殴打音の適切な語に翻訳することができる。
【0045】
翻訳モジュール520が非吹き出しテキストを翻訳する実施形態では、翻訳モジュール520は、吹き出しテキストを参照して上述したような文脈情報を同様に用いる。たとえば、パネル中に描かれる標識上のテキストを翻訳する場合、翻訳モジュール520は、そのパネル中に含まれる吹き出し全部の中のテキストと、描かれる他のキャラクタおよびオブジェクトとを考慮し得る。より具体的な例として、パネルが特定のキャラクタを描きかつ吹き出しの中のテキストが特定の街を参照する場合、パネル中の標識の上のテキストは、無関係の場所よりもその街の場所に対応する可能性がより高い。
【0046】
編集モジュール530を含む実施形態では、これは、ユーザ(たとえば、著者または発行者)がパッケージ化デジタルグラフィックノベルに含まれる提示メタデータを見直すおよび改定するツールを提供する。1つのそのような実施形態では、編集モジュール530は、対応の翻訳テキストとともに、ユーザがデジタルグラフィックノベル中の画像を選択しかつ閲覧できるようにするブラウザを提供する。ユーザが画像を選択すると、ブラウザは、検出されたテキストオブジェクト(たとえば吹き出し)の指示とともに、画像を表示する。ユーザがテキストオブジェクトを選択すると、編集モジュール530は対応のテキストの翻訳を表示し、ユーザが(たとえば、キーボードを用いて訂正をタイプすることによって)翻訳を編集できるようにする。次に応じて提示メタデータを編集する。
【0047】
配信データ記憶540は、パッケージ化デジタルグラフィックノベルを記憶する1つ以上のコンピュータ読み取り可能媒体である。ある実施形態では、配信データ記憶540は、デジタルグラフィックノベル配信システムのための機能を提供するサーバファームに位置する。1つのそのような実施形態では、配信システムは、(たとえば、ユーザプロファイルの一部として提供されるような)ユーザの興味と、提示メタデータが同定するグラフィックノベルの特徴との間の相関に基づいてデジタルグラフィックノベルをユーザに勧める。たとえば、ユーザがあるラインのデジタルグラフィックノベルに特定の興味を有する場合、配信システム540は、同じキャラクタのうちいくつかを含む異なるラインからのデジタルグラフィックノベルを勧めることがある。
【0048】
以上の説明に加えて、本明細書中に記載のシステム、プログラム、または特徴がユーザ情報(たとえば、ユーザの興味、社会的ネットワーク、社会的行為または活動、職業、嗜好、現在の場所などについての情報)の収集を可能にし得るか否か、およびいつ可能にし得るかの両方についての選択をユーザが行なえるようにするコントロールをユーザに提供してもよい。コンテンツまたは通信がサーバ(たとえば、グラフィックノベル配信システム130)からユーザの書籍リーダ180に送られるか否かをユーザが制御できるようにするコントロールもユーザに提供してもよい。さらに、あるデータを、それを記憶するまたは用いる前に1つ以上のやり方で処理してもよく、これにより個人を特定できる情報が除去される。たとえば、ユーザについての個人を特定できる情報を判断することができないようにユーザのアイデンティティを処理してもよく、または、ユーザの特定の場所を判断することができないように、(市、郵便番号、または州レベルなどの)場所情報が得られるユーザの地理的場所を一般化してもよい。このように、ユーザは、ユーザについてのどの情報が収集されるか、その情報がどのように用いられるか、およびどの情報がユーザに提供されるかについてのコントロールを有してもよい。
【0049】
1つの実施形態では、グラフィックノベル配信システム130は、著作権を侵害するデジタルグラフィックノベルを同定するためのツールも提供する。デジタルグラフィックノベルが特定のキャラクタを含有すると機械学習モデルが誤って予測すると、そのことは、実際に描かれるキャラクタが特定のキャラクタの著作権侵害になると示してしまうことがある。たとえば、競合する発行者が意図的に特定のキャラクタとほぼ同一のキャラクタを作成すると、機械学習モデルは、それを特定のキャラクタであると当初は予測する可能性がある(モデルがフィードバックを介して更新されるまで、および複製が特に甚だしい場合は、そのときですら2つを区別することが難しくなるかもしれない)。1つの実施形態では、中程度の範囲の確実さ(たとえば50%から70%)内の予測が潜在的な侵害としてフラグ付けされる。というのも、この範囲は、同一性についての十分な類似度が存在するが、予測においてはかなりの程度の不確実さが存在するという相違も十分あることを示すからである。フラグ付けされたキャラクタは次に、人(たとえば、被侵害の恐れがある著作権所有者の従業員)に送られて検討される。他の実施形態では、配信システム130は、未ライセンス翻訳を検出するための他のツールを提供する。たとえば、未ライセンス翻訳のテキストと公式自動翻訳版のテキストとの間の類似性によって未ライセンス翻訳を同定することができる。
【0050】
図6は、書籍リーダ180の1つの実施形態を示す。示されるように、書籍リーダ180は、グラフィックノベル表示モジュール610、フィードバックモジュール620、およびローカルデータ記憶630を含む。書籍リーダ180の他の実施形態は、異なるまたは付加的な構成要素を含む。さらに、本明細書中に記載のものとは異なる態様で構成要素間で機能を分散させてもよい。たとえば、ある実施形態では、フィードバックモジュール620が省略される。
【0051】
表示モジュール610は、それを用いてパッケージ化モジュール510によってパッケージ化された提示メタデータに基づいてデジタルグラフィックノベルコンテンツをユーザに提示する。さまざまな実施形態では、提示メタデータは、パネルおよび吹き出しの場所および順序ならびにそれらの吹き出し中のテキストの翻訳を示す。表示モジュール610は示された順序でパネルを提示して、吹き出しの中のテキストを翻訳テキストで置換える。1つのそのような実施形態では、表示モジュール610は、まず、書籍リーダ180の画面上に(提示メタデータ中に示されるような)最初のパネルを表示する。ユーザ入力(たとえば、画面をタップする、または「次パネル」アイコンを選択する)に応答して、表示モジュール610は、提示メタデータから次にどのパネルを表示すべきかを判断し、画面上の表示をその第2のパネルに遷移させる。(たとえば、画面をタップする、または「次パネル」アイコンを選択することによって)前に進むようにユーザが要求するたびに、表示モジュール610は提示メタデータを調べて、どのパネルを次に表示すべきかを判断し、それに応じて画面上の表示を更新する。パネルを順次提示するためのこの方法により、各パネルが全画面表示されるようになり、これは、画面が小さな書籍リーダ180では特に有用である。
【0052】
各々のパネルを表示する際、表示モジュール610は、(原語での)吹き出し中の元のテキストを(たとえば、ユーザが要求するものなどの異なる言語の)翻訳テキストで置換える。さまざまな実施形態では、表示モジュールは、背景色(通常は白)を同定し、吹き出し全体を背景色で塗りつぶすことによって吹き出しを「真っ白にする」。表示モジュール610は次に、提示メタデータ中に含まれる吹き出しの翻訳テキストを吹き出しに追加する。1つの実施形態では、表示モジュール610は、追加されるテキストにデフォルトのフォントおよびサイズを用いる。別の実施形態では、表示モジュール610は、(たとえば、お気に入り画面で選択されるような)ユーザが選択したフォントを用い、翻訳テキストが実質的に吹き出しを埋めるようにフォントサイズを選択する。さらなる実施形態では、表示モジュール610は、翻訳テキストのサイズおよびフォントを元のテキストに一致させる。
【0053】
ある実施形態では、表示モジュール610は、提示メタデータが示すように、吹き出しの場所および順序に従ってデジタルグラフィックノベルを提示する。1つのそのような実施形態では、表示モジュール610は、提示メタデータに示される順序で各々の吹き出しを表示し、テキストの読みやすさと文脈を与えるのに十分な量の周囲イメージを提供することとのバランスを取るズームレベルを選択する。表示モジュール610は、用いるズームレベルを選択することができる、またはこれを提示メタデータに含めることができる。表示モジュール610は、ユーザ入力(たとえば、画面をタップすること、または「次の吹き出し」コントロールを選択すること)に応答して、(提示メタデータに示されるように)1つの吹き出しから次の吹き出しへ進む。別の実施形態では、提示メタデータは、まず画面上に全パネル(またはページ)を提示し、次に各々の吹き出しに順次ズームインするよう表示モジュール610に指示する。
【0054】
また別の実施形態では、完全なパネルまたはページを画面上に表示し、(順序またはユーザ選択に基づいて)選択された吹き出しに対応する画像の区域のみを拡大する。まず、表示モジュール610は、画面にズームすることなく全パネルを表示する。読み手が「次の吹き出し」コントロールを選択すると、(提示メタデータが示すような)第1の吹き出しを含む画像の区域が拡大され、読み手は、(たとえばスクロールバーを用いて)その吹き出しの中のテキストを読み進むことができる。しかしながら、吹き出しを含まない画像の残余は拡大されないままである。このように、読み手は、1つのビューと別のビューとの間を切換える必要なく、テキストを読み、パネル中の画像の残余が与える文脈情報を得ることができる。
【0055】
ある実施形態では、表示モジュール610は、非吹き出しテキスト(たとえば、標識上に含まれるテキスト、音響効果の視覚的誇張表現など)の翻訳を表示する。1つのそのような実施形態では、提示メタデータは、非吹き出しテキストを含むパネルの一部を示す。ユーザが(たとえば画面の一部をタップすることによって)その部分を選択すると、元の画像に関連して非吹き出しテキストの翻訳が表示される。たとえば、画面のいちばん下のテキストバーに、または元の画像に重なるポップアップ吹き出しの中に翻訳テキストを表示してもよい。
【0056】
他のそのような実施形態では、表示モジュール610は、画像に画像処理を施して元の非吹き出しテキストを翻訳テキストで置換える。1つの実施形態では、表示モジュール610は、背景色、テキストの色、テキストのスタイル、テキストのサイズ、テキストの向き、テキストの見え方(perspective)(すなわち、ページの平面に対する向き)などの元の非吹き出しテキストの性質を同定する。次に表示モジュール610は、吹き出しを参照して上述したのと同様の態様で標識を「真っ白」にして、同様の性質を有する(たとえば、同じ色、元のスタイルと同様のフォントを用いて、同じ向きで)翻訳テキストを追加する。当業者は、画像を変更して非吹き出しテキストをその翻訳で置換えることができる他の態様を認識し得る。
【0057】
フィードバックモジュール620はインターフェイスを提供し、ユーザは、これを用いて、デジタルグラフィックノベルの提示に関するフィードバックを提供することができる。さまざまな実施形態では、フィードバックモジュール620は、提示に関する問題を報告するのにユーザが選択することができる表示装置の画面上の仮想ボタンを設ける。たとえば、翻訳テキストが意味をなさない、不正確である、拙い、またはそれ以外で不十分であれば、ユーザは、ボタンを押して、問題を記述する(たとえば、よりよい翻訳を提案する)短いフィードバック書式を完成させることができる。1つのそのような実施形態では、提示メタデータはローカルに更新されるので、ユーザが再びデジタルグラフィックノベルを読むときには、(ユーザがそれを提供したと仮定すると)ユーザが改良した翻訳が提示される。別のそのような実施形態では、フィードバックモジュール620は、提示メタデータを全システムにわたって更新してよりよい翻訳を含めるべきか否かを判断する見直しのために、グラフィックノベル配信システム130の管理者にフィードバックを送る。また別の実施形態では、フィードバックをグラフィックノベル分析システム120に与え、グラフィックノベル分析システムは、これを用いて、まず翻訳を提供した機械翻訳アルゴリズムを更新する。ある実施形態では、フィードバックモジュール620は、OCRまたは自動翻訳がうまくいかなかったテキストの一部の翻訳をクラウドソーシングする。たとえば、画像の領域がテキストを含有すると予測されたが、認識可能なキャラクタの同定にOCRが失敗した場合、フィードバックモジュール620は、問題の画像の部分をハイライトして、テキストが存在するかどうかを示すよう、かつ存在する場合は翻訳を提供するよう、ユーザを促し得る。
【0058】
ローカルデータ記憶630は、デジタルグラフィックノベル、デジタルグラフィックノベルコンテンツ、および提示メタデータを表示するためのソフトウェアを記憶する1つ以上のコンピュータ読み取り可能媒体である。1つの実施形態では、ユーザは、提示メタデータを含むパッケージ化デジタルグラフィックノベルをオンライン市場からローカルデータ記憶630にダウンロードする。提示モジュール610は次に、ローカルデータ記憶630からパッケージ化デジタルグラフィックノベルにアクセスする。別の実施形態では、パッケージ化デジタルグラフィックノベルは、(たとえばクラウドサーバに)遠隔に記憶され、表示モジュール610はネットワーク170を介してこれにアクセスする。
【0059】
例示的な方法
図7は、デジタルグラフィックノベルの自動翻訳を提供する方法を提供する方法700の1つの実施形態を示す。
図7は、方法700のステップをネットワーク化コンピューティング環境100のさまざまな構成要素によるものとする。しかしながら、ステップの一部またはすべてを他のエンティティによって行なってもよい。さらに、ある実施形態は、ステップを並列に行なう、ステップを異なる順に行なう、または異なるステップを行なうことがある。
【0060】
図7に示される実施形態では、方法700は、トレーニングモジュール410がデジタルグラフィックノベルの特徴を予測的に同定するためのモデルを構築すること710で開始する。前述のように、モデルはまず、教師学習段階で構築され710、その間に人のオペレータがコーパス110から選択されるデジタルグラフィックノベルのサブセット中の特徴を同定する。モデルを構築する710ための方法800の1つの実施形態を
図8を参照して以下に詳細に説明する。
【0061】
予測モジュール420は、デジタルグラフィックノベルコンテンツにモデルを適用して720、その中に含まれる特徴を予測する。1つの実施形態では、特徴は、デジタルグラフィックノベル内のパネルおよび吹き出しの場所と順序とを含む。他の実施形態では、予測モジュール420は、非吹き出しテキスト、好ましい遷移、描かれるオブジェクト、作画者、著者、描かれるキャラクタ、天気、雰囲気、あらすじ、テーマ、広告などの異なるまたは付加的な特徴を同定する。
【0062】
検証モジュール430は、人による見直しに基づいてモデルが行なう予測を検証する730。1つの実施形態では、検証730は、モデルの初期トレーニングの一部として行なわれる。別の実施形態では、読み手から検証フィードバックがクラウドソーシングされ、受けたフィードバックに基づいて連続してまたは周期的にモデルが更新される。たとえば、検証モジュール430は、1ヶ月の期間にわたってクラウドソーシングされたフィードバックを集め、次に期間の終わりに更新モデルを発生させてもよい。モデルを検証する730および更新するための方法900の1つの実施形態を
図9を参照して以下に詳細に説明する。
【0063】
パッケージ化モジュール510は、グラフィックノベルコンテンツと提示メタデータとを含むパッケージ化デジタルグラフィックノベルを作成する740。提示メタデータは、検証モジュール430から受信した検証済予測(または予測モジュール420から直接に受信した予測)に基づいて、パッケージ化モジュール510によって生成され、さまざまな特徴(たとえば吹き出し)に関連付けられる未翻訳テキストを含む。1つの実施形態では、提示メタデータは、モデルが予測するような各々のパネルの中の吹き出しの場所および順序と、OCRアルゴリズムが判断するような各々の吹き出しの中に含まれるテキストとを示す。前述のように、他の実施形態では、提示メタデータは、予測に基づく具体的な提示命令を与える、または、提示とパッケージ化デジタルグラフィックノベルを表示する際に書籍リーダ180がさらに処理する特徴の場所および性質を示すものとの組合せを用いる。
【0064】
翻訳モジュール520は、特徴のテキスト、または対応の提示メタデータがそれについてのテキストを含む特徴のセットを翻訳する750。前述のように、テキストを含む特徴(たとえば吹き出し)の場所および順序ならびに他の予測される特徴へのその近さ(たとえば、特定のキャラクタと同じパネルに含まれている)は、翻訳モジュール520が翻訳を支援するのに用いる文脈情報を提供する。1つの実施形態では、翻訳モジュール520は、パッケージ化デジタルグラフィックノベルの一部(たとえば、パネル、ページなど)の中の吹き出し全部を同定し、吹き出しについて提示メタデータが示す順序で、各々の吹き出しのメタデータに含まれる機械可読テキストを1つのテキストにコンパイルする。次に翻訳モジュール520は、1つのテキスト全体を翻訳する。次に翻訳モジュール520は、テキストを各々の吹き出しに対応するセグメントに再び分け、吹き出しに対応する提示メタデータを更新し、テキストを翻訳テキストで置換えるまたは補足する。たとえば、翻訳テキストを、それが翻訳でありかつ翻訳された言語であることを示すタグで囲んで、元のテキストの後に添えてもよい。
【0065】
パッケージ化デジタルグラフィックノベルは、提示メタデータが示す態様に従う提示のために書籍リーダ180に提供される760。1つの実施形態では、提示メタデータは、パネルおよび吹き出しの場所および順序と、吹き出しについての(翻訳モジュール520が生成するような)翻訳テキストとを示す。デジタルグラフィックノベルを提示する正確な態様は、(たとえば、ユーザの閲覧の好みに基づいて)書籍リーダ180によってローカルに決められる。このように、異なる書籍リーダ180は、同じデジタルグラフィックノベルを異なるように提示することができる。別の実施形態では、提示メタデータは、デジタルグラフィックノベルを提示すべき態様を記述する命令を含む。結果的に、書籍リーダ180は、提示メタデータが指令するようにデジタルグラフィックノベルを提示する。
【0066】
図8は、予測モデルを構築するための方法800の1つの実施形態を示す。
図8は、方法800のステップをトレーニングモジュール410によるものとする。しかしながら、ステップの一部またはすべてを他のエンティティによって行なってもよい。さらに、ある実施形態は、ステップを並列に行なう、ステップを異なる順に行なう、または異なるステップを行なうことがある。
【0067】
図8に示される実施形態では、方法800は、トレーニングモジュール410が、コーパス110からデジタルグラフィックノベルのサブセットを同定して810、トレーニングセットとして用いることで開始する。上述のように、
図4を参照して、サブセットは、ランダムに選択されても、または特性の所望の混合(たとえば、さまざまな異なる発行者および著者、さまざまなキャラクタなど)を有するように選ばれてもよい。
【0068】
図8に戻って、トレーニングモジュール410は、トレーニングセット中のデジタルグラフィックノベルから(たとえば、個別のページに対応する)原画像を抽出する820。1つの実施形態では、トレーニングに備えて原画像を処理する。たとえば、均一の寸法を有するように原画像をリサイズすることができ、トレーニングセットにわたる均一性を与えるために明るさおよびコントラストの設定を変更することができる。
【0069】
行なわれる任意の前処理に拘らず、トレーニングモジュール410は、教師トレーニング段階を開始して830、原画像の特徴を同定する。上述のように、
図4を参照して、教師トレーニング段階では、人のオペレータが、処理された画像(または、処理が行なわれなかった場合には原画像)の特徴を同定する。このように、教師トレーニング段階の終結時に、トレーニングモジュール410は、各々が画像が含む特徴を示す対応のメタデータと対にされた画像のセットを有する。
【0070】
教師トレーニング段階の間に生成されるトレーニングセットおよび対応のメタデータに基づいて、トレーニングモジュール410は、デジタルグラフィックノベルの特徴を予測的に同定するためのモデルを作成する840。1つの実施形態では、モデルは、パネルの場所および順序と、描かれるキャラクタのアイデンティティとを予測的に同定する神経回路網である。モデルはトレーニングセットから構築されたので、トレーニングセット中のデジタルグラフィックノベルのうち任意のもの(または少なくとも大部分)が提供されると、これは、パネル場所、パネル順序、および描かれるキャラクタを正確に同定する。このように、同じ神経回路網が以前にそれが未適用のデジタルグラフィックノベルに適用されると、パネルと描かれるキャラクタとを成功裏に同定する確率が合理的に高くなる。モデルを成功裏に作成すると840、トレーニングモジュール410はこれを予測モデル記憶440に記憶する850。
【0071】
図9は、フィードバックに基づいて予測を検証する方法900の1つの実施形態を示す。
図9は、方法900のステップを予測モジュール420および検証モジュール430によるものとする。しかしながら、ステップの一部またはすべてを他のエンティティによって行なってもよい。さらに、ある実施形態は、ステップを並列に行なう、ステップを異なる順で行なう、または異なるステップを行なうことがある。
【0072】
図9に示される実施形態では、方法900は、予測モジュール420が分析対象の画像を受信すること910で開始する。予測モジュール420は、予測モデルを画像(たとえば、
図8の方法を用いて生成されたもの)に適用して920、画像特徴の1つ以上の予測を発生させる。明瞭さのため、画像中のパネルの場所、パネルの順序、および各々のパネルに描かれるキャラクタについての予測をモデルが生成する実施形態を参照して
図9の残余を説明する。明細書の残余に鑑みて、当業者は、多数の他の特徴および特徴の組合せに関する予測をモデルが生成し得ることを認識するであろう。
【0073】
検証モジュール430は、予測モジュールが行なった予測が正しいか否かを示すフィードバックを取得する930。前述のように、フィードバックは、開発の際にモデルをトレーニングするという作業を課されたオペレータからのものであることができる、または実用化の後にユーザからクラウドソーシングされることができる。1つの実施形態では、フィードバックは2値であり、予測が正しいか誤っているかを示す。他の実施形態では、フィードバックは、予測が誤っていた場合の訂正も含む。たとえば、予測されたフレームの場所が誤っている場合、フィードバックはフレームの正しい場所を示すことができる。同様に、フィードバックは、フレームの正しい順序を与えることができる。さらに、モデルがキャラクタを誤って同定すると、フィードバックは正しいキャラクタ同定を与えることができる。
【0074】
取得される930フィードバックの具体的な性質に拘らず、検証モジュール430は、これを用いてモデルを更新する940。
図4を参照して上述したように、1つの実施形態では、傾斜降下法を用いる逆伝播アルゴリズムを用いてモデルを更新する。このように、フィードバックの量が多くなる(accounted for)につれて、モデルが生成する予測の精度が時間とともに向上する。
【0075】
図10は、同定された特徴から生成される文脈情報を用いて翻訳を支援する方法1000の1つの実施形態を示す。
図10は、方法1000のステップを翻訳モジュール520によるものとする。しかしながら、ステップの一部またはすべてを他のエンティティによって行なってもよい。たとえば、ある実施形態では、書籍リーダ180が翻訳を行なう。さらに、ある実施形態は、ステップを並列に行なう、ステップを異なる順に行なう、または異なるステップを行なうことがある。
【0076】
図10に示される実施形態では、方法1000は、翻訳モジュール520がデジタルグラフィックノベルコンテンツを受信する1010ことで開始する。翻訳モジュール520は次に、デジタルグラフィックノベルコンテンツの特徴を同定する1020.同定される特徴のうち少なくとも1つはテキストを含む。1つの実施形態では、翻訳モジュール520は、デジタルグラフィックノベルコンテンツとともにパッケージ化される提示メタデータに基づいて、いくつかの吹き出しおよびそれらの吹き出しの意図される読み順を同定する1020。これに代えて、翻訳プロセスの一部として(前述のような)機械学習モデルの適用を行なう。さらなる実施形態では、翻訳モジュール410は、前述のように、標識などのテキストを含む非吹き出し特徴を同定する1020。
【0077】
翻訳モジュール520は、同定される特徴に基づいてテキストを含む特徴または複数の特徴についての文脈情報を生成する1030。1つの実施形態では、テキストを含む特徴は吹き出しであり、それら吹き出しについての文脈情報は、提示メタデータに示されるようなそれらの意図される読み順である。他の実施形態では、文脈情報は、吹き出し近くのデジタルグラフィックノベルのパネルの中に描かれていると提示メタデータ中に同定されるキャラクタおよびオブジェクトを含む。1つのそのような実施形態では、吹き出しと同じパネルの中に含まれる特徴のみがその吹き出しについての文脈情報を提供すると考えられる。他のそのような実施形態では、吹き出しを含むパネルのしきい値距離内の(たとえば、判断されたパネルの読み順が示すような、吹き出しを含むパネルの前後の3枚のパネル内の)他のパネルの特徴が文脈情報に寄与する。1つの実施形態では、吹き出しについての文脈情報としての所与の特徴の影響は、吹き出しに対するその特徴の近さによって重み付けられ、吹き出しにより近い特徴ほど、より離れたものよりも大きな重みが与えられる。
【0078】
図10に示される実施形態では、方法1000は、翻訳モジュール520が1つ以上の特徴に含まれるテキストを翻訳すること1040で終結する。1つの実施形態では、翻訳モジュール520は、テキストを含んだそれらの特徴からテキストを抽出し、文脈情報によって支援される機械翻訳アルゴリズムを適用する。たとえば、翻訳モジュール520は、吹き出しの意図される読み順を活かして翻訳を改良することができる。前述のように、1つの吹き出しの中で用いられる語および句は、その前後の吹き出しの正しい翻訳についての手がかりを与えることができる。別の例として、吹き出しが特定のキャラクタと同じパネル内に含まれる場合、そのキャラクタに係る対話を翻訳するように特に合わせられた機械翻訳アルゴリズムを適用することができる。当業者は、テキストの翻訳を支援するのに用い得る文脈情報の他の形態を認識し得る。
【0079】
付加的な考察
以上の説明のある部分は、アルゴリズム的プロセスまたは動作の観点で実施形態を説明する。これらのアルゴリズム的説明および表示は、データ処理技術分野の当業者によって一般的に用いられて、その成果(work)の実態を効果的に他の当業者に伝える。これらの動作は、機能的、計算的、または論理的に説明されるが、プロセッサまたは均等の電気回路による実行のための命令、マイクロコードなどを備えるコンピュータプログラムによって実現されることが理解される。さらに、普遍性を失わなければ、時には、機能的動作のこれらの配置をモジュールと称することが好都合であることもわかっている。記載される動作およびその関連のモジュールは、ソフトウェア、ファームウェア、ハードウェア、またはその任意の組合せで具現化されてもよい。
【0080】
本明細書中で用いるように、「1つの実施形態」または「実施形態」に対する任意の参照は、実施形態に関連して説明される特定の要素、特徴、構造、または特性が少なくとも1つの実施形態に含まれることを意味する。「1つの実施形態では」という句が明細書中のさまざまな場所に現われても、必ずしもすべてが同じ実施形態を参照するわけではない。
【0081】
「結合される」および「接続される」という表現をそれらの派生語とともに用いてある実施形態を説明することがある。これらの用語は、互いに対する同義語として意図されるものではないことを理解すべきである。たとえば、2つ以上の要素が互いと直接に物理的または電気的に接していることを示すのに、「接続される」という用語を用いてある実施形態を説明することがある。別の例では、2つ以上の要素が互いと直接に物理的または電気的に接していることを示すのに、「結合される」という用語を用いてある実施形態を説明することがある。しかしながら、「結合される」という用語は、2つ以上の要素が互いと直接に接しているのではなく、依然として互いと協働するまたは相互作用することも意味することがある。実施形態はこの文脈において限定されない。
【0082】
本明細書中で用いるように、「備える」、「備えている」、「含む」、「含んでいる」、「有する」、「有している」という用語、またはその任意の他の変形は、非排他的含有をカバーすることが意図される。たとえば、要素の一覧を備えるプロセス、方法、物品、または機器は、それらの要素のみに必ずしも限定されるのではなく、明示的に列挙されないまたはそのようなプロセス、方法、物品、または機器に内在的でない他の要素を含むことがある。さらに、そうでないと明示的に述べていなければ、「または」は、排他的なまたはではなく、包括的なまたはを指す。たとえば、条件AまたはBは、Aが真であり(または存在し)Bが偽である(または存在しない)、Aが偽であり(または存在せず)Bが真である(または存在する)、およびAとBとの両者が真である(または存在する)のうち任意の1つによって満たされる。
【0083】
さらに、「a」または「an」の使用は、本明細書中の実施形態の要素および構成要素を記載するのに用いられる。これは、便宜上、開示の一般的な意味を与えるためにのみ行なわれる。この記載は、1つまたは少なくとも1つを含むように解釈されるべきであり、反対の意味であるということが自明でなければ単数形は複数も含む。
【0084】
この開示を読むと、当業者は、インデックス付けされたeブック注釈を与えるためのシステムおよびプロセスのためのさらに付加的な代替的構造および機能設計を認めるであろう。このように、特定の実施形態および適用例を示しかつ記載したが、記載される主題は、本明細書中に開示される正確な構成および構成要素に限定されるのではなく、当業者には明らかであろうさまざまな修正、変更、および変形が本明細書中に開示される方法および機器の配置、動作、および詳細においてなされてもよいことを理解すべきである。発明の範囲は、以下の請求項によってのみ限定されるものである。