(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024060845
(43)【公開日】2024-05-07
(54)【発明の名称】情報処理装置、情報処理方法及び情報処理プログラム
(51)【国際特許分類】
G06V 10/82 20220101AFI20240425BHJP
G06T 7/00 20170101ALI20240425BHJP
G06T 13/80 20110101ALI20240425BHJP
G06T 7/11 20170101ALN20240425BHJP
【FI】
G06V10/82
G06T7/00 350C
G06T13/80 A
G06T7/11
【審査請求】有
【請求項の数】3
【出願形態】OL
(21)【出願番号】P 2022168392
(22)【出願日】2022-10-20
(11)【特許番号】
(45)【特許公報発行日】2023-08-10
(71)【出願人】
【識別番号】714006059
【氏名又は名称】株式会社hotarubi
(74)【代理人】
【識別番号】110003546
【氏名又は名称】弁理士法人伊藤IP特許事務所
(72)【発明者】
【氏名】太田 匡都史
(72)【発明者】
【氏名】加藤 賢
【テーマコード(参考)】
5B050
5L096
【Fターム(参考)】
5B050AA08
5B050AA09
5B050BA08
5B050BA16
5B050BA18
5B050BA20
5B050CA01
5B050DA02
5B050EA06
5B050EA24
5B050FA02
5L096AA06
5L096BA08
5L096CA01
5L096CA22
5L096CA24
5L096DA01
5L096FA16
5L096FA19
5L096HA11
5L096JA11
5L096KA04
(57)【要約】
【課題】ユーザに対して躍動感や臨場感等の魅力を提供できる漫画を原画に基づいて容易に編集することができる技術を提供する。
【解決手段】本開示の情報処理装置は、漫画の編集を支援する情報処理装置である。この情報処理装置は、漫画の原画画像の一部であって、コマ枠情報及び/又はテキスト情報及び/又はキャラクター情報を含んだ部分画像を取得することと、部分画像に対して実行される所定の編集処理の指令を取得することと、を実行する制御部を備え、制御部は、所定の入力画像データの入力を受け付ける入力層と、該入力画像データからコマ枠情報及び/又はテキスト情報及び/又はキャラクター情報を表す特徴量を抽出する中間層と、該特徴量に基づく識別結果を出力する出力層と、を有するニューラルネットワークモデルであって、コマ枠情報及び/又はテキスト情報及び/又はキャラクター情報を含んだ画像データを用いて学習を行うことにより構築された事前学習モデルに、原画画像のデータを入力することで、部分画像を取得する。
【選択図】
図3
【特許請求の範囲】
【請求項1】
漫画の原画画像の一部である部分画像であって、コマ枠情報及び/又はテキスト情報及び/又はキャラクター情報を含んだ部分画像を取得することと、
前記部分画像に対して実行される所定の編集処理の指令である編集処理指令を取得することと、
を実行する制御部を備え、
前記制御部は、
所定の入力画像データの入力を受け付ける入力層と、該入力画像データからコマ枠情報及び/又はテキスト情報及び/又はキャラクター情報を表す特徴量を抽出する中間層と、該特徴量に基づく識別結果を出力する出力層と、を有するニューラルネットワークモデルであって、コマ枠情報及び/又はテキスト情報及び/又はキャラクター情報を含んだ画像データを用いて学習を行うことにより構築された事前学習モデルに、前記原画画像のデータを入力することで、前記部分画像を取得する、
情報処理装置。
【請求項2】
前記編集処理は、前記部分画像を時系列に再生する処理、又は/及び前記部分画像の一部を動作させながら表示する処理である、
請求項1に記載の情報処理装置。
【請求項3】
前記制御部は、前記部分画像として、物体の移動の描写及び/又は光の描写及び/又は漫符及び/又は擬音に関する情報を含んだ演出画像を更に取得し、
前記編集処理は、前記演出画像を動作させながら表示する処理である、
請求項1又は請求項2に記載の情報処理装置。
【請求項4】
前記制御部は、
前記事前学習モデルに学習させるための教師データであって、コマ枠及びテキスト及びキャラクターに関する画像がランダムに配置された仮想漫画を自動で生成し、
前記仮想漫画におけるコマ枠情報及び/又はテキスト情報及び/又はキャラクター情報を含んだ画像データを用いて、前記事前学習モデルに学習を行わせる、
請求項1に記載の情報処理装置。
【請求項5】
前記制御部は、
ランダムな大きさのコマ枠を生成し、予め生成された所定の背景画像の任意の位置に該コマ枠の枠形状を配置し、該枠形状の内側の背景画像を該コマ枠内の第1画像に設定し、
予め生成された所定のキャラクター画像を前記第1画像にランダムに重畳表示させた画像を、第2画像として前記コマ枠内に設定し、
予め生成された所定のテキスト画像を前記第2画像における前記キャラクター画像に重ならない位置にランダムに重畳表示させた画像を、第3画像として前記コマ枠内に設定することで、前記仮想漫画を自動で生成する、
請求項4に記載の情報処理装置。
【請求項6】
コンピュータが、
漫画の原画画像の一部である部分画像であって、コマ枠情報及び/又はテキスト情報及び/又はキャラクター情報を含んだ部分画像を取得する第1取得ステップと、
前記部分画像に対して実行される所定の編集処理の指令である編集処理指令を取得する第2取得ステップと、を実行し、
前記第2取得ステップでは、
所定の入力画像データの入力を受け付ける入力層と、該入力画像データからコマ枠情報及び/又はテキスト情報及び/又はキャラクター情報を表す特徴量を抽出する中間層と、該特徴量に基づく識別結果を出力する出力層と、を有するニューラルネットワークモデルであって、コマ枠情報及び/又はテキスト情報及び/又はキャラクター情報を含んだ画像データを用いて学習を行うことにより構築された事前学習モデルに、前記原画画像のデータを入力することで、前記部分画像を取得することを実行する、
情報処理方法。
【請求項7】
コンピュータに、
漫画の原画画像の一部である部分画像であって、コマ枠情報及び/又はテキスト情報及び/又はキャラクター情報を含んだ部分画像を取得する第1取得ステップと、
前記部分画像に対して実行される所定の編集処理の指令である編集処理指令を取得する第2取得ステップと、を実行させ、
前記第2取得ステップでは、
所定の入力画像データの入力を受け付ける入力層と、該入力画像データからコマ枠情報及び/又はテキスト情報及び/又はキャラクター情報を表す特徴量を抽出する中間層と、該特徴量に基づく識別結果を出力する出力層と、を有するニューラルネットワークモデルであって、コマ枠情報及び/又はテキスト情報及び/又はキャラクター情報を含んだ画像データを用いて学習を行うことにより構築された事前学習モデルに、前記原画画像のデータを入力することで、前記部分画像を取得することを実行させる、
情報処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、漫画の編集を支援する情報処理装置、情報処理方法及び情報処理プログラムに関する。
【背景技術】
【0002】
従来から、漫画は、単行本や雑誌等の紙面に印刷されて提供されることが多かった。一方で、近年のスマートフォンやタブレット端末等の普及に伴い、これらの電子機器を使用して、デジタルコンテンツとして漫画を読む機会が増加している。
【0003】
ここで、デジタルコンテンツとして漫画を読む場合においても、漫画絵は静止画である。そのため、画像に動きがなく、ユーザが躍動感や臨場感を得ることが困難になり得る。そこで、漫画の原画から新たな複数の画像を書き起こし、動く漫画を生成する技術が知られている。
【0004】
例えば、特許文献1には、入力された漫画の原画の画像から、一部分の画像を部分画像として切り出して、それに基づいて新画像を複数生成し、それらを時系列に再生可能とする画像データ生成装置が開示されている。これにより、動きのある画像データを原作の画像を用いて作成することが可能となる。
【先行技術文献】
【特許文献】
【0005】
【発明の概要】
【発明が解決しようとする課題】
【0006】
従来からの静止画としての漫画に所定のモーション等を付与することで、ユーザに対してより魅力的なデジタルコンテンツを提供することができる。
【0007】
ここで、このようなモーションコミック(動く漫画)を製作しようとすると、そのデータ作成者は、従来の静止漫画を製作するときよりも多くの画像データを作成しなければならず、漫画の製作工数が大幅に増加するため、製作期間の長期化や製作コストの増加などが問題となっていた。一方で、例えば、特許文献1に記載の技術のように、原作の画像を用いて新画像を複数生成することで、上記の問題を軽減できるようにも思われる。しかしながら、この場合、データ作成者は、原画画像から部分画像を切り出す際に、所定の入力部を用いて切り出す領域を逐次入力する必要があり、やはり、漫画の製作工数が増加してしまう。このように、ユーザに対してより魅力的なデジタルコンテンツを、漫画の原画画像に基づいて容易に編集する技術については、未だ改善の余地を残すものである。
【0008】
本開示の目的は、ユーザに対して躍動感や臨場感等の魅力を提供できる漫画を原画に基づいて容易に編集することができる技術を提供することにある。
【課題を解決するための手段】
【0009】
本開示の情報処理装置は、漫画の編集を支援する情報処理装置である。そして、この情報処理装置は、漫画の原画画像の一部である部分画像であって、コマ枠情報及び/又はテキスト情報及び/又はキャラクター情報を含んだ部分画像を取得することと、前記部分画像に対して実行される所定の編集処理の指令である編集処理指令を取得することと、を実行する制御部を備える。そして、前記制御部は、所定の入力画像データの入力を受け付ける入力層と、該入力画像データからコマ枠情報及び/又はテキスト情報及び/又はキャラクター情報を表す特徴量を抽出する中間層と、該特徴量に基づく識別結果を出力する出力層と、を有するニューラルネットワークモデルであって、コマ枠情報及び/又はテキスト情報及び/又はキャラクター情報を含んだ画像データを用いて学習を行うことにより構築された事前学習モデルに、前記原画画像のデータを入力することで、前記部分画像を取得する。
【0010】
上記の情報処理装置では、モーションコミック(動く漫画)のデータ作成者は、事前学習モデルに漫画の原画画像のデータを入力することで、部分画像を簡単に抽出することができる。そのため、原画画像から部分画像を手動で切り出す必要がなくなり、モーションコミック(動く漫画)の製作工数を大幅に削減することができる。このように、以上によれば、読者に対して躍動感や臨場感等の魅力を提供できる漫画を原画に基づいて容易に編集することができる。
【0011】
ここで、上記の情報処理装置において、前記編集処理は、前記部分画像を時系列に再生する処理、又は/及び前記部分画像の一部を動作させながら表示する処理であってもよい。また、前記制御部は、前記部分画像として、物体の移動の描写及び/又は光の描写及び/又は漫符及び/又は擬音に関する情報を含んだ演出画像を更に取得してもよい。この場合、前記編集処理は、前記演出画像を動作させながら表示する処理であってもよい。これによれば、モーションコミック(動く漫画)の躍動感や臨場感等が更に高められ得る。つまり、モーションコミック(動く漫画)の演出効果を更に高めることができる。
【0012】
また、本開示の情報処理装置では、前記制御部は、前記事前学習モデルに学習させるための教師データであって、コマ枠及びテキスト及びキャラクターに関する画像がランダムに配置された仮想漫画を自動で生成し、前記仮想漫画におけるコマ枠情報及び/又はテキスト情報及び/又はキャラクター情報を含んだ画像データを用いて、前記事前学習モデルに学習を行わせてもよい。これによれば、ランダムな仮想漫画を教師データとして事前学習モデルに学習させることで、機械学習のための作業コストを大幅に削減することができる。そして、この場合、前記制御部は、ランダムな大きさのコマ枠を生成し、予め生成された所定の背景画像の任意の位置に該コマ枠の枠形状を配置し、該枠形状の内側の背景画像を該コマ枠内の第1画像に設定し、予め生成された所定のキャラクター画像を前記第1画像にランダムに重畳表示させた画像を、第2画像として前記コマ枠内に設定し、予め生成された所定のテキスト画像を前記第2画像における前記キャラクター画像に重ならない位置にランダムに重畳表示させた画像を、第3画像として前記コマ枠内に設定することで、前記仮想漫画を自動で生成することができる。
【0013】
また、本開示は、コンピュータによる情報処理方法の側面から捉えることができる。すなわち、本開示の情報処理方法は、漫画の編集を支援する情報処理方法であって、コンピュータが、漫画の原画画像の一部である部分画像であって、コマ枠情報及び/又はテキスト情報及び/又はキャラクター情報を含んだ部分画像を取得する第1取得ステップと、前記部分画像に対して実行される所定の編集処理の指令である編集処理指令を取得する第2取得ステップと、を実行する。そして、前記第2取得ステップでは、所定の入力画像データの入力を受け付ける入力層と、該入力画像データからコマ枠情報及び/又はテキスト情報及び/又はキャラクター情報を表す特徴量を抽出する中間層と、該特徴量に基づく識別結果を出力する出力層と、を有するニューラルネットワークモデルであって、コマ枠情報及び/又はテキスト情報及び/又はキャラクター情報を含んだ画像データを用いて学習を行うことにより構築された事前学習モデルに、前記原画画像のデータを入力することで、前記部分画像を取得することを実行する。
【0014】
また、本開示は、情報処理プログラムの側面から捉えることができる。すなわち、本開示の情報処理プログラムは、漫画の編集を支援する情報処理プログラムであって、コンピュータに、漫画の原画画像の一部である部分画像であって、コマ枠情報及び/又はテキスト情報及び/又はキャラクター情報を含んだ部分画像を取得する第1取得ステップと、前記部分画像に対して実行される所定の編集処理の指令である編集処理指令を取得する第2取得ステップと、を実行させる。そして、前記第2取得ステップでは、所定の入力画像データの入力を受け付ける入力層と、該入力画像データからコマ枠情報及び/又はテキスト情報及び/又はキャラクター情報を表す特徴量を抽出する中間層と、該特徴量に基づく識別結果を出力する出力層と、を有するニューラルネットワークモデルであって、コマ枠情報及び/又はテキスト情報及び/又はキャラクター情報を含んだ画像データを用いて学習を行うことにより構築された事前学習モデルに、前記原画画像のデータを入力することで、前記部分画像を取得することを実行させる。
【発明の効果】
【0015】
本開示によれば、ユーザに対して躍動感や臨場感等の魅力を提供できる漫画を原画に基づいて容易に編集することができる。
【図面の簡単な説明】
【0016】
【
図1】第1実施形態における漫画の編集支援システムの概略構成を示す図である。
【
図2】第1実施形態における、漫画の編集支援システムに含まれるサーバの構成要素をより詳細に示すとともに、サーバと通信を行うユーザ端末の構成要素を示した図である。
【
図3】第1実施形態における漫画の編集支援システムの動作の流れを例示する図である。
【
図4】第1実施形態における事前学習モデルに対する入力から得られる識別結果と、該事前学習モデルを構成するニューラルネットワークを説明するための図である。
【
図5】事前学習モデルによって部分画像として抽出されるコマ枠情報を説明するための図である。
【
図6】事前学習モデルによって部分画像として抽出されるテキスト情報を説明するための図である。
【
図7】事前学習モデルによって部分画像として抽出されるキャラクター情報を説明するための図である。
【
図8】ユーザが修正情報を入力するために用いられるインタフェースで表示される画面を例示する図である。
【
図9】修正情報に基づいて修正された部分画像を例示する図である。
【
図10】サーバによって部分画像として更に取得され得る演出画像を例示する図である。
【
図11】学習部によって生成される仮想漫画を説明するための図である。
【
図12】背景画像とキャラクター画像とテキスト画像とがランダムに配置された仮想漫画を例示する図である。
【発明を実施するための形態】
【0017】
以下、図面に基づいて、本開示の実施の形態を説明する。以下の実施形態の構成は例示であり、本開示は実施形態の構成に限定されない。
【0018】
<第1実施形態>
第1実施形態における漫画の編集支援システムの概要について、
図1を参照しながら説明する。
図1は、本実施形態における漫画の編集支援システムの概略構成を示す図である。本実施形態に係る編集支援システム100は、ネットワーク200と、サーバ300と、ユーザ端末400と、を含んで構成される。なお、本開示の編集支援システムは、漫画の編集を支援するシステムであって、漫画の編集支援がサーバ300によって実行される。
【0019】
ネットワーク200は、例えば、IPネットワークである。ネットワーク200は、IPネットワークであれば、無線であっても有線であっても無線と有線の組み合わせであってもよく、例えば、無線による通信であれば、ユーザ端末400は、無線LANアクセスポイント(不図示)にアクセスし、LANやWANを介してサーバ300と通信してもよい。また、ネットワーク200は、これらの例に限られず、例えば、公衆交換電話網や、光回線、ADSL回線、衛星通信網などであってもよい。
【0020】
サーバ300は、ネットワーク200を介して、ユーザ端末400と接続される。なお、
図1において、説明を簡単にするために、サーバ300は1台、ユーザ端末400は4台示してあるが、これらに限定されないことは言うまでもない。
【0021】
サーバ300は、データの取得、生成、更新等の演算処理及び加工処理のための処理能力のあるコンピュータ機器であればどの様な電子機器でもよく、例えば、パーソナルコンピュータ、サーバ、メインフレーム、その他電子機器であってもよい。すなわち、サーバ300は、CPUやGPU等のプロセッサ、RAMやROM等の主記憶装置、EPROM、ハードディスクドライブ、リムーバブルメディア等の補助記憶装置を有するコンピュータとして構成することができる。なお、リムーバブルメディアは、例えば、USBメモリ、あるいは、CDやDVDのようなディスク記録媒体であってもよい。補助記憶装置には、オペレーティングシステム(OS)、各種プログラム、各種テーブル等が格納されている。
【0022】
また、サーバ300は、本実施形態に係る編集支援システム100専用のソフトウェアやハードウェア、OS等を設けずに、クラウドサーバによるSaaS(Software as a Service)、Paas(Platform as a Service)、IaaS(Infrastructure as a Service)を適宜用いてもよい。
【0023】
ユーザ端末400は、編集支援システム100を利用するユーザが保有する携帯端末等の電子機器であればよく、例えば、携帯端末、タブレット端末、スマートフォン、ウェアラブル端末、パーソナルコンピュータ等、その他端末機器であってもよい。
【0024】
次に、
図2に基づいて、主にサーバ300の構成要素の詳細な説明を行う。
図2は、第1実施形態における、編集支援システム100に含まれるサーバ300の構成要素をより詳細に示すとともに、サーバ300と通信を行うユーザ端末400の構成要素を示した図である。
【0025】
サーバ300は、機能部として通信部301、記憶部302、制御部303を有しており、補助記憶装置に格納されたプログラムを主記憶装置の作業領域にロードして実行し、プログラムの実行を通じて各機能部等が制御されることによって、各機能部における所定の目的に合致した各機能を実現することができる。ただし、一部または全部の機能はASICやFPGAのようなハードウェア回路によって実現されてもよい。
【0026】
ここで、通信部301は、サーバ300をネットワーク200に接続するための通信インタフェースである。通信部301は、例えば、ネットワークインタフェースボードや、無線通信のための無線通信回路を含んで構成される。サーバ300は、通信部301を介して、ユーザ端末400やその他の外部装置と通信可能に接続される。
【0027】
記憶部302は、主記憶装置と補助記憶装置を含んで構成される。主記憶装置は、制御部303によって実行されるプログラムや、当該制御プログラムが利用するデータが展開されるメモリである。補助記憶装置は、制御部303において実行されるプログラムや、当該制御プログラムが利用するデータが記憶される装置である。なお、サーバ300は、通信部301を介してユーザ端末400等から送信されたデータを取得し、記憶部302には、後述する原画画像が予め記憶される。また、記憶部302には、後述する部分画像を取得するための教師データや事前学習モデルが記憶される。
【0028】
制御部303は、サーバ300が行う制御を司る機能部である。制御部303は、CPUなどの演算処理装置によって実現することができる。制御部303は、更に、取得部3031と、編集処理部3032と、学習部3033と、の3つの機能部を有して構成される。各機能部は、記憶されたプログラムをCPUによって実行することで実現してもよい。なお、学習部3033は、機械学習に伴う演算量が多いため、記憶されたプログラムをGPUによって実行することで実現してもよい。このように、GPUを機械学習に伴う演算処理に利用するようにすると、高速処理できるようになる。また、より高速な処理を行うために、このようなGPUを搭載したコンピュータを複数台用いてコンピュータ・クラスターを構築し、このコンピュータ・クラスターに含まれる複数のコンピュータにて並列処理を行うようにしてもよい。
【0029】
取得部3031は、漫画の原画画像の一部である部分画像を取得する。ここで、漫画の原画画像とは、漫画の原画の画像データであって、編集支援システム100を利用するユーザは、ユーザ端末400を用いて予め原画画像をサーバ300に送信することができる。ユーザは、例えば、ユーザ端末400に予めインストールされた所定のアプリによって提供されるインタフェース、または所定のウェブサイトによって提供されるインタフェースを介して、原画画像をサーバ300にアップロードすることができる。そうすると、サーバ300は、ユーザ端末400から送信された原画画像を記憶部302に記憶させる。そして、取得部3031は、記憶部302に記憶された原画画像に基づいて、該原画画像の中のコマ枠情報及び/又はテキスト情報及び/又はキャラクター情報を抽出することで、これら情報を含んだ部分画像を取得する。
【0030】
ここで、本実施形態におけるユーザ端末400は、機能部として通信部401、入出力部402、記憶部403を有している。通信部401は、ユーザ端末400をネットワーク200に接続するための通信インタフェースであり、例えば、ネットワークインタフェースボードや、無線通信のための無線通信回路を含んで構成される。入出力部402は、通信部401を介して外部から送信されてきた情報等を表示させたり、通信部401を介して外部に情報を送信する際に当該情報を入力したりするための機能部である。記憶部403は、サーバ300の記憶部302と同様に主記憶装置と補助記憶装置を含んで構成される。
【0031】
入出力部402は、更に、表示部4021、操作入力部4022、画像・音声入出力部4023を有している。表示部4021は、各種情報を表示する機能を有し、例えば、LCD(Liquid Crystal Display)ディスプレイ、LED(Light Emitting Diode)ディスプレイ、OLED(Organic Light Emitting Diode)ディスプレイ等により実現される。操作入力部4022は、ユーザからの操作入力を受け付ける機能を有し、具体的には、タッチパネル等のソフトキーあるいはハードキーにより実現される。画像・音声入出力部4023は、静止画や動画等の画像の入力を受け付ける機能を有し、具体的には、Charged-Coupled Devices(CCD)、Metal-oxide-semiconductor(MOS)あるいはComplementary Metal-Oxide-Semiconductor(CMOS)等のイメージセンサを用いたカメラにより実現される。また、画像・音声入出力部4023は、音声の入出力を受け付ける機能を有し、具体的には、マイクやスピーカーにより実現される。
【0032】
そうすると、上記ユーザは、このように構成されたユーザ端末400を用いて、原画画像をサーバ300に送信することができる。
【0033】
編集処理部3032は、部分画像に対して実行される所定の編集処理の指令である編集処理指令を取得する。ここで、本実施形態における編集処理は、部分画像を時系列に再生する処理、又は/及び部分画像の一部を動作させながら表示する処理である。編集支援システム100を利用するユーザは、ユーザ端末400に予めインストールされた所定のアプリによって提供されるインタフェース、または所定のウェブサイトによって提供されるインタフェースを介して、上記の編集処理指令をサーバ300に送信することができる。そうすると、編集処理部3032は、送信された編集処理指令を取得し、部分画像を時系列に再生する編集処理を実行する。
【0034】
学習部3033は、上記の取得部3031による処理に用いられる事前学習モデルを構築する機能部であって、その詳細は後述する。
【0035】
なお、制御部303が、取得部3031、編集処理部3032、および学習部3033の処理を実行することで、本開示に係る制御部として機能する。
【0036】
ここで、本実施形態における編集支援システム100の動作の流れについて説明する。
図3は、本実施形態における編集支援システム100の動作の流れを例示する図である。
図3では、本実施形態における編集支援システム100におけるサーバ300とユーザ端末400との間の動作の流れ、およびサーバ300とユーザ端末400とが実行する処理を説明する。
【0037】
本実施形態では、先ず、編集支援システム100を利用して原画画像を編集することで動く漫画を作成するユーザのユーザ端末400に、原画画像が入力される(S101)。上述したように、ユーザは、例えば、ユーザ端末400に予めインストールされた所定のアプリによって提供されるインタフェース、または所定のウェブサイトによって提供されるインタフェースを介して、原画画像をサーバ300にアップロードすることができる。
【0038】
サーバ300は、ユーザ端末400から送信された原画画像データを取得する(S102)。そして、サーバ300は、取得した原画画像を記憶部302に格納する。
【0039】
そして、サーバ300は、原画画像に基づいて部分画像を取得する。これについて、以下に説明する。
【0040】
サーバ300は、事前学習モデルを呼出す処理を実行する(S103)。ここで、事前学習モデルは、原画画像に基づいて部分画像を抽出するために用いられる機械学習モデルであって、学習部3033によって、コマ枠情報及び/又はテキスト情報及び/又はキャラクター情報を含んだ画像データを用いて学習を行うことにより事前に構築される。
【0041】
ここで、
図4は、本実施形態における事前学習モデルに対する入力から得られる識別結果と、該事前学習モデルを構成するニューラルネットワークを説明するための図である。本実施形態では、事前学習モデルとして、ディープラーニングにより生成されるニューラルネットワークモデルを用いる。本実施形態における事前学習モデル30は、入力画像データの入力を受け付ける入力層31と、入力層31に入力された該画像データからコマ枠情報及び/又はテキスト情報及び/又はキャラクター情報を表す特徴量を抽出する中間層(隠れ層)32と、特徴量に基づく識別結果を出力する出力層33とを有する。なお、
図4の例では、事前学習モデル30は、1層の中間層32を有しており、入力層31の出力が中間層32に入力され、中間層32の出力が出力層33に入力されている。ただし、中間層32の数は、1層に限られなくてもよく、事前学習モデル30は、2層以上の中間層32を有してもよい。
【0042】
また、
図4によると、各層31~33は、1又は複数のニューロンを備えている。例えば、入力層31のニューロンの数は、入力される画像データに応じて設定することができる。また、出力層33のニューロンの数は、識別結果である部分画像に応じて設定することができる。
【0043】
そして、隣接する層のニューロン同士は適宜結合され、各結合には重み(結合荷重)が機械学習の結果に基づいて設定される。
図4の例では、各ニューロンは、隣接する層の全てのニューロンと結合されているが、ニューロンの結合は、このような例に限定されなくてもよく、適宜設定することができる。
【0044】
このような事前学習モデル30は、例えば、複数の漫画の原画画像と、コマ枠情報及び/又はテキスト情報及び/又はキャラクター情報のラベルと、の組みである教師データを用いて教師あり学習を行うことで構築される。具体的には、特徴量とラベルとの組みをニューラルネットワークに与え、ニューラルネットワークの出力がラベルと同じとなるように、ニューロン同士の結合の重みがチューニングされる。このようにして、教師データの特徴を学習し、入力から結果を推定するための事前学習モデルが帰納的に獲得される。
【0045】
図3に戻って、サーバ300は、上記の事前学習モデルに原画画像のデータを入力することで、部分画像を抽出する(S104)。
【0046】
ここで、
図5は、事前学習モデルによって部分画像として抽出されるコマ枠情報を説明するための図である。
図5(a)は、原画画像を示していて、
図5(b)は、抽出されたコマ枠情報を示している。事前学習モデルによって、原画画像から4角をもつコマ枠(
図5(b)に例示するコマ枠A~E)が抽出される。そして、サーバ300は、コマ枠情報として、これらコマ枠の左上、右上、右下、左下(例えば、コマ枠AのA1、A2、A3、A4)のx座標とy座標を抽出する。
【0047】
また、
図6は、事前学習モデルによって部分画像として抽出されるテキスト情報を説明するための図である。
図6(a)は、原画画像を示していて、
図6(b)は、抽出されたテキスト情報を示している。事前学習モデルによって、原画画像から吹き出し内のテキスト領域(
図6(b)に例示するテキストA~H)が抽出される。そして、サーバ300は、テキスト情報として、これらテキスト領域の左上(例えば、テキストAのA11)のx座標とy座標を抽出するとともに、該テキスト領域の幅、高さ(例えば、テキストAのw1、h1)を抽出する。
【0048】
また、
図7は、事前学習モデルによって部分画像として抽出されるキャラクター情報を説明するための図である。
図7(a)は、原画画像を示していて、
図7(b)は、抽出されたキャラクター情報を示している。事前学習モデルによって、原画画像からキャラクター(
図7(b)に例示するキャラA、B)が白色画像として抽出される。このとき、事前学習モデルによって、キャラクターが白色画像でそれ以外が黒色画像のグレースケールデータが生成される。そして、サーバ300は、上記のグレースケールデータから黒色領域を透過することで白色領域を切り取り、それをキャラクター情報として抽出する。なお、
図7(b)に示す例では、後述するように、事前学習モデルでは中段のコマ枠のキャラクターが抽出できていないものとする。
【0049】
そして、
図3に戻って、サーバ300は、抽出した部分画像をユーザ端末400に送信し、ユーザ端末400は、その情報を取得する(S105)。
【0050】
そうすると、編集支援システム100を利用するユーザは、ユーザ端末400を介して、送信された部分画像を確認し、必要に応じて部分画像を修正するための修正情報を入力することができる(S106)。
【0051】
ここで、
図8は、ユーザが修正情報を入力するために用いられるインタフェースで表示される画面を例示する図である。なお、
図8に例示するインタフェースは、キャラクター情報を修正するために用いられるものである。
図8に例示する画面SC1はユーザのユーザ端末400の表示部4021に表示され、画面SC1には、抽出された部分画像SC11、修正情報の入力フィールドSC12、送信ボタンSC13が示される。そして、ユーザは、修正情報の入力フィールドSC12に、操作入力部4022(タッチパネル)を用いて修正情報を入力し(
図8に示す例では、事前学習モデルでは抽出できていなかった中段のコマ枠のキャラクターが存在する領域SC121が、ユーザによってタッチパネルで囲われる。)、送信ボタンSC13を押下することで修正情報をサーバ300に送信することができる。
【0052】
そして、
図3に戻って、サーバ300は、ユーザ端末400から送信された修正情報を取得する(S107)。そうすると、サーバ300は、修正情報に基づいて部分画像を修正することができる。
図9は、修正情報に基づいて修正された部分画像を例示する図であって、
図9(a)は、原画画像を示していて、
図9(b)は、修正された部分画像を示している。本実施形態では、上記の
図7(b)に示した部分画像が修正されることで、
図9(b)では、
図7(b)では抽出できていなかったキャラクターが部分画像に追加されている。そして、このようにして、サーバ300は、部分画像の取得を完了する(S108)。
【0053】
図3に示すフローでは、次に、ユーザのユーザ端末400に、部分画像に対して実行される編集処理に関する編集情報が入力される(S109)。上述したように、ユーザは、例えば、ユーザ端末400に予めインストールされた所定のアプリによって提供されるインタフェース、または所定のウェブサイトによって提供されるインタフェースを介して、上記の編集情報をサーバ300にアップロードすることができる。詳しくは、ユーザは、上記のインタフェースにおいて、例えば、部分画像に対して実行する編集処理指令として、部分画像を時系列に再生する処理、又は部分画像の一部を動作させながら表示する処理、又はこれら両方の処理を選択することで、編集情報をサーバ300にアップロードすることができる。
【0054】
そうすると、サーバ300は、ユーザ端末400から送信された編集処理指令を取得し(S110)、編集処理を実行する(S111)。これにより、モーションコミック(動く漫画)が実現されることになる。なお、サーバ300によって実行される編集処理はユーザ端末400に送信され、ユーザは、この情報を取得したユーザ端末400を介して、編集処理を確認することができる(S112)。
【0055】
そして、以上に述べた処理によれば、モーションコミック(動く漫画)のデータ作成者は、事前学習モデルに漫画の原画画像のデータを入力することで、部分画像を簡単に抽出することができる。そのため、原画画像から部分画像を手動で切り出す必要がなくなり、モーションコミック(動く漫画)の製作工数を大幅に削減することができる。このように、以上によれば、読者に対して躍動感や臨場感等の魅力を提供できる漫画を原画に基づいて容易に編集することができる。
【0056】
なお、上記のモーションコミック(動く漫画)では、漫画の原画画像から抽出された部分画像に対して、該部分画像を時系列に再生する処理、又は/及び該部分画像の一部を動作させながら表示する処理が編集処理として実行されるが、本実施形態における編集処理は、これらに限定されない。
【0057】
本実施形態では、上記のモーションコミック(動く漫画)において、演出画像を動作させながら表示する処理が編集処理として実行されてもよい。
【0058】
ここで、上記の演出画像とは、物体の移動の描写及び/又は光の描写及び/又は漫符及び/又は擬音に関する情報を含んだ画像であって、サーバ300によって、部分画像として取得され得る。この場合、事前学習モデル30では、物体の移動の描写及び/又は光の描写及び/又は漫符及び/又は擬音に関する情報を含んだ画像データを用いて学習が行われ、事前学習モデル30の中間層(隠れ層)32は、物体の移動の描写及び/又は光の描写及び/又は漫符及び/又は擬音に関する情報を表す特徴量を抽出することになる。
【0059】
そして、
図10は、サーバ300によって部分画像として更に取得され得る演出画像を例示する図である。本実施形態では、物体の移動の描写に関する情報を含んだ演出画像として、煙の描写の画像が取得され得る。また、
図10に示すように、漫符や擬音の画像も取得され得る。
【0060】
このように、部分画像として更に演出画像が取得され、該演出画像が動作しながら表示されることによれば、モーションコミック(動く漫画)の躍動感や臨場感等が更に高められ得る。つまり、モーションコミック(動く漫画)の演出効果を更に高めることができる。
【0061】
また、本実施形態では、サーバ300が、事前学習モデル30に学習させるための教師データを自動で生成してもよい。詳しくは、サーバ300の制御部303が有する学習部3033が、上記の教師データとして、コマ枠及びテキスト及びキャラクターに関する画像がランダムに配置された仮想漫画を自動で生成する。そして、学習部3033は、上記の仮想漫画におけるコマ枠情報及び/又はテキスト情報及び/又はキャラクター情報を含んだ画像データを用いて、事前学習モデル30に学習を行わせる。
【0062】
具体的には、学習部3033は、ランダムな大きさのコマ枠を生成し、予め生成された所定の背景画像の任意の位置に該コマ枠の枠形状を配置し、該枠形状の内側の背景画像を該コマ枠内の第1画像に設定する。そして、予め生成された所定のキャラクター画像を上記の第1画像にランダムに重畳表示させた画像を、第2画像としてコマ枠内に設定する。更に、予め生成された所定のテキスト画像を上記の第2画像におけるキャラクター画像に重ならない位置にランダムに重畳表示させた画像を、第3画像としてコマ枠内に設定することで、仮想漫画を自動で生成する。これについて、
図11に基づいて説明する。
【0063】
図11は、学習部3033によって生成される仮想漫画を説明するための図である。学習部3033は、先ず、
図11(a)に示すように、ランダムに生成されたコマ枠を、予め生成された任意の背景画像の任意の位置(これは、背景画像内においてコマ枠が収まるランダムな位置である。)に配置する。なお、予めランダムに生成されたコマ枠がはみ出さない大きさに、背景画像がリサイズされてもよい。そして、学習部3033は、配置したコマ枠の枠形状の内側の背景画像を切り取り、切り取られた該コマ枠内の背景画像を第1画像に設定する。なお、学習部3033は、上記のコマ枠の生成において、頁を1~3の乱数で決定された行数にランダムな高さで分割し、分割された各行の列方向を1~3の乱数で決定された数にランダムな幅で分割する。このようにして生成されたコマ枠について、更に、学習部3033は、一定以上の高さ・幅を有するコマ枠を抽出し、それをランダムに分割することでコマ枠を生成することができる。
【0064】
次に、学習部3033は、
図11(b)に示すように、予め生成された所定のキャラクター画像を上記の第1画像にランダムに重畳表示させる。なお、重畳表示させるキャラクター画像がコマ枠内に収まるように、該キャラクター画像がリサイズされてもよい。また、重畳表示させるキャラクター画像がコマ枠内に収まらない場合、コマ枠からはみ出す部分が削除されてもよい。そして、このようにして、コマ枠内に背景画像とキャラクター画像とがランダムに配置された画像を、第2画像としてコマ枠内に設定する。なお、上記のキャラクター画像は、例えば、複数の任意のキャラクター画像が記憶されたデータベースからランダムに抽出された画像であって、第1画像として描写される背景にかかわらずランダムに抽出され得る。
【0065】
次に、学習部3033は、
図11(c)に示すように、予め生成された所定のテキスト画像を上記の第2画像にランダムに重畳表示させる。このとき、テキスト画像は、第2画像におけるキャラクター画像に重ならない位置にランダムに配置され得る。なお、上記のテキスト画像は、例えば、吹き出しとともに描写される任意のテキストや、擬音である。そして、このようにして、コマ枠内に背景画像とキャラクター画像とテキスト画像とがランダムに配置された画像を、第3画像としてコマ枠内に設定する。
【0066】
そして、
図12は、背景画像とキャラクター画像とテキスト画像とがランダムに配置された仮想漫画を例示する図である。
図12に示すようなランダムな仮想漫画が学習部3033によって生成され、それを教師データとして事前学習モデル30に学習させることで、機械学習のための作業コストを大幅に削減することができる。つまり、学習部3033によって仮想漫画が自動的に大量に生成されることで、機械学習において、大量の教師データを手動で作成する必要がなくなる。
【0067】
以上に述べた編集支援システム100によれば、読者に対して躍動感や臨場感等の魅力を提供できる漫画を原画に基づいて容易に編集することができる。
【0068】
<その他の変形例>
上記の実施形態はあくまでも一例であって、本開示はその要旨を逸脱しない範囲内で適宜変更して実施しうる。例えば、本開示において説明した処理や手段は、技術的な矛盾が生じない限りにおいて、自由に組み合わせて実施することができる。
【0069】
また、1つの装置が行うものとして説明した処理が、複数の装置によって分担して実行されてもよい。例えば、編集処理部3032をサーバ300とは別の演算処理装置に形成してもよい。このとき当該別の演算処理装置はサーバ300と好適に協働可能に構成される。また、異なる装置が行うものとして説明した処理が、1つの装置によって実行されても構わない。コンピュータシステムにおいて、各機能をどのようなハードウェア構成(サーバ構成)によって実現するかは柔軟に変更可能である。
【0070】
本開示は、上記の実施形態で説明した機能を実装したコンピュータプログラムをコンピュータに供給し、当該コンピュータが有する1つ以上のプロセッサがプログラムを読み出して実行することによっても実現可能である。このようなコンピュータプログラムは、コンピュータのシステムバスに接続可能な非一時的なコンピュータ可読記憶媒体によってコンピュータに提供されてもよいし、ネットワークを介してコンピュータに提供されてもよい。非一時的なコンピュータ可読記憶媒体は、例えば、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスクドライブ(HDD)等)、光ディスク(CD-ROM、DVDディスク・ブルーレイディスク等)など任意のタイプのディスク、読み込み専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、EPROM、EEPROM、磁気カード、フラッシュメモリ、光学式カード、電子的命令を格納するために適した任意のタイプの媒体を含む。
【符号の説明】
【0071】
100・・・編集支援システム
200・・・ネットワーク
300・・・サーバ
301・・・通信部
302・・・記憶部
303・・・制御部
400・・・ユーザ端末
【手続補正書】
【提出日】2023-02-24
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
漫画の原画画像の一部である部分画像であって、コマ枠情報及び/又はテキスト情報及び/又はキャラクター情報を含んだ部分画像を、所定の画像データを用いて学習を行うことにより構築された事前学習モデルに前記原画画像のデータを入力することで取得することと、
前記部分画像として、物体の移動の描写及び/又は光の描写及び/又は漫符及び/又は擬音に関する情報を含んだ演出画像を取得することと、
前記部分画像に対して実行される所定の編集処理の指令である編集処理指令を取得することと、
を実行する制御部を備え、
前記編集処理は、前記部分画像を時系列に再生する処理又は/及び前記部分画像の一部を動作させながら表示する処理と、前記演出画像を動作させながら表示する処理と、を含んだ処理である、
情報処理装置。
【請求項2】
漫画の原画画像の一部である部分画像であって、コマ枠情報及び/又はテキスト情報及び/又はキャラクター情報を含んだ部分画像を、所定の画像データを用いて学習を行うことにより構築された事前学習モデルに前記原画画像のデータを入力することで取得することと、
前記部分画像に対して実行される所定の編集処理の指令である編集処理指令を取得することと、
を実行する制御部を備え、
前記制御部は、
前記事前学習モデルに学習させるための教師データであって、コマ枠及びテキスト及びキャラクターに関する画像がランダムに配置された仮想漫画を自動で生成し、該仮想漫画に含まれる画像データを用いて、前記事前学習モデルに学習を行わせ、
前記仮想漫画を自動で生成するとき、
ランダムな大きさのコマ枠を生成し、予め生成された所定の背景画像の任意の位置に該コマ枠の枠形状を配置し、該枠形状の内側の背景画像を該コマ枠内の第1画像に設定し、
予め生成された所定のキャラクター画像を前記第1画像にランダムに重畳表示させた画像を、第2画像として前記コマ枠内に設定し、
予め生成された所定のテキスト画像を前記第2画像における前記キャラクター画像に重ならない位置にランダムに重畳表示させた画像を、第3画像として前記コマ枠内に設定する、
情報処理装置。
【請求項3】
コンピュータが、
漫画の原画画像の一部である部分画像であって、コマ枠情報及び/又はテキスト情報及び/又はキャラクター情報を含んだ部分画像を、所定の画像データを用いて学習を行うことにより構築された事前学習モデルに前記原画画像のデータを入力することで取得し、更に前記部分画像として、物体の移動の描写及び/又は光の描写及び/又は漫符及び/又は擬音に関する情報を含んだ演出画像を取得する第1取得ステップと、
前記部分画像に対して実行される所定の編集処理の指令である編集処理指令を取得する第2取得ステップと、を実行し、
前記編集処理は、前記部分画像を時系列に再生する処理又は/及び前記部分画像の一部を動作させながら表示する処理と、前記演出画像を動作させながら表示する処理と、を含んだ処理である、
情報処理方法。
【請求項4】
コンピュータに、
漫画の原画画像の一部である部分画像であって、コマ枠情報及び/又はテキスト情報及び/又はキャラクター情報を含んだ部分画像を、所定の画像データを用いて学習を行うことにより構築された事前学習モデルに前記原画画像のデータを入力することで取得し、更に前記部分画像として、物体の移動の描写及び/又は光の描写及び/又は漫符及び/又は擬音に関する情報を含んだ演出画像を取得する第1取得ステップと、
前記部分画像に対して実行される所定の編集処理の指令である編集処理指令を取得する第2取得ステップと、を実行させ、
前記編集処理は、前記部分画像を時系列に再生する処理又は/及び前記部分画像の一部を動作させながら表示する処理と、前記演出画像を動作させながら表示する処理と、を含んだ処理である、
情報処理プログラム。
【手続補正書】
【提出日】2023-06-05
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
漫画の原画画像の一部である部分画像であって、コマ枠情報及び/又はテキスト情報及び/又はキャラクター情報を含んだ部分画像を、所定の画像データを用いて学習を行うことにより構築された事前学習モデルに前記原画画像のデータを入力することで取得することと、
前記部分画像に対して実行される所定の編集処理の指令である編集処理指令を取得することと、
を実行する制御部を備え、
前記制御部は、
前記事前学習モデルに学習させるための教師データであって、コマ枠及びテキスト及びキャラクターに関する画像がランダムに配置された仮想漫画を自動で生成し、該仮想漫画に含まれる画像データを用いて、前記事前学習モデルに学習を行わせ、
前記仮想漫画を自動で生成するとき、
ランダムな大きさのコマ枠を生成し、予め生成された所定の背景画像の任意の位置に該コマ枠の枠形状を配置し、該枠形状の内側の背景画像を該コマ枠内の第1画像に設定し、
予め生成された所定のキャラクター画像を前記第1画像にランダムに重畳表示させた画像を、第2画像として前記コマ枠内に設定し、
予め生成された所定のテキスト画像を前記第2画像における前記キャラクター画像に重ならない位置にランダムに重畳表示させた画像を、第3画像として前記コマ枠内に設定する、
情報処理装置。
【請求項2】
コンピュータが、
漫画の原画画像の一部である部分画像であって、コマ枠情報及び/又はテキスト情報及び/又はキャラクター情報を含んだ部分画像を、所定の画像データを用いて学習を行うことにより構築された事前学習モデルに前記原画画像のデータを入力することで取得する第1取得ステップと、
前記部分画像に対して実行される所定の編集処理の指令である編集処理指令を取得する第2取得ステップと、を実行し、
前記コンピュータが、
前記事前学習モデルに学習させるための教師データであって、コマ枠及びテキスト及びキャラクターに関する画像がランダムに配置された仮想漫画を自動で生成し、該仮想漫画に含まれる画像データを用いて、前記事前学習モデルに学習を行わせることを実行し、
前記仮想漫画を自動で生成するとき、
ランダムな大きさのコマ枠を生成し、予め生成された所定の背景画像の任意の位置に該コマ枠の枠形状を配置し、該枠形状の内側の背景画像を該コマ枠内の第1画像に設定し、
予め生成された所定のキャラクター画像を前記第1画像にランダムに重畳表示させた画像を、第2画像として前記コマ枠内に設定し、
予め生成された所定のテキスト画像を前記第2画像における前記キャラクター画像に重ならない位置にランダムに重畳表示させた画像を、第3画像として前記コマ枠内に設定することを実行する、
情報処理方法。
【請求項3】
コンピュータに、
漫画の原画画像の一部である部分画像であって、コマ枠情報及び/又はテキスト情報及び/又はキャラクター情報を含んだ部分画像を、所定の画像データを用いて学習を行うことにより構築された事前学習モデルに前記原画画像のデータを入力することで取得する第1取得ステップと、
前記部分画像に対して実行される所定の編集処理の指令である編集処理指令を取得する第2取得ステップと、を実行させ、
前記コンピュータに、
前記事前学習モデルに学習させるための教師データであって、コマ枠及びテキスト及びキャラクターに関する画像がランダムに配置された仮想漫画を自動で生成し、該仮想漫画に含まれる画像データを用いて、前記事前学習モデルに学習を行わせることを実行させ、
前記仮想漫画を自動で生成するとき、
ランダムな大きさのコマ枠を生成し、予め生成された所定の背景画像の任意の位置に該コマ枠の枠形状を配置し、該枠形状の内側の背景画像を該コマ枠内の第1画像に設定し、
予め生成された所定のキャラクター画像を前記第1画像にランダムに重畳表示させた画像を、第2画像として前記コマ枠内に設定し、
予め生成された所定のテキスト画像を前記第2画像における前記キャラクター画像に重ならない位置にランダムに重畳表示させた画像を、第3画像として前記コマ枠内に設定することを実行させる、
情報処理プログラム。