IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

7714731データ処理装置、データ処理方法、及びデータ処理プログラム
<>
  • -データ処理装置、データ処理方法、及びデータ処理プログラム 図1
  • -データ処理装置、データ処理方法、及びデータ処理プログラム 図2
  • -データ処理装置、データ処理方法、及びデータ処理プログラム 図3
  • -データ処理装置、データ処理方法、及びデータ処理プログラム 図4
  • -データ処理装置、データ処理方法、及びデータ処理プログラム 図5
  • -データ処理装置、データ処理方法、及びデータ処理プログラム 図6
  • -データ処理装置、データ処理方法、及びデータ処理プログラム 図7
  • -データ処理装置、データ処理方法、及びデータ処理プログラム 図8
  • -データ処理装置、データ処理方法、及びデータ処理プログラム 図9
  • -データ処理装置、データ処理方法、及びデータ処理プログラム 図10
  • -データ処理装置、データ処理方法、及びデータ処理プログラム 図11
  • -データ処理装置、データ処理方法、及びデータ処理プログラム 図12
  • -データ処理装置、データ処理方法、及びデータ処理プログラム 図13
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2025-07-18
(45)【発行日】2025-07-29
(54)【発明の名称】データ処理装置、データ処理方法、及びデータ処理プログラム
(51)【国際特許分類】
   G10L 13/10 20130101AFI20250722BHJP
   G06F 3/0483 20130101ALI20250722BHJP
   G06F 40/216 20200101ALI20250722BHJP
   G06F 40/279 20200101ALI20250722BHJP
   G06N 3/0475 20230101ALI20250722BHJP
   G10L 13/00 20060101ALI20250722BHJP
   G10L 13/033 20130101ALI20250722BHJP
【FI】
G10L13/10 114
G06F3/0483
G06F40/216
G06F40/279
G06N3/0475
G10L13/00 100B
G10L13/00 100Z
G10L13/033 102A
G10L13/10 113Z
【請求項の数】 9
(21)【出願番号】P 2024080476
(22)【出願日】2024-05-16
【審査請求日】2024-11-01
(73)【特許権者】
【識別番号】591280485
【氏名又は名称】ソフトバンクグループ株式会社
(74)【代理人】
【識別番号】110001519
【氏名又は名称】弁理士法人太陽国際特許事務所
(72)【発明者】
【氏名】呉 健朗
【審査官】大野 弘
(56)【参考文献】
【文献】国際公開第2023/218040(WO,A1)
【文献】大道 昇,オーディオブックス自動生成のための2次元キャラクタ特徴と声の関係性の調査,インタラクション2021論文集 [online],2021年03月12日,PP.596~599
【文献】劉 向萍 Xiangping Liu,漫画画像からの手書き擬音文字抽出,映像情報メディア学会 2012年年次大会講演予稿集 [CD-ROM] 映像情報メディア学会 2012年年次大会講演予稿集 PROCEEDINGS OF THE 2012 ITE ANNUAL CONVENTION PROCEEDINGS OF THE 2012 ITE ANNUAL CONVENTION,2012年08月31日
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/10
G06F 40/279
G06F 40/216
G10L 13/00
G06F 3/0483
G06N 3/0475
G10L 13/00
G10L 13/033
(57)【特許請求の範囲】
【請求項1】
プロセッサを備え、
前記プロセッサは、
テキスト及びイラストを含むコンテンツが電子化された電子コンテンツを取得し、
前記コンテンツにおいて予め定めた一区画単位に区画されたうちの特定区画の画像と、前記特定区画の画像に示されるキャラクタの感情を推定する指示とを含んだプロンプトを、入力データに応じた情報を生成する生成モデルに入力し、
前記電子コンテンツを表示可能な表示部に前記特定区画の画像が表示された場合、前記特定区画における前記キャラクタの台詞を、前記生成モデルが推定した前記キャラクタの感情に基づいて生成された人工音声で出力部から出力させる、
データ処理装置。
【請求項2】
前記プロセッサは、
前記特定区画の画像にオノマトペが含まれる場合、前記特定区画の画像と、前記オノマトペを解釈する指示とを含んだプロンプトを、前記生成モデルに入力し、
前記表示部に前記特定区画の画像が表示された場合、前記生成モデルが出力した前記オノマトペの解釈結果に基づいて生成された効果音を前記出力部から出力させる、
請求項1に記載のデータ処理装置。
【請求項3】
前記プロセッサは、
前記表示部に前記特定区画の画像が表示されている間に、ユーザによる所定操作を受け付けた場合、前記生成モデルが生成した前記キャラクタの感情の推定内容を、所定の人工音声で前記出力部から出力させる、
請求項1に記載のデータ処理装置。
【請求項4】
前記プロセッサは、
前記出力部からの前記特定区画の画像に応じた音の出力が終了した場合、前記出力部による音出力機能及び振動部による振動機能の少なくとも一方を用いて、特定の音の出力及び特定の振動の発生の少なくとも一方を行う、
請求項1に記載のデータ処理装置。
【請求項5】
前記プロセッサは、
前記コンテンツが映像化されている場合、所定の声質の人工音声を出力可能な仮想役者が複数記憶された役者データベースから、前記キャラクタの声を担当した特定の役者に対応する特定の仮想役者を抽出し、
前記表示部に前記特定区画の画像が表示された場合、前記特定区画における前記キャラクタの台詞を、前記特定の仮想役者による人工音声で前記出力部から出力させる、
請求項1に記載のデータ処理装置。
【請求項6】
前記プロセッサは、
前記特定の役者が複数人存在する場合、複数の前記特定の役者の中からユーザによる一の役者の選択を受け付け、
前記役者データベースから、選択を受け付けた前記一の役者に対応する第1仮想役者を抽出し、
前記表示部に前記特定区画の画像が表示された場合、前記特定区画における前記キャラクタの台詞を、前記第1仮想役者による人工音声で前記出力部から出力させる、
請求項5に記載のデータ処理装置。
【請求項7】
前記プロセッサは、
前記コンテンツが映像化されていない場合、前記電子コンテンツを前記生成モデルに入力して解釈した前記キャラクタの特徴を取得し、
取得した前記キャラクタの特徴と、当該特徴に適した声質を有する役者を尋ねる指示とを含んだプロンプトを、前記生成モデルに入力し、
所定の声質の人工音声を出力可能な仮想役者が複数記憶された役者データベースから、前記生成モデルが出力した役者に対応する第2仮想役者を抽出し、
前記表示部に前記特定区画の画像が表示された場合、前記特定区画における前記キャラクタの台詞を、前記第2仮想役者による人工音声で前記出力部から出力させる、
請求項1に記載のデータ処理装置。
【請求項8】
テキスト及びイラストを含むコンテンツが電子化された電子コンテンツを取得し、
前記コンテンツにおいて予め定めた一区画単位に区画されたうちの特定区画の画像と、前記特定区画の画像に示されるキャラクタの感情を推定する指示とを含んだプロンプトを、入力データに応じた情報を生成する生成モデルに入力し、
前記電子コンテンツを表示可能な表示部に前記特定区画の画像が表示された場合、前記特定区画における前記キャラクタの台詞を、前記生成モデルが推定した前記キャラクタの感情に基づいて生成された人工音声で出力部から出力させる、
処理をコンピュータが実行するデータ処理方法。
【請求項9】
テキスト及びイラストを含むコンテンツが電子化された電子コンテンツを取得し、
前記コンテンツにおいて予め定めた一区画単位に区画されたうちの特定区画の画像と、前記特定区画の画像に示されるキャラクタの感情を推定する指示とを含んだプロンプトを、入力データに応じた情報を生成する生成モデルに入力し、
前記電子コンテンツを表示可能な表示部に前記特定区画の画像が表示された場合、前記特定区画における前記キャラクタの台詞を、前記生成モデルが推定した前記キャラクタの感情に基づいて生成された人工音声で出力部から出力させる、
処理をコンピュータに実行させるデータ処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示の技術は、データ処理装置、データ処理方法、及びデータ処理プログラムに関する。
【背景技術】
【0002】
特許文献1には、少なくとも一つのプロセッサにより遂行される、ペルソナチャットボット制御方法であって、ユーザ発話を受信するステップと、前記ユーザ発話を、チャットボットのキャラクターに関する説明と関連した指示文を含むプロンプトに追加するステップと前記プロンプトをエンコードするステップと、前記エンコードしたプロンプトを言語モデルに入力して、前記ユーザ発話に応答するチャットボット発話を生成するステップ、を含む、方法が開示されている。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2022-180282号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら従来技術では、上記の言語モデルのような生成モデルから出力される人工音声の質について未だ改善の余地がある。
【課題を解決するための手段】
【0005】
第1態様のデータ処理装置は、プロセッサを備え、前記プロセッサは、テキスト及びイラストを含むコンテンツが電子化された電子コンテンツを取得し、前記コンテンツにおいて予め定めた一区画単位に区画されたうちの特定区画の画像と、前記特定区画の画像に示されるキャラクタの感情を推定する指示とを含んだプロンプトを、入力データに応じた情報を生成する生成モデルに入力し、前記電子コンテンツを表示可能な表示部に前記特定区画の画像が表示された場合、前記特定区画における前記キャラクタの台詞を、前記生成モデルが推定した前記キャラクタの感情に基づいて生成された人工音声で出力部から出力させる。
【0006】
第1態様のデータ処理装置では、プロセッサは、電子コンテンツを取得する。生成モデルには、電子コンテンツにおける特定区画の画像と、特定区画の画像に示されるキャラクタの感情を推定する指示とを含んだプロンプトが入力される。そして、表示部に特定区画の画像が表示された場合、出力部からは、生成モデルが推定したキャラクタの感情に基づいて生成された人工音声で特定区画におけるキャラクタの台詞が出力される。これにより、当該データ処理装置によれば、出力部から抑揚のない人工音声が出力される構成に比べて、電子コンテンツに対するユーザの没入感を高めることができる。
【0007】
第2態様のデータ処理装置は、第1態様において、前記プロセッサは、前記特定区画の画像にオノマトペが含まれる場合、前記特定区画の画像と、前記オノマトペを解釈する指示とを含んだプロンプトを、前記生成モデルに入力し、前記表示部に前記特定区画の画像が表示された場合、前記生成モデルが出力した前記オノマトペの解釈結果に基づいて生成された効果音を前記出力部から出力させる。
【0008】
第2態様のデータ処理装置では、特定区画の画像にオノマトペが含まれる場合、生成モデルには、特定区画の画像と、オノマトペを解釈する指示とを含んだプロンプトが入力される。そして、表示部に特定区画の画像が表示された場合、出力部からは、生成モデルが出力したオノマトペの解釈結果に基づいて生成された効果音が出力される。これにより、当該データ処理装置によれば、オノマトペに応じた効果音が出力部から出力されない構成に比べて、電子コンテンツに対するユーザの没入感を高めることができる。
【0009】
第3態様のデータ処理装置は、第1態様又は第2態様において、前記プロセッサは、前記表示部に前記特定区画の画像が表示されている間に、ユーザによる所定操作を受け付けた場合、前記生成モデルが生成した前記キャラクタの感情の推定内容を、所定の人工音声で前記出力部から出力させる。
【0010】
第3態様のデータ処理装置では、表示部に特定区画の画像が表示されている間に、ユーザによる所定操作を受け付けた場合、出力部からは、生成モデルが生成したキャラクタの感情の推定内容が所定の音声で出力される。これにより、当該データ処理装置によれば、キャラクタの台詞のみが音声出力される構成に比べて、電子コンテンツの内容に対するユーザの理解度を高めることができる。
【0011】
第4態様のデータ処理装置は、第1態様から第3態様の何れか1つにおいて、前記プロセッサは、前記出力部からの前記特定区画の画像に応じた音の出力が終了した場合、前記出力部による音出力機能及び振動部による振動機能の少なくとも一方を用いて、特定の音の出力及び特定の振動の発生の少なくとも一方を行う。
【0012】
第4態様のデータ処理装置では、出力部からの特定区画の画像に応じた音の出力が終了した場合、音出力機能及び振動機能の少なくとも一方を用いて、特定の音の出力及び特定の振動の発生の少なくとも一方が行われる。これにより、当該データ処理装置によれば、ユーザの目が不自由であっても、表示部に表示する区画の切替えタイミングがきたことを把握させることができる。
【0013】
第5態様のデータ処理装置は、第1態様から第4態様の何れか1つにおいて、前記プロセッサは、前記コンテンツが映像化されている場合、所定の声質の人工音声を出力可能な仮想役者が複数記憶された役者データベースから、前記キャラクタの声を担当した特定の役者に対応する特定の仮想役者を抽出し、前記表示部に前記特定区画の画像が表示された場合、前記特定区画における前記キャラクタの台詞を、前記特定の仮想役者による人工音声で前記出力部から出力させる。
【0014】
第5態様のデータ処理装置では、コンテンツが映像化されている場合、役者データベースから、キャラクタの声を担当した特定の役者に対応する特定の仮想役者が抽出される。そして、表示部に特定区画の画像が表示された場合、出力部からは、特定区画におけるキャラクタの台詞が特定の仮想役者による人工音声で出力される。これにより、当該データ処理装置によれば、映像化された際のキャラクタの声を把握しているユーザがキャラクタの人工音声に対して感じる違和感を軽減することができる。
【0015】
第6態様のデータ処理装置は、第5態様において、前記プロセッサは、前記特定の役者が複数人存在する場合、複数の前記特定の役者の中からユーザによる一の役者の選択を受け付け、前記役者データベースから、選択を受け付けた前記一の役者に対応する第1仮想役者を抽出し、前記表示部に前記特定区画の画像が表示された場合、前記特定区画における前記キャラクタの台詞を、前記第1仮想役者による人工音声で前記出力部から出力させる。
【0016】
第6態様のデータ処理装置では、特定の役者が複数人存在する場合、ユーザは、複数の特定の役者の中から一の役者を選択する。役者データベースからは、ユーザが選択した一の役者に対応する第1仮想役者が抽出される。そして、表示部に特定区画の画像が表示された場合、出力部からは、特定区画におけるキャラクタの台詞が第1仮想役者による人工音声で出力される。これにより、当該データ処理装置によれば、特定の役者が複数人存在する場合に、ユーザの好みに合わせた人工音声をキャラクタに設定することができる。
【0017】
第7態様のデータ処理装置は、第1態様から第6態様の何れか1つにおいて、前記プロセッサは、前記コンテンツが映像化されていない場合、前記電子コンテンツを前記生成モデルに入力して解釈した前記キャラクタの特徴を取得し、取得した前記キャラクタの特徴と、当該特徴に適した声質を有する役者を尋ねる指示とを含んだプロンプトを、前記生成モデルに入力し、所定の声質の人工音声を出力可能な仮想役者が複数記憶された役者データベースから、前記生成モデルが出力した役者に対応する第2仮想役者を抽出し、前記表示部に前記特定区画の画像が表示された場合、前記特定区画における前記キャラクタの台詞を、前記第2仮想役者による人工音声で前記出力部から出力させる。
【0018】
第7態様のデータ処理装置では、コンテンツが映像化されていない場合、電子コンテンツを生成モデルに入力して解釈したキャラクタの特徴が取得される。生成モデルには、当該キャラクタの特徴と、当該特徴に適した声質を有する役者を尋ねる指示とを含んだプロンプトが入力される。役者データベースからは、生成モデルが出力した役者に対応する仮想役者が抽出される。そして、表示部に特定区画の画像が表示された場合、出力部からは、特定区画におけるキャラクタの台詞が当該仮想役者による人工音声で出力される。これにより、当該データ処理装置によれば、コンテンツが映像化されていなくても、キャラクタの特徴に適した声質を再現可能な人工音声をキャラクタに設定することができる。
【0019】
第8態様のデータ処理方法は、テキスト及びイラストを含むコンテンツが電子化された電子コンテンツを取得し、前記コンテンツにおいて予め定めた一区画単位に区画されたうちの特定区画の画像と、前記特定区画の画像に示されるキャラクタの感情を推定する指示とを含んだプロンプトを、入力データに応じた情報を生成する生成モデルに入力し、前記電子コンテンツを表示可能な表示部に前記特定区画の画像が表示された場合、前記特定区画における前記キャラクタの台詞を、前記生成モデルが推定した前記キャラクタの感情に基づいて生成された人工音声で出力部から出力させる、処理をコンピュータが実行する。
【0020】
第8態様のデータ処理方法では、電子コンテンツが取得される。生成モデルには、電子コンテンツにおける特定区画の画像と、特定区画の画像に示されるキャラクタの感情を推定する指示とを含んだプロンプトが入力される。そして、表示部に特定区画の画像が表示された場合、出力部からは、生成モデルが推定したキャラクタの感情に基づいて生成された人工音声で特定区画におけるキャラクタの台詞が出力される。これにより、当該データ処理方法によれば、出力部から抑揚のない人工音声が出力される構成に比べて、電子コンテンツに対するユーザの没入感を高めることができる。
【0021】
第9態様のデータ処理プログラムは、テキスト及びイラストを含むコンテンツが電子化された電子コンテンツを取得し、前記コンテンツにおいて予め定めた一区画単位に区画されたうちの特定区画の画像と、前記特定区画の画像に示されるキャラクタの感情を推定する指示とを含んだプロンプトを、入力データに応じた情報を生成する生成モデルに入力し、前記電子コンテンツを表示可能な表示部に前記特定区画の画像が表示された場合、前記特定区画における前記キャラクタの台詞を、前記生成モデルが推定した前記キャラクタの感情に基づいて生成された人工音声で出力部から出力させる、処理をコンピュータに実行させる。
【0022】
第9態様のデータ処理プログラムでは、電子コンテンツが取得される。生成モデルには、電子コンテンツにおける特定区画の画像と、特定区画の画像に示されるキャラクタの感情を推定する指示とを含んだプロンプトが入力される。そして、表示部に特定区画の画像が表示された場合、出力部からは、生成モデルが推定したキャラクタの感情に基づいて生成された人工音声で特定区画におけるキャラクタの台詞が出力される。これにより、当該データ処理プログラムによれば、出力部から抑揚のない人工音声が出力される構成に比べて、電子コンテンツに対するユーザの没入感を高めることができる。
【図面の簡単な説明】
【0023】
図1】データ処理システムの構成の一例を示す概念図である。
図2】データ処理装置及びスマートデバイスの要部機能の一例を示す概念図である。
図3】データ処理装置が行う特定処理の例を示す第1の説明図である。
図4】データ処理装置が行う特定処理の例を示す第2の説明図である。
図5】データ処理装置による第1特定処理の動作フローの一例を概略的に示す。
図6】コマ情報生成処理のサブルーチンである。
図7】感情推定処理のサブルーチンである。
図8】効果音生成処理のサブルーチンである。
図9】人工音声決定処理のサブルーチンである。
図10】データ処理装置による第2特定処理の動作フローの一例を概略的に示す。
図11】ディスプレイの表示例を示す第1の説明図である。
図12】ディスプレイの表示例を示す第2の説明図である。
図13】ディスプレイの表示例を示す第3の説明図である。
【発明を実施するための形態】
【0024】
以下、添付図面に従って本開示の技術に係るデータ処理装置、データ処理方法、及びプログラムの実施形態の一例について説明する。
【0025】
先ず、以下の説明で使用される文言について説明する。
【0026】
以下の実施形態において、符号付きのプロセッサ(以下、単に「プロセッサ」と称する)は、1つの演算装置であってもよいし、複数の演算装置の組み合わせであってもよい。また、プロセッサは、1種類の演算装置であってもよいし、複数種類の演算装置の組み合わせであってもよい。演算装置の一例としては、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、GPGPU(General-Purpose computing on Graphics Processing Units)、又はAPU(Accelerated Processing Unit)等が挙げられる。
【0027】
以下の実施形態において、符号付きのRAM(Random Access Memory)は、一時的に情報が格納されるメモリであり、プロセッサによってワークメモリとして用いられる。
【0028】
以下の実施形態において、符号付きのストレージは、各種プログラム及び各種パラメータ等を記憶する1つ又は複数の不揮発性の記憶装置である。不揮発性の記憶装置の一例としては、フラッシュメモリ(SSD(Solid State Drive))、磁気ディスク(例えば、ハードディスク)、又は磁気テープ等が挙げられる。
【0029】
以下の実施形態において、符号付きの通信I/F(Interface)は、通信プロセッサ及びアンテナ等を含むインタフェースである。通信I/Fは、複数のコンピュータ間での通信を司る。通信I/Fに対して適用される通信規格の一例としては、5G(5th Generation Mobile Communication System)、Wi-Fi(登録商標)、又はBluetooth(登録商標)等を含む無線通信規格が挙げられる。
【0030】
以下の実施形態において、「A及び/又はB」は、「A及びBのうちの少なくとも1つ」と同義である。つまり、「A及び/又はB」は、Aだけであってもよいし、Bだけであってもよいし、A及びBの組み合わせであってもよい、という意味である。また、本明細書において、3つ以上の事柄を「及び/又は」で結び付けて表現する場合も、「A及び/又はB」と同様の考え方が適用される。
【0031】
図1には、実施形態に係るデータ処理システム10の構成の一例が示されている。
【0032】
図1に示すように、データ処理システム10は、データ処理装置12及びスマートデバイス14を備えている。データ処理装置12の一例としては、サーバが挙げられる。スマートデバイス14の一例としては、スマートフォンが挙げられる。本実施形態において、データ処理装置12は、本開示の技術に係る「データ処理装置」の一例である。
【0033】
データ処理装置12は、コンピュータ22、データベース24、及び通信I/F26を備えている。コンピュータ22は、本開示の技術に係る「コンピュータ」の一例である。コンピュータ22は、プロセッサ28、RAM30、及びストレージ32を備えている。プロセッサ28は、本開示の技術に係る「プロセッサ」の一例である。プロセッサ28、RAM30、及びストレージ32は、バス34に接続されている。また、データベース24及び通信I/F26も、バス34に接続されている。通信I/F26は、ネットワーク54に接続されている。ネットワーク54の一例としては、WAN(Wide Area Network)及び/又はLAN(Local Area Network)等が挙げられる。
【0034】
スマートデバイス14は、コンピュータ36、受付装置38、出力装置40、カメラ42、及び通信I/F44を備えている。コンピュータ36は、プロセッサ46、RAM48、及びストレージ50を備えている。プロセッサ46、RAM48、及びストレージ50は、バス52に接続されている。また、受付装置38、出力装置40、及びカメラ42も、バス52に接続されている。
【0035】
受付装置38は、タッチパネル38A及びマイクロフォン38B等を備えており、ユーザ入力を受け付ける。タッチパネル38Aは、指示体(例えば、ペン又は指等)の接触を検出することにより、指示体の接触によるユーザ入力を受け付ける。マイクロフォン38Bは、ユーザの音声を検出することにより、音声によるユーザ入力を受け付ける。制御部46Aは、タッチパネル38A及びマイクロフォン38Bによって受け付けたユーザ入力を示すデータをデータ処理装置12に送信する。データ処理装置12では、特定処理部290が、ユーザ入力を示すデータを取得する。
【0036】
出力装置40は、ディスプレイ40A及びスピーカ40B等を備えており、データをユーザが知覚可能な表現形(例えば、音声及び/又はテキスト)で出力することでデータをユーザに対して提示する。ディスプレイ40Aは、プロセッサ46からの指示に従ってテキスト及び画像等の可視情報を表示する。スピーカ40Bは、プロセッサ46からの指示に従って音声を出力する。ディスプレイ40Aは、本開示の技術に係る「表示部」の一例であり、スピーカ40Bは、本開示の技術に係る「出力部」の一例である。
【0037】
カメラ42は、レンズ、絞り、及びシャッタ等の光学系と、CMOS(Complementary Metal-Oxide-Semiconductor)イメージセンサ又はCCD(Charge Coupled Device)イメージセンサ等の撮像素子とが搭載された小型デジタルカメラである。
【0038】
通信I/F44は、ネットワーク54に接続されている。通信I/F44及び26は、ネットワーク54を介してプロセッサ46とプロセッサ28との間の各種情報の授受を司る。
【0039】
図2には、データ処理装置12及びスマートデバイス14の要部機能の一例が示されている。
【0040】
図2に示すように、データ処理装置12では、プロセッサ28によって特定処理が行われる。ストレージ32には、特定処理プログラム56が格納されている。特定処理プログラム56は、本開示の技術に係る「データ処理プログラム」の一例である。プロセッサ28は、ストレージ32から特定処理プログラム56を読み出し、読み出した特定処理プログラム56をRAM30上で実行する。特定処理は、プロセッサ28がRAM30上で実行する特定処理プログラム56に従って特定処理部290として動作することによって実現される。なお、本開示の技術に係る「データ処理プログラム」は、プログラム製品としても適用できる。
【0041】
ストレージ32には、データ生成モデル58が格納されている。データ生成モデル58は、特定処理部290によって用いられる。
【0042】
データ生成モデル58は、いわゆる生成AI(Artificial Intelligence)である。データ生成モデル58の一例としては、ChatGPT(インターネット検索<URL: https://openai.com/blog/chatgpt>)、Gemini(インターネット検索<URL: https://gemini.google.com/?hl=ja>)、EmotiVoice(インターネット検索<URL: https://weel.co.jp/media/tech/emotivoice/>)、及びAudiobox(インターネット検索<URL: https://audiobox.metademolab.com/>)等の生成AIが挙げられる。データ生成モデル58は、上記のような公知の各種生成AIを適宜組み合わせて構成される。データ生成モデル58は、ニューラルネットワークに対して深層学習を行わせることによって得られる。データ生成モデル58には、指示を含むプロンプトが入力され、かつ、音声を示す音声データ、テキストを示すテキストデータ、及び画像を示す画像データ等の推論用データが入力される。データ生成モデル58は、入力された推論用データをプロンプトにより示される指示に従って推論し、推論結果を音声データ及びテキストデータ等のデータ形式で出力する。ここで、推論とは、例えば、分析、分類、予測、及び/又は要約等を指す。データ生成モデル58は、本開示の技術に係る「生成モデル」の一例である。
【0043】
スマートデバイス14では、プロセッサ46によって受付出力処理が行われる。ストレージ50には、受付出力プログラム60が格納されている。受付出力プログラム60は、データ処理システム10によって特定処理プログラム56と併用される。プロセッサ46は、ストレージ50から受付出力プログラム60を読み出し、読み出した受付出力プログラム60をRAM48上で実行する。受付出力処理は、プロセッサ46がRAM48上で実行する受付出力プログラム60に従って、制御部46Aとして動作することによって実現される。
【0044】
次に、データ処理装置12が行う特定処理の例について説明する。
図3は、データ処理装置12が行う特定処理の例を示す第1の説明図である。図3は、特定処理において、データ生成モデル58が、電子コミックの特定の1コマ(以下、単に「コマ」と記載することもある)の画像に示されるキャラクタの感情を推定する例を示している。当該データ生成モデル58は、例えば、ChatGPTである。電子コミックは、テキスト及びイラストを含む紙媒体の漫画(以下、単に「漫画」とする)が電子化されたものである。当該漫画は、各ページが、予め定めたコマ単位に区画されている。電子コミックは、本開示の技術に係る「電子コンテンツ」の一例であり、漫画は、本開示の技術に係る「コンテンツ」の一例であり、コマ単位は、本開示の技術に係る「一区画単位」の一例である。
【0045】
図3には、データ生成モデル58に入力するプロンプト70が示されている。プロンプト70は、上記漫画としての漫画Aにおける特定のコマの画像を示すコマ画像70Aと、コマ画像70Aに示されるキャラクタの感情を推定する指示を示す指示文70Bとを含んで構成されている。コマ画像70Aは、本開示の技術に係る「特定区画の画像」の一例である。
【0046】
コマ画像70Aには、「明日は晴れるかな。」との台詞を話すキャラクタが示されている。また、指示文70Bは、一例として「このコマのキャラクタはどんな感情でしょうか?」とのテキストである。
【0047】
また、図3には、データ生成モデル58にプロンプト70が入力された際の出力結果71が示されている。出力結果71は、一例として「画像には、涙目のキャラクタが立ち尽くす姿が描かれています。このことから、キャラクタは、不安や悲しさを感じていると推定できます。」とのテキストである。
【0048】
図4は、データ処理装置12が行う特定処理の例を示す第2の説明図である。図4は、特定処理において、データ生成モデル58が、電子コミックの特定のコマの画像に示されるオノマトペを解釈する例を示している。当該データ生成モデル58は、例えば、ChatGPTである。
【0049】
図4には、データ生成モデル58に入力するプロンプト72が示されている。プロンプト72は、漫画Aにおける特定のコマの画像を示すコマ画像72Aと、コマ画像72Aに示されるオノマトペを解釈する指示を示す指示文72Bとを含んで構成されている。コマ画像72Aは、本開示の技術に係る「特定区画の画像」の一例である。
【0050】
コマ画像72Aには、「ドギューン」とのオノマトペが示されている。また、指示文72Bは、一例として「このコマのオノマトペはどんな音ですか?」とのテキストである。
【0051】
また、図4には、データ生成モデル58にプロンプト72が入力された際の出力結果73が示されている。出力結果73は、一例として「「ドギューン」というオノマトペは、大きな衝撃や高速で移動する物体などを示す擬音語です。」とのテキストである。
【0052】
次に、データ処理システム10の作用について説明する。
特定処理の流れの一例について図5図10を参照しながら説明する。特定処理は、図5図9に示す第1特定処理と、図10に示す第2特定処理とを含む。一例として、第1特定処理は、ユーザがスマートデバイス14を操作して、スマートデバイス14にインストールされた所定のアプリケーションを実行し、電子コミックを選択する選択画面がディスプレイ40Aに表示された場合に行われる。また、第2特定処理は、ユーザがスマートデバイス14を操作して当該所定のアプリケーションを実行し、当該電子コミックを閲覧する閲覧画面がディスプレイ40Aに表示された場合に行われる。なお、図5図10に示す特定処理の流れは、本開示の技術に係る「データ処理方法」の一例である。
【0053】
図5に示すステップS10において、プロセッサ28は、スマートデバイス14に対するユーザ入力、例えば、音声によるユーザ入力を示すデータに基づいて、特定の電子コミックをデータベース24から取得する。データベース24には、種々の漫画が電子化された種々の電子コミックが記憶されている。以下、データベース24から取得した特定の電子コミックを、漫画Aが電子化された「電子コミックA」として説明する。そして、プロセッサ28は、ステップS11に進む。
【0054】
ステップS11において、プロセッサ28は、電子コミックAに登場するキャラクタをリスト化する。ここでは、プロセッサ28は、電子コミックAと、電子コミックAのストーリー及び作風を解釈する指示と、電子コミックAに登場するキャラクタ毎の特徴をリスト化する指示とを含んだプロンプトをデータ生成モデル58に入力し、その出力結果を取得する。当該データ生成モデル58は、例えば、ChatGPTである。当該プロンプトは、例えば「以下の電子コミックAのストーリー及び作風を解釈してください。また、電子コミックAに登場するキャラクタ毎の特徴をリスト化してください。電子コミックA.pdf」というテキスト及びPDFデータである。これにより、ステップS11では、データ生成モデル58による出力結果に基づいて、「キャラクタA:10歳くらいの男の子で性格はおとなしめ、キャラクタB:10歳くらいの男の子で性格は活発・・・」といったキャラクタ毎の特徴がリスト化される。そして、プロセッサ28は、ステップS12に進む。
【0055】
ステップS12において、プロセッサ28は、ディスプレイ40Aに電子コミックAが表示されている間にスピーカ40Bから出力されるBGM(background music)を決定する。データベース24には、種々の電子コミックの作風に対応する種々のBGMが記憶されている。プロセッサ28は、ステップS11におけるデータ生成モデル58による出力結果に示される電子コミックAの作風に対応するBGMをデータベース24から取得する。プロセッサ28は、取得したBGMを示す音データをプロセッサ46に送信する。そして、プロセッサ28は、ステップS13に進む。
【0056】
ステップS13において、プロセッサ28は、電子コミックAの各コマに含めるコマ情報を生成するコマ情報生成処理を行う。コマ情報は、コマの画像を示す情報に加え、後述する各種の情報が含まれる。コマ情報生成処理のサブルーチンについては後述する。そして、プロセッサ28は、ステップS14に進む。
【0057】
ステップS14において、プロセッサ28は、電子コミックAに登場するキャラクタの各コマにおける感情を推定する感情推定処理を行う。感情推定処理のサブルーチンについては後述する。そして、プロセッサ28は、ステップS15に進む。
【0058】
ステップS15において、プロセッサ28は、電子コミックAの特定のコマに示されるオノマトペに対応する効果音を生成する効果音生成処理を行う。効果音生成処理のサブルーチンについては後述する。そして、プロセッサ28は、ステップS16に進む。
【0059】
ステップS16において、プロセッサ28は、電子コミックAに登場するキャラクタの台詞を発する人工音声を決定する人工音声決定処理を行う。人工音声決定処理のサブルーチンについては後述する。そして、プロセッサ28は、処理を終了する。
【0060】
図6は、コマ情報生成処理のサブルーチンである。
図6に示すステップS20において、プロセッサ28は、電子コミックAを各コマに分割する。そして、プロセッサ28は、ステップS21に進む。一例として、電子コミックAは各コマの順序が予め決められており、プロセッサ28は、予め決められたコマの順序でステップS21以降の処理を行う。
【0061】
ステップS21において、プロセッサ28は、コマに登場するキャラクタを特定する。例えば、プロセッサ28は、コマの画像と、ステップS11でリスト化されたキャラクタ毎の特徴とを参照して、コマに登場するキャラクタを特定する。そして、プロセッサ28は、ステップS22に進む。
【0062】
ステップS22において、プロセッサ28は、コマの画像に対する文字認識処理を行い、コマに登場するキャラクタの台詞を特定する。なお、コマの画像内に複数のキャラクタが登場し、かつ複数の台詞が存在する場合、プロセッサ28は、画像情報及び文字認識情報等に基づいて、各台詞の話者を特定する。そして、プロセッサ28は、ステップS23に進む。
【0063】
ステップS23において、プロセッサ28は、ステップS21で特定したキャラクタ及びステップS22で特定したキャラクタの台詞を、対応するコマのコマ情報に紐付けてデータベース24に保存する。これにより、データベース24には、例えば、電子コミックAの最初のコマには、キャラクタAが登場し、キャラクタAの台詞は「明日は晴れるかな。」であるとの情報が保存される。そして、プロセッサ28は、ステップS24に進む。
【0064】
ステップS24において、プロセッサ28は、ステップS23でデータベース24に保存したコマ情報が電子コミックAの最後のコマに対応するか否かを判定する。ここで、プロセッサ28は、当該コマ情報が電子コミックAの最後のコマに対応すると判定した場合(ステップS24:YES)、呼び出し元の処理へ戻る。一方、プロセッサ28は、当該コマ情報が電子コミックAの最後のコマに対応しないと判定した場合(ステップS24:NO)、ステップS25に進む。一例として、電子コミックAは、最後のコマに特定のラベルが付与されており、プロセッサ28は、当該特定のラベルの有無で最後のコマに対応するか否かを判定する。
【0065】
ステップS25において、プロセッサ28は、処理対象を次のコマに進める。そして、プロセッサ28は、ステップS21に戻る。このように、プロセッサ28は、電子コミックAの最初のコマから最後のコマに至るまで、図6に示すサブルーチンを繰り返し実行する。
【0066】
図7は、感情推定処理のサブルーチンである。
図7に示すステップS30において、プロセッサ28は、電子コミックAの最初のコマに対応するコマ情報をデータベース24から取得する。一例として、電子コミックAは、最初のコマに所定のラベルが付与されており、プロセッサ28は、当該所定のラベルが付与されたコマに対応するコマ情報をデータベース24から取得する。そして、プロセッサ28は、ステップS31に進む。
【0067】
ステップS31において、プロセッサ28は、データ生成モデル58に入力するプロンプトを生成する。当該データ生成モデル58は、例えば、ChatGPTである。当該プロンプトは、電子コミックAの処理対象のコマの画像と、当該画像に示されるキャラクタの感情を推定する指示とを含む。当該処理対象のコマは、図7に示すサブルーチンの1回目は最初のコマとなり、2回目以降は処理内のステップで取得したコマ情報に対応するコマとなる。以降に登場する「処理対象のコマ」も同義である。例えば、当該プロンプトは、図3のコマ画像70Aに示される画像と、指示文70Bに示されるテキストとを含んで構成されている。そして、プロセッサ28は、ステップS32に進む。
【0068】
ステップS32において、プロセッサ28は、ステップS31で生成したプロンプトをデータ生成モデル58に入力して、データ生成モデル58による出力結果を取得する。そして、プロセッサ28は、ステップS33に進む。
【0069】
ステップS33において、プロセッサ28は、ステップS32でデータ生成モデル58から出力された出力結果を、処理対象のコマのコマ情報に紐付けてデータベース24に保存する。例えば、当該出力結果は、図3の出力結果71に示されるようなテキストである。そして、プロセッサ28は、ステップS34に進む。
【0070】
ステップS34において、プロセッサ28は、ステップS33でデータベース24に保存したコマ情報が電子コミックAの最後のコマに対応するか否かを判定する。ここで、プロセッサ28は、当該コマ情報が電子コミックAの最後のコマに対応すると判定した場合(ステップS34:YES)、呼び出し元の処理へ戻る。一方、プロセッサ28は、当該コマ情報が電子コミックAの最後のコマに対応しないと判定した場合(ステップS34:NO)、ステップS35に進む。
【0071】
ステップS35において、プロセッサ28は、処理対象を次のコマに進め、次のコマに対応するコマ情報をデータベース24から取得する。そして、プロセッサ28は、ステップS31に戻る。このように、プロセッサ28は、電子コミックAの最初のコマから最後のコマに至るまで、図7に示すサブルーチンを繰り返し実行する。
【0072】
図8は、効果音生成処理のサブルーチンである。
図8に示すステップS40において、プロセッサ28は、電子コミックAの最初のコマに対応するコマ情報をデータベース24から取得する。そして、プロセッサ28は、ステップS41に進む。
【0073】
ステップS41において、プロセッサ28は、処理対象のコマにオノマトペが含まれるか否かを判定する。ここで、プロセッサ28は、オノマトペが含まれると判定した場合(ステップS41:YES)、ステップS42に進む。一方、プロセッサ28は、オノマトペが含まれないと判定した場合(ステップS41:NO)、ステップS47に進む。データベース24には、種々の漫画で使用される種々のオノマトペが記憶されている。プロセッサ28は、処理対象のコマの画像に対する文字認識処理を行い、文字認識処理の結果がデータベース24に記憶されているオノマトペに一致するか否かでオノマトペの有無を判定する。
【0074】
ステップS42において、プロセッサ28は、データ生成モデル58に入力するプロンプトを生成する。当該データ生成モデル58は、例えば、ChatGPTである。当該プロンプトは、処理対象のコマの画像と、当該画像に示されるオノマトペを解釈する指示とを含む。例えば、当該プロンプトは、図4のコマ画像72Aに示される画像と、指示文72Bに示されるテキストとを含んで構成されている。そして、プロセッサ28は、ステップS43に進む。
【0075】
ステップS43において、プロセッサ28は、ステップS42で生成したプロンプトをデータ生成モデル58に入力して、データ生成モデル58による出力結果を取得する。そして、プロセッサ28は、ステップS44に進む。
【0076】
ステップS44において、プロセッサ28は、データ生成モデル58に入力するプロンプトを生成する。当該データ生成モデル58は、例えば、Audioboxである。当該プロンプトは、ステップS43でのデータ生成モデル58の出力結果であるオノマトペの解釈結果と、当該オノマトペの解釈結果に応じた効果音を生成する指示とを含む。例えば、当該オノマトペの解釈結果は、図4の出力結果73に示されるようなテキストである。その結果、当該プロンプトは、例えば「「ドギューン」というオノマトペは、大きな衝撃や高速で移動する物体などを示す擬音語です。この擬音語に適した効果音を生成してください」といったテキストとなる。そして、プロセッサ28は、ステップS45に進む。
【0077】
ステップS45において、プロセッサ28は、ステップS44で生成したプロンプトをデータ生成モデル58に入力して、データ生成モデル58による出力結果を取得する。そして、プロセッサ28は、ステップS46に進む。
【0078】
ステップS46において、プロセッサ28は、ステップS45でデータ生成モデル58から出力された出力結果を、処理対象のコマのコマ情報に紐付けてデータベース24に保存する。例えば、当該出力結果は、効果音を示す音データである。そして、プロセッサ28は、ステップS47に進む。
【0079】
ステップS47において、プロセッサ28は、ステップS46でデータベース24に保存したコマ情報が電子コミックAの最後のコマに対応するか否かを判定する。ここで、プロセッサ28は、当該コマ情報が電子コミックAの最後のコマに対応すると判定した場合(ステップS47:YES)、呼び出し元の処理へ戻る。一方、プロセッサ28は、当該コマ情報が電子コミックAの最後のコマに対応しないと判定した場合(ステップS47:NO)、ステップS48に進む。
【0080】
ステップS48において、プロセッサ28は、処理対象を次のコマに進め、次のコマに対応するコマ情報をデータベース24から取得する。そして、プロセッサ28は、ステップS41に戻る。このように、プロセッサ28は、電子コミックAの最初のコマから最後のコマに至るまで、図7に示すサブルーチンを繰り返し実行する。
【0081】
図9は、人工音声決定処理のサブルーチンである。
図9に示すステップS50において、プロセッサ28は、電子コミックAに登場するキャラクタの中から任意の一のキャラクタを選択する。そして、プロセッサ28は、ステップS51に進む。
【0082】
ステップS51において、プロセッサ28は、漫画Aがアニメ化されているか否かを判定する。ここで、プロセッサ28は、漫画Aがアニメ化されていると判定した場合(ステップS51:YES)、ステップS52に進む。一方、プロセッサ28は、漫画Aがアニメ化されていないと判定した場合(ステップS51:NO)、ステップS54に進む。一例として、プロセッサ28は、データ生成モデル58の出力結果に基づいて、漫画Aがアニメ化されているか否かを判定する。当該データ生成モデル58は、例えば、ChatGPTである。この場合、プロセッサ28は、「漫画Aはアニメ化されていますか?」等の漫画Aがアニメ化されているかを尋ねるプロンプトをデータ生成モデル58に入力して、データ生成モデル58による出力結果を取得する。アニメ化は、本開示の技術に係る「映像化」の一例である。
【0083】
ステップS52において、プロセッサ28は、処理対象のキャラクタの声をアニメで担当した声優を特定する。当該処理対象のキャラクタは、図9に示すサブルーチンの1回目はステップS50で選択したキャラクタとなり、2回目以降はステップS59で選択したキャラクタとなる。以降に登場する「処理対象のキャラクタ」も同義である。一例として、プロセッサ28は、データ生成モデル58の出力結果に基づいて、声優を特定する。当該データ生成モデル58は、例えば、ChatGPTである。この場合、プロセッサ28は、「キャラクタAの担当声優は誰ですか?」等の漫画Aのアニメで当該処理対象のキャラクタの声を担当した声優を尋ねるプロンプトをデータ生成モデル58に入力して、データ生成モデル58による出力結果を取得する。そして、プロセッサ28は、ステップS53に進む。
【0084】
ステップS53において、プロセッサ28は、処理対象のキャラクタの台詞を発する仮想声優を決定する。データベース24には、所定の声質の人工音声を出力可能な仮想声優が複数記憶された声優データベースが記憶されている。仮想声優は、実在する声優の声を基に、当該声優と同種の人工音声を発することができるよう訓練された仮想的な声優である。所定の声質とは、例えば、はっきりした芯のある声、子供っぽい高めの声、元気な明るい声、優しく可愛い声、低めのクールな声、爽やかな青年の声、声変わり直後の少年の声、重厚で低音な声、柔らかく温かい声、及び気品のある大人な声等である。声優データベースには、仮想声優に対応する声優(換言すると、仮想声優の人工音声の基となった声優)、当該声優が声を担当したことがあるキャラクタ、及び仮想声優に対応する声質等が各仮想声優に紐付けられて記憶されている。これにより、声優データベースには、例えば「仮想声優Aに対応する声優は声優A、声優Aが声を担当したことがあるキャラクタはキャラクタA、キャラクタC、及びキャラクタE等、仮想声優Aに対応する声質ははっきりした芯のある声」といった情報が記憶されている。
【0085】
ここで、プロセッサ28は、ステップS52で特定した声優に対応する特定の仮想声優を声優データベースから抽出する。これにより、プロセッサ28は、ステップS52で声優Aを特定した場合、声優Aに対応する仮想声優Aを処理対象のキャラクタの台詞を発する仮想声優に決定する。そして、プロセッサ28は、ステップS57に進む。声優データベースは、本開示の技術に係る「役者データベース」の一例であり、声優は、本開示の技術に係る「役者」の一例であり、仮想声優は、本開示の技術に係る「仮想役者」の一例であり、仮想声優Aは、本開示の技術に係る「特定の仮想役者」の一例である。
【0086】
ステップS54において、プロセッサ28は、データ生成モデル58に入力するプロンプトを生成する。当該データ生成モデル58は、例えば、ChatGPTである。当該プロンプトは、処理対象のキャラクタの特徴と、当該特徴に適した声質を有する声優を尋ねる指示とを含む。当該処理対象のキャラクタの特徴は、図5に示すステップS11でリスト化された情報を用いる。その結果、当該プロンプトは、例えば「キャラクタBは、10歳くらいの男の子で性格は活発です。このキャラクタBの特徴に適した声質を有する声優は誰ですか?」といったテキストとなる。そして、プロセッサ28は、ステップS55に進む。
【0087】
ステップS55において、プロセッサ28は、ステップS54で生成したプロンプトをデータ生成モデル58に入力して、データ生成モデル58による出力結果を取得する。そして、プロセッサ28は、ステップS56に進む。
【0088】
ステップS56において、プロセッサ28は、処理対象のキャラクタの台詞を発する仮想声優を決定する。ここで、プロセッサ28は、ステップS55でのデータ生成モデル58の出力結果に示される声優に対応する仮想声優を声優データベースから抽出する。これにより、プロセッサ28は、データ生成モデル58の出力結果が声優Bであった場合、声優Bに対応する仮想声優Bを処理対象のキャラクタの台詞を発する仮想声優に決定する。そして、プロセッサ28は、ステップS57に進む。仮想声優Bは、本開示の技術に係る「第2仮想役者」の一例である。
【0089】
ステップS57において、プロセッサ28は、処理対象のキャラクタと、当該キャラクタの台詞を発する仮想声優とを紐付けてデータベース24に保存する。そして、プロセッサ28は、ステップS58に進む。
【0090】
ステップS58において、プロセッサ28は、全てのキャラクタにおける仮想声優との紐付けが終了したか否かを判定する。ここで、プロセッサ28は、全てのキャラクタにおける仮想声優との紐付けが終了したと判定した場合(ステップS58:YES)、呼び出し元の処理へ戻る。一方、プロセッサ28は、全てのキャラクタにおける仮想声優との紐付けが終了していないと判定した場合(ステップS58:NO)、ステップS59に進む。
【0091】
ステップS59において、プロセッサ28は、処理対象となる次のキャラクタを選択する。そして、プロセッサ28は、ステップS51に戻る。このように、プロセッサ28は、電子コミックAに登場する全てのキャラクタにおける仮想声優との紐付けが終了するまで、図9に示すサブルーチンを繰り返し実行する。
【0092】
図10は、第2特定処理の流れを示すフローチャートである。
図10に示すステップS60において、プロセッサ28は、ユーザにより指定されたコマに対応するコマ情報をデータベース24から取得する。そして、プロセッサ28は、ステップS61に進む。
【0093】
ステップS61において、プロセッサ28は、ステップS60でユーザにより指定されたコマに対応するコマ情報をスマートデバイス14に送信する。一例として、プロセッサ28は、コマ情報のうち、コマの画像、コマにおけるキャラクタの台詞の文字認識結果、及びコマに登場するキャラクタの感情の推定結果を少なくとも送信し、コマにオノマトペが含まれる場合には、当該オノマトペに対応する効果音を示す音データを追加で送信する。これにより、スマートデバイス14のディスプレイ40Aには、当該コマの画像が表示される。また、スマートデバイス14のプロセッサ46は、当該コマの画像を表示したことに基づいて、取得済みの音データに示されるBGMをスピーカ40Bから出力する。そして、プロセッサ28は、ステップS62に進む。
【0094】
ステップS62において、プロセッサ28は、ステップS60で取得したコマ情報に基づいて、現在のコマに登場するキャラクタの台詞を発する仮想声優をスマートデバイス14に指示する。プロセッサ28は、当該コマ情報及びデータベース24に保存された各キャラクタと各仮想声優との紐付けに基づいて、現在のコマの台詞を発する仮想声優を決定し、決定した仮想声優をプロセッサ46に通知する。スマートデバイス14のストレージ50には、声優データベースに登録された各仮想声優の人工音声でテキストを読み上げ可能なテキスト読み上げソフトウェアが格納されている。スマートデバイス14のプロセッサ46は、プロセッサ28からの指示に従って、テキスト読み上げソフトウェアの中から現在のコマの台詞を発する仮想声優を設定する。そして、当該プロセッサ46は、テキスト読み上げソフトウェアを用いて、プロセッサ28から送信されたコマ情報に含まれるキャラクタの感情の推定結果を踏まえた人工音声で、設定した仮想声優がテキストを読み上げる音データを生成し、当該音データの出力をスピーカ40Bに指示する。これにより、スピーカ40Bからは、当該コマのキャラクタの台詞が、設定された仮想声優の人工音声で出力される。また、当該仮想声優は、プロセッサ28から送信されたコマ情報に含まれるキャラクタの感情の推定結果を踏まえてテキストを読み上げるため、スピーカ40Bからは、データ生成モデル58が推定したキャラクタの感情を反映した人工音声でキャラクタの台詞が出力される。また、当該コマにオノマトペが含まれる場合には、スピーカ40Bからは、取得済みの音データに示される当該オノマトペに対応する効果音が出力される。なお、ここでの詳細な記載は省略するが、当該コマのキャラクタの台詞を示す人工音声又はオノマトペに対応する効果音の出力が終了した場合、スマートデバイス14のプロセッサ46は、後述するステップS66と同様の特定の音をスピーカ40Bから出力する。そして、プロセッサ28は、ステップS63に進む。
【0095】
ステップS63において、プロセッサ28は、ディスプレイ40Aに表示する電子コミックAのコマの変更があるか否かを判定する。ここで、プロセッサ28は、コマの変更があると判定した場合(ステップS63:YES)、ステップS67に進む。一方、プロセッサ28は、コマの変更がないと判定した場合(ステップS63:NO)、ステップS64に進む。一例として、プロセッサ28は、ディスプレイ40Aに対するフリック操作によるユーザ入力を示すデータを取得した場合に、コマの変更があると判定する。ディスプレイ40Aに対するユーザ入力を示すデータは、スマートデバイス14からデータ処理装置12に適宜送信される。
【0096】
ステップS64において、プロセッサ28は、ディスプレイ40Aに対する所定操作が行われたか否かを判定する。ここで、プロセッサ28は、所定操作が行われたと判定した場合(ステップS64:YES)、ステップS65に進む。一方、プロセッサ28は、所定操作が行われていないと判定した場合(ステップS64:NO)、ステップS68に進む。一例として、プロセッサ28は、ディスプレイ40Aに対するタップ操作によるユーザ入力を示すデータを取得した場合に、所定操作が行われたと判定する。
【0097】
ステップS65において、プロセッサ28は、処理対象のコマの解説の出力をスマートデバイス14に指示する。コマの解説には、コマ情報に含まれるキャラクタの感情の推定結果、及び当該コマの画像の解析結果に基づくキャラクタの状況の推定内容等が含まれる。これにより、スピーカ40Bからは、当該コマの解説が、所定の人工音声で出力される。当該コマの解説には、例えば、図3の出力結果71に示されるようなテキストの内容がキャラクタの感情の推定結果として含まれる。当該所定の人工音声は、テキスト読み上げソフトウェア内の任意の仮想声優による人工音声でもよいし、ユーザが予め指定した人物(例:母親、父親)の声を模した人工音声でもよい。なお、当該所定の人工音声をユーザが予め指定した人物の声を模した人工音声とする場合は、当該人工音声をスピーカ40Bから出力可能とする設定がスマートデバイス14に対して事前に行われている。そして、プロセッサ28は、ステップS66に進む。
【0098】
ステップS66において、プロセッサ28は、特定の音の出力をスマートデバイス14に指示する。当該特定の音は、処理対象のコマの画像に応じた音、例えば、当該コマの解説を示す人工音声、当該コマのキャラクタの台詞を示す人工音声、及び当該コマのオノマトペに対応する効果音の出力が終了したことをユーザに報知するための音である。当該特定の音の種類は特に限定されない。これにより、スピーカ40Bからは、特定の音が出力される。そして、プロセッサ28は、ステップS63に戻る。なお、スピーカ40Bからの音の出力の有無を示すデータは、スマートデバイス14からデータ処理装置12に適宜送信される。
【0099】
ステップS67において、プロセッサ28は、処理対象となるコマを次のコマに進める。そして、プロセッサ28は、ステップS60に戻る。
【0100】
ステップS68において、プロセッサ28は、所定のアプリケーションの終了条件が成立したか否かを判定する。ここで、プロセッサ28は、終了条件が成立したと判定した場合(ステップS68:YES)、処理を終了する。一方、プロセッサ28は、終了条件が成立していないと判定した場合(ステップS68:NO)、ステップS63に戻る。一例として、プロセッサ28は、所定のアプリケーションを終了するための終了操作に対応するユーザ入力を示すデータを取得した場合に、終了条件が成立したと判定する。
【0101】
次に、特定処理の実行に基づきスマートデバイス14の出力装置40から出力されるデータ例について説明する。
【0102】
図11は、ディスプレイ40Aの表示例を示す第1の説明図である。図11に示すディスプレイ40Aには、電子コミックAの最初のコマの画像を示すコマ画像80が表示されている。コマ画像80は、キャラクタC1と、キャラクタC1の台詞80Aとを含んで構成されている。キャラクタC1は、人間のキャラクタである。台詞80Aの内容は「明日は晴れるかな。」である。
【0103】
このとき、ディスプレイ40Aにコマ画像80が表示されたことに基づいて、スピーカ40Bからは、台詞80Aに示されるテキストの内容が、キャラクタC1に対応する仮想声優(例:仮想声優E)の人工音声で出力される。また、仮想声優Eは、キャラクタC1の感情の推定結果を踏まえてテキストを読み上げるため、スピーカ40Bからは、キャラクタC1の感情を反映した人工音声が出力される。
【0104】
図12は、ディスプレイ40Aの表示例を示す第2の説明図である。図12に示すディスプレイ40Aには、電子コミックAの2コマ目の画像を示すコマ画像81が表示されている。コマ画像81には、オノマトペ81Aが含まれている。オノマトペ81Aは、「ドギューン」との擬音語である。
【0105】
このとき、ディスプレイ40Aにコマ画像81が表示されたことに基づいて、スピーカ40Bからは、データ生成モデル58がオノマトペ81Aに対応して生成した効果音が出力される。当該データ生成モデル58は、例えば、Audioboxである。
【0106】
図13は、ディスプレイ40Aの表示例を示す第3の説明図である。図13に示すディスプレイ40Aには、電子コミックAの3コマ目の画像を示すコマ画像82が表示されている。コマ画像82は、キャラクタC1と、キャラクタC2と、オノマトペ82Aと、キャラクタC2の台詞82Bと、キャラクタC1の台詞82Cとを含んで構成されている。キャラクタC2は、人間のキャラクタである。オノマトペ82Aは、「ジャーン」との擬音語である。台詞82Bの内容は「きっと晴れるさ!」である。台詞82Cの内容は「そうだよね、ありがとう!」である。
【0107】
このとき、ディスプレイ40Aにコマ画像82が表示されたことに基づいて、スピーカ40Bからは、予め定められた順序でコマ画像82に応じた音が順次出力される。本実施形態では、コマの画像に応じた音が複数存在する場合は、予め定められた出力順でスピーカ40Bから音が順次出力される。一例として、当該3コマ目の画像では、オノマトペ82A、台詞82B、及び台詞82Cの順に、対応する音が順次出力される。
【0108】
これにより、ディスプレイ40Aにコマ画像82が表示されたことに基づいて、スピーカ40Bからは、まずデータ生成モデル58がオノマトペ82Aに対応して生成した効果音が出力される。当該データ生成モデル58は、例えば、Audioboxである。次に、スピーカ40Bからは、台詞82Bに示されるテキストの内容が、キャラクタC2に対応する仮想声優(例:仮想声優B)の人工音声で出力される。また、仮想声優Bは、キャラクタC2の感情の推定結果を踏まえてテキストを読み上げるため、スピーカ40Bからは、キャラクタC2の感情を反映した人工音声が出力される。最後に、スピーカ40Bからは、台詞82Cに示されるテキストの内容が、キャラクタC1に対応する仮想声優(例:仮想声優E)の人工音声で出力される。また、仮想声優Eは、キャラクタC1の感情の推定結果を踏まえてテキストを読み上げるため、スピーカ40Bからは、キャラクタC1の感情を反映した人工音声が出力される。
【0109】
以上説明したように、データ処理装置12では、プロセッサ28は、漫画Aが電子化された電子コミックAを取得する。また、プロセッサ28は、漫画Aにおいて予め定めたコマ単位に区画されたうちの特定のコマの画像と、特定のコマの画像に示されるキャラクタの感情を推定する指示とを含んだプロンプトをデータ生成モデル58に入力する。そして、プロセッサ28は、ディスプレイ40Aに特定のコマの画像が表示された場合、特定のコマにおけるキャラクタの台詞を、データ生成モデル58が推定したキャラクタの感情に基づいて生成された人工音声でスピーカ40Bから出力させる。これにより、当該データ処理装置12によれば、スピーカ40Bから抑揚のない人工音声が出力される構成に比べて、電子コミックAに対するユーザの没入感を高めることができる。特定のコマは、本開示の技術に係る「特定区画」の一例である。
【0110】
また、データ処理装置12では、プロセッサ28は、特定のコマの画像にオノマトペが含まれる場合、特定のコマの画像と、オノマトペを解釈する指示とを含んだプロンプトをデータ生成モデル58に入力する。そして、プロセッサ28は、ディスプレイ40Aに特定のコマの画像が表示された場合、データ生成モデル58が出力したオノマトペの解釈結果に基づいて生成された効果音をスピーカ40Bから出力させる。これにより、当該データ処理装置12によれば、オノマトペに応じた効果音がスピーカ40Bから出力されない構成に比べて、電子コミックAに対するユーザの没入感を高めることができる。
【0111】
また、データ処理装置12では、プロセッサ28は、ディスプレイ40Aに特定のコマの画像が表示されている間に、ユーザによる所定操作を受け付けた場合、データ生成モデル58が生成したキャラクタの感情の推定内容を含むコマの解説を、所定の人工音声でスピーカ40Bから出力させる。これにより、当該データ処理装置12によれば、キャラクタの台詞のみが音声出力される構成に比べて、電子コミックAの内容に対するユーザの理解度を高めることができる。
【0112】
また、データ処理装置12では、プロセッサ28は、スピーカ40Bからの特定のコマの画像に応じた音の出力が終了した場合、スピーカ40Bによる音出力機能を用いて、特定の音の出力を行う。特定のコマの画像に応じた音は、特定のコマにおけるキャラクタの台詞を示す人工音声、特定のコマにおけるオノマトペに応じた効果音、及び特定のコマにおける解説を示す人工音声の少なくとも1つである。これにより、当該データ処理装置12によれば、ユーザの目が不自由であっても、ディスプレイ40Aに表示するコマの切替えタイミングがきたことを把握させることができる。
【0113】
また、データ処理装置12では、プロセッサ28は、漫画Aがアニメ化されている場合、声優データベースから、キャラクタの声を担当した特定の声優に対応する特定の仮想声優を抽出する。そして、プロセッサ28は、ディスプレイ40Aに特定のコマの画像が表示された場合、特定のコマにおけるキャラクタの台詞を、特定の仮想声優による人工音声でスピーカ40Bから出力させる。これにより、当該データ処理装置12によれば、アニメ化された際のキャラクタの声を把握しているユーザがキャラクタの人工音声に対して感じる違和感を軽減することができる。
【0114】
また、データ処理装置12では、プロセッサ28は、漫画Aがアニメ化されていない場合、電子コミックAをデータ生成モデル58に入力して解釈したキャラクタの特徴を取得する。また、プロセッサ28は、取得したキャラクタの特徴と、当該特徴に適した声質を有する声優を尋ねる指示とを含んだプロンプトをデータ生成モデル58に入力する。また、プロセッサ28は、声優データベースから、データ生成モデル58が出力した声優に対応する仮想声優を抽出する。そして、プロセッサ28は、ディスプレイ40Aに特定のコマの画像が表示された場合、特定のコマにおけるキャラクタの台詞を、当該仮想声優による人工音声でスピーカ40Bから出力させる。これにより、当該データ処理装置12によれば、漫画Aがアニメ化されていなくても、キャラクタの特徴に適した声質を再現可能な人工音声をキャラクタに設定することができる。当該仮想声優は、本開示の技術に係る「第2仮想役者」の一例である。
【0115】
(その他)
処理対象のキャラクタの声をアニメで担当した特定の声優が複数人存在する場合、プロセッサ28は、人工音声決定処理において、複数の特定の声優の中からユーザによる一の声優の選択を受け付けてもよい。この場合、プロセッサ28は、声優データベースから、ユーザによる選択を受け付けた一の声優に対応する仮想役者を抽出する。そして、プロセッサ28は、ディスプレイ40Aに特定のコマの画像が表示された場合、特定のコマにおけるキャラクタの台詞を、当該仮想声優による人工音声でスピーカ40Bから出力させる。これにより、データ処理装置12によれば、特定の声優が複数人存在する場合に、ユーザの好みに合わせた人工音声をキャラクタに設定することができる。当該仮想声優は、本開示の技術に係る「第1仮想役者」の一例である。
【0116】
上記実施形態では、電子コミックを本開示の技術に係る「電子コンテンツ」の一例としたが、これに限定されない。例えば、「電子コンテンツ」の一例は、テキスト及びイラストを含む紙媒体の教科書又は絵本等が電子化された他の電子書籍であってもよい。また、書籍に限らず、商品のパッケージ(例:お菓子の袋)に対して本実施形態に係る特定処理を実行可能としてもよい。
【0117】
上記実施形態では、アニメ化を本開示の技術に係る「映像化」の一例としたが、これに限定されない。例えば、「映像化」の一例は、映画化等であってもよい。
【0118】
上記実施形態では、声優を本開示の技術に係る「役者」の一例としたが、これに限定されない。例えば、「役者」の一例は、俳優、女優、又はアイドル等であってもよい。
【0119】
上記実施形態では、プロセッサ28は、スピーカ40Bからの特定のコマの画像に応じた音の出力が終了した場合、スピーカ40Bによる音出力機能を用いて、特定の音の出力を行った。これに代えて又は加えて、プロセッサ28は、スピーカ40Bからの特定のコマの画像に応じた音の出力が終了した場合、スマートデバイス14が備える振動部(図示せず)による振動機能を用いて、特定の振動の発生を行ってもよい。当該振動部は、種々のスマートフォンに搭載されているモーター及び分銅等の公知の振動機構である。この場合、プロセッサ28は、スピーカ40Bからの特定のコマの画像に応じた音の出力が終了したことに基づいて、特定の振動の発生をスマートデバイス14に指示する。これにより、当該振動部からは、特定の振動が発生する。
【0120】
上記実施形態では、特定処理のうち、図5図9に示す第1特定処理をユーザが電子コミックを閲覧する前に事前に行っていたが、これに限定されない。例えば、第1特定処理は、ユーザによる電子コミックの閲覧中に第2特定処理と並行してリアルタイムで処理されるものであってもよい。
【0121】
上記実施形態において、ユーザによる電子コミックの閲覧中に、キャラクタの台詞を発する仮想声優を再選択可能としてもよい。当該再選択は、受付装置38を介したユーザ入力により行うことができる。これにより、スピーカ40Bから出力された人工音声がユーザのイメージと異なる場合に、ユーザのイメージと合致するまで仮想声優を選択させることができる。
【0122】
上記実施形態において、スピーカ40Bから出力される言語の選択を可能としてもよい。当該選択は、受付装置38を介したユーザ入力により行うことができる。これにより、電子コミックに記載されているテキストの言語と異なる言語による音声出力が可能となる。
【0123】
上記実施形態では、コマにおけるキャラクタの台詞の文字認識結果及びデータ生成モデル58に含まれるChatGPTが生成した当該キャラクタの感情の推定内容に基づいて、スマートデバイス14側のテキスト読み上げソフトウェアで、キャラクタの台詞を人工音声が読み上げる音データを生成したが、当該音データの生成方法はこれに限定されない。例えば、データ生成モデル58に含まれるEmotiVoiceに、当該キャラクタの台詞の文字認識結果及び当該キャラクタの感情の推定内容を入力し、データ生成モデル58の出力として当該音データを生成してもよい。このように、データ処理装置12側のデータ生成モデル58で当該音データを生成する場合、プロセッサ28は、ユーザが電子コミックを閲覧する前又は電子コミックの閲覧中に、生成した当該音データをプロセッサ46に送信する。そして、プロセッサ46は、ディスプレイ40Aに当該コマの画像が表示された場合に、取得した当該音データの出力をスピーカ40Bに指示し、当該音データに示される人工音声をスピーカ40Bから出力させる。
【0124】
上記実施形態では、データ生成モデル58に含まれるChatGPTの出力結果であるオノマトペの解釈結果と、当該オノマトペの解釈結果に応じた効果音を生成する指示とを含むプロンプトをデータ生成モデル58に含まれるAudioboxに入力して、当該効果音を示す音データを生成したが、当該音データの生成方法はこれに限定されない。例えば、当該音データは、データ生成モデル58が生成することに限られず、所定の効果音を生成可能な公知のソフトウェアを用いて生成してもよい。
【0125】
以上、本開示に係るデータ処理システム10をデータ処理装置12の機能を主として説明したが、データ処理システム10はサーバに実装されているとは限らない。データ処理システム10は、一般的な情報処理システムとして実装されていてもよい。本開示は、例えば、パーソナルコンピュータで動作するソフトウェアプログラム、スマートフォン等で動作するアプリケーションとして実装されてもよい。本開示に係る方法はSaaS(Software as a Service)形式でユーザに対して提供されてもよい。
【0126】
上記実施形態では、1台のデータ処理装置12のコンピュータ22によって特定処理が行われる形態例を挙げたが、本開示の技術はこれに限定されず、コンピュータ22を含めた複数のコンピュータ、例えば、コンピュータ22及びスマートデバイス14のコンピュータ36による特定処理に対する分散処理が行われるようにしてもよい。この場合、本開示の技術に係る「プロセッサ」の一例は、プロセッサ28及びプロセッサ46となる。
【0127】
上記実施形態では、ストレージ32に特定処理プログラム56が格納されている形態例を挙げて説明したが、本開示の技術はこれに限定されない。例えば、特定処理プログラム56がUSB(Universal Serial Bus)メモリなどの可搬型のコンピュータ読み取り可能な非一時的格納媒体に格納されていてもよい。非一時的格納媒体に格納されている特定処理プログラム56は、データ処理装置12のコンピュータ22にインストールされる。プロセッサ28は、特定処理プログラム56に従って特定処理を実行する。
【0128】
また、ネットワーク54を介してデータ処理装置12に接続されるサーバ等の格納装置に特定処理プログラム56を格納させておき、データ処理装置12の要求に応じて特定処理プログラム56がダウンロードされ、コンピュータ22にインストールされるようにしてもよい。
【0129】
なお、ネットワーク54を介してデータ処理装置12に接続されるサーバ等の格納装置に特定処理プログラム56の全てを格納させておいたり、ストレージ32に特定処理プログラム56の全てを記憶させたりしておく必要はなく、特定処理プログラム56の一部を格納させておいてもよい。
【0130】
特定処理を実行するハードウェア資源としては、次に示す各種のプロセッサを用いることができる。プロセッサとしては、例えば、ソフトウェア、すなわち、プログラムを実行することで、特定処理を実行するハードウェア資源として機能する汎用的なプロセッサであるCPUが挙げられる。また、プロセッサとしては、例えば、FPGA(Field-Programmable Gate Array)、PLD(Programmable Logic Device)、又はASIC(Application Specific Integrated Circuit)などの特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路が挙げられる。何れのプロセッサにもメモリが内蔵又は接続されており、何れのプロセッサもメモリを使用することで特定処理を実行する。
【0131】
特定処理を実行するハードウェア資源は、これらの各種のプロセッサのうちの1つで構成されてもよいし、同種又は異種の2つ以上のプロセッサの組み合わせ(例えば、複数のFPGAの組み合わせ、又はCPUとFPGAとの組み合わせ)で構成されてもよい。また、特定処理を実行するハードウェア資源は1つのプロセッサであってもよい。
【0132】
1つのプロセッサで構成する例としては、第1に、1つ以上のCPUとソフトウェアの組み合わせで1つのプロセッサを構成し、このプロセッサが、特定処理を実行するハードウェア資源として機能する形態がある。第2に、SoC(System-on-a-chip)などに代表されるように、特定処理を実行する複数のハードウェア資源を含むシステム全体の機能を1つのICチップで実現するプロセッサを使用する形態がある。このように、特定処理は、ハードウェア資源として、上記各種のプロセッサの1つ以上を用いて実現される。
【0133】
更に、これらの各種のプロセッサのハードウェア的な構造としては、より具体的には、半導体素子などの回路素子を組み合わせた電気回路を用いることができる。また、上記の特定処理はあくまでも一例である。従って、主旨を逸脱しない範囲内において不要なステップを削除したり、新たなステップを追加したり、処理順序を入れ替えたりしてもよいことは言うまでもない。
【0134】
以上に示した記載内容及び図示内容は、本開示の技術に係る部分についての詳細な説明であり、本開示の技術の一例に過ぎない。例えば、上記の構成、機能、作用、及び効果に関する説明は、本開示の技術に係る部分の構成、機能、作用、及び効果の一例に関する説明である。よって、本開示の技術の主旨を逸脱しない範囲内において、以上に示した記載内容及び図示内容に対して、不要な部分を削除したり、新たな要素を追加したり、置き換えたりしてもよいことは言うまでもない。また、錯綜を回避し、本開示の技術に係る部分の理解を容易にするために、以上に示した記載内容及び図示内容では、本開示の技術の実施を可能にする上で特に説明を要しない技術常識等に関する説明は省略されている。
【0135】
本明細書に記載された全ての文献、特許出願及び技術規格は、個々の文献、特許出願及び技術規格が参照により取り込まれることが具体的かつ個々に記された場合と同程度に、本明細書中に参照により取り込まれる。
【符号の説明】
【0136】
10 データ処理システム
12 データ処理装置
14 スマートデバイス
290 特定処理部
【要約】      (修正有)
【課題】本開示は、電子コンテンツに基づいて生成モデルから出力される人工音声の質を高めるデータ処理装置、方法及びプログラムを提供する。
【解決手段】データ処理装置は、プロセッサを備え、前記プロセッサは、テキスト及びイラストを含むコンテンツが電子化された電子コンテンツを取得し、前記コンテンツにおいて予め定めた一区画単位に区画されたうちの特定区画の画像(コマ画像70A)と、前記特定区画の画像に示されるキャラクタの感情を推定する指示を示す指示文70Bとを含んだプロンプト70を、入力データに応じた情報を生成する生成モデルに入力し、前記電子コンテンツを表示可能な表示部に前記特定区画の画像が表示された場合、前記特定区画における前記キャラクタの台詞を、前記生成モデルが推定した前記キャラクタの感情に基づいて生成された人工音声で出力部から出力させる。
【選択図】図3
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13