7714731 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

7714731データ処理装置、データ処理方法、及びデータ処理プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B1)

(11)【特許番号】

(24)【登録日】2025-07-18

(45)【発行日】2025-07-29

(54)【発明の名称】データ処理装置、データ処理方法、及びデータ処理プログラム

(51)【国際特許分類】

G10L 13/10 20130101AFI20250722BHJP

G06F 3/0483 20130101ALI20250722BHJP

G06F 40/216 20200101ALI20250722BHJP

G06F 40/279 20200101ALI20250722BHJP

G06N 3/0475 20230101ALI20250722BHJP

G10L 13/00 20060101ALI20250722BHJP

G10L 13/033 20130101ALI20250722BHJP

【ＦＩ】

G10L13/10 114

G06F3/0483

G06F40/216

G06F40/279

G06N3/0475

G10L13/00 100B

G10L13/00 100Z

G10L13/033 102A

G10L13/10 113Z

【請求項の数】 9

(21)【出願番号】P 2024080476

(22)【出願日】2024-05-16

【審査請求日】2024-11-01

(73)【特許権者】

【識別番号】591280485

【氏名又は名称】ソフトバンクグループ株式会社

(74)【代理人】

【識別番号】110001519

【氏名又は名称】弁理士法人太陽国際特許事務所

(72)【発明者】

【氏名】呉健朗

【審査官】大野弘

(56)【参考文献】

【文献】国際公開第２０２３／２１８０４０（ＷＯ，Ａ１）

【文献】大道昇，オーディオブックス自動生成のための２次元キャラクタ特徴と声の関係性の調査，インタラクション２０２１論文集［ｏｎｌｉｎｅ］，2021年03月12日，PP.596～599

【文献】劉向萍 Xiangping Liu，漫画画像からの手書き擬音文字抽出，映像情報メディア学会２０１２年年次大会講演予稿集［ＣＤ－ＲＯＭ］映像情報メディア学会２０１２年年次大会講演予稿集 PROCEEDINGS OF THE 2012 ITE ANNUAL CONVENTION PROCEEDINGS OF THE 2012 ITE ANNUAL CONVENTION，2012年08月31日

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１０Ｌ１３／１０

Ｇ０６Ｆ４０／２７９

Ｇ０６Ｆ４０／２１６

Ｇ１０Ｌ１３／００

Ｇ０６Ｆ３／０４８３

Ｇ０６Ｎ３／０４７５

Ｇ１０Ｌ１３／００

Ｇ１０Ｌ１３／０３３

(57)【特許請求の範囲】

【請求項1】

プロセッサを備え、
前記プロセッサは、
テキスト及びイラストを含むコンテンツが電子化された電子コンテンツを取得し、
前記コンテンツにおいて予め定めた一区画単位に区画されたうちの特定区画の画像と、前記特定区画の画像に示されるキャラクタの感情を推定する指示とを含んだプロンプトを、入力データに応じた情報を生成する生成モデルに入力し、
前記電子コンテンツを表示可能な表示部に前記特定区画の画像が表示された場合、前記特定区画における前記キャラクタの台詞を、前記生成モデルが推定した前記キャラクタの感情に基づいて生成された人工音声で出力部から出力させる、
データ処理装置。

【請求項2】

前記プロセッサは、
前記特定区画の画像にオノマトペが含まれる場合、前記特定区画の画像と、前記オノマトペを解釈する指示とを含んだプロンプトを、前記生成モデルに入力し、
前記表示部に前記特定区画の画像が表示された場合、前記生成モデルが出力した前記オノマトペの解釈結果に基づいて生成された効果音を前記出力部から出力させる、
請求項１に記載のデータ処理装置。

【請求項3】

前記プロセッサは、
前記表示部に前記特定区画の画像が表示されている間に、ユーザによる所定操作を受け付けた場合、前記生成モデルが生成した前記キャラクタの感情の推定内容を、所定の人工音声で前記出力部から出力させる、
請求項１に記載のデータ処理装置。

【請求項4】

前記プロセッサは、
前記出力部からの前記特定区画の画像に応じた音の出力が終了した場合、前記出力部による音出力機能及び振動部による振動機能の少なくとも一方を用いて、特定の音の出力及び特定の振動の発生の少なくとも一方を行う、
請求項１に記載のデータ処理装置。

【請求項5】

前記プロセッサは、
前記コンテンツが映像化されている場合、所定の声質の人工音声を出力可能な仮想役者が複数記憶された役者データベースから、前記キャラクタの声を担当した特定の役者に対応する特定の仮想役者を抽出し、
前記表示部に前記特定区画の画像が表示された場合、前記特定区画における前記キャラクタの台詞を、前記特定の仮想役者による人工音声で前記出力部から出力させる、
請求項１に記載のデータ処理装置。

【請求項6】

前記プロセッサは、
前記特定の役者が複数人存在する場合、複数の前記特定の役者の中からユーザによる一の役者の選択を受け付け、
前記役者データベースから、選択を受け付けた前記一の役者に対応する第１仮想役者を抽出し、
前記表示部に前記特定区画の画像が表示された場合、前記特定区画における前記キャラクタの台詞を、前記第１仮想役者による人工音声で前記出力部から出力させる、
請求項５に記載のデータ処理装置。

【請求項7】

前記プロセッサは、
前記コンテンツが映像化されていない場合、前記電子コンテンツを前記生成モデルに入力して解釈した前記キャラクタの特徴を取得し、
取得した前記キャラクタの特徴と、当該特徴に適した声質を有する役者を尋ねる指示とを含んだプロンプトを、前記生成モデルに入力し、
所定の声質の人工音声を出力可能な仮想役者が複数記憶された役者データベースから、前記生成モデルが出力した役者に対応する第２仮想役者を抽出し、
前記表示部に前記特定区画の画像が表示された場合、前記特定区画における前記キャラクタの台詞を、前記第２仮想役者による人工音声で前記出力部から出力させる、
請求項１に記載のデータ処理装置。

【請求項8】

テキスト及びイラストを含むコンテンツが電子化された電子コンテンツを取得し、
前記コンテンツにおいて予め定めた一区画単位に区画されたうちの特定区画の画像と、前記特定区画の画像に示されるキャラクタの感情を推定する指示とを含んだプロンプトを、入力データに応じた情報を生成する生成モデルに入力し、
前記電子コンテンツを表示可能な表示部に前記特定区画の画像が表示された場合、前記特定区画における前記キャラクタの台詞を、前記生成モデルが推定した前記キャラクタの感情に基づいて生成された人工音声で出力部から出力させる、
処理をコンピュータが実行するデータ処理方法。

【請求項9】

【発明の詳細な説明】

【技術分野】

【0001】

本開示の技術は、データ処理装置、データ処理方法、及びデータ処理プログラムに関する。

【背景技術】

【0002】

特許文献１には、少なくとも一つのプロセッサにより遂行される、ペルソナチャットボット制御方法であって、ユーザ発話を受信するステップと、前記ユーザ発話を、チャットボットのキャラクターに関する説明と関連した指示文を含むプロンプトに追加するステップと前記プロンプトをエンコードするステップと、前記エンコードしたプロンプトを言語モデルに入力して、前記ユーザ発話に応答するチャットボット発話を生成するステップ、を含む、方法が開示されている。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２０２２－１８０２８２号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら従来技術では、上記の言語モデルのような生成モデルから出力される人工音声の質について未だ改善の余地がある。

【課題を解決するための手段】

【0005】

第１態様のデータ処理装置は、プロセッサを備え、前記プロセッサは、テキスト及びイラストを含むコンテンツが電子化された電子コンテンツを取得し、前記コンテンツにおいて予め定めた一区画単位に区画されたうちの特定区画の画像と、前記特定区画の画像に示されるキャラクタの感情を推定する指示とを含んだプロンプトを、入力データに応じた情報を生成する生成モデルに入力し、前記電子コンテンツを表示可能な表示部に前記特定区画の画像が表示された場合、前記特定区画における前記キャラクタの台詞を、前記生成モデルが推定した前記キャラクタの感情に基づいて生成された人工音声で出力部から出力させる。

【0006】

第１態様のデータ処理装置では、プロセッサは、電子コンテンツを取得する。生成モデルには、電子コンテンツにおける特定区画の画像と、特定区画の画像に示されるキャラクタの感情を推定する指示とを含んだプロンプトが入力される。そして、表示部に特定区画の画像が表示された場合、出力部からは、生成モデルが推定したキャラクタの感情に基づいて生成された人工音声で特定区画におけるキャラクタの台詞が出力される。これにより、当該データ処理装置によれば、出力部から抑揚のない人工音声が出力される構成に比べて、電子コンテンツに対するユーザの没入感を高めることができる。

【0007】

第２態様のデータ処理装置は、第１態様において、前記プロセッサは、前記特定区画の画像にオノマトペが含まれる場合、前記特定区画の画像と、前記オノマトペを解釈する指示とを含んだプロンプトを、前記生成モデルに入力し、前記表示部に前記特定区画の画像が表示された場合、前記生成モデルが出力した前記オノマトペの解釈結果に基づいて生成された効果音を前記出力部から出力させる。

【0008】

第２態様のデータ処理装置では、特定区画の画像にオノマトペが含まれる場合、生成モデルには、特定区画の画像と、オノマトペを解釈する指示とを含んだプロンプトが入力される。そして、表示部に特定区画の画像が表示された場合、出力部からは、生成モデルが出力したオノマトペの解釈結果に基づいて生成された効果音が出力される。これにより、当該データ処理装置によれば、オノマトペに応じた効果音が出力部から出力されない構成に比べて、電子コンテンツに対するユーザの没入感を高めることができる。

【0009】

第３態様のデータ処理装置は、第１態様又は第２態様において、前記プロセッサは、前記表示部に前記特定区画の画像が表示されている間に、ユーザによる所定操作を受け付けた場合、前記生成モデルが生成した前記キャラクタの感情の推定内容を、所定の人工音声で前記出力部から出力させる。

【0010】

第３態様のデータ処理装置では、表示部に特定区画の画像が表示されている間に、ユーザによる所定操作を受け付けた場合、出力部からは、生成モデルが生成したキャラクタの感情の推定内容が所定の音声で出力される。これにより、当該データ処理装置によれば、キャラクタの台詞のみが音声出力される構成に比べて、電子コンテンツの内容に対するユーザの理解度を高めることができる。

【0011】

第４態様のデータ処理装置は、第１態様から第３態様の何れか１つにおいて、前記プロセッサは、前記出力部からの前記特定区画の画像に応じた音の出力が終了した場合、前記出力部による音出力機能及び振動部による振動機能の少なくとも一方を用いて、特定の音の出力及び特定の振動の発生の少なくとも一方を行う。

【0012】

第４態様のデータ処理装置では、出力部からの特定区画の画像に応じた音の出力が終了した場合、音出力機能及び振動機能の少なくとも一方を用いて、特定の音の出力及び特定の振動の発生の少なくとも一方が行われる。これにより、当該データ処理装置によれば、ユーザの目が不自由であっても、表示部に表示する区画の切替えタイミングがきたことを把握させることができる。

【0013】

第５態様のデータ処理装置は、第１態様から第４態様の何れか１つにおいて、前記プロセッサは、前記コンテンツが映像化されている場合、所定の声質の人工音声を出力可能な仮想役者が複数記憶された役者データベースから、前記キャラクタの声を担当した特定の役者に対応する特定の仮想役者を抽出し、前記表示部に前記特定区画の画像が表示された場合、前記特定区画における前記キャラクタの台詞を、前記特定の仮想役者による人工音声で前記出力部から出力させる。

【0014】

第５態様のデータ処理装置では、コンテンツが映像化されている場合、役者データベースから、キャラクタの声を担当した特定の役者に対応する特定の仮想役者が抽出される。そして、表示部に特定区画の画像が表示された場合、出力部からは、特定区画におけるキャラクタの台詞が特定の仮想役者による人工音声で出力される。これにより、当該データ処理装置によれば、映像化された際のキャラクタの声を把握しているユーザがキャラクタの人工音声に対して感じる違和感を軽減することができる。

【0015】

第６態様のデータ処理装置は、第５態様において、前記プロセッサは、前記特定の役者が複数人存在する場合、複数の前記特定の役者の中からユーザによる一の役者の選択を受け付け、前記役者データベースから、選択を受け付けた前記一の役者に対応する第１仮想役者を抽出し、前記表示部に前記特定区画の画像が表示された場合、前記特定区画における前記キャラクタの台詞を、前記第１仮想役者による人工音声で前記出力部から出力させる。

【0016】

第６態様のデータ処理装置では、特定の役者が複数人存在する場合、ユーザは、複数の特定の役者の中から一の役者を選択する。役者データベースからは、ユーザが選択した一の役者に対応する第１仮想役者が抽出される。そして、表示部に特定区画の画像が表示された場合、出力部からは、特定区画におけるキャラクタの台詞が第１仮想役者による人工音声で出力される。これにより、当該データ処理装置によれば、特定の役者が複数人存在する場合に、ユーザの好みに合わせた人工音声をキャラクタに設定することができる。

【0017】

第７態様のデータ処理装置は、第１態様から第６態様の何れか１つにおいて、前記プロセッサは、前記コンテンツが映像化されていない場合、前記電子コンテンツを前記生成モデルに入力して解釈した前記キャラクタの特徴を取得し、取得した前記キャラクタの特徴と、当該特徴に適した声質を有する役者を尋ねる指示とを含んだプロンプトを、前記生成モデルに入力し、所定の声質の人工音声を出力可能な仮想役者が複数記憶された役者データベースから、前記生成モデルが出力した役者に対応する第２仮想役者を抽出し、前記表示部に前記特定区画の画像が表示された場合、前記特定区画における前記キャラクタの台詞を、前記第２仮想役者による人工音声で前記出力部から出力させる。

【0018】

第７態様のデータ処理装置では、コンテンツが映像化されていない場合、電子コンテンツを生成モデルに入力して解釈したキャラクタの特徴が取得される。生成モデルには、当該キャラクタの特徴と、当該特徴に適した声質を有する役者を尋ねる指示とを含んだプロンプトが入力される。役者データベースからは、生成モデルが出力した役者に対応する仮想役者が抽出される。そして、表示部に特定区画の画像が表示された場合、出力部からは、特定区画におけるキャラクタの台詞が当該仮想役者による人工音声で出力される。これにより、当該データ処理装置によれば、コンテンツが映像化されていなくても、キャラクタの特徴に適した声質を再現可能な人工音声をキャラクタに設定することができる。

【0019】

第８態様のデータ処理方法は、テキスト及びイラストを含むコンテンツが電子化された電子コンテンツを取得し、前記コンテンツにおいて予め定めた一区画単位に区画されたうちの特定区画の画像と、前記特定区画の画像に示されるキャラクタの感情を推定する指示とを含んだプロンプトを、入力データに応じた情報を生成する生成モデルに入力し、前記電子コンテンツを表示可能な表示部に前記特定区画の画像が表示された場合、前記特定区画における前記キャラクタの台詞を、前記生成モデルが推定した前記キャラクタの感情に基づいて生成された人工音声で出力部から出力させる、処理をコンピュータが実行する。

【0020】

第８態様のデータ処理方法では、電子コンテンツが取得される。生成モデルには、電子コンテンツにおける特定区画の画像と、特定区画の画像に示されるキャラクタの感情を推定する指示とを含んだプロンプトが入力される。そして、表示部に特定区画の画像が表示された場合、出力部からは、生成モデルが推定したキャラクタの感情に基づいて生成された人工音声で特定区画におけるキャラクタの台詞が出力される。これにより、当該データ処理方法によれば、出力部から抑揚のない人工音声が出力される構成に比べて、電子コンテンツに対するユーザの没入感を高めることができる。

【0021】

第９態様のデータ処理プログラムは、テキスト及びイラストを含むコンテンツが電子化された電子コンテンツを取得し、前記コンテンツにおいて予め定めた一区画単位に区画されたうちの特定区画の画像と、前記特定区画の画像に示されるキャラクタの感情を推定する指示とを含んだプロンプトを、入力データに応じた情報を生成する生成モデルに入力し、前記電子コンテンツを表示可能な表示部に前記特定区画の画像が表示された場合、前記特定区画における前記キャラクタの台詞を、前記生成モデルが推定した前記キャラクタの感情に基づいて生成された人工音声で出力部から出力させる、処理をコンピュータに実行させる。

【0022】

第９態様のデータ処理プログラムでは、電子コンテンツが取得される。生成モデルには、電子コンテンツにおける特定区画の画像と、特定区画の画像に示されるキャラクタの感情を推定する指示とを含んだプロンプトが入力される。そして、表示部に特定区画の画像が表示された場合、出力部からは、生成モデルが推定したキャラクタの感情に基づいて生成された人工音声で特定区画におけるキャラクタの台詞が出力される。これにより、当該データ処理プログラムによれば、出力部から抑揚のない人工音声が出力される構成に比べて、電子コンテンツに対するユーザの没入感を高めることができる。

【図面の簡単な説明】

【0023】

【図1】データ処理システムの構成の一例を示す概念図である。

【図2】データ処理装置及びスマートデバイスの要部機能の一例を示す概念図である。

【図3】データ処理装置が行う特定処理の例を示す第１の説明図である。

【図4】データ処理装置が行う特定処理の例を示す第２の説明図である。

【図5】データ処理装置による第１特定処理の動作フローの一例を概略的に示す。

【図6】コマ情報生成処理のサブルーチンである。

【図7】感情推定処理のサブルーチンである。

【図8】効果音生成処理のサブルーチンである。

【図9】人工音声決定処理のサブルーチンである。

【図10】データ処理装置による第２特定処理の動作フローの一例を概略的に示す。

【図11】ディスプレイの表示例を示す第１の説明図である。

【図12】ディスプレイの表示例を示す第２の説明図である。

【図13】ディスプレイの表示例を示す第３の説明図である。

【発明を実施するための形態】

【0024】

以下、添付図面に従って本開示の技術に係るデータ処理装置、データ処理方法、及びプログラムの実施形態の一例について説明する。

【0025】

先ず、以下の説明で使用される文言について説明する。

【0026】

以下の実施形態において、符号付きのプロセッサ（以下、単に「プロセッサ」と称する）は、１つの演算装置であってもよいし、複数の演算装置の組み合わせであってもよい。また、プロセッサは、１種類の演算装置であってもよいし、複数種類の演算装置の組み合わせであってもよい。演算装置の一例としては、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit）、ＧＰＧＰＵ（General-Purpose computing on Graphics Processing Units）、又はＡＰＵ（Accelerated Processing Unit）等が挙げられる。

【0027】

以下の実施形態において、符号付きのＲＡＭ（Random Access Memory）は、一時的に情報が格納されるメモリであり、プロセッサによってワークメモリとして用いられる。

【0028】

以下の実施形態において、符号付きのストレージは、各種プログラム及び各種パラメータ等を記憶する１つ又は複数の不揮発性の記憶装置である。不揮発性の記憶装置の一例としては、フラッシュメモリ（ＳＳＤ（Solid State Drive））、磁気ディスク（例えば、ハードディスク）、又は磁気テープ等が挙げられる。

【0029】

以下の実施形態において、符号付きの通信Ｉ／Ｆ（Interface）は、通信プロセッサ及びアンテナ等を含むインタフェースである。通信Ｉ／Ｆは、複数のコンピュータ間での通信を司る。通信Ｉ／Ｆに対して適用される通信規格の一例としては、５Ｇ（5th Generation Mobile Communication System）、Ｗｉ－Ｆｉ（登録商標）、又はＢｌｕｅｔｏｏｔｈ（登録商標）等を含む無線通信規格が挙げられる。

【0030】

以下の実施形態において、「Ａ及び／又はＢ」は、「Ａ及びＢのうちの少なくとも１つ」と同義である。つまり、「Ａ及び／又はＢ」は、Ａだけであってもよいし、Ｂだけであってもよいし、Ａ及びＢの組み合わせであってもよい、という意味である。また、本明細書において、３つ以上の事柄を「及び／又は」で結び付けて表現する場合も、「Ａ及び／又はＢ」と同様の考え方が適用される。

【0031】

図１には、実施形態に係るデータ処理システム１０の構成の一例が示されている。

【0032】

図１に示すように、データ処理システム１０は、データ処理装置１２及びスマートデバイス１４を備えている。データ処理装置１２の一例としては、サーバが挙げられる。スマートデバイス１４の一例としては、スマートフォンが挙げられる。本実施形態において、データ処理装置１２は、本開示の技術に係る「データ処理装置」の一例である。

【0033】

データ処理装置１２は、コンピュータ２２、データベース２４、及び通信Ｉ／Ｆ２６を備えている。コンピュータ２２は、本開示の技術に係る「コンピュータ」の一例である。コンピュータ２２は、プロセッサ２８、ＲＡＭ３０、及びストレージ３２を備えている。プロセッサ２８は、本開示の技術に係る「プロセッサ」の一例である。プロセッサ２８、ＲＡＭ３０、及びストレージ３２は、バス３４に接続されている。また、データベース２４及び通信Ｉ／Ｆ２６も、バス３４に接続されている。通信Ｉ／Ｆ２６は、ネットワーク５４に接続されている。ネットワーク５４の一例としては、ＷＡＮ（Wide Area Network）及び／又はＬＡＮ（Local Area Network）等が挙げられる。

【0034】

スマートデバイス１４は、コンピュータ３６、受付装置３８、出力装置４０、カメラ４２、及び通信Ｉ／Ｆ４４を備えている。コンピュータ３６は、プロセッサ４６、ＲＡＭ４８、及びストレージ５０を備えている。プロセッサ４６、ＲＡＭ４８、及びストレージ５０は、バス５２に接続されている。また、受付装置３８、出力装置４０、及びカメラ４２も、バス５２に接続されている。

【0035】

受付装置３８は、タッチパネル３８Ａ及びマイクロフォン３８Ｂ等を備えており、ユーザ入力を受け付ける。タッチパネル３８Ａは、指示体（例えば、ペン又は指等）の接触を検出することにより、指示体の接触によるユーザ入力を受け付ける。マイクロフォン３８Ｂは、ユーザの音声を検出することにより、音声によるユーザ入力を受け付ける。制御部４６Ａは、タッチパネル３８Ａ及びマイクロフォン３８Ｂによって受け付けたユーザ入力を示すデータをデータ処理装置１２に送信する。データ処理装置１２では、特定処理部２９０が、ユーザ入力を示すデータを取得する。

【0036】

出力装置４０は、ディスプレイ４０Ａ及びスピーカ４０Ｂ等を備えており、データをユーザが知覚可能な表現形（例えば、音声及び／又はテキスト）で出力することでデータをユーザに対して提示する。ディスプレイ４０Ａは、プロセッサ４６からの指示に従ってテキスト及び画像等の可視情報を表示する。スピーカ４０Ｂは、プロセッサ４６からの指示に従って音声を出力する。ディスプレイ４０Ａは、本開示の技術に係る「表示部」の一例であり、スピーカ４０Ｂは、本開示の技術に係る「出力部」の一例である。

【0037】

カメラ４２は、レンズ、絞り、及びシャッタ等の光学系と、ＣＭＯＳ（Complementary Metal-Oxide-Semiconductor）イメージセンサ又はＣＣＤ（Charge Coupled Device）イメージセンサ等の撮像素子とが搭載された小型デジタルカメラである。

【0038】

通信Ｉ／Ｆ４４は、ネットワーク５４に接続されている。通信Ｉ／Ｆ４４及び２６は、ネットワーク５４を介してプロセッサ４６とプロセッサ２８との間の各種情報の授受を司る。

【0039】

図２には、データ処理装置１２及びスマートデバイス１４の要部機能の一例が示されている。

【0040】

図２に示すように、データ処理装置１２では、プロセッサ２８によって特定処理が行われる。ストレージ３２には、特定処理プログラム５６が格納されている。特定処理プログラム５６は、本開示の技術に係る「データ処理プログラム」の一例である。プロセッサ２８は、ストレージ３２から特定処理プログラム５６を読み出し、読み出した特定処理プログラム５６をＲＡＭ３０上で実行する。特定処理は、プロセッサ２８がＲＡＭ３０上で実行する特定処理プログラム５６に従って特定処理部２９０として動作することによって実現される。なお、本開示の技術に係る「データ処理プログラム」は、プログラム製品としても適用できる。

【0041】

ストレージ３２には、データ生成モデル５８が格納されている。データ生成モデル５８は、特定処理部２９０によって用いられる。

【0042】

データ生成モデル５８は、いわゆる生成ＡＩ（Artificial Intelligence）である。データ生成モデル５８の一例としては、ＣｈａｔＧＰＴ（インターネット検索＜URL: https://openai.com/blog/chatgpt＞）、Ｇｅｍｉｎｉ（インターネット検索＜URL: https://gemini.google.com/?hl=ja＞）、ＥｍｏｔｉＶｏｉｃｅ（インターネット検索＜URL: https://weel.co.jp/media/tech/emotivoice/＞）、及びＡｕｄｉｏｂｏｘ（インターネット検索＜URL: https://audiobox.metademolab.com/＞）等の生成ＡＩが挙げられる。データ生成モデル５８は、上記のような公知の各種生成ＡＩを適宜組み合わせて構成される。データ生成モデル５８は、ニューラルネットワークに対して深層学習を行わせることによって得られる。データ生成モデル５８には、指示を含むプロンプトが入力され、かつ、音声を示す音声データ、テキストを示すテキストデータ、及び画像を示す画像データ等の推論用データが入力される。データ生成モデル５８は、入力された推論用データをプロンプトにより示される指示に従って推論し、推論結果を音声データ及びテキストデータ等のデータ形式で出力する。ここで、推論とは、例えば、分析、分類、予測、及び／又は要約等を指す。データ生成モデル５８は、本開示の技術に係る「生成モデル」の一例である。

【0043】

スマートデバイス１４では、プロセッサ４６によって受付出力処理が行われる。ストレージ５０には、受付出力プログラム６０が格納されている。受付出力プログラム６０は、データ処理システム１０によって特定処理プログラム５６と併用される。プロセッサ４６は、ストレージ５０から受付出力プログラム６０を読み出し、読み出した受付出力プログラム６０をＲＡＭ４８上で実行する。受付出力処理は、プロセッサ４６がＲＡＭ４８上で実行する受付出力プログラム６０に従って、制御部４６Ａとして動作することによって実現される。

【0044】

次に、データ処理装置１２が行う特定処理の例について説明する。
図３は、データ処理装置１２が行う特定処理の例を示す第１の説明図である。図３は、特定処理において、データ生成モデル５８が、電子コミックの特定の１コマ（以下、単に「コマ」と記載することもある）の画像に示されるキャラクタの感情を推定する例を示している。当該データ生成モデル５８は、例えば、ＣｈａｔＧＰＴである。電子コミックは、テキスト及びイラストを含む紙媒体の漫画（以下、単に「漫画」とする）が電子化されたものである。当該漫画は、各ページが、予め定めたコマ単位に区画されている。電子コミックは、本開示の技術に係る「電子コンテンツ」の一例であり、漫画は、本開示の技術に係る「コンテンツ」の一例であり、コマ単位は、本開示の技術に係る「一区画単位」の一例である。

【0045】

図３には、データ生成モデル５８に入力するプロンプト７０が示されている。プロンプト７０は、上記漫画としての漫画Ａにおける特定のコマの画像を示すコマ画像７０Ａと、コマ画像７０Ａに示されるキャラクタの感情を推定する指示を示す指示文７０Ｂとを含んで構成されている。コマ画像７０Ａは、本開示の技術に係る「特定区画の画像」の一例である。

【0046】

コマ画像７０Ａには、「明日は晴れるかな。」との台詞を話すキャラクタが示されている。また、指示文７０Ｂは、一例として「このコマのキャラクタはどんな感情でしょうか？」とのテキストである。

【0047】

また、図３には、データ生成モデル５８にプロンプト７０が入力された際の出力結果７１が示されている。出力結果７１は、一例として「画像には、涙目のキャラクタが立ち尽くす姿が描かれています。このことから、キャラクタは、不安や悲しさを感じていると推定できます。」とのテキストである。

【0048】

図４は、データ処理装置１２が行う特定処理の例を示す第２の説明図である。図４は、特定処理において、データ生成モデル５８が、電子コミックの特定のコマの画像に示されるオノマトペを解釈する例を示している。当該データ生成モデル５８は、例えば、ＣｈａｔＧＰＴである。

【0049】

図４には、データ生成モデル５８に入力するプロンプト７２が示されている。プロンプト７２は、漫画Ａにおける特定のコマの画像を示すコマ画像７２Ａと、コマ画像７２Ａに示されるオノマトペを解釈する指示を示す指示文７２Ｂとを含んで構成されている。コマ画像７２Ａは、本開示の技術に係る「特定区画の画像」の一例である。

【0050】

コマ画像７２Ａには、「ドギューン」とのオノマトペが示されている。また、指示文７２Ｂは、一例として「このコマのオノマトペはどんな音ですか？」とのテキストである。

【0051】

また、図４には、データ生成モデル５８にプロンプト７２が入力された際の出力結果７３が示されている。出力結果７３は、一例として「「ドギューン」というオノマトペは、大きな衝撃や高速で移動する物体などを示す擬音語です。」とのテキストである。

【0052】

次に、データ処理システム１０の作用について説明する。
特定処理の流れの一例について図５～図１０を参照しながら説明する。特定処理は、図５～図９に示す第１特定処理と、図１０に示す第２特定処理とを含む。一例として、第１特定処理は、ユーザがスマートデバイス１４を操作して、スマートデバイス１４にインストールされた所定のアプリケーションを実行し、電子コミックを選択する選択画面がディスプレイ４０Ａに表示された場合に行われる。また、第２特定処理は、ユーザがスマートデバイス１４を操作して当該所定のアプリケーションを実行し、当該電子コミックを閲覧する閲覧画面がディスプレイ４０Ａに表示された場合に行われる。なお、図５～図１０に示す特定処理の流れは、本開示の技術に係る「データ処理方法」の一例である。

【0053】

図５に示すステップＳ１０において、プロセッサ２８は、スマートデバイス１４に対するユーザ入力、例えば、音声によるユーザ入力を示すデータに基づいて、特定の電子コミックをデータベース２４から取得する。データベース２４には、種々の漫画が電子化された種々の電子コミックが記憶されている。以下、データベース２４から取得した特定の電子コミックを、漫画Ａが電子化された「電子コミックＡ」として説明する。そして、プロセッサ２８は、ステップＳ１１に進む。

【0054】

ステップＳ１１において、プロセッサ２８は、電子コミックＡに登場するキャラクタをリスト化する。ここでは、プロセッサ２８は、電子コミックＡと、電子コミックＡのストーリー及び作風を解釈する指示と、電子コミックＡに登場するキャラクタ毎の特徴をリスト化する指示とを含んだプロンプトをデータ生成モデル５８に入力し、その出力結果を取得する。当該データ生成モデル５８は、例えば、ＣｈａｔＧＰＴである。当該プロンプトは、例えば「以下の電子コミックＡのストーリー及び作風を解釈してください。また、電子コミックＡに登場するキャラクタ毎の特徴をリスト化してください。電子コミックＡ.pdf」というテキスト及びPDFデータである。これにより、ステップＳ１１では、データ生成モデル５８による出力結果に基づいて、「キャラクタＡ：１０歳くらいの男の子で性格はおとなしめ、キャラクタＢ：１０歳くらいの男の子で性格は活発・・・」といったキャラクタ毎の特徴がリスト化される。そして、プロセッサ２８は、ステップＳ１２に進む。

【0055】

ステップＳ１２において、プロセッサ２８は、ディスプレイ４０Ａに電子コミックＡが表示されている間にスピーカ４０Ｂから出力されるＢＧＭ（background music）を決定する。データベース２４には、種々の電子コミックの作風に対応する種々のＢＧＭが記憶されている。プロセッサ２８は、ステップＳ１１におけるデータ生成モデル５８による出力結果に示される電子コミックＡの作風に対応するＢＧＭをデータベース２４から取得する。プロセッサ２８は、取得したＢＧＭを示す音データをプロセッサ４６に送信する。そして、プロセッサ２８は、ステップＳ１３に進む。

【0056】

ステップＳ１３において、プロセッサ２８は、電子コミックＡの各コマに含めるコマ情報を生成するコマ情報生成処理を行う。コマ情報は、コマの画像を示す情報に加え、後述する各種の情報が含まれる。コマ情報生成処理のサブルーチンについては後述する。そして、プロセッサ２８は、ステップＳ１４に進む。

【0057】

ステップＳ１４において、プロセッサ２８は、電子コミックＡに登場するキャラクタの各コマにおける感情を推定する感情推定処理を行う。感情推定処理のサブルーチンについては後述する。そして、プロセッサ２８は、ステップＳ１５に進む。

【0058】

ステップＳ１５において、プロセッサ２８は、電子コミックＡの特定のコマに示されるオノマトペに対応する効果音を生成する効果音生成処理を行う。効果音生成処理のサブルーチンについては後述する。そして、プロセッサ２８は、ステップＳ１６に進む。

【0059】

ステップＳ１６において、プロセッサ２８は、電子コミックＡに登場するキャラクタの台詞を発する人工音声を決定する人工音声決定処理を行う。人工音声決定処理のサブルーチンについては後述する。そして、プロセッサ２８は、処理を終了する。

【0060】

図６は、コマ情報生成処理のサブルーチンである。
図６に示すステップＳ２０において、プロセッサ２８は、電子コミックＡを各コマに分割する。そして、プロセッサ２８は、ステップＳ２１に進む。一例として、電子コミックＡは各コマの順序が予め決められており、プロセッサ２８は、予め決められたコマの順序でステップＳ２１以降の処理を行う。

【0061】

ステップＳ２１において、プロセッサ２８は、コマに登場するキャラクタを特定する。例えば、プロセッサ２８は、コマの画像と、ステップＳ１１でリスト化されたキャラクタ毎の特徴とを参照して、コマに登場するキャラクタを特定する。そして、プロセッサ２８は、ステップＳ２２に進む。

【0062】

ステップＳ２２において、プロセッサ２８は、コマの画像に対する文字認識処理を行い、コマに登場するキャラクタの台詞を特定する。なお、コマの画像内に複数のキャラクタが登場し、かつ複数の台詞が存在する場合、プロセッサ２８は、画像情報及び文字認識情報等に基づいて、各台詞の話者を特定する。そして、プロセッサ２８は、ステップＳ２３に進む。

【0063】

ステップＳ２３において、プロセッサ２８は、ステップＳ２１で特定したキャラクタ及びステップＳ２２で特定したキャラクタの台詞を、対応するコマのコマ情報に紐付けてデータベース２４に保存する。これにより、データベース２４には、例えば、電子コミックＡの最初のコマには、キャラクタＡが登場し、キャラクタＡの台詞は「明日は晴れるかな。」であるとの情報が保存される。そして、プロセッサ２８は、ステップＳ２４に進む。

【0064】

ステップＳ２４において、プロセッサ２８は、ステップＳ２３でデータベース２４に保存したコマ情報が電子コミックＡの最後のコマに対応するか否かを判定する。ここで、プロセッサ２８は、当該コマ情報が電子コミックＡの最後のコマに対応すると判定した場合（ステップＳ２４：ＹＥＳ）、呼び出し元の処理へ戻る。一方、プロセッサ２８は、当該コマ情報が電子コミックＡの最後のコマに対応しないと判定した場合（ステップＳ２４：ＮＯ）、ステップＳ２５に進む。一例として、電子コミックＡは、最後のコマに特定のラベルが付与されており、プロセッサ２８は、当該特定のラベルの有無で最後のコマに対応するか否かを判定する。

【0065】

ステップＳ２５において、プロセッサ２８は、処理対象を次のコマに進める。そして、プロセッサ２８は、ステップＳ２１に戻る。このように、プロセッサ２８は、電子コミックＡの最初のコマから最後のコマに至るまで、図６に示すサブルーチンを繰り返し実行する。

【0066】

図７は、感情推定処理のサブルーチンである。
図７に示すステップＳ３０において、プロセッサ２８は、電子コミックＡの最初のコマに対応するコマ情報をデータベース２４から取得する。一例として、電子コミックＡは、最初のコマに所定のラベルが付与されており、プロセッサ２８は、当該所定のラベルが付与されたコマに対応するコマ情報をデータベース２４から取得する。そして、プロセッサ２８は、ステップＳ３１に進む。

【0067】

ステップＳ３１において、プロセッサ２８は、データ生成モデル５８に入力するプロンプトを生成する。当該データ生成モデル５８は、例えば、ＣｈａｔＧＰＴである。当該プロンプトは、電子コミックＡの処理対象のコマの画像と、当該画像に示されるキャラクタの感情を推定する指示とを含む。当該処理対象のコマは、図７に示すサブルーチンの１回目は最初のコマとなり、２回目以降は処理内のステップで取得したコマ情報に対応するコマとなる。以降に登場する「処理対象のコマ」も同義である。例えば、当該プロンプトは、図３のコマ画像７０Ａに示される画像と、指示文７０Ｂに示されるテキストとを含んで構成されている。そして、プロセッサ２８は、ステップＳ３２に進む。

【0068】

ステップＳ３２において、プロセッサ２８は、ステップＳ３１で生成したプロンプトをデータ生成モデル５８に入力して、データ生成モデル５８による出力結果を取得する。そして、プロセッサ２８は、ステップＳ３３に進む。

【0069】

ステップＳ３３において、プロセッサ２８は、ステップＳ３２でデータ生成モデル５８から出力された出力結果を、処理対象のコマのコマ情報に紐付けてデータベース２４に保存する。例えば、当該出力結果は、図３の出力結果７１に示されるようなテキストである。そして、プロセッサ２８は、ステップＳ３４に進む。

【0070】

ステップＳ３４において、プロセッサ２８は、ステップＳ３３でデータベース２４に保存したコマ情報が電子コミックＡの最後のコマに対応するか否かを判定する。ここで、プロセッサ２８は、当該コマ情報が電子コミックＡの最後のコマに対応すると判定した場合（ステップＳ３４：ＹＥＳ）、呼び出し元の処理へ戻る。一方、プロセッサ２８は、当該コマ情報が電子コミックＡの最後のコマに対応しないと判定した場合（ステップＳ３４：ＮＯ）、ステップＳ３５に進む。

【0071】

ステップＳ３５において、プロセッサ２８は、処理対象を次のコマに進め、次のコマに対応するコマ情報をデータベース２４から取得する。そして、プロセッサ２８は、ステップＳ３１に戻る。このように、プロセッサ２８は、電子コミックＡの最初のコマから最後のコマに至るまで、図７に示すサブルーチンを繰り返し実行する。

【0072】

図８は、効果音生成処理のサブルーチンである。
図８に示すステップＳ４０において、プロセッサ２８は、電子コミックＡの最初のコマに対応するコマ情報をデータベース２４から取得する。そして、プロセッサ２８は、ステップＳ４１に進む。

【0073】

ステップＳ４１において、プロセッサ２８は、処理対象のコマにオノマトペが含まれるか否かを判定する。ここで、プロセッサ２８は、オノマトペが含まれると判定した場合（ステップＳ４１：ＹＥＳ）、ステップＳ４２に進む。一方、プロセッサ２８は、オノマトペが含まれないと判定した場合（ステップＳ４１：ＮＯ）、ステップＳ４７に進む。データベース２４には、種々の漫画で使用される種々のオノマトペが記憶されている。プロセッサ２８は、処理対象のコマの画像に対する文字認識処理を行い、文字認識処理の結果がデータベース２４に記憶されているオノマトペに一致するか否かでオノマトペの有無を判定する。

【0074】

ステップＳ４２において、プロセッサ２８は、データ生成モデル５８に入力するプロンプトを生成する。当該データ生成モデル５８は、例えば、ＣｈａｔＧＰＴである。当該プロンプトは、処理対象のコマの画像と、当該画像に示されるオノマトペを解釈する指示とを含む。例えば、当該プロンプトは、図４のコマ画像７２Ａに示される画像と、指示文７２Ｂに示されるテキストとを含んで構成されている。そして、プロセッサ２８は、ステップＳ４３に進む。

【0075】

ステップＳ４３において、プロセッサ２８は、ステップＳ４２で生成したプロンプトをデータ生成モデル５８に入力して、データ生成モデル５８による出力結果を取得する。そして、プロセッサ２８は、ステップＳ４４に進む。

【0076】

ステップＳ４４において、プロセッサ２８は、データ生成モデル５８に入力するプロンプトを生成する。当該データ生成モデル５８は、例えば、Ａｕｄｉｏｂｏｘである。当該プロンプトは、ステップＳ４３でのデータ生成モデル５８の出力結果であるオノマトペの解釈結果と、当該オノマトペの解釈結果に応じた効果音を生成する指示とを含む。例えば、当該オノマトペの解釈結果は、図４の出力結果７３に示されるようなテキストである。その結果、当該プロンプトは、例えば「「ドギューン」というオノマトペは、大きな衝撃や高速で移動する物体などを示す擬音語です。この擬音語に適した効果音を生成してください」といったテキストとなる。そして、プロセッサ２８は、ステップＳ４５に進む。

【0077】

ステップＳ４５において、プロセッサ２８は、ステップＳ４４で生成したプロンプトをデータ生成モデル５８に入力して、データ生成モデル５８による出力結果を取得する。そして、プロセッサ２８は、ステップＳ４６に進む。

【0078】

ステップＳ４６において、プロセッサ２８は、ステップＳ４５でデータ生成モデル５８から出力された出力結果を、処理対象のコマのコマ情報に紐付けてデータベース２４に保存する。例えば、当該出力結果は、効果音を示す音データである。そして、プロセッサ２８は、ステップＳ４７に進む。

【0079】

ステップＳ４７において、プロセッサ２８は、ステップＳ４６でデータベース２４に保存したコマ情報が電子コミックＡの最後のコマに対応するか否かを判定する。ここで、プロセッサ２８は、当該コマ情報が電子コミックＡの最後のコマに対応すると判定した場合（ステップＳ４７：ＹＥＳ）、呼び出し元の処理へ戻る。一方、プロセッサ２８は、当該コマ情報が電子コミックＡの最後のコマに対応しないと判定した場合（ステップＳ４７：ＮＯ）、ステップＳ４８に進む。

【0080】

ステップＳ４８において、プロセッサ２８は、処理対象を次のコマに進め、次のコマに対応するコマ情報をデータベース２４から取得する。そして、プロセッサ２８は、ステップＳ４１に戻る。このように、プロセッサ２８は、電子コミックＡの最初のコマから最後のコマに至るまで、図７に示すサブルーチンを繰り返し実行する。

【0081】

図９は、人工音声決定処理のサブルーチンである。
図９に示すステップＳ５０において、プロセッサ２８は、電子コミックＡに登場するキャラクタの中から任意の一のキャラクタを選択する。そして、プロセッサ２８は、ステップＳ５１に進む。

【0082】

ステップＳ５１において、プロセッサ２８は、漫画Ａがアニメ化されているか否かを判定する。ここで、プロセッサ２８は、漫画Ａがアニメ化されていると判定した場合（ステップＳ５１：ＹＥＳ）、ステップＳ５２に進む。一方、プロセッサ２８は、漫画Ａがアニメ化されていないと判定した場合（ステップＳ５１：ＮＯ）、ステップＳ５４に進む。一例として、プロセッサ２８は、データ生成モデル５８の出力結果に基づいて、漫画Ａがアニメ化されているか否かを判定する。当該データ生成モデル５８は、例えば、ＣｈａｔＧＰＴである。この場合、プロセッサ２８は、「漫画Ａはアニメ化されていますか？」等の漫画Ａがアニメ化されているかを尋ねるプロンプトをデータ生成モデル５８に入力して、データ生成モデル５８による出力結果を取得する。アニメ化は、本開示の技術に係る「映像化」の一例である。

【0083】

ステップＳ５２において、プロセッサ２８は、処理対象のキャラクタの声をアニメで担当した声優を特定する。当該処理対象のキャラクタは、図９に示すサブルーチンの１回目はステップＳ５０で選択したキャラクタとなり、２回目以降はステップＳ５９で選択したキャラクタとなる。以降に登場する「処理対象のキャラクタ」も同義である。一例として、プロセッサ２８は、データ生成モデル５８の出力結果に基づいて、声優を特定する。当該データ生成モデル５８は、例えば、ＣｈａｔＧＰＴである。この場合、プロセッサ２８は、「キャラクタＡの担当声優は誰ですか？」等の漫画Ａのアニメで当該処理対象のキャラクタの声を担当した声優を尋ねるプロンプトをデータ生成モデル５８に入力して、データ生成モデル５８による出力結果を取得する。そして、プロセッサ２８は、ステップＳ５３に進む。

【0084】

ステップＳ５３において、プロセッサ２８は、処理対象のキャラクタの台詞を発する仮想声優を決定する。データベース２４には、所定の声質の人工音声を出力可能な仮想声優が複数記憶された声優データベースが記憶されている。仮想声優は、実在する声優の声を基に、当該声優と同種の人工音声を発することができるよう訓練された仮想的な声優である。所定の声質とは、例えば、はっきりした芯のある声、子供っぽい高めの声、元気な明るい声、優しく可愛い声、低めのクールな声、爽やかな青年の声、声変わり直後の少年の声、重厚で低音な声、柔らかく温かい声、及び気品のある大人な声等である。声優データベースには、仮想声優に対応する声優（換言すると、仮想声優の人工音声の基となった声優）、当該声優が声を担当したことがあるキャラクタ、及び仮想声優に対応する声質等が各仮想声優に紐付けられて記憶されている。これにより、声優データベースには、例えば「仮想声優Ａに対応する声優は声優Ａ、声優Ａが声を担当したことがあるキャラクタはキャラクタＡ、キャラクタＣ、及びキャラクタＥ等、仮想声優Ａに対応する声質ははっきりした芯のある声」といった情報が記憶されている。

【0085】

ここで、プロセッサ２８は、ステップＳ５２で特定した声優に対応する特定の仮想声優を声優データベースから抽出する。これにより、プロセッサ２８は、ステップＳ５２で声優Ａを特定した場合、声優Ａに対応する仮想声優Ａを処理対象のキャラクタの台詞を発する仮想声優に決定する。そして、プロセッサ２８は、ステップＳ５７に進む。声優データベースは、本開示の技術に係る「役者データベース」の一例であり、声優は、本開示の技術に係る「役者」の一例であり、仮想声優は、本開示の技術に係る「仮想役者」の一例であり、仮想声優Ａは、本開示の技術に係る「特定の仮想役者」の一例である。

【0086】

ステップＳ５４において、プロセッサ２８は、データ生成モデル５８に入力するプロンプトを生成する。当該データ生成モデル５８は、例えば、ＣｈａｔＧＰＴである。当該プロンプトは、処理対象のキャラクタの特徴と、当該特徴に適した声質を有する声優を尋ねる指示とを含む。当該処理対象のキャラクタの特徴は、図５に示すステップＳ１１でリスト化された情報を用いる。その結果、当該プロンプトは、例えば「キャラクタＢは、１０歳くらいの男の子で性格は活発です。このキャラクタＢの特徴に適した声質を有する声優は誰ですか？」といったテキストとなる。そして、プロセッサ２８は、ステップＳ５５に進む。

【0087】

ステップＳ５５において、プロセッサ２８は、ステップＳ５４で生成したプロンプトをデータ生成モデル５８に入力して、データ生成モデル５８による出力結果を取得する。そして、プロセッサ２８は、ステップＳ５６に進む。

【0088】

ステップＳ５６において、プロセッサ２８は、処理対象のキャラクタの台詞を発する仮想声優を決定する。ここで、プロセッサ２８は、ステップＳ５５でのデータ生成モデル５８の出力結果に示される声優に対応する仮想声優を声優データベースから抽出する。これにより、プロセッサ２８は、データ生成モデル５８の出力結果が声優Ｂであった場合、声優Ｂに対応する仮想声優Ｂを処理対象のキャラクタの台詞を発する仮想声優に決定する。そして、プロセッサ２８は、ステップＳ５７に進む。仮想声優Ｂは、本開示の技術に係る「第２仮想役者」の一例である。

【0089】

ステップＳ５７において、プロセッサ２８は、処理対象のキャラクタと、当該キャラクタの台詞を発する仮想声優とを紐付けてデータベース２４に保存する。そして、プロセッサ２８は、ステップＳ５８に進む。

【0090】

ステップＳ５８において、プロセッサ２８は、全てのキャラクタにおける仮想声優との紐付けが終了したか否かを判定する。ここで、プロセッサ２８は、全てのキャラクタにおける仮想声優との紐付けが終了したと判定した場合（ステップＳ５８：ＹＥＳ）、呼び出し元の処理へ戻る。一方、プロセッサ２８は、全てのキャラクタにおける仮想声優との紐付けが終了していないと判定した場合（ステップＳ５８：ＮＯ）、ステップＳ５９に進む。

【0091】

ステップＳ５９において、プロセッサ２８は、処理対象となる次のキャラクタを選択する。そして、プロセッサ２８は、ステップＳ５１に戻る。このように、プロセッサ２８は、電子コミックＡに登場する全てのキャラクタにおける仮想声優との紐付けが終了するまで、図９に示すサブルーチンを繰り返し実行する。

【0092】

図１０は、第２特定処理の流れを示すフローチャートである。
図１０に示すステップＳ６０において、プロセッサ２８は、ユーザにより指定されたコマに対応するコマ情報をデータベース２４から取得する。そして、プロセッサ２８は、ステップＳ６１に進む。

【0093】

ステップＳ６１において、プロセッサ２８は、ステップＳ６０でユーザにより指定されたコマに対応するコマ情報をスマートデバイス１４に送信する。一例として、プロセッサ２８は、コマ情報のうち、コマの画像、コマにおけるキャラクタの台詞の文字認識結果、及びコマに登場するキャラクタの感情の推定結果を少なくとも送信し、コマにオノマトペが含まれる場合には、当該オノマトペに対応する効果音を示す音データを追加で送信する。これにより、スマートデバイス１４のディスプレイ４０Ａには、当該コマの画像が表示される。また、スマートデバイス１４のプロセッサ４６は、当該コマの画像を表示したことに基づいて、取得済みの音データに示されるＢＧＭをスピーカ４０Ｂから出力する。そして、プロセッサ２８は、ステップＳ６２に進む。

【0094】

ステップＳ６２において、プロセッサ２８は、ステップＳ６０で取得したコマ情報に基づいて、現在のコマに登場するキャラクタの台詞を発する仮想声優をスマートデバイス１４に指示する。プロセッサ２８は、当該コマ情報及びデータベース２４に保存された各キャラクタと各仮想声優との紐付けに基づいて、現在のコマの台詞を発する仮想声優を決定し、決定した仮想声優をプロセッサ４６に通知する。スマートデバイス１４のストレージ５０には、声優データベースに登録された各仮想声優の人工音声でテキストを読み上げ可能なテキスト読み上げソフトウェアが格納されている。スマートデバイス１４のプロセッサ４６は、プロセッサ２８からの指示に従って、テキスト読み上げソフトウェアの中から現在のコマの台詞を発する仮想声優を設定する。そして、当該プロセッサ４６は、テキスト読み上げソフトウェアを用いて、プロセッサ２８から送信されたコマ情報に含まれるキャラクタの感情の推定結果を踏まえた人工音声で、設定した仮想声優がテキストを読み上げる音データを生成し、当該音データの出力をスピーカ４０Ｂに指示する。これにより、スピーカ４０Ｂからは、当該コマのキャラクタの台詞が、設定された仮想声優の人工音声で出力される。また、当該仮想声優は、プロセッサ２８から送信されたコマ情報に含まれるキャラクタの感情の推定結果を踏まえてテキストを読み上げるため、スピーカ４０Ｂからは、データ生成モデル５８が推定したキャラクタの感情を反映した人工音声でキャラクタの台詞が出力される。また、当該コマにオノマトペが含まれる場合には、スピーカ４０Ｂからは、取得済みの音データに示される当該オノマトペに対応する効果音が出力される。なお、ここでの詳細な記載は省略するが、当該コマのキャラクタの台詞を示す人工音声又はオノマトペに対応する効果音の出力が終了した場合、スマートデバイス１４のプロセッサ４６は、後述するステップＳ６６と同様の特定の音をスピーカ４０Ｂから出力する。そして、プロセッサ２８は、ステップＳ６３に進む。

【0095】

ステップＳ６３において、プロセッサ２８は、ディスプレイ４０Ａに表示する電子コミックＡのコマの変更があるか否かを判定する。ここで、プロセッサ２８は、コマの変更があると判定した場合（ステップＳ６３：ＹＥＳ）、ステップＳ６７に進む。一方、プロセッサ２８は、コマの変更がないと判定した場合（ステップＳ６３：ＮＯ）、ステップＳ６４に進む。一例として、プロセッサ２８は、ディスプレイ４０Ａに対するフリック操作によるユーザ入力を示すデータを取得した場合に、コマの変更があると判定する。ディスプレイ４０Ａに対するユーザ入力を示すデータは、スマートデバイス１４からデータ処理装置１２に適宜送信される。

【0096】

ステップＳ６４において、プロセッサ２８は、ディスプレイ４０Ａに対する所定操作が行われたか否かを判定する。ここで、プロセッサ２８は、所定操作が行われたと判定した場合（ステップＳ６４：ＹＥＳ）、ステップＳ６５に進む。一方、プロセッサ２８は、所定操作が行われていないと判定した場合（ステップＳ６４：ＮＯ）、ステップＳ６８に進む。一例として、プロセッサ２８は、ディスプレイ４０Ａに対するタップ操作によるユーザ入力を示すデータを取得した場合に、所定操作が行われたと判定する。

【0097】

ステップＳ６５において、プロセッサ２８は、処理対象のコマの解説の出力をスマートデバイス１４に指示する。コマの解説には、コマ情報に含まれるキャラクタの感情の推定結果、及び当該コマの画像の解析結果に基づくキャラクタの状況の推定内容等が含まれる。これにより、スピーカ４０Ｂからは、当該コマの解説が、所定の人工音声で出力される。当該コマの解説には、例えば、図３の出力結果７１に示されるようなテキストの内容がキャラクタの感情の推定結果として含まれる。当該所定の人工音声は、テキスト読み上げソフトウェア内の任意の仮想声優による人工音声でもよいし、ユーザが予め指定した人物（例：母親、父親）の声を模した人工音声でもよい。なお、当該所定の人工音声をユーザが予め指定した人物の声を模した人工音声とする場合は、当該人工音声をスピーカ４０Ｂから出力可能とする設定がスマートデバイス１４に対して事前に行われている。そして、プロセッサ２８は、ステップＳ６６に進む。

【0098】

ステップＳ６６において、プロセッサ２８は、特定の音の出力をスマートデバイス１４に指示する。当該特定の音は、処理対象のコマの画像に応じた音、例えば、当該コマの解説を示す人工音声、当該コマのキャラクタの台詞を示す人工音声、及び当該コマのオノマトペに対応する効果音の出力が終了したことをユーザに報知するための音である。当該特定の音の種類は特に限定されない。これにより、スピーカ４０Ｂからは、特定の音が出力される。そして、プロセッサ２８は、ステップＳ６３に戻る。なお、スピーカ４０Ｂからの音の出力の有無を示すデータは、スマートデバイス１４からデータ処理装置１２に適宜送信される。

【0099】

ステップＳ６７において、プロセッサ２８は、処理対象となるコマを次のコマに進める。そして、プロセッサ２８は、ステップＳ６０に戻る。

【0100】

ステップＳ６８において、プロセッサ２８は、所定のアプリケーションの終了条件が成立したか否かを判定する。ここで、プロセッサ２８は、終了条件が成立したと判定した場合（ステップＳ６８：ＹＥＳ）、処理を終了する。一方、プロセッサ２８は、終了条件が成立していないと判定した場合（ステップＳ６８：ＮＯ）、ステップＳ６３に戻る。一例として、プロセッサ２８は、所定のアプリケーションを終了するための終了操作に対応するユーザ入力を示すデータを取得した場合に、終了条件が成立したと判定する。

【0101】

次に、特定処理の実行に基づきスマートデバイス１４の出力装置４０から出力されるデータ例について説明する。

【0102】

図１１は、ディスプレイ４０Ａの表示例を示す第１の説明図である。図１１に示すディスプレイ４０Ａには、電子コミックＡの最初のコマの画像を示すコマ画像８０が表示されている。コマ画像８０は、キャラクタＣ１と、キャラクタＣ１の台詞８０Ａとを含んで構成されている。キャラクタＣ１は、人間のキャラクタである。台詞８０Ａの内容は「明日は晴れるかな。」である。

【0103】

このとき、ディスプレイ４０Ａにコマ画像８０が表示されたことに基づいて、スピーカ４０Ｂからは、台詞８０Ａに示されるテキストの内容が、キャラクタＣ１に対応する仮想声優（例：仮想声優Ｅ）の人工音声で出力される。また、仮想声優Ｅは、キャラクタＣ１の感情の推定結果を踏まえてテキストを読み上げるため、スピーカ４０Ｂからは、キャラクタＣ１の感情を反映した人工音声が出力される。

【0104】

図１２は、ディスプレイ４０Ａの表示例を示す第２の説明図である。図１２に示すディスプレイ４０Ａには、電子コミックＡの２コマ目の画像を示すコマ画像８１が表示されている。コマ画像８１には、オノマトペ８１Ａが含まれている。オノマトペ８１Ａは、「ドギューン」との擬音語である。

【0105】

このとき、ディスプレイ４０Ａにコマ画像８１が表示されたことに基づいて、スピーカ４０Ｂからは、データ生成モデル５８がオノマトペ８１Ａに対応して生成した効果音が出力される。当該データ生成モデル５８は、例えば、Ａｕｄｉｏｂｏｘである。

【0106】

図１３は、ディスプレイ４０Ａの表示例を示す第３の説明図である。図１３に示すディスプレイ４０Ａには、電子コミックＡの３コマ目の画像を示すコマ画像８２が表示されている。コマ画像８２は、キャラクタＣ１と、キャラクタＣ２と、オノマトペ８２Ａと、キャラクタＣ２の台詞８２Ｂと、キャラクタＣ１の台詞８２Ｃとを含んで構成されている。キャラクタＣ２は、人間のキャラクタである。オノマトペ８２Ａは、「ジャーン」との擬音語である。台詞８２Ｂの内容は「きっと晴れるさ！」である。台詞８２Ｃの内容は「そうだよね、ありがとう！」である。

【0107】

このとき、ディスプレイ４０Ａにコマ画像８２が表示されたことに基づいて、スピーカ４０Ｂからは、予め定められた順序でコマ画像８２に応じた音が順次出力される。本実施形態では、コマの画像に応じた音が複数存在する場合は、予め定められた出力順でスピーカ４０Ｂから音が順次出力される。一例として、当該３コマ目の画像では、オノマトペ８２Ａ、台詞８２Ｂ、及び台詞８２Ｃの順に、対応する音が順次出力される。

【0108】

これにより、ディスプレイ４０Ａにコマ画像８２が表示されたことに基づいて、スピーカ４０Ｂからは、まずデータ生成モデル５８がオノマトペ８２Ａに対応して生成した効果音が出力される。当該データ生成モデル５８は、例えば、Ａｕｄｉｏｂｏｘである。次に、スピーカ４０Ｂからは、台詞８２Ｂに示されるテキストの内容が、キャラクタＣ２に対応する仮想声優（例：仮想声優Ｂ）の人工音声で出力される。また、仮想声優Ｂは、キャラクタＣ２の感情の推定結果を踏まえてテキストを読み上げるため、スピーカ４０Ｂからは、キャラクタＣ２の感情を反映した人工音声が出力される。最後に、スピーカ４０Ｂからは、台詞８２Ｃに示されるテキストの内容が、キャラクタＣ１に対応する仮想声優（例：仮想声優Ｅ）の人工音声で出力される。また、仮想声優Ｅは、キャラクタＣ１の感情の推定結果を踏まえてテキストを読み上げるため、スピーカ４０Ｂからは、キャラクタＣ１の感情を反映した人工音声が出力される。

【0109】

以上説明したように、データ処理装置１２では、プロセッサ２８は、漫画Ａが電子化された電子コミックＡを取得する。また、プロセッサ２８は、漫画Ａにおいて予め定めたコマ単位に区画されたうちの特定のコマの画像と、特定のコマの画像に示されるキャラクタの感情を推定する指示とを含んだプロンプトをデータ生成モデル５８に入力する。そして、プロセッサ２８は、ディスプレイ４０Ａに特定のコマの画像が表示された場合、特定のコマにおけるキャラクタの台詞を、データ生成モデル５８が推定したキャラクタの感情に基づいて生成された人工音声でスピーカ４０Ｂから出力させる。これにより、当該データ処理装置１２によれば、スピーカ４０Ｂから抑揚のない人工音声が出力される構成に比べて、電子コミックＡに対するユーザの没入感を高めることができる。特定のコマは、本開示の技術に係る「特定区画」の一例である。

【0110】

また、データ処理装置１２では、プロセッサ２８は、特定のコマの画像にオノマトペが含まれる場合、特定のコマの画像と、オノマトペを解釈する指示とを含んだプロンプトをデータ生成モデル５８に入力する。そして、プロセッサ２８は、ディスプレイ４０Ａに特定のコマの画像が表示された場合、データ生成モデル５８が出力したオノマトペの解釈結果に基づいて生成された効果音をスピーカ４０Ｂから出力させる。これにより、当該データ処理装置１２によれば、オノマトペに応じた効果音がスピーカ４０Ｂから出力されない構成に比べて、電子コミックＡに対するユーザの没入感を高めることができる。

【0111】

また、データ処理装置１２では、プロセッサ２８は、ディスプレイ４０Ａに特定のコマの画像が表示されている間に、ユーザによる所定操作を受け付けた場合、データ生成モデル５８が生成したキャラクタの感情の推定内容を含むコマの解説を、所定の人工音声でスピーカ４０Ｂから出力させる。これにより、当該データ処理装置１２によれば、キャラクタの台詞のみが音声出力される構成に比べて、電子コミックＡの内容に対するユーザの理解度を高めることができる。

【0112】

また、データ処理装置１２では、プロセッサ２８は、スピーカ４０Ｂからの特定のコマの画像に応じた音の出力が終了した場合、スピーカ４０Ｂによる音出力機能を用いて、特定の音の出力を行う。特定のコマの画像に応じた音は、特定のコマにおけるキャラクタの台詞を示す人工音声、特定のコマにおけるオノマトペに応じた効果音、及び特定のコマにおける解説を示す人工音声の少なくとも１つである。これにより、当該データ処理装置１２によれば、ユーザの目が不自由であっても、ディスプレイ４０Ａに表示するコマの切替えタイミングがきたことを把握させることができる。

【0113】

また、データ処理装置１２では、プロセッサ２８は、漫画Ａがアニメ化されている場合、声優データベースから、キャラクタの声を担当した特定の声優に対応する特定の仮想声優を抽出する。そして、プロセッサ２８は、ディスプレイ４０Ａに特定のコマの画像が表示された場合、特定のコマにおけるキャラクタの台詞を、特定の仮想声優による人工音声でスピーカ４０Ｂから出力させる。これにより、当該データ処理装置１２によれば、アニメ化された際のキャラクタの声を把握しているユーザがキャラクタの人工音声に対して感じる違和感を軽減することができる。

【0114】

また、データ処理装置１２では、プロセッサ２８は、漫画Ａがアニメ化されていない場合、電子コミックＡをデータ生成モデル５８に入力して解釈したキャラクタの特徴を取得する。また、プロセッサ２８は、取得したキャラクタの特徴と、当該特徴に適した声質を有する声優を尋ねる指示とを含んだプロンプトをデータ生成モデル５８に入力する。また、プロセッサ２８は、声優データベースから、データ生成モデル５８が出力した声優に対応する仮想声優を抽出する。そして、プロセッサ２８は、ディスプレイ４０Ａに特定のコマの画像が表示された場合、特定のコマにおけるキャラクタの台詞を、当該仮想声優による人工音声でスピーカ４０Ｂから出力させる。これにより、当該データ処理装置１２によれば、漫画Ａがアニメ化されていなくても、キャラクタの特徴に適した声質を再現可能な人工音声をキャラクタに設定することができる。当該仮想声優は、本開示の技術に係る「第２仮想役者」の一例である。

【0115】

（その他）
処理対象のキャラクタの声をアニメで担当した特定の声優が複数人存在する場合、プロセッサ２８は、人工音声決定処理において、複数の特定の声優の中からユーザによる一の声優の選択を受け付けてもよい。この場合、プロセッサ２８は、声優データベースから、ユーザによる選択を受け付けた一の声優に対応する仮想役者を抽出する。そして、プロセッサ２８は、ディスプレイ４０Ａに特定のコマの画像が表示された場合、特定のコマにおけるキャラクタの台詞を、当該仮想声優による人工音声でスピーカ４０Ｂから出力させる。これにより、データ処理装置１２によれば、特定の声優が複数人存在する場合に、ユーザの好みに合わせた人工音声をキャラクタに設定することができる。当該仮想声優は、本開示の技術に係る「第１仮想役者」の一例である。

【0116】

上記実施形態では、電子コミックを本開示の技術に係る「電子コンテンツ」の一例としたが、これに限定されない。例えば、「電子コンテンツ」の一例は、テキスト及びイラストを含む紙媒体の教科書又は絵本等が電子化された他の電子書籍であってもよい。また、書籍に限らず、商品のパッケージ（例：お菓子の袋）に対して本実施形態に係る特定処理を実行可能としてもよい。

【0117】

上記実施形態では、アニメ化を本開示の技術に係る「映像化」の一例としたが、これに限定されない。例えば、「映像化」の一例は、映画化等であってもよい。

【0118】

上記実施形態では、声優を本開示の技術に係る「役者」の一例としたが、これに限定されない。例えば、「役者」の一例は、俳優、女優、又はアイドル等であってもよい。

【0119】

上記実施形態では、プロセッサ２８は、スピーカ４０Ｂからの特定のコマの画像に応じた音の出力が終了した場合、スピーカ４０Ｂによる音出力機能を用いて、特定の音の出力を行った。これに代えて又は加えて、プロセッサ２８は、スピーカ４０Ｂからの特定のコマの画像に応じた音の出力が終了した場合、スマートデバイス１４が備える振動部（図示せず）による振動機能を用いて、特定の振動の発生を行ってもよい。当該振動部は、種々のスマートフォンに搭載されているモーター及び分銅等の公知の振動機構である。この場合、プロセッサ２８は、スピーカ４０Ｂからの特定のコマの画像に応じた音の出力が終了したことに基づいて、特定の振動の発生をスマートデバイス１４に指示する。これにより、当該振動部からは、特定の振動が発生する。

【0120】

上記実施形態では、特定処理のうち、図５～図９に示す第１特定処理をユーザが電子コミックを閲覧する前に事前に行っていたが、これに限定されない。例えば、第１特定処理は、ユーザによる電子コミックの閲覧中に第２特定処理と並行してリアルタイムで処理されるものであってもよい。

【0121】

上記実施形態において、ユーザによる電子コミックの閲覧中に、キャラクタの台詞を発する仮想声優を再選択可能としてもよい。当該再選択は、受付装置３８を介したユーザ入力により行うことができる。これにより、スピーカ４０Ｂから出力された人工音声がユーザのイメージと異なる場合に、ユーザのイメージと合致するまで仮想声優を選択させることができる。

【0122】

上記実施形態において、スピーカ４０Ｂから出力される言語の選択を可能としてもよい。当該選択は、受付装置３８を介したユーザ入力により行うことができる。これにより、電子コミックに記載されているテキストの言語と異なる言語による音声出力が可能となる。

【0123】

上記実施形態では、コマにおけるキャラクタの台詞の文字認識結果及びデータ生成モデル５８に含まれるＣｈａｔＧＰＴが生成した当該キャラクタの感情の推定内容に基づいて、スマートデバイス１４側のテキスト読み上げソフトウェアで、キャラクタの台詞を人工音声が読み上げる音データを生成したが、当該音データの生成方法はこれに限定されない。例えば、データ生成モデル５８に含まれるＥｍｏｔｉＶｏｉｃｅに、当該キャラクタの台詞の文字認識結果及び当該キャラクタの感情の推定内容を入力し、データ生成モデル５８の出力として当該音データを生成してもよい。このように、データ処理装置１２側のデータ生成モデル５８で当該音データを生成する場合、プロセッサ２８は、ユーザが電子コミックを閲覧する前又は電子コミックの閲覧中に、生成した当該音データをプロセッサ４６に送信する。そして、プロセッサ４６は、ディスプレイ４０Ａに当該コマの画像が表示された場合に、取得した当該音データの出力をスピーカ４０Ｂに指示し、当該音データに示される人工音声をスピーカ４０Ｂから出力させる。

【0124】

上記実施形態では、データ生成モデル５８に含まれるＣｈａｔＧＰＴの出力結果であるオノマトペの解釈結果と、当該オノマトペの解釈結果に応じた効果音を生成する指示とを含むプロンプトをデータ生成モデル５８に含まれるＡｕｄｉｏｂｏｘに入力して、当該効果音を示す音データを生成したが、当該音データの生成方法はこれに限定されない。例えば、当該音データは、データ生成モデル５８が生成することに限られず、所定の効果音を生成可能な公知のソフトウェアを用いて生成してもよい。

【0125】

以上、本開示に係るデータ処理システム１０をデータ処理装置１２の機能を主として説明したが、データ処理システム１０はサーバに実装されているとは限らない。データ処理システム１０は、一般的な情報処理システムとして実装されていてもよい。本開示は、例えば、パーソナルコンピュータで動作するソフトウェアプログラム、スマートフォン等で動作するアプリケーションとして実装されてもよい。本開示に係る方法はSaaS(Software as a Service)形式でユーザに対して提供されてもよい。

【0126】

上記実施形態では、１台のデータ処理装置１２のコンピュータ２２によって特定処理が行われる形態例を挙げたが、本開示の技術はこれに限定されず、コンピュータ２２を含めた複数のコンピュータ、例えば、コンピュータ２２及びスマートデバイス１４のコンピュータ３６による特定処理に対する分散処理が行われるようにしてもよい。この場合、本開示の技術に係る「プロセッサ」の一例は、プロセッサ２８及びプロセッサ４６となる。

【0127】

上記実施形態では、ストレージ３２に特定処理プログラム５６が格納されている形態例を挙げて説明したが、本開示の技術はこれに限定されない。例えば、特定処理プログラム５６がＵＳＢ（Universal Serial Bus）メモリなどの可搬型のコンピュータ読み取り可能な非一時的格納媒体に格納されていてもよい。非一時的格納媒体に格納されている特定処理プログラム５６は、データ処理装置１２のコンピュータ２２にインストールされる。プロセッサ２８は、特定処理プログラム５６に従って特定処理を実行する。

【0128】

また、ネットワーク５４を介してデータ処理装置１２に接続されるサーバ等の格納装置に特定処理プログラム５６を格納させておき、データ処理装置１２の要求に応じて特定処理プログラム５６がダウンロードされ、コンピュータ２２にインストールされるようにしてもよい。

【0129】

なお、ネットワーク５４を介してデータ処理装置１２に接続されるサーバ等の格納装置に特定処理プログラム５６の全てを格納させておいたり、ストレージ３２に特定処理プログラム５６の全てを記憶させたりしておく必要はなく、特定処理プログラム５６の一部を格納させておいてもよい。

【0130】

特定処理を実行するハードウェア資源としては、次に示す各種のプロセッサを用いることができる。プロセッサとしては、例えば、ソフトウェア、すなわち、プログラムを実行することで、特定処理を実行するハードウェア資源として機能する汎用的なプロセッサであるＣＰＵが挙げられる。また、プロセッサとしては、例えば、ＦＰＧＡ（Field-Programmable Gate Array）、ＰＬＤ（Programmable Logic Device）、又はＡＳＩＣ（Application Specific Integrated Circuit）などの特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路が挙げられる。何れのプロセッサにもメモリが内蔵又は接続されており、何れのプロセッサもメモリを使用することで特定処理を実行する。

【0131】

特定処理を実行するハードウェア資源は、これらの各種のプロセッサのうちの１つで構成されてもよいし、同種又は異種の２つ以上のプロセッサの組み合わせ（例えば、複数のＦＰＧＡの組み合わせ、又はＣＰＵとＦＰＧＡとの組み合わせ）で構成されてもよい。また、特定処理を実行するハードウェア資源は１つのプロセッサであってもよい。

【0132】

１つのプロセッサで構成する例としては、第１に、１つ以上のＣＰＵとソフトウェアの組み合わせで１つのプロセッサを構成し、このプロセッサが、特定処理を実行するハードウェア資源として機能する形態がある。第２に、ＳｏＣ（System-on-a-chip）などに代表されるように、特定処理を実行する複数のハードウェア資源を含むシステム全体の機能を１つのＩＣチップで実現するプロセッサを使用する形態がある。このように、特定処理は、ハードウェア資源として、上記各種のプロセッサの１つ以上を用いて実現される。

【0133】

更に、これらの各種のプロセッサのハードウェア的な構造としては、より具体的には、半導体素子などの回路素子を組み合わせた電気回路を用いることができる。また、上記の特定処理はあくまでも一例である。従って、主旨を逸脱しない範囲内において不要なステップを削除したり、新たなステップを追加したり、処理順序を入れ替えたりしてもよいことは言うまでもない。

【0134】

以上に示した記載内容及び図示内容は、本開示の技術に係る部分についての詳細な説明であり、本開示の技術の一例に過ぎない。例えば、上記の構成、機能、作用、及び効果に関する説明は、本開示の技術に係る部分の構成、機能、作用、及び効果の一例に関する説明である。よって、本開示の技術の主旨を逸脱しない範囲内において、以上に示した記載内容及び図示内容に対して、不要な部分を削除したり、新たな要素を追加したり、置き換えたりしてもよいことは言うまでもない。また、錯綜を回避し、本開示の技術に係る部分の理解を容易にするために、以上に示した記載内容及び図示内容では、本開示の技術の実施を可能にする上で特に説明を要しない技術常識等に関する説明は省略されている。

【0135】

本明細書に記載された全ての文献、特許出願及び技術規格は、個々の文献、特許出願及び技術規格が参照により取り込まれることが具体的かつ個々に記された場合と同程度に、本明細書中に参照により取り込まれる。

【符号の説明】

【0136】

１０データ処理システム
１２データ処理装置
１４スマートデバイス
２９０特定処理部

【要約】（修正有）

【課題】本開示は、電子コンテンツに基づいて生成モデルから出力される人工音声の質を高めるデータ処理装置、方法及びプログラムを提供する。
【解決手段】データ処理装置は、プロセッサを備え、前記プロセッサは、テキスト及びイラストを含むコンテンツが電子化された電子コンテンツを取得し、前記コンテンツにおいて予め定めた一区画単位に区画されたうちの特定区画の画像（コマ画像７０Ａ）と、前記特定区画の画像に示されるキャラクタの感情を推定する指示を示す指示文７０Ｂとを含んだプロンプト７０を、入力データに応じた情報を生成する生成モデルに入力し、前記電子コンテンツを表示可能な表示部に前記特定区画の画像が表示された場合、前記特定区画における前記キャラクタの台詞を、前記生成モデルが推定した前記キャラクタの感情に基づいて生成された人工音声で出力部から出力させる。
【選択図】図３