IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ソフトバンクグループ株式会社の特許一覧

特開2025-30811データ処理装置、データ処理方法、及びデータ処理プログラム
<>
  • 特開-データ処理装置、データ処理方法、及びデータ処理プログラム 図1
  • 特開-データ処理装置、データ処理方法、及びデータ処理プログラム 図2
  • 特開-データ処理装置、データ処理方法、及びデータ処理プログラム 図3
  • 特開-データ処理装置、データ処理方法、及びデータ処理プログラム 図4
  • 特開-データ処理装置、データ処理方法、及びデータ処理プログラム 図5
  • 特開-データ処理装置、データ処理方法、及びデータ処理プログラム 図6
  • 特開-データ処理装置、データ処理方法、及びデータ処理プログラム 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2025030811
(43)【公開日】2025-03-07
(54)【発明の名称】データ処理装置、データ処理方法、及びデータ処理プログラム
(51)【国際特許分類】
   G06N 3/0475 20230101AFI20250228BHJP
   G06F 16/53 20190101ALI20250228BHJP
   H04N 5/93 20060101ALI20250228BHJP
   H04N 21/431 20110101ALI20250228BHJP
   H04N 21/466 20110101ALI20250228BHJP
   G06F 3/01 20060101ALI20250228BHJP
   G06F 3/16 20060101ALN20250228BHJP
【FI】
G06N3/0475
G06F16/53
H04N5/93
H04N21/431
H04N21/466
G06F3/01 510
G06F3/16 650
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2023136434
(22)【出願日】2023-08-24
(71)【出願人】
【識別番号】591280485
【氏名又は名称】ソフトバンクグループ株式会社
(74)【代理人】
【識別番号】110001519
【氏名又は名称】弁理士法人太陽国際特許事務所
(72)【発明者】
【氏名】孫 正義
【テーマコード(参考)】
5B175
5C164
5E555
【Fターム(参考)】
5B175DA02
5B175GA04
5C164UA31S
5C164UB10
5C164UB10S
5C164UB41S
5C164UB81P
5C164UC01P
5C164YA11
5E555AA71
5E555DA08
5E555DB57
5E555FA00
(57)【要約】
【課題】本開示は、ユーザ入力に対して適切に応答することを目的とする。
【解決手段】データ処理装置は、ユーザ入力を示す入力データを取得する取得部と、前記入力データに応じた情報を生成する生成モデルを用いた特定処理を行う処理部と、前記特定処理の結果を電子機器に出力する出力部と、を含む。
【選択図】図1
【特許請求の範囲】
【請求項1】
ユーザ入力を示す入力データを取得する取得部と、
前記入力データに応じた情報を生成する生成モデルを用いた特定処理を行う処理部と、
前記特定処理の結果を電子機器に出力する出力部と、を含み、
前記取得部は、
前記入力データとして行き先を指定する行き先情報、及び時点を指定する時点情報を取得し、
前記処理部は、
前記取得部が取得した前記行き先情報及び前記時点情報と、前記行き先情報及び前記時点情報によって示される時点における行き先の画像を問い合わせる指示とを含んだプロンプトを第1プロンプトとして前記生成モデルに入力して、前記第1プロンプトに対応する行き先の画像を取得し、
前記行き先情報、前記時点情報、及び前記第1プロンプトに対応する行き先の画像と、前記行き先情報及び前記時点情報によって示される時点における行き先の動画を生成する指示とを含んだプロンプトを第2プロンプトとして前記生成モデルに入力して、前記第2プロンプトに対応する行き先の動画を生成し、
前記出力部は、
前記処理部が生成した前記第2プロンプトに対応する行き先の動画を前記電子機器に出力する、
データ処理装置。
【請求項2】
前記取得部は、
前記入力データとして動画のテーマを取得し、
前記処理部は、
前記テーマ、前記行き先情報、前記時点情報、及び前記第1プロンプトに対応する行き先の画像と、前記行き先情報及び前記時点情報によって示される時点における行き先の動画を生成する指示とを含んだプロンプトを前記第2プロンプトとして前記生成モデルに入力して、前記第2プロンプトに対応する行き先の動画を生成する、
請求項1に記載のデータ処理装置。
【請求項3】
前記取得部は、
前記入力データとしてユーザの身長に関する身長情報を取得し、
前記処理部は、
前記身長情報に基づいて導出した目線の高さに合わせて、前記第2プロンプトに対応する行き先の動画を生成する、
請求項1に記載のデータ処理装置。
【請求項4】
前記取得部は、
前記入力データとして複数の時点を指定する前記時点情報を取得し、
前記処理部は、
前記行き先情報、前記時点情報、及び前記第1プロンプトに対応する行き先の画像と、前記行き先情報及び前記時点情報によって示される時点における行き先の動画を生成する指示とを含んだプロンプトを前記第2プロンプトとして前記生成モデルに入力して、前記時点情報が示す複数の時点を時系列に並べた前記第2プロンプトに対応する行き先の動画を生成する、
請求項1に記載のデータ処理装置。
【請求項5】
前記取得部は、
前記入力データとして移動撮影時におけるカメラの移動速度を取得し、
前記処理部は、
前記移動速度を反映した前記第2プロンプトに対応する行き先の動画を生成する、
請求項1に記載のデータ処理装置。
【請求項6】
ユーザ入力を示す入力データを取得し、
前記入力データに応じた情報を生成する生成モデルを用いた特定処理を行い、
前記特定処理の結果を電子機器に出力し、
前記入力データとして行き先を指定する行き先情報、及び時点を指定する時点情報を取得し、
取得した前記行き先情報及び前記時点情報と、前記行き先情報及び前記時点情報によって示される時点における行き先の画像を問い合わせる指示とを含んだプロンプトを第1プロンプトとして前記生成モデルに入力して、前記第1プロンプトに対応する行き先の画像を取得し、
前記行き先情報、前記時点情報、及び前記第1プロンプトに対応する行き先の画像と、前記行き先情報及び前記時点情報によって示される時点における行き先の動画を生成する指示とを含んだプロンプトを第2プロンプトとして前記生成モデルに入力して、前記第2プロンプトに対応する行き先の動画を生成し、
生成した前記第2プロンプトに対応する行き先の動画を前記電子機器に出力する、
処理をコンピュータが実行するデータ処理方法。
【請求項7】
ユーザ入力を示す入力データを取得し、
前記入力データに応じた情報を生成する生成モデルを用いた特定処理を行い、
前記特定処理の結果を電子機器に出力し、
前記入力データとして行き先を指定する行き先情報、及び時点を指定する時点情報を取得し、
取得した前記行き先情報及び前記時点情報と、前記行き先情報及び前記時点情報によって示される時点における行き先の画像を問い合わせる指示とを含んだプロンプトを第1プロンプトとして前記生成モデルに入力して、前記第1プロンプトに対応する行き先の画像を取得し、
前記行き先情報、前記時点情報、及び前記第1プロンプトに対応する行き先の画像と、前記行き先情報及び前記時点情報によって示される時点における行き先の動画を生成する指示とを含んだプロンプトを第2プロンプトとして前記生成モデルに入力して、前記第2プロンプトに対応する行き先の動画を生成し、
生成した前記第2プロンプトに対応する行き先の動画を前記電子機器に出力する、
処理をコンピュータに実行させるためのデータ処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示の技術は、データ処理装置、データ処理方法、及びデータ処理プログラムに関する。
【背景技術】
【0002】
特許文献1には、少なくとも一つのプロセッサにより遂行される、ペルソナチャットボット制御方法であって、ユーザ発話を受信するステップと、前記ユーザ発話を、チャットボットのキャラクターに関する説明と関連した指示文を含むプロンプトに追加するステップと前記プロンプトをエンコードするステップと、前記エンコードしたプロンプトを言語モデルに入力して、前記ユーザ発話に応答するチャットボット発話を生成するステップ、を含む、方法が開示されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2022-180282号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら従来技術では、ユーザ入力に対して適切に応答する上で改善の余地がある。
【課題を解決するための手段】
【0005】
第1の態様のデータ処理装置は、ユーザ入力を示す入力データを取得する取得部と、前記入力データに応じた情報を生成する生成モデルを用いた特定処理を行う処理部と、前記特定処理の結果を電子機器に出力する出力部と、を含み、前記取得部は、前記入力データとして行き先を指定する行き先情報、及び時点を指定する時点情報を取得し、前記処理部は、前記取得部が取得した前記行き先情報及び前記時点情報と、前記行き先情報及び前記時点情報によって示される時点における行き先の画像を問い合わせる指示とを含んだプロンプトを第1プロンプトとして前記生成モデルに入力して、前記第1プロンプトに対応する行き先の画像を取得し、前記行き先情報、前記時点情報、及び前記第1プロンプトに対応する行き先の画像と、前記行き先情報及び前記時点情報によって示される時点における行き先の動画を生成する指示とを含んだプロンプトを第2プロンプトとして前記生成モデルに入力して、前記第2プロンプトに対応する行き先の動画を生成し、前記制御部は、前記処理部が生成した前記第2プロンプトに対応する行き先の動画を前記電子機器に出力する。
【0006】
第2の態様のデータ処理装置は、第1の態様のデータ処理装置であって、前記取得部は、前記入力データとして動画のテーマを取得し、前記処理部は、前記テーマ、前記行き先情報、前記時点情報、及び前記第1プロンプトに対応する行き先の画像と、前記行き先情報及び前記時点情報によって示される時点における行き先の動画を生成する指示とを含んだプロンプトを前記第2プロンプトとして前記生成モデルに入力して、前記第2プロンプトに対応する行き先の動画を生成する。
【0007】
第3の態様のデータ処理装置は、第1又は第2の態様のデータ処理装置であって、前記取得部は、前記入力データとしてユーザの身長に関する身長情報を取得し、前記処理部は、前記身長情報に基づいて導出した目線の高さに合わせて、前記第2プロンプトに対応する行き先の動画を生成する。
【0008】
第4の態様のデータ処理装置は、第1から第3の何れかの態様のデータ処理装置であって、前記取得部は、前記入力データとして複数の時点を指定する前記時点情報を取得し、前記処理部は、前記行き先情報、前記時点情報、及び前記第1プロンプトに対応する行き先の画像と、前記行き先情報及び前記時点情報によって示される時点における行き先の動画を生成する指示とを含んだプロンプトを前記第2プロンプトとして前記生成モデルに入力して、前記時点情報が示す複数の時点を時系列に並べた前記第2プロンプトに対応する行き先の動画を生成する。
【0009】
第5の態様のデータ処理装置は、第1から第4の何れかの態様のデータ処理装置であって、前記取得部は、前記入力データとして移動撮影時におけるカメラの移動速度を取得し、前記処理部は、前記移動速度を反映した前記第2プロンプトに対応する行き先の動画を生成する。
【0010】
第6の態様のデータ処理方法は、ユーザ入力を示す入力データを取得し、前記入力データに応じた情報を生成する生成モデルを用いた特定処理を行い、前記特定処理の結果を電子機器に出力し、前記入力データとして行き先を指定する行き先情報、及び時点を指定する時点情報を取得し、取得した前記行き先情報及び前記時点情報と、前記行き先情報及び前記時点情報によって示される時点における行き先の画像を問い合わせる指示とを含んだプロンプトを第1プロンプトとして前記生成モデルに入力して、前記第1プロンプトに対応する行き先の画像を取得し、前記行き先情報、前記時点情報、及び前記第1プロンプトに対応する行き先の画像と、前記行き先情報及び前記時点情報によって示される時点における行き先の動画を生成する指示とを含んだプロンプトを第2プロンプトとして前記生成モデルに入力して、前記第2プロンプトに対応する行き先の動画を生成し、生成した前記第2プロンプトに対応する行き先の動画を前記電子機器に出力する、処理をコンピュータが実行する。
【0011】
第7の態様のデータ処理プログラムは、ユーザ入力を示す入力データを取得し、前記入力データに応じた情報を生成する生成モデルを用いた特定処理を行い、前記特定処理の結果を電子機器に出力し、前記入力データとして行き先を指定する行き先情報、及び時点を指定する時点情報を取得し、取得した前記行き先情報及び前記時点情報と、前記行き先情報及び前記時点情報によって示される時点における行き先の画像を問い合わせる指示とを含んだプロンプトを第1プロンプトとして前記生成モデルに入力して、前記第1プロンプトに対応する行き先の画像を取得し、前記行き先情報、前記時点情報、及び前記第1プロンプトに対応する行き先の画像と、前記行き先情報及び前記時点情報によって示される時点における行き先の動画を生成する指示とを含んだプロンプトを第2プロンプトとして前記生成モデルに入力して、前記第2プロンプトに対応する行き先の動画を生成し、生成した前記第2プロンプトに対応する行き先の動画を前記電子機器に出力する、処理をコンピュータに実行させる。
【図面の簡単な説明】
【0012】
図1】データ処理システムの構成の一例を示す概念図である。
図2】ヘッドセット型端末の一例を示す。
図3】データ処理装置及びヘッドセット型端末の要部機能の一例を示す概念図である。
図4】特定処理部の機能構成の例を示すブロック図である。
図5】特定処理部が第1特定処理及び第2特定処理を行う動作に関する動作フローの一例である。
図6】複数の感情がマッピングされる第1の感情マップを示す。
図7】複数の感情がマッピングされる第2の感情マップを示す。
【発明を実施するための形態】
【0013】
以下、添付図面に従って本開示の技術に係るデータ処理装置、データ処理方法、及びデータ処理プログラムの実施形態の一例について説明する。
【0014】
先ず、以下の説明で使用される文言について説明する。
以下の実施形態において、符号付きのプロセッサ(以下、単に「プロセッサ」と称する)は、1つの演算装置であってもよいし、複数の演算装置の組み合わせであってもよい。また、プロセッサは、1種類の演算装置であってもよいし、複数種類の演算装置の組み合わせであってもよい。演算装置の一例としては、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、GPGPU(General-Purpose computing on Graphics Processing Units)、APU(Accelerated Processing Unit)、又はTPU(Tensor Processing Unit)等が挙げられる。
【0015】
以下の実施形態において、符号付きのRAM(Random Access Memory)は、一時的に情報が格納されるメモリであり、プロセッサによってワークメモリとして用いられる。
【0016】
以下の実施形態において、符号付きのストレージは、各種プログラム及び各種パラメータ等を記憶する1つ又は複数の不揮発性の記憶装置である。不揮発性の記憶装置の一例としては、フラッシュメモリ(SSD(Solid State Drive))、磁気ディスク(例えば、ハードディスク)、又は磁気テープ等が挙げられる。
【0017】
以下の実施形態において、符号付きの通信I/F(Interface)は、通信プロセッサ及びアンテナ等を含むインタフェースである。通信I/Fは、複数のコンピュータ間での通信を司る。通信I/Fに対して適用される通信規格の一例としては、5G(5th Generation Mobile Communication System)、Wi-Fi(登録商標)、又はBluetooth(登録商標)等を含む無線通信規格が挙げられる。
【0018】
以下の実施形態において、「A及び/又はB」は、「A及びBのうちの少なくとも1つ」と同義である。つまり、「A及び/又はB」は、Aだけであってもよいし、Bだけであってもよいし、A及びBの組み合わせであってもよい、という意味である。また、本明細書において、3つ以上の事柄を「及び/又は」で結び付けて表現する場合も、「A及び/又はB」と同様の考え方が適用される。
【0019】
(第1の実施形態)
まず、実施形態に係るデータ処理システム10の第1の実施形態について説明する。
【0020】
図1には、実施形態に係るデータ処理システム10の構成の一例が示されている。
図1に示すように、データ処理システム10は、データ処理装置12及びヘッドセット型端末14を備えている。データ処理装置12の一例としては、サーバが挙げられる。本実施形態において、データ処理装置12は、本開示の技術に係る「データ処理装置」の一例であり、ヘッドセット型端末14は、本開示の技術に係る「電子機器」の一例である。
【0021】
データ処理装置12は、コンピュータ22、データベース24、及び通信I/F26を備えている。コンピュータ22は、本開示の技術に係る「コンピュータ」の一例である。コンピュータ22は、プロセッサ28、RAM30、及びストレージ32を備えている。プロセッサ28、RAM30、及びストレージ32は、バス34に接続されている。また、データベース24及び通信I/F26も、バス34に接続されている。通信I/F26は、ネットワーク54に接続されている。ネットワーク54の一例としては、WAN(Wide Area Network)及び/又はLAN(Local Area Network)等が挙げられる。
【0022】
ヘッドセット型端末14は、コンピュータ36、マイクロフォン38、出力装置40、カメラ42、及び通信I/F44を備えている。コンピュータ36は、プロセッサ46、RAM48、及びストレージ50を備えている。プロセッサ46、RAM48、及びストレージ50は、バス52に接続されている。また、マイクロフォン38、出力装置40、及びカメラ42も、バス52に接続されている。
【0023】
マイクロフォン38は、ユーザ20(図2参照)が発する音声を受け付けることで、ユーザ20から指示等を受け付ける。マイクロフォン38は、ユーザ20が発する音声を捕捉し、捕捉した音声を音声データに変換してプロセッサ46に出力する。プロセッサ46の制御部46A(図3参照)は、マイクロフォン38によって受け付けたユーザ入力を示す入力データをデータ処理装置12に送信する。データ処理装置12では、特定処理部290が、ユーザ入力を示す入力データを取得する。
【0024】
出力装置40は、図示しないディスプレイ及びスピーカ等を備えており、データをユーザ20が知覚可能な表現形(例えば、音声及び/又はテキスト)で出力することでデータをユーザ20に対して提示する。ディスプレイは、プロセッサ46からの指示に従ってテキスト及び画像等の可視情報を表示する。スピーカは、プロセッサ46からの指示に従って音声を出力する。
【0025】
カメラ42は、レンズ、絞り、及びシャッタ等の光学系と、CMOS(Complementary Metal-Oxide-Semiconductor)イメージセンサ又はCCD(Charge Coupled Device)イメージセンサ等の撮像素子とが搭載された小型デジタルカメラであり、ユーザ20の周囲(例えば、一般的な健常者の視界の広さに相当する画角で規定された撮像範囲)を撮像する。
【0026】
通信I/F44は、ネットワーク54に接続されている。通信I/F44及び26は、ネットワーク54を介してプロセッサ46とプロセッサ28との間の各種情報の授受を司る。通信I/F44及び26を用いたプロセッサ46とプロセッサ28との間の各種情報の授受はセキュアな状態で行われる。
【0027】
図2は、ヘッドセット型端末14の一例を示す説明図である。図2に示すように、ヘッドセット型端末14は、ゴーグル型のスマートデバイスであり、一般的なゴーグルと同様にユーザ20の目を覆うように装着される。
【0028】
図3には、データ処理装置12及びヘッドセット型端末14の要部機能の一例が示されている。図3に示すように、データ処理装置12では、プロセッサ28によって特定処理が行われる。ストレージ32には、特定処理プログラム56が格納されている。
【0029】
特定処理プログラム56は、本開示の技術に係る「データ処理プログラム」の一例である。プロセッサ28は、ストレージ32から特定処理プログラム56を読み出し、読み出した特定処理プログラム56をRAM30上で実行する。特定処理は、プロセッサ28がRAM30上で実行する特定処理プログラム56に従って、特定処理部290として動作することによって実現される。
【0030】
ストレージ32には、データ生成モデル58及び感情特定モデル59が格納されている。データ生成モデル58及び感情特定モデル59は、特定処理部290によって用いられる。
【0031】
ヘッドセット型端末14では、プロセッサ46によって受付出力処理が行われる。ストレージ50には、受付出力プログラム60が格納されている。プロセッサ46は、ストレージ50から受付出力プログラム60を読み出し、読み出した受付出力プログラム60をRAM48上で実行する。受付出力処理は、プロセッサ46がRAM48上で実行する受付出力プログラム60に従って、制御部46Aとして動作することによって実現される。
【0032】
次に、データ処理装置12がユーザ入力を示す入力データに応じた情報を生成する特定処理を行う際の、特定処理部290の処理について説明する。図4は、特定処理部290の機能構成の例を示すブロック図である。
【0033】
特定処理部290は、図4に示すように、取得部290A、処理部290B、及び出力部290Cを備えている。
【0034】
取得部290Aは、ヘッドセット型端末14で受け付けたユーザ入力を示す入力データを取得する。具体的には、取得部290Aは、ヘッドセット型端末14で受け付けたユーザ20の音声入力に基づく入力データを取得する。
【0035】
また、取得部290Aは、入力データとして行き先を指定する行き先情報、及び時点を指定する時点情報を取得する。例えば、取得部290Aは、ヘッドセット型端末14で受け付けたユーザ20の音声入力に基づく入力データとして、行き先情報及び時点情報を取得する。ここで、行き先情報は、現実世界に存在する行き先(例:東京、北海道、及び沖縄等)又は、ゲーム及びアニメ等の仮想世界に存在する行き先を示す入力データである。また、時点情報は、過去、現在、又は未来の時点を示す入力データである。なお、時点情報で指定可能な時点は特に限定されず、年単位、年月単位、又は年月日単位の何れでもよく、また、上記に時分を含めてもよい。
【0036】
処理部290Bは、データ生成モデル58を用いた特定処理を行う。データ生成モデル58は、いわゆる生成AI(Artificial Intelligence)である。データ生成モデル58は、例えば、ChatGPT、Stable Diffusion、及びGen-2等の生成AIを組み合わせて構成される。なお、ChatGPTは、例えば、インターネット検索<URL: https://openai.com/blog/chatgpt>及びインターネット検索<URL: https://aismiley.co.jp/ai_news/chatgpt-tsukattemita/>等に開示される通り公知であるため、その詳細な説明を省略する。また、Stable Diffusionは、例えば、インターネット検索<URL: https://ja.stability.ai/stable-diffusion>及びインターネット検索<URL: https://aismiley.co.jp/ai_news/what-is-stable-diffusion/>等に開示される通り公知であるため、その詳細な説明を省略する。また、Gen-2は、例えば、インターネット検索<URL: https://research.runwayml.com/gen2>及びインターネット検索<URL: https://find-a.jp/seotimes/runway/>等に開示される通り公知であるため、その詳細な説明を省略する。
【0037】
データ生成モデル58は、ニューラルネットワークに対して深層学習を行わせることによって得られる。データ生成モデル58には、指示を含むプロンプトが入力され、かつ、音声を示す音声データ、テキストを示すテキストデータ、及び画像を示す画像データ等の推論用データが入力される。データ生成モデル58は、入力された推論用データをプロンプトにより示される指示に従って推論し、推論結果を音声データ、テキストデータ、画像データ、及び動画データ等のデータ形式で出力する。ここで、推論とは、例えば、分析、分類、予測、及び/又は要約等を指す。データ生成モデル58は、本開示の技術に係る「生成モデル」の一例である。
【0038】
また、上記の特定処理は、入力データに応じた情報としてユーザ20によって指定された行き先の画像を取得する第1特定処理、及び当該情報としてユーザ20によって指定された時点における当該行き先の動画を生成する第2特定処理を含んで構成されている。
【0039】
処理部290Bは、取得部290Aが取得した行き先情報及び時点情報と、行き先情報及び時点情報によって示される時点における行き先の画像を問い合わせる指示とを含んだプロンプトを第1プロンプトとしてデータ生成モデル58に入力して、第1プロンプトに対応する行き先の画像を取得する。このとき、処理部290Bは、データ生成モデル58によってインターネットから検索された画像を「行き先の画像」として取得してもよいし、データ生成モデル58によって生成された画像を「行き先の画像」として取得してもよい。
【0040】
また、処理部290Bは、行き先情報、時点情報、及び第1プロンプトに対応する行き先の画像と、行き先情報及び時点情報によって示される時点における行き先の動画を生成する指示とを含んだプロンプトを第2プロンプトとしてデータ生成モデル58に入力して、第2プロンプトに対応する行き先の動画を生成する。
【0041】
出力部290Cは、特定処理の結果をヘッドセット型端末14に出力する。具体的には、出力部290Cは、処理部290Bが生成した第2プロンプトに対応する行き先の動画をヘッドセット型端末14に出力する。ヘッドセット型端末14では、制御部46Aが、出力装置40に対して特定処理の結果を出力させる。これにより、当該ヘッドセット型端末14の出力装置40において、当該行き先の動画が再生される。
【0042】
図5は、特定処理部290がユーザ20によって指定された行き先の画像を取得する第1特定処理及びユーザ20によって指定された時点における当該行き先の動画を生成する第2特定処理を行う動作に関する動作フローの一例を概略的に示す。図5に示す動作フローは、特定処理部290がストレージ32から特定処理プログラム56を読み出して、RAM30に展開して実行することにより行われる。図5に示す動作フローは、例えば、一定時間の経過毎に、繰り返し自動的に実行される。
【0043】
図5に示すステップS10において、特定処理部290は、ヘッドセット型端末14で受け付けたユーザ入力を示す入力データを取得する。そして、特定処理部290は、ステップS11に進む。
【0044】
ステップS11において、特定処理部290は、ステップS10で取得した入力データがトリガ条件を満たすか否かを判定する。ここで、特定処理部290は、トリガ条件を満たすと判定した場合(ステップS11:YES)、ステップS12に進む。一方、特定処理部290は、トリガ条件を満たさないと判定した場合(ステップS11:NO)、図5に示す動作フローを終了する。一例として、特定処理部290は、ステップS10で取得した入力データが行き先情報及び時点情報である場合、トリガ条件を満たすと判定する。
【0045】
ステップS12において、特定処理部290は、ステップS10で取得した行き先情報及び時点情報と、行き先情報及び時点情報によって示される時点における行き先の画像を問い合わせる指示とを含んだプロンプトを第1プロンプトとしてデータ生成モデル58に入力し、データ生成モデル58の出力に基づいて、第1特定処理の結果を取得する。例えば、特定処理部290は、行き先情報として「沖縄」との音声データを取得し、時点情報として「2020年8月」との音声データを取得したものとする。この場合、特定処理部290は、「以下の行き先情報及び時点情報によって示される時点における行き先の画像を検索又は生成してください。行き先情報:沖縄 時点情報:2020年8月」というテキストを第1プロンプトとしてデータ生成モデル58に入力する。ここでは、特定処理部290は、第1特定処理の結果として第1プロンプトに対応する行き先の画像を取得する。そして、特定処理部290は、ステップS13に進む。
【0046】
ステップS13において、特定処理部290は、ステップS10で取得した行き先情報時点情報、及びステップS12で取得した第1プロンプトに対応する行き先の画像と、行き先情報及び時点情報によって示される時点における行き先の動画を生成する指示とを含んだプロンプトを第2プロンプトとしてデータ生成モデル58に入力し、データ生成モデル58の出力に基づいて、第2特定処理の結果を取得する。例えば、特定処理部290は、ステップS12で第1プロンプトに対応する行き先の画像として「xxxyyyzzz.jpg」との画像データを取得したものとする。この場合、特定処理部290は、「以下の画像データに示される画像に基づいて、以下の行き先情報及び時点情報によって示される時点における行き先の動画を生成してください。画像データ:xxxyyyzzz.jpg 行き先情報:沖縄 時点情報:2020年8月」というテキストを第2プロンプトとしてデータ生成モデル58に入力する。ここでは、特定処理部290は、第2特定処理の結果として第2プロンプトに対応する行き先の動画を取得する。そして、特定処理部290は、ステップS14に進む。
【0047】
ステップS14において、特定処理部290は、第2特定処理の結果をヘッドセット型端末14に出力する。具体的には、特定処理部290は、ステップS13で取得した第2プロンプトに対応する行き先の動画をヘッドセット型端末14に出力する。これにより、当該ヘッドセット型端末14の出力装置40において、当該行き先の動画が再生される。そして、特定処理部290は、図5に示す動作フローを終了する。
【0048】
以上説明したように、データ処理装置12では、特定処理部290は、入力データとして行き先情報及び時点情報を取得する。また、特定処理部290は、取得した行き先情報及び時点情報と、行き先情報及び時点情報によって示される時点における行き先の画像を問い合わせる指示とを含んだプロンプトを第1プロンプトとしてデータ生成モデル58に入力して、第1プロンプトに対応する行き先の画像を取得する。また、特定処理部290は、行き先情報、時点情報、及び第1プロンプトに対応する行き先の画像と、行き先情報及び時点情報によって示される時点における行き先の動画を生成する指示とを含んだプロンプトを第2プロンプトとしてデータ生成モデル58に入力して、第2プロンプトに対応する行き先の動画を生成する。そして、特定処理部290は、生成した第2プロンプトに対応する行き先の動画をヘッドセット型端末14に出力する。
【0049】
上記構成により、データ処理装置12によれば、ユーザ入力に対して適切に応答して、ユーザ20によって指定された時点における行き先の動画をヘッドセット型端末14に出力することができる。これにより、ユーザ20は、自身が望む行き先について、自身が望む過去、現在、又は未来の時点に応じた動画を視聴することができる。そのため、ユーザ20は、ヘッドセット型端末14を通じて、例えば、過去又は未来の行き先についての擬似旅行を体験することができる。
【0050】
(第2の実施形態)
次に、実施形態に係るデータ処理システム10の第2の実施形態について、上記実施形態との重複部分を省略又は簡略しつつ説明する。
【0051】
第2の実施形態に係る特定処理部290の機能構成は、一例として、第1の実施形態と同様の図4に示す機能構成である。
【0052】
取得部290Aは、入力データとして動画のテーマを取得する。例えば、取得部290Aは、ヘッドセット型端末14で受け付けたユーザ20の音声入力に基づく入力データとして、動画のテーマを取得する。動画のテーマは、例えば、スライドショー、モーショングラフィックス、アニメーション、紹介動画、採用動画、社員総会、プロモーション、ブランディング動画、及びウェブCM(Commercial Message)等である。
【0053】
処理部290Bは、取得部290Aが取得した動画のテーマ、行き先情報、時点情報、及び第1プロンプトに対応する行き先の画像と、行き先情報及び時点情報によって示される時点における行き先の動画を生成する指示とを含んだプロンプトを第2プロンプトとしてデータ生成モデル58に入力して、第2プロンプトに対応する行き先の動画を生成する。例えば、取得部290Aが、行き先情報として「沖縄」との音声データを取得し、時点情報として「2020年8月」との音声データを取得し、動画のテーマとして「紹介動画」との音声データを取得したものとする。また、処理部290Bが、第1プロンプトに対応する行き先の画像として「xxxyyyzzz.jpg」との画像データを取得したものとする。この場合、処理部290Bは、例えば「以下の画像データに示される画像に基づいて、以下の行き先情報及び時点情報によって示される時点における行き先の動画を以下のテーマを踏まえて生成してください。画像データ:xxxyyyzzz.jpg 行き先情報:沖縄 時点情報:2020年8月 動画のテーマ:紹介動画」というテキストを第2プロンプトとしてデータ生成モデル58に入力する。
【0054】
上記構成により、データ処理装置12では、ユーザ20が望むテーマを踏まえた行き先の動画を生成することができる。これにより、ユーザ20は、様々なテーマを指定することで、自身が望む行き先についての自身が望む時点に応じた動画を様々な観点で楽しむことができる。
【0055】
(第3の実施形態)
次に、実施形態に係るデータ処理システム10の第3の実施形態について、上記実施形態との重複部分を省略又は簡略しつつ説明する。
【0056】
第3の実施形態に係る特定処理部290の機能構成は、一例として、第1の実施形態と同様の図4に示す機能構成である。
【0057】
取得部290Aは、入力データとしてユーザ20の身長に関する身長情報を取得する。例えば、取得部290Aは、ヘッドセット型端末14で受け付けたユーザ20の音声入力に基づく入力データとして、身長情報を取得する。なお、身長情報は、ユーザ20自身の身長に限らず、他のユーザ(例:ユーザ20の子ども)の身長であってもよい。
【0058】
処理部290Bは、身長情報に基づいて導出した目線の高さに合わせて、第2プロンプトに対応する行き先の動画を生成する。一例として、処理部290Bは、身長情報によって示される身長に0.9をかけた値を「目線の高さ」として導出する。この場合、処理部290Bは、例えば、第2プロンプトに「目線の高さが160cmであるユーザの視点で動画を生成してください。」というテキストを追加する。
【0059】
上記構成により、データ処理装置12では、ユーザ20が望む視点での行き先の動画を生成することができる。これにより、ユーザ20は、自身の視点で、自身が望む行き先についての自身が望む時点に応じた動画を楽しむことができる。また、ユーザ20は、生成された動画に基づいて他のユーザの視点を確認することができ、例えば、当該他のユーザの視点で行き先に危険が無いか等を確認することができる。
【0060】
(第4の実施形態)
次に、実施形態に係るデータ処理システム10の第4の実施形態について、上記実施形態との重複部分を省略又は簡略しつつ説明する。
【0061】
第4の実施形態に係る特定処理部290の機能構成は、一例として、第1の実施形態と同様の図4に示す機能構成である。
【0062】
取得部290Aは、入力データとして複数の時点を指定する時点情報を取得する。例えば、取得部290Aは、ヘッドセット型端末14で受け付けたユーザ20の音声入力に基づく入力データとして、複数の時点を指定する時点情報を取得する。
【0063】
処理部290Bは、行き先情報、時点情報、及び第1プロンプトに対応する行き先の画像と、行き先情報及び時点情報によって示される時点における行き先の動画を生成する指示とを含んだプロンプトを第2プロンプトとしてデータ生成モデル58に入力して、時点情報が示す複数の時点を時系列に並べた第2プロンプトに対応する行き先の動画を生成する。例えば、取得部290Aが、行き先情報として「沖縄」との音声データを取得し、時点情報として「2020年8月」、「2021年8月」、及び「2022年8月」との音声データを取得したものとする。また、処理部290Bが、第1プロンプトに対応する行き先の画像として「xxxyyyzzz111.jpg」、「xxxyyyzzz222.jpg」、及び「xxxyyyzzz333.jpg」との画像データを取得したものとする。
【0064】
上記の場合、処理部290Bは、例えば「以下の行き先情報及び時点情報によって示される複数の時点における行き先の動画を、以下の画像データ1、画像データ2、画像データ3の順の時系列で生成してください。画像データ1:xxxyyyzzz111.jpg 行き先情報:沖縄 時点情報:2020年8月 画像データ2:xxxyyyzzz222.jpg 行き先情報:沖縄 時点情報:2021年8月 画像データ3:xxxyyyzzz333.jpg 行き先情報:沖縄 時点情報:2022年8月」というテキストを第2プロンプトとしてデータ生成モデル58に入力する。
【0065】
上記構成により、データ処理装置12では、ユーザ20によって指定された複数の時点を時系列に並べた行き先の動画を生成することができる。これにより、ユーザ20は、生成された動画に基づいて、自身が指定した複数の時点における行き先の変化を確認することができる。
【0066】
(第5の実施形態)
次に、実施形態に係るデータ処理システム10の第5の実施形態について、上記実施形態との重複部分を省略又は簡略しつつ説明する。
【0067】
第5の実施形態に係る特定処理部290の機能構成は、一例として、第1の実施形態と同様の図4に示す機能構成である。
【0068】
取得部290Aは、入力データとして移動撮影時におけるカメラの移動速度を取得する。例えば、取得部290Aは、ヘッドセット型端末14で受け付けたユーザ20の音声入力に基づく入力データとして、移動撮影時におけるカメラの移動速度を取得する。この場合におけるユーザ20の音声入力は、「カメラの移動速度は時速30km」等の具体的な速度を含んでもよいし、「カメラの移動速度は人が歩く速度」又は「カメラの移動速度は車が走る速度」等の具体的な速度を含まなくてもよい。
【0069】
処理部290Bは、取得部290Aが取得した移動速度を反映した第2プロンプトに対応する行き先の動画を生成する。この場合、処理部290Bは、例えば、第2プロンプトに「時速30kmで移動しながら撮影している場合の動画を生成してください。」というテキストを追加する。
【0070】
上記構成により、データ処理装置12では、ユーザ20が望むカメラワークで撮影した場合の行き先の動画を生成することができる。これにより、ユーザ20は、自身が望む様々なカメラワークで生成された、自身が望む行き先についての自身が望む時点に応じた動画を楽しむことができる。
【0071】
(その他)
上記実施形態では、ヘッドセット型端末14を、本開示の技術に係る「電子機器」の一例としたがこれに限定されない。例えば、スマートフォン又はタブレット端末等のヘッドセット型端末14とは異なる装置を本開示の技術に係る「電子機器」の一例としてもよい。
【0072】
上記実施形態において、特定処理部290は、特定処理において、取得した行き先情報によって示される行き先の様子を問い合わせる指示を含んだプロンプトをデータ生成モデル58に入力して、当該プロンプトに対応する行き先の様子を取得してもよい。例えば、特定処理部290は、行き先の様子として「人が多い」、「海が荒れている」、又は「風が強い」等のテキストデータを取得する。
【0073】
また、上記の場合、特定処理部290は、行き先の様子、行き先情報、時点情報、及び第1プロンプトに対応する行き先の画像と、行き先情報及び時点情報によって示される時点における行き先の動画を生成する指示とを含んだプロンプトを第2プロンプトとしてデータ生成モデル58に入力して、第2プロンプトに対応する行き先の動画を生成してもよい。例えば、特定処理部290は、「以下の画像データに示される画像に基づいて、以下の行き先情報及び時点情報によって示される時点における行き先の動画を以下の行き先の様子を踏まえて生成してください。画像データ:xxxyyyzzz.jpg 行き先情報:沖縄 時点情報:2020年8月 行き先の様子:人が多い」というテキストを第2プロンプトとしてデータ生成モデル58に入力する。当該構成により、データ処理装置12では、行き先の様子を踏まえた行き先の動画を生成することができる。
【0074】
なお、処理部290Bは、感情特定モデル59を用いてユーザ20の感情を推定し、ユーザ20の感情と、データ生成モデル58とを用いた特定処理を行うようにしてもよい。
【0075】
なお、感情特定モデル59は、特定のマッピングに従い、ユーザ20の感情を決定してよい。具体的には、感情特定モデル59は、特定のマッピングである感情マップ(図6参照)に従い、ユーザ20の感情を決定してよい。
【0076】
図6は、複数の感情がマッピングされる感情マップ400を示す図である。感情マップ400において、感情は、中心から放射状に同心円に配置されている。同心円の中心に近いほど、原始的状態の感情が配置されている。同心円のより外側には、心境から生まれる状態や行動を表す感情が配置されている。感情とは、情動や心的状態も含む概念である。同心円の左側には、概して脳内で起きる反応から生成される感情が配置されている。同心円の右側には概して、状況判断で誘導される感情が配置されている。同心円の上方向及び下方向には、概して脳内で起きる反応から生成され、かつ、状況判断で誘導される感情が配置されている。また、同心円の上側には、「快」の感情が配置され、下側には、「不快」の感情が配置されている。このように、感情マップ400では、感情が生まれる構造に基づいて複数の感情がマッピングされており、同時に生じやすい感情が、近くにマッピングされている。
【0077】
これらの感情は、感情マップ400の3時の方向に分布しており、普段は安心と不安のあたりを行き来する。感情マップ400の右半分では、内部的な感覚よりも状況認識の方が優位に立つため、落ち着いた印象になる。
【0078】
感情マップ400の内側は心の中、感情マップ400の外側は行動を表すため、感情マップ400の外側に行くほど、感情が目に見える(行動に表れる)ようになる。
【0079】
ここで、人の感情は、姿勢や血糖値のような様々なバランスを基礎としており、それらのバランスが理想から遠ざかると不快、理想に近づくと快という状態を示す。ロボットや自動車やバイク等においても、姿勢やバッテリー残量のような様々なバランスを基礎として、それらのバランスが理想から遠ざかると不快、理想に近づくと快という状態を示すように感情を作ることができる。感情マップは、例えば、光吉博士の感情地図(音声感情認識及び情動の脳生理信号分析システムに関する研究、徳島大学、博士論文:https://ci.nii.ac.jp/naid/500000375379)に基づいて生成されてよい。感情地図の左半分には、感覚が優位にたつ「反応」と呼ばれる領域に属する感情が並ぶ。また、感情地図の右半分には、状況認識が優位にたつ「状況」と呼ばれる領域に属する感情が並ぶ。
【0080】
感情マップでは学習を促す感情が2つ定義される。1つは、状況側にあるネガティブな「懺悔」や「反省」の真ん中周辺の感情である。つまり、「もう2度とこんな想いはしたくない」「もう叱られたくない」というネガティブな感情がロボットに生じたときである。もう1つは、反応側にあるポジティブな「欲」のあたりの感情である。つまり、「もっと欲しい」「もっと知りたい」というポジティブな気持ちのときである。
【0081】
感情特定モデル59は、ユーザ入力を、予め学習されたニューラルネットワークに入力し、感情マップ400に示す各感情を示す感情値を取得し、ユーザ20の感情を決定する。このニューラルネットワークは、ユーザ入力と、感情マップ400に示す各感情を示す感情値との組み合わせである複数の学習データに基づいて予め学習されたものである。また、このニューラルネットワークは、図7に示す感情マップ900のように、近くに配置されている感情同士は、近い値を持つように学習される。図7では、「安心」、「安穏」、「心強い」という複数の感情が、近い感情値となる例を示している。
【0082】
上記実施形態では、1台のコンピュータ22によって特定処理が行われる形態例を挙げたが、本開示の技術はこれに限定されず、コンピュータ22を含めた複数のコンピュータによる特定処理に対する分散処理が行われるようにしてもよい。
【0083】
上記実施形態では、ストレージ32に特定処理プログラム56が格納されている形態例を挙げて説明したが、本開示の技術はこれに限定されない。例えば、特定処理プログラム56がUSB(Universal Serial Bus)メモリなどの可搬型のコンピュータ読み取り可能な非一時的格納媒体に格納されていてもよい。非一時的格納媒体に格納されている特定処理プログラム56は、データ処理装置12のコンピュータ22にインストールされる。プロセッサ28は、特定処理プログラム56に従って特定処理を実行する。
【0084】
また、ネットワーク54を介してデータ処理装置12に接続されるサーバ等の格納装置に特定処理プログラム56を格納させておき、データ処理装置12の要求に応じて特定処理プログラム56がダウンロードされ、コンピュータ22にインストールされるようにしてもよい。
【0085】
なお、ネットワーク54を介してデータ処理装置12に接続されるサーバ等の格納装置に特定処理プログラム56の全てを格納させておいたり、ストレージ32に特定処理プログラム56の全てを記憶させたりしておく必要はなく、特定処理プログラム56の一部を格納させておいてもよい。
【0086】
特定処理を実行するハードウェア資源としては、次に示す各種のプロセッサを用いることができる。プロセッサとしては、例えば、ソフトウェア、すなわち、プログラムを実行することで、特定処理を実行するハードウェア資源として機能する汎用的なプロセッサであるCPUが挙げられる。また、プロセッサとしては、例えば、FPGA(Field-Programmable Gate Array)、PLD(Programmable Logic Device)、又はASIC(Application Specific Integrated Circuit)などの特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路が挙げられる。何れのプロセッサにもメモリが内蔵又は接続されており、何れのプロセッサもメモリを使用することで特定処理を実行する。
【0087】
特定処理を実行するハードウェア資源は、これらの各種のプロセッサのうちの1つで構成されてもよいし、同種又は異種の2つ以上のプロセッサの組み合わせ(例えば、複数のFPGAの組み合わせ、又はCPUとFPGAとの組み合わせ)で構成されてもよい。また、特定処理を実行するハードウェア資源は1つのプロセッサであってもよい。
【0088】
1つのプロセッサで構成する例としては、第1に、1つ以上のCPUとソフトウェアの組み合わせで1つのプロセッサを構成し、このプロセッサが、特定処理を実行するハードウェア資源として機能する形態がある。第2に、SoC(System-on-a-chip)などに代表されるように、特定処理を実行する複数のハードウェア資源を含むシステム全体の機能を1つのICチップで実現するプロセッサを使用する形態がある。このように、特定処理は、ハードウェア資源として、上記各種のプロセッサの1つ以上を用いて実現される。
【0089】
更に、これらの各種のプロセッサのハードウェア的な構造としては、より具体的には、半導体素子などの回路素子を組み合わせた電気回路を用いることができる。また、上記の特定処理はあくまでも一例である。従って、主旨を逸脱しない範囲内において不要なステップを削除したり、新たなステップを追加したり、処理順序を入れ替えたりしてもよいことは言うまでもない。
【0090】
以上に示した記載内容及び図示内容は、本開示の技術に係る部分についての詳細な説明であり、本開示の技術の一例に過ぎない。例えば、上記の構成、機能、作用、及び効果に関する説明は、本開示の技術に係る部分の構成、機能、作用、及び効果の一例に関する説明である。よって、本開示の技術の主旨を逸脱しない範囲内において、以上に示した記載内容及び図示内容に対して、不要な部分を削除したり、新たな要素を追加したり、置き換えたりしてもよいことは言うまでもない。また、錯綜を回避し、本開示の技術に係る部分の理解を容易にするために、以上に示した記載内容及び図示内容では、本開示の技術の実施を可能にする上で特に説明を要しない技術常識等に関する説明は省略されている。
【0091】
本明細書に記載された全ての文献、特許出願及び技術規格は、個々の文献、特許出願及び技術規格が参照により取り込まれることが具体的かつ個々に記された場合と同程度に、本明細書中に参照により取り込まれる。
【符号の説明】
【0092】
10 データ処理システム
12 データ処理装置
14 ヘッドセット型端末
図1
図2
図3
図4
図5
図6
図7