IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

2026-91166データ処理装置、データ処理方法、及びデータ処理プログラム
<>
  • -データ処理装置、データ処理方法、及びデータ処理プログラム 図1
  • -データ処理装置、データ処理方法、及びデータ処理プログラム 図2
  • -データ処理装置、データ処理方法、及びデータ処理プログラム 図3A
  • -データ処理装置、データ処理方法、及びデータ処理プログラム 図3B
  • -データ処理装置、データ処理方法、及びデータ処理プログラム 図3C
  • -データ処理装置、データ処理方法、及びデータ処理プログラム 図3D
  • -データ処理装置、データ処理方法、及びデータ処理プログラム 図3E
  • -データ処理装置、データ処理方法、及びデータ処理プログラム 図3F
  • -データ処理装置、データ処理方法、及びデータ処理プログラム 図4
  • -データ処理装置、データ処理方法、及びデータ処理プログラム 図5
  • -データ処理装置、データ処理方法、及びデータ処理プログラム 図6
  • -データ処理装置、データ処理方法、及びデータ処理プログラム 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2026091166
(43)【公開日】2026-06-03
(54)【発明の名称】データ処理装置、データ処理方法、及びデータ処理プログラム
(51)【国際特許分類】
   G06Q 50/10 20120101AFI20260527BHJP
【FI】
G06Q50/10
【審査請求】未請求
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2024204256
(22)【出願日】2024-11-22
(71)【出願人】
【識別番号】591280485
【氏名又は名称】ソフトバンクグループ株式会社
(74)【代理人】
【識別番号】110001519
【氏名又は名称】弁理士法人太陽国際特許事務所
(72)【発明者】
【氏名】孫 正義
【テーマコード(参考)】
5L050
【Fターム(参考)】
5L050CC11
(57)【要約】
【課題】ユーザが一度に2つのタスクを実行し得る音声を左右のイヤフォンから提供可能な装置、方法、及びプログラムを提供することを目的とする。
【解決手段】データ処理装置は、プロセッサを備え、前記プロセッサは、ユーザの左右の耳にそれぞれ装着される2つのイヤフォンのうちの少なくとも一方に設けられたマイクロフォン、カメラ、及びセンサの少なくともいずれかから出力されるユーザデータを収集し、前記ユーザデータに基づいて、コンテンツが互いに異なる2つの音声データを取得し、前記2つの音声データのうちの一方を前記2つのイヤフォンのうちの一方へ送信するとともに、前記2つの音声データのうちの他方を前記2つのイヤフォンのうちの他方へ送信する。
【選択図】図7
【特許請求の範囲】
【請求項1】
プロセッサを備え、前記プロセッサは、
ユーザの左右の耳にそれぞれ装着される2つのイヤフォンのうちの少なくとも一方に設けられたマイクロフォン、カメラ、及びセンサの少なくともいずれかから出力されるユーザデータを収集し、
前記ユーザデータに基づいて、コンテンツが互いに異なる2つの音声データを取得し、
前記2つの音声データのうちの一方を前記2つのイヤフォンのうちの一方へ送信するとともに、前記2つの音声データのうちの他方を前記2つのイヤフォンのうちの他方へ送信する、
データ処理装置。
【請求項2】
前記プロセッサは、
前記ユーザデータに基づいて、2つのプロンプトをそれぞれ生成し、
前記2つのプロンプトを用いて前記2つの音声データをそれぞれ取得する、
請求項1に記載のデータ処理装置。
【請求項3】
前記プロセッサは、
前記2つの音声データに応じて、前記2つのイヤフォンのうちの少なくとも一方の音量を調整するコマンドを発行する、
請求項1に記載のデータ処理装置。
【請求項4】
前記プロセッサは、前記ユーザデータとして少なくとも前記ユーザの生体データを収集する、
請求項1に記載のデータ処理装置。
【請求項5】
コンピュータが、
ユーザの左右の耳にそれぞれ装着される2つのイヤフォンのうちの少なくとも一方に設けられたマイクロフォン、カメラ、及びセンサの少なくともいずれかから出力されるユーザデータを収集することと、
前記ユーザデータに基づいて、コンテンツが互いに異なる2つの音声データを取得することと、
前記2つの音声データのうちの一方を前記2つのイヤフォンのうちの一方へ送信するとともに、前記2つの音声データのうちの他方を前記2つのイヤフォンのうちの他方へ送信することと、を有する、
データ処理方法。
【請求項6】
コンピュータに、
ユーザの左右の耳にそれぞれ装着される2つのイヤフォンのうちの少なくとも一方に設けられたマイクロフォン、カメラ、及びセンサの少なくともいずれかから出力されるユーザデータを収集させ、
前記ユーザデータに基づいて、コンテンツが互いに異なる2つの音声データを取得させ、
前記2つの音声データのうちの一方を前記2つのイヤフォンのうちの一方へ送信するとともに、前記2つの音声データのうちの他方を前記2つのイヤフォンのうちの他方へ送信させる、
データ処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示の技術は、データ処理装置、データ処理方法、及びデータ処理プログラムに関する。
【背景技術】
【0002】
特許文献1には、少なくとも一つのプロセッサにより遂行される、ペルソナチャットボット制御方法であって、ユーザ発話を受信するステップと、前記ユーザ発話を、チャットボットのキャラクターに関する説明と関連した指示文を含むプロンプトに追加するステップと前記プロンプトをエンコードするステップと、前記エンコードしたプロンプトを言語モデルに入力して、前記ユーザ発話に応答するチャットボット発話を生成するステップ、を含む、方法が開示されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2022-180282号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
従来の技術では、左右のイヤフォンから同一の音声しか提供されないため、ユーザは一度に一つのタスクしか実行できないという問題があった。そこで、本開示では、ユーザが一度に2つのタスクを実行し得る音声を左右のイヤフォンから提供可能な装置、方法、及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0005】
本開示の第1態様に係るデータ処理装置は、プロセッサを備え、前記プロセッサは、ユーザの左右の耳にそれぞれ装着される2つのイヤフォンのうちの少なくとも一方に設けられたマイクロフォン、カメラ、及びセンサの少なくともいずれかから出力されるユーザデータを収集し、前記ユーザデータに基づいて、コンテンツが互いに異なる2つの音声データを取得し、前記2つの音声データのうちの一方を前記2つのイヤフォンのうちの一方へ送信するとともに、前記2つの音声データのうちの他方を前記2つのイヤフォンのうちの他方へ送信する。
【0006】
本開示の第2態様に係るデータ処理装置は、第1態様に係るデータ処理装置において、前記プロセッサは、前記ユーザデータに基づいて、2つのプロンプトをそれぞれ生成し、前記2つのプロンプトを用いて前記2つの音声データをそれぞれ取得する。
【0007】
本開示の第3態様に係るデータ処理装置は、第1態様又は第2態様に係るデータ処理装置において、前記プロセッサは、前記2つの音声データに応じて、前記2つのイヤフォンのうちの少なくとも一方の音量を調整するコマンドを発行する。
【0008】
本開示の第4態様に係るデータ処理装置は、第1態様から第3態様のいずれか一つに係るデータ処理装置において、前記プロセッサは、前記ユーザデータとして少なくとも前記ユーザの生体データを収集する。
【0009】
本開示の第5態様に係るデータ処理方法は、コンピュータが、ユーザの左右の耳にそれぞれ装着される2つのイヤフォンのうちの少なくとも一方に設けられたマイクロフォン、カメラ、及びセンサの少なくともいずれかから出力されるユーザデータを収集することと、前記ユーザデータに基づいて、コンテンツが互いに異なる2つの音声データを取得することと、前記2つの音声データのうちの一方を前記2つのイヤフォンのうちの一方へ送信するとともに、前記2つの音声データのうちの他方を前記2つのイヤフォンのうちの他方へ送信することと、を有する。
【0010】
本開示の第6態様に係るデータ処理プログラムは、コンピュータに、ユーザの左右の耳にそれぞれ装着される2つのイヤフォンのうちの少なくとも一方に設けられたマイクロフォン、カメラ、及びセンサの少なくともいずれかから出力されるユーザデータを収集させ、前記ユーザデータに基づいて、コンテンツが互いに異なる2つの音声データを取得させ、前記2つの音声データのうちの一方を前記2つのイヤフォンのうちの一方へ送信するとともに、前記2つの音声データのうちの他方を前記2つのイヤフォンのうちの他方へ送信させる。
【図面の簡単な説明】
【0011】
図1図1は第1の実施形態に係るデータ処理システムの構成の一例を示す概念図である。
図2図2はデータ処理装置及びイヤフォンの要部機能の一例を示す概念図である。
図3A図3Aはイヤフォンの構成例を示す図である。
図3B図3Bはユーザがイヤフォンを装着した状態を示す図である。
図3C図3Cはカメラ42の画角について説明するための図である。
図3D図3Dはユーザがイヤフォンを装着した状態を示す図である。
図3E図3Eはユーザがイヤフォンを装着した状態を示す図である。
図3F図3Fはユーザがイヤフォンを装着した状態を示す図である。
図4】データ処理装置の特定処理部の機能構成を概略的に示す。
図5】データ処理装置による特定処理の動作フローの一例を概略的に示す。
図6】第2の実施形態に係るデータ処理システムの構成の一例を示す概念図である。
図7】第2の実施形態に係るデータ処理装置による特定処理の動作フローの一例を示す概念図である。
【発明を実施するための形態】
【0012】
以下、添付図面に従って本開示の技術に係るデータ処理装置、データ処理方法、及びプログラムの実施形態の一例について説明する。
【0013】
先ず、以下の説明で使用される文言について説明する。
【0014】
以下の実施形態において、符号付きのプロセッサ(以下、単に「プロセッサ」と称する)は、1つの演算装置であってもよいし、複数の演算装置の組み合わせであってもよい。また、プロセッサは、1種類の演算装置であってもよいし、複数種類の演算装置の組み合わせであってもよい。演算装置の一例としては、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、GPGPU(General-Purpose computing on Graphics Processing Units)、又はAPU(Accelerated Processing Unit)等が挙げられる。
【0015】
以下の実施形態において、符号付きのRAM(Random Access Memory)は、一時的に情報が格納されるメモリであり、プロセッサによってワークメモリとして用いられる。
【0016】
以下の実施形態において、符号付きのストレージは、各種プログラム及び各種パラメータ等を記憶する1つ又は複数の不揮発性の記憶装置である。不揮発性の記憶装置の一例としては、フラッシュメモリ(SSD(Solid State Drive))、磁気ディスク(例えば、ハードディスク)、又は磁気テープ等が挙げられる。
【0017】
以下の実施形態において、符号付きの通信I/F(Interface)は、通信プロセッサ及びアンテナ等を含むインタフェースである。通信I/Fは、複数のコンピュータ間での通信を司る。通信I/Fに対して適用される通信規格の一例としては、5G(5th Generation Mobile Communication System)、Wi-Fi(登録商標)、又はBluetooth(登録商標)等を含む無線通信規格が挙げられる。
【0018】
以下の実施形態において、「A及び/又はB」は、「A及びBのうちの少なくとも1つ」と同義である。つまり、「A及び/又はB」は、Aだけであってもよいし、Bだけであってもよいし、A及びBの組み合わせであってもよい、という意味である。また、本明細書において、3つ以上の事柄を「及び/又は」で結び付けて表現する場合も、「A及び/又はB」と同様の考え方が適用される。
【0019】
<第1の実施形態>
図1には、第1の実施形態に係るデータ処理システム10の構成の一例が示されている。
【0020】
図1に示すように、データ処理システム10は、データ処理装置12及びイヤフォン14を備えている。データ処理装置12の一例としては、サーバが挙げられる。本実施形態において、データ処理装置12は、本開示の技術に係る「データ処理装置」の一例である。
【0021】
データ処理装置12は、コンピュータ22、データベース24、及び通信I/F26を備えている。コンピュータ22は、本開示の技術に係る「コンピュータ」の一例である。コンピュータ22は、プロセッサ28、RAM30、及びストレージ32を備えている。プロセッサ28、RAM30、及びストレージ32は、バス34に接続されている。また、データベース24及び通信I/F26も、バス34に接続されている。通信I/F26は、ネットワーク54に接続されている。ネットワーク54の一例としては、WAN(Wide Area Network)及び/又はLAN(Local Area Network)等が挙げられる。
【0022】
イヤフォン14は、コンピュータ36、マイクロフォン38、スピーカ40、カメラ42、及び通信I/F44を備えている。コンピュータ36は、プロセッサ46、RAM48、及びストレージ50を備えている。プロセッサ46、RAM48、及びストレージ50は、バス52に接続されている。また、マイクロフォン38、スピーカ40、及びカメラ42も、バス52に接続されている。
【0023】
マイクロフォン38は、ユーザ20が発する音声を受け付けることで、ユーザ20から指示等を受け付ける。マイクロフォン38は、ユーザ20が発する音声を捕捉し、捕捉した音声を音声データに変換してプロセッサ46に出力する。スピーカ40は、プロセッサ46からの指示に従って音声を出力する。以下ではマイクロフォン38を単にマイク38と称する場合がある。
【0024】
カメラ42は、レンズ、絞り、及びシャッタ等の光学系と、CMOS(Complementary Metal-Oxide-Semiconductor)イメージセンサ又はCCD(Charge Coupled Device)イメージセンサ等の撮像素子とが搭載された小型デジタルカメラであり、ユーザ20の周囲(例えば、一般的な健常者の視界の広さに相当する画角で規定された撮像範囲)を撮像する。
【0025】
通信I/F44は、ネットワーク54に接続されている。通信I/F44及び26は、ネットワーク54を介してプロセッサ46とプロセッサ28との間の各種情報の授受を司る。
【0026】
図2には、データ処理装置12及びイヤフォン14の要部機能の一例が示されている。
【0027】
図2に示すように、データ処理装置12では、プロセッサ28によって特定処理が行われる。ストレージ32には、特定処理プログラム56が格納されている。特定処理プログラム56は、本開示の技術に係る「データ処理プログラム」の一例である。プロセッサ28は、ストレージ32から特定処理プログラム56を読み出し、読み出した特定処理プログラム56をRAM30上で実行する。特定処理は、プロセッサ28がRAM30上で実行する特定処理プログラム56に従って特定処理部290として動作することによって実現される。
【0028】
ストレージ32には、データ生成モデル58が格納されている。データ生成モデル58は、特定処理部290によって用いられる。
【0029】
(イヤフォン14)
イヤフォン14では、プロセッサ46によって受付出力処理が行われる。ストレージ50には、受付出力プログラム60が格納されている。プロセッサ46は、ストレージ50から受付出力プログラム60を読み出し、読み出した受付出力プログラム60をRAM48上で実行する。受付出力処理は、プロセッサ46がRAM48上で実行する受付出力プログラム60に従って、制御部46Aとして動作することによって実現される。
【0030】
イヤフォン14は、図3Aに示すように、ユーザ20の外耳道に装着されるカナル型のイヤフォンと解釈してよい。なお、イヤフォン14は、カナル型に限定されず、ユーザ20の内耳に挿入して装着されるインナーイヤー型のイヤフォンでもよく、ユーザ20の耳の全体を覆うヘッドフォン型のイヤフォンでもよい。2つのイヤフォン14のそれぞれに、マイクロフォン38、スピーカ40、及びカメラ42が設けられている。ユーザ20の耳に装着される2つのイヤフォン14で収集された音及び画像は、データベース24にライフログとして記録されてよい。
【0031】
ライフログは、ユーザ20が日常生活でとった行動の履歴と解釈してよく、ユーザ20に紐付く音及び画像、具体的には、日常生活の中でマイクロフォン38で収集された音、カメラ42で撮影された画像を含んでよい。ライフログには、ユーザ20に紐付く音及び画像が、それらが取得された日時、場所などに対応付けて記録されてよい。
【0032】
マイクロフォン38で収集された音は、ユーザ20が会話している相手の声、散歩やサイクリングをしているときにユーザ20の周囲で発生する音(車の走行音、鳥のさえずり、川のせせらぎ、風になびく木々の音)などを含んでよい。
【0033】
図3Cに示すように、カメラ42は、ユーザ20の前方を捉える画角内の風景を撮像してよく、ユーザ20の前方以外、例えばユーザ20の側方、後方、下方、上方などを捉える画角内の風景を撮像してもよい。カメラ42で撮影された画像は、ユーザ20が会話している相手の姿、散歩やサイクリングをしているときユーザ20の周囲の風景、ユーザ20の共に歩くペットの姿などを含んでよい。
【0034】
2つのイヤフォン14のそれぞれにカメラ42が設けられているため、図3Bに示すようにユーザ20の耳に装着された2つのイヤフォン14は、左耳と右耳に特定の距離を隔てて配置される。従って、例えばビデオカメラなどのように1つの筐体に2眼カメラを並べて配置する場合に比べて、2つのカメラ42の配置間隔を広くできるため、3Dセンシングがし易くなる。3Dセンシングは、三次元形状を計測することと解釈してよい。
【0035】
また、2つのイヤフォン14がユーザ20の耳に装着されると、ユーザ20の左右の目の位置に近い箇所に、2つのカメラ42が配置されるため、肉眼で見た画像と略等しい撮像(撮影画像)を、データベース24にライフログとして記録できる。従って、特定処理において、ユーザ20からの問い合わせに対応する情報、つまりユーザ20の発話の内容に対応する情報を再現し易くなる。
【0036】
2つのイヤフォン14がユーザ20に装着されている間は、カメラ42で撮像された画像の全部または一部がデータベース24にライフログとして記録されてよい。具体的には、2つのイヤフォン14がユーザ20に装着されたとき、カメラ42で撮像された画像のデータベース24への記録が開始され、2つのイヤフォン14がユーザ20から外されたときに当該画像のデータベース24への記録が終了してよい。
【0037】
2つのイヤフォン14がユーザ20に装着されている間は、マイクロフォン38で収集された音の全部または一部がデータベース24にライフログとして記録されてよい。具体的には、2つのイヤフォン14がユーザ20に装着されたとき、マイクロフォン38で収集された音のデータベース24への記録が開始され、2つのイヤフォン14がユーザ20から外されたときに当該音のデータベース24への記録が終了してよい。
【0038】
次に、データ処理装置12が、イヤフォン14を装着したユーザ20から、ユーザ20の記憶または行動に関する発話を受け付けた場合に、ユーザ20の発話の内容に対応する情報をユーザ20に提案する特定処理を行う際の、特定処理部290の処理について説明する。
【0039】
(特定処理)
本実施形態における特定処理では、ユーザデータを入力し、入力したユーザデータに応じた所定の推論結果を生成するデータ生成モデルを用いた特定処理を行う。具体的には、特定処理では、イヤフォン14を装着したユーザ20から、ユーザ20の記憶または行動に関する発話をユーザデータとして受け付けた場合、データベース24を参照することで、発話の内容に対応する情報をユーザ20に提案する処理を実行する。具体的には、データベース24にライフログが記録された後、イヤフォン14を装着したユーザ20が、ユーザ20の記憶または行動に関する発話をした場合、特定処理として、データベース24を参照することで、発話の内容に対応する情報を、ユーザ20に提案する処理を実行してよい。
【0040】
(特定処理の第1例)
特定処理部290は、発話の内容として、イヤフォンを装着したユーザが特定の記憶を思い出すきっかけとなるメッセージを要求した場合、ライフログに基づき選択された1または複数のメッセージを、発話の内容(要求)に対応する情報として、メッセージの要求元のユーザに提案してよい。
【0041】
例えば、イヤフォン14を装着したユーザ20が自身の記憶を思い出そうとして「〇月〇日〇時ごろにAさんに対して発した言葉は?」と発した場合、特定処理部290は、特定処理として、当該メッセージをプロンプトとしてデータ生成モデル58に入力する。特定処理部290は、データベース24のライフログを参照してデータ生成モデル58で得られた出力に基づいて、「素敵なレストランを見つけたので予約しよう、と発していたと思います」というメッセージを生成してよい。当該メッセージは、ユーザ20の発話の内容に対応する情報の一例と解釈してよい。
【0042】
例えば、イヤフォン14を装着したユーザ20が自身の記憶を思い出そうとして「〇月〇日〇時ごろに誰と話していた?」と発した場合、特定処理部290は、特定処理として、当該メッセージをプロンプトとしてデータ生成モデル58に入力する。特定処理部290は、データベース24のライフログを参照してデータ生成モデル58で得られた出力に基づいて、「そのときは2人友人、おそらくBさんとCさんを交えて会話していたようです」というメッセージを生成してよい。当該メッセージは、ユーザ20の発話の内容に対応する情報の一例と解釈してよい。
【0043】
例えば、イヤフォン14を装着したユーザ20が自身の感情を思い出そうとして「〇月〇日〇時ごろにAさんと会話していたときの私の気持ちは?」と発した場合、特定処理部290は、特定処理として、当該メッセージをプロンプトとしてデータ生成モデル58に入力する。特定処理部290は、データベース24のライフログを参照してデータ生成モデル58で得られた出力に基づいて、「そのとき、あなたは沢山笑っていたため友人に好感を持ちとても喜んでいたようです」というメッセージを生成してよい。当該メッセージは、ユーザ20の発話の内容に対応する情報の一例と解釈してよい。
【0044】
(特定処理の第2例)
特定処理部290は、発話の内容として、イヤフォン14を装着したユーザ20が特定の事柄をつぶやいた場合、ライフログに基づき事柄に対して推奨されるユーザ20の行動を、発話の内容(つぶやき)に対応する情報として、メッセージの要求元のユーザ20に提案してよい。
【0045】
例えば、イヤフォン14を装着したユーザ20が特定の小売店で買い物をしているとき、「何を買おうかな?」と発した場合、特定処理部290は、特定処理として、当該メッセージをプロンプトとしてデータ生成モデル58に入力する。特定処理部290は、データベース24のライフログを参照してデータ生成モデル58で得られた出力に基づいて、「数ヶ月前、このお店で商品Aを購入した後、あまり美味しくないとコメントしていましたので、今回は、最近発売された商品B、商品Cなどを購入するのはいかがでしょうか」というメッセージを生成してよい。当該メッセージは、ユーザ20の発話の内容に対応する情報の一例と解釈してよい。
【0046】
(特定処理の第3例)
図3Dに示すように、イヤフォン14を装着したユーザ20がパソコンを操作しているとき「一昨日検索した製品Aの名前はなんだった?」と発した場合、特定処理部290は、特定処理として、当該メッセージをプロンプトとしてデータ生成モデル58に入力する。データ生成モデル58は、データベース24のライフログを参照して、過去のユーザ20が操作しているときのパソコンの画面の映像を解析することで、特定の出力を生成する。特定処理部290は、データ生成モデル58で得られた出力に基づいて、「製品Aは○○○です」というメッセージを生成してよい。当該メッセージは、ユーザ20の発話の内容に対応する情報の一例と解釈してよい。
【0047】
(特定処理の第4例)
図3Eに示すように、イヤフォン14を装着したユーザ20がサイクリングをしているとき「この近くで絶景が見える場所があったけど、どこだろう?」と発した場合、特定処理部290は、特定処理として、当該メッセージをプロンプトとしてデータ生成モデル58に入力する。データ生成モデル58は、データベース24のライフログを参照して、ユーザ20が以前訪れた場所とその場所までの経路などを解析することで、特定の出力を生成する。特定処理部290は、データ生成モデル58で得られた出力に基づいて、「ここから500m進んだところにある○○岬だと思います。」というメッセージを生成してよい。当該メッセージは、ユーザ20の発話の内容に対応する情報の一例と解釈してよい。
【0048】
(特定処理の第5例)
図3Fに示すように、イヤフォン14を装着したユーザ20が訪問先のA社のX氏と出会ったとき「この人の名前を教えて?」と発した場合、特定処理部290は、特定処理として、当該メッセージをプロンプトとしてデータ生成モデル58に入力する。データ生成モデル58は、データベース24のライフログを参照し、ユーザ20がA社を訪れたときに出会った人の履歴などから、特定の出力を生成する。特定処理部290は、データ生成モデル58で得られた出力に基づいて、「氏名は○○だと思います」というメッセージを生成してよい。当該メッセージは、ユーザ20の発話の内容に対応する情報の一例と解釈してよい。
【0049】
特定処理部290は、図4に示すように、入力部291、処理部292、及び出力部293を備えている。
【0050】
入力部291は、イヤフォン14で受け付けたユーザ入力を取得する。具体的には、イヤフォン14で受け付けたユーザの音声を取得する
【0051】
処理部292は、データ生成モデル58を用いた特定処理を行う。具体的には、データ生成モデル58に、ユーザから入力された音声を入力し、生成結果を得る。より具体的には、イヤフォン14を装着したユーザ20からユーザ20の記憶または行動に関する発話を受け付けた場合、発話の内容に対応する情報をユーザ20に提案する処理を、特定処理として行う。
【0052】
出力部293は、特定処理の結果をイヤフォン14に送信する。イヤフォン14では、制御部46Aが、スピーカ40に対して特定処理の結果を出力させる。マイクロフォン38は、特定処理の結果に対するユーザ入力を示す音声を取得する。制御部46Aは、マイクロフォン38によって取得されたユーザ入力を示す音声データをデータ処理装置12に送信する。データ処理装置12では、特定処理部290が音声データを取得する。
【0053】
データ生成モデル58は、いわゆる生成系AI(Artificial Intelligence)である。データ生成モデル58の一例としては、ChatGPT(登録商標)(インターネット検索<URL: https://openai.com/blog/chatgpt>)、Gemini(登録商標)(インターネット検索<URL: https://gemini.google.com/?hl=ja>)等の生成系AIが挙げられる。データ生成モデル58は、ニューラルネットワークに対して深層学習を行わせることによって得られる。データ生成モデル58には、指示を含むプロンプトが入力され、かつ、音声を示す音声データ、テキストを示すテキストデータ、及び画像を示す画像データ等の推論用データが入力される。データ生成モデル58は、入力された推論用データをプロンプトにより示される指示に従って推論し、推論結果を音声データ及びテキストデータ等のデータ形式で出力する。ここで、推論とは、例えば、分析、分類、予測、及び/又は要約等を指す。
【0054】
次に、データ処理システム10の作用について説明する。
【0055】
特定処理の流れの一例について図5を参照しながら説明する。なお、図5に示す特定処理の流れは、本開示の技術に係る「データ処理方法」の一例である。
【0056】
ステップS300で、データ処理装置12は、2つのイヤフォン14で収集された音及び画像を含むユーザデータを入力する。
【0057】
ステップS302で、データ処理装置12は、イヤフォン14を装着したユーザからユーザ20の記憶または行動に関する発話を受け付けた場合、ユーザ20のライフログに基づき、発話の内容に対応する情報をユーザ20に提案する処理を、特定処理として実行する。
【0058】
ステップS303で、データ処理装置12は、特定処理の結果をスピーカ40から再生させる処理を実行する。
【0059】
図6には、第2の実施形態に係るデータ処理システム10の構成の一例が示されている。第1の実施形態では、データ処理システム10を、1つの音声を再生するシングル音声再生に適用させた場合を一例として示した。しかしながら、シングル音声再生では、左右のイヤフォンから同一の音声しか提供されないため、ユーザは一度に一つのタスクしか実行できないという問題があった。このような問題を解決すべく、第2の実施形態では、データ処理システム10を、2つのイヤフォンからそれぞれ異なる2つの音声を再生するデュアル音声再生に適用させた場合について説明する。
【0060】
第2の実施形態に係るデータ処理システム10は、データ処理装置12と、左耳用のイヤフォン14Lと、右耳用のイヤフォン14Rと、を備える。イヤフォン14L及びイヤフォン14Rは、ネットワーク54を介してデータ処理装置12と通信可能に接続されている。
【0061】
第2の実施形態では、左耳用のイヤフォン14L及び右耳用のイヤフォン14Rからそれぞれ異なる2つの音声が再生される。そのため、左右の音声が混じってしまうことを避けることが重要となる。したがって、イヤフォン14L及びイヤフォン14Rは、骨伝導型やオープンイヤー型ではなく、インナーイヤー型のイヤフォンであることが好ましく、密着性の高いカナル型のイヤフォンであることが特に好ましい。
【0062】
左耳用のイヤフォン14L及び右耳用のイヤフォン14Rの各々は、第1の実施形態に係るイヤフォン14と同一の構成を備えていてよい。すなわち、左耳用のイヤフォン14Lは、コンピュータ36L、マイクロフォン38L、スピーカ40L、カメラ42L、及び通信I/F44Lを備えてよい。また、コンピュータ36Lは、プロセッサ46L、RAM48L、及びストレージ50Lを備えてよい。これに加えて、左耳用のイヤフォン14Lは、センサ45Lを備えてよい。これらの構成は、バス52Lに接続され、互いに通信可能であってよい。
【0063】
同様に、右耳用のイヤフォン14Rは、コンピュータ36R、マイクロフォン38R、スピーカ40R、カメラ42R、及び通信I/F44Rを備えてよい。また、コンピュータ36Rは、プロセッサ46R、RAM48R、及びストレージ50Rを備えてよい。これに加えて、右耳用のイヤフォン14Rは、センサ45Rを備えてよい。これらの構成は、バス52Rに接続され、互いに通信可能であってよい。
【0064】
センサ45L及びセンサ45R(「センサ45」と総称する。)は、イヤフォン14L及びイヤフォン14Rを装着したユーザの生体データを計測する。生体データとしては、例えば、体温及び脳波等が挙げられてよい。
【0065】
このようなデータ処理システム10において、データ処理装置12は、イヤフォン14L及びイヤフォン14Rとの間で、それぞれ異なるデータストリームを送受信可能に構成されてよい。この際、データ処理装置12は、イヤフォン14L及びイヤフォン14Rとの間で左右独立伝送方式を採用しつつ、左右のデータストリームにおいて異なる音声データを送信してよい。
【0066】
これにより、イヤフォン14L及びイヤフォン14Rは、異なる音声を再生可能である。なお、ここでいう、異なる音声を再生するとは、再生元となるコンテンツ自体が異なる別々の音声を再生することを意味しており、ステレオ再生のように同一のコンテンツを異なる定位で再生することとは全く異なる意味として解釈されてよい。
【0067】
図7には、第2の実施形態に係るデータ処理装置12による特定処理の動作フローの一例が示されている。本フローは、ユーザがデュアル音声再生を開始する旨のボタンを押下する、又はその旨を発話することにより開始されてよい。
【0068】
ステップS401において、プロセッサ28は、ユーザデータを収集する。例えば、プロセッサ28は、マイクロフォン38L、カメラ42L、センサ45L、マイクロフォン38R、カメラ42R、及びセンサ45Rの少なくともいずれかから出力されるユーザデータを収集してよい。この際、プロセッサ28は、ユーザデータとして少なくともユーザの生体データを収集してもよい。プロセッサ28は、例えばこのようにして、ユーザの左右の耳にそれぞれ装着される2つのイヤフォンのうちの少なくとも一方に設けられたマイクロフォン、カメラ、及びセンサの少なくともいずれかから出力されるユーザデータを収集してよい。
【0069】
ステップS402Lにおいて、プロセッサ28は、左耳用のプロンプトを生成する。また、ステップS402Rにおいて、プロセッサ28は、右耳用のプロンプトを生成する。
【0070】
一例として、プロセッサ28は、ステップS401において収集したマイクロフォン38L及び38Rの少なくともいずれかの出力から、2つのコンテンツの再生を指示する発話を検知する。例えば、ユーザが「音楽とスケジュールを同時再生して?」と発話したことを検知したとする。また、プロセッサ28は、ステップS401において収集したカメラ42L及び42Rの少なくともいずれかの出力から、ユーザの行動を検知する。例えば、ユーザが海沿いを歩いていることを検知したとする。また、プロセッサ28は、ステップS401において収集したセンサ45L及び45Rの少なくともいずれかの出力から、ユーザの状態を検知する。例えば、ユーザのストレスレベルが高いことを検知したとする。
【0071】
この場合、プロセッサ28は、2つのコンテンツの再生を指示する発話から、「カレンダーアプリにアクセスし、本日のスケジュールを読み上げて下さい。」というプロンプトを左耳用のプロンプトとして生成してよい。また、プロセッサ28は、2つのコンテンツの再生を指示する発話と、ユーザの行動と、ユーザの状態とから、「海をテーマとした癒しの音楽を再生して下さい。」というプロンプトを右耳用のプロンプトとして生成してよい。プロセッサ28は、例えばこのようにして、ユーザデータに基づいて、2つのプロンプトをそれぞれ生成してよい。
【0072】
ステップS403Lにおいて、プロセッサ28は、左耳用の音声データを取得する。また、ステップS403Rにおいて、プロセッサ28は、右耳用の音声データを取得する。
【0073】
例えば、プロセッサ28は、ステップS402Lにおいて生成した左耳用のプロンプトをデータ生成モデル58へ入力してよい。これに応じて、プロセッサ28は、「本日のスケジュールは、10時から11時に第1会議室でミーティング、12時から13時にムハンマドさんとランチ、17時迄にヤンさんへ報告書を提出、の3点です。」という音声データを、左耳用の音声データとしてデータ生成モデル58から取得してよい。
【0074】
また、プロセッサ28は、ステップS402Rにおいて生成した右耳用のプロンプトをデータ生成モデル58へ入力してよい。これに応じて、プロセッサ28は、海をテーマとした癒しの音楽の楽曲データを、右耳用の音声データとしてデータ生成モデル58から取得してよい。これにより、プロセッサ28は、2つのプロンプトを用いて2つの音声データをそれぞれ取得してよい。プロセッサ28は、例えばこのようにして、ユーザデータに基づいて、コンテンツが互いに異なる2つの音声データを取得することができる。
【0075】
ステップS404Lにおいて、プロセッサ28は、左耳用の音声データを左耳用のイヤフォン14Lへ送信する。また、プロセッサ28は、ステップS404Rにおいて、右耳用の音声データを右耳用のイヤフォン14Rへ送信する。
【0076】
例えば、プロセッサ28は、ステップS403Lにおいて取得した左耳用の音声データを、通信I/F26及びネットワーク54を介して通信I/F44Lへ送信してよい。また、プロセッサ28は、ステップS403Rにおいて取得した右耳用の音声データを、通信I/F26及びネットワーク54を介して通信I/F44Rへ送信してよい。プロセッサ28は、例えばこのようにして、2つの音声データのうちの一方を2つのイヤフォンのうちの一方へ送信するとともに、2つの音声データのうちの他方を2つのイヤフォンのうちの他方へ送信してよい。
【0077】
これにより、左耳用のイヤフォン14Lにおいては、スピーカ40Lから「本日のスケジュールは、10時から11時に第1会議室でミーティング、12時から13時にムハンマドさんとランチ、17時迄にヤンさんへ報告書を提出、の3点です。」という音声が再生される。また、右耳用のイヤフォン14Rにおいては、スピーカ40Rから海をテーマとした癒しの音楽の楽曲データが再生される。
【0078】
ここで、右耳用のイヤフォン14Rにおいて再生される音声データは、エンターテインメントに関するタスクである。一方、左耳用のイヤフォン14Lにおいて再生される音声データは、ビジネスに関するタスクである。したがって、左耳用のイヤフォン14Lにおいて再生される音声データは、右耳用のイヤフォン14Rにおいて再生される音声データよりも重要なデータであるといえる。そこで、プロセッサ28は、次に、左右の音量のバランスを調整する。
【0079】
ステップS405Lにおいて、プロセッサ28は、左耳用の音量を調整するコマンドを発行する。また、ステップS405Rにおいて、プロセッサ28は、右耳用の音量を調整するコマンドを発行する。
【0080】
例えば、プロセッサ28は、左耳用のイヤフォン14Lにおいて再生される音声データが右耳用のイヤフォン14Rにおいて再生される音声データよりも音量が大きくなるように、左耳用の音量を上げるコマンドを発行する。また、プロセッサ28は、右耳用のイヤフォン14Rにおいて再生される音声データが左耳用のイヤフォン14Lにおいて再生される音声データよりも音量が小さくなるように、右耳用の音量を下げるコマンドを発行する。これにより、左右の音量が最適化される。プロセッサ28は、例えばこのようにして、2つの音声データに応じて、2つのイヤフォンのうちの少なくとも一方の音量を調整するコマンドを発行してよい。
【0081】
そして、プロセッサ28は、本フローを終了する。なお、ステップS402L~405Lの処理と、ステップS402R~405Rの処理とは、互いに独立して実行される。したがって、左右のイヤフォンで別々のAIアシスタントを同時に起動させるデュアルAIアシスタントシステムが提供されてよい。
【0082】
なお、上述の説明では、音楽とスケジュールの読み上げを一例として示したが、本開示の技術は様々な組み合わせに適用することも可能である。このような組み合わせとしては、例えば、音楽とメールの読み上げ、ニュースの読み上げとスケジュールの読み上げ、及び音楽とナビゲーションの案内等が挙げられる。
【0083】
このように、第2の実施形態に係るデータ処理装置12は、ユーザの左右の耳にそれぞれ装着される2つのイヤフォンのうちの少なくとも一方に設けられたマイクロフォン、カメラ、及びセンサの少なくともいずれかから出力されるユーザデータを収集し、ユーザデータに基づいて、コンテンツが互いに異なる2つの音声データを取得し、2つの音声データのうちの一方を2つのイヤフォンのうちの一方へ送信するとともに、2つの音声データのうちの他方を2つのイヤフォンのうちの他方へ送信する。これにより、第2の実施形態に係るデータ処理装置12によれば、ユーザが一度に2つのタスクを実行し得る音声を左右のイヤフォンから提供することができるので、時間の有効活用に資することができる。
【0084】
この際、データ処理装置12は、ユーザデータに基づいて、2つのプロンプトを生成し、2つのプロンプトを用いて2つの音声データをそれぞれ取得してよい。これにより、データ処理装置12によれば、AIアシスタントを並行して動作させることができる。
【0085】
また、データ処理装置12は、2つの音声データに応じて、2つのイヤフォンのうちの少なくとも一方の音量を調整するコマンドを発行してよい。これにより、データ処理装置12によれば、コンテンツの重要度に応じて左右の音量を最適化することができる。
【0086】
また、データ処理装置12は、ユーザデータとして少なくともユーザの生体データを収集してよい。これにより、データ処理装置12によれば、生体データを収集する手段を別途設けることなく、イヤフォンからの出力のみを用いて生体データをも考慮した音声データを取得して提供することができる。
【0087】
なお、第2の実施形態に係る技術は様々な形に変形又は応用することもできる。一般に、人間の脳は、左脳が言語をつかさどる脳であり、右脳がイメージをつかさどる脳であることが知られている。そして、人間の耳から脳への神経系の構造は、左耳から入った情報は右脳へ、右耳から入った情報は左脳へ伝わる、という交叉状態になっている。
【0088】
したがって、左耳用のプロンプト及び右耳用のプロンプトを生成するにあたっては、プロセッサ28は、このような人体の特徴をも考慮してよい。すなわち、音楽を左耳から右脳へ伝えるべく、音楽を再生する旨のプロンプトを左耳用のプロンプトとして生成してもよい。また、文章を右耳から左脳へ伝えるべく、スケジュールやメールを読み上げる旨のプロンプトを右耳用のプロンプトとして生成してもよい。
【0089】
以上、本開示に係るシステムをデータ処理装置12の機能を主として説明したが、本開示に係るシステムはサーバに実装されているとは限らない。本開示に係るシステムは、一般的な情報処理システムとして実装されていてもよい。本開示は、例えば、パーソナルコンピュータで動作するソフトウェアプログラム、スマートフォン等で動作するアプリケーションとして実装されてもよい。本開示に係る方法はSaaS(Software as a Service)形式でユーザに対して提供されてもよい。
【0090】
上記実施形態では、1台のコンピュータ22によって特定処理が行われる形態例を挙げたが、本開示の技術はこれに限定されず、コンピュータ22を含めた複数のコンピュータによる特定処理に対する分散処理が行われるようにしてもよい。
【0091】
上記実施形態では、ストレージ32に特定処理プログラム56が格納されている形態例を挙げて説明したが、本開示の技術はこれに限定されない。例えば、特定処理プログラム56がUSB(Universal Serial Bus)メモリなどの可搬型のコンピュータ読み取り可能な非一時的格納媒体に格納されていてもよい。非一時的格納媒体に格納されている特定処理プログラム56は、データ処理装置12のコンピュータ22にインストールされる。プロセッサ28は、特定処理プログラム56に従って特定処理を実行する。
【0092】
また、ネットワーク54を介してデータ処理装置12に接続されるサーバ等の格納装置に特定処理プログラム56を格納させておき、データ処理装置12の要求に応じて特定処理プログラム56がダウンロードされ、コンピュータ22にインストールされるようにしてもよい。
【0093】
なお、ネットワーク54を介してデータ処理装置12に接続されるサーバ等の格納装置に特定処理プログラム56の全てを格納させておいたり、ストレージ32に特定処理プログラム56の全てを記憶させたりしておく必要はなく、特定処理プログラム56の一部を格納させておいてもよい。
【0094】
特定処理を実行するハードウェア資源としては、次に示す各種のプロセッサを用いることができる。プロセッサとしては、例えば、ソフトウェア、すなわち、プログラムを実行することで、特定処理を実行するハードウェア資源として機能する汎用的なプロセッサであるCPUが挙げられる。また、プロセッサとしては、例えば、FPGA(Field-Programmable Gate Array)、PLD(Programmable Logic Device)、又はASIC(Application Specific Integrated Circuit)などの特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路が挙げられる。何れのプロセッサにもメモリが内蔵又は接続されており、何れのプロセッサもメモリを使用することで特定処理を実行する。
【0095】
特定処理を実行するハードウェア資源は、これらの各種のプロセッサのうちの1つで構成されてもよいし、同種又は異種の2つ以上のプロセッサの組み合わせ(例えば、複数のFPGAの組み合わせ、又はCPUとFPGAとの組み合わせ)で構成されてもよい。また、特定処理を実行するハードウェア資源は1つのプロセッサであってもよい。
【0096】
1つのプロセッサで構成する例としては、第1に、1つ以上のCPUとソフトウェアの組み合わせで1つのプロセッサを構成し、このプロセッサが、特定処理を実行するハードウェア資源として機能する形態がある。第2に、SoC(System-on-a-chip)などに代表されるように、特定処理を実行する複数のハードウェア資源を含むシステム全体の機能を1つのICチップで実現するプロセッサを使用する形態がある。このように、特定処理は、ハードウェア資源として、上記各種のプロセッサの1つ以上を用いて実現される。
【0097】
更に、これらの各種のプロセッサのハードウェア的な構造としては、より具体的には、半導体素子などの回路素子を組み合わせた電気回路を用いることができる。また、上記の特定処理はあくまでも一例である。従って、主旨を逸脱しない範囲内において不要なステップを削除したり、新たなステップを追加したり、処理順序を入れ替えたりしてもよいことは言うまでもない。
【0098】
以上に示した記載内容及び図示内容は、本開示の技術に係る部分についての詳細な説明であり、本開示の技術の一例に過ぎない。例えば、上記の構成、機能、作用、及び効果に関する説明は、本開示の技術に係る部分の構成、機能、作用、及び効果の一例に関する説明である。よって、本開示の技術の主旨を逸脱しない範囲内において、以上に示した記載内容及び図示内容に対して、不要な部分を削除したり、新たな要素を追加したり、置き換えたりしてもよいことは言うまでもない。また、錯綜を回避し、本開示の技術に係る部分の理解を容易にするために、以上に示した記載内容及び図示内容では、本開示の技術の実施を可能にする上で特に説明を要しない技術常識等に関する説明は省略されている。
【0099】
本明細書に記載された全ての文献、特許出願及び技術規格は、個々の文献、特許出願及び技術規格が参照により取り込まれることが具体的かつ個々に記された場合と同程度に、本明細書中に参照により取り込まれる。
【0100】
なお、以上の説明に関して更に以下の付記を開示する。
【0101】
(付記1)
マイク、スピーカ、及びカメラを含みユーザの耳に装着される2つのイヤフォンで収集された音及び画像を含むユーザデータを入力する入力部と、
前記ユーザデータに応じた所定の推論結果を生成するデータ生成モデルを用いた特定処理を行う処理部と、
前記特定処理の結果を前記スピーカから再生させる出力部と、
を備え、
前記入力部は、前記マイクで検出された音と前記カメラで撮影された画像とを、前記ユーザデータとして入力し、
前記処理部は、前記イヤフォンを装着した前記ユーザから前記ユーザの記憶または行動に関する発話を受け付けた場合、前記ユーザに紐付く前記音及び前記画像が記録された前記ユーザのライフログに基づき、前記発話の内容に対応する情報を前記ユーザに提案する処理を、前記特定処理として行う、データ処理装置。
【0102】
(付記2)
前記処理部は、前記発話の内容として、前記イヤフォンを装着した前記ユーザが特定の記憶を思い出すきっかけとなるメッセージを要求した場合、前記ライフログに基づき選択された1または複数のメッセージを、前記発話の内容に対応する情報として、前記ユーザに提案する、付記1に記載のデータ処理装置。
【0103】
(付記3)
前記処理部は、前記発話の内容として、前記イヤフォンを装着した前記ユーザが特定の事柄をつぶやいた場合、前記ライフログに基づき前記事柄に対して推奨される前記ユーザの行動を、前記発話の内容に対応する情報として、前記ユーザに提案する、付記1または2に記載のデータ処理装置。
【0104】
(付記4)
マイク、スピーカ、及びカメラを含みユーザの耳に装着される2つのイヤフォンで収集された音及び画像を含むユーザデータを入力し、前記ユーザデータに応じた所定の推論結果を生成するデータ生成モデルを用いた特定処理を、コンピュータが実行するデータ処理方法であって、
前記マイクで検出された音と前記カメラで撮影された画像とを、前記ユーザデータとして入力し、
前記イヤフォンを装着した前記ユーザから前記ユーザの記憶または行動に関する発話を受け付けた場合、前記ユーザに紐付く前記音及び前記画像が記録された前記ユーザのライフログに基づき、前記発話の内容に対応する情報を前記ユーザに提案する処理を、前記特定処理として実行し、
前記特定処理の結果を前記スピーカから再生させる処理を、
前記コンピュータが実行するデータ処理方法。
【0105】
(付記5)
マイク、スピーカ、及びカメラを含みユーザの耳に装着される2つのイヤフォンで収集された音及び画像を含むユーザデータを入力し、前記ユーザデータに応じた所定の推論結果を生成するデータ生成モデルを用いた特定処理を、コンピュータに実行させるデータ処理プログラムであって、
前記マイクで検出された音と前記カメラで撮影された画像とを、前記ユーザデータとして入力し、
前記イヤフォンを装着した前記ユーザから前記ユーザの記憶または行動に関する発話を受け付けた場合、前記ユーザに紐付く前記音及び前記画像が記録された前記ユーザのライフログに基づき、前記発話の内容に対応する情報を前記ユーザに提案する処理を、前記特定処理として実行し、
前記特定処理の結果を前記スピーカから再生させる処理を、
前記コンピュータに実行させるデータ処理プログラム。
【符号の説明】
【0106】
10 データ処理システム
12 データ処理装置
14 イヤフォン
290 特定処理部
291 入力部
292 処理部
293 出力部
図1
図2
図3A
図3B
図3C
図3D
図3E
図3F
図4
図5
図6
図7