(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2026089991
(43)【公開日】2026-06-02
(54)【発明の名称】データ処理装置、データ処理方法、及びデータ処理プログラム
(51)【国際特許分類】
G06F 3/16 20060101AFI20260526BHJP
H04R 1/10 20260101ALI20260526BHJP
H04R 3/00 20060101ALI20260526BHJP
G06F 3/01 20060101ALI20260526BHJP
H04R 25/00 20060101ALN20260526BHJP
【FI】
G06F3/16 540
H04R1/10 104Z
H04R3/00 310
G06F3/16 610
G06F3/01 510
G06F3/16 690
H04R25/00 J
【審査請求】未請求
【請求項の数】5
【出願形態】OL
(21)【出願番号】P 2024203258
(22)【出願日】2024-11-21
(71)【出願人】
【識別番号】591280485
【氏名又は名称】ソフトバンクグループ株式会社
(74)【代理人】
【識別番号】110001519
【氏名又は名称】弁理士法人太陽国際特許事務所
(72)【発明者】
【氏名】孫 正義
【テーマコード(参考)】
5D005
5D220
5E555
【Fターム(参考)】
5D005BA13
5D220AA01
5D220AB08
5E555AA46
5E555AA72
5E555AA76
5E555BA01
5E555BA17
5E555BB17
5E555BC04
5E555BD01
5E555BE04
5E555CA42
5E555CA47
5E555CB64
5E555CB65
5E555CC01
5E555CC05
5E555DA23
5E555DA31
5E555DD11
5E555EA02
5E555EA19
5E555EA22
5E555EA23
5E555EA27
5E555FA00
(57)【要約】
【課題】ユーザが特定の音声に集中できるデータ処理装置、データ処理方法、及びプログラムを提供する。
【解決手段】データ処理装置は、マイク、スピーカ、及びカメラを含み、ユーザの耳に装着される2つのイヤフォンで収集された音声データおよび画像データを入力する入力部と、音声データおよび前記画像データに応じた所定の推論結果を生成するデータ生成モデルを用いた特定処理を行う処理部と、特定処理の結果を前記スピーカから再生させる出力部とを備え、処理部は、前記イヤフォンを装着したユーザが注目する対象を、前記画像データを解析することにより特定し、前記音声データにおいて前記対象からの音声を強調する処理を前記特定処理として実行する。
【選択図】
図2
【特許請求の範囲】
【請求項1】
マイク、スピーカ、及びカメラを含み、ユーザの耳に装着される2つのイヤフォンで収集された音声データおよび画像データを入力する入力部と、
前記音声データおよび前記画像データに応じた所定の推論結果を生成するデータ生成モデルを用いた特定処理を行う処理部と、
前記特定処理の結果を前記スピーカから再生させる出力部と、
を備え、
前記処理部は、前記イヤフォンを装着したユーザが注目する対象を、前記画像データを解析することにより特定し、前記音声データにおいて前記対象からの音声を強調する処理を前記特定処理として実行する、データ処理装置。
【請求項2】
前記処理部は、ユーザの環境情報および動作情報を取得し、前記データ生成モデルを用いて、前記環境情報および前記動作情報に基づいて前記特定処理のパラメータをリアルタイムで調整する、請求項1に記載のデータ処理装置。
【請求項3】
前記処理部は、前記データ生成モデルを用いて、ユーザの過去の視線パターンおよび音声履歴に基づいてユーザの好みに合わせて音声を最適化する、請求項1または2に記載のデータ処理装置。
【請求項4】
マイク、スピーカ、及びカメラを含み、ユーザの耳に装着される2つのイヤフォンで収集された音声データおよび画像データを入力し、前記音声データおよび前記画像データに応じた所定の推論結果を生成するデータ生成モデルを用いた特定処理をコンピュータが実行するデータ処理方法であって、
前記マイクで検出された音声データと前記カメラで撮影された画像データとを入力し、
前記イヤフォンを装着したユーザが注目する対象を、前記画像データを解析することにより特定し、前記音声データにおいて前記対象からの音声を強調する処理を前記特定処理として実行し、
前記特定処理の結果を前記スピーカから再生させる、
データ処理方法。
【請求項5】
マイク、スピーカ、及びカメラを含み、ユーザの耳に装着される2つのイヤフォンで収集された音声データおよび画像データを入力し、前記音声データおよび前記画像データに応じた所定の推論結果を生成するデータ生成モデルを用いた特定処理をコンピュータに実行させるデータ処理プログラムであって、
前記マイクで検出された音声データと前記カメラで撮影された画像データとを入力する手順と、
前記イヤフォンを装着したユーザが注目する対象を、前記画像データを解析することにより特定し、前記音声データにおいて前記対象からの音声を強調する処理を前記特定処理として実行する手順と、
前記特定処理の結果を前記スピーカから再生させる手順とをコンピュータに実行させるデータ処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示の技術は、データ処理装置、データ処理方法、及びデータ処理プログラムに関する。
【背景技術】
【0002】
特許文献1には、少なくとも一つのプロセッサにより遂行される、ペルソナチャットボット制御方法であって、ユーザ発話を受信するステップと、前記ユーザ発話を、チャットボットのキャラクターに関する説明と関連した指示文を含むプロンプトに追加するステップと前記プロンプトをエンコードするステップと、前記エンコードしたプロンプトを言語モデルに入力して、前記ユーザ発話に応答するチャットボット発話を生成するステップ、を含む、方法が開示されている。
【0003】
一方、イヤフォンにおいて、ノイズキャンセリング技術を用いて環境音を低減する試みが行われている。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、ノイズキャンセリング技術は周囲のノイズを一律に低減するものであり、ユーザが特定の音声に集中したい場合でも、聞きたい音声まで低減されてしまう。
【0006】
本開示は上記事情に鑑みなされたものであり、ユーザが特定の音声に集中できるようにすることを目的とする。
【課題を解決するための手段】
【0007】
本開示の技術に係る第1の態様は、マイク、スピーカ、及びカメラを含み、ユーザの耳に装着される2つのイヤフォンで収集された音声データおよび画像データを入力する入力部と、
前記音声データおよび前記画像データに応じた所定の推論結果を生成するデータ生成モデルを用いた特定処理を行う処理部と、
前記特定処理の結果を前記スピーカから再生させる出力部と、
を備え、
前記処理部は、前記イヤフォンを装着したユーザが注目する対象を、前記画像データを解析することにより特定し、前記音声データにおいて前記対象からの音声を強調する処理を前記特定処理として実行する、データ処理装置である。
【0008】
本開示の技術に係る第2の態様は、マイク、スピーカ、及びカメラを含み、ユーザの耳に装着される2つのイヤフォンで収集された音声データおよび画像データを入力し、前記音声データおよび前記画像データに応じた所定の推論結果を生成するデータ生成モデルを用いた特定処理をコンピュータが実行するデータ処理方法であって、
前記マイクで検出された音声データと前記カメラで撮影された画像データとを入力し、
前記イヤフォンを装着したユーザが注目する対象を、前記画像データを解析することにより特定し、前記音声データにおいて前記対象からの音声を強調する処理を前記特定処理として実行し、
前記特定処理の結果を前記スピーカから再生させる、データ処理方法である。
【0009】
本開示の技術に係る第3の態様は、マイク、スピーカ、及びカメラを含み、ユーザの耳に装着される2つのイヤフォンで収集された音声データおよび画像データを入力し、前記音声データおよび前記画像データに応じた所定の推論結果を生成するデータ生成モデルを用いた特定処理をコンピュータに実行させるデータ処理プログラムであって、
前記マイクで検出された音声データと前記カメラで撮影された画像データとを入力する手順と、
前記イヤフォンを装着したユーザが注目する対象を、前記画像データを解析することにより特定し、前記音声データにおいて前記対象からの音声を強調する処理を前記特定処理として実行する手順と、
前記特定処理の結果を前記スピーカから再生させる手順とをコンピュータに実行させる、データ処理プログラムである。
【0010】
音声を強調する処理とは、対象の音声を対象以外の音声と比較して大きくすることを言う。例えば、対象の音声のゲインを対象以外の音声のゲインよりも大きくすること、対象以外の音声のゲインを小さくすること、並びに対象の音声のゲインを対象以外の音声のゲインよりも大きくし、かつ対象以外の音声のゲインを小さくすることを含む。
【図面の簡単な説明】
【0011】
【
図1】
図1はデータ処理システムの構成の一例を示す概念図である。
【
図2】
図2はデータ処理装置及びイヤフォンの要部機能の一例を示す概念図である。
【
図3B】
図3Bはユーザがイヤフォンを装着した状態を示す図である。
【
図3C】
図3Cはカメラの画角について説明するための図である。
【
図3D】
図3Dはユーザがイヤフォンを装着した状態を示す図である。
【
図3E】
図3Eはユーザがイヤフォンを装着した状態を示す図である。
【
図3F】
図3Fはユーザがイヤフォンを装着した状態を示す図である。
【
図4】データ処理装置の特定処理部の機能構成を概略的に示す。
【
図5】第1実施形態によるデータ処理装置による特定処理の動作フローの一例を概略的に示す。
【
図6】第2実施形態によるデータ処理装置による特定処理の動作フローの一例を概略的に示す。
【発明を実施するための形態】
【0012】
以下、添付図面に従って本開示の技術に係るデータ処理装置、データ処理方法、及びプログラムの実施形態の一例について説明する。
【0013】
先ず、以下の説明で使用される文言について説明する。
【0014】
以下の実施形態において、符号付きのプロセッサ(以下、単に「プロセッサ」と称する)は、1つの演算装置であってもよいし、複数の演算装置の組み合わせであってもよい。また、プロセッサは、1種類の演算装置であってもよいし、複数種類の演算装置の組み合わせであってもよい。演算装置の一例としては、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、GPGPU(General-Purpose computing on Graphics Processing Units)、又はAPU(Accelerated Processing Unit)等が挙げられる。
【0015】
以下の実施形態において、符号付きのRAM(Random Access Memory)は、一時的に情報が格納されるメモリであり、プロセッサによってワークメモリとして用いられる。
【0016】
以下の実施形態において、符号付きのストレージは、各種プログラム及び各種パラメータ等を記憶する1つ又は複数の不揮発性の記憶装置である。不揮発性の記憶装置の一例としては、フラッシュメモリ(SSD(Solid State Drive))、磁気ディスク(例えば、ハードディスク)、又は磁気テープ等が挙げられる。
【0017】
以下の実施形態において、符号付きの通信I/F(Interface)は、通信プロセッサ及びアンテナ等を含むインタフェースである。通信I/Fは、複数のコンピュータ間での通信を司る。通信I/Fに対して適用される通信規格の一例としては、5G(5th Generation Mobile Communication System)、Wi-Fi(登録商標)、又はBluetooth(登録商標)等を含む無線通信規格が挙げられる。
【0018】
以下の実施形態において、「A及び/又はB」は、「A及びBのうちの少なくとも1つ」と同義である。つまり、「A及び/又はB」は、Aだけであってもよいし、Bだけであってもよいし、A及びBの組み合わせであってもよい、という意味である。また、本明細書において、3つ以上の事柄を「及び/又は」で結び付けて表現する場合も、「A及び/又はB」と同様の考え方が適用される。
【0019】
<第1の実施形態>
図1には、第1の実施形態に係るデータ処理システム10の構成の一例が示されている。
【0020】
図1に示すように、データ処理システム10は、データ処理装置12及びイヤフォン14を備えている。データ処理装置12の一例としては、サーバが挙げられる。本実施形態において、データ処理装置12は、本開示の技術に係る「データ処理装置」の一例である。
【0021】
データ処理装置12は、コンピュータ22、データベース24、及び通信I/F26を備えている。コンピュータ22は、本開示の技術に係る「コンピュータ」の一例である。コンピュータ22は、プロセッサ28、RAM30、及びストレージ32を備えている。プロセッサ28、RAM30、及びストレージ32は、バス34に接続されている。また、データベース24及び通信I/F26も、バス34に接続されている。通信I/F26は、ネットワーク54に接続されている。ネットワーク54の一例としては、WAN(Wide Area Network)及び/又はLAN(Local Area Network)等が挙げられる。
【0022】
イヤフォン14は、コンピュータ36、マイクロフォン38、スピーカ40、カメラ42、及び通信I/F44を備えている。コンピュータ36は、プロセッサ46、RAM48、及びストレージ50を備えている。プロセッサ46、RAM48、及びストレージ50は、バス52に接続されている。また、マイクロフォン38、スピーカ40、及びカメラ42も、バス52に接続されている。
【0023】
マイクロフォン38は、ユーザ20が発する音声を受け付けることで、ユーザ20から指示等を受け付ける。マイクロフォン38は、ユーザ20が発する音声を捕捉し、捕捉した音声を音声データに変換してプロセッサ46に出力する。スピーカ40は、プロセッサ46からの指示に従って音声を出力する。以下ではマイクロフォン38を単にマイク38と称する場合がある。
【0024】
カメラ42は、レンズ、絞り、及びシャッタ等の光学系と、CMOS(Complementary Metal-Oxide-Semiconductor)イメージセンサ又はCCD(Charge Coupled Device)イメージセンサ等の撮像素子とが搭載された小型デジタルカメラであり、ユーザ20の周囲(例えば、一般的な健常者の視界の広さに相当する画角で規定された撮像範囲)を撮像する。なお、カメラ42を構成するレンズのうち、最も被写体側のレンズは、例えば魚眼レンズといった超広角レンズとしてもよい。
【0025】
通信I/F44は、ネットワーク54に接続されている。通信I/F44及び26は、ネットワーク54を介してプロセッサ46とプロセッサ28との間の各種情報の授受を司る。
【0026】
図2には、データ処理装置12及びイヤフォン14の要部機能の一例が示されている。
【0027】
図2に示すように、データ処理装置12では、プロセッサ28によって特定処理が行われる。ストレージ32には、特定処理プログラム56が格納されている。特定処理プログラム56は、本開示の技術に係る「データ処理プログラム」の一例である。プロセッサ28は、ストレージ32から特定処理プログラム56を読み出し、読み出した特定処理プログラム56をRAM30上で実行する。特定処理は、プロセッサ28がRAM30上で実行する特定処理プログラム56に従って特定処理部290として動作することによって実現される。
【0028】
ストレージ32には、データ生成モデル58が格納されている。データ生成モデル58は、特定処理部290によって用いられる。
【0029】
(イヤフォン14)
イヤフォン14では、プロセッサ46によって受付出力処理が行われる。ストレージ50には、受付出力プログラム60が格納されている。プロセッサ46は、ストレージ50から受付出力プログラム60を読み出し、読み出した受付出力プログラム60をRAM48上で実行する。受付出力処理は、プロセッサ46がRAM48上で実行する受付出力プログラム60に従って、制御部46Aとして動作することによって実現される。
【0030】
イヤフォン14は、
図3Aに示すように、ユーザ20の外耳道に装着されるカナル型のイヤフォンと解釈してよい。なお、イヤフォン14は、カナル型に限定されず、ユーザ20の内耳に挿入して装着されるインナーイヤー型のイヤフォンでもよく、ユーザ20の耳の全体を覆うヘッドフォン型のイヤフォンでもよい。2つのイヤフォン14のそれぞれに、マイクロフォン38、スピーカ40、及びカメラ42が設けられている。ユーザ20の耳に装着される2つのイヤフォン14で収集された音及び画像は、データベース24にライフログとして記録されてよい。
【0031】
ライフログは、ユーザ20が日常生活でとった行動の履歴と解釈してよく、ユーザ20に紐付く音及び画像、具体的には、日常生活の中でマイクロフォン38で収集された音、カメラ42で撮影された画像を含んでよい。ライフログには、ユーザ20に紐付く音及び画像が、それらが取得された日時、場所などに対応付けて記録されてよい。
【0032】
マイクロフォン38で収集された音は、ユーザ20が会話している相手の声、散歩やサイクリングをしているときにユーザ20の周囲で発生する音(車の走行音、鳥のさえずり、川のせせらぎ、風になびく木々の音)などを含んでよい。
【0033】
図3Cに示すように、カメラ42は、ユーザ20の前方を捉える画角内の風景を撮像してよく、ユーザ20の前方以外、例えばユーザ20の側方、後方、下方、上方などを捉える画角内の風景を撮像してもよい。カメラ42で撮影された画像は、ユーザ20が会話している相手の姿、散歩やサイクリングをしているときユーザ20の周囲の風景、ユーザ20の共に歩くペットの姿などを含んでよい。本実施形態のカメラ42を超広角レンズを有するものとした場合、カメラ42はユーザ20の目を撮影することも可能である。
【0034】
2つのイヤフォン14のそれぞれにカメラ42が設けられているため、
図3Bに示すようにユーザ20の耳に装着された2つのイヤフォン14は、左耳と右耳に特定の距離を隔てて配置される。従って、例えばビデオカメラなどのように1つの筐体に2眼カメラを並べて配置する場合に比べて、2つのカメラ42の配置間隔を広くできるため、3Dセンシングがし易くなる。3Dセンシングは、三次元形状を計測することと解釈してよい。
【0035】
また、2つのイヤフォン14がユーザ20の耳に装着されると、ユーザ20の左右の目の位置に近い箇所に、2つのカメラ42が配置されるため、肉眼で見た画像と略等しい撮像(撮影画像)を、データベース24にライフログとして記録できる。従って、特定処理において、ユーザ20からの問い合わせに対応する情報、つまりユーザ20の発話の内容に対応する情報を再現し易くなる。
【0036】
2つのイヤフォン14がユーザ20に装着されている間は、カメラ42で撮像された画像の全部または一部がデータベース24にライフログとして記録されてよい。具体的には、2つのイヤフォン14がユーザ20に装着されたとき、カメラ42で撮像された画像のデータベース24への記録が開始され、2つのイヤフォン14がユーザ20から外されたときに当該画像のデータベース24への記録が終了してよい。
【0037】
2つのイヤフォン14がユーザ20に装着されている間は、マイクロフォン38で収集された音の全部または一部がデータベース24にライフログとして記録されてよい。具体的には、2つのイヤフォン14がユーザ20に装着されたとき、マイクロフォン38で収集された音のデータベース24への記録が開始され、2つのイヤフォン14がユーザ20から外されたときに当該音のデータベース24への記録が終了してよい。
【0038】
次に、第1の実施形態において、データ処理装置12が、イヤフォン14を装着したユーザ20から、ユーザ20の記憶または行動に関する発話を受け付けた場合に、ユーザ20の発話の内容に対応する情報をユーザ20に提案する特定処理を行う際の、特定処理部290の処理について説明する。
【0039】
(特定処理)
第1の実施形態における特定処理では、ユーザデータを入力し、入力したユーザデータに応じた所定の推論結果を生成するデータ生成モデルを用いた特定処理を行う。具体的には、特定処理では、イヤフォン14を装着したユーザ20から、ユーザ20の記憶または行動に関する発話をユーザデータとして受け付けた場合、データベース24を参照することで、発話の内容に対応する情報をユーザ20に提案する処理を実行する。具体的には、データベース24にライフログが記録された後、イヤフォン14を装着したユーザ20が、ユーザ20の記憶または行動に関する発話をした場合、特定処理として、データベース24を参照することで、発話の内容に対応する情報を、ユーザ20に提案する処理を実行してよい。
【0040】
(特定処理の第1例)
特定処理部290は、発話の内容として、イヤフォンを装着したユーザが特定の記憶を思い出すきっかけとなるメッセージを要求した場合、ライフログに基づき選択された1または複数のメッセージを、発話の内容(要求)に対応する情報として、メッセージの要求元のユーザに提案してよい。
【0041】
例えば、イヤフォン14を装着したユーザ20が自身の記憶を思い出そうとして「〇月〇日〇時ごろにAさんに対して発した言葉は?」と発した場合、特定処理部290は、特定処理として、当該メッセージをプロンプトとしてデータ生成モデル58に入力する。特定処理部290は、データベース24のライフログを参照してデータ生成モデル58で得られた出力に基づいて、「素敵なレストランを見つけたので予約しよう、と発していたと思います」というメッセージを生成してよい。当該メッセージは、ユーザ20の発話の内容に対応する情報の一例と解釈してよい。
【0042】
例えば、イヤフォン14を装着したユーザ20が自身の記憶を思い出そうとして「〇月〇日〇時ごろに誰と話していた?」と発した場合、特定処理部290は、特定処理として、当該メッセージをプロンプトとしてデータ生成モデル58に入力する。特定処理部290は、データベース24のライフログを参照してデータ生成モデル58で得られた出力に基づいて、「そのときは2人友人、おそらくBさんとCさんを交えて会話していたようです」というメッセージを生成してよい。当該メッセージは、ユーザ20の発話の内容に対応する情報の一例と解釈してよい。
【0043】
例えば、イヤフォン14を装着したユーザ20が自身の感情を思い出そうとして「〇月〇日〇時ごろにAさんと会話していたときの私の気持ちは?」と発した場合、特定処理部290は、特定処理として、当該メッセージをプロンプトとしてデータ生成モデル58に入力する。特定処理部290は、データベース24のライフログを参照してデータ生成モデル58で得られた出力に基づいて、「そのとき、あなたは沢山笑っていたため友人に好感を持ちとても喜んでいたようです」というメッセージを生成してよい。当該メッセージは、ユーザ20の発話の内容に対応する情報の一例と解釈してよい。
【0044】
(特定処理の第2例)
特定処理部290は、発話の内容として、イヤフォン14を装着したユーザ20が特定の事柄をつぶやいた場合、ライフログに基づき事柄に対して推奨されるユーザ20の行動を、発話の内容(つぶやき)に対応する情報として、メッセージの要求元のユーザ20に提案してよい。
【0045】
例えば、イヤフォン14を装着したユーザ20が特定の小売店で買い物をしているとき、「何を買おうかな?」と発した場合、特定処理部290は、特定処理として、当該メッセージをプロンプトとしてデータ生成モデル58に入力する。特定処理部290は、データベース24のライフログを参照してデータ生成モデル58で得られた出力に基づいて、「数ヶ月前、このお店で商品Aを購入した後、あまり美味しくないとコメントしていましたので、今回は、最近発売された商品B、商品Cなどを購入するのはいかがでしょうか」というメッセージを生成してよい。当該メッセージは、ユーザ20の発話の内容に対応する情報の一例と解釈してよい。
【0046】
(特定処理の第3例)
図3Dに示すように、イヤフォン14を装着したユーザ20がパソコンを操作しているとき「一昨日検索した製品Aの名前はなんだった?」と発した場合、特定処理部290は、特定処理として、当該メッセージをプロンプトとしてデータ生成モデル58に入力する。データ生成モデル58は、データベース24のライフログを参照して、過去のユーザ20が操作しているときのパソコンの画面の映像を解析することで、特定の出力を生成する。特定処理部290は、データ生成モデル58で得られた出力に基づいて、「製品Aは○○○です」というメッセージを生成してよい。当該メッセージは、ユーザ20の発話の内容に対応する情報の一例と解釈してよい。
【0047】
(特定処理の第4例)
図3Eに示すように、イヤフォン14を装着したユーザ20がサイクリングをしているとき「この近くで絶景が見える場所があったけど、どこだろう?」と発した場合、特定処理部290は、特定処理として、当該メッセージをプロンプトとしてデータ生成モデル58に入力する。データ生成モデル58は、データベース24のライフログを参照して、ユーザ20が以前訪れた場所とその場所までの経路などを解析することで、特定の出力を生成する。特定処理部290は、データ生成モデル58で得られた出力に基づいて、「ここから500m進んだところにある○○岬だと思います。」というメッセージを生成してよい。当該メッセージは、ユーザ20の発話の内容に対応する情報の一例と解釈してよい。
【0048】
(特定処理の第5例)
図3Fに示すように、イヤフォン14を装着したユーザ20が訪問先のA社のX氏と出会ったとき「この人の名前を教えて?」と発した場合、特定処理部290は、特定処理として、当該メッセージをプロンプトとしてデータ生成モデル58に入力する。データ生成モデル58は、データベース24のライフログを参照し、ユーザ20がA社を訪れたときに出会った人の履歴などから、特定の出力を生成する。特定処理部290は、データ生成モデル58で得られた出力に基づいて、「氏名は○○だと思います」というメッセージを生成してよい。当該メッセージは、ユーザ20の発話の内容に対応する情報の一例と解釈してよい。
【0049】
特定処理部290は、
図4に示すように、入力部291、処理部292、及び出力部293を備えている。
【0050】
入力部291は、イヤフォン14で受け付けたユーザ入力を取得する。具体的には、イヤフォン14で受け付けたユーザの音声を取得する
【0051】
処理部292は、データ生成モデル58を用いた特定処理を行う。具体的には、データ生成モデル58に、ユーザから入力された音声を入力し、生成結果を得る。より具体的には、イヤフォン14を装着したユーザ20からユーザ20の記憶または行動に関する発話を受け付けた場合、発話の内容に対応する情報をユーザ20に提案する処理を、特定処理として行う。
【0052】
出力部293は、特定処理の結果をイヤフォン14に送信する。イヤフォン14では、制御部46Aが、スピーカ40に対して特定処理の結果を出力させる。マイクロフォン38は、特定処理の結果に対するユーザ入力を示す音声を取得する。制御部46Aは、マイクロフォン38によって取得されたユーザ入力を示す音声データをデータ処理装置12に送信する。データ処理装置12では、特定処理部290が音声データを取得する。
【0053】
データ生成モデル58は、いわゆる生成系AI(Artificial Intelligence)である。データ生成モデル58の一例としては、ChatGPT(登録商標)(インターネット検索<URL: https://openai.com/blog/chatgpt>)、Gemini(登録商標)(インターネット検索<URL: https://gemini.google.com/?hl=ja>)等の生成系AIが挙げられる。データ生成モデル58は、ニューラルネットワークに対して深層学習を行わせることによって得られる。データ生成モデル58には、指示を含むプロンプトが入力され、かつ、音声を示す音声データ、テキストを示すテキストデータ、及び画像を示す画像データ等の推論用データが入力される。データ生成モデル58は、入力された推論用データをプロンプトにより示される指示に従って推論し、推論結果を音声データ及びテキストデータ等のデータ形式で出力する。ここで、推論とは、例えば、分析、分類、予測、及び/又は要約等を指す。
【0054】
次に、第1の実施形態におけるデータ処理システム10の作用について説明する。
【0055】
特定処理の流れの一例について
図5を参照しながら説明する。なお、
図5に示す特定処理の流れは、本開示の技術に係る「データ処理方法」の一例である。
【0056】
ステップS300で、データ処理装置12は、2つのイヤフォン14で収集された音及び画像を含むユーザデータを入力する。
【0057】
ステップS302で、データ処理装置12は、イヤフォン14を装着したユーザからユーザ20の記憶または行動に関する発話を受け付けた場合、ユーザ20のライフログに基づき、発話の内容に対応する情報をユーザ20に提案する処理を、特定処理として実行する。
【0058】
ステップS303で、データ処理装置12は、特定処理の結果をスピーカ40から再生させる処理を実行する。
【0059】
次いで、本開示の第2の実施形態について説明する。第2の実施形態に係るデータ処理システムの構成は、上記第1の実施形態に係るデータ処理システム10と同一であるため、ここでは詳細な説明は省略する。
【0060】
第2の実施形態において、イヤフォン14が有するカメラ42は超広角レンズを有し、ユーザの目を撮影することが可能である。
【0061】
次に、第2の実施形態において、データ処理装置12の特定処理部290が行う特定処理について説明する。
【0062】
第2の実施形態における特定処理では、イヤフォン14で収集された音声データおよび画像データを入力し、入力した音声データおよび画像データに応じた所定の推論結果を生成するデータを生成するデータ生成モデルを用いた特定処理を行う。具体的には、特定処理では、画像データを解析してユーザが注目する対象を特定し、音声データにおいて対象からの音声を強調する処理を特定処理として行う。
【0063】
特定処理部290は、左右のイヤフォン14のカメラ42が取得した2つの画像データからユーザの瞳の領域を抽出し、ユーザの視線を導出する。視線の導出は、3次元視線計測技術を用いればよい。特定処理部290は、ユーザの視線の動き、および瞬きの頻度を導出してもよい。導出されたユーザの視線は、画像データの画素位置で表現されている。
【0064】
ユーザの視線を導出すると、特定処理部290は、ユーザの視線の導出結果と、音声データおよび画像データと、「画像データから、視線の先にある対象を特定し、音声データから、対象が発する音声を強調した音声データを生成して」というプロンプトをデータ生成モデル58に入力する。データ生成モデル58は、画像データにより表される画像において、ユーザの視線方向にある対象を特定する。この場合、データ生成モデル58は、画像に含まれるすべての被写体を抽出し、すべての被写体のうちのユーザの視線方向にある被写体を対象に特定する。
【0065】
特定処理部290はデータ生成モデル58を用いて、音声データを解析し、音声データから対象が発する音声を分離する。対象が発する音声を分離する手法としては、例えば「https://medium.com/axinc/voicefilter-%E4%BB%BB%E6%84%8F%E3%81%AE%E4%BA%BA%E7%89%A9%E3%81%AE%E5%A3%B0%E3%82%92%E6%8A%BD%E5%87%BA%E3%81%A7%E3%81%8D%E3%82%8B%E9%9F%B3%E5%A3%B0%E5%88%86%E9%9B%A2%E3%83%A2%E3%83%87%E3%83%AB-d5b88a8549d9」または「https://crystal-method.com/solutions/sound-source-separation-system/」で提案されている、AIモデルによる手法を用いることができる。前者は、特定の人の声以外の音声をノイズとして扱い、特定の人の音声をAIモデルに与えることにより、複数人がしゃべっている音声から特定の人の声を分離する手法である。後者は、人の声、機械音および楽器音等の特定の音をAIモデルに学習させることにより、様々な音が混ざっている音声から特定の音を分離する手法である。
【0066】
特定処理部290は、データ生成モデル58を用いて、分離した音声を強調することにより、対象の音声を強調する。例えば、分離した音声のゲインを大きくする、分離した音声以外の音声のゲインを小さくする、あるいは分離した音声のゲインを大きくし、かつ分離した音声以外の音声のゲインを小さくすることにより、分離した音声を強調した音声データを生成する。なお、分離した音声以外の音声のゲインを小さくすることは、実質的にノイズを低減する処理を行うこととなる。また、特定処理部290は、強調した音声の音質を聞きやすくなるように最適化してもよい。
【0067】
特定処理部290は、音声を強調するに際し、ユーザの状況に応じてパラメータを調整してもよい。例えば、「ユーザの視線の動きあるいは瞬きの回数に応じて、ユーザが集中しているか、気が散っているか等を判定し、ユーザの気が散っているような場合には、ゲインをより大きくして音声を強調して」というプロンプトを追加で、データ生成モデル58に入力するようにしてもよい。
【0068】
特定処理部290は、分離した音声を強調した音声データをイヤフォン14に出力する。ユーザはイヤフォン14から強調した音声を聞くことができる。
【0069】
次に、第2の実施形態におけるデータ処理システム10の作用について説明する。
【0070】
特定処理の流れの一例について
図6を参照しながら説明する。なお、
図6に示す特定処理の流れは、本開示の技術に係る「データ処理方法」の一例である。
【0071】
ステップS400で、データ処理装置12は、2つのイヤフォン14で収集された音及び画像を含むユーザデータを入力する。
【0072】
ステップS402で、データ処理装置12は、入力された画像を解析してユーザが注目する対象を特定する。
【0073】
ステップS404で、データ処理装置12は、特定された対象が発生する音声を強調する。
【0074】
ステップS406で、データ処理装置12は、強調された音声をスピーカ40から再生させる処理を実行する。
【0075】
第2の実施形態においては、ユーザの視線パターン、音声履歴およびユーザの好み等を含むデータベースを生成してデータ処理装置12に保存しておくようにしてもよい。このようなデータベースを参照してユーザの好みに合わせて音声を最適化することを指示するプロンプトを追加でデータ生成モデル58に入力することにより、ユーザの個別のニーズに応じた音声をユーザに提供できる。
【0076】
特定処理部290は、必要に応じて、視線追跡、音声強調の状態を、音声ガイダンスによりイヤフォン14に出力してもよい。あるいは、ユーザが有するイヤフォン14以外のモバイル端末にアプリによって通知してもよい。これにより、ユーザは現在の設定や状態を把握できる。
【0077】
また、特定処理部290は、ユーザの環境情報および動作情報を取得し、環境情報および動作情報に基づいて、特定処理のパラメータ(例えば、分離した音声のゲインを大きくする度合いに関するパラメータ、分離した音声以外の音声のゲインを小さく度合いに関するパラメータ)をリアルタイムで調整することを指示するプロンプトを追加でデータ生成モデル58に入力するようにしてもよい。これにより、音声を強調する処理の精度およびパフォーマンスを継続的に向上させることができる。
【0078】
また、データ生成モデル58は、ユーザの過去の視線パターンおよび音声履歴を学習し、ユーザの好みに合わせて音声の強調を最適化するようにしてもよい。
【0079】
第2の実施形態においては、カメラ42が超広角レンズを有するものとしているが、これに限定されるものではない。カメラ42が取得したユーザの正面の画像において、中心に位置する被写体を対象として抽出するようにしてもよい。
【0080】
以上、本開示に係るシステムをデータ処理装置12の機能を主として説明したが、本開示に係るシステムはサーバに実装されているとは限らない。本開示に係るシステムは、一般的な情報処理システムとして実装されていてもよい。本開示は、例えば、パーソナルコンピュータで動作するソフトウェアプログラム、スマートフォン等で動作するアプリケーションとして実装されてもよい。本開示に係る方法はSaaS(Software as a Service)形式でユーザに対して提供されてもよい。
【0081】
上記実施形態では、1台のコンピュータ22によって特定処理が行われる形態例を挙げたが、本開示の技術はこれに限定されず、コンピュータ22を含めた複数のコンピュータによる特定処理に対する分散処理が行われるようにしてもよい。
【0082】
上記実施形態では、ストレージ32に特定処理プログラム56が格納されている形態例を挙げて説明したが、本開示の技術はこれに限定されない。例えば、特定処理プログラム56がUSB(Universal Serial Bus)メモリなどの可搬型のコンピュータ読み取り可能な非一時的格納媒体に格納されていてもよい。非一時的格納媒体に格納されている特定処理プログラム56は、データ処理装置12のコンピュータ22にインストールされる。プロセッサ28は、特定処理プログラム56に従って特定処理を実行する。
【0083】
また、ネットワーク54を介してデータ処理装置12に接続されるサーバ等の格納装置に特定処理プログラム56を格納させておき、データ処理装置12の要求に応じて特定処理プログラム56がダウンロードされ、コンピュータ22にインストールされるようにしてもよい。
【0084】
なお、ネットワーク54を介してデータ処理装置12に接続されるサーバ等の格納装置に特定処理プログラム56の全てを格納させておいたり、ストレージ32に特定処理プログラム56の全てを記憶させたりしておく必要はなく、特定処理プログラム56の一部を格納させておいてもよい。
【0085】
特定処理を実行するハードウェア資源としては、次に示す各種のプロセッサを用いることができる。プロセッサとしては、例えば、ソフトウェア、すなわち、プログラムを実行することで、特定処理を実行するハードウェア資源として機能する汎用的なプロセッサであるCPUが挙げられる。また、プロセッサとしては、例えば、FPGA(Field-Programmable Gate Array)、PLD(Programmable Logic Device)、又はASIC(Application Specific Integrated Circuit)などの特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路が挙げられる。何れのプロセッサにもメモリが内蔵又は接続されており、何れのプロセッサもメモリを使用することで特定処理を実行する。
【0086】
特定処理を実行するハードウェア資源は、これらの各種のプロセッサのうちの1つで構成されてもよいし、同種又は異種の2つ以上のプロセッサの組み合わせ(例えば、複数のFPGAの組み合わせ、又はCPUとFPGAとの組み合わせ)で構成されてもよい。また、特定処理を実行するハードウェア資源は1つのプロセッサであってもよい。
【0087】
1つのプロセッサで構成する例としては、第1に、1つ以上のCPUとソフトウェアの組み合わせで1つのプロセッサを構成し、このプロセッサが、特定処理を実行するハードウェア資源として機能する形態がある。第2に、SoC(System-on-a-chip)などに代表されるように、特定処理を実行する複数のハードウェア資源を含むシステム全体の機能を1つのICチップで実現するプロセッサを使用する形態がある。このように、特定処理は、ハードウェア資源として、上記各種のプロセッサの1つ以上を用いて実現される。
【0088】
更に、これらの各種のプロセッサのハードウェア的な構造としては、より具体的には、半導体素子などの回路素子を組み合わせた電気回路を用いることができる。また、上記の特定処理はあくまでも一例である。従って、主旨を逸脱しない範囲内において不要なステップを削除したり、新たなステップを追加したり、処理順序を入れ替えたりしてもよいことは言うまでもない。
【0089】
以上に示した記載内容及び図示内容は、本開示の技術に係る部分についての詳細な説明であり、本開示の技術の一例に過ぎない。例えば、上記の構成、機能、作用、及び効果に関する説明は、本開示の技術に係る部分の構成、機能、作用、及び効果の一例に関する説明である。よって、本開示の技術の主旨を逸脱しない範囲内において、以上に示した記載内容及び図示内容に対して、不要な部分を削除したり、新たな要素を追加したり、置き換えたりしてもよいことは言うまでもない。また、錯綜を回避し、本開示の技術に係る部分の理解を容易にするために、以上に示した記載内容及び図示内容では、本開示の技術の実施を可能にする上で特に説明を要しない技術常識等に関する説明は省略されている。
【0090】
本明細書に記載された全ての文献、特許出願及び技術規格は、個々の文献、特許出願及び技術規格が参照により取り込まれることが具体的かつ個々に記された場合と同程度に、本明細書中に参照により取り込まれる。
【0091】
なお、以上の説明に関して更に以下の付記を開示する。
(付記項1)
マイク、スピーカ、及びカメラを含み、ユーザの耳に装着される2つのイヤフォンで収集された音声データおよび画像データを入力する入力部と、
前記音声データおよび前記画像データに応じた所定の推論結果を生成するデータ生成モデルを用いた特定処理を行う処理部と、
前記特定処理の結果を前記スピーカから再生させる出力部と、
を備え、
前記処理部は、前記イヤフォンを装着したユーザが注目する対象を、前記画像データを解析することにより特定し、前記音声データにおいて前記対象からの音声を強調する処理を前記特定処理として実行する、データ処理装置。
(付記項2)
前記処理部は、ユーザの環境情報および動作情報を取得し、前記データ生成モデルを用いて、前記環境情報および前記動作情報に基づいて前記特定処理のパラメータをリアルタイムで調整する、付記項1に記載のデータ処理装置。
(付記項3)
前記処理部は、前記データ生成モデルを用いて、ユーザの過去の視線パターンおよび音声履歴に基づいて、ユーザの好みに合わせて音声を最適化する、付記項1または2に記載のデータ処理装置。
(付記項4)
マイク、スピーカ、及びカメラを含み、ユーザの耳に装着される2つのイヤフォンで収集された音声データおよび画像データを入力し、前記音声データおよび前記画像データに応じた所定の推論結果を生成するデータ生成モデルを用いた特定処理をコンピュータが実行するデータ処理方法であって、
前記マイクで検出された音声データと前記カメラで撮影された画像データとを入力し、
前記イヤフォンを装着したユーザが注目する対象を、前記画像データを解析することにより特定し、前記音声データにおいて前記対象からの音声を強調する処理を前記特定処理として実行し、
前記特定処理の結果を前記スピーカから再生させる、
データ処理方法。
(付記項5)
マイク、スピーカ、及びカメラを含み、ユーザの耳に装着される2つのイヤフォンで収集された音声データおよび画像データを入力し、前記音声データおよび前記画像データに応じた所定の推論結果を生成するデータ生成モデルを用いた特定処理をコンピュータに実行させるデータ処理プログラムであって、
前記マイクで検出された音声データと前記カメラで撮影された画像データとを入力する手順と、
前記イヤフォンを装着したユーザが注目する対象を、前記画像データを解析することにより特定し、前記音声データにおいて前記対象からの音声を強調する処理を前記特定処理として実行する手順と、
前記特定処理の結果を前記スピーカから再生させる手順とをコンピュータに実行させるデータ処理プログラム。
【符号の説明】
【0092】
10 データ処理システム
12 データ処理装置
14 イヤフォン
42 カメラ
290 特定処理部
291 入力部
292 処理部
293 出力部