(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-03-12
(45)【発行日】2024-03-21
(54)【発明の名称】オーディオ再生方法、装置、コンピュータ可読記憶媒体及び電子機器
(51)【国際特許分類】
G10L 19/00 20130101AFI20240313BHJP
G10L 15/00 20130101ALI20240313BHJP
G10L 17/26 20130101ALI20240313BHJP
G06T 7/00 20170101ALI20240313BHJP
G06T 7/20 20170101ALI20240313BHJP
G06F 3/16 20060101ALI20240313BHJP
G06F 3/0484 20220101ALI20240313BHJP
G06F 3/01 20060101ALI20240313BHJP
【FI】
G10L19/00 312Z
G10L15/00 200G
G10L17/26
G06T7/00 P
G06T7/00 350B
G06T7/20 300B
G06F3/16 650
G06F3/0484
G06F3/01 510
(21)【出願番号】P 2022573581
(86)(22)【出願日】2022-02-14
(86)【国際出願番号】 CN2022076239
(87)【国際公開番号】W WO2022218027
(87)【国際公開日】2022-10-20
【審査請求日】2022-11-29
(31)【優先権主張番号】202110410353.9
(32)【優先日】2021-04-16
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】522375752
【氏名又は名称】深▲せん▼地平▲線▼机器人科技有限公司
(74)【代理人】
【識別番号】100105924
【氏名又は名称】森下 賢樹
(72)【発明者】
【氏名】チュー、チャンバオ
(72)【発明者】
【氏名】ニウ、ジェンウェイ
(72)【発明者】
【氏名】ユー、カイ
【審査官】佐久 聖子
(56)【参考文献】
【文献】特開2019-132980(JP,A)
【文献】特開2004-163590(JP,A)
【文献】特開2008-216402(JP,A)
【文献】特開2016-188978(JP,A)
【文献】特開2003-132085(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 19/00-99/00
G10L 15/00-17/26
G10K 15/00-15/02
G06T 7/00
G06T 7/20
G06F 3/16
(57)【特許請求の範囲】
【請求項1】
電子機器に適用され、前記電子機器によって実現されるオーディオ再生方法であって、
目標空間内の少なくとも1人のユーザについて収集された意図判定データを取得するステップと、
前記意図判定データに基づいて、前記少なくとも1人のユーザが持つ目標発声意図を決定するステップと、
前記目標発声意図に基づいて、前記少なくとも1人のユーザの現在特徴を特徴付ける特徴情報を決定するステップと、
プリセットのオーディオライブラリから前記特徴情報に対応するオーディオを抽出して再生するステップと、を含
み、
前記特徴情報に対応するオーディオを抽出して再生する前記ステップの後、さらに、
現在の混合サウンド信号からユーザオーディオ情報を抽出するステップと、
前記ユーザオーディオ情報がプリセットの条件に合致する場合、前記ユーザオーディオ情報を再生するステップと、を含み、
前記ユーザオーディオ情報に基づいて、前記ユーザオーディオ情報を再生する前記ステップは、
前記ユーザオーディオ情報に対してメロディー認識を行って、ユーザメロディー情報を取得し、前記ユーザメロディー情報と現在再生中のオーディオのメロディー情報とをマッチングさせ、得られた第1マッチング結果が前記プリセットの条件に合致する場合、前記ユーザオーディオ情報を再生するステップ、及び/又は、
前記ユーザオーディオ情報に対して音声認識を行って、音声認識結果を取得し、前記音声認識結果と現在再生中のオーディオに対応するテキスト情報とをマッチングさせ、得られた第2マッチング結果が前記プリセットの条件に合致する場合、前記ユーザオーディオ情報を再生するステップ、を含む、オーディオ再生方法。
【請求項2】
前記ユーザオーディオ情報を再生する前記ステップの後、さらに、
前記少なくとも1人のユーザから前記ユーザオーディオ情報に対応する目標ユーザを決定して、前記目標ユーザの顔画像を取得するステップと、
前記ユーザオーディオ情報に対応する目標ユーザの顔画像を予め訓練しておいた第1感情認識モデルに入力し、前記目標ユーザに対応する感情タイプ情報を得るステップと、
前記感情タイプ情報に基づいて、前記ユーザオーディオ情報に対応する目標ユーザの感情と現在再生中のオーディオのタイプとのマッチング度を特徴付ける第1スコアを決定するステップ、及び/又は、
前記ユーザオーディオ情報に基づいて、前記ユーザオーディオ情報と前記現在再生中のオーディオとのマッチング度を特徴付ける第2スコアを決定するステップと、
前記第1スコア及び/又は前記第2スコアに基づいて、前記ユーザオーディオ情報のスコアを決定して出力するステップと、を含む、請求項
1に記載の方法。
【請求項3】
前記ユーザオーディオ情報を再生する前記ステップの後、さらに、
前記少なくとも1人のユーザから前記ユーザオーディオ情報に対応する目標ユーザを決定して、前記目標ユーザの顔画像を取得するステップと、
前記ユーザオーディオ情報に対応する目標ユーザの顔画像及び前記ユーザオーディオ情報を予め訓練しておいた第2感情認識モデルに入力し、感情タイプ情報を得るステップと、
前記感情タイプ情報に基づいて、前記ユーザオーディオ情報に対応する目標ユーザの感情と現在再生中のオーディオのタイプとのマッチング度を特徴付けるスコアを決定して出力するステップと、を含む、請求項
1に記載の方法。
【請求項4】
前記ユーザオーディオ情報に対応する目標ユーザの顔画像及び前記ユーザオーディオ情報を予め訓練しておいた第2感情認識モデルに入力して、感情タイプ情報を得る前記ステップは、
前記ユーザオーディオ情報に対応する目標ユーザの顔画像及び前記ユーザオーディオ情報を前記第2感情認識モデルに入力して、第3感情タイプ情報シーケンスを得るステップを含み、ここで、前記第3感情タイプ情報シーケンスにおける感情タイプ情報はそれぞれ1つの顔画像サブシーケンスに対応し、
前記感情タイプ情報に基づいて、前記ユーザオーディオ情報に対応する目標ユーザの感情と現在再生中のオーディオのタイプとのマッチング度を特徴付けるスコアを決定する前記ステップは、
前記現在再生中のオーディオに対応するビデオを取得して、前記ビデオから目標人物の顔画像シーケンスを抽出するステップと、
前記顔画像シーケンス及び前記現在再生中のオーディオを前記第2感情認識モデルに入力して、第4感情タイプ情報シーケンスを得るステップと、
前記第3感情タイプ情報シーケンスと前記第4感情タイプ情報シーケンスとの類似度を決定するステップと、
前記類似度に基づいて、前記ユーザオーディオ情報に対応するユーザの感情と現在再生中のオーディオのタイプとのマッチング度を特徴付けるスコアを決定するステップと、を含む、請求項
3に記載の方法。
【請求項5】
現在の混合サウンド信号からユーザオーディオ情報を抽出する前記ステップは、
前記目標空間に設置されたオーディオ収集装置によって収集される、前記混合サウンド信号を含む初期オーディオ情報を取得するステップと、
前記初期オーディオ情報に対して人声分離を行って、それぞれ1つのユーザに対応する少なくとも1チャンネルのユーザオーディオ情報を得るステップと、を含む、請求項
1に記載の方法。
【請求項6】
前記意図判定データに基づいて、前記少なくとも1人のユーザが持つ目標発声意図を決定する前記ステップは、
前記意図判定データに前記少なくとも1人のユーザの顔画像が含まれると決定したことに応答し、前記顔画像を予め訓練しておいた第3感情認識モデルに入力して、感情タイプ情報を取得し、前記感情タイプ情報がプリセットの感情タイプ情報である場合、前記少なくとも1人のユーザが目標発声意図を持つと決定するステップ、又は、
前記意図判定データに前記少なくとも1人のユーザのサウンド情報が含まれると決定したことに応答し、前記サウンド情報に対して音声認識を行って、音声認識結果を取得し、前記音声認識結果が前記少なくとも1人のユーザがオーディオの再生を指示することを特徴付ける場合、前記少なくとも1人のユーザが目標発声意図を持つと決定するステップ、又は、
前記意図判定データに前記少なくとも1人のユーザのサウンド情報が含まれると決定したことに応答し、前記サウンド情報に対してメロディー認識を行って、メロディー認識結果を取得し、前記メロディー認識結果が前記少なくとも1人のユーザが目標形態の発声を行っていることを特徴付ける場合、前記少なくとも1人のユーザが目標発声意図を持つと決定するステップを含む、請求項1に記載の方法。
【請求項7】
前記少なくとも1人のユーザの現在特徴を特徴付ける特徴情報を決定する前記ステップは、
前記少なくとも1人のユーザについてのオーディオ再生記録履歴を取得し、前記オーディオ再生記録履歴に基づいて、前記少なくとも1人のユーザの聴取習慣情報を決定し、前記聴取習慣情報に基づいて、前記特徴情報を決定するステップ、及び/又は、
前記少なくとも1人のユーザの顔画像を取得し、前記顔画像を予め訓練しておいた第4感情認識モデルに入力して、前記少なくとも1人のユーザの現在の感情を特徴付ける感情タイプ情報を取得し、前記感情タイプ情報に基づいて、前記特徴情報を決定するステップ、及び/又は、
前記少なくとも1人のユーザが位置する環境の環境画像を取得し、前記環境画像を予め訓練しておいた環境認識モデルに入力して、環境タイプ情報を取得し、前記環境タイプ情報に基づいて、前記特徴情報を決定するステップ、及び/又は、
前記目標空間を撮影して空間内画像を取得し、前記空間内画像に基づいて、前記目標空間内の人数を決定し、前記人数に基づいて、前記特徴情報を決定するステップを含む、請求項1に記載の方法。
【請求項8】
目標空間内の少なくとも1人のユーザについて収集された意図判定データを取得するための取得モジュールと、
前記意図判定データに基づいて、前記少なくとも1人のユーザが持つ目標発声意図を決定するための第1決定モジュールと、
前記少なくとも1人のユーザの現在特徴を特徴付ける特徴情報を決定するための第2決定モジュールと、
プリセットのオーディオライブラリから前記特徴情報に対応するオーディオを抽出して再生するための第1再生モジュールと、
現在の混合サウンド信号からユーザオーディオ情報を抽出するための抽出モジュールと、
前記ユーザオーディオ情報がプリセットの条件に合致する場合、前記ユーザオーディオ情報を再生するための第2再生モジュールと、を含み、
前記第2再生モジュールは、前記ユーザオーディオ情報に対してメロディー認識を行って、ユーザメロディー情報を取得し、前記ユーザメロディー情報と現在再生中のオーディオのメロディー情報とをマッチングさせ、得られた第1マッチング結果が前記プリセットの条件に合致する場合、前記ユーザオーディオ情報を再生するための第1メロディー認識ユニット、及び/又は、前記ユーザオーディオ情報に対して音声認識を行って、音声認識結果を取得し、前記音声認識結果と現在再生中のオーディオに対応するテキスト情報とをマッチングさせ、得られた第2マッチング結果が前記プリセットの条件に合致する場合、前記ユーザオーディオ情報を再生するための第1音声認識ユニット、を含む、オーディオ再生装置。
【請求項9】
上記の請求項1~
7のいずれか1項に記載の方法を実行するためのコンピュータプログラムが記憶されている、コンピュータ可読記憶媒体。
【請求項10】
プロセッサと、
前記プロセッサが実行可能な命令を記憶するためのメモリーと、を含み、
前記プロセッサは、前記メモリーから前記実行可能な命令を読み取り、前記命令を実行して上記の請求項1~
7のいずれか1項に記載の方法を実現するために用いられる、電子機器。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、コンピュータ技術の分野に関し、特に、オーディオ再生方法、装置、コンピュータ可読記憶媒体及び電子機器に関する。
【背景技術】
【0002】
近年、スマート電子機器の普及に伴い、マンマシンインタラクションの手段は豊富になってきた。人と機器は音声認識、ジェスチャ認識等の方式によってインタラクションすることができる。例えば、スマート自動車分野では、ユーザは手動操作や音声制御等の方式により、音楽再生のオン、エアコンのオン又はオフ、ナビゲーションの設定、ナビゲーションの変更などのように、車載電子機器を制御することができる。ユーザがオーディオ再生装置を制御する時、今は、主に手動制御や音声認識等の方式を用いてオーディオ再生装置を能動的に制御して、音楽を再生したり、ラジオ等をオンにしたりする。
【発明の概要】
【発明が解決しようとする課題】
【0003】
本開示の実施例は、オーディオ再生方法、装置、コンピュータ可読記憶媒体及び電子機器を提供する。
【課題を解決するための手段】
【0004】
本開示の実施例は、オーディオ再生方法を提供し、当該方法は、目標空間内の少なくとも1人のユーザについて収集された意図判定データを取得するステップと、意図判定データに基づいて、前記少なくとも1人のユーザが持つ目標発声意図を決定するステップと、前記目標発声意図に基づいて、前記少なくとも1人のユーザの現在特徴を特徴付ける特徴情報を決定するステップと、プリセットのオーディオライブラリから特徴情報に対応するオーディオを抽出して再生するステップと、を含む。
【0005】
本開示の実施例の別の態様によれば、オーディオ再生装置を提供し、当該装置は、目標空間内の少なくとも1人のユーザについて収集された意図判定データを取得するための取得モジュールと、前記意図判定データに基づいて、前記少なくとも1人のユーザが持つ目標発声意図を決定するための第1決定モジュールと、前記目標発声意図に基づいて、前記少なくとも1人のユーザの現在特徴を特徴付ける特徴情報を決定する第2決定モジュールと、プリセットのオーディオライブラリから特徴情報に対応するオーディオを抽出して再生するための第1再生モジュールと、を含む。
【0006】
また、本開示の実施例の別の態様によれば、コンピュータ可読記憶媒体を提供し、コンピュータ可読記憶媒体には、上記オーディオ再生方法を実行するためのコンピュータプログラムが記憶されている。
【0007】
本開示の実施例の別の態様によれば、電子機器を提供し、電子機器は、プロセッサと、プロセッサの実行可能な命令を記憶するためのメモリーと、を含み、プロセッサは、メモリーから実行可能な命令を読み取って実行して、上記オーディオ再生方法を実現するために用いられる。
【0008】
本開示の上記実施例にて提供されるオーディオ再生方法、装置、コンピュータ可読記憶媒体及び電子機器によれば、目標空間内の少なくとも1人のユーザについての意図判定データを収集し、意図判定データに基づいて、少なくとも1人のユーザが持つ目標発声意図を決定してから、目標発声意図に基づいて特徴情報を決定し、最後に、プリセットのオーディオライブラリから特徴情報に対応するオーディオを抽出して再生し、それにより、電子機器がユーザの目標発声意図を自動判断し、ユーザが発声意図を持つと判定した場合、電子機器がオーディオを自動再生し、ユーザが、オーディオを再生する操作を能動的にトリガーする必要がなく、オーディオを再生するユーザの操作ステップを減らし、オーディオ再生操作の利便性を向上させた。また、ユーザの現在特徴を決定することにより、再生されるオーディオをユーザの特徴に適応させ、それにより、より正確にユーザが聴取したいオーディオを再生することが実現され、オーディオの自動再生の指向性を向上させた。
【0009】
以下、添付図面及び実施例により、本開示の技術的解決手段についてさらに詳細に説明する。
添付図面を参照しながら、本開示の実施例についてより詳細に説明することにより、本開示の上記及び他の目的、特徴と利点はより明らかになる。添付図面は、本開示の実施例のさらなる理解を提供するためのものであり、かつ、本明細書の一部を構成し、本開示の実施例とともに本開示を説明するためのものであり、本開示を限定するものではない。添付図面において、同一の参照番号は、同一の部材又はステップを表すことが一般的である。
【図面の簡単な説明】
【0010】
【
図2】本開示の例示的な一実施例にて提供されるオーディオ再生方法の概略フローチャートである。
【
図3】本開示の別の例示的な実施例にて提供されるオーディオ再生方法の概略フローチャートである。
【
図4】本開示の別の例示的な実施例にて提供されるオーディオ再生方法の概略フローチャートである。
【
図5】本開示の別の例示的な実施例にて提供されるオーディオ再生方法の概略フローチャートである。
【
図6】本開示の別の例示的な実施例にて提供されるオーディオ再生方法の概略フローチャートである。
【
図7】本開示の別の例示的な実施例にて提供されるオーディオ再生方法の概略フローチャートである。
【
図8】本開示の別の例示的な実施例にて提供されるオーディオ再生方法の概略フローチャートである。
【
図9】本開示の例示的な一実施例にて提供されるオーディオ再生装置の概略構造図である。
【
図10】本開示の別の例示的な実施例にて提供されるオーディオ再生装置の概略構造図である。
【
図11】本開示の例示的な一実施例にて提供される電子機器の構成図である。
【発明を実施するための形態】
【0011】
以下、添付図面を参照しながら、本開示による例示的な実施例について詳細に説明する。説明される実施例は本開示の全ての実施例ではなく、本開示の一部の実施例にすぎないことは明らかであり、本開示は、本明細書に説明される例示的な実施例に限定されないことを理解すべきである。
【0012】
なお、これらの実施例に記載されている部材及びステップの相対的な配置、数式及び値は、特に明記しない限り、本開示の範囲を限定するものではない。
【0013】
当業者であれば、本開示の実施例における「第1」、「第2」等の用語は異なるステップ、装置又はモジュール等を区別するために用いられるだけで、いかなる特定の技術的意味を表すこともないし、それらの間の必然的な論理的順序を表すこともないことを理解できる。
【0014】
本開示の実施例において、「複数」は2つ又は2つ以上を指すことができ、「少なくとも1つ」は1つ、2つ又は2つ以上を指すことができることも理解すべきである。
【0015】
本開示の実施例に言及されたいずれか1つの部材、データ又は構造は、明確に限定されていない場合又は文脈上で逆の意味の示唆がない場合、一般的に、1つ又は複数であると理解できることも理解すべきである。
【0016】
また、本開示における「及び/又は」という用語は、関連する対象の関連関係だけのもので、3種類の関係が存在することを示し、例えば、A及び/又はBは、Aが単独で存在する場合、AとBが同時に存在する場合、Bが単独で存在する場合という3つの状況を表すことができる。また、本開示における符号「/」は、一般的に、前後の関連する対象が「又は」という関係であることを示す。
【0017】
本開示の各実施例に対する説明は各実施例間の相違点を強調し、その同じ点又は類似点は互に参照でき、簡潔にするために、一々説明しないことも理解すべきである。
【0018】
また、説明の便宜上、添付図面に示された各部分の寸法は実際の比例関係に基づいて描かれたものではないことを理解されたい。
【0019】
少なくとも1つの例示的な実施例についての以下の説明は、実際には例示にすぎず、決して本開示及びその適用又は使用を限定するものではない。
【0020】
関連分野の一般技術者に知られている技術、方法及び装置については、詳細に議論しないが、適切な場合、前記技術、方法及び装置は本明細書の一部と見なされるべきである。
【0021】
なお、以下の添付図面では、類似する番号及び文字は類似の項目を示しており、したがって、ある項目が1つの添付図面で定義されると、その後の添付図面でさらに説明する必要がない。
【0022】
本開示の実施例は端末機器、コンピュータシステム、サーバ等の電子機器に適用でき、それらは多くの他の汎用又は専用のコンピューティングシステム環境又は配置と共に操作することができる。端末機器、コンピュータシステム、サーバ等の電子機器とともに使用することに適する周知の端末機器、コンピューティングシステム、環境及び/又は配置の例は、パーソナルコンピュータシステム、サーバコンピュータシステム、シンクライアント、シッククライアント、ハンドヘルド又はラップトップデバイス、マイクロプロセッサベースに基づくシステム、セットトップボックス、プログラム可能な家電製品、ネットワークパーソナルコンピュータ、小型コンピュータシステム、大型コンピュータシステム、及び上記のいずれかのシステムを含む分散型クラウドコンピューティング技術環境等を含むが、これらに限定されない。
【0023】
端末機器、コンピュータシステム、サーバ等の電子機器は、コンピュータシステムによって実行されるコンピュータシステム実行可能命令(プログラムモジュール等)の一般的なコンテクストで説明することができる。一般に、プログラムモジュールには、特定のタスクを実行するか又は特定の抽象データタイプを実現するルーチン、プログラム、オブジェクトプログラム、コンポーネント、論理、データ構造等が含まれ得る。コンピュータシステム/サーバは、分散型クラウドコンピューティング環境で実施でき、分散型クラウドコンピューティング環境において、タスクは、通信ネットワークを介してリンクされたリモート処理機器によって実行される。分散型クラウドコンピューティング環境において、プログラムモジュールは記憶装置を含むローカル又はリモートコンピューティングシステムの記憶媒体に位置することができる。
【0024】
出願の概要
現在のオーディオ再生システムでは、一般に、ユーザが、再生するオーディオを手動で選択するか、又は音声認識やジェスチャ認識等の方式によりオーディオの再生をトリガーする必要がある。これらの方式では、一般に、ユーザが能動的にオーディオ再生システムとインタラクションする必要があり、自動的にユーザの発声意図を判定してオーディオを再生することができず、利便性が足りなく、かつ、ユーザの特徴に基づいて対応するオーディオを自動再生することができず、オーディオ再生の指向性も足りない。
【0025】
例示的なシステム
図1は、本開示の実施例のオーディオ再生方法又はオーディオ再生装置を適用できる例示的なシステムアーキテクチャ100を示す。
【0026】
図1に示すように、システムアーキテクチャ100は、端末機器101と、ネットワーク102と、サーバ103と、情報収集装置104と、を含み得る。ネットワーク102は、端末機器101とサーバ103との間に通信リンクを提供するための媒体である。ネットワーク102には、有線、無線通信リンク又は光ファイバケーブル等の様々な接続タイプが含まれ得る。
【0027】
ユーザは、メッセージ等の受信又は送信のために、端末機器101を用いてネットワーク102を介してサーバ103とインタラクションすることができる。端末機器101には、例えばオーディオプレイヤー、ビデオプレイヤー、ウェブブラウザアプリケーション、インスタント通信ツール等の様々な通信クライアントアプリケーションがインストールされていてもよい。
【0028】
端末機器101は、オーディオ再生が可能な様々な電子機器であり得、例えば、車載端末、携帯電話、ノートパソコン、デジタル放送受信機、PDA(パーソナルデジタルアシスタント)、PAD(タブレット型コンピュータ)、PMP(携帯型マルチメディアプレイヤー)等のモバイル端末、及び、デジタルTV、デスクトップコンピュータ、スマート家電等の固定端末等を含むが、これらに限定されない。
【0029】
情報収集装置104は、ユーザ関連情報(意図判定データを含む)を収集するための様々な装置であり得、カメラ、マイク等のうちの少なくとも1つを含むが、これらに限定されない。
【0030】
通常、端末機器101は、範囲が限定された空間105内に設けられ、情報収集装置104は空間105に関連付けられる。例えば、情報収集装置104は、空間105内に設けられてもよく、ユーザの画像、サウンド等の様々な情報を収集するために用いられ、空間105の外に設けられてもよく、空間105の周辺の画像やサウンド等の様々な情報を収集するために用いられる。空間105は、例えば、車両内部、部屋内部等、範囲が限定された様々な空間であり得る。
【0031】
サーバ103は、端末機器101で再生されるオーディオをサポートするバックグラウンドオーディオサーバなど、様々なサービスを提供するサーバであり得る。バックグラウンドオーディオサーバは受信した意図判定データを処理して、ユーザの目標発声意図、ユーザの特徴情報、再生対象のオーディオ等の情報を得ることができる。
【0032】
なお、本開示の実施例にて提供されるオーディオ再生方法は、サーバ103によって実行されてもよいし、端末機器101によって実行されてもよく、対応して、オーディオ再生装置は、サーバ103に設けられてもよいし、端末機器101に設けられてもよい。本開示の実施例にて提供されるオーディオ再生方法を端末機器101及びサーバ103が一緒に実行してもよく、例えば、意図判定データを取得するステップ及び目標発声意図を決定するステップは、端末機器101によって実行され、特徴情報を判定するステップ及びオーディオを抽出するステップは、サーバ103によって実行され、対応して、オーディオ再生装置が備える各モジュールは、それぞれ端末機器101及びサーバ103に設けられてもよい。
【0033】
なお、
図1における端末機器、ネットワーク及びサーバの数は例示的なものにすぎない。実現のニーズに応じて、任意の数の端末機器、ネットワーク、サーバ及び情報収集装置を有することができる。例えば、プリセットのオーディオライブラリがローカルに設けられた場合、上記のシステムアーキテクチャはネットワーク及びサーバを含まず、端末機器及び情報収集装置のみを含んでもよい。
【0034】
例示的な方法
図2は、本開示の例示的な実施例にて提供されるオーディオ再生方法の概略フローチャートである。本実施例は、電子機器(
図1に示す端末機器101又はサーバ103)に適用でき、
図2に示すように、当該方法はステップ201~204を含む。
【0035】
ステップ201において、目標空間内の少なくとも1人のユーザについて収集された意図判定データを取得する。
【0036】
本実施例において、電子機器は、目標空間内の少なくとも1人のユーザについて収集された意図判定データを取得することができる。ここで、目標空間(例えば、
図1における空間105)は、車両内部、部屋内部等の様々な空間であり得る。意図判定データは、ユーザの意図を判定するための様々なデータであってもよく、例えばユーザの顔画像データ、ユーザが発する音声等のうちの少なくとも1つを含むが、これらに限定されない。
【0037】
ステップ202において、意図判定データに基づいて、少なくとも1人のユーザが持つ目標発声意図を決定する。
【0038】
本実施例において、電子機器は、意図判定データに基づいて、少なくとも1人のユーザが持つ目標発声意図を決定することができる。ここで、目標発声意図が示す発声タイプは予め設定したものであってもよい。例えば、目標発声意図は、歌を歌う意図、朗読意図等のうちの少なくとも1つを含み得るが、これらに限定されない。電子機器は、意図判定データのタイプに基づいて、該当する方式を選択して目標発声意図の判定を行うことができる。
【0039】
例示として、意図判定データにユーザの顔画像データが含まれている場合、顔画像に対して感情(情緒)認識を行って、感情タイプを取得し、感情タイプが喜びであれば、上記の少なくとも1人のユーザに目標発声意図(例えば歌を歌う意図)があると判定してもよい。意図判定データにユーザが発するサウンド信号が含まれている場合、サウンド信号を認識することができ、認識結果はユーザが鼻歌を歌っていることを示す場合、目標発声意図があると決定することができる。
【0040】
ステップ203において、前記目標発声意図に基づいて、前記少なくとも1人のユーザの現在特徴を特徴付ける特徴情報を決定する。
【0041】
本実施例において、電子機器は、少なくとも1人のユーザの現在特徴を特徴付ける特徴情報を決定することができる。ここで、ユーザの現在特徴は、ユーザの感情、ユーザの数、ユーザの聴取習慣等のうちの少なくとも1つを含み得るが、これらに限定されない。電子機器は、上記各種類の特徴のそれぞれに対応する方式を用いて、特徴情報を決定することができる。例えば、カメラが撮影したユーザの顔画像を取得し、顔画像に対して感情認識を行って、ユーザの現在感情を特徴付ける特徴情報を得ることができる。また例えば、ユーザの再生記録履歴を取得し、再生記録履歴に基づいてユーザが習慣的に聴取しているオーディオのタイプを特徴情報として決定することができる。
【0042】
ステップ204において、プリセットのオーディオライブラリから特徴情報に対応するオーディオを抽出して再生する。
【0043】
本実施例において、電子機器は、プリセットのオーディオライブラリから特徴情報に対応するオーディオを抽出して再生することができる。ここで、プリセットのオーディオライブラリは上記電子機器に設けられてもよいし、上記の電子機器に通信可能に接続される他の電子機器に設けられてもよい。上記特徴情報はオーディオのタイプに対応し、電子機器は特徴情報に基づいて、再生対象のオーディオのタイプを決定し、当該タイプのオーディオから、(例えば再生量によって選択、ランダム選択等の方式)オーディオを選択して再生することができる。
【0044】
例示として、特徴情報がユーザの現在の感情が喜びであることを示す場合、プリセットのオーディオライブラリから喜びタイプとマークされたオーディオを抽出して再生することができる。特徴情報が、ユーザが習慣的にロック音楽を聴取することを示す場合、プリセットのオーディオライブラリからロックジャンルのオーディオを抽出して再生することができる。
【0045】
本開示の上記実施例にて提供される方法は、目標空間内の少なくとも1人のユーザについて意図判定データを収集することにより、意図判定データに基づいて、ユーザが持つ目標発声意図を決定してから、目標発声意図に基づいて特徴情報を決定し、最後に、プリセットのオーディオライブラリから特徴情報に対応するオーディオを抽出して再生し、それにより、電子機器によってユーザの目標発声意図を能動的に判断することを実現し、ユーザがオーディオ再生の操作をトリガーする必要がなく、ユーザが発声意図を持つと判定した場合、電子機器がオーディオを自動再生し、オーディオを再生するユーザの操作ステップを減らし、オーディオ再生操作の利便性を向上させた。また、ユーザの現在特徴を決定することにより、再生されるオーディオをユーザの特徴に適応させ、それにより、より正確にユーザが聴取したいオーディオを再生することが実現され、オーディオの自動再生の指向性を向上させた。
【0046】
いくつかの選択可能な実現形態では、上記ステップ202において、以下の方式1~方式3のいずれかに基づいて、上記の少なくとも1人のユーザが持つ目標発声意図を決定することができる。
【0047】
方式1において、意図判定データに少なくとも1人のユーザの顔画像が含まれていると決定することに応答して、予め訓練しておいた第3感情認識モデルに顔画像を入力し、感情タイプ情報を取得し、感情タイプ情報がプリセットの感情タイプ情報である場合、少なくとも1人のユーザが目標発声意図を持つと決定する。
【0048】
ここで、第3感情認識モデルは、事前にプリセットの訓練サンプル集合を利用して、第3感情認識モデルを訓練するための予め設定された初期モデルを訓練することにより得ることができる。訓練サンプル集合内の訓練サンプルはサンプル顔画像及び対応する感情タイプ情報を含んでもよい。電子機器は、サンプル顔画像を初期モデル(例えば、畳み込みニューラルネットワーク、分類器(classifier)等を含む)の入力とし、入力されたサンプル顔画像に対応する感情タイプ情報を初期モデルの所望の出力として初期モデルを訓練して、上記第3感情認識モデルを得ることができる。
【0049】
上記プリセットの感情タイプ情報によって特徴付けられるプリセットの感情は、興奮、喜び、悲しみ等の様々な感情であり得、第3感情認識モデルが出力した感情タイプ情報によって特徴付けられるユーザの感情が上記のプリセットの感情であると、少なくとも1人のユーザが目標発声意図を持つと決定する。例えば、感情タイプ情報によってユーザの感情が興奮であると特徴づけられると、ユーザがこの時に歌を歌って自分の気分を表現したい可能性があることを示し、この場合、ユーザが歌を歌う意図があると決定する。
【0050】
方式2において、意図判定データに少なくとも1人のユーザのサウンド情報が含まれていると決定することに応答して、サウンド情報に対して音声認識を行って、音声認識結果を取得し、音声認識結果が少なくとも1人のユーザがオーディオ再生を指示したと特徴付ける場合、少なくとも1人のユーザが目標発声意図を持つと決定する。
【0051】
ここで、サウンド情報に対して音声認識を行う方法は既存技術であり、ここでは詳細な説明を省略する。例示として、あるユーザが「この歌はいいね、歌いたい」という音声を発したことを認識すると、上記の少なくとも1人のユーザが目標発声意図(すなわち、歌を歌う意図)を持つと決定する。
【0052】
方式3において、意図判定データに少なくとも1人のユーザのサウンド情報が含まれていると決定することに応答して、サウンド情報に対してメロディー認識を行い、メロディー認識結果を取得し、メロディー認識結果によって、少なくとも1人のユーザが目標形態の発声を行っていることが特徴づけられた場合、少なくとも1人のユーザが目標発声意図を持つと決定する。
【0053】
ここで、上記の目標形態の発声は、目標発声意図に対応する。例えば、目標形態の発声には、歌を歌うこと、朗読すること、鼻歌を歌うこと等が含まれ得る。サウンド情報に対してメロディー認識を行う方法は、既存技術であり、一般に、音符の分割及び基音の抽出により、メロディー認識モデルに入力される人声に対してメロディー抽出を行い、メロディー抽出により音符列を取得するステップにしたがって行われる。電子機器は、さらに、メロディー認識モデルから出力された音符列とオーディオライブラリにおけるオーディオの音符列とをマッチングさせ、出力された音符列と、あるオーディオの音符列との類似度がプリセットの類似度閾値よりも大きい場合、ユーザが現在歌を歌っている(すなわち、目標形態の発声)ことを示し、この場合、上記の少なくとも1人のユーザが目標発声意図を持つと決定する。
【0054】
本実現形態は、ユーザの目標発声意図を決定する複数の方法を提供し、それにより、感情認識、音声認識、メロディー認識等のマルチモードの方式によりユーザの目標発声意図を全面的に検出することを実現し、その検出精度がより高く、ユーザが手動で操作することを必要とせずに、後で目標発声意図に基づいてユーザのためにオーディオを再生することができ、それにより、オーディオ再生操作の利便性を向上させた。
【0055】
いくつかの選択可能な実現形態では、ステップ203において、以下の方式1~方式4の少なくとも1つの方式で特徴情報を決定することができる。
【0056】
方式1において、少なくとも1人のユーザについてのオーディオ再生記録履歴を取得し、オーディオ再生記録履歴に基づいて、少なくとも1人のユーザの聴取習慣情報を決定し、聴取習慣情報に基づいて、特徴情報を決定する。
【0057】
ここで、電子機器は、ローカル又はリモートからオーディオ再生記録履歴を取得することができ、聴取習慣情報は、ユーザがよく聴取するオーディオのタイプや聴取時間等の特徴を特徴付けるために用いられる。例えば、オーディオ再生記録履歴に基づいて、聴取回数の最も多いオーディオタイプを聴取習慣情報として決定することができる。一般に、聴取習慣情報を特徴情報が含む情報としてもよい。
【0058】
方式2において、少なくとも1人のユーザの顔画像を取得し、顔画像を予め訓練しておいた第4感情認識モデルに入力して、少なくとも1人のユーザの現在感情を特徴付ける感情タイプ情報を取得し、感情タイプ情報に基づいて、特徴情報を決定する。
【0059】
ここで、第4感情認識モデルは、顔画像に対して感情分類を行うためのニューラルネットワークモデルであってもよく、それは上記の選択可能な実現方式に記載された第3感情認識モデルと同じであっても、異なってもよいが、訓練方法は第3感情認識モデルを訓練する方法と基本的に同じであり、ここでは詳細な説明を省略する。一般に、感情タイプ情報を特徴情報が含む情報としてもよい。
【0060】
方式3において、少なくとも1人のユーザが位置する環境の環境画像を取得し、環境画像を予め訓練しておいた環境認識モデルに入力して、環境タイプ情報を取得し、環境タイプ情報に基づいて、特徴情報を決定する。
【0061】
ここで、環境画像は、カメラが上記目標空間以外の環境を撮像したものであってもよい。環境認識モデルは、環境画像を分類するためのニューラルネットワークモデルであってもよく、電子機器は、事前にプリセットの訓練サンプル集合を利用して、環境認識モデルを訓練するためのプリセットの初期モデルを訓練することにより環境認識モデルを得ることができる。訓練サンプル集合内の訓練サンプルは、サンプル環境画像及び対応する環境タイプ情報を含んでもよい。電子機器は、サンプル環境画像を初期モデル(例えば畳み込みニューラルネットワーク、分類器等を含む)の入力とし、入力されたサンプル環境画像に対応する環境タイプ情報を初期モデルの所望の出力として初期モデルを訓練して、上記環境認識モデルを得ることができる。
【0062】
環境タイプ情報は、上記の少なくとも1人のユーザが位置する環境のタイプを特徴付けるために用いられる。例示として、環境のタイプは、郊外、高速道路、農村等の地点タイプであってもよいし、晴天、雨、雪等の天気タイプでもあってもよい。一般に、環境タイプ情報を特徴情報が含む情報としてもよい。
【0063】
方式4において、目標空間の撮影で得られた空間内画像を取得し、空間内画像に基づいて、目標空間内の人数を決定し、人数に基づいて、特徴情報を決定する。
【0064】
ここで、空間内画像は、目標空間内に設置されたカメラによって撮影された画像であってもよく、空間内画像の数は1つであっても、複数であってもよく、電子機器は、既存の目標検出方法に基づいて、各空間内画像からその中にいる人物を決定して人数を統計することができる。一般に、人数を特徴情報が含む情報としてもよい。
【0065】
本実現形態は、上記4つの方式を提供してユーザの特徴情報を決定することにより、ユーザの現在の状態を全面的に検出することができ、得られた特徴情報はより全面的であり、さらに、特徴情報に基づいて、ユーザが興味を持つオーディオをより的確に抽出することに役立ち、ユーザのために再生するオーディオの的確さを向上させる。
【0066】
いくつかの選択可能な実現形態では、特徴情報を決定する上記の4つの方式に基づいて、ステップ204は以下のように実行されてもよい。
【0067】
特徴情報に聴取習慣情報が含まれると決定することに応答して、聴取習慣に対応するオーディオを抽出して再生する。
【0068】
特徴情報に感情タイプ情報が含まれると決定することに応答して、感情タイプ情報に対応するオーディオを抽出して再生する。
【0069】
特徴情報に環境タイプ情報が含まれると決定することに応答して、環境タイプ情報に対応するオーディオを抽出して再生する。
【0070】
特徴情報に人数が含まれると決定することに応答して、人数に対応するオーディオを抽出して再生する。
【0071】
例示として、聴取習慣情報が、ユーザがロック音楽を聞くことを好むことを示す場合、ロックジャンルのオーディオを抽出して再生することができる。感情タイプ情報が、ユーザの現在の感情が喜びであることを示す場合、テンポの速いタイプのオーディオを抽出して再生することができる。環境タイプ情報が、ユーザが現在位置する環境が野外であることを示す場合、テンポの遅いタイプのオーディオを抽出して再生することができる。決定されたユーザの人数が2人以上である場合、合唱タイプのオーディオを抽出して再生することができる。
【0072】
なお、特徴情報に聴取習慣情報、感情タイプ情報、環境タイプ情報、人数のうちの少なくとも2つが含まれている場合、様々な情報のそれぞれに対応するオーディオタイプに含まれるオーディオの共通集合を取って再生対象のオーディオとすることができる。
【0073】
本実現形態では、ユーザの特徴を全面的に表すことができる特徴情報を用いたため、ユーザは抽出されたオーディオに、より魅力を感じ、それにより、ユーザのために再生するオーディオの的確さを向上させる。
【0074】
さらに、
図3を参照し、オーディオ再生方法の又の実施例の概略フローチャートを示す。
図3に示すように、上記の
図2に示す実施例に加え、ステップ204の後、以下のステップ205~206をさらに含むことができる。
【0075】
ステップ205において、現在の混合サウンド信号からユーザオーディオ情報を抽出する。
【0076】
ここで、上記の混合サウンド信号は、上記の目標空間内に設置された
図1に示すような情報収集装置104(すなわちマイクロホン)によって収集される信号であってもよい。ユーザオーディオ情報は、1つのユーザが発するサウンドである。一般に、マイクロホンによって収集されるオーディオ信号には、ノイズ信号が含まれるか、又は少なくとも2つのユーザが同時に発するオーディオ信号が含まれ、この時に収集されるサウンド信号は混合サウンド信号である。つまり、混合サウンド信号には、ノイズ信号が含まれてもよいし、ユーザが発するサウンド情報が含まれてもよいし、ノイズ信号とユーザが発するサウンド信号の両方が含まれてもよい。本実施例では、既存の音声分離方法(例えばブラインド信号源分離(BSS、Blind Source Separation)方法、聴覚シーン分析(ASA、Auditory Scene Analysis)方法等)を用いることができ、混合サウンド信号から各ユーザにそれぞれ対応するユーザオーディオ情報を抽出する。
【0077】
ステップ206において、ユーザオーディオ情報がプリセットの条件に合致する場合、ユーザオーディオ情報を再生する。
【0078】
具体的には、電子機器は、抽出されたユーザオーディオ情報を分析することができ、ユーザオーディオ情報がプリセットの条件を満たす場合、ユーザオーディオ情報を再生する。例示として、電子機器は、ユーザオーディオ情報によってユーザが歌を歌っていることが特徴付けられることを認識すると、スピーカで、音量を大きくしたユーザオーディオ情報を再生する。又は、電子機器は、ユーザオーディオ情報によってユーザが発するサウンドのメロディーと現在再生中のオーディオとがマッチングすることが特徴付けられることを認識すると、ユーザオーディオ情報を再生する。
【0079】
一般に、ステップ205~ステップ206は、ステップ204で説明したオーディオの再生と同時に、実行される。例えば、再生されるオーディオは音楽であってもよく、音楽を再生しながら、少なくとも1人のユーザが現在発している混合サウンド信号からユーザオーディオ情報をリアルタイムに抽出し、ユーザオーディオ情報と再生された音楽とがマッチングする場合、ユーザオーディオ情報を再生し、それにより、ユーザが音楽に合わせて歌を歌うシーンを実現した。
【0080】
任意選択的に、さらに、従来のフィードバック音除去方法をもちいてもよく、マイクロホンによって収集される、スピーカの再生からのオーディオ信号をフィルタリングし、それにより、ユーザオーディオ情報の再生に対するフィードバック音の干渉を低減させる。
【0081】
図3に対応する実施例にて提供される方法は、混合サウンド信号からユーザオーディオ情報を抽出して再生することにより、ユーザオーディオ情報とプリセットのオーディオライブラリから抽出されたオーディオとの同時再生を実現でき、ユーザのサウンドを再生するための専用のマイクロホンを別途でユーザに提供する必要がなく、目標空間内の各ユーザの混合サウンドを収集するためのマイクロホンを用いるだけで、混合サウンド信号からユーザが発するサウンドを抽出して、現在再生中のオーディオと同時に再生することができ、それにより、ユーザオーディオ情報を再生するために必要なハードウェアを簡略化し、ユーザが目標発声意図を実現する利便性を向上させた。また、プリセットの条件に合致するユーザオーディオ情報を再生し、ユーザの会話などのコンテンツを再生することによるユーザオーディオ情報の再生への干渉を避けることができる。
【0082】
さらに、
図4を参照し、オーディオ再生方法の又の実施例の概略フローチャートを示す。
図4に示すように、上記の
図3に示す実施例に加え、ステップ205は、以下のステップ2051と2052をさらに含む。
【0083】
ステップ2051において、目標空間に設置されたオーディオ収集装置によって収集される初期オーディオ情報を取得する。当該初期オーディオ情報には、混合サウンド信号が含まれ得る。
【0084】
ここで、オーディオ収集装置は、
図1に示すような情報収集装置104が備える機器である。オーディオ収集装置の数は1つであっても、複数であってもよく、初期オーディオ情報のチャンネルの数はオーディオ収集装置の数と一致し、すなわち、各オーディオ収集装置は1チャンネルの初期オーディオ情報を収集する。例示として、目標空間が車両内部空間である場合、オーディオ取得装置の数が車内の座席の数とマッチングしてもよい。すなわち、各座席の近傍に1つのオーディオ収集装置を取り付ける。
【0085】
ステップ2052において、初期オーディオ情報に対して人声分離を行って、少なくとも1チャンネルのユーザオーディオ情報を得る。
【0086】
ここで、少なくとも1チャンネルのユーザオーディオ情報はそれぞれ1つのユーザに対応する。具体的には、電子機器は、既存の音声分離方法を利用して、初期オーディオ情報から各ユーザのそれぞれに対応するユーザオーディオ情報を抽出することができる。例示として、ブラインド信号源分離アルゴリズムを用いて初期オーディオ情報から少なくとも1チャンネルのユーザオーディオ情報を分離することができる。又は、オーディオ収集装置の数が2つ以上である場合、従来のマイクロホンアレイに基づく音声分離アルゴリズムを用いて、各オーディオ収集装置によって収集される初期オーディオ情報から少なくとも1チャンネルのユーザオーディオ情報を分離することができる。
【0087】
図4に対応する実施例にて提供される方法は、初期オーディオ情報に対して人声分離を行うことにより、少なくとも1チャンネルのユーザオーディオ情報を取得し、オーディオの再生中に、複数のユーザのそれぞれのユーザオーディオ情報をリアルタイムに収集することを実現でき、かつ、各チャンネルのユーザオーディオ情報から他のユーザのサウンドの干渉を排除し、後続で再生されるユーザオーディオ情報は各ユーザのサウンドを明確に反映することができ、複数のユーザのサウンドを再生する品質を向上させる。
【0088】
いくつかの選択可能な実現形態では、上記のステップ2051~ステップ2052に基づいて、上記の
図3に対応する実施例におけるステップ206は以下のことによって実行されてもよい。
【0089】
少なくとも1チャンネルのユーザオーディオ情報の音量をそれぞれ目標音量に調整して、音量が調整されたユーザオーディオ情報を合成し、かつ、合成後のユーザオーディオ情報を再生する。各チャンネルのユーザオーディオ情報に対応する目標音量は同じであっても、異なってもよい。例えば、音量が最も大きい1チャンネルのユーザオーディオ情報の音量を目標音量とし、他のチャンネルのユーザオーディオ情報の音量をいずれも目標音量に調整してもよいし、1つの固定音量を目標音量として設定し、各チャンネルのユーザオーディオ情報をいずれも同じ目標音量に設定してもよい。さらに、各チャンネルのユーザオーディオ情報をステレオ音声に合成して再生してもよいし、同一サウンドチャンネルに合成して再生してもよい。
【0090】
各チャンネルのユーザオーディオ情報について音量を調整して合成した後に再生し、再生される各ユーザオーディオ情報の音量は一致するようになるか、又は、それぞれに設定された音量に達することができることにより、ユーザが発する音量が小さいことによる再生時の音量が小さすぎることを避ける。
【0091】
いくつかの選択可能な実現形態では、上記の
図3に対応する実施例を基に、上記ステップ206は、以下の方式1と方式2のうちの少なくとも1つに基づいてユーザオーディオ情報を再生することができる。
【0092】
方式1において、ユーザオーディオ情報に対してメロディー認識を行って、ユーザメロディー情報を取得し、ユーザのメロディー情報と現在再生中のオーディオのメロディー情報とをマッチングさせ、得られた第1マッチング結果に基づいてユーザオーディオ情報を再生する。
【0093】
ここで、ユーザオーディオ情報に対してメロディー認識を行う方法は、既存技術であり、一般に、音符の分割及び基音抽出により、メロディー認識モデルに入力されるユーザオーディオ情報に対してメロディー抽出を行い、メロディー抽出により音符列をメロディー情報として取得するステップにしたがって行う。電子機器は、さらに、メロディー認識モデルから出力されたメロディー情報と現在再生中のオーディオのメロディー情報との類似度を計算し、類似度(すなわち、第1マッチング結果)がプリセットの第1類似度閾値以上である場合、第1マッチング結果がプリセットの条件に合致すると決定でき、ユーザオーディオ情報を再生できる。
【0094】
方式2において、ユーザオーディオ情報に対して音声認識を行って、音声認識結果を取得し、音声認識結果と現在再生中のオーディオに対応するテキスト情報とをマッチングさせ、得られた第2マッチング結果に基づいてユーザオーディオ情報を再生する。
【0095】
ここで、音声認識結果はテキスト情報であってもよい。なお、ユーザオーディオ情報に対して音声認識を行う方法は既存技術であり、ここでは詳細な説明を省略する。現在再生中のオーディオに対応するテキスト情報は、オーディオとの対応関係が予め確立されているテキスト情報であり、例えば、現在再生中のオーディオが歌であれば、それに対応するテキスト情報は歌詞であり得、現在再生中のオーディオが詩の朗読であれば、それに対応するテキスト情報は詩の原文である。電子機器は、音声認識結果と上記の対応するテキスト情報との類似度を計算することができ、類似度(すなわち、第2マッチング結果)がプリセットの第2類似度閾値以上である場合、第2マッチング結果がプリセットの条件に合致すると決定でき、ユーザオーディオ情報を再生できる。
【0096】
電子機器は、上記の方式1及び方式2のいずれかを実行してユーザオーディオ情報を再生することができることを理解されたい。上記の方式1及び方式2を同時に実行することもでき、第1マッチング結果及び第2マッチング結果に基づいて、2つの方式のどちらでもユーザオーディオ情報を再生できる場合、ユーザオーディオ情報を再生する。なお、上記のユーザオーディオ情報の数が1チャンネルより大きい場合、各チャンネルのユーザオーディオ情報に対して方式1及び/又は方式2を実行できる。
【0097】
本実現形態は、ユーザオーディオ情報に対してメロディー認識及び/又は音声認識を行うことにより、ユーザオーディオ情報を用いて一定の条件を満たす時に再生することができ、それにより、現在再生中のオーディオと無関係なユーザオーディオ情報を再生することを避け、再生されるユーザオーディオ情報と現在再生中のオーディオとのマッチング度がより高くなり、さらに、ユーザオーディオ情報を再生する品質を向上させる。
【0098】
いくつかの選択可能な実現形態では、上記の
図3に対応する実施例の方法に基づいて、上記のステップ206は、さらに、以下を含む。
【0099】
まず、ユーザオーディオ情報の音高を決定する。ここで、ユーザオーディオ情報の音高を決定する方法は既存技術であり、ここでは詳細な説明を省略する。
【0100】
続いて、以下のステップ1とステップ2の少なくとも1つを実行する。
【0101】
ステップ1で、現在再生中のオーディオの音高を、ユーザオーディオ情報の音高にマッチングする目標音高に調整する。
【0102】
具体的には、現在再生中のオーディオの音高をユーザオーディオ情報の音高と比較することができ、両者の差がプリセットの差の範囲外である場合、ユーザオーディオ情報の音高との差がプリセットの差の範囲内になるように、現在再生中のオーディオの音高を調整する。
【0103】
例示として、ユーザオーディオ情報が、ユーザが歌を歌うオーディオ情報であり、現在再生中のオーディオが歌の音楽である場合、ユーザオーディオ情報の音高が現在再生している音楽の音高より高い又は低いと決定すると、ユーザが歌を歌う音高に適応するように音楽の音高を動的に調整することができ、すなわち、再生されている音楽に合わせて歌う難易度を調整して、ユーザが、再生されている音楽によりよく合わせることができる。
【0104】
ステップ2で、ユーザオーディオ情報の音高に対応するオーディオを推薦するための推薦情報を出力する。
【0105】
ここで、ユーザオーディオ情報の音高に対応するオーディオは、ユーザオーディオ情報の音高との差がプリセットの差の範囲内にあるオーディオであってもよい。推薦情報は、提示音、文字表示、画像等の方式で出力することができ、推薦情報を出力した後、ユーザは、推薦されたオーディオを再生するか否かを選択することができ、それにより、新たに再生されるオーディオの音高をユーザの音高にマッチングさせる。
【0106】
本実施形態は、ユーザオーディオ情報の音高を決定し、音高に基づいて再生されるオーディオを調整することにより、再生されるオーディオの音高がユーザの音高に合わせられ、ユーザオーディオ情報の再生効果がよりよくなり、また、ユーザは、再生されるオーディオの音高を手動又は音声制御等の能動的な方式で調整する必要がなく、オーディオを調整する利便性を向上させる。
【0107】
さらに、
図5を参照し、オーディオ再生方法の又の実施例の概略フローチャートを示す。
図5に示すように、上記の
図3に示す実施例に加え、ステップ206の後に、以下のステップ207~210をさらに含んでもよい。
【0108】
ステップ207において、少なくとも1人のユーザからユーザオーディオ情報に対応する目標ユーザを決定して、目標ユーザの顔画像を得る。
【0109】
ここで、顔画像は、目標空間に設置されている、
図1の情報収集装置104に含まれるカメラが撮影する画像であり得る。具体的には、電子機器は、混合サウンド信号からユーザオーディオ情報を抽出する時、既存の音声分離方法に基づいて、ユーザオーディオ情報に対応する音源の位置(例えば、既存のマイクロホンアレイによるマルチ音域音声分離方法を用いて、ユーザオーディオ情報が目標空間内のどの位置に対応するかを決定する)を決定することができ、音源の位置がユーザの位置であり、ユーザの位置はユーザを撮影した画像から決定することができ、さらに、ユーザオーディオ情報に対応するユーザの顔画像を取得することができる。
【0110】
ステップ208において、少なくとも1人のユーザのそれぞれの顔画像を予め訓練しておいた第1感情認識モデルに入力して、少なくとも1人のユーザのそれぞれに対応する感情タイプ情報を得る。つまり、当該ステップにおいて、ユーザオーディオ情報に対応する目標ユーザの顔画像を予め訓練しておいた第1感情認識モデルに入力し、それに応じて、目標ユーザに対応する感情タイプ情報を得る。
【0111】
ここで、第1感情認識モデルは、上記選択可能な実現形態で説明した第3感情認識モデル及び第4感情認識モデルの少なくとも1つと同じであっても、異なってもよいが、訓練方法は、第3感情認識モデル及び第4感情認識モデルの少なくとも1つの訓練方法と基本的に同じであり、ここでは詳細な説明を省略する。
【0112】
ステップ209において、感情タイプ情報に基づいて、少なくとも1人のユーザの感情と現在再生中のオーディオのタイプとのマッチング度を特徴付ける第1スコアを決定する。当該ステップにおける感情タイプ情報が目標ユーザに対応する感情タイプ情報であると、決定された第1スコアは、目標ユーザの感情と現在再生中のオーディオのタイプとのマッチング度を特徴付けるために用いられる。
【0113】
ここで、第1スコアは、第1感情認識モデルによって算出された、出力される感情タイプ情報に対応する確率値に基づいて得ることができる。一般に、第1感情認識モデルは入力された顔画像を分類して、複数の感情タイプ情報及び各感情タイプ情報のそれぞれに対応する確率値を取得することができ、最大確率値に対応する感情タイプ情報を今回認識した顔画像の感情タイプ情報として決定することができる。
【0114】
今回認識した顔画像の感情タイプ情報が一種類であれば、この種類の感情タイプ情報に対応する確率に基づいて第1スコアを決定することができる。今回認識された顔画像の感情タイプ情報に複数の種類が含まれている場合、複数の感情タイプ情報から現在再生中のオーディオのタイプにマッチングする感情タイプ情報を目標感情タイプ情報として決定し、その後、目標感情タイプ情報に対応する確率に基づいて第1スコアを決定することができる。第1スコアの値が大きいほど、現在再生中のオーディオとのマッチング度が高いことを示す。ここで、現在再生中のオーディオのタイプと感情タイプ情報との対応関係は予め設定されたものであってもよい。例えば、現在再生中のオーディオのタイプが「明るい」とマークされている場合、第1スコアはモデルから出力された、明るい感情を特徴付ける感情タイプ情報に対応する確率に基づいて得ることができる。
【0115】
ステップ210において、第1スコアに基づいて、ユーザオーディオ情報のスコアを決定して出力する。
【0116】
具体的には、ユーザオーディオ情報のスコアを、表示画面に表示する、スピーカから出力する等の様々な方式で出力することができる。ユーザオーディオ情報のスコアの決定方法は複数種類があり、例示として、第1スコアをユーザオーディオ情報のスコアとして決定してもよい。
【0117】
代替可能に、ステップ209は、ユーザオーディオ情報に基づいて、ユーザオーディオ情報と現在再生中のオーディオとのマッチング度を特徴付ける第2スコアを決定し、つまり、当該ステップにおいて、ユーザオーディオ情報に基づいて第2スコアを決定し、当該第2スコアはユーザオーディオ情報と現在再生中のオーディオとのマッチング度を特徴付けるために用いられることによって実行されてもよい。
【0118】
ステップ210は、第2スコアに基づいて、ユーザオーディオ情報のスコアを決定して出力することによって実行されてもよい。
【0119】
ここで、第2スコアは既存のユーザオーディオ情報に対する採点方法を利用して決定することができ、例えば、ユーザオーディオ情報によりユーザが歌を歌っていることが示される場合、既存の歌の採点方法に基づいて第2スコアを決定することができる。さらに、第2スコアをユーザオーディオ情報のスコアとして決定することができる。
【0120】
選択可能に、ステップ210は、さらに、第1スコア及び第2スコアに基づいて、ユーザオーディオ情報のスコアを決定して出力することによって実行されてもよい。
【0121】
例えば、第1スコア及び第2スコアのそれぞれに対応するプリセットの重みに基づいて、第1スコア及び第2スコアに対して重み付け加算を行って、ユーザオーディオ情報のスコアを得る。
【0122】
図5に対応する実施例にて提供される方法は、顔画像認識及び/又はオーディオ採点に基づいてユーザオーディオ情報のスコアを決定し、スコアにユーザオーディオ情報と再生されるオーディオとのマッチング度を十分に反映させることができ、ユーザオーディオ情報に対する採点の精度を向上させる。
【0123】
いくつかの選択可能な実現形態では、ステップ208は以下のことによって実行されてもよい。
【0124】
少なくとも1人のユーザのそれぞれの顔画像を第1感情認識モデルに入力して、少なくとも1人のユーザのそれぞれに対応する第1感情タイプ情報シーケンスを得る。ここで、第1感情タイプ情報シーケンスにおける感情タイプ情報はそれぞれ1つの顔画像サブシーケンスに対応する。本実施例において、ユーザの顔画像の数は少なくとも2つであり、すなわち、第1感情認識モデルに入力されるのはユーザの顔画像シーケンスであり、一般に、あるユーザの顔画像シーケンスは、当該ユーザの顔を撮影したビデオに含まれる顔画像からなる画像シーケンスであってもよい。感情タイプ情報シーケンスは、ベクトルの形で表すことができ、ここで、ベクトルにける各数値は、1つの顔画像サブシーケンスに対応し、かつある感情タイプを表す。各顔画像サブシーケンスは、少なくとも1つの顔画像を含み得る。例示として、現在再生中のオーディオの時間長は3分間であり、再生中にユーザの顔を3分間撮影し、この3分間の顔画像シーケンスを、100個の顔画像サブシーケンスに分割し、各サブシーケンスを第1感情認識モデルに順番に入力し、100個の数値を含むベクトルを得て、感情タイプ情報シーケンスとすることができる。
【0125】
図6に示すように、上記のステップ209において、上記の第1感情タイプ情報シーケンスに基づいて、以下のステップ2091~2094を用いて第1スコアを決定することができる。
【0126】
ステップ2091において、現在再生中のオーディオに対応するビデオを取得し、ビデオから目標人物の顔画像シーケンスを抽出する。
【0127】
ここで、目標人物は現在再生中のオーディオに関連する人物であってもよい。例えば、現在再生中のオーディオが歌であれば、それに対応するビデオは当該歌を歌う人の画像を含むビデオであってもよく、目標人物は歌を歌う人であってもよいし、歌と伴って演じる人物であってもよい。目標人物は、手動で予め設定してもよいし、電子機器でビデオを認識して取得してもよく、例えば従来の口部動作認識方法に基づいて、口部の動作頻度が歌のリズムとマッチングする人物を目標人物として認識する。
【0128】
電子機器は既存の顔画像検出方法を用いて、予め設定されたか又は認識された目標人物に基づいて、ビデオに含まれる画像フレームから目標人物の顔画像シーケンスを抽出することができる。
【0129】
ステップ2092において、顔画像シーケンスを第1感情認識モデルに入力して、第2感情タイプ情報シーケンスを得る。
【0130】
当該ステップは、上記の第1感情タイプ情報シーケンスを決定するステップと基本的に同じであり、ここでは詳細な説明を省略する。
【0131】
ステップ2093において、第1感情タイプ情報シーケンスと第2感情タイプ情報シーケンスとの類似度を決定する。
【0132】
ここで、第1感情タイプ情報シーケンス及び第2感情タイプ情報シーケンスはいずれもベクトルの形であってもよく、電子機器は、ベクトル間の距離を決定し、距離に基づいて類似度(例えば、距離の逆数が類似度である)を決定できる。
【0133】
ステップ2094において、類似度に基づいて、第1スコアを決定する。
【0134】
例示として、類似度を第1スコアとして決定してもよいし、類似度をプリセットの割合でスケーリングして、第1スコアを得てもよい。
【0135】
本実現形態は、ユーザの第1感情タイプ情報シーケンスと元のビデオにおける目標人物の第2感情タイプシーケンスとを比較することにより、ユーザの感情と元のビデオの感情との合致程度を正確に決定することができ、得られた第1スコアはユーザの感情と現在再生中のオーディオとの合致程度をより正確に反映し、それにより、ユーザオーディオ情報の採点正確性を向上させる。
【0136】
さらに、
図7を参照し、オーディオ再生方法の又の実施例の概略フローチャートを示す。
図7に示すように、上記の
図3に示す実施例に加え、ステップ206の後に、以下のステップ211~213をさらに含んでもよい。
【0137】
ステップ211において、少なくとも1人のユーザからユーザオーディオ情報に対応する目標ユーザを決定して、目標ユーザの顔画像を得る。
【0138】
当該ステップは、上記のステップ207と基本的に同じであり、ここでは詳細な説明を省略する。
【0139】
ステップ212において、ユーザオーディオ情報に対応する目標ユーザの顔画像及びユーザオーディオ情報を予め訓練しておいた第2感情認識モデルに入力して、感情タイプ情報を得る。
【0140】
ここで、本ステップにおける第2感情認識モデルは上記第1感情認識モデル、第3感情認識モデル、第4感情認識モデルのいずれとも異なり、第2感情認識モデルは、画像及びオーディオを入力として同時に受信し、画像及びオーディオを統合分析し、感情タイプ情報を出力することができる。プリセットの訓練サンプル集合を利用して、第2感情認識モデルを訓練するためのプリセットの初期モデルを訓練することにより、第2感情認識モデルを予め取得することができる。訓練サンプル集合内の訓練サンプルには、サンプル顔画像、サンプルオーディオ情報及び対応する感情タイプ情報を含まれ得る。電子機器は、サンプル顔画像及びサンプルオーディオ情報を初期モデル(例えば、ニューラルネットワーク、分類器等を含む)の入力とし、入力されたサンプル顔画像及びサンプルオーディオ情報に対応する感情タイプ情報を初期モデルの所望の出力として初期モデルを訓練して、上記第3感情認識モデルを取得することができる。一般に、初期モデルに含まれるニューラルネットワークは、入力されたサンプル顔画像及びサンプルオーディオ情報の特徴情報を決定することができ、分類器は特徴情報を分類することができ、実際に出力された情報を所望の出力と比較して、初期モデルのパラメーターを調整し、実際の出力と所望の出力との差を収束させるまで徐々に減少させ、それにより訓練で上記の第2感情認識モデルを得る。
【0141】
ステップ213において、感情タイプ情報に基づいて、ユーザオーディオ情報に対応する目標ユーザの感情と現在再生中のオーディオのタイプとのマッチング度を特徴付けるスコアを決定して出力する。
【0142】
ここで、スコアは、第2感情認識モデルによって算出された、出力される感情タイプ情報に対応する確率値に基づいて取得することができる。確率値に基づいてスコアを決定する方法は、上記のステップ209での第1スコアを決定する方法と基本的に一致し、ここでは詳細な説明を省略する。
【0143】
図7に対応する実施例にて提供される方法は、顔画像とユーザオーディオ情報とを第2感情認識モデルに同時に入力することにより、スコアを直接取得し、顔画像とユーザオーディオ情報を別々に採点する必要がなく、それにより採点ステップが簡略化され、採点効率を向上させる。第2感情認識モデルは、入力された顔画像及びユーザオーディオ情報の特徴を統合して分類することができるため、スコアはユーザのサウンドと再生されるオーディオとのマッチング度を正確に反映することができる。
【0144】
いくつかの選択可能な実現形態では、ステップ212は以下のことによって実行されてもよい。
【0145】
ユーザオーディオ情報に対応するユーザの顔画像及びユーザオーディオ情報を第2感情認識モデルに入力して、第3感情タイプ情報シーケンスを得る。ここで、第3感情タイプ情報シーケンスにおける感情タイプ情報は、それぞれ1つの顔画像サブシーケンスに対応する。第3感情タイプ情報シーケンスの定義は、上記の第1感情タイプ情報と基本的に同じであり、ここでは詳細な説明を省略する。
【0146】
これに基づいて、
図8に示すように、ステップ213は以下のように実行されてもよい。
【0147】
ステップ2131において、現在再生中のオーディオに対応するビデオを取得し、ビデオから目標人物の顔画像シーケンスを抽出する。
【0148】
当該ステップは、上記ステップ2091と基本的に同じであり、ここでは詳細な説明を省略する。
【0149】
ステップ2132において、顔画像シーケンス及び現在再生中のオーディオを第2感情認識モデルに入力して、第4感情タイプ情報シーケンスを得る。
【0150】
当該ステップは、上記の第3感情タイプ情報シーケンスを決定するステップと基本的に同じであり、ここでは詳細な説明を省略する。
【0151】
ステップ2133において、第3感情タイプ情報シーケンスと第4感情タイプ情報シーケンスとの類似度を決定する。
【0152】
ここで、第3感情タイプ情報シーケンス及び第4感情タイプ情報シーケンスはいずれもベクトルの形であってもよく、電子機器は、ベクトル間の距離を決定し、距離に基づいて類似度(例えば、距離の逆数が類似度である)を決定できる。
【0153】
ステップ2134において、類似度に基づいて、ユーザオーディオ情報に対応するユーザの感情と現在再生中のオーディオのタイプとのマッチング度を特徴付けるスコアを決定する。
【0154】
例示として、類似度をスコアとして決定してもよいし、類似度をプリセットの割合でスケーリングして、スコアを得てもよい。
【0155】
本実施形態における第3感情タイプ情報シーケンス及び第4感情タイプ情報シーケンスは、ユーザの顔画像及びユーザオーディオ情報に基づいて得られたものであり、感情を分類する時に画像とオーディオを総合したため、2つの感情タイプ情報シーケンスの感情を表す正確性がより高くなり、そのため、2つの感情タイプ情報シーケンス間の類似度で決定したスコアは、ユーザの感情と元のビデオの感情との合致程度をより正確に表すことができ、ユーザオーディオ情報の採点正確性をさらに向上させる。
【0156】
例示的な装置
図9は、本開示の例示的な実施例にて提供されるオーディオ再生装置の概略構造図である。本実施例は電子機器に適用でき、
図9に示すように、オーディオ再生装置は、目標空間内の少なくとも1人のユーザについて収集された意図判定データを取得するための取得モジュール901と、意図判定データに基づいて、少なくとも1人のユーザが持つ目標発声意図を決定するための第1決定モジュール902と、前記目標発声意図に基づいて、少なくとも1人のユーザの現在特徴を特徴付ける特徴情報を決定するための第2決定モジュール903と、プリセットのオーディオライブラリから特徴情報に対応するオーディオを抽出して再生するための第1再生モジュール904と、を含む。
【0157】
本実施例では、取得モジュール901は、目標空間内の少なくとも1人のユーザについて収集された意図判定データを取得することができる。ここで、目標空間(例えば、
図1における空間105)は、車両内部、部屋内部等の様々な空間であり得る。意図判定データは、様々なユーザの意図を判定するための情報であってもよく、例えば、ユーザの顔画像、ユーザが発する音声等のうちの少なくとも1つを含むが、これらに限定されない。
【0158】
本実施例において、第1決定モジュール902は、意図判定データに基づいて、少なくとも1人のユーザが持つ目標発声意図を決定することができる。ここで、目標発声意図によって表される発声タイプは、予め設定されたものであってもよい。例えば、目標発声意図は、歌を歌う意図、朗読意図等のうちの少なくとも1つを含むが、これらに限定されない。第1決定モジュール902は、意図判定データのタイプに応じて、対応する方式を選択して目標発声意図を判定してもよい。
【0159】
例示として、意図判定データにユーザの顔画像が含まれている場合、顔画像に対して感情認識を行って、感情タイプを取得し、感情タイプが喜びであると、上記の少なくとも1人のユーザが目標発声意図(例えば歌を歌う意図)を持つと判定してもよい。意図判定データにユーザが発するサウンド信号が含まれている場合、サウンド信号を認識することができ、認識結果はユーザが鼻歌を歌っていることを示す場合、目標発声意図があると決定することができる。
【0160】
本実施例において、第2決定モジュール903は、少なくとも1人のユーザの現在特徴を特徴付ける特徴情報を決定することができる。ここで、ユーザの現在特徴は、ユーザの感情、ユーザの数、ユーザの聴取習慣等のうちの少なくとも1つを含むが、これらに限定されない。第2決定モジュール903は、上記の様々な特徴のそれぞれに対応する方式を用いて、特徴情報を決定することができる。例えば、カメラが撮影したユーザの顔画像を取得し、顔画像に対して感情認識を行って、ユーザの現在の感情を特徴付ける特徴情報を取得することができる。また例えば、ユーザの再生記録履歴を取得し、再生記録履歴に基づいてユーザが習慣的に聴取しているオーディオのタイプを特徴情報として決定してもよい。
【0161】
本実施例において、第1再生モジュール904は、プリセットのオーディオライブラリから特徴情報に対応するオーディオを抽出して再生することができる。ここで、プリセットのオーディオライブラリは上記電子機器に設けられてもよいし、上記の電子機器に通信可能に接続される他の電子機器に設けられてもよい。上記の特徴情報は、オーディオのタイプに対応し、第1再生モジュール904は、特徴情報に基づいて、再生対象のオーディオのタイプを決定して、当該タイプのオーディオから、オーディオを選択して(例えば再生量によって選択、ランダム選択等の方式)再生することができる。
【0162】
例示として、ユーザの現在の感情が喜びであることを特徴情報が示す場合、プリセットのオーディオライブラリから喜びタイプとマークされたオーディオを抽出して再生することができる。特徴情報がユーザがロック音楽の聴取に慣れていることを示す場合、プリセットのオーディオライブラリからロックジャンルのオーディオを抽出して再生することができる。
【0163】
図10を参照し、
図10は、本開示の別の例示的な実施例にて提供されるオーディオ再生装置の概略構造図である。
【0164】
いくつかの選択可能な実現形態では、装置は、さらに、現在の混合サウンド信号からユーザオーディオ情報を抽出するための抽出モジュール905と、前記ユーザオーディオ情報がプリセットの条件に合致する場合、前記ユーザオーディオ情報を再生するための第2再生モジュール906と、を含む。
【0165】
いくつかの選択可能な実現形態では、装置は、さらに、少なくとも1人のユーザからユーザオーディオ情報に対応する目標ユーザを決定して、目標ユーザの顔画像を得るための第3決定モジュール907と、ユーザオーディオ情報に対応する目標ユーザの顔画像を予め訓練しておいた第1感情認識モデルに入力して、目標ユーザのそれぞれに対応する感情タイプ情報を得るための第1感情認識モジュール908と、感情タイプ情報に基づいて、ユーザオーディオ情報に対応する目標ユーザの感情と現在再生中のオーディオのタイプとのマッチング度を特徴付ける第1スコアを決定するための第4決定モジュール909、及び/又は、ユーザオーディオ情報に基づいて、ユーザオーディオ情報と現在再生中のオーディオとのマッチング度を特徴付ける第2スコアを決定するための第5決定モジュール910と、第1スコア及び/又は第2スコアに基づいて、ユーザオーディオ情報のスコアを決定して出力するための第6決定モジュール911と、を含む。
【0166】
いくつかの選択可能な実現形態では、第1感情認識モジュール908は、少なくとも1人のユーザのそれぞれの顔画像を第1感情認識モデルに入力して、少なくとも1人のユーザのそれぞれに対応する第1感情タイプ情報シーケンスを得るために用いられ、ここで、第1感情タイプ情報シーケンスにおける感情タイプ情報はそれぞれ1つの顔画像サブシーケンスに対応する第1感情認識ユニット9081と、感情タイプ情報に基づいて、少なくとも1人のユーザの感情と現在再生中のオーディオのタイプとのマッチング度を特徴付ける第1スコアを決定するための第1決定ユニット9082と、現在再生中のオーディオに対応するビデオを取得し、ビデオから目標人物の顔画像シーケンスを抽出するための第1取得ユニット9083と、顔画像シーケンスを第1感情認識モデルに入力して、第2感情タイプ情報シーケンスを得るための第2感情認識ユニット9084と、第1感情タイプ情報シーケンスと第2感情タイプ情報シーケンスとの類似度を決定するための第2決定ユニット9085と、類似度に基づいて、第1スコアを決定するための第3決定ユニット9086と、を含む。
【0167】
いくつかの選択可能な実現形態では、装置は、さらに、少なくとも1人のユーザからユーザオーディオ情報に対応する目標ユーザを決定して、目標ユーザの顔画像を得るための第7決定モジュール912と、ユーザオーディオ情報に対応する目標ユーザの顔画像及びユーザオーディオ情報を予め訓練しておいた第2感情認識モデルに入力して、感情タイプ情報を得るための第2感情認識モジュール913と、感情タイプ情報に基づいて、ユーザオーディオ情報に対応する目標ユーザの感情と現在再生中のオーディオのタイプとのマッチング度を特徴付けるスコアを決定して出力するための第8決定モジュール914と、を含む。
【0168】
いくつかの選択可能な実現形態では、第2感情認識モジュール913は、さらに、ユーザオーディオ情報に対応するユーザの顔画像及びユーザオーディオ情報を第2感情認識モデルに入力して、第3感情タイプ情報シーケンスを得るために用いられ、ここで、第3感情タイプ情報シーケンスにおける感情タイプ情報はそれぞれ1つの顔画像サブシーケンスに対応する。第8決定モジュール914は、現在再生中のオーディオに対応するビデオを取得し、ビデオから目標人物の顔画像シーケンスを抽出するための第2取得ユニット9141と、顔画像シーケンス及び現在再生中のオーディオを第2感情認識モデルに入力して、第4感情タイプ情報シーケンスを得るための第3感情認識ユニット9142と、第3感情タイプ情報シーケンスと第4感情タイプ情報シーケンスとの類似度を決定するための第4決定ユニット9143と、類似度に基づいて、ユーザオーディオ情報に対応するユーザの感情と現在再生中のオーディオのタイプとのマッチング度を特徴付けるスコアを決定するための第5決定ユニット9144と、を含む。
【0169】
いくつかの選択可能な実現形態では、抽出モジュール905は、目標空間に設置されたオーディオ収集装置が収集した、混合サウンド信号を含む初期オーディオ情報を取得するための第3取得ユニット9051と、初期オーディオ情報に対して人声分離を行って、それぞれ1つのユーザに対応する少なくとも1チャンネルのユーザオーディオ情報を得るための分離ユニット9052と、を含む。
【0170】
いくつかの選択可能な実現形態では、第2再生モジュール906は、さらに、少なくとも1チャンネルのユーザオーディオ情報の音量をそれぞれ目標音量に調整して、音量が調整されたユーザオーディオ情報を合成し、かつ、合成後のユーザオーディオ情報を再生するために用いられる。
【0171】
いくつかの選択可能な実現形態では、第2再生モジュール906は、ユーザオーディオ情報に対してメロディー認識を行って、ユーザメロディー情報を取得し、ユーザのメロディー情報と現在再生中のオーディオのメロディー情報とをマッチングさせ、得られた第1マッチング結果に基づいてユーザオーディオ情報を再生するための第1メロディー認識ユニット9061、及び/又は、ユーザオーディオ情報に対して音声認識を行って、音声認識結果を取得し、音声認識結果と現在再生中のオーディオに対応するテキスト情報とをマッチングさせ、得られた第2マッチング結果に基づいてユーザオーディオ情報を再生するための第1音声認識ユニット9062、を含む。
【0172】
いくつかの選択可能な実現形態では、第2再生モジュール906は、ユーザオーディオ情報の音高を決定するための第6決定ユニット9063、現在再生中のオーディオの音高を、ユーザオーディオ情報の音高にマッチングする目標音高に調整するための調整ユニット9064、及び/又は、ユーザオーディオ情報の音高に対応するオーディオを推薦するための推薦情報を出力するための出力ユニット9065、を含む。
【0173】
いくつかの選択可能な実現形態では、第1決定モジュール902は、意図判定データに少なくとも1人のユーザの顔画像が含まれていると決定することに応答して、予め訓練しておいた第3感情認識モデルに顔画像を入力して、感情タイプ情報を取得し、感情タイプ情報がプリセットの感情タイプ情報である場合、少なくとも1人のユーザが目標発声意図を持つと決定するための第4感情認識ユニット9021、又は、意図判定データに少なくとも1人のユーザのサウンド情報が含まれていると決定することに応答して、サウンド情報に対して音声認識を行って、音声認識結果を取得し、音声認識結果が少なくとも1人のユーザがオーディオ再生を指示したと特徴付ける場合、少なくとも1人のユーザが目標発声意図を持つと決定するための第2音声認識ユニット9022、又は、意図判定データに少なくとも1人のユーザのサウンド情報が含まれていると決定することに応答して、サウンド情報に対してメロディー認識を行い、メロディー認識結果を取得し、少なくとも1人のユーザが目標形態の発声を行っていることがメロディー認識結果によって特徴付けられた場合、少なくとも1人のユーザが目標発声意図を持つと決定するための第2メロディー認識ユニット9023、を含む。
【0174】
いくつかの選択可能な実現形態では、第2決定モジュール903は、少なくとも1人のユーザについてのオーディオ再生記録履歴を取得するために用いられ、オーディオ再生記録履歴に基づいて、少なくとも1人のユーザの聴取習慣情報を決定し、聴取習慣情報に基づいて、特徴情報を決定する第7決定ユニット9031、及び/又は、少なくとも1人のユーザの顔画像を取得し、顔画像を予め訓練しておいた第4感情認識モデルに入力し、少なくとも1人のユーザの現在感情を特徴付ける感情タイプ情報を得るために用いられ、感情タイプ情報に基づいて、特徴情報を決定する第5感情認識ユニット9032、及び/又は、少なくとも1人のユーザが位置する環境の環境画像を取得し、環境画像を予め訓練しておいた環境認識モデルに入力し、環境タイプ情報を取得するために用いられ、環境種別情報に基づいて、特徴情報を決定する環境認識ユニット9033、及び/又は、目標空間に対して撮影して空間内画像を取得するために用いられ、空間内画像に基づいて、目標空間内の人数を決定し、人数に基づいて、特徴情報を決定する第8決定ユニット9034、を含む。
【0175】
いくつかの選択可能な実現方式では、第1再生モジュール904は、特徴情報に聴取習慣情報が含まれると決定することに応答して、聴取習慣に対応するオーディオを抽出して再生するための第1再生ユニット9041と、特徴情報に感情タイプ情報が含まれると決定することに応答して、感情タイプ情報に対応するオーディオを抽出して再生するための第2再生ユニット9042と、特徴情報に環境タイプ情報が含まれると決定することに応答して、環境タイプ情報に対応するオーディオを抽出して再生するための第3再生ユニット9043と、特徴情報に人数が含まれると決定することに応答して、人数に対応するオーディオを抽出して再生するための第4再生ユニット9044と、を含む。
【0176】
本開示の上記実施例にて提供されるオーディオ再生装置は、目標空間内の少なくとも1人のユーザついての意図判定データを収集することにより、意図判定データに基づいて、ユーザが持つ目標発声意図を決定し、続いて、目標発声意図に基づいて特徴情報を決定し、最後に、プリセットのオーディオライブラリから特徴情報に対応するオーディオを抽出して再生し、それにより、電子機器がユーザの目標発声意図を自動判断することを実現し、ユーザが発声意図を持つと判定した場合、電子機器がオーディオを自動再生し、ユーザがオーディオ再生を能動的にトリガーする操作を必要とせず、オーディオを再生するユーザの操作ステップを減らし、オーディオ再生操作の利便性を向上させた。また、ユーザの現在特徴を決定することにより、再生されるオーディオをユーザの特徴に適応させ、それにより、より正確にユーザが聴取したいオーディオを再生することが実現され、オーディオの自動再生の指向性を向上させた。
【0177】
例示的な電子機器
以下、
図11を参照しながら本開示の実施例による電子機器について説明する。当該電子機器は、
図1に示す端末機器101及びサーバ103のうちのいずれか1つ、又は両方、又はそれらとは別体の単体機器であってもよく、当該単体機器は端末機器101及びサーバ103と通信して、収集された入力信号をそれらから受信することができる。
【0178】
図11は、本開示の実施例による電子機器のブロック図を示す。
【0179】
図11に示すように、電子機器1100は、1つ又は複数のプロセッサ1101及びメモリー1102を含む。
【0180】
プロセッサ1101は、中央処理装置(Central Processing Unit、CPU)又はデータ処理能力及び/又は命令実行能力を有する他の形態の処理装置であってもよく、かつ、電子機器1100内の他の構成要素を制御して所望の機能を実行することができる。
【0181】
メモリー1102は、1つ又は複数のコンピュータプログラム製品を含んでもよく、コンピュータプログラム製品は、揮発性メモリー及び/又は不揮発性メモリー等の様々な形態のコンピュータ可読記憶媒体を含んでもよい。揮発性メモリーは、例えば、ランダムアクセスメモリー(Random Access Memory、RAM)及び/又はキャッシュメモリー(cache)等を含んでもよい。不揮発性メモリーは、例えば、読み取り専用メモリー(Read-Only Memory、ROM)、ハードディスク、フラッシュメモリー等を含むことができる。コンピュータ可読記憶媒体に1つ又は複数のコンピュータプログラム命令を記憶することができ、プロセッサ1101はプログラム命令を実行して上記の本開示の様々な実施例のオーディオ再生方法及び/又は他の所望の機能を実現することができる。コンピュータ可読記録媒体に、意図判定データ、特徴情報、オーディオ等の様々な内容も記憶してもよい。
【0182】
例示において、電子機器1100は、さらに、入力装置1103及び出力装置1104を含んでもよく、これらの構成要素はバスシステム及び/又は他の形態の接続機構(図示せず)を介して互に接続する。
【0183】
例えば、当該電子機器が端末機器101又はサーバ103である場合、入力装置1103は、意図判定データを入力するためのカメラ、マイクロホン等のデバイスであってもよい。当該電子機器が単体機器である場合、入力装置1103は通信ネットワークコネクタであってもよく、端末機器101及びサーバ103から、入力された意図判定データを受信するために用いられる。
【0184】
出力装置1104は、抽出されたオーディオを含む様々な情報を外部に出力することができる。出力装置1104は、例えばディスプレイ、スピーカ、通信ネットワーク及びそれらによって接続されるリモート出力装置等を含んでもよい。
【0185】
当然のことながら、簡略化のために、
図11では、電子機器1100のうち、本開示に関連する構成要素の一部のみを示し、バス、入力/出力インターフェース等の部材は省略された。それ以外に、具体的な適用状況に応じて、電子機器1100は任意の他の適切な構成要素をさらに含むことができる。
【0186】
例示的なコンピュータプログラム製品及びコンピュータ可読記憶媒体
本開示の実施例は、上記の方法及び機器以外に、コンピュータプログラム命令を含むコンピュータプログラム製品でもあり得、前記コンピュータプログラム命令がプロセッサによって実行されると、前記プロセッサが、本明細書の上記「例示的な方法」部分に記載された本開示の様々な実施例によるオーディオ再生方法のステップを実行する。
【0187】
前記コンピュータプログラム製品は、1つ又は複数のプログラミング言語の任意の組み合わせで、本開示の実施例の操作を実行するためのプログラムコードを書くことができ、前記プログラミング言語は、Java(登録商標)、C++等のオブジェクト指向のプログラミング言語を含み、さらに、「C」言語又は同様のプログラミング言語等の従来の手続き型プログラミング言語を含む。プログラムコードは、完全にユーザコンピューティングデバイス上で実行されても、部分的にユーザデバイス上で実行されても、スタンドアロンソフトウェアパッケージとして実行されても、一部分がユーザコンピューティングデバイス上で一部分がリモートコンピューティングデバイス上で実行されても、完全にリモートコンピューティングデバイス上で又はサーバ上で実行されてもよい。
【0188】
また、本開示の実施例は、コンピュータ可読記憶媒体であってもよく、それにはコンピュータプログラム命令が記憶されており、前記コンピュータプログラム命令がプロセッサによって実行されると、前記プロセッサが、本明細書の上記「例示的な方法」部分に記載された本開示の様々な実施例によるオーディオ再生方法のステップを実行する。
【0189】
前記コンピュータ可読記憶媒体として、1つ又は複数の読み取り可能な媒体の任意の組み合わせを用いてもよい。読み取り可能な媒体は、読み取り可能な信号媒体であっても、読み取り可能な記憶媒体であってもよい。読み取り可能な記憶媒体は、例えば、電気的、磁気的、光学的、電磁気的、赤外線、又は半導体のシステム、装置、若しくはデバイス、又はこれらの任意の組み合わせを含むことができるが、これらに限定されない。読み取り可能な記憶媒体のより具体的な例(非網羅的なリスト)は、1つ又は複数のリード線を有する電気接続、ポータブルディスク、ハードディスク、ランダムアクセスメモリー(RAM)、読み取り専用メモリー(ROM)、消去可能なプログラマブル読み取り専用メモリー((Erasable Programmable Read-Only Memory、EPROM)又はフラッシュメモリー)、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリー(Compact Disc Read-Only Memory、CD-ROM)、光記憶デバイス、磁気記憶デバイス、又は上記の任意の適切な組み合わせを含んでもよい。
【0190】
以上は、具体的な実施例を参照しながら本開示の基本的な原理について説明したが、本開示に言及された利点、優位性、効果等は例示的なものにすぎず、限定的なものではなく、これらの利点、優位性、効果等は本開示の各実施例が必ず備えると考えるべきではないことに留意されたい。また、上記に開示した具体的な詳細は、例示的な役割及び理解を容易にする役割のためのものにすぎず、限定するものではなく、上記の詳細は、上記の具体的な詳細を用いて本開示を実現しなければならないと限定するものではない。
【0191】
本明細書における各実施例は、いずれも漸進的な方式を用いて説明し、他の実施例との相違点を中心に各実施例説明し、各実施例間の同一又は類似の部分は互に参照すればよい。システムの実施例にとって、それは方法の実施例に基本的に対応するため、簡単に説明し、関連箇所は方法の実施例の部分についての説明を参照すればよい。
【0192】
本開示において、関わるデバイス、装置、機器、システムのブロック図は、例示的な例に過ぎず、必ずしもブロック図に示す方式に従って接続、配置、構成するように要求又は示唆することを意図しない。当業者であれば、任意の方式に従ってこれらのデバイス、装置、機器、システムを接続、配置、構成することができることを理解するだろう。「含む」、「含有する」、「有する」等の用語は、オープン型用語であり、「含むが、これらに限定されない」ということを意味し、かつ、それと互換的に使用できる。本明細書に使用される用語「又は」と「及び」は、用語「及び/又は」を意味し、文脈上でそうでないことを明示しない限り、それらと互換的に使用できる。本明細書に使用される用語「例えば…等」は、連語の「例えば…等、限定するものではない」を意味し、かつ、それと互換的に使用できる。
【0193】
多くの方式で本開示の方法及び装置を実現することが可能である。例えば、本開示の方法及び装置は、ソフトウェア、ハードウェア、ファームウェア、又はソフトウェア、ハードウェア、ファームウェアの任意の組み合わせで実現できる。前記方法のステップに用いられる上記順序は、説明するだけで、本開示の方法のステップは、ほかの形態で特に説明しない限り、上記の具体的に説明した順序に限定されない。さらに、いくつかの実施例では、本開示による方法を実現するための機械読み取り可能な命令を含む、記録媒体に記録されたプログラムとして、本開示を実施してもよい。したがって、本開示は、本開示による方法を実行するためのプログラムを記憶する記録媒体も包含する。
【0194】
なお、本開示の装置、機器及び方法では、各部材又は各ステップは、分解及び/又は再結合が可能である。これらの分解及び/又は再結合を、本開示の等価解決手段と見なすべきである。
【0195】
開示された態様の上記説明は、当業者が本開示を作製又は使用することを可能にするために提供される。これらの態様に対する様々な修正は、当業者にとって明らかであり、かつ、本明細書に定義された一般的な原理は、本開示の範囲から逸脱せず、他の態様に適用することも可能である。したがって、本開示は、本明細書に開示される原理及び新規の特徴と一致する最も広い範囲に従い、本明細書に示した態様に限定されることを意図するものではない。
【0196】
上記の説明は、例示及び説明のために提示されている。さらに、この説明は、本開示の実施例を本明細書に開示されている形態に限定することを意図しない。以上、複数の例示的な態様及び実施例を説明したが、当業者であれば、それらの一部の変形、修正、変更、追加、及びサブ組み合わせを分かるだろう。