(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-04-02
(54)【発明の名称】発声のグラフィカル調整推奨
(51)【国際特許分類】
G09B 19/06 20060101AFI20240326BHJP
G10L 25/60 20130101ALI20240326BHJP
A61B 5/11 20060101ALI20240326BHJP
【FI】
G09B19/06
G10L25/60
A61B5/11 320
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023559107
(86)(22)【出願日】2022-02-11
(85)【翻訳文提出日】2023-09-26
(86)【国際出願番号】 CN2022075990
(87)【国際公開番号】W WO2022206184
(87)【国際公開日】2022-10-06
(32)【優先日】2021-03-29
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】390009531
【氏名又は名称】インターナショナル・ビジネス・マシーンズ・コーポレーション
【氏名又は名称原語表記】INTERNATIONAL BUSINESS MACHINES CORPORATION
【住所又は居所原語表記】New Orchard Road, Armonk, New York 10504, United States of America
(74)【代理人】
【識別番号】100112690
【氏名又は名称】太佐 種一
(74)【代理人】
【識別番号】100120710
【氏名又は名称】片岡 忠彦
(74)【復代理人】
【識別番号】100104880
【氏名又は名称】古部 次郎
(74)【復代理人】
【識別番号】100118108
【氏名又は名称】久保 洋之
(72)【発明者】
【氏名】ヒューイット、トゥルーディ、エル
(72)【発明者】
【氏名】コンプトン、クリスチャン
(72)【発明者】
【氏名】トムリンソン、メリリー、フリーバーグ
(72)【発明者】
【氏名】ウェトリ、クリスティーナ、リン
(72)【発明者】
【氏名】フォックス、ジェレミー、アール
【テーマコード(参考)】
4C038
【Fターム(参考)】
4C038VB03
4C038VB05
4C038VB07
4C038VC05
(57)【要約】
ユーザの顔の空間データが収集される間に、ユーザが話す音声が収集される。顔の要素の位置が特定され、要素の相対的な位置はユーザの声の複数の質を引き起こす。要素の位置のサブセットは、期間中に検出されたユーザの声の第1の質を引き起こすことが特定される。ユーザの声が第1の質ではなく第2の質を有するようにすることが判定される、1つ以上の要素の代替位置が特定される。位置のサブセットから代替位置への1つ以上の調整を示す顔のグラフィカル表現がユーザに提供される。
【特許請求の範囲】
【請求項1】
ユーザがある期間中に発声すると前記ユーザの声の音声データを受信することと、
前記期間中の前記ユーザの顔の空間データを受信することと、
前記空間データを用いて、前記期間中に前記顔の要素の前記顔の他の要素に対する位置を特定することであって、前記要素の相対的な位置は、前記ユーザの声の複数の質を引き起こす、特定することと、
1つ以上の前記要素の位置のサブセットが、前記期間中に前記複数の質のうち検出された第1の質を引き起こすことを特定することと、
前記ユーザの声が前記第1の質ではなく前記複数の質のうちの第2の質を有するようにすることが判定される、前記1つ以上の要素の代替位置を判定することと、
前記位置のサブセットから前記代替位置への1つ以上の調整を示す前記顔のグラフィカル表現を前記ユーザに提供することと、を含むコンピュータ実装方法。
【請求項2】
前記要素の位置の特定は、前記ユーザの前記顔の初期ベクトル図を特定することを含み、
前記代替位置の判定は、前記ユーザの前記顔の調整済みベクトル図を判定することを含み、
前記顔の前記グラフィカル表現の提供は、前記初期ベクトル図と前記調整済みベクトル図の両方を提供することを含む、請求項1に記載のコンピュータ実装方法。
【請求項3】
前記グラフィカル表現はリアルタイムで提供される、請求項1に記載のコンピュータ実装方法。
【請求項4】
前記ユーザの前記顔の現在の画像上にリアルタイムで前記グラフィカル表現を提供するために拡張現実装置を使用することをさらに含む、請求項3に記載のコンピュータ実装方法。
【請求項5】
前記ユーザの口の中の前記ユーザの舌の位置に関するデータを収集することをさらに含み、前記顔の要素の前記位置は前記ユーザの前記舌上の要素を含み、前記1つ以上の調整は前記舌上の前記要素の少なくとも1つの要素の代替位置を含む、請求項1に記載のコンピュータ実装方法。
【請求項6】
超音波センサ、マウスガード、リテーナー、または舌スリーブのうちの1つが、前記舌の前記位置に関する前記データを収集する、請求項5に記載のコンピュータ実装方法。
【請求項7】
前記ユーザの年齢と言語を特定することと、
前記年齢および前記言語に対して特別に訓練された機械学習モデルを特定することであって、前記機械学習モデルが、
前記音声データを受信することと、
前記空間データを受信することと、
前記要素の位置を特定することと、
前記位置の前記サブセットが前記第1の質をどのように引き起こすかを特定することと、
前記1つ以上の前記要素の前記代替位置を判定することと、を行う、特定することと、を含む請求項1に記載のコンピュータ実装方法。
【請求項8】
空間データを分析することによって前記ユーザの顔形状を特定することをさらに含み、前記代替位置を判定することは、類似の顔形状を有する顔のコーパスに対して顔を比較することを含む、請求項1に記載のコンピュータ実装方法。
【請求項9】
前記第1の質の重要度を判定することをさらに含み、前記調整は前記判定された重要度を考慮する、請求項1に記載のコンピュータ実装方法。
【請求項10】
プロセッサと、
前記プロセッサと通信するメモリであって、前記プロセッサによって実行されると、前記プロセッサに、
ユーザがある期間中に発声すると前記ユーザの声の音声データを受信することと、
前記期間中の前記ユーザの顔の空間データを受信することと、
前記空間データを用いて、前記期間中に前記顔の要素の前記顔の他の要素に対する位置を特定することであって、前記要素の相対的な位置は、前記ユーザの声の複数の質を引き起こす、特定することと、
1つ以上の前記要素の位置のサブセットが、前記期間中に前記複数の質のうち検出された第1の質を引き起こすことを特定することと、
前記ユーザの声が前記第1の質ではなく前記複数の質のうちの第2の質を有するようにすることが判定される、前記1つ以上の要素の代替位置を判定することと、
前記位置のサブセットから前記代替位置への1つ以上の調整を示す前記顔のグラフィカル表現を前記ユーザに提供することと、を行わせる命令を含むメモリと、を含むシステム。
【請求項11】
前記要素の位置の特定は、前記ユーザの前記顔の初期ベクトル図を特定することを含み、
前記代替位置の判定は、前記ユーザの前記顔の調整済みベクトル図を判定することを含み、
前記顔の前記グラフィカル表現の提供は、前記初期ベクトル図と前記調整済みベクトル図の両方を提供することを含む、請求項10に記載のシステム。
【請求項12】
前記グラフィカル表現はリアルタイムで提供される、請求項10に記載のシステム。
【請求項13】
前記メモリは、前記プロセッサによって実行されると、前記プロセッサに、前記ユーザの前記顔の現在の画像上にリアルタイムで前記グラフィカル表現を提供するために拡張現実装置を使用させる命令をさらに含む、請求項12に記載のシステム。
【請求項14】
前記メモリは、前記プロセッサによって実行されると、前記プロセッサに、前記ユーザの口の中の前記ユーザの舌の位置に関するデータを収集させる命令をさらに含み、前記顔の要素の前記位置は前記ユーザの前記舌上の要素を含み、前記1つ以上の調整は前記舌上の前記要素の少なくとも1つの要素の代替位置を含む、請求項10に記載のシステム。
【請求項15】
超音波センサ、マウスガード、リテーナー、または舌スリーブのうちの1つが、前記舌の前記位置に関する前記データを収集する、請求項14に記載のシステム。
【請求項16】
1つ以上のコンピュータ可読記憶媒体と、前記1つ以上のコンピュータ可読記憶媒体に集合的に記憶されたプログラム命令とを含むコンピュータプログラム製品であって、前記プログラム命令は、1つ以上のプロセッサによって実行可能であり、前記1つ以上のプロセッサに、
ユーザがある期間中に発声すると前記ユーザの声の音声データを受信することと、
前記期間中の前記ユーザの顔の空間データを受信することと、
前記空間データを用いて、前記期間中に前記顔の要素の前記顔の他の要素に対する位置を特定することであって、前記要素の相対的な位置は、前記ユーザの声の複数の質を引き起こす、特定することと、
1つ以上の前記要素の位置のサブセットが、前記期間中に前記複数の質のうち検出された第1の質を引き起こすことを特定することと、
前記ユーザの声が前記第1の質ではなく前記複数の質のうちの第2の質を有するようにすることが判定される、前記1つ以上の要素の代替位置を判定することと、
前記位置のサブセットから前記代替位置への1つ以上の調整を示す前記顔のグラフィカル表現を前記ユーザに提供することと、を行わせるコンピュータプログラム製品。
【請求項17】
前記要素の位置の特定は、前記ユーザの前記顔の初期ベクトル図を特定することを含み、
前記代替位置の判定は、前記ユーザの前記顔の調整済みベクトル図を判定することを含み、
前記顔の前記グラフィカル表現の提供は、前記初期ベクトル図と前記調整済みベクトル図の両方を提供することを含む、請求項16に記載のコンピュータプログラム製品。
【請求項18】
前記グラフィカル表現はリアルタイムで提供される、請求項16に記載のコンピュータプログラム製品。
【請求項19】
前記1つ以上のコンピュータ可読記憶媒体は、前記1つ以上のプロセッサによって実行されると、前記1つ以上のプロセッサに、前記ユーザの前記顔の現在の画像上にリアルタイムで前記グラフィカル表現を提供するために拡張現実装置を使用させる命令をさらに含む、請求項18に記載のコンピュータプログラム製品。
【請求項20】
前記1つ以上のコンピュータ可読記憶媒体は、前記1つ以上のプロセッサによって実行されると、前記1つ以上のプロセッサに、前記ユーザの口の中の前記ユーザの舌の位置に関するデータを収集させる命令をさらに含み、前記顔の要素の前記位置は前記ユーザの前記舌上の要素を含み、前記1つ以上の調整は前記舌上の前記要素の少なくとも1つの要素の代替位置を含む、請求項16に記載のコンピュータプログラム製品。
【発明の詳細な説明】
【背景技術】
【0001】
各言語には、音声が所定の発音に一致するために必要な、特定の可聴品質(例えば、音素)がある。これらの可聴品質は、ユーザが話したり発声したりするときに口が描く形状によって制御されることが多い。例えば、特定の可聴品質は、口の唇が特定の形状を定義すること、舌が特定の形状を定義すること、舌が口の中で特定の構成にあること(例えば、上の歯に触れる、または高くなる、または凹む)、ユーザの顎を落として口の中の空間を広げること、などを要求する。ある状況において、人は「正しくない」発音(例えば、辞書によって定義された所定の発音と一致しない発音)を学習することができ、このような人は、言葉を「正しく」発音するために、物理的な話し方を変える方法を学習する必要がある。
【発明の概要】
【0002】
本開示の態様は、ユーザに提案された顔の調整のグラフィカル表現を提供することに関する方法、システム、およびコンピュータプログラム製品に関し、これらの調整は、ユーザの発声の検出された質を変更するために判定される。例えば、本方法は、ある期間中にユーザが発声するとユーザの声の音声データを受信することを含む。本方法はまた、期間中のユーザの顔の空間データを受信することを含む。本方法はまた、空間データを用いて、期間中に顔の要素の顔の他の要素に対する位置を特定することを含み、要素の相対的な位置は、ユーザの声の複数の質を引き起こす。本方法はまた、1つ以上の要素の位置のサブセットが、期間中に複数の質のうち検出された第1の質を引き起こすことを特定することを含む。本方法はまた、ユーザの声が第1の質ではなく複数の質のうちの第2の質を有するようにすることが判定される、1つ以上の要素の代替位置を判定することを含む。本方法はまた、位置のサブセットから代替位置への1つ以上の調整を示す顔のグラフィカル表現をユーザに提供することを含む。本方法の動作を実行するように構成されたシステム及びコンピュータプログラム製品も本明細書において提供される。
【0003】
上記概要は、例示された各実施形態または本開示のすべての実施形態を説明することを意図していない。
【0004】
本願に含まれる図面は、本明細書に組み込まれ、本明細書の一部を構成する。これらは、本開示の実施形態を例示するものであり、説明とともに、本開示の原理を説明するのに役立つ。図面は、特定の実施形態を例示するに過ぎず、本開示を限定するものではない。
【図面の簡単な説明】
【0005】
【
図1】コントローラが、ユーザが発声しているときにユーザに関する情報を収集し、コントローラが、ユーザに顔の調整案をグラフィカルに提供できるようにするシステムの例の概念図を示しており、これらの調整は、ユーザの音声の検出された質を変更するように判定される。
【
図2A】
図1のコントローラがグラフィカルに提供し得る、ユーザの口の形状に対する調整の一例を示す図である。
【
図2B】
図1のコントローラがグラフィカルに提供し得る、ユーザの頬骨の位置に対する調整の一例を示す図である。
【
図2C】
図1のコントローラがグラフィカルに提供し得る、ユーザの舌の位置に対する調整の一例を示す図である。
【
図3】
図1のコントローラの構成要素の一例を示す概念的なボックス図である。
【
図4】
図1のコントローラが、ユーザの音声の質を変更するための顔調整推奨事項をグラフィカルに提供することができる例示的なフローチャートを示す図である。
【0006】
本発明は、様々な変更および代替形態に従う一方で、その具体的な内容は、図面において例として示されており、詳細に説明される。しかしながら、本発明を説明した特定の実施形態に限定する意図はないことを理解されたい。それどころか、本発明の範囲に入るすべての変更、等価物、および代替物をカバーすることが意図されている。
【発明を実施するための形態】
【0007】
本開示の態様は、発声を改善するための推奨事項を提供することに関し、本開示のより特定の態様は、ユーザが発声している間にユーザの空間データおよび音声データを収集し、ユーザが発声の質を変えるために発声方法を物理的に変更できる方法のグラフィカル表現を提供することに関する。本開示は必ずしもこのような用途に限定されるものではないが、本開示の様々な態様は、この文脈を用いた様々な例の議論を通じて理解することができる。
【0008】
人の声には、様々な場面で望まれる特定の言語的特質がある。例えば、所定の言語内の単語を正しく発音する(例えば、正しい発音が辞書にあるような所定の発音と一致する)ためには、ユーザが作らなければならない特定の音素のような特定の質が存在する場合がある。別の例では、特定の方法で(例えば、オペラ的な方法で)歌うために、ユーザが作らなければならない音色またはトーンのような特定の質が存在する場合がある。本明細書で使用されるように、人の発声の質は、人がその質を提供している間に口腔が作る形状(例えば、その形状が顎、口、唇、舌などの相対的な向きによって作られる場合)に依存する可聴特性である。一般に本開示は、議論の目的のために、第1の質(例えば、この第1の質が、技術的に正しくない誤った辞書の定義もしくは一般的に好ましくない「空気のような」歌声またはその両方であるとして本明細書で議論される)および第2の質(この第2の質が技術的に正しいもしくは一般的に好ましいまたはその両方)に関して説明するが、この開示の態様が、本明細書に議論するように数百(またはそれ以上の)種類の質もしくは質の重要性またはその両方を検出し対処することに関することは、理解されるものとする。
【0009】
人は、ある言語を話したり、歌ったりすることを学ぶとき、顔で正しい一連の物理的な動きを作らない結果、最初は完璧な発音や完璧なフォームにならないことがよくある。例えば、ある人が口で間違った形状を作った結果、1つ以上の音素を作ることが難しくなることがある。例えば、舌が上顎の切歯の裏に触れるような正しい形状を定義できなかった結果、「L」を間違って発音する人(例えば、「Y」を発音するのと同じように)、「巻き舌のr」の発音ができない人(例えば、歯槽骨トリル、歯槽骨フラップ、後屈トリル、または口蓋トリル)、対角文字<th>の発音が困難な人(例えば、「three」を「tree」と発音してしまう人)などである。
【0010】
人は、言語病理学者やボイスコーチなどの人の専門家のサービスを利用することで、これを解決しようとすることがある。その専門家は、発声や歌の質を向上させるために、口腔内で特定の形状を作る方法を教える高度な専門訓練を受けた人であってもよい。ある種の単語を発音する方法を再学習することは難しいため(特に、人が長い間特定の方法で発音/発声していた後)、ある種の人にとっては不満や困難を伴うプロセスかもしれない。さらに、人の専門家は、物理的に他人にその形状を定義させることができないため、新しい形状を定義する方法を口頭で説明し、もしくは自分自身や人形/マネキンに新しい形状を示し、またはその組み合わせに頼らざるを得ないことが多い。このように、いくつかの例では、第1の質で話している人が、第2の質で話すために、どのように物理的な話し方を変えるべきかを理解することは非常に難しいかもしれない。
【0011】
従来のコンピューティングシステムの中には、「正しくない」質で話すユーザを検出するプロセスの一部を自動化することにより、この状況を合理化しようとするものがあった。例えば、従来のコンピューティングシステムは、人が話すような正しい質の発声と正しくない質の発声との間の差の量を計算することができる。いくつかの例では、従来のコンピューティングシステムは、この人が発声する方法に関して、物理的に正しくない1つ以上の態様をさらに特定することができる。しかし、これらの従来のコンピューティングシステムは、発声問題の正しい診断に役立つかもしれない一方で、正しくない/好ましくない質で発声している人は、代わりに正しい/好ましい質で発声する方法を学ぶ上で、これらの従来のコンピューティングシステムが役に立たないと思う場合がある。
【0012】
本開示の態様は、これらの問題の一部または全部を解決するか、もしくは対処し得る。メモリ上に記憶された命令を実行する処理装置を含むコンピューティングデバイスは、これらの問題に対処する機能を提供することができ、このコンピューティングデバイスは、本明細書ではコントローラと称される。コントローラは、ユーザが発声している間に、ユーザの顔もしくは口腔またはその両方に関する音声データおよび空間データを収集することができる。コントローラは、この収集したデータを用いて、ユーザが発声(例えば、話すまたは歌う)している間のユーザの顔上の要素の相対位置を特定することができ、異なる発声に対応するものとして期間にわたってこれらの位置を追跡することを含む。例えば、コントローラは、ユーザの顔に対応するこれらの要素のベクトル図を生成することができる。コントローラは、特定の閾値を満たさないユーザの声の質があるか否かを判定してもよい。コントローラは、音声データを分析することによって、もしくは空間データを分析することによって、またはその組み合わせによって、任意の質が特定の閾値を満たさないか否かを判定することができる。いずれかの質がこれらの閾値を満たさない場合、コントローラは、発声を好ましくない第1の質から好ましい第2の質に変更すると判定された要素の代替位置を判定することができる。そして、コントローラは、これらの代替位置の表現をグラフィカルに提供することができる。
【0013】
例えば、コントローラは、これらの代替位置のグラフィカル表現を提供するユーザの拡張画像を提供することができる。コントローラは、ユーザの1つ以上の拡張画像を提供してもよく、例えば、コントローラは、ユーザが発声している間、ユーザの口の正面図、側面図、もしくは内部図またはその組み合わせのうちの1つ以上を示してもよい。コントローラは、拡張現実装置を使用して、ユーザの顔の現在の画像上にリアルタイムでグラフィカル表現を提供することができる。ユーザの拡張画像は、望ましくない第1の質から好ましい第2の質に変更するために、ユーザが口/舌/顔の形成/形状/動かし方において行うべきいくつかの変更を強調または指示することができる。いくつかの例では、コントローラは、リアルタイムでこのグラフィカル表現を機能的に提供し(例えば、ユーザの要素の位置が検出および分析され、ユーザがこれらの要素の位置を定義する顔を作ってから数ミリ秒以内に応答する代替位置が提供されるように)、ユーザが、口/舌/顔の形成/形状/動かし方に関する即時かつ動的な視覚的指導を受けるようにすることができる。
【0014】
さらに、この議論は、第1の初期質から第2の最終質に変更するために、コントローラが顔の調整を提案するという観点から主に議論されているが、いくつかの例では、コントローラは、第2の質を達成するための調整を、完璧/好ましい発音への一連のステップのうちの第1のステップとして提案する場合がある。例えば、コントローラは、完璧な/好ましい発音に一致させるために、ユーザの発声に対して12個の調整を行うべきであると判定することができる。コントローラは、さらに、一度に12個の調整を提案することは、あまりに紛らわしく、もしくは困難である、またはその両方の可能性があることを特定することができる。そのため、コントローラは、ユーザが時間をかけて行う一連の調整(例えば、第1の初期質から第2の改善質、第3のさらなる改善質、第4の最終完全質まで)を特定することができ、各調整は、先行する調整の上に構築される。コントローラは、ユーザが各個別のステップをマスターするにつれて、これらのステップを時間と共に提供することができる。いくつかの例では、このような進行は、特定の「ベクトルポイント」(例えば、要素が初期位置から所定の中間位置に移動する場所)を含むことができ、ユーザが中間ベクトルポイントを達成できることを実証した後、コントローラは、本明細書で論じるように、最終的に好ましい最終発声質をもたらす計算ベクトルに沿ってベクトルポイントをさらに拡張することができるようにする。
【0015】
これを超えて、本開示の態様は、顔の動きに関連する状態の診断もしくは治療の提供またはその両方をするために使用され得る。例えば、本開示の態様は、時間の経過とともに、所定のユーザの顔の片側の笑顔の相対的な下垂(これは、脳卒中を示す可能性がある)を検出することができる。本開示は、そのような医学的状態を検出し、検出したことに応答して責任者にアラートを提供し得る。代替的に、もしくは追加的に、またはその両方で、本開示の態様は、医療事故後(例えば、脳卒中後、または麻痺事象後など)の顔の可動性を改善するように構成された顔の動きを反映する、ユーザが作成し得る代替位置のグラフィカル表現を提供してもよい。同様に、コントローラが、ユーザが顔の動きに影響を与える症状を有すると判定し、また、ユーザが変更することを好む質を有する発声を有すると判定する場合、コントローラは、ユーザがまだ実行(例えば、病状を考慮して実行)できる動作であって、第1の質を好ましい第2の質に変更することができる(例えば、この好ましい第2の質が完全に第3の質とまではいかないとしても)ものを特定して提供し得る。
【0016】
さらに、本開示は、所定の完璧な「辞書」定義に従って、話す人を改善する方法を主に議論するが、当業者であれば、本開示の態様は、コントローラが、ユーザの歌声を改善するように構成された顔の調整を提案すること、コントローラに、ユーザが好む特定のタイプの笑顔を再現することを支援させること(例えば、例えば、ユーザに口角を上げるように指示し、またはユーザに頬骨を上げさせ、「目で微笑む」ように指示することによって)、地域のアクセントを作ることを支援すること(例えば、俳優が映画のためにボストンのアクセントを完璧にしようとしている場合など)、などがあることを理解するであろう。
【0017】
例えば、
図1は、コントローラ110が、ユーザ120が発声(例えば、話す、歌うなど)しているときにユーザ120の音声データおよび空間データを収集し、判定された調整のグラフィカル表現を提供する環境100を示す。コントローラ110は、コントローラ110に本明細書で議論される動作を実行させる命令を記憶するメモリ(
図3に示すような)に結合されたプロセッサを含むことができる。
図1のコントローラ110は、議論の目的のために単一の構成要素として描かれ、議論されているが、他の例では、コントローラ110は、本明細書で説明する機能を実行するために何らかの方法で一緒に働く多数のコンピューティングシステムを含む(または他の方法でその一部となる)ことができる。さらに、コントローラ110は、一般に、ユーザ120の近傍にあるコンピューティングデバイス内でホストされるように本明細書の機能を提供するものとして議論されるが、他の例では、コントローラ110の一部またはすべての機能は、追加的もしくは代替的に、またはその両方で、機能が複数の分散型ハードウェアコンポーネントから集約できるように仮想化できることに理解されたい。このような分散型の場合、コントローラ110によって提供される機能性は、クラウドコンピューティングアレンジメントにおけるサービスとして提供することができる(例えば、ユーザデバイス上のウェブポータルを介して)。
【0018】
コントローラ110は、調整のグラフィカル表現をディスプレイ130に提供してもよい。ディスプレイ130は、コントローラ110によって生成される画像をグラフィカルに提示するように構成されたコンピューティングデバイスであってよい。例えば、ディスプレイ130は、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、有機発光ダイオード(OLED)ディスプレイなどを含み得る。いくつかの例では、ディスプレイ130はスタンドアロンデバイス(例えば、コンピュータ画面またはテレビ)であるが、他の例では、ディスプレイ130は、コントローラ110またはセンサ140などを収容するデバイス(例えば、ディスプレイ130が携帯電話の一部であるような)に統合されてもよい。
【0019】
コントローラ110は、センサ140を介してユーザ120の音声データもしくは空間データまたはその両方を収集することができる。センサ140は、所定の様式で単語を発音する能力もしくは特定の音色で歌う能力またはその両方を識別することを含む、ユーザ120の発声を捕捉するのに十分な精度を有するマイクロフォンを含むことができる。センサ140は、ユーザ120の音声が1つ以上の性質を有する原因となるユーザ120の顔の多くの要素またはすべての要素を捕捉するように構成されたカメラを含んでもよい。例えば、要素は、ユーザ120の唇、頬、顎、または舌に沿った異なる点を含み得、ユーザ120の顔に対するこれらの要素の異なる位置がユーザ120の声の質を変化させる。この例としては、下がった顎が声の質を変える、すぼまった唇が声の質を変える、上がった頬骨が声の質を変える、などが考えられる。コントローラ110は、複数の要素を用いて、各明確な顔の特徴(例えば、各唇、頬骨、および顎)に関連する位置データを特定してもよい。例えば、コントローラ110は、カメラセンサ140によって収集されたユーザ120の単一の唇の空間データを使用して、その単一の唇上にあり、これらの要素のいずれかが発声中に逸脱すると発声の質が変化する5、10、またはそれ以上の要素を判定してもよい。
【0020】
いくつかの例では、センサ140は、ユーザ120の舌の位置もしくはユーザ120の口腔によって定義される形状またはその両方に関するデータを捕捉することができるコンピューティングデバイスを含むことができる。例えば、センサ140は、超音波装置など、ユーザ120の顔または頬に隣接するところからユーザ120の皮膚を通して空間データを識別するように構成されたコンピューティングデバイスを含んでもよい。別の例として、センサ140は、マウスガードまたは歯科用リテーナーのような、ユーザ120の口の中に入ることができるデバイスを含むことができる。そのようなマウスガードまたはリテーナーは、上部または下部またはその両方の歯の上に置かれ、そこで舌がマウスガード/リテーナーに触れたとき(マウスガード/リテーナーがなければ、舌が上部または下部歯に触れていたようなとき)を検出するように構成される場合がある。他の例では、センサ140は、舌が歯に触れたときを検出し、もしくは舌の形状を検出するため、またはその両方のために、舌の上に着用することができる舌スリーブを含むことができる。特定の例では、ユーザ120の口の中に入ることができるセンサ140は、さらに、それ自身と口の中の他の物体(例えば、軟口蓋、舌、口蓋垂などによって定義される口腔の外枠)との間の距離を測定するために検出されることがあり、これによって、コントローラ110は、ユーザの口腔の部分または全三次元マップを判定し得る。
【0021】
コントローラ110は、センサ140によって収集された空間データもしくは音声データまたはその両方を解析して、ユーザ120のプロファイルをコンパイルすることができる。このプロファイルは、ユーザ120の顔もしくは口またはその両方の空間マップを含むことができる。例えば、コントローラ110は、ディスプレイ130に表示されているように見えるユーザ120のベクトル
図132を生成してもよい。ベクトル
図132は、ユーザ120の顔の各要素に配置される複数のノード134を含んでもよく、ノード134はベクトル136を介して接続される。いくつかの例では、コントローラ110は、音声の異なる質を引き起こす領域(例えば、ユーザ120の額よりもユーザ120の口の近くにノード134が多くあるような)においてノード134の密度がより高いベクトル
図132を作成する場合がある。しかしながら、コントローラ110は、ユーザ120が発声する際にユーザ120が自然に頭を動かすので(例えば、ユーザ120の頭が前後にうなずく、揺れるなど)、ユーザ120上にベクトル
図132をよりよく配置するために、ユーザ120の声の質に関係しない特定の位置(例えば、ユーザ120の耳など)にノード134を作成してもよい。ベクトル
図132内のノード134およびベクトル136の特定の数および配置は、純粋に例示のみを目的として提供され、本開示と一致する目的のために異なる場所に提供されるより多いまたは少ないノード134およびベクトル136が考慮されることが理解されよう。
【0022】
いくつかの例では、コントローラ110は、1つのノード134の移動がそれぞれの接続されたノード134の移動を引き起こす場合に、ベクトル136を介してノード134を接続することができる。別の言い方をすると、コントローラ110は、第1のノード134の移動が第2のノード134の移動を本質的に引き起こす場合に、2つのノード134を接続することができる。他の例では、コントローラ110は、ユーザ120が行うべき粒度の細かい調整をよりよく検出できるように(そして、ユーザ120にとって比較的重要でないと判定されるノード134もしくはベクトル136またはその両方を計算もしくは描写またはその両方するために、さらなる計算パワーが使用されないもしくは「無駄に」ならない、またはその両方とならないように)、コントローラ110はユーザ120が注目すべきだと判定した場所にノード134を集中させてもよい。
【0023】
コントローラ110は、ユーザ120の空間データおよび音声データを分析して、ユーザ120が第1の質で発声しているか否かを識別する。ここで、本明細書で議論される第1の質とは、技術標準(例えば、辞書内の発音ガイド)または広く保持される好み(例えば、歌声の豊かで完全な音色)に一致しない質を含む。コントローラ110は、ユーザ120の発声中の音声もしくは空間データまたはその両方をコーパス150と比較することによって、発声がそのような第1の質であるか否かを判定してもよく、ここで、コーパス150は、相当量の人々の発声に関するデータの大規模構造化リポジトリを含む。コントローラ110は、ユーザ120の発声を、コーパス150内で第1の質で発声していると分類される人々のデータ(例えば、単語が辞書の定義に従って発音されていない場合、歌声が鼻音や空気が入っていると知覚される音色または音質を有する場合など)と比較し得る。コントローラ110が、ユーザ120の可聴品質が、そのような第1の質を反映するものとしてコーパス150内に分類されるコーパス150内の過去のオーディオ録音と一致する(たとえば、信頼度の閾値量で一致する)と判定する場合、コントローラ110は、ユーザ120の発声が第1の質を有すると判定し得る。
【0024】
同様に、コントローラ110は、発声中のユーザ120の顔の要素の相対位置に関する情報を、コーパス150内に記憶されている人々の相対的な顔の位置と比較することができる。例えば、コーパス150は、特定の単語の発声中のいくつかの記憶された過去の相対的な顔の位置が、第1の質の発声を引き起こすものとして分類されるように構造化され得る。コントローラ110は、本明細書で議論されるような顔要素の相対位置をコーパス150のこれらの分類された履歴の相対位置と比較して、ユーザ120の要素の相対位置が第1の質を示すものとして分類される履歴の要素位置と一致する場合、コントローラ110はユーザ120の発声が第1の質であると判定し得るようにしてもよい。
【0025】
いくつかの例では、コントローラ110は、ユーザ120の発声によって示されるような第1の質の重要度を判定することができる。例えば、発声のいくつかの質は、音素が正しく発音されるか、または誤って発音されるかを判定する方法ではなく、音素が正しく発音されるか、わずかに誤って発音されるか、または劇的に誤って発音されるかを判定する方法であってもよいように、非二元的である場合がある。必ずしも二項対立ではないが、スペクトル上で頻繁に評価される音声障害の例として、英語の中の舌足らずが挙げられる。同様に、歌声は、第1の比較的望ましくない質が「空気感」、第2の比較的望ましい質が「豊かさ」であり、空気感のある声と豊かな声の間には多くの段階がある、というスペクトル上で識別される場合がある。
【0026】
第1の質が、二値でないような重要度スケール(例えば、1~10のスケール)で定量化可能である例では、コントローラ110は、音声もしくは空間データまたはその両方に一致する履歴レコードのそれぞれのセットが、ユーザ120の発声の第1の質の重要度を示すように、その重要度スケールで異なる値であると(コーパス150内で)分類されるコーパス150の履歴レコードセットに対してユーザ120の音声および空間データを比較し得る(例えば、重要度スケールで7である履歴レコードのセットがユーザ120の発声データに一致する場合、コントローラ110は、ユーザの発声データが重要度7の第1の質を有すると判定する)。
【0027】
コントローラ110は、ユーザ120の顔の要素の代替位置を判定し、これらの代替位置は、ユーザ120の音声を第1の質から第2の質に変化させるように判定され、ここで議論される第2の質は、技術標準または広く保持されている好みに一致する(または他の方向へのステップとなる)質を含む。コントローラ110は、ユーザ120が話している空間データもしくは音声データまたはその両方をコーパス150と比較することによって代替位置を判定することができ、コーパス150は、その第2の質として分類されるユーザ120の空間データもしくは音声データまたはその両方を含んでいる。
【0028】
いくつかの例では、コーパス150は、単一の履歴上の人物が、第1の質と、第2の質との両方で発声する履歴レコードを含む場合がある(例えば、履歴上の人物が、第2の質で発声する方法を学んだとき、潜在的には、本明細書に記載のコントローラ110からの指示された支援の結果として)。そのような例では、コントローラ110が、ユーザ120の音声データもしくは空間データまたはその両方が、第1の質で発声すると分類された履歴上の人物の履歴データと一致すると判定した場合、コントローラ110は、第2の質で発声するその同じ履歴上の人物の空間データを使用して、ユーザ120の顔の要素についての代替位置を判定し得る。例えば、コントローラ110は、履歴上の人物が第1の質で発声することから第2の質で発声することに調整されたときの履歴上の人物の相対的要素の相対的変化を判定し、ユーザ120のベクトル
図132に一致するようにスケーリングされた変化を適用して、代替位置を判定することができる。
【0029】
いくつかの例では、コントローラ110は、コントローラ110が、例えば、異なる顔の構造が第1の質から第2の質に変化するためにどのように異なる種類の変化を必要とするかの傾向を特定できるように、第1の質および第2の質で発声した記録を有するコーパス150内の複数の履歴上の相対的変化を分析してもよい。コントローラ110がコーパス150を解析して様々な空間配置に対するこれらの傾向を算出すると、コントローラ110は、それらをユーザ120のそれぞれの発声データに適用して調整を判定することができる。
【0030】
さらに、コントローラ110は、コーパス150を分析することによって判定された傾向を適用して、ユーザ120の発声の第1の質の検出された重要度を説明することができる。例えば、コントローラ110が、ユーザ120が第1の質で発声することを検出する場合、コントローラ110は、適切な場合(例えば、コントローラ110によって識別されるように、いくつかの誤発音等が二元的であってもよく、他の誤発音等が非二元的であってもよい)第1の質の重要度を判定することができる。コントローラ110が重要度を判定するそのような例では、コントローラ110は、この重要度に対応する調整を判定することができる。例えば、比較的低い重要度を有する第1の質を有する発声は、発声を第2の質に変更するために比較的小さい調整を必要とする場合があり、一方、比較的高い重要度を有する第1の質を有する発声は、発声を第2の質に変更するために比較的大きい調整を必要とする場合がある。
【0031】
さらに、上述したように、いくつかの例では、コントローラ110は、ユーザ120の発声を、最初の誤ったもしくは好ましくない、またはその両方の質から、その後の正しいもしくは好ましい、またはその両方の質に変更するための多段階計画を作成することがある。例えば、コントローラ110は、ユーザ120が1回の調整で確実かつ正確に実行するためには、あまりにも多くの調整が必要であると判定する場合がある。そのような例では、コントローラ110は、調整のフルセットを、互いに積み重なる一連の調整に分解してもよく、そこで、ユーザ120が第1の調整でマスターするまで第1の調整のグラフィカル表現を提供し、その後、マスターに達するまで第2の調整を提供する、等である。コントローラ110は、提供された調整に対してユーザ120がどのように反応するかを評価することによって、正しいもしくは好ましいまたはその両方の発声の質へと構築する方法で調整のフルセットを分解する方法を時間の経過と共に学習することができる(例えば、いくつかの順序におけるいくつかの調整が退行を引き起こすことがある場合、コントローラ110は、異なるユーザ120とのその後のセッションにおいてその順序でこれらの調整を提供する可能性は低くなる)。
【0032】
いくつかの例では、コントローラ110は、発声が第1の質であるか第2の質であるかをさらに定義する、もしくはユーザのベクトル
図132を一般的に分類する、またはその両方のユーザ120の1つ以上の特性を特定することができる。例えば、コントローラ110は、ユーザ120が発声している言語、ユーザ120の一般的な顔の形状、ユーザ120の年齢、ユーザ120のアクセントなどを特定することができる。このような例では、コントローラ110は、次に、ユーザ120の発声を、これらの特性を共有するコーパス150内のそれぞれの集団152と比較して、ユーザ120が第1の質で発声していることを識別し、もしくは代わりに第2の質で発声するようにユーザ120に調整を与え、またはその両方の際に結果を改善することができる。コントローラ110は、コントローラ110がこれらの特性を考慮した場合に、どの特性がユーザ120をより速く改善させる傾向があるかを時間の経過とともに特定し、そこでこれらの特性に従って集団152を組織化することができる。例えば、コントローラ110は、ある年齢を過ぎた人々は、より多くのしわを有する傾向があると判定し、コントローラ110がこれらの人々の顔上の要素を識別する方法を変更し、コントローラ110が、ある年齢の人(もしくはしわの量が閾値の人またはその両方)に従って集団を組織するようにすることができる。
【0033】
いくつかの例では、コントローラ110は、ユーザ120が類似の発声を望む集団152の好ましい特性を受信することができる。例えば、上記したように、俳優は、今後の役作りのために地域方言を習得したいと思うかもしれず、そのような俳優は、コントローラ110が、俳優がその方言を完成するために必要な調整を提供できるように、その地域の集団152を選択する。同様に、地域レポーターは、自分の地域方言をやめて、より中立的なアクセントにしたい場合があり、そのため、コントローラ110が使用する中立的なアクセントの特性を特定する場合がある。
【0034】
いくつかの例では、コントローラ110は、コーパス150に入力することができる。例えば、コントローラ110は、コントローラ110が所定の質を有する所定の単語をコーパス150内で検索できるように、共通のリンクされた単語、フレーズ、文字の発音などでコーパス150を自律的に入力することができる。他の例では、自然言語処理(NLP)などで訓練された人が、本明細書で説明するようにコーパス150を構造化し、潜在的に1つ以上の集団152を作成することを含むことができる。特定の例では、NLPなどで訓練された人は、コントローラ110がコーパス150内のデータに基づいて本明細書で議論されるような判定もしくは計算またはその両方を行うのに十分な大きさの初期コーパス150を構成し、それに基づいてコントローラ110がコーパス150もしくは集団152またはその両方の既存の構造および論理に従って自律的にコーパス150および集団152(全く新しい集団152の作成を含む)を成長させることができる。コントローラ110は、このようにコーパス150もしくは集団152またはその両方を教師ありまたは教師なし方式で成長させることができる。
【0035】
コントローラ110は、ネットワーク160を介して、ディスプレイ130、センサ140、もしくはコーパス150またはそれらの組み合わせと相互作用し得る。ネットワーク160は、コンピューティングメッセージが送信もしくは受信またはその両方をされ得るコンピューティングネットワークを含み得る。例えば、ネットワーク160は、インターネット、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、無線LAN(WLAN)などの無線ネットワークなどを含むことができる。ネットワーク160は、銅線伝送ケーブル、光伝送ファイバー、無線伝送、ルーター、ファイアウォール、スイッチ、ゲートウェイコンピュータ、もしくはエッジサーバーまたはその組み合わせで構成される。各コンピューティング/処理装置(例えば、コントローラ110、ディスプレイ130、センサ140、もしくはコーパス150またはその組み合わせ)のネットワークアダプタカードまたはネットワークインターフェースは、ネットワーク160からもしくはネットワーク160を通じて、またはその両方でメッセージもしくは指示またはその両方を受信し、保存または実行などのためにメッセージもしくは指示またはその両方をそれぞれのコンピュータ/処理デバイスのそれぞれのメモリまたはプロセッサに転送し得る。ネットワーク160は、説明のために
図1では単一のエンティティとして描かれているが、他の例では、ネットワーク160は、複数のプライベートネットワークもしくはパブリックネットワークまたはその両方を含むことができる。
【0036】
図2A~2Cは、第1の質で発声を引き起こす要素の初期位置から、第2の質で発声を引き起こすべきと判定された代替位置のセットへの調整を示す、ユーザ120の顔のグラフィカル表現の例を描写する。例えば、
図2Aは、調整されたベクトルによって接続された調整されたノード172を有する例示的な調整済みベクトル
図170Aを描写し、調整されたノード172は、ユーザ120の顔のそれぞれの要素についての異なる位置を示す。示されているように、調整済みベクトル
図170Aは、ユーザ120が口を多少ふくらませてより「O」字を形成する調整を有する。同様に、
図2Bは、調整済みベクトル
図170Bが、ユーザ120が頬骨を上げる調整を有することを示している。いくつかの例では、コントローラ110は、「口でOの形状を作れ」と音声で言う、もしくは「頬骨を上げろ」と述べるディスプレイ130上のテキストを提供する、またはその両方を行うなど、グラフィカル表現と共に音声またはテキストキューを提供することができる。
【0037】
いくつかの例では、コントローラ110は、調整済みベクトル
図170A、170B(集合的に、調整済みベクトル
図170)を再現する試みであるセンサ140によって検出されるユーザ120の任意の動きが、調整済みベクトル
図170と一致しない場合をさらに特定し得る。例えば、コントローラ110は、ユーザが提案された調整を「オーバーシュート」した場合、ユーザ120に通知してもよい。コントローラ110は、このフィードバックを、言語形式(例えば、「唇をほんの少し小さくしてください」と音声で述べることによって)、テキスト形式(例えば、「頬骨を少し下げてください」と述べるテキストをディスプレイ130上に提供することによって)、または「他の」方向に戻る調整を示す更新された調整済みベクトル
図170によるグラフィカル形式にて提供してもよい。
【0038】
示されているように、コントローラ110は、初期ベクトル
図132に加えて、調整済みベクトル
図170をディスプレイに表示してもよい。示されるように、調整済みベクトル
図170は、初期ベクトル
図132と異なるように表示されてもよい。例えば、調整済みベクトル
図170は、ディスプレイ130に描かれるように、異なる色、太字、強調表示、特大サイズなどであってもよい。
【0039】
示されているように、調整済みベクトル
図170は、ディスプレイ130上でグラフィカルに提供され得る。ディスプレイ130は、図解の目的で
図2Aおよび
図2Bの両方においてユーザ120の顔の下半分のみを示しているが、コントローラ110が調整のグラフィカル表現を提供している間、コントローラ110がディスプレイによりユーザ120の顔のより多いまたはより少ない部分を表示させてもよいことは理解されよう。示されているように、ディスプレイは、調整を明示的に定義するグラフィカル要素174をさらに描写することができる。例えば、
図2Aのグラフィカル要素174は、口が閉じる外縁を描写している。いくつかの例では、コントローラ110は、調整済みベクトル
図170のみを提供し、グラフィカル要素174を提供しないことがある。いくつかの例では、コントローラ110は、初期ベクトル
図132から調整済みベクトル
図170への調整をグラフィカルに示すことができる(例えば、調整済みベクトル
図170のノード172が、調整済みベクトル
図170に従った位置から、調整174に沿って動く初期ベクトル
図132の位置まで移動可能としてグラフィカルに描画されるように)。
【0040】
いくつかの例では、コントローラ110は、
図2Cに描かれているように、ユーザの口の内部のグラフィカル表現を提供することができる。コントローラ110は、ディスプレイ130A上にこのグラフィカル表現を提供してもよく、それはディスプレイ130と実質的に同様であってもよい。いくつかの例では、コントローラ110は、
図2Cに描写されるような口の内部のグラフィカル表現と、
図2Aもしくは
図2Bまたはその両方に描写されるようなユーザ120の顔のグラフィカル表現を同時に提供することができる。他の例では、コントローラ110は、ユーザ120が、
図2Cと同様の内部図と
図2Aもしくは
図2Bまたはその両方と同様の正面図との間で切り替えることを可能にしてもよい。
【0041】
示されているように、コントローラ110は、このグラフィカル表現を調整180で提供することができる。例えば、
図2Cに示されているように、コントローラ110は、口腔184内の舌182が、ユーザ120の切歯186のトップセットに触れていないことを検出することができる。コントローラ110は、さらに、舌182の先端の要素が
図2Cに描かれた位置状態を定義するときに、辞書の発音に従って発音することができない文字「L」をユーザ120が言おうとしていることを検出し、ユーザ120が代わりに第1の質(例えば、「L」がより「Y」のように聞こえる)で話すようにしてもよい。この判定に応答して、コントローラ110は、舌182の上部の要素が上部の切歯186に接触する調整180を判定する。示されているように、舌182の調整180は、破線で描かれている。他の例では、コントローラ110は、代わりに、
図2Aおよび2Bと同様のベクトル図を用いて調整を示すことができる(他の例では、コントローラ110は、調整済みベクトル
図170ではなく、破線などを用いて前面に対する調整を描写することができる)。
【0042】
上述のように、コントローラ110は、本明細書に記載の技術を実行するためにメモリ上に記憶された命令を実行するように構成されたプロセッサを含むコンピューティングデバイスを含むか、その一部であり得る。例えば、
図3は、コントローラ110のそのようなコンピューティングシステム200の概念的なボックス図である。コントローラ110は、図示の目的で単一のエンティティ(例えば、単一のハウジング内)として描かれているが、他の例では、コントローラ110は、2つ以上の離散した物理システム(例えば、2つ以上の離散したハウジング内)を含み得る。コントローラ110は、インターフェース210、プロセッサ220、およびメモリ230を含むことができる。コントローラ110は、任意の数または量のインターフェース210、プロセッサ220、もしくはメモリ230またはそれらの組み合わせを含むことができる。
【0043】
コントローラ110は、コントローラ110の外部のデバイスと通信する(例えば、データを送信し、送信されたデータを受信して利用する)ことを可能にするコンポーネントを含む場合がある。例えば、コントローラ110は、コントローラ110およびコントローラ110内のコンポーネント(例えば、プロセッサ220など)がコントローラ110の外部のエンティティと通信することを可能にするように構成されたインターフェース210を含むことがある。具体的には、インターフェース210は、コントローラ110のコンポーネントがディスプレイ130、センサ140、コーパス150などと通信することを可能にするように構成される場合がある。インターフェース210は、イーサネットカードもしくは情報を送受信できる任意の他のタイプのインターフェースデバイスまたはその組み合わせなどの1つ以上のネットワークインターフェースカードを含むことができる。特定のニーズに従って説明した機能を実行するために、任意の適切な数のインターフェースを使用することができる。
【0044】
本明細書で議論したように、コントローラ110は、ユーザ120の不正確なまたはそうでなければ好ましくない発声を識別し、発声を変更するようなユーザ120の顔への調整をグラフィカルに提供するように構成されることがある。コントローラ110は、このようにユーザ120に顔の調整を提供するためにプロセッサ220を利用することができる。プロセッサ220は、例えば、マイクロプロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、もしくは同等のディスクリートまたは集積論理回路またはそれらの組み合わせを含むことができる。2つ以上のプロセッサ220は、それに応じて顔面調整を提案するために協働するように構成され得る。
【0045】
プロセッサ220は、コントローラ110のメモリ230に格納された命令232に従って、ユーザ120に顔の調整を提案することができる。メモリ230は、コンピュータ可読記憶媒体またはコンピュータ可読記憶装置を含むことができる。いくつかの例では、メモリ230は、短期メモリまたは長期メモリのうちの1つ以上を含むことができる。メモリ230は、例えば、ランダムアクセスメモリ(RAM)、動的ランダムアクセスメモリ(DRAM)、静的ランダムアクセスメモリ(SRAM)、磁気ハードディスク、光ディスク、フロッピーディスク、フラッシュメモリ、電気的プログラム可能メモリ(EPROM)、電気的消去可能かつプログラム可能メモリ(EEPROM)などのフォームを含んでも良い。いくつかの例では、プロセッサ220は、コントローラ110のメモリ230に格納された1つ以上のアプリケーション(例えば、ソフトウェアアプリケーション)の命令232に従って、本明細書に記載のような顔の調整を提案し得る。
【0046】
命令232に加えて、いくつかの例では、本明細書に記載されるような顔の調整を提案するためにプロセッサ220によって使用されるような、集められたまたは所定のデータもしくは技術などが、メモリ230内に格納されることがある。例えば、メモリ230は、空間データ234および音声データ236などの発声中にユーザ120から収集される上述の情報を含むことができる。示されているように、空間データ234および音声データ236は、関連するようにメモリ230内に記憶されてもよく、空間データ234の各与えられたセットは、音声データ236が記録されている時点に対応する。さらに、いくつかの例では、メモリ230は、コーパス150のいくつかのまたはすべてのそれぞれの集団データ240を含むコーパスデータ238の一部または全部を含む。いくつかの例では、コントローラ110は、ユーザ120の特性に一致するコーパス150からのレコードのローカルコピーを取り込むことができ、これらのローカルコピーは、ユーザ120の分析が完了するまでメモリ230に格納される。
【0047】
さらに、メモリ230は、閾値および好みデータ242を含むことができる。閾値および好みデータ242は、コントローラ110が顔の調整をユーザ120に提供する方法を定義する閾値を含むことができる。例えば、閾値および好みデータ242は、ユーザ120が、調整が表示または示唆されることを好む態様を詳述し得る、係合のための好ましい手段を提供してもよい。閾値および好みデータ242は、コントローラ110に顔の調整を提案させるために必要な、ベースラインからの閾値偏差を含むこともできる。例えば、ユーザは、コントローラ110が特定のタイプの質について、または特定の検出された重要度の質についてのみ、顔の提案を提供することを閾値および好みデータ242内で指定することができる。
【0048】
メモリ230は、自然言語処理(NLP)技術244をさらに含んでもよい。コントローラ110は、ユーザ120が正しくもしくは好ましいまたはその両方の方法で言っているかどうかをコントローラ110が判定できるように、NLP技術を使用してユーザ120が言っていることを判定することができる。NLP技術244は、意味類似性、構文解析、およびオントロジーマッチングを含むことができるが、これらに限定されない。例えば、いくつかの実施形態では、プロセッサ220は、ユーザ120が言っている単語を判定するために(例えば、コーパス150の類似の単語とこれを比較するために)、この自然言語データの意味的特徴(例えば、単語の意味、繰り返し単語、キーワードなど)もしくは構文的特徴(例えば、単語の構造、見出し、タイトルにおける意味的特徴の場所など)またはその両方を判定するために発声中に集められた自然言語データを集めるよう構成され得る。
【0049】
メモリ230は、コントローラ110が、本明細書で議論されるような顔の調整をユーザに提案するプロセスを経時的に改善するために使用することができる機械学習技術246をさらに含むことができる。機械学習技術246は、データセットに対して教師あり、教師なし、または半教師ありのトレーニングを実行することによって生成され、その後、生成されたアルゴリズムまたはモデルを適用してユーザ120に顔の調整を提案するアルゴリズムまたはモデルを含むことができる。これらの機械学習技術246を使用して、コントローラ110は、時間の経過とともに、ユーザ120に顔の調整を提案する能力を向上させることができる。例えば、コントローラ110は、より関連性の高い履歴的な補足を提供する集団152の特定の特性、どのような種類の調整がユーザ120に第1の質での発声から第2の質への変更をより速く、もしくはより繰り返し、またはその両方で起こさせるか、質および重要度を特定および計算する速度を向上させること等を、経時的に特定してもよい。
【0050】
具体的には、コントローラ110は、コントローラ110が最初にベクトル
図132を提供する際に、「ベクトル点」を含む「ベクトル」を編集する1人以上の人のオペレータから、教師あり機械学習技術246の下で顔の調整を提供する方法を学習することができる。例えば、これは、コントローラ110によって提供されるノード134をキャンセルもしくは再配置またはその両方をすること、ならびに調整済みベクトル
図170のノード172をキャンセルもしくは再配置またはその両方を人のオペレータがすることを含む場合がある。これは、調整済みベクトル
図170のうちの1つを複製しようとしてユーザ120が口/顔/舌を動かしたことを検出したことに応答して、コントローラ110が何をすべきかを教えることを含むことができる。これは、コントローラ110に、ポジティブフィードバック(例えば、顔の調整のグラフィカル表現にポジティブに一致したユーザ120を口頭もしくはグラフィックまたはその両方で祝福する)を提供させること、ネガティブフィードバック(例えば、ユーザ120を口頭もしくはグラフィックまたはその両方で訂正し、ユーザ120が顔の調整のグラフィカル表現にマッピングしなかった1つ以上の具体的方法を説明する)を提供すること、ユーザ120が現在の顔の調整をマスターしたことを検出すること、代わりに顔の調整のシーケンスで次のステップを提供すること、もしくはユーザ120にこの提供した顔の調整の再現訓練を反復すること、またはこれらの組み合わせを含む場合がある。
【0051】
さらに、1人以上の訓練されたオペレータは、ユーザ120の顔/口/舌を追跡するために、本明細書に記載の機械学習技術246を用いてコントローラ110を訓練することができる。例えば、1人以上の訓練されたオペレータは、ノード134もしくはベクトル136またはその両方がユーザ120の顔上に配置される方法を時間の経過とともに変更することができる。これは、ノード134もしくはベクトル136またはその両方が顔認識位置から解離したときにフィードバックを提供することを含み得、これに応答して、コントローラ110は、ユーザ120の顔認識を再マッピングし得る。
【0052】
機械学習技術246は、判定木学習、アソシエーションルール学習、人工ニューラルネットワーク、深層学習、誘導論理プログラミング、サポートベクターマシン、クラスタリング、ベイズネットワーク、強化学習、表現学習、類似性/メトリック学習、スパース辞書学習、遺伝アルゴリズム、ルールベース学習、もしくは他の機械学習技法またはこれらの組み合わせを含み得るが、それだけに限られない。具体的には、機械学習技術246は、以下の例示的な技法のうちの1つまたは複数を利用することができる。K-最近傍(KNN)、学習ベクトル量子化(LVQ)、自己組織化マップ(SOM)、ロジスティック回帰、通常の最小二乗回帰(OLSR)、線形回帰、ステップワイズ回帰、多変量適応型回帰スプライン(MARS)、リッジ回帰、最小絶対縮小選択演算子(LASSO)、弾性ネット、最小角回帰(LARS)、確率的分類器、ナイーブベイズ分類器、二値分類器、線形分類器、階層的分類器、正準相関分析(CCA)、因子分析、独立成分分析(ICA)、線形判別分析(LDA)、多次元尺度法(MDS)、非負メトリック分解(NMF)、部分最小二乗回帰(PLSR)、主成分分析(PCA)、主成分回帰(PCR)、サモンマッピング、t分散確率的近傍埋め込み(t-SNE)、ブートストラップ集計、アンサンブル平均、勾配ブースティング決定木(ABRT)、勾配ブースティングマシン(GBM)、帰納的バイアスアルゴリズム、Q学習、state-action-reward-state-action(SARSA)、時間差(TD)学習、アプリオリアルゴリズム、等価クラス変換(ECLAT)アルゴリズム、ガウス過程回帰、遺伝子発現プログラミング、データ処理のグループ法(GMDH)、誘導論理プログラミング、インスタンスベース学習、ロジカルモデル木、情報ファジーネットワーク(IFN)、隠れマルコフモデル、ガウスナイーブベイズ、マルチノミアナイーブベイズ、平均化依存推定量(AODE)、分類回帰木(CART)、カイ二乗自動相互作用検出(CHAID)、期待値最大化アルゴリズム、フィードフォワードニューラルネットワーク、論理学習機械、自己組織化マップ、単一連結クラスタリング、ファジィクラスタリング、階層的クラスタリング、ボルツマンマシン、畳み込みニューラルネットワーク、再帰性ニューラルネットワーク、階層的時間記憶(HTM)、もしくは他の機械学習アルゴリズムまたはこれらの組み合わせ。
【0053】
これらの構成要素を使用して、コントローラ110は、本明細書で議論されるように、検出された発声の質に応答して、ユーザ120に提案された顔の調整のグラフィカル表現を提供し得る。例えば、コントローラ110は、
図4に描かれたフローチャート300に従って、顔の調整を提案することができる。
図4のフローチャート300は、説明の目的で
図1に関連して議論されるが、他の実施例において
図4のフローチャート300を実行するために他のシステムが使用され得ることは理解されよう。さらに、いくつかの例では、コントローラ110は、
図4のフローチャート300とは異なる方法を実行してもよく、またはコントローラ110は、異なる順序でより多くのまたはより少ないステップを有する等、同様の方法を実行してもよい。
【0054】
コントローラ110は、ユーザ120が発声している音声データを受信する(302)。これは、ユーザが1つ以上の言語で歌ったり話したりすることを含むことができる。コントローラ110は、発声中のユーザ120の空間データを追加的に受信する(304)。コントローラ110は、単一のセンサ140(例えば、オーディオとビデオの両方を記録する単一のデバイス)から発声音声データと空間データの両方を受信することができる。他の例では、コントローラ110は、第1の(一組の)センサ140から発声音声データを受信し、第2の(一組の)センサ140から空間的データを受信する。コントローラ110が発声音声データを一部またはすべての空間データと別々に受信する場合、コントローラ110は、すべての音声データおよび空間データを同期させてもよい。
【0055】
コントローラ110は、発声中のユーザ120の顔の要素の位置を特定する(306)。本明細書で論じるように、これらの要素の相対的な位置は、ユーザ120の声の複数の質を引き起こす。いくつかの例では、要素の位置を特定することは、本明細書で説明するように、ユーザ120の顔のベクトル
図132を生成することを含む。
【0056】
コントローラ110は、発声が第1の質であることを引き起こす、ユーザの顔の1つ以上の要素の位置のサブセットを特定する(308)。例えば、コントローラ110は、音声データもしくは空間データまたはその組み合わせをコーパス150のデータと比較して、発声が第1の質であることを識別することができ、これに応答して、コントローラ110は、どの特定の要素の位置が第1の質を引き起こすかを判定する。
【0057】
コントローラ110は、発声を第2の質を有するように変更することになるこれらの要素の代替位置を判定する(310)。コントローラ110は、コーパス150の履歴の記録のうち、類似の人々が第1の質ではなく第2の質で発声する要因となる代替位置を特定することによって、これらの代替位置を判定することができる。コントローラ110がこれらの代替位置を判定すると、コントローラ110は、調整を加えたユーザ120の顔のグラフィカル表現を提供する(312)。調整は、ユーザ120が顔もしくは舌またはその両方を初期位置(ユーザ120が第1の質で発声した位置)から代替位置(ユーザ120が第2の質で発声できる位置)へどのように動かすかを詳述し得る。例えば、コントローラ110は、本明細書で説明するように調整済みベクトル
図170をディスプレイ130上に提供してもよい。
【0058】
本発明の様々な実施形態の説明は、例示の目的で提示されているが、網羅的であることを意図するものではなく、開示される実施形態に限定されることを意図するものでもない。説明された実施形態の範囲および精神から逸脱することなく、多くの修正および変更が可能であることは当業者には明らかであろう。本明細書で使用される用語は、実施形態の原理、市場で見られる技術に対する実際の適用または技術的改善を最もよく説明するため、または当業者が本明細書に記載の実施形態を理解できるようにするために選択された。
【0059】
本発明は、任意の可能な技術詳細レベルで統合されたシステム、方法もしくはコンピュータプログラム製品またはそれらの組み合せとすることができる。コンピュータプログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令を記憶したコンピュータ可読記憶媒体(または媒体)を含んでよい。
【0060】
コンピュータ可読記憶媒体は、命令実行装置によって使用される命令を保持し、記憶することができる有形の装置とすることができる。コンピュータ可読記憶媒体は、一例として、電子記憶装置、磁気記憶装置、光学記憶装置、電磁記憶装置、半導体記憶装置またはこれらの適切な組み合わせであってよいが、これらに限定されるものではない。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストとしては、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能プログラマブルリードオンリーメモリ(EPROMまたはフラッシュメモリ)、スタティックランダムアクセスメモリ(SRAM)、ポータブルコンパクトディスクリードオンリーメモリ(CD-ROM)、デジタルバーサタイルディスク(DVD)、メモリスティック、フロッピーディスク、パンチカードまたは溝内の隆起構造などに命令を記録した機械的に符号化された装置、およびこれらの適切な組み合せが挙げられる。本明細書で使用されるコンピュータ可読記憶装置は、電波もしくは他の自由に伝播する電磁波、導波管もしくは他の伝送媒体を介して伝播する電磁波(例えば、光ファイバケーブルを通過する光パルス)、またはワイヤを介して送信される電気信号のような、一過性の信号それ自体として解釈されるべきではない。
【0061】
本明細書に記載のコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング/処理装置に、または、ネットワーク(例えば、インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク、もしくはワイヤレスネットワークネットワークまたはその組み合わせ)を介して外部コンピュータまたは外部記憶装置にダウンロードすることができる。ネットワークは、銅線伝送ケーブル、光伝送ファイバー、無線伝送、ルーター、ファイアウォール、スイッチ、ゲートウェイコンピュータ、もしくはエッジサーバーまたはその組み合わせで構成される。各コンピューティング/処理装置のネットワークアダプタカードまたはネットワークインターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、それぞれのコンピューティング/処理装置内のコンピュータ可読記憶媒体に格納するためにコンピュータ可読プログラム命令を転送する。
【0062】
本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはSmalltalk、C++などのオブジェクト指向プログラミング言語と「C」プログラミング言語や類似のプログラミング言語などの手続き型プログラミング言語を含む、1つ以上のプログラミング言語の任意の組み合わせで記述されたソースコードまたはオブジェクトコードのいずれかであってよい。コンピュータ可読プログラム命令は、スタンドアロンソフトウェアパッケージとして、完全にユーザのコンピュータ上で、または部分的にユーザのコンピュータ上で実行可能である。あるいは、部分的にユーザのコンピュータ上でかつ部分的にリモートコンピュータ上で、または完全にリモートコンピュータまたはサーバ上で実行可能である。後者のシナリオでは、リモートコンピュータは、ローカルエリアネットワーク(LAN)またはワイドエリアネットワーク(WAN)を含む任意のタイプのネットワークを介してユーザのコンピュータに接続され、または(例えば、インターネットサービスプロバイダーを使用したインターネット経由で)外部コンピュータに接続されてよい。いくつかの実施形態では、例えば、プログラマブルロジック回路、フィールドプログラマブルゲートアレイ(FPGA)、またはプログラマブルロジックアレイ(PLA)を含む電子回路は、本発明の態様を実行するために、コンピュータ可読プログラム命令の状態情報を利用してパーソナライズすることにより、コンピュータ可読プログラム命令を実行することができる。
【0063】
本発明の態様は、本発明の実施形態による方法、装置(システム)、およびコンピュータプログラム製品のフローチャート図もしくはブロック図またはその両方を参照して本明細書に記載されている。フローチャート図もしくはブロック図またはその両方の各ブロック、およびフローチャート図もしくはブロック図またはその両方のブロックの組み合わせは、コンピュータ可読プログラム命令によって実装できることが理解されよう。
【0064】
これらのコンピュータ可読プログラム命令は、コンピュータまたは他のプログラム可能なデータ処理装置のプロセッサを介して実行される命令がフローチャートもしくはブロック図またはその両方の1つまたは複数のブロックで指定された機能/動作を実装するための手段を生成するように、汎用コンピュータ、特殊用途コンピュータ、または他のプログラム可能なデータ処理装置のプロセッサに提供されることができる。これらのコンピュータ可読プログラム命令はまた、フローチャートもしくはブロック図またはその両方の1つまたは複数のブロックで指定された機能/行為の態様を実装する命令を含む生成品の1つを命令が記憶されたコンピュータ可読プログラム命令が構成するように、コンピュータ、プログラム可能なデータ処理装置、もしくは特定の方法で機能する他のデバイスまたはその組み合わせに接続可能なコンピュータ可読記憶媒体の中に記憶されることができる。
【0065】
コンピュータ、他のプログラム可能な装置、または他のデバイス上でフローチャートもしくはブロック図またはその両方の1つまたは複数のブロックで指定された機能/行為を実行する命令のように、コンピュータ可読プログラム命令はまた、コンピュータ、他のプログラム可能なデータ処理装置、または他のデバイスにロードされ、コンピュータ、他のプログラム可能な装置、または他のデバイス上で一連の操作ステップを実行し、コンピュータ実装された過程を生成することができる。
【0066】
図中のフローチャートおよびブロック図は、本発明の様々な実施形態によるシステム、方法、およびコンピュータプログラム製品が実行可能な実装の構成、機能、および動作を示している。これに関して、フローチャートまたはブロック図の各ブロックは、モジュール、セグメント、または命令の一部を表してよく、これは、指定された論理機能を実装するための1つまたは複数の実行可能命令を構成する。いくつかの代替の実施形態では、ブロックに示されている機能は、図に示されている順序とは異なる場合がある。例えば、連続して示される2つのブロックは、実際には、実質的に同時に実行され、またはブロックは、関係する機能に応じて逆の順序で実行される場合がある。ブロック図もしくはフローチャート図またはその両方の各ブロック、およびブロック図もしくはフローチャート図またはその両方のブロックの組み合わせは、指定された機能または動作を実行する、または特別な目的のハードウェアとコンピュータ命令の組み合わせを実行する特別な目的のハードウェアベースのシステムによって実装できることにも留意されたい。
【国際調査報告】