特許7152866 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ハーマン　インターナショナル　インダストリーズ　インコーポレイテッドの特許一覧

特許7152866マルチデバイスシステムにおける音声コマンドの実行

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5A
5B
5C
5D
6A
6B
6C
6D
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2022-10-04

(45)【発行日】2022-10-13

(54)【発明の名称】マルチデバイスシステムにおける音声コマンドの実行

(51)【国際特許分類】

G10L 15/28 20130101AFI20221005BHJP

H04R 3/00 20060101ALI20221005BHJP

G10L 15/00 20130101ALI20221005BHJP

【ＦＩ】

G10L15/28 400

H04R3/00 320

G10L15/00 200F

【請求項の数】 18

(21)【出願番号】P 2018045126

(22)【出願日】2018-03-13

(65)【公開番号】P2018159918

(43)【公開日】2018-10-11

【審査請求日】2021-02-17

(31)【優先権主張番号】15/465,372

(32)【優先日】2017-03-21

(33)【優先権主張国・地域又は機関】US

(73)【特許権者】

【識別番号】592051453

【氏名又は名称】ハーマンインターナショナルインダストリーズインコーポレイテッド

(74)【代理人】

【識別番号】100078282

【弁理士】

【氏名又は名称】山本秀策

(74)【代理人】

【識別番号】100113413

【弁理士】

【氏名又は名称】森下夏樹

(72)【発明者】

【氏名】キムソンマン

【審査官】中村天真

(56)【参考文献】

【文献】米国特許出願公開第２０１５／０２２８２７４（ＵＳ，Ａ１）

【文献】特開平１１－０５２９７６（ＪＰ，Ａ）

【文献】国際公開第２０１７／０４４６２９（ＷＯ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１０Ｌ１５／００－１５／３４

Ｇ０６Ｆ３／１６

Ｈ０４Ｒ３／００－３／１４

ＩＥＥＥＸｐｌｏｒｅ

(57)【特許請求の範囲】

【請求項1】

命令を含む非一時的コンピュータ可読記憶媒体であって、前記命令は、１つまたは複数のプロセッサにより実行されると、前記１つまたは複数のプロセッサを、
言語発声に応じて第１マイクにより生成される第１音声信号と、前記言語発声に応じて第２マイクにより生成される第２音声信号とを受信することと、
前記第１音声信号を、時間分節の第１配列に分割することと、
前記第２音声信号を、時間分節の第２配列に分割することと、
前記第１配列の第１時間分節に対応付けられた音響エネルギーレベルを、前記第２配列の第１時間分節に対応付けられた音響エネルギーレベルと比較することに基づいて、前記第１配列の前記第１時間分節及び前記第２配列の前記第１時間分節のうちの１つを、発話認識音声信号の第１時間分節として選択することと、
前記第１配列の最終時間分節に対応付けられた音響エネルギーレベルを、前記第２配列の最終時間分節に対応付けられた音響エネルギーレベルと比較することに基づいて、前記言語発声に対応付けられたユーザに最も近いマイクが前記第１マイクであるか、前記第２マイクであるかを判断することと、
前記発話認識音声信号を、発話認識アプリケーションへ送信すること、もしくは、前記発話認識音声信号に対し発話認識を行うことと、
前記発話認識アプリケーションまたは前記発話認識から音声信号を受信することと、
前記最も近いマイクと共に配置されたデバイスから、前記音声信号を再生させることと
のステップを実行することによりマルチデバイスシステムにおいて発話認識を実行するように構成する、非一時的コンピュータ可読記憶媒体。

【請求項2】

命令であって、前記命令は、１つまたは複数のプロセッサにより実行されると、前記１つまたは複数のプロセッサを、
前記第１配列の第２時間分節に対応付けられた音響エネルギーレベルを、前記第２配列の第２時間分節に対応付けられた音響エネルギーレベルと比較することと、
前記第１配列の前記第２時間分節に対応付けられた前記音響エネルギーレベルを、前記第２配列の前記第２時間分節に対応付けられた前記音響エネルギーレベルと比較することに基づいて、前記第１配列の前記第２時間分節または前記第２配列の前記第２時間分節のうちの１つを、前記発話認識音声信号の第２時間分節として選択することと
のステップを実行するように構成する、命令をさらに含む、請求項１に記載の非一時的コンピュータ可読記憶媒体。

【請求項3】

前記発話認識音声信号を前記発話認識アプリケーションへ送信することは、前記発話認識音声信号の前記第１時間分節及び前記発話認識音声信号の前記第２時間分節を前記発話認識アプリケーションへ送信することを含む、請求項２に記載の非一時的コンピュータ可読記憶媒体。

【請求項4】

前記最も近いマイクと共に配置された前記デバイスから前記音声信号を再生させることは、前記最も近いマイクと共に配置された前記デバイスへ前記音声信号を送信することを含む、請求項１に記載の非一時的コンピュータ可読記憶媒体。

【請求項5】

前記第１配列の前記第１時間分節に対応付けられた前記音響エネルギーレベルは、前記第１配列の前記第１時間分節の平均音響エネルギーレベル及び前記第１時間分節のピーク音響エネルギーレベルのうちの１つを含み、前記第２配列の前記第１時間分節に対応付けられた前記音響エネルギーレベルは、前記第２配列の前記第１時間分節の平均音響エネルギーレベル及び前記第２配列の前記第１時間分節のピーク音響エネルギーレベルのうちの１つを含む、請求項１に記載の非一時的コンピュータ可読記憶媒体。

【請求項6】

前記第１配列の前記第１時間分節または前記第２配列の前記第１時間分節のうちの１つを、前記発話認識音声信号の前記第１時間分節として選択することは、最大音響エネルギーレベルを有する時間分節を選択することを含む、請求項１に記載の非一時的コンピュータ可読記憶媒体。

【請求項7】

命令であって、前記命令は、１つまたは複数のプロセッサにより実行されると、前記１つまたは複数のプロセッサを、
前記発話認識音声信号の第２時間分節と、前記発話認識音声信号の第３時間分節との間の不連続音強を検出することと、
前記発話認識音声信号の前記第２時間分節及び前記発話認識音声信号の前記第３時間分節のうちの少なくとも１つに対し、音強整合プロセスを実行することと
のステップを実行するように構成する、命令をさらに含む、請求項１に記載の非一時的コンピュータ可読記憶媒体。

【請求項8】

前記発話認識音声信号の前記第２時間分節は、前記第１音声信号に含まれる時間分節を含み、前記発話認識音声信号の前記第３時間分節は、前記第２音声信号に含まれる時間分節を含む、請求項７に記載の非一時的コンピュータ可読記憶媒体。

【請求項9】

残響環境に配置される拡声器と、
命令を格納するメモリと、
前記メモリに接続された１つまたは複数のプロセッサであって、前記１つまたは複数のプロセッサは、前記命令を実行すると、
言語発声に応じて第１マイクにより生成される第１音声信号と、前記言語発声に応じて第２マイクにより生成される第２音声信号とを受信することと、
前記第１音声信号を、時間分節の第１配列に分割することと、
前記第２音声信号を、時間分節の第２配列に分割することと、
前記第１配列の第１時間分節に対応付けられた音響エネルギーレベルを、前記第２配列の第１時間分節に対応付けられた音響エネルギーレベルと比較することと、
前記第１配列の前記第１時間分節に対応付けられた前記音響エネルギーレベルを、前記第２配列の前記第１時間分節に対応付けられた前記音響エネルギーレベルと比較することに基づいて、前記第１配列の前記第１時間分節及び前記第２配列の前記第１時間分節のうちの１つを、発話認識音声信号の第１時間分節として選択することと、
前記第１配列の最終時間分節に対応付けられた音響エネルギーレベルを、前記第２配列の最終時間分節に対応付けられた音響エネルギーレベルと比較することに基づいて、前記言語発声に対応付けられたユーザに最も近いマイクが前記第１マイクであるか、前記第２マイクであるかを判断することと、
前記発話認識音声信号を、発話認識アプリケーションへ送信すること、もしくは、前記発話認識音声信号に対し発話認識を行うことと、
前記発話認識アプリケーションまたは前記発話認識から音声信号を受信することと、
前記最も近いマイクと共に配置されたデバイスから、前記音声信号を再生させることと
を行うように構成される、１つまたは複数のプロセッサと
を含むシステム。

【請求項10】

【請求項11】

前記第１配列の前記第１時間分節または前記第２配列の前記第１時間分節のうちの１つを、前記発話認識音声信号の前記第１時間分節として選択することは、最大音響エネルギーレベルを有する時間分節を選択することを含む、請求項９に記載のシステム。

【請求項12】

前記発話認識音声信号の第２時間分節と、前記発話認識音声信号の第３時間分節との間の不連続音強を検出することと、
前記発話認識音声信号の前記第２時間分節及び前記発話認識音声信号の前記第３時間分節のうちの少なくとも１つに対し、音強整合プロセスを実行することと
をさらに含む請求項９に記載のシステム。

【請求項13】

前記発話認識音声信号の前記第２時間分節は、前記第１音声信号に含まれる時間分節を含み、前記発話認識音声信号の前記第３時間分節は、前記第２音声信号に含まれる時間分節を含む、請求項１２に記載のシステム。

【請求項14】

前記発話認識アプリケーションから音声コマンドを受信することであって、前記音声コマンドは、前記音声コマンドを実行する予定のスマートデバイスを示す位置情報を含まない、ことと、
前記ユーザに最も近いスマートデバイスを特定することと、
前記ユーザに最も近い前記スマートデバイスへ、前記音声コマンドを転送することと
をさらに含む請求項９に記載のシステム。

【請求項15】

前記ユーザに最も近い前記スマートデバイスを特定することは、複数のスマートデバイスが配置されている領域のトポロジー表現を調べることを含む、請求項１４に記載のシステム。

【請求項16】

マルチデバイスシステムにおいて発話認識を実行する方法であって、
言語発声に応じて第１マイクにより生成される第１音声信号と、前記言語発声に応じて第２マイクにより生成される第２音声信号とを受信することと、
前記第１音声信号を、時間分節の第１配列に分割することと、
前記第２音声信号を、時間分節の第２配列に分割することと、
前記第１配列の第１時間分節に対応付けられた音響エネルギーレベルを、前記第２配列の第１時間分節に対応付けられた音響エネルギーレベルと比較することに基づいて、前記第１配列の前記第１時間分節及び前記第２配列の前記第１時間分節のうちの１つを、発話認識音声信号の第１時間分節として選択することと、
前記第１配列の最終時間分節に対応付けられた音響エネルギーレベルを、前記第２配列の最終時間分節に対応付けられた音響エネルギーレベルと比較することに基づいて、前記言語発声に対応付けられたユーザに最も近いマイクが前記第１マイクであるか、前記第２マイクであるかを判断することと、
前記発話認識音声信号を、発話認識アプリケーションへ送信すること、もしくは、前記発話認識音声信号に対し発話認識を行うことと、
前記発話認識アプリケーションまたは前記発話認識から音声信号を受信することと、
前記最も近いマイクと共に配置されたデバイスから、前記音声信号を再生させることと
を含む、方法。

【請求項17】

【請求項18】

前記第１配列の前記第１時間分節または前記第２配列の前記第１時間分節のうちの１つを、前記発話認識音声信号の前記第１時間分節として選択することは、最大音響エネルギーレベルを有する時間分節を選択することを含む、請求項１６に記載の方法。

【発明の詳細な説明】

【技術分野】

【0001】

請求実施形態の分野
本発明の実施形態は、概して発話処理デバイスに関し、より具体的には、マルチデバイスシステムにおける音声コマンドの実行に関する。

【背景技術】

【0002】

関連技術の説明
特に、スマートフォン、電子タブレット等のモバイルコンピューティングデバイスには通常、マイク及び高性能プロセッサが装備されていることから、近年、発話認識ソフトウェアが幅広く使用されるようになった。例えば、発話の記録された音声表現を解釈して、発話に対応するテキスト表現を生成可能な発話テキスト化ソフトウェアアプリケーションが、数多く開発されている。このようなソフトウェアが、好適に装備されたコンピューティングデバイスと併せて使用されると、ユーザは、コンピューティングデバイスのマイクに単語または句を発声することで、ソフトウェアアプリケーションにテキスト投入可能となる。このようなソフトウェアの一例として、インテリジェントパーソナルアシスタント（ＩＰＡ）が存在する。

【0003】

ＩＰＡは、ユーザにより提供される言語入力に基づいて、ユーザのためにタスクまたはサービスを実行可能なソフトウェアエージェントまたは他のアプリケーションである。ＩＰＡの例には、ＭｉｃｒｏｓｏｆｔＣｏｒｔａｎａ（商標）、ＡｐｐｌｅＳｉｒｉ（商標）、ＧｏｏｇｌｅＨｏｍｅ（商標）、及びＡｍａｚｏｎＡｌｅｘａ（商標）が含まれる。コンピューティングデバイスに実装されたＩＰＡにより、発話要求に基づいて特定のタスクがユーザのために実行可能となり得、よって、ユーザがタッチスクリーン、キーボード、マウス、または他の入力デバイスを介して手動入力を提供する必要は回避される。例えば、ＩＰＡを介して多様なオンライン情報源から、ユーザのために情報がアクセス可能である（例えば、天気、交通状態、ニュース、株価、ユーザのスケジュール、小売値等）。さらに、ＩＰＡにより、ユーザのために情報ベースタスクが完了可能である（例えば、電子メール、カレンダー予定行事、ファイル、及びＴｏ‐ｄｏリスト等の管理）。

【0004】

しかしながら、ＩＰＡ対応デバイスの使用が次第に普及するにつれ、問題が生じ得る。具体的には、複数のＩＰＡ対応デバイスが互いに近接して配置された場合（例えば同じ部屋または隣接した部屋において）、１つのＩＰＡ対応デバイスを対象としたユーザ音声コマンドは、別のＩＰＡ対応デバイスにより受信、解釈、及び実行され得る。例えば、照明スイッチを制御するように構成されたホームオートメーションデバイスに対し、１つの部屋において発せられた音声コマンドは、隣接した部屋に配置された同様の構成のスマートスピーカによっても受信及び実行され得、これにより不要な照明の点灯または消灯が生じる。このように、いくつかの状況下において、互いに近接に配置されたＩＰＡ対応デバイス間の衝突は、このようなデバイスによりもたらされ得る利便性及び効率性を低減し得る。

【発明の概要】

【発明が解決しようとする課題】

【0005】

従って、複数のＩＰＡ対応デバイスを含むシステムにおいて、音声コマンドを実行する改良技術が有用である。

【課題を解決するための手段】

【0006】

様々な実施形態が、命令を含む非一時的コンピュータ可読媒体を明記し、当命令は、１つまたは複数のプロセッサにより実行されると、１つまたは複数のプロセッサがステップを実行することによりマルチデバイスシステムにおいて発話認識を実行するように構成し、当ステップには、言語発声に応じて第１マイクにより生成される第１音声信号と、言語発声に応じて第２マイクにより生成される第２音声信号とを受信することと、第１音声信号を、時間分節の第１配列に分割することと、第２音声信号を、時間分節の第２配列に分割することと、第１配列の第１時間分節に対応付けられた音響エネルギーレベルを、第２配列の第１時間分節に対応付けられた音響エネルギーレベルと比較することと、比較に基づいて、第１配列の第１時間分節及び第２配列の第１時間分節のうちの１つを、発話認識音声信号の第１時間分節として選択することと、発話認識音声信号を、発話認識アプリケーションへ送信すること、または、発話認識音声信号に対し発話認識を行うことが含まれる。

【0007】

開示される実施形態の少なくとも１つの利点は、ユーザが複数のスマートデバイスにより検出可能な音声コマンドを発しても、１つのスマートデバイスから１つの応答のみを受信可能なことである。さらなる利点は、複数のスマートデバイスのシステムは、ユーザに対し音声コマンドに具体的な位置情報を含めるよう要求することなく、スマートデバイスのうちのどれが音声コマンドの実行を見込まれているかを、状況的に判断可能なことである。

【0008】

様々な実施形態の上記の特徴が詳細に理解可能なように、上に簡約された様々な実施形態のより詳しい説明は、実施形態を参照することにより行われ得、そのうちのいくつかは添付図面において例示される。しかしながら、様々な実施形態は他の同等に有効な実施形態も容認し得るため、添付の図面は代表的な実施形態のみを例示し、よってその範囲の限定としてみなされるべきではないことに留意されたい。
例えば、本願は以下の項目を提供する、
（項目１）
命令を含む非一時的コンピュータ可読記憶媒体であって、上記命令は、１つまたは複数のプロセッサにより実行されると、上記１つまたは複数のプロセッサが、
言語発声に応じて第１マイクにより生成される第１音声信号と、上記言語発声に応じて第２マイクにより生成される第２音声信号とを受信することと、
上記第１音声信号を、時間分節の第１配列に分割することと、
上記第２音声信号を、時間分節の第２配列に分割することと、
上記第１配列の第１時間分節に対応付けられた音響エネルギーレベルを、上記第２配列の第１時間分節に対応付けられた音響エネルギーレベルと比較することと、
上記比較に基づいて、上記第１配列の上記第１時間分節及び上記第２配列の上記第１時間分節のうちの１つを、発話認識音声信号の第１時間分節として選択することと、並びに、
上記発話認識音声信号を、発話認識アプリケーションへ送信すること、もしくは、
上記発話認識音声信号に対し発話認識を行うこと
のステップを実行することによりマルチデバイスシステムにおいて発話認識を実行するように構成する、上記非一時的コンピュータ可読記憶媒体。
（項目２）
さらに命令を含む上記非一時的コンピュータ可読記憶媒体であって、上記命令は、１つまたは複数のプロセッサにより実行されると、上記１つまたは複数のプロセッサが、
上記第１配列の第２時間分節に対応付けられた音響エネルギーレベルを、上記第２配列の第２時間分節に対応付けられた音響エネルギーレベルと比較することと、
上記第１配列の上記第２時間分節に対応付けられた上記音響エネルギーレベルを、上記第２配列の上記第２時間分節に対応付けられた上記音響エネルギーレベルと比較することに基づいて、上記第１配列の上記第２時間分節または上記第２配列の上記第２時間分節のうちの１つを、上記発話認識音声信号の第２時間分節として選択すること
のステップを実行するように構成する、上記項目に記載の非一時的コンピュータ可読記憶媒体。
（項目３）
上記発話認識音声信号を上記発話認識アプリケーションへ送信することは、上記発話認識音声信号の上記第１時間分節及び上記発話認識音声信号の上記第２時間分節を上記発話認識アプリケーションへ送信することを含む、上記項目のいずれか一項に記載の非一時的コンピュータ可読記憶媒体。
（項目４）
さらに命令を含む上記非一時的コンピュータ可読記憶媒体であって、上記命令は、１つまたは複数のプロセッサにより実行されると、上記１つまたは複数のプロセッサが、
上記第１配列の最終時間分節に対応付けられた音響エネルギーレベルを、上記第２配列の最終時間分節に対応付けられた音響エネルギーレベルと比較することと、
上記第１配列の上記最終時間分節に対応付けられた上記音響エネルギーレベルを、上記第２配列の上記最終時間分節に対応付けられた上記音響エネルギーレベルと比較することに基づいて、上記言語発声に対応付けられたユーザに最も近いマイクは上記第１マイクであるか、上記第２マイクであるかを判断すること
のステップを実行するように構成する、上記項目のいずれか一項に記載の非一時的コンピュータ可読記憶媒体。
（項目５）
さらに命令を含む上記非一時的コンピュータ可読記憶媒体であって、上記命令は、１つまたは複数のプロセッサにより実行されると、上記１つまたは複数のプロセッサが、
上記発話認識アプリケーションから音声信号を受信することと、
上記最も近いマイクと共に配置されたデバイスから、上記音声信号を再生させること
のステップを実行するように構成する、上記項目のいずれか一項に記載の非一時的コンピュータ可読記憶媒体。
（項目６）
上記最も近いマイクと共に配置された上記デバイスから上記音声信号を再生させることは、上記最も近いマイクと共に配置された上記デバイスへ上記音声信号を送信することを含む、上記項目のいずれか一項に記載の非一時的コンピュータ可読記憶媒体。
（項目７）
上記第１配列の上記第１時間分節に対応付けられた上記音響エネルギーレベルは、上記第１配列の上記第１時間分節の平均音響エネルギーレベル及び上記第１時間分節のピーク音響エネルギーレベルのうちの１つを含み、上記第２配列の上記第１時間分節に対応付けられた上記音響エネルギーレベルは、上記第２配列の上記第１時間分節の平均音響エネルギーレベル及び上記第２配列の上記第１時間分節のピーク音響エネルギーレベルのうちの１つを含む、上記項目のいずれか一項に記載の非一時的コンピュータ可読記憶媒体。
（項目８）
上記第１配列の上記第１時間分節または上記第２配列の上記第１時間分節のうちの１つを、上記発話認識音声信号の上記第１時間分節として選択することは、最大音響エネルギーレベルを有する時間分節を選択することを含む、上記項目のいずれか一項に記載の非一時的コンピュータ可読記憶媒体。
（項目９）
さらに命令を含む上記非一時的コンピュータ可読記憶媒体であって、上記命令は、１つまたは複数のプロセッサにより実行されると、上記１つまたは複数のプロセッサが、
上記発話認識音声信号の第２時間分節と、上記発話認識音声信号の第３時間分節との間の不連続音強を検出することと、
上記発話認識音声信号の上記第２時間分節及び上記発話認識音声信号の上記第３時間分節のうちの少なくとも１つに対し、音強整合プロセスを実行すること
のステップを実行するように構成する、上記項目のいずれか一項に記載の非一時的コンピュータ可読記憶媒体。
（項目１０）
上記発話認識音声信号の上記第２時間分節は、上記第１音声信号に含まれる時間分節を含み、上記発話認識音声信号の上記第３時間分節は、上記第２音声信号に含まれる時間分節を含む、上記項目のいずれか一項に記載の非一時的コンピュータ可読記憶媒体。
（項目１１）
残響環境に配置される拡声器と、
発話認識アプリケーション及び信号マージアプリケーションを格納するメモリと、
上記メモリに接続された１つまたは複数のプロセッサであって、上記発話認識アプリケーションまたは上記信号マージアプリケーションを実行すると、
言語発声に応じて第１マイクにより生成される第１音声信号と、上記言語発声に応じて第２マイクにより生成される第２音声信号とを受信し、
上記第１音声信号を、時間分節の第１配列に分割し、
上記第２音声信号を、時間分節の第２配列に分割し、
上記第１配列の第１時間分節に対応付けられた音響エネルギーレベルを、上記第２配列の第１時間分節に対応付けられた音響エネルギーレベルと比較し、
上記第１配列の上記第１時間分節に対応付けられた上記音響エネルギーレベルを、上記第２配列の上記第１時間分節に対応付けられた上記音響エネルギーレベルと比較することに基づいて、上記第１配列の上記第１時間分節及び上記第２配列の上記第１時間分節のうちの１つを、発話認識音声信号の第１時間分節として選択し、並びに、
上記発話認識音声信号を、発話認識アプリケーションへ送信する、もしくは、
上記発話認識音声信号に対し発話認識を行う
ように構成される上記１つまたは複数のプロセッサと
を含むシステム。
（項目１２）
上記第１配列の上記第１時間分節に対応付けられた上記音響エネルギーレベルは、上記第１配列の上記第１時間分節の平均音響エネルギーレベル及び上記第１時間分節のピーク音響エネルギーレベルのうちの１つを含み、上記第２配列の上記第１時間分節に対応付けられた上記音響エネルギーレベルは、上記第２配列の上記第１時間分節の平均音響エネルギーレベル及び上記第２配列の上記第１時間分節のピーク音響エネルギーレベルのうちの１つを含む、上記項目に記載のシステム。
（項目１３）
上記第１配列の上記第１時間分節または上記第２配列の上記第１時間分節のうちの１つを、上記発話認識音声信号の上記第１時間分節として選択することは、最大音響エネルギーレベルを有する時間分節を選択することを含む、上記項目のいずれか一項に記載のシステム。
（項目１４）
上記発話認識音声信号の第２時間分節と、上記発話認識音声信号の第３時間分節との間の不連続音強を検出することと、
上記発話認識音声信号の上記第２時間分節及び上記発話認識音声信号の上記第３時間分節のうちの少なくとも１つに対し、音強整合プロセスを実行すること
をさらに含む上記項目のいずれか一項に記載のシステム。
（項目１５）
上記発話認識音声信号の上記第２時間分節は、上記第１音声信号に含まれる時間分節を含み、上記発話認識音声信号の上記第３時間分節は、上記第２音声信号に含まれる時間分節を含む、上記項目のいずれか一項に記載のシステム。
（項目１６）
上記発話認識アプリケーションから音声コマンドを受信することであって、上記音声コマンドは、上記音声コマンドを実行する予定のスマートデバイスを示す位置情報を含まない、受信することと、
上記ユーザに最も近いスマートデバイスの位置を特定することと、
上記ユーザに最も近い上記スマートデバイスへ、上記音声コマンドを転送すること
をさらに含む上記項目のいずれか一項に記載のシステム。
（項目１７）
上記スマートデバイスの上記位置を特定することは、複数のスマートデバイスが配置されている領域のトポロジー表現を調べることを含む、上記項目のいずれか一項に記載のシステム。
（項目１８）
マルチデバイスにおいて発話認識を実行する方法であって、
言語発声に応じて第１マイクにより生成される第１音声信号と、上記言語発声に応じて第２マイクにより生成される第２音声信号とを受信することと、
上記第１音声信号を、時間分節の第１配列に分割することと、
上記第２音声信号を、時間分節の第２配列に分割することと、
上記第１配列の第１時間分節に対応付けられた音響エネルギーレベルを、上記第２配列の第１時間分節に対応付けられた音響エネルギーレベルと比較することと、
上記比較に基づいて、上記第１配列の上記第１時間分節及び上記第２配列の上記第１時間分節のうちの１つを、発話認識音声信号の第１時間分節として選択することと、並びに、
上記発話認識音声信号を、発話認識アプリケーションへ送信すること、もしくは、
上記発話認識音声信号に対し発話認識を行うこと
を含む上記方法。
（項目１９）
上記第１配列の上記第１時間分節に対応付けられた上記音響エネルギーレベルは、上記第１配列の上記第１時間分節の平均音響エネルギーレベル及び上記第１時間分節のピーク音響エネルギーレベルのうちの１つを含み、上記第２配列の上記第１時間分節に対応付けられた上記音響エネルギーレベルは、上記第２配列の上記第１時間分節の平均音響エネルギーレベル及び上記第２配列の上記第１時間分節のピーク音響エネルギーレベルのうちの１つを含む、上記項目に記載の方法。
（項目２０）
上記第１配列の上記第１時間分節または上記第２配列の上記第１時間分節のうちの１つを、上記発話認識音声信号の上記第１時間分節として選択することは、最大音響エネルギーレベルを有する時間分節を選択することを含む、上記項目のいずれか一項に記載の方法。
（摘要）
マルチデバイスシステムにおいて発話認識を行うことは、言語発声に応じて第１マイクにより生成される第１音声信号と、言語発声に応じて第２マイクにより生成される第２音声信号とを受信することと、第１音声信号を、時間分節の第１配列に分割することと、第２音声信号を、時間分節の第２配列に分割することと、第１配列の第１時間分節に対応付けられた音響エネルギーレベルを、第２配列の第１時間分節に対応付けられた音響エネルギーレベルと比較することと、比較に基づいて、第１配列の第１時間分節及び第２配列の第１時間分節のうちの１つを、発話認識音声信号の第１時間分節として選択することと、発話認識音声信号に対し発話認識を行うことを含む。

【図面の簡単な説明】

【0009】

【図1】様々な実施形態の１つまたは複数の態様を実施するように構成されるマルチデバイスインテリジェントパーソナルアシスタント（ＩＰＡ）システムを例示する概要図である。

【図2】本開示の１つまたは複数の態様を実行するように構成されるコンピューティングデバイスを例示する。

【図3】様々な実施形態による、図１のマルチデバイスＩＰＡシステムにおけるマスタスマートデバイスにより受信され、そして処理される音声信号を、図式的に例示する。

【図4】様々な実施形態による、マルチデバイスシステムにおいて発話認識を実行する方法ステップのフローチャートを明記する。

【図5A】本開示の様々な実施形態による、図４の方法ステップの異なる段階を図式的に例示する。

【図5B】本開示の様々な実施形態による、図４の方法ステップの異なる段階を図式的に例示する。

【図5C】本開示の様々な実施形態による、図４の方法ステップの異なる段階を図式的に例示する。

【図5D】本開示の様々な実施形態による、図４の方法ステップの異なる段階を図式的に例示する。

【図6A】任意の音強整合の前の発話認識音声信号における時間分節を図式的に例示する。

【図6B】実施形態による、音強整合アプリケーションが時間分節のうちの１つに対し音強整合を行った後の図６Ａの時間分節を図式的に例示する。

【図6C】別の実施形態による、音強整合アプリケーションが時間分節のうちの１つに対し音強整合を行った後の図６Ａの時間分節を図式的に例示する。

【図6D】別の実施形態による、音強整合アプリケーションが両時間分節に対し音強整合を行った後の図６Ａの時間分節を図式的に例示する。

【図7】様々な実施形態による、図１におけるマルチデバイスＩＰＡシステムと類似するマルチデバイスＩＰＡシステムが機能する領域のトポロジー表現を、図式的に例示する。

【図8】様々な実施形態による、マルチデバイスシステムにおいて発話認識を実行する方法ステップのフローチャートを明記する。

【0010】

明確化のため、図間で共通の同一要素を指すのに、適用可能な場合には、同一参照番号が使用されている。一実施形態の特徴は、さらなる詳述なしに他の実施形態に組み込まれ得ると考えられる。

【発明を実施するための形態】

【0011】

図１は、様々な実施形態の１つまたは複数の態様を実施するように構成されるマルチデバイスインテリジェントパーソナルアシスタント（ＩＰＡ）システム１００を例示する概要図である。マルチデバイスＩＰＡシステム１００は、マスタスマートデバイス１２０と、スレーブスマートデバイス１３０と、スレーブスマートデバイス１４０とを含み、これらの全てが通信ネットワーク１５０を介して互いに通信可能に接続されている。また、言語発声９１を介してユーザ要求を生成するユーザ９０が、図１において図示される。いくつかの実施形態において、マルチデバイスＩＰＡシステム１００は、３つ以上のスレーブスマートデバイスを含む。

【0012】

通信ネットワーク１５０は、マスタスマートデバイス１２０、スレーブスマートデバイス１３０、スレーブスマートデバイス１４０、及び／または、ウェブサーバもしくは別のネットワークコンピューティングデバイス等の他のエンティティもしくはデバイスの間でデータ交換を可能にする、任意の技術的に実行可能な種類の通信ネットワークであり得る。例えば、通信ネットワーク１５０は、数ある中でも、広域ネットワーク（ＷＡＮ）、ローカルエリアネットワーク（ＬＡＮ）、無線（ＷｉＦｉ）ネットワーク、無線パーソナルエリアネットワーク（ＷＰＡＮ）（ブルートゥース（登録商標）ネットワーク等）、及び／またはインターネットを含み得る。従って、いくつかの実施形態において、通信ネットワーク１５０は、ＷｉＦｉルーターといった、図１に図示されない１つまたは複数の追加ネットワークデバイスを含み得る。別の実施形態において、通信ネットワーク１５０は、マスタスマートデバイス１２０、スレーブスマートデバイス１３０、及びスレーブスマートデバイス１４０に限定され得る。

【0013】

マスタスマートデバイス１２０、スレーブスマートデバイス１３０、及びスレーブスマートデバイス１４０のそれぞれは、ユーザから特定の音声コマンドを受信し、それに基づいて行動するように構成されるＩＰＡ対応コンピューティングデバイスである。作動中、マスタスマートデバイス１２０、スレーブスマートデバイス１３０、及びスレーブスマートデバイス１４０のうちの１つまたは複数は、言語発声９１を検出し、言語発声９１をデジタル音声信号等の各自の音声信号に変換する。このように、スレーブスマートデバイス１３０は、例えばマイク１３２を介して、言語発声９１に応じて音声信号１３１を生成し、音声信号１３１をマスタスマートデバイス１２０へ送信する。同様に、スレーブスマートデバイス１４０は、例えばマイク１４２を介して、言語発声９１に応じて音声信号１４１を生成し、音声信号１４１をマスタスマートデバイス１２０へ送信する。より詳しく後述されるように、マスタスマートデバイス１２０も、マイク１２２を介して、言語発声９１に応じて音声信号１２１を生成し、そして音声信号１３１、音声信号１４１、及び／または音声信号１２１の部分に基づいて、発話認識音声信号を作成する。発話認識音声信号はそれから、評価のために発話認識アプリケーションへ転送される。発話認識アプリケーションにより応答音声信号１２５が返されると、マスタスマートデバイス１２０は、マルチデバイスＩＰＡシステム１００内のどのスマートデバイスがユーザ９０に最も近いかを判断し、当該スマートデバイスへ応答音声信号１２５を送信して、好適な拡声器１２３、１３３、または１４３により音響エネルギーへ変換する。このように、マルチデバイスＩＰＡシステム１００内の複数のスマートデバイスが、音声コマンドを含む言語発声９１を受信し得るが、マルチデバイスＩＰＡシステム１００内の１つのスマートデバイスのみが、音声コマンドへの応答に対応付けられた音響を生成する。

【0014】

マスタスマートデバイス１２０、スレーブスマートデバイス１３０、及びスレーブスマートデバイス１４０のそれぞれは、通信ネットワーク１５０を介して通信し、かつＩＰＡアプリケーション及びＩＰＡアプリケーションに対応付けられたアプリケーションを実行するように作動可能な任意のスタンドアローンのコンピューティングデバイスであり得る。マスタスマートデバイス１２０、スレーブスマートデバイス１３０、及びスレーブスマートデバイス１４０として使用するのに好適なコンピューティングデバイスの例には、スマートスピーカ、スマートフォン、ホームオートメーションハブ、電子タブレット、ラップトップコンピュータ、及びデスクトップコンピュータ等が、非限定的に含まれる。代替的に、または追加的に、マスタスマートデバイス１２０、スレーブスマートデバイス１３０、及び／またはスレーブスマートデバイス１４０のうちの１つまたは複数は、通信ネットワーク１５０を介して通信するように作動可能であり、かつビデオゲーム機、セットトップコンソール、デジタルビデオレコーダ、及びホームオートメーションデバイス等を非限定的に含む電子デバイス、消費者製品、または他の機器に組み込まれたコンピューティングデバイスであり得る。このようなコンピューティングデバイスの一実施形態が、図２と合わせて後述される。

【0015】

図２は、本開示の１つまたは複数の態様を実行するように構成されるコンピューティングデバイス２００を例示する。コンピューティングデバイス２００は、マルチデバイスＩＰＡシステム１００におけるマスタスマートデバイス１２０、スレーブスマートデバイス１３０、及び／またはスレーブスマートデバイス１４０として用いられ得る。故に、コンピューティングデバイス２００は、メモリ２１０にそれぞれ存在し得る発話認識プログラム２１１、音声信号マージアプリケーション２１２、及び／またはトポロジーアプリケーション２１６のうちの１つまたは複数を実行するように構成される。いくつかの実施形態において、音声信号マージアプリケーション２１２は、音強整合アプリケーション２１３、時間整列アプリケーション２１４、及びマスタ選択アプリケーション２１５のうちの１つまたは複数を含み得る。コンピューティングデバイス２００はさらに、例えば応答音声信号１２５（図１に図示）を音響エネルギーに変換することで、拡声器２８２により音響を生成させるように構成される。本明細書において説明されるコンピューティングデバイスは例示であり、その他の技術的に実行可能な構成も本発明の範囲に含まれることに留意されたい。

【0016】

示されるように、コンピューティングデバイス２００は、処理ユニット２５０と、入出力（Ｉ／Ｏ）デバイス２８０に接続された入出力（Ｉ／Ｏ）デバイスインタフェース２６０と、メモリ２１０と、ストレージ２３０と、ネットワークインタフェース２７０とを接続するインタコネクト（バス）２４０を、非限定的に含む。処理ユニット２５０は、中央処理装置（ＣＰＵ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、その他の種類の処理装置、またはデジタル信号プロセッサ（ＤＳＰ）と共に作動するように構成されるＣＰＵといった異なる処理装置の組み合わせとして実装される任意の好適なプロセッサであり得る。例えば、いくつかの実施形態において、処理ユニット２５０は、ＣＰＵ及びＤＳＰを含む。一般に、処理ユニット２５０は、データを処理し、及び／または発話認識プログラム２１１、音声信号マージアプリケーション２１２、音強整合アプリケーション２１３、時間整列アプリケーション２１４、マスタ選択アプリケーション２１５、及び／またはトポロジーアプリケーション２１６を含むソフトウェアアプリケーションを実行することが可能な任意の技術的に実行可能なハードウェアユニットであり得る。さらに、本開示の文脈において、コンピューティングデバイス２００内に示されるコンピューティング構成要素は、物理的コンピューティングシステム（例えばデータセンタ内のシステム）に対応し得る、あるいはコンピューティングクラウド内で作動する仮想コンピューティングインスタンスであり得る。このような実施形態において、発話認識プログラム２１１は、コンピューティングクラウドまたはサーバ内で作動する仮想コンピューティングインスタンスを介して実施され得る。

【0017】

Ｉ／Ｏデバイス２８０は、キーボード、マウス、タッチ感応スクリーン、及びマイク２８１等の入力提供可能なデバイス、並びに拡声器２８２、及び表示スクリーン等の出力提供可能なデバイスを含み得る。表示スクリーンは、コンピュータモニタ、映像表示スクリーン、ハンドヘルドデバイスに組み込まれた表示機器、またはその他の技術的に実行可能な表示スクリーンであり得る。図１内のマイク２８１の個々の例には、言語発声９１等の音響エネルギーを、音声信号１２１、１３１、１４１等の音声信号に変換するように構成されるマイク１２２、１３２、及び１４２が含まれる。図１内の拡声器２８２の個々の例には、発話認識アプリケーション２１１により返された応答音声信号１２５等の音声信号を、音響エネルギーに変換するように構成される拡声器１２３、１３３、及び１４３が含まれる。

【0018】

Ｉ／Ｏデバイス２８０は、タッチスクリーン、及びユニバーサルシリアルバス（ＵＳＢ）ポート等、入力受信及び出力提供の両方が可能な追加デバイスを含み得る。このようなＩ／Ｏデバイス２８０は、コンピューティングデバイス２００のエンドユーザから様々な種類の入力を受信し、同様に、表示デジタル画像またはデジタル映像等の様々な種類の出力をコンピューティングデバイス２００のエンドユーザへ提供するように構成され得る。いくつかの実施形態において、Ｉ／Ｏデバイス２８０のうちの１つまたは複数は、コンピューティングデバイス２００を通信ネットワーク１５０へ接続するように構成される。

【0019】

Ｉ／Ｏインタフェース２６０により、Ｉ／Ｏデバイス２８０の処理ユニット２５０との通信が可能となる。Ｉ／Ｏインタフェースは一般に、処理ユニット２５０により生成されるＩ／Ｏデバイス２８０の対応アドレスを解釈する必須論理を含む。Ｉ／Ｏインタフェース２６０はまた、処理ユニット２５０とＩ／Ｏデバイス２８０との間のハンドシェーキングを実施し、及び／またはＩ／Ｏデバイス２８０に対応付けられた割り込みを生成するように構成され得る。Ｉ／Ｏインタフェース２６０は、任意の技術的に実行可能なＣＰＵ、ＡＳＩＣ、ＦＰＧＡ、その他の種類の処理装置またはデバイスとして実装され得る。

【0020】

ネットワークインタフェース２７０は、処理ユニット２５０を通信ネットワーク１５０へ接続するコンピュータハードウェアコンポーネントである。ネットワークインタフェース２７０は、スタンドアローンカード、プロセッサ、または他のハードウェアデバイスとして、コンピューティングデバイス２００内に実装され得る。通信ネットワーク１５０がＷｉＦｉネットワークまたはＷＰＡＮを含む実施形態において、ネットワークインタフェース２７０は、好適な無線送受信器を含む。代替的に、または追加的に、ネットワークインタフェース２７０は、セルラー通信機能、衛星電話通信機能、無線ＷＡＮ通信機能、または通信ネットワーク１５０及びマルチデバイスＩＰＡシステム１００に含まれる他のコンピューティングデバイス２００との通信を可能にする他の種類の通信機能で構成され得る。

【0021】

メモリ２１０は、ランダムアクセスメモリ（ＲＡＭ）モジュール、フラッシュメモリユニット、もしくはその他の種類のメモリユニット、またはこれらの組み合わせを含み得る。処理ユニット２５０、Ｉ／Ｏデバイスインタフェース２６０、及びネットワークインタフェース２７０は、メモリ２１０からデータを読み出し、メモリ２１０へデータを書き込みように構成される。メモリ２１０は、プロセッサ２５０により実行可能な様々なソフトウェアプログラム、及び当該ソフトウェアプログラムに対応付けられたアプリケーションデータを含み、これには、発話認識アプリケーション２１１、音声信号マージアプリケーション２１２、音強整合アプリケーション２１３、時間整列アプリケーション２１４、マスタ選択アプリケーション２１５、及び／またはトポロジーアプリケーション２１６が含まれる。図２に例示される実施形態において、メモリ２１０及びストレージ２３０は、コンピューティングデバイス２００に組み込まれた物理的コンポーネントとして例示される。別の実施形態において、メモリ２１０及び／またはストレージ２３０は、コンピューティングクラウド等の分散コンピューティング環境に含まれ得る。

【0022】

発話認識アプリケーション２１１は、図１における言語発声９１等の発話を、テキストに変換するように構成される任意のアプリケーションであり得る。加えて、発話認識アプリケーションは、１つまたは複数の別個のアプリケーションに対する音声インタフェースとして機能するように構成され得る。いくつかの実施形態において、発話認識アプリケーション２１１は、コンピューティングデバイス２００に対応付けられたＩＰＡシステムに組み込まれたソフトウェアアプリケーションまたはモジュールである。

【0023】

音声信号マージアプリケーション２１２は、音声信号１２１、音声信号１３１、または音声信号１４１等の複数の入力音声信号から、発話認識音声信号を生成するように構成される。そのため、音声信号マージアプリケーション２１２は、音声信号を複数の連続時間分節に分割するように構成される。加えて、時間分節の配列に分割された複数の音声信号に関して、音声信号マージアプリケーション２１２は、特定のタイムスタンプに対応付けられたそれぞれの複数の音声信号からの時間分節を比較し、最良の音声信号強度を有する時間分節を選択し、選択した時間分節を用いて発話認識音声信号の一部を作成するように構成される。複数の音声信号に対応付けられたタイムスタンプごとに当プロセスを繰り返すことにより、音声信号マージアプリケーション２１２は、発話認識アプリケーション２１１により使用される１つの発話認識音声信号を生成する。このように、発話認識アプリケーション２１１のために生成される発話認識音声信号は、最強の音声信号強度を有する複数の音声信号の部分を含む。

【0024】

いくつかの実施形態において、音声信号マージアプリケーション２１２は、音強整合アプリケーション２１３、及び／または時間整列アプリケーション２１４を含む。音声信号マージアプリケーション２１２、音強整合アプリケーション２１３、時間整列アプリケーション２１４、及びトポロジーアプリケーション２１６の動作は、より詳しく後述される。

【0025】

マスタ選択アプリケーション２１５は、マルチデバイスＩＰＡシステム１００に含まれるスマートデバイスのうち、どれがマスタスマートデバイスとして作動し、どれがスレーブスマートデバイスとして作動するかを判断するように構成される。いくつかの実施形態において、通信ネットワーク１５０内で追加のＩＰＡ対応スマートデバイスの電源が入れられた場合等、マルチデバイスＩＰＡシステム１００に新たなスマートデバイスが追加された場合、マスタ選択アプリケーション２１５は、マスタスマートデバイスが選択されるように、マルチデバイスＩＰＡシステム１００内の様々なスマートデバイス間の通信を調整する。このように、マスタスマートデバイス１２０、スレーブスマートデバイス１３０、及びスレーブスマートデバイス１４０は同様または同一のデバイスであっても、１つのマスタスマートデバイスが選択される。

【0026】

マスタスマートデバイスを選択するために、マスタ選択アプリケーション２１５において任意の技術的に実行可能なアルゴリズム（複数可）が用いられ得る。例えば、いくつかの実施形態において、マルチデバイスＩＰＡシステム１００において最大計算能力を有するスマートデバイスが、マスタスマートデバイス１２０として選択される。あるいは、いくつかの実施形態において、マルチデバイスＩＰＡシステム１００において最大バッテリ残量を有するスマートデバイスが、マスタスマートデバイス１２０として選択される。さらに別の実施形態において、マルチデバイスＩＰＡシステム１００において最も中央に配置されているスマートデバイスが、マスタスマートデバイス１２０として選択される。このような実施形態において、どのスマートデバイスが最も中央に配置されているかを決定するために、マルチデバイスＩＰＡシステム１００と一致する生活空間を表す部屋のトポロジーが用いられ得る。このようなトポロジーの実施形態は、図７と合わせて後述される。

【0027】

前述のように、本開示の実施形態によれば、マスタスマートデバイス１２０は、音声信号１３１、音声信号１４１、及び／または音声信号１５１（図１に全て図示）の部分に基づいて、発話認識音声信号を作成し、発話認識音声信号を、評価及び解釈のために、発話認識アプリケーションへ転送するように構成される。マスタスマートデバイス１２０はさらに、マルチデバイスＩＰＡシステム１００内のどのスマートデバイスがユーザ９０に最も近いかを判断し、そのスマートデバイスに対し、発話認識アプリケーション２１１により返された任意の応答音声信号１２５を提供するように構成される。その結果、マルチデバイスＩＰＡシステム１００内の好適なスマートデバイスが、任意の来たる音声応答をユーザ９０に提供する。このような実施形態は、図３～５と合わせて後述される。

【0028】

図３は、様々な実施形態による、マスタスマートデバイス１２０により受信され、そして処理される音声信号３００を、図式的に例示する。音声信号３００は、マスタスマートデバイス１２０により生成された音声信号１２１、スレーブスマートデバイス１３０により生成された音声信号１３１、またはスレーブスマートデバイス１４０により生成された音声信号１４１を表し得る。示されるように、音声信号３００は、時間分節３０１Ａ～３０１Ｎの配列に分割される。それぞれの時間分節３０１Ａ～３０１Ｎは、特定の時間間隔に対応付けられた音声信号３００からの音声データの特定部分、すなわち音声信号分節データ３０３Ａ～３０３Ｎのうちの１つをそれぞれ含む。加えて、それぞれの時間分節３０１Ａ～３０１Ｎは、音声信号３００及びその特定時間間隔に対応付けられたメタデータ、すなわち分節メタデータ３０２Ａ～３０２Ｎを含む。例えば、時間分節３０１Ａは、音声信号分節データ３０３Ａ、及び分節メタデータ３０２Ａを含む。同じく、時間分節３０１Ｂは、音声信号分節データ３０３Ｂ及び分節メタデータ３０２Ｂを含み、時間分節３０１Ｃは、音声信号分節データ３０３Ｃ及び分節メタデータ３０２Ｃを含み、以降同様に続く。

【0029】

本明細書において集合的に時間分節３０１と称される時間分節３０１Ａ～３０１Ｎはそれぞれ、特有の時間間隔の音声信号データを含み、各時間分節３０１の時間間隔は、約５０ミリ秒から約２秒の間である。非常に短持続の時間分節３０１は一般に、より大きい計算リソースを必要とするため、マスタスマートデバイス１２０、スレーブスマートデバイス１３０、またはスレーブスマートデバイス１４０のうちのいくつかの構成において実施することが難しくあり得る。さらに、後述されるように、より長持続の音声分節３０１は、異なる音声信号からの時間分節を発話認識音声信号へ効果的にマージするのに、音声信号内１３１において十分な時間粒度を提供し損ない得る。その結果、いくつかの実施形態において、各時間分節３０１の時間間隔は、約１００ミリ秒から約５００ミリ秒の間である。本明細書において集合的に音声信号分節データ３０３と称される音声信号分節データ３０３Ａ～３０３Ｎはそれぞれ、音声信号強度または音響エネルギーレベルが対応付けられ、示されるように、時間に対して図示される。

【0030】

本明細書において集合的に分節メタデータ３０２と称される分節メタデータ３０２Ａ～３０２Ｎはそれぞれ、音声信号３００及び特定の時間分節３０３に対応付けられたメタデータを含む。例えば、いくつかの実施形態において、特定の時間分節３０１に対応付けられた分節メタデータ３０２の例には、その時間分節３０１の音声信号分節データ３０３がマルチデバイスＩＰＡシステム１００内のスマートデバイスにより生成された時間を示すタイムスタンプまたは他の識別子が含まれる。いくつかの実施形態において、特定の時間分節３０１に対応付けられた分節メタデータ３０２の例には、時間分節３０１はマルチデバイスＩＰＡシステム１００内のどのスマートデバイスから生じたかを示す情報が含まれる。さらに、いくつかの実施形態において、特定の時間分節３０１に対応付けられた分節メタデータ３０２の例には、時間分節３０１にわたる平均音声信号強度、及び時間分節内の音声信号分節データのピーク音声信号強度等、その時間分節３０１に含まれる音声信号分節データ３０３に関連するメタデータが含まれる。

【0031】

いくつかの実施形態において、音声信号３００は、音声信号３００を生成するスマートデバイスにより、時間分節３０１に分割される。このような実施形態において、分節メタデータ３０２の一部または全ても、音声信号３００を生成するスマートデバイスにより生成される。あるいは、いくつかの実施形態において、音声信号３００は、スレーブスマートデバイス１３０またはスレーブスマートデバイス１４０から受信された場合、マスタスマートデバイス１２０により時間分節３０１に分割され得る。同様に、いくつかの実施形態において、分節メタデータ３０２の一部または全ては、時間分節３０１が一旦生成されると、マスタスマートデバイス１２０により生成され得る。

【0032】

図４は、様々な実施形態による、マルチデバイスシステムにおいて発話認識を実行する方法ステップのフローチャートを明記する。図５Ａ～Ｄは、本開示の様々な実施形態による、図４の方法ステップの異なる段階を図式的に例示する。方法ステップは図１～３のシステムに関して説明されるが、方法ステップを任意の順序で行うように構成される任意のシステムは、様々な実施形態の範囲に含まれることが、当業者には理解されよう。

【0033】

示されるように、方法４００は、マスタスマートデバイス１２０がマルチデバイスＩＰＡシステム１００に含まれる各スマートデバイスから１つずつ、複数の音声信号を受信するステップ４０１から始まる。音声信号は、ユーザ９０からの言語発声９１に応じて生成される。例えば、一実施形態において、マスタスマートデバイス１２０は、図５Ａに示されるように、マイク１２２からの音声信号１２１、スレーブスマートデバイス１３０からの音声信号１３１、及びスレーブスマートデバイス１４０からの音声信号１４１を受信する。スレーブスマートデバイス１３０はスレーブスマートデバイスとして選択されているため、スレーブスマートデバイス１３０がマイク１３２から音声信号１３１を受信すると、音声信号１３１は、スレーブスマートデバイス１３０にローカルに含まれる任意の発話認識アプリケーションにより処理されるのではなく、マスタスマートデバイス１２０へ送信される。同様に、スレーブスマートデバイス１４０は、ローカルで音声信号１４１を処理するのではなく、音声信号１４１をマスタスマートデバイス１２０へ送信する。

【0034】

ステップ４０２において、マスタスマートデバイス１２０は、ステップ４０１において受信した音声信号を、図５Ｂに示されるように、タイムスタンプ時間分節５０１Ａ～５０１Ｎの配列に分割する。他の音声信号に関して、ステップ４０１において受信された音声信号のうちの１つの相対信号強度は、時間分節５０１Ａ～５０１Ｎを通して変わり得ることに留意されたい。例えば、音声信号１３１は、時間分節５１０において最も強い音声信号強度を有し、一方、音声信号１４１は、時間分節５２０において最も強い音声信号強度を有する。このような相対音声信号強度の変化は、マスタスマートデバイス１２０、スレーブスマートデバイス１３０、またはスレーブデバイス１４０のうちの１つまたは複数に関するユーザ９０の位置または配向の変化により生じ得る。このように、時間分節５１０により表される時間間隔の間、ユーザ９０はスレーブスマートデバイス１３０に近接または直面し得、一方、時間分節５２０により表される時間間隔において、ユーザ９０はスレーブスマートデバイス１４０に対しより直面または接近し得る。

【0035】

音声信号１２１、１３１、及び１４１を時間分節の配列に分割することに加えて、いくつかの実施形態において、マスタスマートデバイス１２０はまた、音声信号１２１、１３１、及び１４１の時間分節５０１Ａ～５０１Ｎごとに、分節メタデータ３０２の一部または全てを生成する。代替実施形態において、音声信号１３１及び１４１の時間分節への分割は、マスタスマートデバイス１２０へ転送される前に、ローカルで行われる。このような実施形態において、スレーブスマートデバイス１３０は音声信号１３１を時間分節３０１に分割し、時間分節３０１ごとに分節メタデータ３０２を生成し、一方、スレーブスマートデバイス１４０は、音声信号１４１を時間分節３０１に分割し、時間分節３０１ごとに分節メタデータ３０２を生成する。

【0036】

ステップ４０３において、マスタスマートデバイス１２０は、ステップ４０１において受信した各音声信号から、対応時間分節５０１を選択する。いくつかの実施形態において、時間分節は経時的に選択され、従って、ステップ４０３の各反復時に、後の時間分節５０１が、各音声信号１２１、１３１、及び１４１から選択される。例えば、このような実施形態において、ステップ４０３の第１反復時において、マスタスマートデバイス１２０は、それぞれの音声信号１２１、１３１、及び１４１から時間分節５０１Ａを選択し、ステップ４０３の次の反復時において、マスタスマートデバイス１２０は、各音声信号から時間分節５０１Ｂを選択し、以降同様に続く。各音声信号からの対応時間分節５０１は、タイムスタンプに基づいてステップ４０３において選択可能である。すなわち、各音声信号における同じタイムスタンプ情報を有する時間分節が、ステップ４０３において一緒に選択される。

【0037】

ステップ４０４において、マスタスマートデバイス１２０は、図５Ｃにおいて例示されるように、ステップ４０３において選択された時間分節５０１の音声信号強度を比較する。例示のために、図５Ｃは、同時に比較される音声信号１２１、１３１、及び１４１の全ての時間分節５０１の比較を示す。実際には、マスタスマートデバイス１２０は一般に、ステップ４０４の各反復時に、それぞれの音声信号１２１、１３１、及び１４１から、１つの時間分節５０１を比較する。例えば、ステップ４０４の一反復時において、マスタスマートデバイス１２０は、音声信号１２１の時間分節５０１Ａの音声信号強度を、音声信号１３１の時間分節５０１Ａ及び音声信号１４１の時間分節５０１Ａの音声信号強度と比較する。それぞれの音声信号１２１、１３１、及び１４１の時間分節５０１Ｂの音声信号強度は、ステップ４０４の次の反復時において比較され、以降同様に続く。

【0038】

いくつかの実施形態において、音声信号強度の比較は、ステップ４０３において選択された時間分節５０１ごとの分節メタデータ３０２に含まれる情報に基づく。いくつかの実施形態において、マスタスマートデバイス１２０は、時間分節５０１ごとの平均音声信号強度を比較する。別の実施形態において、マスタスマートデバイス１２０は、時間分節５０１ごとのピーク音声信号強度を比較する。

【0039】

ステップ４０５において、マスタスマートデバイス１２０は、最大音声信号強度または音響エネルギーレベルを有する時間分節５０１を選択する。

【0040】

ステップ４０６において、マスタスマートデバイス１２０は、ステップ４０５において選択した時間分節５０１を、図５Ｄに示されるように、発話認識音声信号５３０に加える。図５Ｄは、方法４００が完了し、同時に比較された音声信号１２１、１３１、及び１４１から全ての時間分節５３１が追加された後の発話認識音声信号５３０を示す。実際には、マスタスマートデバイス１２０は一般に、ステップ４０６の各反復時に、それぞれの音声信号１２１、１３１、及び１４１から、１つの時間分節５０１を追加する。例えば、ステップ４０６の一反復時において、マスタスマートデバイス１２０は、発話認識音声信号５３０に、音声信号１３１の時間分節５０１Ａを、時間分節５３１Ａとして選択する。その後、ステップ４０６の次の反復時において、マスタスマートデバイス１２０は、発話認識音声信号５３０に、音声信号１３１の時間分節５０１Ｂを、時間分節５３１Ｂとして選択し、以降同様に続く。図５Ｄに例示される実施形態において、時間分節５１０にて音声信号１３１が最大音声信号強度を有するため、ステップ４０６の複数の反復時の間に、音声信号１３１からの時間分節５１０が発話認識音声信号５３０に追加される。同様に、時間分節５２０において音声信号１４１が最大音声信号強度を有するため、ステップ４０６の複数の反復時の間に、音声信号１４１からの時間分節５２０が発話認識音声信号５３０に追加される。

【0041】

ステップ４０７において、マスタスマートデバイス１２０は、ステップ４０１において受信した音声信号の任意の時間分節が未処理で残っているか否かを判定する。残っている場合、方法４００はステップ４０３に戻り、残っていない場合、方法４００はステップ４０８へ進む。

【0042】

ステップ４０８において、マスタスマートデバイス１２０は、発話認識音声信号５３０を、処理及び解釈のために、発話認識アプリケーション２１１へ転送する。いくつかの実施形態において、発話認識アプリケーション２１１は、発話認識音声信号５３０をテキストに変換し、その後、テキスト内から、発話認識アプリケーション２１１またはマルチデバイスＩＰＡシステム１００に関連する他のアプリケーションに対応付けられた音声コマンドを検出する。例えば、いくつかの実施形態において、検出された音声コマンドは、マスタスマートデバイス１２０により実施され、一方、別の実施形態において、検出された音声コマンドは、マスタスマートデバイス１２０または通信ネットワーク１５０に通信可能に接続された他のコンピューティングデバイスにおいて作動する任意の好適なアプリケーションへ送信される。一般に、検出される音声コマンドは、会話式質問またはコマンド等、従来のＩＰＡシステムにより用いられる任意の好適なコマンドを含み得る。

【0043】

ステップ４０９において、マスタスマートデバイス１２０は、図１における応答音声信号１２５等、応答音声信号を発話認識アプリケーション２１１から受信する。例えば、応答音声信号１２５は、ステップ４０８において検出された音声コマンド（複数可）に対する発話ベース応答を含み得る。

【0044】

ステップ４１０において、マスタスマートデバイス１２０は、マルチデバイスＩＰＡシステム１００に含まれるスマートデバイスのうち、どれがユーザ９０に最も近いか判断する。いくつかの実施形態において、マスタスマートデバイス１２０は、分節メタデータ３０２に基づいて、どのスマートデバイスがユーザ９０に最も近いか判断する。具体的には、ユーザ９０に最も近いスマートデバイスは、発話認識音声信号５３０の最後の時間分節５３１Ｎが生じたスマートデバイスであると、マスタスマートデバイス１２０は判断し得る。

【0045】

ステップ４１１において、マスタスマートデバイス１２０は、ステップ４１０においてユーザ９０に最も近いと判断されたスマートデバイスへ、応答音声信号１２５を送信する。従って、ユーザ９０に最も近くに配置されたスマートデバイスが、言語発声９１に含まれる音声コマンドに対する可聴応答を提供する。さらに、マルチデバイスＩＰＡシステム１００内のそれ以外のスマートデバイスは、可聴応答を提供しない。よって、方法４００の実施により、複数のＩＰＡ対応デバイスが同じ口頭コマンドに同時に応答してユーザ９０に混乱が生じることは、回避される。

【0046】

発話認識音声信号５３０を形成するために複数の情報源からの時間分節５０１が結合されるため、いくつかの状況において、方法４００で生成される発話認識音声信号５３０内に、不連続性が存在し得る。例えば、図５Ｄに示されるように、音声信号１３１といった第１情報源からの発話認識音声信号５３０内の時間分節５０１が、音声信号１４１といった第２情報源からの時間分節５０１と隣接する場合、音声信号強度に大幅な不連続性が生じ得る。発話認識音声信号５３０内の時間分節５０１Ｊは、音声信号１３１から取り込まれ、音声信号１４１から取り込まれた時間分節５０１Ｋよりも大きい音声信号強度を有する。このような不連続性は、可聴のカチカチとした音を生じ得、これは発話認識アプリケーション２１１の口頭コマンドを認識する能力に作用し得る。いくつかの実施形態によれば、音強整合アプリケーション２１３は、図６Ａ～Ｄに例示されるように、このような不連続性を平滑化するように構成される。

【0047】

図６Ａは、任意の音強整合の前の発話認識音声信号５３０における時間分節５０１Ｊ及び５０１Ｋを図式的に例示する。示されるように、時間分節５０１Ｊと時間分節５０１Ｋとの間の遷移時６０１に、不連続音強６０２が起こる。

【0048】

図６Ｂは、実施形態による、音強整合アプリケーション２１３が時間分節５０１Ｊに対し音強整合を行った後の時間分節５０１Ｊ及び５０１Ｋを図式的に例示する。具体的には、音強整合アプリケーション２１３は、遷移時６０１の時間分節５０１Ｊの音声信号レベルが、遷移時６０１の時間分節５０１Ｋの音声信号レベルと等しくなるように、時間分節５０１Ｊの少なくとも一部に関する音声信号強度を低減させた。このようにして、音強整合アプリケーション２１３により、拡張発話認識音声信号６３０が生成される。示されるように、いくつかの実施形態において、音声信号強度における低減は、時間分節５０１Ｊにより表される時間間隔の一部または全体にわたって段階的であり得る。図６Ｂに描かれる音声信号強度における低減は、従来のデジタル信号処理技術により容易に実行可能である。代替的に、または追加的に、時間分節５０１Ｊ及び５０１Ｋの間の遷移を可聴に平滑化するために、時間分節５０１Ｊに対応付けられた音声信号を時間分節５０１Ｋに対応付けられた音声信号と調和させる任意の技術的に実行可能な技術、例えばエコー除去技術、及びデコンボリューションアルゴリズム等が用いられ得る。

【0049】

図６Ｃは、別の実施形態による、音強整合アプリケーション２１３が時間分節５０１Ｋに対し音強整合を行った後の時間分節５０１Ｊ及び５０１Ｋを図式的に例示する。具体的には、音強整合アプリケーション２１３は、遷移時６０１の時間分節５０１Ｋの音声信号レベルが、遷移時６０１の時間分節５０１Ｊの音声信号レベルと等しくなるように、時間分節５０１Ｋの少なくとも一部に関する音声信号強度を増大させた。このようにして、音強整合アプリケーション２１３により、拡張発話認識音声信号６３１が生成される。示されるように、いくつかの実施形態において、音声信号強度における増大は、時間分節５０１Ｋにより表される時間間隔の一部または全体にわたって段階的であり得る。図６Ｃに描かれる音声信号強度における増大は、図６Ｂに関連して前述されたデジタル信号処理技術のうちのいずれかにより、容易に実行可能である。

【0050】

図６Ｄは、別の実施形態による、音強整合アプリケーション２１３が時間分節５０１Ｊに対し、及び時間分節５０１Ｋに対し音強整合を行った後の時間分節５０１Ｊ及び５０１Ｋを図式的に例示する。具体的には、音強整合アプリケーション２１３は、遷移時６０１の時間分節５０１Ｋの音声信号レベルが、遷移時６０１の時間分節５０１Ｊの音声信号レベルと等しくなるように、時間分節５０１Ｊの少なくとも一部に関する音声信号強度を低減させ、時間分節５０１Ｋの少なくとも一部に関する音声信号強度を増大させた。このようにして、音強整合アプリケーション２１３により、拡張発話認識音声信号６３２が生成される。音声信号強度におけるこのような変化は、図６Ｂに関連して前述されたデジタル信号処理技術のうちのいずれかにより、容易に実行可能である。

【0051】

いくつかの実施形態において、時間分節５０１Ｊ及び５０１Ｋの間の音声信号強度における不連続性は、時間整列アプリケーション２１４により対処される。例えば、１つの音声信号（例えば音声信号１３１）に対応付けられた時間分節５０１のうちの１つまたは複数の分節のタイムスタンプと、別の音声信号（例えば音声信号１４１）に対応付けられた時間分節５０１のうちの１つまたは複数の分節のタイムスタンプとの間に、小さい時間不整列が存在する場合、時間分節５０１Ｊ及び５０１Ｋにおける波形は、既知のデジタル信号処理技術を使用して整列可能である。このようにして、例えば異なる位置に配置されたスマートデバイスに特有の微小遅延により生じる音声信号間の可聴不連続性は、最小化あるいは低減可能である。

【0052】

いくつかの実施形態において、マルチデバイスＩＰＡシステムに含まれるスマートデバイスのうちの一部または全ては、住宅またはオフィス空間における特定の部屋等、通信ネットワーク１５０に対応付けられた特定位置にそれぞれリンクされる。このような実施形態において、マスタスマートデバイス１２０、スレーブスマートデバイス１３０、及びスレーブスマートデバイス１４０は、位置認識スマートデバイスである。すなわち、それぞれが、生活空間等の包括的領域内の特定の部屋または他の位置に対応付けられている。従って、マルチデバイスＩＰＡシステム１００内の特定のスマートデバイスにより受信されたコマンドは、スマートデバイスがユーザ、生活空間内の他のデバイス、及びスマートデバイス自身の位置を認識しているという位置認識状況にあるスマートデバイスにより、理解可能である。このような実施形態において、トポロジーアプリケーション２１６は、ユーザがマルチデバイスＩＰＡシステム１００内の各スマートデバイスを、マルチデバイスＩＰＡシステム１００が機能する領域のトポロジー表現における特定の位置に対応付けることを可能にするように構成される。このようなトポロジー表現の一実施形態は、図７において例示される。

【0053】

図７は、様々な実施形態による、図１におけるマルチデバイスＩＰＡシステム１００と類似するマルチデバイスＩＰＡシステムが機能する領域のトポロジー表現７００を、図式的に例示する。トポロジー表現７００は、マルチデバイスＩＰＡシステム１００に対応付けられた生活空間の様々な部屋の間の位置関係を捉える。よって、トポロジー表現７００は、部屋７１０と、様々な部屋７１０の間にどのようなアクセスが存在するかを示す接続７２０とを含む。加えて、トポロジー表現７００は、互いに近接する複数の部屋をそれぞれ含む１つまたは複数の区域７３１及び７３２も含み得る。トポロジー表現７００は一般に、例えばトポロジーアプリケーション２１６により提供されるグラフィカルユーザインタフェースを介して、ユーザにより入力され、通常、マルチデバイスＩＰＡシステム１００にスマートデバイスが追加される度に修正される。

【0054】

図７に例示される実施形態において、部屋７１０には、キッチン７０１、ダイニングルーム７０２、中央廊下７０３、リビングルーム７０４、玄関廊下７０５、風呂場７０６、玄関７０７、及び寝室７０８が含まれる。接続７２０には、特定の部屋７１０との間のドアアクセス接続７２１と、特定の部屋７１０との間の開放領域アクセス接続７２２とが含まれる。従って、接続７２０は、どの部屋が音声制御の対象空間であり得るかを示すことが可能であり、開放領域アクセス接続７２２を介して接続されている部屋は対象候補であり、ドアアクセス接続７２１によりユーザから隔てられた部屋は非対象であるとみなされる。加えて、トポロジー表現７００は、音声コマンドにより制御可能なデバイスといったスマートデバイスの位置を含む。図７に例示される実施形態において、トポロジー表現７００におけるスマートデバイスには、照明７０１Ａ、７０２Ａ、７０２Ｂ、７０３Ａ、７０３Ｂ、７０４Ａ、７０４Ｂ、７０５Ａ、７０６Ａ、７０７Ａ、及び７０８Ａが含まれる。

【0055】

区域７３１～７３３はそれぞれ、複数の部屋と、音声コマンドに用いられ得る一意的識別子とを含む。従って、区域７３１がトポロジー表現７００において「家族領域」と定義された場合、家族領域に対し音声コマンドを発することが可能であり、これは、この区域に含まれる全ての部屋の全てのスマートデバイスに作用する。例えば、ユーザが「家族領域内の照明を点灯」という音声コマンドを与えると、結果として、照明７０１Ａ、７０２Ａ、７０２Ｂ、７０３Ａ、７０３Ｂ、７０４Ａ、及び７０４Ｂが点灯される。

【0056】

図８は、様々な実施形態による、マルチデバイスシステムにおいて発話認識を実行する方法ステップのフローチャートを明記する。方法ステップは図１～３のシステムに関して説明されるが、方法ステップを任意の順序で行うように構成される任意のシステムは、様々な実施形態の範囲に含まれることが、当業者には理解されよう。

【0057】

示されるように、方法８００は、トポロジー表現７００に対応付けられたマルチデバイスＩＰＡシステム内のマスタスマートデバイスが、１つまたは複数の音声信号を受信するステップ８０１から始まる。マスタスマートデバイスは、ユーザの言語発声を検出したマルチデバイスＩＰＡシステムに含まれるスマートデバイスそれぞれから、そのような１つの音声信号を受信する。例えば、１つまたは複数の音声信号は、図１における通信ネットワーク１５０に類似したＷｉＦｉネットワークまたは他のネットワークを介して、マスタスマートデバイスにより受信され得、ユーザの言語発声に応じて生成される。

【0058】

ステップ８０２において、マスタスマートデバイスは、例えば前述の方法４００を介して、ステップ８０１において受信された１つまたは複数の音声信号から、発話認識音声信号を作成する。

【0059】

ステップ８０３において、マスタスマートデバイスは、発話認識音声信号を、処理及び解釈のために、発話認識アプリケーション２１１といった発話認識アプリケーションへ転送する。いくつかの実施形態において、発話認識アプリケーションは、発話認識音声信号をテキストに変換し、それからマルチデバイスＩＰＡシステムにより実行可能な音声コマンドを検出する。

【0060】

ステップ８０４において、マスタスマートデバイスは、発話認識アプリケーションにより検出された音声コマンドを通常、テキスト形式で受信する。

【0061】

ステップ８０５において、マスタスマートデバイスは、ステップ８０４において受信した音声コマンドがマルチデバイスＩＰＡシステムに含まれる１つまたは複数のスマートデバイスにより実行可能であるか否かを判定する。実行不可能である場合、方法８００はステップ８０６へ進み、実行可能である場合、方法８００はステップ８０７へ進む。

【0062】

ステップ８０６において、マスタスマートデバイスは、音声コマンドを、実行のために好適なアプリケーションへ転送する。

【0063】

ステップ８０７において、マスタスマートデバイスは、マルチデバイスＩＰＡシステム内のどのスマートデバイスに音声コマンドを実行させる予定かを示す位置情報を、ステップ８０４において受信した音声コマンドが含むか否かを判定する。例えば、音声コマンドは、「リビングルーム内の照明」または「リビングルームの照明」といった句を含み得る。含む場合、方法はステップ８０８へ進み、含まない場合、方法はステップ８０９へ進む。

【0064】

ステップ８０８において、マスタスマートデバイスは、音声コマンドにおいて指示された位置における、マルチデバイスＩＰＡシステムの１つまたは複数のスマートデバイスへ、音声コマンドを転送する。例えば、音声コマンドが「リビングルーム内の照明」という句を含む実施形態において、マスタスマートデバイスは、音声コマンドの実行のために、トポロジー表現７００内の照明７０４Ａ及び７０４Ｂに対応するスマートデバイスへ、音声コマンドを転送する。

【0065】

ステップ８０９において、マスタスマートデバイスは、どのデバイスがマルチデバイスＩＰＡシステム内で最もユーザに近いスマートデバイスであるかに基づいて、ユーザの現在の位置を特定する。例えば、いくつかの実施形態において、前述の方法４００に明記されるように、ユーザに最も近いスマートデバイスは、発話認識音声信号の最後の時間分節が生じたスマートデバイスであると、マスタスマートデバイスは判断する。

【0066】

ステップ８１０において、マスタスマートデバイスは、音声コマンドを実行するように構成され、かつユーザの現行位置に配置された１つまたは複数のスマートデバイスへ、音声コマンドを転送する。

【0067】

要するに、方法８００の実施により、ユーザは、音声コマンドが位置特有のコマンドであっても、位置情報を含まない音声コマンドを用いることが可能となる。従って、好適に構成された多室空間のトポロジー表現を仮定すると、ユーザは、「照明の点灯」といった単純な音声コマンドを発して、正しくコマンドを実行させることが可能となる。マルチデバイスＩＰＡシステムに含まれる位置認識スマートデバイスにより、ユーザが特定の音声コマンドを実行させたいスマートデバイス（複数可）の位置は、状況的に特定可能であり、よってユーザにより発せられる音声コマンドは簡略化される。

【0068】

要するに、様々な実施形態は、複数のスマートデバイスから受信される複数の音声信号の部分に基づいて発話認識音声信号を作成し、発話認識音声信号を、評価及び解釈のために、発話認識アプリケーションへ転送し、複数のスマートデバイスのうちどれがユーザに最も近いかを判断するシステム及び技術を明記する。発話認識アプリケーションにより返される応答音声信号は、実行及び／または再生のために、ユーザに最も近いと判断されたスマートデバイスへ転送される。開示される実施形態の少なくとも１つの利点は、ユーザが複数のスマートデバイスにより検出可能な音声コマンドを発しても、１つの応答のみを受信可能なことである。

【0069】

様々な実施形態の説明は、例示目的で提示されているが、開示される実施形態に関して包括的または限定的である意図はない。説明される実施形態の範囲及び趣旨から逸脱することなく、数多くの変更及び変形が当業者には明らかであろう。

【0070】

本実施形態の態様は、システム、方法、またはコンピュータプログラム製品として具現化され得る。従って、本開示の態様は、完全なハードウェア実施形態、完全なソフトウェア実施形態（ファームウェア、常駐ソフトウェア、マイクロコード等を含む）、または本明細書において全て「モジュール」もしくは「システム」と一般に称され得るソフトウェア及びハードウェア態様を組み合わせた実施形態の形を取り得る。さらに、本開示の態様は、コンピュータ可読プログラムコードが取り込まれた１つまたは複数のコンピュータ可読媒体（複数可）に具現化されたコンピュータプログラム製品の形を取り得る。

【0071】

１つまたは複数のコンピュータ可読媒体の任意の組み合わせが使用され得る。コンピュータ可読媒体は、コンピュータ可読信号媒体またはコンピュータ可読記憶媒体であり得る。コンピュータ可読記憶媒体は、例えば、電子、磁気、光学、電磁気、赤外線、もしくは半導体のシステム、機器、もしくは装置、または前述の任意の好適な組み合わせであり得るが、これに限定されない。コンピュータ可読記憶媒体のより具体的な例（非包括的一覧）には、１つまたは複数の有線を有する電気接続、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読出専用メモリ（ＲＯＭ）、消去可能プログラマブル読出専用メモリ（ＥＰＲＯＭもしくはフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスク読出専用メモリ（ＣＤ‐ＲＯＭ）、光学記憶装置、磁気記憶装置、または前述の任意の好適な組み合わせ、以上が含まれ得る。本文書の文脈において、コンピュータ可読記憶媒体は、命令実行システム、機器、もしくは装置により使用される、またはこれと接続するプログラムを包含もしくは記憶可能な任意の有形媒体であり得る。

【0072】

本開示の実施形態による方法、機器（システム）、及びコンピュータプログラム製品のフローチャート図解及び／またはブロック図を参照して、本開示の態様が前述された。フローチャート図解及び／またはブロック図の各ブロック、並びにフローチャート図解及び／またはブロック図内のブロックの組み合わせは、コンピュータプログラム命令により実施可能であることは理解されよう。これらのコンピュータプログラム命令は、マシンを生じさせるために汎用コンピュータ、専用コンピュータ、または他のプログラマブルデータ処理機器のプロセッサに提供され得、よって、コンピュータまたは他のプログラマブルデータ処理機器のプロセッサを介して実行される当該命令により、フローチャート及び／またはブロック図のブロック（複数可）において指定される機能／活動の実施が可能となる。このようなプロセッサは、汎用プロセッサ、専用プロセッサ、特定用途向けプロセッサ、またはフィールドプログラマブルプロセッサもしくはゲートアレイであり得るが、これに限定されない。

【0073】

図におけるフローチャート及びブロック図は、本開示の様々な実施形態によるシステム、方法、及びコンピュータプログラム製品の可能な実施態様のアーキテクチャ、機能、及び動作を例示する。その際、フローチャートまたはブロック図における各ブロックは、指定される論理機能（複数可）を実行するための１つまたは複数の実行可能命令を備えるモジュール、セグメント、またはコード部分を表し得る。いくつかの代替実施態様において、ブロックに記される機能は、図に記される順番外でも起こり得ることにも留意されたい。例えば、連続して示される２つのブロックは実際には、実質的に同時に実行され得る、あるいは関与する機能によっては、ブロックは時に逆の順序で実行され得る。ブロック図及び／またはフローチャート図解の各ブロック、並びにブロック図及び／またはフローチャート図解内のブロックの組み合わせは、指定される機能もしくは活動を実行する専用ハードウェアベースシステム、または専用ハードウェア及びコンピュータ命令の組み合わせにより実行可能であることにも留意されたい。

【0074】

前述は本開示の実施形態を対象とするが、本開示の他及びさらなる実施形態は、その基本範囲から逸脱することなく考案され得、その範囲は以下の特許請求の範囲により特定される。

【図1】