特許第6105552号(P6105552)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ マイクロソフト テクノロジー ライセンシング,エルエルシーの特許一覧

<>
  • 特許6105552-ロケーションベースの会話理解 図000002
  • 特許6105552-ロケーションベースの会話理解 図000003
  • 特許6105552-ロケーションベースの会話理解 図000004
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6105552
(24)【登録日】2017年3月10日
(45)【発行日】2017年3月29日
(54)【発明の名称】ロケーションベースの会話理解
(51)【国際特許分類】
   G10L 15/10 20060101AFI20170316BHJP
   G10L 15/20 20060101ALI20170316BHJP
【FI】
   G10L15/10 500T
   G10L15/20 370D
【請求項の数】13
【全頁数】14
(21)【出願番号】特願2014-502718(P2014-502718)
(86)(22)【出願日】2012年3月27日
(65)【公表番号】特表2014-509757(P2014-509757A)
(43)【公表日】2014年4月21日
(86)【国際出願番号】US2012030730
(87)【国際公開番号】WO2012135210
(87)【国際公開日】20121004
【審査請求日】2015年3月26日
(31)【優先権主張番号】13/077,455
(32)【優先日】2011年3月31日
(33)【優先権主張国】US
(31)【優先権主張番号】13/076,862
(32)【優先日】2011年3月31日
(33)【優先権主張国】US
(31)【優先権主張番号】13/077,233
(32)【優先日】2011年3月31日
(33)【優先権主張国】US
(31)【優先権主張番号】13/077,303
(32)【優先日】2011年3月31日
(33)【優先権主張国】US
(31)【優先権主張番号】13/077,368
(32)【優先日】2011年3月31日
(33)【優先権主張国】US
(31)【優先権主張番号】13/077,396
(32)【優先日】2011年3月31日
(33)【優先権主張国】US
(31)【優先権主張番号】13/077,431
(32)【優先日】2011年3月31日
(33)【優先権主張国】US
(73)【特許権者】
【識別番号】314015767
【氏名又は名称】マイクロソフト テクノロジー ライセンシング,エルエルシー
(74)【代理人】
【識別番号】100140109
【弁理士】
【氏名又は名称】小野 新次郎
(74)【代理人】
【識別番号】100075270
【弁理士】
【氏名又は名称】小林 泰
(74)【代理人】
【識別番号】100101373
【弁理士】
【氏名又は名称】竹内 茂雄
(74)【代理人】
【識別番号】100118902
【弁理士】
【氏名又は名称】山本 修
(74)【代理人】
【識別番号】100153028
【弁理士】
【氏名又は名称】上田 忠
(74)【代理人】
【識別番号】100120112
【弁理士】
【氏名又は名称】中西 基晴
(74)【代理人】
【識別番号】100196508
【弁理士】
【氏名又は名称】松尾 淳一
(74)【代理人】
【識別番号】100147991
【弁理士】
【氏名又は名称】鳥居 健一
(74)【代理人】
【識別番号】100119781
【弁理士】
【氏名又は名称】中村 彰吾
(74)【代理人】
【識別番号】100162846
【弁理士】
【氏名又は名称】大牧 綾子
(74)【代理人】
【識別番号】100173565
【弁理士】
【氏名又は名称】末松 亮太
(74)【代理人】
【識別番号】100138759
【弁理士】
【氏名又は名称】大房 直樹
(72)【発明者】
【氏名】ヘック,ラリー・ポール
(72)【発明者】
【氏名】チンサクンタ,マドゥスーダン
(72)【発明者】
【氏名】ミトバイ,デヴィッド
(72)【発明者】
【氏名】スティフェルマン,リサ
【審査官】 大野 弘
(56)【参考文献】
【文献】 特開2004−212641(JP,A)
【文献】 特開2004−328181(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/10
G10L 15/20
(57)【特許請求の範囲】
【請求項1】
ロケーションに基づく会話理解を実現するための方法であって、
コンピューティングデバイスが、ユーザからの音声ベースのクエリ受け取るステップと、
前記コンピューティングデバイスが、前記ユーザのロケーションに関連する環境コンテキストがデータベース中に存在するか否かを判定するステップと、
判定結果が否の場合に、前記コンピューティングデバイスが、前記音声ベースにおける少なくとも1つの音響干渉、及び、前記音声ベースのクエリに関連する少なくとも1つの主題を識別し、少なくとも識別された音響干渉及びクエリに関連する主題を含む環境コンテキストを作成し、ロケーションに関連する新たな環境コンテキストとして前記データベースの中に格納するステップと、
判定結果が是の場合に、前記コンピューティングデバイスが、前記ユーザのロケーションに関連する環境コンテキストを前記データベースからロードするステップと、
前記コンピューティングデバイスが、前記作成又はロードされた前記環境コンテキストに基づいて前記音声ベースのクエリをテキストベースのクエリに変換するステップと、
前記コンピューティングデバイスが、前記環境コンテキストに基づいて前記テキストベースのクエリを実行するステップと、
前記コンピューティングデバイスが、前記テキストベースのクエリの少なくとも1つの結果を前記ユーザに提供するステップ
を含む、方法。
【請求項2】
前記コンピューティングデバイスが、音声/テキスト変換を行うステップをさらに含む請求項1に記載の方法。
【請求項3】
前記コンピューティングデバイスが、前記ロケーションに関連する少なくとも1つのこれまでのクエリに従って少なくとも1つの会話理解モデルを適合させるステップをさらに含む請求項1に記載の方法。
【請求項4】
前記少なくとも1つの会話理解モデルは、前記クエリが前記ロケーション関連する音響モデルを含む請求項3に記載の方法。
【請求項5】
前記コンピューティングデバイスが、前記音響モデルに基づいて前記クエリに関連する少なくとも1つの背景音に従って前記クエリを適合させるステップをさらに含む請求項4に記載の方法。
【請求項6】
前記背景音は前記クエリ内で測定される請求項5に記載の方法。
【請求項7】
前記背景音を前記ロケーションに関連する音響特性として格納するステップをさらに含む請求項6に記載の方法。
【請求項8】
前記コンピューティングデバイスが、複数のユーザの複数のクエリに関連する環境コンテキストを集約するステップをさらに含む請求項1に記載の方法。
【請求項9】
前記コンピューティングデバイスが、第2のユーザから第2の音声ベースのクエリを受け取るステップと、
前記コンピューティングデバイスが、前記集約された環境コンテキストに従って前記第2の音声ベースのクエリを解釈するステップと
をさらに含む請求項8に記載の方法。
【請求項10】
前記コンピューティングデバイスが、前記集約された環境コンテキストに従って、少なくとも1つの予測される意味的概念の統計的重み付け大きくするステップをさらに含む請求項8に記載の方法。
【請求項11】
コンピューティングデバイスに請求項1〜10のいずれか1項に記載の方法を実行させるためのプログラム。
【請求項12】
コンピューティングデバイスに請求項1〜10のいずれか1項に記載の方法を実行させるためのプログラムを記録したコンピュータ可読記録媒体。
【請求項13】
ロケーションベースの会話理解を実現するためのシステムであって、
メモリストレージと、
前記メモリストレージに結合された処理装置と、
を備え、前記処理装置は
或るロケーションにいるユーザから音声ベースのクエリを受け取
前記ロケーションに関連する環境コンテキストが前記メモリストレージの中に存在するかどうかを判定
前記環境コンテキストが存在しないと判定したことに応答して、
前記音声ベースのクエリにおける少なくとも1つの音響干渉を識別
前記音声ベースのクエリに関連する少なくも1つの主題を識別
前記メモリストレージの中に格納するために前記ロケーションに関連する、少なくとも識別された音響干渉及びクエリに関連する主題を含む新しい環境コンテキストを作成
前記環境コンテキストが存在すると判定したことに応答して、
前記環境コンテキストをロード
前記作成又はロードされた前記環境コンテキストに基づいて前記音声ベースのクエリをテキストベースのクエリに変換
前記環境コンテキストに基づいて前記テキストベースのクエリを実行し、
前記テキストベースのクエリの少なくとも1つの結果を前記ユーザに提供する
よう動作する
システム。
【発明の詳細な説明】
【背景技術】
【0001】
[001]ロケーションベースの会話理解は、クエリ実行およびクエリ結果を向上させるように環境コンテキストを活用するための機構を提供し得る。従来の音声認識プログラムは、或るユーザから別のユーザへの情報(例えば、音声発話、地理的データ、特定のロケーションの音響環境、特定のロケーションから行われる通常のクエリ)を活用して、新規ユーザおよび/または既存ユーザからの新たなクエリの品質および精度を向上させるための技法をもっていない。一部の状況において、音声/テキスト変換は、理解する際の手助けとなる類似した潜在的に関係したクエリを使用するという恩恵を受けずに行われなければならない。
【0002】
[002]音声/テキスト変換(すなわち、音声認識)は、音声の語句を、コンピューティングシステムによって処理され得るテキストの語句に変換することを含み得る。音響モデリングおよび/または言語モデリングが、最新の統計ベースの音声認識アルゴリズムにおいて使用され得る。隠れマルコフモデル(HMM)が、多くの従来のシステムにおいて広く使用される。HMMは、一連のシンボルまたは量を出力することが可能な統計モデルを含み得る。音声信号が区分定常信号または短時間定常信号と見なされ得るので、HMMは、音声認識において使用され得る。或る短時間(例えば、10ミリ秒)内で、音声は、定常プロセスとして近似され得る。このため、音声は、多くの確率論的な目的でマルコフモデルと考えられ得る。
【発明の概要】
【課題を解決するための手段】
【0003】
[003]この「発明の概要」は、「発明を実施するための形態」においてさらに後述される概念の選定を、簡略化された形態で紹介するように与えられる。この「発明の概要」は、主張される主題の重要な特徴、または不可欠な特徴を特定することは意図していない。また、この「発明の概要」は、主張される主題の範囲を限定するのに使用されることも意図していない。
【0004】
[004]ロケーションベースの会話理解が、実現され得る。ユーザからクエリを受け取ると、このクエリに関連する環境コンテキストが生成され得る。クエリは、この環境コンテキストに従って解釈され得る。解釈されたクエリは、実行され得、このクエリに関連する少なくとも1つの結果がユーザに提供され得る。
【0005】
[005]以上の一般的な説明と以下の詳細な説明はともに、例を与えるものであり、例示的であるに過ぎない。したがって、以上の一般的な説明、および以下の詳細な説明は、限定するものと考慮されるべきではない。さらに、本明細書に記載される特徴に加えて、いくつかの特徴または変形形態が与えられ得る。例えば、いくつかの実施形態が、詳細な説明で説明される様々な特徴の組合せおよび部分的組合せを対象とし得る。
【0006】
[006]本開示に組み込まれ、本開示の一部を構成する添付の図面は、本発明の様々な実施形態を例示する。
【図面の簡単な説明】
【0007】
図1】[007]動作環境のブロック図である。
図2】[008]ロケーションベースの会話理解を実現するための方法を示す流れ図である。
図3】[009]コンピューティングデバイスを含むシステムのブロック図である。
【発明を実施するための形態】
【0008】
[010]以下の詳細な説明は、添付の図面を参照する。可能な場合はいつでも、図面および以下の説明において同一の要素、または同様の要素を指すのに同一の参照符号が使用される。本発明のいくつかの実施形態が説明され得るが、変形形態、適合形態、および他の実装形態が可能である。例えば、図面に例示される要素に置換、追加、または変形が行われ得るとともに、本明細書で説明される方法が、開示される方法の段階を置換すること、並べ替えること、または追加することによって変形され得る。したがって、以下の詳細な説明は、本発明を限定しない。代わりに、本発明の適切な範囲は、添付の特許請求の範囲によって規定される。
【0009】
[011]ロケーションベースの会話理解が、実現され得る。例えば、変換の精度、および変換されたステートメントに含められるクエリの結果を向上させるために複数のユーザからの情報を互いに関係付ける音声/テキストシステムが、提供され得る。本発明の実施形態に合致して、パーソナルアシスタントプログラムが、複数のロケーションにいるユーザ(複数可)から音声ベースのクエリを受け取ることが可能である。各クエリは、音響特性および/または環境特性に関して解析され得、さらにそのような特性が、格納されるとともに、受け取ったクエリの送信元のロケーションに関連付けられることが可能である。例えば、地下鉄の駅にいるユーザから受け取ったクエリが、タイル壁からの音響エコーの存在、および/または人込みもしくは地下鉄列車の背景環境音を検出することが可能である。次に、これらの特性が、そのロケーションからの将来のクエリにおいてフィルタ除去されて、それらのクエリの変換のより高い精度を可能にすることが知られ得る。本発明の実施形態に合致して、ロケーションは、例えば、ユーザの全地球測位システム(GPS)ロケーション、ユーザに関連する市外局番、ユーザに関連する郵便番号、および/または陸標(例えば、鉄道の駅、スタジアム、博物館、オフィスビルなど)の近くにユーザがいることによって規定され得る。
【0010】
[012]クエリを処理することは、音響モデルに従ってクエリを適合させることを含み得る。例えば、音響モデルは、特定のロケーションにおいて存在することが知られている背景音を含み得る。音響モデルを適用することは、関係のない音を無視することによってクエリがより正確に変換されることを可能にし得る。また、音響モデルは、クエリに関連するすべての結果の表示を変更することを可能にすることもあり得る。例えば、特に騒々しい環境において、結果が、オーディオを介してではなく、画面上に表示され得る。環境コンテキストは、音声/テキスト変換を助けるように理解モデルにさらに関連付けられることが可能である。例えば、理解モデルは、隠れマルコフモデル(HMM)を含み得る。環境コンテキストは、クエリを実行するのを助けるように意味モデルにさらに関連付けられることが可能である。例えば、意味モデルは、オントロジを含み得る。
【0011】
[013]さらに、クエリの主題が、将来のクエリの結果を向上させるのに使用され得る。例えば、地下鉄の駅にいるユーザらが、「when is the next one?(次のはいつ)」というクエリを行った場合、パーソナルアシスタントプログラムは、いくつかのクエリを経るうちに、ユーザが、次の列車がいつ到着するかを知ることを所望していると判定することができる。このことは、第1のユーザからクエリの説明を求めること、および将来に使用するためにその説明を格納することによって達せられ得る。別の例として、或るユーザが、「when is the next one?(次のはいつ)」というクエリを行い、さらに別のユーザが、「when is the next train?(次の列車はいつ)」というクエリを行った場合、プログラムは、これらのクエリを互いに関係付け、さらに両方のユーザが同一の情報を要求しているものと想定することが可能である。
【0012】
[014]図1は、ロケーションベースの会話理解を実現するための動作環境100のブロック図である。動作環境100は、パーソナルアシスタントプログラム112を含む音声対話システム(SDS)110と、音声/テキストコンバータ114と、コンテキストデータベース116とを備え得る。パーソナルアシスタントプログラム112は、第1のロケーション140にいる第1の複数のユーザ130(A)〜(C)、および/または第2のロケーション160にいる第2の複数のユーザ150(A)〜(C)から、ネットワーク120を介してクエリを受信することが可能である。コンテキストデータベース116は、第1の複数のユーザ130(A)〜(C)、および/または第2の複数のユーザ150(A)〜(C)などのユーザから受け取ったクエリに関連するコンテキストデータを格納するように動作することが可能である。コンテキストデータは、音響特性および/または環境特性、ならびにクエリの主題、クエリの時刻/日付、ユーザ詳細、および/またはクエリが行われたロケーションなどのクエリコンテキスト情報を含み得る。本発明の実施形態に合致して、ネットワーク120は、例えば、プライベートデータネットワーク(例えば、イントラネット)、セルラデータネットワーク、および/またはインターネットなどの公共ネットワークを含み得る。
【0013】
[015]エージェントは、音声対話システム(SDS)に関連付けられ得る。そのようなシステムは、人々が音声でコンピュータと対話することを可能にする。SDSを駆動する主要な構成要素は、ダイアログマネージャを備えることが可能であり、この構成要素は、ユーザとのダイアログベースの会話を管理する。ダイアログマネージャは、音声認識および自然言語理解構成要素の出力、以前の回のダイアログからのコンテキスト、ユーザコンテキスト、および/または知識ベース(例えば、検索エンジン)から戻される結果などの、複数の入力ソースの組合せ介してユーザの意図を判定することが可能である。意図を判定した後、ダイアログマネージャは、最終結果をユーザに表示すること、および/またはユーザの意図を満足させるようにユーザとの対話を続けることなどの、アクションを行うことができる。音声対話システムは、ロケーションに関連する音響モデル、および/または音声ベースの入力を処理するための音声言語理解モデルなどの、複数の会話理解モデルを含み得る。
【0014】
[016]図2は、ロケーションベースの会話理解を実現するための本発明の或る実施形態に合致する方法200に関与する一般的な段階を説明する流れ図である。方法200は、図3に関連して後段でより詳細に説明されるコンピューティングデバイス300を使用して実施され得る。方法200の段階を実施する様態は、後段でさらに詳細に説明される。方法200は、開始ブロック205で始まり、さらに段階210に進むことが可能であり、コンピューティングデバイス300が、或るロケーションにいるユーザから音声ベースのクエリを受け取ることが可能である。例えば、ユーザ130(A)が、セルラ電話機などのデバイスを介してSDS110にクエリを送ることが可能である。
【0015】
[017]段階210から、方法200は、段階215に進むことが可能であり、コンピューティングデバイス300が、そのロケーションに関連する環境コンテキストがメモリストレージの中に存在するかどうかを判定することが可能である。例えば、SDS110が、受け取ったクエリの送信元のロケーション(例えば、第1のロケーション140)を識別し、さらにそのロケーションに関連する環境コンテキストがコンテキストデータベース116の中に存在するかどうかを判定することが可能である。
【0016】
[018]そのロケーションに関連するコンテキストが存在しない場合、方法200は、段階220に進むことが可能であり、コンピューティングデバイス300が、その音声ベースのクエリにおける少なくとも1つの音響干渉を識別することが可能である。例えば、SDS110が、クエリのオーディオを解析し、さらにユーザ130(A)の周囲の大勢の人々に関連する雑音、および/または通過する列車の雑音などの背景雑音を識別することが可能である。
【0017】
[019]次に、方法200は、段階225に進むことが可能であり、コンピューティングデバイス300が、音声ベースのクエリに関連する少なくとも1つの主題を識別することが可能である。例えば、クエリが「When is the next arrival?(次の到着はいつ)」を含む場合、SDS110が、ユーザが列車の駅にいる際、列車のスケジュールをクエリの主題として識別することが可能である。
【0018】
[020]次に、方法200は、段階230に進むことが可能であり、コンピューティングデバイス300が、メモリストレージの中に格納するためにロケーションに関連する新たな環境コンテキストを作成することが可能である。例えば、SDS110が、識別された音響干渉およびクエリの主題を、ユーザのロケーションに関連するものとしてコンテキストデータベース116の中に格納することが可能である。
【0019】
[021]ロケーションに関連するコンテキストが存在する場合、方法200は、段階235に進むことが可能であり、コンピューティングデバイス300が、ロケーションに関連する環境コンテキストをロードすることが可能である。例えば、SDS110が、コンテキストデータベース116から、前述したとおり環境コンテキストをロードすることが可能である。
【0020】
[022]段階240でコンテキストを作成した後、または段階235でコンテキストをロードした後、次に、方法200は、段階240に進むことが可能であり、コンピューティングデバイス300が、この環境コンテキストに従って、音声ベースのクエリをテキストベースのクエリに変換することが可能である。例えば、SDS110が、環境コンテキストに関連する少なくとも1つの音響干渉を除去するためのフィルタを適用することによって音声ベースのクエリをテキストベースのクエリに変換することが可能である。
【0021】
[023]次に、方法200は、段階245に進むことが可能であり、コンピューティングデバイス300が、環境コンテキストに従ってテキストベースのクエリを実行することが可能である。例えば、SDS110が、環境コンテキストに関連する少なくとも1つの主題に関連する検索ドメイン(例えば、列車のスケジュール)内でクエリ(例えば、「When is the next arrival?(次の到着はいつ)」)を実行することが可能である。
【0022】
[024]次に、方法200は、段階250に進むことが可能であり、コンピューティングデバイス300が、実行されたテキストベースのクエリの少なくとも1つの結果をユーザに提供することが可能である。例えば、SDS110が、結果を、表示するためにユーザ130(A)に関連するデバイス(例えば、セルラ電話機)に送信することが可能である。次に、方法200は、段階255で終了することが可能である。
【0023】
[025]本発明に合致する或る実施形態が、ロケーションベースの会話理解を実現するためのシステムを含み得る。このシステムは、メモリストレージと、メモリストレージに結合された処理装置とを備え得る。処理装置は、ユーザからクエリを受け取り、このクエリに関連する環境コンテキストを生成し、この環境コンテキストに従ってクエリを解釈し、解釈されたクエリを実行し、さらにこのクエリの少なくとも1つの結果をユーザに提供するように動作することが可能である。このクエリは、例えば、処理装置がコンピュータ可読のテキストに変換するように動作することが可能な音声クエリを含み得る。本発明の実施形態に合致して、音声/テキスト変換は、理解モデルに関連する可能性の高い様々な語、および/または意味モデルに関連する意味的概念に関する統計的重み付けを含む隠れマルコフモデルアルゴリズムを利用し得る。処理装置は、例えば、そのロケーションから受け取った少なくとも1つのこれまでのクエリに従って、少なくとも1つの予測される語の統計的重み付けを大きくし、さらにその統計的重み付けを環境コンテキストの一部として格納するように動作することが可能である。
【0024】
[026]環境コンテキストは、受け取ったクエリの送信元のロケーションに関連する音響モデルを含み得る。処理装置は、この音響モデルに従って、音声ベースのクエリからの少なくとも1つの背景音に従ってクエリを適合させるように動作することが可能である。例えば、背景音(例えば、列車の警笛)が、所与のロケーション(例えば、列車の駅)から受け取られる音声クエリに存在することが知られていることが可能である。この背景音が、検出されて、ピッチ、振幅、および他の音響特性に関して測定され得る。クエリは、そのような音を無視するように適合され得、音は、そのロケーションからの将来のクエリに適用するために計算されて、格納され得る。処理装置は、第2のユーザから第2の音声ベースのクエリを受け取り、さらに更新された音響モデルに従って、背景音にこのクエリを適合させるようにさらに動作することが可能である。処理装置は、複数のユーザからの複数のクエリに関連する環境コンテキストを集約し、さらにロケーションに関連する集約された環境コンテキストを格納するようにさらに動作することが可能である。
【0025】
[027]本発明に合致する別の実施形態が、ロケーションベースの会話理解を実現するためのシステムを含み得る。このシステムは、メモリストレージと、メモリストレージに結合された処理装置とを備え得る。処理装置は、或るロケーションにいるユーザから音声ベースのクエリを受け取り、このロケーションに関連する環境コンテキストをロードし、この環境コンテキストに従って音声ベースのクエリをテキストに変換し、環境コンテキストに従って、この変換されたクエリを実行し、さらに実行されたクエリに関連する少なくとも1つの結果をユーザに提供するように動作することが可能である。環境コンテキストは、例えば、少なくとも1つのこれまでのクエリの時刻と、少なくとも1つのこれまでのクエリの日付と、少なくとも1つのこれまでのクエリの主題と、オントロジを含んだ意味モデルと、理解モデルと、ロケーションの音響モデルとを含むことが可能である。処理装置は、そのロケーションに関連する知られている音響干渉に従ってクエリを適合されるように動作することが可能である。処理装置は、複数のユーザから受け取った複数のクエリに従って集約された、複数のロケーションに関連する複数の環境コンテキストを格納するようにさらに動作することが可能である。処理装置は、変換されたテキストに対する訂正をユーザから受け取り、さらにこの訂正に従って環境コンテキストを更新するようにさらに動作することが可能である。処理装置は、第2のロケーションにいるユーザから第2の音声ベースのクエリを受け取り、第2のロケーションに関連する第2の環境コンテキストをロードし、第2の環境コンテキストに従って第2の音声ベースのクエリをテキストに変換し、第2の環境コンテキストに従って、変換されたクエリを実行し、さらに実行されたクエリに関連する少なくとも1つの第2の結果をユーザに提供するようにさらに動作することが可能である。
【0026】
[028]本発明に合致するさらに別の実施形態が、コンテキストを認識した環境を実現するためのシステムを含み得る。このシステムは、メモリストレージと、メモリストレージに結合された処理装置とを備え得る。処理装置は、或るロケーションにいるユーザから音声ベースのクエリを受け取り、さらにそのロケーションに関連する環境コンテキストがメモリストレージの中に存在するかどうかを判定するように動作することが可能である。環境コンテキストが存在しないと判定したことに応答して、処理装置は、音声ベースのクエリにおける少なくとも1つの音響干渉を識別し、音声ベースのクエリに関連する少なくとも1つの主題を識別し、さらにメモリストレージの中に格納するために、そのロケーションに関連する新たな環境コンテキストを作成するように動作することが可能である。環境コンテキストが存在すると判定したことに応答して、処理装置は、その環境コンテキストをロードするように動作することが可能である。次に、処理装置は、その環境コンテキストに従って、音声ベースのクエリをテキストベースのクエリに変換するように動作し、その環境コンテキストに従って、音声ベースのクエリをテキストベースのクエリに変換するように動作することは、その環境コンテキストに関連する少なくとも1つの音響干渉を除去するためにフィルタを適用するように動作することを含み、さらにその環境コンテキストに従ってテキストベースのクエリを実行するように動作し、その環境コンテキストに従ってテキストベースのクエリを実行するように動作することは、少なくとも1つの音響干渉が音響モデルに関連するとともに、少なくとも1つの識別された主題が、その環境コンテキストに関連する意味モデルに関連するクエリを実行するように動作することを含み、さらに実行されたテキストベースのクエリの少なくとも1つの結果をユーザに提供するように動作することが可能である。
【0027】
[029]図3は、コンピューティングデバイス300を含むシステムのブロック図である。本発明の或る実施形態に合致して、前述したメモリストレージおよび処理装置は、図3のコンピューティングデバイス300のようなコンピューティングデバイス内に実施され得る。ハードウェア、ソフトウェア、またはファームウェアの任意の適切な組合せが、メモリストレージおよび処理装置を実施するのに使用され得る。例えば、メモリストレージおよび処理装置は、コンピューティングデバイス300で、またはコンピューティングデバイス300と組み合わされた他のいくつかのコンピューティングデバイス318で実施され得る。前述したシステム、デバイス、およびプロセッサは、例であり、さらに他のシステム、デバイス、およびプロセッサが、本発明の実施形態に合致して、前述したメモリストレージおよび処理装置を備え得る。さらに、コンピューティングデバイス300は、前述したシステム100のための動作環境を含み得る。システム100は、他の環境において動作することが可能であり、コンピューティングデバイス300に限定されない。
【0028】
[030]図3を参照すると、本発明の或る実施形態に合致するシステムが、コンピューティングデバイス300のようなコンピューティングデバイスを含み得る。或る基本的な構成において、コンピューティングデバイス300は、少なくとも1つの処理装置302と、システムメモリ304とを含み得る。コンピューティングデバイスの構成およびタイプに依存して、システムメモリ304は、揮発性メモリ(例えば、ランダムアクセスメモリ(RAM))、不揮発性メモリ(例えば、読取り専用メモリ(ROM))、フラッシュメモリ、または任意の組合せを含み得が、これらに限定されない。システムメモリ304は、オペレーティングシステム305、および1つまたは複数のプログラミングモジュール306を含むことが可能であり、さらにパーソナルアシスタントプログラム112を含み得る。オペレーティングシステム305は、例えば、コンピューティングデバイス300の動作を制御することに適することが可能である。さらに、本発明のいくつかの実施形態は、グラフィックスライブラリ、他のオペレーティングシステム、または他の任意のアプリケーションプログラムと連携して実施されてもよく、いずれの特定のアプリケーションにも、いずれの特定のシステムにも限定されない。この基本的な構成が、図3に破線308内の構成要素で例示される。
【0029】
[031]コンピューティングデバイス300は、さらなる特徴または機能を有することが可能である。例えば、コンピューティングデバイス300は、例えば、磁気ディスク、光ディスク、またはテープなどのさらなるデータストレージデバイス(リムーバブルおよび/または非リムーバブルの)を含むことも可能である。そのようなさらなるストレージが、図3にリムーバブルストレージ309および非リムーバブルストレージ310で例示される。コンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータなどの情報を格納するために任意の方法または技術で実施された揮発性媒体および不揮発性媒体、リムーバブルの媒体および非リムーバブルの媒体を含み得る。システムメモリ304、リムーバブルストレージ309、および非リムーバブルストレージ310はすべて、コンピュータ記憶媒体の例(すなわち、メモリストレージ)である。コンピュータ記憶媒体には、RAM、ROM、電気的に消去可能な読取り専用メモリ(EEPROM)、フラッシュメモリもしくは他のメモリ技術、CD−ROM、デジタルバーサタイルディスク(DVD)もしくは他の光ストレージ、磁気カセット、磁気テープ、磁気ディスクストレージもしくは他の磁気ストレージデバイス、または情報を格納するのに使用され得るとともに、コンピューティングデバイス300によってアクセスされ得る他の任意の媒体が含まれることが可能であるが、これらに限定されない。任意のそのようなコンピュータ記憶媒体が、デバイス300の一部であり得る。また、コンピューティングデバイス300は、キーボード、マウス、ペン、サウンド入力デバイス、タッチ入力デバイスなどの入力デバイス312(複数可)を有することも可能である。また、ディスプレイ、スピーカ、プリンタなどの出力デバイス314(複数可)が含められることも可能である。前述したデバイスは、例であり、他のデバイスが使用されてもよい。
【0030】
[032]また、コンピューティングデバイス300は、デバイス300が、分散コンピューティング環境においてネットワーク、例えば、イントラネットまたはインターネットを介するなどして、他のコンピューティングデバイス318と通信できるようにすることが可能な通信接続部316を含むことも可能である。通信接続部316は、通信媒体の一例である。通信媒体は、典型的には、搬送波などの変調されたデータ信号、または他のトランスポート機構におけるコンピュータ可読命令、データ構造、プログラムモジュール、または他のデータによって具現化可能であり、さらに任意の情報配信媒体を含む。「変調されたデータ信号」という用語は、信号内に情報を符号化するように1つまたは複数の特性が設定されている、または変更されている信号を表すことが可能である。例として、限定としてではなく、通信媒体には、有線ネットワークまたは直接配線接続などの有線媒体、ならびに音響媒体、無線周波数(RF)媒体、赤外線媒体、または他のワイヤレス媒体などのワイヤレス媒体が含まれ得る。本明細書で使用されるコンピュータ可読媒体という用語には、記憶媒体と通信媒体がともに含まれ得る。
【0031】
[033]前述したとおり、オペレーティングシステム305を含め、いくつかのプログラムモジュールおよびデータファイルが、システムメモリ304の中に格納され得る。処理装置302において実行される間、プログラミングモジュール306(例えば、パーソナルアシスタントプログラム112)は、例えば、前述した方法200の段階のうちの1つまたは複数を含めたプロセスを行うことが可能である。前述したプロセスは、例であり、さらに処理装置302は、他のプロセスを行うことが可能である。本発明の実施形態に従って使用され得る他のプログラミングモジュールには、電子メールアプリケーションおよび電子コンタクトアプリケーション、ワードプロセッシングアプリケーション、スプレッドシートアプリケーション、データベースアプリケーション、スライドプレゼンテーションアプリケーション、描画アプリケーションプログラムもしくはコンピュータ支援アプリケーションプログラムなどが含まれ得る。
【0032】
[034]概して、本発明の実施形態に合致して、プログラムモジュールには、特定のタスクを行うことが可能な、または特定の抽象データ型を実施することが可能なルーチン、プログラム、構成要素、データ構造、および他のタイプの構造が含まれ得る。さらに、本発明の実施形態は、ハンドヘルドデバイス、マルチプロセッサシステム、マイクロプロセッサベースの家庭用電子機器もしくはプログラマブル家庭用電子機器、ミニコンピュータ、メインフレームコンピュータなどを含む他のコンピュータシステム構成で実施され得る。また、本発明の実施形態は、通信ネットワークを介して結び付けられた複数の遠隔処理デバイスによってタスクが行われる分散コンピューティング環境において実施されることも可能である。分散コンピューティング環境において、プログラムモジュールは、ローカルメモリストレージデバイスと遠隔メモリストレージデバイスの両方の中に配置され得る。
【0033】
[035]さらに、本発明の実施形態は、ディスクリートの電子素子を備えた電気回路、論理ゲートを含むパッケージ化された、もしくは集積された電子チップ、またはマイクロプロセッサを利用する回路において、あるいは電子素子もしくはマイクプロセッサを含む単一のチップ上で実施され得る。また、本発明の実施形態は、機械技術、光学技術、流体技術、および量子技術を含むが、これらに限定されない、例えば、論理積、論理和、および否定などの論理演算を行うことができる他の技術を使用して実施されることも可能である。さらに、本発明の実施形態は、汎用コンピュータ内で、または他の任意の回路もしくはシステムにおいて実施されてもよい。
【0034】
[036]本発明の実施形態は、例えば、コンピュータプロセス(メソッド)として、コンピューティングシステムとして、あるいはコンピュータプログラム製品またはコンピュータ可読媒体などの製造品として実施され得る。コンピュータプログラム製品は、コンピュータシステムによって可読であるとともに、コンピュータプロセスを実行するための命令のコンピュータプログラムを符号化したコンピュータ記憶媒体であり得る。また、このコンピュータプログラム製品は、コンピューティングシステムによって可読であるとともに、コンピュータプロセスを実行するための命令のコンピュータプログラムを符号化した、搬送波において伝搬される信号であることも可能である。したがって、本発明は、ハードウェアで、かつ/またはソフトウェア(ファームウェア、常駐ソフトウェア、マイクロコードなどを含む)で実施され得る。つまり、本発明の実施形態は、命令実行システムによって、または命令実行システムに関連して使用されるように、コンピュータによって使用可能な、または可読のプログラムコードが具現化されているコンピュータによって使用可能な、または可読の記憶媒体上のコンピュータプログラム製品の形態をとり得る。コンピュータによって使用可能な、または可読の媒体は、命令実行システム、命令実行装置、もしくは命令実行デバイスによって、または命令実行システム、命令実行装置、もしくは命令実行デバイスに関連して使用されるようにプログラムを含む、格納する、通信する、伝搬する、またはトランスポートすることが可能な任意の媒体であり得る。
【0035】
[037]コンピュータによって使用可能な、または可読の媒体は、例えば、電子、磁気、光、電磁、赤外線、または半導体のシステム、装置、デバイス、または伝搬媒体であり得るが、これらに限定されない。より特定のコンピュータ可読媒体の例(網羅的でないリスト)として、コンピュータ可読媒体には、以下、すなわち、1つまたは複数の配線を有する電気接続、ポータブルコンピュータディスケット、ランダムアクセスメモリ(RAM)、読取り専用メモリ(ROM)、消去可能なプログラマブル読取り専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバ、およびポータブルコンパクトディスク読取り専用メモリ(CD−ROM)が含まれ得る。コンピュータによって使用可能な、または可読の媒体は、プログラムが、例えば、紙または他の媒体の光学スキャンを介して電子的にキャプチャされ、その後、必要な場合、コンパイルされ、解釈され、またはそれ以外で適切に処理され、さらにその後、コンピュータメモリの中に格納され得るので、プログラムが印刷される紙または別の適切な媒体でさえあり得ることに留意されたい。
【0036】
[038]本発明の実施形態は、例えば、本発明の実施形態による方法、システム、およびコンピュータプログラム製品のブロック図および/または動作上の例示を参照して前段で説明される。それらのブロックに記載される機能/動作は、いずれの流れ図に示される順序も外れて生じる場合がある。例えば、関与する機能/動作に依存して、連続して示される2つのブロックが、実際には、実質的に同時に実行可能であり、またはそれらのブロックが、ときとして、逆の順序で実行可能である。
【0037】
[039]本発明のいくつかの実施形態が説明されてきたが、他の実施形態が存在することも可能である。さらに、本発明の実施形態は、メモリおよび他の記憶媒体の中に格納されたデータに関連するものとして説明されてきたものの、データは、ハードディスク、フロッピー(登録商標)ディスク、もしくはCD−ROMのような二次ストレージデバイス、インターネットからの搬送波、または他の形態のRAMもしくはROMなどの、他のタイプのコンピュータ可読媒体上に格納されること、またはそのようなコンピュータ可読媒体から読み取られることも可能である。さらに、開示される方法の段階は、本発明を逸脱することなく、段階を並べ替えることによること、ならびに/または段階を挿入すること、および/もしくは削除することによることを含め、任意の様態で変形され得る。
【0038】
[040]本明細書に含められたコードの著作権を含むすべての権利は、本出願人に帰属し、本出願人の所有権である。本出願人は、本明細書に含められたコードに対するすべての権利を保有するとともに、留保し、さらに許可された特許の再現に関連してのみ本資料を再現する許可を与え、それ以外の目的では許可を与えない。
【0039】
[041]本明細書は、例を含むが、本発明の範囲は、添付の特許請求の範囲によって示される。さらに、本明細書は、構造上の特徴、および/または方法上の動作に特有の言語で説明されてきたが、特許請求の範囲は、前述した特徴または動作に限定されない。むしろ、前述した特有の特徴および動作は、本発明の実施形態の例として開示される。
図1
図2
図3