特表2022-542415 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ロヴィ　ガイズ，　インコーポレイテッドの特許一覧

特表2022-542415発音情報を使用して音声クエリを管理するためのシステムおよび方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2022-10-03

(54)【発明の名称】発音情報を使用して音声クエリを管理するためのシステムおよび方法

(51)【国際特許分類】

G06F 16/90 20190101AFI20220926BHJP

G06F 16/9032 20190101ALI20220926BHJP

G06F 16/9035 20190101ALI20220926BHJP

【ＦＩ】

G06F16/90 100

G06F16/9032

G06F16/9035

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2022506260

(86)(22)【出願日】2020-07-22

(85)【翻訳文提出日】2022-03-24

(86)【国際出願番号】 US2020043131

(87)【国際公開番号】W WO2021021529

(87)【国際公開日】2021-02-04

(31)【優先権主張番号】16/528,539

(32)【優先日】2019-07-31

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】16/528,541

(32)【優先日】2019-07-31

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】16/528,550

(32)【優先日】2019-07-31

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

(71)【出願人】

【識別番号】518345664

【氏名又は名称】ロヴィガイズ，インコーポレイテッド

(74)【代理人】

【識別番号】100078282

【弁理士】

【氏名又は名称】山本秀策

(74)【代理人】

【識別番号】100113413

【弁理士】

【氏名又は名称】森下夏樹

(74)【代理人】

【識別番号】100181674

【弁理士】

【氏名又は名称】飯田貴敏

(74)【代理人】

【識別番号】100181641

【弁理士】

【氏名又は名称】石川大輔

(74)【代理人】

【識別番号】230113332

【弁護士】

【氏名又は名称】山本健策

(72)【発明者】

【氏名】アヘル，アンクール

(72)【発明者】

【氏名】ドス，インドラニルクーマー

(72)【発明者】

【氏名】ゴヤル，アーシシュ

(72)【発明者】

【氏名】プニヤニ，アマン

(72)【発明者】

【氏名】レディ，カンダラ

(72)【発明者】

【氏名】ウメシュ，ミトゥン

【テーマコード（参考）】

5B175

【Ｆターム（参考）】

5B175EA01

5B175GA04

5B175HA01

(57)【要約】

システムは、音声クエリをオーディオインターフェースにおいて受信し、音声クエリをテキストに変換する。システムは、変換中、発音情報を決定し、クエリの１つ以上の単語の発音を示すメタデータを生成すること、音素情報をテキストクエリ内に含むこと、または両方を行うことができる。クエリは、発音に基づいてより正確に識別され得る１つ以上のエンティティを含む。システムは、生成されたテキストクエリ、発音情報、ユーザプロファイル情報、検索履歴または傾向、随意に、他の情報に基づいて、１つ以上のデータベースの中の情報、コンテンツ、または両方を検索する。システムは、テキストクエリに合致する１つ以上のエンティティまたはコンテンツ項目を識別し、識別された情報を読み出し、ユーザに提供する。

【特許請求の範囲】

【請求項1】

音声クエリに応答する方法であって、前記方法は、
音声クエリをオーディオインターフェースにおいて受信することと、
制御回路を使用して、１つ以上のキーワードを前記音声クエリから抽出することと、
前記制御回路を使用して、前記１つ以上のキーワードに基づいて、テキストクエリを生成することと、
エンティティを識別することであって、前記エンティティを識別することは、前記テキストクエリおよび前記エンティティに関するメタデータに基づき、前記メタデータは、前記エンティティの１つ以上の代替テキスト表現を備え、前記１つ以上の代替テキスト表現は、前記エンティティに関連付けられた識別子の発音に基づく、ことと、
前記エンティティに関連付けられたコンテンツ項目を読み出すことと
を含む、方法。

【請求項2】

前記１つ以上の代替テキスト表現は、前記エンティティの音素表現を備えている、請求項１に記載の方法。

【請求項3】

前記１つ以上の代替テキスト表現は、発音に基づく前記エンティティの代替スペルを備えている、請求項１および２のいずれかに記載の方法。

【請求項4】

前記エンティティの前記１つ以上の代替テキスト表現は、前の発話→テキスト変換に基づいて生成されたテキスト文字列を備えている、請求項１－３のいずれかに記載の方法。

【請求項5】

前記１つ以上の代替テキスト表現は、複数の代替テキスト表現を備え、前記複数の代替テキスト表現のうちの各代替テキスト表現は、
第１のテキスト表現をオーディオファイルに変換することと、
前記オーディオファイルを第２のテキスト表現に変換することと
によって生成され、
前記第２のテキスト表現は、前記第１のテキスト表現と同一ではない、請求項１－４のいずれかに記載の方法。

【請求項6】

前記エンティティを識別することは、ユーザプロファイル情報にさらに基づく、請求項１－５のいずれかに記載の方法。

【請求項7】

前記エンティティを識別することは、前記エンティティに関連付けられた人気情報にさらに基づく、請求項１－６のいずれかに記載の方法。

【請求項8】

前記エンティティを識別することは、
前記複数のエンティティを識別することであって、それぞれのメタデータが、前記複数のエンティティのうちの各エンティティに関して記憶されている、ことと、
前記それぞれの１つ以上の代替テキスト表現を前記テキストクエリと比較することに基づいて、前記複数のエンティティのうちの各それぞれのエンティティに関して、それぞれのスコアを決定することと、
最大スコアを決定することによって、前記エンティティを選択することと
を含む、請求項１－７のいずれかに記載の方法。

【請求項9】

複数のテキストクエリを生成することをさらに含み、前記複数のテキストクエリは、前記テキストクエリを備え、前記複数のテキストクエリのうちの各テキストクエリは、前記制御回路の発話→テキストモジュールのそれぞれの設定に基づいて生成される、請求項１－８のいずれかに記載の方法

【請求項10】

前記複数のテキストクエリのうちのそれぞれのテキストクエリに基づいて、それぞれのエンティティを識別することと、
前記それぞれのテキストクエリの前記それぞれのエンティティに関連付けられたメタデータとの比較に基づいて、前記それぞれのエンティティに関するそれぞれのスコアを決定することと、
前記それぞれのスコアの最大スコアを選択することによって、前記エンティティを識別することと
をさらに含む、請求項９に記載の方法。

【請求項11】

音声クエリに応答するためのシステムであって、前記システムは、
メモリと、
請求項１－１０のいずれかに記載の方法のステップを実装する手段と
を備えている、システム。

【請求項12】

エンコーディングされた命令を有する非一過性コンピュータ読み取り可能な媒体であって、前記命令は、制御回路によって実行されると、前記制御回路が請求項１－１０のいずれかに記載の方法のステップを実行することを可能にする、非一過性コンピュータ読み取り可能な媒体。

【請求項13】

音声クエリに応答するためのシステムであって、前記システムは、請求項１－１０のいずれかに記載の方法のステップを実装する手段を備えている、システム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、音声クエリを管理するためのシステムに関し、より具体的に、発音情報に基づいて音声クエリを管理するためのシステムに関する。

【発明の概要】

【課題を解決するための手段】

【0002】

会話システムでは、ユーザが音声クエリをシステムに発すると、発話は、自動発話認識（ＡＳＲ）モジュールを使用して、テキストに変換される。このテキストは、次いで、会話システムへの入力を形成し、それは、テキストへの応答を決定する。例えば、ユーザが、「ＴｏｍＣｒｕｉｓｅの映画を見せて」と言うと、ＡＳＲモジュールは、ユーザの音声をテキストに変換し、それを会話システムに発する。会話システムは、それがＡＳＲモジュールから受信したテキストに基づいて行動するに過ぎない。時として、このプロセスでは、会話システムは、単語の発音の詳細またはユーザのクエリに含まれる音を失う。発音詳細は、特に、同じ単語が、２つ以上の発音を有し、発音が、異なる意味に対応するとき、検索に役立ち得る情報を提供し得る。

【0003】

本開示は、ユーザがクエリ単語を発話すると、複数のコンテキスト入力に基づいて、検索を実施し、ユーザの意図する検索クエリを予測するシステムおよび方法を説明する。検索は、例えば、ユーザ検索履歴、ユーザの好きなものおよび嫌いなもの、一般的傾向、クエリ単語の発音詳細、および任意の他の好適な情報を含む複数のコンテキスト入力に基づき得る。アプリケーションが、音声クエリを受信し、音声クエリを表すテキストクエリを生成する。アプリケーションは、テキストクエリに含まれるテキストクエリに関連付けられたメタデータに含まれ得るか、または、データベース内のエンティティのメタデータに含まれ得る発音情報を使用して、検索結果をより正確に読み出す。いくつかの実施形態では、アプリケーションは、検索クエリからのエンティティの到達可能性を改良するために、テキスト→発話変換、および発話→テキスト変換に基づいて、メタデータを生成する。

【図面の簡単な説明】

【0004】

本開示の上記および他の目的および利点は、同様の参照記号が全体を通して同様の部分を指す付随する図面と併せて解釈される以下の詳細な説明の考慮に応じて明白であろう。

【0005】

【図1】図１は、本開示のいくつかの実施形態による、テキストクエリを生成するための例証的システムのブロック図を示す。

【0006】

【図2】図２は、本開示のいくつかの実施形態による、音声クエリに応答してコンテンツを読み出すための例証的システムのブロック図を示す。

【0007】

【図3】図３は、本開示のいくつかの実施形態による、発音情報を生成するための例証的システムのブロック図を示す。

【0008】

【図4】図４は、本開示のいくつかの実施形態による、例証的ユーザ機器のブロック図である。

【0009】

【図5】図５は、本開示のいくつかの実施形態による、音声クエリに応答するための例証的システムのブロック図を示す。

【0010】

【図6】図６は、本開示のいくつかの実施形態による、発音情報に基づいて音声クエリに応答するための例証的プロセスのフローチャートを示す。

【0011】

【図7】図７は、本開示のいくつかの実施形態による、代替表現に基づいて音声クエリに応答するための例証的プロセスのフローチャートを示す。

【0012】

【図8】図８は、本開示のいくつかの実施形態による、発音に基づいてエンティティに関するメタデータを生成するための例証的プロセスのフローチャートを示す。

【0013】

【図9】図９は、本開示のいくつかの実施形態による、音声クエリのエンティティに関連付けられたコンテンツを読み出すための例証的プロセスのフローチャートを示す。

【発明を実施するための形態】

【0014】

いくつかの実施形態では、本開示は、音声クエリをユーザから受信し、音声クエリを分析し、コンテンツまたは情報を検索するためのテキストクエリ（例えば、転換物）を生成するように構成されたシステムを対象とする。システムは、１つ以上のキーワードの発音に部分的に基づいて、音声クエリに応答する。例えば、英語言語では、同じスペルであるが、異なる発音を有する複数の単語が存在する。これは、特に、人々の名前に当てはまり得る。いくつかの例は、以下を含む。

【表1】

例証するために、ユーザは、「Ｌｏｕｉｓのインタビューを見せて」とシステムのオーディオインターフェースに対して声に出し得る。システムは、以下等の例証的テキストクエリを生成し得る。
オプション１）「ＦｒａｕｄＭａｇａｚｉｎｅとのＬｏｕｉｓＦｒｅｅｈのインタビューを見せて」
オプション２）「ＣＢＳで放送されたＬｅｗｉｓＢｌａｃｋのインタビューを見せて」
結果として生じるテキストクエリは、ユーザが単語「Ｌｏｕｉｓ」を発話した方法に依存する。ユーザが、「ＬＯＯ－ｅｅ」と発音した場合、システムは、オプション１を選択するか、または、より重い重みをオプション１に適用する。ユーザが、「ＬＯＯ－ｈｉｓ」と発音した場合、システムは、オプション２を選択するか、または、より重い重みをオプション２に適用する。発音が考慮されないと、システムは、音声クエリに正確に応答することが可能ではないであろう可能性が高い。

【0015】

いくつかの状況では、人物の部分的名前を含む音声クエリは、その人を正しく検出することにおいて曖昧性を引き起こし得る（例えば、「非決定的人物検索クエリ」と称される）。例えば、ユーザが、「Ｔｏｍが主演の映画を見せて」または「Ｌｏｕｉｓのインタビューを見せて」と声に出す場合、システムは、ユーザが尋ねているのがＴｏｍまたはＬｏｕｉｓ／Ｌｏｕｉｅ／Ｌｅｗｉｓであるかを決定する必要があるであろう。発音情報に加え、システムは、例えば、ユーザ検索履歴（例えば、前のクエリおよび検索結果）、ユーザの好きなもの／嫌いなもの／選好（例えば、ユーザプロファイル情報から）、（例えば、複数のユーザの）一般的傾向、（例えば、複数のユーザの中の）人気、任意の他の好適な情報、またはそれらの任意の組み合わせ等の１つ以上のコンテキスト入力を分析し得る。システムは、自動発話認識（ＡＳＲ）プロセス後、失われないように、発音情報を好適な形態において（例えば、テキストクエリ自体で、またはテキストクエリに関連付けられたメタデータで）に保持する。

【0016】

いくつかの実施形態では、システムによって使用されるための発音情報に関して、その中でシステムが検索する情報フィールドは、クエリとの比較のための発音情報を含まなければならない。例えば、情報フィールドは、発音メタデータを含むエンティティについての情報を含み得る。システムは、音素転換プロセスを実施し得、素転換プロセスは、ユーザの音声クエリを入力としてとり、それをテキストに転換し、テキストは、読み返されると、音声学的に正しく聞こえる。システムは、音素転換プロセスの出力および発音メタデータを使用して、検索結果を決定するように構成され得る。例証的例では、エンティティに関して記憶される発音メタデータは、以下を含み得る。

【表2】

【0017】

いくつかの実施形態では、本開示は、音声クエリをユーザから受信し、音声クエリを分析し、コンテンツまたは情報を検索するためのテキストクエリ（例えば、転換物）を生成するように構成されたシステムを対象とする。システムが検索する情報フィールドは、発音メタデータ、エンティティの代替テキスト表現、または両方を含む。例えば、ユーザが、音声クエリをシステムに発すると、システムは、最初に、ＡＳＲモジュールを使用して、音声をテキストに変換する。結果として生じるテキストは、次いで、会話システム（例えば、クエリに応答して、アクションを実施する）への入力を形成する。例証するために、ユーザが、「ＴｏｍＣｒｕｉｓｅの映画を見せて」と言う場合、ＡＳＲモジュールは、ユーザの発話をテキストに変換し、テキストクエリを会話システムに発する。「ＴｏｍＣｒｕｉｓｅ」に対応するエンティティが、データ内に存在する場合、システムは、それをテキスト「ＴｏｍＣｒｕｉｓｅ」と合致させ、適切な結果（例えば、ＴｏｍＣｒｕｉｓｅについての情報、ＴｏｍＣｒｕｉｓｅを特徴とするコンテンツ、またはそのコンテンツ識別子）を返す。エンティティが、（例えば、情報フィールドの）データ内に存在し、直接、エンティティタイトルを使用してアクセスされることができるとき、エンティティは、「到達可能」と称され得る。到達可能性は、システムが検索動作を実施するために最も重要である。例えば、あるデータ（例えば、映画、芸術家、テレビシリーズ、または他のエンティティ）が、システム内に存在し、関連付けられたデータが、記憶されるが、ユーザが、その情報にアクセスすることができない場合、エンティティは、「到達不能」と称され得る。データシステム内の到達不能エンティティは、検索システムの失敗を表す。

【0018】

システムは、複数の記憶された情報の中の１つ以上のエンティティまたはコンテンツ項目を識別し得る。いくつかの実施形態では、システムは、エンティティまたはコンテンツ項目を表す第１のテキスト文字列に基づいて、オーディオファイルを生成する。第１のテキスト文字列および少なくとも１つの発話基準に基づいて、システムは、発話→テキストモジュールを使用して、オーディオファイルに基づいて、第２のテキスト文字列を生成し得る。システムは、テキスト文字列を比較し、第２のテキスト文字列が第１のテキスト文字列と同一でない場合、第２のテキスト文字列を記憶する。いくつかの実施形態では、システムは、テキスト－発話－テキスト変換からの結果を含むメタデータを生成し、検索動作中、音声クエリに応答するとき、可能な誤識別を予想する。メタデータは、到達可能性を改良するために、エンティティの代替表現を含み得る。

【0019】

図１は、本開示のいくつかの実施形態による、テキストクエリを生成するための例証的システム１００のブロック図を示す。システム１００は、ＡＳＲモジュール１１０と、会話システム１２０と、発音メタデータ１５０と、ユーザプロファイル情報１６０と、１つ以上のデータベース１７０とを含む。例えば、一緒にシステム１９９に含まれ得るＡＳＲモジュール１１０および会話システム１２０は、クエリアプリケーションを実装するために使用され得る。

【0020】

ユーザは、発話「先週のあのＬｏｕｉｓのインタビューを見せて」を含むクエリ１０１をシステム１９９のオーディオインターフェースに対して声に出し得る。ＡＳＲモジュール１１０は、受信されたオーディオ入力をサンプリング、調整、およびデジタル化し、結果として生じるオーディオファイルを分析し、テキストクエリを生成するように構成されている。いくつかの実施形態では、ＡＳＲモジュール１１０は、ユーザプロファイル情報１６０からの情報を読み出し、テキストクエリを生成することに役立てる。例えば、ユーザに関する音声認識情報が、ユーザプロファイル情報１６０に記憶され得、ＡＳＲモジュール１１０は、音声認識情報を使用して、発話するユーザを識別し得る。さらなる例では、システム１９９は、好適なメモリに記憶されたユーザプロファイル情報１６０を含み得る。ＡＳＲモジュール１１０は、声に出された単語「Ｌｏｕｉｓ」に関する発音情報を決定し得る。テキスト単語「Ｌｏｕｉｓ」に関して２つ以上の発音が存在するので、システム１９９は、発音情報に基づいて、テキストクエリを生成する。さらに、音「Ｌｏｏ－ｈｉｓ」は、「Ｌｏｕｉｓ」または「Ｌｅｗｉｓ」としてテキストに変換され得、故に、コンテキスト情報は、音声クエリの正しいエンティティ（例えば、ＬｏｕｉｓＦａｒｒａｋｈａｎにおけるようなＬｏｕｉｓとは対照的に、ＬｅｗｉｓＢｌａｃｋにおけるようなＬｅｗｉｓ）を識別することに役立ち得る。いくつかの実施形態では、会話システム１２０は、ＡＳＲモジュール１１０からの認識された単語、コンテキスト情報、ユーザプロファイル情報１６０、発音メタデータ１５０、１つ以上のデータベース１７０、任意の他の情報、またはそれらの任意の組み合わせに基づいて、テキストクエリを生成すること、テキストクエリに応答すること、または、両方を行うように構成される。例えば、会話システム１２０は、テキストクエリを生成し、次いで、合致を決定するために、テキストクエリを複数のエンティティに関する発音メタデータ１５０と比較し得る。さらなる例では、会話システム１２０は、１つ以上の認識された単語を複数のエンティティに関する発音メタデータ１５０と比較し、合致を決定し、次いで、識別されたエンティティに基づいて、テキストクエリを生成し得る。いくつかの実施形態では、会話システム１２０は、付随の発音情報を伴うテキストクエリを生成する。いくつかの実施形態では、会話システム１２０は、埋め込み発音情報を伴うテキストクエリを生成する。例えば、テキストクエリは、正しい文法的表現「Ｌｏｕｉｓ」ではなく、「ｌｏｏ－ｅｅ」等の単語の音素表現を含み得る。さらなる例では、発音メタデータ１５０は、それとテキストクエリが比較され得る１つ以上の基準音素表現を含み得る。

【0021】

ユーザプロファイル情報１６０は、ユーザ識別情報（例えば、名前、識別子、住所、連絡先情報）、ユーザ検索履歴（例えば、前の音声クエリ、前のテキストクエリ、前の検索結果、前の検索結果またはクエリに関するフィードバック）、ユーザ選好（例えば、検索設定、お気に入りエンティティ、２つ以上のクエリに含まれるキーワード）、ユーザが好きなもの／嫌いなもの（例えば、ソーシャルメディアアプリケーション内でユーザによってフォローされるエンティティ、ユーザ入力情報）、ユーザに接続される他のユーザ（例えば、友人、家族、ソーシャルネットワーキングアプリケーション内の連絡先、ユーザデバイスに記憶される連絡先）、ユーザ音声データ（例えば、オーディオサンプル、シグネチャ、発話パターン、またはユーザの音声を識別するためのファイル）、ユーザについての任意の他の好適な情報、またはそれらの任意の組み合わせを含み得る。

【0022】

１つ以上のデータベース１７０は、テキストクエリを生成すること、テキストクエリに応答すること、または、両方を行うための任意の好適な情報を含む。いくつかの実施形態では、発音メタデータ１５０、ユーザプロファイル情報１６０、または両方は、１つ以上のデータベース１７０に含まれ得る。いくつかの実施形態では、１つ以上のデータベース１７０は、複数のユーザに関する統計的情報（例えば、検索履歴、コンテンツ消費履歴、消費パターン）を含む。いくつかの実施形態では、１つ以上のデータベース１７０は、人、場所、オブジェクト、イベント、コンテンツ項目、１つ以上のエンティティに関連付けられたメディアコンテンツ、またはそれらの組み合わせを含む複数のエンティティについての情報を含む。

【0023】

図２は、本開示のいくつかの実施形態による、音声クエリに応答してコンテンツを読み出すための例証的システム２００のブロック図を示す。システム２００は、発話処理システム２１０と、検索エンジン２２０と、エンティティデータベース２５０と、ユーザプロファイル情報２４０とを含む。発話処理システム２１０は、オーディオファイルを識別し得、キーワードが識別され得る音素、パターン、単語、または他の要素に関して、オーディオファイルを分析し得る。いくつかの実施形態では、発話処理システム２１０は、時間ドメイン、スペクトルドメイン、または両方において、オーディオ入力を分析し、単語を識別し得る。例えば、発話処理システム２１０は、時間ドメインにおいて、オーディオ入力を分析し、発話が生じる期間を決定し得る（例えば、一時停止または沈黙の期間を排除するため）。発話処理システム２１０は、次いで、スペクトルドメインにおいて、各期間を分析し、キーワードが識別され得る音素、パターン、単語、または他の要素を識別し得る。発話処理システム２１０は、生成されたテキストクエリ、１つ以上の単語、発音情報、またはそれらの組み合わせを出力し得る。いくつかの実施形態では、発話処理システム２１０は、音声認識、発話認識、または両方のために、ユーザプロファイル情報２４０からのデータを読み出し得る。

【0024】

検索エンジン２２０が、発話処理システム２１０からの出力を受信し、検索設定２２１およびコンテキスト情報２２２と組み合わせて、テキストクエリへの応答を生成する。検索エンジン２２０は、ユーザプロファイル情報２４０を使用して、テキストクエリを生成し、それを修正し、または、それに応答し得る。検索エンジン２２０は、テキストクエリを使用して、エンティティ２５０のデータベースのデータの中を検索する。エンティティ２５０のデータベースは、複数のエンティティに関連付けられたメタデータ、複数のエンティティに関連付けられたコンテンツ、または両方を含み得る。例えば、データは、エンティティに関する識別子、エンティティを説明する詳細、エンティティを指すタイトル（例えば、音素表現または代替表現を含み得る）、エンティティに関連付けられた語句（例えば、音素表現または代替表現を含み得る）、エンティティに関連付けられたリンク（例えば、ＩＰアドレス、ＵＲＬ、ハードウェアアドレス）、エンティティに関連付けられたキーワード（例えば、音素表現または代替表現を含み得る）、エンティティに関連付けられた任意の他の好適な情報、またはそれらの任意の組み合わせを含み得る。検索エンジン２２０が、テキストクエリのキーワードに合致する１つ以上のエンティティを識別すること、テキストクエリのキーワードに合致する１つ以上のコンテンツ項目を識別すること、または、両方を行うと、検索エンジン２２０は、次いで、テキストクエリへの応答２７０として、情報、コンテンツ、または両方をユーザに提供し得る。いくつかの実施形態では、検索設定２２１は、テキストクエリの生成、検索結果の読み出し、または両方に影響を及ぼすデータベース、エンティティ、エンティティのタイプ、コンテンツのタイプ、他の検索基準、またはそれらの任意の組み合わせを含む。いくつかの実施形態では、コンテキスト情報２２２は、ジャンル情報（例えば、検索フィールドをさらに絞り込むため）、キーワード、データベース識別（例えば、標的情報またはコンテンツを含む可能性が高いデータベース）、コンテンツのタイプ（例えば、日付、ジャンル、タイトル、フォーマット別）、任意の他の好適な情報、またはそれらの任意の組み合わせを含む。応答２７０は、例えば、コンテンツ（例えば、表示されるビデオ）、情報、検索結果の一覧、コンテンツへのリンク、任意の他の好適な検索結果、またはそれらの任意の組み合わせを含み得る。

【0025】

図３は、本開示のいくつかの実施形態による、発音情報を生成するための例証的システム３００のブロック図を示す。システム３００は、テキスト→発話エンジン３１０と、発話→テキストエンジン３２０とを含む。いくつかの実施形態では、システム３００は、テキストまたは音声クエリから独立して、発音情報を決定する。例えば、システム３００は、１つ以上のエンティティに関するメタデータ（例えば、システム１００の発音メタデータ１５０またはシステム２００のエンティティ２５０のデータベースに記憶されるメタデータ等）を生成し得る。テキスト→発話エンジン３１０は、音声クエリに含まれる可能性が高いエンティティ名または他の識別子を含み得る第１のテキスト文字列３０２を識別し得る。例えば、テキスト→発話エンジン３１０は、ユーザが、数値または英数字識別子ではなく、名前を含む音声クエリを発話する（例えば、ユーザが、「ＷＩＫＩ０４５５６」ではなく、「Ｌｏｕｉｓ」と発話する）可能性がより高いので、「ＩＤ」フィールドではなく、エンティティメタデータの「名前」フィールドを識別し得る。テキスト→発話エンジン３１０は、第１のテキスト文字列に基づいて、スピーカまたは他のオーディオデバイスにおいて、オーディオ出力３１２を生成する。例えば、テキスト→発話エンジン３１０は、１つ以上の設定を使用して、生成されたオーディオ出力に影響を及ぼし得る音声詳細（例えば、男性／女性音声、アクセント、または他の詳細）、再生速度、または任意の他の好適な設定を規定し得る。発話→テキストエンジン３２０は、マイクロホンまたは他の好適なデバイスにおいて、オーディオ出力３１２からオーディオ入力３１３を受信し（例えば、記憶され得るオーディオファイルに加え、またはその代わりに）、オーディオ入力３１３のテキスト変換を生成する（例えば、記録されるオーディオのオーディオファイルを記憶することに加え、またはその代わりに）。発話→テキストエンジン３２０は、処理設定を使用して、新しいテキスト文字列３２２を生成し得る。新しいテキスト文字列３２２は、第１のテキスト文字列３０２と比較される。新しいテキスト文字列３２２が、テキスト文字列３０２と同一である場合、音声クエリが正確なテキストクエリへの変換をもたらし得るので、メタデータは、生成される必要がない。新しいテキスト文字列３２２が、テキスト文字列３０２と同一でない場合、これは、音声クエリがテキストクエリに正しくなく変換されたこともあることを示す。故に、新しいテキスト文字列３２２が、テキスト文字列３０２と同一でない場合、発話→テキストエンジン３２０は、新しいテキスト文字列３２２をテキスト文字列３０２が関連付けられる、エンティティに関連付けられたメタデータ内に含む。システム３００は、複数のエンティティを識別し、各エンティティに関して、テキスト→発話エンジン３１０および発話→テキストエンジン３２０からの結果として生じるテキスト文字列（例えば、新しいテキスト文字列３２２等）を含むメタデータを生成し得る。いくつかの実施形態では、所与のエンティティに関して、テキスト→発話エンジン３１０、発話→テキストエンジン３２０、または両方は、２つ以上の設定を使用して、２つ以上の新しいテキスト文字列を生成し得る。故に、２つ以上のテキスト文字列は、テキスト文字列３０２と異なるので、次いで、各新しいテキスト文字列は、メタデータに記憶され得る。例えば、異なる設定から生じる異なる発音または発音の解釈は、異なる新しいテキスト文字列を生成し得、それは、異なるユーザからの音声クエリに備えて記憶され得る。代替表現（例えば、テキスト文字列３０２および新しいテキスト文字列３２２）を生成および記憶することによって、システム３００は、メタデータを更新し、より正確な検索を可能にし得る（例えば、エンティティの到達可能性および検索の正確度を改良する）。

【0026】

例証的例では、エンティティに関して、システム３００は、タイトルおよび関連語句を識別し、各語句をテキスト→発話エンジン３１０に通し、それぞれのオーディオファイルを保存し、次いで、各それぞれのオーディオファイルを発話→テキストエンジン３２０に通し、ＡＳＲ書き起こし記録（例えば、新しいテキスト文字列３２２）を得る。ＡＳＲ書き起こし記録が、元の語句（例えば、テキスト文字列３０２）と異なる場合、システム３００は、ＡＳＲ書き起こし記録を（例えば、メタデータに記憶されるような）エンティティの関連語句に追加する。いくつかの実施形態では、システム３００は、任意の手動作業を要求せず、完全に自動化され得る（例えば、ユーザ入力は、要求されない）。いくつかの実施形態では、ユーザが、クエリを発し、所望の結果を得られないとき、システム３００は、アラートされる。それに応答して、人が、クエリに関する正しいエンティティであるべきものを手動で識別する。正しくない結果は、記憶され、将来的クエリのための情報を提供する。システム３００は、システムレベルではなく、メタデータレベルにおいて、潜在的不正確度に対処する。多くのエンティティに関するテキスト文字列３０２の分析は、全ての誤った例が、事前に（例えば、ユーザの音声クエリに先立って）識別され、解決されるように、網羅的かつ自動であり得る。システム３００は、誤った例（例えば、代替表現）を生成するために、ユーザが音声クエリを提供することを要求しない。システム３００は、クエリシステムとのユーザの相互作用をエミュレートし、検索を実施することにおける潜在的エラー源を予想するために使用され得る。

【0027】

ユーザは、コンテンツ、（例えば、音声クエリを解釈するための）アプリケーション、および、例えば、そのデバイス（すなわち、ユーザ機器またはオーディオ機器）、１つ以上のネットワーク接続デバイス、ディスプレイを有する１つ以上の電子デバイス、またはそれらの組み合わせのうちの１つ以上のものからの他の特徴にアクセスし得る。本開示の例証的技法のいずれかは、ユーザデバイス、ディスプレイをユーザに提供するデバイス、または、音声クエリに応答し、ディスプレイコンテンツをユーザに生成するように構成された任意の他の好適な制御回路によって実装され得る。

【0028】

図４は、例証的ユーザデバイスの一般化された実施形態を示す。ユーザ機器システム４０１は、ディスプレイ４１２、オーディオ機器４１４、およびユーザ入力インターフェース４１０を含むか、または、それらに通信可能に結合されたセットトップボックス４１６を含み得る。いくつかの実施形態では、ディスプレイ４１２は、テレビディスプレイまたはコンピュータディスプレイを含み得る。いくつかの実施形態では、ユーザ入力インターフェース４１０は、遠隔制御デバイスである。セットトップボックス４１６は、１つ以上の回路基板を含み得る。いくつかの実施形態では、１つ以上の回路基板は、処理回路、制御回路、および記憶装置（例えば、ＲＡＭ、ＲＯＭ、ハードディスク、リムーバブルディスク等）を含む。いくつかの実施形態では、回路基板は、入／出力経路を含む。ユーザ機器デバイス４００およびユーザ機器システム４０１の各々は、入力／出力（以降では「Ｉ／Ｏ」）経路４０２を介してコンテンツおよびデータを受信し得る。Ｉ／Ｏ経路４０２は、処理回路４０６と記憶装置４０８とを含む制御回路４０４に、コンテンツおよびデータを提供し得る。制御回路４０４は、Ｉ／Ｏ経路４０２を使用して、コマンド、要求、および他の好適なデータを送信および受信するために使用され得る。Ｉ／Ｏ経路４０２は、制御回路４０４（具体的に、処理回路４０６）を１つ以上の通信経路（下記に説明される）に接続し得る。Ｉ／Ｏ機能は、これらの通信経路のうちの１つ以上のものによって提供され得るが、図面を過剰に複雑にすることを回避するように、図４では単一の経路として示される。セットトップボックス４１６が、例証のために図４に示されるが、処理回路、制御回路、および記憶装置を有する任意の好適なコンピューティングデバイスが、本開示に従って使用され得る。例えば、セットトップボックス４１６は、パーソナルコンピュータ（例えば、ノートブック、ラップトップ、デスクトップ）、ユーザアクセス可能クライアントデバイスをホストするネットワークベースのサーバ、非ユーザ所有デバイス、任意の他の好適なデバイス、またはそれらの任意の組み合わせによって置換または補完され得る。

【0029】

制御回路４０４は、処理回路４０６等の任意の好適な処理回路に基づき得る。本明細書で参照されるように、処理回路は、１つ以上のマイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ、プログラマブル論理デバイス、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）等に基づく回路を意味すると理解されるべきであり、マルチコアプロセッサ（例えば、デュアルコア、クアッドコア、ヘキサコア、または任意の好適な数のコア）またはスーパーコンピュータを含み得る。いくつかの実施形態では、処理回路は、複数の別個のプロセッサまたは処理ユニット、例えば、複数の同じのタイプの処理ユニット（例えば、２つのＩｎｔｅｌＣｏｒｅｉ７プロセッサ）または複数の異なるプロセッサ（例えば、ＩｎｔｅｌＣｏｒｅｉ５プロセッサおよびＩｎｔｅｌＣｏｒｅｉ７プロセッサ）を横断して分散される。いくつかの実施形態では、制御回路４０４は、メモリ（例えば、記憶装置４０８）に記憶されたアプリケーションのための命令を実行する。具体的に、制御回路４０４は、上記および下記に議論される機能を実施するようにアプリケーションによって命令され得る。例えば、アプリケーションは、命令を制御回路４０４に提供し、メディアガイド表示を発生させ得る。いくつかの実装では、制御回路４０４によって実施される任意のアクションは、アプリケーションから受信される命令に基づき得る。

【0030】

いくつかのクライアント／サーバベースの実施形態では、制御回路４０４は、アプリケーションサーバまたは他のネットワークまたはサーバと通信するために好適な通信回路を含む。上記に述べられる機能性を実行するための命令は、アプリケーションサーバ上に記憶され得る。通信回路は、他の機器または任意の他の好適な通信回路と通信するために、ケーブルモデム、総合サービスデジタルネットワーク（ＩＳＤＮ）モデム、デジタル加入者回線（ＤＳＬ）モデム、電話モデム、イーサネット（登録商標）カード、または無線モデムを含み得る。そのような通信は、インターネットまたは任意の他の好適な通信ネットワークまたは経路を伴い得る。加えて、通信回路は、ユーザ機器デバイスのピアツーピア通信または互いに遠隔の場所にあるユーザ機器デバイスの通信を可能にする回路（下記により詳細に説明される）を含み得る。

【0031】

メモリは、制御回路４０４の一部である記憶装置４０８等の電子記憶デバイスであり得る。本明細書で参照されるように、語句「電子記憶デバイス」または「記憶デバイス」は、ランダムアクセスメモリ、読み取り専用メモリ、ハードドライブ、光学ドライブ、ソリッドステートデバイス、量子記憶デバイス、ゲーム機、ゲーム媒体、または任意の他の好適な固定またはリムーバブル記憶デバイス等の任意の組み合わせ等の電子データ、コンピュータソフトウェア、またはファームウェアを記憶するための任意のデバイスを意味すると理解されるべきである。記憶装置４０８は、本明細書に説明される種々のタイプのコンテンツおよび上記に説明されるメディアガイドデータを記憶するために使用され得る。不揮発性メモリも、（例えば、ブートアップルーチンおよび他の命令を起動するために）使用され得る。クラウドベースの記憶装置が、例えば、記憶装置４０８を補完するために、または記憶装置４０８の代わりに使用され得る。

【0032】

ユーザが、ユーザ入力インターフェース４１０を使用して、命令を制御回路４０４に送信し得る。ユーザ入力インターフェース４１０、ディスプレイ４１２、または両方は、表示を提供し、触覚入力を受信するように構成されたタッチスクリーンを含み得る。例えば、タッチスクリーンは、指、スタイラス、または両方から触覚入力を受信するように構成され得る。いくつかの実施形態では、機器デバイス４００は、前向きの画面および後向きの画面、複数の前方画面、または複数の角度付き画面を含み得る。いくつかの実施形態では、ユーザ入力インターフェース４１０は、１つ以上のマイクロホン、ボタン、キーパッド、ユーザ入力を受信するように構成された任意の他のコンポーネント、またはそれらの組み合わせを有するリモートコントロールデバイスを含む。例えば、ユーザ入力インターフェース４１０は、英数字キーパッドおよびオプションを有するハンドヘルドリモートコントロールデバイスを含み得る。さらなる例では、ユーザ入力インターフェース４１０は、音声コマンドを受信および識別し、情報をセットトップボックス４１６に伝送するように構成されたマイクロホンおよび制御回路を有するハンドヘルドリモートコントロールデバイスを含み得る。

【0033】

オーディオ機器４１４は、ユーザデバイス４００およびユーザ機器システム４０１の各々の他の要素と統合されるものとして提供され得るか、または、独立型ユニットであり得る。ディスプレイ４１２上に表示されるビデオおよび他のコンテンツのオーディオコンポーネントが、オーディオ機器４１４のスピーカを通して再生され得る。いくつかの実施形態では、オーディオは、受信機（図示せず）に分配され得、受信機は、オーディオを処理し、オーディオ機器４１４のスピーカを介して出力する。いくつかの実施形態では、例えば、制御回路４０４は、オーディオ機器４１４のスピーカを使用して、オーディオキューをユーザに、または他のオーディオフィードバックをユーザに提供するように構成される。オーディオ機器４１４は、音声コマンドおよび発話（例えば、音声クエリを含む）等のオーディオ入力を受信するように構成されたマイクロホンを含み得る。例えば、ユーザは、文字または単語を話し得、それらは、マイクロホンによって受信され、制御回路４０４によってテキストに変換される。さらなる例では、ユーザは、コマンドを声に出し得、コマンドは、マイクロホンによって受信され、制御回路４０４によって認識される。

【0034】

（例えば、音声クエリを管理するための）アプリケーションが、任意の好適なアーキテクチャを使用して実装され得る。例えば、独立型アプリケーションが、ユーザデバイス４００およびユーザ機器システム４０１の各々上に完全に実装され得る。いくつかのそのような実施形態では、アプリケーションのための命令が、ローカルで（例えば、記憶装置４０８内に）記憶され、アプリケーションによって使用するためのデータが、周期的基準で（例えば、帯域外フィードから、インターネットリソースから、または別の好適なアプローチを使用して）ダウンロードされる。制御回路４０４は、記憶装置４０８からアプリケーションのための命令を読み出し、命令を処理し、本明細書に議論される表示のうちのいずれかを発生させ得る。処理された命令に基づいて、制御回路４０４は、入力がユーザ入力インターフェース４１０から受信されるときに実施するべきアクションの内容を決定し得る。例えば、上／下への表示上のカーソルの移動は、入力インターフェース４１０が、上／下ボタンが選択されたことを示すときに、処理された命令によって示され得る。本明細書に議論される実施形態のうちのいずれかを実施するためのアプリケーションおよび／または任意の命令が、コンピュータ読み取り可能な媒体上にエンコードされ得る。コンピュータ読み取り可能な媒体は、データを記憶することが可能な任意の媒体を含む。コンピュータ読み取り可能な媒体は、限定ではないが、伝搬電気または電磁信号を含み、一過性であり得るか、または、限定ではないが、ハードディスク、フロッピー（登録商標）ディスク、ＵＳＢドライブ、ＤＶＤ、ＣＤ、メディアカード、レジスタメモリ、プロセッサキャッシュ、ランダムアクセスメモリ（ＲＡＭ）等の揮発性および不揮発性コンピュータメモリまたは記憶デバイスを含み、非一過性であり得る。

【0035】

いくつかの実施形態では、アプリケーションは、クライアント／サーバベースのアプリケーションである。ユーザデバイス４００およびユーザ機器システム４０１の各々上で実装される、シックまたはシンクライアントによって使用するためのデータが、ユーザ機器デバイス４００およびユーザ機器システム４０１の各々から遠隔にあるサーバに要求を発行することによって、オンデマンドで読み出される。例えば、遠隔サーバは、記憶デバイス内にアプリケーションのための命令を記憶し得る。遠隔サーバは、回路（例えば、制御回路４０４）を使用して、記憶された命令を処理し、上記および下記に議論される表示を発生させ得る。クライアントデバイスは、遠隔サーバによって発生させられる表示を受信し得、ユーザデバイス４００上にローカルで表示のコンテンツを表示し得る。このように、命令の処理が、サーバによって遠隔で実施される一方、テキスト、キーボード、または他の視覚物を含み得る結果として生じる表示は、ユーザデバイス４００上にローカルで提供される。ユーザデバイス４００は、入力インターフェース４１０を介してユーザから入力を受信し、対応する表示を処理し、発生させるために、それらの入力を遠隔サーバに伝送し得る。例えば、ユーザデバイス４００は、上／下ボタンが入力インターフェース４１０を介して選択されたことを示す通信を遠隔サーバに伝送し得る。遠隔サーバは、その入力に従って命令を処理し、入力に対応するアプリケーションの表示（例えば、カーソルを上／下に移動させる表示）を発生させ得る。発生させられた表示は、次いで、ユーザへの提示のためにユーザデバイス４００に伝送される。

【0036】

いくつかの実施形態では、アプリケーションは、ダウンロードされ、インタープリタまたは仮想マシン（例えば、制御回路４０４によって起動される）によって解釈され、または別様に起動される。いくつかの実施形態では、アプリケーションは、ＥＴＶバイナリ交換形式（ＥＢＩＦ）でエンコードされ、好適なフィードの一部として制御回路によって受信され、制御回路４０４上で起動するユーザエージェントによって解釈され得る。例えば、アプリケーションは、ＥＢＩＦアプリケーションであり得る。いくつかの実施形態では、アプリケーションは、制御回路４０４によって実行されるローカル仮想マシンまたは他の好適なミドルウェアによって受信および起動される一連のＪＡＶＡ（登録商標）ベースのファイルによって定義され得る。

【0037】

図５は、本開示のいくつかの実施形態による、音声クエリに応答するための例証的ネットワーク配置５００のブロック図を示す。例証的システム５００は、ユーザが、音声クエリをユーザデバイス５５０において提供すること、コンテンツをユーザデバイス５５０のディスプレイ上で視聴すること、または両方を行う状況を表し得る。システム５００では、２つ以上のタイプのユーザデバイスが存在し得るが、１つのみのが、図面を過度に複雑にすることを回避するために、図５に示される。加えて、各ユーザは、２つ以上のタイプのユーザデバイスを利用し、２つ以上の各タイプのユーザデバイスも利用し得る。ユーザデバイス５５０は、図４のユーザデバイス４００、ユーザ機器システム４０１、任意の他の好適なデバイス、またはそれらの任意の組み合わせと同じであり得る。

【0038】

無線対応デバイスとして図示されるユーザデバイス５５０は、通信ネットワーク５１０に結合され得る（例えば、インターネットに接続される）。例えば、ユーザデバイス５５０は、通信経路（例えば、アクセスポイントを含み得る）を介して、通信ネットワーク５１０に結合される。いくつかの実施形態では、ユーザデバイス５５０は、有線接続を介して通信ネットワーク５１０に結合されるコンピューティングデバイスであり得る。例えば、ユーザデバイス５５０は、ＬＡＮへの有線接続またはネットワーク５１０への任意の他の好適な通信リンクも含み得る。通信ネットワーク５１０は、インターネット、携帯電話ネットワーク、モバイル音声またはデータネットワーク（例えば、４ＧまたはＬＴＥネットワーク）、ケーブルネットワーク、公衆交換電話網、または他のタイプの通信ネットワークまたは通信ネットワークの組み合わせを含む１つ以上のネットワークであり得る。通信経路は、衛星経路、光ファイバ系経路、ケーブル経路、インターネット通信をサポートする経路、自由空間接続（例えば、ブロードキャストまたは他の無線信号のため）、または任意の他の好適な有線または無線通信経路またはそのような経路の組み合わせ等の１つ以上の通信経路を含み得る。通信経路は、ユーザデバイス５５０とネットワークデバイス５２０との間に描かれないが、これらのデバイスは、上記に説明されるもの等の通信経路、およびＵＳＢケーブル、ＩＥＥＥ１３９４ケーブル、無線経路（例えば、Ｂｌｕｅｔｏｏｔｈ（登録商標）、赤外線、ＩＥＥＥ８０２－１１ｘ等）等の他の短範囲２地点間通信経路、または有線または無線経路を介した他の短範囲通信を介して、直接、互いに通信し得る。ＢＬＵＥＴＯＯＴＨ（登録商標）は、Ｂｌｕｅｔｏｏｔｈ（登録商標）ＳＩＧ，Ｉｎｃ．によって所有される認証マークである。デバイスはまた、通信ネットワーク５１０を介した間接経路を通して、直接、互いに通信し得る。

【0039】

図示されるようなシステム５００は、好適な通信経路を介して通信ネットワーク５１０に結合されるネットワークデバイス５２０（例えば、サーバまたは他の好適なコンピューティングデバイス）を含む。ネットワークデバイス５２０とユーザデバイス５５０との間の通信は、１つ以上の通信経路を経由して交換され得るが、図面を過度に複雑にすることを回避するために、図５では、単一経路として示される。ネットワークデバイス５２０は、データベースと、１つ以上のアプリケーション（例えば、アプリケーションサーバ、ホストサーバとして）とを含み得る。複数のネットワークエンティティが、存在し、ネットワーク５１０と通信し得るが、１つのみが、図面を過度に複雑にすることを回避するために、図５に示される。いくつかの実施形態では、ネットワークデバイス５２０は、１つのソースデバイスを含み得る。いくつかの実施形態では、ネットワークデバイス５２０は、多くのユーザデバイス（例えば、ユーザデバイス５５０）におけるアプリケーションのインスタンスと通信するアプリケーションを実装する。例えば、ソーシャルメディアアプリケーションのインスタンスが、ユーザデバイス５５０上に実装され得、アプリケーション情報は、ユーザに関するプロファイル情報を記憶し得るネットワークデバイス５２０に、および、それから通信される（例えば、現在のソーシャルメディアフィードが、ユーザデバイス５５０以外のデバイス上で利用可能であるように）。さらなる例では、検索アプリケーションのインスタンスが、ユーザデバイス５５０上に実装され得、アプリケーション情報は、ユーザに関するプロファイル情報、複数のユーザからの検索履歴、エンティティ情報（例えば、コンテンツおよびメタデータ）、任意の他の好適な情報、またはそれらの任意の組み合わせを記憶し得るネットワークデバイス５２０に、および、それから通信される。

【0040】

いくつかの実施形態では、ネットワークデバイス５２０は、例えば、エンティティ情報、メタデータ、コンテンツ、履歴通信および検索記録、ユーザ選好、ユーザプロファイル情報、任意の他の好適な情報、またはそれらの任意の組み合わせを含む、記憶された情報のうちの１つ以上のタイプを含む。ネットワークデバイス５２０は、アプリケーションホストデータベースまたはサーバ、プラグイン、ソフトウェア開発者キット（ＳＤＫ）、アプリケーションプログラミングインターフェース（ＡＰＩ）、または、（例えば、ユーザデバイスにダウンロードされるような）ソフトウェアを提供すること、（例えば、ユーザデバイスによってアクセスされるアプリケーションをホストする）ソフトウェアを遠隔で起動すること、または、別様に、アプリケーションサポートをユーザデバイス５５０のアプリケーションに提供することを行うように構成された他のソフトウェアツールを含み得る。いくつかの実施形態では、ネットワークデバイス５２０からの情報は、クライアント／サーバアプローチを使用して、ユーザデバイス５５０に提供される。例えば、ユーザデバイス５５０は、情報をサーバからプルし得るか、または、サーバは、情報をユーザデバイス５５０にプッシュし得る。いくつかの実施形態では、ユーザデバイス５５０上に常駐するアプリケーションクライアントは、ネットワークデバイス５２０とのセッションを開始し、必要に応じて（例えば、データが、古くなると、またはユーザデバイスが、データを受信するための要求をユーザから受信すると）、情報を取得し得る。いくつかの実施形態では、情報は、ユーザ情報（例えば、ユーザプロファイル情報、ユーザ作成コンテンツ）を含み得る。例えば、ユーザ情報は、ユーザが関わるコンテンツトランザクション、ユーザが実施した検索、ユーザが消費したコンテンツ、ユーザがソーシャルネットワークと相互作用するかどうか、任意の他の好適な情報、またはそれらの任意の組み合わせ等の現在および／または履歴ユーザアクティビティ情報を含み得る。いくつかの実施形態では、ユーザ情報は、ある期間にわたって、所与のユーザのパターンを識別し得る。図示されるように、ネットワークデバイス５２０は、複数のエンティティに関するエンティティ情報を含む。エンティティ情報５２１、５２２、および５２３は、それぞれのエンティティに関するメタデータを含む。それに関してメタデータがネットワークデバイス５２０に記憶されているエンティティは、互いにリンクされ得るか、互いに参照され得るか、メタデータ内に１つ以上のタグによって記述され得るか、またはそれらの組み合わせであり得る。

【0041】

いくつかの実施形態では、アプリケーションは、ユーザデバイス５５０、ネットワークデバイス５２０、または両方上に実装され得る。例えば、アプリケーションは、ソフトウェアまたは実行可能命令の組として実装され得、それらは、ユーザデバイス５５０、ネットワークデバイス５２０、または両方の記憶装置に記憶され、それぞれのデバイスの制御回路によって実行され得る。いくつかの実施形態では、アプリケーションは、クライアント／サーバベースのアプリケーションとして実装されるオーディオ記録アプリケーション、発話→テキストアプリケーション、テキスト→発話アプリケーション、音声－認識アプリケーション、またはそれらの組み合わせを含み得、クライアントアプリケーションのみが、ユーザデバイス５５０上に常駐し、サーバアプリケーションは、遠隔サーバ（例えば、ネットワークデバイス５２０）上に常駐する。例えば、アプリケーションは、部分的に、クライアントアプリケーションとして、ユーザデバイス５５０上に（例えば、ユーザデバイス５５０の制御回路によって）、部分的に、遠隔サーバ上に、遠隔サーバの制御回路（例えば、ネットワークデバイス５２０の制御回路）上で起動するサーバアプリケーションとして、実装され得る。遠隔サーバの制御回路によって実行されると、アプリケーションは、ディスプレイを生成し、生成されたディスプレイをユーザデバイス５５０に伝送するように制御回路に命令し得る。サーバアプリケーションは、ユーザデバイス５５０上への記憶のためにデータを伝送するように遠隔デバイスの制御回路に命令し得る。クライアントアプリケーションは、アプリケーションディスプレイを生成するように受信側ユーザデバイスの制御回路に命令し得る。

【0042】

いくつかの実施形態では、システム５００の配置は、クラウドベースの配置である。クラウドは、例の中でもとりわけ、情報記憶、検索、メッセージング、またはソーシャルネットワーキングサービス等のサービスへのアクセス、およびユーザデバイスに関して上記に説明される任意のコンテンツへのアクセスを提供する。サービスは、クラウド－コンピューティングサービスプロバイダを通して、またはオンラインサービスの他のプロバイダを通して、クラウド内に提供されることができる。例えば、クラウドベースのサービスは、ユーザソースコンテンツが接続されるデバイス上での他者による視聴のために配信される記憶サービス、共有サイト、ソーシャルネットワーキングサイト、検索エンジン、または他のサービスを含むことができる。これらのクラウドベースのサービスは、ユーザデバイスが、情報をローカルで記憶し、ローカルで記憶された情報にアクセスするのではなく、情報をクラウドに記憶し、情報をクラウドから受信することを可能にし得る。クラウドリソースは、例えば、ウェブブラウザ、メッセージングアプリケーション、ソーシャルメディアアプリケーション、デスクトップアプリケーション、またはモバイルアプリケーションを使用して、ユーザデバイスによってアクセスされ得、オーディオ記録アプリケーション、発話→テキストアプリケーション、テキスト→発話アプリケーション、音声－認識アプリケーション、および／またはそれらのアクセスアプリケーションの任意の組み合わせを含み得る。ユーザデバイス５５０は、アプリケーション配信のためにクラウドコンピューティングに依拠するクラウドクライアントであり得るか、または、ユーザデバイス５５０は、クラウドリソースへのアクセスを伴わずに、いくつかの機能性を有し得る。例えば、ユーザデバイス５５０上で起動するいくつかのアプリケーションは、クラウドアプリケーション（例えば、インターネットを経由してサービスとして配信されるアプリケーション）であり得る一方、他のアプリケーションは、ユーザデバイス５５０上で記憶および起動され得る。いくつかの実施形態では、ユーザデバイス５５０は、複数のクラウドリソースからの情報を同時に受信し得る。

【0043】

例証的例では、ユーザは、音声クエリをユーザデバイス５５０に発話し得る。音声クエリは、ユーザデバイス５５０のオーディオインターフェースによって記録され、アプリケーション５６０によってサンプリングおよびデジタル化され、アプリケーション５６０によってテキストクエリに変換される。アプリケーション５６０は、テキストクエリとともに、発音も含み得る。例えば、テキストクエリの１つ以上の単語が、適切なスペルではなく、音素記号によって表され得る。さらなる例では、発音メタデータは、テキストクエリの１つ以上の単語の音素表現を含むテキストクエリとともに記憶され得る。いくつかの実施形態では、アプリケーション５６０は、エンティティ、コンテンツ、メタデータ、またはそれらの組み合わせのデータベースの中を検索するために、テキストクエリおよび任意の好適な発音情報をネットワークデバイス５２０に伝送する。ネットワークデバイス５２０は、テキストクエリに関連付けられたエンティティ、テキストクエリに関連付けられたコンテンツ、または両方を識別し、その情報をユーザデバイス５５０に提供し得る。

【0044】

例えば、ユーザは、「ＴｏｍＣｒｕｉｓｅの映画を見せて」とユーザデバイス５５０のマイクロホンに発話し得る。アプリケーション５６０は、テキストクエリ「ＴｏｍＣｒｕｉｓｅの映画」を生成し、テキストクエリをネットワークデバイス５２０に伝送し得る。ネットワークデバイス５２０は、エンティティ「ＴｏｍＣｒｕｉｓｅ」を識別し、次いで、エンティティにリンクされる映画を識別し得る。ネットワークデバイス５２０は、次いで、コンテンツ（例えば、ビデオファイル、トレーラ、またはクリップ）、コンテンツ識別子（例えば、映画タイトルおよび画像）、コンテンツアドレス（例えば、ＵＲＬ、ウェブサイト、またはＩＰアドレス）、任意の他の好適な情報、またはそれらの任意の組み合わせをユーザデバイス５５０に伝送し得る。「Ｔｏｍ」および「Ｃｒｕｉｓｅ」の発音は、概して、曖昧ではないので、アプリケーション５６０は、この状況では、発音情報を生成する必要はない。

【0045】

さらなる例では、ユーザは、「Ｌｏｕｉｓとのインタビューを見せて」とユーザデバイス５５０のマイクロホンに発話し得、ユーザは、名前Ｌｏｕｉｓを「ｌｏｏ－ｉｈｓ」ではなく、「ｌｏｏ－ｅｅ」と発音する。いくつかの実施形態では、アプリケーション５６０は、テキストクエリ「Ｌｏｕｉｓとのインタビュー」を生成し、「ｌｏｏ－ｅｅ」としての音素表現を含むメタデータとともに、テキストクエリをネットワークデバイス５２０に伝送し得る。いくつかの実施形態では、アプリケーション５６０は、テキストクエリ「Ｌｏｏ－ｅｅとのインタビュー」を生成し、テキストクエリをネットワークデバイス５２０に伝送し得、テキストクエリ自体は、発音情報（例えば、この例では、音素表現）を含む。名前Ｌｏｕｉｓは、一般的であるので、この識別子を含む、多くのエンティティが存在し得る。いくつかの実施形態では、ネットワークデバイス５２０は、「ｌｏｏ－ｅｅ」を音素表現として有する発音タグを含むメタデータを有するエンティティを識別し得る。いくつかの実施形態では、ネットワークデバイス５２０は、トレンド検索、ユーザの検索履歴、または他のコンテキスト情報を読み出し、ユーザが指す可能性が高いエンティティを識別し得る。例えば、ユーザは、「ＦＢＩ」を以前に検索していることもあり、エンティティＬｏｕｉｓＦｒｅｅｈ（例えば、ＦＢＩの前長官）は、「ＦＢＩ」に関するタグを含むメタデータを含み得る。エンティティが、識別されると、ネットワークデバイス５２０は、次いで、コンテンツ（例えば、インタビューのビデオファイルまたはクリップ）、コンテンツ識別子（例えば、インタビューからのファイルタイトルおよび静止画像）、コンテンツアドレス（例えば、インタビューの１つ以上のビデオファイルをストリーミングするためのＵＲＬ、ウェブサイト、またはＩＰアドレス）、ＬｏｕｉｓＦｒｅｅｈに関連する任意の他の好適な情報、またはそれらの任意の組み合わせをユーザデバイス５５０に伝送し得る。「Ｌｏｕｉｓ」の発音は、曖昧であり得るので、アプリケーション５６０は、そのような状況では、発音情報を生成し得る。

【0046】

例証的例では、ユーザは、「ＷｉｌｌｉａｍＤｊｏｋｏ」とユーザデバイス５５０のマイクロホンに発話し得る。アプリケーション５６０は、エンティティの正しいスペルに対応していないこともあるテキストクエリを生成し得る。例えば、音声クエリ「ＷｉｌｌｉａｍＤｊｏｋｏ」は、「Ｗｉｌｌｉａｍｇｊｏｋａ」として、テキストに変換され得る。この正しくないテキスト変換は、正しいエンティティを識別することにおいて困難をもたらし得る。いくつかの実施形態では、エンティティＷｉｌｌｉａｍＤｊｏｋｏに関連付けられたメタデータは、発音に基づく代替表現を含む。エンティティ「ＷｉｌｌｉａｍＤｊｏｋｏ」に関するメタデータは、表１に示されるように、発音タグ（例えば、「関連語句」）を含み得る。

【表3】

テキストクエリは、正しくないスペルを含み得るが、正しいエンティティに関連付けられたメタデータが、変形例を含むので、正しいエンティティが、識別され得る。故に、ネットワークデバイス５２０は、代替表現を含むエンティティ情報を含み得、したがって、語句「Ｗｉｌｌｉａｍｇｊｏｋａ」を含むテキストクエリに応答して、正しいエンティティを識別し得る。エンティティが、識別されると、ネットワークデバイス５２０は、次いで、コンテンツ（例えば、オーディオまたはビデオファイルクリップ）、コンテンツ識別子（例えば、曲またはアルバムタイトルおよびコンサートからの静止画像）、コンテンツアドレス（例えば、音楽の１つ以上のオーディオファイルをストリーミングするためのＵＲＬ、ウェブサイト、またはＩＰアドレス）、ＷｉｌｌｉａｍＤｊｏｋｏに関連する任意の他の好適な情報、またはそれらの任意の組み合わせをユーザデバイス５５０に伝送し得る。名前「Ｄｊｏｋｏ」は、発話から正しくなく変換され得るので、アプリケーション５６０は、そのような状況では、正しいエンティティを識別するための発音情報をメタデータ内への記憶のために生成し得る。

【0047】

上記の例証的例では、エンティティＷｉｌｌｉａｍＤｊｏｋｏの到達可能性は、特に、ＡＳＲプロセスがエンティティ名の文法的に正しくないテキスト変換をもたらし得るので、代替表現を記憶することによって改良される。

【0048】

例証的例では、メタデータは、ユーザの音声クエリに応答してではなく、（例えば、テキストクエリまたは他の検索および読み出しプロセスによる）後の参照のために、発音に基づいて生成され得る。いくつかの実施形態では、ネットワークデバイス５２０、ユーザデバイス５５０、または両方は、発音情報に基づいて、メタデータを生成し得る。例えば、ユーザデバイス５５０は、エンティティの代替表現のユーザ入力を受信し得る（例えば、前の検索結果または発話→テキスト変換に基づいて）。いくつかの実施形態では、ネットワークデバイス５２０、ユーザデバイス５５０、または両方は、テキスト→発話モジュールおよび発話→テキストモジュールを使用して、エンティティに関するメタデータを自動的に生成し得る。例えば、アプリケーション５６０は、エンティティのテキスト表現（例えば、エンティティの名前のテキスト文字列）を識別し、テキスト表現をテキスト→発話モジュールに入力し、オーディオファイルを生成し得る。いくつかの実施形態では、テキスト→発話モジュールは、１つ以上の設定または基準（それらを用いてオーディオファイルが生成される）を含む。例えば、設定または基準は、言語（例えば、英語、スペイン語、マンダリン）、アクセント（例えば、地方または言語ベース）、音声（例えば、特定の人の音声、男性音声、女性音声）、速度（例えば、オーディオファイルの関連部分の再生時間）、発音（例えば、複数の音素変形例に関して）、任意の他の好適な設定または基準、またはそれらの任意の組み合わせを含み得る。アプリケーション５６０は、次いで、オーディオファイルを発話→テキストモジュールに入力し、結果として生じるテキスト表現を生成する。結果として生じるテキスト表現が、元のテキスト表現と同一でない場合、アプリケーション５６０は、結果として生じるテキスト表現をエンティティに関連付けられたメタデータに記憶し得る。いくつかの実施形態では、アプリケーション５６０は、種々の設定または基準のためのこのプロセスを繰り返し、したがって、メタデータに記憶され得る種々のテキスト表現を生成し得る。結果として生じるメタデータは、可能性が高い変形例を予想するためのテキスト－発話－テキスト変換を使用して生成された変形例とともに、元のテキスト表現を含む。故に、アプリケーション５６０が、音声クエリをユーザから受信し、テキストへの転換が、エンティティ識別子に正確に合致しないとき、アプリケーション５６０は、依然として、正しいエンティティを識別し得る。さらに、アプリケーション５６０は、メタデータが変形例を含むので、発音情報に関してテキストクエリを分析する必要はない（例えば、分析は、リアルタイムでではなく、事前に実施される）。

【0049】

アプリケーション５６０は、例えば、オーディオ記録、発話認識、発話→テキスト変換、テキスト→発話変換、クエリ生成、検索エンジン機能性、コンテンツ読み出し、ディスプレイ生成、コンテンツ提示、メタデータ生成、データベース機能性、またはそれらの組み合わせ等の任意の好適な機能性を含み得る。いくつかの実施形態では、アプリケーション５６０の側面は、２つ以上のデバイスを横断して実装される。いくつかの実施形態では、アプリケーション５６０は、単一デバイス上に実装される。例えば、エンティティ情報５２１、５２２、および５２３は、ユーザデバイス５５０のメモリ記憶装置に記憶され得、アプリケーション５６０によってアクセスされ得る。

【0050】

図６は、本開示のいくつかの実施形態による、発音情報に基づいて音声クエリに応答するための例証的プロセス６００のフローチャートを示す。例えば、クエリアプリケーションは、図４のユーザデバイス４００、図４のユーザ機器システム４０１、図５のユーザデバイス５５０、図５のネットワークデバイス５２０、任意の他の好適なデバイス、またはそれらの任意の組み合わせ等の任意の好適なハードウェア上に実装されたプロセス６００を実施し得る。さらなる例では、クエリアプリケーションは、図５のアプリケーション５６０のインスタンスであり得る。

【0051】

ステップ６０２では、クエリアプリケーションが、音声クエリを受信する。いくつかの実施形態では、オーディオインターフェース（例えば、オーディオ機器４１４、ユーザ入力インターフェース４１０、またはそれらの組み合わせ）は、オーディオ入力を受信し、電子信号を生成するマイクロホンまたは他のセンサを含み得る。いくつかの実施形態では、オーディオ入力は、アナログセンサにおいて受信され、アナログセンサは、アナログ信号を提供し、アナログ信号は、オーディオファイルを生成するために、調整、サンプリング、デジタル化される。オーディオファイルは、次いで、ステップ６０４および６０６において、クエリアプリケーションによって分析され得る。いくつかの実施形態では、オーディオファイルは、メモリ（例えば、記憶装置４０８）に記憶される。いくつかの実施形態では、クエリアプリケーションは、ユーザインターフェース（例えば、ユーザ入力インターフェース４１０）を含み、それは、ユーザが、オーディオ記録を記録、再生、改変、クロッピング、可視化、または別様に管理することを可能にする。例えば、いくつかの実施形態では、オーディオインターフェースは、常時、オーディオ入力を受信するように構成される。さらなる例では、いくつかの実施形態では、オーディオインターフェースは、ユーザが指示をユーザに入力インターフェースに提供すると（例えば、タッチスクリーン上のソフトボタンを選択し、オーディオ記録を開始することによって）、オーディオ入力を受信するように構成される。さらなる例では、いくつかの実施形態では、オーディオインターフェースは、オーディオ入力を受信し、発話または他の好適なオーディオ信号が検出されると、記録を開始するように構成される。クエリアプリケーションは、オーディオ入力を記憶されたオーディオファイルに変換するために、任意の好適な調整ソフトウェアまたはハードウェアを含み得る。例えば、クエリアプリケーションは、１つ以上のフィルタ（例えば、低域通過、高域通過、ノッチフィルタ、または帯域通過フィルタ）、増幅器、デジメータ、または他の調整を適用し、オーディオファイルを生成し得る。さらなる例では、クエリアプリケーションは、圧縮、転換（例えば、スペクトル変換、ウェーブレット変換）、正規化、等化、切り捨て（例えば、時間またはスペクトルドメインにおいて）、任意の他の好適な処理、またはそれらの任意の組み合わせ等の任意の好適な処理を調整された信号に適用し、オーディオファイルを生成し得る。いくつかの実施形態では、ステップ６０２において、制御回路が、別個のアプリケーションから、クエリアプリケーションの別個のモジュールから、ユーザ入力に基づいて、またはそれらの任意の組み合わせにおいて、オーディオファイルを受信する。例えば、ステップ６０２では、制御回路は、さらなる処理（例えば、プロセス６００のステップ６０４－６１２）のために、記憶装置（例えば、記憶装置４０８）に記憶されるオーディオファイルとして、音声クエリを受信し得る。

【0052】

ステップ６０４では、クエリアプリケーションが、１つ以上のキーワードをステップ６０２の音声クエリから抽出する。いくつかの実施形態では、１つ以上のキーワードは、完全な音声クエリを表し得る。いくつかの実施形態では、１つ以上のキーワードは、重要な単語または発話の一部のみを含む。例えば、いくつかの実施形態では、クエリアプリケーションは、発話内の単語を識別し、それらの単語のうちのいくつかをキーワードとして選択し得る。例えば、クエリアプリケーションは、単語を識別し、それらの単語の中から、前置詞ではない単語を選択し得る。さらなる例では、クエリアプリケーションは、キーワードとして、少なくとも３つの文字長の単語のみを識別し得る。さらなる例では、クエリアプリケーションは、キーワードを２つ以上の単語を含む語句として識別し得（例えば、より記述的であり、より多くのコンテキストを提供するために）、それは、関連コンテンツの潜在的検索フィールドを絞り込むために有用であり得る。いくつかの実施形態では、クエリアプリケーションは、オーディオ入力からキーワードを識別するための任意の好適な基準を使用して、例えば、単語、語句、名前、場所、チャネル、メディアアセットタイトル、または他のキーワード等のキーワードを識別する。クエリアプリケーションは、任意の好適な単語検出技法、発話検出技法、パターン認識技法、信号処理技法、またはそれらの任意の組み合わせを使用して、単語を処理し得る。例えば、クエリアプリケーションは、一連の信号テンプレートをオーディオ信号の一部と比較し、合致が存在するかどうか（例えば、特定の単語がオーディオ信号に含まれるかどうか）を見出し得る。さらなる例では、クエリアプリケーションは、学習技法を適用し、音声クエリ内の単語をより良好に認識し得る。例えば、クエリアプリケーションは、複数のクエリとの関連で、複数の要求されるコンテンツ項目に関するフィードバックをユーザから集め、故に、推奨を行い、コンテンツを読み出すために、過去のデータを訓練セットとして使用し得る。いくつかの実施形態では、クエリアプリケーションは、検出された発話中、記録されたオーディオのスニペット（すなわち、短持続時間のクリップ）を記憶し、スニペットを処理し得る。いくつかの実施形態では、クエリアプリケーションは、発話の比較的に大きなセグメント（例えば、１０秒を上回る）をオーディオファイルとして記憶し、ファイルを処理する。いくつかの実施形態では、クエリアプリケーションは、発話を処理し、継続的な計算を使用することによって、単語を検出し得る。例えば、ウェーブレット変換が、リアルタイムで、発話に実施され、若干の時間の遅れがあっても、発話パターンの継続的な計算（例えば、単語を識別するための参照と比較され得る）を提供し得る。いくつかの実施形態では、クエリアプリケーションは、本開示に従って、単語および単語を発声したユーザ（例えば、音声認識）を検出し得る。

【0053】

いくつかの実施形態では、ステップ６０４において、クエリアプリケーションは、検出された単語をクエリ内で検出された単語のリストに追加する。いくつかの実施形態では、クエリアプリケーションは、これらの検出された単語をメモリに記憶し得る。例えば、クエリアプリケーションは、メモリに、ＡＳＣＩＩ文字の集合（すなわち、８ビットコード）、パターン（例えば、単語を合致させるために使用される発話信号基準を示す）、識別子（例えば、単語のためのコード）、文字列、任意の他のデータタイプ、またはそれらの任意の組み合わせとして、単語を記憶し得る。いくつかの実施形態では、メディアガイドアプリケーションは、単語が検出されるにつれて、単語をメモリに追加し得る。例えば、メディアガイドアプリケーションは、以前に検出された単語の文字列に新しく検出された単語を付加すること、新しく検出された単語を以前に検出された単語のセルアレイに追加すること（例えば、セルアレイサイズを１増加させる）、新しく検出された単語に対応する新しい変形例を作成すること、新しく作成された単語に対応する新しいファイルを作成すること、または、ステップ６０４において検出された１つ以上の単語を記憶することを行い得る。

【0054】

ステップ６０６では、クエリアプリケーションが、ステップ６０４の１つ以上のキーワードに関する発音情報を決定する。いくつかの実施形態では、発音情報は、１つ以上のキーワードの音素表現（例えば、国際音声記号を使用する）を含む。いくつかの実施形態では、発音情報は、発音を組み込むための１つ以上のキーワードの１つ以上の代替スペルを含む。いくつかの実施形態では、ステップ６０６では、制御回路が、音素表現を含むテキストクエリに関連付けられたメタデータを生成する。

【0055】

ステップ６０８では、クエリアプリケーションが、ステップ６０４の１つ以上のキーワードおよびステップ６０６の発音情報に基づいて、テキストクエリを生成する。クエリアプリケーションは、１つ以上のキーワードを好適な順序で（例えば、発話された順序で）配置することによって、テキストクエリを生成し得る。いくつかの実施形態では、クエリアプリケーションは、音声クエリの１つ以上の単語（例えば、短単語、前置詞、または比較的にあまり重要ではないと決定された任意の他の単語）を省略し得る。テキストクエリは、ファイル（例えば、テキストファイル）として生成され、好適な記憶装置（例えば、記憶装置４０８）に記憶され得る。

【0056】

ステップ６１０では、クエリアプリケーションが、テキストクエリおよびエンティティに関する記憶されたメタデータに基づいて、データベースの複数のエンティティの中のエンティティを識別する。いくつかの実施形態では、メタデータは、発音タグを含む。いくつかの実施形態では、クエリアプリケーションは、エンティティに対応するコンテンツ項目のメタデータタグを識別することによって、エンティティを識別し得る。例えば、コンテンツ項目は、映画内の俳優に関するタグを有する映画を含み得る。テキストクエリが俳優を含む場合、クエリアプリケーションは、合致を決定し得、合致に基づいて、コンテンツ項目に関連付けられているとして、エンティティを識別し得る。例証するために、クエリアプリケーションは、最初に、エンティティを識別し（例えば、エンティティの中を検索し）、次いで、エンティティに関連付けられたコンテンツを読み出し得るか、または、クエリアプリケーションは、最初に、コンテンツを識別し（例えば、コンテンツの中を検索し）、コンテンツに関連付けられたエンティティがテキストクエリに合致するかどうかを決定し得る。エンティティ別に、コンテンツ別に、またはその両方で配置されているデータベースが、クエリアプリケーションによって検索され得る。

【0057】

いくつかの実施形態では、クエリアプリケーションは、ユーザプロファイル情報に基づいて、エンティティを識別する。例えば、クエリアプリケーションは、前の音声クエリからの既に識別されたエンティティに基づいて、エンティティを識別し得る。さらなる例では、クエリアプリケーションは、エンティティに関連付けられた人気情報に基づいて（例えば、複数のユーザに関する検索に基づいて）、エンティティを識別し得る。いくつかの実施形態では、クエリアプリケーションは、ユーザの選好に基づいて、エンティティを識別する。例えば、１つ以上のキーワードがユーザプロファイル情報の好ましいエンティティ名または識別子に合致する場合、クエリアプリケーションは、そのエンティティを識別するか、または、そのエンティティにより重く重み付けし得る。

【0058】

いくつかの実施形態では、クエリアプリケーションは、複数のエンティティを識別すること（例えば、各エンティティに関して記憶されたメタデータを用いて）と、それぞれの発音タグをテキストクエリと比較することに基づいて、複数のエンティティの各それぞれのエンティティに関して、それぞれのスコアを決定することと、最大スコアを決定することによって、エンティティを選択することとによって、エンティティを識別する。スコアは、テキストクエリのキーワードとエンティティまたはコンテンツ項目に関連付けられたメタデータとの間で識別された合致の数に基づき得る。

【0059】

いくつかの実施形態では、クエリアプリケーションは、テキストクエリに基づいて、複数のエンティティの中の２つ以上のエンティティ（例えば、関連付けられたメタデータ）を識別する。クエリアプリケーションは、クエリのエンティティのいくつかまたは全てに関連付けられたコンテンツ項目を識別し得る。いくつかの実施形態では、クエリアプリケーションは、テキストクエリの少なくとも一部を各エンティティに関して記憶されたメタデータのタグと比較し、合致を識別することによって、エンティティを識別する。

【0060】

ステップ６１２では、クエリアプリケーションは、エンティティに関連付けられたコンテンツ項目を読み出す。いくつかの実施形態では、クエリアプリケーションは、コンテンツ項目を識別すること、コンテンツ項目をダウンロードすること、コンテンツ項目をストリーミングすること、表示のためにコンテンツ項目を生成すること、または、それらの組み合わせを行う。例えば、音声クエリは、「最近のＴｏｍＣｒｕｉｓｅの映画を見せて」を含み得、クエリアプリケーションは、ユーザがビデオコンテンツを視聴するために選択し得る映画「ＭｉｓｓｉｏｎＩｍｐｏｓｓｉｂｌｅ：Ｆａｌｌｏｕｔ」へのリンクを提供し得る。いくつかの実施形態では、クエリアプリケーションは、テキストクエリに合致するエンティティに関連付けられた複数のコンテンツを読み出し得る。例えば、クエリアプリケーションは、本開示に従って、複数のリンク、ビデオファイル、オーディオファイル、または他のコンテンツ、または識別されたコンテンツ項目のリストを読み出し得る。

【0061】

図７は、本開示のいくつかの実施形態による、代替表現に基づいて音声クエリに応答するための例証的プロセス７００のフローチャートを示す。例えば、クエリアプリケーションは、図４のユーザデバイス４００、図４のユーザ機器システム４０１、図５のユーザデバイス５５０、図５のネットワークデバイス５２０、任意の他の好適なデバイス、またはそれらの任意の組み合わせ等の任意の好適なハードウェア上に実装されるプロセス７００を実施し得る。さらなる例では、クエリアプリケーションは、図５のアプリケーション５６０のインスタンスであり得る。

【0062】

ステップ７０２では、クエリアプリケーションが、音声クエリを受信する。いくつかの実施形態では、オーディオインターフェース（例えば、オーディオ機器４１４、ユーザ入力インターフェース４１０、またはそれらの組み合わせ）は、オーディオ入力を受信し、電子信号を生成するマイクロホンまたは他のセンサを含み得る。いくつかの実施形態では、オーディオ入力は、アナログセンサにおいて受信され、アナログセンサは、アナログ信号を提供し、アナログ信号は、オーディオファイルを生成するために、調整、サンプリング、デジタル化される。オーディオファイルは、次いで、ステップ７０４において、クエリアプリケーションによって分析され得る。いくつかの実施形態では、オーディオファイルは、メモリ（例えば、記憶装置４０８）に記憶される。いくつかの実施形態では、クエリアプリケーションは、ユーザインターフェース（例えば、ユーザ入力インターフェース４１０）を含み、それは、ユーザが、オーディオ記録を記録、再生、改変、クロッピング、可視化、または別様に管理することを可能にする。例えば、いくつかの実施形態では、オーディオインターフェースは、常時、オーディオ入力を受信するように構成される。さらなる例では、いくつかの実施形態では、オーディオインターフェースは、ユーザが指示をユーザインターフェースに提供する（例えば、タッチスクリーン上のソフトボタンを選択し、オーディオ記録を開始することによって）と、オーディオ入力を受信するように構成される。さらなる例では、いくつかの実施形態では、オーディオインターフェースは、オーディオ入力を受信し、発話または他の好適なオーディオ信号が検出されると、記録を開始するように構成される。クエリアプリケーションは、オーディオ入力を記憶されたオーディオファイルに変換するための任意の好適な調整ソフトウェアまたはハードウェアを含み得る。例えば、クエリアプリケーションは、１つ以上のフィルタ（例えば、低域通過、高域通過、ノッチフィルタ、または帯域通過フィルタ）、増幅器、デジメータ、または他の調整を適用し、オーディオファイルを生成し得る。さらなる例では、クエリアプリケーションは、圧縮、転換（例えば、スペクトル変換、ウェーブレット変換）、正規化、等化、切り捨て（例えば、時間またはスペクトルドメインにおいて）、任意の他の好適な処理、またはそれらの任意の組み合わせ等の任意の好適な処理を調整された信号に適用し、オーディオファイルを生成し得る。いくつかの実施形態では、ステップ７０２では、制御回路が、別個のアプリケーションから、クエリアプリケーションの別個のモジュールから、ユーザ入力に基づいて、またはそれらの任意の組み合わせにおいてオーディオファイルを受信する。例えば、ステップ７０２は、さらなる処理（例えば、プロセス７００のステップ７０４－７１０）のために、記憶装置（例えば、記憶装置４０８）に記憶されるオーディオファイルとして、音声クエリを受信することを含み得る。

【0063】

ステップ７０４では、クエリアプリケーションが、１つ以上のキーワードをステップ７０２の音声クエリから抽出する。いくつかの実施形態では、１つ以上のキーワードは、完全な音声クエリを表し得る。いくつかの実施形態では、１つ以上のキーワードは、重要な単語または発話の一部のみを含む。例えば、いくつかの実施形態では、クエリアプリケーションは、発話内の単語を識別し、それらの単語のうちのいくつかをキーワードとして選択し得る。例えば、クエリアプリケーションは、単語を識別し、それらの単語の中から、前置詞ではない単語を選択し得る。さらなる例では、クエリアプリケーションは、キーワードとして、少なくとも３つの文字長の単語のみを識別し得る。さらなる例では、クエリアプリケーションは、キーワードを２つ以上の単語を含む語句として識別し得（例えば、より記述的であり、より多くのコンテキストを提供するために）、それは、関連コンテンツの潜在的検索フィールドを絞り込むために有用であり得る。いくつかの実施形態では、クエリアプリケーションは、オーディオ入力からキーワードを識別するための任意の好適な基準を使用して、例えば、単語、語句、名前、場所、チャネル、メディアアセットタイトル、または他のキーワード等のキーワードを識別する。クエリアプリケーションは、任意の好適な単語検出技法、発話検出技法、パターン認識技法、信号処理技法、またはそれらの任意の組み合わせを使用して、単語を処理し得る。例えば、クエリアプリケーションは、一連の信号テンプレートをオーディオ信号の一部と比較し、合致が存在するかどうか（例えば、特定の単語がオーディオ信号に含まれるかどうか）を見出し得る。さらなる例では、クエリアプリケーションは、学習技法を適用し、音声クエリ内の単語をより良好に認識し得る。例えば、クエリアプリケーションは、複数のクエリとの関連で、複数の要求されるコンテンツ項目に関するフィードバックをユーザから集め、故に、推奨を行い、コンテンツを読み出すために、過去のデータを訓練セットとして使用し得る。いくつかの実施形態では、クエリアプリケーションは、検出された発話中、記録されたオーディオのスニペット（すなわち、短持続時間のクリップ）を記憶し、スニペットを処理し得る。いくつかの実施形態では、クエリアプリケーションは、発話の比較的に大きなセグメント（例えば、１０秒を上回る）をオーディオファイルとして記憶し、ファイルを処理する。いくつかの実施形態では、クエリアプリケーションは、発話を処理し、継続的な計算を使用することによって、単語を検出し得る。例えば、ウェーブレット変換が、リアルタイムで、発話に実施され、若干の時間の遅れがあっても、発話パターンの継続的な計算（例えば、単語を識別するための参照と比較され得る）を提供し得る。いくつかの実施形態では、クエリアプリケーションは、本開示に従って、単語および単語を発声したユーザ（例えば、音声認識）を検出し得る。

【0064】

いくつかの実施形態では、ステップ７０４において、クエリアプリケーションは、検出された単語をクエリ内で検出された単語のリストに追加する。いくつかの実施形態では、クエリアプリケーションは、これらの検出された単語をメモリに記憶し得る。例えば、クエリアプリケーションは、メモリに、ＡＳＣＩＩ文字の集合（すなわち、８ビットコード）、パターン（例えば、単語を合致させるために使用される発話信号基準を示す）、識別子（例えば、単語のためのコード）、文字列、任意の他のデータタイプ、またはそれらの任意の組み合わせとして、単語を記憶し得る。いくつかの実施形態では、メディアガイドアプリケーションは、単語が検出されるにつれて、単語をメモリに追加し得る。例えば、メディアガイドアプリケーションは、以前に検出された単語の文字列に新しく検出された単語を付加すること、新しく検出された単語を以前に検出された単語のセルアレイに追加すること（例えば、セルアレイサイズを１増加させる）、新しく検出された単語に対応する新しい変形例を作成すること、新しく作成された単語に対応する新しいファイルを作成すること、または、ステップ７０４において検出された１つ以上の単語を記憶することを行い得る。

【0065】

ステップ７０６では、クエリアプリケーションが、ステップ７０４の１つ以上のキーワードに基づいて、テキストクエリを生成する。クエリアプリケーションは、１つ以上のキーワードを好適な順序で（例えば、発話された順序で）配置することによって、テキストクエリを生成し得る。いくつかの実施形態では、クエリアプリケーションは、音声クエリの１つ以上の単語（例えば、短単語、前置詞、または比較的にあまり重要ではないと決定された任意の他の単語）を省略し得る。テキストクエリは、ファイル（例えば、テキストファイル）として生成され、好適な記憶装置（例えば、記憶装置４０８）に記憶され得る。

【0066】

ステップ７０８では、クエリアプリケーションが、テキストクエリおよびエンティティに関するメタデータに基づいて、エンティティを識別する。メタデータは、発音に基づくエンティティの代替テキスト表現を含む。いくつかの実施形態では、クエリアプリケーションは、エンティティの代替表現に対応するコンテンツ項目のメタデータタグを識別することによって、エンティティを識別し得る。例えば、コンテンツ項目は、映画内の俳優に関するタグを有する映画を含み得、タグは、（例えば、システム３００等のシステムから導出されるか、または別様にメタデータに含まれる）代替スペルを含む。テキストクエリが、俳優を含む場合、クエリアプリケーションは、合致を決定し得、合致に基づいて、コンテンツ項目に関連付けられているとして、エンティティを識別し得る。例証するために、クエリアプリケーションは、最初に、エンティティを識別し（例えば、エンティティの中を検索し）、次いで、エンティティに関連付けられたコンテンツを読み出し得るか、または、クエリアプリケーションは、最初に、コンテンツを識別し（例えば、コンテンツの中を検索し）、コンテンツに関連付けられたエンティティがテキストクエリに合致するかどうかを決定し得る。エンティティ別に、コンテンツ別に、またはその両方で配置されているデータベースが、クエリアプリケーションによって検索され得る。クエリアプリケーションは、テキストクエリの１つ以上の単語がエンティティの代替表現（例えば、エンティティに関連付けられたメタデータに記憶されるような）に合致するとき、合致を決定し得る。

【0067】

いくつかの実施形態では、クエリアプリケーションは、ユーザプロファイル情報に基づいて、エンティティを識別する。例えば、クエリアプリケーションは、前の音声クエリからの既に識別されたエンティティに基づいて、エンティティを識別し得る。さらなる例では、クエリアプリケーションは、エンティティに関連付けられた人気情報に基づいて（例えば、複数のユーザに関する検索に基づいて）、エンティティを識別し得る。いくつかの実施形態では、クエリアプリケーションは、ユーザの選好に基づいて、エンティティを識別する。例えば、１つ以上のキーワードがユーザプロファイル情報の好ましいエンティティ名または識別子の代替表現に合致する場合、クエリアプリケーションは、そのエンティティを識別するか、または、そのエンティティにより重く重み付けし得る。

【0068】

いくつかの実施形態では、クエリアプリケーションは、複数のエンティティ（例えば、各エンティティに関して記憶されたメタデータを伴う）を識別することと、それぞれのメタデータをテキストクエリと比較することに基づいて、複数のエンティティの各それぞれのエンティティに関して、それぞれのスコアを決定することと、最大スコアを決定することによって、エンティティを選択することとによって、エンティティを識別する。スコアは、テキストクエリのキーワードとエンティティまたはコンテンツ項目に関連付けられたメタデータとの間で識別された合致の数に基づき得る。

【0069】

【0070】

ステップ７１０では、クエリアプリケーションは、エンティティに関連付けられたコンテンツ項目を読み出す。いくつかの実施形態では、クエリアプリケーションは、コンテンツ項目を識別すること、コンテンツ項目をダウンロードすること、コンテンツ項目をストリーミングすること、表示のためにコンテンツ項目を生成すること、または、それらの組み合わせを行う。例えば、音声クエリは、「最近のＴｏｍＣｒｕｉｓｅの映画を見せて」を含み得、クエリアプリケーションは、ユーザがビデオコンテンツを視聴するために選択し得る映画「ＭｉｓｓｉｏｎＩｍｐｏｓｓｉｂｌｅ：Ｆａｌｌｏｕｔ」へのリンクを提供し得る。いくつかの実施形態では、クエリアプリケーションは、テキストクエリに合致するエンティティに関連付けられた複数のコンテンツを読み出し得る。例えば、クエリアプリケーションは、本開示に従って、複数のリンク、ビデオファイル、オーディオファイル、または他のコンテンツ、または識別されたコンテンツ項目のリストを読み出し得る。

【0071】

図８は、本開示のいくつかの実施形態による、発音に基づいてエンティティに関するメタデータを生成するための例証的プロセス８００のフローチャートを示す。例えば、アプリケーションは、図４のユーザデバイス４００、図４のユーザ機器システム４０１、図５のユーザデバイス５５０、図５のネットワークデバイス５２０、任意の他の好適なデバイス、またはそれらの任意の組み合わせ等の任意の好適なハードウェア上に実装されたプロセス８００を実施し得る。さらなる例では、アプリケーションは、図５のアプリケーション５８０のインスタンスであり得る。さらなる例では、図３のシステム３００が、例証的プロセス８００を実施し得る。

【0072】

ステップ８０２では、アプリケーションが、複数のエンティティのうちの情報が記憶されているエンティティを識別する。いくつかの実施形態では、アプリケーションは、所定の順序に基づいて、エンティティを選択する。例えば、アプリケーションは、エンティティをアルファベット順で選択し、プロセス８００の一部を実施し得る。いくつかの実施形態では、アプリケーションは、エンティティに関するメタデータが作成されると、エンティティを識別する。例えば、アプリケーションは、エンティティがデータベース（例えば、エンティティのデータベース）に追加されると、エンティティを識別し得る。いくつかの実施形態では、アプリケーションは、検索動作が、エンティティを誤識別し、故に、代替表現が、さらなる誤識別を防止するために所望され得るとき、エンティティを識別する。いくつかの実施形態では、アプリケーションは、ユーザ入力に基づいて、エンティティを識別する。例えば、ユーザは、アプリケーションに、正しくない検索結果、到達不能エンティティ、または検索結果内で観察されるエラーに基づいて、エンティティを示し得る（例えば、好適なユーザインターフェースにおいて）。いくつかの実施形態では、アプリケーションは、検索結果におけるエラーまたは所定の順序に応答してエンティティを識別する必要はない。例えば、アプリケーションは、エンティティデータベースのエンティティをランダムに選択し、ステップ８０４に進み得る。いくつかの実施形態では、アプリケーションは、検索クエリ内のエンティティの人気に基づいて、エンティティを識別し得る。例えば、より大きな検索有効性は、より多くの検索クエリが正しく応答されるように、より一般的エンティティに関する代替表現を決定することによって達成され得る。さらなる例では、アプリケーションは、あまり一般的ではない、またはさらに曖昧なエンティティを識別し、非常に少ない検索クエリがこれらのエンティティを規定し得るので、それらのエンティティの到達不能性を防止し得る。アプリケーションは、任意の好適な基準を適用し、識別すべきエンティティを決定し得る。いくつかの実施形態では、アプリケーションは、ステップ８０２において、２つ以上のエンティティを識別し得、故に、ステップ８０４－８１０は、各識別されたエンティティに関して実施され得る。いくつかの実施形態では、アプリケーションは、エンティティではなく、またはそれに加え、コンテンツ項目を識別し得る。例えば、アプリケーションは、映画等のエンティティを識別し、次いで、そのエンティティに関連付けられた全ての他の重要なエンティティを識別し、ステップ８０４－８１０を受けることもある。

【0073】

ステップ８０４では、アプリケーションが、第１のテキスト文字列および少なくとも１つの発話基準に基づいて、オーディオファイルを生成する。第１のテキスト文字列は、ステップ８０２において識別されたエンティティを記述する。例えば、図３に図示されるように、アプリケーションは、テキスト→発話エンジン３１０を含み得、それは、オーディオファイルを生成するように構成され得る。アプリケーションは、マイクロホンまたは他の好適な検出デバイスによって検出され得るスピーカまたは他の好適な音生成デバイスから出力されたオーディオを生成し得る。アプリケーションは、オーディオファイルを生成および出力することにおいて１つ以上の設定または発話基準を適用し得る。例えば、生成された「音声」の側面は、任意の好適な基準に基づいて、調整または別様に選択され得る。いくつかの実施形態では、少なくとも１つの発話基準は、発音設定（例えば、１つ以上の音節、文字群、または単語が、発音される方法、または使用されるべき音素）を含む。いくつかの実施形態では、少なくとも１つの発話基準は、言語設定（例えば、言語、アクセント、地方アクセント、または他の言語情報を規定する）を含む。

【0074】

複数の発話基準を含む例証的例では、アプリケーションは、第１のテキスト文字列およびそれぞれの発話基準に基づいて、それぞれのオーディオファイルを生成し、それぞれのオーディオファイルに基づいて、それぞれの第２のテキスト文字列を生成し、それぞれの第２のテキスト文字列を第１のテキスト文字列と比較し、第１のテキスト文字列と同一でない場合、それぞれの第２のテキスト文字列を記憶し得る（例えば、エンティティに関連付けられたメタデータ内に）。

【0075】

例証的例では、アプリケーションは、第１のテキスト文字列を第１のオーディオ信号に変換し、オーディオ信号に基づいて、発話をスピーカにおいて生成し、マイクロホンを使用して、発話を検出し、第２のオーディオ信号を生成し、オーディオ信号を処理し、オーディオファイルを生成し得る。いくつかの実施形態では、アプリケーションは、テキスト→発話モジュールの少なくとも１つの発話設定に基づいて、発話をスピーカにおいて生成する。

【0076】

ステップ８０６では、アプリケーションが、オーディオファイルに基づいて、第２のテキスト文字列を生成する。第２のテキスト文字列は、テキスト→発話変換、または発話→テキスト変換から生じ得る差異は別として、第１のテキスト文字列に合致し、ステップ８０２において識別されたエンティティを記述するべきである。例えば、図３に図示されるように、アプリケーションは、発話→テキストエンジン３２０を含み得、それは、オーディオ入力またはその生成されたファイルを受信し、オーディオを書き起こし記録（例えば、テキスト文字列）に転換するように構成され得る。アプリケーションは、オーディオ入力をマイクロホンまたは他の好適な音検出デバイスにおいて受信し得る。アプリケーションは、オーディオファイルを受信し、調整し、テキストに変換することにおいて１つ以上の設定を適用し得る。例えば、検出された「音声」を調整および転換する側面は、任意の好適な基準に基づいて、調整または別様に選択され得る。

【0077】

例証的例では、アプリケーションは、オーディオファイルの再生をスピーカにおいて生成し、マイクロホンを使用して、再生を検出し、オーディオ信号を生成し、１つ以上の単語を識別することによって、オーディオ信号を第２のテキスト文字列に変換する。いくつかの実施形態では、アプリケーションは、発話→テキストモジュールの少なくとも１つのテキスト設定に基づいて、オーディオ信号を第２のテキスト文字列に変換する。

【0078】

ステップ８０８では、アプリケーションが、第２のテキスト文字列を第１のテキスト文字列と比較する。いくつかの実施形態では、アプリケーションは、第１および第２のテキスト文字列の各文字を比較し、合致を決定する。いくつかの実施形態では、アプリケーションは、第１のテキスト文字列および第２のテキスト文字列が合致する程度（例えば、合致するテキスト文字列の割合、存在する相違の数、合致するか、または、合致しない、キーワードの数）を決定する。アプリケーションは、任意の好適な技法を使用して、第１および第２のテキスト文字列が、同一であるか、類似するか、または、異なるかと、それらが類似または異なる程度とを決定し得る。

【0079】

ステップ８１０では、アプリケーションが、第１のテキスト文字列と同一でない場合、第２のテキスト文字列を記憶する。いくつかの実施形態では、アプリケーションは、第２のテキスト文字列をエンティティに関連付けられたメタデータに記憶する。いくつかの実施形態では、ステップ８１０は、アプリケーションが、１つ以上のテキストクエリに基づいて、既存のメタデータを更新することを含む。例えば、クエリが、応答され、検索結果が、評価されると、アプリケーションは、メタデータを更新し、新しい学習を反映させ得る。第２のテキスト文字列が、第１のテキスト文字列と同一であると決定された場合、新しい情報は、第２のテキスト文字列を記憶することによって得られない。しかしながら、ステップ８０８の比較の指示は、メタデータに記憶され、音声クエリを介したエンティティの到達可能性における信頼度を増加させ得る。例えば、第２のテキスト文字列が、第１のテキスト文字列と同一である場合、それは、音声ベースのクエリに関する既存のメタデータを検証する役割を果たし得る。

【0080】

図９は、本開示のいくつかの実施形態による、音声クエリのエンティティに関連付けられたコンテンツを読み出すための例証的プロセス９００のフローチャートを示す。例えば、クエリアプリケーションは、図４のユーザデバイス４００、図４のユーザ機器システム４０１、図５のユーザデバイス５５０、図５のネットワークデバイス５２０、任意の他の好適なデバイス、またはそれらの任意の組み合わせ等の任意の好適なハードウェア上に実装されたプロセス９００を実施し得る。さらなる例では、クエリアプリケーションは、図５のアプリケーション５６０のインスタンスであり得る。

【0081】

ステップ９０２では、クエリアプリケーションが、オーディオ信号をオーディオインターフェースにおいて受信する。システムは、マイクロホンまたは他のオーディオ検出デバイスを含み得、デバイスに入力されるオーディオに基づいて、オーディオファイルを記録し得る。

【0082】

ステップ９０４では、クエリアプリケーションが、ステップ９０２のオーディオ信号を解析し、発話を識別する。クエリアプリケーションは、任意の好適なデシメーション、調整（例えば、増幅、フィルタリング）、処理（例えば、時間またはスペクトルドメインにおいて）、パターン認識、アルゴリズム、転換、任意の他の好適なアクション、またはそれらの任意の組み合わせを適用し得る。いくつかの実施形態では、クエリアプリケーションは、任意の好適な技法を使用して、単語、音、語句、またはそれらの組み合わせを識別する。

【0083】

ステップ９０６では、クエリアプリケーションが、音声クエリが受信されたかどうかを決定する。いくつかの実施形態では、クエリアプリケーションは、オーディオ信号のパラメータに基づいて、音声クエリが受信されたことを決定する。例えば、クエリ前後の発話を伴わない期間は、記録内の音声クエリの範囲を区切り得る。いくつかの実施形態では、クエリアプリケーションは、キーワードを発話された順序で識別し、文またはクエリテンプレートをキーワードに適用し、テキストクエリを抽出する。例えば、名詞、固有名詞、動詞、形容詞、副詞、および発話の他の部分の配置は、音声クエリの開始および終了の指示を提供し得る。クエリアプリケーションは、オーディオ信号を解析する際、任意の好適な基準を適用し、テキストを抽出し得る。ステップ９０８では、クエリアプリケーションは、ステップ９０４および９０６の結果に基づいて、テキストクエリを生成する。いくつかの実施形態では、ステップ９０８において、クエリアプリケーションは、テキストクエリを好適な記憶装置（例えば、記憶装置４０８）に記憶し得る。ステップ９０６において、クエリアプリケーションが、音声クエリが受信されていない、または別様に、テキストクエリが、ステップ９０４の解析されるオーディオに基づいて生成されることができないことを決定する場合、クエリアプリケーションは、ステップ９０２に戻り、音声クエリが受信されるまで、オーディオを検出するステップに進み得る。

【0084】

ステップ９１０では、クエリアプリケーションが、エンティティ情報に関するデータベースにアクセスする。クエリアプリケーションは、ステップ９０８のテキストクエリを使用して、データベースの情報の中を検索する。クエリアプリケーションは、任意の好適な検索アルゴリズムを適用し、データベースの情報、エンティティ、またはコンテンツを識別し得る。

【0085】

ステップ９１２では、クエリアプリケーションが、ステップ９１０のデータベースのエンティティがステップ９０８のテキストクエリに合致するかどうかを決定する。クエリアプリケーションは、複数のエンティティを識別および評価し、合致を見出し得る。いくつかの実施形態では、テキストクエリは、２つ以上のエンティティを含み、クエリアプリケーションは、コンテンツの中を検索し、メタデータ内に関連付けられたエンティティを有するコンテンツ項目を決定する（例えば、テキストクエリとコンテンツ項目のメタデータタグを比較することによって）。いくつかの状況では、クエリアプリケーションは、合致を識別することが不可能であり得、それに応答して、検索を継続すること、別のデータベースの中を検索すること、テキストクエリを修正すること（例えば、ステップ９０８に戻る（図示せず））、ステップ９０４に戻り、ステップ９０４において使用される設定を修正すること（図示せず）、検索結果が見出されなかったことの指示を返すこと、任意の他の好適な応答を行うこと、または、それらの任意の組み合わせを行い得る。いくつかの実施形態では、クエリアプリケーションは、テキストクエリに合致する複数のエンティティ、コンテンツ、または両方を識別し得る。ステップ９１４は、クエリアプリケーションが、ステップ９０８のテキストクエリに関連付けられたコンテンツを識別することを含む。いくつかの実施形態では、ステップ９１４および９１０は、逆転され得、クエリアプリケーションは、テキストクエリに基づいて、コンテンツの中を検索し得る。いくつかの実施形態では、エンティティは、コンテンツ識別子を含み得、故に、ステップ９１０および９１４は、組み合わせられ得る。

【0086】

ステップ９１６では、クエリアプリケーションが、ステップ９０８のテキストクエリに関連付けられたコンテンツを読み出す。ステップ９１６では、例えば、クエリアプリケーションが、コンテンツ項目を識別すること、コンテンツ項目をダウンロードすること、コンテンツ項目をストリーミングすること、表示のためにコンテンツ項目またはコンテンツ項目のリスト（例えば、またはコンテンツ項目へのリンクのリスト）を生成すること、または、それらの組み合わせを行い得る。

【0087】

本開示の上記に説明される実施形態は、限定ではなく、例証の目的のために提示され、本開示は、以下に続く請求項のみによって限定される。さらに、いずれか１つの実施形態に説明される特徴および限界が、本明細書の任意の他の実施形態に適用され得、一実施形態に関するフローチャートまたは例が、好適な様式で任意の他の実施形態と組み合わせられること、異なる順序で行われること、または並行して行われ得ることに留意されたい。加えて、本明細書に説明されるシステムおよび方法は、リアルタイムで実施され得る。上記に説明されるシステムおよび／または方法が他のシステムおよび／または方法に適用される、またはそれに従って使用され得ることにも留意されたい。
本明細書は、限定ではないが、以下を含む実施形態を開示する：
（項目１）音声クエリに応答する方法であって、方法は、
音声クエリをオーディオインターフェースにおいて受信することと、
制御回路を使用して、１つ以上のキーワードを音声クエリから抽出することと、
制御回路を使用して、１つ以上のキーワードに関する発音情報を決定することと、
制御回路を使用して、１つ以上のキーワードおよび発音情報に基づいて、テキストクエリを生成することと、
テキストクエリおよびエンティティに関する記憶されたメタデータに基づいて、データベースの複数のエンティティの中のエンティティを識別することであって、メタデータは、発音タグを備えている、ことと、
エンティティに関連付けられたコンテンツ項目を読み出すことと、
を含む、方法。
（項目２）発音情報は、１つ以上のキーワードのうちの１つの音素を備えている、項目１に記載の方法。
（項目３）エンティティを識別することは、ユーザプロファイル情報にさらに基づく、項目１に記載の方法。
（項目４）エンティティを識別することは、前の音声クエリからの以前に識別されたエンティティに基づく、項目３に記載の方法。
（項目５）エンティティを識別することは、エンティティに関連付けられた人気情報にさらに基づく、項目１に記載の方法。
（項目６）エンティティを識別することは、
複数のエンティティを識別することであって、それぞれのメタデータが、複数のエンティティのうちの各エンティティに関して記憶されている、ことと、
それぞれの発音タグをテキストクエリと比較することに基づいて、複数のエンティティのうちの各それぞれのエンティティに関して、それぞれのスコアを決定することと、
最大スコアを決定することによって、エンティティを選択することと、
を含む、項目１に記載の方法。
（項目７）エンティティは、第１のエンティティであり、テキストクエリおよび第２のエンティティに関する第２のメタデータに基づいて、複数のエンティティの中の第２のエンティティを識別することをさらに含み、コンテンツ項目は、第１のエンティティおよび第２のエンティティに関連付けられている、項目１に記載の方法。
（項目８）データベースの複数のエンティティの中のエンティティを識別することは、テキストクエリの少なくとも一部を記憶されたメタデータのタグと比較し、合致を識別することを含む、項目１に記載の方法。
（項目９）１つ以上のキーワードのうちの第１のキーワードは、第１のキーワードの２つ以上の発音に関連付けられている、項目１に記載の方法。
（項目１０）発音情報は、１つ以上のキーワードのうちの第１のキーワードの音素表現を備えている、項目１に記載の方法。
（項目１１）音声クエリに応答するためのシステムであって、システムは、
音声クエリを受信するためのオーディオインターフェースと、
オーディオインターフェースに結合された制御回路と
を備え、
制御回路は、
１つ以上のキーワードを音声クエリから抽出することと、
１つ以上のキーワードに関する発音情報を決定抽出することと、
１つ以上のキーワードおよび発音情報に基づいて、テキストクエリを生成抽出することと、
テキストクエリおよびエンティティに関する記憶されたメタデータに基づいて、データベースの複数のエンティティの中のエンティティを識別抽出することであって、メタデータは、発音タグを備えている、ことと、
エンティティに関連付けられたコンテンツ項目を読み出すことと
を行うように構成されている、システム。
（項目１２）発音情報は、１つ以上のキーワードのうちの１つの音素を備えている、項目１１に記載のシステム。
（項目１３）制御回路は、ユーザプロファイル情報に基づいて、エンティティを識別するようにさらに構成されている、項目１１に記載のシステム。
（項目１４）制御回路は、前の音声クエリから以前に識別されたエンティティに基づいて、エンティティを識別するようにさらに構成されている、項目１３に記載のシステム。
（項目１５）制御回路は、エンティティに関連付けられた人気情報に基づいて、エンティティを識別するようにさらに構成されている、項目１１に記載のシステム。
（項目１６）制御回路は、
複数のエンティティを識別することであって、それぞれのメタデータが、複数のエンティティのうちの各エンティティに関して記憶されている、ことと、
それぞれの発音タグをテキストクエリと比較することに基づいて、複数のエンティティのうちの各それぞれのエンティティに関して、それぞれのスコアを決定することと、
最大スコアを決定することによって、エンティティを選択することと
ことによって、エンティティを識別するようにさらに構成されている、項目１１に記載のシステム。
（項目１７）エンティティは、第１のエンティティであり、制御回路は、テキストクエリおよび第２のエンティティに関する第２のメタデータに基づいて、複数のエンティティの中の第２のエンティティを識別するようにさらに構成され、コンテンツ項目は、第１のエンティティおよび第２のエンティティに関連付けられている、項目１１に記載のシステム。
（項目１８）制御回路は、テキストクエリの少なくとも一部を記憶されたメタデータのタグと比較し、合致を識別することによって、データベースの複数のエンティティの中のエンティティを識別するようにさらに構成されている、項目１１に記載の。
（項目１９）１つ以上のキーワードのうちの第１のキーワードは、第１のキーワードの２つ以上の発音に関連付けられている、項目１１に記載のシステム。
（項目２０）発音情報は、１つ以上のキーワードのうちの第１のキーワードの音素表現を備えている、項目１１に記載のシステム。
（項目２１）エンコーディングされた命令を有する非一過性コンピュータ読み取り可能な媒体であって、命令は、制御回路によって実行されると、
音声クエリをオーディオインターフェースにおいて受信することと、
１つ以上のキーワードを音声クエリから抽出することと、
１つ以上のキーワードに関する発音情報を決定することと、
１つ以上のキーワードおよび発音情報に基づいて、テキストクエリを生成することと、
テキストクエリおよびエンティティに関する記憶されたメタデータに基づいて、データベースの複数のエンティティの中のエンティティを識別することであって、メタデータは、発音タグを備えている、ことと、
エンティティに関連付けられたコンテンツ項目を読み出すことと
を制御回路に行わせる、非一過性コンピュータ読み取り可能な媒体。
（項目２２）発音情報は、１つ以上のキーワードのうちの１つの音素を備えている、項目２１に記載の非一過性コンピュータ読み取り可能な媒体。
（項目２３）エンコーディングされた命令をさらに備え、命令は、制御回路によって実行されると、制御回路にユーザプロファイル情報に基づいてエンティティを識別させる、項目２１に記載の非一過性コンピュータ読み取り可能な媒体。
（項目２４）エンコーディングされた命令をさらに備え、命令は、制御回路によって実行されると、制御回路に、前の音声クエリからの以前に識別されたエンティティに基づいて、エンティティを識別させる、項目２３に記載の非一過性コンピュータ読み取り可能な媒体。
（項目２５）エンコーディングされた命令をさらに備え、命令は、制御回路によって実行されると、制御回路に、エンティティに関連付けられた人気情報に基づいて、エンティティを識別させる、項目２１に記載の非一過性コンピュータ読み取り可能な媒体。
（項目２６）エンコーディングされた命令をさらに備え、命令は、制御回路によって実行されると、
複数のエンティティを識別することであってし、それぞれのメタデータが、複数のエンティティのうちの各エンティティに関して記憶されている、ことと、
それぞれの発音タグをテキストクエリと比較することに基づいて、複数のエンティティのうちの各それぞれのエンティティに関して、それぞれのスコアを決定することと、
最大スコアを決定することによって、エンティティを選択ることと
によって、制御回路にエンティティを識別させる、項目２１に記載の非一過性コンピュータ読み取り可能な媒体。
（項目２７）エンティティは、第１のエンティティであり、エンコーディングされた命令をさらに備え、命令は、制御回路によって実行されると、制御回路に、テキストクエリおよび第２のエンティティに関する第２のメタデータに基づいて、複数のエンティティの中の第２のエンティティを識別させ、コンテンツ項目は、第１のエンティティおよび第２のエンティティに関連付けられている、項目２１に記載の非一過性コンピュータ読み取り可能な媒体。
（項目２８）エンコーディングされた命令をさらに備え、命令は、制御回路によって実行されると、制御回路に、テキストクエリの少なくとも一部を記憶されたメタデータのタグと比較し、合致を識別することによって、データベースの複数のエンティティの中のエンティティを識別させる、項目２１に記載の非一過性コンピュータ読み取り可能な媒体。
（項目２９）１つ以上のキーワードのうちの第１のキーワードは、第１のキーワードの２つ以上の発音に関連付けられている、項目２１に記載の非一過性コンピュータ読み取り可能な媒体。
（項目３０）発音情報は、１つ以上のキーワードのうちの第１のキーワードの音素表現を備えている、項目２１に記載の非一過性コンピュータ読み取り可能な媒体。
（項目３１）音声クエリに応答するためのシステムであって、システムは、
音声クエリを受信する手段と、
１つ以上のキーワードを音声クエリから抽出する手段と、
１つ以上のキーワードに関する発音情報を決定する手段と、
１つ以上のキーワードおよび発音情報に基づいて、テキストクエリを生成する手段と、
テキストクエリおよびエンティティに関する記憶されたメタデータに基づいて、データベースの複数のエンティティの中のエンティティを識別する手段であって、メタデータは、発音タグを備えている、手段と、
エンティティに関連付けられたコンテンツ項目を読み出すための手段と
を備えている、システム。
（項目３２）発音情報は、１つ以上のキーワードのうちの１つの音素を備えている、項目３１に記載のシステム。
（項目３３）エンティティを識別する手段は、ユーザプロファイル情報に基づいて、エンティティを識別する手段を備えている、項目３１に記載のシステム。
（項目３４）エンティティを識別する手段は、前の音声クエリからの以前に識別されたエンティティに基づいて、エンティティを識別する手段を備えている、項目３３に記載のシステム。
（項目３５）エンティティを識別する手段は、エンティティに関連付けられた人気情報に基づいて、エンティティを識別する手段を備えている、項目３１に記載のシステム。
（項目３６）エンティティを識別する手段は、
複数のエンティティを識別する手段であって、それぞれのメタデータが、複数のエンティティのうちの各エンティティに関して記憶されている、手段と、
それぞれの発音タグをテキストクエリと比較することに基づいて、複数のエンティティのうちの各それぞれのエンティティに関して、それぞれのスコアを決定する手段と、
最大スコアを決定することによって、エンティティを選択する手段と
を備えている、項目３１に記載のシステム。
（項目３７）エンティティは、第１のエンティティであり、テキストクエリおよび第２のエンティティに関する第２のメタデータに基づいて、複数のエンティティの中の第２のエンティティを識別する手段をさらに備え、コンテンツ項目は、第１のエンティティおよび第２のエンティティに関連付けられている、項目３１に記載のシステム。
（項目３８）データベースの複数のエンティティの中のエンティティを識別する手段は、テキストクエリの少なくとも一部を記憶されたメタデータのタグと比較し、合致を識別する手段を備えている、項目３１に記載のシステム。
（項目３９）１つ以上のキーワードのうちの第１のキーワードは、第１のキーワードの２つ以上の発音に関連付けられている、項目３１に記載のシステム。
（項目４０）発音情報は、１つ以上のキーワードのうちの第１のキーワードの音素表現を備えている、項目３１に記載のシステム。
（項目４１）音声クエリに応答する方法であって、方法は、
音声クエリをオーディオインターフェースにおいて受信することと、
制御回路を使用して、１つ以上のキーワードを音声クエリから抽出することと、
制御回路を使用して、１つ以上のキーワードに関する発音情報を決定することと、
制御回路を使用して、１つ以上のキーワードおよび発音情報に基づいて、テキストクエリを生成することと、
テキストクエリおよびエンティティに関する記憶されたメタデータに基づいて、データベースの複数のエンティティの中のエンティティを識別することであって、メタデータは、発音タグを備えている、ことと、
エンティティに関連付けられたコンテンツ項目を読み出すことと
を含む、方法。
（項目４２）発音情報は、１つ以上のキーワードのうちの１つの音素を備えている、項目４１に記載の方法。
（項目４３）エンティティを識別することは、ユーザプロファイル情報にさらに基づく、項目４１－４２のいずれかに記載の方法。
（項目４４）エンティティを識別することは、前の音声クエリからの以前に識別されたエンティティに基づく、項目４１－４３のいずれかに記載の方法。
（項目４５）エンティティを識別することは、エンティティに関連付けられた人気情報にさらに基づく、項目４１－４４のいずれかに記載の方法。
（項目４６）エンティティを識別することは、
複数のエンティティを識別することであって、それぞれのメタデータが、複数のエンティティのうちの各エンティティに関して記憶されている、ことと、
それぞれの発音タグをテキストクエリと比較することに基づいて、複数のエンティティのうちの各それぞれのエンティティに関して、それぞれのスコアを決定することと、
最大スコアを決定することによって、エンティティを選択することと
を含む、項目４１－４５のいずれかに記載の方法。
（項目４７）エンティティは、第１のエンティティであり、テキストクエリおよび第２のエンティティに関する第２のメタデータに基づいて、複数のエンティティの中の第２のエンティティを識別することをさらに含み、コンテンツ項目は、第１のエンティティおよび第２のエンティティに関連付けられている、項目４１－４６のいずれかに記載の方法。
（項目４８）データベースの複数のエンティティの中のエンティティを識別することは、テキストクエリの少なくとも一部を記憶されたメタデータのタグと比較し、合致を識別することを含む、項目４１－４７のいずれかに記載の方法。
（項目４９）１つ以上のキーワードのうちの第１のキーワードは、第１のキーワードの２つ以上の発音に関連付けられている、項目４１－４８のいずれかに記載の方法。
（項目５０）発音情報は、１つ以上のキーワードのうちの第１のキーワードの音素表現を備えている、項目４１－４９のいずれかに記載の方法。
（項目５１）音声クエリに応答する方法であって、方法は、
音声クエリをオーディオインターフェースにおいて受信することと、
制御回路を使用して、１つ以上のキーワードを音声クエリから抽出することと、
制御回路を使用して、１つ以上のキーワードに基づいて、テキストクエリを生成することと、
テキストクエリおよびエンティティに関するメタデータに基づいて、エンティティを識別することであって、メタデータは、エンティティに関連付けられた識別子の発音に基づくエンティティの１つ以上の代替テキスト表現を備えている、ことと、
エンティティに関連付けられたコンテンツ項目を読み出すことと
を含む、方法。
（項目５２）１つ以上の代替テキスト表現は、エンティティの音素表現を備えている、項目５１に記載の方法。
（項目５３）１つ以上の代替テキスト表現は、発音に基づくエンティティの代替スペルを備えている、項目５１に記載の方法。
（項目５４）エンティティの１つ以上の代替テキスト表現は、前の発話→テキスト変換に基づいて生成されたテキスト文字列を備えている、項目５１に記載の方法。
（項目５５）１つ以上の代替テキスト表現は、複数の代替テキスト表現を備え、複数の代替テキスト表現のうちの各代替テキスト表現は、
第１のテキスト表現をオーディオファイルに変換することと、
オーディオファイルを第２のテキスト表現に変換することであって、第２のテキスト表現は、第１のテキスト表現と同一ではない、ことと
によって生成される、項目５１に記載の方法。
（項目５６）エンティティを識別することは、ユーザプロファイル情報にさらに基づく、項目５１に記載の方法。
（項目５７）エンティティを識別することは、エンティティに関連付けられた人気情報にさらに基づく、項目５１に記載の方法。
（項目５８）エンティティを識別することは、
複数のエンティティを識別することであって、それぞれのメタデータが、複数のエンティティのうちの各エンティティに関して記憶されている、ことと、
それぞれの１つ以上の代替テキスト表現をテキストクエリと比較することに基づいて、複数のエンティティのうちの各それぞれのエンティティに関して、それぞれのスコアを決定することと、
最大スコアを決定することによって、エンティティを選択することと
を含む、項目５１に記載の方法。
（項目５９）複数のテキストクエリを生成することをさらに含み、複数のテキストクエリは、テキストクエリを備え、複数のテキストクエリのうちの各テキストクエリは、制御回路の発話→テキストモジュールのそれぞれの設定に基づいて生成される、項目５１に記載の方法。
（項目６０）
複数のテキストクエリのうちのそれぞれのテキストクエリに基づいて、それぞれのエンティティを識別することと、
それぞれのテキストクエリのそれぞれのエンティティに関連付けられたメタデータとの比較に基づいて、それぞれのエンティティに関するそれぞれのスコアを決定することと、
それぞれのスコアの最大スコアを選択することによって、エンティティを識別することと
をさらに含む、項目５９に記載の方法。
（項目６１）音声クエリに応答するためのシステムであって、システムは、
音声クエリを受信するためのオーディオインターフェースと、
制御回路と
を備え、
制御回路は、
１つ以上のキーワードを音声クエリから抽出することと、
１つ以上のキーワードに基づいて、テキストクエリを生成することと、
テキストクエリおよびエンティティに関するメタデータに基づいて、エンティティを識別することであって、メタデータは、エンティティに関連付けられた識別子の発音に基づくエンティティの１つ以上の代替テキスト表現を備えている、ことと、
エンティティに関連付けられたコンテンツ項目を読み出すことと
を行うように構成されている、システム。
（項目６２）１つ以上の代替テキスト表現は、エンティティの音素表現を備えている、項目６１に記載のシステム。
（項目６３）１つ以上の代替テキスト表現は、発音に基づくエンティティの代替スペルを備えている、項目６１に記載のシステム。
（項目６４）エンティティの１つ以上の代替テキスト表現は、前の発話→テキスト変換に基づいて生成されたテキスト文字列を備えている、項目６１に記載のシステム。
（項目６５）１つ以上の代替テキスト表現は、複数の代替テキスト表現を備え、制御回路は、
第１のテキスト表現をオーディオファイルに変換することと、
オーディオファイルを第２のテキスト表現に変換することであって、第２のテキスト表現は、第１のテキスト表現と同一ではない、ことと
によって、複数の代替テキスト表現のうちの各代替テキスト表現を生成するように構成されている、項目６１に記載のシステム。
（項目６６）制御回路は、ユーザプロファイル情報に基づいて、エンティティを識別するようにさらに構成されている、項目６１に記載のシステム。
（項目６７）制御回路は、エンティティに関連付けられた人気情報に基づいて、エンティティを識別するようにさらに構成されている、項目６１に記載のシステム。
（項目６８）制御回路は、
複数のエンティティを識別することであって、それぞれのメタデータが、複数のエンティティのうちの各エンティティに関して記憶されている、ことと、
それぞれの１つ以上の代替テキスト表現をテキストクエリと比較することに基づいて、複数のエンティティのうちの各それぞれのエンティティに関して、それぞれのスコアを決定することと、
最大スコアを決定することによって、エンティティを選択することと
によって、エンティティを識別するようにさらに構成されている、項目６１に記載のシステム。
（項目６９）制御回路は、複数のテキストクエリを生成するようにさらに構成され、複数のテキストクエリは、テキストクエリを備え、制御回路は、発話→テキストモジュールを備え、複数のテキストクエリのうちの各テキストクエリは、発話→テキストモジュールのそれぞれの設定に基づいて生成される、項目６１に記載のシステム。
（項目７０）制御回路は、
複数のテキストクエリのうちのそれぞれのテキストクエリに基づいて、それぞれのエンティティを識別することと、
それぞれのテキストクエリのそれぞれのエンティティに関連付けられたメタデータとの比較に基づいて、それぞれのエンティティに関するそれぞれのスコアを決定することと、
それぞれのスコアの最大スコアを選択することによって、エンティティを識別することと
を行うようにさらに構成されている、項目６９に記載のシステム。
（項目７１）エンコーディングされた命令を有する非一過性コンピュータ読み取り可能な媒体であって、命令は、制御回路によって実行されると、
音声クエリをオーディオインターフェースにおいて受信することと、
１つ以上のキーワードを音声クエリから抽出することと、
１つ以上のキーワードに基づいて、テキストクエリを生成することと、
テキストクエリおよびエンティティに関するメタデータに基づいて、エンティティを識別することであって、メタデータは、エンティティに関連付けられた識別子の発音に基づくエンティティの１つ以上の代替テキスト表現を備えている、ことと、
エンティティに関連付けられたコンテンツ項目を読み出すことと
を制御回路に行わせる、非一過性コンピュータ読み取り可能な媒体。
（項目７２）１つ以上の代替テキスト表現は、エンティティの音素表現を備えている、項目７１に記載の非一過性コンピュータ読み取り可能な媒体。
（項目７３）１つ以上の代替テキスト表現は、発音に基づくエンティティの代替スペルを備えている、項目７１に記載の非一過性コンピュータ読み取り可能な媒体。
（項目７４）エンティティの１つ以上の代替テキスト表現は、前の発話→テキスト変換に基づいて生成されたテキスト文字列を備えている、項目７１に記載の非一過性コンピュータ読み取り可能な媒体。
（項目７５）１つ以上の代替テキスト表現は、複数の代替テキスト表現を備え、エンコーディングされた命令をさらに備え、命令は、制御回路によって実行されると、制御回路に、
第１のテキスト表現をオーディオファイルに変換することと、
オーディオファイルを第２のテキスト表現に変換することであって、第２のテキスト表現は、第１のテキスト表現と同一ではない、ことと
によって、複数の代替テキスト表現のうちの各代替テキスト表現を生成させる、項目７１に記載の非一過性コンピュータ読み取り可能な媒体。
（項目７６）エンコーディングされた命令をさらに備え、命令は、制御回路によって実行されると、制御回路に、ユーザプロファイル情報に基づいて、エンティティを識別させる、項目７１に記載の非一過性コンピュータ読み取り可能な媒体。
（項目７７）エンコーディングされた命令をさらに備え、命令は、制御回路によって実行されると、制御回路に、エンティティに関連付けられた人気情報に基づいて、エンティティを識別させる、項目７１に記載の非一過性コンピュータ読み取り可能な媒体。
（項目７８）エンコーディングされた命令をさらに備え、命令は、制御回路によって実行されると、
複数のエンティティを識別することであって、それぞれのメタデータが、複数のエンティティのうちの各エンティティに関して記憶されている、ことと、
それぞれの１つ以上の代替テキスト表現をテキストクエリと比較することに基づいて、複数のエンティティのうちの各それぞれのエンティティに関して、それぞれのスコアを決定することと、
最大スコアを決定することによって、エンティティを選択することと、
によって、制御回路にエンティティを識別させる、項目７１に記載の非一過性コンピュータ読み取り可能な媒体。
（項目７９）エンコーディングされた命令をさらに備え、命令は、制御回路によって実行されると、制御回路に、複数のテキストクエリを生成させ、複数のテキストクエリは、テキストクエリを備え、複数のテキストクエリのうちの各テキストクエリは、制御回路の発話→テキストモジュールのそれぞれの設定に基づいて生成される、項目７１に記載の非一過性コンピュータ読み取り可能な媒体。
（項目８０）エンコーディングされた命令をさらに備え、命令は、制御回路によって実行されると、
複数のテキストクエリのうちのそれぞれのテキストクエリに基づいて、それぞれのエンティティを識別することと、
それぞれのテキストクエリのそれぞれのエンティティに関連付けられたメタデータとの比較に基づいて、それぞれのエンティティに関するそれぞれのスコアを決定することと、
それぞれのスコアの最大スコアを選択することによって、エンティティを識別することと
を制御回路に行わせる、項目７９に記載の非一過性コンピュータ読み取り可能な媒体。
（項目８１）音声クエリに応答するためのシステムであって、システムは、
音声クエリをオーディオインターフェースにおいて受信する手段と、
１つ以上のキーワードを音声クエリから抽出する手段と、
１つ以上のキーワードに基づいて、テキストクエリを生成する手段と、
テキストクエリおよびエンティティに関するメタデータに基づいて、エンティティを識別する手段であって、メタデータは、エンティティに関連付けられた識別子の発音に基づくエンティティの１つ以上の代替テキスト表現を備えている、手段と、
エンティティに関連付けられたコンテンツ項目を読み出すための手段と
を備えている、システム。
（項目８２）１つ以上の代替テキスト表現は、エンティティの音素表現を備えている、項目８１に記載のシステム。
（項目８３）１つ以上の代替テキスト表現は、発音に基づくエンティティの代替スペルを備えている、項目８１に記載のシステム。
（項目８４）エンティティの１つ以上の代替テキスト表現は、前の発話→テキスト変換に基づいて生成されたテキスト文字列を備えている、項目８１に記載のシステム。
（項目８５）１つ以上の代替テキスト表現は、複数の代替テキスト表現を備え、複数の代替テキスト表現のうちの各代替テキスト表現は、
第１のテキスト表現をオーディオファイルに変換する手段と、
オーディオファイルを第２のテキスト表現に変換する手段であって、第２のテキスト表現は、第１のテキスト表現と同一ではない、手段と
によって生成される、項目８１に記載のシステム。
（項目８６）エンティティを識別する手段は、ユーザプロファイル情報に基づいて、エンティティを識別する手段をさらに備えている、項目８１に記載のシステム。
（項目８７）エンティティを識別する手段は、エンティティに関連付けられた人気情報に基づいて、エンティティを識別する手段をさらに備えている、項目８１に記載のシステム。
（項目８８）エンティティを識別する手段は、
複数のエンティティを識別する手段であって、それぞれのメタデータが、複数のエンティティのうちの各エンティティに関して記憶されている、手段と、
それぞれの１つ以上の代替テキスト表現をテキストクエリと比較することに基づいて、複数のエンティティのうちの各それぞれのエンティティに関して、それぞれのスコアを決定する手段と、
最大スコアを決定することによって、エンティティを選択する手段と
を備えている、項目８１に記載のシステム。
（項目８９）複数のテキストクエリを生成する手段をさらに備え、複数のテキストクエリは、テキストクエリを備え、複数のテキストクエリのうちの各テキストクエリは、制御回路の発話→テキストモジュールのそれぞれの設定に基づいて生成される、項目８１に記載のシステム。
（項目９０）
複数のテキストクエリのうちのそれぞれのテキストクエリに基づいて、それぞれのエンティティを識別する手段と、
それぞれのテキストクエリのそれぞれのエンティティに関連付けられたメタデータとの比較に基づいて、それぞれのエンティティに関するそれぞれのスコアを決定する手段と、
それぞれのスコアの最大スコアを選択することによって、エンティティを識別する手段と
をさらに備えている、項目８９に記載のシステム。
（項目９１）音声クエリに応答する方法であって、方法は、
音声クエリをオーディオインターフェースにおいて受信することと、
制御回路を使用して、１つ以上のキーワードを音声クエリから抽出することと、
制御回路を使用して、１つ以上のキーワードに基づいて、テキストクエリを生成することと、
テキストクエリおよびエンティティに関するメタデータに基づいて、エンティティを識別することであって、メタデータは、エンティティに関連付けられた識別子の発音に基づくエンティティの１つ以上の代替テキスト表現を備えている、ことと、
エンティティに関連付けられたコンテンツ項目を読み出すことと
を含む、方法。
（項目９２）１つ以上の代替テキスト表現は、エンティティの音素表現を備えている、項目９１に記載の方法。
（項目９３）１つ以上の代替テキスト表現は、発音に基づくエンティティの代替スペルを備えている、項目９１－９２のいずれかに記載の方法。
（項目９４）エンティティの１つ以上の代替テキスト表現は、前の発話→テキスト変換に基づいて生成されたテキスト文字列を備えている、項目９１－９３のいずれかに記載の方法。
（項目９５）１つ以上の代替テキスト表現は、複数の代替テキスト表現を備え、複数の代替テキスト表現のうちの各代替テキスト表現は、
第１のテキスト表現をオーディオファイルに変換することと、
オーディオファイルを第２のテキスト表現に変換することであって、第２のテキスト表現は、第１のテキスト表現と同一ではない、ことと
によって生成される、項目９１－９４のいずれかに記載の方法。
（項目９６）エンティティを識別することは、ユーザプロファイル情報にさらに基づく、項目９１－９５のいずれかに記載の方法。
（項目９７）エンティティを識別することは、エンティティに関連付けられた人気情報にさらに基づく、項目９１－９６のいずれかに記載の方法。
（項目９８）エンティティを識別することは、
複数のエンティティを識別することであって、それぞれのメタデータが、複数のエンティティのうちの各エンティティに関して記憶されている、ことと、
それぞれの１つ以上の代替テキスト表現をテキストクエリと比較することに基づいて、複数のエンティティのうちの各それぞれのエンティティに関して、それぞれのスコアを決定することと、
最大スコアを決定することによって、エンティティを選択することと
を含む、項目９１－９７のいずれかに記載の方法。
（項目９９）複数のテキストクエリを生成することをさらに含み、複数のテキストクエリは、テキストクエリを備え、複数のテキストクエリのうちの各テキストクエリは、制御回路の発話→テキストモジュールのそれぞれの設定に基づいて生成される、項目９１－９８のいずれかに記載の方法。
（項目１００）
複数のテキストクエリのうちのそれぞれのテキストクエリに基づいて、それぞれのエンティティを識別することと、
それぞれのテキストクエリのそれぞれのエンティティに関連付けられたメタデータとの比較に基づいて、それぞれのエンティティに関するそれぞれのスコアを決定することと、
それぞれのスコアの最大スコアを選択することによって、エンティティを識別することと
をさらに含む、項目９９に記載の方法。
（項目１０１）音声クエリに関するエンティティメタデータを生成する方法であって、方法は、
複数のエンティティのうちの情報が記憶されているエンティティを識別することと、
テキスト→発話モジュールを使用して、第１のテキスト文字列および少なくとも１つの発話基準に基づいて、オーディオファイルを生成することであって、第１のテキスト文字列は、エンティティを記述する、ことと、
発話→テキストモジュールを使用して、オーディオファイルに基づいて、第２のテキスト文字列を生成することと、
第２のテキスト文字列を第１のテキスト文字列と比較することと、
第１のテキスト文字列と同一でない場合、エンティティに関連付けられたメタデータに第２のテキスト文字列を記憶することと
を含む、方法。
（項目１０２）少なくとも１つの発話基準は、発音設定を備えている、項目１０１に記載の方法。
（項目１０３）少なくとも１つの発話基準は、言語設定を備えている、項目１０１に記載の方法。
（項目１０４）少なくとも１つの発話基準は、複数の発話基準を備え、方法は、
テキスト→発話モジュールを使用して、第１のテキスト文字列およびそれぞれの発話基準に基づいて、それぞれのオーディオファイルを生成することと、
発話→テキストモジュールを使用して、それぞれのオーディオファイルに基づいて、それぞれの第２のテキスト文字列を生成することと、
それぞれの第２のテキスト文字列を第１のテキスト文字列と比較することと、
第１のテキスト文字列と同一でない場合、エンティティに関連付けられたメタデータにそれぞれの第２のテキスト文字列を記憶することと
をさらに含む、項目１０１に記載の方法。
（項目１０５）１つ以上のテキストクエリに基づいて、メタデータを更新することをさらに含む、項目１０１に記載の方法。
（項目１０６）エンティティに関連付けられたメタデータに第１のテキスト文字列の音素表現を記憶することをさらに含む、項目１０１に記載の方法。
（項目１０７）第１のテキスト文字列に基づいて、オーディオファイルを生成することは、
第１のテキスト文字列を第１のオーディオ信号に変換することと、
オーディオ信号に基づいて、発話をスピーカにおいて生成することと、
マイクロホンを使用して、発話を検出し、第２のオーディオ信号を生成することと、
オーディオ信号を処理し、オーディオファイルを生成することと
を含む、項目１０１に記載の方法。
（項目１０８）発話をスピーカにおいて生成することは、テキスト→発話モジュールの少なくとも１つの発話設定にさらに基づく、項目１０７に記載の方法。
（項目１０９）オーディオファイルに基づいて、第２のテキスト文字列を生成することは、
オーディオファイルの再生をスピーカにおいて生成することと、
マイクロホンを使用して、再生を検出し、オーディオ信号を生成することと、
１つ以上の単語を識別することによって、オーディオ信号を第２のテキスト文字列に変換することと
を含む、項目１０１に記載の方法。
（項目１１０）オーディオ信号を第２のテキスト文字列に変換することは、発話→テキストモジュールの少なくとも１つのテキスト設定に基づく、項目１０９に記載の方法。
（項目１１１）音声クエリに関するエンティティメタデータを生成するためのシステムであって、システムは、制御回路を備え、
制御回路は、
複数のエンティティのうちの情報が記憶されているエンティティを識別することと、
制御回路に結合されたオーディオインターフェースを使用して、第１のテキスト文字列および少なくとも１つの発話基準に基づいて、オーディオファイルを生成することであって、第１のテキスト文字列は、エンティティを記述する、ことと、
オーディオインターフェースを使用して、オーディオファイルに基づいて、第２のテキスト文字列を生成することと、
第２のテキスト文字列を第１のテキスト文字列と比較することと、
第１のテキスト文字列と同一でない場合、エンティティに関連付けられたメタデータに第２のテキスト文字列を記憶することと
を行うように構成されている、システム。
（項目１１２）少なくとも１つの発話基準は、発音設定を備えている、項目１１１に記載のシステム。
（項目１１３）少なくとも１つの発話基準は、言語設定を備えている、項目１１１に記載のシステム。
（項目１１４）少なくとも１つの発話基準は、複数の発話基準を備え、制御回路は、
オーディオ機器を使用して、第１のテキスト文字列およびそれぞれの発話基準に基づいて、それぞれのオーディオファイルを生成することと、
オーディオ機器を使用して、それぞれのオーディオファイルに基づいて、それぞれの第２のテキスト文字列を生成することと、
それぞれの第２のテキスト文字列を第１のテキスト文字列と比較することと、
第１のテキスト文字列と同一でない場合、エンティティに関連付けられたメタデータにそれぞれの第２のテキスト文字列を記憶することと
を行うようにさらに構成されている、項目１１１に記載のシステム。
（項目１１５）制御回路は、１つ以上のテキストクエリに基づいて、メタデータを更新するようにさらに構成されている、項目１１１に記載のシステム。
（項目１１６）制御回路は、エンティティに関連付けられたメタデータに第１のテキスト文字列の音素表現を記憶するようにさらに構成されている、項目１１１に記載のシステム。
（項目１１７）オーディオ機器は、スピーカとマイクロホンとを備え、制御回路は、
第１のテキスト文字列を第１のオーディオ信号に変換することと、
オーディオ信号に基づいて、発話をスピーカにおいて生成することと、
マイクロホンを使用して、発話を検出し、第２のオーディオ信号を生成することと、
オーディオ信号を処理し、オーディオファイルを生成することと
によって、第１のテキスト文字列に基づいて、オーディオファイルを生成するようにさらに構成されている、項目１１１に記載のシステム。
（項目１１８）制御回路は、少なくとも１つの発話設定に基づいて、発話をスピーカにおいて生成するようにさらに構成されている、項目１１７に記載のシステム。
（項目１１９）オーディオ機器は、スピーカとマイクロホンとを備え、制御回路は、
オーディオファイルの再生をスピーカにおいて生成することと、
再生をマイクロホンにおいて検出し、オーディオ信号を生成することと、
１つ以上の単語を識別することによって、オーディオ信号を第２のテキスト文字列に変換することと
によって、オーディオファイルに基づいて、第２のテキスト文字列を生成するようにさらに構成されている、項目１１１に記載のシステム。
（項目１２０）制御回路は、発話→テキストモジュールの少なくとも１つのテキスト設定に基づいて、オーディオ信号を第２のテキスト文字列に変換するようにさらに構成されている、項目１１９に記載のシステム。
（項目１２１）エンコーディングされた命令を有する非一過性コンピュータ読み取り可能な媒体であって、命令は、制御回路によって実行されると、
複数のエンティティのうちの情報が記憶されているエンティティを識別することと、
第１のテキスト文字列および少なくとも１つの発話基準に基づいて、オーディオファイルを生成ることであって、第１のテキスト文字列は、エンティティを記述する、ことと、
オーディオファイルに基づいて、第２のテキスト文字列を生成ることと、
第２のテキスト文字列を第１のテキスト文字列と比較することと、
第１のテキスト文字列と同一でない場合、エンティティに関連付けられたメタデータに第２のテキスト文字列を記憶することと
を制御回路に行わせる、非一過性コンピュータ読み取り可能な媒体。
（項目１２２）少なくとも１つの発話基準は、発音設定を備えている、項目１２１に記載の非一過性コンピュータ読み取り可能な媒体。
（項目１２３）少なくとも１つの発話基準は、言語設定を備えている、項目１２１に記載の非一過性コンピュータ読み取り可能な媒体。
（項目１２４）少なくとも１つの発話基準は、複数の発話基準を備え、エンコーディングされた命令をさらに備え、命令は、制御回路によって実行されると、
第１のテキスト文字列およびそれぞれの発話基準に基づいて、それぞれのオーディオファイルを生成することと、
それぞれのオーディオファイルに基づいて、それぞれの第２のテキスト文字列を生成することと、
それぞれの第２のテキスト文字列を第１のテキスト文字列と比較することと、
第１のテキスト文字列と同一でない場合、エンティティに関連付けられたメタデータにそれぞれの第２のテキスト文字列を記憶することと
を制御回路に行わせる、項目１２１に記載の非一過性コンピュータ読み取り可能な媒体。
（項目１２５）エンコーディングされた命令をさらに備え、命令は、制御回路によって実行されると、制御回路に、１つ以上のテキストクエリに基づいて、メタデータを更新させる、項目１２１に記載の非一過性コンピュータ読み取り可能な媒体。
（項目１２６）エンコーディングされた命令をさらに備え、命令は、制御回路によって実行されると、制御回路に、エンティティに関連付けられたメタデータに第１のテキスト文字列の音素表現を記憶させる、項目１２１に記載の非一過性コンピュータ読み取り可能な媒体。
（項目１２７）エンコーディングされた命令をさらに備え、命令は、制御回路によって実行されると、
第１のテキスト文字列を第１のオーディオ信号に変換することと、
オーディオ信号に基づいて、発話をスピーカにおいて生成することと、
マイクロホンを使用して、発話を検出し、第２のオーディオ信号を生成することと、
オーディオ信号を処理し、オーディオファイルを生成することと
を制御回路に行わせる、項目１２１に記載の非一過性コンピュータ読み取り可能な媒体。
（項目１２８）エンコーディングされた命令をさらに備え、命令は、制御回路によって実行されると、制御回路に、テキスト→発話モジュールの少なくとも１つの発話設定に基づいて、発話をスピーカにおいて生成させる、項目１２７に記載の非一過性コンピュータ読み取り可能な媒体。
（項目１２９）エンコーディングされた命令をさらに備え、命令は、制御回路によって実行されると、
オーディオファイルの再生をスピーカにおいて生成することと、
マイクロホンを使用して、再生を検出し、オーディオ信号を生成することと、
１つ以上の単語を識別することによって、オーディオ信号を第２のテキスト文字列に変換することと
を制御回路に行わせる、項目１２１に記載の非一過性コンピュータ読み取り可能な媒体。
（項目１３０）エンコーディングされた命令をさらに備え、命令は、制御回路によって実行されると、制御回路に、発話→テキストモジュールの少なくとも１つのテキスト設定に基づいて、オーディオ信号を第２のテキスト文字列に変換させる、項目１２９に記載の非一過性コンピュータ読み取り可能な媒体。
（項目１３１）音声クエリに関するエンティティメタデータを生成するためのシステムであって、システムは、
複数のエンティティのうちの情報が記憶されているエンティティを識別する手段と、
第１のテキスト文字列および少なくとも１つの発話基準に基づいて、オーディオファイルを生成する手段であって、第１のテキスト文字列は、エンティティを記述する、手段と、
オーディオファイルに基づいて、第２のテキスト文字列を生成する手段と、
第２のテキスト文字列を第１のテキスト文字列と比較する手段と、
第１のテキスト文字列と同一でない場合、エンティティに関連付けられたメタデータに第２のテキスト文字列を記憶する手段と
を備えている、システム。
（項目１３２）少なくとも１つの発話基準は、発音設定を備えている、項目１３１に記載のシステム。
（項目１３３）少なくとも１つの発話基準は、言語設定を備えている、項目１３１に記載のシステム。
（項目１３４）少なくとも１つの発話基準は、複数の発話基準を備え、システムは、
第１のテキスト文字列およびそれぞれの発話基準に基づいて、それぞれのオーディオファイルを生成する手段と、
それぞれのオーディオファイルに基づいて、それぞれの第２のテキスト文字列を生成する手段と、
それぞれの第２のテキスト文字列を第１のテキスト文字列と比較する手段と、
第１のテキスト文字列と同一でない場合、エンティティに関連付けられたメタデータにそれぞれの第２のテキスト文字列を記憶する手段と
をさらに備えている、項目１３１に記載のシステム。
（項目１３５）１つ以上のテキストクエリに基づいて、メタデータを更新する手段をさらに備えている、項目１３１に記載のシステム。
（項目１３６）エンティティに関連付けられたメタデータに第１のテキスト文字列の音素表現を記憶する手段をさらに備えている、項目１３１に記載のシステム。
（項目１３７）第１のテキスト文字列に基づいて、オーディオファイルを生成する手段は、
第１のテキスト文字列を第１のオーディオ信号に変換する手段と、
オーディオ信号に基づいて、発話をスピーカにおいて生成する手段と、
マイクロホンを使用して、発話を検出し、第２のオーディオ信号を生成する手段と、
オーディオ信号を処理し、オーディオファイルを生成する手段と
を備えている、項目１３１に記載のシステム。
（項目１３８）発話をスピーカにおいて生成する手段は、テキスト→発話モジュールの少なくとも１つの発話設定に基づいて、発話をスピーカにおいて生成する手段をさらに備えている、項目１３７に記載のシステム。
（項目１３９）オーディオファイルに基づいて、第２のテキスト文字列を生成する手段は、
オーディオファイルの再生をスピーカにおいて生成する手段と、
マイクロホンを使用して、再生を検出し、オーディオ信号を生成する手段と、
１つ以上の単語を識別することによって、オーディオ信号を第２のテキスト文字列に変換する手段と
を含む、項目１３１に記載のシステム。
（項目１４０）オーディオ信号を第２のテキスト文字列に変換する手段は、発話→テキストモジュールの少なくとも１つのテキスト設定に基づいて、オーディオ信号を第２のテキスト文字列に変換する手段を備えている、項目１３９に記載のシステム。
（項目１４１）音声クエリのためのエンティティメタデータを生成する方法であって、方法は、
複数のエンティティのうちの情報が記憶されているエンティティを識別することと、
テキスト→発話モジュールを使用して、第１のテキスト文字列および少なくとも１つの発話基準に基づいて、オーディオファイルを生成することであって、第１のテキスト文字列は、エンティティを記述する、ことと、
発話→テキストモジュールを使用して、オーディオファイルに基づいて、第２のテキスト文字列を生成することと、
第２のテキスト文字列を第１のテキスト文字列と比較することと、
第１のテキスト文字列と同一でない場合、エンティティに関連付けられたメタデータに第２のテキスト文字列を記憶することと
を含む、方法。
（項目１４２）少なくとも１つの発話基準は、発音設定を備えている、項目１４１に記載の方法。
（項目１４３）少なくとも１つの発話基準は、言語設定を備えている、項目１４１－１４２のいずれかに記載の方法。
（項目１４４）少なくとも１つの発話基準は、複数の発話基準を備え、方法は、
テキスト→発話モジュールを使用して、第１のテキスト文字列およびそれぞれの発話基準に基づいて、それぞれのオーディオファイルを生成することと、
発話→テキストモジュールを使用して、それぞれのオーディオファイルに基づいて、それぞれの第２のテキスト文字列を生成することと、
それぞれの第２のテキスト文字列を第１のテキスト文字列と比較することと、
第１のテキスト文字列と同一でない場合、エンティティに関連付けられたメタデータにそれぞれの第２のテキスト文字列を記憶することと
をさらに含む、項目１４１－１４３のいずれかに記載の方法。
（項目１４５）１つ以上のテキストクエリに基づいて、メタデータを更新することをさらに含む、項目１４１－１４４のいずれかに記載の方法。
（項目１４６）エンティティに関連付けられたメタデータに第１のテキスト文字列の音素表現を記憶することをさらに含む、項目１４１－１４５のいずれかに記載の方法。
（項目１４７）第１のテキスト文字列に基づいて、オーディオファイルを生成することは、
第１のテキスト文字列を第１のオーディオ信号に変換することと、
オーディオ信号に基づいて、発話をスピーカにおいて生成することと、
マイクロホンを使用して、発話を検出し、第２のオーディオ信号を生成することと、
オーディオ信号を処理し、オーディオファイルを生成することと
を含む、項目１４１－１４６のいずれかに記載の方法。
（項目１４８）発話をスピーカにおいて生成することは、テキスト→発話モジュールの少なくとも１つの発話設定にさらに基づく、項目１４７に記載の方法。
（項目１４９）オーディオファイルに基づいて、第２のテキスト文字列を生成することは、
オーディオファイルの再生をスピーカにおいて生成することと、
マイクロホンを使用して、再生を検出し、オーディオ信号を生成することと、
１つ以上の単語を識別することによって、オーディオ信号を第２のテキスト文字列に変換することと
を含む、項目１４１－１４８のいずれかに記載の方法。
（項目１５０）オーディオ信号を第２のテキスト文字列に変換することは、発話→テキストモジュールの少なくとも１つのテキスト設定に基づく、項目１４９に記載の方法。

【図1】