IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ロヴィ ガイズ, インコーポレイテッドの特許一覧

特表2022-542415発音情報を使用して音声クエリを管理するためのシステムおよび方法
<>
  • 特表-発音情報を使用して音声クエリを管理するためのシステムおよび方法 図1
  • 特表-発音情報を使用して音声クエリを管理するためのシステムおよび方法 図2
  • 特表-発音情報を使用して音声クエリを管理するためのシステムおよび方法 図3
  • 特表-発音情報を使用して音声クエリを管理するためのシステムおよび方法 図4
  • 特表-発音情報を使用して音声クエリを管理するためのシステムおよび方法 図5
  • 特表-発音情報を使用して音声クエリを管理するためのシステムおよび方法 図6
  • 特表-発音情報を使用して音声クエリを管理するためのシステムおよび方法 図7
  • 特表-発音情報を使用して音声クエリを管理するためのシステムおよび方法 図8
  • 特表-発音情報を使用して音声クエリを管理するためのシステムおよび方法 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-10-03
(54)【発明の名称】発音情報を使用して音声クエリを管理するためのシステムおよび方法
(51)【国際特許分類】
   G06F 16/90 20190101AFI20220926BHJP
   G06F 16/9032 20190101ALI20220926BHJP
   G06F 16/9035 20190101ALI20220926BHJP
【FI】
G06F16/90 100
G06F16/9032
G06F16/9035
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2022506260
(86)(22)【出願日】2020-07-22
(85)【翻訳文提出日】2022-03-24
(86)【国際出願番号】 US2020043131
(87)【国際公開番号】W WO2021021529
(87)【国際公開日】2021-02-04
(31)【優先権主張番号】16/528,539
(32)【優先日】2019-07-31
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】16/528,541
(32)【優先日】2019-07-31
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】16/528,550
(32)【優先日】2019-07-31
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】518345664
【氏名又は名称】ロヴィ ガイズ, インコーポレイテッド
(74)【代理人】
【識別番号】100078282
【弁理士】
【氏名又は名称】山本 秀策
(74)【代理人】
【識別番号】100113413
【弁理士】
【氏名又は名称】森下 夏樹
(74)【代理人】
【識別番号】100181674
【弁理士】
【氏名又は名称】飯田 貴敏
(74)【代理人】
【識別番号】100181641
【弁理士】
【氏名又は名称】石川 大輔
(74)【代理人】
【識別番号】230113332
【弁護士】
【氏名又は名称】山本 健策
(72)【発明者】
【氏名】アヘル, アンクール
(72)【発明者】
【氏名】ドス, インドラニル クーマー
(72)【発明者】
【氏名】ゴヤル, アーシシュ
(72)【発明者】
【氏名】プニヤニ, アマン
(72)【発明者】
【氏名】レディ, カンダラ
(72)【発明者】
【氏名】ウメシュ, ミトゥン
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175EA01
5B175GA04
5B175HA01
(57)【要約】
システムは、音声クエリをオーディオインターフェースにおいて受信し、音声クエリをテキストに変換する。システムは、変換中、発音情報を決定し、クエリの1つ以上の単語の発音を示すメタデータを生成すること、音素情報をテキストクエリ内に含むこと、または両方を行うことができる。クエリは、発音に基づいてより正確に識別され得る1つ以上のエンティティを含む。システムは、生成されたテキストクエリ、発音情報、ユーザプロファイル情報、検索履歴または傾向、随意に、他の情報に基づいて、1つ以上のデータベースの中の情報、コンテンツ、または両方を検索する。システムは、テキストクエリに合致する1つ以上のエンティティまたはコンテンツ項目を識別し、識別された情報を読み出し、ユーザに提供する。
【特許請求の範囲】
【請求項1】
音声クエリに応答する方法であって、前記方法は、
音声クエリをオーディオインターフェースにおいて受信することと、
制御回路を使用して、1つ以上のキーワードを前記音声クエリから抽出することと、
前記制御回路を使用して、前記1つ以上のキーワードに基づいて、テキストクエリを生成することと、
エンティティを識別することであって、前記エンティティを識別することは、前記テキストクエリおよび前記エンティティに関するメタデータに基づき、前記メタデータは、前記エンティティの1つ以上の代替テキスト表現を備え、前記1つ以上の代替テキスト表現は、前記エンティティに関連付けられた識別子の発音に基づく、ことと、
前記エンティティに関連付けられたコンテンツ項目を読み出すことと
を含む、方法。
【請求項2】
前記1つ以上の代替テキスト表現は、前記エンティティの音素表現を備えている、請求項1に記載の方法。
【請求項3】
前記1つ以上の代替テキスト表現は、発音に基づく前記エンティティの代替スペルを備えている、請求項1および2のいずれかに記載の方法。
【請求項4】
前記エンティティの前記1つ以上の代替テキスト表現は、前の発話→テキスト変換に基づいて生成されたテキスト文字列を備えている、請求項1-3のいずれかに記載の方法。
【請求項5】
前記1つ以上の代替テキスト表現は、複数の代替テキスト表現を備え、前記複数の代替テキスト表現のうちの各代替テキスト表現は、
第1のテキスト表現をオーディオファイルに変換することと、
前記オーディオファイルを第2のテキスト表現に変換することと
によって生成され、
前記第2のテキスト表現は、前記第1のテキスト表現と同一ではない、請求項1-4のいずれかに記載の方法。
【請求項6】
前記エンティティを識別することは、ユーザプロファイル情報にさらに基づく、請求項1-5のいずれかに記載の方法。
【請求項7】
前記エンティティを識別することは、前記エンティティに関連付けられた人気情報にさらに基づく、請求項1-6のいずれかに記載の方法。
【請求項8】
前記エンティティを識別することは、
前記複数のエンティティを識別することであって、それぞれのメタデータが、前記複数のエンティティのうちの各エンティティに関して記憶されている、ことと、
前記それぞれの1つ以上の代替テキスト表現を前記テキストクエリと比較することに基づいて、前記複数のエンティティのうちの各それぞれのエンティティに関して、それぞれのスコアを決定することと、
最大スコアを決定することによって、前記エンティティを選択することと
を含む、請求項1-7のいずれかに記載の方法。
【請求項9】
複数のテキストクエリを生成することをさらに含み、前記複数のテキストクエリは、前記テキストクエリを備え、前記複数のテキストクエリのうちの各テキストクエリは、前記制御回路の発話→テキストモジュールのそれぞれの設定に基づいて生成される、請求項1-8のいずれかに記載の方法
【請求項10】
前記複数のテキストクエリのうちのそれぞれのテキストクエリに基づいて、それぞれのエンティティを識別することと、
前記それぞれのテキストクエリの前記それぞれのエンティティに関連付けられたメタデータとの比較に基づいて、前記それぞれのエンティティに関するそれぞれのスコアを決定することと、
前記それぞれのスコアの最大スコアを選択することによって、前記エンティティを識別することと
をさらに含む、請求項9に記載の方法。
【請求項11】
音声クエリに応答するためのシステムであって、前記システムは、
メモリと、
請求項1-10のいずれかに記載の方法のステップを実装する手段と
を備えている、システム。
【請求項12】
エンコーディングされた命令を有する非一過性コンピュータ読み取り可能な媒体であって、前記命令は、制御回路によって実行されると、前記制御回路が請求項1-10のいずれかに記載の方法のステップを実行することを可能にする、非一過性コンピュータ読み取り可能な媒体。
【請求項13】
音声クエリに応答するためのシステムであって、前記システムは、請求項1-10のいずれかに記載の方法のステップを実装する手段を備えている、システム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、音声クエリを管理するためのシステムに関し、より具体的に、発音情報に基づいて音声クエリを管理するためのシステムに関する。
【発明の概要】
【課題を解決するための手段】
【0002】
会話システムでは、ユーザが音声クエリをシステムに発すると、発話は、自動発話認識(ASR)モジュールを使用して、テキストに変換される。このテキストは、次いで、会話システムへの入力を形成し、それは、テキストへの応答を決定する。例えば、ユーザが、「Tom Cruiseの映画を見せて」と言うと、ASRモジュールは、ユーザの音声をテキストに変換し、それを会話システムに発する。会話システムは、それがASRモジュールから受信したテキストに基づいて行動するに過ぎない。時として、このプロセスでは、会話システムは、単語の発音の詳細またはユーザのクエリに含まれる音を失う。発音詳細は、特に、同じ単語が、2つ以上の発音を有し、発音が、異なる意味に対応するとき、検索に役立ち得る情報を提供し得る。
【0003】
本開示は、ユーザがクエリ単語を発話すると、複数のコンテキスト入力に基づいて、検索を実施し、ユーザの意図する検索クエリを予測するシステムおよび方法を説明する。検索は、例えば、ユーザ検索履歴、ユーザの好きなものおよび嫌いなもの、一般的傾向、クエリ単語の発音詳細、および任意の他の好適な情報を含む複数のコンテキスト入力に基づき得る。アプリケーションが、音声クエリを受信し、音声クエリを表すテキストクエリを生成する。アプリケーションは、テキストクエリに含まれるテキストクエリに関連付けられたメタデータに含まれ得るか、または、データベース内のエンティティのメタデータに含まれ得る発音情報を使用して、検索結果をより正確に読み出す。いくつかの実施形態では、アプリケーションは、検索クエリからのエンティティの到達可能性を改良するために、テキスト→発話変換、および発話→テキスト変換に基づいて、メタデータを生成する。
【図面の簡単な説明】
【0004】
本開示の上記および他の目的および利点は、同様の参照記号が全体を通して同様の部分を指す付随する図面と併せて解釈される以下の詳細な説明の考慮に応じて明白であろう。
【0005】
図1図1は、本開示のいくつかの実施形態による、テキストクエリを生成するための例証的システムのブロック図を示す。
【0006】
図2図2は、本開示のいくつかの実施形態による、音声クエリに応答してコンテンツを読み出すための例証的システムのブロック図を示す。
【0007】
図3図3は、本開示のいくつかの実施形態による、発音情報を生成するための例証的システムのブロック図を示す。
【0008】
図4図4は、本開示のいくつかの実施形態による、例証的ユーザ機器のブロック図である。
【0009】
図5図5は、本開示のいくつかの実施形態による、音声クエリに応答するための例証的システムのブロック図を示す。
【0010】
図6図6は、本開示のいくつかの実施形態による、発音情報に基づいて音声クエリに応答するための例証的プロセスのフローチャートを示す。
【0011】
図7図7は、本開示のいくつかの実施形態による、代替表現に基づいて音声クエリに応答するための例証的プロセスのフローチャートを示す。
【0012】
図8図8は、本開示のいくつかの実施形態による、発音に基づいてエンティティに関するメタデータを生成するための例証的プロセスのフローチャートを示す。
【0013】
図9図9は、本開示のいくつかの実施形態による、音声クエリのエンティティに関連付けられたコンテンツを読み出すための例証的プロセスのフローチャートを示す。
【発明を実施するための形態】
【0014】
いくつかの実施形態では、本開示は、音声クエリをユーザから受信し、音声クエリを分析し、コンテンツまたは情報を検索するためのテキストクエリ(例えば、転換物)を生成するように構成されたシステムを対象とする。システムは、1つ以上のキーワードの発音に部分的に基づいて、音声クエリに応答する。例えば、英語言語では、同じスペルであるが、異なる発音を有する複数の単語が存在する。これは、特に、人々の名前に当てはまり得る。いくつかの例は、以下を含む。
【表1】
例証するために、ユーザは、「Louisのインタビューを見せて」とシステムのオーディオインターフェースに対して声に出し得る。システムは、以下等の例証的テキストクエリを生成し得る。
オプション1)「Fraud MagazineとのLouis Freehのインタビューを見せて」
オプション2)「CBSで放送されたLewis Blackのインタビューを見せて」
結果として生じるテキストクエリは、ユーザが単語「Louis」を発話した方法に依存する。ユーザが、「LOO-ee」と発音した場合、システムは、オプション1を選択するか、または、より重い重みをオプション1に適用する。ユーザが、「LOO-his」と発音した場合、システムは、オプション2を選択するか、または、より重い重みをオプション2に適用する。発音が考慮されないと、システムは、音声クエリに正確に応答することが可能ではないであろう可能性が高い。
【0015】
いくつかの状況では、人物の部分的名前を含む音声クエリは、その人を正しく検出することにおいて曖昧性を引き起こし得る(例えば、「非決定的人物検索クエリ」と称される)。例えば、ユーザが、「Tomが主演の映画を見せて」または「Louisのインタビューを見せて」と声に出す場合、システムは、ユーザが尋ねているのがTomまたはLouis/Louie/Lewisであるかを決定する必要があるであろう。発音情報に加え、システムは、例えば、ユーザ検索履歴(例えば、前のクエリおよび検索結果)、ユーザの好きなもの/嫌いなもの/選好(例えば、ユーザプロファイル情報から)、(例えば、複数のユーザの)一般的傾向、(例えば、複数のユーザの中の)人気、任意の他の好適な情報、またはそれらの任意の組み合わせ等の1つ以上のコンテキスト入力を分析し得る。システムは、自動発話認識(ASR)プロセス後、失われないように、発音情報を好適な形態において(例えば、テキストクエリ自体で、またはテキストクエリに関連付けられたメタデータで)に保持する。
【0016】
いくつかの実施形態では、システムによって使用されるための発音情報に関して、その中でシステムが検索する情報フィールドは、クエリとの比較のための発音情報を含まなければならない。例えば、情報フィールドは、発音メタデータを含むエンティティについての情報を含み得る。システムは、音素転換プロセスを実施し得、素転換プロセスは、ユーザの音声クエリを入力としてとり、それをテキストに転換し、テキストは、読み返されると、音声学的に正しく聞こえる。システムは、音素転換プロセスの出力および発音メタデータを使用して、検索結果を決定するように構成され得る。例証的例では、エンティティに関して記憶される発音メタデータは、以下を含み得る。
【表2】
【0017】
いくつかの実施形態では、本開示は、音声クエリをユーザから受信し、音声クエリを分析し、コンテンツまたは情報を検索するためのテキストクエリ(例えば、転換物)を生成するように構成されたシステムを対象とする。システムが検索する情報フィールドは、発音メタデータ、エンティティの代替テキスト表現、または両方を含む。例えば、ユーザが、音声クエリをシステムに発すると、システムは、最初に、ASRモジュールを使用して、音声をテキストに変換する。結果として生じるテキストは、次いで、会話システム(例えば、クエリに応答して、アクションを実施する)への入力を形成する。例証するために、ユーザが、「Tom Cruiseの映画を見せて」と言う場合、ASRモジュールは、ユーザの発話をテキストに変換し、テキストクエリを会話システムに発する。「Tom Cruise」に対応するエンティティが、データ内に存在する場合、システムは、それをテキスト「Tom Cruise」と合致させ、適切な結果(例えば、Tom Cruiseについての情報、Tom Cruiseを特徴とするコンテンツ、またはそのコンテンツ識別子)を返す。エンティティが、(例えば、情報フィールドの)データ内に存在し、直接、エンティティタイトルを使用してアクセスされることができるとき、エンティティは、「到達可能」と称され得る。到達可能性は、システムが検索動作を実施するために最も重要である。例えば、あるデータ(例えば、映画、芸術家、テレビシリーズ、または他のエンティティ)が、システム内に存在し、関連付けられたデータが、記憶されるが、ユーザが、その情報にアクセスすることができない場合、エンティティは、「到達不能」と称され得る。データシステム内の到達不能エンティティは、検索システムの失敗を表す。
【0018】
システムは、複数の記憶された情報の中の1つ以上のエンティティまたはコンテンツ項目を識別し得る。いくつかの実施形態では、システムは、エンティティまたはコンテンツ項目を表す第1のテキスト文字列に基づいて、オーディオファイルを生成する。第1のテキスト文字列および少なくとも1つの発話基準に基づいて、システムは、発話→テキストモジュールを使用して、オーディオファイルに基づいて、第2のテキスト文字列を生成し得る。システムは、テキスト文字列を比較し、第2のテキスト文字列が第1のテキスト文字列と同一でない場合、第2のテキスト文字列を記憶する。いくつかの実施形態では、システムは、テキスト-発話-テキスト変換からの結果を含むメタデータを生成し、検索動作中、音声クエリに応答するとき、可能な誤識別を予想する。メタデータは、到達可能性を改良するために、エンティティの代替表現を含み得る。
【0019】
図1は、本開示のいくつかの実施形態による、テキストクエリを生成するための例証的システム100のブロック図を示す。システム100は、ASRモジュール110と、会話システム120と、発音メタデータ150と、ユーザプロファイル情報160と、1つ以上のデータベース170とを含む。例えば、一緒にシステム199に含まれ得るASRモジュール110および会話システム120は、クエリアプリケーションを実装するために使用され得る。
【0020】
ユーザは、発話「先週のあのLouisのインタビューを見せて」を含むクエリ101をシステム199のオーディオインターフェースに対して声に出し得る。ASRモジュール110は、受信されたオーディオ入力をサンプリング、調整、およびデジタル化し、結果として生じるオーディオファイルを分析し、テキストクエリを生成するように構成されている。いくつかの実施形態では、ASRモジュール110は、ユーザプロファイル情報160からの情報を読み出し、テキストクエリを生成することに役立てる。例えば、ユーザに関する音声認識情報が、ユーザプロファイル情報160に記憶され得、ASRモジュール110は、音声認識情報を使用して、発話するユーザを識別し得る。さらなる例では、システム199は、好適なメモリに記憶されたユーザプロファイル情報160を含み得る。ASRモジュール110は、声に出された単語「Louis」に関する発音情報を決定し得る。テキスト単語「Louis」に関して2つ以上の発音が存在するので、システム199は、発音情報に基づいて、テキストクエリを生成する。さらに、音「Loo-his」は、「Louis」または「Lewis」としてテキストに変換され得、故に、コンテキスト情報は、音声クエリの正しいエンティティ(例えば、Louis FarrakhanにおけるようなLouisとは対照的に、Lewis BlackにおけるようなLewis)を識別することに役立ち得る。いくつかの実施形態では、会話システム120は、ASRモジュール110からの認識された単語、コンテキスト情報、ユーザプロファイル情報160、発音メタデータ150、1つ以上のデータベース170、任意の他の情報、またはそれらの任意の組み合わせに基づいて、テキストクエリを生成すること、テキストクエリに応答すること、または、両方を行うように構成される。例えば、会話システム120は、テキストクエリを生成し、次いで、合致を決定するために、テキストクエリを複数のエンティティに関する発音メタデータ150と比較し得る。さらなる例では、会話システム120は、1つ以上の認識された単語を複数のエンティティに関する発音メタデータ150と比較し、合致を決定し、次いで、識別されたエンティティに基づいて、テキストクエリを生成し得る。いくつかの実施形態では、会話システム120は、付随の発音情報を伴うテキストクエリを生成する。いくつかの実施形態では、会話システム120は、埋め込み発音情報を伴うテキストクエリを生成する。例えば、テキストクエリは、正しい文法的表現「Louis」ではなく、「loo-ee」等の単語の音素表現を含み得る。さらなる例では、発音メタデータ150は、それとテキストクエリが比較され得る1つ以上の基準音素表現を含み得る。
【0021】
ユーザプロファイル情報160は、ユーザ識別情報(例えば、名前、識別子、住所、連絡先情報)、ユーザ検索履歴(例えば、前の音声クエリ、前のテキストクエリ、前の検索結果、前の検索結果またはクエリに関するフィードバック)、ユーザ選好(例えば、検索設定、お気に入りエンティティ、2つ以上のクエリに含まれるキーワード)、ユーザが好きなもの/嫌いなもの(例えば、ソーシャルメディアアプリケーション内でユーザによってフォローされるエンティティ、ユーザ入力情報)、ユーザに接続される他のユーザ(例えば、友人、家族、ソーシャルネットワーキングアプリケーション内の連絡先、ユーザデバイスに記憶される連絡先)、ユーザ音声データ(例えば、オーディオサンプル、シグネチャ、発話パターン、またはユーザの音声を識別するためのファイル)、ユーザについての任意の他の好適な情報、またはそれらの任意の組み合わせを含み得る。
【0022】
1つ以上のデータベース170は、テキストクエリを生成すること、テキストクエリに応答すること、または、両方を行うための任意の好適な情報を含む。いくつかの実施形態では、発音メタデータ150、ユーザプロファイル情報160、または両方は、1つ以上のデータベース170に含まれ得る。いくつかの実施形態では、1つ以上のデータベース170は、複数のユーザに関する統計的情報(例えば、検索履歴、コンテンツ消費履歴、消費パターン)を含む。いくつかの実施形態では、1つ以上のデータベース170は、人、場所、オブジェクト、イベント、コンテンツ項目、1つ以上のエンティティに関連付けられたメディアコンテンツ、またはそれらの組み合わせを含む複数のエンティティについての情報を含む。
【0023】
図2は、本開示のいくつかの実施形態による、音声クエリに応答してコンテンツを読み出すための例証的システム200のブロック図を示す。システム200は、発話処理システム210と、検索エンジン220と、エンティティデータベース250と、ユーザプロファイル情報240とを含む。発話処理システム210は、オーディオファイルを識別し得、キーワードが識別され得る音素、パターン、単語、または他の要素に関して、オーディオファイルを分析し得る。いくつかの実施形態では、発話処理システム210は、時間ドメイン、スペクトルドメイン、または両方において、オーディオ入力を分析し、単語を識別し得る。例えば、発話処理システム210は、時間ドメインにおいて、オーディオ入力を分析し、発話が生じる期間を決定し得る(例えば、一時停止または沈黙の期間を排除するため)。発話処理システム210は、次いで、スペクトルドメインにおいて、各期間を分析し、キーワードが識別され得る音素、パターン、単語、または他の要素を識別し得る。発話処理システム210は、生成されたテキストクエリ、1つ以上の単語、発音情報、またはそれらの組み合わせを出力し得る。いくつかの実施形態では、発話処理システム210は、音声認識、発話認識、または両方のために、ユーザプロファイル情報240からのデータを読み出し得る。
【0024】
検索エンジン220が、発話処理システム210からの出力を受信し、検索設定221およびコンテキスト情報222と組み合わせて、テキストクエリへの応答を生成する。検索エンジン220は、ユーザプロファイル情報240を使用して、テキストクエリを生成し、それを修正し、または、それに応答し得る。検索エンジン220は、テキストクエリを使用して、エンティティ250のデータベースのデータの中を検索する。エンティティ250のデータベースは、複数のエンティティに関連付けられたメタデータ、複数のエンティティに関連付けられたコンテンツ、または両方を含み得る。例えば、データは、エンティティに関する識別子、エンティティを説明する詳細、エンティティを指すタイトル(例えば、音素表現または代替表現を含み得る)、エンティティに関連付けられた語句(例えば、音素表現または代替表現を含み得る)、エンティティに関連付けられたリンク(例えば、IPアドレス、URL、ハードウェアアドレス)、エンティティに関連付けられたキーワード(例えば、音素表現または代替表現を含み得る)、エンティティに関連付けられた任意の他の好適な情報、またはそれらの任意の組み合わせを含み得る。検索エンジン220が、テキストクエリのキーワードに合致する1つ以上のエンティティを識別すること、テキストクエリのキーワードに合致する1つ以上のコンテンツ項目を識別すること、または、両方を行うと、検索エンジン220は、次いで、テキストクエリへの応答270として、情報、コンテンツ、または両方をユーザに提供し得る。いくつかの実施形態では、検索設定221は、テキストクエリの生成、検索結果の読み出し、または両方に影響を及ぼすデータベース、エンティティ、エンティティのタイプ、コンテンツのタイプ、他の検索基準、またはそれらの任意の組み合わせを含む。いくつかの実施形態では、コンテキスト情報222は、ジャンル情報(例えば、検索フィールドをさらに絞り込むため)、キーワード、データベース識別(例えば、標的情報またはコンテンツを含む可能性が高いデータベース)、コンテンツのタイプ(例えば、日付、ジャンル、タイトル、フォーマット別)、任意の他の好適な情報、またはそれらの任意の組み合わせを含む。応答270は、例えば、コンテンツ(例えば、表示されるビデオ)、情報、検索結果の一覧、コンテンツへのリンク、任意の他の好適な検索結果、またはそれらの任意の組み合わせを含み得る。
【0025】
図3は、本開示のいくつかの実施形態による、発音情報を生成するための例証的システム300のブロック図を示す。システム300は、テキスト→発話エンジン310と、発話→テキストエンジン320とを含む。いくつかの実施形態では、システム300は、テキストまたは音声クエリから独立して、発音情報を決定する。例えば、システム300は、1つ以上のエンティティに関するメタデータ(例えば、システム100の発音メタデータ150またはシステム200のエンティティ250のデータベースに記憶されるメタデータ等)を生成し得る。テキスト→発話エンジン310は、音声クエリに含まれる可能性が高いエンティティ名または他の識別子を含み得る第1のテキスト文字列302を識別し得る。例えば、テキスト→発話エンジン310は、ユーザが、数値または英数字識別子ではなく、名前を含む音声クエリを発話する(例えば、ユーザが、「WIKI04556」ではなく、「Louis」と発話する)可能性がより高いので、「ID」フィールドではなく、エンティティメタデータの「名前」フィールドを識別し得る。テキスト→発話エンジン310は、第1のテキスト文字列に基づいて、スピーカまたは他のオーディオデバイスにおいて、オーディオ出力312を生成する。例えば、テキスト→発話エンジン310は、1つ以上の設定を使用して、生成されたオーディオ出力に影響を及ぼし得る音声詳細(例えば、男性/女性音声、アクセント、または他の詳細)、再生速度、または任意の他の好適な設定を規定し得る。発話→テキストエンジン320は、マイクロホンまたは他の好適なデバイスにおいて、オーディオ出力312からオーディオ入力313を受信し(例えば、記憶され得るオーディオファイルに加え、またはその代わりに)、オーディオ入力313のテキスト変換を生成する(例えば、記録されるオーディオのオーディオファイルを記憶することに加え、またはその代わりに)。発話→テキストエンジン320は、処理設定を使用して、新しいテキスト文字列322を生成し得る。新しいテキスト文字列322は、第1のテキスト文字列302と比較される。新しいテキスト文字列322が、テキスト文字列302と同一である場合、音声クエリが正確なテキストクエリへの変換をもたらし得るので、メタデータは、生成される必要がない。新しいテキスト文字列322が、テキスト文字列302と同一でない場合、これは、音声クエリがテキストクエリに正しくなく変換されたこともあることを示す。故に、新しいテキスト文字列322が、テキスト文字列302と同一でない場合、発話→テキストエンジン320は、新しいテキスト文字列322をテキスト文字列302が関連付けられる、エンティティに関連付けられたメタデータ内に含む。システム300は、複数のエンティティを識別し、各エンティティに関して、テキスト→発話エンジン310および発話→テキストエンジン320からの結果として生じるテキスト文字列(例えば、新しいテキスト文字列322等)を含むメタデータを生成し得る。いくつかの実施形態では、所与のエンティティに関して、テキスト→発話エンジン310、発話→テキストエンジン320、または両方は、2つ以上の設定を使用して、2つ以上の新しいテキスト文字列を生成し得る。故に、2つ以上のテキスト文字列は、テキスト文字列302と異なるので、次いで、各新しいテキスト文字列は、メタデータに記憶され得る。例えば、異なる設定から生じる異なる発音または発音の解釈は、異なる新しいテキスト文字列を生成し得、それは、異なるユーザからの音声クエリに備えて記憶され得る。代替表現(例えば、テキスト文字列302および新しいテキスト文字列322)を生成および記憶することによって、システム300は、メタデータを更新し、より正確な検索を可能にし得る(例えば、エンティティの到達可能性および検索の正確度を改良する)。
【0026】
例証的例では、エンティティに関して、システム300は、タイトルおよび関連語句を識別し、各語句をテキスト→発話エンジン310に通し、それぞれのオーディオファイルを保存し、次いで、各それぞれのオーディオファイルを発話→テキストエンジン320に通し、ASR書き起こし記録(例えば、新しいテキスト文字列322)を得る。ASR書き起こし記録が、元の語句(例えば、テキスト文字列302)と異なる場合、システム300は、ASR書き起こし記録を(例えば、メタデータに記憶されるような)エンティティの関連語句に追加する。いくつかの実施形態では、システム300は、任意の手動作業を要求せず、完全に自動化され得る(例えば、ユーザ入力は、要求されない)。いくつかの実施形態では、ユーザが、クエリを発し、所望の結果を得られないとき、システム300は、アラートされる。それに応答して、人が、クエリに関する正しいエンティティであるべきものを手動で識別する。正しくない結果は、記憶され、将来的クエリのための情報を提供する。システム300は、システムレベルではなく、メタデータレベルにおいて、潜在的不正確度に対処する。多くのエンティティに関するテキスト文字列302の分析は、全ての誤った例が、事前に(例えば、ユーザの音声クエリに先立って)識別され、解決されるように、網羅的かつ自動であり得る。システム300は、誤った例(例えば、代替表現)を生成するために、ユーザが音声クエリを提供することを要求しない。システム300は、クエリシステムとのユーザの相互作用をエミュレートし、検索を実施することにおける潜在的エラー源を予想するために使用され得る。
【0027】
ユーザは、コンテンツ、(例えば、音声クエリを解釈するための)アプリケーション、および、例えば、そのデバイス(すなわち、ユーザ機器またはオーディオ機器)、1つ以上のネットワーク接続デバイス、ディスプレイを有する1つ以上の電子デバイス、またはそれらの組み合わせのうちの1つ以上のものからの他の特徴にアクセスし得る。本開示の例証的技法のいずれかは、ユーザデバイス、ディスプレイをユーザに提供するデバイス、または、音声クエリに応答し、ディスプレイコンテンツをユーザに生成するように構成された任意の他の好適な制御回路によって実装され得る。
【0028】
図4は、例証的ユーザデバイスの一般化された実施形態を示す。ユーザ機器システム401は、ディスプレイ412、オーディオ機器414、およびユーザ入力インターフェース410を含むか、または、それらに通信可能に結合されたセットトップボックス416を含み得る。いくつかの実施形態では、ディスプレイ412は、テレビディスプレイまたはコンピュータディスプレイを含み得る。いくつかの実施形態では、ユーザ入力インターフェース410は、遠隔制御デバイスである。セットトップボックス416は、1つ以上の回路基板を含み得る。いくつかの実施形態では、1つ以上の回路基板は、処理回路、制御回路、および記憶装置(例えば、RAM、ROM、ハードディスク、リムーバブルディスク等)を含む。いくつかの実施形態では、回路基板は、入/出力経路を含む。ユーザ機器デバイス400およびユーザ機器システム401の各々は、入力/出力(以降では「I/O」)経路402を介してコンテンツおよびデータを受信し得る。I/O経路402は、処理回路406と記憶装置408とを含む制御回路404に、コンテンツおよびデータを提供し得る。制御回路404は、I/O経路402を使用して、コマンド、要求、および他の好適なデータを送信および受信するために使用され得る。I/O経路402は、制御回路404(具体的に、処理回路406)を1つ以上の通信経路(下記に説明される)に接続し得る。I/O機能は、これらの通信経路のうちの1つ以上のものによって提供され得るが、図面を過剰に複雑にすることを回避するように、図4では単一の経路として示される。セットトップボックス416が、例証のために図4に示されるが、処理回路、制御回路、および記憶装置を有する任意の好適なコンピューティングデバイスが、本開示に従って使用され得る。例えば、セットトップボックス416は、パーソナルコンピュータ(例えば、ノートブック、ラップトップ、デスクトップ)、ユーザアクセス可能クライアントデバイスをホストするネットワークベースのサーバ、非ユーザ所有デバイス、任意の他の好適なデバイス、またはそれらの任意の組み合わせによって置換または補完され得る。
【0029】
制御回路404は、処理回路406等の任意の好適な処理回路に基づき得る。本明細書で参照されるように、処理回路は、1つ以上のマイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ、プログラマブル論理デバイス、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)等に基づく回路を意味すると理解されるべきであり、マルチコアプロセッサ(例えば、デュアルコア、クアッドコア、ヘキサコア、または任意の好適な数のコア)またはスーパーコンピュータを含み得る。いくつかの実施形態では、処理回路は、複数の別個のプロセッサまたは処理ユニット、例えば、複数の同じのタイプの処理ユニット(例えば、2つのIntel Core i7プロセッサ)または複数の異なるプロセッサ(例えば、Intel Core i5プロセッサおよびIntel Core i7プロセッサ)を横断して分散される。いくつかの実施形態では、制御回路404は、メモリ(例えば、記憶装置408)に記憶されたアプリケーションのための命令を実行する。具体的に、制御回路404は、上記および下記に議論される機能を実施するようにアプリケーションによって命令され得る。例えば、アプリケーションは、命令を制御回路404に提供し、メディアガイド表示を発生させ得る。いくつかの実装では、制御回路404によって実施される任意のアクションは、アプリケーションから受信される命令に基づき得る。
【0030】
いくつかのクライアント/サーバベースの実施形態では、制御回路404は、アプリケーションサーバまたは他のネットワークまたはサーバと通信するために好適な通信回路を含む。上記に述べられる機能性を実行するための命令は、アプリケーションサーバ上に記憶され得る。通信回路は、他の機器または任意の他の好適な通信回路と通信するために、ケーブルモデム、総合サービスデジタルネットワーク(ISDN)モデム、デジタル加入者回線(DSL)モデム、電話モデム、イーサネット(登録商標)カード、または無線モデムを含み得る。そのような通信は、インターネットまたは任意の他の好適な通信ネットワークまたは経路を伴い得る。加えて、通信回路は、ユーザ機器デバイスのピアツーピア通信または互いに遠隔の場所にあるユーザ機器デバイスの通信を可能にする回路(下記により詳細に説明される)を含み得る。
【0031】
メモリは、制御回路404の一部である記憶装置408等の電子記憶デバイスであり得る。本明細書で参照されるように、語句「電子記憶デバイス」または「記憶デバイス」は、ランダムアクセスメモリ、読み取り専用メモリ、ハードドライブ、光学ドライブ、ソリッドステートデバイス、量子記憶デバイス、ゲーム機、ゲーム媒体、または任意の他の好適な固定またはリムーバブル記憶デバイス等の任意の組み合わせ等の電子データ、コンピュータソフトウェア、またはファームウェアを記憶するための任意のデバイスを意味すると理解されるべきである。記憶装置408は、本明細書に説明される種々のタイプのコンテンツおよび上記に説明されるメディアガイドデータを記憶するために使用され得る。不揮発性メモリも、(例えば、ブートアップルーチンおよび他の命令を起動するために)使用され得る。クラウドベースの記憶装置が、例えば、記憶装置408を補完するために、または記憶装置408の代わりに使用され得る。
【0032】
ユーザが、ユーザ入力インターフェース410を使用して、命令を制御回路404に送信し得る。ユーザ入力インターフェース410、ディスプレイ412、または両方は、表示を提供し、触覚入力を受信するように構成されたタッチスクリーンを含み得る。例えば、タッチスクリーンは、指、スタイラス、または両方から触覚入力を受信するように構成され得る。いくつかの実施形態では、機器デバイス400は、前向きの画面および後向きの画面、複数の前方画面、または複数の角度付き画面を含み得る。いくつかの実施形態では、ユーザ入力インターフェース410は、1つ以上のマイクロホン、ボタン、キーパッド、ユーザ入力を受信するように構成された任意の他のコンポーネント、またはそれらの組み合わせを有するリモートコントロールデバイスを含む。例えば、ユーザ入力インターフェース410は、英数字キーパッドおよびオプションを有するハンドヘルドリモートコントロールデバイスを含み得る。さらなる例では、ユーザ入力インターフェース410は、音声コマンドを受信および識別し、情報をセットトップボックス416に伝送するように構成されたマイクロホンおよび制御回路を有するハンドヘルドリモートコントロールデバイスを含み得る。
【0033】
オーディオ機器414は、ユーザデバイス400およびユーザ機器システム401の各々の他の要素と統合されるものとして提供され得るか、または、独立型ユニットであり得る。ディスプレイ412上に表示されるビデオおよび他のコンテンツのオーディオコンポーネントが、オーディオ機器414のスピーカを通して再生され得る。いくつかの実施形態では、オーディオは、受信機(図示せず)に分配され得、受信機は、オーディオを処理し、オーディオ機器414のスピーカを介して出力する。いくつかの実施形態では、例えば、制御回路404は、オーディオ機器414のスピーカを使用して、オーディオキューをユーザに、または他のオーディオフィードバックをユーザに提供するように構成される。オーディオ機器414は、音声コマンドおよび発話(例えば、音声クエリを含む)等のオーディオ入力を受信するように構成されたマイクロホンを含み得る。例えば、ユーザは、文字または単語を話し得、それらは、マイクロホンによって受信され、制御回路404によってテキストに変換される。さらなる例では、ユーザは、コマンドを声に出し得、コマンドは、マイクロホンによって受信され、制御回路404によって認識される。
【0034】
(例えば、音声クエリを管理するための)アプリケーションが、任意の好適なアーキテクチャを使用して実装され得る。例えば、独立型アプリケーションが、ユーザデバイス400およびユーザ機器システム401の各々上に完全に実装され得る。いくつかのそのような実施形態では、アプリケーションのための命令が、ローカルで(例えば、記憶装置408内に)記憶され、アプリケーションによって使用するためのデータが、周期的基準で(例えば、帯域外フィードから、インターネットリソースから、または別の好適なアプローチを使用して)ダウンロードされる。制御回路404は、記憶装置408からアプリケーションのための命令を読み出し、命令を処理し、本明細書に議論される表示のうちのいずれかを発生させ得る。処理された命令に基づいて、制御回路404は、入力がユーザ入力インターフェース410から受信されるときに実施するべきアクションの内容を決定し得る。例えば、上/下への表示上のカーソルの移動は、入力インターフェース410が、上/下ボタンが選択されたことを示すときに、処理された命令によって示され得る。本明細書に議論される実施形態のうちのいずれかを実施するためのアプリケーションおよび/または任意の命令が、コンピュータ読み取り可能な媒体上にエンコードされ得る。コンピュータ読み取り可能な媒体は、データを記憶することが可能な任意の媒体を含む。コンピュータ読み取り可能な媒体は、限定ではないが、伝搬電気または電磁信号を含み、一過性であり得るか、または、限定ではないが、ハードディスク、フロッピー(登録商標)ディスク、USBドライブ、DVD、CD、メディアカード、レジスタメモリ、プロセッサキャッシュ、ランダムアクセスメモリ(RAM)等の揮発性および不揮発性コンピュータメモリまたは記憶デバイスを含み、非一過性であり得る。
【0035】
いくつかの実施形態では、アプリケーションは、クライアント/サーバベースのアプリケーションである。ユーザデバイス400およびユーザ機器システム401の各々上で実装される、シックまたはシンクライアントによって使用するためのデータが、ユーザ機器デバイス400およびユーザ機器システム401の各々から遠隔にあるサーバに要求を発行することによって、オンデマンドで読み出される。例えば、遠隔サーバは、記憶デバイス内にアプリケーションのための命令を記憶し得る。遠隔サーバは、回路(例えば、制御回路404)を使用して、記憶された命令を処理し、上記および下記に議論される表示を発生させ得る。クライアントデバイスは、遠隔サーバによって発生させられる表示を受信し得、ユーザデバイス400上にローカルで表示のコンテンツを表示し得る。このように、命令の処理が、サーバによって遠隔で実施される一方、テキスト、キーボード、または他の視覚物を含み得る結果として生じる表示は、ユーザデバイス400上にローカルで提供される。ユーザデバイス400は、入力インターフェース410を介してユーザから入力を受信し、対応する表示を処理し、発生させるために、それらの入力を遠隔サーバに伝送し得る。例えば、ユーザデバイス400は、上/下ボタンが入力インターフェース410を介して選択されたことを示す通信を遠隔サーバに伝送し得る。遠隔サーバは、その入力に従って命令を処理し、入力に対応するアプリケーションの表示(例えば、カーソルを上/下に移動させる表示)を発生させ得る。発生させられた表示は、次いで、ユーザへの提示のためにユーザデバイス400に伝送される。
【0036】
いくつかの実施形態では、アプリケーションは、ダウンロードされ、インタープリタまたは仮想マシン(例えば、制御回路404によって起動される)によって解釈され、または別様に起動される。いくつかの実施形態では、アプリケーションは、ETVバイナリ交換形式(EBIF)でエンコードされ、好適なフィードの一部として制御回路によって受信され、制御回路404上で起動するユーザエージェントによって解釈され得る。例えば、アプリケーションは、EBIFアプリケーションであり得る。いくつかの実施形態では、アプリケーションは、制御回路404によって実行されるローカル仮想マシンまたは他の好適なミドルウェアによって受信および起動される一連のJAVA(登録商標)ベースのファイルによって定義され得る。
【0037】
図5は、本開示のいくつかの実施形態による、音声クエリに応答するための例証的ネットワーク配置500のブロック図を示す。例証的システム500は、ユーザが、音声クエリをユーザデバイス550において提供すること、コンテンツをユーザデバイス550のディスプレイ上で視聴すること、または両方を行う状況を表し得る。システム500では、2つ以上のタイプのユーザデバイスが存在し得るが、1つのみのが、図面を過度に複雑にすることを回避するために、図5に示される。加えて、各ユーザは、2つ以上のタイプのユーザデバイスを利用し、2つ以上の各タイプのユーザデバイスも利用し得る。ユーザデバイス550は、図4のユーザデバイス400、ユーザ機器システム401、任意の他の好適なデバイス、またはそれらの任意の組み合わせと同じであり得る。
【0038】
無線対応デバイスとして図示されるユーザデバイス550は、通信ネットワーク510に結合され得る(例えば、インターネットに接続される)。例えば、ユーザデバイス550は、通信経路(例えば、アクセスポイントを含み得る)を介して、通信ネットワーク510に結合される。いくつかの実施形態では、ユーザデバイス550は、有線接続を介して通信ネットワーク510に結合されるコンピューティングデバイスであり得る。例えば、ユーザデバイス550は、LANへの有線接続またはネットワーク510への任意の他の好適な通信リンクも含み得る。通信ネットワーク510は、インターネット、携帯電話ネットワーク、モバイル音声またはデータネットワーク(例えば、4GまたはLTEネットワーク)、ケーブルネットワーク、公衆交換電話網、または他のタイプの通信ネットワークまたは通信ネットワークの組み合わせを含む1つ以上のネットワークであり得る。通信経路は、衛星経路、光ファイバ系経路、ケーブル経路、インターネット通信をサポートする経路、自由空間接続(例えば、ブロードキャストまたは他の無線信号のため)、または任意の他の好適な有線または無線通信経路またはそのような経路の組み合わせ等の1つ以上の通信経路を含み得る。通信経路は、ユーザデバイス550とネットワークデバイス520との間に描かれないが、これらのデバイスは、上記に説明されるもの等の通信経路、およびUSBケーブル、IEEE1394ケーブル、無線経路(例えば、Bluetooth(登録商標)、赤外線、IEEE802-11x等)等の他の短範囲2地点間通信経路、または有線または無線経路を介した他の短範囲通信を介して、直接、互いに通信し得る。BLUETOOTH(登録商標)は、Bluetooth(登録商標) SIG,Inc.によって所有される認証マークである。デバイスはまた、通信ネットワーク510を介した間接経路を通して、直接、互いに通信し得る。
【0039】
図示されるようなシステム500は、好適な通信経路を介して通信ネットワーク510に結合されるネットワークデバイス520(例えば、サーバまたは他の好適なコンピューティングデバイス)を含む。ネットワークデバイス520とユーザデバイス550との間の通信は、1つ以上の通信経路を経由して交換され得るが、図面を過度に複雑にすることを回避するために、図5では、単一経路として示される。ネットワークデバイス520は、データベースと、1つ以上のアプリケーション(例えば、アプリケーションサーバ、ホストサーバとして)とを含み得る。複数のネットワークエンティティが、存在し、ネットワーク510と通信し得るが、1つのみが、図面を過度に複雑にすることを回避するために、図5に示される。いくつかの実施形態では、ネットワークデバイス520は、1つのソースデバイスを含み得る。いくつかの実施形態では、ネットワークデバイス520は、多くのユーザデバイス(例えば、ユーザデバイス550)におけるアプリケーションのインスタンスと通信するアプリケーションを実装する。例えば、ソーシャルメディアアプリケーションのインスタンスが、ユーザデバイス550上に実装され得、アプリケーション情報は、ユーザに関するプロファイル情報を記憶し得るネットワークデバイス520に、および、それから通信される(例えば、現在のソーシャルメディアフィードが、ユーザデバイス550以外のデバイス上で利用可能であるように)。さらなる例では、検索アプリケーションのインスタンスが、ユーザデバイス550上に実装され得、アプリケーション情報は、ユーザに関するプロファイル情報、複数のユーザからの検索履歴、エンティティ情報(例えば、コンテンツおよびメタデータ)、任意の他の好適な情報、またはそれらの任意の組み合わせを記憶し得るネットワークデバイス520に、および、それから通信される。
【0040】
いくつかの実施形態では、ネットワークデバイス520は、例えば、エンティティ情報、メタデータ、コンテンツ、履歴通信および検索記録、ユーザ選好、ユーザプロファイル情報、任意の他の好適な情報、またはそれらの任意の組み合わせを含む、記憶された情報のうちの1つ以上のタイプを含む。ネットワークデバイス520は、アプリケーションホストデータベースまたはサーバ、プラグイン、ソフトウェア開発者キット(SDK)、アプリケーションプログラミングインターフェース(API)、または、(例えば、ユーザデバイスにダウンロードされるような)ソフトウェアを提供すること、(例えば、ユーザデバイスによってアクセスされるアプリケーションをホストする)ソフトウェアを遠隔で起動すること、または、別様に、アプリケーションサポートをユーザデバイス550のアプリケーションに提供することを行うように構成された他のソフトウェアツールを含み得る。いくつかの実施形態では、ネットワークデバイス520からの情報は、クライアント/サーバアプローチを使用して、ユーザデバイス550に提供される。例えば、ユーザデバイス550は、情報をサーバからプルし得るか、または、サーバは、情報をユーザデバイス550にプッシュし得る。いくつかの実施形態では、ユーザデバイス550上に常駐するアプリケーションクライアントは、ネットワークデバイス520とのセッションを開始し、必要に応じて(例えば、データが、古くなると、またはユーザデバイスが、データを受信するための要求をユーザから受信すると)、情報を取得し得る。いくつかの実施形態では、情報は、ユーザ情報(例えば、ユーザプロファイル情報、ユーザ作成コンテンツ)を含み得る。例えば、ユーザ情報は、ユーザが関わるコンテンツトランザクション、ユーザが実施した検索、ユーザが消費したコンテンツ、ユーザがソーシャルネットワークと相互作用するかどうか、任意の他の好適な情報、またはそれらの任意の組み合わせ等の現在および/または履歴ユーザアクティビティ情報を含み得る。いくつかの実施形態では、ユーザ情報は、ある期間にわたって、所与のユーザのパターンを識別し得る。図示されるように、ネットワークデバイス520は、複数のエンティティに関するエンティティ情報を含む。エンティティ情報521、522、および523は、それぞれのエンティティに関するメタデータを含む。それに関してメタデータがネットワークデバイス520に記憶されているエンティティは、互いにリンクされ得るか、互いに参照され得るか、メタデータ内に1つ以上のタグによって記述され得るか、またはそれらの組み合わせであり得る。
【0041】
いくつかの実施形態では、アプリケーションは、ユーザデバイス550、ネットワークデバイス520、または両方上に実装され得る。例えば、アプリケーションは、ソフトウェアまたは実行可能命令の組として実装され得、それらは、ユーザデバイス550、ネットワークデバイス520、または両方の記憶装置に記憶され、それぞれのデバイスの制御回路によって実行され得る。いくつかの実施形態では、アプリケーションは、クライアント/サーバベースのアプリケーションとして実装されるオーディオ記録アプリケーション、発話→テキストアプリケーション、テキスト→発話アプリケーション、音声-認識アプリケーション、またはそれらの組み合わせを含み得、クライアントアプリケーションのみが、ユーザデバイス550上に常駐し、サーバアプリケーションは、遠隔サーバ(例えば、ネットワークデバイス520)上に常駐する。例えば、アプリケーションは、部分的に、クライアントアプリケーションとして、ユーザデバイス550上に(例えば、ユーザデバイス550の制御回路によって)、部分的に、遠隔サーバ上に、遠隔サーバの制御回路(例えば、ネットワークデバイス520の制御回路)上で起動するサーバアプリケーションとして、実装され得る。遠隔サーバの制御回路によって実行されると、アプリケーションは、ディスプレイを生成し、生成されたディスプレイをユーザデバイス550に伝送するように制御回路に命令し得る。サーバアプリケーションは、ユーザデバイス550上への記憶のためにデータを伝送するように遠隔デバイスの制御回路に命令し得る。クライアントアプリケーションは、アプリケーションディスプレイを生成するように受信側ユーザデバイスの制御回路に命令し得る。
【0042】
いくつかの実施形態では、システム500の配置は、クラウドベースの配置である。クラウドは、例の中でもとりわけ、情報記憶、検索、メッセージング、またはソーシャルネットワーキングサービス等のサービスへのアクセス、およびユーザデバイスに関して上記に説明される任意のコンテンツへのアクセスを提供する。サービスは、クラウド-コンピューティングサービスプロバイダを通して、またはオンラインサービスの他のプロバイダを通して、クラウド内に提供されることができる。例えば、クラウドベースのサービスは、ユーザソースコンテンツが接続されるデバイス上での他者による視聴のために配信される記憶サービス、共有サイト、ソーシャルネットワーキングサイト、検索エンジン、または他のサービスを含むことができる。これらのクラウドベースのサービスは、ユーザデバイスが、情報をローカルで記憶し、ローカルで記憶された情報にアクセスするのではなく、情報をクラウドに記憶し、情報をクラウドから受信することを可能にし得る。クラウドリソースは、例えば、ウェブブラウザ、メッセージングアプリケーション、ソーシャルメディアアプリケーション、デスクトップアプリケーション、またはモバイルアプリケーションを使用して、ユーザデバイスによってアクセスされ得、オーディオ記録アプリケーション、発話→テキストアプリケーション、テキスト→発話アプリケーション、音声-認識アプリケーション、および/またはそれらのアクセスアプリケーションの任意の組み合わせを含み得る。ユーザデバイス550は、アプリケーション配信のためにクラウドコンピューティングに依拠するクラウドクライアントであり得るか、または、ユーザデバイス550は、クラウドリソースへのアクセスを伴わずに、いくつかの機能性を有し得る。例えば、ユーザデバイス550上で起動するいくつかのアプリケーションは、クラウドアプリケーション(例えば、インターネットを経由してサービスとして配信されるアプリケーション)であり得る一方、他のアプリケーションは、ユーザデバイス550上で記憶および起動され得る。いくつかの実施形態では、ユーザデバイス550は、複数のクラウドリソースからの情報を同時に受信し得る。
【0043】
例証的例では、ユーザは、音声クエリをユーザデバイス550に発話し得る。音声クエリは、ユーザデバイス550のオーディオインターフェースによって記録され、アプリケーション560によってサンプリングおよびデジタル化され、アプリケーション560によってテキストクエリに変換される。アプリケーション560は、テキストクエリとともに、発音も含み得る。例えば、テキストクエリの1つ以上の単語が、適切なスペルではなく、音素記号によって表され得る。さらなる例では、発音メタデータは、テキストクエリの1つ以上の単語の音素表現を含むテキストクエリとともに記憶され得る。いくつかの実施形態では、アプリケーション560は、エンティティ、コンテンツ、メタデータ、またはそれらの組み合わせのデータベースの中を検索するために、テキストクエリおよび任意の好適な発音情報をネットワークデバイス520に伝送する。ネットワークデバイス520は、テキストクエリに関連付けられたエンティティ、テキストクエリに関連付けられたコンテンツ、または両方を識別し、その情報をユーザデバイス550に提供し得る。
【0044】
例えば、ユーザは、「Tom Cruiseの映画を見せて」とユーザデバイス550のマイクロホンに発話し得る。アプリケーション560は、テキストクエリ「Tom Cruiseの映画」を生成し、テキストクエリをネットワークデバイス520に伝送し得る。ネットワークデバイス520は、エンティティ「Tom Cruise」を識別し、次いで、エンティティにリンクされる映画を識別し得る。ネットワークデバイス520は、次いで、コンテンツ(例えば、ビデオファイル、トレーラ、またはクリップ)、コンテンツ識別子(例えば、映画タイトルおよび画像)、コンテンツアドレス(例えば、URL、ウェブサイト、またはIPアドレス)、任意の他の好適な情報、またはそれらの任意の組み合わせをユーザデバイス550に伝送し得る。「Tom」および「Cruise」の発音は、概して、曖昧ではないので、アプリケーション560は、この状況では、発音情報を生成する必要はない。
【0045】
さらなる例では、ユーザは、「Louisとのインタビューを見せて」とユーザデバイス550のマイクロホンに発話し得、ユーザは、名前Louisを「loo-ihs」ではなく、「loo-ee」と発音する。いくつかの実施形態では、アプリケーション560は、テキストクエリ「Louisとのインタビュー」を生成し、「loo-ee」としての音素表現を含むメタデータとともに、テキストクエリをネットワークデバイス520に伝送し得る。いくつかの実施形態では、アプリケーション560は、テキストクエリ「Loo-eeとのインタビュー」を生成し、テキストクエリをネットワークデバイス520に伝送し得、テキストクエリ自体は、発音情報(例えば、この例では、音素表現)を含む。名前Louisは、一般的であるので、この識別子を含む、多くのエンティティが存在し得る。いくつかの実施形態では、ネットワークデバイス520は、「loo-ee」を音素表現として有する発音タグを含むメタデータを有するエンティティを識別し得る。いくつかの実施形態では、ネットワークデバイス520は、トレンド検索、ユーザの検索履歴、または他のコンテキスト情報を読み出し、ユーザが指す可能性が高いエンティティを識別し得る。例えば、ユーザは、「FBI」を以前に検索していることもあり、エンティティLouis Freeh(例えば、FBIの前長官)は、「FBI」に関するタグを含むメタデータを含み得る。エンティティが、識別されると、ネットワークデバイス520は、次いで、コンテンツ(例えば、インタビューのビデオファイルまたはクリップ)、コンテンツ識別子(例えば、インタビューからのファイルタイトルおよび静止画像)、コンテンツアドレス(例えば、インタビューの1つ以上のビデオファイルをストリーミングするためのURL、ウェブサイト、またはIPアドレス)、Louis Freehに関連する任意の他の好適な情報、またはそれらの任意の組み合わせをユーザデバイス550に伝送し得る。「Louis」の発音は、曖昧であり得るので、アプリケーション560は、そのような状況では、発音情報を生成し得る。
【0046】
例証的例では、ユーザは、「William Djoko」とユーザデバイス550のマイクロホンに発話し得る。アプリケーション560は、エンティティの正しいスペルに対応していないこともあるテキストクエリを生成し得る。例えば、音声クエリ「William Djoko」は、「William gjoka」として、テキストに変換され得る。この正しくないテキスト変換は、正しいエンティティを識別することにおいて困難をもたらし得る。いくつかの実施形態では、エンティティWilliam Djokoに関連付けられたメタデータは、発音に基づく代替表現を含む。エンティティ「William Djoko」に関するメタデータは、表1に示されるように、発音タグ(例えば、「関連語句」)を含み得る。
【表3】
テキストクエリは、正しくないスペルを含み得るが、正しいエンティティに関連付けられたメタデータが、変形例を含むので、正しいエンティティが、識別され得る。故に、ネットワークデバイス520は、代替表現を含むエンティティ情報を含み得、したがって、語句「William gjoka」を含むテキストクエリに応答して、正しいエンティティを識別し得る。エンティティが、識別されると、ネットワークデバイス520は、次いで、コンテンツ(例えば、オーディオまたはビデオファイルクリップ)、コンテンツ識別子(例えば、曲またはアルバムタイトルおよびコンサートからの静止画像)、コンテンツアドレス(例えば、音楽の1つ以上のオーディオファイルをストリーミングするためのURL、ウェブサイト、またはIPアドレス)、William Djokoに関連する任意の他の好適な情報、またはそれらの任意の組み合わせをユーザデバイス550に伝送し得る。名前「Djoko」は、発話から正しくなく変換され得るので、アプリケーション560は、そのような状況では、正しいエンティティを識別するための発音情報をメタデータ内への記憶のために生成し得る。
【0047】
上記の例証的例では、エンティティWilliam Djokoの到達可能性は、特に、ASRプロセスがエンティティ名の文法的に正しくないテキスト変換をもたらし得るので、代替表現を記憶することによって改良される。
【0048】
例証的例では、メタデータは、ユーザの音声クエリに応答してではなく、(例えば、テキストクエリまたは他の検索および読み出しプロセスによる)後の参照のために、発音に基づいて生成され得る。いくつかの実施形態では、ネットワークデバイス520、ユーザデバイス550、または両方は、発音情報に基づいて、メタデータを生成し得る。例えば、ユーザデバイス550は、エンティティの代替表現のユーザ入力を受信し得る(例えば、前の検索結果または発話→テキスト変換に基づいて)。いくつかの実施形態では、ネットワークデバイス520、ユーザデバイス550、または両方は、テキスト→発話モジュールおよび発話→テキストモジュールを使用して、エンティティに関するメタデータを自動的に生成し得る。例えば、アプリケーション560は、エンティティのテキスト表現(例えば、エンティティの名前のテキスト文字列)を識別し、テキスト表現をテキスト→発話モジュールに入力し、オーディオファイルを生成し得る。いくつかの実施形態では、テキスト→発話モジュールは、1つ以上の設定または基準(それらを用いてオーディオファイルが生成される)を含む。例えば、設定または基準は、言語(例えば、英語、スペイン語、マンダリン)、アクセント(例えば、地方または言語ベース)、音声(例えば、特定の人の音声、男性音声、女性音声)、速度(例えば、オーディオファイルの関連部分の再生時間)、発音(例えば、複数の音素変形例に関して)、任意の他の好適な設定または基準、またはそれらの任意の組み合わせを含み得る。アプリケーション560は、次いで、オーディオファイルを発話→テキストモジュールに入力し、結果として生じるテキスト表現を生成する。結果として生じるテキスト表現が、元のテキスト表現と同一でない場合、アプリケーション560は、結果として生じるテキスト表現をエンティティに関連付けられたメタデータに記憶し得る。いくつかの実施形態では、アプリケーション560は、種々の設定または基準のためのこのプロセスを繰り返し、したがって、メタデータに記憶され得る種々のテキスト表現を生成し得る。結果として生じるメタデータは、可能性が高い変形例を予想するためのテキスト-発話-テキスト変換を使用して生成された変形例とともに、元のテキスト表現を含む。故に、アプリケーション560が、音声クエリをユーザから受信し、テキストへの転換が、エンティティ識別子に正確に合致しないとき、アプリケーション560は、依然として、正しいエンティティを識別し得る。さらに、アプリケーション560は、メタデータが変形例を含むので、発音情報に関してテキストクエリを分析する必要はない(例えば、分析は、リアルタイムでではなく、事前に実施される)。
【0049】
アプリケーション560は、例えば、オーディオ記録、発話認識、発話→テキスト変換、テキスト→発話変換、クエリ生成、検索エンジン機能性、コンテンツ読み出し、ディスプレイ生成、コンテンツ提示、メタデータ生成、データベース機能性、またはそれらの組み合わせ等の任意の好適な機能性を含み得る。いくつかの実施形態では、アプリケーション560の側面は、2つ以上のデバイスを横断して実装される。いくつかの実施形態では、アプリケーション560は、単一デバイス上に実装される。例えば、エンティティ情報521、522、および523は、ユーザデバイス550のメモリ記憶装置に記憶され得、アプリケーション560によってアクセスされ得る。
【0050】
図6は、本開示のいくつかの実施形態による、発音情報に基づいて音声クエリに応答するための例証的プロセス600のフローチャートを示す。例えば、クエリアプリケーションは、図4のユーザデバイス400、図4のユーザ機器システム401、図5のユーザデバイス550、図5のネットワークデバイス520、任意の他の好適なデバイス、またはそれらの任意の組み合わせ等の任意の好適なハードウェア上に実装されたプロセス600を実施し得る。さらなる例では、クエリアプリケーションは、図5のアプリケーション560のインスタンスであり得る。
【0051】
ステップ602では、クエリアプリケーションが、音声クエリを受信する。いくつかの実施形態では、オーディオインターフェース(例えば、オーディオ機器414、ユーザ入力インターフェース410、またはそれらの組み合わせ)は、オーディオ入力を受信し、電子信号を生成するマイクロホンまたは他のセンサを含み得る。いくつかの実施形態では、オーディオ入力は、アナログセンサにおいて受信され、アナログセンサは、アナログ信号を提供し、アナログ信号は、オーディオファイルを生成するために、調整、サンプリング、デジタル化される。オーディオファイルは、次いで、ステップ604および606において、クエリアプリケーションによって分析され得る。いくつかの実施形態では、オーディオファイルは、メモリ(例えば、記憶装置408)に記憶される。いくつかの実施形態では、クエリアプリケーションは、ユーザインターフェース(例えば、ユーザ入力インターフェース410)を含み、それは、ユーザが、オーディオ記録を記録、再生、改変、クロッピング、可視化、または別様に管理することを可能にする。例えば、いくつかの実施形態では、オーディオインターフェースは、常時、オーディオ入力を受信するように構成される。さらなる例では、いくつかの実施形態では、オーディオインターフェースは、ユーザが指示をユーザに入力インターフェースに提供すると(例えば、タッチスクリーン上のソフトボタンを選択し、オーディオ記録を開始することによって)、オーディオ入力を受信するように構成される。さらなる例では、いくつかの実施形態では、オーディオインターフェースは、オーディオ入力を受信し、発話または他の好適なオーディオ信号が検出されると、記録を開始するように構成される。クエリアプリケーションは、オーディオ入力を記憶されたオーディオファイルに変換するために、任意の好適な調整ソフトウェアまたはハードウェアを含み得る。例えば、クエリアプリケーションは、1つ以上のフィルタ(例えば、低域通過、高域通過、ノッチフィルタ、または帯域通過フィルタ)、増幅器、デジメータ、または他の調整を適用し、オーディオファイルを生成し得る。さらなる例では、クエリアプリケーションは、圧縮、転換(例えば、スペクトル変換、ウェーブレット変換)、正規化、等化、切り捨て(例えば、時間またはスペクトルドメインにおいて)、任意の他の好適な処理、またはそれらの任意の組み合わせ等の任意の好適な処理を調整された信号に適用し、オーディオファイルを生成し得る。いくつかの実施形態では、ステップ602において、制御回路が、別個のアプリケーションから、クエリアプリケーションの別個のモジュールから、ユーザ入力に基づいて、またはそれらの任意の組み合わせにおいて、オーディオファイルを受信する。例えば、ステップ602では、制御回路は、さらなる処理(例えば、プロセス600のステップ604-612)のために、記憶装置(例えば、記憶装置408)に記憶されるオーディオファイルとして、音声クエリを受信し得る。
【0052】
ステップ604では、クエリアプリケーションが、1つ以上のキーワードをステップ602の音声クエリから抽出する。いくつかの実施形態では、1つ以上のキーワードは、完全な音声クエリを表し得る。いくつかの実施形態では、1つ以上のキーワードは、重要な単語または発話の一部のみを含む。例えば、いくつかの実施形態では、クエリアプリケーションは、発話内の単語を識別し、それらの単語のうちのいくつかをキーワードとして選択し得る。例えば、クエリアプリケーションは、単語を識別し、それらの単語の中から、前置詞ではない単語を選択し得る。さらなる例では、クエリアプリケーションは、キーワードとして、少なくとも3つの文字長の単語のみを識別し得る。さらなる例では、クエリアプリケーションは、キーワードを2つ以上の単語を含む語句として識別し得(例えば、より記述的であり、より多くのコンテキストを提供するために)、それは、関連コンテンツの潜在的検索フィールドを絞り込むために有用であり得る。いくつかの実施形態では、クエリアプリケーションは、オーディオ入力からキーワードを識別するための任意の好適な基準を使用して、例えば、単語、語句、名前、場所、チャネル、メディアアセットタイトル、または他のキーワード等のキーワードを識別する。クエリアプリケーションは、任意の好適な単語検出技法、発話検出技法、パターン認識技法、信号処理技法、またはそれらの任意の組み合わせを使用して、単語を処理し得る。例えば、クエリアプリケーションは、一連の信号テンプレートをオーディオ信号の一部と比較し、合致が存在するかどうか(例えば、特定の単語がオーディオ信号に含まれるかどうか)を見出し得る。さらなる例では、クエリアプリケーションは、学習技法を適用し、音声クエリ内の単語をより良好に認識し得る。例えば、クエリアプリケーションは、複数のクエリとの関連で、複数の要求されるコンテンツ項目に関するフィードバックをユーザから集め、故に、推奨を行い、コンテンツを読み出すために、過去のデータを訓練セットとして使用し得る。いくつかの実施形態では、クエリアプリケーションは、検出された発話中、記録されたオーディオのスニペット(すなわち、短持続時間のクリップ)を記憶し、スニペットを処理し得る。いくつかの実施形態では、クエリアプリケーションは、発話の比較的に大きなセグメント(例えば、10秒を上回る)をオーディオファイルとして記憶し、ファイルを処理する。いくつかの実施形態では、クエリアプリケーションは、発話を処理し、継続的な計算を使用することによって、単語を検出し得る。例えば、ウェーブレット変換が、リアルタイムで、発話に実施され、若干の時間の遅れがあっても、発話パターンの継続的な計算(例えば、単語を識別するための参照と比較され得る)を提供し得る。いくつかの実施形態では、クエリアプリケーションは、本開示に従って、単語および単語を発声したユーザ(例えば、音声認識)を検出し得る。
【0053】
いくつかの実施形態では、ステップ604において、クエリアプリケーションは、検出された単語をクエリ内で検出された単語のリストに追加する。いくつかの実施形態では、クエリアプリケーションは、これらの検出された単語をメモリに記憶し得る。例えば、クエリアプリケーションは、メモリに、ASCII文字の集合(すなわち、8ビットコード)、パターン(例えば、単語を合致させるために使用される発話信号基準を示す)、識別子(例えば、単語のためのコード)、文字列、任意の他のデータタイプ、またはそれらの任意の組み合わせとして、単語を記憶し得る。いくつかの実施形態では、メディアガイドアプリケーションは、単語が検出されるにつれて、単語をメモリに追加し得る。例えば、メディアガイドアプリケーションは、以前に検出された単語の文字列に新しく検出された単語を付加すること、新しく検出された単語を以前に検出された単語のセルアレイに追加すること(例えば、セルアレイサイズを1増加させる)、新しく検出された単語に対応する新しい変形例を作成すること、新しく作成された単語に対応する新しいファイルを作成すること、または、ステップ604において検出された1つ以上の単語を記憶することを行い得る。
【0054】
ステップ606では、クエリアプリケーションが、ステップ604の1つ以上のキーワードに関する発音情報を決定する。いくつかの実施形態では、発音情報は、1つ以上のキーワードの音素表現(例えば、国際音声記号を使用する)を含む。いくつかの実施形態では、発音情報は、発音を組み込むための1つ以上のキーワードの1つ以上の代替スペルを含む。いくつかの実施形態では、ステップ606では、制御回路が、音素表現を含むテキストクエリに関連付けられたメタデータを生成する。
【0055】
ステップ608では、クエリアプリケーションが、ステップ604の1つ以上のキーワードおよびステップ606の発音情報に基づいて、テキストクエリを生成する。クエリアプリケーションは、1つ以上のキーワードを好適な順序で(例えば、発話された順序で)配置することによって、テキストクエリを生成し得る。いくつかの実施形態では、クエリアプリケーションは、音声クエリの1つ以上の単語(例えば、短単語、前置詞、または比較的にあまり重要ではないと決定された任意の他の単語)を省略し得る。テキストクエリは、ファイル(例えば、テキストファイル)として生成され、好適な記憶装置(例えば、記憶装置408)に記憶され得る。
【0056】
ステップ610では、クエリアプリケーションが、テキストクエリおよびエンティティに関する記憶されたメタデータに基づいて、データベースの複数のエンティティの中のエンティティを識別する。いくつかの実施形態では、メタデータは、発音タグを含む。いくつかの実施形態では、クエリアプリケーションは、エンティティに対応するコンテンツ項目のメタデータタグを識別することによって、エンティティを識別し得る。例えば、コンテンツ項目は、映画内の俳優に関するタグを有する映画を含み得る。テキストクエリが俳優を含む場合、クエリアプリケーションは、合致を決定し得、合致に基づいて、コンテンツ項目に関連付けられているとして、エンティティを識別し得る。例証するために、クエリアプリケーションは、最初に、エンティティを識別し(例えば、エンティティの中を検索し)、次いで、エンティティに関連付けられたコンテンツを読み出し得るか、または、クエリアプリケーションは、最初に、コンテンツを識別し(例えば、コンテンツの中を検索し)、コンテンツに関連付けられたエンティティがテキストクエリに合致するかどうかを決定し得る。エンティティ別に、コンテンツ別に、またはその両方で配置されているデータベースが、クエリアプリケーションによって検索され得る。
【0057】
いくつかの実施形態では、クエリアプリケーションは、ユーザプロファイル情報に基づいて、エンティティを識別する。例えば、クエリアプリケーションは、前の音声クエリからの既に識別されたエンティティに基づいて、エンティティを識別し得る。さらなる例では、クエリアプリケーションは、エンティティに関連付けられた人気情報に基づいて(例えば、複数のユーザに関する検索に基づいて)、エンティティを識別し得る。いくつかの実施形態では、クエリアプリケーションは、ユーザの選好に基づいて、エンティティを識別する。例えば、1つ以上のキーワードがユーザプロファイル情報の好ましいエンティティ名または識別子に合致する場合、クエリアプリケーションは、そのエンティティを識別するか、または、そのエンティティにより重く重み付けし得る。
【0058】
いくつかの実施形態では、クエリアプリケーションは、複数のエンティティを識別すること(例えば、各エンティティに関して記憶されたメタデータを用いて)と、それぞれの発音タグをテキストクエリと比較することに基づいて、複数のエンティティの各それぞれのエンティティに関して、それぞれのスコアを決定することと、最大スコアを決定することによって、エンティティを選択することとによって、エンティティを識別する。スコアは、テキストクエリのキーワードとエンティティまたはコンテンツ項目に関連付けられたメタデータとの間で識別された合致の数に基づき得る。
【0059】
いくつかの実施形態では、クエリアプリケーションは、テキストクエリに基づいて、複数のエンティティの中の2つ以上のエンティティ(例えば、関連付けられたメタデータ)を識別する。クエリアプリケーションは、クエリのエンティティのいくつかまたは全てに関連付けられたコンテンツ項目を識別し得る。いくつかの実施形態では、クエリアプリケーションは、テキストクエリの少なくとも一部を各エンティティに関して記憶されたメタデータのタグと比較し、合致を識別することによって、エンティティを識別する。
【0060】
ステップ612では、クエリアプリケーションは、エンティティに関連付けられたコンテンツ項目を読み出す。いくつかの実施形態では、クエリアプリケーションは、コンテンツ項目を識別すること、コンテンツ項目をダウンロードすること、コンテンツ項目をストリーミングすること、表示のためにコンテンツ項目を生成すること、または、それらの組み合わせを行う。例えば、音声クエリは、「最近のTom Cruiseの映画を見せて」を含み得、クエリアプリケーションは、ユーザがビデオコンテンツを視聴するために選択し得る映画「Mission Impossible:Fallout」へのリンクを提供し得る。いくつかの実施形態では、クエリアプリケーションは、テキストクエリに合致するエンティティに関連付けられた複数のコンテンツを読み出し得る。例えば、クエリアプリケーションは、本開示に従って、複数のリンク、ビデオファイル、オーディオファイル、または他のコンテンツ、または識別されたコンテンツ項目のリストを読み出し得る。
【0061】
図7は、本開示のいくつかの実施形態による、代替表現に基づいて音声クエリに応答するための例証的プロセス700のフローチャートを示す。例えば、クエリアプリケーションは、図4のユーザデバイス400、図4のユーザ機器システム401、図5のユーザデバイス550、図5のネットワークデバイス520、任意の他の好適なデバイス、またはそれらの任意の組み合わせ等の任意の好適なハードウェア上に実装されるプロセス700を実施し得る。さらなる例では、クエリアプリケーションは、図5のアプリケーション560のインスタンスであり得る。
【0062】
ステップ702では、クエリアプリケーションが、音声クエリを受信する。いくつかの実施形態では、オーディオインターフェース(例えば、オーディオ機器414、ユーザ入力インターフェース410、またはそれらの組み合わせ)は、オーディオ入力を受信し、電子信号を生成するマイクロホンまたは他のセンサを含み得る。いくつかの実施形態では、オーディオ入力は、アナログセンサにおいて受信され、アナログセンサは、アナログ信号を提供し、アナログ信号は、オーディオファイルを生成するために、調整、サンプリング、デジタル化される。オーディオファイルは、次いで、ステップ704において、クエリアプリケーションによって分析され得る。いくつかの実施形態では、オーディオファイルは、メモリ(例えば、記憶装置408)に記憶される。いくつかの実施形態では、クエリアプリケーションは、ユーザインターフェース(例えば、ユーザ入力インターフェース410)を含み、それは、ユーザが、オーディオ記録を記録、再生、改変、クロッピング、可視化、または別様に管理することを可能にする。例えば、いくつかの実施形態では、オーディオインターフェースは、常時、オーディオ入力を受信するように構成される。さらなる例では、いくつかの実施形態では、オーディオインターフェースは、ユーザが指示をユーザインターフェースに提供する(例えば、タッチスクリーン上のソフトボタンを選択し、オーディオ記録を開始することによって)と、オーディオ入力を受信するように構成される。さらなる例では、いくつかの実施形態では、オーディオインターフェースは、オーディオ入力を受信し、発話または他の好適なオーディオ信号が検出されると、記録を開始するように構成される。クエリアプリケーションは、オーディオ入力を記憶されたオーディオファイルに変換するための任意の好適な調整ソフトウェアまたはハードウェアを含み得る。例えば、クエリアプリケーションは、1つ以上のフィルタ(例えば、低域通過、高域通過、ノッチフィルタ、または帯域通過フィルタ)、増幅器、デジメータ、または他の調整を適用し、オーディオファイルを生成し得る。さらなる例では、クエリアプリケーションは、圧縮、転換(例えば、スペクトル変換、ウェーブレット変換)、正規化、等化、切り捨て(例えば、時間またはスペクトルドメインにおいて)、任意の他の好適な処理、またはそれらの任意の組み合わせ等の任意の好適な処理を調整された信号に適用し、オーディオファイルを生成し得る。いくつかの実施形態では、ステップ702では、制御回路が、別個のアプリケーションから、クエリアプリケーションの別個のモジュールから、ユーザ入力に基づいて、またはそれらの任意の組み合わせにおいてオーディオファイルを受信する。例えば、ステップ702は、さらなる処理(例えば、プロセス700のステップ704-710)のために、記憶装置(例えば、記憶装置408)に記憶されるオーディオファイルとして、音声クエリを受信することを含み得る。
【0063】
ステップ704では、クエリアプリケーションが、1つ以上のキーワードをステップ702の音声クエリから抽出する。いくつかの実施形態では、1つ以上のキーワードは、完全な音声クエリを表し得る。いくつかの実施形態では、1つ以上のキーワードは、重要な単語または発話の一部のみを含む。例えば、いくつかの実施形態では、クエリアプリケーションは、発話内の単語を識別し、それらの単語のうちのいくつかをキーワードとして選択し得る。例えば、クエリアプリケーションは、単語を識別し、それらの単語の中から、前置詞ではない単語を選択し得る。さらなる例では、クエリアプリケーションは、キーワードとして、少なくとも3つの文字長の単語のみを識別し得る。さらなる例では、クエリアプリケーションは、キーワードを2つ以上の単語を含む語句として識別し得(例えば、より記述的であり、より多くのコンテキストを提供するために)、それは、関連コンテンツの潜在的検索フィールドを絞り込むために有用であり得る。いくつかの実施形態では、クエリアプリケーションは、オーディオ入力からキーワードを識別するための任意の好適な基準を使用して、例えば、単語、語句、名前、場所、チャネル、メディアアセットタイトル、または他のキーワード等のキーワードを識別する。クエリアプリケーションは、任意の好適な単語検出技法、発話検出技法、パターン認識技法、信号処理技法、またはそれらの任意の組み合わせを使用して、単語を処理し得る。例えば、クエリアプリケーションは、一連の信号テンプレートをオーディオ信号の一部と比較し、合致が存在するかどうか(例えば、特定の単語がオーディオ信号に含まれるかどうか)を見出し得る。さらなる例では、クエリアプリケーションは、学習技法を適用し、音声クエリ内の単語をより良好に認識し得る。例えば、クエリアプリケーションは、複数のクエリとの関連で、複数の要求されるコンテンツ項目に関するフィードバックをユーザから集め、故に、推奨を行い、コンテンツを読み出すために、過去のデータを訓練セットとして使用し得る。いくつかの実施形態では、クエリアプリケーションは、検出された発話中、記録されたオーディオのスニペット(すなわち、短持続時間のクリップ)を記憶し、スニペットを処理し得る。いくつかの実施形態では、クエリアプリケーションは、発話の比較的に大きなセグメント(例えば、10秒を上回る)をオーディオファイルとして記憶し、ファイルを処理する。いくつかの実施形態では、クエリアプリケーションは、発話を処理し、継続的な計算を使用することによって、単語を検出し得る。例えば、ウェーブレット変換が、リアルタイムで、発話に実施され、若干の時間の遅れがあっても、発話パターンの継続的な計算(例えば、単語を識別するための参照と比較され得る)を提供し得る。いくつかの実施形態では、クエリアプリケーションは、本開示に従って、単語および単語を発声したユーザ(例えば、音声認識)を検出し得る。
【0064】
いくつかの実施形態では、ステップ704において、クエリアプリケーションは、検出された単語をクエリ内で検出された単語のリストに追加する。いくつかの実施形態では、クエリアプリケーションは、これらの検出された単語をメモリに記憶し得る。例えば、クエリアプリケーションは、メモリに、ASCII文字の集合(すなわち、8ビットコード)、パターン(例えば、単語を合致させるために使用される発話信号基準を示す)、識別子(例えば、単語のためのコード)、文字列、任意の他のデータタイプ、またはそれらの任意の組み合わせとして、単語を記憶し得る。いくつかの実施形態では、メディアガイドアプリケーションは、単語が検出されるにつれて、単語をメモリに追加し得る。例えば、メディアガイドアプリケーションは、以前に検出された単語の文字列に新しく検出された単語を付加すること、新しく検出された単語を以前に検出された単語のセルアレイに追加すること(例えば、セルアレイサイズを1増加させる)、新しく検出された単語に対応する新しい変形例を作成すること、新しく作成された単語に対応する新しいファイルを作成すること、または、ステップ704において検出された1つ以上の単語を記憶することを行い得る。
【0065】
ステップ706では、クエリアプリケーションが、ステップ704の1つ以上のキーワードに基づいて、テキストクエリを生成する。クエリアプリケーションは、1つ以上のキーワードを好適な順序で(例えば、発話された順序で)配置することによって、テキストクエリを生成し得る。いくつかの実施形態では、クエリアプリケーションは、音声クエリの1つ以上の単語(例えば、短単語、前置詞、または比較的にあまり重要ではないと決定された任意の他の単語)を省略し得る。テキストクエリは、ファイル(例えば、テキストファイル)として生成され、好適な記憶装置(例えば、記憶装置408)に記憶され得る。
【0066】
ステップ708では、クエリアプリケーションが、テキストクエリおよびエンティティに関するメタデータに基づいて、エンティティを識別する。メタデータは、発音に基づくエンティティの代替テキスト表現を含む。いくつかの実施形態では、クエリアプリケーションは、エンティティの代替表現に対応するコンテンツ項目のメタデータタグを識別することによって、エンティティを識別し得る。例えば、コンテンツ項目は、映画内の俳優に関するタグを有する映画を含み得、タグは、(例えば、システム300等のシステムから導出されるか、または別様にメタデータに含まれる)代替スペルを含む。テキストクエリが、俳優を含む場合、クエリアプリケーションは、合致を決定し得、合致に基づいて、コンテンツ項目に関連付けられているとして、エンティティを識別し得る。例証するために、クエリアプリケーションは、最初に、エンティティを識別し(例えば、エンティティの中を検索し)、次いで、エンティティに関連付けられたコンテンツを読み出し得るか、または、クエリアプリケーションは、最初に、コンテンツを識別し(例えば、コンテンツの中を検索し)、コンテンツに関連付けられたエンティティがテキストクエリに合致するかどうかを決定し得る。エンティティ別に、コンテンツ別に、またはその両方で配置されているデータベースが、クエリアプリケーションによって検索され得る。クエリアプリケーションは、テキストクエリの1つ以上の単語がエンティティの代替表現(例えば、エンティティに関連付けられたメタデータに記憶されるような)に合致するとき、合致を決定し得る。
【0067】
いくつかの実施形態では、クエリアプリケーションは、ユーザプロファイル情報に基づいて、エンティティを識別する。例えば、クエリアプリケーションは、前の音声クエリからの既に識別されたエンティティに基づいて、エンティティを識別し得る。さらなる例では、クエリアプリケーションは、エンティティに関連付けられた人気情報に基づいて(例えば、複数のユーザに関する検索に基づいて)、エンティティを識別し得る。いくつかの実施形態では、クエリアプリケーションは、ユーザの選好に基づいて、エンティティを識別する。例えば、1つ以上のキーワードがユーザプロファイル情報の好ましいエンティティ名または識別子の代替表現に合致する場合、クエリアプリケーションは、そのエンティティを識別するか、または、そのエンティティにより重く重み付けし得る。
【0068】
いくつかの実施形態では、クエリアプリケーションは、複数のエンティティ(例えば、各エンティティに関して記憶されたメタデータを伴う)を識別することと、それぞれのメタデータをテキストクエリと比較することに基づいて、複数のエンティティの各それぞれのエンティティに関して、それぞれのスコアを決定することと、最大スコアを決定することによって、エンティティを選択することとによって、エンティティを識別する。スコアは、テキストクエリのキーワードとエンティティまたはコンテンツ項目に関連付けられたメタデータとの間で識別された合致の数に基づき得る。
【0069】
いくつかの実施形態では、クエリアプリケーションは、テキストクエリに基づいて、複数のエンティティの中の2つ以上のエンティティ(例えば、関連付けられたメタデータ)を識別する。クエリアプリケーションは、クエリのエンティティのいくつかまたは全てに関連付けられたコンテンツ項目を識別し得る。いくつかの実施形態では、クエリアプリケーションは、テキストクエリの少なくとも一部を各エンティティに関して記憶されたメタデータのタグと比較し、合致を識別することによって、エンティティを識別する。
【0070】
ステップ710では、クエリアプリケーションは、エンティティに関連付けられたコンテンツ項目を読み出す。いくつかの実施形態では、クエリアプリケーションは、コンテンツ項目を識別すること、コンテンツ項目をダウンロードすること、コンテンツ項目をストリーミングすること、表示のためにコンテンツ項目を生成すること、または、それらの組み合わせを行う。例えば、音声クエリは、「最近のTom Cruiseの映画を見せて」を含み得、クエリアプリケーションは、ユーザがビデオコンテンツを視聴するために選択し得る映画「Mission Impossible:Fallout」へのリンクを提供し得る。いくつかの実施形態では、クエリアプリケーションは、テキストクエリに合致するエンティティに関連付けられた複数のコンテンツを読み出し得る。例えば、クエリアプリケーションは、本開示に従って、複数のリンク、ビデオファイル、オーディオファイル、または他のコンテンツ、または識別されたコンテンツ項目のリストを読み出し得る。
【0071】
図8は、本開示のいくつかの実施形態による、発音に基づいてエンティティに関するメタデータを生成するための例証的プロセス800のフローチャートを示す。例えば、アプリケーションは、図4のユーザデバイス400、図4のユーザ機器システム401、図5のユーザデバイス550、図5のネットワークデバイス520、任意の他の好適なデバイス、またはそれらの任意の組み合わせ等の任意の好適なハードウェア上に実装されたプロセス800を実施し得る。さらなる例では、アプリケーションは、図5のアプリケーション580のインスタンスであり得る。さらなる例では、図3のシステム300が、例証的プロセス800を実施し得る。
【0072】
ステップ802では、アプリケーションが、複数のエンティティのうちの情報が記憶されているエンティティを識別する。いくつかの実施形態では、アプリケーションは、所定の順序に基づいて、エンティティを選択する。例えば、アプリケーションは、エンティティをアルファベット順で選択し、プロセス800の一部を実施し得る。いくつかの実施形態では、アプリケーションは、エンティティに関するメタデータが作成されると、エンティティを識別する。例えば、アプリケーションは、エンティティがデータベース(例えば、エンティティのデータベース)に追加されると、エンティティを識別し得る。いくつかの実施形態では、アプリケーションは、検索動作が、エンティティを誤識別し、故に、代替表現が、さらなる誤識別を防止するために所望され得るとき、エンティティを識別する。いくつかの実施形態では、アプリケーションは、ユーザ入力に基づいて、エンティティを識別する。例えば、ユーザは、アプリケーションに、正しくない検索結果、到達不能エンティティ、または検索結果内で観察されるエラーに基づいて、エンティティを示し得る(例えば、好適なユーザインターフェースにおいて)。いくつかの実施形態では、アプリケーションは、検索結果におけるエラーまたは所定の順序に応答してエンティティを識別する必要はない。例えば、アプリケーションは、エンティティデータベースのエンティティをランダムに選択し、ステップ804に進み得る。いくつかの実施形態では、アプリケーションは、検索クエリ内のエンティティの人気に基づいて、エンティティを識別し得る。例えば、より大きな検索有効性は、より多くの検索クエリが正しく応答されるように、より一般的エンティティに関する代替表現を決定することによって達成され得る。さらなる例では、アプリケーションは、あまり一般的ではない、またはさらに曖昧なエンティティを識別し、非常に少ない検索クエリがこれらのエンティティを規定し得るので、それらのエンティティの到達不能性を防止し得る。アプリケーションは、任意の好適な基準を適用し、識別すべきエンティティを決定し得る。いくつかの実施形態では、アプリケーションは、ステップ802において、2つ以上のエンティティを識別し得、故に、ステップ804-810は、各識別されたエンティティに関して実施され得る。いくつかの実施形態では、アプリケーションは、エンティティではなく、またはそれに加え、コンテンツ項目を識別し得る。例えば、アプリケーションは、映画等のエンティティを識別し、次いで、そのエンティティに関連付けられた全ての他の重要なエンティティを識別し、ステップ804-810を受けることもある。
【0073】
ステップ804では、アプリケーションが、第1のテキスト文字列および少なくとも1つの発話基準に基づいて、オーディオファイルを生成する。第1のテキスト文字列は、ステップ802において識別されたエンティティを記述する。例えば、図3に図示されるように、アプリケーションは、テキスト→発話エンジン310を含み得、それは、オーディオファイルを生成するように構成され得る。アプリケーションは、マイクロホンまたは他の好適な検出デバイスによって検出され得るスピーカまたは他の好適な音生成デバイスから出力されたオーディオを生成し得る。アプリケーションは、オーディオファイルを生成および出力することにおいて1つ以上の設定または発話基準を適用し得る。例えば、生成された「音声」の側面は、任意の好適な基準に基づいて、調整または別様に選択され得る。いくつかの実施形態では、少なくとも1つの発話基準は、発音設定(例えば、1つ以上の音節、文字群、または単語が、発音される方法、または使用されるべき音素)を含む。いくつかの実施形態では、少なくとも1つの発話基準は、言語設定(例えば、言語、アクセント、地方アクセント、または他の言語情報を規定する)を含む。
【0074】
複数の発話基準を含む例証的例では、アプリケーションは、第1のテキスト文字列およびそれぞれの発話基準に基づいて、それぞれのオーディオファイルを生成し、それぞれのオーディオファイルに基づいて、それぞれの第2のテキスト文字列を生成し、それぞれの第2のテキスト文字列を第1のテキスト文字列と比較し、第1のテキスト文字列と同一でない場合、それぞれの第2のテキスト文字列を記憶し得る(例えば、エンティティに関連付けられたメタデータ内に)。
【0075】
例証的例では、アプリケーションは、第1のテキスト文字列を第1のオーディオ信号に変換し、オーディオ信号に基づいて、発話をスピーカにおいて生成し、マイクロホンを使用して、発話を検出し、第2のオーディオ信号を生成し、オーディオ信号を処理し、オーディオファイルを生成し得る。いくつかの実施形態では、アプリケーションは、テキスト→発話モジュールの少なくとも1つの発話設定に基づいて、発話をスピーカにおいて生成する。
【0076】
ステップ806では、アプリケーションが、オーディオファイルに基づいて、第2のテキスト文字列を生成する。第2のテキスト文字列は、テキスト→発話変換、または発話→テキスト変換から生じ得る差異は別として、第1のテキスト文字列に合致し、ステップ802において識別されたエンティティを記述するべきである。例えば、図3に図示されるように、アプリケーションは、発話→テキストエンジン320を含み得、それは、オーディオ入力またはその生成されたファイルを受信し、オーディオを書き起こし記録(例えば、テキスト文字列)に転換するように構成され得る。アプリケーションは、オーディオ入力をマイクロホンまたは他の好適な音検出デバイスにおいて受信し得る。アプリケーションは、オーディオファイルを受信し、調整し、テキストに変換することにおいて1つ以上の設定を適用し得る。例えば、検出された「音声」を調整および転換する側面は、任意の好適な基準に基づいて、調整または別様に選択され得る。
【0077】
例証的例では、アプリケーションは、オーディオファイルの再生をスピーカにおいて生成し、マイクロホンを使用して、再生を検出し、オーディオ信号を生成し、1つ以上の単語を識別することによって、オーディオ信号を第2のテキスト文字列に変換する。いくつかの実施形態では、アプリケーションは、発話→テキストモジュールの少なくとも1つのテキスト設定に基づいて、オーディオ信号を第2のテキスト文字列に変換する。
【0078】
ステップ808では、アプリケーションが、第2のテキスト文字列を第1のテキスト文字列と比較する。いくつかの実施形態では、アプリケーションは、第1および第2のテキスト文字列の各文字を比較し、合致を決定する。いくつかの実施形態では、アプリケーションは、第1のテキスト文字列および第2のテキスト文字列が合致する程度(例えば、合致するテキスト文字列の割合、存在する相違の数、合致するか、または、合致しない、キーワードの数)を決定する。アプリケーションは、任意の好適な技法を使用して、第1および第2のテキスト文字列が、同一であるか、類似するか、または、異なるかと、それらが類似または異なる程度とを決定し得る。
【0079】
ステップ810では、アプリケーションが、第1のテキスト文字列と同一でない場合、第2のテキスト文字列を記憶する。いくつかの実施形態では、アプリケーションは、第2のテキスト文字列をエンティティに関連付けられたメタデータに記憶する。いくつかの実施形態では、ステップ810は、アプリケーションが、1つ以上のテキストクエリに基づいて、既存のメタデータを更新することを含む。例えば、クエリが、応答され、検索結果が、評価されると、アプリケーションは、メタデータを更新し、新しい学習を反映させ得る。第2のテキスト文字列が、第1のテキスト文字列と同一であると決定された場合、新しい情報は、第2のテキスト文字列を記憶することによって得られない。しかしながら、ステップ808の比較の指示は、メタデータに記憶され、音声クエリを介したエンティティの到達可能性における信頼度を増加させ得る。例えば、第2のテキスト文字列が、第1のテキスト文字列と同一である場合、それは、音声ベースのクエリに関する既存のメタデータを検証する役割を果たし得る。
【0080】
図9は、本開示のいくつかの実施形態による、音声クエリのエンティティに関連付けられたコンテンツを読み出すための例証的プロセス900のフローチャートを示す。例えば、クエリアプリケーションは、図4のユーザデバイス400、図4のユーザ機器システム401、図5のユーザデバイス550、図5のネットワークデバイス520、任意の他の好適なデバイス、またはそれらの任意の組み合わせ等の任意の好適なハードウェア上に実装されたプロセス900を実施し得る。さらなる例では、クエリアプリケーションは、図5のアプリケーション560のインスタンスであり得る。
【0081】
ステップ902では、クエリアプリケーションが、オーディオ信号をオーディオインターフェースにおいて受信する。システムは、マイクロホンまたは他のオーディオ検出デバイスを含み得、デバイスに入力されるオーディオに基づいて、オーディオファイルを記録し得る。
【0082】
ステップ904では、クエリアプリケーションが、ステップ902のオーディオ信号を解析し、発話を識別する。クエリアプリケーションは、任意の好適なデシメーション、調整(例えば、増幅、フィルタリング)、処理(例えば、時間またはスペクトルドメインにおいて)、パターン認識、アルゴリズム、転換、任意の他の好適なアクション、またはそれらの任意の組み合わせを適用し得る。いくつかの実施形態では、クエリアプリケーションは、任意の好適な技法を使用して、単語、音、語句、またはそれらの組み合わせを識別する。
【0083】
ステップ906では、クエリアプリケーションが、音声クエリが受信されたかどうかを決定する。いくつかの実施形態では、クエリアプリケーションは、オーディオ信号のパラメータに基づいて、音声クエリが受信されたことを決定する。例えば、クエリ前後の発話を伴わない期間は、記録内の音声クエリの範囲を区切り得る。いくつかの実施形態では、クエリアプリケーションは、キーワードを発話された順序で識別し、文またはクエリテンプレートをキーワードに適用し、テキストクエリを抽出する。例えば、名詞、固有名詞、動詞、形容詞、副詞、および発話の他の部分の配置は、音声クエリの開始および終了の指示を提供し得る。クエリアプリケーションは、オーディオ信号を解析する際、任意の好適な基準を適用し、テキストを抽出し得る。ステップ908では、クエリアプリケーションは、ステップ904および906の結果に基づいて、テキストクエリを生成する。いくつかの実施形態では、ステップ908において、クエリアプリケーションは、テキストクエリを好適な記憶装置(例えば、記憶装置408)に記憶し得る。ステップ906において、クエリアプリケーションが、音声クエリが受信されていない、または別様に、テキストクエリが、ステップ904の解析されるオーディオに基づいて生成されることができないことを決定する場合、クエリアプリケーションは、ステップ902に戻り、音声クエリが受信されるまで、オーディオを検出するステップに進み得る。
【0084】
ステップ910では、クエリアプリケーションが、エンティティ情報に関するデータベースにアクセスする。クエリアプリケーションは、ステップ908のテキストクエリを使用して、データベースの情報の中を検索する。クエリアプリケーションは、任意の好適な検索アルゴリズムを適用し、データベースの情報、エンティティ、またはコンテンツを識別し得る。
【0085】
ステップ912では、クエリアプリケーションが、ステップ910のデータベースのエンティティがステップ908のテキストクエリに合致するかどうかを決定する。クエリアプリケーションは、複数のエンティティを識別および評価し、合致を見出し得る。いくつかの実施形態では、テキストクエリは、2つ以上のエンティティを含み、クエリアプリケーションは、コンテンツの中を検索し、メタデータ内に関連付けられたエンティティを有するコンテンツ項目を決定する(例えば、テキストクエリとコンテンツ項目のメタデータタグを比較することによって)。いくつかの状況では、クエリアプリケーションは、合致を識別することが不可能であり得、それに応答して、検索を継続すること、別のデータベースの中を検索すること、テキストクエリを修正すること(例えば、ステップ908に戻る(図示せず))、ステップ904に戻り、ステップ904において使用される設定を修正すること(図示せず)、検索結果が見出されなかったことの指示を返すこと、任意の他の好適な応答を行うこと、または、それらの任意の組み合わせを行い得る。いくつかの実施形態では、クエリアプリケーションは、テキストクエリに合致する複数のエンティティ、コンテンツ、または両方を識別し得る。ステップ914は、クエリアプリケーションが、ステップ908のテキストクエリに関連付けられたコンテンツを識別することを含む。いくつかの実施形態では、ステップ914および910は、逆転され得、クエリアプリケーションは、テキストクエリに基づいて、コンテンツの中を検索し得る。いくつかの実施形態では、エンティティは、コンテンツ識別子を含み得、故に、ステップ910および914は、組み合わせられ得る。
【0086】
ステップ916では、クエリアプリケーションが、ステップ908のテキストクエリに関連付けられたコンテンツを読み出す。ステップ916では、例えば、クエリアプリケーションが、コンテンツ項目を識別すること、コンテンツ項目をダウンロードすること、コンテンツ項目をストリーミングすること、表示のためにコンテンツ項目またはコンテンツ項目のリスト(例えば、またはコンテンツ項目へのリンクのリスト)を生成すること、または、それらの組み合わせを行い得る。
【0087】
本開示の上記に説明される実施形態は、限定ではなく、例証の目的のために提示され、本開示は、以下に続く請求項のみによって限定される。さらに、いずれか1つの実施形態に説明される特徴および限界が、本明細書の任意の他の実施形態に適用され得、一実施形態に関するフローチャートまたは例が、好適な様式で任意の他の実施形態と組み合わせられること、異なる順序で行われること、または並行して行われ得ることに留意されたい。加えて、本明細書に説明されるシステムおよび方法は、リアルタイムで実施され得る。上記に説明されるシステムおよび/または方法が他のシステムおよび/または方法に適用される、またはそれに従って使用され得ることにも留意されたい。
本明細書は、限定ではないが、以下を含む実施形態を開示する:
(項目1)音声クエリに応答する方法であって、方法は、
音声クエリをオーディオインターフェースにおいて受信することと、
制御回路を使用して、1つ以上のキーワードを音声クエリから抽出することと、
制御回路を使用して、1つ以上のキーワードに関する発音情報を決定することと、
制御回路を使用して、1つ以上のキーワードおよび発音情報に基づいて、テキストクエリを生成することと、
テキストクエリおよびエンティティに関する記憶されたメタデータに基づいて、データベースの複数のエンティティの中のエンティティを識別することであって、メタデータは、発音タグを備えている、ことと、
エンティティに関連付けられたコンテンツ項目を読み出すことと、
を含む、方法。
(項目2)発音情報は、1つ以上のキーワードのうちの1つの音素を備えている、項目1に記載の方法。
(項目3)エンティティを識別することは、ユーザプロファイル情報にさらに基づく、項目1に記載の方法。
(項目4)エンティティを識別することは、前の音声クエリからの以前に識別されたエンティティに基づく、項目3に記載の方法。
(項目5)エンティティを識別することは、エンティティに関連付けられた人気情報にさらに基づく、項目1に記載の方法。
(項目6)エンティティを識別することは、
複数のエンティティを識別することであって、それぞれのメタデータが、複数のエンティティのうちの各エンティティに関して記憶されている、ことと、
それぞれの発音タグをテキストクエリと比較することに基づいて、複数のエンティティのうちの各それぞれのエンティティに関して、それぞれのスコアを決定することと、
最大スコアを決定することによって、エンティティを選択することと、
を含む、項目1に記載の方法。
(項目7)エンティティは、第1のエンティティであり、テキストクエリおよび第2のエンティティに関する第2のメタデータに基づいて、複数のエンティティの中の第2のエンティティを識別することをさらに含み、コンテンツ項目は、第1のエンティティおよび第2のエンティティに関連付けられている、項目1に記載の方法。
(項目8)データベースの複数のエンティティの中のエンティティを識別することは、テキストクエリの少なくとも一部を記憶されたメタデータのタグと比較し、合致を識別することを含む、項目1に記載の方法。
(項目9)1つ以上のキーワードのうちの第1のキーワードは、第1のキーワードの2つ以上の発音に関連付けられている、項目1に記載の方法。
(項目10)発音情報は、1つ以上のキーワードのうちの第1のキーワードの音素表現を備えている、項目1に記載の方法。
(項目11)音声クエリに応答するためのシステムであって、システムは、
音声クエリを受信するためのオーディオインターフェースと、
オーディオインターフェースに結合された制御回路と
を備え、
制御回路は、
1つ以上のキーワードを音声クエリから抽出することと、
1つ以上のキーワードに関する発音情報を決定抽出することと、
1つ以上のキーワードおよび発音情報に基づいて、テキストクエリを生成抽出することと、
テキストクエリおよびエンティティに関する記憶されたメタデータに基づいて、データベースの複数のエンティティの中のエンティティを識別抽出することであって、メタデータは、発音タグを備えている、ことと、
エンティティに関連付けられたコンテンツ項目を読み出すことと
を行うように構成されている、システム。
(項目12)発音情報は、1つ以上のキーワードのうちの1つの音素を備えている、項目11に記載のシステム。
(項目13)制御回路は、ユーザプロファイル情報に基づいて、エンティティを識別するようにさらに構成されている、項目11に記載のシステム。
(項目14)制御回路は、前の音声クエリから以前に識別されたエンティティに基づいて、エンティティを識別するようにさらに構成されている、項目13に記載のシステム。
(項目15)制御回路は、エンティティに関連付けられた人気情報に基づいて、エンティティを識別するようにさらに構成されている、項目11に記載のシステム。
(項目16)制御回路は、
複数のエンティティを識別することであって、それぞれのメタデータが、複数のエンティティのうちの各エンティティに関して記憶されている、ことと、
それぞれの発音タグをテキストクエリと比較することに基づいて、複数のエンティティのうちの各それぞれのエンティティに関して、それぞれのスコアを決定することと、
最大スコアを決定することによって、エンティティを選択することと
ことによって、エンティティを識別するようにさらに構成されている、項目11に記載のシステム。
(項目17)エンティティは、第1のエンティティであり、制御回路は、テキストクエリおよび第2のエンティティに関する第2のメタデータに基づいて、複数のエンティティの中の第2のエンティティを識別するようにさらに構成され、コンテンツ項目は、第1のエンティティおよび第2のエンティティに関連付けられている、項目11に記載のシステム。
(項目18)制御回路は、テキストクエリの少なくとも一部を記憶されたメタデータのタグと比較し、合致を識別することによって、データベースの複数のエンティティの中のエンティティを識別するようにさらに構成されている、項目11に記載の。
(項目19)1つ以上のキーワードのうちの第1のキーワードは、第1のキーワードの2つ以上の発音に関連付けられている、項目11に記載のシステム。
(項目20)発音情報は、1つ以上のキーワードのうちの第1のキーワードの音素表現を備えている、項目11に記載のシステム。
(項目21)エンコーディングされた命令を有する非一過性コンピュータ読み取り可能な媒体であって、命令は、制御回路によって実行されると、
音声クエリをオーディオインターフェースにおいて受信することと、
1つ以上のキーワードを音声クエリから抽出することと、
1つ以上のキーワードに関する発音情報を決定することと、
1つ以上のキーワードおよび発音情報に基づいて、テキストクエリを生成することと、
テキストクエリおよびエンティティに関する記憶されたメタデータに基づいて、データベースの複数のエンティティの中のエンティティを識別することであって、メタデータは、発音タグを備えている、ことと、
エンティティに関連付けられたコンテンツ項目を読み出すことと
を制御回路に行わせる、非一過性コンピュータ読み取り可能な媒体。
(項目22)発音情報は、1つ以上のキーワードのうちの1つの音素を備えている、項目21に記載の非一過性コンピュータ読み取り可能な媒体。
(項目23)エンコーディングされた命令をさらに備え、命令は、制御回路によって実行されると、制御回路にユーザプロファイル情報に基づいてエンティティを識別させる、項目21に記載の非一過性コンピュータ読み取り可能な媒体。
(項目24)エンコーディングされた命令をさらに備え、命令は、制御回路によって実行されると、制御回路に、前の音声クエリからの以前に識別されたエンティティに基づいて、エンティティを識別させる、項目23に記載の非一過性コンピュータ読み取り可能な媒体。
(項目25)エンコーディングされた命令をさらに備え、命令は、制御回路によって実行されると、制御回路に、エンティティに関連付けられた人気情報に基づいて、エンティティを識別させる、項目21に記載の非一過性コンピュータ読み取り可能な媒体。
(項目26)エンコーディングされた命令をさらに備え、命令は、制御回路によって実行されると、
複数のエンティティを識別することであってし、それぞれのメタデータが、複数のエンティティのうちの各エンティティに関して記憶されている、ことと、
それぞれの発音タグをテキストクエリと比較することに基づいて、複数のエンティティのうちの各それぞれのエンティティに関して、それぞれのスコアを決定することと、
最大スコアを決定することによって、エンティティを選択ることと
によって、制御回路にエンティティを識別させる、項目21に記載の非一過性コンピュータ読み取り可能な媒体。
(項目27)エンティティは、第1のエンティティであり、エンコーディングされた命令をさらに備え、命令は、制御回路によって実行されると、制御回路に、テキストクエリおよび第2のエンティティに関する第2のメタデータに基づいて、複数のエンティティの中の第2のエンティティを識別させ、コンテンツ項目は、第1のエンティティおよび第2のエンティティに関連付けられている、項目21に記載の非一過性コンピュータ読み取り可能な媒体。
(項目28)エンコーディングされた命令をさらに備え、命令は、制御回路によって実行されると、制御回路に、テキストクエリの少なくとも一部を記憶されたメタデータのタグと比較し、合致を識別することによって、データベースの複数のエンティティの中のエンティティを識別させる、項目21に記載の非一過性コンピュータ読み取り可能な媒体。
(項目29)1つ以上のキーワードのうちの第1のキーワードは、第1のキーワードの2つ以上の発音に関連付けられている、項目21に記載の非一過性コンピュータ読み取り可能な媒体。
(項目30)発音情報は、1つ以上のキーワードのうちの第1のキーワードの音素表現を備えている、項目21に記載の非一過性コンピュータ読み取り可能な媒体。
(項目31)音声クエリに応答するためのシステムであって、システムは、
音声クエリを受信する手段と、
1つ以上のキーワードを音声クエリから抽出する手段と、
1つ以上のキーワードに関する発音情報を決定する手段と、
1つ以上のキーワードおよび発音情報に基づいて、テキストクエリを生成する手段と、
テキストクエリおよびエンティティに関する記憶されたメタデータに基づいて、データベースの複数のエンティティの中のエンティティを識別する手段であって、メタデータは、発音タグを備えている、手段と、
エンティティに関連付けられたコンテンツ項目を読み出すための手段と
を備えている、システム。
(項目32)発音情報は、1つ以上のキーワードのうちの1つの音素を備えている、項目31に記載のシステム。
(項目33)エンティティを識別する手段は、ユーザプロファイル情報に基づいて、エンティティを識別する手段を備えている、項目31に記載のシステム。
(項目34)エンティティを識別する手段は、前の音声クエリからの以前に識別されたエンティティに基づいて、エンティティを識別する手段を備えている、項目33に記載のシステム。
(項目35)エンティティを識別する手段は、エンティティに関連付けられた人気情報に基づいて、エンティティを識別する手段を備えている、項目31に記載のシステム。
(項目36)エンティティを識別する手段は、
複数のエンティティを識別する手段であって、それぞれのメタデータが、複数のエンティティのうちの各エンティティに関して記憶されている、手段と、
それぞれの発音タグをテキストクエリと比較することに基づいて、複数のエンティティのうちの各それぞれのエンティティに関して、それぞれのスコアを決定する手段と、
最大スコアを決定することによって、エンティティを選択する手段と
を備えている、項目31に記載のシステム。
(項目37)エンティティは、第1のエンティティであり、テキストクエリおよび第2のエンティティに関する第2のメタデータに基づいて、複数のエンティティの中の第2のエンティティを識別する手段をさらに備え、コンテンツ項目は、第1のエンティティおよび第2のエンティティに関連付けられている、項目31に記載のシステム。
(項目38)データベースの複数のエンティティの中のエンティティを識別する手段は、テキストクエリの少なくとも一部を記憶されたメタデータのタグと比較し、合致を識別する手段を備えている、項目31に記載のシステム。
(項目39)1つ以上のキーワードのうちの第1のキーワードは、第1のキーワードの2つ以上の発音に関連付けられている、項目31に記載のシステム。
(項目40)発音情報は、1つ以上のキーワードのうちの第1のキーワードの音素表現を備えている、項目31に記載のシステム。
(項目41)音声クエリに応答する方法であって、方法は、
音声クエリをオーディオインターフェースにおいて受信することと、
制御回路を使用して、1つ以上のキーワードを音声クエリから抽出することと、
制御回路を使用して、1つ以上のキーワードに関する発音情報を決定することと、
制御回路を使用して、1つ以上のキーワードおよび発音情報に基づいて、テキストクエリを生成することと、
テキストクエリおよびエンティティに関する記憶されたメタデータに基づいて、データベースの複数のエンティティの中のエンティティを識別することであって、メタデータは、発音タグを備えている、ことと、
エンティティに関連付けられたコンテンツ項目を読み出すことと
を含む、方法。
(項目42)発音情報は、1つ以上のキーワードのうちの1つの音素を備えている、項目41に記載の方法。
(項目43)エンティティを識別することは、ユーザプロファイル情報にさらに基づく、項目41-42のいずれかに記載の方法。
(項目44)エンティティを識別することは、前の音声クエリからの以前に識別されたエンティティに基づく、項目41-43のいずれかに記載の方法。
(項目45)エンティティを識別することは、エンティティに関連付けられた人気情報にさらに基づく、項目41-44のいずれかに記載の方法。
(項目46)エンティティを識別することは、
複数のエンティティを識別することであって、それぞれのメタデータが、複数のエンティティのうちの各エンティティに関して記憶されている、ことと、
それぞれの発音タグをテキストクエリと比較することに基づいて、複数のエンティティのうちの各それぞれのエンティティに関して、それぞれのスコアを決定することと、
最大スコアを決定することによって、エンティティを選択することと
を含む、項目41-45のいずれかに記載の方法。
(項目47)エンティティは、第1のエンティティであり、テキストクエリおよび第2のエンティティに関する第2のメタデータに基づいて、複数のエンティティの中の第2のエンティティを識別することをさらに含み、コンテンツ項目は、第1のエンティティおよび第2のエンティティに関連付けられている、項目41-46のいずれかに記載の方法。
(項目48)データベースの複数のエンティティの中のエンティティを識別することは、テキストクエリの少なくとも一部を記憶されたメタデータのタグと比較し、合致を識別することを含む、項目41-47のいずれかに記載の方法。
(項目49)1つ以上のキーワードのうちの第1のキーワードは、第1のキーワードの2つ以上の発音に関連付けられている、項目41-48のいずれかに記載の方法。
(項目50)発音情報は、1つ以上のキーワードのうちの第1のキーワードの音素表現を備えている、項目41-49のいずれかに記載の方法。
(項目51)音声クエリに応答する方法であって、方法は、
音声クエリをオーディオインターフェースにおいて受信することと、
制御回路を使用して、1つ以上のキーワードを音声クエリから抽出することと、
制御回路を使用して、1つ以上のキーワードに基づいて、テキストクエリを生成することと、
テキストクエリおよびエンティティに関するメタデータに基づいて、エンティティを識別することであって、メタデータは、エンティティに関連付けられた識別子の発音に基づくエンティティの1つ以上の代替テキスト表現を備えている、ことと、
エンティティに関連付けられたコンテンツ項目を読み出すことと
を含む、方法。
(項目52)1つ以上の代替テキスト表現は、エンティティの音素表現を備えている、項目51に記載の方法。
(項目53)1つ以上の代替テキスト表現は、発音に基づくエンティティの代替スペルを備えている、項目51に記載の方法。
(項目54)エンティティの1つ以上の代替テキスト表現は、前の発話→テキスト変換に基づいて生成されたテキスト文字列を備えている、項目51に記載の方法。
(項目55)1つ以上の代替テキスト表現は、複数の代替テキスト表現を備え、複数の代替テキスト表現のうちの各代替テキスト表現は、
第1のテキスト表現をオーディオファイルに変換することと、
オーディオファイルを第2のテキスト表現に変換することであって、第2のテキスト表現は、第1のテキスト表現と同一ではない、ことと
によって生成される、項目51に記載の方法。
(項目56)エンティティを識別することは、ユーザプロファイル情報にさらに基づく、項目51に記載の方法。
(項目57)エンティティを識別することは、エンティティに関連付けられた人気情報にさらに基づく、項目51に記載の方法。
(項目58)エンティティを識別することは、
複数のエンティティを識別することであって、それぞれのメタデータが、複数のエンティティのうちの各エンティティに関して記憶されている、ことと、
それぞれの1つ以上の代替テキスト表現をテキストクエリと比較することに基づいて、複数のエンティティのうちの各それぞれのエンティティに関して、それぞれのスコアを決定することと、
最大スコアを決定することによって、エンティティを選択することと
を含む、項目51に記載の方法。
(項目59)複数のテキストクエリを生成することをさらに含み、複数のテキストクエリは、テキストクエリを備え、複数のテキストクエリのうちの各テキストクエリは、制御回路の発話→テキストモジュールのそれぞれの設定に基づいて生成される、項目51に記載の方法。
(項目60)
複数のテキストクエリのうちのそれぞれのテキストクエリに基づいて、それぞれのエンティティを識別することと、
それぞれのテキストクエリのそれぞれのエンティティに関連付けられたメタデータとの比較に基づいて、それぞれのエンティティに関するそれぞれのスコアを決定することと、
それぞれのスコアの最大スコアを選択することによって、エンティティを識別することと
をさらに含む、項目59に記載の方法。
(項目61)音声クエリに応答するためのシステムであって、システムは、
音声クエリを受信するためのオーディオインターフェースと、
制御回路と
を備え、
制御回路は、
1つ以上のキーワードを音声クエリから抽出することと、
1つ以上のキーワードに基づいて、テキストクエリを生成することと、
テキストクエリおよびエンティティに関するメタデータに基づいて、エンティティを識別することであって、メタデータは、エンティティに関連付けられた識別子の発音に基づくエンティティの1つ以上の代替テキスト表現を備えている、ことと、
エンティティに関連付けられたコンテンツ項目を読み出すことと
を行うように構成されている、システム。
(項目62)1つ以上の代替テキスト表現は、エンティティの音素表現を備えている、項目61に記載のシステム。
(項目63)1つ以上の代替テキスト表現は、発音に基づくエンティティの代替スペルを備えている、項目61に記載のシステム。
(項目64)エンティティの1つ以上の代替テキスト表現は、前の発話→テキスト変換に基づいて生成されたテキスト文字列を備えている、項目61に記載のシステム。
(項目65)1つ以上の代替テキスト表現は、複数の代替テキスト表現を備え、制御回路は、
第1のテキスト表現をオーディオファイルに変換することと、
オーディオファイルを第2のテキスト表現に変換することであって、第2のテキスト表現は、第1のテキスト表現と同一ではない、ことと
によって、複数の代替テキスト表現のうちの各代替テキスト表現を生成するように構成されている、項目61に記載のシステム。
(項目66)制御回路は、ユーザプロファイル情報に基づいて、エンティティを識別するようにさらに構成されている、項目61に記載のシステム。
(項目67)制御回路は、エンティティに関連付けられた人気情報に基づいて、エンティティを識別するようにさらに構成されている、項目61に記載のシステム。
(項目68)制御回路は、
複数のエンティティを識別することであって、それぞれのメタデータが、複数のエンティティのうちの各エンティティに関して記憶されている、ことと、
それぞれの1つ以上の代替テキスト表現をテキストクエリと比較することに基づいて、複数のエンティティのうちの各それぞれのエンティティに関して、それぞれのスコアを決定することと、
最大スコアを決定することによって、エンティティを選択することと
によって、エンティティを識別するようにさらに構成されている、項目61に記載のシステム。
(項目69)制御回路は、複数のテキストクエリを生成するようにさらに構成され、複数のテキストクエリは、テキストクエリを備え、制御回路は、発話→テキストモジュールを備え、複数のテキストクエリのうちの各テキストクエリは、発話→テキストモジュールのそれぞれの設定に基づいて生成される、項目61に記載のシステム。
(項目70)制御回路は、
複数のテキストクエリのうちのそれぞれのテキストクエリに基づいて、それぞれのエンティティを識別することと、
それぞれのテキストクエリのそれぞれのエンティティに関連付けられたメタデータとの比較に基づいて、それぞれのエンティティに関するそれぞれのスコアを決定することと、
それぞれのスコアの最大スコアを選択することによって、エンティティを識別することと
を行うようにさらに構成されている、項目69に記載のシステム。
(項目71)エンコーディングされた命令を有する非一過性コンピュータ読み取り可能な媒体であって、命令は、制御回路によって実行されると、
音声クエリをオーディオインターフェースにおいて受信することと、
1つ以上のキーワードを音声クエリから抽出することと、
1つ以上のキーワードに基づいて、テキストクエリを生成することと、
テキストクエリおよびエンティティに関するメタデータに基づいて、エンティティを識別することであって、メタデータは、エンティティに関連付けられた識別子の発音に基づくエンティティの1つ以上の代替テキスト表現を備えている、ことと、
エンティティに関連付けられたコンテンツ項目を読み出すことと
を制御回路に行わせる、非一過性コンピュータ読み取り可能な媒体。
(項目72)1つ以上の代替テキスト表現は、エンティティの音素表現を備えている、項目71に記載の非一過性コンピュータ読み取り可能な媒体。
(項目73)1つ以上の代替テキスト表現は、発音に基づくエンティティの代替スペルを備えている、項目71に記載の非一過性コンピュータ読み取り可能な媒体。
(項目74)エンティティの1つ以上の代替テキスト表現は、前の発話→テキスト変換に基づいて生成されたテキスト文字列を備えている、項目71に記載の非一過性コンピュータ読み取り可能な媒体。
(項目75)1つ以上の代替テキスト表現は、複数の代替テキスト表現を備え、エンコーディングされた命令をさらに備え、命令は、制御回路によって実行されると、制御回路に、
第1のテキスト表現をオーディオファイルに変換することと、
オーディオファイルを第2のテキスト表現に変換することであって、第2のテキスト表現は、第1のテキスト表現と同一ではない、ことと
によって、複数の代替テキスト表現のうちの各代替テキスト表現を生成させる、項目71に記載の非一過性コンピュータ読み取り可能な媒体。
(項目76)エンコーディングされた命令をさらに備え、命令は、制御回路によって実行されると、制御回路に、ユーザプロファイル情報に基づいて、エンティティを識別させる、項目71に記載の非一過性コンピュータ読み取り可能な媒体。
(項目77)エンコーディングされた命令をさらに備え、命令は、制御回路によって実行されると、制御回路に、エンティティに関連付けられた人気情報に基づいて、エンティティを識別させる、項目71に記載の非一過性コンピュータ読み取り可能な媒体。
(項目78)エンコーディングされた命令をさらに備え、命令は、制御回路によって実行されると、
複数のエンティティを識別することであって、それぞれのメタデータが、複数のエンティティのうちの各エンティティに関して記憶されている、ことと、
それぞれの1つ以上の代替テキスト表現をテキストクエリと比較することに基づいて、複数のエンティティのうちの各それぞれのエンティティに関して、それぞれのスコアを決定することと、
最大スコアを決定することによって、エンティティを選択することと、
によって、制御回路にエンティティを識別させる、項目71に記載の非一過性コンピュータ読み取り可能な媒体。
(項目79)エンコーディングされた命令をさらに備え、命令は、制御回路によって実行されると、制御回路に、複数のテキストクエリを生成させ、複数のテキストクエリは、テキストクエリを備え、複数のテキストクエリのうちの各テキストクエリは、制御回路の発話→テキストモジュールのそれぞれの設定に基づいて生成される、項目71に記載の非一過性コンピュータ読み取り可能な媒体。
(項目80)エンコーディングされた命令をさらに備え、命令は、制御回路によって実行されると、
複数のテキストクエリのうちのそれぞれのテキストクエリに基づいて、それぞれのエンティティを識別することと、
それぞれのテキストクエリのそれぞれのエンティティに関連付けられたメタデータとの比較に基づいて、それぞれのエンティティに関するそれぞれのスコアを決定することと、
それぞれのスコアの最大スコアを選択することによって、エンティティを識別することと
を制御回路に行わせる、項目79に記載の非一過性コンピュータ読み取り可能な媒体。
(項目81)音声クエリに応答するためのシステムであって、システムは、
音声クエリをオーディオインターフェースにおいて受信する手段と、
1つ以上のキーワードを音声クエリから抽出する手段と、
1つ以上のキーワードに基づいて、テキストクエリを生成する手段と、
テキストクエリおよびエンティティに関するメタデータに基づいて、エンティティを識別する手段であって、メタデータは、エンティティに関連付けられた識別子の発音に基づくエンティティの1つ以上の代替テキスト表現を備えている、手段と、
エンティティに関連付けられたコンテンツ項目を読み出すための手段と
を備えている、システム。
(項目82)1つ以上の代替テキスト表現は、エンティティの音素表現を備えている、項目81に記載のシステム。
(項目83)1つ以上の代替テキスト表現は、発音に基づくエンティティの代替スペルを備えている、項目81に記載のシステム。
(項目84)エンティティの1つ以上の代替テキスト表現は、前の発話→テキスト変換に基づいて生成されたテキスト文字列を備えている、項目81に記載のシステム。
(項目85)1つ以上の代替テキスト表現は、複数の代替テキスト表現を備え、複数の代替テキスト表現のうちの各代替テキスト表現は、
第1のテキスト表現をオーディオファイルに変換する手段と、
オーディオファイルを第2のテキスト表現に変換する手段であって、第2のテキスト表現は、第1のテキスト表現と同一ではない、手段と
によって生成される、項目81に記載のシステム。
(項目86)エンティティを識別する手段は、ユーザプロファイル情報に基づいて、エンティティを識別する手段をさらに備えている、項目81に記載のシステム。
(項目87)エンティティを識別する手段は、エンティティに関連付けられた人気情報に基づいて、エンティティを識別する手段をさらに備えている、項目81に記載のシステム。
(項目88)エンティティを識別する手段は、
複数のエンティティを識別する手段であって、それぞれのメタデータが、複数のエンティティのうちの各エンティティに関して記憶されている、手段と、
それぞれの1つ以上の代替テキスト表現をテキストクエリと比較することに基づいて、複数のエンティティのうちの各それぞれのエンティティに関して、それぞれのスコアを決定する手段と、
最大スコアを決定することによって、エンティティを選択する手段と
を備えている、項目81に記載のシステム。
(項目89)複数のテキストクエリを生成する手段をさらに備え、複数のテキストクエリは、テキストクエリを備え、複数のテキストクエリのうちの各テキストクエリは、制御回路の発話→テキストモジュールのそれぞれの設定に基づいて生成される、項目81に記載のシステム。
(項目90)
複数のテキストクエリのうちのそれぞれのテキストクエリに基づいて、それぞれのエンティティを識別する手段と、
それぞれのテキストクエリのそれぞれのエンティティに関連付けられたメタデータとの比較に基づいて、それぞれのエンティティに関するそれぞれのスコアを決定する手段と、
それぞれのスコアの最大スコアを選択することによって、エンティティを識別する手段と
をさらに備えている、項目89に記載のシステム。
(項目91)音声クエリに応答する方法であって、方法は、
音声クエリをオーディオインターフェースにおいて受信することと、
制御回路を使用して、1つ以上のキーワードを音声クエリから抽出することと、
制御回路を使用して、1つ以上のキーワードに基づいて、テキストクエリを生成することと、
テキストクエリおよびエンティティに関するメタデータに基づいて、エンティティを識別することであって、メタデータは、エンティティに関連付けられた識別子の発音に基づくエンティティの1つ以上の代替テキスト表現を備えている、ことと、
エンティティに関連付けられたコンテンツ項目を読み出すことと
を含む、方法。
(項目92)1つ以上の代替テキスト表現は、エンティティの音素表現を備えている、項目91に記載の方法。
(項目93)1つ以上の代替テキスト表現は、発音に基づくエンティティの代替スペルを備えている、項目91-92のいずれかに記載の方法。
(項目94)エンティティの1つ以上の代替テキスト表現は、前の発話→テキスト変換に基づいて生成されたテキスト文字列を備えている、項目91-93のいずれかに記載の方法。
(項目95)1つ以上の代替テキスト表現は、複数の代替テキスト表現を備え、複数の代替テキスト表現のうちの各代替テキスト表現は、
第1のテキスト表現をオーディオファイルに変換することと、
オーディオファイルを第2のテキスト表現に変換することであって、第2のテキスト表現は、第1のテキスト表現と同一ではない、ことと
によって生成される、項目91-94のいずれかに記載の方法。
(項目96)エンティティを識別することは、ユーザプロファイル情報にさらに基づく、項目91-95のいずれかに記載の方法。
(項目97)エンティティを識別することは、エンティティに関連付けられた人気情報にさらに基づく、項目91-96のいずれかに記載の方法。
(項目98)エンティティを識別することは、
複数のエンティティを識別することであって、それぞれのメタデータが、複数のエンティティのうちの各エンティティに関して記憶されている、ことと、
それぞれの1つ以上の代替テキスト表現をテキストクエリと比較することに基づいて、複数のエンティティのうちの各それぞれのエンティティに関して、それぞれのスコアを決定することと、
最大スコアを決定することによって、エンティティを選択することと
を含む、項目91-97のいずれかに記載の方法。
(項目99)複数のテキストクエリを生成することをさらに含み、複数のテキストクエリは、テキストクエリを備え、複数のテキストクエリのうちの各テキストクエリは、制御回路の発話→テキストモジュールのそれぞれの設定に基づいて生成される、項目91-98のいずれかに記載の方法。
(項目100)
複数のテキストクエリのうちのそれぞれのテキストクエリに基づいて、それぞれのエンティティを識別することと、
それぞれのテキストクエリのそれぞれのエンティティに関連付けられたメタデータとの比較に基づいて、それぞれのエンティティに関するそれぞれのスコアを決定することと、
それぞれのスコアの最大スコアを選択することによって、エンティティを識別することと
をさらに含む、項目99に記載の方法。
(項目101)音声クエリに関するエンティティメタデータを生成する方法であって、方法は、
複数のエンティティのうちの情報が記憶されているエンティティを識別することと、
テキスト→発話モジュールを使用して、第1のテキスト文字列および少なくとも1つの発話基準に基づいて、オーディオファイルを生成することであって、第1のテキスト文字列は、エンティティを記述する、ことと、
発話→テキストモジュールを使用して、オーディオファイルに基づいて、第2のテキスト文字列を生成することと、
第2のテキスト文字列を第1のテキスト文字列と比較することと、
第1のテキスト文字列と同一でない場合、エンティティに関連付けられたメタデータに第2のテキスト文字列を記憶することと
を含む、方法。
(項目102)少なくとも1つの発話基準は、発音設定を備えている、項目101に記載の方法。
(項目103)少なくとも1つの発話基準は、言語設定を備えている、項目101に記載の方法。
(項目104)少なくとも1つの発話基準は、複数の発話基準を備え、方法は、
テキスト→発話モジュールを使用して、第1のテキスト文字列およびそれぞれの発話基準に基づいて、それぞれのオーディオファイルを生成することと、
発話→テキストモジュールを使用して、それぞれのオーディオファイルに基づいて、それぞれの第2のテキスト文字列を生成することと、
それぞれの第2のテキスト文字列を第1のテキスト文字列と比較することと、
第1のテキスト文字列と同一でない場合、エンティティに関連付けられたメタデータにそれぞれの第2のテキスト文字列を記憶することと
をさらに含む、項目101に記載の方法。
(項目105)1つ以上のテキストクエリに基づいて、メタデータを更新することをさらに含む、項目101に記載の方法。
(項目106)エンティティに関連付けられたメタデータに第1のテキスト文字列の音素表現を記憶することをさらに含む、項目101に記載の方法。
(項目107)第1のテキスト文字列に基づいて、オーディオファイルを生成することは、
第1のテキスト文字列を第1のオーディオ信号に変換することと、
オーディオ信号に基づいて、発話をスピーカにおいて生成することと、
マイクロホンを使用して、発話を検出し、第2のオーディオ信号を生成することと、
オーディオ信号を処理し、オーディオファイルを生成することと
を含む、項目101に記載の方法。
(項目108)発話をスピーカにおいて生成することは、テキスト→発話モジュールの少なくとも1つの発話設定にさらに基づく、項目107に記載の方法。
(項目109)オーディオファイルに基づいて、第2のテキスト文字列を生成することは、
オーディオファイルの再生をスピーカにおいて生成することと、
マイクロホンを使用して、再生を検出し、オーディオ信号を生成することと、
1つ以上の単語を識別することによって、オーディオ信号を第2のテキスト文字列に変換することと
を含む、項目101に記載の方法。
(項目110)オーディオ信号を第2のテキスト文字列に変換することは、発話→テキストモジュールの少なくとも1つのテキスト設定に基づく、項目109に記載の方法。
(項目111)音声クエリに関するエンティティメタデータを生成するためのシステムであって、システムは、制御回路を備え、
制御回路は、
複数のエンティティのうちの情報が記憶されているエンティティを識別することと、
制御回路に結合されたオーディオインターフェースを使用して、第1のテキスト文字列および少なくとも1つの発話基準に基づいて、オーディオファイルを生成することであって、第1のテキスト文字列は、エンティティを記述する、ことと、
オーディオインターフェースを使用して、オーディオファイルに基づいて、第2のテキスト文字列を生成することと、
第2のテキスト文字列を第1のテキスト文字列と比較することと、
第1のテキスト文字列と同一でない場合、エンティティに関連付けられたメタデータに第2のテキスト文字列を記憶することと
を行うように構成されている、システム。
(項目112)少なくとも1つの発話基準は、発音設定を備えている、項目111に記載のシステム。
(項目113)少なくとも1つの発話基準は、言語設定を備えている、項目111に記載のシステム。
(項目114)少なくとも1つの発話基準は、複数の発話基準を備え、制御回路は、
オーディオ機器を使用して、第1のテキスト文字列およびそれぞれの発話基準に基づいて、それぞれのオーディオファイルを生成することと、
オーディオ機器を使用して、それぞれのオーディオファイルに基づいて、それぞれの第2のテキスト文字列を生成することと、
それぞれの第2のテキスト文字列を第1のテキスト文字列と比較することと、
第1のテキスト文字列と同一でない場合、エンティティに関連付けられたメタデータにそれぞれの第2のテキスト文字列を記憶することと
を行うようにさらに構成されている、項目111に記載のシステム。
(項目115)制御回路は、1つ以上のテキストクエリに基づいて、メタデータを更新するようにさらに構成されている、項目111に記載のシステム。
(項目116)制御回路は、エンティティに関連付けられたメタデータに第1のテキスト文字列の音素表現を記憶するようにさらに構成されている、項目111に記載のシステム。
(項目117)オーディオ機器は、スピーカとマイクロホンとを備え、制御回路は、
第1のテキスト文字列を第1のオーディオ信号に変換することと、
オーディオ信号に基づいて、発話をスピーカにおいて生成することと、
マイクロホンを使用して、発話を検出し、第2のオーディオ信号を生成することと、
オーディオ信号を処理し、オーディオファイルを生成することと
によって、第1のテキスト文字列に基づいて、オーディオファイルを生成するようにさらに構成されている、項目111に記載のシステム。
(項目118)制御回路は、少なくとも1つの発話設定に基づいて、発話をスピーカにおいて生成するようにさらに構成されている、項目117に記載のシステム。
(項目119)オーディオ機器は、スピーカとマイクロホンとを備え、制御回路は、
オーディオファイルの再生をスピーカにおいて生成することと、
再生をマイクロホンにおいて検出し、オーディオ信号を生成することと、
1つ以上の単語を識別することによって、オーディオ信号を第2のテキスト文字列に変換することと
によって、オーディオファイルに基づいて、第2のテキスト文字列を生成するようにさらに構成されている、項目111に記載のシステム。
(項目120)制御回路は、発話→テキストモジュールの少なくとも1つのテキスト設定に基づいて、オーディオ信号を第2のテキスト文字列に変換するようにさらに構成されている、項目119に記載のシステム。
(項目121)エンコーディングされた命令を有する非一過性コンピュータ読み取り可能な媒体であって、命令は、制御回路によって実行されると、
複数のエンティティのうちの情報が記憶されているエンティティを識別することと、
第1のテキスト文字列および少なくとも1つの発話基準に基づいて、オーディオファイルを生成ることであって、第1のテキスト文字列は、エンティティを記述する、ことと、
オーディオファイルに基づいて、第2のテキスト文字列を生成ることと、
第2のテキスト文字列を第1のテキスト文字列と比較することと、
第1のテキスト文字列と同一でない場合、エンティティに関連付けられたメタデータに第2のテキスト文字列を記憶することと
を制御回路に行わせる、非一過性コンピュータ読み取り可能な媒体。
(項目122)少なくとも1つの発話基準は、発音設定を備えている、項目121に記載の非一過性コンピュータ読み取り可能な媒体。
(項目123)少なくとも1つの発話基準は、言語設定を備えている、項目121に記載の非一過性コンピュータ読み取り可能な媒体。
(項目124)少なくとも1つの発話基準は、複数の発話基準を備え、エンコーディングされた命令をさらに備え、命令は、制御回路によって実行されると、
第1のテキスト文字列およびそれぞれの発話基準に基づいて、それぞれのオーディオファイルを生成することと、
それぞれのオーディオファイルに基づいて、それぞれの第2のテキスト文字列を生成することと、
それぞれの第2のテキスト文字列を第1のテキスト文字列と比較することと、
第1のテキスト文字列と同一でない場合、エンティティに関連付けられたメタデータにそれぞれの第2のテキスト文字列を記憶することと
を制御回路に行わせる、項目121に記載の非一過性コンピュータ読み取り可能な媒体。
(項目125)エンコーディングされた命令をさらに備え、命令は、制御回路によって実行されると、制御回路に、1つ以上のテキストクエリに基づいて、メタデータを更新させる、項目121に記載の非一過性コンピュータ読み取り可能な媒体。
(項目126)エンコーディングされた命令をさらに備え、命令は、制御回路によって実行されると、制御回路に、エンティティに関連付けられたメタデータに第1のテキスト文字列の音素表現を記憶させる、項目121に記載の非一過性コンピュータ読み取り可能な媒体。
(項目127)エンコーディングされた命令をさらに備え、命令は、制御回路によって実行されると、
第1のテキスト文字列を第1のオーディオ信号に変換することと、
オーディオ信号に基づいて、発話をスピーカにおいて生成することと、
マイクロホンを使用して、発話を検出し、第2のオーディオ信号を生成することと、
オーディオ信号を処理し、オーディオファイルを生成することと
を制御回路に行わせる、項目121に記載の非一過性コンピュータ読み取り可能な媒体。
(項目128)エンコーディングされた命令をさらに備え、命令は、制御回路によって実行されると、制御回路に、テキスト→発話モジュールの少なくとも1つの発話設定に基づいて、発話をスピーカにおいて生成させる、項目127に記載の非一過性コンピュータ読み取り可能な媒体。
(項目129)エンコーディングされた命令をさらに備え、命令は、制御回路によって実行されると、
オーディオファイルの再生をスピーカにおいて生成することと、
マイクロホンを使用して、再生を検出し、オーディオ信号を生成することと、
1つ以上の単語を識別することによって、オーディオ信号を第2のテキスト文字列に変換することと
を制御回路に行わせる、項目121に記載の非一過性コンピュータ読み取り可能な媒体。
(項目130)エンコーディングされた命令をさらに備え、命令は、制御回路によって実行されると、制御回路に、発話→テキストモジュールの少なくとも1つのテキスト設定に基づいて、オーディオ信号を第2のテキスト文字列に変換させる、項目129に記載の非一過性コンピュータ読み取り可能な媒体。
(項目131)音声クエリに関するエンティティメタデータを生成するためのシステムであって、システムは、
複数のエンティティのうちの情報が記憶されているエンティティを識別する手段と、
第1のテキスト文字列および少なくとも1つの発話基準に基づいて、オーディオファイルを生成する手段であって、第1のテキスト文字列は、エンティティを記述する、手段と、
オーディオファイルに基づいて、第2のテキスト文字列を生成する手段と、
第2のテキスト文字列を第1のテキスト文字列と比較する手段と、
第1のテキスト文字列と同一でない場合、エンティティに関連付けられたメタデータに第2のテキスト文字列を記憶する手段と
を備えている、システム。
(項目132)少なくとも1つの発話基準は、発音設定を備えている、項目131に記載のシステム。
(項目133)少なくとも1つの発話基準は、言語設定を備えている、項目131に記載のシステム。
(項目134)少なくとも1つの発話基準は、複数の発話基準を備え、システムは、
第1のテキスト文字列およびそれぞれの発話基準に基づいて、それぞれのオーディオファイルを生成する手段と、
それぞれのオーディオファイルに基づいて、それぞれの第2のテキスト文字列を生成する手段と、
それぞれの第2のテキスト文字列を第1のテキスト文字列と比較する手段と、
第1のテキスト文字列と同一でない場合、エンティティに関連付けられたメタデータにそれぞれの第2のテキスト文字列を記憶する手段と
をさらに備えている、項目131に記載のシステム。
(項目135)1つ以上のテキストクエリに基づいて、メタデータを更新する手段をさらに備えている、項目131に記載のシステム。
(項目136)エンティティに関連付けられたメタデータに第1のテキスト文字列の音素表現を記憶する手段をさらに備えている、項目131に記載のシステム。
(項目137)第1のテキスト文字列に基づいて、オーディオファイルを生成する手段は、
第1のテキスト文字列を第1のオーディオ信号に変換する手段と、
オーディオ信号に基づいて、発話をスピーカにおいて生成する手段と、
マイクロホンを使用して、発話を検出し、第2のオーディオ信号を生成する手段と、
オーディオ信号を処理し、オーディオファイルを生成する手段と
を備えている、項目131に記載のシステム。
(項目138)発話をスピーカにおいて生成する手段は、テキスト→発話モジュールの少なくとも1つの発話設定に基づいて、発話をスピーカにおいて生成する手段をさらに備えている、項目137に記載のシステム。
(項目139)オーディオファイルに基づいて、第2のテキスト文字列を生成する手段は、
オーディオファイルの再生をスピーカにおいて生成する手段と、
マイクロホンを使用して、再生を検出し、オーディオ信号を生成する手段と、
1つ以上の単語を識別することによって、オーディオ信号を第2のテキスト文字列に変換する手段と
を含む、項目131に記載のシステム。
(項目140)オーディオ信号を第2のテキスト文字列に変換する手段は、発話→テキストモジュールの少なくとも1つのテキスト設定に基づいて、オーディオ信号を第2のテキスト文字列に変換する手段を備えている、項目139に記載のシステム。
(項目141)音声クエリのためのエンティティメタデータを生成する方法であって、方法は、
複数のエンティティのうちの情報が記憶されているエンティティを識別することと、
テキスト→発話モジュールを使用して、第1のテキスト文字列および少なくとも1つの発話基準に基づいて、オーディオファイルを生成することであって、第1のテキスト文字列は、エンティティを記述する、ことと、
発話→テキストモジュールを使用して、オーディオファイルに基づいて、第2のテキスト文字列を生成することと、
第2のテキスト文字列を第1のテキスト文字列と比較することと、
第1のテキスト文字列と同一でない場合、エンティティに関連付けられたメタデータに第2のテキスト文字列を記憶することと
を含む、方法。
(項目142)少なくとも1つの発話基準は、発音設定を備えている、項目141に記載の方法。
(項目143)少なくとも1つの発話基準は、言語設定を備えている、項目141-142のいずれかに記載の方法。
(項目144)少なくとも1つの発話基準は、複数の発話基準を備え、方法は、
テキスト→発話モジュールを使用して、第1のテキスト文字列およびそれぞれの発話基準に基づいて、それぞれのオーディオファイルを生成することと、
発話→テキストモジュールを使用して、それぞれのオーディオファイルに基づいて、それぞれの第2のテキスト文字列を生成することと、
それぞれの第2のテキスト文字列を第1のテキスト文字列と比較することと、
第1のテキスト文字列と同一でない場合、エンティティに関連付けられたメタデータにそれぞれの第2のテキスト文字列を記憶することと
をさらに含む、項目141-143のいずれかに記載の方法。
(項目145)1つ以上のテキストクエリに基づいて、メタデータを更新することをさらに含む、項目141-144のいずれかに記載の方法。
(項目146)エンティティに関連付けられたメタデータに第1のテキスト文字列の音素表現を記憶することをさらに含む、項目141-145のいずれかに記載の方法。
(項目147)第1のテキスト文字列に基づいて、オーディオファイルを生成することは、
第1のテキスト文字列を第1のオーディオ信号に変換することと、
オーディオ信号に基づいて、発話をスピーカにおいて生成することと、
マイクロホンを使用して、発話を検出し、第2のオーディオ信号を生成することと、
オーディオ信号を処理し、オーディオファイルを生成することと
を含む、項目141-146のいずれかに記載の方法。
(項目148)発話をスピーカにおいて生成することは、テキスト→発話モジュールの少なくとも1つの発話設定にさらに基づく、項目147に記載の方法。
(項目149)オーディオファイルに基づいて、第2のテキスト文字列を生成することは、
オーディオファイルの再生をスピーカにおいて生成することと、
マイクロホンを使用して、再生を検出し、オーディオ信号を生成することと、
1つ以上の単語を識別することによって、オーディオ信号を第2のテキスト文字列に変換することと
を含む、項目141-148のいずれかに記載の方法。
(項目150)オーディオ信号を第2のテキスト文字列に変換することは、発話→テキストモジュールの少なくとも1つのテキスト設定に基づく、項目149に記載の方法。
図1
図2
図3
図4
図5
図6
図7
図8
図9
【国際調査報告】