特許第6550068号(P6550068)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ アマゾン テクノロジーズ インコーポレイテッドの特許一覧

<>
  • 特許6550068-音声認識における発音予測 図000003
  • 特許6550068-音声認識における発音予測 図000004
  • 特許6550068-音声認識における発音予測 図000005
  • 特許6550068-音声認識における発音予測 図000006
  • 特許6550068-音声認識における発音予測 図000007
  • 特許6550068-音声認識における発音予測 図000008
  • 特許6550068-音声認識における発音予測 図000009
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6550068
(24)【登録日】2019年7月5日
(45)【発行日】2019年7月24日
(54)【発明の名称】音声認識における発音予測
(51)【国際特許分類】
   G10L 15/22 20060101AFI20190711BHJP
   G10L 15/06 20130101ALI20190711BHJP
【FI】
   G10L15/22 200V
   G10L15/06 300E
【請求項の数】14
【全頁数】25
(21)【出願番号】特願2016-555771(P2016-555771)
(86)(22)【出願日】2015年2月27日
(65)【公表番号】特表2017-513047(P2017-513047A)
(43)【公表日】2017年5月25日
(86)【国際出願番号】US2015017927
(87)【国際公開番号】WO2015134309
(87)【国際公開日】20150911
【審査請求日】2017年8月16日
(31)【優先権主張番号】14/196,055
(32)【優先日】2014年3月4日
(33)【優先権主張国】US
(73)【特許権者】
【識別番号】506329306
【氏名又は名称】アマゾン テクノロジーズ インコーポレイテッド
(74)【代理人】
【識別番号】110000855
【氏名又は名称】特許業務法人浅村特許事務所
(72)【発明者】
【氏名】アダムス、ジェフリー ペンロッド
(72)【発明者】
【氏名】パーリカル、アロク ウルハス
(72)【発明者】
【氏名】リリー、ジェフリー ポール
(72)【発明者】
【氏名】ラストロー、アリヤ
【審査官】 上田 雄
(56)【参考文献】
【文献】 米国特許出願公開第2007/0198273(US,A1)
【文献】 特表2012−518207(JP,A)
【文献】 特表2002−520664(JP,A)
【文献】 特開2004−341520(JP,A)
【文献】 特開2009−175630(JP,A)
【文献】 特表2004−503887(JP,A)
【文献】 米国特許第07472061(US,B1)
【文献】 米国特許出願公開第2009/0326945(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00−15/34
(57)【特許請求の範囲】
【請求項1】
口頭での発話を処理するためのコンピュータ実装された方法であって、
コンテンツアイテムの綴りに少なくとも部分的に基づいて、前記コンテンツアイテムの少なくとも1つの元言語を判断するステップと、
前記少なくとも1つの元言語及びユーザが発話した言語に少なくとも部分的に基づいて前記コンテンツアイテムの潜在的な発音を判断するステップであって、前記潜在的な発音がスコアに関連する、前記判断するステップと、
前記潜在的な発音と前記コンテンツアイテムとの間の関連を保存するステップと、
コンテンツの出力の要求を含む口頭での発話を受信するステップと、
前記スコアに少なくとも部分的に基づいて、前記口頭での発話の第1の部分を前記潜在的な発音の第1の部分と照合するステップと、
前記スコアに少なくとも部分的に基づいて、前記口頭での発話の第2の部分を前記潜在的な発音の第2の部分と照合するステップと、
前記潜在的な発音に少なくとも部分的に基づいて、前記コンテンツアイテムを識別するステップと、
計算装置によって前記コンテンツアイテム出力させるステップと、
を含む、前記方法。
【請求項2】
前記潜在的な発音を判断するステップがさらに、少なくとも1つの元言語が前記コンテンツアイテムと共通である語のユーザの発音履歴に少なくとも部分的に基づく、請求項1に記載の方法。
【請求項3】
第1の元言語の前記コンテンツアイテムの1つの部分及び第2の元言語の前記コンテンツアイテムの第2の部分との関連付けにより、少なくとも1つの潜在的な発音を判断するステップをさらに含む、請求項1に記載の方法。
【請求項4】
前記コンテンツアイテムの前記少なくとも1つの元言語を判断するステップが、前記計算装置によって出力可能な他のコンテンツアイテムの元言語に少なくとも部分的に基づく、請求項1に記載の方法。
【請求項5】
計算システムであって、
少なくとも1つの処理装置と、
アクションの組を実行するための、前記少なくとも1つの処理装置によって実行されるよう動作可能な命令を含むメモリ装置であって、前記命令は、前記少なくとも1つの処理装置が、
第1の潜在的な元言語がテキスト識別子の第1の部分に関連するような前記テキスト識別子について前記第1の潜在的な元言語を判断し、
第2の潜在的な元言語が前記テキスト識別子の第2の部分に関連するような、前記テキスト識別子について前記第2の潜在的な元言語を判断し、
第1の潜在的な発音が前記第1の潜在的な元言語及び前記第2の潜在的な元言語に少なくとも部分的に基づくような、前記テキスト識別子の前記第1の潜在的な発音を判断し、
前記第1の潜在的な発音と前記テキスト識別子との間の関連を保存する
よう構成する、前記メモリ装置と、
を含む、前記計算システム。
【請求項6】
前記命令は前記少なくとも1つの処理装置が
前記テキスト識別子の第2の潜在的な発音を判断し、前記第2の潜在的な発音が前記第2の潜在的な元言語に少なくとも部分的に基づき、
前記第2の潜在的な発音前記テキスト識別子間との関連を保存する
ようさらに構成する、
請求項5に記載の計算システム。
【請求項7】
前記第1の潜在的な元言語、第2の潜在的な元言語、第1の潜在的な発音及び第2の潜在的な発音が、それぞれのスコアに関連する、請求項6に記載の計算システム。
【請求項8】
前記少なくとも1つの処理装置が、ユーザの発音履歴に少なくとも部分的にさらに基づいて前記第1の潜在的な発音を判断するようさらに構成される、請求項5に記載の計算システム。
【請求項9】
ユーザの前記発音履歴が前記ユーザが発話した言語を含む、請求項8に記載の計算システム。
【請求項10】
前記少なくとも1つの処理装置が前記テキスト識別子に関連する第2のテキスト識別子の元言語に少なくとも部分的にさらに基づいて前記第1の潜在的な元言語を判断するようさらに構成される、請求項5に記載の計算システム。
【請求項11】
前記命令は、前記少なくとも1つの処理装置が、
発話を含む音声データを受信し、
前記発話における前記第1の潜在的な発音を識別し、
前記保存された関連に基づいて前記テキスト識別子を識別し、
前記テキスト識別子に関連するコンテンツアイテムの少なくとも一部を検索する
よう、さらに構成する、請求項5に記載の計算システム。
【請求項12】
計算装置によってアクセスされるアーティスト、アルバム、バンド、映画、書籍、曲及び/または食品の名称を前記テキスト識別子が含む、請求項5の計算システム。
【請求項13】
前記第2の潜在的な元言語が前記システムの装置の位置に関連する言語を含む、請求項5に記載の計算システム。
【請求項14】
前記少なくとも1つの処理装置が有限状態トランスデューサ(FST)モデル、最大エントロピーモデル、文字レベル言語モデル及び/または条件付き確率場モデルの少なくとも1つを利用して、前記テキスト識別子の前記第1の潜在的な発音を判断するようさらに構成される、請求項5に記載の計算システム。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願データの相互参照
本出願は、その全体が参照により本明細書に組み込まれる、2014年3月4日出願の米国特許出願第14/196,055号に対する優先権を主張する。
【背景技術】
【0002】
ヒューマンコンピュータインタラクションは、人間が発話によって計算装置を制御し、これらの装置に入力を行うことができる段階まで進んでいる。計算装置は、受信した音声入力の様々な品質に基づく人間のユーザが話す語を識別する技術を利用する。このような技術は音声認識または自動音声認識(ASR)と称される。言語処理技術と組み合わせた音声認識により、ユーザが発話した命令に基づく、ユーザによる計算装置の制御及びタスクの実行を可能にすることができる。音声認識はまたユーザの音声をテキストデータに変換してもよく、その後そのテキストデータは様々なテキストに基づくプログラム及びアプリケーションに提供されてもよい。
【0003】
ヒューマンコンピュータインタラクションを向上させるためのコンピュータ、携帯端末、電話回線を利用したコンピュータシステム、キオスク、及び他の様々な装置は、音声認識を利用してもよい。
【発明の概要】
【課題を解決するための手段】
【0004】
本開示をさらに完全に理解するために、ここで以下の説明を添付の図面と併せて参照する。
【図面の簡単な説明】
【0005】
図1】本開示の一態様による、語の元言語に基づく、外来語の予想発音の予測のための音声認識技術を示す。
図2】本開示の一態様による、分散型音声認識の利用のためのコンピュータネットワークを示す。
図3】本開示の一態様による、音声認識のための装置を概念的に示すブロック図である。
図4】本開示の一態様によって処理されるオーディオ波形を示す。
図5】本開示の一態様による、音声認識ラティス(lattice)を示す。
図6】本開示の一態様による、語の元言語に基づく、外来語の予想発音の予測のための音声認識方法を示す。
図7】本開示の一態様による、テキスト識別子を含む口頭での発話の処理のための音声認識方法を示す。
【発明を実施するための形態】
【0006】
自動音声認識(ASR)を実行することが可能な装置との対話において、ユーザはコンテンツアイテムにアクセスするための命令を発声してもよい。これらのコンテンツアイテムは装置のローカルに保存されてもよく、またはリモートに保存されてもよいが、装置によりアクセス可能である。たとえば、ユーザは計算装置に対して特定の音楽のアイテムを「再生する」ための命令を発声してもよい。口頭での命令は、発話と称されてもよい。音楽のアイテムは、テキスト識別子によって識別されてもよい。テキスト識別子は、曲、動画などのコンテンツのアイテムを識別するテキストであってもよい。例示的なテキスト識別子には、アーティスト名、バンド名、アルバム名、曲名、または再生される音楽を識別する他のいくつかのラベルが含まれる。
【0007】
ASRシステムは、予想発音がテキスト識別子に基づく場合の、対応する予想発音に照合される保存されたテキスト識別子(すなわち、アーティスト名、バンド名、アルバム名、及び曲名)のレキシコン(lexicon)を有してもよい。レキシコンはローカルまたはリモートに保存されてもよい。ASRシステムは発話を受信する際、発話音声を保存された予想発音と照合し、検索のために発話を1つまたは複数のコンテンツアイテムと照合してもよい。たとえばユーザが「AC/DCの曲を何か再生して」と述べると、システムは「AC/DC」に対応する音声を、対応する予想発音と、その後バンド名と照合してもよい。バンドが識別されると、装置はその後バンドに関連する曲を再生してもよい。
【0008】
典型的なASRシステムは、それぞれ特定の言語に関連する。たとえば英語のASRシステムは英語を解するよう構成されてもよく、ドイツ語のASRシステムはドイツ語を解するよう構成されてもよい、など。いくつかのテキスト識別子は、ASRシステムの主言語ではない外国語に由来してもよい。これにより、ユーザが外国語のテキスト識別子の言語学的素性を利用してテキスト識別子を発音しようと試みる場合に混乱が生じる可能性がある。たとえば、ドイツ語の曲名またはドイツ語のバンド名のドイツ語の発音を利用して音楽をリクエストする発話を行うユーザは、英語に基づくASRシステムを混乱させる場合がある。同様に、ASRシステムが曲名のテキストに基づく異なる発音を予想している可能性があるため、ドイツ語の曲名の英語の発音を利用するユーザもまたASRシステムを混乱させる場合がある。
【0009】
テキスト識別子の元言語の予測に基づく、テキスト識別子の予想発音の判断方法を提示する。元言語はテキスト識別子に基づき判断されてもよい。本開示のいくつかの態様においては、テキスト識別子の予想発音がまた、特定のユーザまたはユーザのカテゴリの発音履歴に基づいてもよい。予想発音には、元言語に基づく予想発音の組み合わせ、たとえばある元言語を有すると予想されるテキスト識別子の特定の音素及び異なる元言語を有すると予想されるテキスト識別子の別の音素を有する予想発音が含まれてもよい。さらに、それぞれの予想発音が発生可能性に関連する可能性がある場合、複数の予想発音がテキスト識別子ごとに判断されてもよい。可能性は、テキスト識別子、ユーザの行動、他のユーザの行動、または他の要因に基づいてもよい。
【0010】
テキスト識別子の異なる予想発音がレキシコンに追加され、異なるユーザからの異なる発音に対応してもよい。予想発音は、音楽カタログ上に保存された曲などのコンテンツアイテムにリンクされてもよい。計算装置はテキスト識別子を含む口頭での発話を受信すると、発話を予想発音の修正されたレキシコンと照合することによって、口頭での発話にテキスト識別子が含まれるか否かを判断する。口頭での発話が予想発音と一致すると、計算装置は発話の命令部分において示されるように、たとえばリクエストされた曲の再生によってコンテンツ上で動作する。
【0011】
図1は、本開示の一態様による、テキスト識別子の元言語に基づく、テキスト識別子の予想発音の予測のための音声認識技術を示す。図1は、予想発音予測モジュール128及びASRモジュール314を有するASR装置100ならびにASR装置100の近位に位置するユーザ120を含む。予想発音予測モジュール128は、ブロック102に示されるようにテキスト識別子(曲名など)にアクセスし、ブロック104に示されるようにテキスト識別子の元言語を判断するよう構成されてもよい。予測モジュール128はその後ブロック106に示すように、元言語に基づくテキスト識別子の1つまたは複数の予想発音を判断してもよい。予想発音はシステムによる検索のために、コンテンツアイテム(たとえば、曲)と照合されてもよい。予測モジュール128は、発話の受信前にASRシステムの動作の構成またはトレーニングを行う際に、これらのアクションを前もって実行してもよい。
【0012】
ブロック108に示される装置の口頭での発話の受信の際に、発話はASRモジュール314に移行される。ASRモジュールはその後、ブロック110に示すように発話を予想発音と照合してもよい。その予想発音はその後、ブロック112に示すように、発話において言及された曲などのコンテンツアイテムに照合されてもよい。装置はその後ブロック114に示すように、コンテンツアイテムにアクセス(たとえば、曲を再生)してもよい。
【0013】
図1は特定のモジュールによって実行されている特定のタスクを示すが、タスクは特定のASRシステムによって構成されるように、様々なモジュールによって実行されてもよい。
【0014】
さらに本明細書に記載の技術は、ASR装置100、ネットワーク装置、または異なる装置のいくつかの組み合わせなどのローカル装置上で実行されてもよい。たとえば元言語及び(1つまたは複数の)予想発音の判断を実際に実行するために、ローカル装置及びリモート装置はローカル装置のテキスト識別子をリモート装置と交換してもよい。さらに、ローカル装置が口頭での発話を含む音声データを受信してもよい間、ローカル装置は音声データを処理のためにリモート装置に送信してもよい。リモート装置はその後、音声上のASR処理を実行してもよい。ASR結果はその後、発話のコンテンツアイテムとの照合及びコンテンツアイテムへのアクセスのためにローカル装置に送信されてもよく、またはリモート装置及びユーザへの再生のためにローカル装置に送信されたその結果(たとえば、ストリーミング曲)によってそれらのタスクが実行されてもよい。あるいは、ローカル装置及びリモート装置は他の方法でともに作用してもよい。
【0015】
これらの複数のASR装置はネットワークを介して接続されてもよい。図2に示すように、複数の装置がネットワーク202を介して接続されてもよい。ネットワーク202は、ローカルまたはプライベートネットワークを含んでもよく、またはインターネットなどの広域ネットワークを含んでもよい。装置は有線または無線接続のいずれかを通じてネットワーク202に接続されてもよい。たとえば無線装置204は、無線サービスプロバイダを通じてネットワーク202に接続されてもよい。コンピュータ212などの他の装置は、有線接続を通じてネットワーク202に接続してもよい。たとえば、家庭内または商業施設内に位置する冷蔵庫218などの他の装置は有線または無線接続を通じてネットワーク202に接続してもよい。ラップトップ208またはタブレットコンピュータ210などの他の装置は、様々な接続方法を利用したネットワーク202への接続が可能であってもよく、無線サービスプロバイダを通じて、WiFi接続などを介することを含む。ネットワーク装置は、ヘッドセット206または214などを介することを含む、いくつかの音声入力装置を通じて、口頭での音声を入力してもよい。音声入力装置は、有線または無線接続のいずれかを通じてネットワーク装置に接続されてもよい。ネットワーク装置はまた、ラップトップ208、無線装置204またはタブレットコンピュータ210内の内部マイクロホン(図示せず)などの埋め込み型音声入力装置を含んでもよい。
【0016】
特定のASRシステム構成において、ある装置が音声信号をキャプチャしてもよく、別の装置がASR処理を実行してもよい。たとえば、ヘッドセット214への音声入力はコンピュータ212によってキャプチャされ、処理のためにネットワーク202を介してコンピュータ220またはサーバ216へと送信されてもよい。あるいは、コンピュータ212はネットワーク202を介して送信する前に、音声信号を部分的に処理してもよい。ASR処理は多大な計算リソースを利用してもよいため、音声をキャプチャする装置の処理能力がリモート装置よりも低く、より高質なASR結果が所望される場合に、ストレージ及び処理能力の両方に関してこのような分割構成が利用されてもよい。ユーザ及び処理のために他の装置に送信されるキャプチャされた音声信号の近くで音声キャプチャが行われてもよい。たとえば、1つまたは複数のマイクロホンアレイがASR装置とは異なる場所に位置してもよく、キャプチャされた音声が処理のためにアレイからASR装置(または装置)に送信されてもよい。
【0017】
図3は、音声認識を実行するための自動音声認識(ASR)装置302を示す。本開示の態様は、ASR装置302上に存在してもよいコンピュータ読み取り可能及びコンピュータ実行可能命令を含む。図3は、ASR装置302内に含まれてもよいいくつかの構成要素を示すが、他の図示されない構成要素もまた含まれてもよい。また図示される構成要素のいくつかは、本開示の態様を利用することが可能なすべての装置内に存在するとは限らない。さらに、単一の構成要素としてASR装置302内に示されるいくつかの構成要素はまた、単一の装置内に複数回出現してもよい。たとえばASR装置302は、複数の入力装置306、出力装置307または複数の制御装置/処理装置308を含んでもよい。
【0018】
単一の音声認識システム内で複数のASR装置が利用されてもよい。このようなマルチデバイスシステムにおいて、ASR装置は、音声認識処理の異なる態様を実行するための異なる構成要素を含んでもよい。複数の装置は、重複する構成要素を含んでもよい。図3に示されるようなASR装置は例示であり、スタンドアロン装置であってもよく、またはその一部または全部がより規模の大きな装置またはシステムの構成要素として含まれてもよい。
【0019】
本開示の教示は、たとえば、汎用計算システム、サーバクライアント計算システム、メインフレーム計算システム、電話回線を利用した計算システム、ラップトップコンピュータ、携帯電話、携帯情報端末(PDA)、タブレットコンピュータ、他のモバイル装置などを含む、いくつかの異なる装置及びコンピュータシステム内で応用されてもよい。ASR装置302はまた、たとえば現金自動預払機(ATM)、キオスク、家電機器(冷蔵庫、オーブンなど)、乗り物(車、バス、オートバイなど)、及び/または運動機器などの音声認識機能を提供してもよい他の装置またはシステムの構成要素であってもよい。
【0020】
ASR装置302は図3に示すように、処理のために口頭での発話をキャプチャする音声キャプチャ装置304を含んでもよい。音声キャプチャ装置304は、音声をキャプチャするためのマイクロホンまたは他の好適な構成要素を含んでもよい。音声キャプチャ装置304はASR装置302に一体化されてもよく、またはASR装置302から分離されてもよい。ASR装置302はまた、ASR装置302の構成要素の間でのデータ搬送のためのアドレス/データバス324を含んでもよい。ASR装置302内の各構成要素はまた、バス324をまたいでの他の構成要素への接続に加えて(またはそれに代えて)、他の構成要素に直接接続されてもよい。図3に特定の構成要素が直接接続されるように示されているが、これらの接続は例示にすぎず、他の構成要素が互いに直接接続されてもよい(ASRモジュール314が制御装置/処理装置308に、など)。
【0021】
ASR装置302は、データ及びコンピュータ読み取り可能命令の処理のための中央処理装置(CPU)ならびにデータおよび命令の保存のためのメモリ310であってもよい制御装置/処理装置308を含んでもよい。メモリ310は、揮発性ランダムアクセスメモリ(RAM)、不揮発性読み取り専用メモリ(ROM)、及び/または他のタイプのメモリを含んでもよい。ASR装置302はまた、データ及び命令の保存のためのデータストレージ構成要素312を含んでもよい。データストレージ構成要素312は、磁気ストレージ、光学ストレージ、固体ストレージなどの1つまたは複数のストレージタイプを含んでもよい。ASR装置302はまた、入力装置306または出力装置307を通じてリムーバブルまたは外部メモリ及び/またはストレージ(リムーバブルメモリカード、メモリーキードライブ、ネットワークストレージなど)に接続されてもよい。ASR装置302及びその様々な構成要素を操作する制御装置/処理装置308による処理のためのコンピュータ命令は、制御装置/処理装置308によって実行され、メモリ310、ストレージ312、外部装置内に、または以下に記載するASRモジュール314に含まれるメモリ/ストレージ内に保存されてもよい。あるいは実行可能命令の一部または全部が、ソフトウェアに加えてまたは代えてハードウェアまたはファームウェア内に埋め込まれてもよい。本開示の教示は、たとえばソフトウェア、ファームウェア、及び/またはハードウェアの様々な組み合わせにおいて実装されてもよい。
【0022】
ASR装置302は、(1つまたは複数の)入力装置306及び(1つまたは複数の)出力装置307を含む。様々な(1つまたは複数の)入力/出力装置が装置内に含まれてもよい。例示的な入力装置306は、(個別の構成要素として図示される)マイクロホンなどの音声キャプチャ装置304、タッチ入力装置、キーボード、マウス、スタイラスまたは他の入力装置を含む。例示的な出力装置307は、視覚ディスプレイ、触覚ディスプレイ、オーディオスピーカ、ヘッドホン、プリンタまたは他の出力装置を含む。入力装置306及び/または出力装置307はまた、ユニバーサルシリアルバス(USB)、FireWire(登録商標)、Thunderbolt(登録商標)または他の接続プロトコルなどの、外部周辺装置接続のためのインターフェイスを含んでもよい。入力装置306及び/または出力装置307はまた、イーサネット(登録商標)ポート、モデムネットなどのネットワーク接続部を含んでもよい。入力装置306及び/または出力装置307はまた、無線周波(RF)、赤外線、Bluetooth(登録商標)、無線ローカルエリアネットワーク(WLAN)(WiFiなど)などの無線通信装置、またはロングタームエボリューション(LTE)ネットワーク、WiMAXネットワーク、3Gネットワークなどの無線通信ネットワークを用いた通信が可能な無線機などの無線ネットワーク装置を含んでもよい。ASR装置302は入力装置306及び/または出力装置307を通じて、インターネットまたはプライベートネットワークなどの分散型コンピューティング環境を含んでもよいネットワークへの接続をおこなってもよい。
【0023】
装置はまた、口頭での音声データのテキストへの処理のためのASRモジュール314を含んでもよい。ASRモジュール314は音声データを音声データに含まれる音声の語を表すテキストデータに書き写す。テキストデータはその後、システム命令の実行、データの入力などの様々な目的のための他の構成要素によって利用されてもよい。口頭での発話を含む音声データは、リアルタイムで処理されてもよく、または後で保存されかつ処理されてもよい。音声データ上の口頭での発話はASRモジュール314に入力され、ASRモジュール314はその後、発話とASRモジュール314に知られているモデルとの間の類似性に基づき発話を解釈する。たとえばASRモジュール314は入力音声データを音声(たとえば、音声単位または音素)及び音声のシーケンスのためのモデルと比較し、音声データの発話において発せられた音声のシーケンスに一致する語を識別してもよい。口頭での発話を解釈することができる異なる方法により、それぞれ特定の組の語が発話において発せられた語の組に一致する可能性を表す確率または認識スコアを割り当ててもよい。認識スコアは、たとえば発話における音声の言語音声のためのモデル(たとえば、音響モデル)との類似性及び音声に一致する特定の語が(たとえば、言語モデルまたは文法を利用して)特定の位置の文に含まれる可能性を含むいくつかの要因に基づいてもよい。考慮される要因及び割り当てられた認識スコアに基づき、ASRモジュール314は、音声データにおいて認識される最も見込みの高い語を出力してもよい。ASRモジュール314はまた、複数の代替的な認識された語をラティスまたはN−bestリスト(以下により詳細に説明する)の形式で出力してもよい。
【0024】
認識スコアは音声データの部分が特定の音素または語に対応する確率を表してもよい一方、認識スコアはまた、他の音声データのASR処理に対するスコアをつけた音声データのASR処理品質を示す他の情報を組み込んでもよい。認識スコアは、0から1までの確率、ログ確率または他のインジケータとして、1から100までの数値として表されてもよい。認識スコアは音声データの一部が特定の音素、語などに対応する相対的な信頼度を示してもよい。
【0025】
ASRモジュール314は、ASR装置302のバス324、(1つまたは複数の)入力装置306及び/または(1つまたは複数の)出力装置307、音声キャプチャ装置304、エンコーダ/デコーダ322、制御装置/処理装置308及び/または他の構成要素に接続されてもよい。ASRモジュール314に送信された音声データは、リモートエンティティによってキャプチャされ、ネットワークを介してASR装置302に送信された音声データのように、音声キャプチャ装置304から来てもよく、または入力装置306によって受信されてもよい。音声データは、口頭での発話のオーディオ波形のデジタル表現の形式であってもよい。サンプリングレート、フィルタリング、及びアナログデジタル変換処理の他の態様が音声データの全体的な品質に影響する可能性がある。音声キャプチャ装置304及び入力装置306の様々な設定は、品質とデータサイズまたは他の留意点との従来の兼ね合いに基づき音声データを調節するよう構成されてもよい。
【0026】
ASRモジュール314は、音響フロントエンド(AFE)316、音声認識エンジン318、及び音声ストレージ320を含む。AFE316は音声データを、音声認識エンジン318による処理のためのデータに変換する。音声認識エンジン318は音声認識データを、元の音声データに含まれる音声の認識のために音声ストレージ320に保存された音響、言語、及び他のデータモデルならびに情報と比較する。AFE316及び音声認識エンジン318は、それら自体の(1つまたは複数の)制御装置/(1つまたは複数の)処理装置及びメモリを含んでもよく、またはそれらはたとえばASR装置302の制御装置/処理装置308及びメモリ310を利用してもよい。同様に、AFE316及び音声認識エンジン318の操作のための命令は、ASR装置302のメモリ310及び/若しくはストレージ312内のASRモジュール314内部、または外部装置内にあってもよい。
【0027】
受信された音声データは処理のためにAFE316に送信されてもよい。AFE316は、音声データ内のノイズを低減し、処理のために音声を含む音声データの部分を識別し、識別された音声構成要素を分割及び処理してもよい。AFE316は、デジタル音声データを各フレームがたとえば10ミリ秒(ms)の時間間隔を表すようなフレームまたは音声セグメントに分割してもよい。フレームの間に、AFE316は、フレーム内の発話部分の素性/品質を表す素性ベクトルと呼ばれる値の組を決定する。素性ベクトルは、たとえば40などの可変数の値を含んでもよい。素性ベクトルは、フレーム内の音声データの異なる品質を表してもよい。図4は、第1の語404が処理される際の第1の語404の複数の点406を有するデジタル音声データ波形402を示す。それらの点音声品質は素性ベクトルに保存されてもよい。素性ベクトルは、口頭での発話の時間を表すマトリクスに流れるかまたは組み合わせられてもよい。これらの素性ベクトルマトリクスはその後処理のために音声認識エンジン318へと移行してもよい。いくつかの手法が、音声データの処理のためにAFE316によって利用されてもよい。このような手法は、メル周波数ケプストラム係数(MFCC)、知覚的線形予測(PLP)技術、ニューラルネットワーク素性ベクトル技術、線形判別分析、半結合共分散マトリクス、または当業者に知られる他の手法の利用を含んでもよい。
【0028】
処理された素性ベクトルはその後ASRモジュール314から出力され、さらなる処理のために他の装置へと伝達する目的で出力装置307に送信されてもよい。素性ベクトルはエンコーダ/デコーダ322によって伝達の前に符号化かつ/または圧縮されてもよい。エンコーダ/デコーダ322は、デジタル音声データ、素性ベクトルなどのASRデータの符号化及び復号化のためにカスタマイズされてもよい。エンコーダ/デコーダ322はまた、たとえば.zipなどの一般的な符号化方式を利用してASR装置302の非ASRデータを符号化してもよい。エンコーダ/デコーダ322の機能は図3に示されるように個別の構成要素内にあってもよく、または、たとえば制御装置/処理装置308、ASRモジュール314、または他の構成要素によって実行されてもよい。
【0029】
音声認識エンジン318は、音声ストレージ320内に保存された情報を参照してAFE316からの出力を処理してもよい。あるいは、フロントエンド後処理後のデータ(素性ベクトルなど)がASRモジュール314によって、内部AFE316以外の別のソースより受信されてもよい。たとえば、別のエンティティが音声データを素性ベクトルへと処理し、その情報を(1つまたは複数の)入力装置306を通じてASR装置302へと伝達してもよい。素性ベクトルは符号化されてASR装置302に到達してもよく、この場合、音声認識エンジン318による処理の前に(たとえばエンコーダ/デコーダ322によって)復号化されてもよい。
【0030】
音声ストレージ320は、音素の発音を特定の語と照合するデータなどの音声認識のための様々な情報を含む。このデータは、音響モデルと称されてもよい。音声ストレージはまた、語の辞書またはレキシコンを含んでもよい。音声ストレージはまた、テキスト識別子をそれらの識別子の予想発音と照合するレキシコンを含んでもよい。テキスト識別子は、カタログ上の音楽、アドレスブック上のコンテンツ、及び/またはASR装置に(または他の場所に)保存された他のコンテンツなどのデジタルコンテンツを識別してもよい。テキスト識別子はまた、ASRシステム及び/またはユーザのデフォルト言語とは異なってもよい(1つまたは複数の)言語に由来する名を有してもよい食品(すなわち、材料、料理など)、レストラン、イベント、または他のアイテムなどの非デジタルアイテムを識別してもよい。音声ストレージはまた、特定のコンテキストにおいてともに利用しやすい語を示すデータを含んでもよい。このデータは、言語または文法モデルと称されてもよい。音声ストレージ320はまた、音声認識においてASRモジュール314によって利用されるモデルをトレーニングし改善するために利用されてもよい録音された音声及び/または対応するトランスクリプションを含んでもよいトレーニングコーパスを含んでもよい。トレーニングコーパスは、音響モデル及び言語モデルを含む音声認識モデルを事前にトレーニングするために利用されてもよい。モデルはその後、ASR処理中に利用されてもよい。
【0031】
トレーニングコーパスは、たとえば音響モデル及び言語モデルを作成するために利用されてもよい関連する素性ベクトル及び関連する正確なテキストを有するいくつかのサンプル発話を含んでもよい。サンプル発話は、特定の音声単位のための予想される音声に対応する数学的モデルを作成するために利用されてもよい。それらの音声単位は、音素、音節、音節の一部、語などを含んでもよい。音声単位はまた、トライフォン、クインフォンなどのコンテキスト上の音素を含んでもよい。音声において規則的に利用されるコンテキスト上の音素は、それ自体のモデルに関連してもよい。あまり一般的でないコンテキスト上の音素は、群モデルを有するようにクラスタ化されてもよい。音素群をこのようにクラスタ化することで、トレーニングコーパスに含まれるモデルが少なくなってもよく、したがってASR処理を容易にする。トレーニングコーパスは、ASRモジュール314の異なる発話の比較を提供するための異なるスピーカからの同じ発話の複数のバージョンを含んでもよい。トレーニングコーパスはまた、正確に認識された発話及び不正確に認識された発話を含んでもよい。これらの不正確に認識された発話は、ASRモジュール314に、たとえばエラータイプ及び対応する訂正の実施例を提供する文法エラー、誤認識エラー、ノイズ、または他のエラーを含んでもよい。トレーニングコーパスは外来語を含み、このような語を認識するようASRシステムをトレーニングしてもよい。トレーニングコーパスはまた、以下に記載するようにシステム性能を向上させるために特定のユーザの傾向を組み込むよう適合されてもよい。
【0032】
他の情報はまた、音声認識における利用のために音声ストレージ320内に保存されてもよい。音声ストレージ320のコンテンツが一般的なASRの利用のために用意されてもよく、または、特定のアプリケーションにおいて利用しやすい音声及び語を含むようにカスタマイズされてもよい。たとえばATM(現金自動預払機)におけるASR処理のために、音声ストレージ320は、銀行取引の固有のカスタマイズされたデータを含んでもよい。場合によっては、音声ストレージ320はユーザの個別化された音声入力に基づき、個別のユーザのためにカスタマイズされてもよい。性能を向上させるために、ASRモジュール314は、ASR処理の結果のフィードバックに基づき音声ストレージ320のコンテンツを修正/更新し、ASRモジュール314がトレーニングコーパスにおいて提供された能力を上回るよう音声認識を向上させることを可能にしてもよい。
【0033】
音声認識エンジン318は、受信された素性ベクトルを音声ストレージ320において知られるような語または部分語単位と照合するよう試みる。部分語単位は音素、コンテキスト上の音素、音節、音節の一部、コンテキスト上の音節、または語の任意の他のこのような部分であってもよい。音声認識エンジン318は音響情報及び言語情報に基づき、素性ベクトルのための認識スコアを計算する。素性ベクトル群によって表される意図された音声が部分語単位に一致する可能性を表す音響スコアを計算するために、音響情報が利用される。どの音声及び/または語がコンテキスト上で互いに利用されるかを考慮することによって音響スコアを調節し、それによってASRモジュールが文法的に意味の通る音声結果を出力する可能性を向上させるために、言語情報が利用される。
【0034】
音声認識エンジン318は、素性ベクトルを音素またはダイフォン、トライフォンなどの他の表音単位と照合するためのいくつかの技術を利用してもよい。ある一般的な技術は、隠れマルコフモデル(HMM)を利用している。素性ベクトルが音素に一致してもよい確率を判断するために、HMMが利用される。HMMを利用して、その状態がともに潜在的な音素(またはトライフォンなどの他の音声単位)を表し、各状態が混合ガウスモデルなどのモデルに関連するような、いくつかの状態が示される。状態間の遷移はまた、以前の状態から現在の状態に到達することができる可能性を表す関連する確率を有してもよい。受信された音声はHMMの状態間の経路として表されてもよく、複数の経路は同じ音声に関する複数の可能性のあるテキストの一致を表してもよい。各音素は、音素の異なる既知の発音及びそれらの部分(口頭での言語音声の冒頭、中央、及び末尾など)に対応する複数の潜在的な状態によって表されてもよい。潜在的な音素の確率の初期判断は、1つの状態に関連してもよい。新しい素性ベクトルが音声認識エンジン318によって処理される際、状態は新しい素性ベクトルの処理に基づき、変化するかまたは同じままであってもよい。処理された素性ベクトルに基づく状態の最も見込みの高いシーケンスを発見するために、ビタビアルゴリズム(Viterbi algorithm)が利用されてもよい。
【0035】
確率及び状態はいくつかの技術を利用して計算されてもよい。たとえば各状態のための確率は、素性ベクトル及び音声ストレージ320のコンテンツに基づくガウスモデル、混合ガウスモデル、または他の技術を利用して計算されてもよい。最尤推定(MLE)などの技術が、音素状態の確率を推定するために利用されてもよい。
【0036】
ある音素のための潜在的な状態の、素性ベクトルとの潜在的な一致としての計算に加え音声認識エンジン318はまた、別の音素のための潜在的な状態を、素性ベクトルとの潜在的な一致として計算してもよい。このように、複数の状態及び状態遷移確率が計算されてもよい。
【0037】
音声認識エンジン318によって計算された可能性の高い状態及び可能性の高い状態遷移が経路内に構成されてもよい。各経路は、素性ベクトルによって表される音声データと潜在的に一致する音素の進展を表す。1つの経路は各音素のために計算された認識スコアに応じて、1つまたは複数の他の経路と重複してもよい。特定の確率は、状態から状態への各遷移に関連する。累積経路スコアはまた、経路ごとに計算されてもよい。ASR処理の一部としてスコアを組み合わせる際、所望の組み合わせられたスコアに到達するためにスコアが乗算されて(または他の方法で組み合わされて)もよく、または確率がログ領域に変換され、処理の補助のために追加されてもよい。
【0038】
音声認識エンジン318は、潜在的な経路を音声認識結果を表すラティスへと組み合わせてもよい。サンプルラティスが図5に示される。ラティス502は、音声認識結果の複数の潜在的な経路を示す。大きなノード間の経路は潜在的な語(たとえば「hello」、「yellow」など)を表し、より小さなノード間の経路は潜在的な音素(たとえば「H」、「E」、「L」、「O」及び「Y」、「E」、「L」、「O」)を表す。例示の目的のために、個別の音素はラティスの第1の2つの語のためのみに示される。ノード504とノード506との間の2つの経路は、「hello how」または「yellow now」の2つの潜在的な語の選択を表す。ノード(潜在的な語などの)間の各経路の点は、認識スコアに関連する。ラティスをまたぐ各経路にまた、認識スコアが割り当てられてもよい。認識スコアが音響モデルスコアの組み合わせである場合の最高の認識スコア経路、言語モデルスコア、及び/または他の要因は、関連する素性ベクトルのためのASR結果として音声認識エンジン318によって返されてもよい。
【0039】
ASR処理に続き、ASR結果がASRモジュール314によってさらなる処理(解釈されたテキストに含まれる命令の実行など)のために制御装置/処理装置308などのASR装置302の別の構成要素へと、または外部装置への送信のために出力装置307へと送信されてもよい。
【0040】
音声認識エンジン318はまた、言語モデルまたは文法に基づき経路の分岐のスコアを計算してもよい。言語モデルは、意味の通った語及び文を形成するためにどの語がともに利用しやすいかについてスコアの判断を利用する。言語モデルの応用により、ASRモジュール314が音声データ内に含まれる音声を正確に解釈する可能性が向上してもよい。たとえば口頭での発話内のそれぞれの語の言語コンテキストに基づき「H E L O」(語「hello」として解釈される)、「H A L O」(語「halo」として解釈される)、及び「Y E L O」(語「yellow」として解釈される)の認識スコアを調節するために、「H E L O」、「H A L O」、及び「Y E L O」の潜在的な音素経路を返す音響モデル処理が言語モデルによって調節されてもよい。言語モデルは音声ストレージ320内に保存されたトレーニングコーパスから判断されてもよく、また特定のアプリケーションのためにカスタマイズされてもよい。特定の次の語を知覚する確率が前のn−1語のコンテキスト履歴に依拠する、N−gramモデルなどの技術を利用して言語モデルが実行されてもよい。N−gramモデルはまた、次の語を知覚する確率が前の語(バイグラムモデルの場合)または前の2つの語(トリグラムモデルの場合)に依拠するバイグラム(n=2である)及びトリグラム(n=3である)モデルとして構成されてもよい。音響モデルはまた、N−gram技術を応用してもよい。
【0041】
言語モデルの一部として(またはASR処理の他の段階において)、音声認識エンジン318は計算リソースを保存するために、言語モデルに従う低い認識スコアまたは他の理由のいずれかにより口頭での発話に対応する可能性がほとんどない低い認識スコア状態または経路を取り除き破棄してもよい。さらにASR処理中に音声認識エンジン318は、すでに処理された発話部分における付加的な処理パスを反復的に実行してもよい。結果を洗練させ改善するために、後のパスが前のパスの結果を組み込んでもよい。音声認識エンジン318が潜在的な語を入力音声から判断する際に、ラティスは多くの潜在的な音声及び語が入力音声との潜在的な一致として見なされるように非常に大きくなってもよい。語の結果のネットワークとして潜在的な一致が示されてもよい。音声認識結果のネットワークは、認識されてもよい音声単位の可能性のあるシーケンス及び各シーケンスの可能性を表すアークならびにノードの接続されたネットワークである。語の結果のネットワークは、語レベルでの音声認識結果のネットワークである。他のレベルでの音声認識ネットワークもまた可能である。結果のネットワークは、任意のタイプの音声認識デコーダ(またはエンジン)によって生成されてもよい。たとえば結果のネットワークは、有限状態トランスデューサ(FST)によってデコーダに基づいて生成されてもよい。最高のスコア結果のラティスまたはN−bestリストなどの音声認識結果の最終組を作成するために、結果のネットワークが利用されてもよい。ニューラルネットワークはまた、ASR処理を実行するために利用されてもよい。
【0042】
音声認識エンジン318は、音声認識エンジン318によって判断されるように、上位N個の経路に対応する経路のN−bestリストをそのそれぞれの認識スコアとともに返してもよい。N−bestリストを受信するアプリケーション(ASR装置302の内部若しくは外部のいずれかの、プログラムまたは構成要素など)はその後、リスト及び関連する認識スコアを考慮してリスト上でさらなる動作または分析を実行してもよい。たとえばエラーの訂正ならびに様々な選択肢及びASRモジュール314の処理条件のトレーニングにおいて、N−bestリストが利用されてもよい。音声認識エンジン318は最善の結果を有する実際の正確な発話をN−bestリスト上の他の結果と比較し、不正確な認識が特定の認識スコアを受信した理由を判断してもよい。音声認識エンジン318はその後の処理の試みにおける不正確な手法の認識スコアを低減させるために、その手法を訂正してもよい(また、音声ストレージ320内の情報を更新してもよい)。
【0043】
コンテンツアイテムに関する音声命令を処理するためにASR装置が利用されてもよい。コンテンツアイテム自体がASR装置上にローカルに保存されるか(携帯電話上の音楽コレクションなど)、またはリモートに保存されてもよい(リモートサーバからストリーミングされてもよい映画など)。それらのコンテンツアイテムは、たとえば、音楽、電子書籍(eブック)、映画、コンタクト情報、文書、ショートメッセージサービス通信、eメール及び/若しくは他の音声、動画またはテキスト情報を含んでもよい。ASR装置のユーザは、再生、編集、転送などを含む様々な目的でのこのようなコンテンツアイテムへのアクセスを要求してもよい。たとえばユーザは、携帯電話がユーザからの口頭での要求に応じて音楽を再生することができるように要求してもよい。ユーザからの要求を実行するために、コンテンツアイテムのカタログが語の辞書またはレキシコンにリンクされてもよい。レキシコンは、個別のコンテンツアイテムにリンクされたテキスト識別子であってもよいテキスト識別子を含んでもよい。たとえばテキスト識別子は、アーティスト名、アルバム名、曲/映画/eブックのタイトルなどを含んでもよい。各テキスト識別子はカタログ上のコンテンツの1つまたは複数のアイテム(複数の曲にリンクされているバンド名など)に対応してもよく、各コンテンツアイテムは1つまたは複数のテキスト識別子(曲名、バンド名、アルバム名などにリンクされる曲など)にリンクされてもよい。テキスト識別子はまた、デジタルコンテンツ以外のアイテムを参照してもよい。
【0044】
上述のように、レキシコンはまた各テキスト識別子の1つまたは複数の予想発音を含んでもよく、それによってユーザは音声命令を通じて関連するコンテンツアイテムにアクセスすることができる。たとえばユーザは、アーティスト名、アルバムまたは曲名を口に出すことによって音楽カタログ上に保存された曲の再生を試みてもよい。予想発音は、語の綴りに基づいて判断されてもよい。綴りに基づく語の予想発音の判断の処理は、書記素音素(G2P)変換または発音の推測(一般的に発音推測と称される)として定義される。場合によって、テキスト識別子は外来語を含んでもよい。例示の目的のために、本応用において言及される外来語(または外国語)は、ASRシステムのデフォルト言語に対して外国語に由来すると考えられる。本明細書に記載の技術が異なる言語に基づくASRシステムに応用されてもよいが、ASRシステムのデフォルト言語は本目的のために英語として示される。
【0045】
異なる言語の語または言語学的素性を組み込むテキスト識別子のASR処理を補助するために、本開示はテキスト識別子の言語の由来に基づいてテキスト識別子の1つまたは複数の発音を予想するようASRシステムが構成されるシステムを提供する。本開示の一態様において、ASRシステムはテキスト識別子に基づいてテキスト識別子の元言語を判断する。ASRシステムはその後、テキスト及び識別された元言語に基づきテキスト識別子の予想発音を判断する。ASRシステムは、各々が関連する可能性を有する特定のテキスト識別子の複数の予想発音を判断してもよい。予想発音(及び/またはそれらの関連する可能性)はまた、ユーザまたはユーザ群の発音傾向に基づいて調節されてもよい。予想発音はASRシステムによる最終的な検索のために、レキシコンに追加され、そのそれぞれのコンテンツアイテムにリンクされてもよい。
【0046】
元言語を判断するために、綴り/テキスト識別子に基づく言語の由来を予測する分類子をASRシステムが利用してもよい。分類子は、文字に基づく統計的モデルなどの統計的モデルであってもよい。テキスト識別子(たとえば、バンド名)は文献、段落などの長い形式のテキストに対して短くてもよいため、元言語の予測のための分類子は、他の言語予測システムによって利用されてもよい段落の列をなす複数のテキストに基づく検知よりも短いテキストの基本的な言語単位に重点を置いてもよい。たとえば分類子は、1つまたは複数の言語(たとえば、言語A、BまたはC)における文字のシーケンスの可能性を識別するようにトレーニングされてもよい。いくつかの態様において、各言語の可能性が個別に学習されてもよい。分類子はまた、異なる言語の語のためのn−gramに基づく文字モデルを実装してもよい。n−gramは、ASRシステムの異なる構成による、音節、文字、語または塩基対などのアイテムのシーケンスに基づいてもよい。
【0047】
語の綴りが特定の言語に一致する可能性を表すスコアが割り当てられてもよい。たとえばスコアは、テキスト識別子(またはその部分)が由来する可能性の高い2つ以上の言語に割り当てられてもよい。いくつかの態様においてスコアは、元言語の識別を改善させるために異なる言語のそれぞれに割り当てられた確率的重みであってもよい。外国語のための最高スコアを有する1つまたは複数の言語が元言語として識別されてもよい。テキストが「Gotye」である場合、たとえば、確率的重みの70%がフランス語に、また30%がドイツ語に割り当てられてもよい。この判断に基づき、フランス語及びドイツ語の両方の語の予想発音ならびに対応する確率的重みがレキシコンに追加されてもよい。本実装態様により、テキストの最も見込みの高い元言語の選択が可能になる。一態様において、テキスト識別子の一部が異なる元言語スコアを有してもよい。たとえば「Ludwig van Beethoven」の氏名の最初の語はドイツ語の高いスコアを有してもよいが、一方で中央の語がオランダ語の高いスコアなどを有してもよい。語の一部はまた、互いに異なる言語スコアを有してもよい。以下に記載の異なる予想発音を作成するために、このような異なるスコアが利用されてもよい。
【0048】
いくつかの態様においては、言語の素性が展開される機械学習分類子に基づく分類子が実装されてもよい。素性は、テキスト識別子の語列の冒頭、中央または末尾において特定の文字の組み合わせを含んでもよい。これらの素性に基づき、素性を組み込みやすい異なる言語にスコアが割り当てられてもよい。たとえば分類子は、オランダ語の元言語を示す語列の中央におけるV−A−Nの存在などの素性を識別する。分類子はテキスト識別子がそれらの言語のそれぞれに由来する可能性に基づく、点または重みを潜在的な元言語のそれぞれに割り当てる。他の分類子モデルは、サポートベクトルマシン/モデルまたは最大エントロピーモデル、文字レベル言語モデル及び条件付き確率場モデルを含む。これらのモデルは、最も見込みの高い元言語のスコアをつけるために、異なる言語のための素性及びスコアを組み合わせてもよい。
【0049】
開示のいくつかの態様においては、コンテンツアイテムに関連する他のテキスト識別子の元言語に基づいて外国語の元言語が判断されてもよい。たとえば特定のアーティストの1つまたは複数の曲名または曲の歌詞がドイツ語である場合、アーティスト名がドイツ語に由来する可能性が増大してもよい。この場合、アーティスト名の元言語を判断するための証拠として曲名が利用されてもよい。さらに、他のテキスト識別子は識別されるコンテンツに関連するメタデータを含んでもよい。たとえばデジタルコンテンツのアイテムは、テキスト識別子の元言語を識別するかまたは識別するために利用されてもよいメタデータに関連してもよい。元言語の判断を調節するためにテキスト識別子間の他の関係が探求してもよい。
【0050】
1つまたは複数の元言語がテキスト識別子(またはその部分)に関連すると、システムはテキスト識別子の(1つまたは複数の)元言語及びテキストに基づき、テキスト識別子の(1つまたは複数の)予想発音を判断してもよい。
【0051】
開示のいくつかの態様において、書記素音素(G2P)変換または発音推測モデルなどの変換モデルが各潜在的な元言語のために展開されてもよい。変換モデルは外国語のテキストの綴りから外国語のテキストの発音を導き出す。各言語は、音素などの異なる言語単位を含む。外国語の予想発音を判断するために、クロスリンガルマッピング技術が利用されてもよい。第1の言語(たとえば、ドイツ語)の音素が、第1の言語の音素に最も類似する第2の言語(たとえば、英語)の音素にマッピングされてもよい。しかし、ドイツ語のいくつかの発音/音素は、標準的な英語の音素に類似または対応しない場合がある。たとえばKraftwerkの最初の文字「r」のドイツ語の発音は英語の音素に対応しない。文字「r」のドイツ語の発音は実際には、文字「h」の発音と文字「r」の発音の中間の「口蓋垂音/r/」である。このような場合には、ドイツ語の音素は、最も近い英語の音素にマッピングされてもよい。
【0052】
本開示の一態様において、外国語の最も近い発音を判断するために、言語学的技術が利用される。たとえば外国語の最も近い発音を判断するために、「奥舌性」、「円唇性」の部位または調音などの言語学的調音素性が実装されてもよい。調音部位は、発声中に調音器官(たとえば、舌、歯、軟口蓋など)が空気の流れを制限し、形成し、または閉じる口腔内の部位であってもよい。実施例には、両唇音(唇の間)、歯唇音(唇と歯との間)、歯茎音(歯のすぐ後方)、及び口蓋垂音(口蓋垂付近)が含まれる。「奥舌性」は、音声(通常は母音)がのどに向かって調音される度合いとして定義されてもよい。後舌母音は、「caught」の「au」、「rote」の「o」、及び「lute」の「u」を含んでもよい。「円唇性」または「円唇化」は、度合いとして定義されてもよい。音声(母音であることが多いが、常にそうではない)は唇を丸めて調音される。円唇母音は、「rote」の「o」、及び「lute」の「u」を含む。対象の音素を有する外国語のいくつかの実施例を認識するために、たとえば英語音素認識装置などの第1の言語認識装置を利用して、言語学的技術が応用されてもよい。認識装置はその後、外国語の潜在的な発音を判断する。
【0053】
複数の語の関連及びその対応する発音を分析し、新しい語の予想発音を判断するために、いくつかの言語学的技術(たとえば、期待値最大化アルゴリズム、統計的モデル、隠れマルコフモデル(HMM))が利用されてもよい。たとえば文字シーケンス、音素シーケンス及びそれぞれの語の音声との間の関連を判断するために、ドイツ語を含むレキシコン及び対応するドイツ語の発音が分析されてもよい。たとえば期待値最大化アルゴリズムは、いくつかの例外を除いて英語での文字P−HがFとして発音されてもよいことを学習してもよい。期待値最大化アルゴリズムはまた、Eが「ee」に対して「eh」などといつ発音されるかを学習してもよい。モデルは期待値最大化アルゴリズムの分析に基づいて展開され、新しい音素シーケンスを、またその後新しい語の予想発音を予測するために利用されてもよい。外国語の予想発音を判断するために、言語学的技術が他の技術とともに利用されてもよい。
【0054】
言語学的技術はまた、(1つまたは複数の)元言語に基づくテキスト識別子のための複数の代替的な発音の予測を可能にする。たとえば各テキスト識別子の複数の発音がグラフによって表されてもよい。グラフの異なる部分が、テキスト識別子の異なる部分のための可能性のある発音を表してもよい。グラフの辺などのグラフの一部は、グラフ上の経路の可能性を示す割り当てられたスコアまたは重みであってもよい。異なる言語(たとえば、英語及びドイツ語)を表すために、異なるグラフが展開されてもよい。たとえば英語及びドイツ語の発音のために、個別のグラフが展開されてもよい。しかしいくつかの態様において外国語の混合発音を予測するために、個別のグラフがともに組み合わせられてもよい。テキスト識別子の発音が進展する際の2つの言語の入れ替えが組み合わせグラフにより可能になるが、これはユーザがある言語に有利に働くテキスト識別子の部分及び別の言語に有利に働くテキスト識別子の他の部分を発音してもよい状況において望ましい。
【0055】
たとえばドイツのバンド「Kraftwerk」は、ドイツ語で(たとえば、K HH AA F T V EH R K)発音されてもよい。しかし一部のユーザはドイツ語の発音に不慣れである可能性があり、バンド名「Kraftwerk」を英語として(たとえば、K R AE F T W UR K)発音してもよい。さらに一部のユーザについては、バンド名の発音の選択に一貫性がない可能性がある。結果としてテキスト識別子(バンド名「Kraftwerk」など)が、各予想発音それ自体がテキスト識別子の(1つまたは複数の)元言語を含む複数の異なる言語に基づいてもよい複数の予想発音と照合されてもよい。
【0056】
一部のユーザは第1の元言語を有しながら、ユーザが異なる言語で意思を疎通する(またはASR装置を操作する)国に居住してもよい。これらのユーザは、ユーザの元言語を含む複数の言語からの発音の組み合わせを利用して外国語を発音してもよい。ユーザは外国語の一部を第1の言語で、他の部分を1つまたは複数の異なる言語で発音してもよい。たとえばユーザは、バンド名、Kraftwerkの第1の部分を英語で(たとえば、K R AE F T)、第2の部分をドイツ語で(たとえば、V EH R K)発音してもよい。
【0057】
英語の発音、K R AE F T W UR K、ドイツ語の発音、K HH AA F T V EH R Kのそれぞれ及び組み合わせの発音K R AE F T V EH R Kは、レキシコンに追加される際に、バンド名と照合されてもよい。複数の予想発音及びバンド名は、ASR装置または他の場所に保存されたバンドによる曲にリンクされてもよい。
【0058】
外国語の予想発音はまた、特定のユーザの発音履歴に基づいてもよい。たとえばASRシステムは、特定のユーザの発音パターンまたは癖を認識するようにトレーニングされてもよい。語がその語の綴りに基づきフランス語に80%、かつ英語に20%の重みである場合、分類子または音声認識モデルは特定のユーザの癖に基づき、言語に割り当てられる重みを調節してもよい。発音パターンはまた、特定のユーザが好む言語のランクに基づいてもよい。たとえば言語に割り当てられる重みは、ユーザが好む(1つまたは複数の)言語に基づき調節されてもよい。たとえばLudwig van Beethovenの名は、そのドイツ語及びオランダ語の由来のために、異なるバージョンの発音を有してもよい。この場合、重みがドイツ語(たとえば、60%)及びオランダ語(たとえば、40%)に割り当てられてもよい。Ludwig van Beethovenの名などの外来語を発音する際、特定のユーザが英語、ドイツ語またはオランダ語のどれを好むかに基づき、割り当てられた重みが調節されてもよい。結果としての発音は、ドイツ語、オランダ語及び英語の混合または組み合わせであってもよい。
【0059】
ユーザの発音パターンは、ユーザによる同一のまたは異なる語の発音の履歴に基づき判断されてもよい。ASR装置は発音パターンまたは履歴に基づき、ユーザによる同一のまたは異なる語の今後の発音を予期してもよい。ASR装置はまた、ユーザが1つまたは複数の言語の発音に慣れているか否かを、ユーザの発音パターンに基づき学習してもよい。たとえばバンド名、Kraftwerkの発音のユーザの履歴に基づいて、

または「Gustav Mahler」などの他のドイツ語のユーザの発音をASR装置が予期してもよい。ASR装置はまたユーザの発音パターンに基づき、重みを特定のユーザのために、様々な言語に割り当ててもよい。たとえばASR装置は、外来語の発音の際にユーザが好む発音(たとえば、1つの言語または言語の組み合わせ)により大きな重みを割り当ててもよい。同様に特定のユーザが好む言語または好む経路のグラフ上の表現が、より高いスコアまたは重みを割り当てられてもよい。より高いスコアの割り当てにより、グラフのこれらの経路はユーザによる外国語の予想発音を表しやすくなる。したがって予想発音は、予想発音のグラフ、予想発音のN−bestリスト、または予想発音の他のいくつかの構成に関連してもよい。
【0060】
さらに類似の行動を有する複数のユーザは、予想発音の重み付けまたは判断の目的のために一緒にクラスタ化されてもよい。クラスタ化されたユーザのための自動音声認識技術の素性が、クラスタ化されたユーザの行動に基づいて選択される。たとえばユーザのクラスタは、類似の音楽的嗜好(たとえば、インド由来の音楽)を有してもよく、そのためにインド音楽が大半を占める音楽カタログを有してもよい。結果として、クラスタに含まれる新しいユーザからの発音はクラスタ内の他のユーザと同様に処理されてもよく、または(外国語の可能性のある発音を表す)グラフに沿った類似の経路をたどってもよい。ユーザのクラスタに関連する音声認識技術の対応する素性(たとえば、発音、好ましい言語など)に、重みが割り当てられてもよい。したがって(外国語の可能性のある発音を表す)グラフは類似の行動パターンを有するユーザの行動パターンまたはユーザのクラスタに基づいて、トリミングされてもよい。
【0061】
図6は本開示の一態様による、音声認識における元言語に基づく、外国語のテキスト予想発音の予測のための方法のフロー図を示す。予想発音予測モジュール128、ASR装置100及び/またはリモート音声処理装置(たとえば、ASR装置302)において、方法が実装されてもよい。ブロック602において、ユーザが利用できるようになるコンテンツが、ASR装置100が利用できるカタログに組み込まれてもよい。ブロック604において、1つまたは複数のテキスト識別子がブロック604に示すようにコンテンツアイテムにリンクされてもよい。ブロック606において、ASRシステムが(1つまたは複数の)テキスト識別子に基づいて、1つまたは複数の元言語を判断してもよい。(1つまたは複数の)元言語はそれぞれ、(1つまたは複数の)テキスト識別子のスコア及び/または特定の部分に関連してもよい。ブロック608においては、ASRシステムが判断された(1つまたは複数の)元言語に少なくとも部分的に基づき、テキスト識別子の1つまたは複数の予想発音を判断してもよい。(1つまたは複数の)元言語に基づく(1つまたは複数の)予想発音はそれぞれ、(1つまたは複数の)テキスト識別子のスコア及び/または特定の部分に関連してもよい。ブロック610において、ASRシステムはユーザ情報及び/またはユーザ履歴に少なくとも部分的に基づき、テキスト識別子の(1つまたは複数の)予想発音を判断してもよい。ユーザ履歴は母国語またはユーザが頻繁に利用する言語を含んでもよい。ユーザ履歴はまた、ユーザが類似の語を以前発音した方法を含んでもよい。ユーザ情報はまた、装置またはユーザの環境の判断された(1つまたは複数の)言語を含んでもよい。装置によって検知された他の音声において識別された(1つまたは複数の)言語を判断することによってまたは他の手段を通じて地理的領域の既知の(1つまたは複数の)言語を有する相関する位置データによって判断されてもよい、装置の位置において利用される言語を、環境の言語が含んでもよい。環境の言語はまた、ASRシステムのデフォルト言語を含んでもよい。ユーザの(1つまたは複数の)言語に基づく(1つまたは複数の)予想発音はそれぞれ、(1つまたは複数の)テキスト識別子のスコア及び/または特定の部分に関連してもよい。
【0062】
ブロック612において、ASRシステムは予想発音を組み合わせ、テキスト識別子の(1つまたは複数の)元言語及び判断されたユーザの(1つまたは複数の)言語の組み合わせに少なくとも部分的に基づき、テキスト識別子の1つまたは複数の予想発音を判断してもよい。ユーザの(1つまたは複数の)言語の組み合わせに基づく(1つまたは複数の)予想発音はそれぞれ、(1つまたは複数の)テキスト識別子のスコア及び/または特定の部分に関連してもよい。ブロック614においては、ユーザの典型的な発音またはユーザのカテゴリなどのユーザ履歴に基づき、(1つまたは複数の)予想発音及び/若しくは重みのそれぞれまたはそれらの優先度が調節されてもよい。ブロック616において、(1つまたは複数の)予想発音は、レキシコン上の(1つまたは複数の)テキスト識別子及び/またはコンテンツアイテムに関連してもよい。
【0063】
予想発音の上述の判断は、トレーニングまたはASRシステムの構成中に行われてもよく、またはASR装置が新しいコンテンツを利用することができるようになった際に、ローカルストレージへの追加を通じて、若しくはASR装置にアクセス可能になるがリモートに保存されることによって、実行されてもよい。予想発音の判断は、ローカルASR装置、リモートASR装置、またはその組み合わせによって実行されてもよい。
【0064】
図7に示すように、ASRシステムは口頭での発話の受信時に発話を処理してもよい。ブロック702において、口頭でのテキスト識別子を含む発話が受信される。ブロック704においてASRシステムは、口頭でのテキスト識別子をテキスト識別子のための(1つまたは複数の)予想発音と照合してもよい。照合には、潜在的な一致のN−bestリストを返すこと、または単に最高のスコア照合を返すことが含まれてもよい。ブロック706において、最高のスコア照合テキスト識別子に関連するコンテンツアイテムが判断される。ブロック708において、コンテンツアイテムがアクセスされ、発話に関連する任意の命令(音楽の再生など)がASRシステムによって、または別の装置によって実行されてもよい。
【0065】
本開示の上述の態様は、例示を意図したものである。それらは本開示の原理及び応用を説明するために選択され、すべてを網羅することや本開示を限定することを意図していない。開示された態様の多くの修正や変形が当業者には明らかである。たとえば音声ストレージ内に保存された言語情報に基づく、本明細書に記載のASR技術が多くの異なる言語に応用されてもよい。
【0066】
本開示の態様は、コンピュータ実装方法、システムとして、またはメモリ装置若しくは非一時的コンピュータ読み取り可能記憶媒体などの製品として実装されてもよい。コンピュータ読み取り可能記憶媒体はコンピュータによって読み取り可能であってもよく、コンピュータまたは他の装置に本開示に記載の処理を実行させるための命令を含んでもよい。コンピュータ読み取り可能記憶媒体は、揮発性コンピュータメモリ、不揮発性コンピュータメモリ、ハードドライブ、固体メモリ、フラッシュドライブ、リムーバブルディスク、及び/または他の媒体によって実装されてもよい。
【0067】
本開示の態様は、異なる形式のソフトウェア、ファームウェア、及び/またはハードウェアにおいて実行されてもよい。さらに本開示の教示は、たとえば特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、または他の構成要素によって実行されてもよい。
【0068】
本開示の態様は単一の装置上で実行されてもよく、または複数の装置上で実行されてもよい。たとえば本明細書に記載の1つまたは複数の構成要素を含むプログラムモジュールは異なる装置内に位置してもよく、それぞれが本開示の1つまたは複数の態様を実行してもよい。本開示において使用されるとき、「a」または「one」の用語は特段の記述がない限り、1つまたは複数のアイテムを含んでもよい。さらに、「based on」の語句は特段の記述がない限り、「based at least in part on」を意味することを意図している。
【0069】
条項
【0070】
条項1
口頭での発話を処理するためのコンピュータ実装された方法であって、
曲名の綴りに少なくとも部分的に基づいて、前記曲名の少なくとも1つの元言語を判断するステップと、
前記少なくとも1つの元言語及びユーザが発話した言語に少なくとも部分的に基づいて前記曲名の複数の潜在的な発音を判断するステップであって、前記複数の潜在的な発音のそれぞれがスコアに関連する、前記判断するステップと、
前記複数の潜在的な発音のそれぞれと前記曲名との間の関連を保存するステップと、
曲の再生の要求を含む口頭での発話を受信するステップと、
前記複数の潜在的な発音の1つのスコアに少なくとも部分的に基づく、前記口頭での発話の部分を前記複数の潜在的な発音の1つと照合するステップと、
前記複数の潜在的な発音の1つに少なくとも部分的に基づく前記曲を識別するステップと、
計算装置上で前記曲を再生をさせるステップと、
を含む、前記方法。
【0071】
条項2
前記複数の潜在的な発音を判断するステップがさらに、少なくとも1つの元言語が前記曲名と共通である語のユーザの発音履歴に少なくとも部分的に基づく、請求項1に記載の方法。
【0072】
条項3
第1の元言語の前記曲名の1つの部分及び第2の元言語の前記曲名の第2の部分との関連付けにより、少なくとも1つの潜在的な発音を判断するステップをさらに含む、請求項1に記載の方法。
【0073】
条項4
前記曲名の前記少なくとも1つの元言語を判断するステップが、前記計算装置によって再生可能な他の曲の元言語に少なくとも部分的に基づく、請求項1に記載の方法。
【0074】
条項5
計算システムであって、
少なくとも1つの処理装置と、
アクションの組を実行するための、前記少なくとも1つの処理装置によって実行されるよう動作可能な命令を含むメモリ装置であって、前記命令は、少なくとも1つのプロセッサが、
潜在的な元言語がテキスト識別子に少なくとも部分的に基づくような、テキスト識別子の前記潜在的な元言語を判断し、
潜在的な発音が前記潜在的な元言語及び潜在的な口頭での言語に少なくとも部分的に基づくような、前記テキスト識別子の前記潜在的な発音を判断し、
前記潜在的な発音と前記テキスト識別子との間の関連を保存するよう構成する、前記メモリ装置と、
を含む、前記計算システム。
【0075】
条項6
前記命令は前記少なくとも1つの処理装置が、
前記テキスト識別子のための前記第2の潜在的な元言語を判断し、前記第2の潜在的な元言語が前記テキスト識別子に少なくとも部分的に基づき、
前記テキスト識別子の第2の潜在的な発音を判断し、前記第2の潜在的な発音が前記第2の潜在的な元言語に少なくとも部分的に基づき、
前記第2の潜在的な発音との前記テキスト識別子間の関連を保存するようにさらに構成する、条項5に記載の計算システム。
【0076】
条項7
前記潜在的な元言語、第2の潜在的な元言語、潜在的な発音及び第2の潜在的な発音が、それぞれのスコアにそれぞれ関連する、条項6に記載の計算システム。
【0077】
条項8
前記少なくとも1つの処理装置が前記テキスト識別子の第2の潜在的な元言語を判断するようさらに構成され、
前記潜在的な元言語が前記テキスト識別子の第1の部分に関連し、
前記第2の潜在的な元言語が前記テキスト識別子の第2の部分に関連し、
前記潜在的な発音が前記第2の潜在的な元言語に少なくとも部分的にさらに基づく、
条項5に記載の計算システム。
【0078】
条項9
前記少なくとも1つの処理装置が、ユーザの発音履歴に少なくとも部分的にさらに基づいて前記潜在的な発音を判断するようさらに構成される、条項5に記載の計算システム。
【0079】
条項10
ユーザの前記発音履歴が前記ユーザが発話した言語を含む、条項9に記載の計算システム。
【0080】
条項11
前記少なくとも1つの処理装置が、前記テキスト識別子に関連する第2のテキスト識別子の元言語に少なくとも部分的にさらに基づいて前記潜在的な元言語を判断するようさらに構成される、条項5に記載の計算システム。
【0081】
条項12
前記命令は少なくとも1つのプロセッサが、
発話を含む音声データを受信し、
前記発話における前記潜在的な発音を識別し、
前記保存された関連に基づいて前記テキスト識別子を識別し、
前記テキスト識別子に関連するコンテンツアイテムの少なくとも一部を検索するよう
さらに構成する、条項5に記載の計算システム。
【0082】
条項13
前記計算装置によってアクセスされるアーティスト、アルバム、バンド、映画、書籍、曲及び/または食品の名称を前記テキスト識別子が含む、条項5に記載の計算システム。
【0083】
条項14
前記潜在的な口頭での言語が前記システムの装置の位置に関連する言語を含む、条項5に記載の計算システム。
【0084】
条項15
前記少なくとも1つの処理装置が有限状態トランスデューサ(FST)モデル、最大エントロピーモデル、文字レベル言語モデル及び/または条件付き確率場モデルの少なくとも1つを利用して、前記テキスト識別子の前記潜在的な発音を判断するようさらに構成される、条項5に記載の計算システム。
【0085】
条項16
テキスト識別子のための潜在的な元言語を判断するためのプログラムコードであって、前記潜在的な元言語がテキスト識別子に少なくとも部分的に基づく前記プログラムコードと、
前記テキスト識別子の潜在的な発音を判断するためのプログラムコードであって、前記潜在的な発音が前記潜在的な元言語及び潜在的な口頭での言語に少なくとも部分的に基づく前記プログラムコードと、
前記潜在的な発音と前記テキスト識別子との間の関連を保存するためのプログラムコードと、
を含む、計算装置を制御するための処理装置実行可能命令を保存する非一時的コンピュータ読み取り可能記憶媒体。
【0086】
条項17
前記テキスト識別子のための第2の潜在的な元言語を判断するためのプログラムコードであって、前記第2の潜在的な元言語が前記テキスト識別子に少なくとも部分的に基づく前記プログラムコードと、
前記テキスト識別子の第2の潜在的な発音を判断するためのプログラムコードであって、前記第2の潜在的な発音が前記第2の潜在的な元言語に少なくとも部分的に基づく前記プログラムコードと、
前記第2の潜在的な発音と前記テキスト識別子との間の関連を保存するためのプログラムコードと、
をさらに含む、条項16に記載の非一時的コンピュータ読み取り可能記憶媒体。
【0087】
条項18
前記潜在的な元言語、第2の潜在的な元言語、潜在的な発音及び第2の潜在的な発音がそれぞれのスコアにそれぞれ関連する、条項17に記載の非一時的コンピュータ読み取り可能記憶媒体。
【0088】
条項19
前記テキスト識別子の第2の潜在的な元言語を判断するためのプログラムコードをさらに含む、非一時的コンピュータ読み取り可能記憶媒体であって、
前記潜在的な元言語が前記テキスト識別子の第1の部分に関連し、
前記第2の潜在的な元言語が前記テキスト識別子の第2の部分に関連し、
前記潜在的な発音が前記第2の潜在的な元言語に少なくとも部分的にさらに基づく、
条項16に記載の前記非一時的コンピュータ読み取り可能記憶媒体。
【0089】
条項20
ユーザの発音履歴に少なくとも部分的にさらに基づき前記潜在的な発音を判断するためのプログラムコードをさらに含む、条項16に記載の非一時的コンピュータ読み取り可能記憶媒体。
【0090】
条項21
ユーザの前記発音履歴が前記ユーザが発話した言語を含む、条項20に記載の非一時的コンピュータ読み取り可能記憶媒体。
【0091】
条項22
前記テキスト識別子に関連する第2のテキスト識別子の元言語に少なくとも部分的にさらに基づき、前記潜在的な元言語を判断するためのプログラムコードをさらに含む、条項16に記載の非一時的コンピュータ読み取り可能記憶媒体。
【0092】
条項23
発話を含む音声データを受信するためのプログラムコードと、
前記発話における前記潜在的な発音を識別するためのプログラムコードと、
前記保存された関連に基づき前記テキスト識別子を識別するためのプログラムコードと、
前記テキスト識別子に関連するコンテンツアイテムの少なくとも一部分を検索するためのプログラムコードと、
をさらに含む、条項16に記載の非一時的コンピュータ読み取り可能記憶媒体。
【0093】
条項24
前記計算装置によってアクセスされる前記テキスト識別子がアーティスト、アルバム、バンド、映画、書籍、曲及び/または食品の名称を含む、条項16に記載の非一時的コンピュータ読み取り可能記憶媒体。
【0094】
条項25
前記潜在的な口頭での言語が前記システムの装置の位置に関連する、条項16に記載の非一時的コンピュータ読み取り可能記憶媒体。
【0095】
条項26
前記テキスト識別子の前記潜在的な発音を判断するための前記プログラムコードが、有限状態トランスデューサ(FST)モデル、最大エントロピーモデル、文字レベル言語モデル及び/または条件付き確率場モデルに少なくとも部分的に基づく、条項16に記載の非一時的コンピュータ読み取り可能記憶媒体。
図1
図2
図3
図4
図5
図6
図7