特表2024-533040 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ インターナショナル・ビジネス・マシーンズ・コーポレーションの特許一覧

特表2024-533040エンドツーエンド音声認識のためのニューラルトランスデューサモデルにおける音響情報と言語情報との分離

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-09-12

(54)【発明の名称】エンドツーエンド音声認識のためのニューラルトランスデューサモデルにおける音響情報と言語情報との分離

(51)【国際特許分類】

G10L 15/16 20060101AFI20240905BHJP

【ＦＩ】

G10L15/16

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2024508050

(86)(22)【出願日】2022-09-07

(85)【翻訳文提出日】2024-02-08

(86)【国際出願番号】 EP2022074919

(87)【国際公開番号】W WO2023041404

(87)【国際公開日】2023-03-23

(31)【優先権主張番号】17/478,064

(32)【優先日】2021-09-17

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

(71)【出願人】

【識別番号】390009531

【氏名又は名称】インターナショナル・ビジネス・マシーンズ・コーポレーション

【氏名又は名称原語表記】ＩＮＴＥＲＮＡＴＩＯＮＡＬＢＵＳＩＮＥＳＳＭＡＣＨＩＮＥＳＣＯＲＰＯＲＡＴＩＯＮ

【住所又は居所原語表記】ＮｅｗＯｒｃｈａｒｄＲｏａｄ，Ａｒｍｏｎｋ，ＮｅｗＹｏｒｋ１０５０４，ＵｎｉｔｅｄＳｔａｔｅｓｏｆＡｍｅｒｉｃａ

(74)【代理人】

【識別番号】100112690

【弁理士】

【氏名又は名称】太佐種一

(74)【代理人】

【識別番号】100120710

【弁理士】

【氏名又は名称】片岡忠彦

(72)【発明者】

【氏名】倉田岳人

(57)【要約】

リカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）を訓練するためのコンピュータ実施方法が提供される。本方法は、オーディオ・データのセットを入力することにより、共通エンコーダ、順方向予測ネットワーク、並びに上記共通エンコーダ及び上記順方向予測ネットワークの両方の出力を組み合わせる第１ジョイントネットワークを含む第１ＲＮＮ－Ｔを訓練することを含む。順方向予測ネットワークは、ラベルシーケンスを順方向に予測する。本方法は、さらに、上記オーディオ・データのセットを入力することにより、上記共通エンコーダ、逆方向予測ネットワーク、並びに上記共通エンコーダ及び上記逆方向予測ネットワークの両方の出力を組み合わせる第２ジョイントネットワークを含む第２ＲＮＮ－Ｔを訓練することを含む。逆方向予測ネットワークは、ラベルシーケンスを逆方向に予測する。訓練された第１ＲＮＮ－Ｔは、推論のために用いられる。

【特許請求の範囲】

【請求項1】

リカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）を訓練するためのコンピュータ実施方法であって、
オーディオ・データのセットを入力することにより、共通エンコーダ、ラベルシーケンスを順方向に予測する順方向予測ネットワーク、並びに前記共通エンコーダ及び前記順方向予測ネットワークの両方の出力を組み合わせる第１ジョイントネットワークを含む第１ＲＮＮ－Ｔを訓練するステップと、
前記オーディオ・データのセットを入力することにより、前記共通エンコーダ、ラベルシーケンスを逆方向に予測する逆方向予測ネットワーク、並びに前記共通エンコーダ及び前記逆方向予測ネットワークの両方の出力を組み合わせる第２ジョイントネットワークを含む第２ＲＮＮ－Ｔを訓練するステップと、
を含み、前記訓練された第１ＲＮＮ－Ｔは、推論のために用いられる、コンピュータ実施方法。

【請求項2】

２つの前記訓練するステップは、言語情報を無視し、取り込むことなく前記順方向予測ネットワークと前記逆方向予測ネットワークとを一緒に訓練する、請求項１に記載のコンピュータ実施方法。

【請求項3】

前記第１ＲＮＮ－Ｔと前記第２ＲＮＮ－Ｔとを一緒に訓練するために前記共通エンコーダからの同じ符号化が用いられる、請求項１に記載のコンピュータ実施方法。

【請求項4】

前記第１ＲＮＮ－Ｔは、ソフトマックス層を含み、前記方法は、前記第１ジョイントネットワークの出力にソフトマックス操作を適用するステップをさらに含む、請求項１に記載のコンピュータ実施方法。

【請求項5】

前記第２ＲＮＮ－Ｔは、ソフトマックス層を含み、前記方法は、前記第２ジョイントネットワークの出力にソフトマックス操作を適用するステップをさらに含む、請求項１に記載のコンピュータ実施方法。

【請求項6】

前記第１ＲＮＮ－Ｔを訓練するステップは、前記オーディオ・データのセットと前記第１ＲＮＮ－Ｔの出力とから、ｘ軸に沿った前記オーディオ・データのセットとｙ軸に沿った前記第１ＲＮＮ－Ｔの出力とを用いて第１出力確率格子を生成するステップを含み、前記方法は、さらに、前記第１出力確率格子上でＲＮＮ－Ｔ損失を右上方向において計算するステップを含む、請求項１に記載のコンピュータ実施方法。

【請求項7】

前記第１出力確率格子の各ノードは、順方向に対応する前記第１ジョイントネットワークの出力のソフトマックスを表す、請求項１に記載のコンピュータ実施方法。

【請求項8】

前記第２ＲＮＮ－Ｔを訓練するステップは、前記オーディオ・データのセットと前記第２ＲＮＮ－Ｔの出力とから、ｘ軸に沿った前記オーディオ・データのセットとｙ軸に沿った前記第２ＲＮＮ－Ｔの出力とを用いて第２出力確率格子を生成するステップを含み、前記方法は、さらに、前記第２出力確率格子上でＲＮＮ－Ｔ損失を左下方向において計算するステップを含む、請求項１に記載のコンピュータ実施方法。

【請求項9】

前記第２出力確率格子の各ノードは、逆方向に対応する前記第２ジョイントネットワークの出力のソフトマックスを表す、請求項１に記載のコンピュータ実施方法。

【請求項10】

リカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）を訓練するためのコンピュータプログラムプロダクトであって、前記コンピュータプログラムプロダクトは、自体を用いて具体化されるプログラム命令を有する非一時的コンピュータ可読記憶媒体を含み、前記プログラム命令は、コンピュータによって前記コンピュータに、
オーディオ・データのセットを入力するプロセッサデバイスにより、共通エンコーダ、順方向予測ネットワーク、並びに前記共通エンコーダ及び前記順方向予測ネットワークの両方の出力を組み合わせる第１ジョイントネットワークを含む第１ＲＮＮ－Ｔを訓練するステップであって、前記順方向予測ネットワークは、ラベルシーケンスを順方向に予測するステップと、
前記オーディオ・データのセットを入力するプロセッサデバイスにより、前記共通エンコーダ、逆方向予測ネットワーク、並びに前記共通エンコーダ及び前記逆方向予測ネットワークの両方の出力を組み合わせる第２ジョイントネットワークを含む第２ＲＮＮ－Ｔを訓練するステップであって、前記逆方向予測ネットワークは、ラベルシーケンスを逆方向に予測するステップと、
を含み、前記訓練された第１ＲＮＮ－Ｔは、推論のために用いられる方法を実施させるように実行可能なコンピュータプログラムプロダクト。

【請求項11】

２つの前記訓練するステップは、言語情報を無視し、取り込むことなく前記順方向予測ネットワークと前記逆方向予測ネットワークとを一緒に訓練する、請求項１０に記載のコンピュータプログラムプロダクト。

【請求項12】

前記第１ＲＮＮ－Ｔと前記第２ＲＮＮ－Ｔとを一緒に訓練するために前記共通エンコーダからの同じ符号化が用いられる、請求項１０に記載のコンピュータプログラムプロダクト。

【請求項13】

前記第１ＲＮＮ－Ｔは、ソフトマックス層を含み、前記方法は、前記第１ジョイントネットワークの出力にソフトマックス操作を適用するステップをさらに含む、請求項１０に記載のコンピュータプログラムプロダクト。

【請求項14】

前記第２ＲＮＮ－Ｔは、ソフトマックス層を含み、前記方法は、前記第２ジョイントネットワークの出力にソフトマックス操作を適用するステップをさらに含む、請求項１０に記載のコンピュータプログラムプロダクト。

【請求項15】

前記第１ＲＮＮ－Ｔを訓練するステップは、前記オーディオ・データのセットと前記第１ＲＮＮ－Ｔの出力とから、ｘ軸に沿った前記オーディオ・データのセットとｙ軸に沿った前記第１ＲＮＮ－Ｔの出力とを用いて第１出力確率格子を生成することを含み、前記方法は、前記第１出力確率格子上でＲＮＮ－Ｔ損失を右上方向において計算するステップをさらに含む、請求項１０に記載のコンピュータプログラムプロダクト。

【請求項16】

前記第１出力確率格子の各ノードは、順方向に対応する前記第１ジョイントネットワークの出力のソフトマックスを表す、請求項１０に記載のコンピュータプログラムプロダクト。

【請求項17】

前記第２ＲＮＮ－Ｔを訓練するステップは、前記オーディオ・データのセットと前記第２ＲＮＮ－Ｔの出力とから、ｘ軸に沿った前記オーディオ・データのセットとｙ軸に沿った前記第２ＲＮＮ－Ｔの出力とを用いて第２出力確率格子を生成することを含み、前記方法は、前記第２出力確率格子上でＲＮＮ－Ｔ損失を左下方向において計算するステップをさらに含む、請求項１０に記載のコンピュータプログラムプロダクト。

【請求項18】

前記第２出力確率格子の各ノードは、逆方向に対応する前記第２ジョイントネットワークの出力のソフトマックスを表す、請求項１０に記載のコンピュータプログラムプロダクト。

【請求項19】

リカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）を訓練するためのコンピュータ処理システムであって、
プログラムコードを記憶するためのメモリデバイスと、
オーディオ・データのセットを入力することにより、共通エンコーダ、ラベルシーケンスを順方向に予測する順方向予測ネットワーク、並びに前記共通エンコーダ及び前記順方向予測ネットワークの両方の出力を組み合わせる第１ジョイントネットワークを含む第１ＲＮＮ－Ｔを訓練し、かつ
前記オーディオ・データのセットを入力することにより、前記共通エンコーダ、ラベルシーケンスを逆方向に予測する逆方向予測ネットワーク、並びに前記共通エンコーダ及び前記逆方向予測ネットワークの両方の出力を組み合わせる第２ジョイントネットワークを含む第２ＲＮＮ－Ｔを訓練し、
前記訓練された第１ＲＮＮ－Ｔは、推論のために用いられる、
ように前記プログラムコードを実行するために前記メモリデバイスに動作可能に結合されたプロセッサデバイスと、
を含むシステム。

【請求項20】

前記第１ＲＮＮ－Ｔと前記第２ＲＮＮ－Ｔとを一緒に訓練するために前記共通エンコーダからの同じ符号化が用いられる、請求項１９に記載のコンピュータ処理システム。

【請求項21】

コンピュータプログラムであって、前記プログラムがコンピュータ上で実行されると、請求項１～９の何れか一項に記載の方法を実施するのに適したプログラムコード手段を含むプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、全体として音声認識に関し、より詳しくはエンドツーエンド音声認識のためのニューラルトランスデューサモデルにおける音響情報と言語情報との分離に関する。

【背景技術】

【0002】

音声認識のためにただ一つのニューラルネットワークがすべてをモデル化するニューラルトランスデューサを用いるエンドツーエンド音声認識は、訓練と推論との両方においてさまざまな利点を有する。トランスクリプトとオーディオからだけの純粋にエンドツーエンドの訓練が可能である。推論のためには一つのニューラルネットワーク上のビームサーチだけが必要であり、結果として計算コストが小さく、メモリフットプリントが小さく、推論エンジンが簡単になる。

【0003】

ニューラルトランスデューサモデルの訓練は、簡単であるがいくつか欠点がある。たとえばエンドツーエンド訓練は、１発話が１サンプルとしてしか使用され得ないため過剰適合の傾向がある。ニューラルトランスデューサモデルは、音響モデルとして役立つエンコーダネットワークと、言語モデルとして役立つ予測ネットワークと、エンコーダ及び予測ネットワークからの音響及び言語埋め込みを組み合わせるジョイントネットワークと、を含むが、エンドツーエンド訓練は、そのようなモジュール構造を考慮しない。その結果、ニューラルトランスデューサのカスタム化は、音響モデルと言語モデルとが別々に訓練され、独立にカスタム化され得る従来のハイブリッドモデルより難しい。クラウドから競争力あるサービスを提供するには改善された正確さとよりリアクティブなカスタム化とがともに重要である。したがって、（１）過剰適合を軽減することによって音声認識精度を向上させ、（２）カスタム化に対してよりリアクティブであるモデルを構築することが求められている。

【発明の概要】

【0004】

本発明の側面によれば、リカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）を訓練するためのコンピュータ実施方法が提供される。本方法は、オーディオ・データのセットを入力することにより、共通エンコーダ、順方向予測ネットワーク、並びに上記共通エンコーダ及び上記順方向予測ネットワークの両方の出力を組み合わせる第１ジョイントネットワークを含む第１ＲＮＮ－Ｔを訓練することを含む。順方向予測ネットワークは、ラベルシーケンスを順方向に予測する。本方法は、さらに、上記オーディオ・データのセットを入力することにより、共通エンコーダ、逆方向予測ネットワーク、並びに共通エンコーダ及び逆方向予測ネットワークの両方の出力を組み合わせる第２ジョイントネットワークを含む第２ＲＮＮ－Ｔを訓練することを含む。逆方向予測ネットワークは、ラベルシーケンスを逆方向に予測する。訓練された第１ＲＮＮ－Ｔは、推論のために用いられる。

【0005】

本発明の別の側面によれば、リカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）を訓練するためのコンピュータプログラムプロダクトが提供される。本コンピュータプログラムプロダクトは、非一時的コンピュータ可読記憶媒体を含み、この記憶媒体は、それ自体を用いて具体化されるプログラム命令を有する。プログラム命令は、コンピュータによって、該コンピュータに方法を実施させるように実行可能である。本方法は、オーディオ・データのセットを入力するプロセッサデバイスにより、共通エンコーダ、順方向予測ネットワーク、並びに上記共通エンコーダ及び上記順方向予測ネットワークの両方の出力を組み合わせる第１ジョイントネットワークを含む第１ＲＮＮ－Ｔを訓練するステップを含む。順方向予測ネットワークは、ラベルシーケンスを順方向に予測する。本方法は、さらに、上記オーディオ・データのセットを入力するプロセッサデバイスにより、上記共通エンコーダ、逆方向予測ネットワーク、並びに上記共通エンコーダ及び上記逆方向予測ネットワークの両方の出力を組み合わせる第２ジョイントネットワークを含む第２ＲＮＮ－Ｔを訓練するステップを含む。逆方向予測ネットワークは、ラベルシーケンスを逆方向に予測する。訓練された第１ＲＮＮ－Ｔは、推論のために用いられる。

【0006】

本発明のさらに別の側面によれば、リカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）を訓練するためのコンピュータ処理システムが提供される。本システムは、プログラムコードを記憶するためのメモリデバイスを含む。本システムは、さらに、オーディオ・データのセットを入力することにより、共通エンコーダ、順方向予測ネットワーク、並びに上記共通エンコーダ及び上記順方向予測ネットワークの両方の出力を組み合わせる第１ジョイントネットワークを含む第１ＲＮＮ－Ｔを訓練するために、該プログラムコードを実行するためのメモリデバイスに動作可能に結合されたプロセッサデバイスを含む。順方向予測ネットワークは、ラベルシーケンスを順方向に予測する。プロセッサデバイスは、さらに、上記オーディオ・データのセットを入力することにより、上記共通エンコーダ、逆方向予測ネットワーク、並びに上記共通エンコーダ及び上記逆方向予測ネットワークの両方の出力を組み合わせる第２ジョイントネットワークを含む第２ＲＮＮ－Ｔを訓練するために、該プログラムコードを実行するように動作可能である。逆方向予測ネットワークは、ラベルシーケンスを逆方向に予測する。訓練された第１ＲＮＮ－Ｔは、推論のために用いられる。

【0007】

これらならびにその他の特徴及び利点は、それらを例示する実施形態についての以下の詳細な説明から明らかになる。それらの説明は、添付の図面と関連付けて読まれるべきである。

【0008】

次に、単に例として、本発明の好ましい実施形態が以下の図面を参照して記載される。

【図面の簡単な説明】

【0009】

【図1】本発明の実施形態による例示的なコンピューティングデバイスを示すブロック図である。

【図2】本発明の実施形態によるニューラルトランスデューサアーキテクチャの例を示す。

【図3】本発明の実施形態による順方向の格子検索の例を示す図である。

【図4】本発明の実施形態による逆方向の格子検索の例を示す図である。

【図5】本発明の実施形態によってリカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）を訓練するための方法の例を示すフローチャートである。

【図6】本発明の実施形態による動作環境の例を示す。

【図7】本発明の実施形態によって、クラウドコンシューマによって用いられるローカルコンピューティングデバイスの通信相手である一つ以上のクラウドコンピューティングノードを有する例示的なクラウドコンピューティング環境を示すブロック図である。

【図8】本発明の実施形態によってクラウドコンピューティング環境により提供される機能抽象層のセットを示すブロック図である。

【発明を実施するための形態】

【0010】

本発明の実施形態は、エンドツーエンド音声認識のためのニューラルトランスデューサモデルにおける音響情報と言語情報との分離を目的とする。

【0011】

本発明の実施形態は、ラベルシーケンスを逆方向に予測する追加の予測ネットワークを準備する。本発明の実施形態は、元の順方向予測ネットワークと追加の逆方向予測ネットワークとによるニューラルトランスデューサのマルチタスク訓練を実施する。マルチタスク学習時には同じエンコーダネットワークが用いられる。実際の試験（推論ステージ）のためには元の順方向予測ネットワークだけが用いられる。

【0012】

本発明の実施形態において、エンコーダネットワークは、順方向と逆方向との両方の予測ネットワークを用いて一緒に訓練され、したがって、言語情報を成果として取り込まない。この方法の利点の例は、少なくとも（１）訓練データへの過剰適合が軽減されることと；（２）予測ネットワーク及びエンコーダネットワークにおいて言語情報と音響情報とが分離度を高めて取り込まれることと、を含む。その結果、予測ネットワークとエンコーダネットワークとのカスタム化（図２参照）がよりリアクティブになる。

【0013】

図１は、本発明の実施形態による例示的なコンピューティングデバイス１００を示すブロック図である。コンピューティングデバイス１００は、エンドツーエンド音声認識のためのニューラルトランスデューサモデルにおいて音響情報と言語情報とを分離するように構成される。この方法において、予測ネットワーク及びエンコーダネットワークのカスタム化（図２参照）は、よりリアクティブになる。

【0014】

コンピューティングデバイス１００は、コンピュータ、サーバ、ラック型サーバ、ブレードサーバ、ワークステーション、デスクトップコンピュータ、ラップトップコンピュータ、ノートブックコンピュータ、タブレットコンピュータ、モバイルコンピューティングデバイス、ウェアラブルコンピューティングデバイス、ネットワーク機器、ウェブ機器、分散型コンピューティングシステム、プロセッサ利用システムもしくはコンシューマ電子デバイスまたはそれらのいくつかもしくはすべてを含むがこれに限定されるものではない、本明細書に記載される機能を実施する能力があるあらゆるタイプのコンピューティングデバイスまたはコンピュータデバイスとして具体化されることがある。さらに、もしくはあるいは、コンピューティングデバイス１００は、一つ以上のコンピュートスレッド、メモリスレッド、またはその他のラック、スレッド、コンピューティングシャシ、または物理的に切り離されたコンピューティングデバイスのその他のコンポーネントとして具体化されることがある。図１に示されるように、コンピューティングデバイス１００は、例示的にプロセッサ１１０、入力／出力サブシステム１２０、メモリ１３０、データ記憶デバイス１４０及び通信サブシステム１５０またはサーバもしくは類似のコンピューティングデバイス中に普通に見いだされる他のコンポーネント及びデバイスあるいはそれらのいくつかまたはすべてを含む。もちろん、コンピューティングデバイス１００は、他の実施形態においてその他のコンポーネントまたは追加のコンポーネント、たとえばサーバコンピュータ中に普通に見いだされるもの（たとえばさまざまな入力／出力装置）を含むことがある。さらに、いくつかの実施形態において、例示的なコンポーネントの一種類以上が別のコンポーネントの中に組み込まれるかまたはその他の方法で別のコンポーネントの一部を形成することがある。たとえば、いくつかの実施形態においてメモリ１３０またはその一部がプロセッサ１１０の中に組み込まれることがある。

【0015】

プロセッサ１１０は、本明細書に記載される機能を実施する能力があるあらゆるタイプのプロセッサとして具体化されることがある。プロセッサ１１０は、単一プロセッサ、複数プロセッサ、中央処理ユニット（ＣＰＵ）、グラフィクス処理ユニット（ＧＰＵ）、シングルまたはマルチコアプロセッサ、ディジタル信号処理ユニット、マイクロコントローラ、またはその他のプロセッサまたは処理／制御回路として具体化されることがある。

【0016】

メモリ１３０は、本明細書に記載される機能を実施する能力があるあらゆるタイプの揮発メモリもしくは不揮発メモリまたはデータストレージとして具体化されることがある。動作時、メモリ１３０は、コンピューティングデバイス１００の動作時に用いられるさまざまなデータ及びソフトウェア、たとえばオペレーティングシステム、アプリケーションプログラム、ライブラリ及びドライバを記憶することがある。メモリ１３０は、Ｉ／Ｏサブシステム１２０を介してプロセッサ１１０に通信的に結合され、Ｉ／Ｏサブシステム１２０は、プロセッサ１１０、メモリ１３０及びコンピューティングデバイス１００のその他のコンポーネントとの入力／出力動作を促進する回路もしくはコンポーネントまたはその両方として具体化されることがある。たとえば、Ｉ／Ｏサブシステム１２０は、メモリコントローラハブ、入力／出力制御ハブ、プラットフォームコントローラハブ、集積制御回路、ファームウェアデバイス、通信リンク（たとえばポイントツーポイントリンク、バスリンク、ワイヤ、ケーブル、ライトガイド、プリント回路基板トレース等）もしくは入力／出力動作を促進する他のコンポーネント及びサブシステムまたはそれらのいくつかもしくはすべてとして具体化されるか、あるいは前記のものを他の形で含むことがある。いくつかの実施形態において、Ｉ／Ｏサブシステム１２０は、システム－オン－ア－チップ（ＳＯＣ）の一部を形成すること及びプロセッサ１１０、メモリ１３０及びコンピューティングデバイス１００のその他のコンポーネントとともに単一の集積回路チップに組み込まれることがある。

【0017】

データ記憶デバイス１４０は、たとえばメモリデバイス及び回路、メモリカード、ハードディスクドライブ、ソリッドステートドライブまたはその他のデータ記憶デバイスなど、データの短期または長期記憶のために構成されたあらゆるタイプのデバイスとして具体化されることがある。データ記憶デバイス１４０は、エンドツーエンド音声認識のためのニューラルトランスデューサモデルにおいて音響情報と言語情報とを分離するためのプログラムコードを記憶することができる。コンピューティングデバイス１００の通信サブシステム１５０は、コンピューティングデバイス１００とネットワーク上の他のリモートデバイスとの間の通信を可能にする能力があるあらゆるネットワークインタフェースコントローラまたはその他の通信回路、デバイスあるいはそれらの集まりとして具体化されることがある。通信サブシステム１５０は、そのような通信を行うために何れか１種類以上の通信技術（たとえば有線または無線通信）及び関連プロトコル（たとえばイーサネット、インフィニバンド（Ｒ）、ブルートゥース（Ｒ）、Ｗｉ－Ｆｉ（Ｒ）、ＷｉＭａｘ等）を用いるように構成されることがある。

【0018】

図示のように、コンピューティングデバイス１００は、一つ以上の周辺デバイス１６０も含むことがある。周辺デバイス１６０は、あらゆる数の追加の入力／出力デバイス、インタフェースデバイスもしくは他の周辺デバイスまたはその両方を含むことがある。たとえば、いくつかの実施形態において、周辺デバイス１６０は、ディスプレイ、タッチスクリーン、グラフィクス回路、キーボード、マウス、スピーカシステム、マイクロフォン、ネットワークインタフェース及び／またはその他の入力／出力デバイス、インタフェースデバイス及び／または周辺デバイスを含むことがある。

【0019】

もちろん、コンピューティングデバイス１００は、当業者によって容易に予測されるように他の要素（図示せず）を含むことも特定の要素を除外することもある。たとえば、当業者によって容易に理解されるように、コンピューティングデバイス１００の中に、その特定の実体化に応じてさまざまなその他の入力デバイスもしくは出力デバイスまたはその両方が含まれ得る。たとえば、さまざまなタイプの無線及び／または有線の入力及び／または出力デバイスが用いられ得る。そのうえ、さまざまな構成の追加のプロセッサ、コントローラ、メモリなども利用され得る。さらに、別の実施形態において、クラウド構成が用いられ得る（たとえば図７～８参照）。処理システム１００のこれらの変化形及びその他の変化形は、本明細書に提供される本発明の教示が与えられれば当業者によって容易に予測される。

【0020】

本明細書において使用されるとき、用語「ハードウェアプロセッササブシステム」または「ハードウェアプロセッサ」は、プロセッサ、メモリ（ＲＡＭ、キャッシュなどを含む）、ソフトウェア（メモリ管理ソフトウェアを含む）または１種類以上の特定のタスクを実施するために協力するそれらの組み合わせを指すことができる。有用な実施形態において、ハードウェアプロセッササブシステムは、一つ以上のデータ処理要素（たとえばロジック回路、処理回路、命令実行デバイス等）を含むことができる。一つ以上のデータ処理要素は、中央処理ユニット、グラフィクス処理ユニットまたは別個のプロセッサもしくはコンピューティング要素に基づくコントローラ（たとえばロジックゲート等）あるいはそれらのいくつかまたはすべての中に含まれ得る。ハードウェアプロセッササブシステムは、一つ以上のオンボードメモリ（たとえばキャッシュ、専用メモリアレイ、読み出し専用メモリ等）を含むことができる。いくつかの実施形態において、ハードウェアプロセッササブシステムは、オンボードもしくはオフボードであり得るかまたはハードウェアプロセッササブシステムによる使用のための専用であり得る一つ以上のメモリ（たとえばＲＯＭ、ＲＡＭ、基本入力／出力システム（ＢＩＯＳ）等）を含むことができる。

【0021】

いくつかの実施形態において、ハードウェアプロセッササブシステムは、一つ以上のソフトウェア要素を含み、実行し得る。一つ以上のソフトウェア要素は、特定の結果を実現するためにオペレーティングシステム及び／または一つ以上のアプリケーション及び／または特定のコードを含み得る。

【0022】

他の実施形態において、ハードウェアプロセッササブシステムは、指定された結果を実現するために一つ以上の電子処理機能を実行する専用の、特別な回路を含むことができる。そのような回路は、一つ以上の特定アプリケーション向け集積回路（ＡＳＩＣ）、ＦＰＧＡもしくはＰＬＡまたはそれらのいくつかもしくはすべてを含み得る。

【0023】

ハードウェアプロセッササブシステムのこれらの変化形及びその他の変化形も本発明の実施形態によって予測される。

【0024】

図２は、本発明の実施形態による例示的なニューラルトランスデューサアーキテクチャ２００を示す。

【0025】

ニューラルトランスデューサアーキテクチャ２００は、第１リカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）２１０と第２ＲＮＮ－Ｔ２２０とを含む。

【0026】

第１ＲＮＮ－Ｔ２１０は、共通エンコーダ２３０と、順方向予測ネットワーク２１１と、第１ジョイントネットワーク（以後短く「ジョイントネットワーク」）２１２と、ソフトマックスブロック２１３と、を含む。順方向予測ネットワーク２１１は、ラベルシーケンスを順方向に予測する。ジョイントネットワーク２１２は、共通エンコーダ２３０及び順方向予測ネットワーク２１１の両方の出力を組み合わせる。順方向予測ネットワーク２１１、ジョイントネットワーク２１２及びソフトマックスブロック２１３は、第１デコーダネットワーク２１９を形成するとみなされ得る。

【0027】

第２ＲＮＮ－Ｔ２２０は、共通エンコーダ２３０と、逆方向予測ネットワーク２２１と、第２ジョイントネットワーク（以後短く「ジョイントネットワーク」）２２２と、ソフトマックスブロック２２３と、を含む。逆方向予測ネットワーク２２１は、ラベルシーケンスを逆方向に予測する。ジョイントネットワーク２２２は、共通エンコーダ２３０及び逆方向予測ネットワーク２２１の両方の出力を組み合わせる。逆方向予測ネットワーク２２１、ジョイントネットワーク２２２及びソフトマックスブロック２２３は、第２デコーダネットワーク２２９を形成するとみなされ得る。

【0028】

共通エンコーダ２３０は、音響モデルとして役立つ。順方向予測ネットワーク２１１と逆方向予測ネットワーク２２１とは、言語モデルとして役立つ。ジョイントネットワーク２１２は、エンコーダ２３０及び順方向予測ネットワーク２１１からの音響埋め込みと言語埋め込みとを組み合わせる。ジョイントネットワーク２２２は、エンコーダ２３０及び逆方向予測ネットワーク２２１からの音響埋め込みと言語埋め込みとを組み合わせる。

【0029】

訓練された第１ＲＮＮ－Ｔ２１０は、推論のために用いられる。

【0030】

エンコーダ２３０は、Ｘ_ｉ…Ｔを入力として受け、

【0031】

【数1】

【0032】

を出力する。

【0033】

順方向予測ネットワーク２１１は、Ｙ_Ｕ－１を入力として受け、

【0034】

【数2】

【0035】

を出力する。

【0036】

ジョイントネットワーク２１２は、

【0037】

【数3】

【0038】

及び

【0039】

【数4】

【0040】

を入力として受け、

【0041】

【数5】

【0042】

を出力する。

【0043】

ソフトマックスブロック２１３は、

【0044】

【数6】

【0045】

を入力として受け、Ｐ（ｙ｜ｔ，ｕ）を出力する。

【0046】

逆方向予測ネットワーク２２１は、Ｙ_ｕ＋１を入力として受け、

【0047】

【数7】

を出力する。

【0048】

ジョイントネットワーク２２２は、

【0049】

【数8】

【0050】

及び

【0051】

【数9】

【0052】

を入力として受け、

【0053】

【数10】

【0054】

を出力する。

【0055】

ソフトマックスブロック２２３は、

【0056】

【数11】

【0057】

を入力として受け、Ｐ（ｙ｜ｔ，ｕ）を出力する。

【0058】

図２において、以下の表記法が適用される。
Ｘ_ｉは、音響シーケンスのｉ番目の入力特徴量を示し、Ｔは、シーケンス長（Ｘ：ｘ１_…ｘＴ）を示し；
Ｙ_ｕ－１は、順方向に予測される出力文字シンボルを示し；
Ｙ_ｕ＋１は、逆方向に予測される出力文字シンボルを示し；

【0059】

【数12】

【0060】

は、入力特徴量の埋め込みベクトルシーケンスを示し；

【0061】

【数13】

【0062】

は、順方向予測にコンディショニングを行った埋め込みを示し；

【0063】

【数14】

【0064】

は、逆方向予測にコンディショニングを行った埋め込みを示し；

【0065】

【数15】

【0066】

は、順方向予測ネットワーク２１１からの出力とエンコーダネットワーク２３０からの出力とを組み合わせることによるジョイントネットワーク２１２の埋め込みを示し；

【0067】

【数16】

【0068】

は、逆方向予測ネットワーク２２１からの出力とエンコーダネットワーク２３０からの出力とを組み合わせることによるジョイントネットワーク２２２の埋め込みを示し；
Ｐ（ｙ｜ｔ，ｕ）は、文字のセットに対する事後分布を示し；
Ｙ＝（ｙ１，…，ｙｕ）は、順方向の文字の出力セットを示し；
Ｙ＝（ｙｕ，…，ｙ１）は、逆方向の文字の出力セットを示す。

【0069】

図３は、本発明の実施形態による例示的な順方向の格子検索３００を示す図である。

【0070】

格子検索３００は、ｘ方向とｙ方向とを有する。ｘ方向は、入力シーケンスｘ＝（ｘ_１，…，Ｘ_Ｔ）に対応する。ｙ方向は、順方向出力シーケンスＹ＝（ｙ_１，…，ｙ_Ｕ）に対応する。格子３０１中の各ノードは、ソフトマックスブロック２１３による

【0071】

【数17】

【0072】

のソフトマックスを表す。

【0073】

図４は、本発明の実施形態による例示的な逆方向の格子検索４００を示す図である。

【0074】

格子検索４００は、ｘ方向とｙ方向とを有する。ｘ方向は、入力シーケンスｘ＝（ｘ_１，…，Ｘ_Ｔ）に対応する。ｙ方向は、順方向出力シーケンスＹ＝（ｙ_１，…，ｙ_Ｕ）に対応する。格子４０１中の各ノードは、ソフトマックスブロック２２３による

【0075】

【数18】

【0076】

のソフトマックスを表す。

【0077】

図５は、本発明の実施形態による、リカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）を訓練するための例示的な方法５００を示すフローチャートである。

【0078】

ブロック５１０において、オーディオ・データのセットを入力することによって、共通エンコーダ、順方向予測ネットワーク、並びに上記共通エンコーダ及び上記順方向予測ネットワークの両方の出力を組み合わせる第１ジョイントネットワークを含む第１ＲＮＮ－Ｔを訓練する。順方向予測ネットワークは、ラベルシーケンスを順方向に予測する。

【0079】

実施形態において、ブロック５１０は、ブロック５１０Ａを含み得る。

【0080】

ブロック５１０Ａにおいて、上記オーディオ・データのセットと第１ＲＮＮ－Ｔの出力とから、ｘ軸に沿った上記オーディオ・データのセットとｙ軸に沿った上記第１ＲＮＮ－Ｔの出力とを用いて第１出力確率格子を生成する。第１ＲＮＮ－Ｔの第１出力確率格子上でＲＮＮ－Ｔ損失を右上方向において計算する。

【0081】

ブロック５２０において、上記オーディオ・データのセットを入力することによって、共通エンコーダ、逆方向予測ネットワーク、並びに共通エンコーダ及び逆方向予測ネットワークの両方の出力を組み合わせる第２ジョイントネットワークを含む第２ＲＮＮ－Ｔを訓練する。逆方向予測ネットワークは、ラベルシーケンスを逆方向に予測する。第１ＲＮＮ－Ｔと第２ＲＮＮ－Ｔとは、ＲＮＮ－Ｔを形成する。訓練するステップは、言語情報を無視し、取り込むことなく、順方向予測ネットワークと逆方向予測ネットワークとを一緒に訓練する。共通エンコーダネットワークは、前方向及び逆方向予測ネットワークと組み合わされる。したがって、共通エンコーダは、言語シーケンス（言語）情報を取り込んではならない。言語シーケンス情報は、前方向及び逆方向予測ネットワークによって取り込まれる必要がある。音響情報だけがエンコーダネットワークによって取り込まれるべきである。訓練された第１ＲＮＮ－Ｔは、推論のために用いられる。

【0082】

実施形態において、ブロック５２０は、ブロック５２０Ａを含み得る。

【0083】

ブロック５２０Ａにおいて、上記オーディオ・データのセットと上記第２ＲＮＮ－Ｔの出力とから、ｘ軸に沿った上記オーディオ・データのセットとｙ軸に沿った上記第２ＲＮＮ－Ｔの出力とを用いて第２出力確率格子を生成する。第２ＲＮＮ－Ｔの第２出力確率格子上でＲＮＮ－Ｔ損失を左下方向において計算する。

【0084】

図６は、本発明の実施形態による例示的な動作環境６００を示す。

【0085】

環境６００は、サーバ側６１０とクライアント側６５０とを含む。

【0086】

サーバ側６１０は、音声に基づくコンピュータ処理システムを含む。例示を目的として、音声に基づくコンピュータ処理システムは、エンドツーエンド音声認識システム６１１である。エンドツーエンド音声認識システム６１１は、本原理による改善された音声認識精度を有する。ブロック６１１は、以下のもの、音声認識；話者識別；話者照合；話者推定；言語識別；キーワード認識；感情検出；自動翻訳；法廷速記；ハンズフリーコンピューティング；ホームオートメーション；携帯電話；など、の一つ以上を含む音声に基づくあらゆるコンピュータ処理システムを表し得ると理解されるべきである。

【0087】

クライアント側６５０は、ワークステーションのセット６５１を含む。

【0088】

ワークステーション６５１におけるユーザは、音声認識セッションに関与するかもしくは他の方法で音声認識セッションを用いるかまたはその両方を行うことができる。音声認識セッションは、顧客サービス、ボイスダイヤリング、機械制御、データ検索、データ入力、システム／施設／企業体アクセスなどに関してであってよいがこれに限定されるものではない。

【0089】

サーバ側６１０とクライアント側６５０との間の通信は、一つ以上のネットワーク６９９によって行われる。実施形態において、サーバ側６１０は、クラウド構成を用いて実現される。

【0090】

本開示は、クラウドコンピューティングに関する詳細な説明を含むが、本明細書に記載される教示の実施は、クラウドコンピューティング環境に限定されないと理解されるべきである。むしろ、本発明の実施形態は、現在公知であるかまたは今後開発されるあらゆる他のタイプのコンピューティング環境とともに実施され得る。

【0091】

クラウドコンピューティングは、最小限の管理努力またはサービスの提供者との相互作用で迅速に配信され公開され得る設定可能なコンピューティングリソース（たとえばネットワーク、ネットワーク帯域、サーバ、処理方法、メモリ、ストレージ、アプリケーション、仮想マシン及びサービス）の共用プールへの便利なオンデマンドネットワークアクセスを可能にするためのサービス供給のモデルである。このクラウドモデルは、少なくとも５つの特性、少なくとも３つのサービスモデル及び少なくとも４つの開発モデルを含むことがある。

【0092】

特性は、以下の通りである。
オンデマンドセルフサービス：クラウド消費者は、サービスの提供者との人的相互作用を必要とすることなく必要に応じて自動的にコンピューティング能力、たとえばサーバ時間及びネットワークストレージを単方向的に準備することができる。
幅広いネットワークアクセス：能力がネットワーク上で利用可能であり、不均質な低密度または高密度クライアントプラットフォーム（たとえば携帯電話、ラップトップ及びＰＤＡ）による使用を促進する標準メカニズムによってアクセスされる。
リソースプーリング：マルチテナントモデルを用いて複数の消費者にサービスを行うために提供者のコンピューティングリソースがプールされ、さまざまな物理リソース及び仮想リソースが需要にしたがって動的に割り当て及び再割り当てされる。消費者は、一般に、提供されるリソースの正確なロケーションに対して制御または知識をもたないが、より高い抽象化のレベルにおいてロケーション（たとえば国、州またはデータセンター）を指定し得ることがある点で、ロケーションに依存しない感覚がある。
迅速な弾力性：能力が、素早くスケールアウトするために迅速かつ弾力的に、場合によっては自動的に準備され、素早くスケールインするために迅速に解放され得る。消費者にとって、手当てするために利用可能な能力は、多くの場合に無制限のように見え、いつでもいかなる量でも購入することができる。
サービスの計量：クラウドシステムは、サービスのタイプに適切ななんらかのレベルの抽象化における計量能力（たとえばストレージ、プロセス処理、帯域及びアクティブユーザアカウント）を梃子にすることによってリソース使用を自動的に制御し、最適化する。リソース使用状況が監視され、制御され、報告され、利用されるサービスの提供者とコンシューマとの両方にとっての透明性を提供する。

【0093】

サービスモデルは、以下の通りである。
サービスとしてのソフトウェア（ＳａａＳ）：コンシューマに提供される能力は、クラウドインフラストラクチャ上で実行されるプロバイダのアプリケーションを用いることである。アプリケーションは、ウェブブラウザなどのシンクライアントインタフェースを介してさまざまなクライアントデバイスからアクセス可能である（たとえばウェブ利用電子メール）。コンシューマは、限られたユーザ特異的アプリケーション構成設定をおそらく例外として、ネットワーク、サーバ、オペレーティングシステム、ストレージまたは場合によっては個々のアプリケーションの、能力を含む土台としてのクラウドインフラストラクチャを管理も制御もしない。
サービスとしてのプラットフォーム（ＰａａＳ）：コンシューマに提供される能力は、プロバイダによってサポートされるプログラミング言語及びツールを用いて作り出された、コンシューマ作成または取得のアプリケーションをクラウドインフラストラクチャ上に展開することである。コンシューマは、ネットワーク、サーバ、オペレーティングシステムまたはストレージを含む土台としてのクラウドインフラストラクチャを管理も制御もしないが、展開されたアプリケーションと、おそらくはアプリケーションをホストする環境設定を制御する。
サービスとしてのインフラストラクチャ（ＩａａＳ）：コンシューマに提供される能力は、オペレーティングシステム及びアプリケーションを含んでよい任意のソフトウェアをコンシューマが展開し、実行することができるプロセス処理、ストレージ、ネットワーク及びその他の基本的なコンピューティングリソースを準備することである。コンシューマは、土台としてのクラウドインフラストラクチャを管理も制御もしないが、オペレーティングシステム、ストレージ、展開されたアプリケーションを制御し、おそらくは選ばれたネットワークコンポーネント（たとえばホストファイアウォール）を限定的に制御する。

【0094】

展開モデルは、以下の通りである。
プライベートクラウド：クラウドインフラストラクチャは、機関のためにだけ運営される。それは、その機関または第三者によって管理され、オンプレミスまたはオフプレミスで存在することがある。
コミュニティクラウド：クラウドインフラストラクチャは、いくつかの機関によって共有され、共有される関心（たとえばミッション、セキュリティ要件、ポリシー及びコンプライアンスの考慮）を有する特定のコミュニティをサポートする。それは、その機関または第三者によって管理され、オンプレミスまたはオフプレミスで存在することがある。
パブリッククラウド：クラウドインフラストラクチャは、一般公衆または大規模な産業グループに利用可能であり、クラウドサービスを販売する機関によって所有される。
ハイブリッドクラウド：クラウドインフラストラクチャは、独自主体のままであるがデータ及びアプリケーションポータビリティ（たとえばクラウド間の負荷均衡のためのクラウドバースティング）を可能にする標準化技術または権利化技術によって結び付けられた２つ以上のクラウド（プライベート、コミュニティまたはパブリック）の複合体である。

【0095】

クラウドコンピューティング環境は、無国籍、低い結合、モジュール構造、及びセマンティック相互運用性に焦点を合わせたサービスを志向している。クラウドコンピューティングの中心には相互接続されたノードのネットワークを含むインフラストラクチャがある。

【0096】

次に図７を参照すると、例示的なクラウドコンピューティング環境７５０が示される。図示のように、クラウドコンピューティング環境７５０は、たとえばパーソナルディジタルアシスタント（ＰＤＡ）または携帯電話７５４Ａ、デスクトップコンピュータ７５４Ｂ、ラップトップコンピュータ７５４Ｃもしくは自動車コンピュータシステム７５４Ｎまたはそれらのいくつかなど、クラウドコンシューマによって用いられるローカルコンピューティングデバイスの通信相手となることがある一つ以上のクラウドコンピューティングノード７１０を含む。ノード７１０は、互いに通信することがある。それらは、本明細書において上記に記載されたように一つ以上のネットワーク、たとえばプライベートクラウド、コミュニティクラウド、パブリッククラウドまたはハイブリッドクラウド、あるいはそれらの組み合わせにおいて物理的にまたは仮想的にグループ化される（図示せず）ことがある。これは、クラウドコンシューマがローカルコンピューティングデバイス上にリソースを維持する必要がない、サービスとしてのインフラストラクチャ、プラットフォームもしくはソフトウェアまたはそれらのいくつかをクラウドコンピューティング環境７５０が提供することを可能にする。図７に示されるタイプのコンピューティングデバイス７５４Ａ～Ｎは、単に例示的であるものとされ、コンピューティングノード７１０及びクラウドコンピューティング環境７５０は、あらゆるタイプのネットワークもしくはネットワークアドレス指定可能接続またはその両方によって（たとえばウェブブラウザを用いて）あらゆるタイプのコンピュータ化されたデバイスと通信することができることが理解される。

【0097】

次に、図８を参照すると、クラウドコンピューティング環境７５０（図７）によって提供される機能抽象層のセットが示される。図７に示されるコンポーネント、層及び機能は、単に例示的であるものとされ、本発明の実施形態はそれに限定されないことが前もって理解されるべきである。図示のように、以下の層及び対応する機能が提供される：

【0098】

ハードウェア及びソフトウェア層８６０は、ハードウェア及びソフトウェアコンポーネントを含む。ハードウェアコンポーネントの例は、メインフレーム８６１と；ＲＩＳＣ（縮小命令セットコンピュータ）アーキテクチャ利用サーバ８６２と；サーバ８６３と；ブレードサーバ８６４と；記憶デバイス８６５と；ネットワーク及びネットワークコンポーネント８６６と、を含む。いくつかの実施形態において、ソフトウェアコンポーネントは、ネットワークアプリケーションサーバソフトウェア８６７及びデータベースソフトウェア８６８を含む。

【0099】

仮想層８７０は、仮想実体の以下の例、仮想サーバ８７１と；仮想ストレージ８７２と；仮想プライベートネットワークを含む仮想ネットワーク８７３と；仮想アプリケーション及びオペレーティングシステム８７４と；仮想クライアント８７５と、が提供される元となることがある抽象層を提供する。

【0100】

一例において、管理層８８０が下記に記載される機能を提供することがある。リソース準備８８１は、クラウドコンピューティング環境内でタスクを実行するために利用されるコンピューティングリソースとその他のリソースとの動的な調達を提供する。計量及び価格決定８８２は、クラウドコンピューティング環境内でリソースが利用されるにつれてのコストトラッキングと、これらのリソースの消費に対する請求書または納品書の作成とを提供する。一例において、これらのリソースは、アプリケーションソフトウェア使用許諾を含むことがある。セキュリティは、クラウドコンシューマ及びタスクのための認識検証ならびにデータ及びその他のリソースのための保護を提供する。ユーザポータル８８３は、コンシューマ及びシステム管理者のためのクラウドコンピューティング環境へのアクセスを提供する。サービスレベル管理８８４は、必要なサービスレベルが満たされるようにクラウドコンピューティングリソース割り当て及び管理を提供する。サービスレベル契約（ＳＬＡ）プランニング及び履行８８５は、ＳＬＡにしたがって将来の要件が予想されるクラウドコンピューティングリソースのための事前準備及び調達を提供する。

【0101】

ワークロード層８９０は、クラウドコンピューティング環境が利用され得る機能の例を提供する。この層から提供され得るワークロード及び機能の例は、マッピング及びナビゲーション８９１と；ソフトウェア開発及びライフサイクル管理７９２と；仮想授業配信８９３と；データアナリティクス処理８９４と；トランザクション処理７９５と；エンドツーエンド音声認識のためのニューラルネットワークモデルにおける音響情報と言語情報との分離８９６を含む。

【0102】

本発明は、統合についての可能なあらゆる技術詳細レベルにおけるシステム、方法もしくはコンピュータプログラムプロダクトまたはそれらのいくつかのことがある。コンピュータプログラムプロダクトは、本発明の側面をプロセッサに実行させるためのコンピュータ可読プログラム命令を搭載するコンピュータ可読記憶媒体を含むことがある。

【0103】

コンピュータ可読記憶媒体は、命令実行デバイスによる使用のための命令を保持及び記憶することができる有形装置であってよい。コンピュータ可読記憶媒体は、たとえば、電子記憶デバイス、磁気記憶デバイス、光記憶デバイス、電磁記憶デバイス、半導体記憶デバイス、または前記のもののあらゆる適当な組み合わせのことがあるがこれに限定されるものではない。コンピュータ可読記憶媒体の特定の例の完全に網羅的ではないリストは、以下、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、消去可能プログラマブルリードオンリーメモリ（ＥＰＲＯＭまたはフラッシュメモリ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、携帯型読み取り専用コンパクトディスク（ＣＤ－ＲＯＭ）、ディジタル多用途ディスク（ＤＶＤ）、メモリカード、フレキシブルディスク、穿孔カードまたは命令が記録される溝の中の凸構造体などの機械的にコードされるデバイス、及び上記のもののあらゆる適当な組み合わせを含む。本明細書において用いられるコンピュータ可読記憶媒体は、それ自体が一過性信号、たとえば電波または他の自由に伝播する電磁波、導波路または他の伝送媒体を通って伝播する電磁波（たとえば光ファイバケーブルの中を通る光パルス）、またはワイヤを通って伝えられる電気信号であると解釈されるべきではない。

【0104】

本明細書に記載されるコンピュータ可読プログラム命令は、ネットワーク、たとえばインターネット、ローカルエリアネットワーク、ワイドエリアネットワークもしくは無線ネットワークまたはそれらのいくつかを介して、コンピュータ可読記憶媒体からそれぞれのコンピューティング／処理デバイスに、または外部コンピュータまたは外部記憶デバイスにダウンロードされ得る。ネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータ及び／またはエッジサーバを含むことがある。各コンピューティング／処理デバイス中のネットワークアダプタカードまたはネットワークインタフェースがネットワークからコンピュータ可読プログラム命令を受け取り、コンピュータ可読プログラム命令をそれぞれのコンピューティング／処理デバイス内のコンピュータ可読記憶媒体の中に記憶するために転送する。

【0105】

本発明の操作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ（ＩＳＡ）命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはＳＭＡＬＬＴＡＬＫ、Ｃ＋＋などのようなオブジェクト指向プログラミング言語、及び従来の手続き型プログラミング言語、たとえば「Ｃ」プログラミング言語または類似のプログラミング言語を含む、１種類以上のプログラミング言語の何れかの組み合わせで書かれたソースコードまたはオブジェクトコードの何れかのことがある。コンピュータ可読プログラム命令は、スタンドアロンソフトウェアパッケージとしてユーザのコンピュータ上ですべて、ユーザのコンピュータ上で一部、ユーザのコンピュータ上で一部及びリモートコンピュータ上で一部、またはリモートコンピュータまたはサーバ上ですべてを実行することがある。後者のシナリオにおいて、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ）またはワイドエリアネットワーク（ＷＡＮ）を含むあらゆるタイプのネットワークを通してユーザのコンピュータに接続されるか、または外部コンピュータに接続が行われる（たとえばインターネットサービスプロバイダを用いるインターネットを介して）ことがある。いくつかの実施形態において、本発明の側面を実施するために、たとえばプログラマブルロジック回路、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、またはプログラマブルロジックアレイ（ＰＬＡ）を含む電子回路がコンピュータ可読プログラム命令の状態情報を利用することによりコンピュータ可読プログラム命令を実行して電子回路を個別に使用することがある。

【0106】

本発明の実施形態による方法、装置（システム）及びコンピュータプログラムプロダクトのフローチャート例示及び／またはブロック図を参照して本発明の側面が本明細書において記載される。コンピュータ可読プログラム命令によってフローチャート例示及び／またはブロック図の各ブロック、ならびに流フローチャート例示及び／またはブロック図の中のブロックの組み合わせが実施され得ることが理解されよう。

【0107】

これらのコンピュータ可読プログラム命令は、マシンを製造するために汎用コンピュータ、専用コンピュータ、または他のプログラマブルデータ処理装置のプロセッサに提供され、その結果、コンピュータまたは他のプログラマブルデータ処理装置のプロセッサによって実行される命令は、フローチャート及び／またはブロックダイヤグラムブロックにおいて指定される機能／動作を実体化するための手段を作り出することがある。これらのコンピュータ可読プログラム命令は、コンピュータ、プログラマブルデータ処理機械及び／または他の装置に特定の方法で機能するように指令することができるコンピュータ可読記憶媒体中に記憶されることもあり、それによって内部に命令を記憶したコンピュータ可読記憶媒体は、フローチャート及び／またはブロックダイヤグラムブロックにおいて指定される機能／行為の側面を実体化する命令を含むプロダクトを含む。

【0108】

コンピュータ可読プログラム命令は、コンピュータ実施プロセスを生み出すためにコンピュータ、他のプログラマブル装置または他のデバイス上で一連の操作ステップを実施させ、それによって、コンピュータ、他のプログラマブル装置または他のデバイス上で実行される命令が、フローチャートのブロックもしくはブロックダイヤグラムのブロックまたはそれらの両方において指定される機能／行動を実施するように、コンピュータ、他のプログラマブルデータ処理装置または他のデバイスに、ロードされることもある。

【0109】

図中のフローチャート及びブロックダイヤグラムは、本発明のさまざまな実施形態によるアーキテクチャ、機能ならびにシステム、方法及びコンピュータプログラムプロダクトの可能な実体化の操作を例示する。この点について、フローチャートまたはブロックダイヤグラムの中の各ブロックは、指定された論理機能を実体化するための一つ以上の実行可能な命令を含むモジュール、セグメントまたは部分を表すことがある。いくつかの代替実体化において、ブロック中に注記された機能は、図の中に注記された順序から外れて起こることがある。たとえば、連続して示される２つのブロックが実際には実質的に同時に実行されるか、またはブロックが時には含まれる機能に応じて逆の順序で実行されることがある。ブロックダイヤグラム及び／またはフローチャート例示の各ブロック、及びブロックダイヤグラム及び／またはフローチャート例示中のブロックの組み合わせは、指定された機能を実施するかまたは実行するか、動作するか、または特別な目的のハードウェア及びコンピュータ命令の組み合わせを実行する特別な目的のハードウェアに基づくシステムによって実体化され得る点も留意される。

【0110】

本明細書における本発明の「一実施形態」または「実施形態」ならびにそれらの他の変化形への参照は、実施形態と関連して記載される特定の特徴、構造、特性などが本発明の少なくとも一つの実施形態に含まれることを意味する。したがって、句「一実施形態において」または「実施形態において」ならびに本明細書全体にわたってさまざまな場所で表れるあらゆる他の変化形の出現は、必ずしもすべてが同じ実施形態を指すわけではない。

【0111】

たとえば「Ａ／Ｂ」、「ＡもしくはＢまたはその両方」及び「Ａ及びＢの少なくとも一方」の場合の以下、「／」、「もしくは…またはその両方」及び「の少なくとも一方」の何れかの使用は、第一に挙げられた選択肢（Ａ）だけの選択、または第二に挙げられた選択肢（Ｂ）だけの選択、あるいは両方の選択肢（Ａ及びＢ）の選択を包含すると理解されるべきである。さらなる例として、「Ａ、ＢもしくはＣまたはそれらのいくつか」と「Ａ、Ｂ及びＣの少なくとも一つ」の場合に、そのような句表現は、第一に挙げられた選択肢（Ａ）だけの選択、または第二に挙げられた選択肢（Ｂ）だけの選択、または第三に挙げられた選択肢（Ｃ）だけの選択、または第一及び第二に挙げられた選択肢（Ａ及びＢ）だけの選択、または第一及び第三に挙げられた選択肢（Ａ及びＣ）だけの選択、または第二及び第三に挙げられた選択肢（Ｂ及びＣ）だけの選択、あるいは３つすべての選択肢（Ａ及びＢ及びＣ）の選択を包含するものとする。これは、当分野及び関連分野において通常の知識を有する者によって容易に明らかであるように、挙げられた物の数に合わせて拡大されることがある。

【0112】

システム及び方法の好ましい実施形態（例示的であるものとされ、限定的ではない）を記載してきたが、上記教示を考慮すれば当業者によって変更及び変化が行われ得る。したがって、添付の請求項によって概略が示される本発明の範囲内にある、開示された特定の実施形態において変化が行われ得ると理解されるべきである。このように、特許法によって求められ詳細及び特定性とともに本発明の側面を記載した。請求され、特許状によって保護されることが望まれるものは、添付の請求項に記載される。

【図1】