(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-11-25
(45)【発行日】2024-12-03
(54)【発明の名称】音声データ記録の転写物中の未定義単語を復元するための方法、システム及びコンピュータ・プログラム
(51)【国際特許分類】
G10L 15/18 20130101AFI20241126BHJP
G10L 15/16 20060101ALI20241126BHJP
【FI】
G10L15/18 400
G10L15/18 300H
G10L15/18 300G
G10L15/16
(21)【出願番号】P 2022509091
(86)(22)【出願日】2020-09-10
(86)【国際出願番号】 IB2020058414
(87)【国際公開番号】W WO2021048781
(87)【国際公開日】2021-03-18
【審査請求日】2023-02-24
(32)【優先日】2019-09-13
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】390009531
【氏名又は名称】インターナショナル・ビジネス・マシーンズ・コーポレーション
【氏名又は名称原語表記】INTERNATIONAL BUSINESS MACHINES CORPORATION
【住所又は居所原語表記】New Orchard Road, Armonk, New York 10504, United States of America
(74)【代理人】
【識別番号】100112690
【氏名又は名称】太佐 種一
(72)【発明者】
【氏名】トーマス、サミュエル
(72)【発明者】
【氏名】アウドカシ、カーティク
(72)【発明者】
【氏名】トゥエスク、ゾルタン
(72)【発明者】
【氏名】ファン、インホイ
(72)【発明者】
【氏名】ピチェニー、マイケル、アラン
【審査官】堀 洋介
(56)【参考文献】
【文献】米国特許出願公開第2019/0279614(US,A1)
【文献】上乃聖 他,CTCによる文字単位のモデルを併用したAttentionによる単語単位のEnd-to-End音声認識,情報処理学会研究報告,Vol.2018-SLP-120 No.16,情報処理学会,2018年02月21日,pp. 1-6
【文献】LI, Jinyu et al.,Acoustic-to-word model without OOV,2017 IEEE Automatic Speech Recognition and Understanding Workshop,IEEE,2017年12月16日,pp. 111-117,https://ieeexplore.ieee.org/document/8268924
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00-15/34
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
音声データ記録の転写物中の未定義単語を復元するための方法であって、
音声データ記録を、前記音声データ記録のテキスト表現への転写のために受け取ることと、
前記音声データ記録を、単語全体及び単語サブユニットの訓練データ・セットを用いて訓練されたコネクショニスト・テンポラル・クラシフィケーション・モデルを含む単語認識モデルを用いて、前記テキスト表現へ転写することと、
前記テキスト表現中の未知の単語を識別することと、
前記テキスト表現中の前記未知の単語を、単語サブユニットを用いて訓練されたコネクショニスト・テンポラル・クラシフィケーション・モデルを含むサブユニット認識モデルによって生成された前記未知の単語のサブユニットの認識に基づいて、再構築することと、
前記音声データ記録の前記テキスト表現を、前記未知の単語を前記未知の単語の前記再構築物で置き換えることによって、修正することと、
前記音声データ記録の修正されたテキスト表現を出力することと
を含む方法。
【請求項2】
前記サブユニットは、単語の音声コンポーネントを含み、
前記未知の単語を再構築することは、
前記認識されたサブユニットを、前記未知の単語の直前の単語の終了タイムと前記未知の単語の直後の単語の開始タイムとによって境界付けられた単一ユニットに統合することと、
前記未知の単語を、前記単一ユニット及び逆引き音声辞書を用いて調べることと、
を含む、
請求項1に記載の方法。
【請求項3】
前記サブユニットは、単語を構築することができる断片を含み、各々の断片は、単語開始の記号及び単語終了の記号を含み、前記未知の単語を再構築することは、前記認識されたサブユニットを、それぞれのサブユニットの単語終了の記号を直後のサブユニットの単語開始の記号に連結することによって、単一のユニットに結合することを含む、請求項1に記載の方法。
【請求項4】
前記テキスト表現中の前記未知の単語を識別することは、前記単語認識モデルが、前記音声データ記録中のセグメントについてのサブ単語ユニットを出力したと判断することを含む、請求項1~請求項3のいずれか1項に記載の方法。
【請求項5】
前記単語認識モデルの補間重みを調節して、単語全体又はサブ単語を用いて前記テキスト表現を生成するためのプリファランスを調節することをさらに含む、請求項1~請求項4のいずれか1項に記載の方法。
【請求項6】
プロセッサと、
前記プロセッサによって実行されるときに音声データ記録の転写物中の未定義単語を復元するためのオペレーションを行う命令が格納されたメモリと、
を備え、
前記オペレーションは、
音声データ記録を、前記音声データ記録のテキスト表現への転写のために受け取ることと、
前記音声データ記録を、単語全体及び単語サブユニットの訓練データ・セットを用いて訓練されたコネクショニスト・テンポラル・クラシフィケーション・モデルを含む単語認識モデルを用いて、前記テキスト表現へ転写することと、
前記テキスト表現中の未知の単語を識別することと、
前記テキスト表現中の前記未知の単語を、単語サブユニットを用いて訓練されたコネクショニスト・テンポラル・クラシフィケーション・モデルを含むサブユニット認識モデルによって生成された前記未知の単語のサブユニットの認識に基づいて、再構築することと、
前記音声データ記録の前記テキスト表現を、前記未知の単語を前記未知の単語の前記再構築物で置き換えることによって、修正することと、
前記音声データ記録の前記修正されたテキスト表現を出力することと
を含むシステム。
【請求項7】
前記サブユニットは、単語の音声コンポーネントを含み、
前記未知の単語を再構築することは、
前記認識されたサブユニットを、前記未知の単語の直前の単語の終了タイムと前記未知の単語の直後の単語の開始タイムとによって境界付けられた単一ユニットに統合することと、
前記未知の単語を、前記単一ユニット及び逆引き音声辞書を用いて調べることと、
を含む、
請求項
6に記載のシステム。
【請求項8】
前記サブユニットは単語を構築することができる断片を含み、各々の断片は、単語開始の記号及び単語終了の記号を含み、前記未知に単語を再構築することは、前記認識されたサブユニットを、それぞれのサブユニットの単語終了の記号を直後のサブユニットの単語開始の記号に連結することによって、単一ユニットに結合することを含む、請求項
6に記載のシステム。
【請求項9】
前記テキスト表現中の前記未知の単語を識別することは、前記単語認識モデルが、前記音声データ記録のセグメントについてのサブ単語ユニットを出力したと判断することを含む、請求項
6~請求項
8のいずれか1項に記載のシステム。
【請求項10】
前記オペレーションは、前記単語認識モデルの補間重みを調節して、単語全体又はサブ単語を用いて前記テキスト表現を生成するためのプリファランスを調節することをさらに含む、請求項
6~請求項
9のいずれか1項に記載のシステム。
【請求項11】
音声データ記録の転写物中の未定義単語を復元するためのコンピュータ・プログラムが格納されたコンピュータ可読ストレージ媒体であって、請求項1~請求項
5のいずれか1項に記載の方法を行うためのソフトウェア・コード部分を含むコンピュータ・プログラムが格納された、コンピュータ可読ストレージ媒体。
【請求項12】
デジタル・コンピュータの内部メモリにロード可能なコンピュータ・プログラムであって、前記プログラムがコンピュータ上で実行されるときに請求項1~請求項
5のいずれか1項に記載の方法を行うためのソフトウェア・コード部分を含む、コンピュータ・プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声-テキスト転写システムに関し、より具体的には、テキスト認識モデルを用いて、音声データ中の未定義単語を識別して復元することに関する。
【背景技術】
【0002】
音声-テキスト化システムは、音声コンテンツをテキスト・コンテンツに変換するための様々な装置において使用される。例えば、音声-テキスト化システムは、将来の参照又は公式記録(例えば、法的議事録、会合などの転写物(transcripts))のために、音声の実時間の転写物を生成するために使用することができる。別の例において、音声-テキスト化システムは、生放送テレビ番組などの音声又は音声画像コンテンツを、音声のテキスト表現によって実時間で補足するために使用することができる。
【0003】
一般に、音声-テキスト化システムは、音声コンテンツの部分を単語全体にマッピングすることによってテキスト表現を生成するように訓練することができる。音声-テキスト化システムを訓練するのに使用される辞書のサイズ及びコンテンツによっては、音声-テキスト化システムが音声コンテンツの転写物を正確に構築することが困難な場合がある。例えば、音声-テキスト化システムが小さい辞書で訓練される場合、多くの単語が正確に認識されない可能性がある。別の例において、専門的な領域固有の単語(例えば、科学用語)は、一般的な知識の辞書を用いて訓練された音声-テキスト化システムによっては正確に認識されない可能性がある。
【0004】
音声-テキスト化システムが、未定義(out-of-vocabulary)単語、即ち、音声-テキスト化システムを訓練するのに用いられた辞書中に見出されない単語に遭遇するとき、音声-テキスト化システムは、未知の単語に対するヌル文字列を出力するか、又は、未知の単語の部分のように聞こえる既知の単語を出力することを試みる。ヌル文字列を出力することによって、音声コンテンツと音声コンテンツのテキスト表現との間で情報が失われる可能性がある。一方、未知の単語の部分のように聞こえる既知の単語を出力することは、音声コンテンツの無意味なテキスト表現の生成をもたらし得る。
【0005】
従って、当技術分野には、上述の問題に取り組む必要性が存在する。
【発明の概要】
【0006】
第1の態様により、本発明は、音声データ記録の転写物(transcriptions)中の未定義単語を復元するための方法であって、音声データ記録を、音声データ記録のテキスト表現への転写のために受け取ることと、音声データ記録を、単語認識モデルを用いて、テキスト表現へ転写することと、テキスト表現中の未知の単語を識別することと、テキスト表現中の未知の単語を、サブユニット認識モデルによって生成された未知の単語のサブユニットの認識に基づいて再構築することと、音声データ記録のテキスト表現を、未知の単語を未知の単語の再構築物で置き換えることによって修正することと、音声データ記録の修正されたテキスト表現を出力することと、を含む方法を提供する。
【0007】
さらに別の態様により、本発明は、プロセッサと、プロセッサによって実行されるときに、音声データ記録の転写物中の未定義単語を復元するためのオペレーションを行う命令が格納されたメモリと、を備えるシステムであって、オペレーションは、音声データ記録のテキスト表現への転写のための音声データ記録を受け取ることと、音声データ記録を、単語認識モデルを用いてテキスト表現へ転写することと、テキスト表現中の未知の単語を識別することと、サブユニット認識モデルによって生成された未知の単語のサブユニットの認識に基づいて、テキスト表現中の未知の単語を再構築することと、未知の単語の再構築物によって未知の単語を置き換えることにより、音声データ記録のテキスト表現を修正することと、音声データ記録の修正されたテキスト表現を出力することと、を含む、システムを提供する。
【0008】
さらに別の態様により、本発明は、音声データ記録の転写物中の未定義単語を復元するためのコンピュータ・プログラム製品であって、処理回路によって可読であり、本発明のステップを実行する方法を行うための処理回路による実行のための命令を格納するコンピュータ可読ストレージ媒体を備える、コンピュータ・プログラム製品を提供する。
【0009】
さらに別の態様により、本発明は、コンピュータ可読媒体上に格納され、デジタル・コンピュータの内部メモリにロード可能なコンピュータ・プログラムであって、プログラムがコンピュータ上で実行されるときに本発明のステップを行うためのソフトウェア・コード部分を含む、コンピュータ・プログラムを提供する。
【0010】
さらに別の態様により、本発明は、格納された命令を有するコンピュータ可読媒体であって、命令は、プロセッサによって実行されるときに、音声データ記録の転写物中の未定義単語を復元するオペレーションを実行し、そのオペレーションは、音声データ記録を音声データ記録のテキスト表現への転写のために受け取ることと、音声データ記録を、単語認識モデルを用いてテキスト表現へ転写することと、テキスト表現中の未知の単語を識別することと、テキスト表現中の未知の単語を、サブユニット認識モデルによって生成された未知の単語のサブユニットの認識に基づいて再構築することと、音声データ記録のテキスト表現を、未知の単語を未知の単語の再構築物で置き換えることによって修正することと、音声データ記録の修正されたテキスト表現を出力することとを含む、コンピュータ可読媒体を提供する。
【0011】
本開示の一態様は、音声データの転写物中の未定義単語を復元するための方法を提供する。この方法は、一般に、音声データ記録を、音声データ記録のテキスト表現への転写のために受け取ることを含む。音声データ記録は、単語認識モデルを用いてテキスト表現へ転写される。テキスト表現中の未知の単語が識別され、未知の単語は、サブユニット認識モデルによって生成された未知の単語のサブユニットの認識に基づいて、再構築される。音声データ記録のテキスト表現は、未知の単語を未知の単語の再構築物で置き換えることによって修正され、修正されたテキスト表現が出力される。
【0012】
本開示の別の態様は、プロセッサとメモリとを有するシステムを提供する。メモリは、一般に命令を格納しており、その命令は、プロセッサによって実行されるときに、音声データの転写物中の未定義単語を復元するためのオペレーションを実行する。このオペレーションは、一般に、音声データ記録を、音声データ記録のテキスト表現への転写のために受け取ることを含む。音声データ記録は、単語認識モデルを用いてテキスト表現へ転写される。未知の単語がテキスト表現中で識別され、その未知の単語は、サブユニット認識モデルによって生成された未知の単語のサブユニットの認識に基づいて再構築される。音声データ記録のテキスト表現は、未知の単語を未知の単語の再構築物によって置き換えることによって修正され、修正されたテキスト表現が出力される。
【0013】
本開示のさらに別の態様は、プロセッサによって実行されるときに、音声データの転写物中の未定義単語を復元するためのオペレーションを実行する命令が格納されたコンピュータ可読媒体を提供する。そのオペレーションは一般に、音声データ記録を、音声データ記録のテキスト表現への転写のために、受け取ることを含む。音声データ記録は、単語認識モデルを用いて、テキスト表現へ転写される。未知の単語がテキスト表現内で識別され、その未知の単語は、サブユニット認識モデルによって生成された未知の単語のサブユニットの認識に基づいて再構築される。音声データ記録のテキスト表現は、未知の単語を未知の単語の再構築物によって置き換えることにより、修正され、修正されたテキスト表現が出力される。
【0014】
次に、本発明が、以下の図面に描かれた好ましい実施形態を参照しながら、例としてのみ、説明されることになる。
【図面の簡単な説明】
【0015】
【
図1】一実施形態による、音声コンテンツが第1のテキスト認識モデルを用いてテキスト表現へ転写され、テキスト表現中の未知の単語が第2のテキスト認識モデルを用いて復元される、ネットワーク・コンピューティング環境を示す。
【
図2】一実施形態による、第1のテキスト認識モデルを用いて音声コンテンツのテキスト表現を生成し、生成されたテキスト表現中の未定義単語を、第2のテキスト認識モデルを用いて復元するための例示的なオペレーションを示す。
【
図3】一実施形態による、コネクショニスト・テンポラル・クラシフィケーション(CTC)テキスト認識モデルを用いて未定義単語を復元するための例示的なオペレーションを示す。
【
図4】一実施形態による、シーケンス・ツー・シーケンス・テキスト認識モデルを用いて未定義単語を復元するための例示的なオペレーションを示す。
【
図5】本開示の態様を実行することができる例示的なシステムを示す。
【発明を実施するための形態】
【0016】
音声コンテンツ中の未定義単語は、一般に、音声-テキスト転写システムによって生成される転写物の正確さ及び可読性に悪影響を及ぼす。未定義単語は、転写物に悪影響を及ぼすので、音声コンテンツ中の未定義単語に対処するために種々の技術が開発されてきた。一例において、ハイブリッド型音声認識システムは、未定義単語の存在を補うため並びに転写物の正確さ及び可読性を向上させようとするために、種々の復号出力を用いることができる。これらの出力は、単語信頼性情報及びタイミング情報を含むことができ、これらは、未定義単語の位置及び長さを識別してこれらの単語の復元を試みるために用いることができる。例えば、音声認識モデルは、サブ単語ユニットを用いて未定義単語を明示的にモデル化することができ、或いは、テキスト出力を未定義及び定義済み(in-vocabulary)領域に分類するために、音声認識システムによって生成された信頼性スコアを用いることができる。他の例においては、従来の音声認識システムで使用されるものよりも簡単にすることができる訓練及び推定パイプラインを用いる、エンド・ツー・エンド・ニューラル・ネットワークをベースとする音声認識システムを、未定義単語を識別して復元を試みるために用いることができる。
【0017】
しかし、これらのシステムは、音声コンテンツ中の未定義単語を識別して復元する際に、これらのシステムの性能を低下させる限界を有する。初期の単語全体をベースとする認識システムと未定義認識及び復元のための文字をベースとするモデルとを使用するシステムは、単語全体をベースとする認識システムによって生成される信頼性スコアに依存する可能性があり、このことによって、単語全体をベースとする認識システムには実際に既知であり得る単語の文字をベースとするモデルを最終的に呼び出す、予約された未知の単語トークンが生成される場合がある。さらに、これらのシステムは、音声コンテンツ中の単語についての不正確なタイミング情報を生成したり、タイミング情報を生成しなかったりする場合があり、このことが、音声認識システムにおける未定義単語のパフォーマンスを下げる可能性がある。
【0018】
本開示の態様は、音声コンテンツ中の未定義単語を検出し、復元するための効率的技術を提供する。以下でさらに詳しく説明するように、未定義単語は、音声認識システムが、単語全体又は単語断片(例えば、音声セグメント、文字など)の収集物を再構築したかどうかを判断することにより検出することができる。音声認識システムが、単語断片の収集物として単語を再構築した場合、音声認識システムは、その単語を未知の単語であると考え、単語断片から単語を復元しようと試みることができる。単語が、単語全体として又は単語断片の収集物として再構築されたかどうかの判断を用いて、本明細書で説明される態様は、単語が定義済みであるか又は未定義であるかを判断する信頼性情報の使用を迂回することができる。音声認識システムは、付加的に又は代替的に、アテンション・ベース・モデルのような単語全体のシーケンス・ツー・シーケンス・システムを用いて定義済みの単語と未定義の単語とを識別し、未定義単語と重なる領域内の文字出力を用いて未定義単語を再構築することができる。
【0019】
図1は、本開示の一実施形態による、音声コンテンツの転写物中の未定義単語を識別し復元するために、単語全体又は単語断片認識モジュールが使用される、例示的なネットワーク・コンピューティング環境を示す。図示されるように、コンピューティング環境100は、クライアント・デバイス120、音声認識システム130、及び音声-テキスト・データ・ストア140を含む。
【0020】
クライアント・デバイス120は、ユーザが、音声画像コンテンツにアクセスし、音声認識システム130から、表示のために音声画像コンテンツのテキスト表現を受け取ることができる、コンピューティング・デバイスの一般的な代表物である。図示されるように、クライアント・デバイス120はソフトウェア・アプリケーション122を含む。
【0021】
ソフトウェア・アプリケーション122は、一般に、ユーザが遠隔ソースから音声画像コンテンツにアクセスし、音声認識システム130において音声認識及び転写物生成オペレーションを呼び出すことができる、インターフェースを提供する。幾つかの実施形態において、ソフトウェア・アプリケーション122は、以前に記録された音声画像ファイルを音声認識システム130にアップロードし、記録された音声画像ファイルの転写物を音声認識システム130から取得するための機構を、クライアント・デバイス120のユーザに提供する。幾つかの実施形態において、ソフトウェア・アプリケーション122は、ユーザが音声認識システム130と相互作用することを可能にする、ウェブ・ブラウザ又は他のアプリケーションとすることができる。
【0022】
音声認識システム130は、音声画像コンテンツを受け取り、単語及び単語サブユニット(又は単語断片)認識モデルを使用して、音声画像コンテンツの転写物を生成し、表示のために転写物をクライアント・アプリケーションに、もしくは将来の検索のためのデータ・ストア(例えば、音声-テキスト・データ・ストア140)に、又はそれら両方に出力する。図示されるように、音声認識システム130は、音声データ転写器132及び未定義語復元器134を含む。
【0023】
音声データ転写器132は、一般に、受け取った音声画像コンテンツを、単語認識モデル及びサブユニット認識モデルを通して処理し、音声データ記録又は音声データ・トラックを含む音声画像ファイルなどの音声コンテンツのテキスト表現を生成する。音声データ転写器132によって使用されるモデルは、遠隔システム(図示せず)によって訓練し、音声認識システム130に配備して、音声データ記録の転写物を生成するのに使用することができ、また、これらのモデルは、これらのモデルを使用して生成される転写物の正確さを向上させるために、定期的に更新することができる。幾つかの実施形態において、単語認識モデルは、単語全体、及び、単語全体の音声ユニット又は部分などの単語サブユニット、の訓練データ・セットを用いて訓練することができる。以下でさらに詳しく説明するように、単語認識モデルが、単語全体及び単語サブユニットの訓練データ・セットを用いて訓練される場合、音声データ記録の所与の部分に対する複数の単語サブユニットの生成は、音声データ記録の所与の部分が未定義単語に対応することを示すものとして用いることができる。単語サブユニット認識モデルは、音声データ記録に含まれ得る単語の音声ユニット、単語の部分(例えば、音節)、文字、又は他の構成部分などの単語部分の訓練データ・セットを用いて訓練することができる。単語サブユニット認識モデルの出力は、以下でさらに詳しく説明するように、未定義単語を復元するために用いることができる。
【0024】
単語認識モデル及び単語サブユニット認識モデルは、単語(又は単語の部分)の音声表現を、対応する単語(又は単語の部分)のテキスト表現にマッピングするように構成されたニューラル・ネットワークとして実装することができる。単語認識モデル及び単語サブユニット認識モデルがコネクショニスト・テンポラル・クラシフィケーション・モデルである幾つかの実施形態において、単語認識モデルは、音声データ記録の部分を単語又は単語サブユニットにマッピングするように構成することができ、サブユニット認識モデルは、音声データ記録の部分を、未定義単語を復元するように他の単語サブユニットと連結することができる1つ又はそれ以上の音声又は音節単語サブユニットにマッピングするように構成することができる。単語認識モデル及び単語サブユニット認識モデルがシーケンス・ツー・シーケンス・モデルである幾つかの実施形態において、単語認識モデルは、タイミング情報を出力し、音声データ記録の部分を単語全体又は予約文字列にマッピングして、単語が単語認識モデルには未知であることを示すように構成することができ、単語サブユニット認識モデルは、音声データ記録の部分を1つ又はそれ以上の文字にマッピングし、音声データ記録内で認識された各々の文字に関するタイミング情報を出力するように構成することができる。
【0025】
音声データ転写器132は、一般に、音声データ記録を、音声ファイル、又は音声画像ファイル内の音声トラックとして受け取り、音声データ記録を、音声データ記録のテキスト表現に転写する。音声データ記録をテキスト表現に転写するために、音声データ転写器132は、音声データ記録を、所与の音声入力に関するテキスト出力を生成する単語認識モデルに入力することができる。上述のように、単語認識モデルは、例えば、単語認識モデルの訓練に用いられた単語及び単語部分の母集団における単語又は単語部分への音声データ記録の部分のマッピングに関連する信頼性に基づいて、音声データ記録内の情報を個々の単語全体又は単語部分にマッピングするように構成された、ニューラル・ネットワークとすることができる。例えば、単語認識モデルは、単語認識モデルの訓練に用いられた単語及び単語部分の母集団にわたる確率分布を生成することができ、確率分布内の最大の確率を有する単語又は単語部分を、音声データ記録の各部分に対応する単語又は単語部分として選択することができる。
【0026】
コネクショニスト・テンポラル・クラシフィケーション・モデルとして構成された単語認識モデルについて、単語認識モデルでは、音声データ記録の部分が、単語全体又は単語の音声セグメント、音節コンポーネントなどの単語断片にマッピングされることになる場合がある。一般に、音声データ記録の部分の単語全体に対するマッピングは、単語認識モデルが、音声データ記録の部分を定義済み単語として認識したことを示すことができ、他方、音声データ記録の部分の単語断片に対するマッピングは、単語認識モデルが、音声データ記録の部分(及び音声データ記録の他の隣接する部分)を未定義単語として認識したことを示すことができる。音声データ記録の部分が単語全体に対してマッピングされているか又は単語部分にマッピングされているかを判断するために、音声データ転写器132は、音声データ記録の部分に対してマッピングされた各々の単語又は単語部分の正確な一致に関して辞書を検索する。辞書には載っていない可能性がある連続する単語部分のグループ化は、従って、以下で説明するように、未定義単語復元器134が再構築する未定義単語に対応する可能性がある。
【0027】
シーケンス・ツー・シーケンス・モデルとして構成された単語認識モデルについて、単語認識モデルは、シーケンス・ツー・シーケンス・モデルを訓練するために用いられた辞書の中の認識された単語にマッピングする音声データ記録の部分について、定義済み単語を生成することができる。対照的に、辞書内の認識された単語にマッピングしない音声データ記録の部分について、予約文字列又は予約単語サブユニットを生成することができる。予約文字列又は予約単語サブユニット、例えば“<UNK>”は、以下でさらに詳しく説明するように、音声データ記録の中の個々の文字を認識するように訓練されたシーケンス・ツー・シーケンス・モデルから再構築されるべき未定義単語の一般的位置を、未定義単語復元器134に対して示すことができる。
【0028】
未定義単語復元器134は、一般に、音声データ転写器132から音声データ記録の転写物を受け取り、単語認識モデルによって識別された未定義単語を、対応する単語サブユニット認識モデルを用いて再構築する。未定義単語復元器134によって用いられる技術は、単語認識モデル及び単語サブユニット・モデルがコネクショニスト・テンポラル・クラシフィケーション・モデルであるか、シーケンス・ツー・シーケンス・モデルであるか、又は、音声データ記録を音声データ記録のテキスト表現に転写するために使用することができる他の言語認識モデルであるかに基づいて、異なる場合がある。
【0029】
コネクショニスト・テンポラル・クラシフィケーション・モデルとして構成された単語認識モデルについて、音声データ記録の転写物内で識別された各々の未定義単語は、直前の認識された単語全体及び直後の認識された単語全体によって境界付けられた、連続する単語サブユニット又は部分のシーケンスとして定義することができる。未定義単語を復元するために、未定義単語復元器134は、やはりコネクショニスト・テンポラル・クラシフィケーション・モデルとして構成され、音声データ記録の部分を音声セグメント、単語音節などの単語サブユニットにマッピングするように訓練された単語サブユニット認識モデルを用いるように、一般的に構成される。未定義単語復元器134は、単語サブユニット認識モデルによって生成された、転写物中の未定義単語に対応する単語サブユニット・セグメントを識別し、単語サブユニットを1つ又は複数の単語サブユニットのグループに連結して、1つ又は複数の単語サブユニットのグループから単語を再構築することができる。単語サブユニットが音声セグメントである幾つかの実施形態において、未定義単語復元器134は、逆引き音声辞書を検索して音声セグメントの各グループから単語を再構築することができる。単語サブユニットが音節又は他の非音声単語サブユニットである他の実施形態において、未定義単語復元器134は、グループ内の単語サブユニットを単一の文字列に連結し、その文字列に一致する可能性のあるものを辞書で検索することができる。未定義単語復元器134は、コンピュータ・ベースのスペル訂正機構において使用されているようなファジー・マッチング技術を用いて、単語サブユニットのグループに対応する単語としてその文字列に一致する可能性の高いものを識別することができる。単語サブユニットのグループから単語を識別した後、未定義単語復元器134は、音声データ転写器132によって生成された転写物中の単語サブユニットのグループを識別された単語で置き換えることができ、従って、音声データ記録中の未定義単語を、未定義単語の正確な表現によって復元することができる。
【0030】
単語認識モデルが、シーケンス・ツー・シーケンス・モデルである実施形態において、未定義単語、及び音声データ転写器132によって生成された転写物中の未知の単語として未定義単語を識別する特別な文字列には、注意ピークを付随させることができる。注意ピークは、未知の未定義単語が位置する、音声データ記録のタイムスタンプとすることができる。単語サブユニット認識モデルは、音声データ記録中の個々の文字を認識するように構成されたシーケンス・ツー・シーケンス・モデルとすることができ、文字単位で未定義単語を復元するために使用することができる。未定義単語に対応する文字を識別するために、未定義単語復元器134は、未定義単語に付随する注意ピークを用いて、分析のために音声認識システム130に提供される音声データ記録中の単語の可能性が高い境界を識別することができる。単語の境界は、音声データ記録中の空白文字の識別に基づいて決定することができ、ここで、単語の第1の文字は、空白文字の直後で識別され、単語の最後の文字は、音声データ記録中の次の空白文字の直前で識別される。幾つかの実施形態において、更に又は代替的に、周囲の文脈を用いて、音声データ記録中の未定義単語に関連付けられる文字を識別することができる。例えば、未定義単語の直前及び直後の単語に含まれる文字に関する情報を、単語サブユニット認識モデルによって生成された音声データ記録の文字毎の転写物内で、未定義単語の境界を識別するために用いることができる。
【0031】
一般に、単語サブユニット認識モデルによって音声データ記録中で認識された各々の文字には、モデル内の対応する注意ピークを付随させることができる。未定義単語復元器134は、未定義単語に関して識別された空白又は他の境界文字の間の、モデル内の各々の注意ピークが付随した文字を連結して、文字列を生成することができる。未定義単語復元器134によって生成された文字列は、音声データ記録の転写物中の未知の単語に対応する予約文字列に取って代わることができる。
【0032】
未定義単語復元器134が、単語サブユニット認識モデルを用いて未定義単語に関連付けられたシーケンスを未定義単語の再構築物で置き換えることによって、音声データ記録の転写物を修正した後、未定義単語復元器134は、修正された転写物を出力する。幾つかの実施形態において、修正された転写物は、クライアント・デバイス120上で実行中のソフトウェア・アプリケーション122において、転写物が生成された音声画像コンテンツと共に、実時間又はほぼ実時間で、表示のために出力することができる。幾つかの実施形態において、修正された転写物は、将来の参照のために音声-テキスト・データ・ストア140に引き渡すことができる。
【0033】
音声認識システム130がコネクショニスト・テンポラル・クラシフィケーション単語認識モデル及び単語サブユニット認識モデルを使用する幾つかの実施形態において、これらのモデルに関連する補間重みを調整して、単語が未定義単語として認識される可能性を制御することができる。単語サブユニット認識モデルに関連する補間重みをより高くすることで、未定義単語として認識され、単語サブユニット(例えば、音声ユニット、音節ユニットなど)から再構築される単語の数を増加させることができ、このことによって、システムの正確さを低下させる一方で、上記の単語サブユニット分析及び再構築技術を用いて単語を想起できる可能性を高めることができる。同様に、単語サブユニット認識モデルに関連する補間重みをより低くすることで、未定義単語として認識される単語の数を減少させることができ、このことによって、認識の正確さを犠牲にして、単語サブユニットから単語が再構築される回数を減らすことができる。
【0034】
音声-テキスト・データ・ストア140は、一般に、音声認識システム130によって生成される転写物のレポジトリとして役立つ。幾つかの実施形態において、音声-テキスト・データ・ストアは、単語及び単語サブユニットの訓練データ・セットを付加的に含むことができ、この訓練データ・セットは、上記のように、音声認識システム130によって音声データ記録から転写物を生成し、生成された転写物中の未定義単語を復元するために使用される単語認識モデル及び単語サブユニット認識モデルを訓練するために使用することができる。
【0035】
図2は、一実施形態による、単語認識モデル及び単語サブユニット認識モデルを用いて音声データ記録の転写物を生成し、転写物中の未定義単語を復元する、音声-テキスト化システム(例えば、
図1に示される音声認識システム130)によって実行することができる例示的なオペレーションを示す。図示されるように、オペレーション200はブロック210において開始し、ここでシステムは、転写されることになる音声クリップを受け取る。既述のように、音声クリップは、何も他のコンテンツを含まない音声データ記録、音声画像ファイルからの音声トラック、音声コンテンツを抽出することができる音声画像ファイル等とすることができる。
【0036】
ブロック220において、システムは、音声クリップを、訓練されたモデルを用いてテキスト表現に転写する。既述のように、システムは、単語認識モデルを用いて音声クリップを転写することができる。このモデルは、例えば、全ての定義済み単語及びさまざまな単語サブユニットのデータ・セットに対して訓練されたコネクショニスト・テンポラル・クラシフィケーション・モデルとすることができ、それにより、音声クリップ中の定義済み単語がデータ・セットからの単語全体にマッピングされる一方で、音声クリップ中の未定義単語は、複数の単語サブユニットにマッピングされて、音声クリップの対応する部分がデータ・セット中の認識された単語を含まないことを意味する。他の例において、モデルは、定義済み単語のデータ・セットに対して訓練されたシーケンス・ツー・シーケンス・モデルとすることができ、それにより、音声クリップ中の定義済み単語がデータ・セットの単語全体に対してマッピングされ、未定義単語が特別な文字列又は予約文字列にマッピングされて、単語を音声クリップの対応する部分にマッピングできなかったことを示す。
【0037】
ブロック230において、システムは、音声クリップのテキスト表現中の未知の単語を識別する。既述のように、システムは、音声クリップの部分の単語サブユニット(例えば、音声ユニット、音節、文字など)へのマッピングか、音声クリップの部分の特別な文字列もしくは予約文字列へのマッピングかを識別することによって、音声クリップ中の未知の単語を識別することができる。
【0038】
ブロック240において、音声クリップのテキスト表現において識別された各々の未知の単語について、システムは、音声クリップのテキスト表現における未知の単語のより小さい部分に基づいて、単語を復元する。未知の単語のより小さい認識された部分に基づく未知の未定義単語の復元は、上述のように、音声クリップ中の単語を認識するために用いられたモデルのタイプに基づくものとすることができる。幾つかの実施形態において、未知の単語の復元は、音声又は音節単語サブユニットの連結と、これらの連結を可能性の高い単語又は文字列にマッピングする辞書とに基づくものとすることができる。他の実施形態において、未知の単語の復元は、音声クリップ中の未知の単語に関係付けられるタイムスタンプの周囲で認識された文字についてのタイミング情報に基づくものとすることができる。
【0039】
ブロック250において、システムは、音声クリップのテキスト表現中の未知の単語を復元された単語で置き換える。
【0040】
ブロック260において、システムは、復元された単語を含む音声クリップのテキスト表現を出力する。幾つかの実施形態において、テキスト表現を、ローカル又は遠隔システムに、それに接続された又は統合されたデバイス上での表示のために、出力することができる。幾つかの実施形態において、システムは、テキスト表現を、将来の参照のためにデータ・ストアに存続するように出力することができる。
【0041】
図3は、一実施形態による、音声データ記録中の未定義単語を、コネクショニスト・テンポラル・クラシフィケーション単語認識モデル及び単語サブユニット認識モデルを用いて復元するための、音声認識システムによって実行することができる例示的なオペレーションを示す。図示されるように、オペレーション300はブロック310において開始し、そこで音声認識システムは、単語全体及び単語サブユニットのデータ・セットを用いて訓練された第1の言語モデルによる単語のサブユニットの認識に基づいて、単語を未知の単語として識別する。既述のように、第1の言語モデル(例えば、単語認識モデル)によって、定義済み単語を単語全体又は単語の辞書に現れる単語にマッピングすることができ、第1の言語モデルによって未定義単語を単語サブユニットにマッピングすることができる。単語を未知の単語として識別するために、音声認識システムは、第1の言語モデルによって生成された音声データ記録の転写物における単語全体の間の単語サブユニットのシーケンスを識別することができる。単語全体の間に位置する単語サブユニットのシーケンスは、音声データ記録中の未定義単語に対応するシーケンスと考えることができ、第2の言語モデル(例えば、単語サブユニット認識モデル)を用いてシーケンスについて単語を復元することができる。
【0042】
ブロック320において、音声認識システムは、第2の言語モデル(第1の言語モデルと別々に又は並行して実行することができる)によって生成された単語のサブユニットを集約して(又は合成して)単一のユニットにする。第2の言語モデルは、上述のように、音声データ記録の部分を単語の音声又は音節ユニットにマッピングするように訓練された単語サブユニット認識モデルとすることができる。音声データ記録の転写物中のサブユニットを識別し、未知の単語に対応する単一ユニットに結合するために、システムは、第1の言語モデルによって認識された最後の単語全体と、第1の言語モデルによって認識された次の単語全体との位置に基づいて、単一ユニットの開始位置を識別することを試みることができる。最後の単語全体と次の単語全体との間の単語サブユニットは、未定義単語のコンポーネントと考えることができ、分析のための単一ユニットを生成するように連結することができる。
【0043】
ブロック330において、音声認識システムは、認識された単語のサブユニットの単一ユニットへの集約及びサブユニットのタイプに基づいて、未知の単語を再構築する。例えば、ブロック320において認識されたサブユニットが単語の音声表現を含む場合、音声認識システムは、複数の単語サブユニットの各々の音声表現を定める文字列を連結して単一の音声列にすることができる。音声-テキスト認識システムは、辞書と、認識されたサブユニットを含む単一ユニットとを用いて、認識されたサブユニットを音声表現に連結し、辞書の音声表現を検索して、音声認識システムによって認識されたいずれかの所与の単語の定義を識別することができる。
【0044】
対照的に、音声-テキスト認識システムが、音節毎の認識を用いて未知の単語を再構築するように以前に訓練されている場合、認識された音節を結合して単一のユニットにすることができる。音声認識システムは、任意の所与の再構築された単語に関する情報を検索することができる。例えば、音声-テキスト認識システムが、音節の単語サブユニットの連結に基づいて未知の単語を再構築する場合、音声認識システムは、音声データ記録内に認識される単語の正確さを向上させるために、連結されたユニットを既知の辞書に対して後処理して、音声認識システムのユーザへ出力することができる。
【0045】
ブロック340において、音声認識システムは、未知の単語のサブユニットを再構築された単語で置き換える。システムは、これらのサブユニットを、種々の文字列置き換えオペレーションを用いて置き換えることができる。ひとたび置き換えられると、システムは、音声データ記録の、復元された単語を含んだテキスト表現を、表示のためにクライアント・デバイス120に出力することができ、もしくは将来の参照のために音声-テキスト・データ・ストアにテキスト表現を存続させることができ、又はそれら両方を行うことができる。
【0046】
図4は、一実施形態による、音声データ記録中の単語全体を認識するように構成された第1のシーケンス・ツー・シーケンス言語モデルと、音声データ記録中の単語の個々の文字を認識するように構成された第2のシーケンス・ツー・シーケンス言語モデルとを用いて、音声データ記録のテキスト表現中の未定義単語を復元するために、音声認識システムによって実行することができる例示的なオペレーションを示す。図示されるように、オペレーション400はブロック410において開始し、ここで、音声認識システムは、シーケンス・ツー・シーケンス単語認識モデルによる単語についての予約記号の生成に基づいて、単語を未知の単語として識別する。既述のように、単語認識モデルは、音声データ記録の部分を、単語認識モデルを訓練するのに用いられた訓練データ・セットの中に存在する単語全体にマッピングすることができる。同様に、単語認識モデルは、音声データ記録の部分を、特別な又は予約された文字列にマッピングして、単語が未定義単語であることを示すことができる。
【0047】
ブロック420において、音声認識システムは、シーケンス・ツー・シーケンス単語認識モデルにおける未知の単語についてのタイミング情報、及び、シーケンス・ツー・シーケンス文字認識モデルによって生成される文字毎のタイミング情報を得る。未知の単語についてのタイミング情報は、音声データ記録中の認識された単語又は未定義単語に対応する他の注意ピークの間に識別される単一の注意ピークとすることができる。シーケンス・ツー・シーケンス文字認識モデルによって生成される文字毎のタイミング情報は、単語認識モデルにおける未知の単語についての注意ピークに関連付けられるタイムスタンプの周囲に認識される文字を識別するために用いることができる。一般に、文字毎のタイミング情報は、これらの単語の音声表現中の個々の単語を分離する空白又は休止文字を識別するために、及び、個々の文字が単語サブユニット認識モデルによって認識されるときに、用いることができる。
【0048】
ブロック430において、音声認識システムは、シーケンス・ツー・シーケンス文字認識モデルによって認識された文字に基づいて未知の単語を再構築する。認識された文字は、既述のように、単語認識システムによって生成された未知の単語の注意ピークの境界を示す空白文字の間にある注意ピークに関連付けることができる。
【0049】
ブロック440において、システムは、予約記号を再構築された単語で置き換える。予約記号を再構築された単語で置き換えることによって、音声認識システムは、音声認識システムによって生成された音声データの転写物の正確さを向上させることができる。
【0050】
図5は、一実施形態による、単語認識モデル及び単語サブユニット認識モデルを用いて、音声データ記録中の未定義単語を識別し、識別された未定義単語を音声データ記録のテキスト表現に含めるために復元する、例示的なシステム500を示す。図示されるように、システム500は、中央処理ユニット502、種々のI/Oデバイス514(例えば、キーボード、ディスプレイ、マウス・デバイス、ペン・インプットなど)のシステム500への接続を可能にする1つ又はそれ以上のI/Oデバイス・インターフェース504、ネットワーク・インターフェース506、メモリ508、ストレージ510、及び相互接続512を、制限なく含む。
【0051】
CPU502は、メモリ508に格納されているプログラミング命令を読み出し実行することができる。同様に、CPU502は、メモリ508に常駐するアプリケーションを読み出し及び格納することができる。相互接続512は、プログラミング命令及びアプリケーション・データを、CPU502、I/Oデバイス・インターフェース504、ネットワーク・インターフェース506、メモリ508及びストレージ510の間で送る。CPU502は、単一のCPU、複数のCPU、マルチプロセッシング・コアを有する単一のCPUなどの典型として含められている。さらに、メモリ508は、ランダム・アクセス・メモリの典型として含められている。さらに、ストレージ510は、ディスク・ドライブ、ソリッド・ステート・ドライブ、相変化メモリ・デバイスなどとすることができる。単一ユニットとして示されているが、ストレージ510は、固定もしくは取り外し可能又はそれら両方のストレージ・デバイス、例えば、固定ディスク・ドライブ、ソリッド・ステート・ドライブ、取外し可能メモリー・カード又は光学ストレージ、ネットワーク取り付けストレージ(NAS)、又はストレージ・エリア・ネットワーク(SAN)など、の組み合わせとすることができる。
【0052】
図示されるように、メモリ508は、音声データ転写器520及び未定義単語復元器530を含む。音声データ転写器520は一般に、未定義単語を単語部分の集合として認識するか又は音声データ記録中の未定義単語を予約文字列にマッピングして単語が認識できなかったことを示すように構成された単語認識モデルを用いて、音声データ記録の最初の転写物を生成するように構成される。未定義単語復元器530は、音声データ転写器520によって生成された音声データ記録の転写物を調べて、単語サブユニット(例えば、音声ユニット、音節、文字など)のシーケンス、又は未定義単語を示す予約文字列の包含を識別する。未定義単語に対応する単語サブユニットの組み合わせを用いて、未定義単語復元器530は、未定義単語を表す置き換え文字列を生成し、単語サブユニットまたは予約文字列を置き換え文字列で置き換える。
【0053】
ストレージ510は、図示されるように、音声-テキスト・データ・ストア540を含む。音声-テキスト・データ・ストア540は、音声データ記録の転写物を格納することができるデータ・ストアの一般な例示である。幾つかの実施形態において、音声-テキスト・データ・ストアは、さらに、上述のように、音声データ記録中の未定義単語を識別し、復元するのに用いられる単語認識モデル及び単語サブユニット認識モデルを訓練するために用いられる辞書を格納することができる。
【0054】
本開示の種々の実施形態の説明は、例証の目的のために提示されたが、これらは、網羅的であること、又は開示した実施形態に限定することを意図するものではない。当業者には、説明される実施形態の範囲及び趣旨から逸脱することなく、多くの修正及び変形が明らかであろう。本明細書で用いられる用語は、実施形態の原理、実際の適用、又は市場に見られる技術に優る技術的改善を最もよく説明するため、又は、当業者が本明細書に開示される実施形態を理解するのを可能にするために選択された。
【0055】
以下では、本開示において提示される実施形態が参照される。しかしながら、本開示の範囲は、説明される特定の実施形態に限定されるものではない。その代わりに、以下の特徴及び要素の任意の組み合わせが、異なる実施形態と関係するか否かにかかわらず、企図される実施形態を実装し、実施するように企図される。さらに、本明細書に開示される実施形態は、他の可能な解決法に優る、又は従来技術に優る利点を実現し得るものの、特定の利点が所与の実施形態によって実現されるか否かは、本開示の範囲を限定するものではない。従って、以下の態様、特徴、実施形態、及び利点は、単なる例証に過ぎず、特許請求の範囲において明示的に記載される場合を除いて、添付の特許請求の範囲の要素であるとも又は限定であるとも見なされない。同様に、「本発明」への言及は、本明細書に開示されるいずれかの発明の主題の一般化であると解釈されるべきではなく、特許請求の範囲において明示的に記載される場合を除いて、添付の特許請求の範囲の要素であるとも又は限定であるとも見なされるべきではない。
【0056】
本発明の態様は、完全にハードウェアの実施形態、完全にソフトウェアの実施形態(ファームウェア、常駐ソフトウェア、マイクロコードなどを含む)、又はソフトウェアの態様とハードウェアの態様とを組み合わせた実施形態の形を取ることができ、本明細書では、全てまとめて「回路」、「モジュール」、又は「システム」と呼ぶことができる。
【0057】
本発明は、システム、方法、もしくはコンピュータ・プログラム製品又はそれらの組み合わせとすることができる。コンピュータ・プログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令をその上に有するコンピュータ可読ストレージ媒体(単数又は複数)を含むことができる。
【0058】
コンピュータ可読ストレージ媒体は、命令実行デバイスにより使用される命令を保持及び格納できる有形デバイスとすることができる。コンピュータ可読ストレージ媒体は、例えば、これらに限定されるものではないが、電子記憶装置、磁気記憶装置、光学記憶装置、電磁気記憶装置、半導体記憶装置、又は上記のいずれかの適切な組み合わせとすることができる。コンピュータ可読ストレージ媒体のより具体的な例の非網羅的なリストとして、以下のもの:すなわち、ポータブル・コンピュータ・ディスケット、ハードディスク、ランダム・アクセス・メモリ(RAM)、読出し専用メモリ(ROM)、消去可能プログラム可能読出し専用メモリ(EPROM又はフラッシュ・メモリ)、スタティック・ランダム・アクセス・メモリ(SRAM)、ポータブル・コンパクト・ディスク読出し専用メモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリ・スティック、フロッピー・ディスク、記録された命令を有するパンチカードもしくは溝内に隆起した構造等の機械式コード化デバイス、及び上記のいずれかの適切な組み合わせが挙げられる。本明細書で使用される場合、コンピュータ可読ストレージ媒体は、電波、又は他の自由に伝搬する電磁波、導波管もしくは他の伝送媒体を通じて伝搬する電磁波(例えば、光ファイバ・ケーブルを通る光パルス)、又はワイヤを通って送られる電気信号などの、一時的信号自体として解釈されない。
【0059】
本明細書で説明されるコンピュータ可読プログラム命令は、コンピュータ可読ストレージ媒体からそれぞれのコンピューティング/処理デバイスに、又は、例えばインターネット、ローカル・エリア・ネットワーク、広域ネットワーク、もしくは無線ネットワーク又はそれらの組み合わせなどのネットワークを介して、外部コンピュータ又は外部ストレージ・デバイスにダウンロードすることができる。ネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、もしくはエッジサーバ又はそれらの組み合わせを含むことができる。各コンピューティング/処理デバイスにおけるネットワーク・アダプタ・カード又はネットワーク・インターフェースは、ネットワークからコンピュータ可読プログラム命令を受け取り、それぞれのコンピューティング/処理デバイス内のコンピュータ可読ストレージ媒体内に格納するためにコンピュータ可読プログラム命令を転送する。
【0060】
本開示のオペレーションを実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セット・アーキテクチャ(ISA)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、又は、Smalltalk、C++などのオブジェクト指向プログラミング言語、及び、「C」プログラミング言語もしくは類似のプログラミング言語などの従来の手続き型プログラミング言語を含む1つ又は複数のプログラミング言語の任意の組み合わせで記述されるソース・コード又はオブジェクト・コードすることができる。コンピュータ可読プログラム命令は、完全にユーザのコンピュータ上で実行される場合もあり、一部がユーザのコンピュータ上で、独立型ソフトウェア・パッケージとして実行される場合もあり、一部がユーザのコンピュータ上で実行され、一部が遠隔コンピュータ上で実行される場合もあり、又は完全に遠隔コンピュータもしくはサーバ上で実行される場合もある。最後のシナリオにおいて、遠隔コンピュータは、ローカル・エリア・ネットワーク(LAN)もしくは広域ネットワーク(WAN)を含むいずれかのタイプのネットワークを通じてユーザのコンピュータに接続される場合もあり、又は外部コンピュータへの接続がなされる場合もある(例えば、インターネットサービスプロバイダを用いたインターネットを通じて)。幾つかの実施形態において、例えば、プログラム可能論理回路、フィールド・プログラム可能ゲート・アレイ(FPGA)、又はプログラム可能論理アレイ(PLA)を含む電子回路は、本発明の態様を実施するために、コンピュータ可読プログラム命令の状態情報を利用することによって、コンピュータ可読プログラム命令を実行して、電子回路を個別化することができる。
【0061】
本発明の態様は、本発明の実施形態による方法、装置(システム)及びコンピュータ・プログラム製品のフローチャート図もしくはブロック図又はその両方を参照して説明される。フローチャート図もしくはブロック図又はその両方の各ブロック、並びにフローチャート図もしくはブロック図又はその両方におけるブロックの組み合わせは、コンピュータ可読プログラム命令によって実装できることが理解されるであろう。
【0062】
これらのコンピュータ可読プログラム命令を、汎用コンピュータ、専用コンピュータ、又は他のプログラム可能データ処理装置のプロセッサに与えて機械を製造し、それにより、コンピュータ又は他のプログラム可能データ処理装置のプロセッサによって実行される命令が、フローチャートもしくはブロック図又はその両方の1つ又は複数のブロック内で指定された機能/オペレーションを実施するための手段を作り出すようにすることができる。これらのコンピュータ・プログラム命令を、コンピュータ、プログラム可能データ処理装置、もしくは他のデバイス又はその組み合わせを特定の方式で機能させるように指示することができるコンピュータ可読ストレージ媒体内に格納し、それにより、そのコンピュータ可読ストレージ媒体内に格納された命令が、フローチャートもしくはブロック図又はその両方の1つ又は複数のブロックにおいて指定された機能/オペレーションの態様を実施する命令を含む製品を含むようにすることもできる。
【0063】
コンピュータ・プログラム命令を、コンピュータ、他のプログラム可能データ処理装置、又は他のデバイス上にロードして、一連のオペレーションステップをコンピュータ、他のプログラム可能データ処理装置、又は他のデバイス上で行わせてコンピュータ実施のプロセスを生成し、それにより、コンピュータ、他のプログラム可能装置、又は他のデバイス上で実行される命令が、フローチャートもしくはブロック図又はその両方の1つ又は複数のブロックにおいて指定された機能/オペレーションを実行するようにすることもできる。
【0064】
図面内のフローチャート及びブロック図は、本開示の種々の実施形態による、システム、方法、及びコンピュータ・プログラム製品の可能な実装の、アーキテクチャ、機能及びオペレーションを示す。この点に関して、フローチャート又はブロック図内の各ブロックは、指定された論理機能を実装するための1つ又は複数の実行可能命令を含む、モジュール、セグメント、又は命令の一部を表すことができる。幾つかの代替的な実装において、ブロック内に示される機能は、図に示される順序とは異なる順序で行われることがある。例えば、連続して示される2つのブロックは、関与する機能に応じて、実際には実質的に同時に実行されることもあり、又はこれらのブロックはときとして逆順で実行されることもある。ブロック図もしくはフローチャート図又はその両方の各ブロック、及びブロック図もしくはフローチャート図又はその両方におけるブロックの組み合わせは、指定された機能又はオペレーションを実行する、又は専用のハードウェアとコンピュータ命令との組み合わせを実行する、専用ハードウェア・ベースのシステムによって実装できることにも留意されたい。
【0065】
上記は、本開示の実施形態に向けられているが、本発明の他の及びさらなる実施形態を、その基本的な範囲から逸脱することなく考案することができ、その範囲は以下の特許請求の範囲によって決定される。