(58)【調査した分野】(Int.Cl.,DB名)
複数の基準テキスト単位の一つが前記ターゲット・テキスト単位内の語と類似する発音を有することを決定する前記ステップは、前記基準音声セグメントについて自動音声認識を実行し、基準テキストセグメントを得るステップの後に、
発音の類似度に基づいて基準音声セグメントから前記ターゲット・テキスト単位内の前記語にその発音が類似する音声サブセグメントを決定するステップと、
前記基準テキストセグメントから前記音声サブセグメントに対応する前記基準テキスト単位を得るステップと
を備える請求項1又は2に記載の方法。
決定された前記基準テキスト単位は複数の基準テキスト単位であり、前記ターゲット・テキスト単位内の前記語に発音が類似する前記基準テキスト単位を前記基準テキスト・セグメントから決定するステップは、
前記ユーザによる選択を受信するステップであり、マウスまたはタッチスクリーンを用いて、複数の基準テキスト単位の一つにつき、前記ターゲット・テキスト単位内の少なくとも一つの語を決定する、ステップを備える請求項1ないし4のいずれかに記載の方法。
決定された前記基準テキスト単位は複数の基準テキスト単位であり、前記ターゲット・テキスト単位内の前記語に発音が類似する前記基準テキスト単位を前記基準テキスト・セグメントから決定するステップは、
前記複数の基準テキスト単位の信頼度に基づいて前記ターゲット・テキスト単位内の前記語を修正するために前記基準テキスト単位を選択するステップを備える請求項1ないし4のいずれかに記載の方法。
コンピュータ・プログラムがコンピュータ上で実行されるとき、請求項1ないし6のいずれか一項に記載の方法ステップを実行するように適合されたプログラム・コードを備えるコンピュータ・プログラム。
【発明を実施するための形態】
【0010】
本開示の好ましい実施形態が例示されている添付の図面を参照して、いくつかの好ましい実施形態がより詳細に説明される。しかし、本開示は様々な様式で実施可能であり、したがって、本明細書で開示される実施形態に限定されると解釈されるべきではない。反対に、それらの実施形態は、本開示の徹底的かつ十分な理解、および本開示の範囲を当業者に十分に伝えるために提供される。
【0011】
当業者には理解されるように、本発明の態様は、システム、方法、またはコンピュータ・プログラム製品として実施され得る。したがって、本発明の態様は、完全にハードウェアの実施形態、(ファームウェア、常駐ソフトフェア、マイクロコードなどを含む)完全にソフトウェアの実施形態、または、本明細書ですべて一般に、「回路」、「モジュール」、もしくは「システム」と称することがあるソフトウェアの態様とハードウェアの態様とを組み合わせた実施形態の形をとることが可能である。さらに、本発明の態様は、コンピュータ可読プログラム・コードを実施させる、1つまたは複数のコンピュータ可読媒体内で実施されるコンピュータ・プログラム製品の形をとることが可能である。
【0012】
1つまたは複数のコンピュータ可読媒体の任意の組合せを利用することが可能である。コンピュータ可読媒体は、コンピュータ可読信号媒体またはコンピュータ可読記憶媒体であり得る。コンピュータ可読記憶媒体は、例えば、電子的、磁気的、光学的、電磁的、赤外線の、もしくは半導体のシステム、装置、またはデバイス、あるいはこれらの任意の適切な組合せを含み得るが、これらに限定されない。コンピュータ可読記憶媒体のより詳細な例(非網羅的リスト)は、1つもしくは複数の配線を有する電気接続、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ(RAM)、読出し専用メモリ(ROM)、消去可能プログラマブル読出し専用メモリ(EPROMもしくはフラッシュ・メモリ)、光ファイバ、ポータブル・コンパクト・ディスク読出し専用メモリ(CD−ROM)、光記憶デバイス、磁気記憶デバイス、またはこれらの任意の適切な組合せを含む。本明細書の文脈では、コンピュータ可読記憶媒体は、命令実行システム、命令実行装置、もしくは命令実行デバイスによって、またはそれらに関して使用するためのプログラムを含むことが可能であるか、あるいはそのようなプログラムを記憶することが可能な任意の有形媒体であってよい。
【0013】
コンピュータ可読信号媒体は、例えばベースバンドや搬送波の一部としてコンピュータ可読プログラム・コードが内部に具現化された伝搬データ信号を含み得る。そのような伝搬信号は、電磁的、光学的、またはそれらの任意の適切な組合せを含む各種形態をとることが可能であるが、これらに限定されない。コンピュータ可読信号媒体は、命令実行システム、命令実行装置、もしくは命令実行デバイスによって、またはそれらに関して使用するためのプログラムを通信、伝搬、あるいは移送することができる、コンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であってよい。
【0014】
コンピュータ可読媒体上に具現化されたプログラム・コードは、無線、有線、光ファイバ・ケーブル、RFなど、またはこれらの任意の適切な組合せを含む任意の適切な媒体を使用して送信され得るが、これらに限定されない。
【0015】
本発明の態様に関する動作を実行するためのコンピュータ・プログラム・コードは、Java(R)、Smalltalk(R)、C++などのオブジェクト指向プログラミング言語と、「C」プログラミング言語または類似のプログラミング言語など、従来の手続き型プログラミング言語とを含めて、1つもしくは複数のプログラミング言語の任意の組合せで記述することが可能である。プログラム・コードは、独立型のソフトウェア・パッケージとして、すべてがユーザのコンピュータで実行されても、一部がユーザのコンピュータで実行されても、一部がユーザのコンピュータで実行され一部がリモート・コンピュータで実行されても、またはすべてがリモート・コンピュータもしくはリモート・サーバで実行されてもよい。後者のシナリオでは、リモート・コンピュータは、ローカル・エリア・ネットワーク(LAN)や広域ネットワーク(WAN)を含む任意のタイプのネットワークを介してユーザのコンピュータに接続しても、(例えば、インターネット・サービス・プロバイダを使用して、インターネットを介して)外部のコンピュータに接続してもよい。
【0016】
以下、本発明の実施形態による方法、装置(システム)、およびコンピュータ・プログラム製品のフローチャート図もしくはブロック図またはその両方を参照して本発明の態様を説明する。フローチャート図もしくはブロック図またはその両方の各ブロック、およびフローチャート図もしくはブロック図またはその両方の各ブロックの組合せは、コンピュータ・プログラム命令によって実施され得ることを理解されよう。コンピュータまたは他のプログラマブル・データ処理装置のプロセッサを介して実行される命令が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックに指定される機能/動作を実施する手段を作り出すべく、このようなコンピュータ・プログラム命令は、汎用コンピュータ、専用コンピュータ、または他のプログラマブル・データ処理装置のプロセッサに提供されてマシンを作り出すものであってよい。
【0017】
コンピュータ可読媒体に記憶された命令により、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックに指定される機能/動作を実施する命令を含む製品を作り出すべく、このようなコンピュータ・プログラム命令はコンピュータ可読媒体に記憶され、コンピュータ、他のプログラマブル・データ処理装置、または他のデバイスに特定の方式で機能するように指示するものであってよい。
【0018】
コンピュータまたは他のプログラマブル装置上で実行される命令が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックに指定される機能/動作を実施する処理を提供するように、コンピュータによって実行されるプロセスを作り出すべく、コンピュータ・プログラム命令は、コンピュータ、他のプログラマブル・データ処理装置、または他のデバイスにロードされ、コンピュータ、他のプログラマブル装置、または他のデバイス上で一連の動作ステップを実行させるものであってよい。
【0019】
次に、本発明の実施形態を実施するために適用可能な例示的なコンピュータ・システム/サーバ12が示される
図1を参照する。コンピュータ・システム/サーバ12は、単なる例示であり、本明細書で説明される、本発明の実施形態の使用または機能の範囲に何らかの限定を示唆することは意図されない。
【0020】
図1に示すように、コンピュータ・システム/サーバ12は、汎用コンピューティング・デバイスの形で示される。コンピュータ・システム/サーバ12の構成要素は、1つもしくは複数のプロセッサまたは処理ユニット16と、システム・メモリ28と、システム・メモリ28を含む様々なシステム構成要素をプロセッサ16に結合するバス18とを含み得るが、これらに限定されない。
【0021】
バス18は、様々なバス・アーキテクチャのうちのいずれかを使用する、メモリ・バスまたはメモリ・コントローラと、周辺バスと、アクセラレーテッド・グラフィックス・ポートと、プロセッサまたはローカル・バスとを含む、いくつかのタイプのバス構造のうちのいずれかのうちの1つまたは複数を表す。限定ではなく、例として、そのようなアーキテクチャは、インダストリー・スタンダード・アーキテクチャ(ISA)バスと、マイクロ・チャネル・アーキテクチャ(MCA)バスと、拡張ISA(EISA)バスと、ビデオ・エレクトロニクス・スタンダーズ・アソシエーション(VESA)ローカル・バスと、ペリフェラル・コンポーネント・インターコネクト(PCI)バスとを含む。
【0022】
コンピュータ・システム/サーバ12は、典型的には、様々なコンピュータ・システム可読媒体を含む。そのような媒体は、コンピュータ・システム/サーバ12によってアクセス可能な任意の利用可能な媒体であってよく、そのような媒体は、揮発性および不揮発性媒体、取外し可能および取外し不可能媒体の両方を含む。
【0023】
システム・メモリ28は、ランダム・アクセス・メモリ(RAM)30もしくはキャッシュ・メモリ32またはその両方など、揮発性メモリの形でコンピュータ・システム可読媒体を含み得る。コンピュータ・システム/サーバ12は、他の取外し可能/取外し不可能、揮発性/不揮発性コンピュータ・システム記憶媒体をさらに含み得る。単なる例として、ストレージ・システム34は、(図示せず、一般に、「ハード・ドライブ」と呼ばれる)取外し不可能、不揮発性磁気媒体から読み取り、その磁気媒体に書き込むために提供され得る。図示されないが、取外し可能、不揮発性磁気ディスク(例えば、「フロッピー(R)・ディスク」))から読み取り、その磁気ディスクに書き込むための磁気ディスク・ドライブと、CD−ROM、DVD−ROM、または他の光媒体など、取外し可能、不揮発性光ディスクから読み取り、その光ディスクに書き込むための光ディスク・ドライブとが提供され得る。そのような場合、各々は、1つまたは複数のデータ・メディア・インターフェースによってバス18に接続され得る。以下でさらに示され、説明されるように、メモリ28は、本発明の実施形態の機能を実行するように構成されたプログラム・モジュールのセット(例えば、少なくとも1つ)を有する、少なくとも1つのプログラム製品を含み得る。
【0024】
プログラム・モジュール42の(少なくとも1つの)セットを有するプログラム/ユーティリティ40は、限定ではなく、例として、オペレーティング・システム、1つまたは複数のアプリケーション・プログラム、他のプログラム・モジュール、およびプログラム・データと同様、メモリ28内に記憶可能である。オペレーティング・システム、1つもしくは複数のアプリケーション・プログラム、他のプログラム・モジュール、およびプログラム・データの各々、またはそれらの何らかの組合せは、ネットワーキング環境の実装形態を含み得る。プログラム・モジュール42は、一般に、本明細書で説明されるような、本発明の実施形態の機能もしくは手順またはその両方を実行する。
【0025】
コンピュータ・システム/サーバ12は、キーボード、ポインティング・デバイス、ディスプレイ24など、1つもしくは複数の外部デバイス14、ユーザがコンピュータ・システム/サーバ12と相互作用するのを可能にする、1つもしくは複数のデバイス、または、コンピュータ・システム/サーバ12が、1つもしくは複数の他のコンピューティング・デバイスと通信するのを可能にする(例えば、ネットワーク・カード、モデムなど)任意のデバイス、あるいはそれらのすべてと通信することも可能である。そのような通信は、入出力(I/O)インターフェース22を介して発生し得る。さらにまた、コンピュータ・システム/サーバ12は、ネットワーク・アダプタ20を介して、ローカル・エリア・ネットワーク(LAN)、汎用広域ネットワーク(WAN)、または公衆通信網(例えば、インターネット)、あるいはそれらすべてを含む、1つまたは複数のネットワークと通信することが可能である。示されるように、ネットワーク・アダプタ20は、バス18を介して、コンピュータ・システム/サーバ12の他の構成要素と通信する。図示されないが、他のハードウェア構成要素もしくはソフトウェア構成要素またはその両方をコンピュータ・システム/サーバ12と組み合わせて使用することが可能であることを理解されたい。例えば、マイクロコード、デバイス・ドライバ、冗長処理ユニット、外部ディスク・ドライブ・アレイ、RAIDシステム、テープ・ドライブ、およびデータ・アーカイバル・ストレージ・システム(data archival storage system)などを含むが、これらに限定されない。
【0026】
次に、
図2を参照すると、
図2は、本発明の一実施形態による、テキストを修正するための方法を例示する。
【0027】
ステップ210で、テキスト内の修正されるべきターゲット・テキスト単位を決定する。テキストは、任意の形態のテキストであってよい。例えば、テキストは、ユーザから直接入力されたテキストであってよく、またはユーザによって入力された音声データから認識されたテキストであってもよい。本発明の一実施形態によれば、テキストが音声データの認識されたテキストである場合、音声データの認識されたテキストは、任意の先行技術の認識技術によって生成されたテキストであってよい。ターゲット・テキスト単位は、1つまたは複数の語を含むことが可能であり、本発明は、中国語に限定されず、任意の言語に適用され得ることを理解されたい。したがって、本発明で「語」という用語は、漢字に限定されず、英語の語など、任意の言語のサブユニットを指すことを意図する。例えば、本発明の一実施形態によれば、中国語の場合、ターゲット・テキスト単位は、1つもしくは複数の漢字を含む、修正されるべき語または文であってよい。あるいは、英語の場合、ターゲット・テキスト単位は、1つもしくは複数の語を含む、句または文であってよい。
【0028】
本発明の一実施形態によれば、ターゲット・テキスト単位を決定するステップは、ユーザの手動のオプションを受信することによって実施され得る。例えば、ユーザは、マウスを使用すること、またはタッチ・スクリーン上で直接選択することによって、修正されるべきターゲット・テキスト単位を決定することができる。テキストが音声データの認識されたテキストである場合、認識されたテキストは、多くの場合、単位境界によって分割された、認識されたテキスト単位のグループからなる。そのような場合、本発明の一実施形態によれば、各認識されたテキスト単位の信頼度を得ることが可能であり、修正されるべきターゲット・テキスト単位は、その信頼度値に従って決定される。例えば、信頼度値が低ければ低いほど、それは、テキスト単位が認識エラーを含む可能性がますます高いことを示す。したがって、最初に修正されるべき最低信頼度を有するテキスト単位を選択することが可能である。場合によっては、テキストは、テキスト単位に関する単位境界を含まない。この時点で、ターゲット・テキスト単位を決定するステップは、テキストのテキスト単位に関する単位境界を認識するステップをさらに含むことが可能である。
【0029】
ステップS220で、ターゲット・テキスト単位に関してユーザによって入力された基準音声セグメントを受信する。修正されるべきターゲット・テキスト単位を決定した後、ユーザは、修正されるべきターゲット・テキスト単位に関する音声セグメントを発音することができる。音声セグメントは、文または句であってよく、基準音声セグメントは、ターゲット・テキスト単位に関して正確であるとユーザが見なすテキスト・コンテンツを含む。一般に、ユーザは、いくつかの頻繁に使用される句、または特定の文脈を有する句もしくは文など、高い精度を有し、かつ音声認識におけるエラーに影響されない句を選択することができる。
【0030】
ステップS230で、基準音声セグメントに従って、ターゲット・テキスト単位内の語に発音が類似する基準テキスト単位を決定する。
【0031】
本発明の一実施形態によれば、ユーザが入力した基準音声セグメントの場合、基準テキスト・セグメントを取得するために、音声認識がまず実行され、基準テキスト・セグメントは、次いで、ターゲット・テキスト単位内の語に発音が類似する基準テキスト単位を決定するために使用される。さらに、本発明の一実施形態によれば、語に対応する音素の類似度に基づいて、語の発音類似度を計算することができる。発音が類似していることは、発音が同じである場合も含み得ることを理解されたい。
【0032】
本発明の一実施形態によれば、ターゲット・テキスト単位内の語に発音が類似する基準テキスト単位を基準テキスト・セグメントから決定するとき、発音類似度に基づいて、基準テキスト・セグメント内の少なくとも1つの語とターゲット・テキスト単位内の少なくとも1つの語の対応をまず決定し、次いで、その対応に基づいて、ターゲット・テキスト単位の少なくとも1つの語に対応する基準テキスト単位を決定することが可能である。
【0033】
本発明の一実施形態によれば、基準テキスト単位を決定するステップは、基準音声セグメントとターゲット・テキスト単位の発音の両方を直接比較することによって、それらの対応を決定することも可能である。例えば、発音類似度に基づいて、ターゲット・テキスト単位内の語に発音が類似する発音サブセグメントを基準音声セグメントから決定することが可能である。同時に、基準音声セグメントを音声認識することによって、基準テキスト・セグメントを取得することが可能である。この時点で、基準テキスト・セグメントは、音声サブセグメントに対応する基準テキスト単位を含む。したがって、音声サブセグメントに対応する基準テキスト単位を基準テキスト・セグメントから取得することが可能である。
【0034】
ステップS240で、基準テキスト単位を使用して、テキスト内のターゲット・テキスト単位内の少なくとも1つの語を修正する。
【0035】
ユーザは、高い精度を有し、基準音声セグメントとして音声認識のエラーに影響されない句または完全な意味単位を選択することができるため、音声認識された基準テキスト・セグメントのテキスト精度は比較的高い。この場合、ターゲット・テキスト単位を修正するために、比較的高い精度を有する基準テキスト単位を使用することによって、テキスト修正の精度および効率性を改善することが可能である。
【0036】
本発明の一実施形態によれば、複数の基準テキスト単位が選択用に利用可能である場合、基準テキスト単位の信頼度に基づいて、より高い信頼度を有する語を自動的に選択すること、もしくは、ユーザにその語を勧めることが可能であるか、またはユーザはさらなる選択を行うことができる。
【0037】
本発明の一実施形態によれば、基準テキスト・セグメントは、ターゲット・テキスト単位内の語に発音が類似する複数の基準テキスト単位を含み得る。すなわち、音声認識の精度をさらに改善するために、ユーザは、ターゲット・テキスト単位内の同じ語に関して複数の異なるヒントを与えることができる。例えば、ターゲット認識単位内の「
(yin;音)」という語の場合、ユーザは、「
(yin yue;音楽)」、「
(yu yin;声)」、「
(sheng yin;音声)」など、いくつかの語を一度に言うことができる。この場合、音声認識によって選択するために、2つの語、すなわち、「
(yin)」および「
(ying;英雄)」を認識することが可能である。この時点で、ターゲット・テキスト単位内の少なくとも1つの語を修正するために、複数の基準テキスト単位のうちの1つを選択することが可能である。この選択は、ユーザによって手動で行われることが可能であるか、またはシステムによって自動的に行われることが可能である。例えば、複数の基準テキスト単位の場合、音声認識に基づいて、対応する信頼度を提供して、ターゲット・テキスト単位内の少なくとも1つの語を修正するための最終的な基準テキスト単位として、最高信頼度を有する基準テキスト単位を利用することが可能である。
【0038】
本発明の一実施形態によれば、ユーザによって入力された基準音声セグメントは、修正されるべきターゲット・テキスト単位内に含まれたすべての語に対応するコンテンツを含むことが可能であるか、またはその中の語の一部だけに対応するコンテンツを含むことも可能である。加えて、基準音声セグメント内のコンテンツの順序、すなわち、優先順位は、ターゲット・テキスト単位内の対応する語の順序、すなわち、優先順位と異なってよい。
【0039】
本発明の一実施形態による方法は、中国語テキストを例にとることによって以下で説明される。
【0040】
まず、ユーザは、「
(wing qi wu yu yin zu qu Xiang Mu XiangYang ju can, da jia yu shang wu jiu dian zai Xi Er Qi cheng tie ji he;歌手グループはXiang Mu Xiang Yangレストランで昼食をとることになり、全員、午前9時までにXi Er Qi地下鉄駅に到着する)」という文を音声で入力することを望む。ユーザによって入力された音声は、その音声が受信された後で認識される。しかし、音声認識の精度限界により、音声認識による結果は、「
(xing qi wu|
yuying zu|qu|
Xiang Mu Xiang Ya|ju can、da jia|yu|shang wujiu dian|zai|Xi Er
Qi|cheng tie|ji he)」になる。音声認識結果内でいくつかのエラー、すなわち、「
」(「
」であるべき)、「
」(「
」であるべき)、および(「
」(「
」であるべき)が生じる。
【0041】
複数のエラーが生じるこの事例では、ユーザは、修正されるべき語を手動で選択することができる。例えば、ユーザは、タッチ・スクリーン上でその語の周囲に円を描くことによって、修正されるべき語として、「
」を選ぶことができる。音声認識の後で提供される語境界を使用することによって、修正されるべき語を直接選択することも可能である。
【0042】
次いで、ユーザは、「
(yu yan he yin yue xiang zu he;言語と音楽とを組み合わせる)」の文を声に出して言う。この文は、「
」の発音「yuyingzu」に発音が類似する音節「yu」、「yin」、および「zu」を含む。「
」、「
」、および「
」は、すべて、語彙集の中で頻繁に使用される語であるため、ユーザによって入力された音声を「
」のテキストとして正確に認識することが可能である。したがって、発音類似度に従って、「yu」、「yin」、および「zu」は、「
」、「
」、および「
」にそれぞれ対応すると決定し、それによって、「
」を「
」として修正することが可能である。
【0043】
同様に、「
」の場合、その正確なテキストが「
」となるべきであり、ユーザは、「
(xiang wei mu tou he dai xiang wei de yang;木は良い香りがし、良い香りの山羊)」の句を「
」
」を選択した後で言う。それによって、発音類似度に従って、「xiang」、「mu」、「xiang」、および「yang」は、「
」、「
」、「
」、および「
」のテキストにそれぞれ対応することが決定され、「
」は、それにより、「
」として修正される。
【0044】
同様に、「
」の場合、その正確なテキストが「
」となるべきであり、ユーザは、「
(hong qi piao piao;旗を振る)」の句を「
」を選択した後で言う。それによって、発音類似度に従って、「qi」の発音が、「
」のテキストに対応することが決定され、「
」は、「
」として修正される。
【0045】
本発明の一実施形態によれば、ユーザによって入力された基準音声セグメントは、ターゲット・テキスト単位内のすべての文字に関するか、またはその一部のみに関する場合がある。例えば、この例では、決定されたターゲット・テキスト単位は、3つの文字を含む「
」であるが、ユーザによって入力された基準音声セグメント「
」は、その中の1つの文字「
」だけに関する場合がある。
【0046】
本発明の一実施形態によれば、当技術分野の任意の適切な技術を用いることによって、ユーザによって入力された基準音声とターゲット・テキスト単位の発音との間の類似度の比較を実施することが可能である。例えば、音素類似度に基づいて、基準音声に対応する基準テキスト内のターゲット・テキスト単位に発音が類似する単位を見出すことが可能である。
【0047】
以下で、修正されるべきターゲット・テキスト単位「
」と、対応する基準音声セグメント「
」とを例にとって、
図3を参照して、ステップS230の実施形態が詳細に説明される。
図3は、基準音声セグメントに従って、修正されるべきターゲット・テキスト単位の語に発音が類似する基準テキスト単位を決定するプロセスを概略的に示す。
【0048】
ステップS310で、基準音声セグメントを音声認識して、基準テキスト・セグメントを取得する。例えば、ユーザによって入力された基準音声セグメントの場合、対応する基準テキスト・セグメント「
」が取得される。
【0049】
ステップS320で、基準テキスト・セグメントに対応する音素とターゲット・テキスト単位に対応する音素とを解析する。解析の間、各漢字を語頭子音部分(すなわち、第1の音素)と母音部分(すなわち、第2の音素)とに分割することが可能である。重母音を有する漢字の場合、知られている適切な技法を使用することによって、その文字を2つの部分に分割することが可能である。「
」および「
」の漢字を例にとると、漢字「
」の発音は「YIN」であり、これは2つの音素「Y」と「IN」とに分割され得る。漢字「
」の発音は「YING」であり、これは、2つの音素「Y」と「ING」とに分割され得る。
【0050】
例えば、ターゲット・テキスト単位「
」に関する音素列、および基準テキスト・セグメント「
」に関する音素列は以下の通りである。
ターゲット・テキスト単位:Y U Y ING Z U
基準テキスト・セグメント:Y U Y AN H E Y IN Y UE X IANG Z U H E。
【0051】
S330で、音素類似度に基づいて、基準テキスト・セグメント内のターゲット・テキスト単位内の語に発音が類似する基準テキスト単位を決定する。
【0052】
音素は、ある言語の音声体系における最小単位であることを理解されたい。異なる言語または方言は異なる音素体系を有する。例えば、中国語および英語は異なる音素体系を有する。中国の北東方言と上海方言も異なる音素体系を有する。異なる言語の音素体系の音素の数は、10を超える数から、100を超える数まで大いに異なるが、その数は限定数である。異なる音素同士間の類似度は、様々な言語に関して異なる。
【0053】
例えば、中国語ピンイン(発音)では、音素「ING」および「IN」は類似するが、「ING」および「AO」は類似しない。本発明の方法では、音素類似度に基づいて、基準音声セグメント内およびターゲット・テキスト単位内の類似音素を有するテキスト単位を見出すことが可能である。
【0054】
漢字「
」および「
」を例にとると、漢字「
」に関するピンインは「YIN」であり、これは、2つの音素「Y」と「IN」とに分割され得る。漢字「
」に関するピンインは「YING」であり、これは、2つの音素「Y」と「ING」とに分割され得る。次いで、2つの漢字の音素の類似度が比較される。2つの漢字の2つの音素が、それぞれ、類似するか、または同じである場合、2つの漢字の音素は類似すると見なされ、そうでない場合、2つの漢字の音素は類似しないと見なされる。この例では、それらの第1の音素「Y」は同じである。それらの第2の音素「IN」および「ING」は同じではないが、類似する。したがって、漢字「
」および「
」の音素は、類似すると見なされ得る。それに応じて、音素類似度に基づいて、基準音声セグメント内およびターゲット・テキスト単位内で発音が類似する部分が認識される。
【0055】
音素類似度に基づく整合は、動的時間伸縮法(dynamic time wrapping)(DTW)アルゴリズム、最小要素整合(smallest element matching)、および動的計画法(dynamic programming)アルゴリズムなど、様々な、知られているアルゴリズムを用いることができることを理解されたい。
【0056】
異なる音素同士の間の音素類似度を事前に決定することができる。例えば、ユークリッド距離またはバタチャリヤ距離によって音素類似度を測定することが可能である。距離によって音素類似度を測定する場合、音素モデル距離が大きければ大きいほど、類似度はより小さくなることを容易に理解されよう。類似であること、または類似でないことの2進値を単に用いて音素類似度を測定することも可能である。
【0057】
音素類似度の測定値は事前に決定され得ることを理解されたい。本発明の方法では、所定の音素類似度表またはデータベースを単に検索することによって、音素類似度を見出すことが可能である。
【0058】
音素類似度に基づいて、任意の2つの所与の漢字に関して、2つの文字の第1の音素の類似度(距離)を第2の音素の類似度(距離)に加える以下の方法に基づいて、文字同士の間の発音類似度が計算され、和は2つの漢字の発音類似度(距離)である。しかし、分割の後の音素ごとの平均類似度を文字の類似度と理解することも可能であり、すなわち、2つの漢字の発音類似度として、2つの漢字の音素類似度の和を音素の数「2」によって除算する。分かりやすいように、本実施形態では、それぞれの音素の類似度の和を2つの文字の発音類似度と考える。
【0059】
分かりやすいように、この例では、音素類似度に対する声調の影響は考慮されていない。例示される実施形態の教示により、当業者は、声調を考慮するように本発明の方法を容易に拡張して、高精度の要件を満たすことができる。
【0060】
DTWアルゴリズムの原理は先行技術において知られている。例示される実施形態の教示により、当業者は、DTWアルゴリズムの他の実装形態を使用して、ターゲット・テキストと基準テキストとの間の最善の整合経路を見出すことも可能であることを容易に思いつくことができる。
【0061】
本明細書で、ターゲット・テキスト単位内の「
」という文字の音素「Y U」は、基準テキスト・セグメント内の「
」という文字の音素「Y U」と同じであり、したがって、ターゲット・テキスト単位内の「
」という文字は、基準テキスト・セグメント内の「
」という文字に対応すると決定される。ターゲット・テキスト単位内の「
」という文字の音素「Y ING」は、基準テキスト・セグメント内の「
」という文字の音素「Y IN」に類似し、したがって、ターゲット・テキスト単位内の「
」という文字は、基準テキスト・セグメント内の「
」という文字に対応すると決定される。ターゲット・テキスト単位内の「
」という文字の音素「Z U」は、基準テキスト・セグメント内の「
」という文字の音素「Z U」に類似し、したがって、ターゲット・テキスト単位内の「
」という文字は、基準テキスト・セグメント内の「
」という文字に対応すると決定される。次いで、決定された対応に従って、ターゲット・テキスト単位内の少なくとも1つの文字に対応する基準テキスト単位が決定される。この場合、決定された基準テキスト単位は、「
」である。
【0062】
本発明を中国語に適用する特定の実装形態が上で例示された。しかし、本発明の方法は任意の言語に適用され得ることを理解されたい。基本的な方法は、基本単位として文字または語を利用し、次いで、それらの基本単位同士の間の発音類似度に基づいて、基準テキストとターゲット・テキストとの間の対応を決定する。差異は、基本単位の発音類似度の計算が若干異なるということだけである。例えば、中国語の場合、基本単位として漢字を利用する。各漢字は、子音と母音の音声記号体系内に(語頭子音部分と母音部分と見なされ得る)2つの音素を含む。したがって、漢字同士の間の類似度を子音類似度と母音類似度の和によって表すことができる。しかし、より一般的には、他の言語の場合、異なる語内に含まれる音素の数は、多くの場合、異なり得る。例えば、英語では、基本単位として英単語を利用する。異なる語内に含まれる音素の数は異なる。この場合、DTWアルゴリズムによって、2つの語の間の最善の音素整合モードを見出し、次いで、それらの語同士の間の発音類似度を計算することが可能である。異なる言語に関して、本発明の方法のその他のステップは同じである。
【0063】
図2のステップS230の別の実装形態が、以下で、
図4を参照して詳細に説明される。ステップS310と同様に、ステップS410で、基準音声セグメントに関する音声認識を実行して、基準テキスト・セグメントを取得する。
【0064】
ステップS420で、発音類似度に基づいて、ターゲット・テキスト単位内の語に発音が類似する基準音声セグメント内の音声サブセグメントを決定する。ユーザによって入力された基準音声セグメントをターゲット・テキスト単位内の語の発音と比較することによって、ターゲット・テキスト単位内の語と基準音声セグメント内の少なくとも1つの音声サブセグメントとの間の対応を決定することが可能である。
【0065】
ステップS430で、音声サブセグメントに対応する基準テキスト単位を基準テキスト・セグメントから取得する。音声認識の後の基準テキスト・セグメントは、音声サブセグメントに対応する基準テキスト単位を含むため、この場合、ターゲット・テキスト単位内の語と音声サブセグメントとの間の対応と、基準テキスト単位と音声サブセグメントとの間の対応とに基づいて、ターゲット・テキスト単位内の語を修正するための基準テキスト単位を取得することが可能である。
【0066】
修正されるべき同じターゲット・テキスト単位に関して、ユーザは、修正の精度を改善するために、異なる基準音声セグメントを数回入力することも可能であることを理解されたい。対応する基準テキスト単位を取得するために、各基準音声セグメントがターゲット・テキスト単位と比較される。そして、取得された複数の基準テキスト単位に基づいて、ターゲット・テキスト単位を修正するための最終的な基準テキスト単位が決定される。
【0067】
本発明は、音声データから認識されたテキストを修正することに限定されない。テキスト内のエラーが類似する発音または同じ発音を有する語によって引き起こされる限り、本発明はその修正に適用される。例えば、漢字のピンイン入力方法では、テキスト入力内のエラーは、多くの場合、類似するピンインまたは同じピンインによって発生する。この場合、本発明の方法によってテキストを修正することが可能である。加えて、本発明の修正方法を他のテキスト修正方法と組み合わせて、精度および効率性をさらに改善することも可能である。
【0068】
図5は、本発明の一実施形態による、テキストを修正するためのシステム500のブロック図を概略的に示す。システム500は、上で説明されたように、テキストを修正する方法を実行するために使用される。システム500は、ターゲット・テキスト単位決定セクション510と、基準音声セグメント受信セクション520と、基準テキスト単位決定セクション530と、ターゲット・テキスト単位修正セクション540とを含む。
【0069】
本発明の一実施形態によれば、ターゲット・テキスト単位決定セクション510は、テキスト内の修正されるべきターゲット・テキスト単位を決定するように構成される。基準音声セグメント受信セクション520は、ターゲット・テキスト単位に関してユーザによって入力された基準音声セグメントを受信するように構成される。基準テキスト単位決定セクション530は、その基準音声セグメントに基づいて、ターゲット・テキスト単位内の語に発音が類似する基準テキスト単位を決定するように構成される。ターゲット・テキスト単位修正セクション540は、基準テキスト単位を使用して、テキスト内のターゲット・テキスト単位内の語を修正するように構成される。
【0070】
本発明の一実施形態によれば、テキストは音声データの認識されたテキストである。
【0071】
本発明の一実施形態によれば、基準テキスト単位決定セクション530は、基準音声セグメントに関する音声認識を実行して、基準テキスト・セグメントを取得するように構成された音声認識セクション550を備え、基準テキスト単位決定セクション530は、ターゲット・テキスト単位内の語に発音が類似する基準テキスト単位を基準テキスト・セグメントから決定するようにさらに構成される。
【0072】
本発明の一実施形態によれば、基準テキスト単位決定セクション530は、基準テキスト・セグメントに対応する音素と、ターゲット・テキスト単位に対応する音素とを解析するように構成された音素解析セクション560をさらに備え、基準テキスト単位決定セクション530は、音素類似度に基づいて、ターゲット・テキスト単位内の語に発音が類似する基準テキスト単位を基準テキスト・セグメントから決定するようにさらに構成される。
【0073】
本発明の一実施形態によれば、基準テキスト単位決定セクション530は、基準音声セグメントに関する音声認識を実行して、基準テキスト・セグメントを取得するように構成された音声認識セクション550をさらに備え、基準テキスト単位決定セクション530は、ターゲット・テキスト単位内の語に発音が類似する音声サブセグメントを基準音声セグメントから決定して、音声サブセグメントに対応する基準テキスト単位を基準テキスト・セグメントから取得するようにさらに構成される。
【0074】
本発明の一実施形態によれば、決定された基準テキスト単位は複数の基準テキスト単位であり、基準テキスト単位決定セクション530は、ターゲット・テキスト単位内の少なくとも1つの語を修正するための、複数の基準テキスト単位のうちの1つに関するユーザによる選択を受信するようにさらに構成される。
【0075】
本発明の一実施形態によれば、決定された基準テキスト単位は複数の基準テキスト単位であり、ターゲット・テキスト単位修正セクション540は、複数の基準テキスト単位の信頼度に基づいて、ターゲット・テキスト単位内の語を修正するための基準テキスト単位を選択するようにさらに構成される。
【0076】
本発明の一実施形態によれば、システム500は、テキストのテキスト単位の単位境界を認識するように構成された境界認識セクション570をさらに備える。
【0077】
本発明の一実施形態によれば、ターゲット・テキスト単位決定セクション510は、修正されるべきターゲット・テキスト単位を決定するための、テキスト内のテキスト単位に関するユーザによる選択を受信するようにさらに構成される。
【0078】
本発明の一実施形態によれば、ターゲット・テキスト単位決定セクション510は、音声データの認識されたテキスト内のテキスト単位の信頼度を取得して、その信頼度に基づいて、修正されるべきターゲット・テキスト単位を決定するようにさらに構成される。
【0079】
図面のフローチャートおよびブロック図は、本発明の様々な実施形態による、システム、方法、およびコンピュータ・プログラム製品の可能な実装形態のアーキテクチャ、機能、ならびに動作を例示する。この点で、フローチャート内またはブロック図内の各ブロックは、指定された論理機能を実装するための1つもしくは複数の実行可能命令を備えたモジュール、セグメント、またはコードの一部を表す場合がある。いくつかの代替実装形態では、ブロック内で言及される機能は、図面で言及される順序と異なって発生し得ることにも留意されたい。例えば、連続して示される2つのブロックは、実際には、関連する機能に応じて、実質的に同時に実行される場合があるか、またはブロックは、時として、逆の順序で実行される場合がある。ブロック図もしくはフローチャート図またはその両方の各ブロック、およびブロック図もしくはフローチャート図またはその両方の各ブロックの組合せは、指定された機能もしくは動作を実行する専用ハードウェア・ベース・システム、または専用ハードウェアおよびコンピュータ命令の組合せによって実施され得ることにも留意されよう。
【0080】
本発明の実施形態の様々な説明は、例示のために提示されており、網羅的であること、または開示される実施形態に限定されることは意図されていない。説明された実施形態の範囲および趣旨から逸脱せずに、多くの変更および改変が当業者に明らかになるであろう。本明細書で使用される専門用語は、実施形態の原理、市場で見出される技術に対する実際的な応用もしくは技術的改善を最も良く説明するため、または他の当業者が本明細書で開示された実施形態を理解するのを可能にするために選択された。