(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-09-17
(45)【発行日】2024-09-26
(54)【発明の名称】音声認識方法及び装置、記録媒体及び電子機器
(51)【国際特許分類】
G10L 15/10 20060101AFI20240918BHJP
G10L 15/02 20060101ALI20240918BHJP
【FI】
G10L15/10 200W
G10L15/02 300B
(21)【出願番号】P 2023515648
(86)(22)【出願日】2021-12-14
(86)【国際出願番号】 CN2021137969
(87)【国際公開番号】W WO2022151893
(87)【国際公開日】2022-07-21
【審査請求日】2023-03-08
(31)【優先権主張番号】202110062350.0
(32)【優先日】2021-01-18
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】522442928
【氏名又は名称】北京沃東天駿信息技術有限公司
【氏名又は名称原語表記】BEIJING WODONG TIANJUN INFORMATION TECHNOLOGY CO., LTD.
【住所又は居所原語表記】ROOM A402, 4/F, NO. 2 BUILDING, NO.18 KECHUANG 11TH STREET, ECONOMIC AND TECHNOLOGICAL DEVELOPMENT ZONE, BEIJING 100176, PEOPLE’S REPUBLIC OF CHINA
(73)【特許権者】
【識別番号】517241916
【氏名又は名称】北京京東世紀貿易有限公司
【氏名又は名称原語表記】BEIJING JINGDONG CENTURY TRADING CO., LTD.
【住所又は居所原語表記】Room 201, 2/F, Block C, No.18, Kechuang 11th Street, Beijing Economic and Technological Development Zone, Beijing 100176, China
(74)【代理人】
【識別番号】110001195
【氏名又は名称】弁理士法人深見特許事務所
(72)【発明者】
【氏名】雪 巍
(72)【発明者】
【氏名】蔡 玉 玉
(72)【発明者】
【氏名】呉 俊 儀
(72)【発明者】
【氏名】彭 毅
(72)【発明者】
【氏名】范 ▲ルー▼
(72)【発明者】
【氏名】楊 帆
(72)【発明者】
【氏名】丁 国 宏
(72)【発明者】
【氏名】何 暁 冬
【審査官】堀 洋介
(56)【参考文献】
【文献】米国特許出願公開第2020/0312309(US,A1)
【文献】国際公開第2020/247489(WO,A1)
【文献】特開2007-322758(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00-15/34
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
サンプル音声信号を取得し、前記サンプル音声信号をデコードし、デコード結果を得て、前記デコード結果から前記サンプル音声信号の接頭語情報を含む第1特徴を抽出するステップと、
前記サンプル音声信号から目標音声区間を抽出し、前記目標音声区間の対数振幅スペクトルを取得し、前記対数振幅スペクトルに基づいて前記サンプル音声信号の2次元時間周波数領域の特徴である第2特徴を確定するステップと、
前記第1特徴と前記第2特徴とを組み合わせて、第3特徴を得るステップと、
前記第3特徴を使用してトレーニングされていない分類器をトレーニングし、トレーニング済みの分類器を得るステップと、
認識対象音声信号の認識対象第3特徴を取得し、前記トレーニング済みの分類器により前記認識対象第3特徴を分類することにより、前記認識対象第3特徴に前記接頭語が含まれるか否かを確定するステップと、を
含み、
前記接頭語は、否定を表す用語である
音声認識方法。
【請求項2】
前記サンプル音声信号をデコードし、デコード結果を得るステップは、
トレーニング済みの音響モデル及びトレーニング済みの言語モデルにより前記サンプル音声信号をデコードし、デコード候補結果のうち上位3つの候補結果を前記デコード結果として抽出するステップを含む
請求項1に記載の方法。
【請求項3】
前記デコード結果から第1特徴を抽出するステップは、
前記デコード結果における音響モデルのスコア及び言語モデルのスコアを取得し、前記音響モデルのスコア及び前記言語モデルのスコアを正規化し、正規化後の音響モデルのスコア及び正規化後の言語モデルのスコアを前記第1特徴として得るステップをさらに含む
請求項1又は2に記載の方法。
【請求項4】
前記音響モデルのスコア及び前記言語モデルのスコアを正規化し、正規化後の音響モデルのスコア及び正規化後の言語モデルのスコアを得るステップは、
前記音響モデルのスコアを最適デコード結果における音響モデルのスコアで除算し、前記正規化後の音響モデルのスコアを得て、前記最適デコード結果がデコード候補結果において第1位にランク付けされる候補結果であるステップと、
前記言語モデルのスコアを前記最適デコード結果における言語モデルのスコアで除算し、前記正規化後の言語モデルのスコアを得るステップと、を含む
請求項3に記載の方法。
【請求項5】
前記デコード結果に接頭語が含まれる場合、前記接頭語情報が1であるステップと、
前記デコード結果に前記接頭語が含まれない場合、前記接頭語情報が0であるステップと、をさらに含む
請求項1に記載の方法。
【請求項6】
前記接頭語が「いいえ」及び「ない」のうちの少なくとも1つであるステップをさらに含む
請求項5に記載の方法。
【請求項7】
前記デコード結果から第1特徴を抽出する前に、前記方法は、
前記接頭語を含む敏感語集合を確定し、前記デコード結果に前記敏感語集合のうちのいずれか1つの要素が含まれる場合、前記デコード結果から前記第1特徴を抽出するステップをさらに含む
請求項1に記載の方法。
【請求項8】
前記サンプル音声信号から目標音声区間を抽出するステップは、
前記デコード結果における時間情報に基づいて、前記要素に対応する時間開始点及び時間終了点を確定するステップと、
前記サンプル音声信号から前記時間開始点と前記時間終了点との間の音声区間を前記目標音声区間として抽出するステップと、を含む
請求項7に記載の方法。
【請求項9】
前記目標音声区間の対数振幅スペクトルを取得するステップは、
前記目標音声区間を予め設定された個数のサブ区間に分割し、サブ区間毎に予め設定されたポイント数の短時間フーリエ変換を行うことにより、音声スペクトログラムを得るステップと、
前記音声スペクトログラムに基づいて前記対数振幅スペクトルを取得するステップと、を含む
請求項1又は8に記載の方法。
【請求項10】
前記対数振幅スペクトルに基づいて第2特徴を確定するステップは、
前記対数振幅スペクトルを0から1の区間に正規化し、正規化対数振幅スペクトルを得るステップと、
前記正規化対数振幅スペクトルから第2特徴を抽出するステップと、を含む
請求項9に記載の方法。
【請求項11】
前記正規化対数振幅スペクトルから第2特徴を抽出するステップは、
前記正規化対数振幅スペクトルを複数のサブバンドに分割するステップと、
前記サブバンドのエネルギーを時間方向に平滑化し、時間的に平滑化されたサブバンドのエネルギー値を得るステップと、
前記時間的に平滑化されたサブバンドのエネルギー値に基づいて、サブバンドのエネルギーの時間ホッピング比を算出するステップと、
各時刻に対応する複数の前記サブバンドのエネルギーの時間ホッピング比を平均化して、前記時刻に対応するフルバンドの時間ホッピング比を得るステップと、
複数の時刻に対応する複数の前記フルバンドの時間ホッピング比から取得される時間ホッピング比の最大値、時間ホッピング比の平均値及び時間ホッピング比の標準偏差を前記第2特徴とするステップと、
前記サブバンドのエネルギーを周波数方向に平滑化して、周波数で平滑化されたサブバンドのエネルギー値を得るステップと、
前記周波数で平滑化されたサブバンドのエネルギー値に基づいて、サブバンドのエネルギーの周波数ホッピング比を算出するステップと、
各時刻に対応する複数の前記サブバンドのエネルギーの周波数ホッピング比を平均化して、前記時刻に対応するフルバンドの周波数ホッピング比を得るステップと、
複数の時刻に対応する複数の前記フルバンドの周波数ホッピング比から取得される周波数ホッピング比の最小値、周波数ホッピング比の平均値及び周波数ホッピング比の標準偏差を前記第2特徴とするステップと、を含む
請求項10に記載の方法。
【請求項12】
前記サブバンドのエネルギーを時間方向に平滑化し、時間的に平滑化されたサブバンドのエネルギー値を得るステップは、
現在時刻におけるサブバンドのエネルギー及び隣接する時刻におけるサブバンドのエネルギーを平均化することにより、前記時間的に平滑化されたサブバンドのエネルギー値を得るステップを含み、
前記サブバンドのエネルギーを周波数方向に平滑化して、周波数で平滑化されたサブバンドのエネルギー値を得るステップは、
現在の周波数でのサブバンドのエネルギー及び隣接する周波数でのサブバンドのエネルギーを平均化することにより、前記周波数で平滑化されたサブバンドのエネルギー値を得るステップを含む
請求項11に記載の方法。
【請求項13】
前記時間的に平滑化されたサブバンドのエネルギー値に基づいて、サブバンドのエネルギーの時間ホッピング比を算出するステップは、
予め設定された時刻に対応する前記時間的に平滑化されたサブバンドのエネルギー値と現在時刻に対応する前記時間的に平滑化されたサブバンドのエネルギー値との商を前記サブバンドのエネルギーの時間ホッピング比として取得するステップを含み、
前記周波数で平滑化されたサブバンドのエネルギー値に基づいて、サブバンドのエネルギーの周波数ホッピング比を算出するステップは、
予め設定された周波数に対応する前記周波数で平滑化されたサブバンドのエネルギー値と現在の周波数に対応する前記周波数で平滑化されたサブバンドのエネルギー値との商を前記サブバンドのエネルギーの周波数ホッピング比として取得するステップを含む
請求項11に記載の方法。
【請求項14】
前記予め設定された時刻と前記現在時刻との間に5つの時刻を置き、前記予め設定された周波数と前記現在の周波数との間に5つの周波数を置く
請求項13に記載の方法。
【請求項15】
前記第3特徴を使用してトレーニングされていない分類器をトレーニングし、トレーニング済みの分類器を得るステップは、
第3特徴によりトレーニングされていない単純ベイズ分類器をトレーニングして、トレーニング済みの単純ベイズ分類器を得るステップを含む
請求項1に記載の方法。
【請求項16】
サンプル音声信号を取得し、前記サンプル音声信号をデコードし、デコード結果を得て、前記デコード結果から前記サンプル音声信号の接頭語情報を含む第1特徴を抽出するための第1特徴取得モジュールと、
前記サンプル音声信号から目標音声区間を抽出し、前記目標音声区間の対数振幅スペクトルを取得し、前記対数振幅スペクトルに基づいて前記サンプル音声信号の2次元時間周波数領域の特徴である第2特徴を確定するための第2特徴取得モジュールと、
前記第1特徴と前記第2特徴とを組み合わせて、第3特徴を得るための第3特徴取得モジュールと、
前記第3特徴を使用してトレーニングされていない分類器をトレーニングし、トレーニング済みの分類器を得るための分類器トレーニングモジュールと、
認識対象音声信号の認識対象第3特徴を取得し、前記トレーニング済みの分類器により前記認識対象第3特徴を分類することにより、前記認識対象第3特徴に前記接頭語が含まれるか否かを確定するための分類器認識モジュールと、を含
み、
前記接頭語は、否定を表す用語である
音声認識装置。
【請求項17】
コンピュータプログラムが記憶されたコンピュータ読み取り可能な記録媒体であって、前記プログラムがプロセッサーによって実行される場合、請求項1から請求項15のいずれか1項に記載の音声認識方法を実現するコンピュータ読み取り可能な記録媒体。
【請求項18】
プロセッサーと、
1つ又は複数のプログラムを記憶するためのメモリと、を含み、
前記1つ又は複数のプログラムが前記プロセッサーにより実行される場合、請求項1から請求項15のいずれか1項に記載の音声認識方法を前記プロセッサーに実現させる
電子機器。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、2021年1月18日に出願され、出願番号が202110062350.0であり、発明の名称が「音声認識方法及び装置、記録媒体及び電子機器」である中国特許出願を基礎として優先権を主張し、当該中国特許出願のすべての内容を本願に援用する。
【0002】
本願は、音声認識の技術分野に関し、特に、音声認識方法、音声認識装置、コンピュータ読み取り可能な記録媒体及び電子機器に関する。
【背景技術】
【0003】
音声認識技術は、人の音声をテキストに変換する技術であり、例えばスマート対話ロボット、スマートスピーカ、スマート翻訳装置などの様々な人工知能製品に広く応用されており、主に人と機械との対話によって情報の交換を実現する。
【0004】
日常的な人と機械との対話の過程において、ユーザーは、通常、「はい/いいえ」、「正しい/正しくない」、「買った/買わなかった」などの短い単語で答えることにより自分の意図を表現する。このため、これらの短い単語に対する認識の精度も特に重要である。
【0005】
従来の大語彙連続音声認識フレームワークで使用されているモデルトレーニングコーパスにおいて、上記の短い単語の割合は非常に小さく、上記の接頭語を含む短い単語に特化して認識する方法はない。
【発明の概要】
【課題を解決するための手段】
【0006】
本願の一態様によれば、音声認識方法を提供する。前記音声認識方法は、サンプル音声信号を取得し、前記サンプル音声信号をデコードし、デコード結果を得て、前記デコード結果から前記サンプル音声信号の接頭語情報を含む第1特徴を抽出するステップと、前記サンプル音声信号から目標音声区間を抽出し、前記目標音声区間の対数振幅スペクトルを取得し、前記対数振幅スペクトルに基づいて前記サンプル音声信号の2次元時間周波数領域の特徴である第2特徴を確定するステップと、前記第1特徴と前記第2特徴とを組み合わせて、第3特徴を得るステップと、前記第3特徴を使用してトレーニングされていない分類器をトレーニングし、トレーニング済みの分類器を得るステップと、認識対象音声信号の認識対象第3特徴を取得し、前記トレーニング済みの分類器により前記認識対象第3特徴を分類することにより、前記認識対象第3特徴に前記接頭語が含まれるか否かを確定するステップと、を含む。
【0007】
本願の一態様によれば、音声認識装置を提供する。前記音声認識装置は、サンプル音声信号を取得し、前記サンプル音声信号をデコードし、デコード結果を得て、前記デコード結果から前記サンプル音声信号の接頭語情報を含む第1特徴を抽出するための第1特徴取得モジュールと、前記サンプル音声信号から目標音声区間を抽出し、前記目標音声区間の対数振幅スペクトルを取得し、前記対数振幅スペクトルに基づいて前記サンプル音声信号の2次元時間周波数領域の特徴である第2特徴を確定するための第2特徴取得モジュールと、前記第1特徴と前記第2特徴とを組み合わせて、第3特徴を得るための第3特徴取得モジュールと、前記第3特徴を使用してトレーニングされていない分類器をトレーニングし、トレーニング済みの分類器を得るための分類器トレーニングモジュールと、認識対象音声信号の認識対象第3特徴を取得し、前記トレーニング済みの分類器により前記認識対象第3特徴を分類することにより、前記認識対象第3特徴に前記接頭語が含まれるか否かを確定するための分類器認識モジュールと、を含む。
【0008】
本願の一態様によれば、コンピュータプログラムが記憶されたコンピュータ読み取り可能な記録媒体を提供し、前記プログラムがプロセッサーによって実行される場合、上記の音声認識方法を実現する。
【0009】
本願の一態様によれば、電子機器を提供する。前記電子機器は、プロセッサーと、1つ又は複数のプログラムを記憶するためのメモリと、を含み、1つ又は複数のプログラムがプロセッサーにより実行される場合、上記の音声認識方法を前記プロセッサーに実現させる。
【0010】
本発明が提供する技術案によれば、下記のような有益な効果を含むことができる。
本願の例示的な実施例に係る音声認識方法及び装置、記録媒体及び電子機器は、接頭語を認識できるトレーニング済みの分類器を得るように、接頭語情報及び2次元時間周波数領域の特徴をサンプル音声信号の特徴として抽出するとともに、分類器をトレーニングし、認識対象音声信号に接頭語が含まれるか否かを確定するようにこのトレーニング済みの分類器により認識対象音声信号を認識する一方で、この音声認識方法は、共通のコーパスを大量にトレーニングする必要がなくなり、アルゴリズムの複雑さを低減する。また、新たな信号の2次元時間周波数領域の特徴を提供することにより、音声信号の時間軸及び周波数軸の2つの方向に対して統計的にモデリングし、短い単語に対する認識の特定のシーンについて、リアルな表現方式におけるフレーズのスティッキング現象、環境ノイズ及び遠距離などの影響を低減することにより、短い単語に対する認識の精度を向上させることができる。さらに、接頭語を含む短い単語に対する認識の精度がより高い音声認識方法を提供する。
【0011】
なお、前記一般的な記載及び後述の詳細な記載は、単なる例示的で解釈的な記載であり、本発明を限定しない。
【0012】
以下の図面は、明細書に組み入れて本明細書の一部分を構成し、本願に該当する実施例を例示するとともに、明細書とともに本発明の原理を解釈する。なお、以下の記載における図面は、ただ本願の一部の実施例に過ぎない。当業者は、創造的な労働を付与しない前提で、これらの図面によって他の図面を得ることができる。
【図面の簡単な説明】
【0013】
【
図1】本願の例示的な実施形態による音声認識方法を模式的に示すフローチャートである。
【
図2】本願の例示的な実施形態による音声認識方法のステップを模式的に示すフローチャートである。
【
図3】本願の例示的な実施形態による音声認識方法における第1特徴を模式的に示すブロック図である。
【
図4】本願の例示的な実施形態による音声認識方法における第2特徴を取得するステップを模式的に示すフローチャートである。
【
図5】本願の例示的な実施形態による音声認識装置を模式的に示すブロック図である。
【
図6】本願の例示的な実施形態による電子機器のモジュールを模式的に示す模式図である。
【
図7】本願の例示的な実施形態によるプログラム製品を模式的に示す模式図である。
【発明を実施するための形態】
【0014】
以下、図面を参照しながら、例示的な実施例をより全面的に説明する。ただし、例示的な実施例は複数種類の形態で実施することができ、ここに記述する実施例に限定されないことを理解すべきである。逆に、これらの実施例を提供することで、本発明がさらに全面で完全になるとともに、例示的な実施例の思想を全面で当業者に伝達する。図中の同じ符号は、同じ又は類似する構造を示しているので、それらの詳細な説明を省略する。
【0015】
本明細書において、例えば「上」や「下」などの相対的な用語は、図面に示された一つの構成と他の構成との間の相対的な関係を説明するために使用されるが、これらの用語は、単に説明の便宜上のものであり、例えば、図面に示す例示の方向によるものである。図面に示す装置を反転させてその上下が逆になる場合、前記「上」に位置する構成が「下」に位置する構成になることを理解できる。例えば「高」や「低」や「頂」や「底」や「左」や「右」などの他の相対的な用語も同様の意味を持つ。ある一つの構造が他の構造の「上」に位置する場合、ある一つの構造が他の構造の上に一体的に形成されたり、ある一つの構造が他の構造の上に「直接的」に配置されたり、別の構造により他の構造に「間接的」に配置されたりすることを意味する可能性がある。
【0016】
「1つ」、「一」及び「前記」という用語は、1つ又は複数の要素/構成要素/などが存在していることを示すために使用されるものである。「含む」及び「備える」という用語は、開放式に含まれることを意味し、且つ、列挙された要素/構成要素以外の要素/構成要素/などをさらに含むことを意味する。
【0017】
人間がコミュニケーションのために使用する言語には、通常、音声及び文字の2つの表現方式を含む。情報技術の発展に伴い、人と機械との間でも大量の情報を交換する必要があるので、現在、人間が情報を交換するプロセスをコンピュータでシミュレートすることが既に始まっている。
【0018】
具体的に、人間が情報を交換するプロセスは、以下のステップを含む:1、自然言語の生成:脳により生成された思想を言語に変換する;2、音声の合成:言語を音声に変換する;3、音声の認識:表現言語の音声内容を認識する;4、自然言語の理解:音声で表現される言語の意味を理解する。その中、最初の2点は、話者により実行されるプロセスであり、その後の2点は、聞き手により実行されるプロセスである。ここで、音声認識は、上記のプロセスにおける「表現言語の音声内容を認識する」であり、機器にとっては、人間が話している音声を認識するとともに、それを文字に変換することである。
【0019】
音声認識は、パターン認識システムであり、音声認識は、主に以下のステップを含む:1、言語の入力;2、前処理;3、特徴の抽出、2つの分岐としてそれぞれ4のトレーニングクラスタ及び5~7の認識操作に進む。その中、5は、テンプレートライブラリの参照パターンを使用して類似度の比較を実行する。6は、認識の実行過程において5の結果に対して歪み検出を行った後、7に進む。7は、認識結果を出力する。
【0020】
上記の前処理部分は、音声信号のサンプリングやフィルタなどの処理を含み、特徴を抽出する作用は、トレーニング及び認識を容易にするために、音声信号からエネルギー、フォルマント、ケプストラム係数などの信号特徴を説明できるいくつかのグループのパラメータを抽出することである。音声認識システムを構築する過程は、まず多数の音声をトレーニングしてテンプレートライブラリを得た後、テンプレートライブラリからテンプレートを読み取り、それと認識対象の音声との類似度を比較して、認識結果を得る。
【0021】
音声認識技術において、音響モデル及び言語モデルは、自動音声認識技術の基盤である。音響モデルは、音信号から「音」を認識するためのものであるが、言語モデルは、音を「単語」に変換するためのものである。不特定の大語彙連続音声認識は、大語彙音響及びテキスト用トレーニングコーパスに依存する。良好な性能を達成するために、トレーニング過程における音響モデルは、実際の応用シナリオにおいて異なる種類のアクセントや、ノイズや、トーンの変化や、チャネル伝送の圧縮や、歪みなどに適応させる必要がある。言語モデルは、異なる分野の固有名詞や用語などに適応させる必要がある。
【0022】
しかしながら、従来の孤立語や命令語に対する認識技術は、短い単語の認識に関連するが、このような認識技術は、通常、限られたデコード検索空間を使用するので、不特定の大語彙連続音声認識の応用シナリオには適用できない。大語彙連続音声認識フレームワークにおいて、「はい/いいえ」、「正しい/正しくない」、「買った/買わなかった」などの短い単語に対する認識は、特定の最適化を欠如している。また、このような短い単語の割合が少なく、大語彙コーパスでモデルを再トレーニングするための人力コストと時間コストが両方とも高く、また認識の改善効果は明らかではない。
【0023】
上記の問題に鑑みて、本願の例示的な実施形態は、様々な業務分野や応用シナリオで頻繁に現れる短い単語に対する認識の精度の問題を改善するために、音声認識方法及び装置を提供する。この音声認識方法及び装置は、携帯電話やパソコンなどの様々な機器に広く応用されており、本例示的な実施形態は、本願の実施形態で具体的に使用される機器を限定するものではない。
【0024】
図1は、本願の例示的な実施形態に係る音声認識方法を模式的に示すフローチャートである。
図1を参照すると、音声認識方法は、以下のステップを含むことができる。
【0025】
ステップS110において、サンプル音声信号を取得し、サンプル音声信号をデコードし、デコード結果を得て、デコード結果からサンプル音声信号の接頭語情報を含む第1特徴を抽出する。
【0026】
本願の例示的な実施形態において、サンプル音声信号は、分類器がトレーニングを行うための信号サンプルである。この信号サンプルは、接頭語を含む連続した長い音声信号又は短い音声信号であってもよく、接頭語を含まない連続した長い音声信号又は短い音声信号であってもよい。デコード結果に接頭語が含まれる場合、接頭語情報は1であり、デコード結果に接頭語が含まれない場合、接頭語情報は0である。
【0027】
実際の応用において、接頭語は、「いいえ」、「ない」などであってもよく、他の単語であってもよく、本例示的な実施形態に提供される音声認識方法は、いずれかの接頭語を含む短い単語に対しても認識可能である。このため、本願の例示的な実施形態は、具体的な接頭語を特に限定するものではない。
【0028】
本願の例示的な実施形態において、取得されたサンプル音声信号をデコードする過程において、従来のトレーニング済みの音響モデル及びトレーニング済みの言語モデルによりデコードすることができる。通常、デコード後、複数のデコード候補結果が得られる。
【0029】
認識結果の正確性を向上させるために、本例示的な実施形態において、精度を考慮しながら複雑度を低減するために、デコード候補結果のうち上位3つの候補結果をデコード結果として抽出することができる。
【0030】
実際の応用において、実際のニーズに応じて上位2つ又は上位4つの候補結果を抽出することもできるが、この例示的な実施形態は、これに対して限定しない。
【0031】
候補結果については、サンプル音声信号である「京東」を例とすると、デコード後の候補結果は、マッチング度に従って「Jingdong」、「Dingdong」、「Didong」などの順にランク付けされる可能性があるので、これらの3つの単語をデコード結果として第1特徴を抽出する。
【0032】
本願の例示的な実施形態において、デコード結果から第1特徴を抽出するステップは、具体的に、接頭語情報を取得し、デコード結果における音響モデルのスコア及び言語モデルのスコアを取得し、音響モデルのスコア及び言語モデルのスコアを正規化し、正規化後の音響モデルのスコア及び正規化後の言語モデルのスコアを第1特徴として得るステップを含むことができる。ここで、スコアとは、デコード結果に1つの単語が出現する確率を指し、出現する確率が高いほどスコアが高く、この文字であると認識される可能性が高いことも示される。
【0033】
正規化後の音響モデルのスコア、正規化後の言語モデルのスコア及び接頭語情報を含む第1特徴を取得することにより、この第1特徴により接頭語を含み又は接頭語を含まないサンプル音声信号を予備的に特徴付けることができる。
【0034】
本例示的な実施形態において、音響モデルのスコア及び言語モデルのスコアを正規化するステップは、具体的に、音響モデルのスコアを最適デコード結果における音響モデルのスコアで除算し、正規化後の音響モデルのスコアを得て、言語モデルのスコアを最適デコード結果における言語モデルのスコアで除算し、正規化後の言語モデルのスコアを得るステップを含むことができる。ここで、最適デコード結果は、デコード候補結果において第1位にランク付けされる候補結果である。正規化により音響モデルのスコア及び言語モデルのスコアを0~1区間内に統合することができる。
【0035】
なお、デコード結果から第1特徴を抽出する前に、本願の例示的な実施形態に提供される音声認識方法は、接頭語Aを含む敏感語集合Ω={AB,B,AC,C,…}をさらに確定する必要があり、ここで、B、Cは、Aと組み合わせるよく見かけるフレーズを表す。例えば、「いいえ」に対して、B、Cは、通常、「いる」、「はい」、「正しい」などである。デコード結果に敏感語集合Ωのうちのいずれか1つの要素が含まれる場合、デコード結果から第1特徴を抽出する。
【0036】
ステップS120において、サンプル音声信号から目標音声区間を抽出し、目標音声区間の対数振幅スペクトルを取得する。対数振幅スペクトルに基づいてサンプル音声信号の2次元時間周波数領域の特徴である第2特徴を確定する。
【0037】
実際の応用において、ステップS110におけるデコード結果に敏感語集合Ωのうちのいずれか1つの要素が含まれる場合、このデコード結果における時間情報に基づいて、上記の要素に対応する時間開始点及び時間終了点を確定することができる。また、この対応する時間開始点及び時間終了点に基づいて、サンプル音声信号からこの時間開始点とこの時間終了点との間の音声区間を目標音声区間、即ち、敏感語集合Ωのうちのいずれか1つの要素を含む目標音声区間として抽出することができる。
【0038】
本願の例示的な実施形態において、目標音声区間を予め設定された個数tのサブ区間にさらに分割し、サブ区間毎に予め設定されたポイント数fの短時間フーリエ変換を行うことにより、音声スペクトログラムを得ることができる。これにより、1次元信号を2次元グラムに変換し、例えば、t=120且つf=128である場合、得られた音声スペクトログラムは、120*128の2次元グラムである。短い単語の目標音声区間については、その時間区間自体が非常に短く、t個のサブ区間にさらに分割された後、各サブ区間内の信号は安定している傾向があるので、短時間フーリエ変換を採用することにより、分解能の要求を満たしながら計算効率を向上させることができる。
【0039】
なお、上記の短時間フーリエ変換のフレーム長、ウィンドウタイプ及びフレームシフトは、抽出された第1特徴及び第2特徴で特徴付けられる情報の整合性を保証できるために、デコード時に採用されるフレーム長、ウィンドウタイプ及びフレームシフトと一致する必要がある。
【0040】
次に、音声スペクトログラムの対数振幅スペクトルをプロットすることができ、分析及び計算を容易にするために、対数振幅スペクトルを0から1の区間に正規化し、正規化対数振幅スペクトルY(t,f)を得て、さらに、この正規化対数振幅スペクトルY(t,f)から第2特徴を抽出する必要がある。
【0041】
本例示的な実施形態において、時間方向において、正規化対数振幅スペクトルY(t,f)から第2特徴を抽出するステップは、具体的に、正規化対数振幅スペクトルY(t,f)を複数のサブバンドに分割し、サブバンドのエネルギーを時間方向に平滑化し、式(1)に示すように、時間的に平滑化されたサブバンドのエネルギー値PT(t,f)を得るステップを含むことができる。
【0042】
【0043】
ここで、時間的に平滑化されたサブバンドのエネルギー値PT(t,f)は、現在時刻におけるサブバンドのエネルギー及び隣接する時刻におけるサブバンドのエネルギーを平滑化して得られるものであり、例えば、現在時刻におけるサブバンドのエネルギー及び隣接する時刻におけるサブバンドのエネルギーを平均化することにより、時間的に平滑化されたサブバンドのエネルギー値を得ることができる。式(1)で選択された隣接する時刻は、現在時刻の直前2つの時刻及び直後2つの時刻におけるサブバンドのエネルギーである。サブバンドのエネルギーは、正規化対数振幅スペクトルY(t,f)の共役複素数Y(t+i,f)とY*(t+i,f)との積である。
【0044】
上記のサブバンドのエネルギーを平滑化することにより、環境ノイズの影響を抑える一方で、より安定したバンドエネルギーの変化特性を得ることができる。
【0045】
本例示的な実施形態において、時間的に平滑化されたサブバンドのエネルギー値PT(t,f)を得た後、時間的に平滑化されたサブバンドのエネルギー値PT(t,f)に基づいて、式(2)に示すように、サブバンドのエネルギーの時間ホッピング比rT(t,f)を算出することができる。
【0046】
【0047】
ここで、サブバンドのエネルギーの時間ホッピング比rT(t,f)は、予め設定された時刻に対応する時間的に平滑化されたサブバンドのエネルギー値PT(t+5,f)と現在時刻に対応する時間的に平滑化されたサブバンドのエネルギー値PT(t,f)との商である。
【0048】
実際の応用において、予め設定された時刻は、実際の状況に応じて確定されてもよく、例えば、予め設定された時刻と現在時刻との間に5つの時刻を置く場合が挙げられるが、本願の例示的な実施形態は、これに対して限定しない。
【0049】
接頭語と後続語との間に短い時間間隔が存在することが多いので、tが間隔領域にある場合、PT(t,f)が小さく、これにより、時間ホッピング比の値は大きくなる。このため、時間ホッピング比の最大値を計算することにより、サブバンドに短い時間間隔が含まれるか否かを効果的に見つけることができる。
【0050】
短い時間間隔の重要な特徴の一つは、各サブバンドのtがほぼ等しいことである。このため、各時刻tに対応する複数のサブバンドのエネルギーの時間ホッピング比rT(t,f)を平均化して、時刻tに対応するフルバンドの時間ホッピング比
【0051】
【0052】
を得ることができる。
短い単語に短い時間間隔が存在する場合、一つの明らかな特徴は、抽出される時間範囲内に接頭語の有無の参照特徴として大きな値が存在してもよいことである。これに基づいて、Nが総フレーム数である{rT(1),rT(2),…,rT(N)}を得るとともに、上記の集合における{最大値,平均値,標準偏差}、即ち時間ホッピング比の最大値、時間ホッピング比の平均値及び時間ホッピング比の標準偏差を統計することができる。そして、複数の時刻に対応する複数のフルバンドの時間ホッピング比rT(t)から取得される時間ホッピング比の最大値、時間ホッピング比の平均値及び時間ホッピング比の標準偏差を第2特徴とすることができる。
【0053】
同様に、周波数方向において、正規化対数振幅スペクトルY(t,f)から第2特徴を抽出するステップは、具体的に、サブバンドのエネルギーを周波数方向に平滑化して、式(3)に示すように、周波数で平滑化されたサブバンドのエネルギー値PF(t,f)を得るステップを含むことができる。
【0054】
【0055】
ここで、周波数で平滑化されたサブバンドのエネルギー値PF(t,f)は、現在の周波数でのサブバンドのエネルギー及び隣接する周波数でのサブバンドのエネルギーを平滑化して得られたものであり、例えば現在の周波数でのサブバンドのエネルギー及び隣接する周波数でのサブバンドのエネルギーを平均化することにより、周波数で平滑化されたサブバンドのエネルギー値を得ることができる。式(3)で選択された隣接する周波数は、現在の周波数の直前2つの周波数及び直後の2つの周波数でのサブバンドのエネルギーである。サブバンドのエネルギーは、正規化対数振幅スペクトルY(t,f)の共役複素数Y(t,f+i)とY*(t,f+i)との積である。
【0056】
上記のサブバンドのエネルギーを平滑化することにより、環境ノイズの影響を抑える一方で、より安定したバンドエネルギーの変化特性を得ることができる。
【0057】
本例示的な実施形態において、周波数で平滑化されたサブバンドのエネルギー値PF(t,f)を得た後、周波数で平滑化されたサブバンドのエネルギー値PF(t,f)に基づいて、式(4)に示すように、サブバンドのエネルギーの周波数ホッピング比rF(t,f)を算出することができる。
【0058】
【0059】
ここで、サブバンドのエネルギーの周波数ホッピング比rT(t,f)は、予め設定された周波数に対応する周波数で平滑化されたサブバンドのエネルギー値PF(t,f+5)と現在の周波数に対応する周波数で平滑化されたサブバンドのエネルギー値PF(t,f)との商である。
【0060】
実際の応用において、予め設定された周波数は、実際の状況に応じて確定されてもよく、例えば、予め設定された周波数と現在の周波数との間に5つの周波数を置く場合が挙げられるが、本願の例示的な実施形態は、これに対して限定しない。
【0061】
接頭語と後続語との間に短い時間間隔が存在することが多いので、tが間隔領域にある場合、無音領域に位置するので、各バンド間の能力差が小さく、これにより、サブバンドのエネルギーの周波数ホッピング比rF(t,f)の値が小さい。逆に、音声区間において、サブバンドのエネルギーの周波数ホッピング比rF(t,f)は、より大きな値である。
【0062】
依然として各時刻tに対応する複数のサブバンドのエネルギーの周波数ホッピング比rF(t,f)を平均化して、時刻tに対応するフルバンドの周波数ホッピング比
【0063】
【0064】
を得る。
短い単語に短い時間間隔が存在する場合、もう一つの明らかな特徴は、小さいrF(t,f)が存在することである。これに基づいて、Nが総フレーム数である{rF(1),rF(2),…,rF(N)}を得るとともに、上記の集合における{最小値,平均値,標準偏差}、即ち周波数ホッピング比の最小値、周波数ホッピング比の平均値及び周波数ホッピング比の標準偏差を統計することができる。そして、複数の時刻に対応する複数のフルバンドの周波数ホッピング比rF(t)から取得される周波数ホッピング比の最小値、周波数ホッピング比の平均値及び周波数ホッピング比の標準偏差を第2特徴とすることができる。
【0065】
これにより、サンプル音声信号の2次元時間周波数領域の特徴である第2特徴、即ち時間ホッピング比の最大値、時間ホッピング比の平均値、時間ホッピング比の標準偏差、周波数ホッピング比の最小値、周波数ホッピング比の平均値及び周波数ホッピング比の標準偏差の全てを得る。
【0066】
ステップS130において、第1特徴と第2特徴とを組み合わせて、第3特徴を得る。
本例示的な実施形態において、第1特徴は、正規化後の音響モデルのスコア、正規化後の言語モデルのスコア及び接頭語情報を含む。第2特徴は、時間ホッピング比の最大値、時間ホッピング比の平均値、時間ホッピング比の標準偏差、周波数ホッピング比の最小値、周波数ホッピング比の平均値及び周波数ホッピング比の標準偏差を含む。上記の9つの特徴を組み合わせて第3特徴とする。実際の応用において、第3特徴は、ベクトルとして表すことができる。
【0067】
ステップS140において、第3特徴によりトレーニングされていない分類器をトレーニングして、トレーニング済みの分類器を得る。
【0068】
本例示的な実施形態において、第3特徴によりトレーニングされていない単純ベイズ分類器をトレーニングして、トレーニング済みの単純ベイズ分類器を得る。ここで、この単純ベイズ分類器は、ガウス分布に基づく単純ベイズ分類器であってもよい。単純ベイズ分類器の複雑さが低いので、第3特徴のトレーニングの要求を満たす場合に、トレーニングの効率を向上させることができ、音声認識用の音響モデル及び言語モデルを再トレーニングする必要がなくなるという目的を達成するとともに、短い単語に対する認識の精度を向上させることができる。ここでは具体的なトレーニング方法については説明を省略する。
【0069】
ステップS150において、認識対象音声信号の認識対象第3特徴を取得し、トレーニング済みの分類器により認識対象第3特徴を分類することにより、認識対象第3特徴に接頭語が含まれるか否かを確定する。
【0070】
認識(Recognition)は、通常、認識対象音声信号をトレーニングと同様に分析して、音声パラメータ、即ち認識対象第3特徴を得るとともに、この認識対象第3特徴をトレーニング済みの単純ベイズ分類器に入力して、認識対象第3特徴に接頭語が含まれるか否かという判別結果を得る。
【0071】
以上のように、本願の例示的な実施形態に係る音声認識方法は、接頭語情報及び2次元時間周波数領域の特徴をサンプル音声信号の第3特徴として抽出するとともに、単純ベイズ分類器をトレーニングすることにより、接頭語を認識できるトレーニング済みの単純ベイズ分類器を得て、このトレーニング済みの単純ベイズ分類器により認識対象音声信号を認識することにより、認識対象音声信号に接頭語が含まれるか否かを確定する。一方で、単純ベイズ分類器の複雑さが低いので、第3特徴のトレーニングの要求を満たす場合に、トレーニングの効率を向上させることができ、音声認識用の音響モデル及び言語モデルを再トレーニングする必要がなくなるという目的を達成する。また、新たな信号の2次元時間周波数領域の特徴を提供することにより、音声信号の時間軸及び周波数軸の2つの方向に対して統計的にモデリングし、短い単語に対する認識の特定のシーンについて、リアルな表現方式におけるフレーズのスティッキング現象、環境ノイズ及び遠距離などの影響を低減することにより、短い単語に対する認識の精度を向上させることができる。さらに、本願の例示的な実施形態は、接頭語を含む短い単語に対する認識の精度がより高い音声認識方法を提供する。
【0072】
以下、
図2を参照しながら本願の例示的な実施形態に係る音声認識方法の流れについて説明する。
【0073】
ステップS201において、サンプル音声信号を取得する。ステップS202において、サンプル音声信号をデコードし、デコード結果を得る。ステップS203において、判断条件に入り、デコード結果に敏感語集合のうちのいずれか1つの要素が含まれるか否かを判断し、この敏感語集合には、接頭語が含まれる。そうではない場合、終了する。そうである場合、即ち敏感語集合の要素が存在する場合、ステップS204を実行し、デコード結果から第1特徴を抽出する。また、ステップS205を実行し、敏感語集合の要素に対応する時間開始点及び時間終了点を確定して、単に時間開始終了点と呼ぶ。ステップS206において、時間開始終了点に基づいて目標音声区間を取得する。さらに、ステップS207を実行し、目標音声区間に対して短時間フーリエ変換を行うことにより、対数振幅スペクトルを得る。そして、ステップS208を実行し、対数振幅スペクトルを正規化し、正規化対数振幅スペクトルを得る。そして、ステップS209を実行し、正規化対数振幅スペクトルから2次元時間周波数領域の特徴を第2特徴として取得する。ステップS210において、第1特徴と第2特徴とを組み合わせて、第3特徴を得る。ステップS211において、第3特徴によりトレーニングされていない単純ベイズ分類器をトレーニングし、トレーニング済みの単純ベイズ分類器を得る。ステップS212において、トレーニング済みの単純ベイズ分類器により認識対象音声信号の認識対象第3特徴を分類することにより、認識対象第3特徴に接頭語が含まれるか否かを確定し、単に「認識対象音声信号に接頭語が含まれるか否かを認識する」と呼ぶ。
【0074】
ここで、
図3に示すように、第1特徴300は、正規化後の音響モデルのスコア310、正規化後の言語モデルのスコア320及び接頭語情報330を含む。
図4は、正規化対数振幅スペクトルから2次元時間周波数領域の特徴を第2特徴として取得する過程を示し、即ち、第2特徴の取得過程は、以下の通りである。
【0075】
ステップS401において、正規化対数振幅スペクトルを取得する。ステップS402において、正規化対数振幅スペクトルから時間的に平滑化されたサブバンドのエネルギー値を取得する。そして、ステップS403において、時間的に平滑化されたサブバンドのエネルギー値に基づいて、サブバンドのエネルギーの時間ホッピング比を計算する。ステップS404において、正規化対数振幅スペクトルから周波数で平滑化されたサブバンドのエネルギー値を取得する。そして、ステップS405において、周波数で平滑化されたサブバンドのエネルギー値に基づいて、サブバンドのエネルギーの周波数ホッピング比を計算する。最後に、ステップS406において、サブバンドのエネルギーの時間ホッピング比から時間ホッピング比の最大値、時間ホッピング比の平均値及び時間ホッピング比の標準偏差を取得し、それぞれサブバンドのエネルギーの周波数ホッピング比から周波数ホッピング比の最小値、周波数ホッピング比の平均値及び周波数ホッピング比の標準偏差を前記第2特徴として取得する。
【0076】
なお、図面において、本願における方法の様々なステップは、所定の順序で説明されているが、これは、所望の結果を実現するために、これらのステップがこの所定の順序で実行されなければならないこと、又は示された全てのステップが実行されなければならないことを必要とせず、又は暗示しない。追加的に又は代替的に、いくつかのステップは省略されてもよく、複数のステップが1つのステップとして併合されて実行されてもよく、及び/又は1つのステップが複数のステップに分解されて実行されてもよい。
【0077】
さらに、本例示的な実施形態は、音声認識装置をさらに提供する。
図5は、本願の例示的な実施形態に係る音声認識装置を模式的に示すブロック図である。
図5を参照すると、本願の例示的な実施形態による音声認識装置500は、第1特徴取得モジュール510、第2特徴取得モジュール520、第3特徴取得モジュール530、分類器トレーニングモジュール540、分類器認識モジュール550を含むことができる。
【0078】
具体的に、第1特徴取得モジュール510は、サンプル音声信号を取得し、サンプル音声信号をデコードし、デコード結果を得て、デコード結果からサンプル音声信号の接頭語情報を含む第1特徴を抽出するために用いられることができる。第2特徴取得モジュール520は、サンプル音声信号から目標音声区間を抽出し、目標音声区間の対数振幅スペクトルを取得し、対数振幅スペクトルに基づいてサンプル音声信号の2次元時間周波数領域の特徴である第2特徴を確定するために用いられることができる。第3特徴取得モジュール530は、第1特徴と第2特徴とを組み合わせて、第3特徴を得るために用いられることができる。分類器トレーニングモジュール540は、第3特徴によりトレーニングされていない分類器をトレーニングして、トレーニング済みの分類器を得るために用いられることができる。分類器認識モジュール550は、認識対象音声信号の認識対象第3特徴を取得し、トレーニング済みの分類器により認識対象第3特徴を分類することにより、認識対象第3特徴に接頭語が含まれるか否かを確定するために用いられることができる。
【0079】
本願の実施形態に係る音声認識装置の各機能モジュールは、上記の方法の実施形態と同じであるので、ここでは説明を省略する。
【0080】
以上の実施形態の説明によって、当業者は、本明細書に記載される例示的な実施形態がソフトウェアにより実現されてもよいこと、ソフトウェアと必要なハードウェアを結合することにより実現されてもよいことを容易に理解することができる。したがって、本願の実施形態に係る技術案は、ソフトウェア製品の形態で体現されてもよく、当該ソフトウェア製品は、1つの不揮発性記録媒体(CD-ROM、USBデバイス、モバイルハードディスク等であってもよい)又はネットワークに記憶されてもよく、本願の実施形態に係る方法を計算機器(パーソナルコンピュータ、サーバー、端末装置又はネットワーク機器等であってもよい)に実行させるいくつかの指令を含む。
【0081】
なお、上記の図面は、本願の例示的な実施例による方法に含まれる処理を模式的に説明するものに過ぎず、目的を制限するものではない。なお、上記の図面に示した処理は、その時間的順序を図示又は限定するものではない。なお、これらの処理が例えば、複数のモジュールにおいて同期又は非同期に実行されることも容易に理解するべきである。
【0082】
なお、以上の詳細な説明では、動作を実行するための機器のいくつかのモジュール及びユニットを説明したが、このような区分は、強制的なものではない。実際には、本願の実施形態によれば、上述した2つ以上のモジュール及びユニットの特徴及び機能は、1つのモジュール及びユニットで具体化されてもよい。逆に、上述した1つのモジュール及びユニットの特徴及び機能は、複数のモジュール及びユニットによりさらに具体化されてもよい。
【0083】
本願の例示的な実施例において、上記の方法を実現できる電子機器をさらに提供する。
当業者は、本発明の様々な態様が、システム、方法、又はプログラム製品として実現され得ることを理解するであろう。したがって、本発明の各態様は、完全なハードウェア実装形態、完全なソフトウェア実装形態(ファームウェア、マイクロコードなどを含む)、またはハードウェアとソフトウェアの組み合わせ実装形態として具現化されてもよく、ここで、「回路」、「モジュール」、または「システム」と総称されてもよい。
【0084】
以下、
図6を参照しながら本発明のこのような実施形態による電子装置600を説明する。
図6に示される電子機器600は、単なる一例に過ぎず、本発明の実施例の機能及び使用範囲に何ら制限を課すものではない。
【0085】
図6に示すように、電子機器600は、汎用コンピューティングデバイスの形態で表現される。電子デバイス600の構成要素は、上述した少なくとも1つの処理ユニット610、上述した少なくとも1つの記憶ユニット620、異なるシステム構成要素(記憶ユニット620と処理ユニット610とを含む)を接続するバス630、表示ユニット640を含むことができるが、これらに限定されない。
【0086】
ここで、前記記憶ユニット620は、前記処理ユニット610によって実行可能なプログラムコードを記憶し、本明細書の上記の「例示的な方法」の項において説明された本発明の様々な例示的な実施形態に係るステップを前記処理ユニット610に実行させる。例えば、前記処理ユニット610は、
図1に示されるステップS110を実行することができ、サンプル音声信号を取得し、サンプル音声信号をデコードし、デコード結果を得て、デコード結果からサンプル音声信号の接頭語情報を含む第1特徴を抽出する。ステップS120において、サンプル音声信号から目標音声区間を抽出し、目標音声区間の対数振幅スペクトルを取得する。対数振幅スペクトルに基づいてサンプル音声信号の2次元時間周波数領域の特徴である第2特徴を確定する。ステップS130において、第1特徴と第2特徴とを組み合わせて、第3特徴を得る。ステップS140において、第3特徴によりトレーニングされていない分類器をトレーニングして、トレーニング済みの分類器を得る。ステップS150において、認識対象音声信号の認識対象第3特徴を取得し、トレーニング済みの分類器により認識対象第3特徴を分類することにより、認識対象第3特徴に接頭語が含まれるか否かを確定する。
【0087】
記憶ユニット620は、揮発性記憶ユニットの形態の読み取り可能な媒体を含んでもよく、例えば、ランダムアクセスメモリ(RAM)6201および/またはキャッシュメモリユニット6202であり、読み取り専用記憶ユニット(ROM)6203をさらに含んでもよい。
【0088】
記憶ユニット620は、1組(少なくとも1つ)のプログラムモジュール6205を有するプログラム/ユーティリティ6204を更に含んでもよく、オペレーティングシステム、1つ以上のアプリケーション、他のプログラムモジュール、及びプログラムデータを含むが、これらに限定されなく、これらの例の各々又は何らかの組み合わせには、ネットワーク環境の実装が含まれてもよい。
【0089】
バス630は、複数の種類のバス構造のうちの1つ以上を表すものであり得、メモリバスまたはメモリセルコントローラ、周辺バス、グラフィックスアクセラレーションポート、処理ユニット、または、複数の種類のバス構造のうちの任意のバス構造を使用するローカルバスを含む。
【0090】
電子デバイス600はまた、1つ以上の外部デバイス670(例えば、キーボード、ポインティングデバイス、ブルートゥース(登録商標)デバイス等)と通信してもよく、また、ユーザが電子デバイス600とインタラクションすることを可能にする1つ以上のデバイスと通信してもよく、及び/または、電子デバイス600が1つ以上の他のコンピューティングデバイスと通信することを可能にする任意のデバイス(例えば、ルータ、モデム等)と通信してもよい。この通信は、入出力(I/O)インターフェース650を介して行われ得る。また、電子デバイス600は、ネットワークアダプタ660を介して、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、及び/又はインターネット等の公衆ネットワーク等の1つ以上のネットワークと通信することもできる。図示するように、ネットワークアダプタ660は、バス630を介して電子デバイス600の他のモジュールと通信する。なお、図示しないが、他のハードウェア及び/又はソフトウェアモジュールが、電子デバイス600と共に使用されてもよく、これらには、マイクロコード、デバイスドライバ、冗長処理ユニット、外部ディスクアレイ、RAIDシステム、テープドライブ、及びデータバックアップ記憶システムなどが含まれるが、これらに限定されない。
【0091】
上記の実施形態に対する説明によって、当業者であれば、ここに記載された例示的な実施形態がハードウェアで実現されてもよいし、ソフトウェアと必要なハードウェアとを結合する方式によっても実現されてもよいことを容易に理解することができるであろう。このような理解によると、本願の実施形態に係る技術方案がソフトウェア製品の形式で表されるが、該ソフトウェア製品が不揮発性記憶媒体(CD-ROM、USBフラッシュメモリ、モバイルハードディスクなどであってもよい。)又はネットワークに記憶されることが可能であり、コンピュータ設備(パーソナルコンピュータ、サーバー、端末装置或いはネットワーク機器などであってもよい。)が本願の実施形態に記載の方法を実行するようにさせるためのいくつのコマンドを含む。
【0092】
本願の例示的な実施例において、上述した本明細書の上記の方法を具現するプログラム製品が記録されたコンピュータ読み取り可能な記録媒体をさらに提供される。いくつかの可能な実施形態では、本発明の各態様は、さらに、プログラム製品の形態で実施されてもよく、このプログラム製品は、端末装置上で実行されたときに、本明細書の上記の「例示的な方法」の節で説明された本発明の様々な例示的な実施形態によるステップを端末装置に実行させるためのプログラムコードを含む。
【0093】
図7に示すように、本発明の実施形態による上記の方法を実現するためのプログラム製品700を説明し、コンパクトディスク読み取り専用メモリ(CD-ROM)を使用し、プログラムコードを含み、端末機器、例えばパーソナルコンピュータで実行されることができる。しかしながら、本発明のプログラム製品は、これに限定されない。本願において、読み取り可能な記憶媒体は、プログラムを含む又は記憶する任意の有形媒体であってもよく、当該プログラムは、指令実行システム、装置又は部品により使用されてもよく、又は、それらに結合して使用されてもよい。
【0094】
前記プログラム製品は、1つ以上の読み取り可能な媒体の任意の組み合わせを利用し得る。読み取り可能な媒体は、読み取り可能な信号媒体または読み取り可能な記憶媒体であり得る。読み取り可能な記憶媒体は、例えば、これらに限定されないが、電気、磁気、光、電磁、赤外線、もしくは半導体のシステム、装置、もしくはデバイス、またはそれらの任意の組合せであり得る。読み取り可能な記憶媒体のより具体的な例(非網羅的なリスト)は、1つ以上のワイヤを有する電気接続、ポータブルディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能プログラマブルリードオンリーメモリ(EPROMまたはフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスクリードオンリーメモリ(CD-ROM)、光学記憶デバイス、磁気記憶デバイス、または上記の任意の適切な組み合わせを含む。
【0095】
コンピュータ読み取り可能な信号媒体は、ベースバンドで、又は搬送波の一部として伝搬されるデータ信号を含むことができ、その中にコンピュータ読み取り可能なプログラムコードが担持される。そのような伝搬されるデータ信号は、電磁信号、光信号、又は上記の任意の適切な組み合わせを含むがこれらに限定されない、様々な形態をとり得る。読み取り可能な信号媒体は、また、命令実行システム、装置、又はデバイスによって、又はそれらと関連して使用するためのプログラムを送信、伝搬、又は伝送し得る、読み取り可能な記録媒体以外の任意の読み取り可能な媒体であってもよい。
【0096】
読み取り可能な媒体に含まれるプログラムコードは、無線、有線、光ケーブル、RF等、又は上記の任意の適切な組み合わせを含むがこれらに限定されない、任意の適切な媒体を用いて伝送され得る。
【0097】
本発明の動作を実行するためのプログラムコードは、Java(登録商標)、C++などのオブジェクト指向プログラミング言語、および「C」言語などの従来の手続き型プログラミング言語、または同様のプログラミング言語を含む、1つまたは複数のプログラミング言語の任意の組み合わせで書かれてもよい。プログラムコードは、完全にユーザコンピューティングデバイス上で、部分的にユーザデバイス上で、スタンドアロンソフトウェアパッケージとして、部分的にユーザコンピューティングデバイス上で、リモートコンピューティングデバイス上で、または完全にリモートコンピューティングデバイスもしくはサーバ上で、実行され得る。リモートコンピューティングデバイスが関与する場合、リモートコンピューティングデバイスは、ローカルエリアネットワーク(LAN)またはワイドエリアネットワーク(WAN)を含む任意の種類のネットワークを通じてユーザコンピューティングデバイスに接続され得るか、または、(例えば、インターネットサービスプロバイダを用いてインターネットを通じて)外部コンピューティングデバイスに接続され得る。
【0098】
また、上述した図面は、本発明の例示的な実施例に係る方法に含まれる処理を模式的に説明するものに過ぎず、目的を制限するものではない。なお、上記の図面に示した処理は、その時間的順序を図示又は限定するものではない。また、これらの処理は、例えば、複数のモジュール間で同期的に実行されてもよいし、非同期的に実行されてもよい。
【0099】
当業者は、本明細書を考慮し、本明細書に開示された内容を実施することにより、本願の他の実施形態を容易に想到するであろう。本願は、本願に対する任意の変形、用途、又は適応的な変化を含み、このような変形、用途、又は適応的な変化は、本願の一般的な原理に従い、本願では開示していない本技術分野の公知技術、又は通常の技術手段を含む。明細書及び実施例は、単に例示的なものであって、本願の本当の範囲と要旨は、以下の特許請求の範囲によって示される。
【0100】
本願は、上記で記述され、図面で図示した特定の構成に限定されず、その範囲を離脱しない状況で、様々な修正や変更を実施してもよい。本願の範囲は、添付される特許請求の範囲のみにより限定される。