IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 三星電子株式会社の特許一覧

特許7173758個人化された音声認識方法及びこれを行うユーザ端末及びサーバ
<>
  • 特許-個人化された音声認識方法及びこれを行うユーザ端末及びサーバ 図1
  • 特許-個人化された音声認識方法及びこれを行うユーザ端末及びサーバ 図2
  • 特許-個人化された音声認識方法及びこれを行うユーザ端末及びサーバ 図3
  • 特許-個人化された音声認識方法及びこれを行うユーザ端末及びサーバ 図4
  • 特許-個人化された音声認識方法及びこれを行うユーザ端末及びサーバ 図5
  • 特許-個人化された音声認識方法及びこれを行うユーザ端末及びサーバ 図6
  • 特許-個人化された音声認識方法及びこれを行うユーザ端末及びサーバ 図7
  • 特許-個人化された音声認識方法及びこれを行うユーザ端末及びサーバ 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-11-08
(45)【発行日】2022-11-16
(54)【発明の名称】個人化された音声認識方法及びこれを行うユーザ端末及びサーバ
(51)【国際特許分類】
   G10L 15/07 20130101AFI20221109BHJP
   G10L 15/00 20130101ALI20221109BHJP
   G10L 15/30 20130101ALI20221109BHJP
   G10L 15/065 20130101ALI20221109BHJP
   G10L 15/14 20060101ALI20221109BHJP
【FI】
G10L15/07
G10L15/00 200A
G10L15/30
G10L15/065 A
G10L15/14 200Z
【請求項の数】 24
(21)【出願番号】P 2018101565
(22)【出願日】2018-05-28
(65)【公開番号】P2019035941
(43)【公開日】2019-03-07
【審査請求日】2021-03-30
(31)【優先権主張番号】10-2017-0103052
(32)【優先日】2017-08-14
(33)【優先権主張国・地域又は機関】KR
(73)【特許権者】
【識別番号】390019839
【氏名又は名称】三星電子株式会社
【氏名又は名称原語表記】Samsung Electronics Co.,Ltd.
【住所又は居所原語表記】129,Samsung-ro,Yeongtong-gu,Suwon-si,Gyeonggi-do,Republic of Korea
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100091214
【弁理士】
【氏名又は名称】大貫 進介
(72)【発明者】
【氏名】李 昊 潼
(72)【発明者】
【氏名】柳 尚 賢
【審査官】辻 勇貴
(56)【参考文献】
【文献】米国特許出願公開第2015/0269931(US,A1)
【文献】特開2016-102820(JP,A)
【文献】特開2011-203434(JP,A)
【文献】特開2006-215315(JP,A)
【文献】特開2003-122388(JP,A)
【文献】米国特許出願公開第2017/0069314(US,A1)
【文献】国際公開第2013/169232(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00-17/26
(57)【特許請求の範囲】
【請求項1】
ユーザ端末で実行される認識方法において、
ユーザから入力された基準音声信号に基づいて前記ユーザの音声に個人化された特性パラメータを決定するステップと、
前記ユーザから認識の対象となるターゲット音声信号が入力されるステップと、
前記ターゲット音声信号の認識結果を出力するステップと、
を含み、
前記ターゲット音声信号の認識結果は、前記特性パラメータ及び前記の認識のためのモデルに基づいて決定され
前記特性パラメータを決定するステップは、前記基準音声信号が前記ユーザ端末に入力されるときの環境情報に基づいて、前記特性パラメータをタイプごとに決定する、
認識方法。
【請求項2】
前記特性パラメータは、前記モデルに入力される前記ターゲット音声信号の特徴ベクトルに適用され、前記モデルから分類するためのクラス情報を含む、請求項1に記載の認識方法。
【請求項3】
前記特性パラメータは、前記ターゲット音声信号の特徴ベクトルを正規化するための正規化情報を含み、
前記ターゲット音声信号の認識結果は、前記モデルに入力される前記ターゲット音声信号の特徴ベクトルを、前記正規化情報に基づいて正規化することによって決定される、請求項1に記載の認識方法。
【請求項4】
前記特性パラメータは、前記ユーザの音声的な特徴を示す識別情報を含み、
前記ターゲット音声信号の認識結果は、前記モデルに前記ターゲット音声信号の特徴ベクトルと共に識別情報を入力することにより決定される、請求項1に記載の認識方法。
【請求項5】
前記特性パラメータは、前記モデルから分類するためのクラス情報を含み、
前記ターゲット音声信号の認識結果は、前記モデルにおいて前記ターゲット音声信号の特徴ベクトルから推定される値を前記クラス情報と比較することによって決定される、請求項1に記載の認識方法。
【請求項6】
前記環境情報は、前記基準音声信号に含まれるノイズ情報と、前記ユーザ端末から前記基準音声信号を発話したユーザまでの距離情報とのうち少なくとも一方を含む、請求項に記載の認識方法。
【請求項7】
前記ターゲット音声信号の認識結果は、前記基準音声信号が入力されるときの環境情報に基づいて、タイプごとに予め決定された特性パラメータのうち前記ターゲット音声信号が入力されるときの環境情報に基づいて選択された特性パラメータを用いて決定される、請求項に記載の認識方法。
【請求項8】
前記特性パラメータを決定するステップは、複数のユーザを基準として決定された基本パラメータに前記基準音声信号から取得した個人パラメータを反映することにより前記特性パラメータを決定する、請求項1に記載の認識方法。
【請求項9】
前記基準音声信号は、前記ターゲット音声信号が前記ユーザ端末に入力される以前に前記ユーザが前記ユーザ端末を用いることで前記ユーザ端末に入力された音声信号である、請求項1に記載の認識方法。
【請求項10】
前記ターゲット音声信号と前記特性パラメータをサーバに送信するステップと、
前記サーバから前記ターゲット音声信号の認識結果を受信するステップと、
を更に含み、
前記ターゲット音声信号の認識結果は前記サーバで生成される、請求項1に記載の認識方法。
【請求項11】
前記ターゲット音声信号の認識結果は前記ユーザ端末で生成される、請求項1に記載の認識方法。
【請求項12】
ユーザ端末に入力されたターゲット音声信号を認識するサーバの認識方法において、
ユーザから入力された基準音声信号に基づいて決定された前記ユーザの音声に個人化された特性パラメータを、前記ユーザ端末から受信するステップと、
認識の対象となる前記ユーザのターゲット音声信号を前記ユーザ端末から受信するステップと、
前記特性パラメータ及び前記の認識のためのモデルに基づいて、前記ターゲット音声信号を認識するステップと、
前記ターゲット音声信号の認識結果を前記ユーザ端末に送信するステップと、
を含み、
前記特性パラメータは、前記基準音声信号が前記ユーザ端末に入力されるときの環境情報に基づいて、タイプごとに予め決定される、
認識方法。
【請求項13】
前記特性パラメータは、前記ターゲット音声信号を正規化するための正規化情報、前記ユーザの音声的な特徴を示す識別情報、及び前記モデルから分類するためのクラス情報のうち少なくとも1つを含む、請求項12に記載の認識方法。
【請求項14】
前記特性パラメータは、前記ターゲット音声信号を正規化するための正規化情報を含み、
前記ターゲット音声信号を認識するステップは、前記ターゲット音声信号の特徴ベクトルを前記正規化情報に基づいて正規化し、前記モデルを用いて前記正規化された特徴ベクトルから前記認識結果を取得する、請求項12に記載の認識方法。
【請求項15】
前記特性パラメータは、前記ユーザの音声的な特徴を示す識別情報を含み、
前記ターゲット音声信号を認識するステップは、前記ターゲット音声信号の特徴ベクトルと共に前記識別情報を前記モデルに入力し、前記モデルから前記認識結果を取得する、請求項12に記載の認識方法。
【請求項16】
前記特性パラメータは、前記モデルから分類するためのクラス情報を含み、
前記ターゲット音声信号を認識するステップは、前記モデルにおいて前記ターゲット音声信号の特徴ベクトルから推定される値を前記クラス情報と比較することによって前記ターゲット音声信号を認識する、請求項12に記載の認識方法。
【請求項17】
前記特性パラメータは、前記タイプごとに予め決定された特性パラメータのうち前記ターゲット音声信号が前記ユーザ端末に入力されるときの環境情報に基づいて選択された特性パラメータである、請求項12に記載の認識方法。
【請求項18】
請求項1乃至請求項17のいずれか一項に記載の方法を実行させるためのプログラムが記録されたコンピュータ読取可能な記録媒体。
【請求項19】
プロセッサと、
前記プロセッサによって実行可能な少なくとも1つの命令語を含むメモリと、
を含む、ユーザ端末であって、
前記少なくとも1つの命令語が前記プロセッサで実行されると、前記プロセッサは、ユーザから入力された基準音声信号に基づいて前記ユーザの音声に個人化された特性パラメータを決定し、前記ユーザから認識の対象となるターゲット音声信号が入力され、前記ターゲット音声信号の認識結果を出力し、
前記ターゲット音声信号の認識結果は、前記特性パラメータ及び前記の認識のためのモデルに基づいて決定され
前記特性パラメータを決定することは、前記基準音声信号が前記ユーザ端末に入力されるときの環境情報に基づいて、前記特性パラメータをタイプごとに決定する、
ユーザ端末。
【請求項20】
個別ユーザの基準音声信号に基づいて前記個別ユーザの音声に個人化された特性パラメータを決定するステップと、
複数のユーザに対して決定された基本音声認識モデルに前記特性パラメータを適用して前記個別ユーザに個人化された音声認識モデルを取得するステップと、
前記個人化された音声認識モデルに前記個別ユーザのターゲット音声信号を適用して前記ターゲット音声信号の認識結果を取得するステップと、
を含み、
前記特性パラメータを決定するステップは、前記個別ユーザによって基準音声信号が入力されるごとに前記特性パラメータを累積して決定する、
音声認識方法。
【請求項21】
前記基準音声信号から前記個別ユーザに対して決定された個人パラメータを取得するステップと、
前記個人パラメータに第1加重値を適用して加重された個人パラメータを取得するステップと、
複数のユーザに対して決定された基本パラメータに第2加重値を適用して加重された基本パラメータを取得するステップと、
前記加重された個人パラメータを前記加重された基本パラメータに追加して前記特性パラメータを取得するステップと、
を更に含む、請求項20に記載の音声認識方法。
【請求項22】
前記基準音声信号及び前記ターゲット音声信号は、前記個別ユーザによってユーザ端末に入力される、請求項21に記載の音声認識方法。
【請求項23】
ユーザ端末において、個別ユーザによって前記ユーザ端末に入力された基準音声信号に基づいたパラメータを決定するステップと、
前記基準音声信号に基づいたパラメータ及び認識の対象となる前記個別ユーザのターゲット音声信号を前記ユーザ端末からサーバに送信するステップと、
前記ユーザ端末において、前記ターゲット音声信号の認識結果を前記サーバから受信するステップと、
を含み、
前記ターゲット音声信号の認識結果は、前記基準音声信号に基づいた前記パラメータ及び複数のユーザに対して決定された基本音声認識モデルに基づいて前記サーバで決定される、音声認識方法。
【請求項24】
前記基準音声信号に基づいたパラメータを決定するステップは、前記基準音声信号から前記個別ユーザに対して決定された個人パラメータを取得し、
前記送信するステップは、前記個人パラメータ及び前記ターゲット音声信号を前記ユーザ端末から前記サーバに送信し、
前記基準音声信号に基づいたパラメータは、前記サーバで前記個人パラメータに第1加重値を適用して加重された個人パラメータを取得し、基本パラメータに第2加重値を適用して加重された基本パラメータを取得し、前記加重された個人パラメータを前記加重された基本パラメータに追加して前記基準音声信号に基づいた前記パラメータを取得することにより取得される、請求項23に記載の音声認識方法。


【発明の詳細な説明】
【技術分野】
【0001】
本発明は、個人化された音声認識方法及びこれを行うユーザ端末及びサーバに関する。
【背景技術】
【0002】
音声インタフェースは、タッチインタフェースよりも自然かつ直観的なインタフェースである。そのため、音声インタフェースは、タッチインタフェースの短所を補完できる次世代インタフェースとして注目を浴びている。音声インタフェースにおいて最も肝心なことは、音声認識技術の正確性である。そのため、音声認識技術の正確性を高めるための様々な方式が提案されることにより音声認識技術は次第に発展している。
【発明の概要】
【発明が解決しようとする課題】
【0003】
本発明の目的は、基準音声信号に基づいてユーザの音声に個人化された特性パラメータを決定し、ターゲット音声信号の認識時に特性パラメータを音声認識モデルと共に利用することによって、個人化された音声認識を行うことにある。
【0004】
本発明の他の目的は、音声モデルを直接的に変更することなく、ユーザに個人化された音声認識を容易に実現することにある。
【課題を解決するための手段】
【0005】
一実施形態に係るユーザ端末で実行される認識方法は、ユーザから入力された基準音声信号に基づいてユーザの音声に個人化された特性パラメータを決定するステップと、ユーザから認識の対象となるターゲット音声信号が入力されるステップと、ターゲット音声信号の認識結果を出力するステップとを含み、ターゲット音声信号の認識結果は、特性パラメータ及び認識のためのモデルに基づいて決定される。
【0006】
一実施形態に係る認識方法において、特性パラメータは、モデルに入力されるターゲット音声信号の特徴ベクトルに適用され、モデルから分類するためのクラス情報を含み得る。
【0007】
一実施形態に係る認識方法において、特性パラメータは、ターゲット音声信号の特徴ベクトルを正規化するための正規化情報を含み、ターゲット音声信号の認識結果は、モデルに入力されるターゲット音声信号の特徴ベクトルを、正規化情報に基づいて正規化することによって決定され得る。
【0008】
一実施形態に係る認識方法において、特性パラメータは、ユーザの音声的な特徴を示す識別情報を含み、ターゲット音声信号の認識結果は、モデルにターゲット音声信号の特徴ベクトルと共に識別情報を入力することにより決定され得る。
【0009】
一実施形態に係る認識方法において、特性パラメータはモデルから分類するためのクラス情報を含み、ターゲット音声信号の認識結果は、モデルにおいてターゲット音声信号の特徴ベクトルから推定される値をクラス情報と比較することによって決定され得る。
【0010】
一実施形態に係る認識方法において、特性パラメータを決定するステップは、基準音声信号がユーザ端末に入力されるときの環境情報に基づいて特性パラメータをタイプごとに決定し得る。
【0011】
一実施形態に係る認識方法において、環境情報は、基準音声信号に含まれるノイズ情報と、ユーザ端末から基準音声信号を発話したユーザまでの距離情報とのうち少なくとも一方を含み得る。
【0012】
一実施形態に係る認識方法において、ターゲット音声信号の認識結果は、基準音声信号が入力されるときの環境情報に基づいて、タイプごとに予め決定された特性パラメータのうちターゲット音声信号が入力されるときの環境情報に基づいて選択された特性パラメータを用いて決定され得る。
【0013】
一実施形態に係る認識方法において、特性パラメータを決定するステップは、複数のユーザを基準として決定された基本パラメータに基準音声信号から取得した個人パラメータを反映することにより特性パラメータを決定し得る。
【0014】
一実施形態に係る認識方法において、基準音声信号は、ターゲット音声信号がユーザ端末に入力される以前に、ユーザがユーザ端末を用いることでユーザ端末に入力された音声信号であり得る。
【0015】
一実施形態に係る認識方法は、ターゲット音声信号と特性パラメータをサーバに送信するステップと、サーバからターゲット音声信号の認識結果を受信するステップとを更に含み、ターゲット音声信号の認識結果はサーバで生成され得る。
【0016】
一実施形態に係る認識方法において、ターゲット音声信号の認識結果はユーザ端末で生成され得る。
【0017】
一実施形態に係るユーザ端末に入力されたターゲット音声信号を認識するサーバの認識方法は、ユーザから入力された基準音声信号に基づいて決定されたユーザの音声に個人化された特性パラメータを、ユーザ端末から受信するステップと、認識の対象となるユーザのターゲット音声信号をユーザ端末から受信するステップと、特性パラメータ及び認識のためのモデルに基づいてターゲット音声信号を認識するステップと、ターゲット音声信号の認識結果をユーザ端末に送信するステップとを含む。
【0018】
一実施形態に係る認識方法において、特性パラメータは、ターゲット音声信号を正規化するための正規化情報、ユーザの音声的な特徴を示す識別情報、及びモデルから分類するためのクラス情報のうち少なくとも1つを含み得る。
【0019】
一実施形態に係る認識方法において、特性パラメータは、基準音声信号がユーザ端末に入力されるときの環境情報に基づいて、タイプごとに予め決定された特性パラメータのうちターゲット音声信号がユーザ端末に入力されるときの環境情報に基づいて選択された特性パラメータであり得る。
【0020】
一実施形態に係るユーザ端末は、プロセッサと、プロセッサによって実行可能な少なくとも1つの命令語を含むメモリとを含み、少なくとも1つの命令語がプロセッサで実行されると、プロセッサは、ユーザから入力された基準音声信号に基づいてユーザの音声に個人化された特性パラメータを決定し、ユーザから認識の対象となるターゲット音声信号が入力され、ターゲット音声信号の認識結果を出力し、ターゲット音声信号の認識結果は、特性パラメータ及び認識のためのモデルに基づいて決定される。
【0021】
一実施形態に係る音声認識方法は、個別ユーザの基準音声信号に基づいて個別ユーザの音声に個人化された特性パラメータを決定するステップと、複数のユーザに対して決定された基本音声認識モデルに特性パラメータを適用して個別ユーザに個人化された音声認識モデルを取得するステップと、個人化された音声認識モデルに個別ユーザのターゲット音声信号を適用してターゲット音声信号の認識結果を取得するステップとを含む。
【0022】
一実施形態に係る音声認識方法は、基準音声信号から個別ユーザに対して決定された個人パラメータを取得するステップと、個人パラメータに第1加重値を適用して加重された個人パラメータを取得するステップと、複数のユーザに対して決定された基本パラメータに第2加重値を適用して加重された基本パラメータを取得するステップと、加重された個人パラメータを加重された基本パラメータに追加して特性パラメータを取得するステップとを更に含み得る。
【0023】
一実施形態に係る音声認識方法において、基準音声信号及びターゲット音声信号は、個別ユーザによってユーザ端末に入力され、特性パラメータを決定するステップは、個別ユーザによって基準音声信号がユーザ端末から入力されるごとに特性パラメータを累積して決定し得る。
【0024】
一実施形態に係る音声認識方法は、ユーザ端末において、個別ユーザによってユーザ端末に入力された基準音声信号に基づいたパラメータを決定するステップと、基準音声信号に基づいたパラメータ及び認識の対象となる個別ユーザのターゲット音声信号をユーザ端末からサーバに送信するステップと、ユーザ端末において、ターゲット音声信号の認識結果をサーバから受信するステップとを含み、ターゲット音声信号の認識結果は、基準音声信号に基づいたパラメータ及び複数のユーザに対して決定された基本音声認識モデルに基づいてサーバで決定される。
【0025】
一実施形態に係る音声認識方法において、基準音声信号に基づいたパラメータを決定するステップは、基準音声信号から個別ユーザに対して決定された個人パラメータを取得し、送信するステップは、個人パラメータ及びターゲット音声信号をユーザ端末からサーバに送信し、基準音声信号に基づいたパラメータは、サーバで個人パラメータに第1加重値を適用して加重された個人パラメータを取得し、基本パラメータに第2加重値を適用して加重された基本パラメータを取得し、加重された個人パラメータを加重された基本パラメータに追加して基準音声信号に基づいたパラメータを取得することにより取得され得る。
【発明の効果】
【0026】
一実施形態によれば、基準音声信号に基づいてユーザの音声に個人化された特性パラメータを決定し、ターゲット音声信号の認識時に特性パラメータを音声認識モデルと共に利用することによって、個人化された音声認識を行うことができる。
【0027】
一実施形態によれば、音声モデルを直接的に変更することなく、ユーザに個人化された音声認識を容易に実現することができる。
【図面の簡単な説明】
【0028】
図1】一実施形態に係るユーザ端末及びサーバ間の関係を示す図である。
図2】一実施形態に係るユーザ端末に入力された音声信号が認識される過程を示す図である。
図3】一実施形態に係るターゲット音声信号が特性パラメータ及びモデルに基づいて認識される過程を示す図である。
図4】他の一実施形態に係る環境情報を更に用いて音声信号を認識する過程を示す図である。
図5】一実施形態に係る環境情報を説明するための図である。
図6】更なる実施形態に係るユーザ端末の認識方法を示す図である。
図7】一実施形態に係るユーザ端末を示す図である。
図8】一実施形態に係るサーバを示す図である。
【発明を実施するための形態】
【0029】
実施形態に対する特定な構造的又は機能的な説明は単なる例示の目的のために開示されており、様々な形態に変更され得る。したがって、実施形態は特定の開示される形態に限定されるものではなく、本発明の範囲は技術的な思想に含まれる変更、均等物又は代替物を含む。
【0030】
第1又は第2等の用語が、複数の構成要素を説明するために用いられることがあるが、このような用語は単に1つの構成要素を他の構成要素から区別する目的として解釈されなければならない。例えば、第1構成要素は第2構成要素と命名することができ、同様に第2構成要素は第1構成要素とも命名することができる。
【0031】
いずれかの構成要素が他の構成要素に「連結されて」いるとして言及される場合、その次の構成要素に直接的に連結されてもよく、あるいは中間に他の構成要素が存在することもあり得ると理解されなければならない。
【0032】
単数の表現は、文脈上、明白に異なる意味をもたない限り複数の表現を含む。本明細書において、「含む」又は「有する」等の用語は、明細書に記載した特徴、数字、ステップ、動作、構成要素、部品又はこれらの組合せが存在することを示すものであって、1つ又はそれ以上の他の特徴や数字、ステップ、動作、構成要素、部品又はこれらの組合せ等の存在又は付加の可能性を予め排除しないものとして理解されなければならない。
【0033】
別段の定義がない限り、技術的又は科学的な用語を含む、本明細書で用いられる全ての用語は、本発明が属する技術分野で通常の知識を有する者によって一般的に理解されるものと同じ意味を有する。一般的に用いられる予め定義された用語は、関連技術の文脈上で有する意味と一致する意味を有するものと解釈されるべきであって、本明細書で明白に定義しない限り、理想的又は過度に形式的な意味として解釈されることはない。
【0034】
以下、実施形態を、添付の図面を参照しながら詳細に説明する。各図面に提示される同一の参照符号は同一の構成要素を示す。
【0035】
図1は、一実施形態によりユーザ端末及びサーバ間の関係を示す図である。
【0036】
図1を参照すると、一実施形態に係るユーザ端末110及びサーバ120が示されている。
【0037】
一実施形態に係るユーザ端末110は、ユーザから音声信号が入力され、音声信号の認識結果を出力する装置として、下記で説明される少なくとも1つの動作のための命令語を格納するメモリ及びその命令語を実行するプロセッサを含む。例えば、ユーザ端末110は、パーソナルコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、スマートフォン、モバイル機器、スマートスピーカ、スマートテレビ、スマート家電機器、知能型自動車、ウェアラブル装置などの様々な形態の製品として実現される。
【0038】
一実施形態に係るユーザ端末110は、ユーザから入力された音声信号に基づいて、ユーザの音声に個人化された特性パラメータ111を決定する。特性パラメータ111は、音声認識の個人化に求められる付加的な情報であって、音声認識のためのモデルを直接的に変更することなく、ユーザ端末110を操作するユーザに個人化された音声認識を実行可能にする。例えば、特性パラメータ111は、ケプストラム平均分散正規化(CMVN:Cepstral Mean and Variance Normalization)による正規化情報、i-ベクトル(i-vector)、確率密度関数(PDF:Probability density function)のうち少なくとも1つを含んでもよい。特性パラメータ111については、図3を参照して後述する。
【0039】
ユーザ端末110は、音声認識が要求される前に特性パラメータ111を予め決定する。以下、説明の便宜のために特性パラメータ111の決定において考慮される音声信号を基準音声信号(reference speech signal)に称し、認識の対象となる音声信号をターゲット音声信号(target speech signal)と称する。
【0040】
ユーザから認識対象となるターゲット音声信号が入力されると、ユーザ端末110は、ターゲット音声信号と特性パラメータ111をサーバ120に送信する。
【0041】
一実施形態に係るサーバ120は、音声認識のためのモデルを含む装置であり、モデルを用いて、ユーザ端末110から受け取ったターゲット音声信号の音声認識を行うコンピューティング装置であり得る。サーバ120は、ユーザ端末110から受け取ったターゲット音声信号を音声認識し、その認識結果をユーザ端末110に送信する。
【0042】
一実施形態に係るモデルは、ターゲット音声信号が入力されると、ターゲット音声信号の認識結果を出力するニューラルネットワークであり、特定の個人にカスタマイズされるのではなく、複数のユーザの音声認識のための汎用的なモデルとすることができる。
【0043】
サーバ120は、ユーザの音声に個人化された特性パラメータ111を更に利用することによって、汎用的なモデルにより、ユーザに個人化された音声認識を行う。言い換えれば、一般的に個人ユーザは、特有のアクセント、トーン、語り口などを有するが、特性パラメータ111により、このような特有の個人的特性に適応的に音声認識を実行することができる。
【0044】
サーバ120は、ターゲット音声信号の認識結果をユーザ端末110に送信し、ユーザ端末110は認識結果を出力する。
【0045】
図2は、一実施形態によりユーザ端末に入力された音声信号が認識される過程を示す図である。
【0046】
図2を参照すると、一実施形態によりユーザ端末110及びサーバ120で実行される認識方法が示されている。
【0047】
ステップS210において、ユーザ端末110に、ユーザからの基準音声信号が入力される。基準音声信号は、認識すべきターゲット音声信号がユーザ端末110へ入力される前に、ユーザがユーザ端末110を用いることでユーザ端末110へ入力された音声信号であり得る。例えば、ユーザがユーザ端末110を介して通話したり音声を録音したりするとき、ユーザ端末110から入力される音声信号が基準音声信号に該当する。言い換えれば、基準音声信号は、音声認識のためではなく、音声認識以外のユーザ端末110の一般的な使用によってユーザ端末110に入力された音声信号であり得る。
【0048】
ステップS220において、ユーザ端末110は、基準音声信号に基づいてユーザの音声に個人化された特性パラメータを決定する。特性パラメータは、音声認識のためのモデルを直接的に変更することなく、ユーザに個人化された音声認識を実行可能にするパラメータであり得る。
【0049】
一実施形態に係るユーザ端末110は、基準音声信号が入力されるたびに、その基準音声信号に基づいて特性パラメータをアップデートする。ここで、ユーザ端末110は、入力される全ての基準音声信号を用いて特性パラメータをアップデートしてもよく、あるいは一定の条件(例えば、音声信号の大きさ、長さ等)を満たす基準音声信号を選択的に用いて特性パラメータをアップデートしてもよい。
【0050】
例えば、ユーザ端末110は、複数のユーザを基準として決定された基本パラメータに、基準音声信号から取得した個人パラメータを反映することにより、特性パラメータを決定する。ここで、基本パラメータは、複数のユーザの音声信号に基づいて決定された初期パラメータとしてサーバ120から提供される。該当ユーザに関する個人パラメータに第1加重値を適用し、基本パラメータに第2加重値を適用した後、加重値が適用されたパラメータを合算することで特性パラメータが決定され得る。そして、次の基準音声信号が入力されると、最後に算出された特性パラメータに、次の基準音声信号から取得した個人パラメータを反映することによって、特性パラメータをアップデートすることができる。
【0051】
基準音声信号がユーザ端末110に入力されるたびに、このように特性パラメータを決定することによって、ユーザの音声に個人化された特性パラメータが累積算出される。累積算出されるほど、ユーザについてより個人化された特性パラメータが取得される。
【0052】
他の一実施形態によると、ユーザ端末110で基本パラメータに個人パラメータを反映して特性パラメータを決定する代わりに、ユーザ端末110では、個人パラメータのみを考慮して特性パラメータを累積算出してサーバ120に送信し、サーバ120が基本パラメータと特性パラメータとの間の加重値の合計によって最終的に特性パラメータを決定してもよい。
【0053】
ステップS230において、ユーザ端末110に、ユーザから、認識の対象となるターゲット音声信号が入力される。例えば、ユーザ端末110は、音声認識命令と共に入力された音声信号をターゲット音声信号として識別する。
【0054】
ステップS240において、ユーザ端末110は、ターゲット音声信号及び特性パラメータをサーバ120に送信する。例えば、ユーザ端末110は、ターゲット音声信号と特性パラメータを共にサーバ120に送信してもよい。
【0055】
あるいは、ユーザ端末110は、ターゲット音声信号に先立って、特性パラメータをサーバ120に送信してもよい。この場合、ユーザ端末110は、一定の周期ごとに又は特性パラメータがアップデートされるたびにサーバ120に特性パラメータを予め送信し、特性パラメータは、サーバ120において、該当ユーザ又は該当ユーザ端末110にマッピングされて格納される。そして、ユーザ端末110は、ターゲット音声信号が入力されると、特性パラメータなしに、そのターゲット音声信号のみをサーバ120に送信し、サーバ120によってユーザ又はユーザ端末110にマッピングされて予め格納された特性パラメータを、検索することができる。
【0056】
ユーザの個人情報ではなく、数値化された値である特性パラメータをサーバ120に送信することによって、サーバ120で音声認識が実行される間にユーザの個人情報が漏れることはなく、セキュリティー問題からも解放される。
【0057】
ステップS250において、サーバ120は、特性パラメータ及び認識のためのモデルに基づいてターゲット音声信号を認識する。サーバ120は、モデルに入力されるターゲット音声信号の特徴ベクトルに特性パラメータを適用するか、モデルから分類されるクラス情報で特性パラメータを用いることにより、モデルを直接的に変更することなく、ユーザに個人化された音声認識を行うことができる。特性パラメータ及びモデルに基づいた音声認識については、図3を参照して後述する。
【0058】
ステップS260において、サーバ120は、ターゲット音声信号の認識結果をユーザ端末110に送信する。
【0059】
ステップS270において、ユーザ端末110は、ターゲット音声信号の認識結果を出力する。一実施形態によると、ユーザ端末110は、ターゲット音声認識の認識結果を表示する。
【0060】
あるいは、ユーザ端末110は、認識結果に関連する動作を行い、その動作結果を出力する。例えば、ユーザ端末110は、認識結果に応じて、ユーザ端末110にインストールされたアプリケーション(例えば、電話アプリケーション、連絡先アプリケーション、メッセンジャーアプリケーション、ウェブアプリケーション、スケジュール管理アプリケーション、天気アプリケーションなど)を実行し、そのアプリケーションにおける特定動作(例えば、通話、連絡先検索、メッセージ入力及び送信、ウェブ検索、スケジュール確認、天気照会など)を行ってその結果を出力することができる。
【0061】
図3は、一実施形態に係る、ターゲット音声信号が特性パラメータ及びモデルに基づいて認識される過程を示す図である。
【0062】
図3を参照すると、一実施形態に係るモデル310、CMVNフィルタ320、i-ベクトルフィルタ330、PDF340が示されている。図3では、説明の便宜のためにCMVNフィルタ320、i-ベクトルフィルタ330、PDF340が全て示されているが、実施形態によってはCMVNフィルタ320、i-ベクトルフィルタ330、PDF340のうち少なくとも1つのみが適用されてもよい。
【0063】
一実施形態に係るモデル310は、ターゲット音声信号が入力されることによって、そのターゲット音声信号の認識結果を出力するニューラルネットワークであり得る。ニューラルネットワークは複数のレイヤを含んでもよい。複数のレイヤの各々が複数のニューロンを含んでもよい。隣接するレイヤのニューロンは、シナプスに接続される。学習によってシナプスには加重値が付与され、パラメータはこのような加重値を含み得る。
【0064】
一実施形態に係る特性パラメータは、CMVNの正規化情報、i-ベクトル、PDFのうち少なくとも1つを含む。このような特性パラメータは、CMVNフィルタ320、i-ベクトルフィルタ330、PDF340に適用される。
【0065】
ターゲット音声信号の特徴ベクトルは、メル周波数ケプストラム係数(MFCC:Mel-Frequency Cepstral Coefficients)、メル尺度フィルタバンク係数(Mel-scaled Filter bank coefficients)などによりターゲット音声信号から抽出され、CMVNフィルタ320に入力され得る。
【0066】
CMVNフィルタ320は、音声認識を行う前に音声信号の特徴ベクトルを正規化するステップであって、正規化された特徴ベクトルに対して音声認識を行うことにより音声認識の正確性を向上させることができる。CMVNフィルタ320は、音声信号に含まれるノイズや歪みに強い音声認識を実行可能にする。例えば、CMVNフィルタ320は、音声信号の特徴ベクトルに含まれる各次元の平均が0に変換され、分散が基準分散(unit variance)に変換されるようにすることで、特徴ベクトルに対する正規化を行う。このような正規化のために正規化情報が使用され、正規化情報は、特徴ベクトルに含まれた次元の平均を0に変換し、分散を基準分散に変換するための平均値及び分散値を含んでもよい。例えば、基準分散は1であってもよい。
【0067】
CMVNフィルタ320で用いられる正規化情報は、ユーザ端末で累積されて算出され、累積されるほど、CMVNフィルタ320で実行される正規化が精巧に実行され、音声認識の性能をより向上させることができる。
【0068】
i-ベクトルフィルタ330は、ターゲット音声信号の特徴ベクトルにi-ベクトルが適用されるステップである。i-ベクトルは、ターゲット音声信号を発話したユーザを識別する情報をベクトルに表現した識別ベクトルであって、ユーザの個別的な特性を示す。一例として、識別ベクトルは、音声から抽出された音響パラメータの分布を混合ガウスモデル(GMM:Gaussian mixture model)にモデリングしたとき、各ガウスの平均値を連結して作ったGMMスーパーベクトルが有している変移性を表現するベクトルである。
【0069】
このようなi-ベクトルが、サーバでないユーザ端末で決定され、ユーザ端末で基準音声信号が入力されるたびに、あるいは一定条件が満たされる基準音声信号が入力されるたびに累積算出されることによって、ユーザの発音に対して精巧なi-ベクトルが決定され得る。
【0070】
ユーザ端末で決定されたi-ベクトルが、i-ベクトルフィルタ330を介してターゲット音声信号の特徴ベクトルに適用されてモデル310に入力される。言い換えれば、ターゲット音声信号の特徴ベクトルと共にi-ベクトルがモデル310に入力されることで、i-ベクトルにより識別されたユーザの音声特徴を反映して音声認識が実行され、音声認識の正確性を向上させることができる。
【0071】
この場合、モデル310も数人のi-ベクトルに基づいてトレーニングされたモデルである必要がある。音声認識時に共に入力されるi-ベクトルを用いて、トレーニング時に考慮した数人のうち今回のユーザの発話がいずれかの人の発話と特性が似ているかを判断し、このような判断結果に応じて音声認識が適応的に実行される。
【0072】
PDF340は、モデル310で分類されるクラス情報を含む。PDF340は発音的特徴に対する分布値を示す情報として、モデル310で推定された値がPDF340と比較され、最終的にターゲット音声信号がどのような音素から構成されているかを判断する。このような判断に基づいて認識結果が決定される。
【0073】
同じ単語を発音しても、ユーザごとにその単語を発音するアクセントやトーンが異なるが、ユーザに個人化されたPDF340を用いることで、ユーザに個人化された音声認識を行うことができる。音声認識を実行するとき、PDF340は、ユーザに個人化されたPDFに代替され得る。
【0074】
一実施形態に係るPDF340は、サーバの外部で算出できる簡単なGMMなどの方式をユーザ端末で行うことによってユーザ端末で算出され得る。算出初期には、複数のユーザを基準として決定されたクラス情報に、基準音声信号から取得された個人化されたクラス情報を反映させることで、PDF340が累積算出される。
【0075】
また、PDFカウント情報(PDF count information)も個人化されて音声認識の際に活用され得る。PDFカウント情報は、音素がどれ程頻繁に使用されたかを示すものであり、ユーザが頻繁に発話する音素を効率よく認識可能にする。PDFカウント情報も、算出初期には、複数のユーザを基準として決定されたPDFカウント情報に、基準音声信号から取得された個人化されたPDFカウント情報を反映させることで決定され得る。
【0076】
図4は、他の一実施形態により環境情報を更に用いて音声信号を認識する過程を示す図である。
【0077】
図4を参照すると、他の一実施形態によりユーザ端末110及びサーバ120で実行される認識方法が示されている。
【0078】
ステップS410において、ユーザ端末110は、ユーザから基準音声信号が入力され、このときの基準環境情報を取得する。基準環境情報は、基準音声信号がユーザ端末110に入力されるときの状況に関する情報として、例えば、基準音声信号に含まれたノイズ情報と、ユーザ端末110から基準音声信号を発話したユーザまでの距離情報とのうち少なくとも一方を含む。
【0079】
ここで、ノイズ情報は、基準音声信号が室内で入力されたか、室外で入力されたかを示し、距離情報は、ユーザ端末110とユーザとの間の距離が近距離であるか、遠距離であるかを示す。
【0080】
例えば、基準環境情報は、ユーザ端末110に内蔵された別途のセンサによって取得され得る。
【0081】
ステップS420において、ユーザ端末110は、基準環境情報に基づいて特性パラメータをタイプごとに決定する。例えば、室内で入力された基準音声信号に基づいて室内タイプの特性パラメータが決定され、室外で入力された基準音声信号に基づいて室外タイプの特性パラメータが決定される。同様に、近距離で入力された基準音声信号に基づいて近距離タイプの特性パラメータが決定され、遠距離で入力された基準音声信号に基づいて遠距離タイプの特性パラメータが決定される。
【0082】
また、ユーザ端末110は、基準環境情報に基づいて特性パラメータをタイプごとにアップデートし得る。
【0083】
ステップS430において、ユーザ端末110に、ユーザから認識すべきターゲット音声信号が入力され、このときのターゲット環境情報を取得する。例えば、ユーザ端末110は、音声認識命令と共に入力された音声信号をターゲット音声信号で識別し、ここで取得された環境情報をターゲット環境情報として識別する。
【0084】
ステップS440において、ユーザ端末110は、ターゲット環境情報に基づいて特性パラメータを選択する。ユーザ端末110は、タイプごとに格納された特性パラメータのうちターゲット環境情報に対応する特性パラメータを選択する。例えば、ターゲット音声信号が室内で入力された場合、ターゲット環境情報に基づいて特性パラメータのうち室内タイプの特性パラメータが選択される。同様に、ターゲット音声信号が近距離で入力された場合、ターゲット環境情報に基づいて特性パラメータのうち近距離タイプの特性パラメータが選択される。
【0085】
ステップS450において、ユーザ端末110は、ターゲット音声信号及び選択された特性パラメータをサーバ120に送信する。
【0086】
ステップS460において、サーバ120は、選択された特性パラメータ及び認識のためのモデルに基づいてターゲット音声信号を認識する。
【0087】
ステップS470において、サーバ120は、ターゲット音声信号の認識結果をユーザ端末110に送信する。
【0088】
ステップS480において、ユーザ端末110は、ターゲット音声信号の認識結果を出力する。一実施形態に係るユーザ端末110は、ターゲット音声認識の認識結果を表示する。あるいは、ユーザ端末110は、認識結果に関連する動作を行い、その動作結果を出力する。
【0089】
図4に示された各ステップには、図1図3を参照して前述した事項がそのまま適用されるため、より詳細な説明は省略する。
【0090】
図5は、一実施形態により環境情報を説明するための図である。
【0091】
図5を参照すると、一実施形態に係る環境情報510は、ノイズ情報520及び距離情報530のうち少なくとも一方を含む。図5では、説明の便宜のために環境情報510の実施形態が図示されているが、その他にも、音声信号がユーザ端末に入力される状況を示す情報であれば制限されることなく含まれてもよい。
【0092】
ノイズ情報520は、音声信号に含まれるノイズに関する情報を示す情報であり得る。一般的にユーザが位置する場所により音声信号に含まれるノイズの種類が変わるため、ノイズ情報520は、音声信号が室内又は室外で入力されているかを示す。さらに、ノイズ情報520は、室内の場合を細部的に分類して、その音声信号が家、図書館、カフェ、事務室、車などで入力されたことを示す。また、ノイズ情報520は、室外の場合を細部的に分類して、その音声信号が道路、公園、広場、浜辺などで入力されたことを示す。
【0093】
距離情報530は、ユーザ端末から音声信号を発話したユーザまでの距離を示す情報である。距離情報530は、音声信号が近距離又は遠距離で入力されたことを示す。例えば、ユーザがユーザ端末を自分の口の近くに近接させて発話した場合、距離情報530は音声信号が近距離で入力されていることを示す。あるいは、室内に位置するユーザが一定の距離以上離れたユーザ端末(例えば、スマートスピーカ)に対して発話した場合、距離情報530は、音声信号が遠距離で入力されていることを示す。
【0094】
あるいは、距離情報530は、単に近距離、遠距離に区分するのではなく、具体的な距離数値を含んでもよい。
【0095】
図6は、更なる実施形態に係るユーザ端末の認識方法を示す図である。
【0096】
図6を参照すると、更なる実施形態に係るユーザ端末で実行される認識方法が示されている。前述した説明は、音声認識のためのモデルがサーバに位置する場合を基準としたが、場合に応じて、モデルはユーザ端末内に位置してもよく、図6はこのような場合の認識方法を示す。
【0097】
ステップS610において、ユーザ端末にユーザから基準音声信号が入力される。基準音声信号は、認識すべきターゲット音声信号がユーザ端末に入力される前に、ユーザがユーザ端末を用いることによってユーザ端末に入力された音声信号であり得る。
【0098】
ステップS620において、ユーザ端末は、基準音声信号に基づいてユーザの音声に個人化された特性パラメータを決定する。特性パラメータは、音声認識のためのモデルを直接的に変更することなく、ユーザに個人化された音声認識を実行可能にするパラメータであり得る。
【0099】
ステップS630において、ユーザ端末に、ユーザから認識すべきターゲット音声信号が入力される。例えば、ユーザ端末は、音声認識命令と共に入力された音声信号をターゲット音声信号として識別し得る。
【0100】
ステップS640において、ユーザ端末は、特性パラメータ及び認識のためのモデルに基づいてターゲット音声信号を認識する。ユーザ端末は、モデルに入力されるターゲット音声信号の特徴ベクトルに特性パラメータを適用し、あるいはモデルから分類されるクラス情報に特性パラメータを用いることにより、モデルを直接的に変更することなくユーザに個人化された音声認識を行うことができる。
【0101】
ステップS650において、ユーザ端末は、ターゲット音声信号の認識結果を出力する。一実施形態に係るユーザ端末は、ターゲット音声認識の認識結果を表示する。あるいは、ユーザ端末は認識結果に関連する動作を行い、その動作結果を出力する。
【0102】
図6に示された各ステップには図1図3を参照して前述した事項が適用され得るため、より詳細な説明は省略する。また、図6では、環境情報を更に用いる場合については明らかに説明していないが、図4及び図5を参照して前述した事項は、図6においても同様に適用され得るため、より詳細な説明は省略する。
【0103】
図7は、一実施形態に係るユーザ端末を示す図である。
【0104】
図7を参照すると、ユーザ端末110は、メモリ710、プロセッサ720及びマイクロホン730を含む。ユーザ端末110は、トランシーバー740及びセンサ750を更に含む。メモリ710、プロセッサ720、マイクロホン730、トランシーバー740及びセンサ750は、バス760を介してデータをやり取りする。
【0105】
メモリ710は、揮発性メモリ及び不揮発性メモリを含んでもよく、バス760を介して受信された情報を格納する。メモリ710は、プロセッサ720によって実行可能な少なくとも1つの命令語を含み得る。また、メモリ710は、先に説明した特性パラメータを格納する。
【0106】
プロセッサ720は、メモリ710に格納された命令語、あるいはプログラムを実行する。プロセッサ720は、ユーザから入力された基準音声信号に基づいてユーザの音声に個人化された特性パラメータを決定し、ユーザから認識すべきターゲット音声信号が入力され、ターゲット音声信号の認識結果を出力する。ここで、ターゲット音声信号の認識結果は、特性パラメータ及び認識のためのモデルに基づいて決定される。
【0107】
マイクロホン730は、ユーザ端末110に取り付けられてユーザから基準音声信号、ターゲット音声信号が入力される。
【0108】
トランシーバー740は、特性パラメータとターゲット音声信号をサーバに送信し、サーバからターゲット音声信号の認識結果を受信する。図6を参照して説明したように、音声認識のためのモデルがユーザ端末110に存在する場合には、トランシーバー740が省略されてもよい。
【0109】
センサ750は、音声信号が入力されるときの環境情報を検出する。例えば、センサ750は、ユーザ端末110からユーザまでの距離を測定するための装置として、例えば、イメージセンサ、赤外線センサ、ライダーセンサなどを含んでもよい。センサ750はユーザを撮影して映像を出力したり、ユーザに赤外線を放射してユーザにより反射して返ってくる赤外線の飛行時間を検出し得る。このようなセンサ750の出力データに基づいて、ユーザ端末110からユーザまでの距離が測定される。図2を参照して説明したように、環境情報が利用されない場合にはセンサ750が省略されてもよい。
【0110】
その他に、ユーザ端末110には前述した事項が適用され得るため、より詳細な説明は省略する。
【0111】
図8は、一実施形態に係るサーバを示す図である。
【0112】
図8を参照すると、サーバ120は、メモリ810、プロセッサ820及びトランシーバー830を含む。メモリ810、プロセッサ820及びトランシーバー830は、バス840を介してデータをやり取りすることができる。
【0113】
メモリ810は、揮発性メモリ及び不揮発性メモリを含んでもよく、バス840を介して受信された情報を格納する。メモリ810は、プロセッサ820によって実行可能な少なくとも1つの命令語を含んでもよい。また、メモリ810は、先に説明した音声認識のためのモデルを格納する。
【0114】
プロセッサ820は、メモリ810に格納された命令語、あるいはプログラムを実行する。プロセッサ820は、ユーザから入力された基準音声信号に基づいて決定されたユーザの音声に個人化された特性パラメータをユーザ端末から受信し、認識の対象となるユーザのターゲット音声信号をユーザ端末から受信し、特性パラメータ及び認識のためのモデルに基づいてターゲット音声信号を認識し、ターゲット音声信号の認識結果をユーザ端末に送信する。
【0115】
トランシーバー830は、ユーザ端末から特性パラメータとターゲット音声信号を受信し、ユーザ端末にターゲット音声信号の認識結果を送信する。
【0116】
その他に、サーバ120には前述した事項が適用され得るため、より詳細な説明は省略する。
【0117】
上述した実施形態は、ハードウェア構成要素、ソフトウェア構成要素、又はハードウェア構成要素とソフトウェア構成要素の組合せで具現される。例えば、本実施形態で説明した装置及び構成要素は、例えば、プロセッサ、コントローラ、算術演算論理装置(ALU:arithmetic logic unit)、デジタル信号プロセッサ(digital signal processor)、マイクロコンピュータ、フィールドプログラマブルゲートアレイ(FPGA:field programmable gate array)、プログラマブル論理装置(PLU:programmable logic unit)、マイクロプロセッサー又は命令(instruction)を実行して応答する異なる装置のように、1つ以上の汎用コンピュータ又は特殊目的コンピュータを用いて具現される。処理装置は、オペレーティングシステム(OS)及びオペレーティングシステム上で実行される1つ以上のソフトウェアアプリケーションを実行する。また、処理装置は、ソフトウェアの実行に応答してデータをアクセス、格納、操作、処理、及び生成する。理解の便宜のために、処理装置は1つが使用されるものとして説明する場合もあるが、当技術分野で通常の知識を有する者は、処理装置が複数の処理要素(processing element)及び/又は複数類型の処理要素を含むことが分かる。例えば、処理装置は、複数のプロセッサ又は1つのプロセッサ及び1つのコントローラを含む。また、並列プロセッサ(parallel processor)のような、他の処理構成も可能である。
【0118】
ソフトウェアは、コンピュータプログラム、コード、命令、又はこれらのうちの1つ以上の組合せを含み、所望の通りに動作するように処理装置を構成し、独立的又は結合的に処理装置に命令する。ソフトウェア及び/又はデータは、処理装置によって解釈され、処理装置に命令又はデータを提供するためのあらゆる類型の機械、構成要素、物理的装置、仮想装置、コンピュータ記録媒体又は装置、あるいは送信される信号波を介して永久的又は一時的に具現化される。ソフトウェアは、ネットワークに接続されたコンピュータシステム上に分散され、分散された方法で格納されるか又は実行される。ソフトウェア及びデータは1つ以上のコンピュータ読取可能な記録媒体に格納される。
【0119】
本実施形態による方法は、多様なコンピュータ手段を介して実施されるプログラム命令の形態で具現され、コンピュータ読取可能な記録媒体に記録される。記録媒体は、プログラム命令、データファイル、データ構造などを単独又は組み合わせて含む。記録媒体及びプログラム命令は、本発明の目的のために特別に設計して構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり使用可能なものであってもよい。コンピュータ読取可能な記録媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク及び磁気テープのような磁気媒体、CD-ROM、DVDのような光記録媒体、フロプティカルディスクのような磁気-光媒体、及びROM、RAM、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置を含む。プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行される高級言語コードを含む。ハードウェア装置は、本発明の動作を実行するために1つ以上のソフトウェアモジュールとして作動するように構成してもよく、その逆も同様である。
【0120】
以上のように、実施形態を限られた図面によって説明したが、当技術分野で通常の知識を有する者であれば、上記の説明に基づいて様々な技術的な修正及び変形を適用することができる。例えば、説明された技術が説明された方法と異なる順序で実行され、及び/又は説明されたシステム、構造、装置、回路などの構成要素が説明された方法と異なる形態で結合又は組み合わされ、あるいは他の構成要素又は均等物によって代替又は置換される場合も適切な結果を達成することができる。
図1
図2
図3
図4
図5
図6
図7
図8