特表-19107170IP Force 特許公報掲載プロジェクト 2015.5.11 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧
再表2019-107170緊急度推定装置、緊急度推定方法、プログラム
(19)【発行国】日本国特許庁(JP)
【公報種別】再公表特許(A1)
(11)【国際公開番号】WO/0
(43)【国際公開日】2019年6月6日
【発行日】2020年11月26日
(54)【発明の名称】緊急度推定装置、緊急度推定方法、プログラム
(51)【国際特許分類】
   G10L 25/51 20130101AFI20201030BHJP
   G10L 25/21 20130101ALI20201030BHJP
   G10L 15/10 20060101ALI20201030BHJP
   G10L 25/75 20130101ALI20201030BHJP
   G10L 25/90 20130101ALI20201030BHJP
【FI】
   G10L25/51
   G10L25/21
   G10L15/10 500Z
   G10L25/75
   G10L25/90
【審査請求】有
【予備審査請求】未請求
【全頁数】27
【出願番号】特願2019-557144(P2019-557144)
(21)【国際出願番号】PCT/0/0
(22)【国際出願日】2018年11月15日
(31)【優先権主張番号】特願2017-229013(P2017-229013)
(32)【優先日】2017年11月29日
(33)【優先権主張国】JP
(81)【指定国】 AP(BW,GH,GM,KE,LR,LS,MW,MZ,NA,RW,SD,SL,ST,SZ,TZ,UG,ZM,ZW),EA(AM,AZ,BY,KG,KZ,RU,TJ,TM),EP(AL,AT,BE,BG,CH,CY,CZ,DE,DK,EE,ES,FI,FR,GB,GR,HR,HU,IE,IS,IT,LT,LU,LV,MC,MK,MT,NL,NO,PL,PT,RO,RS,SE,SI,SK,SM,TR),OA(BF,BJ,CF,CG,CI,CM,GA,GN,GQ,GW,KM,ML,MR,NE,SN,TD,TG),AE,AG,AL,AM,AO,AT,AU,AZ,BA,BB,BG,BH,BN,BR,BW,BY,BZ,CA,CH,CL,CN,CO,CR,CU,CZ,DE,DJ,DK,DM,DO,DZ,EC,EE,EG,ES,FI,GB,GD,GE,GH,GM,GT,HN,HR,HU,ID,IL,IN,IR,IS,JO,JP,KE,KG,KH,KN,KP,KR,KW,KZ,LA,LC,LK,LR,LS,LU,LY,MA,MD,ME,MG,MK,MN,MW,MX,MY,MZ,NA,NG,NI,NO,NZ,OM,PA,PE,PG,PH,PL,PT,QA,RO,RS,RU,RW,SA,SC,SD,SE,SG,SK,SL,SM,ST,SV,SY,TH,TJ,TM,TN,TR,TT
(71)【出願人】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(74)【代理人】
【識別番号】100121706
【弁理士】
【氏名又は名称】中尾 直樹
(74)【代理人】
【識別番号】100128705
【弁理士】
【氏名又は名称】中村 幸雄
(74)【代理人】
【識別番号】100147773
【弁理士】
【氏名又は名称】義村 宗洋
(72)【発明者】
【氏名】神山 歩相名
(72)【発明者】
【氏名】小橋川 哲
(72)【発明者】
【氏名】安藤 厚志
(57)【要約】
特定の単語を必要としない、自由な発話音声を対象として話者の緊急度を推定する緊急度推定技術を提供する。発話音声から、当該発話の特徴量を抽出する特徴量抽出部と、予め定められた、発話音声から抽出された特徴量と発話音声の話者の緊急度との関係性に基づいて、特徴量から、発話音声の話者の緊急度を推定する緊急度推定部とを含み、特徴量は、発話音声の話速を示す特徴、発話音声の声の高さを示す特徴、発話音声のパワーの大きさを示す特徴のうち少なくとも1つの特徴を含むものである。
【特許請求の範囲】
【請求項1】
発話音声から、当該発話の特徴量を抽出する特徴量抽出部と、
予め定められた、発話音声から抽出された特徴量と発話音声の話者の緊急度との関係性に基づいて、前記特徴量から、前記発話音声の話者の緊急度を推定する緊急度推定部と
を含む緊急度推定装置であって、
前記特徴量は、発話音声の話速を示す特徴、発話音声の声の高さを示す特徴、発話音声のパワーの大きさを示す特徴のうち少なくとも1つの特徴を含むものである
緊急度推定装置。
【請求項2】
請求項1に記載の緊急度推定装置であって、
前記関係性は、発話音声から抽出された特徴量を入力とし、発話音声の話者の緊急度を出力するように学習された緊急度推定モデルにより与えられる
ことを特徴とする緊急度推定装置。
【請求項3】
請求項1に記載の緊急度推定装置であって、
前記関係性は、
前記特徴量が発話音声の話速を示す特徴を含む場合には、前記話速を示す特徴が、話速が速いことに対応する場合の方が、話速が遅いことに対応する場合よりも緊急度が高いと推定されやすく、
前記特徴量が発話音声の声の高さを示す特徴を含む場合には、前記声の高さを示す特徴が、声の高さが高いことに対応する場合の方が、声の高さが低いことに対応する場合よりも緊急度が高いと推定されやすく、
前記特徴量が発話音声のパワーの大きさを示す特徴を含む場合には、前記パワーの大きさを示す特徴が、パワーが大きいことに対応する場合の方が、パワーが小さいことに対応する場合よりも緊急度が高いと推定されやすくなるものである
ことを特徴とする緊急度推定装置。
【請求項4】
発話音声から、当該発話音声を分割したフレーム毎に声道特徴量を抽出する声道特徴量抽出部と、
前記声道特徴量から、前記発話音声の声道特徴量統計値として平均と分散値を計算する声道特徴量統計値計算部と、
前記発話音声から、当該発話音声に含まれる発話区間毎の読み、発話開始時刻、発話終了時刻の組を生成する音声認識部と、
前記読み、発話開始時刻、発話終了時刻の組から、前記発話音声の話速を推定する第1話速推定部と、
発話音声の声道特徴量の平均と分散値、発話音声の話速を入力とし、発話音声の話者の緊急度を出力するように学習された緊急度推定モデルを用いて、前記平均と前記分散値と前記話速から、前記発話音声の話者の緊急度を推定する緊急度推定部と
を含む緊急度推定装置。
【請求項5】
発話音声から、当該発話音声を分割したフレーム毎に声道特徴量を抽出する声道特徴量抽出部と、
前記声道特徴量から、前記発話音声の声道特徴量統計値として平均と分散値を計算する声道特徴量統計値計算部と、
前記発話音声から、当該発話音声を分割したフレーム毎にF0情報を抽出するF0情報抽出部と、
前記F0情報から、F0情報の平均と中央値との差分を計算するF0情報統計値計算部と、
発話音声の声道特徴量の平均と分散値、発話音声のF0情報の平均と中央値との差分を入力とし、発話音声の話者の緊急度を出力するように学習された緊急度推定モデルを用いて、前記平均と前記分散値と前記差分から、前記発話音声の話者の緊急度を推定する緊急度推定部と
を含む緊急度推定装置。
【請求項6】
発話音声から、当該発話音声を分割したフレーム毎に声道特徴量を抽出する声道特徴量抽出部と、
前記声道特徴量から、前記発話音声の声道特徴量統計値として平均と分散値を計算する声道特徴量統計値計算部と、
前記発話音声から、当該発話音声を分割したフレーム毎にF0情報を抽出するF0情報抽出部と、
前記発話音声から、当該発話音声を分割したフレーム毎にパワーを抽出するパワー抽出部と、
前記F0情報と前記パワーから、パワーの平均を用いて調整した調整済パワーを計算するパワー平均調整部と、
前記調整済パワーから、調整済パワーの最大値であるパワー最大値を計算するパワー最大値計算部と、
発話音声の声道特徴量の平均と分散値、発話音声の調整済パワーの最大値を入力とし、発話音声の話者の緊急度を出力するように学習された緊急度推定モデルを用いて、前記平均と前記分散値と前記パワー最大値から、前記発話音声の話者の緊急度を推定する緊急度推定部と
を含む緊急度推定装置。
【請求項7】
発話音声から、当該発話音声を分割したフレーム毎に声道特徴量を抽出する声道特徴量抽出部と、
前記声道特徴量から、前記発話音声の声道特徴量統計値として平均と分散値を計算する声道特徴量統計値計算部と、
入力音から音素を識別する音声認識音響モデルを用いて、前記発話音声から、当該発話音声を分割したフレームに該当する音が各音素である確率を示す事後確率系列を推定する事後確率系列推定部と、
発話音声の事後確率系列を入力とし、発話音声の話速を出力するように学習された話速推定モデルを用いて、前記事後確率系列から、前記発話音声の話速を推定する第2話速推定部と、
発話音声の声道特徴量の平均と分散値、発話音声の話速を入力とし、発話音声の話者の緊急度を出力するように学習された緊急度推定モデルを用いて、前記平均と前記分散値と前記話速から、前記発話音声の話者の緊急度を推定する緊急度推定部と
を含む緊急度推定装置。
【請求項8】
緊急度推定装置が、発話音声から、当該発話の特徴量を抽出する特徴量抽出ステップと、
前記緊急度推定装置が、予め定められた、発話音声から抽出された特徴量と発話音声の話者の緊急度との関係性に基づいて、前記特徴量から、前記発話音声の話者の緊急度を推定する緊急度推定ステップと
を含む緊急度推定方法であって、
前記特徴量は、発話音声の話速を示す特徴、発話音声の声の高さを示す特徴、発話音声のパワーの大きさを示す特徴のうち少なくとも1つの特徴を含むものである
緊急度推定方法。
【請求項9】
請求項1ないし7のいずれか1項に記載の緊急度推定装置としてコンピュータを機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、発話音声から通話の緊急度を推定する技術に関する。
【背景技術】
【0002】
留守番電話に残された音声から通話の緊急性を推定できるようになると、優先的に対応すべき通話を選別することができるようになる。
【0003】
従来の通話緊急度推定では、例えば、”Help”のような特定の単語を対象に、MFCC(Mel-Frequency Cepstral Coefficients:メル周波数ケプストラム係数)やPNCC(Power Normalized Cepstral Coefficients)といった声道特徴量からその通話の緊急・非緊急を推定していた(非特許文献1)。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】E. Principi, S. Squartini, E. Cambria, F. Piazza,“Acoustic template-matching for automatic emergency state detection: An ELM based algorithm”, Neurocomputing, Vol.149, Part A, pp.426-434, 2015.
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかし、非特許文献1では、特定の単語の声道特徴量を用いるため、当該単語を含まない音声から緊急度を推定することができないという問題があった。
【0006】
そこで本発明では、特定の単語を必要としない、自由な発話音声を対象として話者の緊急度を推定する緊急度推定技術を提供することを目的とする。
【課題を解決するための手段】
【0007】
本発明の一態様は、発話音声から、当該発話の特徴量を抽出する特徴量抽出部と、予め定められた、発話音声から抽出された特徴量と発話音声の話者の緊急度との関係性に基づいて、前記特徴量から、前記発話音声の話者の緊急度を推定する緊急度推定部とを含み、前記特徴量は、発話音声の話速を示す特徴、発話音声の声の高さを示す特徴、発話音声のパワーの大きさを示す特徴のうち少なくとも1つの特徴を含むものである。
【0008】
本発明の一態様は、発話音声から、当該発話音声を分割したフレーム毎に声道特徴量を抽出する声道特徴量抽出部と、前記声道特徴量から、前記発話音声の声道特徴量統計値として平均と分散値を計算する声道特徴量統計値計算部と、前記発話音声から、当該発話音声に含まれる発話区間毎の読み、発話開始時刻、発話終了時刻の組を生成する音声認識部と、前記読み、発話開始時刻、発話終了時刻の組から、前記発話音声の話速を推定する第1話速推定部と、発話音声の声道特徴量の平均と分散値、発話音声の話速を入力とし、発話音声の話者の緊急度を出力するように学習された緊急度推定モデルを用いて、前記平均と前記分散値と前記話速から、前記発話音声の話者の緊急度を推定する緊急度推定部とを含む。
【0009】
本発明の一態様は、発話音声から、当該発話音声を分割したフレーム毎に声道特徴量を抽出する声道特徴量抽出部と、前記声道特徴量から、前記発話音声の声道特徴量統計値として平均と分散値を計算する声道特徴量統計値計算部と、前記発話音声から、当該発話音声を分割したフレーム毎にF0情報を抽出するF0情報抽出部と、前記F0情報から、F0情報の平均と中央値との差分を計算するF0情報統計値計算部と、発話音声の声道特徴量の平均と分散値、発話音声のF0情報の平均と中央値との差分を入力とし、発話音声の話者の緊急度を出力するように学習された緊急度推定モデルを用いて、前記平均と前記分散値と前記差分から、前記発話音声の話者の緊急度を推定する緊急度推定部とを含む。
【0010】
本発明の一態様は、発話音声から、当該発話音声を分割したフレーム毎に声道特徴量を抽出する声道特徴量抽出部と、前記声道特徴量から、前記発話音声の声道特徴量統計値として平均と分散値を計算する声道特徴量統計値計算部と、前記発話音声から、当該発話音声を分割したフレーム毎にF0情報を抽出するF0情報抽出部と、前記発話音声から、当該発話音声を分割したフレーム毎にパワーを抽出するパワー抽出部と、前記F0情報と前記パワーから、パワーの平均を用いて調整した調整済パワーを計算するパワー平均調整部と、前記調整済パワーから、調整済パワーの最大値であるパワー最大値を計算するパワー最大値計算部と、発話音声の声道特徴量の平均と分散値、発話音声の調整済パワーの最大値を入力とし、発話音声の話者の緊急度を出力するように学習された緊急度推定モデルを用いて、前記平均と前記分散値と前記パワー最大値から、前記発話音声の話者の緊急度を推定する緊急度推定部とを含む。
【0011】
本発明の一態様は、発話音声から、当該発話音声を分割したフレーム毎に声道特徴量を抽出する声道特徴量抽出部と、前記声道特徴量から、前記発話音声の声道特徴量統計値として平均と分散値を計算する声道特徴量統計値計算部と、入力音から音素を識別する音声認識音響モデルを用いて、前記発話音声から、当該発話音声を分割したフレームに該当する音が各音素である確率を示す事後確率系列を推定する事後確率系列推定部と、発話音声の事後確率系列を入力とし、発話音声の話速を出力するように学習された話速推定モデルを用いて、前記事後確率系列から、前記発話音声の話速を推定する第2話速推定部と、発話音声の声道特徴量の平均と分散値、発話音声の話速を入力とし、発話音声の話者の緊急度を出力するように学習された緊急度推定モデルを用いて、前記平均と前記分散値と前記話速から、前記発話音声の話者の緊急度を推定する緊急度推定部とを含む。
【発明の効果】
【0012】
本発明によれば、特定の単語を必要としない、自由な発話音声を対象として話者の緊急度を推定することが可能となる。
【図面の簡単な説明】
【0013】
図1】緊急音声と非緊急音声の話速(1モーラあたりの秒数)の違いの一例を示す図である。
図2】緊急度推定装置100の構成の一例を示すブロック図である。
図3】緊急度推定装置100の動作の一例を示すフローチャートである。
図4】声道特徴量の一例を示す図である。
図5】音声認識結果の一例を示す図である。
図6】緊急音声と非緊急音声のF0の平均・中央値・平均と中央値との差分の一例を示す図である。
図7】緊急度推定装置200の構成の一例を示すブロック図である。
図8】緊急度推定装置200の動作の一例を示すフローチャートである。
図9】F0情報の一例を示す図である。
図10A】緊急音声のパワーの変化の一例を示す図である。
図10B】非緊急音声のパワーの変化の一例を示す図である。
図11】緊急度推定装置300の構成の一例を示すブロック図である。
図12】緊急度推定装置300の動作の一例を示すフローチャートである。
図13】事後確率系列の一例を示す図である。
図14】緊急度推定装置400の構成の一例を示すブロック図である。
図15】緊急度推定装置400の動作の一例を示すフローチャートである。
図16】緊急度推定装置500の構成の一例を示すブロック図である。
図17】緊急度推定装置500の動作の一例を示すフローチャートである。
図18】緊急度推定装置501の構成の一例を示すブロック図である。
図19】緊急度推定装置501の動作の一例を示すフローチャートである。
図20】緊急度推定装置502の構成の一例を示すブロック図である。
図21】緊急度推定装置502の動作の一例を示すフローチャートである。
【発明を実施するための形態】
【0014】
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
【0015】
<第一実施形態>
図1は、複数の留守録模擬音声を用いて、緊急・非緊急の音声での話す速さ(以下、話速という)を分析した結果を示す。この図をみると、話速、すなわち、1モーラ(音韻上の分節)あたりの秒数が緊急音声の方が短いことがわかる。そこで、第一実施形態では、話速を用いて緊急度を推定する。なお、従来から用いられている声道特徴量の統計値も緊急度推定にあわせて用いる。
【0016】
以下、図2図3を参照して緊急度推定装置100について説明する。図2は、緊急度推定装置100の構成を示すブロック図である。図3は、緊急度推定装置100の動作を示すフローチャートである。図2に示すように緊急度推定装置100は、声道特徴量抽出部110、声道特徴量統計値計算部120、音声認識部130、第1話速推定部140、緊急度推定部150、記録部190を含む。記録部190は、緊急度推定装置100の処理に必要な情報を適宜記録する構成部である。
【0017】
緊急度推定装置100は、緊急度推定モデル180を読み込み、処理を実行する。なお、緊急度推定モデル180は、図2のように外部の記録部に記録するよう構成してもよいし、記録部190に記録するよう構成してもよい。
【0018】
緊急度推定装置100は、発話音声s(t)(t=0, 1, 2, …, T、tはサンプル番号を表す)から、発話音声s(t)の話者の緊急度を推定し、出力する。発話音声s(t)は、単位時間毎にサンプリングされた音声信号であり、例えば、留守番電話に残されたメッセージの音声である。
【0019】
図3に従い緊急度推定装置100の動作について説明する。声道特徴量抽出部110は、発話音声s(t)(t=0, 1, 2, …, T)を入力とし、当該発話音声s(t)を分割したフレーム毎に声道特徴量c(i)(i=0, 1, 2, …, I、iはフレーム番号を表す)を抽出し、出力する(S110)。声道特徴量として、例えば、MFCCやケプストラムを用いることができる。また、その抽出にはどのような方法を用いてもよい。声道特徴量c(i)は、例えば図4に示すような、音声の時間長に応じたベクトル系列として求めることができる。図4では、系列の長さが総フレーム数Iとなっている。
【0020】
声道特徴量統計値計算部120は、S110で抽出した声道特徴量c(i)(i=0, 1, 2, …, I)から、発話音声s(t)の声道特徴量統計値として平均mean(c)と分散値var(c)を計算し、出力する(S120)。平均mean(c)、分散値var(c)は、それぞれ次式で計算できる。
【0021】
【数1】
【0022】
音声認識部130は、発話音声s(t)(t=0, 1, 2, …, T)から、当該発話音声s(t)に含まれる発話区間毎の音声認識結果W(j)(j=1, 2, …,J、jは発話区間番号を表す)を生成し、出力する(S130)。ここで、音声認識結果W(j)(j=1, 2, …,J)は、発話音声s(t)から所定の方法により検出した発話区間の音声認識結果である。音声認識には、どのような方法を用いてもよいが、音声認識結果として通常生成される漢字・仮名まじりの文章の代わりに、その付加情報に相当する、発話区間jの読みw(j)、発話開始時刻s(j)、発話終了時刻e(j)の組を音声認識結果W(j)とする(図5参照)。読みw(j)は、発音している音をカナで記述した文である。また、発話開始時刻s(j)、発話終了時刻e(j)は、それぞれ発話区間jの音声信号の開始時刻(秒)、終了時刻(秒)を示す値である。なお、発話音声s(t)の開始時刻を0秒として、各発話区間の発話開始時刻と発話終了時刻を表示している。換言すると、音声認識部130は、発話音声s(t)(t=0, 1, 2, …, T)から、当該発話音声s(t)に含まれる発話区間毎の読みw(j)、発話開始時刻s(j)、発話終了時刻e(j)の組(j=1, 2, …,J)を生成し、出力する(S130)。
【0023】
第1話速推定部140は、S130で生成した音声認識結果W(j)(つまり、読みw(j)、発話開始時刻s(j)、発話終了時刻e(j)の組)(j=1, 2, …,J)から、発話音声s(t)の話速mean(r)を推定し、出力する(S140)。話速mean(r)の推定には、読みw(j)に含まれる拗音(「ャ」、「ュ」、「ョ」)を除いた文字数をモーラ数と考えて、発話時間とモーラ数からmean(r)[秒/mora]を求める。読みw(j)に含まれる拗音を除いた文字数をlen(w(j))とすると、話速mean(r)は、次式により求めることができる。
【0024】
【数2】
【0025】
ここで、e(j)−s(j)が、読みw(j)の発話に要する時間(発話時間)である。
【0026】
この式から話速mean(r)は発話音声の平均的な話速であることがわかる。
【0027】
緊急度推定部150は、緊急度推定モデル180を用いて、S120で計算した平均mean(c)と分散値var(c)、S140で推定した話速mean(r)から、発話音声s(t)(t=0, 1, 2,…, T)の話者の緊急度を推定し、出力する(S150)。緊急度推定モデル180は、発話音声の声道特徴量の平均と分散値、発話音声の話速を入力とし、発話音声の話者の緊急度を出力する。
【0028】
緊急度推定モデルは、例えば、サポートベクターマシン(SVM: Support Vector Machine)、ランダムフォレスト(Random Forest)、ニューラルネットワークなどの機械学習により生成する。具体的には、まず、緊急度が事前に分かっている音声信号から求めた特徴量(ここでは、平均mean(c)、分散値var(c)、話速mean(r))と当該音声信号の緊急度を示す情報(正解ラベル)の組の集合を学習用データとして用意しておく。次に、この学習用データを用いて、特徴量を入力として、緊急度推定モデルを用いて緊急度を推定し、推定結果である緊急度と正解ラベルの緊急度の誤差が小さくなるように緊急度推定モデルのパラメータを更新する。なお、緊急度推定モデルの学習開始時には、緊急度推定モデルのパラメータとして適当な初期値を与えるものとする。そして、所定の条件を満たすことをもってパラメータの更新(つまり、学習)を終了する。なお、正解ラベルは、緊急/非緊急の2段階でもよいし、緊急度を3段階以上のランクに分けたものであってもよい。
【0029】
本発明によれば、特定の単語を必要としない、自由な発話音声を対象として話者の緊急度を推定することが可能となる。
【0030】
<第二実施形態>
図6は、複数の留守録模擬音声を用いて、緊急・非緊急の音声での声の高さ(F0)を分析した結果を示す。この図から、緊急時には声が平均的に高くなる傾向があることがわかる。そこで、第二実施形態では、声の高さを用いて緊急度を推定する。なお、声道特徴量の統計値もあわせて用いることは第一実施形態と同様である。
【0031】
なお、声の平均的な高さは性別や個人によって異なるため、F0の平均のみから緊急・非緊急の別を推定することは難しい。そこで、ここでは、緊急・非緊急の音声におけるF0の中央値は大きくは変わらないという特性を利用して、F0の平均と中央値との差分を推定のための特徴量として用いることにする。これにより、F0の個人性を吸収して緊急度を推定することができるようになる。
【0032】
以下、図7図8を参照して緊急度推定装置200について説明する。図7は、緊急度推定装置200の構成を示すブロック図である。図8は、緊急度推定装置200の動作を示すフローチャートである。図7に示すように緊急度推定装置200は、声道特徴量抽出部110、声道特徴量統計値計算部120、F0情報抽出部210、F0情報統計値計算部220、緊急度推定部250、記録部290を含む。記録部290は、緊急度推定装置200の処理に必要な情報を適宜記録する構成部である。
【0033】
緊急度推定装置200は、緊急度推定モデル280を読み込み、処理を実行する。なお、緊急度推定モデル280は、図7のように外部の記録部に記録するよう構成してもよいし、記録部290に記録するよう構成してもよい。
【0034】
緊急度推定装置200は、発話音声s(t)(t=0, 1, 2, …, T、tはサンプル番号を表す)から、発話音声s(t)の話者の緊急度を推定し、出力する。
【0035】
図8に従い緊急度推定装置200の動作について説明する。声道特徴量抽出部110は、発話音声s(t)(t=0, 1, 2, …, T)を入力とし、当該発話音声s(t)を分割したフレーム毎に声道特徴量c(i)(i=0, 1, 2, …, I、iはフレーム番号を表す)を抽出し、出力する(S110)。声道特徴量統計値計算部120は、S110で抽出した声道特徴量c(i)(i=0, 1, 2, …, I)から、発話音声s(t)の声道特徴量統計値として平均mean(c)と分散値var(c)を計算し、出力する(S120)。
【0036】
F0情報抽出部210は、発話音声s(t)(t=0, 1, 2, …, T)を入力とし、当該発話音声s(t)を分割したフレーム毎にF0情報f(k)(k=0, 1, 2, …, K、kはフレーム番号を表す)を抽出し、出力する(S210)。F0情報f(k)はフレームkにおける声の高さの特徴量である。F0情報の抽出にはどのような方法を用いてもよい。図9は、抽出したF0情報の一例を示す。
【0037】
F0情報統計値計算部220は、S210で抽出したF0情報f(k)(k=0, 1, 2, …, K)から、F0情報の平均と中央値との差分medave(f)を計算し、出力する(S220)。図9からわかるように、有声音ではない区間(無声音または無音の区間)では、F0の値が0となる。F0の値が0となる区間を含めて平均や中央値を求めると、発話音声の以外の特徴も含まれることになるため、有声音の区間のみを用いて、F0情報の平均ave(f)と中央値med(f)を求める。具体的には、以下のようにして求める。まず、フレームkが有声音区間であるか否かを示す有声無声判定結果v(f(k))を次式により定義する。
【0038】
【数3】
【0039】
次に、F0情報の中央値med(f)を、F0情報の最小値min(f)とF0情報の最大値max(f)の平均として計算する。
【0040】
【数4】
【0041】
また、F0情報の平均値ave(f)を次式により計算する。
【0042】
【数5】
【0043】
そして、差分medave(f)を次式により計算する。
【0044】
【数6】
【0045】
緊急度推定部250は、緊急度推定モデル280を用いて、S120で計算した平均mean(c)と分散値var(c)、S220で計算した差分medave(f)から、発話音声s(t)(t=0, 1, 2, …, T)の話者の緊急度を推定し、出力する(S250)。緊急度推定モデル280は、発話音声の声道特徴量の平均と分散値、発話音声のF0情報の平均と中央値との差分を入力とし、発話音声の話者の緊急度を出力する。緊急度推定モデル280の学習方法は、第一実施形態と同様でよい。
【0046】
本発明によれば、特定の単語を必要としない、自由な発話音声を対象として話者の緊急度を推定することが可能となる。
【0047】
<第三実施形態>
発話音声のパワーは電話の機器によって異なるが、図10A図10Bからわかるように、1発話辺りのパワーの平均を揃えて緊急度が高い音声と緊急度が低い音声を比較すると、緊急度が高い音声は部分的に声が強くなる傾向がある。そこで、第三実施形態では、パワーの平均を揃えたうえでのパワーの最大値を声の強さとして、声の強さを用いて緊急度を推定する。なお、声道特徴量の統計値もあわせて用いることは第一実施形態と同様である。
【0048】
以下、図11図12を参照して緊急度推定装置300について説明する。図11は、緊急度推定装置300の構成を示すブロック図である。図12は、緊急度推定装置300の動作を示すフローチャートである。図11に示すように緊急度推定装置300は、声道特徴量抽出部110、声道特徴量統計値計算部120、F0情報抽出部210、パワー抽出部310、パワー平均調整部320、パワー最大値計算部330、緊急度推定部350、記録部390を含む。記録部390は、緊急度推定装置300の処理に必要な情報を適宜記録する構成部である。
【0049】
緊急度推定装置300は、緊急度推定モデル380を読み込み、処理を実行する。なお、緊急度推定モデル380は、図11のように外部の記録部に記録するよう構成してもよいし、記録部390に記録するよう構成してもよい。
【0050】
緊急度推定装置300は、発話音声s(t)(t=0, 1, 2, …, T、tはサンプル番号を表す)から、発話音声s(t)の話者の緊急度を推定し、出力する。
【0051】
図12に従い緊急度推定装置300の動作について説明する。声道特徴量抽出部110は、発話音声s(t)(t=0, 1, 2, …, T)を入力とし、当該発話音声s(t)を分割したフレーム毎に声道特徴量c(i)(i=0, 1, 2, …, I、iはフレーム番号を表す)を抽出し、出力する(S110)。声道特徴量統計値計算部120は、S110で抽出した声道特徴量c(i)(i=0, 1, 2, …, I)から、発話音声s(t)の声道特徴量統計値として平均mean(c)と分散値var(c)を計算し、出力する(S120)。F0情報抽出部210は、発話音声s(t)(t=0, 1, 2, …, T)を入力とし、当該発話音声s(t)を分割したフレーム毎にF0情報f(k)(k=0, 1, 2, …, K、kはフレーム番号を表す)を抽出し、出力する(S210)。
【0052】
パワー抽出部310は、発話音声s(t)(t=0, 1, 2, …, T)を入力とし、当該発話音声s(t)を分割したフレーム毎にパワーp(k)(k=0, 1, 2, …, K、kはフレーム番号を表す)を抽出し、出力する(S310)。パワーp(k)はフレームkにおける声の強さの特徴量である。パワーの抽出にはどのような方法を用いてもよい。
【0053】
パワー平均調整部320は、S210で抽出したF0情報f(k)(k=0, 1, 2, …, K)とS310で抽出したパワーp(k)(k=0, 1, 2, …, K)から、パワーの平均を用いて調整した調整済パワーp'(k)(k=0, 1, 2, …, K)を計算し、出力する(S320)。発話音声は無音区間(つまり、何も音声が入っていない区間)を含む。そのため、パワーの平均を計算する際に、無音区間も含めて計算してしまうと、無音区間が多いフレームkではパワーの平均が小さく算出されやすくなり、調整済パワーp'(k)が大きく算出されてしまう場合がある。そこで、確実に音声があると考えられる有声音区間(f(k)>0となるフレーム)についてのパワーの平均でパワーを除することによりパワーを揃えることで、無音区間の時間長に依らずに、電話機の録音レベルの違いを吸収したパワー(つまり、調整済パワー)を求めることができる。具体的には、以下のようにする。まず、フレームkが有声音区間であるか否かを示す有声無声判定結果v(f(k))を次式により定義する。
【0054】
【数7】
【0055】
そして、調整済パワーp'(k)を次式により計算する。
【0056】
【数8】
【0057】
パワー最大値計算部330は、S320で計算した調整済パワーp'(k)(k=0, 1, 2, …, K)から、調整済パワーの最大値であるパワー最大値max(p)を計算し、出力する(S330)。パワー最大値max(p)は次式により求めることができる。
【0058】
【数9】
【0059】
緊急度推定部350は、緊急度推定モデル380を用いて、S120で計算した平均mean(c)と分散値var(c)、S330で計算したパワー最大値max(p)から、発話音声s(t)(t=0, 1, 2, …, T)の話者の緊急度を推定し、出力する(S350)。緊急度推定モデル380は、発話音声の声道特徴量の平均と分散値、発話音声の調整済パワーの最大値を入力とし、発話音声の話者の緊急度を出力する。緊急度推定モデル380の学習方法は、第一実施形態と同様でよい。
【0060】
本発明によれば、特定の単語を必要としない、自由な発話音声を対象として話者の緊急度を推定することが可能となる。
【0061】
<第四実施形態>
第一実施形態では、音声認識を用いて話速を推定したが、発話音声で使われている単語が音声認識に用いるモデルに含まれていないと、正確な音声認識結果が得られないため、話速を正しく推定することができない。そのため、音声認識に用いるモデルに単語を登録するチューニング作業が不可欠となる。しかし、留守番電話に残されたメッセージのような制約のない発話についてあらゆる単語を事前に登録しておくのは現実的ではない。そこで、第四実施形態では、音声認識の音響モデル(入力された音が、どの音素の音であるかを識別するモデル)の事後確率の変化(事後確率系列)から推定した話速を用いて、緊急度を推定する。なお、声道特徴量の統計値もあわせて用いることは第一実施形態と同様である。
【0062】
図13は、事後確率系列の一例を示す。図13の表は、横方向が音素情報、縦方向が時間(フレーム番号)であり、各欄の値は、各フレームの音に対応する音素がどの程度の確率で正しいかを示した値である。話速が速いときはこの事後確率の遷移が速くなり、話速が遅いときはこの事後確率の遷移が遅くなる。この遷移の速さの特徴を捉えて、近似的に話速を求めることにより、正確な音声認識結果が得られなくても、話速を推定することが可能となる。
【0063】
以下、図14図15を参照して緊急度推定装置400について説明する。図14は、緊急度推定装置400の構成を示すブロック図である。図15は、緊急度推定装置400の動作を示すフローチャートである。図14に示すように緊急度推定装置400は、声道特徴量抽出部110、声道特徴量統計値計算部120、事後確率系列推定部410、第2話速推定部420、緊急度推定部450、記録部490を含む。記録部490は、緊急度推定装置400の処理に必要な情報を適宜記録する構成部である。
【0064】
緊急度推定装置400は、緊急度推定モデル480、音声認識音響モデル482、話速推定モデル484を読み込み、処理を実行する。なお、緊急度推定モデル480、音声認識音響モデル482、話速推定モデル484は、図14のように外部の記録部に記録するよう構成してもよいし、記録部490に記録するよう構成してもよい。
【0065】
緊急度推定装置400は、発話音声s(t)(t=0, 1, 2, …, T、tはサンプル番号を表す)から、発話音声s(t)の話者の緊急度を推定し、出力する。
【0066】
図15に従い緊急度推定装置400の動作について説明する。声道特徴量抽出部110は、発話音声s(t)(t=0, 1, 2, …, T)を入力とし、当該発話音声s(t)を分割したフレーム毎に声道特徴量c(i)(i=0, 1, 2, …, I、iはフレーム番号を表す)を抽出し、出力する(S110)。声道特徴量統計値計算部120は、S110で抽出した声道特徴量c(i)(i=0, 1, 2, …, I)から、発話音声s(t)の声道特徴量統計値として平均mean(c)と分散値var(c)を計算し、出力する(S120)。
【0067】
事後確率系列推定部410は、入力音から音素を識別する音声認識音響モデル482を用いて、発話音声s(t)(t=0, 1, 2, …, T)から、当該発話音声s(t)を分割したフレームkに該当する音が各音素である確率を示す事後確率系列P(k)(k=0, 1, 2, …, K、kはフレーム番号を表す)を推定し、出力する(S410)。事後確率系列P(k)は、その要素がフレームkに該当する音が各音素である確率であるベクトルである。したがって、事後確率系列P(k)の各要素の値は、0以上1以下の値であり、その合計は1になる。事後確率系列は、深層ニューラルネットワーク(DNN: Deep Neural Network)や長・短期記憶再帰型ネットワーク(LSTM: Long Short-Term Memory Network)のような音声認識の一般的なモデルを用いて推定する。図13の事後確率系列は、モノフォン・1状態の事後確率系列であるが、音声認識で一般的に使われるトライフォン・3状態のDNN-HMM(Hybrid Deep Neural Network-Hidden Markov Model)の出力を用いてもよい。
【0068】
第2話速推定部420は、話速推定モデル484を用いて、S410で推定した事後確率系列P(k)(k=0, 1, 2, …, K)から、発話音声s(t)の話速mean(r2)を推定し、出力する(S420)。話速推定モデル484は、発話音声の事後確率系列を入力とし、発話音声の話速を出力する。話速推定モデル484は、LSTMのような時系列モデルなどのニューラルネットワークを用いて構成することができる。具体的には、以下のようにして話速推定モデル(ニューラルネットワーク)のパラメータを学習する。まず、話速推定モデルの学習に用いる音声信号を複数用意する。次に、各音声信号に対して、事後確率系列推定部410と同様の方法により事後確率系列を求める。この事後確率系列が学習対象である話速推定モデルの入力となる。また、各音声信号に対して、書き起こしデータを作成し、書き起こしデータを構成する各音素の開始時刻と終了時刻を求め、第1話速推定部140と同様の方法により音声信号の話速を求める。その際、第1話速推定部140で用いる読みの代わりに、書き起こしデータを用いればよい。ここで求めた話速が正解ラベルとなる。そして、事後確率系列を入力として、話速推定モデルを用いて話速を推定し、推定結果である話速と正解ラベルの話速の誤差が小さくなるように話速推定モデルのパラメータを更新する。
【0069】
緊急度推定部450は、緊急度推定モデル480を用いて、S120で計算した平均mean(c)と分散値var(c)、S420で推定した話速mean(r2)から、発話音声s(t)(t=0, 1, 2, …, T)の話者の緊急度を推定し、出力する(S450)。緊急度推定モデル480は、発話音声の声道特徴量の平均と分散値、発話音声の話速を入力とし、発話音声の話者の緊急度を出力する。緊急度推定モデル480の学習方法は、第一実施形態と同様でよい。
【0070】
本発明によれば、特定の単語を必要としない、自由な発話音声を対象として話者の緊急度を推定することが可能となる。
【0071】
<第五実施形態>
第一実施形態から第四実施形態では、声道特徴量統計値に、話速、声の高さ、声の強さ(パワーの大きさ)のいずれか一つの特徴量を組み合わせて緊急度を推定したが、声道特徴量統計値に、話速、声の高さ、声の強さの特徴量のうち、2つ以上の特徴量を組み合わせて緊急度を推定するようにしてもよい。そこで、第五実施形態では、第一実施形態から第四実施形態で用いた特徴量の組み合わせを用いて、緊急度を推定する構成について説明する。ここでは、まず、第一実施形態の話速、第二実施形態の声の高さ、第三実施形態の声の強さを示す3つの特徴量を用いる構成について説明する。
【0072】
以下、図16図17を参照して緊急度推定装置500について説明する。図16は、緊急度推定装置500の構成を示すブロック図である。図17は、緊急度推定装置500の動作を示すフローチャートである。図16に示すように緊急度推定装置500は、声道特徴量抽出部110、声道特徴量統計値計算部120、音声認識部130、第1話速推定部140、F0情報抽出部210、F0情報統計値計算部220、パワー抽出部310、パワー平均調整部320、パワー最大値計算部330、緊急度推定部550、記録部590を含む。記録部590は、緊急度推定装置500の処理に必要な情報を適宜記録する構成部である。
【0073】
緊急度推定装置500は、緊急度推定モデル580(図示しない)を読み込み、処理を実行する。緊急度推定モデル580は、事前に記録部590に記録しているものとする。
【0074】
緊急度推定装置500は、発話音声s(t)(t=0, 1, 2, …, T、tはサンプル番号を表す)から、発話音声s(t)の話者の緊急度を推定し、出力する。
【0075】
図17に従い緊急度推定装置500の動作について説明する。S110からS330までの処理は、第一実施形態から第三実施形態までのそれと同じである。そこで、以下、S550について説明する。
【0076】
緊急度推定部550は、緊急度推定モデル580を用いて、S120で計算した平均mean(c)と分散値var(c)、S140で推定した話速mean(r)、S220で計算した差分medave(f)、S330で計算したパワー最大値max(p)から、発話音声s(t)(t=0, 1, 2, …, T)の話者の緊急度を推定し、出力する(S550)。緊急度推定モデル580は、発話音声の声道特徴量の平均と分散値、発話音声の話速、発話音声のF0情報の平均と中央値との差分、発話音声の調整済パワーの最大値を入力とし、発話音声の話者の緊急度を出力する。緊急度推定モデル580の学習方法は、第一実施形態と同様でよい。
【0077】
緊急度推定装置500では、第一実施形態の話速を用いたが、第一実施形態の話速の代わりに、第四実施形態の話速を用いてもよい。ここでは、第四実施形態の話速、第二実施形態の声の高さ、第三実施形態の声の強さを示す3つの特徴量を用いる構成について説明する。
【0078】
以下、図18図19を参照して緊急度推定装置501について説明する。図18は、緊急度推定装置501の構成を示すブロック図である。図19は、緊急度推定装置501の動作を示すフローチャートである。図18に示すように緊急度推定装置501は、声道特徴量抽出部110、声道特徴量統計値計算部120、事後確率系列推定部410、第2話速推定部420、F0情報抽出部210、F0情報統計値計算部220、パワー抽出部310、パワー平均調整部320、パワー最大値計算部330、緊急度推定部551、記録部590を含む。記録部590は、緊急度推定装置501の処理に必要な情報を適宜記録する構成部である。
【0079】
緊急度推定装置501は、緊急度推定モデル581(図示しない)、音声認識音響モデル482(図示しない)、話速推定モデル484(図示しない)を読み込み、処理を実行する。緊急度推定モデル581、音声認識音響モデル482、話速推定モデル484は、事前に記録部590に記録しているものとする。
【0080】
緊急度推定装置501は、発話音声s(t)(t=0, 1, 2, …, T、tはサンプル番号を表す)から、発話音声s(t)の話者の緊急度を推定し、出力する。
【0081】
図19に従い緊急度推定装置501の動作について説明する。S110からS330までの処理は、第二実施形態から第四実施形態までのそれと同じである。そこで、以下、S551について説明する。
【0082】
緊急度推定部551は、緊急度推定モデル581を用いて、S120で計算した平均mean(c)と分散値var(c)、S420で推定した話速mean(r2)、S220で計算した差分medave(f)、S330で計算したパワー最大値max(p)から、発話音声s(t)(t=0, 1, 2, …, T)の話者の緊急度を推定し、出力する(S551)。緊急度推定モデル581は、発話音声の声道特徴量の平均と分散値、発話音声の話速、発話音声のF0情報の平均と中央値との差分、発話音声の調整済パワーの最大値を入力とし、発話音声の話者の緊急度を出力する。緊急度推定モデル581の学習方法は、第一実施形態と同様でよい。
【0083】
緊急度推定装置500や緊急度推定装置501では、声道特徴量統計値に加えて、話速、声の高さ、声の強さを示す3つの特徴量すべてを用いて、緊急度を推定したが、必ずしも3つの特徴量すべてを用いる必要はない。3つの特徴量のうち、2つの特徴量を用いて緊急度推定を行うようにしてもよい。この場合は、緊急度推定装置500や緊急度推定装置501に含まれる構成部のうち、推定に用いる特徴量の計算に必要となる構成部、緊急度推定部、記録部を含むように緊急度推定装置を構成すればよい。
【0084】
以下、図20図21を参照して、そのような構成の一例である緊急度推定装置502について説明する。図20は、緊急度推定装置502の構成を示すブロック図である。図21は、緊急度推定装置502の動作を示すフローチャートである。図20に示すように緊急度推定装置502は、特徴量抽出部510、緊急度推定部552、記録部590を含む。記録部590は、緊急度推定装置502の処理に必要な情報を適宜記録する構成部である。
【0085】
緊急度推定装置502は、発話音声s(t)(t=0, 1, 2, …, T、tはサンプル番号を表す)から、発話音声s(t)の話者の緊急度を推定し、出力する。
【0086】
図21に従い緊急度推定装置502の動作について説明する。特徴量抽出部510は、発話音声s(t)(t=0, 1, 2, …, T)を入力とし、当該発話音声s(t)の特徴量を抽出し、出力する(S510)。ここで、特徴量とは、発話音声の話速を示す特徴、発話音声の声の高さを示す特徴、発話音声のパワーの大きさを示す特徴のうち少なくとも1つの特徴を含むものである。また、発話音声の話速を示す特徴とは、例えば、第一実施形態の話速や第四実施形態の話速のことであり、発話音声の声の高さを示す特徴とは、例えば、第二実施形態の声の高さのことであり、発話音声のパワーの大きさを示す特徴とは、例えば、第三実施形態の声の強さ(パワーの大きさ)のことである。特徴量が、特徴として、例えば、第一実施形態の話速を含む場合は、特徴量抽出部510は音声認識部130と第1話速推定部140を含むとよいし、第三実施形態の声の強さを含む場合は、特徴量抽出部510はF0情報抽出部210とパワー抽出部310とパワー平均調整部320とパワー最大値計算部330を含むとよい。
【0087】
緊急度推定部552は、予め定められた、発話音声から抽出された特徴量と発話音声の話者の緊急度との関係性に基づいて、S510で抽出した特徴量から、発話音声s(t)(t=0, 1, 2, …, T)の話者の緊急度を推定し、出力する(S552)。特徴量と緊急度との関係性は、例えば、発話音声から抽出された特徴量を入力とし、発話音声の話者の緊急度を出力するように学習された緊急度推定モデルにより与えられる。また、当該関係性は、以下のような性質を有する。
(1)特徴量が発話音声の話速を示す特徴を含む場合、話速を示す特徴が、話速が速いことに対応する場合の方が、話速が遅いことに対応する場合よりも緊急度が高いと推定されやすい。
(2)特徴量が発話音声の声の高さを示す特徴を含む場合、声の高さを示す特徴が、声の高さが高いことに対応する場合の方が、声の高さが低いことに対応する場合よりも緊急度が高いと推定されやすい。
(3)特徴量が発話音声のパワーの大きさを示す特徴を含む場合、パワーの大きさを示す特徴が、パワーが大きいことに対応する場合の方が、パワーが小さいことに対応する場合よりも緊急度が高いと推定されやすい。
【0088】
本発明によれば、特定の単語を必要としない、自由な発話音声を対象として話者の緊急度を推定することが可能となる。
【0089】
<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
【0090】
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
【0091】
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。
【0092】
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
【0093】
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
【0094】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
【0095】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【0096】
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
【0097】
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
【0098】
上述の本発明の実施形態の記載は、例証と記載の目的で提示されたものである。網羅的であるという意思はなく、開示された厳密な形式に発明を限定する意思もない。変形やバリエーションは上述の教示から可能である。実施形態は、本発明の原理の最も良い例証を提供するために、そして、この分野の当業者が、熟考された実際の使用に適するように本発明を色々な実施形態で、また、色々な変形を付加して利用できるようにするために、選ばれて表現されたものである。すべてのそのような変形やバリエーションは、公正に合法的に公平に与えられる幅にしたがって解釈された添付の請求項によって定められた本発明のスコープ内である。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10A
図10B
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21
【国際調査報告】