IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧

特許7173339発話評価装置、発話評価方法、およびプログラム
<>
  • 特許-発話評価装置、発話評価方法、およびプログラム 図1
  • 特許-発話評価装置、発話評価方法、およびプログラム 図2
  • 特許-発話評価装置、発話評価方法、およびプログラム 図3
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-11-08
(45)【発行日】2022-11-16
(54)【発明の名称】発話評価装置、発話評価方法、およびプログラム
(51)【国際特許分類】
   G10L 25/60 20130101AFI20221109BHJP
   G10L 21/007 20130101ALI20221109BHJP
【FI】
G10L25/60
G10L21/007
【請求項の数】 8
(21)【出願番号】P 2021528679
(86)(22)【出願日】2019-06-25
(86)【国際出願番号】 JP2019025048
(87)【国際公開番号】W WO2020261357
(87)【国際公開日】2020-12-30
【審査請求日】2021-10-11
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(74)【代理人】
【識別番号】100121706
【弁理士】
【氏名又は名称】中尾 直樹
(74)【代理人】
【識別番号】100128705
【弁理士】
【氏名又は名称】中村 幸雄
(74)【代理人】
【識別番号】100147773
【弁理士】
【氏名又は名称】義村 宗洋
(72)【発明者】
【氏名】廣谷 定男
【審査官】梅本 達雄
(56)【参考文献】
【文献】特開2007-133031(JP,A)
【文献】特開2018-205768(JP,A)
【文献】太田 悠平 Yuhei OTA,F0量子化と非パラレル学習に基づく声質変換の検討 A Study on Voice Conversion Based on F0 Quantization and Non-parallel Training,電子情報通信学会技術研究報告 Vol.109 No.355 IEICE Technical Report,日本,社団法人電子情報通信学会 The Institute of Electronics,Information and Communication Engineers,2009年12月,第109巻,pp.171-176
【文献】小山田 圭佑 Keisuke OYAMADA,無矛盾逐次変換ネットワークと敵対的生成ネットワークを用いた非母語話者音声変換 Non-native speech conversion with consistency-aware recursive network and generative adversarial network,電子情報通信学会技術研究報告 Vol.116 No.477 IEICE Technical Report,日本,一般社団法人電子情報通信学会 The Institute of Electronics,Information and Communication Engineers,2017年03月,第116巻,pp.315-320
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00 - 13/10
G10L 19/00 - 99/00
(57)【特許請求の範囲】
【請求項1】
第一グループの話者が発話した入力音声信号から音響特徴量を抽出する特徴量抽出部と、
上記入力音声信号の音響特徴量を第二グループの話者が上記入力音声信号と同一のテキストを発話したときの音響特徴量に変換する変換部と、
上記変換前の音響特徴量と上記変換後の音響特徴量との距離が近いほど評価が高くなるスコアを算出する評価部と、
を含む発話評価装置。
【請求項2】
請求項1に記載の発話評価装置であって、
上記音響特徴量は、少なくとも音素の継続時間長を含み、
上記スコアは、上記変換前の継続時間長と上記変換後の継続時間長との距離が近いほど評価が高くなる、
発話評価装置。
【請求項3】
請求項1に記載の発話評価装置であって、
上記音響特徴量は、少なくとも音素の基本周波数を含み、
上記スコアは、上記変換前の基本周波数と上記変換後の基本周波数との距離が近いほど評価が高くなる、
発話評価装置。
【請求項4】
請求項1から3のいずれかに記載の発話評価装置であって、
上記スコアは、0点から100点までの値を取り、値が大きいほど評価が高いことを表す、
発話評価装置。
【請求項5】
請求項1から4のいずれかに記載の発話評価装置であって、
第一グループの話者が発話した第一音声信号から抽出した第一音響特徴量と第二グループの話者が発話した第二音声信号から抽出した第二音響特徴量とから学習した音響特徴量変換則ベクトルを表すガウス混合モデルを記憶するモデル記憶部をさらに含み、
上記変換部は、
上記ガウス混合モデルの中の、上記第一音響特徴量に対応する次元のガウス混合モデルを第一ガウス混合モデルとして、上記入力音声信号から抽出した音響特徴量に上記第一ガウス混合モデルが最も良く当てはまるように上記第一ガウス混合モデルの重みを求め、
上記ガウス混合モデルの中の、上記第二音響特徴量に対応する次元のガウス混合モデルを第二ガウス混合モデルとして、第二ガウス混合分布の各次元のガウス混合モデルを構成するガウス分布の平均値を、上記重みを用いて重み付き加算することにより、上記変換後の音響特徴量を求めるものである、
発話評価装置。
【請求項6】
請求項1から4のいずれかに記載の発話評価装置であって、
第一グループの話者が発話した第一音声信号から抽出した音響特徴量を入力とし、上記第一音声信号の音響特徴量を、第二グループの話者が上記第一音声信号と同一のテキストを発話したときの音響特徴量に変換して出力するニューラルネットワークである音響特徴量変換モデルを記憶するモデル記憶部をさらに含み、
上記変換部は、上記入力音声信号から抽出した音響特徴量を上記音響特徴量変換モデルに入力して上記変換後の音響特徴量を求めるものである、
発話評価装置。
【請求項7】
特徴量抽出部が、第一グループの話者が発話した入力音声信号から音響特徴量を抽出し、
変換部が、上記入力音声信号の音響特徴量を第二グループの話者が上記入力音声信号と同一のテキストを発話したときの音響特徴量に変換し、
評価部が、上記変換前の音響特徴量と上記変換後の音響特徴量との距離が近いほど評価が高くなるスコアを算出する、
発話評価方法。
【請求項8】
請求項1から6のいずれかに記載の発話評価装置としてコンピュータを機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
この発明は、音声信号の発話を評価する技術に関する。
【背景技術】
【0002】
日本語母語話者の英語の発話訓練においては、発話の良し悪しを定量化する技術が重要である。発話リズムやイントネーションは日本語と英語で大きく異なっており、日本語母語話者が発話した英語の発話リズムやイントネーションは日本語のそれになるため、英語母語話者に伝わりにくいことが知られている。日本語母語話者の英語音声の発話リズムやイントネーションを定量化する方法として、例えば非特許文献1がある。非特許文献1では、日本語母語話者と英語母語話者が同一の文章を発話した音声と、その日本語母語話者の発話リズムやイントネーションを英語母語話者が5段階で評価したスコアとを学習データとして用い、日本語母語話者と英語母語話者の音節時間長とスコアとの関係をモデル化することで、発話リズムやイントネーションの定量化を行う。
【先行技術文献】
【非特許文献】
【0003】
【文献】Yoichi Yamashita, Keisuke Kato, and Kazunori Nozawa, "Automatic Scoring for Prosodic Proficiency of English Sentences Spoken by Japanese Based on Utterance Comparison," IEICE transactions on information and systems, vol. 88(3), pp. 496-501, 2005-03-01.
【発明の概要】
【発明が解決しようとする課題】
【0004】
非特許文献1では、発話リズムやイントネーションの評価のために、評価に用いる発話の文章と、英語母語話者が同一の文章を発話した音声と、評価に用いる発話を英語母語話者が評価したスコアとが必要となる。つまり、あらかじめ決められた文章でなければ発話リズムやイントネーションの評価を行うことができない。また、発話リズムやイントネーションにおける“英語らしさ”を評価しているというよりも、評価の目標となる特定の英語母語話者の音声に近いかどうかを評価することになるため、例えば、同じ日本語母語話者の英語音声を入力しても、話速の異なる英語母語話者を目標とした場合、異なる評価結果が得られるなど、安定した結果が得られない可能性がある。
【0005】
この発明の目的は、上記のような技術的課題に鑑みて、任意の文章を発話した音声から安定した評価結果を得ることができる発話評価技術を実現することである。
【課題を解決するための手段】
【0006】
上記の課題を解決するために、この発明の一態様の発話評価装置は、第一グループの話者が発話した入力音声信号から音響特徴量を抽出する特徴量抽出部と、入力音声信号の音響特徴量を第二グループの話者が入力音声信号と同一のテキストを発話したときの音響特徴量に変換する変換部と、変換前の音響特徴量と変換後の音響特徴量との距離が近いほど評価が高くなるスコアを算出する評価部と、を含む。
【発明の効果】
【0007】
この発明の発話評価技術によれば、任意の文章を発話した音声から安定した評価結果を得ることができる。
【図面の簡単な説明】
【0008】
図1図1は、発話評価装置の機能構成を例示する図である。
図2図2は、発話評価方法の処理手順を例示する図である。
図3図3は、コンピュータの機能構成を例示する図である。
【発明を実施するための形態】
【0009】
[発明の概要]
この発明の発話評価技術は、例えば、下記参考文献1に記載された発話リズム変換技術を用いて、従来技術の課題を解決する。
【0010】
〔参考文献1〕特開2016-218386号公報
参考文献1は、任意の文章の日本語母語話者の英語音声の発話リズムを、英語母語話者の発話リズムに変換する技術である。この技術を用いれば、日本語母語話者の英語音声の発話リズムが大きく改善する、すなわち英語母語話者のそれに近づくことがわかっている。一方、英語の得意な日本語母語話者あるいは英語母語話者の英語音声の発話リズムを変換対象とした場合は、変換前後で発話リズムがほとんど変わらないことがわかっている。つまり、変換前後で発話リズムがほとんど変わらない場合は高い評価となり、大きく変わる場合は低い評価となるようなスコアを設計することで、発話リズムの英語らしさを評価することができる。
【0011】
参考文献1では、変換後の音声が特定の英語母語話者の音声になるわけではなく、例えば、入力された音声の話速に従った変換後の音声を出力することができる。つまり、安定した評価結果が得られないという従来技術の問題を解決できる。また、参考文献1では、任意の英語文章に対して変換を行うことができるため、あらかじめ決められた文章でなければ評価できないという従来技術の問題も解決できる。
【0012】
[実施形態]
以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
【0013】
この発明の実施形態は、第一グループの話者による音声信号の発話リズムを、第二グループの話者の発話リズムに変換し、変換前後の発話リズムに基づいて発話リズムのネイティブらしさを表すスコアを算出して出力する発話評価装置および方法である。ここで、第一グループとは、例えば、第一言語(例えば、日本語)を母語とする話者(例えば、日本語母語話者)である。第二グループとは、例えば、第二言語(例えば、英語)を母語とする話者(例えば、英語母語話者)である。ネイティブらしさとは、第二グループの話者が第二言語を発話したときの特徴が現れている程度を表す。
【0014】
実施形態の発話評価装置1は、図1に例示するように、モデル記憶部10、特徴量抽出部11、変換部12、および評価部13を備える。この発話評価装置1が、図2に例示する各ステップの処理を行うことにより実施形態の発話評価方法が実現される。
【0015】
発話評価装置1は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。発話評価装置1は、例えば、中央演算処理装置の制御のもとで各処理を実行する。発話評価装置1に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。発話評価装置1の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。発話評価装置1が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。
【0016】
モデル記憶部10には、予め学習した発話リズム変換モデル(以下、「音響特徴量変換モデル」とも呼ぶ)が記憶されている。発話リズム変換モデルは、第一グループの話者が発話した音声を収録した音声信号から抽出した特徴量ベクトルを入力とし、第一グループの話者の発話リズムを第二グループの話者の発話リズムに変換して出力するニューラルネットワークである。発話リズム変換モデルは、第一グループの話者が第二言語で発話した音声を収録した音声信号(以下、「第一音声信号」と呼ぶ)と、第二グループの話者が第二言語で発話した音声を収録した音声信号(以下、「第二音声信号」と呼ぶ)との組からなるデータの集合(以下、「学習データ」と呼ぶ)を用いて、深層学習により、予め学習されたものである。学習データは、例えば、日本語母語話者が英語で発話した音声信号と、英語母語話者が同一のテキストを英語で発話した音声信号とを組にした十分な量のデータである。
【0017】
ニューラルネットワークとしては、例えば、512ユニット、5層からなる多層パーセプトロン(MLP: Multi Layer Perceptron)や、5層、フィルタ数512で構成される畳み込みニューラルネットワーク(CNN: Convolutional Neural Network)等を用いればよい。畳み込みニューラルネットワークを用いる場合、入力側から順にフィルタを、例えば、(10, 2), (8, 1), (6, 1), (3, 1), (1, 2)とすればよい。
【0018】
ニューラルネットワークの学習は、具体的には、以下のようにして行う。学習データは、第一音声信号から抽出した発話リズムに関する情報を含む特徴量ベクトルと、第二音声信号から抽出した発話リズムに関する情報との組からなるデータの集合である。学習データは、例えば、日本語母語話者が英語で発話した音声信号の特徴量ベクトルと、英語母語話者が同一のテキストを英語で発話した音声信号の発話リズムに関する情報とを組にした十分な量のデータである。特徴量ベクトルに含まれる特徴量の種類(属性)は、後述する特徴量抽出部11で抽出する特徴量と同様とする。まず、予め適当な初期値が設定されたニューラルネットワークに、学習データ中の第一音声信号の特徴量ベクトルを入力し、変換後の発話リズム情報の推定値を求める。次に、変換後の発話リズム情報の推定値と、入力した特徴量ベクトルに対応する学習データ中の第二音声信号の発話リズム情報(正解データ)との比較結果に応じて、ニューラルネットワークの各パラメータを更新する。パラメータの更新は周知の誤差伝搬学習法などにより行えばよい。例えば、発話リズム情報の推定値と正解データとの平均二乗誤差を最小化するようにパラメータの更新(学習)を行う。その後、所定の終了条件を満たすか否かを判定する。終了条件を満たす場合には、学習を終了する。終了条件を満たさない場合には、再度発話リズム情報の変換とパラメータの更新を実行する。所定の終了条件は、予め設定された繰り返し回数に到達したこと、発話リズム情報の推定値と正解データとの誤差が所定の閾値以下になったこと、パラメータの更新量が所定の閾値以下となったこと等を用いればよい。
【0019】
ステップS11において、特徴量抽出部11は、発話評価装置1に入力された第一音声信号(以下、「入力音声信号」と呼ぶ)からフレーム毎に特徴量を抽出し、その特徴量を含む特徴量ベクトルを生成する。特徴量抽出部11は、抽出した特徴量ベクトルを、変換部12および評価部13へ出力する。
【0020】
特徴量抽出部11が抽出する特徴量は、発話リズムに関する情報(以下、「発話リズム情報」とも呼ぶ)(Φ1,t, D1,t)を含む。ただし、D1,tは変換対象の音素ptの継続時間長であり、tは入力音声信号に含まれる音素の番号である。継続時間長の求め方は、例えば、参考文献2の段落[0011]-[0027]に記載された方法を用いることができる。抽出する特徴量は、発話リズム情報(Φ1,t, D1,t)のほかに、音素ptの駆動時点(その音素を最もよく表す時刻)におけるメル周波数ケプストラム係数(MFCC: Mel-Frequency Cepstrum Coefficients)や基本周波数F0等、音声信号に関する既知の特徴量をさらに含んでいてもよい。
【0021】
〔参考文献2〕特開2016-218386号公報
特徴量抽出部11が生成する特徴量ベクトルは、連続する所定数の音素についての特徴量を並べたベクトルである。例えば、変換対象の音素ptの特徴量を((Φ1,t, D1,t), MFCC1,t, F01,t)とすれば、特徴量ベクトルは連続する3つの音素pt-1, pt, pt+1の特徴量を並べた(Φ1,t-1, Φ1,t, Φ1,t+1, D1,t-1, D1,t, D1,t+1, MFCC1,t-1, MFCC1,t, MFCC1,t+1, Flag1,t-1, F01,t-1, Flag1,t, F01,t, Flag1,t+1, F01,t+1)Tと表すことができる。ここで、・T(上付きのT)は行列またはベクトルの転置を表す。Flagは有声か無声かを表す情報であり、例えば有声の場合は1、無声の場合は0が設定される。
【0022】
特徴量抽出部11は、例えば、表1に示す要素からなる特徴量ベクトルを抽出する。表1において、1段目は要素の種類(属性)を表し、2段目はその要素を抽出した音素の番号を表し、3段目はその要素の次数を表す。
【0023】
【表1】
【0024】
ΦJは日本語母語話者のサンプリングした時間関数を10点でサンプリングしたものとする。ただし、ΦJの1次および10次(最終次)の値は常に0.5のため、特徴量ベクトルから除外する。DJは音素の継続時間長である。MFCCは音声認識等で用いられる音声信号から抽出されるメルケプストラム周波数であり、13次で分析し、0次項(ゲイン)を除いた13次を用いるものとする。F0は無音の値を補完してHzにlogを取り、平均値を引いて正規化したものとする。Flagは有声が1、無声が0のフラグ情報を表すものとする。この例では、入力音声信号に対する特徴量ベクトルは72次のベクトルとなる。
【0025】
発話リズム変換モデルを多層パーセプトロン(MLP)で構成する場合は、この72次のベクトルを変換部12へ入力する。発話リズム変換モデルを畳み込みニューラルネットワーク(CNN)で構成する場合は、1つ前の音素pt-1に関する24次のベクトル(Φ1,t-1, D1,t-1, MFCC1,t-1, Flag1,t-1, F01,t-1)Tと、現在の音素ptに関する24次のベクトル(Φ1,t, D1,t, MFCC1,t, Flag1,t, F01,t)Tと、1つ後の音素pt+1に関する24次のベクトル(Φ1,t+1, D1,t+1, MFCC1,t+1, Flag1,t+1, F01,t+1)Tとからなる24×3行列を変換部12へ入力する。
【0026】
ステップS12において、変換部12は、特徴量抽出部11から入力音声信号の特徴量ベクトルを受け取り、モデル記憶部10に記憶された発話リズム変換モデルへその特徴量ベクトルを入力して、入力音声信号の発話リズムを第二グループの話者の発話リズムに変換した変換後の発話リズム情報(Φ2,t, D2,t)を得る。ただし、D2,tは変換後の音素の継続時間長を表す。変換部12は、得られた変換後の継続時間長D2,tを評価部13へ出力する。
【0027】
変換部12は、例えば、上述の72次の特徴量ベクトルを入力としたとき、ΦEを英語母語話者のサンプリングした時間関数を20点でサンプリングしたものとし、表2に示す要素からなる21次のベクトルを出力する。
【0028】
【表2】
【0029】
ステップS13において、評価部13は、特徴量抽出部11が生成した変換前の継続時間長D1,tと変換部12が生成した変換後の継続時間長D2,tとから発話リズムのネイティブらしさを表すスコアを算出して出力する。スコアは、変換前の継続時間長D1,tと変換後の継続時間長D2,tとの距離に基づいて算出される。スコアは、例えば、0点から100点までの値を取り、値が大きいほど評価が高いことを表すものとする。
【0030】
変換前の継続時間長D1,tと変換後の継続時間長D2,tとの距離が近いということは、入力音声信号の発話リズムが元々第二グループの話者の発話リズムに近かったことを意味する。一方、変換前の継続時間長D1,tと変換後の継続時間長D2,tとの距離が遠いということは、入力音声信号の発話リズムが第二グループの話者の発話リズムと異なっていたことを意味する。すなわち、変換前の継続時間長D1,tと変換後の継続時間長D2,tとの距離が近いほど評価が高くなるようスコアを設計すればよい。具体的には、式(1)を計算することにより、100点満点のスコアを求めることができる。
【0031】
【数1】
【0032】
ここで、Kは入力音声信号内の音素の数であり、Mは第二音声信号(例えば、英語母語話者の英語音声)を入力した際の式(2)の最小値である。
【0033】
【数2】
【0034】
基本的に、Mの値よりも第一音声信号(例えば、日本語母語話者の英語音声)を入力したときの式(2)の値が下回ることはないため、100点を超えることはない。仮に、式(1)の値が0~100の範囲内に入らない場合は、下限を0、上限を100としてクリッピングを行えばよい。
【0035】
[変形例1]
第二グループの話者が入力音声信号の発話リズムを5段階評価したスコアがあれば、式(1)の値をそのスコアに変換することで、より人間に近い評価を与えることができる。式(1)の値をそのスコアに変換するためには、線形回帰やニューラルネットワークなどの一般的な変換手法を用いることができる。
【0036】
[変形例2]
実施形態の変換部12は、ニューラルネットワークにより構成された発話リズム変換モデルを用いて発話リズム情報を変換したが、発話リズムの変換方法は、この方法に限定されず、第一グループの話者が発話した発話リズムを第二グループの話者の発話リズムに変換できる、その他の技術を用いてもよい。例えば、上記参考文献2に記載の発話リズム変換技術を用いて、以下のように発話リズムを変換することができる。
【0037】
変形例2の発話リズム変換モデルは、第一グループの話者が発話した第一音声信号から抽出した発話リズム情報と第二グループの話者が発話した第二音声信号から抽出した発話リズム情報とから学習した発話リズム変換則ベクトル(以下、「音響特徴量変換則ベクトル」とも呼ぶ)を表すガウス混合モデルである。発話リズム情報は、実施形態と同様に、少なくとも音素の継続時間長を含む。発話リズム変換則ベクトルの学習方法の詳細は、参考文献2の段落[0027]~[0032]を参照されたい。
【0038】
変形例2の変換部12は、ガウス混合モデルにより構成された発話リズム変換モデルを用いて発話リズム情報を変換する。まず、変換部12は、ガウス混合モデルの中の、第一発話リズムに対応する次元のガウス混合モデルを第一ガウス混合モデルとして、入力音声信号から抽出した発話リズム情報に第一ガウス混合モデルが最も良く当てはまるように第一ガウス混合モデルの重みを求める。次に、ガウス混合モデルの中の、第二発話リズムに対応する次元のガウス混合モデルを第二ガウス混合モデルとして、第二ガウス混合分布の各次元のガウス混合モデルを構成するガウス分布の平均値を、重みを用いて重み付き加算することにより、変換後の発話リズム情報を求める。変換部12は、変換後の発話リズム情報に含まれる変換後の音素の継続時間長D2,tを評価部13へ出力する。発話リズムの変換方法の詳細は、参考文献2の段落[0038]~[0046]を参照されたい。
【0039】
[その他の応用]
式(1)のDを時間関数Φに置き換えたものを式(3)とし、式(1)と式(3)を加え、発話リズムの評価精度を上げることも可能である。発話を変換することにより評価するというアイディアは、発話リズム以外にも、イントネーション、アクセント、発音などの他の音声特徴に対しても適用可能である。例えば、イントネーションやアクセントを評価したい場合は、変換前後のF0の値を式(1)のDと置き換えればよい。
【0040】
発話評価技術は、発話リズムの訓練に用いることができる。例えば、日本語母語話者が任意の文章の英語音声を発話し、その発話リズムを変換した音声と、その発話リズムのスコアとを話者に提示する。そして、変換された音声を真似て発話することで、次第にスコアが向上することが期待できる。この訓練をより効果的に行うため、各音素における距離を視覚的に表示してもよい。
【0041】
継続時間長の求め方として、参考文献2の段落[0011]-[0027]に記載された方法以外にも、人間の目と耳による音声波形の音素ラベリングによる方法、あるいは自動音素ラベリングによる方法を用いても良い。また、式(1)の例では、音素の継続時間長を用いているが、音節や単語の継続時間長を用いても良い。
【0042】
以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
【0043】
[プログラム、記録媒体]
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムを図3に示すコンピュータの記憶部1020に読み込ませ、制御部1010、入力部1030、出力部1040などに動作させることにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
【0044】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
【0045】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【0046】
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
【0047】
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
図1
図2
図3