(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-11-25
(45)【発行日】2024-12-03
(54)【発明の名称】音説明文生成方法、音説明文生成装置、およびプログラム
(51)【国際特許分類】
G06F 16/33 20190101AFI20241126BHJP
G06F 40/56 20200101ALI20241126BHJP
G10L 25/48 20130101ALI20241126BHJP
G10L 25/30 20130101ALN20241126BHJP
【FI】
G06F16/33
G06F40/56
G10L25/48
G10L25/30
(21)【出願番号】P 2022563312
(86)(22)【出願日】2020-11-18
(86)【国際出願番号】 JP2020043028
(87)【国際公開番号】W WO2022107250
(87)【国際公開日】2022-05-27
【審査請求日】2023-04-26
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(74)【代理人】
【識別番号】100121706
【氏名又は名称】中尾 直樹
(74)【代理人】
【識別番号】100128705
【氏名又は名称】中村 幸雄
(74)【代理人】
【識別番号】100147773
【氏名又は名称】義村 宗洋
(72)【発明者】
【氏名】小泉 悠馬
(72)【発明者】
【氏名】安田 昌弘
【審査官】鹿野 博嗣
(56)【参考文献】
【文献】KOIZUMI, Yuma, MASUMURA, Ryo, NISHIDA, Kyosuke, YASUDA, Masahiro, and SAITO, Shoichiro,A Transformer-based Audio Captioning Model with Keyword Estimation,Interspeech 2020,日本,2020年08月08日,[retrieved on 2024.05.07], Internet: <URL:https://arxiv.org/abs/2007.00222>
【文献】勝田 有一朗,コンピュータの未来技術[第157回],I/O 第44巻 第8号,日本,株式会社工学社,2019年08月01日,p.102~104
【文献】岡本 香帆里、山西 良典、松下 光範,複数観点に基づく探索的効果音検索システム SERVAの開発とユーザ観察,第8回データ工学と情報マネジメントに関するフォーラム(第14回日本データベース学会年次大会) [online],日本,電子情報通信学会データ工学研究専門委員会、日本データベース学会、情報処理学会データベースシステム研究会,2016年03月02日,[検索日 2024.05.07], インターネット<URL:http://db-event.jpn.org/deim2016/papers/397.pdf>
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
G06F 40/00-40/58
G10L 25/00-25/93
(57)【特許請求の範囲】
【請求項1】
対象音の説明文を生成する音説明文生成方法であって、
ガイダンス説明文検索部が、前記対象音と類似する音響信号に対応する説明文を複数取得し、
説明文生成部が、
前記取得された説明文と、前記対象音の説明文の先頭から直前までの単語列と、前記対象音の音響特徴量と、を統合した特徴量を用いて、前記対象音の説明文の現在の単語を決定する
音説明文生成方法。
【請求項2】
請求項1に記載の音説明文生成方法であって、
前記ガイダンス説明文検索部は、第一の音響信号を説明する説明文と第二の音響信号を説明する説明文とが類似するほど、前記第一の音響信号と前記第二の音響信号が類似すると判定されやすくなるよう構成されている、
音説明文生成方法。
【請求項3】
対象音の説明文を生成する音説明文生成装置であって、
前記対象音と類似する音響信号に対応する説明文を複数取得するガイダンス説明文検索部と、
前記取得された説明文と、前記対象音の説明文の先頭から直前までの単語列と、前記対象音の音響特徴量と、を統合した特徴量を用いて、前記対象音の説明文の現在の単語を決定する説明文生成部と、
を含む音説明文生成装置。
【請求項4】
請求項1
または2のいずれかに記載の音説明文生成方法の各ステップをコンピュータに実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
この発明は、音響信号を説明する自然文を生成する技術に関する。
【背景技術】
【0002】
音説明文生成(Audio captioning)は、観測音響特徴量系列Φ=(φ1, …, φT)を、その説明文(caption)に対応する(サブ)ワードトークン系列(w1, …, wN)に変換するタスクである。ここで、φt∈RDa(t=1, …, T)は時間インデックスtの音響特徴量ベクトル、Tは観測音響特徴量系列の時間フレーム数、Daは音響特徴量の次元数を表す。出力wn∈N(n=1, …, N)はn番目のトークンのインデックスであり、Nは(サブ)ワードトークン系列の長さである。
【0003】
なお、文中で使用する記号「→」等は、本来直前の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直後に記載する。数式中においてはこれらの記号は本来の位置、すなわち文字の真上に記述している。
【0004】
多くの従来研究では、上記の変換問題を深層ニューラルネットワーク(Deep Neural Network; DNN)を利用したエンコーダ-デコーダ・フレームワークで解決している(非特許文献1,2参照)。まず、エンコーダが音響特徴量系列Φを別の特徴量空間のベクトルνに変換し、デコーダがベクトルνと(n-1)番目までの出力単語w1, …, wn-1を参照しながらn番目の出力単語wnを推定する。
【0005】
【0006】
ここで、w→
n-1=(w1, …, wn-1)であり、wnは事後確率p(wn|Φ, w→
n-1)からビームサーチなどを利用して推定される(非特許文献2参照)。
【先行技術文献】
【非特許文献】
【0007】
【文献】Y. Koizumi, R. Masumura, K. Nishida, M. Yasuda, and S. Saito, “A Transformer-based Audio Captioning Model with Keyword Estimation,” in Proc. Interspeech, 2020.
【文献】D. Takeuchi, Y. Koizumi, Y. Ohishi, N. Harada, and K. Kashino, “Effects of Wordfrequency based Pre- and Post- Processings,” in Proc. Detect. Classif. Acoust. Scenes Events (DCASE) Workshop, 2020.
【文献】C. D. Kim, B. Kim, H. Lee, and G. Kim, “AudioCaps: Generating Captions for Audiosin The Wild,” in Proc. N. Am. Chapter Assoc. Comput. Linguist.: Hum. Lang. Tech. (NAACL-HLT), 2019.
【発明の概要】
【発明が解決しようとする課題】
【0008】
従来のエンコーダ-デコーダ・フレームワークを、大規模な深層ニューラルネットワークを利用して構築するためには、多量の学習データが必要である。しかしながら、音説明文生成では、他のタスクに比べて利用可能な学習データが少ないことが多い。事実、音説明文生成の代表的なデータセットであるAudioCaps(非特許文献3参照)には49,838個しか学習用説明文が含まれていない。これは、英仏機械翻訳のためのデータセットであるWMT2014に含まれる約3600万個の学習用文ペアと比べると、約1/1000のデータ量でしかない。
【0009】
この発明の目的は、上記のような技術的課題に鑑みて、学習データが少ない場合であっても、高精度に音響信号の説明文を生成することである。
【課題を解決するための手段】
【0010】
上記の課題を解決するために、この発明の一態様の音説明文生成方法は、対象音の説明文を生成する音説明文生成方法であって、ガイダンス説明文検索部が、対象音と類似する音響信号に対応する説明文を複数取得し、説明文生成部が、取得された説明文に基づいて、先頭から順に単語を決定することで、対象音の説明文を生成する。
【発明の効果】
【0011】
この発明によれば、学習データが少ない場合であっても、高精度に音響信号の説明文を生成することができる。
【図面の簡単な説明】
【0012】
【
図1】
図1は本発明の概要を説明するための概念図である。
【
図2】
図2Aは学習データに類似/非類似をラベル付けする手順を例示する図である。
図2Bはガイダンス説明文を検索するモデルを学習する手順を例示する図である。
【
図3】
図3は入力音響信号の説明文を生成する手順を例示する図である。
【
図4】
図4は音説明文生成装置の機能構成を例示する図である。
【
図5】
図5は音説明文生成方法の処理手順を例示する図である。
【
図6】
図6はコンピュータの機能構成を例示する図である。
【発明を実施するための形態】
【0013】
[発明の概要]
学習データの量が不足している際に有望な戦略の一つが、事前学習モデルの利用である。音響イベント検出やシーン分類等のタスクでは、少ない学習データでより良い結果を得るために、VGGish(参考文献1参照)などの事前学習モデルが発表されている。同様に、自然言語処理においても、BERT(Bidirectional Encoder Representations from Transformers)(参考文献2参照)やGPT(Generative Pre-trained Transformer)(参考文献3参照)などの大規模な事前学習言語モデルが、様々なタスクの性能を向上させている。特に、GPTのような自己回帰型の事前学習言語モデルは、式(2)のデコーダと関係が深いため、これを利用することで音説明文生成の精度向上が期待できる。以降では、GPTのような自己回帰型の事前学習言語モデルを単に「事前学習言語モデル」と呼ぶ。本発明のポイントは、このような事前学習言語モデルを利用して音説明文を生成することである。
【0014】
〔参考文献1〕S. Hershey, S. Chaudhuri, D. P. W. Ellis, J. F. Gemmeke, A. Jansen, R. C. Moore, M. Plakal, DvPlatt, R. A. Saurous, B. Seybold, M. Slaney, R. Weiss, and K. Wilson, “CNN Architectures for LargeScale Audio Classification,” in Proc. Int. Conf. Acoust. Speech Signal Process. (ICASSP), 2017.
〔参考文献2〕J. Devlin, M.-W. Chang, K. Lee, and K. Toutanova, “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding,” in Proc. N. Am. Chapter Assoc. Comput. Linguist.: Hum. Lang. Tech. (NAACL-HLT), 2019.
〔参考文献3〕A. Radford, J. Wu, R. Child, D. Luan, D. Amodei, and I. Sutskever. “Language models are unsupervised multitask learners,” Tech. rep., OpenAI, 2019.
【0015】
しかしながら、このような事前学習言語モデルを直接音説明文生成に適用することはできない。なぜなら、事前学習言語モデルはp(wn| w→
n-1)をモデル化したものであり、音響信号から抽出した特徴量Φを直接入力することができないからである。ゆえに、本発明で解決したい具体的な課題は「音説明文生成などのクロスモーダル翻訳タスクにおいて、事前学習された言語モデルの恩恵を受けるには、どのようにして元のモーダルの情報を事前学習言語モデルに入力したらよいか?」というものである。
【0016】
本発明では、以下のようにして、上記の課題を解決する。本発明は、
図1に示すように、2つのモジュールから構成されるカスケード型システムである。第1のモジュール「ガイダンス説明文検索」(Guidance caption retrieval)は、従来手法のエンコーダのように動作する。このモジュールは、入力音と学習データの音の類似度を評価し、学習データの中の“似ている音”に付与された説明文を複数取得して出力する。以降、この説明文のことを「ガイダンス説明文」と呼ぶ。第2のモジュール「説明文生成」(Caption generation)は、従来手法のデコーダのように動作する。このモジュールは、ガイダンス説明文を参照しながら、事前学習言語モデルを使用して入力音の説明文を生成する。このように構成することにより、事前学習された言語モデルに音声を直接入力する必要がなくなり、音説明文生成に利用できるようになる。
【0017】
<ガイダンス説明文検索>
第1のモジュール「ガイダンス説明文検索」の目的は、音の類似性(以降、「音類似度」と呼ぶ)に基づいて学習データからガイダンス説明文を取得することである。ここで音類似度は、ただ単に音の特徴量同士の類似度を計算すればよいわけではない。例えば、パトカーのサイレンと救急車のサイレンは、音の特徴量は似ているが、説明文に使われる単語はそれぞれ“police car”と“ambulance”であり、全く異なるものである。すなわち、本発明で用いる音類似度は、2つの音の説明文が類似している場合に、たとえ対応する音同士が類似していなくとも、高い値を取るものである必要がある。この要求を達成するために、このモジュールの学習は、(a)学習データセットに含まれる説明文間の文の類似度を計算し(
図2A参照)、(b)2つの音から類似度を予測する深層ニューラルネットワークを学習する(
図2B参照)ことから構成される。
【0018】
まず、(a)のラベル付けについて説明する。これまで説明文の類似度には、BLEU、CIDEr、SPICEなど様々なものが提案されている。本発明では、これらには何を利用してもよいが、ここではBERTScore(参考文献4参照)を使用するものとして説明する。
【0019】
〔参考文献4〕T. Zhang, V. Kishore, F. Wu, K. Q. Weinberger, and Y. Artzi, “BERTScore: Evaluating Text Generation with BERT,” in Proc. of Int. Conf. Learn. Representations (ICLR), 2020.
【0020】
説明文間の類似度計算の詳細な手順は以下の通りである。
1.学習データセット内のすべての説明文間のBERTScoreを計算する。
2.学習データセットのすべてのBERTScoreを取得した後、それらの最大値と最小値がそれぞれ1と0になるように正規化する。
3.閾値を超えている説明文を“Similar”、それ以外の説明文を“Not similar”とラベリングする。閾値は例えば0.7などに設定できる。
【0021】
次に、(b)のモデル学習について説明する。まず、何らかの深層ニューラルネットワークを利用して、時間領域の観測信号xを、固定された次元のベクトルに変換する。同様に、学習データセットに含まれているすべての音データも、固定された次元のベクトルに変換する。そして、これらのベクトル間の距離を何らかの関数で計算し、その距離が小さい上位K個の学習データに付与された説明文をw→refとして出力する。この距離は何でもよいが、例えばL2距離D(a, b)=||a-b||2
2などが利用できる。
【0022】
この深層ニューラルネットワークの実装はどのようなものでもよい。ここでは、実施例の一つとして、事前学習されたVGGishと学習可能な埋め込みネットワーク(Embedding network)を組み合わせる方法を説明する。
【0023】
まず、時間領域の観測信号xを事前学習されたVGGishを用いて音響特徴量系列Φに変換する。
【0024】
【0025】
ここでΦ∈RDa×Tであり、VGGishの場合はDa=128である。VGGishは学習時にパラメータ更新をしなくてもよい。
【0026】
次に、埋め込みネットワークを利用して音響特徴量系列Φをeへ変換する。
【0027】
【0028】
ここで、Embed(・)は埋め込みネットワークであり、例えばTransformer-encoder層(参考文献5参照)などが利用できる。
【0029】
〔参考文献5〕A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, L. Kaiser, and I. Polosukhin, “Attention Is All You Need,” in Proc. Adv. Neural Inf. Process. Syst. (NIPS), 2017.
【0030】
最後に、eの次元をRDa×Tに変更し、eを|e|=1となるように正規化する。
【0031】
埋め込みネットワークの学習には、トリプレット損失(Triplet loss)を利用した学習(参考文献6参照)などが採用できる。
【0032】
〔参考文献6〕J. Wang, Y. Song, T. Leung, C. Rosenberg, J. Wang, J. Philbin, B. Chen, and Y. Wu. “Learning Fine-grained Image Similarity with Deep Ranking,” in Proc. IEEE Int. Conf. Comput. Vis. Pattern Recognit. (CVPR), 2014.
【0033】
この学習では、以下のコスト関数を最小化するように、深層ニューラルネットワークを学習する。
【0034】
【0035】
ここで、αはマージン係数であり、0.3などに設定すればよい。また、ea、ep、enはそれぞれ、anchor、positive、negativeと呼ばれる音から計算されるeである。ここで、anchorは入力音(この音と類似した音を検索したい検索キーとも言える)であり、positiveはanchorに対して“Similar”とラベル付けされた説明文の中からランダムに一つ選択された説明文に対応する音であり、negativeはanchorに対して“Not similar”とラベル付けされた説明文に対応する音のうち、以下の基準を満たす音からランダムに一つ選択されたものである。
【0036】
【0037】
<説明文生成>
図3に、第2のモジュール「説明文生成」の処理手順を示す。まず、w
→ref(ガイダンス説明文からなるベクトル)とw
→
n-1((n-1)番目までの出力単語からなるベクトル)をそれぞれ独立に事前学習言語モデルに入力する。本発明において、事前学習言語モデルは何でもよいが、ここでは、GPT-2を利用するものとして説明する。
【0038】
【0039】
ここで、Ψrefs∈RDl×M、Ψhyps
n-1∈RDl×(n-1)である。“117M”と呼ばれる一般的なGPT-2の場合、Dl=768である。
【0040】
次に、これら2つの情報を統合するために、上記参考文献5に開示されている多頭注意機構(Multi-head attention; MHA)層を利用する。
【0041】
【0042】
ここで、MultiHeadAttention(a, b)は多頭注意機構層であり、aはquery、bはkeyおよびvalueとして利用する。また、Ψn-1∈RDl×(n-1)である。
【0043】
さらに、観測信号から抽出された特徴量を統合するために、多頭注意機構層を利用する。ここでは、パラメータ数を減らすために、ΦとΨn-1を次元削減したΨ'n-1とΦ'を多頭注意機構層に入力する。次元削減は全結合層を利用して行い、例えば、Dr=60まで次元削減する。
【0044】
【0045】
ここで、Linear(・)は多頭注意機構層の出力の次元数をRDlまで増加させるための全結合層である。
【0046】
最後に、Ψn-1とΥn-1を加算した特徴量を用いて、GPT-2で事前学習された出力層を用いてp(wn|Φ, w→
n-1)を予測する。
【0047】
【0048】
ここで、LMHead(・)は事前学習済みのトークン予測(Token prediction)層である。LMHead(・)はデコーダを学習データの説明文中で利用可能な単語の統計に適合するように学習されている。
【0049】
<学習手順>
本発明の音説明文生成で用いる各モジュールの学習手順を説明する。
【0050】
Step-1:時間領域の音響信号とそれに対応した説明文のペアデータを用意する。以降これを「学習データセット」と呼ぶ。
【0051】
Step-2:学習データセットに含まれる説明文同士のすべての組み合わせでBERTScoreなどの類似度を計算する。学習データセットに含まれるペアデータの数がPならば、この組み合わせはP×(P-1)になる。その後、<ガイダンス説明文検索>で述べた方法で、学習データセットのp番目のペアデータの説明文と、それ以外のP-1個のペアデータの説明文が“Similar”か“Not similar”かをラベル付けする。
【0052】
Step-3:<ガイダンス説明文検索>で述べた方法で、ガイダンス説明文検索の深層ニューラルネットワークを学習する。この際のバッチサイズは128程度にすればよい。
【0053】
Step-4:説明文生成モジュールを学習する。学習時には、w→refには“Similar”とラベル付けされた説明文からK個の説明文をランダムに選択したものを用いてもよいし、ガイダンス説明文検索で検索されたK個の説明文を利用してもいい。ここではK=5程度に設定すればよい。また、全体を学習する際のコスト関数は何でもよく、例えばp(wn|Φ, w→
n-1)とwnの間の交差エントロピーなどを利用すればよい。バッチサイズは512程度に設定すればよい。また、事前学習言語モデルは他の層と同時に更新してもよいし、固定してもよい。
【0054】
[実施形態]
以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
【0055】
この発明の実施形態は、予め用意された音響信号とそれに対応する説明文との組からなる学習データセットを用いて、入力された音響信号からその音響信号を説明する説明文を生成する音説明文生成装置および方法である。
図4に示すように、実施形態の音説明文生成装置1は、例えば、学習データ記憶部10、音類似度計算部11、ガイダンス説明文検索部12、および説明文生成部13を備える。この音説明文生成装置1が、
図5に示す各ステップを実行することにより、実施形態の音説明文生成方法が実現される。
【0056】
音説明文生成装置1は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。音説明文生成装置1は、例えば、中央演算処理装置の制御のもとで各処理を実行する。音説明文生成装置1に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。音説明文生成装置1の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。音説明文生成装置1が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。
【0057】
以下、
図5を参照して、実施形態の音説明文生成装置1が実行する音説明文生成方法について説明する。
【0058】
学習データ記憶部10には、複数の学習データからなる学習データセットが記憶されている。各学習データは、予め収集した音響信号と、各音響信号に対して人手で付与した正解の説明文とからなる。
【0059】
ステップS10において、音説明文生成装置1へ、説明文を生成する対象とする音響信号が入力される。以降、この音響信号を「対象音」と呼ぶ。入力された対象音は、音類似度計算部11へ入力される。
【0060】
ステップS11において、音類似度計算部11は、学習データ記憶部10に記憶されている学習データセットを読み出し、入力された対象音と学習データセットに含まれる各音響信号との音類似度を計算する。計算する音類似度は、上述の<ガイダンス説明文検索>で説明したとおりであり、第一の音響信号に付与された説明文と第二の音響信号に付与された説明文とが類似するほど、第一の音響信号と第二の音響信号が類似すると判定されやすく構成されている。説明文間の類似度は、例えば、BERTScoreを用いることができる。音類似度計算部11は、計算した音類似度をガイダンス説明文検索部12へ入力する。
【0061】
ステップS12において、ガイダンス説明文検索部12は、音類似度計算部11により計算された音類似度に基づいて、入力された対象音に類似する学習データを複数取得する。ガイダンス説明文検索部12は、取得した学習データに含まれる説明文を、ガイダンス説明文として説明文生成部13へ入力する。
【0062】
ステップS13において、説明文生成部13は、ガイダンス説明文検索部12により取得されたガイダンス説明文に基づいて、先頭から順に単語を決定することで、対象音の説明文を生成する。説明文の生成方法は、上述の<説明文生成>で説明したとおりであり、ガイダンス説明文と、生成済みの先頭から直前までの単語列と、対象音の音響特徴量と、を、事前学習言語モデルおよび多頭注意機構により統合した特徴量を用いて、現在の単語を決定することを繰り返す。説明文生成部13は、生成した対象音の説明文を、音説明文生成装置1の出力とする。
【0063】
[実験結果]
発明の効果を確認するために、AudioCapsデータセット(非特許文献3)を利用して実験を行った。表1に実験結果を示す。“Method”欄の“Conventional”は非特許文献3に記載された従来技術の評価結果であり、“Ours”は本発明の評価結果である。評価指標は、非特許文献3の中で利用されている、BLEU1, BLEU2, BLEU3, BLEU4(表中ではB-1, B-2, B-3, B-4と記載), METEOR, CIDEr, ROUGEL(表中ではROUGE-Lと記載), SPICEを用いた。比較手法は、非特許文献3の中で利用されているもののうち、最も精度の高いTopDown-AlignedAtt(1NN)とした。
【0064】
【0065】
本発明は、事前学習言語モデルの後にわずかに学習可能な層を追加しただけである。それにもかかわらず、表1に示すとおり、非特許文献3で慎重に設計された深層ニューラルネットワークによるアーキテクチャを使用した従来技術と同程度の評価結果を得ることができた。このことから、本発明によれば、学習データが少ない場合であっても、音響信号から説明文を高精度に生成できることが実証された。
【0066】
以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
【0067】
[プログラム、記録媒体]
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムを
図6に示すコンピュータの記憶部1020に読み込ませ、演算処理部1010、入力部1030、出力部1040などに動作させることにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
【0068】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体は、例えば、非一時的な記録媒体であり、磁気記録装置、光ディスク等である。
【0069】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【0070】
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の非一時的な記憶装置である補助記録部1050に格納する。そして、処理の実行時、このコンピュータは、自己の非一時的な記憶装置である補助記録部1050に格納されたプログラムを一時的な記憶装置である記憶部1020に読み込み、読み込んだプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み込み、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
【0071】
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。