(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024062159
(43)【公開日】2024-05-09
(54)【発明の名称】情報処理装置、制御方法、プログラム
(51)【国際特許分類】
G06F 16/332 20190101AFI20240430BHJP
G06F 16/632 20190101ALI20240430BHJP
【FI】
G06F16/332
G06F16/632
【審査請求】未請求
【請求項の数】13
【出願形態】OL
(21)【出願番号】P 2022169988
(22)【出願日】2022-10-24
(71)【出願人】
【識別番号】390002761
【氏名又は名称】キヤノンマーケティングジャパン株式会社
(71)【出願人】
【識別番号】592135203
【氏名又は名称】キヤノンITソリューションズ株式会社
(74)【代理人】
【識別番号】100189751
【弁理士】
【氏名又は名称】木村 友輔
(74)【代理人】
【識別番号】100227857
【弁理士】
【氏名又は名称】中山 圭
(72)【発明者】
【氏名】松島 優太
(72)【発明者】
【氏名】蔵満 琢麻
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA01
5B175DA05
5B175GC02
5B175KA07
(57)【要約】
【課題】本発明では、検索対象となるデータの曖昧さを考慮して、効率的にデータを検索することが可能となる仕組みを提供することを目的とする。
【解決手段】本発明は、入力されたテキストに対応するデータに係る情報を出力するよう制御する情報処理装置であって、データの検索の曖昧さに係るレベルを受け付ける受付手段と、前記受け付けたレベルに応じて、前記入力されたテキストに対応するデータを検索する検索手段と、を備えることを特徴とする。
【選択図】
図1
【特許請求の範囲】
【請求項1】
入力されたテキストに対応するデータに係る情報を出力するよう制御する情報処理装置であって、
データの検索の曖昧さに係るレベルを受け付ける受付手段と、
前記受け付けたレベルに応じて、前記入力されたテキストに対応するデータを検索する検索手段と、
を備えることを特徴とする情報処理装置。
【請求項2】
前記受け付けたレベルに基づいて、前記入力されたテキストから検索用データを生成する生成手段を備え、
前記検索手段は、前記生成された検索用データを用いて前記データを検索することを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記検索用データは、音素データであることを特徴とする請求項2に記載の情報処理装置。
【請求項4】
前記生成手段は、前記入力されたテキストの音素データを、前記受け付けたレベルに応じて予め設定された方法で変換することにより検索用データを生成することを特徴とする請求項3に記載の情報処理装置。
【請求項5】
前記変換において、レベルに係る変換用辞書を用いることを特徴とする請求項4に記載の情報処理装置。
【請求項6】
前記検索されたデータに係る情報を、当該データに対して前記受け付けたレベルにおいて算出される検索スコアの順に表示するよう制御する表示制御手段をさらに備えることを特徴とする請求項1に記載の情報処理装置。
【請求項7】
前記検索スコアは、検索の曖昧さについて前記受け付けたレベル以下となるレベルにおける前記データの検索に係るスコアを累積することにより算出されることを特徴とする請求項6に記載の情報処理装置。
【請求項8】
前記データは、音声データから音声認識されたデータであることを特徴とする請求項1~7のいずれか1項に記載の情報処理装置。
【請求項9】
前記レベルは、検索結果の適合率、および/または、再現率に影響するレベルであることを特徴とする請求項1に記載の情報処理装置。
【請求項10】
前記入力されたテキストに基づいて、前記データの検索の曖昧さに係るレベルを決定する決定手段をさらに備えることを特徴とする請求項1に記載の情報処理装置。
【請求項11】
前記検索手段にて検索された結果に基づいて、前記データの検索の曖昧さに係るレベルを調節する調節手段をさらに備えることを特徴とする請求項1に記載の情報処理装置。
【請求項12】
入力されたテキストに対応するデータに係る情報を出力するよう制御する情報処理装置の制御方法であって、
受付手段が、データの検索の曖昧さに係るレベルを受け付ける受付ステップと、
検索手段が、前記受け付けたレベルに応じて、前記入力されたテキストに対応するデータを検索する検索ステップと、
を備えることを特徴とする情報処理装置の制御方法。
【請求項13】
入力されたテキストに対応するデータに係る情報を出力するよう制御する情報処理装置において実行可能なプログラムであって、
前記情報処理装置を、
データの検索の曖昧さに係るレベルを受け付ける受付手段と、
前記受け付けたレベルに応じて、前記入力されたテキストに対応するデータを検索する検索手段と、
として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
データに係る情報を表示するよう制御する技術に関する。
【背景技術】
【0002】
音声ドキュメント検索とは、ユーザの入力した検索クエリに対して、音声データのうちから適合箇所を特定し、対象の音声データを検索するものである。
【0003】
音声ドキュメント検索を実現する単純な方法は、音声認識システムによって音声データをテキストに変換し(書き起こし)、当該テキストに対して既存のテキスト検索手法を適用することである。しかし、既存のテキスト検索手法は、検索対象のテキストに誤りが含まれていることを想定していないため、音声認識システムで生じる認識誤りを取り扱えない。
【0004】
特に、音声認識システムにおける認識語彙外語(OOV;Out Of Vocabulary)は書き起こしテキストに現れることはない。検索クエリには固有名詞が含まれることが多く、このような語彙は音声認識システムの認識語彙外語になりやすい傾向がある。そのため、固有名詞の含まれた多くの検索クエリでは、適合する音声データを発見できないということになる。
【0005】
特許文献1には、音声ドキュメント検索において、テキストを音素列に変換して展開し、検索を行う方法について開示されている。音声データを音声認識システムによってテキストに書き起こした文書を音素列に変換して索引しておく。その上で、音素列化された検索クエリを、予め定義したルールに従って複数の音素列に展開して検索を行うことで、認識誤りを含んだドキュメント箇所と適合させることができる。
【先行技術文献】
【特許文献】
【0006】
【発明の開示】
【発明が解決しようとする課題】
【0007】
特許文献1に記載の技術は、検索クエリをルールに従って展開した後、その展開された全ての音素列で検索を行う。これは、検索に掛かる時間が、展開されてできた音素列の数に対し線形オーダーで増加するという課題がある。加えて、音素列の類似した箇所の含まれる、無関係の文書を適合させ、検索結果の適合率が低下するという課題もある。この課題に対応する方法として、特許文献1には、検索クエリ音素列の展開を抑制する方法が記載されている。しかし、この方法は、再現率が低下する恐れがあり、また、音声認識システムの辞書の把握または音声認識結果に対する正解データの管理などの運用上のコストが大きく掛かる。
【0008】
そのため、効率的に検索を行う音素列の展開方法、さらには、ユーザが目的文書へ到達しやすくする仕組みを提供することが望まれる。
【0009】
そこで、本発明では、検索対象となるデータの曖昧さを考慮して、効率的にデータを検索することが可能となる仕組みを提供することを目的とする。
【課題を解決するための手段】
【0010】
本発明は、入力されたテキストに対応するデータに係る情報を出力するよう制御する情報処理装置であって、データの検索の曖昧さに係るレベルを受け付ける受付手段と、前記受け付けたレベルに応じて、前記入力されたテキストに対応するデータを検索する検索手段と、を備えることを特徴とする。
【発明の効果】
【0011】
本発明によれば、検索対象となるデータの曖昧さを考慮して、効率的にデータを検索することが可能となる。
【図面の簡単な説明】
【0012】
【
図1】本発明の実施形態における、音声ドキュメント検索システムのシステム構成の一例を示す図である。
【
図2】本発明の実施形態における、音声ドキュメント検索システムのハードウェア構成の一例を示すブロック図である。
【
図3】本発明の実施形態における、文書DBの一例を示す図である。
【
図4】本発明の実施形態における、文書DBの一例を示す図である。
【
図5】本発明の実施形態における、トークングラフ作成処理の一例を示すフローチャートである。
【
図6】本発明の実施形態における、類似音素辞書の一例を示す図である。
【
図7】本発明の実施形態における、類似音素辞書の一例を示す図である。
【
図8】本発明の実施形態における、トークングラフの一例を示す図である。
【
図9】本発明の実施形態における、トークングラフの一例を示す図である。
【
図10】本発明の実施形態における、ユーザインタフェースの一例を示す画面イメージである。
【
図11】本発明の実施形態における、ユーザインタフェースの一例を示す画面イメージである。
【発明を実施するための形態】
【0013】
まず、曖昧度について説明する。これは、検索クエリを音素列に変換した後、どの程度の展開を行うかを表す数値やレベルである。曖昧度は、検索時に検索対象のデータに対して、どの程度の曖昧さ、つまり、どの程度まで認識誤りや差異、ゆれ等を許容するかを表す数値やレベルである。
【0014】
適合率重視の検索は、検索クエリを音素列に変換した後、展開を抑制する。これにより、酷似した、または同一の発音の音素列が現れる文書のみを取得する。以下、これを曖昧度の小さな検索と呼称する。逆に、再現率重視の検索は、多くを展開することで、多くの認識誤りを許容して網羅的に文書を取得する。これを、曖昧度の大きな検索と呼称する。後述するが、本発明の実施形態においては、このユーザにより選択された曖昧度を検索に反映させる処理は、類似音素辞書を複数定義して、これを切り替えることによって実現する。
【0015】
以下、図面を参照して、本発明の実施形態を詳細に説明する。
【0016】
図1は、本発明の実施形態における音声ドキュメント検索システム(情報処理システム)のシステム構成の一例を示す図である。
【0017】
音声ドキュメント検索システム100は、文書登録装置110、文書DB120、文書検索装置130、クライアント端末から成る。
文書登録装置110は、ユーザの検索対象とする文書を登録するための装置であり、文書受信部111、文書変換部112、文書登録処理部113から成る。
【0018】
文書受信部111は、登録対象の文書を音声認識されたテキストドキュメントの形式で受け付けるための装置である。ユーザはクライアント端末のWebブラウザなどを通じて任意の文書を文書受信部111に送信できる。あるいは、クローラやWebブラウザのアドオン等が、機械的に音声認識システムによるテキスト化や文書の収集を行って送信するような構成をとってもよい。
【0019】
文書変換部112は、文書受信部111が受け付けた文書を、その読み方を表す音素列へと変換するための装置である。文書変換部112における音素列への変換処理は、公知の形態素解析技術を用いて形態素を抽出した後、各形態素を読み情報に変換することによって行う。
【0020】
文書登録処理部113は、文書受信部111で受け付けた文書と、文書変換部112において変換された音素列とを紐づけて、文書DB120へ格納する装置である。
【0021】
図3は、文書DB120の一例である。文書DB120は、文書を一意に識別するための文書ID121、および、文書変換部112が抽出した音素列を格納する音素列122を項目として備える。例えば、文書DB120のレコード123について、文書IDは「文書1」であり、音素列は「chantopotto」である。なお、本アイデアを説明するための最小限の構成として、前述の2項目を例示しているが、文書のタイトルや、文書の原文など、検索システムとして利用する項目を追加で備えてもよい。また、音素列は、「chatto potto」のように、文や形態素同士の区切りがわかる状態で保持してもよい。
【0022】
図4は、文書DB120の構成の別の一例である。文書を一意に識別するための文書ID124、および、1つもしくは複数のセクションを束ねて保持するセクション125を項目として備える。セクションは、前述の
図4における文書に対応するもので、文書の中でセクションを一意に識別するためのセクションID126、および、文書変換部112が抽出した音素列を格納する音素列127を項目として備える。例として、文書DB120のレコード128について、文書IDは「文書1」であり、このレコードは、セクションIDがセクション1からセクションnまでのn個のセクションを束ねている。この構成により、例えば1つの音声データの中で、発言1回を単位として1セクションを作り、音声データを1文書として扱う、といったDB構成も可能である。
【0023】
図1に戻って、文書検索装置130は、検索クエリ変換部131、検索処理部132、検索結果出力処理部133から成る。
【0024】
検索クエリ変換部131は、ユーザからのリクエストに含まれるテキスト(以下、検索クエリ)と、ユーザによって選択された曖昧度を受け付け、トークングラフに変換するための装置である。トークングラフについては後に例を用いて説明する。変換処理は、前述の文書変換部112と同様の処理を、検索クエリに対して行って検索クエリを音素列に変換した後、曖昧度に対応する類似音素辞書を用いてトークングラフへと展開する。類似音素辞書および変換処理の詳細な説明は後述する。
【0025】
検索処理部132は、検索クエリ変換部131で作成されたトークングラフを基に文書を検索する装置であり、トークングラフに関連する文書をスコア順に取得する機能を備える。効率的な検索処理を実現するためには、文書登録処理部113において、公知の技術である転置インデックスを音素列について作成し、検索時に用いればよい。下記の文献には、トークングラフを基に転置インデックスの索引を照合する方法が記載されている。この仕組みを用いることで、特許文献1に記載された手法のように展開される音素列が多数になるような場合であっても、検索に掛かる時間を抑制することができる。
(文献)Michael McCandless、" Multi-Token Synonyms and Graph Queries in Elasticsearch"、[online]、平成29年2月15日、[令和4年9月9日検索]、インターネット、<URL: https://www.elastic.co/jp/blog/multitoken-synonyms-and-graph-queries-in-elasticsearch>
【0026】
検索結果出力処理部133は、検索処理部132で得た検索結果を、検索クエリを送信したクライアントに返却する装置である。音声ドキュメント検索システム100のユーザは、Webブラウザなどを通して、検索結果を確認することができる。
【0027】
図2は、本発明の実施形態におけるクライアント端末、音声ドキュメント検索システム100として用いることが可能な情報処理装置のハードウェア構成の一例を示すブロック図である。
【0028】
図2に示すように、情報処理装置は、システムバス204を介してCPU(Central Processing Unit)201、ROM(Read Only Memory)202、RAM(Random Access Memory)203、入力コントローラ205、ビデオコントローラ206、メモリコントローラ207、よび通信I/Fコントローラ208が接続される。
【0029】
CPU201は、システムバス204に接続される各デバイスやコントローラを統括的に制御する。
【0030】
ROM202あるいは外部メモリ211は、CPU201が実行する制御プログラムであるBIOS(Basic Input/Output System)やOS(Operating System)や、本情報処理方法を実現するためのコンピュータ読み取り実行可能なプログラムおよび必要な各種データ(データテーブルを含む)を保持している。
【0031】
RAM203は、CPU201の主メモリ、ワークエリア等として機能する。CPU201は、処理の実行に際して必要なプログラム等をROM202あるいは外部メモリ211からRAM203にロードし、ロードしたプログラムを実行することで各種動作を実現する。
【0032】
入力コントローラ205は、キーボード209や不図示のマウス等のポインティングデバイス等の入力装置からの入力を制御する。入力装置がタッチパネルの場合、ユーザがタッチパネルに表示されたアイコンやカーソルやボタンに合わせて押下(指等でタッチ)することにより、各種の指示を行うことができることとする。
【0033】
また、タッチパネルは、マルチタッチスクリーンなどの、複数の指でタッチされた位置を検出することが可能なタッチパネルであってもよい。
【0034】
ビデオコントローラ206は、ディスプレイ210などの外部出力装置への表示を制御する。ディスプレイは本体と一体になったノート型パソコンのディスプレイも含まれるものとする。なお、外部出力装置はディスプレイに限ったものははく、例えばプロジェクタであってもよい。また、前述のタッチ操作を受け付け可能な装置については、入力装置も提供する。
【0035】
なおビデオコントローラ206は、表示制御を行うためのビデオメモリ(VRAM)を制御することが可能で、ビデオメモリ領域としてRAM203の一部を利用することもできるし、別途専用のビデオメモリを設けることも可能である。
【0036】
メモリコントローラ207は、外部メモリ211へのアクセスを制御する。外部メモリとしては、ブートプログラム、各種アプリケーション、フォントデータ、ユーザファイル、編集ファイル、および各種データ等を記憶する外部記憶装置(ハードディスク)、フレキシブルディスク(FD)、或いはPCMCIAカードスロットにアダプタを介して接続されるコンパクトフラッシュ(登録商標)メモリ等を利用可能である。
【0037】
通信I/Fコントローラ208は、ネットワークを介して外部機器と接続・通信するものであり、ネットワークでの通信制御処理を実行する。例えば、TCP/IPを用いた通信やISDNなどの電話回線、および携帯電話の3G回線を用いた通信が可能である。
【0038】
尚、CPU201は、例えばRAM203内の表示情報用領域へアウトラインフォントの展開(ラスタライズ)処理を実行することにより、ディスプレイ210上での表示を可能としている。また、CPU201は、ディスプレイ210上の不図示のマウスカーソル等でのユーザ指示を可能とする。
【0039】
次に
図5~
図9を用いて、本発明の実施形態におけるトークングラフの作成について説明する。
【0040】
図5は、本発明の実施形態における検索クエリ変換部131が実行する、検索クエリをトークングラフに変換する処理を示すフローチャートである。
【0041】
ステップS501では、クライアント端末を介して、ユーザからテキスト形式の検索クエリaおよび数値である曖昧度bを受け付ける。
【0042】
ステップS502では、検索クエリaを公知の形態素解析技術を用いて形態素αにする。
【0043】
ステップS503では、形態素αを、各形態素の読み情報を取得し、音素列α′に変換する。ここで、読み情報の取得は、各形態素の読み情報を保持する辞書を用いて行ってもよいし、形態素から読み情報を取得するアルゴリズムなどを用いて行っても良いし、または、その両方を利用して行っても良い。なお、本特許では例として音素列にローマ字を使用しているが、読み情報を表す文字または記号の列であれば、他を使用しても良い。
【0044】
ステップS504では、音素列α′を公知の技術を用いてトークングラフα″にする。この際使用される類似音素辞書は、曖昧度bと対応したものである。これにより、本発明の実施形態における、ユーザにより選択された曖昧度を検索に反映することを実現している。類似音素辞書およびトークングラフについては、次で詳しく例を用いて説明する。
【0045】
ステップS505では、トークングラフα″を返却し、終了する。
【0046】
図6、
図7は、類似音素辞書の例である。類似音素辞書は、検索クエリからトークングラフへの展開処理に使用されるが、この展開処理は本発明の実施形態における検索クエリ変換部131で実行される。
【0047】
類似音素辞書600は、複数の音素を組にし、要素としてもつ配列である。レコード601は、音素「p」と音素「b」が同一視されることを示している。レコード602は、音素「s」と音素「z」と音素「sh」が全て同一視されることを示している。
【0048】
類似音素辞書は、同一視する音素の組が少数もしくは存在しないものから、音素の組を多数同一視するものまで、複数用意する。インタフェースによってユーザが曖昧度を選択すると、検索に使用される類似音素辞書が選択される。これにより、本発明における、ユーザにより選択された曖昧度を検索に反映することが実現される。また、音素の組の数だけでなく、一つの音素の組の中で同一視する音素の種類を変える(増減させる)ことにより曖昧度を調整することもできる。例えば、音素「s」と音素「z」の組、音素「s」と音素「z」と音素「sh」の組、など。
【0049】
類似音素辞書700は、類似音素辞書600に比して曖昧度の大きな検索において使用される類似音素辞書の一例である。類似音素辞書600に含まれる類似音素の組に加え、レコード701で音素「tt」と音素「nt」が同一視されることが示されている。
【0050】
図8、
図9は、本発明の実施形態における検索クエリ変換部131が実行し、
図5で示される処理によって展開されたトークングラフの例である。
【0051】
トークングラフ800は、類似音素辞書600を使用し、かつ、検索クエリ「チャットボット」が検索クエリ変換部131に入力された際の、出力されるトークングラフを示している。なお、例としてこのトークングラフは、アルファベット1文字をトークンとしているが、アルファベットでなくても良いし、複数文字を一塊としてトークンとしても良い。
【0052】
トークングラフ900は、類似音素辞書700を使用した際に出力されるトークングラフである。トークングラフ800と比べて、「tt」の部分を「nt」と同一視するパスが増えていることが見て取れる。
【0053】
次に
図10、
図11を用いて、本発明の実施形態における、ユーザにより選択された曖昧度を検索に反映する方法、および、目的文書である可能性が高い文書を検索結果の上位に位置させる方法について説明する。
【0054】
図10は、検索結果出力処理部133がクライアント端末のブラウザに表示するユーザインタフェースの一例である。検索画面1000は、検索クエリ入力フォーム1001と、検索結果サマリ1002に加え、曖昧度入力コンポーネント1003を備えることを特徴とする。検索画面1000は、「チャットボット」を検索クエリとして最も曖昧度の小さい検索が行われた後の状態を示しており、検索結果サマリ1002は、検索クエリテキストの音素列を展開したトークングラフに適合する文書は全部で2件あり、それが画面上に表示されていることを表している。ここでは説明のため、この
図10で行われた検索では、類似音素辞書600を使用し、よってトークングラフ800を基に文書DB120の照合が行われたとする。
【0055】
曖昧度入力コンポーネント1003は、適合率重視の小さい曖昧度から、再現率重視の大きい曖昧度まで多段階を入力できるようになっている。なお、ここでは説明の容易さのために「小」「大」といったラベルを表示したスライダを用いているが、異なる形式の入力コンポーネントでも良い。
【0056】
ユーザは、目的の文書が見つからなかった場合に、より多くの関連文書を表示させるために、曖昧度を大きくして再検索することができる。また、逆に無関係の文書が多く表示されるために検索結果から目的文書を発見しにくい場合、曖昧度を小さくして再検索することができる。
【0057】
図11は、検索画面1000において、ユーザが曖昧度入力コンポーネント1003を操作して曖昧度を1段階大きくし、再検索したあとの検索画面の一例である。ここでは説明のため、この
図11で行われた検索では、類似音素辞書700を使用し、よってトークングラフ900を基に文書DB120の照合が行われたとする。検索結果レコード1102は、検索結果サマリ1002では提示されなかった文書である。これは、曖昧度が大きくなったことにより、検索画面1000に比してより多数の文書が提示され、再現率が上昇していることを示している。
【0058】
スコアは、曖昧度の小さい検索も同時に実施し、各結果のスコアを加算することで算出している。これは、本発明における、目的文書の可能性の高い文書を検索結果の上位に位置させることを実現するものである。例えば、検索結果レコード1101は、最も小さな曖昧度での検索結果スコア1に、1段階曖昧度を大きくした検索での検索結果スコア1を加算する形で、スコアが2となる。これをスコアの値で降順ソートすることにより、より小さな曖昧度でもヒットする文書、つまり、目的文書である可能性が高い文書を上位に位置させることが可能となる。なお、この例では、説明の簡単のために、各検索におけるスコアは、音素列内でトークングラフと適合した箇所の数を使用しているが、tf-idf値などの別のスコアを算出し使用してもよい。
【0059】
上記では、ユーザインタフェースを通じてユーザから曖昧度の入力を受け付ける実施形態について説明したが、別の実施形態として、ユーザにより入力された検索クエリに認識語彙外語となる可能性の高い固有名詞等が含まれている場合に、自動で曖昧度の初期レベルを決定することも可能である。
【0060】
また、検索結果で見つかった文書数が少ない場合は自動で曖昧度を大きくして再検索を行うなど、曖昧度を自動で調節する機能を備えることも可能である。
【0061】
上記の通り、本発明によれば、検索対象となるデータの曖昧さを考慮して、効率的にデータを検索することが可能となる。
【0062】
以上、本発明に係る実施形態について示したが、本発明は、例えば、システム、装置、方法、プログラムもしくは記録媒体等としての実施態様をとることが可能である。具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。
【0063】
また、本発明におけるプログラムは、各フローチャートの処理方法をコンピュータが実行可能なプログラムである。なお、本発明におけるプログラムは各フローチャートの各装置の処理方法ごとのプログラムであってもよい。
【0064】
以上のように、前述した実施形態の機能を実現するプログラムを記録した記録媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記録媒体に格納されたプログラムを読み出し、実行することによっても本発明の目的が達成されることは言うまでもない。
【0065】
この場合、記録媒体から読み出されたプログラム自体が本発明の新規な機能を実現することになり、そのプログラムを記録した記録媒体は本発明を構成することになる。
【0066】
プログラムを供給するための記録媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD-ROM、CD-R、DVD-ROM、磁気テープ、不揮発性のメモリカード、ROM、EPROM、シリコンディスク等を用いることが出来る。
【0067】
また、コンピュータが読み出したプログラムを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0068】
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPU等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0069】
また、本発明は、複数の機器から構成されるシステムに適用しても、ひとつの機器から成る装置に適用しても良い。また、本発明は、システムあるいは装置にプログラムを供給することによって達成される場合にも適応できることは言うまでもない。この場合、本発明を達成するためのプログラムを格納した記録媒体を該システムあるいは装置に読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。
【0070】
さらに、本発明を達成するためのプログラムをネットワーク上のサーバ、データベース等から通信プログラムによりダウンロードして読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。なお、上述した各実施形態およびその変形例を組み合わせた構成も全て本発明に含まれるものである。
【符号の説明】
【0071】
100 音声ドキュメント検索システム
110 文書登録装置
120 文書DB
130 文書検索装置