IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ キヤノンマーケティングジャパン株式会社の特許一覧 ▶ キヤノンITソリューションズ株式会社の特許一覧

<>
  • 特許-情報処理装置、制御方法、プログラム 図1
  • 特許-情報処理装置、制御方法、プログラム 図2
  • 特許-情報処理装置、制御方法、プログラム 図3
  • 特許-情報処理装置、制御方法、プログラム 図4
  • 特許-情報処理装置、制御方法、プログラム 図5
  • 特許-情報処理装置、制御方法、プログラム 図6
  • 特許-情報処理装置、制御方法、プログラム 図7
  • 特許-情報処理装置、制御方法、プログラム 図8
  • 特許-情報処理装置、制御方法、プログラム 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-11-12
(45)【発行日】2024-11-20
(54)【発明の名称】情報処理装置、制御方法、プログラム
(51)【国際特許分類】
   G10L 15/22 20060101AFI20241113BHJP
【FI】
G10L15/22 200V
G10L15/22 470Z
G10L15/22 460Z
【請求項の数】 9
(21)【出願番号】P 2020115311
(22)【出願日】2020-07-03
(65)【公開番号】P2022013032
(43)【公開日】2022-01-18
【審査請求日】2023-06-23
(73)【特許権者】
【識別番号】390002761
【氏名又は名称】キヤノンマーケティングジャパン株式会社
(73)【特許権者】
【識別番号】592135203
【氏名又は名称】キヤノンITソリューションズ株式会社
(74)【代理人】
【識別番号】100189751
【弁理士】
【氏名又は名称】木村 友輔
(72)【発明者】
【氏名】下郡山 敬己
【審査官】堀 洋介
(56)【参考文献】
【文献】特開2016-061954(JP,A)
【文献】特開2001-034292(JP,A)
【文献】特開2005-250071(JP,A)
【文献】特開2006-039382(JP,A)
【文献】特開2020-082642(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00-15/34
(57)【特許請求の範囲】
【請求項1】
データ種別に対応するデータ項目の形式を管理する管理手段と、
第1単語リストを用いて音声データから音声認識された第1テキストデータを取得する認識実行手段と、
前記取得した第1テキストデータに基づいて、前記音声データデータ種別を特定する種別特定手段と、
前記特定されたデータ種別に対応するデータ項目の値を、当該データ項目の形式に基づいて前記第1テキストデータから取得する値取得手段と、
を備え
前記認識実行手段は、前記特定されたデータ種別に係る第2単語リストを用いて前記音声データから音声認識された第2テキストデータを取得し、
前記値取得手段は、前記データ種別に対応するデータ項目の値を、当該データ項目の形式に基づいて前記第2テキストデータから取得する
ことを特徴とする情報処理装置。
【請求項2】
前記第2単語リストは、前記データ種別に対応するデータ項目に係る単語が含まれることを特徴とする請求項に記載の情報処理装置。
【請求項3】
前記第2単語リストを生成する第2生成手段を備えることを特徴とする請求項1または2に記載の情報処理装置。
【請求項4】
前記第2生成手段は、前記データ種別に対応するデータ項目のうち、前記値取得手段により値を取得できなかったデータ項目に係る第2単語リストを生成し、
前記認識実行手段は、前記生成された第2単語リストを用いて前記音声データから音声認識された第2テキストデータを取得し、
前記値取得手段は、前記第2テキストデータから前記取得できなかったデータ項目の値を再取得することを特徴とする請求項に記載の情報処理装置。
【請求項5】
前記値取得手段により値を取得できなかったデータ項目にかかる音声データの入力を受け付ける受付手段を備え、
前記認識実行手段は、前記取得できなかったデータ項目に係る第2単語リストを用いて前記入力された音声データから音声認識された第3テキストデータを取得し、
前記値取得手段は、前記第3テキストデータから前記取得できなかったデータ項目の値を再取得することを特徴とする請求項またはに記載の情報処理装置。
【請求項6】
前記第1単語リストは、前記音声データデータ種別を特定可能な単語を含むことを特徴とする請求項1~5のいずれか1項に記載の情報処理装置。
【請求項7】
前記第1単語リストを生成する第1生成手段を備えることを特徴とする請求項1~6のいずれか1項に記載の情報処理装置。
【請求項8】
データ種別に対応するデータ項目の形式を管理する管理手段を備える情報処理装置の制御方法であって、
認識実行手段が、第1単語リストを用いて音声データから音声認識された第1テキストデータを取得する認識実行ステップと、
種別特定手段が、前記取得した第1テキストデータに基づいて、前記音声データデータ種別を特定する種別特定ステップと、
値取得手段が、前記特定されたデータ種別に対応するデータ項目の値を、当該データ項目の形式に基づいて前記第1テキストデータから取得する値取得ステップと、
を備え
前記認識実行ステップは、前記特定されたデータ種別に係る第2単語リストを用いて前記音声データから音声認識された第2テキストデータを取得し、
前記値取得ステップは、前記データ種別に対応するデータ項目の値を、当該データ項目の形式に基づいて前記第2テキストデータから取得する
ことを特徴とする情報処理装置の制御方法。
【請求項9】
情報処理装置を、
データ種別に対応するデータ項目の形式を管理する管理手段と、
第1単語リストを用いて音声データから音声認識された第1テキストデータを取得する認識実行手段と、
前記取得した第1テキストデータに基づいて、前記音声データデータ種別を特定する種別特定手段と、
前記特定されたデータ種別に対応するデータ項目の値を、当該データ項目の形式に基づいて前記第1テキストデータから取得する値取得手段と、
として機能させるためのプログラムであって、
前記認識実行手段は、前記特定されたデータ種別に係る第2単語リストを用いて前記音声データから音声認識された第2テキストデータを取得し、
前記値取得手段は、前記データ種別に対応するデータ項目の値を、当該データ項目の形式に基づいて前記第2テキストデータから取得する
ことを特徴とするプログラム
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声データを文字列に変換する音声認識の技術に関する。
【背景技術】
【0002】
従来から情報処理装置に対する入力作業を効率化する等の目的で音声認識の技術が使用されてきている。近年は、機械学習などの技術により、音声認識においてもかなり精度が向上してきた。
【0003】
クラウドサービスなどでは大量のデータを人間が解析し機械学習のトレーニングデータとすることで更なる精度向上を達成しているが、それでもユーザが用途に応じてカスタマイズする必要は残っている。
【0004】
また用途に応じて単語登録する場合もある。特に珍しい人名や組織独自の部署名、商品名など固有名詞は一般的な辞書に入っておらず、発音と対応づけて登録することもある。また一般的な用語ではあるが同音異表記が多い場合などは必ずしも発音と対応づける必要はないが優先度を上げるために登録する場合もある。
【0005】
音声認識サービスにおける単語登録は幾つかの方式がある。
【0006】
あるサービスでは、事前に必要な単語を登録しておき、一連の音声認識要求を繰り返す。この方法では、個々の音声認識要求の内容に対して事前に登録した同一の単語情報を使用するため、同音異表記語があっても適切に使い分けられない場合がある。
【0007】
また他のサービスの例では音声認識を要求する毎に、サービスに渡す音声データの内容に応じて登録する単語を入れ替え可能な方法もある。この方法では、登録可能な単語数が比較的少数に制限されているため、個々の音声認識要求に適切な単語を選択しなければならない。
【0008】
特許文献1に記載の技術は、登録候補となる単語を試しに登録して、評価用音声データの音声認識を行った上で効果を人間に提示し、人間が単語登録した方が良いと判断した場合に、単語辞書に追加登録するものである。
【先行技術文献】
【特許文献】
【0009】
【文献】特開2018-40906号公報
【発明の概要】
【発明が解決しようとする課題】
【0010】
特許文献1の技術は、登録すべきと判断された単語は、事前に全て登録するものである。しかしながらこの方式では、登録された単語は、いかなる音声データにも影響を及ぼすため、結果として音声認識の全体的な精度向上には有効である可能性が高いが、個々の音声認識要求に適切な結果を返さない可能性がある。即ち全体最適とする代わりに部分先的とはならない可能性があるのである。
【0011】
本発明の目的は、音声データの内容を特定して音声認識結果からデータ項目の値を取得する仕組みを提供することである。
【課題を解決するための手段】
【0012】
本発明は、データ種別に対応するデータ項目の形式を管理する管理手段と、第1単語リストを用いて音声データから音声認識された第1テキストデータを取得する認識実行手段と、前記取得した第1テキストデータに基づいて、前記音声データデータ種別を特定する種別特定手段と、前記特定されたデータ種別に対応するデータ項目の値を、当該データ項目の形式に基づいて前記第1テキストデータから取得する値取得手段と、を備え、前記認識実行手段は、前記特定されたデータ種別に係る第2単語リストを用いて前記音声データから音声認識された第2テキストデータを取得し、前記値取得手段は、前記データ種別に対応するデータ項目の値を、当該データ項目の形式に基づいて前記第2テキストデータから取得することを特徴とする。
【発明の効果】
【0013】
本発明により、音声データの内容を特定して音声認識結果からデータ項目の値を取得する仕組みを提供することが可能となる。
【図面の簡単な説明】
【0014】
図1】本発明の実施形態に係る情報処理システムの構成の一例を示す図である。
図2】本発明の実施形態に係る情報処理サーバ100、認識サーバ101、情報処理端末102に適用可能なハードウェア構成の一例を示すブロック図である。
図3】本発明の実施形態に係る機能構成の一例を示す図である。
図4】本発明の実施形態に係わる情報処理端末102のユーザインタフェースの一例である。
図5】本発明の実施形態に係わる情報処理端末102のユーザインタフェースの一例である。
図6】本発明の実施形態に係る音声認識の処理を説明するフローチャートの一例である。
図7】本発明の実施形態に係る登録する単語を決定する処理を説明するフローチャートの一例である。
図8】本発明の実施形態に係る音声認識する項目と関連する情報を対応づけて格納する記憶部の一例を示す図である。
図9】本発明の実施形態に係るユーザが入力する音声データと音声認識結果の一例を示す図である。
【発明を実施するための形態】
【0015】
以下、本発明の実施の形態を、図面を参照して詳細に説明する。
【0016】
図1は、本発明の実施形態に係る情報処理システムの構成の一例を示す図である。
【0017】
情報処理端末102、情報処理サーバ100、認識サーバ101は、ネットワーク103を介して通信可能に接続されている。ネットワーク103とは、例えばインターネットやLANである。
【0018】
情報処理端末102は、パーソナルコンピュータ、またはスマートフォンであって、本願発明におけるユーザインタフェースを構成するアプリケーションがインストールされている、あるいは情報処理サーバ100が提供するウェブアプリケーションを実行するためのウェブブラウザソフトウェアがインストールされており、特定のURLを指定することで当該ウェブアプリケーションにアクセスする。
【0019】
また情報処理端末102は、本願発明における音声データを入力するためのマイクを内蔵または外部機器として接続している。また後述する目的で使用するカメラも内蔵、または外部機器として接続していても良い。
【0020】
情報処理サーバ100は、本願発明におけるアプリケーションを情報処理端末102に提供し、情報処理端末102から受け取った音声データは、認識サーバ101に送ることで音声認識処理を実行させ、その結果(テキストデータ)を受け取る。
【0021】
ただし、情報処理サーバ100と認識サーバ101は、同一の筐体であっても良い。また、本願発明のアプリケーションの機能の一部は、情報処理端末102に配置され、実行されても良い。以降で説明する機能の配置はあくまで例であって、その配置は特定の情報処理装置に限定されるものではない。以上が図1の説明である。
【0022】
図2は、本発明の実施形態に係る情報処理サーバ100、認識サーバ101、情報処理端末102に適用可能なハードウェア構成の一例を示すブロック図である。
【0023】
図2に示すように、情報処理サーバ100、認識サーバ101、情報処理端末102は、システムバス204を介してCPU(Central Processing Unit)201、RAM(Random Access Memory)203、ROM(Read Only Memory)202、入力コントローラ205、ビデオコントローラ206、メモリコントローラ207、通信I/Fコントローラ208等が接続された構成を採る。
【0024】
CPU201は、システムバス204に接続される各デバイスやコントローラを統括的に制御する。
【0025】
また、ROM202あるいは外部メモリ211には、CPU201の制御プログラムであるBIOS(Basic Input/Output System)やOS(Operating System)や、各サーバあるいは各PCが実行する機能を実現するために必要な後述する各種プログラム等が記憶されている。また、本発明を実施するために必要な情報が記憶されている。なお外部メモリはデータベースであってもよい。
【0026】
RAM203は、CPU201の主メモリ、ワークエリア等として機能する。CPU201は、処理の実行に際して必要なプログラム等をROM202あるいは外部メモリ211からRAM203にロードし、ロードしたプログラムを実行することで各種動作を実現する。
【0027】
また、入力コントローラ205は、キーボード(KB)209や不図示のマウス等のポインティングデバイス等からの入力を制御する。
【0028】
ビデオコントローラ206は、ディスプレイ210等の表示器への表示を制御する。尚、表示器は液晶ディスプレイ等の表示器でもよい。これらは、必要に応じて管理者が使用する。
【0029】
メモリコントローラ207は、ブートプログラム、各種のアプリケーション、フォントデータ、ユーザファイル、編集ファイル、各種データ等を記憶する外部記憶装置(ハードディスク(HD))や、フレキシブルディスク(FD)、あるいは、PCMCIA(Personal Computer Memory Card International Association)カードスロットにアダプタを介して接続されるコンパクトフラッシュ(登録商標)メモリ等の外部メモリ211へのアクセスを制御する。
【0030】
通信I/Fコントローラ208は、ネットワークを介して外部機器と接続・通信し、ネットワークでの通信制御処理を実行する。例えば、TCP/IP(Transmission Control Protocol/Internet Protocol)を用いた通信等が可能である。
【0031】
尚、CPU201は、例えばRAM203内の表示情報用領域へアウトラインフォントの展開(ラスタライズ)処理を実行することにより、ディスプレイ210上に表示することが可能である。また、CPU201は、ディスプレイ210上のマウスカーソル(図示しない)等によるユーザ指示を可能とする。
【0032】
本発明を実現するための後述する各種プログラムは、外部メモリ211に記録されており、必要に応じてRAM203にロードされることによりCPU201によって実行されるものである。
【0033】
図3は、本発明の実施形態に係る機能構成の一例を示す図である。データ入力部321は、本願発明のアプリケーションをユーザが操作することにより、音声などのデータを受け付ける。また項目(後述の例では“精算項目”)に関連したレシートなどを撮影した画像などを受け付けても良い。
【0034】
データ送信部322は、ユーザの操作により入力された音声データなどのデータを情報処理サーバ100に送信し、情報処理サーバ100のデータ受信部301が当該データを受信する。
【0035】
認識パターン決定部302においては、前記データに“項目”(後述の例では“精算項目”)や既に決定している“詳細項目”(後述の例では“宿泊開始日”、“宿泊費”)などに基づき、その時点で未確定の項目を判断し、認識方法を決定する。認識方法とは、例えばいずれの単語を登録し、音声認識を実行するか、などを決定することである。これらの決定のために必要な情報はルール記憶部306に記憶されている。
【0036】
認識実行部303においては、前記決定した認識方法に基づき、登録単語と音声データを認識サーバ101に送信し、音声認識部311に認識させその結果(認識文字列)を受け取る。また、後述するとおり、レシートなどの画像データを送り、文字認識部312に認識させその結果(認識文字列)を受け取るようにとしても良い。
【0037】
情報処理サーバ100は、認識サーバ101で認識した文字列を、パターン処理部304において、“詳細項目”に対応する部分(“宿泊開始日”、“宿泊費”)などを特定する。その際、ルール記憶部306に格納されたパターン804に記載の情報をパターンマッチングルールとして用いる。
【0038】
結果送信部305は、前述で特定した情報を情報処理端末102に送信し、情報処理端末102の結果受信部324が受信する。この情報を表示部323でユーザに提示し、次の操作(情報が不足する場合の“再認識”、十分である場合の“登録”など)をユーザに促す。以上で図3の説明を完了する。
【0039】
次に図4図5を用いて経費精算する際の画面例を説明する。この画面は情報処理端末102におけるユーザインタフェースの例を示すものである。
【0040】
まず、図4を説明する。情報処理端末102においてユーザが“経費精算アプリ”を起動すると、いかなる種類の経費を精算するかを選択する精算項目選択リスト401(リスト選択)がある。ユーザが精算したい詳細項目を分かっていてリストから選択すれば、後述のフローチャートで説明する処理の流れがシンプルになるが、分からなければ選択しなくともよい。
【0041】
また音声認識ボタン402を押下することで、例えば「7月10日から7月12日まで、横浜ホテルに宿泊し合計で19,800円」という音声を情報処理端末102が受け付け、情報処理サーバ100に送る。
【0042】
図5は、前記ユーザが入力した音声を認識し、精算項目が“宿泊費”であること、また詳細項目(”宿泊開始日“、”宿泊終了日“、”宿泊先“、”費用“)についての情報を抽出して表示したものである。欄501には、”◎“、”דが付与されているが、これらはアプリケーションが情報の取得が成功したか否かによってマークされている。例では宿泊先の名称が上手く認識されていない(”ד)としている。
【0043】
情報の取得が成功したかどうかは、ユーザの判断により変更することができる。例えば、図5の例では“費用”には“◎”が付いているが、これはアプリケーションの判断であり、実際には誤っている可能性もある。
【0044】
ユーザはこれらの認識結果をテキスト入力で変更しても良いが、欄501の“◎”、“×”を正しく修正した後、再度音声認識ボタン402を押下しても良い。
【0045】
その時点では、“宿泊費”の経費精算であり、その中の“宿泊先”に関する情報のみが不正確であることを情報処理サーバ100に送る。後述する処理の流れにおいて、既に分かっている情報、不正確だと指定されている情報を用いて、アプリケーションはより適切な音声認識と情報の取得を処理して、再度、当該画面に表示する。
【0046】
最終的に全ての結果が正しく記載されていれば、登録ボタン502を押下して、ユーザは経費として申請する。
【0047】
これらの処理が“経費精算”に限らず、各種帳票などでも利用可能であることはいうまでもない。以上で図4図5を用いた画面例の説明を完了する。
【0048】
次に図6図7のフローチャートを用いて、本願発明における処理の一例を説明する。フローチャートの各ステップは、情報処理サーバ100上のCPU201で実行される。また、各ステップを実行する際に参照されるルール記憶部306(図8)、ユーザが入力する音声データと音声認識結果の例(図9)も必要に応じて説明する。
【0049】
ステップS601では、情報処理端末102から送信されたデータを受信する。データには、ユーザが発話した音声データの他、精算項目選択リスト401でいずれかの“項目”が選択されている場合には、それが何れの項目であるか(例えば“宿泊費”)もあわせて受信される。
【0050】
例としてユーザの最初の音声入力は「7月10日から7月12日まで横浜ホテルに宿泊し合計で19,800円です。」であるとする(図9のユーザの最初の発話901)。
【0051】
ステップS602では、認識パターンを特定し、そのための音声認識精度を最適化するために認識サーバ101の音声認識部311に登録する単語群をリストアップする。この処理は、図7のフローチャートで説明する。
【0052】
ステップS701では、詳細の情報を決定すべき“項目”(本例では“精算項目”)が決定しているかを判定する。例えば、情報処理端末102から情報処理サーバ100に音声データを初めて送ってきたときであって、精算項目選択リスト401でユーザが明示的な項目を選択していなければ、音声認識の結果として決める必要がある(すなわちこの時点では決まっていない)。この場合(NOの場合)は、ステップS702に進む。
【0053】
またユーザが精算項目選択リスト401で明示的に項目を決めているか、あるいは既に一度音声認識を行い、その結果から処理する精算項目が決まっている場合(YESの場合)は、ステップS703に進む。
【0054】
ステップS702では、“精算項目”は未定であるため、まずは詳細項目(“宿泊先”など)を取得するためよりも、“精算項目”を決定するために音声認識の精度を向上させることが優先となる。そこで、図8の精算項目特徴語802に記載された単語を音声認識サービスに登録する単語(特徴語グループS1~SZに含まれる単語)をリストアップする。本処理は、音声認識で用いる音声データの種別にかかる単語を決定する処理の一例である。
【0055】
図8の精算項目特徴語802に記載されている単語について説明する。この時点では精算内容の詳細な情報よりも“精算項目”(例えば、“宿泊費”なのか“タクシー代”なのか)を決定することが必要であり、それらを区別するための単語(あるいは文字列)を音声データから正確に取得することを優先する。
【0056】
そこで、精算項目特徴語802にて、例えば”宿泊費“であることを特徴付ける単語として特徴語グループS1にあるような単語(あるいは文字列)を定義する。音声データに含まれる情報が”宿泊費“であれば、例えば”宿泊“、”ホテル“などがユーザの音声に出現する確率が高いと考えられるので、これらの単語を登録し、音声認識の結果として確実に取得することが重要である。また”タクシー代“であれば、”タクシー“、”電車代“であれば、”都営“、”メトロ“、あるいはもっと具体的に”浅草線“などの路線名が音声に含まれる可能性が高い。これらの単語を後述の音声認識要求の前に、音声認識部311に登録するためにリストアップしておく。
【0057】
ここでフローチャートは一旦、図6のステップS603に戻る。ステップS603では、前述のS702で決定した特徴語グループS1~SZに含まれる単語を、音声認識精度向上のために認識サーバ101の音声認識部311に送信して登録させ、あわせて音声認識する音声データ(901)も送信する。
【0058】
ステップS604では、音声認識部311が認識した結果(認識した結果の文字列)を受信する。例えば図9の“1回目の音声認識結果”(902)を受信する。
【0059】
ステップS605では、ステップS604で受信した認識結果の文字列の中に、“精算項目”および“詳細項目”に対応する情報が含まれているかどうかパターンに当てはめる。具体的には、902の中に“ホテル”、“宿泊”という文字が含まれているため、“精算項目”は“宿泊費”であることが決定できる。本処理は、決定された単語を用いて音声認識装置が音声認識した結果に基づいて、音声データの種別を特定する処理の一例である。なお、”精算項目”の決定の際には、上記のように音声認識結果902に806の特徴語と一致する語句が含まれる場合に決定するだけでなく、特徴語と類似する語句や関連する語句が含まれる場合に決定してもよく、また、過去に”精査項目”が決定された認識結果とのパターンマッチングや機械学習による推論等により決定してもよい。さらに精算項目“宿泊費”に関連する詳細項目の中から“宿泊終了日”、“費用”に関する情報は取得できる。具体的には図9の922、925の文字列が、図8のパターン804に記載されたパターンに一致していることによる。本処理は、音声認識装置が音声認識した結果から、所定の条件によりデータ項目にかかる箇所を抽出する処理の一例である。
【0060】
ステップS606では、着目している精算項目について、全ての詳細項目が取得できたか否かを確認する。前記例では“宿泊費”のうち、“宿泊開始日”と“宿泊先”が取得できていないため、NOとなりステップS607に進む。本処理は、取得手段によりデータ項目の値を取得できたかを判定する処理の一例である。
【0061】
また全ての詳細項目が取得できた場合(“YES”の場合)には、認識結果を情報処理端末102に返し、本願発明の処理を完了する。
【0062】
次にステップS607とステップS608を説明するが、この判断はあくまで例である。すなわち、本願発明の本質は、同一の音声データであっても音声認識部311に登録する辞書を動的に切り替えることで、必要な情報を取得することであるが、最初の音声データの品質が悪ければ何度繰り返しても取得することはできない。そこで音声データの再利用に一定の制限を加えたものである。あくまで例であるため、ユーザの待ち時間や繰り返して認識できなかった詳細項目の数など、他のいかなる判断基準も本発明を構成できるものであることはいうまでもない。それでは例としてステップS607、ステップS608を説明する。
【0063】
ステップS607においては、音声認識の確信度を判断基準とする。一般的な技術として音声認識の出力には、認識結果の文字列だけではなく“確信度”が含まれる。例えば0~1までの数値で1に近いほど、高い確率で正解である(ユーザの発話と一致している)というものである。
【0064】
確信度が高い場合(YESの場合)には、そもそもユーザが入力した音声データの品質が高い、例えば録音環境の騒音が少ない、マイクなど入力機器の性能が良い、発話者の滑舌が良い場合が多く、最初の音声認識で失敗しても、単語の登録などで正解を出力する可能性が高くなる。そこで、ステップS608を経由してステップS602に戻り、改めて処理を繰り返す。
【0065】
確信度が低い場合には、単語を登録して再度認識しても正解は得られないため(NOの場合)、ステップS609に進む。確信度がどの程度であれば、正解が得られる/得られないという閾値は、予めファイル等の記憶部に手動で設定しておく。
【0066】
ステップS608においては、音声データを認識する回数に制限を設けておく。これにより、例えば特徴語となる単語を音声認識部311に登録して確信度が向上しても、実際には必要な情報が得られない、という状況を何度も繰り返すことを避けることができる。この回数も予め前記ファイル等の記憶部に手動で設定しておく。また、回数ではなく、図8の特徴語グループを最大に拡大しても認識できない、という場合に“YES”と判断し、ステップS609に進んでも良い。
【0067】
ステップS608でNOとなった場合には、ステップS602(即ち図7のフローチャート)に再び戻り、最初の音声データを再度音声認識するための準備をする。
【0068】
図7のフローチャートを2回目以降に実行する場合には、“精算項目”は既に決まっている(例では“宿泊費”)。この場合ステップS701で“YES”となりステップS703に進む。
【0069】
ステップS703にでは、まだ決定していない“詳細項目”の特徴語グループに属する単語を音声認識部311に渡すための準備をする。本例では、具体的には“宿泊開始日”、“宿泊先”がまだ取得できていないため、関連する特徴語グループD1、D2の単語をリストアップし、再び図6のフローチャートに戻る。本処理は、音声データから認識されるデータ項目に応じて、音声認識で用いる前記データ項目にかかる単語を決定する処理の一例である。
【0070】
図6のステップS603で音声認識部311に特徴語グループD1、D2の単語を登録するよう指示し、また最初にユーザが入力した音声データを渡す。本処理は、判定した結果に従って、データ項目にかかる単語を音声認識で用いる単語として決定する処理の一例である。
【0071】
ステップS604で結果を受け取り、ステップS605でこの2つの詳細項目が取得できるか確認する。図9の902では失敗した宿泊開始日(“7月当課”(921))が、2回目では正確に認識でき、”7月10日“が得られた(903)。しかしながら、”宿泊先“は”??ホテル“(931)となり再度失敗したとする。本処理は、決定された単語を用いて音声認識装置が音声認識した結果に基づいて、データ項目の値を取得する処理の一例である。
【0072】
そこで、ステップS607、S608の判断で最初の音声データを用い、3回目の音声認識を実行するよう判断する。
【0073】
再びステップS703では、認識すべき詳細項目が“宿泊先”の1つだけであるため、2回目よりも多くの単語を登録できると判断し、図8の拡大特徴語テーブル810の拡大特徴語グループD2の単語を登録する。特徴語グループD2よりも多くのホテルの名称を登録することで、認識が成功する確率を上げようとする。しかし、結局941の通り失敗したとする。
【0074】
その結果、同じ音声データを再認識させないと判断し(ステップS608の“YES”の場合)、ステップS609で、情報処理端末102に“宿泊先”のみ改めて音声入力するよう指示を出す。本処理は、取得手段により取得できなかったデータ項目にかかる音声データの入力を受け付ける処理の一例である。
【0075】
ユーザは、情報処理端末102(図5の501)で“宿泊費”の“宿泊先”だけが正しく取得できていないことを認識すると、その情報だけを音声で入力し、再度情報処理サーバ100に送信する。
【0076】
情報処理サーバ100のステップS601では、前記情報を受け取り、前述した2回目以降の音声認識の際と同じ手順で“宿泊先”のみを認識し、情報を取得する。情報取得が成功すれば、最終結果として情報処理端末102に結果を返す(ステップS610)。再度取得できなかった場合は、前期同様ステップS609で失敗した旨を返す。
【0077】
以上で、“宿泊費”の詳細項目は全て入力が完了したものとして、図6図7のフローチャート、図8の記憶部、図9の実行例を用いた説明を完了する。なお、システム側が成功したと見なしても、単にパターンが一致しただけであり、ユーザにとっては正確なデータが得られていない場合もある。その場合は、ユーザは情報処理端末102のインタフェースから、改めてその項目だけを選択して音声データを入力する、あるいは音声データでの情報入力をあきらめ、直接文字を入力するなどの操作ができることはいうまでもない。
【0078】
なお、図6図9を用いて行った説明はあくまで例であり、音声認識を連続して行っていく過程で、たとえ同じ音声データを繰り返し行うものであっても、その時点でどのような情報(単語群)を重点的に取得していくか、変更していくことが本願発明の中心であるため、その各段階で、取得すべき重点情報や登録する単語群の決め方は任意であり、全て本発明の範囲に含まれることはいうまでもない。さらに、同じ音声データではなく異なる音声データを再要求するタイミングも同様であり、その流れの制御はどのような方法であっても本願発明に含まれるものである。
【0079】
以上、いくつかの実施形態について示したが、本発明は、例えば、システム、装置、方法、コンピュータプログラムもしくは記録媒体等としての実施態様をとることが可能であり、具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。
【0080】
また、本発明におけるコンピュータプログラムは、図6図7に示すフローチャートの処理方法をコンピュータが実行可能なコンピュータプログラムであり、本発明の記憶媒体は図6図7の処理方法をコンピュータが実行可能なコンピュータプログラムが記憶されている。なお、本発明におけるコンピュータプログラムは図6図7の各装置の処理方法ごとのコンピュータプログラムであってもよい。
【0081】
以上のように、前述した実施形態の機能を実現するコンピュータプログラムを記録した記録媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記録媒体に格納されたコンピュータプログラムを読出し実行することによっても、本発明の目的が達成されることは言うまでもない。
【0082】
この場合、記録媒体から読み出されたコンピュータプログラム自体が本発明の新規な機能を実現することになり、そのコンピュータプログラムを記憶した記録媒体は本発明を構成することになる。
【0083】
コンピュータプログラムを供給するための記録媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD-ROM、CD-R、DVD-ROM、磁気テープ、不揮発性のメモリカード、ROM、シリコンディスク、ソリッドステートドライブ等を用いることができる。
【0084】
また、コンピュータが読み出したコンピュータプログラムを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのコンピュータプログラムの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0085】
さらに、記録媒体から読み出されたコンピュータプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのコンピュータプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPU等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0086】
また、本発明は、複数の機器から構成されるシステムに適用しても、1つの機器からなる装置に適用してもよい。また、本発明は、システムあるいは装置にコンピュータプログラムを供給することによって達成される場合にも適応できることは言うまでもない。この場合、本発明を達成するためのコンピュータプログラムを格納した記録媒体を該システムあるいは装置に読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。
【0087】
さらに、本発明を達成するためのコンピュータプログラムをネットワーク上のサーバ、データベース等から通信プログラムによりダウンロードして読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。
【0088】
なお、上述した各実施形態およびその変形例を組み合わせた構成も全て本発明に含まれるものである。
【符号の説明】
【0089】
100 情報処理サーバ
101 認識サーバ
102 情報処理端末
103 ネットワーク
301 データ受信部
302 認識パターン決定部
303 認識実行部
304 パターン処理部
305 結果送信部
306 ルール記憶部
311 音声認識部
312 文字認識部
321 データ入力部
322 データ送信部
323 表示部
324 結果受信部
図1
図2
図3
図4
図5
図6
図7
図8
図9