(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022187334
(43)【公開日】2022-12-19
(54)【発明の名称】音声入力支援プログラム、音声入力支援方法および情報処理装置
(51)【国際特許分類】
G10L 15/22 20060101AFI20221212BHJP
【FI】
G10L15/22 200V
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2021095317
(22)【出願日】2021-06-07
(71)【出願人】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】110002918
【氏名又は名称】弁理士法人扶桑国際特許事務所
(72)【発明者】
【氏名】青亀 和宏
(57)【要約】
【課題】音声を基に適切な情報を取得できる。
【解決手段】記憶部11は、画面21に含まれる複数の入力領域それぞれの識別情報を示す画面情報を記憶し、複数の入力領域それぞれの識別情報に関連付けられた辞書データを入力領域ごとに記憶する。処理部12は、表示装置20に表示された画面21に含まれる入力領域21aに対するデータの入力が可能な状態となっている場合に音声情報を受け付けると、画面情報に基づいて入力領域21aの識別情報を特定する。処理部12は、入力領域ごとの辞書データのうち、特定した識別情報に対応する第1の辞書データを取得し、第1の辞書データを用いて、音声情報を変換する音声変換処理を実行する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
コンピュータに、
表示装置に表示された画面に含まれる第1の入力領域に対するデータの入力が可能な状態となっている場合に音声情報を受け付けると、前記画面に含まれる複数の入力領域それぞれの識別情報を示す画面情報に基づいて、前記第1の入力領域の第1の識別情報を特定し、
前記複数の入力領域それぞれの前記識別情報に関連付けられた音声変換用の辞書データのうち、前記第1の識別情報に対応する第1の辞書データを取得し、
前記第1の辞書データを用いて、前記音声情報を変換する音声変換処理を実行する、
処理を実行させる音声入力支援プログラム。
【請求項2】
前記第1の辞書データは、前記音声情報をテキストに変換するテキスト認識辞書データと、前記音声情報をコマンドに変換するコマンド認識辞書データとを含み、
前記音声変換処理では、前記コマンド認識辞書データに基づいて前記音声情報が前記コマンドに変換される場合は、前記コマンドを実行し、前記コマンド認識辞書データに基づいて前記音声情報が前記コマンドに変換されない場合は、前記テキスト認識辞書データに基づいて前記音声情報を前記テキストに変換する、
処理を更に前記コンピュータに実行させる請求項1記載の音声入力支援プログラム。
【請求項3】
前記コマンドを実行することで、前記画面に含まれる、前記第1の入力領域とは異なる他の入力領域を、前記データの入力が可能な状態に遷移させる、
処理を更に前記コンピュータに実行させる請求項2記載の音声入力支援プログラム。
【請求項4】
前記音声情報は、前記画面における、前記第1の入力領域に対する方向を示し、
前記コマンド認識辞書データに基づいて、前記音声情報を、前記第1の入力領域に対して前記方向に配置された他の入力領域を前記データの入力が可能な状態に遷移させる前記コマンドに変換する、
処理を更に前記コンピュータに実行させる請求項2記載の音声入力支援プログラム。
【請求項5】
前記音声情報は、他の入力領域に入力される前記データの名称を示し、
前記コマンド認識辞書データに基づいて、前記音声情報を、前記名称の前記データが入力される他の入力領域を前記データの入力が可能な状態に遷移させる前記コマンドに変換する、
処理を更に前記コンピュータに実行させる請求項2記載の音声入力支援プログラム。
【請求項6】
前記第1の辞書データは、前記音声情報を数値に変換する数値認識辞書データを含み、
前記音声変換処理では、前記数値認識辞書データに基づいて前記音声情報を前記数値に変換した場合、前記第1の入力領域に対して許容される数値範囲を示す情報に基づいて、前記数値が前記数値範囲に含まれるか否かを判定し、前記数値が前記数値範囲に含まれる場合は前記第1の入力領域に前記数値を入力し、前記数値が前記数値範囲に含まれない場合はアラートを出力する、
処理を更に前記コンピュータに実行させる請求項1記載の音声入力支援プログラム。
【請求項7】
前記第1の入力領域が数値または単語の入力を受け付ける入力領域の場合、前記第1の辞書データは、前記音声変換処理の結果を、前記第1の入力領域への入力が許容される特定の数値または特定の単語に制限する辞書データであり、
前記第1の入力領域が文章の入力を受け付ける入力領域の場合、前記第1の辞書データは、前記音声変換処理の結果を、前記特定の数値または前記特定の単語に制限しない辞書データである、
請求項1記載の音声入力支援プログラム。
【請求項8】
前記辞書データは、前記画面を識別する画面識別情報と前記入力領域の前記識別情報との組に関連づけられており、
前記第1の辞書データの取得では、前記表示装置に表示された前記画面の前記画面識別情報と前記第1の識別情報との組に対応する前記第1の辞書データを取得する、
処理を更に前記コンピュータに実行させる請求項1記載の音声入力支援プログラム。
【請求項9】
コンピュータが、
表示装置に表示された画面に含まれる第1の入力領域に対するデータの入力が可能な状態となっている場合に音声情報を受け付けると、前記画面に含まれる複数の入力領域それぞれの識別情報を示す画面情報に基づいて、前記第1の入力領域の第1の識別情報を特定し、
前記複数の入力領域それぞれの前記識別情報に関連付けられた音声変換用の辞書データのうち、前記第1の識別情報に対応する第1の辞書データを取得し、
前記第1の辞書データを用いて、前記音声情報を変換する音声変換処理を実行する、
音声入力支援方法。
【請求項10】
画面に含まれる複数の入力領域それぞれの識別情報を示す画面情報を記憶し、前記複数の入力領域それぞれの前記識別情報に関連付けられた音声変換用の辞書データを入力領域ごとに記憶する記憶部と、
表示装置に表示された前記画面に含まれる第1の入力領域に対するデータの入力が可能な状態となっている場合に音声情報を受け付けると、前記画面情報に基づいて前記第1の入力領域の第1の識別情報を特定し、前記入力領域ごとの前記辞書データのうち、前記第1の識別情報に対応する第1の辞書データを取得し、前記第1の辞書データを用いて、前記音声情報を変換する音声変換処理を実行する処理部と、
を有する情報処理装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は音声入力支援プログラム、音声入力支援方法および情報処理装置に関する。
【背景技術】
【0002】
音声認識技術を用いて、音声による情報入力を受け付ける情報処理装置がある。例えば、作業者による設備機器の保全作業における情報入力を支援する保全作業支援装置の提案がある。保全作業支援装置は、保全作業に関連した言葉がマイクロフォンに向かって発声されると、音声認識部で認識されたコード化した単語を共通辞書から選択し、これに対応して文言テーブルから区分を選択し、選択した区分に応じて使用する辞書を切り替えて使用する。
【0003】
また、医療機関等で行われる問診作業を支援する医療支援装置の提案もある。医療支援装置は、先ず、問診項目ごとにその問診の回答に関する語句を記憶する問診項目別辞書を用いて音声認識を行い、問診項目別辞書から語句候補が抽出されない場合に、問診項目に関わらず語句を記憶する医療分野辞書を用いて音声認識を行う。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2001-171934号公報
【特許文献2】特開2013-156844号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
ところで、情報処理装置に対する情報の入力には、GUI(Graphical User Interface)が用いられることが少なくない。例えば、情報処理装置は、テキストが入力される複数の入力領域を有する画面をユーザに提示し、画面内の何れかの入力領域のユーザによる選択、および、選択された入力領域に対するユーザによるテキストのキー入力を受け付けることがある。
【0006】
そこで、音声認識技術を用いて、このような画面の各入力領域に対するユーザによる入力を支援することが考えられる。ここで、上記のように情報処理装置は、予め用意された辞書データに基づいて、入力された音声の情報をテキストに変換することがある。しかし、複数の入力領域に入力されるべきテキストには、例えば整数、小数、単語および文章などの様々な種類があり得る。このため、情報処理装置により、各入力領域に対して一律の辞書データを用いて音声認識を行うと、入力された音声が該当の入力領域に対して入力されるべきでない、誤ったテキストに変換される可能性が高まる。
【0007】
1つの側面では、本発明は、音声を基に適切な情報を取得する音声入力支援プログラム、音声入力支援方法および情報処理装置を提供することを目的とする。
【課題を解決するための手段】
【0008】
1つの態様では、音声入力支援プログラムが提供される。音声入力支援プログラムは、コンピュータに、表示装置に表示された画面に含まれる第1の入力領域に対するデータの入力が可能な状態となっている場合に音声情報を受け付けると、画面に含まれる複数の入力領域それぞれの識別情報を示す画面情報に基づいて、第1の入力領域の第1の識別情報を特定し、複数の入力領域それぞれの識別情報に関連付けられた音声変換用の辞書データのうち、第1の識別情報に対応する第1の辞書データを取得し、第1の辞書データを用いて、音声情報を変換する音声変換処理を実行する、処理を実行させる。
【0009】
また、1つの態様では、音声入力支援方法が提供される。
また、1つの態様では、情報処理装置が提供される。
【発明の効果】
【0010】
1つの側面では、音声を基に適切な情報を取得できる。
【図面の簡単な説明】
【0011】
【
図1】第1の実施の形態の情報処理装置を説明する図である。
【
図2】第2の実施の形態の情報処理装置のハードウェア例を示す図である。
【
図9】コマンド認識辞書データの例を示す図である。
【
図10】情報処理装置の処理例を示すフローチャートである。
【
図11】音声による入力処理例を示すフローチャートである。
【
図12】テキスト入力処理例を示すフローチャートである。
【発明を実施するための形態】
【0012】
以下、本実施の形態について図面を参照して説明する。
[第1の実施の形態]
第1の実施の形態を説明する。
【0013】
図1は、第1の実施の形態の情報処理装置を説明する図である。
情報処理装置10は、表示装置20およびマイク30に接続される。情報処理装置10は、音声認識技術を用いて、表示装置20に表示される画面に対する、ユーザによる情報の入力を支援する。情報処理装置10は、記憶部11および処理部12を有する。
【0014】
記憶部11は、RAM(Random Access Memory)などの揮発性記憶装置でもよいし、HDD(Hard Disk Drive)やフラッシュメモリなどの不揮発性記憶装置でもよい。処理部12は、CPU(Central Processing Unit)、DSP(Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)などを含み得る。処理部12はプログラムを実行するプロセッサでもよい。「プロセッサ」は、複数のプロセッサの集合(マルチプロセッサ)を含み得る。
【0015】
記憶部11は、辞書管理情報11aを記憶する。辞書管理情報11aは、表示装置20に表示される画面に含まれる複数の入力領域それぞれに関連付けられた音声変換用の辞書データを管理する情報である。入力領域は、テキストが入力される入力フォームである。辞書データは、マイク30により情報処理装置10に入力される音声情報に対応するテキストを示す情報である。辞書データは、音声情報に対して実行すべきコマンドを示すものでもよい。
【0016】
例えば、表示装置20は画面21を表示する。画面21は、入力領域21a,21bを有する。入力領域21aは、項目aに関する入力領域である。入力領域21bは、項目bに関する入力領域である。例えば、辞書管理情報11aでは、入力領域21aの識別情報Aに対して辞書データ「dictionary1.dat」が関連付けられている。また、辞書管理情報11aは、入力領域21bの識別情報Bに対して辞書データ「dictionary2.dat」が関連付けられている。
【0017】
例えば、各入力領域の辞書データは、該当の入力領域に入力されるべきデータ形式に応じて予め用意される。データ形式としては、整数、小数、単語、文章などがある。また、整数や小数などの数値に対しては、桁数や範囲が指定されることもある。更に、文章を入力するために、数値や単語などの認識に特化したグラマー認識用の辞書データとは別に、口述される文章の認識に特化したディクテーション認識用の辞書データが予め用意され得る。
【0018】
一例を挙げれば、項目aが「体温」の場合、入力領域21aの入力内容は、整数部2桁および小数部1桁で表される数値に制限される。このため、整数部2桁および小数部1桁で表される数値のみの認識に特化したグラマー認識用の辞書データが識別情報Aに対して予め用意される。また、例えば、項目bが「観察所見」の場合、入力領域21bの入力内容は、フリーテキスト、すなわち、自然言語の文章となる。このため、ディクテーション認識用の辞書データが識別情報Bに対して予め用意される。
【0019】
なお、辞書管理情報11aは、画面21の各入力領域と辞書データとの対応関係に加えて、画面21以外の画面に含まれる各入力領域と辞書データとの対応関係を含んでもよい。
【0020】
処理部12は、記憶部11に記憶された辞書管理情報11aに基づいて辞書データを取得し、当該辞書データを用いた音声認識を行う。
まず、処理部12は、表示装置20に表示された画面21に含まれる第1の入力領域に対するデータの入力が可能な状態となっている場合に音声情報を受け付ける。すると、処理部12は、画面に含まれる複数の入力領域それぞれの識別情報を示す画面情報に基づいて、第1の入力領域の第1の識別情報を特定する。画面情報は、記憶部11に予め記憶される。
【0021】
画面情報は、処理部12が実行するブラウザなどが画面21を表示装置20に表示させる際に使用されるHTML(HyperText Markup Language)などのデータでもよいし、画面21に表示される入力領域の位置と識別情報とを関連付けたテーブルでもよい。例えば、HTMLデータでは、入力フォームと入力項目の項目名(識別情報)とがlabelなどのタグによって関連付けられる。このため、処理部12は、当該HTMLデータから、データの入力が可能な状態となっている入力フォームの識別情報を取得できる。あるいは、処理部12は、画面21の基準位置に対する入力領域の相対位置と識別情報とを関連付けたテーブルに基づいて画面21においてデータの入力が可能になっている入力領域の位置に対応する識別情報を取得してもよい。例えば、画面情報は、入力領域21aの識別情報が識別情報Aであることを示す。また、画面情報は、入力領域21bの識別情報が識別情報Bであることを示す。
【0022】
図1では、画面21において、入力領域21aに対するデータの入力が可能な状態となっている例が示されている。この場合、入力領域21aは、第1の入力領域の一例である。例えば、処理部12は、入力領域21aを強調表示することで、入力領域21aに対するデータの入力が可能な状態となっていることをユーザに認識させる。ユーザは、マイク30に向かって、入力領域21aに入力したいテキストを発声する。マイク30は、ユーザにより発せられた音声を検出し、当該音声に対応する音声情報を情報処理装置10に出力する。処理部12は、当該音声情報を受け付ける。
【0023】
すると、処理部12は、画面情報に基づいて、データの入力が可能な状態となっている入力領域21aの識別情報Aを特定する。識別情報Aは、第1の識別情報の一例である。
処理部12は、複数の入力領域それぞれの識別情報に関連付けられた辞書データのうち、第1の識別情報に対応する第1の辞書データを取得する。辞書管理情報11aによれば、識別情報Aに関連付けられた辞書データは、辞書データ「dictionary1.dat」である。したがって、処理部12は、識別情報Aに対して、辞書データ「dictionary1.dat」を取得する。
【0024】
処理部12は、第1の辞書データを用いて、音声情報を変換する音声変換処理を実行する。例えば、処理部12は、辞書データ「dictionary1.dat」を用いて、入力領域21aに対して入力された音声情報をテキスト「xxxx」に変換する。処理部12は、当該テキストを入力領域21aに表示させることで、変換結果をユーザに提示する。
図1では、当該音声変換処理の結果として、入力領域21aにテキスト「xxxx」が入力される例が示されている。
【0025】
なお、前述のように、辞書データが音声情報とコマンドとの対応関係を示す場合、処理部12は、入力された音声情報をコマンドに変換し、当該コマンドを実行してもよい。コマンドの例としては、ユーザが次に入力する入力領域を移動させるコマンドや、画面21に現在入力済の情報を確定させるコマンドや、画面21を閉じるコマンドなどが考えられる。
【0026】
情報処理装置10によれば、表示装置20に表示された画面21に含まれる第1の入力領域に対するデータの入力が可能な状態となっている場合に音声情報が受け付けられる。すると、画面21に含まれる複数の入力領域それぞれの識別情報を示す画面情報に基づいて、第1の入力領域の第1の識別情報が特定される。複数の入力領域それぞれの識別情報に関連付けられた音声変換用の辞書データのうち、第1の識別情報に対応する第1の辞書データが取得される。第1の辞書データを用いて、音声情報を変換する音声変換処理が実行される。
【0027】
これにより、入力された音声を基に適切な情報を取得できる。すなわち、情報処理装置10は、入力領域ごとに辞書データを関連付けておき、入力可能な入力領域に応じて辞書データを使い分けることで、該当の入力領域に適した辞書データでの音声変換処理が可能となる。したがって、情報処理装置10は、入力領域に対応する辞書データにより、当該入力領域に対して入力された音声情報に対して得られる変換結果を、当該入力領域に入力されるべきデータ形式に応じた変換結果に制限できる。このため、情報処理装置10は、入力された音声情報を、該当の入力領域に対して入力されるべきでない、誤った情報に変換する可能性を減らせ、入力された音声から適切な情報を取得可能になる。
【0028】
なお、表示装置20は、ネットワークを介して情報処理装置10と通信する他の情報処理装置に接続されたものでもよい。また、情報処理装置10は、ユーザから発せられた音声に対応する音声情報を、ネットワークを介して他の情報処理装置から受信してもよい。その場合、処理部12は音声変換結果を示す情報を他の情報処理装置に送信してもよい。このように、情報処理装置10は、音声認識により、他の情報処理装置に対するユーザの入力支援を行うこともできる。
【0029】
以下では、情報処理装置10の機能を更に具体的に説明する。
[第2の実施の形態]
次に、第2の実施の形態を説明する。
【0030】
図2は、第2の実施の形態の情報処理装置のハードウェア例を示す図である。
情報処理装置100は、医療従事者による電子カルテへの入力を支援するコンピュータである。ただし、情報処理装置100による入力支援は、電子カルテに対する入力作業だけでなく、ユーザ情報のコンピュータへの登録やアンケート回答のコンピュータへの入力など他の情報の入力作業にも用いることができる。
【0031】
情報処理装置100は、CPU101、RAM102、HDD103、GPU(Graphics Processing Unit)104、入力インタフェース105、媒体リーダ106およびNIC(Network Interface Card)107を有する。なお、CPU101は、第1の実施の形態の処理部12の一例である。RAM102またはHDD103は、第1の実施の形態の記憶部11の一例である。
【0032】
CPU101は、プログラムの命令を実行するプロセッサである。CPU101は、HDD103に記憶されたプログラムやデータの少なくとも一部をRAM102にロードし、プログラムを実行する。なお、CPU101は複数のプロセッサコアを含んでもよい。また、情報処理装置100は複数のプロセッサを有してもよい。以下で説明する処理は複数のプロセッサまたはプロセッサコアを用いて並列に実行されてもよい。また、複数のプロセッサの集合を「マルチプロセッサ」または単に「プロセッサ」と言うことがある。
【0033】
RAM102は、CPU101が実行するプログラムやCPU101が演算に用いるデータを一時的に記憶する揮発性の半導体メモリである。なお、情報処理装置100は、RAM以外の種類のメモリを備えてもよく、複数個のメモリを備えてもよい。
【0034】
HDD103は、OS(Operating System)やミドルウェアやアプリケーションソフトウェアなどのソフトウェアのプログラム、および、データを記憶する不揮発性の記憶装置である。なお、情報処理装置100は、フラッシュメモリやSSD(Solid State Drive)などの他の種類の記憶装置を備えてもよく、複数の不揮発性の記憶装置を備えてもよい。
【0035】
GPU104は、CPU101からの命令に従って、情報処理装置100に接続されたディスプレイ51に画像を出力する。ディスプレイ51としては、CRT(Cathode Ray Tube)ディスプレイ、液晶ディスプレイ(LCD:Liquid Crystal Display)、プラズマディスプレイ、有機EL(OEL:Organic Electro-Luminescence)ディスプレイなど、任意の種類のディスプレイを用いることができる。
【0036】
入力インタフェース105は、情報処理装置100に接続された入力デバイス52から入力信号を取得し、CPU101に出力する。入力デバイス52としては、マウス、タッチパネル、タッチパッド、トラックボールなどのポインティングデバイス、キーボード、リモートコントローラ、ボタンスイッチなどを用いることができる。また、情報処理装置100に、複数の種類の入力デバイスが接続されていてもよい。
【0037】
入力インタフェース105は、マイク53から音声信号の情報、すなわち音声情報を取得し、CPU101に出力する。マイク53は、周囲の音を検出して音声情報を生成し、入力インタフェース105に出力する。例えば、ユーザがマイク53に向かって発声すると、マイク53は、発声された音声を検出し、当該音声に応じた音声情報を生成して、入力インタフェース105に出力する。
【0038】
媒体リーダ106は、記録媒体54に記録されたプログラムやデータを読み取る読み取り装置である。記録媒体54として、例えば、磁気ディスク、光ディスク、光磁気ディスク(MO:Magneto-Optical disk)、半導体メモリなどを使用できる。磁気ディスクには、フレキシブルディスク(FD:Flexible Disk)やHDDが含まれる。光ディスクには、CD(Compact Disc)やDVD(Digital Versatile Disc)が含まれる。
【0039】
媒体リーダ106は、例えば、記録媒体54から読み取ったプログラムやデータを、RAM102やHDD103などの他の記録媒体にコピーする。読み取られたプログラムは、例えば、CPU101によって実行される。なお、記録媒体54は可搬型記録媒体であってもよく、プログラムやデータの配布に用いられることがある。また、記録媒体54やHDD103を、コンピュータ読み取り可能な記録媒体と言うことがある。
【0040】
NIC107は、ネットワーク55に接続され、ネットワーク55を介して他のコンピュータと通信を行うインタフェースである。NIC107は、例えば、ネットワーク55に属するスイッチやルータなどの通信装置とケーブルで接続される。NIC107は、ネットワーク55と無線で接続されてもよい。
【0041】
図3は、情報処理装置の機能例を示す図である。
情報処理装置100は、記憶部110、表示制御部120および音声認識部130を有する。記憶部110には、RAM102やHDD103の記憶領域が用いられる。表示制御部120および音声認識部130は、RAM102に記憶されたプログラムがCPU101により実行されることで実現される。
【0042】
記憶部110は、表示制御部120がディスプレイ51に表示させる画面に関する画面情報、当該画面に含まれる入力領域に関する情報および入力領域ごとの辞書データを記憶する。
【0043】
表示制御部120は、電子カルテに対する入力を受け付けるための画面(GUI)をディスプレイ51に表示させる。電子カルテへの入力はテキストにより行われる。入力される内容には、体温、体重、血圧、および、医師による観察記録などの複数の項目が含まれ得る。このため、ディスプレイ51に表示される画面は、項目ごとにテキストの入力を受け付ける複数の入力領域を有する。表示制御部120は、記憶部110に記憶された画面情報に基づいて、ディスプレイ51に当該画面を表示させてもよい。
【0044】
表示制御部120は、情報の入力が可能な入力領域を強調表示することで、当該入力領域が選択されていることをユーザに提示する。例えば、表示制御部120は、該当の入力領域を囲うカーソルの線の幅を太くしたり、当該入力領域を他の入力領域とは異なる色で表示させたりして、当該入力領域を他の入力領域よりも目立つようにフォーカスする。
【0045】
また、表示制御部120は、音声認識部130による音声認識で認識されたテキストを、該当の入力領域に表示させる。表示制御部120は、音声認識部130による音声認識で認識されたコマンドに応じて、例えば、フォーカスする入力領域の変更や画面に入力された内容の確定など、当該画面の表示制御を行うこともある。
【0046】
表示制御部120は、画面に入力された内容が確定されると、確定された入力内容を、記憶部110に格納する。あるいは、表示制御部120は、確定された入力内容を、電子カルテを管理するサーバコンピュータに、ネットワーク55を介して送信してもよい。
【0047】
音声認識部130は、情報の入力が可能となっている入力領域、すなわち、表示制御部120により現在フォーカスされている入力領域に対する辞書データを、記憶部110に記憶された各入力領域に対する辞書データの中から選択する。
【0048】
音声認識部130は、選択された辞書データを用いて、マイク53から入力された音声情報を変換する音声変換処理を行う。音声認識部130は、当該辞書データに基づいて、音声変換処理により音声情報を、テキストに変換したり、表示されている画面に対して実行するコマンドに変換したりする。音声認識部130は、音声変換処理として取得されたテキストやコマンドを、表示制御部120に通知する。
【0049】
なお、情報処理装置100は、上記の画面情報や画面情報に含まれる入力領域ごとの辞書データを、ネットワーク55を介して、サーバコンピュータからダウンロードし、記憶部110に予め格納してもよい。
【0050】
図4は、画面の例を示す図である。
例えば、表示制御部120は、バイタルサインを入力するための画面200をディスプレイ51に表示させる。画面200の名称は「バイタルサイン」である。画面200は、入力領域201,202,203,204,205,206,207を有する。入力領域201,202,203,204,205,206,207は、何れもテキストの入力フォームである。
【0051】
入力領域201は、体温を示す数値が入力される。入力領域202は、脈拍を示す数値が入力される。入力領域203は、収縮期血圧を示す数値が入力される。入力領域204は、拡張期血圧を示す数値が入力される。入力領域205は、1分当たりの呼吸数を示す数値が入力される。入力領域206は、経皮的動脈血酸素飽和度(SpO2)を示す数値が入力される。入力領域207は、経過観察の内容がフリーテキストで入力される。
【0052】
なお、入力領域201,202,203,204,205,206,207それぞれに対応付けて、該当の入力領域の入力領域名が表示される。入力領域201の入力領域名は、「体温」である。入力領域202の入力領域名は「脈拍」である。入力領域203の入力領域名は「血圧(収縮期)」である。入力領域204の入力領域名は「血圧(拡張期)」である。入力領域205の入力領域名は「呼吸」である。入力領域206の入力領域名は「SpO2」である。入力領域207の入力領域名は「観察記録」である。
【0053】
図4では、画面200において入力領域206が入力可能な状態となっている例、すなわち、入力領域206がフォーカスされている例が示されている。
図5は、画面マスタの例を示す図である。
【0054】
画面マスタ111は、記憶部110に予め記憶される。画面マスタ111は、画面コードおよび画面名の項目を含む。画面コードの項目には、画面コードが登録される。画面コードは、表示制御部120により表示される画面の識別情報である。画面名の項目には、画面名が登録される。画面名は、当該画面の名称である。
【0055】
例えば、画面マスタ111には、画面コード「vitalsigns」、画面名「バイタルサイン」のレコードが登録されている。このレコードは、画面名「バイタルサイン」の画面200の画面コードが「vitalsigns」であることを示す。画面マスタ111には、他の画面に関するレコードも登録される。
【0056】
図6は、入力領域マスタの例を示す図である。
入力領域マスタ112は、記憶部110に予め記憶される。入力領域マスタ112は、画面コード、入力領域コード、入力領域名、入力領域タイプ、データタイプ、小数部桁数、最大値、最小値、音声認識タイプおよび辞書データの項目を含む。
【0057】
画面コードの項目には、画面コードが登録される。入力領域コードの項目には、入力領域コードが登録される。入力領域コードは、入力領域の識別情報である。入力領域名の項目には、入力領域名が登録される。入力領域名は、入力領域の名称である。入力領域タイプの項目には、入力領域タイプが登録される。入力領域タイプには、数値や単語を入力するための「テキストボックス」や文字列を入力するための「テキストエリア」がある。データタイプの項目には、入力領域に入力されるデータタイプが登録される。データタイプには、「数値」や「文字列」などがある。小数部桁数の項目には、データタイプが「数値」の場合に、当該数値における小数部の桁数が登録される。なお、データタイプが「文字列」の場合、小数部桁数は「0」であるとする。最大値の項目には、該当の入力領域に入力可能な数値の最大値が登録される。最小値の項目には、該当の入力領域に入力可能な数値の最小値が登録される。音声認識タイプの項目には、該当の入力領域に対して実行する音声認識方法のタイプ(音声認識タイプ)が登録される。音声認識タイプには、単語や数値の認識に特化した「グラマー」認識や、口述される文章の認識に特化した「ディクテーション」認識がある。なお、コマンド認識用の辞書データを用いた音声変換は、グラマー認識で行われる。辞書データの項目には、該当の入力領域に対する音声変換処理に使用する辞書データ、あるいは、辞書データのパス名などの辞書データの識別情報が登録される。
【0058】
例えば、入力領域マスタ112には、画面コード「vitalsigns」、入力領域コード「temp」、入力領域名「体温」、入力領域タイプ「テキストボックス」、データタイプ「数値」、小数部桁数「1」、最大値「60」、最小値「0」、音声認識タイプ「グラマー」、辞書データ「/grm/command.gram」および「/grm/decimal1.gram」という第1レコードが登録されている。
【0059】
第1レコードは、画面コード「vitalsigns」の画面200の入力領域コード「temp」の入力領域201が入力領域名「体温」のテキストボックスであり、入力されるデータの種類が数値であり、入力領域201に対してグラマー認識を行うことを示す。第1レコードは、入力領域201に対する音声変換処理に用いる辞書データが、「/grm/command.gram」および「/grm/decimal1.gram」であることを示す。ここで、辞書データ「/grm/command.gram」は、コマンド認識に用いられるコマンド認識辞書データである。辞書データ「/grm/decimal1.gram」は、小数部1桁を含む数値の入力に特化した小数認識辞書データである。また、第1レコードは、入力領域201において許容される小数部の桁数が1であり、入力される最大値が60、最小値が0であることを示す。
【0060】
また、入力領域マスタ112には、画面コード「vitalsigns」、入力領域コード「pulse」、入力領域名「脈拍」、入力領域タイプ「テキストボックス」、データタイプ「数値」、小数部桁数「0」、最大値「500」、最小値「0」、音声認識タイプ「グラマー」、辞書データ「/grm/command.gram」および「/grm/integer3.gram」という第2レコードが登録されている。
【0061】
第2レコードは、画面200の入力領域コード「pulse」の入力領域202が入力領域名「脈拍」のテキストボックスであり、入力されるデータの種類が数値であり、入力領域202に対してグラマー認識を行うことを示す。第2レコードは、入力領域202に対する音声変換処理に用いる辞書データが、「/grm/command.gram」および「/grm/integer3.gram」であることを示す。ここで、辞書データ「/grm/integer3.gram」は、3桁の整数で表される数値の入力に特化した整数認識辞書データである。また、第2レコードは、入力領域202において許容される小数部の桁数が0であり、入力される最大値が500、最小値が0であることを示す。
【0062】
更に、入力領域マスタ112には、画面コード「vitalsigns」、入力領域コード「observation」、入力領域名「観察記録」、入力領域タイプ「テキストエリア」、データタイプ「文字列」、小数部桁数「0」、最大値「9999」、最小値「0」、音声認識タイプ「ディクテーション」、辞書データ「/grm/command.gram」および「/dic/dictionary.db」という第3レコードが登録されている。
【0063】
第3レコードは、画面200の入力領域コード「observation」の入力領域207の入力領域名「観察記録」のテキストエリアであり、入力されるデータの種類が文字列であり、入力領域207に対してディクテーション認識を行うことを示す。第3レコードは、入力領域207に対する音声変換処理に用いる辞書データが、「/grm/command.gram」および「/dic/dictionary.db」であることを示す。ここで、辞書データ「/dic/dictionary.db」は、口述される文章の入力に特化したディクテーション認識辞書データである。dictionary.dbは、「単語」と「よみ」の組合せを格納したデータベースであり、一般的な日本語の単語の他にも、例えば電子カルテを扱う医療などの特定分野における文章の記載に用いられる専門用語も登録されている。また、第3レコードは、入力領域207において許容される小数部の桁数が0であり、入力される最大値が9999、最小値が0であることを示す。なお、データタイプが文字列の場合、小数部桁数、最大値および最小値は、それぞれのデフォルト値「0」、「9999」、「0」が設定されて、該当の入力領域には任意の数値が入力可能である。
【0064】
入力領域マスタ112には、画面200における他の入力領域に対しても、上記の第1,第2,第3レコードと同様の項目を有するレコードが登録される。また、入力領域マスタ112には、画面200以外の他の画面の各入力領域に対しても、上記の第1,第2,第3レコードと同様の項目を有するレコードが登録される。
【0065】
なお、入力領域マスタ112は、入力領域コードに対応付けて、入力領域コードで示される入力領域が表示される画面上の位置の情報を保持してもよい。その場合、表示制御部120は、当該入力領域コードと入力領域が表示される画面上の位置とを示す情報を、該当の入力領域を含む画面を表示させるための画面情報として用いることができる。入力領域の位置としては、例えば、該当の画面における基準点に対する相対位置が考えられる。
【0066】
次に、辞書データを例示する。以下では、一例として、JSGF(Java Speech Grammar Format)と呼ばれる、JAVAで使用される音声変換フォーマットを想定する。JAVAは、登録商標である。
【0067】
図7は、整数認識辞書データの例を示す図である。
整数認識辞書データ113は、前述の「/grm/integer3.gram」を例示する。整数認識辞書データ113は、記憶部110に予め記憶される。整数認識辞書データ113は、グラマー認識用の辞書データであり、3桁の整数値の読み方の音声情報と当該整数値を表すテキストとが予め対応付けられている。
【0068】
例えば、音声認識部130は、「256」(にひゃくごじゅうろく)というユーザの発声に対応する音声情報の入力に対し、整数認識辞書データ113を用いて、当該音声情報を「256」という数値を示すテキストに変換する。
【0069】
図8は、小数認識辞書データの例を示す図である。
小数認識辞書データ114は、前述の「/grm/decimal1.gram」を例示する。小数認識辞書データ114は、記憶部110に予め記憶される。小数認識辞書データ114は、グラマー認識用の辞書データであり、2桁の整数と1桁の小数との組で表される数値の読み方の音声情報と当該数値を表すテキストとが予め対応付けられている。
【0070】
例えば、音声認識部130は、「36.6」(さんじゅうろくてんろく)というユーザの発声に対応する音声情報の入力に対し、小数認識辞書データ114を用いて、当該音声情報を「36.6」という数値を示すテキストに変換する。
【0071】
図9は、コマンド認識辞書データの例を示す図である。
コマンド認識辞書データ115は、前述の「/grm/command.gram」を例示する。コマンド認識辞書データ115は、記憶部110に予め記憶される。コマンド認識辞書データ115は、グラマー認識用の辞書データであり、単語の読み方の音声情報と当該単語に対応するコマンドとが予め対応付けられている。
【0072】
コマンドとしては、現在フォーカスされている入力領域に隣接する他の入力領域にフォーカスを移動させるコマンド、該当の入力領域名の入力領域にフォーカスを移動させるコマンド、画面に入力された内容を確定するコマンド、画面を閉じるコマンドなどがある。
【0073】
例えば、音声認識部130は、画面200に対して「次へ」という音声を表す音声情報の入力を受け付ける。すると、音声認識部130は、当該音声情報とコマンド認識辞書データ115とに基づいて、現在フォーカスされている入力領域の次の入力領域にフォーカスを移すフォーカス移動コマンドを特定し、表示制御部120に当該コマンドを通知する。表示制御部120は、当該フォーカス移動コマンドを実行する。すなわち、表示制御部120は、画面200で現在フォーカスされている入力領域の次の入力領域にフォーカスを移す。なお、次の入力領域の選択順は、例えば、入力領域201に対しては、入力領域202というように、右から左へ向かう順であり、入力領域204の次は入力領域205であり、入力領域206の次は入力領域207である。また、音声認識部130は、「前へ」という音声を表す音声情報を、「次へ」の場合とは逆の順にフォーカスを移すフォーカス移動コマンドに変換する。
【0074】
また、音声認識部130は、画面200において、何れかの入力領域名を表す音声情報の入力を受け付ける。すると、音声認識部130は、当該音声情報とコマンド認識辞書データ115とに基づいて、該当の入力領域にフォーカスするフォーカス移動コマンドを表示制御部120に通知する。表示制御部120は、当該フォーカス移動コマンドを実行する。すなわち、表示制御部120は、画面200の該当の入力領域にフォーカスを移す。一例では、音声認識部130は、「体温」(たいおん)というユーザの発声に対応する音声情報の入力に対し、コマンド認識辞書データ115を用いて、「体温」の入力領域201にフォーカスを移すことが考えられる。
【0075】
なお、上記のフォーカス移動コマンドは一例である。例えば、音声認識部130は、「上へ」(うええ)または「下へ」(したえ)というユーザの発声に対応する音声情報の入力に対して、現在フォーカスされている入力領域の上側または下側の入力領域にフォーカスを移すように制御してもよい。
【0076】
更に、別の入力支援の方法も考えられる。例えば、情報処理装置100が「体重」の入力領域の右に「身長」の入力領域が配置され、「身長」の入力領域の右に「体温」の入力領域が配置された画面をディスプレイ51に表示させる場合を考える。この場合に、情報処理装置100は、「ななじゅう」という音声を認識すると「70」を体重の入力領域に格納し、当該格納から所定時間経過後(例えば1秒)に身長の入力領域をフォーカスした状態に遷移させてもよい。更にその後、情報処理装置100は、「ひゃくななじゅう」という音声を認識すると「170」を身長の領域に格納し、当該格納から所定時間経過後(例えば1秒)に身長の入力領域をフォーカスした状態に遷移させてもよい。
【0077】
次に、情報処理装置100の処理手順を説明する。
図10は、情報処理装置の処理例を示すフローチャートである。
(S10)表示制御部120は、画面起動要求を受け付ける。画面起動要求は、ユーザによる入力デバイス52の操作に応じて、情報処理装置100に入力される。画面起動要求では、起動対象画面の画面名が指定される。画面起動要求の対象画面を、一例として画面200とする。この場合、画面起動要求は、画面200の画面名「バイタルサイン」を含む。
【0078】
(S11)表示制御部120は、記憶部110に記憶された画面マスタ111から対象画面のレコードを取得する。例えば、表示制御部120は、画面起動要求で指定された画面名「バイタルサイン」のレコードを画面マスタ111から取得し、当該レコードに基づいて画面コード「vitalsigns」を取得する。
【0079】
(S12)表示制御部120は、記憶部110に記憶された入力領域マスタ112から対象画面の入力領域を取得する。例えば、表示制御部120は、入力領域マスタ112から画面コード「vitalsingns」のレコードを取得し、取得したレコードから画面200に含まれる入力領域201~207それぞれの入力領域コードや入力領域名を取得する。
【0080】
(S13)表示制御部120は、ディスプレイ51に対象画面を表示させる。例えば、表示制御部120は、記憶部110に記憶された、画面200の画面情報に基づいて、ディスプレイ51に画面200を表示させる。
【0081】
(S14)表示制御部120は、ディスプレイ51に表示された対象画面において、初期入力領域にフォーカスオンする。初期入力領域は、例えば、対象画面の最も左上の位置に配置される入力領域であり、画面200の例では、入力領域201である。
【0082】
(S15)情報処理装置100は、音声による入力処理を行う。音声による入力処理の詳細は後述される。そして、情報処理装置100の処理が終了する。
図11は、音声による入力処理例を示すフローチャートである。
【0083】
音声による入力処理は、ステップS15に相当する。
(S20)音声認識部130は、マイク53による音声情報の入力を受け付ける。
(S21)音声認識部130は、現在フォーカスされている入力領域の入力領域コードまたは入力領域名を、表示制御部120から取得する。そして、音声認識部130は、入力領域マスタ112に基づいて、現在フォーカスされている入力領域に対応する辞書データにアクセスする。
【0084】
(S22)音声認識部130は、アクセス先の辞書データにコマンド認識辞書データがあるか否かを判定する。コマンド認識辞書データがない場合、音声認識部130は、ステップS23に処理を進める。コマンド認識辞書データがある場合、音声認識部130は、ステップS24に処理を進める。例えば、コマンド認識辞書データには、
図9で例示されるように、「grammar Command;」のようにコマンド認識辞書データであることを示す特定のコードが含まれる。音声認識部130は、該当の入力領域に対応する辞書データに含まれる当該特定のコードを検出することで、コマンド認識辞書データの有無を検出し得る。
【0085】
(S23)音声認識部130は、音声情報に基づくテキスト入力処理を行う。テキスト入力処理の詳細は後述される。そして、ステップS20に処理が進む。
(S24)音声認識部130は、音声情報からコマンド認識を行う。具体的には、音声認識部130は、ステップS20で入力された音声情報を、コマンド認識辞書データに基づいてコマンドに変換する。
【0086】
(S25)音声認識部130は、ステップS24における変換結果のコマンドが、表示中の対象画面に対する入力内容を確定する確定コマンドであるか否かを判定する。確定コマンドである場合、音声認識部130は、確定コマンドを表示制御部120に通知して、ステップS26に処理を進める。確定コマンドでない場合、音声認識部130は、ステップS27に処理を進める。
【0087】
(S26)表示制御部120は、確定コマンドを実行することで、対象画面に対して入力された内容を確定させ、入力された内容を、記憶部110に保存する。あるいは、表示制御部120は、入力された内容を、ネットワーク55を介してサーバコンピュータに送信してもよい。その後、表示制御部120は、対象画面を閉じる。そして、音声による入力処理が終了する。
【0088】
(S27)音声認識部130は、ステップS24における変換結果のコマンドが、表示中の対象画面に対する閉じるコマンドであるか否かを判定する。閉じるコマンドである場合、音声認識部130は、閉じるコマンドを表示制御部120に通知して、ステップS28に処理を進める。閉じるコマンドでない場合、音声認識部130は、ステップS29に処理を進める。
【0089】
(S28)表示制御部120は、閉じるコマンドを実行することで、対象画面を閉じる。そして、音声による入力処理が終了する。
(S29)音声認識部130は、ステップS24における変換結果のコマンドが、フォーカス移動コマンドであるか否かを判定する。フォーカス移動コマンドである場合、音声認識部130は、フォーカス移動コマンドを表示制御部120に通知して、ステップS30に処理を進める。フォーカス移動コマンドでない場合、すなわち、コマンド認識辞書データに基づいて何れのコマンドにも音声情報を変換できなかった場合、音声認識部130は、ステップS23に処理を進める。
【0090】
(S30)表示制御部120は、フォーカス移動コマンドを実行することで、対象画面におけるフォーカスを、フォーカス移動コマンドに応じた移動先の入力領域に移動させる。そして、表示制御部120は、ステップS20に処理を進める。
【0091】
図12は、テキスト入力処理例を示すフローチャートである。
テキスト入力処理は、ステップS23に相当する。
(S40)音声認識部130は、入力領域マスタ112に基づいて、現在フォーカスされている入力領域に対応する音声認識タイプを判定する。音声認識タイプが「グラマー」の場合、音声認識部130は、ステップS41に処理を進める。音声認識タイプが「ディクテーション」の場合、音声認識部130は、ステップS49に処理を進める。画面200の例では、入力領域201~206の音声認識タイプが「グラマー」であり、入力領域207の音声認識タイプが「ディクテーション」である。
【0092】
(S41)音声認識部130は、入力領域マスタ112に基づいて、現在フォーカスされている入力領域に対応するデータタイプが数値であるか否かを判定する。データタイプが「数値」の場合、音声認識部130は、ステップS42に処理を進める。データタイプが「数値」でない場合、音声認識部130は、ステップS48に処理を進める。データタイプが「数値」でない場合、データタイプは数値以外の「単語」となる。画面200の例では、入力領域201~206のデータタイプが「数値」である。
【0093】
(S42)音声認識部130は、辞書データを基に数値認識を行う。具体的には、音声認識部130は、現在フォーカスされている入力領域に対応する数値認識辞書データを用いて、ステップS20で入力された音声情報を、数値に変換する。当該数値を「認識値」と称する。数値認識辞書データには、例えば、整数認識辞書データ113や小数認識辞書データ114などが用いられる。
【0094】
(S43)音声認識部130は、現在フォーカスされている入力領域に対して入力が許容される数値の最大値および最小値を、入力領域マスタ112から取得する。音声認識部130は、ステップS42における認識値が、取得した最大値および最小値の範囲内であるか否かを判定する。認識値が最大値および最小値の範囲内である場合、ステップS44に処理を進める。認識値が最大値および最小値の範囲内でない場合、音声認識部130は、ステップS46に処理を進める。
【0095】
(S44)音声認識部130は、現在フォーカスされている入力領域に認識値を入力する。表示制御部120は、現在フォーカスされている入力領域に認識値を表示させる。
(S45)表示制御部120は、次の入力領域にフォーカスを移動させる。これにより、対象画面において、次の入力領域がフォーカスされる。そして、該当の入力領域に対するテキスト入力処理が終了する。
【0096】
(S46)音声認識部130は、認識値が最大値および最小値の範囲内でないことを表示制御部120に通知する。表示制御部120は、当該通知を受け付けると、認識値が最大値および最小値の範囲内でないことを示すエラーメッセージをディスプレイ51に表示させる。
【0097】
(S47)表示制御部120は、エラーメッセージを閉じる。例えば、表示制御部120は、エラーメッセージ表示開始から一定時間が経過したときにエラーメッセージを閉じてもよいし、ユーザによる入力デバイス52による操作やマイク53に対する音声入力に応じて、エラーメッセージを閉じてもよい。そして、該当の入力領域に対するテキスト入力処理が終了する。
【0098】
(S48)音声認識部130は、辞書データを基に数値以外の単語を認識するグラマー認識を実行し、入力領域に認識結果を入力する。表示制御部120は、当該入力領域に認識結果を表示させる。そして、表示制御部120は、ステップS50に処理を進める。
【0099】
(S49)音声認識部130は、辞書データを基にディクテーション認識を実行し、入力領域に認識結果を入力する。表示制御部120は、当該入力領域に認識結果を表示させる。
【0100】
(S50)表示制御部120は、次の入力領域にフォーカスを移動させる。これにより、対象画面において、次の入力領域にフォーカスが移動される。そして、該当の入力領域に対するテキスト入力処理が終了する。
【0101】
このように、情報処理装置100は、画面200の入力領域ごとに辞書データを関連付けておき、入力可能な入力領域に応じて辞書データを使い分けることで、該当の入力領域に適した辞書データでの音声変換処理が可能となる。したがって、情報処理装置100は、入力領域に対応する辞書データにより、当該入力領域に対して入力された音声情報に対して得られる変換結果を、当該入力領域に入力されるべきデータ形式に応じた変換結果に制限できる。このため、情報処理装置100は、入力された音声情報を、該当の入力領域に対して入力されるべきでない、誤った情報に変換する可能性を減らせ、入力された音声から適切な情報を取得可能になる。
【0102】
情報処理装置100は、例えば、次の処理を実行する。
音声認識部130は、表示装置に表示された画面に含まれる第1の入力領域に対するデータの入力が可能な状態となっている場合に音声情報を受け付ける。すると、音声認識部130は、当該画面に含まれる複数の入力領域それぞれの識別情報を示す画面情報に基づいて、第1の入力領域の第1の識別情報を特定する。音声認識部130は、複数の入力領域それぞれの識別情報に関連付けられた音声変換用の辞書データのうち、第1の識別情報に対応する第1の辞書データを取得する。音声認識部130は、第1の辞書データを用いて、音声情報を変換する音声変換処理を実行する。
【0103】
これにより、情報処理装置100は、入力された音声から適切な情報を取得できる。更に、情報処理装置100によれば、音声情報を文字データに置き換え、複数の入力領域(入力項目)の何れかに登録する場合に、適切な入力領域(入力項目)への登録が可能となる。
【0104】
ここで、ディスプレイ51は、表示装置の一例である。また、ユーザから発せられた音声に対応する音声情報は、マイク53により情報処理装置100に入力される。ただし、表示装置は、ネットワーク55を介して情報処理装置100と通信する他の情報処理装置に接続されたものでもよい。また、情報処理装置100は、ユーザから発せられた音声に対応する音声情報を、ネットワーク55を介して当該他の情報処理装置から受信してもよい。その場合、情報処理装置100は音声変換結果を示す情報を他の情報処理装置に送信してもよい。このように、情報処理装置100は、音声認識により、他の情報処理装置に対するユーザの入力支援を行うこともできる。
【0105】
例えば、第1の辞書データは、音声情報をテキストに変換するテキスト認識辞書データと、音声情報をコマンドに変換するコマンド認識辞書データとを含む。コマンド認識辞書データに基づいて音声情報がコマンドに変換される場合は、表示制御部120は当該コマンドを実行する。コマンド認識辞書データに基づいて音声情報がコマンドに変換されない場合は、音声認識部130は、テキスト認識辞書データに基づいて音声情報をテキストに変換し、当該テキストを第1の入力領域に入力する。
【0106】
これにより、情報処理装置100は、画面に対するコマンドの入力とテキストの入力との両方を音声によって受け付け可能になる。その結果、情報処理装置100は、ユーザによる効率的な作業を支援できる。なお、前述の整数認識辞書データ113および小数認識辞書データ114を含むグラマー認識辞書データ、および、ディクテーション認識辞書データは、テキスト認識辞書データの一例である。
【0107】
表示制御部120は、音声認識部130により音声情報から変換されたコマンドを実行することで、画面に含まれる、第1の入力領域とは異なる他の入力領域を、データの入力が可能な状態に遷移させてもよい。
【0108】
これにより、ユーザは、入力領域に対するフォーカスの移動を、入力デバイス52を操作せずに行えるようになり、一層効率的に作業を行えるようになる。こうして、情報処理装置100は、ユーザによる効率的な作業を支援できる。
【0109】
また、音声情報は、画面における、第1の入力領域に対する方向を示してもよい。音声認識部130は、コマンド認識辞書データに基づいて、音声情報を、第1の入力領域に対して当該方向に配置された他の入力領域をデータの入力が可能な状態に遷移させるコマンドに変換してもよい。
【0110】
これにより、ユーザは、入力領域に対するフォーカスの移動を、入力デバイス52を操作せずに行えるようになり、一層効率的に作業を行えるようになる。こうして、情報処理装置100は、ユーザによる効率的な作業を支援できる。
【0111】
また、音声情報は、他の入力領域に入力されるデータの名称を示してもよい。音声認識部130は、コマンド認識辞書データに基づいて、音声情報を、当該名称のデータが入力される他の入力領域をデータの入力が可能な状態に遷移させるコマンドに変換してもよい。
【0112】
これにより、ユーザは、入力領域に対するフォーカスの移動を、入力デバイス52を操作せずに行えるようになり、一層効率的に作業を行えるようになる。こうして、情報処理装置100は、ユーザによる効率的な作業を支援できる。
【0113】
また、第1の辞書データは、音声情報を数値に変換する数値認識辞書データを含んでもよい。音声認識部130は、音声変換処理において、数値認識辞書データに基づいて音声情報を数値に変換した場合、第1の入力領域に対して許容される数値範囲を示す情報に基づいて、変換後の数値が数値範囲に含まれるか否かを判定してもよい。音声認識部130は、数値が当該数値範囲に含まれる場合は第1の入力領域に数値を入力し、数値が当該数値範囲に含まれない場合はアラートを出力してもよい。
【0114】
これにより、情報処理装置100は、第1の入力領域に対して数値が誤入力される可能性を低減できる。なお、整数認識辞書データ113および小数認識辞書データ114は、数値認識辞書データの一例である。
【0115】
また、第1の入力領域が数値または単語の入力を受け付ける入力領域の場合、第1の辞書データは、音声変換処理の結果を、第1の入力領域への入力が許容される特定の数値または特定の単語に制限する辞書データでもよい。一方、第1の入力領域が文章の入力を受け付ける入力領域の場合、第1の辞書データは、音声変換処理の結果を、特定の数値または特定の単語に制限しない辞書データでもよい。
【0116】
これにより、第1の入力領域に対して誤った形式のデータが誤入力される可能性を低減できる。なお、整数認識辞書データ113および小数認識辞書データ114を含むグラマー認識辞書データは、音声変換処理の結果を特定の数値または特定の単語に制限する辞書データの一例である。また、ディクテーション認識辞書データは、音声変換処理の結果を当該特定の数値または当該特定の単語に制限しない辞書データの一例である。
【0117】
また、辞書データは、画面を識別する画面識別情報と入力領域の識別情報との組に関連づけられてもよい。音声認識部130は、第1の辞書データの取得の際、表示装置に表示された画面の画面識別情報と第1の識別情報との組に対応する第1の辞書データを取得してもよい。
【0118】
これにより、情報処理装置100は、表示中の画面の入力が可能となっている入力領域に応じて、入力された音声から適切な情報を取得できる。なお、前述の画面コードは、画面識別情報の一例である。
【0119】
なお、第1の実施の形態の情報処理は、処理部12にプログラムを実行させることで実現できる。また、第2の実施の形態の情報処理は、CPU101にプログラムを実行させることで実現できる。プログラムは、コンピュータ読み取り可能な記録媒体54に記録できる。
【0120】
例えば、プログラムを記録した記録媒体54を配布することで、プログラムを流通させることができる。また、プログラムを他のコンピュータに格納しておき、ネットワーク経由でプログラムを配布してもよい。コンピュータは、例えば、記録媒体54に記録されたプログラムまたは他のコンピュータから受信したプログラムを、RAM102やHDD103などの記憶装置に格納し(インストールし)、当該記憶装置からプログラムを読み込んで実行してもよい。
【符号の説明】
【0121】
10 情報処理装置
11 記憶部
11a 辞書管理情報
12 処理部
20 表示装置
21 画面
21a,21b 入力領域
30 マイク