(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023016217
(43)【公開日】2023-02-02
(54)【発明の名称】テキスト情報管理システム、テキスト情報管理装置、テキスト情報管理方法及びプログラム
(51)【国際特許分類】
G10L 15/32 20130101AFI20230126BHJP
G10L 15/30 20130101ALI20230126BHJP
【FI】
G10L15/32 220Z
G10L15/30
【審査請求】未請求
【請求項の数】13
【出願形態】OL
(21)【出願番号】P 2021120392
(22)【出願日】2021-07-21
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.BLU―RAY DISC
(71)【出願人】
【識別番号】000006747
【氏名又は名称】株式会社リコー
(72)【発明者】
【氏名】柳浦 豊
(57)【要約】 (修正有)
【課題】利用者が発話した発話音声に基づいて認識されるテキスト情報の認識精度を向上させるテキスト情報管理システム、テキスト情報管理装置、テキスト情報管理方法及びプログラムを提供する。
【解決手段】テキスト情報管理システムは、通信端末3が送信した、利用者が発話した発話音声に係る音声情報を受信し、受信した音声情報に基づいて、音声認識サーバ7が第1の辞書により認識した第1のテキスト情報を通信端末3に送信する。続いて、テキスト情報管理装置5は、第1のテキスト情報に対応する音声情報に基づいて音声認識サーバ9が第2の辞書により認識した第2のテキスト情報を通信端末3に送信する。そして、通信端末3は、第2のテキスト情報を、利用者が発話した特定の発話毎にディスプレイに表示する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
音声情報に基づいて得られたテキスト情報を管理するテキスト情報管理装置と、前記テキスト情報管理装置と通信することで前記テキスト情報を表示可能な一以上の通信端末と、を含むテキスト情報管理システムであって、
前記テキスト情報管理装置は、
前記一以上の通信端末のそれぞれを利用する一以上の利用者が発話した発話音声に係る音声情報を受信する受信手段と、
前記音声情報に基づいて第1の辞書により認識された第1のテキスト情報を前記通信端末に送信した後、前記第1のテキスト情報に対応する音声情報に基づいて第2の辞書により認識された第2のテキスト情報を、前記通信端末に送信する送信手段と、
を有し、
前記一以上の通信端末は、
前記テキスト情報管理装置が送信した前記第2のテキスト情報を、前記一以上の利用者が発話した発話音声に対応付けて表示手段に表示する表示制御手段、
を有する、
ことを特徴とするテキスト情報管理システム。
【請求項2】
前記送信手段は、
前記第1の辞書を識別する第1の辞書識別情報及び前記第2の辞書を識別する第2の辞書識別情報を、前記音声情報に基づいて所定のテキスト情報を認識する音声認識サーバに対して送信し、
前記受信手段は、
前記音声認識サーバが送信した、前記第1の辞書識別情報に基づいて認識された前記第1のテキスト情報、及び前記第2の辞書識別情報に基づいて認識された前記第2のテキスト情報を受信し、
前記送信手段は、
前記受信手段によって受信された前記第1のテキスト情報、及び前記第2のテキスト情報を前記通信端末に送信する、
ことを特徴とする請求項1に記載のテキスト情報管理システム。
【請求項3】
前記通信端末は、更に、
前記第1のテキスト情報ごとに設けられた前記第2の辞書を選択するための一以上の辞書変更操作部を有し、
前記表示制御手段は、
前記一以上の辞書変更操作部のうち特定の辞書変更操作部が操作された場合に、前記第2のテキスト情報として認識するための複数の辞書を含む辞書選択部を前記特定の辞書変更操作部に対応付けて前記表示手段に表示する、
ことを特徴とする請求項1又は2に記載のテキスト情報管理システム。
【請求項4】
前記表示制御手段は、
前記辞書選択部に含まれる前記複数の辞書のうち特定の辞書が選択された場合に、前記第1のテキスト情報に代えて、前記特定の辞書変更操作部に関連付けられた前記第2のテキスト情報を前記表示手段に表示する、
ことを特徴とする請求項3に記載のテキスト情報管理システム。
【請求項5】
前記辞書には、汎用分野、医療分野、及びIT(Information Technology)分野を含む複数の分野にそれぞれ関連付けられた複数のテキストが含まれる、
ことを特徴とする請求項1乃至4のいずれか一項に記載のテキスト情報管理システム。
【請求項6】
請求項3又は4に記載のテキスト情報管理システムであって、
前記テキスト情報管理装置は、更に、
前記通信端末が送信した、前記辞書選択部において選択された前記特定の辞書を示す特定辞書情報と、前記音声認識サーバが送信した前記特定辞書情報に基づいて認識された前記第2のテキスト情報と、を対応付けて登録する登録手段を有し、
前記送信手段は、前記特定辞書情報と対応付けて登録された前記第2のテキスト情報を前記通信端末に送信する、
ことを特徴とするテキスト情報管理システム。
【請求項7】
前記受信手段は、
前記音声認識サーバが送信した、前記第1の辞書識別情報に基づいて認識された前記第1のテキスト情報に含まれる特定のテキストと、前記音声情報に対して認識された前記特定のテキストに対する確からしさを示す確信度と、を含む情報を受信し、
前記表示制御手段は、
前記辞書選択部に含まれる前記複数の辞書のそれぞれに与えられた前記確信度を、前記複数の辞書のそれぞれに対応させて前記辞書選択部に表示する、
ことを特徴とする請求項3乃至6のいずれか一項に記載のテキスト情報管理システム。
【請求項8】
前記送信手段は、
前記特定のテキストに対する前記確信度が所定の閾値未満である場合に、前記利用者の操作に応じて得られた前記第2のテキスト情報を認識するための要求を、前記第2の辞書を管理する音声認識サーバに送信し、
前記受信手段は、
前記第2の辞書を管理する音声認識サーバが送信した前記第2のテキスト情報を受信し、
前記表示制御手段は、
前記第1のテキスト情報に代えて、前記第2のテキスト情報を前記表示手段に表示する、
ことを特徴とする請求項7に記載のテキスト情報管理システム。
【請求項9】
前記表示制御手段は、
前記発話音声ごとに前記特定のテキストを認識するための辞書情報を、前記表示手段に表示する、
ことを特徴とする請求項1乃至8のいずれか一項に記載のテキスト情報管理システム。
【請求項10】
前記第1のテキスト情報及び前記第2のテキスト情報は、所定のイベントの議事録、及び前記所定のイベントに参加する利用者が発話した発話音声記録を構成するテキスト情報である、
ことを特徴とする請求項1乃至9のいずれか一項に記載のテキスト情報管理システム。
【請求項11】
音声情報に基づいて得られたテキスト情報を管理するテキスト情報管理装置であって、
前記テキスト情報管理装置と通信することで前記テキスト情報を表示可能な一以上の通信端末のそれぞれを利用する一以上の利用者が発話した発話音声に係る音声情報を受信する受信手段と、
前記音声情報に基づいて第1の辞書により認識された第1のテキスト情報を前記通信端末に送信した後、前記第1のテキスト情報に対応する音声情報に基づいて第2の辞書により認識された第2のテキスト情報を、前記通信端末に送信する送信手段と、
を有する、
ことを特徴とするテキスト情報管理装置。
【請求項12】
音声情報に基づいて得られたテキスト情報を管理するテキスト情報管理装置が実行するテキスト情報管理方法であって、
前記テキスト情報管理装置と通信することで前記テキスト情報を表示可能な一以上の通信端末のそれぞれを利用する一以上の利用者が発話した発話音声に係る音声情報を受信する受信ステップと、
前記音声情報に基づいて第1の辞書により認識された第1のテキスト情報を前記通信端末に送信した後、前記第1のテキスト情報に対応する音声情報に基づいて第2の辞書により認識された第2のテキスト情報を、前記通信端末に送信する送信ステップと、
を含む処理を実行する、
ことを特徴とするテキスト情報管理方法。
【請求項13】
音声情報に基づいて得られたテキスト情報を管理するテキスト情報管理装置に、
前記テキスト情報管理装置と通信することで前記テキスト情報を表示可能な一以上の通信端末のそれぞれを利用する一以上の利用者が発話した発話音声に係る音声情報を受信する受信ステップと、
前記音声情報に基づいて第1の辞書により認識された第1のテキスト情報を前記通信端末に送信した後、前記第1のテキスト情報に対応する音声情報に基づいて第2の辞書により認識された第2のテキスト情報を、前記通信端末に送信する送信ステップと、
を含む処理を実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、テキスト情報管理システム、テキスト情報管理装置、テキスト情報管理方法及びプログラムに関する。
【背景技術】
【0002】
従来から、音声情報をテキスト情報に変換する技術が知られている。例えば、音声認識結果の候補群となる複数のテキストを記述した辞書を参照し、音声に対応したテキストを確定させる手法が知られている。
【0003】
例えば、音声情報を文字化する際に文字化できない単語に対して辞書を検索し、辞書に登録されていない場合にイントラネットまたはインターネットでその単語を検索することを繰り返すことによって議事録を作成することで、音声認識をより精度よく行う技術が知られている(例えば、特許文献1参照)。
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、従来の技術では、利用者が発話した発話音声の内容に応じて辞書を切り替えるという発想がないため、発話音声の内容に基づいて認識されるテキスト情報の認識精度が低くなってしまうという課題があった。
【課題を解決するための手段】
【0005】
上述した課題を解決するために、請求項1に係る発明は、音声情報に基づいて得られたテキスト情報を管理するテキスト情報管理装置と、前記テキスト情報管理装置と通信することで前記テキスト情報を表示可能な一以上の通信端末と、を含むテキスト情報管理システムであって、前記テキスト情報管理装置は、前記一以上の通信端末のそれぞれを利用する一以上の利用者が発話した発話音声に係る音声情報を受信する受信手段と、前記音声情報に基づいて第1の辞書により認識された第1のテキスト情報を前記通信端末に送信した後、前記第1のテキスト情報に対応する音声情報に基づいて第2の辞書により認識された第2のテキスト情報を、前記通信端末に送信する送信手段と、を有し、前記一以上の通信端末は、前記テキスト情報管理装置が送信した前記第2のテキスト情報を、前記一以上の利用者が発話した発話音声に対応付けて表示手段に表示する表示制御手段、を有する、ことを特徴とするテキスト情報管理システムを提供する。
【発明の効果】
【0006】
以上説明したように本発明によれば、利用者が発話した発話音声の内容に応じて辞書を切り替えて音声認識を実行させるので、利用者が発話した発話音声に基づいて認識されるテキスト情報の認識精度を向上させることが可能になるという効果を奏する。
【図面の簡単な説明】
【0007】
【
図1】通信システムの全体構成の一例を示す図である。
【
図2】通信端末及び音声認識サーバのハードウエア構成の一例を示す図である。
【
図3】テキスト情報管理装置のハードウエア構成の一例を示す図である。
【
図4】通信システムの機能構成の一例を示す図である。
【
図5】ログイン管理テーブルの一例を示す概念図である。
【
図6】音声認識エンジン管理テーブルの一例を示す概念図である。
【
図7】記録書誌情報管理テーブルの一例を示す概念図である。
【
図8】キャプチャ情報管理テーブルの一例を示す概念図である。
【
図9A】テキスト情報管理テーブルの一例を示す概念図である。
【
図9B】テキスト情報管理テーブルの一例を示す概念図である。
【
図10】アプリ起動、認証処理及びセッション確立処理の一例を示すシーケンス図である。
【
図11】通信端末におけるアプリ起動時の画面表示例である。
【
図12】記録開始処理の一例を示すシーケンス図である。
【
図13】通信端末における記録開始指示の画面表示例である。
【
図14】通信端末における記録終了指示の画面表示例である。
【
図15】記録書誌情報の登録処理の一例を示すシーケンス図である。
【
図16】音声認識処理の一例を示すシーケンス図である。
【
図17】画面キャプチャ処理の一例を示すシーケンス図である。
【
図18】通信端末における記録中の画面表示例である。
【
図19】記録終了処理の一例を示すシーケンス図である。
【
図20】通信端末における記録終了時の画面表示例である。
【
図21】音声認識エンジン変更開始処理の一例を示すシーケンス図である。
【
図22】通信端末における記録選択時の画面表示例である。
【
図23】通信端末における音声認識エンジン変更画面の画面表示例である。
【
図24】音声認識エンジンの変更処理の一例を示すシーケンス図である。
【
図25】通信端末における音声認識エンジン選択ダイアログの画面表示例である。
【
図26】音声認識エンジン変更後の音声認識処理の一例を示すシーケンス図である。
【
図27】通信端末における音声再認識結果画面の画面表示例である。
【
図28A】第2の実施形態に係るテキスト情報管理テーブルの一例を示す概念図である。
【
図28B】第2の実施形態に係るテキスト情報管理テーブルの一例を示す概念図である。
【
図28C】第2の実施形態に係るテキスト情報管理テーブルの一例を示す概念図である。
【
図29】第2の実施形態に係る音声認識処理の一例を示すシーケンス図である。
【
図30】第2の実施形態に係る音声認識エンジンの変更処理の一例を示すシーケンス図である。
【
図31】第2の実施形態に係る通信端末における音声認識エンジン選択ダイアログの画面表示例である。
【
図32】第2の実施形態に係る音声認識エンジン変更後の音声認識処理の一例を示すシーケンス図である。
【
図33】第2の実施形態に係る再認識結果の登録処理の一例を示すフローチャートである。
【発明を実施するための形態】
【0008】
以下、図面を用いて、発明を実施するための形態について説明する。なお、図面の説明において同一要素には同一符号を付し、重複する部分があればその説明を省略する。
【0009】
〔第1の実施形態〕
図1乃至
図27を用いて、第1の実施形態について説明する。
【0010】
〔通信システムの全体構成〕
<システム構成例>
図1は、通信システムの全体構成の一例を示す図である。
図1に示されているように、通信システム1は、一以上の通信端末3、テキスト情報管理装置5、音声認識サーバ7及び音声認識サーバ9を含む各装置を有している。通信端末3、テキスト情報管理装置5、音声認識サーバ7及び音声認識サーバ9は、通信ネットワーク100を介してそれぞれ互いに接続されている。ここで、通信ネットワーク100は、不特定多数の通信が行われる通信ネットワークであり、インターネット、イントラネット、LAN(Local Area Network)等によって構築されている。なお、通信ネットワーク100には、有線通信だけでなく、3G(3rd Generation)、4G(4th Generation)、5G(5th Generation)、WiMAX(Worldwide Interoperability for Microwave Access)、LTE(Long Term Evolution)等の無線通信による通信ネットワークが含まれてもよい。更に、通信システム1は、通信端末3及びテキスト情報管理装置5によって構築されたテキスト情報管理システム2を含んでいる。また、通信端末3とテキスト情報管理装置5は、専用の社内ネットワーク等で互いに接続されていてもよいし、通信ネットワーク100の内側に、ファイアウォール(Fire Wall)を介して互いに接続されていてもよい。
【0011】
<通信端末>
通信端末3は、一般的なOSなどが搭載された通信を行うための一以上の情報処理装置(コンピュータシステム)によって実現される。通信端末3は、通信ネットワーク100を介して、テキスト情報管理装置5と通信が可能である。
図1に示されているように、通信端末3は、通信端末3(A)、通信端末3(B)、通信端末3(C)を含む一以上の通信端末で構成されている。
【0012】
通信端末3(A)は、例えば、テキスト情報管理装置5と通信するためのブラウザアプリ及びテキスト情報管理装置5が送信したテキスト情報に基づいて議事録等を作成するための記録管理アプリをそれぞれインストールしている。更に、通信端末3(A)は、通信端末3(B)との間で、リモートワーク、テレビ会議、インスタントメッセージング、グループチャットなどを行うための汎用ツール(ここでは「会話ツール」と呼ぶ)を利用して会話等の所定のイベントに参加し、議事録を作成可能な通信端末である。このように、通信端末3(A)は、例えば、議事録作成端末として機能する。
【0013】
通信端末3(B)は、通信端末3(A)と上述した汎用ツールを利用し、所定のイベントに参加している通信端末3(A)を使用する利用者(例えば、利用者A)とともに所定のイベントに参加する。このように、通信端末3(B)は、例えば、イベント参加端末として機能する。
【0014】
通信端末3(A)及び通信端末3(B)は、上述したような汎用ツールを利用して所定のイベントにおいて発話することにより、互いの発話音声を聞くことができる。そのため、議事録作成端末としての通信端末3(A)は、通信端末3(A)を利用する利用者Aの発話音声のみならず、通信端末3(A)と通信を行っているイベント参加端末としての通信端末3(B)を利用する利用者(例えば、利用者B)の発話音声も取得することができる。
【0015】
通信端末3(C)は、通信端末3(A)及び通信端末3(B)が参加した所定のイベントに基づいて作成された議事録を閲覧する端末である。この場合、通信端末3(C)は、記録管理アプリをインストールしていなくても、ブラウザ経由で所定のイベントの議事録を閲覧することが可能である。このように、通信端末3(C)は、例えば、議事録閲覧端末として機能する。
【0016】
本実施形態において、特に指定がなければ単に「通信端末3」と記す。なお、通信端末3は、一般的に使用されるPC(Personal Computer)、携帯型ノートPC、携帯電話、スマートフォン、タブレット端末、ウェアラブル端末(サングラス型、腕時計型等)の通信機能を有する通信端末であってもよい。通信端末3は、更に、ブラウザソフトウエア等のソフトウエアを動作させることが可能な通信装置又は通信端末が用いられてもよい。
【0017】
<テキスト情報管理装置>
テキスト情報管理装置5は、一般的なサーバOSなどが搭載された一以上の情報処理装置(コンピュータシステム)によって実現される。テキスト情報管理装置5は、専用のアプリケーションプログラムを実行し、通信ネットワーク100を介して通信端末3が送信した音声情報に基づいて得られたテキスト情報を管理するクラウドサーバの機能を有する。なお、テキスト情報管理装置5は、テキスト情報として、イベントの一例としての会議の議事録に限らず、個人、グループの任意の活動に対する音声メモ、オペレータの電話応対時の音声記録、工場等の特定の場所における音声作業記録等に基づいた各種テキスト情報を管理してもよい。
【0018】
テキスト情報管理装置5は、更に、通信端末3を利用する利用者を利用者識別情報で管理する。本実施形態に係る通信システムでは、利用者は利用者識別情報を用いてテキスト情報管理装置5にログインすることが可能である。このため、利用者識別情報は、テキスト情報管理装置5が利用者を一意に特定する機能を有している。なお、利用者識別情報には、電子メール、ID、電話番号など、利用者を一意に識別することが可能な情報が含まれる。
【0019】
テキスト情報管理装置5は、単一のコンピュータによって構築されてもよいし、ストレージ等の各部(機能又は手段)を分割して任意に割り当てられた複数のコンピュータによって構築されてもよい。また、テキスト情報管理装置5の機能の全てまたは一部は、クラウド環境に存在するサーバコンピュータであってもよいし、オンプレミス環境に存在するサーバコンピュータであってもよい。
【0020】
<音声認識サーバ>
音声認識サーバ7及び音声認識サーバ9(以下、特に指定のない場合は単に「音声認識サーバ」と記載する)は、一般的なサーバOSなどが搭載された一以上の情報処理装置(コンピュータシステム)によって実現される。音声認識サーバは、テキスト情報管理装置5が送信した音声情報(データ)を受信すると、音声認識エンジンを起動して音声情報(データ)をテキストデータに変換し、変換したテキストデータをテキスト情報管理装置5に返信(送信)する機能を有する。つまり本実施形態に係る通信システムでは、音声認識サーバが、音声情報に基づいてテキスト情報に変換するクラウドサービス機能を有している。このとき、音声認識サーバ7が第1のクラウドサービス、音声認識サーバ9が第2のクラウドサービスとして機能する。
【0021】
具体的には、音声認識サーバは、音声認識を可能とする他社サービスを利用するようにしてもよく、例えば、汎用の音声認識エンジンサービスで提供されてよい。本実施形態における音声認識エンジンサーバは、例えば、以下のような機能を提供する。まず、音声認識エンジンサーバは、利用者が発話した発話音声が何であるかのテキスト情報の候補を特定する。この場合、特定されるテキスト情報の候補は少なくとも一以上存在する。そして、音声認識サーバは、自身の持つ辞書を用いてテキスト情報の候補に一致する辞書情報を検索する。続いて、音声認識サーバは、検索した辞書情報を文字情報に変換して(例えば、ひらがなからカタカナに変換して)テキストとして出力する。一例を示すと、利用者の発話によって、音声認識サーバは、「はじゃいろ」と「はあじゃいる」というテキスト情報の候補を特定したとする。この場合、音声認識サーバは、「じゃいろ」というテキスト情報に一致する辞書情報を持っていたとすると、特定したテキスト情報の候補のうち、「はじゃいろ」を選択する。続いて、音声認識サーバは、選択した「はじゃいろ」というテキスト情報に含まれる「ジャイロ」という単語を出力する。本実施形態において、音声認識エンジン(辞書)には、汎用分野、医療分野、及びIT(Information Technology)分野を含む複数の分野にそれぞれ関連付けられた複数のテキスト(テキスト情報)が含まれる。
【0022】
●用語について●
本実施形態において利用者とは、以下に該当する者をいう。例えば、利用者には、所定のイベントで発話する参加者、人間が話す言語を生成可能なAIを搭載した機械、人型ロボット等が含まれる。本実施形態では、説明の便宜上、利用者という用語を使用する。
【0023】
更に、本実施形態においてイベントとは、各種行事、催し物などをいう。例えば、イベントには、会議、打合せ、講義、講演、レクチャー、競技大会などが含まれる。
【0024】
更に、本実施形態においてテキストとは、利用者が発話した発話音声に係る音声情報を、所定の辞書等によって認識された結果に基づいて、視認可能な文字、数字等に変換された情報をいう。同様に、本実施形態においてテキスト情報とは、例えば、テキストを含む一文を指す。更に、テキスト情報は、テキスト情報を含む一文を複数有する文章を指すこともある。
【0025】
〔ハードウエア構成〕
続いて、
図2及び
図3を用いて、実施形態に係る通信システムを構成する装置又は端末のハードウエア構成について説明する。なお、
図2及び
図3に示されている装置又は端末のハードウエア構成は、必要に応じて構成要素が追加又は削除されてもよい。
【0026】
<通信端末、音声認識サーバのハードウエア構成>
図2は、通信端末及び音声認識サーバのハードウエア構成の一例を示す図である。
図2に示されているように、通信端末3は、例えばコンピュータによって構築されている。通信端末3は、CPU301、ROM302、RAM303、EEPROM304、CMOS(Complementary Metal Oxide Semiconductor)センサ305、撮像素子I/F(Inter face)306、メディアI/F309、バスライン310、ネットワークI/F312、ネットワークI/F312のアンテナ312a、CMOSセンサ313、撮像素子I/F314、マイク315、スピーカ316、音入出力I/F317、ディスプレイ318、外部機器接続I/F319、近距離通信回路320、近距離通信回路320のアンテナ320a及びタッチパネル321を備えている。
【0027】
これらのうち、CPU301は、通信端末3の全体の動作を制御する。ROM302は、CPU301の処理に用いられるプログラムを記憶する。RAM303は、CPU301のワークエリアとして使用される。EEPROM304は、CPU301の制御にしたがって、アプリ等の各種データの読出し又は書込みを行う。CMOSセンサ305(313)は、CPU301の制御にしたがって被写体を撮像して画像データ又は動画データを得る内蔵型の撮像手段の一種である。なお、撮像手段は、CMOSセンサではなく、CCD(Charge Coupled Device)センサ等で構成される撮像手段であってもよい。撮像素子I/F306(314)は、CMOSセンサ305(313)の駆動を制御する回路である。メディアI/F309は、フラッシュメモリ等の記録メディア308に対するデータの読出し又は書込み(記憶)を制御する。バスライン310は、CPU301等の各構成要素を電気的に接続するためのアドレスバスやデータバス等である。
【0028】
ネットワークI/F312は、通信ネットワーク100を介して他の機器と各種データ(情報)通信するための通信インターフェイスである。このとき、ネットワークI/F312は、ネットワークI/F312のアンテナ312aを使って通信を行ってもよい。マイク315は、音を電気信号に変える内蔵型の回路であり、外部のスピーカ等から発する音声や音波を取得し電気信号を用いた情報を取得する。スピーカ316は、電気信号を物理振動に変えて音楽や音声などの音を生み出す内蔵型の回路である。音入出力I/F317は、CPU301の制御にしたがってマイク315及びスピーカ316との間で音信号の入出力を処理する回路である。ディスプレイ318は、被写体の画像や文字、各種アイコン等を表示する液晶や有機EL(Electro Luminescence)などの表示手段の一種である。外部機器接続I/F319は、各種の外部機器を接続するためのインターフェイスである。この場合の外部機器は、例えば、USB(Universal Serial Bus)メモリ等である。近距離通信回路320は、NFC(Near Field Communication)、Bluetooth(登録商標。以下省略)、ミリ波無線通信、Wi-Fi(登録商標。以下省略)、QRコード(登録商標。以下省略)、可視光、環境音又は超音波等の無線通信インターフェイスを備える通信装置又は通信端末等と近距離無線通信を行うための通信回路である。また、近距離通信回路320には近距離通信回路320のアンテナ320aが備わっている。タッチパネル321は、利用者がディスプレイ318上に配置された所定のボタン、アイコン等に対して押下、クリック又はタップ等の操作をすることで、通信端末3を操作する入力手段の一種である。
【0029】
なお、通信端末3は、ブラウザソフトウエア等のプログラムを動作させることが可能な通信装置又は通信端末が用いられてもよい。
【0030】
音声認識サーバ7は、CPU701、ROM702、RAM703、EEPROM704、CMOS(Complementary Metal Oxide Semiconductor)センサ705、撮像素子I/F706、メディアI/F709、バスライン710、ネットワークI/F712、ネットワークI/F712のアンテナ712a、CMOSセンサ713、撮像素子I/F714、マイク715、スピーカ716、音入出力I/F717、ディスプレイ718、外部機器接続I/F719、近距離通信回路720、近距離通信回路720のアンテナ720a及びタッチパネル721を備えている。これらのハードウエア資源は、通信端末3のCPU301、ROM302、RAM303、EEPROM304、CMOS(Complementary Metal Oxide Semiconductor)センサ305、撮像素子I/F306、メディアI/F309、バスライン310、ネットワークI/F312、ネットワークI/F312のアンテナ312a、CMOSセンサ313、撮像素子I/F314、マイク315、スピーカ316、音入出力I/F317、ディスプレイ318、外部機器接続I/F319、近距離通信回路320、近距離通信回路320のアンテナ320a及びタッチパネル321の各ハードウエア資源と同様であるため、説明を省略する。
【0031】
音声認識サーバ9は、上述した音声認識サーバ7と同様のハードウエア構成を備え、900番台の符号で示されている。
【0032】
<テキスト情報管理装置のハードウエア構成>
図3は、テキスト情報管理装置のハードウエア構成の一例を示す図である。
図3に示されているように、テキスト情報管理装置5は、例えばコンピュータによって構築されており、CPU501、ROM502、RAM503、EEPROM504、HD505、HDD(Hard Disk Drive)コントローラ506、ディスプレイ507、近距離通信I/F508、CMOSセンサ509、撮像素子I/F510、ネットワークI/F511、キーボード512、ポインティングデバイス513、メディアI/F515、外部機器接続I/F516、音入出力I/F517、マイク518、スピーカ519及びバスライン520を備えている。
【0033】
これらのうち、CPU501は、テキスト情報管理装置5全体の動作を制御する。ROM502は、CPU501の駆動に用いられるプログラムを記憶する。RAM503は、CPU501のワークエリアとして使用される。EEPROM504は、CPU501の制御にしたがって、アプリ等の各種データの読出し又は書込みを行う。HD505は、プログラム等の各種データを記憶する。HDDコントローラ506は、CPU501の制御にしたがってHD505に対する各種データの読出し又は書込みを制御する。ディスプレイ507は、カーソル、メニュー、ウィンドウ、文字又は画像などの各種情報を表示する。近距離通信I/F508は、NFC(Near Field Communication)、Bluetooth(登録商標。以下省略)、Wi-Fi(登録商標。以下省略)等の無線通信インターフェイスを備える通信装置、又は通信端末等とデータ通信を行うための通信回路である。CMOSセンサ509は、CPU501の制御にしたがって被写体を撮像して画像データ又は動画データを得る内蔵型の撮像手段の一種である。なお、撮像手段は、CMOSセンサではなく、CCD(Charge Coupled Device)センサ等で構成される撮像手段であってもよい。撮像素子I/F510は、CMOSセンサ509の駆動を制御する回路である。
【0034】
ネットワークI/F511は、通信ネットワーク100を利用してデータ通信をするためのインターフェイスである。キーボード512は、文字、数値、各種指示などの入力のための複数のキーを備えた入力手段の一種である。ポインティングデバイス513は、各種指示の選択や実行、処理対象の選択、カーソルの移動などを行う入力手段の一種である。メディアI/F515は、フラッシュメモリ等の記録メディア514に対するデータの読出し又は書込み(記憶)を制御する。外部機器接続I/F516は、各種の外部機器を接続するためのインターフェイスである。この場合の外部機器は、例えば、USB(Universal Serial Bus)メモリ等である。音入出力I/F517は、CPU501の制御にしたがってマイク518及びスピーカ519との間で音信号の入出力を処理する回路である。マイク518は、音を電気信号に変える内蔵型の回路であり、外部のスピーカ等から発する音声や音波を取得し電気信号を用いた情報を取得する。スピーカ519は、電気信号を物理振動に変えて音楽や音声などの音を生み出す内蔵型の回路である。バスライン520は、CPU501等の各構成要素を電気的に接続するためのアドレスバスやデータバス等である。
【0035】
また、テキスト情報管理装置5は、通信端末3に対してプッシュ通知(送信)によりデータ(情報)を通知(送信)してもよい。その場合、テキスト情報管理装置5は、例えば、プッシュ通知サーバの一例であるFCM(Firebase Cloud Messaging)を利用してプッシュ通知することで実現することが可能である。なお、テキスト情報管理装置5は、一般的に使用されるPC(Personal Computer)であってもよい。テキスト情報管理装置5は、更に、ブラウザソフトウエア等のソフトウエアを動作させることが可能な通信装置又は通信端末が用いられてもよい。
【0036】
更に、上記プログラムは、インストール可能な形式又は実行可能な形式のファイルで、コンピュータで読取り可能な記録媒体に記録、又はネットワークを介してダウンロードを行い流通させるようにしてもよい。記録媒体の例として、CD-R(Compact Disc Recordable)、DVD(Digital Versatile Disk)、Blu-ray Disc、SDカード、USBメモリ等が挙げられる。また、記録媒体は、プログラム製品(Program Product)として、国内又は国外へ提供されることができる。例えば、テキスト情報管理装置5は、本発明に係るプログラムが実行されることで、本発明に係るテキスト情報管理方法を実現する。
【0037】
〔通信システムの機能構成〕
次に、
図4乃至
図9を用いて、本実施形態の機能構成について説明する。
図4は、通信システムの機能構成の一例を示す図である。
【0038】
<通信端末の機能構成>
図4に示されているように、通信端末3は、送受信部31、操作受付部32、音・画像取得部33、表示制御部34、アプリ起動部38及び記憶読出部39を有する。これら各機能部は、
図2に示された各ハードウエア資源のいずれかが、ROM302及びEEPROM304のうち少なくとも一つからRAM303に展開された通信端末3用のプログラムに従ったCPU301からの命令により動作することで実現される機能又は手段である。また、通信端末3は、
図2に示されているROM302及びEEPROM304のうち少なくとも一方により構築される記憶部3000を有している。更に、記憶部3000には、テキスト情報管理装置5と通信ネットワーク100を介して通信を行うための通信プログラム(通信アプリ)と、音声情報に基づいて議事録等を生成するためのブラウザアプリ、記録管理アプリ等が記憶されている。
【0039】
<<通信端末の各機能構成>>
次に、通信端末3の各機能構成について詳細に説明する。
図4に示されている通信端末3の送受信部31は、主に、ネットワークI/F312及び近距離通信回路320に対するCPU301の処理によって実現され、通信ネットワーク100を介してテキスト情報管理装置5との間で各種データ(又は情報)の送受信を行う。本実施形態において、送受信部31は、送信手段及び受信手段のうち少なくとも一方の手段の一例として機能する。
【0040】
操作受付部32は、主に、タッチパネル321が受け付けた各種操作により生成された信号をCPU301が処理することによって実現される。なお、操作受付部32は、タッチパネル321に代えて、キーボード、ポインティングデバイス等の入力手段が用いられてもよい。本実施形態において、操作受付部32は、受付手段の一例として機能する。
【0041】
音・画像取得部33は、主に、マイク315、音入出力I/F317、CMOSセンサ313及び撮像素子I/F314に対するCPU301の処理によって実現され、通信端末3を利用する利用者が発話した発話音声等に係る音声(音)を集音して音声情報(音声データ)又は音情報(音データ)を取得する。音・画像取得部33は、更に、利用者の顔などの画像に係る画像を撮影して画像情報(画像データ)を取得する。なお、音声情報には、人間が発話した発話音声を示す発話音声情報、AIを搭載した機械、人型ロボット等が生成した人工的な音声である人工音声情報が含まれる。本実施形態において、音・画像取得部33は、取得手段の一例として機能する。
【0042】
表示制御部34は、主に、ディスプレイ318に対するCPU301の処理によって実現され、通信端末3における各種画面及び情報(データ)の表示制御を行う。また、表示制御部34は、例えば、ブラウザを用いて、HTML等により作成された表示画面を、ディスプレイ318に表示させる。また、表示制御部34は、テキスト情報管理装置5が送信した第2のテキスト情報を、一以上の利用者が発話した発話音声に対応付けて表示手段の一例としてのディスプレイ318に表示する。また、表示制御部34は、一以上の辞書変更操作部の一例としての「音声認識エンジン変更」ボタン3541-3544のうち特定の「音声認識エンジン変更」ボタンが操作された場合に、第2のテキスト情報として認識するための複数の辞書を含む辞書選択部の一例としての辞書選択ダイアログ3171を、特定の「音声認識エンジン変更」ボタンに対応付けてディスプレイ318に表示する。また、表示制御部34は、辞書選択ダイアログ3171に含まれる複数の辞書のうち特定の辞書が選択された場合に、第1のテキスト情報に代えて、特定の「音声認識エンジン変更」ボタンに関連付けられた第2のテキスト情報を表示する。なお、本実施形態において、第1のテキスト情報及び第2のテキスト情報は、所定のイベントの議事録、及び所定のイベントに参加する利用者が発話した発話音声記録を構成するテキスト情報を含む。また、表示制御部34は、辞書選択ダイアログ3171に含まれる複数の辞書のそれぞれに与えられた「確信度」を、複数の辞書のそれぞれに対応させて辞書選択ダイアログ3171に表示する。また、表示制御部34は、利用者が発話した発話音声に対応付けられた特定のテキストを認識するための辞書情報を、ディスプレイ318に表示する。本実施形態において、表示制御部34は、表示制御手段の一例として機能する。
【0043】
アプリ起動部38は、主に、CPU301の処理によって実現され、テキスト情報管理装置5との間で通信ネットワーク100を介して各種アプリの起動を行う。また、アプリ起動部38は、テキスト情報管理装置5で管理されている各種テキスト情報を編集、管理するための記録管理アプリ及びブラウザアプリを、RAM303の所定の作業領域上で動作させる。本実施形態において、アプリ起動部38は、起動手段の一例として機能する。
【0044】
記憶読出部39は、主に、
図2に示されているROM302及びEEPROM304のうち少なくとも一つに対するCPU301の処理によって実現され、記憶部3000に各種データ(又は情報)を記憶したり、記憶部3000から各種データ(又は情報)を読み出したりする。本実施形態において、記憶読出部39は、記憶読出手段の一例として機能する。
【0045】
<テキスト情報管理装置の機能構成>
図4に示されているように、テキスト情報管理装置5は、送受信部51、取得部52、算出部53、表示制御部54、判断部55、認証部56、生成部57、登録部58及び記憶読出部59を有する。これら各機能部は、
図3に示された各ハードウエア資源のいずれかが、ROM502及びHD505のうち少なくとも一つからRAM503に展開されたテキスト情報管理装置5用のプログラムに従ったCPU501からの命令により動作することで実現される機能又は手段である。また、テキスト情報管理装置5は、
図3に示されているROM502及びHD505のうち少なくとも一方により構築される記憶部5000を有している。更に、記憶部5000には、通信端末3及び音声認識サーバ7と通信ネットワーク100を介してそれぞれ通信を行うための通信プログラム(通信アプリ)と、通信端末3との間で実行されるブラウザアプリ、記録管理アプリ等が記憶されている。
【0046】
●ログイン管理テーブル●
図5は、ログイン管理テーブルの一例を示す概念図である。記憶部5000には、
図5に示されているようなログイン管理テーブルによって構成されたログイン管理DB5001が構築されている。ログイン管理テーブルでは、セッションIDごとに、端末識別情報、参加した通信端末のIPアドレス、利用者識別情報(ユーザID)、パスワード及び利用者名が関連付けられて記憶、管理されている。これらのうち、セッションIDは、テキスト情報管理装置5と一以上の通信端末3との間で行われる通信で確立されるセッションを識別するための情報で、例えば、SE001, SE002等で与えられる。
【0047】
端末識別情報は、通信端末3を識別するための情報であり、例えば、T001, T002等で与えられる。参加した通信端末のIPアドレスは、所定のイベントに参加した通信端末のIPアドレスを示し、IPv4, IPv6等のバージョンに対応させて与えられる固有の情報である。本実施形態では、例えば、1.2.1.3, 1.2.2.4などの情報で与えられる。利用者識別情報は、利用者を識別するための情報であり、本実施形態では、利用者のユーザIDとして、例えば、「taroh.r@ricoh.ex.com」等のメールアドレスが与えられる。パスワードは、通信システム1を利用する際のログイン時の利用者識別情報と関連付けられた識別情報であり、初回の起動時(ログイン時)等に利用者が設定する。なお、パスワードは、任意の文字列、数字、記号をランダムに含む複数文字(桁)の情報である。利用者名は、利用者識別情報で示される利用者の氏名を表し、例えば、「理光太郎」、「馬込花子」等で与えられる。
【0048】
●音声認識エンジン管理テーブル●
図6は、音声認識エンジン管理テーブルの一例を示す概念図である。記憶部5000には、
図6に示されているような音声認識エンジン管理テーブルによって構成された音声認識エンジン管理DB5002が構築されている。音声認識エンジン管理テーブルでは、音声認識エンジン識別情報ごとに、音声認識エンジン名及びURL(Uniform Resource Locator)が関連付けられて記憶、管理されている。これらのうち、音声認識エンジン識別情報は、第1及び第2のクラウドサービスを提供する音声認識サーバ7及び音声認識サーバ9でそれぞれ異なる辞書(音声認識エンジン)を識別する識別情報を表す。音声認識エンジン名は、音声認識エンジン識別情報に対応する辞書の名称を表し、例えば、「汎用」、「医療」、「IT(Information Technology)」等の辞書名である。なお、「汎用」に係る辞書は、ある特定の分野に特化した辞書ではなく、一般的な辞書データが管理される辞書である。URLは、それぞれの音声認識エンジンが管理されているアクセス先を示すアクセス先情報であり、例えば、「https://voicerecognition/general」で与えられる。
【0049】
●記録書誌情報管理テーブル●
図7は、記録書誌情報管理テーブルの一例を示す概念図である。記憶部5000には、
図7に示されているような記録書誌情報管理テーブルによって構成された記録書誌情報管理DB5003が構築されている。記録書誌情報管理テーブルでは、記録識別情報をタブとして、それぞれのタブで分けられた記録名称、開始日時、終了日時、音声データパス、利用者識別情報(ユーザID)及び会議URLが関連付けられて記憶、管理されている。なお、タブとしての記録識別情報は、例えば、「R5006」,「R5007」等で与えられる。
【0050】
これらのうち、記録名称は、所定のイベントで記録された記録内容の名称であり、例えば、「○○定例会議」などの名称が与えられる。開始日時及び終了日時は、所定のイベントが開始された日時及びイベントが終了された日時が与えられ、例えば、「2021/03/31 11:00:00」、「2021/03/31 12:00:00」などの情報である。音声データパスは、所定のイベントで記録された音声記録データ(全体データ)が保管、管理されている場所を示すもので、例えば、「…/00005006/record.mp3」のようにファイル名を含めたパス情報として与えられる。なお、音声データパスは、通信システム1に配置された専用の音声サーバ装置を表すURL情報であってもよい。イベントURLは、そのイベントにおける記録閲覧を編集するための場所を示すもので、利用者は、このイベントURLにアクセスすることで、後述する「記録閲覧編集画面」にアクセスすることができる。なお、イベントURLは、通信システム1に配置された専用の画像サーバ装置を表すURL情報であってもよい。
【0051】
本実施形態に係る記録書誌情報管理テーブルにおいて管理される項目のうち、終了日時と音声データパスの項目は、イベント終了時に利用者又は編集者によって編集、追加される項目である。
【0052】
●キャプチャ画像管理テーブル●
図8は、キャプチャ画像管理テーブルの一例を示す概念図である。記憶部5000には、
図8に示されているようなキャプチャ画像管理テーブルによって構成されたキャプチャ画像管理DB5004が構築されている。本実施形態において、通信端末3の表示制御部34は、所定のイベントの実行中に表示、編集される閲覧編集画面を、所定の時間間隔(例えば30秒間隔)でキャプチャする機能を有する。キャプチャ画像管理テーブルは、その画面キャプチャ機能に係る情報を記憶、管理するためのテーブルで、キャプチャ画像テーブルでは、記録識別情報をタブとして、それぞれのタブで分けられた画像ID、取得時間及び画像データパスが関連付けられて記憶、管理されている。
【0053】
これらのうち、画像IDは、キャプチャされる画像を識別するための情報で、例えば、「I001」,…「I003」等で与えられる。取得時間は、キャプチャ画像を取得した際の所定のイベントにおける経過時間を示すもので、例えば、「1分30秒」、「2分0秒」等で与えられる。画像データパスは、所定のイベントでキャプチャされたキャプチャ画像データが保管、管理されている場所を示すもので、例えば、「…/00005006/0003.jpg」のようなパス情報として与えられる。なお、画像データパスは、通信システム1に配置された専用の画像サーバ装置を表すURL情報であってもよい。
【0054】
●テキスト情報管理テーブル●
図9Aは、テキスト情報管理テーブルの一例を示す概念図である。記憶部5000には、
図9Aに示されているようなテキスト情報管理テーブルによって構成されたテキスト情報管理DB5005Aが構築されている。テキスト情報管理テーブルでは、記録識別情報をタブとして、それぞれのタブで分けられたテキスト識別情報、開始時間、終了時間、テキスト、再認識結果1、再認識結果2、・・・、編集者識別情報、編集日時、ブックマーク及び音声データパスが関連付けられて記憶、管理されている。なお、タブとしての記録識別情報は、例えば、「R5006」,「R5007」等で与えられる。
【0055】
これらのうち、テキスト識別情報は所定の発話内容や発話文を一つのテキスト(又はテキスト情報)としたときの一単位として識別するための情報で、例えば、「T001」、「T002」、…「T005」等で与えられる。開始時間及び終了時間は、所定の発話が開始された時間と終了された時間を分と秒で管理する情報である。例えば、所定のイベントが開始された日時が、記録書誌情報管理DB5003(
図7参照)で管理されている開始日時「2021/03/31 11:00:00」であった場合、開始時間は、開始日時から経過した時間として管理される。つまり、開始時間が「1分53秒」であれば、テキスト情報「T005」で管理される発話が開始された日時は、「2021/03/31 11:01:53」であることを示している。終了時間は、開始時間と同様に、開始日時から経過した時間として管理される。つまり、終了時間が「1分58秒」であれば、テキスト情報「T005」で管理される発話が終了された日時は、「2021/03/31 11:01:58」であることを示している。したがって、この場合、テキスト情報「T005」で管理される発話に要した時間は、58秒-53秒=5秒間となる。
【0056】
テキストは、上述したように、開始時間と終了時間との間で利用者等が発話した発話内容をテキスト情報に置き換えたものである。テキストは、例えば、「診療予約システムの開発日程はご覧の通りです。」、「今回の開発はジャイロ方式を採用します。」といった内容として管理される。詳細については後述するが、「ジャイロ方式」は、「アジャイル方式」として認識される前の段階で認識されたテキストである。これは、音声認識サーバが適切な音声認識エンジン(辞書)を利用していない状態で特定の発話の内容が認識された状態を示している。
【0057】
再認識結果1、再認識結果2は、後述する音声認識エンジンを変更した場合に再認識されたテキスト情報を管理する。この場合、利用者は、発話した発話音声に係る音声情報をテキスト情報に認識する際に、所望のテキスト情報が得られるまで音声認識エンジンを変更することが可能である。そのため、再認識結果の項目も複数設けられている。
【0058】
編集者識別情報は、編集結果に係る編集を行った人物を識別するための情報で、例えば、「E001」,「E002」等で与えられる。編集日時は、編集結果に係る内容が編集された日時を示し、例えば、「2021/03/31 16/00:00」等で与えられる。なお、編集には所定の時間がかかるため、この編集日時は、編集が開始された日時と同義である。ブックマークは、後述する記録閲覧編集画面において編集可能となる特定のテキスト(テキスト情報)に対するブックマークを行うか否か(行なったか否か)を管理するフラグであり、例えば、「ON」,「OFF」等で与えられる。また、ブックマークの初期値は、例えば、「OFF」で与えられる。
【0059】
音声データパスは、所定のイベントで記録された音声記録データ(部分データ)が保管、管理されている場所を示すもので、テキスト識別情報に対応付けられた音声が、例えば、「…/00005006/0005.mp3」のようなパス情報として与えられる。つまり、所定のイベントにおいて、複数のテキスト識別情報に対応付けられた音声データパスが存在する場合、それら全ての音声データパスで示される音声データを繋ぎ合わせた音声データが、記録書誌情報管理DB5003(
図7参照)で管理されている音声データパスで示される音声データ(全体データ)となる。換言すれば、記録書誌情報管理DB5003で管理されているそれぞれの音声データパスの中身は、記録書誌情報管理DB5003(
図7参照)の音声データパスを構成する音声データの一部となる。なお、音声データパスは、通信システム1に配置された専用の音声サーバ装置を表すURL情報であってもよい。
【0060】
●テキスト情報管理テーブル●
図9Bは、テキスト情報管理テーブルの一例を示す概念図である。記憶部5000には、
図9Bに示されているようなテキスト情報管理テーブルによって構成されたテキスト情報管理DB5005Bが構築されている。テキスト情報管理テーブルでは、記録識別情報をタブとして、それぞれのタブで分けられたテキスト識別情報、開始時間、終了時間、テキスト、再認識結果1、再認識結果2、・・・、編集者識別情報、編集日時、ブックマーク及び音声データパスが関連付けられて記憶、管理されている。なお、タブとしての記録識別情報は、例えば、「R5006」,「R5007」等で与えられる。
【0061】
なお、上述したテキスト情報管理DB5005Aを構成するテキスト情報管理テーブルとの相違点は、再認識結果1の項目がテキストと音声認識エンジンの項目を含むように管理されている点である。例えば、テキストの項目で「今回の開発はジャイロ方式を採用します。」という内容が管理されている場合、再認識結果1のテキストの項目には、「今回の開発はアジャイル方式を採用します。」という認識結果(第2のテキスト情報)が管理され、この認識結果に対応する音声認識エンジンの項目には、「IT」が管理されている。これは、テキストの項目で管理されているテキスト情報のうち、「ジャイロ方式」という特定の発話に対して「IT」分野の音声認識エンジン(辞書)を用いて認識することによって、「アジャイル方式」というテキストを含む第2のテキスト情報が新たに管理されていることを示している。
【0062】
同様に、テキストの項目で「最近503のリン商用が注目されています。」という内容が管理されている場合、再認識結果1のテキストの項目には、「最近五苓散の臨床応用が注目されています。」という認識結果(第2のテキスト情報)が管理され、この認識結果に対応する音声認識エンジンの項目には、「医療」が管理されている。これは、テキストの項目で管理されているテキスト情報のうち、「503のリン商用」という特定の発話に対して「医療」分野の音声認識エンジン(辞書)を用いて認識することによって、「五苓散の臨床応用」というテキストを含む第2のテキスト情報が新たに管理されていることを示している。
【0063】
<<テキスト情報管理装置の各機能構成>>
次に、テキスト情報管理装置5の各機能構成について詳細に説明する。
図4に示されているテキスト情報管理装置5の送受信部51は、主に、近距離通信I/F508及びネットワークI/F511に対するCPU501の処理によって実現され、通信ネットワーク100を介して通信端末3との間でそれぞれ各種データ(又は情報)の送受信を行う。送受信部51は、一以上の通信端末のそれぞれを利用する一以上の利用者が発話した発話音声に係る音声情報を受信する。また、送受信部51は、利用者が発話した発話音声情報に基づいて第1の音声認識エンジン(第1の辞書。以下、第1の辞書とよぶ)により認識された第1のテキスト情報を通信端末3に送信した後、第1のテキスト情報に対応する音声情報に基づいて第2の音声認識エンジン(第2の辞書。以下、第2の辞書とよぶ)により認識された第2のテキスト情報を、通信端末3に送信する。
【0064】
また、送受信部51は、第1の辞書を識別する第1の辞書識別情報及び第2の辞書を識別する第2の辞書識別情報を、音声情報に基づいて所定のテキスト情報を認識する音声認識サーバ7又は音声認識サーバ9に対して送信する。また、送受信部51は、音声認識サーバ7が送信した第1の辞書識別情報に基づいて認識された第1のテキスト情報を受信し、又は音声認識サーバ9が送信した第2の辞書識別情報に基づいて認識された第2のテキスト情報を受信する。また、送受信部51は、第2のテキスト情報を通信端末3に対して送信する。また、送受信部51は、音声認識サーバが送信した、第1の辞書識別情報に基づいて認識された特定のテキストと、音声情報に対して認識された特定のテキストに対する確からしさを示す「確信度」と、を含む情報を受信する。また、送受信部51は、特定のテキストに対する「確信度」が所定の閾値未満である場合に、利用者の操作に応じて得られた第2のテキスト情報を認識するための要求を、第2の辞書を管理する音声認識サーバ(音声認識サーバ9)に送信する。また、送受信部51は、第2の辞書を管理する音声認識サーバ(音声認識サーバ9)が送信した第2のテキスト情報を受信する。なお、第1の辞書識別情報及び第2の辞書識別情報は、音声認識エンジン識別情報(VR001,VR002,等)と同義であるが、使用されるタイミングの違いによって、第1の辞書識別情報と第2の辞書識別情報に区別される。
【0065】
本実施形態において、送受信部51は、送信手段及び受信手段のうち少なくとも一方の手段の一例として機能する。
【0066】
取得部52は、主に、CPU501の処理によって実現され、音声認識サーバ7が送信したテキスト情報に基づくテキストデータの取得、閲覧編集画面におけるキャプチャ情報の取得等を行う。本実施形態において、取得部52は、取得手段の一例として機能する。
【0067】
算出部53は、主に、CPU501の処理によって実現され、所定のイベントにおいて利用者が発話を開始した開始日時等を算出する。この算出にあたり、CPU501のクロック信号を用いて生成された時計情報を用いてもよい。本実施形態において、算出部53は算出手段の一例として機能する。
【0068】
表示制御部54は、主に、ディスプレイ507に対するCPU501の処理によって実現され、テキスト情報管理装置5における各種画面及び情報(データ)の表示制御を行う。また、表示制御部54は、例えば、ブラウザを用いて、HTML等により作成された表示画面を、通信ネットワーク100を介して、通信端末3のディスプレイ318に表示させることも可能である。本実施形態において、表示制御部54は、表示制御手段の一例として機能する。
【0069】
判断部55は、主に、CPU501の処理によって実現され、テキスト情報管理装置5における各種判断を行う。また、判断部55は、音声認識サーバが送信した後述する「確信度」が所定の閾値を超えたかを判断する。本実施形態において、判断部55は、与えられた所定の条件を満たすか否かを判断する判断手段の一例として機能する。
【0070】
認証部56は、主に、CPU501の処理によって実現され、例えば、通信端末3から要求された認証要求に基づいて、通信端末3の認証処理を行う。本実施形態において、認証部56は、認証手段の一例として機能する。
【0071】
生成部57は、主に、CPU501の処理によって実現され、音声認識サーバが送信したテキスト情報に基づいて音声記録データを生成する。また、生成部57は、通信端末3で表示される記録閲覧編集画面の画面データを生成する。本実施形態において、生成部57は、生成手段の一例として機能する。
【0072】
登録部58は、主に、CPU501の処理によって実現され、例えば、テキスト情報管理装置5に対して行った通信端末3を利用する利用者の認証情報を記憶部5000に登録する。登録部58は、更に、補正テキスト、ブックマーク等の登録、並びにブックマークの削除を行う。登録部58は、更に、通信端末3が送信した、「音声認識エンジン選択」ダイアログ(辞書選択部)において選択された特定の辞書を示す特定辞書情報と、音声認識サーバ7又は音声認識サーバ9が送信した特定辞書情報に基づいて認識された第2のテキスト情報と、を対応付けて登録する。本実施形態において、登録部58は、登録手段の一例として機能する。
【0073】
記憶読出部59は、主に、ROM502、EEPROM504及びHD505のうち少なくとも一つに対するCPU501の処理によって実現され、記憶部5000に各種データ(又は情報)を記憶したり、記憶部5000から各種データ(又は情報)を読み出したりする。本実施形態において、記憶読出部59は、記憶読出手段の一例として機能する。
【0074】
<音声認識サーバの機能構成>
図4に示されているように、音声認識サーバ7は、送受信部71、音声認識部76及び記憶読出部79を有する。これら各機能部は、
図2に示された各ハードウエア資源のいずれかが、ROM702及びEEPROM704のうち少なくとも一つからRAM703に展開された音声認識サーバ7用のプログラムに従ったCPU701からの命令により動作することで実現される機能又は手段である。また、音声認識サーバ7は、
図2に示されているROM702及びEEPROM704のうち少なくとも一つにより構築される記憶部7000を有している。更に、記憶部7000には、テキスト情報管理装置5と通信ネットワーク100を介して通信を行うための通信プログラム(通信アプリ)等が記憶されている。
【0075】
<<音声認識サーバの各機能構成>>
次に、音声認識サーバ7の各機能構成について詳細に説明する。
図4に示されている音声認識サーバ7の送受信部71は、主に、ネットワークI/F712及び近距離通信回路720に対するCPU701の処理によって実現され、通信ネットワーク100を介してテキスト情報管理装置5との間で各種データ(又は情報)の送受信を行う。本実施形態において、送受信部71は、送信手段及び受信手段のうち少なくとも一方の手段の一例として機能する。
【0076】
音声認識部76は、主に、マイク715及び音入出力I/F717に対するCPU701の処理によって実現され、テキスト情報管理装置5が送信した音声データ又は音データ(音声情報)を認識してテキストデータ(テキスト情報)に変換する。本実施形態において、音声認識部76は、音声認識手段の一例として機能する。
【0077】
記憶読出部79は、主に、ROM702及びEEPROM704のうち少なくとも一つに対するCPU701の処理によって実現され、記憶部7000に各種データ(又は情報)を記憶したり、記憶部7000から各種データ(又は情報)を読み出したりする。本実施形態において、記憶読出部79は、記憶読出手段の一例として機能する。
【0078】
本実施形態に係る通信システムでは、上述した音声認識サーバ7に加えて音声認識サーバ9も含まれるが、音声認識サーバ9の各機能構成は、音声認識サーバ7の各機能構成と同様であるため、説明を省略する。
【0079】
〔実施形態の処理又は動作〕
次に、
図10乃至
図27を用いて、第1の実施形態に係るテキスト情報管理システムにおける各処理又は動作を説明する。
図10は、アプリ起動、認証処理及びセッション確立処理の一例を示すシーケンス図である。
【0080】
<アプリ起動及び認証処理>
まず、通信端末3の利用者は、通信端末3で動作する記録管理アプリ及びブラウザアプリの起動操作を行う。これにより、通信端末3の操作受付部32は、利用者により通信アプリ及びブラウザアプリの起動操作を受け付ける(ステップS11)。なお、本実施形態では、上述した議事録作成端末の一例である通信端末3(A)が記録管理アプリを起動すればよく、通信端末3(A)とともに所定のイベントに参加する通信端末3(B)は記録管理アプリを起動する必要はない。通信端末3(B)は、記録管理アプリの起動に代えて、上述した会話ツールを起動しておけば、通信端末3(A)との音声通信が可能となり、その結果、互いの音声を認識することができる。更に、本実施形態では、通信端末3において他の装置との間で利用される通信アプリは、所定のプロトコル等によって他の装置との間で通信可能な状態になっていることを前提とする。
【0081】
次に、アプリ起動部38は、予め記憶部3000にインストールされているテキスト情報管理装置5との間で通信を行うための通信アプリ及びブラウザアプリを起動する(ステップS12)。その後、表示制御部34は、ディスプレイ318に認証用の認証画面(サインイン画面等)を表示して利用者による認証操作を待つ(ステップS13)。
【0082】
次に、利用者は、テキスト情報管理装置5に対する認証処理(サインイン)を行う。これにより、操作受付部32は、利用者によって入力された認証情報を受け付ける(ステップS21)。
【0083】
続いて、送受信部31は、テキスト情報管理装置5に対して受け付けた認証情報に基づいて認証処理の要求を送信する(ステップS22)。これにより、テキスト情報管理装置5の送受信部41は、通信端末3が送信した認証処理の要求を受信する。このとき、認証処理の要求には、テキスト情報管理装置5とのセッションを確立するためのセッションID、通信端末3の端末識別情報、利用者を識別する利用者識別情報及びパスワードが含まれる。
【0084】
次に、テキスト情報管理装置5の認証部46は、受信されたセッションID、端末識別情報、利用者識別情報及びパスワードと記憶読出部59によってログイン管理DB5001(
図5参照)から読み出されたセッションID、端末識別情報及び利用者識別情報に対応するパスワードとを比較してログイン認証処理を行う(ステップS23)。ここでは、利用者によるテキスト情報管理装置5に対するログイン認証処理が成功しているものとする。ステップS23の処理において、登録部58は、ログイン認証処理をした通信端末3のIPアドレスをログイン管理DB5001(
図5参照)に登録してもよい。
【0085】
次に、ステップS23においてログイン認証処理が成功し、通信端末3との通信セッションが確立すると、送受信部51は、通信端末3に対して認証処理の応答及び参加処理の応答を送信する(ステップS24)。これにより、通信端末3の送受信部31は、テキスト情報管理装置5が送信した認証処理の応答及び参加処理の応答を受信する。このとき、認証処理の応答及び参加処理の応答には、セッションIDとテキスト情報管理装置5との通信セッションへの参加処理を許可する参加処理結果が含まれる。
【0086】
続いて、通信端末3のアプリ起動部38は、次回以降のログイン処理及び通信セッション確立の簡略化のために、記憶読出部39と協働して、記憶部3000の所定領域に、利用者識別情報、パスワード及び利用者名を組にして記憶させて登録する(ステップS25)。なお、ステップS25の処理は省略されてもよい。
【0087】
上述した処理シーケンスの例では、通信端末3にブラウザアプリがインストールされていることを前提に説明したが、議事録閲覧端末の一例として利用される通信端末3(C)のように、ブラウザを利用したWebサービスが提供されてもよい。Webサービスの場合、テキスト情報管理装置5は、Webサーバの機能を有し、閲覧編集画面等の画面データ(画面全体又は画面の一部を表示させるためのデータ)を通信端末3に送信して表示させるようにしてもよい。
【0088】
本実施形態に係るテキスト情報管理システムでは、例えば、上述したステップS22及びS24の処理が実行される場合、通信端末3とテキスト情報管理装置5との間に他の装置等が存在してもよい。つまり、通信端末3とテキスト情報管理装置5との間で送受信される各情報(データ)は、一度他の装置を介して送受信されるような構成であってもよい。上述した構成は、通信端末3とテキスト情報管理装置5との間に他の処理ステップが存在しても適用可能である。
【0089】
●画面表示例●
図11は、通信端末におけるアプリ起動時の画面表示例である。通信端末3のディスプレイ318には、表示制御部34によってディスプレイ318にアプリ起動画面3101が表示される。アプリ起動画面3101には、例えば、アプリをイメージするマーク(マイクの絵)と、アプリのバージョン情報が表示されている。
【0090】
<記録開始処理>
続いて、記録開始処理について説明する。
図12は、記録開始処理の一例を示すシーケンス図である。
図12に示されているように、通信端末3の表示制御部34は、
図11に示したようなアプリ起動画面3101を表示した後、記録開始指示画面をディスプレイ318に表示する(ステップS31)。
【0091】
●画面表示例●
図13は、通信端末における記録開始指示の画面表示例である。通信端末3のディスプレイ318には、上述したステップS32の処理が実行されることにより、表示制御部34によって記録開始指示画面3111が表示される。記録開始指示画面3111には、例えば、「概要(議題)」、「参加者」、「会議メモ」、「ブックマーク」、「録音するマイク」、及び「録画する画面」の各入力欄が含まれる。
【0092】
「概要(議題)」欄には、例えば、実行される会議等のイベントの議題が入力される。「参加者」欄には、例えば、イベントの参加者が入力される。「会議メモ」欄には、例えば、イベントにおける主な議事内容が入力される。主な議事内容は、例えば、概要、決定事項、アクションアイテム等である。これらの「概要(議題)」、「参加者」及び「会議メモ」の各入力欄に入力される項目は、会議等のイベントに参加する参加者等によって予め入力されてもよいし、イベントの終了後に追加編集されることも可能である。「ブックマーク」欄には、会議等のイベントにおいて特に重要な内容等が利用者によって入力される。「録音するマイク」及び「録画する画面」の入力欄には、マイク配列や録画される画面の番号などが表示される。これらのマイク配列や録画される画面の番号は、テキスト情報管理装置5に対して利用者が予め設定しておいてもよいし、テキスト情報管理装置5が任意の条件、タイミング等に基づいて設定してもよい。
【0093】
更に、記録開始指示画面3111には、表示制御部34によって利用者が発話した発話音声に対応付けられた特定のテキストを認識するための辞書情報を通知する音声認識エンジン表示欄3112が表示される。音声認識エンジン表示欄3112では、「汎用」分野の音声認識エンジン(辞書)が選択されていることが示されている。本実施形態において、音声認識エンジン表示欄3112は、音声認識エンジン表示部の一例である。
【0094】
更に、記録開始指示画面3111には、表示制御部34によって辞書選択部の一例である音声認識エンジン選択欄3113が表示される。音声認識エンジン選択欄3113には、音声情報に基づいてテキスト情報として認識するための音声認識エンジン(辞書)を表す名称がプルダウンキーとともに表示される。これにより利用者は、所望の音声認識エンジン(辞書)を選択することが可能になる。本実施形態において、音声認識エンジン選択欄3113は、音声認識エンジン選択部の一例である。
【0095】
更に、記録開始指示画面3111には、表示制御部34によって記録開始ボタン3501が表示される。通信端末3の利用者は、記録開始ボタン3501を操作(押下又はタップ等)することにより、会議等のイベントで発話される発話内容の記録を開始させることができる。
【0096】
図12に戻り、通信端末3の操作受付部32は、利用者の操作による音声認識エンジンの選択を受け付ける(ステップS32)。音声認識エンジンの選択受付は、上述した音声認識エンジン選択欄3113に対する利用者からの選択を受け付けることにより行われる。
【0097】
続いて、操作受付部32は、利用者の操作による記録開始指示を受け付ける(ステップS33)。記録開始指示の受付は、上述した記録開始ボタン3501に対する利用者からの操作を受け付けることにより行われる。
【0098】
次に、通信端末3の送受信部31は、テキスト情報管理装置5に対して記録開始要求を送信する(ステップS34)。これにより、テキスト情報管理装置5の送受信部51は、通信端末3が送信した記録開始要求を受信する。このとき、記録開始要求には、ステップS32で選択された音声認識エンジンの音声認識エンジン識別情報が含まれる。
【0099】
次に、テキスト情報管理装置5の取得部52は、受信された音声認識エンジン識別情報を検索キーとして音声認識エンジン管理DB5002(
図6参照)を検索することにより、対応するURLを読み出す(ステップS35)。
【0100】
続いて、送受信部51は、音声認識サーバ7に対して音声データ送信開始通知を送信する(ステップS36)。これにより、音声認識サーバ7の送受信部71は、テキスト情報管理装置5が送信した音声データ送信開始通知を受信する。このとき、音声データ送信開始通知には、ステップS35で取得したURLが含まれる。
【0101】
次に、音声認識サーバ7の送受信部71は、テキスト情報管理装置5に対して送信開始の許可応答を送信する(ステップS37)。これにより、テキスト情報管理装置5の送受信部51は、音声認識サーバ7が送信した送信開始の許可応答を受信する。
【0102】
次に、テキスト情報管理装置5の送受信部51は、通信端末3に対して記録中画面の表示要求を送信する(ステップS38)。これにより、通信端末3の送受信部31は、テキスト情報管理装置5が送信した記録中画面の表示要求を受信する。
【0103】
続いて、通信端末3の表示制御部34は、ディスプレイ318に記録中画面を表示し、操作受付部32は、利用者によって操作される「記録終了ボタン」の操作を受け付ける(ステップS39)。
【0104】
●画面表示例●
図14は、通信端末における記録終了指示の画面表示例である。通信端末3のディスプレイ318には、上述したステップS39の処理が実行されることにより、表示制御部34によって記録終了指示画面3121が表示される。記録終了指示画面3121には、
図13と同様に、例えば、「概要(議題)」、「参加者」、「会議メモ」、「ブックマーク」の各入力欄が含まれる。更に、記録終了指示画面3121には、処理メッセージ表示欄が含まれる。処理メッセージ表示欄には、例えば、議事録等の記録を準備中であることを示す「準備中。しばらくお待ちください。」といったメッセージが表示される。
【0105】
記録終了指示画面3121には、更に、表示制御部34によって利用者が発話した発話音声に対応付けられた特定のテキストを認識するための辞書情報を通知する音声認識エンジン表示欄3122が表示される。音声認識エンジン表示欄3122では、「汎用」分野の音声認識エンジン(辞書)が選択されていることが示されている。
【0106】
更に、記録終了指示画面3121には、表示制御部34によって記録終了ボタン3511が表示される。通信端末3の利用者は、記録終了ボタン3511を操作(押下又はタップ等)することにより、会議等のイベントで発話される発話内容の記録を終了させることができる。
【0107】
<記録書誌情報の登録処理>
図15は、記録書誌情報の登録処理の一例を示すシーケンス図である。テキスト情報管理装置5の送受信部51は更に、通信端末3に対して、音声データ送信開始要求を送信する(ステップS41)。これにより、通信端末3の送受信部31は、テキスト情報管理装置5が送信した音声データ送信開始要求を受信する。
【0108】
次に、通信端末3の送受信部31は、テキスト情報管理装置5に対して音声データ及び記録書誌情報を送信する(ステップS42)。これにより、テキスト情報管理装置5の送受信部51は、通信端末3が送信した音声データ及び記録書誌情報を受信する。このときに送受信される記録書誌情報には、記録書誌情報管理DB5003(
図7参照)で管理されている記録名称、開始日時、利用者識別情報(ユーザID)、イベントURLが含まれる。
【0109】
次に、テキスト情報管理装置5の送受信部51は、音声認識サーバ7のAPI(Application Programming Interface)に対して音声認識要求を送信する(ステップS43)。これにより、音声認識サーバ7の送受信部71は、テキスト情報管理装置5が送信した音声認識要求を受信する。このとき、音声認識要求には、音声認識サーバによってテキスト変換の対象となる音声データが含まれる。ステップS42及びS43の処理が行われることによって、テキスト情報管理装置5の送受信部51は、通信端末3が送信した音声データ(音声ストリーミングによる音声データ)を継続的に音声認識サーバ7に対して送信する。この場合、利用者の発話が検出されていなくても、送受信部51は、音声認識サーバ7に対して継続的に音声ストリーミングを送信し続けてよい。但し、テキスト情報管理装置5は、音声認識サーバ7のAPIの仕様に基づいて音声データを個別に送信し、音声認識を要求するようにしてもよい。
【0110】
次に、テキスト情報管理装置5の登録部58は、記録書誌情報管理DB5003(
図7参照)に対して、ステップS42で受信した記録書誌情報を登録する(ステップS44)。このとき登録される記録書誌情報には、記録名称としての「ヘルスケア事業業績報告会」、「開始日時」、「利用者識別情報(ユーザID)」、「イベントURL」に加えて、新たに「終了日時」と「音声データパス」を示す内容が含まれる。
【0111】
<音声認識処理>
図16は、音声認識処理の一例を示すシーケンス図である。まず、一以上の通信端末3のうち、議事録作成端末の一例である通信端末3(A)の音・画像取得部33は、マイク315を介して通信端末3(A)を利用する利用者が発話した発話音声又は音を集音して音声情報(音声データ又は音データを含む。以下、単に「音声情報」と記す)を取得する(ステップS51)。
【0112】
続いて、送受信部31は、取得した音声情報をテキスト情報管理装置5に対して送信する(ステップS52)。これにより、テキスト情報管理装置5の送受信部51は、通信端末3(A)の送受信部31が送信した、通信端末3(A)を利用する利用者が発話した発話音声に係る音声情報を受信する。なお、以降の説明においては、単に通信端末3と記載する。
【0113】
次に、テキスト情報管理装置5の送受信部51は、音声認識サーバ7に対して音声認識要求を送信する(ステップS53)。これにより、音声認識サーバ7の送受信部71は、テキスト情報管理装置5が送信した音声認識要求を受信する。このとき、音声認識要求には、通信端末3が送信した音声情報(音声データ、音データ)が含まれる。つまり、テキスト情報管理装置5は、通信端末3と音声認識サーバ7との間の仲介装置の役割も果たしている。
【0114】
次に、音声認識サーバ7の音声認識部76は、受信した音声情報に対して音声認識処理を実行し、音声情報をテキスト情報に変換する(ステップS54)。
【0115】
続いて、送受信部71は、テキスト情報管理装置5に対して音声認識結果を送信する(ステップS55)。これにより、テキスト情報管理装置5の送受信部51は、音声認識サーバ7が送信した音声認識結果を受信する。このとき、音声認識結果には、変換されたテキストデータ、開始時間、終了時間が含まれる。具体的には、音声認識サーバ7は、例えば、テキスト情報管理DB5005A(
図9A参照)で管理されている「今回の開発はジャイロ方式を採用します。」という内容と、その内容が発話された開始時間(1分59秒)を、テキスト情報管理装置5に対して送信する。なお、開始時間に関しては、テキスト情報管理テーブルで説明したように、開始日時から経過した時間として管理される。終了時間についても同様の考え方が適用される。
【0116】
次に、登録部58は、受信した1レコード分のテキスト情報をテキスト情報管理DB5005A(
図9A参照)に登録する(ステップS56)。この場合の1レコード分のテキスト情報とは、テキスト識別情報、開始時間、終了時間、テキスト、音声データパスに対する情報であり、編集結果、編集者識別情報、編集日時に対しては空白データとしておく。更にブックマークを「OFF」としておく。
【0117】
続いて、取得部52は、例えば、受信した開始時間を検索キーとしてテキスト情報管理DB5005A(
図9A参照)を検索することにより対応するテキストデータを取得する(ステップS57)。
【0118】
続いて、算出部53は、開始日時を算出する(ステップS58)。開始日時の算出については、以下の式に基づいて行われる。つまり、開始日時は、記録書誌情報管理DB5003(
図7参照)で管理されている開始日時とテキスト情報管理DB5005A(
図9A参照)で管理されている開始日時を足し合わせた時間となる。具体的には、2021/03/31 11:00:00 + 00:01:53 = 2021/03/31 11:01:53が、ステップS58で算出される開始日時となる。
【0119】
続いて、送受信部51は、通信端末3に対して記録画面更新要求を送信する(ステップS59)。これにより、通信端末3の送受信部31は、テキスト情報管理装置5が送信した記録画面更新要求を受信する。このとき、記録画面更新要求には、音声認識サーバ7が認識したテキスト情報(テキストデータ)、及びステップS58で算出された開始日時を示す開始日時情報が含まれる。
【0120】
次に、通信端末3の表示制御部34は、テキスト情報管理装置5が送信した補正テキスト情報で示される音声記録をディスプレイ318に表示する(ステップS60)。具体的には、表示制御部34は、
図18に示したような記録中画面に含まれる第1のテキスト情報で示される音声記録を表示させる。
【0121】
なお、本実施形態に係る通信システムにおいて生成部57は、テキスト情報管理装置5に備えられる構成以外に、通信ネットワーク100を介してテキスト情報管理装置5と通信端末3とを互いに通信可能な他の装置が有するような構成であってもよい。
【0122】
本実施形態に係るテキスト情報管理システムでは、更に、例えば、上述したステップS53及びS55の処理が実行される場合、テキスト情報管理装置5と音声認識サーバ7との間に他の装置等が存在してもよい。つまり、テキスト情報管理装置5と音声認識サーバ7との間で送受信される各情報(データ)は、一度他の装置を介して送受信されるような構成であってもよい。上述した構成は、テキスト情報管理装置5と音声認識サーバ7との間に他の処理ステップが存在しても適用可能である。
【0123】
<画面キャプチャ処理>
次に、画面キャプチャ処理について説明する。
図17は、画面キャプチャ処理の一例を示すシーケンス図である。
図17に示されているように、通信端末3の音・画像取得部33は、後述する
図23に示されたような音声認識変更画面を、例えば、30秒ごとにキャプチャ処理してキャプチャ画像を取得する(ステップS71)。なお、キャプチャ画像を取得する所定の時間間隔は30秒に限らず、10秒毎、1分毎など、任意に設定されてよい。画面キャプチャ処理については、例えば、一般的に知られているプリントスクリーンキーを用いた画面キャプチャ処理に相当する手法を用いてもよい。その場合、テキスト情報管理装置5は、利用者による操作を介さずに、上述した所定の時間間隔で画面キャプチャ処理を自動実行することで実現される。
【0124】
続いて、送受信部31は、取得したキャプチャ画像を示すキャプチャ画像データをテキスト情報管理装置5に対して送信する(ステップS72)。これにより、テキスト情報管理装置5の送受信部51は、通信端末3が送信したキャプチャ画像データを受信する。このとき、通信端末3が送信する情報には、画像IDと画像IDに対応するキャプチャ画像データが含まれる。
【0125】
次に、テキスト情報管理装置5の登録部58は、キャプチャ画像管理DB5004(
図8参照)に、キャプチャ画像情報としての取得時間及びキャプチャ画像の保存先を示す画像データパスを含む情報を登録する(ステップS73)。
【0126】
続いて、送受信部51は、通信端末3に対して、記録画面更新要求を送信する(ステップS74)。これにより、通信端末3の送受信部31は、テキスト情報管理装置5が送信した記録画面更新要求を受信する。
【0127】
次に、通信端末3の表示制御部34は、記録中画面を更新し(ステップS75)、ディスプレイ318に更新後の画面を表示する(ステップS76)。このときに更新される記録中画面は、後述する
図24にて詳細に説明する。
【0128】
本実施形態では、テキスト情報管理システム2は、上述したステップS71-S76までの処理を、所定のイベントが終了するまで、つまり、テキスト情報管理システム2は、例えば、会議における音声記録が終了するまで、上述したステップS71-S76までの処理を繰り返して実行する。
【0129】
●画面表示例●
図18は、通信端末における記録中の画面表示例である。通信端末3のディスプレイ318には、上述したステップS60の処理が実行されることにより、表示制御部34によって記録中画面3131が表示される。記録中画面3131には、例えば、
図14に示した記録終了指示画面3121の内容に加えて、少なくとも一以上のテキスト表示欄が表示される。このテキスト表示欄では、発話した利用者ごとに、利用者の顔写真又はイメージ画像、発話日時、発話内容を一単位として時系列に表示される。ここで、テキスト表示欄には、例えば、音声認識サーバ7が送信した「診療予約システムの開発日程はご覧の通りです。」、「今回の開発はジャイロ方式を採用します。」、「最近503のリン商用が注目されています。」といった内容のテキスト情報が表示される。なお、テキスト表示欄に表示される内容は、後述する音声認識エンジン変更画面以降で変更されるが、記録中画面3131において音声認識を変更して再度認識するようにしてもよい。
【0130】
記録中画面3131には、更に、表示制御部34によって、利用者が発話した発話音声に対応付けられた特定のテキストを認識するための辞書情報を通知する音声認識エンジン表示欄3132が表示される。音声認識エンジン表示欄3132では、「汎用」分野の音声認識エンジン(辞書)が選択されていることが示されている。
【0131】
記録中画面3131には、更に、表示制御部34によって記録の一時停止を指示するための一時停止ボタン3521、及び記録終了を指示するための記録終了ボタン3522が表示される。利用者は、一時停止ボタン3521又は記録終了ボタン3522を操作(押下又はタップ等)することにより、会議等のイベントで発話される発話内容の記録を一時停止又は終了させることができる。そして、記録終了ボタン3522が操作されると、通信端末3は、テキスト情報管理装置5に対して音声データの送信を開始する。
【0132】
<記録終了処理>
次に、記録終了処理について説明する。
図19は、記録終了処理の一例を示すシーケンス図である。まず、通信端末3の操作受付部32は、利用者による記録終了ボタン3522に対する操作によって、記録終了指示を受け付ける(ステップS81)。この記録終了指示は、会議等のイベントで発話される発話内容の記録を終了させるための指示であり、例えば、
図18に示した記録中画面3131に表示された記録終了ボタン3522を利用者が操作(押下又はタップ等)することで行われる。
【0133】
次に、送受信部31は、テキスト情報管理装置5に対して、記録終了要求を送信する(ステップS82)。これにより、テキスト情報管理装置5の送受信部51は、通信端末3が送信した記録終了要求を受信する。
【0134】
次に、テキスト情報管理装置5の送受信部51は、音声認識サーバ7に対して音声情報送信終了通知を送信する(ステップS83)。これにより、音声認識サーバ7の送受信部71は、テキスト情報管理装置5が送信した音声情報送信終了通知を受信する。
【0135】
続いて、音声認識サーバ7の送受信部71は、テキスト情報管理装置5に対して音声情報送信終了通知の受領を送信する(ステップS84)。これにより、テキスト情報管理装置5の送受信部51は、音声認識サーバ7が送信した音声情報送信終了通知の受領を受信する。
【0136】
次に、テキスト情報管理装置5の送受信部51は、通信端末3に対して、記録終了画面表示要求を送信する(ステップS85)。これにより、通信端末3の送受信部31は、テキスト情報管理装置5が送信した記録終了画面表示要求を受信する。
【0137】
次に、通信端末3の表示制御部34は、ディスプレイ318に、
図20に示すような記録終了画面を表示する(ステップS86)。なお、ステップS86の処理は省略されてもよい。
【0138】
一方、ステップS85において記録終了画面表示要求を送信したテキスト情報管理装置5の生成部57は、記録終了操作が行われた所定のイベントの音声記録データを生成する(ステップS87)。具体的には、生成部57は、テキスト情報管理DB5005A(
図9A参照)で管理されている複数の音声データパス(「…/0005006/0005.mp3」「…/0005006/0006.mp3」等)を合体させて、記録書誌情報管理DB5003(
図7参照)で管理されている音声記録データの記憶先である音声データパス(「…/00005006/record.mp3)」等)を生成する。
【0139】
続いて、登録部58は、ステップS87の処理で生成された音声データパスを含む記録書誌情報を、記録書誌情報管理DB5003(
図7参照)に登録する(ステップS88)。このときに登録部58によって登録される記録書誌情報は、終了日時及び音声データパス(「…/00005006/record.mp3」)を含む情報となる。
【0140】
●画面表示例●
図20は、通信端末における記録終了時の画面表示例である。通信端末3のディスプレイ318には、上述したステップS86の処理が実行されることにより、表示制御部34によって記録終了画面3141が表示される。記録終了画面3141には、例えば、保存終了を示す保存終了マーク、新しい会議を記録するための会議設定ボタン3531、及びログを見るためのログ確認ボタン3532が表示される。利用者は会議設定ボタン3531を操作することによって新しい会議を記録する画面に遷移することができる。また、利用者は、ログ確認ボタン3532を操作することによって、所定のイベントで発話された内容の履歴、利用者によって操作された各種ボタン、処理のログを含む各種情報(データ)を確認することができる。
【0141】
<音声認識エンジン変更開始処理>
次に、音声認識エンジン変更開始処理について説明する。
図21は、音声認識エンジン変更開始処理の一例を示すシーケンス図である。本実施形態において、音声認識エンジンを変更する際に確認する音声記録の閲覧及び編集機能は、Webサービスとして提供されることが可能である。そのため、テキスト情報管理装置5は、Webサーバの機能を有しており、画面全体又は画面の一部を表示させるための画面データを、議事録閲覧端末の一例である通信端末3(C)に送信して、議事録作成端末の一例である通信端末3(A)のブラウザアプリに表示させる。また、テキスト情報管理装置5が通信端末3(C)にコンテンツデータ及び各種表示のための表示指示情報を送信し、通信端末3(C)にインストールされたアプリに所定の画面を表示させるようにしてもよい。
【0142】
このような前提で、まず、通信端末3の表示制御部34は、ディスプレイ318に
図22に示すような記録選択画面を表示し、操作受付部22は、この記録選択画面における利用者による記録選択の操作を受け付ける(ステップS91)。
【0143】
●画面表示例●
図22は、通信端末における記録選択時の画面表示例である。通信端末3のディスプレイ318には、上述したステップS91の処理が実行されることにより、表示制御部34によって記録選択画面3151が表示される。記録選択画面3151には、例えば、記録内容を示す日時とイベントタイトルを一揃えとして選択可能な表示形態で表示される。これにより、利用者は、任意の日付及びイベントタイトルで表された所定のイベントを、マウス等を用いて選択することができる。本実施形態では、「2021/3/31 11:01:15-12:00:00」を日付情報として管理された「○○定例会議」のイベントが利用者によって選択された場合が示されている。例えば、通信端末3(A)の利用者が、記録選択画面3151中の所定のイベントタイトルをマウスオーバー操作によってマウスポインタ(カーソル)3701を翳すと、マウスポインタ(カーソル)3701によって翳されたイベントタイトルに対応付けられた「共有」ボタンが表示される。そこで、通信端末3(A)の利用者は、「共有」ボタンを操作することによって、所定のURLとパスコードを含むダイアログにアクセスすることが可能となる。通信端末3(A)の利用者は、このダイアログに所定の情報を入力することにより、後述する音声認識エンジン変更画面へのアクセスが可能になる。
【0144】
図21に戻り、通信端末3の送受信部31は、テキスト情報管理装置5に対して、音声認識エンジン変更画面要求を送信する(ステップS92)。これにより、テキスト情報管理装置5の送受信部51は、通信端末3が送信した音声認識エンジン変更画面要求を受信する。このとき、音声認識エンジン変更画面要求には記録識別情報(「R5006」,「R5007」等)が含まれる。なお、ステップS91及びS92の処理が実行される際に、通信端末3のディスプレイ318には、所定のイベントに参加した参加者(利用者)がログイン済みの状態で、上述した記録選択画面3151が表示されている。
【0145】
次に、テキスト情報管理装置5の取得部52は、ステップS92で受信した記録識別情報を検索キーとして記録書誌情報管理DB5003(
図7参照)、キャプチャ画像管理DB5004(
図8参照)、及びテキスト情報管理DB5005A(
図9A参照)をそれぞれ検索することにより、対応する記録書誌情報、キャプチャ情報、及びテキスト情報を取得する(ステップS93)。具体的には、取得部52は、記録識別情報を検索キーとして記録書誌情報管理DB5003(
図7参照)を検索することにより、対応する記録書誌情報を取得する。ここで記録書誌情報には、記録名称、開始日時、利用者識別情報、イベントURLが含まれる。また、取得部52は、記録識別情報を検索キーとしてキャプチャ画像管理DB5004(
図8参照)を検索することにより、対応するキャプチャ情報を取得する。ここでキャプチャ情報には、画像ID、取得時間、画像データパスが含まれる。更に、取得部52は、記録識別情報を検索キーとしてテキスト情報管理DB5005A(
図9A参照)を検索することにより、対応するテキスト情報を取得する。ここでテキスト情報には、テキスト識別情報、開始時間、終了時間、テキスト、音声データパスが含まれる。
【0146】
続いて、生成部57は、ステップS93の処理で取得した各種情報に基づいて、音声認識エンジン変更画面を生成する。より詳細には、生成部57は記憶読出部59と協働して、音声認識エンジン変更画面を構成する画面構成データ(画面用のテンプレートデータ)を、例えば、記憶部5000の所定領域から読み出す。その後、生成部57は、記録書誌情報管理DB5003(
図7参照)で管理されている記録名称、開始日時、利用者識別情報(ユーザID)、イベントURLを含む記録書誌情報、テキスト情報、キャプチャ画像等を画面構成データに組み込み、音声認識エンジン変更画面データを生成する(ステップS94)。
【0147】
続いて、送受信部51は、音声認識エンジン変更画面要求に対する応答として通信端末3に対して、音声認識エンジン変更画面データを送信する(ステップS95)。これにより、通信端末3の送受信部31は、テキスト情報管理装置5が送信した音声認識エンジン変更画面データを受信する。
【0148】
次に、通信端末3の表示制御部34は、ディスプレイ318に、
図23に示した音声認識エンジン変更画面を表示する(ステップS96)。
【0149】
●画面表示例●
図23は、通信端末における音声認識エンジン変更画面の画面表示例である。通信端末3のディスプレイ318には、上述したステップS96の処理が実行されることにより、表示制御部34によって音声認識エンジン変更画面3161が表示される。音声認識エンジン変更画面3161には、
図18に示した記録中画面3131と同様に、「概要(議題)」、「参加者」、「会議メモ」、「ブックマーク」の各入力欄が表示される。音声認識エンジン変更画面3161には、更に、画面キャプチャ処理によってキャプチャ処理された画面3、画面4及び画面5が、それぞれキャプチャ処理された時刻ごとに、テキスト表示欄とあわせて表示される。一方で、音声認識エンジン変更画面3161は、記録処理が終了した時点でディスプレイ318に表示されるため、記録の一時停止を指示するための一時停止ボタンと記録終了を指示するための記録終了ボタンは表示されない。
【0150】
なお、音声認識エンジン変更画面3161では、各テキスト表示欄の近傍にマウスが置かれた(マウスオーバー処理が行われた)などの処理が行われた場合、音声再生ボタン、ブックマークボタン、及び削除ボタンが、マウスが置かれた近傍に表示されてもよい。これらの各ボタンのうち、音声再生ボタンは、利用者が特定の音声を再生させるためのボタンである。利用者は、音声再生ボタンを操作することにより、利用者が選択した特定の音声記録に係る音声を再生させることができる。また、ブックマークボタンは、利用者が特定のブックマーク機能を実現するためのボタンである。利用者は、ブックマークボタンを操作することにより、利用者が選択した特定の音声記録を上述した「ブックマーク」欄に表示させることができる。更に、削除ボタンは、特定のテキストを削除するためのボタンであり、利用者は、削除ボタンを操作することにより、特定のテキストを削除させることができる。
【0151】
音声認識エンジン変更画面3161には、更に、表示制御部34によって、利用者が発話した発話音声に対応付けられた特定のテキストを認識するための辞書情報を通知する音声認識エンジン表示欄3162が表示される。音声認識エンジン表示欄3162では、「汎用」分野の音声認識エンジン(辞書)が選択されていることが示されている。
【0152】
音声認識エンジン変更画面3161には、更に、表示制御部34によって辞書変更操作部の一例としての「音声認識エンジン変更」ボタン3541-3544が、各テキスト表示欄の近傍に表示される。これにより、利用者は、利用者が発話した発話内容に基づいて音声認識サーバが認識したテキスト情報に対して、「音声認識エンジン変更」ボタン3541-3544のうちいずれかのボタンを操作することで、所望のテキスト情報に対して別の音声認識エンジン(辞書)を用いて再度認識をさせることができる。
【0153】
<音声認識エンジン変更処理>
図24は、音声認識エンジンの変更処理の一例を示すシーケンス図である。
図24に示されているように、操作受付部32は、ディスプレイ318に表示された音声認識エンジン変更画面3161の「音声認識エンジン変更」ボタン3541-3544のうちのいずれかのボタンに対する操作を受け付ける(ステップS101)。本実施形態では、「音声認識エンジン変更」ボタン3544が操作された場合を説明する。
【0154】
次に、送受信部31は、テキスト情報管理装置5に対して、音声認識エンジンリスト要求を送信する(ステップS102)。これにより、テキスト情報管理装置5の送受信部51は、通信端末3が送信した音声認識エンジンリスト要求を送信する。このとき、音声認識エンジンリスト要求には、音声認識エンジン識別情報のうちの上位一致部分が含まれる。ここで音声認識エンジン識別情報のうちの上位一致部分とは、例えば、音声認識エンジン管理DB5002(
図6参照)で管理されている音声認識エンジン識別情報の「VR」の部分である。つまり、ステップS102の処理では、通信端末3は、音声認識エンジン管理DB5002(
図6参照)で管理されている音声認識エンジン名のすべてのリストを要求する処理が実行される。
【0155】
次に、テキスト情報管理装置5の取得部52は、ステップS102で受信された音声認識エンジン識別情報に対応する全ての音声認識エンジンのリストを取得する(ステップS103)。
【0156】
続いて、送受信部51は、通信端末3に対して音声認識エンジンリスト応答を送信する(ステップS104)。これにより、通信端末3の送受信部31は、テキスト情報管理装置5が送信した音声認識エンジンリスト応答を受信する。このとき、音声認識エンジンリスト応答には、音声認識エンジン識別情報、音声認識エンジン名、音声認識エンジン名に対応するURL情報が含まれる)。
【0157】
次に、通信端末3の表示制御部34は、ステップS105において受信された音声認識エンジンリストをディスプレイ318に表示する(ステップS105)。具体的には、表示制御部34は、音声認識エンジン変更画面3161に表示された「音声認識エンジン変更」ボタン3541-3544のうちのいずれかのボタンに対する操作に応じて、
図25に示すような「音声認識エンジン選択」ダイアログ3171を表示する。なお、「音声認識エンジン選択」ダイアログ3171は、辞書選択部の一例である。
【0158】
●画面表示例●
図25は、通信端末における音声認識エンジン選択ダイアログの画面表示例である。通信端末3のディスプレイ318には、上述したステップS105の処理が実行されることにより、表示制御部34によって「音声認識エンジン選択」ダイアログ3171が表示される。「音声認識エンジン選択」ダイアログ3171には、ステップS104で受信された音声認識エンジンがリスト表示され、プルダウンキーもあわせて表示される。更に、OKボタン3551、キャンセルボタン3552が表示される。OKボタン3551は、プルダウンキー等を用いて選択された音声認識エンジンを確定させるための操作ボタンである。また、キャンセルボタン3552は、この「音声認識エンジン選択」ダイアログの利用を中止するための操作ボタンである。なお、「音声認識エンジン選択」ダイアログ3171は、利用者によって操作された「音声認識エンジン変更」ボタン3541-3544のうちのいずれかのボタンに重複(重畳)させるようにポップアップ表示されてもよい。更に、「音声認識エンジン選択」ダイアログ3171は、音声認識エンジン変更画面3161中の空いている場所に表示されてもよい。なお、
図25に示した「音声認識エンジン選択」ダイアログ3171では、利用者によるプルダウンキーの操作によって「医療」の音声認識エンジン(辞書)が選択されている状態が示されている。本実施形態において、「医療」の音声認識エンジン(辞書)は、特定の辞書を示す特定辞書情報の一例として機能する。
【0159】
図24に戻り、通信端末3の操作受付部32は、利用者による音声認識エンジン選択を受け付ける(ステップS106)。
図25の場合、利用者によって「医療」に係る音声認識エンジン(辞書)が選択された状態が示されている。
【0160】
次に、送受信部31は、テキスト情報管理装置5に対して音声再認識要求を送信する(ステップS107)。これにより、テキスト情報管理装置5の送受信部51は、通信端末3が送信した音声再認識要求を受信する。このとき、音声再認識要求には、利用者によって新たに選択された音声認識エンジンの音声認識エンジン識別情報、及び音声再認識要求に対応するテキストのテキスト識別情報が含まれる。具体的には、音声認識エンジン識別情報は、「医療」の音声認識エンジン(辞書)を示す「VR0002」である。この「医療」の音声認識エンジン(辞書)を示す「VR0002」は、特定の辞書を示す特定辞書情報の一例である。また、音声再認識要求に対応するテキストは、例えば、
図23に示された「2021/03/31 11:02:05」に発話され認識された「最近503のリン商用が注目されています。」というテキストである。この方法は、例えば、利用者によって、マウスポインタ(カーソル)3701が上述したテキストの横に表示された「音声認識エンジン変更」ボタン3544が操作されることで、取得部52が、「音声認識エンジン変更」ボタン3544に対応付けられたテキストとして「最近503のリン商用が注目されています。」を取得するようにしてもよい。更に、次の処理ステップで用いられるこのテキストに対応するテキスト識別情報は、テキスト情報管理装置5のテキスト情報管理DB5005(
図9参照)で管理されている「T007」となる。
【0161】
次に、テキスト情報管理装置5の取得部52は、ステップS107で受信したテキスト識別情報を検索キーとしてテキスト情報管理DB5005A(
図9A参照)を検索することにより、対応する音声データ(音声データパス)を読み出す(ステップS108)。
【0162】
続いて、取得部52は、ステップS107で受信された音声認識エンジン識別情報を検索キーとして音声認識エンジン管理DB5002(
図6参照)を検索することにより、対応する音声認識エンジンのURLを取得する(ステップS109)。
【0163】
図26は、音声認識エンジン変更後の音声認識処理の一例を示すシーケンス図である。テキスト情報管理装置5の送受信部51は、ステップS108の処理で取得した音声データ及びステップS108の処理で取得したURL情報で示される音声認識サーバ(例えば、音声認識サーバ9)に対して音声再認識要求を送信する(ステップS111)。これにより、音声認識サーバ9の送受信部91は、テキスト情報管理装置5が送信した音声再認識要求を受信する。なお、送受信部91は、音声データに代えて、テキスト情報管理DB5005A(
図9A)で管理されているテキストに対応する音声データパス(/0005006/0007.mp3等)を受信してもよい。
【0164】
ステップS111の処理において、テキスト情報管理装置5が送信した音声再認識要求は音声認識サーバ9によって受信されたが、音声再認識要求に含まれるURL情報で示される音声認識エンジン(辞書)が、音声認識サーバ7で管理されている場合は、音声認識サーバ7に対して音声再認識要求が送信されてよい。つまり、テキスト情報管理装置5の送受信部51は、ステップS111の処理において音声再認識要求を送信する際、音声再認識要求に含まれるURLが示す宛先に応じて音声認識サーバを選択して送信する機能を有する。
【0165】
続いて、音声認識サーバ9の音声認識部96は、受信した音声データ(音声情報)をもとにテキスト情報への音声認識処理を実行する(ステップS112)。このときに実行される認識処理において、ステップS111で受信されたURLには、「医療」に係る音声認識エンジン(辞書)にアクセスするためのURL情報が含まれる。これにより、音声認識サーバ9は、音声認識サーバ9が管理する医療分野に関する辞書情報を検索することが可能になる。なお、音声認識サーバ9が音声情報に対してテキスト情報を認識する場合、以下のような方法が考えられる。例えば、音声認識サーバ9は、ステップS111において、「音声認識エンジン変更」ボタン3544に対する操作を受け付ける。その後、音声認識サーバ9は、「最近503のリン商用が注目されています。」と認識された音声データ(音声情報)と、医療分野の音声認識エンジン(辞書)が管理されているURL情報と、を受信する。そして、音声認識部96は、受信した「最近503のリン商用が注目されています。」認識された音声データ(音声情報)に含まれる「503」の音声情報(例えば、「GO REI SAN」という音声情報)について、医療分野の音声認識エンジンを用いて「GO REI SAN」という音声情報に最も近い「五苓散」という単語を新たに認識する。同様に、音声認識部96は、受信した「最近503のリン商用が注目されています。」認識された音声データ(音声情報)に含まれる「リン商用」の音声情報(例えば、「RIN-SHOU-YOU」という音声情報)について、医療分野の音声認識エンジンを用いて「RIN-SHOU-YOU」に最も近い「臨床応用」という単語を新たに認識する。
【0166】
続いて、音声認識サーバ9の送受信部91は、テキスト情報管理装置5に対して認識応答を送信する(ステップS113)。これにより、テキスト情報管理装置5の送受信部51は、音声認識サーバ9が送信した認識応答を受信する。このとき、認識応答には、ステップS112で音声認識サーバ9が認識したテキストデータ(第2のテキスト情報の一例)が含まれる。
【0167】
次に、テキスト情報管理装置5の登録部58は、ステップS107で受信した音声認識エンジン識別情報と、ステップS113で受信したテキストデータとを、テキスト情報管理DB5005B(
図9B参照)で管理されている再認識結果1のステップS107で受信したテキスト識別情報に対応する項目に登録する(ステップS114)。具体的には、登録部58は、ステップS107で受信した特定辞書情報の一例である「医療」の音声認識エンジン(辞書)を示す「VR0002」と、ステップS113で受信した第2のテキスト情報である「最近五苓散の臨床応用が注目されています。」というテキスト情報とを、テキスト情報管理DB5005B(
図9B参照)で管理されているテキスト識別情報T007に対応する再認識結果1のテキスト欄に登録する。
【0168】
次に、送受信部51は、通信端末3に対して、画面更新要求を送信する(ステップS115)。これにより、通信端末3の送受信部31は、テキスト情報管理装置5が送信した画面更新要求を受信する。このとき、画面更新要求には、第2のテキスト情報の一例としての再認識テキストに係る再認識テキスト情報、及び音声認識エンジン名を示す音声認識エンジン情報が含まれる。具体的には、送受信部51は、通信端末3が送信した音声情報に基づいて第1の辞書により認識された第1のテキスト情報を通信端末3に送信した後、第1のテキスト情報に対応する音声情報に基づいて第2の辞書により認識された第2のテキスト情報を、通信端末3に送信する。この場合、例えば、第1のテキスト情報は、上述した「最近503のリン商用が注目されています。」である。また、第1のテキスト情報に対応する音声情報は、例えば、「SAI-KIN GO REI SAN NO RIN SHOU YOU GA CHUU MOKU SARETE IMASU」という音声情報、若しくは「GO REI SAN」「RIN SHOU YOU」という音声情報である。更に、第2のテキスト情報は、例えば、後述する「最近五苓散の臨床応用が注目されています。」であり、再認識テキストは、例えば、「五苓散」、「臨床応用」である。
【0169】
続いて、通信端末3の表示制御部34は、音声認識結果画面(音声認識エンジン変更画面3161)を更新表示する(ステップS116)。具体的には、表示制御部34は、テキスト情報管理装置5が送信した再認識テキスト情報(第2のテキスト情報)を、利用者が発話した発話音声に対応付けて(特定のテキストごとに)ディスプレイ318に表示する。これにより、利用者は、「音声認識エンジン変更」ボタン3541-3544のうちのいずれかのボタン及び「音声認識エンジン選択」ダイアログ3171で選択した音声認識エンジン(辞書)によって再認識されたテキスト情報を音声再認識結果画面3181で確認することができる。
【0170】
●画面表示例●
図27は、通信端末における音声再認識結果画面の画面表示例である。通信端末3のディスプレイ318には、上述したステップS116の処理が実行されることにより、表示制御部34によって音声再認識結果画面3181が表示される。音声再認識結果画面3181では、
図23に示した「音声認識エンジン変更」ボタン3544に対する再認識結果が、対応するテキスト表示欄の近傍に表示される。この場合、「最近503のリン商用が注目されています。」という第1のテキスト情報に代えて、「最近五苓散の臨床応用が注目されています。」という第2のテキスト情報の一例が上述したテキスト表示欄に表示される。
【0171】
更に、音声再認識結果画面3181には、表示制御部34によって、利用者が発話した発話音声に対応付けられた特定のテキストを認識するための辞書情報を通知する音声認識エンジン表示欄3182が表示される。音声認識エンジン表示欄3182では、音声認識サーバ9によって利用された音声認識エンジン(辞書)の分野を示す「医療」が表示される。これにより、音声再認識結果画面3181を複数の利用者の間で共有するような利用環境においては、以下のような効果も期待できる。すなわち、「音声認識エンジン変更」ボタン3544を操作した利用者以外の他の利用者がこの音声再認識結果画面3181を見た場合でも、利用者が発話した特定の発話内容に対して、音声認識サーバが「医療」分野の音声認識エンジン(辞書)を用いて認識を行ったことを把握することが可能になる。
【0172】
〔第1の実施形態の主な効果〕
以上説明したように本実施形態によれば、テキスト情報管理システムは、通信端末3が送信した、利用者が発話した発話音声に係る音声情報を受信し(ステップS52)、受信された音声情報に基づいて音声認識サーバ7が第1の辞書により認識した第1のテキスト情報を通信端末3に送信する(ステップS59)。続いて、テキスト情報管理装置5は、第1のテキスト情報に対応する音声情報に基づいて音声認識サーバ9が第2の辞書により認識した第2のテキスト情報を通信端末3に送信する(ステップS115)。そして、通信端末3は、第2のテキスト情報を、利用者が発話した特定の発話ごとにディスプレイ318に表示する(ステップS116)。これにより、利用者が発話した発話音声の内容に応じて辞書を切り替えて音声認識を実行させるので、利用者が発話した発話音声に基づいて認識されるテキスト情報の認識精度を向上させることが可能になるという効果を奏する。
【0173】
更に、本実施形態によれば、通信端末3のディスプレイ318の音声認識エンジン表示欄に、再認識に使用された音声認識エンジン(辞書)の情報が表示されるので、利用者は、発話内容に対してどの音声認識エンジン(辞書)が使用されたかを、再認識されたテキスト情報(第2のテキスト情報の一例)とあわせて確認することができる。これにより、利用者は、以降、類似の発話内容を行った後、音声認識エンジンを変更する際に、音声認識エンジン表示欄に表示された音声認識エンジン(辞書)を参考に効率的な議事録の編集作業を行うことが可能になる。
【0174】
〔第2の実施形態〕
次に、
図28及び
図33を用いて、第2の実施形態について説明する。第2の実施形態に係る第1の実施形態との相違点は、音声認識サーバ7又は音声認識サーバ9が送信する情報を扱うデータテーブルに「確信度」が新たに設けられた点である。つまり、通信システム1を構成する各ハードウエア資源、各ハードウエア資源における機能構成は、第1の実施形態と同様とした上で、データテーブルの構造が一部変更されている。
【0175】
●テキスト情報管理テーブル●
図28Aは、第2の実施形態に係るテキスト情報管理テーブルの一例を示す概念図である。記憶部5000には、
図28Aに示されているようなテキスト情報管理テーブルによって構成されたテキスト情報管理DB5005Cが構築されている。テキスト情報管理DB5005Cでは、
図9Aに示されたテキスト情報管理DB5005Aを構成するテキスト情報管理テーブルに、「確信度」の項目が追加されている。この「確信度」は、音声認識サーバ7が送信した、特定の音声情報に対して第1の辞書識別情報に基づいて認識された特定のテキストに対する確からしさを示す割合([%])である。「確信度」は、更に、音声認識サーバ9が送信した、特定の音声情報に対して第2の辞書識別情報に基づいて認識された特定のテキストに対する確からしさを示す割合([%])である。テキスト情報管理DB5005Cでは、この「確信度」が、テキスト情報識別情報ごとに管理される。
【0176】
●テキスト情報管理テーブル●
図28Bは、第2の実施形態に係るテキスト情報管理テーブルの一例を示す概念図である。記憶部5000には、
図28Bに示されているようなテキスト情報管理テーブルによって構成されたテキスト情報管理DB5005Dが構築されている。テキスト情報管理DB5005Dでは、
図28Aで示したテキスト情報管理DB5005Cを構成するテキスト情報管理テーブルで管理されている「確信度」に加えて、音声認識サーバで認識された再認識結果を管理する再認識結果1、再認識結果2、・・・の項目が追加されている。再認識結果の項目は更に、テキスト、音声認識エンジン及び「確信度」の項目が管理されている。つまり、テキスト情報管理DB5005Dを構成するテキスト情報管理テーブルでは、音声認識サーバで2回目以降繰り返し認識された再認識結果がまとめて管理される。
【0177】
●テキスト情報管理テーブル●
図28Cは、第2の実施形態に係るテキスト情報管理テーブルの一例を示す概念図である。記憶部5000には、
図28Cに示されているようなテキスト情報管理テーブルによって構成されたテキスト情報管理DB5005Eが構築されている。テキスト情報管理DB5005Eでは、テキスト情報管理DB5005Dを構成するテキスト情報管理テーブルに登録された再認識結果が、テキスト情報管理DB5005Eを構成するテキスト情報管理テーブルの再認識結果の項目に登録、管理される。つまり、テキスト情報管理DB5005Eを構成するテキスト情報管理テーブルに登録、管理されるテキスト情報のうち、利用者が発話した発話音声に係る音声情報に対して、最新のテキスト情報が登録、管理される。
【0178】
<音声認識処理>
図29は、第2の実施形態に係る音声認識処理の一例を示すシーケンス図である。
図29に示されたシーケンス図は、
図16に示された音声認識処理におけるシーケンス図と基本的に同様である。但し、ステップS155に示した、音声認識サーバがテキスト情報管理装置5に対して送信する音声認識結果に「確信度」が新たに含まれている点で、
図16に示したステップS55の処理と相違する。これにより、テキスト情報管理装置5は、音声認識サーバ7が送信した「確信度」に基づいてテキスト情報の登録、テキストデータの取得等の処理を行う。
【0179】
<音声認識エンジン変更処理>
図30は、第2の実施形態に係る音声認識エンジンの変更処理の一例を示すシーケンス図である。
図30に示されたシーケンス図は、
図24に示された音声認識エンジン変更処理におけるシーケンス図と基本的に同様である。但し、ステップS204に示した、テキスト情報管理装置5が通信端末3に対して送信する音声認識エンジンリスト応答に「確信度」が新たに含まれている点で、
図24に示したステップS104の処理と相違する。これにより、通信端末3の表示制御部34は、利用者に対して音声認識エンジン(辞書)の変更を促すように、ディスプレイ318に「確信度」を含めた音声認識エンジンリストを表示する(ステップS205)。
【0180】
続いて、操作受付部32は、音声認識エンジン選択を受け付け(ステップS206)、以降のステップS207-S209までの処理は、
図24に示したステップS107-S109までの処理と同様の処理が行われる。
【0181】
●画面表示例●
図31は、第2の実施形態に係る通信端末における音声認識エンジン選択ダイアログの画面表示例である。通信端末3のディスプレイ318には、上述したステップS205の処理が実行されることにより、表示制御部34によって「音声認識エンジン選択」ダイアログ3201が表示される。「音声認識エンジン選択」ダイアログ3201には、ステップS204で受信された音声認識エンジンがリスト表示され、プルダウンキーもあわせて表示される。更に、OKボタン3601、キャンセルボタン3602が表示される。
図31に示した「音声認識エンジン選択」ダイアログ3201では、プルダウンキーで選択される音声認識エンジン(辞書)に対応させて「確信度」([%])が表示される。この「確信度」の値は、例えば、それぞれの音声認識エンジン(辞書)で認識された特定のテキスト情報に係る最新の「確信度」が与えられる。なお、
図31に示した「音声認識エンジン選択」ダイアログ3201では、利用者によるプルダウンキーの操作によって「IT」の音声認識エンジン(辞書)が選択されている状態が示されている。これは、特定のテキスト情報が「今回の開発はジャイロ方式を採用します。」という内容であり、このテキスト情報に対しては、「IT」分野の音声認識エンジン(辞書)が「確信度」の値が高いという利用者の判断に基づく一連の処理であってもよい。これにより利用者は、例えば、会議の議事録を編集する際に、対象となる音声情報に対しては「確信度」の高い音声認識エンジン(辞書)を選択すればよいため、議事録の編集の際の更なる効率化が期待できる。
【0182】
<音声認識エンジン変更処理>
図32は、第2の実施形態に係る音声認識エンジン変更後の音声認識処理の一例を示すシーケンス図である。
図32に示されたシーケンス図は、
図26に示された音声認識エンジン変更処理におけるシーケンス図と基本的に同様である。但し、ステップS214に示した、テキスト情報管理装置5が行う再認識結果の登録処理において「確信度」を用いた処理が行われる点で、
図26に示したステップS114の処理と相違する。そこで、ステップS214における再認識結果の登録処理については、以下のフローチャートで詳細に説明し、他のステップS211-S213,ステップS215,216の各処理の説明を省略する。
【0183】
<再認識結果の登録処理>
図33は、第2の実施形態に係る再認識結果の登録処理の一例を示すフローチャートである。このフローチャートでは、以下に示すステップS214-1からS214-8までの処理がループ処理される。テキスト情報管理装置5は、テキスト情報管理テーブルに登録された各テキストを対象に以下の処理を実行する(ステップS214-1)。
【0184】
まず、取得部52は、テキスト識別情報を検索キーとしてテキスト情報管理DB5005C(
図28A参照)を検索することにより、対応する「確信度」を取得する(ステップS214-2)。
【0185】
次に、判断部55は、取得した「確信度」に対して所定の閾値を超えたかを判断する(ステップS214-3)。このときの閾値は、例えば、80[%],90[%]などの割合で示される。さらに、判断部55は、所定の閾値を超えたかを判断する際、所定の閾値を超えたか否かを更に判断するようにしてもよい。閾値を超えたと判断された場合、テキスト情報管理装置5は、「確信度」を取得したテキストに対して特に処理を行わずに、次のテキストに対する処理に移行する。
【0186】
他方、閾値を超えていないと判断された場合、取得部52は、使用した音声認識エンジン以外の音声認識エンジンリストを取得する(ステップS214-4)。具体的には、取得部52は、例えば、
図31に示した「音声認識エンジン選択」ダイアログ3201に対して、利用者が新たに選択した音声認識エンジンに係る音声認識エンジン識別情報を検索キーとして音声認識エンジン管理DB5002(
図6参照)を検索することにより、対応する音声認識エンジン名及びURLのリストを取得する。
【0187】
続いて、送受信部51は、取得した各音声認識エンジンのURLに対して音声再認識要求を送信する(ステップS214-5)。
【0188】
続いて、取得部52は、認識結果のテキストと「確信度」を取得し、登録部58は、取得したテキストと「確信度」を、テキスト情報管理DB5005D(
図28B参照)に登録する(ステップS214-6)。
【0189】
続いて、記憶読出部59は、ステップS214-6で登録したテキストと「確信度」を、テキスト情報管理DB5005E(
図28C参照)に登録する(ステップS214-7)。なお、テキスト情報管理DB5005Dとテキスト情報管理DB5005Eは、一つのDBで管理されるように構築されてもよい。以上、ステップS214-7までの処理をテキストごとに繰り返し、テキスト情報管理装置5は、処理対象のテキストが無くなった時点でこのフローを抜ける(ステップS214-8)。
【0190】
〔第2の実施形態の主な効果〕
以上説明したように本実施形態によれば、テキスト情報管理システムは、「確信度」を利用して利用者に対して音声認識エンジン(辞書)の変更を促すように音声認識エンジンリストを表示する(ステップS205)。その後、利用者によって選択された音声認識エンジンに基づいて再度認識された再認識結果を通信端末3に表示する。これにより、第1の実施形態の効果に加えて、利用者が発話した発話音声に対する認識精度をより効率的に向上させることが可能になるという効果を奏する。
【0191】
〔実施形態の変形例〕
続いて、実施形態の変形例について説明する。なお、実施形態の変形例においても、第1の実施形態で説明した通信システムのシステム構成、通信システム1を構成する各ハードウエア資源、及び各ハードウエア資源における機能構成は、第1の実施形態と同様である。この前提において、実施形態の変形例では、第1の実施形態で説明した発話単位ではなく、利用者が発話した発話文中の任意の単語単位で再認識を行う。単語単位での再認識は、利用者が発話した発話単位を単語ごとに切り分け、切り分けた単語に対応する発話開始日時と終了日時を含む情報を、音声認識サーバから受信する。これにより、例えば、テキスト情報管理DB5005B(
図9B参照)で管理される「テキスト」は、「単語」に変わる。なお、発話単位を単語ごとに切り分ける手法としては、例えば、発話文中の単語ごとに単語発話の開始区間と終了区間を記録することで可能である。
【0192】
具体的には、例えば、
図16に示したステップS55の処理で、テキスト情報管理装置5の送受信部51は、音声認識サーバ7又は音声認識サーバ9が送信した音声認識の結果に含まれるテキストデータについて、一つの発話単位を複数の単語に切り分けて、その単語に対応する開始時間及び終了時間を含めて受信するようにしてもよい。
【0193】
〔実施形態の変形例の主な効果〕
以上説明したように本実施形態によれば、利用者が参加した会議等のイベントにおける議事録を作成する際に、単語ごとの認識結果が得られる。これにより、第1の実施形態の効果に加えて、利用者が発話した発話音声に対する認識精度をより効率的に向上させることが可能になるという効果を奏する。
【0194】
また、第2の実施形態で説明したように、単語単位での再認識は、利用者が発話した発話文中の単語ごとに確信度を持たせることでも可能である。上述した変形例で説明したように、テキスト情報管理装置5は、発話文中の単語ごとに切り分けた上で、第2の実施形態で説明した「確信度」を含む単語を音声認識サーバから受信する。そして、通信端末3は、テキスト情報管理装置5が受信した「確信度」を含む単語を表示する。このような方法により、上述した変形例と同様に音声認識の認識精度を向上させつつ、音声認識における効率化をさらに向上させることが期待できる。
【0195】
〔実施形態の補足〕
上述した実施形態の各機能は、一又は複数の処理回路によって実現することが可能である。ここで、本明細書における「処理回路」とは、電子回路により実装されるプロセッサのようにソフトウエアによって各機能を実行するようプログラミングされたデバイスを含むものとする。このデバイスとは、例えば、プロセッサ、上記で説明した各機能を実行するよう設計されたASIC(Application Specific Integrated Circuit)、DSP(digital signal processor)、FPGA(field programmable gate array)、SOC(System on a chip)、GPU(Graphics Processing Unit)、及び従来の回路モジュール等をいう。
【0196】
更に、上述した実施形態により得られる各種テキスト及びテキスト情報は、人工知能(AI)を利用した機械学習の学習効果によって取得されたものでもよい。この場合、音声認識サーバが機械学習を用いて音声情報から各種テキスト及びテキスト情報を取得してもよいし、音声認識サーバと異なるデータベース等が機械学習を用いて音声情報から各種テキスト及びテキスト情報を取得してもよい。ここで、機械学習とは、コンピュータに人のような学習能力を獲得させるための技術であり、コンピュータが、データ識別等の判断に必要なアルゴリズムを事前に取り込まれる学習データから自律的に作成、新たなデータについてこれを適用して予測を行う技術のことをいう。機械学習のための学習方法は、教師あり学習、教師なし学習、半教師学習、強化学習、深層学習のいずれかの方法でもよい、更に、機械学習のための学習方法は、これらの学習方法を組み合わせた学習方法でもよく、機械学習のための学習方法は問わない。
【0197】
これまで本発明の一実施形態に係るテキスト情報管理システム、テキスト情報管理装置、テキスト情報管理方法及びプログラムについて説明してきたが、本発明は、上述した実施形態に限定されるものではなく、他の実施形態の追加、変更又は削除等、当業者が想到することができる範囲内で変更することができ、いずれの態様においても本発明の作用・効果を奏する限り、本発明の範囲に含まれるものである。
【符号の説明】
【0198】
1 通信システム
2 テキスト情報管理システム
3 通信端末
5 テキスト情報管理装置
7 音声認識サーバ(第1のクラウドサービス)
9 音声認識サーバ(第2のクラウドサービス)
31 送受信部(受信手段の一例、送信手段の一例)
32 受付部(受付手段の一例)
33 音・画像取得部(取得手段の一例)
34 表示制御部(表示制御手段の一例)
36 再生部(再生手段の一例)
38 アプリ起動部(起動手段の一例)
51 送受信部(受信手段の一例、送信手段の一例)
52 取得部(取得手段の一例)
53 算出部(算出手段の一例)
54 表示制御部(表示制御手段の一例)
55 判断部(判断手段の一例)
56 認証部(認証手段の一例)
57 生成部(補正手段の一例、生成手段の一例)
58 登録部(登録手段の一例)
59 記憶読出部(記憶読出手段の一例)
3112 音声認識エンジン表示欄(音声認識エンジン表示部の一例)
3113 音声認識エンジン選択欄(音声認識エンジン選択部の一例)
3122 音声認識エンジン表示欄(音声認識エンジン表示部の一例)
3132 音声認識エンジン表示欄(音声認識エンジン表示部の一例)
3162 音声認識エンジン表示欄(音声認識エンジン表示部の一例)
3182 音声認識エンジン表示欄(音声認識エンジン表示部の一例)
3541-3544 「音声認識エンジン変更」ボタン(辞書変更操作部の一例)
3171 「音声認識エンジン選択」ダイアログ(辞書選択部の一例)
3201 「音声認識エンジン選択」ダイアログ(辞書選択部の一例)
【先行技術文献】
【特許文献】
【0199】