特開2023-16217 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社リコーの特許一覧

特開2023-16217テキスト情報管理システム、テキスト情報管理装置、テキスト情報管理方法及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9A
9B
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28A
28B
28C
29
30
31
32
33

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023016217

(43)【公開日】2023-02-02

(54)【発明の名称】テキスト情報管理システム、テキスト情報管理装置、テキスト情報管理方法及びプログラム

(51)【国際特許分類】

G10L 15/32 20130101AFI20230126BHJP

G10L 15/30 20130101ALI20230126BHJP

【ＦＩ】

G10L15/32 220Z

G10L15/30

【審査請求】未請求

【請求項の数】13

【出願形態】ＯＬ

(21)【出願番号】P 2021120392

(22)【出願日】2021-07-21

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＢＬＵ―ＲＡＹＤＩＳＣ

(71)【出願人】

【識別番号】000006747

【氏名又は名称】株式会社リコー

(72)【発明者】

【氏名】柳浦豊

(57)【要約】（修正有）

【課題】利用者が発話した発話音声に基づいて認識されるテキスト情報の認識精度を向上させるテキスト情報管理システム、テキスト情報管理装置、テキスト情報管理方法及びプログラムを提供する。
【解決手段】テキスト情報管理システムは、通信端末３が送信した、利用者が発話した発話音声に係る音声情報を受信し、受信した音声情報に基づいて、音声認識サーバ７が第１の辞書により認識した第１のテキスト情報を通信端末３に送信する。続いて、テキスト情報管理装置５は、第１のテキスト情報に対応する音声情報に基づいて音声認識サーバ９が第２の辞書により認識した第２のテキスト情報を通信端末３に送信する。そして、通信端末３は、第２のテキスト情報を、利用者が発話した特定の発話毎にディスプレイに表示する。
【選択図】図１

【特許請求の範囲】

【請求項1】

音声情報に基づいて得られたテキスト情報を管理するテキスト情報管理装置と、前記テキスト情報管理装置と通信することで前記テキスト情報を表示可能な一以上の通信端末と、を含むテキスト情報管理システムであって、
前記テキスト情報管理装置は、
前記一以上の通信端末のそれぞれを利用する一以上の利用者が発話した発話音声に係る音声情報を受信する受信手段と、
前記音声情報に基づいて第１の辞書により認識された第１のテキスト情報を前記通信端末に送信した後、前記第１のテキスト情報に対応する音声情報に基づいて第２の辞書により認識された第２のテキスト情報を、前記通信端末に送信する送信手段と、
を有し、
前記一以上の通信端末は、
前記テキスト情報管理装置が送信した前記第２のテキスト情報を、前記一以上の利用者が発話した発話音声に対応付けて表示手段に表示する表示制御手段、
を有する、
ことを特徴とするテキスト情報管理システム。

【請求項2】

前記送信手段は、
前記第１の辞書を識別する第１の辞書識別情報及び前記第２の辞書を識別する第２の辞書識別情報を、前記音声情報に基づいて所定のテキスト情報を認識する音声認識サーバに対して送信し、
前記受信手段は、
前記音声認識サーバが送信した、前記第１の辞書識別情報に基づいて認識された前記第１のテキスト情報、及び前記第２の辞書識別情報に基づいて認識された前記第２のテキスト情報を受信し、
前記送信手段は、
前記受信手段によって受信された前記第１のテキスト情報、及び前記第２のテキスト情報を前記通信端末に送信する、
ことを特徴とする請求項1に記載のテキスト情報管理システム。

【請求項3】

前記通信端末は、更に、
前記第１のテキスト情報ごとに設けられた前記第２の辞書を選択するための一以上の辞書変更操作部を有し、
前記表示制御手段は、
前記一以上の辞書変更操作部のうち特定の辞書変更操作部が操作された場合に、前記第２のテキスト情報として認識するための複数の辞書を含む辞書選択部を前記特定の辞書変更操作部に対応付けて前記表示手段に表示する、
ことを特徴とする請求項１又は２に記載のテキスト情報管理システム。

【請求項4】

前記表示制御手段は、
前記辞書選択部に含まれる前記複数の辞書のうち特定の辞書が選択された場合に、前記第１のテキスト情報に代えて、前記特定の辞書変更操作部に関連付けられた前記第２のテキスト情報を前記表示手段に表示する、
ことを特徴とする請求項３に記載のテキスト情報管理システム。

【請求項5】

前記辞書には、汎用分野、医療分野、及びＩＴ（Information Technology）分野を含む複数の分野にそれぞれ関連付けられた複数のテキストが含まれる、
ことを特徴とする請求項１乃至４のいずれか一項に記載のテキスト情報管理システム。

【請求項6】

請求項３又は４に記載のテキスト情報管理システムであって、
前記テキスト情報管理装置は、更に、
前記通信端末が送信した、前記辞書選択部において選択された前記特定の辞書を示す特定辞書情報と、前記音声認識サーバが送信した前記特定辞書情報に基づいて認識された前記第２のテキスト情報と、を対応付けて登録する登録手段を有し、
前記送信手段は、前記特定辞書情報と対応付けて登録された前記第２のテキスト情報を前記通信端末に送信する、
ことを特徴とするテキスト情報管理システム。

【請求項7】

前記受信手段は、
前記音声認識サーバが送信した、前記第１の辞書識別情報に基づいて認識された前記第１のテキスト情報に含まれる特定のテキストと、前記音声情報に対して認識された前記特定のテキストに対する確からしさを示す確信度と、を含む情報を受信し、
前記表示制御手段は、
前記辞書選択部に含まれる前記複数の辞書のそれぞれに与えられた前記確信度を、前記複数の辞書のそれぞれに対応させて前記辞書選択部に表示する、
ことを特徴とする請求項３乃至６のいずれか一項に記載のテキスト情報管理システム。

【請求項8】

前記送信手段は、
前記特定のテキストに対する前記確信度が所定の閾値未満である場合に、前記利用者の操作に応じて得られた前記第２のテキスト情報を認識するための要求を、前記第２の辞書を管理する音声認識サーバに送信し、
前記受信手段は、
前記第２の辞書を管理する音声認識サーバが送信した前記第２のテキスト情報を受信し、
前記表示制御手段は、
前記第１のテキスト情報に代えて、前記第２のテキスト情報を前記表示手段に表示する、
ことを特徴とする請求項７に記載のテキスト情報管理システム。

【請求項9】

前記表示制御手段は、
前記発話音声ごとに前記特定のテキストを認識するための辞書情報を、前記表示手段に表示する、
ことを特徴とする請求項１乃至８のいずれか一項に記載のテキスト情報管理システム。

【請求項10】

前記第１のテキスト情報及び前記第２のテキスト情報は、所定のイベントの議事録、及び前記所定のイベントに参加する利用者が発話した発話音声記録を構成するテキスト情報である、
ことを特徴とする請求項１乃至９のいずれか一項に記載のテキスト情報管理システム。

【請求項11】

音声情報に基づいて得られたテキスト情報を管理するテキスト情報管理装置であって、
前記テキスト情報管理装置と通信することで前記テキスト情報を表示可能な一以上の通信端末のそれぞれを利用する一以上の利用者が発話した発話音声に係る音声情報を受信する受信手段と、
前記音声情報に基づいて第１の辞書により認識された第１のテキスト情報を前記通信端末に送信した後、前記第１のテキスト情報に対応する音声情報に基づいて第２の辞書により認識された第２のテキスト情報を、前記通信端末に送信する送信手段と、
を有する、
ことを特徴とするテキスト情報管理装置。

【請求項12】

音声情報に基づいて得られたテキスト情報を管理するテキスト情報管理装置が実行するテキスト情報管理方法であって、
前記テキスト情報管理装置と通信することで前記テキスト情報を表示可能な一以上の通信端末のそれぞれを利用する一以上の利用者が発話した発話音声に係る音声情報を受信する受信ステップと、
前記音声情報に基づいて第１の辞書により認識された第１のテキスト情報を前記通信端末に送信した後、前記第１のテキスト情報に対応する音声情報に基づいて第２の辞書により認識された第２のテキスト情報を、前記通信端末に送信する送信ステップと、
を含む処理を実行する、
ことを特徴とするテキスト情報管理方法。

【請求項13】

音声情報に基づいて得られたテキスト情報を管理するテキスト情報管理装置に、
前記テキスト情報管理装置と通信することで前記テキスト情報を表示可能な一以上の通信端末のそれぞれを利用する一以上の利用者が発話した発話音声に係る音声情報を受信する受信ステップと、
前記音声情報に基づいて第１の辞書により認識された第１のテキスト情報を前記通信端末に送信した後、前記第１のテキスト情報に対応する音声情報に基づいて第２の辞書により認識された第２のテキスト情報を、前記通信端末に送信する送信ステップと、
を含む処理を実行させるプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、テキスト情報管理システム、テキスト情報管理装置、テキスト情報管理方法及びプログラムに関する。

【背景技術】

【0002】

従来から、音声情報をテキスト情報に変換する技術が知られている。例えば、音声認識結果の候補群となる複数のテキストを記述した辞書を参照し、音声に対応したテキストを確定させる手法が知られている。

【0003】

例えば、音声情報を文字化する際に文字化できない単語に対して辞書を検索し、辞書に登録されていない場合にイントラネットまたはインターネットでその単語を検索することを繰り返すことによって議事録を作成することで、音声認識をより精度よく行う技術が知られている（例えば、特許文献１参照）。

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、従来の技術では、利用者が発話した発話音声の内容に応じて辞書を切り替えるという発想がないため、発話音声の内容に基づいて認識されるテキスト情報の認識精度が低くなってしまうという課題があった。

【課題を解決するための手段】

【0005】

上述した課題を解決するために、請求項１に係る発明は、音声情報に基づいて得られたテキスト情報を管理するテキスト情報管理装置と、前記テキスト情報管理装置と通信することで前記テキスト情報を表示可能な一以上の通信端末と、を含むテキスト情報管理システムであって、前記テキスト情報管理装置は、前記一以上の通信端末のそれぞれを利用する一以上の利用者が発話した発話音声に係る音声情報を受信する受信手段と、前記音声情報に基づいて第１の辞書により認識された第１のテキスト情報を前記通信端末に送信した後、前記第１のテキスト情報に対応する音声情報に基づいて第２の辞書により認識された第２のテキスト情報を、前記通信端末に送信する送信手段と、を有し、前記一以上の通信端末は、前記テキスト情報管理装置が送信した前記第２のテキスト情報を、前記一以上の利用者が発話した発話音声に対応付けて表示手段に表示する表示制御手段、を有する、ことを特徴とするテキスト情報管理システムを提供する。

【発明の効果】

【0006】

以上説明したように本発明によれば、利用者が発話した発話音声の内容に応じて辞書を切り替えて音声認識を実行させるので、利用者が発話した発話音声に基づいて認識されるテキスト情報の認識精度を向上させることが可能になるという効果を奏する。

【図面の簡単な説明】

【0007】

【図1】通信システムの全体構成の一例を示す図である。

【図2】通信端末及び音声認識サーバのハードウエア構成の一例を示す図である。

【図3】テキスト情報管理装置のハードウエア構成の一例を示す図である。

【図4】通信システムの機能構成の一例を示す図である。

【図5】ログイン管理テーブルの一例を示す概念図である。

【図6】音声認識エンジン管理テーブルの一例を示す概念図である。

【図7】記録書誌情報管理テーブルの一例を示す概念図である。

【図8】キャプチャ情報管理テーブルの一例を示す概念図である。

【図9A】テキスト情報管理テーブルの一例を示す概念図である。

【図9B】テキスト情報管理テーブルの一例を示す概念図である。

【図10】アプリ起動、認証処理及びセッション確立処理の一例を示すシーケンス図である。

【図11】通信端末におけるアプリ起動時の画面表示例である。

【図12】記録開始処理の一例を示すシーケンス図である。

【図13】通信端末における記録開始指示の画面表示例である。

【図14】通信端末における記録終了指示の画面表示例である。

【図15】記録書誌情報の登録処理の一例を示すシーケンス図である。

【図16】音声認識処理の一例を示すシーケンス図である。

【図17】画面キャプチャ処理の一例を示すシーケンス図である。

【図18】通信端末における記録中の画面表示例である。

【図19】記録終了処理の一例を示すシーケンス図である。

【図20】通信端末における記録終了時の画面表示例である。

【図21】音声認識エンジン変更開始処理の一例を示すシーケンス図である。

【図22】通信端末における記録選択時の画面表示例である。

【図23】通信端末における音声認識エンジン変更画面の画面表示例である。

【図24】音声認識エンジンの変更処理の一例を示すシーケンス図である。

【図25】通信端末における音声認識エンジン選択ダイアログの画面表示例である。

【図26】音声認識エンジン変更後の音声認識処理の一例を示すシーケンス図である。

【図27】通信端末における音声再認識結果画面の画面表示例である。

【図28A】第２の実施形態に係るテキスト情報管理テーブルの一例を示す概念図である。

【図28B】第２の実施形態に係るテキスト情報管理テーブルの一例を示す概念図である。

【図28C】第２の実施形態に係るテキスト情報管理テーブルの一例を示す概念図である。

【図29】第２の実施形態に係る音声認識処理の一例を示すシーケンス図である。

【図30】第２の実施形態に係る音声認識エンジンの変更処理の一例を示すシーケンス図である。

【図31】第２の実施形態に係る通信端末における音声認識エンジン選択ダイアログの画面表示例である。

【図32】第２の実施形態に係る音声認識エンジン変更後の音声認識処理の一例を示すシーケンス図である。

【図33】第２の実施形態に係る再認識結果の登録処理の一例を示すフローチャートである。

【発明を実施するための形態】

【0008】

以下、図面を用いて、発明を実施するための形態について説明する。なお、図面の説明において同一要素には同一符号を付し、重複する部分があればその説明を省略する。

【0009】

〔第１の実施形態〕
図１乃至図２７を用いて、第１の実施形態について説明する。

【0010】

〔通信システムの全体構成〕
＜システム構成例＞
図１は、通信システムの全体構成の一例を示す図である。図１に示されているように、通信システム１は、一以上の通信端末３、テキスト情報管理装置５、音声認識サーバ７及び音声認識サーバ９を含む各装置を有している。通信端末３、テキスト情報管理装置５、音声認識サーバ７及び音声認識サーバ９は、通信ネットワーク１００を介してそれぞれ互いに接続されている。ここで、通信ネットワーク１００は、不特定多数の通信が行われる通信ネットワークであり、インターネット、イントラネット、ＬＡＮ(Local Area Network)等によって構築されている。なお、通信ネットワーク１００には、有線通信だけでなく、３Ｇ(3rd Generation)、４Ｇ(4th Generation)、５Ｇ(5th Generation)、ＷｉＭＡＸ(Worldwide Interoperability for Microwave Access)、ＬＴＥ(Long Term Evolution)等の無線通信による通信ネットワークが含まれてもよい。更に、通信システム１は、通信端末３及びテキスト情報管理装置５によって構築されたテキスト情報管理システム２を含んでいる。また、通信端末３とテキスト情報管理装置５は、専用の社内ネットワーク等で互いに接続されていてもよいし、通信ネットワーク１００の内側に、ファイアウォール(Fire Wall)を介して互いに接続されていてもよい。

【0011】

＜通信端末＞
通信端末３は、一般的なＯＳなどが搭載された通信を行うための一以上の情報処理装置（コンピュータシステム）によって実現される。通信端末３は、通信ネットワーク１００を介して、テキスト情報管理装置５と通信が可能である。図１に示されているように、通信端末３は、通信端末３（Ａ）、通信端末３（Ｂ）、通信端末３（Ｃ）を含む一以上の通信端末で構成されている。

【0012】

通信端末３（Ａ）は、例えば、テキスト情報管理装置５と通信するためのブラウザアプリ及びテキスト情報管理装置５が送信したテキスト情報に基づいて議事録等を作成するための記録管理アプリをそれぞれインストールしている。更に、通信端末３（Ａ）は、通信端末３（Ｂ）との間で、リモートワーク、テレビ会議、インスタントメッセージング、グループチャットなどを行うための汎用ツール（ここでは「会話ツール」と呼ぶ）を利用して会話等の所定のイベントに参加し、議事録を作成可能な通信端末である。このように、通信端末３（Ａ）は、例えば、議事録作成端末として機能する。

【0013】

通信端末３（Ｂ）は、通信端末３（Ａ）と上述した汎用ツールを利用し、所定のイベントに参加している通信端末３（Ａ）を使用する利用者(例えば、利用者Ａ)とともに所定のイベントに参加する。このように、通信端末３（Ｂ）は、例えば、イベント参加端末として機能する。

【0014】

通信端末３（Ａ）及び通信端末３（Ｂ）は、上述したような汎用ツールを利用して所定のイベントにおいて発話することにより、互いの発話音声を聞くことができる。そのため、議事録作成端末としての通信端末３（Ａ）は、通信端末３（Ａ）を利用する利用者Ａの発話音声のみならず、通信端末３（Ａ）と通信を行っているイベント参加端末としての通信端末３（Ｂ）を利用する利用者（例えば、利用者Ｂ）の発話音声も取得することができる。

【0015】

通信端末３（Ｃ）は、通信端末３（Ａ）及び通信端末３（Ｂ）が参加した所定のイベントに基づいて作成された議事録を閲覧する端末である。この場合、通信端末３（Ｃ）は、記録管理アプリをインストールしていなくても、ブラウザ経由で所定のイベントの議事録を閲覧することが可能である。このように、通信端末３（Ｃ）は、例えば、議事録閲覧端末として機能する。

【0016】

本実施形態において、特に指定がなければ単に「通信端末３」と記す。なお、通信端末３は、一般的に使用されるＰＣ(Personal Computer)、携帯型ノートＰＣ、携帯電話、スマートフォン、タブレット端末、ウェアラブル端末（サングラス型、腕時計型等）の通信機能を有する通信端末であってもよい。通信端末３は、更に、ブラウザソフトウエア等のソフトウエアを動作させることが可能な通信装置又は通信端末が用いられてもよい。

【0017】

＜テキスト情報管理装置＞
テキスト情報管理装置５は、一般的なサーバＯＳなどが搭載された一以上の情報処理装置（コンピュータシステム）によって実現される。テキスト情報管理装置５は、専用のアプリケーションプログラムを実行し、通信ネットワーク１００を介して通信端末３が送信した音声情報に基づいて得られたテキスト情報を管理するクラウドサーバの機能を有する。なお、テキスト情報管理装置５は、テキスト情報として、イベントの一例としての会議の議事録に限らず、個人、グループの任意の活動に対する音声メモ、オペレータの電話応対時の音声記録、工場等の特定の場所における音声作業記録等に基づいた各種テキスト情報を管理してもよい。

【0018】

テキスト情報管理装置５は、更に、通信端末３を利用する利用者を利用者識別情報で管理する。本実施形態に係る通信システムでは、利用者は利用者識別情報を用いてテキスト情報管理装置５にログインすることが可能である。このため、利用者識別情報は、テキスト情報管理装置５が利用者を一意に特定する機能を有している。なお、利用者識別情報には、電子メール、ＩＤ、電話番号など、利用者を一意に識別することが可能な情報が含まれる。

【0019】

テキスト情報管理装置５は、単一のコンピュータによって構築されてもよいし、ストレージ等の各部（機能又は手段）を分割して任意に割り当てられた複数のコンピュータによって構築されてもよい。また、テキスト情報管理装置５の機能の全てまたは一部は、クラウド環境に存在するサーバコンピュータであってもよいし、オンプレミス環境に存在するサーバコンピュータであってもよい。

【0020】

＜音声認識サーバ＞
音声認識サーバ７及び音声認識サーバ９（以下、特に指定のない場合は単に「音声認識サーバ」と記載する）は、一般的なサーバＯＳなどが搭載された一以上の情報処理装置（コンピュータシステム）によって実現される。音声認識サーバは、テキスト情報管理装置５が送信した音声情報(データ)を受信すると、音声認識エンジンを起動して音声情報(データ)をテキストデータに変換し、変換したテキストデータをテキスト情報管理装置５に返信(送信)する機能を有する。つまり本実施形態に係る通信システムでは、音声認識サーバが、音声情報に基づいてテキスト情報に変換するクラウドサービス機能を有している。このとき、音声認識サーバ７が第１のクラウドサービス、音声認識サーバ９が第２のクラウドサービスとして機能する。

【0021】

具体的には、音声認識サーバは、音声認識を可能とする他社サービスを利用するようにしてもよく、例えば、汎用の音声認識エンジンサービスで提供されてよい。本実施形態における音声認識エンジンサーバは、例えば、以下のような機能を提供する。まず、音声認識エンジンサーバは、利用者が発話した発話音声が何であるかのテキスト情報の候補を特定する。この場合、特定されるテキスト情報の候補は少なくとも一以上存在する。そして、音声認識サーバは、自身の持つ辞書を用いてテキスト情報の候補に一致する辞書情報を検索する。続いて、音声認識サーバは、検索した辞書情報を文字情報に変換して（例えば、ひらがなからカタカナに変換して）テキストとして出力する。一例を示すと、利用者の発話によって、音声認識サーバは、「はじゃいろ」と「はあじゃいる」というテキスト情報の候補を特定したとする。この場合、音声認識サーバは、「じゃいろ」というテキスト情報に一致する辞書情報を持っていたとすると、特定したテキスト情報の候補のうち、「はじゃいろ」を選択する。続いて、音声認識サーバは、選択した「はじゃいろ」というテキスト情報に含まれる「ジャイロ」という単語を出力する。本実施形態において、音声認識エンジン(辞書)には、汎用分野、医療分野、及びＩＴ（Information Technology）分野を含む複数の分野にそれぞれ関連付けられた複数のテキスト(テキスト情報)が含まれる。

【0022】

●用語について●
本実施形態において利用者とは、以下に該当する者をいう。例えば、利用者には、所定のイベントで発話する参加者、人間が話す言語を生成可能なＡＩを搭載した機械、人型ロボット等が含まれる。本実施形態では、説明の便宜上、利用者という用語を使用する。

【0023】

更に、本実施形態においてイベントとは、各種行事、催し物などをいう。例えば、イベントには、会議、打合せ、講義、講演、レクチャー、競技大会などが含まれる。

【0024】

更に、本実施形態においてテキストとは、利用者が発話した発話音声に係る音声情報を、所定の辞書等によって認識された結果に基づいて、視認可能な文字、数字等に変換された情報をいう。同様に、本実施形態においてテキスト情報とは、例えば、テキストを含む一文を指す。更に、テキスト情報は、テキスト情報を含む一文を複数有する文章を指すこともある。

【0025】

〔ハードウエア構成〕
続いて、図２及び図３を用いて、実施形態に係る通信システムを構成する装置又は端末のハードウエア構成について説明する。なお、図２及び図３に示されている装置又は端末のハードウエア構成は、必要に応じて構成要素が追加又は削除されてもよい。

【0026】

＜通信端末、音声認識サーバのハードウエア構成＞
図２は、通信端末及び音声認識サーバのハードウエア構成の一例を示す図である。図２に示されているように、通信端末３は、例えばコンピュータによって構築されている。通信端末３は、ＣＰＵ３０１、ＲＯＭ３０２、ＲＡＭ３０３、ＥＥＰＲＯＭ３０４、ＣＭＯＳ(Complementary Metal Oxide Semiconductor)センサ３０５、撮像素子Ｉ／Ｆ(Inter face)３０６、メディアＩ／Ｆ３０９、バスライン３１０、ネットワークＩ／Ｆ３１２、ネットワークＩ／Ｆ３１２のアンテナ３１２ａ、ＣＭＯＳセンサ３１３、撮像素子Ｉ／Ｆ３１４、マイク３１５、スピーカ３１６、音入出力Ｉ／Ｆ３１７、ディスプレイ３１８、外部機器接続Ｉ／Ｆ３１９、近距離通信回路３２０、近距離通信回路３２０のアンテナ３２０ａ及びタッチパネル３２１を備えている。

【0027】

これらのうち、ＣＰＵ３０１は、通信端末３の全体の動作を制御する。ＲＯＭ３０２は、ＣＰＵ３０１の処理に用いられるプログラムを記憶する。ＲＡＭ３０３は、ＣＰＵ３０１のワークエリアとして使用される。ＥＥＰＲＯＭ３０４は、ＣＰＵ３０１の制御にしたがって、アプリ等の各種データの読出し又は書込みを行う。ＣＭＯＳセンサ３０５(３１３)は、ＣＰＵ３０１の制御にしたがって被写体を撮像して画像データ又は動画データを得る内蔵型の撮像手段の一種である。なお、撮像手段は、ＣＭＯＳセンサではなく、ＣＣＤ(Charge Coupled Device)センサ等で構成される撮像手段であってもよい。撮像素子Ｉ／Ｆ３０６(３１４)は、ＣＭＯＳセンサ３０５(３１３)の駆動を制御する回路である。メディアＩ／Ｆ３０９は、フラッシュメモリ等の記録メディア３０８に対するデータの読出し又は書込み(記憶)を制御する。バスライン３１０は、ＣＰＵ３０１等の各構成要素を電気的に接続するためのアドレスバスやデータバス等である。

【0028】

ネットワークＩ／Ｆ３１２は、通信ネットワーク１００を介して他の機器と各種データ(情報)通信するための通信インターフェイスである。このとき、ネットワークＩ／Ｆ３１２は、ネットワークＩ／Ｆ３１２のアンテナ３１２ａを使って通信を行ってもよい。マイク３１５は、音を電気信号に変える内蔵型の回路であり、外部のスピーカ等から発する音声や音波を取得し電気信号を用いた情報を取得する。スピーカ３１６は、電気信号を物理振動に変えて音楽や音声などの音を生み出す内蔵型の回路である。音入出力Ｉ／Ｆ３１７は、ＣＰＵ３０１の制御にしたがってマイク３１５及びスピーカ３１６との間で音信号の入出力を処理する回路である。ディスプレイ３１８は、被写体の画像や文字、各種アイコン等を表示する液晶や有機ＥＬ(Electro Luminescence)などの表示手段の一種である。外部機器接続Ｉ／Ｆ３１９は、各種の外部機器を接続するためのインターフェイスである。この場合の外部機器は、例えば、ＵＳＢ(Universal Serial Bus)メモリ等である。近距離通信回路３２０は、ＮＦＣ(Near Field Communication)、Ｂｌｕｅｔｏｏｔｈ（登録商標。以下省略）、ミリ波無線通信、Ｗｉ－Ｆｉ(登録商標。以下省略)、ＱＲコード（登録商標。以下省略）、可視光、環境音又は超音波等の無線通信インターフェイスを備える通信装置又は通信端末等と近距離無線通信を行うための通信回路である。また、近距離通信回路３２０には近距離通信回路３２０のアンテナ３２０ａが備わっている。タッチパネル３２１は、利用者がディスプレイ３１８上に配置された所定のボタン、アイコン等に対して押下、クリック又はタップ等の操作をすることで、通信端末３を操作する入力手段の一種である。

【0029】

なお、通信端末３は、ブラウザソフトウエア等のプログラムを動作させることが可能な通信装置又は通信端末が用いられてもよい。

【0030】

音声認識サーバ７は、ＣＰＵ７０１、ＲＯＭ７０２、ＲＡＭ７０３、ＥＥＰＲＯＭ７０４、ＣＭＯＳ(Complementary Metal Oxide Semiconductor)センサ７０５、撮像素子Ｉ／Ｆ７０６、メディアＩ／Ｆ７０９、バスライン７１０、ネットワークＩ／Ｆ７１２、ネットワークＩ／Ｆ７１２のアンテナ７１２ａ、ＣＭＯＳセンサ７１３、撮像素子Ｉ／Ｆ７１４、マイク７１５、スピーカ７１６、音入出力Ｉ／Ｆ７１７、ディスプレイ７１８、外部機器接続Ｉ／Ｆ７１９、近距離通信回路７２０、近距離通信回路７２０のアンテナ７２０ａ及びタッチパネル７２１を備えている。これらのハードウエア資源は、通信端末３のＣＰＵ３０１、ＲＯＭ３０２、ＲＡＭ３０３、ＥＥＰＲＯＭ３０４、ＣＭＯＳ(Complementary Metal Oxide Semiconductor)センサ３０５、撮像素子Ｉ／Ｆ３０６、メディアＩ／Ｆ３０９、バスライン３１０、ネットワークＩ／Ｆ３１２、ネットワークＩ／Ｆ３１２のアンテナ３１２ａ、ＣＭＯＳセンサ３１３、撮像素子Ｉ／Ｆ３１４、マイク３１５、スピーカ３１６、音入出力Ｉ／Ｆ３１７、ディスプレイ３１８、外部機器接続Ｉ／Ｆ３１９、近距離通信回路３２０、近距離通信回路３２０のアンテナ３２０ａ及びタッチパネル３２１の各ハードウエア資源と同様であるため、説明を省略する。

【0031】

音声認識サーバ９は、上述した音声認識サーバ７と同様のハードウエア構成を備え、９００番台の符号で示されている。

【0032】

＜テキスト情報管理装置のハードウエア構成＞
図３は、テキスト情報管理装置のハードウエア構成の一例を示す図である。図３に示されているように、テキスト情報管理装置５は、例えばコンピュータによって構築されており、ＣＰＵ５０１、ＲＯＭ５０２、ＲＡＭ５０３、ＥＥＰＲＯＭ５０４、ＨＤ５０５、ＨＤＤ(Hard Disk Drive)コントローラ５０６、ディスプレイ５０７、近距離通信Ｉ／Ｆ５０８、ＣＭＯＳセンサ５０９、撮像素子Ｉ／Ｆ５１０、ネットワークＩ／Ｆ５１１、キーボード５１２、ポインティングデバイス５１３、メディアＩ／Ｆ５１５、外部機器接続Ｉ／Ｆ５１６、音入出力Ｉ／Ｆ５１７、マイク５１８、スピーカ５１９及びバスライン５２０を備えている。

【0033】

これらのうち、ＣＰＵ５０１は、テキスト情報管理装置５全体の動作を制御する。ＲＯＭ５０２は、ＣＰＵ５０１の駆動に用いられるプログラムを記憶する。ＲＡＭ５０３は、ＣＰＵ５０１のワークエリアとして使用される。ＥＥＰＲＯＭ５０４は、ＣＰＵ５０１の制御にしたがって、アプリ等の各種データの読出し又は書込みを行う。ＨＤ５０５は、プログラム等の各種データを記憶する。ＨＤＤコントローラ５０６は、ＣＰＵ５０１の制御にしたがってＨＤ５０５に対する各種データの読出し又は書込みを制御する。ディスプレイ５０７は、カーソル、メニュー、ウィンドウ、文字又は画像などの各種情報を表示する。近距離通信Ｉ／Ｆ５０８は、ＮＦＣ(Near Field Communication)、Ｂｌｕｅｔｏｏｔｈ（登録商標。以下省略）、Ｗｉ－Ｆｉ(登録商標。以下省略)等の無線通信インターフェイスを備える通信装置、又は通信端末等とデータ通信を行うための通信回路である。ＣＭＯＳセンサ５０９は、ＣＰＵ５０１の制御にしたがって被写体を撮像して画像データ又は動画データを得る内蔵型の撮像手段の一種である。なお、撮像手段は、ＣＭＯＳセンサではなく、ＣＣＤ(Charge Coupled Device)センサ等で構成される撮像手段であってもよい。撮像素子Ｉ／Ｆ５１０は、ＣＭＯＳセンサ５０９の駆動を制御する回路である。

【0034】

ネットワークＩ／Ｆ５１１は、通信ネットワーク１００を利用してデータ通信をするためのインターフェイスである。キーボード５１２は、文字、数値、各種指示などの入力のための複数のキーを備えた入力手段の一種である。ポインティングデバイス５１３は、各種指示の選択や実行、処理対象の選択、カーソルの移動などを行う入力手段の一種である。メディアＩ／Ｆ５１５は、フラッシュメモリ等の記録メディア５１４に対するデータの読出し又は書込み(記憶)を制御する。外部機器接続Ｉ／Ｆ５１６は、各種の外部機器を接続するためのインターフェイスである。この場合の外部機器は、例えば、ＵＳＢ(Universal Serial Bus)メモリ等である。音入出力Ｉ／Ｆ５１７は、ＣＰＵ５０１の制御にしたがってマイク５１８及びスピーカ５１９との間で音信号の入出力を処理する回路である。マイク５１８は、音を電気信号に変える内蔵型の回路であり、外部のスピーカ等から発する音声や音波を取得し電気信号を用いた情報を取得する。スピーカ５１９は、電気信号を物理振動に変えて音楽や音声などの音を生み出す内蔵型の回路である。バスライン５２０は、ＣＰＵ５０１等の各構成要素を電気的に接続するためのアドレスバスやデータバス等である。

【0035】

また、テキスト情報管理装置５は、通信端末３に対してプッシュ通知(送信)によりデータ(情報)を通知(送信)してもよい。その場合、テキスト情報管理装置５は、例えば、プッシュ通知サーバの一例であるＦＣＭ(Firebase Cloud Messaging)を利用してプッシュ通知することで実現することが可能である。なお、テキスト情報管理装置５は、一般的に使用されるＰＣ(Personal Computer)であってもよい。テキスト情報管理装置５は、更に、ブラウザソフトウエア等のソフトウエアを動作させることが可能な通信装置又は通信端末が用いられてもよい。

【0036】

更に、上記プログラムは、インストール可能な形式又は実行可能な形式のファイルで、コンピュータで読取り可能な記録媒体に記録、又はネットワークを介してダウンロードを行い流通させるようにしてもよい。記録媒体の例として、ＣＤ－Ｒ(Compact Disc Recordable)、ＤＶＤ(Digital Versatile Disk)、Ｂｌｕ-ｒａｙＤｉｓｃ、ＳＤカード、ＵＳＢメモリ等が挙げられる。また、記録媒体は、プログラム製品(Program Product)として、国内又は国外へ提供されることができる。例えば、テキスト情報管理装置５は、本発明に係るプログラムが実行されることで、本発明に係るテキスト情報管理方法を実現する。

【0037】

〔通信システムの機能構成〕
次に、図４乃至図９を用いて、本実施形態の機能構成について説明する。図４は、通信システムの機能構成の一例を示す図である。

【0038】

＜通信端末の機能構成＞
図４に示されているように、通信端末３は、送受信部３１、操作受付部３２、音・画像取得部３３、表示制御部３４、アプリ起動部３８及び記憶読出部３９を有する。これら各機能部は、図２に示された各ハードウエア資源のいずれかが、ＲＯＭ３０２及びＥＥＰＲＯＭ３０４のうち少なくとも一つからＲＡＭ３０３に展開された通信端末３用のプログラムに従ったＣＰＵ３０１からの命令により動作することで実現される機能又は手段である。また、通信端末３は、図２に示されているＲＯＭ３０２及びＥＥＰＲＯＭ３０４のうち少なくとも一方により構築される記憶部３０００を有している。更に、記憶部３０００には、テキスト情報管理装置５と通信ネットワーク１００を介して通信を行うための通信プログラム(通信アプリ)と、音声情報に基づいて議事録等を生成するためのブラウザアプリ、記録管理アプリ等が記憶されている。

【0039】

<<通信端末の各機能構成>>
次に、通信端末３の各機能構成について詳細に説明する。図４に示されている通信端末３の送受信部３１は、主に、ネットワークＩ／Ｆ３１２及び近距離通信回路３２０に対するＣＰＵ３０１の処理によって実現され、通信ネットワーク１００を介してテキスト情報管理装置５との間で各種データ(又は情報)の送受信を行う。本実施形態において、送受信部３１は、送信手段及び受信手段のうち少なくとも一方の手段の一例として機能する。

【0040】

操作受付部３２は、主に、タッチパネル３２１が受け付けた各種操作により生成された信号をＣＰＵ３０１が処理することによって実現される。なお、操作受付部３２は、タッチパネル３２１に代えて、キーボード、ポインティングデバイス等の入力手段が用いられてもよい。本実施形態において、操作受付部３２は、受付手段の一例として機能する。

【0041】

音・画像取得部３３は、主に、マイク３１５、音入出力Ｉ／Ｆ３１７、ＣＭＯＳセンサ３１３及び撮像素子Ｉ／Ｆ３１４に対するＣＰＵ３０１の処理によって実現され、通信端末３を利用する利用者が発話した発話音声等に係る音声(音)を集音して音声情報(音声データ)又は音情報(音データ)を取得する。音・画像取得部３３は、更に、利用者の顔などの画像に係る画像を撮影して画像情報(画像データ)を取得する。なお、音声情報には、人間が発話した発話音声を示す発話音声情報、ＡＩを搭載した機械、人型ロボット等が生成した人工的な音声である人工音声情報が含まれる。本実施形態において、音・画像取得部３３は、取得手段の一例として機能する。

【0042】

表示制御部３４は、主に、ディスプレイ３１８に対するＣＰＵ３０１の処理によって実現され、通信端末３における各種画面及び情報(データ)の表示制御を行う。また、表示制御部３４は、例えば、ブラウザを用いて、ＨＴＭＬ等により作成された表示画面を、ディスプレイ３１８に表示させる。また、表示制御部３４は、テキスト情報管理装置５が送信した第２のテキスト情報を、一以上の利用者が発話した発話音声に対応付けて表示手段の一例としてのディスプレイ３１８に表示する。また、表示制御部３４は、一以上の辞書変更操作部の一例としての「音声認識エンジン変更」ボタン３５４１－３５４４のうち特定の「音声認識エンジン変更」ボタンが操作された場合に、第２のテキスト情報として認識するための複数の辞書を含む辞書選択部の一例としての辞書選択ダイアログ３１７１を、特定の「音声認識エンジン変更」ボタンに対応付けてディスプレイ３１８に表示する。また、表示制御部３４は、辞書選択ダイアログ３１７１に含まれる複数の辞書のうち特定の辞書が選択された場合に、第１のテキスト情報に代えて、特定の「音声認識エンジン変更」ボタンに関連付けられた第２のテキスト情報を表示する。なお、本実施形態において、第１のテキスト情報及び第２のテキスト情報は、所定のイベントの議事録、及び所定のイベントに参加する利用者が発話した発話音声記録を構成するテキスト情報を含む。また、表示制御部３４は、辞書選択ダイアログ３１７１に含まれる複数の辞書のそれぞれに与えられた「確信度」を、複数の辞書のそれぞれに対応させて辞書選択ダイアログ３１７１に表示する。また、表示制御部３４は、利用者が発話した発話音声に対応付けられた特定のテキストを認識するための辞書情報を、ディスプレイ３１８に表示する。本実施形態において、表示制御部３４は、表示制御手段の一例として機能する。

【0043】

アプリ起動部３８は、主に、ＣＰＵ３０１の処理によって実現され、テキスト情報管理装置５との間で通信ネットワーク１００を介して各種アプリの起動を行う。また、アプリ起動部３８は、テキスト情報管理装置５で管理されている各種テキスト情報を編集、管理するための記録管理アプリ及びブラウザアプリを、ＲＡＭ３０３の所定の作業領域上で動作させる。本実施形態において、アプリ起動部３８は、起動手段の一例として機能する。

【0044】

記憶読出部３９は、主に、図２に示されているＲＯＭ３０２及びＥＥＰＲＯＭ３０４のうち少なくとも一つに対するＣＰＵ３０１の処理によって実現され、記憶部３０００に各種データ(又は情報)を記憶したり、記憶部３０００から各種データ(又は情報)を読み出したりする。本実施形態において、記憶読出部３９は、記憶読出手段の一例として機能する。

【0045】

＜テキスト情報管理装置の機能構成＞
図４に示されているように、テキスト情報管理装置５は、送受信部５１、取得部５２、算出部５３、表示制御部５４、判断部５５、認証部５６、生成部５７、登録部５８及び記憶読出部５９を有する。これら各機能部は、図３に示された各ハードウエア資源のいずれかが、ＲＯＭ５０２及びＨＤ５０５のうち少なくとも一つからＲＡＭ５０３に展開されたテキスト情報管理装置５用のプログラムに従ったＣＰＵ５０１からの命令により動作することで実現される機能又は手段である。また、テキスト情報管理装置５は、図３に示されているＲＯＭ５０２及びＨＤ５０５のうち少なくとも一方により構築される記憶部５０００を有している。更に、記憶部５０００には、通信端末３及び音声認識サーバ７と通信ネットワーク１００を介してそれぞれ通信を行うための通信プログラム(通信アプリ)と、通信端末３との間で実行されるブラウザアプリ、記録管理アプリ等が記憶されている。

【0046】

●ログイン管理テーブル●
図５は、ログイン管理テーブルの一例を示す概念図である。記憶部５０００には、図５に示されているようなログイン管理テーブルによって構成されたログイン管理ＤＢ５００１が構築されている。ログイン管理テーブルでは、セッションＩＤごとに、端末識別情報、参加した通信端末のＩＰアドレス、利用者識別情報(ユーザＩＤ)、パスワード及び利用者名が関連付けられて記憶、管理されている。これらのうち、セッションＩＤは、テキスト情報管理装置５と一以上の通信端末３との間で行われる通信で確立されるセッションを識別するための情報で、例えば、SE001, SE002等で与えられる。

【0047】

端末識別情報は、通信端末３を識別するための情報であり、例えば、T001, T002等で与えられる。参加した通信端末のＩＰアドレスは、所定のイベントに参加した通信端末のＩＰアドレスを示し、IPv4, IPv6等のバージョンに対応させて与えられる固有の情報である。本実施形態では、例えば、1.2.1.3, 1.2.2.4などの情報で与えられる。利用者識別情報は、利用者を識別するための情報であり、本実施形態では、利用者のユーザＩＤとして、例えば、「taroh.r@ricoh.ex.com」等のメールアドレスが与えられる。パスワードは、通信システム１を利用する際のログイン時の利用者識別情報と関連付けられた識別情報であり、初回の起動時(ログイン時)等に利用者が設定する。なお、パスワードは、任意の文字列、数字、記号をランダムに含む複数文字(桁)の情報である。利用者名は、利用者識別情報で示される利用者の氏名を表し、例えば、「理光太郎」、「馬込花子」等で与えられる。

【0048】

●音声認識エンジン管理テーブル●
図６は、音声認識エンジン管理テーブルの一例を示す概念図である。記憶部５０００には、図６に示されているような音声認識エンジン管理テーブルによって構成された音声認識エンジン管理ＤＢ５００２が構築されている。音声認識エンジン管理テーブルでは、音声認識エンジン識別情報ごとに、音声認識エンジン名及びＵＲＬ(Uniform Resource Locator)が関連付けられて記憶、管理されている。これらのうち、音声認識エンジン識別情報は、第１及び第２のクラウドサービスを提供する音声認識サーバ７及び音声認識サーバ９でそれぞれ異なる辞書(音声認識エンジン)を識別する識別情報を表す。音声認識エンジン名は、音声認識エンジン識別情報に対応する辞書の名称を表し、例えば、「汎用」、「医療」、「ＩＴ(Information Technology)」等の辞書名である。なお、「汎用」に係る辞書は、ある特定の分野に特化した辞書ではなく、一般的な辞書データが管理される辞書である。ＵＲＬは、それぞれの音声認識エンジンが管理されているアクセス先を示すアクセス先情報であり、例えば、「https://voicerecognition/general」で与えられる。

【0049】

●記録書誌情報管理テーブル●
図７は、記録書誌情報管理テーブルの一例を示す概念図である。記憶部５０００には、図７に示されているような記録書誌情報管理テーブルによって構成された記録書誌情報管理ＤＢ５００３が構築されている。記録書誌情報管理テーブルでは、記録識別情報をタブとして、それぞれのタブで分けられた記録名称、開始日時、終了日時、音声データパス、利用者識別情報(ユーザＩＤ)及び会議ＵＲＬが関連付けられて記憶、管理されている。なお、タブとしての記録識別情報は、例えば、「R5006」,「R5007」等で与えられる。

【0050】

これらのうち、記録名称は、所定のイベントで記録された記録内容の名称であり、例えば、「○○定例会議」などの名称が与えられる。開始日時及び終了日時は、所定のイベントが開始された日時及びイベントが終了された日時が与えられ、例えば、「2021/03/31 11:00:00」、「2021/03/31 12:00:00」などの情報である。音声データパスは、所定のイベントで記録された音声記録データ(全体データ)が保管、管理されている場所を示すもので、例えば、「…/00005006/record.mp3」のようにファイル名を含めたパス情報として与えられる。なお、音声データパスは、通信システム１に配置された専用の音声サーバ装置を表すＵＲＬ情報であってもよい。イベントＵＲＬは、そのイベントにおける記録閲覧を編集するための場所を示すもので、利用者は、このイベントＵＲＬにアクセスすることで、後述する「記録閲覧編集画面」にアクセスすることができる。なお、イベントＵＲＬは、通信システム１に配置された専用の画像サーバ装置を表すＵＲＬ情報であってもよい。

【0051】

本実施形態に係る記録書誌情報管理テーブルにおいて管理される項目のうち、終了日時と音声データパスの項目は、イベント終了時に利用者又は編集者によって編集、追加される項目である。

【0052】

●キャプチャ画像管理テーブル●
図８は、キャプチャ画像管理テーブルの一例を示す概念図である。記憶部５０００には、図８に示されているようなキャプチャ画像管理テーブルによって構成されたキャプチャ画像管理ＤＢ５００４が構築されている。本実施形態において、通信端末３の表示制御部３４は、所定のイベントの実行中に表示、編集される閲覧編集画面を、所定の時間間隔（例えば30秒間隔）でキャプチャする機能を有する。キャプチャ画像管理テーブルは、その画面キャプチャ機能に係る情報を記憶、管理するためのテーブルで、キャプチャ画像テーブルでは、記録識別情報をタブとして、それぞれのタブで分けられた画像ＩＤ、取得時間及び画像データパスが関連付けられて記憶、管理されている。

【0053】

これらのうち、画像ＩＤは、キャプチャされる画像を識別するための情報で、例えば、「I001」,…「I003」等で与えられる。取得時間は、キャプチャ画像を取得した際の所定のイベントにおける経過時間を示すもので、例えば、「1分30秒」、「2分0秒」等で与えられる。画像データパスは、所定のイベントでキャプチャされたキャプチャ画像データが保管、管理されている場所を示すもので、例えば、「…/00005006/0003.jpg」のようなパス情報として与えられる。なお、画像データパスは、通信システム１に配置された専用の画像サーバ装置を表すＵＲＬ情報であってもよい。

【0054】

●テキスト情報管理テーブル●
図９Ａは、テキスト情報管理テーブルの一例を示す概念図である。記憶部５０００には、図９Ａに示されているようなテキスト情報管理テーブルによって構成されたテキスト情報管理ＤＢ５００５Ａが構築されている。テキスト情報管理テーブルでは、記録識別情報をタブとして、それぞれのタブで分けられたテキスト識別情報、開始時間、終了時間、テキスト、再認識結果１、再認識結果２、・・・、編集者識別情報、編集日時、ブックマーク及び音声データパスが関連付けられて記憶、管理されている。なお、タブとしての記録識別情報は、例えば、「R5006」,「R5007」等で与えられる。

【0055】

これらのうち、テキスト識別情報は所定の発話内容や発話文を一つのテキスト(又はテキスト情報)としたときの一単位として識別するための情報で、例えば、「T001」、「T002」、…「T005」等で与えられる。開始時間及び終了時間は、所定の発話が開始された時間と終了された時間を分と秒で管理する情報である。例えば、所定のイベントが開始された日時が、記録書誌情報管理ＤＢ５００３（図７参照）で管理されている開始日時「2021/03/31 11:00:00」であった場合、開始時間は、開始日時から経過した時間として管理される。つまり、開始時間が「1分53秒」であれば、テキスト情報「T005」で管理される発話が開始された日時は、「2021/03/31 11:01:53」であることを示している。終了時間は、開始時間と同様に、開始日時から経過した時間として管理される。つまり、終了時間が「1分58秒」であれば、テキスト情報「T005」で管理される発話が終了された日時は、「2021/03/31 11:01:58」であることを示している。したがって、この場合、テキスト情報「T005」で管理される発話に要した時間は、58秒－53秒＝5秒間となる。

【0056】

テキストは、上述したように、開始時間と終了時間との間で利用者等が発話した発話内容をテキスト情報に置き換えたものである。テキストは、例えば、「診療予約システムの開発日程はご覧の通りです。」、「今回の開発はジャイロ方式を採用します。」といった内容として管理される。詳細については後述するが、「ジャイロ方式」は、「アジャイル方式」として認識される前の段階で認識されたテキストである。これは、音声認識サーバが適切な音声認識エンジン(辞書)を利用していない状態で特定の発話の内容が認識された状態を示している。

【0057】

再認識結果１、再認識結果２は、後述する音声認識エンジンを変更した場合に再認識されたテキスト情報を管理する。この場合、利用者は、発話した発話音声に係る音声情報をテキスト情報に認識する際に、所望のテキスト情報が得られるまで音声認識エンジンを変更することが可能である。そのため、再認識結果の項目も複数設けられている。

【0058】

編集者識別情報は、編集結果に係る編集を行った人物を識別するための情報で、例えば、「E001」,「E002」等で与えられる。編集日時は、編集結果に係る内容が編集された日時を示し、例えば、「2021/03/31 16/00:00」等で与えられる。なお、編集には所定の時間がかかるため、この編集日時は、編集が開始された日時と同義である。ブックマークは、後述する記録閲覧編集画面において編集可能となる特定のテキスト(テキスト情報)に対するブックマークを行うか否か(行なったか否か)を管理するフラグであり、例えば、「ON」，「OFF」等で与えられる。また、ブックマークの初期値は、例えば、「OFF」で与えられる。

【0059】

音声データパスは、所定のイベントで記録された音声記録データ(部分データ)が保管、管理されている場所を示すもので、テキスト識別情報に対応付けられた音声が、例えば、「…/00005006/0005.mp3」のようなパス情報として与えられる。つまり、所定のイベントにおいて、複数のテキスト識別情報に対応付けられた音声データパスが存在する場合、それら全ての音声データパスで示される音声データを繋ぎ合わせた音声データが、記録書誌情報管理ＤＢ５００３（図７参照）で管理されている音声データパスで示される音声データ(全体データ)となる。換言すれば、記録書誌情報管理ＤＢ５００３で管理されているそれぞれの音声データパスの中身は、記録書誌情報管理ＤＢ５００３（図７参照）の音声データパスを構成する音声データの一部となる。なお、音声データパスは、通信システム１に配置された専用の音声サーバ装置を表すＵＲＬ情報であってもよい。

【0060】

●テキスト情報管理テーブル●
図９Ｂは、テキスト情報管理テーブルの一例を示す概念図である。記憶部５０００には、図９Ｂに示されているようなテキスト情報管理テーブルによって構成されたテキスト情報管理ＤＢ５００５Ｂが構築されている。テキスト情報管理テーブルでは、記録識別情報をタブとして、それぞれのタブで分けられたテキスト識別情報、開始時間、終了時間、テキスト、再認識結果１、再認識結果２、・・・、編集者識別情報、編集日時、ブックマーク及び音声データパスが関連付けられて記憶、管理されている。なお、タブとしての記録識別情報は、例えば、「R5006」,「R5007」等で与えられる。

【0061】

なお、上述したテキスト情報管理ＤＢ５００５Ａを構成するテキスト情報管理テーブルとの相違点は、再認識結果１の項目がテキストと音声認識エンジンの項目を含むように管理されている点である。例えば、テキストの項目で「今回の開発はジャイロ方式を採用します。」という内容が管理されている場合、再認識結果１のテキストの項目には、「今回の開発はアジャイル方式を採用します。」という認識結果(第２のテキスト情報)が管理され、この認識結果に対応する音声認識エンジンの項目には、「IT」が管理されている。これは、テキストの項目で管理されているテキスト情報のうち、「ジャイロ方式」という特定の発話に対して「IT」分野の音声認識エンジン(辞書)を用いて認識することによって、「アジャイル方式」というテキストを含む第２のテキスト情報が新たに管理されていることを示している。

【0062】

同様に、テキストの項目で「最近503のリン商用が注目されています。」という内容が管理されている場合、再認識結果１のテキストの項目には、「最近五苓散の臨床応用が注目されています。」という認識結果(第２のテキスト情報)が管理され、この認識結果に対応する音声認識エンジンの項目には、「医療」が管理されている。これは、テキストの項目で管理されているテキスト情報のうち、「503のリン商用」という特定の発話に対して「医療」分野の音声認識エンジン(辞書)を用いて認識することによって、「五苓散の臨床応用」というテキストを含む第２のテキスト情報が新たに管理されていることを示している。

【0063】

<<テキスト情報管理装置の各機能構成>>
次に、テキスト情報管理装置５の各機能構成について詳細に説明する。図４に示されているテキスト情報管理装置５の送受信部５１は、主に、近距離通信Ｉ／Ｆ５０８及びネットワークＩ／Ｆ５１１に対するＣＰＵ５０１の処理によって実現され、通信ネットワーク１００を介して通信端末３との間でそれぞれ各種データ(又は情報)の送受信を行う。送受信部５１は、一以上の通信端末のそれぞれを利用する一以上の利用者が発話した発話音声に係る音声情報を受信する。また、送受信部５１は、利用者が発話した発話音声情報に基づいて第１の音声認識エンジン(第１の辞書。以下、第１の辞書とよぶ)により認識された第１のテキスト情報を通信端末３に送信した後、第１のテキスト情報に対応する音声情報に基づいて第２の音声認識エンジン(第２の辞書。以下、第２の辞書とよぶ)により認識された第２のテキスト情報を、通信端末３に送信する。

【0064】

また、送受信部５１は、第１の辞書を識別する第１の辞書識別情報及び第２の辞書を識別する第２の辞書識別情報を、音声情報に基づいて所定のテキスト情報を認識する音声認識サーバ７又は音声認識サーバ９に対して送信する。また、送受信部５１は、音声認識サーバ７が送信した第１の辞書識別情報に基づいて認識された第１のテキスト情報を受信し、又は音声認識サーバ９が送信した第２の辞書識別情報に基づいて認識された第２のテキスト情報を受信する。また、送受信部５１は、第２のテキスト情報を通信端末３に対して送信する。また、送受信部５１は、音声認識サーバが送信した、第１の辞書識別情報に基づいて認識された特定のテキストと、音声情報に対して認識された特定のテキストに対する確からしさを示す「確信度」と、を含む情報を受信する。また、送受信部５１は、特定のテキストに対する「確信度」が所定の閾値未満である場合に、利用者の操作に応じて得られた第２のテキスト情報を認識するための要求を、第２の辞書を管理する音声認識サーバ(音声認識サーバ９)に送信する。また、送受信部５１は、第２の辞書を管理する音声認識サーバ(音声認識サーバ９)が送信した第２のテキスト情報を受信する。なお、第１の辞書識別情報及び第２の辞書識別情報は、音声認識エンジン識別情報(VR001,VR002,等)と同義であるが、使用されるタイミングの違いによって、第１の辞書識別情報と第２の辞書識別情報に区別される。

【0065】

本実施形態において、送受信部５１は、送信手段及び受信手段のうち少なくとも一方の手段の一例として機能する。

【0066】

取得部５２は、主に、ＣＰＵ５０１の処理によって実現され、音声認識サーバ７が送信したテキスト情報に基づくテキストデータの取得、閲覧編集画面におけるキャプチャ情報の取得等を行う。本実施形態において、取得部５２は、取得手段の一例として機能する。

【0067】

算出部５３は、主に、ＣＰＵ５０１の処理によって実現され、所定のイベントにおいて利用者が発話を開始した開始日時等を算出する。この算出にあたり、ＣＰＵ５０１のクロック信号を用いて生成された時計情報を用いてもよい。本実施形態において、算出部５３は算出手段の一例として機能する。

【0068】

表示制御部５４は、主に、ディスプレイ５０７に対するＣＰＵ５０１の処理によって実現され、テキスト情報管理装置５における各種画面及び情報(データ)の表示制御を行う。また、表示制御部５４は、例えば、ブラウザを用いて、ＨＴＭＬ等により作成された表示画面を、通信ネットワーク１００を介して、通信端末３のディスプレイ３１８に表示させることも可能である。本実施形態において、表示制御部５４は、表示制御手段の一例として機能する。

【0069】

判断部５５は、主に、ＣＰＵ５０１の処理によって実現され、テキスト情報管理装置５における各種判断を行う。また、判断部５５は、音声認識サーバが送信した後述する「確信度」が所定の閾値を超えたかを判断する。本実施形態において、判断部５５は、与えられた所定の条件を満たすか否かを判断する判断手段の一例として機能する。

【0070】

認証部５６は、主に、ＣＰＵ５０１の処理によって実現され、例えば、通信端末３から要求された認証要求に基づいて、通信端末３の認証処理を行う。本実施形態において、認証部５６は、認証手段の一例として機能する。

【0071】

生成部５７は、主に、ＣＰＵ５０１の処理によって実現され、音声認識サーバが送信したテキスト情報に基づいて音声記録データを生成する。また、生成部５７は、通信端末３で表示される記録閲覧編集画面の画面データを生成する。本実施形態において、生成部５７は、生成手段の一例として機能する。

【0072】

登録部５８は、主に、ＣＰＵ５０１の処理によって実現され、例えば、テキスト情報管理装置５に対して行った通信端末３を利用する利用者の認証情報を記憶部５０００に登録する。登録部５８は、更に、補正テキスト、ブックマーク等の登録、並びにブックマークの削除を行う。登録部５８は、更に、通信端末３が送信した、「音声認識エンジン選択」ダイアログ(辞書選択部)において選択された特定の辞書を示す特定辞書情報と、音声認識サーバ７又は音声認識サーバ９が送信した特定辞書情報に基づいて認識された第２のテキスト情報と、を対応付けて登録する。本実施形態において、登録部５８は、登録手段の一例として機能する。

【0073】

記憶読出部５９は、主に、ＲＯＭ５０２、ＥＥＰＲＯＭ５０４及びＨＤ５０５のうち少なくとも一つに対するＣＰＵ５０１の処理によって実現され、記憶部５０００に各種データ(又は情報)を記憶したり、記憶部５０００から各種データ(又は情報)を読み出したりする。本実施形態において、記憶読出部５９は、記憶読出手段の一例として機能する。

【0074】

＜音声認識サーバの機能構成＞
図４に示されているように、音声認識サーバ７は、送受信部７１、音声認識部７６及び記憶読出部７９を有する。これら各機能部は、図２に示された各ハードウエア資源のいずれかが、ＲＯＭ７０２及びＥＥＰＲＯＭ７０４のうち少なくとも一つからＲＡＭ７０３に展開された音声認識サーバ７用のプログラムに従ったＣＰＵ７０１からの命令により動作することで実現される機能又は手段である。また、音声認識サーバ７は、図２に示されているＲＯＭ７０２及びＥＥＰＲＯＭ７０４のうち少なくとも一つにより構築される記憶部７０００を有している。更に、記憶部７０００には、テキスト情報管理装置５と通信ネットワーク１００を介して通信を行うための通信プログラム(通信アプリ)等が記憶されている。

【0075】

<<音声認識サーバの各機能構成>>
次に、音声認識サーバ７の各機能構成について詳細に説明する。図４に示されている音声認識サーバ７の送受信部７１は、主に、ネットワークＩ／Ｆ７１２及び近距離通信回路７２０に対するＣＰＵ７０１の処理によって実現され、通信ネットワーク１００を介してテキスト情報管理装置５との間で各種データ(又は情報)の送受信を行う。本実施形態において、送受信部７１は、送信手段及び受信手段のうち少なくとも一方の手段の一例として機能する。

【0076】

音声認識部７６は、主に、マイク７１５及び音入出力Ｉ／Ｆ７１７に対するＣＰＵ７０１の処理によって実現され、テキスト情報管理装置５が送信した音声データ又は音データ(音声情報)を認識してテキストデータ(テキスト情報)に変換する。本実施形態において、音声認識部７６は、音声認識手段の一例として機能する。

【0077】

記憶読出部７９は、主に、ＲＯＭ７０２及びＥＥＰＲＯＭ７０４のうち少なくとも一つに対するＣＰＵ７０１の処理によって実現され、記憶部７０００に各種データ(又は情報)を記憶したり、記憶部７０００から各種データ(又は情報)を読み出したりする。本実施形態において、記憶読出部７９は、記憶読出手段の一例として機能する。

【0078】

本実施形態に係る通信システムでは、上述した音声認識サーバ７に加えて音声認識サーバ９も含まれるが、音声認識サーバ９の各機能構成は、音声認識サーバ７の各機能構成と同様であるため、説明を省略する。

【0079】

〔実施形態の処理又は動作〕
次に、図１０乃至図２７を用いて、第１の実施形態に係るテキスト情報管理システムにおける各処理又は動作を説明する。図１０は、アプリ起動、認証処理及びセッション確立処理の一例を示すシーケンス図である。

【0080】

＜アプリ起動及び認証処理＞
まず、通信端末３の利用者は、通信端末３で動作する記録管理アプリ及びブラウザアプリの起動操作を行う。これにより、通信端末３の操作受付部３２は、利用者により通信アプリ及びブラウザアプリの起動操作を受け付ける（ステップＳ１１）。なお、本実施形態では、上述した議事録作成端末の一例である通信端末３（Ａ）が記録管理アプリを起動すればよく、通信端末３（Ａ）とともに所定のイベントに参加する通信端末３（Ｂ）は記録管理アプリを起動する必要はない。通信端末３（Ｂ）は、記録管理アプリの起動に代えて、上述した会話ツールを起動しておけば、通信端末３（Ａ）との音声通信が可能となり、その結果、互いの音声を認識することができる。更に、本実施形態では、通信端末３において他の装置との間で利用される通信アプリは、所定のプロトコル等によって他の装置との間で通信可能な状態になっていることを前提とする。

【0081】

次に、アプリ起動部３８は、予め記憶部３０００にインストールされているテキスト情報管理装置５との間で通信を行うための通信アプリ及びブラウザアプリを起動する（ステップＳ１２）。その後、表示制御部３４は、ディスプレイ３１８に認証用の認証画面(サインイン画面等)を表示して利用者による認証操作を待つ（ステップＳ１３）。

【0082】

次に、利用者は、テキスト情報管理装置５に対する認証処理(サインイン)を行う。これにより、操作受付部３２は、利用者によって入力された認証情報を受け付ける（ステップＳ２１）。

【0083】

続いて、送受信部３１は、テキスト情報管理装置５に対して受け付けた認証情報に基づいて認証処理の要求を送信する（ステップＳ２２）。これにより、テキスト情報管理装置５の送受信部４１は、通信端末３が送信した認証処理の要求を受信する。このとき、認証処理の要求には、テキスト情報管理装置５とのセッションを確立するためのセッションＩＤ、通信端末３の端末識別情報、利用者を識別する利用者識別情報及びパスワードが含まれる。

【0084】

次に、テキスト情報管理装置５の認証部４６は、受信されたセッションＩＤ、端末識別情報、利用者識別情報及びパスワードと記憶読出部５９によってログイン管理ＤＢ５００１（図５参照）から読み出されたセッションＩＤ、端末識別情報及び利用者識別情報に対応するパスワードとを比較してログイン認証処理を行う（ステップＳ２３）。ここでは、利用者によるテキスト情報管理装置５に対するログイン認証処理が成功しているものとする。ステップＳ２３の処理において、登録部５８は、ログイン認証処理をした通信端末３のＩＰアドレスをログイン管理ＤＢ５００１（図５参照）に登録してもよい。

【0085】

次に、ステップＳ２３においてログイン認証処理が成功し、通信端末３との通信セッションが確立すると、送受信部５１は、通信端末３に対して認証処理の応答及び参加処理の応答を送信する（ステップＳ２４）。これにより、通信端末３の送受信部３１は、テキスト情報管理装置５が送信した認証処理の応答及び参加処理の応答を受信する。このとき、認証処理の応答及び参加処理の応答には、セッションＩＤとテキスト情報管理装置５との通信セッションへの参加処理を許可する参加処理結果が含まれる。

【0086】

続いて、通信端末３のアプリ起動部３８は、次回以降のログイン処理及び通信セッション確立の簡略化のために、記憶読出部３９と協働して、記憶部３０００の所定領域に、利用者識別情報、パスワード及び利用者名を組にして記憶させて登録する（ステップＳ２５）。なお、ステップＳ２５の処理は省略されてもよい。

【0087】

上述した処理シーケンスの例では、通信端末３にブラウザアプリがインストールされていることを前提に説明したが、議事録閲覧端末の一例として利用される通信端末３（Ｃ）のように、ブラウザを利用したＷｅｂサービスが提供されてもよい。Ｗｅｂサービスの場合、テキスト情報管理装置５は、Ｗｅｂサーバの機能を有し、閲覧編集画面等の画面データ（画面全体又は画面の一部を表示させるためのデータ）を通信端末３に送信して表示させるようにしてもよい。

【0088】

本実施形態に係るテキスト情報管理システムでは、例えば、上述したステップＳ２２及びＳ２４の処理が実行される場合、通信端末３とテキスト情報管理装置５との間に他の装置等が存在してもよい。つまり、通信端末３とテキスト情報管理装置５との間で送受信される各情報(データ)は、一度他の装置を介して送受信されるような構成であってもよい。上述した構成は、通信端末３とテキスト情報管理装置５との間に他の処理ステップが存在しても適用可能である。

【0089】

●画面表示例●
図１１は、通信端末におけるアプリ起動時の画面表示例である。通信端末３のディスプレイ３１８には、表示制御部３４によってディスプレイ３１８にアプリ起動画面３１０１が表示される。アプリ起動画面３１０１には、例えば、アプリをイメージするマーク(マイクの絵)と、アプリのバージョン情報が表示されている。

【0090】

＜記録開始処理＞
続いて、記録開始処理について説明する。図１２は、記録開始処理の一例を示すシーケンス図である。図１２に示されているように、通信端末３の表示制御部３４は、図１１に示したようなアプリ起動画面３１０１を表示した後、記録開始指示画面をディスプレイ３１８に表示する（ステップＳ３１）。

【0091】

●画面表示例●
図１３は、通信端末における記録開始指示の画面表示例である。通信端末３のディスプレイ３１８には、上述したステップＳ３２の処理が実行されることにより、表示制御部３４によって記録開始指示画面３１１１が表示される。記録開始指示画面３１１１には、例えば、「概要(議題)」、「参加者」、「会議メモ」、「ブックマーク」、「録音するマイク」、及び「録画する画面」の各入力欄が含まれる。

【0092】

「概要(議題)」欄には、例えば、実行される会議等のイベントの議題が入力される。「参加者」欄には、例えば、イベントの参加者が入力される。「会議メモ」欄には、例えば、イベントにおける主な議事内容が入力される。主な議事内容は、例えば、概要、決定事項、アクションアイテム等である。これらの「概要(議題)」、「参加者」及び「会議メモ」の各入力欄に入力される項目は、会議等のイベントに参加する参加者等によって予め入力されてもよいし、イベントの終了後に追加編集されることも可能である。「ブックマーク」欄には、会議等のイベントにおいて特に重要な内容等が利用者によって入力される。「録音するマイク」及び「録画する画面」の入力欄には、マイク配列や録画される画面の番号などが表示される。これらのマイク配列や録画される画面の番号は、テキスト情報管理装置５に対して利用者が予め設定しておいてもよいし、テキスト情報管理装置５が任意の条件、タイミング等に基づいて設定してもよい。

【0093】

更に、記録開始指示画面３１１１には、表示制御部３４によって利用者が発話した発話音声に対応付けられた特定のテキストを認識するための辞書情報を通知する音声認識エンジン表示欄３１１２が表示される。音声認識エンジン表示欄３１１２では、「汎用」分野の音声認識エンジン(辞書)が選択されていることが示されている。本実施形態において、音声認識エンジン表示欄３１１２は、音声認識エンジン表示部の一例である。

【0094】

更に、記録開始指示画面３１１１には、表示制御部３４によって辞書選択部の一例である音声認識エンジン選択欄３１１３が表示される。音声認識エンジン選択欄３１１３には、音声情報に基づいてテキスト情報として認識するための音声認識エンジン(辞書)を表す名称がプルダウンキーとともに表示される。これにより利用者は、所望の音声認識エンジン(辞書)を選択することが可能になる。本実施形態において、音声認識エンジン選択欄３１１３は、音声認識エンジン選択部の一例である。

【0095】

更に、記録開始指示画面３１１１には、表示制御部３４によって記録開始ボタン３５０１が表示される。通信端末３の利用者は、記録開始ボタン３５０１を操作(押下又はタップ等)することにより、会議等のイベントで発話される発話内容の記録を開始させることができる。

【0096】

図１２に戻り、通信端末３の操作受付部３２は、利用者の操作による音声認識エンジンの選択を受け付ける（ステップＳ３２）。音声認識エンジンの選択受付は、上述した音声認識エンジン選択欄３１１３に対する利用者からの選択を受け付けることにより行われる。

【0097】

続いて、操作受付部３２は、利用者の操作による記録開始指示を受け付ける（ステップＳ３３）。記録開始指示の受付は、上述した記録開始ボタン３５０１に対する利用者からの操作を受け付けることにより行われる。

【0098】

次に、通信端末３の送受信部３１は、テキスト情報管理装置５に対して記録開始要求を送信する（ステップＳ３４）。これにより、テキスト情報管理装置５の送受信部５１は、通信端末３が送信した記録開始要求を受信する。このとき、記録開始要求には、ステップＳ３２で選択された音声認識エンジンの音声認識エンジン識別情報が含まれる。

【0099】

次に、テキスト情報管理装置５の取得部５２は、受信された音声認識エンジン識別情報を検索キーとして音声認識エンジン管理ＤＢ５００２（図６参照）を検索することにより、対応するＵＲＬを読み出す（ステップＳ３５）。

【0100】

続いて、送受信部５１は、音声認識サーバ７に対して音声データ送信開始通知を送信する（ステップＳ３６）。これにより、音声認識サーバ７の送受信部７１は、テキスト情報管理装置５が送信した音声データ送信開始通知を受信する。このとき、音声データ送信開始通知には、ステップＳ３５で取得したＵＲＬが含まれる。

【0101】

次に、音声認識サーバ７の送受信部７１は、テキスト情報管理装置５に対して送信開始の許可応答を送信する（ステップＳ３７）。これにより、テキスト情報管理装置５の送受信部５１は、音声認識サーバ７が送信した送信開始の許可応答を受信する。

【0102】

次に、テキスト情報管理装置５の送受信部５１は、通信端末３に対して記録中画面の表示要求を送信する（ステップＳ３８）。これにより、通信端末３の送受信部３１は、テキスト情報管理装置５が送信した記録中画面の表示要求を受信する。

【0103】

続いて、通信端末３の表示制御部３４は、ディスプレイ３１８に記録中画面を表示し、操作受付部３２は、利用者によって操作される「記録終了ボタン」の操作を受け付ける（ステップＳ３９）。

【0104】

●画面表示例●
図１４は、通信端末における記録終了指示の画面表示例である。通信端末３のディスプレイ３１８には、上述したステップＳ３９の処理が実行されることにより、表示制御部３４によって記録終了指示画面３１２１が表示される。記録終了指示画面３１２１には、図１３と同様に、例えば、「概要(議題)」、「参加者」、「会議メモ」、「ブックマーク」の各入力欄が含まれる。更に、記録終了指示画面３１２１には、処理メッセージ表示欄が含まれる。処理メッセージ表示欄には、例えば、議事録等の記録を準備中であることを示す「準備中。しばらくお待ちください。」といったメッセージが表示される。

【0105】

記録終了指示画面３１２１には、更に、表示制御部３４によって利用者が発話した発話音声に対応付けられた特定のテキストを認識するための辞書情報を通知する音声認識エンジン表示欄３１２２が表示される。音声認識エンジン表示欄３１２２では、「汎用」分野の音声認識エンジン(辞書)が選択されていることが示されている。

【0106】

更に、記録終了指示画面３１２１には、表示制御部３４によって記録終了ボタン３５１１が表示される。通信端末３の利用者は、記録終了ボタン３５１１を操作(押下又はタップ等)することにより、会議等のイベントで発話される発話内容の記録を終了させることができる。

【0107】

＜記録書誌情報の登録処理＞
図１５は、記録書誌情報の登録処理の一例を示すシーケンス図である。テキスト情報管理装置５の送受信部５１は更に、通信端末３に対して、音声データ送信開始要求を送信する（ステップＳ４１）。これにより、通信端末３の送受信部３１は、テキスト情報管理装置５が送信した音声データ送信開始要求を受信する。

【0108】

次に、通信端末３の送受信部３１は、テキスト情報管理装置５に対して音声データ及び記録書誌情報を送信する（ステップＳ４２）。これにより、テキスト情報管理装置５の送受信部５１は、通信端末３が送信した音声データ及び記録書誌情報を受信する。このときに送受信される記録書誌情報には、記録書誌情報管理ＤＢ５００３（図７参照）で管理されている記録名称、開始日時、利用者識別情報(ユーザＩＤ)、イベントＵＲＬが含まれる。

【0109】

次に、テキスト情報管理装置５の送受信部５１は、音声認識サーバ７のＡＰＩ(Application Programming Interface)に対して音声認識要求を送信する（ステップＳ４３）。これにより、音声認識サーバ７の送受信部７１は、テキスト情報管理装置５が送信した音声認識要求を受信する。このとき、音声認識要求には、音声認識サーバによってテキスト変換の対象となる音声データが含まれる。ステップＳ４２及びＳ４３の処理が行われることによって、テキスト情報管理装置５の送受信部５１は、通信端末３が送信した音声データ（音声ストリーミングによる音声データ）を継続的に音声認識サーバ７に対して送信する。この場合、利用者の発話が検出されていなくても、送受信部５１は、音声認識サーバ７に対して継続的に音声ストリーミングを送信し続けてよい。但し、テキスト情報管理装置５は、音声認識サーバ７のＡＰＩの仕様に基づいて音声データを個別に送信し、音声認識を要求するようにしてもよい。

【0110】

次に、テキスト情報管理装置５の登録部５８は、記録書誌情報管理ＤＢ５００３（図７参照）に対して、ステップＳ４２で受信した記録書誌情報を登録する（ステップＳ４４）。このとき登録される記録書誌情報には、記録名称としての「ヘルスケア事業業績報告会」、「開始日時」、「利用者識別情報(ユーザＩＤ)」、「イベントＵＲＬ」に加えて、新たに「終了日時」と「音声データパス」を示す内容が含まれる。

【0111】

＜音声認識処理＞
図１６は、音声認識処理の一例を示すシーケンス図である。まず、一以上の通信端末３のうち、議事録作成端末の一例である通信端末３（Ａ）の音・画像取得部３３は、マイク３１５を介して通信端末３（Ａ）を利用する利用者が発話した発話音声又は音を集音して音声情報(音声データ又は音データを含む。以下、単に「音声情報」と記す)を取得する（ステップＳ５１）。

【0112】

続いて、送受信部３１は、取得した音声情報をテキスト情報管理装置５に対して送信する（ステップＳ５２）。これにより、テキスト情報管理装置５の送受信部５１は、通信端末３（Ａ）の送受信部３１が送信した、通信端末３（Ａ）を利用する利用者が発話した発話音声に係る音声情報を受信する。なお、以降の説明においては、単に通信端末３と記載する。

【0113】

次に、テキスト情報管理装置５の送受信部５１は、音声認識サーバ７に対して音声認識要求を送信する（ステップＳ５３）。これにより、音声認識サーバ７の送受信部７１は、テキスト情報管理装置５が送信した音声認識要求を受信する。このとき、音声認識要求には、通信端末３が送信した音声情報(音声データ、音データ)が含まれる。つまり、テキスト情報管理装置５は、通信端末３と音声認識サーバ７との間の仲介装置の役割も果たしている。

【0114】

次に、音声認識サーバ７の音声認識部７６は、受信した音声情報に対して音声認識処理を実行し、音声情報をテキスト情報に変換する（ステップＳ５４）。

【0115】

続いて、送受信部７１は、テキスト情報管理装置５に対して音声認識結果を送信する（ステップＳ５５）。これにより、テキスト情報管理装置５の送受信部５１は、音声認識サーバ７が送信した音声認識結果を受信する。このとき、音声認識結果には、変換されたテキストデータ、開始時間、終了時間が含まれる。具体的には、音声認識サーバ７は、例えば、テキスト情報管理ＤＢ５００５Ａ（図９Ａ参照）で管理されている「今回の開発はジャイロ方式を採用します。」という内容と、その内容が発話された開始時間（1分59秒）を、テキスト情報管理装置５に対して送信する。なお、開始時間に関しては、テキスト情報管理テーブルで説明したように、開始日時から経過した時間として管理される。終了時間についても同様の考え方が適用される。

【0116】

次に、登録部５８は、受信した１レコード分のテキスト情報をテキスト情報管理ＤＢ５００５Ａ（図９Ａ参照）に登録する（ステップＳ５６）。この場合の１レコード分のテキスト情報とは、テキスト識別情報、開始時間、終了時間、テキスト、音声データパスに対する情報であり、編集結果、編集者識別情報、編集日時に対しては空白データとしておく。更にブックマークを「OFF」としておく。

【0117】

続いて、取得部５２は、例えば、受信した開始時間を検索キーとしてテキスト情報管理ＤＢ５００５Ａ（図９Ａ参照）を検索することにより対応するテキストデータを取得する（ステップＳ５７）。

【0118】

続いて、算出部５３は、開始日時を算出する（ステップＳ５８）。開始日時の算出については、以下の式に基づいて行われる。つまり、開始日時は、記録書誌情報管理ＤＢ５００３（図７参照）で管理されている開始日時とテキスト情報管理ＤＢ５００５Ａ（図９Ａ参照）で管理されている開始日時を足し合わせた時間となる。具体的には、2021/03/31 11:00:00 ＋ 00:01:53 ＝ 2021/03/31 11:01:53が、ステップＳ５８で算出される開始日時となる。

【0119】

続いて、送受信部５１は、通信端末３に対して記録画面更新要求を送信する（ステップＳ５９）。これにより、通信端末３の送受信部３１は、テキスト情報管理装置５が送信した記録画面更新要求を受信する。このとき、記録画面更新要求には、音声認識サーバ７が認識したテキスト情報(テキストデータ)、及びステップＳ５８で算出された開始日時を示す開始日時情報が含まれる。

【0120】

次に、通信端末３の表示制御部３４は、テキスト情報管理装置５が送信した補正テキスト情報で示される音声記録をディスプレイ３１８に表示する（ステップＳ６０）。具体的には、表示制御部３４は、図１８に示したような記録中画面に含まれる第１のテキスト情報で示される音声記録を表示させる。

【0121】

なお、本実施形態に係る通信システムにおいて生成部５７は、テキスト情報管理装置５に備えられる構成以外に、通信ネットワーク１００を介してテキスト情報管理装置５と通信端末３とを互いに通信可能な他の装置が有するような構成であってもよい。

【0122】

本実施形態に係るテキスト情報管理システムでは、更に、例えば、上述したステップＳ５３及びＳ５５の処理が実行される場合、テキスト情報管理装置５と音声認識サーバ７との間に他の装置等が存在してもよい。つまり、テキスト情報管理装置５と音声認識サーバ７との間で送受信される各情報(データ)は、一度他の装置を介して送受信されるような構成であってもよい。上述した構成は、テキスト情報管理装置５と音声認識サーバ７との間に他の処理ステップが存在しても適用可能である。

【0123】

＜画面キャプチャ処理＞
次に、画面キャプチャ処理について説明する。図１７は、画面キャプチャ処理の一例を示すシーケンス図である。図１７に示されているように、通信端末３の音・画像取得部３３は、後述する図２３に示されたような音声認識変更画面を、例えば、３０秒ごとにキャプチャ処理してキャプチャ画像を取得する（ステップＳ７１）。なお、キャプチャ画像を取得する所定の時間間隔は３０秒に限らず、１０秒毎、１分毎など、任意に設定されてよい。画面キャプチャ処理については、例えば、一般的に知られているプリントスクリーンキーを用いた画面キャプチャ処理に相当する手法を用いてもよい。その場合、テキスト情報管理装置５は、利用者による操作を介さずに、上述した所定の時間間隔で画面キャプチャ処理を自動実行することで実現される。

【0124】

続いて、送受信部３１は、取得したキャプチャ画像を示すキャプチャ画像データをテキスト情報管理装置５に対して送信する（ステップＳ７２）。これにより、テキスト情報管理装置５の送受信部５１は、通信端末３が送信したキャプチャ画像データを受信する。このとき、通信端末３が送信する情報には、画像ＩＤと画像ＩＤに対応するキャプチャ画像データが含まれる。

【0125】

次に、テキスト情報管理装置５の登録部５８は、キャプチャ画像管理ＤＢ５００４（図８参照）に、キャプチャ画像情報としての取得時間及びキャプチャ画像の保存先を示す画像データパスを含む情報を登録する（ステップＳ７３）。

【0126】

続いて、送受信部５１は、通信端末３に対して、記録画面更新要求を送信する（ステップＳ７４）。これにより、通信端末３の送受信部３１は、テキスト情報管理装置５が送信した記録画面更新要求を受信する。

【0127】

次に、通信端末３の表示制御部３４は、記録中画面を更新し（ステップＳ７５）、ディスプレイ３１８に更新後の画面を表示する（ステップＳ７６）。このときに更新される記録中画面は、後述する図２４にて詳細に説明する。

【0128】

本実施形態では、テキスト情報管理システム２は、上述したステップＳ７１－Ｓ７６までの処理を、所定のイベントが終了するまで、つまり、テキスト情報管理システム２は、例えば、会議における音声記録が終了するまで、上述したステップＳ７１－Ｓ７６までの処理を繰り返して実行する。

【0129】

●画面表示例●
図１８は、通信端末における記録中の画面表示例である。通信端末３のディスプレイ３１８には、上述したステップＳ６０の処理が実行されることにより、表示制御部３４によって記録中画面３１３１が表示される。記録中画面３１３１には、例えば、図１４に示した記録終了指示画面３１２１の内容に加えて、少なくとも一以上のテキスト表示欄が表示される。このテキスト表示欄では、発話した利用者ごとに、利用者の顔写真又はイメージ画像、発話日時、発話内容を一単位として時系列に表示される。ここで、テキスト表示欄には、例えば、音声認識サーバ７が送信した「診療予約システムの開発日程はご覧の通りです。」、「今回の開発はジャイロ方式を採用します。」、「最近503のリン商用が注目されています。」といった内容のテキスト情報が表示される。なお、テキスト表示欄に表示される内容は、後述する音声認識エンジン変更画面以降で変更されるが、記録中画面３１３１において音声認識を変更して再度認識するようにしてもよい。

【0130】

記録中画面３１３１には、更に、表示制御部３４によって、利用者が発話した発話音声に対応付けられた特定のテキストを認識するための辞書情報を通知する音声認識エンジン表示欄３１３２が表示される。音声認識エンジン表示欄３１３２では、「汎用」分野の音声認識エンジン(辞書)が選択されていることが示されている。

【0131】

記録中画面３１３１には、更に、表示制御部３４によって記録の一時停止を指示するための一時停止ボタン３５２１、及び記録終了を指示するための記録終了ボタン３５２２が表示される。利用者は、一時停止ボタン３５２１又は記録終了ボタン３５２２を操作(押下又はタップ等)することにより、会議等のイベントで発話される発話内容の記録を一時停止又は終了させることができる。そして、記録終了ボタン３５２２が操作されると、通信端末３は、テキスト情報管理装置５に対して音声データの送信を開始する。

【0132】

＜記録終了処理＞
次に、記録終了処理について説明する。図１９は、記録終了処理の一例を示すシーケンス図である。まず、通信端末３の操作受付部３２は、利用者による記録終了ボタン３５２２に対する操作によって、記録終了指示を受け付ける（ステップＳ８１）。この記録終了指示は、会議等のイベントで発話される発話内容の記録を終了させるための指示であり、例えば、図１８に示した記録中画面３１３１に表示された記録終了ボタン３５２２を利用者が操作(押下又はタップ等)することで行われる。

【0133】

次に、送受信部３１は、テキスト情報管理装置５に対して、記録終了要求を送信する（ステップＳ８２）。これにより、テキスト情報管理装置５の送受信部５１は、通信端末３が送信した記録終了要求を受信する。

【0134】

次に、テキスト情報管理装置５の送受信部５１は、音声認識サーバ７に対して音声情報送信終了通知を送信する（ステップＳ８３）。これにより、音声認識サーバ７の送受信部７１は、テキスト情報管理装置５が送信した音声情報送信終了通知を受信する。

【0135】

続いて、音声認識サーバ７の送受信部７１は、テキスト情報管理装置５に対して音声情報送信終了通知の受領を送信する（ステップＳ８４）。これにより、テキスト情報管理装置５の送受信部５１は、音声認識サーバ７が送信した音声情報送信終了通知の受領を受信する。

【0136】

次に、テキスト情報管理装置５の送受信部５１は、通信端末３に対して、記録終了画面表示要求を送信する（ステップＳ８５）。これにより、通信端末３の送受信部３１は、テキスト情報管理装置５が送信した記録終了画面表示要求を受信する。

【0137】

次に、通信端末３の表示制御部３４は、ディスプレイ３１８に、図２０に示すような記録終了画面を表示する（ステップＳ８６）。なお、ステップＳ８６の処理は省略されてもよい。

【0138】

一方、ステップＳ８５において記録終了画面表示要求を送信したテキスト情報管理装置５の生成部５７は、記録終了操作が行われた所定のイベントの音声記録データを生成する（ステップＳ８７）。具体的には、生成部５７は、テキスト情報管理ＤＢ５００５Ａ（図９Ａ参照）で管理されている複数の音声データパス(「…/0005006/0005.mp3」「…/0005006/0006.mp3」等)を合体させて、記録書誌情報管理ＤＢ５００３（図７参照）で管理されている音声記録データの記憶先である音声データパス（「…/00005006/record.mp3）」等）を生成する。

【0139】

続いて、登録部５８は、ステップＳ８７の処理で生成された音声データパスを含む記録書誌情報を、記録書誌情報管理ＤＢ５００３（図７参照）に登録する（ステップＳ８８）。このときに登録部５８によって登録される記録書誌情報は、終了日時及び音声データパス(「…/00005006/record.mp3」)を含む情報となる。

【0140】

●画面表示例●
図２０は、通信端末における記録終了時の画面表示例である。通信端末３のディスプレイ３１８には、上述したステップＳ８６の処理が実行されることにより、表示制御部３４によって記録終了画面３１４１が表示される。記録終了画面３１４１には、例えば、保存終了を示す保存終了マーク、新しい会議を記録するための会議設定ボタン３５３１、及びログを見るためのログ確認ボタン３５３２が表示される。利用者は会議設定ボタン３５３１を操作することによって新しい会議を記録する画面に遷移することができる。また、利用者は、ログ確認ボタン３５３２を操作することによって、所定のイベントで発話された内容の履歴、利用者によって操作された各種ボタン、処理のログを含む各種情報(データ)を確認することができる。

【0141】

＜音声認識エンジン変更開始処理＞
次に、音声認識エンジン変更開始処理について説明する。図２１は、音声認識エンジン変更開始処理の一例を示すシーケンス図である。本実施形態において、音声認識エンジンを変更する際に確認する音声記録の閲覧及び編集機能は、Ｗｅｂサービスとして提供されることが可能である。そのため、テキスト情報管理装置５は、Ｗｅｂサーバの機能を有しており、画面全体又は画面の一部を表示させるための画面データを、議事録閲覧端末の一例である通信端末３（Ｃ）に送信して、議事録作成端末の一例である通信端末３（Ａ）のブラウザアプリに表示させる。また、テキスト情報管理装置５が通信端末３（Ｃ）にコンテンツデータ及び各種表示のための表示指示情報を送信し、通信端末３（Ｃ）にインストールされたアプリに所定の画面を表示させるようにしてもよい。

【0142】

このような前提で、まず、通信端末３の表示制御部３４は、ディスプレイ３１８に図２２に示すような記録選択画面を表示し、操作受付部２２は、この記録選択画面における利用者による記録選択の操作を受け付ける（ステップＳ９１）。

【0143】

●画面表示例●
図２２は、通信端末における記録選択時の画面表示例である。通信端末３のディスプレイ３１８には、上述したステップＳ９１の処理が実行されることにより、表示制御部３４によって記録選択画面３１５１が表示される。記録選択画面３１５１には、例えば、記録内容を示す日時とイベントタイトルを一揃えとして選択可能な表示形態で表示される。これにより、利用者は、任意の日付及びイベントタイトルで表された所定のイベントを、マウス等を用いて選択することができる。本実施形態では、「2021/3/31 11:01:15-12:00:00」を日付情報として管理された「○○定例会議」のイベントが利用者によって選択された場合が示されている。例えば、通信端末３(Ａ)の利用者が、記録選択画面３１５１中の所定のイベントタイトルをマウスオーバー操作によってマウスポインタ(カーソル)３７０１を翳すと、マウスポインタ(カーソル)３７０１によって翳されたイベントタイトルに対応付けられた「共有」ボタンが表示される。そこで、通信端末３(Ａ)の利用者は、「共有」ボタンを操作することによって、所定のＵＲＬとパスコードを含むダイアログにアクセスすることが可能となる。通信端末３(Ａ)の利用者は、このダイアログに所定の情報を入力することにより、後述する音声認識エンジン変更画面へのアクセスが可能になる。

【0144】

図２１に戻り、通信端末３の送受信部３１は、テキスト情報管理装置５に対して、音声認識エンジン変更画面要求を送信する（ステップＳ９２）。これにより、テキスト情報管理装置５の送受信部５１は、通信端末３が送信した音声認識エンジン変更画面要求を受信する。このとき、音声認識エンジン変更画面要求には記録識別情報（「R5006」,「R5007」等）が含まれる。なお、ステップＳ９１及びＳ９２の処理が実行される際に、通信端末３のディスプレイ３１８には、所定のイベントに参加した参加者(利用者)がログイン済みの状態で、上述した記録選択画面３１５１が表示されている。

【0145】

次に、テキスト情報管理装置５の取得部５２は、ステップＳ９２で受信した記録識別情報を検索キーとして記録書誌情報管理ＤＢ５００３（図７参照）、キャプチャ画像管理ＤＢ５００４（図８参照）、及びテキスト情報管理ＤＢ５００５Ａ（図９Ａ参照）をそれぞれ検索することにより、対応する記録書誌情報、キャプチャ情報、及びテキスト情報を取得する（ステップＳ９３）。具体的には、取得部５２は、記録識別情報を検索キーとして記録書誌情報管理ＤＢ５００３（図７参照）を検索することにより、対応する記録書誌情報を取得する。ここで記録書誌情報には、記録名称、開始日時、利用者識別情報、イベントＵＲＬが含まれる。また、取得部５２は、記録識別情報を検索キーとしてキャプチャ画像管理ＤＢ５００４（図８参照）を検索することにより、対応するキャプチャ情報を取得する。ここでキャプチャ情報には、画像ＩＤ、取得時間、画像データパスが含まれる。更に、取得部５２は、記録識別情報を検索キーとしてテキスト情報管理ＤＢ５００５Ａ（図９Ａ参照）を検索することにより、対応するテキスト情報を取得する。ここでテキスト情報には、テキスト識別情報、開始時間、終了時間、テキスト、音声データパスが含まれる。

【0146】

続いて、生成部５７は、ステップＳ９３の処理で取得した各種情報に基づいて、音声認識エンジン変更画面を生成する。より詳細には、生成部５７は記憶読出部５９と協働して、音声認識エンジン変更画面を構成する画面構成データ(画面用のテンプレートデータ)を、例えば、記憶部５０００の所定領域から読み出す。その後、生成部５７は、記録書誌情報管理ＤＢ５００３（図７参照）で管理されている記録名称、開始日時、利用者識別情報(ユーザＩＤ)、イベントＵＲＬを含む記録書誌情報、テキスト情報、キャプチャ画像等を画面構成データに組み込み、音声認識エンジン変更画面データを生成する（ステップＳ９４）。

【0147】

続いて、送受信部５１は、音声認識エンジン変更画面要求に対する応答として通信端末３に対して、音声認識エンジン変更画面データを送信する（ステップＳ９５）。これにより、通信端末３の送受信部３１は、テキスト情報管理装置５が送信した音声認識エンジン変更画面データを受信する。

【0148】

次に、通信端末３の表示制御部３４は、ディスプレイ３１８に、図２３に示した音声認識エンジン変更画面を表示する（ステップＳ９６）。

【0149】

●画面表示例●
図２３は、通信端末における音声認識エンジン変更画面の画面表示例である。通信端末３のディスプレイ３１８には、上述したステップＳ９６の処理が実行されることにより、表示制御部３４によって音声認識エンジン変更画面３１６１が表示される。音声認識エンジン変更画面３１６１には、図１８に示した記録中画面３１３１と同様に、「概要(議題)」、「参加者」、「会議メモ」、「ブックマーク」の各入力欄が表示される。音声認識エンジン変更画面３１６１には、更に、画面キャプチャ処理によってキャプチャ処理された画面３、画面４及び画面５が、それぞれキャプチャ処理された時刻ごとに、テキスト表示欄とあわせて表示される。一方で、音声認識エンジン変更画面３１６１は、記録処理が終了した時点でディスプレイ３１８に表示されるため、記録の一時停止を指示するための一時停止ボタンと記録終了を指示するための記録終了ボタンは表示されない。

【0150】

なお、音声認識エンジン変更画面３１６１では、各テキスト表示欄の近傍にマウスが置かれた(マウスオーバー処理が行われた)などの処理が行われた場合、音声再生ボタン、ブックマークボタン、及び削除ボタンが、マウスが置かれた近傍に表示されてもよい。これらの各ボタンのうち、音声再生ボタンは、利用者が特定の音声を再生させるためのボタンである。利用者は、音声再生ボタンを操作することにより、利用者が選択した特定の音声記録に係る音声を再生させることができる。また、ブックマークボタンは、利用者が特定のブックマーク機能を実現するためのボタンである。利用者は、ブックマークボタンを操作することにより、利用者が選択した特定の音声記録を上述した「ブックマーク」欄に表示させることができる。更に、削除ボタンは、特定のテキストを削除するためのボタンであり、利用者は、削除ボタンを操作することにより、特定のテキストを削除させることができる。

【0151】

音声認識エンジン変更画面３１６１には、更に、表示制御部３４によって、利用者が発話した発話音声に対応付けられた特定のテキストを認識するための辞書情報を通知する音声認識エンジン表示欄３１６２が表示される。音声認識エンジン表示欄３１６２では、「汎用」分野の音声認識エンジン(辞書)が選択されていることが示されている。

【0152】

音声認識エンジン変更画面３１６１には、更に、表示制御部３４によって辞書変更操作部の一例としての「音声認識エンジン変更」ボタン３５４１－３５４４が、各テキスト表示欄の近傍に表示される。これにより、利用者は、利用者が発話した発話内容に基づいて音声認識サーバが認識したテキスト情報に対して、「音声認識エンジン変更」ボタン３５４１－３５４４のうちいずれかのボタンを操作することで、所望のテキスト情報に対して別の音声認識エンジン(辞書)を用いて再度認識をさせることができる。

【0153】

＜音声認識エンジン変更処理＞
図２４は、音声認識エンジンの変更処理の一例を示すシーケンス図である。図２４に示されているように、操作受付部３２は、ディスプレイ３１８に表示された音声認識エンジン変更画面３１６１の「音声認識エンジン変更」ボタン３５４１－３５４４のうちのいずれかのボタンに対する操作を受け付ける（ステップＳ１０１）。本実施形態では、「音声認識エンジン変更」ボタン３５４４が操作された場合を説明する。

【0154】

次に、送受信部３１は、テキスト情報管理装置５に対して、音声認識エンジンリスト要求を送信する（ステップＳ１０２）。これにより、テキスト情報管理装置５の送受信部５１は、通信端末３が送信した音声認識エンジンリスト要求を送信する。このとき、音声認識エンジンリスト要求には、音声認識エンジン識別情報のうちの上位一致部分が含まれる。ここで音声認識エンジン識別情報のうちの上位一致部分とは、例えば、音声認識エンジン管理ＤＢ５００２（図６参照）で管理されている音声認識エンジン識別情報の「VR」の部分である。つまり、ステップＳ１０２の処理では、通信端末３は、音声認識エンジン管理ＤＢ５００２（図６参照）で管理されている音声認識エンジン名のすべてのリストを要求する処理が実行される。

【0155】

次に、テキスト情報管理装置５の取得部５２は、ステップＳ１０２で受信された音声認識エンジン識別情報に対応する全ての音声認識エンジンのリストを取得する（ステップＳ１０３）。

【0156】

続いて、送受信部５１は、通信端末３に対して音声認識エンジンリスト応答を送信する（ステップＳ１０４）。これにより、通信端末３の送受信部３１は、テキスト情報管理装置５が送信した音声認識エンジンリスト応答を受信する。このとき、音声認識エンジンリスト応答には、音声認識エンジン識別情報、音声認識エンジン名、音声認識エンジン名に対応するＵＲＬ情報が含まれる）。

【0157】

次に、通信端末３の表示制御部３４は、ステップＳ１０５において受信された音声認識エンジンリストをディスプレイ３１８に表示する（ステップＳ１０５）。具体的には、表示制御部３４は、音声認識エンジン変更画面３１６１に表示された「音声認識エンジン変更」ボタン３５４１－３５４４のうちのいずれかのボタンに対する操作に応じて、図２５に示すような「音声認識エンジン選択」ダイアログ３１７１を表示する。なお、「音声認識エンジン選択」ダイアログ３１７１は、辞書選択部の一例である。

【0158】

●画面表示例●
図２５は、通信端末における音声認識エンジン選択ダイアログの画面表示例である。通信端末３のディスプレイ３１８には、上述したステップＳ１０５の処理が実行されることにより、表示制御部３４によって「音声認識エンジン選択」ダイアログ３１７１が表示される。「音声認識エンジン選択」ダイアログ３１７１には、ステップＳ１０４で受信された音声認識エンジンがリスト表示され、プルダウンキーもあわせて表示される。更に、ＯＫボタン３５５１、キャンセルボタン３５５２が表示される。ＯＫボタン３５５１は、プルダウンキー等を用いて選択された音声認識エンジンを確定させるための操作ボタンである。また、キャンセルボタン３５５２は、この「音声認識エンジン選択」ダイアログの利用を中止するための操作ボタンである。なお、「音声認識エンジン選択」ダイアログ３１７１は、利用者によって操作された「音声認識エンジン変更」ボタン３５４１－３５４４のうちのいずれかのボタンに重複(重畳)させるようにポップアップ表示されてもよい。更に、「音声認識エンジン選択」ダイアログ３１７１は、音声認識エンジン変更画面３１６１中の空いている場所に表示されてもよい。なお、図２５に示した「音声認識エンジン選択」ダイアログ３１７１では、利用者によるプルダウンキーの操作によって「医療」の音声認識エンジン(辞書)が選択されている状態が示されている。本実施形態において、「医療」の音声認識エンジン(辞書)は、特定の辞書を示す特定辞書情報の一例として機能する。

【0159】

図２４に戻り、通信端末３の操作受付部３２は、利用者による音声認識エンジン選択を受け付ける（ステップＳ１０６）。図２５の場合、利用者によって「医療」に係る音声認識エンジン(辞書)が選択された状態が示されている。

【0160】

次に、送受信部３１は、テキスト情報管理装置５に対して音声再認識要求を送信する（ステップＳ１０７）。これにより、テキスト情報管理装置５の送受信部５１は、通信端末３が送信した音声再認識要求を受信する。このとき、音声再認識要求には、利用者によって新たに選択された音声認識エンジンの音声認識エンジン識別情報、及び音声再認識要求に対応するテキストのテキスト識別情報が含まれる。具体的には、音声認識エンジン識別情報は、「医療」の音声認識エンジン(辞書)を示す「VR0002」である。この「医療」の音声認識エンジン(辞書)を示す「VR0002」は、特定の辞書を示す特定辞書情報の一例である。また、音声再認識要求に対応するテキストは、例えば、図２３に示された「2021/03/31 11:02:05」に発話され認識された「最近503のリン商用が注目されています。」というテキストである。この方法は、例えば、利用者によって、マウスポインタ(カーソル)３７０１が上述したテキストの横に表示された「音声認識エンジン変更」ボタン３５４４が操作されることで、取得部５２が、「音声認識エンジン変更」ボタン３５４４に対応付けられたテキストとして「最近503のリン商用が注目されています。」を取得するようにしてもよい。更に、次の処理ステップで用いられるこのテキストに対応するテキスト識別情報は、テキスト情報管理装置５のテキスト情報管理ＤＢ５００５（図９参照）で管理されている「T007」となる。

【0161】

次に、テキスト情報管理装置５の取得部５２は、ステップＳ１０７で受信したテキスト識別情報を検索キーとしてテキスト情報管理ＤＢ５００５Ａ（図９Ａ参照）を検索することにより、対応する音声データ(音声データパス)を読み出す（ステップＳ１０８）。

【0162】

続いて、取得部５２は、ステップＳ１０７で受信された音声認識エンジン識別情報を検索キーとして音声認識エンジン管理ＤＢ５００２（図６参照）を検索することにより、対応する音声認識エンジンのＵＲＬを取得する（ステップＳ１０９）。

【0163】

図２６は、音声認識エンジン変更後の音声認識処理の一例を示すシーケンス図である。テキスト情報管理装置５の送受信部５１は、ステップＳ１０８の処理で取得した音声データ及びステップＳ１０８の処理で取得したＵＲＬ情報で示される音声認識サーバ(例えば、音声認識サーバ９)に対して音声再認識要求を送信する（ステップＳ１１１）。これにより、音声認識サーバ９の送受信部９１は、テキスト情報管理装置５が送信した音声再認識要求を受信する。なお、送受信部９１は、音声データに代えて、テキスト情報管理ＤＢ５００５Ａ（図９Ａ）で管理されているテキストに対応する音声データパス(/0005006/0007.mp3等)を受信してもよい。

【0164】

ステップＳ１１１の処理において、テキスト情報管理装置５が送信した音声再認識要求は音声認識サーバ９によって受信されたが、音声再認識要求に含まれるＵＲＬ情報で示される音声認識エンジン(辞書)が、音声認識サーバ７で管理されている場合は、音声認識サーバ７に対して音声再認識要求が送信されてよい。つまり、テキスト情報管理装置５の送受信部５１は、ステップＳ１１１の処理において音声再認識要求を送信する際、音声再認識要求に含まれるＵＲＬが示す宛先に応じて音声認識サーバを選択して送信する機能を有する。

【0165】

続いて、音声認識サーバ９の音声認識部９６は、受信した音声データ(音声情報)をもとにテキスト情報への音声認識処理を実行する（ステップＳ１１２）。このときに実行される認識処理において、ステップＳ１１１で受信されたＵＲＬには、「医療」に係る音声認識エンジン(辞書)にアクセスするためのＵＲＬ情報が含まれる。これにより、音声認識サーバ９は、音声認識サーバ９が管理する医療分野に関する辞書情報を検索することが可能になる。なお、音声認識サーバ９が音声情報に対してテキスト情報を認識する場合、以下のような方法が考えられる。例えば、音声認識サーバ９は、ステップＳ１１１において、「音声認識エンジン変更」ボタン３５４４に対する操作を受け付ける。その後、音声認識サーバ９は、「最近503のリン商用が注目されています。」と認識された音声データ(音声情報)と、医療分野の音声認識エンジン(辞書)が管理されているＵＲＬ情報と、を受信する。そして、音声認識部９６は、受信した「最近503のリン商用が注目されています。」認識された音声データ(音声情報)に含まれる「503」の音声情報（例えば、「GO REI SAN」という音声情報）について、医療分野の音声認識エンジンを用いて「GO REI SAN」という音声情報に最も近い「五苓散」という単語を新たに認識する。同様に、音声認識部９６は、受信した「最近503のリン商用が注目されています。」認識された音声データ(音声情報)に含まれる「リン商用」の音声情報（例えば、「RIN-SHOU-YOU」という音声情報）について、医療分野の音声認識エンジンを用いて「RIN-SHOU-YOU」に最も近い「臨床応用」という単語を新たに認識する。

【0166】

続いて、音声認識サーバ９の送受信部９１は、テキスト情報管理装置５に対して認識応答を送信する（ステップＳ１１３）。これにより、テキスト情報管理装置５の送受信部５１は、音声認識サーバ９が送信した認識応答を受信する。このとき、認識応答には、ステップＳ１１２で音声認識サーバ９が認識したテキストデータ(第２のテキスト情報の一例)が含まれる。

【0167】

次に、テキスト情報管理装置５の登録部５８は、ステップＳ１０７で受信した音声認識エンジン識別情報と、ステップＳ１１３で受信したテキストデータとを、テキスト情報管理ＤＢ５００５Ｂ（図９Ｂ参照）で管理されている再認識結果１のステップＳ１０７で受信したテキスト識別情報に対応する項目に登録する（ステップＳ１１４）。具体的には、登録部５８は、ステップＳ１０７で受信した特定辞書情報の一例である「医療」の音声認識エンジン(辞書)を示す「VR0002」と、ステップＳ１１３で受信した第２のテキスト情報である「最近五苓散の臨床応用が注目されています。」というテキスト情報とを、テキスト情報管理ＤＢ５００５Ｂ（図９Ｂ参照）で管理されているテキスト識別情報T007に対応する再認識結果１のテキスト欄に登録する。

【0168】

次に、送受信部５１は、通信端末３に対して、画面更新要求を送信する（ステップＳ１１５）。これにより、通信端末３の送受信部３１は、テキスト情報管理装置５が送信した画面更新要求を受信する。このとき、画面更新要求には、第２のテキスト情報の一例としての再認識テキストに係る再認識テキスト情報、及び音声認識エンジン名を示す音声認識エンジン情報が含まれる。具体的には、送受信部５１は、通信端末３が送信した音声情報に基づいて第１の辞書により認識された第１のテキスト情報を通信端末３に送信した後、第１のテキスト情報に対応する音声情報に基づいて第２の辞書により認識された第２のテキスト情報を、通信端末３に送信する。この場合、例えば、第１のテキスト情報は、上述した「最近503のリン商用が注目されています。」である。また、第１のテキスト情報に対応する音声情報は、例えば、「SAI-KIN GO REI SAN NO RIN SHOU YOU GA CHUU MOKU SARETE IMASU」という音声情報、若しくは「GO REI SAN」「RIN SHOU YOU」という音声情報である。更に、第２のテキスト情報は、例えば、後述する「最近五苓散の臨床応用が注目されています。」であり、再認識テキストは、例えば、「五苓散」、「臨床応用」である。

【0169】

続いて、通信端末３の表示制御部３４は、音声認識結果画面(音声認識エンジン変更画面３１６１)を更新表示する（ステップＳ１１６）。具体的には、表示制御部３４は、テキスト情報管理装置５が送信した再認識テキスト情報(第２のテキスト情報)を、利用者が発話した発話音声に対応付けて(特定のテキストごとに)ディスプレイ３１８に表示する。これにより、利用者は、「音声認識エンジン変更」ボタン３５４１－３５４４のうちのいずれかのボタン及び「音声認識エンジン選択」ダイアログ３１７１で選択した音声認識エンジン(辞書)によって再認識されたテキスト情報を音声再認識結果画面３１８１で確認することができる。

【0170】

●画面表示例●
図２７は、通信端末における音声再認識結果画面の画面表示例である。通信端末３のディスプレイ３１８には、上述したステップＳ１１６の処理が実行されることにより、表示制御部３４によって音声再認識結果画面３１８１が表示される。音声再認識結果画面３１８１では、図２３に示した「音声認識エンジン変更」ボタン３５４４に対する再認識結果が、対応するテキスト表示欄の近傍に表示される。この場合、「最近503のリン商用が注目されています。」という第１のテキスト情報に代えて、「最近五苓散の臨床応用が注目されています。」という第２のテキスト情報の一例が上述したテキスト表示欄に表示される。

【0171】

更に、音声再認識結果画面３１８１には、表示制御部３４によって、利用者が発話した発話音声に対応付けられた特定のテキストを認識するための辞書情報を通知する音声認識エンジン表示欄３１８２が表示される。音声認識エンジン表示欄３１８２では、音声認識サーバ９によって利用された音声認識エンジン(辞書)の分野を示す「医療」が表示される。これにより、音声再認識結果画面３１８１を複数の利用者の間で共有するような利用環境においては、以下のような効果も期待できる。すなわち、「音声認識エンジン変更」ボタン３５４４を操作した利用者以外の他の利用者がこの音声再認識結果画面３１８１を見た場合でも、利用者が発話した特定の発話内容に対して、音声認識サーバが「医療」分野の音声認識エンジン(辞書)を用いて認識を行ったことを把握することが可能になる。

【0172】

〔第１の実施形態の主な効果〕
以上説明したように本実施形態によれば、テキスト情報管理システムは、通信端末３が送信した、利用者が発話した発話音声に係る音声情報を受信し（ステップＳ５２）、受信された音声情報に基づいて音声認識サーバ７が第１の辞書により認識した第１のテキスト情報を通信端末３に送信する（ステップＳ５９）。続いて、テキスト情報管理装置５は、第１のテキスト情報に対応する音声情報に基づいて音声認識サーバ９が第２の辞書により認識した第２のテキスト情報を通信端末３に送信する（ステップＳ１１５）。そして、通信端末３は、第２のテキスト情報を、利用者が発話した特定の発話ごとにディスプレイ３１８に表示する（ステップＳ１１６）。これにより、利用者が発話した発話音声の内容に応じて辞書を切り替えて音声認識を実行させるので、利用者が発話した発話音声に基づいて認識されるテキスト情報の認識精度を向上させることが可能になるという効果を奏する。

【0173】

更に、本実施形態によれば、通信端末３のディスプレイ３１８の音声認識エンジン表示欄に、再認識に使用された音声認識エンジン(辞書)の情報が表示されるので、利用者は、発話内容に対してどの音声認識エンジン(辞書)が使用されたかを、再認識されたテキスト情報(第２のテキスト情報の一例)とあわせて確認することができる。これにより、利用者は、以降、類似の発話内容を行った後、音声認識エンジンを変更する際に、音声認識エンジン表示欄に表示された音声認識エンジン(辞書)を参考に効率的な議事録の編集作業を行うことが可能になる。

【0174】

〔第２の実施形態〕
次に、図２８及び図３３を用いて、第２の実施形態について説明する。第２の実施形態に係る第１の実施形態との相違点は、音声認識サーバ７又は音声認識サーバ９が送信する情報を扱うデータテーブルに「確信度」が新たに設けられた点である。つまり、通信システム１を構成する各ハードウエア資源、各ハードウエア資源における機能構成は、第１の実施形態と同様とした上で、データテーブルの構造が一部変更されている。

【0175】

●テキスト情報管理テーブル●
図２８Ａは、第２の実施形態に係るテキスト情報管理テーブルの一例を示す概念図である。記憶部５０００には、図２８Ａに示されているようなテキスト情報管理テーブルによって構成されたテキスト情報管理ＤＢ５００５Ｃが構築されている。テキスト情報管理ＤＢ５００５Ｃでは、図９Ａに示されたテキスト情報管理ＤＢ５００５Ａを構成するテキスト情報管理テーブルに、「確信度」の項目が追加されている。この「確信度」は、音声認識サーバ７が送信した、特定の音声情報に対して第１の辞書識別情報に基づいて認識された特定のテキストに対する確からしさを示す割合([%])である。「確信度」は、更に、音声認識サーバ９が送信した、特定の音声情報に対して第２の辞書識別情報に基づいて認識された特定のテキストに対する確からしさを示す割合([%])である。テキスト情報管理ＤＢ５００５Ｃでは、この「確信度」が、テキスト情報識別情報ごとに管理される。

【0176】

●テキスト情報管理テーブル●
図２８Ｂは、第２の実施形態に係るテキスト情報管理テーブルの一例を示す概念図である。記憶部５０００には、図２８Ｂに示されているようなテキスト情報管理テーブルによって構成されたテキスト情報管理ＤＢ５００５Ｄが構築されている。テキスト情報管理ＤＢ５００５Ｄでは、図２８Ａで示したテキスト情報管理ＤＢ５００５Ｃを構成するテキスト情報管理テーブルで管理されている「確信度」に加えて、音声認識サーバで認識された再認識結果を管理する再認識結果１、再認識結果２、・・・の項目が追加されている。再認識結果の項目は更に、テキスト、音声認識エンジン及び「確信度」の項目が管理されている。つまり、テキスト情報管理ＤＢ５００５Ｄを構成するテキスト情報管理テーブルでは、音声認識サーバで２回目以降繰り返し認識された再認識結果がまとめて管理される。

【0177】

●テキスト情報管理テーブル●
図２８Ｃは、第２の実施形態に係るテキスト情報管理テーブルの一例を示す概念図である。記憶部５０００には、図２８Ｃに示されているようなテキスト情報管理テーブルによって構成されたテキスト情報管理ＤＢ５００５Ｅが構築されている。テキスト情報管理ＤＢ５００５Ｅでは、テキスト情報管理ＤＢ５００５Ｄを構成するテキスト情報管理テーブルに登録された再認識結果が、テキスト情報管理ＤＢ５００５Ｅを構成するテキスト情報管理テーブルの再認識結果の項目に登録、管理される。つまり、テキスト情報管理ＤＢ５００５Ｅを構成するテキスト情報管理テーブルに登録、管理されるテキスト情報のうち、利用者が発話した発話音声に係る音声情報に対して、最新のテキスト情報が登録、管理される。

【0178】

＜音声認識処理＞
図２９は、第２の実施形態に係る音声認識処理の一例を示すシーケンス図である。図２９に示されたシーケンス図は、図１６に示された音声認識処理におけるシーケンス図と基本的に同様である。但し、ステップＳ１５５に示した、音声認識サーバがテキスト情報管理装置５に対して送信する音声認識結果に「確信度」が新たに含まれている点で、図１６に示したステップＳ５５の処理と相違する。これにより、テキスト情報管理装置５は、音声認識サーバ７が送信した「確信度」に基づいてテキスト情報の登録、テキストデータの取得等の処理を行う。

【0179】

＜音声認識エンジン変更処理＞
図３０は、第２の実施形態に係る音声認識エンジンの変更処理の一例を示すシーケンス図である。図３０に示されたシーケンス図は、図２４に示された音声認識エンジン変更処理におけるシーケンス図と基本的に同様である。但し、ステップＳ２０４に示した、テキスト情報管理装置５が通信端末３に対して送信する音声認識エンジンリスト応答に「確信度」が新たに含まれている点で、図２４に示したステップＳ１０４の処理と相違する。これにより、通信端末３の表示制御部３４は、利用者に対して音声認識エンジン(辞書)の変更を促すように、ディスプレイ３１８に「確信度」を含めた音声認識エンジンリストを表示する（ステップＳ２０５）。

【0180】

続いて、操作受付部３２は、音声認識エンジン選択を受け付け（ステップＳ２０６）、以降のステップＳ２０７－Ｓ２０９までの処理は、図２４に示したステップＳ１０７－Ｓ１０９までの処理と同様の処理が行われる。

【0181】

●画面表示例●
図３１は、第２の実施形態に係る通信端末における音声認識エンジン選択ダイアログの画面表示例である。通信端末３のディスプレイ３１８には、上述したステップＳ２０５の処理が実行されることにより、表示制御部３４によって「音声認識エンジン選択」ダイアログ３２０１が表示される。「音声認識エンジン選択」ダイアログ３２０１には、ステップＳ２０４で受信された音声認識エンジンがリスト表示され、プルダウンキーもあわせて表示される。更に、ＯＫボタン３６０１、キャンセルボタン３６０２が表示される。図３１に示した「音声認識エンジン選択」ダイアログ３２０１では、プルダウンキーで選択される音声認識エンジン(辞書)に対応させて「確信度」([%])が表示される。この「確信度」の値は、例えば、それぞれの音声認識エンジン(辞書)で認識された特定のテキスト情報に係る最新の「確信度」が与えられる。なお、図３１に示した「音声認識エンジン選択」ダイアログ３２０１では、利用者によるプルダウンキーの操作によって「ＩＴ」の音声認識エンジン(辞書)が選択されている状態が示されている。これは、特定のテキスト情報が「今回の開発はジャイロ方式を採用します。」という内容であり、このテキスト情報に対しては、「ＩＴ」分野の音声認識エンジン(辞書)が「確信度」の値が高いという利用者の判断に基づく一連の処理であってもよい。これにより利用者は、例えば、会議の議事録を編集する際に、対象となる音声情報に対しては「確信度」の高い音声認識エンジン(辞書)を選択すればよいため、議事録の編集の際の更なる効率化が期待できる。

【0182】

＜音声認識エンジン変更処理＞
図３２は、第２の実施形態に係る音声認識エンジン変更後の音声認識処理の一例を示すシーケンス図である。図３２に示されたシーケンス図は、図２６に示された音声認識エンジン変更処理におけるシーケンス図と基本的に同様である。但し、ステップＳ２１４に示した、テキスト情報管理装置５が行う再認識結果の登録処理において「確信度」を用いた処理が行われる点で、図２６に示したステップＳ１１４の処理と相違する。そこで、ステップＳ２１４における再認識結果の登録処理については、以下のフローチャートで詳細に説明し、他のステップＳ２１１－Ｓ２１３，ステップＳ２１５，２１６の各処理の説明を省略する。

【0183】

＜再認識結果の登録処理＞
図３３は、第２の実施形態に係る再認識結果の登録処理の一例を示すフローチャートである。このフローチャートでは、以下に示すステップＳ２１４－１からＳ２１４－８までの処理がループ処理される。テキスト情報管理装置５は、テキスト情報管理テーブルに登録された各テキストを対象に以下の処理を実行する（ステップＳ２１４－１）。

【0184】

まず、取得部５２は、テキスト識別情報を検索キーとしてテキスト情報管理ＤＢ５００５Ｃ（図２８Ａ参照）を検索することにより、対応する「確信度」を取得する（ステップＳ２１４－２）。

【0185】

次に、判断部５５は、取得した「確信度」に対して所定の閾値を超えたかを判断する（ステップＳ２１４－３）。このときの閾値は、例えば、80[%],90[%]などの割合で示される。さらに、判断部５５は、所定の閾値を超えたかを判断する際、所定の閾値を超えたか否かを更に判断するようにしてもよい。閾値を超えたと判断された場合、テキスト情報管理装置５は、「確信度」を取得したテキストに対して特に処理を行わずに、次のテキストに対する処理に移行する。

【0186】

他方、閾値を超えていないと判断された場合、取得部５２は、使用した音声認識エンジン以外の音声認識エンジンリストを取得する（ステップＳ２１４－４）。具体的には、取得部５２は、例えば、図３１に示した「音声認識エンジン選択」ダイアログ３２０１に対して、利用者が新たに選択した音声認識エンジンに係る音声認識エンジン識別情報を検索キーとして音声認識エンジン管理ＤＢ５００２（図６参照）を検索することにより、対応する音声認識エンジン名及びＵＲＬのリストを取得する。

【0187】

続いて、送受信部５１は、取得した各音声認識エンジンのＵＲＬに対して音声再認識要求を送信する（ステップＳ２１４－５）。

【0188】

続いて、取得部５２は、認識結果のテキストと「確信度」を取得し、登録部５８は、取得したテキストと「確信度」を、テキスト情報管理ＤＢ５００５Ｄ（図２８Ｂ参照）に登録する（ステップＳ２１４－６）。

【0189】

続いて、記憶読出部５９は、ステップＳ２１４－６で登録したテキストと「確信度」を、テキスト情報管理ＤＢ５００５Ｅ（図２８Ｃ参照）に登録する（ステップＳ２１４－７）。なお、テキスト情報管理ＤＢ５００５Ｄとテキスト情報管理ＤＢ５００５Ｅは、一つのＤＢで管理されるように構築されてもよい。以上、ステップＳ２１４－７までの処理をテキストごとに繰り返し、テキスト情報管理装置５は、処理対象のテキストが無くなった時点でこのフローを抜ける（ステップＳ２１４－８）。

【0190】

〔第２の実施形態の主な効果〕
以上説明したように本実施形態によれば、テキスト情報管理システムは、「確信度」を利用して利用者に対して音声認識エンジン(辞書)の変更を促すように音声認識エンジンリストを表示する（ステップＳ２０５）。その後、利用者によって選択された音声認識エンジンに基づいて再度認識された再認識結果を通信端末３に表示する。これにより、第１の実施形態の効果に加えて、利用者が発話した発話音声に対する認識精度をより効率的に向上させることが可能になるという効果を奏する。

【0191】

〔実施形態の変形例〕
続いて、実施形態の変形例について説明する。なお、実施形態の変形例においても、第１の実施形態で説明した通信システムのシステム構成、通信システム１を構成する各ハードウエア資源、及び各ハードウエア資源における機能構成は、第１の実施形態と同様である。この前提において、実施形態の変形例では、第１の実施形態で説明した発話単位ではなく、利用者が発話した発話文中の任意の単語単位で再認識を行う。単語単位での再認識は、利用者が発話した発話単位を単語ごとに切り分け、切り分けた単語に対応する発話開始日時と終了日時を含む情報を、音声認識サーバから受信する。これにより、例えば、テキスト情報管理ＤＢ５００５Ｂ（図９Ｂ参照）で管理される「テキスト」は、「単語」に変わる。なお、発話単位を単語ごとに切り分ける手法としては、例えば、発話文中の単語ごとに単語発話の開始区間と終了区間を記録することで可能である。

【0192】

具体的には、例えば、図１６に示したステップＳ５５の処理で、テキスト情報管理装置５の送受信部５１は、音声認識サーバ７又は音声認識サーバ９が送信した音声認識の結果に含まれるテキストデータについて、一つの発話単位を複数の単語に切り分けて、その単語に対応する開始時間及び終了時間を含めて受信するようにしてもよい。

【0193】

〔実施形態の変形例の主な効果〕
以上説明したように本実施形態によれば、利用者が参加した会議等のイベントにおける議事録を作成する際に、単語ごとの認識結果が得られる。これにより、第１の実施形態の効果に加えて、利用者が発話した発話音声に対する認識精度をより効率的に向上させることが可能になるという効果を奏する。

【0194】

また、第２の実施形態で説明したように、単語単位での再認識は、利用者が発話した発話文中の単語ごとに確信度を持たせることでも可能である。上述した変形例で説明したように、テキスト情報管理装置５は、発話文中の単語ごとに切り分けた上で、第２の実施形態で説明した「確信度」を含む単語を音声認識サーバから受信する。そして、通信端末３は、テキスト情報管理装置５が受信した「確信度」を含む単語を表示する。このような方法により、上述した変形例と同様に音声認識の認識精度を向上させつつ、音声認識における効率化をさらに向上させることが期待できる。

【0195】

〔実施形態の補足〕
上述した実施形態の各機能は、一又は複数の処理回路によって実現することが可能である。ここで、本明細書における「処理回路」とは、電子回路により実装されるプロセッサのようにソフトウエアによって各機能を実行するようプログラミングされたデバイスを含むものとする。このデバイスとは、例えば、プロセッサ、上記で説明した各機能を実行するよう設計されたＡＳＩＣ(Application Specific Integrated Circuit)、ＤＳＰ（digital signal processor）、ＦＰＧＡ（field programmable gate array）、ＳＯＣ(System on a chip)、ＧＰＵ（Graphics Processing Unit）、及び従来の回路モジュール等をいう。

【0196】

更に、上述した実施形態により得られる各種テキスト及びテキスト情報は、人工知能（ＡＩ）を利用した機械学習の学習効果によって取得されたものでもよい。この場合、音声認識サーバが機械学習を用いて音声情報から各種テキスト及びテキスト情報を取得してもよいし、音声認識サーバと異なるデータベース等が機械学習を用いて音声情報から各種テキスト及びテキスト情報を取得してもよい。ここで、機械学習とは、コンピュータに人のような学習能力を獲得させるための技術であり、コンピュータが、データ識別等の判断に必要なアルゴリズムを事前に取り込まれる学習データから自律的に作成、新たなデータについてこれを適用して予測を行う技術のことをいう。機械学習のための学習方法は、教師あり学習、教師なし学習、半教師学習、強化学習、深層学習のいずれかの方法でもよい、更に、機械学習のための学習方法は、これらの学習方法を組み合わせた学習方法でもよく、機械学習のための学習方法は問わない。

【0197】

これまで本発明の一実施形態に係るテキスト情報管理システム、テキスト情報管理装置、テキスト情報管理方法及びプログラムについて説明してきたが、本発明は、上述した実施形態に限定されるものではなく、他の実施形態の追加、変更又は削除等、当業者が想到することができる範囲内で変更することができ、いずれの態様においても本発明の作用・効果を奏する限り、本発明の範囲に含まれるものである。

【符号の説明】

【0198】

１通信システム
２テキスト情報管理システム
３通信端末
５テキスト情報管理装置
７音声認識サーバ（第１のクラウドサービス）
９音声認識サーバ（第２のクラウドサービス）
３１送受信部（受信手段の一例、送信手段の一例）
３２受付部（受付手段の一例）
３３音・画像取得部（取得手段の一例）
３４表示制御部（表示制御手段の一例）
３６再生部（再生手段の一例）
３８アプリ起動部（起動手段の一例）
５１送受信部（受信手段の一例、送信手段の一例）
５２取得部（取得手段の一例）
５３算出部（算出手段の一例）
５４表示制御部（表示制御手段の一例）
５５判断部（判断手段の一例）
５６認証部（認証手段の一例）
５７生成部（補正手段の一例、生成手段の一例）
５８登録部（登録手段の一例）
５９記憶読出部（記憶読出手段の一例）
３１１２音声認識エンジン表示欄（音声認識エンジン表示部の一例）
３１１３音声認識エンジン選択欄（音声認識エンジン選択部の一例）
３１２２音声認識エンジン表示欄（音声認識エンジン表示部の一例）
３１３２音声認識エンジン表示欄（音声認識エンジン表示部の一例）
３１６２音声認識エンジン表示欄（音声認識エンジン表示部の一例）
３１８２音声認識エンジン表示欄（音声認識エンジン表示部の一例）
３５４１－３５４４「音声認識エンジン変更」ボタン（辞書変更操作部の一例）
３１７１「音声認識エンジン選択」ダイアログ（辞書選択部の一例）
３２０１「音声認識エンジン選択」ダイアログ（辞書選択部の一例）

【先行技術文献】

【特許文献】

【0199】

【特許文献1】特開２０１７－１９１５３３号公報

【図1】