特開2024-135365 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社ＪＶＣケンウッドの特許一覧

特開2024-135365情報処理システム、端末装置および通知方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024135365

(43)【公開日】2024-10-04

(54)【発明の名称】情報処理システム、端末装置および通知方法

(51)【国際特許分類】

G10L 15/28 20130101AFI20240927BHJP

G10L 15/26 20060101ALI20240927BHJP

G10L 15/22 20060101ALI20240927BHJP

H04M 1/00 20060101ALI20240927BHJP

【ＦＩ】

G10L15/28 230K

G10L15/26

G10L15/22 460Z

H04M1/00 R

【審査請求】未請求

【請求項の数】5

【出願形態】ＯＬ

(21)【出願番号】P 2023046002

(22)【出願日】2023-03-22

(71)【出願人】

【識別番号】308036402

【氏名又は名称】株式会社ＪＶＣケンウッド

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】箱嶋修二

(72)【発明者】

【氏名】岩間茂彦

(72)【発明者】

【氏名】小村田美玖

(72)【発明者】

【氏名】齋藤敦

(72)【発明者】

【氏名】太田祥司

(72)【発明者】

【氏名】松島ひかる

【テーマコード（参考）】

5K127

【Ｆターム（参考）】

5K127AA03

5K127BA03

5K127CA27

5K127DA11

5K127DA13

(57)【要約】

【課題】音声を聞き取れない状況を判断し適切に音声の内容を出力すること。
【解決手段】情報処理システムは、話者の音声を含む音を収音して音情報として取得し送信する音情報取得装置と、音情報に対して音声認識処理を実行してテキスト情報を生成し送信する管理装置と、テキスト情報を通知する通知装置と、を含む。管理装置は、音情報取得装置から音情報を取得した場合、対象話者の音声を識別するための特徴量に基づいて、取得した音情報から対象話者の音声を示す対象信号情報を抽出するとともに、取得した音情報から前記対象信号情報以外の音情報を雑音情報として生成する情報抽出部と、対象信号情報の信号レベルと、雑音情報の信号レベルとの比である信号対雑音比が第１閾値以下となる場合には、対象信号情報に対して音声認識処理を実行することでテキスト情報を生成し、テキスト情報を通知装置に送信する音声認識制御部と、を備える。
【選択図】図１

【特許請求の範囲】

【請求項1】

話者の音声を含む音を収音して音情報として取得し送信する音情報取得装置と、
前記音情報取得装置から送信される前記音情報に対して音声認識処理を実行してテキスト情報を生成し送信する管理装置と、
前記管理装置から送信される前記テキスト情報を通知する通知装置と、
を含み、
前記管理装置は、
前記音情報取得装置から前記音情報を取得した場合、対象話者の音声を識別するための特徴量に基づいて、取得した前記音情報から前記対象話者の音声を示す対象信号情報を抽出するとともに、取得した前記音情報から前記対象信号情報以外の音情報を雑音情報として生成する情報抽出部と、
前記対象信号情報の信号レベルと、前記雑音情報の信号レベルとの比である信号対雑音比が第１閾値以下となる場合には、前記対象信号情報に対して音声認識処理を実行することでテキスト情報を生成し、前記テキスト情報を前記通知装置に送信する音声認識制御部と、
を備える、情報処理システム。

【請求項2】

前記情報抽出部は、
前記通知装置の使用者の聴覚特性情報に基づいて、前記対象信号情報を補正して変換信号情報を生成し、
前記音声認識制御部は、
前記変換信号情報の信号レベルと、前記雑音情報の信号レベルとの比である信号対雑音比が前記第１閾値よりも低い第２閾値以下となる場合には、前記対象信号情報に対して音声認識処理を実行することでテキスト情報を生成し、前記テキスト情報を前記通知装置に送信する、
請求項１に記載の情報処理システム。

【請求項3】

対象話者の音声を含む音に関する音情報を取得する音情報取得部と、
前記対象話者の音声を識別するための特徴量に基づいて、取得した前記音情報から前記対象話者の音声を示す対象信号情報を抽出するとともに、取得した前記音情報から前記対象信号情報以外の音情報を雑音情報として生成する情報抽出部と、
前記対象信号情報の信号レベルと、前記雑音情報の信号レベルとの比である信号対雑音比が第１閾値以下となる場合には、前記対象信号情報に対して音声認識処理を実行することでテキスト情報を生成し、前記テキスト情報を表示部に表示させる音声認識制御部と、
を備える、端末装置。

【請求項4】

音情報取得装置が話者の音声を含む音を収音して音情報として取得し送信するステップと、
管理装置が前記音情報を前記音情報取得装置から取得し、対象話者の音声を識別するための特徴量に基づいて、取得した前記音情報から前記対象話者の音声を示す対象信号情報を抽出するとともに、取得した前記音情報から前記対象信号情報以外の音情報を雑音情報として生成するステップと、
前記管理装置が前記対象信号情報の信号レベルと、前記雑音情報の信号レベルとの比である信号対雑音比が第１閾値以下となる場合には、前記対象信号情報に対して音声認識処理を実行することでテキスト情報を生成し、前記テキスト情報を通知装置に送信するステップと、
前記通知装置が前記管理装置から受信した前記テキスト情報を通知するステップと、
を含む、通知方法。

【請求項5】

対象話者の音声を含む音に関する音情報を取得するステップと、
前記対象話者の音声を識別するための特徴量に基づいて、取得した前記音情報から前記対象話者の音声を示す対象信号情報を抽出するとともに、取得した前記音情報から前記対象信号情報以外の音情報を雑音情報として生成するステップと、
前記対象信号情報の信号レベルと、前記雑音情報の信号レベルとの比である信号対雑音比が第１閾値以下となる場合には、前記対象信号情報に対して音声認識処理を実行することでテキスト情報を生成し、前記テキスト情報を通知部に通知させるステップと、
を含む、通知方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理システム、端末装置および通知方法に関する。

【背景技術】

【0002】

受信音声の音質を改善しながら、騒音環境下でも受信音声を聞き取り易くする技術が知られている（例えば、特許文献１参照）。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開平７－２７３８４０号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

送信側の端末装置により話者の音声を収音して受信側の端末装置に送信し、受信側の端末装置で受信された話者の音声を受信側のユーザが聴取する場合、収音した話者の音質を改善して受信側の端末装置に送信しても、送信側の端末装置の周囲の環境音の状態によっては話者の音質を十分改善しきれずに、話者の話している内容が聞き取り辛くなってしまうことがある。また、受信側のユーザの聴力の違いから、環境音に多くの雑音が含まれている状態で話者の音声を聴取する際に、ユーザごとに聞き取れる音声の品質に違いが生じるため、ユーザによっては話者の話している内容が聞き取り辛く、話者の話している内容を聞き逃してしまうことがある。

【0005】

本発明は、話者の周囲の環境音の状態に応じて、適切に音声の内容を送信相手に通知することのできる情報処理システム、端末装置および通知方法を提供することを目的とする。

【課題を解決するための手段】

【0006】

本発明の情報処理システムは、話者の音声を含む音を収音して音情報として取得し送信する音情報取得装置と、前記音情報取得装置から送信される前記音情報に対して音声認識処理を実行してテキスト情報を生成し送信する管理装置と、前記管理装置から送信される前記テキスト情報を通知する通知装置と、を含み、前記管理装置は、前記音情報取得装置から前記音情報を取得した場合、対象話者の音声を識別するための特徴量に基づいて、取得した前記音情報から前記対象話者の音声を示す対象信号情報を抽出するとともに、取得した前記音情報から前記対象信号情報以外の音情報を雑音情報として生成する情報抽出部と、前記対象信号情報の信号レベルと、前記雑音情報の信号レベルとの比である信号対雑音比が第１閾値以下となる場合には、前記対象信号情報に対して音声認識処理を実行することでテキスト情報を生成し、前記テキスト情報を前記通知装置に送信する音声認識制御部と、を備える。

【0007】

本発明の端末装置は、対象話者の音声を含む音に関する音情報を取得する音情報取得部と、前記対象話者の音声を識別するための特徴量に基づいて、取得した前記音情報から前記対象話者の音声を示す対象信号情報を抽出するとともに、取得した前記音情報から前記対象信号情報以外の音情報を雑音情報として生成する情報抽出部と、前記対象信号情報の信号レベルと、前記雑音情報の信号レベルとの比である信号対雑音比が第１閾値以下となる場合には、前記対象信号情報に対して音声認識処理を実行することでテキスト情報を生成し、前記テキスト情報を通知部に通知させる音声認識制御部と、を備える。

【0008】

本発明の通知方法は、音情報取得装置が話者の音声を含む音を収音して音情報を取得するステップと、管理装置が前記音情報を前記音情報取得装置から取得し、対象話者の音声を識別するための特徴量に基づいて、取得した前記音情報から前記対象話者の音声を示す対象信号情報を抽出するとともに、取得した前記音情報から前記対象信号情報以外の音情報を雑音情報として生成するステップと、前記管理装置が前記対象信号情報の信号レベルと、前記雑音情報の信号レベルとの比である信号対雑音比が第１閾値以下となる場合には、前記対象信号情報に対して音声認識処理を実行することでテキスト情報を生成し、前記テキスト情報を通知装置に送信するステップと、前記通知装置が前記管理装置から受信した前記テキスト情報を通知するステップと、を含む。

【0009】

本発明の通知方法は、対象話者の音声を含む音に関する音情報を取得するステップと、前記対象話者の音声を識別するための特徴量に基づいて、取得した前記音情報から前記対象話者の音声を示す対象信号情報を抽出するとともに、取得した前記音情報から前記対象信号情報以外の音情報を雑音情報として生成するステップと、前記対象信号情報の信号レベルと、前記雑音情報の信号レベルとの比である信号対雑音比が第１閾値以下となる場合には、前記対象信号情報に対して音声認識処理を実行することでテキスト情報を生成し、前記テキスト情報を通知部に通知させるステップと、を含む。

【発明の効果】

【0010】

本発明によれば、話者の周囲の環境音の状態に応じて、適切に音声の内容を送信相手に通知することができる。

【図面の簡単な説明】

【0011】

【図1】図１は、第１実施形態係る情報処理システムの構成例を示すブロック図である。

【図2】図２は、第１実施形態に係る管理装置の構成例を示すブロック図である。

【図3】図３は、第１実施形態に係る音情報取得装置の構成例を示すブロック図である。

【図4】図４は、第１実施形態に係る通知装置の構成例を示すブロック図である。

【図5】図５は、第１実施形態に係る特徴量抽出処理の流れを示すフローチャートである。

【図6】図６は、第２実施形態に係る管理装置の処理の流れを示すフローチャートである。

【図7】図７は、第３実施形態に係る管理装置の処理の流れを示すフローチャートである。

【図8】図８は、第４実施形態に係る通知装置の処理を示すフローチャートである。

【図9】図９は、第５実施形態に係る情報処理ステムの構成例を示すブロック図である。

【図10】図１０は、第５実施形態に係る端末装置の構成例を示すブロック図である。

【発明を実施するための形態】

【0012】

以下、添付図面を参照して、本発明に係る実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではなく、また、以下の実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。

【0013】

［第１実施形態］
（情報処理システム）
図１を用いて、第１実施形態に係る情報処理システムの構成例について説明する。図１は、第１実施形態係る情報処理システムの構成例を示すブロック図である。

【0014】

図１に示すように、情報処理システム１は、管理装置１０と、音情報取得装置１２と、通知装置１４と、を含む。管理装置１０と、音情報取得装置１２と、通知装置１４とは、ネットワークＮを介して、通信可能に接続されている。ネットワークＮは、例えば、有線通信または無線通信によるインターネット網であればよいが、これに限定されない。ネットワークＮは、携帯電話網などの無線通信方式や近距離無線通信方式であってもよい。近距離無線通信方式は、例えば、Ｗｉ－Ｆｉ（登録商標）およびＢｌｕｅｔｏｏｔｈ（登録商標）による通信が例示されるが、これに限定されない。管理装置１０は、例えば、情報処理システム１の管理センターなどに配置される。音情報取得装置１２と、通知装置１４とは、例えば、会議室などの同じ室内に配置されてもよい。また、音情報取得装置１２と、通知装置１４とは、別々の会議室などの離れた場所に配置されてもよい。また、1つの情報処理システム１に複数の音情報取得装置１２や通知装置１４が接続されても良い。

【0015】

情報処理システム１においては、音情報取得装置１２は、情報処理システム１を使用するユーザが話を聞き逃したくない話者（以後、対象話者とも呼ぶ）の音声を含む音情報を取得して、ネットワークＮを介して、管理装置１０に送信する。管理装置１０は、音情報取得装置１２から取得した音情報に対して音声認識処理を実行してテキスト情報を生成する。管理装置１０は、ネットワークＮを介して、生成したテキスト情報を通知装置１４に送信する。通知装置１４は、管理装置１０から受信したテキスト情報を通知する。

【0016】

（管理装置）
図２は、第１実施形態に係る管理装置の構成例について説明する。図２は、第１実施形態に係る管理装置の構成例を示すブロック図である。

【0017】

図２に示すように、管理装置１０は、通信部２０と、記憶部２２と、制御部２４と、を備える。管理装置１０は、例えば、サーバ装置などのコンピュータで実現することができる。

【0018】

通信部２０は、ネットワークＮを介して、外部装置と通信を行う通信インタフェースである。通信部２０は、例えば、ネットワークＮを介して、音情報取得装置１２と通信を行う。通信部２０は、例えば、ネットワークＮを介して、通知装置１４と通信を行う。

【0019】

記憶部２２は、各種の情報を記憶している。記憶部２２は、制御部２４の演算内容、およびプログラム等の情報を記憶する。記憶部２２は、例えば、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）と、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）のような主記憶装置、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）等の外部記憶装置とのうち、少なくとも１つ含む。

【0020】

記憶部２２は、対象話者の音声を識別するために、各話者の音声の特徴量に関する特徴量情報を記憶している。記憶部２２は、複数の話者の音声の特徴量情報と、話者の識別情報と対応付けて記憶している。識別情報は、例えば、話者に設定された固有のＩＤであるが、これに限定されない。

【0021】

制御部２４は、管理装置１０の各部を制御する。制御部２４は、例えば、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）やＭＰＵ（ＭｉｃｒｏＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）等の情報処理装置と、ＲＡＭまたはＲＯＭなどの記憶装置とを有する。制御部２４は、例えば、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）やＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）等の集積回路により実現されてもよい。制御部２４は、ハードウェアと、ソフトウェアとの組み合わせで実現されてもよい。

【0022】

制御部２４は、通知装置１４からの制御情報を通信部２０が受信すると、受信した制御情報に基づいて、音情報取得装置１２に制御情報を送信するよう通信部２０を制御する。ここで、受信する制御情報は、例えば、特徴抽出開始信号、追従動作開始信号であるとよい。つまり、制御部２４は、受信された制御情報が特徴抽出開始信号であれば、音情報取得装置１２に制御情報として特徴抽出開始信号を送信するよう通信部２０を制御する。同様に、制御部２４は、受信された制御情報が追従動作開始信号であれば、音情報取得装置１２に制御情報として追従動作開始信号を送信するよう通信部２０を制御する。

【0023】

制御部２４は、取得部３０と、情報抽出部３２と、音声認識制御部３４と、を備える。

【0024】

取得部３０は、通信部２０を介して、音情報取得装置１２から音情報を取得する。取得部３０は、例えば、通信部２０を介して、対象話者の音声を含む音情報を取得する。取得部３０は、対象話者の音声を含む音情報と、対象話者の識別情報とを取得する。

【0025】

情報抽出部３２は、取得部３０が取得した音情報から対象話者の音声を示す対象信号情報を抽出する。情報抽出部３２は、例えば、記憶部２２に記憶されている特徴量情報に基づいて、取得部３０が取得した音情報から対象信号情報を抽出する。情報抽出部３２は、例えば、取得部３０が音情報と共に取得した識別情報に対応する識別情報が対応付けられた特徴量情報に基づいて、対象信号情報を生成する。情報抽出部３２は、取得部３０が取得した音情報から対象信号情報以外の音情報を雑音情報として生成する。

【0026】

音声認識制御部３４は、情報抽出部３２が抽出した対象信号情報に対して、音声認識処理を実行する。音声認識制御部３４は、対象信号情報の信号レベルと、雑音情報の信号レベルとの比である信号対雑音比を算出する。音声認識制御部３４は、信号対雑音比があらかじめ設定された第１閾値以下である場合、情報抽出部３２が抽出した対象信号情報に対して、音声認識処理を実行してテキスト情報を生成する。第１閾値は、所定の閾値として記憶部２２に記憶されているとよい。第１閾値は、ユーザが任意に設定してよい。音声認識制御部３４は、通信部２０を介して、生成したテキスト情報を通知装置１４に送信する。音声認識制御部３４は、信号対雑音比が第１閾値以下でない場合には、通信部２０を介して、対象信号情報を通知装置１４に送信する。

【0027】

（音情報取得装置）
図３を用いて、第１実施形態に係る音情報取得装置の構成例について説明する。図３は、第１実施形態に係る音情報取得装置の構成例を示すブロック図である。

【0028】

図３に示すように、音情報取得装置１２は、通信部４０と、入力部４２と、音声入力部４４と、記憶部４６と、制御部４８と、を備える。

【0029】

通信部４０は、ネットワークＮを介して、外部装置と通信を行う通信インタフェースである。通信部４０は、例えば、ネットワークＮを介して、管理装置１０と通信を行う。

【0030】

入力部４２は、音情報取得装置１２に対する各種の入力操作を受け付ける。入力部４２は、例えば、ボタン、スイッチなどで実現される。

【0031】

音声入力部４４は、音情報取得装置の周囲の各種の音を検出する。音声入力部４４は、例えば、特定の話者の音声を検出する。音声入力部４４は、例えば、対象話者の音声を検出する。音声入力部４４は、例えば、マイクロフォンなどで実現される。

【0032】

記憶部４６は、各種の情報を記憶している。記憶部４６は、制御部４８の演算内容、およびプログラム等の情報を記憶する。記憶部４６は、例えば、ＲＡＭと、ＲＯＭのような主記憶装置、ＨＤＤ等の外部記憶装置とのうち、少なくとも１つ含む。

【0033】

制御部４８は、音情報取得装置１２の各部を制御する。制御部４８は、例えば、ＣＰＵやＭＰＵなどの情報処理装置と、ＲＡＭまたはＲＯＭなどの記憶装置とを有する。制御部４８は、例えば、ＡＳＩＣやＦＰＧＡ等の集積回路により実現されてもよい。制御部４８は、ハードウェアと、ソフトウェアとの組み合わせで実現されてもよい。

【0034】

制御部４８は、音声入力部４４を制御して、音情報取得装置１２の周囲の各種の音を検出させる。制御部４８は、例えば、音声入力部４４を制御して、対象話者の音声を検出させる。制御部４８は、例えば、通信部４０を介して、音声入力部４４が検出した音に関する音情報を管理装置１０に送信する。

【0035】

（通知装置）
図４を用いて、第１実施形態に係る通知装置の構成例について説明する。図４は、第１実施形態に係る通知装置の構成例を示すブロック図である。

【0036】

図４に示すように、通知装置１４は、通信部５０と、入力部５２と、表示部５４と、音声出力部５６と、記憶部５８と、制御部６０と、を備える。通知装置１４は、例えば、ヘッドマウントディスプレイ、スマートグラス、スマートフォンなどで実現されるが、これらに限定されない。

【0037】

通信部５０は、ネットワークＮを介して、外部装置と通信を行う通信インタフェースである。通信部５０は、例えば、ネットワークＮを介して、管理装置１０と通信を行う。

【0038】

入力部５２は、通知装置１４に対する各種の入力操作を受け付ける。入力部５２は、例えば、ボタン、スイッチ、タッチパネルなどで実現される。

【0039】

表示部５４は、各種の映像を表示する。表示部５４は、例えば、管理装置１０から受信したテキスト情報を表示する。表示部５４は、例えば、液晶ディスプレイ（ＬＣＤ：ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）、有機ＥＬ（Ｅｌｅｃｔｒｏ－Ｌｕｍｉｎｅｓｃｅｎｃｅ）などを含むディスプレイである。表示部５４は、入力部５２がタッチパネルである場合には、入力部５２と、表示部５４とは、一体に構成される。

【0040】

音声出力部５６は、各種の音声を出力する。音声出力部５６は、管理装置１０から受信した対象信号情報に関する音声を出力する。音声出力部５６は、スピーカなどで実現される。また、音声出力部５６を省略した構成としてもよい。

【0041】

記憶部５８は、各種の情報を記憶している。記憶部５８は、制御部６０の演算内容、およびプログラム等の情報を記憶する。記憶部５８は、例えば、ＲＡＭと、ＲＯＭのような主記憶装置、ＨＤＤ等の外部記憶装置とのうち、少なくとも１つ含む。

【0042】

制御部６０は、通知装置１４の各部を制御する。制御部６０は、例えば、ＣＰＵやＭＰＵなどの情報処理装置と、ＲＡＭまたはＲＯＭなどの記憶装置とを有する。制御部６０は、例えば、ＡＳＩＣやＦＰＧＡ等の集積回路により実現されてもよい。制御部６０は、ハードウェアと、ソフトウェアとの組み合わせで実現されてもよい。制御部６０は、管理装置１０からテキスト情報を受信すると、通知装置１４の各部を制御して、テキスト情報の内容をユーザに通知する。例えば、制御部６０は、表示部５４を制御して、受信したテキスト情報を表示させることにより、ユーザにテキスト情報の内容を通知する。また、制御部６０は、受信したテキスト情報に基づいて音声合成により音声情報を生成し、音声出力部５６を制御して、テキスト情報の内容を含む音声情報を再生することにより、ユーザにテキスト情報の内容を通知するようにしてもよい。

【0043】

（特徴量抽出処理）
図５を用いて、第１実施形態に係る特徴量抽出処理について説明する。図５は、第１実施形態に係る特徴量抽出処理の流れを示すフローチャートである。

【0044】

図５に示す処理は、対象話者の音声からテキスト情報を生成するために、事前に、対象話者の特徴量を管理装置１０の記憶部２２に記憶させるための情報処理システム１の処理を示している。例えば、図５に示す処理は、通知装置１４を利用しているユーザが、対象話者が話していることを確認した際に、対象話者の特徴量の抽出を開始するように入力部５２に入力した際に実行される。通知装置１４は、話者の音声情報の特徴量の抽出を開始する指示をするための操作を検知すると、特徴抽出開始信号を管理装置１０に通知する。管理装置１０は、特徴抽出開始信号を受信すると、音情報取得装置１２に特徴抽出開始信号を通知する。

【0045】

音情報取得装置１２の制御部４８は、音声入力部４４を制御して、対象話者の音声を検出させる（ステップＳ１０）。具体的には、音情報取得装置１２の制御部４８は、対象話者の音声を検出し、通信部４０を介して、検出した対象話者の音声に関する音声情報を管理装置１０に送信する。すなわち、第１実施形態では、音情報取得装置１２には、対象話者の音声のみが入力されるものとする。そして、ステップＳ１２に進む。

【0046】

管理装置１０の情報抽出部３２は、取得部３０が音情報取得装置１２から取得した、音声情報に対して、音声抽出処理を行い音声の特徴量を抽出する（ステップＳ１２）。音声特徴量抽出処理は、周知または公知の技術を利用して、音声の特徴量を抽出できればよい。例えば、情報抽出部３２は、先ず、音声情報に対してＦＦＴ（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）のような変換処理を実行する。次いで、情報抽出部３２は、ＦＦＴの実行結果に基づいてＭＦＣＣ（ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒａｌＣｏｅｆｆｉｃｉｅｎｔ：メル周波数ケプストラム係数）を計算する。そして、情報抽出部３２は、所定の時間区間（例えば、数ミリ秒から数十ミリ秒）の単位でＭＦＣＣの差分を算出して音声の特徴量を抽出すればよい。また、情報抽出部３２は、音声情報に対してＦＦＴを実行して、フォルマント周波数を算出し、フォルマント周波数を音声の特徴量として抽出すればよい。

【0047】

また、管理装置１０の記憶部２２に複数の音声の特徴量が記憶されている場合には、情報抽出部３２は、抽出された音声の特徴量と、記憶部２２に記憶された音声の特徴量とについて、グループ化してもよい。具体的には、情報抽出部３２は、例えば、周知のクラスター分析を行い、音声の特徴量の類似度（一致度）が高い（差分が小さい）順に、音声の特徴量をグループ化して、話者毎の音声の特徴量のグループを生成しておいてもよい。情報抽出部３２は、例えば、所定の閾値よりも高い類似度を有する（小さい差分を有する）音声の特徴量同士を、同じ話者の音声の特徴量として、同じグループに分類してもよい。情報抽出部３２は、生成された音声の特徴量もしくは音声の特徴量のグループを、抽出した音声の特徴量を識別するための識別情報とともに、記憶部２２に記憶させてもよい。

【0048】

管理装置１０の情報抽出部３２は、所定の音声特徴量抽出処理により音声の特徴量を抽出すると、抽出した音声の特徴量を、抽出した音声の特徴量を識別するための識別情報とともに、記憶部２２に記憶する（ステップＳ１４）。そして、図５の処理を終了する。

【0049】

以上のように、第１実施形態では、対象話者の音声の特徴量を抽出し、抽出した音声の特徴量を識別するための識別情報とともに、記憶部２２に記憶することで、対象話者が選択された際に、識別情報を利用して関連付けられた音声の特徴量を記憶部から読み出すことができるようになる。

【0050】

なお、第１実施形態では音声情報システムを利用して対象話者の音声情報を取得しているが、あらかじめ対象話者の音声情報を録音しておき、録音された音声情報を管理装置１０で取得して利用してもよい。また、対象話者の音声の特徴量が事前に抽出されている場合は、抽出された特徴量を管理装置１０で取得して、識別するための識別情報とともに、記憶部２２に記憶するようにしてもよい。

【0051】

［第２実施形態］
（管理装置の動作）
図６を用いて、第２実施形態に係る管理装置の処理について説明する。図６は、第２実施形態に係る管理装置の処理の流れを示すフローチャートである。

【0052】

まず、ユーザは、通知装置１４を操作して、対象話者を選択する。通知装置１４は、ユーザの操作により対象話者が選択されたことを検知すると、対象話者の音声に追従して各種の処理を実行する動作を開始し、追従動作開始信号を管理装置１０に送信する。通知装置１４は、追従動作開始信号を通知する際に、対象話者を特定するための識別情報（以後、話者識別情報）を合わせて送信する。制御部２４は、追従動作開始信号と話者識別情報とが通信部２０で受信されると、音情報取得装置１２に制御情報として追従動作開始信号を送信するよう通信部２０を制御する。音情報取得装置１２は、追従動作開始信号に基づいて話者の音声を含む音声情報を取得し、取得された音声情報を管理装置１０に送信する動作を開始する。

【0053】

取得部３０は、対象話者の音声を含む音声情報を音情報取得装置１２から取得する（ステップＳ２０）。そして、ステップＳ２２に進む。

【0054】

情報抽出部３２は、受信された話者識別情報に基づいて、記憶部２２から識別情報に関連付けられた話者の特徴量を読み出すことで、対象話者の音声の特徴量を取得する（ステップＳ２２）。そして、ステップＳ２４に進む。

【0055】

音声認識制御部３４は、取得部３０が音情報取得装置１２から音声情報を順次取得しながら、取得した音声の特徴量に基づいて、取得した音声情報から対象信号情報と雑音情報に分離する（ステップＳ２４）。ここで、対象信号情報は、音声情報から音声の特徴量に基づいて抽出された対象話者の音声情報である。雑音情報は、音声情報で雑音と見なされた対象信号情報以外の情報である。そして、ステップＳ２６に進む。

【0056】

音声認識制御部３４は、分離された対象信号情報と雑音情報とに対して、対象信号情報の信号レベルと雑音情報の信号レベルとの比である信号対雑音比の値を計算する（ステップＳ２６）。そして、ステップＳ２８に進む。

【0057】

音声認識制御部３４は、計算された信号対雑音比の値が、あらかじめ定めた所定の第１閾値以下であるか否かを判定する（ステップＳ２８）。信号対雑音比の値が第１閾値以下であると判定された場合（ステップＳ２８；Ｙｅｓ）、ステップＳ３０に進む。信号対雑音比の値が第１閾値以下でないと判定された場合（ステップＳ２８；Ｎｏ）、ステップＳ３４に進む。

【0058】

ステップＳ２８でＹｅｓと判定された場合、音声認識制御部３４は、対象話者の音声がユーザにとって聞き取り辛くなったため、対象信号情報に対して所定の音声認識処理を行うことで、テキスト情報を生成する（ステップＳ３０）。そして、ステップＳ３２に進む。

【0059】

音声認識制御部３４は、通信部２０を介して、生成したテキスト情報を通知装置１４に送信する（ステップＳ３２）。そして、ステップＳ３６に進む。

【0060】

ステップＳ２８でＮｏと判定された場合、音声認識制御部３４は、通信部２０を介して、対象信号情報を音情報として通知装置１４に送信する（ステップＳ３４）。

【0061】

制御部２４は、処理を終了するか否かを判定する（ステップＳ３６）。例えば、制御部２４は、対象話者の話が終了した場合などに処理を終了すると判定する。処理を終了すると判定された場合（ステップＳ３６；Ｙｅｓ）、図６の処理を終了する。処理を終了すると判定されない場合（ステップＳ３６；Ｎｏ）、ステップＳ２０に進む。

【0062】

上述のとおり、第２実施形態は、音情報に含まれる対象話者の音声がユーザにとって聞き取り辛くなった際に、対象話者の音声情報をテキスト情報に変換して通知装置に送信する。これにより、第２実施形態は、通知装置にテキスト情報が表示されるので、対象話者が話している内容を可能な限り聞き漏らさないようにすることができる。

【0063】

［第２実施形態の変形例］
第２実施形態の変形例について説明する。第２実施形態では、音情報取得装置１２は、特定の１人の話者の音声を取得するものとして説明したが、本発明はこれに限定されない。第２実施形態の変形例では、音情報取得装置１２には、複数の話者の音声が入力されてもよい。

【0064】

音情報取得装置１２は、例えば、会議室などに設置されている場合に、複数の話者が同時に発言している場合などには、複数の話者の音声を検出してもよい。この場合、音情報取得装置１２は、ネットワークＮを介して、同時に検出した複数の話者の音声に関する音声情報を管理装置１０に送信してもよい。

【0065】

管理装置１０は、音情報取得装置１２から受信した複数の音声情報から対象話者を特定し、対象話者の音声情報をテキスト情報に変換してもよい。管理装置１０は、例えば、受信した各音声情報に対して音声認識処理を実行して、各音声情報の話者を示す識別情報を特定してもよい。例えば、管理装置１０は、各音声情報に対して周波数解析処理を実行して周波数成分を抽出し、記憶部２２に記憶された特徴量情報と比較することで、各音声情報にそれぞれ対応する特徴量情報に対応付けられた識別情報を特定してもよい。管理装置１０は、例えば、パターンマッチングまたは機械学習の方法により各音声情報それぞれの識別情報を特定してもよい。管理装置１０は、特定した識別情報に対応付けられた特徴量情報に基づいて、各音声情報のテキスト情報を生成するようにしてもよい。この場合、通知装置１４を使用するユーザは、通知装置１４を使用して複数の話者のうちの所望の話者を選択するようにすればよい。このとき、ユーザは、複数のユーザを選択するようにしてもよい。そして、管理装置１０は、通知装置１４を使用するユーザが選択した話者の音声がユーザにとって聞き取り辛くなった際に、選択された話者の音声情報をテキスト情報に変換して通知装置１４に送信する。これにより、第２実施形態の変形例は、通知装置１４にテキスト情報が表示されるので、選択した話者が話している内容を可能な限り聞き漏らさないようにすることができる。なお、第２実施形態の変形例では、複数の話者が選択された場合には、通知装置１４は、複数の話者のそれぞれの音声情報に対応するテキスト情報を同時に複数表示してもよい。

【0066】

［第３実施形態］
図７を用いて、第３実施形態に係る管理装置の処理について説明する。図７は、第３実施形態に係る管理装置の処理の流れを示すフローチャートである。

【0067】

まず、ユーザは、通知装置１４を操作して、対象話者を選択する。また、ユーザは、通知装置１４を操作して、管理装置１０がテキスト情報を生成するか否かの判断にユーザ自身の聴覚特性を利用するよう選択する。通知装置１４は、ユーザの操作により対象話者が選択されたとともにユーザ自身の聴覚特性を利用するよう選択されたことを検知すると、選択された話者の音声に追従して各種の処理を実行する動作を開始し、追従動作開始信号を管理装置１０に通知する。通知装置１４は、追従動作開始信号を通知する際に、選択された話者に関する話者識別情報と聴覚特性を特定するための識別情報（以後、聴覚特性識別情報とも呼ぶ）を合わせて通知する。第３実施形態において、聴覚特性は、例えば、あらかじめ測定されたデータである。例えば、通知装置１４が、ユーザの聴覚特性を測定する機能を有していてもよい。

【0068】

制御部２４は、追従動作開始信号、話者識別情報および聴覚特性識別情報が通信部２０で受信されると、音情報取得装置１２に制御情報として追従動作開始信号を送信するよう通信部２０を制御する。音情報取得装置１２は、追従動作開始信号に基づいて話者の音声を含む音声情報を取得し、取得された音声情報を管理装置１０に送信する動作を開始する。制御部２４は、追従動作開始信号を検知するとともに、聴覚特性識別情報を検知した場合は、図６に示す第１閾値とは異なる第２閾値を設定する（ステップＳ４０）。具体的には、制御部２４は、第１閾値よりも低い第２閾値を第１閾値の代わりとして設定する。第２閾値は、第１閾値とは異なる所定の閾値として記憶部２２に記憶されているとよい。そして、ステップＳ４２に進む。

【0069】

ステップＳ４２の処理は、図６に示すステップＳ２２の処理と同じなので、説明を省略する。

【0070】

情報抽出部３２は、追従動作開始信号を検知するとともに、聴覚特性識別情報を検知した場合は、合わせて通知される話者識別情報に基づいて、記憶部２２から聴覚特性識別情報に関連付けられたユーザの聴覚特性の情報と、話者識別情報に関連付けられた話者の音声の特徴量を読み出すことで、対象話者の音声の特徴量を取得する（ステップＳ４４）。そして、ステップＳ４６に進む。

【0071】

ステップＳ４６の処理は、図６に示すステップＳ２４の処理と同じなので、説明を省略する。

【0072】

音声認識制御部３４は、記憶部２２から読み出した聴覚特性情報を用いて対象信号情報を補正する（ステップＳ４８）。補正された対象信号情報は、ユーザが聞き取り辛い周波数の信号成分が補正されて聞き取り易くなるように変換された情報となる。補正された対象信号情報は、変換信号情報とも呼ばれる。そして、ステップＳ５０に進む。

【0073】

音声認識制御部３４は、変換信号情報と分離された雑音情報とに対して、対象信号情報の信号レベルと雑音情報の信号レベルとの比である信号対雑音比の値を計算する（ステップＳ５０）。そして、ステップＳ５２に進む。

【0074】

音声認識制御部３４は、計算された信号対雑音比の値が、新たに設定された第２閾値以下であるか否かを判定する（ステップＳ５２）。信号対雑音比の値が第２閾値以下であると判定された場合（ステップＳ５２；Ｙｅｓ）、ステップＳ５４に進む。信号対雑音比の値が第２閾値以下でないと判定された場合（ステップＳ５２；Ｎｏ）、ステップＳ５８に進む。

【0075】

ステップＳ５４からステップＳ６０の処理は、それぞれ、図６に示すステップＳ３０からステップＳ３６の処理と同じなので、説明を省略する。

【0076】

上述のとおり、第３実施形態は、対象話者の音声がユーザにとって聞き取り辛くなった際に、対象話者の音声情報をテキスト情報に変換して通知装置に送信する。これにより、第３実施形態は、対象話者が話している内容を可能な限り聞き漏らさないようにすることができる。

【0077】

［第４実施形態］
（通知装置の処理）
図８を用いて、第４実施形態に係る通知装置の処理について説明する。図８は、第４実施形態に係る通知装置の処理を示すフローチャートである。

【0078】

制御部６０は、管理装置１０から音情報を受信したか否かを判定する（ステップＳ７０）。音情報を受信したと判定された場合（ステップＳ７０；Ｙｅｓ）、ステップＳ７２に進む。音情報を受信したと判定されない場合（ステップＳ７０；Ｎｏ）、ステップＳ７４に進む。

【0079】

ステップＳ７０でＹｅｓと判定された場合、制御部６０は、音声出力部５６を制御して、管理装置１０から取得した音情報を出力させる。そして、ステップＳ７４に進む。

【0080】

制御部６０は、管理装置１０からテキスト情報を受信したか否かを判定する（ステップＳ７４）。テキスト情報を受信したと判定された場合（ステップＳ７４；Ｙｅｓ）、ステップＳ７６に進む。テキスト情報を受信したと判定されない場合（ステップＳ７４；Ｎｏ）、ステップＳ７８に進む。

【0081】

ステップＳ７４でＹｅｓと判定された場合、制御部６０は、表示部５４を制御して、管理装置１０から取得したテキスト情報を表示させる（ステップＳ７６）。これにより、ユーザは、対象話者の音声が聴き取り辛くなった際に、対象話者の音声をテキストとして把握することができる。そして、ステップＳ７８に進む。

【0082】

制御部６０は、処理を終了するか否かを判定する（ステップＳ７８）。制御部６０は、例えば、話者の話が終了した場合や、通知装置１４の電源をオフにする操作を受け付けた場合に、処理を終了すると判定する。処理を終了すると判定された場合（ステップＳ７８；Ｙｅｓ）、図８の処理を終了する。終了すると判定されない場合（ステップＳ７８；Ｎｏ）、ステップＳ７０に進む。

【0083】

上述のとおり、第４実施形態は、対象話者の音声がユーザにとって聞き取り辛くなった際に、対象話者の音声情報をテキスト情報と表示してユーザに提示する。これにより、第４実施形態は、対象話者が話している内容を可能な限り聞き漏らさないようにすることができる。

【0084】

［第５実施形態］
（情報処理システム）
図９を用いて、第５実施形態に係る情報処理システムの構成例について説明する。図９は、第５実施形態に係る情報処理ステムの構成例を示すブロック図である。

【0085】

図９に示すように、情報処理システム１Ａは、端末装置１６－１と、端末装置１６－２とを含む。端末装置１６－１と、端末装置１６－２とは、ネットワークＮを介して、通信可能に接続されている。端末装置１６－１と、端末装置１６－２とを区別する必要のない場合には、端末装置１６と総称する。端末装置１６は、例えば、業務用無線機、スマートフォン、タブレット端末などであるが、これらに限定されない。

【0086】

端末装置１６－１と、端末装置１６－２とは、ネットワークＮを介して、音声通信を行う。端末装置１６は、他の端末装置１６から取得した音声情報を出力する際に、端末装置１６のユーザが聞き取り辛くなった際に、音声情報に対して音声認識処理を実行して、テキスト情報を生成する。端末装置１６は、生成したテキスト情報を表示部に表示させて、ユーザに提示する。

【0087】

（端末装置）
図１０を用いて、第５実施形態に係る端末装置の構成例について説明する。図１０は、第５実施形態に係る端末装置の構成例を示すブロック図である。

【0088】

図１０に示すように、端末装置１６は、第１通信部７０と、第２通信部７２と、入力部７４と、表示部７６と、音声出力部７８と、記憶部８０と、制御部８２と、を備える。

【0089】

第１通信部７０は、ＲＦ（Radio Frequency）信号を送信することで他の端末装置１６と通信を行う。第１通信部７０が行う通信の方式は、第１無線通信方式と呼ばれる。第１無線通信方式は、例えば、ＡＰＣＯ－Ｐ２５（Association of Public safety Communications Officials international Project 25）およびＮＸＤＮ（登録商標）といったデジタル業務無線が挙げられる。第１無線通信方式は、例えば、携帯電話網を用いた無線通信であってもよい。

【0090】

第２通信部７２は、近距離無線信号を送信することで他の端末装置１６と通信を行う。第２通信部７２が行う通信の方式は、第２無線通信方式と呼ばれる。第２無線通信方式は、例えば、Ｗｉ－Ｆｉ（登録商標）およびＢｌｕｅｔｏｏｔｈ（登録商標）による通信が例示されるが、これらに限定されない。

【0091】

入力部７４は、端末装置１６に対する各種の入力操作を受け付ける。入力部７４は、例えば、ボタン、スイッチ、タッチパネル、マイクなどで実現される。

【0092】

表示部７６は、各種の映像を表示する。表示部７６は、例えば、制御部８２の音声認識制御部９４が生成したテキスト情報を表示する。表示部７６は、例えば、液晶ディスプレイ、有機ＥＬなどを含むディスプレイである。表示部５４は、入力部５２がタッチパネルである場合には、入力部７４と、表示部７６とは、一体に構成される。

【0093】

音声出力部７８は、各種の音声を出力する。音声出力部７８は、他の端末装置１６から受信した音声情報に関する音声を出力する。音声出力部７８は、スピーカで実現される。

【0094】

記憶部８０は、各種の情報を記憶している。記憶部８０は、制御部８２の演算内容、およびプログラム等の情報を記憶する。記憶部８０は、例えば、ＲＡＭと、ＲＯＭのような主記憶装置、ＨＤＤ等の外部記憶装置とのうち、少なくとも１つ含む。

【0095】

制御部８２は、端末装置１６の各部を制御する。制御部８２は、例えば、ＣＰＵやＭＰＵなどの情報処理装置と、ＲＡＭまたはＲＯＭなどの記憶装置とを有する。制御部８２は、例えば、ＡＳＩＣやＦＰＧＡ等の集積回路により実現されてもよい。制御部８２は、ハードウェアと、ソフトウェアとの組み合わせで実現されてもよい。

【0096】

制御部８２は、音情報取得部９０と、情報抽出部９２と、音声認識制御部９４と、を備える。

【0097】

音情報取得部９０は、第１通信部７０を介して、音情報取得装置１２から音情報を取得する。音情報取得部９０は、例えば、第１通信部７０を介して、対象話者の音声を含む音情報を取得する。

【0098】

情報抽出部９２は、音情報取得部９０が取得した音情報から対象話者の音声を示す対象信号情報を抽出する。情報抽出部９２は、例えば、記憶部８０に記憶されている特徴量情報に基づいて、音情報取得部９０が取得した音情報から対象信号情報を抽出する。情報抽出部９２は、音情報取得部９０が取得した音情報から対象信号情報以外の音情報を雑音情報として生成する。

【0099】

音声認識制御部９４は、情報抽出部９２が抽出した対象信号情報に対して、音声認識処理を実行する。音声認識制御部９４は、対象信号情報の信号レベルと、雑音情報の信号レベルとの比である信号対雑音比を算出する。音声認識制御部９４は、信号対雑音比があらかじめ定めた第１閾値以下である場合、情報抽出部９２が抽出した対象信号情報に対して、音声認識処理を実行してテキスト情報を生成する。音声認識制御部９４は、表示部７６を制御して、生成したテキスト情報を表示させる。音声認識制御部３４は、信号対雑音比が第１閾値以下でない場合には、音声出力部７８を制御して、音情報取得部９０が取得した音情報を出力させる。音声認識制御部９４は、音情報取得部９０が取得した音情報を常時出力するようにしてもよい。

【0100】

すなわち、端末装置１６の制御部８２は、図２に示す管理装置１０の制御部２４と同一の同様の構成を有している。そのため、端末装置１６と、他の端末装置１６との間で音声通話が行われている場合において、端末装置１６のユーザが他の端末装置１６のユーザの音声が聴き取り辛いと感じた場合に、端末装置１６は表示部７６に他の端末装置１６のユーザの音声に関するテキスト情報を表示させることができる。これにより、第５実施形態は、対象話者が話している内容を可能な限り聞き漏らさないようにすることができる。

【0101】

図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の付加や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。なお、この分散・統合による構成は動的に行われてもよい。

【0102】

以上、本発明の実施形態を説明したが、これら実施形態の内容により本発明が限定されるものではない。また、前述した構成要素には、当業者が容易に想定できるもの、実質的に同一のもの、いわゆる均等の範囲のものが含まれる。さらに、前述した構成要素は適宜組み合わせることが可能である。さらに、前述した実施形態の要旨を逸脱しない範囲で構成要素の種々の省略、置換又は変更を行うことができる。

【0103】

本開示は、ＳＤＧｓの「住み続けられるまちづくりを」の実現に貢献し、公共施設の安心・安全に寄与する事項を含む。

【符号の説明】

【0104】

１，１Ａ情報処理システム
１０管理装置
１２音情報取得装置
１４通知装置
１６端末装置
２０，４０，５０通信部
２２，４６，５８，８０記憶部
２４，４８，６０，８２制御部
３０取得部
３２，９２情報抽出部
３４，９４音声認識制御部
４２，５２，７４入力部
４４音声入力部
５４，７６表示部
５６，７８音声出力部
７０第１通信部
７２第２通信部
９０音情報取得部

【図1】