IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社JVCケンウッドの特許一覧

特開2024-135365情報処理システム、端末装置および通知方法
<>
  • 特開-情報処理システム、端末装置および通知方法 図1
  • 特開-情報処理システム、端末装置および通知方法 図2
  • 特開-情報処理システム、端末装置および通知方法 図3
  • 特開-情報処理システム、端末装置および通知方法 図4
  • 特開-情報処理システム、端末装置および通知方法 図5
  • 特開-情報処理システム、端末装置および通知方法 図6
  • 特開-情報処理システム、端末装置および通知方法 図7
  • 特開-情報処理システム、端末装置および通知方法 図8
  • 特開-情報処理システム、端末装置および通知方法 図9
  • 特開-情報処理システム、端末装置および通知方法 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024135365
(43)【公開日】2024-10-04
(54)【発明の名称】情報処理システム、端末装置および通知方法
(51)【国際特許分類】
   G10L 15/28 20130101AFI20240927BHJP
   G10L 15/26 20060101ALI20240927BHJP
   G10L 15/22 20060101ALI20240927BHJP
   H04M 1/00 20060101ALI20240927BHJP
【FI】
G10L15/28 230K
G10L15/26
G10L15/22 460Z
H04M1/00 R
【審査請求】未請求
【請求項の数】5
【出願形態】OL
(21)【出願番号】P 2023046002
(22)【出願日】2023-03-22
(71)【出願人】
【識別番号】308036402
【氏名又は名称】株式会社JVCケンウッド
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】箱嶋 修二
(72)【発明者】
【氏名】岩間 茂彦
(72)【発明者】
【氏名】小村田 美玖
(72)【発明者】
【氏名】齋藤 敦
(72)【発明者】
【氏名】太田 祥司
(72)【発明者】
【氏名】松島 ひかる
【テーマコード(参考)】
5K127
【Fターム(参考)】
5K127AA03
5K127BA03
5K127CA27
5K127DA11
5K127DA13
(57)【要約】
【課題】音声を聞き取れない状況を判断し適切に音声の内容を出力すること。
【解決手段】情報処理システムは、話者の音声を含む音を収音して音情報として取得し送信する音情報取得装置と、音情報に対して音声認識処理を実行してテキスト情報を生成し送信する管理装置と、テキスト情報を通知する通知装置と、を含む。管理装置は、音情報取得装置から音情報を取得した場合、対象話者の音声を識別するための特徴量に基づいて、取得した音情報から対象話者の音声を示す対象信号情報を抽出するとともに、取得した音情報から前記対象信号情報以外の音情報を雑音情報として生成する情報抽出部と、対象信号情報の信号レベルと、雑音情報の信号レベルとの比である信号対雑音比が第1閾値以下となる場合には、対象信号情報に対して音声認識処理を実行することでテキスト情報を生成し、テキスト情報を通知装置に送信する音声認識制御部と、を備える。
【選択図】図1
【特許請求の範囲】
【請求項1】
話者の音声を含む音を収音して音情報として取得し送信する音情報取得装置と、
前記音情報取得装置から送信される前記音情報に対して音声認識処理を実行してテキスト情報を生成し送信する管理装置と、
前記管理装置から送信される前記テキスト情報を通知する通知装置と、
を含み、
前記管理装置は、
前記音情報取得装置から前記音情報を取得した場合、対象話者の音声を識別するための特徴量に基づいて、取得した前記音情報から前記対象話者の音声を示す対象信号情報を抽出するとともに、取得した前記音情報から前記対象信号情報以外の音情報を雑音情報として生成する情報抽出部と、
前記対象信号情報の信号レベルと、前記雑音情報の信号レベルとの比である信号対雑音比が第1閾値以下となる場合には、前記対象信号情報に対して音声認識処理を実行することでテキスト情報を生成し、前記テキスト情報を前記通知装置に送信する音声認識制御部と、
を備える、情報処理システム。
【請求項2】
前記情報抽出部は、
前記通知装置の使用者の聴覚特性情報に基づいて、前記対象信号情報を補正して変換信号情報を生成し、
前記音声認識制御部は、
前記変換信号情報の信号レベルと、前記雑音情報の信号レベルとの比である信号対雑音比が前記第1閾値よりも低い第2閾値以下となる場合には、前記対象信号情報に対して音声認識処理を実行することでテキスト情報を生成し、前記テキスト情報を前記通知装置に送信する、
請求項1に記載の情報処理システム。
【請求項3】
対象話者の音声を含む音に関する音情報を取得する音情報取得部と、
前記対象話者の音声を識別するための特徴量に基づいて、取得した前記音情報から前記対象話者の音声を示す対象信号情報を抽出するとともに、取得した前記音情報から前記対象信号情報以外の音情報を雑音情報として生成する情報抽出部と、
前記対象信号情報の信号レベルと、前記雑音情報の信号レベルとの比である信号対雑音比が第1閾値以下となる場合には、前記対象信号情報に対して音声認識処理を実行することでテキスト情報を生成し、前記テキスト情報を表示部に表示させる音声認識制御部と、
を備える、端末装置。
【請求項4】
音情報取得装置が話者の音声を含む音を収音して音情報として取得し送信するステップと、
管理装置が前記音情報を前記音情報取得装置から取得し、対象話者の音声を識別するための特徴量に基づいて、取得した前記音情報から前記対象話者の音声を示す対象信号情報を抽出するとともに、取得した前記音情報から前記対象信号情報以外の音情報を雑音情報として生成するステップと、
前記管理装置が前記対象信号情報の信号レベルと、前記雑音情報の信号レベルとの比である信号対雑音比が第1閾値以下となる場合には、前記対象信号情報に対して音声認識処理を実行することでテキスト情報を生成し、前記テキスト情報を通知装置に送信するステップと、
前記通知装置が前記管理装置から受信した前記テキスト情報を通知するステップと、
を含む、通知方法。
【請求項5】
対象話者の音声を含む音に関する音情報を取得するステップと、
前記対象話者の音声を識別するための特徴量に基づいて、取得した前記音情報から前記対象話者の音声を示す対象信号情報を抽出するとともに、取得した前記音情報から前記対象信号情報以外の音情報を雑音情報として生成するステップと、
前記対象信号情報の信号レベルと、前記雑音情報の信号レベルとの比である信号対雑音比が第1閾値以下となる場合には、前記対象信号情報に対して音声認識処理を実行することでテキスト情報を生成し、前記テキスト情報を通知部に通知させるステップと、
を含む、通知方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理システム、端末装置および通知方法に関する。
【背景技術】
【0002】
受信音声の音質を改善しながら、騒音環境下でも受信音声を聞き取り易くする技術が知られている(例えば、特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開平7-273840号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
送信側の端末装置により話者の音声を収音して受信側の端末装置に送信し、受信側の端末装置で受信された話者の音声を受信側のユーザが聴取する場合、収音した話者の音質を改善して受信側の端末装置に送信しても、送信側の端末装置の周囲の環境音の状態によっては話者の音質を十分改善しきれずに、話者の話している内容が聞き取り辛くなってしまうことがある。また、受信側のユーザの聴力の違いから、環境音に多くの雑音が含まれている状態で話者の音声を聴取する際に、ユーザごとに聞き取れる音声の品質に違いが生じるため、ユーザによっては話者の話している内容が聞き取り辛く、話者の話している内容を聞き逃してしまうことがある。
【0005】
本発明は、話者の周囲の環境音の状態に応じて、適切に音声の内容を送信相手に通知することのできる情報処理システム、端末装置および通知方法を提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明の情報処理システムは、話者の音声を含む音を収音して音情報として取得し送信する音情報取得装置と、前記音情報取得装置から送信される前記音情報に対して音声認識処理を実行してテキスト情報を生成し送信する管理装置と、前記管理装置から送信される前記テキスト情報を通知する通知装置と、を含み、前記管理装置は、前記音情報取得装置から前記音情報を取得した場合、対象話者の音声を識別するための特徴量に基づいて、取得した前記音情報から前記対象話者の音声を示す対象信号情報を抽出するとともに、取得した前記音情報から前記対象信号情報以外の音情報を雑音情報として生成する情報抽出部と、前記対象信号情報の信号レベルと、前記雑音情報の信号レベルとの比である信号対雑音比が第1閾値以下となる場合には、前記対象信号情報に対して音声認識処理を実行することでテキスト情報を生成し、前記テキスト情報を前記通知装置に送信する音声認識制御部と、を備える。
【0007】
本発明の端末装置は、対象話者の音声を含む音に関する音情報を取得する音情報取得部と、前記対象話者の音声を識別するための特徴量に基づいて、取得した前記音情報から前記対象話者の音声を示す対象信号情報を抽出するとともに、取得した前記音情報から前記対象信号情報以外の音情報を雑音情報として生成する情報抽出部と、前記対象信号情報の信号レベルと、前記雑音情報の信号レベルとの比である信号対雑音比が第1閾値以下となる場合には、前記対象信号情報に対して音声認識処理を実行することでテキスト情報を生成し、前記テキスト情報を通知部に通知させる音声認識制御部と、を備える。
【0008】
本発明の通知方法は、音情報取得装置が話者の音声を含む音を収音して音情報を取得するステップと、管理装置が前記音情報を前記音情報取得装置から取得し、対象話者の音声を識別するための特徴量に基づいて、取得した前記音情報から前記対象話者の音声を示す対象信号情報を抽出するとともに、取得した前記音情報から前記対象信号情報以外の音情報を雑音情報として生成するステップと、前記管理装置が前記対象信号情報の信号レベルと、前記雑音情報の信号レベルとの比である信号対雑音比が第1閾値以下となる場合には、前記対象信号情報に対して音声認識処理を実行することでテキスト情報を生成し、前記テキスト情報を通知装置に送信するステップと、前記通知装置が前記管理装置から受信した前記テキスト情報を通知するステップと、を含む。
【0009】
本発明の通知方法は、対象話者の音声を含む音に関する音情報を取得するステップと、前記対象話者の音声を識別するための特徴量に基づいて、取得した前記音情報から前記対象話者の音声を示す対象信号情報を抽出するとともに、取得した前記音情報から前記対象信号情報以外の音情報を雑音情報として生成するステップと、前記対象信号情報の信号レベルと、前記雑音情報の信号レベルとの比である信号対雑音比が第1閾値以下となる場合には、前記対象信号情報に対して音声認識処理を実行することでテキスト情報を生成し、前記テキスト情報を通知部に通知させるステップと、を含む。
【発明の効果】
【0010】
本発明によれば、話者の周囲の環境音の状態に応じて、適切に音声の内容を送信相手に通知することができる。
【図面の簡単な説明】
【0011】
図1図1は、第1実施形態係る情報処理システムの構成例を示すブロック図である。
図2図2は、第1実施形態に係る管理装置の構成例を示すブロック図である。
図3図3は、第1実施形態に係る音情報取得装置の構成例を示すブロック図である。
図4図4は、第1実施形態に係る通知装置の構成例を示すブロック図である。
図5図5は、第1実施形態に係る特徴量抽出処理の流れを示すフローチャートである。
図6図6は、第2実施形態に係る管理装置の処理の流れを示すフローチャートである。
図7図7は、第3実施形態に係る管理装置の処理の流れを示すフローチャートである。
図8図8は、第4実施形態に係る通知装置の処理を示すフローチャートである。
図9図9は、第5実施形態に係る情報処理ステムの構成例を示すブロック図である。
図10図10は、第5実施形態に係る端末装置の構成例を示すブロック図である。
【発明を実施するための形態】
【0012】
以下、添付図面を参照して、本発明に係る実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではなく、また、以下の実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。
【0013】
[第1実施形態]
(情報処理システム)
図1を用いて、第1実施形態に係る情報処理システムの構成例について説明する。図1は、第1実施形態係る情報処理システムの構成例を示すブロック図である。
【0014】
図1に示すように、情報処理システム1は、管理装置10と、音情報取得装置12と、通知装置14と、を含む。管理装置10と、音情報取得装置12と、通知装置14とは、ネットワークNを介して、通信可能に接続されている。ネットワークNは、例えば、有線通信または無線通信によるインターネット網であればよいが、これに限定されない。ネットワークNは、携帯電話網などの無線通信方式や近距離無線通信方式であってもよい。近距離無線通信方式は、例えば、Wi-Fi(登録商標)およびBluetooth(登録商標)による通信が例示されるが、これに限定されない。管理装置10は、例えば、情報処理システム1の管理センターなどに配置される。音情報取得装置12と、通知装置14とは、例えば、会議室などの同じ室内に配置されてもよい。また、音情報取得装置12と、通知装置14とは、別々の会議室などの離れた場所に配置されてもよい。また、1つの情報処理システム1に複数の音情報取得装置12や通知装置14が接続されても良い。
【0015】
情報処理システム1においては、音情報取得装置12は、情報処理システム1を使用するユーザが話を聞き逃したくない話者(以後、対象話者とも呼ぶ)の音声を含む音情報を取得して、ネットワークNを介して、管理装置10に送信する。管理装置10は、音情報取得装置12から取得した音情報に対して音声認識処理を実行してテキスト情報を生成する。管理装置10は、ネットワークNを介して、生成したテキスト情報を通知装置14に送信する。通知装置14は、管理装置10から受信したテキスト情報を通知する。
【0016】
(管理装置)
図2は、第1実施形態に係る管理装置の構成例について説明する。図2は、第1実施形態に係る管理装置の構成例を示すブロック図である。
【0017】
図2に示すように、管理装置10は、通信部20と、記憶部22と、制御部24と、を備える。管理装置10は、例えば、サーバ装置などのコンピュータで実現することができる。
【0018】
通信部20は、ネットワークNを介して、外部装置と通信を行う通信インタフェースである。通信部20は、例えば、ネットワークNを介して、音情報取得装置12と通信を行う。通信部20は、例えば、ネットワークNを介して、通知装置14と通信を行う。
【0019】
記憶部22は、各種の情報を記憶している。記憶部22は、制御部24の演算内容、およびプログラム等の情報を記憶する。記憶部22は、例えば、RAM(Random Access Memory)と、ROM(Read Only Memory)のような主記憶装置、HDD(Hard Disk Drive)等の外部記憶装置とのうち、少なくとも1つ含む。
【0020】
記憶部22は、対象話者の音声を識別するために、各話者の音声の特徴量に関する特徴量情報を記憶している。記憶部22は、複数の話者の音声の特徴量情報と、話者の識別情報と対応付けて記憶している。識別情報は、例えば、話者に設定された固有のIDであるが、これに限定されない。
【0021】
制御部24は、管理装置10の各部を制御する。制御部24は、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等の情報処理装置と、RAMまたはROMなどの記憶装置とを有する。制御部24は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現されてもよい。制御部24は、ハードウェアと、ソフトウェアとの組み合わせで実現されてもよい。
【0022】
制御部24は、通知装置14からの制御情報を通信部20が受信すると、受信した制御情報に基づいて、音情報取得装置12に制御情報を送信するよう通信部20を制御する。ここで、受信する制御情報は、例えば、特徴抽出開始信号、追従動作開始信号であるとよい。つまり、制御部24は、受信された制御情報が特徴抽出開始信号であれば、音情報取得装置12に制御情報として特徴抽出開始信号を送信するよう通信部20を制御する。同様に、制御部24は、受信された制御情報が追従動作開始信号であれば、音情報取得装置12に制御情報として追従動作開始信号を送信するよう通信部20を制御する。
【0023】
制御部24は、取得部30と、情報抽出部32と、音声認識制御部34と、を備える。
【0024】
取得部30は、通信部20を介して、音情報取得装置12から音情報を取得する。取得部30は、例えば、通信部20を介して、対象話者の音声を含む音情報を取得する。取得部30は、対象話者の音声を含む音情報と、対象話者の識別情報とを取得する。
【0025】
情報抽出部32は、取得部30が取得した音情報から対象話者の音声を示す対象信号情報を抽出する。情報抽出部32は、例えば、記憶部22に記憶されている特徴量情報に基づいて、取得部30が取得した音情報から対象信号情報を抽出する。情報抽出部32は、例えば、取得部30が音情報と共に取得した識別情報に対応する識別情報が対応付けられた特徴量情報に基づいて、対象信号情報を生成する。情報抽出部32は、取得部30が取得した音情報から対象信号情報以外の音情報を雑音情報として生成する。
【0026】
音声認識制御部34は、情報抽出部32が抽出した対象信号情報に対して、音声認識処理を実行する。音声認識制御部34は、対象信号情報の信号レベルと、雑音情報の信号レベルとの比である信号対雑音比を算出する。音声認識制御部34は、信号対雑音比があらかじめ設定された第1閾値以下である場合、情報抽出部32が抽出した対象信号情報に対して、音声認識処理を実行してテキスト情報を生成する。第1閾値は、所定の閾値として記憶部22に記憶されているとよい。第1閾値は、ユーザが任意に設定してよい。音声認識制御部34は、通信部20を介して、生成したテキスト情報を通知装置14に送信する。音声認識制御部34は、信号対雑音比が第1閾値以下でない場合には、通信部20を介して、対象信号情報を通知装置14に送信する。
【0027】
(音情報取得装置)
図3を用いて、第1実施形態に係る音情報取得装置の構成例について説明する。図3は、第1実施形態に係る音情報取得装置の構成例を示すブロック図である。
【0028】
図3に示すように、音情報取得装置12は、通信部40と、入力部42と、音声入力部44と、記憶部46と、制御部48と、を備える。
【0029】
通信部40は、ネットワークNを介して、外部装置と通信を行う通信インタフェースである。通信部40は、例えば、ネットワークNを介して、管理装置10と通信を行う。
【0030】
入力部42は、音情報取得装置12に対する各種の入力操作を受け付ける。入力部42は、例えば、ボタン、スイッチなどで実現される。
【0031】
音声入力部44は、音情報取得装置の周囲の各種の音を検出する。音声入力部44は、例えば、特定の話者の音声を検出する。音声入力部44は、例えば、対象話者の音声を検出する。音声入力部44は、例えば、マイクロフォンなどで実現される。
【0032】
記憶部46は、各種の情報を記憶している。記憶部46は、制御部48の演算内容、およびプログラム等の情報を記憶する。記憶部46は、例えば、RAMと、ROMのような主記憶装置、HDD等の外部記憶装置とのうち、少なくとも1つ含む。
【0033】
制御部48は、音情報取得装置12の各部を制御する。制御部48は、例えば、CPUやMPUなどの情報処理装置と、RAMまたはROMなどの記憶装置とを有する。制御部48は、例えば、ASICやFPGA等の集積回路により実現されてもよい。制御部48は、ハードウェアと、ソフトウェアとの組み合わせで実現されてもよい。
【0034】
制御部48は、音声入力部44を制御して、音情報取得装置12の周囲の各種の音を検出させる。制御部48は、例えば、音声入力部44を制御して、対象話者の音声を検出させる。制御部48は、例えば、通信部40を介して、音声入力部44が検出した音に関する音情報を管理装置10に送信する。
【0035】
(通知装置)
図4を用いて、第1実施形態に係る通知装置の構成例について説明する。図4は、第1実施形態に係る通知装置の構成例を示すブロック図である。
【0036】
図4に示すように、通知装置14は、通信部50と、入力部52と、表示部54と、音声出力部56と、記憶部58と、制御部60と、を備える。通知装置14は、例えば、ヘッドマウントディスプレイ、スマートグラス、スマートフォンなどで実現されるが、これらに限定されない。
【0037】
通信部50は、ネットワークNを介して、外部装置と通信を行う通信インタフェースである。通信部50は、例えば、ネットワークNを介して、管理装置10と通信を行う。
【0038】
入力部52は、通知装置14に対する各種の入力操作を受け付ける。入力部52は、例えば、ボタン、スイッチ、タッチパネルなどで実現される。
【0039】
表示部54は、各種の映像を表示する。表示部54は、例えば、管理装置10から受信したテキスト情報を表示する。表示部54は、例えば、液晶ディスプレイ(LCD:Liquid Crystal Display)、有機EL(Electro-Luminescence)などを含むディスプレイである。表示部54は、入力部52がタッチパネルである場合には、入力部52と、表示部54とは、一体に構成される。
【0040】
音声出力部56は、各種の音声を出力する。音声出力部56は、管理装置10から受信した対象信号情報に関する音声を出力する。音声出力部56は、スピーカなどで実現される。また、音声出力部56を省略した構成としてもよい。
【0041】
記憶部58は、各種の情報を記憶している。記憶部58は、制御部60の演算内容、およびプログラム等の情報を記憶する。記憶部58は、例えば、RAMと、ROMのような主記憶装置、HDD等の外部記憶装置とのうち、少なくとも1つ含む。
【0042】
制御部60は、通知装置14の各部を制御する。制御部60は、例えば、CPUやMPUなどの情報処理装置と、RAMまたはROMなどの記憶装置とを有する。制御部60は、例えば、ASICやFPGA等の集積回路により実現されてもよい。制御部60は、ハードウェアと、ソフトウェアとの組み合わせで実現されてもよい。制御部60は、管理装置10からテキスト情報を受信すると、通知装置14の各部を制御して、テキスト情報の内容をユーザに通知する。例えば、制御部60は、表示部54を制御して、受信したテキスト情報を表示させることにより、ユーザにテキスト情報の内容を通知する。また、制御部60は、受信したテキスト情報に基づいて音声合成により音声情報を生成し、音声出力部56を制御して、テキスト情報の内容を含む音声情報を再生することにより、ユーザにテキスト情報の内容を通知するようにしてもよい。
【0043】
(特徴量抽出処理)
図5を用いて、第1実施形態に係る特徴量抽出処理について説明する。図5は、第1実施形態に係る特徴量抽出処理の流れを示すフローチャートである。
【0044】
図5に示す処理は、対象話者の音声からテキスト情報を生成するために、事前に、対象話者の特徴量を管理装置10の記憶部22に記憶させるための情報処理システム1の処理を示している。例えば、図5に示す処理は、通知装置14を利用しているユーザが、対象話者が話していることを確認した際に、対象話者の特徴量の抽出を開始するように入力部52に入力した際に実行される。通知装置14は、話者の音声情報の特徴量の抽出を開始する指示をするための操作を検知すると、特徴抽出開始信号を管理装置10に通知する。管理装置10は、特徴抽出開始信号を受信すると、音情報取得装置12に特徴抽出開始信号を通知する。
【0045】
音情報取得装置12の制御部48は、音声入力部44を制御して、対象話者の音声を検出させる(ステップS10)。具体的には、音情報取得装置12の制御部48は、対象話者の音声を検出し、通信部40を介して、検出した対象話者の音声に関する音声情報を管理装置10に送信する。すなわち、第1実施形態では、音情報取得装置12には、対象話者の音声のみが入力されるものとする。そして、ステップS12に進む。
【0046】
管理装置10の情報抽出部32は、取得部30が音情報取得装置12から取得した、音声情報に対して、音声抽出処理を行い音声の特徴量を抽出する(ステップS12)。音声特徴量抽出処理は、周知または公知の技術を利用して、音声の特徴量を抽出できればよい。例えば、情報抽出部32は、先ず、音声情報に対してFFT(Fast Fourier Transform)のような変換処理を実行する。次いで、情報抽出部32は、FFTの実行結果に基づいてMFCC(Mel Frequency Cepstral Coefficient:メル周波数ケプストラム係数)を計算する。そして、情報抽出部32は、所定の時間区間(例えば、数ミリ秒から数十ミリ秒)の単位でMFCCの差分を算出して音声の特徴量を抽出すればよい。また、情報抽出部32は、音声情報に対してFFTを実行して、フォルマント周波数を算出し、フォルマント周波数を音声の特徴量として抽出すればよい。
【0047】
また、管理装置10の記憶部22に複数の音声の特徴量が記憶されている場合には、情報抽出部32は、抽出された音声の特徴量と、記憶部22に記憶された音声の特徴量とについて、グループ化してもよい。具体的には、情報抽出部32は、例えば、周知のクラスター分析を行い、音声の特徴量の類似度(一致度)が高い(差分が小さい)順に、音声の特徴量をグループ化して、話者毎の音声の特徴量のグループを生成しておいてもよい。情報抽出部32は、例えば、所定の閾値よりも高い類似度を有する(小さい差分を有する)音声の特徴量同士を、同じ話者の音声の特徴量として、同じグループに分類してもよい。情報抽出部32は、生成された音声の特徴量もしくは音声の特徴量のグループを、抽出した音声の特徴量を識別するための識別情報とともに、記憶部22に記憶させてもよい。
【0048】
管理装置10の情報抽出部32は、所定の音声特徴量抽出処理により音声の特徴量を抽出すると、抽出した音声の特徴量を、抽出した音声の特徴量を識別するための識別情報とともに、記憶部22に記憶する(ステップS14)。そして、図5の処理を終了する。
【0049】
以上のように、第1実施形態では、対象話者の音声の特徴量を抽出し、抽出した音声の特徴量を識別するための識別情報とともに、記憶部22に記憶することで、対象話者が選択された際に、識別情報を利用して関連付けられた音声の特徴量を記憶部から読み出すことができるようになる。
【0050】
なお、第1実施形態では音声情報システムを利用して対象話者の音声情報を取得しているが、あらかじめ対象話者の音声情報を録音しておき、録音された音声情報を管理装置10で取得して利用してもよい。また、対象話者の音声の特徴量が事前に抽出されている場合は、抽出された特徴量を管理装置10で取得して、識別するための識別情報とともに、記憶部22に記憶するようにしてもよい。
【0051】
[第2実施形態]
(管理装置の動作)
図6を用いて、第2実施形態に係る管理装置の処理について説明する。図6は、第2実施形態に係る管理装置の処理の流れを示すフローチャートである。
【0052】
まず、ユーザは、通知装置14を操作して、対象話者を選択する。通知装置14は、ユーザの操作により対象話者が選択されたことを検知すると、対象話者の音声に追従して各種の処理を実行する動作を開始し、追従動作開始信号を管理装置10に送信する。通知装置14は、追従動作開始信号を通知する際に、対象話者を特定するための識別情報(以後、話者識別情報)を合わせて送信する。制御部24は、追従動作開始信号と話者識別情報とが通信部20で受信されると、音情報取得装置12に制御情報として追従動作開始信号を送信するよう通信部20を制御する。音情報取得装置12は、追従動作開始信号に基づいて話者の音声を含む音声情報を取得し、取得された音声情報を管理装置10に送信する動作を開始する。
【0053】
取得部30は、対象話者の音声を含む音声情報を音情報取得装置12から取得する(ステップS20)。そして、ステップS22に進む。
【0054】
情報抽出部32は、受信された話者識別情報に基づいて、記憶部22から識別情報に関連付けられた話者の特徴量を読み出すことで、対象話者の音声の特徴量を取得する(ステップS22)。そして、ステップS24に進む。
【0055】
音声認識制御部34は、取得部30が音情報取得装置12から音声情報を順次取得しながら、取得した音声の特徴量に基づいて、取得した音声情報から対象信号情報と雑音情報に分離する(ステップS24)。ここで、対象信号情報は、音声情報から音声の特徴量に基づいて抽出された対象話者の音声情報である。雑音情報は、音声情報で雑音と見なされた対象信号情報以外の情報である。そして、ステップS26に進む。
【0056】
音声認識制御部34は、分離された対象信号情報と雑音情報とに対して、対象信号情報の信号レベルと雑音情報の信号レベルとの比である信号対雑音比の値を計算する(ステップS26)。そして、ステップS28に進む。
【0057】
音声認識制御部34は、計算された信号対雑音比の値が、あらかじめ定めた所定の第1閾値以下であるか否かを判定する(ステップS28)。信号対雑音比の値が第1閾値以下であると判定された場合(ステップS28;Yes)、ステップS30に進む。信号対雑音比の値が第1閾値以下でないと判定された場合(ステップS28;No)、ステップS34に進む。
【0058】
ステップS28でYesと判定された場合、音声認識制御部34は、対象話者の音声がユーザにとって聞き取り辛くなったため、対象信号情報に対して所定の音声認識処理を行うことで、テキスト情報を生成する(ステップS30)。そして、ステップS32に進む。
【0059】
音声認識制御部34は、通信部20を介して、生成したテキスト情報を通知装置14に送信する(ステップS32)。そして、ステップS36に進む。
【0060】
ステップS28でNoと判定された場合、音声認識制御部34は、通信部20を介して、対象信号情報を音情報として通知装置14に送信する(ステップS34)。
【0061】
制御部24は、処理を終了するか否かを判定する(ステップS36)。例えば、制御部24は、対象話者の話が終了した場合などに処理を終了すると判定する。処理を終了すると判定された場合(ステップS36;Yes)、図6の処理を終了する。処理を終了すると判定されない場合(ステップS36;No)、ステップS20に進む。
【0062】
上述のとおり、第2実施形態は、音情報に含まれる対象話者の音声がユーザにとって聞き取り辛くなった際に、対象話者の音声情報をテキスト情報に変換して通知装置に送信する。これにより、第2実施形態は、通知装置にテキスト情報が表示されるので、対象話者が話している内容を可能な限り聞き漏らさないようにすることができる。
【0063】
[第2実施形態の変形例]
第2実施形態の変形例について説明する。第2実施形態では、音情報取得装置12は、特定の1人の話者の音声を取得するものとして説明したが、本発明はこれに限定されない。第2実施形態の変形例では、音情報取得装置12には、複数の話者の音声が入力されてもよい。
【0064】
音情報取得装置12は、例えば、会議室などに設置されている場合に、複数の話者が同時に発言している場合などには、複数の話者の音声を検出してもよい。この場合、音情報取得装置12は、ネットワークNを介して、同時に検出した複数の話者の音声に関する音声情報を管理装置10に送信してもよい。
【0065】
管理装置10は、音情報取得装置12から受信した複数の音声情報から対象話者を特定し、対象話者の音声情報をテキスト情報に変換してもよい。管理装置10は、例えば、受信した各音声情報に対して音声認識処理を実行して、各音声情報の話者を示す識別情報を特定してもよい。例えば、管理装置10は、各音声情報に対して周波数解析処理を実行して周波数成分を抽出し、記憶部22に記憶された特徴量情報と比較することで、各音声情報にそれぞれ対応する特徴量情報に対応付けられた識別情報を特定してもよい。管理装置10は、例えば、パターンマッチングまたは機械学習の方法により各音声情報それぞれの識別情報を特定してもよい。管理装置10は、特定した識別情報に対応付けられた特徴量情報に基づいて、各音声情報のテキスト情報を生成するようにしてもよい。この場合、通知装置14を使用するユーザは、通知装置14を使用して複数の話者のうちの所望の話者を選択するようにすればよい。このとき、ユーザは、複数のユーザを選択するようにしてもよい。そして、管理装置10は、通知装置14を使用するユーザが選択した話者の音声がユーザにとって聞き取り辛くなった際に、選択された話者の音声情報をテキスト情報に変換して通知装置14に送信する。これにより、第2実施形態の変形例は、通知装置14にテキスト情報が表示されるので、選択した話者が話している内容を可能な限り聞き漏らさないようにすることができる。なお、第2実施形態の変形例では、複数の話者が選択された場合には、通知装置14は、複数の話者のそれぞれの音声情報に対応するテキスト情報を同時に複数表示してもよい。
【0066】
[第3実施形態]
図7を用いて、第3実施形態に係る管理装置の処理について説明する。図7は、第3実施形態に係る管理装置の処理の流れを示すフローチャートである。
【0067】
まず、ユーザは、通知装置14を操作して、対象話者を選択する。また、ユーザは、通知装置14を操作して、管理装置10がテキスト情報を生成するか否かの判断にユーザ自身の聴覚特性を利用するよう選択する。通知装置14は、ユーザの操作により対象話者が選択されたとともにユーザ自身の聴覚特性を利用するよう選択されたことを検知すると、選択された話者の音声に追従して各種の処理を実行する動作を開始し、追従動作開始信号を管理装置10に通知する。通知装置14は、追従動作開始信号を通知する際に、選択された話者に関する話者識別情報と聴覚特性を特定するための識別情報(以後、聴覚特性識別情報とも呼ぶ)を合わせて通知する。第3実施形態において、聴覚特性は、例えば、あらかじめ測定されたデータである。例えば、通知装置14が、ユーザの聴覚特性を測定する機能を有していてもよい。
【0068】
制御部24は、追従動作開始信号、話者識別情報および聴覚特性識別情報が通信部20で受信されると、音情報取得装置12に制御情報として追従動作開始信号を送信するよう通信部20を制御する。音情報取得装置12は、追従動作開始信号に基づいて話者の音声を含む音声情報を取得し、取得された音声情報を管理装置10に送信する動作を開始する。制御部24は、追従動作開始信号を検知するとともに、聴覚特性識別情報を検知した場合は、図6に示す第1閾値とは異なる第2閾値を設定する(ステップS40)。具体的には、制御部24は、第1閾値よりも低い第2閾値を第1閾値の代わりとして設定する。第2閾値は、第1閾値とは異なる所定の閾値として記憶部22に記憶されているとよい。そして、ステップS42に進む。
【0069】
ステップS42の処理は、図6に示すステップS22の処理と同じなので、説明を省略する。
【0070】
情報抽出部32は、追従動作開始信号を検知するとともに、聴覚特性識別情報を検知した場合は、合わせて通知される話者識別情報に基づいて、記憶部22から聴覚特性識別情報に関連付けられたユーザの聴覚特性の情報と、話者識別情報に関連付けられた話者の音声の特徴量を読み出すことで、対象話者の音声の特徴量を取得する(ステップS44)。そして、ステップS46に進む。
【0071】
ステップS46の処理は、図6に示すステップS24の処理と同じなので、説明を省略する。
【0072】
音声認識制御部34は、記憶部22から読み出した聴覚特性情報を用いて対象信号情報を補正する(ステップS48)。補正された対象信号情報は、ユーザが聞き取り辛い周波数の信号成分が補正されて聞き取り易くなるように変換された情報となる。補正された対象信号情報は、変換信号情報とも呼ばれる。そして、ステップS50に進む。
【0073】
音声認識制御部34は、変換信号情報と分離された雑音情報とに対して、対象信号情報の信号レベルと雑音情報の信号レベルとの比である信号対雑音比の値を計算する(ステップS50)。そして、ステップS52に進む。
【0074】
音声認識制御部34は、計算された信号対雑音比の値が、新たに設定された第2閾値以下であるか否かを判定する(ステップS52)。信号対雑音比の値が第2閾値以下であると判定された場合(ステップS52;Yes)、ステップS54に進む。信号対雑音比の値が第2閾値以下でないと判定された場合(ステップS52;No)、ステップS58に進む。
【0075】
ステップS54からステップS60の処理は、それぞれ、図6に示すステップS30からステップS36の処理と同じなので、説明を省略する。
【0076】
上述のとおり、第3実施形態は、対象話者の音声がユーザにとって聞き取り辛くなった際に、対象話者の音声情報をテキスト情報に変換して通知装置に送信する。これにより、第3実施形態は、対象話者が話している内容を可能な限り聞き漏らさないようにすることができる。
【0077】
[第4実施形態]
(通知装置の処理)
図8を用いて、第4実施形態に係る通知装置の処理について説明する。図8は、第4実施形態に係る通知装置の処理を示すフローチャートである。
【0078】
制御部60は、管理装置10から音情報を受信したか否かを判定する(ステップS70)。音情報を受信したと判定された場合(ステップS70;Yes)、ステップS72に進む。音情報を受信したと判定されない場合(ステップS70;No)、ステップS74に進む。
【0079】
ステップS70でYesと判定された場合、制御部60は、音声出力部56を制御して、管理装置10から取得した音情報を出力させる。そして、ステップS74に進む。
【0080】
制御部60は、管理装置10からテキスト情報を受信したか否かを判定する(ステップS74)。テキスト情報を受信したと判定された場合(ステップS74;Yes)、ステップS76に進む。テキスト情報を受信したと判定されない場合(ステップS74;No)、ステップS78に進む。
【0081】
ステップS74でYesと判定された場合、制御部60は、表示部54を制御して、管理装置10から取得したテキスト情報を表示させる(ステップS76)。これにより、ユーザは、対象話者の音声が聴き取り辛くなった際に、対象話者の音声をテキストとして把握することができる。そして、ステップS78に進む。
【0082】
制御部60は、処理を終了するか否かを判定する(ステップS78)。制御部60は、例えば、話者の話が終了した場合や、通知装置14の電源をオフにする操作を受け付けた場合に、処理を終了すると判定する。処理を終了すると判定された場合(ステップS78;Yes)、図8の処理を終了する。終了すると判定されない場合(ステップS78;No)、ステップS70に進む。
【0083】
上述のとおり、第4実施形態は、対象話者の音声がユーザにとって聞き取り辛くなった際に、対象話者の音声情報をテキスト情報と表示してユーザに提示する。これにより、第4実施形態は、対象話者が話している内容を可能な限り聞き漏らさないようにすることができる。
【0084】
[第5実施形態]
(情報処理システム)
図9を用いて、第5実施形態に係る情報処理システムの構成例について説明する。図9は、第5実施形態に係る情報処理ステムの構成例を示すブロック図である。
【0085】
図9に示すように、情報処理システム1Aは、端末装置16-1と、端末装置16-2とを含む。端末装置16-1と、端末装置16-2とは、ネットワークNを介して、通信可能に接続されている。端末装置16-1と、端末装置16-2とを区別する必要のない場合には、端末装置16と総称する。端末装置16は、例えば、業務用無線機、スマートフォン、タブレット端末などであるが、これらに限定されない。
【0086】
端末装置16-1と、端末装置16-2とは、ネットワークNを介して、音声通信を行う。端末装置16は、他の端末装置16から取得した音声情報を出力する際に、端末装置16のユーザが聞き取り辛くなった際に、音声情報に対して音声認識処理を実行して、テキスト情報を生成する。端末装置16は、生成したテキスト情報を表示部に表示させて、ユーザに提示する。
【0087】
(端末装置)
図10を用いて、第5実施形態に係る端末装置の構成例について説明する。図10は、第5実施形態に係る端末装置の構成例を示すブロック図である。
【0088】
図10に示すように、端末装置16は、第1通信部70と、第2通信部72と、入力部74と、表示部76と、音声出力部78と、記憶部80と、制御部82と、を備える。
【0089】
第1通信部70は、RF(Radio Frequency)信号を送信することで他の端末装置16と通信を行う。第1通信部70が行う通信の方式は、第1無線通信方式と呼ばれる。第1無線通信方式は、例えば、APCO-P25(Association of Public safety Communications Officials international Project 25)およびNXDN(登録商標)といったデジタル業務無線が挙げられる。第1無線通信方式は、例えば、携帯電話網を用いた無線通信であってもよい。
【0090】
第2通信部72は、近距離無線信号を送信することで他の端末装置16と通信を行う。第2通信部72が行う通信の方式は、第2無線通信方式と呼ばれる。第2無線通信方式は、例えば、Wi-Fi(登録商標)およびBluetooth(登録商標)による通信が例示されるが、これらに限定されない。
【0091】
入力部74は、端末装置16に対する各種の入力操作を受け付ける。入力部74は、例えば、ボタン、スイッチ、タッチパネル、マイクなどで実現される。
【0092】
表示部76は、各種の映像を表示する。表示部76は、例えば、制御部82の音声認識制御部94が生成したテキスト情報を表示する。表示部76は、例えば、液晶ディスプレイ、有機ELなどを含むディスプレイである。表示部54は、入力部52がタッチパネルである場合には、入力部74と、表示部76とは、一体に構成される。
【0093】
音声出力部78は、各種の音声を出力する。音声出力部78は、他の端末装置16から受信した音声情報に関する音声を出力する。音声出力部78は、スピーカで実現される。
【0094】
記憶部80は、各種の情報を記憶している。記憶部80は、制御部82の演算内容、およびプログラム等の情報を記憶する。記憶部80は、例えば、RAMと、ROMのような主記憶装置、HDD等の外部記憶装置とのうち、少なくとも1つ含む。
【0095】
制御部82は、端末装置16の各部を制御する。制御部82は、例えば、CPUやMPUなどの情報処理装置と、RAMまたはROMなどの記憶装置とを有する。制御部82は、例えば、ASICやFPGA等の集積回路により実現されてもよい。制御部82は、ハードウェアと、ソフトウェアとの組み合わせで実現されてもよい。
【0096】
制御部82は、音情報取得部90と、情報抽出部92と、音声認識制御部94と、を備える。
【0097】
音情報取得部90は、第1通信部70を介して、音情報取得装置12から音情報を取得する。音情報取得部90は、例えば、第1通信部70を介して、対象話者の音声を含む音情報を取得する。
【0098】
情報抽出部92は、音情報取得部90が取得した音情報から対象話者の音声を示す対象信号情報を抽出する。情報抽出部92は、例えば、記憶部80に記憶されている特徴量情報に基づいて、音情報取得部90が取得した音情報から対象信号情報を抽出する。情報抽出部92は、音情報取得部90が取得した音情報から対象信号情報以外の音情報を雑音情報として生成する。
【0099】
音声認識制御部94は、情報抽出部92が抽出した対象信号情報に対して、音声認識処理を実行する。音声認識制御部94は、対象信号情報の信号レベルと、雑音情報の信号レベルとの比である信号対雑音比を算出する。音声認識制御部94は、信号対雑音比があらかじめ定めた第1閾値以下である場合、情報抽出部92が抽出した対象信号情報に対して、音声認識処理を実行してテキスト情報を生成する。音声認識制御部94は、表示部76を制御して、生成したテキスト情報を表示させる。音声認識制御部34は、信号対雑音比が第1閾値以下でない場合には、音声出力部78を制御して、音情報取得部90が取得した音情報を出力させる。音声認識制御部94は、音情報取得部90が取得した音情報を常時出力するようにしてもよい。
【0100】
すなわち、端末装置16の制御部82は、図2に示す管理装置10の制御部24と同一の同様の構成を有している。そのため、端末装置16と、他の端末装置16との間で音声通話が行われている場合において、端末装置16のユーザが他の端末装置16のユーザの音声が聴き取り辛いと感じた場合に、端末装置16は表示部76に他の端末装置16のユーザの音声に関するテキスト情報を表示させることができる。これにより、第5実施形態は、対象話者が話している内容を可能な限り聞き漏らさないようにすることができる。
【0101】
図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の付加や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。なお、この分散・統合による構成は動的に行われてもよい。
【0102】
以上、本発明の実施形態を説明したが、これら実施形態の内容により本発明が限定されるものではない。また、前述した構成要素には、当業者が容易に想定できるもの、実質的に同一のもの、いわゆる均等の範囲のものが含まれる。さらに、前述した構成要素は適宜組み合わせることが可能である。さらに、前述した実施形態の要旨を逸脱しない範囲で構成要素の種々の省略、置換又は変更を行うことができる。
【0103】
本開示は、SDGsの「住み続けられるまちづくりを」の実現に貢献し、公共施設の安心・安全に寄与する事項を含む。
【符号の説明】
【0104】
1,1A 情報処理システム
10 管理装置
12 音情報取得装置
14 通知装置
16 端末装置
20,40,50 通信部
22,46,58,80 記憶部
24,48,60,82 制御部
30 取得部
32,92 情報抽出部
34,94 音声認識制御部
42,52,74 入力部
44 音声入力部
54,76 表示部
56,78 音声出力部
70 第1通信部
72 第2通信部
90 音情報取得部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10