IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ シャープ株式会社の特許一覧

特許7553645音声処理装置、会議システム、及び音声処理方法
<>
  • 特許-音声処理装置、会議システム、及び音声処理方法 図1
  • 特許-音声処理装置、会議システム、及び音声処理方法 図2
  • 特許-音声処理装置、会議システム、及び音声処理方法 図3
  • 特許-音声処理装置、会議システム、及び音声処理方法 図4
  • 特許-音声処理装置、会議システム、及び音声処理方法 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-09-09
(45)【発行日】2024-09-18
(54)【発明の名称】音声処理装置、会議システム、及び音声処理方法
(51)【国際特許分類】
   G10L 15/10 20060101AFI20240910BHJP
   G10L 15/00 20130101ALI20240910BHJP
   G10L 17/00 20130101ALI20240910BHJP
   H04N 7/15 20060101ALI20240910BHJP
   H04N 21/439 20110101ALI20240910BHJP
   G06F 3/16 20060101ALI20240910BHJP
   H04M 11/00 20060101ALI20240910BHJP
【FI】
G10L15/10 200W
G10L15/00 200U
G10L17/00 400
H04N7/15
H04N21/439
G06F3/16 610
G06F3/16 630
G06F3/16 640
H04M11/00 302
【請求項の数】 10
(21)【出願番号】P 2023072113
(22)【出願日】2023-04-26
(62)【分割の表示】P 2019040288の分割
【原出願日】2019-03-06
(65)【公開番号】P2023103287
(43)【公開日】2023-07-26
【審査請求日】2023-04-26
(73)【特許権者】
【識別番号】000005049
【氏名又は名称】シャープ株式会社
(74)【代理人】
【識別番号】100167302
【弁理士】
【氏名又は名称】種村 一幸
(74)【代理人】
【識別番号】100135817
【弁理士】
【氏名又は名称】華山 浩伸
(74)【代理人】
【識別番号】100181869
【弁理士】
【氏名又は名称】大久保 雄一
(72)【発明者】
【氏名】蛭川 慶子
(72)【発明者】
【氏名】寺田 智
【審査官】冨澤 直樹
(56)【参考文献】
【文献】国際公開第2018/173293(WO,A1)
【文献】特開2014-134791(JP,A)
【文献】特開2014-175944(JP,A)
【文献】特開2017-211608(JP,A)
【文献】中国特許出願公開第109307856(CN,A)
【文献】特開2017-090613(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00-17/26
H04N 7/15
H04N 21/439
G06F 3/16
H04M 11/00
(57)【特許請求の範囲】
【請求項1】
音声を受信する音声受信部と、
前記音声受信部より受信される前記音声が所定のコマンドの受け付けを開始するための特定ワードであるか否かを判定する音声判定部と、
記音声受信部より受信される前記音声を前記所定のコマンドを実行するサーバ装置に送信する第1送信モードと、前記音声受信部より受信される前記音声を所定の外部機器に送信する第2送信モードとを切り替える音声送信部と、
前記サーバ装置において実行される前記コマンドに対応する応答を当該サーバ装置から取得し、当該応答を出力する応答処理部と、
を備え、
前記音声送信部は、前記第1送信モードにおいて前記音声受信部より受信される前記音声を前記サーバ装置に送信した場合に前記第1送信モードを前記第2送信モードに切り替え、前記第2送信モードにおいて前記音声受信部より受信される前記音声が前記特定ワードである場合に前記第2送信モードを前記第1送信モードに切り替え可能であり、
さらに、前記音声送信部は、(1)前記第1送信モードにおいて前記サーバ装置から取得される第1コマンドに対応する前記応答に前記コマンドの連続受付を許可する情報が含まれる場合に前記第1送信モードを維持して前記第1コマンドの音声の後に受信される前記第1コマンドとは異なる第2コマンドの音声を前記サーバ装置に送信し、(2)前記第1送信モードにおいて前記サーバ装置から取得される第1コマンドに対応する前記応答に前記コマンドの連続受付を許可する情報が含まれない場合に前記第2送信モードに切り替えて前記第1コマンドの音声の後に受信される音声を前記外部機器に送信する、音声処理装置。
【請求項2】
撮像部により撮像される撮像画像を取得する画像取得部と、
前記音声受信部より受信される前記音声と、前記画像取得部により取得される前記撮像画像とに基づいて、発話者を特定する話者特定部と、
をさらに備え、
前記音声判定部は、前記音声受信部より受信される前記音声と、前記撮像画像に含まれる前記話者特定部により特定される前記発話者の画像とに基づいて、当該音声が前記特定ワードであるか否かを判定する、
請求項1に記載の音声処理装置。
【請求項3】
前記話者特定部は、前記音声受信部より受信される前記音声を受信した方向に含まれる前記撮像画像から抽出される発話候補者が予め記憶されたユーザ情報に登録されているか否かを判定し、当該発話候補者が前記ユーザ情報に登録されている場合に当該発話候補者を前記発話者として特定する、
請求項2に記載の音声処理装置。
【請求項4】
前記話者特定部は、前記音声受信部より受信される前記音声を受信した方向に含まれる前記撮像画像から抽出される発話候補者の口の動きと、前記音声受信部が前記音声を受信するタイミングとが一致するか否かを判定し、当該口の動きと前記音声を受信するタイミングとが一致する場合に、当該発話候補者を前記発話者として特定する、
請求項2に記載の音声処理装置。
【請求項5】
前記音声判定部により、前記音声受信部より受信される前記音声が前記特定ワードであると判定された場合に、前記音声送信部は、前記音声受信部が前記特定ワードの次に受信する音声をコマンド音声として前記サーバ装置に送信する、
請求項1~のいずれかに記載の音声処理装置。
【請求項6】
前記音声判定部により、前記音声受信部より受信される前記音声が前記特定ワードでないと判定された場合に、前記音声送信部は、当該音声を所定の外部機器に送信する、
請求項1~のいずれかに記載の音声処理装置。
【請求項7】
前記音声判定部は、前記音声受信部より受信される前記音声が前記特定ワードと一致し、かつ、前記撮像画像に含まれる前記発話者の顔の方向又は視線が前記撮像部に向けられている場合に、前記音声受信部より受信される前記音声が前記特定ワードであると判定する、
請求項2に記載の音声処理装置。
【請求項8】
ネットワークを介して互いに接続される第1音声処理装置及び第2音声処理装置を含み、前記第1音声処理装置で受信する音声を前記第2音声処理装置に送信し、前記第2音声処理装置で受信する音声を前記第1音声処理装置に送信することが可能な会議システムであって、
前記第1音声処理装置は、
音声を受信する音声受信部と、
前記音声受信部より受信される前記音声が所定のコマンドの受け付けを開始するための特定ワードであるか否かを判定する音声判定部と、
記音声受信部より受信される前記音声を前記所定のコマンドを実行するサーバ装置に送信する第1送信モードと、前記音声受信部より受信される前記音声を前記第2音声処理装置に送信する第2送信モードとを切り替える音声送信部と、
前記サーバ装置において実行される前記コマンドに対応する応答を当該サーバ装置から取得し、当該応答を出力する応答処理部と、
を備え、
前記音声送信部は、前記第1送信モードにおいて前記音声受信部より受信される前記音声を前記サーバ装置に送信した場合に前記第1送信モードを前記第2送信モードに切り替え、前記第2送信モードにおいて前記音声受信部より受信される前記音声が前記特定ワードである場合に前記第2送信モードを前記第1送信モードに切り替え可能であり、
さらに、前記音声送信部は、(1)前記第1送信モードにおいて前記サーバ装置から取得される第1コマンドに対応する前記応答に前記コマンドの連続受付を許可する情報が含まれる場合に前記第1送信モードを維持して前記第1コマンドの音声の後に受信される前記第1コマンドとは異なる第2コマンドの音声を前記サーバ装置に送信し、(2)前記第1送信モードにおいて前記サーバ装置から取得される第1コマンドに対応する前記応答に前記コマンドの連続受付を許可する情報が含まれない場合に前記第2送信モードに切り替えて前記第1コマンドの音声の後に受信される音声を前記第2音声処理装置に送信する、会議システム。
【請求項9】
前記第2音声処理装置は、前記第2送信モードにおいて、前記第1音声処理装置から受信する前記音声を出力する、
請求項に記載の会議システム。
【請求項10】
音声を受信することと、
受信される前記音声が所定のコマンドの受け付けを開始するための特定ワードであるか否かを判定することと、
信される前記音声を前記所定のコマンドを実行するサーバ装置に送信する第1送信モードと、受信される前記音声を所定の外部機器に送信する第2送信モードとを切り替えることと、
前記サーバ装置において実行される前記コマンドに対応する応答を当該サーバ装置から取得し、当該応答を出力することと、
前記第1送信モードにおいて受信される前記音声を前記サーバ装置に送信した場合に前記第1送信モードを前記第2送信モードに切り替え、前記第2送信モードにおいて受信される前記音声が前記特定ワードである場合に前記第2送信モードを前記第1送信モードに切り替えることと、
(1)前記第1送信モードにおいて前記サーバ装置から取得される第1コマンドに対応する前記応答に前記コマンドの連続受付を許可する情報が含まれる場合に前記第1送信モードを維持して前記第1コマンドの音声の後に受信される前記第1コマンドとは異なる第2コマンドの音声を前記サーバ装置に送信し、(2)前記第1送信モードにおいて前記サーバ装置から取得される第1コマンドに対応する前記応答に前記コマンドの連続受付を許可する情報が含まれない場合に前記第2送信モードに切り替えて前記第1コマンドの音声の後に受信される音声を前記外部機器に送信することと
を一又は複数のプロセッサーが実行する音声処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声処理装置、会議システム、及び音声処理方法に関する。
【背景技術】
【0002】
ユーザの音声を認識して、当該音声に応じた情報処理を実行する音声処理装置が提案されている(例えば特許文献1参照)。例えば、ユーザは、現在の天気を知りたい場合に、音声処理装置に向かって予め設定された特定ワードを発話する。音声処理装置は、前記特定ワードを受信すると、情報処理に応じたコマンドの受け付けを開始する。その後、ユーザが「天気を教えて」などの質問(コマンド音声)を発話すると、音声処理装置は前記コマンド音声を受信して、コマンドを実行する。例えば音声処理装置は、インターネットを利用して天気情報を取得し、前記質問に応じた回答を音声出力する。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2010-55375号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
従来の前記音声処理装置において、複数のユーザが通常の会話の中で前記特定ワードを発話した場合、音声処理装置が前記特定ワードを検知して、コマンドの受け付けを開始する待機状態に移行してしまう。この場合、音声処理装置が待機状態になったことを外部に報知することによりユーザの会話の妨げになったり、ユーザが待機状態を解除しなければならなかったりする問題が生じる。また、音声処理装置が待機状態になったことをユーザが気付かずに会話を続けた場合に、音声処理装置がユーザの会話の一部をコマンド音声と認識してコマンドを実行してしまう問題も生じる。
【0005】
本発明の目的は、ユーザの会話を妨げることなく、かつユーザが意図しないコマンドの実行を防ぐことが可能な音声処理装置、会議システム、及び音声処理方法を提供することにある。
【課題を解決するための手段】
【0006】
本発明の一の態様に係る音声処理装置は、音声を受信する音声受信部と、撮像部により撮像される撮像画像を取得する画像取得部と、前記音声受信部より受信される前記音声と、前記画像取得部により取得される前記撮像画像とに基づいて、発話者を特定する話者特定部と、前記音声受信部より受信される前記音声と、前記撮像画像に含まれる前記話者特定部により特定される前記発話者の画像とに基づいて、当該音声が所定のコマンドの受け付けを開始するための特定ワードであるか否かを判定する音声判定部と、前記音声判定部による判定結果に基づいて、前記音声受信部より受信される前記音声の送信先を切り替える音声送信部と、を備える。
【0007】
本発明の他の態様に係る会議システムは、ネットワークを介して互いに接続される第1音声処理装置及び第2音声処理装置を含み、前記第1音声処理装置で受信する音声を前記第2音声処理装置に送信し、前記第2音声処理装置で受信する音声を前記第1音声処理装置に送信することが可能な会議システムであって、前記第1音声処理装置は、音声を受信する音声受信部と、撮像部により撮像される撮像画像を取得する画像取得部と、前記音声受信部より受信される前記音声と、前記画像取得部により取得される前記撮像画像とに基づいて、発話者を特定する話者特定部と、前記音声受信部より受信される前記音声と、前記撮像画像に含まれる前記話者特定部により特定される前記発話者の画像とに基づいて、当該音声が所定のコマンドの受け付けを開始するための特定ワードであるか否かを判定する音声判定部と、前記音声判定部による判定結果に基づいて、前記音声受信部より受信される前記音声の送信先を切り替える音声送信部と、を備え、前記音声判定部により、前記音声受信部より受信される前記音声が前記特定ワードであると判定された場合に、前記音声送信部は、前記音声受信部が前記特定ワードの次に受信する音声をコマンド音声として、前記所定のコマンドを実行するサーバ装置に送信し、前記音声判定部により、前記音声受信部より受信される前記音声が前記特定ワードでないと判定された場合に、前記音声送信部は、当該音声を前記第2音声処理装置に送信する。
【0008】
本発明の他の態様に係る音声処理方法は、音声を受信する音声受信ステップと、撮像部により撮像される撮像画像を取得する画像処理ステップと、前記音声受信ステップより受信される前記音声と、前記画像処理ステップにより取得される前記撮像画像とに基づいて、発話者を特定する話者特定ステップと、前記音声受信ステップより受信される前記音声と、前記撮像画像に含まれる前記話者特定ステップにより特定される前記発話者の画像とに基づいて、当該音声が所定のコマンドの受け付けを開始するための特定ワードであるか否かを判定する音声判定ステップと、前記音声判定ステップによる判定結果に基づいて、前記音声受信ステップより受信される前記音声の送信先を切り替える音声送信ステップと、を一又は複数のプロセッサーにより実行する。
【発明の効果】
【0009】
本発明によれば、ユーザの会話を妨げることなく、かつユーザが意図しないコマンドの実行を防ぐことが可能な音声処理装置、会議システム、及び音声処理方法が提供される。
【図面の簡単な説明】
【0010】
図1図1は、本発明の実施形態に係る会議システムの概略構成を示す図である。
図2図2は、本発明の実施形態に係る会議システムの構成を示す機能ブロック図である。
図3図3は、本発明の実施形態に係る会議システムに用いられるユーザ情報の一例を示す図である。
図4図4は、本発明の実施形態に係る音声処理装置における音声処理の手順の一例を説明するためのフローチャートである。
図5図5は、本発明の実施形態に係る音声処理装置における音声判定処理の手順の一例を説明するためのフローチャートである。
【発明を実施するための形態】
【0011】
以下、添付図面を参照しながら、本発明の実施形態について説明する。なお、以下の実施形態は、本発明を具体化した一例であって、本発明の技術的範囲を限定する性格を有さない。
【0012】
本発明に係る音声処理装置は、複数のユーザが参加する会議、遠隔地をネットワーク接続して複数のユーザが参加するリモート会議などに適用することができる。また、前記音声処理装置は、一人のユーザにより利用されてもよい。例えば、音声処理装置は、一般家庭に設置され、家庭内の機器と接続してユーザの指示に基づいて各種コマンドを実行するものであってもよい。また、音声処理装置1は、コマンドを実行する機能と、ユーザ間で通話可能な通話機能とを備えたものであってもよい。以下の実施形態では、音声処理装置がリモート会議に適用される場合を例に挙げて説明する。すなわち、本発明に係る音声処理装置は、本発明に係る会議システムを構成する。リモート会議では、それぞれの遠隔地(会議室)に音声処理装置が設置され、一方の会議室の音声処理装置がユーザの発話した音声を受信して、他方の会議室の音声処理装置に送信することにより、各会議室のユーザ同士の会話を可能にする。また、音声処理装置は、各会議室において、ユーザからコマンド音声を受信して、所定のコマンドを実行するクラウドサーバに送信する。
【0013】
図1は、本発明の実施形態に係る会議システムの概略構成を示す図である。会議システム100は、1又は複数の音声処理装置1と、クラウドサーバ2とを含んでいる。音声処理装置1A,1Bのそれぞれは、マイク及びスピーカを備えたマイクスピーカ装置であり、例えばAIスピーカ、スマートスピーカなどである。ここでは、会議室Aに設置された音声処理装置1Aと、会議室Bに設置された音声処理装置1Bとを示している。音声処理装置1Aと音声処理装置1Bとクラウドサーバ2とは、ネットワークN1を介して互いに接続されている。ネットワークN1は、インターネット、LAN、WAN、又は公衆電話回線などの通信網である。クラウドサーバ2は、例えば複数台のデータサーバ(仮想サーバ)で構築される。音声処理装置1A,1Bのそれぞれは、本発明の音声処理装置の一例である。また音声処理装置1Aは、本発明の第1音声処理装置の一例であり、音声処理装置1Bは、本発明の第2音声処理装置の一例である。クラウドサーバ2は、本発明のサーバ装置の一例である。
【0014】
以下、会議システム100の具体的な構成について説明する。尚、以下の説明では、音声処理装置1A,1Bを区別しない場合は音声処理装置1と称す。また、クラウドサーバ2は、1台の仮想サーバとして説明する。尚、クラウドサーバ2は、1台の物理サーバに置き換えられてもよい。
【0015】
[音声処理装置1]
図2に示すように、音声処理装置1は、制御部11、記憶部12、スピーカ13、マイク14、カメラ15、及び通信インターフェース16などを備える。音声処理装置1は、例えばAIスピーカ、スマートスピーカなどの機器であってもよい。音声処理装置1は、例えば会議室の机の中央付近に配置され、会議に参加するユーザの音声をマイク14を介して取得したり、当該ユーザに対してスピーカ13から音声を出力(報知)したりする。
【0016】
カメラ15は、被写体の画像を撮像してデジタル画像データとして出力するデジタルカメラである。例えばカメラ15は、音声処理装置1の上面に設けられ、音声処理装置1の周囲360度の範囲を撮像可能であり、ここでは会議室の室内全体を撮像することが可能である。カメラ15は、本発明の撮像部の一例である。
【0017】
通信インターフェース16は、音声処理装置1を有線又は無線でネットワークN1に接続し、ネットワークN1を介して他の機器(例えば音声処理装置1、クラウドサーバ2)との間で所定の通信プロトコルに従ったデータ通信を実行するための通信インターフェースである。
【0018】
記憶部12は、各種の情報を記憶するフラッシュメモリーなどの不揮発性の記憶部である。
【0019】
具体的に、記憶部12には、音声処理装置1を利用するユーザの情報(ユーザ情報D1)などのデータが記憶される。図3は、ユーザ情報D1の一例を示す図である。ユーザ情報D1には、ユーザごとに、ユーザIDと、画像データとが関連付けられて登録されている。ユーザIDは、ユーザの識別情報である。画像データは、ユーザを撮像した撮像画像の画像データである。前記撮像画像にはユーザの顔画像が含まれる。図3に示す例は、会議室Aに設置された音声処理装置1Aの記憶部12に記憶されたユーザ情報D1を示しており、当該ユーザ情報D1には、会議室Aにいる4人のユーザ(図1参照)のユーザ情報が登録されている。なお、ユーザが会議室Aに入室する際にIDカード等を音声処理装置1A等の機器に翳すことにより、予め複数のユーザ情報が登録されたデータサーバ(不図示)から、記憶部12のユーザ情報D1に前記ユーザのユーザID及び画像データが登録されてもよい。
【0020】
さらに、記憶部12には、制御部11に後述の音声処理(図4参照)を実行させるための音声処理プログラムなどの制御プログラムが記憶されている。例えば、前記音声処理プログラムは、クラウドサーバ2から配信されて記憶される。また前記音声処理プログラムは、CD又はDVDなどのコンピュータ読取可能な記録媒体に非一時的に記録され、音声処理装置1が備えるCDドライブ又はDVDドライブなどの読取装置(不図示)で読み取られて記憶部12に記憶されてもよい。
【0021】
制御部11は、CPU、ROM、及びRAMなどの制御機器を有する。前記CPUは、各種の演算処理を実行するプロセッサーである。前記ROMは、前記CPUに各種の処理を実行させるためのBIOS及びOSなどの制御プログラムを予め記憶する。前記RAMは、各種の情報を記憶し、前記CPUが実行する各種の処理の一時記憶メモリー(作業領域)として使用される。そして、制御部11は、前記ROM又は記憶部12に予め記憶された各種の制御プログラムを前記CPUで実行することにより音声処理装置1を制御する。
【0022】
具体的に、制御部11は、音声受信部111、画像取得部112、話者特定部113、音声判定部114、音声送信部115、表示処理部116、調整処理部117、応答処理部118などの各種の処理部を含む。なお、制御部11は、前記CPUで前記制御プログラムに従った各種の処理を実行することによって前記各種の処理部として機能する。また、制御部11に含まれる一部又は全部の処理部が電子回路で構成されていてもよい。なお、前記音声処理プログラムは、複数のプロセッサーを前記各種の処理部として機能させるためのプログラムであってもよい。
【0023】
音声受信部111は、音声処理装置1を利用するユーザが発話した音声を受信する。音声受信部111は、本発明の音声受信部の一例である。ユーザは、例えば、会議に関する音声、音声処理装置1がコマンドの受け付けを開始するための特定ワード(起動ワード、ウェイクアップワードともいう。)の音声、音声処理装置1に指示する各種コマンドの音声(コマンド音声)などを発話する。音声受信部111は、ユーザから発話された各種音声を受信する。
【0024】
画像取得部112は、カメラ15により撮像された撮像画像を取得する。画像取得部112は、本発明の画像取得部の一例である。例えば、カメラ15により会議室Aにいる4人のユーザが撮像された場合、画像取得部112は、4人のユーザを含む撮像画像を取得する。
【0025】
話者特定部113は、音声受信部111より受信された前記音声と、画像取得部112により取得された前記撮像画像とに基づいて、発話したユーザ(発話者)を特定する。話者特定部113は、本発明の話者特定部の一例である。例えば、話者特定部113は、マイク14による集音方向に基づいて前記音声を受信した方向(発話者の方向)を特定し、当該方向に含まれる前記撮像画像に基づいて発話者を特定する。例えば、前記方向に含まれる前記撮像画像にユーザが含まれる場合、話者特定部113は、当該ユーザを発話者として特定する。
【0026】
ここで、音声受信部111が音声を受信した方向に含まれる前記撮像画像に少なくとも一人のユーザが含まれる場合、話者特定部113は以下の方法により発話者を特定してもよい。
【0027】
第1の方法として、話者特定部113は、前記撮像画像から発話者の候補として一人のユーザを抽出する。話者特定部113は、抽出したユーザが所定範囲内にいるか否かを判定し、所定範囲内にいる場合に当該ユーザを発話者として特定する。前記所定範囲は、例えば、音声処理装置1を中心として半径数メートルの範囲に設定される。これにより、音声処理装置1から離れた位置にいるユーザが前記発話者として特定されることを防ぐことができる。
【0028】
第2の方法として、話者特定部113は、抽出したユーザが正面を向いているか否か、すなわち当該ユーザの顔の方向又は視線がカメラ15に向けられているか否かを判定し、当該ユーザが正面を向いている場合に当該ユーザを発話者として特定する。これにより、正面とは異なる方向を向いて発話しているユーザが前記発話者として特定されることを防ぐことができる。
【0029】
第3の方法として、話者特定部113は、抽出したユーザがユーザ情報D1に登録されているか否かを判定し、当該ユーザがユーザ情報D1に登録されている場合に当該ユーザを発話者として特定する。これにより、ユーザ情報D1に登録されていないユーザが発話した場合、当該ユーザが前記発話者として特定されることを防ぐことができる。
【0030】
第4の方法として、話者特定部113は、抽出したユーザの口の動きと、音声受信部111が音声を受信したタイミングとが一致するか否かを判定し、当該口の動きと当該受信したタイミングとが一致する場合に、当該ユーザを発話者として特定する。これにより、前記口の動きと前記受信したタイミングとが一致しないユーザが前記発話者として特定されることを防ぐことができる。
【0031】
話者特定部113は、前記第1の方法から前記第4の方法のうち少なくともいずれかの方法を用いて発話者を特定する。また、話者特定部113は、前記第1の方法から前記第4の方法のうち任意の複数の方法を組み合わせて発話者を特定してもよいし、全ての方法を用いて発話者を特定してもよい。
【0032】
ここで、音声受信部111が音声を受信した方向に含まれる前記撮像画像に含まれる複数のユーザのうち任意に抽出された第1のユーザが、前記第1の方法から前記第4の方法のいずれの方法によっても前記発話者として特定されない場合、話者特定部113は、他の第2のユーザを抽出して、前記第1の方法から前記第4の方法の少なくともいずれかにより発話者の判定を行う。このようにして、話者特定部113は、前記複数のユーザのそれぞれに対して、前記発話者が特定されるまで前記判定処理を行う。
【0033】
なお、会議システム100が、遠隔地(会議室B)のユーザが発話した音声が会議室Aに設置された、音声処理装置1Aとは異なるスピーカ装置(不図示)から出力される構成である場合、音声処理装置1Aの音声受信部111が前記音声を受信した方向に含まれる撮像画像にはユーザが含まれず、前記スピーカが含まれることとなる。この場合、話者特定部113は、発話者を特定せず、会議室Aにいるユーザの音声ではないと判断する。
【0034】
音声判定部114は、音声受信部111より受信された前記音声と、前記撮像画像に含まれる話者特定部113により特定された前記発話者の画像とに基づいて、当該音声が前記特定ワードであるか否かを判定する。音声判定部114は、本発明の音声判定部の一例である。例えば、音声判定部114は、音声受信部111より受信された前記音声が前記特定ワードと一致するか否かを判定する。また音声判定部114は、前記撮像画像に含まれる前記発話者が正面を向いているか否か、すなわち前記発話者の顔の方向又は視線がカメラ15に向けられているか否かを判定する。そして、音声判定部114は、音声受信部111より受信された前記音声が前記特定ワードと一致し、かつ、前記撮像画像に含まれる前記発話者の顔の方向又は視線がカメラ15に向けられている場合に、音声受信部111より受信される前記音声が前記特定ワードであると判定する。一方、音声判定部114は、音声受信部111より受信された前記音声が前記特定ワードと一致しない場合、又は、前記撮像画像に含まれる前記発話者の顔の方向又は視線がカメラ15に向けられていない場合には、音声受信部111より受信される前記音声が前記特定ワードでないと判定する。
【0035】
音声送信部115は、音声判定部114による判定結果に基づいて、音声受信部111より受信される前記音声の送信先を切り替える。音声送信部115は、本発明の音声送信部の一例である。具体的には、音声判定部114により、音声受信部111より受信された前記音声が前記特定ワードであると判定された場合に、音声送信部115は、音声受信部111が前記特定ワードの次に受信する音声をコマンド音声として、クラウドサーバ2のみに送信する。また音声判定部114により、音声受信部111より受信された前記音声が前記特定ワードでないと判定された場合には、音声送信部115は、当該音声を他の音声処理装置1に送信する。例えば、音声処理装置1Aの音声送信部115は、前記特定ワードではない音声を、音声処理装置1Bに送信する。音声処理装置1Bは、本発明の外部機器の一例である。
【0036】
ここで、音声送信部115は、音声判定部114による判定結果に基づいて、音声受信部111より受信された前記音声をクラウドサーバ2に送信するコマンド送信モード(本発明の第1送信モードに対応)と、音声受信部111より受信された前記音声を他の音声処理装置1に送信する音声送信モード(本発明の第2送信モードに対応)とを切り替える構成を備えてもよい。例えば、音声判定部114により、音声受信部111より受信された前記音声が前記特定ワードであると判定された場合に、音声送信部115は、送信モードをコマンド送信モードに設定する(切り替える)。送信モードがコマンド送信モードに設定された場合、音声送信部115は前記コマンド音声をクラウドサーバ2に送信する。また音声送信部115は、前記コマンド音声をクラウドサーバ2に送信した後、送信モードを音声送信モードに設定する(切り替える)。送信モードが音声送信モードに設定された場合、音声送信部115は、音声受信部111より受信された前記音声を他の音声処理装置1に送信する。
【0037】
表示処理部116は、前記送信モードを示す識別情報を表示させる。表示処理部116は、本発明の表示処理部の一例である。例えば、表示処理部116は、送信モードがコマンド送信モードである場合、赤色LEDを発光させ、送信モードが音声送信モードである場合、青色LEDを発光させる。なお、前記送信モードを示す識別情報は、テキスト情報であってもよし、音声情報であってもよい。音声処理装置1が表示部を備える場合には、表示処理部116は、前記表示部に前記テキスト情報を表示させてもよい。
【0038】
調整処理部117は、音声を収音するマイク14の指向性を調整する。調整処理部117は、本発明の調整処理部の一例である。具体的には、調整処理部117は、音声送信部115により音声送信モードからコマンド送信モードに設定された場合に、マイク14の指向性を話者特定部113により特定される前記発話者の方向に調整する。これにより、音声受信部111は、発話者から発話される前記コマンド音声を確実に取得することが可能となる。
【0039】
応答処理部118は、クラウドサーバ2において実行された前記コマンドに対応する応答(コマンド応答)をクラウドサーバ2から取得し、当該コマンド応答をスピーカ13から出力させる。なお、音声処理装置1が表示部を備える場合には、応答処理部118は、前記表示部に前記コマンド応答を表示させてもよい。応答処理部118は、本発明の応答処理部の一例である。
【0040】
[クラウドサーバ2]
図2に示すように、クラウドサーバ2は、制御部21、記憶部22、通信インターフェース23などを備える。
【0041】
通信インターフェース23は、クラウドサーバ2を有線又は無線でネットワークN1に接続し、ネットワークN1を介して他の機器(例えば音声処理装置1A,1B)との間で所定の通信プロトコルに従ったデータ通信を実行するための通信インターフェースである。
【0042】
記憶部22は、各種の情報を記憶するフラッシュメモリーなどの不揮発性の記憶部である。例えば、記憶部22には、制御部21により実行される制御プログラムが記憶されている。また記憶部22には、音声処理装置1から受信する音声データ(コマンド音声)に対応するコマンドの情報(コマンド情報)が記憶されている。
【0043】
制御部21は、CPU、ROM、及びRAMなどの制御機器を有する。前記CPUは、各種の演算処理を実行するプロセッサーである。前記ROMは、前記CPUに各種の処理を実行させるためのBIOS及びOSなどの制御プログラムを予め記憶する。前記RAMは、各種の情報を記憶し、前記CPUが実行する各種の処理の一時記憶メモリー(作業領域)として使用される。そして、制御部21は、前記ROM又は記憶部22に予め記憶された各種の制御プログラムを前記CPUで実行することによりクラウドサーバ2を制御する。
【0044】
具体的に、制御部21は、音声受信部211、コマンド判定部212、コマンド処理部213などの各種の処理部を含む。なお、制御部21は、前記CPUで前記制御プログラムに従った各種の処理を実行することによって前記各種の処理部として機能する。また、制御部21に含まれる一部又は全部の処理部が電子回路で構成されていてもよい。なお、前記制御プログラムは、複数のプロセッサーを前記各種の処理部として機能させるためのプログラムであってもよい。
【0045】
音声受信部211は、音声処理装置1から送信されるコマンド音声を受信する。具体的には、音声処理装置1が、前記特定ワードを検知してコマンドの受け付けを開始する待機状態(コマンド送信モード)に移行した後にコマンド音声を取得し、当該コマンド音声をクラウドサーバ2に送信すると、クラウドサーバ2が当該コマンド音声を受信する。すなわち、音声処理装置1が待機状態に移行する前のスリープ状態(音声送信モード)である場合は、音声データはクラウドサーバ2に送信されないため、不要なデータ通信を抑えることができる。
【0046】
コマンド判定部212は、音声受信部211により受信されたコマンド音声に基づいて、コマンドを判定する。具体的には、コマンド判定部212は、音声受信部211により受信されたコマンド音声に対して音声認識処理を実行して、音声データをテキストデータに変換する。そして、コマンド判定部212は、記憶部22に記憶されたコマンド情報を参照して、前記テキストデータに応じたコマンドを判定する。
【0047】
コマンド処理部213は、コマンド判定部212により判定された前記コマンドに応じた処理を実行する。例えば、前記コマンドが所定の情報を検索する検索コマンドである場合、コマンド処理部213は、検索処理を実行する。また、コマンド処理部213は、前記コマンド音声に対する応答結果(コマンド応答)を、当該コマンド音声の送信元の音声処理装置1に送信する。なお、コマンド処理部213は、前記コマンド音声の送信元とは異なる機器にコマンド応答を送信してもよい。例えば、コマンド処理部213は、会議室Aにおいて、音声処理装置1Aから前記コマンド音声を受信した場合に、前記コマンド応答を会議室Aに設置された表示装置(不図示)に送信してもよい。この場合、前記コマンド応答の情報が前記表示装置に表示される。
【0048】
なお、音声処理装置1の他の実施形態として、各音声処理装置1が、クラウドサーバ2の機能、すなわちコマンド判定部212及びコマンド処理部213の機能を備えてもよい。
【0049】
[音声処理]
以下、図4及び図5を参照しつつ、音声処理装置1の制御部11によって実行される音声処理の手順の一例について説明する。ここでは、図1に示す会議システム100において、音声処理装置1Aに着目して前記音声処理を説明する。例えば、音声処理装置1Aの制御部11は、ユーザの音声を受信することにより前記音声処理プログラムの実行を開始することによって、前記音声処理の実行を開始する。なお、前記音声処理は、音声処理装置1A,1Bのそれぞれにおいて、個別に並行して実行される。
【0050】
なお、本発明は、前記音声処理に含まれる一又は複数のステップを実行する音声処理方法の発明として捉えることができる。また、ここで説明する前記音声処理に含まれる一又は複数のステップが適宜省略されてもよい。また、前記音声処理における各ステップは、同様の作用効果を生じる範囲で実行順序が異なってもよい。さらに、ここでは制御部11によって前記音声処理における各ステップが実行される場合を例に挙げて説明するが、他の実施形態では、複数のプロセッサーによって前記音声処理における各ステップが分散して実行されてもよい。
【0051】
ステップS101において、制御部11は、音声処理装置1Aがクラウドサーバ2から前記コマンド応答を受信したか否かを判定する。音声処理装置1Aがクラウドサーバ2から前記コマンド応答を受信した場合(S101:YES)、処理はステップS116に移行する。一方、音声処理装置1Aがクラウドサーバ2から前記コマンド応答を受信しない場合(S101:NO)、処理はステップS102に移行する。
【0052】
ステップS102において、制御部11は、マイク14による音声の入力を開始したか否かを判定する。例えば、会議室Aのユーザが発話を開始することにより音声の入力が開始された場合(S102:YES)、処理はステップS103に移行する。音声の入力が開始されない場合(S102:NO)、処理はステップS101に戻る。
【0053】
ステップS103において、制御部11は、送信モードがコマンド送信モードであるか否かを判定する。送信モードがコマンド送信モードである場合(S103:YES)、処理はステップS112に移行する。一方、送信モードがコマンド送信モードでない場合(S103:NO)、処理はステップS104に移行する。
【0054】
ステップS104において、制御部11は、カメラ15により撮像された撮像画像を取得し、画像認識を行ってユーザを認識する。ここでは、制御部11は、撮像画像に基づいて、会議室A(図1参照)にいる4人のユーザを認識する。
【0055】
次にステップS105において、制御部11は、入力された音声を認識する。例えば、制御部11は、音声データをテキストデータに変換する音声認識処理を実行する。
【0056】
次にステップS106において、制御部11は、認識した音声が前記特定ワードであるか否かを判定する音声判定処理を実行する。図5は、前記音声判定処理の手順の一例を示すフローチャートである。
【0057】
図5に示すステップS21において、制御部11は、前記音声が前記特定ワードと一致するか否かを判定する。例えば、制御部11は、前記音声のテキストデータと前記特定ワードとを比較して両者が一致するか否かを判定する。前記音声が前記特定ワードと一致する場合(S21:YES)、処理はステップS22に移行する。一方、前記音声が前記特定ワードと一致しない場合(S21:NO)、処理はステップS30に移行する。
【0058】
ステップS22において、制御部11は、撮像画像において、前記音声を受信した方向にユーザがいるか否かを判定する。前記音声を受信した方向にユーザがいる場合(S22:YES)、処理はステップS23に移行する。一方、前記音声を受信した方向にユーザがいない場合(S22:NO)、処理はステップS30に移行する。
【0059】
ステップS23において、制御部11は、未抽出の話者候補が一人以上いるか否かを判定する。未抽出の話者候補が一人以上いる場合(S23:YES)、処理はステップS24に移行する。未抽出の話者候補が一人以上いない場合(S23:NO)、処理はステップS30に移行する。
【0060】
ステップS24において、制御部11は、撮像画像に含まれる話者候補のうち任意の一人のユーザを抽出する。
【0061】
ステップS25において、制御部11は、抽出したユーザが前記所定範囲内にいるか否かを判定する。ステップS25は、前記第1の方法に対応する。抽出したユーザが前記所定範囲内にいる場合(S25:YES)、処理はステップS26に移行する。一方、抽出したユーザが前記所定範囲内にいない場合(S25:NO)、処理はステップS23に戻る。
【0062】
ステップS26において、制御部11は、抽出したユーザが正面を向いているか否か、すなわち当該ユーザの顔の方向又は視線がカメラ15に向けられているか否かを判定する。ステップS26は、前記第2の方法に対応する。抽出したユーザが正面を向いている場合(S26:YES)、処理はステップS27に移行する。一方、抽出したユーザが正面を向いていない場合(S26:NO)、処理はステップS23に戻る。
【0063】
ステップS27において、制御部11は、抽出したユーザがユーザ情報D1(図3参照)に登録されているか否かを判定する。ステップS27は、前記第3の方法に対応する。抽出したユーザがユーザ情報D1に登録されている場合(S27:YES)、処理はステップS28に移行する。一方、抽出したユーザがユーザ情報D1に登録されていない場合(S27:NO)、処理はステップS23に戻る。
【0064】
ステップS28において、制御部11は、抽出したユーザの口の動きと、前記音声を受信したタイミングとが一致するか否かを判定する。ステップS28は、前記第4の方法に対応する。抽出したユーザの口の動きと前記音声を受信したタイミングとが一致する場合(S28:YES)、処理はステップS29に移行する。一方、抽出したユーザの口の動きと前記音声を受信したタイミングとが一致しない場合(S28:NO)、処理はステップS23に戻る。
【0065】
ステップS29において、制御部11は、前記ユーザを発話者として特定し、前記音声が前記特定ワードであると判定する。一方、ステップS30において、制御部11は、前記音声が前記特定ワードでないと判定する。制御部11は、以上のようにして前記音声判定処理を実行する。なお、上述の処理では、前記第1の方法から前記第4の方法の全てを用いて音声判定処理を実行しているが、本発明はこれに限定されず、前記第1の方法から前記第4の方法の少なくともいずれか一つを用いて音声判定処理を実行してもよい。
【0066】
前記音声判定処理が終了すると、制御部11は、図4に示すステップS107において、前記音声が前記特定ワードであるか否かを判定する。前記音声が前記特定ワードである場合(S107:YES)、処理はステップS109に移行する。一方、前記音声が前記特定ワードでない場合(S107:NO)、処理はステップS108に移行する。
【0067】
ステップS108において、制御部11は、前記音声を音声処理装置1Bに送信する。ここでは、前記音声は、例えば会議の議題に対する会話の音声である。ステップS108の後、前記音声処理は終了する。
【0068】
ステップS109において、制御部11は、送信モードをコマンド送信モードに設定する。
【0069】
ステップS110において、制御部11は、マイク14の指向性を前記発話者の方向に調整する。
【0070】
ステップS111において、制御部11は、コマンド送信モードを示す情報(LED)を音声処理装置1Aに表示する。ステップS111の後、前記音声処理は終了する。
【0071】
ここで、ステップS103で送信モードがコマンド送信モードである場合(S103:YES)、ステップS112において、制御部11は、音声入力を受け付ける。ここでの音声は、コマンド音声である。
【0072】
次にステップS113において、制御部11は、前記コマンド音声をクラウドサーバ2に送信する。このように、前記コマンド音声は、音声処理装置1Bに送信されず、クラウドサーバ2に送信される。
【0073】
次にステップS114において、制御部11は、送信モードをコマンド送信モードから音声送信モードに切り替える。
【0074】
次にステップS115において、制御部11は、音声送信モードを示す情報(LED)を音声処理装置1Aに表示する。ステップS115の後、前記音声処理は終了する。
【0075】
また、ステップS101で音声処理装置1Aがクラウドサーバ2から前記コマンド応答を受信した場合(S101:YES)、ステップS116において、制御部11は、前記コマンド応答をスピーカ13から出力する。ステップS116の後、前記音声処理は終了する。なお、音声処理装置1Aは、コマンド音声を連続して受け付け可能に構成されてもよい。例えば、前記コマンド応答に連続受付を許可する情報が含まれる場合、制御部11は、ステップS116の後、送信モードをコマンド送信モードに設定して、引き続きユーザからコマンド音声を受け付ける。この場合、制御部11は、コマンド送信モードを示す情報を引き続き音声処理装置1Aに表示する。
【0076】
以上のようにして、前記音声処理が実行される。以上のように、本発明の実施形態に係る音声処理装置1は、ユーザが発話した音声が特定ワード(起動ワード)である場合に、コマンドの受け付けを開始して、受け付けたコマンド音声をクラウドサーバ2に送信する。また音声処理装置1は、前記コマンド音声を他の音声処理装置1等の外部機器に送信しない。一方、音声処理装置1は、ユーザが発話した音声が特定ワードでない場合には、当該音声を外部機器に送信する。また、音声処理装置1は、ユーザが発話した音声が特定ワードと一致する場合であっても、当該ユーザの撮像画像において、当該ユーザがコマンドの実行を指示するために発話した音声ではないと判断した場合(例えば顔画像が正面を向いていない場合)には、当該ユーザが発話した音声は特定ワードでないと判定し、当該音声を外部機器に送信する。これにより、ユーザの会話を妨げることなく、かつユーザが意図しないコマンドの実行を防ぐことが可能となる。また、本実施形態に係る会議システム100によれば、リモート会議において、会話の音声を適切に遠隔地に伝達することができ、かつ、ユーザが意図するコマンドを適切に実行させることができる。
【符号の説明】
【0077】
1 :音声処理装置
2 :クラウドサーバ
11 :制御部
12 :記憶部
13 :スピーカ
14 :マイク
15 :カメラ
16 :通信インターフェース
21 :制御部
22 :記憶部
23 :通信インターフェース
100 :会議システム
111 :音声受信部
112 :画像取得部
113 :話者特定部
114 :音声判定部
115 :音声送信部
116 :表示処理部
117 :調整処理部
118 :応答処理部
211 :音声受信部
212 :コマンド判定部
213 :コマンド処理部
図1
図2
図3
図4
図5