IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社NTTドコモの特許一覧

<>
  • 特許-発話検出装置 図1
  • 特許-発話検出装置 図2
  • 特許-発話検出装置 図3
  • 特許-発話検出装置 図4
  • 特許-発話検出装置 図5
  • 特許-発話検出装置 図6
  • 特許-発話検出装置 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-03-04
(45)【発行日】2025-03-12
(54)【発明の名称】発話検出装置
(51)【国際特許分類】
   G10L 15/04 20130101AFI20250305BHJP
   G10L 15/25 20130101ALI20250305BHJP
【FI】
G10L15/04 300Z
G10L15/25
【請求項の数】 8
(21)【出願番号】P 2021125826
(22)【出願日】2021-07-30
(65)【公開番号】P2023020452
(43)【公開日】2023-02-09
【審査請求日】2024-02-05
(73)【特許権者】
【識別番号】392026693
【氏名又は名称】株式会社NTTドコモ
(74)【代理人】
【識別番号】100088155
【弁理士】
【氏名又は名称】長谷川 芳樹
(74)【代理人】
【識別番号】100113435
【弁理士】
【氏名又は名称】黒木 義樹
(74)【代理人】
【識別番号】100121980
【弁理士】
【氏名又は名称】沖山 隆
(74)【代理人】
【識別番号】100128107
【弁理士】
【氏名又は名称】深石 賢治
(72)【発明者】
【氏名】山田 仰
(72)【発明者】
【氏名】瀧上 順也
(72)【発明者】
【氏名】川瀬 智子
【審査官】山下 剛史
(56)【参考文献】
【文献】特開2019-128938(JP,A)
【文献】特開2004-118314(JP,A)
【文献】特開2003-174504(JP,A)
【文献】特開2012-242609(JP,A)
【文献】特開2020-185630(JP,A)
【文献】米国特許出願公開第2018/0268812(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00-15/34,25/78
G06T 7/20
(57)【特許請求の範囲】
【請求項1】
ユーザの発話を検出し、検出した発話音声を出力する発話検出装置であって、
前記ユーザの顔を撮像した顔画像に基づいて、発話時の口唇の動きとして予め規定された発話予備動作を検知する口唇動作検知部と、
前記ユーザの発話を検出するために設けられた音声検出装置からの音声信号に基づいて、音声を検出する音声検出部と、
前記音声信号を有効化または無効化することを判定する判定部であって、前記発話予備動作が検知された場合に前記音声信号を有効化し、前記音声信号の有効化の後の予め設定された所定の時間である無効化判定時間内に前記音声が検出されなかった場合に前記音声信号を無効化することを判定する判定部と、
前記判定部による音声信号の有効化または無効化の判定に応じて、前記音声信号の有効化及び無効化を制御する制御部と、を備え、
前記判定部は、規定された前記発話予備動作のうちの、第1の発話予備動作を検知した場合に第1の時間に前記無効化判定時間を設定し、前記発話予備動作のうちの第2の発話予備動作を検知した場合に前記第1の時間より長い第2の時間に前記無効化判定時間を設定し、
前記第1の発話予備動作は、即時的に発話が開始される可能性が高い口唇の動きとして予め規定された口唇の動作であり、
前記第2の発話予備動作は、即時的に発話が開始されると断定がしにくい口唇の動きとして予め規定された口唇の動作である、
発話検出装置。
【請求項2】
前記第1の発話予備動作の検知は、口唇の大きさが所定の閾値より大きい/閾値以上であること、口唇の大きさの変動量が所定の閾値より大きい/閾値以上であること、及び、口唇の動きが所定の動作パターンに該当すること、の少なくともいずれか一つに該当することであり、
前記第2の発話予備動作の検知は、口唇の大きさが所定の閾値以下である/閾値より小さいこと、口唇の大きさの変動量が前記所定の閾値以下である/閾値より小さいこと、及び、口唇の動きが前記所定の動作パターンに該当しないこと、の少なくともいずれか一つに該当することである、
請求項に記載の発話検出装置。
【請求項3】
前記口唇動作検知部は、前記顔画像における口唇部分の占める領域の大きさが所定の大きさ以上であることを前記発話予備動作として検知する、
請求項1または2に記載の発話検出装置。
【請求項4】
前記口唇動作検知部は、前記顔画像における口唇部分の形状及び大きさの少なくともいずれか一方の単位時間あたりの変動量が所定の量以上であることを前記発話予備動作として検知する、
請求項1~のいずれか一項に記載の発話検出装置。
【請求項5】
前記口唇動作検知部は、前記顔画像における口唇部分の形状及び動きの少なくともいずれか一方が所定の形状パターンまたは所定の動きパターンに該当することを前記発話予備動作として検知する、
請求項1~のいずれか一項に記載の発話検出装置。
【請求項6】
前記制御部は、前記音声検出装置の音声の検出機能を無効化することにより、前記判定部により音声信号を無効化することが判定された場合における前記音声信号の無効化の制御を実施する、
請求項1~のいずれか一項に記載の発話検出装置。
【請求項7】
前記制御部は、前記発話検出装置における制御状態を、前記音声信号に基づく音声の検知の有無のみに基づいて前記音声信号の有効化または無効化を判定する制御状態に変更することにより、前記判定部により音声信号を無効化することが判定された場合における前記音声信号の無効化の制御を実施する、
請求項1~のいずれか一項に記載の発話検出装置。
【請求項8】
前記制御部は、前記発話音声を出力させないことにより、前記判定部により音声信号を無効化することが判定された場合における前記音声信号の無効化の制御を実施する、
請求項1~のいずれか一項に記載の発話検出装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ユーザの発話を検出し、検出した発話音声を出力する発話検出装置に関する。
【背景技術】
【0002】
通話システム及び音声認識システム等のようなユーザの音声を検出及び取得するシステムでは、ハウリング及びエコーの発生並びに雑音の混入等を防止するために、ユーザが発話していないときには、マイクによる音声の取得をオフにすること等の制御により音声信号を無効化し、ユーザが発話しているときのみに音声信号を有効化することが好ましい。一般に、音声を検知したときに音声信号を有効化する技術が知られている。また、話者の画像に基づいて口唇の動きを検出することにより発話区間を検出する技術が知られている(例えば、特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2007-79624号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
音声を検知したときに音声信号を有効化する技術では、音声の検知の後に音声信号が有効化されるので、発話の冒頭部分が取得されない、いわゆる頭切れが生じていた。また、特許文献1に記載された技術のように、口唇の動きにより発話区間を検出する場合には、発話を伴わない口唇の動きが誤検出され、雑音の混入等を防止できない場合があった。
【0005】
そこで、本発明は、上記問題点に鑑みてなされたものであり、音声を検出及び取得するシステムにおいて、ハウリング及びエコーの発生並びに雑音の混入等を防止しつつ、冒頭部分が切れることなく発話音声を取得することを目的とする。
【課題を解決するための手段】
【0006】
上記課題を解決するために、本発明の一形態に係る発話検出装置は、ユーザの発話を検出し、検出した発話音声を出力する発話検出装置であって、ユーザの顔を撮像した顔画像に基づいて、発話時の口唇の動きとして予め規定された発話予備動作を検知する口唇動作検知部と、ユーザの発話を検出するために設けられた音声検出装置からの音声信号に基づいて、音声を検出する音声検出部と、音声信号を有効化または無効化することを判定する判定部であって、発話予備動作が検知された場合に音声信号を有効化し、音声信号の有効化の後の予め設定された所定の時間である無効化判定時間内に音声が検出されなかった場合に音声信号を無効化することを判定する判定部と、判定部による音声信号の有効化または無効化の判定に応じて、音声信号の有効化及び無効化を制御する制御部と、を備える。
【0007】
上記の形態によれば、発話時において口唇の変動が発話よりも僅かに先行して生じるところ、顔画像に基づいて口唇の動きとして規定された発話予備動作が検知された場合に音声信号が有効化されるので、冒頭部分が切れることなく発話音声を取得できる。さらに、発話を伴わない口唇の動きに基づいて音声信号が一旦有効化された場合であっても、音声信号が有効化された後の無効化判定時間以内に音声が検出されなかった場合に音声信号が無効化されるので、ハウリング及びエコーの発生並びに雑音の混入等が防止される。
【発明の効果】
【0008】
音声を検出及び取得するシステムにおいて、ハウリング及びエコーの発生並びに雑音の混入等を防止しつつ、冒頭部分が切れることなく発話音声を取得することが可能となる。
【図面の簡単な説明】
【0009】
図1】本実施形態の発話検出装置が通話システムに適用される場合の装置構成の例を示す図である。
図2】本実施形態の発話検出装置の機能的構成を示すブロック図である。
図3】発話検出装置のハードブロック図である。
図4】発話予備動作の検知のための顔画像の例を示す図である。
図5】発話検出装置における発話検出方法の処理内容の例を示すフローチャートである。
図6】発話検出装置における発話検出方法の処理内容の他の例を示すフローチャートである。
図7】発話検出プログラムの構成を示す図である。
【発明を実施するための形態】
【0010】
本発明に係る発話検出装置の実施形態について図面を参照して説明する。なお、可能な場合には、同一の部分には同一の符号を付して、重複する説明を省略する。
【0011】
図1は、本実施形態の発話検出装置が通話システムに適用される場合の装置構成の例を示す図である。図1に示されるように、複数の通話システム1は、ネットワークNを介して通信可能に構成されている。発話検出装置10は、ユーザの発話を検出し、検出した発話音声を出力する装置である。従って、本実施形態の発話検出装置10は、図1に示されるように、通話システム1に適用できる。具体的には、通話システム1に適用された発話検出装置10は、ユーザの発話を検出し、ネットワークNを介して相手方の通話システム1に検出した発話音声を送信する。
【0012】
図2は、通話システム1の装置構成及び本実施形態に係る発話検出装置10の機能的構成を示すブロック図である。図2に示されるように、通話システム1は、発話検出装置10、カメラ20及びマイク30(音声検出装置)を含む。通話システム1は、ディスプレイ40及びスピーカ50を更に含んでもよい。
【0013】
発話検出装置10は、機能的には、画像取得部11、音声取得部12、口唇動作検知部13、音声検出部14、判定部15及び制御部16を備える。これらの各機能部11~16は、一つの装置(コンピュータ)に構成されてもよいし、複数の装置に分散されて構成されてもよい。
【0014】
カメラ20は、ユーザの顔を撮像する。カメラ20は、ユーザの顔を撮像した顔画像を発話検出装置10に送出する。マイク30は、音声を検出する。マイク30は、検出した音声からなる音声信号を発話検出装置10に送出する。
【0015】
ディスプレイ40は、例えば、ネットワークNを解して受信した、通話システム1により通話している相手方のユーザの画像を表示する。スピーカ50は、例えば、ネットワークNを解して受信した、通話システム1により通話している相手方の音声を出力する。
【0016】
なお、図2に示したブロック図は、機能単位のブロックを示している。これらの機能ブロック(構成部)は、ハードウェア及びソフトウェアの少なくとも一方の任意の組み合わせによって実現される。また、各機能ブロックの実現方法は特に限定されない。すなわち、各機能ブロックは、物理的又は論理的に結合した1つの装置を用いて実現されてもよいし、物理的又は論理的に分離した2つ以上の装置を直接的又は間接的に(例えば、有線、無線などを用いて)接続し、これら複数の装置を用いて実現されてもよい。機能ブロックは、上記1つの装置又は上記複数の装置にソフトウェアを組み合わせて実現されてもよい。
【0017】
機能には、判断、決定、判定、計算、算出、処理、導出、調査、探索、確認、受信、送信、出力、アクセス、解決、選択、選定、確立、比較、想定、期待、見做し、報知(broadcasting)、通知(notifying)、通信(communicating)、転送(forwarding)、構成(configuring)、再構成(reconfiguring)、割り当て(allocating、mapping)、割り振り(assigning)などがあるが、これらに限られない。たとえば、送信を機能させる機能ブロック(構成部)は、送信部(transmitting unit)や送信機(transmitter)と呼称される。いずれも、上述したとおり、実現方法は特に限定されない。
【0018】
例えば、本発明の一実施の形態における発話検出装置10は、コンピュータとして機能してもよい。図3は、本実施形態に係る発話検出装置10のハードウェア構成の一例を示す図である。発話検出装置10は、物理的には、プロセッサ1001、メモリ1002、ストレージ1003、通信装置1004、入力装置1005、出力装置1006、バス1007などを含むコンピュータ装置として構成されてもよい。
【0019】
なお、以下の説明では、「装置」という文言は、回路、デバイス、ユニットなどに読み替えることができる。発話検出装置10のハードウェア構成は、図3に示した各装置を1つ又は複数含むように構成されてもよいし、一部の装置を含まずに構成されてもよい。
【0020】
発話検出装置10における各機能は、プロセッサ1001、メモリ1002などのハードウェア上に所定のソフトウェア(プログラム)を読み込ませることで、プロセッサ1001が演算を行い、通信装置1004による通信や、メモリ1002及びストレージ1003におけるデータの読み出し及び/又は書き込みを制御することで実現される。
【0021】
プロセッサ1001は、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサ1001は、周辺装置とのインターフェース、制御装置、演算装置、レジスタなどを含む中央処理装置(CPU:Central Processing Unit)で構成されてもよい。例えば、図2に示した各機能部11~16などは、プロセッサ1001で実現されてもよい。
【0022】
また、プロセッサ1001は、プログラム(プログラムコード)、ソフトウェアモジュールやデータを、ストレージ1003及び/又は通信装置1004からメモリ1002に読み出し、これらに従って各種の処理を実行する。プログラムとしては、上述の実施の形態で説明した動作の少なくとも一部をコンピュータに実行させるプログラムが用いられる。例えば、発話検出装置10の各機能部11~16は、メモリ1002に格納され、プロセッサ1001で動作する制御プログラムによって実現されてもよい。上述の各種処理は、1つのプロセッサ1001で実行される旨を説明してきたが、2以上のプロセッサ1001により同時又は逐次に実行されてもよい。プロセッサ1001は、1以上のチップで実装されてもよい。なお、プログラムは、電気通信回線を介してネットワークから送信されても良い。
【0023】
メモリ1002は、コンピュータ読み取り可能な記録媒体であり、例えば、ROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable ROM)、RAM(Random Access Memory)などの少なくとも1つで構成されてもよい。メモリ1002は、レジスタ、キャッシュ、メインメモリ(主記憶装置)などと呼ばれてもよい。メモリ1002は、本発明の一実施の形態に係る発話検出方法を実施するために実行可能なプログラム(プログラムコード)、ソフトウェアモジュールなどを保存することができる。
【0024】
ストレージ1003は、コンピュータ読み取り可能な記録媒体であり、例えば、CD-ROM(Compact Disc ROM)などの光ディスク、ハードディスクドライブ、フレキシブルディスク、光磁気ディスク(例えば、コンパクトディスク、デジタル多用途ディスク、Blu-ray(登録商標)ディスク)、スマートカード、フラッシュメモリ(例えば、カード、スティック、キードライブ)、フロッピー(登録商標)ディスク、磁気ストリップなどの少なくとも1つで構成されてもよい。ストレージ1003は、補助記憶装置と呼ばれてもよい。上述の記憶媒体は、例えば、メモリ1002及び/又はストレージ1003を含むデータベース、サーバその他の適切な媒体であってもよい。
【0025】
通信装置1004は、有線及び/又は無線ネットワークを介してコンピュータ間の通信を行うためのハードウェア(送受信デバイス)であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュールなどともいう。
【0026】
入力装置1005は、外部からの入力を受け付ける入力デバイス(例えば、キーボード、マウス、マイクロフォン、スイッチ、ボタン、センサなど)である。出力装置1006は、外部への出力を実施する出力デバイス(例えば、ディスプレイ、スピーカ、LEDランプなど)である。なお、入力装置1005及び出力装置1006は、一体となった構成(例えば、タッチパネル)であってもよい。
【0027】
また、プロセッサ1001やメモリ1002などの各装置は、情報を通信するためのバス1007で接続される。バス1007は、単一のバスで構成されてもよいし、装置間で異なるバスで構成されてもよい。
【0028】
また、発話検出装置10は、マイクロプロセッサ、デジタル信号プロセッサ(DSP:Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)、FPGA(Field Programmable Gate Array)などのハードウェアを含んで構成されてもよく、当該ハードウェアにより、各機能ブロックの一部又は全てが実現されてもよい。例えば、プロセッサ1001は、これらのハードウェアの少なくとも1つで実装されてもよい。
【0029】
再び図2を参照して、発話検出装置10の機能部を説明する。画像取得部11は、カメラ20により撮像されたユーザの顔画像を取得する。音声取得部12は、マイク30により取得された音声からなる音声信号を取得する。
【0030】
口唇動作検知部13は、画像取得部11により取得された顔画像に基づいて、発話時の口唇の動きとして予め規定された発話予備動作を検知する。図4を参照して、発話予備動作の例について説明する。図4は、発話予備動作の検知のための顔画像の例を示す図である。
【0031】
口唇動作検知部13は、ユーザの顔画像fから口唇部分lpを抽出し、抽出した口唇部分lpの例えば上唇(口唇部分lpにおける上方向座標が最も大きい点)及び下唇(口唇部分lpにおける上方向座標が最も小さい点)並びに左右の口角(口唇部分lpにおける左右両端点)に標識点mu,ml,cl,crを設定する。口唇部分lpの抽出及び標識点の設定には、いかなる画像処理技術が適用されてもよく、例えば撮像された画像から顔部分及び口唇部分を抽出するように機械学習されたモデルが適用されてもよいし、その他の周知の画像処理技術(例えば、パターンマッチング等)により抽出してもよい。また、口唇動作検知部13は、顔画像fから、顔の長さfl及び幅fwをさらに取得してもよい。
【0032】
口唇動作検知部13は、顔画像fにおける口唇部分lpの占める領域の大きさが所定の大きさ以上であることを発話予備動作として検知してもよい。具体的には、口唇動作検知部13は、標識点mu,ml,cl,crを結ぶ線分に囲まれる領域の大きさを口唇部分lpの大きさの指標として取得してもよい。また、口唇動作検知部13は、顔画像fに示される顔の面積に対する標識点mu,ml,cl,crを結ぶ線分に囲まれる領域の面積の割合を、口唇部分lpの大きさの指標として取得してもよい。
【0033】
また、口唇動作検知部13は、標識点mu(口唇上端部)と標識点ml(口唇下端部)とを結んだ線分の長さを口唇部分lpの大きさの指標として取得してもよいし、顔の長さflに対する標識点muと標識点mlとを結んだ線分の長さの割合を、口唇部分lpの大きさの指標として取得してもよい。また、口唇動作検知部13は、標識点cl(口唇左端部)と標識点cr(口唇右端部)とを結んだ線分の長さを口唇部分lpの大きさの指標として取得してもよいし、顔の幅fwに対する標識点clと標識点crとを結んだ線分の長さの割合を、口唇部分lpの大きさの指標として取得してもよい。
【0034】
口唇動作検知部13は、上記の各種の口唇部分lpの大きさの指標のうちの、いずれか一つ、複数または全てが予め設定された閾値を超えた場合に、発話予備動作を検知したこととすることができる。口唇部分の領域が所定の大きさ以上である場合には発話状態である可能性が高いことに鑑みて、口唇部分lpの大きさの指標を取得することにより、発話予備動作を適切に検知できる。
【0035】
口唇動作検知部13は、顔画像fにおける口唇部分lpの形状及び大きさの少なくともいずれか一方の単位時間あたりの変動量が所定の量以上であることを発話予備動作として検知してもよい。具体的には、口唇動作検知部13は、標識点mu,ml,cl,crのそれぞれの座標の単位時間(例えば撮像した動画像の所定数の連続するフレーム)あたりの変動量、及び、口唇部分lpの中心点に対する標識点mu,ml,cl,crのそれぞれの相対座標の単位時間あたりの変動量を、口唇部分lpの形状の変動量の指標として取得してもよい。
【0036】
また、口唇動作検知部13は、上述したような各種の口唇部分lpの大きさの指標の単位時間あたりの変動量を、口唇部分lpの大きさの変動量の指標として取得してもよい。
【0037】
口唇動作検知部13は、上記の各種の口唇部分lpの形状及び大きさの変動量の指標のうちの、いずれか一つ、複数または全てが予め設定された閾値を超えた場合に、発話予備動作を検知したこととすることができる。口唇部分の形状または大きさの変動量が所定の量以上である場合には発話状態である可能性が高いことに鑑みて、口唇部分lpの形状及び大きさの変動量の指標を取得することにより、発話予備動作を適切に検知できる。
【0038】
口唇動作検知部13は、顔画像fにおける口唇部分lpの形状及び動きの少なくともいずれか一方が所定の形状パターンまたは所定の動きパターンに該当することを発話予備動作として検知してもよい。
【0039】
具体的には、口唇動作検知部13は、上記の口唇部分lpの大きさ、形状の変動量及び大きさの変動量等の指標が所定の形状パターンまたは所定の動きパターンに該当する場合に、発話予備動作を検知したこととすることができる。
【0040】
所定の形状及び動き等のパターンは、例えば、母音の発声時の変動パターンであってもよい。母音の発声時の変動パターンは、「あ」、「え」、「お」の発声時のように口唇を上下に開くパターン、「い」の発声時のように口唇を左右に伸ばすパターン、及び、「う」の発声時のように口唇をすぼめるパターンであってもよい。
【0041】
所定の形状及び動き等のパターンは、例えば、所定の子音の発生時の変動パターンであってもよい。子音の発声時の変動パターンは、「ぱ行」等の発声時のように破裂音の前に口唇に力をこめるときのパターンであってもよい。
【0042】
このように、発話状態である可能性が高い口唇部分の形状または動きのパターンを検出することにより、顔画像fに基づいて発話予備動作を適切に検知できる。
【0043】
なお、口唇動作検知部13は、ユーザが相槌を打つ場合のうなずきの動作を発話予備動作として検知してもよい。具体的には、口唇動作検知部13は、口唇部分lpに対して設定された標識点の下方への所定の動きをうなずきの動作として検知して、これを発話予備動作として検知することとしてもよい。また、発話検出装置10は、顔画像fからユーザの視線の方向を検知し、検知した視線の方向の所定の変化をうなずきの動作として検知して、これを発話予備動作として検知することとしてもよい。
【0044】
再び図2を参照して、音声検出部14は、ユーザの発話を検出するために設けられたマイク30(音声検出装置)からの音声信号に基づいて、音声を検出する。
【0045】
音声検出部14は、音声取得部12により取得された音声信号が所定のレベル以上であることを以て音声を検出してもよい。また、音声検出部14は、VAD(Voice Activity Detection)といった技術により、音声取得部12により取得された音声信号に基づいて、音声を検出してもよい。また、音声検出部14は、その他の周知の音声検出技術により音声を検出してもよい。
【0046】
判定部15は、音声信号を有効化または無効化することを判定する。具体的には、判定部15は、口唇動作検知部13により発話予備動作が検知された場合に、音声取得部12により取得された音声信号を有効化し、音声信号の有効化の後の予め設定された所定の時間である無効化判定時間内に音声検出部14により音声が検出されなかった場合に音声信号を無効化することを判定する。
【0047】
制御部16は、判定部15による音声信号の有効化または無効化の判定に応じて、音声信号の有効化及び無効化を制御する。具体的には、制御部16は、マイク30の音声の検出機能を無効化することにより、判定部15により音声信号を無効化することが判定された場合における音声信号の無効化の制御を実施してもよい。これにより、音声信号の無効化を確実に実施できる。
【0048】
また、制御部16は、発話検出装置10におけるモード(制御状態)を、音声信号に基づく音声の検知の有無のみに基づいて音声信号の有効化または無効化を判定するモードに変更することにより、判定部15により音声信号を無効化することが判定された場合における音声信号の無効化の制御を実施してもよい。これにより、音声の検知がされない状態が継続されることにより音声信号を無効化することが判定されるので、音声信号の無効化の制御が確実に実施される。
【0049】
また、制御部16は、発話音声を出力させないことにより、判定部15により音声信号を無効化することが判定された場合における音声信号の無効化の制御を実施してもよい。発話検出装置10が相手方との対話を行うための通話システムを構成する場合には、制御部16は、発話音声からなる音声信号を相手方の通話システムに送信しないことにより、音声信号の無効化の制御を実施する。また、制御部16は、音声信号のスピーカによる出力、所定の記憶手段への記憶、所定の表示手段への表示をさせないことにより、音声信号の無効化の制御を実施してもよい。このような制御により、マイク30の制御を要することなく、音声信号の無効化を確実に実施することが可能となる。
【0050】
また、制御部16は、音声信号の入力から出力に至る経路のいずれかの段階で音声信号を無効化することにより無効化の制御を実施してもよい。
【0051】
発話時には口唇の変動が発話よりも僅かに先行して生じるところ、このように、顔画像fに基づいて口唇の動きとして規定された発話予備動作が検知された場合に音声信号が有効化されるので、冒頭部分が切れることなく発話音声を取得できる。さらに、発話を伴わない口唇の動きに基づいて音声信号が一旦有効化された場合であっても、音声信号が有効化された後の無効化判定時間内に音声が検出されなかった場合に音声信号が無効化されるので、ハウリング及びエコーの発生並びに雑音の混入等が防止される。
【0052】
続いて、音声信号が有効化された後の音声信号の無効化の判定のための無効化判定時間の設定について説明する。判定部15は、規定された発話予備動作のうちの、第1の発話予備動作を検知した場合に第1の時間に無効化判定時間を設定し、発話予備動作のうちの第2の発話予備動作を検知した場合に第1の時間より長い第2の時間に前記無効化判定時間を設定してもよい。
【0053】
第1の発話予備動作は、即時的に発話が開始される可能性が高い口唇の動きとして予め規定された口唇の動作である。また、第2の発話予備動作は、即時的に発話が開始されると断定がしにくい口唇の動きとして予め規定された口唇の動作である。
【0054】
第1の発話予備動作の検知は、口唇の大きさが所定の閾値より大きい/閾値以上であること、口唇の大きさの変動量が所定の閾値より大きい/閾値以上であること、及び、口唇の動きが所定の動作パターンに該当すること、の少なくともいずれか一つに該当することであってもよい。
【0055】
また、判定部15は、口唇の動きが発声時特有の口唇の変動パターンに該当することを、第1の発話予備動作として検知してもよい。発声時特有の口唇の変動パターンは、例えば、母音の発声時の変動パターン及び所定の子音の発生時の変動パターン等であってもよい。
【0056】
第2の発話予備動作の検知は、口唇の大きさが所定の閾値以下である/閾値より小さいこと、口唇の大きさの変動量が前記所定の閾値以下である/閾値より小さいこと、及び、口唇の動きが所定の動作パターンに該当しないこと、の少なくともいずれか一つに該当することであってもよい。即ち、第2の発話予備動作は、規定された発話予備動作であって、第1の発話予備動作に該当しない動作であってもよい。
【0057】
このように、即時的に発話が開始される可能性が高い口唇の動きに基づいて音声信号が有効化された場合に、即時的に発話が開始されると断定がしにくい口唇の動きに基づいて音声信号が有効化された場合よりも、音声信号が有効化された後の音声信号の無効化判定に費やす時間が短時間で済むことにより音声信号を無効化することの判定の基準となる無効化判定時間が短く設定される。従って、不必要に音声信号が有効化される時間を短縮することが可能となる。
【0058】
図5は、発話検出装置10における発話検出方法の処理内容を示すフローチャートである。発話検出処理が開始されると、画像取得部11による画像取得処理、音声取得部12による音声の取得処理が、継続的に又は所定時間間隔で断続的に実施される。
【0059】
ステップS1において、音声検出部14は、音声が検出されたか否かを判定する。音声が検出されたと判定された場合には、処理はステップS3に進む。一方、音声が検出されたと判定されなかった場合には、処理はステップS2に進む。
【0060】
ステップS2において、口唇動作検知部13は、発話予備動作が検知されたか否かを判定する。発話予備動作が検知されたと判定された場合には、処理はステップS3に進む。一方、発話予備動作が検知されたと判定されなかった場合には、処理はステップS4に進む。
【0061】
ステップS3において、判定部15は、音声信号を有効化することを判定すると共に、音声信号を有効化した時刻である音声信号有効化時刻Tsを記録する。そして、制御部16は、音声信号を有効化する制御を実施する。
【0062】
ステップS4において、判定部15は、音声信号が無効化された状態を維持することを判定し、処理はステップS1に戻る。
【0063】
ステップS5において、音声検出部14は、音声が検出されたか否かを判定する。ここで音声が検出された場合は、発話予備動作に引き続いて実際にユーザが発話した場合である。音声が検出されたと判定された場合には、処理はステップS7に進む。一方、音声が検出されたと判定されなかった場合には、処理はステップS6に進む。
【0064】
ステップS6において、判定部15は、現在時刻tが、音声信号有効化時刻Tsから無効化判定時間Tが経過した時刻より後であるか否かを判定する。現在時刻tが音声信号有効化時刻Tsから無効化判定時間Tが経過した時刻より後であると判定された場合には、処理はステップS8に進む。一方、現在時刻tが音声信号有効化時刻Tsから無効化判定時間Tが経過した時刻より後であると判定されなかった場合には、処理はステップS7に進む。
【0065】
なお、判定部15は、ステップS6の判定処理に先立って、検知された発話予備動作が第1及び第2の発話予備動作のいずれに該当するかに基づいて、無効化判定時間Tを第1の時間T1及び第1の時間T1より長い第2の時間T2のいずれかに設定することを判定してもよい。
【0066】
ステップS5~S6において、音声が検出されず且つ音声信号有効化時刻Tsから無効化判定時間Tが経過した場合は、発話予備動作が検知されたものの、その動作が実際の発話を伴わない場合等に該当する。
【0067】
ステップS7において、判定部15は、音声信号が有効化された状態を維持することを判定し、処理はステップS5に戻る。
【0068】
ステップS8において、判定部15は、音声信号を無効化することを判定する。そして、処理はステップS1に戻る。
【0069】
なお、ステップS5の段階において、ユーザの発話ではない雑音等の音声が検出され続けている場合には、音声信号が有効化された状態が維持される。このような、不必要に音声信号が有効化された状態が維持されることを防止するために、音声が検出され続けたまま音声信号有効化時刻Tsから無効化判定時間Tが経過したときにおいて、口唇の変動が検出されない場合には、処理手順がステップS8に進められて、判定部15が音声信号を無効化することを判定してもよい。
【0070】
また、発話検出装置10における発話検出方法の処理内容は、図6に示すフローチャートのように実行されてもよい。発話検出処理が開始されると、画像取得部11による画像取得処理、音声取得部12による音声の取得処理が、継続的に又は所定時間間隔で断続的に実施される。
【0071】
ステップS11において、制御部16は音声信号が有効化されているか否かを判定する。音声信号が有効化されていると判定された場合には、処理はステップS17に進む。一方、音声信号が有効化されていると判定されなかった場合には、処理はステップS12に進む。
【0072】
ステップS12において、口唇動作検知部13は、発話予備動作が検知されたか否かを判定する。発話予備動作が検知されたと判定された場合には、処理はステップS13に進む。一方、発話予備動作が検知されたと判定されなかった場合には、処理はステップS11に戻る。
【0073】
ステップS13において、判定部15は、音声信号を有効化することを判定し、制御部16は、音声信号を有効化する制御を実施する。そして、処理はステップS14に進む。
【0074】
ステップS14において、判定部15は無効化判定時間Tを設定し、設定した時間Tの間だけ待機する。そして、処理はステップS15に進む。なお、判定部15は、検知された発話予備動作が第1及び第2の発話予備動作のいずれに該当するかに基づいて、無効化判定時間Tを第1の時間T1及び第1の時間T1より長い第2の時間T2のいずれかに設定することを判定してもよい。
【0075】
ステップS15において、音声検出部14は、音声が検出されたか否かを判定する。ここで音声が検出された場合は、発話予備動作に引き続いて実際にユーザが発話した場合等に該当する。音声が検出されたと判定されなかった場合は、発話予備動作が検知されたものの、その動作が実際の発話を伴わない場合等に該当する。音声が検出されたと判定された場合には、処理はステップS11に戻る。一方、音声が検出されたと判定されなかった場合には、処理はステップS16に進む。
【0076】
ステップS16において、判定部15は、音声信号を無効化することを判定し、制御部16は、音声信号を無効化する制御を実施する。そして、処理はステップS11に戻る。
【0077】
ステップS17において、口唇動作検知部13は、発話予備動作が検知されたか否かを判定する。発話予備動作が検知されたと判定された場合には、処理はステップS14に進む。一方、発話予備動作が検知されたと判定されなかった場合には、処理はステップS16に進む。
【0078】
図6に示すフローチャートの動作によれば、音声検出部14がユーザの発話ではない雑音等の音声が検出され続けている場合においても、口唇の変動が検出されない場合には音声が有効化されない、あるいは即時に無効化されるため、雑音などの音声が不必要に有効化された状態が維持されることを防止することができる。
【0079】
次に、図7を参照して、コンピュータを、本実施形態の発話検出装置10として機能させるための発話検出プログラムについて説明する。
【0080】
図7は、発話検出プログラムの構成を示す図である。発話検出プログラムP1は、発話検出装置10における発話検出処理を統括的に制御するメインモジュールm10、画像取得モジュールm11、音声取得モジュールm12、口唇動作検知モジュールm13、音声検出モジュールm14、判定モジュールm15及び制御モジュールm16を備えて構成される。そして、各モジュールm11~m16により、画像取得部11、音声取得部12、口唇動作検知部13、音声検出部14、判定部15及び制御部16のための各機能が実現される。
【0081】
なお、発話検出プログラムP1は、通信回線等の伝送媒体を介して伝送される態様であってもよいし、図7に示されるように、記録媒体M1に記憶される態様であってもよい。
【0082】
以上説明した本実施形態の発話検出装置10、発話検出方法及び発話検出プログラムP1によれば、発話時において口唇の変動が発話よりも僅かに先行して生じるところ、顔画像に基づいて口唇の動きとして規定された発話予備動作が検知された場合に音声信号が有効化されるので、冒頭部分が切れることなく発話音声を取得できる。さらに、発話を伴わない口唇の動きに基づいて音声信号が一旦有効化された場合であっても、音声信号が有効化された後の所定時間以内に音声が検出されなかった場合に音声信号が無効化されるので、ハウリング及びエコーの発生並びに雑音の混入等が防止される。
【0083】
また、別の形態に係る発話検出装置では、判定部は、規定された発話予備動作のうちの、第1の発話予備動作を検知した場合に第1の時間に無効化判定時間を設定し、発話予備動作のうちの第2の発話予備動作を検知した場合に第1の時間より長い第2の時間に無効化判定時間を設定し、第1の発話予備動作は、即時的に発話が開始される可能性が高い口唇の動きとして予め規定された口唇の動作であり、第2の発話予備動作は、即時的に発話が開始されると断定がしにくい口唇の動きとして予め規定された口唇の動作である、こととしてもよい。
【0084】
上記形態によれば、即時的に発話が開始される可能性が高い口唇の動きに基づいて音声信号が有効化された場合に、即時的に発話が開始されると断定がしにくい口唇の動きに基づいて音声信号が有効化された場合よりも、音声信号の有効化の後に音声が検出されない場合に音声信号を無効化することの判定の基準となる無効化判定時間が短く設定される。従って、不必要に音声信号が有効化される時間を短縮することが可能となる。
【0085】
また、別の形態に係る発話検出装置では、第1の発話予備動作の検知は、口唇の大きさが所定の閾値より大きい/閾値以上であること、口唇の大きさの変動量が所定の閾値より大きい/閾値以上であること、及び、口唇の動きが所定の動作パターンに該当すること、の少なくともいずれか一つに該当することであり、第2の発話予備動作の検知は、口唇の大きさが所定の閾値以下である/閾値より小さいこと、口唇の大きさの変動量が所定の閾値以下である/閾値より小さいこと、及び、口唇の動きが所定の動作パターンに該当しないこと、の少なくともいずれか一つに該当することであることとしてもよい。
【0086】
上記形態によれば、即時的に発話が開始されると断定がしにくい口唇の動きを適切に検知できる。
【0087】
また、別の形態に係る発話検出装置では、口唇動作検知部は、顔画像における口唇部分の占める領域の大きさが所定の大きさ以上であることを発話予備動作として検知することとしてもよい。
【0088】
上記形態によれば、口唇部分の領域が所定の大きさ以上である場合には発話状態である可能性が高いので、顔画像に基づいて発話予備動作を適切に検知できる。
【0089】
また、別の形態に係る発話検出装置では、口唇動作検知部は、顔画像における口唇部分の形状及び大きさの少なくともいずれか一方の単位時間あたりの変動量が所定の量以上であることを発話予備動作として検知することとしてもよい。
【0090】
上記形態によれば、口唇部分の形状または大きさの変動量が所定の量以上である場合には発話状態である可能性が高いので、顔画像に基づいて発話予備動作を適切に検知できる。
【0091】
また、別の形態に係る発話検出装置では、口唇動作検知部は、顔画像における口唇部分の形状及び動きの少なくともいずれか一方が所定の形状パターンまたは所定の動きパターンに該当することを発話予備動作として検知することとしてもよい。
【0092】
上記形態によれば、口唇部分の形状または動きが所定のパターンに該当する場合には発話状態である可能性が高いので、顔画像に基づいて発話予備動作を適切に検知できる。
【0093】
また、別の形態に係る発話検出装置では、制御部は、音声検出装置の音声の検出機能を無効化することにより、判定部により音声信号を無効化することが判定された場合における音声信号の無効化の制御を実施することとしてもよい。
【0094】
上記形態によれば、音声信号の無効化が確実に実施される。
【0095】
また、別の形態に係る発話検出装置では、制御部は、発話検出装置における制御状態を、音声信号に基づく音声の検知の有無のみに基づいて音声信号の有効化または無効化を判定する制御状態に変更することにより、判定部により音声信号を無効化することが判定された場合における音声信号の無効化の制御を実施することとしてもよい。
【0096】
上記形態によれば、音声の検知がされない状態が継続されることにより音声信号を無効化することが判定されるので、音声信号の無効化の制御が確実に実施される。
【0097】
また、別の形態に係る発話検出装置では、制御部は、発話音声を出力させないことにより、判定部により音声信号を無効化することが判定された場合における音声信号の無効化の制御を実施することとしてもよい。
【0098】
上記形態によれば、音声検出装置の制御を要することなく、音声信号の無効化を確実に実施することが可能となる。
【0099】
以上、本実施形態について詳細に説明したが、当業者にとっては、本実施形態が本明細書中に説明した実施形態に限定されるものではないということは明らかである。本実施形態は、特許請求の範囲の記載により定まる本発明の趣旨及び範囲を逸脱することなく修正及び変更態様として実施することができる。したがって、本明細書の記載は、例示説明を目的とするものであり、本実施形態に対して何ら制限的な意味を有するものではない。
【0100】
本明細書で説明した各態様/実施形態は、LTE(Long Term Evolution)、LTE-A(LTE-Advanced)、SUPER 3G、IMT-Advanced、4G、5G、FRA(Future Radio Access)、W-CDMA(登録商標)、GSM(登録商標)、CDMA2000、UMB(Ultra Mobile Broadband)、IEEE 802.11(Wi-Fi)、IEEE 802.16(WiMAX)、IEEE 802.20、UWB(Ultra-WideBand)、Bluetooth(登録商標)、その他の適切なシステムを利用するシステム及び/又はこれらに基づいて拡張された次世代システムに適用されてもよい。
【0101】
本明細書で説明した各態様/実施形態の処理手順、シーケンス、フローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本明細書で説明した方法については、例示的な順序で様々なステップの要素を提示しており、提示した特定の順序に限定されない。
【0102】
入出力された情報等は特定の場所(例えば、メモリ)に保存されてもよいし、管理テーブルで管理してもよい。入出力される情報等は、上書き、更新、または追記され得る。出力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。
【0103】
判定は、1ビットで表される値(0か1か)によって行われてもよいし、真偽値(Boolean:trueまたはfalse)によって行われてもよいし、数値の比較(例えば、所定の値との比較)によって行われてもよい。
【0104】
本明細書で説明した各態様/実施形態は単独で用いてもよいし、組み合わせて用いてもよいし、実行に伴って切り替えて用いてもよい。また、所定の情報の通知(例えば、「Xであること」の通知)は、明示的に行うものに限られず、暗黙的(例えば、当該所定の情報の通知を行わない)ことによって行われてもよい。
【0105】
ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。
【0106】
また、ソフトウェア、命令などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア及びデジタル加入者回線(DSL)などの有線技術及び/又は赤外線、無線及びマイクロ波などの無線技術を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び/又は無線技術は、伝送媒体の定義内に含まれる。
【0107】
本開示において説明した情報、信号などは、様々な異なる技術のいずれかを使用して表されてもよい。例えば、上記の説明全体に渡って言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、チップなどは、電圧、電流、電磁波、磁界若しくは磁性粒子、光場若しくは光子、又はこれらの任意の組み合わせによって表されてもよい。
【0108】
なお、本開示において説明した用語及び/又は本明細書の理解に必要な用語については、同一の又は類似する意味を有する用語と置き換えてもよい。
【0109】
本明細書で使用する「システム」および「ネットワーク」という用語は、互換的に使用される。
【0110】
また、本明細書で説明した情報、パラメータなどは、絶対値で表されてもよいし、所定の値からの相対値で表されてもよいし、対応する別の情報で表されてもよい。
【0111】
本開示で使用する「判断(determining)」、「決定(determining)」という用語は、多種多様な動作を包含する場合がある。「判断」、「決定」は、例えば、判定(judging)、計算(calculating)、算出(computing)、処理(processing)、導出(deriving)、調査(investigating)、探索(looking up、search、inquiry)(例えば、テーブル、データベース又は別のデータ構造での探索)、確認(ascertaining)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、受信(receiving)(例えば、情報を受信すること)、送信(transmitting)(例えば、情報を送信すること)、入力(input)、出力(output)、アクセス(accessing)(例えば、メモリ中のデータにアクセスすること)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、解決(resolving)、選択(selecting)、選定(choosing)、確立(establishing)、比較(comparing)などした事を「判断」「決定」したとみなす事を含み得る。つまり、「判断」「決定」は、何らかの動作を「判断」「決定」したとみなす事を含み得る。また、「判断(決定)」は、「想定する(assuming)」、「期待する(expecting)」、「みなす(considering)」などで読み替えられてもよい。
【0112】
本開示で使用する「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。
【0113】
本明細書で「第1の」、「第2の」などの呼称を使用した場合においては、その要素へのいかなる参照も、それらの要素の量または順序を全般的に限定するものではない。これらの呼称は、2つ以上の要素間を区別する便利な方法として本明細書で使用され得る。したがって、第1および第2の要素への参照は、2つの要素のみがそこで採用され得ること、または何らかの形で第1の要素が第2の要素に先行しなければならないことを意味しない。
【0114】
「含む(include)」、「含んでいる(including)」、およびそれらの変形が、本明細書あるいは特許請求の範囲で使用されている限り、これら用語は、用語「備える(comprising)」と同様に、包括的であることが意図される。さらに、本明細書あるいは特許請求の範囲において使用されている用語「または(or)」は、排他的論理和ではないことが意図される。
【0115】
本明細書において、文脈または技術的に明らかに1つのみしか存在しない装置である場合以外は、複数の装置をも含むものとする。
【0116】
本開示の全体において、文脈から明らかに単数を示したものではなければ、複数のものを含むものとする。
【符号の説明】
【0117】
1…通話システム、10…発話検出装置、11…画像取得部、12…音声取得部、13…口唇動作検知部、14…音声検出部、15…判定部、16…制御部、20…カメラ、30…マイク、40…ディスプレイ、50…スピーカ、1001…プロセッサ、1002…メモリ、1003…ストレージ、1004…通信装置、1005…入力装置、1006…出力装置、1007…バス、M1…記録媒体、m10…メインモジュール、m11…画像取得モジュール、m12…音声取得モジュール、m13…口唇動作検知モジュール、m14…音声検出モジュール、m15…判定モジュール、m16…制御モジュール、N…ネットワーク、P1…発話検出プログラム。
図1
図2
図3
図4
図5
図6
図7