IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社NTTドコモの特許一覧

特開2024-174380音声区間検出装置及び音声区間検出方法
<>
  • 特開-音声区間検出装置及び音声区間検出方法 図1
  • 特開-音声区間検出装置及び音声区間検出方法 図2
  • 特開-音声区間検出装置及び音声区間検出方法 図3
  • 特開-音声区間検出装置及び音声区間検出方法 図4
  • 特開-音声区間検出装置及び音声区間検出方法 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024174380
(43)【公開日】2024-12-17
(54)【発明の名称】音声区間検出装置及び音声区間検出方法
(51)【国際特許分類】
   G10L 25/78 20130101AFI20241210BHJP
【FI】
G10L25/78
【審査請求】未請求
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2023092187
(22)【出願日】2023-06-05
(71)【出願人】
【識別番号】392026693
【氏名又は名称】株式会社NTTドコモ
(74)【代理人】
【識別番号】100088155
【弁理士】
【氏名又は名称】長谷川 芳樹
(74)【代理人】
【識別番号】100113435
【弁理士】
【氏名又は名称】黒木 義樹
(74)【代理人】
【識別番号】100121980
【弁理士】
【氏名又は名称】沖山 隆
(74)【代理人】
【識別番号】100128107
【弁理士】
【氏名又は名称】深石 賢治
(74)【代理人】
【識別番号】100183438
【弁理士】
【氏名又は名称】内藤 泰史
(72)【発明者】
【氏名】仲 信彦
(72)【発明者】
【氏名】山田 仰
(57)【要約】
【課題】音声区間の検出における計算量を低減すること。
【解決手段】音声区間検出装置1は、音を示す音信号を取得する音信号取得部11と、音信号に基づいて、音信号における人物の音声を示す音声信号を検出する音声信号検出部12と、映像を示す映像信号を取得する映像信号取得部13と、映像信号に基づいて、映像における対象人物に係る事象の有無を判定する映像判定部14と、音声信号検出部12の検出結果、及び映像判定部14の判定結果に基づいて、対象人物の音声の有無を判定する音声判定部15と、映像判定部14及び音声判定部15の判定結果に基づいて、映像信号取得部13により取得される映像信号により示される映像の品質を決定する品質決定部16と、音声判定部15の判定結果に基づいて、音声信号から対象人物の音声区間を検出する音声区間検出部17と、を備える。
【選択図】図1

【特許請求の範囲】
【請求項1】
音を示す音信号を取得する音信号取得部と、
前記音信号に基づいて、前記音信号における人物の音声を示す音声信号を検出する音声信号検出部と、
映像を示す映像信号を取得する映像信号取得部と、
前記映像信号に基づいて、前記映像における対象人物に係る事象の有無を判定する映像判定部と、
前記音声信号検出部の検出結果、及び前記映像判定部の判定結果に基づいて、前記対象人物の音声の有無を判定する音声判定部と、
前記映像判定部及び前記音声判定部の判定結果に基づいて、前記映像信号取得部により取得される前記映像信号により示される前記映像の品質を決定する品質決定部と、
前記音声判定部の判定結果に基づいて、前記音声信号から前記対象人物の音声区間を検出する音声区間検出部と、を備える、
音声区間検出装置。
【請求項2】
前記映像判定部は、前記対象人物に係る対象物の有無を前記事象の有無として判定し、
前記品質決定部は、
前記映像判定部により前記対象物が有ると判定され、且つ、前記音声判定部により前記対象人物の前記音声が有ると判定された場合、前記映像の品質を所定の品質である基準品質に決定し、
前記映像判定部により前記対象物が無いと判定された場合、前記映像の品質を前記基準品質よりも低い品質である低品質に決定する、
請求項1に記載の音声区間検出装置。
【請求項3】
前記品質決定部は、前記映像判定部により前記対象物が有ると判定され、且つ、前記音声判定部により前記対象人物の前記音声が無いと判定された場合、前記映像の品質を前記基準品質よりも高い品質である高品質に決定する、
請求項2に記載の音声区間検出装置。
【請求項4】
前記音信号取得部は、前記音信号を継続的に取得し、
前記音声信号検出部は、継続的に取得された前記音信号に基づいて、前記音声信号を継続的に検出し、
前記品質決定部は、
前記映像判定部により前記対象物が有ると判定され、且つ、前記音声判定部により前記対象人物の前記音声が有ると判定されている場合において、
前記音声信号検出部により新たな前記音声信号が検出された場合、前記映像の品質を所定の品質である基準品質に決定し、
前記音声信号検出部により新たな前記音声信号が検出されない場合、前記映像の品質を前記基準品質よりも高い品質である高品質に決定する、
請求項2に記載の音声区間検出装置。
【請求項5】
前記映像判定部は、前記映像信号、及び前記対象物の有無の判定結果に基づいて、前記対象人物の口唇の動作の有無を前記事象の有無として判定し、
前記音声判定部は、前記映像判定部による前記口唇の動作の有無の判定結果に基づいて、前記対象人物の前記音声の有無を判定する、
請求項2に記載の音声区間検出装置。
【請求項6】
音を示す音信号を取得する音信号取得ステップと、
前記音信号に基づいて、前記音信号における人物の音声を示す音声信号を検出する音声信号検出ステップと、
映像を示す映像信号を取得する映像信号取得ステップと、
前記映像信号に基づいて、前記映像における対象人物に係る事象の有無を判定する映像判定ステップと、
前記音声信号検出ステップの検出結果、及び前記映像判定ステップの判定結果に基づいて、前記対象人物の音声の有無を判定する音声判定ステップと、
前記映像判定ステップ及び前記音声判定ステップの判定結果に基づいて、前記映像信号取得ステップにより取得される前記映像信号により示される前記映像の品質を決定する品質決定ステップと、
前記音声判定ステップの判定結果に基づいて、前記音声信号から前記対象人物の音声区間を検出する音声区間検出ステップと、を備える、
音声区間検出方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示の一態様は、音声区間検出装置及び音声区間検出方法に関する。
【背景技術】
【0002】
音声通信及び音声認識の分野において、人物(ユーザ)の音声が存在する音声区間を検出する技術が知られている。特許文献1に記載された音声区間検出装置は、映像撮影装置を通じて撮影された映像信号に基づいて、映像フレームで検出された動き領域に唇動き映像特徴情報を適用して唇動き信号を検出する。この音声区間検出装置は、マイク等を介して人物により入力された音信号(音響信号)と、検出した唇動き信号とを用いて音声区間を検出する。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2007-156493号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
上記の音声区間検出装置では、映像撮影装置を通じて撮影された映像信号と、入力された音信号とを用いて音声区間を検出する。このため、音信号のみを用いて音声区間を検出する一般的な音声区間検出装置と比較して、上記の音声区間検出装置では、映像処理を行うべく計算量が増大し得る。よって、音声区間の検出における計算量を低減することが求められる。
【0005】
本開示は上記実情に鑑みてなされたものであり、音声区間の検出における計算量を低減することを目的とする。
【課題を解決するための手段】
【0006】
本開示の一態様に係る音声区間検出装置は、音を示す音信号を取得する音信号取得部と、音信号に基づいて、音信号における人物の音声を示す音声信号を検出する音声信号検出部と、映像を示す映像信号を取得する映像信号取得部と、映像信号に基づいて、映像における対象人物に係る事象の有無を判定する映像判定部と、音声信号検出部の検出結果、及び映像判定部の判定結果に基づいて、対象人物の音声の有無を判定する音声判定部と、映像判定部及び音声判定部の判定結果に基づいて、映像信号取得部により取得される映像信号により示される映像の品質を決定する品質決定部と、音声判定部の判定結果に基づいて、音声信号から対象人物の音声区間を検出する音声区間検出部と、を備える。
【0007】
本開示の一態様に係る音声区間検出方法は、音を示す音信号を取得する音信号取得ステップと、音信号に基づいて、音信号における人物の音声を示す音声信号を検出する音声信号検出ステップと、映像を示す映像信号を取得する映像信号取得ステップと、映像信号に基づいて、映像における対象人物に係る事象の有無を判定する映像判定ステップと、音声信号検出ステップの検出結果、及び映像判定ステップの判定結果に基づいて、対象人物の音声の有無を判定する音声判定ステップと、映像判定ステップ及び音声判定ステップの判定結果に基づいて、映像信号取得ステップにより取得される映像信号により示される映像の品質を決定する品質決定ステップと、音声判定ステップの判定結果に基づいて、音声信号から対象人物の音声区間を検出する音声区間検出ステップと、を備える。
【0008】
本開示の一態様に係る音声区間検出装置及び音声区間検出方法では、対象人物に係る事象の有無、及び、対象人物の音声の有無の判定結果に基づいて、取得される映像信号により示される映像の品質を決定する。例えば、対象人物に係る事象として、対象人物の顔等の対象人物に係る対象物の有無が判定される。例えば、対象人物に係る対象物が有ると判定され、且つ、対象人物の音声が有ると判定された場合、対象人物が在席しており、対象人物が発話中である可能性が高い。この場合、対象人物が音声を発し始めるタイミングを検出する必要がないため、映像の品質を高いものとせずとも、適切に音声区間を検出できる。また例えば、対象物が無いと判定された場合、対象人物が離席しており、対象人物の音声が検出されない可能性が高いため、映像の品質を低いものとしても適切に音声区間を検出できる。このように、取得される映像信号により示される映像の品質を対象人物の状況に応じて低下させることができるので、音声区間の検出における計算量を低減できる。
【発明の効果】
【0009】
本開示によれば、音声区間の検出における計算量を低減できる。
【図面の簡単な説明】
【0010】
図1】実施形態に係る音声区間検出装置を含む音声区間検出システムを示す図である。
図2】実施形態に係る音声区間検出方法を示すフローチャートである。
図3図2に示される映像品質決定処理を示すフローチャートである。
図4】変形例に係る映像品質決定処理を示すフローチャートである。
図5】実施形態に係る音声区間検出装置のハードウェア構成を示す図である。
【発明を実施するための形態】
【0011】
以下、添付図面を参照しながら本開示の実施形態を詳細に説明する。図面の説明において、同一又は同等の要素には同一符号を用い、重複する説明を省略する。
【0012】
図1は、実施形態に係る音声区間検出装置1を含む音声区間検出システム10を示す図である。図1に示されるように、音声区間検出システム10は、音声区間検出装置1と、音入力装置2と、撮像装置3と、を備える。
【0013】
音声区間検出装置1は、対象人物の音声が存在する音声区間を検出する装置である。対象人物とは、音声区間検出装置1により音声区間を検出される者を言う。音声とは、人物により発せられた声を言う。音声区間とは、音声が存在する区間(時間帯)を言う。音声区間検出装置1は、例えば、ネットワークにより互いに接続された複数の端末を介した対話において用いられる。音声区間検出装置1は、例えば、対象人物を含む複数の人物同士の対話において用いられる。音声区間検出装置1は、例えば、互いに対話を行う複数の人物により用いられる端末の一例であるスマートフォン、携帯電話、タブレット端末、及びパーソナルコンピュータ等に適用される。
【0014】
音入力装置2は、音を取得して、取得した音を示す音信号を音声区間検出装置1に出力する。「音」は、音声、及び音声以外の環境音等の様々な音を含む。音入力装置2は、例えば、人物に含まれる対象人物の端末に搭載されたマイクである。
【0015】
撮像装置3は、映像を取得して、取得した映像を示す映像信号を音声区間検出装置1に出力する。「映像」は、対象人物及び対象人物の背景を含む。撮像装置3は、例えば、対象人物の端末に搭載されたカメラである。
【0016】
次に、実施形態に係る音声区間検出装置1の機能構成を説明する。音声区間検出装置1は、その機能構成として、音信号取得部11と、音声信号検出部12と、映像信号取得部13と、映像判定部14と、音声判定部15と、品質決定部16と、音声区間検出部17と、を備える。
【0017】
音信号取得部11は、音入力装置2から出力された音信号を取得する。音信号取得部11は、取得した音信号を音声信号検出部12に出力する。音信号取得部11は、例えば、取得した音信号をデジタル信号に変換し、変換したデジタル信号を音声信号検出部12に出力してもよい。音信号取得部11は、音声信号検出部12に音信号を出力する前に、取得した音信号に対してノイズキャンセリング等の信号処理を行ってもよい。当該信号処理は、音声区間検出装置1の外部において実行されてもよい。
【0018】
本実施形態では、音信号取得部11は、音信号を継続的に取得する。「継続的」とは、複数の人物が対話を行っている間において連続していることを言う。但し、音信号取得部11は、音信号を継続的に取得せず、予め設定された適宜のタイミングで断続的に音信号を取得してもよい。
【0019】
音声信号検出部12は、音信号取得部11により取得された音信号に基づいて、音信号における人物の音声を示す音声信号を検出する。音声信号検出部12は、例えば、音信号取得部11により取得された音信号により示される音が人物の音声であるか否かを判定して、音声信号を検出する。音声信号検出部12は、公知の手段を用いて音信号により示される音が音声であるか否かを判定してもよい。音声信号検出部12は、音声信号の検出結果を音声判定部15に出力する。
【0020】
本実施形態では、音声信号検出部12は、音声信号を継続的に検出する。但し、音声信号検出部12は、音声信号を継続的に検出せず、予め設定された適宜のタイミングで断続的に音声信号を検出してもよい。
【0021】
映像信号取得部13は、撮像装置3から出力された映像信号(映像を示す信号)を取得する。映像信号取得部13は、品質決定部16により決定された映像の品質で、映像信号を取得する。
【0022】
映像信号取得部13は、取得した映像信号を映像判定部14に出力する。映像信号取得部13は、例えば、取得した映像信号をデジタル信号に変換し、変換したデジタル信号を映像判定部14に出力してもよい。映像信号取得部13は、映像判定部14に映像信号を出力する前に、取得した映像信号に対して撮像対象のエッジを検出する等の信号処理を行ってもよい。当該信号処理は、音声区間検出装置1の外部において実行されてもよい。
【0023】
映像判定部14は、映像信号取得部13により取得された映像信号に基づいて、映像における対象人物に係る事象の有無を判定する。本実施形態では、映像判定部14は、対象人物に係る対象物の有無を事象の有無として判定する。映像判定部14は、対象物として対象人物の顔の有無を判定する。映像判定部14は、例えば、映像信号取得部13により取得された映像信号により示される映像から対象人物の顔が検出されたか否かを判定して、映像における対象人物の顔の有無を判定してもよい。映像判定部14は、公知の手段を用いて映像信号により示される映像から対象人物の顔が検出されたか否かを判定してもよい。本実施形態では、映像判定部14は、対象人物の顔の有無の判定結果を音声判定部15、及び品質決定部16に出力する。
【0024】
なお、対象人物に係る対象物は、対象人物の顔に限定されず、例えば対象人物の耳、目、及び肩等であってもよい。また、対象物は、対象人物の身体の一部に限られず、スマートフォン等の対象人物が所有する物であってもよい。
【0025】
本実施形態では、映像判定部14は、映像信号取得部13により取得された映像信号、及び対象物の有無の判定結果に基づいて、対象人物の口唇の動作の有無を事象の有無として判定する。本実施形態では、映像判定部14は、対象人物の顔(対象物)が無いと判定した場合、対象人物の口唇の動作が無いと判定する。映像判定部14は、対象人物の顔が有ると判定した場合、映像信号により示される映像から対象人物の口唇を検出する。映像判定部14は、公知の手段を用いて映像信号により示される映像から対象人物の口唇を検出してもよい。
【0026】
本実施形態では、映像判定部14は、検出した口唇の開き具合が所定以上であるか否かを判定する。映像判定部14は、映像信号により示される映像から対象人物の顔の長さ(顔の正面から見たときの頭頂部から顎先までの長さ)を検出する。また、映像判定部14は、映像信号により示される映像から口唇の上端から下端までの距離を検出する。映像判定部14は、検出した顔の長さに対する口唇の上端から下端までの距離の割合が所定値以上である場合、検出した口唇の開き具合が所定以上であると判定する。その他の場合、映像判定部14は、検出した口唇の開き具合が所定以上でないと判定する。当該所定値は、例えば予め設定されており、適宜変更可能である。
【0027】
また、映像判定部14は、検出した口唇の動きが所定以上であるか否かを判定する。映像判定部14は、検出した顔の長さに対する口唇の上端から下端までの距離の割合の単位時間当たりの変動量が所定値以上である場合、検出した口唇の動きが所定以上であると判定する。その他の場合、映像判定部14は、検出した口唇の動きが所定以上でないと判定する。当該所定値は、例えば予め設定されており、適宜変更可能である。映像判定部14は、公知の手段を用いて口唇の開き具合及び動きが所定以上であるか否かを判定してもよい。
【0028】
映像判定部14は、検出した口唇の開き具合が所定以上であるか、又は、検出した口唇の動きが所定以上であると判定した場合、対象人物の口唇の動作が有ると判定する。映像判定部14は、その他の場合、対象人物の口唇の動作が無いと判定する。但し、映像判定部14が対象人物の口唇の動作の有無を判定する方法は、上記説明したものに限られず、適宜変更可能である。映像判定部14は、口唇の動作の有無の判定結果を音声判定部15に出力する。
【0029】
音声判定部15は、音声信号検出部12の検出結果、及び映像判定部14の判定結果に基づいて、対象人物の音声の有無を判定する。本実施形態では、音声判定部15は、音声信号検出部12の検出結果に加え、映像判定部14による口唇の動作の有無の判定結果に基づいて、対象人物の音声の有無を判定する。音声判定部15は、音声信号検出部12により音声信号が検出され、且つ、映像判定部14により口唇の動作が有ると判定された場合、対象人物の音声が有ると判定する。音声判定部15は、音声信号検出部12により音声信号が検出されない場合、又は、映像判定部14により口唇の動作が無いと判定された場合、対象人物の音声が無いと判定する。音声判定部15は、対象人物の音声の有無の判定結果を品質決定部16及び音声区間検出部17に出力する。
【0030】
品質決定部16は、映像品質決定処理を実行する。映像品質決定処理では、品質決定部16は、映像判定部14及び音声判定部15の判定結果に基づいて、映像信号取得部13により取得される映像信号により示される映像の品質を決定する。「品質」は、例えば、映像のフレームレート、解像度、及び画角の少なくとも1つを含む。本実施形態では、映像の品質は、映像の解像度である。品質決定部16は、決定した映像の品質を映像信号取得部13に出力する。
【0031】
以下、品質決定部16が実行する映像品質決定処理の具体例を説明する。品質決定部16は、映像判定部14及び音声判定部15の判定結果を取得する。品質決定部16は、映像判定部14により対象人物の顔が有ると判定され、且つ、音声判定部15により対象人物の音声が有ると判定された場合、映像の品質を所定の品質である基準品質に決定する。より具体的には、品質決定部16は、映像の解像度を所定の値である第1の値に決定する。
【0032】
映像判定部14により対象人物の顔が有ると判定され、且つ、音声判定部15により対象人物の音声が有ると判定された場合、対象人物が端末の前に存在しており(一例として在席している)、且つ、音声を発している(発話している)可能性が高いと言える。この場合、対象人物が音声を発し始めるタイミングを検出する必要がないため、映像の品質を高いものとせずとも、適切に音声区間を検出できる。
【0033】
品質決定部16は、映像判定部14により対象人物の顔が無いと判定された場合、映像の品質を基準品質よりも低い品質である低品質に決定する。より具体的には、品質決定部16は、映像の解像度を第1の値よりも低い値である第2の値に決定する。
【0034】
映像判定部14により対象人物の顔が無いと判定された場合、対象人物が端末の前に存在していない(一例として離席している)可能性が高いと言える。この場合、対象人物の音声が検出されない可能性が高いため、映像の品質を低いものとしても、適切に音声区間を検出できる。
【0035】
品質決定部16は、映像判定部14により対象人物の顔が有ると判定され、且つ、音声判定部15により対象人物の音声が無いと判定された場合、映像の品質を基準品質よりも高い高品質に決定する。より具体的には、品質決定部16は、映像の解像度を第1の値よりも高い値である第3の値に決定する。
【0036】
映像判定部14により対象人物の顔が有ると判定され、且つ、音声判定部15により対象人物の音声が無いと判定された場合、対象人物が端末の前に存在しており、且つ、音声を発していない可能性が高いと言える。この場合、映像の品質を高いものとすることで、対象人物が音声を発し始めるタイミングを高精度に検出できる。上記の第1の値、第2の値、及び第3の値は、例えば予め設定されており、適宜変更可能である。
【0037】
音声区間検出部17は、音声判定部15の判定結果に基づいて、音声信号検出部12により検出された音声信号から対象人物の音声区間を検出する。本実施形態では、音声区間検出部17は、音声信号において、音声判定部15により対象人物の音声が有ると判定された区間を音声区間として検出する。
【0038】
本実施形態では、音声区間検出部17は、検出した音声区間を出力する。出力として、例えば、音声区間検出部17は、音声区間検出装置1の外部の装置に送信してもよく、音声区間検出装置1に含まれる表示装置に表示してもよい。当該外部の装置は、例えば、スマートフォン又はタブレット端末であってもよく、パーソナルコンピュータのディスプレイであってもよい。当該外部の装置は、例えば、音声区間検出装置1と通信可能に構成されている。
【0039】
次に、本実施形態に係る音声区間検出方法(音声区間検出装置1の動作方法を含む)を説明する。図2は、実施形態に係る音声区間検出方法を示すフローチャートである。まず、音入力装置2により対象人物が居る環境で生じた音が取得される。また、撮像装置3により対象人物を撮像することで映像が取得される。
【0040】
続いて、音信号取得部11により、音入力装置2から出力された音信号が取得される(音信号取得ステップ、ステップS1)。ステップS1では、取得された音信号が音声信号検出部12に出力される。ステップS1では、例えば、取得された音信号が音声信号検出部12に出力される前に、音信号に対して信号処理が実行されてもよい。
【0041】
続いて、音声信号検出部12により、ステップS1において取得された音信号に基づいて、音信号における人物の音声を示す音声信号が検出される(音声信号検出ステップ、ステップS2)。ステップS2では、ステップS1において取得された音信号により示される音が人物の音声であるか否か判定され、音声信号が検出される。
【0042】
続いて、映像信号取得部13により、撮像装置3から出力された映像信号が取得される(映像信号取得ステップ、ステップS3)。ステップS3では、映像信号取得部13により、後述するステップS7において決定された映像の品質で、映像信号が取得される。ステップS3では、映像信号取得部13により取得された映像の品質に基づいて映像信号が取得される。ステップS3では、映像信号取得部13により、取得された品質の映像を示す映像信号が取得される。
【0043】
ステップS3では、例えば、取得された映像信号が映像判定部14に出力される。ステップS3では、例えば、取得された映像信号が映像判定部14に出力される前に、映像信号に対して信号処理が実行されてもよい。
【0044】
続いて、映像判定部14により、ステップS3において取得された映像信号に基づいて、対象人物に係る事象の有無が判定される(映像判定ステップ、ステップS4)。本実施形態では、ステップS4では、映像判定部14により、対象人物に係る対象物の有無が事象の有無として判定される。ステップS4では、映像判定部14により、対象物として対象人物の顔の有無が判定される。ステップS4では、例えば、ステップS3において取得された映像信号により示される映像から対象人物の顔が検出されたか否かが判定され、映像における対象人物の顔の有無が判定されてもよい。
【0045】
続いて、映像判定部14により、ステップS3において取得された映像信号、及び、ステップS4の判定結果に基づいて、対象人物の口唇の動作の有無が事象の有無として判定される(映像判定ステップ、ステップS5)。ステップS5では、ステップS4において対象人物の顔が無いと判定された場合、映像判定部14により対象人物の口唇の動作が無いと判定される。ステップS4において対象人物の顔が有ると判定された場合、映像判定部14によって、映像信号により示される映像から対象人物の口唇が検出される。この場合、映像判定部14により検出された口唇の開き具合が所定以上であるか否かが判定される。また、映像判定部14により検出された口唇の動きが所定以上であるか否かが判定される。映像判定部14により、口唇の開き具合が所定以上であり、且つ、口唇の動きが所定以上であると判定された場合、対象人物の口唇の動作が有ると判定される。その他の場合、映像判定部14により、対象人物の口唇の動作が無いと判定される。
【0046】
続いて、音声判定部15により、ステップS2の検出結果、及びステップS5の判定結果に基づいて、対象人物の音声の有無が判定される(音声判定ステップ、ステップS6)。本実施形態において、ステップS6では、ステップS2の検出結果に加え、ステップS5における口唇の動作の有無の判定結果を更に考慮して、対象人物の音声の有無が判定される。ステップS6では、音声判定部15により、ステップS2において音声信号が検出され、且つ、ステップS5において口唇の動作が有ると判定された場合、対象人物の音声が有ると判定される。ステップS6では、ステップS2において音声信号が検出されない場合、又は、ステップS5において口唇の動作が無いと判定された場合、対象人物の音声が無いと判定される。
【0047】
続いて、品質決定部16により、映像品質決定処理が実行される(映像品質決定ステップ、ステップS7)。映像品質決定処理では、品質決定部16により、ステップS4及びステップS6の判定結果に基づいて、ステップS3において映像信号取得部13により取得される映像信号により示される映像の品質が決定される。ステップS7では、品質決定部16により決定された映像の品質が映像信号取得部13に出力される。ステップS7における映像品質決定処理については、後述する。
【0048】
続いて、音声区間検出部17により、ステップS6の判定結果に基づいて、ステップS2において検出された音声信号から対象人物の音声区間が検出される(音声区間検出ステップ、ステップS8)。ステップS8では、音声区間検出部17により、音声信号において、ステップS6で対象人物の音声が有ると判定された区間が音声区間として検出される。続いて、本実施形態では、音声区間検出部17により、ステップS8において検出された音声区間が出力される。
【0049】
次に、上記のステップS7における映像品質決定処理の一例を説明する。図3は、図2に示される映像品質決定処理を示すフローチャートである。映像品質決定処理では、まず、品質決定部16により、ステップS4における映像判定部14の判定結果が取得される(ステップS71)。ステップS4において映像判定部14により対象人物の顔が無いと判定された場合(ステップS71:NO)、品質決定部16により、映像の品質が低品質に決定される(ステップS72)。ステップS4において映像判定部14により対象人物の顔が有ると判定された場合(ステップS71:YES)、品質決定部16により、ステップS73が実行される。
【0050】
ステップS73では、品質決定部16により、ステップS6における音声判定部15の判定結果が取得される。ステップS6において音声判定部15により対象人物の音声が無いと判定された場合(ステップS73:NO)、品質決定部16により、映像の品質が高品質に決定される(ステップS74)。ステップS6において音声判定部15により対象人物の音声が有ると判定された場合(ステップS73:YES)、品質決定部16により、映像の品質が基準品質に決定される(ステップS75)。
【0051】
次に、本実施形態に係る音声区間検出装置1及び音声区間検出方法の作用効果を説明する。
【0052】
本実施形態に係る音声区間検出装置1及び音声区間検出方法では、対象人物に係る事象の有無、及び、対象人物の音声の有無の判定結果に基づいて、取得される映像信号により示される映像の品質を決定する。例えば、対象人物に係る事象として、対象人物の顔等の対象人物に係る対象物の有無が判定される。例えば、対象人物に係る対象物が有ると判定され、且つ、対象人物の音声が有ると判定された場合、対象人物が在席しており、対象人物が発話中である可能性が高い。この場合、対象人物が音声を発し始めるタイミングを検出する必要がないため、映像の品質を高いものとせずとも、適切に音声区間を検出できる。また例えば、対象物が無いと判定された場合、対象人物が離席しており、対象人物の音声が検出されない可能性が高いため、映像の品質を低いものとしても適切に音声区間を検出できる。このように、取得される映像信号により示される映像の品質を対象人物の状況に応じて低下させることができるので、音声区間の検出における計算量を低減できる。
【0053】
対象人物の音声が有ると判定された区間(音声区間)では、音声区間に対応する音声信号を例えば音声区間検出装置1の外部の装置に伝送するために電力を要する。例えば、スマートフォン等のバッテリ容量が小さい端末に音声区間検出装置1が適用された場合、消費電力が増大することで不具合を生じる可能性がある。この点で、本実施形態に係る音声区間検出装置1では、音声区間の検出における計算量を低減できるので、音声区間検出装置1が適用された端末の消費電力を抑制することができる。
【0054】
上述した音声区間検出装置1において、映像判定部14は、対象人物に係る対象物の有無を事象の有無として判定する。品質決定部16は、映像判定部14により対象物である顔が有ると判定され、且つ、音声判定部15により音声が有ると判定された場合、映像の品質を所定の品質である基準品質に決定する。品質決定部16は、映像判定部14により顔が無いと判定された場合、映像の品質を基準品質よりも低い品質である低品質に決定する。対象人物の顔が無いと判定された場合、例えば対象人物が離席しており、対象人物の音声区間が存在しない可能性が高いと言える。したがって、取得される映像信号により示される映像の品質を低品質に決定しても、適切に音声区間を検出できる。以上より、音声区間の検出における計算量を低減できる。
【0055】
上述した音声区間検出装置1において、品質決定部16は、映像判定部14により顔が有ると判定され、且つ、音声判定部15により音声が無いと判定された場合、映像の品質を基準品質よりも高い品質である高品質に決定する。対象人物の顔が有ると判定され、且つ、対象人物の音声が無いと判定された場合、例えば対象人物が在席中であり、発話中でない可能性が高いと言える。このとき、取得される映像信号により示される映像の品質を高品質に決定することで、対象人物が音声を発し始めるタイミングを高精度に検出できる。以上より、高精度に音声区間を検出できる。
【0056】
上述した音声区間検出装置1は、映像判定部14は、映像信号、及び対象物の有無の判定結果に基づいて、対象人物の口唇の動作の有無を事象として判定する。音声判定部15は、映像判定部14による口唇の動作の有無の判定結果に基づいて、対象人物の音声の有無を判定する。これにより、人物の音声を示す音声信号が検出されたか否かに加え、対象人物の口唇の動作が有るか否かを考慮して、対象人物の音声の有無を判定できる。以上より、音声区間を一層高精度に検出できる。
【0057】
以上、本開示の実施形態に基づいて詳細に説明した。しかし、本開示は上記実施形態に限定されるものではない。本開示は、その要旨を逸脱しない範囲で様々な変形が可能である。
【0058】
上記実施形態では、音声判定部15が音声信号検出部12の検出結果、及び映像判定部14による対象人物の口唇の動作の有無の判定結果に基づいて、対象人物の音声の有無を判定する例を説明した。しかし、音声判定部15は、口唇の動作の有無の判定結果を用いることなく、音声信号検出部12の検出結果、及び映像判定部14の事象の有無の判定結果に基づいて対象人物の音声の有無を判定すればよい。この場合、映像判定部14は、対象人物の口唇の動作の有無を判定しなくてもよい。
【0059】
一例として、音声判定部15は、音声信号検出部12の検出結果、及び映像判定部14による対象物の有無の判定結果に基づいて、対象人物の音声の有無を判定してもよい。この場合、音声判定部15は、音声信号検出部12により音声信号が検出され、且つ、映像判定部14により対象物が有ると判定された場合、対象人物の音声が有ると判定してもよい。その他の場合、音声判定部15は、対象人物の音声が無いと判定してもよい。
【0060】
上記実施形態では、品質決定部16が映像判定部14及び音声判定部15の判定結果に基づいて、映像信号取得部13により取得される映像信号により示される映像の品質を決定する例を説明した。しかし、品質決定部16は、映像判定部14及び音声判定部15の判定結果に加え、音声信号検出部12による新たな音声信号の検出結果を更に考慮して、映像の品質を決定してもよい。
【0061】
本変形例では、音信号取得部11は、音信号を継続的に取得する。音声信号検出部12は、音信号取得部11により継続的に取得された音信号に基づいて、音声信号を継続的に検出する。また本変形例では、品質決定部16は、変形例に係る映像品質決定処理を実行する。変形例に係る映像品質決定処理では、品質決定部16は、映像判定部14により対象人物の顔が有ると判定され、且つ、音声判定部15により対象人物の音声が有ると判定されている場合において、音声信号検出部12により新たな音声信号が検出されたか否かを判定する。「新たな音声信号」とは、音声判定部15が判定を行った後、所定時間内に音声信号検出部12が新たに検出した音声信号を言う。当該所定時間は、例えば予め設定されており、適宜変更可能である。
【0062】
品質決定部16は、映像判定部14により対象人物の顔が有ると判定され、且つ、音声判定部15により対象人物の音声が有ると判定されている場合において、音声信号検出部12により新たな音声信号が検出された場合、映像の品質を所定の品質である基準品質に決定し、音声信号検出部12により新たな音声信号が検出されない場合、映像の品質を基準品質よりも高い品質である高品質に決定する。
【0063】
続いて、変形例に係る音声区間検出方法(変形例に係る音声区間検出装置の動作方法を含む)を説明する。変形例に係る音声区間検出方法では、ステップS1において、音信号取得部11により、音信号が継続的に取得される。ステップS2において、音声信号検出部12により、ステップS1において音信号取得部11により継続的に取得された音信号に基づいて、音声信号が継続的に検出される。
【0064】
図4は、変形例に係る映像品質決定処理を示すフローチャートである。変形例に係る映像品質決定処理では、品質決定部16は、ステップS81~ステップS87を実行する。図4に示すステップS81~ステップS84の処理は、図3に示すステップS71~ステップS74の処理と同一であるため、説明を省略する。
【0065】
ステップS6において音声判定部15により対象人物の音声が有ると判定された場合(ステップS83:YES)、品質決定部16により、ステップS2において音声信号検出部12により新たな音声信号が検出されたか否かが判定される(ステップS85)。ステップS2において音声信号検出部12により新たな音声信号が検出されなかったと判定された場合(ステップS85:NO)、品質決定部16により、映像の品質が高品質に決定される(ステップS86)。ステップS2において音声信号検出部12により新たな音声信号が検出されたと判定された場合(ステップS85:YES)、品質決定部16により、映像の品質が基準品質に決定される(ステップS87)。
【0066】
本変形例では、音信号取得部11は、音信号を継続的に取得する。音声信号検出部12は、継続的に取得された音信号に基づいて、音声信号を継続的に検出する。品質決定部16は、映像判定部14により対象人物の顔が有ると判定され、且つ、音声判定部15により対象人物の音声が有ると判定されている場合において、音声信号検出部12により新たな音声信号が検出された場合、映像の品質を所定の品質である基準品質に決定し、音声信号検出部12により新たな音声信号が検出されない場合、映像の品質を基準品質よりも高い品質である高品質に決定する。
【0067】
この場合、対象人物の顔の有無の判定結果、及び対象人物の音声の有無の判定結果に加え、新たな音声信号の検出結果を更に考慮して、映像の品質を決定する。対象人物の顔が有ると判定され、対象人物の音声が有ると判定され、さらに新たな音声信号が検出されない場合、対象人物が発話を終了して、口を開けた状態で音声を発していない可能性が高いと言える。このとき、取得される映像信号により示される映像の品質を高品質に決定することで、対象人物が再び音声を発し始めるタイミングを高精度に検出できる。以上より、一層高精度に音声区間を検出できる。
【0068】
品質決定部16は、対象人物の端末の計算リソースに基づいて、映像の品質を決定してもよい。端末の計算リソースは、例えば、CPU(Central Processing Unit)使用率、メモリ使用率、及び消費電力を含む。この場合、品質決定部16は、例えば、端末のCPU使用率が所定値以上となった場合、映像の品質を低品質に決定してもよい。当該所定値は、例えば予め設定されており、適宜変更可能である。この場合でも、音声区間の検出における計算量を低減できる。また、計算リソースが小さい端末に音声区間検出装置1が適用された場合、又は、端末の計算リソースが一時的に小さくなった場合でも、安定して音声区間を検出できる。
【0069】
上記実施形態では、音声区間検出装置1が互いに対話を行う複数の人物により用いられる端末に適用される例を説明した。しかし、音声区間検出装置1が実行する処理の全部又は一部は、当該端末とネットワークを介して接続された外部の装置(一例としてサーバ)において実行されてもよい。
【0070】
本変形例では、一例として、音声区間検出装置1は、音処理部及び映像処理部をさらに備える。音信号取得部11及び映像信号取得部13が実行する処理は、上記の端末において実行される。また、音信号取得部11及び映像信号取得部13を除く音声区間検出装置1の機能部が実行する処理は、上記の外部の装置において実行される。
【0071】
音信号取得部11は、取得した音信号をデジタル信号に変換し、変換したデジタル信号を音処理部に出力する。音処理部は、例えば音信号取得部11から出力されたデジタル信号を取得して、取得したデジタル信号を音声信号検出部12に出力する。
【0072】
映像信号取得部13は、取得した映像信号をデジタル信号に変換し、変換したデジタル信号を映像処理部に出力する。映像処理部は、映像信号取得部13から出力されたデジタル信号を取得する。映像処理部は、例えば音声検出に関わる映像品質を調整するためのデジタル信号処理を実施する。映像処理部は、例えば取得したデジタル信号に対してデジタル信号処理を実施して、品質決定部16により決定された映像の品質に応じた品質のデジタル信号を取得する。一例として、映像処理部は、受信した映像信号ストリームのフレームレート(品質)を調整する処理を実行する。映像処理部は、品質を調整したデジタル信号を映像判定部14に出力する。
【0073】
上記の変形例では、音声区間検出装置1が音処理部を備える例を説明したが、音声区間検出装置1は、音処理部を備えていなくてもよい。
【0074】
音声区間検出装置1は、マルチモーダル発話検知機能を有してもよい。音声区間検出装置1は、例えば、検出した音声区間に応じて対象人物の端末の音入力装置2をオン又はオフに切り替えてもよい。より具体的には、音声区間検出装置1は、対象人物の音声区間を検出した場合、対象人物の端末の音入力装置2をオンに切り替え、対象人物の音声区間を検出しない場合、対象人物の端末の音入力装置2をオフに切り替えてもよい。この場合、対象人物が音入力装置2を直接操作する手間が解消される。また、対象人物の発話時以外のノイズが除去され、対話が円滑となる。
【0075】
音声区間検出装置1は、例えば、映像判定部14の判定結果に基づいて、対象人物と対話を行う人物の端末に対象人物の状況(ステータス)を表示してもよい。「状況」は、例えば、在席中であり対話(一例として雑談)が可能な状態と、離席中であり対話が不可能な状態と、を含む。この場合、音声区間検出装置1は、映像判定部14により対象人物の顔が有ると判定された場合、対象人物の状況として、対象人物が在席中であり対話が可能な状態であることを対象人物と対話を行う人物の端末に表示してもよい。また、音声区間検出装置1は、映像判定部14により対象人物の顔が無いと判定された場合、対象人物の状況として、対象人物が離席中であり対話が不可能な状態であることを対象人物と対話を行う人物の端末に表示してもよい。これにより、互いに対話を行う複数の人物は、対話可能な人物を互いに認識することができる。
【0076】
音声区間検出装置1は、例えば、対話に参加している人数を端末に表示してもよい。また、音声区間検出装置1は、例えば、対話可能な残り時間を端末に表示してもよい。この場合、音声区間検出装置1は、例えば予め設定された人物の予定に基づいて、対話可能な残り時間を端末に表示してもよい。より具体的には、音声区間検出装置1は、例えば現在時刻から人物の次の予定の時刻までの時間を、対話可能な残り時間として端末に表示してもよい。この場合、人物が対話し易い雰囲気をつくることができる。
【0077】
なお、上記実施形態の説明に用いたブロック図は、機能単位のブロックを示している。これらの機能ブロック(構成部)は、ハードウェア及びソフトウェアの少なくとも一方の任意の組み合わせによって実現される。また、各機能ブロックの実現方法は特に限定されない。すなわち、各機能ブロックは、物理的又は論理的に結合した1つの装置を用いて実現されてもよいし、物理的又は論理的に分離した2つ以上の装置を直接的又は間接的に(例えば、有線、無線などを用いて)接続し、これら複数の装置を用いて実現されてもよい。機能ブロックは、上記1つの装置又は上記複数の装置にソフトウェアを組み合わせて実現されてもよい。
【0078】
機能には、判断、決定、判定、計算、算出、処理、導出、調査、探索、確認、受信、送信、出力、アクセス、解決、選択、選定、確立、比較、想定、期待、見做し、報知(broadcasting)、通知(notifying)、通信(communicating)、転送(forwarding)、構成(configuring)、再構成(reconfiguring)、割り当て(allocating、mapping)、割り振り(assigning)などがあるが、これらに限られない。たとえば、送信を機能させる機能ブロック(構成部)は、送信部(transmitting unit)や送信機(transmitter)と呼称される。いずれも、上述したとおり、実現方法は特に限定されない。
【0079】
例えば、本開示の一実施の形態における音声区間検出装置1は、本開示の情報処理を行うコンピュータとして機能してもよい。図5は、本開示の一実施の形態に係る音声区間検出装置1のハードウェア構成の一例を示す図である。上述の音声区間検出装置1は、物理的には、プロセッサ1001、メモリ1002、ストレージ1003、通信装置1004、入力装置1005、出力装置1006、バス1007などを含むコンピュータ装置として構成されてもよい。端末20のハードウェア構成も、ここで説明するものであってもよい。
【0080】
なお、以下の説明では、「装置」という文言は、回路、デバイス、ユニットなどに読み替えることができる。音声区間検出装置1のハードウェア構成は、図に示した各装置を1つ又は複数含むように構成されてもよいし、一部の装置を含まずに構成されてもよい。
【0081】
音声区間検出装置1における各機能は、プロセッサ1001、メモリ1002などのハードウェア上に所定のソフトウェア(プログラム)を読み込ませることによって、プロセッサ1001が演算を行い、通信装置1004による通信を制御したり、メモリ1002及びストレージ1003におけるデータの読み出し及び書き込みの少なくとも一方を制御したりすることによって実現される。
【0082】
プロセッサ1001は、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサ1001は、周辺装置とのインターフェース、制御装置、演算装置、レジスタなどを含む中央処理装置(CPU:Central Processing Unit)によって構成されてもよい。例えば、上述の音声区間検出装置1における各機能は、プロセッサ1001によって実現されてもよい。
【0083】
また、プロセッサ1001は、プログラム(プログラムコード)、ソフトウェアモジュール、データなどを、ストレージ1003及び通信装置1004の少なくとも一方からメモリ1002に読み出し、これらに従って各種の処理を実行する。プログラムとしては、上述の実施の形態において説明した動作の少なくとも一部をコンピュータに実行させるプログラムが用いられる。例えば、音声区間検出装置1における各機能は、メモリ1002に格納され、プロセッサ1001において動作する制御プログラムによって実現されてもよい。上述の各種処理は、1つのプロセッサ1001によって実行される旨を説明してきたが、2以上のプロセッサ1001により同時又は逐次に実行されてもよい。プロセッサ1001は、1以上のチップによって実装されてもよい。なお、プログラムは、電気通信回線を介してネットワークから送信されても良い。
【0084】
メモリ1002は、コンピュータ読み取り可能な記録媒体であり、例えば、ROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable ROM)、RAM(Random Access Memory)などの少なくとも1つによって構成されてもよい。メモリ1002は、レジスタ、キャッシュ、メインメモリ(主記憶装置)などと呼ばれてもよい。メモリ1002は、本開示の一実施の形態に係る情報処理を実施するために実行可能なプログラム(プログラムコード)、ソフトウェアモジュールなどを保存することができる。
【0085】
ストレージ1003は、コンピュータ読み取り可能な記録媒体であり、例えば、CD-ROM(Compact Disc ROM)などの光ディスク、ハードディスクドライブ、フレキシブルディスク、光磁気ディスク(例えば、コンパクトディスク、デジタル多用途ディスク、Blu-ray(登録商標)ディスク)、スマートカード、フラッシュメモリ(例えば、カード、スティック、キードライブ)、フロッピー(登録商標)ディスク、磁気ストリップなどの少なくとも1つによって構成されてもよい。ストレージ1003は、補助記憶装置と呼ばれてもよい。音声区間検出装置1が備える記憶媒体は、例えば、メモリ1002及びストレージ1003の少なくとも一方を含むデータベース、サーバその他の適切な媒体であってもよい。
【0086】
通信装置1004は、有線ネットワーク及び無線ネットワークの少なくとも一方を介してコンピュータ間の通信を行うためのハードウェア(送受信デバイス)であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュールなどともいう。
【0087】
入力装置1005は、外部からの入力を受け付ける入力デバイス(例えば、キーボード、マウス、マイクロフォン、スイッチ、ボタン、センサなど)である。出力装置1006は、外部への出力を実施する出力デバイス(例えば、ディスプレイ、スピーカー、LEDランプなど)である。なお、入力装置1005及び出力装置1006は、一体となった構成(例えば、タッチパネル)であってもよい。
【0088】
また、プロセッサ1001、メモリ1002などの各装置は、情報を通信するためのバス1007によって接続される。バス1007は、単一のバスを用いて構成されてもよいし、装置間ごとに異なるバスを用いて構成されてもよい。
【0089】
また、音声区間検出装置1は、マイクロプロセッサ、デジタル信号プロセッサ(DSP:Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)、FPGA(Field Programmable Gate Array)などのハードウェアを含んで構成されてもよく、当該ハードウェアにより、各機能ブロックの一部又は全てが実現されてもよい。例えば、プロセッサ1001は、これらのハードウェアの少なくとも1つを用いて実装されてもよい。
【0090】
本開示において説明した各態様/実施形態の処理手順、シーケンス、フローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本開示において説明した方法については、例示的な順序を用いて様々なステップの要素を提示しており、提示した特定の順序に限定されない。
【0091】
入出力された情報等は特定の場所(例えば、メモリ)に保存されてもよいし、管理テーブルを用いて管理してもよい。入出力される情報等は、上書き、更新、又は追記され得る。出力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。
【0092】
判定は、1ビットで表される値(0か1か)によって行われてもよいし、真偽値(Boolean:true又はfalse)によって行われてもよいし、数値の比較(例えば、所定の値との比較)によって行われてもよい。
【0093】
本開示において説明した各態様/実施形態は単独で用いてもよいし、組み合わせて用いてもよいし、実行に伴って切り替えて用いてもよい。また、所定の情報の通知(例えば、「Xであること」の通知)は、明示的に行うものに限られず、暗黙的(例えば、当該所定の情報の通知を行わない)ことによって行われてもよい。
【0094】
以上、本開示について詳細に説明したが、当業者にとっては、本開示が本開示中に説明した実施形態に限定されるものではないということは明らかである。本開示は、請求の範囲の記載により定まる本開示の趣旨及び範囲を逸脱することなく修正及び変更態様として実施することができる。したがって、本開示の記載は、例示説明を目的とするものであり、本開示に対して何ら制限的な意味を有するものではない。
【0095】
ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。
【0096】
また、ソフトウェア、命令、情報などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、有線技術(同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者回線(DSL:Digital Subscriber Line)など)及び無線技術(赤外線、マイクロ波など)の少なくとも一方を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び無線技術の少なくとも一方は、伝送媒体の定義内に含まれる。
【0097】
本開示において使用する「システム」及び「ネットワーク」という用語は、互換的に使用される。
【0098】
また、本開示において説明した情報、パラメータなどは、絶対値を用いて表されてもよいし、所定の値からの相対値を用いて表されてもよいし、対応する別の情報を用いて表されてもよい。
【0099】
本開示で使用する「判断(determining)」、「決定(determining)」という用語は、多種多様な動作を包含する場合がある。「判断」、「決定」は、例えば、判定(judging)、計算(calculating)、算出(computing)、処理(processing)、導出(deriving)、調査(investigating)、探索(looking up、search、inquiry)(例えば、テーブル、データベース又は別のデータ構造での探索)、確認(ascertaining)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、受信(receiving)(例えば、情報を受信すること)、送信(transmitting)(例えば、情報を送信すること)、入力(input)、出力(output)、アクセス(accessing)(例えば、メモリ中のデータにアクセスすること)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、解決(resolving)、選択(selecting)、選定(choosing)、確立(establishing)、比較(comparing)などした事を「判断」「決定」したとみなす事を含み得る。つまり、「判断」「決定」は、何らかの動作を「判断」「決定」したとみなす事を含み得る。また、「判断(決定)」は、「想定する(assuming)」、「期待する(expecting)」、「みなす(considering)」などで読み替えられてもよい。
【0100】
「接続された(connected)」、「結合された(coupled)」という用語、又はこれらのあらゆる変形は、2又はそれ以上の要素間の直接的又は間接的なあらゆる接続又は結合を意味し、互いに「接続」又は「結合」された2つの要素間に1又はそれ以上の中間要素が存在することを含むことができる。要素間の結合又は接続は、物理的なものであっても、論理的なものであっても、或いはこれらの組み合わせであってもよい。例えば、「接続」は「アクセス」で読み替えられてもよい。本開示で使用する場合、2つの要素は、1又はそれ以上の電線、ケーブル及びプリント電気接続の少なくとも一つを用いて、並びにいくつかの非限定的かつ非包括的な例として、無線周波数領域、マイクロ波領域及び光(可視及び不可視の両方)領域の波長を有する電磁エネルギーなどを用いて、互いに「接続」又は「結合」されると考えることができる。
【0101】
本開示において使用する「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。
【0102】
本開示において使用する「第1の」、「第2の」などの呼称を使用した要素へのいかなる参照も、それらの要素の量又は順序を全般的に限定しない。これらの呼称は、2つ以上の要素間を区別する便利な方法として本開示において使用され得る。したがって、第1及び第2の要素への参照は、2つの要素のみが採用され得ること、又は何らかの形で第1の要素が第2の要素に先行しなければならないことを意味しない。
【0103】
本開示において、「含む(include)」、「含んでいる(including)」及びそれらの変形が使用されている場合、これらの用語は、用語「備える(comprising)」と同様に、包括的であることが意図される。さらに、本開示において使用されている用語「又は(or)」は、排他的論理和ではないことが意図される。
【0104】
本開示において、例えば、英語でのa, an及びtheのように、翻訳により冠詞が追加された場合、本開示は、これらの冠詞の後に続く名詞が複数形であることを含んでもよい。
【0105】
本開示において、「AとBが異なる」という用語は、「AとBが互いに異なる」ことを意味してもよい。なお、当該用語は、「AとBがそれぞれCと異なる」ことを意味してもよい。「離れる」、「結合される」などの用語も、「異なる」と同様に解釈されてもよい。
【0106】
最後に、本開示に含まれる種々の例示的態様を、以下の[E1]~[E6]に記載する。
【0107】
[E1]
対象人物の音声が存在する音声区間を検出する音声区間検出装置であって、
音を示す音信号を取得する音信号取得部と、
前記音信号に基づいて、前記音信号における人物の音声を示す音声信号を検出する音声信号検出部と、
映像を示す映像信号を取得する映像信号取得部と、
前記映像信号に基づいて、前記映像における前記対象人物に係る事象の有無を判定する映像判定部と、
前記音声信号検出部の検出結果、及び前記映像判定部の判定結果に基づいて、前記対象人物の音声の有無を判定する音声判定部と、
前記映像判定部及び前記音声判定部の判定結果に基づいて、前記映像信号取得部により取得される前記映像信号により示される前記映像の品質を決定する品質決定部と、
前記音声判定部の判定結果に基づいて、前記音声信号から前記対象人物の前記音声区間を検出する音声区間検出部と、を備える、
音声区間検出装置。
【0108】
[E2]
前記映像判定部は、前記対象人物に係る対象物の有無を前記事象の有無として判定し、
前記品質決定部は、
前記映像判定部により前記対象物が有ると判定され、且つ、前記音声判定部により前記対象人物の前記音声が有ると判定された場合、前記映像の品質を所定の品質である基準品質に決定し、
前記映像判定部により前記対象物が無いと判定された場合、前記映像の品質を前記基準品質よりも低い品質である低品質に決定する、
[E1]に記載の音声区間検出装置。
【0109】
[E3]
前記品質決定部は、前記映像判定部により前記対象物が有ると判定され、且つ、前記音声判定部により前記対象人物の前記音声が無いと判定された場合、前記映像の品質を前記基準品質よりも高い品質である高品質に決定する、
[E2]に記載の音声区間検出装置。
【0110】
[E4]
前記音信号取得部は、前記音信号を継続的に取得し、
前記音声信号検出部は、継続的に取得された前記音信号に基づいて、前記音声信号を継続的に検出し、
前記品質決定部は、
前記映像判定部により前記対象物が有ると判定され、且つ、前記音声判定部により前記対象人物の前記音声が有ると判定されている場合において、
前記音声信号検出部により新たな前記音声信号が検出された場合、前記映像の品質を所定の品質である基準品質に決定し、
前記音声信号検出部により新たな前記音声信号が検出されない場合、前記映像の品質を前記基準品質よりも高い品質である高品質に決定する、
[E2]又は[E3]に記載の音声区間検出装置。
[E5]
前記映像判定部は、前記映像信号、及び前記対象物の有無の判定結果に基づいて、前記対象人物の口唇の動作の有無を前記事象の有無として判定し、
前記音声判定部は、前記映像判定部による前記口唇の動作の有無の判定結果に基づいて、前記対象人物の前記音声の有無を判定する、
[E2]~[E4]のいずれかに記載の音声区間検出装置。
[E6]
対象人物の音声が存在する音声区間を検出する音声区間検出方法であって、
音を示す音信号を取得する音信号取得ステップと、
前記音信号に基づいて、前記音信号における人物の音声を示す音声信号を検出する音声信号検出ステップと、
映像を示す映像信号を取得する映像信号取得ステップと、
前記映像信号に基づいて、前記映像における前記対象人物に係る事象の有無を判定する映像判定ステップと、
前記音声信号検出ステップの検出結果、及び前記映像判定ステップの判定結果に基づいて、前記対象人物の音声の有無を判定する音声判定ステップと、
前記映像判定ステップ及び前記音声判定ステップの判定結果に基づいて、前記映像信号取得ステップにより取得される前記映像信号により示される前記映像の品質を決定する品質決定ステップと、
前記音声判定ステップの判定結果に基づいて、前記音声信号から前記対象人物の前記音声区間を検出する音声区間検出ステップと、を備える、
音声区間検出方法。
【符号の説明】
【0111】
1…音声区間検出装置、11…音信号取得部、12…音声信号検出部、13…映像信号取得部、14…映像判定部、15…音声判定部、16…品質決定部、17…音声区間検出部。
図1
図2
図3
図4
図5