特開2024-174380 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社ＮＴＴドコモの特許一覧

特開2024-174380音声区間検出装置及び音声区間検出方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024174380

(43)【公開日】2024-12-17

(54)【発明の名称】音声区間検出装置及び音声区間検出方法

(51)【国際特許分類】

G10L 25/78 20130101AFI20241210BHJP

【ＦＩ】

G10L25/78

【審査請求】未請求

【請求項の数】6

【出願形態】ＯＬ

(21)【出願番号】P 2023092187

(22)【出願日】2023-06-05

(71)【出願人】

【識別番号】392026693

【氏名又は名称】株式会社ＮＴＴドコモ

(74)【代理人】

【識別番号】100088155

【弁理士】

【氏名又は名称】長谷川芳樹

(74)【代理人】

【識別番号】100113435

【弁理士】

【氏名又は名称】黒木義樹

(74)【代理人】

【識別番号】100121980

【弁理士】

【氏名又は名称】沖山隆

(74)【代理人】

【識別番号】100128107

【弁理士】

【氏名又は名称】深石賢治

(74)【代理人】

【識別番号】100183438

【弁理士】

【氏名又は名称】内藤泰史

(72)【発明者】

【氏名】仲信彦

(72)【発明者】

【氏名】山田仰

(57)【要約】

【課題】音声区間の検出における計算量を低減すること。
【解決手段】音声区間検出装置１は、音を示す音信号を取得する音信号取得部１１と、音信号に基づいて、音信号における人物の音声を示す音声信号を検出する音声信号検出部１２と、映像を示す映像信号を取得する映像信号取得部１３と、映像信号に基づいて、映像における対象人物に係る事象の有無を判定する映像判定部１４と、音声信号検出部１２の検出結果、及び映像判定部１４の判定結果に基づいて、対象人物の音声の有無を判定する音声判定部１５と、映像判定部１４及び音声判定部１５の判定結果に基づいて、映像信号取得部１３により取得される映像信号により示される映像の品質を決定する品質決定部１６と、音声判定部１５の判定結果に基づいて、音声信号から対象人物の音声区間を検出する音声区間検出部１７と、を備える。
【選択図】図１

【特許請求の範囲】

【請求項1】

音を示す音信号を取得する音信号取得部と、
前記音信号に基づいて、前記音信号における人物の音声を示す音声信号を検出する音声信号検出部と、
映像を示す映像信号を取得する映像信号取得部と、
前記映像信号に基づいて、前記映像における対象人物に係る事象の有無を判定する映像判定部と、
前記音声信号検出部の検出結果、及び前記映像判定部の判定結果に基づいて、前記対象人物の音声の有無を判定する音声判定部と、
前記映像判定部及び前記音声判定部の判定結果に基づいて、前記映像信号取得部により取得される前記映像信号により示される前記映像の品質を決定する品質決定部と、
前記音声判定部の判定結果に基づいて、前記音声信号から前記対象人物の音声区間を検出する音声区間検出部と、を備える、
音声区間検出装置。

【請求項2】

前記映像判定部は、前記対象人物に係る対象物の有無を前記事象の有無として判定し、
前記品質決定部は、
前記映像判定部により前記対象物が有ると判定され、且つ、前記音声判定部により前記対象人物の前記音声が有ると判定された場合、前記映像の品質を所定の品質である基準品質に決定し、
前記映像判定部により前記対象物が無いと判定された場合、前記映像の品質を前記基準品質よりも低い品質である低品質に決定する、
請求項１に記載の音声区間検出装置。

【請求項3】

前記品質決定部は、前記映像判定部により前記対象物が有ると判定され、且つ、前記音声判定部により前記対象人物の前記音声が無いと判定された場合、前記映像の品質を前記基準品質よりも高い品質である高品質に決定する、
請求項２に記載の音声区間検出装置。

【請求項4】

前記音信号取得部は、前記音信号を継続的に取得し、
前記音声信号検出部は、継続的に取得された前記音信号に基づいて、前記音声信号を継続的に検出し、
前記品質決定部は、
前記映像判定部により前記対象物が有ると判定され、且つ、前記音声判定部により前記対象人物の前記音声が有ると判定されている場合において、
前記音声信号検出部により新たな前記音声信号が検出された場合、前記映像の品質を所定の品質である基準品質に決定し、
前記音声信号検出部により新たな前記音声信号が検出されない場合、前記映像の品質を前記基準品質よりも高い品質である高品質に決定する、
請求項２に記載の音声区間検出装置。

【請求項5】

前記映像判定部は、前記映像信号、及び前記対象物の有無の判定結果に基づいて、前記対象人物の口唇の動作の有無を前記事象の有無として判定し、
前記音声判定部は、前記映像判定部による前記口唇の動作の有無の判定結果に基づいて、前記対象人物の前記音声の有無を判定する、
請求項２に記載の音声区間検出装置。

【請求項6】

音を示す音信号を取得する音信号取得ステップと、
前記音信号に基づいて、前記音信号における人物の音声を示す音声信号を検出する音声信号検出ステップと、
映像を示す映像信号を取得する映像信号取得ステップと、
前記映像信号に基づいて、前記映像における対象人物に係る事象の有無を判定する映像判定ステップと、
前記音声信号検出ステップの検出結果、及び前記映像判定ステップの判定結果に基づいて、前記対象人物の音声の有無を判定する音声判定ステップと、
前記映像判定ステップ及び前記音声判定ステップの判定結果に基づいて、前記映像信号取得ステップにより取得される前記映像信号により示される前記映像の品質を決定する品質決定ステップと、
前記音声判定ステップの判定結果に基づいて、前記音声信号から前記対象人物の音声区間を検出する音声区間検出ステップと、を備える、
音声区間検出方法。

【発明の詳細な説明】

【技術分野】

【0001】

本開示の一態様は、音声区間検出装置及び音声区間検出方法に関する。

【背景技術】

【0002】

音声通信及び音声認識の分野において、人物（ユーザ）の音声が存在する音声区間を検出する技術が知られている。特許文献１に記載された音声区間検出装置は、映像撮影装置を通じて撮影された映像信号に基づいて、映像フレームで検出された動き領域に唇動き映像特徴情報を適用して唇動き信号を検出する。この音声区間検出装置は、マイク等を介して人物により入力された音信号（音響信号）と、検出した唇動き信号とを用いて音声区間を検出する。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２００７－１５６４９３号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

上記の音声区間検出装置では、映像撮影装置を通じて撮影された映像信号と、入力された音信号とを用いて音声区間を検出する。このため、音信号のみを用いて音声区間を検出する一般的な音声区間検出装置と比較して、上記の音声区間検出装置では、映像処理を行うべく計算量が増大し得る。よって、音声区間の検出における計算量を低減することが求められる。

【0005】

本開示は上記実情に鑑みてなされたものであり、音声区間の検出における計算量を低減することを目的とする。

【課題を解決するための手段】

【0006】

本開示の一態様に係る音声区間検出装置は、音を示す音信号を取得する音信号取得部と、音信号に基づいて、音信号における人物の音声を示す音声信号を検出する音声信号検出部と、映像を示す映像信号を取得する映像信号取得部と、映像信号に基づいて、映像における対象人物に係る事象の有無を判定する映像判定部と、音声信号検出部の検出結果、及び映像判定部の判定結果に基づいて、対象人物の音声の有無を判定する音声判定部と、映像判定部及び音声判定部の判定結果に基づいて、映像信号取得部により取得される映像信号により示される映像の品質を決定する品質決定部と、音声判定部の判定結果に基づいて、音声信号から対象人物の音声区間を検出する音声区間検出部と、を備える。

【0007】

本開示の一態様に係る音声区間検出方法は、音を示す音信号を取得する音信号取得ステップと、音信号に基づいて、音信号における人物の音声を示す音声信号を検出する音声信号検出ステップと、映像を示す映像信号を取得する映像信号取得ステップと、映像信号に基づいて、映像における対象人物に係る事象の有無を判定する映像判定ステップと、音声信号検出ステップの検出結果、及び映像判定ステップの判定結果に基づいて、対象人物の音声の有無を判定する音声判定ステップと、映像判定ステップ及び音声判定ステップの判定結果に基づいて、映像信号取得ステップにより取得される映像信号により示される映像の品質を決定する品質決定ステップと、音声判定ステップの判定結果に基づいて、音声信号から対象人物の音声区間を検出する音声区間検出ステップと、を備える。

【0008】

本開示の一態様に係る音声区間検出装置及び音声区間検出方法では、対象人物に係る事象の有無、及び、対象人物の音声の有無の判定結果に基づいて、取得される映像信号により示される映像の品質を決定する。例えば、対象人物に係る事象として、対象人物の顔等の対象人物に係る対象物の有無が判定される。例えば、対象人物に係る対象物が有ると判定され、且つ、対象人物の音声が有ると判定された場合、対象人物が在席しており、対象人物が発話中である可能性が高い。この場合、対象人物が音声を発し始めるタイミングを検出する必要がないため、映像の品質を高いものとせずとも、適切に音声区間を検出できる。また例えば、対象物が無いと判定された場合、対象人物が離席しており、対象人物の音声が検出されない可能性が高いため、映像の品質を低いものとしても適切に音声区間を検出できる。このように、取得される映像信号により示される映像の品質を対象人物の状況に応じて低下させることができるので、音声区間の検出における計算量を低減できる。

【発明の効果】

【0009】

本開示によれば、音声区間の検出における計算量を低減できる。

【図面の簡単な説明】

【0010】

【図1】実施形態に係る音声区間検出装置を含む音声区間検出システムを示す図である。

【図2】実施形態に係る音声区間検出方法を示すフローチャートである。

【図3】図２に示される映像品質決定処理を示すフローチャートである。

【図4】変形例に係る映像品質決定処理を示すフローチャートである。

【図5】実施形態に係る音声区間検出装置のハードウェア構成を示す図である。

【発明を実施するための形態】

【0011】

以下、添付図面を参照しながら本開示の実施形態を詳細に説明する。図面の説明において、同一又は同等の要素には同一符号を用い、重複する説明を省略する。

【0012】

図１は、実施形態に係る音声区間検出装置１を含む音声区間検出システム１０を示す図である。図１に示されるように、音声区間検出システム１０は、音声区間検出装置１と、音入力装置２と、撮像装置３と、を備える。

【0013】

音声区間検出装置１は、対象人物の音声が存在する音声区間を検出する装置である。対象人物とは、音声区間検出装置１により音声区間を検出される者を言う。音声とは、人物により発せられた声を言う。音声区間とは、音声が存在する区間（時間帯）を言う。音声区間検出装置１は、例えば、ネットワークにより互いに接続された複数の端末を介した対話において用いられる。音声区間検出装置１は、例えば、対象人物を含む複数の人物同士の対話において用いられる。音声区間検出装置１は、例えば、互いに対話を行う複数の人物により用いられる端末の一例であるスマートフォン、携帯電話、タブレット端末、及びパーソナルコンピュータ等に適用される。

【0014】

音入力装置２は、音を取得して、取得した音を示す音信号を音声区間検出装置１に出力する。「音」は、音声、及び音声以外の環境音等の様々な音を含む。音入力装置２は、例えば、人物に含まれる対象人物の端末に搭載されたマイクである。

【0015】

撮像装置３は、映像を取得して、取得した映像を示す映像信号を音声区間検出装置１に出力する。「映像」は、対象人物及び対象人物の背景を含む。撮像装置３は、例えば、対象人物の端末に搭載されたカメラである。

【0016】

次に、実施形態に係る音声区間検出装置１の機能構成を説明する。音声区間検出装置１は、その機能構成として、音信号取得部１１と、音声信号検出部１２と、映像信号取得部１３と、映像判定部１４と、音声判定部１５と、品質決定部１６と、音声区間検出部１７と、を備える。

【0017】

音信号取得部１１は、音入力装置２から出力された音信号を取得する。音信号取得部１１は、取得した音信号を音声信号検出部１２に出力する。音信号取得部１１は、例えば、取得した音信号をデジタル信号に変換し、変換したデジタル信号を音声信号検出部１２に出力してもよい。音信号取得部１１は、音声信号検出部１２に音信号を出力する前に、取得した音信号に対してノイズキャンセリング等の信号処理を行ってもよい。当該信号処理は、音声区間検出装置１の外部において実行されてもよい。

【0018】

本実施形態では、音信号取得部１１は、音信号を継続的に取得する。「継続的」とは、複数の人物が対話を行っている間において連続していることを言う。但し、音信号取得部１１は、音信号を継続的に取得せず、予め設定された適宜のタイミングで断続的に音信号を取得してもよい。

【0019】

音声信号検出部１２は、音信号取得部１１により取得された音信号に基づいて、音信号における人物の音声を示す音声信号を検出する。音声信号検出部１２は、例えば、音信号取得部１１により取得された音信号により示される音が人物の音声であるか否かを判定して、音声信号を検出する。音声信号検出部１２は、公知の手段を用いて音信号により示される音が音声であるか否かを判定してもよい。音声信号検出部１２は、音声信号の検出結果を音声判定部１５に出力する。

【0020】

本実施形態では、音声信号検出部１２は、音声信号を継続的に検出する。但し、音声信号検出部１２は、音声信号を継続的に検出せず、予め設定された適宜のタイミングで断続的に音声信号を検出してもよい。

【0021】

映像信号取得部１３は、撮像装置３から出力された映像信号（映像を示す信号）を取得する。映像信号取得部１３は、品質決定部１６により決定された映像の品質で、映像信号を取得する。

【0022】

映像信号取得部１３は、取得した映像信号を映像判定部１４に出力する。映像信号取得部１３は、例えば、取得した映像信号をデジタル信号に変換し、変換したデジタル信号を映像判定部１４に出力してもよい。映像信号取得部１３は、映像判定部１４に映像信号を出力する前に、取得した映像信号に対して撮像対象のエッジを検出する等の信号処理を行ってもよい。当該信号処理は、音声区間検出装置１の外部において実行されてもよい。

【0023】

映像判定部１４は、映像信号取得部１３により取得された映像信号に基づいて、映像における対象人物に係る事象の有無を判定する。本実施形態では、映像判定部１４は、対象人物に係る対象物の有無を事象の有無として判定する。映像判定部１４は、対象物として対象人物の顔の有無を判定する。映像判定部１４は、例えば、映像信号取得部１３により取得された映像信号により示される映像から対象人物の顔が検出されたか否かを判定して、映像における対象人物の顔の有無を判定してもよい。映像判定部１４は、公知の手段を用いて映像信号により示される映像から対象人物の顔が検出されたか否かを判定してもよい。本実施形態では、映像判定部１４は、対象人物の顔の有無の判定結果を音声判定部１５、及び品質決定部１６に出力する。

【0024】

なお、対象人物に係る対象物は、対象人物の顔に限定されず、例えば対象人物の耳、目、及び肩等であってもよい。また、対象物は、対象人物の身体の一部に限られず、スマートフォン等の対象人物が所有する物であってもよい。

【0025】

本実施形態では、映像判定部１４は、映像信号取得部１３により取得された映像信号、及び対象物の有無の判定結果に基づいて、対象人物の口唇の動作の有無を事象の有無として判定する。本実施形態では、映像判定部１４は、対象人物の顔（対象物）が無いと判定した場合、対象人物の口唇の動作が無いと判定する。映像判定部１４は、対象人物の顔が有ると判定した場合、映像信号により示される映像から対象人物の口唇を検出する。映像判定部１４は、公知の手段を用いて映像信号により示される映像から対象人物の口唇を検出してもよい。

【0026】

本実施形態では、映像判定部１４は、検出した口唇の開き具合が所定以上であるか否かを判定する。映像判定部１４は、映像信号により示される映像から対象人物の顔の長さ（顔の正面から見たときの頭頂部から顎先までの長さ）を検出する。また、映像判定部１４は、映像信号により示される映像から口唇の上端から下端までの距離を検出する。映像判定部１４は、検出した顔の長さに対する口唇の上端から下端までの距離の割合が所定値以上である場合、検出した口唇の開き具合が所定以上であると判定する。その他の場合、映像判定部１４は、検出した口唇の開き具合が所定以上でないと判定する。当該所定値は、例えば予め設定されており、適宜変更可能である。

【0027】

また、映像判定部１４は、検出した口唇の動きが所定以上であるか否かを判定する。映像判定部１４は、検出した顔の長さに対する口唇の上端から下端までの距離の割合の単位時間当たりの変動量が所定値以上である場合、検出した口唇の動きが所定以上であると判定する。その他の場合、映像判定部１４は、検出した口唇の動きが所定以上でないと判定する。当該所定値は、例えば予め設定されており、適宜変更可能である。映像判定部１４は、公知の手段を用いて口唇の開き具合及び動きが所定以上であるか否かを判定してもよい。

【0028】

映像判定部１４は、検出した口唇の開き具合が所定以上であるか、又は、検出した口唇の動きが所定以上であると判定した場合、対象人物の口唇の動作が有ると判定する。映像判定部１４は、その他の場合、対象人物の口唇の動作が無いと判定する。但し、映像判定部１４が対象人物の口唇の動作の有無を判定する方法は、上記説明したものに限られず、適宜変更可能である。映像判定部１４は、口唇の動作の有無の判定結果を音声判定部１５に出力する。

【0029】

音声判定部１５は、音声信号検出部１２の検出結果、及び映像判定部１４の判定結果に基づいて、対象人物の音声の有無を判定する。本実施形態では、音声判定部１５は、音声信号検出部１２の検出結果に加え、映像判定部１４による口唇の動作の有無の判定結果に基づいて、対象人物の音声の有無を判定する。音声判定部１５は、音声信号検出部１２により音声信号が検出され、且つ、映像判定部１４により口唇の動作が有ると判定された場合、対象人物の音声が有ると判定する。音声判定部１５は、音声信号検出部１２により音声信号が検出されない場合、又は、映像判定部１４により口唇の動作が無いと判定された場合、対象人物の音声が無いと判定する。音声判定部１５は、対象人物の音声の有無の判定結果を品質決定部１６及び音声区間検出部１７に出力する。

【0030】

品質決定部１６は、映像品質決定処理を実行する。映像品質決定処理では、品質決定部１６は、映像判定部１４及び音声判定部１５の判定結果に基づいて、映像信号取得部１３により取得される映像信号により示される映像の品質を決定する。「品質」は、例えば、映像のフレームレート、解像度、及び画角の少なくとも１つを含む。本実施形態では、映像の品質は、映像の解像度である。品質決定部１６は、決定した映像の品質を映像信号取得部１３に出力する。

【0031】

以下、品質決定部１６が実行する映像品質決定処理の具体例を説明する。品質決定部１６は、映像判定部１４及び音声判定部１５の判定結果を取得する。品質決定部１６は、映像判定部１４により対象人物の顔が有ると判定され、且つ、音声判定部１５により対象人物の音声が有ると判定された場合、映像の品質を所定の品質である基準品質に決定する。より具体的には、品質決定部１６は、映像の解像度を所定の値である第１の値に決定する。

【0032】

映像判定部１４により対象人物の顔が有ると判定され、且つ、音声判定部１５により対象人物の音声が有ると判定された場合、対象人物が端末の前に存在しており（一例として在席している）、且つ、音声を発している（発話している）可能性が高いと言える。この場合、対象人物が音声を発し始めるタイミングを検出する必要がないため、映像の品質を高いものとせずとも、適切に音声区間を検出できる。

【0033】

品質決定部１６は、映像判定部１４により対象人物の顔が無いと判定された場合、映像の品質を基準品質よりも低い品質である低品質に決定する。より具体的には、品質決定部１６は、映像の解像度を第１の値よりも低い値である第２の値に決定する。

【0034】

映像判定部１４により対象人物の顔が無いと判定された場合、対象人物が端末の前に存在していない（一例として離席している）可能性が高いと言える。この場合、対象人物の音声が検出されない可能性が高いため、映像の品質を低いものとしても、適切に音声区間を検出できる。

【0035】

品質決定部１６は、映像判定部１４により対象人物の顔が有ると判定され、且つ、音声判定部１５により対象人物の音声が無いと判定された場合、映像の品質を基準品質よりも高い高品質に決定する。より具体的には、品質決定部１６は、映像の解像度を第１の値よりも高い値である第３の値に決定する。

【0036】

映像判定部１４により対象人物の顔が有ると判定され、且つ、音声判定部１５により対象人物の音声が無いと判定された場合、対象人物が端末の前に存在しており、且つ、音声を発していない可能性が高いと言える。この場合、映像の品質を高いものとすることで、対象人物が音声を発し始めるタイミングを高精度に検出できる。上記の第１の値、第２の値、及び第３の値は、例えば予め設定されており、適宜変更可能である。

【0037】

音声区間検出部１７は、音声判定部１５の判定結果に基づいて、音声信号検出部１２により検出された音声信号から対象人物の音声区間を検出する。本実施形態では、音声区間検出部１７は、音声信号において、音声判定部１５により対象人物の音声が有ると判定された区間を音声区間として検出する。

【0038】

本実施形態では、音声区間検出部１７は、検出した音声区間を出力する。出力として、例えば、音声区間検出部１７は、音声区間検出装置１の外部の装置に送信してもよく、音声区間検出装置１に含まれる表示装置に表示してもよい。当該外部の装置は、例えば、スマートフォン又はタブレット端末であってもよく、パーソナルコンピュータのディスプレイであってもよい。当該外部の装置は、例えば、音声区間検出装置１と通信可能に構成されている。

【0039】

次に、本実施形態に係る音声区間検出方法（音声区間検出装置１の動作方法を含む）を説明する。図２は、実施形態に係る音声区間検出方法を示すフローチャートである。まず、音入力装置２により対象人物が居る環境で生じた音が取得される。また、撮像装置３により対象人物を撮像することで映像が取得される。

【0040】

続いて、音信号取得部１１により、音入力装置２から出力された音信号が取得される（音信号取得ステップ、ステップＳ１）。ステップＳ１では、取得された音信号が音声信号検出部１２に出力される。ステップＳ１では、例えば、取得された音信号が音声信号検出部１２に出力される前に、音信号に対して信号処理が実行されてもよい。

【0041】

続いて、音声信号検出部１２により、ステップＳ１において取得された音信号に基づいて、音信号における人物の音声を示す音声信号が検出される（音声信号検出ステップ、ステップＳ２）。ステップＳ２では、ステップＳ１において取得された音信号により示される音が人物の音声であるか否か判定され、音声信号が検出される。

【0042】

続いて、映像信号取得部１３により、撮像装置３から出力された映像信号が取得される（映像信号取得ステップ、ステップＳ３）。ステップＳ３では、映像信号取得部１３により、後述するステップＳ７において決定された映像の品質で、映像信号が取得される。ステップＳ３では、映像信号取得部１３により取得された映像の品質に基づいて映像信号が取得される。ステップＳ３では、映像信号取得部１３により、取得された品質の映像を示す映像信号が取得される。

【0043】

ステップＳ３では、例えば、取得された映像信号が映像判定部１４に出力される。ステップＳ３では、例えば、取得された映像信号が映像判定部１４に出力される前に、映像信号に対して信号処理が実行されてもよい。

【0044】

続いて、映像判定部１４により、ステップＳ３において取得された映像信号に基づいて、対象人物に係る事象の有無が判定される（映像判定ステップ、ステップＳ４）。本実施形態では、ステップＳ４では、映像判定部１４により、対象人物に係る対象物の有無が事象の有無として判定される。ステップＳ４では、映像判定部１４により、対象物として対象人物の顔の有無が判定される。ステップＳ４では、例えば、ステップＳ３において取得された映像信号により示される映像から対象人物の顔が検出されたか否かが判定され、映像における対象人物の顔の有無が判定されてもよい。

【0045】

続いて、映像判定部１４により、ステップＳ３において取得された映像信号、及び、ステップＳ４の判定結果に基づいて、対象人物の口唇の動作の有無が事象の有無として判定される（映像判定ステップ、ステップＳ５）。ステップＳ５では、ステップＳ４において対象人物の顔が無いと判定された場合、映像判定部１４により対象人物の口唇の動作が無いと判定される。ステップＳ４において対象人物の顔が有ると判定された場合、映像判定部１４によって、映像信号により示される映像から対象人物の口唇が検出される。この場合、映像判定部１４により検出された口唇の開き具合が所定以上であるか否かが判定される。また、映像判定部１４により検出された口唇の動きが所定以上であるか否かが判定される。映像判定部１４により、口唇の開き具合が所定以上であり、且つ、口唇の動きが所定以上であると判定された場合、対象人物の口唇の動作が有ると判定される。その他の場合、映像判定部１４により、対象人物の口唇の動作が無いと判定される。

【0046】

続いて、音声判定部１５により、ステップＳ２の検出結果、及びステップＳ５の判定結果に基づいて、対象人物の音声の有無が判定される（音声判定ステップ、ステップＳ６）。本実施形態において、ステップＳ６では、ステップＳ２の検出結果に加え、ステップＳ５における口唇の動作の有無の判定結果を更に考慮して、対象人物の音声の有無が判定される。ステップＳ６では、音声判定部１５により、ステップＳ２において音声信号が検出され、且つ、ステップＳ５において口唇の動作が有ると判定された場合、対象人物の音声が有ると判定される。ステップＳ６では、ステップＳ２において音声信号が検出されない場合、又は、ステップＳ５において口唇の動作が無いと判定された場合、対象人物の音声が無いと判定される。

【0047】

続いて、品質決定部１６により、映像品質決定処理が実行される（映像品質決定ステップ、ステップＳ７）。映像品質決定処理では、品質決定部１６により、ステップＳ４及びステップＳ６の判定結果に基づいて、ステップＳ３において映像信号取得部１３により取得される映像信号により示される映像の品質が決定される。ステップＳ７では、品質決定部１６により決定された映像の品質が映像信号取得部１３に出力される。ステップＳ７における映像品質決定処理については、後述する。

【0048】

続いて、音声区間検出部１７により、ステップＳ６の判定結果に基づいて、ステップＳ２において検出された音声信号から対象人物の音声区間が検出される（音声区間検出ステップ、ステップＳ８）。ステップＳ８では、音声区間検出部１７により、音声信号において、ステップＳ６で対象人物の音声が有ると判定された区間が音声区間として検出される。続いて、本実施形態では、音声区間検出部１７により、ステップＳ８において検出された音声区間が出力される。

【0049】

次に、上記のステップＳ７における映像品質決定処理の一例を説明する。図３は、図２に示される映像品質決定処理を示すフローチャートである。映像品質決定処理では、まず、品質決定部１６により、ステップＳ４における映像判定部１４の判定結果が取得される（ステップＳ７１）。ステップＳ４において映像判定部１４により対象人物の顔が無いと判定された場合（ステップＳ７１：ＮＯ）、品質決定部１６により、映像の品質が低品質に決定される（ステップＳ７２）。ステップＳ４において映像判定部１４により対象人物の顔が有ると判定された場合（ステップＳ７１：ＹＥＳ）、品質決定部１６により、ステップＳ７３が実行される。

【0050】

ステップＳ７３では、品質決定部１６により、ステップＳ６における音声判定部１５の判定結果が取得される。ステップＳ６において音声判定部１５により対象人物の音声が無いと判定された場合（ステップＳ７３：ＮＯ）、品質決定部１６により、映像の品質が高品質に決定される（ステップＳ７４）。ステップＳ６において音声判定部１５により対象人物の音声が有ると判定された場合（ステップＳ７３：ＹＥＳ）、品質決定部１６により、映像の品質が基準品質に決定される（ステップＳ７５）。

【0051】

次に、本実施形態に係る音声区間検出装置１及び音声区間検出方法の作用効果を説明する。

【0052】

本実施形態に係る音声区間検出装置１及び音声区間検出方法では、対象人物に係る事象の有無、及び、対象人物の音声の有無の判定結果に基づいて、取得される映像信号により示される映像の品質を決定する。例えば、対象人物に係る事象として、対象人物の顔等の対象人物に係る対象物の有無が判定される。例えば、対象人物に係る対象物が有ると判定され、且つ、対象人物の音声が有ると判定された場合、対象人物が在席しており、対象人物が発話中である可能性が高い。この場合、対象人物が音声を発し始めるタイミングを検出する必要がないため、映像の品質を高いものとせずとも、適切に音声区間を検出できる。また例えば、対象物が無いと判定された場合、対象人物が離席しており、対象人物の音声が検出されない可能性が高いため、映像の品質を低いものとしても適切に音声区間を検出できる。このように、取得される映像信号により示される映像の品質を対象人物の状況に応じて低下させることができるので、音声区間の検出における計算量を低減できる。

【0053】

対象人物の音声が有ると判定された区間（音声区間）では、音声区間に対応する音声信号を例えば音声区間検出装置１の外部の装置に伝送するために電力を要する。例えば、スマートフォン等のバッテリ容量が小さい端末に音声区間検出装置１が適用された場合、消費電力が増大することで不具合を生じる可能性がある。この点で、本実施形態に係る音声区間検出装置１では、音声区間の検出における計算量を低減できるので、音声区間検出装置１が適用された端末の消費電力を抑制することができる。

【0054】

上述した音声区間検出装置１において、映像判定部１４は、対象人物に係る対象物の有無を事象の有無として判定する。品質決定部１６は、映像判定部１４により対象物である顔が有ると判定され、且つ、音声判定部１５により音声が有ると判定された場合、映像の品質を所定の品質である基準品質に決定する。品質決定部１６は、映像判定部１４により顔が無いと判定された場合、映像の品質を基準品質よりも低い品質である低品質に決定する。対象人物の顔が無いと判定された場合、例えば対象人物が離席しており、対象人物の音声区間が存在しない可能性が高いと言える。したがって、取得される映像信号により示される映像の品質を低品質に決定しても、適切に音声区間を検出できる。以上より、音声区間の検出における計算量を低減できる。

【0055】

上述した音声区間検出装置１において、品質決定部１６は、映像判定部１４により顔が有ると判定され、且つ、音声判定部１５により音声が無いと判定された場合、映像の品質を基準品質よりも高い品質である高品質に決定する。対象人物の顔が有ると判定され、且つ、対象人物の音声が無いと判定された場合、例えば対象人物が在席中であり、発話中でない可能性が高いと言える。このとき、取得される映像信号により示される映像の品質を高品質に決定することで、対象人物が音声を発し始めるタイミングを高精度に検出できる。以上より、高精度に音声区間を検出できる。

【0056】

上述した音声区間検出装置１は、映像判定部１４は、映像信号、及び対象物の有無の判定結果に基づいて、対象人物の口唇の動作の有無を事象として判定する。音声判定部１５は、映像判定部１４による口唇の動作の有無の判定結果に基づいて、対象人物の音声の有無を判定する。これにより、人物の音声を示す音声信号が検出されたか否かに加え、対象人物の口唇の動作が有るか否かを考慮して、対象人物の音声の有無を判定できる。以上より、音声区間を一層高精度に検出できる。

【0057】

以上、本開示の実施形態に基づいて詳細に説明した。しかし、本開示は上記実施形態に限定されるものではない。本開示は、その要旨を逸脱しない範囲で様々な変形が可能である。

【0058】

上記実施形態では、音声判定部１５が音声信号検出部１２の検出結果、及び映像判定部１４による対象人物の口唇の動作の有無の判定結果に基づいて、対象人物の音声の有無を判定する例を説明した。しかし、音声判定部１５は、口唇の動作の有無の判定結果を用いることなく、音声信号検出部１２の検出結果、及び映像判定部１４の事象の有無の判定結果に基づいて対象人物の音声の有無を判定すればよい。この場合、映像判定部１４は、対象人物の口唇の動作の有無を判定しなくてもよい。

【0059】

一例として、音声判定部１５は、音声信号検出部１２の検出結果、及び映像判定部１４による対象物の有無の判定結果に基づいて、対象人物の音声の有無を判定してもよい。この場合、音声判定部１５は、音声信号検出部１２により音声信号が検出され、且つ、映像判定部１４により対象物が有ると判定された場合、対象人物の音声が有ると判定してもよい。その他の場合、音声判定部１５は、対象人物の音声が無いと判定してもよい。

【0060】

上記実施形態では、品質決定部１６が映像判定部１４及び音声判定部１５の判定結果に基づいて、映像信号取得部１３により取得される映像信号により示される映像の品質を決定する例を説明した。しかし、品質決定部１６は、映像判定部１４及び音声判定部１５の判定結果に加え、音声信号検出部１２による新たな音声信号の検出結果を更に考慮して、映像の品質を決定してもよい。

【0061】

本変形例では、音信号取得部１１は、音信号を継続的に取得する。音声信号検出部１２は、音信号取得部１１により継続的に取得された音信号に基づいて、音声信号を継続的に検出する。また本変形例では、品質決定部１６は、変形例に係る映像品質決定処理を実行する。変形例に係る映像品質決定処理では、品質決定部１６は、映像判定部１４により対象人物の顔が有ると判定され、且つ、音声判定部１５により対象人物の音声が有ると判定されている場合において、音声信号検出部１２により新たな音声信号が検出されたか否かを判定する。「新たな音声信号」とは、音声判定部１５が判定を行った後、所定時間内に音声信号検出部１２が新たに検出した音声信号を言う。当該所定時間は、例えば予め設定されており、適宜変更可能である。

【0062】

品質決定部１６は、映像判定部１４により対象人物の顔が有ると判定され、且つ、音声判定部１５により対象人物の音声が有ると判定されている場合において、音声信号検出部１２により新たな音声信号が検出された場合、映像の品質を所定の品質である基準品質に決定し、音声信号検出部１２により新たな音声信号が検出されない場合、映像の品質を基準品質よりも高い品質である高品質に決定する。

【0063】

続いて、変形例に係る音声区間検出方法（変形例に係る音声区間検出装置の動作方法を含む）を説明する。変形例に係る音声区間検出方法では、ステップＳ１において、音信号取得部１１により、音信号が継続的に取得される。ステップＳ２において、音声信号検出部１２により、ステップＳ１において音信号取得部１１により継続的に取得された音信号に基づいて、音声信号が継続的に検出される。

【0064】

図４は、変形例に係る映像品質決定処理を示すフローチャートである。変形例に係る映像品質決定処理では、品質決定部１６は、ステップＳ８１～ステップＳ８７を実行する。図４に示すステップＳ８１～ステップＳ８４の処理は、図３に示すステップＳ７１～ステップＳ７４の処理と同一であるため、説明を省略する。

【0065】

ステップＳ６において音声判定部１５により対象人物の音声が有ると判定された場合（ステップＳ８３：ＹＥＳ）、品質決定部１６により、ステップＳ２において音声信号検出部１２により新たな音声信号が検出されたか否かが判定される（ステップＳ８５）。ステップＳ２において音声信号検出部１２により新たな音声信号が検出されなかったと判定された場合（ステップＳ８５：ＮＯ）、品質決定部１６により、映像の品質が高品質に決定される（ステップＳ８６）。ステップＳ２において音声信号検出部１２により新たな音声信号が検出されたと判定された場合（ステップＳ８５：ＹＥＳ）、品質決定部１６により、映像の品質が基準品質に決定される（ステップＳ８７）。

【0066】

本変形例では、音信号取得部１１は、音信号を継続的に取得する。音声信号検出部１２は、継続的に取得された音信号に基づいて、音声信号を継続的に検出する。品質決定部１６は、映像判定部１４により対象人物の顔が有ると判定され、且つ、音声判定部１５により対象人物の音声が有ると判定されている場合において、音声信号検出部１２により新たな音声信号が検出された場合、映像の品質を所定の品質である基準品質に決定し、音声信号検出部１２により新たな音声信号が検出されない場合、映像の品質を基準品質よりも高い品質である高品質に決定する。

【0067】

この場合、対象人物の顔の有無の判定結果、及び対象人物の音声の有無の判定結果に加え、新たな音声信号の検出結果を更に考慮して、映像の品質を決定する。対象人物の顔が有ると判定され、対象人物の音声が有ると判定され、さらに新たな音声信号が検出されない場合、対象人物が発話を終了して、口を開けた状態で音声を発していない可能性が高いと言える。このとき、取得される映像信号により示される映像の品質を高品質に決定することで、対象人物が再び音声を発し始めるタイミングを高精度に検出できる。以上より、一層高精度に音声区間を検出できる。

【0068】

品質決定部１６は、対象人物の端末の計算リソースに基づいて、映像の品質を決定してもよい。端末の計算リソースは、例えば、ＣＰＵ（Central Processing Unit）使用率、メモリ使用率、及び消費電力を含む。この場合、品質決定部１６は、例えば、端末のＣＰＵ使用率が所定値以上となった場合、映像の品質を低品質に決定してもよい。当該所定値は、例えば予め設定されており、適宜変更可能である。この場合でも、音声区間の検出における計算量を低減できる。また、計算リソースが小さい端末に音声区間検出装置１が適用された場合、又は、端末の計算リソースが一時的に小さくなった場合でも、安定して音声区間を検出できる。

【0069】

上記実施形態では、音声区間検出装置１が互いに対話を行う複数の人物により用いられる端末に適用される例を説明した。しかし、音声区間検出装置１が実行する処理の全部又は一部は、当該端末とネットワークを介して接続された外部の装置（一例としてサーバ）において実行されてもよい。

【0070】

本変形例では、一例として、音声区間検出装置１は、音処理部及び映像処理部をさらに備える。音信号取得部１１及び映像信号取得部１３が実行する処理は、上記の端末において実行される。また、音信号取得部１１及び映像信号取得部１３を除く音声区間検出装置１の機能部が実行する処理は、上記の外部の装置において実行される。

【0071】

音信号取得部１１は、取得した音信号をデジタル信号に変換し、変換したデジタル信号を音処理部に出力する。音処理部は、例えば音信号取得部１１から出力されたデジタル信号を取得して、取得したデジタル信号を音声信号検出部１２に出力する。

【0072】

映像信号取得部１３は、取得した映像信号をデジタル信号に変換し、変換したデジタル信号を映像処理部に出力する。映像処理部は、映像信号取得部１３から出力されたデジタル信号を取得する。映像処理部は、例えば音声検出に関わる映像品質を調整するためのデジタル信号処理を実施する。映像処理部は、例えば取得したデジタル信号に対してデジタル信号処理を実施して、品質決定部１６により決定された映像の品質に応じた品質のデジタル信号を取得する。一例として、映像処理部は、受信した映像信号ストリームのフレームレート（品質）を調整する処理を実行する。映像処理部は、品質を調整したデジタル信号を映像判定部１４に出力する。

【0073】

上記の変形例では、音声区間検出装置１が音処理部を備える例を説明したが、音声区間検出装置１は、音処理部を備えていなくてもよい。

【0074】

音声区間検出装置１は、マルチモーダル発話検知機能を有してもよい。音声区間検出装置１は、例えば、検出した音声区間に応じて対象人物の端末の音入力装置２をオン又はオフに切り替えてもよい。より具体的には、音声区間検出装置１は、対象人物の音声区間を検出した場合、対象人物の端末の音入力装置２をオンに切り替え、対象人物の音声区間を検出しない場合、対象人物の端末の音入力装置２をオフに切り替えてもよい。この場合、対象人物が音入力装置２を直接操作する手間が解消される。また、対象人物の発話時以外のノイズが除去され、対話が円滑となる。

【0075】

音声区間検出装置１は、例えば、映像判定部１４の判定結果に基づいて、対象人物と対話を行う人物の端末に対象人物の状況（ステータス）を表示してもよい。「状況」は、例えば、在席中であり対話（一例として雑談）が可能な状態と、離席中であり対話が不可能な状態と、を含む。この場合、音声区間検出装置１は、映像判定部１４により対象人物の顔が有ると判定された場合、対象人物の状況として、対象人物が在席中であり対話が可能な状態であることを対象人物と対話を行う人物の端末に表示してもよい。また、音声区間検出装置１は、映像判定部１４により対象人物の顔が無いと判定された場合、対象人物の状況として、対象人物が離席中であり対話が不可能な状態であることを対象人物と対話を行う人物の端末に表示してもよい。これにより、互いに対話を行う複数の人物は、対話可能な人物を互いに認識することができる。

【0076】

音声区間検出装置１は、例えば、対話に参加している人数を端末に表示してもよい。また、音声区間検出装置１は、例えば、対話可能な残り時間を端末に表示してもよい。この場合、音声区間検出装置１は、例えば予め設定された人物の予定に基づいて、対話可能な残り時間を端末に表示してもよい。より具体的には、音声区間検出装置１は、例えば現在時刻から人物の次の予定の時刻までの時間を、対話可能な残り時間として端末に表示してもよい。この場合、人物が対話し易い雰囲気をつくることができる。

【0077】

なお、上記実施形態の説明に用いたブロック図は、機能単位のブロックを示している。これらの機能ブロック（構成部）は、ハードウェア及びソフトウェアの少なくとも一方の任意の組み合わせによって実現される。また、各機能ブロックの実現方法は特に限定されない。すなわち、各機能ブロックは、物理的又は論理的に結合した１つの装置を用いて実現されてもよいし、物理的又は論理的に分離した２つ以上の装置を直接的又は間接的に（例えば、有線、無線などを用いて）接続し、これら複数の装置を用いて実現されてもよい。機能ブロックは、上記１つの装置又は上記複数の装置にソフトウェアを組み合わせて実現されてもよい。

【0078】

機能には、判断、決定、判定、計算、算出、処理、導出、調査、探索、確認、受信、送信、出力、アクセス、解決、選択、選定、確立、比較、想定、期待、見做し、報知（broadcasting）、通知（notifying）、通信（communicating）、転送（forwarding）、構成（configuring）、再構成（reconfiguring）、割り当て（allocating、mapping）、割り振り（assigning）などがあるが、これらに限られない。たとえば、送信を機能させる機能ブロック（構成部）は、送信部（transmitting unit）や送信機（transmitter）と呼称される。いずれも、上述したとおり、実現方法は特に限定されない。

【0079】

例えば、本開示の一実施の形態における音声区間検出装置１は、本開示の情報処理を行うコンピュータとして機能してもよい。図５は、本開示の一実施の形態に係る音声区間検出装置１のハードウェア構成の一例を示す図である。上述の音声区間検出装置１は、物理的には、プロセッサ１００１、メモリ１００２、ストレージ１００３、通信装置１００４、入力装置１００５、出力装置１００６、バス１００７などを含むコンピュータ装置として構成されてもよい。端末２０のハードウェア構成も、ここで説明するものであってもよい。

【0080】

なお、以下の説明では、「装置」という文言は、回路、デバイス、ユニットなどに読み替えることができる。音声区間検出装置１のハードウェア構成は、図に示した各装置を１つ又は複数含むように構成されてもよいし、一部の装置を含まずに構成されてもよい。

【0081】

音声区間検出装置１における各機能は、プロセッサ１００１、メモリ１００２などのハードウェア上に所定のソフトウェア（プログラム）を読み込ませることによって、プロセッサ１００１が演算を行い、通信装置１００４による通信を制御したり、メモリ１００２及びストレージ１００３におけるデータの読み出し及び書き込みの少なくとも一方を制御したりすることによって実現される。

【0082】

プロセッサ１００１は、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサ１００１は、周辺装置とのインターフェース、制御装置、演算装置、レジスタなどを含む中央処理装置（ＣＰＵ：Central Processing Unit）によって構成されてもよい。例えば、上述の音声区間検出装置１における各機能は、プロセッサ１００１によって実現されてもよい。

【0083】

また、プロセッサ１００１は、プログラム（プログラムコード）、ソフトウェアモジュール、データなどを、ストレージ１００３及び通信装置１００４の少なくとも一方からメモリ１００２に読み出し、これらに従って各種の処理を実行する。プログラムとしては、上述の実施の形態において説明した動作の少なくとも一部をコンピュータに実行させるプログラムが用いられる。例えば、音声区間検出装置１における各機能は、メモリ１００２に格納され、プロセッサ１００１において動作する制御プログラムによって実現されてもよい。上述の各種処理は、１つのプロセッサ１００１によって実行される旨を説明してきたが、２以上のプロセッサ１００１により同時又は逐次に実行されてもよい。プロセッサ１００１は、１以上のチップによって実装されてもよい。なお、プログラムは、電気通信回線を介してネットワークから送信されても良い。

【0084】

メモリ１００２は、コンピュータ読み取り可能な記録媒体であり、例えば、ＲＯＭ（Read Only Memory）、ＥＰＲＯＭ（Erasable Programmable ＲＯＭ）、ＥＥＰＲＯＭ（Electrically Erasable Programmable ＲＯＭ）、ＲＡＭ（Random Access Memory）などの少なくとも１つによって構成されてもよい。メモリ１００２は、レジスタ、キャッシュ、メインメモリ（主記憶装置）などと呼ばれてもよい。メモリ１００２は、本開示の一実施の形態に係る情報処理を実施するために実行可能なプログラム（プログラムコード）、ソフトウェアモジュールなどを保存することができる。

【0085】

ストレージ１００３は、コンピュータ読み取り可能な記録媒体であり、例えば、ＣＤ－ＲＯＭ（Compact Disc ＲＯＭ）などの光ディスク、ハードディスクドライブ、フレキシブルディスク、光磁気ディスク(例えば、コンパクトディスク、デジタル多用途ディスク、Ｂｌｕ－ｒａｙ（登録商標）ディスク)、スマートカード、フラッシュメモリ(例えば、カード、スティック、キードライブ)、フロッピー（登録商標）ディスク、磁気ストリップなどの少なくとも１つによって構成されてもよい。ストレージ１００３は、補助記憶装置と呼ばれてもよい。音声区間検出装置１が備える記憶媒体は、例えば、メモリ１００２及びストレージ１００３の少なくとも一方を含むデータベース、サーバその他の適切な媒体であってもよい。

【0086】

通信装置１００４は、有線ネットワーク及び無線ネットワークの少なくとも一方を介してコンピュータ間の通信を行うためのハードウェア（送受信デバイス）であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュールなどともいう。

【0087】

入力装置１００５は、外部からの入力を受け付ける入力デバイス（例えば、キーボード、マウス、マイクロフォン、スイッチ、ボタン、センサなど）である。出力装置１００６は、外部への出力を実施する出力デバイス（例えば、ディスプレイ、スピーカー、ＬＥＤランプなど）である。なお、入力装置１００５及び出力装置１００６は、一体となった構成（例えば、タッチパネル）であってもよい。

【0088】

また、プロセッサ１００１、メモリ１００２などの各装置は、情報を通信するためのバス１００７によって接続される。バス１００７は、単一のバスを用いて構成されてもよいし、装置間ごとに異なるバスを用いて構成されてもよい。

【0089】

また、音声区間検出装置１は、マイクロプロセッサ、デジタル信号プロセッサ（ＤＳＰ：Digital Signal Processor）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＰＬＤ（Programmable Logic Device）、ＦＰＧＡ（Field Programmable Gate Array）などのハードウェアを含んで構成されてもよく、当該ハードウェアにより、各機能ブロックの一部又は全てが実現されてもよい。例えば、プロセッサ１００１は、これらのハードウェアの少なくとも１つを用いて実装されてもよい。

【0090】

本開示において説明した各態様／実施形態の処理手順、シーケンス、フローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本開示において説明した方法については、例示的な順序を用いて様々なステップの要素を提示しており、提示した特定の順序に限定されない。

【0091】

入出力された情報等は特定の場所（例えば、メモリ）に保存されてもよいし、管理テーブルを用いて管理してもよい。入出力される情報等は、上書き、更新、又は追記され得る。出力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。

【0092】

判定は、１ビットで表される値（０か１か）によって行われてもよいし、真偽値（Boolean：true又はfalse）によって行われてもよいし、数値の比較（例えば、所定の値との比較）によって行われてもよい。

【0093】

本開示において説明した各態様／実施形態は単独で用いてもよいし、組み合わせて用いてもよいし、実行に伴って切り替えて用いてもよい。また、所定の情報の通知（例えば、「Ｘであること」の通知）は、明示的に行うものに限られず、暗黙的（例えば、当該所定の情報の通知を行わない）ことによって行われてもよい。

【0094】

以上、本開示について詳細に説明したが、当業者にとっては、本開示が本開示中に説明した実施形態に限定されるものではないということは明らかである。本開示は、請求の範囲の記載により定まる本開示の趣旨及び範囲を逸脱することなく修正及び変更態様として実施することができる。したがって、本開示の記載は、例示説明を目的とするものであり、本開示に対して何ら制限的な意味を有するものではない。

【0095】

ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。

【0096】

また、ソフトウェア、命令、情報などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、有線技術（同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者回線（ＤＳＬ：Digital Subscriber Line）など）及び無線技術（赤外線、マイクロ波など）の少なくとも一方を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び無線技術の少なくとも一方は、伝送媒体の定義内に含まれる。

【0097】

本開示において使用する「システム」及び「ネットワーク」という用語は、互換的に使用される。

【0098】

また、本開示において説明した情報、パラメータなどは、絶対値を用いて表されてもよいし、所定の値からの相対値を用いて表されてもよいし、対応する別の情報を用いて表されてもよい。

【0099】

本開示で使用する「判断(determining)」、「決定(determining)」という用語は、多種多様な動作を包含する場合がある。「判断」、「決定」は、例えば、判定(judging)、計算(calculating)、算出(computing)、処理(processing)、導出(deriving)、調査(investigating)、探索(looking up、search、inquiry)（例えば、テーブル、データベース又は別のデータ構造での探索）、確認(ascertaining)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、受信(receiving)（例えば、情報を受信すること）、送信(transmitting)(例えば、情報を送信すること)、入力(input)、出力(output)、アクセス(accessing)（例えば、メモリ中のデータにアクセスすること）した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、解決(resolving)、選択(selecting)、選定(choosing)、確立(establishing)、比較(comparing)などした事を「判断」「決定」したとみなす事を含み得る。つまり、「判断」「決定」は、何らかの動作を「判断」「決定」したとみなす事を含み得る。また、「判断（決定）」は、「想定する（assuming）」、「期待する（expecting）」、「みなす（considering）」などで読み替えられてもよい。

【0100】

「接続された(connected)」、「結合された(coupled)」という用語、又はこれらのあらゆる変形は、２又はそれ以上の要素間の直接的又は間接的なあらゆる接続又は結合を意味し、互いに「接続」又は「結合」された２つの要素間に１又はそれ以上の中間要素が存在することを含むことができる。要素間の結合又は接続は、物理的なものであっても、論理的なものであっても、或いはこれらの組み合わせであってもよい。例えば、「接続」は「アクセス」で読み替えられてもよい。本開示で使用する場合、２つの要素は、１又はそれ以上の電線、ケーブル及びプリント電気接続の少なくとも一つを用いて、並びにいくつかの非限定的かつ非包括的な例として、無線周波数領域、マイクロ波領域及び光（可視及び不可視の両方）領域の波長を有する電磁エネルギーなどを用いて、互いに「接続」又は「結合」されると考えることができる。

【0101】

本開示において使用する「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。

【0102】

本開示において使用する「第１の」、「第２の」などの呼称を使用した要素へのいかなる参照も、それらの要素の量又は順序を全般的に限定しない。これらの呼称は、２つ以上の要素間を区別する便利な方法として本開示において使用され得る。したがって、第１及び第２の要素への参照は、２つの要素のみが採用され得ること、又は何らかの形で第１の要素が第２の要素に先行しなければならないことを意味しない。

【0103】

本開示において、「含む（include）」、「含んでいる（including）」及びそれらの変形が使用されている場合、これらの用語は、用語「備える（comprising）」と同様に、包括的であることが意図される。さらに、本開示において使用されている用語「又は（or）」は、排他的論理和ではないことが意図される。

【0104】

本開示において、例えば、英語でのa, an及びtheのように、翻訳により冠詞が追加された場合、本開示は、これらの冠詞の後に続く名詞が複数形であることを含んでもよい。

【0105】

本開示において、「ＡとＢが異なる」という用語は、「ＡとＢが互いに異なる」ことを意味してもよい。なお、当該用語は、「ＡとＢがそれぞれＣと異なる」ことを意味してもよい。「離れる」、「結合される」などの用語も、「異なる」と同様に解釈されてもよい。

【0106】

最後に、本開示に含まれる種々の例示的態様を、以下の［Ｅ１］～［Ｅ６］に記載する。

【0107】

［Ｅ１］
対象人物の音声が存在する音声区間を検出する音声区間検出装置であって、
音を示す音信号を取得する音信号取得部と、
前記音信号に基づいて、前記音信号における人物の音声を示す音声信号を検出する音声信号検出部と、
映像を示す映像信号を取得する映像信号取得部と、
前記映像信号に基づいて、前記映像における前記対象人物に係る事象の有無を判定する映像判定部と、
前記音声信号検出部の検出結果、及び前記映像判定部の判定結果に基づいて、前記対象人物の音声の有無を判定する音声判定部と、
前記映像判定部及び前記音声判定部の判定結果に基づいて、前記映像信号取得部により取得される前記映像信号により示される前記映像の品質を決定する品質決定部と、
前記音声判定部の判定結果に基づいて、前記音声信号から前記対象人物の前記音声区間を検出する音声区間検出部と、を備える、
音声区間検出装置。

【0108】

［Ｅ２］
前記映像判定部は、前記対象人物に係る対象物の有無を前記事象の有無として判定し、
前記品質決定部は、
前記映像判定部により前記対象物が有ると判定され、且つ、前記音声判定部により前記対象人物の前記音声が有ると判定された場合、前記映像の品質を所定の品質である基準品質に決定し、
前記映像判定部により前記対象物が無いと判定された場合、前記映像の品質を前記基準品質よりも低い品質である低品質に決定する、
［Ｅ１］に記載の音声区間検出装置。

【0109】

［Ｅ３］
前記品質決定部は、前記映像判定部により前記対象物が有ると判定され、且つ、前記音声判定部により前記対象人物の前記音声が無いと判定された場合、前記映像の品質を前記基準品質よりも高い品質である高品質に決定する、
［Ｅ２］に記載の音声区間検出装置。

【0110】

［Ｅ４］
前記音信号取得部は、前記音信号を継続的に取得し、
前記音声信号検出部は、継続的に取得された前記音信号に基づいて、前記音声信号を継続的に検出し、
前記品質決定部は、
前記映像判定部により前記対象物が有ると判定され、且つ、前記音声判定部により前記対象人物の前記音声が有ると判定されている場合において、
前記音声信号検出部により新たな前記音声信号が検出された場合、前記映像の品質を所定の品質である基準品質に決定し、
前記音声信号検出部により新たな前記音声信号が検出されない場合、前記映像の品質を前記基準品質よりも高い品質である高品質に決定する、
［Ｅ２］又は［Ｅ３］に記載の音声区間検出装置。
［Ｅ５］
前記映像判定部は、前記映像信号、及び前記対象物の有無の判定結果に基づいて、前記対象人物の口唇の動作の有無を前記事象の有無として判定し、
前記音声判定部は、前記映像判定部による前記口唇の動作の有無の判定結果に基づいて、前記対象人物の前記音声の有無を判定する、
［Ｅ２］～［Ｅ４］のいずれかに記載の音声区間検出装置。
［Ｅ６］
対象人物の音声が存在する音声区間を検出する音声区間検出方法であって、
音を示す音信号を取得する音信号取得ステップと、
前記音信号に基づいて、前記音信号における人物の音声を示す音声信号を検出する音声信号検出ステップと、
映像を示す映像信号を取得する映像信号取得ステップと、
前記映像信号に基づいて、前記映像における前記対象人物に係る事象の有無を判定する映像判定ステップと、
前記音声信号検出ステップの検出結果、及び前記映像判定ステップの判定結果に基づいて、前記対象人物の音声の有無を判定する音声判定ステップと、
前記映像判定ステップ及び前記音声判定ステップの判定結果に基づいて、前記映像信号取得ステップにより取得される前記映像信号により示される前記映像の品質を決定する品質決定ステップと、
前記音声判定ステップの判定結果に基づいて、前記音声信号から前記対象人物の前記音声区間を検出する音声区間検出ステップと、を備える、
音声区間検出方法。

【符号の説明】

【0111】

１…音声区間検出装置、１１…音信号取得部、１２…音声信号検出部、１３…映像信号取得部、１４…映像判定部、１５…音声判定部、１６…品質決定部、１７…音声区間検出部。

【図1】

【図2】

【図3】

【図4】

【図5】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版