IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧 ▶ 株式会社アニモの特許一覧

特許7191760映像情報出力装置、映像情報出力システム、映像情報出力プログラム及び映像情報出力方法
<>
  • 特許-映像情報出力装置、映像情報出力システム、映像情報出力プログラム及び映像情報出力方法 図1
  • 特許-映像情報出力装置、映像情報出力システム、映像情報出力プログラム及び映像情報出力方法 図2
  • 特許-映像情報出力装置、映像情報出力システム、映像情報出力プログラム及び映像情報出力方法 図3
  • 特許-映像情報出力装置、映像情報出力システム、映像情報出力プログラム及び映像情報出力方法 図4
  • 特許-映像情報出力装置、映像情報出力システム、映像情報出力プログラム及び映像情報出力方法 図5
  • 特許-映像情報出力装置、映像情報出力システム、映像情報出力プログラム及び映像情報出力方法 図6
  • 特許-映像情報出力装置、映像情報出力システム、映像情報出力プログラム及び映像情報出力方法 図7
  • 特許-映像情報出力装置、映像情報出力システム、映像情報出力プログラム及び映像情報出力方法 図8
  • 特許-映像情報出力装置、映像情報出力システム、映像情報出力プログラム及び映像情報出力方法 図9
  • 特許-映像情報出力装置、映像情報出力システム、映像情報出力プログラム及び映像情報出力方法 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-12-09
(45)【発行日】2022-12-19
(54)【発明の名称】映像情報出力装置、映像情報出力システム、映像情報出力プログラム及び映像情報出力方法
(51)【国際特許分類】
   H04N 5/91 20060101AFI20221212BHJP
   H04N 21/8549 20110101ALI20221212BHJP
   H04N 21/233 20110101ALI20221212BHJP
   G10L 25/21 20130101ALI20221212BHJP
   G10L 25/18 20130101ALI20221212BHJP
   G10L 25/57 20130101ALI20221212BHJP
   H04N 5/268 20060101ALI20221212BHJP
   H04N 5/262 20060101ALI20221212BHJP
【FI】
H04N5/91
H04N21/8549
H04N21/233
G10L25/21
G10L25/18
G10L25/57
H04N5/268
H04N5/262
【請求項の数】 8
(21)【出願番号】P 2019072544
(22)【出願日】2019-04-05
(65)【公開番号】P2020170980
(43)【公開日】2020-10-15
【審査請求日】2021-12-01
(73)【特許権者】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(73)【特許権者】
【識別番号】595061705
【氏名又は名称】株式会社アニモ
(74)【代理人】
【識別番号】100087480
【弁理士】
【氏名又は名称】片山 修平
(72)【発明者】
【氏名】石井 洸平
(72)【発明者】
【氏名】白石 和男
(72)【発明者】
【氏名】桜井 淳宏
(72)【発明者】
【氏名】佐藤 隆
【審査官】鈴木 隆夫
(56)【参考文献】
【文献】特開2017-017387(JP,A)
【文献】特開2018-170678(JP,A)
【文献】特開2012-070283(JP,A)
【文献】国際公開第2007/039994(WO,A1)
【文献】特開2016-131329(JP,A)
【文献】特開2009-153077(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 5/91-5/956
H04N 21/00-21/858
G10L 19/00-99/00
H04N 5/262-5/28
(57)【特許請求の範囲】
【請求項1】
複数のマイクから音声データを受信する受信部と、
前記複数のマイクに含まれる基準マイクの音声データの音圧レベルが所定の閾値を超えた時刻を基準とする時間帯を特定する特定部と、
前記複数のマイクのうちの少なくとも2つのマイクそれぞれから受信した前記時間帯の音声データから、所定の周波数成分を抽出する抽出部と、
抽出した前記所定の周波数成分に基づいて、1つのマイクを選定するとともに、選定した前記マイクの設置位置に対応する範囲を撮影するカメラを選定する選定部と、
前記時間帯を含む時間の情報と選定した前記カメラの情報とを含む映像情報を出力する出力部と、
を備える映像情報出力装置。
【請求項2】
前記所定の周波数成分は、人の足音に対応する周波数成分であることを特徴とする請求項1に記載の映像情報出力装置。
【請求項3】
前記選定部は、前記所定の周波数成分の音圧レベルの積分値が最も大きいマイクを選定する、ことを特徴とする請求項1又は2に記載の映像情報出力装置。
【請求項4】
前記出力部が出力した前記映像情報を用いて、複数のカメラで撮影された映像を編集する編集部を更に備える請求項1~3のいずれか一項に記載の映像情報出力装置。
【請求項5】
前記特定部は、前記基準マイクの音声データの音圧レベルが所定の閾値を超えた時間が所定時間以上となった場合に、前記所定の閾値を超えた時刻の直前の時間帯を特定する、ことを特徴とする請求項1~4のいずれか一項に記載の映像情報出力装置。
【請求項6】
複数のマイクと、
前記複数のマイクと接続された映像情報出力装置と、を備え、
前記映像情報出力装置は、
前記複数のマイクから音声データを受信する受信部と、
前記複数のマイクに含まれる基準マイクの音声データの音圧レベルが所定の閾値を超えた時刻を基準とする時間帯を特定する特定部と、
前記複数のマイクのうちの少なくとも2つのマイクそれぞれから受信した前記時間帯の音声データから、所定の周波数成分を抽出する抽出部と、
抽出した前記所定の周波数成分に基づいて、1つのマイクを選定するとともに、選定した前記マイクの設置位置に対応する範囲を撮影するカメラを選定する選定部と、
前記時間帯を含む時間の情報と選定した前記カメラの情報とを含む映像情報を出力する出力部と、を有する、
ことを特徴とする映像情報出力システム。
【請求項7】
複数のマイクから音声データを受信し、
前記複数のマイクに含まれる基準マイクの音声データの音圧レベルが所定の閾値を超えた時刻を基準とする時間帯を特定し、
前記複数のマイクのうちの少なくとも2つのマイクそれぞれから受信した前記時間帯の音声データから、所定の周波数成分を抽出し、
抽出した前記所定の周波数成分に基づいて、1つのマイクを選定するとともに、選定した前記マイクの設置位置に対応する範囲を撮影するカメラを選定し、
前記時間帯を含む時間の情報と選定した前記カメラの情報とを含む映像情報を出力する、
処理をコンピュータに実行させるための映像情報出力プログラム。
【請求項8】
複数のマイクから音声データを受信し、
前記複数のマイクに含まれる基準マイクの音声データの音圧レベルが所定の閾値を超えた時刻を基準とする時間帯を特定し、
前記複数のマイクのうちの少なくとも2つのマイクそれぞれから受信した前記時間帯の音声データから、所定の周波数成分を抽出し、
抽出した前記所定の周波数成分に基づいて、1つのマイクを選定するとともに、選定した前記マイクの設置位置に対応する範囲を撮影するカメラを選定し、
前記時間帯を含む時間の情報と選定した前記カメラの情報とを含む映像情報を出力する、
処理をコンピュータが実行することを特徴とする映像情報出力方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、映像情報出力装置、映像情報出力システム、映像情報出力プログラム及び映像情報出力方法に関する。
【背景技術】
【0002】
従来、動画像データを編集し、ダイジェストを生成する技術が各種提案されている。例えば、動画像データから所定期間ごとに所定時間分の画像データを抽出し、画像データの中の動きの大きい部分を抽出し、ダイジェストを生成する方法が知られている。また、動画像データを複数のシーンに分割して各シーンを評価し、評価結果に基づいてシーンを選択して編集する技術も知られている(例えば、特許文献1等参照)。また、音声映像信号からダイジェストシーンを選択して再生する技術として、音声信号のパワー値が所定条件を満たす盛り上がり時点を含む所定時間内の音声映像信号をダイジェストシーンとする技術が知られている(例えば、特許文献2等参照)。
【0003】
更に、複数の監視カメラと複数のマイクを有する映像監視システムにおいて、マイクが異常音等を検出した場合に、該マイクに対応する監視カメラの映像情報を記録する技術が知られている(例えば、特許文献3等参照)。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2002-142189号公報
【文献】特開2007-267351号公報
【文献】特開2008-219227号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
例えばスポーツを複数のカメラで撮影する場合には、歓声をあげている観客がいる位置と、歓声のきっかけとなったプレーが行われている位置とがかけ離れている場合がある。この場合、上記特許文献3のように、盛り上がりの音を検出したマイクに対応するカメラの映像をスポーツのダイジェストとして記録してしまうと、適切なダイジェスト映像を生成することができないおそれがある。
【0006】
1つの側面では、本発明は、ダイジェスト映像の生成に用いることが可能な映像情報を出力する映像情報出力装置、映像情報出力システム、映像情報出力プログラム及び映像情報出力方法を提供することを目的とする。
【課題を解決するための手段】
【0007】
一つの態様では、映像情報出力装置は、複数のマイクから音声データを受信する受信部と、前記複数のマイクに含まれる基準マイクの音声データの音圧レベルが所定の閾値を超えた時刻を基準とする時間帯を特定する特定部と、前記複数のマイクのうちの少なくとも2つのマイクそれぞれから受信した前記時間帯の音声データから、所定の周波数成分を抽出する抽出部と、抽出した前記所定の周波数成分に基づいて、1つのマイクを選定するとともに、選定した前記マイクの設置位置に対応する範囲を撮影するカメラを選定する選定部と、前記時間帯を含む時間の情報と選定した前記カメラの情報とを含む映像情報を出力する出力部と、を備えている。
【発明の効果】
【0008】
ダイジェスト映像の生成に用いることが可能な映像情報を出力することができる。
【図面の簡単な説明】
【0009】
図1】一実施形態に係る情報処理システムの構成を概略的に示す図である。
図2図1の情報処理装置のハードウェア構成を示す図である。
図3図1の情報処理装置の機能ブロック図である。
図4】歓声時間特定部の処理を示すフローチャートである。
図5図5(a)は、基準マイクの音声データの一例を示す図であり、図5(b)は、歓声時間DBのデータ構造を示す図である。
図6】フィルタリング部、カメラ選定部及び出力部の処理を示すフローチャートである。
図7図6のステップS50の処理を説明するための図である。
図8図8(a)~図8(d)は、図6のステップS52の処理を説明するための図である。
図9】ダイジェスト情報DBのデータ構造を示す図である。
図10図10(a)は、比較例を示す図であり、図10(b)は、一実施形態の作用効果について説明するための図である。
【発明を実施するための形態】
【0010】
以下、一実施形態について、図1図10に基づいて詳細に説明する。
【0011】
図1には、映像情報出力システムの一実施形態である、情報処理システム100の構成が概略的に示されている。本実施形態の情報処理システム100は、例えば室内のフットサルコートで行われるフットサルの試合を複数のビデオカメラで撮影し、撮影後の映像ファイル(映像データ及び音声データを含む)からダイジェストシーンを抽出してダイジェスト映像を編集するシステムである。
【0012】
図1に示すように、情報処理システム100は、映像情報出力装置としての情報処理装置10と、ビデオカメラ14A、14Bと、基準マイク12と、を備える。情報処理装置10と、ビデオカメラ14A、14B及び基準マイク12とは、PoE(Power over Ethernet(登録商標)) HUBやL2SW(layer 2 switch)を介して接続されている。
【0013】
ビデオカメラ14A、14Bは、例えば、図1に示すようにフットサルコートの隅部に設置されており、各ビデオカメラ14A、14Bの画角は固定されているものとする。本実施形態では、各ビデオカメラ14A、14Bは、設置位置の近傍を撮影する。すなわち、図1において破線で示すように、一方のビデオカメラ14Aは、フットサルコートの左半分側を主に撮影し、他方のビデオカメラ14Bは、フットサルコートの右半分側を主に撮影する。ここで、内蔵マイク13A、13Bの集音範囲は、各マイクの周辺となっている。このため、内蔵マイク13Aとビデオカメラ14Aの撮影範囲とは対応しており、内蔵マイク13Bとビデオカメラ14Bの撮影範囲とは対応していると言える。ビデオカメラ14A、14Bは、撮影した映像データと、内蔵マイク(13A、13B)により取得した音声データと、を例えばmkvファイルなどの映像ファイルの形式で情報処理装置10に対して送信する。
【0014】
基準マイク12は、フットサルコートのセンターライン近傍に設置されており、室内(フットサルコートの周辺)の音声データを取得し、情報処理装置10に対して送信する。
【0015】
情報処理装置10は、ビデオカメラ14A、14Bと基準マイク12から送信されてくる映像データや音声データに基づいて、ダイジェスト映像を編集する。
【0016】
図2には、情報処理装置10のハードウェア構成が示されている。図2に示すように、情報処理装置10は、CPU(Central Processing Unit)90、ROM(Read Only Memory)92、RAM(Random Access Memory)94、記憶部(ここではHDD(Hard Disk Drive))96、ネットワークインタフェース97、表示部93、入力部95、及び可搬型記憶媒体用ドライブ99等を備えている。表示部93は液晶ディスプレイ等を含み、入力部95は、キーボードやマウス、タッチパネル等を含む。これら情報処理装置10の構成各部は、バス98に接続されている。情報処理装置10では、ROM92あるいはHDD96に格納されているプログラム(映像情報出力プログラムを含む)、或いは可搬型記憶媒体用ドライブ99が可搬型記憶媒体91から読み取ったプログラム(映像情報出力プログラムを含む)をCPU90が実行することにより、図3に示す各部の機能が実現されている。なお、図3の各部の機能は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現されてもよい。
【0017】
図3には、情報処理装置10の機能ブロック図が示されている。図3に示すように、情報処理装置10は、CPU90がプログラムを実行することにより、ダイジェスト情報生成・出力部15、及び編集部50として機能する。ダイジェスト情報生成・出力部15は、ビデオカメラ14A、14Bや、基準マイク12から送信されてくる映像データと音声データから、ダイジェストシーンとすべき映像データ及び音声データの情報(ダイジェスト情報)を生成し、編集部50に対して出力する。編集部50は、ダイジェスト情報生成・出力部15から出力されたダイジェスト情報に基づいてダイジェスト映像を編集する。
【0018】
ここで、ダイジェスト情報生成・出力部15は、図3に示すように、受信部20、切出し処理部22、歓声時間特定部24、抽出部としてのフィルタリング部26、選定部としてのカメラ選定部28、及び出力部30を有する。
【0019】
受信部20は、ビデオカメラ14A、14Bや、基準マイク12から送信されてくる映像データと音声データを受信し、映像・音声DB40に格納する。
【0020】
切出し処理部22は、例えば、ユーザ等が試合の開始時刻と終了時刻を指定して編集開始指示を入力した場合に、映像・音声DB40に格納されている映像データと音声データから、試合中の映像データと音声データとを切り出す処理を実行する。切出し処理部22は、切出した映像データと音声データとを切出し映像・音声DB42に格納する。
【0021】
歓声時間特定部24は、切出し映像・音声DB42に格納された基準マイク12の音声データを用いて、歓声があった時間帯を特定する。
【0022】
フィルタリング部26は、歓声があった時間帯の前の所定時間(例えば3秒間)において内蔵マイク13A、13Bが取得した音声データを切出し映像・音声DB42から取得する。そして、フィルタリング部26は、取得した音声データそれぞれをバンドパスフィルタにかけ、所定の周波数成分のみを抽出する。
【0023】
カメラ選定部28は、フィルタリング部26が抽出した所定の周波数成分の積分値が最も大きい内蔵マイクを選定し、選定した内蔵マイクに対応するビデオカメラを選定する。カメラ選定部28は、選定したビデオカメラの情報と、歓声があった時間帯とその前の所定時間(例えば3秒間)を含む時間帯(ダイジェスト時間)の情報とをダイジェスト情報DB46に格納する。
【0024】
出力部30は、ダイジェスト情報DB46に格納されている情報(ダイジェスト情報)を編集部50に対して出力する。
【0025】
なお、本実施形態では、歓声時間特定部24とフィルタリング部26とにより、基準マイク12の音声データの音圧が閾値を超えた時刻(歓声開始時刻)を基準とする時間帯を特定する特定部としての機能が実現されている。
【0026】
(ダイジェスト情報生成・出力部15の処理について)
次に、図4図6のフローチャートに沿って、その他図面を適宜参照しつつ、ダイジェスト情報生成・出力部15の具体的な処理について詳細に説明する。
【0027】
図4の処理について)
図4の処理は、ユーザが、入力部95を介して、フットサルの試合開始時刻と試合終了時刻を指定して、編集開始指示を入力した場合に歓声時間特定部24が実行する処理である。なお、図4の処理が開始される段階では、既にフットサルの試合が終了しているものとする。また、受信部20は、ユーザがフットサルコートを利用している間にビデオカメラ14A、14Bから得られた映像ファイルと、基準マイク12から得られた音声データを受信して、映像・音声DB40に格納しているものとする。更に、切出し処理部22は、ユーザによって指定された試合開始時刻と試合終了時刻に基づいて、試合中の映像データと音声データを切り出し、切出し映像・音声DB42に格納しているものとする。
【0028】
図4の処理では、まず、ステップS10において、歓声時間特定部24が、基準マイク12の音声データを切出し映像・音声DB42から取得する。例えば、歓声時間特定部24は、図5(a)に示すような音声データを取得したものとする。
【0029】
次いで、ステップS12では、歓声時間特定部24が、取得した音声データの初期時刻の音圧(音圧レベル)を取得する。次いで、ステップS14では、歓声時間特定部24が、取得した音圧が15dB以上か否かを判断する。このステップS14の判断が否定された場合には、ステップS28に移行する。ステップS28では、歓声時間特定部24が、音声データの末尾であるか否かを判断する。このステップS28の判断が否定された場合には、ステップS30に移行し、歓声時間特定部24は、t秒後(例えば10ms後)の音圧を取得した後、ステップS14に戻る。
【0030】
一方、ステップS14の判断が肯定された場合、すなわち取得した音圧が15dB以上であった場合には、ステップS16に移行し、歓声時間特定部24は、歓声開始時刻を歓声時間DB44に記憶する。ここで、歓声時間DB44は、図5(b)に示すようなデータ構造を有している。具体的には、歓声時間DB44には、歓声時間の情報(歓声開始時刻と歓声終了時刻)を格納することができる。したがって、ステップS16では、歓声時間特定部24は、歓声開始時刻の欄に取得した音圧に対応する時刻(年月日時分秒ミリ秒)を記憶する。なお、この時点では、記憶した歓声開始時刻に対応する歓声終了時刻は記憶されていない(空欄である)ものとする。
【0031】
次いで、ステップS18では、歓声時間特定部24が、t秒後の音圧を取得する。そして、次のステップS20では、歓声時間特定部24が、音圧が15dB未満か否かを判断する。このステップS20の判断が否定されている間、すなわち、音圧が15dB以上である間は、ステップS18、S20(否定)を繰り返す。一方、ステップS20の判断が肯定された場合、すなわち、音圧が15dB未満となった場合には、ステップS22に移行する。
【0032】
ステップS22に移行すると、歓声時間特定部24は、歓声開始時刻からの経過時間が300ms以上であるか否かを判断する。このステップS22の判断が肯定された場合、すなわち図5(a)の範囲Aのように、15dB以上の音圧が300ms以上続いた場合には、歓声があったことを意味する。この場合、歓声時間特定部24は、ステップS24に移行し、ステップS16で歓声時間DB44に記憶した歓声開始時刻に対応する歓声終了時刻として、直前にステップS18で取得した音圧に対応する時刻(年月日時分秒ミリ秒)を記憶する。その後は、ステップS28に移行する。
【0033】
一方、ステップS22の判断が否定された場合、すなわち図5(a)の範囲Bのように15dB以上の音圧が300ms以上続かなかった場合には、歓声が無かったことを意味する。この場合、歓声時間特定部24は、ステップS26に移行し、ステップS16で歓声時間DB44に記憶した歓声開始時刻を削除して、ステップS28に移行する。
【0034】
その後は、ステップS28の判断が肯定されるまで、上述した処理を繰り返し実行し、ステップS28の判断が肯定された段階で、図4の全処理を終了する。図4の全処理が終了した段階では、試合中において発生した全ての歓声の情報(歓声時間)が歓声時間DB44に格納されることになる。これを例示したものが図5(b)の各エントリである。
【0035】
図6の処理について)
次に、図6の処理について説明する。図6の処理は、フィルタリング部26、カメラ選定部28及び出力部30が、図4の処理が完了した後に実行する処理である。
【0036】
図6の処理では、まず、ステップS50において、フィルタリング部26が、歓声時間DB44に格納されている歓声開始時刻を1つ選択し、その直前の3秒間を特定する。例えば、図7に示す範囲Aの先頭の歓声開始時刻を選択した場合には、その直前の3秒間を特定する。
【0037】
次いで、ステップS52では、フィルタリング部26が、全ビデオカメラに対応する内蔵マイクから特定した3秒間に得られた音声データに対して、周波数フィルタリング処理を実行する。例えば、フィルタリング部26は、フットサルを行う人の足音(シューズ音)の周波数帯域が3~4kHzである場合に、当該周波数帯域を通過させるバンドパスフィルタに対して音声データを通す。
【0038】
例えば、内蔵マイク13A、13Bの上記3秒間の音声データが図8(a)、図8(c)に示すようなデータであったとする。この場合、図8(a)の内蔵マイク13Aの音声データは、バンドパスフィルタに通すことで、図8(b)に示すような3~4kHzの周波数成分のみの音声データとなる。また、図8(c)の内蔵マイク13Bの音声データは、バンドパスフィルタに通すことで、図8(d)に示すような3~4kHzの周波数成分のみの音声データとなる。
【0039】
次いで、ステップS54では、カメラ選定部28が、各内蔵マイク13A、13Bの、フィルタリング後の3秒間の音声データの音圧を積分する。すなわち、カメラ選定部28は、図8(b)と図8(d)のグラフの面積を求めることとなる。
【0040】
次いで、ステップS56では、カメラ選定部28が、積分値が最も大きい内蔵マイクを選定するとともに、選定した内蔵マイクに対応する範囲を撮影するビデオカメラを選定し、ダイジェスト開始時刻及びダイジェスト終了時刻とともにダイジェスト情報DB46に記憶する。なお、足音に対応する周波数成分の積分値が最も大きい内蔵マイクは、歓声のきっかけとなったプレーが行われた位置に最も近い内蔵マイクであると考えられる。したがって、足音に対応する周波数成分の積分値が最も大きい内蔵マイクに対応する範囲を撮影するビデオカメラは、歓声のきっかけとなったプレーを撮影していたと考えられる。
【0041】
図9には、ダイジェスト情報DB46のデータ構造が示されている。図9に示すように、ダイジェスト情報DB46は、カメラID、ダイジェスト開始時刻、ダイジェスト終了時刻の各フィールドを有する。このダイジェスト情報DB46には、どのビデオカメラに撮影されたどの時間帯の映像がダイジェストシーンであるかを示す情報が格納されることになる。
【0042】
例えば、図8(b)、図8(d)の場合、積分値は、図8(b)の内蔵マイク13Aの方が大きい。このため、カメラ選定部28は、内蔵マイク13Aに対応するビデオカメラ14Aを選定する。そして、カメラ選定部28は、ビデオカメラ14AのカメラID(「A」とする)と、ダイジェスト開始時刻(歓声開始時刻の3秒前の時刻)と、ダイジェスト終了時刻(歓声終了時刻と同時刻)と、をダイジェスト情報DB46に記憶する。
【0043】
図6に戻り、次のステップS58では、カメラ選定部28が、全ての歓声開始時刻を選択し終えたか否かを判断する。換言すると、図5(b)の全てのエントリに対しての処理が終わったかを判断する。このステップS58の判断が否定された場合には、ステップS50に戻り、ステップS50~S58の処理・判断を繰り返し実行する。一方、ステップS58の判断が肯定された場合には、ステップS60に移行し、出力部30は、ダイジェスト情報DB46に記憶されている情報(ダイジェスト情報)を編集部50に対して出力する。なお、出力部30は、ダイジェスト情報DB46に記憶されている情報をcsvファイルなどの形式で編集部50に対して出力する。
【0044】
ダイジェスト情報生成・出力部15が以上のような処理を実行することにより、図9に示すようなダイジェスト情報DB46に記憶されているダイジェスト情報が編集部50に対して出力される。このため、編集部50は、ダイジェスト情報に基づいて、切出し映像・音声DB42からダイジェストシーンを切り出すことで、歓声のきっかけとなったプレーが撮影された適切なダイジェスト映像を自動的に生成することができる。
【0045】
ここで、比較例として、カメラ選定部28が、内蔵マイク13A、13Bのうち音圧が大きい方の内蔵マイクを選定するとともに、選定した内蔵マイクに対応する範囲を撮影するビデオカメラの映像をダイジェスト映像とする場合について説明する。この例において、図10(a)に示すように、フットサルコートの左側のゴールにシュートが決まったときに、フットサルコートの右側に存在する観客が歓声をあげたとする。この場合、比較例では、歓声をあげた観客に近い側のビデオカメラ14Bの映像がダイジェスト映像となってしまうため、歓声があがるきっかけとなったゴールシーンが含まれない映像がダイジェスト映像となるおそれがある。これに対し、本実施形態では、カメラ選定部28が、足音の周波数成分の積分値が大きい内蔵マイク13Aを選定するとともに、選定した内蔵マイク13Aに対応する範囲を撮影するビデオカメラ14Aを選定するため、図10(b)に示すように歓声のきっかけとなったシーンを撮影した映像をダイジェスト映像とすることができる。
【0046】
以上、詳細に説明したように、本実施形態によると、歓声時間特定部24は、基準マイク12の音声データの音圧が15dBを超えた時刻(歓声開始時刻)を特定し、フィルタリング部26は歓声開始時刻の前の3秒間を特定する。また、フィルタリング部26は、特定した3秒間に内蔵マイク13A、13Bから受信した音声データから足音の周波数成分を抽出する。また、カメラ選定部28は、抽出した周波数成分に基づいて内蔵マイクの1つを選定するとともに、選定した内蔵マイクの設置位置に対応する範囲を撮影するビデオカメラを選定する。そして、出力部30は、選定されたビデオカメラの情報を含むダイジェスト情報を編集部50に対して出力する。これにより、本実施形態では、フットサルなどの試合を撮影した映像からダイジェスト映像を生成するのに用いることが可能な適切な情報を出力することができる。したがって、編集部50は、ダイジェスト情報を用いることで、適切なダイジェスト情報を生成することが可能である。
【0047】
また、本実施形態では、カメラ選定部28は、内蔵マイク13A、13Bそれぞれの足音に対応する周波数成分の積分値を求め、積分値が最も大きい内蔵マイクを選定するとともに、選定したマイクに対応するビデオカメラを選定する。これにより、歓声の直前に歓声のきっかけとなったプレーを撮影したビデオカメラを適切に選定することが可能である。
【0048】
また、本実施形態では、基準マイク12の音声データの音圧が所定の閾値(例えば15dB)を超えた時間が所定時間(例えば300ms)以上となった場合に、歓声があったと判断するので、歓声の有無を適切に判断することができる。
【0049】
なお、上記実施形態では、情報処理装置10が編集部50を有する場合について説明したが、これに限られるものではない。例えば、情報処理装置10の出力部30は、ダイジェスト情報を表示部93上に出力(表示)することとしてもよい。この場合、ユーザは、ダイジェスト情報を参照しながらダイジェスト映像を編集することができるため、ユーザの作業負担を軽減することが可能となる。また、情報処理装置10の出力部30は、他の装置(端末等)にダイジェスト情報を出力するようにしてもよい。この場合、他の装置がダイジェスト情報に基づいてダイジェスト映像を自動的に編集してもよいし、他の装置のユーザがダイジェスト情報を参照しながらダイジェスト映像を編集することとしてもよい。なお、情報処理装置10が表示部93や他の装置にダイジェスト情報を出力する場合には、情報処理装置10は、ビデオカメラ14A、14Bから映像データを受信(取得)しなくてもよい。
【0050】
なお、上記実施形態では、基準マイク12が1つである場合について説明したが、これに限らず、基準マイクが複数あってもよい。この場合、複数の基準マイクの各時刻における音圧を合計して、閾値と比較してもよいし、複数の基準マイクの各時刻における音圧を平均して、閾値と比較してもよい。また、例えば、基準マイク12を用意せずに、複数の内蔵マイクの少なくとも1つを基準マイク12の代わりに用いることとしてもよい。複数の内蔵マイクを基準マイクとする場合には、前述と同様、複数の基準マイクの各時刻における音圧を合計して、閾値と比較してもよいし、複数の基準マイクの各時刻における音圧を平均して、閾値と比較してもよい。
【0051】
なお、上記実施形態では、ビデオカメラの撮影範囲がビデオカメラの近傍でない場合もある。例えば、図1のビデオカメラ14Aが図1のフットサルコートの右側を望遠で撮影し、ビデオカメラ14Bがコートの左側を望遠で撮影する場合もある。このような場合には、どの内蔵マイクの集音範囲とどのビデオカメラの撮影範囲とが対応するかを示すテーブルを用意しておく。そして、カメラ選定部28は、ステップS56において、用意しておいたテーブルを参照して、積分値が最も大きい内蔵マイクに対応するビデオカメラを選定するようにすればよい。
【0052】
なお、上記実施形態では、足音に対応する周波数を3~4kHzとし、音声データから当該周波数成分を抽出する場合について説明したが、これに限られるものではない。スポーツの種類や場所などに合わせて、抽出する周波数成分を変更してもよい。例えば、剣道であれば竹刀の音に対応する周波数成分、柔道であれば足と畳がこすれる音に対応する周波数成分などを抽出するようにすればよい。また、歓声の有無の判定に用いる音圧の閾値(15dB)や経過時間の閾値(300ms)についても、スポーツの種類や場所などに合わせて、その他の値に変更してもよい。
【0053】
なお、上記実施形態では、フィルタリング部26は、歓声開始時刻を基準とする時間帯を特定する際に、歓声開始時刻の前の3秒間を特定する場合について説明したが、これに限られるものではない。歓声開始時刻を基準とする時間帯の長さは3秒間以外であってもよい。また、フィルタリング部26は、歓声開始時刻の後の時間帯や、歓声開始時刻の前後の時間帯を特定することとしてもよい。
【0054】
なお、上記実施形態では、カメラ選定部28は、音声データの所定の周波数成分の積分値に基づいて、内蔵マイク及びこれに対応するビデオカメラを選定する場合について説明したが、これに限られるものではない。例えば、カメラ選定部28は、音声データの所定の周波数成分において、所定の音圧(例えば15dB)を超えるピークの数が最も多い内蔵マイク及びこれに対応するビデオカメラを選定してもよい。また、カメラ選定部28は、その他の方法により内蔵マイク及びこれに対応するビデオカメラを選定することとしてもよい。
【0055】
なお、上記実施形態では、フットサルコート近傍にビデオカメラを2台設置した場合について説明したが、これに限らず、ビデオカメラは3台以上設置されてもよい。
【0056】
なお、上記の処理機能は、コンピュータによって実現することができる。その場合、処理装置が有すべき機能の処理内容を記述したプログラムが提供される。そのプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体(ただし、搬送波は除く)に記録しておくことができる。
【0057】
プログラムを流通させる場合には、例えば、そのプログラムが記録されたDVD(Digital Versatile Disc)、CD-ROM(Compact Disc Read Only Memory)などの可搬型記録媒体の形態で販売される。また、プログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することもできる。
【0058】
プログラムを実行するコンピュータは、例えば、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、自己の記憶装置に格納する。そして、コンピュータは、自己の記憶装置からプログラムを読み取り、プログラムに従った処理を実行する。なお、コンピュータは、可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することもできる。また、コンピュータは、サーバコンピュータからプログラムが転送されるごとに、逐次、受け取ったプログラムに従った処理を実行することもできる。
【0059】
上述した実施形態は本発明の好適な実施の例である。但し、これに限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変形実施可能である。
【0060】
なお、以上の実施形態の説明に関して、更に以下の付記を開示する。
(付記1) 複数のマイクから音声データを受信する受信部と、
前記複数のマイクに含まれる基準マイクの音声データの音圧レベルが所定の閾値を超えた時刻を基準とする時間帯を特定する特定部と、
前記複数のマイクのうちの少なくとも2つのマイクそれぞれから受信した前記時間帯の音声データから、所定の周波数成分を抽出する抽出部と、
抽出した前記所定の周波数成分に基づいて、1つのマイクを選定するとともに、選定した前記マイクの設置位置に対応する範囲を撮影するカメラを選定する選定部と、
前記時間帯を含む時間の情報と選定した前記カメラの情報とを含む映像情報を出力する出力部と、
を備える映像情報出力装置。
(付記2) 前記所定の周波数成分は、人の足音に対応する周波数成分であることを特徴とする付記1に記載の映像情報出力装置。
(付記3) 前記選定部は、前記所定の周波数成分の音圧レベルの積分値が最も大きいマイクを選定する、ことを特徴とする付記1又は2に記載の映像情報出力装置。
(付記4) 前記出力部が出力した前記映像情報を用いて、複数のカメラで撮影された映像を編集する編集部を更に備える付記1~3のいずれかに記載の映像情報出力装置。
(付記5) 前記特定部は、前記基準マイクの音声データの音圧レベルが所定の閾値を超えた時間が所定時間以上となった場合に、前記所定の閾値を超えた時刻の直前の時間帯を特定する、ことを特徴とする付記1~4のいずれかに記載の映像情報出力装置。
(付記6) 複数のマイクと、
前記複数のマイクと接続された映像情報出力装置と、を備え、
前記映像情報出力装置は、
前記複数のマイクから音声データを受信する受信部と、
前記複数のマイクに含まれる基準マイクの音声データの音圧レベルが所定の閾値を超えた時刻を基準とする時間帯を特定する特定部と、
前記複数のマイクのうちの少なくとも2つのマイクそれぞれから受信した前記時間帯の音声データから、所定の周波数成分を抽出する抽出部と、
抽出した前記所定の周波数成分に基づいて、1つのマイクを選定するとともに、選定した前記マイクの設置位置に対応する範囲を撮影するカメラを選定する選定部と、
前記時間帯を含む時間の情報と選定した前記カメラの情報とを含む映像情報を出力する出力部と、を有する、
ことを特徴とする映像情報出力システム。
(付記7) 複数のマイクから音声データを受信し、
前記複数のマイクに含まれる基準マイクの音声データの音圧レベルが所定の閾値を超えた時刻を基準とする時間帯を特定し、
前記複数のマイクのうちの少なくとも2つのマイクそれぞれから受信した前記時間帯の音声データから、所定の周波数成分を抽出し、
抽出した前記所定の周波数成分に基づいて、1つのマイクを選定するとともに、選定した前記マイクの設置位置に対応する範囲を撮影するカメラを選定し、
前記時間帯を含む時間の情報と選定した前記カメラの情報とを含む映像情報を出力する、
処理をコンピュータに実行させるための映像情報出力プログラム。
(付記8) 前記所定の周波数成分は、人の足音に対応する周波数成分であることを特徴とする付記7に記載の映像情報出力プログラム。
(付記9) 前記選定する処理では、前記所定の周波数成分の音圧レベルの積分値が最も大きいマイクを選定する、ことを特徴とする付記7又は8に記載の映像情報出力プログラム。
(付記10) 前記出力する処理で出力した前記映像情報を用いて、複数のカメラで撮影された映像を編集する処理を前記コンピュータに更に実行させる付記7~9のいずれかに記載の映像情報出力プログラム。
(付記11) 前記特定する処理では、前記基準マイクの音声データの音圧レベルが所定の閾値を超えた時間が所定時間以上となった場合に、前記所定の閾値を超えた時刻の直前の時間帯を特定する、ことを特徴とする付記7~10のいずれかに記載の映像情報出力プログラム。
(付記12) 複数のマイクから音声データを受信し、
前記複数のマイクに含まれる基準マイクの音声データの音圧レベルが所定の閾値を超えた時刻を基準とする時間帯を特定し、
前記複数のマイクのうちの少なくとも2つのマイクそれぞれから受信した前記時間帯の音声データから、所定の周波数成分を抽出し、
抽出した前記所定の周波数成分に基づいて、1つのマイクを選定するとともに、選定した前記マイクの設置位置に対応する範囲を撮影するカメラを選定し、
前記時間帯を含む時間の情報と選定した前記カメラの情報とを含む映像情報を出力する、
処理をコンピュータが実行することを特徴とする映像情報出力方法。
【符号の説明】
【0061】
10 情報処理装置(映像情報出力装置)
12 基準マイク(マイク)
13A、13B 内蔵マイク(マイク)
14A、14B ビデオカメラ(カメラ)
20 受信部
24 歓声時間特定部(特定部の一部)
26 フィルタリング部(特定部の一部、抽出部)
28 カメラ選定部(選定部)
30 出力部
50 編集部
100 映像情報出力システム(情報処理システム)
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10