(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024165819
(43)【公開日】2024-11-28
(54)【発明の名称】情報処理システム、情報処理方法及びプログラム
(51)【国際特許分類】
H04R 23/00 20060101AFI20241121BHJP
G01H 3/00 20060101ALI20241121BHJP
G01H 9/00 20060101ALI20241121BHJP
【FI】
H04R23/00 320
G01H3/00 Z
G01H9/00 D
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2023082342
(22)【出願日】2023-05-18
【国等の委託研究の成果に係る記載事項】(出願人による申告)平成31年度、国立研究開発法人科学技術振興機構、戦略的創造研究推進事業「波動とデジタルファブリケーションを組み合わせた知能化技術」委託研究、産業技術力強化法第17条の適用を受ける特許出願
(71)【出願人】
【識別番号】504171134
【氏名又は名称】国立大学法人 筑波大学
(74)【代理人】
【識別番号】100165179
【弁理士】
【氏名又は名称】田▲崎▼ 聡
(74)【代理人】
【識別番号】100188558
【弁理士】
【氏名又は名称】飯田 雅人
(74)【代理人】
【識別番号】100175824
【弁理士】
【氏名又は名称】小林 淳一
(74)【代理人】
【識別番号】100152272
【弁理士】
【氏名又は名称】川越 雄一郎
(74)【代理人】
【識別番号】100181722
【弁理士】
【氏名又は名称】春田 洋孝
(72)【発明者】
【氏名】落合 陽一
(72)【発明者】
【氏名】丹羽 遼吾
(72)【発明者】
【氏名】伏見 龍樹
【テーマコード(参考)】
2G064
5D021
【Fターム(参考)】
2G064AA16
2G064AB01
2G064AB02
2G064AB13
2G064BA08
2G064BC02
2G064BC22
2G064CC02
5D021DD04
(57)【要約】
【課題】音を復元することができる情報処理システム、情報処理方法及びプログラムを提供すること。
【解決手段】情報処理システムは、振動しているターゲットを撮影したイベントデータを複数受け付ける受付部と、受付部が受け付けた複数のイベントデータに基づいて、複数の画素の各々に発生しているイベントの数を計数し、複数の画素の各々に発生しているイベントの数の計数結果に基づいて、第1数個の画素を抽出する抽出部と、抽出部が抽出した第1数個の画素に基づいて、第1数個の画素の各々について、局所反応を作成する作成部と、第1数個の画素の各々について作成部が作成した局所反応に基づいて局所振幅及び局所位相を導出し、局所反応と局所振幅と局所位相とガウシアンカーネルから空間的にぼかされた位相信号を導出する導出部と、導出部が導出した空間的にぼかされた位相信号に基づいて音を復元する復元部とを備える
【選択図】
図1
【特許請求の範囲】
【請求項1】
振動しているターゲットを撮影したイベントデータを複数受け付ける受付部と、
前記受付部が受け付けた複数の前記イベントデータに基づいて、複数の画素の各々に発生しているイベントの数を計数し、複数の画素の各々に発生しているイベントの数の計数結果に基づいて、第1数個の画素を抽出する抽出部と、
前記抽出部が抽出した第1数個の前記画素に基づいて、第1数個の前記画素の各々について、局所反応を作成する作成部と、
第1数個の前記画素の各々について前記作成部が作成した前記局所反応に基づいて局所振幅及び局所位相を導出し、前記局所反応と前記局所振幅と前記局所位相とガウシアンカーネルから空間的にぼかされた位相信号を導出する導出部と、
前記導出部が導出した空間的にぼかされた前記位相信号に基づいて音を復元する復元部と
を備える、情報処理システム。
【請求項2】
前記第1数は、前記受付部が受け付けた複数のイベントデータに基づいてイベントが発生しているとされた画素の数未満である、請求項1に記載の情報処理システム。
【請求項3】
前記抽出部は、複数の画素の各々に発生しているイベントの数の計数結果に基づいて、発生しているイベントの数が多い方から第1数個の画素を抽出する、請求項1に記載の情報処理システム。
【請求項4】
前記ターゲットが振動している方向を検出する検出部
をさらに備え、
前記作成部は、前記検出部か検出した前記ターゲットが振動している前記方向の局所反応を作成する、請求項1に記載の情報処理システム。
【請求項5】
前記ターゲットが振動している方向を入力する入力部
をさらに備え、
前記作成部は、前記入力部が入力した前記ターゲットが振動している前記方向の局所反応を作成する、請求項1に記載の情報処理システム。
【請求項6】
前記復元部は、前記第1数個の空間的にぼかされた前記位相信号から構成される行列の次元を削減する、請求項1に記載の情報処理システム。
【請求項7】
前記復元部は、前記第1数個の空間的にぼかされた前記位相信号から構成される行列の次元を削減した結果を、独立した信号に分割する、請求項5に記載の情報処理システム。
【請求項8】
前記復元部は、独立した信号に分割した結果を時間ベクトルに再構成する、請求項7に記載の情報処理システム。
【請求項9】
振動しているターゲットを撮影したイベントデータを複数受け付けるステップと、
前記受け付けるステップで受け付けた複数の前記イベントデータに基づいて、複数の画素の各々に発生しているイベントの数を計数し、複数の画素の各々に発生しているイベントの数の計数結果に基づいて、第1数個の画素を抽出するステップと、
前記抽出するステップで抽出した第1数個の前記画素に基づいて、第1数個の前記画素の各々について、局所反応を作成するステップと、
第1数個の前記画素の各々について前記局所反応を作成するステップで作成した前記局所反応に基づいて局所振幅及び局所位相を導出し、前記局所反応と前記局所振幅と前記局所位相とガウシアンカーネルから空間的にぼかされた位相信号を導出するステップと、
前記導出するステップで導出した空間的にぼかされた前記位相信号に基づいて音を復元するステップと
を有する、情報処理システムが実行する情報処理方法。
【請求項10】
コンピュータに、
振動しているターゲットを撮影したイベントデータを複数受け付けるステップと、
前記受け付けるステップで受け付けた複数の前記イベントデータに基づいて、複数の画素の各々に発生しているイベントの数を計数し、複数の画素の各々に発生しているイベントの数の計数結果に基づいて、第1数個の画素を抽出するステップと、
前記抽出するステップで抽出した第1数個の前記画素に基づいて、第1数個の前記画素の各々について、局所反応を作成するステップと、
第1数個の前記画素の各々について前記局所反応を作成するステップで作成した前記局所反応に基づいて局所振幅及び局所位相を導出し、前記局所反応と前記局所振幅と前記局所位相とガウシアンカーネルから空間的にぼかされた位相信号を導出するステップと、
前記導出するステップで導出した空間的にぼかされた前記位相信号に基づいて音を復元するステップと
を実行させる、プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、情報処理システム、情報処理方法及びプログラムに関する。
【背景技術】
【0002】
ビジュアルマイクロフォンとは、物体の微細な振動をカメラで撮影し画像処理を行うことで物体の振動、すなわち物体が発する音や物体周辺の音をマイクなしで記録する(例えば非特許文献1参照)。物体の振動から音を取得するため、通常のマイクと比べて非常に鋭い指向性と遠方からの音の記録が可能である。
物体の振動から音を取得する技術に関して、イベントカメラを用いたものが知られている(例えば非特許文献2参照)。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】Abe Davis; Michael Rubinstein; Neal Wadhwa; Gautham J. Mysore; Fr´edo Durand; and William T. Freeman,“The Visual Microphone: Passive Recovery of Sound from Video”, July 2014, Article No.: 79, pp 1-10
【非特許文献2】Charles Dorn; Sudeep Dasari; Yongchao Yang; A.M.ASCE; Charles Farrar; Garrett Kenyon; Paul Welch; and David Mascarenas,“Efficient Full-Field Vibration Measurements and Operational Modal Analysis Using Neuromorphic Event-Based Imaging”, J. Eng. Mech., 2018, 144(7)
【発明の概要】
【発明が解決しようとする課題】
【0004】
ビジュアルマイクロフォン、例えばハイスピードカメラを使用したものは記録できる音の周波数帯域が狭く、必要な装置が高価であり、計算コストが高い。レーザー光を用いたものは安全性が懸念される。
イベントカメラを用いたものは、物体の明るさの変化を記録することで振動が撮影される。イベントカメラは、従来のカメラと比較して、扱うデータ量が小さく、高速撮影、高速データ伝送が可能であり、装置も安価である。ただし、イベントカメラを用いた場合に、計算コストをさらに低くできる余地がある。
【0005】
本発明の目的は、音を復元することができる情報処理システム、情報処理方法及びプログラムを提供することである。
【課題を解決するための手段】
【0006】
本発明の一実施形態は、振動しているターゲットを撮影したイベントデータを複数受け付ける受付部と、前記受付部が受け付けた複数の前記イベントデータに基づいて、複数の画素の各々に発生しているイベントの数を計数し、複数の画素の各々に発生しているイベントの数の計数結果に基づいて、第1数個の画素を抽出する抽出部と、前記抽出部が抽出した第1数個の前記画素に基づいて、第1数個の前記画素の各々について、局所反応を作成する作成部と、第1数個の前記画素の各々について前記作成部が作成した前記局所反応に基づいて局所振幅及び局所位相を導出し、前記局所反応と前記局所振幅と前記局所位相とガウシアンカーネルとから空間的にぼかされた位相信号を導出する導出部と、前記導出部が導出した空間的にぼかされた前記位相信号に基づいて音を復元する復元部とを備える、情報処理システムである。
【0007】
本発明の一実施形態は、前述の情報処理システムにおいて、前記第1数は、前記受付部が受け付けた複数のイベントデータでイベントが発生しているとされる画素の数未満である。
【0008】
本発明の一実施形態は、前述の情報処理システムにおいて、前記抽出部は、複数の画素の各々に発生しているイベントの数の計数結果に基づいて、発生しているイベントの数が多い方から第1数個の画素を抽出する。
【0009】
本発明の一実施形態は、前述の情報処理システムにおいて、前記ターゲットが振動している方向を検出する検出部をさらに備え、前記作成部は、前記検出部が検出した前記ターゲットの局所反応を作成する。
【0010】
本発明の一実施形態は、前述の情報処理システムにおいて、前記ターゲットが振動している方向を入力する入力部をさらに備え、前記作成部は、前記入力部が入力した前記ターゲットの局所反応を作成する。
【0011】
本発明の一実施形態は、前述の情報処理システムにおいて、前記復元部は、前記導出部が導出した第1数個の空間的にぼかされた前記位相信号から構成される行列の次元を削減する。
【0012】
本発明の一実施形態は、前述の情報処理システムにおいて、前記復元部は、前記第1数個の空間的にぼかされた前記位相信号から構成される行列の次元を削減した結果を、独立した信号に分割する。
【0013】
本発明の一実施形態は、前述の情報処理システムにおいて、前記復元部は、独立した信号に分割した結果を時間ベクトルに再構成する。
【0014】
本発明の一実施形態は、振動しているターゲットを撮影したイベントデータを複数受け付けるステップと、前記受け付けるステップで受け付けた複数の前記イベントデータに基づいて、複数の画素の各々に発生しているイベントの数を計数し、複数の画素の各々に発生しているイベントの数の計数結果に基づいて、第1数個の画素を抽出するステップと、前記抽出するステップで抽出した第1数個の前記画素に基づいて、第1数個の前記画素の各々について、局所反応を作成するステップと、第1数個の前記画素の各々について前記局所反応を作成するステップで作成した前記局所反応に基づいて局所振幅及び局所位相を導出し、前記局所反応と前記局所振幅と前記局所位相とガウシアンカーネルとから空間的にぼかされた位相信号を導出するステップと、前記導出するステップで導出した空間的にぼかされた前記位相信号に基づいて音を復元するステップとを有する、情報処理システムが実行する情報処理方法である。
【0015】
本発明の一実施形態は、コンピュータに、振動しているターゲットを撮影したイベントデータを複数受け付けるステップと、前記受け付けるステップで受け付けた複数の前記イベントデータに基づいて、複数の画素の各々に発生しているイベントの数を計数し、複数の画素の各々に発生しているイベントの数の計数結果に基づいて、第1数個の画素を抽出するステップと、前記抽出するステップで抽出した第1数個の前記画素に基づいて、第1数個の前記画素の各々について、局所反応を作成するステップと、第1数個の前記画素の各々について前記局所反応を作成するステップで作成した前記局所反応に基づいて局所振幅及び局所位相を導出し、前記局所反応と前記局所振幅と前記局所位相とガウシアンカーネルとから空間的にぼかされた位相信号を導出するステップと、前記導出するステップで導出した空間的にぼかされた前記位相信号に基づいて音を復元するステップとを実行させる、プログラムである。
【発明の効果】
【0016】
本発明の実施形態によれば、音を復元することができる情報処理システム、情報処理方法及びプログラムを提供することができる。
【図面の簡単な説明】
【0017】
【
図1】本発明の実施形態の情報処理システム10の構成例を示す図である。
【
図4】本実施形態に係る情報処理システム10の処理の一例を説明するための図である。
【
図5A】本実施形態に係る情報処理システム10の処理の一例を示す図である。
【
図5B】本実施形態に係る情報処理システム10の処理の一例を示す図である。
【
図5C】本実施形態に係る情報処理システム10の処理の一例を示す図である。
【
図6】本実施形態の情報処理システムの動作の一例を示すフローチャートである。
【
図7】本実施形態の情報処理システム10aの構成例を示す図である。
【発明を実施するための形態】
【0018】
次に、本実施形態の情報処理システム、情報処理方法及びプログラムを、図面を参照しつつ説明する。以下で説明する実施形態は一例に過ぎず、本発明が適用される実施形態は、以下の実施形態に限られない。
なお、実施形態を説明するための全図において、同一の機能を有するものは同一符号を用い、繰り返しの説明は省略する。
また、本願でいう「XXに基づく」とは、「少なくともXXに基づく」ことを意味し、XXに加えて別の要素に基づく場合も含む。また、「XXに基づく」とは、XXを直接に用いる場合に限定されず、XXに対して演算や加工が行われたものに基づく場合も含む。「XX」は、任意の要素(例えば、任意の情報)である。
【0019】
(実施形態)
(情報処理システム)
図1は、本発明の実施形態の情報処理システム10の構成例を示す図である。情報処理システム10には、振動しているターゲットを撮影したイベントデータDが複数入力される。情報処理システム10は、入力された複数のイベントデータDを受け付ける。例えば、情報処理システム10には、イベントカメラECが撮影することによって得られたイベントデータDが複数入力される。複数のイベントデータDの一例は、イベントデータDの時系列データである。
【0020】
イベントカメラECは、画素に一定以上の輝度の変化が起こった場合に、その画素座標と時刻と極性とを含むイベントデータDを出力する。画素座標は、閾値以上輝度が変化したイベントカメラECの画素の縦横二次元位置を、座標値により規定する。極性値は、閾値以上に輝度が変化した増減の方向を、二値により規定する。このようにイベントデータDでは、イベントが生じた画素座標における輝度変化の増減方向が、一対の極性値により表される。
【0021】
ターゲットは、例えばギターGUの弦のように振動して音を発している物体、環境音などによって微細に振動している物体である。本実施形態では、一例として、ターゲットがギターGUの弦のように振動して音を発している物体である場合について説明を続ける。
【0022】
情報処理システム10は、ターゲットが振動している向きを示す情報を受け付ける。本実施形態では、一例として、ユーザーが、ターゲットが振動している向きを入力部に入力する場合について説明を続ける。例えば、ギターGUの弦が振動している向きに応じて、振動している向きが入力されてもよい。ターゲットが振動している向きは、角度によって表されてもよい。例えば、水平面などのある面を基準として、ターゲットが振動している角度が表されてもよい。角度の一例は、0度、45度、90度などである。
【0023】
情報処理システム10は、受け付けた複数のイベントデータDに基づいて、複数の画素の各々に発生しているイベントの数を計数する。例えば、情報処理システム10は、所定の期間(時間)の間に受け付けた複数のイベントデータDに基づいて、複数の画素の各々に発生しているイベントの数を計数する。情報処理システム10は、複数の画素から、発生しているイベントの数が多い方から第1数個の画素(以下「アクティブ画素」という)を抽出する。ここで、第1数は、受け付けた複数のイベントデータDに基づいてイベントが発生しているとされた画素の数未満である。第1数は、予め設定されていてもよいし、入力するように構成してもよい。
【0024】
情報処理システム10は、第1数個のアクティブ画素の各々について、局所反応Rを作成する。情報処理システム10は、第1数個のアクティブ画素の各々について作成した局所反応Rに基づいて局所振幅A及び局所位相Φを導出する。情報処理システム10は、導出した局所反応Rと局所振幅Aと局所位相Φとガウシアンカーネルとから、空間的にぼかされた位相信号を導出する。
【0025】
これによって、情報処理システム10は、アクティブ画素の周りの局所領域において、方向毎に空間的にぼかされた位相信号を導出できる。例えば、情報処理システム10は、そのアクティブ画素とそのアクティブ画素の周辺の8個の画素とを含む領域について空間的にぼかされた位相信号を導出するようにしてもよいし、そのアクティブ画素とそのアクティブ画素の周辺の24個の画素とを含む領域について空間的にぼかされた位相信号を導出するようにしてもよいし、そのアクティブ画素とそのアクティブ画素の周辺の24個の画素よりも多い画素とを含む領域について空間的にぼかされた位相信号を導出するようにしてもよい。アクティブ画素の周辺の画素の数は、予め設定されていてもよいし、入力するように構成してもよい。
【0026】
情報処理システム10は、導出した空間的にぼかされた位相信号に基づいて音を復元する。例えば、情報処理システム10は、導出した空間的にぼかされた位相信号から行列δを構成し、構成した行列δに基づいて音を復元する。情報処理システム10は、第1数個のアクティブ画素の各々について導出した空間的にぼかされた位相信号から構成される行列δに対して主成分分析(principal component analysis; PCA)を行い、上位第1成分から第4成分のいずれかのみ抜き出す。
本実施形態では、一例として、情報処理システム10が、上位第2成分のみ抜き出す場合について説明を続ける。情報処理システム10は、抜き出した上位第2数成分個の信号に対してブラインド信号源分離(blind source separation; BSS)を行うことでいくつかの信号へ分離し、それらを線型結合することで音を復元する。以下、情報処理システム10について詳細に説明する。
【0027】
情報処理システム10は、パーソナルコンピュータ、サーバ、スマートフォン、タブレットコンピュータ又は産業用コンピュータ等の装置によって実現される。情報処理システム10は、例えば、入力部11と、受付部12と、抽出部13と、作成部14と、導出部15と、復元部16と、出力部17と、記憶部18とを備える。
【0028】
入力部11は、情報を入力する。一例として、入力部11は、キーボードおよびマウスなどの操作部を有してもよい。この場合、入力部11は、ユーザーによって当該操作部に対して行われる操作に応じた情報を入力する。他の例として、入力部11は、外部の装置から情報を入力してもよい。当該外部の装置は、例えば、可搬な記憶媒体であってもよい。
【0029】
入力部11には、振動しているターゲットを撮影したイベントデータDが複数入力される。複数のイベントデータDの一例は、イベントデータDの時系列データである。ターゲットの一例は、ギターGUの弦のように振動して音を発している物体である。
図2は、イベントデータの取得例を示す図である。ギターGUの弦を振動させることで音が発生する。イベントカメラECはギターGU(の弦)を撮影することで、画素に一定以上の輝度の変化が起こった場合に、イベントデータDを出力する。
【0030】
図3は、イベントデータDの一例を示す図である。
図3は、ギターGUの弦を振動させたときにイベントカメラECが出力するイベントデータDの一例を模式的に示す。
図3には、ギターGUのサウンドホールの部分も描かれている。
図3によれば、振動で輝度の変化が起こった部分が白色のハッチング又はドットのハッチングで示されている。
具体的には、ギターGUの6本の弦の部分が白色のハッチング又はドットのハッチングで示されている。イベントカメラECは、白色のハッチング又はドットのハッチングで示される部分の画素について、イベントデータDを出力する。
図1に戻り説明を続ける。
また、入力部11には、ターゲットが振動している向きを示す情報が入力される。ターゲットが振動している向きを示す情報の一例は、ある基準に対してターゲットが振動している角度である。ここで、ある基準は予め設定されていてもよいし、入力するように構成してもよい。
【0031】
受付部12は、入力部11に入力された複数のイベントデータDと、ターゲットが振動している向きを示す情報とを受け付ける。受付部12は、受け付けた複数のイベントデータDを、記憶部18に記憶させる。
【0032】
抽出部13は、受付部12が受け付けた複数のイベントデータDを取得する。抽出部13は、取得した複数のイベントデータDに基づいて、複数の画素の各々に発生しているイベントの数を計数する。抽出部13は、複数の画素から、発生しているイベントの数が多い方から第1数個のアクティブ画素を抽出する。第1数の一例は、1000から2000である。第1数の数を多くすることによって、音の復元精度を向上できる。また、第1数の一例は、1000未満であってもよいし、2000を超えてもよい。
【0033】
例えば、小さな後方時間ウィンドウに渡って各画素に蓄積されたイベントデータの数を、S(x,y,t)で表すと、式(1)が成り立つ。抽出部13は、式(1)に基づいて、S(x,y,t)を導出する。
【数1】
式(1)において、e(x,y,t)はイベントデータDを示す。つまり、e(x,y,t)は、(x,y)で表される画素座標について時刻tでイベントが発生しているか否かを示す。イベントが発生している場合には1であり、それ以外は零である。そのウィンドウの間はシーンが一定であると仮定する。このため、Δtが映像の動きのタイムスケールに対して小さいことが重要である。
【0034】
作成部14は、抽出部13から第1数個のアクティブ画素を取得する。作成部14は、受付部12からターゲットが振動している向きを示す情報を取得する。作成部14は、取得した第1数個のアクティブ画素に基づいて局所反応Rを作成する。作成部14は、運動の方向に対応する単一の空間スケールを効率的に使用する。単一スケールのガボールフィルタGωoは、各イベントを囲む空間近傍のS(x,y,t)に空間ドメインで局所的に適用される。
【数2】
【0035】
各イベントに対して、式(2)は、イベントが発生した場所を中心としたn×n(nは、n>0の整数)空間近傍で評価される式(1)で定義された関数である。ガボールフィルタGωoに対する式(4)で表される局所反応Rは、イベントによって引き起こされる局所振幅A及び局所位相φを計算するために使用される。イベントの発生は、そのイベントを中心としたn×n空間近傍の位相にのみ影響を与える。
【数3】
【0036】
導出部15は、作成部14から局所反応Rを取得する。導出部15は、取得した局所反応Rに基づいて局所振幅Aを、A=|R|から導出し、局所位相φを、φ=angle(R)から導出する。
導出部15は、各イベントを囲む空間近傍に畳み込みをかけることで、映像全体を通して各ピクセルでの位相信号を再構成する。しかし、イベントカメラECの測定値には無視できない量のセンサーノイズが含まれている。導出部15は、ノイズを低減するために、振幅で重み付けしたガウスぼかしをフィルタ応答に適用してもよい。空間的にぼかされた位相信号(重みづけされた局所位相)は、式(5)で表される。
【0037】
^φ=(Aφ*Kρ)/(A*Kρ) (5)
本実施形態では、標準偏差ρ=8ピクセルとなる式(6)で表されるガウシアンカーネルを使用した。
【数4】
【0038】
図4は、本実施形態に係る情報処理システム10の処理の一例を説明するための図である。
図4には、アクティブ画素とそのアクティブ画素の周辺の画素とを含む領域について、空間的にぼかされた位相信号を導出する処理を示す。
図4には、一例として、アクティブ画像とそのアクティブ画素の周辺の80個の画素とを含む領域について、ターゲットが振動している向きに空間的にぼかされた位相信号を導出する場合について説明する。白色から黒の割合が多くなるにしたがって、値が小さくなる。
【0039】
図4によれば、アクティブ画素とそのアクティブ画素の周辺の画素とを含む領域について、アクティブ画素からそのアクティブ画素の周辺の画素に向かうにしたがって空間的にぼかされているのが分かる。アクティブ画素の領域での値が高くアクティブ画素の周辺の画素の領域での値が次第に低くなる。
【0040】
復元部16は、導出部15から第1数個のアクティブ画素の各々について作成した空間的にぼかされた位相信号の時系列データを取得する。復元部16は、取得した第1数個のアクティブ画素の各々について抽出した空間的にぼかされた位相信号の時系列データから、各画素(x=i,y=j)における非同期時間位相信号φ
ij(t)を取得する。復元部16は、取得した複数の非同期位相信号φ
ij(t)を並べることによって、行列δを作成する。復元部16は、空間的にぼかされた位相信号から構成される行列δに対して主成分分析を行い、上位第2数の成分のみを取り出して足し合わせることで、式(7)で表される行列δを導出する。
【数5】
【0041】
式(7)において、U=[u1,u2,u3,・・・,uN]は、N×Nの行列である。式(8)で示される対角混合行列(N>Tとする)は、対角線に沿ってT個ずつ減少する特異値σiを持つ。左右の特異ベクトルの行列は、式(9)及び式(10)で表される。
【数6】
【数7】
【数8】
【0042】
位相信号δのランクは非ゼロの特異値の数rであり、アクティブな振動モードはr≒n個の主成分によって捉えられる。したがって、復元部16は、PCAを行うことによって空間的にぼかされた位相信号からなる行列δを少数の主成分に線形射影することにより、空間次元を大幅に削減できる。Uのうち、上位r個の成分を抜き出したものをU*
rとすると、主成分は式(11)で表される。復元部16は、この時の行列δの各行成分を復元音としてもよい。
【0043】
【0044】
ここで、式(12)はUの最初の列r(<<N)であり、式(13)の第i行は空間的にぼかされた位相信号からなる行列δの第i主成分である。一般的な構造では、主成分はモード座標の混合物であり、結合を解くためにさらなる処理が必要である。
復元部16は、PCAで得られた混合モード応答を分離するために、BSSを使用する。BSSは機械学習の一種を用いるものもあり、混合信号を独立した信号に分割するものである。主成分は式(14)で表されるモード座標の線形結合として表すことができる。
PCAとBSSはある時間における位相信号の独立性を強制するので、復元部16は、不均一な(非同期の)位相信号を均一な時間ベクトル上に再構成する。
【数12】
【0045】
出力部17は、復元部16から不均一な位相信号を時間ベクトル上に再構成した再構成信号を取得する。出力部17は、取得した再構成信号を出力する。
【0046】
図5Aは、本実施形態に係る情報処理システムの処理の一例を示す図である。
図5Aは、復元部16が取得する空間的にぼかされた位相信号の一例を示す。
図5Aによれば、波形が乱れていることが分かる。
【0047】
図5Bは、本実施形態に係る情報処理システムの処理の一例を示す図である。
図5Bは、復元部16によって、空間的にぼかされた位相信号からなる行列δに主成分分析を行うことによって次元を削減し、次元を削減した位相信号にBSSによって混合信号を独立した信号に分割した結果を示す。
図5Bによれば、
図5Aと比較して、波形の乱れが低減していることが分かる。
【0048】
図5Cは、本実施形態に係る情報処理システムの処理の一例を示す図である。
図5Cは、再構成信号の一例を示す。
図5Cによれば、不均一な位相信号が均一な時間ベクトル上に再構成されている。
記憶部18は、HDD(Hard Disk Drive)やフラッシュメモリ、RAM(Random Access Memory)、ROM(Read Only Memory)などにより実現され、情報を記憶する。記憶部18は、受付部12が出力した複数のイベントデータDを記憶する。
【0049】
入力部11、受付部12、抽出部13、作成部14、導出部15、復元部16、出力部17は、例えば、CPU(Central Processing Unit)などのハードウェアプロセッサが記憶部18に格納されたコンピュータプログラム(ソフトウェア)を実行することにより実現される。
【0050】
また、これらの機能部のうち一部または全部は、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)などのハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアとの協働によって実現されてもよい。
【0051】
コンピュータプログラムは、予めHDD(Hard Disk Drive)やフラッシュメモリなどの記憶装置に格納されていてもよいし、DVD(Digital Versatile Disc)やCD-ROMなどの着脱可能な記憶媒体に格納されており、記憶媒体がドライブ装置に装着されることでインストールされてもよい。
【0052】
(情報処理システム10の動作)
図6は、本実施形態の情報処理システムの動作の一例を示すフローチャートである。
図6を参照して、複数のイベントデータD及びターゲットが振動している向きを示す情報が情報処理システム10に入力された後の動作について説明する。
(ステップS1)
入力部11に、振動しているターゲットを撮影したイベントデータDが複数入力される。
【0053】
(ステップS2)
入力部11には、ターゲットが振動している向きを示す情報が入力される。
(ステップS3)
受付部12は、入力部11に入力された複数のイベントデータDと、ターゲットが振動している向きを示す情報とを受け付ける。受付部12は、受け付けた複数のイベントデータDを、記憶部18に記憶させる。
【0054】
(ステップS4)
抽出部13は、受付部12が受け付けた複数のイベントデータDを取得する。抽出部13は、取得した複数のイベントデータDに基づいて、複数の画素の各々に発生しているイベントの数を計数する。抽出部13は、複数の画素から、発生しているイベントの数が多い方から第1数個のアクティブ画素を抽出する。
【0055】
(ステップS5)
作成部14は、抽出部13から第1数個のアクティブ画素を取得する。作成部14は、受付部12からターゲットが振動している向きを示す情報を取得する。作成部14は、取得した第1数個のアクティブ画素を用いて局所反応Rを作成する。
【0056】
(ステップS6)
導出部15は、作成部14から局所反応Rを取得する。導出部15は、取得した局所反応Rに基づいて局所振幅A及び局所位相φを導出する。導出部15は、局所反応Rと局所振幅Aと局所位相φガウシアンカーネルとから、空間的にぼかされた位相信号を導出する。
(ステップS7)
復元部16は、導出部15から第1数個のアクティブ画素の各々について作成した空間的にぼかされた位相信号の時系列データを取得する。復元部16は、空間的にぼかされた位相信号から構成される行列δに対して主成分分析を行い、上位第2数の成分のみを取り出して足し合わせることによって位相信号を導出する。
【0057】
(ステップS8)
復元部16は、導出した位相信号にブラインド信号源分離によって混合信号を独立した信号に分割する。
(ステップS9)
復元部16は、不均一な位相信号を均一な時間ベクトル上に再構成する。
【0058】
(ステップS10)
出力部17は、復元部16から不均一な位相信号を時間ベクトル上に再構成した再構成信号を取得する。出力部17は、取得した再構成信号を出力する。
【0059】
前述した実施形態では、入力部11に、ターゲットが振動している向きを示す情報が入力される場合について説明したがこの例に限られない。例えば、情報処理システムが、ターゲットが振動している向きを検出するようにしてもよい。
【0060】
図7は、本実施形態の情報処理システム10aの構成例を示す図である。情報処理システム10aは、情報処理システム10と比較して、ターゲットが振動している向きを検出する点で異なる。情報処理システム10aは、パーソナルコンピュータ、サーバ、スマートフォン、タブレットコンピュータ又は産業用コンピュータ等の装置によって実現される。情報処理システム10aは、例えば、入力部11と、受付部12と、抽出部13と、作成部14と、導出部15と、復元部16と、出力部17と、記憶部18と、検出部19aとを備える。
【0061】
検出部19aは、ターゲットを撮影することで得られる映像を解析することで、ターゲットが振動している向きを検出する。検出部19aは、ターゲットが振動している向きを示す情報を、受付部12へ出力する。
【0062】
受付部12は、入力部11に入力された複数のイベントデータDと、検出部19aが検出したターゲットが振動している向きを示す情報とを受け付ける。
【0063】
検出部19aは、例えば、CPUなどのハードウェアプロセッサが記憶部18に格納されたコンピュータプログラム(ソフトウェア)を実行することにより実現される。また、これらの機能部のうち一部または全部は、LSIやASIC、FPGA、GPUなどのハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアとの協働によって実現されてもよい。
【0064】
前述した実施形態では、復元部16は、導出部15が導出した、第1数個のアクティブ画素の各々について抽出した空間的にぼかされた位相信号から構成される行列δに対して主成分分析を行い、上位第2数成分のみを取り出して足し合わせることによって位相信号を導出し、導出した位相信号を、独立した信号に分割する場合について説明したが、この例に限られない。例えば、復元部16が、位相信号を、独立した信号に分割する処理を省略してもよい。
この場合、復元部16は、第1数個のアクティブ画素の各々について作成した空間的にぼかされた位相信号から構成される行列δに対して主成分分析を行い、上位第2数成分のみを取り出して足し合わせることによって導出した位相信号に基づいて、再構成する。このように構成することによって、処理負荷を低減できる。
【0065】
本実施形態に係る情報処理システム10によれば、振動しているターゲットを撮影したイベントデータを複数受け付ける受付部12と、受付部12が受け付けた複数のイベントデータに基づいて、複数の画素の各々に発生しているイベントの数を計数し、複数の画素の各々に発生しているイベントの数の計数結果に基づいて、第1数個の画素を抽出する抽出部13と、抽出部13が抽出した第1数個の画素に基づいて、第1数個の画素の各々について、局所反応を作成する作成部14と、第1数個の画素の各々について作成部14が作成した局所反応に基づいて局所振幅及び局所位相を導出し、局所反応と局所振幅と局所位相とガウシアンカーネルから空間的にぼかされた位相信号を導出する導出部15と、導出部15が導出した空間的にぼかされた位相信号に基づいて音を復元する復元部16とを備える。
【0066】
このように構成することによって、情報処理システム10は、複数のイベントデータに基づいて、複数の画素の各々に発生しているイベントの数を計数し、複数の画素の各々に発生しているイベントの数の計数結果に基づいて、第1数個の画素を抽出できるため、受け付けた複数のイベントデータDに基づいてイベントが発生しているとされた画素の全てについて処理を行う場合と比較して少ない演算量で音を復元し、記録することができる。
【0067】
例えば、ターゲットがギターGUの弦のように振動している物体であれば、その物体が発する音を記録できる。また、例えば、ターゲットが物体の周囲の音源によって振動している物体であれば周辺の音を記録できる。また、例えば、オーケストラのように様々な楽器の音が発生している環境でも、単一の楽器の振動を撮影することで、単一の楽器の発する音のみを、安全かつ高速に記録でき、従来は困難であった高音も記録できる。
【0068】
また、音楽制作のレコーディングの場面において、情報処理システム10を用いて、楽器の音を分離して記録することで、特定の音源の編集を行うことができる。
また、情報処理システム10を通常のカメラに組み込むことによって、従来は困難であったズームした遠方の音の記録が可能となる。
【0069】
また、イベントカメラECによって取得されたイベントデータを使用することによって、従来のマイクを使用した場合と比較して、非常に鋭い指向性と遠方からの音の記録をマイクなして実現できる。また、安全でかつ安価な装置でターゲットの振動を撮影するだけで通常のマイクのように高周波数の音も記録できる。
【0070】
従来のマイクを使用した場合には、記録できる音の周波数や、必要な装置が高価であること、安全性や高い計算コストに問題があり、使用できる場面が限られていた。イベントカメラは、物体の振動を撮影できるため、扱うデータ量が小さく非常に速いスピードで撮影することと高速データ伝送とが可能であり、装置も安価である。
情報処理システム10は、従来と比較して、計算を効率化することができるため、少ないメモリ容量、計算コストの低減を実現できる。
情報処理システム10は、従来と比較して、高周波数の音の記録を、安価でかつ省メモリ、低い計算コストで行うことができる。
【0071】
情報処理システム10において、第1数は、受付部が受け付けた複数のイベントデータでイベントが発生しているとされる画素の数未満である。
【0072】
このように構成することによって、情報処理システム10は、複数のイベントデータに基づいて、複数の画素の各々に発生しているイベントの数を計数し、複数の画素の各々に発生しているイベントの数の計数結果に基づいて、受付部12が受け付けた複数のイベントデータでイベントが発生しているとされる画素の数未満である第1数の画素を抽出できるため、受け付けた複数のイベントデータDに基づいてイベントが発生しているとされた画素の全てについて処理を行う場合と比較して少ない演算量で音を復元し、記録することができる。また、演算量を低減できるため、ユーザーが記録したい音が得られるまでの時間を短縮できる。
【0073】
情報処理システム10において、抽出部13は、複数の画素の各々に発生しているイベントの数の計数結果に基づいて、発生しているイベントの数が多い方から第1数個の画素を抽出する。
【0074】
このように構成することによって、情報処理システム10は、複数のイベントデータに基づいて、複数の画素の各々に発生しているイベントの数を計数し、複数の画素の各々に発生しているイベントの数の計数結果に基づいて、発生しているイベントの数が多い方から第1数個の画素を抽出できるため、受け付けた複数のイベントデータDに基づいてイベントが発生しているとされた画素の全てについて処理を行う場合と比較して少ない演算量で音を復元し、記録することができる。また、通常のマイクでは、記録が困難な騒音環境下でも、非常に鋭い指向性で記録したい音を記録できる。
【0075】
情報処理システム10において、ターゲットが振動している方向を検出する検出部19aをさらに備える。作成部14は、検出部19aか検出したターゲットが振動している方向の局所反応を作成する。
【0076】
このように構成することによって、情報処理システム10aは、ターゲットが振動している方向を検出できるため、抽出部13が抽出した第1数の画素に基づいて、第1数の前記画素の各々について、検出部19aが検出したターゲットが振動している方向に基づいて局所反応を作成できる。
【0077】
情報処理システム10において、ターゲットが振動している方向を入力する入力部11をさらに備え、作成部14は、入力部11が入力したターゲットが振動している方向の局所反応を作成する。
【0078】
このように構成することによって、情報処理システム10aに、ターゲットが振動している方向を入力できるため、抽出部13が抽出した第1数個の画素に基づいて、第1数個の画素の各々について、入力部11に入力されたターゲットが振動している方向に基づいて局所反応を作成できる。
【0079】
情報処理システム10において、復元部16は、導出部15が導出した第1数個の空間的にぼかされた位相信号から構成される行列の次元を削減する。
このように構成することによって、情報処理システム10は、導出部15が導出した第1数個の空間的にぼかされた位相信号から構成される行列の次元を削減できるため、空間次元を削減できる。
【0080】
情報処理システム10において、復元部16は、第1数個の空間的にぼかされた位相信号から構成される行列δの次元を削減した結果を、独立した信号に分割する。
このように構成することによって、情報処理システム10は、位相信号の次元を削減することによって得られた混合モード応答を分離できる。
【0081】
情報処理システム10において、復元部16は、独立した信号に分割した結果を時間ベクトルに再構成する。
このように構成することによって、情報処理システム10は、クリアな音に復元できる。
【0082】
以上、本発明の実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更、組合わせを行うことができる。これら実施形態およびその変形例は、発明の範囲や要旨に含まれると同時に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。
【0083】
なお、前述の情報処理システム10、情報処理システム10aは内部にコンピュータを有している。そして、前述した各装置の各処理の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータが読み出して実行することによって、上記処理が行われる。
【0084】
ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、CD-ROM、DVD-ROM、半導体メモリなどをいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしてもよい。
また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。
さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
【符号の説明】
【0085】
10、10a…情報処理システム、 11…入力部、 12…受付部、 13…抽出部、 14…作成部、 15…導出部、 16…復元部、 17…出力部、 18…記憶部、 19a…検出部