特許7605230 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧

特許7605230シーン推定方法、シーン推定装置、プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-12-16

(45)【発行日】2024-12-24

(54)【発明の名称】シーン推定方法、シーン推定装置、プログラム

(51)【国際特許分類】

G10L 25/57 20130101AFI20241217BHJP

G10L 25/30 20130101ALI20241217BHJP

G06T 7/00 20170101ALI20241217BHJP

【ＦＩ】

G10L25/57

G10L25/30

G06T7/00 300F

【請求項の数】 6

(21)【出願番号】P 2022581067

(86)(22)【出願日】2021-02-10

(86)【国際出願番号】 JP2021004910

(87)【国際公開番号】W WO2022172348

(87)【国際公開日】2022-08-18

【審査請求日】2023-07-07

(73)【特許権者】

【識別番号】000004226

【氏名又は名称】日本電信電話株式会社

(74)【代理人】

【識別番号】100121706

【弁理士】

【氏名又は名称】中尾直樹

(74)【代理人】

【識別番号】100128705

【弁理士】

【氏名又は名称】中村幸雄

(74)【代理人】

【識別番号】100147773

【弁理士】

【氏名又は名称】義村宗洋

(72)【発明者】

【氏名】安田昌弘

(72)【発明者】

【氏名】大石康智

(72)【発明者】

【氏名】齊藤翔一郎

【審査官】菊池智紀

(56)【参考文献】

【文献】KURBY, Julian，"BAG-OF-FEATURES ACOUSTIC EVENT DETECTION FOR SENSOR NETWORKS"，Proc. of Detection and Classification of Acoustic Scenes and Events 2016，2016年09月03日

【文献】TANABE, Ryo et al.，"MULTICHANNEL ACOUSTIC SCENE CLASSIFICATION BY BLIND DEREVERBERATION, BLIND SOURCE SEPARATION, DATA AUGMENTATION, AND MODEL ENSEMBLING"，Technical Report of Detection and Classification of Acoustic Scenes and Events 2018，2018年

【文献】DEKKERS, Gert et al.，"DCASE 2018 CHALLENGE - TASK 5: MONITORING OF DOMESTIC ACTIVITIES BASED ON MULTI-CHANNEL ACOUSTICS"，[online]，2018年08月01日，[retrieved on 2021.04.23], Retrieved from the Internet: <URL:https://arxiv.org/pdf/1807.11246.pdf>

【文献】坂東宜昭，"視聴覚情報の深層ベイズ学習に基づく音響シーン分析"，日本音響学会2020年春季研究発表会講演論文集CD-ROM，2020年03月02日，pp.1285-1286

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１０Ｌ２５／００－２５／９３，１５／００－１５／３４

Ｇ０６Ｎ３／００－５／０４８，２０／００－２０／２０

Ｇ０６Ｔ７／００

ＩＥＥＥＸｐｌｏｒｅ

(57)【特許請求の範囲】

【請求項1】

Sをシーンの数、Mを入力音響信号の数とし、
シーン推定装置が、第m入力音響信号(m=1, …, M)と第m入力音響信号を取得した位置（以下、第m入力音響信号取得位置という）(m=1, …, M)とから、統合音響特徴量を生成する音響信号エンコードステップと、
前記シーン推定装置が、前記統合音響特徴量と用いて、S個のシーンの中から、M個の入力音響信号が取得されたシーンを選択するシーン選択ステップと、
を含むシーン推定方法であって、
前記音響信号エンコードステップは、
第m入力音響信号から、第m音響特徴量を生成する第m音響エンコードステップ(m=1, …, M)と、
第m音響特徴量と第m入力音響信号取得位置とから、第m条件付き音響特徴量を生成する第m条件付き音響エンコードステップ(m=1, …, M)と、
第m条件付き音響特徴量(m=1, …, M)から、前記統合音響特徴量を生成する統合音響エンコードステップを含む
シーン推定方法。

【請求項2】

請求項１に記載のシーン推定方法であって、
第m条件付き音響特徴量の次元は、第m音響特徴量の次元よりも小さい
ことを特徴とするシーン推定方法。

【請求項3】

Sをシーンの数、Mを入力音響信号の数、Nを入力映像信号の数とし、
シーン推定装置が、第m入力音響信号(m=1, …, M)と第m入力音響信号を取得した位置（以下、第m入力音響信号取得位置という）(m=1, …, M)とから、統合音響特徴量を生成する音響信号エンコードステップと、
前記シーン推定装置が、第n入力映像信号(n=1, …, N)と第n入力映像信号を取得した位置（以下、第n入力映像信号取得位置という）(n=1, …, N)とから、統合映像特徴量を生成する映像信号エンコードステップと、
前記シーン推定装置が、前記統合音響特徴量と前記統合映像特徴量とを用いて、S個のシーンの中から、M個の入力音響信号とN個の入力映像信号が取得されたシーンを選択するシーン選択ステップと、
を含むシーン推定方法であって、
前記音響信号エンコードステップは、
第m入力音響信号から、第m音響特徴量を生成する第m音響エンコードステップ(m=1, …, M)と、
第m音響特徴量と第m入力音響信号取得位置とから、第m条件付き音響特徴量を生成する第m条件付き音響エンコードステップ(m=1, …, M)と、
第m条件付き音響特徴量(m=1, …, M)から、前記統合音響特徴量を生成する統合音響エンコードステップを含み、
前記映像信号エンコードステップは、
第n入力映像信号から、第n映像特徴量を生成する第n映像エンコードステップ(n=1, …, N)と、
第n映像特徴量と第n入力映像信号取得位置とから、第n条件付き映像特徴量を生成する第n条件付き映像エンコードステップ(n=1, …, N)と、
第n条件付き映像特徴量(n=1, …, N)から、前記統合映像特徴量を生成する統合映像エンコードステップを含む
シーン推定方法。

【請求項4】

請求項３に記載のシーン推定方法であって、
第m条件付き音響特徴量の次元は、第m音響特徴量の次元よりも小さく、
第n条件付き映像特徴量の次元は、第n映像特徴量の次元よりも小さい
ことを特徴とするシーン推定方法。

【請求項5】

Sをシーンの数、Mを入力音響信号の数とし、
第m入力音響信号(m=1, …, M)と第m入力音響信号を取得した位置（以下、第m入力音響信号取得位置という）(m=1, …, M)とから、統合音響特徴量を生成する音響信号エンコーダと、
前記統合音響特徴量と用いて、S個のシーンの中から、M個の入力音響信号が取得されたシーンを選択するシーン選択部と、
を含むシーン推定装置であって、
前記音響信号エンコーダは、
第m入力音響信号から、第m音響特徴量を生成する第m音響エンコーダ(m=1, …, M)と、
第m音響特徴量と第m入力音響信号取得位置とから、第m条件付き音響特徴量を生成する第m条件付き音響エンコーダ(m=1, …, M)と、
第m条件付き音響特徴量(m=1, …, M)から、前記統合音響特徴量を生成する統合音響エンコーダを含む
シーン推定装置。

【請求項6】

請求項１ないし４のいずれか１項に記載のシーン推定方法をコンピュータに実行させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、音響信号や映像信号を取得したシーンを推定する技術に関する。

【背景技術】

【0002】

従来、非特許文献１、非特許文献２にあるように、音響信号や映像信号を用いて当該信号が取得されたシーンを推定する技術がある。

【先行技術文献】

【非特許文献】

【0003】

【文献】K. Imoto et al., “Spatial Cepstrum as a Spatial Feature Using a Distributed Microphone Array for Acoustic Scene Analysis,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, Vol.25, No.6, JUNE 2017.

【文献】D. Zhukov et al., “Cross-Task Weakly Supervised Learning from Instructional Videos,” IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR) 2019，JUNE 2019.

【発明の概要】

【発明が解決しようとする課題】

【0004】

一般に、シーン推定に用いる音響信号や映像信号の数が多くなるほど、死角となる領域が減ることなどでシーン推定に用いることができる情報が増え、シーン推定に関する精度は高まるが、シーン推定処理で扱うデータは高次元化する。その結果、いわゆる次元の呪いが生じてしまい、音響信号や映像信号の数が多くしても期待したほど精度が高くならないという問題が生じる。

【0005】

そこで本発明では、入力信号の数が多くなっても、精度よくシーンを推定する技術を提供することを目的とする。

【課題を解決するための手段】

【0006】

本発明の一態様は、Sをシーンの数、Mを入力音響信号の数とし、シーン推定装置が、第m入力音響信号(m=1, …, M)と第m入力音響信号を取得した位置（以下、第m入力音響信号取得位置という）(m=1, …, M)とから、統合音響特徴量を生成する音響信号エンコードステップと、前記シーン推定装置が、前記統合音響特徴量と用いて、S個のシーンの中から、M個の入力音響信号が取得されたシーンを選択するシーン選択ステップと、を含む。

【0007】

本発明の一態様は、Sをシーンの数、Mを入力音響信号の数、Nを入力映像信号の数とし、シーン推定装置が、第m入力音響信号(m=1, …, M)と第m入力音響信号を取得した位置（以下、第m入力音響信号取得位置という）(m=1, …, M)とから、統合音響特徴量を生成する音響信号エンコードステップと、前記シーン推定装置が、第n入力映像信号(n=1, …, N)と第n入力映像信号を取得した位置（以下、第n入力映像信号取得位置という）(n=1, …, N)とから、統合映像特徴量を生成する映像信号エンコードステップと、前記シーン推定装置が、前記統合音響特徴量と前記統合映像特徴量とを用いて、S個のシーンの中から、M個の入力音響信号とN個の入力映像信号が取得されたシーンを選択するシーン選択ステップと、を含む。

【発明の効果】

【0008】

本発明によれば、入力信号の数が多くなっても、精度よくシーンを推定することが可能となる。

【図面の簡単な説明】

【0009】

【図1】シーン推定装置１００の構成の一例を示すブロック図である。

【図2】シーン推定装置１００の動作の一例を示すフローチャートである。

【図3】シーン推定装置２００の構成の一例を示すブロック図である。

【図4】シーン推定装置２００の動作の一例を示すフローチャートである。

【図5】シーン推定装置３００の構成の一例を示すブロック図である。

【図6】シーン推定装置３００の動作の一例を示すフローチャートである。

【図7】本発明の実施形態における各装置を実現するコンピュータの機能構成の一例を示す図である。

【発明を実施するための形態】

【0010】

以下、本発明の実施形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

【0011】

各実施形態の説明に先立って、この明細書における表記方法について説明する。

【0012】

^（キャレット）は上付き添字を表す。例えば、x^{y^z}はy^zがxに対する上付き添字であり、x_y^zはy^zがxに対する下付き添字であることを表す。また、_（アンダースコア）は下付き添字を表す。例えば、x^y_zはy_zがxに対する上付き添字であり、x_{y_z}はy_zがxに対する下付き添字であることを表す。

【0013】

ある文字xに対する^xや~xのような上付き添え字の”^”や”~”は、本来”x”の真上に記載されるべきであるが、明細書の記載表記の制約上、^xや~xと記載しているものである。

【0014】

まず、本発明のポイントについて説明しておく。上述したように取り扱うデータの次元数が高くなるにつれて、次元の呪いの影響を受けてしまうようになる。そこで、音響信号や映像信号から抽出される特徴のうち、シーン推定に不要なものを取り除くことを考える。

【0015】

シーン推定の対象となる空間にあわせて学習された特徴量抽出手段であるエンコーダであっても、すべての音響信号、すべての映像信号に対して必要最低限の特徴量のみを抽出することは困難である。これは、音響信号や映像信号の取得に用いるマイクロホンやカメラを設置した位置によって取得できる情報が異なるため、例えば、ある位置の設置したマイクロホンであっても他の位置に設置したマイクロホンのみによって取得される情報に含まれる特徴についても加味された特徴が取得されてしまうためである。このような冗長な情報を取り除くことにより、特徴量を低次元化する。本発明の実施形態では、上述した設置位置の違いに起因する冗長な情報を取り除く方法として、マイクロホンやカメラを設置した位置を考慮していないエンコーダの後段に、冗長な情報を取り除くためのエンコーダを採用する方法について説明する。
＜第１実施形態＞
シーン推定装置１００は、M個（ただし、Mは1以上の整数）の入力音響信号と当該入力音響信号を取得した位置の組とN個（ただし、Nは1以上の整数）の入力映像信号と当該入力映像信号を取得した位置の組とを入力とし、S個（ただし、Sは1以上の整数）のシーンの中から、これらの入力音響信号、入力映像信号が取得されたシーンを選択し、出力する。ここで、シーンとは、単発的な事象（イベント）が連続的に連なった場面のことをいう。例えば、“ある人がオフィスに出社する”というシーンは、“オフィスのドアを開ける”、“挨拶をする”、“自分のデスクに向かって歩く”、“着席する”という４つのイベントが連なったシーンであると理解できる。

【0016】

入力音響信号の取得には、マイクを用いることができる。また、入力映像信号の取得には、カメラを用いることができる。

【0017】

なお、入力音響信号や入力映像信号の各々は同期しているものとする。また、入力音響信号や入力映像信号の各々の長さは同一であり、この長さのことをクリップ長という。

【0018】

以下、図１～図２を参照してシーン推定装置１００を説明する。図１は、シーン推定装置１００の構成を示すブロック図である。図２は、シーン推定装置１００の動作を示すフローチャートである。図１に示すようにシーン推定装置１００は、M個の音響エンコーダ１１０（以下、第1音響エンコーダ１１０、…、第M音響エンコーダ１１０という）と、M個の条件付き音響エンコーダ１２０（以下、第1条件付き音響エンコーダ１２０、…、第M条件付き音響エンコーダ１２０という）と、統合音響エンコーダ１３０と、N個の映像エンコーダ１４０（以下、第1映像エンコーダ１４０、…、第N映像エンコーダ１４０という）と、N個の条件付き映像エンコーダ１５０（以下、第1条件付き映像エンコーダ１５０、…、第N条件付き映像エンコーダ１５０という）と、統合映像エンコーダ１６０と、シーン選択部１７０と、記録部１９０を含む。記録部１９０は、シーン推定装置１００の処理に必要な情報を適宜記録する構成部である。

【0019】

なお、第1音響エンコーダ１１０、…、第M音響エンコーダ１１０、第1条件付き音響エンコーダ１２０、…、第M条件付き音響エンコーダ１２０、統合音響エンコーダ１３０を含む構成部を音響信号エンコーダ１０５という。また、第1映像エンコーダ１４０、…、第N映像エンコーダ１４０、第1条件付き映像エンコーダ１５０、…、第N条件付き映像エンコーダ１５０、統合映像エンコーダ１６０を含む構成部を映像信号エンコーダ１３５という。

【0020】

図２に従いシーン推定装置１００の動作について説明する。以下、シーン推定装置１００の動作の過程で生成される各種特徴量は、いずれも当該特徴量ごとに定まる所定の次元のベクトルである。

【0021】

Ｓ１１０において、第m音響エンコーダ１１０は、第m入力音響信号を入力とし、第m入力音響信号から、第m音響特徴量を生成し、出力する。ここで、第m音響特徴量の次元は、第m入力音響信号の次元よりも小さい。第m音響エンコーダ１１０の構成には、例えば、ニューラルネットワークとして多層CNN(Convolutional Neural Networks)を用いることができる。この場合、第m音響エンコーダ１１０は、第m入力音響信号を短時間フーリエ変換(STFT)スペクトログラムの対数絶対値に変換し、メルフィルタバンクを適用することで得られる対数メルスペクトログラムを、上記多層CNNに入力する。

【0022】

Ｓ１２０において、第m条件付き音響エンコーダ１２０は、Ｓ１１０で生成した第m音響特徴量と第m入力音響信号を取得した位置（以下、第m入力音響信号取得位置という）とを入力とし、第m音響特徴量と第m入力音響信号取得位置とから、第m条件付き音響特徴量を生成し、出力する。ここで、第m条件付き音響特徴量の次元は、第m音響特徴量の次元よりも小さい。第m条件付き音響エンコーダ１２０の構成には、例えば、１層の線形層からなるニューラルネットワークを用いることができる。この場合、第m条件付き音響エンコーダ１２０は、第m音響特徴量と第m入力音響信号取得位置を結合したベクトルを、上記ニューラルネットワークに入力する。

【0023】

Ｓ１３０において、統合音響エンコーダ１３０は、Ｓ１２０で生成した第m条件付き音響特徴量(m=1, …, M)を入力とし、第m条件付き音響特徴量(m=1, …, M)から、統合音響特徴量を生成し、出力する。統合音響エンコーダ１３０の構成には、例えば、１層の線形層からなるニューラルネットワークを用いることができる。この場合、統合音響エンコーダ１３０は、第m条件付き音響特徴量(m=1, …, M)を結合したベクトルを、上記ニューラルネットワークに入力する。

【0024】

Ｓ１４０において、第n映像エンコーダ１４０は、第n入力映像信号を入力とし、第n入力映像信号から、第n映像特徴量を生成し、出力する。ここで、第n映像特徴量の次元は、第n入力映像信号の次元よりも小さい。第n映像エンコーダ１４０の構成には、例えば、ニューラルネットワークとしてResNetを用いることができる（参考非特許文献１参照）。
（参考非特許文献１：D. Tran et al., “A Closer Look at Spatiotemporal Convolutions for Action Recognition,” IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR) 2018，JUNE 2018.）
第n映像エンコーダ１４０の構成にResNetを用いるとよい理由について説明する。第n映像エンコーダ１４０は、映像の各フレームの画像としての特徴に加え、フレーム間の関係を考慮した動画としての特徴を抽出できるのが好ましい。この条件を満たす構成がResNetであり、例えば、人物行動認識において高い精度を達成しているニューラルネットワークであるResNet(2+1)Dを挙げることができる。

【0025】

Ｓ１５０において、第n条件付き映像エンコーダ１５０は、Ｓ１４０で生成した第n映像特徴量と第n入力映像信号を取得した位置（以下、第n入力映像信号取得位置という）とを入力とし、第n映像特徴量と第n入力音映像信号取得位置とから、第n条件付き映像特徴量を生成し、出力する。ここで、第n条件付き映像特徴量の次元は、第n映像特徴量の次元よりも小さい。第n条件付き映像エンコーダ１５０の構成には、例えば、１層の線形層からなるニューラルネットワークを用いることができる。この場合、第n条件付き映像エンコーダ１５０は、第n映像特徴量と第n入力映像信号取得位置を結合したベクトルを、上記ニューラルネットワークに入力する。

【0026】

Ｓ１６０において、統合映像エンコーダ１６０は、Ｓ１５０で生成した第n条件付き映像特徴量(n=1, …, N)を入力とし、第n条件付き映像特徴量(n=1, …, N)から、統合映像特徴量を生成し、出力する。統合映像エンコーダ１６０の構成には、例えば、１層の線形層からなるニューラルネットワークを用いることができる。この場合、統合映像エンコーダ１６０は、第n条件付き映像特徴量(n=1, …, N)を結合したベクトルを、上記ニューラルネットワークに入力する。

【0027】

Ｓ１７０において、シーン選択部１７０は、Ｓ１３０で生成した統合音響特徴量とＳ１６０で生成した統合映像特徴量とを入力とし、統合音響特徴量と統合映像特徴量とを用いて、S個のシーンの中から、M個の入力音響信号とN個の入力映像信号が取得されたシーンを選択し、出力する。シーン選択部１７０の構成には、例えば、１層の線形層とSoftmax層からなるニューラルネットワークを用いることができる。この場合、シーン選択部１７０は、統合音響特徴量と統合映像特徴量を結合したベクトルを、上記ニューラルネットワークに入力する。

【0028】

なお、音響信号エンコーダ１０５、映像信号エンコーダ１３５の動作は以下のように説明できる。音響信号エンコーダ１０５は、第m入力音響信号(m=1, …, M)と第m入力音響信号取得位置(m=1, …, M)とを入力とし、第m入力音響信号(m=1, …, M)と第m入力音響信号取得位置(m=1, …, M)とから、統合音響特徴量を生成し、出力する。映像信号エンコーダ１３５は、第n入力映像信号(n=1, …, N)と第n入力映像信号取得位置(n=1, …, N)とを入力とし、第n入力映像信号(n=1, …, N)と第n入力映像信号取得位置(n=1, …, N)とから、統合映像特徴量を生成し、出力する。

【0029】

本発明の実施形態によれば、入力信号の数が多くなっても、精度よくシーンを推定することが可能となる。具体的には、信号を取得した位置に関する情報を用いることで、信号取得位置の中で特に注意を向けるべきことに関する、より次元の小さい条件付き特徴量を生成することが可能となり、当該条件付き特徴量を用いることで精度よくシーンを推定することが可能となる。
＜第２実施形態＞
第１実施形態では、入力として音響信号と映像信号の両方を用いたが、音響信号のみを用いるようにしてもよい。つまり、シーン推定装置２００は、M個（ただし、Mは1以上の整数）の入力音響信号と当該入力音響信号を取得した位置の組を入力とし、S個（ただし、Sは1以上の整数）のシーンの中から、これらの入力音響信号が取得されたシーンを選択し、出力する。

【0030】

以下、図３～図４を参照してシーン推定装置２００を説明する。図３は、シーン推定装置２００の構成を示すブロック図である。図４は、シーン推定装置２００の動作を示すフローチャートである。図３に示すようにシーン推定装置２００は、M個の音響エンコーダ１１０（以下、第1音響エンコーダ１１０、…、第M音響エンコーダ１１０という）と、M個の条件付き音響エンコーダ１２０（以下、第1条件付き音響エンコーダ１２０、…、第M条件付き音響エンコーダ１２０という）と、統合音響エンコーダ１３０と、シーン選択部２７０と、記録部１９０を含む。記録部１９０は、シーン推定装置２００の処理に必要な情報を適宜記録する構成部である。

【0031】

図４に従いシーン推定装置２００の動作について説明する。Ｓ１１０からＳ１３０までの処理は第１実施形態と同様であるから、ここではＳ２７０の処理についてのみ説明する。

【0032】

Ｓ２７０において、シーン選択部２７０は、Ｓ１３０で生成した統合音響特徴量を入力とし、統合音響特徴量を用いて、S個のシーンの中から、M個の入力音響信号が取得されたシーンを選択し、出力する。シーン選択部２７０の構成には、例えば、１層の線形層とSoftmax層からなるニューラルネットワークを用いることができる。

【0033】

本発明の実施形態によれば、入力信号の数が多くなっても、精度よくシーンを推定することが可能となる。具体的には、信号を取得した位置に関する情報を用いることで、信号取得位置の中で特に注意を向けるべきことに関する、より次元の小さい条件付き特徴量を生成することが可能となり、当該条件付き特徴量を用いることで精度よくシーンを推定することが可能となる。
＜第３実施形態＞
第１実施形態では、入力として音響信号と映像信号の両方を用いたが、映像信号のみを用いるようにしてもよい。つまり、シーン推定装置３００は、N個（ただし、Nは1以上の整数）の入力映像信号と当該入力映像信号を取得した位置の組を入力とし、S個（ただし、Sは1以上の整数）のシーンの中から、これらの入力映像信号が取得されたシーンを選択し、出力する。

【0034】

以下、図５～図６を参照してシーン推定装置３００を説明する。図５は、シーン推定装置３００の構成を示すブロック図である。図６は、シーン推定装置３００の動作を示すフローチャートである。図５に示すようにシーン推定装置３００は、N個の映像エンコーダ１４０（以下、第1映像エンコーダ１４０、…、第N映像エンコーダ１４０という）と、N個の条件付き映像エンコーダ１５０（以下、第1条件付き映像エンコーダ１５０、…、第N条件付き映像エンコーダ１５０という）と、統合映像エンコーダ１６０と、シーン選択部３７０と、記録部１９０を含む。記録部１９０は、シーン推定装置３００の処理に必要な情報を適宜記録する構成部である。

【0035】

図６に従いシーン推定装置３００の動作について説明する。Ｓ１４０からＳ１６０までの処理は第１実施形態と同様であるから、ここではＳ３７０の処理についてのみ説明する。

【0036】

Ｓ３７０において、シーン選択部３７０は、Ｓ１６０で生成した統合映像特徴量を入力とし、統合映像特徴量を用いて、S個のシーンの中から、N個の入力映像信号が取得されたシーンを選択し、出力する。シーン選択部３７０の構成には、例えば、１層の線形層とSoftmax層からなるニューラルネットワークを用いることができる。

【0037】

本発明の実施形態によれば、入力信号の数が多くなっても、精度よくシーンを推定することが可能となる。具体的には、信号を取得した位置に関する情報を用いることで、信号取得位置の中で特に注意を向けるべきことに関する、より次元の小さい条件付き特徴量を生成することが可能となり、当該条件付き特徴量を用いることで精度よくシーンを推定することが可能となる。
＜補記＞
図７は、上述の各装置を実現するコンピュータ２０００の機能構成の一例を示す図である。上述の各装置における処理は、記録部２０２０に、コンピュータ２０００を上述の各装置として機能させるためのプログラムを読み込ませ、制御部２０１０、入力部２０３０、出力部２０４０などに動作させることで実施できる。

【0038】

本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置（例えば通信ケーブル）が接続可能な通信部、ＣＰＵ（Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい）、メモリであるＲＡＭやＲＯＭ、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、ＣＰＵ、ＲＡＭ、ＲＯＭ、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、ＣＤ－ＲＯＭなどの記録媒体を読み書きできる装置（ドライブ）などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。

【0039】

ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている（外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるＲＯＭに記憶させておくこととしてもよい）。また、これらのプログラムの処理によって得られるデータなどは、ＲＡＭや外部記憶装置などに適宜に記憶される。

【0040】

ハードウェアエンティティでは、外部記憶装置（あるいはＲＯＭなど）に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にＣＰＵで解釈実行・処理される。その結果、ＣＰＵが所定の機能（上記、…部、…手段などと表した各構成部）を実現する。

【0041】

本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

【0042】

既述のように、上記実施形態において説明したハードウェアエンティティ（本発明の装置）における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。

【0043】

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ－ＲＡＭ（Random Access Memory）、ＣＤ－ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ－Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ－ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

【0044】

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ－ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

【0045】

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

【0046】

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

【0047】

上述の本発明の実施形態の記載は、例証と記載の目的で提示されたものである。網羅的であるという意思はなく、開示された厳密な形式に発明を限定する意思もない。変形やバリエーションは上述の教示から可能である。実施形態は、本発明の原理の最も良い例証を提供するために、そして、この分野の当業者が、熟考された実際の使用に適するように本発明を色々な実施形態で、また、色々な変形を付加して利用できるようにするために、選ばれて表現されたものである。すべてのそのような変形やバリエーションは、公正に合法的に公平に与えられる幅にしたがって解釈された添付の請求項によって定められた本発明のスコープ内である。

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版