IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧

特許7605230シーン推定方法、シーン推定装置、プログラム
<>
  • 特許-シーン推定方法、シーン推定装置、プログラム 図1
  • 特許-シーン推定方法、シーン推定装置、プログラム 図2
  • 特許-シーン推定方法、シーン推定装置、プログラム 図3
  • 特許-シーン推定方法、シーン推定装置、プログラム 図4
  • 特許-シーン推定方法、シーン推定装置、プログラム 図5
  • 特許-シーン推定方法、シーン推定装置、プログラム 図6
  • 特許-シーン推定方法、シーン推定装置、プログラム 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-12-16
(45)【発行日】2024-12-24
(54)【発明の名称】シーン推定方法、シーン推定装置、プログラム
(51)【国際特許分類】
   G10L 25/57 20130101AFI20241217BHJP
   G10L 25/30 20130101ALI20241217BHJP
   G06T 7/00 20170101ALI20241217BHJP
【FI】
G10L25/57
G10L25/30
G06T7/00 300F
【請求項の数】 6
(21)【出願番号】P 2022581067
(86)(22)【出願日】2021-02-10
(86)【国際出願番号】 JP2021004910
(87)【国際公開番号】W WO2022172348
(87)【国際公開日】2022-08-18
【審査請求日】2023-07-07
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(74)【代理人】
【識別番号】100121706
【弁理士】
【氏名又は名称】中尾 直樹
(74)【代理人】
【識別番号】100128705
【弁理士】
【氏名又は名称】中村 幸雄
(74)【代理人】
【識別番号】100147773
【弁理士】
【氏名又は名称】義村 宗洋
(72)【発明者】
【氏名】安田 昌弘
(72)【発明者】
【氏名】大石 康智
(72)【発明者】
【氏名】齊藤 翔一郎
【審査官】菊池 智紀
(56)【参考文献】
【文献】KURBY, Julian,"BAG-OF-FEATURES ACOUSTIC EVENT DETECTION FOR SENSOR NETWORKS",Proc. of Detection and Classification of Acoustic Scenes and Events 2016,2016年09月03日
【文献】TANABE, Ryo et al.,"MULTICHANNEL ACOUSTIC SCENE CLASSIFICATION BY BLIND DEREVERBERATION, BLIND SOURCE SEPARATION, DATA AUGMENTATION, AND MODEL ENSEMBLING",Technical Report of Detection and Classification of Acoustic Scenes and Events 2018,2018年
【文献】DEKKERS, Gert et al.,"DCASE 2018 CHALLENGE - TASK 5: MONITORING OF DOMESTIC ACTIVITIES BASED ON MULTI-CHANNEL ACOUSTICS",[online],2018年08月01日,[retrieved on 2021.04.23], Retrieved from the Internet: <URL:https://arxiv.org/pdf/1807.11246.pdf>
【文献】坂東宜昭,"視聴覚情報の深層ベイズ学習に基づく音響シーン分析",日本音響学会2020年春季研究発表会講演論文集CD-ROM,2020年03月02日,pp.1285-1286
(58)【調査した分野】(Int.Cl.,DB名)
G10L 25/00-25/93,15/00-15/34
G06N 3/00-5/048,20/00-20/20
G06T 7/00
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
Sをシーンの数、Mを入力音響信号の数とし、
シーン推定装置が、第m入力音響信号(m=1, …, M)と第m入力音響信号を取得した位置(以下、第m入力音響信号取得位置という)(m=1, …, M)とから、統合音響特徴量を生成する音響信号エンコードステップと、
前記シーン推定装置が、前記統合音響特徴量と用いて、S個のシーンの中から、M個の入力音響信号が取得されたシーンを選択するシーン選択ステップと、
を含むシーン推定方法であって、
前記音響信号エンコードステップは、
第m入力音響信号から、第m音響特徴量を生成する第m音響エンコードステップ(m=1, …, M)と、
第m音響特徴量と第m入力音響信号取得位置とから、第m条件付き音響特徴量を生成する第m条件付き音響エンコードステップ(m=1, …, M)と、
第m条件付き音響特徴量(m=1, …, M)から、前記統合音響特徴量を生成する統合音響エンコードステップを含む
シーン推定方法。
【請求項2】
請求項に記載のシーン推定方法であって、
第m条件付き音響特徴量の次元は、第m音響特徴量の次元よりも小さい
ことを特徴とするシーン推定方法。
【請求項3】
Sをシーンの数、Mを入力音響信号の数、Nを入力映像信号の数とし、
シーン推定装置が、第m入力音響信号(m=1, …, M)と第m入力音響信号を取得した位置(以下、第m入力音響信号取得位置という)(m=1, …, M)とから、統合音響特徴量を生成する音響信号エンコードステップと、
前記シーン推定装置が、第n入力映像信号(n=1, …, N)と第n入力映像信号を取得した位置(以下、第n入力映像信号取得位置という)(n=1, …, N)とから、統合映像特徴量を生成する映像信号エンコードステップと、
前記シーン推定装置が、前記統合音響特徴量と前記統合映像特徴量とを用いて、S個のシーンの中から、M個の入力音響信号とN個の入力映像信号が取得されたシーンを選択するシーン選択ステップと、
を含むシーン推定方法であって、
前記音響信号エンコードステップは、
第m入力音響信号から、第m音響特徴量を生成する第m音響エンコードステップ(m=1, …, M)と、
第m音響特徴量と第m入力音響信号取得位置とから、第m条件付き音響特徴量を生成する第m条件付き音響エンコードステップ(m=1, …, M)と、
第m条件付き音響特徴量(m=1, …, M)から、前記統合音響特徴量を生成する統合音響エンコードステップを含み、
前記映像信号エンコードステップは、
第n入力映像信号から、第n映像特徴量を生成する第n映像エンコードステップ(n=1, …, N)と、
第n映像特徴量と第n入力映像信号取得位置とから、第n条件付き映像特徴量を生成する第n条件付き映像エンコードステップ(n=1, …, N)と、
第n条件付き映像特徴量(n=1, …, N)から、前記統合映像特徴量を生成する統合映像エンコードステップを含む
シーン推定方法。
【請求項4】
請求項に記載のシーン推定方法であって、
第m条件付き音響特徴量の次元は、第m音響特徴量の次元よりも小さく、
第n条件付き映像特徴量の次元は、第n映像特徴量の次元よりも小さい
ことを特徴とするシーン推定方法。
【請求項5】
Sをシーンの数、Mを入力音響信号の数とし、
第m入力音響信号(m=1, …, M)と第m入力音響信号を取得した位置(以下、第m入力音響信号取得位置という)(m=1, …, M)とから、統合音響特徴量を生成する音響信号エンコーダと、
前記統合音響特徴量と用いて、S個のシーンの中から、M個の入力音響信号が取得されたシーンを選択するシーン選択部と、
を含むシーン推定装置であって、
前記音響信号エンコーダは、
第m入力音響信号から、第m音響特徴量を生成する第m音響エンコーダ(m=1, …, M)と、
第m音響特徴量と第m入力音響信号取得位置とから、第m条件付き音響特徴量を生成する第m条件付き音響エンコーダ(m=1, …, M)と、
第m条件付き音響特徴量(m=1, …, M)から、前記統合音響特徴量を生成する統合音響エンコーダを含む
シーン推定装置。
【請求項6】
請求項1ないしのいずれか1項に記載のシーン推定方法をコンピュータに実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音響信号や映像信号を取得したシーンを推定する技術に関する。
【背景技術】
【0002】
従来、非特許文献1、非特許文献2にあるように、音響信号や映像信号を用いて当該信号が取得されたシーンを推定する技術がある。
【先行技術文献】
【非特許文献】
【0003】
【文献】K. Imoto et al., “Spatial Cepstrum as a Spatial Feature Using a Distributed Microphone Array for Acoustic Scene Analysis,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, Vol.25, No.6, JUNE 2017.
【文献】D. Zhukov et al., “Cross-Task Weakly Supervised Learning from Instructional Videos,” IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR) 2019,JUNE 2019.
【発明の概要】
【発明が解決しようとする課題】
【0004】
一般に、シーン推定に用いる音響信号や映像信号の数が多くなるほど、死角となる領域が減ることなどでシーン推定に用いることができる情報が増え、シーン推定に関する精度は高まるが、シーン推定処理で扱うデータは高次元化する。その結果、いわゆる次元の呪いが生じてしまい、音響信号や映像信号の数が多くしても期待したほど精度が高くならないという問題が生じる。
【0005】
そこで本発明では、入力信号の数が多くなっても、精度よくシーンを推定する技術を提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明の一態様は、Sをシーンの数、Mを入力音響信号の数とし、シーン推定装置が、第m入力音響信号(m=1, …, M)と第m入力音響信号を取得した位置(以下、第m入力音響信号取得位置という)(m=1, …, M)とから、統合音響特徴量を生成する音響信号エンコードステップと、前記シーン推定装置が、前記統合音響特徴量と用いて、S個のシーンの中から、M個の入力音響信号が取得されたシーンを選択するシーン選択ステップと、を含む。
【0007】
本発明の一態様は、Sをシーンの数、Mを入力音響信号の数、Nを入力映像信号の数とし、シーン推定装置が、第m入力音響信号(m=1, …, M)と第m入力音響信号を取得した位置(以下、第m入力音響信号取得位置という)(m=1, …, M)とから、統合音響特徴量を生成する音響信号エンコードステップと、前記シーン推定装置が、第n入力映像信号(n=1, …, N)と第n入力映像信号を取得した位置(以下、第n入力映像信号取得位置という)(n=1, …, N)とから、統合映像特徴量を生成する映像信号エンコードステップと、前記シーン推定装置が、前記統合音響特徴量と前記統合映像特徴量とを用いて、S個のシーンの中から、M個の入力音響信号とN個の入力映像信号が取得されたシーンを選択するシーン選択ステップと、を含む。
【発明の効果】
【0008】
本発明によれば、入力信号の数が多くなっても、精度よくシーンを推定することが可能となる。
【図面の簡単な説明】
【0009】
図1】シーン推定装置100の構成の一例を示すブロック図である。
図2】シーン推定装置100の動作の一例を示すフローチャートである。
図3】シーン推定装置200の構成の一例を示すブロック図である。
図4】シーン推定装置200の動作の一例を示すフローチャートである。
図5】シーン推定装置300の構成の一例を示すブロック図である。
図6】シーン推定装置300の動作の一例を示すフローチャートである。
図7】本発明の実施形態における各装置を実現するコンピュータの機能構成の一例を示す図である。
【発明を実施するための形態】
【0010】
以下、本発明の実施形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
【0011】
各実施形態の説明に先立って、この明細書における表記方法について説明する。
【0012】
^(キャレット)は上付き添字を表す。例えば、xy^zはyzがxに対する上付き添字であり、xy^zはyzがxに対する下付き添字であることを表す。また、_(アンダースコア)は下付き添字を表す。例えば、xy_zはyzがxに対する上付き添字であり、xy_zはyzがxに対する下付き添字であることを表す。
【0013】
ある文字xに対する^xや~xのような上付き添え字の”^”や”~”は、本来”x”の真上に記載されるべきであるが、明細書の記載表記の制約上、^xや~xと記載しているものである。
【0014】
まず、本発明のポイントについて説明しておく。上述したように取り扱うデータの次元数が高くなるにつれて、次元の呪いの影響を受けてしまうようになる。そこで、音響信号や映像信号から抽出される特徴のうち、シーン推定に不要なものを取り除くことを考える。
【0015】
シーン推定の対象となる空間にあわせて学習された特徴量抽出手段であるエンコーダであっても、すべての音響信号、すべての映像信号に対して必要最低限の特徴量のみを抽出することは困難である。これは、音響信号や映像信号の取得に用いるマイクロホンやカメラを設置した位置によって取得できる情報が異なるため、例えば、ある位置の設置したマイクロホンであっても他の位置に設置したマイクロホンのみによって取得される情報に含まれる特徴についても加味された特徴が取得されてしまうためである。このような冗長な情報を取り除くことにより、特徴量を低次元化する。本発明の実施形態では、上述した設置位置の違いに起因する冗長な情報を取り除く方法として、マイクロホンやカメラを設置した位置を考慮していないエンコーダの後段に、冗長な情報を取り除くためのエンコーダを採用する方法について説明する。
<第1実施形態>
シーン推定装置100は、M個(ただし、Mは1以上の整数)の入力音響信号と当該入力音響信号を取得した位置の組とN個(ただし、Nは1以上の整数)の入力映像信号と当該入力映像信号を取得した位置の組とを入力とし、S個(ただし、Sは1以上の整数)のシーンの中から、これらの入力音響信号、入力映像信号が取得されたシーンを選択し、出力する。ここで、シーンとは、単発的な事象(イベント)が連続的に連なった場面のことをいう。例えば、“ある人がオフィスに出社する”というシーンは、“オフィスのドアを開ける”、“挨拶をする”、“自分のデスクに向かって歩く”、“着席する”という4つのイベントが連なったシーンであると理解できる。
【0016】
入力音響信号の取得には、マイクを用いることができる。また、入力映像信号の取得には、カメラを用いることができる。
【0017】
なお、入力音響信号や入力映像信号の各々は同期しているものとする。また、入力音響信号や入力映像信号の各々の長さは同一であり、この長さのことをクリップ長という。
【0018】
以下、図1図2を参照してシーン推定装置100を説明する。図1は、シーン推定装置100の構成を示すブロック図である。図2は、シーン推定装置100の動作を示すフローチャートである。図1に示すようにシーン推定装置100は、M個の音響エンコーダ110(以下、第1音響エンコーダ110、…、第M音響エンコーダ110という)と、M個の条件付き音響エンコーダ120(以下、第1条件付き音響エンコーダ120、…、第M条件付き音響エンコーダ120という)と、統合音響エンコーダ130と、N個の映像エンコーダ140(以下、第1映像エンコーダ140、…、第N映像エンコーダ140という)と、N個の条件付き映像エンコーダ150(以下、第1条件付き映像エンコーダ150、…、第N条件付き映像エンコーダ150という)と、統合映像エンコーダ160と、シーン選択部170と、記録部190を含む。記録部190は、シーン推定装置100の処理に必要な情報を適宜記録する構成部である。
【0019】
なお、第1音響エンコーダ110、…、第M音響エンコーダ110、第1条件付き音響エンコーダ120、…、第M条件付き音響エンコーダ120、統合音響エンコーダ130を含む構成部を音響信号エンコーダ105という。また、第1映像エンコーダ140、…、第N映像エンコーダ140、第1条件付き映像エンコーダ150、…、第N条件付き映像エンコーダ150、統合映像エンコーダ160を含む構成部を映像信号エンコーダ135という。
【0020】
図2に従いシーン推定装置100の動作について説明する。以下、シーン推定装置100の動作の過程で生成される各種特徴量は、いずれも当該特徴量ごとに定まる所定の次元のベクトルである。
【0021】
S110において、第m音響エンコーダ110は、第m入力音響信号を入力とし、第m入力音響信号から、第m音響特徴量を生成し、出力する。ここで、第m音響特徴量の次元は、第m入力音響信号の次元よりも小さい。第m音響エンコーダ110の構成には、例えば、ニューラルネットワークとして多層CNN(Convolutional Neural Networks)を用いることができる。この場合、第m音響エンコーダ110は、第m入力音響信号を短時間フーリエ変換(STFT)スペクトログラムの対数絶対値に変換し、メルフィルタバンクを適用することで得られる対数メルスペクトログラムを、上記多層CNNに入力する。
【0022】
S120において、第m条件付き音響エンコーダ120は、S110で生成した第m音響特徴量と第m入力音響信号を取得した位置(以下、第m入力音響信号取得位置という)とを入力とし、第m音響特徴量と第m入力音響信号取得位置とから、第m条件付き音響特徴量を生成し、出力する。ここで、第m条件付き音響特徴量の次元は、第m音響特徴量の次元よりも小さい。第m条件付き音響エンコーダ120の構成には、例えば、1層の線形層からなるニューラルネットワークを用いることができる。この場合、第m条件付き音響エンコーダ120は、第m音響特徴量と第m入力音響信号取得位置を結合したベクトルを、上記ニューラルネットワークに入力する。
【0023】
S130において、統合音響エンコーダ130は、S120で生成した第m条件付き音響特徴量(m=1, …, M)を入力とし、第m条件付き音響特徴量(m=1, …, M)から、統合音響特徴量を生成し、出力する。統合音響エンコーダ130の構成には、例えば、1層の線形層からなるニューラルネットワークを用いることができる。この場合、統合音響エンコーダ130は、第m条件付き音響特徴量(m=1, …, M)を結合したベクトルを、上記ニューラルネットワークに入力する。
【0024】
S140において、第n映像エンコーダ140は、第n入力映像信号を入力とし、第n入力映像信号から、第n映像特徴量を生成し、出力する。ここで、第n映像特徴量の次元は、第n入力映像信号の次元よりも小さい。第n映像エンコーダ140の構成には、例えば、ニューラルネットワークとしてResNetを用いることができる(参考非特許文献1参照)。
(参考非特許文献1:D. Tran et al., “A Closer Look at Spatiotemporal Convolutions for Action Recognition,” IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR) 2018,JUNE 2018.)
第n映像エンコーダ140の構成にResNetを用いるとよい理由について説明する。第n映像エンコーダ140は、映像の各フレームの画像としての特徴に加え、フレーム間の関係を考慮した動画としての特徴を抽出できるのが好ましい。この条件を満たす構成がResNetであり、例えば、人物行動認識において高い精度を達成しているニューラルネットワークであるResNet(2+1)Dを挙げることができる。
【0025】
S150において、第n条件付き映像エンコーダ150は、S140で生成した第n映像特徴量と第n入力映像信号を取得した位置(以下、第n入力映像信号取得位置という)とを入力とし、第n映像特徴量と第n入力音映像信号取得位置とから、第n条件付き映像特徴量を生成し、出力する。ここで、第n条件付き映像特徴量の次元は、第n映像特徴量の次元よりも小さい。第n条件付き映像エンコーダ150の構成には、例えば、1層の線形層からなるニューラルネットワークを用いることができる。この場合、第n条件付き映像エンコーダ150は、第n映像特徴量と第n入力映像信号取得位置を結合したベクトルを、上記ニューラルネットワークに入力する。
【0026】
S160において、統合映像エンコーダ160は、S150で生成した第n条件付き映像特徴量(n=1, …, N)を入力とし、第n条件付き映像特徴量(n=1, …, N)から、統合映像特徴量を生成し、出力する。統合映像エンコーダ160の構成には、例えば、1層の線形層からなるニューラルネットワークを用いることができる。この場合、統合映像エンコーダ160は、第n条件付き映像特徴量(n=1, …, N)を結合したベクトルを、上記ニューラルネットワークに入力する。
【0027】
S170において、シーン選択部170は、S130で生成した統合音響特徴量とS160で生成した統合映像特徴量とを入力とし、統合音響特徴量と統合映像特徴量とを用いて、S個のシーンの中から、M個の入力音響信号とN個の入力映像信号が取得されたシーンを選択し、出力する。シーン選択部170の構成には、例えば、1層の線形層とSoftmax層からなるニューラルネットワークを用いることができる。この場合、シーン選択部170は、統合音響特徴量と統合映像特徴量を結合したベクトルを、上記ニューラルネットワークに入力する。
【0028】
なお、音響信号エンコーダ105、映像信号エンコーダ135の動作は以下のように説明できる。音響信号エンコーダ105は、第m入力音響信号(m=1, …, M)と第m入力音響信号取得位置(m=1, …, M)とを入力とし、第m入力音響信号(m=1, …, M)と第m入力音響信号取得位置(m=1, …, M)とから、統合音響特徴量を生成し、出力する。映像信号エンコーダ135は、第n入力映像信号(n=1, …, N)と第n入力映像信号取得位置(n=1, …, N)とを入力とし、第n入力映像信号(n=1, …, N)と第n入力映像信号取得位置(n=1, …, N)とから、統合映像特徴量を生成し、出力する。
【0029】
本発明の実施形態によれば、入力信号の数が多くなっても、精度よくシーンを推定することが可能となる。具体的には、信号を取得した位置に関する情報を用いることで、信号取得位置の中で特に注意を向けるべきことに関する、より次元の小さい条件付き特徴量を生成することが可能となり、当該条件付き特徴量を用いることで精度よくシーンを推定することが可能となる。
<第2実施形態>
第1実施形態では、入力として音響信号と映像信号の両方を用いたが、音響信号のみを用いるようにしてもよい。つまり、シーン推定装置200は、M個(ただし、Mは1以上の整数)の入力音響信号と当該入力音響信号を取得した位置の組を入力とし、S個(ただし、Sは1以上の整数)のシーンの中から、これらの入力音響信号が取得されたシーンを選択し、出力する。
【0030】
以下、図3図4を参照してシーン推定装置200を説明する。図3は、シーン推定装置200の構成を示すブロック図である。図4は、シーン推定装置200の動作を示すフローチャートである。図3に示すようにシーン推定装置200は、M個の音響エンコーダ110(以下、第1音響エンコーダ110、…、第M音響エンコーダ110という)と、M個の条件付き音響エンコーダ120(以下、第1条件付き音響エンコーダ120、…、第M条件付き音響エンコーダ120という)と、統合音響エンコーダ130と、シーン選択部270と、記録部190を含む。記録部190は、シーン推定装置200の処理に必要な情報を適宜記録する構成部である。
【0031】
図4に従いシーン推定装置200の動作について説明する。S110からS130までの処理は第1実施形態と同様であるから、ここではS270の処理についてのみ説明する。
【0032】
S270において、シーン選択部270は、S130で生成した統合音響特徴量を入力とし、統合音響特徴量を用いて、S個のシーンの中から、M個の入力音響信号が取得されたシーンを選択し、出力する。シーン選択部270の構成には、例えば、1層の線形層とSoftmax層からなるニューラルネットワークを用いることができる。
【0033】
本発明の実施形態によれば、入力信号の数が多くなっても、精度よくシーンを推定することが可能となる。具体的には、信号を取得した位置に関する情報を用いることで、信号取得位置の中で特に注意を向けるべきことに関する、より次元の小さい条件付き特徴量を生成することが可能となり、当該条件付き特徴量を用いることで精度よくシーンを推定することが可能となる。
<第3実施形態>
第1実施形態では、入力として音響信号と映像信号の両方を用いたが、映像信号のみを用いるようにしてもよい。つまり、シーン推定装置300は、N個(ただし、Nは1以上の整数)の入力映像信号と当該入力映像信号を取得した位置の組を入力とし、S個(ただし、Sは1以上の整数)のシーンの中から、これらの入力映像信号が取得されたシーンを選択し、出力する。
【0034】
以下、図5図6を参照してシーン推定装置300を説明する。図5は、シーン推定装置300の構成を示すブロック図である。図6は、シーン推定装置300の動作を示すフローチャートである。図5に示すようにシーン推定装置300は、N個の映像エンコーダ140(以下、第1映像エンコーダ140、…、第N映像エンコーダ140という)と、N個の条件付き映像エンコーダ150(以下、第1条件付き映像エンコーダ150、…、第N条件付き映像エンコーダ150という)と、統合映像エンコーダ160と、シーン選択部370と、記録部190を含む。記録部190は、シーン推定装置300の処理に必要な情報を適宜記録する構成部である。
【0035】
図6に従いシーン推定装置300の動作について説明する。S140からS160までの処理は第1実施形態と同様であるから、ここではS370の処理についてのみ説明する。
【0036】
S370において、シーン選択部370は、S160で生成した統合映像特徴量を入力とし、統合映像特徴量を用いて、S個のシーンの中から、N個の入力映像信号が取得されたシーンを選択し、出力する。シーン選択部370の構成には、例えば、1層の線形層とSoftmax層からなるニューラルネットワークを用いることができる。
【0037】
本発明の実施形態によれば、入力信号の数が多くなっても、精度よくシーンを推定することが可能となる。具体的には、信号を取得した位置に関する情報を用いることで、信号取得位置の中で特に注意を向けるべきことに関する、より次元の小さい条件付き特徴量を生成することが可能となり、当該条件付き特徴量を用いることで精度よくシーンを推定することが可能となる。
<補記>
図7は、上述の各装置を実現するコンピュータ2000の機能構成の一例を示す図である。上述の各装置における処理は、記録部2020に、コンピュータ2000を上述の各装置として機能させるためのプログラムを読み込ませ、制御部2010、入力部2030、出力部2040などに動作させることで実施できる。
【0038】
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD-ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
【0039】
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
【0040】
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成部)を実現する。
【0041】
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
【0042】
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
【0043】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD-RAM(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP-ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
【0044】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【0045】
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
【0046】
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
【0047】
上述の本発明の実施形態の記載は、例証と記載の目的で提示されたものである。網羅的であるという意思はなく、開示された厳密な形式に発明を限定する意思もない。変形やバリエーションは上述の教示から可能である。実施形態は、本発明の原理の最も良い例証を提供するために、そして、この分野の当業者が、熟考された実際の使用に適するように本発明を色々な実施形態で、また、色々な変形を付加して利用できるようにするために、選ばれて表現されたものである。すべてのそのような変形やバリエーションは、公正に合法的に公平に与えられる幅にしたがって解釈された添付の請求項によって定められた本発明のスコープ内である。
図1
図2
図3
図4
図5
図6
図7