特許7596105 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧

特許7596105視聴状態推定装置、ロボットシステム、視聴状態推定方法及び視聴状態推定プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-11-29

(45)【発行日】2024-12-09

(54)【発明の名称】視聴状態推定装置、ロボットシステム、視聴状態推定方法及び視聴状態推定プログラム

(51)【国際特許分類】

G06T 7/70 20170101AFI20241202BHJP

G06T 7/00 20170101ALI20241202BHJP

B25J 13/00 20060101ALI20241202BHJP

【ＦＩ】

G06T7/70 B

G06T7/00 660Z

B25J13/00 Z

【請求項の数】 10

(21)【出願番号】P 2020162380

(22)【出願日】2020-09-28

(65)【公開番号】P2022055029

(43)【公開日】2022-04-07

【審査請求日】2023-08-28

(73)【特許権者】

【識別番号】000004352

【氏名又は名称】日本放送協会

(74)【代理人】

【識別番号】100106002

【弁理士】

【氏名又は名称】正林真之

(74)【代理人】

【識別番号】100120891

【弁理士】

【氏名又は名称】林一好

(72)【発明者】

【氏名】星祐太

(72)【発明者】

【氏名】萩尾勇太

(72)【発明者】

【氏名】上村真利奈

(72)【発明者】

【氏名】金子豊

【審査官】長谷川素直

(56)【参考文献】

【文献】特開２０１５－０８２２４７（ＪＰ，Ａ）

【文献】特開２０１８－００５８９２（ＪＰ，Ａ）

【文献】特開２０１８－１８０４７２（ＪＰ，Ａ）

【文献】特開２０１６－１０００３３（ＪＰ，Ａ）

【文献】特開２０２０－１１９３６４（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ７／００

Ｈ０４Ｎ１７／００

Ｈ０４Ｎ２１／００－２１／８５８

Ｂ２５Ｊ１３／００

(57)【特許請求の範囲】

【請求項1】

ロボットの周囲を撮像した画像から合成された、全方位のパノラマ画像を取得するパノラマ画像部と、
前記パノラマ画像の各画素と対応した距離データを画素値とする距離パノラマ画像を生成する距離パノラマ画像部と、
前記パノラマ画像から、テレビ位置を検出するテレビ検出部と、
前記パノラマ画像から、視聴者の顔位置を検出する視聴者検出部と、
前記距離パノラマ画像から、前記テレビ位置及び前記顔位置における距離をそれぞれ取得する距離取得部と、
前記パノラマ画像のサイズ、前記テレビ位置及び前記顔位置に基づいて、前記ロボットから見たテレビと視聴者との間の角度を算出することにより、前記ロボット、前記視聴者及び前記テレビの位置関係を特定し、前記顔位置の画像から得られる前記視聴者の顔方向角度に基づいて、前記パノラマ画像から前記視聴者の視聴方向角度にある視聴方向画像を取得する視聴方向検出部と、
前記視聴方向画像に含まれる物体を検出し、当該物体の種類に基づいて、前記視聴者の状態を判定する視聴状態判定部と、を備える視聴状態推定装置。

【請求項2】

前記視聴方向検出部は、前記視聴者から視聴方向位置までの距離を、前記ロボットから前記視聴者までの距離と、前記ロボットから前記視聴方向位置までの距離との和で近似する請求項１に記載の視聴状態推定装置。

【請求項3】

前記視聴状態判定部は、前記視聴者の状態の一定時間内における統計情報に基づいて、視聴状態を算出する請求項１又は請求項２に記載の視聴状態推定装置。

【請求項4】

前記視聴状態判定部は、前記視聴状態として、前記テレビを視聴している割合を示す視聴度を算出する請求項３に記載の視聴状態推定装置。

【請求項5】

前記視聴状態判定部は、前記視聴状態として、前記テレビを見ている状態、及び他者を見ている状態を含む複数の状態のいずれであるかを判定する請求項３に記載の視聴状態推定装置。

【請求項6】

請求項４に記載の視聴状態推定装置と、
前記視聴状態推定装置から出力された前記視聴度を、所定の閾値と比較した結果により、前記ロボットの動作を制御する動作制御部と、を備えるロボットシステム。

【請求項7】

前記動作制御部は、前記所定の閾値を複数設け、前記視聴度を当該複数の閾値と比較した結果により、前記ロボットの制御を段階的に変更する請求項６に記載のロボットシステム。

【請求項8】

請求項５に記載の視聴状態推定装置と、
前記視聴状態推定装置から出力された前記複数の状態の区分に応じて、前記ロボットの動作を制御する動作制御部と、を備えるロボットシステム。

【請求項9】

ロボットの周囲を撮像した画像から合成された、全方位のパノラマ画像を取得するパノラマ画像生成ステップと、
前記パノラマ画像の各画素と対応した距離データを画素値とする距離パノラマ画像を生成する距離パノラマ画像生成ステップと、
前記パノラマ画像から、テレビ位置を検出するテレビ検出ステップと、
前記パノラマ画像から、視聴者の顔位置を検出する視聴者検出ステップと、
前記距離パノラマ画像から、前記テレビ位置及び前記顔位置における距離をそれぞれ取得する距離取得ステップと、
前記パノラマ画像のサイズ、前記テレビ位置及び前記顔位置に基づいて、前記ロボットから見たテレビと視聴者との間の角度を算出することにより、前記ロボット、前記視聴者及び前記テレビの位置関係を特定し、前記顔位置の画像から得られる前記視聴者の顔方向角度に基づいて、前記パノラマ画像から前記視聴者の視聴方向角度にある視聴方向画像を取得する視聴方向検出ステップと、
前記視聴方向画像に含まれる物体を検出し、当該物体の種類に基づいて、前記視聴者の状態を判定する視聴状態判定ステップと、をコンピュータが実行する視聴状態推定方法。

【請求項10】

請求項１から請求項５のいずれかに記載の視聴状態推定装置としてコンピュータを機能させるための視聴状態推定プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、テレビ視聴者の状態を推定するための装置、方法及びプログラムに関する。

【背景技術】

【0002】

従来、視聴者と一緒にテレビ番組等の映像を視聴するロボットにおいて、視聴者の視聴状態に応じて動作を制御する技術が研究されている。
視聴状態を推定する技術として、例えば、テレビを視聴するような室内において、視聴者が向いている方向を検出するために、カメラを設置して観測する方法、又は視聴者に眼鏡型の視線方向取得装置を装着させて、視聴者の視線方向データを取得する方法がある。

【0003】

さらに、推定された視聴状態に応じた制御として、例えば、特許文献１では、ユーザの視線方向を検出し、画像投影デバイスから映像を投影する表示位置を決定すると共に、表示画像の幾何補正を行い表示させることで、ユーザが見やすい画像を表示する装置が提案されている。
また、特許文献２では、コンテンツを視聴中の視聴者を含む画像から、視聴状態を検出し、視聴しているコンテンツの開始時からの経過時間に関連付ける装置が提案されている。

【先行技術文献】

【特許文献】

【0004】

【文献】特開２０１７－５５１７８号公報

【文献】特許第６６１４５４７号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

視聴状態を推定する従来の方法のうち、天井、壁面、又はテレビの上等にカメラを設置した実験室のような特定の場所で、視聴者の映像から視線方向を推定する方法は、実験的に一定期間のみ実施されるものである。したがって、日常的な視聴環境において視聴者の視線方向を推定することは困難である。
また、眼鏡型の視線方向取得装置を視聴者の頭部に装着させる方法は、日常的な視聴状況とは異なり、装着することによる違和感が生じ視聴の負担ともなる。したがって、これも日常的な視聴環境においては困難な方法である。

【0006】

特許文献１の方法では、室内の天井部分の四隅に撮像デバイスが設けられ、撮像デバイスから取得される撮像画像に基づき、ユーザの視線方向が推定される。この場合、室内に撮像デバイスを設置する必要があるが、家庭の室内に設置することは困難である。また、室内全体を撮像するために撮像デバイスが複数台必要である。

【0007】

特許文献２の方法では、視聴者を含むカメラ画像から抽出した視聴者のバイタル情報に基づいて、視聴者の視聴状態を判定しているが、カメラをディスプレイ上部等に設置する必要があり、日常的な視聴状況とは異なってしまう。また、この方法では、視聴者がディスプレイではなく他者の方を向いて会話をしている等の情報は取得できず、実際には視聴していないときのバイタル情報をも反映させてしまい適切な視聴状態を判定できなくなってしまう。

【0008】

本発明は、追加のカメラ等の装置を用いることなく、ロボットにおいて視聴者の視聴状態を推定できる視聴状態推定装置、視聴状態推定方法及び視聴状態推定プログラムを提供することを目的とする。

【課題を解決するための手段】

【0009】

本発明に係る視聴状態推定装置は、ロボットの周囲を撮像した画像から合成された、全方位のパノラマ画像を取得するパノラマ画像部と、前記パノラマ画像の各画素と対応した距離データを画素値とする距離パノラマ画像を生成する距離パノラマ画像部と、前記パノラマ画像から、テレビ位置を検出するテレビ検出部と、前記パノラマ画像から、視聴者の顔位置を検出する視聴者検出部と、前記距離パノラマ画像から、前記テレビ位置及び前記顔位置における距離をそれぞれ取得する距離取得部と、前記パノラマ画像のサイズ、前記テレビ位置及び前記顔位置に基づいて、前記ロボットから見たテレビと視聴者との間の角度を算出することにより、前記ロボット、前記視聴者及び前記テレビの位置関係を特定し、前記顔位置の画像から得られる前記視聴者の顔方向角度に基づいて、前記パノラマ画像から前記視聴者の視聴方向角度にある視聴方向画像を取得する視聴方向検出部と、前記視聴方向画像に含まれる物体を検出し、当該物体の種類に基づいて、前記視聴者の状態を判定する視聴状態判定部と、を備える。

【0010】

前記視聴方向検出部は、前記視聴者から視聴方向位置までの距離を、前記ロボットから前記視聴者までの距離と、前記ロボットから前記視聴方向位置までの距離との和で近似してもよい。

【0011】

前記視聴状態判定部は、前記視聴者の状態の一定時間内における統計情報に基づいて、視聴状態を算出してもよい。

【0012】

前記視聴状態判定部は、前記視聴状態として、前記テレビを視聴している割合を示す視聴度を算出してもよい。

【0013】

前記視聴状態判定部は、前記視聴状態として、前記テレビを見ている状態、及び他者を見ている状態含む複数の状態を判定してもよい。

【0014】

本発明に係るロボットシステムは、前記視聴状態推定装置と、前記視聴状態推定装置から出力された前記視聴度を、所定の閾値と比較した結果により、前記ロボットの動作を制御する動作制御部と、を備える。

【0015】

前記動作制御部は、複数の閾値に基づいて、前記ロボットの制御を段階的に変更してもよい。

【0016】

本発明に係るロボットシステムは、前記視聴状態推定装置と、前記視聴状態推定装置から出力された前記複数の状態の区分に応じて、前記ロボットの動作を制御する動作制御部と、を備える。

【0017】

本発明に係る視聴状態推定方法は、ロボットの周囲を撮像した画像から合成された、全方位のパノラマ画像を取得するパノラマ画像生成ステップと、前記パノラマ画像の各画素と対応した距離データを画素値とする距離パノラマ画像を生成する距離パノラマ画像生成ステップと、前記パノラマ画像から、テレビ位置を検出するテレビ検出ステップと、前記パノラマ画像から、視聴者の顔位置を検出する視聴者検出ステップと、前記距離パノラマ画像から、前記テレビ位置及び前記顔位置における距離をそれぞれ取得する距離取得ステップと、前記パノラマ画像のサイズ、前記テレビ位置及び前記顔位置に基づいて、前記ロボットから見たテレビと視聴者との間の角度を算出することにより、前記ロボット、前記視聴者及び前記テレビの位置関係を特定し、前記顔位置の画像から得られる前記視聴者の顔方向角度に基づいて、前記パノラマ画像から前記視聴者の視聴方向角度にある視聴方向画像を取得する視聴方向検出ステップと、前記視聴方向画像に含まれる物体を検出し、当該物体の種類に基づいて、前記視聴者の状態を判定する視聴状態判定ステップと、をコンピュータが実行する。

【0018】

本発明に係る視聴状態推定プログラムは、前記視聴状態推定装置としてコンピュータを機能させるためのものである。

【発明の効果】

【0019】

本発明によれば、追加のカメラ等の装置を用いることなく、ロボットにおいて視聴者の視聴状態を推定できる。

【図面の簡単な説明】

【0020】

【図1】実施形態における視聴状態推定装置が組み込まれたロボットの利用シーンを説明する図である。

【図2】実施形態における視聴状態推定装置の機能構成を示すブロック図である。

【図3】実施形態における合成位置データを例示する図である。

【図4】実施形態における距離パノラマ画像部の機能構成を示す図である。

【図5】実施形態における距離画像合成部の動作内容を例示する図である。

【図6】実施形態における重複区間算出部の動作内容を例示する図である。

【図7】実施形態における距離画像データベースを例示する図である。

【図8】実施形態における距離パノラマ画像データベースを例示する図である。

【図9】実施形態における視聴者検出部の機能構成を示す図である。

【図10】実施形態における視聴方向検出部の機能構成を示す図である。

【図11】実施形態におけるロボット、テレビ、視聴者の位置関係を示す図である。

【図12】実施形態におけるテレビ－視聴者間の角度の算出方法を説明する図である。

【図13】実施形態における顔方向角度を説明する図である。

【図14】実施形態におけるロボット、視聴者、及び視聴方向位置の位置関係を示す図である。

【図15】実施形態における視聴方向画像の取得方法を例示する図である。

【図16】実施形態における視聴状態判定部の機能構成を示す図である。

【図17】実施形態における視聴度の算出例を示す図である。

【発明を実施するための形態】

【0021】

以下、本発明の実施形態の一例について説明する。
図１は、本実施形態における視聴状態推定装置１０が組み込まれたロボット１の利用シーンを説明する図である。

【0022】

ロボット１は、例えば、テレビを視聴する視聴者の側にある卓上等に設置される。ロボット１は、視聴状態推定装置１０の他、撮像部２０及び距離検出部３０を備え、さらに、視聴状態推定装置１０により推定された視聴状態に応じて発話等の動作を行う動作制御部４０を備える。

【0023】

視聴状態推定装置１０は、撮像部２０から得られるロボット周囲の画像データと、距離検出部３０から得られる距離データとを取得し、後述の手法により、ロボット１からテレビまでの距離、ロボット１から視聴者までの距離、視聴者の視聴方向を求め、さらに、視聴者の視聴方向の画像を取得することで視聴状態を推定する。

【0024】

撮像部２０は、ロボット１に搭載され、画像を取得するためのカメラであり、モータにより水平方向に回転し、ロボット１の周囲を撮影するものであってよい。
なお、撮像部２０は、回転しつつ画像を取得する手法に限らず、例えば、複数個のカメラからなるカメラアレイをロボット１に搭載して画像を取得するものであってもよい。

【0025】

距離検出部３０は、照射部から照射した赤外線光と、対象物に反射して受光部へ到達した光に基づいて距離データを取得する。赤外線の照射方式は、例えば、パターン方式又はＴＯＦ（ＴｉｍｅＯｆＦｌｉｇｈｔ）方式による。距離検出部３０は、撮像部２０により画像を取得した際に、時刻同期して、また、画像の各画素に対応する方向の距離データを取得する。

【0026】

ここで、視聴状態は、例えば、テレビを見ている、他者を見ている、その他を見ている等、視聴方向の区分を示す。
動作制御部４０は、視聴状態推定装置１０により推定された視聴状態に応じて、ロボット１による発話等の動作を変化させる。

【0027】

図２は、本実施形態における視聴状態推定装置１０の機能構成を示すブロック図である。
視聴状態推定装置１０は、制御部、記憶部、及び入出力インタフェース等を備えた情報処理装置（コンピュータ）であり、記憶部に格納されたソフトウェア（視聴状態推定プログラム）を制御部が実行することにより、次の各機能部として動作する。
視聴状態推定装置１０は、パノラマ画像部１１と、距離パノラマ画像部１２と、視聴者検出部１３と、テレビ検出部１４と、距離取得部１５と、視聴方向検出部１６と、視聴状態判定部１７とを備える。

【0028】

パノラマ画像部１１は、撮像部２０により取得したロボット１の周囲の複数枚の画像を重ね合わせて、ロボット１から見た水平全方位のパノラマ画像を生成する。なお、パノラマ画像を生成するためのソフトウェアとして、オープンソースＯｐｅｎＣＶ・Ｓｔｉｔｃｈｅｒクラスを利用できるが、生成手法はこれに限られない。

【0029】

また、パノラマ画像部１１は、複数枚の画像を合成した際の合成位置データＤｃを出力する。
図３は、本実施形態における合成位置データＤｃを例示する図である。
合成位置データＤｃは、パノラマ画像を生成するとき、画像を張り合わせた複数枚の画像の番号と、合成位置の座標とで構成される。
例えば、１番目の画像の座標（１５０，１０）に２番目の画像の座標（０，０）が張り合わされ、ｎ番目の画像の座標（ｘ_ｎ，ｙ_ｎ）に１番目の画像の座標（０，０）が張り合わされる。
また、この例では、同期して取得された距離画像の番号が対応付けられている。

【0030】

距離パノラマ画像部１２は、距離検出部３０で取得した距離データを用いて、パノラマ画像部１１で生成されるパノラマ画像と同様に、距離データを画素値とした距離パノラマ画像を生成する。

【0031】

図４は、本実施形態における距離パノラマ画像部１２の機能構成を示す図である。
距離パノラマ画像部１２は、距離画像合成部１２１と、重複区間算出部１２２とを備え、合成位置データＤｃが入力され、距離パノラマ画像データＤｐを出力する。

【0032】

距離画像合成部１２１は、パノラマ画像部１１から入力された合成位置データＤｃを用いて、パノラマ画像部１１で合成された複数枚の画像と同位置に、距離検出部３０より得られた複数枚の距離画像を合成する。
ここで、撮像された画像の各画素に対応する距離データは、距離画像データベース１２Ａに保存されている。なお、距離画像データベース１２Ａは、視聴状態推定装置１０の記憶部に格納されてもよいし、ロボット１の各部がアクセス可能な共通の記憶部に設けられてもよい。

【0033】

重複区間算出部１２２は、合成した距離画像が重複する区間（画素）において、重複している複数個の距離データを平均し、画素毎の距離データを決定する。
なお、距離データの決定方法はこれに限られず、いずれかの距離画像のデータを代表として決定してもよい。

【0034】

図５は、本実施形態における距離画像合成部１２１の動作内容を例示する図である。
例えば、撮像部２０で画像１と画像２とが順に取得され、画像２を画像１における合成位置Ｐ_ｃ１（１５０，０）で合成した場合、距離画像合成部１２１は、画像１及び画像２と同時に取得された距離画像１及び距離画像２も同様に合成し、距離画像データベース１２Ａから取得した距離データを各画素にマッピングする。

【0035】

図６は、本実施形態における重複区間算出部１２２の動作内容を例示する図である。
例えば、前述の図５のように距離画像１と距離画像２とを合成するとき、距離画像１における座標Ｐ_１（１５０，１５９）の距離データが１．５０、距離画像２における座標Ｐ_２（０，１５９）の距離データが１．６０であったとする。この場合、重複区間算出部１２２は、平均値（１．５０＋１．６０）／２＝１．５５を、距離パノラマ画像の位置（１５０，１５９）における距離データとして決定する。
あるいは、重複区間算出部１２２は、距離画像２のＰ_２（０，１５９）の距離データ１．６０を、距離パノラマ画像の距離データとして採用してもよい。

【0036】

同様に、重複区間算出部１２２は、重複区間の全体について、各画素に対応する距離データを決定する。
決定された距離データは、記憶部の距離パノラマ画像データベース１２Ｂに記憶される。

【0037】

図７は、本実施形態における距離画像データベース１２Ａを例示する図である。
距離画像データベース１２Ａでは、距離画像番号ｎ_ｄ毎に、距離画像内の位置（座標ｘ_ｄ，ｙ_ｄ）と、距離データｌ_ｄとが対応付けられ、各距離画像における各画素の距離データが格納されている。

【0038】

図８は、本実施形態における距離パノラマ画像データベース１２Ｂを例示する図である。
距離パノラマ画像データベース１２Ｂには、パノラマ画像の画像番号ｎ_ｐ、位置（座標ｘ_ｐ，ｙ_ｐ）、距離データｌ_ｐで構成される距離パノラマ画像データが格納されている。

【0039】

視聴者検出部１３は、パノラマ画像部１１により生成されたパノラマ画像から、視聴者の顔位置を検出し、パノラマ画像上の顔位置を取得する。

【0040】

図９は、本実施形態における視聴者検出部１３の機能構成を示す図である。
視聴者検出部１３は、人検出部１３１と、顔検出部１３２とを備える。

【0041】

人検出部１３１は、パノラマ画像部１１より取得したパノラマ画像から人検出を行う。人検出の手段として、例えば、オープンソースのＯｐｅｎＣＶ（Ｈａａｒｃａｓｃａｄｅ検出器ｆｕｌｌｂｏｄｙモデル）又はＦａｓｔｅｒ－ＲＣＮＮ等のソフトウェアを利用できるが、検出手法はこれらに限られない。
人検出部１３１は、人を検出した場合、視聴者フラグｆ_ｈ＝１を、人を検出しなかった場合、視聴者フラグｆ_ｈ＝０を出力する。

【0042】

顔検出部１３２は、人検出部１３１により人、すなわち視聴者が検出されたとき（ｆ_ｈ＝１）、パノラマ画像部１１により生成されたパノラマ画像から顔検出を行い、パノラマ画像上の顔位置を取得する。一方、視聴者が検出されなかったとき（ｆ_ｈ＝０）には、顔検出部１３２は、顔検出を行わないこととし、撮像部２０から新たな画像を取得する処理に進み高速化を図る。
顔検出の手段には、例えば、オープンソースのＯｐｅｎＣＶ（Ｈａａｒ－ｃａｓｃａｄｅ検出器）又はＯｐｅｎＦａｃｅ等のソフトウェアを利用できるが、検出手法はこれらに限られない。

【0043】

ここで、顔位置は、顔部分が四角枠で検出され、顔検出部１３２は、四角枠の始点Ｐ_ｓｆ（ｘ_ｓｆ，ｙ_ｓｆ）及び終点Ｐ_ｅｆ（ｘ_ｅｆ，ｙ_ｅｆ）から中心点Ｐ_ｆ（ｘ_ｆ，ｙ_ｆ）を算出する。顔の中心点Ｐ_ｆは、顔位置の距離取得に用いられる。
顔検出部１３２は、顔を検出した場合に顔フラグｆ_ｆ＝１を、顔を検出しなかった場合に顔フラグｆ_ｆ＝０を出力する。

【0044】

テレビ検出部１４は、パノラマ画像部１１により生成されたパノラマ画像からテレビ検出を行い、パノラマ画像上のテレビ位置を取得する。
テレビ検出の手段には、例えば、オープンソースのＦａｓｔｅｒ－ＲＣＮＮ等のソフトウェアを利用できるが、検出手法はこれに限られない。

【0045】

ここで、テレビ位置は、テレビ部分が四角枠で検出され、テレビ検出部１４は、四角枠の始点Ｐ_ｓｔｖ（ｘ_ｓｔｖ，ｙ_ｓｔｖ）及び終点Ｐ_ｅｔｖ（ｘ_ｅｔｖ，ｙ_ｅｔｖ）から中心点Ｐ_ｔｖ（ｘ_ｔｖ，ｙ_ｔｖ）を算出する。テレビの中心点Ｐ_ｔｖは、テレビ位置の距離取得に用いられる。
テレビ検出部１４は、テレビを検出した場合にテレビフラグｆ_ｔｖ＝１を、テレビを検出しなかった場合にテレビフラグｆ_ｔｖ＝０を出力する。

【0046】

距離取得部１５は、検出された視聴者及びテレビの各位置における距離データを距離パノラマ画像から取得する。
具体的には、距離取得部１５は、顔検出部１３２から顔中心点Ｐ_ｆと、テレビ検出部１４からテレビ中心点Ｐ_ｔｖとを取得し、距離パノラマ画像データベース１２Ｂに格納している距離データのうち、ロボット１から視聴者の顔までの距離ｄ_ｆと、ロボット１からテレビまでの距離ｄ_ｔｖとを取得する。
例えば、顔中心点Ｐ_ｆが（１０００，２００）の場合、距離パノラマ画像における点（１０００，２００）における距離データｌｄを取得し、ｄ_ｆ＝ｌ_ｄとする。テレビ中心点Ｐ_ｔｖが（３０００，１５０）の場合、パノラマ距離画像における点（３０００，１５０）における距離データｌ_ｄを取得し、ｄ_ｔｖ＝ｌ_ｄとする。

【0047】

視聴方向検出部１６は、ロボット１から視聴者の顔までの距離、ロボット１からテレビまでの距離、及びロボット１から見た視聴者とテレビとの間の角度を取得することにより、ロボット１、視聴者及びテレビの位置関係を特定し、視聴者の顔方向角度から視聴方向及び視聴画像を取得する。

【0048】

図１０は、本実施形態における視聴方向検出部１６の機能構成を示す図である。
視聴方向検出部１６は、テレビ－視聴者間角度算出部１６１と、テレビ－視聴者間距離算出部１６２と、ロボット－テレビ間角度算出部１６３と、顔方向角度取得部１６４と、視聴方向角度算出部１６５と、視聴方向画像取得部１６６とを備える。

【0049】

図１１は、本実施形態におけるロボット１、テレビ、視聴者の位置関係を示す図である。
ロボット１（点Ａ）、視聴者（点Ｂ）及びテレビ（点Ｃ）からなる三角形において、ＢＣ＝ｒ、ＡＢ＝ｒ_１、ＡＣ＝ｒ_２が固定されている。
また、ロボット１から見た視聴者とテレビとの間の角度（∠ＢＡＣ）＝θ_ｒ、視聴者から見たロボットとテレビとの間の角度∠ＡＢＣ＝θ_ｈ、テレビから見たロボット１と視聴者との間の角度∠ＡＣＢ＝θ_ｔｖが固定されている。

【0050】

この位置関係において、視聴者がロボット１から顔方向角度θ_ｈ’ずれた方向に顔を向けている場合、視聴者は、視聴方向位置（点Ｄ）を見ていると仮定する。ここで、ＡＤ＝ＡＣ＝ｒ_２と仮定する。また、ＢＤ＝ｒ’である。
このとき、ロボット１から見た視聴者と視聴方向位置との間の角度∠ＢＡＤ＝θ_ｒ’となる。

【0051】

テレビ－視聴者間角度算出部１６１は、ロボット１から見たテレビと視聴者との間の角度θ_ｒを算出する。
図１２は、本実施形態におけるテレビ－視聴者間の角度θ_ｒの算出方法を説明する図である。

【0052】

まず、テレビ－視聴者間角度算出部１６１は、顔中心点Ｐ_ｆ（ｘ_ｆ，ｙ_ｆ）及びテレビ中心点Ｐ_ｔｖ（ｘ_ｔｖ，ｙ_ｔｖ）から、パノラマ画像におけるテレビと視聴者との間の画素数ｄ_１を次のように算出する。
ｄ_１＝｜ｘ_ｔｖ－ｘ_ｆ｜
次に、テレビ－視聴者間角度算出部１６１は、パノラマ画像のサイズ（Ｘ_ｐ，Ｙ_ｐ）から、パノラマ画像におけるテレビと視聴者との間の画素数ｄ_２を次のように算出する。
ｄ_２＝｜Ｘ_ｐ－ｄ_１｜

【0053】

そして、テレビ－視聴者間角度算出部１６１は、テレビと視聴者との間の画素数ｄ_１とｄ_２とを比較し、
ｄ＝ｍｉｎ（ｄ_１，ｄ_２）
とする。

【0054】

テレビ－視聴者間角度算出部１６１は、パノラマ画像におけるｘ軸のサイズＸ_ｐをロボット１の周囲の角度３６０度に換算し、テレビと視聴者との間の画素数ｄから、ロボット１から見たテレビと視聴者との間の角度θ_ｒを次のように算出する。
θ_ｒ＝ｄ×角度ａ
角度ａ＝３６０／Ｘ_ｐ

【0055】

例えば、パノラマ画像において、ｘ軸のサイズＸ_ｐ＝４３２０、テレビ位置のｘ軸値ｘ_ｔｖ＝３５４１、顔位置のｘ軸値ｘ_ｆ＝７１３であったとき、ロボット１から見たテレビと視聴者との間の角度θ_ｒは、次のように算出される。
ｄ_１＝３５４１－７１３＝２８２８
ｄ_２＝４３２０－２８２８＝１４９２
ｄ＝ｄ_２＝１４９２
θ_ｒ＝１４９２×３６０／４３２０≒１２４度

【0056】

テレビ－視聴者間距離算出部１６２は、ロボット１から見たテレビと視聴者との間の角度θ_ｒ、ロボット１から視聴者までの距離ｒ_１＝ｄ_ｆ、ロボット１からテレビまでの距離ｒ_２＝ｄ_ｔｖを用いて、テレビと視聴者との間の距離ｒを次のように算出する。
ｒ＝√（ｒ_１ ^２＋ｒ_２ ^２－２ｒ_１ｒ_２ｃｏｓθ_ｒ）

【0057】

ロボット－テレビ間角度算出部１６３は、ロボット１とテレビとの間の角度θ_ｈを、余弦定理を用いて次のように算出する。
ｒ_２ ^２＝ｒ^２＋ｒ_１ ^２－２ｒｒ_１ｃｏｓθ_ｈ
θ_ｈ＝ｃｏｓ^－１［（ｒ^２＋ｒ_１ ^２－ｒ_２ ^２）／（２ｒｒ_１）］

【0058】

顔方向角度取得部１６４は、顔検出部１３２により検出された顔画像に基づいて、ロボット１から見た視聴者の顔方向角度θ_ｈ’を推定し、時刻Ｔと共に取得する。

【0059】

図１３は、本実施形態における顔方向角度θ_ｈ’を説明する図である。
顔方向角度θ_ｈ’は、視聴者の顔がロボット１に正対している状態（Ａ）を基準とし、（Ｂ）のように基準の方向（ｙ軸）から、視聴者の顔が向いている方向（ｙ_ｈ軸）までの角度である。
なお、顔方向角度θ_ｈ’を推定するためには、例えば、オープンソースのＯｐｅｎＦａｃｅ等のソフトウェアを利用できるが、推定手法はこれに限られない。

【0060】

視聴方向角度算出部１６５は、ロボット１から見た視聴者と、視聴者が見ている先（視聴方向位置）との間の視聴方向角度θ_ｒ’を、余弦定理を用いて次のように算出する。
ｒ_２ ^２＝ｒ’^２＋ｒ_１ ^２－２ｒ’ｒ_１ｃｏｓθ_ｈ’
ｒ’^２＝ｒ_１ ^２＋ｒ_２ ^２－２ｒ_１ｒ_２ｃｏｓθ_ｒ’
θ_ｒ’＝ｃｏｓ^－１［（ｒ_１／ｒ_２）－（ｒ’／ｒ_２）ｃｏｓθ_ｈ’］
ここで、視聴者から視聴方向位置までの距離ｒ’は、例えば、次のように近似して求めることができる。

【0061】

図１４は、本実施形態におけるロボット１、視聴者、及び視聴方向位置の位置関係を示す図である。
ここで、ロボット１（点Ａ）は、例えば、視聴者（点Ｂ）とテレビとの間のテーブル等に置かれており、視聴方向位置を点Ｄとしたとき、点Ａと線分ＢＤとの距離が十分に近いこととする。
この場合、点Ａから線分ＢＤへ下した垂線の足をＥとし、ＢＥ＝ｒ_１’，ＤＥ＝ｒ_２’とすると、
ｒ’＝｜ｒ_１ ^２－ｒ_２ ^２｜／｜ｒ_１’－ｒ_２’｜
に対して、
ｒ_１’≒ｒ_１，ｒ_２’≒ｒ_２
と近似でき、すなわち、
ｒ’＝ｒ_１＋ｒ_２
と算出される。

【0062】

視聴方向画像取得部１６６は、視聴方向角度θ_ｒ’、テレビ－視聴者間角度θ_ｒ、パノラマ画像におけるテレビ中心点Ｐ_ｔｖ（ｘ_ｔｖ，ｙ_ｔｖ）を用いて、視聴方向位置Ｐ_ｖ（ｘ_ｖ）を次のように算出し、視聴方向画像を取得する。
ｘ_ｖ＝ｘ_ｔｖ－（θ_ｒ’－θ_ｒに相当する画素数）

【0063】

このとき、視聴方向画像取得部１６６は、例えば、撮像部２０の水平画角θ_ｃを画角画素数ｄ_ｃに変換し、視聴方向位置Ｐ_ｖ（ｘ_ｖ）を中心に（ｘ_ｖ－（ｄ_ｃ／２）、ｘ_ｖ＋（ｄ_ｃ／２））、又は（ｘ_ｖ－（ｄ_ｃ／２）、ｘ_ｖ＋（ｄ_ｃ／２）－１）等の範囲の画像を取得する。
ｄ_ｃ＝（Ｘ_ｐ／３６０）×θ_ｃ
あるいは、視聴方向画像取得部１６６は、撮像部２０による撮像画像のサイズ（画素数）が既知の場合に、この画素数をｄ_ｃとして用いてもよい。

【0064】

図１５は、本実施形態における視聴方向画像の取得方法を例示する図である。
例えば、カメラの水平画角θ_ｃ＝４０、パノラマ画像のｘ軸のサイズＸ_ｐ＝４３２０、テレビ中心点のｘ座標ｘ_ｔｖ＝３８００、θ_ｒ’－θ_ｒ＝０の場合、ｄ_ｃ＝（４３２０／３６０）×４０＝４８０、ｘ_ｖ＝３８００－０＝３８００となるので、視聴方向画像取得部１６６は、（３８００－２４０、３８００＋２４０）＝（３５６０、４０４０）の範囲の画像を取得する。
また、例えば、θ_ｒ’－θ_ｒ＝３５の場合、ｄ_ｃ＝（４３２０／３６０）×４０＝４８０、ｘ_ｖ＝３８００－（（４３２０／３６０）×３５）＝３３８０となるので、視聴方向画像取得部１６６は、（３３８０－２４０、３３８０＋２４０）＝（３１４０、３６２０）の範囲の画像を取得する。

【0065】

また、視聴方向画像取得部１６６は、テレビ中心点Ｐ_ｔｖではなく、視聴者の顔中心点Ｐ_ｆ（ｘ_ｆ，ｙ_ｆ）を用いて、次のように視聴方向位置Ｐ_ｖ（ｘ_ｖ）を算出してもよい。
ｘ_ｖ＝ｘ_ｆ－（θ_ｒ’に相当する画素数）

【0066】

視聴状態判定部１７は、視聴方向画像を一定時間取得し統計処理することにより、視聴者がテレビを視聴しているか否かといった視聴状態を判定する。
本実施形態では、視聴状態として視聴度を定義する。
視聴度は、テレビ視聴時におけるユーザの視聴度合いの指標であり、値が大きいほどテレビを視聴していること、逆に、値が小さいほどテレビを視聴していないことを示す。

【0067】

図１６は、本実施形態における視聴状態判定部１７の機能構成を示す図である。
視聴状態判定部１７は、視聴方向物体検出部１７１と、視聴度算出部１７２とを備え、視聴方向画像が入力されることにより、視聴度Ｉ_ｗを出力する。

【0068】

視聴方向物体検出部１７１は、入力された視聴方向画像から物体検出を行い、キーワードを抽出する。物体検出の手段として、例えば、オープンソースのＦａｓｔｅｒ－ＲＣＮＮ等のソフトウェアを利用できるが、検出手法はこれに限られない。

【0069】

視聴度算出部１７２は、視聴方向物体検出部１７１で抽出されたキーワードを用いて、視聴者が実際にテレビを視聴している度合いを表す指標として、視聴度Ｉ_ｗ（Ｔ）を算出する。

【0070】

図１７は、本実施形態における視聴度Ｉ_ｗ（Ｔ）の算出例を示す図である。
時刻Ｔにおいて、視聴方向物体検出部１７１により「テレビ」、「テレビジョン」、「モニタ」等の映像視聴デバイスを示す種類のキーワードが抽出された場合、視聴度算出部１７２は、視聴状態を「テレビ」とする。また、一緒にテレビを視聴している人が検出された場合、視聴度算出部１７２は、視聴状態を「他者」とする。これら以外の場合の視聴状態は、「その他」と定義される。

【0071】

本実施形態では、一定時間Ｔ_ｆにおいて、検出回数に占める「テレビ」の視聴状態の割合を視聴度Ｉ_ｗとした。図１７の例では、視聴度Ｉ_ｗ＝０．６であり、他者又はその他に視線を移しつつも、テレビに注目していることが分かる。

【0072】

この場合、動作制御部４０は、例えば、ロボットが視聴者へ話し掛けるための閾値を０．５とし、視聴度Ｉ_ｗが所定以上に高いことから、ロボット１が視聴者へ話し掛ける制御を行ってもよい。
また、例えば、算出した視聴度Ｉ_ｗが０．８等、「テレビ」の視聴状態割合が特に高かったときは、集中してテレビを視聴している可能性が高いため、動作制御部４０は、ロボット１が視聴者に話し掛けるのを控えるように制御してもよい。

【0073】

逆に、Ｉ_ｗが０．３、すなわちテレビ方向を視聴している時間が１０分当たり３分間程度のように、テレビの視聴状態割合が低かったときは、テレビへの関心を抱かせるために、動作制御部４０は、ロボット１が視聴者への話し掛けや身振り手振りを用いた動作を行うように制御してもよい。
例えば、視聴者がテレビ方向を見ていないときに、ロボット１が視聴者や周囲を見まわす動作をしながら、「この場所にぜひとも行ってみたい。」、「チャンネルを変えてみますか？」等、テレビへの関与を促す発話をする。
このように、閾値を段階的に設定し、例えば、Ｉ_ｗが高い時は発話のみ、Ｉ_ｗが低い時は発話と共に身振り手振りによる動作を実施する等、動作制御部４０は、視聴者毎に適宜ロボット１を制御してよい。

【0074】

また、視聴状態として、「テレビ」、「他者」、「その他」といった視聴方向を示す複数種類の区分が取得された場合、動作制御部４０は、この区分に応じてロボット１の動作を変更してもよい。例えば、テレビ番組の内容に関して、開示、質問、確認、情報、応答等の発話種別それぞれの発話頻度が次のように調整されてもよい。

【0075】

視聴方向が「テレビ」であることが多い場合、視聴者はテレビを注視している状態と考えられるので、動作制御部４０は、視聴者の中止状態を妨げるような、回答を求める質問又は確認の発話頻度を低くする。
視聴方向が「他者」であることが多い場合、視聴者は他者とのコミュニケーションを多く取っている状態と考えられるので、動作制御部４０は、他者とのコミュニケーションの邪魔をしないように、全ての発話種別の発話頻度を低くする。
視聴方向が「その他」であることが多い場合、視聴者はテレビを注視していないし、他者とのコミュニケーションも取っていないと考えられるので、動作制御部４０は、テレビ視聴への関心を促すため、開示又は質問の発話頻度を高くする。

【0076】

本実施形態によれば、視聴状態推定装置１０は、ロボット１の周囲全方位のパノラマ画像から視聴者の顔及びテレビを検出し、両者の画像上の距離とパノラマ画像のサイズとから、ロボット１から見たテレビと視聴者との間の角度を算出する。さらに、視聴状態推定装置１０は、検出したテレビ及び視聴者のロボット１からの距離を測定することにより、ロボット１、視聴者及びテレビの位置関係を特定する。そして、視聴状態推定装置１０は、顔位置の画像から得られる視聴者の顔方向角度に基づいて、パノラマ画像から視聴者の視聴方向角度にある視聴方向画像に含まれる物体を検出し、この物体の種類に基づいて、視聴者の状態を判定する。

【0077】

したがって、視聴状態推定装置１０は、家庭内の天井等にカメラ等の撮像デバイスを設置することなく、また、視聴者に視線方向取得装置を装着させることなく、卓上等に設置したロボット１において、パノラマ画像に基づいて、視聴方向画像内の物体を検出することで視聴者の視聴状態を推定できる。
この結果、ロボット１は、視聴者がテレビを視聴しているときは話し掛けない配慮をしたり、テレビを視聴していないときはテレビへの関与を促す発話や、身振り手振りの仕草をしたりといった、視聴状態に応じた動作を実現できる。

【0078】

視聴状態推定装置１０は、視聴者から視聴方向位置までの距離を、ロボット１から視聴者までの距離と、ロボット１から視聴方向位置までの距離との和で近似することにより、容易に視聴方向位置を特定して、視聴状態を推定できる。

【0079】

視聴状態推定装置１０は、視聴者の状態の一定時間内における統計情報に基づいて、視聴状態を算出するので、視聴方向位置の算出誤差を低減し、判定される視聴状態の信頼性を向上できる。

【0080】

視聴状態推定装置１０は、視聴状態として、テレビを視聴している割合を示す視聴度を算出するので、動作制御部４０は、視聴者が実際にテレビを注視している度合いを把握し、この度合いに応じてロボット１の動作を視聴者の状態に適切に合わせることができる。
このとき、動作制御部４０は、算出された視聴度を所定の閾値と比較した結果により、容易にロボット１の動作を制御できる。
また、動作制御部４０は、複数の閾値に基づいて制御を段階的に変更することにより、ロボット１の動作バリエーションを視聴者の状態に合わせて適切に設定できる。

【0081】

視聴状態推定装置１０は、視聴状態として、テレビを見ている状態、及び他者を見ている状態含む複数の状態を判定するので、動作制御部４０は、視聴者が見ている物体の種類を把握し、この種類に応じてロボット１の動作を視聴者の状態に適切に合わせることができる。

【0082】

以上、本発明の実施形態について説明したが、本発明は前述した実施形態に限るものではない。また、前述の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、実施形態に記載されたものに限定されるものではない。

【0083】

前述の実施形態では、視聴状態推定装置１０は、視聴方向画像の物体検出により視聴者が見ている物体の種類を推定したが、テレビを見ているか否かに関しては、視聴者の顔方向角度に基づいて判定されてもよい。
具体的には、例えば、顔方向角度θ_ｈ’が、
θ_ｈ－α＜θ_ｈ’＜θ_ｈ＋α
の条件を満たす場合に、視聴者がテレビの方向を向いていると判断してもよい。なお、αは、テレビの大きさ及び視聴者からの距離に基づいて設定される調整角度（例えば、テレビの視角の半分）である。

【0084】

また、前述の実施形態では、顔方向角度θ_ｈ’に基づいて視聴方向角度θ_ｒ’を算出したが、算出方法はこれに限られない。
例えば、θ_ｈ’が適切に取得できない場合には、
θ_ｒ’＝ｃｏｓ^－１［（ｒ_１ ^２＋ｒ_２ ^２－ｒ’^２）／（２ｒ’ｒ_１）］
のように、θ_ｈ’を用いずにθ_ｒ’を求めてもよい。

【0085】

また、前述の実施形態では、ロボット１から視聴方向位置までの距離をロボット１からテレビまでの距離ｒ_２と等しいとしたが、仮定する条件はこれに限られない。
例えば、θ_ｈ’の正負又は値の範囲等に基づいて、該当の距離にｒ_１を用いたり、ｒ_２を用いたり、あるいは他の値を用いたりと、状況に応じて適宜設定されてもよい。

【0086】

本実施形態では、主に視聴状態推定装置１０の構成と動作について説明したが、本発明はこれに限られず、各構成要素を備え、視聴状態を推定するための方法、又はプログラムとして構成されてもよい。

【0087】

さらに、視聴状態推定装置１０の機能を実現するためのプログラムをコンピュータで読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。

【0088】

ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータで読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。

【0089】

さらに「コンピュータで読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時刻の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時刻プログラムを保持しているものも含んでもよい。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。

【符号の説明】

【0090】

１ロボット
１０視聴状態推定装置
１１パノラマ画像部
１２距離パノラマ画像部
１２Ａ距離画像データベース
１２Ｂ距離パノラマ画像データベース
１３視聴者検出部
１４テレビ検出部
１５距離取得部
１６視聴方向検出部
１７視聴状態判定部
２０撮像部
３０距離検出部
４０動作制御部
１２１距離画像合成部
１２２重複区間算出部
１３１人検出部
１３２顔検出部
１６１テレビ－視聴者間角度算出部
１６２テレビ－視聴者間距離算出部
１６３ロボット－テレビ間角度算出部
１６４顔方向角度取得部
１６５視聴方向角度算出部
１６６視聴方向画像取得部
１７１視聴方向物体検出部
１７２視聴度算出部

【図1】