特許6962079 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社ＪＶＣケンウッドの特許一覧

特許6962079画像音声出力装置、画像音声出力方法、及び画像音声出力プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6962079

(24)【登録日】2021年10月18日

(45)【発行日】2021年11月5日

(54)【発明の名称】画像音声出力装置、画像音声出力方法、及び画像音声出力プログラム

(51)【国際特許分類】

A61B 3/113 20060101AFI20211025BHJP

G06T 1/00 20060101ALI20211025BHJP

【ＦＩ】

A61B3/113ZDM

G06T1/00 340A

【請求項の数】3

【全頁数】25

(21)【出願番号】特願2017-169667(P2017-169667)

(22)【出願日】2017年9月4日

(65)【公開番号】特開2019-42221(P2019-42221A)

(43)【公開日】2019年3月22日

【審査請求日】2020年3月30日

【国等の委託研究の成果に係る記載事項】（出願人による申告）平成２７年度国立研究開発法人日本医療研究開発機構「ＩＣＴを活用した診療支援技術研究開発プロジェクト注視点検出技術を活用した発達障がい診断システムの開発」委託研究開発、産業技術力強化法第１９条の適用を受ける特許出願

(73)【特許権者】

【識別番号】308036402

【氏名又は名称】株式会社ＪＶＣケンウッド

(74)【代理人】

【識別番号】110002147

【氏名又は名称】特許業務法人酒井国際特許事務所

(72)【発明者】

【氏名】小村田美玖

(72)【発明者】

【氏名】箱嶋修二

【審査官】増渕俊仁

(56)【参考文献】

【文献】米国特許出願公開第２０１４／０１７６８１３（ＵＳ，Ａ１）

【文献】特開２０１５−１５３３０２（ＪＰ，Ａ）

【文献】特開２００４−３０１８６９（ＪＰ，Ａ）

【文献】特開２０００−２７８６２６（ＪＰ，Ａ）

【文献】特開２０００−２５０６９９（ＪＰ，Ａ）

【文献】特開２０１５−１５１０５９（ＪＰ，Ａ）

【文献】特開２０１７−１０３８０１（ＪＰ，Ａ）

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ａ６１Ｂ３／００−３／１８

Ｇ０６Ｔ１／００

(57)【特許請求の範囲】

【請求項1】

画像を表示する表示画面と、
音声を出力する音声出力装置と、
前記表示画面を観察する観察者の注視点の位置を検出する注視点検出部と、
前記表示画面または前記画像の一部に特定領域を設定する領域設定部と、
前記特定領域が前記表示画面または前記画像に設定される一方で、前記注視点の位置の検出結果に基づいて前記注視点が前記特定領域に存在するか否かを判定する判定部と、
前記画像および前記音声の出力タイミングを設定したデータを記憶する記憶部と、
前記記憶部に記憶された前記データに基づき、前記表示画面に前記画像を表示させ前記音声出力装置に前記音声を出力させると共に、前記注視点が前記特定領域に存在するという判定に応じて、出力中の画像または音声の出力を停止し、前記記憶部に記憶されたデータにおいて、前記出力を停止した画像または音声の次に出力する設定である画像又は音声を出力する出力制御部と
を備える画像音声出力装置。

【請求項2】

表示画面に画像を表示させることと、
音声出力装置に音声を出力させることと、
前記表示画面を観察する観察者の注視点の位置を検出することと、
前記表示画面または前記画像の一部に特定領域を設定することと、
前記特定領域が前記表示画面または前記画像に設定される一方で、前記注視点の位置の検出結果に基づいて前記注視点が前記特定領域に存在するか否かを判定することと、
前記画像および前記音声の出力タイミングを設定したデータを記憶部に記憶することと、
前記記憶部に記憶された前記データに基づき、前記表示画面に前記画像を表示させ前記音声出力装置に前記音声を出力させると共に、前記注視点が前記特定領域に存在するという判定に応じて、出力中の画像または音声の出力を停止し、前記記憶部に記憶されたデータにおいて、前記出力を停止した画像または音声の次に出力する設定である画像又は音声を出力することと
を含む画像音声出力方法。

【請求項3】

表示画面に画像を表示させる処理と、
音声出力装置に音声を出力させる処理と、
前記表示画面を観察する観察者の注視点の位置を検出する処理と、
前記表示画面または前記画像の一部に特定領域を設定する処理と、
前記特定領域が前記表示画面または前記画像に設定される一方で、前記注視点の位置の検出結果に基づいて前記注視点が前記特定領域に存在するか否かを判定する処理と、
前記画像および前記音声の出力タイミングを設定したデータを記憶部に記憶する処理と、
前記記憶部に記憶された前記データに基づき、前記表示画面に前記画像を表示させ前記音声出力装置に前記音声を出力させると共に、前記注視点が前記特定領域に存在するという判定に応じて、出力中の画像または音声の出力を停止し、前記記憶部に記憶されたデータにおいて、前記出力を停止した画像または音声の次に出力する設定である画像又は音声を出力する処理と
をコンピュータに実行させる画像音声出力プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、画像音声出力装置、画像音声出力方法、及び画像音声出力プログラムに関する。

【背景技術】

【0002】

視線検出技術の一つとして角膜反射法が知られている。角膜反射法は、光源から射出された赤外光を被験者に照射し、赤外光が照射された被験者の眼をカメラで撮影し、角膜表面における光源の反射像である角膜反射像に対する瞳孔の位置を検出して、被験者の視線を検出する。このような角膜反射法を用いた視線検出装置では、被験者への刺激として、例えば表示画面に静止画又は動画を表示させ、音声出力装置に音声を出力させるようにしている。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２０１６−１８７５８９号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

上記の視線検出装置においては、音声の出力状態を変更するタイミングを効率的に調整する構成が求められている。また、視線検出装置に限られず、画像及び音声を出力する画像音声出力装置においても、音声の出力状態を変更するタイミングを効率的に調整する構成が求められている。

【0005】

本発明は、上記に鑑みてなされたものであり、音声の出力状態を変更するタイミングを効率的に調整することが可能な画像音声出力装置、画像音声出力方法、及び画像音声出力プログラムを提供することを目的とする。

【課題を解決するための手段】

【0006】

本発明に係る画像音声出力装置は、画像を表示する表示画面と、音声を出力する音声出力装置と、前記表示画面を観察する観察者の注視点の位置を検出する注視点検出部と、前記表示画面または前記画像の一部に特定領域を設定する領域設定部と、前記特定領域が前記表示画面または前記画像に設定される場合に、前記注視点の位置の検出結果に基づいて前記注視点が前記特定領域に存在するか否かを判定する判定部と、前記表示画面に前記画像を表示させ前記音声出力装置に前記音声を出力させると共に、前記注視点が前記特定領域に存在すると判定された場合、少なくとも前記音声の出力状態を調整する出力制御部とを備える。

【0007】

本発明に係る画像音声出力方法は、表示画面に画像を表示させることと、音声出力装置に音声を出力させることと、前記表示画面を観察する観察者の注視点の位置を検出することと、前記表示画面または前記画像の一部に特定領域を設定することと、前記特定領域が前記表示画面または前記画像に設定される場合に、前記注視点の位置の検出結果に基づいて前記注視点が前記特定領域に存在するか否かを判定することと、前記注視点が前記特定領域に存在すると判定された場合、少なくとも前記音声の出力状態を調整することとを含む。

【0008】

本発明に係る画像音声出力プログラムは、表示画面に画像を表示させる処理と、音声出力装置に音声を出力させる処理と、前記表示画面を観察する観察者の注視点の位置を検出する処理と、前記表示画面または前記画像の一部に特定領域を設定する処理と、前記特定領域が前記表示画面または前記画像に設定される場合に、前記注視点の位置の検出結果に基づいて前記注視点が前記特定領域に存在するか否かを判定する処理と、前記注視点が前記特定領域に存在すると判定された場合、少なくとも前記音声の出力状態を調整する処理とをコンピュータに実行させる。

【発明の効果】

【0009】

本発明によれば、音声の出力状態を変更するタイミングを効率的に調整することが可能となる。

【図面の簡単な説明】

【0010】

【図1】図１は、本実施形態に係る画像音声出力装置である視線検出装置の一例を模式的に示す斜視図である。

【図2】図２は、本実施形態に係る視線検出装置のハードウェア構成の一例を示す図である。

【図3】図３は、本実施形態に係る視線検出装置の一例を示す機能ブロック図である。

【図4】図４は、本実施形態に係る角膜曲率中心の位置データの算出方法を説明するための模式図である。

【図5】図５は、本実施形態に係る角膜曲率中心の位置データの算出方法を説明するための模式図である。

【図6】図６は、本実施形態に係るキャリブレーション処理の一例を説明するための模式図である。

【図7】図７は、本実施形態に係る注視点検出処理の一例を説明するための模式図である。

【図8】図８は、記憶部に記憶されるデータの一例を示す図である。

【図9】図９は、記憶部に記憶されるデータの一例を示す図である。

【図10】図１０は、記憶部に記憶されるデータの一例を示す図である。

【図11】図１１は、画像の表示開始及び表示終了のタイミングと、音声の出力開始及び出力終了のタイミングとを対応付けて示すタイミングチャートである。

【図12】図１２は、画像の表示開始及び表示終了のタイミングと、音声の出力開始及び出力終了のタイミングとを対応付けて示すタイミングチャートである。

【図13】図１３は、画像の表示開始及び表示終了のタイミングと、音声の出力開始及び出力終了のタイミングとを対応付けて示すタイミングチャートである。

【図14】図１４は、画像の表示開始及び表示終了のタイミングと、音声の出力開始及び出力終了のタイミングとを対応付けて示すタイミングチャートである。

【図15】図１５は、画像の表示開始及び表示終了のタイミングと、音声の出力開始及び出力終了のタイミングとを対応付けて示すタイミングチャートである。

【図16】図１６は、画像の表示開始及び表示終了のタイミングと、音声の出力開始及び出力終了のタイミングとを対応付けて示すタイミングチャートである。

【図17】図１７は、画像の表示開始及び表示終了のタイミングと、音声の出力開始及び出力終了のタイミングとを対応付けて示すタイミングチャートである。

【図18】図１８は、音声の出力開始及び出力終了のタイミングと音量とを対応付けて示すタイミングチャートである。

【図19】図１９は、音声の出力開始及び出力終了のタイミングと音量とを対応付けて示すタイミングチャートである。

【図20】図２０は、表示装置の表示画面に表示される画像の一例を示す図である。

【図21】図２１は、視線検出装置の動作を示すフローチャートである。

【図22】図２２は、本実施形態に係る視線検出処理および画像音声出力制御処理の一例を示すフローチャートである。

【図23】図２３は、画像音声出力制御処理の一例を示すフローチャートである。

【図24】図２４は、画像音声出力制御処理の他の例を示すフローチャートである。

【図25】図２５は、画像音声出力制御処理の他の例を示すフローチャートである。

【図26】図２６は、画像音声出力制御処理の他の例を示すフローチャートである。

【図27】図２７は、本実施形態に係る画像音声出力装置の他の例である電子端末を示す図である。

【発明を実施するための形態】

【0011】

以下、本発明に係る画像音声出力装置、画像音声出力方法、及び画像音声出力プログラムの実施形態を図面に基づいて説明する。なお、この実施形態によりこの発明が限定されるものではない。また、下記実施形態における構成要素には、当業者が置換可能かつ容易なもの、あるいは実質的に同一のものが含まれる。

【0012】

以下の説明においては、三次元グローバル座標系を設定して各部の位置関係について説明する。所定面の第１軸と平行な方向をＸ軸方向とし、第１軸と直交する所定面の第２軸と平行な方向をＹ軸方向とし、第１軸及び第２軸のそれぞれと直交する第３軸と平行な方向をＺ軸方向とする。所定面はＸＹ平面を含む。

【0013】

（視線検出装置）
図１は、本実施形態に係る画像音声出力装置である視線検出装置１００の一例を模式的に示す斜視図である。視線検出装置１００は、被験者を評価する評価装置としても用いられる。図１に示すように、視線検出装置１００は、表示装置１０１と、音声出力装置７０と、ステレオカメラ装置１０２と、照明装置１０３とを備える。

【0014】

表示装置１０１は、液晶ディスプレイ（liquid crystal display：ＬＣＤ）又は有機ＥＬディスプレイ（organic electroluminescence display：ＯＬＥＤ）のようなフラットパネルディスプレイを含む。本実施形態において、表示装置１０１は、表示画面１０１Ｓを有する。表示画面１０１Ｓは、画像を表示する。表示画面１０１Ｓは、ＸＹ平面と実質的に平行である。Ｘ軸方向は表示画面１０１Ｓの左右方向であり、Ｙ軸方向は表示画面１０１Ｓの上下方向であり、Ｚ軸方向は表示画面１０１Ｓと直交する奥行方向である。

【0015】

音声出力装置７０は、例えばスピーカを含み、例えば被験者に注意を促すための音声を出力する。

【0016】

ステレオカメラ装置１０２は、第１カメラ１０２Ａ及び第２カメラ１０２Ｂを有する。ステレオカメラ装置１０２は、表示装置１０１の表示画面１０１Ｓよりも下方に配置される。第１カメラ１０２Ａと第２カメラ１０２ＢとはＸ軸方向に配置される。第１カメラ１０２Ａは、第２カメラ１０２Ｂよりも−Ｘ方向に配置される。第１カメラ１０２Ａ及び第２カメラ１０２Ｂはそれぞれ、赤外線カメラを含み、例えば波長８５０［ｎｍ］の近赤外光を透過可能な光学系と、その近赤外光を受光可能な撮像素子とを有する。

【0017】

照明装置１０３は、第１光源１０３Ａ及び第２光源１０３Ｂを有する。照明装置１０３は、表示装置１０１の表示画面１０１Ｓよりも下方に配置される。第１光源１０３Ａと第２光源１０３ＢとはＸ軸方向に配置される。第１光源１０３Ａは、第１カメラ１０２Ａよりも−Ｘ方向に配置される。第２光源１０３Ｂは、第２カメラ１０２Ｂよりも＋Ｘ方向に配置される。第１光源１０３Ａ及び第２光源１０３Ｂはそれぞれ、ＬＥＤ（light emitting diode）光源を含み、例えば波長８５０［ｎｍ］の近赤外光を射出可能である。なお、第１光源１０３Ａ及び第２光源１０３Ｂは、第１カメラ１０２Ａと第２カメラ１０２Ｂとの間に配置されてもよい。

【0018】

照明装置１０３は、検出光である近赤外光を射出して、被験者の眼球１１１を照明する。ステレオカメラ装置１０２は、第１光源１０３Ａから射出された検出光が眼球１１１に照射されたときに第２カメラ１０２Ｂで眼球１１１を撮影し、第２光源１０３Ｂから射出された検出光が眼球１１１に照射されたときに第１カメラ１０２Ａで眼球１１１を撮影する。

【0019】

第１カメラ１０２Ａ及び第２カメラ１０２Ｂの少なくとも一方からフレーム同期信号が出力される。第１光源１０３Ａ及び第２光源１０３Ｂは、フレーム同期信号に基づいて検出光を射出する。第１カメラ１０２Ａは、第２光源１０３Ｂから射出された検出光が眼球１１１に照射されたときに、眼球１１１の画像データを取得する。第２カメラ１０２Ｂは、第１光源１０３Ａから射出された検出光が眼球１１１に照射されたときに、眼球１１１の画像データを取得する。

【0020】

眼球１１１に検出光が照射されると、その検出光の一部は瞳孔１１２で反射し、その瞳孔１１２からの光がステレオカメラ装置１０２に入射する。また、眼球１１１に検出光が照射されると、角膜の虚像である角膜反射像１１３が眼球１１１に形成され、その角膜反射像１１３からの光がステレオカメラ装置１０２に入射する。

【0021】

第１カメラ１０２Ａ及び第２カメラ１０２Ｂと第１光源１０３Ａ及び第２光源１０３Ｂとの相対位置が適切に設定されることにより、瞳孔１１２からステレオカメラ装置１０２に入射する光の強度は低くなり、角膜反射像１１３からステレオカメラ装置１０２に入射する光の強度は高くなる。すなわち、ステレオカメラ装置１０２で取得される瞳孔１１２の画像は低輝度となり、角膜反射像１１３の画像は高輝度となる。ステレオカメラ装置１０２は、取得される画像の輝度に基づいて、瞳孔１１２の位置及び角膜反射像１１３の位置を検出することができる。

【0022】

図２は、本実施形態に係る視線検出装置１００のハードウェア構成の一例を示す図である。図２に示すように、視線検出装置１００は、表示装置１０１と、ステレオカメラ装置１０２と、照明装置１０３と、コンピュータシステム２０と、入出力インターフェース装置３０と、駆動回路４０と、出力装置５０と、入力装置６０と、音声出力装置７０とを備える。

【0023】

コンピュータシステム２０と、駆動回路４０と、出力装置５０と、入力装置６０と、音声出力装置７０とは、入出力インターフェース装置３０を介してデータ通信する。コンピュータシステム２０は、演算処理装置２０Ａ及び記憶装置２０Ｂを含む。演算処理装置２０Ａは、ＣＰＵ（central processing unit）のようなマイクロプロセッサを含む。記憶装置２０Ｂは、ＲＯＭ（read only memory）及びＲＡＭ（random access memory）のようなメモリ又はストレージを含む。演算処理装置２０Ａは、記憶装置２０Ｂに記憶されているコンピュータプログラム２０Ｃに従って演算処理を実施する。

【0024】

駆動回路４０は、駆動信号を生成して、表示装置１０１、ステレオカメラ装置１０２、及び照明装置１０３に出力する。また、駆動回路４０は、ステレオカメラ装置１０２で取得された眼球１１１の画像データを、入出力インターフェース装置３０を介してコンピュータシステム２０に供給する。

【0025】

出力装置５０は、フラットパネルディスプレイのような表示装置を含む。なお、出力装置５０は、印刷装置を含んでもよい。入力装置６０は、操作されることにより入力データを生成する。入力装置６０は、コンピュータシステム用のキーボード又はマウスを含む。なお、入力装置６０が表示装置である出力装置５０の表示画面に設けられたタッチセンサを含んでもよい。

【0026】

本実施形態においては、表示装置１０１とコンピュータシステム２０とは別々の装置である。なお、表示装置１０１とコンピュータシステム２０とが一体でもよい。例えば視線検出装置１００がタブレット型パーソナルコンピュータを含む場合、そのタブレット型パーソナルコンピュータに、コンピュータシステム２０、入出力インターフェース装置３０、駆動回路４０、及び表示装置１０１が搭載されてもよい。

【0027】

図３は、本実施形態に係る視線検出装置１００の一例を示す機能ブロック図である。図３に示すように、入出力インターフェース装置３０は、入出力部３０２を有する。駆動回路４０は、表示装置１０１を駆動するための駆動信号を生成して表示装置１０１に出力する表示装置駆動部４０２と、第１カメラ１０２Ａを駆動するための駆動信号を生成して第１カメラ１０２Ａに出力する第１カメラ入出力部４０４Ａと、第２カメラ１０２Ｂを駆動するための駆動信号を生成して第２カメラ１０２Ｂに出力する第２カメラ入出力部４０４Ｂと、第１光源１０３Ａ及び第２光源１０３Ｂを駆動するための駆動信号を生成して第１光源１０３Ａ及び第２光源１０３Ｂに出力する光源駆動部４０６とを有する。また、第１カメラ入出力部４０４Ａは、第１カメラ１０２Ａで取得された眼球１１１の画像データを、入出力部３０２を介してコンピュータシステム２０に供給する。第２カメラ入出力部４０４Ｂは、第２カメラ１０２Ｂで取得された眼球１１１の画像データを、入出力部３０２を介してコンピュータシステム２０に供給する。

【0028】

コンピュータシステム２０は、視線検出装置１００を制御する。コンピュータシステム２０は、光源制御部２０４と、画像データ取得部２０６と、入力データ取得部２０８と、位置検出部２１０と、曲率中心算出部２１２と、注視点検出部２１４と、領域設定部２１６と、判定部２１８と、演算部２２０と、記憶部２２２と、評価部２２４と、出力制御部２２６とを有する。コンピュータシステム２０の機能は、演算処理装置２０Ａ及び記憶装置２０Ｂによって発揮される。

【0029】

光源制御部２０４は、光源駆動部４０６を制御して、第１光源１０３Ａ及び第２光源１０３Ｂの作動状態を制御する。光源制御部２０４は、第１光源１０３Ａと第２光源１０３Ｂとが異なるタイミングで検出光を射出するように第１光源１０３Ａ及び第２光源１０３Ｂを制御する。

【0030】

画像データ取得部２０６は、第１カメラ１０２Ａ及び第２カメラ１０２Ｂを含むステレオカメラ装置１０２によって取得された被験者の眼球１１１の画像データを、入出力部３０２を介してステレオカメラ装置１０２から取得する。

【0031】

入力データ取得部２０８は、入力装置６０が操作されることにより生成された入力データを、入出力部３０２を介して入力装置６０から取得する。

【0032】

位置検出部２１０は、画像データ取得部２０６で取得された眼球１１１の画像データに基づいて、瞳孔中心の位置データを検出する。また、位置検出部２１０は、画像データ取得部２０６で取得された眼球１１１の画像データに基づいて、角膜反射中心の位置データを検出する。瞳孔中心は、瞳孔１１２の中心である。角膜反射中心は、角膜反射像１１３の中心である。位置検出部２１０は、被験者の左右それぞれの眼球１１１について、瞳孔中心の位置データ及び角膜反射中心の位置データを検出する。

【0033】

曲率中心算出部２１２は、画像データ取得部２０６で取得された眼球１１１の画像データに基づいて、眼球１１１の角膜曲率中心の位置データを算出する。

【0034】

注視点検出部２１４は、画像データ取得部２０６で取得された眼球１１１の画像データに基づいて、被験者の注視点の位置データを検出する。本実施形態において、注視点の位置データとは、三次元グローバル座標系で規定される被験者の視線ベクトルと表示装置１０１の表示画面１０１Ｓとの交点の位置データをいう。注視点検出部２１４は、眼球１１１の画像データから取得された瞳孔中心の位置データ及び角膜曲率中心の位置データに基づいて、被験者の左右それぞれの眼球１１１の視線ベクトルを検出する。視線ベクトルが検出された後、注視点検出部２１４は、視線ベクトルと表示画面１０１Ｓとの交点を示す注視点の位置データを検出する。

【0035】

領域設定部２１６は、表示装置１０１の表示画面１０１Ｓまたは画像の一部に特定領域を設定する。領域設定部２１６は、表示画面１０１Ｓに表示される画像毎に特定領域を設定することができる。領域設定部２１６は、画像内の１箇所又は複数箇所に特定領域を設定することができる。

【0036】

判定部２１８は、特定領域が表示画面１０１Ｓ又は画像に設定される場合に、注視点の位置の検出結果である位置データに基づいて、注視点が特定領域に存在するか否かを判定し、判定データを出力する。判定部２１８は、例えば一定時間毎に注視点が特定領域に存在するか否かを判定する。一定時間としては、例えば第１カメラ１０２Ａ及び第２カメラ１０２Ｂから出力されるフレーム同期信号の周期（例えば５０［ｍｓｅｃ］毎）とすることができる。

【0037】

演算部２２０は、画像の表示時間及び音声の出力時間を管理する管理タイマと、表示画面１０１Ｓに画像が表示されてからの経過時間を検出する検出タイマを有する。また、演算部２２０は、特定領域について注視点が存在すると判定された判定回数をカウントする。演算部２２０は、特定領域について判定回数をカウントするカウンタを有する。

【0038】

評価部２２４は、被験者の評価データを求める。評価データは、注視点検出部の検出結果に基づいて被験者を評価するデータである。

【0039】

記憶部２２２は、表示画面１０１Ｓに表示させる画像の画像データ、音声出力装置７０から出力させる音声の音声データ、判定部２１８により出力された判定データ、評価部２２４から出力された評価データを記憶する。表示画面１０１Ｓに表示させる画像は、静止画及び動画を含む。記憶部２２２は、複数の画像データ及び複数の音声データを記憶する。記憶部２２２は、画像の表示開始及び表示終了のタイミングを示すデータ、音声の出力開始及び出力終了のタイミングを示すタイミングデータを記憶する。

【0040】

記憶部２２２は、表示画面に画像を表示させる処理と、音声出力装置に音声を出力させる処理と、表示画面を観察する観察者の注視点の位置を検出する処理と、表示画面または画像の一部に特定領域を設定する処理と、特定領域が表示画面または画像に設定される場合に、注視点の位置の検出結果に基づいて注視点が特定領域に存在するか否かを判定する処理と、注視点が特定領域に存在すると判定された場合、少なくとも音声の出力状態を調整する処理とをコンピュータに実行させる画像音声出力プログラムを記憶する。

【0041】

出力制御部２２６は、表示装置１０１、出力装置５０、及び音声出力装置７０の少なくとも一つにデータを出力する。本実施形態において、出力制御部２２６は、表示画面１０１Ｓに画像を表示させる。出力制御部２２６は、複数の画像データから所定の画像データを選択し、当該選択した画像データの画像を表示画面１０１Ｓに表示させる。また、出力制御部２２６は、音声出力装置７０に音声を出力させる。また、出力制御部２２６は、複数の音声データから所定の音声データを選択し、当該選択した音声データの音声を音声出力装置７０に出力させる。

【0042】

また、出力制御部２２６は、注視点が特定領域に存在すると判定部２１８により判定された場合、少なくとも音声の出力状態を調整する。音声の出力状態の調整は、音声の出力を停止又は終了させること、出力停止状態から前記音声の出力を再開させること、音声の音量を調整することのいずれかを含む。また、音声の出力状態の調整は、選択する音声を切り替えることを含む。

【0043】

また、出力制御部２２６は、注視点が特定領域に存在すると判定部２１８により判定された場合、表示装置１０１Ｓに表示している画像の表示終了のタイミングを制御する。当該表示終了のタイミングを制御することは、例えば予め設定された表示終了のタイミングを変更することを含む。

【0044】

なお、出力制御部２２６は、被験者の左右それぞれの眼球１１１の注視点の位置を表示画面１０１Ｓ又は出力装置５０に表示させてもよい。

【0045】

次に、本実施形態に係る曲率中心算出部２１２の処理の概要について説明する。曲率中心算出部２１２は、眼球１１１の画像データに基づいて、眼球１１１の角膜曲率中心の位置データを算出する。図４及び図５は、本実施形態に係る角膜曲率中心１１０の位置データの算出方法を説明するための模式図である。図４は、１つの光源１０３Ｃで眼球１１１が照明される例を示す。図５は、第１光源１０３Ａ及び第２光源１０３Ｂで眼球１１１が照明される例を示す。

【0046】

まず、図４に示す例について説明する。光源１０３Ｃは、第１カメラ１０２Ａと第２カメラ１０２Ｂとの間に配置される。瞳孔中心１１２Ｃは、瞳孔１１２の中心である。角膜反射中心１１３Ｃは、角膜反射像１１３の中心である。図４において、瞳孔中心１１２Ｃは、眼球１１１が１つの光源１０３Ｃで照明されたときの瞳孔中心を示す。角膜反射中心１１３Ｃは、眼球１１１が１つの光源１０３Ｃで照明されたときの角膜反射中心を示す。角膜反射中心１１３Ｃは、光源１０３Ｃと角膜曲率中心１１０とを結ぶ直線上に存在する。角膜反射中心１１３Ｃは、角膜表面と角膜曲率中心１１０との中間点に位置付けられる。角膜曲率半径１０９は、角膜表面と角膜曲率中心１１０との距離である。角膜反射中心１１３Ｃの位置データは、ステレオカメラ装置１０２によって検出される。角膜曲率中心１１０は、光源１０３Ｃと角膜反射中心１１３Ｃとを結ぶ直線上に存在する。曲率中心算出部２１２は、その直線上において角膜反射中心１１３Ｃからの距離が所定値となる位置データを、角膜曲率中心１１０の位置データとして算出する。所定値は、一般的な角膜の曲率半径値などから事前に定められた値であり、記憶部２２２に記憶されている。

【0047】

次に、図５に示す例について説明する。本実施形態においては、第１カメラ１０２Ａ及び第２光源１０３Ｂと、第２カメラ１０２Ｂ及び第１光源１０３Ａとは、第１カメラ１０２Ａと第２カメラ１０２Ｂとの中間位置を通る直線に対して左右対称の位置に配置される。第１カメラ１０２Ａと第２カメラ１０２Ｂとの中間位置に仮想光源１０３Ｖが存在するとみなすことができる。角膜反射中心１２１は、第２カメラ１０２Ｂで眼球１１１を撮影した画像における角膜反射中心を示す。角膜反射中心１２２は、第１カメラ１０２Ａで眼球１１１を撮影した画像における角膜反射中心を示す。角膜反射中心１２４は、仮想光源１０３Ｖに対応する角膜反射中心を示す。角膜反射中心１２４の位置データは、ステレオカメラ装置１０２で取得された角膜反射中心１２１の位置データ及び角膜反射中心１２２の位置データに基づいて算出される。ステレオカメラ装置１０２は、ステレオカメラ装置１０２に規定される三次元ローカル座標系において角膜反射中心１２１の位置データ及び角膜反射中心１２２の位置データを検出する。ステレオカメラ装置１０２について、事前にステレオ較正法によるカメラ較正が実施され、ステレオカメラ装置１０２の三次元ローカル座標系を三次元グローバル座標系に変換する変換パラメータが算出される。その変換パラメータは、記憶部２２２に記憶されている。曲率中心算出部２１２は、ステレオカメラ装置１０２で取得された角膜反射中心１２１の位置データ及び角膜反射中心１２２の位置データを、変換パラメータを使って、三次元グローバル座標系における位置データに変換する。曲率中心算出部２１２は、三次元グローバル座標系で規定される角膜反射中心１２１の位置データ及び角膜反射中心１２２の位置データに基づいて、三次元グローバル座標系における角膜反射中心１２４の位置データを算出する。角膜曲率中心１１０は、仮想光源１０３Ｖと角膜反射中心１２４とを結ぶ直線１２３上に存在する。曲率中心算出部２１２は、直線１２３上において角膜反射中心１２４からの距離が所定値となる位置データを、角膜曲率中心１１０の位置データとして算出する。所定値は、一般的な角膜の曲率半径値などから事前に定められた値であり、記憶部２２２に記憶されている。

【0048】

このように、光源が２つある場合でも、光源が１つである場合の方法と同様の方法で、角膜曲率中心１１０が算出される。

【0049】

角膜曲率半径１０９は、角膜表面と角膜曲率中心１１０との距離である。したがって、角膜表面の位置データ及び角膜曲率中心１１０の位置データが算出されることにより、角膜曲率半径１０９が算出される。

【0050】

次に、本実施形態に係る視線検出方法の一例について説明する。図６は、本実施形態に係るキャリブレーション処理の一例を説明するための模式図である。キャリブレーション処理では、被験者に注視させるため、目標位置１３０が設定される。目標位置１３０は、三次元グローバル座標系において規定される。本実施形態において、目標位置１３０は、例えば表示装置１０１の表示画面１０１Ｓの中央位置に設定される。なお、目標位置１３０は、表示画面１０１Ｓの端部位置に設定されてもよい。出力制御部２２６は、設定された目標位置１３０に目標画像を表示させる。直線１３１は、仮想光源１０３Ｖと角膜反射中心１１３Ｃとを結ぶ直線である。直線１３２は、目標位置１３０と瞳孔中心１１２Ｃとを結ぶ直線である。角膜曲率中心１１０は、直線１３１と直線１３２との交点である。曲率中心算出部２１２は、仮想光源１０３Ｖの位置データと、目標位置１３０の位置データと、瞳孔中心１１２Ｃの位置データと、角膜反射中心１１３Ｃの位置データとに基づいて、角膜曲率中心１１０の位置データを算出することができる。

【0051】

次に、注視点検出処理について説明する。注視点検出処理は、キャリブレーション処理の後に実施される。注視点検出部２１４は、眼１１１の画像データに基づいて、被験者の視線ベクトル及び注視点の位置データを算出する。図７は、本実施形態に係る注視点検出処理の一例を説明するための模式図である。図７において、注視点１６５は、一般的な曲率半径値を用いて算出された角膜曲率中心から求めた注視点を示す。注視点１６６は、キャリブレーション処理で求められた距離１２６を用いて算出された角膜曲率中心から求めた注視点を示す。瞳孔中心１１２Ｃは、キャリブレーション処理において算出された瞳孔中心を示し、角膜反射中心１１３Ｃは、キャリブレーション処理において算出された角膜反射中心を示す。直線１７３は、仮想光源１０３Ｖと角膜反射中心１１３Ｃとを結ぶ直線である。角膜曲率中心１１０は、一般的な曲率半径値から算出した角膜曲率中心の位置である。距離１２６は、キャリブレーション処理により算出した瞳孔中心１１２Ｃと角膜曲率中心１１０との距離である。角膜曲率中心１１０Ｈは、距離１２６を用いて角膜曲率中心１１０を補正した補正後の角膜曲率中心の位置を示す。角膜曲率中心１１０Ｈは、角膜曲率中心１１０が直線１７３上に存在すること、及び瞳孔中心１１２Ｃと角膜曲率中心１１０との距離が距離１２６であることから求められる。これにより、一般的な曲率半径値を用いる場合に算出される視線１７７は、視線１７８に補正される。また、表示装置１０１の表示画面１０１Ｓ上の注視点は、注視点１６５から注視点１６６に補正される。

【0052】

［画像音声出力方法］
次に、本実施形態に係る画像音声出力方法について説明する。図８は、記憶部２２２に記憶されるデータの一例を示す図である。図８では、画像データの例を示している。図８に示すように、記憶部２２２には、表示装置１０１の表示画面１０１Ｓに表示させる複数の画像の画像データについて、表示させる順番と、画像データを識別するための画像番号と、画像の再生時間とが対応付けられた状態で記憶されている。出力制御部２２６は、記憶部２２２に記憶されたデータに基づいて、画像１から画像６までを、対応する再生時間で表示画面１０１Ｓに順番に表示させる。

【0053】

例えば、出力制御部２２６は、最初に画像１の表示を開始させ、表示開始から時間ｔ１が経過した後に画像１の表示を終了させる。出力制御部２２６は、画像１の表示を終了させた後、画像２の表示を開始させ、表示開始から時間ｔ２が経過した後に画像２の表示を終了させる。出力制御部２２６は、この処理を画像３から画像６まで繰り返し行い、画像６の表示を終了させた後、処理終了となる。

【0054】

図９は、記憶部２２２に記憶されるデータの一例を示す図である。図９では、音声データの出力開始及び出力終了のタイミングを示すタイミングデータの例である。図９に示すように、記憶部２２２には、タイミングデータとして、各音声データが、出力開始設定、出力終了設定、及び出力回数と対応付けた状態で記憶されている。出力開始設定は、音声データの出力を開始させるトリガーとなる内容を示している。出力終了設定は、音声データの出力を終了させるトリガーとなる内容を示している。出力回数は、音声データを出力させる回数を示している。例えば、出力回数として、２回以上の複数回となっている場合には、当該音声データを当該複数回繰り返して出力することを示している。

【0055】

例えば、出力制御部２２６は、画像１の表示開始から２秒が経過した場合に、音声１の出力を開始させる。また、出力制御部２２６は、音声１の出力を開始させてから１０秒が経過した場合に、音声１の出力を終了させる。また、出力制御部２２６は、音声１の出力を終了させた場合、繰り返すことなく音声１の処理を終了させる。

【0056】

また、出力制御部２２６は、画像２の表示開始と同時に音声２の出力を開始させる。また、出力制御部２２６は、画像２の表示が終了し、画像３の表示が開始されてから５秒が経過した場合に、音声２の出力を終了させる。また、出力制御部２２６は、音声２の出力を終了させた場合、繰り返すことなく音声２の処理を終了させる。

【0057】

図１０は、記憶部２２２に記憶されるデータの一例を示す図である。図１０では、各音声についての音量を示す音量データを例である。図１０に示すように、記憶部２２２には、音声データ毎に、出力開始からの経過時間と設定される音量とが対応付けられた状態で記憶されている。出力制御部２２６は、音声１の出力を開始させてから１０秒が経過するまで音量を５０とし、１０秒が経過した場合に音量を２０とし、２０秒が経過した後に音量を５０とし、３０秒が経過した場合に音量を２０とする。同様に、出力制御部２２６は、音声２の出力を開始させてから０．５秒が経過するまで音量を０とし、０．５秒が経過した場合に音量を１０とし、１秒が経過した後に音量を２０とし、１．５秒が経過した場合に音量を３０とする。

【0058】

図１１から図１７は、画像の表示開始及び表示終了のタイミングと、音声の出力開始及び出力終了のタイミングとを対応付けて示すタイミングチャートである。図１１から図１７に示す各パターンは、例えば予め設定され、記憶部２２２に記憶されている。なお、以下の各図では、複数の画像を順番に表示させる場合の例として、画像１から画像３を例に挙げて説明するが、これに限定されず、他の画像であってもよい。また、音声として音声１を例に挙げて説明するが、これに限定されず、他の音声であってもよい。

【0059】

図１１のタイミングチャートは、音声１の出力開始のタイミングを示す時刻ｔ１２を「画像１の表示開始時刻ｔ１１から所定時間経過した時点の時刻」とし、音声１の出力終了のタイミングを示す時刻ｔ１３を「音声１の最後まで出力した時点」とした場合を示している。この場合、被験者に画像に注目させる時間を設けることができる。

【0060】

図１２のタイミングチャートは、音声１の出力開始のタイミングを示す時刻ｔ２１を「画像１の表示開始時刻と同時」とし、音声１の出力終了のタイミングを示す時刻ｔ２２を「音声１の最後まで出力した時点」とした場合を示している。

【0061】

図１３のタイミングチャートは、音声１の出力開始のタイミングを示す時刻ｔ３２を「画像１の表示開始時刻ｔ３１から所定時間経過した時点の時刻」とし、音声１の出力終了のタイミングを示す時刻ｔ３３を「出力開始の時刻ｔ３２から所定時間経過した時点の時刻」とした場合を示している。この場合、音声１が途中であっても出力が終了する。

【0062】

図１４のタイミングチャートは、音声１が複数の画像（画像１及び画像２）の表示期間に跨って出力される場合の例である。この場合、音声１の出力開始のタイミングを示す時刻ｔ４２が「画像１の表示開始時刻ｔ４１から所定時間経過した時点の時刻」とし、音声１の出力終了のタイミングを示す時刻ｔ４３を「画像２の表示開始時刻から所定時間経過した時点の時刻」としている。この場合、音声１が途中であっても出力が終了する。

【0063】

図１５のタイミングチャートは、音声１の出力開始のタイミングを示す時刻ｔ５２が「画像１の表示開始時刻ｔ５１から所定時間経過した時点の時刻」とし、音声１の出力終了のタイミングを示す時刻ｔ５３を「画像２の表示開始時刻」としている。この場合、音声１が途中であっても出力が終了する。

【0064】

図１６のタイミングチャートは、音声１の出力開始のタイミングを示す時刻ｔ６２が「画像１の表示開始時刻ｔ６１から所定時間経過した時点の時刻」とし、音声１の出力終了のタイミングを示す時刻ｔ６３を「画像２の表示終了時刻（又は、画像３の表示開始時刻）」としている。この場合、音声１が途中であっても出力が終了する。

【0065】

図１７のタイミングチャートは、音声１を複数回繰り返して出力する場合の例を示す。この場合、音声１の出力開始のタイミングを示す時刻ｔ７２が「画像１の表示開始時刻ｔ７１から所定時間経過した時点の時刻」とし、音声１の出力終了のタイミングを示す時刻ｔ７３を「画像１の表示終了時刻」としている。この場合、音声１が途中であっても出力が終了する。

【0066】

なお、上記のように説明した画像を表示させるタイミングと音声を表示させるタイミングとの関係は一例である。したがって、上記パターンとは異なる他のパターンに設定することも可能である。

【0067】

図１８から図１９は、音声の出力開始及び出力終了のタイミングと音量とを対応付けて示すタイミングチャートである。図１８及び図１９に示す各パターンは、例えば予め設定され、記憶部２２２に記憶されている。

【0068】

図１８のタイミングチャートは、音声の出力開始時刻ｔ８１における音量が０であり、時刻ｔ８２における音量がＶ８５である。時刻ｔ８１から時刻ｔ８２の間は、一定の増加量で音量を増加させる。時刻ｔ８２から時刻ｔ８３の間は、音量をＶ８５の状態で維持する。時刻ｔ８３から時刻ｔ８４の間は、音量をＶ８５から０まで一定の減少量で減少させる。

【0069】

図１９のタイミングチャートは、音声１の出力開始時刻ｔ９１における音量がＶ９５であり、時刻ｔ９２において音量がＶ９５よりも低いＶ９６に減少し、この音量が時刻ｔ９３まで維持される。時刻ｔ９３以降は、再び音量がＶ９５となる。また、音声１の音量が減少する時刻ｔ９２から時刻ｔ９３の間は、音声２がＶ９５よりも大きい音量であるＶ９４で出力される。このように、異なる複数の音声を同時に出力させることができる。

【0070】

なお、上記のように説明した音量を変更させるタイミングについては一例である。したがって、上記パターンとは異なる他のパターンに設定することも可能である。

【0071】

図２０は、表示装置１０１の表示画面１０１Ｓに表示される画像の一例を示す図である。図２０に示すように、表示画面１０１Ｓまたは当該画像の一部には、領域設定部２１６により、特定領域Ａが設定される。領域設定部２１６は、表示画面１０１Ｓまたは画像内の１箇所又は複数箇所に特定領域Ａを設定することができる。本実施形態では、例えば２箇所に特定領域Ａが設定されているが、これに限定されない。以下、２つの特定領域Ａを区別する場合、特定領域Ａ１、Ａ２と表記する場合がある。各特定領域Ａは、例えば円であるが、これに限定されず、矩形であってもよいし、他の形状であってもよいし、異なる特定領域Ａにおいて形状及び寸法が異なってもよい。領域設定部２１６は、複数の特定領域Ａを設定する場合、各特定領域Ａを、例えば表示画面１０１Ｓに互いに離れた状態で設定する。

【0072】

また、出力制御部２２６は、表示画面１０１Ｓに表示される画像において、特定領域Ａに対応する位置及び範囲にそれぞれ対象物Ｍを表示させる。本実施形態では、複数の対象物Ｍとして、例えば２つの対象物Ｍを表示する。以下、２つの対象物Ｍを表記する際、特定領域Ａ１に表示される対象物Ｍを対象物Ｍ１と表記し、特定領域Ａ２に表示される対象物Ｍを対象物Ｍ２と表記する場合がある。対象物Ｍの内部には、例えば模様等が形成されてもよい。対象物Ｍの形状は、特定領域Ａの形状と一致してもよいし、異なってもよい。

【0073】

また、図２０では、出力制御部２２６により表示画面１０１Ｓにおいて、例えば計測後に結果表示される注視点の一例を示している。出力制御部２２６は、例えば被験者の注視点を検出している間は、注視点を表示させないようにする。注視点の位置データの検出は、例えば第１カメラ１０２Ａ及び第２カメラ１０２Ｂから出力されるフレーム同期信号の周期で（例えば５０［ｍｓｅｃ］毎に）実施される。第１カメラ１０２Ａ及び第２カメラ１０２Ｂは、同期して撮像する。

【0074】

判定部２１８は、特定領域Ａが表示画面１０１Ｓに設定される場合に、注視点の位置の検出結果である位置データに基づいて、注視点が特定領域Ａに存在するか否かを判定し、判定データを出力する。判定部２１８は、例えば一定時間毎に注視点が特定領域に存在するか否かを判定する。一定時間としては、例えば第１カメラ１０２Ａ及び第２カメラ１０２Ｂから出力されるフレーム同期信号の周期（例えば５０［ｍｓｅｃ］毎）とすることができる。

【0075】

出力制御部２２６は、注視点が特定領域Ａに存在すると判定部２１８により判定された場合、少なくとも音声の出力状態を調整する。音声の出力状態の調整は、音声の出力を停止又は終了させること、出力停止状態から前記音声の出力を再開させること、音声の音量を調整することのいずれかを含む。また、音声の出力状態の調整は、選択する音声を切り替えることを含む。

【0076】

また、出力制御部２２６は、注視点が特定領域Ａに存在すると判定部２１８により判定された場合、表示装置１０１Ｓに表示している画像の表示終了のタイミングを制御する。当該表示終了のタイミングを制御することは、例えば予め設定された表示終了のタイミングを変更することを含む。

【0077】

出力制御部２２６は、例えば、複数の特定領域Ａが設定される場合、被験者の注視点がどの特定領域Ａに存在するかに応じて、音声の出力状態の調整及び画像の表示終了のタイミングの制御の内容を異なるようにすることができる。例えば、被験者の注視点が特定領域Ａ１に存在する場合、音声の出力状態の調整と、画像の表示終了のタイミングの制御とを両方を行わせることができる。また、被験者の注視点が特定領域Ａ２に存在する場合、音声の出力状態の調整のみを行わせることができる。

【0078】

また、別の設定例としては、例えば、被験者の注視点が特定領域Ａ１に存在する場合、音声の出力状態の調整として、音声の出力を終了させることができる。また、被験者の注視点が特定領域Ａ２に存在する場合、音声の出力状態の調整として、出力する音声を他の音声に切り替えることができる。

【0079】

なお、上記した音声の出力状態の調整内容、また、音声の出力状態の調整と画像の表示終了のタイミングの制御との組み合わせ内容については、一例であり、これに限定されるものではない。どの特定領域Ａに注視点が存在するかに応じて、音声の出力状態の調整内容が異なるように設定することができ、また、音声の出力状態の調整と画像の表示終了のタイミングの制御との組み合わせ内容が異なるように設定することができる。

【0080】

次に、本実施形態に係る視線検出装置１００の動作の一例について図２１を参照しながら説明する。図２１は、視線検出装置１００の動作を示すフローチャートである。まず、出力制御部２２６は、記憶部２２２から図８から図１９に示す各データ、つまり画像及び音声の設定データ、音量制御の設定データ、タイミングデータ等を読み込む（ステップＳ１０１）。

【0081】

次に、演算部２２０は、画像の表示時間及び音声の出力時間を管理するための管理タイマをリセットする（ステップＳ１０２）。次に、注視点検出部２１４は、表示装置１０１に表示された画像を被験者に見せた状態で、規定のサンプリング周期（例えば５０［ｍｓｅｃ］）毎に、表示装置１０１の表示画面１０１Ｓにおける被験者の注視点の位置データを検出する注視点検出処理を開始する（ステップＳ１０３）。

【0082】

位置データが検出された場合（ステップＳ１０４のＮｏ）、表示画面１０１Ｓに画像を表示させると共に、音声出力装置７０に音声を出力させて、所定の視線検出処理を行わせ、視線検出結果に応じて画像音声出力制御処理を行う（ステップＳ１０５）。（図２１のステップＳ１０５を「視線検出処理および画像音声出力制御処理」と変更してください）ステップＳ１０５の視線検出処理および画像音声出力制御処理については後述する。ステップＳ１０５の処理が終了した場合、又は、ステップＳ１０４において位置データが検出されない場合（ステップＳ１０４のＹｅｓ）、管理タイマが所定の時間に到達したか否かを判定する（ステップＳ１０６）。所定の時間に到達していない場合（ステップＳ１０６のＮｏ）、ステップＳ１０３以降の処理を繰り返し行う。所定の時間に到達した場合（ステップＳ１０６のＹｅｓ）、視線検出処理により得られた視点データを評価し（ステップＳ１０７）、評価値の出力を行う（ステップＳ１０８）。

【0083】

次に、ステップＳ１０５の視線検出処理および画像音声出力処理について説明する。ステップＳ１０５の視線検出処理及び画像音声出力制御処理において、注視点検出部２１４は、視線検出処理を行い、出力制御部２２６は、本実施形態に係る画像音声出力制御処理を行う。図２２は、本実施形態に係る視線検出処理および画像音声出力制御処理の一例を示すフローチャートである。出力制御部２２６は、視線検出用の画像を表示画面１０１Ｓに表示させる（ステップＳ２０１）。注視点検出部２１４は、表示画面１０１Ｓに画像を表示させた状態で、被験者の注視点の位置データを検出する（ステップＳ２０２）。

【0084】

判定部２１８は、注視点が特定領域Ａに存在するか否かを判定する（ステップＳ２０３）。注視点が特定領域Ａに存在すると判定された場合、出力制御部２２６は、音声出力装置７０における音声の出力状態を変更するか否かの判断を行う（ステップＳ２０４）。音声の出力状態を変更すると判断した場合（ステップＳ２０４のＹｅｓ）、出力制御部２２６は、音声出力装置７０における音声の出力状態を変更する（ステップＳ２０５）。また、出力制御部２２６は、音声の出力状態を変更した場合、画像の表示状態を変更するか否かの判断を行う（ステップＳ２０６）。出力制御部２２６は、画像の表示状態を変更すると判断した場合（ステップＳ２０６のＹｅｓ）、画像の表示状態を変更する（ステップＳ２０７）。

【0085】

ステップＳ２０７の処理を行った後、また、上記ステップＳ２０３のＮｏ、ステップＳ２０４のＮｏ、及びステップＳ２０６のＮｏの処理を行った場合、出力制御部２２６は、画像の表示が終了したか否かの判断を行う（ステップＳ２０８）。出力制御部２２６は、画像の表示が終了したと判断した場合（ステップＳ２０８のＹｅｓ）、処理を終了する。また、出力制御部２２６は、画像の表示が終了していないと判断した場合（ステップＳ２０８のＮｏ）、ステップＳ２０２以降の処理を繰り返し行わせる。

【0086】

以下、ステップＳ１０５の視線検出処理および画像音声出力制御処理において、本実施形態に係る画像音声出力制御処理により音声の出力状態、画像の表示状態を変更する場合を具体的に説明する。図２３は、画像音声出力制御処理の一例を示すフローチャートである。図２３では、被験者の注視点の位置データに応じて音声の出力を終了する場合の例を示す。

【0087】

まず、出力制御部２２６は、視線検出用の画像を表示装置１０１Ｓに表示させる（ステップＳ３０１）。ステップＳ３０１において、出力制御部２２６は、記憶部２２２に記憶された画像１〜画像６のうち所定の画像を表示させる。領域設定部２１６は、表示画面１０１Ｓ、または画像１〜画像６のうち、所定の画像の一部に特定領域Ａを設定する。演算部２２０は、検出タイマにより、画像１が表示されてからの経過時間を検出する。

【0088】

次に、出力制御部２２６は、音声出力装置７０から出力すべき音声があるか否かを判断する（ステップＳ３０２）。ステップＳ３０２において、出力制御部２２６は、記憶部２２２に記憶された音声の中から、例えば「画像１」と対応付けて記憶される音声が存在するか否かを検出する。

【0089】

出力制御部２２６は、出力すべき音声が存在すると判断した場合、当該音声の出力開始時刻に到達したか否かを判断する（ステップＳ３０３）。出力制御部２２６は、音声の出力開始時刻に到達していない場合（ステップＳ３０３のＮｏ）、出力開始時刻に到達するまで、ステップＳ３０３の判断を繰り返し行う。出力制御部２２６は、音声の出力開始時刻に到達したと判断した場合（ステップＳ３０３のＹｅｓ）、音声の出力を開始させる（ステップＳ３０４）。

【0090】

ステップＳ３０２のＮｏの処理又はステップＳ３０４の処理を行った後、注視点検出部２１４は、被験者の注視点の位置データを取得する（ステップＳ３０５）。ステップＳ３０５において、中心点検出部２１４は、規定のサンプリング周期（例えば５０［ｍｓｅｃ］）毎に、表示装置１０１の表示画面１０１Ｓにおける被験者の注視点の位置データを検出する。

【0091】

判定部２１８は、表示画面１０１Ｓに表示される画像のうち、被験者の注視点が特定領域Ａに存在するか否かの判定を行う（ステップＳ３０６）。ステップＳ３０６において、判定部２１８は、例えば一定時間毎に注視点が特定領域Ａに存在するか否かを判定する。一定時間としては、例えば第１カメラ１０２Ａ及び第２カメラ１０２Ｂから出力されるフレーム同期信号の周期（例えば５０［ｍｓｅｃ］毎）とすることができる。

【0092】

注視点が特定領域Ａに存在すると判定された場合（ステップＳ３０６のＹｅｓ）、出力制御部２２６は、音声の出力状態を変更する。この場合、出力制御部２２６は、例えば音声の出力を終了させる（ステップＳ３０８）。ステップＳ３０８において、出力制御部２２６は、例えば記憶部２２２に記憶されたタイミングデータには存在しないタイミングであっても、判定部２１８の判定結果をトリガーとして、音声の出力を終了させる。なお、音声の出力を停止（一時停止）させる場合についても、同様に行うことができる。

【0093】

また、上記のステップＳ３０６において、被験者の注視点が特定領域Ａに存在しないと判定された場合、出力制御部２２６は、終了させるべき音声が存在するか否かを判断する（ステップＳ３０７）。ステップＳ３０７において、出力制御部２２６は、ステップＳ３０７の時点で音声が出力されているか否かを判断し、音声が出力されている場合には、終了させるべき音声が存在すると判断する。また、出力制御部２２６は、ステップＳ３０７の時点で音声が出力されていない場合、出力させるべき音声が存在しないと判断する。

【0094】

ステップＳ３０７において、終了させるべき音声が存在すると判定した場合、出力制御部２２６は、音声の出力終了時刻になったか否かを判断する（ステップＳ３０９）。出力終了時刻は、例えば記憶部２２２に記憶されるタイミングチャート（図１１〜図１７参照）において音声を終了させる時刻である。出力制御部２２６は、音声の出力終了時刻に到達していないと判断した場合（ステップＳ３０９のＮｏ）、出力終了時刻に到達するまで、ステップＳ３０９の判断を繰り返し行う。出力制御部２２６は、音声の出力終了時刻に到達したと判断した場合（ステップＳ３０９のＹｅｓ）、音声の出力を終了させる（ステップＳ３１０）。

【0095】

ステップＳ３０８の処理、ステップＳ３０７のＮｏの処理、又はステップＳ３１０の処理を行った後、出力制御部２２６は、表示画面１０１Ｓに表示される画像の表示終了時刻になったか否かを判断する（ステップＳ３１１）。ステップＳ３１１において、出力制御部２２６は、例えば管理タイマに基づいて判断を行う。画像の表示終了時刻になったと判断した場合（ステップＳ３１１のＹｅｓ）、出力制御部２２６は、画像の表示を終了させる（ステップＳ３１２）。また、画像の表示終了時刻になっていないと判断した場合（ステップＳ３１１のＮｏ）、出力制御部２２６は、ステップＳ３０２以降の動作を繰り返し行わせる。

【0096】

出力制御部２２６は、画像の表示を終了させた場合、全ての画像を表示させたか否かの判断を行う（ステップＳ３１３）。出力制御部２２６は、全ての画像を表示させていないと判断した場合（ステップＳ３１３のＮｏ）、ステップＳ３０１以降の動作を繰り返し行わせる。また、出力制御部２２６は、全ての画像を表示させたと判断した場合（ステップＳ３１３のＹｅｓ）、画像音声出力制御処理を終了する。

【0097】

図２４は、画像音声出力制御処理の他の例を示すフローチャートである。図２４では、被験者の注視点の位置データに応じて出力する音声を切り替える場合の例を示す。図２４に示すように、被験者の注視点の位置データに応じて出力する音声を切り替える場合には、図２３に示すステップＳ３０８の処理が異なるのみであり、ステップＳ３０１〜ステップＳ３０７、ステップＳ３０９〜ステップＳ３１３の処理については、同様である。

【0098】

図２４に示す例では、ステップＳ３０６において、注視点が特定領域Ａに存在すると判定部２１８により判定された場合、出力制御部２２６は、ステップＳ３０８に代えて、出力する音声を切り替える処理を行う（ステップＳ３１４）。ステップＳ３１４において、出力制御部２２６は、現在出力されている音声の出力を停止させ、記憶部２２２に記憶された複数の音声から現在出力されている音声に代えて別の音声を選択する。そして、出力制御部２２６は、選択した音声を音声出力装置７０に出力させる。ステップＳ３１４を行った後、出力制御部２２６は、ステップＳ３１１以降の処理を行わせる。なお、注視点が特定領域Ａに存在すると判定部２１８により判定された場合に音声の音量を変更する処理を行う場合には、出力制御部２２６は、図２４に示すフローチャートにおいて、ステップＳ３０８に代えて、音量を変更する処理を行うようにすればよい。

【0099】

なお、複数の特定領域ＡＸ（ＡＸはＡ１，Ａ２…）にそれぞれひとつずつ対応する複数の音声を割り当て、注視点が特定領域ＡＸに存在すると判定部２１８により判定された場合、出力制御部２２６は、割り当てられた複数の音声の中から特定領域ＡＸに対応する音声を選択して音声出力装置７０に出力させてもよい。

【0100】

また、特定領域Ａに対応する音声は一つに限らず、複数の音声を割り当て、注視点が特定領域Ａに存在すると判定部２１８により判定された場合、出力制御部２２６は、割り当てられた複数の音声の中からランダムに音声を選択して音声出力装置７０に出力させてもよい。また、複数の音声に所定の順序を設定し、注視点が特定領域Ａ１に存在すると判定部２１８により判定された場合、所定の順序で再生中の音声の次の音声を選択し、注視点が特定領域Ａ２に存在すると判定部２１８により判定された場合、所定の順序で再生中の音声のセンタ王又は前の音声を選択して、音声出力装置７０に出力させてもよい。

【0101】

図２５は、画像音声出力制御処理の他の例を示すフローチャートである。図２５では、被験者の注視点の位置データに応じて音声の出力を開始する場合の例を示す。図２５に示す例において、ステップＳ４０１、ステップＳ４０５〜ステップＳ４０７、ステップＳ４０９〜ステップＳ４１３の処理については、図２３におけるステップＳ３０１、ステップＳ３０５〜ステップＳ３０７、ステップＳ３０９〜ステップＳ３１３の処理と同様である。また、図２５に示す例においては、図２３におけるステップＳ３０２〜ステップＳ３０４に対応する処理が行われず、ステップＳ４０１を行った後にステップＳ４０５の処理を行う。

【0102】

図２５に示す例において、注視点が特定領域Ａに存在すると判定部２１８により判定された場合、出力制御部２２６は、音声の出力が行われているか否かの判断を行う（ステップＳ４１４）。出力制御部２２６は、音声の出力が行われていないと判断した場合（ステップＳ４１４のＮｏ）、音声の出力を開始させる処理を行い（ステップＳ４１５）、その後ステップＳ４１１に移行する。また、出力制御部２２６は、音声の出力が行われていると判断した場合（ステップＳ４１４のＹｅｓ）、ステップＳ４１５の処理を行わずに、ステップＳ４１１に移行する。なお、音声の出力が停止（一時停止）されている場合において、出力を再開する場合についても、同様に行うことができる。この場合、ステップＳ４１４に対応する処理として、音声の出力が停止されているか否かの判断を行う。また、ステップＳ４１５に対応する処理として、音声の出力を再開させる処理を行う。

【0103】

図２６は、画像音声出力制御処理の他の例を示すフローチャートである。図２６では、被験者の注視点の位置データに応じて音声の出力を終了した後、画像の表示終了のタイミングを制御する場合の例を示す。図２６に示す例において、ステップＳ５０１〜ステップＳ５１３の処理については、図２３におけるステップＳ３０１〜ステップＳ３１３の処理と同様である。

【0104】

図２６に示す例において、注視点が特定領域Ａに存在すると判定部２１８により判定された場合、出力制御部２２６は、図２３におけるステップＳ３０８と同様に、音声の出力を終了させる（ステップＳ５０８）。その後、出力制御部２２６は、画像の表示を終了するか否かの判断を行う（ステップＳ５１４）。ステップＳ５１４において、出力制御部２２６は、画像の表示を終了すると判断した場合（ステップＳ５１４のＹｅｓ）、ステップＳ５１２に移行して画像の表示を終了させる。この場合、予め設定された表示終了のタイミングが到達していなくても、画像の表示が終了する。したがって、予め設定された表示終了のタイミングを変更することとなる。また、ステップＳ５１４において、出力制御部２２６は、画像の表示を終了しないと判断した場合、ステップＳ５１１以降の処理を行わせる。

【0105】

なお、図２６に示す例において、注視点が特定領域Ａに存在すると判定部２１８により判定された場合、出力制御部２２６は、ステップＳ５０８を行うことなく、ステップＳ５１４の処理を行ってもよい。この場合、音声を出力させたままの状態で、画像の表示を終了させることができる。

【0106】

以上のように、本実施形態に係る視線検出装置１００は、画像を表示する表示画面１０１Ｓと、音声を出力する音声出力装置７０と、表示画面１０１Ｓを観察する観察者の注視点の位置を検出する注視点検出部２１４と、表示画面１０１Ｓ又は画像の一部に特定領域Ａを設定する領域設定部２１６と、特定領域Ａが表示画面１０１Ｓ又は画像に設定される場合に、注視点Ｐの位置の検出結果に基づいて注視点Ｐが特定領域Ａに存在するか否かを判定する判定部２１８と、表示画面１０１Ｓに画像を表示させ、音声出力装置７０に音声を出力させると共に、注視点Ｐが特定領域Ａに存在すると判定された場合、少なくとも音声の出力状態を調整する出力制御部２２６とを備える。

【0107】

この構成によれば、注視点Ｐが特定領域Ａに存在すると判定された場合、少なくとも音声の出力状態を調整するため、音声の出力状態を変更するタイミングを効率的に調整することが可能となる。

【0108】

本実施形態に係る視線検出装置１００において、音声の出力状態の調整は、音声の出力を停止又は終了させること、出力停止状態から音声の出力を再開させること、音声の音量を調整することのいずれかを含む。また、出力制御部２２６は、複数の音声の中から選択して音声出力装置７０に出力させ、音声の出力状態の調整は、選択する音声を切り替えることを含む。これにより、音声の出力状態の調整を幅広く行うことができる。

【0109】

本実施形態に係る視線検出装置１００において、出力制御部２２６は、注視点が特定領域Ａに存在すると判定された場合、画像の表示終了のタイミングを制御する。これにより、音声の出力状態の変更に応じて、画像の表示終了のタイミングを制御することができる。

【0110】

本実施形態に係る視線検出装置１００において、表示終了のタイミングを制御することは、予め設定された表示終了のタイミングを変更することを含む。これにより、音声の出力終了のタイミングに合わせて、画像の表示終了のタイミングを柔軟に調整することができる。

【0111】

（電子端末）
図２７は、本実施形態に係る画像音声出力装置の他の例である電子端末５００を示す図である。図２７に示すように、電子端末５００は、例えばタブレット型コンピュータ、スマートフォン等の携帯型の電子機器を含む。電子端末５００は、筐体５０１と、表示画面５０２と、撮影装置５０３と、音声出力装置５０４と、制御装置５０５とを有する。

【0112】

筐体５０１は、表示画面５０２、撮影装置５０３、音声出力装置５０４及び制御装置５０５を保持する。表示画面５０２は、画像を表示する。撮影装置５０３は、表示画面を観察する観察者の顔を撮影可能である。このため、撮影装置５０３は、表示画面５０２を観察する観察者の眼球の画像データを取得可能である。音声出力装置５０４は、音声を出力する。

【0113】

制御装置５０５は、上記の表示画面５０２、撮影装置５０３及び音声出力装置５０４の動作を制御する。制御装置５０５は、ＣＰＵのようなマイクロプロセッサと、ＲＯＭ及びＲＡＭのようなメモリ又はストレージとを含む。
制御装置５０５は、撮影装置５０３で撮影された観察者の眼球の画像データに基づいて観察者の注視点の位置を検出する注視点検出部と、表示画面５０２に表示される画像の一部に特定領域５０２ａ、５０２ｂを設定する領域設定部と、特定領域５０２ａ、５０２ｂが設定された画像が表示画面５０２に表示される場合に、注視点の位置の検出結果に基づいて注視点Ｐが特定領域５０２ａ、５０２ｂに存在するか否かを判定する判定部と、表示画面５０２に画像を表示させ音声出力装置５０４に音声を出力させると共に、注視点Ｐが特定領域５０２ａ、５０２ｂに存在すると判定された場合、少なくとも音声の出力状態を調整する出力制御部とを有する。

【0114】

制御装置５０５は、記憶部を有する。記憶部は、例えば表示画面５０２に表示させる画像のデータと、音声出力装置５０４に出力させる音声のデータとを記憶する。また、記憶部は、表示画面に画像を表示させる処理と、音声出力装置に音声を出力させる処理と、表示画面を観察する観察者の注視点の位置を検出する処理と、表示画面に表示される画像の一部に特定領域を設定する処理と、特定領域が設定された画像が表示画面に表示される場合に、注視点の位置の検出結果に基づいて注視点が特定領域に存在するか否かを判定する処理と、注視点が特定領域に存在すると判定された場合、少なくとも音声の出力状態を調整する処理とをコンピュータに実行させる画像音声出力プログラムを記憶する。

【0115】

このような電子端末５００において、制御装置５０５は、表示画面５０２に画像を表示させる。また、制御装置５０５は、表示画面５０２に表示される画像の一部に、特定領域５０２ａ、５０２ｂを設定する。このとき、特定領域５０２ａ、５０２ｂの外観を、後述する音声の出力状態の変更内容に対応した外観に設定することができる。例えば、制御装置５０５は、音声を再生させるマークを特定領域５０２ａに表示することができる。また、制御装置５０５は、音声の再生を停止させるマークを特定領域５０２ｂに表示することができる。

【0116】

制御装置５０５は、表示画面５０２の画像を観察する観察者を撮影装置５０３により撮影し、観察者の眼球の画像データを取得する。そして、制御装置５０５は、取得した画像データに基づいて観察者の注視点の位置を検出する。

【0117】

制御装置５０５は、検出した注視点が特定領域５０２ａ、５０２ｂに存在するか否かの判定を行う。制御装置５０５は、観察者の注視点Ｐが例えば特定領域５０２ａに存在すると判定した場合、音声の出力状態を調整する処理として、音声の出力を開始させる処理、又は出力停止状態である音声の出力を再開させる処理を行う。また、制御装置５０５は、観察者の注視点Ｐが例えば特定領域５０２ａに存在すると判定した場合、音声の出力状態を調整する処理として、音声の出力を停止させる処理を行う。なお、音声の出力状態の調整内容については、上記に限定されない。音声の出力状態の調整は、例えば音声の出力を停止又は終了させること、出力停止状態から音声の出力を再開させること、音声の音量を調整することのいずれかを含む。また、制御装置５０５が複数の音声の中から選択して音声出力装置５０４に出力させる場合、音声の出力状態の調整は、選択する音声を切り替えることを含む。

【0118】

なお、制御装置５０５は、注視点が特定領域に存在すると判定された場合、画像の表示終了のタイミングを制御してもよい。

【0119】

このように、視線検出装置１００に限られず、画像及び音声を出力する画像音声出力装置である電子端末５００においても、注視点Ｐが特定領域５０２ａ、５０２ｂに存在すると判定された場合、少なくとも音声の出力状態を調整するため、音声の出力状態を変更するタイミングを効率的に調整することが可能となる。

【0120】

本発明の技術範囲は上記実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更を加えることができる。

【0121】

本実施の形態においては、画像と音声が分離されているものとして説明したが、画像と音声が多重化されていてもよい。例えば、画像と音声が多重化されている場合、図２２のステップＳ２０４にステップＳ２０６が統合され、ステップＳ２０６にＳ２０８が統合される。ステップＳ２０４で音声の出力状態を変更するかどうかを判定し、ステップＳ２０６で画像および音声の出力状態を変更する。

【符号の説明】

【0122】

Ａ，Ａ１，Ａ２…特定領域、Ｍ，Ｍ１，Ｍ２…対象物、Ｐ，１６５，１６６…注視点、２０…コンピュータシステム，制御部、２０Ａ…演算処理装置、２０Ｂ…記憶装置、２０Ｃ…コンピュータプログラム、３０…入出力インターフェース装置、４０…駆動回路、５０…出力装置、６０…入力装置、７０…音声出力装置、１００…視線検出装置、１０１，１０１Ｓ…表示装置、１０１Ｓ…表示画面、１０２…ステレオカメラ装置、１０２Ａ…第１カメラ、１０２Ｂ…第２カメラ、１０３…照明装置、１０３Ａ…第１光源、１０３Ｂ…第２光源、１０３Ｃ…光源、１０３Ｖ…仮想光源、１０９…角膜曲率半径、１１０，１１０Ｈ…角膜曲率中心、１１１…眼球，眼、１１２…瞳孔、１１２Ｃ…瞳孔中心、１１３…角膜反射像、１１３Ｃ，１２１，１２２，１２４…角膜反射中心、１２３，１３１，１３２，１７３…直線、１２６…距離、１３０…目標位置、１７７，１７８…視線、２０２…表示制御部、２０４…光源制御部、２０６…画像データ取得部、２０８…入力データ取得部、２１０…位置検出部、２１２…曲率中心算出部、２１４…注視点検出部、２１６…領域設定部、２１８…判定部、２２０…演算部、２２２…記憶部、２２４…評価部、２２６…出力制御部、３０２…入出力部、４０２…表示装置駆動部、４０４Ａ…第１カメラ入出力部、４０４Ｂ…第２カメラ入出力部、４０６…光源駆動部、５００…電子端末、５０１…筐体、５０２…表示画面、５０３…撮影装置、５０４…音声出力装置、５０５…制御装置。

【図1】