IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧

特開2023-93170携帯端末装置、および、そのプログラム
<>
  • 特開-携帯端末装置、および、そのプログラム 図1
  • 特開-携帯端末装置、および、そのプログラム 図2
  • 特開-携帯端末装置、および、そのプログラム 図3
  • 特開-携帯端末装置、および、そのプログラム 図4
  • 特開-携帯端末装置、および、そのプログラム 図5
  • 特開-携帯端末装置、および、そのプログラム 図6
  • 特開-携帯端末装置、および、そのプログラム 図7
  • 特開-携帯端末装置、および、そのプログラム 図8
  • 特開-携帯端末装置、および、そのプログラム 図9
  • 特開-携帯端末装置、および、そのプログラム 図10
  • 特開-携帯端末装置、および、そのプログラム 図11
  • 特開-携帯端末装置、および、そのプログラム 図12
  • 特開-携帯端末装置、および、そのプログラム 図13
  • 特開-携帯端末装置、および、そのプログラム 図14
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023093170
(43)【公開日】2023-07-04
(54)【発明の名称】携帯端末装置、および、そのプログラム
(51)【国際特許分類】
   G06T 19/00 20110101AFI20230627BHJP
   G06F 3/01 20060101ALI20230627BHJP
【FI】
G06T19/00 600
G06F3/01 510
【審査請求】未請求
【請求項の数】11
【出願形態】OL
(21)【出願番号】P 2021208638
(22)【出願日】2021-12-22
(71)【出願人】
【識別番号】000004352
【氏名又は名称】日本放送協会
(74)【代理人】
【識別番号】110001807
【氏名又は名称】弁理士法人磯野国際特許商標事務所
(72)【発明者】
【氏名】加納 正規
(72)【発明者】
【氏名】岡市 直人
(72)【発明者】
【氏名】渡邉 隼人
(72)【発明者】
【氏名】洗井 淳
【テーマコード(参考)】
5B050
5E555
【Fターム(参考)】
5B050BA09
5B050DA07
5B050EA07
5B050EA13
5B050EA19
5B050FA02
5E555AA26
5E555BA04
5E555BB04
5E555BC01
5E555BE17
5E555CA42
5E555CB65
5E555DA01
5E555DB57
5E555DC09
5E555FA00
(57)【要約】      (修正有)
【課題】拡張現実や仮想現実において、現実世界と自然に融合した映像を表示する携帯端末装置及びプログラムを提供する。
【解決手段】携帯端末装置1は、筐体の正面に設けられ、映像を表示するディスプレイ6と、観察者の視点位置を推定する視点位置推定部13と、携帯端末装置1の姿勢及び位置を推定する位置姿勢推定部11と、携帯端末装置1の姿勢及び位置、視点位置に基づいて、ディスプレイ6に表示された映像が観察者の視点位置に合うように、映像を処理する背景映像生成部14と、を備える。
【選択図】図4
【特許請求の範囲】
【請求項1】
筐体の正面に設けられ、映像を表示するディスプレイと、
観察者の視点位置を推定する視点位置推定部と、
携帯端末装置の姿勢および位置を推定する位置姿勢推定部と、
前記携帯端末装置の姿勢および位置、前記視点位置に基づいて、前記ディスプレイに表示された前記映像が前記観察者の視点位置に合うように、前記映像を処理する背景映像生成部と、
を備えることを特徴とする携帯端末装置。
【請求項2】
前記筐体の背面に設けられ、前記映像を撮影するアウトカメラ、
を更に備えることを特徴とする請求項1に記載の携帯端末装置。
【請求項3】
前記アウトカメラは、2つの撮像部が所定距離だけ離間して設置されたステレオカメラとして構成される、
ことを特徴とする請求項2に記載の携帯端末装置。
【請求項4】
前記アウトカメラは、前記映像を撮影するカメラと各背景の深度を計測するデプスカメラの組み合わせとして構成される、
ことを特徴とする請求項2に記載の携帯端末装置。
【請求項5】
前記背景映像生成部が生成した映像に、仮想的に配置された仮想物体を合成する仮想物体合成部、
を更に備えることを特徴とする請求項1に記載の携帯端末装置。
【請求項6】
前記視点位置推定部は、前記筐体の正面に設けられたインカメラを用いて、前記観察者の視点の位置を推定する、
ことを特徴とする請求項1に記載の携帯端末装置。
【請求項7】
前記インカメラは、2つの撮像部が所定距離だけ離間して設置されたステレオカメラとして構成される、
ことを特徴とする請求項6に記載の携帯端末装置。
【請求項8】
前記インカメラは、映像を撮影するカメラと各背景の深度を計測するデプスカメラの組み合わせとして構成される、
ことを特徴とする請求項6に記載の携帯端末装置。
【請求項9】
前記位置姿勢推定部は、前記アウトカメラで撮影した映像を用いて前記携帯端末装置の位置および姿勢を推定する、
ことを特徴とする請求項2に記載の携帯端末装置。
【請求項10】
前記位置姿勢推定部は、慣性計測装置または測位装置を用いて前記携帯端末装置の位置および姿勢を推定する、
ことを特徴とする請求項1に記載の携帯端末装置。
【請求項11】
コンピュータを、請求項1から請求項10の何れか一項に記載の携帯端末装置として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ビデオシースルー方式の拡張現実(Augmented Reality:AR)、または、仮想現実(Virtual Reality:VR)にて、現実世界と自然に融合した映像を表示する携帯端末装置、および、そのプログラムに関する。
【背景技術】
【0002】
ARとは、現実世界に仮想的な情報を重ねることで現実世界を拡張するための技術である。ARの適用先は広く、エンターテイメント、教育、医療など様々な分野での活用が期待されている。ARを体験するためのデバイスとしては、スマートフォンやタブレットなどの携帯端末装置や、頭部に装着し目の前にディスプレイが配置されるヘッドマウントディスプレイ(Head Mount Display)がある。
【0003】
ヘッドマウントディスプレイも普及しつつあるが、現状ではヘッドマウントディスプレイより携帯端末装置の方が広く普及している。そのため、個人がARを体験するには、ヘッドマウントディスプレイが使用される場合よりも、携帯端末装置が使用される場合の方が多い。
【0004】
ヘッドマウントディスプレイの表示方式は、ビデオシースルー方式と光学シースルー方式の2つに大別される。ビデオシースルー方式のヘッドマウントディスプレイは、外界の様子をカメラで撮影し、その映像に仮想物体(仮想世界のCG(Computer Graphic)オブジェクト)を合成してARを実現する。
【0005】
一方、光学シースルー方式のヘッドマウントディスプレイは、ディスプレイとハーフミラーとが組み合わされて構成される。ユーザは、ハーフミラーを介して外界を視認することができ、このハーフミラーにディスプレイの仮想物体の映像を重ね合わせることで、ARを実現する。両方式は、それぞれ長所と短所がある。
【0006】
現状の携帯端末装置において、光学シースルー方式のようなARは実現できないため、ビデオシースルー方式でのARとなる。つまり、携帯端末装置は、アウトカメラで外界の様子を撮影し、その映像に仮想物体を合成してARを実現する。非特許文献1には、実時間で映像に三次元の仮想オブジェクトを挿入してアノテーションをつけたり、ユーザがシーンを理解する支援をすることが記載されている。
【先行技術文献】
【非特許文献】
【0007】
【非特許文献1】ディジタル画像処理(改訂新版),CG-ARTS協会,2015
【発明の概要】
【発明が解決しようとする課題】
【0008】
ヘッドマウントディスプレイを用いたARと比較して、携帯端末装置を用いたARでは画面内の仮想世界と画面外の現実世界に大きなギャップが生じる。
【0009】
仮想世界と現実世界にギャップが生じる第1の原因は、視点位置に合った正しい映像を見ることができないことである。ヘッドマウントディスプレイでは、観察者の目の前に常にディスプレイがある。そのため、観察者の視点位置とディスプレイ間の位置姿勢の関係性は、常に一定となる。しかし、携帯端末装置では、観察者の視点位置とディスプレイ間の関係性は、常に一定とは限らない。例えば、観察者が携帯端末装置を固定して視点位置を変えた場合、観察者の視点位置とディスプレイ間の関係性は変化する。その場合、本来ならば画面内に見える現実世界の映像は視点位置に応じて変化するべきだが、現状のビデオシースルー方式のARでは視点位置に合った映像を表示していないため、正しい方向の映像は見えない。
【0010】
仮想世界と現実世界にギャップが生じる第2の原因は、現実世界と仮想世界がシームレスな世界にならないことである。ヘッドマウントディスプレイは、観察者の眼全体をディスプレイで覆う。そのため観察者はディスプレイを通さずに現実世界を見ることはない。しかし、携帯端末装置1では、観察者の所定画角にディスプレイが存在するのみである。そのため観察者は、仮想世界と現実世界を同時に見ることになる。これを、図12から図14までを参照して説明する。
【0011】
図14では、比較例の携帯端末装置1のディスプレイ6上に拡張現実を表示させたことを示している。携帯端末装置1は、ディスプレイ6とインカメラ5と、背面側のアウトカメラ2(不図示)を備えている。ディスプレイ6上には、アウトカメラ2で、図12に示す背景の広葉樹7aと針葉樹7bを撮影したビデオ画像がシースルーで表示されており、更に図13に示す仮想物体8がその上に重畳されている。
【0012】
携帯端末装置1は、ビデオシースルー方式のため、この携帯端末装置1の背面側のカメラ(アウトカメラ2)で撮影した映像に、仮想物体8を合成することになる。しかし、ディスプレイ6に表示されたアウトカメラ2の映像と、本来そこに見えるべき映像(携帯端末装置1がない場合に直接目で見える映像)の画角が一致しない。そのため、ディスプレイ6に表示された仮想世界と、その背景の現実世界とが繋がって見えず、シームレスな映像とはならない。
【0013】
これら第1と第2の要因により、携帯端末装置1におけるビデオシースルー方式の拡張現実では現実世界と仮想世界の自然な融合が妨げられている。
【0014】
そこで、本発明は、現実世界と自然に融合した映像を表示する携帯端末装置、および、そのプログラムを提供することを課題とする。
【課題を解決するための手段】
【0015】
前記課題を解決するため、本発明に係る携帯端末装置は、筐体の正面に設けられ、映像を表示するディスプレイと、観察者の視点位置を推定する視点位置推定部と、携帯端末装置の姿勢および位置を推定する位置姿勢推定部と、前記携帯端末装置の姿勢および位置、前記視点位置に基づいて、前記ディスプレイに表示された前記映像が前記観察者の視点位置に合うように、前記映像を処理する背景映像生成部と、を備える構成とした。
かかる構成において、携帯端末装置は、ディスプレイに表示された映像は観察者の視点位置に合うように処理されているので、観察者にとって現実世界と自然に融合した映像として見える。この映像は、拡張現実と仮想現実の何れの映像であってもよい。
【0016】
なお、本発明は、コンピュータを前記した携帯端末装置として機能させるためのプログラムで実現することもできる。
【発明の効果】
【0017】
本発明によれば、例えば仮想現実やビデオシースルー方式の拡張現実にて、現実世界と自然に融合した映像を表示できる。具体的には、観察者の視点位置に合い、かつ、現実世界と仮想世界の間でシームレスな映像でのARとなる。これにより携帯端末装置のディスプレイ内の仮想世界の現実感を高めることができる。
【図面の簡単な説明】
【0018】
図1】第1の実施形態の携帯端末装置のディスプレイ上に拡張現実を表示させたことを示す図である。
図2】携帯端末装置の正面図である。
図3】携帯端末装置の背面図である。
図4】携帯端末装置の論理ブロック図である。
図5】第2の実施形態の携帯端末装置の正面図である。
図6】第2の実施形態の携帯端末装置の背面図である。
図7】第2の実施形態の携帯端末装置の論理ブロック図である。
図8】拡張現実処理のフローチャートである。
図9】各座標系を示す図である。
図10】基準角とカメラ画角を示す図である。
図11】視点カメラの内部パラメータの計算方法を示す図である。
図12】現実世界シーンを示す図である。
図13】仮想物体の一例を示す図である。
図14】比較例の携帯端末装置のディスプレイ上に拡張現実を表示させたことを示す図である。
【発明を実施するための形態】
【0019】
以降、本発明を実施するための形態を、各図を参照して詳細に説明する。視点追従型ARの実施形態のうち、システム構成や幾何学的関係など全体的な内容について説明し、次に具体的な各処理の詳細について説明する。
【0020】
図1に示すように、携帯端末装置1は、ディスプレイ6とインカメラ5と、背面側のアウトカメラ2を備えている。ディスプレイ6上には、アウトカメラ2で背景の広葉樹7aと針葉樹7bを撮影した映像(ビデオ画像)がシースルーで表示されており、更に仮想物体8がその上に重畳されている。
【0021】
携帯端末装置1は、ビデオシースルー方式のため、この携帯端末装置1の背面側のカメラ(アウトカメラ2)で撮影した映像に仮想物体8を合成している。このディスプレイ6に表示されたアウトカメラ2の映像は、本来そこに見えるべき映像(携帯端末装置1がない場合に直接目で見える映像)の画角と一致するように切り出されたものである。そのため、ディスプレイ6に表示された仮想世界と、その背景の現実世界とが繋がって見えるので、シームレスな映像となる。つまり、携帯端末装置1は、現実世界と自然に融合した映像をディスプレイ6に表示している。
【0022】
《システム構成》
図2に示すように、携帯端末装置1の筐体の正面には、ディスプレイ6とインカメラ5とが設けられている。ディスプレイ6は、例えば液晶や有機EL(Electro Luminescence)で構成され、各種映像や文字や図形を表示する表示部である。インカメラ5は、正面側の映像や観察者9などを撮影するためのカメラである。インカメラ5が撮影した映像は、この携帯端末装置1のディスプレイ6を観察する観察者9の視点位置を推定する用途などに用いられる。
【0023】
図3に示すように、携帯端末装置1の筐体の背面には、アウトカメラ2が設けられている。アウトカメラ2は、背面側の映像を撮影するためのカラーカメラである。アウトカメラ2やインカメラ5は、映像を撮影するカラーカメラまたはモノクロカメラであるが、ここではカラーカメラとして考える。これは現在の一般的な携帯端末装置が満たしているハードウェア構成である。
【0024】
図4に示す第1の実施形態の携帯端末装置1は、ディスプレイ6を備え、インカメラ5と、アウトカメラ2と、位置姿勢推定部11と、事前校正部12と、視点位置推定部13と、背景映像生成部14と、仮想物体合成部15とを備える。位置姿勢推定部11と、事前校正部12と、視点位置推定部13と、背景映像生成部14と、仮想物体合成部15とは、携帯端末装置1のCPU(Central Processing Unit)が、不図示の拡張現実プログラムを実行することで具現化される。
【0025】
事前校正部12は、インカメラ5とアウトカメラ2の映像に基づき、事前の校正を行うものである。この校正情報は、位置姿勢推定部11と視点位置推定部13に出力される。
【0026】
位置姿勢推定部11は、校正情報に基づいて校正されたのち、アウトカメラ2の映像などに基づき、この携帯端末装置1の位置と姿勢とを推定するものである。位置姿勢推定部11が推定した携帯端末装置1の位置と姿勢は、背景映像生成部14に出力される。
【0027】
視点位置推定部13は、校正情報に基づいて校正されたのち、インカメラ5の映像などに基づき、この携帯端末装置1の利用者の視点位置を推定するものである。視点位置推定部13が推定した利用者の視点位置は、背景映像生成部14に出力される。
【0028】
背景映像生成部14は、携帯端末装置1の位置と姿勢および利用者の視点位置に基づき、背景映像を生成するものである。この背景映像生成部14が生成した背景映像は、仮想物体合成部15に出力される。
仮想物体合成部15は、背景映像に仮想物体8を合成するものである。仮想物体合成部15が仮想物体8を合成した映像は、ディスプレイ6に出力される。
なお、携帯端末装置1の各手段は、その詳細を後記する。
【0029】
図5に示すように、第2の実施形態の携帯端末装置1Aの正面には、ディスプレイ6とインカメラ5L,5Rとが設けられている。インカメラ5L,5Rは、正面側を撮影するためのカラーカメラであり、2つの撮像部が所定距離だけ離間して設置されたステレオカメラとして構成される。このように2台以上のカラーカメラがある場合、カメラで撮影しているシーンの奥行きが推定できる。インカメラ5L,5Rが撮影した映像は、ディスプレイ6に表示する用途や、この携帯端末装置1Aの利用者を認証する用途などに用いられる。なお、インカメラ5L,5Rは、一方が映像を撮影するカラーカメラまたはモノクロカメラであり、他方が各背景の深度を計測するデプスカメラであってもよい。
【0030】
図6に示す第2の実施形態の携帯端末装置1Aの背面には、アウトカメラ2L,2Rが設けられている。アウトカメラ2L,2Rは、背面側を撮影するためのカラーカメラであり、かつ、2つの撮像部が所定距離だけ離間して設置されたステレオカメラとして構成される。このように2台以上のカラーカメラがある場合、カメラで撮影しているシーンの奥行きが推定できる。アウトカメラ2L,2Rやインカメラ5L,5Rは、カラーカメラに限られず、モノクロカメラであってもよい。なお、インカメラ5L,5Rは、一方が映像を撮影するカラーカメラまたはモノクロカメラであり、他方が各背景の深度を計測するデプスカメラであってもよい。
【0031】
図7に示す第2の実施形態の携帯端末装置1Aは、慣性計測装置3やGPS(測位装置)4などを備えていてもよく、これらは携帯端末装置1Aの位置や姿勢の推定に役立つ。以降、基本的には最小ハードウェア構成である第1の実施形態を考え、拡張ハードウェア構成である第2の実施形態を想定する場合は、その機器について記載する。なお、第2の実施形態を想定する場合、インカメラ5L,5Rのことを単にインカメラ5と記載し、アウトカメラ2L,2Rのことを単にアウトカメラ2と記載することがある。
【0032】
図8のステップS10にて、事前校正部12は、インカメラ5とアウトカメラ2の映像に基づき、この携帯端末装置1の使用前にインカメラ5やアウトカメラ2の内部パラメータや各座標系間の剛体変換行列(位置姿勢の関係)を推定する。ここで事前校正部12が推定した情報は、位置姿勢推定部11、視点位置推定部13、背景映像生成部14および仮想物体合成部15で使用される。
【0033】
ステップS11にて、位置姿勢推定部11は、アウトカメラ2で撮影した映像を使い携帯端末装置1の位置姿勢を推定する。なお、位置姿勢推定部11は、第2の実施形態に記載の慣性計測装置3やGPS4で取得した情報などを用いて、より正確に携帯端末装置1Aの位置姿勢を推定してもよい。
【0034】
ステップS12にて、視点位置推定部13は、インカメラ5で撮影した映像などを使い観察者9の視点の三次元位置を推定する。これらの処理が終わると、世界座標系Σとアウトカメラ座標系ΣCoとインカメラ座標系ΣCiと視点座標系Σとディスプレイ座標系Σを変換するための剛体変換行列が既知となる。ここで世界座標系Σとは、背景として撮影されている現実世界の座標系である。アウトカメラ座標系ΣCoとは、アウトカメラ2に設定された座標系である。インカメラ座標系ΣCiとは、インカメラ5に設定された座標系である。視点座標系Σとは、観察者9の視点に仮想的に設けられた視点カメラ91によって設定された座標系である。
【0035】
ステップS13にて、背景映像生成部14は、これまで推定した情報とアウトカメラ2で撮影した映像から、観察者9の視点位置に合い、かつ、現実世界と仮想世界の間でシームレスな背景映像を生成する。この背景映像は、携帯端末装置1のディスプレイ6に表示する映像において仮想物体8の背景となる映像である。
【0036】
ステップS14にて、仮想物体合成部15は、背景映像生成部14が生成した背景映像に仮想物体8を合成する。この合成画像はディスプレイ6に表示される。
これにより、携帯端末装置1は、ビデオシースルー方式にて、現実世界と自然に融合した背景とこの背景に重畳した仮想物体8の映像をディスプレイ6に表示することができる。これにより観察者9は、現実世界と仮想世界とが自然に融合した拡張現実を体感できる。
【0037】
《幾何学的関係》
図9には、インカメラ5やアウトカメラ2やディスプレイ6などの座標系が定義されている。世界座標系Σは、基準となる背景の座標系である。ディスプレイ座標系Σは、ディスプレイ6の中心を原点としてディスプレイ面の法線方向をz軸とする座標系である。インカメラ座標系ΣCiは、インカメラ5で撮影された映像に係る座標系である。アウトカメラ座標系ΣCoは、アウトカメラ2で撮影された映像に係る座標系である。
【0038】
視点座標系Σは、観察者9の視点位置(両眼の中心位置)を原点としディスプレイ座標系Σと同じ姿勢(xyz各軸の方向が同じ)である。これらの座標系は、剛体変換行列により相互に変換可能である。剛体変換行列を、事前校正処理、位置姿勢推定処理、視点位置推定処理の順番で求めてゆく。
【0039】
ここではまず剛体変換行列について説明する。その後、インカメラ5やアウトカメラ2などで使用するカメラ校正と内部パラメータ、三次元点の画像への投影について述べる。
【0040】
或る座標系Σから他の座標系Σへの変換を、剛体変換行列で表す。この場合、座標系Σにおける三次元点の座標Xは、式(1)により座標系Σの三次元点の座標Xに変換される。
【数1】
【0041】
ここで、三次元座標Xの左上の添え字は座標系を表し、三次元座標X=[X,Y,Z]Tの同次座標は、以下の式(2)となる。なお、Tはベクトルの転置を意味する。
【数2】
【0042】
この剛体変換行列は、式(3)に示すように、回転行列と並進ベクトルtで構成される。
【数3】
【0043】
また、剛体変換行列は、以下の式(4)が成立する。
【数4】
【0044】
さらに、座標系Σがある場合、座標系ΣからΣへ変換する剛体変換行列は、式(5)で計算できる。
【数5】
【0045】
カメラ校正とは、或るカメラのカメラパラメータを推定する処理である。カメラパラメータは、或るカメラの位置および姿勢を表す外部パラメータと、このカメラの焦点距離などを表す内部パラメータで構成される。外部パラメータは、世界座標系Σにおける位置と姿勢についての情報であり、世界座標系Σからカメラ座標系Σへ変換する剛体変換行列と等価である。
【0046】
内部パラメータは、このカメラの焦点距離と画像中心とレンズ歪みで構成される。x方向の焦点距離をf、y方向の焦点距離をf、x方向の画像中心をc、y方向の画像中心をcとすると、内部パラメータ行列Kは、式(6)で示される。
【数6】
【0047】
カメラ校正によりカメラパラメータが推定されると、世界座標系Σにおける三次元点をこのカメラの画像へ投影できる。透視投影行列Pは、式(7)に示すように、内部パラメータ行列Kと剛体変換行列で算出される。
【数7】
【0048】
透視投影行列Pにより世界座標系Σの座標Xを画像座標上に投影すると、投影される画像座標u=[u,v]Tは、式(8)を満たす。
【数8】
【0049】
ここで、sはスケール係数を表し、画像座標uの同次座標系は、式(9)を満たす。
【数9】
【0050】
《事前校正部12の動作詳細》
事前校正部12は、各カメラの内部パラメータとレンズ歪み係数、及び座標系間の剛体変換行列を推定する。インカメラ5とアウトカメラ2の内部パラメータとレンズ歪み係数は、既知の校正パターンを使ったZhangの手法(以下文献に記載)を使うことで推定できる。
Z. Zhang, “A flexible new technique for camera calibration”, IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 22, No. 11, pp. 1330-1334 (2000)
【0051】
このカメラ校正によりレンズ歪み係数も推定されるため、以降の映像はレンズ歪みが除去されたものとして扱う。
【0052】
座標系間の剛体変換行列とは、具体的には、ディスプレイ座標系Σからインカメラ座標系ΣCiへの剛体変換行列Ciと、ディスプレイ座標系Σからアウトカメラ座標系ΣCoへの剛体変換行列Coを指す。例えば、剛体変換行列CiCoは、以下文献に記載の手法により推定することもできる。
A. Delaunoy et al., “Two cameras and a screen: How to calibrate mobile devices? ”, 2nd International Conference on 3D Vision. pp. 123-130 (2014)
【0053】
他にも簡易的に推定する方法もある。位置関係は定規などで計測し、ディスプレイ座標系Σとインカメラ座標系ΣCiは同じ姿勢、アウトカメラ座標系ΣCoは、それらの座標系をy軸方向に180度回転させたものとする。これで剛体変換行列CiCoは推定できる。
【0054】
《位置姿勢推定部11の動作詳細》
位置姿勢推定部11は、携帯端末装置1の位置と姿勢をSimultaneous Localization and Mapping(SLAM)を用いることで推定する。SLAMとは、ロボットが自己位置と周辺環境を推定するための技術である。位置姿勢推定部11は、SLAMにより、アウトカメラ2で撮影した映像や、慣性計測装置3やGPS4などから携帯端末装置1の位置と姿勢を推定する。
【0055】
この時、アウトカメラ2の内部パラメータが必要となるが、これは事前校正で推定済みである。もし1台のアウトカメラ2でSLAMを実施する場合、スケールの不定となるため実スケールでの位置が推定できない。そのためマーカーや既知の物体を検出して画像上からスケールを知るか、慣性計測装置3などの物理量を直接計測できるセンサと融合する必要がある。この処理により剛体変換行列Coが推定できる。
【0056】
《視点位置推定部13の動作詳細》
視点位置推定部13は、携帯端末装置1のインカメラ5で撮影した映像から、三次元座標での観察者9の視点位置を推定する。携帯端末装置1は、インカメラ5で観察者9の顔画像を取得する。次に視点位置推定部13は、取得した画像から顔パーツの検出を行う。これらの検出はOpenCV(インターネットURL: https://opencv.org/)やDlib(インターネットURL: http://dlib.net/)に実装されているアルゴリズムで実行できる。
【0057】
顔パーツの検出ができると、画像内での両眼や鼻や口などの顔パーツの二次元位置(画像座標)がわかる。この顔パーツ三次元化には、事前に設定された一般的な人間の顔パーツの三次元位置と検出された画像内での二次元位置からPerspective n-Point(PnP)問題を解く必要がある。PnP問題の解法は、OpenCVなどに実装されている。PnP問題を解くにはインカメラ5の内部パラメータが必要となるが、これは事前校正にて推定済みである。これによりインカメラ座標系ΣCiにおける顔パーツの三次元位置が得られる。
【0058】
視点位置は、観察者9の両眼の中心位置とする。視点座標系Σは、ディスプレイ座標系Σと同じ姿勢のため、これで剛体変換行列Ciは推定できる。もしインカメラ5に2台以上のカメラがある場合、PnP問題を解かなくてもステレオマッチングやデプスカメラにより顔パーツの三次元位置が推定できる。
【0059】
以上の処理を経て、剛体変換行列Coと、剛体変換行列Coと、剛体変換行列Ciと、剛体変換行列Ciが既知となる。これらの剛体変換行列を使い計算すれば、図9中のすべての座標系間の剛体変換行列が計算可能である。
【0060】
《背景映像生成部14の動作詳細》
背景映像生成部14は、推定した携帯端末装置1の位置および姿勢、並びに観察者9の視点位置に基づき、アウトカメラ2で撮影した映像から背景映像を生成する。この背景映像は、ディスプレイ6に表示された状態で観察者9の視点位置に合うように生成されている。この映像をディスプレイ6に表示することで、観察者9は、現実世界と仮想世界の間でシームレスな映像を観察できる。以下、アウトカメラ2で撮影された現実世界のシーンの奥行き情報を使用しない場合と、奥行き情報を使用する場合に分けて説明する。
【0061】
《奥行き情報を使用しない場合》
現実世界シーンの奥行きが未知の場合、背景映像生成部14は、幾何学的に正確な背景映像を生成できない。正確な映像を生成できるのは一つの平面上のシーンのみであり、その前後の奥行きにあるシーンはずれが生じる。しかし、この平面(以降、基準面と呼ぶ)を適切に設定すれば大きな違和感は生じない。
【0062】
図10の基準面7は、背景映像が存在していると仮定する面である。視点カメラ91は、観察者9の視点位置に疑似的に配置されたカメラである。奥行きの情報がない場合、背景映像生成部14は、アウトカメラ2で撮影した映像を基準面7に対して、視点カメラ91へ射影変換することで、疑似的に背景映像を生成する。
【0063】
基準面7は、任意に設定してよく、その設定を使用中に変更も可能である。ここでは基準面7を表す平面方程式の係数ベクトルを、以下の式(10)で表す。
【数10】
【0064】
ここでnは法線ベクトルを表す。この式(10)は、式(11)の平面方程式と等しい。なお、式(11)のa,b,c,dは、各項の係数である。
【数11】
【0065】
式(11)の平面方程式から、式(10)の法線ベクトルnは、式(12)で表わされる。
【数12】
【0066】
式(13)で示したように、πと三次元座標X=[X,Y,Z]Tの同次座標の積は、0である。
【数13】
【0067】
基準面7は、その後の処理のために、剛体変換行列Coで視点座標系ΣVに変換する。例えば、アウトカメラ座標系ΣCoで設定された基準面Coπは、式(14)で視点座標系ΣVに変換される。
【数14】
【0068】
ここで、ベクトルπの左上の添え字は座標系を表し、-Tは逆行列の転置を意味する。
視点カメラ91の画角は、携帯端末装置1のディスプレイ6の範囲を撮るように設定する。通常、実際に観察者9が見る画角はこの視点カメラ91の画角よりも広くなる。視点カメラ91のカメラ座標系は視点座標系ΣVと等しい。つまり、視点カメラ91は、図10のように視点の正面にディスプレイ6がなくてもパンやチルトはせず、レンズシフトにより撮影方向の調整を行う。
【0069】
ここで、図11のように、視点座標系ΣVでのディスプレイ6の中心の座標(ディスプレイ座標系Σの原点)を式(15)で定義する。
【数15】
【0070】
そして、ディスプレイ6のx方向のサイズをS、y方向のサイズをSとすると、視点カメラ91の内部パラメータ行列Kは、式(16)となる。
【数16】
【0071】
ここで、ディスプレイ6のx方向の画素数をU、y方向の画素数をVとしたとき、画素ピッチδとδは、式(17)で定義される。
【数17】
【0072】
アウトカメラ座標系ΣCoから視点座標系Σへの剛体変換行列Coは式(18)で計算できる。
【数18】
【0073】
よって、アウトカメラ2で撮影された映像から視点カメラ91から見た背景映像への射影変換行列Hは、以下の式(19)で求められる。
【数19】
【0074】
この式(19)の射影変換行列Hについては、以下の文献に記載されている。

Multiple View Geometry in Computer Vision 2nd Edition, Cambridge University Press, 2004
【0075】
ここで、アウトカメラ2の内部パラメータ行列KCoCotは、剛体変換行列Coの回転行列と並進ベクトルである。式(20)のように、この射影変換行列Hを、アウトカメラ2で撮影された映像に適用することで、視点カメラ91から見た映像に変換できる。
【数20】
【0076】
ここで、アウトカメラ映像の画像座標はu、背景映像の画像座標はu′とする。以上で背景映像が生成できる。なお、視点カメラ91の画素数は、ディスプレイ6の画素数に揃える。
【0077】
《奥行き情報を使用した場合》
アウトカメラ2が2台以上あり、それらがカラーカメラ2台やカラーカメラとデプスカメラが1台ずつの場合、現実世界シーンの奥行きが推定できる。奥行きが推定できれば、背景映像生成部14は、任意の視点の位置姿勢のカメラの映像を生成することが可能となる。つまり、アウトカメラ2のカラー映像と、デプスマップから視点カメラ91の映像を生成できる。この映像は奥行きを使用して生成しているため、奥行きを使用しない場合とは異なり、基準面7以外でも正確な映像が生成できる。ただし、オクルージョンや奥行きの推定誤差などが原因で生成された映像が劣化することがある。視点カメラ91の内部パラメータは式(16)、式(18)と同じである。
【0078】
《仮想物体合成部15の動作詳細》
仮想物体合成部15は、背景映像生成部14が生成した映像に仮想物体8を合成する。ここでは、世界座標系Σで定義される仮想物体8のCGオブジェクトを合成する場合を考える。仮想物体8を定義する座標系は、他の座標系でも問題ないが、それに応じて座標変換が必要になる。
【0079】
仮想物体合成部15が、映像中に仮想物体8を投影合成するための方法は、式(21)により透視投影行列Pを計算し、式(22)により仮想物体8を背景映像に投影することで実現される。透視投影行列Pは、世界座標系Σにおける三次元点を背景映像へ投影する行列である。
【数21】
【0080】
式(21)の透視投影行列Pの投影先は、背景映像である。このため、式(7)の剛体変換行列に代えて、剛体変換行列を使っている。
透視投影行列Pにより世界座標系Σの座標Xを、背景映像の画像座標上に投影すると、投影される画像座標u=[u,v]Tは、式(22)を満たす。
【数22】
【0081】
ここで、sはスケール係数を表し、画像座標uの同次座標系は、式(23)を満たす。
【数23】
【0082】
ここでは仮想物体合成を一連の処理の最後に実施したが、従来のARの様にアウトカメラ2で撮影したそのままの映像に仮想物体8を合成して、その後にアウトカメラ座標系ΣCoから視点座標系Σへ視点を変換する射影変換をしてもよい。つまり、図8のフローチャートにおいて、ステップS13の背景映像生成処理と、ステップS14の仮想物体合成処理の順番を逆にしてもよい。
【0083】
以上、実施形態を詳述してきたが、本発明は前記した実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。
【0084】
《仮想現実への適用》
ここまでARへの適用について述べたが、仮想現実(Virtual Reality:VR)へも適用可能である。VRにおいて、カメラで撮影した映像に合成しないため、現実世界と仮想世界をシームレスに繋げる必要はない。従来のVRに、本発明の視点追従技術を適用することで、観察者9は、自身の視点位置に応じた仮想世界のみの映像を見ることができる。つまり携帯端末装置は、現実世界と自然に融合した仮想世界の映像を表示することができる。
【0085】
前記した実施形態では、携帯端末装置が独立したハードウェアであることとして説明したが、本発明は、これに限定されない。例えば、本発明は、コンピュータが備えるCPU、メモリ、ハードディスク等のハードウェア資源を、前記した携帯端末装置として機能させるためのプログラムで実現することもできる。このプログラムは、通信回線を介して配布してもよく、CD-ROMやフラッシュメモリ等の記録媒体に書き込んで配布してもよい。
【符号の説明】
【0086】
1,1A 携帯端末装置
2,2L,2R アウトカメラ
3 慣性計測装置
4 GPS (測位装置)
5,5L,5R インカメラ
6 ディスプレイ
7 基準面
7a 広葉樹
7b 針葉樹
8 仮想物体
11 位置姿勢推定部
12 事前校正部
13 視点位置推定部
14 背景映像生成部
15 仮想物体合成部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14