(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-09-22
(45)【発行日】2023-10-02
(54)【発明の名称】画像解析装置、画像解析方法、およびプログラム
(51)【国際特許分類】
G06T 7/00 20170101AFI20230925BHJP
【FI】
G06T7/00 350C
G06T7/00 660A
(21)【出願番号】P 2022075171
(22)【出願日】2022-04-28
(62)【分割の表示】P 2018164409の分割
【原出願日】2018-09-03
【審査請求日】2022-05-18
【新規性喪失の例外の表示】特許法第30条第2項適用 公開日 平成30年7月16日 発表会名 第27回国際人口知能会議、第23回 欧州人工知能会議(IJCAI―ECAI2018) メイントラック2日目 発表会場 ストックホルム会議場(The Stockholm Convention Center)(Massvagen 1,Stockholm,Sweden) ウェブサイトの掲載日 平成30年7月16日 ウェブサイトのアドレス(https://www.ijcai-18.org/)(http://static.ijcai.org/2018-Program.html)(https://www.ijcai.org/proceedings/2018/0214.pdf)
(73)【特許権者】
【識別番号】319013263
【氏名又は名称】ヤフー株式会社
(74)【代理人】
【識別番号】100149548
【氏名又は名称】松沼 泰史
(74)【代理人】
【識別番号】100154852
【氏名又は名称】酒井 太一
(74)【代理人】
【識別番号】100181124
【氏名又は名称】沖田 壮男
(74)【代理人】
【識別番号】100194087
【氏名又は名称】渡辺 伸一
(72)【発明者】
【氏名】清水 伸幸
(72)【発明者】
【氏名】宮崎 崇史
(72)【発明者】
【氏名】レ ミン タオ
【審査官】佐藤 実
(56)【参考文献】
【文献】米国特許出願公開第2013/0120522(US,A1)
【文献】特開2006-127353(JP,A)
【文献】特開2006-338529(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00 - 7/90
G10L 15/10
(57)【特許請求の範囲】
【請求項1】
画像に含まれる1以上の人物を検出し、検出された人物の内で、口を開けている人物を発話者であると推定する発話者推定部と、
推定された前記発話者の視線の先の位置を推定する視線先位置推定部と、
推定された前記視線の先の位置に基づいて、前記発話者が発話する対象の発話相手を
推測する発話相手推測部と、
を備え、
前記視線先位置推定部は、
前記画像内の前記発話者の映り込む部分を除いた画像全体から物標を検出し、
前記画像内での前記発話者の
瞳の位置を検出し、
検出された前記物標と、
前記瞳の位置とに基づいて、前記発話者の視線の先の位置を推定
し、
前記発話相手推測部は、
検出された前記物標に1名の人物が含まれる場合、前記1名の人物を前記発話相手と推測し、
検出された前記物標に2名以上の人物が含まれる場合、推定された前記視線の先の位置に基づいて、前記発話相手を推測し、
検出された前記物標に人物が含まれない場合、前記画像の撮像者または前記画像に含まれず且つ前記画像から想定される実空間に存在する人物を、前記発話相手と推測する、
画像解析装置。
【請求項2】
前記視線先位置推定部は、畳み込みニューラルネットワークを利用した第1導出器を用いて、前記画像内における前記物標の検出結果を示す顕著性マップを導出する、
請求項1に記載の画像解析装置。
【請求項3】
前記視線先位置推定部は、畳み込みニューラルネットワークを利用した第2導出器を用いて、前記画像内における前記顕著性マップとは別の空間マップである、視線マスクマップを導出する、
請求項2に記載の画像解析装置。
【請求項4】
前記視線先位置推定部は、前記顕著性マップと前記視線マスクマップとの要素ごとの積を演算することによって、前記発話者の視線の先の位置を推定する、
請求項3に記載の画像解析装置。
【請求項5】
前記発話相手推測部は、前記画像内において推定された前記発話者の視線の先の位置に人物が映り込んでいる場合、前記人物を前記発話相手と
推測する、
請求項1から4の何れか一項に記載の画像解析装置。
【請求項6】
コンピュータが、
画像に含まれる1以上の人物を検出し、検出された人物の内で、口を開けている人物を発話者であると推定し、
推定された前記発話者の視線の先の位置を推定し、
推定された前記視線の先の位置に基づいて、前記発話者が発話する対象の発話相手を
推測する、
画像解析方法であって、
前記画像内の前記発話者の映り込む部分を除いた画像全体から物標を検出し、
前記画像内での前記発話者の
瞳の位置を検出し、
検出された前記物標と、
前記瞳の位置とに基づいて、前記発話者の視線の先の位置を推定
し、
検出された前記物標に1名の人物が含まれる場合、前記1名の人物を前記発話相手と推測し、
検出された前記物標に2名以上の人物が含まれる場合、推定された前記視線の先の位置に基づいて、前記発話相手を推測し、
検出された前記物標に人物が含まれない場合、前記画像の撮像者または前記画像に含まれず且つ前記画像から想定される実空間に存在する人物を、前記発話相手と推測する、
画像解析方法。
【請求項7】
コンピュータに、
画像に含まれる1以上の人物を検出させ、検出された人物の内で、口を開けている人物を発話者であると推定させ、
推定された前記発話者の視線の先の位置を推定させ、
推定された前記視線の先の位置に基づいて、前記発話者が発話する対象の発話相手を
推測させる、
プログラムであって、
前記画像内の前記発話者の映り込む部分を除いた画像全体から物標を検出させ、
前記画像内での前記発話者の
瞳の位置を検出させ、
検出された前記物標と、
前記瞳の位置とに基づいて、前記発話者の視線の先の位置を推定
させ、
検出された前記物標に1名の人物が含まれる場合、前記1名の人物を前記発話相手と推測させ、
検出された前記物標に2名以上の人物が含まれる場合、推定された前記視線の先の位置に基づいて、前記発話相手を推測させ、
検出された前記物標に人物が含まれない場合、前記画像の撮像者または前記画像に含まれず且つ前記画像から想定される実空間に存在する人物を、前記発話相手と推測させる、
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像解析装置、画像解析方法、およびプログラムに関する。
【背景技術】
【0002】
従来、人物を撮像した画像の特徴(例えば、発話前に確認される癖や表情)と、その特徴が確認された際に発話する確率とを学習した学習結果に基づいて、発話者が実際に話す前に発話者を予測することで、TV会議システムなどでマイク、カメラ等の円滑なスイッチングを実現する技術が知られている(特許文献1参照)。
【0003】
また、画像に映る人物の目線を検出する技術が知られている(非特許文献1参照)。
【先行技術文献】
【特許文献】
【0004】
【非特許文献】
【0005】
【文献】Recasens、外3名、Massachusetts Institute of Technology, “Where are they looking?”、[online], [平成30年7月2日検索]、インターネット<URL:http://people.csail.mit.edu/khosla/papers/nips2015_recasens.pdf>
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、従来の技術では人物を撮像した画像から、発話者と発話相手とを推測するには至っていなかった。
【0007】
本発明は、このような事情を考慮してなされたものであり、画像に含まれる発話者と発話内容とに基づいて、発話相手を適切に推測することができる画像解析装置、画像解析方法、およびプログラムを提供することを目的の一つとする。
【課題を解決するための手段】
【0008】
本発明の一態様の画像解析装置は、画像に含まれる発話者の視線の先の位置を推定する視線先位置推定部と、推定された前記視線の先の位置に基づいて、前記発話者が発話する対象の発話相手を推定する発話相手推測部と、を備え、前記視線先位置推定部は、前記画像内の前記発話者の映り込む部分を除いた画像全体から物標を検出し、前記画像内での前記発話者の頭の位置および瞳の位置の少なくとも一方を検出し、検出された前記物標と、前記頭の位置および瞳の位置の少なくとも一方とに基づいて、前記発話者の視線の先の位置を推定する、画像解析装置である。
【発明の効果】
【0009】
本発明の一態様によれば、画像の被写体である発話者と発話内容とに基づいて、発話相手を適切に推測することができる画像解析装置、画像解析方法、およびプログラムを提供することができる。
【図面の簡単な説明】
【0010】
【
図1】実施形態の画像解析装置100の使用環境を示す図である。
【
図2】視線先位置推定部132の視線検出方法について説明する図である。
【
図3】視線先位置推定部132により視線が検出された結果の一例を示す図である。
【
図4】発話内容推測部140による発話者の発話内容の推測手順を示す図である。
【
図5】視線先位置推定部132、および発話内容推測部140による処理の流れを模式的に示す図である。
【
図6】画像解析装置100による推測処理の流れの一例を示すフローチャートである。
【
図7】第2の実施形態の画像解析装置100Aの概要図である。
【
図8】画像解析装置100Aによる推測処理の流れの一例を示すフローチャートである。
【発明を実施するための形態】
【0011】
以下、図面を参照し、本発明の画像解析装置、画像解析方法、およびプログラムの実施形態について説明する。
【0012】
[概要]
画像解析装置は、一以上のプロセッサにより実現される。画像解析装置は、1以上の人物が撮像された1以上の画像と、その画像における発話者および発話内容を取得し、その取得した情報に基づいて、発話相手(発話者が話しかけている相手)を推測する。なお、画像は動画であってもよい。また、画像には、撮像日時情報や地理情報等が付随していてもよい。
【0013】
画像解析装置は、画像の特徴、発話者の特徴、および発話内容に基づいて、発話相手を推測する。発話相手は、画像に撮像された人物であってもよいし、画像に含まれない人物(例えば、画像を撮像した人物や、画像から想定される実空間に存在する人物)であってもよい。これによって、画像解析装置は、人物を撮像した画像から発話者と発話相手とを推測することができる。
【0014】
<第1実施形態>
[全体構成]
図1は、第1実施形態の画像解析装置100の使用環境および構成の一例を示す図である。画像解析装置100は、ネットワークNWを介して依頼元端末200と通信する。ネットワークNWは、例えば、インターネット、WAN(Wide Area Network)、LAN(Local Area Network)、プロバイダ端末、無線通信網、無線基地局、専用回線などを含む。依頼元端末200は、例えば、通信機能などを有するコンピュータ装置である。通信機能は、NIC(Network Interface Card)などのネットワークカード、無線通信モジュールなどにより実現される。
【0015】
画像解析装置100は、例えば、取得部110と、特徴量導出部120と、発話者推定部130と、発話内容推測部140と、発話相手推測部150と、出力部160と、記憶部170とを備える。これらの構成要素は、例えば、CPU(Central Processing Unit)などのハードウェアプロセッサがプログラム(ソフトウェア)を実行することにより実現される。また、これらの構成要素のうち一部または全部は、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)などのハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。
【0016】
取得部110は、1以上の人物が含まれる1以上の画像を、依頼元端末200から取得する。取得部110は、取得した画像を特徴量導出部120に出力する。以下、画像は人物を撮像したものとする。
【0017】
特徴量導出部120は、画像の特徴量を導出する。特徴量とは、画像を解析することにより算出される数値(ベクトルや行列を含む)その他のデジタルデータである。画像の特徴量は、例えば、輝度、色、明度分布、彩度、色比率、人物の顔の各パーツ(目、鼻、口、眉、顎、髪など)の形状やサイズなどである。なお、特徴量導出部120は、画像に撮像された人物の属性を識別して、その人物の特徴量を導出してもよい。人物の属性とは、例えば、人物の年齢、性別、職業、パターン化された表情(怒り顔、笑顔など)である。また、取得部110が取得した画像が複数枚の連続した画像である場合や、動画である場合、人物の特徴量には、人物の基準位置(頭部あるいは体の重心など)の移動ベクトル、人物の形態変化(例えば、表情の変化や身振り)や、画像に音声が対応付けられている場合には音声に基づく特徴量(例えば、声の大きさ、高さ、抑揚等)が含まれてもよい。
【0018】
なお、特徴量導出部120は、導出した特徴量に基づいて、画像から連想される場面タイトルを特徴量として導出してもよい。場面タイトルとは、画像を端的に説明するものであり、例えば、「学校」、「オフィス」のように場所を示したり、「上司と部下」、「教員と生徒」のように画像に撮像された人物の関係を示したりするものである。特徴量導出部120は、導出した特徴量を発話者推定部130、視線先位置推定部132および発話内容推測部140に出力する。
【0019】
発話者推定部130は、特徴量導出部120により出力された特徴量に基づいて、画像における発話者を推定する。発話者推定部130は、例えば、画像に撮像された人物が1名である場合には、その人物を発話者として発話内容を推定する。また、発話者推定部130は、例えば、画像に撮像された人物が2名以上である場合には、人物のうち、視線の先の位置(その位置にある人物)に基づいて、発話者を推定する。また、発話者推定部130は、例えば、撮像された他の人物が口を閉じている中で、1名だけ口を開けている場合、その口を開けている人物を発話者であると推定する。
【0020】
発話者推定部130は、例えば、視線先位置推定部132を備える。視線先位置推定部132は、特徴量導出部120により出力された特徴量と、発話者推定部130により推定された発話者とに基づいて、発話者の視線の先の位置(視線先位置)を推定する。視線先位置推定部132が推定する視線先位置は、画像平面上の位置でもよいし、画像から想定される実空間上の位置でもよい。
【0021】
なお、視線先位置推定部132は、画像から人物を検出した場合であっても、その人物の瞳の一部または全部が確認できない場合(例えば、画像に映るのが人物の後ろ姿である場合や、画像に映る人物が項垂れていて顔が映り込んでない場合等)、視線を推定しないものとしてよい。視線先位置推定部132による視線先位置推定方法については後述する。視線先位置推定部132は、推定した視線先位置情報を発話内容推測部140に出力する。
【0022】
発話内容推測部140は、特徴量導出部120により出力された特徴量、発話者推定部130により推定された発話者、および視線先位置推定部132により推定された人物の視線先位置に基づいて、発話者の発話内容を推測する。発話内容には、話題に挙がる目的語や、話題の方向性(例えば、ポジティブな内容か、ネガティブな内容か)の情報が含まれる。
【0023】
発話内容推測部140は、推測した発話者および発話内容を発話相手推測部150および出力部160に出力する。
【0024】
発話相手推測部150は、発話内容推測部140により出力された発話内容が誰に対するものであるかを推測する。発話相手推測部150は、画像に撮像された人物が2名である場合、発話者でない人物を発話相手であると推測する。発話相手推測部150は、画像に撮像された人物が3名以上である場合、例えば、発話者の視線に基づいて発話相手を推測する。発話相手推測部150は、画像に撮像された人物が1名である場合、例えば、特徴量導出部120により導出された場面タイトルに基づいて発話相手を推測する。発話相手推測部150は、推測した発話相手を出力部160に出力する。
【0025】
出力部160は、発話内容推測部140により出力された発話内容、および発話相手推測部150により出力された発話相手を
図1に示す依頼元端末200に出力する。
【0026】
記憶部170は、発話推測情報171を記憶する。発話推測情報171とは、発話内容推測部140により参照され、発話内容の参考情報として用いられる文章情報、および発話内容の文脈に関する情報を含むものである。
【0027】
発話内容推測部140は、推測結果を発話推測情報171として記憶させることで、発話内容推測部140による推測結果を学習させてもよい。また、発話推測情報171には、特徴量導出部120により導出される場面タイトルが含まれていてもよい。また、発話内容推測部140は、発話推測情報171として、
図1に示すネットワークNWを介して、発話内容の参考情報として用いられる文章情報や、発話内容の文脈に関する情報を他の情報源を学習させてもよい。
【0028】
[視線推定]
図2は、視線先位置推定部132の視線先位置推定方法について説明する図である。
図3に示す視線先位置推定方法は、例えば、以下の4段階の手順により実現される。なお、下記の手順(a)と手順(b)は並行して行われてもよいし、いずれか一方の処理の終了後に他方の処理が実施されてもよい。
(a)物標検出
(b)被写体人物頭部・瞳位置分析
(c)視線演算
(d)視線先位置(グリッド)推定
【0029】
以下、(a)~(d)の各手順について説明する。
【0030】
(a)物標検出
視線先位置推定部132は、被写体の人物、および被写体の人物の視線の先に当たる物標の候補を、画像(以下、画像xi)内の視線先位置推定対象である被写体の人物の映り込む部分を除いた画像全体から検出する。物標とは、視線を誘引される可能性がある物体・人物・生物等の対象物をいう。
【0031】
物標の検出は、例えば、VGGNet等の畳み込みニューラルネットワーク(Convolutional Neural Network;CNN)などを利用した導出器1によって実現される。導出器1は、予め機械学習によって生成されたものである。視線先位置推定部132は、画像xiからサイズD×Dの顕著性マップS(xi)を導出する。
【0032】
(b)被写体人物頭部・瞳位置分析
視線先位置推定部132は、被写体の人物の顔の向きや瞳の位置に基づいて、視線の方向を推定する。視線先位置推定部132は、視線の方向の推定のため、畳み込みニューラルネットワークなどを利用した導出器2を用いて、画像xiから顕著性マップS(xi)とは別の空間マップである、サイズD×Dの視線マスクマップG(xh,xp)を導出する。導出器2は、導出器1と同様に、予め機械学習によって生成されたものである。xpは、画像xi内での被写体の人物の頭の位置または瞳の位置を示すパラメータ(例えば、座標)である。またxhは、xpの導出によって得られた画像xi内での被写体の人物の頭の位置、または瞳の位置を拡大処理した際の拡大程度を表す画像パラメータである。
【0033】
(c)視線演算
視線先位置推定部132は、手順(a)の物標の検出結果である顕著性マップS(xi)、および(b)の視線の方向の分析結果である視線マスクマップG(xh,xp)に基づいて、被写体の人物の方向を演算し、被写体の視線先位置を推定する。ここで、被写体の人物が複数存在する場合には、瞳の位置が推定できるすべての人物の視線先位置を推定してもよいし、発話者推定部130がすでに発話者を推定している場合にはその人物の視線先位置を推定してもよい。
【0034】
視線先位置推定部132は、例えば、VGGNetを利用して下記の式(1)のように、顕著性マップS(xi)と視線マスクマップG(xh,xp)との要素ごとの積(element-wise product)を演算することによって、被写体の視線先位置y(ハット)(式(1)の左辺)を演算する。
【0035】
【0036】
なお、式(1)の右辺のF()は、顕著性マップS(xi)と視線マスクマップG(xh,xp)との要素ごとの積から、畳み込みニューラルネットワークにおけるFC層(Fully Connected Layer;最終的な判定を行う層)のパラメータを予め導出しておくための関数である。
【0037】
(d)視線先位置(グリッド)推定
視線先位置推定部132は、手順(c)の演算結果に基づいて、被写体の人物の視線先位置y(ハット)を推定する。視線先位置推定部132は、被写体の人物の視線先位置y(ハット)の推定のため、視線マスクマップG(xh,xp)のみを用いてもよいし、視線マスクマップG(xh,xp)の導出とは異なる演算モデルを用いて演算を実施し、複数の演算結果を統合することで被写体の人物の視線先位置である領域(グリッド)を推定してもよい。
【0038】
また、視線先位置推定部132は、被写体の人物の顔を正面から撮像し、その人物がカメラの方を向いている場合(いわゆるカメラ目線である場合)には、「視線の先の位置は撮像者である」と推定してもよい。また、視線先位置推定部132は、被写体の人物の顔を認識した場合であり、その人物が虚空に目線を向けている場合には、何も見ていないものとしてもよいし、画像外の不特定の人物に対する目線であるものとしてもよい。
【0039】
図3は、視線先位置推定部132により視線先位置が推定された結果の一例を示す図である。例えば、視線先位置推定部132は、
図3の右側の人物の視線先位置を推定し、どの人物に対して視線先位置を推定したかの推定結果を顔の上の丸印で示す。なお、画像解析装置100は、視線先位置推定部132によって視線先位置を推定した右の人物を、発話者であるものとして、発話内容の推測を行う。
【0040】
視線先位置推定部132による視線先位置推定処理は、下記の式(2)~(5)により示すことができる。
【0041】
【0042】
式(2)において、aは受信者区分(addressee class;発話者の視線の先が画像xi内の物標であるか、撮像者であるか、それ以外であるかを示す分類区分)を示し、I1は顕著性マップS(xi)によって得られる特徴量を示し、I2は視線マスクマップG(xh,xp)によって得られる発話者特徴量を示し、θはLSTM言語モデルp(a|I1,I2,S1,…,ST)におけるモデルパラメータを示す。発話内容を構成する単語S1‐STはベクトル値によって示される。単語S1‐STは予め用意された多数の候補から抽出されたものである。また、argmaxは対象項を最大にするパラメータを求める関数であり、p()は視線先位置推定モデルを示す式であり、1以上のモダリティストリームを含むものである。モダリティストリームとは、話している内容に対する話し手の判断や感じ方を表す言語表現モデルの構成要素の一部のことである。モダリティストリームとは、例えば、saliency-estimation-feature stream、speaker-appearance-feature stream、utterance-based- feature streamと称されるものである。発話内容推測部140は、例えば、発話者の表情や仕草に応じて発話内容に反映する単語S1‐STの抽出方法を選択したり、抽出元となる単語群を発話推測情報171から選択したりする。θ*はp()を最大にするパラメータθを示す。また、Tは発話内容の単語の数を示す正の整数である。発話内容推測部140は、式(2)に示す関係をモデル化するため、例えば、式(3)~(5)を用いて、モダリティストリーム毎に1つずつモデル化する。
【0043】
【0044】
式(3)~(5)において、W1およびW2はネットワークパラメータであり、b1およびb2はバイアス値であり、ReLU(Rectified Linear Unit)は、正規化線形関数であり、concatは、結合関数である。発話内容推測部140は、顕著性マップS(xi)を式(3)で、視線マスクマップG(xh,xp)を式(4)で処理し、その処理結果を式(5)で統合する。式(5)のconcatは、ベクトルを結合する関数である、concatenate関数を示す。
【0045】
[発話内容推測]
発話内容推測部140による発話内容の推測処理は、例えば、以下の2段階の手順により実現される。
(e)画像全体分析
(f)発話内容推測
【0046】
以下、(e)~(f)の各手順について説明する。
【0047】
(e)画像全体分析
発話内容推測部140は、例えば、画像xiに映り込む人物、物標、背景等の物標を分析する。発話内容推測部140は、特徴量導出部120の導出結果を用いて物標を分析してもよい。
【0048】
発話内容推測部140は、例えば、発話者推定部130によって画像xiに映り込む人物から発話者を推測された結果に基づいて、画像xiにおいてその発話者の映り込む部分を分析する。なお、発話内容推測部140は、発話内容の予測に視線先位置推定部132による視線先位置の推定結果の一部または全部を用いてもよいし、依頼元端末200による視線の入力を取得した結果を用いてもよい。
【0049】
(f)発話内容推測
発話内容推測部140は、例えば、手順(e)で分析された物標を示す単語や、それらから連想される単語に基づいて、発話者の発話しそうな文章を構成することで、発話者の発話内容を推測する。
【0050】
発話内容推測部140による発話内容推測は、例えば、LSTM(Long short-term memory)言語モデルにより実現される。LSTM言語モデルとは、学習内容を長期的に活用する再帰型ニューラルネットワーク(RNN)により実現されるモデルであり、例えば、演算過程が累積記憶して以後の計算に用いられる。LSTM言語モデルを用いて処理を行う方法は、イメージ・キャプショニング(Image Captioning;画像説明文自動生成)方法と称される場合がある。なお、LSTM言語モデルは、注意モデル(Attention Model;例えば、発話者や発話者の視線を示す画像xiの一部分に注目を向けさせる補完情報)で拡張されてもよい。
【0051】
図4は、発話内容推測部140によって推測された発話内容の構成を示す図である。発話内容推測部140は、例えば、
図3に示す画像x
iから、2名の人物が船上にいる様子であり、出航準備中であるものとして、“Are you ready for leave port?”という発話内容を推測するものとして、その推測方法を説明する。
【0052】
例えば、
図4の上図に示す一般的なニューラルネットワーク言語モデルに基づいて文章が構成される場合、文章を構成する第4単語S
4(文頭から4つ目の単語)の“for”を導出する過程において、入力データとして第4単語の直前に用いられる第3単語S
3(文頭から3つ目の単語)の“ready”のみが用いられる。
【0053】
一方、
図4の下図に示すLSTM言語モデルに基づいて文章が構成される場合、文章を構成する第4単語を導出する過程において、第1単語~第3単語(“Are you ready”)を入力データとして、第4単語が導出される。したがって、LSTM言語モデルは、連続する言葉の並びに基づいて次に出現させる言葉を推測することができ、単語や文の並びの妥当性を高めることができる。
【0054】
発話内容推測部140による発話内容推測処理は、例えば、下記の式(6)~(8)により示すことができる。
【0055】
【0056】
式(6)において、tは時間であり、xtは時間tにおけるインプット情報(すなわち、視線先位置推定部132による視線先位置推定結果や単語St)であり、utは時間tにおける組み込みベクトルであり、ht-1は時間t-1における隠れ状態を示す。式(6)の右辺は、utおよびht-1をLSTM言語モデルにて演算することを示す。式(8)の右辺は、ネットワークパラメータWfuとインプット情報xfuの積にバイアス値bfuを加算するソフトマックス関数を示す。ソフトマックス関数は、下記の式(9)の演算を行うものである。式(9)において、vはベクトルである。
【0057】
【0058】
[発話相手推測]
発話相手推測部150は、例えば、視線先位置推定部132によって発話者の視線先位置が推定されていない場合、発話内容推測部140により推測された発話内容に基づいて、発話相手を推測する。
【0059】
発話相手推測部150による発話相手の推測は、下記の数式(10)~(15)により示すことができる。
【0060】
【0061】
式(14)および式(15)は、LSTM言語モデルのステータスctおよびhtを導出する式である。式(14)において、itは入力ゲート(Input gate)であり、gtは入力調整ゲート(input modulation gate)であり、otは出力ゲート(Output gate)であり、ftは忘却ゲート(forgetting gate)である。また、式(10)~(12)のシグモイド関数σ()は、σ(x)=(1+e―x)-1の関係を示す。また、式(13)および(15)のφ()は、複素数の双曲線関数(hyperbolic tangent function)を示すものであり、φ(x)=(ex-e―x)/(ex+e―x)の関係を示す。式(14)および式(15)の右辺の丸内に黒丸を収めた記号は、2つのベクトル値の要素ごとの積(あだマール積)を示す。
【0062】
なお、発話相手推測部150は、視線先位置推定部132によって発話者の視線先位置が推定されている場合、その推定結果に基づいて発話相手を推測してもよい。例えば、発話相手推測部150は、視線先位置推定部132によって発話者の視線先位置が推定されており、画像x
iにおいて発話者の視線の先に当たる位置に人物が映り込む場合、発話者の視線先位置の人物を発話相手である可能性が高いものとして推測する。また、例えば、発話相手推測部150は、視線先位置推定部132によって発話者の視線先位置が推定されており、画像x
iにおいて発話者の視線先位置に人物が映り込み、その人物の視線が発話者の方向に向けられている場合(
図4のように、人物同士の目が合っている場合)、発話者の視線先位置の人物を発話相手であると推測する。
【0063】
また、発話相手推測部150は、発話相手の推測結果と、視線先位置推定部132によって発話者の視線先位置の物標とを照合することで、発話相手の推測精度を検証してもよい。発話相手推測部150は、例えば、発話相手の推測結果と、視線先位置推定部132によって発話者の視線の先の物標とがアンマッチである場合に、発話内容推測部140に処理を戻し、発話内容推測を再実施してもよい。
【0064】
図5は、視線先位置推定部132、および発話内容推測部140による処理の流れを模式的に示す図である。なお、
図5の上部分は
図2に示した視線先位置推定処理の詳細を示すものである。
【0065】
視線先位置推定部132は、画像xi全体および、視線先位置推定部132により視線先位置が推定された発話者の頭部または瞳の位置の情報を、それぞれVGGNet等の畳み込みニューラルネットワークを利用した機械学習による演算結果を結合することにより視線推定を行う。次に、発話内容推測部140は、LSTM言語モデルを用いて発話内容を推測する。画像解析装置100は、これらの演算結果を統合し、依頼元端末200に出力する。
【0066】
[処理フロー]
図6は、画像解析装置100による推測処理の流れの一例を示すフローチャートである。まず、取得部110は、依頼元端末200より画像x
iを取得し、特徴量導出部120に出力する(S100)。次に、特徴量導出部120は、画像x
iの特徴量を導出する(S102)。次に、視線先位置推定部132は、画像x
iにおける発話者を推測し、発話者の視線先位置を推定する(S104)。次に、発話内容推測部140は、発話内容を推測する(S106)。次に、発話相手推測部150は、発話相手を推測する(S108)。次に、出力部160は、推測結果を依頼元端末200に出力する(S110)。以上、本フローチャートの処理の説明を終了する。
【0067】
以上説明したように、画像解析装置100は、発話者の映り込む画像xiを取得する取得部110と、画像xiに映り込む発話者の視線の先の位置を推定する視線先位置推定部132と、画像xiおよび推定された視線の先の位置に基づいて、発話者の発話内容を推測する発話内容推測部140とを備えることにより、画像xiから発話者および発話者の発話内容を適切に推測することができる。
【0068】
また、画像解析装置100は、発話者の映り込む画像xiを取得する取得部110と、画像xiおよび発話内容推測部140による発話内容の予測結果に基づいて、発話者が発話する対象の発話相手を推定する発話相手推測部150とを備えることにより、画像xiと発話者の発話内容から発話相手を適切に推測することができる。
【0069】
<第2実施形態>
図7は、第2の実施形態の画像解析装置100Aの概要図である。画像解析装置100Aは、第1の実施形態の画像解析装置100と比較して、関連挙動推測部180をさらに備える点が異なる。したがって、以下では関連挙動推測部180を中心に説明する。
【0070】
関連挙動推測部180は、視線先位置推定部132による視線先位置推定結果、および発話内容推測部140、および発話相手推測部150の推測結果に基づいて、発話者と発話相手の発話に伴う挙動を推測する。発話に伴う挙動には、例えば、頷く、手を振る、拍手する等のジェスチャや、微笑む、睨む等の表情の変化、その場を立ち去る、振り向く、座り直す等の発話者または発話相手の移動を含む。
【0071】
人間のリアクションは必ずしも言語コミュニケーションに限定されるものでないことから、発話内容推測部140による発話推測が困難である場面においても関連挙動推測部180が発話者の挙動を推測することにより、画像xiから、より自然な状況や、その場のコミュニケーションを推測することができる。
【0072】
[処理フロー]
図8は、画像解析装置100Aによる推測処理の流れの一例を示す図である。
図8に示すフローチャートは、
図6のフローチャートにS112が追加されたものである。したがって、以下ではS112について説明する。
【0073】
S108の処理の後、関連挙動推測部180は、発話者の発話に伴う挙動を推測し(S112)、S110に処理を進める。以上、本フローチャートの処理の説明を終了する。
【0074】
なお、上述の画像解析装置100および100Aにおいて、視線先位置推定部132による視線先の位置の検出、および発話内容推測部140による発話内容の推測は省略されてもよい。その場合、視線先位置推定部132による視線先の位置の代替として、取得部110が依頼元端末200を介してユーザによる視線検出結果の入力(文字情報でもよいし、画像に視線を示す印を付与してもよい)や、発言内容の入力(文字情報でもよいし、音声データでもよい)を取得してもよい。
【0075】
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。
【符号の説明】
【0076】
100、100A…画像解析装置、110…取得部、120…特徴量導出部、130…発話者推定部、132…視線先位置推定部、140…発話内容推測部、150…発話相手推測部、160…出力部、170…記憶部、171…発話推測情報、180…関連挙動推測部、200…依頼元端末