(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-05-07
(45)【発行日】2024-05-15
(54)【発明の名称】キーワード抽出装置、キーワード抽出方法及びキーワード抽出プログラム
(51)【国際特許分類】
G06F 16/783 20190101AFI20240508BHJP
【FI】
G06F16/783
(21)【出願番号】P 2020115682
(22)【出願日】2020-07-03
【審査請求日】2023-06-02
(73)【特許権者】
【識別番号】000004352
【氏名又は名称】日本放送協会
(74)【代理人】
【識別番号】100106002
【氏名又は名称】正林 真之
(74)【代理人】
【識別番号】100120891
【氏名又は名称】林 一好
(72)【発明者】
【氏名】萩尾 勇太
(72)【発明者】
【氏名】金子 豊
【審査官】松尾 真人
(56)【参考文献】
【文献】特開2020-074111(JP,A)
【文献】萩尾 勇太,人と一緒にテレビを視聴するコミュニケーションロボットの試作と検証,電子情報通信学会技術研究報告[online],一般社団法人電子情報通信学会,2020年02月26日,第119巻, 第446号,pp.7~12,Internet<URL:https://www.ieice.org/ken/user/index.php?cmd=download&p=0eco&t=IEICE-CNR&l=57df8fa478d645fb26045e2762d2ba89277851794f79f693de48961f1887ea26&lang=>
【文献】三木 一弘,BERTを用いた英文空所補充問題の一解法,第12回データ工学と情報マネジメントに関するフォーラム (第18回日本データベース学会年次大会) [online] ,電子情報通信学会 日本データベース学会 情報処理学会,2020年03月04日,DEIM2020 G2-4,Internet<URL:https://proceedings-of-deim.github.io/DEIM2020/papers/G2-4.pdf>
【文献】柳 凛太郎,画像内の物体に着目した画像検索に関する検討,映像情報メディア学会技術報告,(一社)映像情報メディア学会,2020年02月20日,第44巻, 第6号,pp.377~381
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
(57)【特許請求の範囲】
【請求項1】
映像に伴う入力文から、キーワードデータベースに登録されている単語をキーワード候補語として抽出するキーワード候補語抽出部と、
前記入力文における前記キーワード候補語をマスクしたマスク文を生成するマスク文生成部と、
前記マスク文において、マスクされた箇所の前記キーワード候補語を推定した単語毎の推定値を学習モデルにより算出するマスク推定部と、
前記映像から検出された物体のクラス名を出力する物体決定部と、
前記マスク推定部により算出された前記マスクされた箇所の前記単語毎の推定値に基づいて、前記クラス名と前記マスクされた箇所それぞれの前記キーワード候補語との関連度スコアを算出する関連度スコア算出部と、
前記関連度スコアが最も高い前記キーワード候補語を、前記映像に関連するキーワードとして出力するキーワード出力部と、を備えるキーワード抽出装置。
【請求項2】
前記マスク推定部は、前記マスク文に過去の入力文を加えた文章において、前記推定値を算出する請求項1に記載のキーワード抽出装置。
【請求項3】
前記マスク文生成部は、前記入力文に含まれる前記キーワード候補語の一つのみをマスクしたマスク文を、当該キーワード候補語の数だけ生成し、
前記マスク推定部は、前記マスク文を一つのみ含む文章において、前記単語毎の推定値を算出する請求項1又は請求項2に記載のキーワード抽出装置。
【請求項4】
前記マスク文生成部は、前記映像から物体が検出されるタイミングで、直近の前記入力文から前記マスク文を生成する請求項1から請求項3のいずれかに記載のキーワード抽出装置。
【請求項5】
前記キーワード出力部は、前記関連度スコアの最大値が所定の閾値に満たない場合、前記映像に関連するキーワードを出力しない請求項1から請求項4のいずれかに記載のキーワード抽出装置。
【請求項6】
学習モデルにより前記映像の各画素に対して、顕著性スコアを付与する顕著性推定部を備え、
前記物体決定部は、前記映像から検出された複数の物体のうち、前記顕著性スコアに基づく評価が最も高い領域にある物体のクラス名を出力する請求項1から請求項5のいずれかに記載のキーワード抽出装置。
【請求項7】
ユーザの視点位置の座標が付加されたカメラ画像を、前記映像と照合することにより、前記映像の各画素に対して、所定の分布の注視点スコアを付与する視点位置推定部を備え、
前記物体決定部は、前記映像から検出された複数の物体のうち、前記注視点スコアに基づく評価が最も高い領域にある物体のクラス名を出力する請求項1から請求項5のいずれかに記載のキーワード抽出装置。
【請求項8】
前記関連度スコア算出部は、前記クラス名に対する分散表現ベクトルと、前記推定値が上位の所定数の単語それぞれの分散表現ベクトルとのコサイン類似度を算出し、平均値を前記関連度スコアとして算出する請求項1から請求項7のいずれかに記載のキーワード抽出装置。
【請求項9】
前記関連度スコア算出部は、前記クラス名に対応して予め登録されている複数の代表オブジェクト名それぞれについて同一単語の前記推定値を取得し、平均値を前記関連度スコアとして算出する請求項1から請求項7のいずれかに記載のキーワード抽出装置。
【請求項10】
映像に伴う入力文から、キーワードデータベースに登録されている単語をキーワード候補語として抽出するキーワード候補語抽出ステップと、
前記入力文における前記キーワード候補語をマスクしたマスク文を生成するマスク文生成ステップと、
前記マスク文において、マスクされた箇所の前記キーワード候補語を推定した単語毎の推定値を学習モデルにより算出するマスク推定ステップと、
前記映像から検出された物体のクラス名を出力する物体決定ステップと、
前記マスク推定ステップにおいて算出された前記マスクされた箇所の前記単語毎の推定値に基づいて、前記クラス名と前記マスクされた箇所それぞれの前記キーワード候補語との関連度スコアを算出する関連度スコア算出ステップと、
前記関連度スコアが最も高い前記キーワード候補語を、前記映像に関連するキーワードとして出力するキーワード出力ステップと、をコンピュータが実行するキーワード抽出方法。
【請求項11】
請求項1から請求項9のいずれかに記載のキーワード抽出装置としてコンピュータを機能させるためのキーワード抽出プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ロボットが発話するキーワードを抽出するための装置、方法及びプログラムに関する。
【背景技術】
【0002】
従来、人と一緒にテレビなどを視聴するロボットが番組の内容に沿った発話をする技術が研究されている。このようなロボットは、番組情報から所定の規則に従って、キーワードを抽出している。
【0003】
例えば、特許文献1では、番組の字幕文からキーワードを抽出する手法が提案されている。また、非特許文献1では、映像から物体を検出すると同時に、検出した物体の顕著性を推定し、物体の顕著性に応じてキーワードを抽出する手法が提案されている。
また、これらの手法の他、例えば、音声認識、人物認識、オブジェクト認識、文字認識などのクラウドサービスも並列して利用することにより、適切なキーワードを抽出する試みが行われている。
【先行技術文献】
【特許文献】
【0004】
【非特許文献】
【0005】
【文献】萩尾 勇太 他,“人とロボットの共時視聴実験に向けたコミュニケーションロボットの設計と試作”,2019年映像情報メディア学会年次大会.
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、複数の方法により抽出されたキーワードのうち、どのキーワードが番組内容に適しているかを判断することは難しく、従来は、得られたキーワードの中からランダムに利用されていた。
また、顕著性を利用することで番組の内容に適した物体が選択されることが期待できるものの、検出可能な物体の種類は、数百クラス程度に限られており、この結果、同じキーワードばかりが抽出され、同じ発話文ばかりが生成されてしまう。
【0007】
本発明は、映像と関連したキーワードを適切に抽出できるキーワード抽出装置、キーワード抽出方法及びキーワード抽出プログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
本発明に係るキーワード抽出装置は、映像に伴う入力文から、キーワードデータベースに登録されている単語をキーワード候補語として抽出するキーワード候補語抽出部と、前記入力文における前記キーワード候補語をマスクしたマスク文を生成するマスク文生成部と、前記マスク文において、マスクされた箇所の前記キーワード候補語を推定した単語毎の推定値を学習モデルにより算出するマスク推定部と、前記映像から検出された物体のクラス名を出力する物体決定部と、前記マスク推定部により算出された前記マスクされた箇所の前記単語毎の推定値に基づいて、前記クラス名と前記マスクされた箇所それぞれの前記キーワード候補語との関連度スコアを算出する関連度スコア算出部と、前記関連度スコアが最も高い前記キーワード候補語を、前記映像に関連するキーワードとして出力するキーワード出力部と、を備える。
【0009】
前記マスク推定部は、前記マスク文に過去の入力文を加えた文章において、前記推定値を算出してもよい。
【0010】
前記マスク文生成部は、前記入力文に含まれる前記キーワード候補語の一つのみをマスクしたマスク文を、当該キーワード候補語の数だけ生成し、前記マスク推定部は、前記マスク文を一つのみ含む文章において、前記単語毎の推定値を算出してもよい。
【0011】
前記マスク文生成部は、前記映像から物体が検出されるタイミングで、直近の前記入力文から前記マスク文を生成してもよい。
【0012】
前記キーワード出力部は、前記関連度スコアの最大値が所定の閾値に満たない場合、前記映像に関連するキーワードを出力しなくてもよい。
【0013】
前記キーワード抽出装置は、学習モデルにより前記映像の各画素に対して、顕著性スコアを付与する顕著性推定部を備え、前記物体決定部は、前記映像から検出された複数の物体のうち、前記顕著性スコアに基づく評価が最も高い領域にある物体のクラス名を出力してもよい。
【0014】
前記キーワード抽出装置は、ユーザの視点位置の座標が付加されたカメラ画像を、前記映像と照合することにより、前記映像の各画素に対して、所定の分布の注視点スコアを付与する視点位置推定部を備え、前記物体決定部は、前記映像から検出された複数の物体のうち、前記注視点スコアに基づく評価が最も高い領域にある物体のクラス名を出力してもよい。
【0015】
前記関連度スコア算出部は、前記クラス名に対する分散表現ベクトルと、前記推定値が上位の所定数の単語それぞれの分散表現ベクトルとのコサイン類似度を算出し、平均値を前記関連度スコアとして算出してもよい。
【0016】
前記関連度スコア算出部は、前記クラス名に対応して予め登録されている複数の代表オブジェクト名それぞれについて同一単語の前記推定値を取得し、平均値を前記関連度スコアとして算出してもよい。
【0017】
本発明に係るキーワード抽出方法は、映像に伴う入力文から、キーワードデータベースに登録されている単語をキーワード候補語として抽出するキーワード候補語抽出ステップと、前記入力文における前記キーワード候補語をマスクしたマスク文を生成するマスク文生成ステップと、前記マスク文において、マスクされた箇所の前記キーワード候補語を推定した単語毎の推定値を学習モデルにより算出するマスク推定ステップと、前記映像から検出された物体のクラス名を出力する物体決定ステップと、前記マスク推定部により算出された前記マスクされた箇所の前記単語毎の推定値に基づいて、前記クラス名と前記マスクされた箇所それぞれの前記キーワード候補語との関連度スコアを算出する関連度スコア算出ステップと、前記関連度スコアが最も高い前記キーワード候補語を、前記映像に関連するキーワードとして出力するキーワード出力ステップと、をコンピュータが実行する。
【0018】
本発明に係るキーワード抽出プログラムは、前記キーワード抽出装置としてコンピュータを機能させるためのものである。
【発明の効果】
【0019】
本発明によれば、映像と関連したキーワードを適切に抽出できる。
【図面の簡単な説明】
【0020】
【
図1】第1実施形態におけるキーワード抽出装置の機能構成を示す図である。
【
図2】第1実施形態におけるキーワード抽出方法の流れを例示するフローチャートである。
【
図3】第1実施形態におけるキーワード候補語と検出された物体との関係を例示する図である。
【
図4】第1実施形態における関連度スコアによるキーワードの決定手順を例示する図である。
【
図5】第2実施形態におけるキーワード抽出方法の流れを例示するフローチャートである。
【
図6】第3実施形態におけるキーワード抽出装置の機能構成を示す図である。
【発明を実施するための形態】
【0021】
[第1実施形態]
以下、本発明の第1実施形態について説明する。
第1実施形態では、人間と一緒にテレビなどの映像を伴う放送番組を視聴するロボットなどに組み込まれ、発話生成に利用されるキーワード抽出装置1を提供する。
キーワード抽出装置1は、放送番組の映像から検出された物体の中から最も顕著性の高い物体を抽出すると共に、音声又は字幕文などからキーワード候補語を抽出し、最も顕著性の高い物体とキーワード候補語との関連度スコアをランキングすることで、映像と関連のあるキーワードを出力する。
【0022】
図1は、本実施形態におけるキーワード抽出装置1の機能構成を示す図である。
キーワード抽出装置1は、制御部及び記憶部の他、各種インタフェースを備えた情報処理装置であり、記憶部に格納されたソフトウェア(キーワード抽出プログラム)を制御部が実行することにより、本実施形態の各種機能が実現される。
【0023】
キーワード抽出装置1の制御部は、キーワード候補語抽出部11と、マスク文生成部12と、マスク推定部13と、顕著性推定部14と、物体検出部15と、高顕著性物体決定部16(物体決定部)と、関連度スコア算出部17と、キーワード出力部18とを備える。
【0024】
また、キーワード抽出装置1の記憶部は、キーワード抽出プログラムの他、キーワードデータベース(DB)21と、入力文メモリ22と、単語推定モデル23と、顕著性推定モデル24と、物体検出モデル25と、分散表現ベクトルデータベース(DB)26とを備える。
【0025】
キーワード候補語抽出部11は、映像に伴って入力された字幕文、又はテレビ音声の認識結果などの入力文を単語に分割する。その後、キーワード候補語抽出部11は、分割した単語群の中に、予め用意しておいたキーワードDB21に登録されている単語が存在するかを確認し、存在する場合、この単語を「キーワード候補語」として抽出し、入力文と対応付けて入力文メモリ22に格納する。
【0026】
マスク文生成部12は、後段のマスク推定部13に対する入力の上限(例えば、512語)以内で入力文メモリ22から直近の入力文を含む文章を取り出し、直近の入力文におけるキーワード候補語を所定の文字列(例えば、[MASK])に置き換えることでマスクしたマスク文を生成する。
なお、この処理は、物体検出部15の処理と同期したタイミングで定期的に(例えば、5秒程度の周期で)実行される。
【0027】
このとき、マスク文生成部12は、直近の入力文に含まれるキーワード候補語の一つのみをマスクしたマスク文を生成し、入力文にキーワード候補語が複数存在する場合は、その数だけ複数パターンの変換を行い、複数のマスク文を生成する。
その後、マスク文生成部12は、複数の入力文からなる文章、キーワード候補語、及びマスク文をマスク推定部13に提供する。
【0028】
マスク推定部13は、マスク文を含む文章において、マスクされた箇所のキーワード候補語を推定した単語毎の推定値を、学習済みの単語推定モデル23により算出する。
単語推定モデル23は、例えば、予め事前学習を行ったBERTモデルであってよく、事前学習タスクである「Masked LM」により、マスクされた文章中の単語が周りの文章から推定される。なお、BERTモデルは、次の文献Aで提案されており、推定結果は、モデルのボキャブラリに含まれる各単語(例えば、30000語程度)の推定値(0~1の値であり、全ての単語の推定値を合計すると1)のリストとなる。
【0029】
文献A: J. Devlin et al., “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”, NAACL-HLT 2019.
【0030】
ここで、マスク推定部13は、複数のマスク文が入力された場合に、各マスク文を順に処理する。
すなわち、マスク推定部13は、マスク文を一つのみ含む文章において、マスク箇所を推定した単語毎の推定値を算出する。
【0031】
顕著性推定部14は、入力映像のキャプチャ画像に対して、予め学習済みの顕著性推定モデル24を利用して顕著性推定処理を実行する。
顕著性推定モデル24は、例えば、文献Bで提案されている生理学的なモデルを計算機実装した手法、又は文献Cで提案されているディープラーニングを用いた手法が適用可能であり、出力として、キャプチャ画像の各画素に対して0~1の範囲で推定された顕著性スコアが付与される。
【0032】
文献B: L. Itti et al., “A model of saliency-based visual attention for rapid scene analysis”, PAMI 1998.
文献C: Q. Hou et al., “Deeply Supervised Salient Object Detection with Short Connections”, PAMI 2019.
【0033】
物体検出部15は、入力映像のキャプチャ画像に対して、予め学習済みの物体検出モデル25を利用して物体検出処理を定期的に(例えば、5秒程度の周期で)実行する。
物体検出モデル25は、例えば、文献D、E、Fで提案されている学習手法が適用可能であり、出力として、検出された複数の物体それぞれの座標情報(矩形領域)と、物体のカテゴリを示すクラス名(例えば、人間、犬、ケーキなど)が得られる。
【0034】
文献D: S. Ren et al., “Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks”, NIPS 2015.
文献E: J. Redmon et al., “You Only Look Once: Unified, Real-Time Object Detection”, CVPR2016.
文献F: W. Liu et al. , “SSD: Single Shot MultiBox Detector”, ECCV2016.
【0035】
高顕著性物体決定部16は、顕著性推定部14による推定結果と、物体検出部15による検出結果とを利用し、映像から検出された複数の物体のうち、顕著性スコアに基づく評価が最も高い領域にある顕著性が最も高い物体を決定する。
具体的には、高顕著性物体決定部16は、検出された物体の矩形領域内の画素の顕著性スコアの平均値を算出し、算出値が最も高い物体を「高顕著性物体」として決定し、この物体のクラス名を出力する。
【0036】
関連度スコア算出部17は、マスク推定部13により算出されたマスクされた箇所の単語毎の推定値に基づいて、高顕著性物体決定部16から出力されたクラス名とマスクされた箇所それぞれのキーワード候補語との関連度スコアを算出する。すなわち、関連度スコア算出部17は、キーワード候補語の中から高顕著性物体と最も関連が深い単語を選択するための関連度スコアを算出する。
【0037】
具体的には、関連度スコア算出部17は、予め学習済みの分散表現ベクトルDB26を参照し、高顕著性物体のクラス名を変換した分散表現ベクトルと、推定値が上位の所定数(例えば、10個程度)の単語それぞれを変換した分散表現ベクトルとのコサイン類似度を算出する。そして、関連度スコア算出部17は、算出されたコサイン類似度の平均値を、高顕著性物体とキーワード候補語との関連度スコアとする。
なお、単語の分散表現としては、Word2Vec又はFastTextなどの既存の手法を用いることができる。
【0038】
キーワード出力部18は、関連度スコア算出部17により算出された関連度スコアが最も高いキーワード候補語を、入力映像に関連するキーワードとして出力する。
ここで、キーワード出力部18は、関連度スコアの最大値が所定の閾値に満たない場合、映像に関連するキーワードを出力しないこととしてよい。
【0039】
図2は、本実施形態におけるキーワード抽出方法の流れを例示するフローチャートである。
この例では、テレビ番組などを構成する字幕及び映像がそれぞれ、ステップS1及びS5において並列に入力される。
【0040】
ステップS1において、キーワード抽出装置1に制御部は、再生中の番組の字幕文を入力文として取得する。
【0041】
ステップS2において、キーワード候補語抽出部11は、字幕文を単語に分割する。
ステップS3において、キーワード候補語抽出部11は、分割された単語の中からキーワード候補語を抽出する。
ステップS4において、キーワード候補語抽出部11は、字幕文とキーワード候補語とを入力文メモリ22に格納する。その後、処理はステップS1に戻る。
【0042】
ステップS5において、キーワード抽出装置1に制御部は、再生中の番組の映像データを取得する。
ステップS6において、制御部は、取得した映像データから画像をキャプチャする。
【0043】
ステップS7において、物体検出部15は、キャプチャ画像の中から物体を検出する処理を実行する。
ステップS8において、制御部は、物体が検出されたか否かを判定する。この判定がYESの場合、ステップS9及びS12が並列実行され、判定がNOの場合、処理はステップS5に戻る。
【0044】
ステップS9において、マスク文生成部12は、入力文メモリ22から字幕文を取り出し、キーワード候補語のそれぞれをマスクした複数パターンのマスク文のリストを作成する。
ステップS10において、マスク推定部13は、マスク文においてマスクされている単語を推定する。
ステップS11において、関連度スコア算出部17は、推定値が上位の所定数の単語を選択し、これらの単語を分散表現ベクトルに変換する。その後、処理はステップS15に移る。
【0045】
ステップS12において、顕著性推定部14は、キャプチャ画像の各画素の顕著性推定処理を行い、顕著性スコアを付与する。
ステップS13において、高顕著性物体決定部16は、検出された物体のうち、最も顕著性が高い高顕著性物体を決定する。
ステップS14において、関連度スコア算出部17は、決定された高顕著性物体のクラス名を分散表現ベクトルに変換する。
【0046】
ステップS15において、関連度スコア算出部17は、推定された単語それぞれの分散表現ベクトルと、高顕著性物体のクラス名の分散表現ベクトルとのコサイン類似度を算出し、平均値を関連度スコアとする。
ステップS16において、キーワード出力部18は、関連度スコアが最大となったマスク箇所のキーワード候補語を、高顕著性物体と関連したキーワードとして決定し出力する。
【0047】
図3は、本実施形態におけるキーワード候補語と検出された物体との関係を例示する図である。
この例では、番組のキャプチャ画像から2つの物体が検出され、それぞれ「人間」及び「ケーキ」というクラス名が得られている。
【0048】
また、このとき、番組の字幕から「田中さんの今日の昼食はフレンチトーストです。」という入力文が取得されている。この字幕文からは、「田中」及び「フレンチトースト」の2つのキーワード候補語が抽出されている。
【0049】
ここで、字幕文から得られるキーワード候補語は具体的な名称であるが、一方、検出された物体のクラス名はより抽象的であるため、両者の名称は一致しないことが多い。
そこで、「ケーキ」が高顕著性物体である場合に、対応する具体的なキーワードが「田中」であるのか「フレンチトースト」であるのかが関連度スコアによって決定される。
【0050】
図4は、本実施形態における関連度スコアによるキーワードの決定手順を例示する図である。
字幕文「田中さんの今日の昼食はフレンチトーストです。」のキーワード候補語の一つである「田中」をマスクしたマスク文と、「フレンチトースト」をマスクしたマスク文とが生成され、それぞれのマスク箇所の単語が推定される。
【0051】
「田中」の箇所では、例えば、「佐藤」、「鈴木」、「渡辺」といった単語の推定値が高く算出され、「フレンチトースト」の箇所では、例えば、「弁当」、「おにぎり」、「サンドイッチ」といった単語の推定値が高く算出される。
このとき、高顕著性物体の「ケーキ」は、「佐藤」、「鈴木」、「渡辺」などとの類似度よりも、「弁当」、「おにぎり」、「サンドイッチ」などとの類似度の方が高いため、該当するマスク箇所のキーワード候補語である「フレンチトースト」が番組映像と関連したキーワードとして決定される。
【0052】
本実施形態によれば、キーワード抽出装置1は、入力文におけるキーワード候補語をマスクした際に推定される単語の推定値に基づいて、映像から検出される物体のクラス名とキーワード候補語との関連度スコアを算出する。
これにより、キーワード抽出装置1は、字幕文などの入力文から映像に関連した重要な単語をキーワードとして適切に抽出できる。
【0053】
キーワード抽出装置1は、直近のマスク文に過去の入力文を加えた文章でマスク箇所を推定する。
これにより、例えば、「今日は[MASK]を注文しました。」というマスク文では、マスク箇所の推定が難しいのに対して、「美味しそうな中華料理屋があったので入ります。」という入力文を加えた文章を用いることにより、マスク箇所が食べ物であること、さらに具体的に中華料理の単語であることが精度良く推定される。
このように、キーワード抽出装置1は、推定結果の精度を向上でき、検出された物体との関連度を適切に評価できる。
【0054】
キーワード抽出装置1は、キーワード候補語の一つのみをマスクした文章において、マスク箇所の単語を推定することにより、マスク箇所に対する推定結果の精度を向上でき、検出された物体との関連度を適切に評価できる。
【0055】
キーワード抽出装置1は、物体を検出したタイミングと同期して、映像に伴う直近の入力文からマスク文を生成することにより、関連度の高いキーワードを適切に抽出できる。
【0056】
キーワード抽出装置1は、関連度スコアの最大値が閾値に満たない場合にキーワードを出力しないことにより、入力文が映像と関連しない場合に、不適切なキーワードを出力することを抑制できる。
【0057】
キーワード抽出装置1は、映像の各画素に対して、顕著性スコアを付与し、この顕著性スコアに基づく評価が最も高い領域にある物体を高顕著性物体として決定する。
これにより、キーワード抽出装置1は、映像の中で最も顕著性の高い物体に関連した重要なキーワードを適切に出力できる。
【0058】
キーワード抽出装置1は、物体のクラス名と推定された単語とを分散表現ベクトルに変換することで、コサイン類似度により関連度スコアを算出する。
これにより、キーワード抽出装置1は、適切な関連度スコアを効率的に算出できる。
【0059】
[第2実施形態]
以下、本発明の第2実施形態について説明する。
第2実施形態では、第1実施形態と比べて、関連度スコア算出部17の機能が異なり、分散表現ベクトルDB26に代えて代表オブジェクトデータベース(DB)27が設けられる。
【0060】
物体検出部15により検出される各クラスに対し、このクラスに属している物体(オブジェクト)名が予め用意され、代表オブジェクトDB27に登録されている。
例えば、「動物」というクラスには、犬、猫、馬、羊、…などの代表オブジェクトが複数(例えば、10件程度)登録されている。
【0061】
関連度スコア算出部17は、高顕著性物体として選択されたクラスに属する複数の代表オブジェクト名それぞれについて、マスク推定部13による同一単語の推定値を取得し、平均値を高顕著性物体とキーワード候補語との関連度スコアとして算出する。
【0062】
関連度スコア算出部17は、この演算をキーワード候補語それぞれに対して実行することで、キーワード候補語毎の関連度スコアをランキングし、出力部は、関連度スコアが最大のキーワード候補語を出力する。
【0063】
図5は、本実施形態におけるキーワード抽出方法の流れを例示するフローチャートである。
ステップS1からS10までは、第1実施形態(
図2)と同一であり、映像から物体が検出されたことに応じて、字幕文のマスクされたキーワード候補語それぞれに対する単語が推定される。
ステップS10の後、処理はステップS15aに移る。
【0064】
ステップS12において、顕著性推定部14は、キャプチャ画像の各画素の顕著性推定処理を行い、顕著性スコアを付与する。
ステップS13において、高顕著性物体決定部16は、検出された物体のうち、最も顕著性が高い高顕著性物体を決定する。
ステップS14aにおいて、関連度スコア算出部17は、決定された高顕著性物体のクラスに属する代表オブジェクトを抽出する。
【0065】
ステップS15aにおいて、関連度スコア算出部17は、マスクされた単語の推定値から、各代表オブジェクトと同一の単語の推定値を抽出し、平均値を関連度スコアとする。
ステップS16において、キーワード出力部18は、関連度スコアが最大となったマスク箇所のキーワード候補語を、注視物体と関連したキーワードとして決定し出力する。
【0066】
本実施形態によれば、キーワード抽出装置1は、検出された物体のクラス名に対応して予め登録されている複数の代表オブジェクト名それぞれについて、同一単語の推定値を取得し平均値を関連度スコアとして算出する。
したがって、キーワード抽出装置1は、物体検出における各クラスを、単語推定モデルのボキャブラリに含まれる代表オブジェクトにより予め特徴付けることにより、単語の推定値を用いて適切に関連度を評価できる。
【0067】
[第3実施形態]
以下、本発明の第3実施形態について説明する。
第3実施形態のキーワード抽出装置1aは、第1実施形態における顕著性推定手法の代わりに、ユーザの注視点を利用する。顕著性スコアは、一般的にユーザの注視が集まりやすい点を推定した結果である一方、アイトラッカを用いてユーザの注視点を推定することで、キーワード抽出装置1aは、実際にユーザが注目している物体に関連したキーワードを抽出する。
【0068】
図6は、本実施形態におけるキーワード抽出装置1aの機能構成を示す図である。
第3実施形態では、第1実施形態の顕著性推定部14が視点検出部14a及び視点位置推定部14bに、高顕著性物体決定部16が注視物体決定部16a(物体決定部)に、それぞれ置き換わっている。
【0069】
視点検出部14aは、ユーザ(番組視聴者)が装着したアイトラッカから、ユーザの視点位置を検出する。なお、視点位置は、眼球を赤外線カメラで撮影し、その動きから視点位置を推定する方法など、様々な従来手法により検出できる。
視点検出部14aは、アイトラッカに搭載されたカメラの映像に視点位置の座標情報が付加されたデータを、検出結果として視点位置推定部14bに提供する。
【0070】
視点位置推定部14bは、視点検出部14aから取得したユーザの視点位置の座標が付加されたカメラ映像を、番組映像と照合することにより、番組映像の各画素に対して、所定の分布の注視点スコアを付与する。
【0071】
ここで、カメラ映像は、番組映像が提示されるテレビなどの枠外も含んだ、ユーザの視野に近い映像であるため、ユーザの視点が番組映像上のどこに位置しているか、又は番組映像を見ていないかを推定する必要がある。
視点位置推定部14bは、まず、番組映像とアイトラッカのカメラ映像とを、それぞれキャプチャし、アイトラッカのカメラ映像内における番組映像の領域を推定する。領域の推定には、例えば、文献Gで提案されているORB特徴量など、画像の拡大、縮小及び回転に対応した画像特徴量が用いられる。
【0072】
文献G: E. Rublee et al., “ORB: An efficient alternative to SIFT or SURF”, ICCV2011.
【0073】
カメラ映像内に番組映像が存在し、番組映像の領域を検出できた場合、視点位置推定部14bは、検出した領域の画像をホモグラフィ変換により矩形に変換する。また、視点位置推定部14bは、視点位置の座標も同様にホモグラフィ変換後の矩形上にマッピングし、この点を中心とした正規分布に従った注視点スコアを各画素に与える。
これにより、番組映像における各画素の注視点スコアが0~1の範囲で推定された結果が得られる。
【0074】
注視物体決定部16aは、視点位置推定部14bによる推定結果と、物体検出部15による検出結果とを利用し、映像から検出された複数の物体のうち、注視点スコアに基づく評価が最も高い領域にあり、ユーザに注視されていると推定される物体を決定する。
具体的には、注視物体決定部16aは、第1実施形態の高顕著性物体決定部16と同様に、検出された物体の矩形領域内の画素の注視点スコアの平均値を算出し、算出値が最も高い物体を「注視物体」として決定し、この物体のクラス名を出力する。
【0075】
関連度スコア算出部17は、マスク推定部13により算出されたマスクされた箇所の単語毎の推定値に基づいて、注視物体決定部16aから出力されたクラス名とマスクされた箇所それぞれのキーワード候補語との関連度スコアを算出する。すなわち、関連度スコア算出部17は、キーワード候補語の中から注視物体と最も関連が深い単語を選択するための関連度スコアを算出する。
【0076】
関連度スコアの具体的な算出方法については、第1実施形態における分散表現ベクトルDB26を利用したコサイン類似度による手法、又は第2実施形態における代表オブジェクトDB27を利用した代表オブジェクトによる手法のいずれも適用可能である。
【0077】
なお、本実施形態におけるキーワード抽出方法の流れは、第1実施形態(
図2)又は第2実施形態(
図5)のステップS12における顕著性推定を視点位置推定に、ステップS13の高顕著性物体の決定を注視物体の決定に、それぞれ置き換えたものとなる。
【0078】
本実施形態によれば、キーワード抽出装置1aは、映像内の顕著性スコアに代えて、ユーザの視点位置を推定することで注視点スコアを付与する。
これにより、キーワード抽出装置1は、ユーザが実際に注視している物体に関連した重要なキーワードを適切に出力できる。
【0079】
以上、本発明の実施形態について説明したが、本発明は前述した実施形態に限るものではない。また、前述の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、実施形態に記載されたものに限定されるものではない。
【0080】
前述の実施形態では、キーワード抽出装置1は、ロボットに組み込まれるものとして説明したが、これには限られず、ロボットの外部に配置され、ロボットと有線又は無線にて、あるいはネットワークを介して通信接続されてもよい。
また、各種のデータベース及び学習モデルなどは、キーワード抽出装置1が備える構成としたが、これには限られず、クラウドなどの外部サーバに配置されてもよい。
【0081】
本実施形態では、主にキーワード抽出装置1の構成と動作について説明したが、本発明はこれに限られず、各構成要素を備え、キーワードを抽出するための方法、又はプログラムとして構成されてもよい。
【0082】
さらに、キーワード抽出装置1の機能を実現するためのプログラムをコンピュータで読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。
【0083】
ここでいう「コンピュータシステム」とは、OSや周辺機器などのハードウェアを含むものとする。また、「コンピュータで読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROMなどの可搬媒体、コンピュータシステムに内蔵されるハードディスクなどの記憶装置のことをいう。
【0084】
さらに「コンピュータで読み取り可能な記録媒体」とは、インターネットなどのネットワークや電話回線などの通信回線を介してプログラムを送信する場合の通信線のように、短時刻の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時刻プログラムを保持しているものも含んでもよい。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
【符号の説明】
【0085】
1、1a キーワード抽出装置
11 キーワード候補語抽出部
12 マスク文生成部
13 マスク推定部
14 顕著性推定部
14a 視点検出部
14b 視点位置推定部
15 物体検出部
16 高顕著性物体決定部
16a 注視物体決定部
17 関連度スコア算出部
18 キーワード出力部
21 キーワードデータベース
22 入力文メモリ
23 単語推定モデル
24 顕著性推定モデル
25 物体検出モデル
26 分散表現ベクトルデータベース
27 代表オブジェクトデータベース