(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022094186
(43)【公開日】2022-06-24
(54)【発明の名称】視聴支援システム、視聴支援方法およびプログラム
(51)【国際特許分類】
G10L 15/22 20060101AFI20220617BHJP
G06V 30/00 20220101ALI20220617BHJP
G10L 15/10 20060101ALI20220617BHJP
G06F 40/169 20200101ALI20220617BHJP
【FI】
G10L15/22 453
G06K9/00 S
G10L15/10 500T
G10L15/10 200W
G06F40/169
【審査請求】未請求
【請求項の数】15
【出願形態】OL
(21)【出願番号】P 2020207069
(22)【出願日】2020-12-14
(71)【出願人】
【識別番号】000003078
【氏名又は名称】株式会社東芝
(71)【出願人】
【識別番号】301063496
【氏名又は名称】東芝デジタルソリューションズ株式会社
(74)【代理人】
【識別番号】110001634
【氏名又は名称】特許業務法人 志賀国際特許事務所
(72)【発明者】
【氏名】筒井 秀樹
(72)【発明者】
【氏名】福井 龍二
(72)【発明者】
【氏名】澁谷 貴志
(72)【発明者】
【氏名】平山 直樹
(72)【発明者】
【氏名】鈴木 優
【テーマコード(参考)】
5B064
5B109
【Fターム(参考)】
5B064AA07
5B064EA08
5B064EA24
5B109SA14
(57)【要約】
【課題】表示されるコンテンツを簡単かつ適切に記録する。
【解決手段】視聴支援システムは、表示部と、キャプチャ画像生成部と、音声認識部と、紐づけ保存部とを持つ。表示部は、複数ページを有するコンテンツを表示可能な表示画面を有する。キャプチャ画像生成部は、表示画面に表示されるコンテンツのキャプチャ画像を生成する。音声認識部は、コンテンツに含まれる音声を認識する。紐づけ保存部は、音声認識部によってコンテンツに含まれる音声が認識された結果である音声認識結果を、キャプチャ画像生成部によって生成されたキャプチャ画像に紐づけて保存する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
複数ページを有するコンテンツを表示可能な表示画面を有する表示部と、
前記表示画面に表示される前記コンテンツのキャプチャ画像を生成するキャプチャ画像生成部と、
前記コンテンツに含まれる音声を認識する音声認識部と、
前記音声認識部によって前記コンテンツに含まれる音声が認識された結果である音声認識結果を、前記キャプチャ画像生成部によって生成された前記キャプチャ画像に紐づけて保存する紐づけ保存部とを備える視聴支援システム。
【請求項2】
前記表示画面に表示される前記コンテンツのページめくりを検知するページめくり検知部を備え、
前記紐づけ保存部は、前記ページめくり検知部による前記ページめくりの検知結果に基づいて、前記キャプチャ画像生成部によって生成された前記キャプチャ画像に前記音声認識結果を紐づけて保存する、
請求項1に記載の視聴支援システム。
【請求項3】
前記キャプチャ画像生成部が、前記ページめくりのタイミングの前に前記表示画面に表示されていた前記コンテンツのキャプチャ画像であるページめくり前キャプチャ画像と、前記ページめくりのタイミングの後に前記表示画面に表示されていた前記コンテンツのキャプチャ画像であるページめくり後キャプチャ画像とを生成した場合であって、
前記音声認識部によって認識された音声が、前記ページめくりのタイミングの前後にまたがっている場合に、
前記ページめくりのタイミングの前後にまたがっている音声が前記音声認識部によって認識された結果であるまたがり音声認識結果を、前記ページめくり前キャプチャ画像および前記ページめくり後キャプチャ画像の一方に振り分ける振分部を備え、
前記振分部は、前記またがり音声認識結果を、前記ページめくり前キャプチャ画像および前記ページめくり後キャプチャ画像のどちらに振り分けるかを判定する機能を有する、
請求項2に記載の視聴支援システム。
【請求項4】
前記振分部は、
前記またがり音声認識結果に対応する発話音声の内容を認識する発話音声内容認識部と、
前記ページめくり前キャプチャ画像の内容と前記ページめくり後キャプチャ画像の内容とを認識する画像内容認識部と、
前記発話音声内容認識部によって認識された前記発話音声の内容と前記画像内容認識部によって認識された前記ページめくり前キャプチャ画像の内容との類似度である第1類似度と、前記発話音声内容認識部によって認識された前記発話音声の内容と前記画像内容認識部によって認識された前記ページめくり後キャプチャ画像の内容との類似度である第2類似度とを算出する類似度算出部とを備え、
前記第1類似度が前記第2類似度より高い場合に、前記振分部は、前記またがり音声認識結果を前記ページめくり前キャプチャ画像に振り分け、前記紐づけ保存部は、前記またがり音声認識結果を前記ページめくり前キャプチャ画像に紐づけて保存し、
前記第1類似度が前記第2類似度より低い場合に、前記振分部は、前記またがり音声認識結果を前記ページめくり後キャプチャ画像に振り分け、前記紐づけ保存部は、前記またがり音声認識結果を前記ページめくり後キャプチャ画像に紐づけて保存する、
請求項3に記載の視聴支援システム。
【請求項5】
前記振分部は、
予め設定されたキーワードが前記またがり音声認識結果に対応する発話音声に含まれるか否かを判定するキーワード判定部を備え、
前記キーワードが前記発話音声に含まれると前記キーワード判定部によって判定された場合に、
前記振分部は、前記発話音声に含まれる前記キーワードに基づいて、前記またがり音声認識結果を前記ページめくり前キャプチャ画像および前記ページめくり後キャプチャ画像の一方に振り分け、
前記紐づけ保存部は、前記またがり音声認識結果を振り分け先のキャプチャ画像に紐づけて保存する、
請求項3に記載の視聴支援システム。
【請求項6】
前記ページめくり検知部は、
動画が前記表示画面に表示されているか否かを判定する動画判定部を備える、
請求項2に記載の視聴支援システム。
【請求項7】
前記動画が前記表示画面に表示されていると前記動画判定部によって判定された場合に、
前記ページめくり検知部は、前記ページめくりを検知する機能を停止する、
請求項6に記載の視聴支援システム。
【請求項8】
前記動画が前記表示画面に表示されていると前記動画判定部によって判定された場合に、
前記ページめくり検知部は、前記表示画面に含まれる前記動画の部分を除外して前記ページめくりを検知する、
請求項6に記載の視聴支援システム。
【請求項9】
前記キャプチャ画像生成部は、
第1時点に前記表示画面に表示される前記コンテンツの前記キャプチャ画像として第1キャプチャ画像を生成し、
前記第1時点から予め設定されたキャプチャ画像生成インターバルが経過した時点である第2時点に前記表示画面に表示される前記コンテンツの前記キャプチャ画像として第2キャプチャ画像を生成し、
前記第1キャプチャ画像に対する前記第2キャプチャ画像の変化量が閾値を超える場合に、
前記ページめくり検知部は、前記ページめくりを検知し、
前記紐づけ保存部は、前記ページめくり検知部による前記ページめくりの検知結果に基づいて、前記第2キャプチャ画像に前記音声認識結果を紐づけて保存すると共に、前記第1キャプチャ画像に前記音声認識結果を紐づけて保存する、
請求項2に記載の視聴支援システム。
【請求項10】
前記キャプチャ画像生成部は、予め設定されたキャプチャ画像生成インターバルで複数のキャプチャ画像を生成し、
前記ページめくり検知部は、文字列エリア判定部を備え、
前記文字列エリア判定部は、
前記キャプチャ画像生成部によって生成された前記複数のキャプチャ画像のそれぞれに含まれる文字数を算出する機能と、
前記キャプチャ画像生成部によって生成された前記複数のキャプチャ画像から、含まれる文字数が最も多いキャプチャ画像を選択する機能とを有し、
前記紐づけ保存部は、前記文字列エリア判定部によって選択されたキャプチャ画像に前記音声認識結果を紐づけて保存する、
請求項2に記載の視聴支援システム。
【請求項11】
前記キャプチャ画像生成部は、予め設定されたキャプチャ画像生成インターバルで複数のキャプチャ画像を生成し、
前記紐づけ保存部は、記録ページ生成部と、記録ページ削除部とを備え、
前記記録ページ生成部は、前記紐づけ保存部によって保存される前記キャプチャ画像に前記音声認識結果が紐づけられたものである保存ページの候補として、前記キャプチャ画像生成部によって生成された前記複数のキャプチャ画像に前記音声認識結果がそれぞれ紐づけられたものである複数の記録ページを生成し、
前記記録ページ削除部は、前記記録ページ生成部によって生成された前記複数の記録ページの一部を削除する機能を有し、
前記記録ページ削除部が前記複数の記録ページの一部を削除する場合に、
前記紐づけ保存部は、削除される記録ページを構成するキャプチャ画像に紐づけられていた前記音声認識結果を、削除されない記録ページを構成するキャプチャ画像に紐づけ、前記保存ページとして保存する、
請求項1に記載の視聴支援システム。
【請求項12】
前記キャプチャ画像生成部は、予め設定されたキャプチャ画像生成インターバルで複数のキャプチャ画像を生成し、
前記紐づけ保存部は、記録ページ生成部と、記録ページ変更部とを備え、
前記記録ページ生成部は、前記紐づけ保存部によって保存される前記キャプチャ画像に前記音声認識結果が紐づけられたものである保存ページの候補として、前記キャプチャ画像生成部によって生成された前記複数のキャプチャ画像に前記音声認識結果がそれぞれ紐づけられたものである複数の記録ページを生成し、
前記記録ページ変更部は、前記記録ページ生成部によって生成された前記複数の記録ページの一部を変更する機能を有し、
前記記録ページ変更部が前記複数の記録ページの一部を変更する場合に、
前記紐づけ保存部は、
変更される記録ページを構成するキャプチャ画像を空白画像に変更し、
前記変更される記録ページを構成するキャプチャ画像に紐づけられていた前記音声認識結果を、前記空白画像に紐づけ、前記保存ページとして保存する、
請求項1に記載の視聴支援システム。
【請求項13】
前記キャプチャ画像生成部は、予め設定されたキャプチャ画像生成インターバルで複数のキャプチャ画像を生成し、
前記紐づけ保存部は、記録ページ生成部と、記録ページ削除部と、光学文字認識部とを備え、
前記記録ページ生成部は、前記紐づけ保存部によって保存される前記キャプチャ画像に前記音声認識結果が紐づけられたものである保存ページの候補として、前記キャプチャ画像生成部によって生成された前記複数のキャプチャ画像に前記音声認識結果がそれぞれ紐づけられたものである複数の記録ページを生成し、
前記記録ページ削除部は、前記記録ページ生成部によって生成された前記複数の記録ページの一部を削除する機能を有し、
前記記録ページ削除部が前記複数の記録ページの一部を削除する場合に、
前記光学文字認識部は、
削除される記録ページを構成するキャプチャ画像の生成時点よりも前の生成時点に前記キャプチャ画像生成部によって生成された、前記削除されない記録ページを構成するキャプチャ画像である前キャプチャ画像の光学文字認識を行い、
前記削除される記録ページを構成するキャプチャ画像の生成時点よりも後の生成時点に前記キャプチャ画像生成部によって生成された、前記削除されない記録ページを構成するキャプチャ画像である後キャプチャ画像の光学文字認識を行い、
前記紐づけ保存部は、
前記前キャプチャ画像の光学文字認識結果と前記削除される記録ページを構成するキャプチャ画像に紐づけられていた前記音声認識結果との類似度と、
前記後キャプチャ画像の光学文字認識結果と前記削除される記録ページを構成するキャプチャ画像に紐づけられていた前記音声認識結果との類似度とに基づいて、
前記削除される記録ページを構成するキャプチャ画像に紐づけられていた前記音声認識結果を、前記前キャプチャ画像および前記後キャプチャ画像のいずれかに紐づけ、前記保存ページとして保存する、
請求項1に記載の視聴支援システム。
【請求項14】
表示画面に表示された複数ページを有するコンテンツのキャプチャ画像を取得するキャプチャ画像取得ステップと、
前記コンテンツに含まれる音声を認識する音声認識ステップと、
前記音声認識ステップにおいて前記コンテンツに含まれる音声が認識された結果である音声認識結果を、前記キャプチャ画像取得ステップにおいて取得された前記キャプチャ画像に紐づけて保存する紐づけ保存ステップとを備える視聴支援方法。
【請求項15】
コンピュータに
表示画面に表示された複数ページを有するコンテンツのキャプチャ画像を取得するキャプチャ画像取得ステップと、
前記コンテンツに含まれる音声を認識する音声認識ステップと、
前記音声認識ステップにおいて前記コンテンツに含まれる音声が認識された結果である音声認識結果を、前記キャプチャ画像取得ステップにおいて取得された前記キャプチャ画像に紐づけて保存する紐づけ保存ステップとを実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、視聴支援システム、視聴支援方法およびプログラムに関する。
【背景技術】
【0002】
従来から、会議や講演などを録画した映像データまたは録音した音声データにもとづいて文書を作成するとともに、文書作成者や参加者が要約された文書を映像あるいは音声とともに閲覧できるようにした文書作成閲覧装置が知られている。従来の文書作成閲覧装置では、会議を録画して映像データが生成され、会議内容を録音して音声データが生成される。また、議事録作成者が入力した議事録案などを含む文書データが生成される。更に、音声データまたは映像データと文書データとにもとづいて、音声または映像と文書との対応関係が導出され、対応関係表データが生成される。対応関係表データにもとづいて、音声または映像と文書とが対応付けられて表示される。
【0003】
また従来から、会議や講演などを録画した映像データまたは音声を録音した音声データを紐づけて活用する方法が開発されている。
しかし、オンライン会議アプリを用いたオンライン会議では、発表者が次々と資料をめくってしまい、現在の表示ページより前のページを見たくても閲覧できないことがあった。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明が解決しようとする課題は、表示されるコンテンツを簡単かつ適切に記録することができる視聴支援システム、視聴支援方法およびプログラムを提供することである。
【課題を解決するための手段】
【0006】
実施形態の視聴支援システムは、表示部と、キャプチャ画像生成部と、音声認識部と、紐づけ保存部とを持つ。表示部は、複数ページを有するコンテンツを表示可能な表示画面を有する。キャプチャ画像生成部は、表示画面に表示されるコンテンツのキャプチャ画像を生成する。音声認識部は、コンテンツに含まれる音声を認識する。紐づけ保存部は、音声認識部によってコンテンツに含まれる音声が認識された結果である音声認識結果を、キャプチャ画像生成部によって生成されたキャプチャ画像に紐づけて保存する。
【図面の簡単な説明】
【0007】
【
図1】第1実施形態の視聴支援システムの構成の一例を示す図である。
【
図2】紐づけ保存部によって紐づけて保存されたキャプチャ画像と音声認識結果とが表示部の第2表示画面に表示される一例を説明するための図である。
【
図3】ページめくり検知部のページめくり判定アルゴリズムの一例を説明するための図である。
【
図4】動画判定部の動画判定アルゴリズムの一例を説明するための図である。
【
図5】紐づけ保存部の記録ページ削除部による処理の一例を説明するための図である。
【
図6】第1実施形態の視聴支援システムにおいて実行される処理の一例を説明するためのフローチャートである。
【
図7】表示部の第2表示画面の一例を示す図である。
【
図8】第4実施形態の視聴支援システムの構成の一例を示す図である。
【
図9】第5実施形態の視聴支援システムの構成の一例を示す図である。
【
図10】動画判定部の動画エリア判定アルゴリズムの一例を説明するための図である。
【
図11】第8実施形態の視聴支援システムの適用例であって、表示部の表示画面に表示されるコンテンツのページに議事録が含まれる例について説明するための図である。
【
図12】第9実施形態の視聴支援システムの構成の一例を示す図である。
【
図13】第9実施形態の視聴支援システムのスクロール判定機能の一例を説明するための図である。
【
図14】第10実施形態の視聴支援システムの構成の一例を示す図である。
【
図15】第11実施形態の視聴支援システムの構成の一例を示す図である。
【発明を実施するための形態】
【0008】
以下、実施形態の視聴支援システム、視聴支援方法およびプログラムを、図面を参照して説明する。
【0009】
<第1実施形態>
図1は第1実施形態の視聴支援システム1の構成の一例を示す図である。
図1に示す例では、視聴支援システム1が、例えばオンライン会議アプリの機能と後述する紐づけて保存する機能とを有する端末装置である。視聴支援システム1は、表示部1Aと、キャプチャ画像生成部1Bと、音声認識部1Cと、紐づけ保存部1Dと、ページめくり検知部1Eと、振分部1Fと、通信部11と、処理部12と、入力部13と、出力部14とを備えている。
表示部1Aは第1表示画面と第2表示画面とを有する。表示部1Aは、複数ページを有するコンテンツ(例えばオンライン会議などにおいて用いられるプレゼンテーション資料など)を第1表示画面に表示する。
キャプチャ画像生成部1Bは、表示部1Aの第1表示画面に表示されるコンテンツのキャプチャ画像を生成する。例えば、キャプチャ画像生成部1Bは、コンテンツが表示部1Aの第1表示画面に表示されている期間中、予め設定されたキャプチャ画像生成インターバル(例えば3秒間隔など)で複数のキャプチャ画像を生成する。
音声認識部1Cは、コンテンツに含まれる音声(例えばオンライン会議の発表者の発話音声)を認識し、音声認識結果を出力する。詳細には、音声認識部1Cは、コンテンツに含まれる音声データを音声認識してテキストデータを生成する。
【0010】
紐づけ保存部1Dは、音声認識部1Cによる音声認識結果を、キャプチャ画像生成部1Bによって生成されたキャプチャ画像に紐づけて保存する。紐づけ保存部1Dが、音声認識部1Cによる音声認識結果に加えて、視聴支援システム1の利用者によって入力されたメモ書きであるノートを、キャプチャ画像生成部1Bによって生成されたキャプチャ画像に紐づけて保存してもよい。
紐づけ保存部1Dは、記録ページ生成部1D1と、記録ページ削除部1D2とを備えている。
記録ページ生成部1D1は、紐づけ保存部1Dによって保存されるキャプチャ画像に音声認識結果が紐づけられたものである保存ページの候補として、キャプチャ画像生成部1Bによって例えば3秒間隔で生成された複数のキャプチャ画像に音声認識結果がそれぞれ紐づけられたものである複数の記録ページを生成する。
記録ページ削除部1D2は、記録ページ生成部1D1によって生成された複数の記録ページの一部を削除する機能を有する。
記録ページ削除部1D2が複数の記録ページの一部を削除する場合に、紐づけ保存部1Dは、削除される記録ページを構成するキャプチャ画像に紐づけられていた音声認識結果を、削除されない記録ページを構成するキャプチャ画像に紐づけ、保存ページとして保存する。
【0011】
上述した表示部1Aは、複数ページを有するコンテンツ(例えばオンライン会議などにおいて用いられるプレゼンテーション資料など)を第1表示画面に表示する機能のみならず、紐づけ保存部1Dによって紐づけて保存されたキャプチャ画像と音声認識結果とを第2表示画面に表示する機能を有する。
図1に示す例では、表示部1Aが第1表示画面と第2表示画面とを有するが、他の例では、オンライン会議の動画とキャプチャ画像とが同一の表示画面に表示されてもよい。
【0012】
図2は紐づけ保存部1Dによって紐づけて保存されたキャプチャ画像と音声認識結果とが表示部1Aの第2表示画面に表示される一例を説明するための図である。
図2に示す例では、第1実施形態の視聴支援システム1がオンライン会議に用いられている。オンライン会議の発表者は、複数ページのプレゼンテーション資料を用いることによって、「オンライン受診システム」、「オペレータシステム」、「ショッピングシステム」などのプレゼンテーションを行っている。
オンライン会議の発表者が「ショッピングシステム」のプレゼンテーションを開始したタイミングで、視聴支援システム1の利用者は、紐づけ保存部1Dによって紐づけて保存された(すなわち、プレゼンテーションが既に終了した)「オンライン受診システム」のキャプチャ画像および音声認識結果と、「オペレータシステム」のキャプチャ画像および音声認識結果とを、表示部1Aの第2表示画面に表示させている。
図1および
図2に示す例では、表示部1Aの第1表示画面に表示されるコンテンツを簡単かつ適切に記録(保存)することができる。詳細には、現在の表示ページ(「ショッピングシステム」のページ)よりも前に表示されたページ(「オンライン受診システム」および「オペレータシステム」のページ)を第2表示画面において閲覧可能に、オンライン会議のプレゼンテーション資料を表示部1Aの第1表示画面に表示することができる。また、「オンライン受診システム」のキャプチャ画像と音声認識結果とを紐づけて表示部1Aの第2表示画面に表示することができ、「オペレータシステム」のキャプチャ画像と音声認識結果とを紐づけて表示部1Aの第2表示画面に表示することができる。
【0013】
図1に示す例では、ページめくり検知部1Eが、表示部1Aの第1表示画面に表示されるコンテンツのページめくりを検知する。ページめくり検知部1Eは、例えばオンライン会議などにおいて用いられるプレゼンテーション資料が次のページに切り替わることを「ページめくり」として検知する。
紐づけ保存部1Dは、ページめくり検知部1Eによるページめくりの検知結果に基づいて、キャプチャ画像生成部1Bによって生成されたキャプチャ画像に音声認識結果を紐づけて保存する。つまり、紐づけ保存部1Dは、視聴支援システム1の利用者による指示の必要なく、キャプチャ画像生成部1Bによって生成されたキャプチャ画像に音声認識結果を紐づけて保存する。
【0014】
図3はページめくり検知部1Eのページめくり判定アルゴリズムの一例を説明するための図である。
図3に示す例では、キャプチャ画像生成部1Bが、予め設定されたキャプチャ画像生成インターバルで複数のキャプチャ画像を生成する。
具体的には、時刻t1に、キャプチャ画像生成部1Bがキャプチャ画像を生成する。ページめくり検知部1Eは、時刻t1以前に保存された画像との比較を行い、変化があったか否かを判定する。
図3に示す例では、時刻t1以前に保存された画像が存在しないため、時刻t1に生成されたキャプチャ画像が保存される。
次いで、時刻t2(時刻t1の例えば3秒後)に、キャプチャ画像生成部1Bは、キャプチャ画像を生成する。ページめくり検知部1Eは、時刻t2に生成されたキャプチャ画像と時刻t1に生成されて保存されたキャプチャ画像との比較を行い、変化があったか否かを判定する。
図3に示す例では、時刻t2に生成されたキャプチャ画像と時刻t1に生成されたキャプチャ画像とが同一であり、ページめくりが行われなかったと判定される。その結果、時刻t2に生成されたキャプチャ画像は、保存されることなく破棄される。時刻t2の音声認識結果は、時刻t1に生成されて保存されたキャプチャ画像と紐づけられる。
次いで、時刻t3(時刻t2の例えば3秒後)に、キャプチャ画像生成部1Bは、キャプチャ画像を生成する。ページめくり検知部1Eは、時刻t3に生成されたキャプチャ画像と時刻t1に生成されて保存されたキャプチャ画像との比較を行い、変化があったか否かを判定する。
図3に示す例では、時刻t3に生成されたキャプチャ画像と時刻t1に生成されたキャプチャ画像とが同一であり、ページめくりが行われなかったと判定される。その結果、時刻t3に生成されたキャプチャ画像は、保存されることなく破棄される。時刻t3の音声認識結果は、時刻t1に生成されて保存されたキャプチャ画像と紐づけられる。
次いで、時刻t4(時刻t3の例えば3秒後)に、キャプチャ画像生成部1Bは、キャプチャ画像を生成する。ページめくり検知部1Eは、時刻t4に生成されたキャプチャ画像と時刻t1に生成されて保存されたキャプチャ画像との比較を行い、変化があったか否かを判定する。
図3に示す例では、時刻t4に生成されたキャプチャ画像と時刻t1に生成されたキャプチャ画像とが異なり、ページめくりが行われたと判定される。その結果、時刻t4に生成されたキャプチャ画像は保存される。時刻t4の音声認識結果は、時刻t4に生成されて保存されたキャプチャ画像と紐づけられる。
このようにして、ページがめくられたときだけキャプチャ画像が保存される。
【0015】
図3に示す例では、ページめくり検知部1Eが時刻t2におけるページめくりの有無を判定するために、時刻t1にキャプチャ画像生成部1Bによって生成されたキャプチャ画像と、時刻t2にキャプチャ画像生成部1Bによって生成されたキャプチャ画像とに対して、例えば以下の処理を実行する。
まず、ページめくり検知部1Eは、それらのキャプチャ画像に対してグレー変換を実行する。計算コストを削減するためである。
次いで、ページめくり検知部1Eは、計算コストを削減するためにそれらのキャプチャ画像に対して解像度変換を実行し(解像度を落とし)、閾値と比較して判定できるようにするためにキャプチャ画像の大きさで正規化する。
次いで、ページめくり検知部1Eは、ガウスフィルタを用いた処理を実行する。画像をぼかすことにより、少しのズレに対する耐性を向上させるためである。
次いで、ページめくり検知部1Eは、差分の和を算出し、違いの合計値を算出する。
次いで、ページめくり検知部1Eは、差分の和と第1閾値とを比較し、差分の和が第1閾値を上回る場合に、ページめくりが行われたと判定する。
【0016】
図1に示す例では、ページめくり検知部1Eが、動画判定部1E1を備えている。動画判定部1E1は、表示部1Aの第1表示画面に動画が表示されているか否かを判定する。
【0017】
図4は動画判定部1E1の動画判定アルゴリズムの一例を説明するための図である。
図4に示す例では、動画判定部1E1が、表示部1Aの第1表示画面に動画が表示されているか否かを判定するために、第1表示画面を一定の大きさの複数のウィンドウに区切る。
図3に示す例では、上述したように、ページめくりが行われたか否かを判定するために例えば3秒間隔で生成されたキャプチャ画像が用いられる。一方、
図4に示す例では、表示部1Aの第1表示画面に動画が表示されているか否かを判定するために例えば1/30秒間隔で取得される動画のフレームが用いられる。
具体的には、
図4に示す例では、動画判定部1E1が、所定時刻に表示部1Aの第1表示画面の所定のウィンドウ内に表示される画像と、所定時刻の1/30秒後に表示部1Aの第1表示画面のそのウィンドウ内に表示される画像とを比較し、変化量を計算する。
図4に示す例における変化量の計算は、例えば、
図3に示す例において用いられるアルゴリズムと同様のアルゴリズムを用いることによって行われる。
動画判定部1E1は、全体のウィンドウの数に対する変化したウィンドウの数の割合が第2閾値以上である場合に、表示部1Aの第1表示画面に動画が表示されていると判定する。
図1に示す例では、表示部1Aの第1表示画面に動画が表示されていると動画判定部1E1によって判定された場合に、ページめくり検知部1Eは、ページめくりを検知する機能を停止する。その結果、実際にはページめくりが行われていないにもかかわらず、ページめくりが行われたとページめくり検知部1Eによって誤って検知されるおそれを低減することができる。
ページめくり検知部1Eがページめくりを検知する機能を停止する場合には、ページめくりが行われたか否かの判定は、視聴支援システム1の利用者によって手動で行われる。
【0018】
図1に示す例では、振分部1Fが、音声認識結果の紐づけの対象(候補)となるキャプチャ画像が複数存在する場合に、紐づけられる音声認識結果を複数のキャプチャ画像のいずれかに振り分ける処理を実行する。
例えば、キャプチャ画像生成部1Bが、ページめくりのタイミング(
図3に示す例では、時刻t3と時刻t4との間のタイミング)の前に表示部1Aの第1表示画面に表示されていたコンテンツのキャプチャ画像(ページめくり前キャプチャ画像)(
図3に示す例では、時刻t1のキャプチャ画像)と、ページめくりのタイミングの後に表示部1Aの第1表示画面に表示されていたコンテンツのキャプチャ画像(ページめくり後キャプチャ画像)(
図3に示す例では、時刻t4のキャプチャ画像)とを生成した場合であって、音声認識部1Cによって認識された音声が、ページめくりのタイミングの前後にまたがっている場合に、振分部1Fは、ページめくりのタイミングの前後にまたがっている音声が音声認識部1Cによって認識された結果(またがり音声認識結果)を、ページめくり前キャプチャ画像(
図3に示す例では、時刻t1のキャプチャ画像)およびページめくり後キャプチャ画像(
図3に示す例では、時刻t4のキャプチャ画像)の一方に振り分ける。
つまり、振分部1Fは、またがり音声認識結果を、ページめくり前キャプチャ画像およびページめくり後キャプチャ画像のどちらに振り分けるかを判定する機能を有する。
【0019】
第1実施形態の視聴支援システム1の第1例では、振分部1Fが、ページめくり前キャプチャ画像(
図3に示す例では、時刻t1のキャプチャ画像)およびページめくり後キャプチャ画像(
図3に示す例では、時刻t4のキャプチャ画像)の一方である、コンテンツに含まれる音声が途切れる時に表示部1Aの第1表示画面に表示されているコンテンツのキャプチャ画像(音声途切れ時キャプチャ画像)に、またがり音声認識結果(例えば「では次のページの説明を行います。」というオンライン会議の発表者の発話音声の認識結果)を振り分ける。紐づけ保存部1Dは、またがり音声認識結果を音声途切れ時キャプチャ画像に紐づけて保存する。
第1実施形態の視聴支援システム1の第2例では、振分部1Fが、ページめくり前キャプチャ画像(
図3に示す例では、時刻t1のキャプチャ画像)およびページめくり後キャプチャ画像(
図3に示す例では、時刻t4のキャプチャ画像)の一方である、音声認識部1Cがまたがり音声認識結果を出力する時に表示部1Aの第1表示画面に表示されているコンテンツのキャプチャ画像(音声認識結果出力時キャプチャ画像)に、またがり音声認識結果(例えば「では次のページの説明を行います。」というオンライン会議の発表者の発話音声の認識結果)を振り分ける。紐づけ保存部1Dは、またがり音声認識結果を音声認識結果出力時キャプチャ画像に紐づけて保存する。
【0020】
図1に示す例では、通信部11が、表示部1Aの第1表示画面に表示されるコンテンツを視聴支援システム1の外部から受信する処理などを行う。
処理部12は、上述した表示部1A、キャプチャ画像生成部1B、音声認識部1C、紐づけ保存部1D、ページめくり検知部1E、振分部1Fおよび通信部11が行う処理以外の各種処理を実行する。
入力部13は、視聴支援システム1の利用者などの入力操作を受け付ける。
出力部14は、視聴支援システム1において生成されたデータなどを出力する処理であって、表示部1Aによる表示を除く処理を実行する。
【0021】
図5は紐づけ保存部1Dの記録ページ削除部1D2による処理の一例を説明するための図である。
図5に示す例では、記録ページ削除部1D2が複数の記録ページ(保存されたキャプチャ画像に音声認識結果(およびノート(
図5には図示せず))が紐づけられたもの)の一部(
図5(A)に示す4つの記録ページのうちの下側の3つの記録ページ)を削除する場合に、紐づけ保存部1Dは、削除される記録ページ(
図5(A)の上から2番目の記録ページ)を構成するキャプチャ画像に紐づけられていた音声認識結果「今日は特許ネタについて説明します。」と、削除される記録ページ(
図5(A)の上から3番目の記録ページ)を構成するキャプチャ画像に紐づけられていた音声認識結果「いつでも質問してくださいね。」と、削除される記録ページ(
図5(A)の上から4番目の記録ページ)を構成するキャプチャ画像に紐づけられていた音声認識結果「では始めます。」とを、削除されない記録ページ(
図5(A)の上から1番目の記録ページ)を構成するキャプチャ画像に紐づけ、
図5(B)に示す保存ページとして保存する。
【0022】
図示しないが、記録ページ削除部1D2が、複数の記録ページ(保存されたキャプチャ画像に音声認識結果が紐づけられたもの)の一部を削除する場合であって、紐づけ保存部1Dによって保存される保存ページが複数である場合に、削除される記録ページを構成するキャプチャ画像に紐づけられていた音声認識結果は、削除される記録ページを構成するキャプチャ画像の生成時点よりも前の生成時点であって、削除される記録ページを構成するキャプチャ画像の生成時点の直近の生成時点にキャプチャ画像生成部1Bによって生成された、削除されない記録ページを構成するキャプチャ画像に紐づけられる。
【0023】
図示しないが、記録ページ削除部1D2が、複数の記録ページの一部を削除する場合であって、紐づけ保存部1Dによって保存される保存ページが存在する場合であって、削除される記録ページを構成するキャプチャ画像の生成時点よりも前の生成時点にキャプチャ画像生成部1Bによって生成された、削除されない記録ページが存在しない場合に、削除される記録ページを構成するキャプチャ画像に紐づけられていた音声認識結果は、削除される記録ページを構成するキャプチャ画像の生成時点よりも後の生成時点にキャプチャ画像生成部1Bによって生成された、削除されない記録ページを構成するキャプチャ画像に紐づけられる。
【0024】
図6は第1実施形態の視聴支援システム1において実行される処理の一例を説明するためのフローチャートである。
図6に示す例では、ステップS1において、オンライン会議アプリの機能と紐づけて保存する機能とを有する視聴支援システム1の表示部1Aが、複数ページを有するコンテンツ(例えばオンライン会議などにおいて用いられるプレゼンテーション資料など)を第1表示画面に表示する。
次いで、ステップS2では、視聴支援システム1のキャプチャ画像生成部1Bが、ステップS1において表示部1Aの第1表示画面に表示されるコンテンツのキャプチャ画像を生成する。
また、ステップS3では、視聴支援システム1の音声認識部1Cが、ステップS1において表示部1Aの第1表示画面に表示されるコンテンツに含まれる音声を認識する。
次いで、ステップS4では、視聴支援システム1の紐づけ保存部1Dが、ステップS2において生成されたキャプチャ画像を取得する。また、視聴支援システム1の紐づけ保存部1Dは、ステップS3においてコンテンツに含まれる音声が認識された結果である音声認識結果を、取得されたキャプチャ画像に紐づけて保存する。
【0025】
図7は表示部1Aの第2表示画面(詳細には、メイン画面)の一例を示す図である。
図7に示す例では、第1実施形態の視聴支援システム1がオンライン会議のプレゼンテーション資料の視聴に利用されている。
図7に示すオンライン会議アプリの機能と紐づけて保存する機能とを有する視聴支援システム1の表示部1Aの第2表示画面は、例えばタッチパネルなどによって構成されており、視聴支援システム1の利用者の入力操作を受け付ける視聴支援システム1の入力部13としても機能する。
図7に示す「キャプチャ」ボタンは、プレゼンテーション資料(コンテンツ)のキャプチャ画像を保存(生成)するための視聴支援システム1の利用者の入力操作を受け付ける。つまり、「キャプチャ」ボタンは、視聴支援システム1のキャプチャ画像生成部1Bが自動でキャプチャ画像を生成するのではなく、視聴支援システム1の利用者の入力操作に応じて手動でキャプチャ画像を保存(生成)するためのボタンである。
図7に「記録画像のページ送り」で示すボタンは、視聴支援システム1の紐づけ保存部1Dによって保存されたキャプチャ画像であって、視聴支援システム1の表示部1Aの第2表示画面に表示されているキャプチャ画像のページ送りを行うためのボタンである。
図7に「最新ページ送り」で示すボタンは、視聴支援システム1の紐づけ保存部1Dによって保存されたキャプチャ画像であって、視聴支援システム1の表示部1Aの第2表示画面に表示されるキャプチャ画像を最新のもの(つまり、キャプチャ画像の保存時点が最も新しいもの)にするためのボタンである。
図7において、「キャプチャ静止画」は、視聴支援システム1の紐づけ保存部1Dによって保存されたキャプチャ画像であって、視聴支援システム1の表示部1Aの第2表示画面に表示されているキャプチャ画像を示している。
【0026】
図7に「自動キャプチャ・録音・音声認識のON」で示すボタンは、視聴支援システム1のキャプチャ画像生成部1Bが、視聴支援システム1の表示部1Aの第1表示画面に表示されるコンテンツのキャプチャ画像を自動で生成し、視聴支援システム1の例えば処理部12が、そのコンテンツに含まれる音声を自動で録音し、視聴支援システム1の音声認識部1Cが、コンテンツに含まれる音声を自動で認識するONモードと、それらが自動で行われない停止中モードとを切り替えるためのボタンである。
図7に「ミュート」で示すボタンは、ミュート機能を切り替える(詳細には、視聴支援システム1の利用者の発話が録音されるか否かを切り替える)ためのボタンである。
図7に「めくり判定のON/OFF」で示すボタンは、視聴支援システム1のページめくり検知部1Eが視聴支援システム1の表示部1Aの第1表示画面に表示されるコンテンツのページめくりを自動で検知するONモードと、視聴支援システム1のページめくり検知部1Eの機能をOFFにし、ページめくりが行われたか否かの判定が視聴支援システム1の利用者によって手動で行われるOFFモードとを切り替えるためのボタンである。
図7に「画像の削除」で示すアイコンは、視聴支援システム1の利用者が視聴支援システム1の紐づけ保存部1Dによって保存されたキャプチャ画像を削除する場合に、視聴支援システム1の入力操作を受け付ける。
図7に「録音音声の再生」で示す部分は、視聴支援システム1の利用者が視聴支援システム1の例えば処理部12によって録音された音声を再生する場合に、視聴支援システム1の入力操作を受け付ける。
【0027】
図7に「ページ位置への音声ジャンプ」で示すボタンは、視聴支援システム1の表示部1Aの第2表示画面に表示されているキャプチャ画像が視聴支援システム1のキャプチャ画像生成部1Bによって生成された時に視聴支援システム1の表示部1Aの第1表示画面に表示されていたコンテンツに含まれる音声(視聴支援システム1の例えば処理部12によって録音された音声)の再生頭出しをするためのボタンである。
図7に「音声認識結果表示」で示す部分は、視聴支援システム1の表示部1Aの第2表示画面に表示されているキャプチャ画像が視聴支援システム1の紐づけ保存部1Dによって保存された時に視聴支援システム1の音声認識部1Cによって行われた音声認識の結果を示している。
図7に示す例では、音声認識部1Cが、発話者を識別することなく音声認識を行っている(つまり、発話者が同一であるか、あるいは、異なるかの情報が、音声認識結果に含められていない)が、他の例では、音声認識部1Cが、発話者を識別して音声認識を行ってもよい。
識別方法は、公知の話者識別技術を使ってもよいし、システム側の音声とマイク側の音声の2つに分けるだけでもよい。
【0028】
音声認識結果として、自分(視聴支援システム1の利用者)と相手(例えばオンライン会議の相手(発表者))の発話内容の両方が、視聴支援システム1の表示部1Aの第2表示画面に表示されている例では、例えば下記が視聴支援システム1の表示部1Aの第2表示画面に表示される。
[自分]このシステムは月額いくらで利用できますか?
[相手]月額1万円からとなっております。
[自分]このページの表の詳しい資料を送っていただけませんか?
[相手]承知いたしました。すぐに送付いたします。
上記の例(視聴支援システム1がオンライン会議に利用される例)では、オンライン会議における「自分」と「相手」とのやり取りが、視聴支援システム1によって自動で記録され、音声認識結果として、視聴支援システム1の表示部1Aの第2表示画面に表示される。
つまり、第1実施形態の視聴支援システム1は、一方的なウェビナー視聴だけではなく、オンライン会議に便利に利用可能である。
【0029】
図7に「ノート」で示す部分は、視聴支援システム1の表示部1Aの第2表示画面に表示されているキャプチャ画像が視聴支援システム1の紐づけ保存部1Dによって保存された時に視聴支援システム1の利用者によって入力されたメモ書きを示している。
つまり、
図7に示す例では、視聴支援システム1の音声認識部1Cによる音声認識結果が、視聴支援システム1の紐づけ保存部1Dによって保存されたキャプチャ画像に紐づけられるのみならず、視聴支援システム1の利用者によって入力されたメモ書きである「ノート」も、視聴支援システム1の紐づけ保存部1Dによって保存されたキャプチャ画像に紐づけられている。
【0030】
上述したように、オンライン会議アプリの機能と紐づけて保存する機能とを有する第1実施形態の視聴支援システム1では、例えばオンライン会議で視聴支援システム1の表示部1Aの第1表示画面に表示される資料から適切なタイミングで画面キャプチャ(表示部1Aの第1表示画面に表示されるコンテンツのキャプチャ画像の生成)を行い、音声認識結果と紐づけて記録することができる。この際、視聴支援システム1の表示部1Aの第1表示画面の変化に応じて適切にキャプチャし、音声認識結果とキャプチャ内容から、音声認識結果とキャプチャ画像との紐づけを適切に行うことができる。さらに、画像を削除するときには認識結果を削除しないよう適切に処理することができる。
【0031】
オンライン会議アプリの機能と紐づけて保存する機能とを有する第1実施形態の視聴支援システム1は、例えばオンライン会議アプリとして利用可能である。第1実施形態の視聴支援システム1の表示部1Aは、複数ページを有する(つまり、ページめくりが必要な)例えば動画コンテンツ、アニメーションコンテンツなどに適用可能である。
オンライン会議アプリの機能と紐づけて保存する機能とを有する第1実施形態の視聴支援システム1がオンライン会議に適用される場合には、オンライン会議の出席者である視聴支援システム1の利用者は、オンライン会議を適切に記録することができる。また、視聴支援システム1の利用者は、オンライン会議中、プレゼンテーションが行われているページとは異なるページを閲覧することができるため、オンライン会議の理解を深めることができる。
上述した各例では、第1実施形態の視聴支援システム1が、オンライン会議アプリの機能と紐づけて保存する機能とを有する1つの端末装置であるが、他の例では、第1実施形態の視聴支援システム1が、オンライン会議アプリの機能を有する第1端末装置と、紐づけて保存する機能を有する第2端末装置とを別個に備えていてもよい。
【0032】
<第2実施形態>
以下、本発明の視聴支援システム、視聴支援方法およびプログラムの第2実施形態について説明する。
第2実施形態の視聴支援システム1は、後述する点を除き、上述した第1実施形態の視聴支援システム1と同様に構成されている。従って、第2実施形態の視聴支援システム1によれば、後述する点を除き、上述した第1実施形態の視聴支援システム1と同様の効果を奏することができる。
【0033】
第2実施形態の視聴支援システム1では、第1実施形態の視聴支援システム1と同様に、振分部1Fが、音声認識結果の紐づけの対象(候補)となるキャプチャ画像が複数存在する場合に、紐づけられる音声認識結果を複数のキャプチャ画像のいずれかに振り分ける処理を実行する。
【0034】
上述したように、第1実施形態の視聴支援システム1の第1例では、振分部1Fが、ページめくり前キャプチャ画像およびページめくり後キャプチャ画像の一方である、コンテンツに含まれる音声が途切れる時に視聴支援システム1の表示部1Aの第1表示画面に表示されているコンテンツのキャプチャ画像(音声途切れ時キャプチャ画像)に、またがり音声認識結果を振り分ける。紐づけ保存部1Dは、またがり音声認識結果を音声途切れ時キャプチャ画像に紐づけて保存する。
上述したように、第1実施形態の視聴支援システム1の第2例では、振分部1Fが、ページめくり前キャプチャ画像およびページめくり後キャプチャ画像の一方である、音声認識部1Cがまたがり音声認識結果を出力する時に視聴支援システム1の表示部1Aの第1表示画面に表示されているコンテンツのキャプチャ画像(音声認識結果出力時キャプチャ画像)に、またがり音声認識結果を振り分ける。紐づけ保存部1Dは、またがり音声認識結果を音声認識結果出力時キャプチャ画像に紐づけて保存する。
【0035】
一方、第2実施形態の視聴支援システム1では、振分部1Fは、ページめくり前キャプチャ画像(
図3に示す例では、時刻t1のキャプチャ画像)およびページめくり後キャプチャ画像(
図3に示す例では、時刻t4のキャプチャ画像)の一方である、またがり音声認識結果に対応する発話音声の終了時(つまり、発話文の終りのタイミング。日本語の音声認識結果が句点になるタイミング。)に視聴支援システム1の表示部1Aの第1表示画面に表示されているコンテンツのキャプチャ画像(発話音声終了時キャプチャ画像)に、またがり音声認識結果(例えば「では次のページの説明を行います。」というオンライン会議の発表者の発話音声の認識結果)を振り分ける。紐づけ保存部1Dは、またがり音声認識結果を発話音声終了時キャプチャ画像に紐づけて保存する。
【0036】
<第3実施形態>
以下、本発明の視聴支援システム、視聴支援方法およびプログラムの第3実施形態について説明する。
第3実施形態の視聴支援システム1は、後述する点を除き、上述した第1実施形態の視聴支援システム1と同様に構成されている。従って、第3実施形態の視聴支援システム1によれば、後述する点を除き、上述した第1実施形態の視聴支援システム1と同様の効果を奏することができる。
【0037】
第3実施形態の視聴支援システム1では、振分部1Fは、ページめくり前キャプチャ画像(
図3に示す例では、時刻t1のキャプチャ画像)およびページめくり後キャプチャ画像(
図3に示す例では、時刻t4のキャプチャ画像)の一方である、またがり音声認識結果に対応する発話音声の開始時(つまり、例えばオンライン会議の発表者が喋り始めるタイミング)に視聴支援システム1の表示部1Aの第1表示画面に表示されているコンテンツのキャプチャ画像(発話音声開始時キャプチャ画像)に、またがり音声認識結果(例えば「ここまでは前ページの内容についてご説明しました。」というオンライン会議の発表者の発話音声の認識結果)を振り分ける。紐づけ保存部1Dは、またがり音声認識結果を発話音声開始時キャプチャ画像に紐づけて保存する。
【0038】
<第4実施形態>
以下、本発明の視聴支援システム、視聴支援方法およびプログラムの第4実施形態について説明する。
第4実施形態の視聴支援システム1は、後述する点を除き、上述した第1実施形態の視聴支援システム1と同様に構成されている。従って、第4実施形態の視聴支援システム1によれば、後述する点を除き、上述した第1実施形態の視聴支援システム1と同様の効果を奏することができる。
【0039】
図8は第4実施形態の視聴支援システム1の構成の一例を示す図である。
図8に示す例では、振分部1Fが、発話音声内容認識部1F1と、画像内容認識部1F2と、類似度算出部1F3とを備えている。
発話音声内容認識部1F1は、またがり音声認識結果(例えば「ここまでは〇〇についての説明でした。続いて××についての説明を行います。」というオンライン会議の発表者の発話音声の認識結果)に対応する発話音声の内容を認識する。
画像内容認識部1F2は、ページめくり前キャプチャ画像(
図3に示す例では、時刻t1のキャプチャ画像)の内容とページめくり後キャプチャ画像(
図3に示す例では、時刻t4のキャプチャ画像)の内容とを認識する。
類似度算出部1F3は、発話音声内容認識部1F1によって認識された発話音声の内容と画像内容認識部1F2によって認識されたページめくり前キャプチャ画像の内容との類似度である第1類似度を算出する。また、類似度算出部1F3は、発話音声内容認識部1F1によって認識された発話音声の内容と画像内容認識部1F2によって認識されたページめくり後キャプチャ画像の内容との類似度である第2類似度とを算出する。
【0040】
第1類似度が第2類似度より高い場合に、振分部1Fは、またがり音声認識結果をページめくり前キャプチャ画像に振り分ける。紐づけ保存部1Dは、またがり音声認識結果をページめくり前キャプチャ画像に紐づけて保存する。
一方、第1類似度が第2類似度より低い場合には、振分部1Fが、またがり音声認識結果をページめくり後キャプチャ画像に振り分ける。紐づけ保存部1Dは、またがり音声認識結果をページめくり後キャプチャ画像に紐づけて保存する。
【0041】
例えば、またがり音声認識結果が、「ここまでは〇〇についての説明でした。続いて××についての説明を行います。」というオンライン会議の発表者の発話音声の認識結果である例では、ページめくり検知部1Eが、「ここまでは〇〇についての説明でした。続いて××についての説明を行います。」の発話音声のどのタイミングでページめくりを検知しても、このまたがり音声認識結果は、第1類似度が第2類似度より高い場合にページめくり前キャプチャ画像に振り分けられ、第1類似度が第2類似度より低い場合にページめくり後キャプチャ画像に振り分けられる。
【0042】
<第5実施形態>
以下、本発明の視聴支援システム、視聴支援方法およびプログラムの第5実施形態について説明する。
第5実施形態の視聴支援システム1は、後述する点を除き、上述した第1実施形態の視聴支援システム1と同様に構成されている。従って、第5実施形態の視聴支援システム1によれば、後述する点を除き、上述した第1実施形態の視聴支援システム1と同様の効果を奏することができる。
【0043】
図9は第5実施形態の視聴支援システム1の構成の一例を示す図である。
図9に示す例では、振分部1Fが、キーワード判定部1F4を備えている。キーワード判定部1F4は、予め設定されたキーワード(例えば「ここまでは…」、「…でした」、「次に…」、「続いて…」など)がまたがり音声認識結果に対応する発話音声に含まれるか否かを判定する。
予め設定されたキーワードがまたがり音声認識結果に対応する発話音声に含まれるとキーワード判定部1F4によって判定された場合に、振分部1Fは、またがり音声認識結果に対応する発話音声に含まれるキーワードに基づいて、またがり音声認識結果をページめくり前キャプチャ画像(
図3に示す例では、時刻t1のキャプチャ画像)およびページめくり後キャプチャ画像(
図3に示す例では、時刻t4のキャプチャ画像)の一方に振り分ける。紐づけ保存部1Dは、またがり音声認識結果を振り分け先のキャプチャ画像に紐づけて保存する。
「ここまでは…」のキーワードが、またがり音声認識結果に対応する発話音声に含まれる場合、振分部1Fは、またがり音声認識結果をページめくり前キャプチャ画像(
図3に示す例では、時刻t1のキャプチャ画像)に振り分ける。
「…でした」のキーワードが、またがり音声認識結果に対応する発話音声に含まれる場合、振分部1Fは、またがり音声認識結果をページめくり前キャプチャ画像(
図3に示す例では、時刻t1のキャプチャ画像)に振り分ける。
「次に…」のキーワードが、またがり音声認識結果に対応する発話音声に含まれる場合、振分部1Fは、またがり音声認識結果をページめくり後キャプチャ画像(
図3に示す例では、時刻t4のキャプチャ画像)に振り分ける。
「続いて…」のキーワードが、またがり音声認識結果に対応する発話音声に含まれる場合、振分部1Fは、またがり音声認識結果をページめくり後キャプチャ画像(
図3に示す例では、時刻t4のキャプチャ画像)に振り分ける。
【0044】
<第6実施形態>
以下、本発明の視聴支援システム、視聴支援方法およびプログラムの第6実施形態について説明する。
第6実施形態の視聴支援システム1は、後述する点を除き、上述した第1実施形態の視聴支援システム1と同様に構成されている。従って、第6実施形態の視聴支援システム1によれば、後述する点を除き、上述した第1実施形態の視聴支援システム1と同様の効果を奏することができる。
【0045】
上述したように、第1実施形態の視聴支援システム1では、動画判定部1E1が、表示部1Aの第1表示画面に動画が表示されているか否かを判定する。
一方、第6実施形態の視聴支援システム1では、動画判定部1E1が、表示部1Aの第1表示画面に表示されるコンテンツの複数ページのそれぞれに動画が含まれるか否かを判定する。
【0046】
第6実施形態の視聴支援システム1では、動画が含まれないと動画判定部1E1によって判定されたページでは、ページめくり検知部1Eが、ページめくりを検知する機能を停止しない。
一方、動画が含まれると動画判定部1E1によって判定されたページでは、ページめくり検知部1Eが、ページめくりを検知する機能を停止する。その結果、ページめくりが行われたか否かの判定は、視聴支援システム1の利用者によって手動で行われる。また、キャプチャ画像生成部1Bは、視聴支援システム1の利用者の入力操作に応じて、表示部1Aの第1表示画面に表示されるコンテンツのキャプチャ画像を生成する。
【0047】
<第7実施形態>
以下、本発明の視聴支援システム、視聴支援方法およびプログラムの第7実施形態について説明する。
第7実施形態の視聴支援システム1は、後述する点を除き、上述した第1実施形態の視聴支援システム1と同様に構成されている。従って、第7実施形態の視聴支援システム1によれば、後述する点を除き、上述した第1実施形態の視聴支援システム1と同様の効果を奏することができる。
【0048】
上述したように、第1実施形態の視聴支援システム1では、表示部1Aの第1表示画面に動画が表示されていると動画判定部1E1によって判定された場合に、ページめくり検知部1Eは、ページめくりを検知する機能を停止する。
一方、第7実施形態の視聴支援システム1では、表示部1Aの第1表示画面に動画が表示されていると動画判定部1E1によって判定された場合に、ページめくり検知部1Eは、表示部1Aの第1表示画面に含まれる動画の部分を除外してページめくりを検知する。
【0049】
図10は動画判定部1E1の動画エリア判定アルゴリズムの一例を説明するための図である。
図10に示す例では、動画判定部1E1が、表示部1Aの第1表示画面に含まれる動画の部分(動画エリア)を判定するために、第1表示画面を一定の大きさの複数のウィンドウに区切る。
図10に示す例では、表示部1Aの第1表示画面に含まれる動画エリアを判定するために、
図4に示す例と同様に、例えば1/30秒間隔で取得される動画のフレームが用いられる。
具体的には、
図10に示す例では、動画判定部1E1が、所定時刻に表示部1Aの第1表示画面の所定のウィンドウ内に表示される画像と、所定時刻の1/30秒後に表示部1Aの第1表示画面のそのウィンドウ内に表示される画像とを比較し、変化量を計算する。
図10に示す例における変化量の計算は、例えば、
図3に示す例において用いられるアルゴリズムと同様のアルゴリズムを用いることによって行われる。
動画判定部1E1は、表示部1Aの第1表示画面のうち、変化したウィンドウが含まれるエリアを動画エリアと判定する。
第7実施形態の視聴支援システム1では、実際にはページめくりが行われていないにもかかわらず、動画エリアの表示状態が変化したためにページめくりが行われたとページめくり検知部1Eによって誤って検知されるおそれを低減することができる。
【0050】
また、第7実施形態の視聴支援システム1では、動画判定部1E1が、表示部1Aの第1表示画面に人物が表示されているか否かを判定する機能を有する。人物が第1表示画面に表示されているか否かを判定する技術として、例えば一般に用いられている技術が用いられる。
表示部1Aの第1表示画面に人物が表示されていると動画判定部1E1によって判定された場合に、ページめくり検知部1Eは、表示部1Aの第1表示画面に含まれる人物の部分を除外してページめくりを検知する。
【0051】
<第8実施形態>
以下、本発明の視聴支援システム、視聴支援方法およびプログラムの第8実施形態について説明する。
第8実施形態の視聴支援システム1は、後述する点を除き、上述した第1実施形態の視聴支援システム1と同様に構成されている。従って、第8実施形態の視聴支援システム1によれば、後述する点を除き、上述した第1実施形態の視聴支援システム1と同様の効果を奏することができる。
【0052】
上述したように、第1実施形態の視聴支援システム1では、ページめくり検知部1Eが、変化量(例えば、上述した差分の和)と第1閾値とを比較し、変化量が第1閾値を上回る場合に、ページめくりが行われたと判定する。
一方、表示部1Aの第1表示画面に表示される複数ページを有するコンテンツが、議事録(変化のスピードが遅いため、単位時間当たりの変化量が小さい)、アニメーション(ページの一部のみが変化するため、ページ全体の変化量が小さい値になる)等である場合には、変化量が第1閾値を上回らず、ページめくりが行われたとページめくり検知部1Eによって判定されづらくなるおそれがある。その結果、必要なキャプチャ画像が紐づけ保存部1Dによって保存されないおそれがある。
そこで、第8実施形態の視聴支援システム1では、後述する対策が施されている。
【0053】
第8実施形態の視聴支援システム1では、上述した第1実施形態の視聴支援システム1と同様に、キャプチャ画像生成部1Bは、コンテンツが表示部1Aの第1表示画面に表示されている期間中、予め設定されたキャプチャ画像生成インターバル(例えば3秒間隔など)で複数のキャプチャ画像を生成する。
つまり、第8実施形態の視聴支援システム1では、キャプチャ画像生成部1Bが、第1時点(
図3に示す例では、時刻t3)に表示部1Aの第1表示画面に表示されるコンテンツのキャプチャ画像として第1キャプチャ画像(
図3に示す例では、時刻t3のキャプチャ画像)を生成する。
また、キャプチャ画像生成部1Bは、第1時点から予め設定されたキャプチャ画像生成インターバル(例えば3秒間隔など)が経過した時点である第2時点(
図3に示す例では、時刻t4)に表示部1Aの第1表示画面に表示されるコンテンツのキャプチャ画像として第2キャプチャ画像(
図3に示す例では、時刻t4のキャプチャ画像)を生成する。
【0054】
第8実施形態の視聴支援システム1では、第1キャプチャ画像(
図3に示す例では、時刻t3のキャプチャ画像)に対する第2キャプチャ画像(
図3に示す例では、時刻t4のキャプチャ画像)の変化量が第1閾値を超える場合に、第1実施形態の視聴支援システム1と同様に、ページめくり検知部1Eが、ページめくりを検知する。
第8実施形態の視聴支援システム1では、第1実施形態の視聴支援システム1とは異なり、第1キャプチャ画像に対する第2キャプチャ画像の変化量が第1閾値を超える場合に、紐づけ保存部1Dが、ページめくり検知部1Eによるページめくりの検知結果(
図3に示す例では、ページめくりのタイミングが時刻t3と時刻t4との間のタイミングであること)に基づいて、第2キャプチャ画像に音声認識結果を紐づけて保存するのみならず、第1キャプチャ画像も音声認識結果を紐づけて保存する。
【0055】
図11は第8実施形態の視聴支援システム1の適用例であって、表示部1Aの第1表示画面に表示されるコンテンツのページに議事録が含まれる例について説明するための図である。詳細には、
図11(A)は表示部1Aの第1表示画面を示しており、
図11(B)は表示部1Aの第1表示画面の変化量(
図11(B)の縦軸)と時間(
図11(B)の横軸)との関係を示している。
図11に示す例では、時刻t11に、表示部1Aの第1表示画面に表示されるコンテンツのページが、図示しないページから、
図11(A)に示すページ(詳細には、時刻t11には、
図11(A)に示す「1行目」~「6行目」は、表示部1Aの第1表示画面にまだ表示されていない。)に切り替わる。そのため、表示部1Aの第1表示画面の変化量が第1閾値より大きくなり、ページめくり検知部1Eがページめくりを検知する。その結果、紐づけ保存部1Dは、キャプチャ画像生成部1Bによって生成されたキャプチャ画像(
図11(A)に示す「議事録」の文字のみがキャプチャされたキャプチャ画像)に音声認識結果を紐づけて保存する。
次いで、時刻t12には、
図11(A)に示す議事録のうちの「1行目」が表示部1Aの第1表示画面に表示される。そのため、
図11(A)に示す「議事録」の文字のみがキャプチャされたキャプチャ画像に対するキャプチャ画像(「議事録」の文字および「1行目」がキャプチャされたキャプチャ画像)の変化量が増加する。
次いで、時刻t13には、
図11(A)に示す議事録のうちの「1行目」および「2行目」が表示部1Aの第1表示画面に表示される。そのため、
図11(A)に示す「議事録」の文字のみがキャプチャされたキャプチャ画像に対するキャプチャ画像(「議事録」の文字、「1行目」および「2行目」がキャプチャされたキャプチャ画像)の変化量が更に増加する。
【0056】
次いで、時刻t14には、
図11(A)に示す議事録のうちの「1行目」、「2行目」および「3行目」が表示部1Aの第1表示画面に表示される。そのため、
図11(A)に示す「議事録」の文字のみがキャプチャされたキャプチャ画像に対するキャプチャ画像(「議事録」の文字、「1行目」、「2行目」および「3行目」がキャプチャされたキャプチャ画像)の変化量が更に増加する。
次いで、時刻t15には、
図11(A)に示す議事録のうちの「1行目」、「2行目」、「3行目」および「4行目」が表示部1Aの第1表示画面に表示される。そのため、
図11(A)に示す「議事録」の文字のみがキャプチャされたキャプチャ画像に対するキャプチャ画像(「議事録」の文字、「1行目」、「2行目」、「3行目」および「4行目」がキャプチャされたキャプチャ画像)の変化量が更に増加すると共に、第1閾値より大きくなり、ページめくり検知部1Eがページめくりを検知する。その結果、紐づけ保存部1Dは、キャプチャ画像生成部1Bによって生成されたキャプチャ画像(
図11(A)に示す議事録のうちの「1行目」、「2行目」、「3行目」および「4行目」を含むキャプチャ画像)に音声認識結果を紐づけて保存する。
また、ページめくり検知部1Eがページめくりを検知したため、表示部1Aの第1表示画面の変化量がゼロになる(リセットされる)。
【0057】
次いで、時刻t16には、
図11(A)に示す議事録のうちの「1行目」、「2行目」、「3行目」、「4行目」および「5行目」が表示部1Aの第1表示画面に表示される。そのため、
図11(A)に示す「議事録」の文字、「1行目」、「2行目」、「3行目」および「4行目」がキャプチャされたキャプチャ画像に対するキャプチャ画像(「議事録」の文字、「1行目」、「2行目」、「3行目」、「4行目」および「5行目」がキャプチャされたキャプチャ画像)の変化量が増加する。
次いで、時刻t17には、
図11(A)に示す議事録のうちの「1行目」、「2行目」、「3行目」、「4行目」、「5行目」および「6行目」が表示部1Aの第1表示画面に表示される。そのため、
図11(A)に示す「議事録」の文字、「1行目」、「2行目」、「3行目」および「4行目」がキャプチャされたキャプチャ画像に対するキャプチャ画像(「議事録」の文字、「1行目」、「2行目」、「3行目」、「4行目」、「5行目」および「6行目」がキャプチャされたキャプチャ画像)の変化量が更に増加するものの、第1閾値より小さい。
次いで、時刻t18に、表示部1Aの第1表示画面に表示されるコンテンツのページが、
図11(A)に示すページから、図示しないページに切り替わる。そのため、表示部1Aの第1表示画面の変化量が第1閾値より大きくなり、ページめくり検知部1Eがページめくりを検知する。その結果、紐づけ保存部1Dは、キャプチャ画像生成部1Bによって生成されたキャプチャ画像(
図11には図示せず)に音声認識結果を紐づけて保存する。
【0058】
詳細には、第8実施形態の視聴支援システム1が適用された
図11に示す例では、紐づけ保存部1Dが、ページめくり検知部1Eによるページめくりの検知結果(
図11に示す例では、ページめくりのタイミングが時刻t15のタイミングであること)に基づいて、
図11(A)に示す議事録のうちの「1行目」、「2行目」、「3行目」および「4行目」を含むキャプチャ画像に音声認識結果を紐づけて保存するのみならず、
図11(A)に示す議事録のうちの「1行目」、「2行目」および「3行目」を含むキャプチャ画像も音声認識結果を紐づけて保存する。
また、紐づけ保存部1Dが、ページめくり検知部1Eによるページめくりの検知結果(
図11に示す例では、ページめくりのタイミングが時刻t18のタイミングでもあること)に基づいて、時刻t18にキャプチャ画像生成部1Bによって生成されたキャプチャ画像(
図11には図示せず)に音声認識結果を紐づけて保存するのみならず、
図11(A)に示す議事録のうちの「1行目」、「2行目」、「3行目」、「4行目」、「5行目」および「6行目」を含むキャプチャ画像も音声認識結果を紐づけて保存する。
【0059】
<第9実施形態>
以下、本発明の視聴支援システム、視聴支援方法およびプログラムの第9実施形態について説明する。
第9実施形態の視聴支援システム1は、後述する点を除き、上述した第1実施形態の視聴支援システム1と同様に構成されている。従って、第9実施形態の視聴支援システム1によれば、後述する点を除き、上述した第1実施形態の視聴支援システム1と同様の効果を奏することができる。
【0060】
図12は第9実施形態の視聴支援システム1の構成の一例を示す図である。
図12に示す例では、ページめくり検知部1Eが、動画判定部1E1と、文字列エリア判定部1E2とを備えている。
文字列エリア判定部1E2は、キャプチャ画像生成部1Bによって生成された複数のキャプチャ画像のそれぞれに含まれる文字数を算出する機能を有する。画像に含まれる文字数を算出する技術として、例えば一般に用いられている技術が用いられる。
図11に示す例では、文字列エリア判定部1E2が、
図11(A)に示す「議事録」の文字のみがキャプチャされたキャプチャ画像に含まれる文字数と、「議事録」の文字および「1行目」がキャプチャされたキャプチャ画像に含まれる文字数と、「議事録」の文字、「1行目」および「2行目」がキャプチャされたキャプチャ画像に含まれる文字数と、「議事録」の文字、「1行目」、「2行目」および「3行目」がキャプチャされたキャプチャ画像に含まれる文字数と、「議事録」の文字、「1行目」、「2行目」、「3行目」および「4行目」がキャプチャされたキャプチャ画像に含まれる文字数と、「議事録」の文字、「1行目」、「2行目」、「3行目」、「4行目」および「5行目」がキャプチャされたキャプチャ画像に含まれる文字数と、「議事録」の文字、「1行目」、「2行目」、「3行目」、「4行目」、「5行目」および「6行目」がキャプチャされたキャプチャ画像に含まれる文字数とを算出する。
【0061】
図12に示す例では、文字列エリア判定部1E2が、キャプチャ画像生成部1Bによって生成された複数のキャプチャ画像から、含まれる文字数が最も多いキャプチャ画像を選択する機能を有する。
図11に示す例では、文字列エリア判定部1E2は、含まれる文字数が最も多いキャプチャ画像として、「議事録」の文字、「1行目」、「2行目」、「3行目」、「4行目」、「5行目」および「6行目」がキャプチャされたキャプチャ画像を選択する。
【0062】
図12に示す例では、紐づけ保存部1Dは、文字列エリア判定部1E2によって選択されたキャプチャ画像に音声認識結果を紐づけて保存する。
図11に示す例では、紐づけ保存部1Dは、「議事録」の文字、「1行目」、「2行目」、「3行目」、「4行目」、「5行目」および「6行目」がキャプチャされたキャプチャ画像に音声認識結果を紐づけて保存する。
【0063】
第9実施形態の視聴支援システム1は、キャプチャ画像生成部1Bによって生成されたキャプチャ画像が、作成中の議事録をキャプチャしたキャプチャ画像であることを判定する機能を備えていてもよい。
この例では、視聴支援システム1は、キャプチャ画像生成部1Bによって生成されたキャプチャ画像を光学文字認識(OCR)することによって、文字エリアを抽出する。
視聴支援システム1は、抽出される文字エリアが時間の経過に伴って徐々に増加する場合に、キャプチャ画像生成部1Bによって生成されたキャプチャ画像が、作成中の議事録をキャプチャしたキャプチャ画像であると判定する。
【0064】
第9実施形態の視聴支援システム1は、キャプチャ画像生成部1Bによって生成されたキャプチャ画像に基づいて、表示部1Aの第1表示画面がスクロールしていることを判定する機能を備えていてもよい。
【0065】
図13は第9実施形態の視聴支援システム1のスクロール判定機能の一例を説明するための図である。
図13に示す例では、視聴支援システム1が、時刻t21にキャプチャ画像生成部1Bによって生成されたキャプチャ画像(
図13(A)に示すキャプチャ画像)と、時刻t22にキャプチャ画像生成部1Bによって生成されたキャプチャ画像(
図13(B)に示すキャプチャ画像)と、時刻t23にキャプチャ画像生成部1Bによって生成されたキャプチャ画像(
図13(C)に示すキャプチャ画像)とでマッチする部分として、「3行目と4行目との間の部分」を抽出する。
視聴支援システム1は、マッチする部分「3行目と4行目との間の部分」が上下に移動しているため、「上下スクロール」と判定する。
例えばマッチする部分が左右に移動している場合には、視聴支援システム1が「左右スクロール」と判定する。
【0066】
図13に示す例では、時刻t21にキャプチャ画像生成部1Bによって生成されたキャプチャ画像(
図13(A)に示すキャプチャ画像)と、時刻t22にキャプチャ画像生成部1Bによって生成されたキャプチャ画像(
図13(B)に示すキャプチャ画像)とでマッチする部分「2行目~4行目の部分」がキャプチャ画像全体に占める割合が、第3閾値以上であるため、時刻t22に、ページめくり検知部1Eは、ページめくりが行われたと検知しない。
時刻t21にキャプチャ画像生成部1Bによって生成されたキャプチャ画像(
図13(A)に示すキャプチャ画像)と、時刻t23にキャプチャ画像生成部1Bによって生成されたキャプチャ画像(
図13(C)に示すキャプチャ画像)とでマッチする部分「3行目と4行目との間の部分」がキャプチャ画像全体に占める割合が、第3閾値未満であるため、時刻t23に、ページめくり検知部1Eは、ページめくりが行われたと検知し、紐づけ保存部1Dは、時刻t23にキャプチャ画像生成部1Bによって生成されたキャプチャ画像に音声認識結果を紐づけて保存する。
図13に示す例では、紐づけ保存部1Dによって必要以上のキャプチャ画像が保存されてしまうことを抑制しつつ、表示部1Aの第1表示画面に表示されるデータを適切に(漏れなく)キャプチャ画像として保存することができる。
【0067】
<第10実施形態>
以下、本発明の視聴支援システム、視聴支援方法およびプログラムの第10実施形態について説明する。
第10実施形態の視聴支援システム1は、後述する点を除き、上述した第1実施形態の視聴支援システム1と同様に構成されている。従って、第10実施形態の視聴支援システム1によれば、後述する点を除き、上述した第1実施形態の視聴支援システム1と同様の効果を奏することができる。
【0068】
図14は第10実施形態の視聴支援システム1の構成の一例を示す図である。
上述したように、
図1に示す例では、紐づけ保存部1Dが、記録ページ生成部1D1と、記録ページ削除部1D2とを備えている。
一方、
図14に示す例では、紐づけ保存部1Dが、記録ページ生成部1D1と、記録ページ変更部1D3とを備えている。
【0069】
図14に示す例では、記録ページ生成部1D1は、紐づけ保存部1Dによって保存されるキャプチャ画像に音声認識結果が紐づけられたものである保存ページの候補として、キャプチャ画像生成部1Bによって生成された複数のキャプチャ画像(
図3に示す例では、時刻t1に生成されたキャプチャ画像、および、時刻t4に生成されたキャプチャ画像)に音声認識結果がそれぞれ紐づけられたものである複数の記録ページを生成する。
【0070】
図14に示す例では、記録ページ変更部1D3が、記録ページ生成部1D1によって生成された複数の記録ページの一部を変更する機能を有する。
記録ページ変更部1D3が複数の記録ページの一部を変更する場合に、紐づけ保存部1Dは、変更される記録ページを構成するキャプチャ画像を空白画像に変更する。更に、紐づけ保存部1Dは、変更される記録ページを構成するキャプチャ画像に紐づけられていた音声認識結果を、空白画像に紐づけ、保存ページとして保存する。
つまり、
図14に示す例では、キャプチャ画像生成部1Bによって生成されたキャプチャ画像を保存する必要がない場合に、保存する必要がないキャプチャ画像が空白画像に変換される。更に、保存する必要がないキャプチャ画像に紐づけられていた音声認識結果が、空白画像に紐づけられ、保存ページとして保存される。
そのため、
図14に示す例では、例えばプレゼンテーション資料の最初のページなど、前後に結合するページが無い場合であっても、そのページ(例えば最初のページ)が表示されていた時の音声の認識結果を保存することができる。
【0071】
<第11実施形態>
以下、本発明の視聴支援システム、視聴支援方法およびプログラムの第11実施形態について説明する。
第11実施形態の視聴支援システム1は、後述する点を除き、上述した第1実施形態の視聴支援システム1と同様に構成されている。従って、第11実施形態の視聴支援システム1によれば、後述する点を除き、上述した第1実施形態の視聴支援システム1と同様の効果を奏することができる。
【0072】
図15は第11実施形態の視聴支援システム1の構成の一例を示す図である。
上述したように、
図1に示す例では、紐づけ保存部1Dが、記録ページ生成部1D1と、記録ページ削除部1D2とを備えている。
一方、
図15に示す例では、紐づけ保存部1Dが、記録ページ生成部1D1と、記録ページ削除部1D2と、光学文字認識部1D4とを備えている。
【0073】
図15に示す例では、記録ページ生成部1D1は、紐づけ保存部1Dによって保存されるキャプチャ画像に音声認識結果が紐づけられたものである保存ページの候補として、キャプチャ画像生成部1Bによって生成された複数のキャプチャ画像(
図3に示す例では、時刻t1に生成されたキャプチャ画像、および、時刻t4に生成されたキャプチャ画像)に音声認識結果がそれぞれ紐づけられたものである複数の記録ページを生成する。記録ページ削除部1D2は、記録ページ生成部1D1によって生成された複数の記録ページの一部を削除する機能を有する。
図15に示す例では、記録ページ削除部1D2が複数の記録ページの一部を削除する場合に、光学文字認識部1D4は、削除される記録ページを構成するキャプチャ画像の生成時点よりも前の生成時点にキャプチャ画像生成部1Bによって生成された、削除されない記録ページを構成するキャプチャ画像である前キャプチャ画像の光学文字認識を行う。更に、光学文字認識部1D4は、削除される記録ページを構成するキャプチャ画像の生成時点よりも後の生成時点にキャプチャ画像生成部1Bによって生成された、削除されない記録ページを構成するキャプチャ画像である後キャプチャ画像の光学文字認識を行う。
【0074】
紐づけ保存部1Dは、前キャプチャ画像の光学文字認識結果と、削除される記録ページを構成するキャプチャ画像に紐づけられていた音声認識結果との類似度(第1類似度)を算出する。
また、紐づけ保存部1Dは、後キャプチャ画像の光学文字認識結果と、削除される記録ページを構成するキャプチャ画像に紐づけられていた音声認識結果との類似度(第2類似度)を算出する。
更に、紐づけ保存部1Dは、第1類似度と第2類似度とに基づいて、削除される記録ページを構成するキャプチャ画像に紐づけられていた音声認識結果を、前キャプチャ画像および後キャプチャ画像のいずれかに紐づけ、保存ページとして保存する。
【0075】
<第12実施形態>
以下、本発明の視聴支援システム、視聴支援方法およびプログラムの第12実施形態について説明する。
第12実施形態の視聴支援システム1は、後述する点を除き、上述した第1実施形態の視聴支援システム1と同様に構成されている。従って、第12実施形態の視聴支援システム1によれば、後述する点を除き、上述した第1実施形態の視聴支援システム1と同様の効果を奏することができる。
【0076】
第12実施形態の視聴支援システム1は、オンライン会議アプリの機能を有さず、紐づけて保存する機能を有する端末装置である。
上述したように第1実施形態の視聴支援システム1は通信部11を備えているが、第12実施形態の視聴支援システム1は通信部11を備えていない。
第12実施形態の視聴支援システム1は、端末装置(PC(パーソナルコンピュータ))の操作方法を記録して端末装置のマニュアルを作成する機能を有する。
第12実施形態の視聴支援システム1の利用者が端末装置の所定の操作を実行し、キャプチャ画像生成部1Bは、その時のウィンドウのキャプチャ画像を生成する(つまり、キャプチャ画像生成部1Bは、その時の表示部1Aの第1表示画面のキャプチャ画像を生成する)。
また、第12実施形態の視聴支援システム1の利用者がその操作を口頭で説明し、音声認識部1Cは、音声(視聴支援システム1の利用者の発話音声)を認識し、音声認識結果を出力する。
紐づけ保存部1Dは、音声認識部1Cによる音声認識結果を、キャプチャ画像生成部1Bによって生成されたキャプチャ画像に紐づけて保存する。
【0077】
<第13実施形態>
以下、本発明の視聴支援システム、視聴支援方法およびプログラムの第13実施形態について説明する。
第13実施形態の視聴支援システム1は、後述する点を除き、上述した第1実施形態の視聴支援システム1と同様に構成されている。従って、第12実施形態の視聴支援システム1によれば、後述する点を除き、上述した第1実施形態の視聴支援システム1と同様の効果を奏することができる。
【0078】
第13実施形態の視聴支援システム1は、オンライン会議アプリの機能を有さず、紐づけて保存する機能を有する端末装置である。
上述したように第1実施形態の視聴支援システム1は通信部11を備えているが、第13実施形態の視聴支援システム1は通信部11を備えていない。
第13実施形態の視聴支援システム1は、視聴支援システム1の利用者による端末装置(PC)の操作記録を作成する機能を有する。
第13実施形態の視聴支援システム1の利用者が端末装置の所定の操作を実行し、キャプチャ画像生成部1Bは、その時のウィンドウのキャプチャ画像を生成する(つまり、キャプチャ画像生成部1Bは、その時の表示部1Aの第1表示画面のキャプチャ画像を生成する)。
第13実施形態の視聴支援システム1の利用者は、必要に応じてその操作を口頭で説明し、音声認識部1Cは、音声(視聴支援システム1の利用者の発話音声)を認識し、音声認識結果を出力する。
紐づけ保存部1Dは、音声認識部1Cによる音声認識結果を、キャプチャ画像生成部1Bによって生成されたキャプチャ画像に紐づけて保存する(視聴支援システム1の利用者が発話を行わず、音声認識結果が存在しない場合には、キャプチャ画像のみを保存する)。
【0079】
以上説明した少なくともひとつの実施形態によれば、視聴支援システム1は、表示部1Aと、キャプチャ画像生成部1Bと、音声認識部1Cと、紐づけ保存部1Dとを持つ。表示部1Aは、複数ページを有するコンテンツを表示可能な表示画面(第1表示画面)を有する。キャプチャ画像生成部1Bは、表示画面(第1表示画面)に表示されるコンテンツのキャプチャ画像を生成する。音声認識部1Cは、コンテンツに含まれる音声を認識する。紐づけ保存部1Dは、音声認識部1Cによってコンテンツに含まれる音声が認識された結果である音声認識結果を、キャプチャ画像生成部1Bによって生成されたキャプチャ画像に紐づけて保存する。それにより、表示されるコンテンツを簡単かつ適切に記録することができる。
【0080】
なお、上述した実施形態(変形例を含む)における視聴支援システム1の少なくとも一部の機能をコンピュータで実現するようにしても良い。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM、DVD-ROM、USBメモリ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
【0081】
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。
【符号の説明】
【0082】
1…視聴支援システム、1A…表示部、1B…キャプチャ画像生成部、1C…音声認識部、1D…紐づけ保存部、1D1…記録ページ生成部、1D2…記録ページ削除部、1D3…記録ページ変更部、1D4…光学文字認識部、1E…ページめくり検知部、1E1…動画判定部、1E2…文字列エリア判定部、1F…振分部、1F1…発話音声内容認識部、1F2…画像内容認識部、1F3…類似度算出部、1F4…キーワード判定部、11…通信部、12…処理部、13…入力部、14…出力部