IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ レノボ・シンガポール・プライベート・リミテッドの特許一覧

<>
  • 特許-情報処理装置、及び制御方法 図1
  • 特許-情報処理装置、及び制御方法 図2
  • 特許-情報処理装置、及び制御方法 図3
  • 特許-情報処理装置、及び制御方法 図4
  • 特許-情報処理装置、及び制御方法 図5
  • 特許-情報処理装置、及び制御方法 図6
  • 特許-情報処理装置、及び制御方法 図7
  • 特許-情報処理装置、及び制御方法 図8
  • 特許-情報処理装置、及び制御方法 図9
  • 特許-情報処理装置、及び制御方法 図10
  • 特許-情報処理装置、及び制御方法 図11
  • 特許-情報処理装置、及び制御方法 図12
  • 特許-情報処理装置、及び制御方法 図13
  • 特許-情報処理装置、及び制御方法 図14
  • 特許-情報処理装置、及び制御方法 図15
  • 特許-情報処理装置、及び制御方法 図16
  • 特許-情報処理装置、及び制御方法 図17
  • 特許-情報処理装置、及び制御方法 図18
  • 特許-情報処理装置、及び制御方法 図19
  • 特許-情報処理装置、及び制御方法 図20
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-05-30
(45)【発行日】2023-06-07
(54)【発明の名称】情報処理装置、及び制御方法
(51)【国際特許分類】
   H04L 67/125 20220101AFI20230531BHJP
   H04N 7/15 20060101ALI20230531BHJP
【FI】
H04L67/125
H04N7/15
【請求項の数】 24
(21)【出願番号】P 2021170983
(22)【出願日】2021-10-19
(65)【公開番号】P2023061165
(43)【公開日】2023-05-01
【審査請求日】2021-10-19
(73)【特許権者】
【識別番号】505205731
【氏名又は名称】レノボ・シンガポール・プライベート・リミテッド
(74)【代理人】
【識別番号】100161207
【弁理士】
【氏名又は名称】西澤 和純
(74)【代理人】
【識別番号】100169764
【弁理士】
【氏名又は名称】清水 雄一郎
(74)【代理人】
【識別番号】100175824
【弁理士】
【氏名又は名称】小林 淳一
(74)【代理人】
【識別番号】100206081
【弁理士】
【氏名又は名称】片岡 央
(72)【発明者】
【氏名】牧 耕太郎
(72)【発明者】
【氏名】小山 翔平
【審査官】木村 雅也
(56)【参考文献】
【文献】特開2008-017050(JP,A)
【文献】特開2013-115457(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04L 67/125
H04N 7/15
(57)【特許請求の範囲】
【請求項1】
ネットワークを介して他の情報処理装置から受信した映像データを一時的に記憶するメモリと、
前記メモリに記憶された映像データに基づく処理を実行するプロセッサと、を備え、
前記プロセッサは、
前記他の情報処理装置から受信して前記メモリに記憶された映像データの映像が表示される表示部の画面領域のうち前記映像の少なくとも一部が含まれる画面領域を、所定時間ごとに静止画ファイルとしてキャプチャするキャプチャ処理と、
前記キャプチャ処理による前記所定時間ごとのキャプチャを継続しながら、前記キャプチャ処理によりキャプチャされた一連の静止画ファイルのうちの少なくとも一部の画像の中から文字認識された文字情報を取得し、前記画像ごとの前記文字情報を保存する文字情報取得処理と、
前記キャプチャ処理による前記所定時間ごとのキャプチャを継続しながら、前記一部の画像を前記文字情報と関連付けて前記表示部に表示させる表示制御処理と、
を行う情報処理装置。
【請求項2】
前記プロセッサは、
前記文字情報取得処理において、前記文字情報として、前記一部の画像の中から文字認識された文字のデータ及び当該文字が認識された位置のデータを取得し、
前記表示制御処理において、前記一部の画像を前記文字情報と関連付けて前記表示部に表示させる際に、画像内で文字が認識された位置を特定の表示態様で表示させる、
請求項に記載の情報処理装置。
【請求項3】
前記プロセッサは、
前記表示制御処理により前記表示部に表示させた画像内の文字が認識された位置に対するユーザの操作に基づいて、前記認識された文字を提供する提供処理を行う、
請求項に記載の情報処理装置。
【請求項4】
前記プロセッサは、
前記提供処理において、前記認識された文字をコピー可能なように提供する、
請求項に記載の情報処理装置。
【請求項5】
前記プロセッサは、
前記提供処理において、前記認識された文字をブラウザで検索可能なように提供する、
請求項に記載の情報処理装置。
【請求項6】
前記プロセッサは、
前記提供処理において、前記認識された文字がURL(Uniform Resource Locator)を示している場合、当該URLで特定されるリソースを前記表示部に表示可能なように提供する、
請求項に記載の情報処理装置。
【請求項7】
前記プロセッサは、
前記表示制御処理において、前記キャプチャ処理によりキャプチャされた一連の静止画ファイルのそれぞれをキャプチャ順に対応して選択可能なユーザインタフェースを前記表示部に表示させるとともに、当該ユーザインタフェースに対するユーザの操作に応じて選択された静止画ファイルの画像を前記表示部に表示させる、
請求項から請求項のいずれか一項に記載の情報処理装置。
【請求項8】
前記プロセッサは、
前記キャプチャ処理において、前記表示部の画面領域のうち前記映像内の特定領域をキャプチャする、
請求項1から請求項のいずれか一項に記載の情報処理装置。
【請求項9】
前記プロセッサは、
前記キャプチャ処理によりキャプチャされる度に、今回キャプチャされた静止画ファイルの画像を以前にキャプチャされた静止画ファイルの画像と比較して類似性を判定する類似性判定処理をさらに行い、
前記類似性判定処理により以前にキャプチャされた静止画ファイルの画像との類似度が所定の閾値以上であると判定された静止画ファイルの画像を、前記文字情報取得処理により前記文字情報を取得する対象及び前記表示制御処理により前記表示部に表示させる表示対象から除外する、
請求項に記載の情報処理装置。
【請求項10】
前記プロセッサは、
前記キャプチャ処理において、前記他の情報処理装置から受信した映像データが録画された動画ファイルの録画開始から録画終了までの期間の中で、前記所定時間ごとのキャプチャを行い、
前記文字情報取得処理により取得した文字情報と前記動画ファイルとをさらに関連付ける関連付け処理をさらに行う、
請求項1から請求項のいずれか一項に記載の情報処理装置。
【請求項11】
前記プロセッサは、
前記文字情報取得処理により取得した前記文字情報に含まれる文字の中からキーワードを抽出するキーワード抽出処理をさらに行い、
前記関連付け処理において、前記キーワードと前記動画ファイルとを関連付ける、
請求項10に記載の情報処理装置。
【請求項12】
前記プロセッサは、
前記関連付け処理において、前記キーワードを前記動画ファイルのメタデータに保存することにより、前記キーワードと前記動画ファイルとを関連付ける、
請求項11に記載の情報処理装置。
【請求項13】
前記プロセッサは、
前記関連付け処理において、前記動画ファイルと、前記動画ファイルの録画開始から前記静止画ファイルごとのキャプチャまでの経過時間と、前記静止画ファイルごとの画像の中から文字認識された前記文字情報に含まれる文字とを関連付けた関連付けデータを生成する、
請求項10に記載の情報処理装置。
【請求項14】
前記プロセッサは、
前記文字情報取得処理により取得した前記文字情報に含まれる文字の中からキーワードを抽出するキーワード抽出処理をさらに行い、
前記関連付け処理において、前記動画ファイルと、前記動画ファイルの録画開始から前記静止画ファイルごとのキャプチャまでの経過時間と、前記静止画ファイルごとの画像の中から文字認識された前記文字情報に含まれる前記キーワードとを関連付けた関連付けデータを生成する、
請求項10に記載の情報処理装置。
【請求項15】
前記メモリは、さらに、前記ネットワークを介して前記他の情報処理装置から受信した映像データに関連付けられた音声データを一時的に記憶し、
前記プロセッサは、
前記キャプチャ処理において、前記他の情報処理装置から受信して前記メモリに記憶された映像データの映像と音声データが文字化された字幕とが表示される前記表示部の画面領域のうち前記字幕が表示される画面領域を、前記所定時間ごとに静止画ファイルとしてさらにキャプチャし、
前記文字情報取得処理において、前記キャプチャ処理によりキャプチャされた一連の静止画ファイルのうちの少なくとも一部の画像に含まれる前記字幕の一部が文字認識された前記文字情報を取得し、前記画像ごとの前記文字情報を保存する、
請求項に記載の情報処理装置。
【請求項16】
ネットワークを介して他の情報処理装置から受信した映像データと前記ネットワークを介して前記他の情報処理装置から受信した映像データに関連付けられた音声データとを一時的に記憶するメモリと、
前記メモリに記憶された映像データに基づく処理を実行するプロセッサと、を備え、
前記プロセッサは、
前記他の情報処理装置から受信して前記メモリに記憶された映像データの映像が表示される表示部の画面領域のうち前記映像の少なくとも一部が含まれる画面領域を、所定時間ごとに静止画ファイルとしてキャプチャするキャプチャ処理と、
前記キャプチャ処理による前記所定時間ごとのキャプチャを継続しながら、前記キャプチャ処理によりキャプチャされた一連の静止画ファイルのうちの少なくとも一部の画像の中から文字認識された文字情報を取得し、前記画像ごとの前記文字情報を保存する文字情報取得処理と、
を行い、
前記キャプチャ処理において、前記他の情報処理装置から受信して前記メモリに記憶された映像データの映像と音声データが文字化された字幕とが表示される前記表示部の画面領域のうち前記字幕が表示される画面領域を、前記所定時間ごとに静止画ファイルとしてさらにキャプチャし、
前記文字情報取得処理において、前記キャプチャ処理によりキャプチャされた一連の静止画ファイルのうちの少なくとも一部の画像に含まれる前記字幕の一部が文字認識された前記文字情報を取得し、前記画像ごとの前記文字情報を保存する、
報処理装置。
【請求項17】
前記プロセッサは、
前記文字情報取得処理により取得した前記画像ごとの前記字幕の一部が文字認識された前記文字情報を前記画像のキャプチャ順にまとめた一つのデータファイルを生成するファイル生成処理をさらに行う、
請求項15または請求項16に記載の情報処理装置。
【請求項18】
前記プロセッサは、
前記キャプチャ処理において、前記他の情報処理装置から受信した映像データが録画された動画ファイルの録画開始から録画終了までの期間の中で、前記所定時間ごとのキャプチャを行い、
前記文字情報取得処理により取得した文字情報と前記動画ファイルとをさらに関連付ける関連付け処理をさらに行う、
請求項15または請求項16に記載の情報処理装置。
【請求項19】
前記プロセッサは、
前記関連付け処理において、前記動画ファイルと、前記動画ファイルの録画開始から前記静止画ファイルごとのキャプチャまでの経過時間と、前記静止画ファイルごとの画像の中から文字認識された前記文字情報に含まれる文字とを関連付けた関連付けデータを生成する、
請求項18に記載の情報処理装置。
【請求項20】
ネットワークを介して他の情報処理装置から受信した音声データを一時的に記憶するメモリと、
前記メモリに記憶された音声データに基づく処理を実行するプロセッサと、を備え、
前記プロセッサは、
前記他の情報処理装置から受信して前記メモリに記憶された音声データが文字化された字幕が表示される表示部の画面領域のうち前記字幕が表示される画面領域を、所定時間ごとに静止画ファイルとしてキャプチャするキャプチャ処理と、
前記キャプチャ処理によりキャプチャされた一連の静止画ファイルのうちの少なくとも一部の画像に含まれる前記字幕の一部が文字認識された文字情報を取得し、前記画像ごとの前記文字情報を保存する文字情報取得処理と、
を行う情報処理装置。
【請求項21】
前記プロセッサは、
前記文字情報取得処理により取得した前記画像ごとの前記字幕の一部が文字認識された前記文字情報を前記画像のキャプチャ順にまとめた一つのデータファイルを生成するファイル生成処理をさらに行う、
請求項20に記載の情報処理装置。
【請求項22】
ネットワークを介して他の情報処理装置から受信した映像データを一時的に記憶するメモリと、前記メモリに記憶された映像データに基づく処理を実行するプロセッサとを備える情報処理装置における制御方法であって、
前記プロセッサが、
前記他の情報処理装置から受信して前記メモリに記憶された映像データの映像が表示される表示部の画面領域のうち前記映像の少なくとも一部が含まれる画面領域を、所定時間ごとに静止画ファイルとしてキャプチャするステップと、
前記キャプチャするステップによる前記所定時間ごとのキャプチャを継続しながら、前記キャプチャするステップによりキャプチャされた一連の静止画ファイルのうちの少なくとも一部の画像の中から文字認識された文字情報を取得し、前記画像ごとの前記文字情報を保存するステップと、
前記キャプチャするステップによる前記所定時間ごとのキャプチャを継続しながら、前記一部の画像を前記文字情報と関連付けて前記表示部に表示させるステップと、
を含む制御方法。
【請求項23】
ネットワークを介して他の情報処理装置から受信した音声データを一時的に記憶するメモリと、前記メモリに記憶された音声データに基づく処理を実行するプロセッサとを備える情報処理装置における制御方法であって、
前記プロセッサが、
前記他の情報処理装置から受信して前記メモリに記憶された音声データが文字化された字幕が表示される表示部の画面領域のうち前記字幕が表示される画面領域を、所定時間ごとに静止画ファイルとしてキャプチャするステップと、
前記キャプチャするステップによりキャプチャされた一連の静止画ファイルのうちの少なくとも一部の画像に含まれる前記字幕の一部が文字認識された文字情報を取得し、前記画像ごとの前記文字情報を保存するステップと、
を含む制御方法。
【請求項24】
ネットワークを介して他の情報処理装置から受信した映像データと前記ネットワークを介して前記他の情報処理装置から受信した映像データに関連付けられた音声データとを一時的に記憶するメモリと、前記メモリに記憶された映像データに基づく処理を実行するプロセッサとを備える情報処理装置における制御方法であって、
前記プロセッサが、
前記他の情報処理装置から受信して前記メモリに記憶された映像データの映像が表示される表示部の画面領域のうち前記映像の少なくとも一部が含まれる画面領域を、所定時間ごとに静止画ファイルとしてキャプチャするステップと、
前記キャプチャするステップによる前記所定時間ごとのキャプチャを継続しながら、前記キャプチャするステップによりキャプチャされた一連の静止画ファイルのうちの少なくとも一部の画像の中から文字認識された文字情報を取得し、前記画像ごとの前記文字情報を保存するステップと、
を含み、
前記キャプチャするステップにおいて、前記他の情報処理装置から受信して前記メモリに記憶された映像データの映像と音声データが文字化された字幕とが表示される前記表示部の画面領域のうち前記字幕が表示される画面領域を、前記所定時間ごとに静止画ファイルとしてさらにキャプチャし、
前記文字情報を保存するステップにおいて、前記キャプチャするステップによりキャプチャされた一連の静止画ファイルのうちの少なくとも一部の画像に含まれる前記字幕の一部が文字認識された前記文字情報を取得し、前記画像ごとの前記文字情報を保存する、
制御方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、及び制御方法に関する。
【背景技術】
【0002】
ネットワークを介してオンラインでビデオ会議を行うためのアプリケーションがある。このようなアプリケーションは、ビデオ会議に参加しているユーザがそれぞれ使用している情報処理装置からユーザの映像及び音声を送受信するだけでなく、資料などが表示される画面をそれぞれの情報処理装置で閲覧できるように共有する機能を有しているものがある(例えば、特許文献1)。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2019-61594号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
上述したようなアプリケーションでは、発表者が他の参加者へ資料などが表示される画面を共有しながら説明する場面がある。しかしながら、共有されている資料は、参加者側には映像として表示されるため、その資料に記載されている語句、文字または文章の中に参加者が調べたいものや他で利用したいものがあっても、その都度、参加者がタイピングする必要があり不便であった。
【0005】
本発明は、上記した事情に鑑みてなされたもので、オンラインによるビデオ会議の利便性を向上させる情報処理装置、及び制御方法を提供することを目的の一つとする。
【課題を解決するための手段】
【0006】
本発明は上記の課題を解決するためになされたものであり、本発明の第1態様に係る情報処理装置は、ネットワークを介して他の情報処理装置から受信した映像データを一時的に記憶するメモリと、前記メモリに記憶された映像データに基づく処理を実行するプロセッサと、を備え、前記プロセッサは、前記他の情報処理装置から受信して前記メモリに記憶された映像データの映像が表示される表示部の画面領域のうち前記映像の少なくとも一部が含まれる画面領域を、所定時間ごとに静止画ファイルとしてキャプチャするキャプチャ処理と、前記キャプチャ処理による前記所定時間ごとのキャプチャを継続しながら、前記キャプチャ処理によりキャプチャされた一連の静止画ファイルのうちの少なくとも一部の画像の中から文字認識された文字情報を取得し、前記画像ごとの前記文字情報を保存する文字情報取得処理と、を行う。
【0007】
上記情報処理装置において、前記プロセッサは、前記キャプチャ処理による前記所定時間ごとのキャプチャを継続しながら、前記一部の画像を前記文字情報と関連付けて前記表示部に表示させる表示制御処理をさらに行う。
また、本開示の一態様は、前記プロセッサは、前記文字情報取得処理において、前記文字情報として、前記一部の画像の中から文字認識された文字のデータ及び当該文字が認識された位置のデータを取得し、前記表示制御処理において、前記一部の画像を前記文字情報と関連付けて前記表示部に表示させる際に、画像内で文字が認識された位置を特定の表示態様で表示させる。
【0008】
上記情報処理装置において、前記プロセッサは、前記表示制御処理により前記表示部に表示させた画像内の文字が認識された位置に対するユーザの操作に基づいて、前記認識された文字を提供する提供処理を行う。
【0009】
上記情報処理装置において、前記プロセッサは、前記提供処理において、前記認識された文字をコピー可能なように提供する。
【0010】
上記情報処理装置において、前記プロセッサは、前記提供処理において、前記認識された文字をブラウザで検索可能なように提供する。
【0011】
上記情報処理装置において、前記プロセッサは、前記提供処理において、前記認識された文字がURL(Uniform Resource Locator)を示している場合、当該URLで特定されるリソースを前記表示部に表示可能なように提供する。
【0012】
上記情報処理装置において、前記プロセッサは、前記表示制御処理において、前記キャプチャ処理によりキャプチャされた一連の静止画ファイルのそれぞれをキャプチャ順に対応して選択可能なユーザインタフェースを前記表示部に表示させるとともに、当該ユーザインタフェースに対するユーザの操作に応じて選択された静止画ファイルの画像を前記表示部に表示させる。
【0013】
上記情報処理装置において、前記プロセッサは、前記キャプチャ処理において、前記表示部の画面領域のうち前記映像内の特定領域をキャプチャする。
【0014】
上記情報処理装置において、前記プロセッサは、前記キャプチャ処理によりキャプチャされる度に、今回キャプチャされた静止画ファイルの画像を以前にキャプチャされた静止画ファイルの画像と比較して類似性を判定する類似性判定処理をさらに行い、前記類似性判定処理により以前にキャプチャされた静止画ファイルの画像との類似度が所定の閾値以上であると判定された静止画ファイルの画像を、前記文字情報取得処理により前記文字情報を取得する対象及び前記表示制御処理により前記表示部に表示させる表示対象から除外する。
【0015】
上記情報処理装置において、前記プロセッサは、前記キャプチャ処理において、前記他の情報処理装置から受信した映像データが録画された動画ファイルの録画開始から録画終了までの期間の中で、前記所定時間ごとのキャプチャを行い、前記文字情報取得処理により取得した文字情報と前記動画ファイルとをさらに関連付ける関連付け処理をさらに行う。
【0016】
上記情報処理装置において、前記プロセッサは、前記文字情報取得処理により取得した前記文字情報に含まれる文字の中からキーワードを抽出するキーワード抽出処理をさらに行い、前記関連付け処理において、前記キーワードと前記動画ファイルとを関連付ける。
【0017】
上記情報処理装置において、前記プロセッサは、前記関連付け処理において、前記キーワードを前記動画ファイルのメタデータに保存することにより、前記キーワードと前記動画ファイルとを関連付ける。
【0018】
上記情報処理装置において、前記プロセッサは、前記関連付け処理において、前記動画ファイルと、前記動画ファイルの録画開始から前記静止画ファイルごとのキャプチャまでの経過時間と、前記静止画ファイルごとの画像の中から文字認識された前記文字情報に含まれる文字とを関連付けた関連付けデータを生成する。
【0019】
上記情報処理装置において、前記プロセッサは、前記文字情報取得処理により取得した前記文字情報に含まれる文字の中からキーワードを抽出するキーワード抽出処理をさらに行い、前記関連付け処理において、前記動画ファイルと、前記動画ファイルの録画開始から前記静止画ファイルごとのキャプチャまでの経過時間と、前記静止画ファイルごとの画像の中から文字認識された前記文字情報に含まれる前記キーワードとを関連付けた関連付けデータを生成する。
【0020】
上記情報処理装置において、前記メモリは、さらに、前記ネットワークを介して前記他の情報処理装置から受信した映像データに関連付けられた音声データを一時的に記憶し、前記プロセッサは、前記キャプチャ処理において、前記他の情報処理装置から受信して前記メモリに記憶された映像データの映像と音声データが文字化された字幕とが表示される前記表示部の画面領域のうち前記字幕が表示される画面領域を、前記所定時間ごとに静止画ファイルとしてさらにキャプチャし、前記文字情報取得処理において、前記キャプチャ処理によりキャプチャされた一連の静止画ファイルのうちの少なくとも一部の画像に含まれる前記字幕の一部が文字認識された前記文字情報を取得し、前記画像ごとの前記文字情報を保存する。
【0021】
上記情報処理装置において、前記プロセッサは、前記文字情報取得処理により取得した前記画像ごとの前記字幕の一部が文字認識された前記文字情報を前記画像のキャプチャ順にまとめた一つのデータファイルを生成するファイル生成処理をさらに行う。
【0022】
上記情報処理装置において、前記プロセッサは、前記キャプチャ処理において、前記他の情報処理装置から受信した映像データが録画された動画ファイルの録画開始から録画終了までの期間の中で、前記所定時間ごとのキャプチャを行い、前記文字情報取得処理により取得した文字情報と前記動画ファイルとをさらに関連付ける関連付け処理をさらに行う。
【0023】
上記情報処理装置において、前記プロセッサは、前記関連付け処理において、前記動画ファイルと、前記動画ファイルの録画開始から前記静止画ファイルごとのキャプチャまでの経過時間と、前記静止画ファイルごとの画像の中から文字認識された前記文字情報に含まれる文字とを関連付けた関連付けデータを生成する。
【0024】
また、本発明の第2態様に係る情報処理装置は、ネットワークを介して他の情報処理装置から受信した音声データを一時的に記憶するメモリと、前記メモリに記憶された音声データに基づく処理を実行するプロセッサと、を備え、前記プロセッサは、前記他の情報処理装置から受信して前記メモリに記憶された音声データが文字化された字幕が表示される表示部の画面領域のうち前記字幕が表示される画面領域を、所定時間ごとに静止画ファイルとしてキャプチャするキャプチャ処理と、前記キャプチャ処理によりキャプチャされた一連の静止画ファイルのうちの少なくとも一部の画像に含まれる前記字幕の一部が文字認識された文字情報を取得し、前記画像ごとの前記文字情報を保存する文字情報取得処理と、を行う。
【0025】
上記情報処理装置において、前記プロセッサは、前記文字情報取得処理により取得した前記画像ごとの前記字幕の一部が文字認識された前記文字情報を前記画像のキャプチャ順にまとめた一つのデータファイルを生成するファイル生成処理をさらに行う。
【0026】
また、本発明の第3態様に係る、ネットワークを介して他の情報処理装置から受信した映像データを一時的に記憶するメモリと、前記メモリに記憶された映像データに基づく処理を実行するプロセッサとを備える情報処理装置の制御方法は、前記プロセッサが、前記他の情報処理装置から受信して前記メモリに記憶された映像データの映像が表示される表示部の画面領域のうち前記映像の少なくとも一部が含まれる画面領域を、所定時間ごとに静止画ファイルとしてキャプチャするステップと、前記キャプチャするステップによる前記所定時間ごとのキャプチャを継続しながら、前記キャプチャするステップによりキャプチャされた一連の静止画ファイルのうちの少なくとも一部の画像の中から文字認識された文字情報を取得し、前記画像ごとの前記文字情報を保存するステップと、を含む。
【0027】
また、本発明の第4態様に係る、ネットワークを介して他の情報処理装置から受信した音声データを一時的に記憶するメモリと、前記メモリに記憶された音声データに基づく処理を実行するプロセッサとを備える情報処理装置の制御方法は、前記プロセッサが、前記他の情報処理装置から受信して前記メモリに記憶された音声データが文字化された字幕が表示される表示部の画面領域のうち前記字幕が表示される画面領域を、所定時間ごとに静止画ファイルとしてキャプチャするステップと、前記キャプチャするステップによりキャプチャされた一連の静止画ファイルのうちの少なくとも一部の画像に含まれる前記字幕の一部が文字認識された文字情報を取得し、前記画像ごとの前記文字情報を保存するステップと、を含む。
【発明の効果】
【0028】
本発明の上記態様によれば、オンラインによるビデオ会議の利便性を向上させることができる。
【図面の簡単な説明】
【0029】
図1】第1の実施形態に係る情報処理装置の外観を示す斜視図。
図2】第1の実施形態に係るレビューアプリの表示例を示す図。
図3】第1の実施形態に係るレビューアプリによるキャプチャ画像とその表示の説明図。
図4】第1の実施形態に係るレビューアプリでキャプチャ画像内のURLが選択される場合の説明図。
図5】第1の実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図。
図6】第1の実施形態に係る情報処理装置の機能構成の一例を示すブロック図。
図7】第1の実施形態に係るキャプチャ画像ファイルの一例を示す図。
図8】第1の実施形態に係る文字情報ファイルの一例を示す図。
図9】第1の実施形態に係るレビュー処理の一例を示すフローチャート。
図10】第1の実施形態に係るキャプチャ処理の一例を示すフローチャート。
図11】第1の実施形態に係る文字情報取得処理の一例を示すフローチャート。
図12】第2の実施形態に係るファイル管理アプリの一例を示す図。
図13】第2の実施形態に係る動画ファイルのメタデータの一例を示す図。
図14】第2の実施形態に係る情報処理装置の機能構成の一例を示すブロック図。
図15】第3の実施形態に係る情報処理装置の機能構成の一例を示すブロック図。
図16】第3の実施形態に係る検索用データベースの一例を示す図。
図17】第3の実施形態に係る動画再生画面における検索結果の表示例を示す図。
図18】第4の実施形態に係るビデオ会議アプリの表示例を示す図。
図19】第4の実施形態に係る情報処理装置の機能構成の一例を示すブロック図。
図20】第4の実施形態に係る字幕データファイルの一例を示す図。
【発明を実施するための形態】
【0030】
以下、図面を参照して、本発明の実施形態について説明する。
<第1の実施形態>
まず、本実施形態に係る情報処理装置の概要について説明する。
図1は、本実施形態に係る情報処理装置の外観を示す斜視図である。図示する情報処理装置10は、クラムシェル型のノートPC(Personal Computer)である。情報処理装置10は、第1筐体101、第2筐体102、及びヒンジ機構103を備えている。第1筐体101及び第2筐体102は、略四角形の板状(例えば、平板状)の筐体である。第1筐体101の側面の一つと第2筐体102の側面の一つとがヒンジ機構103を介して結合(連結)されており、ヒンジ機構103がなす回転軸の周りに第1筐体101と第2筐体102とが相対的に回動可能である。第1筐体101と第2筐体102との回転軸の周りの開き角θが略0°の状態が、第1筐体101と第2筐体102とが重なり合って閉じた状態(「閉状態」と称する)である。閉状態において第1筐体101と第2筐体102との互いに対面する側の面を、それぞれの「内面」と呼び、内面に対して反対側の面を「外面」と称する。開き角θとは、第1筐体101の内面と第2筐体102の内面とがなす角とも言うことができる。閉状態に対して第1筐体101と第2筐体102とが開いた状態のことを「開状態」と称する。開状態とは、開き角θが予め設定された閾値(例えば、10°)より大きくなるまで、第1筐体101と第2筐体102とが相対的に回動された状態である。
【0031】
第1筐体101の内面には、表示部14が設けられている。表示部14は、情報処理装置10に実行される処理に基づく映像を表示する。また、第1筐体101の内面のうち表示部14の周縁の領域に、撮像部27(カメラ)及びマイク(マイクロフォン)241が設けられている。即ち、撮像部27及びマイク241は、情報処理装置10を使用するユーザと対面するような位置に設けられている。なお、マイク241は、右側用と左側用の2つのマイクに分かれて設けられてもよい。
【0032】
また、第2筐体102の内面には、キーボード32及びスピーカ242が設けられている。キーボード32は、ユーザの操作を受け付ける入力デバイスとして設けられている。なお、スピーカ242は、右側用と左側用の2つのスピーカに分かれて設けられてもよい。閉状態では、表示部14が視認できない状態、且つキーボード32への操作ができない状態となる。一方、開状態では、表示部14が視認可能な状態、且つキーボード32への操作が可能な状態(即ち、情報処理装置10を使用可能な状態)となる。
【0033】
情報処理装置10は、各種のアプリケーションのプログラムを実行することができる。例えば、情報処理装置10は、撮像部27により撮像される映像やマイク241に入力される音声などを用いるアプリケーションのプログラムを実行する。一例として、複数のユーザのそれぞれが端末装置を用いて双方向に映像及び音声を通信するアプリケーションがあり、ビデオ会議などに使用される。このようなビデオ会議に使用できるアプリケーションのことを、以下では「ビデオ会議アプリ」と称する。情報処理装置10は、ビデオ会議アプリを実行することにより、ビデオ会議アプリを用いて他のユーザとビデオ会議を行う際の端末装置として利用することができる。
【0034】
情報処理装置10を用いてユーザがビデオ会議アプリを使用する場合、撮像部27は、表示部14に対面するユーザ(ビデオ会議の参加者)などが含まれる映像を撮像する。また、マイク241には、当該ユーザが発する音声などが入力される。情報処理装置10は、ビデオ会議アプリの処理に基づいて撮像部27により撮像された映像及びマイク241に入力された音声を、ビデオ会議に参加する他のユーザの端末装置へネットワークを介して送信する。また、情報処理装置10は、他のユーザの端末装置からネットワークを介して取映像及び音声を取得し、取得した映像を表示部14に表示するとともに、取得した音声をスピーカ242などから出力する。このように、ビデオ会議アプリを使用することにより、ビデオ会議に参加する各ユーザは、互いにユーザの映像を見ながら会話を行うことができる。
【0035】
ネットワークとは、例えばインターネットや、携帯電話網、VPN(Virtual Private Network)網、専用通信回線網、WAN(Wide Area Network)、LAN(Local Area Network)、PSTN(Public Switched Telephone Network;公衆交換電話網)など、またはこれらの組み合わせによって構成される通信ネットワークである。
【0036】
また、ビデオ会議アプリには、発表者の端末装置で資料などを表示している画面を他の参加者の端末装置で閲覧できるようにする機能を有しているものがある。この機能を用いて、発表者が他の参加者へ資料を共有しながら説明する場面がある。しかしながら、発表者が資料のページを送りながら説明を行っているときに、参加者側としては、発表者が現在表示させている資料のページよりも前のページを見たい場合がある。また、共有されている資料は、参加者側には映像として表示されるため、その資料の記載されている語句、文字または文章の中に参加者が調べたいものや他で利用したいものがあっても、その都度、参加者がタイピングする必要があり不便であった。
【0037】
そこで、本実施形態に係る情報処理装置10は、ビデオ会議アプリを用いて他のユーザの端末装置から受信した映像の少なくとも一部が含まれる画面領域を、所定時間ごとに静止画ファイルとしてキャプチャする。また、情報処理装置10は、キャプチャした画像から文字認識により文字情報を取得し、当該画像と関連付けて文字情報を保存する。文字認識の処理は、情報処理装置10が実行するOS(Operating System)がOCR(Optical Character Recognition)の機能を有する場合、そのOCRの機能を利用した処理としてもよいし、情報処理装置10が実行するOCRの機能を有する他のアプリを利用した処理としてもよい。また、文字認識の処理は、クラウドで提供されるOCRサービスを利用した処理としてもよい。
【0038】
そして、情報処理装置10は、ビデオ会議アプリの実行中に、上記所定時間ごとのキャプチャを継続しながら、キャプチャされた一連の静止画ファイルのうちの少なくとも一部の画像を、当該画像から文字認識された文字情報と関連付けて表示させることが可能である。これにより、情報処理装置10は、発表者が共有している資料の現在のページよりも前のページを見たいときには、キャプチャ済みの画像の中からユーザが任意に選択して表示することが可能である。また、情報処理装置10は、キャプチャ済みの画像から、発表者が共有している資料に記載されている語句、文字または文章を選択して利用することが可能である。例えば、情報処理装置10は、キャプチャ済みの画像から資料に記載されている語句、文字または文章を選択することにより、コピーしたり、ウェブ検索や辞書検索をしたり、選択した文章がURL(Uniform Resource Locator)の場合にはハイパーリンクとしてURLが示すウェブページを表示させるといったことなどが可能である。
【0039】
以下、キャプチャ済みの画像のことを「キャプチャ画像」、キャプチャした静止画ファイルのことを「キャプチャ画像ファイル」と称する。また、キャプチャ画像から文字認識された文字情報には、キャプチャ画像の中から認識された文字のデータ(以下、「テキストデータ」と称する)と、その文字のキャプチャ画像内における位置のデータ(以下、「位置データ」と称する)とが含まれる。キャプチャ画像と文字情報とを関連付けて表示するとは、キャプチャ画像内の文字の画像領域に、その文字のテキストデータを関連付けて表示することを意味する。ユーザは、表示されているキャプチャ画像内の文字の画像領域の部分を選択する操作を行うことにより、その文字のテキストデータを取得することができる。
【0040】
また、このビデオ会議アプリの映像をキャプチャし、キャプチャ画像を文字情報と関連付けて表示する機能は、例えばビデオ会議アプリとは別のアプリケーション(以下、「レビューアプリ」と称する)を実行することにより実現される。これにより、レビューアプリは、対象とするアプリを限定することなく使用することができる。なお、このレビューアプリは、ビデオ会議アプリによる会議中の映像(ライブ映像)を対象とするだけではなく、既に録画済みの動画ファイルを対象とすることもできる。即ち、レビューアプリは、動画ファイルの映像をキャプチャし、キャプチャ画像を文字情報と関連付けて表示する機能も有する。
【0041】
図2及び図3を参照して、レビューアプリの概要を説明する。
図2は、本実施形態に係るレビューアプリの表示例を示す図である。表示画面G10は、情報処理装置10の表示部14の全画面領域を示している。表示画面G10には、ビデオ会議アプリのウィンドウWVが全画面表示されている。ビデオ会議アプリのウィンドウWVには、ビデオ会議に参加している他のユーザや、共有されている資料などを表示することができる。図示する例では、共有されている資料の現在のページが表示されている。また、表示画面G10には、レビューアプリのウィンドウWRがビデオ会議アプリのウィンドウWVに重畳して表示されている。レビューアプリのウィンドウWRには、ビデオ会議アプリのウィンドウWVに表示されている資料部分のコンテンツ領域CRがキャプチャされたキャプチャ画像が表示されている。レビューアプリのウィンドウWRには、会議の開始(キャプチャの開始)時点から現在までにキャプチャされたキャプチャ画像のうち任意のキャプチャ画像を表示させることができる。
【0042】
レビューアプリのウィンドウWRは、アクティブウィンドウであるがビデオ会議アプリのウィンドウWRよりも小さいサイズで表示されている。そのため、ユーザは、ビデオ会議アプリのウィンドウWRを見ながらビデオ会議をしている最中に、レビューアプリのウィンドウWRに任意のキャプチャ画像を表示させて確認することができる。
【0043】
図3は、本実施形態に係るレビューアプリによるキャプチャ画像とその表示の説明図である。この図では、キャプチャ画像ファイルが保存されるフォルダ内のファイルが表示されるウィンドウWFと、図2に示すレビューアプリのウィンドウWRとを示している。上記フォルダには、所定時間ごと(例えば、10秒ごと)にキャプチャされたキャプチャ画像ファイルがキャプチャ順に保存される。各キャプチャ画像ファイルのファイル名は、例えば、各キャプチャ画像の時刻に基づいて生成される。フォルダは、レビューアプリによりキャプチャが開始されてから終了するまでの1回のキャプチャ期間ごとに作成されてもよい。
【0044】
スライダSD1は、ユーザがレビューアプリのウィンドウWRに表示させるキャプチャ画像を選択するための操作UI(User Interface)として表示される。キャプチャ画像は、キャプチャ順にスライダSD1の左端から右端へ対応付けられている。スライダSD1を左に移動させるほど先にキャプチャされたキャプチャ画像が表示され、スライダSD1を右に移動させるほど後からキャプチャされたキャプチャ画像が表示される。スライダSD1を左端に移動させると最初にキャプチャされたキャプチャ画像が表示され、スライダSD1を右端に移動させるとその時点で最後にキャプチャされたキャプチャ画像が表示される。例えば、9枚のキャプチャ画像のファイルが保存されている場合、スライダSD1を左端に移動させると1枚目のキャプチャ画像が表示され、スライダSD1を中央に移動させると5枚目のキャプチャ画像が表示され、スライダSD1を右端に移動させると9枚目のキャプチャ画像が表示される。スライダSD1のスライダバーの長さが保存されているキャプチャ画像の枚数で均等割りされ、スライダSD1の位置に対応するキャプチャ画像が表示されることになる。時間が経過して10枚目のキャプチャ画像が保存されると、スライダSD1のスライダバーの長さが9枚で均等割りされていた状態から10枚での均等割りに変更され、スライダSD1を右端に移動させると10枚目のキャプチャ画像が表示される。
【0045】
このように、情報処理装置10は、ビデオ会議で発表者が他の参加者へ資料を共有しながら説明しているときに、発表者が現在表示させている資料のページより任意の時間前に表示されていた資料のページを参加者が表示させて確認することができる。また、レビューアプリのウィンドウWRの操作ボタンB1(「Convert to text」)は、キャプチャ画像内に含まれる文字を選択可能にするか否か(即ち、キャプチャ画像からテキストデータを取得可能にするか否か)を切り替えるための操作子である。ユーザが操作ボタンB1に対して操作することにより、キャプチャ画像からテキストデータを取得可能な状態に切り替わり、キャプチャ画像内でテキストデータを取得可能な文字の部分(即ち、文字認識された部分)が、特定の表示態様で表示(例えば、ハイライト表示)される。
【0046】
キャプチャ画像からテキストデータを取得可能な状態で、ユーザが操作ボタンB1に対して再び操作すると、キャプチャ画像からテキストデータを取得不可能な状態(単に、キャプチャ画像の表示)に戻る。操作ボタンB1に対する操作が行われる度に、キャプチャ画像からテキストデータを取得可能な状態と不可能な状態とが切り替わる。
【0047】
なお、レビューアプリのウィンドウWRにキャプチャ画像が表示されたときのデフォルトの設定は、キャプチャ画像からテキストデータを取得不可能な状態であってもよいし、キャプチャ画像からテキストデータを取得可能な状態であってもよい。また、本実施形態では、キャプチャ画像からテキストデータを取得可能な状態と取得不可能な状態との切り替えが可能な例を示しているが、この切り替えの機能が無く、文字情報を取得済のキャプチャ画像を表示する場合には、常にテキストデータを取得可能な状態としてもよい。
【0048】
図示するレビューアプリのウィンドウWRは、キャプチャ画像からテキストデータを取得可能な状態を示している。ユーザがウィンドウWR内に表示されているキャプチャ画像の「INCORRUPTIBILITY」の部分を選択すると、「INCORRUPTIBILITY」のテキストデータが符号TBの領域に表示される。そして、ユーザが操作ボタンB2に対する操作を行うと、「INCORRUPTIBILITY」のテキストデータがコピーされ、他のアプリなどにペーストすることができる。また、ユーザが操作ボタンB3に対する操作を行うと、ブラウザ(ウェブブラウザ)のアプリを利用して、「INCORRUPTIBILITY」を検索ワードとした検索が実行される。なお、検索は、ブラウザの検索エンジンを用いた検索であってもよいし、ブラウザで利用できる辞書サイトによる検索であってもよい。
【0049】
また、検索ボックスTSは、任意の文字を入力することにより、キャプチャ画像内に含まれる文字、または同一フォルダ内のキャプチャ画像内に含まれる文字を検索することができる。入力した文字がキャプチャ画像内に存在する場合には、そのキャプチャ画像が表示される。なお、入力した文字がキャプチャ画像内に存在する場合には、その文字の部分が選択された状態となって、その文字のテキストデータが符号TBの領域に表示されてもよい。
【0050】
ユーザがウィンドウWR内に表示されているURLを選択した場合には、ブラウザでURLが示すウェブページが表示される。
図4は、本実施形態に係るレビューアプリでキャプチャ画像内のURLが選択される場合の説明図である。図4に示すレビューアプリの表示例は、図2に示す例と同様に、表示画面G10には、ビデオ会議アプリのウィンドウWVが全画面表示され、レビューアプリのウィンドウWRがビデオ会議アプリのウィンドウWVに重畳して表示されている。この例では、レビューアプリのウィンドウWRには、ビデオ会議アプリのウィンドウWVに以前にブラウザの画面が共有されていたときにキャプチャされたキャプチャ画像が表示されている。ユーザがウィンドウWR内に表示されているキャプチャ画像のURL「Https://xxxxx.xxx/xxxxxx」の部分を選択すると、そのURLのテキストデータが符号TBの領域に表示され、ブラウザが起動して、そのURLが示すウェブページが表示される。
【0051】
[情報処理装置10のハードウェア構成]
次に、図5を参照して、情報処理装置10の主要なハードウェア構成について説明する。図5は、本実施形態に係る情報処理装置10のハードウェア構成の一例を示すブロック図である。
【0052】
情報処理装置10は、CPU11と、メインメモリ12と、ビデオサブシステム13と、表示部14と、チップセット21と、BIOSメモリ22と、記憶部23と、オーディオシステム24と、通信部25と、USBコネクタ26と、撮像部27と、エンベデッドコントローラ31と、キーボード32と、電源回路33と、バッテリ34と、センサ35とを備える。
【0053】
CPU11は、プログラム制御により種々の演算処理を実行し、情報処理装置10全体を制御している。例えば、CPU11は、OS(Operating System)やBIOSのプログラムに基づく処理を実行する。また、CPU11は、OS上で実行される各種ドライバ、各種サービス/ユーティリティ、アプリケーション等に基づく処理を実行する。
【0054】
メインメモリ12は、CPU11の実行プログラムの読み込み領域として、又は、実行プログラムの処理データを書き込む作業領域として利用される書き込み可能メモリである。メインメモリ12は、例えば、複数個のDRAM(Dynamic Random Access Memory)チップで構成される。この実行プログラムには、OS、周辺機器類をハードウェア操作するための各種ドライバ、各種サービス/ユーティリティ、アプリケーションプログラム等が含まれる。
【0055】
ビデオサブシステム13は、画像表示に関連する機能を実現するためのサブシステムであり、ビデオコントローラを含んでいる。このビデオコントローラは、CPU11からの描画命令を処理し、処理した描画情報をビデオメモリに書き込むとともに、ビデオメモリからこの描画情報を読み出して、表示部14に描画データ(表示データ)として出力する。
【0056】
表示部14は、例えば、液晶ディスプレイや有機ELディスプレイであり、ビデオサブシステム13から出力された描画データ(表示データ)に基づく表示画面を表示する。
【0057】
チップセット21は、USB(Universal Serial Bus)、シリアルATA(AT Attachment)、SPI(Serial Peripheral Interface)バス、PCI(Peripheral Component Interconnect)バス、PCI-Expressバス、及びLPC(Low Pin Count)バスなどのコントローラを備えており複数のデバイスが接続される。例えば、複数のデバイスとして、後述するBIOSメモリ22と、記憶部23と、オーディオシステム24と、通信部25と、USBコネクタ26と、エンベデッドコントローラ31とが含まれる。
【0058】
BIOSメモリ22は、例えば、EEPROM(Electrically Erasable Programmable Read Only Memory)やフラッシュROMなどの電気的に書き換え可能な不揮発性メモリで構成される。BIOSメモリ22は、BIOS、及びエンベデッドコントローラ31などを制御するためのシステムファームウェアなどを記憶する。
【0059】
記憶部23は、HDD(Hard Disk Drive)、SSD(Solid State Drive)、などを含んで構成される。例えば、記憶部23は、OS、各種ドライバ、各種サービス/ユーティリティ、アプリケーションプログラム、及び各種データを記憶する。
【0060】
オーディオシステム24は、マイク241及びスピーカ242が接続され、音データの記録、再生、出力を行う。例えば、マイク241及びスピーカ242は、情報処理装置10に内蔵されている。なお、マイク241及びスピーカ242は、Bluetooth(登録商標)などの近距離無線通信またはUSBなどを用いて情報処理装置10と接続される周辺機器であってもよい。
【0061】
通信部25は、無線LAN(Local Area Network)または有線LANによりネットワークに接続して、データ通信を行う。通信部25は、例えば、ネットワークからのデータを受信した際に、データを受信したことを示すイベントトリガを発生する。また、通信部25は、Bluetooth(登録商標)などの近距離無線通信により周辺機器類と通信を行ってもよい。
USBコネクタ26は、USBを利用した周辺機器類を接続するためのコネクタである。
【0062】
撮像部27は、不図示のレンズ及び撮像素子を含んで構成され、レンズを介して入力される被写体像を撮像して電気信号に変化した撮像データを出力する。例えば、撮像部27は、表示部14に対面する方向の所定の範囲(画角)を撮像し、撮像した撮像データを出力する。一例として、ユーザがビデオ会議アプリを使用している際に、表示部14に対面した位置に存在する当該ユーザを撮像した撮像データを出力する。
【0063】
キーボード32は、ユーザの操作を受け付ける複数のキー(操作子の一例)が配列された入力デバイスである。キーボード32は、図1に示すように、第2筐体102の内面に設けられている。キーボード32は、ユーザの操作により入力された入力情報(例えば、キーボードに対して操作されたキーを示す操作信号)をエンベデッドコントローラ31へ出力する。
【0064】
電源回路33は、例えば、DC/DCコンバータ、充放電ユニット、AC/DCアダプタなどを含んで構成されている。例えば、電源回路33は、ACアダプタ(不図示)などの外部電源又はバッテリ34から供給される直流電圧を、情報処理装置10を動作させるために必要な複数の電圧に変換する。また、電源回路33は、エンベデッドコントローラ31からの制御に基づいて、情報処理装置10の各部に電力を供給する。
【0065】
バッテリ34は、例えば、リチウムバッテリであり、情報処理装置10に外部電源から電力供給されている場合に、電源回路33を介して充電され、情報処理装置10に外部電源から電力供給されていない場合に、電源回路33を介して、充電された電力を情報処理装置10の動作電力として出力する。
【0066】
センサ35は、ホールセンサ、加速度センサ、または温度センサなどの各種センサを含んで構成されている。各種センサのそれぞれは、それぞれの検知対象に配置されており、検知信号を出力する。例えば、ホールセンサは、情報処理装置10が開状態であるか閉状態であるかを検出する際に用いられる。また、加速度センサは、情報処理装置10の向きや動き、または第1筐体101と第2筐体102との開き角θを検出するなどを検出する際に用いられる。また、温度センサは、情報処理装置10の内部温度を検出する際に用いられる。
【0067】
エンベデッドコントローラ31は、情報処理装置10のシステムの状態に関わらず、各種デバイス(周辺装置やセンサ等)を監視して制御するワンチップマイコン(One-Chip Microcomputer)である。エンベデッドコントローラ31は、不図示のCPU、ROM、RAM、複数チャネルのA/D入力端子、D/A出力端子、タイマ、及びデジタル入出力端子を備える。エンベデッドコントローラ31のデジタル入出力端子には、例えば、キーボード32、電源回路33、及びセンサ35などが接続されている。エンベデッドコントローラ31は、キーボード32からの入力情報(操作信号)や、センサ35などからのセンサ信号を受け取る。また、エンベデッドコントローラ31は、電源回路33などの動作を制御する。
【0068】
[情報処理装置10の機能構成]
次に、情報処理装置10が上述したビデオ会議アプリ及びレビューアプリを実行することにより実現される機能構成について説明する。
図6は、本実施形態に係る情報処理装置10の機能構成の一例を示すブロック図である。情報処理装置10は、CPU11が各種プログラムを実行することにより実現される機能構成として処理部110を備えている。処理部110は、ビデオ会議処理部111と、文字認識処理部112と、レビュー処理部120とを備えている。
【0069】
ビデオ会議処理部111は、ビデオ会議アプリを実行することにより実現される機能構成である。例えば、ビデオ会議処理部111は、ネットワークを介して他のユーザの端末装置(情報処理装置)から通信部25により受信した映像データ及び当該映像データに関連付けられている音声データをメインメモリ12に一時的に記憶させ、当該映像データに基づく映像をビデオ会議アプリのウィンドウWV(図2及び図4参照)へ表示させるとともに、当該音声データに基づく音声をスピーカ242から出力させる。また、ビデオ会議処理部111は、撮像部27が撮像した映像の映像データ又は表示部14の表示画面や実行中のアプリの画面の映像データとマイク241に入力される音声の音声データを、通信部25からネットワークを介して他のユーザの端末装置(情報処理装置)へ送信する。
【0070】
文字認識処理部112は、OSが有するOCRの機能構成である。例えば、文字認識処理部112は、レビュー処理部120の指示に応じてキャプチャ画像に対して文字認識を行い、キャプチャ画像の中から文字認識された文字情報をレビュー処理部120へ返す。
【0071】
レビュー処理部120は、レビューアプリを実行することにより実現される機能構成である。ここでは、レビュー処理部120について詳しく説明する。レビュー処理部120は、キャプチャ部121と、類似性判定部122と、文字情報取得部123と、表示制御部124と、文字情報提供部125とを備えている。
【0072】
キャプチャ部121は、ビデオ会議処理部111により他の端末装置(情報処理装置)から受信した映像が表示される表示部14の画面領域のうち当該映像の少なくとも一部が含まれる画面領域を、所定時間ごとにキャプチャ画像ファイル(静止画ファイル)としてキャプチャする。一例として、キャプチャ部121は、10秒ごとにキャプチャし、キャプチャしたキャプチャ画像ファイルを順次に記憶部23に保存する。
【0073】
例えば、キャプチャ部121は、ビデオ会議アプリのウィンドウWV(図2及び図4)内のコンテンツ領域CR(図2及び図4参照)をキャプチャする。一例として、キャプチャ部121は、ビデオ会議処理部111により他の端末装置(情報処理装置)から受信した映像に対して画像解析を行うことによりビデオ会議アプリの映像からのコンテンツ領域CRを検出する。画像解析の方法としては、エッジ検出などの任意の方法を用いることができる。なお、ユーザがコンテンツ領域CRの範囲をキャプチャする範囲として指定する操作を行うことにより、キャプチャ部121は、コンテンツ領域CRをキャプチャしてもよい。
【0074】
なお、キャプチャ部121は、表示部14の全画面領域(デスクトップ画面の全領域)をキャプチャしてもよいし、ビデオ会議アプリのウィンドウWVの領域をキャプチャしてもよいが。コンテンツ領域CRのみをキャプチャした方が、文字認識に不要な画像をキャプチャすることがないため効率がよい。
【0075】
なお、キャプチャ部121がキャプチャする画面領域を、画像解析により検出されたコンテンツ領域CR、表示部14の全画面領域(デスクトップ画面の全領域)、ビデオ会議アプリのウィンドウWVの領域、或いはユーザにより指定された領域のいずれとするかは、予め設定されていてもよいし、キャプチャの開始前にユーザが設定または変更できるようにしてもよい。
【0076】
なお、デスクトップ画面の全領域がキャプチャする画面領域に設定された場合、レビューアプリ自身のウィンドウWRの領域をキャプチャの対象外に設定することができる。また、ビデオ会議アプリのウィンドウWVの領域、コンテンツ領域CR、またはユーザにより指定された領域がキャプチャする画面領域に設定された場合には、ビデオ会議アプリのウィンドウWVが他のアプリケーションのウィンドウで隠れていても、ビデオ会議アプリのウィンドウWVの領域のうち設定された領域に表示されている映像をキャプチャすることができる。
【0077】
また、表示部14の表示画面に表示される現在の操作位置を示すUI(マウスポインタ、マウスカーソルなど)をキャプチャの対象とするか否かを、ユーザが予め設定可能としてもよい。
【0078】
また、キャプチャ部121は、例えばユーザの操作に応じてキャプチャを開始または終了する。一例として、図2及び図3に示すウィンドウWRに、キャプチャを開始または終了する操作UIが表示されてもよい。そして、この操作UIに対するユーザの操作に基づいて、キャプチャ部121は、キャプチャを開始または終了してもよい。
【0079】
また、キャプチャ部121は、ビデオ会議の開始または終了を自動で検知することにより、キャプチャを開始または終了してもよい。例えば、キャプチャ部121は、ビデオ会議アプリがマイク241又はスピーカ242を占有したことを検知した場合、キャプチャを開始してもよい。
【0080】
ここで、ビデオ会議アプリがマイク241を占有した状態とは、ビデオ会議アプリがマイク241の使用を許可されている状態であり、より具体的には、OSによってビデオ会議アプリにマイク241の使用権(占有権)が与えられている状態である。例えば、マイク241を占有した状態とは、ビデオ会議アプリを用いたビデオ会議が行われているときに、ユーザによるミュート及びミュート解除の入力操作が行われることによって、ビデオ会議アプリ上でマイク241の機能がオフからオンに一時的に切り替えられた状態を意味するものではない。また、ビデオ会議アプリがスピーカ242を占有した状態とは、ビデオ会議アプリがスピーカ242の使用を許可されている状態であり、より具体的には、OSによってビデオ会議アプリにスピーカ242の使用権(占有権)が与えられている状態である。
【0081】
また、キャプチャ部121は、ビデオ会議アプリが占有していたマイク241又はスピーカ242を開放したことを検知した場合、キャプチャを終了してもよい。
【0082】
ここで、ビデオ会議アプリがマイク241を開放した状態とは、ビデオ会議アプリがマイク241の使用権を開放した状態であり、より具体的には、OSによってビデオ会議アプリに与えられていたマイク241の使用権が開放された状態である。例えば、マイク241を開放した状態とは、ビデオ会議アプリを用いたビデオ会議が行われているときに、ユーザによるミュート及びミュート解除の入力操作が行われることによって、ビデオ会議アプリ上でマイク241の機能がオンからオフに一時的に切り替えられた状態を意味するものではない。また、ビデオ会議アプリがスピーカ242を開放した状態とは、ビデオ会議アプリがスピーカ242の使用権を開放した状態であり、より具体的には、OSによってビデオ会議アプリに与えられていたスピーカ242の使用権が開放された状態である。
【0083】
図7は、記憶部23に記憶されるキャプチャ画像ファイルの一例を示す図である。キャプチャ画像は、キャプチャされる度にキャプチャ画像ファイルとして保存される。例えば、ファイル名は、キャプチャされた時刻に基づく名称が付与される。なお、ファイル名は、キャプチャ順に001、002、003、・・・などのように昇順にナンバリングされた名称としてもよい。また、ファイル名にはファイルのパスが付されてもよい。ファイル形式は、ここではPNGを例としているが、これに限定されるものではなく、GIF、JPEG、BMP等のファイル形式を用いてもよい。また、各キャプチャ画像ファイルには、キャプチャされた時刻を示す時刻情報(タイムスタンプ)が関連付けられている。また、各キャプチャ画像ファイルには、レビュー対象とするか否かを示すフラグ情報が関連付けられている。例えば、レビュー対象のフラグは、レビュー対象とする場合には「1」が設定され、レビュー対象としない場合には「0」が設定される。
【0084】
類似性判定部122は、キャプチャ部121によりキャプチャされる度に、今回キャプチャされたキャプチャ画像を以前にキャプチャされたキャプチャ画像と比較して類似性を判定する。画像の類似性の判定には、画像のパターンマッチングなどの任意の判定方法を用いることができる。例えば、類似性判定部122は、今回キャプチャされたキャプチャ画像と以前にキャプチャされたキャプチャ画像との類似度を判定する。そして、類似性判定部122は、類似度が所定の閾値未満であると判定した場合、共有されている資料の内容が切り替わったと判定し、今回キャプチャされたキャプチャ画像をレビュー対象に設定する(レビュー対象のフラグを「1」に設定する)。一方、類似性判定部122は、類似度が所定の閾値以上であると判定した場合、共有されている資料の内容が切り替わっていないと判定し、今回キャプチャされたキャプチャ画像をレビュー対象としない(レビュー対象のフラグを「0」に設定する)。
【0085】
ここで、上記の所定の閾値は、キャプチャ画像の内容が同一であるか否か(即ち、ビデオ会議アプリで共有されている資料(コンテンツ)が切り替わっていないか或いは切り替わったか)を判定するために予め設定された閾値である。なお、類似性判定部122は、最初にキャプチャされたキャプチャ画像については、類似度を判定する以前のキャプチャ画像が無いため判定を行わず、レビュー対象に設定する(レビュー対象のフラグを「1」に設定する)。
【0086】
文字情報取得部123は、キャプチャ部121によりキャプチャされた一連のキャプチャ画像ファイルのうちの少なくとも一部のキャプチャ画像の中から文字認識された文字情報を取得し、キャプチャ画像ごとの文字情報を記憶部23へ保存する。例えば、文字情報取得部123は、文字認識処理部112のOCRの機能を利用して、キャプチャ画像の中から文字認識された文字情報を取得する。文字情報には、キャプチャ画像の中から文字認識された文字のテキストデータ及び当該文字が認識された位置の位置データが含まれる。文字情報取得部123は、キャプチャ画像と文字情報とを関連付けて文字情報ファイルとして記憶部23へ保存する。
【0087】
なお、文字情報取得部123は、文字認識処理部112(OS)のOCRの機能に代えて、他のアプリのOCRの機能を利用してもよいし、クラウドで提供されるOCRサービスを利用してもよい。
【0088】
図8は、記憶部23に記憶されている文字情報ファイルの一例を示す図である。文字情報ファイルには、図7を参照して説明したキャプチャ画像のファイル名と、キャプチャ画像の中から文字認識された文字のテキストデータ及び位置データとが関連付けられる。位置データは、キャプチャ画像の中から文字認識された文字のキャプチャ画像内における位置を示すデータであり、例えば、キャプチャ画像の横方向をX軸とし縦方向をY軸としたXY座標系で示される。例えばキャプチャ画像の左上の隅をXY座標系の基準位置(0、0)とし、文字の位置がXY座標で示される。
【0089】
例えば、文字情報取得部123は、ビデオ会議アプリの実行中にキャプチャ部121による所定時間ごとのキャプチャを継続しながら、キャプチャ画像の中から文字認識された文字情報を取得する。また、文字情報取得部123は、図7に示すキャプチャ画像ファイルのレビュー対象フラグを参照して、レビュー対象に設定されたキャプチャ画像を文字情報の取得対象とし、レビュー対象に設定されていないキャプチャ画像を文字情報の取得対象から除外する。
【0090】
表示制御部124は、ビデオ会議アプリの実行中にキャプチャ部121による所定時間ごとのキャプチャを継続しながら、キャプチャ部121によりキャプチャされた一連のキャプチャ画像ファイルの少なくとも一部のキャプチャ画像を表示部14に表示させる。具体的には、表示制御部124は、記憶部23に記憶されているキャプチャ画像ファイルを読み出す。そして、表示制御部124は、読み出したキャプチャ画像ファイルのキャプチャ画像を図2~4に示すレビューアプリのウィンドウWRに表示させる。
【0091】
例えば、表示制御部124は、キャプチャ部121によりキャプチャされた一連のキャプチャ画像ファイルのそれぞれをキャプチャ順に対応して選択可能なスライダSD1を表示部14に表示させる。そして、表示制御部124は、当該スライダSD1に対するユーザの操作に応じて選択されたキャプチャ画像ファイルのキャプチャ画像を表示部14(ウィンドウWR)に表示させる(図3参照)。
【0092】
ここで、表示制御部124は、図7に示すキャプチャ画像ファイルのレビュー対象フラグを参照して、レビュー対象に設定されたキャプチャ画像を表示部14に表示させる表示対象とし、レビュー対象に設定されていないキャプチャ画像を表示部14に表示させる表示対象から除外する。
【0093】
また、表示制御部124は、キャプチャ画像を文字情報と関連付けて表示する。例えば、図3に示す操作ボタンB1に対する操作がされると、図8に示す文字情報ファイルを参照して、キャプチャ画像からテキストデータを取得可能な状態に切り替え、キャプチャ画像内でテキストデータを取得可能な文字の部分(即ち、文字認識された部分)を、特定の表示態様で表示(例えば、ハイライト表示)する。
【0094】
文字情報提供部125は、表示部14(ウィンドウWR)に表示されたキャプチャ画像内の文字が認識された位置に対するユーザの操作に基づいて、認識された文字のテキストデータを、各種の処理に適用可能なように提供する。一例として、文字情報提供部125は、キャプチャ画像の中から認識された文字をコピー可能なように提供する。例えば図3を参照して説明したように、ユーザがキャプチャ画像の中から認識された文字のうちのいずれかを選択する操作を行った後、操作ボタンB2に対する操作を行うことにより、文字情報提供部125は、ユーザにより選択された文字のテキストデータをコピーして、各種の処理に適用可能なように提供する。
【0095】
また、文字情報提供部125は、キャプチャ画像の中から認識された文字をブラウザのアプリを利用して検索可能なように提供する。例えば図3を参照して説明したように、ユーザがキャプチャ画像の中から認識された文字のうちのいずれかを選択する操作を行った後、操作ボタンB3に対する操作を行うことにより、選択された文字のテキストデータをブラウザのアプリの検索ワードとして検索可能なように提供する。
【0096】
また、文字情報提供部125は、キャプチャ画像の中から認識された文字がURLを示している場合、当該URLで特定されるリソース(例えば、ウェブページ)を表示部14に表示可能なように提供する。例えば図3を参照して説明したように、ユーザがキャプチャ画像の中から認識された文字のうちURLを示す文字(文章)を選択する操作を行うことにより、当該URLで特定されるリソースをブラウザで表示可能なように提供する。
【0097】
[レビュー処理]
次に図9~11を参照して、情報処理装置10のレビュー処理部120が文字情報と関連付けてキャプチャ画像を表示するレビュー処理の動作を説明する。
図9は、本実施形態に係るレビュー処理の一例を示すフローチャートである。図示するレビュー処理は、例えばレビューアプリの起動とともに開始される。
【0098】
(ステップS101)レビュー処理部120は、キャプチャを開始するか否かを判定する。例えば、レビュー処理部120は、ユーザによりキャプチャを開始する操作が行われた場合、又はビデオ会議アプリがマイク241又はスピーカ242を占有したことを検知した場合、キャプチャ開始イベントが発生したと判定し(YES)、ステップS103の処理に進む。一方、レビュー処理部120は、キャプチャ開始イベントが発生していないと判定した場合(NO)、このステップS101の処理を継続する。
【0099】
(ステップS103)レビュー処理部120は、所定時間ごと(例えば、10秒ごと)にキャプチャ処理を実行する。ここで図10を参照してキャプチャ処理について説明する。図10は、本実施形態に係るキャプチャ処理の一例を示すフローチャートである。
【0100】
(ステップS131)レビュー処理部120は、表示部14の画面領域のうちキャプチャする画面領域の画像を取り込む。キャプチャする画面領域は、例えば、レビューアプリのウィンドウWRの領域のうちのコンテンツ領域CRである。
【0101】
(ステップS132)レビュー処理部120は、ステップS131において取り込んだ画像のファイル(キャプチャ画像ファイル)を記憶部23に保存する(図7参照)。そして、図9のステップS105の処理に進む。
【0102】
(ステップS105)レビュー処理部120は、今回キャプチャされたキャプチャ画像と以前にキャプチャされたキャプチャ画像との類似性を判定する。例えば、レビュー処理部120は、今回キャプチャされたキャプチャ画像と以前にキャプチャされたキャプチャ画像との類似度を判定し、ステップS107の処理へ進む。
【0103】
(ステップS107)レビュー処理部120は、ステップS105において類似度が所定の閾値未満であると判定した場合、共有されている資料の内容が切り替わったと判定し、今回キャプチャされたキャプチャ画像をレビュー対象に設定する(レビュー対象のフラグを「1」に設定する)。一方、レビュー処理部120は、ステップS105において類似度が所定の閾値以上であると判定した場合、共有されている資料の内容が切り替わっていないと判定し、今回キャプチャされたキャプチャ画像をレビュー対象としない(レビュー対象のフラグを「0」に設定する)。なお、レビュー処理部120は、最初にキャプチャされたキャプチャ画像については、類似度を判定する以前のキャプチャ画像が無いため判定を行わず、レビュー対象に設定する(レビュー対象のフラグを「1」に設定する)。レビュー処理部120は、レビュー対象の設定を行うと、ステップS109の処理へ進む。
【0104】
(ステップS109)レビュー処理部120は、レビュー対象に設定したキャプチャ画像の中から文字認識された文字情報を取得する文字情報取得処理を実行する。ここで図11を参照して文字情報取得処理について説明する。図11は、本実施形態に係る文字情報取得処理の一例を示すフローチャートである。
【0105】
(ステップS191)レビュー処理部120は、ステップS107においてキャプチャ画像がレビュー対象に設定されたか否かを判定し、レビュー対象に設定されなかった(レビュー対象のフラグが「0」に設定された)場合(NO)、文字情報の取得を行わずに処理を終了し、図9のステップS111の処理へ進む。一方、レビュー処理部120は、ステップS107においてキャプチャ画像がレビュー対象に設定された(レビュー対象のフラグが「1」に設定された)場合(YES)、ステップS192の処理へ進む。
【0106】
(ステップS192)レビュー処理部120は、レビュー対象に設定されたキャプチャ画像に対して文字認識処理を実行させる指示を文字認識処理部112へ行う。そして、ステップS193の処理へ進む。
【0107】
(ステップS193)文字認識処理部112は、レビュー処理部120からの指示に応じて、OCRの機能によりキャプチャ画像の中から文字の領域を認識し、認識した文字のテキストデータ及び位置データを含む文字情報をレビュー処理部120へ応答する。そして、ステップS194の処理へ進む。
【0108】
(ステップS194)レビュー処理部120は、文字認識処理部112によりキャプチャ画像の中から文字認識された文字情報を取得し、ステップS195の処理へ進む。
【0109】
(ステップS195)レビュー処理部120は、ステップS194において取得した文字情報とキャプチャ画像とを関連付けて文字情報ファイルとして記憶部23へ保存する。例えば、レビュー処理部120は、キャプチャ画像のファイル名と、キャプチャ画像の中から文字認識された文字のテキストデータ及び位置データとを関連付けて、文字情報ファイルとして記憶部23へ保存する。(図8参照)。そして、図9のステップS111の処理に進む。
【0110】
(ステップS111)レビュー処理部120は、ユーザの操作によりキャプチャ画像を表示させるレビュー指示があったか否かを判定する。レビュー処理部120は、レビュー指示があったと判定した場合(YES)、ステップS113の処理へ進む。一方、レビュー処理部120は、レビュー指示がないと判定した場合(NO)、ステップS115の処理へ進む。
【0111】
(ステップS113)レビュー処理部120は、ユーザの操作によりレビュー指示として選択されたキャプチャ画像を文字情報と関連付けて表示部14(図2~4に示すレビューアプリのウィンドウWR)に表示させる。レビュー指示としてユーザがキャプチャ画像を選択する操作は、例えば、図3に示すスライダSD1に対する操作である。
【0112】
(ステップS115)レビュー処理部120は、キャプチャを終了するか否かを判定する。例えば、レビュー処理部120は、ユーザによりキャプチャを終了する操作が行われた場合、又はビデオ会議アプリがマイク241又はスピーカ242を開放したことを検知した場合、キャプチャ終了イベントが発生したと判定し(YES)、キャプチャ処理を継続しないで(キャプチャ処理を終了して)ステップS117の処理に進む。一方、レビュー処理部120は、キャプチャ終了イベントが発生していないと判定した場合(NO)、ステップS103に戻り、所定時間ごとのキャプチャ処理を継続する。
【0113】
(ステップS117)レビュー処理部120は、ユーザによりレビューアプリを終了する操作が行われたか否かを判定する。レビュー処理部120は、ユーザによりレビューアプリを終了する操作が行われていないと判定した場合(NO)、ステップS111の処理に戻り、レビュー指示に応じてキャプチャ画像を表示させる。一方、レビュー処理部120は、ユーザによりレビューアプリを終了する操作が行われたと判定した場合(YES)、レビューアプリをクローズして、レビュー処理を終了する。
【0114】
なお、レビュー処理部120は、ステップS115においてキャプチャ終了イベントが発生したと判定した場合(YES)、キャプチャ処理の終了とともに、レビューアプリを終了し、レビュー処理を終了してもよい。
【0115】
[第1の実施形態のまとめ]
以上説明してきたように、本実施形態に係る情報処理装置10は、ネットワークを介して他の情報処理装置から受信した映像データを一時的に記憶するメモリ(例えば、メインメモリ12)と、当該メモリに記憶された映像データに基づく処理を実行するプロセッサ(例えば、CPU11)とを備えている。CPU11は、レビューアプリを実行することにより実現される機能構成として、レビュー処理部120を備えている。レビュー処理部120は、他の端末装置(情報処理装置)から受信して上記メモリに記憶された映像データの映像が表示される表示部14の画面領域のうち上記映像の少なくとも一部が含まれる画面領域(例えば、コンテンツ領域CR)を、所定時間ごとにキャプチャ画像ファイル(静止画ファイル)としてキャプチャするキャプチャ処理を行う。レビュー処理部120は、キャプチャ処理による所定時間ごとのキャプチャを継続しながら、キャプチャ処理によりキャプチャされた一連のキャプチャ画像ファイルのうちの少なくとも一部のキャプチャ画像の中から文字認識された文字情報を取得し、キャプチャ画像ごとの文字情報を保存する文字情報取得処理を行う。
【0116】
これにより、情報処理装置10は、他の端末装置(情報処理装置)から受信した映像をキャプチャしたキャプチャ画像からキャプチャ画像に含まれる文字情報をユーザが得ることができるため、利便性が良い。例えば、オンラインによるビデオ会議中に共有されている資料に記載されている語句、文字または文章を、ビデオ会議の参加者がタイピングすることなく得ることができるため、オンラインによるビデオ会議の利便性を向上させることができる。
【0117】
また、レビュー処理部120は、所定時間ごとのキャプチャを継続しながら、少なくとも一部のキャプチャ画像を文字情報と関連付けて表示部14に表示させる表示制御処理をさらに行う。
【0118】
これにより、情報処理装置10は、他の端末装置(情報処理装置)から受信した映像をキャプチャしたキャプチャ画像が文字情報と関連付けられて表示されるため、ビデオ会議中に共有されている資料に記載されている語句、文字または文章をユーザ(例えば、ビデオ会議の参加者)が容易に得ることができる。
【0119】
また、レビュー処理部120は、文字情報として、少なくとも一部の画像の中から文字認識された文字の文字データ及び当該文字が認識された位置の位置データを取得する。そして、レビュー処理部120は、少なくとも一部の画像を文字情報と関連付けて表示部14に表示させる際に、キャプチャ画像内で文字が認識された位置を特定の表示態様で表示(例えば、ハイライト表示)させる。なお、特定の表示態様は、ハイライト表示に限られるものではなく、特定の色による表示、下線を付した表示など、文字が認識されていない部分と区別可能であればどのような表示態様であってもよい。
【0120】
これにより、情報処理装置10は、キャプチャ画像の中で文字認識された部分(文字情報が関連付けらている部分)をユーザ(例えば、ビデオ会議の参加者)に容易に認識させることができる。
【0121】
また、レビュー処理部120は、表示制御処理により表示部14に表示させたキャプチャ画像内の文字が認識された位置に対するユーザの操作に基づいて、当該認識された文字を提供する提供処理を行う。
【0122】
これにより、情報処理装置10は、ユーザ(例えば、ビデオ会議の参加者)が表示部14に表示されているキャプチャ画像内の文字を選択するだけで、選択された文字(テキストデータ)を利用することができるため、利便性がよい。
【0123】
また、レビュー処理部120は、提供処理において、キャプチャ画像の中から認識された文字をコピー可能なように提供する。
【0124】
これにより、情報処理装置10は、ユーザ(例えば、ビデオ会議の参加者)が表示部14に表示されているキャプチャ画像内の文字を選択するだけで、選択された文字(テキストデータ)をコピーすることができるため、利便性がよい。
【0125】
また、レビュー処理部120は、提供処理において、キャプチャ画像の中から認識された文字をブラウザで検索可能なように提供する。
【0126】
これにより、情報処理装置10は、ユーザ(例えば、ビデオ会議の参加者)が表示部14に表示されているキャプチャ画像内の文字を選択するだけで、選択された文字(テキストデータ)についてウェブ検索することができるため、利便性がよい。
【0127】
また、レビュー処理部120は、提供処理において、キャプチャ画像の中から認識された文字がURLを示している場合、当該URLで特定されるリソース(例えば、ウェブページ)を表示部14に表示可能なように提供する。
【0128】
これにより、情報処理装置10は、ユーザ(例えば、ビデオ会議の参加者)が表示部14に表示されているキャプチャ画像内のURLを選択するだけで、選択されたURLのウェブページを表示させることができるため、利便性がよい。
【0129】
また、レビュー処理部120は、表示制御処理において、キャプチャ処理によりキャプチャされた一連のキャプチャ画像ファイルのそれぞれをキャプチャ順に対応して選択可能なユーザインタフェース(例えば、図3のスライダSD1)を表示部14に表示させるとともに、当該ユーザインタフェースに対するユーザの操作に応じて選択されたキャプチャ画像ファイルのキャプチャ画像を表示部14に表示させる。
【0130】
これにより、情報処理装置10は、他のユーザ(発表者)が会議で共有した資料のうちユーザ(参加者)が見返したいページを容易な操作で選択して表示せることができ、且つそのページ内の文字情報(テキストデータ)をユーザ(参加者)が容易に得ることができる。
【0131】
また、レビュー処理部120は、キャプチャ処理において、表示部14の画面領域のうち映像内のコンテンツ領域CR(特定領域の一例)をキャプチャする。
【0132】
これにより、情報処理装置10は、表示部14に表示されている映像のうち、必要な領域(例えば、ビデオ会議で共有されている資料部分)のみをキャプチャして文字情報を取得することができるため、不要な画像領域に対して文字認識処理を行うことが無く、文字認識処理を行うデータ量を削減すること(処理負荷を低減すること)ができる。
【0133】
また、レビュー処理部120は、キャプチャ処理によりキャプチャされる度に、今回キャプチャされたキャプチャ画像ファイルのキャプチャ画像を以前にキャプチャされたキャプチャ画像ファイルのキャプチャ画像と比較して類似性を判定する類似性判定処理をさらに行う。そして、レビュー処理部120は、類似性判定処理により以前にキャプチャされたキャプチャ画像ファイルのキャプチャ画像との類似度が所定の閾値以上であると判定されたキャプチャ画像ファイルのキャプチャ画像を、文字情報取得処理により文字情報を取得する対象及び表示制御処理により表示部14に表示させる表示対象から除外する。
【0134】
これにより、情報処理装置10は、同一ページのキャプチャ画像が重複せず、1つのページに対して1つのキャプチャ画像のみがレビュー対象となるため、資料を見返す際のページ送りを楽にすることができる。また、同一ページのキャプチャ画像に対して重複して文字認識処理を行わないため、文字認識処理を行うデータ量を削減すること(処理負荷を低減すること)ができる。
【0135】
また、情報処理装置10における制御方法は、レビュー処理部120が、他の端末装置(情報処理装置)から受信してメモリ(例えば、メインメモリ12)に記憶された映像データの映像が表示される表示部14の画面領域のうち上記映像の少なくとも一部が含まれる画面領域を、所定時間ごとにキャプチャ画像ファイル(静止画ファイル)としてキャプチャするステップと、前記キャプチャするステップによる所定時間ごとのキャプチャを継続しながら、キャプチャするステップによりキャプチャされた一連のキャプチャ画像ファイルのうちの少なくとも一部のキャプチャ画像の中から文字認識された文字情報を取得し、キャプチャ画像ごとの文字情報を保存するステップと、を含む。
【0136】
これにより、情報処理装置10は、他の端末装置(情報処理装置)から受信した映像をキャプチャしたキャプチャ画像からキャプチャ画像に含まれる文字情報をユーザが得ることができるため、利便性が良い。例えば、オンラインによるビデオ会議中に共有されている資料に記載されている語句、文字または文章を、ビデオ会議の参加者がタイピングすることなく得ることができるため、オンラインによるビデオ会議の利便性を向上させることができる。
【0137】
<第2の実施形態>
次に、本発明の第2の実施形態について説明する。
第1の実施形態で説明したレビューアプリは、ビデオ会議アプリの映像を静止画ファイルとしてキャプチャするだけでなく、当該映像を録画した動画ファイルを生成してもよい。即ち、レビューアプリは、ビデオ会議アプリにより他の端末装置(情報処理装置)から受信した映像データが録画された動画ファイルの録画開始から録画終了までの期間の中で、所定時間ごとのキャプチャを行ってもよい。
【0138】
例えば、レビューアプリ(キャプチャ部121)は、図9に示すレビュー処理のステップS101においてキャプチャ開始イベントの発生に応じて録画を開始し、ステップS115においてキャプチャ終了イベントの発生に応じて録画を終了して動画ファイルを生成する。なお、レビューアプリ以外の他のアプリでも、ビデオ会議アプリの映像を録画できる(画面を動画キャプチャできる)アプリがある。この他のアプリを用いて動画ファイルを生成してもよい。
【0139】
動画ファイルの生成の際、一般的には日付または生成順に従った番号などがファイル名として自動生成される。動画ファイルが増えてくると、ユーザは所望のファイルがどれかすぐには見分けることができなくなってくる。動画ファイルの検索方法としては、従来、ファイル名またはファイルの作成日時や更新日時でしか検索することができず、ユーザが所望のファイルを見つけることが難しい場合があった。
【0140】
図12は、ファイルの検索が可能なファイル管理アプリの一例を示す図である。この図は、表示部14に表示されるファイル管理アプリのウィンドウWEの例を示している。ファイル管理アプリは、一例としてWindows(登録商標)のエクスプローラなどであり、ファイル及びフォルダの閲覧や検索が可能である。検索ボックスFSに検索したいファイルのファイル名または日時を入力することにより、ファイルを検索することができるが、本実施形態では、さらに動画ファイルに記録されている文字情報を利用して検索することができる。
【0141】
具体的には、レビューアプリは、第1の実施形態で説明したキャプチャ画像から文字認識された文字情報のテキストデータからキーワードを抽出し、抽出したキーワードを動画ファイルのメタデータのタグ(Tags)に保存する。これにより、ユーザが検索ボックスFSに検索したい文字を入力することにより、入力した文字によるキーワード検索で動画ファイルを検索することが可能である。なお、キャプチャ画像は、第1の実施形態で説明したようにビデオ会議アプリの実行中に会議の進行とともに所定の時間間隔でキャプチャしたものに限らず、動画ファイルを後から再生して所定の時間間隔でキャプチャしたものであってもよい。
【0142】
図13は、動画ファイルのメタデータの一例を示す図である。この図は、動画ファイルのプロパティ画面の一例である。「Tags」に、抽出されたキーワードが保存される。保存されるキーワードの数は、1つでもよいし、複数でもよい。また、抽出されたキーワードのすべてが「Tags」に保存されてもよいし、「Tags」に保存されるキーワードの数に上限があってもよい。
【0143】
次に、本実施形態に係るレビューアプリを実行することにより文字情報で動画ファイルを検索可能にする機能構成について説明する。
図14は、本実施形態に係る情報処理装置10の機能構成の一例を示すブロック図である。なお、本実施形態に係る情報処理装置10の外観構成およびハードウェア構成は、図1及び図5に示す各構成と同様である。図14において、レビュー処理部120Aは、本実施形態に係るレビューアプリを実行することにより実現される機能構成である。ビデオ会議処理部111及び文字認識処理部112は、図6に示すビデオ会議処理部111及び文字認識処理部112と同様である。
【0144】
レビュー処理部120Aは、キャプチャ部121と、類似性判定部122と、文字情報取得部123と、表示制御部124と、キーワード抽出部126Aと、キーワード登録部127Aとを備えている。キャプチャ部121、類似性判定部122、文字情報取得部123、及び表示制御部124の基本的な構成は、図6に示す構成と同様であり、その説明を省略する。
【0145】
キーワード抽出部126Aは、文字情報取得部123により取得した文字情報に含まれる文字の中からキーワードを抽出する。キーワードの抽出方法としては、TF-IDFなどの技術を適用できる。TF-IDFは、文章中に含まれる単語の重要度を、単語の出現頻度(TF:Term Frequency)と逆文書頻度(IDF:Inverse Document Frequency)との2つの指標に基づいて評価する方法である。なお、キーワードの抽出方法としては、公知の任意の技術を適用できる。
【0146】
キーワード登録部127Aは、文字情報取得部123により取得した文字情報と動画ファイルとを関連付ける。例えば、キーワード登録部127Aは、キーワード抽出部126Aにより抽出されたキーワードを動画ファイルのメタデータのタグ(Tags)に保存することによりキーワードと動画ファイルとを関連付ける。
【0147】
[第2の実施形態のまとめ]
以上説明してきたように、本実施形態に係る情報処理装置10は、レビューアプリを実行することにより実現される機能構成として、レビュー処理部120Aを備えている。レビュー処理部120Aは、ビデオ会議アプリにより他の端末装置(情報処理装置)から受信した映像データが録画された動画ファイルの録画開始から録画終了までの期間の中で、所定時間ごとのキャプチャを行う。そして、レビュー処理部120Aは、キャプチャされた一連のキャプチャ画像ファイルのうちの少なくとも一部のキャプチャ画像の中から文字認識された文字情報を取得し、取得した文字情報と動画ファイルとを関連付ける関連付け処理を行う。
【0148】
これにより、情報処理装置10は、文字検索により動画ファイルを検索することが可能となるため、ユーザが所望の動画ファイルを容易に見つけることができ、利便性が良い。
【0149】
例えば、レビュー処理部120Aは、取得した文字情報に含まれる文字の中からキーワードを抽出するキーワード抽出処理を行い、抽出されたキーワードと動画ファイルとを関連付ける。
【0150】
これにより、情報処理装置10は、キーワード検索により動画ファイルを検索することが可能となるため、ユーザが所望の動画ファイルを容易に見つけることができる。
【0151】
一例として、レビュー処理部120Aは、抽出されたキーワードを動画ファイルのメタデータに保存することにより、キーワードと動画ファイルとを関連付ける。
【0152】
これにより、情報処理装置10は、汎用的なエクスプローラなどのファイル管理アプリで、キーワード検索により動画ファイルを検索することが可能となるため、ユーザが所望の動画ファイルを容易に見つけることができる。
【0153】
なお、レビュー処理部120Aは、キャプチャ画像の中から文字認識された文字情報に含まれる文字の中からキーワードを抽出せずに、一部の文字情報(例えば、1行目のみ、または1行目の1単語目のみ)を、動画ファイルのメタデータに保存して関連付けてもよい。この場合、ビデオ会議で共有される資料の各ページにタイトルなどが記載されている場合、タイトルで検索することが可能である。
【0154】
<第3の実施形態>
次に、本発明の第3の実施形態について説明する。
本実施形態では、第2の実施形態と同様に動画ファイルの検索方法の一例を説明するが、動画ファイルを再生したときの動画の場面を検索可能な点が、第2の実施形態と異なる。
【0155】
図15は、本実施形態に係る情報処理装置10の機能構成の一例を示すブロック図である。なお、本実施形態に係る情報処理装置10の外観構成およびハードウェア構成は、図1及び図5に示す各構成と同様である。図15において、レビュー処理部120Bは、本実施形態に係るレビューアプリを実行することにより実現される機能構成である。ビデオ会議処理部111及び文字認識処理部112は、図6に示すビデオ会議処理部111及び文字認識処理部112と同様である。
【0156】
レビュー処理部120Bは、キャプチャ部121と、類似性判定部122と、文字情報取得部123と、表示制御部124と、検索データ生成部128Bとを備えている。キャプチャ部121、類似性判定部122、文字情報取得部123、及び表示制御部124の基本的な構成は、図6に示す構成と同様であり、その説明を省略する。
【0157】
検索データ生成部128Bは、動画ファイルと、動画ファイルの録画開始からキャプチャ画像ファイルごとのキャプチャまでの経過時間と、キャプチャ画像ファイルごとのキャプチャ画像の中から文字認識された文字情報に含まれる文字のテキストデータとを関連付けた検索用データを生成する。検索データ生成部128Bは、生成した検索用データを記憶部23の検索用データベースに記憶させる。
【0158】
図16は、記憶部23に記憶される検索用データベースの一例を示す図である。検索用データベースには、動画ファイルのファイル名と、経過時間と、抽出されたテキストデータとが関連付けられた格納される。ファイル名にはファイルのパスが付されてもよい。経過時間は、動画ファイルの録画開始からキャプチャ画像ファイルごとのキャプチャまでの経過時間である。例えば、経過時間が「00:00:00」に関連付けられているテキストデータは、動画ファイルの録画開始時にキャプチャされたキャプチャ画像の中から文字認識された文字のテキストデータである。また、経過時間が「00:18:25」に関連付けられているテキストデータは、動画ファイルの録画開始から18分25秒後にキャプチャされたキャプチャ画像の中から文字認識された文字のテキストデータである。なお、経過時間ごとにキャプチャされたキャプチャ画像ファイルのファイル名がさらに関連付けて格納されてもよい。
【0159】
例えば、「3S」という文字を検索ワードとして検索された場合、動画ファイルの動画において、「00:18:25」から「00:19:50」までの期間THにおいて、「3S」が録画されている(即ち、ビデオ会議アプリで共有されている資料の中に表示されている)ことが検索される。
【0160】
図17は、動画再生画面における検索結果の表示例を示す図である。この図は、動画ファイルを再生して表示部14に動画を表示させる動画再生アプリのウィンドウ画面WMの一例を示している。この動画アプリの機能は、レビューアプリの中の一つの機能としてもよいし、専用のアプリとしてもよい。動画アプリの機能がレビューアプリの中の一つの機能である場合、表示制御部124は、動画ファイルの再生表示の機能をさらに有する。例えば、動画ファイルを再生させるユーザの操作に応じて、表示制御部124は、動画ファイルを再生し、ウィンドウ画面WMに再生中の動画を表示させる。また、ウィンドウ画面WMには、動画の開始から終了までの再生位置を示すスライダSD2が表示されている。表示制御部124は、スライダSD2のうち検索ワード「3S」が表示される期間THに対応する部分がわかるように、他の期間と異なる表示態様(例えば、異なる色や太いバーで表示)で表示させる。また、表示制御部124は、再生中の動画の検索ワード「3S」の部分を、特定の表示態様で表示(例えば、ハイライト表示)させる。
【0161】
[第3の実施形態のまとめ]
以上説明してきたように、本実施形態に係る情報処理装置10は、レビューアプリを実行することにより実現される機能構成として、レビュー処理部120Bを備えている。レビュー処理部120Bは、動画ファイルと、動画ファイルの録画開始からキャプチャ画像ファイルごとのキャプチャまでの経過時間と、キャプチャ画像ファイルごとのキャプチャ画像の中から文字認識された文字情報に含まれる文字(テキストデータ)とを関連付けた検索用データ(関連付けデータの一例)を生成する。
【0162】
これにより、情報処理装置10は、動画ファイルに録画されている動画内の文字を検索ワードとして、動画内で当該文字が録画されている場面を検索することが可能となるため、利便性が良い。
【0163】
なお第2の実施形態と同様に、レビュー処理部120Bは、文字情報からキーワードを抽出し、抽出したキーワードを動画ファイル及び経過時間と関連付けてもよい。例えば、レビュー処理部120Bは、文字情報取得部123により取得した文字情報に含まれる文字の中からキーワードを抽出するキーワード抽出処理をさらに行い、動画ファイルと、動画ファイルの録画開始からキャプチャ画像ファイルごとのキャプチャまでの経過時間と、キャプチャ画像ファイルごとのキャプチャ画像の中から文字認識された文字情報に含まれるキーワードとを関連付けた検索用データ(関連付けデータの一例)を生成してもよい。
【0164】
<第4の実施形態>
次に、本発明の第4の実施形態について説明する。
本実施形態では、ビデオ会議アプリの字幕(ライブキャプション)を文字認識して、会議の会話の内容を文字(テキストデータ)して利用する例を説明する。ビデオ会議アプリには、会議で発話しているユーザ(会議の参加者)の音声を字幕表示するライブキャプション機能を有するものがある。
【0165】
図18は、本実施形態に係るビデオ会議アプリの表示例を示す図である。情報処理装置10の表示部14の表示画面G10には、ビデオ会議アプリのウィンドウWVが全画面表示されている。字幕表示領域LCには、会議で発話しているユーザの音声がライブキャプション機能により字幕表示されている。第1から第3の実施形態では、レビューアプリは、コンテンツ領域CRを所定時間ごとにキャプチャしたが、本実施形態では、字幕表示領域LCを所定時間ごとにキャプチャする。キャプチャの対象となる字幕表示領域LCは、ビデオ会議アプリの使用に合わせて予め設定されていてもよいし、ユーザがキャプチャの対象とする字幕表示領域LCの範囲を指定する操作を行うことにより設定されてもよい。
【0166】
この図に示す例では、字幕表示領域LCには、字幕が2行表示されている。上の行が確定された字幕であり、下の行が現在の音声に応じて更新中の字幕である。更新中の字幕は、音声の内容によって刻々と修正または変化があるため、上の行の字幕のみが文字認識の対象となる。
【0167】
なお、本実施形態では、字幕表示領域LCには、字幕が2行表示されている例を示しているが、3行以上であってもよい。また、本実施形態では、字幕表示領域LCの上の行(最も上の行)が上の行が確定された字幕であるが、これに限られるものではなく、例えば下の行(最も下の行)が確定された字幕であってもよい。
【0168】
図19は、本実施形態に係る情報処理装置10の機能構成の一例を示すブロック図である。なお、本実施形態に係る情報処理装置10の外観構成およびハードウェア構成は、図1及び図5に示す各構成と同様である。図19において、レビュー処理部120Cは、本実施形態に係るレビューアプリを実行することにより実現される機能構成である。ビデオ会議処理部111及び文字認識処理部112は、図6に示すビデオ会議処理部111及び文字認識処理部112と同様である。なお、ビデオ会議処理部111は、音声を文字認識して文字化(字幕化)するライブキャプション機能を有する。
【0169】
レビュー処理部120Cは、キャプチャ部121Cと、類似性判定部122と、文字情報取得部123Cと、表示制御部124と、検索データ生成部128Cと、字幕データ生成部129Cとを備えている。
【0170】
キャプチャ部121Cは、ビデオ会議アプリにより他の端末装置(情報処理装置)から受信した音声データが文字化された字幕が表示される字幕表示領域LCを、所定時間ごとにキャプチャ画像ファイル(静止画ファイル)としてキャプチャする。なお、類似性判定部122は、同様にキャプチャ画像の類似性を判定し、レビュー対象とするか否かを設定する。これにより、字幕のテキストデータを重複しないように取得できる。
【0171】
文字情報取得部123Cは、キャプチャ部121Cによりキャプチャされた字幕表示領域LCのキャプチャ画像(レビュー対象に設定されているキャプチャ画像)に含まれる字幕の一部(例えば、上の行の確定している字幕)が文字認識された文字情報を取得し、キャプチャ画像ごとの文字情報(字幕のテキストデータ)を保存する。
【0172】
検索データ生成部128Cは、文字情報取得部123Cにより取得した文字情報と動画ファイルとを関連付ける。例えば、検索データ生成部128Cは、動画ファイルと、動画ファイルの録画開始から静止画ファイルごとのキャプチャまでの経過時間と、キャプチャ画像ファイルごとのキャプチャ画像の中から文字認識された文字情報(字幕のテキストデータ)とを関連付けた検索用データを生成する。検索データ生成部128Cは、生成した検索用データを記憶部23の検索用データベースに記憶させる。
【0173】
例えば、検索用データベースは、図16に示す検索用データベースのテキストデータ(コンテンツ領域CRから文字認識されたテキストデータ)に代えて、字幕のテキストデータが格納されてもよいし、図16に示す検索用データベースのテキストデータに加えて、字幕のテキストデータが格納されてもよい。
【0174】
字幕データ生成部129Cは、文字情報取得部123Cにより取得したキャプチャ画像ごとの字幕の一部が文字認識された文字情報(字幕のテキストデータ)をキャプチャ画像のキャプチャ順にまとめた一つの字幕データファイルを生成する。字幕データ生成部129Cは、生成した字幕データファイルを記憶部23に記憶させる。
【0175】
図20は、本実施形態に係る字幕データファイルの一例を示す図である。図示するように、字幕データファイルには、ビデオ会議アプリのライブキャプション機能で表示される字幕のテキストデータが、時系列の順に上から下へ或いは下から上へ配列されている。これにより、ビデオ会議アプリのライブキャプション機能では表示される字幕が順次に表示からなくなって後に残らないが、本実施形態によるレビューアプリを用いることで、自動で字幕をテキスト化して残すことができる。
【0176】
[第4の実施形態のまとめ]
以上説明してきたように、本実施形態に係る情報処理装置10は、ネットワークを介して他の情報処理装置から受信した音声データを一時的に記憶するメモリ(例えば、メインメモリ12)と、当該メモリに記憶された音声データに基づく処理を実行するプロセッサ(例えば、CPU11)とを備えている。CPU11は、レビューアプリを実行することにより実現される機能構成として、レビュー処理部120Cを備えている。レビュー処理部120Cは、他の端末装置(情報処理装置)から受信して上記メモリに記憶された音声データが文字化された字幕が表示される表示部14の画面領域のうち字幕が表示される画面領域(例えば、字幕表示領域LC)を、所定時間ごとにキャプチャ画像ファイル(静止画ファイル)としてキャプチャするキャプチャ処理を行う。また、レビュー処理部120Cは、キャプチャ処理によりキャプチャされた一連のキャプチャ画像ファイルのうちの少なくとも一部のキャプチャ画像に含まれる字幕の一部が文字認識された文字情報(字幕のテキストデータ)を取得し、キャプチャ画像ごとの文字情報を保存する文字情報取得処理を行う。
【0177】
これにより、情報処理装置10は、ライブキャプション機能で表示される字幕をテキスト化して残すことができるため、利便性がよい。例えば、情報処理装置10は、ビデオ会議アプリで、参加者が発話している内容を自動でテキスト化して残すことができるため、オンラインによるビデオ会議の利便性を向上させることができる。
【0178】
また、レビュー処理部120Cは、取得したキャプチャ画像ごとの字幕の一部が文字認識された文字情報(字幕のテキストデータ)をキャプチャ画像のキャプチャ順にまとめた一つの字幕データファイル(データファイルの一例)を生成するファイル生成処理を行う。
【0179】
これにより、情報処理装置10は、ライブキャプション機能で表示される字幕をテキスト化したデータファイルを生成することができるため、利便性がよい。例えば、情報処理装置10は、ビデオ会議アプリで、参加者が発話している内容を発話の順に並べたテキストデータを自動で生成することができるため、オンラインによるビデオ会議の利便性を向上させることができる。
【0180】
また、レビュー処理部120Cは、キャプチャ処理において、他の端末装置(情報処理装置)から受信した映像データが録画された動画ファイルの録画開始から録画終了までの期間の中で、所定時間ごとのキャプチャを行う。
また、レビュー処理部120Cは、取得した文字情報(字幕のテキストデータ)と動画ファイルとを関連付ける関連付け処理をさらに行う。
【0181】
これにより、情報処理装置10は、文字検索により、当該文字に対応する音声が録画されている動画ファイルを検索することが可能となるため、ユーザが所望の動画ファイルを容易に見つけることができ、利便性が良い。
【0182】
例えば、レビュー処理部120Cは、関連付け処理において、動画ファイルと、動画ファイルの録画開始から静止画ファイルごとのキャプチャまでの経過時間と、キャプチャ画像ファイルごとのキャプチャ画像の中から文字認識された文字情報に含まれる文字(字幕のテキストデータ)とを関連付けた検索用データ(関連付けデータの一例)を生成する。
【0183】
これにより、情報処理装置10は、動画ファイルに録画されている動画内の文字(字幕のテキストデータ)を検索ワードとして、動画内で当該文字が録画されている場面(即ち、当該文字に対応する音声が録画されている場面)を検索することが可能となるため、利便性が良い。
【0184】
また、情報処理装置10における制御方法は、レビュー処理部120Cが、他の端末装置(情報処理装置)から受信してメモリ(例えば、メインメモリ12)に記憶された音声データが文字化された字幕が表示される表示部14の画面領域のうち字幕が表示される画面領域(例えば、字幕表示領域LC)を、所定時間ごとにキャプチャ画像ファイル(静止画ファイル)としてキャプチャするステップと、キャプチャするステップによりキャプチャされた一連のキャプチャ画像ファイルのうちの少なくとも一部のキャプチャ画像に含まれる字幕の一部が文字認識された文字情報(字幕のテキストデータ)を取得し、キャプチャ画像ごとの文字情報を保存するステップと、を含む。
【0185】
これにより、情報処理装置10は、ライブキャプション機能で表示される字幕をテキスト化して残すことができるため、利便性がよい。例えば、情報処理装置10は、ビデオ会議アプリで、参加者が発話している内容を自動でテキスト化して残すことができるため、オンラインによるビデオ会議の利便性を向上させることができる。
【0186】
以上、この発明の各実施形態について図面を参照して詳述してきたが、具体的な構成は上述の実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。例えば、上述の各実施形態において説明した各構成は、任意に組み合わせることができる。
【0187】
また、上記の各実施形態において、ビデオ会議アプリのウィンドウWVの少なくとも一部の領域をキャプチャするタイミングは、ビデオ会議アプリの実行中(会議中)に限らず、会議の終了後に、ビデオ会議アプリの実行中にウィンドウWVの少なくとも一部の領域が録画された動画ファイルを再生した映像を所定時間ごとにキャプチャしてもよい。さらに、動画ファイルを再生してキャプチャする場合、その動画ファイルは、ビデオ会議アプリの動画ファイルに限らず、他の用途で作成された動画ファイルであってもよい。また、動画ファイルの録画中の映像または録画済みの動画ファイルを再生した映像を、別途スクリーンキャプチャしてもよい。
【0188】
また、キャプチャ画像から文字認識された領域を予め設定された大きさより小さい場合には、文字情報として取得しなくてもよい。
【0189】
なお、上述した情報処理装置10は、内部にコンピュータシステムを有している。そして、上述した情報処理装置10が備える各構成の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより上述した情報処理装置10が備える各構成における処理を行ってもよい。ここで、「記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行する」とは、コンピュータシステムにプログラムをインストールすることを含む。ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、インターネットやWAN、LAN、専用回線等の通信回線を含むネットワークを介して接続された複数のコンピュータ装置を含んでもよい。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。このように、プログラムを記憶した記録媒体は、CD-ROM等の非一過性の記録媒体であってもよい。
【0190】
また、記録媒体には、当該プログラムを配信するために配信サーバからアクセス可能な内部又は外部に設けられた記録媒体も含まれる。なお、プログラムを複数に分割し、それぞれ異なるタイミングでダウンロードした後に情報処理装置10が備える各構成で合体される構成や、分割されたプログラムのそれぞれを配信する配信サーバが異なっていてもよい。さらに「コンピュータ読み取り可能な記録媒体」とは、ネットワークを介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。また、上記プログラムは、上述した機能の一部を実現するためのものであってもよい。さらに、上述した機能をコンピュータシステムに既に記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
【0191】
また、上述した実施形態における情報処理装置10が備える各機能の一部、または全部を、LSI(Large Scale Integration)等の集積回路として実現してもよい。各機能は個別にプロセッサ化してもよいし、一部、又は全部を集積してプロセッサ化してもよい。また、集積回路化の手法はLSIに限らず専用回路、または汎用プロセッサで実現してもよい。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。
【0192】
また、上述した実施形態では、情報処理装置10がノートPCである例を説明したが、デスクトップ型やタブレット型のPCであってもよいし、スマートフォンやゲーム機、或いはビデオ会議専用の電子機器などであってもよい。また、撮像部27は、情報処理装置10に内蔵されたものに限らず、USB(Universal Serial Bus)等で接続される周辺機器であってもよい。また、表示部14は、情報処理装置10に内蔵されたものに限らず、HDMI(登録商標)またはUSB等で接続される周辺機器であってもよい。
【符号の説明】
【0193】
10 情報処理装置、101 第1筐体、102 第2筐体、103 ヒンジ機構、11 CPU、12 メインメモリ、13 ビデオサブシステム、14 表示部、21 チップセット、22 BIOSメモリ、23 記憶部、24 オーディオシステム、25 通信部、26 USBコネクタ、27 撮像部、31 エンベデッドコントローラ、32 キーボード、33 電源回路、34 バッテリ、35 センサ、110 処理部、111 ビデオ会議処理部、112 文字認識処理部、120,120A,120B,120C レビュー処理部、121,121C キャプチャ部、122 類似性判定部、123 文字情報取得部、124 表示制御部、125 文字情報提供部、126A キーワード抽出部、127A キーワード登録部、128B,128C 検索データ生成部、129C 字幕データ生成部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20