特許7288491 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ レノボ・シンガポール・プライベート・リミテッドの特許一覧

特許7288491情報処理装置、及び制御方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-05-30

(45)【発行日】2023-06-07

(54)【発明の名称】情報処理装置、及び制御方法

(51)【国際特許分類】

H04L 67/125 20220101AFI20230531BHJP

H04N 7/15 20060101ALI20230531BHJP

【ＦＩ】

H04L67/125

H04N7/15

【請求項の数】 24

(21)【出願番号】P 2021170983

(22)【出願日】2021-10-19

(65)【公開番号】P2023061165

(43)【公開日】2023-05-01

【審査請求日】2021-10-19

(73)【特許権者】

【識別番号】505205731

【氏名又は名称】レノボ・シンガポール・プライベート・リミテッド

(74)【代理人】

【識別番号】100161207

【弁理士】

【氏名又は名称】西澤和純

(74)【代理人】

【識別番号】100169764

【弁理士】

【氏名又は名称】清水雄一郎

(74)【代理人】

【識別番号】100175824

【弁理士】

【氏名又は名称】小林淳一

(74)【代理人】

【識別番号】100206081

【弁理士】

【氏名又は名称】片岡央

(72)【発明者】

【氏名】牧耕太郎

(72)【発明者】

【氏名】小山翔平

【審査官】木村雅也

(56)【参考文献】

【文献】特開２００８－０１７０５０（ＪＰ，Ａ）

【文献】特開２０１３－１１５４５７（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｈ０４Ｌ６７／１２５

Ｈ０４Ｎ７／１５

(57)【特許請求の範囲】

【請求項1】

ネットワークを介して他の情報処理装置から受信した映像データを一時的に記憶するメモリと、
前記メモリに記憶された映像データに基づく処理を実行するプロセッサと、を備え、
前記プロセッサは、
前記他の情報処理装置から受信して前記メモリに記憶された映像データの映像が表示される表示部の画面領域のうち前記映像の少なくとも一部が含まれる画面領域を、所定時間ごとに静止画ファイルとしてキャプチャするキャプチャ処理と、
前記キャプチャ処理による前記所定時間ごとのキャプチャを継続しながら、前記キャプチャ処理によりキャプチャされた一連の静止画ファイルのうちの少なくとも一部の画像の中から文字認識された文字情報を取得し、前記画像ごとの前記文字情報を保存する文字情報取得処理と、
前記キャプチャ処理による前記所定時間ごとのキャプチャを継続しながら、前記一部の画像を前記文字情報と関連付けて前記表示部に表示させる表示制御処理と、
を行う情報処理装置。

【請求項2】

前記プロセッサは、
前記文字情報取得処理において、前記文字情報として、前記一部の画像の中から文字認識された文字のデータ及び当該文字が認識された位置のデータを取得し、
前記表示制御処理において、前記一部の画像を前記文字情報と関連付けて前記表示部に表示させる際に、画像内で文字が認識された位置を特定の表示態様で表示させる、
請求項１に記載の情報処理装置。

【請求項3】

前記プロセッサは、
前記表示制御処理により前記表示部に表示させた画像内の文字が認識された位置に対するユーザの操作に基づいて、前記認識された文字を提供する提供処理を行う、
請求項２に記載の情報処理装置。

【請求項4】

前記プロセッサは、
前記提供処理において、前記認識された文字をコピー可能なように提供する、
請求項３に記載の情報処理装置。

【請求項5】

前記プロセッサは、
前記提供処理において、前記認識された文字をブラウザで検索可能なように提供する、
請求項３に記載の情報処理装置。

【請求項6】

前記プロセッサは、
前記提供処理において、前記認識された文字がＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）を示している場合、当該ＵＲＬで特定されるリソースを前記表示部に表示可能なように提供する、
請求項３に記載の情報処理装置。

【請求項7】

前記プロセッサは、
前記表示制御処理において、前記キャプチャ処理によりキャプチャされた一連の静止画ファイルのそれぞれをキャプチャ順に対応して選択可能なユーザインタフェースを前記表示部に表示させるとともに、当該ユーザインタフェースに対するユーザの操作に応じて選択された静止画ファイルの画像を前記表示部に表示させる、
請求項１から請求項６のいずれか一項に記載の情報処理装置。

【請求項8】

前記プロセッサは、
前記キャプチャ処理において、前記表示部の画面領域のうち前記映像内の特定領域をキャプチャする、
請求項１から請求項７のいずれか一項に記載の情報処理装置。

【請求項9】

前記プロセッサは、
前記キャプチャ処理によりキャプチャされる度に、今回キャプチャされた静止画ファイルの画像を以前にキャプチャされた静止画ファイルの画像と比較して類似性を判定する類似性判定処理をさらに行い、
前記類似性判定処理により以前にキャプチャされた静止画ファイルの画像との類似度が所定の閾値以上であると判定された静止画ファイルの画像を、前記文字情報取得処理により前記文字情報を取得する対象及び前記表示制御処理により前記表示部に表示させる表示対象から除外する、
請求項１に記載の情報処理装置。

【請求項10】

前記プロセッサは、
前記キャプチャ処理において、前記他の情報処理装置から受信した映像データが録画された動画ファイルの録画開始から録画終了までの期間の中で、前記所定時間ごとのキャプチャを行い、
前記文字情報取得処理により取得した文字情報と前記動画ファイルとをさらに関連付ける関連付け処理をさらに行う、
請求項１から請求項９のいずれか一項に記載の情報処理装置。

【請求項11】

前記プロセッサは、
前記文字情報取得処理により取得した前記文字情報に含まれる文字の中からキーワードを抽出するキーワード抽出処理をさらに行い、
前記関連付け処理において、前記キーワードと前記動画ファイルとを関連付ける、
請求項１０に記載の情報処理装置。

【請求項12】

前記プロセッサは、
前記関連付け処理において、前記キーワードを前記動画ファイルのメタデータに保存することにより、前記キーワードと前記動画ファイルとを関連付ける、
請求項１１に記載の情報処理装置。

【請求項13】

前記プロセッサは、
前記関連付け処理において、前記動画ファイルと、前記動画ファイルの録画開始から前記静止画ファイルごとのキャプチャまでの経過時間と、前記静止画ファイルごとの画像の中から文字認識された前記文字情報に含まれる文字とを関連付けた関連付けデータを生成する、
請求項１０に記載の情報処理装置。

【請求項14】

前記プロセッサは、
前記文字情報取得処理により取得した前記文字情報に含まれる文字の中からキーワードを抽出するキーワード抽出処理をさらに行い、
前記関連付け処理において、前記動画ファイルと、前記動画ファイルの録画開始から前記静止画ファイルごとのキャプチャまでの経過時間と、前記静止画ファイルごとの画像の中から文字認識された前記文字情報に含まれる前記キーワードとを関連付けた関連付けデータを生成する、
請求項１０に記載の情報処理装置。

【請求項15】

前記メモリは、さらに、前記ネットワークを介して前記他の情報処理装置から受信した映像データに関連付けられた音声データを一時的に記憶し、
前記プロセッサは、
前記キャプチャ処理において、前記他の情報処理装置から受信して前記メモリに記憶された映像データの映像と音声データが文字化された字幕とが表示される前記表示部の画面領域のうち前記字幕が表示される画面領域を、前記所定時間ごとに静止画ファイルとしてさらにキャプチャし、
前記文字情報取得処理において、前記キャプチャ処理によりキャプチャされた一連の静止画ファイルのうちの少なくとも一部の画像に含まれる前記字幕の一部が文字認識された前記文字情報を取得し、前記画像ごとの前記文字情報を保存する、
請求項９に記載の情報処理装置。

【請求項16】

ネットワークを介して他の情報処理装置から受信した映像データと前記ネットワークを介して前記他の情報処理装置から受信した映像データに関連付けられた音声データとを一時的に記憶するメモリと、
前記メモリに記憶された映像データに基づく処理を実行するプロセッサと、を備え、
前記プロセッサは、
前記他の情報処理装置から受信して前記メモリに記憶された映像データの映像が表示される表示部の画面領域のうち前記映像の少なくとも一部が含まれる画面領域を、所定時間ごとに静止画ファイルとしてキャプチャするキャプチャ処理と、
前記キャプチャ処理による前記所定時間ごとのキャプチャを継続しながら、前記キャプチャ処理によりキャプチャされた一連の静止画ファイルのうちの少なくとも一部の画像の中から文字認識された文字情報を取得し、前記画像ごとの前記文字情報を保存する文字情報取得処理と、
を行い、
前記キャプチャ処理において、前記他の情報処理装置から受信して前記メモリに記憶された映像データの映像と音声データが文字化された字幕とが表示される前記表示部の画面領域のうち前記字幕が表示される画面領域を、前記所定時間ごとに静止画ファイルとしてさらにキャプチャし、
前記文字情報取得処理において、前記キャプチャ処理によりキャプチャされた一連の静止画ファイルのうちの少なくとも一部の画像に含まれる前記字幕の一部が文字認識された前記文字情報を取得し、前記画像ごとの前記文字情報を保存する、
情報処理装置。

【請求項17】

前記プロセッサは、
前記文字情報取得処理により取得した前記画像ごとの前記字幕の一部が文字認識された前記文字情報を前記画像のキャプチャ順にまとめた一つのデータファイルを生成するファイル生成処理をさらに行う、
請求項１５または請求項１６に記載の情報処理装置。

【請求項18】

前記プロセッサは、
前記キャプチャ処理において、前記他の情報処理装置から受信した映像データが録画された動画ファイルの録画開始から録画終了までの期間の中で、前記所定時間ごとのキャプチャを行い、
前記文字情報取得処理により取得した文字情報と前記動画ファイルとをさらに関連付ける関連付け処理をさらに行う、
請求項１５または請求項１６に記載の情報処理装置。

【請求項19】

前記プロセッサは、
前記関連付け処理において、前記動画ファイルと、前記動画ファイルの録画開始から前記静止画ファイルごとのキャプチャまでの経過時間と、前記静止画ファイルごとの画像の中から文字認識された前記文字情報に含まれる文字とを関連付けた関連付けデータを生成する、
請求項１８に記載の情報処理装置。

【請求項20】

ネットワークを介して他の情報処理装置から受信した音声データを一時的に記憶するメモリと、
前記メモリに記憶された音声データに基づく処理を実行するプロセッサと、を備え、
前記プロセッサは、
前記他の情報処理装置から受信して前記メモリに記憶された音声データが文字化された字幕が表示される表示部の画面領域のうち前記字幕が表示される画面領域を、所定時間ごとに静止画ファイルとしてキャプチャするキャプチャ処理と、
前記キャプチャ処理によりキャプチャされた一連の静止画ファイルのうちの少なくとも一部の画像に含まれる前記字幕の一部が文字認識された文字情報を取得し、前記画像ごとの前記文字情報を保存する文字情報取得処理と、
を行う情報処理装置。

【請求項21】

前記プロセッサは、
前記文字情報取得処理により取得した前記画像ごとの前記字幕の一部が文字認識された前記文字情報を前記画像のキャプチャ順にまとめた一つのデータファイルを生成するファイル生成処理をさらに行う、
請求項２０に記載の情報処理装置。

【請求項22】

ネットワークを介して他の情報処理装置から受信した映像データを一時的に記憶するメモリと、前記メモリに記憶された映像データに基づく処理を実行するプロセッサとを備える情報処理装置における制御方法であって、
前記プロセッサが、
前記他の情報処理装置から受信して前記メモリに記憶された映像データの映像が表示される表示部の画面領域のうち前記映像の少なくとも一部が含まれる画面領域を、所定時間ごとに静止画ファイルとしてキャプチャするステップと、
前記キャプチャするステップによる前記所定時間ごとのキャプチャを継続しながら、前記キャプチャするステップによりキャプチャされた一連の静止画ファイルのうちの少なくとも一部の画像の中から文字認識された文字情報を取得し、前記画像ごとの前記文字情報を保存するステップと、
前記キャプチャするステップによる前記所定時間ごとのキャプチャを継続しながら、前記一部の画像を前記文字情報と関連付けて前記表示部に表示させるステップと、
を含む制御方法。

【請求項23】

ネットワークを介して他の情報処理装置から受信した音声データを一時的に記憶するメモリと、前記メモリに記憶された音声データに基づく処理を実行するプロセッサとを備える情報処理装置における制御方法であって、
前記プロセッサが、
前記他の情報処理装置から受信して前記メモリに記憶された音声データが文字化された字幕が表示される表示部の画面領域のうち前記字幕が表示される画面領域を、所定時間ごとに静止画ファイルとしてキャプチャするステップと、
前記キャプチャするステップによりキャプチャされた一連の静止画ファイルのうちの少なくとも一部の画像に含まれる前記字幕の一部が文字認識された文字情報を取得し、前記画像ごとの前記文字情報を保存するステップと、
を含む制御方法。

【請求項24】

ネットワークを介して他の情報処理装置から受信した映像データと前記ネットワークを介して前記他の情報処理装置から受信した映像データに関連付けられた音声データとを一時的に記憶するメモリと、前記メモリに記憶された映像データに基づく処理を実行するプロセッサとを備える情報処理装置における制御方法であって、
前記プロセッサが、
前記他の情報処理装置から受信して前記メモリに記憶された映像データの映像が表示される表示部の画面領域のうち前記映像の少なくとも一部が含まれる画面領域を、所定時間ごとに静止画ファイルとしてキャプチャするステップと、
前記キャプチャするステップによる前記所定時間ごとのキャプチャを継続しながら、前記キャプチャするステップによりキャプチャされた一連の静止画ファイルのうちの少なくとも一部の画像の中から文字認識された文字情報を取得し、前記画像ごとの前記文字情報を保存するステップと、
を含み、
前記キャプチャするステップにおいて、前記他の情報処理装置から受信して前記メモリに記憶された映像データの映像と音声データが文字化された字幕とが表示される前記表示部の画面領域のうち前記字幕が表示される画面領域を、前記所定時間ごとに静止画ファイルとしてさらにキャプチャし、
前記文字情報を保存するステップにおいて、前記キャプチャするステップによりキャプチャされた一連の静止画ファイルのうちの少なくとも一部の画像に含まれる前記字幕の一部が文字認識された前記文字情報を取得し、前記画像ごとの前記文字情報を保存する、
制御方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理装置、及び制御方法に関する。

【背景技術】

【0002】

ネットワークを介してオンラインでビデオ会議を行うためのアプリケーションがある。このようなアプリケーションは、ビデオ会議に参加しているユーザがそれぞれ使用している情報処理装置からユーザの映像及び音声を送受信するだけでなく、資料などが表示される画面をそれぞれの情報処理装置で閲覧できるように共有する機能を有しているものがある（例えば、特許文献１）。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２０１９－６１５９４号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

上述したようなアプリケーションでは、発表者が他の参加者へ資料などが表示される画面を共有しながら説明する場面がある。しかしながら、共有されている資料は、参加者側には映像として表示されるため、その資料に記載されている語句、文字または文章の中に参加者が調べたいものや他で利用したいものがあっても、その都度、参加者がタイピングする必要があり不便であった。

【0005】

本発明は、上記した事情に鑑みてなされたもので、オンラインによるビデオ会議の利便性を向上させる情報処理装置、及び制御方法を提供することを目的の一つとする。

【課題を解決するための手段】

【0006】

本発明は上記の課題を解決するためになされたものであり、本発明の第１態様に係る情報処理装置は、ネットワークを介して他の情報処理装置から受信した映像データを一時的に記憶するメモリと、前記メモリに記憶された映像データに基づく処理を実行するプロセッサと、を備え、前記プロセッサは、前記他の情報処理装置から受信して前記メモリに記憶された映像データの映像が表示される表示部の画面領域のうち前記映像の少なくとも一部が含まれる画面領域を、所定時間ごとに静止画ファイルとしてキャプチャするキャプチャ処理と、前記キャプチャ処理による前記所定時間ごとのキャプチャを継続しながら、前記キャプチャ処理によりキャプチャされた一連の静止画ファイルのうちの少なくとも一部の画像の中から文字認識された文字情報を取得し、前記画像ごとの前記文字情報を保存する文字情報取得処理と、を行う。

【0007】

上記情報処理装置において、前記プロセッサは、前記キャプチャ処理による前記所定時間ごとのキャプチャを継続しながら、前記一部の画像を前記文字情報と関連付けて前記表示部に表示させる表示制御処理をさらに行う。
また、本開示の一態様は、前記プロセッサは、前記文字情報取得処理において、前記文字情報として、前記一部の画像の中から文字認識された文字のデータ及び当該文字が認識された位置のデータを取得し、前記表示制御処理において、前記一部の画像を前記文字情報と関連付けて前記表示部に表示させる際に、画像内で文字が認識された位置を特定の表示態様で表示させる。

【0008】

上記情報処理装置において、前記プロセッサは、前記表示制御処理により前記表示部に表示させた画像内の文字が認識された位置に対するユーザの操作に基づいて、前記認識された文字を提供する提供処理を行う。

【0009】

上記情報処理装置において、前記プロセッサは、前記提供処理において、前記認識された文字をコピー可能なように提供する。

【0010】

上記情報処理装置において、前記プロセッサは、前記提供処理において、前記認識された文字をブラウザで検索可能なように提供する。

【0011】

上記情報処理装置において、前記プロセッサは、前記提供処理において、前記認識された文字がＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）を示している場合、当該ＵＲＬで特定されるリソースを前記表示部に表示可能なように提供する。

【0012】

上記情報処理装置において、前記プロセッサは、前記表示制御処理において、前記キャプチャ処理によりキャプチャされた一連の静止画ファイルのそれぞれをキャプチャ順に対応して選択可能なユーザインタフェースを前記表示部に表示させるとともに、当該ユーザインタフェースに対するユーザの操作に応じて選択された静止画ファイルの画像を前記表示部に表示させる。

【0013】

上記情報処理装置において、前記プロセッサは、前記キャプチャ処理において、前記表示部の画面領域のうち前記映像内の特定領域をキャプチャする。

【0014】

上記情報処理装置において、前記プロセッサは、前記キャプチャ処理によりキャプチャされる度に、今回キャプチャされた静止画ファイルの画像を以前にキャプチャされた静止画ファイルの画像と比較して類似性を判定する類似性判定処理をさらに行い、前記類似性判定処理により以前にキャプチャされた静止画ファイルの画像との類似度が所定の閾値以上であると判定された静止画ファイルの画像を、前記文字情報取得処理により前記文字情報を取得する対象及び前記表示制御処理により前記表示部に表示させる表示対象から除外する。

【0015】

上記情報処理装置において、前記プロセッサは、前記キャプチャ処理において、前記他の情報処理装置から受信した映像データが録画された動画ファイルの録画開始から録画終了までの期間の中で、前記所定時間ごとのキャプチャを行い、前記文字情報取得処理により取得した文字情報と前記動画ファイルとをさらに関連付ける関連付け処理をさらに行う。

【0016】

上記情報処理装置において、前記プロセッサは、前記文字情報取得処理により取得した前記文字情報に含まれる文字の中からキーワードを抽出するキーワード抽出処理をさらに行い、前記関連付け処理において、前記キーワードと前記動画ファイルとを関連付ける。

【0017】

上記情報処理装置において、前記プロセッサは、前記関連付け処理において、前記キーワードを前記動画ファイルのメタデータに保存することにより、前記キーワードと前記動画ファイルとを関連付ける。

【0018】

上記情報処理装置において、前記プロセッサは、前記関連付け処理において、前記動画ファイルと、前記動画ファイルの録画開始から前記静止画ファイルごとのキャプチャまでの経過時間と、前記静止画ファイルごとの画像の中から文字認識された前記文字情報に含まれる文字とを関連付けた関連付けデータを生成する。

【0019】

上記情報処理装置において、前記プロセッサは、前記文字情報取得処理により取得した前記文字情報に含まれる文字の中からキーワードを抽出するキーワード抽出処理をさらに行い、前記関連付け処理において、前記動画ファイルと、前記動画ファイルの録画開始から前記静止画ファイルごとのキャプチャまでの経過時間と、前記静止画ファイルごとの画像の中から文字認識された前記文字情報に含まれる前記キーワードとを関連付けた関連付けデータを生成する。

【0020】

上記情報処理装置において、前記メモリは、さらに、前記ネットワークを介して前記他の情報処理装置から受信した映像データに関連付けられた音声データを一時的に記憶し、前記プロセッサは、前記キャプチャ処理において、前記他の情報処理装置から受信して前記メモリに記憶された映像データの映像と音声データが文字化された字幕とが表示される前記表示部の画面領域のうち前記字幕が表示される画面領域を、前記所定時間ごとに静止画ファイルとしてさらにキャプチャし、前記文字情報取得処理において、前記キャプチャ処理によりキャプチャされた一連の静止画ファイルのうちの少なくとも一部の画像に含まれる前記字幕の一部が文字認識された前記文字情報を取得し、前記画像ごとの前記文字情報を保存する。

【0021】

上記情報処理装置において、前記プロセッサは、前記文字情報取得処理により取得した前記画像ごとの前記字幕の一部が文字認識された前記文字情報を前記画像のキャプチャ順にまとめた一つのデータファイルを生成するファイル生成処理をさらに行う。

【0022】

【0023】

【0024】

また、本発明の第２態様に係る情報処理装置は、ネットワークを介して他の情報処理装置から受信した音声データを一時的に記憶するメモリと、前記メモリに記憶された音声データに基づく処理を実行するプロセッサと、を備え、前記プロセッサは、前記他の情報処理装置から受信して前記メモリに記憶された音声データが文字化された字幕が表示される表示部の画面領域のうち前記字幕が表示される画面領域を、所定時間ごとに静止画ファイルとしてキャプチャするキャプチャ処理と、前記キャプチャ処理によりキャプチャされた一連の静止画ファイルのうちの少なくとも一部の画像に含まれる前記字幕の一部が文字認識された文字情報を取得し、前記画像ごとの前記文字情報を保存する文字情報取得処理と、を行う。

【0025】

【0026】

また、本発明の第３態様に係る、ネットワークを介して他の情報処理装置から受信した映像データを一時的に記憶するメモリと、前記メモリに記憶された映像データに基づく処理を実行するプロセッサとを備える情報処理装置の制御方法は、前記プロセッサが、前記他の情報処理装置から受信して前記メモリに記憶された映像データの映像が表示される表示部の画面領域のうち前記映像の少なくとも一部が含まれる画面領域を、所定時間ごとに静止画ファイルとしてキャプチャするステップと、前記キャプチャするステップによる前記所定時間ごとのキャプチャを継続しながら、前記キャプチャするステップによりキャプチャされた一連の静止画ファイルのうちの少なくとも一部の画像の中から文字認識された文字情報を取得し、前記画像ごとの前記文字情報を保存するステップと、を含む。

【0027】

また、本発明の第４態様に係る、ネットワークを介して他の情報処理装置から受信した音声データを一時的に記憶するメモリと、前記メモリに記憶された音声データに基づく処理を実行するプロセッサとを備える情報処理装置の制御方法は、前記プロセッサが、前記他の情報処理装置から受信して前記メモリに記憶された音声データが文字化された字幕が表示される表示部の画面領域のうち前記字幕が表示される画面領域を、所定時間ごとに静止画ファイルとしてキャプチャするステップと、前記キャプチャするステップによりキャプチャされた一連の静止画ファイルのうちの少なくとも一部の画像に含まれる前記字幕の一部が文字認識された文字情報を取得し、前記画像ごとの前記文字情報を保存するステップと、を含む。

【発明の効果】

【0028】

本発明の上記態様によれば、オンラインによるビデオ会議の利便性を向上させることができる。

【図面の簡単な説明】

【0029】

【図1】第１の実施形態に係る情報処理装置の外観を示す斜視図。

【図2】第１の実施形態に係るレビューアプリの表示例を示す図。

【図3】第１の実施形態に係るレビューアプリによるキャプチャ画像とその表示の説明図。

【図4】第１の実施形態に係るレビューアプリでキャプチャ画像内のＵＲＬが選択される場合の説明図。

【図5】第１の実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図。

【図6】第１の実施形態に係る情報処理装置の機能構成の一例を示すブロック図。

【図7】第１の実施形態に係るキャプチャ画像ファイルの一例を示す図。

【図8】第１の実施形態に係る文字情報ファイルの一例を示す図。

【図9】第１の実施形態に係るレビュー処理の一例を示すフローチャート。

【図10】第１の実施形態に係るキャプチャ処理の一例を示すフローチャート。

【図11】第１の実施形態に係る文字情報取得処理の一例を示すフローチャート。

【図12】第２の実施形態に係るファイル管理アプリの一例を示す図。

【図13】第２の実施形態に係る動画ファイルのメタデータの一例を示す図。

【図14】第２の実施形態に係る情報処理装置の機能構成の一例を示すブロック図。

【図15】第３の実施形態に係る情報処理装置の機能構成の一例を示すブロック図。

【図16】第３の実施形態に係る検索用データベースの一例を示す図。

【図17】第３の実施形態に係る動画再生画面における検索結果の表示例を示す図。

【図18】第４の実施形態に係るビデオ会議アプリの表示例を示す図。

【図19】第４の実施形態に係る情報処理装置の機能構成の一例を示すブロック図。

【図20】第４の実施形態に係る字幕データファイルの一例を示す図。

【発明を実施するための形態】

【0030】

以下、図面を参照して、本発明の実施形態について説明する。
＜第１の実施形態＞
まず、本実施形態に係る情報処理装置の概要について説明する。
図１は、本実施形態に係る情報処理装置の外観を示す斜視図である。図示する情報処理装置１０は、クラムシェル型のノートＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）である。情報処理装置１０は、第１筐体１０１、第２筐体１０２、及びヒンジ機構１０３を備えている。第１筐体１０１及び第２筐体１０２は、略四角形の板状（例えば、平板状）の筐体である。第１筐体１０１の側面の一つと第２筐体１０２の側面の一つとがヒンジ機構１０３を介して結合（連結）されており、ヒンジ機構１０３がなす回転軸の周りに第１筐体１０１と第２筐体１０２とが相対的に回動可能である。第１筐体１０１と第２筐体１０２との回転軸の周りの開き角θが略０°の状態が、第１筐体１０１と第２筐体１０２とが重なり合って閉じた状態（「閉状態」と称する）である。閉状態において第１筐体１０１と第２筐体１０２との互いに対面する側の面を、それぞれの「内面」と呼び、内面に対して反対側の面を「外面」と称する。開き角θとは、第１筐体１０１の内面と第２筐体１０２の内面とがなす角とも言うことができる。閉状態に対して第１筐体１０１と第２筐体１０２とが開いた状態のことを「開状態」と称する。開状態とは、開き角θが予め設定された閾値（例えば、１０°）より大きくなるまで、第１筐体１０１と第２筐体１０２とが相対的に回動された状態である。

【0031】

第１筐体１０１の内面には、表示部１４が設けられている。表示部１４は、情報処理装置１０に実行される処理に基づく映像を表示する。また、第１筐体１０１の内面のうち表示部１４の周縁の領域に、撮像部２７（カメラ）及びマイク（マイクロフォン）２４１が設けられている。即ち、撮像部２７及びマイク２４１は、情報処理装置１０を使用するユーザと対面するような位置に設けられている。なお、マイク２４１は、右側用と左側用の２つのマイクに分かれて設けられてもよい。

【0032】

また、第２筐体１０２の内面には、キーボード３２及びスピーカ２４２が設けられている。キーボード３２は、ユーザの操作を受け付ける入力デバイスとして設けられている。なお、スピーカ２４２は、右側用と左側用の２つのスピーカに分かれて設けられてもよい。閉状態では、表示部１４が視認できない状態、且つキーボード３２への操作ができない状態となる。一方、開状態では、表示部１４が視認可能な状態、且つキーボード３２への操作が可能な状態（即ち、情報処理装置１０を使用可能な状態）となる。

【0033】

情報処理装置１０は、各種のアプリケーションのプログラムを実行することができる。例えば、情報処理装置１０は、撮像部２７により撮像される映像やマイク２４１に入力される音声などを用いるアプリケーションのプログラムを実行する。一例として、複数のユーザのそれぞれが端末装置を用いて双方向に映像及び音声を通信するアプリケーションがあり、ビデオ会議などに使用される。このようなビデオ会議に使用できるアプリケーションのことを、以下では「ビデオ会議アプリ」と称する。情報処理装置１０は、ビデオ会議アプリを実行することにより、ビデオ会議アプリを用いて他のユーザとビデオ会議を行う際の端末装置として利用することができる。

【0034】

情報処理装置１０を用いてユーザがビデオ会議アプリを使用する場合、撮像部２７は、表示部１４に対面するユーザ（ビデオ会議の参加者）などが含まれる映像を撮像する。また、マイク２４１には、当該ユーザが発する音声などが入力される。情報処理装置１０は、ビデオ会議アプリの処理に基づいて撮像部２７により撮像された映像及びマイク２４１に入力された音声を、ビデオ会議に参加する他のユーザの端末装置へネットワークを介して送信する。また、情報処理装置１０は、他のユーザの端末装置からネットワークを介して取映像及び音声を取得し、取得した映像を表示部１４に表示するとともに、取得した音声をスピーカ２４２などから出力する。このように、ビデオ会議アプリを使用することにより、ビデオ会議に参加する各ユーザは、互いにユーザの映像を見ながら会話を行うことができる。

【0035】

ネットワークとは、例えばインターネットや、携帯電話網、ＶＰＮ（ＶｉｒｔｕａｌＰｒｉｖａｔｅＮｅｔｗｏｒｋ）網、専用通信回線網、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＰＳＴＮ（ＰｕｂｌｉｃＳｗｉｔｃｈｅｄＴｅｌｅｐｈｏｎｅＮｅｔｗｏｒｋ；公衆交換電話網）など、またはこれらの組み合わせによって構成される通信ネットワークである。

【0036】

また、ビデオ会議アプリには、発表者の端末装置で資料などを表示している画面を他の参加者の端末装置で閲覧できるようにする機能を有しているものがある。この機能を用いて、発表者が他の参加者へ資料を共有しながら説明する場面がある。しかしながら、発表者が資料のページを送りながら説明を行っているときに、参加者側としては、発表者が現在表示させている資料のページよりも前のページを見たい場合がある。また、共有されている資料は、参加者側には映像として表示されるため、その資料の記載されている語句、文字または文章の中に参加者が調べたいものや他で利用したいものがあっても、その都度、参加者がタイピングする必要があり不便であった。

【0037】

そこで、本実施形態に係る情報処理装置１０は、ビデオ会議アプリを用いて他のユーザの端末装置から受信した映像の少なくとも一部が含まれる画面領域を、所定時間ごとに静止画ファイルとしてキャプチャする。また、情報処理装置１０は、キャプチャした画像から文字認識により文字情報を取得し、当該画像と関連付けて文字情報を保存する。文字認識の処理は、情報処理装置１０が実行するＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）がＯＣＲ（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ）の機能を有する場合、そのＯＣＲの機能を利用した処理としてもよいし、情報処理装置１０が実行するＯＣＲの機能を有する他のアプリを利用した処理としてもよい。また、文字認識の処理は、クラウドで提供されるＯＣＲサービスを利用した処理としてもよい。

【0038】

そして、情報処理装置１０は、ビデオ会議アプリの実行中に、上記所定時間ごとのキャプチャを継続しながら、キャプチャされた一連の静止画ファイルのうちの少なくとも一部の画像を、当該画像から文字認識された文字情報と関連付けて表示させることが可能である。これにより、情報処理装置１０は、発表者が共有している資料の現在のページよりも前のページを見たいときには、キャプチャ済みの画像の中からユーザが任意に選択して表示することが可能である。また、情報処理装置１０は、キャプチャ済みの画像から、発表者が共有している資料に記載されている語句、文字または文章を選択して利用することが可能である。例えば、情報処理装置１０は、キャプチャ済みの画像から資料に記載されている語句、文字または文章を選択することにより、コピーしたり、ウェブ検索や辞書検索をしたり、選択した文章がＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）の場合にはハイパーリンクとしてＵＲＬが示すウェブページを表示させるといったことなどが可能である。

【0039】

以下、キャプチャ済みの画像のことを「キャプチャ画像」、キャプチャした静止画ファイルのことを「キャプチャ画像ファイル」と称する。また、キャプチャ画像から文字認識された文字情報には、キャプチャ画像の中から認識された文字のデータ（以下、「テキストデータ」と称する）と、その文字のキャプチャ画像内における位置のデータ（以下、「位置データ」と称する）とが含まれる。キャプチャ画像と文字情報とを関連付けて表示するとは、キャプチャ画像内の文字の画像領域に、その文字のテキストデータを関連付けて表示することを意味する。ユーザは、表示されているキャプチャ画像内の文字の画像領域の部分を選択する操作を行うことにより、その文字のテキストデータを取得することができる。

【0040】

また、このビデオ会議アプリの映像をキャプチャし、キャプチャ画像を文字情報と関連付けて表示する機能は、例えばビデオ会議アプリとは別のアプリケーション（以下、「レビューアプリ」と称する）を実行することにより実現される。これにより、レビューアプリは、対象とするアプリを限定することなく使用することができる。なお、このレビューアプリは、ビデオ会議アプリによる会議中の映像（ライブ映像）を対象とするだけではなく、既に録画済みの動画ファイルを対象とすることもできる。即ち、レビューアプリは、動画ファイルの映像をキャプチャし、キャプチャ画像を文字情報と関連付けて表示する機能も有する。

【0041】

図２及び図３を参照して、レビューアプリの概要を説明する。
図２は、本実施形態に係るレビューアプリの表示例を示す図である。表示画面Ｇ１０は、情報処理装置１０の表示部１４の全画面領域を示している。表示画面Ｇ１０には、ビデオ会議アプリのウィンドウＷＶが全画面表示されている。ビデオ会議アプリのウィンドウＷＶには、ビデオ会議に参加している他のユーザや、共有されている資料などを表示することができる。図示する例では、共有されている資料の現在のページが表示されている。また、表示画面Ｇ１０には、レビューアプリのウィンドウＷＲがビデオ会議アプリのウィンドウＷＶに重畳して表示されている。レビューアプリのウィンドウＷＲには、ビデオ会議アプリのウィンドウＷＶに表示されている資料部分のコンテンツ領域ＣＲがキャプチャされたキャプチャ画像が表示されている。レビューアプリのウィンドウＷＲには、会議の開始（キャプチャの開始）時点から現在までにキャプチャされたキャプチャ画像のうち任意のキャプチャ画像を表示させることができる。

【0042】

レビューアプリのウィンドウＷＲは、アクティブウィンドウであるがビデオ会議アプリのウィンドウＷＲよりも小さいサイズで表示されている。そのため、ユーザは、ビデオ会議アプリのウィンドウＷＲを見ながらビデオ会議をしている最中に、レビューアプリのウィンドウＷＲに任意のキャプチャ画像を表示させて確認することができる。

【0043】

図３は、本実施形態に係るレビューアプリによるキャプチャ画像とその表示の説明図である。この図では、キャプチャ画像ファイルが保存されるフォルダ内のファイルが表示されるウィンドウＷＦと、図２に示すレビューアプリのウィンドウＷＲとを示している。上記フォルダには、所定時間ごと（例えば、１０秒ごと）にキャプチャされたキャプチャ画像ファイルがキャプチャ順に保存される。各キャプチャ画像ファイルのファイル名は、例えば、各キャプチャ画像の時刻に基づいて生成される。フォルダは、レビューアプリによりキャプチャが開始されてから終了するまでの１回のキャプチャ期間ごとに作成されてもよい。

【0044】

スライダＳＤ１は、ユーザがレビューアプリのウィンドウＷＲに表示させるキャプチャ画像を選択するための操作ＵＩ（ＵｓｅｒＩｎｔｅｒｆａｃｅ）として表示される。キャプチャ画像は、キャプチャ順にスライダＳＤ１の左端から右端へ対応付けられている。スライダＳＤ１を左に移動させるほど先にキャプチャされたキャプチャ画像が表示され、スライダＳＤ１を右に移動させるほど後からキャプチャされたキャプチャ画像が表示される。スライダＳＤ１を左端に移動させると最初にキャプチャされたキャプチャ画像が表示され、スライダＳＤ１を右端に移動させるとその時点で最後にキャプチャされたキャプチャ画像が表示される。例えば、９枚のキャプチャ画像のファイルが保存されている場合、スライダＳＤ１を左端に移動させると１枚目のキャプチャ画像が表示され、スライダＳＤ１を中央に移動させると５枚目のキャプチャ画像が表示され、スライダＳＤ１を右端に移動させると９枚目のキャプチャ画像が表示される。スライダＳＤ１のスライダバーの長さが保存されているキャプチャ画像の枚数で均等割りされ、スライダＳＤ１の位置に対応するキャプチャ画像が表示されることになる。時間が経過して１０枚目のキャプチャ画像が保存されると、スライダＳＤ１のスライダバーの長さが９枚で均等割りされていた状態から１０枚での均等割りに変更され、スライダＳＤ１を右端に移動させると１０枚目のキャプチャ画像が表示される。

【0045】

このように、情報処理装置１０は、ビデオ会議で発表者が他の参加者へ資料を共有しながら説明しているときに、発表者が現在表示させている資料のページより任意の時間前に表示されていた資料のページを参加者が表示させて確認することができる。また、レビューアプリのウィンドウＷＲの操作ボタンＢ１（「Ｃｏｎｖｅｒｔｔｏｔｅｘｔ」）は、キャプチャ画像内に含まれる文字を選択可能にするか否か（即ち、キャプチャ画像からテキストデータを取得可能にするか否か）を切り替えるための操作子である。ユーザが操作ボタンＢ１に対して操作することにより、キャプチャ画像からテキストデータを取得可能な状態に切り替わり、キャプチャ画像内でテキストデータを取得可能な文字の部分（即ち、文字認識された部分）が、特定の表示態様で表示（例えば、ハイライト表示）される。

【0046】

キャプチャ画像からテキストデータを取得可能な状態で、ユーザが操作ボタンＢ１に対して再び操作すると、キャプチャ画像からテキストデータを取得不可能な状態（単に、キャプチャ画像の表示）に戻る。操作ボタンＢ１に対する操作が行われる度に、キャプチャ画像からテキストデータを取得可能な状態と不可能な状態とが切り替わる。

【0047】

なお、レビューアプリのウィンドウＷＲにキャプチャ画像が表示されたときのデフォルトの設定は、キャプチャ画像からテキストデータを取得不可能な状態であってもよいし、キャプチャ画像からテキストデータを取得可能な状態であってもよい。また、本実施形態では、キャプチャ画像からテキストデータを取得可能な状態と取得不可能な状態との切り替えが可能な例を示しているが、この切り替えの機能が無く、文字情報を取得済のキャプチャ画像を表示する場合には、常にテキストデータを取得可能な状態としてもよい。

【0048】

図示するレビューアプリのウィンドウＷＲは、キャプチャ画像からテキストデータを取得可能な状態を示している。ユーザがウィンドウＷＲ内に表示されているキャプチャ画像の「ＩＮＣＯＲＲＵＰＴＩＢＩＬＩＴＹ」の部分を選択すると、「ＩＮＣＯＲＲＵＰＴＩＢＩＬＩＴＹ」のテキストデータが符号ＴＢの領域に表示される。そして、ユーザが操作ボタンＢ２に対する操作を行うと、「ＩＮＣＯＲＲＵＰＴＩＢＩＬＩＴＹ」のテキストデータがコピーされ、他のアプリなどにペーストすることができる。また、ユーザが操作ボタンＢ３に対する操作を行うと、ブラウザ（ウェブブラウザ）のアプリを利用して、「ＩＮＣＯＲＲＵＰＴＩＢＩＬＩＴＹ」を検索ワードとした検索が実行される。なお、検索は、ブラウザの検索エンジンを用いた検索であってもよいし、ブラウザで利用できる辞書サイトによる検索であってもよい。

【0049】

また、検索ボックスＴＳは、任意の文字を入力することにより、キャプチャ画像内に含まれる文字、または同一フォルダ内のキャプチャ画像内に含まれる文字を検索することができる。入力した文字がキャプチャ画像内に存在する場合には、そのキャプチャ画像が表示される。なお、入力した文字がキャプチャ画像内に存在する場合には、その文字の部分が選択された状態となって、その文字のテキストデータが符号ＴＢの領域に表示されてもよい。

【0050】

ユーザがウィンドウＷＲ内に表示されているＵＲＬを選択した場合には、ブラウザでＵＲＬが示すウェブページが表示される。
図４は、本実施形態に係るレビューアプリでキャプチャ画像内のＵＲＬが選択される場合の説明図である。図４に示すレビューアプリの表示例は、図２に示す例と同様に、表示画面Ｇ１０には、ビデオ会議アプリのウィンドウＷＶが全画面表示され、レビューアプリのウィンドウＷＲがビデオ会議アプリのウィンドウＷＶに重畳して表示されている。この例では、レビューアプリのウィンドウＷＲには、ビデオ会議アプリのウィンドウＷＶに以前にブラウザの画面が共有されていたときにキャプチャされたキャプチャ画像が表示されている。ユーザがウィンドウＷＲ内に表示されているキャプチャ画像のＵＲＬ「Ｈｔｔｐｓ：//ｘｘｘｘｘ．ｘｘｘ／ｘｘｘｘｘｘ」の部分を選択すると、そのＵＲＬのテキストデータが符号ＴＢの領域に表示され、ブラウザが起動して、そのＵＲＬが示すウェブページが表示される。

【0051】

［情報処理装置１０のハードウェア構成］
次に、図５を参照して、情報処理装置１０の主要なハードウェア構成について説明する。図５は、本実施形態に係る情報処理装置１０のハードウェア構成の一例を示すブロック図である。

【0052】

情報処理装置１０は、ＣＰＵ１１と、メインメモリ１２と、ビデオサブシステム１３と、表示部１４と、チップセット２１と、ＢＩＯＳメモリ２２と、記憶部２３と、オーディオシステム２４と、通信部２５と、ＵＳＢコネクタ２６と、撮像部２７と、エンベデッドコントローラ３１と、キーボード３２と、電源回路３３と、バッテリ３４と、センサ３５とを備える。

【0053】

ＣＰＵ１１は、プログラム制御により種々の演算処理を実行し、情報処理装置１０全体を制御している。例えば、ＣＰＵ１１は、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）やＢＩＯＳのプログラムに基づく処理を実行する。また、ＣＰＵ１１は、ＯＳ上で実行される各種ドライバ、各種サービス／ユーティリティ、アプリケーション等に基づく処理を実行する。

【0054】

メインメモリ１２は、ＣＰＵ１１の実行プログラムの読み込み領域として、又は、実行プログラムの処理データを書き込む作業領域として利用される書き込み可能メモリである。メインメモリ１２は、例えば、複数個のＤＲＡＭ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）チップで構成される。この実行プログラムには、ＯＳ、周辺機器類をハードウェア操作するための各種ドライバ、各種サービス／ユーティリティ、アプリケーションプログラム等が含まれる。

【0055】

ビデオサブシステム１３は、画像表示に関連する機能を実現するためのサブシステムであり、ビデオコントローラを含んでいる。このビデオコントローラは、ＣＰＵ１１からの描画命令を処理し、処理した描画情報をビデオメモリに書き込むとともに、ビデオメモリからこの描画情報を読み出して、表示部１４に描画データ（表示データ）として出力する。

【0056】

表示部１４は、例えば、液晶ディスプレイや有機ＥＬディスプレイであり、ビデオサブシステム１３から出力された描画データ（表示データ）に基づく表示画面を表示する。

【0057】

チップセット２１は、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）、シリアルＡＴＡ（ＡＴＡｔｔａｃｈｍｅｎｔ）、ＳＰＩ（ＳｅｒｉａｌＰｅｒｉｐｈｅｒａｌＩｎｔｅｒｆａｃｅ）バス、ＰＣＩ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ）バス、ＰＣＩ－Ｅｘｐｒｅｓｓバス、及びＬＰＣ（ＬｏｗＰｉｎＣｏｕｎｔ）バスなどのコントローラを備えており複数のデバイスが接続される。例えば、複数のデバイスとして、後述するＢＩＯＳメモリ２２と、記憶部２３と、オーディオシステム２４と、通信部２５と、ＵＳＢコネクタ２６と、エンベデッドコントローラ３１とが含まれる。

【0058】

ＢＩＯＳメモリ２２は、例えば、ＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒy）やフラッシュＲＯＭなどの電気的に書き換え可能な不揮発性メモリで構成される。ＢＩＯＳメモリ２２は、ＢＩＯＳ、及びエンベデッドコントローラ３１などを制御するためのシステムファームウェアなどを記憶する。

【0059】

記憶部２３は、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）、などを含んで構成される。例えば、記憶部２３は、ＯＳ、各種ドライバ、各種サービス／ユーティリティ、アプリケーションプログラム、及び各種データを記憶する。

【0060】

オーディオシステム２４は、マイク２４１及びスピーカ２４２が接続され、音データの記録、再生、出力を行う。例えば、マイク２４１及びスピーカ２４２は、情報処理装置１０に内蔵されている。なお、マイク２４１及びスピーカ２４２は、Ｂｌｕｅｔｏｏｔｈ（登録商標）などの近距離無線通信またはＵＳＢなどを用いて情報処理装置１０と接続される周辺機器であってもよい。

【0061】

通信部２５は、無線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）または有線ＬＡＮによりネットワークに接続して、データ通信を行う。通信部２５は、例えば、ネットワークからのデータを受信した際に、データを受信したことを示すイベントトリガを発生する。また、通信部２５は、Ｂｌｕｅｔｏｏｔｈ（登録商標）などの近距離無線通信により周辺機器類と通信を行ってもよい。
ＵＳＢコネクタ２６は、ＵＳＢを利用した周辺機器類を接続するためのコネクタである。

【0062】

撮像部２７は、不図示のレンズ及び撮像素子を含んで構成され、レンズを介して入力される被写体像を撮像して電気信号に変化した撮像データを出力する。例えば、撮像部２７は、表示部１４に対面する方向の所定の範囲（画角）を撮像し、撮像した撮像データを出力する。一例として、ユーザがビデオ会議アプリを使用している際に、表示部１４に対面した位置に存在する当該ユーザを撮像した撮像データを出力する。

【0063】

キーボード３２は、ユーザの操作を受け付ける複数のキー（操作子の一例）が配列された入力デバイスである。キーボード３２は、図１に示すように、第２筐体１０２の内面に設けられている。キーボード３２は、ユーザの操作により入力された入力情報（例えば、キーボードに対して操作されたキーを示す操作信号）をエンベデッドコントローラ３１へ出力する。

【0064】

電源回路３３は、例えば、ＤＣ／ＤＣコンバータ、充放電ユニット、ＡＣ／ＤＣアダプタなどを含んで構成されている。例えば、電源回路３３は、ＡＣアダプタ（不図示）などの外部電源又はバッテリ３４から供給される直流電圧を、情報処理装置１０を動作させるために必要な複数の電圧に変換する。また、電源回路３３は、エンベデッドコントローラ３１からの制御に基づいて、情報処理装置１０の各部に電力を供給する。

【0065】

バッテリ３４は、例えば、リチウムバッテリであり、情報処理装置１０に外部電源から電力供給されている場合に、電源回路３３を介して充電され、情報処理装置１０に外部電源から電力供給されていない場合に、電源回路３３を介して、充電された電力を情報処理装置１０の動作電力として出力する。

【0066】

センサ３５は、ホールセンサ、加速度センサ、または温度センサなどの各種センサを含んで構成されている。各種センサのそれぞれは、それぞれの検知対象に配置されており、検知信号を出力する。例えば、ホールセンサは、情報処理装置１０が開状態であるか閉状態であるかを検出する際に用いられる。また、加速度センサは、情報処理装置１０の向きや動き、または第１筐体１０１と第２筐体１０２との開き角θを検出するなどを検出する際に用いられる。また、温度センサは、情報処理装置１０の内部温度を検出する際に用いられる。

【0067】

エンベデッドコントローラ３１は、情報処理装置１０のシステムの状態に関わらず、各種デバイス（周辺装置やセンサ等）を監視して制御するワンチップマイコン（Ｏｎｅ－ＣｈｉｐＭｉｃｒｏｃｏｍｐｕｔｅｒ）である。エンベデッドコントローラ３１は、不図示のＣＰＵ、ＲＯＭ、ＲＡＭ、複数チャネルのＡ／Ｄ入力端子、Ｄ／Ａ出力端子、タイマ、及びデジタル入出力端子を備える。エンベデッドコントローラ３１のデジタル入出力端子には、例えば、キーボード３２、電源回路３３、及びセンサ３５などが接続されている。エンベデッドコントローラ３１は、キーボード３２からの入力情報（操作信号）や、センサ３５などからのセンサ信号を受け取る。また、エンベデッドコントローラ３１は、電源回路３３などの動作を制御する。

【0068】

［情報処理装置１０の機能構成］
次に、情報処理装置１０が上述したビデオ会議アプリ及びレビューアプリを実行することにより実現される機能構成について説明する。
図６は、本実施形態に係る情報処理装置１０の機能構成の一例を示すブロック図である。情報処理装置１０は、ＣＰＵ１１が各種プログラムを実行することにより実現される機能構成として処理部１１０を備えている。処理部１１０は、ビデオ会議処理部１１１と、文字認識処理部１１２と、レビュー処理部１２０とを備えている。

【0069】

ビデオ会議処理部１１１は、ビデオ会議アプリを実行することにより実現される機能構成である。例えば、ビデオ会議処理部１１１は、ネットワークを介して他のユーザの端末装置（情報処理装置）から通信部２５により受信した映像データ及び当該映像データに関連付けられている音声データをメインメモリ１２に一時的に記憶させ、当該映像データに基づく映像をビデオ会議アプリのウィンドウＷＶ（図２及び図４参照）へ表示させるとともに、当該音声データに基づく音声をスピーカ２４２から出力させる。また、ビデオ会議処理部１１１は、撮像部２７が撮像した映像の映像データ又は表示部１４の表示画面や実行中のアプリの画面の映像データとマイク２４１に入力される音声の音声データを、通信部２５からネットワークを介して他のユーザの端末装置（情報処理装置）へ送信する。

【0070】

文字認識処理部１１２は、ＯＳが有するＯＣＲの機能構成である。例えば、文字認識処理部１１２は、レビュー処理部１２０の指示に応じてキャプチャ画像に対して文字認識を行い、キャプチャ画像の中から文字認識された文字情報をレビュー処理部１２０へ返す。

【0071】

レビュー処理部１２０は、レビューアプリを実行することにより実現される機能構成である。ここでは、レビュー処理部１２０について詳しく説明する。レビュー処理部１２０は、キャプチャ部１２１と、類似性判定部１２２と、文字情報取得部１２３と、表示制御部１２４と、文字情報提供部１２５とを備えている。

【0072】

キャプチャ部１２１は、ビデオ会議処理部１１１により他の端末装置（情報処理装置）から受信した映像が表示される表示部１４の画面領域のうち当該映像の少なくとも一部が含まれる画面領域を、所定時間ごとにキャプチャ画像ファイル（静止画ファイル）としてキャプチャする。一例として、キャプチャ部１２１は、１０秒ごとにキャプチャし、キャプチャしたキャプチャ画像ファイルを順次に記憶部２３に保存する。

【0073】

例えば、キャプチャ部１２１は、ビデオ会議アプリのウィンドウＷＶ（図２及び図４）内のコンテンツ領域ＣＲ（図２及び図４参照）をキャプチャする。一例として、キャプチャ部１２１は、ビデオ会議処理部１１１により他の端末装置（情報処理装置）から受信した映像に対して画像解析を行うことによりビデオ会議アプリの映像からのコンテンツ領域ＣＲを検出する。画像解析の方法としては、エッジ検出などの任意の方法を用いることができる。なお、ユーザがコンテンツ領域ＣＲの範囲をキャプチャする範囲として指定する操作を行うことにより、キャプチャ部１２１は、コンテンツ領域ＣＲをキャプチャしてもよい。

【0074】

なお、キャプチャ部１２１は、表示部１４の全画面領域（デスクトップ画面の全領域）をキャプチャしてもよいし、ビデオ会議アプリのウィンドウＷＶの領域をキャプチャしてもよいが。コンテンツ領域ＣＲのみをキャプチャした方が、文字認識に不要な画像をキャプチャすることがないため効率がよい。

【0075】

なお、キャプチャ部１２１がキャプチャする画面領域を、画像解析により検出されたコンテンツ領域ＣＲ、表示部１４の全画面領域（デスクトップ画面の全領域）、ビデオ会議アプリのウィンドウＷＶの領域、或いはユーザにより指定された領域のいずれとするかは、予め設定されていてもよいし、キャプチャの開始前にユーザが設定または変更できるようにしてもよい。

【0076】

なお、デスクトップ画面の全領域がキャプチャする画面領域に設定された場合、レビューアプリ自身のウィンドウＷＲの領域をキャプチャの対象外に設定することができる。また、ビデオ会議アプリのウィンドウＷＶの領域、コンテンツ領域ＣＲ、またはユーザにより指定された領域がキャプチャする画面領域に設定された場合には、ビデオ会議アプリのウィンドウＷＶが他のアプリケーションのウィンドウで隠れていても、ビデオ会議アプリのウィンドウＷＶの領域のうち設定された領域に表示されている映像をキャプチャすることができる。

【0077】

また、表示部１４の表示画面に表示される現在の操作位置を示すＵＩ（マウスポインタ、マウスカーソルなど）をキャプチャの対象とするか否かを、ユーザが予め設定可能としてもよい。

【0078】

また、キャプチャ部１２１は、例えばユーザの操作に応じてキャプチャを開始または終了する。一例として、図２及び図３に示すウィンドウＷＲに、キャプチャを開始または終了する操作ＵＩが表示されてもよい。そして、この操作ＵＩに対するユーザの操作に基づいて、キャプチャ部１２１は、キャプチャを開始または終了してもよい。

【0079】

また、キャプチャ部１２１は、ビデオ会議の開始または終了を自動で検知することにより、キャプチャを開始または終了してもよい。例えば、キャプチャ部１２１は、ビデオ会議アプリがマイク２４１又はスピーカ２４２を占有したことを検知した場合、キャプチャを開始してもよい。

【0080】

ここで、ビデオ会議アプリがマイク２４１を占有した状態とは、ビデオ会議アプリがマイク２４１の使用を許可されている状態であり、より具体的には、ＯＳによってビデオ会議アプリにマイク２４１の使用権（占有権）が与えられている状態である。例えば、マイク２４１を占有した状態とは、ビデオ会議アプリを用いたビデオ会議が行われているときに、ユーザによるミュート及びミュート解除の入力操作が行われることによって、ビデオ会議アプリ上でマイク２４１の機能がオフからオンに一時的に切り替えられた状態を意味するものではない。また、ビデオ会議アプリがスピーカ２４２を占有した状態とは、ビデオ会議アプリがスピーカ２４２の使用を許可されている状態であり、より具体的には、ＯＳによってビデオ会議アプリにスピーカ２４２の使用権（占有権）が与えられている状態である。

【0081】

また、キャプチャ部１２１は、ビデオ会議アプリが占有していたマイク２４１又はスピーカ２４２を開放したことを検知した場合、キャプチャを終了してもよい。

【0082】

ここで、ビデオ会議アプリがマイク２４１を開放した状態とは、ビデオ会議アプリがマイク２４１の使用権を開放した状態であり、より具体的には、ＯＳによってビデオ会議アプリに与えられていたマイク２４１の使用権が開放された状態である。例えば、マイク２４１を開放した状態とは、ビデオ会議アプリを用いたビデオ会議が行われているときに、ユーザによるミュート及びミュート解除の入力操作が行われることによって、ビデオ会議アプリ上でマイク２４１の機能がオンからオフに一時的に切り替えられた状態を意味するものではない。また、ビデオ会議アプリがスピーカ２４２を開放した状態とは、ビデオ会議アプリがスピーカ２４２の使用権を開放した状態であり、より具体的には、ＯＳによってビデオ会議アプリに与えられていたスピーカ２４２の使用権が開放された状態である。

【0083】

図７は、記憶部２３に記憶されるキャプチャ画像ファイルの一例を示す図である。キャプチャ画像は、キャプチャされる度にキャプチャ画像ファイルとして保存される。例えば、ファイル名は、キャプチャされた時刻に基づく名称が付与される。なお、ファイル名は、キャプチャ順に００１、００２、００３、・・・などのように昇順にナンバリングされた名称としてもよい。また、ファイル名にはファイルのパスが付されてもよい。ファイル形式は、ここではＰＮＧを例としているが、これに限定されるものではなく、ＧＩＦ、ＪＰＥＧ、ＢＭＰ等のファイル形式を用いてもよい。また、各キャプチャ画像ファイルには、キャプチャされた時刻を示す時刻情報（タイムスタンプ）が関連付けられている。また、各キャプチャ画像ファイルには、レビュー対象とするか否かを示すフラグ情報が関連付けられている。例えば、レビュー対象のフラグは、レビュー対象とする場合には「１」が設定され、レビュー対象としない場合には「０」が設定される。

【0084】

類似性判定部１２２は、キャプチャ部１２１によりキャプチャされる度に、今回キャプチャされたキャプチャ画像を以前にキャプチャされたキャプチャ画像と比較して類似性を判定する。画像の類似性の判定には、画像のパターンマッチングなどの任意の判定方法を用いることができる。例えば、類似性判定部１２２は、今回キャプチャされたキャプチャ画像と以前にキャプチャされたキャプチャ画像との類似度を判定する。そして、類似性判定部１２２は、類似度が所定の閾値未満であると判定した場合、共有されている資料の内容が切り替わったと判定し、今回キャプチャされたキャプチャ画像をレビュー対象に設定する（レビュー対象のフラグを「１」に設定する）。一方、類似性判定部１２２は、類似度が所定の閾値以上であると判定した場合、共有されている資料の内容が切り替わっていないと判定し、今回キャプチャされたキャプチャ画像をレビュー対象としない（レビュー対象のフラグを「０」に設定する）。

【0085】

ここで、上記の所定の閾値は、キャプチャ画像の内容が同一であるか否か（即ち、ビデオ会議アプリで共有されている資料（コンテンツ）が切り替わっていないか或いは切り替わったか）を判定するために予め設定された閾値である。なお、類似性判定部１２２は、最初にキャプチャされたキャプチャ画像については、類似度を判定する以前のキャプチャ画像が無いため判定を行わず、レビュー対象に設定する（レビュー対象のフラグを「１」に設定する）。

【0086】

文字情報取得部１２３は、キャプチャ部１２１によりキャプチャされた一連のキャプチャ画像ファイルのうちの少なくとも一部のキャプチャ画像の中から文字認識された文字情報を取得し、キャプチャ画像ごとの文字情報を記憶部２３へ保存する。例えば、文字情報取得部１２３は、文字認識処理部１１２のＯＣＲの機能を利用して、キャプチャ画像の中から文字認識された文字情報を取得する。文字情報には、キャプチャ画像の中から文字認識された文字のテキストデータ及び当該文字が認識された位置の位置データが含まれる。文字情報取得部１２３は、キャプチャ画像と文字情報とを関連付けて文字情報ファイルとして記憶部２３へ保存する。

【0087】

なお、文字情報取得部１２３は、文字認識処理部１１２（ＯＳ）のＯＣＲの機能に代えて、他のアプリのＯＣＲの機能を利用してもよいし、クラウドで提供されるＯＣＲサービスを利用してもよい。

【0088】

図８は、記憶部２３に記憶されている文字情報ファイルの一例を示す図である。文字情報ファイルには、図７を参照して説明したキャプチャ画像のファイル名と、キャプチャ画像の中から文字認識された文字のテキストデータ及び位置データとが関連付けられる。位置データは、キャプチャ画像の中から文字認識された文字のキャプチャ画像内における位置を示すデータであり、例えば、キャプチャ画像の横方向をＸ軸とし縦方向をＹ軸としたＸＹ座標系で示される。例えばキャプチャ画像の左上の隅をＸＹ座標系の基準位置（０、０）とし、文字の位置がＸＹ座標で示される。

【0089】

例えば、文字情報取得部１２３は、ビデオ会議アプリの実行中にキャプチャ部１２１による所定時間ごとのキャプチャを継続しながら、キャプチャ画像の中から文字認識された文字情報を取得する。また、文字情報取得部１２３は、図７に示すキャプチャ画像ファイルのレビュー対象フラグを参照して、レビュー対象に設定されたキャプチャ画像を文字情報の取得対象とし、レビュー対象に設定されていないキャプチャ画像を文字情報の取得対象から除外する。

【0090】

表示制御部１２４は、ビデオ会議アプリの実行中にキャプチャ部１２１による所定時間ごとのキャプチャを継続しながら、キャプチャ部１２１によりキャプチャされた一連のキャプチャ画像ファイルの少なくとも一部のキャプチャ画像を表示部１４に表示させる。具体的には、表示制御部１２４は、記憶部２３に記憶されているキャプチャ画像ファイルを読み出す。そして、表示制御部１２４は、読み出したキャプチャ画像ファイルのキャプチャ画像を図２～４に示すレビューアプリのウィンドウＷＲに表示させる。

【0091】

例えば、表示制御部１２４は、キャプチャ部１２１によりキャプチャされた一連のキャプチャ画像ファイルのそれぞれをキャプチャ順に対応して選択可能なスライダＳＤ１を表示部１４に表示させる。そして、表示制御部１２４は、当該スライダＳＤ１に対するユーザの操作に応じて選択されたキャプチャ画像ファイルのキャプチャ画像を表示部１４（ウィンドウＷＲ）に表示させる（図３参照）。

【0092】

ここで、表示制御部１２４は、図７に示すキャプチャ画像ファイルのレビュー対象フラグを参照して、レビュー対象に設定されたキャプチャ画像を表示部１４に表示させる表示対象とし、レビュー対象に設定されていないキャプチャ画像を表示部１４に表示させる表示対象から除外する。

【0093】

また、表示制御部１２４は、キャプチャ画像を文字情報と関連付けて表示する。例えば、図３に示す操作ボタンＢ１に対する操作がされると、図８に示す文字情報ファイルを参照して、キャプチャ画像からテキストデータを取得可能な状態に切り替え、キャプチャ画像内でテキストデータを取得可能な文字の部分（即ち、文字認識された部分）を、特定の表示態様で表示（例えば、ハイライト表示）する。

【0094】

文字情報提供部１２５は、表示部１４（ウィンドウＷＲ）に表示されたキャプチャ画像内の文字が認識された位置に対するユーザの操作に基づいて、認識された文字のテキストデータを、各種の処理に適用可能なように提供する。一例として、文字情報提供部１２５は、キャプチャ画像の中から認識された文字をコピー可能なように提供する。例えば図３を参照して説明したように、ユーザがキャプチャ画像の中から認識された文字のうちのいずれかを選択する操作を行った後、操作ボタンＢ２に対する操作を行うことにより、文字情報提供部１２５は、ユーザにより選択された文字のテキストデータをコピーして、各種の処理に適用可能なように提供する。

【0095】

また、文字情報提供部１２５は、キャプチャ画像の中から認識された文字をブラウザのアプリを利用して検索可能なように提供する。例えば図３を参照して説明したように、ユーザがキャプチャ画像の中から認識された文字のうちのいずれかを選択する操作を行った後、操作ボタンＢ３に対する操作を行うことにより、選択された文字のテキストデータをブラウザのアプリの検索ワードとして検索可能なように提供する。

【0096】

また、文字情報提供部１２５は、キャプチャ画像の中から認識された文字がＵＲＬを示している場合、当該ＵＲＬで特定されるリソース（例えば、ウェブページ）を表示部１４に表示可能なように提供する。例えば図３を参照して説明したように、ユーザがキャプチャ画像の中から認識された文字のうちＵＲＬを示す文字（文章）を選択する操作を行うことにより、当該ＵＲＬで特定されるリソースをブラウザで表示可能なように提供する。

【0097】

［レビュー処理］
次に図９～１１を参照して、情報処理装置１０のレビュー処理部１２０が文字情報と関連付けてキャプチャ画像を表示するレビュー処理の動作を説明する。
図９は、本実施形態に係るレビュー処理の一例を示すフローチャートである。図示するレビュー処理は、例えばレビューアプリの起動とともに開始される。

【0098】

（ステップＳ１０１）レビュー処理部１２０は、キャプチャを開始するか否かを判定する。例えば、レビュー処理部１２０は、ユーザによりキャプチャを開始する操作が行われた場合、又はビデオ会議アプリがマイク２４１又はスピーカ２４２を占有したことを検知した場合、キャプチャ開始イベントが発生したと判定し（ＹＥＳ）、ステップＳ１０３の処理に進む。一方、レビュー処理部１２０は、キャプチャ開始イベントが発生していないと判定した場合（ＮＯ）、このステップＳ１０１の処理を継続する。

【0099】

（ステップＳ１０３）レビュー処理部１２０は、所定時間ごと（例えば、１０秒ごと）にキャプチャ処理を実行する。ここで図１０を参照してキャプチャ処理について説明する。図１０は、本実施形態に係るキャプチャ処理の一例を示すフローチャートである。

【0100】

（ステップＳ１３１）レビュー処理部１２０は、表示部１４の画面領域のうちキャプチャする画面領域の画像を取り込む。キャプチャする画面領域は、例えば、レビューアプリのウィンドウＷＲの領域のうちのコンテンツ領域ＣＲである。

【0101】

（ステップＳ１３２）レビュー処理部１２０は、ステップＳ１３１において取り込んだ画像のファイル（キャプチャ画像ファイル）を記憶部２３に保存する（図７参照）。そして、図９のステップＳ１０５の処理に進む。

【0102】

（ステップＳ１０５）レビュー処理部１２０は、今回キャプチャされたキャプチャ画像と以前にキャプチャされたキャプチャ画像との類似性を判定する。例えば、レビュー処理部１２０は、今回キャプチャされたキャプチャ画像と以前にキャプチャされたキャプチャ画像との類似度を判定し、ステップＳ１０７の処理へ進む。

【0103】

（ステップＳ１０７）レビュー処理部１２０は、ステップＳ１０５において類似度が所定の閾値未満であると判定した場合、共有されている資料の内容が切り替わったと判定し、今回キャプチャされたキャプチャ画像をレビュー対象に設定する（レビュー対象のフラグを「１」に設定する）。一方、レビュー処理部１２０は、ステップＳ１０５において類似度が所定の閾値以上であると判定した場合、共有されている資料の内容が切り替わっていないと判定し、今回キャプチャされたキャプチャ画像をレビュー対象としない（レビュー対象のフラグを「０」に設定する）。なお、レビュー処理部１２０は、最初にキャプチャされたキャプチャ画像については、類似度を判定する以前のキャプチャ画像が無いため判定を行わず、レビュー対象に設定する（レビュー対象のフラグを「１」に設定する）。レビュー処理部１２０は、レビュー対象の設定を行うと、ステップＳ１０９の処理へ進む。

【0104】

（ステップＳ１０９）レビュー処理部１２０は、レビュー対象に設定したキャプチャ画像の中から文字認識された文字情報を取得する文字情報取得処理を実行する。ここで図１１を参照して文字情報取得処理について説明する。図１１は、本実施形態に係る文字情報取得処理の一例を示すフローチャートである。

【0105】

（ステップＳ１９１）レビュー処理部１２０は、ステップＳ１０７においてキャプチャ画像がレビュー対象に設定されたか否かを判定し、レビュー対象に設定されなかった（レビュー対象のフラグが「０」に設定された）場合（ＮＯ）、文字情報の取得を行わずに処理を終了し、図９のステップＳ１１１の処理へ進む。一方、レビュー処理部１２０は、ステップＳ１０７においてキャプチャ画像がレビュー対象に設定された（レビュー対象のフラグが「１」に設定された）場合（ＹＥＳ）、ステップＳ１９２の処理へ進む。

【0106】

（ステップＳ１９２）レビュー処理部１２０は、レビュー対象に設定されたキャプチャ画像に対して文字認識処理を実行させる指示を文字認識処理部１１２へ行う。そして、ステップＳ１９３の処理へ進む。

【0107】

（ステップＳ１９３）文字認識処理部１１２は、レビュー処理部１２０からの指示に応じて、ＯＣＲの機能によりキャプチャ画像の中から文字の領域を認識し、認識した文字のテキストデータ及び位置データを含む文字情報をレビュー処理部１２０へ応答する。そして、ステップＳ１９４の処理へ進む。

【0108】

（ステップＳ１９４）レビュー処理部１２０は、文字認識処理部１１２によりキャプチャ画像の中から文字認識された文字情報を取得し、ステップＳ１９５の処理へ進む。

【0109】

（ステップＳ１９５）レビュー処理部１２０は、ステップＳ１９４において取得した文字情報とキャプチャ画像とを関連付けて文字情報ファイルとして記憶部２３へ保存する。例えば、レビュー処理部１２０は、キャプチャ画像のファイル名と、キャプチャ画像の中から文字認識された文字のテキストデータ及び位置データとを関連付けて、文字情報ファイルとして記憶部２３へ保存する。（図８参照）。そして、図９のステップＳ１１１の処理に進む。

【0110】

（ステップＳ１１１）レビュー処理部１２０は、ユーザの操作によりキャプチャ画像を表示させるレビュー指示があったか否かを判定する。レビュー処理部１２０は、レビュー指示があったと判定した場合（ＹＥＳ）、ステップＳ１１３の処理へ進む。一方、レビュー処理部１２０は、レビュー指示がないと判定した場合（ＮＯ）、ステップＳ１１５の処理へ進む。

【0111】

（ステップＳ１１３）レビュー処理部１２０は、ユーザの操作によりレビュー指示として選択されたキャプチャ画像を文字情報と関連付けて表示部１４（図２～４に示すレビューアプリのウィンドウＷＲ）に表示させる。レビュー指示としてユーザがキャプチャ画像を選択する操作は、例えば、図３に示すスライダＳＤ１に対する操作である。

【0112】

（ステップＳ１１５）レビュー処理部１２０は、キャプチャを終了するか否かを判定する。例えば、レビュー処理部１２０は、ユーザによりキャプチャを終了する操作が行われた場合、又はビデオ会議アプリがマイク２４１又はスピーカ２４２を開放したことを検知した場合、キャプチャ終了イベントが発生したと判定し（ＹＥＳ）、キャプチャ処理を継続しないで（キャプチャ処理を終了して）ステップＳ１１７の処理に進む。一方、レビュー処理部１２０は、キャプチャ終了イベントが発生していないと判定した場合（ＮＯ）、ステップＳ１０３に戻り、所定時間ごとのキャプチャ処理を継続する。

【0113】

（ステップＳ１１７）レビュー処理部１２０は、ユーザによりレビューアプリを終了する操作が行われたか否かを判定する。レビュー処理部１２０は、ユーザによりレビューアプリを終了する操作が行われていないと判定した場合（ＮＯ）、ステップＳ１１１の処理に戻り、レビュー指示に応じてキャプチャ画像を表示させる。一方、レビュー処理部１２０は、ユーザによりレビューアプリを終了する操作が行われたと判定した場合（ＹＥＳ）、レビューアプリをクローズして、レビュー処理を終了する。

【0114】

なお、レビュー処理部１２０は、ステップＳ１１５においてキャプチャ終了イベントが発生したと判定した場合（ＹＥＳ）、キャプチャ処理の終了とともに、レビューアプリを終了し、レビュー処理を終了してもよい。

【0115】

［第１の実施形態のまとめ］
以上説明してきたように、本実施形態に係る情報処理装置１０は、ネットワークを介して他の情報処理装置から受信した映像データを一時的に記憶するメモリ（例えば、メインメモリ１２）と、当該メモリに記憶された映像データに基づく処理を実行するプロセッサ（例えば、ＣＰＵ１１）とを備えている。ＣＰＵ１１は、レビューアプリを実行することにより実現される機能構成として、レビュー処理部１２０を備えている。レビュー処理部１２０は、他の端末装置（情報処理装置）から受信して上記メモリに記憶された映像データの映像が表示される表示部１４の画面領域のうち上記映像の少なくとも一部が含まれる画面領域（例えば、コンテンツ領域ＣＲ）を、所定時間ごとにキャプチャ画像ファイル（静止画ファイル）としてキャプチャするキャプチャ処理を行う。レビュー処理部１２０は、キャプチャ処理による所定時間ごとのキャプチャを継続しながら、キャプチャ処理によりキャプチャされた一連のキャプチャ画像ファイルのうちの少なくとも一部のキャプチャ画像の中から文字認識された文字情報を取得し、キャプチャ画像ごとの文字情報を保存する文字情報取得処理を行う。

【0116】

これにより、情報処理装置１０は、他の端末装置（情報処理装置）から受信した映像をキャプチャしたキャプチャ画像からキャプチャ画像に含まれる文字情報をユーザが得ることができるため、利便性が良い。例えば、オンラインによるビデオ会議中に共有されている資料に記載されている語句、文字または文章を、ビデオ会議の参加者がタイピングすることなく得ることができるため、オンラインによるビデオ会議の利便性を向上させることができる。

【0117】

また、レビュー処理部１２０は、所定時間ごとのキャプチャを継続しながら、少なくとも一部のキャプチャ画像を文字情報と関連付けて表示部１４に表示させる表示制御処理をさらに行う。

【0118】

これにより、情報処理装置１０は、他の端末装置（情報処理装置）から受信した映像をキャプチャしたキャプチャ画像が文字情報と関連付けられて表示されるため、ビデオ会議中に共有されている資料に記載されている語句、文字または文章をユーザ（例えば、ビデオ会議の参加者）が容易に得ることができる。

【0119】

また、レビュー処理部１２０は、文字情報として、少なくとも一部の画像の中から文字認識された文字の文字データ及び当該文字が認識された位置の位置データを取得する。そして、レビュー処理部１２０は、少なくとも一部の画像を文字情報と関連付けて表示部１４に表示させる際に、キャプチャ画像内で文字が認識された位置を特定の表示態様で表示（例えば、ハイライト表示）させる。なお、特定の表示態様は、ハイライト表示に限られるものではなく、特定の色による表示、下線を付した表示など、文字が認識されていない部分と区別可能であればどのような表示態様であってもよい。

【0120】

これにより、情報処理装置１０は、キャプチャ画像の中で文字認識された部分（文字情報が関連付けらている部分）をユーザ（例えば、ビデオ会議の参加者）に容易に認識させることができる。

【0121】

また、レビュー処理部１２０は、表示制御処理により表示部１４に表示させたキャプチャ画像内の文字が認識された位置に対するユーザの操作に基づいて、当該認識された文字を提供する提供処理を行う。

【0122】

これにより、情報処理装置１０は、ユーザ（例えば、ビデオ会議の参加者）が表示部１４に表示されているキャプチャ画像内の文字を選択するだけで、選択された文字（テキストデータ）を利用することができるため、利便性がよい。

【0123】

また、レビュー処理部１２０は、提供処理において、キャプチャ画像の中から認識された文字をコピー可能なように提供する。

【0124】

これにより、情報処理装置１０は、ユーザ（例えば、ビデオ会議の参加者）が表示部１４に表示されているキャプチャ画像内の文字を選択するだけで、選択された文字（テキストデータ）をコピーすることができるため、利便性がよい。

【0125】

また、レビュー処理部１２０は、提供処理において、キャプチャ画像の中から認識された文字をブラウザで検索可能なように提供する。

【0126】

これにより、情報処理装置１０は、ユーザ（例えば、ビデオ会議の参加者）が表示部１４に表示されているキャプチャ画像内の文字を選択するだけで、選択された文字（テキストデータ）についてウェブ検索することができるため、利便性がよい。

【0127】

また、レビュー処理部１２０は、提供処理において、キャプチャ画像の中から認識された文字がＵＲＬを示している場合、当該ＵＲＬで特定されるリソース（例えば、ウェブページ）を表示部１４に表示可能なように提供する。

【0128】

これにより、情報処理装置１０は、ユーザ（例えば、ビデオ会議の参加者）が表示部１４に表示されているキャプチャ画像内のＵＲＬを選択するだけで、選択されたＵＲＬのウェブページを表示させることができるため、利便性がよい。

【0129】

また、レビュー処理部１２０は、表示制御処理において、キャプチャ処理によりキャプチャされた一連のキャプチャ画像ファイルのそれぞれをキャプチャ順に対応して選択可能なユーザインタフェース（例えば、図３のスライダＳＤ１）を表示部１４に表示させるとともに、当該ユーザインタフェースに対するユーザの操作に応じて選択されたキャプチャ画像ファイルのキャプチャ画像を表示部１４に表示させる。

【0130】

これにより、情報処理装置１０は、他のユーザ（発表者）が会議で共有した資料のうちユーザ（参加者）が見返したいページを容易な操作で選択して表示せることができ、且つそのページ内の文字情報（テキストデータ）をユーザ（参加者）が容易に得ることができる。

【0131】

また、レビュー処理部１２０は、キャプチャ処理において、表示部１４の画面領域のうち映像内のコンテンツ領域ＣＲ（特定領域の一例）をキャプチャする。

【0132】

これにより、情報処理装置１０は、表示部１４に表示されている映像のうち、必要な領域（例えば、ビデオ会議で共有されている資料部分）のみをキャプチャして文字情報を取得することができるため、不要な画像領域に対して文字認識処理を行うことが無く、文字認識処理を行うデータ量を削減すること（処理負荷を低減すること）ができる。

【0133】

また、レビュー処理部１２０は、キャプチャ処理によりキャプチャされる度に、今回キャプチャされたキャプチャ画像ファイルのキャプチャ画像を以前にキャプチャされたキャプチャ画像ファイルのキャプチャ画像と比較して類似性を判定する類似性判定処理をさらに行う。そして、レビュー処理部１２０は、類似性判定処理により以前にキャプチャされたキャプチャ画像ファイルのキャプチャ画像との類似度が所定の閾値以上であると判定されたキャプチャ画像ファイルのキャプチャ画像を、文字情報取得処理により文字情報を取得する対象及び表示制御処理により表示部１４に表示させる表示対象から除外する。

【0134】

これにより、情報処理装置１０は、同一ページのキャプチャ画像が重複せず、１つのページに対して１つのキャプチャ画像のみがレビュー対象となるため、資料を見返す際のページ送りを楽にすることができる。また、同一ページのキャプチャ画像に対して重複して文字認識処理を行わないため、文字認識処理を行うデータ量を削減すること（処理負荷を低減すること）ができる。

【0135】

また、情報処理装置１０における制御方法は、レビュー処理部１２０が、他の端末装置（情報処理装置）から受信してメモリ（例えば、メインメモリ１２）に記憶された映像データの映像が表示される表示部１４の画面領域のうち上記映像の少なくとも一部が含まれる画面領域を、所定時間ごとにキャプチャ画像ファイル（静止画ファイル）としてキャプチャするステップと、前記キャプチャするステップによる所定時間ごとのキャプチャを継続しながら、キャプチャするステップによりキャプチャされた一連のキャプチャ画像ファイルのうちの少なくとも一部のキャプチャ画像の中から文字認識された文字情報を取得し、キャプチャ画像ごとの文字情報を保存するステップと、を含む。

【0136】

【0137】

＜第２の実施形態＞
次に、本発明の第２の実施形態について説明する。
第１の実施形態で説明したレビューアプリは、ビデオ会議アプリの映像を静止画ファイルとしてキャプチャするだけでなく、当該映像を録画した動画ファイルを生成してもよい。即ち、レビューアプリは、ビデオ会議アプリにより他の端末装置（情報処理装置）から受信した映像データが録画された動画ファイルの録画開始から録画終了までの期間の中で、所定時間ごとのキャプチャを行ってもよい。

【0138】

例えば、レビューアプリ（キャプチャ部１２１）は、図９に示すレビュー処理のステップＳ１０１においてキャプチャ開始イベントの発生に応じて録画を開始し、ステップＳ１１５においてキャプチャ終了イベントの発生に応じて録画を終了して動画ファイルを生成する。なお、レビューアプリ以外の他のアプリでも、ビデオ会議アプリの映像を録画できる（画面を動画キャプチャできる）アプリがある。この他のアプリを用いて動画ファイルを生成してもよい。

【0139】

動画ファイルの生成の際、一般的には日付または生成順に従った番号などがファイル名として自動生成される。動画ファイルが増えてくると、ユーザは所望のファイルがどれかすぐには見分けることができなくなってくる。動画ファイルの検索方法としては、従来、ファイル名またはファイルの作成日時や更新日時でしか検索することができず、ユーザが所望のファイルを見つけることが難しい場合があった。

【0140】

図１２は、ファイルの検索が可能なファイル管理アプリの一例を示す図である。この図は、表示部１４に表示されるファイル管理アプリのウィンドウＷＥの例を示している。ファイル管理アプリは、一例としてＷｉｎｄｏwｓ（登録商標）のエクスプローラなどであり、ファイル及びフォルダの閲覧や検索が可能である。検索ボックスＦＳに検索したいファイルのファイル名または日時を入力することにより、ファイルを検索することができるが、本実施形態では、さらに動画ファイルに記録されている文字情報を利用して検索することができる。

【0141】

具体的には、レビューアプリは、第１の実施形態で説明したキャプチャ画像から文字認識された文字情報のテキストデータからキーワードを抽出し、抽出したキーワードを動画ファイルのメタデータのタグ（Ｔａｇｓ）に保存する。これにより、ユーザが検索ボックスＦＳに検索したい文字を入力することにより、入力した文字によるキーワード検索で動画ファイルを検索することが可能である。なお、キャプチャ画像は、第１の実施形態で説明したようにビデオ会議アプリの実行中に会議の進行とともに所定の時間間隔でキャプチャしたものに限らず、動画ファイルを後から再生して所定の時間間隔でキャプチャしたものであってもよい。

【0142】

図１３は、動画ファイルのメタデータの一例を示す図である。この図は、動画ファイルのプロパティ画面の一例である。「Ｔａｇｓ」に、抽出されたキーワードが保存される。保存されるキーワードの数は、１つでもよいし、複数でもよい。また、抽出されたキーワードのすべてが「Ｔａｇｓ」に保存されてもよいし、「Ｔａｇｓ」に保存されるキーワードの数に上限があってもよい。

【0143】

次に、本実施形態に係るレビューアプリを実行することにより文字情報で動画ファイルを検索可能にする機能構成について説明する。
図１４は、本実施形態に係る情報処理装置１０の機能構成の一例を示すブロック図である。なお、本実施形態に係る情報処理装置１０の外観構成およびハードウェア構成は、図１及び図５に示す各構成と同様である。図１４において、レビュー処理部１２０Ａは、本実施形態に係るレビューアプリを実行することにより実現される機能構成である。ビデオ会議処理部１１１及び文字認識処理部１１２は、図６に示すビデオ会議処理部１１１及び文字認識処理部１１２と同様である。

【0144】

レビュー処理部１２０Ａは、キャプチャ部１２１と、類似性判定部１２２と、文字情報取得部１２３と、表示制御部１２４と、キーワード抽出部１２６Ａと、キーワード登録部１２７Ａとを備えている。キャプチャ部１２１、類似性判定部１２２、文字情報取得部１２３、及び表示制御部１２４の基本的な構成は、図６に示す構成と同様であり、その説明を省略する。

【0145】

キーワード抽出部１２６Ａは、文字情報取得部１２３により取得した文字情報に含まれる文字の中からキーワードを抽出する。キーワードの抽出方法としては、ＴＦ－ＩＤＦなどの技術を適用できる。ＴＦ－ＩＤＦは、文章中に含まれる単語の重要度を、単語の出現頻度（ＴＦ：ＴｅｒｍＦｒｅｑｕｅｎｃｙ）と逆文書頻度（ＩＤＦ：ＩｎｖｅｒｓｅＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ）との２つの指標に基づいて評価する方法である。なお、キーワードの抽出方法としては、公知の任意の技術を適用できる。

【0146】

キーワード登録部１２７Ａは、文字情報取得部１２３により取得した文字情報と動画ファイルとを関連付ける。例えば、キーワード登録部１２７Ａは、キーワード抽出部１２６Ａにより抽出されたキーワードを動画ファイルのメタデータのタグ（Ｔａｇｓ）に保存することによりキーワードと動画ファイルとを関連付ける。

【0147】

[第２の実施形態のまとめ]
以上説明してきたように、本実施形態に係る情報処理装置１０は、レビューアプリを実行することにより実現される機能構成として、レビュー処理部１２０Ａを備えている。レビュー処理部１２０Ａは、ビデオ会議アプリにより他の端末装置（情報処理装置）から受信した映像データが録画された動画ファイルの録画開始から録画終了までの期間の中で、所定時間ごとのキャプチャを行う。そして、レビュー処理部１２０Ａは、キャプチャされた一連のキャプチャ画像ファイルのうちの少なくとも一部のキャプチャ画像の中から文字認識された文字情報を取得し、取得した文字情報と動画ファイルとを関連付ける関連付け処理を行う。

【0148】

これにより、情報処理装置１０は、文字検索により動画ファイルを検索することが可能となるため、ユーザが所望の動画ファイルを容易に見つけることができ、利便性が良い。

【0149】

例えば、レビュー処理部１２０Ａは、取得した文字情報に含まれる文字の中からキーワードを抽出するキーワード抽出処理を行い、抽出されたキーワードと動画ファイルとを関連付ける。

【0150】

これにより、情報処理装置１０は、キーワード検索により動画ファイルを検索することが可能となるため、ユーザが所望の動画ファイルを容易に見つけることができる。

【0151】

一例として、レビュー処理部１２０Ａは、抽出されたキーワードを動画ファイルのメタデータに保存することにより、キーワードと動画ファイルとを関連付ける。

【0152】

これにより、情報処理装置１０は、汎用的なエクスプローラなどのファイル管理アプリで、キーワード検索により動画ファイルを検索することが可能となるため、ユーザが所望の動画ファイルを容易に見つけることができる。

【0153】

なお、レビュー処理部１２０Ａは、キャプチャ画像の中から文字認識された文字情報に含まれる文字の中からキーワードを抽出せずに、一部の文字情報（例えば、１行目のみ、または１行目の１単語目のみ）を、動画ファイルのメタデータに保存して関連付けてもよい。この場合、ビデオ会議で共有される資料の各ページにタイトルなどが記載されている場合、タイトルで検索することが可能である。

【0154】

＜第３の実施形態＞
次に、本発明の第３の実施形態について説明する。
本実施形態では、第２の実施形態と同様に動画ファイルの検索方法の一例を説明するが、動画ファイルを再生したときの動画の場面を検索可能な点が、第２の実施形態と異なる。

【0155】

図１５は、本実施形態に係る情報処理装置１０の機能構成の一例を示すブロック図である。なお、本実施形態に係る情報処理装置１０の外観構成およびハードウェア構成は、図１及び図５に示す各構成と同様である。図１５において、レビュー処理部１２０Ｂは、本実施形態に係るレビューアプリを実行することにより実現される機能構成である。ビデオ会議処理部１１１及び文字認識処理部１１２は、図６に示すビデオ会議処理部１１１及び文字認識処理部１１２と同様である。

【0156】

レビュー処理部１２０Ｂは、キャプチャ部１２１と、類似性判定部１２２と、文字情報取得部１２３と、表示制御部１２４と、検索データ生成部１２８Ｂとを備えている。キャプチャ部１２１、類似性判定部１２２、文字情報取得部１２３、及び表示制御部１２４の基本的な構成は、図６に示す構成と同様であり、その説明を省略する。

【0157】

検索データ生成部１２８Ｂは、動画ファイルと、動画ファイルの録画開始からキャプチャ画像ファイルごとのキャプチャまでの経過時間と、キャプチャ画像ファイルごとのキャプチャ画像の中から文字認識された文字情報に含まれる文字のテキストデータとを関連付けた検索用データを生成する。検索データ生成部１２８Ｂは、生成した検索用データを記憶部２３の検索用データベースに記憶させる。

【0158】

図１６は、記憶部２３に記憶される検索用データベースの一例を示す図である。検索用データベースには、動画ファイルのファイル名と、経過時間と、抽出されたテキストデータとが関連付けられた格納される。ファイル名にはファイルのパスが付されてもよい。経過時間は、動画ファイルの録画開始からキャプチャ画像ファイルごとのキャプチャまでの経過時間である。例えば、経過時間が「００：００：００」に関連付けられているテキストデータは、動画ファイルの録画開始時にキャプチャされたキャプチャ画像の中から文字認識された文字のテキストデータである。また、経過時間が「００：１８：２５」に関連付けられているテキストデータは、動画ファイルの録画開始から１８分２５秒後にキャプチャされたキャプチャ画像の中から文字認識された文字のテキストデータである。なお、経過時間ごとにキャプチャされたキャプチャ画像ファイルのファイル名がさらに関連付けて格納されてもよい。

【0159】

例えば、「３Ｓ」という文字を検索ワードとして検索された場合、動画ファイルの動画において、「００：１８：２５」から「００：１９：５０」までの期間ＴＨにおいて、「３Ｓ」が録画されている（即ち、ビデオ会議アプリで共有されている資料の中に表示されている）ことが検索される。

【0160】

図１７は、動画再生画面における検索結果の表示例を示す図である。この図は、動画ファイルを再生して表示部１４に動画を表示させる動画再生アプリのウィンドウ画面ＷＭの一例を示している。この動画アプリの機能は、レビューアプリの中の一つの機能としてもよいし、専用のアプリとしてもよい。動画アプリの機能がレビューアプリの中の一つの機能である場合、表示制御部１２４は、動画ファイルの再生表示の機能をさらに有する。例えば、動画ファイルを再生させるユーザの操作に応じて、表示制御部１２４は、動画ファイルを再生し、ウィンドウ画面ＷＭに再生中の動画を表示させる。また、ウィンドウ画面ＷＭには、動画の開始から終了までの再生位置を示すスライダＳＤ２が表示されている。表示制御部１２４は、スライダＳＤ２のうち検索ワード「３Ｓ」が表示される期間ＴＨに対応する部分がわかるように、他の期間と異なる表示態様（例えば、異なる色や太いバーで表示）で表示させる。また、表示制御部１２４は、再生中の動画の検索ワード「３Ｓ」の部分を、特定の表示態様で表示（例えば、ハイライト表示）させる。

【0161】

[第３の実施形態のまとめ]
以上説明してきたように、本実施形態に係る情報処理装置１０は、レビューアプリを実行することにより実現される機能構成として、レビュー処理部１２０Ｂを備えている。レビュー処理部１２０Ｂは、動画ファイルと、動画ファイルの録画開始からキャプチャ画像ファイルごとのキャプチャまでの経過時間と、キャプチャ画像ファイルごとのキャプチャ画像の中から文字認識された文字情報に含まれる文字（テキストデータ）とを関連付けた検索用データ（関連付けデータの一例）を生成する。

【0162】

これにより、情報処理装置１０は、動画ファイルに録画されている動画内の文字を検索ワードとして、動画内で当該文字が録画されている場面を検索することが可能となるため、利便性が良い。

【0163】

なお第２の実施形態と同様に、レビュー処理部１２０Ｂは、文字情報からキーワードを抽出し、抽出したキーワードを動画ファイル及び経過時間と関連付けてもよい。例えば、レビュー処理部１２０Ｂは、文字情報取得部１２３により取得した文字情報に含まれる文字の中からキーワードを抽出するキーワード抽出処理をさらに行い、動画ファイルと、動画ファイルの録画開始からキャプチャ画像ファイルごとのキャプチャまでの経過時間と、キャプチャ画像ファイルごとのキャプチャ画像の中から文字認識された文字情報に含まれるキーワードとを関連付けた検索用データ（関連付けデータの一例）を生成してもよい。

【0164】

＜第４の実施形態＞
次に、本発明の第４の実施形態について説明する。
本実施形態では、ビデオ会議アプリの字幕（ライブキャプション）を文字認識して、会議の会話の内容を文字（テキストデータ）して利用する例を説明する。ビデオ会議アプリには、会議で発話しているユーザ（会議の参加者）の音声を字幕表示するライブキャプション機能を有するものがある。

【0165】

図１８は、本実施形態に係るビデオ会議アプリの表示例を示す図である。情報処理装置１０の表示部１４の表示画面Ｇ１０には、ビデオ会議アプリのウィンドウＷＶが全画面表示されている。字幕表示領域ＬＣには、会議で発話しているユーザの音声がライブキャプション機能により字幕表示されている。第１から第３の実施形態では、レビューアプリは、コンテンツ領域ＣＲを所定時間ごとにキャプチャしたが、本実施形態では、字幕表示領域ＬＣを所定時間ごとにキャプチャする。キャプチャの対象となる字幕表示領域ＬＣは、ビデオ会議アプリの使用に合わせて予め設定されていてもよいし、ユーザがキャプチャの対象とする字幕表示領域ＬＣの範囲を指定する操作を行うことにより設定されてもよい。

【0166】

この図に示す例では、字幕表示領域ＬＣには、字幕が２行表示されている。上の行が確定された字幕であり、下の行が現在の音声に応じて更新中の字幕である。更新中の字幕は、音声の内容によって刻々と修正または変化があるため、上の行の字幕のみが文字認識の対象となる。

【0167】

なお、本実施形態では、字幕表示領域ＬＣには、字幕が２行表示されている例を示しているが、３行以上であってもよい。また、本実施形態では、字幕表示領域ＬＣの上の行（最も上の行）が上の行が確定された字幕であるが、これに限られるものではなく、例えば下の行（最も下の行）が確定された字幕であってもよい。

【0168】

図１９は、本実施形態に係る情報処理装置１０の機能構成の一例を示すブロック図である。なお、本実施形態に係る情報処理装置１０の外観構成およびハードウェア構成は、図１及び図５に示す各構成と同様である。図１９において、レビュー処理部１２０Ｃは、本実施形態に係るレビューアプリを実行することにより実現される機能構成である。ビデオ会議処理部１１１及び文字認識処理部１１２は、図６に示すビデオ会議処理部１１１及び文字認識処理部１１２と同様である。なお、ビデオ会議処理部１１１は、音声を文字認識して文字化（字幕化）するライブキャプション機能を有する。

【0169】

レビュー処理部１２０Ｃは、キャプチャ部１２１Ｃと、類似性判定部１２２と、文字情報取得部１２３Ｃと、表示制御部１２４と、検索データ生成部１２８Ｃと、字幕データ生成部１２９Ｃとを備えている。

【0170】

キャプチャ部１２１Ｃは、ビデオ会議アプリにより他の端末装置（情報処理装置）から受信した音声データが文字化された字幕が表示される字幕表示領域ＬＣを、所定時間ごとにキャプチャ画像ファイル（静止画ファイル）としてキャプチャする。なお、類似性判定部１２２は、同様にキャプチャ画像の類似性を判定し、レビュー対象とするか否かを設定する。これにより、字幕のテキストデータを重複しないように取得できる。

【0171】

文字情報取得部１２３Ｃは、キャプチャ部１２１Ｃによりキャプチャされた字幕表示領域ＬＣのキャプチャ画像（レビュー対象に設定されているキャプチャ画像）に含まれる字幕の一部（例えば、上の行の確定している字幕）が文字認識された文字情報を取得し、キャプチャ画像ごとの文字情報（字幕のテキストデータ）を保存する。

【0172】

検索データ生成部１２８Ｃは、文字情報取得部１２３Ｃにより取得した文字情報と動画ファイルとを関連付ける。例えば、検索データ生成部１２８Ｃは、動画ファイルと、動画ファイルの録画開始から静止画ファイルごとのキャプチャまでの経過時間と、キャプチャ画像ファイルごとのキャプチャ画像の中から文字認識された文字情報（字幕のテキストデータ）とを関連付けた検索用データを生成する。検索データ生成部１２８Ｃは、生成した検索用データを記憶部２３の検索用データベースに記憶させる。

【0173】

例えば、検索用データベースは、図１６に示す検索用データベースのテキストデータ（コンテンツ領域ＣＲから文字認識されたテキストデータ）に代えて、字幕のテキストデータが格納されてもよいし、図１６に示す検索用データベースのテキストデータに加えて、字幕のテキストデータが格納されてもよい。

【0174】

字幕データ生成部１２９Ｃは、文字情報取得部１２３Ｃにより取得したキャプチャ画像ごとの字幕の一部が文字認識された文字情報（字幕のテキストデータ）をキャプチャ画像のキャプチャ順にまとめた一つの字幕データファイルを生成する。字幕データ生成部１２９Ｃは、生成した字幕データファイルを記憶部２３に記憶させる。

【0175】

図２０は、本実施形態に係る字幕データファイルの一例を示す図である。図示するように、字幕データファイルには、ビデオ会議アプリのライブキャプション機能で表示される字幕のテキストデータが、時系列の順に上から下へ或いは下から上へ配列されている。これにより、ビデオ会議アプリのライブキャプション機能では表示される字幕が順次に表示からなくなって後に残らないが、本実施形態によるレビューアプリを用いることで、自動で字幕をテキスト化して残すことができる。

【0176】

[第４の実施形態のまとめ]
以上説明してきたように、本実施形態に係る情報処理装置１０は、ネットワークを介して他の情報処理装置から受信した音声データを一時的に記憶するメモリ（例えば、メインメモリ１２）と、当該メモリに記憶された音声データに基づく処理を実行するプロセッサ（例えば、ＣＰＵ１１）とを備えている。ＣＰＵ１１は、レビューアプリを実行することにより実現される機能構成として、レビュー処理部１２０Ｃを備えている。レビュー処理部１２０Ｃは、他の端末装置（情報処理装置）から受信して上記メモリに記憶された音声データが文字化された字幕が表示される表示部１４の画面領域のうち字幕が表示される画面領域（例えば、字幕表示領域ＬＣ）を、所定時間ごとにキャプチャ画像ファイル（静止画ファイル）としてキャプチャするキャプチャ処理を行う。また、レビュー処理部１２０Ｃは、キャプチャ処理によりキャプチャされた一連のキャプチャ画像ファイルのうちの少なくとも一部のキャプチャ画像に含まれる字幕の一部が文字認識された文字情報（字幕のテキストデータ）を取得し、キャプチャ画像ごとの文字情報を保存する文字情報取得処理を行う。

【0177】

これにより、情報処理装置１０は、ライブキャプション機能で表示される字幕をテキスト化して残すことができるため、利便性がよい。例えば、情報処理装置１０は、ビデオ会議アプリで、参加者が発話している内容を自動でテキスト化して残すことができるため、オンラインによるビデオ会議の利便性を向上させることができる。

【0178】

また、レビュー処理部１２０Ｃは、取得したキャプチャ画像ごとの字幕の一部が文字認識された文字情報（字幕のテキストデータ）をキャプチャ画像のキャプチャ順にまとめた一つの字幕データファイル（データファイルの一例）を生成するファイル生成処理を行う。

【0179】

これにより、情報処理装置１０は、ライブキャプション機能で表示される字幕をテキスト化したデータファイルを生成することができるため、利便性がよい。例えば、情報処理装置１０は、ビデオ会議アプリで、参加者が発話している内容を発話の順に並べたテキストデータを自動で生成することができるため、オンラインによるビデオ会議の利便性を向上させることができる。

【0180】

また、レビュー処理部１２０Ｃは、キャプチャ処理において、他の端末装置（情報処理装置）から受信した映像データが録画された動画ファイルの録画開始から録画終了までの期間の中で、所定時間ごとのキャプチャを行う。
また、レビュー処理部１２０Ｃは、取得した文字情報（字幕のテキストデータ）と動画ファイルとを関連付ける関連付け処理をさらに行う。

【0181】

これにより、情報処理装置１０は、文字検索により、当該文字に対応する音声が録画されている動画ファイルを検索することが可能となるため、ユーザが所望の動画ファイルを容易に見つけることができ、利便性が良い。

【0182】

例えば、レビュー処理部１２０Ｃは、関連付け処理において、動画ファイルと、動画ファイルの録画開始から静止画ファイルごとのキャプチャまでの経過時間と、キャプチャ画像ファイルごとのキャプチャ画像の中から文字認識された文字情報に含まれる文字（字幕のテキストデータ）とを関連付けた検索用データ（関連付けデータの一例）を生成する。

【0183】

これにより、情報処理装置１０は、動画ファイルに録画されている動画内の文字（字幕のテキストデータ）を検索ワードとして、動画内で当該文字が録画されている場面（即ち、当該文字に対応する音声が録画されている場面）を検索することが可能となるため、利便性が良い。

【0184】

また、情報処理装置１０における制御方法は、レビュー処理部１２０Ｃが、他の端末装置（情報処理装置）から受信してメモリ（例えば、メインメモリ１２）に記憶された音声データが文字化された字幕が表示される表示部１４の画面領域のうち字幕が表示される画面領域（例えば、字幕表示領域ＬＣ）を、所定時間ごとにキャプチャ画像ファイル（静止画ファイル）としてキャプチャするステップと、キャプチャするステップによりキャプチャされた一連のキャプチャ画像ファイルのうちの少なくとも一部のキャプチャ画像に含まれる字幕の一部が文字認識された文字情報（字幕のテキストデータ）を取得し、キャプチャ画像ごとの文字情報を保存するステップと、を含む。

【0185】

【0186】

以上、この発明の各実施形態について図面を参照して詳述してきたが、具体的な構成は上述の実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。例えば、上述の各実施形態において説明した各構成は、任意に組み合わせることができる。

【0187】

また、上記の各実施形態において、ビデオ会議アプリのウィンドウＷＶの少なくとも一部の領域をキャプチャするタイミングは、ビデオ会議アプリの実行中（会議中）に限らず、会議の終了後に、ビデオ会議アプリの実行中にウィンドウＷＶの少なくとも一部の領域が録画された動画ファイルを再生した映像を所定時間ごとにキャプチャしてもよい。さらに、動画ファイルを再生してキャプチャする場合、その動画ファイルは、ビデオ会議アプリの動画ファイルに限らず、他の用途で作成された動画ファイルであってもよい。また、動画ファイルの録画中の映像または録画済みの動画ファイルを再生した映像を、別途スクリーンキャプチャしてもよい。

【0188】

また、キャプチャ画像から文字認識された領域を予め設定された大きさより小さい場合には、文字情報として取得しなくてもよい。

【0189】

なお、上述した情報処理装置１０は、内部にコンピュータシステムを有している。そして、上述した情報処理装置１０が備える各構成の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより上述した情報処理装置１０が備える各構成における処理を行ってもよい。ここで、「記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行する」とは、コンピュータシステムにプログラムをインストールすることを含む。ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、インターネットやＷＡＮ、ＬＡＮ、専用回線等の通信回線を含むネットワークを介して接続された複数のコンピュータ装置を含んでもよい。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。このように、プログラムを記憶した記録媒体は、ＣＤ－ＲＯＭ等の非一過性の記録媒体であってもよい。

【0190】

また、記録媒体には、当該プログラムを配信するために配信サーバからアクセス可能な内部又は外部に設けられた記録媒体も含まれる。なお、プログラムを複数に分割し、それぞれ異なるタイミングでダウンロードした後に情報処理装置１０が備える各構成で合体される構成や、分割されたプログラムのそれぞれを配信する配信サーバが異なっていてもよい。さらに「コンピュータ読み取り可能な記録媒体」とは、ネットワークを介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（ＲＡＭ）のように、一定時間プログラムを保持しているものも含むものとする。また、上記プログラムは、上述した機能の一部を実現するためのものであってもよい。さらに、上述した機能をコンピュータシステムに既に記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよい。

【0191】

また、上述した実施形態における情報処理装置１０が備える各機能の一部、または全部を、ＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ）等の集積回路として実現してもよい。各機能は個別にプロセッサ化してもよいし、一部、又は全部を集積してプロセッサ化してもよい。また、集積回路化の手法はＬＳＩに限らず専用回路、または汎用プロセッサで実現してもよい。また、半導体技術の進歩によりＬＳＩに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。

【0192】

また、上述した実施形態では、情報処理装置１０がノートＰＣである例を説明したが、デスクトップ型やタブレット型のＰＣであってもよいし、スマートフォンやゲーム機、或いはビデオ会議専用の電子機器などであってもよい。また、撮像部２７は、情報処理装置１０に内蔵されたものに限らず、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）等で接続される周辺機器であってもよい。また、表示部１４は、情報処理装置１０に内蔵されたものに限らず、ＨＤＭＩ（登録商標）またはＵＳＢ等で接続される周辺機器であってもよい。

【符号の説明】

【0193】

１０情報処理装置、１０１第１筐体、１０２第２筐体、１０３ヒンジ機構、１１ＣＰＵ、１２メインメモリ、１３ビデオサブシステム、１４表示部、２１チップセット、２２ＢＩＯＳメモリ、２３記憶部、２４オーディオシステム、２５通信部、２６ＵＳＢコネクタ、２７撮像部、３１エンベデッドコントローラ、３２キーボード、３３電源回路、３４バッテリ、３５センサ、１１０処理部、１１１ビデオ会議処理部、１１２文字認識処理部、１２０，１２０Ａ，１２０Ｂ，１２０Ｃレビュー処理部、１２１，１２１Ｃキャプチャ部、１２２類似性判定部、１２３文字情報取得部、１２４表示制御部、１２５文字情報提供部、１２６Ａキーワード抽出部、１２７Ａキーワード登録部、１２８Ｂ，１２８Ｃ検索データ生成部、１２９Ｃ字幕データ生成部

【図1】