【新規性喪失の例外の表示】特許法第30条第2項適用 平成29年8月7日 ウェブサイト(https://recruit−tech.co.jp/news/images/20170807_PressRelease.pdf)にて、動画内の音声と手書き文字を検索可能な機能を備えたオンライン学習サービスを公開した。 平成29年8月7日〜25日、平成29年10月1日〜継続実施中 スタディサプリラボ内にて、動画内の音声と手書き文字を検索可能な機能を備えたオンライン学習サービスについて、ユーザを対象に実証実験を行った。 平成29年10月30日 刊行物にて、動画内の音声と手書き文字を検索可能な機能を備えたオンライン学習サービスに関してユーザを対象に行った実証実験の内容を公開した。
(58)【調査した分野】(Int.Cl.,DB名)
複数の第1文字列の画像が表示される動画について、該第1文字列の画像を文字認識することで生成される第2文字列と、前記動画で該第1文字列の画像が表示される時間を示す時間情報と、前記動画とを対応づけて格納するデータベースを記憶する記憶部と、
検索対象の文字列を受け付ける受付部と、
前記検索対象の文字列を含む第2文字列と、該第2文字列に対応する時間情報と、該第2文字列に対応する動画とを前記データベースから検索する検索部と、
検索された動画を再生する第1表示領域と、検索された第2文字列と時間情報とを時系列順に表示する第2表示領域とを含む画面を出力する出力部と、
を有し、
前記出力部は、検索された第2文字列に含まれる文字列の文字数が所定の文字数以上である場合、前記第2表示領域において、検索された第2文字列に含まれる文字列のうち、少なくとも前記検索対象の文字列を含む一部の文字列を出力する、
情報処理装置。
複数の第1文字列の画像が表示される動画について、該第1文字列の画像を文字認識することで生成される第2文字列と、前記動画で該第1文字列の画像が表示される時間を示す時間情報と、前記動画とを対応づけて格納するデータベースを記憶する記憶部を有する情報処理装置が行う動画検索方法であって、
検索対象の文字列を受け付けるステップと、
前記検索対象の文字列を含む第2文字列と、該第2文字列に対応する時間情報と、該第2文字列に対応する動画とを前記データベースから検索するステップと、
検索された動画を再生する第1表示領域と、検索された第2文字列と時間情報とを時系列順に表示する第2表示領域とを含む画面を出力するステップと、
を有し、
前記出力するステップは、検索された第2文字列に含まれる文字列の文字数が所定の文字数以上である場合、前記第2表示領域において、検索された第2文字列に含まれる文字列のうち、少なくとも前記検索対象の文字列を含む一部の文字列を出力する、する動画検索方法。
【発明の概要】
【発明が解決しようとする課題】
【0004】
ユーザが苦手科目の復習をする場合など、必ずしも講義動画を最初から最後まで全て視聴するのではなく、特定の部分のみを視聴したいといったニーズが存在すると考えられる。例えば、世界史の科目のうちアメリカの歴史について復習をしたいために、世界史の講義動画の中で講師がアメリカについて説明をしている部分のみを視聴したいといったニーズがあると考えられる。
【0005】
しかしながら、従来のオンライン学習システムでは、講義動画の中から、ユーザが視聴を所望する特定の部分を検索する機能が提供されていない。そのため、ユーザは、講義動画を最初から最後まで視聴するか、又は早送り等を行うことで視聴したい部分を自ら探す必要があった。このような問題は、講義動画に限らずあらゆる動画においても生じ得る。
【0006】
そこで、本発明は、動画の中でユーザが視聴を所望する特定の部分を迅速に検索することが可能な技術を提供することを目的とする。
【課題を解決するための手段】
【0007】
本発明の一態様に係る情報処理装置は、複数の第1文字列の画像が表示される動画について、該第1文字列の画像を文字認識することで生成される第2文字列と、前記動画で該第1文字列の画像が表示される時間を示す時間情報と、前記動画とを対応づけて格納するデータベースを記憶する記憶部と、検索対象の文字列を受け付ける受付部と、前記検索対象の文字列を含む第2文字列と、該第2文字列に対応する時間情報と、該第2文字列に対応する動画とを前記データベースから検索する検索部と、検索された動画を再生する第1表示領域と、検索された第2文字列と時間情報とを時系列順に表示する第2表示領域とを含む画面を出力する出力部と、を有する。この態様によれば、動画の中でユーザが視聴を所望する特定の部分を迅速に検索することが可能な技術を提供することが可能になる。
【0008】
上記態様において、前記出力部は、前記第2表示領域に、検索された第2文字列と時間情報とを、横方向又は縦方向に時系列順に並べて表示する画面を出力するようにしてもよい。この態様によれば、画面内の第2領域に複数のテキスト情報と時間情報とが時系列順に表示されるため、視認性を向上させることが可能になる。
【0009】
上記態様において、前記出力部は、前記第2表示領域に、更に、検索された第2文字列に対応する第1文字列の画像が、前記動画に表示されていることを示すメッセージを表示するようにしてもよい。この態様によれば、ユーザは、検索対象が、動画に表示されている第1文字列であることを画面上で容易に認識することが可能になる。
【0010】
上記態様において、前記出力部は、検索された第2文字列に対応する第1文字列の画像が前記動画の中で表示される位置を示す情報を、前記動画に重ねて表示するようにしてもよい。この態様によれば、ユーザは、検索対象の文字列が動画内で表示されている位置を容易に把握することが可能になる。
【0011】
上記態様において、前記出力部は、前記第2表示領域に表示する第2文字列のうち、前記検索対象の文字列に該当する部分を強調表示するようにしてもよい。この態様によれば、例えば第2文字列の文字数が多い場合であっても、検索対象の文字列が第2文字列のうちどの部分に該当するのかを容易に把握することが可能になる。
【0012】
上記態様において、前記動画は、講師が黒板を用いて講義を行っている様子を撮影した動画であり、前記第1文字列は、前記黒板に手書きで書かれた複数の手書き文字を含む文字列であってもよい。この態様によれば、ユーザは、講義の動画の中で黒板に書かれた手書き文字のうち、検索対象の文字列が表示される部分を容易に検索することが可能になる。
【0013】
本発明の他の態様に係る情報処理装置は、動画内で第1文字列の画像が表示される領域である第1画像を抽出し、前記動画内で前記第1文字列の画像の表示が開始される時間情報を出力する抽出部と、前記抽出部で抽出された前記第1画像を、前記第1文字列に含まれる文字ごとの第2画像に分割する分割部と、前記複数の第2画像の各々について文字認識を行うことで、前記第2画像ごとに複数の候補文字を出力する文字認識部と、前記第2画像ごとに出力された前記複数の候補文字を前記第1文字列における文字の並び順に従って組み合わせることで生成される複数の候補文字列について、前記動画で使用される可能性のある複数の文字列のうち、前記複数の候補文字列のいずれかに最も類似すると判定される文字列を、第2文字列として出力する出力部と、前記出力部で出力された前記第2文字列と、前記抽出部で出力された前記時間情報と、前記動画とを対応づけたデータベースを生成する生成部と、を有する。この態様によれば、データベースを自動的に生成することができ、ユーザは、動画の中で視聴を所望する特定の部分を迅速に検索することが可能な技術を迅速に利用することが可能になる。
【0014】
本発明の他の態様に係る動画検索方法は、複数の第1文字列の画像が表示される動画について、該第1文字列の画像を文字認識することで生成される第2文字列と、前記動画で該第1文字列の画像が表示される時間を示す時間情報と、前記動画とを対応づけて格納するデータベースを記憶する記憶部を有する情報処理装置が行う動画検索方法であって、検索対象の文字列を受け付けるステップと、前記検索対象の文字列を含む第2文字列と、該第2文字列に対応する時間情報と、該第2文字列に対応する動画とを前記データベースから検索するステップと、検索された動画を再生する第1表示領域と、検索された第2文字列と時間情報とを時系列順に表示する第2表示領域とを含む画面を出力するステップと、を有する。この態様によれば、動画の中でユーザが視聴を所望する特定の部分を迅速に検索することが可能な技術を提供することが可能になる。
【0015】
本発明の他の態様に係るプログラムは、コンピュータを、複数の第1文字列の画像が表示される動画について、該第1文字列の画像を文字認識することで生成される第2文字列と、前記動画で該第1文字列の画像が表示される時間を示す時間情報と、前記動画とを対応づけて格納するデータベースを記憶する記憶手段と、検索対象の文字列を受け付ける受付手段と、前記検索対象の文字列を含む第2文字列と、該第2文字列に対応する時間情報と、該第2文字列に対応する動画とを前記データベースから検索する検索手段と、検索された動画を再生する第1表示領域と、検索された第2文字列と時間情報とを時系列順に表示する第2表示領域とを含む画面を出力する出力手段と、として機能させる。この態様によれば、動画の中でユーザが視聴を所望する特定の部分を迅速に検索することが可能な技術を提供することが可能になる。
【発明の効果】
【0016】
本発明によれば、動画の中でユーザが視聴を所望する特定の部分を迅速に検索することが可能な技術を提供することができる。
【発明を実施するための形態】
【0018】
添付図面を参照して、本発明の好適な実施形態について説明する。なお、各図において、同一の符号を付したものは、同一又は同様の構成を有する。
【0019】
<システム構成>
図1は、実施形態に係る動画配信システムの一例を示す図である。本動画配信システムは、配信サーバ10及び端末20を含む。配信サーバ10及び端末20は、無線又は有線の通信ネットワークNを介して相互に通信することができる。
図1には、端末20が1つずつ図示されているが、本動画配信システムには、複数の端末20が含まれていてもよい。本実施形態では、配信サーバ10及び端末20をまとめて情報処理装置と称してもよいし、配信サーバ10のみを情報処理装置と称してもよい。
【0020】
配信サーバ10は、講義動画を配信するサーバであり、端末20から要求された講義動画のデータを端末20に送信する機能を有する。配信サーバ10は、1又は複数の物理的又は仮想的なサーバであってもよいし、クラウドサーバであってもよい。
【0021】
端末20は、ユーザが操作する端末であり、スマートフォン、タブレット端末、携帯電話機、パーソナルコンピュータ(PC)、ノートPC、携帯情報端末(PDA)、家庭用ゲーム機器など、通信機能を備えた端末であればあらゆる端末を用いることができる。
【0022】
本実施形態では、ユーザは、検索対象の文字列(検索キーワード)を入力することで、講義動画において講師が黒板に手書きで書いた文字列(以下、「手書き文字列」と言う。)の画像に、検索対象の文字列が含まれる講義動画を検索することができる。例えば、ユーザが端末20の検索画面に検索対象の文字列として「有機化合物」を入力すると、講師が黒板に「有機化合物」と書いた講義動画が端末20の画面上に一覧表示される。また、ユーザが、一覧表示された講義動画の中から視聴したい講義動画を選択すると、端末20の画面上にて講義動画の再生が開始されると共に、講義動画の時間軸上において講師が黒板に「有機化合物」と書いた時間(例えば30分の動画の中で5分30秒、15分10秒及び23分40秒あたり等)が一覧表示される。ユーザが一覧表示された時間の中から1つを選択すると、再生中の講義動画が、選択された時間まで移動する。
【0023】
このような動作を実現するために、配信サーバ10には、手書き文字列(第1文字列)の画像を文字認識することで生成されるテキスト情報(第2文字列)と、講義動画で手書き文字列の画像が表示される時間を示す時間情報と、講義動画(又は講義動画を一意に特定する情報)とを対応づけてデータベースに格納しておく。時間情報は、より詳細には、講義動画内で手書き文字列が表示されてから表示が終了するまでの時間(以下、「出現時間」と言う。)を示す情報であってもよい。本実施形態では、当該データベースを「講義データDB(Database)」と呼ぶ。これにより、配信サーバ10は、検索対象の文字列が含まれる講義動画を、講義データDBを用いて検索することで、講師が黒板に書いた手書きの文章や文字列に検索対象の文字列が含まれる講義動画を検索することが可能になる。
【0024】
<ハードウェア構成>
図2は、配信サーバ10のハードウェア構成例を示す図である。配信サーバ10は、CPU(Central Processing Unit)11、メモリ等の記憶装置12、有線又は無線通信を行う通信IF(Interface)13、入力操作を受け付ける入力デバイス14、及び情報の出力を行う出力デバイス15を有する。後述する機能ブロック構成にて説明する各機能部は、記憶装置12に記憶されたプログラムがCPU11に実行させる処理により実現することができる。なお、当該プログラムは、例えば非一時的な記録媒体に格納することができる。
【0025】
<機能ブロック構成>
図3は、配信サーバ10の機能ブロック構成例を示す図である。配信サーバ10は、受付部101と、検索部102と、出力部103と、生成部104と、記憶部105とを有する。記憶部105には、講義データDBが格納される。
【0026】
受付部101は、ユーザが端末20の画面に入力した、検索対象の文字列を受け付ける機能を有する。
【0027】
検索部102は、受付部101で受け付けた検索対象の文字列を含む「テキスト情報」と、当該テキスト情報に対応する「出現時間」と、当該テキスト情報に対応する「講義動画」とを講義データDBから検索する。
【0028】
出力部103は、検索部102により検索された講義動画を再生する領域(第1領域)と、検索されたテキスト情報と出現時間(時間情報)とを時系列順に表示する領域(第2領域)とを含む画面を出力する。出力された画面は端末20のディスプレイに表示される。なお、出力部103は、例えばWebサーバ機能を備えており、講義動画を配信するWebサイトを端末20に送信する機能を有していてもよい。或いは、出力部103は、端末20にインストールされたアプリケーションの画面に講義動画等を表示させるためのコンテンツを、端末20に送信する機能を有していてもよい。
【0029】
生成部104は、講義動画の動画に表示される手書き文字列を文字認識することで、講義データDBを生成する。生成部104は、更に、領域抽出部1041と、分割部1042と、単一文字認識エンジン1043と、文字列認識エンジン1044と、DB生成部1045とを含む。領域抽出部1041と、分割部1042と、単一文字認識エンジン1043と、文字列認識エンジン1044と、DB生成部1045とが行う処理については後述する。
【0030】
<講義データDBの生成について>
続いて、
図4を用いて、講義データDBを生成する方法について具体的に説明する。以下の説明では、配信サーバ10の生成部104が、講義データDBを生成する前提で説明するが、必ずしも配信サーバ10が自ら講義データDBを作成するようにする必要はなく、外部の情報処理装置で生成されることとしてもよい。その場合、生成部104は、配信サーバ10ではなく、配信サーバ10とは異なる他の情報処理装置に実装されており、当該情報処理装置で生成された講義データDBが配信サーバ10の記憶部105に登録されることとしてもよい。
【0031】
図4は、講義データDBを生成する際の処理手順の一例を示すフローチャートである。
【0032】
ステップS101で、領域抽出部1041は、講義動画内で手書き文字列が表示される文字表示領域の画像(第1画像)を抽出する。また、講義動画内で当該手書き文字列が表示されてから表示が終了するまでの時間(出現時間)を判定して出力する。もし複数の手書き文字列が存在する場合、各々の手書き文字列に対して、文字表示領域の画像の抽出と出現時間の判定とを行う。
【0033】
1つの手書き文字列について、文字表示領域の画像の抽出と出現時間の判定を行う処理の具体例を、
図5を用いて説明する。領域抽出部1041は、講師が黒板に文字を書きながら講義を行っている動画(
図5(a))に対して、所定のフレーム数単位(例えば80フレーム等)で画像処理をして、背景と区別される領域を抽出する。例えば、ピクセル単位かつ当該所定のフレーム数単位で背景画像と異なる可能性を示すスコア(確率)を出力する。この処理により、黒板上に文字が書かれた領域のピクセル及び講師が写っている領域のピクセルについては所定の値以上のスコアが出力される。
【0034】
続いて、領域抽出部1041は、出力されたスコアが所定の値以上であるピクセルを抽出する。抽出されたピクセルの例を
図5(b)に示す。
図5(b)に示す抽出箇所500は、抽出されたピクセルが集合している箇所を示している。また、領域抽出部1041は、背景と区別される領域を抽出する際に、講師が写っている領域を除く処理をすることが好ましい。例えば、所定の時間長(例えば、10秒等)におけるスコアの変動が所定の閾値以下であるピクセルのみを抽出することで、動画内で動き回る講師が認識されたピクセルについては抽出対象外として扱うことができる。また、抽出されたピクセルが集合している領域の面積が所定値よりも大きい場合は、文字列ではなく講師が抽出されたものとみなして、抽出対象外として扱うことができる。領域抽出部1041は、講義動画において、ピクセルが集合している箇所が現れてから消えるまでの時間を、講義動画内で手書き文字列が表示されている出現時間として判定する。
【0035】
続いて、領域抽出部1041は、ピクセルが集合している箇所を囲む長方形の枠の位置(例えば動画の左下を起点とした場合の長方形の左下のピクセル位置)及び大きさ(縦方向及び横方向の大きさ)を決定する。
図5(b)に示す枠510は、決定された長方形の枠の一例である。
【0036】
続いて、領域抽出部1041は、出現時間の間における講義動画を構成する各フレームの画像のうち任意のフレームの画像から長方形の枠で囲まれた領域を切り出すことで、講義動画内で手書き文字列が表示される文字表示領域の画像を抽出する。
【0037】
ステップS102で、分割部1042は、領域抽出部1041で抽出された文字表示領域の画像を、手書き文字列を構成する一文字単位の画像(第2画像)に分割する。分割部1042は、文字表示領域の画像を2値化すると共に、例えば、当該画像の縦軸方向の全ピクセルの照度が所定の閾値を下回る部分を文字の切れ目とみなすことで、一文字単位の画像に分割する。
図5(c)に切れ目の位置の具体例を示す。
【0038】
ステップS103で、単一文字認識エンジン1043は、手書き文字列を構成する一文字単位の画像について文字認識を行うことで、当該画像ごとに複数の候補文字を出力する。
図6を用いて具体例を示す。
図6に示す候補文字1〜5は、「異」、「性」、「体」の画像の各々について文字認識を行うことで出力された複数の候補文字の例を示している。
【0039】
なお、単一文字認識エンジン1043が高精度な文字認識能力を有している場合、ステップS104の処理手順に進まずに、単一文字認識エンジン1043が出力した候補文字をそのままテキスト情報として講義データDBに格納することとしてもよい。例えば
図6の例において、単一文字認識エンジン1043が、「異」、「性」、「体」の画像に対して「異」、「性」、「体」と正しく認識可能な能力を有している場合、認識された「異」、「性」、「体」のテキストを結合した「異性体」を、そのままテキスト情報として講義データDBに格納することとしてもよい。
【0040】
ステップS104で、文字列認識エンジン1044(出力部)は、一文字単位の画像ごとに出力された複数の候補文字を、手書き文字列における文字の並び順に従って組み合わせることで複数の候補文字列を生成する。例えば、
図6の例では、「異」に対応する5つの候補文字と、「性」に対応する5つの候補文字と、「体」に対応する5つの候補文字とを組み合わせることで生成される125(5×5×5)個の候補文字列を生成する。
【0041】
ここで、文字列認識エンジン1044は、講義動画で使用される可能性のある複数のキーワード(文字列)を予め学習済みであり、任意の文字列を入力することで、当該複数のキーワードのうち、入力された文字列と最も類似すると判定されるキーワード及び類似度を示すスコアを出力する機能を有している。講義動画で使用される可能性のあるキーワードとは、例えば、日本史の講義動画の場合、「邪馬台国」や「徳川家康」といった教科書の索引に記載されているようなキーワードである。ただし、キーワードは科目ごとに異なることが一般的である。そのため、講義動画の属性(科目や講義名等)に応じて異なるキーワードを学習させた文字列認識エンジン1044を用意しておき、講義動画の属性に応じた文字列認識エンジン1044を使用してステップS104の処理手順を行うようにしてもよい。
【0042】
続いて、文字列認識エンジン1044は、講義動画で使用される可能性のある複数のキーワード(文字列)として予め学習したキーワード(文字列)のうち、生成した複数の候補文字列のいずれかに最も類似すると判定されるキーワード(文字列)を、手書き文字列に対応するテキスト情報として出力する。より具体的には、文字列認識エンジン1044は、生成した複数の候補文字列の各々について、最も類似すると判定されるキーワードと類似度(スコア)を出力し、出力された類似度が最も高いキーワードを、手書き文字列に対応するテキスト情報として出力する。
【0043】
図6には、文字列認識エンジン1044が、125個の候補文字列の各々と学習済みキーワード(
図6の例では少なくとも「異性体」を含む)との間の類似度を出力し、出力した類似度が最も高い学習済みキーワード「異性体」を、手書き文字列に対応するテキスト情報として出力した場合の例を示している。仮に、単一文字認識エンジン1043が文字を正しく認識することができず、125個の候補文字列の中に「異性体」そのものが含まれていない場合であっても、複数の候補文字列の中に「異性体」に類似する候補文字列(例えば「異住体」等)が含まれるのであれば、手書き文字列に対応するテキスト情報として「異性体」が文字列認識エンジン1044から出力されることになる。
【0044】
生成部104は、以上説明したステップS101〜104のまでの処理手順を、講義動画内で表示される手書き文字列ごとに繰り返し行うことで、講義動画内で表示される複数の手書き文字列の各々について、キーワード及び出現時間を判定する。
【0045】
ステップS105で、DB生成部1045は、ステップS104の処理手順で文字列認識エンジン1044から出力されたテキスト情報と、ステップS101で領域抽出部1041から出力された出現時間と、処理対象である講義動画(講義動画のファイル名でもよい)とを対応づけて講義データDBを生成する。
【0046】
図7は、講義データDBの一例を示す図である。「講義動画」には、講義動画を一意に識別する識別子が格納される。当該識別子には、講義動画の科目及び講義名等を含む。当該識別子は、例えば、講義動画の科目を含むファイル名であってもよい。「出現時間」には、手書き文字列が講義動画内で表示されてから消えるまでの時間が格納される。「テキスト情報」には、手書き文字列に対応するテキストデータが格納される。
図7の例では、「化学_第1講_有機化合物の構造決定_チャプター1」の講義動画には「錯イオン形成反応」が0分05秒〜3分10秒までの間表示されていること、「元素分析」が1分20秒〜3分10秒までの間表示されていること等を示すデータが格納されている。
【0047】
<講義の検索について>
続いて、ユーザが講義動画を検索する際の処理手順について具体的に説明する。
図8及び
図9は、端末20に表示される画面の一例を示す図である。
図8(a)は講義動画を検索するための画面の一例である。講義動画を検索する画面には、検索対象の文字列と、検索対象とする講義動画の科目を入力する入力ボックス1001が設けられている。入力ボックス1001の右側に表示される検索ボタンが押下されると、検索部102は、講義データDBにアクセスし、入力された科目に該当する講義動画のテキスト情報の中に、検索対象の文字列が含まれる講義動画が存在するか否かを検索する。テキスト情報に検索対象の文字列が含まれる講義動画が存在する場合、出力部103は、検索された講義動画を一覧表示する画面を出力する。なお、出力部103は、検索された講義動画が複数である場合に、講義動画を一覧表示する画面を出力し、検索された講義動画が1つである場合は、後述する「講義動画を再生する画面(
図9(a))」に直接遷移するようにしてもよい。
【0048】
図8(b)は、検索された講義動画を一覧表示する画面の一例である。検索結果は、表示エリア1003に一覧表示される。例えば、ユーザが、科目として「化学」を選択し、検索対象の文字列に「イオン」を入力して検索を行った場合、化学に関する講義動画の中から、講師が「イオン」と黒板に書いた講義動画が検索結果として表示エリア1003に一覧表示される。
【0049】
続いて、ユーザが、表示エリア1003に一覧表示された講義動画の中から視聴を所望する講義動画を選択すると、講義動画を再生する画面に遷移する。表示エリア1003は、検索された講義動画を一覧表示することに加えて、ユーザが視聴を所望する講義動画の選択を受け付ける機能も備えていることから、表示エリア1003を含む画面を、ユーザが視聴を所望する講義動画の選択を受け付ける画面と称してもよい。
【0050】
講義動画を再生する画面の一例を
図9(a)に示す。
図9(a)には、講義動画を再生する表示エリア2001(第1領域)と、検索対象の文字列を含むテキスト情報と、手書き文字列の表示が開始される開始時間とを横方向に時系列順に並べて表示する表示エリア2002(第2領域)と、表示エリア2001で再生される講義動画の科目に関して過去に検索された文字列を表示する表示エリア2004(第3領域)とを含む。表示エリア2002の上部には、開始時間及びテキスト情報を一覧表示するボタン2003が表示される。ユーザがボタン2003を押下すると、
図9(b)に示すように、表示エリア2002に代えて、検索対象の文字列を含むテキスト情報とタイムスタンプ情報とを縦方向に時系列順に並べて表示する表示エリア2005(第2領域)が表示される。
【0051】
表示エリア2002及び表示エリア2005には、検索結果が講義動画に表示される手書き文字列であることを示すメッセージ(検索されたテキスト情報に対応する手書き文字列が、講義動画に表示されるものであることを示すメッセージ)として「板書」の文言が表示される。また、表示エリア2002及び表示エリア2005の上部には、検索対象の文字列を含むテキスト情報が検索された件数が表示エリア2102に表示される。
【0052】
表示エリア2002及び表示エリア2005に表示されるテキスト情報のうち、検索対象の文字列に該当する部分が強調表示されるようにしてもよい。例えば
図9(a)及び
図9(b)の例では、「錯イオン形成反応」及び「水素イオン」のうち検索対象の文字列である「イオン」の部分が強調して表示されている。
【0053】
表示エリア2002及び表示エリア2005には、更に、手書き文字列の表示が終了する終了時間を表示するようにしてもよい。例えば、表示エリア2002及び表示エリア2005には、「0:05〜3:10 錯イオン形成反応」といったように、手書き文字列の出現時間を表示するようにしてもよい。
【0054】
なお、表示エリア2001には、検索されたテキスト情報に対応する手書き文字列が講義動画の中で表示される位置を示す情報が、講義動画に重ねて表示されるようにしてもよい。例えば、
図9(a)及び
図9(b)に示すように、表示エリア2001には、検索されたテキスト情報である「錯イオン形成反応」が講義動画の中で表示される位置を示す枠2101が表示されるようにしてもよい。2101を表示可能にするために、講義データDBには、更に、枠2101を表示する位置及び枠2101の大きさを示す情報がレコード毎に格納されていてもよい。枠2101を表示する位置及び枠2101の大きさを示す情報として講義データDBに格納する情報には、
図4のステップS101で説明した、抽出されたピクセルの集合を囲む長方形の枠の位置及び大きさを示す情報と同一の情報が格納されることとしてもよい。また、枠2101は、検索されたテキスト情報に対応する出現時間の間、表示エリア2001に表示され続けることとしてもよい。
【0055】
ユーザが表示エリア1003(
図8(b))で講義動画を選択すると、表示エリア2001にて講義動画の再生が開始される。続いて、ユーザが、表示エリア2002又は表示エリア2005に表示されている開始時間及びテキスト情報の中から、視聴を所望する開始時間及びテキスト情報を選択すると、表示エリア2001に表示される講義動画が、選択された開始時間の時間又は開始時間の時間より所定の時間前(例えば10秒前等)の時間から再生される。例えば、ユーザが表示エリア2002にて2:15と表示されている箇所をタップすると、表示エリア2001において、2:15の時点又は所定の時間前(例えば2:06等)から講義動画が再生される。
【0056】
なお、ユーザが表示エリア1003(
図8(b))で講義動画を選択した時点では表示エリア2001にて講義動画の再生は開始されず、ユーザが表示エリア2001の中に表示される再生開始ボタンを押下するか、又は、ユーザが表示エリア2002又は表示エリア2005に表示されているタイムスタンプ情報及びテキスト情報の中から、視聴を所望するタイムスタンプ情報を選択することで初めて講義動画の再生が開始されるようにしてもよい。
【0057】
また、ユーザが表示エリア2002を右から左(又は左から右)にスワイプすることで、次の(又は以前の)開始時間及びテキスト情報が表示されるようにしてもよい。例えば、
図9(a)の例では、ユーザが表示エリア2002を右から左にスワイプすることで、開始時間が0:05であるテキスト情報が左から消えると共に開始時間が2:15であるテキスト情報が右側から左側に移動し、更に、右側に次のテキスト情報が現れるようにしてもよい。
【0058】
同様に、ユーザが表示エリア2005を上から下(又は下から上)にスワイプすることで、次の(又は以前の)タイムスタンプ情報及びテキスト情報が表示されるようにしてもよい。
【0059】
また、検索部102で検索されたテキスト情報に含まれるテキストの文字数が所定の文字数以上である場合、出力部103は、表示エリア2002において、検索されたテキスト情報に含まれるテキストのうち、少なくとも検索対象の文字列を含む一部のテキストのみを出力するようにしてもよい。これにより、テキスト情報に含まれるテキストの文字数が多すぎて表示エリア2002又は表示エリア2005に全ての文字を表示することが困難な場合や、端末20がスマートフォン等でありディスプレイサイズが小さいためにテキスト情報を全て表示することが困難である場合等であっても、視認性を大きく犠牲にすることなくテキスト情報を表示することが可能になる。
【0060】
また、表示エリア2004に表示される、講義動画の科目に関して過去に検索された文字列は、本動画配信システムを利用する複数のユーザが過去に検索対象の文字列として入力した文字列のうち入力された回数が多い順に表示されるようにしてもよい。また、ユーザが表示エリア2004に表示される文字列を選択した場合、選択した文字列が入力ボックス1001に自動的に入力されるようにしてもよい。
【0061】
以上、本実施形態について説明した。本実施形態では、講義データDBに、講義動画において講師が黒板に書いた文字をテキスト化したテキスト情報を格納しておき、検索対象の文字列とテキスト情報とを比較することで講義動画の検索を行うようにした。これにより、本実施形態は、講義動画の動画を直接解析しながら文字列を検索する方法と比較して検索速度を向上させることができるという技術的効果を有する。
【0062】
以上の説明では、講義データDBに格納される出現時間には、手書き文字列の表示が開始された時間(黒板に文字列が書かれた時間)と表示が終了する時間(例えば講師が黒板消し等を用いて文字を消した時間)とが含まれることとしたが、手書き文字列の表示が開始された時間のみが含まれることとしてもよい。これにより、講義データDBのデータ容量を削減することができる。なお、手書き文字列の表示が開始された時間と表示が終了する時間とをまとめて「時間情報」と称してもよいし、手書き文字列の表示が開始された時間のみを「時間情報」と称してもよい。
【0063】
以上の説明において、文字列が表示される動画とは、講師が黒板に手書の文字を書きながら講義を行う講義動画である前提で説明したが、本実施形態は、講義動画や手書きの文字に限定されない。本実施形態は、文字列が表示される動画であればどのような文字列や動画に対しても適用することが可能である。
【0064】
以上、説明した実施形態は、本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。実施形態で説明したフローチャート、シーケンス、実施形態が備える各要素並びにその配置、材料、条件、形状及びサイズ等は、例示したものに限定されるわけではなく適宜変更することができる。また、異なる実施形態で示した構成同士を部分的に置換し又は組み合わせることが可能である。
【解決手段】情報処理装置10は、複数の第1文字列の画像が表示される動画について、該第1文字列の画像を文字認識することで生成される第2文字列と、動画で第1文字列の画像が表示される時間を示す時間情報と、動画とを対応づけて格納するデータベースを記憶する記憶部105と、検索対象の文字列を受け付ける受付部101と、検索対象の文字列を含む第2文字列と、該第2文字列に対応する時間情報と、該第2文字列に対応する動画とをデータベースから検索する検索部102と、検索された動画を再生する第1表示領域と、検索された第2文字列と時間情報とを時系列順に表示する第2表示領域とを含む画面を出力する出力部103と、を有する。