特許第6382423号(P6382423)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社リクルートホールディングスの特許一覧

特許6382423情報処理装置、画面出力方法及びプログラム
<>
  • 特許6382423-情報処理装置、画面出力方法及びプログラム 図000002
  • 特許6382423-情報処理装置、画面出力方法及びプログラム 図000003
  • 特許6382423-情報処理装置、画面出力方法及びプログラム 図000004
  • 特許6382423-情報処理装置、画面出力方法及びプログラム 図000005
  • 特許6382423-情報処理装置、画面出力方法及びプログラム 図000006
  • 特許6382423-情報処理装置、画面出力方法及びプログラム 図000007
  • 特許6382423-情報処理装置、画面出力方法及びプログラム 図000008
  • 特許6382423-情報処理装置、画面出力方法及びプログラム 図000009
  • 特許6382423-情報処理装置、画面出力方法及びプログラム 図000010
  • 特許6382423-情報処理装置、画面出力方法及びプログラム 図000011
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】6382423
(24)【登録日】2018年8月10日
(45)【発行日】2018年8月29日
(54)【発明の名称】情報処理装置、画面出力方法及びプログラム
(51)【国際特許分類】
   G09B 5/06 20060101AFI20180820BHJP
   G09B 5/08 20060101ALI20180820BHJP
   G06F 17/30 20060101ALI20180820BHJP
   G10L 25/54 20130101ALI20180820BHJP
   G11B 27/28 20060101ALI20180820BHJP
【FI】
   G09B5/06
   G09B5/08
   G06F17/30 170D
   G06F17/30 220C
   G06F17/30 220B
   G10L25/54
   G11B27/28 B
【請求項の数】8
【全頁数】14
(21)【出願番号】特願2017-194904(P2017-194904)
(22)【出願日】2017年10月5日
【審査請求日】2018年2月22日
【新規性喪失の例外の表示】特許法第30条第2項適用 平成29年8月7日 ウェブサイト(https://recruit−tech.co.jp/news/images/20170807_PressRelease.pdf)にて、動画内の音声と手書き文字を検索可能な機能を備えたオンライン学習サービスを公開した。平成29年8月7日〜25日 スタディサプリラボ内にて、動画内の音声と手書き文字を検索可能な機能を備えたオンライン学習サービスについて、ユーザを対象に実証実験を行った。
【早期審査対象出願】
(73)【特許権者】
【識別番号】000139012
【氏名又は名称】株式会社リクルートホールディングス
(74)【代理人】
【識別番号】100079108
【弁理士】
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100109346
【弁理士】
【氏名又は名称】大貫 敏史
(74)【代理人】
【識別番号】100117189
【弁理士】
【氏名又は名称】江口 昭彦
(74)【代理人】
【識別番号】100134120
【弁理士】
【氏名又は名称】内藤 和彦
(74)【代理人】
【識別番号】100139066
【弁理士】
【氏名又は名称】伊藤 健太郎
(72)【発明者】
【氏名】塩澤 繁
【審査官】 上田 泰
(56)【参考文献】
【文献】 米国特許出願公開第2009/0254578(US,A1)
【文献】 特開2011−049707(JP,A)
【文献】 特開2016−021217(JP,A)
【文献】 特開2002−157112(JP,A)
【文献】 特開2002−189728(JP,A)
【文献】 特開2006−195900(JP,A)
【文献】 特開2005−303742(JP,A)
【文献】 米国特許出願公開第2013/0308922(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G09B 1/00−9/56,17/00−19/26
G06F 17/30
(57)【特許請求の範囲】
【請求項1】
動画に含まれる音声データを動画の時間軸上で複数に分割することで生成される複数の音声データの各々について、動画の時間軸上での開始時間を示すタイムスタンプ情報と、該音声データを文字列に変換したテキスト情報と、該動画とを対応づけて格納するデータベースを記憶する記憶部と、
検索対象の文字列を受け付ける受付部と、
前記検索対象の文字列を含むテキスト情報と、該テキスト情報に対応するタイムスタンプ情報と、該テキスト情報に対応する動画とを前記データベースから検索する検索部と、
検索された動画を再生する第1領域と、検索されたテキスト情報とタイムスタンプ情報とを時系列順に表示する第2領域とを含む画面を出力する出力部と、
を有し、
前記出力部は、検索されたテキスト情報に含まれるテキストの文字数が所定の文字数以上である場合、前記第2領域において、検索されたテキスト情報に含まれるテキストのうち、少なくとも前記検索対象の文字列を含む一部のテキストを出力する、
情報処理装置。
【請求項2】
前記出力部は、前記第2領域に、検索されたテキスト情報とタイムスタンプ情報とを、横方向又は縦方向に時系列順に並べて表示する画面を出力する、
請求項1に記載の情報処理装置。
【請求項3】
前記出力部は、更に、前記第1領域で再生される動画の科目に関して過去に検索された文字列を表示する第3領域を含む画面を出力する、
請求項1又は2に記載の情報処理装置。
【請求項4】
前記出力部は、前記検索部で複数の動画が検索された場合、該複数の動画の中からユーザが視聴を所望する動画の選択を受け付ける画面を出力する、
請求項1乃至3のいずれか一項に記載の情報処理装置。
【請求項5】
前記出力部は、前記第2領域に表示されたタイムスタンプ情報のうち選択されたタイムスタンプ情報の時間又は該タイムスタンプ情報の時間より所定の時間前の時間から動画の再生を開始する、
請求項1乃至4のいずれか一項に記載の情報処理装置。
【請求項6】
動画に含まれる音声が所定の時間無音であるタイミングで音声データを分割することで複数の音声データ及びタイムスタンプ情報を生成し、生成した前記複数の音声データの各々を音声認識処理を用いてテキスト情報に変換し、変換したテキスト情報について辞書に基づいて又はユーザの指示により補正を行うことで、前記データベースに格納するためのテキスト情報及びタイムスタンプ情報を生成する生成部、
を有する請求項1乃至のいずれか一項に記載の情報処理装置。
【請求項7】
動画に含まれる音声データを動画の時間軸上で複数に分割することで生成される複数の音声データの各々について、動画の時間軸上での開始時間を示すタイムスタンプ情報と、該音声データを文字列に変換したテキスト情報と、該動画とを対応づけて格納するデータベースを記憶する記憶部を有する情報処理装置が行う画面出力方法であって、
検索対象の文字列を受け付けるステップと、
前記検索対象の文字列を含むテキスト情報と、該テキスト情報に対応するタイムスタンプ情報と、該テキスト情報に対応する動画とを前記データベースから検索するステップと、
検索された動画を再生する第1領域と、検索されたテキスト情報とタイムスタンプ情報とを時系列順に表示する第2領域とを含む画面を出力するステップと、
を有し、
前記出力するステップは、検索されたテキスト情報に含まれるテキストの文字数が所定の文字数以上である場合、前記第2領域において、検索されたテキスト情報に含まれるテキストのうち、少なくとも前記検索対象の文字列を含む一部のテキストを出力する、
画面出力方法。
【請求項8】
動画に含まれる音声データを動画の時間軸上で複数に分割することで生成される複数の音声データの各々について、動画の時間軸上での開始時間を示すタイムスタンプ情報と、該音声データを文字列に変換したテキスト情報と、該動画とを対応づけて格納するデータベースを記憶する記憶部を有するコンピューターに実行させるプログラムであって、
検索対象の文字列を受け付けるステップと、
前記検索対象の文字列を含むテキスト情報と、該テキスト情報に対応するタイムスタンプ情報と、該テキスト情報に対応する動画とを前記データベースから検索するステップと、
検索された動画を再生する第1領域と、検索されたテキスト情報とタイムスタンプ情報とを時系列順に表示する第2領域とを含む画面を出力するステップと、
を有し、
前記出力するステップは、検索されたテキスト情報に含まれるテキストの文字数が所定の文字数以上である場合、前記第2領域において、検索されたテキスト情報に含まれるテキストのうち、少なくとも前記検索対象の文字列を含む一部のテキストを出力する、
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、画面出力方法及びプログラムに関する。
【背景技術】
【0002】
ユーザが、Webブラウザ等を用いて学習を行うことが可能な、オンライン学習システムが知られている。オンライン学習システムを用いることで、ユーザは、興味のある講義の動画を視聴したり、テストを受けることで自分の理解度を把握したり、テストで躓いた問題を重点的に復習したりすることができ、効率的に学習を進めることができる。なお、ネットワークを利用した遠隔学習支援システムとして、例えば特許文献1に記載の技術が知られている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2001−188461号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
ユーザが苦手科目の復習をする場合など、必ずしも講義動画を最初から最後まで全て視聴するのではなく、特定の部分のみを視聴したいといったニーズが存在すると考えられる。例えば、世界史の科目のうちアメリカの歴史について復習をしたいために、世界史の講義動画の中で講師がアメリカについて説明をしている部分のみを視聴したいといったニーズがあると考えられる。
【0005】
しかしながら、従来のオンライン学習システムでは、講義動画の中から、ユーザが視聴を所望する特定の部分を検索する機能が提供されていないことから、ユーザは、講義動画を最初から最後まで視聴するか、又は早送り等を行うことで視聴したい部分を自ら探す必要があった。このような問題は、講義動画に限らずあらゆる動画においても生じ得る。
【0006】
そこで、本発明は、動画のうちユーザが視聴を所望する特定の部分を迅速に検索することが可能な技術を提供することを目的とする。
【課題を解決するための手段】
【0007】
本発明の一態様に係る情報処理装置は、動画に含まれる音声データを動画の時間軸上で複数に分割することで生成される複数の音声データの各々について、動画の時間軸上での開始時間を示すタイムスタンプ情報と、該音声データを文字列に変換したテキスト情報と、該動画とを対応づけて格納するデータベースを記憶する記憶部と、検索対象の文字列を受け付ける受付部と、前記検索対象の文字列を含むテキスト情報と、該テキスト情報に対応するタイムスタンプ情報と、該テキスト情報に対応する動画とを前記データベースから検索する検索部と、検索された動画を再生する第1領域と、検索されたテキスト情報とタイムスタンプ情報とを時系列順に表示する第2領域とを含む画面を出力する出力部と、を有する。この態様によれば、話し手が発話した内容のうち検索対象の文字列を含む講義動画を検索することができるので、ユーザは、講義動画のうち視聴を所望する特定の部分を迅速に検索することが可能になる。
【0008】
上記態様において、前記出力部は、前記第2領域に、検索されたテキスト情報とタイムスタンプ情報とを、横方向又は縦方向に時系列順に並べて表示する画面を出力するようにしてもよい。この態様によれば、画面内の第2領域に複数のテキスト情報とタイムスタンプ情報と時系列順に表示されるため、視認性を向上させることが可能になる。
【0009】
上記態様において、前記出力部は、更に、前記第1領域で再生される動画の科目に関して過去に検索された文字列を表示する第3領域を含む画面を出力するようにしてもよい。この態様によれば、ユーザは、他のユーザが頻繁に検索に使用している文字列を把握し、自身の学習等に役立てることが可能になる。
【0010】
上記態様において、前記出力部は、前記検索部で複数の動画が検索された場合、該複数の動画の中からユーザが視聴を所望する動画の選択を受け付ける画面を出力するようにしてもよい。この態様によれば、検索された講義動画が多数存在する場合であっても、ユーザは、視聴を所望する講義を任意に選択することが可能になる。
【0011】
上記態様において、前記出力部は、前記第2領域に表示されたタイムスタンプ情報のうち選択されたタイムスタンプ情報の時間又は該タイムスタンプ情報の時間より所定の時間前の時間から動画の再生を開始するようにしてもよい。この態様によれば、ユーザは、指定した時間から講義動画を視聴することが可能になる。
【0012】
上記態様において、前記出力部は、検索されたテキスト情報に含まれるテキストの文字数が所定の文字数以上である場合、前記第2領域において、検索されたテキスト情報に含まれるテキストのうち、少なくとも前記検索対象の文字列を含む一部のテキストを出力するようにしてもよい。この態様によれば、テキスト情報に含まれるテキストの文字数が多すぎる場合や端末のディスプレイサイズが小さいためにテキスト情報を全て表示することが困難である場合等であっても、視認性を大きく犠牲にすることなくテキスト情報を表示することが可能になる。
【0013】
上記態様において、動画に含まれる音声が所定の時間無音であるタイミングで音声データを分割することで複数の音声データ及びタイムスタンプ情報を生成し、生成した前記複数の音声データの各々を音声認識処理を用いてテキスト情報に変換し、変換したテキスト情報について辞書に基づいて又はユーザの指示により補正を行うことで、前記データベースに格納するためのテキスト情報及びタイムスタンプ情報を生成する生成部を有するようにしてもよい。この態様によれば、撮影された講義動画のデータを用いて、講義動画を検索する際に必要になるデータベースを作成することが可能になる。
【0014】
本発明の他の態様に係る画面出力方法は、動画に含まれる音声データを動画の時間軸上で複数に分割することで生成される複数の音声データの各々について、動画の時間軸上での開始時間を示すタイムスタンプ情報と、該音声データを文字列に変換したテキスト情報と、該動画とを対応づけて格納するデータベースを記憶する記憶部を有する情報処理装置が行う画面出力方法であって、検索対象の文字列を受け付けるステップと、前記検索対象の文字列を含むテキスト情報と、該テキスト情報に対応するタイムスタンプ情報と、該テキスト情報に対応する動画とを前記データベースから検索するステップと、検索された動画を再生する第1領域と、検索されたテキスト情報とタイムスタンプ情報とを時系列順に表示する第2領域とを含む画面を出力するステップと、を有する。この態様によれば、話し手が発話した内容のうち検索対象の文字列を含む講義動画を検索することができるので、ユーザは、講義動画のうち視聴を所望する特定の部分を迅速に検索することが可能になる。
【0015】
本発明の他の態様に係るプログラムは、動画に含まれる音声データを動画の時間軸上で複数に分割することで生成される複数の音声データの各々について、動画の時間軸上での開始時間を示すタイムスタンプ情報と、該音声データを文字列に変換したテキスト情報と、該動画とを対応づけて格納するデータベースを記憶する記憶部を有するコンピューターに実行させるプログラムであって、検索対象の文字列を受け付けるステップと、前記検索対象の文字列を含むテキスト情報と、該テキスト情報に対応するタイムスタンプ情報と、該テキスト情報に対応する動画とを前記データベースから検索するステップと、検索された動画を再生する第1領域と、検索されたテキスト情報とタイムスタンプ情報とを時系列順に表示する第2領域とを含む画面を出力するステップと、を有する。この態様によれば、話し手が発話した内容のうち検索対象の文字列を含む講義動画を検索することができるので、ユーザは、講義動画のうち視聴を所望する特定の部分を迅速に検索することが可能になる。
【発明の効果】
【0016】
本発明によれば、動画のうちユーザが視聴を所望する特定の部分を迅速に検索することが可能な技術を提供することができる。
【図面の簡単な説明】
【0017】
図1】実施形態に係る動画配信システムの一例を示す図である。
図2】配信サーバのハードウェア構成例を示す図である。
図3】配信サーバの機能ブロック構成例を示す図である。
図4】テキスト情報及びタイムスタンプ情報を生成する際の処理手順の一例を示すフローチャートである。
図5】講義動画の音声を分割する際の具体例を示す図である。
図6】辞書ファイルの一例を示す図である。
図7】補正作業用の画面の具体例を示す図である。
図8】講義データDBの一例を示す図である。
図9】端末に表示される画面の一例を示す図である。
図10】端末に表示される画面の一例を示す図である。
【発明を実施するための形態】
【0018】
添付図面を参照して、本発明の好適な実施形態について説明する。なお、各図において、同一の符号を付したものは、同一又は同様の構成を有する。以下の説明では、動画が講義動画である前提で説明するが、本実施形態は、話し声が含まれる動画であればどのような動画に対しても適用することが可能である。
【0019】
<システム構成>
図1は、実施形態に係る動画配信システムの一例を示す図である。本動画配信システムは、配信サーバ10及び端末20を含む。配信サーバ10及び端末20は、無線又は有線の通信ネットワークNを介して相互に通信することができる。図1には、端末20が1つずつ図示されているが、本動画配信システムには、複数の端末20が含まれていてもよい。本実施形態では、配信サーバ10及び端末20をまとめて情報処理装置と称してもよいし、配信サーバ10のみを情報処理装置と称してもよい。
【0020】
配信サーバ10は、講義動画を配信するサーバであり、端末20から要求された講義動画のデータを端末20に送信する機能を有する。配信サーバ10は、1又は複数の物理的又は仮想的なサーバであってもよいし、クラウドサーバであってもよい。
【0021】
端末20は、ユーザが操作する端末であり、スマートフォン、タブレット端末、携帯電話機、パーソナルコンピュータ(PC)、ノートPC、携帯情報端末(PDA)、家庭用ゲーム機器など、通信機能を備えた端末であればあらゆる端末を用いることができる。
【0022】
本実施形態では、ユーザは、検索対象の文字列(検索キーワード)を入力することで、講師が話した内容に当該文字列が含まれる講義動画を検索することができる。例えば、ユーザが端末20の検索画面に「日本」を入力すると、講義の中で講師が「日本」と話した講義動画が端末20の画面上に一覧表示される。また、ユーザが、一覧表示された講義動画の中から視聴したい講義動画を選択すると、端末20の画面上にて講義動画の再生が開始されると共に、講義動画の時間軸上において講師が「日本」と発言したおおよそのタイムスタンプ(例えば30分の動画の中で5分30秒、15分10秒及び23分40秒あたり等)が一覧表示される。ユーザが一覧表示されたタイムスタンプの中から1つを選択すると、再生中の講義動画が、選択されたタイムスタンプまで移動する。
【0023】
このような動作を実現するために、配信サーバ10には、講義動画に含まれる音声データを講義動画の時間軸上で複数に分割することで生成される複数の音声データの各々について、講義動画の時間軸上での開始時間を示すタイムスタンプ情報と、当該音声データを文字列に変換したテキスト情報と、当該講義動画とを対応づけてデータベースに格納しておく。本実施形態では、当該データベースを「講義データDB(Database)」と呼ぶ。
【0024】
<ハードウェア構成>
図2は、配信サーバ10のハードウェア構成例を示す図である。配信サーバ10は、CPU(Central Processing Unit)11、メモリ等の記憶装置12、有線又は無線通信を行う通信IF(Interface)13、入力操作を受け付ける入力デバイス14、及び情報の出力を行う出力デバイス15を有する。後述する機能ブロック構成にて説明する各機能部は、記憶装置12に記憶されたプログラムがCPU11に実行させる処理により実現することができる。なお、当該プログラムは、例えば非一時的な記録媒体に格納することができる。
【0025】
<機能ブロック構成>
図3は、配信サーバ10の機能ブロック構成例を示す図である。配信サーバ10は、受付部101と、検索部102と、出力部103と、生成部104と、記憶部105とを有する。記憶部105には、講義データDBが格納される。
【0026】
受付部101は、ユーザが端末20の画面に入力した、検索対象の文字列を受け付ける機能を有する。
【0027】
検索部102は、受付部101で受け付けた検索対象の文字列を含むテキスト情報と、当該テキスト情報に対応するタイムスタンプ情報と、当該テキスト情報に対応する講義動画とを講義データDBから検索する機能を有する。
【0028】
出力部103は、検索部102により検索された講義動画を再生する第1領域と、検索されたテキスト情報とタイムスタンプ情報とを時系列順に表示する第2領域とを含む画面を出力する機能を有する。出力された画面は端末20のディスプレイに表示される。なお、出力部103は、例えばWebサーバ機能を備えており、講義動画を配信するWebサイトを端末20に送信する機能を有していてもよい。或いは、出力部103は、端末20にインストールされたアプリケーションの画面に講義動画等を表示させるためのコンテンツを、端末20に送信する機能を有していてもよい。
【0029】
生成部104は、講義動画から、講義データDBに格納するテキスト情報及びタイムスタンプ情報を生成する機能を有する。生成部104は、更に、分割部1041と、音声認識部1042と、補正部1043とを含む。分割部1041は、講義動画に含まれる音声が所定の時間(例えば2秒等)無音であるタイミングで音声データを分割することで複数の音声データ及びタイムスタンプ情報を生成する。音声認識部1042は、生成した複数の音声データの各々を、音声認識処理を行うことでテキスト情報に変換する。補正部1043は、変換されたテキスト情報について、辞書ファイルに基づいて又はユーザの指示に基づいて補正を行う。
【0030】
<テキスト情報及びタイムスタンプ情報の生成について>
続いて、講義データDBに格納されるタイムスタンプ情報とテキスト情報とを作成する方法について具体的に説明する。以下の説明では、配信サーバ10の生成部104が、タイムスタンプ情報とテキスト情報とを作成する前提で説明するが、必ずしも配信サーバ10が自らタイムスタンプ情報とテキスト情報とを作成するようにする必要はなく、外部の装置やツール等で生成されることとしてもよい。
【0031】
図4は、テキスト情報及びタイムスタンプ情報を生成する際の処理手順の一例を示すフローチャートである。
【0032】
ステップS101で、分割部1041は、講義動画の音声を分割することで複数の音声データ及びタイムスタンプ情報を生成する。ここで、講義動画の音声を分割する際の具体例を図5に示す。分割部1041は、講義動画に含まれる音声データを解析し、所定の時間(図5の例では2秒間)無音であるタイミングで音声データを分割する。図5の例では、分割部1041は、「邪馬台国は、女王卑弥呼が統治をしていたと伝えられている。邪馬台国の所在地は、未だに九州か近畿かは、議論が続けられている。私は、九州にあったと考える。」の音声データを、「邪馬台国は、女王卑弥呼が統治をしていたと伝えられている。邪馬台国の所在地は、未だに九州か近畿かは、議論が続けられている。」の音声データと、「私は、九州にあったと考える。」の音声データに分割する。また、それぞれの音声データに対して、講義動画の時間軸上の開始時刻である「1:39(1分39秒目)」を示すタイムスタンプ情報と、「1:52(1分52秒目)」を示すタイムスタンプ情報を生成する。
【0033】
なお、一般的に講義の中で講師が話をする際、ある話題について一通り話した後、少し時間をおいて次の話題を話すといったように、講義の内容や話題ごとに間をおきながら話をすることが多いと考えられる。従って、所定の時間無音であるタイミングで音声データを分割することで、単に音声データが分割されるのみならず、講義の内容や話題ごとに音声データを分割することが可能になる。
【0034】
ステップS102で、音声認識部1042は、ステップS101で分割された音声データごとに音声認識処理を行い、音声認識した結果を格納したテキスト情報を生成する。
【0035】
ステップS103で、補正部1043は、ステップS102で生成されたテキスト情報を、辞書ファイルを用いて補正する。図6に辞書ファイルの一例を示す。図6(a)は、正誤変換辞書の一例である。図6(b)は、NG用語辞書の一例である。
【0036】
補正部1043は、正誤変換辞書の「誤り」フィールドに格納された文字列がテキスト情報に含まれている場合、当該文字列を、「正解」フィールドに格納された文字列に置き換えることで補正を行う。例えば、テキスト情報に、「山大国は、女王君子が・・・」という文字列が含まれていた場合、補正部1043は、正誤変換辞書に従い、「邪馬台国は、女王卑弥呼が・・・」という文字列に補正する。また、補正部1043は、NG用語辞書に格納された文字列がテキスト情報に含まれている場合、当該文字列を、符号に置き換える補正を行う。例えば、テキスト情報に、「邪馬台国では、アホが・・」という文字列が含まれていた場合、補正部1043は、例えば、「邪馬台国では、**が・・」という文字列に補正する。
【0037】
ステップS104で、補正部1043は、ステップS103で補正されたテキスト情報を補正作業用の画面に表示することで、更にユーザからの補正を受け付ける。図7に、補正作業用の画面の一例を示す。補正作業用の画面は、補正を行うユーザがテキストの補正を行い易いように表示上の工夫がなされている。
【0038】
ここで、全ての科目で使用される共通辞書及び特定の科目でのみ表示される科目別辞書について説明する。図6(c)は、全ての科目で使用される共通辞書の一例である。共通辞書には、あらゆる科目で用いられる可能性のある単語が格納される。図6(d)は、講義動画の科目ごとに使用される科目別辞書である。科目別辞書は、特定の科目でのみ用いられる単語が格納される。図6(d)は、例えば世界史の科目についての科目別辞書の例を示している。補正作業用の画面では、共通辞書及び科目別辞書に登録されている文字列については補正の必要が無い文字列であることを示す表示がなされる。図7の例では、共通辞書に格納されている文字列(図7では「フランス」)には点線のアンダーラインが付与され、科目別辞書に格納されている文字列(図7では「1848年革命」)には実線のアンダーラインが付与されている。また、補正作業用の画面では、正誤変換辞書により補正された名刺ではなく、かつ共通辞書にも科目別辞書にも存在しない名詞については強調表示(図7では「所在地」、「九州」、「近畿」)がなされる。これにより、ユーザは、強調表示されている箇所を重点的にチェックすることができることから、ユーザが行う補正作業の負担軽減を図ることが可能になる。
【0039】
図8は、講義データDBの一例を示す図である。「講義動画」には、講義動画を一意に識別する識別子が格納される。当該識別子は、例えば講義動画のファイル名でもよい。また、当該識別子には、講義動画の科目及び講義名等が含まれていてもよい。「タイムスタンプ情報」にはタイムスタンプ情報が格納され、「テキスト」にはテキスト情報が格納される。図8に示す講義データDBの構成はあくまで一例であり、これに限定されるものではない。
【0040】
<講義の検索について>
続いて、ユーザが講義動画を検索する際の処理手順について具体的に説明する。図8及び図9は、端末20に表示される画面の一例を示す図である。図8(a)は講義動画を検索するための画面の一例である。講義動画を検索する画面には、検索対象の文字列と、検索対象とする講義動画の科目を入力する入力ボックス1001が設けられている。入力ボックス1001の右側に表示される検索ボタンが押下されると、検索部102は、講義データDBにアクセスし、入力された科目に該当する講義動画のテキスト情報の中に、検索対象の文字列が含まれる講義動画が存在するか否かを検索する。テキスト情報に検索対象の文字列が含まれる講義動画が存在する場合、出力部103は、検索された講義動画を一覧表示する画面を出力する。なお、出力部103は、検索された講義動画が複数である場合に、講義動画を一覧表示する画面を出力し、検索された講義動画が1つである場合は、後述する「講義動画を再生する画面(図9(a))に直接遷移するようにしてもよい。
【0041】
図8(b)は、検索された講義動画を一覧表示する画面の一例である。検索結果は、表示エリア1003に一覧表示される。例えば、ユーザが、科目として「世界史」を選択し、検索対象の文字列に「日本」を入力して検索を行った場合、世界史に関する講義動画の中から、講師が「日本」と発話した1以上の講義動画が検索結果として表示エリア1003に一覧表示される。
【0042】
続いて、ユーザが、表示エリア1003に一覧表示された講義動画の中から視聴を所望する講義動画を選択すると、講義動画を再生する画面に遷移する。表示エリア1003は、検索された講義動画を一覧表示することに加えて、ユーザが視聴を所望する講義動画の選択を受け付ける機能も備えていることから、表示エリア1003を含む画面を、ユーザが視聴を所望する講義動画の選択を受け付ける画面と称してもよい。
【0043】
講義動画を再生する画面の一例を図9(a)に示す。図9(a)には、講義動画を再生する表示エリア2001(第1領域)と、検索対象の文字列を含むテキスト情報とタイムスタンプ情報とを横方向に時系列順に並べて表示する表示エリア2002(第2領域)と、表示エリア2001で再生される講義動画の科目に関して過去に検索された文字列を表示する表示エリア2004(第3領域)とを含む。表示エリア2002の上部には、タイムスタンプ情報及びテキスト情報を一覧表示するボタン2003が表示される。ユーザがボタン2003を押下すると、図9(b)に示すように、表示エリア2002に代えて、検索対象の文字列を含むテキスト情報とタイムスタンプ情報とを縦方向に時系列順に並べて表示する表示エリア2005(第2領域)が表示される。
【0044】
ユーザが表示エリア1003(図8(b))で講義動画を選択すると、表示エリア2001にて講義動画の再生が開始される。続いて、ユーザが、表示エリア2002又は表示エリア2005に表示されているタイムスタンプ情報及びテキスト情報の中から、視聴を所望するタイムスタンプ情報を選択すると、表示エリア2001に表示される講義動画が、選択されたタイムスタンプ情報の時間又はタイムスタンプ情報の時間より所定の時間前(例えば10秒前等)の時間から再生される。例えば、ユーザが表示エリア2002にて1:11と表示されている箇所をタップすると、表示エリア2001において、1:11の時点又は所定の時間前(例えば1:01等)から講義動画が再生される。
【0045】
なお、ユーザが表示エリア1003(図8(b))で講義動画を選択した時点では表示エリア2001にて講義動画の再生は開始されず、ユーザが表示エリア2001の中に表示される再生開始ボタンを押下するか、又は、ユーザが表示エリア2002又は表示エリア2005に表示されているタイムスタンプ情報及びテキスト情報の中から、視聴を所望するタイムスタンプ情報を選択することで初めて講義動画の再生が開始されるようにしてもよい。
【0046】
また、ユーザが表示エリア2002を右から左(又は左から右)にスワイプすることで、次の(又は以前の)タイムスタンプ情報及びテキスト情報が表示されるようにしてもよい。例えば、図9(a)の例では、ユーザが表示エリア2002を右から左にスワイプすることで、タイムスタンプが1:25であるテキスト情報が表示され、更に右から左にスワイプすることで、タイムスタンプが1:55であるテキスト情報が表示されるようにしてもよい。
【0047】
同様に、ユーザが表示エリア2005を上から下(又は下から上)にスワイプすることで、次の(又は以前の)タイムスタンプ情報及びテキスト情報が表示されるようにしてもよい。
【0048】
また、検索部102で検索されたテキスト情報に含まれるテキストの文字数が所定の文字数以上である場合、出力部103は、表示エリア2002において、検索されたテキスト情報に含まれるテキストのうち、少なくとも検索対象の文字列を含む一部のテキストのみを出力するようにしてもよい。また、“少なくとも検索対象の文字列を含む一部のテキスト”とは、検索対象の文字列に加えて、更に、“検索対象の文字列より前の文字”及び/又は“検索対象の文字列より後の文字”を含むテキストであってもよい。例えば図9(a)及び(b)の例では、タイムスタンプが0:51であるテキスト情報には、「・・・登場と言いますが登場だけは日本が両方出てくるんだ。630年・・・」と表示されているように、検索対象の文字列である「日本」を中心として前後所定の文字数のみを表示し、それ以外の文字については表示しないようにしている。これにより、テキスト情報に含まれるテキストの文字数が多すぎて表示エリア2002又は表示エリア2005に全ての文字を表示することが困難な場合や、端末20がスマートフォン等でありディスプレイサイズが小さいためにテキスト情報を全て表示することが困難である場合等であっても、視認性を大きく犠牲にすることなくテキスト情報を表示することが可能になる。
【0049】
また、表示エリア2004に表示される、講義動画の科目に関して過去に検索された文字列は、本動画配信システムを利用する複数のユーザが過去に検索対象の文字列として入力した文字列のうち入力された回数が多い順に表示されるようにしてもよい。また、ユーザが表示エリア2004に表示される文字列を選択した場合、選択した文字列が入力ボックス1001に自動的に入力されるようにしてもよい。
【0050】
また、上述の説明では、表示エリア1003には検索された講義動画の一覧が表示され、表示エリア2002及び表示エリア2005にタイムスタンプ情報及びテキスト情報が表示されることで説明したが、表示エリア1003にて、検索された講義動画とタイムスタンプ情報とテキスト情報とをまとめて一覧表示するようにしてもよい。具体的には、「第50講 朝鮮現代史・中国現代史 チャプター2 0:51 登場と言いますが登場だけは日本が両方出てくるんだ。630年」といったようにまとめて表示するようにしてもよい。検索された講義動画の数が少なく、かつ、検索されたタイムスタンプ情報及びテキスト情報の数も少ない場合、表示エリア1003にまとめて表示することで視認性及び操作性を向上させることが可能になる。
【0051】
以上、本実施形態について説明した。本実施形態では、講義データDBに、講義動画の音声をテキスト化したテキスト情報を格納しておき、検索対象の文字列とテキスト情報とを比較することで講義動画の検索を行うようにした。これにより、本実施形態は、講義動画の音声を音声認識させながら直接検索する方法と比較して検索速度を向上させることができるという技術的効果を有する。
【0052】
以上説明した実施形態は、本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。実施形態が備える各要素並びにその配置、材料、条件、形状及びサイズ等は、例示したものに限定されるわけではなく適宜変更することができる。また、異なる実施形態で示した構成同士を部分的に置換し又は組み合わせることが可能である。
【符号の説明】
【0053】
10…配信サーバ、11…CPU、12…記憶装置、13…通信IF、14…入力デバイス、15…出力デバイス、20…端末、101…受付部、102…検索部、103…出力部、104…生成部、105…記憶部
【要約】
【課題】動画のうちユーザが視聴を所望する特定の部分を迅速に検索することが可能な技術を提供すること。
【解決手段】動画に含まれる音声データを動画の時間軸上で複数に分割することで生成される複数の音声データの各々について、動画の時間軸上での開始時間を示すタイムスタンプ情報と、該音声データを文字列に変換したテキスト情報と、該動画とを対応づけて格納するデータベースを記憶する記憶部(105)と、検索対象の文字列を受け付ける受付部と、前記検索対象の文字列を含むテキスト情報と、該テキスト情報に対応するタイムスタンプ情報と、該テキスト情報に対応する動画とを前記データベースから検索する検索部(102)と、検索された動画を再生する第1領域(2001)と、検索されたテキスト情報とタイムスタンプ情報とを時系列順に表示する第2領域(2002,2005)とを含む画面を出力する出力部(103)と、を有する情報処理装置(10)を提供する。
【選択図】図9
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10