特開2016-177013(P2016-177013A)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社東芝の特許一覧 ▶ 東芝ソリューション株式会社の特許一覧

特開2016-177013講演支援装置、方法およびプログラム
<>
  • 特開2016177013-講演支援装置、方法およびプログラム 図000003
  • 特開2016177013-講演支援装置、方法およびプログラム 図000004
  • 特開2016177013-講演支援装置、方法およびプログラム 図000005
  • 特開2016177013-講演支援装置、方法およびプログラム 図000006
  • 特開2016177013-講演支援装置、方法およびプログラム 図000007
  • 特開2016177013-講演支援装置、方法およびプログラム 図000008
  • 特開2016177013-講演支援装置、方法およびプログラム 図000009
  • 特開2016177013-講演支援装置、方法およびプログラム 図000010
  • 特開2016177013-講演支援装置、方法およびプログラム 図000011
  • 特開2016177013-講演支援装置、方法およびプログラム 図000012
  • 特開2016177013-講演支援装置、方法およびプログラム 図000013
  • 特開2016177013-講演支援装置、方法およびプログラム 図000014
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】特開2016-177013(P2016-177013A)
(43)【公開日】2016年10月6日
(54)【発明の名称】講演支援装置、方法およびプログラム
(51)【国際特許分類】
   G10L 13/00 20060101AFI20160909BHJP
   G10L 15/00 20130101ALI20160909BHJP
   H04N 21/262 20110101ALI20160909BHJP
   G06F 3/16 20060101ALI20160909BHJP
【FI】
   G10L13/00 100S
   G10L15/00 200C
   G10L13/00 100G
   G10L13/00 100V
   H04N21/262
   G06F3/16 620
   G06F3/16 630
   G06F3/16 650
【審査請求】未請求
【請求項の数】10
【出願形態】OL
【全頁数】16
(21)【出願番号】特願2015-55312(P2015-55312)
(22)【出願日】2015年3月18日
(71)【出願人】
【識別番号】000003078
【氏名又は名称】株式会社東芝
(71)【出願人】
【識別番号】301063496
【氏名又は名称】東芝ソリューション株式会社
(74)【代理人】
【識別番号】100108855
【弁理士】
【氏名又は名称】蔵田 昌俊
(74)【代理人】
【識別番号】100103034
【弁理士】
【氏名又は名称】野河 信久
(74)【代理人】
【識別番号】100075672
【弁理士】
【氏名又は名称】峰 隆司
(74)【代理人】
【識別番号】100153051
【弁理士】
【氏名又は名称】河野 直樹
(74)【代理人】
【識別番号】100140176
【弁理士】
【氏名又は名称】砂川 克
(74)【代理人】
【識別番号】100179062
【弁理士】
【氏名又は名称】井上 正
(74)【代理人】
【識別番号】100124394
【弁理士】
【氏名又は名称】佐藤 立志
(74)【代理人】
【識別番号】100112807
【弁理士】
【氏名又は名称】岡田 貴志
(74)【代理人】
【識別番号】100111073
【弁理士】
【氏名又は名称】堀内 美保子
(72)【発明者】
【氏名】住田 一男
(72)【発明者】
【氏名】釜谷 聡史
(72)【発明者】
【氏名】阿部 一彦
(72)【発明者】
【氏名】長 健太
【テーマコード(参考)】
5C164
【Fターム(参考)】
5C164FA29
5C164PA43
5C164SB04S
5C164SC21P
(57)【要約】
【課題】講演内容の理解を支援することができる
【解決手段】本実施形態に係る講演支援装置は、切替部、取得部、音声認識部及び制御部を含む。切替部は、第1ユーザの指示に応じて、該第1ユーザに提示されるコンテンツを第1コンテンツから第2コンテンツに切り替える。取得部は、前記第1ユーザから、前記第1コンテンツに関する発話を第1音声信号として取得する。音声認識部は、前記第1音声信号に対して音声認識処理を行い、音声認識結果を得る。制御部は、前記第1コンテンツから前記第2コンテンツに切り替える場合、前記音声認識結果を第2ユーザに提示してから第1期間内は、該第1コンテンツを該第2ユーザに継続して提示するように制御する。
【選択図】図2
【特許請求の範囲】
【請求項1】
第1ユーザの指示に応じて、該第1ユーザに提示されるコンテンツを第1コンテンツから第2コンテンツに切り替える切替部と、
前記第1ユーザから、前記第1コンテンツに関する発話を第1音声信号として取得する取得部と、
前記第1音声信号に対して音声認識処理を行い、音声認識結果を得る音声認識部と、
前記第1コンテンツから前記第2コンテンツに切り替える場合、前記音声認識結果を第2ユーザに提示してから第1期間内は、該第1コンテンツを該第2ユーザに継続して提示するように制御する制御部と、を具備することを特徴とする講演支援装置。
【請求項2】
前記制御部は、前記第1期間経過後に、前記第2コンテンツを該第2ユーザに提示するように制御することを特徴とする請求項1に記載の講演支援装置。
【請求項3】
前記第1音声信号に関する発話開始時刻および該第1音声信号に関する発話終了時刻と、前記第1コンテンツの表示開始時刻および該第1コンテンツの表示終了時刻とをそれぞれ対応付けて記憶する記憶部をさらに具備し、
前記第1期間は、前記表示終了時刻と前記発話終了時刻との差分の時間であることを特徴とする請求項1または請求項2に記載の講演支援装置。
【請求項4】
前記記憶部は、前記第1コンテンツから前記第2コンテンツに切り換わる際に前記第1ユーザが継続して発話している場合、前記発話終了時刻として前記第1コンテンツの表示終了時刻を記憶し、
前記制御部は、第2期間経過後に、前記第2コンテンツを該第2ユーザに提示するように制御することを特徴とする請求項3に記載の講演支援装置。
【請求項5】
前記第1ユーザに前記第1コンテンツおよび前記第2コンテンツを表示する表示部をさらに具備することを特徴とする請求項1から請求項4のいずれか1項に記載の講演支援装置。
【請求項6】
前記音声認識結果は、前記第1音声信号に関する音声認識結果の文字列であることを特徴とする請求項1から請求項5のいずれか1項に記載の講演支援装置。
【請求項7】
第1ユーザの指示に応じて、該第1ユーザに提示されるコンテンツを第1コンテンツから第2コンテンツに切り替える切替部と、
前記第1ユーザから、前記第1コンテンツに関する発話を第1音声信号として取得する取得部と、
前記第1音声信号に対して音声認識処理を行い、音声認識結果を得る音声認識部と、
前記音声認識結果を機械翻訳し、機械翻訳結果を得る機械翻訳部と、
前記第1コンテンツから前記第2コンテンツに切り替える場合、前記機械翻訳結果を第2ユーザに提示してから第1期間内は、該第1コンテンツを該第2ユーザに継続して提示するように制御する制御部と、を具備することを特徴とする講演支援装置。
【請求項8】
第1ユーザの指示に応じて、該第1ユーザに提示されるコンテンツを第1コンテンツから第2コンテンツに切り替える切替部と、
前記第1ユーザから、前記第1コンテンツに関する発話を第1音声信号として取得する取得部と、
前記第1音声信号に対して音声認識処理を行い、音声認識結果を得る音声認識部と、
前記音声認識結果を機械翻訳し、機械翻訳結果を得る機械翻訳部と、
前記機械翻訳結果を音声合成し、合成音声を得る音声合成部と、
前記第1コンテンツから前記第2コンテンツに切り替える場合、前記合成音声を第2ユーザに提示してから第1期間内は、該第1コンテンツを該第2ユーザに継続して提示するように制御する制御部と、を具備することを特徴とする講演支援装置。
【請求項9】
第1ユーザの指示に応じて、該第1ユーザに提示されるコンテンツを第1コンテンツから第2コンテンツに切り替え、
前記第1ユーザから、前記第1コンテンツに関する発話を第1音声信号として取得し、
前記第1音声信号に対して音声認識処理を行い、音声認識結果を得、
前記第1コンテンツから前記第2コンテンツに切り替える場合、前記音声認識結果を第2ユーザに提示してから第1期間内は、該第1コンテンツを該第2ユーザに継続して提示するように制御することを特徴とする講演支援方法。
【請求項10】
コンピュータを、
第1ユーザの指示に応じて、該第1ユーザに提示されるコンテンツを第1コンテンツから第2コンテンツに切り替える切替手段と、
前記第1ユーザから、前記第1コンテンツに関する発話を第1音声信号として取得する取得手段と、
前記第1音声信号に対して音声認識処理を行い、音声認識結果を得る音声認識手段と、
前記第1コンテンツから前記第2コンテンツに切り替える場合、前記音声認識結果を第2ユーザに提示してから第1期間内は、該第1コンテンツを該第2ユーザに継続して提示するように制御する制御手段として機能させるための講演支援プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、講演支援装置、方法およびプログラムに関する。
【背景技術】
【0002】
会議や講演などで発話される音声を対象にした音声翻訳システムを実現しようとする場合、講演者は聴講者に対してPC上のスライドを見せながら説明するので、音声認識結果や機械翻訳結果の出力のタイミングを配慮することが望ましい。すなわち、音声認識や機械翻訳の処理には処理時間が必ず必要となる。したがって、音声認識結果や機械翻訳結果が得られた時点で、それらに対する字幕や合成音声を出力した場合、講演者の元の音声が発話された時刻よりも遅れて出力せざるを得ない。このため、講演者が次のスライドを表示させた場合、1つ前のスライドに対して説明している内容に対する字幕や合成音声の出力が終了していない可能性がある。音声認識結果や機械翻訳結果に対する字幕や合成音声を視聴する際に対応するスライドを見ることができないのは、聴講者にとって理解の妨げになる。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2001−224002号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
本開示は、上述の課題を解決するためになされたものであり、講演内容の理解を支援することができる講演支援装置、方法およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0005】
本実施形態に係る講演支援装置は、切替部、音声取得部、音声認識部及び制御部を含む。切替部は、第1ユーザの指示に応じて、該第1ユーザに提示されるコンテンツを第1コンテンツから第2コンテンツに切り替える。取得部は、前記第1ユーザから、前記第1コンテンツに関する発話を第1音声信号として取得する。音声認識部は、前記第1音声信号に対して音声認識処理を行い、音声認識結果を得る。制御部は、前記第1コンテンツから前記第2コンテンツに切り替える場合、前記音声認識結果を第2ユーザに提示してから第1期間内は、該第1コンテンツを該第2ユーザに継続して提示するように制御する。
【図面の簡単な説明】
【0006】
図1】本実施形態に係る講演支援装置の利用例を示す概念図。
図2】第1の実施形態に係る講演支援装置を示すブロック図。
図3】第1の実施形態に係る対応記憶部に記憶される対応関係テーブルを示す図。
図4A】第1の実施形態に係る講演支援装置の講演支援処理を示すフローチャート。
図4B】第1の実施形態に係る講演支援装置の講演支援処理を示すフローチャート。
図5】第1の実施形態に係る講演者の発話と、聴講者用のコンテンツ及び音声認識結果の表示との関係性を示す図。
図6】第2の実施形態に係る対応記憶部に記憶される対応関係テーブルを示す図。
図7A】第2の実施形態に係る講演支援装置の講演支援処理を示すフローチャート。
図7B】第2の実施形態に係る講演支援装置の講演支援処理を示すフローチャート。
図8】第2の実施形態に係る講演者の発話と、聴講者用のコンテンツ及び音声認識結果の表示との関係性を示す図。
図9】第3の実施形態に係る講演支援装置を示すブロック図。
図10】第4の実施形態に係る講演支援装置を示すブロック図。
【発明を実施するための形態】
【0007】
以下、図面を参照しながら本実施形態に係る講演支援装置、方法およびプログラムについて詳細に説明する。なお、以下の実施形態では、同一の参照符号を付した部分は同様の動作をおこなうものとして、重複する説明を適宜省略する。また、以下の実施形態では、講演者が日本語で発話すること前提に説明するが、日本語に限らず、他の言語で発話する場合も同様の処理を行うことができる。
【0008】
本実施形態に係る講演支援装置の利用例について図1を参照して説明する。
図1は、講演支援装置を含む講演支援システム100を示す概念図である。講演支援システム100は、講演支援装置101、講演者用表示部103、聴講者用表示部104−1および104−2を含む。
【0009】
講演者用表示部103は、講演者150(第1ユーザともいう)が閲覧する画面である。聴講者用表示部104−1および104−2は、聴講者151−1(第2ユーザともいう)および151−2それぞれが視聴する画面である。なお、ここでは聴講者151が2人である場合を想定するが、1人でもよいし、3人以上でもよい。
【0010】
講演者150は、講演者用表示部103に表示されるコンテンツを見ながら講演を行う。講演者150は、マウスやキーボードなどの切換指示手段を用いて、ネットワーク102を介して講演支援装置101に対してコンテンツの切り替え指示を送信することにより、講演者用表示部103に表示されるコンテンツを切り替えることができる。
【0011】
本実施形態で想定する「コンテンツ」は、例えば、プレゼンテーションに用いられるようなページ単位に分割されたスライドを想定するが、アニメーションを含むスライドでもよいし、単なる画像でもよい。
また、「コンテンツ」は、機器操作のインストラクション、システムのデモンストレーションなどの実演に関する動画でもよい。コンテンツが動画である場合は、場面が切り替わる単位、または撮像位置が異なる映像に切り替わる単位をコンテンツの1ページとすればよい。すなわち、表示が切り替わるコンテンツであれば何でもよい。
【0012】
聴講者151は、ネットワーク102を介して、聴講者用表示部104に表示される、講演に関するコンテンツと講演者150の音声認識結果に関する文字情報とを視聴できる。聴講者用表示部104では、講演支援装置101から新たにコンテンツを受信した場合に、表示するコンテンツを切り替える。なお、図1の例では、聴講者用表示部104としてスマートフォン、タブレットといった携帯端末を想定するが、例えば宅内のネットワーク102に接続されたPCでもよい。
【0013】
(第1の実施形態)
第1の実施形態に係る講演支援装置について図2のブロック図を参照して説明する。
第1の実施形態に係る講演支援装置200は、表示部201、切替部202、コンテンツバッファ203、音声取得部204、音声認識部205、対応記憶部206および提示制御部207を含む。
【0014】
表示部201は、講演者用にコンテンツを提示する。
切替部202は、講演者の指示に応じて、表示部201に表示されるコンテンツを、現在表示されるコンテンツから次のコンテンツに切り替える。さらに、切替部202は、コンテンツを切り替える際の時刻情報に基づいて、コンテンツの表示時間に関する情報を生成する。
【0015】
コンテンツバッファ203は、聴講者用に表示するコンテンツをバッファする。
音声取得部204は、講演者のコンテンツに関する発話を音声信号として取得する。さらに、音声取得部204は、音声信号の始端の時刻および終端の時刻を検出し、発話時間に関する情報を取得する。音声信号の始端および終端を検出する手法としては、例えば、VAD(Voice Activity Detection)を用いればよく、一般的な手法であるため、ここでの説明は省略する。
【0016】
音声認識部205は、音声取得部204から音声信号を受け取り、音声信号に対して音声認識処理を行い、音声認識結果を得る。
【0017】
対応記憶部206は、切替部202からコンテンツの表示時間に関する情報を、音声取得部204から発話時間に関する情報をそれぞれ受け取り、コンテンツの表示時間と発話時間との対応関係を示す対応関係テーブルとして記憶する。対応関係テーブルの詳細は、図3を参照して後述する。
【0018】
提示制御部207は、音声認識部205から音声認識結果を、コンテンツバッファ203からコンテンツをそれぞれ受け取り、聴講者が視聴できるように、音声認識結果およびコンテンツを提示するように制御する。図1の例では、音声認識結果およびコンテンツが聴講者用表示部104に表示されるように出力される。
提示制御部207は、切替部202から講演者の指示(コンテンツの切り替え指示)を受け取り、切り替え指示に応じてコンテンツを切り替える場合、対応記憶部206に記憶される対応関係テーブルを参照して、切り替え前のコンテンツに関する音声認識結果を聴講者に提示してから第1期間内は、切り替え前のコンテンツを聴講者に継続して提示するように制御する。
【0019】
次に、第1の実施形態に係る対応記憶部206に記憶される対応関係テーブルについて図3を参照して説明する。
図3に示す対応関係テーブル300には、ページ番号301、表示時間情報302および発話時間情報303がそれぞれ対応付けて記録される。
【0020】
ページ番号301は、コンテンツのページ番号であり、プレゼンテーションのスライドであればスライド番号となる。なお、コンテンツが動画である場合は、場面が切り替わる単位、または撮像位置が異なる映像に切り替わる単位に一意のIDを振ればよい。
【0021】
表示時間情報302は、コンテンツが表示されている時間を示し、ここでは、表示開始時刻304と表示終了時刻305とを記憶する。表示開始時刻304は、ページ番号に対応するコンテンツの表示が開始された時刻であり、表示終了時刻305は、ページ番号に対応するコンテンツの表示が終了した時刻である。
【0022】
発話時間情報303は、コンテンツに対する講演者の発話時間を示し、ここでは、発話開始時刻306と発話終了時刻307とを記憶する。発話開始時刻306は、ページ番号に対応するコンテンツについて発話が開始された時刻であり、発話終了時刻307は、ページ番号に対応するコンテンツについて発話が終了した時刻である。
【0023】
具体的には、例えば、ページ番号301「1」、表示開始時刻304「0:00」、表示終了時刻305「2:04」、発話開始時刻306「0:10」、発話終了時刻307「1:59」がそれぞれ対応付けられて記憶される。これらの情報から、コンテンツのページ1の表示時間は、「2:04」であり、ページ1に関する発話時間は、「1:49」であることが分かる。
【0024】
次に、第1の実施形態に係る講演支援装置200の講演支援処理について図3図4Aおよび図4Bのフローチャートを参照して説明する。以下では、コンテンツとして、ページ単位に分割されているコンテンツを想定する。
【0025】
ステップS401では、音声認識部205が起動される。
ステップS402では、提示制御部207が、対応記憶部206に記憶されるデータを初期化し、コンテンツの提示する際に最初に提示されるコンテンツのページ番号と、最初に提示されるコンテンツの表示開始時刻とを対応記憶部206に記録する。図3の例では、ページ番号301「1」と、表示開始時刻304「0:00」とが対応記憶部206に記憶される。
【0026】
ステップS403では、表示部201が、講演者のために最初のコンテンツを表示し、提示制御部207が、聴講者のために最初のコンテンツを提示するように制御する。具体的には、図1の例では、コンテンツを聴講者用表示部104に出力すればよい。
【0027】
ステップS404では、提示制御部207が、切り替えフラグを1に設定する。切り替えフラグは、コンテンツが切り替えられたかどうかを示すフラグである。
【0028】
ステップS405では、講演支援装置200が、イベント待ち状態となる。イベント待ち状態とは、講演者からのコンテンツの切り替え入力、講演者からの発話の入力を受け付ける状態である。
【0029】
ステップS406では、切替部202が、講演者から切り替え指示が入力されたかどうかを判定する。切り替え指示が入力された場合、ステップS407に進み、切り替え指示が入力されない場合は、ステップS410に進む。
【0030】
ステップS407では、切替部202が、聴講者に表示されるコンテンツのページを切り替え、タイマーを設定する。タイマーとして設定される時間は、処理を後述のステップS418以降に移行するために設定される時間であり、予め設定されている時間を用いてもよいし、状況に合わせて設定されてもよい。
【0031】
ステップS408では、切替部202が、切り替え前に表示していたコンテンツのページ番号に対応する表示終了時刻と、ページ切り替え後のページ番号と、ページ切り替え後のページ番号に対応する表示開始時刻とを対応記憶部206に記録する。図3の例では、切り替え前に表示されているページ番号301「1」のコンテンツの表示終了時刻305「2:04」と、ページ切り替え後のページ番号301「2」と、ページ番号301「2」の表示開始時刻304「2:04」とが対応記憶部206に記憶される。
【0032】
ステップS409では、提示制御部207が、切り替えフラグが1でない場合は1に設定し、ステップS405のイベント待機処理に戻る。
【0033】
ステップS410では、音声取得部204が、講演者の音声の始端を検出したかどうかを判定する。音声の始端を検出した場合は、ステップS411に進み、音声の始端を検出していない場合は、ステップS414に進む。
【0034】
ステップS411では、提示制御部207が、切り替えフラグが1であるかどうかを判定する。切り替えフラグが1である場合は、ステップS412に進み、切り替えフラグが1でない場合は、既に発話開始時刻が記憶されていることになるので、ステップS405のイベント待機処理に戻る。
【0035】
ステップS412では、ページ切り替えが行われた直後の発話に関する音声の始端であるため、音声取得部204が、対応記憶部206に、切り替え後のページ番号と発話開始時刻として音声の始端時刻とを記録する。図3の例では、例えば、ページ番号301「2」と発話開始時刻306「2:04」とが対応記憶部206に記憶される。
【0036】
ステップS413では、切り替えフラグをゼロに設定し、ステップS405のイベント待機処理に戻る。切り替えフラグをゼロに設定することで、発話開始時刻として、講演者の最初の発話の時刻だけ記録するようにする。
【0037】
ステップS414では、音声取得部204が、講演者の音声の終端を検出したかどうかを判定する。音声の終端を検出した場合は、ステップS415に進み、音声の終端を検出していない場合は、ステップS416に進む。
【0038】
ステップS415では、音声取得部204が、対応記憶部206に、発話終了時刻を記憶させる。図3の例では、例えば、ページ番号301「2」の発話終了時刻307「4:29」が対応記憶部206に記憶される。
【0039】
ステップS416では、音声認識部205が、音声認識結果を出力可能であるかどうかを判定する。具体的には、例えば、音声信号に対する音声認識処理が終了し、音声認識結果を出力できる状態となる場合に、音声認識結果を出力可能であるかと判定すればよい。音声認識結果が出力可能である場合、ステップS417に進み、音声認識結果が出力可能でない場合、ステップS418に進む。
【0040】
ステップS417では、提示制御部207が、聴講者のために音声認識結果を聴講者に提示するように制御する。具体的には、例えば、聴講者用の端末に音声認識結果の文字列が字幕またはテロップとして表示されるようにデータを送信する。その後、ステップS405のイベント待機処理に戻る。
【0041】
ステップS418では、提示制御部207が、タイマーに設定した時間が経過したかどうか(タイマー割り込みが発生したかどうか)を判定する。設定した時間が経過している場合、ステップS419に進み、設定した時間が経過していない場合、ステップS405のイベント待機処理に戻る。
【0042】
ステップS419では、提示制御部207が、聴講者への音声認識結果の提示が完了してから第1期間経過したかどうかを判定する。聴講者への音声認識結果の提示が完了したかどうかは、例えば、提示制御部207が音声認識結果を出力した後、所定時間経過すれば音声認識結果の提示が完了したと判定してもよいし、聴講者の端末から音声認識結果の提示が完了した旨のACKを受信したときでもよい。
音声認識結果を提示してから第1期間経過している場合は、ステップS420に進み、第1期間経過していない場合は、第1期間を経過するまで本ステップS419の処理を繰り返す。これにより、第1期間内は、聴講者に切り替え前のコンテンツが継続して提示されることになる。第1期間は、ここでは、講演者の発話とページの切り替えタイミングとを考慮して、表示終了時刻と発話終了時刻との差分の時間とするが、これに限らず、聴講者側にコンテンツと音声認識結果の文字列とが表示されてから、聴講者がコンテンツおよび音声認識結果の文字列を理解できる程度の時間を設定すればよい。
【0043】
ステップS420では、提示制御部207が、講演者に表示されるコンテンツのページと、聴講者に表示されるコンテンツのページとが同一であるかどうかを判定する。ページが同一である場合、ステップS405のイベント待機処理に戻る。ページが同一でない場合、ステップS421に進む。
【0044】
ステップS421では、提示制御部207が、講演者に表示されるコンテンツのページと、聴講者に表示されるコンテンツのページとが同一となるように切り替えるため、講演者に表示されるコンテンツのページが提示されるように制御する。具体的には、聴講者の端末に講演者に表示されるコンテンツを出力する。
【0045】
ステップS422では、提示制御部207が、聴講者に提示したコンテンツのページが最後のページであるかどうかを判定する。最後のページである場合、処理を終了し、最後のページでない場合、ステップS405のイベント待機処理に戻る。以上で、講演支援装置200の講演支援処理を終了する。
【0046】
なお、図4A図4Bで示した処理は、音声認識や機械翻訳の処理とは別のスレッドで独立的に動作させることで、音声認識結果が出力可能になったタイミングに依存して処理がデッドロックしてしまわないようにすることが望ましい。
【0047】
次に、第1の実施形態に係る講演者の発話と、聴講者用のコンテンツ及び音声認識結果の表示との関係性について図5を参照して説明する。
図5は、講演者の発話および講演者用のコンテンツの表示と、聴講者用の音声認識結果の表示及びコンテンツの表示との時間推移を示す。
【0048】
時系列500は、講演者用のコンテンツの表示時間に関する時系列を示し、コンテンツの表示を切り替える時点を示す、切り替えタイミング501および切り替えタイミング502も図示する。図5の例では、コンテンツのページ1が表示されており、切り替えタイミング501を経て、ページ2に切り替えられたことを示す。また、ページ2の表示開始時刻が切り替えタイミング501であり、ページ2の表示終了時刻が切り替えタイミング502となる。
【0049】
時系列510は、講演者の発話に関する音声波形を時系列で示したものである。ここでは、時刻511がページ1に関する発話開始時刻であり、時刻512がページ1に関する発話終了時刻である。また、時刻513がページ2に関する発話開始時刻であり、時刻514がページ2に関する発話終了時刻である。
【0050】
時系列520は、講演者の発話の時系列510に対する音声認識結果を、聴講者に出力するタイミングを示す時系列である。図5の例では、講演者のページ1に関する発話(時刻511から時刻512まで)の時系列に対して、音声認識結果521、522および523と順次出力する。同様に、講演者のページ2に関する発話(時刻513から時刻514まで)の時系列に対して、音声認識結果524、525および526と順次出力する。
【0051】
時系列530は、聴講者用のコンテンツに関する表示時間の時系列を示し、切り替えタイミング531および切り替えタイミング532も図示する。
【0052】
図5に示すように、講演者用のコンテンツの表示がページ1からページ2に切り替わった場合でも、聴講者用のコンテンツの表示は、ページ1のままとする。その後、音声認識結果523が聴講者に出力されてから、第1期間540を経過した後に、聴講者用のページ1のコンテンツがページ2に切り替えて表示される。第1期間540は、ここでは、切り替えタイミング501とページ1の発話終了時刻である時刻512との差分である。
【0053】
以上に示した第1の実施形態によれば、講演者側のコンテンツの表示時間および発話の継続時間に基づいて、聴講者用のコンテンツの表示を、聴講者に音声認識結果を提示してから第1期間経過したのちに切り替える。これによって、聴講者側で、講演者のコンテンツの切り替えに従って音声認識結果の表示前に先にコンテンツが切り替わってしまうなどの問題点が解消し、聴講者側でのコンテンツおよび音声認識結果の文字列の対応関係を維持することができ、聴講者の講演内容の理解を支援することができる。すなわち、聴講者は、コンテンツと対応する字幕とを視聴することができるので、内容を理解しやすくなる。
【0054】
(第2の実施形態)
第1の実施形態では、コンテンツがページの概念を持つ場合に、ページごとに発話が完結する場合を想定するが、第2の実施形態では、講演者が発話を継続しながらページを切り替える、すなわち、2つのページにまたがって発話が継続することを想定する。
第2の実施形態に係る対応記憶部206に記憶される対応関係テーブルについて図6を参照して説明する。
【0055】
図6に示す対応関係テーブル600は、図3に示す対応関係テーブル300とほぼ同様であるが、発話終了時刻601に記録されるデータが異なる。
【0056】
発話終了時刻601には、ページ切り替えの際に発話が終了している場合は、発話終了を示す「end」と、発話終了時刻とが記録される。一方、ページ切り替えの際に発話が係属中である場合は、発話係属中を示す「cont」と、表示終了時刻305とが記録される。
具体的に図6の例では、ページ切り替えの際に発話が終了している場合、発話終了時刻601「(end,1:59)」が記録され、ページ切り替えの際に発話が係属中である場合は、発話終了時刻601「(cont,4:30)」が記録される。
【0057】
次に、第2の実施形態に係る講演支援装置の講演支援処理について図7Aおよび図7Bのフローチャートを参照して説明する。
ステップS701からステップS707まで以外は、図4Aおよび図4Bに示すフローチャートの処理と同様であるので、ここでの説明は省略する。
【0058】
ステップS701では、提示制御部207が、ページ切り替えの際に講演者の発話が係属中であるかどうかを判定する。講演者の発話が係属中であれば、ステップS702に進み、講演者の発話が係属中でない、すなわち、ページ切り替えの際に講演者の発話が終了している場合は、ステップS409に進む。
【0059】
ステップS702では、切替部202が、切り替え前にページに対応する発話終了時刻として、「(cont,表示終了時刻)」を記録するとともに、現在のページに対応する発話開始時刻として、表示終了時刻を記録する。
【0060】
ステップS703では、音声取得部204が、対応記憶部206に、発話終了時刻として、「(end,発話の終端時刻)」を記録する。
【0061】
ステップS704では、提示制御部207が、表示されているページに対応する発話終了時刻が(end,T)であるか、または(cont,T)であるかを判定する。ここでTは、時刻を表し、(end,T)の場合は発話の終端時刻、(cont,T)の場合は表示終了時刻である。発話終了時刻が(end,T)である場合、ステップS419に進み、発話終了時刻が(cont,T)である場合、ステップS706に進む。
【0062】
ステップS705では、提示制御部207が、聴講者への音声認識結果の提示が完了してから第2期間経過したかどうかを判定する。第2期間経過している場合は、ステップS420に進み、第2期間経過していない場合は、第2期間を経過するまで本ステップS705の処理を繰り返す。第2期間は、ここでは、講演者の発話が2ページにまたがっているため、ページの切り替えを早く行うべく、第1期間よりも短い期間を想定するが、第1期間と同じ期間でもよい。
【0063】
次に、第2の実施形態に係る講演者の発話と、聴講者用のコンテンツ及び音声認識結果の表示との関係性について図8を参照して説明する。
【0064】
図8は、図5とほぼ同様であるが、時系列510において、ページ切り替えの際に講演者の発話が係属中である点が異なる。
【0065】
提示制御部207は、聴講者に、時刻801の発話を含む音声認識結果802の出力が完了してから第2期間803を経過した後に、聴講者が視聴するコンテンツのページ1をページ2に切り替えるよう制御する(ページ切り替え804)。
なお、また、提示制御部207は、ページ切り替えの際に講演者の発話が係属中である場合、聴講者への音声認識結果の提示が完了してから、ページの切り替えに関し、いわゆるフェードアウトおよびフェードインを用いて切り替えるように、コンテンツの出力を制御してもよい。
【0066】
以上に示した第2の実施形態によれば、講演者が発話を継続しながらページを切り替える場合でも、ページ切り替えの際に発話が係属中であるかどうかに応じて対応関係テーブルを生成し、対応関係テーブルを参照して提示制御を行うことにより、第1の実施形態と同様に、聴講者側でのコンテンツおよび音声認識結果の文字列の対応関係を維持することができ、講演内容の理解を支援することができる。
【0067】
(第3の実施形態)
第3の実施形態では、講演者の発話の機械翻訳結果を聴講者に提示する点が上述の実施形態とは異なる。
第3の実施形態に係る講演支援装置を図9のブロック図を参照して説明する。
第3の実施形態に係る講演支援装置900は、表示部201、切替部202、コンテンツバッファ203、音声取得部204、音声認識部205、対応記憶部206、提示制御部207および機械翻訳部901を含む。
【0068】
提示制御部207および機械翻訳部901以外は、図2と同様の動作を行うので、説明を省略する。
機械翻訳部901は、音声認識部205から音声認識結果を受け取り、音声認識結果を機械翻訳して、機械翻訳結果を得る。
【0069】
提示制御部207は、上述の実施形態とほぼ同様の動作を行うが、機械翻訳部901から機械翻訳結果を受け取り、聴講者に機械翻訳結果を提示するように制御する点が異なる。なお、提示制御部207は、音声認識結果と機械翻訳結果とを提示するように制御してもよい。
【0070】
以上に示した第3の実施形態によれば、講演者の第1言語から聴講者の第3言語に翻訳が必要な場合でも、音声認識結果を機械翻訳することにより、聴講者が講演の内容を理解でき、第1の実施形態と同様に、講演に関する聴講者の理解を支援することができる。
【0071】
(第4の実施形態)
第4の実施形態では、講演者の発話の機械翻訳結果の合成音声を聴講者に提示する点が上述の実施形態とは異なる。
【0072】
第4の実施形態に係る講演支援装置を図10のブロック図を参照して説明する。
第4の実施形態に係る講演支援装置1000は、表示部201、切替部202、コンテンツバッファ203、音声取得部204、音声認識部205、対応記憶部206、提示制御部207、機械翻訳部901および音声合成部1001を含む。
【0073】
提示制御部207および音声合成部1001以外は、図2と同様の動作を行うので、説明を省略する。
音声合成部1001は、機械翻訳部901から機械翻訳結果を受け取り、機械翻訳結果を音声合成して、合成音声を得る。
【0074】
提示制御部207は、上述の実施形態とほぼ同様の動作を行うが、音声合成部1001から合成音声を受け取り、聴講者に合成音声を提示するように制御する点が異なる。なお、提示制御部207は、聴講者に、音声認識結果と機械翻訳結果と合成音声とを提示するように制御してもよいし、機械翻訳結果と合成音声とを提示するように制御してもよい。
【0075】
以上に示した第4の実施形態によれば、講演者に合成音声を出力することができ、第1の実施形態と同様に、講演に関する聴講者の理解を支援することができる。
【0076】
上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した講演支援装置による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フレキシブルディスク、ハードディスクなど)、光ディスク(CD−ROM、CD−R、CD−RW、DVD−ROM、DVD±R、DVD±RW、Blu−ray(登録商標)Discなど)、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をCPUで実行させれば、上述した実施形態の講演支援装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワーク等のMW(ミドルウェア)等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、LANやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は1つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。
【0077】
なお、本実施形態におけるコンピュータまたは組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。
【0078】
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行なうことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0079】
100・・・講演支援システム、101,200,900,1000・・・講演支援装置、102・・・ネットワーク、103・・・講演者用表示部、104−1,104−2・・・聴講者用表示部、150・・・講演者、151−1,151−2・・・聴講者、201・・・表示部、202・・・切替部、203・・・コンテンツバッファ、204・・・音声取得部、205・・・音声認識部、206・・・対応記憶部、207・・・提示制御部、300,600・・・対応関係テーブル、301・・・ページ番号、302・・・表示時間情報、303・・・発話時間情報、304・・・表示開始時刻、305・・・表示終了時刻、306・・・発話開始時刻、307,601・・・発話終了時刻、500,510,520,530・・・時系列、501,502,531,532・・・切り替えタイミング、511,512,513,514,801・・・時刻、521,522,523,524,525,802・・・音声認識結果、540,803・・・期間、901・・・機械翻訳部、1001・・・音声合成部。
図1
図2
図3
図4A
図4B
図5
図6
図7A
図7B
図8
図9
図10