【文献】
富樫 慎吾、外1名,講義音声ドキュメントのコンテンツ化とブラウジングシステムの改良,第2回音声ドキュメント処理ワークショップ講演論文集,日本,豊橋技術科学大学メディア科学リサーチセンター,2008年 3月 1日,p.155−160
(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0009】
以下に、本願に係る情報処理装置、情報処理方法および情報処理プログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る情報処理装置、情報処理方法および情報処理プログラムが限定されるものではない。また、以下の実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。
【0010】
〔1.実施形態〕
〔1−1.実施形態に係る提示処理〕
まず、
図1を用いて、実施形態に係る提示処理の一例について説明する。
図1は、実施形態に係る提示システム1による提示処理の一例を示す説明図である。提示システム1では、
図1に示すように、情報処理装置100が、講演者SM(話し手の一例に相当)の講話に含まれる専門用語の要約を聴衆U1〜U2(聞き手の一例に相当)に提示する提示処理が行われる。
【0011】
図1に示すように提示システム1には、話者端末10と、聴衆端末20A〜20Bと、情報提供装置50と、情報処理装置100とが含まれる。話者端末10、聴衆端末20A〜20B、情報提供装置50、情報処理装置100は、それぞれネットワークと無線または有線により通信可能に接続される。なお、以下では、聴衆端末20A〜20Bの各装置を区別なく総称する場合には、「聴衆端末20」と記載する場合がある。
【0012】
話者端末10は、スマートフォンや、タブレット型端末や、携帯電話機、PC(Personal Computer)や、PDA(Personal Digital Assistant)等の情報処理装置である。具体的には、話者端末10は、講話の話し手である講演者SMに所有される。例えば、話者端末10は、話し手から発せられる音声を録音する機能や、音声を認識する機能を有する。
【0013】
聴衆端末20は、スマートフォンや、タブレット型端末や、携帯電話機、PCや、PDA等の情報処理装置である。具体的には、聴衆端末20は、講話の聞き手である聴衆U1〜U2に所有される。例えば、聴衆端末20は、専門用語の要約を画面に表示する機能を有する。
【0014】
情報提供装置50は、各種の情報を提供するサーバ装置である。具体的には、情報提供装置50は、インターネット百科事典として用語の意味を提供する。例えば、情報提供装置50は、検索クエリを受信した場合に、かかる検索クエリに対応する用語の解説情報を送信元の装置に提供する。
【0015】
情報処理装置100は、専門用語の要約を出力するサーバ装置である。具体的には、情報処理装置100は、まず、音声に関する情報を受信する(ステップS1)。より具体的には、情報処理装置100は、音声に関する情報として、講演者SMの講話の一部分を音声認識した音声認識結果SR1「間接金融がナッシュ均衡だったからペンディングした」を、話者端末10から受信する。
【0016】
続いて、情報処理装置100は、受信された音声に関する情報に含まれる用語を抽出する(ステップS2)。具体的には、情報処理装置100は、受信された音声認識結果SR1に含まれる用語「間接金融」、「ナッシュ均衡」、「ペンディング」を抽出する(ステップS2)。
【0017】
そして、情報処理装置100は、抽出した用語の要約を生成する(ステップS3)。具体的には、情報処理装置100は、情報提供装置50を利用して、「間接金融」、「ナッシュ均衡」、「ペンディング」の要約をそれぞれ生成する。一例としては、情報処理装置100は、検索クエリとして「間接金融」を情報提供装置50に送信する。続いて、情報処理装置100は、情報提供装置50から検索クエリの応答として「間接金融」の解説情報を受信する。そして、情報処理装置100は、受信した「間接金融」の解説情報を参照し、「間接金融」の要約Ab1「金融の一形態で融資する側と受ける側の間に間接的に資金を貸し借りする機関が存在する仕組みのこと」を生成する。同様に、情報処理装置100は、「ナッシュ均衡」の要約Ab2「ゲーム理論における非協力ゲームの解の一種であり、いくつかの解の概念の中で最も基本的な概念である。」を生成する。また、情報処理装置100は、「ペンディング」の要約Ab3「「未定」、「保留」もしくは「先送り」といった意味の外来語であるが、業界によって微妙にニュアンスが異なる場合がある。」を生成する。
【0018】
続いて、情報処理装置100は、音声に関する情報に含まれる用語として抽出された「間接金融」、「ナッシュ均衡」、「ペンディング」のうち聴衆U1に応じた専門用語の要約を、聴衆U1が有する聴衆端末20Aに対してリアルタイムに出力する(ステップS4)。ここで、聴衆U1は、「音楽」の専門家であるものとする。言い換えると、聴衆U1は、ユーザ属性として「音楽」を有するものとする。この場合、情報処理装置100は、聴衆U1に応じた専門用語として、「音楽」以外の分野に属する用語である「間接金融」、「ナッシュ均衡」、「ペンディング」の要約Ab1〜Ab3を聴衆U1が有する聴衆端末20Aに出力する。これにより、聴衆端末20Aは、
図1に示すように、「間接金融」、「ナッシュ均衡」、「ペンディング」の要約Ab1〜Ab3をリアルタイムに画面に表示する。
【0019】
また、情報処理装置100は、音声に関する情報に含まれる用語として抽出された「間接金融」、「ナッシュ均衡」、「ペンディング」のうち聴衆U2に応じた専門用語の要約を、聴衆U2が有する聴衆端末20Bに対してリアルタイムに出力する(ステップS5)。ここで、聴衆U2は、「金融」および「経済」の専門家であるものとする。言い換えると、聴衆U2は、ユーザ属性として「金融」および「経済」を有するものとする。この場合、情報処理装置100は、聴衆U2に応じた専門用語として、「金融」および「経済」以外の分野に属する用語である「ペンディング」の要約を聴衆端末20Bに出力する。一方、情報処理装置100は、「金融」および「経済」の分野に属する用語である「間接金融」、「ナッシュ均衡」の要約を聴衆端末20Bに出力しない。これにより、聴衆端末20Bは、
図1に示すように、「間接金融」および「ナッシュ均衡」の要約Ab1〜Ab2を表示せず、「ペンディング」の要約Ab3をリアルタイムに画面に表示する。
【0020】
このように、実施形態に係る情報処理装置100は、音声に関する情報を受信する。また、情報処理装置100は、受信された音声に関する情報に含まれる用語を抽出する。また、情報処理装置100は、抽出された用語のうち聞き手に応じた専門用語の要約を出力する。
【0021】
これにより、情報処理装置100は、話し手の音声に含まれる用語のうち聞き手に応じた専門用語を出力することができるので、聞き手にとって適切な用語の解説を表示することができる。例えば、情報処理装置100は、聞き手が専門外とする分野に属する用語の要約を出力することができるので、ユーザが知りたい用語の要約を表示することができる。また、情報処理装置100は、聞き手が専門とする分野に属する用語の要約を出力しないので、ユーザにとって解説が不要な用語が表示されることを防ぎ見易さを高く保つことができる。
【0022】
なお、
図1では、提示システム1に、1台の話者端末10と、2台の聴衆端末20A〜20Bと、1台の情報処理装置100とが含まれる例を示したが、提示システム1には、複数台の話者端末10や、2台に限らず複数台の聴衆端末20A〜20Bや、複数台の情報処理装置100が含まれてもよい。
【0023】
また、
図1では、説明を簡単にするため講演者SMの講話の一部分である「間接金融がナッシュ均衡だったからペンディングした」を例として示したが、実際には講話の一部分に限らず、講話の全部分を対象とし、講話に含まれる専門用語が出現する度にかかる専門用語の要約をリアルタイムに順次表示する。
【0024】
〔1−2.実施形態に係る情報処理装置の構成〕
次に、
図2を用いて、実施形態に係る情報処理装置100の構成について説明する。
図2は、実施形態に係る情報処理装置100の構成例を示す図である。
図2に示すように、情報処理装置100は、通信部110と、記憶部120と、制御部130とを有する。なお、情報処理装置100は、情報処理装置100を利用する管理者等から各種操作を受け付ける入力部(例えば、キーボードやマウス等)や、各種情報を表示するための表示部(例えば、液晶ディスプレイ等)を有してもよい。
【0025】
(通信部110について)
通信部110は、NIC(Network Interface Card)等によって実現される。具体的には、通信部110は、ネットワークと有線または無線で接続され、ネットワークを介して、話者端末10や聴衆端末20、情報提供装置50との間で情報の送受信を行う。例えば、通信部110は、話者端末10から音声に関する情報の受信を行う。他の例では、通信部110は、聴衆端末20に対して専門用語の要約に関する情報の送信を行う。他の例では、通信部110は、情報提供装置50との間で、用語に関する情報の送信と、用語の解説情報の受信とを行う。
【0026】
(記憶部120について)
記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部120は、音声情報記憶部121と、用語情報記憶部122と、ユーザ情報記憶部123とを有する。
【0027】
(音声情報記憶部121について)
音声情報記憶部121は、音声に関する情報を記憶する。具体的には、音声情報記憶部121は、話し手から発せられる音声を音声認識した音声認識結果に関する情報を記憶する。ここで、
図3に、実施形態に係る音声情報記憶部121の一例を示す。
図3に示すように、音声情報記憶部121は、「音声ID」および「認識結果」といった項目を有する。
【0028】
「音声ID」は、音声に関する情報を識別するための識別情報を示す。例えば、「音声ID」には、音声ごとに個別に割り当てられる英数字等のユニークな文字列などが記憶される。「認識結果」は、音声に対して音声認識を行なった結果を示す。例えば、「認識結果」には、音声から認識された文字列などが記憶される。
【0029】
すなわち、
図3では、音声ID「SR1」によって識別される音声を音声認識した音声認識結果は、「間接金融がナッシュ均衡だったからペンディングした」である例を示している。また、
図3では、音声ID「SR2」によって識別される音声を音声認識した音声認識結果は、「米ダウ工業株30種平均、独DAX指数は、原油安の影響でともに1%強下がった」である例を示している。
【0030】
(用語情報記憶部122について)
用語情報記憶部122は、用語に関する情報を記憶する。具体的には、用語情報記憶部122は、音声毎に、音声に関する情報に含まれる用語に関する情報を記憶する。ここで、
図4に、実施形態に係る用語情報記憶部122の一例を示す。
図4に示すように、用語情報記憶部122は、「音声ID」、「用語ID」および「用語」といった項目を有する。
【0031】
「音声ID」は、音声に関する情報を識別するための識別情報を示す。例えば、「音声ID」には、音声ごとに個別に割り当てられる英数字等のユニークな文字列などが記憶される。「用語ID」は、音声に関する情報に含まれる用語を識別するための識別情報を示す。例えば、「用語ID」には、音声に関する情報に含まれる用語ごとに個別に割り当てられるユニークな英数字等の文字列などが記憶される。「用語」は、音声に関する情報に含まれる用語を示す。例えば、「用語」には、音声に関する情報に含まれる単語のうち固有名詞の単語などが記憶される。
【0032】
すなわち、
図4では、音声ID「SR1」によって識別される音声の音声認識結果は、用語「間接金融」、「ナッシュ均衡」および「ペンディング」を含む例を示している。また、「間接金融」の用語IDは、「W1」である例を示している。また、「ナッシュ均衡」の用語IDは、「W2」である例を示している。また、「ペンディング」の用語IDは、「W3」である例を示している。
【0033】
(ユーザ情報記憶部123について)
ユーザ情報記憶部123は、ユーザに関する情報を記憶する。具体的には、ユーザ情報記憶部123は、ユーザ毎に、ユーザの特徴を示すユーザ属性に関する情報を記憶する。ここで、
図5に、実施形態に係るユーザ情報記憶部123の一例を示す。
図5に示すように、ユーザ情報記憶部123は、「ユーザID」および「ユーザ属性」といった項目を有する。
【0034】
「ユーザID」は、ユーザを識別するための識別情報を示す。例えば、「ユーザID」には、ユーザごとに個別に割り当てられるユニークな英数字等の文字列などが記憶される。「ユーザ属性」は、ユーザの特徴を表す属性を示す。例えば、「ユーザ属性」には、ユーザの登録情報や検索履歴、Webページの閲覧履歴、商品購入履歴、サービスの利用履歴などといった各種の情報から推定される属性が記憶される。
【0035】
すなわち、
図5では、ユーザID「U1」によって識別されるユーザU1のユーザ属性は、「音楽」である例を示している。このため、ユーザU1は、他の分野と比較して、「音楽」の分野に関する知識を有すると考えられる。また、ユーザID「U2」によって識別されるユーザU2のユーザ属性は、「金融」および「経済」である例を示している。このため、ユーザU2は、他の分野と比較して、「金融」および「経済」の分野に関する知識を有すると考えられる。
【0036】
(制御部130について)
制御部130は、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、情報処理装置100内部の記憶装置に記憶されている各種プログラム(情報処理プログラムの一例に相当)がRAMを作業領域として実行されることにより実現される。また、制御部130は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。
【0037】
制御部130は、
図2に示すように、受信部131と、抽出部132と、生成部133と、出力部134とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部130の内部構成は、
図2に示した構成に限られず、後述する提示処理を行う構成であれば他の構成であってもよい。また、制御部130が有する各処理部の接続関係は、
図2に示した接続関係に限られず、他の接続関係であってもよい。
【0038】
(受信部131について)
受信部131は、音声に関する情報を受信する。具体的には、受信部131は、音声に関する情報として、話し手が発する音声を音声認識した音声認識結果を話者端末10から受信する。また、受信部131は、音声に関する情報を受信した場合に、受信した音声に関する情報を音声情報記憶部121に格納する。例えば、受信部131は、音声認識結果に個別の音声IDを付与し、音声認識結果を音声IDに対応付けて音声情報記憶部121に格納する。
【0039】
また、受信部131は、用語の解説情報を受信する。具体的には、受信部131は、後述する抽出部132によって抽出された用語を検索クエリとして情報提供装置50に送信した場合に、かかる検索クエリの応答として用語の解説情報を情報提供装置50から受信する。
【0040】
(抽出部132について)
抽出部132は、受信部131によって受信された音声に関する情報に含まれる用語を抽出する。具体的には、抽出部132は、音声に関する情報として話者端末10から受信した音声認識結果に含まれる用語を抽出する。例えば、抽出部132は、音声認識結果に含まれる単語のうち名詞を抽出する。一例としては、抽出部132は、音声認識結果に含まれる名詞の組み合わせのローマ字読みをインターネット百科事典等に掲載された記事名のローマ字読みと照合することで、音声認識結果に含まれる用語を抽出する。これにより、抽出部132は、表記ゆれ(例えば、数字と漢数字)によって用語の抽出を失敗することを防ぐことができる。そして、抽出部132は、抽出した用語を用語情報記憶部122に格納する。例えば、抽出部132は、抽出した用語に個別の用語IDを付与し、用語を音声IDおよび用語IDに対応付けて用語情報記憶部122に格納する。
【0041】
(生成部133について)
生成部133は、抽出部132によって抽出された用語の要約を生成する。具体的には、生成部133は、情報提供装置50を利用して、音声に関する情報に含まれる用語の要約を生成する。例えば、生成部133は、まず、抽出部132によって抽出された用語を検索クエリとして情報提供装置50に送信する。続いて、生成部133は、送信した検索クエリの応答として用語の解説情報(例えば、Wikipedia(登録商標)において検索クエリを検索した検索結果の記事)を情報提供装置50から受信する。そして、情報処理装置100は、受信した用語の解説情報を用いて用語の要約を生成する。
【0042】
この点について、
図6を用いて詳細に説明する。
図6は、用語の要約を生成する生成処理を説明するための説明図である。
図6の例では、生成部133は、用語「ナッシュ均衡」の要約Ab2を生成する。具体的には、生成部133は、
図6に示すように、第1パラグラフPr1、第2パラグラフPr2および第3パラグラフPr3によって形成される解説情報Cmのうち第1パラグラフPr1を用いて用語「ナッシュ均衡」の要約Ab2を生成する。より具体的には、生成部133は、まず、解説情報Cmから第1パラグラフPr1を抽出する。続いて、生成部133は、抽出した解説情報Cmの第1パラグラフPr1から冗長な表現を削除する。例えば、生成部133は、解説情報Cmの第1パラグラフPr1の第1文目から「〜は、」に該当する部分を削除する。
図6の例では、「〜」は、要約を生成する対象となる用語である「ナッシュ均衡」を意味する。また、生成部133は、解説情報Cmの第1パラグラフPr1の全体から「〜」に該当する部分を削除する。そして、生成部133は、第1パラグラフPr1の残りの文章の全体の長さを所定の範囲内に調整する。例えば、生成部133は、第1パラグラフの残りの文章の長さが所定の範囲内より長い場合には、所定の範囲内に収まるように第1パラグラフの残りの文章の一部を削除する。これにより、生成部133は、「ナッシュ均衡」の要約Ab2を生成する。一方、生成部133は、第1パラグラフの残りの文章の長さが所定の範囲内より短い場合には、例えば、第1パラグラフの残りの文章と、削除した第1パラグラフの文章とを組み合わせた要約を生成する。他の例では、生成部133は、第2パラグラフの内容を用いて第1パラグラフと同様の処理を行ない、第1パラグラフの残りの文章と第2パラグラフの残りの文章とを組み合わせた要約を生成する。そして、生成部133は、生成した用語の要約を用語情報記憶部122に格納する。例えば、生成部133は、生成した用語の要約を用語IDに対応付けて用語情報記憶部122に格納する。
【0043】
(出力部134について)
出力部134は、抽出部132によって抽出された用語のうち聞き手に応じた専門用語の要約を出力する。具体的には、出力部134は、抽出部132によって抽出された用語が属する分野に基づいて聞き手に応じた専門用語の要約を出力する。。例えば、出力部134は、聞き手のユーザ属性に基づいて専門用語の要約を出力する。一例としては、出力部134は、ユーザ情報記憶部123を参照し、生成部133によって生成された用語の要約のうちユーザが有するユーザ属性以外の分野に属する用語の要約を、かかるユーザが有する聴衆端末20にリアルタイムに出力する。
【0044】
他の例では、出力部134は、音声に関する情報に含まれる用語のうち出現頻度に基づく専門用語度が所定の閾値以上の専門用語の要約を出力する。例えば、出力部134は、専門用語度として、以下の式(1)によって表されるIDF(Inverse Document Frequency)値が所定の閾値以上の用語の要約を出力する。
【0046】
ここで、式(1)の「N」は、インターネット百科事典が有する全記事数を示す。また、式(1)の「df
j」は、記事名が文書に出現する頻度を示す。したがって、出力部134は、出現頻度が低い用語ほど専門的な用語であると判断して要約を優先して出力する。なお、IDF値は、一例としては、Hadoopで分散処理によって計算される。
【0047】
ここで、出力部134は、ユーザ属性に応じて調整された専門用語度の閾値に基づいて専門用語の要約を出力してもよい。例えば、出力部134は、専門用語度が、ユーザ属性に応じて専門用語度を算出する算出式の係数の重みを変更することで調整された閾値以上の用語の要約を出力する。
【0048】
〔1−3.実施形態に係る提示処理手順〕
次に、
図7を用いて、実施形態に係る提示システム1による処理の手順について説明する。
図7は、実施形態に係る提示システム1による提示処理手順を示すシーケンスである。
【0049】
図7に示すように、情報処理装置100は、話者端末10から音声に関する情報を受信する(ステップS101)。例えば、情報処理装置100は、音声に関する情報として、話し手が発する音声を音声認識した音声認識結果を話者端末10から受信する。そして、情報処理装置100は、音声に関する情報を受信した場合に、受信した音声に関する情報を音声情報記憶部121に格納する。
【0050】
続いて、情報処理装置100は、受信された音声に関する情報に含まれる用語を抽出する(ステップS102)。例えば、情報処理装置100は、音声に関する情報として話者端末10から受信した音声認識結果に含まれる用語を抽出する。そして、情報処理装置100は、抽出した用語を用語情報記憶部122に格納する。
【0051】
その後、情報処理装置100は、抽出された用語を検索クエリとして情報提供装置50に送信する(ステップS103)。そして、情報処理装置100は、送信した検索クエリの応答として用語の解説情報を情報提供装置50から受信する(ステップS104)。続いて、情報処理装置100は、受信した用語の解説情報に基づいて用語の要約を生成する(ステップS105)。そして、情報処理装置100は、生成した要約を用語と対応付けて用語情報記憶部122に格納する。
【0052】
続いて、情報処理装置100は、抽出された用語のうち聞き手に応じた専門用語の要約を出力する(ステップS106)。例えば、情報処理装置100は、ユーザ情報記憶部123を参照し、生成された用語の要約のうちユーザが有するユーザ属性以外の分野に属する用語の要約を、かかるユーザが有する聴衆端末20に出力する。
【0053】
〔1−4.実施形態の効果〕
上述してきたように、実施形態に係る情報処理装置100は、受信部131と、抽出部132と、出力部134とを有する。受信部131は、音声に関する情報を受信する。抽出部132は、受信部131によって受信された音声に関する情報に含まれる用語を抽出する。出力部134は、抽出部132によって抽出された用語のうち聞き手に応じた専門用語の要約を出力する。
【0054】
これにより、情報処理装置100は、話し手の音声に含まれる用語のうち聞き手に応じた専門用語を出力することができるので、聞き手にとって適切な用語の解説を表示することができる。例えば、情報処理装置100は、聞き手が専門外とする分野に属する用語の要約を出力することができるので、ユーザが知りたい用語の要約を表示することができる。また、情報処理装置100は、聞き手が専門とする分野に属する用語の要約を出力しないので、ユーザにとって解説が不要な用語が表示されることを防ぎ見易さを高く保つことができる。
【0055】
また、実施形態に係る情報処理装置100において、出力部134は、抽出部132によって抽出された用語が属する分野に基づいて聞き手に応じた専門用語の要約を出力する。これにより、情報処理装置100は、聞き手にとって知識が浅い分野に属する用語の要約を聞き手に対して提示することができるので、聞き手の聴講をサポートすることができる。例えば、情報処理装置100は、聞き手に応じた用語の要約を自動的に提示することができるので、聞き手が専門用語を能動的に検索する手間を削減することができる。
【0056】
また、実施形態に係る情報処理装置100において、出力部134は、音声に関する情報に含まれる用語のうち出現頻度に基づく専門用語度が所定の閾値以上の専門用語の要約を出力する。これにより、情報処理装置100は、出現頻度が低い専門的な用語の要約を出力することができるので、聞き手が知らない可能性が高い用語の要約を提示することができる。例えば、情報処理装置100は、出願頻度が高い用語の要約は出力しないので、ユーザにとって見慣れた用語の要約が表示されることを防ぎ見易さを高く保つことができる。
【0057】
また、実施形態に係る情報処理装置100において、出力部134は、聞き手のユーザ属性に基づいて専門用語の要約を出力する。これにより、情報処理装置100は、聞き手にとって知識が浅い分野に属する用語の要約を出力することができるので、聞き手が知らない可能性が高い用語の要約を提示することができる。例えば、情報処理装置100は、聞き手の専門以外の分野に属する用語の要約を出力することができるので、聞き手の聴講を支援することができる。
【0058】
〔2.変形例〕
上述した実施形態に係る情報処理装置100は、上記実施形態以外にも種々の異なる形態にて実施されてよい。そこで、以下では、上記の情報処理装置100の他の実施形態について説明する。
【0059】
〔2−1.聞き手の操作に応じた要約〕
上記の実施形態では、情報処理装置100が、抽出部132によって抽出された用語のうち聞き手に応じた専門用語の要約を出力する例を挙げて説明した。ここで、情報処理装置100は、聞き手の操作に応じた専門用語の要約を出力してもよい。
【0060】
具体的には、情報処理装置100の出力部134は、聞き手による専門用語の要約に関する操作に基づいて専門用語の要約を出力する。言い換えると、出力部134は、専門用語の要約に対する聴衆の操作をフィードバックして専門用語の要約を出力する。例えば、出力部134は、専門用語の要約に対する聞き手の選択操作または削除操作に基づいて専門用語の要約を出力する。
【0061】
この点について、
図8を用いて説明する。
図8は、表示画面の一例を示す図である。
図8に示すように、聴衆端末20は、用語の要約Abとともに、かかる用語に対応するリンクボタンLiを表示する。ここで、聴衆端末20は、聞き手によってリンクボタンLiが選択された場合に、用語に対応するインターネット百科事典の記事へ遷移する。そして、情報処理装置100は、例えば、用語に対応するリンクボタンLiを選択する選択操作の回数が多いほど専門的な用語であるとして、今後かかる用語が出現した場合に要約Abを優先して出力する。
【0062】
なお、情報処理装置100は、リンクボタンLiを選択する選択操作の回数に限らず、各種の選択操作の回数に基づいて専門用語の要約を出力してもよい。例えば、情報処理装置100は、用語の要約に対応して表示される図示しない「役立つ」ボタンを選択する選択操作の回数が多いほど専門的な用語であるとして、今後かかる用語が出現した場合にかかる用語の要約を優先して出力してもよい。
【0063】
他の例では、聴衆端末20は、画面に表示された要約Ab上で指を左右に素早く動かすフリック操作が行われた場合に、要約Abを表示画面から削除する。そして、情報処理装置100は、例えば、用語の要約Abを画面上から削除する削除操作の回数が多いほど専門的な用語ではないとして、今後かかる用語が出現した場合に、かかる用語の要約Abを優先して出力しない。
【0064】
なお、情報処理装置100は、要約に対するフリック操作による削除操作に限らず、各種の操作によって実行される削除操作の回数に基づいて専門用語の要約を出力してもよい。例えば、情報処理装置100は、用語の要約に対応して表示される図示しない「削除」ボタンを選択する選択操作の回数が多いほど専門的な用語でないとして、今後かかる用語が出現した場合にかかる用語の要約を優先して出力しないようにしてもよい。
【0065】
このように、変形例に係る情報処理装置100は、聞き手による専門用語の要約に関する操作に基づいて専門用語の要約を出力する。これにより、情報処理装置100は、要約に対する聞き手の反応に応じて用語の要約を出力することができるので、聞き手にとって適切な用語の解説を表示することができる。
【0066】
また、変形例に係る情報処理装置100は、専門用語の要約に対する聞き手の選択操作または削除操作に基づいて専門用語の要約を出力する。これにより、情報処理装置100は、聞き手が深く調べる傾向にある用語の要約を出力することができるので、聞き手が知りたい可能性が高い用語の解説を表示することができる。また、情報処理装置100は、聞き手が削除する傾向にある用語の要約を出力することができるので、聞き手にとって解説を表示しなくてもよい常識的な用語の解説が表示されてしまい見易さが損なわれることを防ぐことができる。
【0067】
〔2−2.聞き手の操作状況を話し手に出力〕
上記の変形例では、情報処理装置100が、要約に対する聞き手の反応に応じて用語の要約を出力する例を挙げて説明した。ここで、情報処理装置100は、要約に対する聞き手の操作状況を話し手に出力してもよい。
【0068】
具体的には、情報処理装置100の出力部134は、聞き手による専門用語の要約に関する操作状況を音声に関する情報の話し手に出力する。例えば、情報処理装置100は、要約に関する操作状況として、用語の要約に対して選択操作がなされた選択回数をかかる用語と対応付けて話者端末10にリアルタイムに出力する。他の例では、情報処理装置100は、要約に関する操作状況として、用語の要約に対して削除操作がなされた削除回数をかかる用語と対応付けて話者端末10にリアルタイムに出力する。
【0069】
このように、変形例に係る情報処理装置100は、聞き手による専門用語の要約に関する操作状況を音声に関する情報の話し手に出力する。これにより、情報処理装置100は、要約に対して聞き手が行った操作について話し手に通知することができるので、話し手の講演の質を向上させることができる。例えば、情報処理装置100は、用語の要約に対して選択操作がなされた回数を話し手に通知することができるので、聞き手が理解していない用語を話し手に把握させることができる。また、情報処理装置100は、用語の要約に対して削除操作がなされた回数を話し手に通知することができるので、聞き手が理解している用語を話し手に把握させることができる。このため、情報処理装置100は、用語の要約に対する操作によって効果を測定することができるので、話し手が聞き手の理解度を把握するのに役立つ情報を提供することができる。
【0070】
〔2−3.聞き手に応じたタイミングで出力〕
上記の実施形態では、情報処理装置100が、抽出部132によって抽出された用語のうち聞き手に応じた専門用語の要約を出力する例を挙げて説明した。ここで、情報処理装置100は、聞き手に応じたタイミングで要約を出力してもよい。
【0071】
具体的には、情報処理装置100の出力部134は、聞き手の音声に関する情報における分野の知識が浅いほど高い頻度で専門用語の要約を出力する。例えば、出力部134は、聞き手が専門用語の要約を参照した回数が多いほど高い頻度で専門用語の要約を出力する。一例としては、情報処理装置100は、聞き手が用語の要約を選択して用語に対応する記事へ遷移した回数が多いほど高い頻度で用語の要約を聴衆端末20に出力する。言い換えると、情報処理装置100は、聞き手の選択回数が所定の回数より多く知識レベルが初級である場合には、専門用語が出現する度に用語の要約を出力する。一方、情報処理装置100は、聞き手の選択回数が所定の回数より少なく知識レベルが中級以上である場合には、話の最後にまとめて用語の要約を出力する。
【0072】
このように、変形例に係る情報処理装置100は、聞き手の音声に関する情報における分野の知識が浅いほど高い頻度で専門用語の要約を出力する。これにより、情報処理装置100は、聞き手の知識に応じて要約を出力することができるので、聞き手に合ったタイミングで要約を表示させることができる。例えば、情報処理装置100は、聞き手が初級者である場合には、専門用語が出現するとすぐに要約を提示することができる。一方、情報処理装置100は、聞き手が中級者以上である場合には、用語の要約が頻繁に出現する煩わしさを防ぐことができる。
【0073】
また、変形例に係る情報処理装置100は、聞き手が専門用語の要約を参照した回数が多いほど高い頻度で専門用語の要約を出力する。これにより、情報処理装置100は、聞き手のレベルを高い精度で推定することができるので、聞き手に合ったタイミングで要約を提示することができる。
【0074】
〔2−4.用語ランキング〕
上記の実施形態では、情報処理装置100が、抽出部132によって抽出された用語のうち聞き手に応じた専門用語の要約を出力する例を挙げて説明した。ここで、情報処理装置100は、各種の形態で用語に関する情報を出力してもよい。
【0075】
具体的には、情報処理装置100の出力部134は、専門用語の要約に対する聞き手の選択回数が多い順または削除回数が少ない順に専門用語を並べた用語ランキングを出力する。例えば、情報処理装置100は、要約に対する選択回数を用語名と対応付けて昇順に並べた表を聴衆端末20に対して出力する。他の例では、情報処理装置100は、要約に対する削除回数を用語名と対応付けて降順に並べた表を聴衆端末20に対して出力する。
【0076】
このように、変形例に係る情報処理装置100は、専門用語の要約に対する聞き手の選択回数が多い順または削除回数が少ない順に専門用語を並べた用語ランキングを出力する。これにより、情報処理装置100は、他の用語と比較して聞き手が知らない用語を容易に把握可能な情報を提供することができるので、聞き手の利便性を向上させることができる。
【0077】
〔2−5.グルーピング〕
上記の実施形態では、情報処理装置100が、抽出部132によって抽出された用語のうち聞き手に応じた専門用語の要約を出力する例を挙げて説明した。ここで、情報処理装置100は、各種の形態で専門用語に関する情報を出力してもよい。
【0078】
具体的には、情報処理装置100の出力部134は、抽出部132によって抽出された用語のうち聞き手に応じた専門用語をかかる専門用語が属するグループ別に出力する。例えば、情報処理装置100は、専門用語を分野別に分類した表を聴衆端末20に対して出力する。他の例では、情報処理装置100は、講話において出現した時間帯ごとに専門用語をまとめて分類した表を聴衆端末20に対して出力する。一例としては、情報処理装置100は、講話の質疑応答時間に出現した専門用語をまとめた表を聴衆端末20に対して出力する。
【0079】
このように、変形例に係る情報処理装置100は、抽出部132によって抽出された用語のうち聞き手に応じた専門用語をかかる専門用語が属するグループ別に出力する。これにより、情報処理装置100は、専門用語の傾向を把握させることができるので、話し手や聞き手に役立つ情報を提供することができる。
【0080】
〔2−6.要約の量を補正〕
上記の実施形態では、情報処理装置100が、抽出部132によって抽出された用語のうち聞き手に応じた専門用語の要約を出力する例を挙げて説明した。ここで、情報処理装置100は、各種の情報に基づいて要約の量を補正してもよい。
【0081】
具体的には、情報処理装置100の出力部134は、聞き手による専門用語の要約に関する操作に基づいて専門用語の要約の量を補正して出力する。言い換えると、情報処理装置100は、要約に対する聞き手の操作をフィードバックして要約の文字数を補正する。例えば、情報処理装置100は、用語の記事へ遷移するリンクボタンを選択する選択操作の回数が多いほど専門的な用語であるとして要約の文字数を増やして聴衆端末20に出力する。一方、情報処理装置100は、用語の要約を削除する削除操作の回数が多いほど専門的な用語でないとして要約の文字数を減らして聴衆端末20に出力する。
【0082】
このように、変形例に係る情報処理装置100は、聞き手による専門用語の要約に関する操作に基づいて専門用語の要約の量を補正して出力する。これにより、情報処理装置100は、要約に対する操作結果を反映した要約を出力することができるので、聞き手にとって質の高い要約を提供することができる。
【0083】
〔2−7.専門用語度の設定〕
上記の実施形態では、情報処理装置100が、音声に関する情報に含まれる用語のうち出現頻度に基づく専門用語度が所定の閾値以上の専門用語の要約を出力する例を挙げて説明した。ここで、情報処理装置100は、聞き手によって設定された専門用語度の閾値に基づいて専門用語の要約を出力してもよい。
【0084】
この点について
図9を用いて説明する。
図9は、設定画面の一例を示す図である。例えば、聴衆端末20は、聞き手から設定画面へ遷移する操作を受け付けた場合に、
図9に示すように、設定バーBr上でつまみBuを左右に動かすことで専門用語度の閾値が設定される設定画面を表示する。一例としては、専門用語度の閾値は、設定バーBr上のうちつまみBuが左に位置するほど低い値が設定される。一方、専門用語度の閾値は、設定バーBr上のうちつまみBuが右に位置するほど高い値が設定される。
【0085】
そして、情報処理装置100は、設定バーBr上のつまみBuの位置によって設定される専門用語度の閾値に基づいて専門用語の要約を聴衆端末20に出力する。言い換えると、情報処理装置100は、聞き手によって設定された専門用語度の閾値に基づいて出力する専門用語の要約を調整する。具体的には、情報処理装置100は、設定バーBr上のうちつまみBuが左に位置するほど専門用語度の閾値が低く設定されているので多くの専門用語の要約を聴衆装置20に出力する。一方、情報処理装置100は、設定バーBr上のうちつまみBuが右に位置するほど専門用語度の閾値が高く設定されているので少なく専門用語の要約を聴衆装置20に出力する。
【0086】
このように、変形例に係る情報処理装置100は、聞き手によって設定された専門用語度の閾値に基づいて専門用語の要約を出力する。これにより、情報処理装置100は、聞き手が所望するレベル以上の専門的な用語の要約を出力することができるので、聞き手の満足度を高めることができる。
【0087】
〔2−8.講演を選択〕
上記の実施形態では、情報処理装置100が、抽出部132によって抽出された用語のうち聞き手に応じた専門用語の要約を出力する例を挙げて説明した。ここで、情報処理装置100は、聞き手によって選択された講演の講話に含まれる専門用語の要約を出力してもよい。
【0088】
この点について
図10を用いて説明する。
図10は、選択画面の一例を示す図である。例えば、聴衆端末20は、
図10に示すように、専門用語の要約を出力可能な講演Rm1「カルテット第1講演会」、講演Rm2「カルテット第2セミナー」、講演Rm3「カルテット第3会議」を掲載したセミナー一覧を画面に表示する。ここで、聴衆端末20は、講演Rm1〜Rm3の中から聞き手によって選択された講演を受け付ける。そして、情報処理装置100は、聞き手によって選択された講演の講話に含まれる用語のうち聞き手に応じた専門用語の要約を聴衆端末20に出力する。
【0089】
このように、変形例に係る情報処理装置100は、聞き手によって選択された講演の講話に含まれる専門用語の要約を出力する。これにより、情報処理装置100は、聞き手が所望する講演における専門用語の要約を出力することができるので、複数の講演が同時に行われている場合でも聞き手が所望する専門用語の要約を提供することができる。
【0090】
〔2−9.パーソナライズ〕
上記の実施形態では、情報処理装置100が、聞き手のユーザ属性に基づいて専門用語の要約を出力する例を挙げて説明した。ここで、情報処理装置100は、各種の情報に基づいて聞き手に応じた専門用語の要約を出力してもよい。
【0091】
具体的には、情報処理装置100は、他の聞き手との間の類似性に基づいて専門用語の要約を出力する。例えば、情報処理装置100は、他のサービスなどにおける利用履歴が類似する他の聞き手が要約に対して行った選択操作に基づいて、専門用語の要約を出力する。一例としては、情報処理装置100は、類似する他の聞き手によって要約に対する選択操作が多く行われた用語の要約ほど優先して出力する。
【0092】
他の例では、情報処理装置100は、聞き手に対して過去に出力した専門用語の要約の履歴に基づいて、専門用語の要約を出力する。例えば、情報処理装置100は、過去に1度要約を聴衆端末20に出力したことがある用語が出現した場合には、かかる用語の要約を同一の聴衆端末20に対して出力しない。言い換えると、情報処理装置100は、同一の聞き手に対して同一の用語の要約を出力しない。
【0093】
このように、変形例に係る情報処理装置100は、各種の情報に基づいて聞き手に応じた専門用語の要約を出力する。これにより、情報処理装置100は、聞き手に特化した用語の要約を提供することができるので、聞き手における利便性を高めることができる。
【0094】
〔2−10.適用対象〕
上記の実施形態では、情報処理装置100が、講演者の講話に含まれる専門用語の要約を聴衆に対して出力する例を挙げて説明した。ここで、情報処理装置100は、講演に限らず、各種の発話を適用対象にしてもよい。具体的には、情報処理装置100は、知識レベルの異なる話し手と聞き手の会話に含まれる専門用語の要約を出力する。例えば、情報処理装置100は、先生が生徒に対して行う授業に含まれる専門用語の要約を出力する。他の例では、情報処理装置100は、医者が患者に対して行う診察に含まれる専門用語の要約を出力する。
【0095】
また、情報処理装置100は、語学学習を用途として適用してもよい。例えば、情報処理装置100は、まず、英語によってなされる発話を音声認識した音声認識結果を話者端末10から受信する。続いて、情報処理装置100は、受信した音声認識結果を英語から日本語に翻訳する。そして、情報処理装置100は、日本語に翻訳した音声認識結果を日本人の聴衆が有する聴衆端末20に送信する。
【0096】
また、上記の実施形態では、情報処理装置100は、スマートフォンに対して専門用語の要約を出力する例を挙げて説明した。ここで、情報処理装置100は、スマートフォンに限らず、タブレット端末やPCなど各種の端末装置に対して専門用語の要約を出力してもよい。
【0097】
このように、変形例に係る情報処理装置100は、各種の発話を適用対象にする。これにより、情報処理装置100は、講演に限らず各種の発話に含まれる専門用語の要約や日本語訳を聞き手に提供することができる。
【0098】
〔2−11.話し手と聞き手との間の知識差に基づいて専門用語の要約を出力〕
上記の実施形態では、抽出部132によって抽出された用語のうち聞き手に応じた専門用語の要約を出力する例を挙げて説明した。ここで、情報処理装置100は、話し手と聞き手との間の知識差を判断基準として採用してもよい。
【0099】
具体的には、情報処理装置100の出力部134は、音声に関する情報の話し手と聞き手との間の知識差に基づいて専門用語の要約を出力する。例えば、情報処理装置100は、話し手が話す講話のテーマや分野などにおける聞き手と話し手の知識レベルをそれぞれ設定する。一態様としては、知識レベルは、話し手や聞き手から受け付けたレベルが設定されてもよいし、行動履歴やプロフィールに基づいて設定されてもよい。そして、情報処理装置100は、聞き手と話し手の知識レベルの差分に基づいて専門用語の要約を出力する。一例としては、情報処理装置100は、知識レベルの差分が高いほど専門用語度の所定の閾値を低く設定することで専門用語の要約を相対的に多く出力する。
【0100】
他の例では、情報処理装置100は、話し手のユーザ属性と聞き手のユーザ属性とに基づいて専門用語の要約を出力する。一例としては、情報処理装置100は、話し手のユーザ属性と聞き手のユーザ属性とが異なる場合に、専門用語度の所定の閾値を調整して専門用語の要約を出力する。一態様としては、情報処理装置100は、話し手のユーザ属性と聞き手のユーザ属性との間の類似度が低いほど専門用語度の所定の閾値を低く設定することで専門用語の要約を相対的に多く出力する。
【0101】
このように、変形例に係る情報処理装置100は、音声に関する情報の話し手と聞き手との間の知識差に基づいて専門用語の要約を出力する。これにより、情報処理装置100は、話し手と聞き手の知識差を考慮して専門用語の要約を出力することができるので、聞き手の聴講を支援することができる。例えば、情報処理装置100は、話し手の専門分野と聞き手の専門分野が異なるほど多くの要約を出力することができるので、聞き手が用語の理解不足で話についていけなくなることを防ぐことができる。
【0102】
〔3.その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
【0103】
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
【0104】
例えば、
図2に示した音声情報記憶部121や用語情報記憶部122、ユーザ情報記憶部123は、情報処理装置100が保持せずに、ストレージサーバ等に保持されてもよい。この場合、情報処理装置100は、ストレージサーバにアクセスすることで、音声に関する情報や、用語に関する情報、ユーザに関する情報を取得する。
【0105】
また、情報処理装置100は、出力処理は行わず、抽出処理や生成処理のみを行う情報処理装置であってもよい。この場合、情報処理装置は、出力部134を有しない。そして、出力部134を有する出力装置が、情報処理装置100によって生成された専門用語の要約を聴衆端末20に対して出力する。
【0106】
また、上記の実施形態では、サーバ装置である情報処理装置100が用語の要約を生成して聴衆端末20に出力する例を挙げたが、話者端末10が用語の要約を生成して出力してもよい。この場合、例えば、話者端末10は、受信部131、抽出部132、生成部133および出力部134に相当する機能を有する。そして、話者端末10は、まず、音声に関する情報を受信する。続いて、話者端末10は、受信された音声に関する情報に含まれる用語を抽出する。そして、話者端末10は、抽出された用語のうち聞き手に応じた専門用語の要約を聴衆端末20に出力する。
【0107】
また、上記の実施形態では、聴衆端末20が用語の要約を生成して出力してもよい。この場合、例えば、聴衆端末20は、受信部131、抽出部132、生成部133および出力部134に相当する機能を有する。そして、聴衆端末20は、まず、音声に関する情報を受信する。続いて、聴衆端末20は、受信された音声に関する情報に含まれる用語を抽出する。そして、聴衆端末20は、抽出された用語のうち聞き手に応じた専門用語の要約を画面に表示する。
【0108】
また、上記の実施形態では、話者端末10が講演者の講話の音声認識を行なう例を示したが、話者端末10に限らずサーバ(例えば、情報処理装置100)が音声認識を行なってもよい。この場合、例えば、情報処理装置100は、講演者の講話を録音した音声データ等を話者端末10から取得する。続いて、情報処理装置100は、取得した音声データの音声認識を実行する。その後、情報処理装置100は、音声認識結果に含まれる用語を抽出する。そして、情報処理装置100は、抽出した用語のうち聞き手に応じた専門用語の要約を出力する。
【0109】
また、上述してきた実施形態に係る情報処理装置100は、例えば
図11に示すような構成のコンピュータ1000によって実現される。以下、情報処理装置100を例に挙げて説明する。
図11は、情報処理装置100の機能を実現するコンピュータ1000の一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM1300、HDD1400、通信インターフェイス(I/F)1500、入出力インターフェイス(I/F)1600、およびメディアインターフェイス(I/F)1700を有する。
【0110】
CPU1100は、ROM1300またはHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
【0111】
HDD1400は、CPU1100によって実行されるプログラム、および、かかるプログラムによって使用されるデータ等を格納する。通信インターフェイス1500は、ネットワークNを介して他の機器からデータを受信してCPU1100へ送り、CPU1100が生成したデータを、ネットワークNを介して他の機器へ送信する。
【0112】
CPU1100は、入出力インターフェイス1600を介して、ディスプレイやプリンタ等の出力装置、および、キーボードやマウス等の入力装置を制御する。CPU1100は、入出力インターフェイス1600を介して、入力装置からデータを取得する。また、CPU1100は、生成したデータを、入出力インターフェイス1600を介して出力装置へ出力する。
【0113】
メディアインターフェイス1700は、記録媒体1800に格納されたプログラムまたはデータを読み取り、RAM1200を介してCPU1100に提供する。CPU1100は、かかるプログラムを、メディアインターフェイス1700を介して記録媒体1800からRAM1200上にロードし、ロードしたプログラムを実行する。記録媒体1800は、例えばDVD(Digital Versatile Disk)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
【0114】
例えば、コンピュータ1000が実施形態に係る情報処理装置100として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされたプログラムを実行することにより、制御部130の機能を実現する。また、HDD1400には、記憶部120内のデータが格納される。コンピュータ1000のCPU1100は、これらのプログラムを記録媒体1800から読み取って実行するが、他の例として、他の装置からネットワークNを介してこれらのプログラムを取得してもよい。
【0115】
以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の概要の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
【0116】
また、上述した情報処理装置100は、複数のサーバコンピュータで実現してもよく、また、機能によっては外部のプラットフォーム等をAPI(Application Programming Interface)やネットワークコンピューティングなどで呼び出して実現するなど、構成は柔軟に変更できる。
【0117】
また、特許請求の範囲に記載した「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、受信部は、受信手段や受信回路に読み替えることができる。