【文献】
井上 亮文,オンライン講義におけるノートテイク高速化のためのテキスト入力支援システム A Text Input Support System for Note-taking in the Online Lectures,マルチメディア,分散,協調とモバイル(DICOMO2007)シンポジウム論文集 情報処理学会シンポジウムシリーズ Vol.2007 No.1 [CD−ROM],日本,社団法人情報処理学会,2007年 6月29日,第2007巻,第1044頁-第1049頁
(58)【調査した分野】(Int.Cl.,DB名)
前記選択部は、前記複数の変換候補から、前記セッションが行われている際に前記共通画面に表示されていた変換候補を、前記第2のデータとして選択する、請求項1の装置。
前記選択部は、前記複数の変換候補から、前記第1のデータが前記受信部により受信された際に前記共通画面に表示されていた変換候補を、前記第2のデータとして選択する、請求項2の装置。
前記選択部は、前記複数の変換候補から、前記第1のデータが前記受信部により受信された際に前記共通画面のカーソルの周囲の予め定められた範囲内に表示されていた変換候補を、前記第2のデータとして選択する、請求項2の装置。
前記選択部は、前記複数の変換候補から、前記第1のデータが前記受信部により受信された際に前記共通画面に少なくとも一部が表示されていた文書に含まれる変換候補を、前記第2のデータとして選択する、請求項1の装置。
【背景技術】
【0002】
近年、インターネット等の普及により、複数のユーザがデータ交換を行うシステムが見られるようになっている。例えば、電子会議システム、チャットシステム等である。
【0003】
このようなシステムにおいては、あるユーザが入力したデータを変換することがある。例えば、電子会議システムにおいては、あるユーザが入力した音声をテキストデータに変換することがあり、チャットシステムにおいては、あるユーザが入力した第1の言語のテキストデータを第2の言語のテキストデータに変換することがある。このようなデータ交換を行うシステムにおけるデータを変換する技術は知られている(例えば、特許文献1〜3参照)。
【0004】
特許文献1は、発話者の入力を解釈する文解釈手段と、複数の知識を参照し対応関係より解釈レベルを確定する解釈知識参照手段と、一般的な知識を持つ一般知識保持手段と、発話者固有の表現と対話履歴と一般知識との対応知識を持つ発話者固有知識保持手段と、聴き手に固有な表現と対話履歴と一般知識との対応知識を持つ聴き手固有知識保持手段と、解釈結果から聴き手への文を生成する文生成手段と、複数の知識を参照し対応関係より適切な表現を示唆する生成知識参照手段と、聴き手毎に固有知識を参照して発話者固有知識と対応付ける話者/聴き手間伝達手段と、発話を聴き手に提示し指示された固有表現の解釈を表示する解釈文表示手段とから構成される対話表現変換方式を開示する。
【0005】
特許文献2は、第1〜第3ユニット内にそれぞれカメラ、マイクロフォン、操作盤、モニタ及びイヤホンを設けると共にコーデックを通じて入力される相手局の言語を所定の言語に自動的に翻訳して音声信号と成す自動翻訳装置を設けたテレビ会議システムを開示する。
【0006】
特許文献3は、音声情報を入力して音声の翻訳処理を行う第1の情報処理手段と、この第1の情報処理手段の処理とは異なる処理としての例文翻訳処理を行う第2の情報処理手段と、この第2の情報処理手段の例文翻訳に用いる場面ごとの例文をドメイン情報として格納したドメイン情報格納手段と、第1の情報処理手段の処理の履歴としての第1の履歴を格納する第1の履歴格納手段と、この第1の履歴格納手段の格納した第1の履歴を基にして例文の適用される場面を選択する場面選択手段と、この場面選択手段によって選択された場面のドメイン情報を例文翻訳の候補として供給する特定ドメイン情報供給手段とを具備する情報処理システムを開示する。
【0007】
また、複数のユーザがデータ交換を行うシステムにおけるものに限定されてはいないが、この他にも、機械翻訳等のデータを変換する技術は知られている(例えば、特許文献4参照)。
【0008】
特許文献4は、与えられる第一言語の文章を第二言語の文章に翻訳する機械翻訳装置において、複数辞書に登録されている同一見出し語の翻訳規則のうち、どの辞書のどの規則が最も優先度が高いかを判定し適用規則を決定する翻訳規則制御部を設け、標準辞書中の翻訳規則には、登録語が他の辞書と重なった場合にはその規則を優先するか否かの情報を付して構成する機械翻訳装置を開示する。
【0009】
更に、複数のユーザがデータ交換を行うシステムにおいて情報を共有する技術も知られている(例えば、特許文献5、6参照)。
【0010】
特許文献5は、各通信端末の音声入力部、映像入力部から入力されたユーザの音声情報、映像情報から、ユーザの発言単語、視線方向等を検出した解析結果が通信回線を介して対話管理部へ入力され、対話管理部は、各通信端末からの解析結果から、各ユーザの話題、ユーザの視線等の対話状態を解析し各通信端末へ入力し、注目情報解析伝達部は、対話管理部からの解析結果と、現時点でのユーザの音声及び映像に関する解析結果から、各ユーザの注目情報を検出し、出力制御信号を生成し注目情報伝達音声生成部及び注目情報伝達映像生成部へ出力するマルチモーダルコミュニケーション支援装置を開示する。
【0011】
特許文献6は、対話環境を実現するユーザ端末には、ユーザAログ表示領域,ユーザBログ表示領域,共通言語ログ表示領域,ユーザA使用言語入力欄及び共通言語入力欄が表示され、ユーザAはユーザA使用言語入力欄又は共通言語入力欄に検索したい語句を入力し、入力した語句及びこれの訳語はユーザAログ表示領域,ユーザBログ表示領域及び共通言語ログ表示領域に表示され、ユーザAログ表示領域,ユーザBログ表示領域及び共通言語ログ表示領域の表示内容が全てのユーザ端末において同一となるように、ユーザインタフェースへの操作情報を送受信する情報処理装置を開示する。
【発明を実施するための形態】
【0024】
以下、添付図面を参照して、本発明の実施の形態について詳細に説明する。尚、本実施の形態は、電子会議システム、チャットシステム等、複数のユーザがデータ交換を行う如何なるシステムでも実現可能であるが、以下では、本実施の形態を電子会議システムで実現した場合について説明する。
【0025】
企業のグローバル化の進行により、海外のメンバーを含む複数のメンバーが1つのプロジェクトに参画して遠隔地で作業を行うことが多くなっている。このように遠隔地で作業を行う際には、プロジェクトマネジメントにおけるコミュニケーションが問題となる。即ち、業務報告や技術トランスファー等を行うための縦のつながりや横のつながりが如何に潤滑であるかがプロジェクトの成功を左右する。コミュニケーションの計画において、プロジェクト全体の効率化やコスト削減のために、フェイストゥフェイスのコミュニケーションの機会は極めて限定せざるを得ない。そして、それを補う手段として、電話やインターネットを使用した電子会議システムが重要な役割を担う。
【0026】
しかしながら、電子会議システムには、電子会議の参加者(以下、「会議参加者」という)が発言内容を共有する際に会議参加者の音声に頼らざるを得ないという問題がある。例えば、声の質、マイクや通信回線の質が悪いために、音声を聞き取り難く、何度も問い直すという状況が発生することがある。また、海外のメンバーが会議に参加している場合に、他の会議参加者が自身の母国語以外の言語での会話のスピードについていけず聞き取りが難しくなることもある。従って、プロジェクトマネジメントの観点ではコミュニケーション手段として設定した電子会議が逆にメンバーのストレスを増大させ、プロジェクト遂行上のマイナスリスクになってしまう可能性がある。
【0027】
そこで、本実施の形態では、電子会議システムを使用した会議において、音声からテキストデータへの変換の精度を向上させるために、電子会議システムの共有画面で複数の会議参加者が共有している単語を抽出し、音声からテキストデータへの変換で活用する。これにより、会議参加者全員の音声による発言内容をリアルタイムに字幕のようにテキストで表示し記録することを可能とする。
【0028】
[本実施の形態における電子会議システムの全体構成]
図1は、本実施の形態における電子会議システム1の全体構成例を示した図である。図示するように、電子会議システム1は、クライアント10a,10b,10cと、サーバ20とが、ネットワーク80を介して接続されている。
【0029】
クライアント10a,10b,10cは、会議参加者が電子会議を行う際に情報を入力したり表示したりするために用いるコンピュータである。ここで、電子会議を行う際に入力する情報とは、各会議参加者の発言の音声等である。また、電子会議を行う際に表示する情報とは、各会議参加者に閲覧させる情報を表示する画面等である。この画面は、全ての会議参加者に閲覧させる同じ情報を表示するという意味で、全ての会議参加者が共有する画面と言えるので、以下では「共有画面」と称する。つまり、各会議参加者は異なる地点から同じ共有画面を見ながら電子会議に参加する。尚、クライアント10aは会議参加者Uaが地点Laで使用し、クライアント10bは会議参加者Ubが地点Lbで使用し、クライアント10cは会議参加者Ucが地点Lcで使用することを前提として、図では、3つのクライアント示しているが、4つ以上のクライアントを設けてもよい。また、以下で、クライアント10a,10b,10cを区別しない場合は、単に「クライアント10」ということもある。本実施の形態では、端末装置の一例として、クライアント10を設けている。また、会議参加者は、ユーザの一例であり、共有画面は、複数のユーザが電子会議のセッション内で共通に閲覧する共通画面の一例である。
【0030】
サーバ20は、電子会議を管理するコンピュータである。例えば、あるテーマで電子会議を行うとの呼び掛けに対し、会議参加者Ua,Ub,Ucがそれぞれクライアント10a,10b,10cから参加すると(ログインすると)、サーバ20は、電子会議のセッションを生成し、セッションの識別情報、会議参加者Ua,Ub,Ucの識別情報、クライアント10a,10b,10cの識別情報等を管理する。そして、会議参加者Ua,Ub,Ucがクライアント10a,10b,10cから情報を入力した場合にその情報を他のクライアント10へ送信し、また、共有画面もクライアント10a,10b,10cへ送信する。その後、会議参加者Ua,Ub,Ucが電子会議のセッションから脱退すると(ログアウトすると)、セッションを消滅させる。
【0031】
ネットワーク80は、電子会議を行うための情報の交換に用いる通信手段である。このネットワーク80としては、インターネットやLAN(Local Area Network)が例示される。
【0032】
本実施の形態では、クライアント10が発言の音声を取得し、サーバ20が、音声をテキストデータに変換して、このテキストデータを電子会議システム1が提供する発言表示領域(後述)に表示する。
【0033】
図2は、電子会議システム1が各クライアント10に表示する電子会議画面100の一例を示した図である。図示するように、電子会議画面100は、共有画面表示領域101と、参加者一覧表示領域102と、発言表示領域103とを含む。
【0034】
共有画面表示領域101は、複数の会議参加者が共有する共有画面を表示する領域である。会議参加者Ua,Ub,Ucが電子会議に参加していれば、会議参加者Ua,Ub,Ucが共有する共有画面を表示する。共有画面表示領域101が表示する共有画面には、例えば、会議参加者Ua,Ub,Ucが共有する資料(以下、「共有資料」という)が表示される。
【0035】
参加者一覧表示領域102は、会議参加者の一覧を表示する領域である。会議参加者Ua,Ub,Ucが電子会議に参加していれば、会議参加者Ua,Ub,Ucの識別情報(例えば名前)の一覧を表示する。
【0036】
発言表示領域103は、会議参加者の発言のテキストデータを表示する領域である。会議参加者Ua,Ub,Ucが電子会議に参加していれば、会議参加者Uaの発言がクライアント10aで、会議参加者Ubの発言がクライアント10bで、会議参加者Ucの発言がクライアント10cでそれぞれ取得され、サーバ20でその発言の音声がテキストデータに変換され、このテキストデータが発言表示領域103に表示される。尚、この発言表示領域103は、サーバ20が音声をテキストデータに変換して表示する本実施の形態において、電子会議画面100に新たに追加されたものである。
【0037】
[本実施の形態の概要]
ところで、本実施の形態では、発言表示領域103にテキストデータを表示する際に、サーバ20が以下の処理を行う。即ち、音声認識の結果をテキストデータに変換する際の解析をスピーディにかつ高精度で実行するために、音声をテキストデータに変換する際に、既存の変換辞書に記憶された単語に加え、共有画面に表示された単語を優先的にピックアップする。
【0038】
例えば、詳しくは後述するが、以下の優先順位で、音声認識した結果である単語の読みとのマッチングを実施させる単語を用いる。即ち、第1の優先順位で、会議参加者が共有画面上の共有資料においてポインタで指し示している位置の近傍の単語を用いる。第2の優先順位で、現在の共有画面上の単語を用いる。第3の優先順位で、現在表示されている共有資料の最初から現在の共有画面に表示されている部分の前までに出現した単語を用いる。第4の優先順位で、現在表示されている共有資料全体に含まれる単語を用いる。第5の優先順位で、音声をテキストデータに変換する際に参照される変換辞書に含まれる単語を用いる。尚、ここでは、音声をテキストデータに変換する際に共有画面からピックアップする単位を単語としたが、複数の単語からなる句等としてもよい。
【0039】
また、音声を変換して得られたテキストデータは発言履歴として保持可能とする。更に、このテキストデータをクリップボードへコピーすることも可能とする。これにより、本実施の形態は、議事録を作成する際の補助としても利用することができるようになる。
【0040】
[本実施の形態における電子会議システムの機能構成]
図3は、本実施の形態における電子会議システム1の機能構成例を示したブロック図である。
図1では、クライアント10a,10b,10cを示したが、ここでは、これらをクライアント10で代表させている。即ち、電子会議システム1は、クライアント10と、サーバ20とを含む。そして、クライアント10は、マイクロフォン11と、発言表示部12と、共有画面表示部13とを備える。また、サーバ20は、音声データ取得部21と、音声認識部22と、変換辞書23と、変換候補抽出部24と、共有画面管理部25と、共有資料記憶部26と、共有履歴記憶部27と、選択候補抽出部28と、発言文字列決定部29とを備える。
【0041】
まず、クライアント10の機能構成について説明する。
【0042】
マイクロフォン11は、音を電気信号に変換する機器であり、ここでは、会議参加者の発言の音声を、電気信号である音声データに変換する。
【0043】
発言表示部12は、サーバ20の発言文字列決定部29から送られた発言文字列を、電子会議画面100の発言表示領域103に表示する。また、発言表示部12は、発言文字列をテキストデータとして記録するようにしてもよい。
【0044】
共有画面表示部13は、サーバ20の共有画面管理部25から送られた共有画面を、電子会議画面100の共有画面表示領域101に表示する。ここで、サーバ20の共有画面管理部25から送られた共有画面が共有資料を含む場合、共有画面表示部13は、共有画面上に共有資料を表示する。
【0045】
次に、サーバ20の機能構成について説明する。
【0046】
音声データ取得部21は、全てのクライアント10のマイクロフォン11から音声データを受信し、音声データを受信した時刻を発言時刻として記録する。そして、音声データは音声認識部22に送り、発言時刻は選択候補抽出部28に送る。尚、音声データ取得部21は、サーバ20ではなく、クライアント10に設けてもよい。本実施の形態では、音声データを受信する受信部の一例として、音声データ取得部21を設けている。
【0047】
音声認識部22は、音声データ取得部21から送られた音声データから、音素(認識対象とする言語の子音及び母音)を認識する。そして、認識した一連の音素を変換候補抽出部24に送る。本実施の形態では、音声データに対応する音素データを取得する取得部の一例として、音声認識部22を設けている。
【0048】
変換辞書23は、種々の単語に対して、その文字列表記と、読み方(音素表記)とが対応付けて登録されたデータベースである。
【0049】
変換候補抽出部24は、音声認識部22から送られた音素に対応付けられた全ての単語、つまり、音素と読み方が一致する全ての単語の文字列表記を、変換辞書23から抽出する。例えば、音素が「/kousei/」であるとすると、「構成」、「公正」、「校正」、「後世」、「攻勢」、「厚生」、「更生」、「恒星」、「鋼製」等を抽出する。そして、抽出された全ての文字列を、選択候補の文字列として発言文字列決定部29に送る。本実施の形態では、少なくとも1つの変換候補を特定する特定部の一例として、変換候補抽出部24を設けている。
【0050】
共有画面管理部25は、複数の会議参加者が1つ以上の共有画面を閲覧できるようにする。共有画面には、例えば、電子会議で使用する共有資料を表示する。その場合、共有画面管理部25は、共有資料記憶部26から共有資料を取り出し、クライアント10の共有画面表示部13へ送信する。また、共有画面には、各会議参加者のクライアント10の画面や、各会議参加者がカメラで撮影した映像等を表示することも可能である。更に、共有画面管理部25は、ポインタ(マウスやタッチパネルで画面上の特定の位置を指す印)も共有できるようにする。そして、共有画面管理部25は、各時刻において共有画面に表示されていた共有資料のページ及びポインタの位置の情報を共有履歴記憶部27に記憶する。
【0051】
共有資料記憶部26は、会議参加者がサーバ20に事前にアップロードしておいた電子会議で使用する共有資料を記憶する。具体的には、共有資料の資料IDに紐付けて共有資料を記憶する。
【0052】
共有履歴記憶部27は、電子会議中に共有画面に表示されていた共有資料の資料ID及びページ番号と、電子会議中に共有画面に表示されていたポインタの位置とを、時刻と共に記録した共有履歴を記憶する。即ち、時刻をキーとしてこの共有履歴を検索することにより、その時刻に共有されていた資料の資料ID及びページ番号と、ポインタの位置とを取得できるようになっている。
【0053】
選択候補抽出部28は、共有履歴記憶部27に記憶された共有履歴(現在表示されている共有資料の資料ID及びページ番号、過去に表示した共有資料の資料ID及びページ番号、現在表示されているポインタの位置)と、共有資料記憶部26に記憶された共有資料とに基づいて、発言時刻に話題になっている可能性のある文字列を抽出する。そして、各文字列に点数を与える。この点数は、話題になっている可能性が高い文字列ほど高くなるようにする。また、点数を与えられた全ての文字列を、変換候補から選択する選択候補の文字列として発言文字列決定部29に送る。本実施の形態では、変換候補に得点を付与する付与部の一例として、選択候補抽出部28を設けている。
【0054】
発言文字列決定部29は、変換候補抽出部24から送られた変換候補の文字列と、選択候補抽出部28から送られた選択候補の文字列とを比較する。一致する文字列が見つかれば、その文字列を、発言された文字列(以下、「発言文字列」という)に決定する。一致する文字列が複数見つかれば、選択候補の文字列に与えられた点数が高いものを、発言文字列に決定する。一致する文字列がなければ、辞書や統計的手法等を用いた既存の音声認識技術によって、発言文字列を決定する。そして、発言文字列を全てのクライアント10の発言表示領域103に送る。本実施の形態では、テキストデータを選択する選択部の一例として、また、テキストデータを送信する送信部の一例として、発言文字列決定部29を設けている。
【0055】
[本実施の形態における電子会議システム1の動作]
まず、会議参加者が発言を行うと、クライアント10では、マイクロフォン11がその発言の音声を拾い、音声データをサーバ20に送信する。尚、このとき、クライアント10からサーバ20へは、その発言を行った会議参加者の識別情報も送信される。
【0056】
これにより、サーバ20では、音声データ取得部21が、音声データを受信すると共に、音声データを受信した時刻を発言時刻として記録する。そして、音声データを音声認識部22に送り、発言時刻を選択候補抽出部28に送る。
【0057】
ここで、音声データ取得部21から音声データを送られた音声認識部22は、音声データから音素を認識し、その音素を変換候補抽出部24に送る。
【0058】
すると、変換候補抽出部24は、音声認識部22から送られた音素に対応付けられた全ての単語の文字列表記を変換辞書23から抽出し、これを変換候補の文字列として発言文字列決定部29に送る。
【0059】
一方、音声データ取得部21から発言時刻を送られた選択候補抽出部28は、発言時刻に話題になっている可能性のある文字列を抽出し、これを選択候補の文字列として発言文字列決定部29に送る。以下、このときの選択候補抽出部28の動作について詳細に説明する。
【0060】
図4及び
図5は、選択候補抽出部28の動作例を示したフローチャートである。
【0061】
図4を参照すると、まず、選択候補抽出部28は、音声データ取得部21から発言時刻を受け取る(ステップ201)。
【0062】
次に、選択候補抽出部28は、共有履歴記憶部27に記憶された共有履歴から、発言時刻に共有画面表示領域101に表示されていた共有資料のページについて資料ID(IDc)及びページ番号(PGc)を取得し、発言時刻よりも前に共有画面表示領域101に表示されていた共有資料のページについて資料ID(IDp)及びページ番号(PGp)のリストを取得し、発言時刻におけるポインタの位置(PSc)を取得する(ステップ202)。
【0063】
すると、選択候補抽出部28は、ステップ202で取得した資料ID(IDc及びIDp)の共有資料を、共有資料記憶部26から取り出す(ステップ203)。そして、ステップ203で取り出した全ての共有資料から、全ての文字列を抽出する(ステップ204)。
【0064】
次いで、選択候補抽出部28は、ステップ204で抽出した文字列のうち、1つの文字列に着目し(ステップ205)、その文字列に対して点数を付与する処理を行う。即ち、まず、選択候補抽出部28は、その文字列を含む共有資料の資料ID(IDs)、その文字列を含む共有資料のページのページ番号(PGs)、その文字列のページ内の位置(PSs)の1つの組み合わせを取得する(ステップ206)。次に、選択候補抽出部28は、後述する点数決定処理により、その組み合わせを用いた場合の文字列の点数を決定する(ステップ207)。次いで、選択候補抽出部28は、IDs、PGs、PSsの他の組み合わせが存在するかどうかを判定する(ステップ208)。そして、IDs、PGs、PSsの他の組み合わせが存在すると判定すれば、その組み合わせについてステップ206,207の処理を実行し、IDs、PGs、PSsの他の組み合わせが存在しないと判定すれば、その文字列についてこれまでにステップ207で決定した点数のうち最も高い点数をその文字列に付与する(ステップ209)。
【0065】
その後、選択候補抽出部28は、ステップ204で抽出した文字列のうち、未処理の文字列が存在するかどうかを判定する(ステップ210)。そして、未処理の文字列が存在すると判定すれば、その未処理の文字列についてステップ205〜209の処理を実行し、未処理の文字列が存在しないと判定すれば、点数が付与された文字列を選択候補の文字列として、その点数と共に発言文字列決定部29に送る(ステップ211)。
【0066】
ここで、ステップ207の点数決定処理について述べる。
【0067】
図5を参照すると、選択候補抽出部28は、まず、着目する文字列が発言時刻におけるポインタの近傍にあるかどうかを判定する。即ち、条件「IDs=IDc、かつ、PGs=PGc、かつ、D(PSs,PSc)<R」が成立するかどうかを判定する(ステップ221)。ここで、D(X,Y)は位置Xと位置Yとの間の距離を示し、Rは予め定めたポインタの近傍を判定するための円(以下、「近傍判定円」という)の半径を示す。尚、近傍判定円の半径Rは、ユーザにより設定可能としてもよい。このステップ221での判定の結果、着目する文字列が発言時刻におけるポインタの近傍にあると判定すれば、つまり、上記条件が成立すると判定すれば、選択候補抽出部28は、点数をP1に決定する(ステップ222)。
【0068】
一方、着目する文字列が発言時刻におけるポインタの近傍にないと判定すれば、選択候補抽出部28は、着目する文字列が発言時刻に表示されていた共有資料のページに含まれるかどうかを判定する。即ち、条件「IDs=IDc、かつ、PGs=PGc」が成立するかどうかを判定する(ステップ223)。その結果、着目する文字列が発言時刻に表示されていた共有資料のページに含まれると判定すれば、つまり、上記条件が成立すると判定すれば、点数をP2に決定する(ステップ224)。
【0069】
一方、着目する文字列が発言時刻に表示されていた共有資料のページに含まれないと判定すれば、選択候補抽出部28は、着目する文字列が発言時刻よりも前に表示されていた共有資料のページに含まれるかどうかを判定する。即ち、条件「IDs=IDp、かつ、PGs=PGp」が成立するかどうかを判定する(ステップ225)。その結果、着目する文字列が発言時刻よりも前に表示されていた共有資料のページに含まれると判定すれば、つまり、上記条件が成立すると判定すれば、点数をP3に決定する(ステップ226)。
【0070】
一方、着目する文字列が発言時刻よりも前に表示されていた共有資料のページに含まれないと判定すれば、選択候補抽出部28は、点数をP4に決定する(ステップ227)。
【0071】
ところで、この動作例では、ステップ222,224,226,227で決定する点数を、それぞれ、P1,P2,P3,P4としたが、発言時刻におけるポインタの近傍にある文字列、発言時刻に表示されていた共有資料のページに含まれる文字列、発言時刻よりも前に表示されていた共有資料のページに含まれる文字列の順に、発言された文字列である可能性が高いことを考慮すると、P1,P2,P3,P4の順に高い点数とするのが望ましい。例えば、P1,P2,P3,P4をそれぞれ4点、3点、2点、1点とすればよい。
【0072】
さて、このように、変換候補抽出部24が変換候補の文字列を発言文字列決定部29に送り、選択候補抽出部28が選択候補の文字列を発言文字列決定部29に送ると、発言文字列決定部29は、変換候補の文字列の中から、最も高い点数が付与された選択候補の文字列を選択する。そして、この選択された文字列を発言文字列として全ての会議参加者のクライアント10に送信する。すると、クライアント10では、発言表示部12が、この発言文字列を発言表示領域103に表示する。尚、このとき、サーバ20からクライアント10へはその発言を行った会議参加者の識別情報も送信されるので、発言表示部12は、発言文字列を、その発言を行った会議参加者の識別情報と共に表示する。
【0073】
尚、この動作例では、ステップ221の条件が成立した場合に点数をP1とし、ステップ221の条件が成立せずにステップ223の条件が成立した場合に点数をP2とし、ステップ221の条件もステップ223の条件も成立せずにステップ225の条件が成立した場合に点数をP3としたが、この限りではない。例えば、ステップ221の条件が成立するかどうかを判定することなく、ステップ223の条件又はステップ225の条件が成立した場合に点数をP1としてもよい。即ち、着目する文字列が電子会議のセッションで表示された共有資料のページに含まれていることを最優先の条件として、選択候補の文字列を抽出するようにしてもよい。
【0074】
また、この動作例では、ステップ221の条件が成立した場合に点数をP1とし、ステップ221の条件が成立せずにステップ223の条件が成立した場合に点数をP2としたが、この限りではない。例えば、ステップ221の条件が成立するかどうかを判定することなく、ステップ223の条件が成立した場合に点数をP1としてもよい。即ち、着目する文字列が発言時刻に表示されていた共有資料のページに含まれていることを最優先の条件として、選択候補の文字列を抽出するようにしてもよい。
【0075】
更に、この動作例では、共有資料に含まれる文字列であっても、ステップ221の条件、ステップ223の条件、及び、ステップ225の条件の何れも成立しなければ点数をP4としたが、この限りではない。例えば、共有資料に含まれる文字列は、その共有資料の少なくとも一部についてステップ223の条件が成立すれば点数をP1としてもよい。即ち、着目する文字列が発言時刻に少なくとも一部が表示されていた共有資料に含まれていることを最優先の条件として、選択候補の文字列を抽出するようにしてもよい。
【0076】
[本実施の形態における選択候補抽出部の動作の具体例]
図6は、共有画面表示領域101の共有画面に表示された共有資料の一例を示した図である。ここでは、発言時刻に、図示する共有資料のページが共有画面に表示されていたものとする。また、実際のページに描かれた図形ではないが、図には、ポインタ121も示されている。この場合、発言時刻と共に、この共有資料のページの内容と、ポインタ121の位置とを示す情報が、共有履歴記憶部27に記憶される。
【0077】
尚、図には、発言時刻に共有画面に表示されていた共有資料のページのみを示している。実際には、発言時刻よりも前に共有画面に表示されていた同じ共有資料の別のページ又は別の共有資料もあるが、図示を省略している。
【0078】
また、図には、これも実際のページに描かれた図形ではないが、ポインタ121を中心とする近傍判定円122が示されている。そして、図のページは、音素「/kousei/」に対応する文字列として「構成」、「公正」、「厚生」を含むが、このうち「構成」のみが近傍判定円122の内側に存在している。
【0079】
この状態で、まず、会議参加者が「こうせい」と発言する。すると、会議参加者のクライアント10のマイクロフォン11が音声を拾い、音声データを送信する。
【0080】
これにより、サーバ20では、音声データ取得部21が、音声データを受信し、受信した時刻を発言時刻として記録する。
【0081】
まず、変換候補を抽出する処理が行われる。即ち、音声データ取得部21は、音声データを音声認識部22に送る。すると、音声認識部22は、音声データを音素として認識し、音素「/kousei/」を変換候補抽出部24に送る。これにより、変換候補抽出部24は変換辞書23から音素「/kousei/」に対応する文字列を抽出する。例えば、「構成」、「公正」、「校正」、「後世」、「攻勢」、「厚生」、「更生」、「恒星」、「鋼製」等が抽出されるので変換候補抽出部24は、これらを発言文字列の候補として発言文字列決定部29に送る。
【0082】
一方で、選択候補を抽出する処理が行われる。即ち、音声データ取得部21は、発言時刻を選択候補抽出部28に送る。すると、選択候補抽出部28は、共有履歴記憶部27に記憶された共有履歴から、発言時刻及びそれ以前に共有画面に表示された共有資料のページの内容と、発言時刻における共有画面上のポインタの位置とを取得する。そして、発言時刻及びそれ以前に共有画面に表示された共有資料のページの内容から、文字列を抽出し、各文字列に点数を付与する。その後、選択候補抽出部28は、文字列を点数と共に発言文字列決定部29に送る。
【0083】
図7は、この場合に選択候補抽出部28が発言文字列決定部29に送る点数と文字列のリストの一例を示した図である。図では、
図5に関して述べたのと同様に、発言時刻におけるポインタの近傍にある文字列に4点、発言時刻に表示されていた共有資料のページに含まれる文字列に3点、発言時刻よりも前に表示されていた共有資料のページに含まれる文字列に2点、発言時刻よりも前に表示されていた共有資料のページに含まれないが共有資料に含まれる文字列に1点を付与している。従って、音素「/kousei/」に対応する文字列である「構成」、「公正」、「厚生」のうち、近傍判定円122内にある「構成」にのみ4点が付与され、発言時刻に表示されていた共有資料のページ内にあるが近傍判定円122外にある「公正」、「厚生」には3点が付与されている。
【0084】
これにより、発言文字列決定部29は、選択候補の文字列と変換候補の文字列とを突き合わせる。突き合わせた結果、「公正」と「構成」と「厚生」とが見つかる。発言文字列決定部29は、点数の高い「構成」を選択し、全てのクライアント10の発言表示部12に送る。
【0085】
クライアント10では、発言表示部12が、送られてきた「構成」を発言表示領域103に表示する。
【0086】
尚、上記の動作のうち、変換候補を抽出する処理と、選択候補を抽出する処理とは、並列に実行することが可能である。
【0087】
以上述べたように、本実施の形態では、音声認識で得られる音素に対応する複数の変換候補から、複数のユーザが共有画面で共有する共有資料に出現する変換候補を優先的にピックアップすることにより、変換後のテキストデータを決定するようにした。これにより、複数のユーザが電子会議を行うシステムにおける音声のテキスト化の精度を向上させることができるようになった。
【0088】
尚、本実施の形態では、電子会議システムに発明を適用したが、この限りではない。例えば、チャットシステムにも発明は適用可能である。電子会議システムでは、あるユーザが入力した音声データをテキストデータに変換する際に共有資料を参照することが考えられるが、チャットシステムでは、あるユーザが入力した第1の言語のテキストデータを第2の言語のテキストデータに変換する際に共有資料を参照することが考えられる。そして、これを更に一般化すると、複数のユーザがデータ交換を行うシステムにおいてデータを変換する際に共有資料を参照するものとして発明を捉えることができる。その場合は、音声データを第1のデータとし、テキストデータを第2のデータとするとよい。また、そのような一般化したシステムでは、音声認識部22に相当する構成は設けずに、第1のデータを直接第2のデータに変換するようにしてもよい。
【0089】
また、本実施の形態では、データを変換する際に共有資料を参照するものとしたが、これには限らない。例えば、ある時刻に共有資料以外の情報が共有画面に表示されていたとしても、その時刻と、その情報に含まれる文字列と、その時刻にポインタが表示されていた位置とを共有履歴として記録しておけば、データを変換する際にその情報を参照して変換候補から文字列を選択することは可能である。この場合、本実施の形態は、更に一般化して、共通画面における文字列の表示状況に基づいて変換候補から文字列を選択するものと捉えることもできる。
【0090】
最後に、本実施の形態を適用するのに好適なコンピュータのハードウェア構成について説明する。
【0091】
図8は、このようなコンピュータのハードウェア構成例を示した図である。図示するように、コンピュータは、演算手段であるCPU(Central Processing Unit)90aと、M/B(マザーボード)チップセット90bを介してCPU90aに接続されたメインメモリ90cと、同じくM/Bチップセット90bを介してCPU90aに接続された表示機構90dとを備える。また、M/Bチップセット90bには、ブリッジ回路90eを介して、ネットワークインターフェイス90fと、磁気ディスク装置(HDD)90gと、音声機構90hと、キーボード/マウス90iと、フレキシブルディスクドライブ90jとが接続されている。
【0092】
尚、
図8において、各構成要素は、バスを介して接続される。例えば、CPU90aとM/Bチップセット90bの間や、M/Bチップセット90bとメインメモリ90cの間は、CPUバスを介して接続される。また、M/Bチップセット90bと表示機構90dとの間は、AGP(Accelerated Graphics Port)を介して接続されてもよいが、表示機構90dがPCI Express対応のビデオカードを含む場合、M/Bチップセット90bとこのビデオカードの間は、PCI Express(PCIe)バスを介して接続される。また、ブリッジ回路90eと接続する場合、ネットワークインターフェイス90fについては、例えば、PCI Expressを用いることができる。また、磁気ディスク装置90gについては、例えば、シリアルATA(AT Attachment)、パラレル転送のATA、PCI(Peripheral Components Interconnect)を用いることができる。更に、キーボード/マウス90i、及び、フレキシブルディスクドライブ90jについては、USB(Universal Serial Bus)を用いることができる。
【0093】
即ち、本発明は、全てハードウェアで実現してもよいし、全てソフトウェアで実現してもよい。また、ハードウェア及びソフトウェアの両方により実現することも可能である。また、本発明は、コンピュータ、データ処理システム、コンピュータプログラムとして実現することができる。このコンピュータプログラムは、コンピュータにより読取り可能な媒体に記憶され、提供され得る。ここで、媒体としては、電子的、磁気的、光学的、電磁的、赤外線又は半導体システム(装置又は機器)、或いは、伝搬媒体が考えられる。また、コンピュータにより読取り可能な媒体としては、半導体、ソリッドステート記憶装置、磁気テープ、取り外し可能なコンピュータディスケット、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、リジッド磁気ディスク、及び光ディスクが例示される。現時点における光ディスクの例には、コンパクトディスク−リードオンリーメモリ(CD−ROM)、コンパクトディスク−リード/ライト(CD−R/W)及びDVDが含まれる。
【0094】
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態には限定されない。本発明の精神及び範囲から逸脱することなく様々に変更したり代替態様を採用したりすることが可能なことは、当業者に明らかである。