IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特許7243106修正候補提示方法、修正候補提示プログラムおよび情報処理装置
<>
  • 特許-修正候補提示方法、修正候補提示プログラムおよび情報処理装置 図1
  • 特許-修正候補提示方法、修正候補提示プログラムおよび情報処理装置 図2
  • 特許-修正候補提示方法、修正候補提示プログラムおよび情報処理装置 図3
  • 特許-修正候補提示方法、修正候補提示プログラムおよび情報処理装置 図4
  • 特許-修正候補提示方法、修正候補提示プログラムおよび情報処理装置 図5
  • 特許-修正候補提示方法、修正候補提示プログラムおよび情報処理装置 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-03-13
(45)【発行日】2023-03-22
(54)【発明の名称】修正候補提示方法、修正候補提示プログラムおよび情報処理装置
(51)【国際特許分類】
   G10L 15/22 20060101AFI20230314BHJP
   G10L 15/00 20130101ALI20230314BHJP
【FI】
G10L15/22 470Z
G10L15/00 200B
G10L15/22 460Z
【請求項の数】 14
(21)【出願番号】P 2018182050
(22)【出願日】2018-09-27
(65)【公開番号】P2020052262
(43)【公開日】2020-04-02
【審査請求日】2021-06-10
(73)【特許権者】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】三小田 聡
【審査官】中村 天真
(56)【参考文献】
【文献】特開2012-014042(JP,A)
【文献】特開2005-049655(JP,A)
【文献】特開2000-259178(JP,A)
【文献】米国特許出願公開第2009/0187846(US,A1)
【文献】特開2002-156996(JP,A)
【文献】米国特許第06064961(US,A)
【文献】特開2016-109725(JP,A)
【文献】特開2010-139826(JP,A)
【文献】特開2009-217665(JP,A)
【文献】特開2006-267319(JP,A)
【文献】米国特許出願公開第2009/0306980(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00-15/34
G06F 40/00-40/197
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
音声認識された文字列から形態素解析を用いて生成された複数の単語ブロックそれぞれにキーを割り当て、前記キーが割り当てられた複数の前記単語ブロックを第1領域に表示し、前記第1領域に表示される複数の前記単語ブロックよりも広い範囲の音声認識された文字列を、前記第1領域と異なる第2領域に表示し、
前記キーの入力を受け付け、
受け付けた前記キーに対応する第1単語ブロックを特定し、
特定した前記第1単語ブロック、および、前記第1単語ブロックと該第1単語ブロックに連続する単語ブロックとを含む第2単語ブロックのうち、少なくとも一方の単語ブロックの修正候補であって、前記修正候補の提案元であり且つ過去の文章データの修正内容を含む、複数のソースから生成した複数の前記修正候補を提示する、
処理をコンピュータが実行する修正候補提示方法。
【請求項2】
前記提示する処理は、前記第1単語ブロックまたは前記第2単語ブロックの読みに基づいて前記修正候補を提示する、
請求項1に記載の修正候補提示方法。
【請求項3】
前記提示する処理は、前記過去の文章データの修正内容に基づいて、文字が一致している単語、および、音素が一致している単語のうち、少なくとも一方の単語を前記修正候補とする、
請求項1または2に記載の修正候補提示方法。
【請求項4】
前記提示する処理は、前記修正候補の正解可能性に応じて、前記修正候補の表示態様を変化させる、
請求項1~3のいずれか1つに記載の修正候補提示方法。
【請求項5】
前記提示する処理は、読みに対応する文字列が近似する修正候補から順に提示する、
請求項4に記載の修正候補提示方法。
【請求項6】
前記提示する処理は、前記修正候補の表示色および色の濃度のうち、少なくとも一方を変化させる、
請求項4または5に記載の修正候補提示方法。
【請求項7】
前記提示する処理は、同じ種類のソースから生成された前記修正候補について、共通の表示態様とする、
請求項4~6のいずれか1つに記載の修正候補提示方法。
【請求項8】
前記提示する処理は、前記第1単語ブロックおよび前記第2単語ブロックのうち、いずれに対応する修正候補であるかを判別可能に提示する、
請求項1~7のいずれか1つに記載の修正候補提示方法。
【請求項9】
前記提示する処理は、前記第1単語ブロックまたは前記第2単語ブロックの境界に線を表示する、
請求項1~8のいずれか1つに記載の修正候補提示方法。
【請求項10】
前記第2単語ブロックは、前記第1単語ブロックの前または後ろに連続する単語ブロックを含む、
請求項1~9のいずれか1つに記載の修正候補提示方法。
【請求項11】
前記表示する処理は、記第1領域において、修正確認対象の前記第1単語ブロックを前記第1領域の中央部に表示するように、複数の前記単語ブロックを移動して表示する、
求項1~10のいずれか1つに記載の修正候補提示方法。
【請求項12】
前記表示する処理は、前記第1単語ブロックの特定に応じて、前記第1領域に表示する前記単語ブロックを更新する、
請求項11に記載の修正候補提示方法。
【請求項13】
音声認識された文字列から形態素解析を用いて生成された複数の単語ブロックそれぞれにキーを割り当て、前記キーが割り当てられた複数の前記単語ブロックを第1領域に表示し、前記第1領域に表示される複数の前記単語ブロックよりも広い範囲の音声認識された文字列を、前記第1領域と異なる第2領域に表示し、
前記キーの入力を受け付け、
受け付けた前記キーに対応する第1単語ブロックを特定し、
特定した前記第1単語ブロック、および、前記第1単語ブロックと該第1単語ブロックに連続する単語ブロックとを含む第2単語ブロックのうち、少なくとも一方の単語ブロックの修正候補であって、前記修正候補の提案元であり且つ過去の文章データの修正内容を含む、複数のソースから生成した複数の前記修正候補を提示する、
処理をコンピュータに実行させる修正候補提示プログラム。
【請求項14】
音声認識された文字列から形態素解析を用いて生成された複数の単語ブロックそれぞれにキーを割り当て、前記キーが割り当てられた複数の前記単語ブロックを第1領域に表示し、前記第1領域に表示される複数の前記単語ブロックよりも広い範囲の音声認識された文字列を、前記第1領域と異なる第2領域に表示する表示制御部と、
前記キーの入力を受け付ける受付部と、
受け付けた前記キーに対応する第1単語ブロックを特定する特定部と、
特定した前記第1単語ブロック、および、前記第1単語ブロックと該第1単語ブロックに連続する単語ブロックとを含む第2単語ブロックのうち、少なくとも一方の単語ブロックの修正候補であって、前記修正候補の提案元であり且つ過去の文章データの修正内容を含む、複数のソースから生成した複数の前記修正候補を提示する提示部と、
を有する情報処理装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、修正候補提示方法、修正候補提示プログラムおよび情報処理装置に関する。
【背景技術】
【0002】
コンピュータを用いた音声認識により文字列を入力する技術が知られている。音声認識により入力された文字列は、誤認識された文字が含まれている場合、人手によって修正される必要がある。また、音声認識のソフトウェアは、音声認識された文字列に対して形態素解析を行って単語ブロックを生成し、仮名漢字変換等の技術を用いることで単語ブロックの修正を行うことが知られている。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2018-004947号公報
【文献】特開平9-190436号公報
【文献】特開2009-217665号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、音声認識のソフトウェアによって生成された単語ブロックが、必ずしも正しい区切りであるとは限らず、連続した単語ブロックに渡って修正が必要である場合がある。このため、特定の単語ブロックの修正候補を提示する場合に、単語ブロック単位での表示では、連続した単語ブロックのそれぞれについて確認や操作を行うので、文字列修正時の確認項目数および打鍵数が増大する。
【0005】
一つの側面では、文字列修正時の確認項目数および打鍵数を抑制できる修正候補提示方法、修正候補提示プログラムおよび情報処理装置を提供することにある。
【課題を解決するための手段】
【0006】
一つの態様では、修正候補提示方法は、音声認識された文字列から形態素解析を用いて生成された複数の単語ブロックそれぞれに割り当てられたキーの入力を受け付ける処理をコンピュータが実行する。修正候補提示方法は、受け付けた前記キーに対応する第1単語ブロックを特定する処理をコンピュータが実行する。修正候補提示方法は、特定した前記第1単語ブロック、および、前記第1単語ブロックと該第1単語ブロックに連続する単語ブロックを含む第2単語ブロックのうち、少なくとも一方の単語ブロックの修正候補を提示する処理をコンピュータが実行する。
【発明の効果】
【0007】
文字列修正時の確認項目数および打鍵数を抑制できる。
【図面の簡単な説明】
【0008】
図1図1は、実施例の情報処理システムの構成の一例を示すブロック図である。
図2図2は、実施例の情報処理装置の構成の一例を示すブロック図である。
図3図3は、編集画面の一例を示す図である。
図4図4は、文字列の近似を用いた修正候補の一例を示す図である。
図5図5は、実施例の修正候補提示処理の一例を示すフローチャートである。
図6図6は、修正候補提示プログラムを実行するコンピュータの一例を示す図である。
【発明を実施するための形態】
【0009】
以下、図面に基づいて、本願の開示する修正候補提示方法、修正候補提示プログラムおよび情報処理装置の実施例を詳細に説明する。なお、本実施例により、開示技術が限定されるものではない。また、以下の実施例は、矛盾しない範囲で適宜組みあわせてもよい。
【実施例
【0010】
図1は、実施例の情報処理システムの構成の一例を示すブロック図である。図1に示す情報処理システム1は、端末装置10と、情報処理装置100とを有する。なお、情報処理システム1では、端末装置10の数は限定されず、任意の数の端末装置10を有するようにしてもよい。
【0011】
端末装置10と、情報処理装置100との間は、ネットワークNを介して、相互に通信可能に接続される。かかるネットワークNには、有線または無線を問わず、インターネットを始め、LAN(Local Area Network)やVPN(Virtual Private Network)などの任意の種類の通信網を採用できる。また、ネットワークNを介する通信は、例えば、TLS(Transport Layer Security)/SSL(Secure Sockets Layer)等によって暗号化されるようにしてもよい。
【0012】
情報処理システム1は、端末装置10から資料や音声データを情報処理装置100に送信し、情報処理装置100が提供する編集画面を用いて音声認識により生成された文章データを編集するシステムの一例である。
【0013】
端末装置10は、音声データを音声認識して生成された文章データを編集するユーザが用いる情報処理装置である。端末装置10は、例えば、可搬型や据置型のパーソナルコンピュータ等の各種端末を用いることができる。端末装置10は、例えば、議事録を生成する対象である会議の資料および音声データを、ネットワークNを介して、情報処理装置100に送信する。端末装置10は、情報処理装置100が提供する編集画面を用いて、音声認識により生成された文章データの編集を受け付けるとともに、編集箇所を含む区間の音声を再生する。このとき、端末装置10は、逐次、編集情報と編集箇所を含む区間の音声データを情報処理装置100との間で送受信する。また、端末装置10は、文章データの編集を開始する場合に、開始指示を情報処理装置100に送信する。
【0014】
情報処理装置100は、端末装置10から受信した音声データを音声認識して生成した文章データの編集を受け付ける編集画面を提供する情報処理装置である。情報処理装置100は、音声認識された文字列から形態素解析を用いて生成された複数の単語ブロックそれぞれに割り当てられたキーの入力を受け付ける。
【0015】
ここで、単語ブロックとは形態素解析を用いて生成された文字列であり、形態素と一致する場合、複数の形態素の組み合わせである場合を含む。情報処理装置100は、受け付けたキーに対応する第1単語ブロックを特定する。情報処理装置100は、特定した第1単語ブロック、および、第1単語ブロックと該第1単語ブロックに連続する単語ブロックを含む第2単語ブロックのうち、少なくとも一方の単語ブロックの修正候補を提示する。これにより、情報処理装置100は、文字列修正時の確認項目数および打鍵数を抑制できる。
【0016】
また、情報処理装置100は、音声認識された文字列から形態素解析を用いて生成された複数の単語ブロックを表示する第1領域の中央部に、修正確認対象の単語ブロックを配置して表示する。情報処理装置100は、第1領域に対応する区間の音声について再生制御を行う。これにより、情報処理装置100は、修正確認対象の単語ブロックの前後の音声を過不足なく再生できる。
【0017】
次に、情報処理装置100の構成について説明する。図2は、実施例の情報処理装置の構成の一例を示すブロック図である。図2に示すように、情報処理装置100は、通信部110と、記憶部120と、制御部130とを有する。なお、情報処理装置100は、図2に示す機能部以外にも既知のコンピュータが有する各種の機能部、例えば各種の入力デバイスや音声出力デバイス等の機能部を有することとしてもかまわない。
【0018】
通信部110は、例えば、NIC(Network Interface Card)等によって実現される。通信部110は、ネットワークNを介して、端末装置10と有線または無線で接続され、端末装置10との間で情報の通信を司る通信インタフェースである。通信部110は、端末装置10から会議の資料および音声データと、編集情報とを受信する。通信部110は、受信した会議の資料および音声データと、編集情報とを制御部130に出力する。また、通信部110は、制御部130から入力された編集画面データおよび編集箇所を含む区間の音声データを端末装置10に送信する。
【0019】
記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ等の半導体メモリ素子、ハードディスクや光ディスク等の記憶装置によって実現される。記憶部120は、音声データ記憶部121と、形態素辞書記憶部122と、文章データ記憶部123と、資料情報記憶部124と、修正履歴データベース(以下、DBという。)125と、同音異義語リスト記憶部126とを有する。また、記憶部120は、制御部130での処理に用いる情報を記憶する。
【0020】
音声データ記憶部121は、端末装置10から受信した音声データを記憶する。音声データは、例えば、IC(Integrated Circuit)レコーダ等で録音されたMP3(MPEG-1 Audio Layer-3)やAAC(Advanced Audio Coding)等の各種コーデックを用いて圧縮された音声データである。なお、音声データ記憶部121は、例えば、H.264/MPEG-4 AVC(Advanced Video Coding)等の動画像と音声とをMP4等のコンテナ内に含む動画像データを記憶するようにしてもよい。
【0021】
形態素辞書記憶部122は、音声認識された文字列に対して形態素解析を行う際に用いる形態素辞書を記憶する。形態素辞書には、予め一般的な語句が格納されている。一般的な語句としては、例えば、「コンピュータ」や「技術」といった単語が挙げられる。
【0022】
文章データ記憶部123は、音声認識された文字列に対して形態素解析が行われて生成された複数の単語ブロックを有する文章データを記憶する。なお、文章データ記憶部123は、複数の音声認識エンジンを用いて音声認識を行った場合、それぞれの音声認識エンジンに対応する文章データを記憶する。また、文章データ記憶部123は、ユーザによる単語ブロックの修正候補の選択や、単語ブロックに対して入力された修正内容に基づいて更新される。
【0023】
資料情報記憶部124は、端末装置10から受信した会議の資料等を記憶する。会議の資料は、例えば、会議における配布文書や、プロジェクタ等を用いて表示した資料である。これらの資料は、例えば、会議における発話内容を類推することができる文章を含むものである。また、資料情報記憶部124は、これらの資料から抽出した、単語の読み(音素)を含む単語リストを記憶する。
【0024】
修正履歴DB125は、過去の文章データの修正内容を記憶する。修正履歴DB125は、例えば、修正前と修正後の単語ブロックについて、文字および音素を対応付けて記憶する。なお、資料情報記憶部124および修正履歴DB125は、修正に応じて内容が変化する動的辞書の一例である。
【0025】
同音異義語リスト記憶部126は、同音異義語のリストを記憶する。同音異義語リスト記憶部126は、例えば、「いどう」という読みに対して、「移動」、「異動」、「異同」といった複数の単語が同音異義語として対応付けて記憶されている。
【0026】
制御部130は、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、内部の記憶装置に記憶されているプログラムがRAMを作業領域として実行されることにより実現される。また、制御部130は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現されるようにしてもよい。
【0027】
制御部130は、音声認識部131と、生成部132と、受付部133と、特定部134と、提示部135と、表示制御部136と、再生制御部137とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部130の内部構成は、図2に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。
【0028】
音声認識部131は、音声データ記憶部121に記憶された音声データに対して音声認識を行って、文字列データを生成する。なお、音声認識部131は、複数の音声認識エンジンを持ち、それぞれ対応する文字列データを生成する。音声認識エンジンとしては、例えば、AmiVoice(登録商標)エンジン等の各種の音声認識エンジンを用いることができる。また、音声認識部131は、音声認識エンジンとして、通信部110およびネットワークNを介して、音声認識API(Application Programming Interface)を提供するサーバ等を利用してもよい。なお、文字列データには、例えば、音声認識した単語(文字列)ごとにスタートタイム、エンドタイム、読み、および、認識結果(漢字やカタカナ等を含む。)が含まれる。音声認識部131は、生成した文字列データを生成部132に出力する。
【0029】
生成部132は、音声認識部131から文字列データが入力されると、形態素辞書記憶部122を参照し、文字列データに対して形態素解析を行い、複数の単語ブロックに分割した文章データを生成する。なお、文章データには、単語ブロックごとに、文字列データに基づくスタートタイム、エンドタイム、読み、および、認識結果(漢字やカタカナ等を含む。)が含まれる。生成部132は、生成した文章データを文章データ記憶部123に記憶する。
【0030】
受付部133は、ネットワークNおよび通信部110を介して、端末装置10から開始指示を受信する。受付部133は、開始指示を受信すると、文章データの編集画面を生成する生成指示を表示制御部136に出力する。
【0031】
受付部133は、編集画面において、修正可能領域である第1領域に表示された複数の単語ブロックそれぞれに割り当てられたキーの入力を受け付ける。受付部133は、入力されたキーの情報を特定部134に出力する。
【0032】
受付部133は、編集画面において、第1単語ブロックまたは第2単語ブロックに対応する修正候補が表示されている場合、修正候補の選択を受け付ける。また、受付部133は、これらの修正候補が表示されている場合、ユーザから文字の修正を受け付けてもよい。受付部133は、受け付けた修正候補または修正の内容に基づいて、文章データ記憶部123の文章データを更新する。
【0033】
受付部133は、文章データを更新すると、修正確認対象の第1単語ブロックまたは第2単語ブロックが文章データの最後の単語ブロックであるか否かを判定する。受付部133は、最後の単語ブロックでないと判定した場合には、引き続きキーの入力を受け付ける。受付部133は、最後の単語ブロックであると判定した場合には、編集中の文章データの編集が終了した旨を編集画面に表示して処理を終了する。
【0034】
言い換えると、受付部133は、音声認識された文字列から形態素解析を用いて生成された複数の単語ブロックそれぞれに割り当てられたキーの入力を受け付ける。
【0035】
特定部134は、受付部133からキーの情報が入力されると、キーの情報に基づいて、キーに対応する第1単語ブロックを特定する。すなわち、特定部134は、修正確認対象の単語ブロックを特定する。特定部134は、特定した第1単語ブロックを提示部135および表示制御部136に出力する。
【0036】
提示部135は、特定部134から第1単語ブロックが入力されると、第1単語ブロックおよび第2単語ブロックのうち、少なくとも一方の単語ブロックの修正候補をソースから生成する。このとき、提示部135は、ソースとして、文章データ記憶部123、資料情報記憶部124、修正履歴DB125および同音異義語リスト記憶部126を参照する。また、第2単語ブロックは、第1単語ブロックと第1単語ブロックに連続する単語ブロックとを含む。つまり、第2単語ブロックは、第1単語ブロックの前後の単語ブロックと一連となる単語ブロックである。
【0037】
提示部135は、修正候補の生成では、例えば、資料情報記憶部124に記憶された会議の資料および単語リストに基づいて、音素(読み)が近い単語を修正候補とする。また、提示部135は、修正候補の生成では、例えば、修正履歴DB125に記憶された過去の文章データの修正内容に基づいて、文字が一致している単語、および、音素が一致している単語のうち、少なくとも一方の単語を修正候補とする。また、提示部135は、修正候補の生成では、例えば、文章データ記憶部123に記憶された2番手、3番手の音声認識エンジンで認識された文章データに基づいて、第1単語ブロックまたは第2単語ブロックに対応する単語を修正候補とする。また、提示部135は、修正候補の生成では、例えば、同音異義語リスト記憶部126に記憶された同音異義語のリストに基づいて、同音異義語の単語を修正候補とする。
【0038】
提示部135は、生成した複数の修正候補について、例えば、読み(音素)に対応する文字列が近似する修正候補から順に提示するように表示順を決定する。また、提示部135は、生成した複数の修正候補について、例えば、統計的に上位に来る、つまり正解可能性が高い修正候補から順に提示するように表示順を決定するようにしてもよい。さらに、提示部135は、生成した複数の修正候補について、例えば、複数のソースから生成された修正候補が重複する場合には、当該修正候補の正解可能性が高いとして上位に表示したり、重要度に応じた色分けを行うようにしてもよい。提示部135は、生成した複数の修正候補、および、決定した表示順を表示制御部136に出力する。
【0039】
表示制御部136は、受付部133から生成指示が入力されると、文章データの編集画面を生成する。表示制御部136は、通信部110およびネットワークNを介して、生成した編集画面を編集画面データとして端末装置10に送信する。表示制御部136は、編集画面において、音声再生および単語ブロックの表示を開始する。このとき、表示制御部136は、第1領域内に含まれる単語ブロックの先頭から末尾に対応する音声再生区間を設定し、設定した音声再生区間を再生制御部137に出力する。
【0040】
また、表示制御部136は、編集画面において、第1領域に表示される各単語ブロックよりも広い範囲、つまり時間的に前後の範囲に含まれる文字列を、第1領域と異なる第2領域に表示するようにしてもよい。つまり、第2領域に表示される文字列は、第1領域に表示される各単語ブロックと、第1領域の前後の単語ブロックとを含む。なお、第1領域に表示されない単語ブロックは、途中で切れた状態、つまり文字列として表示される場合を含む。
【0041】
表示制御部136は、特定部134から第1単語ブロックが入力されると、第1単語ブロックが編集画面の第1領域の中央部に位置するように、第1領域内の各単語ブロックを移動する。ここで、中央部とは、第一領域の中央を含む部分を示すものである。第1単語ブロックを編集画面の第1領域の中央部に位置させることで、編集画面が修正確認対象である第1単語ブロックの前後の単語ブロックを含めた表示が可能となる。表示制御部136は、移動後の第1領域内に含まれる各単語ブロックに基づいて、音声再生区間を更新し、更新した音声再生区間を再生制御部137に出力する。すなわち、表示制御部136は、修正確認対象である第1単語ブロックを中心とした区間の音声を再生するように、再生制御部137に指示する。
【0042】
表示制御部136は、提示部135から複数の修正候補および表示順が入力されると、編集画面において、例えば、第1単語ブロックまたは第2単語ブロックの下部に、表示順に応じて複数の修正候補を表示する。このとき、表示制御部136は、修正候補の正解可能性およびソースに応じて、修正候補の表示色および色の濃度のうち、少なくとも一方を変化させる。また、表示制御部136は、同じソースから生成された修正候補について、共通の表示態様、例えば同じ表示色とする。
【0043】
表示制御部136は、修正候補を提示する場合に、修正候補がどの単語ブロックに対応するのかが判別可能なように、例えば、第1単語ブロックの前後、第2単語ブロックの前後および単語ブロック間といった単語ブロックの境界に線を表示する。このとき、表示制御部136は、例えば、修正候補を囲む枠を、対応する第1単語ブロックまたは第2単語ブロックの境界線まで描画する。
【0044】
表示制御部136は、受付部133において、最後の単語ブロックでないと判定し、次のキーの入力を受け付けた場合、対応する第1単語ブロックが特定されると、第1領域の中央部に配置される第1単語ブロックを次の第1単語ブロックに遷移する。
【0045】
言い換えると、提示部135および表示制御部136は、特定した第1単語ブロック、および、第1単語ブロックと該第1単語ブロックに連続する単語ブロックを含む第2単語ブロックのうち、少なくとも一方の単語ブロックの修正候補を提示する。また、提示部135および表示制御部136は、第1単語ブロックまたは第2単語ブロックの読みに基づいて修正候補を提示する。また、提示部135および表示制御部136は、修正候補の提案元である複数のソースから、複数の修正候補を生成する。また、提示部135および表示制御部136は、修正候補の正解可能性に応じて、修正候補の表示態様を変化させる。
【0046】
また、提示部135および表示制御部136は、読みに対応する文字列が近似する修正候補から順に提示する。また、提示部135および表示制御部136は、修正候補の表示色および色の濃度のうち、少なくとも一方を変化させる。また、提示部135および表示制御部136は、同じ種類のソースから生成された修正候補について、共通の表示態様とする。また、提示部135および表示制御部136は、第1単語ブロックおよび第2単語ブロックのうち、いずれに対応する修正候補であるかを判別可能に提示する。また、提示部135および表示制御部136は、第1単語ブロックまたは第2単語ブロックの境界に線を表示する。また、第2単語ブロックは、第1単語ブロックの前または後ろに連続する単語ブロックを含む。
【0047】
また、表示制御部136は、キーが割り当てられた複数の単語ブロックを表示する第1領域において、修正確認対象の第1単語ブロックを第1領域の中央部に表示するように、複数の単語ブロックを移動して表示する。また、表示制御部136は、第1単語ブロックの特定に応じて、第1領域に表示する単語ブロックを更新する。また、表示制御部136は、第1領域に表示される複数の単語ブロックよりも広い範囲の音声認識された文字列を、第1領域と異なる第2領域に表示する。
【0048】
また、表示制御部136は、音声認識された文字列から形態素解析を用いて生成された複数の単語ブロックを表示する第1領域の中央部に、修正確認対象の単語ブロックを配置して表示する。また、表示制御部136は、修正確認対象の単語ブロックに対する確認作業に応じて、第1領域の中央部に配置される単語ブロックを次の単語ブロックに遷移する。また、表示制御部136は、第1領域に表示される複数の単語ブロックよりも広い範囲の音声認識された文字列を、第1領域と異なる第2領域に表示する。
【0049】
再生制御部137は、表示制御部136から音声再生区間が入力されると、音声データ記憶部121を参照し、音声再生区間、つまり編集箇所を含む区間の音声データを、通信部110およびネットワークNを介して、端末装置10に送信する。このとき、再生制御部137は、第1単語ブロックを中心とした音声再生区間(編集箇所を含む区間)の音声データを繰り返し再生するように制御する。なお、再生制御部137は、編集画面の第2領域に対応する区間において指定区間を受け付け、受け付けた指定区間の音声データを通信部110およびネットワークNを介して、端末装置10に送信するようにしてもよい。また、再生制御部137は、ある音声再生区間の再生中に、新たな音声再生区間が入力されると、再生中の音声再生区間の最後まで再生してから、新たな音声再生区間の最初から音声を再生するように制御する。
【0050】
言い換えると、再生制御部137は、第1領域に対応する区間の音声について再生制御を行う。また、再生制御部137は、遷移後の単語ブロックが中央部に位置する第1領域に対応する区間の音声について再生制御を行う。また、再生制御部137は、第2領域に対応する区間において指定区間を受け付け、受け付けた指定区間の音声について再生制御を行う。また、再生制御部137は、再生制御として、区間または指定区間の音声について、繰り返し再生を行う。
【0051】
ここで、図3を用いて編集画面について説明する。図3は、編集画面の一例を示す図である。図3に示す編集画面20は、文章データと音声等の区間とを対応付けて表示する領域21と、編集中の区間に対応する資料および文章データを表示する領域22と、各種設定項目を表示する領域23とを有する。また、編集画面20は、文章データの修正可能領域である第1領域24と、第1領域に表示される各単語ブロックよりも広い範囲の文字列を表示する第2領域25とを有する。第2領域25には、第1領域24に表示中の単語ブロックに対応する範囲33が表示される。なお、範囲33は、例えば、ドラッグ操作等で変更可能である。範囲33の変更は、第1領域24に表示される単語ブロックにも反映される。
【0052】
第1領域24には、各単語ブロックが表示され、各単語ブロックに対応するショートカットキー群26が表示される。また、第1領域24には、第1領域24に表示される単語ブロックを前後に半分ずつ移動するためのショートカットキー27,28が表示される。第1領域24の中央部には、修正確認対象の第1単語ブロック29(図中の「深大寺」)が、他の単語ブロックと識別可能に表示される。図3の例では、第1単語ブロック29の後ろに連続する単語ブロック30(図中の「プランニングは」)を含む一連の単語ブロックを第2単語ブロック31(図中の「深大寺プランニングは」)としている。また、第1単語ブロック29の前後の境界には、線29a,29bが描画され、第2単語ブロック31の後ろの境界、つまり単語ブロック30の後ろの境界には、線30aが描画される。さらに、編集画面20では、第1領域24に対応する区間の音声が繰り返し再生される。
【0053】
第1領域24の下部には、第1単語ブロック29に対応するキー入力に応じて、第1単語ブロック29または第2単語ブロック31に対応する修正候補が、例えば読みが近似する順に第1領域24の第1単語ブロック29に近くなるように表示される。各修正候補は、例えば、修正候補を囲む枠が対応する境界線まで描画され、生成されたソースに基づいて、表示色や色の濃度、網掛け等が異なるように表示される。また、各修正候補は、対応するショートカットキー群32によってそれぞれ選択可能である。図3の例では、ユーザがキー「r」を入力すると、第1単語ブロック29として「深大寺」が第1領域24の中央部に配置される。また、図3の例では、第1単語ブロック29または第2単語ブロック31に対応する修正候補が、第1単語ブロック29または第2単語ブロック31の下部に表示される。例えば、1つ目の修正候補「Zinrai」は、第1単語ブロック29に対応する修正候補であり、2つ目の修正候補「Zinraiディープラーニング」は、第2単語ブロック31に対応する修正候補である。
【0054】
ユーザは、キー「u」を入力することで、修正確認対象の第1単語ブロック29と、後ろに続く単語ブロックを含む第2単語ブロック31とに対応する修正候補の中から、正解である2つ目の修正候補「Zinraiディープラーニング」を選択する。文章データは、選択された修正候補「Zinraiディープラーニング」によって対応する単語ブロックである「深大寺」および「プランニングは」が更新される。このように、情報処理装置100では、文字列修正時の確認項目数および打鍵数を抑制することができる。また、情報処理装置100では、修正確認対象の単語ブロックを中心とした区間の音声を繰り返し再生するので、ユーザはメディアプレーヤの操作を行わなくてもよく、キーボード操作に集中できる。また、情報処理装置100では、修正確認対象の単語ブロックの前後の音声再生区間を過不足なく再生できる。また、情報処理装置100では、連続する単語ブロックも組み合わせた修正候補を提示できるので、音声認識誤りの多様性に対応できる。また、情報処理装置100では、修正範囲の誤認識で発生する意図しない修正を抑制できる。
【0055】
続いて、図4を用いて提示する修正候補について説明する。図4は、文字列の近似を用いた修正候補の一例を示す図である。図4に示すように、音声認識された文字列の読みが「しんだいじぷらんにんぐ」であったとする。一方、提示部135は、資料から取得した文字列の読みが「じんらいでぃーぷらーにんぐ」である場合、音声認識された文字列と比較して、文字35a~35dに示すように、修正文字が4つであると判定する。提示部135は、判定の結果、例えば、修正文字の数が少ない文字列、つまり文字の近似性が高いものから順に優先度が高くなるように修正候補を生成する。つまり、提示部135は、正解可能性が高い修正候補を優先して提示する。
【0056】
次に、実施例の情報処理装置100の動作について説明する。図5は、実施例の修正候補提示処理の一例を示すフローチャートである。
【0057】
音声認識部131は、音声データ記憶部121に記憶された音声データに対して音声認識を行って、文字列データを生成する。音声認識部131は、生成した文字列データを生成部132に出力する。生成部132は、形態素辞書記憶部122を参照して、音声認識部131から入力された文字列データを形態素解析し、文字列データを単語ブロックに分割した文章データを生成する(ステップS1)。生成部132は、生成した文章データを文章データ記憶部123に記憶する。
【0058】
受付部133は、端末装置10から開始指示を受信すると、文章データの編集画面を生成する生成指示を表示制御部136に出力する。表示制御部136は、受付部133から生成指示が入力されると、文章データの編集画面を生成する。表示制御部136は、生成した編集画面を編集画面データとして端末装置10に送信し、端末装置10に編集画面を表示させる。表示制御部136は、編集画面において、音声再生および単語ブロックの表示を開始する(ステップS2)。
【0059】
受付部133は、編集画面において、第1領域に表示された複数の単語ブロックそれぞれに割り当てられたキーの入力を受け付ける(ステップS3)。受付部133は、入力されたキーの情報を特定部134に出力する。特定部134は、受付部133からキーの情報が入力されると、キーに対応する第1単語ブロックを特定する(ステップS4)。特定部134は、特定した第1単語ブロックを提示部135および表示制御部136に出力する。
【0060】
表示制御部136は、特定部134から第1単語ブロックが入力されると、第1単語ブロックが編集画面の第1領域の中央部に位置するように、第1領域内の各単語ブロックを移動する(ステップS5)。表示制御部136は、移動後の第1領域内に含まれる各単語ブロックに基づいて、音声再生区間を更新し、更新した音声再生区間を再生制御部137に出力する(ステップS6)。再生制御部137は、表示制御部136から音声再生区間が入力されると、音声データ記憶部121を参照し、再生制御を行った音声再生区間の音声データを端末装置10に送信する。
【0061】
提示部135は、特定部134から第1単語ブロックが入力されると、第1単語ブロックおよび第2単語ブロックのうち、少なくとも一方の単語ブロックの修正候補をソースから生成する(ステップS7)。提示部135は、生成した複数の修正候補について、例えば、読みが近似する修正候補から順に提示するように表示順を決定する。提示部135は、生成した複数の修正候補、および、決定した表示順を表示制御部136に出力する。
【0062】
表示制御部136は、提示部135から複数の修正候補および表示順が入力されると、編集画面において、例えば、第1単語ブロックまたは第2単語ブロックの下部に、表示順に応じて複数の修正候補を表示する。すなわち、表示制御部136は、読みが近似する修正候補から順に提示する(ステップS8)。
【0063】
受付部133は、編集画面において、修正候補の選択を受け付ける。受付部133は、受け付けた修正候補に基づいて、文章データ記憶部123の文章データを更新する(ステップS9)。受付部133は、文章データを更新すると、修正確認対象の第1単語ブロックまたは第2単語ブロックが文章データの最後の単語ブロックであるか否かを判定する(ステップS10)。受付部133は、最後の単語ブロックでないと判定した場合には(ステップS10:否定)、ステップS3に戻り、引き続きキーの入力を受け付ける。
【0064】
受付部133は、最後の単語ブロックであると判定した場合には(ステップS10:肯定)、編集中の文章データの編集が終了した旨を編集画面に表示して、修正候補提示処理を終了する。これにより、情報処理装置100は、文字列修正時の確認項目数および打鍵数を抑制できる。また、情報処理装置100は、動画像や音声の書き起こしに要する作業時間を短縮することができる。また、情報処理装置100は、修正確認対象の単語ブロックの前後の音声を過不足なく再生できる。
【0065】
このように、情報処理装置100は、音声認識された文字列から形態素解析を用いて生成された複数の単語ブロックそれぞれに割り当てられたキーの入力を受け付ける。また、情報処理装置100は、受け付けたキーに対応する第1単語ブロックを特定する。また、情報処理装置100は、特定した第1単語ブロック、および、第1単語ブロックと該第1単語ブロックに連続する単語ブロックとを含む第2単語ブロックのうち、少なくとも一方の単語ブロックの修正候補を提示する。その結果、情報処理装置100は、文字列修正時の確認項目数および打鍵数を抑制できる。
【0066】
また、情報処理装置100は、第1単語ブロックまたは第2単語ブロックの読みに基づいて修正候補を提示する。その結果、情報処理装置100は、複数の単語ブロックに連続する修正候補を提示できる。
【0067】
また、情報処理装置100は、修正候補の提案元である複数のソースから、複数の修正候補を生成する。その結果、情報処理装置100は、多種類の修正候補を提示できる。
【0068】
また、情報処理装置100は、修正候補の正解可能性に応じて、修正候補の表示態様を変化させる。その結果、情報処理装置100は、正解可能性が高い修正候補を優先して提示できる。
【0069】
また、情報処理装置100は、読みに対応する文字列が近似する修正候補から順に提示する。その結果、情報処理装置100は、正解可能性が高い修正候補を優先して提示できる。
【0070】
また、情報処理装置100は、修正候補の表示色および色の濃度のうち、少なくとも一方を変化させる。その結果、情報処理装置100は、正解可能性または提案元に応じた修正候補の提示ができる。
【0071】
また、情報処理装置100は、同じ種類のソースから生成された修正候補について、共通の表示態様とする。その結果、情報処理装置100は、提案元に応じた修正候補の提示ができる。
【0072】
また、情報処理装置100は、第1単語ブロックおよび第2単語ブロックのうち、いずれに対応する修正候補であるかを判別可能に提示する。その結果、情報処理装置100は、修正候補に応じて修正される単語ブロックを明示できる。
【0073】
また、情報処理装置100は、第1単語ブロックまたは第2単語ブロックの境界に線を表示する。その結果、情報処理装置100は、修正候補に応じて修正される単語ブロックを明示できる。
【0074】
また、情報処理装置100では、第2単語ブロックは、第1単語ブロックの前または後ろに連続する単語ブロックを含む。その結果、情報処理装置100は、連続する単語ブロックに跨る修正候補を提示できる。
【0075】
また、情報処理装置100は、キーが割り当てられた複数の単語ブロックを表示する第1領域において、修正確認対象の第1単語ブロックを第1領域の中央部に表示するように、複数の単語ブロックを移動して表示する。その結果、情報処理装置100は、修正確認対象の単語ブロックを第1領域の中央部に表示できる。
【0076】
また、情報処理装置100は、第1単語ブロックの特定に応じて、第1領域に表示する単語ブロックを更新する。その結果、情報処理装置100は、修正確認対象の単語ブロックの文脈を掴みやすいように、修正確認対象近傍の単語ブロックを表示できる。
【0077】
また、情報処理装置100は、第1領域に表示される複数の単語ブロックよりも広い範囲の音声認識された文字列を、第1領域と異なる第2領域に表示する。その結果、情報処理装置100は、より修正確認対象の単語ブロックの文脈を掴みやすいように、修正確認対象近傍の単語ブロックを表示できる。
【0078】
なお、上記実施例では、編集画面をネットワークNを介して接続された端末装置10に表示したが、これに限定されない。例えば、情報処理装置100に表示部および操作部を設けて、情報処理装置100で編集画面の表示およびユーザからの入力を受け付けるようにしてもよい。
【0079】
また、図示した各部の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各部の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、情報処理装置100の提示部135と表示制御部136とを統合してもよい。また、図示した各処理は、上記の順番に限定されるものでなく、処理内容を矛盾させない範囲において、同時に実施してもよく、順序を入れ替えて実施してもよい。
【0080】
さらに、各装置で行われる各種処理機能は、CPU(またはMPU、MCU(Micro Controller Unit)等のマイクロ・コンピュータ)上で、その全部または任意の一部を実行するようにしてもよい。また、各種処理機能は、CPU(またはMPU、MCU等のマイクロ・コンピュータ)で解析実行されるプログラム上、またはワイヤードロジックによるハードウェア上で、その全部または任意の一部を実行するようにしてもよいことは言うまでもない。
【0081】
ところで、上記の各実施例で説明した各種の処理は、予め用意されたプログラムをコンピュータで実行することで実現できる。そこで、以下では、上記の各実施例と同様の機能を有するプログラムを実行するコンピュータの一例を説明する。図6は、修正候補提示プログラムを実行するコンピュータの一例を示す図である。
【0082】
図6に示すように、コンピュータ200は、各種演算処理を実行するCPU201と、データ入力を受け付ける入力装置202と、モニタ203とを有する。また、コンピュータ200は、記憶媒体からプログラム等を読み取る媒体読取装置204と、各種装置と接続するためのインタフェース装置205と、端末装置10や他の情報処理装置等と有線または無線により接続するための通信装置206とを有する。また、コンピュータ200は、各種情報を一時記憶するRAM207と、ハードディスク装置208とを有する。また、各装置201~208は、バス209に接続される。
【0083】
ハードディスク装置208には、図2に示した音声認識部131、生成部132、受付部133、特定部134、提示部135、表示制御部136および再生制御部137の各処理部と同様の機能を有する修正候補提示プログラムが記憶される。また、ハードディスク装置208には、音声データ記憶部121、形態素辞書記憶部122、文章データ記憶部123、および、資料情報記憶部124が記憶される。また、ハードディスク装置208には、修正履歴DB125、同音異義語リスト記憶部126、および、修正候補提示プログラムを実現するための各種データが記憶される。入力装置202は、例えば、コンピュータ200の管理者から操作情報等の各種情報の入力を受け付ける。モニタ203は、例えば、コンピュータ200の管理者に対して表示画面等の各種画面を表示する。インタフェース装置205は、例えば印刷装置等が接続される。通信装置206は、例えば、図2に示した通信部110と同様の機能を有しネットワークNと接続され、端末装置10および他の情報処理装置と各種情報をやりとりする。
【0084】
CPU201は、ハードディスク装置208に記憶された各プログラムを読み出して、RAM207に展開して実行することで、各種の処理を行う。また、これらのプログラムは、コンピュータ200を図2に示した音声認識部131、生成部132、受付部133、特定部134、提示部135、表示制御部136および再生制御部137として機能させることができる。
【0085】
なお、上記の修正候補提示プログラムは、必ずしもハードディスク装置208に記憶されている必要はない。例えば、コンピュータ200が読み取り可能な記憶媒体に記憶されたプログラムを、コンピュータ200が読み出して実行するようにしてもよい。コンピュータ200が読み取り可能な記憶媒体は、例えば、CD-ROMやDVD(Digital Versatile Disc)、USB(Universal Serial Bus)メモリ等の可搬型記録媒体、フラッシュメモリ等の半導体メモリ、ハードディスクドライブ等が対応する。また、公衆回線、インターネット、LAN等に接続された装置にこの修正候補提示プログラムを記憶させておき、コンピュータ200がこれらから修正候補提示プログラムを読み出して実行するようにしてもよい。
【符号の説明】
【0086】
1 情報処理システム
10 端末装置
100 情報処理装置
110 通信部
120 記憶部
121 音声データ記憶部
122 形態素辞書記憶部
123 文章データ記憶部
124 資料情報記憶部
125 修正履歴DB
126 同音異義語リスト記憶部
130 制御部
131 音声認識部
132 生成部
133 受付部
134 特定部
135 提示部
136 表示制御部
137 再生制御部
N ネットワーク
図1
図2
図3
図4
図5
図6