IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社東芝の特許一覧

特許7481999辞書編集装置、辞書編集方法及び辞書編集プログラム
<>
  • 特許-辞書編集装置、辞書編集方法及び辞書編集プログラム 図1
  • 特許-辞書編集装置、辞書編集方法及び辞書編集プログラム 図2
  • 特許-辞書編集装置、辞書編集方法及び辞書編集プログラム 図3
  • 特許-辞書編集装置、辞書編集方法及び辞書編集プログラム 図4
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-05-01
(45)【発行日】2024-05-13
(54)【発明の名称】辞書編集装置、辞書編集方法及び辞書編集プログラム
(51)【国際特許分類】
   G06F 40/226 20200101AFI20240502BHJP
   G06F 40/242 20200101ALI20240502BHJP
   G10L 15/06 20130101ALI20240502BHJP
【FI】
G06F40/226
G06F40/242
G10L15/06 300Z
【請求項の数】 8
(21)【出願番号】P 2020185249
(22)【出願日】2020-11-05
(65)【公開番号】P2022074852
(43)【公開日】2022-05-18
【審査請求日】2023-02-17
(73)【特許権者】
【識別番号】000003078
【氏名又は名称】株式会社東芝
(74)【代理人】
【識別番号】110003708
【氏名又は名称】弁理士法人鈴榮特許綜合事務所
(72)【発明者】
【氏名】岩田 憲治
(72)【発明者】
【氏名】籠嶋 岳彦
【審査官】成瀬 博之
(56)【参考文献】
【文献】特開2013-130904(JP,A)
【文献】国際公開第2007/097176(WO,A1)
【文献】特開2002-229585(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 40/20-40/58
G10L 15/00-17/26
(57)【特許請求の範囲】
【請求項1】
テキストデータから形態素解析によって単語を抽出する単語抽出部と、
抽出された前記単語に対して読みを付与する読み付与部と、
前記形態素解析に伴って得られるそれぞれの形態素のスコアに基づいて、前記抽出された前記単語の信頼度を表す第1の信頼度を計算し、付与された読みが辞書に登録されている単語のそれぞれの読みに基づいて付与されたものであるか否かに基づいて、付与された前記読みの信頼度を表す第2の信頼度とを計算する信頼度計算部と、
前記抽出された単語のうちで前記第1の信頼度が閾値を下回る単語をユーザによる修正の候補となる単語として特定し、前記付与された読みのうちで前記第2の信頼度が閾値を下回る読みを前記ユーザによる修正の候補となる読みとして特定する修正候補特定部と、
前記修正候補特定部で特定された修正の候補となる単語及び読みを強調表示する表示部と、
を備える辞書編集装置。
【請求項2】
前記信頼度計算部は、前記単語抽出部が前記テキストデータ上の改行前後の文字をつなげて単語の抽出を行ったときに、前記単語抽出部が前記テキストデータ上の改行前後の文字をつなげずに単語の抽出を行ったときよりも前記第1の信頼度を小さく計算する請求項1に記載の辞書編集装置。
【請求項3】
前記信頼度計算部は、前記単語抽出部が、前記テキストデータ上で、抽出された前記単語の周辺に存在する単語を組み合わせて単語の抽出を行ったときに、前記単語抽出部が、前記テキストデータ上で、抽出された前記単語の周辺に存在する単語を組み合わせて単語の抽出を行っていないときよりも前記第1の信頼度を小さく計算する請求項1に記載の辞書編集装置。
【請求項4】
前記信頼度計算部は、前記単語抽出部が、前記テキストデータ上で、抽出された前記単語の周辺に存在する単語を組み合わせて単語の抽出を行ったときに、前記単語抽出部が抽出された前記単語の周辺に存在する単語の別の組み合わせで単語の抽出を行ったときのスコアに基づいて前記第1の信頼度を再計算する請求項3に記載の辞書編集装置。
【請求項5】
前記信頼度計算部は、さらに、前記読みが前記辞書に登録されている複数の単語に基づいて付与されているか、前記読みが付与された単語が数字又はアルファベットを含むかの少なくとも何れかを用いて前記第2の信頼度を計算する請求項1に記載の辞書編集装置。
【請求項6】
前記表示部は、前記修正候補となる単語及び読みが表示されるセルの背景色、前記セルの枠の太さ、前記セルの枠の大きさ、前記セルの枠の色、前記セルにおいて表示される文字の色、前記文字のフォント、前記文字の大きさの少なくとも何れかを変更することで前記強調表示をする請求項に記載の辞書編集装置。
【請求項7】
テキストデータから形態素解析によって単語を抽出することと、
抽出された前記単語に対して読みを付与することと、
前記形態素解析に伴って得られるそれぞれの形態素のスコアに基づいて、前記抽出された前記単語の信頼度を表す第1の信頼度を計算し、付与された読みが辞書に登録されている単語のそれぞれの読みに基づいて付与されたものであるか否かに基づいて、付与された前記読みの信頼度を表す第2の信頼度とを計算することと、
前記抽出された単語のうちで前記第1の信頼度が閾値を下回る単語をユーザによる修正の候補となる単語として特定し、前記付与された読みのうちで前記第2の信頼度が閾値を下回る読みを前記ユーザによる修正の候補となる読みとして特定することと、
前記特定された修正の候補となる単語及び読みを表示部に強調表示することと、
を備える辞書編集方法。
【請求項8】
テキストデータから形態素解析によって単語を抽出することと、
抽出された前記単語に対して読みを付与することと、
前記形態素解析に伴って得られるそれぞれの形態素のスコアに基づいて、前記抽出された前記単語の信頼度を表す第1の信頼度を計算し、付与された読みが辞書に登録されている単語のそれぞれの読みに基づいて付与されたものであるか否かに基づいて、付与された前記読みの信頼度を表す第2の信頼度とを計算することと、
前記抽出された単語のうちで前記第1の信頼度が閾値を下回る単語をユーザによる修正の候補となる単語として特定し、前記付与された読みのうちで前記第2の信頼度が閾値を下回る読みを前記ユーザによる修正の候補となる読みとして特定することと、
前記特定された修正の候補となる単語及び読みを表示部に強調表示することと、
をプロセッサに実行させるための辞書編集プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
実施形態は、辞書編集装置、辞書編集方法及び辞書編集プログラムに関する。
【背景技術】
【0002】
音声認識技術において、音声認識の精度向上のためには、実際に利用されるシーンでよく発話される専門用語及び音声認識エンジンにとっての未知語を、予め音声認識エンジンで用いられる音声認識辞書に登録しておくことが重要である。しかしながら、そういった専門用語や未知語のリストアップ及びそれらに対する読み付けを人手で行うのは困難である。
【0003】
これに対し、音声認識エンジンが、利用されるシーンに関連するテキストデータ(例えば大学の授業の音声を認識したいのであれば、その講義資料)を読み込み、自動的に専門用語及び未知語を抽出し、それらの抽出した専門用語及び未知語に自動的に読みを付与する機能を有していれば、辞書への専門用語及び未知語の登録自体は容易になる。しかしながら、自動的に抽出された専門用語及び未知語、自動的に付与された読みは誤っている可能性がある。このため、登録された専門用語及び未知語とそれらの読みの最終的な確認は人手で行われる必要がある。この場合、抽出された専門用語及び未知語の候補数が多くなると、人手だけですべてを確認するのは困難である。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2010-157178公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
実施形態は、音声認識辞書に登録される単語についての確認を容易にする辞書編集装置、辞書編集方法及び辞書編集プログラムを提供する。
【課題を解決するための手段】
【0006】
実施形態の辞書編集装置は、単語抽出部と、読み付与部と、信頼度計算部と、修正候補特定部と、表示部とを備える。単語抽出部は、テキストデータから形態素解析によって単語を抽出する。読み付与部は、抽出された単語に対して読みを付与する。信頼度計算部は、形態素解析に伴って得られるそれぞれの形態素のスコアに基づいて、抽出された単語の信頼度を表す第1の信頼度を計算し、付与された読みが辞書に登録されている単語のそれぞれの読みに基づいて付与されたものであるか否かに基づいて、付与された読みの信頼度を表す第2の信頼度とを計算する。修正候補特定部は、抽出された単語のうちで第1の信頼度が閾値を下回る単語をユーザによる修正の候補となる単語として特定し、付与された読みのうちで第2の信頼度が閾値を下回る読みをユーザによる修正の候補となる読みとして特定する。表示部は、修正候補特定部で特定された修正の候補となる単語及び読みを強調表示する。
【図面の簡単な説明】
【0007】
図1図1は、一実施形態に係わる辞書編集装置を示すブロック図である。
図2図2は、辞書編集装置のハードウェア構成の一例を示す図である。
図3図3は、辞書編集装置の動作を示すフローチャートである。
図4図4は、強調表示の一例を示す図である。
【発明を実施するための形態】
【0008】
以下、実施形態について説明する。図1は、一実施形態に係わる辞書編集装置を示すブロック図である。辞書編集装置100は、単語抽出部101と、読み付与部102と、信頼度計算部103と、修正候補特定部104と、表示部105とを有している。辞書編集装置100は、音声認識辞書の編集装置である。この音声認識辞書は、それぞれの単語の文字列と、その単語の読みと、その読みに対応した音素とを対応付けて記憶している辞書である。
【0009】
単語抽出部101は、テキストデータから単語を抽出する。そして、単語抽出部101は、抽出した単語を読み付与部102及び信頼度計算部103に送る。テキストデータは、例えば、音声認識辞書が用いられ得るシーンに関連するテキストデータである。また、単語は、1つ以上の形態素から構成され得る。単語抽出部101は、テキストデータを形態素解析することで単語を抽出する。例えば、単語抽出部101は、形態素辞書を参照してテキストデータを形態素の単位に分割し、分割した1つ以上の形態素を組み合わせて単語を抽出する。このとき、単語抽出部101は、テキストデータ上での出現頻度の多い単語を抽出する。また、単語抽出部101は、いくつかの名詞の連結により成り立っている複合名詞を抽出する。また、単語抽出部101は、他の分野のテキストデータでは出現しにくい単語を専門用語として抽出する。また、単語抽出部101は、読み付き単語辞書又は音声認識辞書に含まれていない単語を未知語として抽出する。単語抽出部101は、これらの複数の単語の抽出手法を組み合わせて統合的に単語を抽出してもよい。例えば、単語抽出部101は、音声認識辞書に含まれていない単語の中から、出現頻度の多い単語、複合名詞、他の分野のテキストデータでは出現しにくい単語を抽出してもよい。単語抽出部101は、既存の単語抽出法を含め、任意の手法で単語を抽出してよい。
【0010】
読み付与部102は、単語抽出部101で抽出された単語に対して読みを付与する。そして、読み付与部102は、付与した読みを信頼度計算部103に送る。読み付与部102は、例えば読み付き単語辞書を参照し、抽出された単語が単語辞書に登録されているものであれば、そのままその読みを付与する。また、読み付与部102は、抽出された単語が単語辞書に登録されている複数の単語の組み合わせであった場合には、それらの単語の読みを連濁等も考慮しながら連結させて読みを付与する。さらには、読み付与部102は、予め大量のデータで各文字に対する読みを学習しておき、抽出された単語に対してこの学習結果を用いて読みを付与してもよい。読み付与部102は、既存の読み付け法を含め、任意の手法で読みを付与してよい。
【0011】
信頼度計算部103は、単語抽出部101で抽出された単語に対する第1の信頼度の計算と、読み付与部102で付与された読みに対する第2の信頼度の計算との少なくとも何れかを実施する。そして、信頼度計算部103は、計算した第1の信頼度と第2の信頼度との少なくとも何れかを修正候補特定部104に送る。
【0012】
例えば、形態素解析が統計的手法によって行われている場合、信頼度計算部103は、形態素解析に伴って得られるそれぞれの形態素のスコアを用いて第1の信頼度を計算してよい。例えば、スコアの合計が高くなるように単語の抽出がされる場合、信頼度計算部103は、スコアの合計が高いほど、大きい値を有するように第1の信頼度を計算する。また、第1の信頼度は、テキストデータ上で、抽出された単語の周辺に存在する単語に応じて調整されてよい。例えば、抽出された単語がアルファベット列又は数字列であり、抽出された単語の前後の単語も同様にアルファベット又は数字を含む場合、抽出された単語とその周辺のアルファベット又は数字も含めて1つの単語である可能性がある。したがって、このような前後にアルファベット又は数字を含むアルファベット列又は数字列については、信頼度計算部103は、元の値よりも下げるように第1の信頼度を計算してよい。同様に、抽出された単語が名詞であり、抽出された単語の前後の単語も名詞である場合、抽出された単語とその周辺の単語も含めて1つの複合名詞である可能性がある。したがって、このような複数の名詞が並ぶ単語については、信頼度計算部103は、元の値よりも下げるように第1の信頼度を計算してよい。
【0013】
また、テキストデータがもともとは他のアプリケーションで作成されたものだった場合、表示範囲の制限等から単語の途中で改行されることがある。この場合、改行があったとしてもその前後の文章で意味のつながりを持つ場合があるため、改行前後の文章をつなげて単語抽出が行われるのが良いと考えられる。逆に、改行前後で意味が切れている部分がつなげられてしまったがために、不要な単語が抽出されてしまうこともある。そのため、信頼度計算部103は、改行が含まれる箇所から単語を抽出した場合、第1の信頼度を下げるよう計算してもよい。
【0014】
この他、抽出された単語とその前後の単語とがつなげられた際に、つなげられる前とは別の形態素の組み合わせでかつ辞書に登録されている単語の組み合わせで表現されるときには、信頼度計算部103は、さらにその別の形態素のスコアによって第1の信頼度を再計算してもよい。例えば「業務完全自動」という単語が形態素解析の結果、周辺の単語の影響も受けて「業務完」と「全自動」という2つの単語に分割されたとする。「業務完」という単語は、読み付き単語辞書には存在しない単語である。一方、「業務完」とその周辺の単語である「全自動」とつなげられた場合に、「業務完全自動」という単語が得られる。この「業務完全自動」という単語だけについて形態素解析が実施されると、「業務」、「完全」、「自動」という3つの形態素に分割される可能性が高い。それぞれの形態素は、読み付き単語辞書に含まれている単語でもある。さらに、このような形態素解析が行われたときのそれぞれの形態素のスコアも高いと考えられる。したがって、信頼度計算部103は、「業務完」についての第1の信頼度を低くしてよい。
【0015】
また、信頼度計算部103は、付与された読みが読み付き単語辞書に含まれる単語のそれぞれの読みに基づいて付与されたものであるときに高い値を有するように第2の信頼度を計算してよい。一方、第2の信頼度は、付与された読みが読み付き単語辞書に含まれる複数の単語の組み合わせに基づいて付与された読みであるときには、信頼度計算部103は、それぞれの単語に基づいて付与された読みに対する値よりも低い値を有するように第2の信頼度を計算してもよい。さらに、付与された読みが読み付き単語辞書に含まれる単語に基づいて付与されていない読みであるときには、信頼度計算部103は、単語辞書に含まれる複数の単語に基づいて付与された読みに対する値よりも低い値を有するように第2の信頼度を計算してもよい。また、統計的に読みが付与された場合にはその読み付与に伴って得られたスコアが第2の信頼度として用いられ得る。その他、アルファベットや数字が含まれる単語は読み付与が難しいため、信頼度計算部103は、一律に第2の信頼度の値を下げてもよい。
【0016】
修正候補特定部104は、信頼度計算部103で計算された信頼度に基づき、修正候補とすべき単語及び読みを特定する。そして、修正候補特定部104は、修正候補とすべき単語及び読み情報を表示部105に送る。修正候補特定部104は、修正候補とすべき単語と読みの一方だけを特定してもよい。具体的な特定方法として、修正候補特定部104は、閾値を下回る第1の信頼度を有する単語及び閾値を下回る第2の信頼度を有する読みを修正候補としてよい。なお、第1の信頼度の閾値と第2の信頼度の閾値とは同じであってもよいし、異なっていてもよい。この他、修正候補特定部104は、閾値を下回る第1の信頼度を有する単語があったときにはその単語の読みも修正候補にしたり、逆に閾値を下回る第2の信頼度を有する読みがあったときにはその読みを有する単語も修正候補にしたりしてもよい。また、修正候補特定部104は、第1の信頼度と第2の信頼度とのどちらも閾値を下回ったときにだけ、それらの単語と読みを修正候補にしてもよい。
【0017】
表示部105は、修正候補特定部104で特定された修正候補の単語又は読みを表示画面上で強調表示する。
【0018】
ここで、図1の例では、単語の抽出、読みの付与、信頼度の計算の順に処理が行われる。これに対し、先に読みの付与がされてから単語の抽出が行われてもよいし、単語の抽出と読みの付与と並列して信頼度の計算が行われてもよい。また、単語に対する信頼度である第1の信頼度が読みに対する信頼度である第2の信頼度の計算に用いられてもよいし、逆に第2の信頼度が第1の信頼度の計算に用いられてもよい。
【0019】
図2は、辞書編集装置100のハードウェア構成の一例を示す図である。辞書編集装置100は、例えばプロセッサ201と、メモリ202と、入力装置203と、表示装置204と、通信装置205と、ストレージ206とをハードウェアとして有している。プロセッサ201と、メモリ202と、入力装置203と、表示装置204と、通信装置205と、ストレージ206とは、バス207に接続されている。辞書編集装置100は、パーソナルコンピュータ(PC)、スマートフォン、タブレット端末といった端末装置であってよい。
【0020】
プロセッサ201は、辞書編集装置100の全体的な動作を制御するプロセッサである。プロセッサ201は、例えばストレージ206に記憶されている辞書編集プログラムを実行することによって、単語抽出部101と、読み付与部102と、信頼度計算部103と、修正候補特定部104と、表示部105として動作する。プロセッサ201は、例えばCPUである。プロセッサ201は、MPU、GPU、ASIC、FPGA等であってもよい。プロセッサ201は、単一のCPU等であってもよいし、複数のCPU等であってもよい。
【0021】
メモリ202は、ROM及びRAMを含む。ROMは、不揮発性のメモリである。ROMは、辞書編集装置100の起動プログラム等を記憶している。RAMは、揮発性のメモリである。RAMは、例えばプロセッサ201における処理の際の作業メモリとして用いられる。
【0022】
入力装置203は、タッチパネル、キーボード、マウス等の入力装置である。入力装置203の操作がされた場合、操作内容に応じた信号がバス207を介してプロセッサ201に入力される。プロセッサ201は、この信号に応じて各種の処理を行う。入力装置203は、辞書への単語の登録及びその修正に用いられ得る。
【0023】
表示装置204は、液晶ディスプレイ、有機ELディスプレイ等の表示装置である。表示装置204は、各種の画像を表示する。
【0024】
通信装置205は、辞書編集装置100が外部の機器と通信するための通信装置である。通信装置205は、有線通信のための通信装置であってもよいし、無線通信のための通信装置であってもよい。
【0025】
ストレージ206は、例えばフラッシュメモリ、ハードディスクドライブ、ソリッドステートドライブといったストレージである。ストレージ206は、辞書編集プログラム2061等のプロセッサ201によって実行される各種のプログラムを記憶している。また、ストレージ206は、形態素辞書2062を記憶している。形態素辞書2062は、例えば形態素を表す文字列とそれぞれの形態素の品詞とを対応付けて記憶している辞書である。また、ストレージ206は、読み付き単語辞書2063を記憶している。読み付き単語辞書は、単語を表す文字列とその単語の読みとを対応付けて記憶している辞書である。また、ストレージ206は、音声認識辞書2064を記憶している。ここで、形態素辞書2062、読み付き単語辞書2063及び音声認識辞書2064は、必ずしもストレージ206に記憶されている必要はない。例えば、形態素辞書2062、読み付き単語辞書2063及び音声認識辞書2064は、辞書編集装置100の外部のサーバに記憶されていてもよい。この場合、辞書編集装置100は、通信装置205を用いてサーバにアクセスすることで必要な情報を取得する。
【0026】
バス207は、プロセッサ201と、メモリ202と、入力装置203と、表示装置204と、通信装置205と、ストレージ206との間のデータのやり取りのためのデータ転送路である。
【0027】
次に、辞書編集装置100の動作を説明する。図3は、辞書編集装置100の動作を示すフローチャートである。図3の処理は、プロセッサ201によって実行される。
【0028】
ステップS1において、プロセッサ201は、テキストデータを取得する。テキストデータは、例えば辞書編集装置100のユーザによって入力され得る。この他、テキストデータは、紙面にプリントされたテキストを画像認識等によって読み取ることでも入力され得る。このように、テキストデータの取得は、特定の手法に限定されない。
【0029】
ステップS2において、プロセッサ201は、テキストデータから単語を抽出する。プロセッサ201は、形態素辞書2062を参照してテキストデータを形態素の単位に分割し、分割した1つ以上の形態素を組み合わせて単語を抽出する。
【0030】
ステップS3において、プロセッサ201は、抽出された単語に対して読みを付与する。プロセッサ201は、読み付き単語辞書2063を参照してそれぞれの単語に読みを付与する。
【0031】
ステップS4において、プロセッサ201は、単語の信頼度を表す第1の信頼度を計算する。例えば、プロセッサ201は、形態素解析に伴って得られるそれぞれの形態素のスコアを用いて第1の信頼度を計算する。そして、プロセッサ201は、抽出された単語とその周辺に存在する単語との関係に従って第1の信頼度の値を調整する。
【0032】
ステップS5において、プロセッサ201は、閾値を下回っている第1の信頼度を有する単語があるか否かを判定する。ステップS5において、閾値を下回っている第1の信頼度を有する単語があると判定されたときには処理はステップS6に移行する。ステップS5において、閾値を下回っている第1の信頼度を有する単語がないと判定されたときには処理はステップS7に移行する。
【0033】
ステップS6において、プロセッサ201は、閾値を下回っている第1の信頼度に対応している単語にフラグを設定する。このフラグは、抽出された単語が修正候補であることを示すフラグである。その後、処理はステップS7に移行する。
【0034】
ステップS7において、プロセッサ201は、読みの信頼度を表す第2の信頼度を計算する。例えば、プロセッサ201は、読みが読み付き単語辞書2063に登録されている単語に基づいて付与されているか等に基づいて第2の信頼度を計算する。
【0035】
ステップS8において、プロセッサ201は、閾値を下回っている第2の信頼度を有する読みがあるか否かを判定する。ステップS8において、閾値を下回っている第2の信頼度を有する読みがあると判定されたときには処理はステップS9に移行する。ステップS8において、閾値を下回っている第2の信頼度を有する読みがないと判定されたときには処理はステップS10に移行する。
【0036】
ステップS9において、プロセッサ201は、閾値を下回っている第2の信頼度を有する読みにフラグを設定する。このフラグは、付与された読みが修正候補であることを示すフラグである。その後、処理はステップS10に移行する。
【0037】
ステップS10において、プロセッサ201は、新たに抽出された単語及びその読みの一覧を例えば表形式で表示装置204に表示する。
【0038】
ステップS11において、プロセッサ201は、フラグが設定されている単語又は読みがあるか否かを判定する。ステップS11において、フラグが設定されている単語又は読みがないと判定されたときには、図3の処理は終了する。この場合、例えばユーザの入力装置203の操作によって単語及びその読みの登録が指示されたときには、プロセッサ201は、新たに抽出された単語及びその読みを音素と関連付けて音声認識辞書2064に登録する。また、ユーザの入力装置203の操作によって単語及びその読みの編集が指示されたときには、プロセッサ201は、新たに抽出された単語及びその読みをユーザの操作に応じて修正した上で音声認識辞書2064に登録する。また、ステップS11において、フラグが設定されている単語又は読みがあると判定されたときには、処理はステップS12に移行する。
【0039】
ステップS12において、プロセッサ201は、フラグが設定されている単語又は読みを強調表示する。その後、図3の処理は終了する。この場合、例えばユーザの入力装置203の操作によって単語及びその読みの登録が指示されたときには、プロセッサ201は、新たに抽出された単語及びその読みを音素と関連付けて音声認識辞書2064に登録する。また、ユーザの入力装置203の操作によって単語及びその読みの編集が指示されたときには、プロセッサ201は、新たに抽出された単語及びその読みをユーザの操作に応じて修正した上で音声認識辞書2064に登録する。
【0040】
ステップS12の強調表示について説明する。図4は、強調表示の一例を示す図である。図4では、線形代数のテキストデータに対して単語の抽出と読みの付与が実施された例が示されている。ステップS10の処理により、表示装置204の表示画面には、抽出された単語とその読みの一覧表2041が表示される。この一覧表2041の中で信頼度が低かった単語又は読みは強調表示される。
【0041】
例えば「直交補」という単語は、線形代数学における「直交補空間(ちょっこうほくうかん)」という単語の一部である。つまり、「直交補」は、前後の文脈によって「空間」が抽出されたことによる残りの単語である。これに対し、「直交補空間」に対して再度の形態素解析が行われると「直交」と「補空間」に分割され、「直交補」は「直交補空間」の一部である可能性が高いことが分かる。したがって、単語「直交補」についての第1の信頼度は下げられる。結果として、単語「直交補」は強調表示される。図4では、単語「直交補」が表示されるセルが太枠で表示されている。一方、読み「ちょっこうほ」については、読み付き単語辞書に含まれるそれぞれの単語の読みに基づいて付与されたものであることから、強調表示されなくてよい。前述したように、対応する単語に対する第1の信頼度が低いと判定されているため、読み「ちょっこうほ」も強調表示されてよい。また、図4では、新たに抽出された単語「直交補空間」及びその読み「ちょっこうほくうかん」も表示されている。この新たに抽出された単語及び読みの表示は、省略されてもよい。
【0042】
また、読み「ぐむれすほう」は、一般化最小残差法を表す単語「GMRES法」の読みである。単語「GMRES法」は、アルファベット列から構成される単語であるため、その読みである「ぐむれすほう」は一覧表2041において強調表示される。なお、単語「GMRES法」は、再度の形態素解析が行われても同様に抽出される。したがって、単語「GMRES法」については強調表示されなくてよい。前述したように、対応する読みに対する第2の信頼度が低いと判定されているため、単語「GMRES法」も強調表示されてよい。
【0043】
ここで、図4の例では、修正候補の単語又は読みが表示されるセルを太枠で表示することで強調表示が行われている。強調表示はこれに限るものではない。例えば、セルの背景色が変更されたり、セルの枠の色が変更されたり、セルの大きさが変更されたりしてもよい。また、セルの文字の色が変更されたり、フォント(文字フォント、太字、斜体、下線などを含む)が変更されたり、文字の大きさが大きくされたりしてもよい。また、信頼度の値の大きさに応じてセルの枠の太さ、色等が変更されてもよい。さらには、これらが組み合わせられて強調表示がされてもよい。
【0044】
また、一覧表2041には、単語と読みだけでなく、それぞれの信頼度の値も併せて表示されてもよい。
【0045】
以上説明したように実施形態によれば、テキストデータから自動的に抽出された単語及び自動的に付与された読みに対して信頼度が計算され、信頼度に基づき修正候補となる単語又は読みが特定される。このような特定結果に基づいて修正候補となる単語又は読みがユーザに提示されることで、ユーザは修正候補の単語又は読みを重点的に確認すればよい。したがって、ユーザによる確認作業及び修正作業が容易となる。
【0046】
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。
【0047】
ここで、実施形態では、辞書編集装置100は、単語抽出部101と、読み付与部102と、信頼度計算部103と、修正候補特定部104と、表示部105とを有しているものとしている。これに対し、辞書編集装置100は、必ずしもこれらのすべてを有していてなくてもよい。例えば、辞書編集装置100は、単語抽出部101と、読み付与部102を有していなくてもよい。この場合、辞書編集装置100は、抽出された単語、付与された読みに加えて、信頼度を計算するために必要な情報を取得する。信頼度を計算するために必要な情報は、例えば形態素解析に伴って計算された各形態素のスコアである。そして、辞書編集装置100は、信頼度を計算するために必要な情報に基づいて第1の信頼度及び第2の信頼度を計算する。また、辞書編集装置100は、表示部105を有していなくてもよい。この場合、辞書編集装置100は、特定された修正候補の単語及び読みの情報を外部に出力するように構成されていてよい。
【符号の説明】
【0048】
100 辞書編集装置、101 単語抽出部、102 読み付与部、103 信頼度計算部、104 修正候補特定部、105 表示部、201 プロセッサ、202 メモリ、203 入力装置、204 表示装置、205 通信装置、206 ストレージ、207 バス、2061 辞書編集プログラム、2062 形態素辞書、2063 読み付き単語辞書、2064 音声認識辞書。
図1
図2
図3
図4