(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-04-05
(45)【発行日】2024-04-15
(54)【発明の名称】辞書編集装置、辞書編集方法、及びプログラム
(51)【国際特許分類】
G10L 15/22 20060101AFI20240408BHJP
G06V 30/26 20220101ALI20240408BHJP
G10L 15/06 20130101ALI20240408BHJP
G10L 15/10 20060101ALI20240408BHJP
【FI】
G10L15/22 460Z
G06V30/268
G10L15/06 300C
G10L15/10 200W
G10L15/22 470Z
(21)【出願番号】P 2020184918
(22)【出願日】2020-11-05
【審査請求日】2023-02-17
(73)【特許権者】
【識別番号】000003078
【氏名又は名称】株式会社東芝
(74)【代理人】
【識別番号】110003708
【氏名又は名称】弁理士法人鈴榮特許綜合事務所
(72)【発明者】
【氏名】岩田 憲治
(72)【発明者】
【氏名】籠嶋 岳彦
【審査官】大野 弘
(56)【参考文献】
【文献】特開2012-014042(JP,A)
【文献】特開2017-097062(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/06
G06V 30/26
G10L 15/22
G10L 15/10
(57)【特許請求の範囲】
【請求項1】
テキストデータから単語を抽出する単語抽出部と、
前記単語に対して読みを付与する読み付与部と、
前記抽出された単語と前記付与された読みとを含む単語情報に対して修正が行われた場合に、前記修正に関連して修正すべき単語又は読みである修正候補を特定する修正候補特定部と、
を備える辞書編集装置。
【請求項2】
前記修正候補特定部は、前記抽出された単語のうち、前記修正が行われた単語と前記テキストデータ上で隣接する単語を前記修正候補として特定する、
請求項1に記載の辞書編集装置。
【請求項3】
前記修正候補特定部は、前記修正が第1の単語の追加又は前記抽出された単語のうちの第2の単語の削除若しくは訂正である場合に、前記第2の単語が前記テキストデータから抽出されないように、或いは、前記第1の単語又は前記訂正により得られた第3の単語が前記テキストデータから抽出されるように、前記単語抽出部の単語抽出方法を調整し、前記単語抽出部が前記調整された単語抽出方法で前記テキストデータに対して単語抽出を行った結果に基づいて前記修正候補を特定する、
請求項1に記載の辞書編集装置。
【請求項4】
前記修正候補特定部は、前記修正が行われた単語と表記が似た単語を前記修正候補として特定する、
請求項1に記載の辞書編集装置。
【請求項5】
前記修正候補特定部は、前記修正が行われた読みに対応する単語と表記が似た単語の読みを前記修正候補として特定する、
請求項1に記載の辞書編集装置。
【請求項6】
前記修正候補を強調表示する表示部をさらに備える請求項1乃至5のいずれか1項に記載の辞書編集装置。
【請求項7】
前記修正候補特定部は、前記修正の種類を判定し、
前記表示部は、前記種類の判定結果に応じて強調表示の仕方を変更する、
請求項6に記載の辞書編集装置。
【請求項8】
前記修正候補特定部は、前記修正候補として特定された単語又は読みの修正案を生成し、
前記表示部は、前記修正案をさらに表示する、
請求項6又は7に記載の辞書編集装置。
【請求項9】
前記表示部は、前記修正案を前記修正候補に紐づける形で表示する、
請求項8に記載の辞書編集装置。
【請求項10】
前記表示部は、前記修正候補として特定された単語又は読みを前記修正が行われた単語又は読みに紐づける形で表示する、
請求項6乃至9のいずれか1項に記載の辞書編集装置。
【請求項11】
前記表示部は、前記修正候補を格納しているフィールドの背景色と、前記フィールドの枠の大きさと、前記フィールドの前記枠の色と、前記フィールド内の文字の色と、前記フィールド内の前記文字のサイズと、前記フィールド内の前記文字のフォントと、の少なくとも1つを変更する、
請求項6乃至10のいずれか1項に記載の辞書編集装置。
【請求項12】
コンピュータが実行する辞書編集方法であって、
テキストデータから単語を抽出することと、
前記単語に対して読みを付与することと、
前記抽出された単語と前記付与された読みとを含む単語情報に対して修正が行われた場合に、前記修正に関連して修正すべき単語又は読みである修正候補を特定することと、
を備える辞書編集方法。
【請求項13】
テキストデータから単語を抽出する手段、
前記単語に対して読みを付与する手段、及び
前記抽出された単語と前記付与された読みとを含む単語情報に対して修正が行われた場合に、前記修正に関連して修正すべき単語又は読みである修正候補を特定する手段としてコンピュータを機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、辞書編集装置、辞書編集方法、及びプログラムに関する。
【背景技術】
【0002】
音声認識の精度向上のためには、音声認識が実際に利用されるシーンでよく発話される専門用語及び音声認識エンジンにとっての未知語を音声認識エンジンが参照する辞書に予め登録しておくことが重要である。しかしながら、専門用語や未知語のリストアップ及びそれらに対する読み付けを人手で行うのは困難である。
【0003】
これに対し、音声認識が利用されるシーンに関連するテキストデータ(例えば大学の授業の音声を認識したいのであれば、その講義資料)を読み込み、テキストデータから専門用語及び未知語を自動的に抽出し、抽出した専門用語及び未知語に読みを自動的に付与する機能を用意すれば、辞書への専門用語及び未知語の登録が容易になる。しかしながら、自動的に抽出した専門用語及び未知語、自動的に付与した読みは誤っている可能性がある。このため、自動抽出された専門用語及び未知語並びに自動付与された読みに対する最終的な確認は人手で行う必要がある。自動抽出された単語の数が多い場合、自動抽出された単語及び自動付与された読みをすべて確認するのは困難である。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
上述したように、自動抽出された専門用語及び未知語が正しいかどうか、またそれらに自動付与された読みが正しいかどうかを人手で確認する際のコストがかかる。
【0006】
本発明が解決しようとする課題は、単語抽出結果及び読み付与結果の確認コストを削減することを可能にする技術を提供することである。
【課題を解決するための手段】
【0007】
一実施形態に係る辞書編集装置は、単語抽出部、読み付与部、及び修正候補特定部を備える。単語抽出部は、テキストデータから単語を抽出する。読み付与部は、前記単語に対して読みを付与する。修正候補特定部は、前記抽出された単語と前記付与された読みとを含む単語情報に対して修正が行われた場合に、前記修正に関連して修正すべき単語又は読みである修正候補を特定する。
【図面の簡単な説明】
【0008】
【
図1】
図1は、実施形態に係る辞書編集装置を示すブロック図である。
【
図2】
図2は、
図1の辞書編集装置の動作例を示すフローチャートである。
【
図3】
図3は、
図1に示した表示部が単語リストを表示した画面の一例を示す図である。
【
図4】
図4は、実施形態に係る強調表示方法を説明する図である。
【
図5】
図5は、実施形態に係る強調表示方法を説明する図である。
【
図6】
図6は、実施形態に係る強調表示方法を説明する図である。
【
図7】
図7は、実施形態に係る強調表示方法を説明する図である。
【
図8】
図8は、実施形態に係る情報処理装置のハードウェア構成を示すブロック図である。
【発明を実施するための形態】
【0009】
以下、図面を参照しながら実施形態を説明する。実施形態は、音声認識などの用途に使用される辞書に単語を追加する際のユーザ作業を支援する技術を提供する。以下の説明では、音声認識に使用される辞書(以降では音声認識辞書と称する)を想定する。音声認識辞書は、単語と単語の読みと読みに対応する音素とを関連付けた情報であり得る。
【0010】
図1は、一実施形態に係る辞書編集装置100を概略的に示している。
図1に示すように、辞書編集装置100は、単語抽出部101、読み付与部102、単語リスト103、修正受付部104、修正候補特定部105、及び表示部106を備える。
【0011】
単語抽出部101は、テキストデータを受け取り、テキストデータから、音声認識辞書に追加する候補となる単語を抽出し、抽出した単語を読み付与部102に送出する。テキストデータは、例えば、音声認識が利用され得るシーンに関連するテキストデータである。単語は1以上の形態素から構成され得る。単語抽出部101は、テキストデータを形態素解析し、形態素解析の結果に基づいて、音声認識辞書に追加する候補となる単語を抽出する。単語抽出部101から出力される単語は、名詞、動詞、形容詞、副詞のような実質的な意味を持つ単語であり得る。単語抽出部101から出力される単語には、複合語(例えば複数の名詞を連結してなる複合名詞)が含まれ得る。
【0012】
専門用語及び/又は未知語が音声認識辞書に追加する候補となり得る。未知語は、音声認識辞書に存在しない単語である。本実施形態では、単語抽出部101は、テキストデータから専門用語及び未知語を抽出する。専門用語を抽出する方法としては、例えば、テキストデータを形態素解析して複数の単語を得て、テキストデータ内での出現頻度が多い(例えば閾値を超える)単語を専門用語として抽出する方法、テキストデータを形態素解析して複数の単語を得て、単語抽出部101が受け取ったテキストデータの分野とは異なる分野のテキストデータでは出現しにくい単語を専門用語として抽出する方法などを使用することができる。未知語を抽出する方法としては、例えば、テキストデータを形態素解析して複数の単語を得て、音声認識辞書に含まれていない単語を抽出する方法などを使用することができる。これらの方法は組み合わせて使用されてよい。例えば、単語抽出部101は、テキストデータから専門用語を抽出し、抽出した専門用語のうち音声認識辞書に含まれていない単語を抽出してよい。なお、これら以外の既存の方法を使用してもよい。
【0013】
読み付与部102は、単語抽出部101により抽出された単語に対して読みを付与し、抽出された単語とそれらに付与された読みとを含む単語情報を単語リスト103に登録する。
【0014】
単語に読みを付与する方法としては、例えば、読み付きの単語辞書を使用する方法、大量のデータで各文字に対する読みを予め学習しておき、学習結果を使用して単語に対して読みを付与する統計的な方法を使用することができる。読み付きの単語辞書を使用する方法は、単語が単語辞書に登録されている場合には、その単語に関連付けられている読みをその単語に付与し、単語が単語辞書に登録されている複数の単語の組み合わせである場合には、それらの単語に関連付けられている読みを連濁などを考慮しながら連結させることで得られた読みをその単語に付与する。なお、これら以外の既存の方法を使用してもよい。
【0015】
単語リスト103は、複数の単語読みペアを格納可能である。各単語読みペアは、単語と読みのペアである。
【0016】
修正受付部104は、ユーザから単語リスト103に登録されている単語情報に対する修正を受け付ける。修正の種類は、例えば、単語の削除、単語の一部の削除、単語への文字の追加、単語の追加、読みの訂正などを含む。単語の一部の削除及び単語への文字の追加を単語の訂正と総称することもある。単語リスト103に登録されている単語情報に対する修正が行われると、修正受付部104は、修正の内容に基づいて単語リスト103を更新する。
【0017】
修正候補特定部105は、単語リスト103に登録されている単語情報に対する修正が行われた場合に、この修正に関連して修正すべき単語又は読みである修正候補を特定し、特定した修正候補を表示部106に通知する。修正候補を特定する方法については後述する。
【0018】
表示部106は、単語リスト103を表示する。具体的には、表示部106は、単語リスト103に登録されている単語情報を表示する。さらに、表示部106は、修正候補特定部105により修正候補として特定された単語又は読みを画面上で強調表示する。修正候補を強調表示する方法については後述する。
【0019】
単語リスト103において、単語読みペアは編集情報に関連付けられていてよい。編集情報は例えば候補フラグを含む。候補フラグは、単語読みペアが音声認識辞書に追加する候補であるか否かを示すフラグである。例えば、候補フラグ“0”は単語読みペアが音声認識辞書に追加する候補であること示し、候補フラグ“1”は単語読みペアが音声認識辞書に追加する候補でないこと示す。例えば、ユーザが単語を削除する操作を行った場合に、この単語の候補フラグは“0”から“1”に変更される。辞書編集装置100は、ユーザによる修正作業が完了した時点で候補フラグが“0”である単語読みペアを音声認識辞書に追加するために出力する。一例では、辞書編集装置100が単語読みペアを音声認識辞書に登録してよい。他の例では、辞書編集装置100は、音声認識辞書への単語読みペアの登録を行う他の装置(図示せず)に単語読みペアを送信してよい。
【0020】
次に、辞書編集装置100の動作について説明する。
【0021】
図2は、辞書編集装置100の動作例を概略的に示している。単語抽出部101は、ユーザにより入力されたテキストデータを受け取り、テキストデータから専門用語及び未知語を抽出する(
図2のステップS201)。読み付与部102は、専門用語又は未知語であるとして抽出された単語のそれぞれに対して読みを付与する(ステップS202)。抽出された単語及び付与された読みは互いに関連付けて単語リスト103に登録される。
【0022】
表示部106は、単語リスト103に登録されている単語及び読みを表示する(ステップS203)。辞書編集装置100は、ユーザが表示された単語及び読みを確認し、ある単語又は読みに対して修正を行うのを待ち受ける(ステップS204)。
【0023】
ユーザによる修正が行われると、修正候補特定部105は、その修正に関連して修正すべき単語又は読みを修正候補として特定する(ステップS205)。表示部106は、修正候補として特定された単語又は読みを強調表示する(ステップS206)。この強調表示によりユーザがさらなる修正を行うと考えられるため、処理は、辞書編集装置100がユーザによる修正を待ち受けるステップS204に戻る。さらなる修正が行われた場合には、同様に他の修正候補を特定し強調表示するという流れを繰り返す。
【0024】
なお、
図2に示す例では単語抽出の後に読み付与を行っているが、読み付与の後に単語抽出を行うようにしてもよい。テキストデータから単語を抽出し、単語に対して読みを付与することは、テキストデータから単語を抽出し、抽出された単語に対して読みを付与すること、又は、テキストデータに対して読み付与を行い、テキストデータから読み付きの単語を抽出することのいずれであってもよい。
【0025】
次に、修正候補の特定方法及び強調表示方法について説明する。ここでは、単語抽出部101が「・・専門用語抽出・・Toshiba・・Toshiba Corporation・・」というテキストから単語「専門用」、「語抽出」、「Toshiba」、「Toshiba Corporation」を抽出し、読み付与部102がこれらの単語に対して読み「せんもんよう」、「ごちゅうしゅつ」、「としば」、「としばこーぽれーしょん」を付与した例(以降では参照例と称する)をしばしば参照する。
【0026】
辞書編集装置100は、修正を行うためのユーザインタフェースをユーザに提供する。表示部106は、ユーザインタフェースの画面上に単語リスト103に登録されている単語情報を表示する。参照例では、
図3に示すように、表示部106は、単語「専門用」と読み「せんもんよう」のペア、単語「語抽出」と読み「ごちゅうしゅつ」のペア、単語「Toshiba」と読み「としば」のペア、及び単語「Toshiba Corporation」と読み「としばこーぽれーしょん」のペアという4つの単語読みペアをリスト表示する。
【0027】
単語又は単語の一部を削除する修正が行われた場合、修正候補特定部105は、単語リスト103に登録されている単語のうち、この単語とテキストデータ上で隣接している単語を修正候補として特定する。単語又は単語の一部を削除する修正は形態素解析の誤りに起因すると考えられ、この単語とテキストデータ上で隣接している単語も形態素解析の誤りにより得られたものであると考えられる。
【0028】
参照例では、形態素解析の誤りによりフレーズ「専門用語抽出」が「専門用」及び「語抽出」に分割されている。「専門用」を削除する修正又は「専門用」の一部である「用」を削除する修正が行われた場合、修正候補特定部105は、修正が行われた単語「専門用」とテキストデータ上で隣接する単語「語抽出」を修正候補として特定する。単語「語抽出」は、削除すべき又は「専門用語抽出」若しくは「用語抽出」に訂正すべきとして修正候補に特定される。ここで単語「語抽出」が削除候補となるか訂正候補となるかは、訂正後の単語(この例では「専門用語抽出」又は「用語抽出」)が専門用語又は未知語として抽出するに値するか、訂正後の単語が単語リスト103に含まれているかなどに依存してよい。
【0029】
単語に文字を追加する修正が行われた場合、修正候補特定部105は、修正により得られた単語の部分語(修正により得られた単語の一部)を修正候補として特定する。例えば、修正候補特定部105は、部分語と一致する単語が単語リスト103に存在している場合には、この単語を修正候補(具体的には削除候補)として特定し、部分語と一致する単語が単語リスト103に存在していない場合には、部分語を修正候補(具体的には追加候補)として特定してよい。
【0030】
参照例において単語「専門用」に文字「語抽出」を追加する修正が行われた場合、修正により得られた単語は「専門用語抽出」であり、部分語は、例えば、「語抽出」、「抽出」、「用語」、「用語抽出」、「専門用語」などであり得る。「語抽出」は単語リスト103に存在しており、修正候補特定部105は、単語「語抽出」を削除候補として特定してよい。「抽出」は単語リスト103に存在しておらず、修正候補特定部105は、単語「抽出」を追加候補として特定してよい。この場合、修正候補特定部105は、読み付与部102を用いて追加候補である単語「抽出」に読みを付与し、単語「抽出」とそれに付与された読みを単語リスト103に登録し、表示部106は、単語「抽出」を強調表示してよい。
【0031】
代替として、単語に文字を追加する修正が行われた場合において、修正候補特定部105は、単語リスト103に登録されている単語のうち、この単語とテキストデータ上で隣接している単語を修正候補(具体的には削除候補)として特定してもよい。例えば、参照例において単語「専門用」に文字「語」を追加する修正が行われた場合、単語リスト103に登録されている単語のうち「専門用」とテキストデータ上で隣接する単語は「語抽出」であり、単語「語抽出」が削除候補として特定される。
【0032】
代替として、単語に文字を追加する修正が行われた場合において、修正候補特定部105は、修正により得られた単語とテキストデータ上で隣接し、単語リスト103に存在しない単語を修正候補(具体的には追加候補)として特定してもよい。例えば、参照例において単語「専門用」に文字「語」を追加する修正が行われた場合、「専門用語」とテキストデータ上で隣接する単語は「抽出」であり、単語「抽出」が追加候補として特定される。
【0033】
単語を新たに追加する修正が行われた場合、修正候補特定部105は、単語に文字を追加する修正が行われた場合に関して説明したものと同様の方法で修正候補を特定してよい。具体的には、修正候補特定部105は、追加された単語の部分語(追加された単語の一部)を修正候補として特定する。例えば、修正候補特定部105は、部分語と一致する単語が単語リスト103に存在している場合には、この単語を修正候補(具体的には削除候補)として特定し、部分語と一致する単語が単語リスト103に存在していない場合には、部分語を修正候補(具体的には追加候補)として特定してよい。例えば、単語「専門用語抽出」を追加する修正が行われた場合、修正候補特定部105は、単語リスト103に登録されている単語「専門用」及び単語「語抽出」を削除候補として特定してよい。また、例えば、単語「専門用語」を追加する修正が行われた場合、修正候補特定部105は、単語リスト103に存在していない単語「用語」を追加候補として特定してよい。
【0034】
代替として、単語を新たに追加する修正が行われた場合において、修正候補特定部105は、単語リスト103に登録されている単語のうち、追加された単語とテキストデータ上で隣接している単語を修正候補(具体的には削除候補)として特定してもよい。代替として、単語を新たに追加する修正が行われた場合において、修正候補特定部105は、追加された単語とテキストデータ上で隣接し、単語リスト103に存在しない単語を修正候補(具体的には追加候補)として特定してもよい。
【0035】
修正候補特定部105は、ユーザによる修正の内容に基づいて単語抽出部101の単語抽出方法を調整し、調整された単語抽出方法で単語抽出を行った結果に基づいて修正候補を特定してよい。例えば単語を訂正又は削除する修正が行われた場合、修正候補特定部105は、修正が行われた単語がテキストデータから抽出されないように、又は、訂正により得られた単語がテキストデータから抽出されるように、単語抽出部101の単語抽出方法を調整する。例えば単語を追加する修正が行われた場合、修正候補特定部105は、追加された単語がテキストデータから抽出されるように、単語抽出部101の単語抽出方法を調整する。例えば、単語抽出部101の単語抽出方法が何らかの閾値に基づいて単語を抽出する方法である場合、修正が行われた単語のスコアまで閾値を変更し、スコアが閾値以下となった他の単語を修正候補(具体的には削除候補)として特定する方法を使用することができる。追加された単語又は訂正により得られた単語がテキストデータに含まれており、単語抽出時にその単語のスコアが計算されている場合において、そのスコアまで閾値を下げ、スコアが閾値以上となった他の単語を修正候補(具体的には追加候補)として特定してもよい。
【0036】
読みを訂正する修正が行われた場合、修正候補特定部105は、読みが訂正された単語と表記が似ている単語の読みを修正候補として特定してよい。第1の単語が第2の単語と表記が似ているとは、第1の単語が第2の単語の少なくとも一部を含むことを指す。参照例において単語「Toshiba」の読みを「としば」から「とうしば」に訂正する修正が行われた場合、修正候補特定部105は、単語「Toshiba」を含む単語「Toshiba Corporation」の読み「としばこーぽれーしょん」を修正候補として特定する。また、参照例において単語「Toshiba Corporation」の読みを「としばこーぽれーしょん」から「とうしばこーぽれーしょん」に訂正する修正が行われた場合、修正候補特定部105は、単語「Toshiba Corporation」の一部を含む単語「Toshiba」の読み「としば」を修正候補として特定する。
【0037】
表示部106は、単語リスト103に登録されている単語情報を表示している画面上で修正候補を強調表示する。一例として、表示部106は、修正候補特定部105により修正候補として特定された単語又は読みを格納しているフィールド(セル、ボックス、又はテキストボックスと称されることもある)の背景色を変更する。参照例においてユーザが単語「専門用」を削除し、修正候補特定部105が単語「語抽出」を削除候補として特定した場合、
図4に示すように、表示部106は単語「語抽出」のフィールドの背景色を例えば赤に変更する。
【0038】
さらに、ユーザが単語「Toshiba」の読みを「とうしば」に訂正し、修正候補特定部105が読み「としばこーぽれーしょん」を訂正候補として特定した場合、
図4に示すように、表示部106は読み「としばこーぽれーしょん」のフィールドの背景色を例えば黄色に変更する。
【0039】
表示部106は、修正候補の種類に応じて色分けしてよい。例えば、削除候補は赤で表示され、訂正候補は黄色で表示され、追加候補は緑色で表示される。表示部106は、修正候補として特定された単語又は読みを強調表示するのに加えて、それに対応する読み又は単語を強調表示するようにしてもよい。
図4に示す例では、削除候補として特定された単語「語抽出」の読み「ごちゅうしゅつ」のフィールドの背景色が単語「語抽出」のフィールドの背景色と同じ色に変更される。
【0040】
さらに、表示部106は、修正が行われた単語又は読みを強調表示するようにしてもよい。例えば、表示部106は、修正が行われた単語又は読みのフィールドの背景色を、修正候補のものとは異なる色に変更してよい。修正候補特定部105は、ユーザにより行われた修正の種類を判定し、表示部106は、判定結果に応じて強調表示の仕方(例えば色分け)を変更してよい。表示部106は、修正が行われた単語又は読みを強調表示するのに加えて、それに対応する読み又は単語を強調表示するようにしてもよい。
【0041】
ユーザが単語「専門用」を削除する修正を行った場合、
図4に示すように、表示部106は、削除された単語「専門用」及びその読み「せんもんよう」のフィールドの背景色を例えばグレーに変更する。ユーザが単語「Toshiba」の読みを「とうしば」に訂正する修正を行った場合、表示部106は、訂正後の読み「とうしば」を表示し、そのフィールドの背景色を例えば水色に変更する。
【0042】
ユーザが単語「専門用語抽出」を追加し、修正候補特定部105が単語「専門用」及び「語抽出」を削除候補として特定した場合、
図5に示すように、表示部106は、単語「専門用」及びその読み「せんもんよう」並びに単語「語抽出」及びその読み「ごちゅうしゅつ」のフィールドの背景色を例えば赤に変更し、単語「専門用語抽出」及びその読み「せんもんようごちゅうしゅつ」のフィールドの背景色を例えば黄緑色に変更する。
【0043】
強調表示方法は、フィールドの背景色を変更することに限らない。例えば、強調表示方法は、フィールドの枠を太くすること、フィールドの枠の色を変更すること、フィールドの枠を大きくすること、フィールド内の文字の色を変更すること、フィールド内の文字のサイズを変更すること、又はフィールド内の文字のフォントを変更することであってもよい。フォントの変更は、例えば、書体、太字、斜体、下線などを変更することを含む。
【0044】
表示部106は、上述した強調表示方法のいずれか1つで強調表示を行ってもよく、上述した強調表示方法のうちの2以上を組み合わせて強調表示を行ってもよい。言い換えると、表示部106は、修正候補を格納しているフィールドの背景色と、フィールドの枠の大きさと、フィールドの枠の色と、フィールド内の文字の色と、フィールド内の文字のサイズと、フィールド内の文字のフォントと、の少なくとも1つを変更してよい。表示部106は、上述した強調表示方法とは異なる強調表示方法を使用してもよい。
【0045】
表示部106は、修正候補を強調表示する際に、ユーザによる修正に応答して修正候補として特定された単語又は読みを、修正が行われた単語又は読みと紐付ける形で表示してもよい。一例では、表示部106は、修正が行われた単語又は読みのすぐ下に修正候補として特定された単語又は読みを移動させてよい。他の例では、表示部106は、
図6に示すように修正が行われた単語又は読みと修正候補を線で結ぶなど、修正が行われた単語又は読みと修正候補がリンクしていることを明示するようにしてもよい。
図6に示す例では、ユーザが単語「専門用」を削除したことで単語「語抽出」が修正候補として特定されており、単語「専門用」が単語「語抽出」と線で結ばれている。さらに、ユーザが読み「としば」を訂正したことで読み「としばこーぽれーしょん」が修正候補として特定されており、読み「としば」に対応する単語「Toshiba」が読み「としばこーぽれーしょん」に対応する単語「Toshiba Corporation」と線で結ばれている。さらなる例では、表示部106は、修正候補をリストの最上位に並べてもよい。
【0046】
修正候補特定部105は、訂正候補として特定した単語又は読みの修正案を生成してよく、表示部106は、訂正候補として特定した単語又は読みを強調表示するのに加えて、修正候補特定部105により生成された修正案を表示してよい。表示部106は修正案を強調表示してよい。この場合、修正候補特定部105は、修正案を示す情報を表示部106に送出する。例えば、単語「Toshiba」の読みが「としば」から「とうしば」に訂正された場合、修正候補特定部105は、読み「としばこーぽれーしょん」を訂正候補として特定し、修正の内容に基づいて修正案「とうしばこーぽれーしょん」を生成する。表示部106は、
図7に示すように、元の読みと並べて修正案を表示してもよい。また、強調表示されているフィールドがクリックされたときに、修正案がドロップダウンリストの形で表示されもよい。また、強調表示されているフィールドにカーソルが合わせられたときに、修正案がポップアップ画面で表示されてもよい。これとは逆に、修正案が強調表示され、修正案が表示されているフィールドにカーソルが合わせられたときに、元の読みがポップアップ画面で表示されてもよい。
【0047】
以上のように、辞書編集装置100は、テキストデータから単語を抽出し、抽出した単語に読みを付与し、抽出した単語と付与された読みとを含む単語情報に対する修正が行われた場合に、当該修正に関連して修正すべき単語又は読みを特定しユーザに提示する。これにより、ユーザが単語又は読みを修正した後に、次に確認すべき単語又は読みを発見することが容易になる。その結果、単語抽出結果及び読み付与結果を確認し修正するコストを削減することが可能となる。
【0048】
辞書編集装置100について上述した処理は、CPU(Central Processing Unit)などの汎用回路によりプログラムを実行することにより実現することができる。
【0049】
図8は、辞書編集装置100のハードウェア構成例を概略的に示している。
図8に示す例では、辞書編集装置100は、CPU801、RAM(Random Access Memory)802、プログラムメモリ803、ストレージデバイス804、表示装置805、入力装置806、通信装置807、及びバス808を備えるコンピュータである。CPU801は、バス808を介してRAM802、プログラムメモリ803、ストレージデバイス804、表示装置805、入力装置806、通信装置807と信号をやり取りする。
【0050】
CPU801は、汎用回路の一例である。RAM802はワーキングメモリとしてCPU801により使用される。RAM802はSDRAM(Synchronous Dynamic Random Access Memory)などの揮発性メモリを含む。プログラムメモリ803は、辞書編集プログラムなど、CPU801により実行されるプログラムを記憶する。プログラムはコンピュータ実行可能命令を含む。プログラムメモリ803として、例えば、ROM(Read-Only Memory)が使用される。
【0051】
CPU801は、プログラムメモリ803に記憶されたプログラムをRAM802に展開し、プログラムを解釈及び実行する。辞書編集プログラムは、CPU801により実行されたときに、辞書編集装置100について上述した処理をCPU801に実行させる。言い換えると、CPU801は、辞書編集プログラムに従って、単語抽出部101、読み付与部102、修正受付部104、修正候補特定部105、及び表示部106として機能する。単語リスト103は、RAM802及び/又はストレージデバイス804により実現される。
【0052】
辞書編集プログラムなどのプログラムは、コンピュータで読み取り可能な記憶媒体に記憶された状態で辞書編集装置100に提供されてよい。この場合、例えば、辞書編集装置100は、記憶媒体からデータを読み出すドライブを備え、記憶媒体からプログラムを取得する。記憶媒体の例は、磁気ディスク、光ディスク(CD-ROM、CD-R、DVD-ROM、DVD-Rなど)、光磁気ディスク(MOなど)、半導体メモリを含む。また、プログラムをネットワーク上のサーバに格納し、辞書編集装置100がサーバからプログラムをダウンロードするようにしてもよい。
【0053】
ストレージデバイス804はデータを記憶する。ストレージデバイス804は、ハードディスクドライブ(HDD)又はソリッドステートドライブ(SSD)などの不揮発性メモリを含む。ストレージデバイス804の一部領域がプログラムメモリ803として使用されてもよい。
【0054】
表示装置805は、例えば、液晶ディスプレイ、OLED(Organic Light Emitting Diode)ディスプレイなどであり得る。表示装置805は、修正を行うためのユーザインタフェースの画面など、表示部106により生成される画像を表示する。
【0055】
入力装置806は、ユーザが情報を入力することを可能にする装置である。入力装置806は、例えば、キーボード及びマウスを含む。入力装置806は、単語情報に対する修正を行うために使用される。
【0056】
通信装置807は、外部装置と通信するためのインタフェースである。通信装置807は、例えば、有線通信モジュール及び/又は無線通信モジュールを含む。
【0057】
なお、辞書編集装置100について上述した処理の少なくとも一部は、ASIC(Application Specific Integrated Circuit)又はFPGA(Field Programmable Gate Array)などの専用回路で実施されてもよい。
【0058】
ユーザが操作する端末装置が辞書編集装置100とは別に設けられる構成が採用されてもよい。そのような構成では、辞書編集装置100は、通信装置807を使用して端末装置と通信する。
【0059】
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0060】
100…辞書編集装置、101…単語抽出部、102…読み付与部、103…単語リスト、104…修正受付部、105…修正候補特定部、106…表示部、801…CPU、802…RAM、803…プログラムメモリ、804…ストレージデバイス、805…表示装置、806…入力装置、807…通信装置、808…バス。