(58)【調査した分野】(Int.Cl.,DB名)
前記結果出力手段は、前記辞書追加登録効果の判断基準として、複数の指標のうち一つもしくは複数の組み合わせに基づいて並べ替えをする請求項1記載の語彙知識獲得装置。
【発明を実施するための形態】
【0013】
以下、実施形態について図面を参照して説明する。
【0014】
図1は、本実施形態における語彙知識獲得装置10を用いるシステムの構成を示すブロック図である。
図1に示すシステムにおいて、語彙知識獲得装置10は、インターネット等のネットワーク12を通じて、Webサーバ14−1,14−2,…,14−nや各種の電子機器と通信して、各種データを送受信することができる。
【0015】
本実施形態における語彙知識獲得装置10は、例えばパーソナルコンピュータ等のコンピュータによって実現される。
図1に示すように、語彙知識獲得装置10は、プロセッサ20、メモリ21、記憶装置24、入力ユニット25、表示ユニット26、音声入力ユニット27、音声出力ユニット28、及び通信ユニット29を有する。
【0016】
プロセッサ20は、記憶装置24からメモリ21に読み出された各種プログラム(ソフトウェア)を実行することにより各種の機能を実現する。例えば、プロセッサ20は、メモリ21に記憶されたOS(Operating System)やアプリケーションプログラムなどの各種プログラム(ソフトウェア)を実行して、各種機能を実現する。例えば、プロセッサ20は、語彙知識獲得プログラム21aを実行して、音声認識システムで使用される音声認識辞書(構築済み辞書24e)に新しい語彙を追加する際のユーザ作業を支援するための機能を実現する。語彙知識獲得プログラム21aに基づいて実現される機能については
図2に示す。また、プロセッサ20は、音声認識プログラム21bを実行することにより音声認識システムを実現する。
【0017】
メモリ21は、プロセッサ20により実行されるプログラムやデータを記憶する。
【0018】
記憶装置24は、OS(Operating System)やアプリケーションプログラムなどの各種プログラム(ソフトウェア)やプログラムの実行に必要なデータなどを、不揮発性の記憶媒体において記憶する。記憶装置24に記憶されるデータは、例えば平文コーパス24a、正式名称リスト24b、日英機械翻訳辞書24c、Webクローリングデータ24d、構築済み辞書24e、仮構築辞書24f、語彙リスト24g、及び音声
ファイル24hを含む。各データの詳細については後述する。
【0019】
入力ユニット25は、プロセッサ20の制御のもとで、ユーザにより操作される入力デバイス(例えば、キーボード、マウス、タブレット等)からの入力を制御する。
【0020】
表示ユニット26は、プロセッサ20の制御のもとで、LCD(Liquid Crystal Display)等のディスプレイにおける表示を制御する。
【0021】
音声入力ユニット27は、プロセッサ20の制御のもとで、マイクからの音声入力を制御する。
【0022】
音声出力ユニット28は、プロセッサ20の制御のもとで、スピーカやヘッドホン等からの音声出力を制御する。
【0023】
通信ユニット29は、ネットワーク12を通じて、Webサーバ14や電子機器との通信を制御する。
【0024】
なお、語彙知識獲得装置10は、ハードウェア構成、又はハードウェア資源とソフトウェア(プログラム)との組合せ構成のいずれでも実施可能である。ソフトウェアは、予めネットワーク12又は非一時的なコンピュータ読み取り可能な記憶媒体からコンピュータにインストールされ、当該コンピュータのプロセッサ20に実行されることにより、各装置の機能を当該コンピュータに実行させる。
【0025】
図2は、本実施形態における語彙知識獲得装置10の機能構成を示すブロック図である。プロセッサ20は、語彙知識獲得プログラム21aを実行することにより、機能部30に含まれる各機能を実現する。機能部30に含まれる各機能は、記憶部32に含まれる各データに対する処理を実行する。
【0026】
語彙知識獲得装置10は、語彙知識獲得プログラム21aに基づいて、形態素解析機能41、複合語抽出機能42、未知語抽出機能43、未知語関連情報付与機能44、略称推定機能45、正式表記候補付与機能46、結果出力機能47、及び辞書編集機能48による処理を実行する。
【0027】
なお、音声認識システム49は、プロセッサ20が音声認識プログラム21bを実行することにより実現される機能である。音声認識システム49は、語彙知識獲得装置10の機能とは独立したシステムであり、辞書編集機能48による処理において利用される。ただし、音声認識システム49は、語彙知識獲得プログラム21aにより実現される機能の一部としても良い。
【0028】
記憶部32(記憶装置24)には、機能部30の各機能の処理に必要な資源である、平文コーパス24a、正式名称リスト24b、日英機械翻訳辞書24c、Webクローリングデータ24d、構築済み辞書24e、仮構築辞書24f、音声ファイル24hとが含まれる。また、記憶部32には、各機能の処理結果とする語彙リスト24gが記憶される。
【0029】
構築済み辞書24eは、例えば音声認識システム49による音声認識処理に利用される辞書である。構築済み辞書24eには、例えば
図3に示すように、表記(見出し語)、品詞、読みを示すデータの組が、複数の見出し語毎に登録されている。構築済み辞書24eには、語彙知識獲得装置10による処理結果を利用して、ユーザ操作によって新たな語彙(品詞、表記、読み)を追加することができる。
【0030】
平文コーパス24aは、構築済み辞書24eに新しい語彙を追加するために使用される書類(例えば、テキストデータ)の集合である。例えば、平文コーパス24aから構築済み辞書24eに登録されていない未知語が抽出され、この未知語が構築済み辞書24eへ追加する語彙の候補となる。平文コーパス24aは、音声認識システム49を使う分野についての音声認識の品質を向上するため、該当する分野に関係する書類が用いられる。例えば、医療・薬学分野であれば、薬剤の添付文書などが該当する。
【0031】
正式名称リスト24bは、音声認識システム49を使う場面に関連する表記(用語等)が登録された用語リストである。例えば、医療・薬学分野であれば、病名などの正式名称リスト(医学用語辞書)、薬剤リストなどが該当する。なお、人名について音声認識処理をする場合には、人名リスト(一般的な人名だけでなく、芸名などを含んでも良い)が用いられる。同様にして、地名については地名リスト、商品名については商標リストを用いるなど、音声認識処理の対象とする分野に応じたリストが用いられる。
【0032】
日英機械翻訳辞書24cは、日本語の表記と、その表記に対する英語の対訳が登録されたリストである。例えば、日本語の表記「リンパ節」(読み:りんぱせつ、品詞:名詞−一般)に対して、英語の対訳である「lymph node」が登録されている。
【0033】
Webクローリングデータ24dは、Webクローリングによって、ネットワーク12(インターネット)を通じて外部から取得されるデータである。Webクローリングデータ24dは、Webサイト(Webサーバ14)において公開されているWebページを静的なファイルとして保存したものである。Webクローリングデータ24dは、平文コーパス24aから抽出された未知語(表記)に対する読みの情報を獲得するために利用される。Webクローリングデータ24dのファイルの形式は、インターネット公開ページのソースであるHTML(Hyper Text Markup Language)形式であっても、HTML形式を公開ページと同じ体裁の一般文書形式に変換したものであってもよい。Webクローリングデータ24dは、語彙知識獲得装置10の語彙知識獲得プログラム21aによる機能によって、ネットワーク12を通じてWebサーバ14から収集しても良いし、語彙知識獲得装置10とは別の電子機器において作成したものを入力しても良い。Webクローリングデータ24dは、語彙知識獲得装置10に固定的に記録されたデータではなく、継続的に更新されるデータである。従って、インターネットを通じて公開されているWebページが更新されることで、Webクローリングデータ24dから表記に対する新たな読みの情報を獲得することができる。
【0034】
仮構築辞書24fは、構築済み辞書24eがコピーされた音声認識システム49による音声認識処理に利用される辞書である。仮構築辞書24fは、構築済み辞書24eに追加する表記の候補を追加して、音声認識システム49による音声認識処理を実行するために利用される。語彙知識獲得装置10は、構築済み辞書24eを用いた音声認識処理の結果と、仮構築辞書24fを用いた音声認識処理結果(解析結果)との差分を抽出して、構築済み辞書24eへ追加する表記に関する知識として抽出する。
【0035】
語彙リスト24gは、構築済み辞書24eに新しい表記を追加する際のユーザ作業を支援するために、ユーザに提示されるデータである。語彙リスト24gは、構築済み辞書24eに追加する表記(未知語)の候補について、ユーザが構築済み辞書24eに表記を追加するか否かを判断する際に参考となるデータ(知識)を提示する。詳細については後述する(
図7参照)。
【0036】
音声ファイル24hは、音声認識システム49により構築済み辞書24e及び仮構築辞書24fを用いた音声認識処理を実行させるための、音声認識システム49に対する入力音声とする音声データである。音声ファイル24hは、例えば平文コーパス24aのテキストデータと1対1で対応づけられた音声データ、すなわち平文コーパス24aのテキストを読み上げた音声の音声データである。なお、音声ファイル24hは、ユーザによりテスト用として用意された、平文コーパス24aのテキストとは別の内容の音声データのファイルとしても良い。
【0037】
次に、本実施形態における語彙知識獲得装置10の語彙知識獲得処理の動作について、
図4に示すフローチャートを参照しながら説明する。
まず、形態素解析機能41は、平文コーパス24aについて、形態素解析処理を実行する(ステップA1)。形態素解析機能41は、形態素解析処理によって、平文コーパス24aに含まれる日本語のテキストデータを単語に分割し、各単語について品詞を付与する。
【0038】
例えば、形態素解析機能41は、平文コーパス24a中の日本語テキスト「風邪の初期症状の訴えがあったため、葛根湯を処方しました。LNの腫れはありません。」のテキストデータについて形態素解析処理を実行した結果、
図5に示すような形態素解析結果が得られる。
【0039】
次に、複合語抽出機能42は、形態素解析機能41の出力(形態素解析結果)を入力し、形態素解析結果に基づいて複合語を抽出するための複合語抽出処理を実行する(ステップA2)。
【0040】
複合語抽出機能42は、隣接する形態素を連結して複合語を構成すると推定できる文字列を抽出して、複合語として出力する。複合語を構成する文字列の判断として、例えば、「『名詞−一般』の連続部分は複合語(複合名詞)と推測する」などのルールを用いる。
【0041】
図5に示す形態素解析結果では、「初期」と「症状」がともに品詞「名詞−一般」であり連続して現れるため、「初期症状」を複合語(複合名詞)と推測できる。また、一つの形態素解析結果だけではなく、大量の形態素解析結果を元にして、隣接して現れる頻度の高い形態素のつながりを複合語と推測する技術を利用することもできる。ここで、「名詞−一般」に限定せず「名詞」の連続部分もしくはアルファベットの連続部分を複合語(複合名詞)と推測すると、
図5に示す形態素解析結果からは「初期症状」と「葛根湯」と「LN」が、複合語(複合名詞)として抽出される。
【0042】
次に、未知語抽出機能43は、形態素解析機能41の形態素解析結果、及び複合語抽出機能42
により抽出された複合語から、構築済み辞書24eに登録されていない未知語(語彙)を抽出する未知語抽出処理を実行する(ステップA3)。
【0043】
未知語抽出機能43は、形態素解析機能41から出力される形態素解析結果をもとに、自立語に相当する品詞が付与された基本形を抽出する。自立語とは、単独でも文節を構成することのできる単語を示す。自立語に相当する品詞は、名詞・代名詞・動詞・形容詞・形容動詞・副詞・連体詞・接続詞・感動詞が該当する。
【0044】
図5に示す形態素解析結果から抽出される基本形(表記)は、「風邪(名詞−一般)」「初期(名詞−一般)」「症状(名詞−一般)」「訴え(名詞−一般)」「ある(動詞−自立)」「ため(名詞−非自立−副詞可能)」「葛根(名詞−固有名詞−地域−一般)」「湯(名詞−一般)」「処方(名詞−サ変接続)」「する(動詞−自立)」「腫れ(名詞−一般)」の11語となる。
【0045】
さらに、未知語抽出機能43は、複合語抽出機能42の出力(複合語)を、形態素解析機能41の形態素解析結果から抽出した11語に加える。ここで、加える表記(複合語)は、「初期症状(名詞)」「葛根湯(名詞)」「LN(名詞)」の3表記であり、抽出された表記は14語(14表記)となる。ここで、抽出された14語の表記は、平文コーパス24aから抽出された未知語の候補となる。
【0046】
次に、未知語抽出機能43は、未知語の候補(表記)のリストと、構築済み辞書24eとを比較して、構築済み辞書24eに登録されていない未知語を抽出する。すなわち、未知語抽出機能43は、未知語の候補のリストに含まれる表記と品詞の組のうち、構築済み辞書24eに登録されていないものを抽出して出力する。
【0047】
構築済み辞書24eには、「風邪(名詞−一般)」「初期(名詞−一般)」「症状(名詞−一般)」「処方(名詞−サ変接続)」が登録されているため、未知語抽出機能43は、「訴え(名詞−一般)」「ある(動詞−自立)」「ため(名詞−非自立−副詞可能)」「葛根(名詞−固有名詞−地域−一般)」「湯(名詞−一般)」「する(動詞−自立)」「腫れ(名詞−一般)」「初期症状(名詞)」「葛根湯(名詞)」「LN(名詞)」の10表記を未知語として抽出する。
【0048】
なお、未知語抽出機能43は、未知語として抽出した表記に、重複する表記が含まれている場合には、一方を削除しても良い。例えば、前述した例では、複合語抽出機能42により複合語として「葛根湯(名詞)」が抽出されている。一方、形態素解析機能41の出力から「葛根湯」の構成要素となっている「葛根(名詞−固有名詞−地域−一般)」「湯(名詞−一般)」が抽出されている。この場合、未知語抽出機能43は、形態素解析結果から抽出した「葛根(名詞−固有名詞−地域−一般)」「湯(名詞−一般)」を削除する。
【0049】
この結果、未知語抽出機能43は、「訴え(名詞−一般)」「ある(動詞−自立)」「ため(名詞−非自立−副詞可能)」「する(動詞−自立)」「腫れ(名詞−一般)」「初期症状(名詞)」「葛根湯(名詞)」「LN(名詞)」の8表記を出力する。
【0050】
さらに、未知語抽出機能43は、構築済み辞書24eに登録する表記(語彙)の候補を、品詞に基づいて制限する。例えば、未知語抽出機能43は、例えば名詞で非自立ではない品詞の表記のみを登録の候補とする。
【0051】
この結果、未知語抽出機能43は、「訴え(名詞−一般)」「初期症状(名詞)」「腫れ(名詞−一般)」「葛根湯(名詞)」「LN(名詞)」の5表記を出力する。以後の処理では、未知語抽出機能43の出力を「訴え(名詞−一般)」「初期症状(名詞)」「腫れ(名詞−一般)」「葛根湯(名詞)」「LN(名詞)」の5表記として説明する。
【0052】
次に、未知語関連情報付与機能44は、未知語関連情報付与処理を実行し、未知語抽出機能43から出力された表記(構築済み辞書24eに登録する表記(未知語)の候補)のそれぞれについて、ユーザが構築済み辞書24eに追加するか否かを判断する際に参考となるデータ(未知語関連情報)を求めて付与する(ステップA4)。
【0053】
ここでは、未知語関連情報付与機能44は、未知語抽出機能43が出力した5表記それぞれについて、未知語関連情報を求めて付与する。
【0054】
未知語関連情報は、例えば、推定される品詞(「推定品詞」)、平文コーパス24a(テキストデータ)を処理した際の出現頻度(「出現頻度」)、Webクローリングデータ24dから抽出した未知語に対する読み(「読み」)、未知語に対する読みを抽出したスニペット・情報源(「スニペット・情報源」)、未知語と読み・表記・品詞が類似する構築済み辞書24eに登録済みの表記(類似登録語)とその使用頻度、辞書に対する表記(見出し語)の追加あるいは削除をする前後の音声認識処理結果(解析結果)の差分などの情報の少なくとも1つを含む。
【0055】
図6は、本実施形態における未知語関連情報付与機能44により出力される未知語関連情報の一例を示す図である。
ここでは、平文コーパス24aに、日本語テキスト「風邪の初期症状の訴えがあったため、葛根湯を処方しました。LNの腫れはありません。」を含み、この日本語テキスト以外の大量のテキストに「初期症状」「葛根湯」などの表記が、それぞれ複数回出現する場合の例を示している。
【0056】
「推定品詞」は、未知語抽出機能43により出力される表記に付された形態素解析により得られた品詞である。
【0057】
「出現頻度」は、未知語抽出機能43により出力される表記の平文コーパス24a中の出現数をカウントした数である。
【0058】
「読み」は、未知語抽出機能43により出力される表記に付された形態素解析により得られた読み、あるいはWebクローリングデータ24dから抽出した表記(未知語)に対する読みである。未知語関連情報付与機能44は、未知語抽出機能43が出力した表記(未知語)をもとに、Webクローリングデータ24dから読みに相当する文字列を抽出する。
【0059】
例えば、未知語関連情報付与機能44は、Webクローリングデータ24dからの未知語と読みの組み合わせが記述された部分を抽出する。例えば、未知語の直後に「()」で囲まれた「ひらがな」もしくは「カタカナ」の記述がある場合に、未知語と読みの組み合わせが記述された部分として抽出する。
【0060】
あるいは、未知語関連情報付与機能44は、Webクローリングデータ24dの表形式の記述部分において、ある列には未知語が記述され、他の列に「ひらがな」もしくは「カタカナ」による記述が未知語と対応づけられている場合に、未知語とその読みの組み合わせと判断して抽出する。
【0061】
「スニペット・情報源」は、例えば、Webクローリングデータ24d中の未知語の読みを含むスニペット(一部でも良い)、及び未知語を含むWebサイト(Webページ)の例えばURL(uniform resource locator)である。未知語の読みを含む「スニペット・情報源」の組が複数抽出された場合、未知語関連情報付与機能44は、複数の組を全て抽出しても良いし、同じ読みが付与された回数が最も多いスニペットのみを採用しても良い。さらに未知語関連情報付与機能44は、ユーザが予め付与したWebサイトの信頼度が高いものを優先的に採用するなどして、未知語関連情報とする情報を集約してもよい。
【0062】
登録済みの表記とその使用頻度は、構築済み辞書24eから抽出される未知語(表記)と読み・表記・品詞が類似(少なくとも読みが一致する)する登録済みの表記と、この登録済みの表記の平文コーパス24a中の出現数をカウントした数である。
【0063】
図6に示す未知語関連情報では、未知語「腫れ」に対して、「晴れ(はれ、品詞:名詞−一般、出現頻度:1)」の情報が追加されている。
【0064】
「差分」は、未知語を仮構築辞書24fに登録した場合の仮構築辞書24fを用いた音声認識処理の結果と、未知語が登録されていない構築済み辞書24eを用いた音声認識処理の結果との差分(音声認識結果の違い)についての情報である。未知語関連情報付与機能44は、次のようにして「差分」の情報を求める。
【0065】
未知語関連情報付与機能44は、辞書編集機能48によって未知語とする表記・品詞・読みの組み合わせ
を、構築済み辞書24eのコピーである仮構築辞書24fに追加させる。次に、未知語関連情報付与機能44は、辞書編集機能48に対して、仮構築辞書24fと構築済み辞書24eとを用いた音声認識処理の実行を指示する。辞書編集機能48は、未知語関連情報付与機能44からの指示に応じて、未知語が登録された仮構築辞書24fと、構築済み辞書24eを用いた音声認識処理を音声認識システム49により実行させる。この際、辞書編集機能48は、音声認識システム49に対して、音声ファイル24hを音声認識処理の対象とする音声データとして入力する。
【0066】
辞書編集機能48は、仮構築辞書24fを用いた音声認識処理の結果と、構築済み辞書24eを用いた音声認識処理の結果を、未知語関連情報付与機能44に出力する。未知語関連情報付与機能44は、仮構築辞書24fと構築済み辞書24eをそれぞれ用いた音声認識結果をもとに差分(音声認識結果の違い)についての情報を作成する。
【0067】
なお、未知語関連情報付与機能44は、未知語に対して「読み・表記・品詞が類似する登録語」が構築済み辞書24eに存在する場合は、その登録語を仮構築辞書24fから削除し、新しい解析結果として未知語関連情報に付与することもできる。
【0068】
こうして、辞書に対する未知語の追加あるいは削除をする前後の音声認識処理結果の差分の情報を抽出することにより、ユーザが未知語を辞書へ登録した場合の有効性を確認して辞書編集を行うことができるため、辞書編集の効率が向上し、さらに辞書編集の弊害を予め確認して予防することができる。
【0069】
図6に示す未知語関連情報では、未知語「腫れ」「葛根湯」について、「差分」の情報が追加されている(図中A,Bに示す)。
【0070】
なお、
図6に示す未知語関連情報では、抽出できなかった情報については空欄としている。例えば、スニペット・情報源がWebクローリングデータ24dから抽出されなかった場合や、読み・表記・品詞が類似する登録語が構築済み辞書24eから抽出されなかった場合は、空欄としている。また、「差分」の情報は、形態素解析機能41が付与した読みとは異なる場合のみ付与するようにしても良い。
【0071】
次に、略称推定機能45は、未知語関連情報に含まれる略称を表す未知語に対して正式表記を付与するため、未知語関連情報に含まれる可能性のある略称を推定するための略称推定処理を実行する(ステップA5)。
【0072】
略称推定機能45は、正式名称リスト24bに登録された表記、形態素解析機能41による形態素解析結果により得られた表記、及び複合語抽出機能42によって正式名称の一部として抽出される表記をもとに略称を作成する。ここでは、略称推定機能45は、英語の複数単語からなる表記、もしくは、日本語の複数の形態素から構成される表記に対して略称を生成する。
【0073】
例えば、正式名称リスト24bに日本語の表記「リンパ節」が登録されていて、日英機械翻訳辞書24cに英語の対訳である「lymph node」が登録されている場合、略称推定機能45は、「リンパ節」の略称として、英語の対訳の頭文字を大文字にして連結した「LN」を生成する。
【0074】
また、略称推定機能45は、例えば、日本語の正式名称「動脈注射」に対して、形態素解析結果「動脈(名詞−一般)注射(名詞−サ変接続)」の形態素の最初の文字を連結した略称「動注」を生成する。
【0075】
次に、正式表記候補付与機能46は、未知語関連情報に含まれる略称推定機能45により生成された略称に相当する未知語に対して、正式表記候補と読みを付与する正式候補付与処理を実行する(ステップA6)。
【0076】
まず、正式表記候補付与機能46は、未知語関連情報付与機能44が出力した未知語関連情報中の表記(未知語)と、略称推定機能45が生成した略称とを比較する。
【0077】
未知語関連情報中の表記(未知語)と一致する略称がある場合、正式表記候補付与機能46は、未知語関連情報中の該当する表記(未知語)に対して、略称の元となった正式名称とその読み・品詞を付与する。
【0078】
例えば、
図6に示す未知語関連情報では、未知語「LN」が、略称推定機能45により生成された正式表記「リンパ節」から推定した略称「LN」と一致する。この場合、正式表記候補付与機能46は、未知語「LN」に対して、正式表記候補「リンパ節」と読み「りんぱせつ」と品詞「名詞−一般」を付与する。この正式表記候補の読みと品詞は、略称「LN」の読みと品詞の候補として扱う。
【0079】
次に、結果出力機能47は、正式表記候補付与機能46から出力される未知語関連情報を、ユーザに提示する形式に編集して出力する結果出力処理を実行する(ステップA7)。結果出力機能47は、未知語関連情報に含まれる複数の未知語を、辞書追加登録効果の高い順に並べて語彙リスト24gとして生成し、表示ユニット26において表示させる。
【0080】
なお、結果出力機能47は、語彙リスト24gを一覧表示するだけでなく、未知語(表記)毎に未知語関連情報を順番に表示するようにしても良い。
【0081】
図7は、本実施形態における結果出力機能47から出力される語彙リスト24gの一例を示す図である。
図7に示す語彙リスト24gは、
図6に示す未知語関連に対して、未知語の並びを出現頻度の高い順に変更した例を示している。
【0082】
なお、
図7に示す語彙リスト24gには、正式表記候補付与機能46によって、表記「LN」に対して、正式表記候補「リンパ節(読み:りんぱせつ、品詞:名詞−一般)」(図中Dに示す)と、その読み「りんぱせつ」(図中Cに示す)が追加されている。
【0083】
また、前述した説明では、未知語関連情報の未知語(表記)を出現頻度の高い順に並べ替えているが、その他の条件に基づいて編集することも可能である。
例えば、複合語として抽出された表記や、Webクローリングデータ24dから抽出した読み情報が形態素解析機能41の解析結果と異なる表記は、辞書追加登録効果が高いと判断して、語彙リスト24gの上位に位置づけたりしても良い。また、出現頻度が多い、複合語である、Webクローリングデータ24dから抽出した読み情報が形態素解析機能41の解析結果と異なるなど、辞書追加登録効果の判断結果が同じ表記が複数ある場合は、さらに別の辞書追加登録効果の判断基準に基づいて表記を並べ替えても良い。
【0084】
図7に示す語彙リスト24gは、各表記について複数行からなる表形式の出力例を示しているが、他の形式にすることが可能である。例えば、1つの表記について、未知語関連情報を1行で示す表形式とすることもできる。また、「スニペット・情報源」に関する情報のように、テキストが長い情報については、該当情報へのリンク情報のみを語彙リスト24gに提示するようにしても良い。
【0085】
このようにして、本実施形態における語彙知識獲得装置10は、Webクローリングデータ24dから未知語に対応する読みを獲得することで、語彙知識獲得装置10に予め設定された情報内に制限されることなく、構築済み辞書24eには登録されていない未知語の読みを、形態素解析や推定ルールでは対応できない場合でも取得することができる。また、未知語に対して、略称と正式名称の対応を提示することで、正式名称の読みがそのまま適用される可能性も高い略称に対して適切な読みを付与できる。また、略称に対して正式名称との対応が提示されることで、認識した単語の意味を把握する必要のある音声対話にも対応が容易となる。平文コーパス24aからの構築済み辞書24eへ登録する候補とする表記の抽出と読み推定が機械的に実施されることで、人手で実施する場合の作業時間を削減でき、また構築済み辞書24eに登録されていない未知語の抽出漏れを削減できる。ユーザは、語彙リスト24gによって提示された構築済み辞書24eへの登録の候補とする表記(未知語)について、それぞれに付与された未知語関連情報をもとに、登録するか否かを判断することができる。
【0086】
なお、未知語関連情報付与機能44により抽出される未知語に対応する「差分」の情報は、語彙リスト24gをユーザに提示した後、語彙リスト24gからユーザ操作によって選択された表記(未知語)に対してのみ実行するようにしても良い。「差分」の情報の抽出方法は、前述と同様にして実行されるものとして詳細な説明を省略する。
【0087】
ユーザによって選択された表記(未知語)に対してのみ「差分」の情報を生成することにより、語彙リスト24gを提示するための処理負担を軽減して、短時間で語彙リスト24gをユーザに対して提示することが可能となる。
【0088】
次に、本実施形態における未知語関連情報付与機能44による未知語関連情報付与処理の応用例について説明する。
図8は、本実施形態における未知語関連情報付与処理を示すフローチャートである。
【0089】
ここでは、未知語関連情報付与機能44は、Webサイト(Webサーバ14)により公開されている情報の信頼性を示す信頼性評価リストを利用して未知語関連情を作成する。
【0090】
Webサイトには、専門家が編集した信頼できる情報を公開しているものと、非専門家が編集した信頼性が低い情報を公開しているものが混在している。
【0091】
図9は、本実施形態における信頼性評価リストの一例を示す図である。
図9に示す例では、信頼性評価リストは、Webサイト(URL)ごとに、信頼性を示す評価値、例えば「○」「△」「×」の3段階の評価値を記録できる。また、信頼性評価リストは、Webサイト(URL)ごとに、Webサイトから抽出した情報(未知語に対する読み)をユーザに提示した際に、ユーザがその情報を採用したか否かを「読み採用数」「読み不採用数」として記録できる。
【0092】
未知語関連情報付与機能44は、Webクローリングデータ24dから「スニペット・情報源」の組を複数抽出した場合(ステップB1、Yes)、
図9に示す信頼性評価リストを参照し、ユーザに提示する「スニペット・情報源」の情報を選択する(ステップB2)。
【0093】
例えば、未知語関連情報付与機能44は、信頼性が「○」で、読み採用数が多く、読み不採用数が少ないサイトの情報を優先して選択して、未知語関連情報として付与する。
【0094】
また、未知語関連情報付与機能44は、未知語関連情報に付与した情報が採用された場合(ステップB3、Yes)、すなわち語彙リスト24gにおいて提示した読みが未知語と共に登録された場合、信頼性評価リスト中の該当する情報が抽出されたWebサイトの「読み採用数」をカウントアップする(ステップB4)。なお、信頼性評価リストの「読み不採用数」は、例えば、ユーザによって不採用として明示的に指定された場合や、1つの表記に対して複数の読みが提示されている時に選択されなかった場合にカウントアップする。
【0095】
なお、信頼性の評価値は、ユーザがWebサイトの内容を確認した上でユーザ操作によって信頼性評価リストに設定しても良いし、「読み採用数」と「読み不採用数」に応じて予め設定されたルールに従って自動的に設定しても良い。例えば、「読み採用数」が基準値以上で「読み不採用数」が「0」の場合には信頼性を「○」に設定したり、「読み採用数」と「読み不採用数」との比率に基づいて設定したりしても良い。
【0096】
なお、信頼性評価リストを利用する場合、信頼性が「○」のWebサイトのみを利用しても良いし、信頼性が「○」のWebサイトから必要な情報が抽出できない場合に信頼性が「△」のWebサイトを利用するようにしても良い。さらに、その他の利用方法を用いることも可能である。また、評価値は、3段階に限らず、任意の段数とすることができる。
【0097】
このようにして、事前に評価されたWebサイトの信頼性を参照して情報を選択することで、ユーザに信頼性の高い情報を提示することができる。また、ユーザが提示された情報を採用したか否かの履歴を蓄積し、評価を更新することで、ユーザへの提示情報の信頼性をさらに向上できる。
【0098】
次に、本実施形態における結果出力機能47による結果出力処理の応用例について説明する。
図10は、本実施形態における結果出力処理を示すフローチャートである。
【0099】
結果出力機能47は、正式表記候補付与機能46により作成された未知語関連情報(未知語のリスト)を、辞書追加登録効果の高い順に未知語を並べ変えてユーザに提示する。
【0100】
結果出力機能47は、辞書追加登録効果の高い順の判断指標として、例えば以下の7指標を用いることができる。
第1指標:平文コーパス24aにおける出現頻度が高いこと。
第2指標:正式名称リスト24bにおける出現頻度が高いこと。
第3指標:構築済み辞書24eに登録された表記と同じ品詞の語彙が多いこと。
第4指標:Webクローリングデータ24dから抽出した読み情報が形態素解析結果から推測される読みと異なること。
第5指標:平文コーパス24a中で表記の直前直後に現れる形態素の異なり数が多いこと。
第6指標:表記の重み評価値tf−idfの値が大きいこと。
第7指標:複合語の独立性を評価する指標(C−value,MC−valueなど)が高いこと。
【0101】
第1指標を用いることで、出現頻度が高い表記を優先して登録の候補として提示できる。第2指標を用いることで、平文コーパス24aが十分でないとき(例えばデータ量が少ない)であっても、対象分野での出現の可能性が高い、正式名称リスト24bに含まれる正しい表記を優先して提示できる。第3指標を用いることで、構築済み辞書24eにおいて必要とされる可能性の高い品詞(例えば音声認識に有効な形容詞、地名や人名などの認識に有効な固有名詞など)の表記を優先して提示できる。第4指標を用いることで、新しい表記(新語や芸能人名など)であり読みが難しい(一般的ではない)可能性が高く、登録しておくことが有効である可能性が高い表記を優先して提示できる。第5指標を用いることで、独立した単語を優先して提示することができる。第6指標を用いることで、特定分野の文書に偏って出てくる、その分野では重要な単語である可能性が高い表記を優先して提示できる。
第7指標を用いることで、複合語に含まれる単語の独立性が低い(いつも複合語で用いられる)表記について、複合語での表記を優先して提示することができる。
【0102】
なお、表記の重み評価値tf−idfは、「tf」(単語の出現頻度)と、「idf」(逆文書頻度)の二つの指標を乗じて計算される指標である。「idf」は多くの文書に出現する語、すなわち一般的な語は値が下がり、特定の文書のみに出現する語は値が高くなる。すなわち、「idf」に「tf」を乗じた「tf−idf」は、特定の文書のみに高頻度で出現する表記に対して高い値となる。従って、ある専門分野に特有の重要単語を判断する指標とすることができる。
【0103】
また、複合語の独立性を評価する指標C−valueは、文書における単語間の結合度を示す。
【0104】
C−value(w)=(length(w)−1)(n(w)−(t(w)/c(w)))
w:注目している単語
length(w):wの長さ(wを構成する単語の数)
n(w):wの出現回数
t(w):wを含むより長い複合語の出現回数
c(w):wを含むより長い複合語の異なり数
注目している単語がより長い複合語の一部としてしか使われていない場合は、C−valueは0に近い値となる。C−valueの値が大きい語は、独立性が高い。C−valueはwが一つの単語のみから構成される場合は必ず0となってしまうため、一つの単語であっても0以外の評価値となるMC−valueなどの修正式を使用することができる。
【0105】
結果出力機能47は、7指標のうちの一つもしくは複数の組み合わせを用いて、辞書追加登録効果の高さを判定し、結果を並べ変える。なお、何れの指標を用いるかは、ユーザが選択できるようにしても良いし、システムが自動的に設定しても良い。システムが自動的に設定する場合には、例えば処理対象とする平文コーパス24aの内容(長さ、分野)などに基づいて決定することができる。また、複数の指標を用いる場合には、指標に優先度を設定しても良い。
【0106】
また、各指標に対して、さらに条件を設定することもできる。例えば、ユーザに提示する値の範囲の指定を受け付け、結果の出力範囲を限定することができる。例えば、「平文コーパスにおける出現頻度が10以上」の指定により出力範囲を限定したり、「推定される品詞が名詞であること」の指定により名詞と推定される表記に限定したりすることができる。
【0107】
結果出力機能47は、正式表記候補付与機能46から出力された未知語(登録の候補とする表記)のリストに対して、予め設定された指標をもとに辞書追加登録効果の高さを判定し(ステップC1)、この判定結果に応じて未知語の順番を並べ替える(ステップC2)。
【0108】
結果出力機能47は、指標に基づいて表記の順番を並べ替えた語彙リスト24gを出力する(ステップC3)。
【0109】
このようにして、複数の評価指標を設けて柔軟に組み合わせを選択でき、出力範囲を限定することで、出力される語彙リスト24gの上位に、ユーザが求める内容が多く含まれるように精度を向上できる。
【0110】
次に、本実施形態における複合語抽出機能42による複合語抽出処理の応用例について説明する。
図11は、本実施形態における複合語抽出処理を示すフローチャートである。
【0111】
一般に、複合語を構成するか否かの判断を、隣接する形態素の品詞から判断する技術がある。例えば、「名詞−一般」の連続は、複合名詞と判断することが知られている。他に「接頭語と名詞は接続する」「名詞と接尾語は接続する」「格助詞"の"で接続された名詞は、格助詞"の"を含めて接続する」などの適合率の高いルールのみを適用することが一般的である。このような技術では、句読点「、」「。」や「 」(スペース)は区切り文字として扱い、複合語を構成する要素としないことが多い。
【0112】
しかし、近年は、商品名、各種コンテンツ(書籍、映画、アニメーション等)の名称、芸名などの人物名などの固有名詞において、適合率の高いルールでは確実な単語区切りとされる文字等(句読点、スペース、記号など)や品詞を含むものが多分野で使われるようになっている。
【0113】
そこで、本実施形態における複合語抽出機能42は、形態素解析機能41により出力される形態素解析結果から、
図11に示す手順により複合語を抽出することで、複合語を構成する可能性のある品詞が隣接して現れる部分の組み合わせの全てを複合語候補として抽出する。
【0114】
すなわち、複合語抽出機能42は、形態素解析機能41の出力(
図5に示す)について、確実な単語区切りとして予め設定した文字・品詞を含むか判定する(ステップD1)。予め設定した文字・品詞を含まない場合(ステップD2、No)、複合語抽出機能42は、形態素の連結結果であって、複合語の最初にならない文字・品詞で始まるか判定する(ステップD3)。該当する文字・品詞で始まらない場合(ステップD4、No)、複合語抽出機能42は、複合語の最後にならない文字・品詞で終わるかを判定する(ステップD5)。該当する文字・品詞で終らない場合
(ステップD6、No)、複合語抽出機能42は、表記の全てを複合語候補に設定する(ステップD7)。
【0115】
複合語抽出機能42は、例えば、
図12に示すリストを参照して複合語抽出を実行することができる。
図12に示すリストの各行の指定は、「品詞」と「表現」がともに記載されている場合は、品詞と表現がともに一致する形態素を、一方のみが指定されている場合は他方は条件なしとして判断に使用する。なお、
図12のリストに該当しない最大長の文字列のみではなくて、その部分文字列も複合語候補とする。
【0116】
複合語抽出機能42は、
図12に示すリストをもとに複合語抽出をすると、
図5に示す形態素解析結果からは「風邪、風邪の初期、風邪の初期症状、風邪の初期症状の訴え、初期症状、初期症状の訴え、葛根湯、葛根湯を処方」の複合語候補を抽出することができる。
【0117】
図12のリストから、句点、読点に関する指定を削除すれば、例えば原文「新チューハイ「○○○。」を発表した。」からは、複合語候補「新チューハイ」「○○○。」「発表」が抽出できる。
【0118】
複合語抽出機能42は、前提として形態素解析機能41の出力から形態素の連結を作成するものに限定しない。例えば、平文コーパス24aのテキストもしくは正式名称リスト24bの原文を入力としてN−gramにより語候補を切り出し、形態素解析結果と区切り位置が一致し、
図6のリストに該当しない表記を複合語候補としてもよい。
【0119】
このようにして、複合語候補を柔軟に抽出することで、従来の適合率の高いルールを適用して限定した候補を抽出する場合と比較して、複合語の抽出漏れを削減することができる。
【0120】
なお、前述した説明では、音声認識システム49に音声認識用の辞書(構築済み辞書24e)への語彙の追加を支援する場合を例にしているが、本実施形態における語彙知識獲得装置10は、音声認識以外のシステムに用いられる辞書へ表記を追加する場合にも利用することができる。例えば、日本語入力システム(ワードプロセッサ)のかな漢字変換辞書や、インターネットで配信される情報(ブログ、マイクロブログ、企業発表情報)などを内容ごとに分類するための用語辞書を対象とすることもできる。
【0121】
また、語彙知識獲得装置10は、日本語の表記だけでなく、他の言語の表記を対象とすることも可能である。
【0122】
また、前述した説明では、Webサイトから取得されるWebクローリングデータ24dから未知語の読みを抽出しているが、その他の語彙知識獲得装置10の外部から取得されるデータを対象とすることも可能である。例えば、継続的にデータが更新されるデータベースシステムや、特定の電子機器に記録されたデータなどを、記録媒体あるいはネットワーク12を通じて取得して、語彙知識獲得処理に利用することが可能である。
【0123】
なお、実施形態に記載した手法は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フレキシブルディスク、ハードディスクなど)、光ディスク(CD−ROM、DVDなど)、光磁気ディスク(MO)、半導体メモリなどの記憶媒体に格納して頒布することもできる。
【0124】
また、記憶媒体としては、プログラムを記憶でき、かつコンピュータが読み取り可能な記憶媒体であれば、その記憶形式は何れの形態であっても良い。
【0125】
また、記憶媒体からコンピュータにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワークソフト等のMW(ミドルウェア)等が上記実施形態を実現するための各処理の一部を実行しても良い。
【0126】
さらに、実施形態における記憶媒体は、コンピュータと独立した媒体に限らず、LANやインターネット等により伝送されたプログラムをダウンロードして記憶または一時記憶した記憶媒体も含まれる。
【0127】
また、記憶媒体は1つに限らず、複数の媒体から上記の各実施形態における処理が実行される場合も本発明における記憶媒体に含まれ、媒体構成は何れの構成であっても良い。
【0128】
なお、実施形態におけるコンピュータは、記憶媒体に記憶されたプログラムに基づき、実施形態における各処理を実行するものであって、パーソナルコンピュータ等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であっても良い。
【0129】
また、実施形態におけるコンピュータとは、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本発明の機能を実現することが可能な機器、装置を総称している。
【0130】
なお、本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。