特許5693552 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ヤフー株式会社の特許一覧

特許5693552辞書登録装置、単語分割装置、辞書登録方法、単語分割方法、およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
5
6
7
8
9
10
11
12
4

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】5693552

(24)【登録日】2015年2月13日

(45)【発行日】2015年4月1日

(54)【発明の名称】辞書登録装置、単語分割装置、辞書登録方法、単語分割方法、およびプログラム

(51)【国際特許分類】

G06F 17/27 20060101AFI20150312BHJP

【ＦＩ】

G06F17/27 655

G06F17/27 635

【請求項の数】8

【全頁数】24

(21)【出願番号】特願2012-275198(P2012-275198)

(22)【出願日】2012年12月18日

(65)【公開番号】特開2014-120007(P2014-120007A)

(43)【公開日】2014年6月30日

【審査請求日】2013年6月14日

(73)【特許権者】

【識別番号】500257300

【氏名又は名称】ヤフー株式会社

(74)【代理人】

【識別番号】100089118

【弁理士】

【氏名又は名称】酒井宏明

(72)【発明者】

【氏名】颯々野学

【審査官】本郷彰

(56)【参考文献】

【文献】特開２００２−２５１４０２（ＪＰ，Ａ）

【文献】特開２００３−１２２７４９（ＪＰ，Ａ）

【文献】特開２０１１−１５４０６１（ＪＰ，Ａ）

【文献】特開２０１１−０９６２４５（ＪＰ，Ａ）

【文献】特開２００８−２７６５６１（ＪＰ，Ａ）

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ０６Ｆ１７／２７

Ｇ１０Ｌ１５／１８

(57)【特許請求の範囲】

【請求項1】

１以上の単語と、単語と当該単語を分割した結果である２以上の分割単語の組である１以上の分割情報とを格納し得る単語分割用辞書と、
一の単語分割装置が一の文を分割した結果である第一分割結果を取得する第一分割結果取得部と、
前記一の単語分割装置ではない単語分割装置である２以上の他単語分割装置が、前記一の文を分割した結果である２以上の他分割結果を取得する他分割結果取得部と、
前記２以上の各他分割結果に含まれる部分であり、前記第一分割結果と前記２以上の各他分割結果との相違する部分である１以上の相違部分を取得する相違部分取得部と、
前記相違部分取得部が取得した１以上の相違部分が予め決められた条件を満たす場合、１以上のいずれかの相違部分を用いて、当該相違部分に対応する文字列である単語と、当該相違部分である２以上の単語とを有する分割情報を構成する分割情報取得部と、
前記分割情報を前記単語分割用辞書に蓄積する辞書登録部とを具備する辞書登録装置。

【請求項2】

前記他分割結果取得部は、
２つの他分割結果である、第二分割結果および第三分割結果を取得し、
前記相違部分取得部は、
前記第一分割結果と前記第二分割結果との相違部分である第一相違部分と、前記第一分割結果と前記第三分割結果との相違部分である第二相違部分とを取得し、
前記分割情報取得部は、
前記第一相違部分と前記第二相違部分とが共通する場合、当該第一相違部分を用いて、当該第一相違部分に対応する文字列である単語と、当該第一相違部分である２以上の単語とを有する分割情報を構成する請求項１記載の辞書登録装置。

【請求項3】

請求項１または請求項２記載の辞書登録装置と、
１以上の文字を有する文を受け付ける受付部と、
前記辞書登録装置により構成された単語分割用辞書を用いて、前記受付部が受け付けた文を構成する文字列と一致する最大長の単語を、前記単語分割用辞書から取得し、当該取得した単語に対応する２以上の分割単語を取得して、前記文を分割して得られる２以上の単語の集合である第一分割結果を取得する第一分割部と、
前記第一分割結果を出力する出力部とを具備する単語分割装置。

【請求項4】

２以上の他単語分割装置をさらに具備する請求項３記載の単語分割装置。

【請求項5】

記録媒体に、
１以上の単語と、単語と当該単語を分割した結果である２以上の分割単語の組である１以上の分割情報とを格納し得る単語分割用辞書を格納しており、
第一分割結果取得部、他分割結果取得部、相違部分取得部、分割情報取得部、および辞書登録部により実現される辞書登録方法であって、
前記第一分割結果取得部が、一の単語分割装置が一の文を分割した結果である第一分割結果を取得する第一分割結果取得ステップと、
前記他分割結果取得部が、前記一の単語分割装置ではない単語分割装置である２以上の他単語分割装置が、前記一の文を分割した結果である２以上の他分割結果を取得する他分割結果取得ステップと、
前記相違部分取得部が、前記２以上の各他分割結果に含まれる部分であり、前記第一分割結果と前記２以上の各他分割結果との相違する部分である１以上の相違部分を取得する相違部分取得ステップと、
前記分割情報取得部が、前記相違部分取得ステップで取得された１以上の相違部分が予め決められた条件を満たす場合、１以上のいずれかの相違部分を用いて、当該相違部分に対応する文字列である単語と、当該相違部分である２以上の単語とを有する分割情報を構成する分割情報取得ステップと、
前記辞書登録部が、前記分割情報を前記単語分割用辞書に蓄積する辞書登録ステップとを具備する辞書登録方法。

【請求項6】

記録媒体に、
１以上の単語と、単語と当該単語を分割した結果である２以上の分割単語の組である１以上の分割情報とを格納し得る単語分割用辞書を格納しており、
受付部、第一分割部、出力部、辞書登録装置により実現される単語分割方法であって、
前記受付部が、１以上の文字を有する文を受け付ける受付ステップと、
前記第一分割部が、前記単語分割用辞書を用いて、前記受付部が受け付けた文を構成する文字列と一致する最大長の単語を、前記単語分割用辞書から取得し、当該取得した単語に対応する２以上の分割単語を取得して、前記文を分割して得られる２以上の単語の集合である第一分割結果を取得する第一分割ステップと、
前記出力部が、前記第一分割結果を出力する出力ステップと、
前記辞書登録装置が、請求項５記載の辞書登録方法を構成する各ステップとを具備する単語分割方法。

【請求項7】

記録媒体に、
１以上の単語と、単語と当該単語を分割した結果である２以上の分割単語の組である１以上の分割情報とを格納し得る単語分割用辞書を格納しており、
コンピュータを、
一の単語分割装置が一の文を分割した結果である第一分割結果を取得する第一分割結果取得部と、
前記一の単語分割装置ではない単語分割装置である２以上の他単語分割装置が、前記一の文を分割した結果である２以上の他分割結果を取得する他分割結果取得部と、
前記２以上の各他分割結果に含まれる部分であり、前記第一分割結果と前記２以上の各他分割結果との相違する部分である１以上の相違部分を取得する相違部分取得部と、
前記相違部分取得部が取得した１以上の相違部分が予め決められた条件を満たす場合、１以上のいずれかの相違部分を用いて、当該相違部分に対応する文字列である単語と、当該相違部分である２以上の単語とを有する分割情報を構成する分割情報取得部と、
前記分割情報を前記単語分割用辞書に蓄積する辞書登録部として機能させるためのプログラム。

【請求項8】

記録媒体に、
１以上の単語と、単語と当該単語を分割した結果である２以上の分割単語の組である１以上の分割情報とを格納し得る単語分割用辞書を格納しており、
コンピュータを、
１以上の文字を有する文を受け付ける受付部と、
前記単語分割用辞書を用いて、前記受付部が受け付けた文を構成する文字列と一致する最大長の単語を、前記単語分割用辞書から取得し、当該取得した単語に対応する２以上の分割単語を取得して、前記文を分割して得られる２以上の単語の集合である第一分割結果を取得する第一分割部と、
前記第一分割結果を出力する出力部としてさらに機能させるための請求項７記載のプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、文を２以上の単語に分割する単語分割装置が利用する単語分割用辞書に情報を登録する辞書登録装置等に関するものである。

【背景技術】

【0002】

従来、各種の入力データの記述形式の差を吸収して辞書の各項目に共通に登録する辞書作成システムが存在した（特許文献１参照）。

【0003】

また、学習データから不要なデータを取り除いて精度を向上させることができる機械学習システムがあった（特許文献２参照）。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開２００６−２１５８２３号公報（第１頁、第１図等）

【特許文献2】特開２００５−１８１９２８号公報（第１頁、第１図等）

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかしながら、従来の技術においては、精度の高い単語分割用辞書を得ることができなかった。

【課題を解決するための手段】

【0006】

本第一の発明の辞書登録装置は、１以上の単語と、単語と単語を分割した結果である２以上の分割単語の組である１以上の分割情報とを格納し得る単語分割用辞書と、一の単語分割装置が一の文を分割した結果である第一分割結果を取得する第一分割結果取得部と、一の単語分割装置ではない単語分割装置である２以上の他単語分割装置が、一の文を分割した結果である２以上の他分割結果を取得する他分割結果取得部と、２以上の各他分割結果に含まれる部分であり、第一分割結果と２以上の各他分割結果との相違する部分である１以上の相違部分を取得する相違部分取得部と、相違部分取得部が取得した１以上の相違部分が予め決められた条件を満たす場合、１以上のいずれかの相違部分を用いて、相違部分に対応する文字列である単語と、相違部分である２以上の単語とを有する分割情報を構成する分割情報取得部と、分割情報を単語分割用辞書に蓄積する辞書登録部とを具備する辞書登録装置である。

【0007】

かかる構成により、精度の高い単語分割用辞書を得ることができる。

【0008】

また、本第二の発明の辞書登録装置は、第一の発明に対して、他分割結果取得部は、２つの他分割結果である、第二分割結果および第三分割結果を取得し、相違部分取得部は、第一分割結果と第二分割結果との相違部分である第一相違部分と、第一分割結果と第三分割結果との相違部分である第二相違部分とを取得し、分割情報取得部は、第一相違部分と第二相違部分とが共通する場合、第一相違部分を用いて、第一相違部分に対応する文字列である単語と、第一相違部分である２以上の単語とを有する分割情報を構成する辞書登録装置である。

【0009】

かかる構成により、精度の高い単語分割用辞書を得ることができる。

【0010】

また、本第三の発明の単語分割装置は、第一または第二の発明に対して、辞書登録装置と、１以上の文字を有する文を受け付ける受付部と、辞書登録装置により構成された単語分割用辞書を用いて、受付部が受け付けた文を構成する文字列と一致する最大長の単語を、単語分割用辞書から取得し、当該取得した単語に対応する２以上の分割単語を取得して、文を分割して得られる２以上の単語の集合である第一分割結果を取得する第一分割部と、第一分割結果を出力する出力部とを具備する単語分割装置である。

【0011】

かかる構成により、精度の高い単語分割用辞書を用いて、文を２以上の単語に高速に分割できる。

【0012】

また、本第四の発明の単語分割装置は、第三の発明に対して、２以上の他単語分割装置をさらに具備する単語分割装置である。

【0013】

かかる構成により、精度の高い単語分割用辞書を用いて、文を２以上の単語に高速に分割できる。

【発明の効果】

【0014】

本発明による辞書登録装置によれば、精度の高い単語分割用辞書を得ることができる。

【図面の簡単な説明】

【0015】

【図1】実施の形態１における単語分割装置１のブロック図

【図2】同単語分割装置１の動作について説明するフローチャート

【図3】同単語分割用辞書１１を示す図

【図4】同単語分割装置１の実験結果を示す図

【図5】同単語分割装置１の実験結果を示す図

【図6】実施の形態２における辞書登録装置２のブロック図

【図7】同辞書登録装置２の動作について説明するフローチャート

【図8】同相違部分取得処理について説明するフローチャート

【図9】実施の形態３における単語分割装置３のブロック図

【図10】同単語分割装置３の動作について説明するフローチャート

【図11】上記実施の形態におけるコンピュータシステムの概観図

【図12】同コンピュータシステムのブロック図

【発明を実施するための形態】

【0016】

以下、単語分割装置、辞書登録装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。

【0017】

（実施の形態１）
本実施の形態において、文を２以上の単語に分割する単語分割装置１について説明する。

【0018】

図１は、本実施の形態における単語分割装置１のブロック図である。単語分割装置１は、単語分割用辞書１１、受付部１２、第一分割部１３、および出力部１４を備える。

【0019】

単語分割用辞書１１は、１以上の単語と１以上の分割情報とを格納し得る。分割情報は、単語と２以上の分割単語の組である。分割単語は、単語を分割した結果である。分割情報は、例えば、「自由形式：自由／形式」「はないか：は／ない／か」である。分割情報「自由形式：自由／形式」の「自由形式」は単語であり、「自由／形式」の「自由」「形式」は、それぞれ分割単語である。また、分割情報「はないか：は／ない／か」の「はないか」は単語であり、「は／ない／か」の「は」「ない」「か」はそれぞれ分割単語である。なお、単語は、形態素や連語など、意味を持つあらゆる用語を含む、と考えても良い。また、分割単語も単語と言える。

【0020】

また、単語分割用辞書１１において、１以上の単語と１以上の分割情報とを同一ファイルや同一データベースに保持されていていることが好適である。但し、１以上の単語と１以上の分割情報とは、別ファイルや別のデータベースに保持されていても良い。つまり、単語分割用辞書１１の具体的なデータ構造は問わない。単語分割用辞書１１は、１以上の単語と１以上の分割情報とを保持していれば良い。

【0021】

単語分割用辞書１１は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。単語分割用辞書１１に単語や分割情報が記憶される過程は問わない。例えば、記録媒体を介して単語や分割情報が単語分割用辞書１１で記憶されるようになってもよく、通信回線等を介して送信された単語や分割情報が単語分割用辞書１１で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された単語や分割情報が単語分割用辞書１１で記憶されるようになってもよい。

【0022】

受付部１２は、１以上の文字を有する文を受け付ける。文は不完全な文でも良い。つまり、文は連語などでもよい。また、文の言語は、問わない。文は、通常、日本語、中国語、韓国語、モンゴル語等、分かち書きしない言語の文である。ただし、文は、英語等の分かち書きしない言語でも良い。文は、例えば、ＵＲＬを示す文字列、ファイル名を示す文字列などでも良い。また、ここで、受け付けとは、キーボードやマウス、タッチパネルなどの入力デバイスから入力された情報の受け付け、有線もしくは無線の通信回線を介して送信された情報の受信、光ディスクや磁気ディスク、半導体メモリなどの記録媒体から読み出された情報の受け付けなどを含む概念である。

【0023】

文の入力手段は、キーボードやマウスやメニュー画面によるもの等、何でも良い。受付部１２は、キーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現され得る。

【0024】

第一分割部１３は、受付部１２が受け付けた文を分割し、２以上の単語の集合である第一分割結果を取得する。
さらに具体的には、第一分割部１３は、単語分割用辞書を用いて、受付部１２が受け付けた文を構成する文字列と一致する最大長の単語を、単語分割用辞書から取得し、当該取得した単語に対応する２以上の分割単語を取得して、文を分割して得られる２以上の単語の集合である第一分割結果を取得する。かかる処理をさらに詳細に説明すると、以下のような処理になる。第一分割部１３は、単語分割用辞書を用いて、受付部１２が受け付けた文を構成する１以上の文字列を取得する。そして、第一分割部１３は、当該１以上の各文字列と一致する最大長の単語を単語分割用辞書から取得する。そして、第一分割部１３は、単語分割用辞書から取得した１以上の各単語ごとに、単語に対応する２以上の分割単語を取得して、文を分割して得られる２以上の単語の集合である第一分割結果を取得する。

【0025】

第一分割部１３は、さらに具体的には、例えば、以下のように処理を行う。まず、第一分割部１３は、受付部１２が受け付けた文の先頭である文のポインタから最大長の文字列に一致する単語を、単語分割用辞書１１から取得する第一の処理を行う。そして、第一分割部１３は、取得した単語に対応する２以上の分割単語を有する場合は、一致する単語に変えて２以上の分割単語を取得する第二の処理を行う。この第一の処理と第二の処理とを含めて、分割単語取得処理という。そして、第一分割部１３は、文のポインタを、前記一致する単語の次の文字に移動する。そして、第一分割部１３は、上記の分割単語取得処理を文の最後の文字を含む単語まで行う。その結果、第一分割部１３は、文を分割して得られる２以上の単語の集合である第一分割結果が取得できる。なお、第一の処理において取得した単語が、分割情報に含まれる単語ではない場合、第一分割部１３は、当該第一の処理において取得した単語をそのまま保持する。また、第一分割結果は、２以上の単語の集合であるが、当該２以上の区切りが判断できる態様のデータ構造を有する。

【0026】

また、第一分割部１３が行う第一の処理の方法は問わない。第一分割部１３が行う第一の処理は、いわゆる最長一致法（longest matchあるいはmaximum matchとも言う。）等の公知技術が利用可能である。最長一致法は、「岩波書店，岩波講座，ソフトウェア科学15 自然言語処理 126-127ページ長尾真編」等に記載されている。

【0027】

また、第一分割部１３は、文のポインタから最大長の文字列を、当該文のポインタが示す文字から文の最後の文字（文のポインタからＮ番目の文字だとする）までの文字列（これを文字列Ａとする。）と一致する単語が単語分割用辞書１１に存在するか否かを判断し、存在すれば当該文字列Ａを取得し、存在しなければ、当該文のポインタが示す文字から文のポインタから（Ｎ−１）番目の文字までの文字列（これを文字列Ｂとする。）と一致する単語が単語分割用辞書１１に存在するか否かを判断し、存在すれば当該文字列Ｂを取得する。存在しなければ、上記の処理と同様に、１文字ずつ文字列を少なくしていって、文のポインタが示す文字を先頭とする文字列の中で、最大長の文字列の単語を、単語分割用辞書１１から検索する。つまり、第一分割部１３は、文の中の未処理の文字列の最長文字列から、１文字ずつ減らしながら、順に単語分割用辞書１１を検索して、ポインタｐから最長の文字列を取得しても良い。
なお、第一分割部１３は、文の中から最大長の文字列を検出するためのデータ構造として、公知技術である「トライ(trie)」が存在する。トライについて、以下の（１）〜（３）に記載されているので詳細な説明を省略する。
（１）徳永拓之著「日本語入力を支える技術」，89-99ページ
（２）インターネットウェブページ，ＵＲＬ「http://www.slideshare.net/higashiyama/ss-8738479」
（３）インターネットウェブページ，ＵＲＬ「http://nanika.osonae.com/DArray/dary.html」

【0028】

第一分割部１３は、通常、ＭＰＵやメモリ等から実現され得る。第一分割部１３の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

【0029】

出力部１４は、第一分割部１３が取得した第一分割結果を出力する。ここで、出力とは、ディスプレイへの表示、プロジェクターを用いた投影、プリンタでの印字、音出力、外部の装置への送信、記録媒体への蓄積、他の処理装置や他のプログラムなどへの処理結果の引渡しなどを含む概念である。処理結果を他のプログラムに引渡す場合、単語分割装置１と他のプログラムとは、例えば、音声認識装置、機械翻訳装置などを実現する。つまり、文を分割して得られた第一分割結果は、例えば、音声認識処理、機械翻訳処理等に利用され得る。

【0030】

出力部１４は、ディスプレイやスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。出力部１４は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。

【0031】

次に、単語分割装置１の動作について、図２のフローチャートを用いて説明する。

【0032】

（ステップＳ２０１）受付部１２は、文を受け付けたか否かを判断する。文を受け付ければステップＳ２０２に行き、文を受け付けなければステップＳ２０１に戻る。

【0033】

（ステップＳ２０２）第一分割部１３は、文のポインタｐを１に設定する。文のポインタｐは、文の中における、単語取得の先頭の位置を示す。

【0034】

（ステップＳ２０３）第一分割部１３は、単語分割用辞書１１に存在する単語であり、文の中のｐに対応する文字から、最大長の文字列と一致する単語を検索する。そして、第一分割部１３は、最大長の文字列である単語を単語分割用辞書１１から取得する。

【0035】

（ステップＳ２０４）第一分割部１３は、ステップＳ２０３で取得した単語が、分割情報に含まれる単語であるか否かを判断する。分割情報に含まれる単語であればステップＳ２０５に行き、分割情報に含まれる単語でなければステップＳ２０６に行く。

【0036】

（ステップＳ２０５）第一分割部１３は、ステップＳ２０３で取得した単語に対応する２以上の分割単語を、単語分割用辞書１１から取得する。そして、第一分割部１３は、２以上の分割単語をバッファに追記する。なお、バッファの初期値はＮＵＬＬである。また、第一分割部１３は、２以上の各分割単語に区切り文字を入れて、２以上の分割単語をバッファに追記する。区切り文字は、例えば、「／」「（スペース）」「，」等、何でも良い。ステップＳ２０７に行く。

【0037】

（ステップＳ２０６）第一分割部１３は、ステップＳ２０３で取得した単語をバッファに追記する。なお、第一分割部１３は、ステップＳ２０３で取得した単語と、前または／および後の単語との間には、区切り文字を配置する。

【0038】

（ステップＳ２０７）第一分割部１３は、ポインタｐを、最大長の文字列長の分だけ進める。

【0039】

（ステップＳ２０８）第一分割部１３は、すべての分割処理が終了したか否かを判断する。すべての分割処理が終了していればステップＳ２０９に行き、終了していなければステップＳ２０３に戻る。なお、ポインタｐが文の最後の文字の次の位置である場合、すべての分割処理が終了した、と言える。

【0040】

（ステップＳ２０９）出力部１４は、バッファ内の２以上の単語を出力する。ステップＳ２０１に戻る。

【0041】

なお、図２のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
また、図２のフローチャートにおいて、受け付けられた文の先頭から処理を開始し、文の終わりまで順に処理を行った。しかし、例えば、受け付けられた文の最後から処理を開始し、文の後から前の方向に処理を進めて行っても良い。つまり、ステップＳ２０２で、第一分割部１３は、文のポインタｐを文の最後に設定し、ステップＳ２０７で、ポインタｐを、最大長の文字列長の分だけ、文の前に戻っても良い。かかる場合、ステップＳ２０３で、第一分割部１３は、単語分割用辞書１１に存在する単語であり、文の中のｐに対応する文字から前にポインタを進めて、最大長の文字列と一致する単語を検索する。そして、第一分割部１３は、最大長の文字列である単語を単語分割用辞書１１から取得する。

【0042】

以下、本実施の形態における単語分割装置１の具体的な動作について説明する。

【0043】

今、図３が単語分割用辞書１１である。単語分割用辞書１１を構成するレコードは、「ＩＤ」「単語」「分割単語」を有する。単語分割用辞書１１のレコードは、品詞や出現確率等の他の情報を有しても良い。また、単語分割用辞書１１のレコードは、単語、または単語と分割情報の対を有する。

【0044】

単語に該当するレコードは、属性「分割単語」の値がＮＵＬＬ（図３の「−」）である。また、単語に該当するレコードは、例えば、図３の「ＩＤ＝５，６，８，９，１０，１１，１２，１３」のレコードである。また、単語と分割情報の対に該当するレコードは、属性「分割単語」の値が２以上の分割単語を有する。属性「分割単語」における分割単語は、ここでは、区切り文字「／」で区切られている。さらに、単語と分割情報の対に該当するレコードは、例えば、図３の「ＩＤ＝１，２，３，４，７」のレコードである。なお、単語分割用辞書１１のレコードは、「単語か、単語と分割情報の対かを示すフラグ」を属性値として有しても良い。

【0045】

（具体例１）
かかる状況において、受付部１２は、文「正夫はしっかり者だ」を受け付けた、とする。次に、第一分割部１３は、文のポインタｐを１に設定する。つまり、ポインタｐは文の「正」の位置に設定された。

【0046】

次に、第一分割部１３は、単語分割用辞書１１に存在する単語であり、文の中のｐに対応する文字「正」から、最大長の文字列と一致する単語「正夫」を検索し、取得する。

【0047】

次に、第一分割部１３は、取得した単語「正夫」が、分割情報に含まれる単語であるか否かを判断する。つまり、第一分割部１３は、単語「正夫」に対応する分割情報が「−（ＮＵＬＬ）」であると判断する。

【0048】

そして、第一分割部１３は、取得した単語「正夫」をバッファに追記する。

【0049】

次に、第一分割部１３は、単語「正夫」の文字列長「２」を算出する。次に、第一分割部１３は、ポインタｐを、最大長の文字列長の分「２」だけ進め、ポインタｐを文の「は」の位置に設定する。

【0050】

次に、第一分割部１３は、まだ、分割処理が終了していない、と判断する。

【0051】

次に、第一分割部１３は、単語分割用辞書１１に存在する単語であり、文の中のｐに対応する文字「は」から、最大長の文字列と一致する単語「は」を検索し、取得する。

【0052】

次に、第一分割部１３は、取得した単語「は」が、分割情報に含まれる単語であるか否かを判断する。つまり、第一分割部１３は、単語「は」に対応する分割情報が「−（ＮＵＬＬ）」であると判断する。

【0053】

そして、第一分割部１３は、取得した単語「は」をバッファに追記する。なお、第一分割部１３は、単語「は」の前に区切り文字「／」を入れて、バッファに追記する。そして、現在のバッファには「正夫／は」が格納された。

【0054】

次に、第一分割部１３は、単語「は」の文字列長「１」を算出する。次に、第一分割部１３は、ポインタｐを、最大長の文字列長の分「１」だけ進め、ポインタｐを文の「し」の位置に設定する。

【0055】

次に、第一分割部１３は、まだ、分割処理が終了していない、と判断する。

【0056】

次に、第一分割部１３は、単語分割用辞書１１に存在する単語であり、文の中のｐに対応する文字「し」から、最大長の文字列と一致する単語「しっかり者」を検索し、取得する。

【0057】

次に、第一分割部１３は、取得した単語「しっかり者」が、分割情報に含まれる単語であるか否かを判断する。つまり、単語「しっかり者」に対応する分割単語がＮＵＬＬでないので、第一分割部１３は、単語「しっかり者」が、分割情報に含まれる単語であると判断する。

【0058】

そして、第一分割部１３は、単語「しっかり者」に対応する分割情報「しっかり／者」を、単語分割用辞書１１から取得する。

【0059】

そして、第一分割部１３は、区切り文字「／」と取得した単語「しっかり／者」とをバッファに追記する。そして、現在のバッファには「正夫／は／しっかり／者」が格納された。

【0060】

次に、第一分割部１３は、単語「しっかり者」の文字列長「５」を算出する。次に、第一分割部１３は、ポインタｐを、最大長の文字列長の分「５」だけ進め、ポインタｐを文の「だ」の位置に設定する。

【0061】

次に、第一分割部１３は、まだ、分割処理が終了していない、と判断する。

【0062】

次に、第一分割部１３は、単語分割用辞書１１に存在する単語であり、文の中のｐに対応する文字「だ」から、最大長の文字列と一致する単語「だ」を検索し、取得する。

【0063】

次に、第一分割部１３は、取得した単語「だ」が、分割情報に含まれる単語であるか否かを判断する。つまり、第一分割部１３は、単語「だ」に対応する分割情報が「−（ＮＵＬＬ）」であると判断する。

【0064】

そして、第一分割部１３は、区切り文字「／」と取得した単語「だ」とをバッファに追記する。そして、現在のバッファには「正夫／は／しっかり／者／だ」が格納された。

【0065】

次に、第一分割部１３は、単語「だ」の文字列長「１」を算出する。次に、第一分割部１３は、ポインタｐを、最大長の文字列長の分「１」だけ進め、ポインタｐを文の「だ」の次の位置に設定する。

【0066】

次に、第一分割部１３は、分割処理が終了した、と判断する。

【0067】

そして、出力部１４は、バッファ内の２以上の分割された単語列「正夫／は／しっかり／者／だ」を出力する。

【0068】

（具体例２）
受付部１２は、文「そうはいってもまだ子供」を受け付けた、とする。次に、第一分割部１３は、文のポインタｐを１に設定する。つまり、ポインタｐは文の「そ」の位置に設定された。

【0069】

次に、第一分割部１３は、単語分割用辞書１１に存在する単語であり、文の中のｐに対応する文字「そ」から、最大長の文字列と一致する単語「そうはいっても」を検索し、取得する。

【0070】

次に、第一分割部１３は、取得した単語「そうはいっても」が、分割情報に含まれる単語であるか否かを判断する。つまり、単語「そうはいっても」に対応する分割単語がＮＵＬＬでないので、第一分割部１３は、単語「そうはいっても」が、分割情報に含まれる単語であると判断する。

【0071】

そして、第一分割部１３は、単語「そうはいっても」に対応する分割情報「そう／は／いって／も」を、単語分割用辞書１１から取得する。

【0072】

そして、第一分割部１３は、取得した単語「そう／は／いって／も」をバッファに追記する。そして、現在のバッファには「そう／は／いって／も」が格納された。

【0073】

次に、第一分割部１３は、単語「そうはいっても」の文字列長「７」を算出する。次に、第一分割部１３は、ポインタｐを、最大長の文字列長の分「７」だけ進め、ポインタｐを文の「ま」の位置に設定する。

【0074】

次に、第一分割部１３は、まだ、分割処理が終了していない、と判断する。

【0075】

次に、第一分割部１３は、単語分割用辞書１１に存在する単語であり、文の中のｐに対応する文字「ま」から、最大長の文字列と一致する単語「まだ」を検索し、取得する。

【0076】

次に、第一分割部１３は、取得した単語「まだ」が、分割情報に含まれる単語であるか否かを判断する。つまり、第一分割部１３は、単語「は」に対応する分割情報が「−（ＮＵＬＬ）」であると判断する。

【0077】

そして、第一分割部１３は、区切り文字「／」と取得した単語「まだ」とをバッファに追記する。そして、現在のバッファには「そう／は／いって／も／まだ」が格納された。

【0078】

次に、第一分割部１３は、単語「まだ」の文字列長「２」を算出する。次に、第一分割部１３は、ポインタｐを、最大長の文字列長の分「２」だけ進め、ポインタｐを文の「子」の位置に設定する。

【0079】

次に、第一分割部１３は、まだ、分割処理が終了していない、と判断する。

【0080】

次に、第一分割部１３は、単語分割用辞書１１に存在する単語であり、文の中のｐに対応する文字「子」から、最大長の文字列と一致する単語「子供」を検索し、取得する。

【0081】

次に、第一分割部１３は、取得した単語「子供」が、分割情報に含まれる単語であるか否かを判断する。つまり、第一分割部１３は、単語「は」に対応する分割情報が「−（ＮＵＬＬ）」であると判断する。

【0082】

そして、第一分割部１３は、区切り文字「／」と取得した単語「子供」とをバッファに追記する。そして、現在のバッファには「そう／は／いって／も／まだ／子供」が格納された。

【0083】

次に、第一分割部１３は、単語「まだ」の文字列長「２」を算出する。次に、第一分割部１３は、ポインタｐを、最大長の文字列長の分「２」だけ進め、ポインタｐを文の「供」の次の位置に設定する。

【0084】

次に、第一分割部１３は、分割処理が終了した、と判断する。

【0085】

そして、出力部１４は、バッファ内の２以上の分割された単語列「そう／は／いって／も／まだ／子供」を出力する。

【0086】

以上、本実施の形態によれば、非常に簡易な処理により、文を２以上の単語に分割できる。そのため、文の単語への分割が非常に高速に行える。

【0087】

なお、本実施の形態において、第一分割部１３が最大長の文字列である単語を単語分割用辞書１１から取得するアルゴリズムは問わない。

【0088】

さらに、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをＣＤ−ＲＯＭなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における単語分割装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、記録媒体に、１以上の単語と、単語と当該単語を分割した結果である２以上の分割単語の組である１以上の分割情報とを有する単語分割用辞書を格納しており、コンピュータを、１以上の文字を有する文を受け付ける受付部と、前記受付部が受け付けた文の先頭である文のポインタから最大長の文字列に一致する単語を、前記単語分割用辞書から取得し、当該取得した単語に対応する２以上の分割単語を有する場合は、前記一致する単語に変えて前記２以上の分割単語を取得する分割単語取得処理を行い、前記文のポインタを前記一致する単語の次の文字に移動した後、前記分割単語取得処理を文の最後の文字を含む単語まで行い、文を分割して得られる２以上の単語の集合である第一分割結果を取得する第一分割部と、前記第一分割結果を出力する出力部として機能させるためのプログラム、である。

【0089】

また、以下、単語分割装置１を用いた実験結果について説明する。実験において、単語分割装置１を実現するソフトウェアは、「MA-2」という名称である。
（実験１）

【0090】

実験１における他の単語分割装置として、公知技術である「MeCab 0.98」を用いた。「MeCab 0.98」は、「http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html」に記載されている。また、他の単語分割装置として、出願人が開発した単語分割装置であり、Viterbiアルゴリズムを用いた単語分割装置「MA-1」も用いた。図４に、上記の３つの装置に、ＵＴＦ−８日本語テキスト３８８．５ＭＢを入力し、各装置の処理速度（ＫＢ／ｓｅｃ）を測定した結果を示す。単語分割装置１である「MA-2」は、「MeCab 0.98」の４．３倍の処理速度であった。なお、単語分割装置１である「MA-2」によれば、新聞１年分を約３０秒で解析可能であることが分かる（図４参照）。
（実験２）

【0091】

次に、単語分割装置１「MA-2」を用いた実験２の結果について説明する。実験２の結果を、図５に記載する。実験２における他の単語分割装置として、公知技術である「JUMAN 6.0」「MeCab 0.98」「KyTea 0.3.0」「ChaSen 2.3.3」を用いた。「JUMAN 6.0」は「http://nlp.ist.i.kyoto-u.ac.jp/index.php?cmd=read&page=JUMAN&alias%5B%5D=%E6%97%A5%E6%9C%AC%E8%AA%9E%E5%BD%A2%E6%85%8B%E7%B4%A0%E8%A7%A3%E6%9E%90%E3%82%B7%E3%82%B9%E3%83%86%E3%83%A0JUMAN」、「KyTea 0.3.0」は「http://www.phontron.com/kytea/index-ja.html」、「ChaSen 2.3.3」は「http://chasen.naist.jp/hiki/ChaSen/」に記載されている。また、本実験において、上記の５つの装置に、ウェブ・テキスト８万文を入力し、各装置に解析させた場合の処理時間を測定した（図５参照）。図５により、単語分割装置１「MA-2」の処理速度は他より極めて速いことが分かる。なお、単語分割装置１のアルゴリズムおよびモデルは、図５に示す「深さ優先探索＋連語」である。

【0092】

（実施の形態２）
本実施の形態において、一の単語分割装置の分割結果と、他の複数の単語分割装置との相違部分が所定の条件を満たす場合、単語分割用辞書１１に分割情報を登録する辞書登録装置２について説明する。なお、他の単語分割装置は、従来の単語分割装置であり、高い精度で単語に分割できることが確認できている単語分割装置であることは好適である。

【0093】

図６は、本実施の形態における辞書登録装置２のブロック図である。辞書登録装置２は、単語分割用辞書１１、第一分割結果取得部２２、他分割結果取得部２３、相違部分取得部２４、分割情報取得部２５、および辞書登録部２６を備える。

【0094】

第一分割結果取得部２２は、第一分割結果を取得する。第一分割結果とは、一の単語分割装置が一の文を分割した結果である。第一分割結果は、１または２以上の単語の集合であり、通常、単語間が区切られていることを認識できる構造を有する。また、一の単語分割装置は、例えば、単語分割装置１である。第一分割結果取得部２２は、一の単語分割装置から第一分割結果を受信しても良いし、図示しない記録媒体に格納されている第一分割結果を読み出しても良いし、受け付けられた一の文を分割し、第一分割結果を取得しても良い。第一分割結果取得部２２が受け付けられた一の文を分割し、第一分割結果を取得する場合、第一分割結果取得部２２は第一分割部１３と同等の機能を有する。

【0095】

他分割結果取得部２３は、２以上の他分割結果を取得する。他分割結果は、他単語分割装置が一の文を分割した結果である。他分割結果は、２以上の単語の集合であり、単語間が区切られていることを認識できる構造を有する。なお、他単語分割装置は、上記の一の単語分割装置ではない単語分割装置である。

【0096】

他分割結果取得部２３は、２つの他分割結果である、第二分割結果および第三分割結果を取得しても良い。

【0097】

相違部分取得部２４は、１以上の相違部分を取得する。相違部分とは、第一分割結果と他分割結果との相違する部分である。また、相違部分は、他分割結果に含まれる部分である。なお、相違部分取得部２４は、２以上の相違部分を取得しても良い。また、相違部分取得部２４は、一の文に対して、２箇所以上の相違部分を取得しても良い。相違部分は、通常、２以上の分割単語を有する。

【0098】

他単語分割装置が、例えば、第二単語分割装置および第三単語分割装置であり、第二単語分割装置が取得した分割結果が第二分割結果、第三単語分割装置が取得した分割結果が第三分割結果である場合、相違部分取得部２４は、例えば、第一分割結果と第二分割結果との相違部分である第一相違部分と、第一分割結果と第三分割結果との相違部分である第二相違部分とを取得しても良い。

【0099】

分割情報取得部２５は、相違部分取得部２４が取得した１以上の相違部分が予め決められた条件を満たす場合、１以上のいずれかの相違部分を用いて、分割情報を構成する。分割情報は、相違部分に対応する文字列である単語と、相違部分である２以上の単語とを有する情報である。予め決められた条件を満たすか否かが判断される相違部分は、文の中の同一の相違する箇所における相違部分である。また、相違部分とは、単語への分割の仕方が相違する部分である。

【0100】

ここで、予め決められた条件は、例えば、２以上のすべての相違部分が同じことである。また、予め決められた条件は、例えば、２以上の相違部分のうち、Ｎ（Ｎは、例えば、５０％）以上の相違部分が同じことであっても良い。

【0101】

つまり、例えば、分割情報取得部２５は、第一相違部分と第二相違部分とが共通する場合、第一相違部分を用いて、第一相違部分（または第二相違部分）に対応する文字列である単語と、第一相違部分（または第二相違部分）である２以上の単語とを有する分割情報を構成する。ここで、第一相違部分と第二相違部分とは同じであるので、どちらを用いて分割情報を構成しても、分割情報は同じになる。

【0102】

辞書登録部２６は、分割情報取得部２５が取得した分割情報を単語分割用辞書１１に蓄積する。

【0103】

第一分割結果取得部２２、および他分割結果取得部２３は、例えば、無線または有線の通信手段により実現され得る。また、第一分割結果取得部２２等は、ＭＰＵやメモリ等から実現されても良い。

【0104】

相違部分取得部２４、分割情報取得部２５、辞書登録部２６は、通常、ＭＰＵやメモリ等から実現され得る。相違部分取得部２４の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

【0105】

次に、辞書登録装置２の動作について、図７のフローチャートを用いて説明する。

【0106】

（ステップＳ７０１）第一分割結果取得部２２は、第一分割結果を取得する。

【0107】

（ステップＳ７０２）他分割結果取得部２３は、２以上の他分割結果を取得する。

【0108】

（ステップＳ７０３）相違部分取得部２４は、カウンタｉに１を代入する。

【0109】

（ステップＳ７０４）相違部分取得部２４は、ステップＳ７０２で取得した他分割結果の中に、ｉ番目の他分割結果が存在するか否かを判断する。ｉ番目の他分割結果が存在すればステップＳ７０５に行き、ｉ番目の他分割結果が存在しなければステップＳ７０９に行く。

【0110】

（ステップＳ７０５）相違部分取得部２４は、第一分割結果とｉ番目の他分割結果との相違部分を取得する。かかる処理を相違部分取得処理という。相違部分取得処理について、図８のフローチャートを用いて説明する。

【0111】

（ステップＳ７０６）相違部分取得部２４は、ステップＳ７０５で相違部分が取得できたか否かを判断する。相違部分を取得できればステップＳ７０７に行き、取得できなければステップＳ７０８に行く。

【0112】

（ステップＳ７０７）相違部分取得部２４は、ステップＳ７０６で取得した相違部分を、図示しないバッファに一時蓄積する。なお、相違部分を蓄積することは、相違部分を示す情報を蓄積することと同意義である。また、相違部分を示す情報とは、例えば、相違部分の開始文字、終了文字を示すポインタ等である。さらに、一の文において２箇所以上の相違する箇所が存在する場合、相違部分取得部２４は、箇所ごとに、相違部分を一時蓄積する。

【0113】

（ステップＳ７０８）相違部分取得部２４は、カウンタｉを１、インクリメントする。ステップＳ７０４に戻る。

【0114】

（ステップＳ７０９）分割情報取得部２５は、カウンタｊに１を代入する。

【0115】

（ステップＳ７１０）分割情報取得部２５は、ｊ番目の相違する箇所が存在するか否かを判断する。ｊ番目の相違する箇所が存在すればステップＳ７１１に行き、存在しなければ処理を終了する。

【0116】

（ステップＳ７１１）分割情報取得部２５は、ｊ番目の相違箇所に関して、バッファ内の１以上の相違部分が予め決められた条件を満たすか否かを判断する。予め決められた条件を満たす場合はステップＳ７１２に行き、予め決められた条件を満たさない場合はステップＳ７１６に行く。

【0117】

（ステップＳ７１２）分割情報取得部２５は、ｊ番目の相違箇所に関して、相違部分に対応する文字列である単語を取得する。なお、この単語は、通常、連語であり、分割情報を構成する単語である。

【0118】

（ステップＳ７１３）分割情報取得部２５は、相違部分である２以上の分割単語を取得する。

【0119】

（ステップＳ７１４）分割情報取得部２５は、ステップＳ７１２で取得した単語と、ステップＳ７１３で取得した２以上の分割単語を用いて、分割情報を構成する。

【0120】

（ステップＳ７１５）辞書登録部２６は、ステップＳ７１４で構成された分割情報を単語分割用辞書１１に蓄積する。

【0121】

（ステップＳ７１６）分割情報取得部２５は、カウンタｊを１、インクリメントする。ステップＳ７１０に戻る。

【0122】

なお、図７のフローチャートにおいて、第一分割結果と他分割結果との相違部分は、通常、一箇所であるが、２箇所以上存在しても良い。

【0123】

次に、ステップＳ７０５の相違部分取得処理について、図８のフローチャートを用いて説明する。

【0124】

（ステップＳ８０１）相違部分取得部２４は、カウンタｉ、およびｊに１を代入する。ここで、カウンタｉは第一分割結果の中の分割単語のカウンタであり、カウンタｊは第二分割結果の中の分割単語のカウンタである。

【0125】

（ステップＳ８０２）相違部分取得部２４は、第一分割結果の中にｉ番目の分割単語が存在するか否かを判断する。ｉ番目の分割単語が存在すればステップＳ８０３に行き、ｉ番目の分割単語が存在しなければ処理を終了する。

【0126】

（ステップＳ８０３）相違部分取得部２４は、第一分割結果の中のｉ番目の分割単語を取得する。

【0127】

（ステップＳ８０４）相違部分取得部２４は、他分割結果の中のｊ番目の分割単語を取得する。

【0128】

（ステップＳ８０５）相違部分取得部２４は、ステップＳ８０３で取得したｉ番目の分割単語と、ステップＳ８０４で取得したｊ番目の分割単語とが同一か否かを判断する。２つの分割単語が同一であればステップＳ８０６に行き、同一でなければステップＳ８０７に行く。

【0129】

（ステップＳ８０６）相違部分取得部２４は、カウンタｉ、およびｊを、１インクリメントする。ステップＳ８０２に戻る。

【0130】

（ステップＳ８０７）相違部分取得部２４は、第一分割結果の分割単語の最後の文字と、他分割結果の分割単語の最後の文字とが一致するまで、または文の終了まで、iとｊとを進める。なお、分割単語の最後の文字が一致するとは、文字コードが一致する意味ではなく、分割対象の文の中の文字が同じ位置の文字であることである。なお、位置が同じ位置の文字は、文字コードも同じである。また、iとｊとを進めるとは、現在のｉ，ｊの位置から、それぞれ進めていくことである。

【0131】

（ステップＳ８０８）相違部分取得部２４は、ステップＳ８０７でｊを進める前の分割単語から、ｊを進めた後の分割単語までを、相違部分として取得する。ステップＳ８０６に戻る。

【0132】

以下、本実施の形態における辞書登録装置２の具体的な動作について説明する。具体例において、他の単語分割装置は、単語分割装置Ａと単語分割装置Ｂの２つであり、辞書登録するための予め決められた条件は相違部分が一致すること、として説明する。つまり、他分割結果取得部２３は、第二分割結果および第三分割結果を取得する。また、相違部分取得部２４は、第一分割結果と第二分割結果との相違部分である第一相違部分と、第一分割結果と第三分割結果との相違部分である第二相違部分とを取得するものとする。さらに、第一分割結果を取得する装置は、上述した単語分割装置１である、とする。なお、
なお、単語分割装置Ａと単語分割装置Ｂは、例えば、上述した「MeCab 0.98」「JUMAN 6.0」「KyTea 0.3.0」「ChaSen 2.3.3」等である。また、単語分割装置Ａと単語分割装置Ｂとは、異なる単語分割装置である。

【0133】

ここで、単語分割装置１、および他の２つの単語分割装置は、文「自由形式で間違いはないか」を受け付けたとする。

【0134】

次に、単語分割装置１は、第一分割結果「自由形／式／で／間違い／はな／いか」を取得した、とする。また、他の単語分割装置Ａは、「自由形／式／で／間違い／は／ない／か」を取得した、とする。さらに、他の単語分割装置Ｂは、「自由／形式／で／間違い／は／ない／か」を取得した、とする。

【0135】

かかる状況において、辞書登録装置２の第一分割結果取得部２２は、第一分割結果「自由形／式／で／間違い／はな／いか」を、単語分割装置１から取得する。

【0136】

次に、他分割結果取得部２３は、単語分割装置Ａから他分割結果Ａ「自由形／式／で／間違い／は／ない／か」を取得する。また、他分割結果取得部２３は、単語分割装置Ｂから他分割結果Ａ「自由／形式／で／間違い／は／ない／か」を取得する。

【0137】

次に、相違部分取得部２４は、第一分割結果と他分割結果Ａとの相違部分「は／ない／か」を取得する。そして、相違部分取得部２４は、相違部分「は／ない／か」をバッファに一時蓄積する。なお、相違部分「は／ない／か」の文中における箇所を他の箇所と区別するため、相違部分取得部２４は、相違部分「は／ない／か」と、文中の位置を示す「９」とを対応付けて蓄積することは好適である。ここで、「９」は、「は／ない／か」の最初の文字「は」の文中でのオフセット（最初からの文字数）である。また、第一分割結果と他分割結果Ａとは、「自由形／式／で／間違い」までの分割単語は同一であり、相違部分取得部２４は、「自由形／式／で／間違い」までの分割単語に関して、相違部分を取得しない。

【0138】

次に、相違部分取得部２４は、第一分割結果と他分割結果Ｂとの相違部分「自由／形式」、および「は／ない／か」を取得する。そして、相違部分取得部２４は、相違部分「自由／形式」、および「は／ない／か」をバッファに一時蓄積する。なお、相違部分取得部２４は、相違部分「自由／形式」と、文中の位置を示す「１」とを対応付けて蓄積することは好適である。また、相違部分取得部２４は、相違部分「は／ない／か」と、文中の位置を示す「９」とを対応付けて蓄積することは好適である。また、第一分割結果と他分割結果Ｂとは、「で／間違い」の中の分割単語は同一であり、相違部分取得部２４は、「で／間違い」の分割単語に関して、相違部分を取得しない。

【0139】

次に、分割情報取得部２５は、１箇所目の相違部分「自由／形式」をバッファから取得する。ここで、分割情報取得部２５は、相違部分「自由／形式」を一つだけ取得する。しかし、１箇所目の相違部分「自由／形式」に関して、他分割結果Ａから取得された相違部分と他分割結果Ｂから取得された相違部分とが共通しないので、予め決められた条件を満たさない、と分割情報取得部２５は判断する。そして、分割情報取得部２５は、１箇所目の相違部分「自由／形式」に関して、分割情報を構成しない。

【0140】

次に、分割情報取得部２５は、２箇所目の相違部分「は／ない／か」をバッファから取得する。ここで、分割情報取得部２５は、相違部分「は／ない／か」を二つ取得する。そして、２箇所目の相違部分「は／ない／か」に関して、他分割結果Ａから取得された相違部分と他分割結果Ｂから取得された相違部分とが共通するので、予め決められた条件を満たす、と分割情報取得部２５は判断する。

【0141】

次に、分割情報取得部２５は、２箇所目の相違部分「は／ない／か」に対応する文字列「はないか」を取得する。また、分割情報取得部２５は、相違部分である２以上の分割単語「は／ない／か」を取得する。次に、分割情報取得部２５は、単語「はないか」と２以上の分割単語「は／ない／か」を用いて、分割情報「はないか：は／ない／か」を構成する。

【0142】

次に、辞書登録部２６は、構成された分割情報「はないか：は／ない／か」を単語分割用辞書１１に蓄積する。

【0143】

以上、本実施の形態によれば、精度の高い単語分割用辞書を得ることができる。

【0144】

なお、本実施の形態によれば、分割情報を登録する条件は、上述したように種々考えられる。

【0145】

また、本実施の形態によれば、他の単語分割装置が３以上の多数存在し、共通する相違部分の割合（数でも良い）の閾値を大きくすれば、大きくするほど、精度の高い単語分割用辞書を構築できる。

【0146】

さらに、本実施の形態における辞書登録装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、記録媒体に、１以上の単語と、単語と当該単語を分割した結果である２以上の分割単語の組である１以上の分割情報とを格納し得る単語分割用辞書を格納しており、コンピュータを、一の単語分割装置が一の文を分割した結果である第一分割結果を取得する第一分割結果取得部と、前記一の単語分割装置ではない単語分割装置である２以上の他単語分割装置が、前記一の文を分割した結果である２以上の他分割結果を取得する他分割結果取得部と、前記２以上の各他分割結果に含まれる部分であり、前記第一分割結果と前記２以上の各他分割結果との相違する部分である１以上の相違部分を取得する相違部分取得部と、前記相違部分取得部が取得した１以上の相違部分が予め決められた条件を満たす場合、１以上のいずれかの相違部分を用いて、当該相違部分に対応する文字列である単語と、当該相違部分である２以上の単語とを有する分割情報を構成する分割情報取得部と、前記分割情報を前記単語分割用辞書に蓄積する辞書登録部として機能させるためのプログラム、である。

【0147】

また、上記プログラムにおいて、前記他分割結果取得部は、２つの他分割結果である、第二分割結果および第三分割結果を取得し、前記相違部分取得部は、前記第一分割結果と前記第二分割結果との相違部分である第一相違部分と、前記第一分割結果と前記第三分割結果との相違部分である第二相違部分とを取得し、前記分割情報取得部は、前記第一相違部分と前記第二相違部分とが共通する場合、当該第一相違部分を用いて、当該第一相違部分に対応する文字列である単語と、当該第一相違部分である２以上の単語とを有する分割情報を構成するものとして、コンピュータを機能させることは好適である。

【0148】

（実施の形態３）
本実施の形態において、実施の形態２で説明した辞書登録装置２が含まれる単語分割装置３について説明する。

【0149】

また、本実施の形態において、他単語分割装置も含まれていても良い。なお、他単語分割装置は、例えば、上述した「MeCab 0.98」「JUMAN 6.0」「KyTea 0.3.0」「ChaSen 2.3.3」等である。

【0150】

図９は、本実施の形態における単語分割装置３のブロック図である。単語分割装置３は、辞書登録装置２、２以上の他単語分割装置３１、受付部１２、第一分割部１３、出力部１４を備える。

【0151】

次に、単語分割装置３の動作について、図１０のフローチャートを用いて説明する。図１０のフローチャートにおいて、図２のフローチャートと同一のステップについて説明を省略する。

【0152】

（ステップＳ１００１）受付部１２は、カウンタｉに、１を代入する。

【0153】

（ステップＳ１００２）受付部１２は、ｉ番目の他単語分割装置３１が存在するか否かを判断する。ｉ番目の他単語分割装置３１が存在すればステップＳ１００３に行き、ｉ番目の他単語分割装置３１が存在しなければステップＳ１００５に行く。

【0154】

（ステップＳ１００３）ｉ番目の他単語分割装置３１は、受付部１２から文を受け付け、当該文に対して、単語に分割する処理を行う。そして、ｉ番目の他単語分割装置３１は、他分割結果を取得する。

【0155】

（ステップＳ１００４）受付部１２は、カウンタｉを１、インクリメントする。ステップＳ１００２に戻る。

【0156】

（ステップＳ１００５）辞書登録装置２は、辞書登録処理を行う。辞書登録処理は、図７を用いて説明した処理である。ステップＳ２０１に戻る。

【0157】

なお、図１０のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。

【0158】

以上、本実施の形態によれば、精度の高い単語分割用辞書を用いて、文を２以上の単語に高速に分割できる。

【0159】

また、本実施の形態によれば、文を２以上の単語に分割する処理を行いながら、単語分割用辞書を充実させていくことができる。

【0160】

なお、本実施の形態によれば、単語分割装置３は、２以上の他単語分割装置３１を具備した。しかし、２以上の他単語分割装置３１は、単語分割装置３の外部に存在しても良い。かかる場合、単語分割装置３は、辞書登録装置２、受付部１２、第一分割部１３、出力部１４を備える。そして、かかる場合、単語分割装置３は、２以上の各他単語分割装置３１から、他分割結果を取得する。

【0161】

さらに、本実施の形態における単語分割装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、記録媒体に、１以上の単語と、単語と当該単語を分割した結果である２以上の分割単語の組である１以上の分割情報とを格納し得る単語分割用辞書を格納しており、コンピュータを、一の単語分割装置が一の文を分割した結果である第一分割結果を取得する第一分割結果取得部と、前記一の単語分割装置ではない単語分割装置である２以上の他単語分割装置が、前記一の文を分割した結果である２以上の他分割結果を取得する他分割結果取得部と、前記２以上の各他分割結果に含まれる部分であり、前記第一分割結果と前記２以上の各他分割結果との相違する部分である１以上の相違部分を取得する相違部分取得部と、前記相違部分取得部が取得した１以上の相違部分が予め決められた条件を満たす場合、１以上のいずれかの相違部分を用いて、当該相違部分に対応する文字列である単語と、当該相違部分である２以上の単語とを有する分割情報を構成する分割情報取得部と、前記分割情報を前記単語分割用辞書に蓄積する辞書登録部として機能させるためのプログラム、である。

【0162】

また、上記プログラムにおいて、２以上の他単語分割装置として、コンピュータをさらに機能させることは好適である。

【0163】

また、図１１は、本明細書で述べたプログラムを実行して、上述した種々の実施の形態の辞書登録装置等を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。図１１は、このコンピュータシステム３００の概観図であり、図１２は、システム３００のブロック図である。

【0164】

図１１において、コンピュータシステム３００は、ＣＤ−ＲＯＭドライブを含むコンピュータ３０１と、キーボード３０２と、マウス３０３と、モニタ３０４とを含む。

【0165】

図１２において、コンピュータ３０１は、ＣＤ−ＲＯＭドライブ３０１２に加えて、ＭＰＵ３０１３と、ＭＰＵ３０１３、ＣＤ−ＲＯＭドライブ３０１２に接続されたバス３０１４と、ブートアッププログラム等のプログラムを記憶するためのＲＯＭ３０１５と、ＭＰＵ３０１３に接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのＲＡＭ３０１６と、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク３０１７とを含む。ここでは、図示しないが、コンピュータ３０１は、さらに、ＬＡＮへの接続を提供するネットワークカードを含んでも良い。

【0166】

コンピュータシステム３００に、上述した実施の形態の辞書登録装置等の機能を実行させるプログラムは、ＣＤ−ＲＯＭ３１０１に記憶されて、ＣＤ−ＲＯＭドライブ３０１２に挿入され、さらにハードディスク３０１７に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ３０１に送信され、ハードディスク３０１７に記憶されても良い。プログラムは実行の際にＲＡＭ３０１６にロードされる。プログラムは、ＣＤ−ＲＯＭ３１０１またはネットワークから直接、ロードされても良い。

【0167】

プログラムは、コンピュータ３０１に、上述した実施の形態の辞書登録装置等の機能を実行させるオペレーティングシステム（ＯＳ）、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能（モジュール）を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム３００がどのように動作するかは周知であり、詳細な説明は省略する。

【0168】

なお、上記プログラムにおいて、情報を送信する送信ステップや、情報を受信する受信ステップなどでは、ハードウェアによって行われる処理、例えば、送信ステップにおけるモデムやインターフェースカードなどで行われる処理（ハードウェアでしか行われない処理）は含まれない。

【0169】

また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。

【0170】

また、上記各実施の形態において、一の装置に存在する２以上の通信手段は、物理的に一の媒体で実現されても良いことは言うまでもない。

【0171】

また、上記各実施の形態において、各処理（各機能）は、単一の装置（システム）によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。

【0172】

本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。

【産業上の利用可能性】

【0173】