特許第5750815号(P5750815)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 学校法人神奈川大学の特許一覧

<>
  • 特許5750815-漢字複合語分割装置 図000003
  • 特許5750815-漢字複合語分割装置 図000004
  • 特許5750815-漢字複合語分割装置 図000005
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】5750815
(24)【登録日】2015年5月29日
(45)【発行日】2015年7月22日
(54)【発明の名称】漢字複合語分割装置
(51)【国際特許分類】
   G06F 17/27 20060101AFI20150702BHJP
【FI】
   G06F17/27 655
【請求項の数】1
【全頁数】14
(21)【出願番号】特願2014-93227(P2014-93227)
(22)【出願日】2014年4月28日
(62)【分割の表示】特願2010-222057(P2010-222057)の分割
【原出願日】2010年9月30日
(65)【公開番号】特開2014-149869(P2014-149869A)
(43)【公開日】2014年8月21日
【審査請求日】2014年5月20日
(31)【優先権主張番号】特願2009-228800(P2009-228800)
(32)【優先日】2009年9月30日
(33)【優先権主張国】JP
(73)【特許権者】
【識別番号】592218300
【氏名又は名称】学校法人神奈川大学
(74)【代理人】
【識別番号】100131679
【弁理士】
【氏名又は名称】▲高▼橋 幸夫
(72)【発明者】
【氏名】後藤 智範
(72)【発明者】
【氏名】梅木 定博
【審査官】 成瀬 博之
(56)【参考文献】
【文献】 特開平5−20302(JP,A)
【文献】 原田隆史 他6名,複合語の解析による語の上位−下位関係の自動構築,情報処理学会研究報告,日本,社団法人情報処理学会,1989年 1月20日,Vol.89,No.6,1−8頁,(89−NL−70)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 17/20−17/28
(57)【特許請求の範囲】
【請求項1】
連続する漢字列で構成された漢字複合語を分割する場合の基となる基本単語と該基本単語に該当する品詞を関連付け、該基本単語の字数毎に分類して、該基本単語と該品詞の両者を記録した日本語辞書と、
前記漢字複合語から抽出する漢字列の先頭の文字位置としての抽出先頭位置を前記漢字複合語の語頭又は前記漢字複合語の語頭から設定変更した最新の抽出先頭文字の位置とし、前記漢字複合語の中から、該抽出先頭位置から設定した抽出字数分の漢字列を抽出する漢字列抽出処理手段と、
前記漢字列抽出処理手段で抽出した漢字列のいずれかの漢字に変更したフラグが付与されているか判定し、前記漢字列抽出処理手段で抽出した漢字列のいずれかの漢字に変更したフラグが付与されている場合には、前記抽出先頭文字を前記抽出先頭位置から一字分後方のものに設定変更して、前記漢字列抽出処理手段に戻るフラグ付与判定処理手段と、
前記日本語辞書を参照して、前記漢字列抽出処理手段で抽出した漢字列を基本単語と照合する基本単語照合処理手段と、
前記基本単語照合処理手段において、前記漢字列抽出処理手段で抽出した漢字列と一致する基本単語が見つかった場合には、前記日本語辞書に従い、該基本単語と一致する抽出した漢字列に品詞を付与してから、該基本単語と一致する抽出した漢字列の語尾とその直後の漢字の間を、前記漢字複合語を分割する区切位置として決定すると共に、該基本単語と一致する抽出した漢字列を構成する各々の漢字に付与されたフラグを変更した後、前記漢字複合語において、該基本単語と一致する漢字複合語から抽出した漢字列の後方に前記抽出字数以上の文字数の漢字があるか確認し、前記漢字複合語において、該基本単語と一致する漢字複合語から抽出した漢字列の後方に前記抽出字数未満の文字数の漢字しかないときは、前記抽出字数を一つ減らして設定すると共に、前記抽出先頭文字を前記漢字複合語の語頭に設定変更して、前記漢字列抽出処理手段に戻り、
前記漢字複合語において、該基本単語と一致する漢字複合語から抽出した漢字列の後方に前記抽出字数以上の文字数の漢字があるときは、前記抽出先頭文字を前記抽出先頭位置から抽出字数分後方のものに設定変更して、前記漢字列抽出処理手段に戻る第一の照合結果処理手段と、
前記基本単語照合処理手段において、前記漢字列抽出処理手段で抽出した漢字列と一致する基本単語が見つからなかった場合には、前記漢字複合語において、該基本単語と一致しなかった漢字複合語から抽出した漢字列の後方に漢字があるか確認し、前記漢字複合語において、該基本単語と一致しなかった漢字複合語から抽出した漢字列の後方に漢字がないときは、前記抽出字数を一つ減らして設定すると共に、前記抽出先頭文字を前記漢字複合語の語頭に設定変更して、前記漢字列抽出処理手段に戻り、前記漢字複合語において、該基本単語と一致しなかった漢字複合語から抽出した漢字列の後方に漢字があるときは、前記抽出先頭文字を前記抽出先頭位置から一字分後方のものに設定変更して、前記漢字列抽出処理手段に戻る第二の照合結果処理手段と、
前記漢字複合語を構成するすべての漢字に変更されたフラグが付与されている場合又は設定した抽出字数が0になった場合には、第一の照合結果処理手段で決定した区切位置を、前記漢字複合語を分割する区切位置として確定し、変更したフラグが付与されていない漢字については1字未知語と定める区切位置確定処理手段と、
を含むことを特徴とする漢字複合語分割装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、日本語文書に含まれる連続する漢字列で構成された漢字複合語を超高精度で分割することができる漢字複合語分割装置に関するものである。
【背景技術】
【0002】
日本語文書において、主要な概念・テーマは、漢字熟語又は漢字熟語を含む名詞句に表現されることが多い。
【0003】
漢字複合語は、専門性、特殊性が高く、情報の価値が高いため、漢字複合語を適切に分割する必要性が高まっている。ところが、数文字(例えば、5文字)以上の連続する漢字列で構成された漢字複合語は、非常に複雑な構造を有するため、漢字複合語を高精度で分割することは容易でない。
【0004】
漢字複合語を分割する手法として、例えば、特許文献1には、単語分割処理として入力した単語の漢字列部分の文字数を設定し、頻度情報配列、単語分割指標配列、分割識別子配列をクリアした後、漢字2文字組の文字列の単語頭及び単語末に出現する頻度情報を備えた辞書に基づいて設定された文字境界の単語末頻度と単語頭頻度から、文字境界に基本単語分割指標(相乗平均・相加平均)及び接辞分割指標(頻度差・頻度和)を設定して、設定した指標により、2文字の漢字語基と1文字の接辞(接頭辞又は接尾辞)に分割する複合語分割装置及び複合語分割方法が開示されている。
【0005】
特許文献1では、分割は、頻度情報配列、単語分割指標配列、分割識別子配列の3つのデータに基づいてなされる。最初に、対象漢字熟語の長さを設定する。先頭からの個々の文字の位置を示す文字位置と先頭から文字間の境界を示す文字境界位置の2つの指標を用いる。先頭の文字境界位置は0に設定される。文字境界位置に対して、前の2文字漢字列の単語末頻度、後ろの2文字漢字列の単語頭頻度を、頻度格納配列f[I,n](I=1,2,n=0,・・・,N)に設定する。文字位置p(=1)から1字ずつずらしながら、対象漢字熟語中の2文字漢字列(p=1,・・・,N−1)を辞書と照合し、対応する2種類の頻度を設定する。これら2つの頻度に基づき、基本単語分割指標(w[1,i]と接辞分割指標(w[2,i])を設定し、単語分割指標配列に格納される。
【0006】
特許文献1では、これらの指標について、複数の計算式を提案している。
(a) 和と差
w[1,i]=f[1,i]+f[2,i]
w[2,i]=f[1,i]−f[2,i]
(b)相乗平均と頻度差を頻度和で正規化された値
w[1,i]=(f[2,i]・f[1,i])/2
w[2,i]=(f[1,i]+f[2,i]))/(f[1,i]−f[2,i])
【0007】
特許文献1では、これらの指標以外に、基本単語分割指標として擬似的な確率指標や確率の積、また接辞分割指標としてこれらの正規化差を提案している。
【0008】
特許文献1では、分割境界の決定は、上述の2つの指標、基本単語分割指標(Cut−W)と接辞分割指標(Cut−P)の値の大きさ基づいてなされる。最初に、基本単語分割指標の最大の大きさもつi番目の境界で、対象漢字列を2つに部分漢字列に分割する。それぞれの部分漢字列をさらに2分割し、部分漢字列の長さが4文字以下になるまで、再帰的に繰り返す。次に、長さが3文字以上の部分漢字列を対象に、接辞分割指標に基づいて、接頭辞と基本単語に分割する。接辞分割指標の値が正の場合には、接頭辞と基本単語に分割され、接辞分割指標の値が負の場合には基本単語と接尾辞に分割される。
【0009】
特許文献1では、実例として「対共産圏輸出統制委員会」を挙げて、分割の過程が説明されている。新聞記事1年分(120MB)を対象に、2文字漢字列の2種類の出現頻度情報を算出している。当該熟語を構成する2文字漢字列と、単語頭頻度、単語末頻度は、「委員」(1930,2972)、「員会」(3,7594)、「共産」(1735,217)、「産圏」(0,15)、「制委」(0,1)、「対共」(24,0)、「統制」(99,145)、「輸出」(1529,900)とし、これらの頻度から、基本単語分割指標(w[1,i])として上述の(b)を使用すると、「対/共産圏/輸出/統制/委/員会」(1735,151.4,28.5,529.0,1.7)となる。ここで、“/”は分割境界を示し、カッコ内の数値はその単語分割指標を示している。また、接辞の分割境界とその値は、「対/共産/圏/輸出/統制/委/員会」(+1,−1,−0.98,−0.80,+0.86,+0.5,−1)となる。最初に最大値529.0をもつ8文字目の境界で分割し、「対共産圏輸出統制」、「委員会」の2つの部分漢字列に分割される。前者は4文字以上で、さらに、「対共産圏輸出」と「統制」に分割されるが、後者は3文字なのでこれ以上分割されない。対共産圏輸出」は、「対共産圏」と「輸出」に分割される。次に、「対共産圏」と「委員会」に対して、接辞分割指標に基づいて、分割がなされ、正の値をとる「対」が接頭辞に、負の値をとる「圏」、「会」が接尾辞として識別される。
【0010】
漢字複合語の分割に関する特許文献以外の先行研究としては、例えば、係り受けに着目した手法(非特許文献1)、語基間の接続確率に基づく手法(非特許文献2)、名詞間の意味の共起確率を利用した手法(非特許文献3)、文脈情報を利用した手法(非特許文献4)が挙げられる。
【0011】
係り受け解析を用いた手法(非特許文献1)
非特許文献では、漢字複合語を構成する語基間の係り受けに着目した自動分割手法が提案されている。「前方の単語から後方の単語に係る」、「単語の係り先は一つに限る」、「複数の単語を一つの単語が受けてもいい」、「係り受けの非交差性を守る」を原則として、数詞、接辞、一般語の3種類に品詞分類し、品詞毎に係り受け規則を定めている。
【0012】
非特許文献1では、分割は、形態素解析を行い、全分割パターンを作成し、基本単語数をそれぞれ算出するステップ1と、各分割パターンの係り受けの個数を求めるステップ2と、係り受け解析を行いステップ2で求めた語基数の差を求めるステップ3と、差が最小となる分割パターンを自動分割の解とするステップ4の4つのステップにより構成され、ステップ4で解が一意に判断できない場合には、単語の使用頻度による選択を行っている。
【0013】
非特許文献1において、例えば、「畜産物価格安定法」は次の過程を経て分割される。分割パターン1を「畜産 物価 格安 定法」、分割パターン2を「畜産 物 価格 安 定法」、分割パターン3を「畜産 物価 格 安 定法」、分割パターン4を「畜産 物 価格 安定 法」、分割パターン5を「畜産 物価 格 安定 法」とする。分割パターン1の基本単語数は4、分割パターン2の基本単語数は5、分割パターン3の基本単語数は5、分割パターン4の基本単語数は5、分割パターン5の基本単語数は5となる(ステップ1)。分割パターン1の係り受けの個数は1、分割パターン2の係り受けの個数は2、分割パターン3の係り受けの個数は1、分割パターン4の係り受けの個数は3、分割パターン5の係り受けの個数は2となる(ステップ2)。分割パターン1の語基数の差は4−1=3、分割パターン2の語基数の差は5−2=3、分割パターン3の語基数の差は5−0=5、分割パターン4の語基数の差は5−3=2、分割パターン5の語基数の差は5−2=3となり、ステップ3の最小値は3で、結果として分割解「畜産 物 価格 安定 法」を得る。
【0014】
語基間の接続確率に基づく手法(非特許文献2)
非特許文献2では、漢字複合語をマルコフモデルの出力と考え、状態遷移モデルで表現し、基本単語からなる語の各遷移確率を用いた自動分割手法の提案を行っている。非特許文献2は、漢字熟語を(接頭辞)基本単語(接尾辞)の形で表現し、初期状態から終了状態までの遷移確率を求め、それが最大となるパターンを解とする。遷移確率は、ベイズの事後確率推定法を利用し、初期確率と繰り返し時の確率を求めるという方法で、レーニングデータを対象に「状態遷移確率推定アルゴリズム」を用いて、トレーニングデータ中の基本単語間の遷移確率を算出している。
【0015】
非特許文献2において、熟語分割は、:漢字複合語の短単位モデルの遷移図を生成し(ステップ1)、各状態遷移確率を求め(ステップ2)、状態遷移確率が最大のものを解とする(ステップ3)という手順で行われる。
【0016】
非特許文献2において、例えば、「太陽熱発電」は以下のように分割される。分割解1「太 陽熱 発電」の遷移起確率は0.0175、分割解2「太陽 熱 発電」の遷移起確率は0.056、分割解3「太陽 熱 発電」の遷移確率は0.036、分割解4「太陽 熱発 電」の遷移確率は0.012となる。ここで、分割解2と分割解3は分割位置が同じであるが、分割解2では「熱」が接尾辞として扱われ、分割解3では「熱」が接頭辞として扱われるため、同じ分割位置となる2通りの分割パターンが存在する。非特許文献2では、長さ3〜10文字の2500語の漢字熟語に対して、上述の手法を用いた評価実験を行っている。
【0017】
名詞間の意味的共起情報による手法(非特許文献3)
非特許文献3では、漢字複合語を構成する基本単語を意味カテゴリーに分類し、カテゴリー間の共起頻度を用いた分割手法の提案し、分割実験を行っている。
【0018】
非特許文献3では、分割は次の手順で行われる。まず、トレーニングデータの漢字複合語を手動で基本単語に分割し、個々の基本単語に対してあらかじめ体系化されているクラスを付与する。その後、対象漢字複合語を基本単語と照合して、分割する(ステップ1)。ステップ1では全ての分割パターンを求める。次に、基本単語を意味分類辞書と照合してクラス番号を付与し、可能なクラス列を求め(ステップ2)、次いで、クラス間の係り受け規則に基づき、全係り受けクラス列を求める(ステップ3)。そして、提案されている優先度算出方法に基づき、係り受けパターン毎に優先度を算出し、最大の優先度をもつ係り受けパターンを解とする(ステップ4)。
【0019】
非特許文献3において、例えば、「歩行者通路」は以下のように分割される。まず、ステップ1で対象漢字複合語を基本単語と照合し、「歩行 者 通路」と「歩 行者 通路」に分割される。次に、ステップ2で、基本単語を意味分類辞書と照合して、クラス番号を付与し、可能なクラス列を求めると、「歩行[133]者[110:120]通路[147]」と「歩[119:133:145]行者[124]通路[147]」となる。“:”は、複数のクラスが存在する場合を示している。クラス間の係り受け規則に基づき、[[133:110],147]、[133]、[110:147]、・・・、[[119:124],147]、・・・、[145,[124:147]]の合計10種類の係り受けクラス列が得られ(ステップ3)、個々のクラス列に対する優先度を計算すると、最大の優先度1.36となる[[133:110],147]が解となるクラス列で、分割解は「歩行 者 通路」となる(ステップ4)。特許文献3では、4文字以上の3008語の漢字熟語に対して、上述の手法を用いた評価実験を行っている。
【0020】
文脈情報を利用した手法
非特許文献4では、基本単語間の共起情報に基づく、(a)共起割合とよんでいる熟語内の基本単語間の修飾比率、(b)相互情報量とよんでいる共起する比率に基づく計算指標、(c)優先度と呼んでいる(b)の相互情報量とテキスト中の名詞の頻度を考慮した指標という3種類の手法−計算式を提案し、評価実験を行っている。
【0021】
非特許文献4では、分割は次の手順で行われる。まず、対象漢字複合語を基本単語と照合し、分割する(ステップ1)。この段階では全ての分割パターンを求める。次に、各分割パターンに対して上述した指標を算出する(ステップ2)。ここで、各指標における最大の値をもつパターンが分割解となる。
【0022】
非特許文献4において、例えば、「砂糖類価格安定」は、上述した(a)共起割合の指標では、「砂 糖 類 価 格 安 定」は0、「砂 糖 類 価 格 安定」は0、「砂 糖 類 価 格安 定」は0、・・・「砂 糖類 価 格 安定」は0.10、・・・「砂糖 類 価格 安定」は0.25となり、最大の値をとる「砂糖 類 価格 安定」が分割解となる。非特許文献4では、5文字、7文字、10文字の漢字熟語それぞれ100語に対し、上述した手法を用いた評価実験を行っている。
【先行技術文献】
【特許文献】
【0023】
【特許文献1】特開2002−259370号公報
【非特許文献】
【0024】
【非特許文献1】宮崎正弘,係り受け解析を用いた複合語の自動分割法,情報処理学会論文誌,Vol25,No6,970−979(1984)
【非特許文献2】武田,藤崎,統計的手法による漢字複合語の自動分割,情報処理学会論文誌,Vol28,No9,952−961(1987)
【非特許文献3】小林義行,徳永健伸,田中穂積,名詞間の意味的共起情報を用いた複合名詞の解析,自然言語処理,Vol3,No1,29−43(1996)
【非特許文献4】韓東力,加藤浩一,古郡廷治,文脈情報を利用した多文字複合語の分割,電子情報通信学会技術研究報告,Vol101,No40,29−34(2001)
【発明の概要】
【発明が解決しようとする課題】
【0025】
特許文献1及び非特許文献1〜4には、対象熟語の分割に使用される数量的指標はそれぞれ異なるが、いずれも大量の漢字熟語集合から基本単語の出現頻度に基づいて計算され、これらの文献が依拠している熟語の構造、すなわち基本単語の構成パターンについての情報は全く考慮されておらず、実際には長い漢字熟語は構文構造をもっているという共通する特徴がある。
【0026】
しかしながら、特許文献1及び非特許文献1〜4には、漢字複合語の分割に際し、分割候補の生成に概して多くの計算が必要とされる上、分割対象の熟語が辞書に登録されていない基本単語を含んでいると、数量的指標が算出できず、理論的に分割不能となるという共通する問題点がある。また、非特許文献2〜4については、本願発明の発明者らが評価実験を行ったが、性能評価で用いている分割対象熟語の量は300〜3000語程度であり、熟語が長くなると分割精度は大きく低下するという問題点もある。
【0027】
以上のことから、学術・特許データベース、あるいはインターネット上のweb文書のような大量の文書を対象とする場合には、特許文献1及び非特許文献1〜4では、性能評価で得られた分割精度が過度に低下することは容易に推測され、とても実用化することができる程度のものでない。
【0028】
本発明の目的とするところは、日本語文書に含まれる連続する漢字列で構成された漢字複合語を超高精度で正しく分割することができ、分割した各漢字列の信頼性が実用化することができる程度まで高められた、漢字複合語分割装置を提供することにある。
【課題を解決するための手段】
【0029】
本発明の発明者は、前記課題を解決するため、鋭意検討を重ねた結果、連続する漢字列で構成された漢字複合語を分割する場合の基となる基本単語と基本単語に該当する品詞を関連付けて記録した日本語辞書を参照し、分割対象の漢字複合語を分割する漢字複合語分割装置が上記目的を達成することを見出して、本発明をするに至った。
【0030】
即ち、本発明の漢字複合語分割装置は、連続する漢字列で構成された漢字複合語を分割する場合の基となる基本単語と該基本単語に該当する品詞を関連付け、該基本単語の字数毎に分類して、該基本単語と該品詞の両者を記録した日本語辞書と、前記漢字複合語から抽出する漢字列の先頭の文字位置としての抽出先頭位置を前記漢字複合語の語頭又は前記漢字複合語の語頭から設定変更した最新の抽出先頭文字の位置とし、前記漢字複合語の中から、該抽出先頭位置から設定した抽出字数分の漢字列を抽出する漢字列抽出処理手段と、前記漢字列抽出処理手段で抽出した漢字列のいずれかの漢字に変更したフラグが付与されているか判定し、前記漢字列抽出処理手段で抽出した漢字列のいずれかの漢字に変更したフラグが付与されている場合には、前記抽出先頭文字を前記抽出先頭位置から一字分後方のものに設定変更して、前記漢字列抽出処理手段に戻るフラグ付与判定処理手段と、前記日本語辞書を参照して、前記漢字列抽出処理手段で抽出した漢字列を基本単語と照合する基本単語照合処理手段と、前記基本単語照合処理手段において、前記漢字列抽出処理手段で抽出した漢字列と一致する基本単語が見つかった場合には、前記日本語辞書に従い、該基本単語と一致する抽出した漢字列に品詞を付与してから、該基本単語と一致する抽出した漢字列の語尾とその直後の漢字の間を、前記漢字複合語を分割する区切位置として決定すると共に、該基本単語と一致する抽出した漢字列を構成する各々の漢字に付与されたフラグを変更した後、前記漢字複合語において、該基本単語と一致する漢字複合語から抽出した漢字列の後方に前記抽出字数以上の文字数の漢字があるか確認し、前記漢字複合語において、該基本単語と一致する漢字複合語から抽出した漢字列の後方に前記抽出字数未満の文字数の漢字しかないときは、前記抽出字数を一つ減らして設定すると共に、前記抽出先頭文字を前記漢字複合語の語頭に設定変更して、前記漢字列抽出処理手段に戻り、前記漢字複合語において、該基本単語と一致する漢字複合語から抽出した漢字列の後方に前記抽出字数以上の文字数の漢字があるときは、前記抽出先頭文字を前記抽出先頭位置から抽出字数分後方のものに設定変更して、前記漢字列抽出処理手段に戻る第一の照合結果処理手段と、前記基本単語照合処理手段において、前記漢字列抽出処理手段で抽出した漢字列と一致する基本単語が見つからなかった場合には、前記漢字複合語において、該基本単語と一致しなかった漢字複合語から抽出した漢字列の後方に漢字があるか確認し、前記漢字複合語において、該基本単語と一致しなかった漢字複合語から抽出した漢字列の後方に漢字がないときは、前記抽出字数を一つ減らして設定すると共に、前記抽出先頭文字を前記漢字複合語の語頭に設定変更して、前記漢字列抽出処理手段に戻り、前記漢字複合語において、該基本単語と一致しなかった漢字複合語から抽出した漢字列の後方に漢字があるときは、前記抽出先頭文字を前記抽出先頭位置から一字分後方のものに設定変更して、前記漢字列抽出処理手段に戻る第二の照合結果処理手段と、前記漢字複合語を構成するすべての漢字に変更されたフラグが付与されている場合又は設定した抽出字数が0になった場合には、第一の照合結果処理手段で決定した区切位置を、前記漢字複合語を分割する区切位置として確定し、変更したフラグが付与されていない漢字については1字未知語と定める区切位置確定処理手段とを含むことを特徴とする。
【発明の効果】
【0031】
本発明を用いることによって、日本語文書に含まれる漢字複合語を超高精度で正しく分割することができ、かつ分割した単語の信頼性が非常に高くなり、従来よりも、形態素解析、構文解析は勿論のこと、Web検索エンジン、音声認識、文字認識、仮名漢字変換などの精度が向上するという利点がある。
【0032】
本発明は、従来よりも、日本語文書に含まれる漢字複合語の分割処理、形態素解析、構文解析の速度が向上するという利点がある。
【0033】
それ故、本発明は、従来と異なり、実用化に耐え得るものである。
【図面の簡単な説明】
【0034】
図1】本発明の基本的な構成の一実施態様を説明する概念図である。
図2】本発明を用いて漢字複合語を分割する過程の一例を説明するフロー図である。
図3】本発明の分割精度の評価実験の手順を示す図である。
【発明を実施するための形態】
【0035】
以下、本発明をさらに詳細に説明する。本発明の漢字複合語分割装置は、連続する漢字列で構成された漢字複合語を、日本語辞書を参照して、単語に分割する。
【0036】
本発明の漢字複合語分割装置30は、漢字列抽出処理手段31と、フラグ付与判定処理手段32と、基本単語照合処理手段33と、第一の照合結果処理手段34と、第二の照合結果処理手段35と、区切位置確定処理手段36とを備える(図1)。
【0037】
日本語辞書1には、基本単語と基本単語の品詞の両方が関連付けられて記録されている。
【0038】
基本単語は、漢字複合語を分割する場合に基となる単位であって、語基(word base)と称されることもあり、単独で独立した意味をもつ。例えば、「技術文献」という漢字複合語については、「技術」と「文献」が基本単語となる。基本単語は、多くは文章中に単独で使用されるが、接頭辞(例えば、「本手法」の「本」)や接尾辞(例えば、「数量的の「的」」)など熟語の構成要素としてのみ使用されるものもある。基本単語としては、例えば、広辞苑、三省堂国語辞典、角川類義語辞典、EB科学技術用語大辞典、電気・電子情報用語辞典、コンピュータ用語辞典などから1〜4字の単語を抽出した後、重複を取り除き、更に、固有名詞、仏教用語、故事成語、化学物質名等を除外したものを使用する。
【0039】
品詞としては、例えば、名詞、動詞、サ変名詞(以下、「サ変」という。)、形容動詞語幹(以下、「形動」という。)、形容詞語幹(以下、「形容」という。)、接頭辞(以下、「接頭」という。)、接尾辞(以下、「接尾」という。)、副詞、数詞の9種類が挙げられるが、適宜、9種類以外の品詞を追加してもよい。複数品詞の場合には「−」でつなぎ複数記述する(例えば、「下」は「接尾−接頭」)。
【0040】
日本語辞書1には、例えば、基本単語と基本単語の字数と基本単語の品詞数と基本単語の品詞とが関連付けられて記録されていてもよい。具体的には、日本語辞書1には、「記入」は、記入・2・1・サ変、「材料」は、材料・2・1・名詞、「直交」は、直交・2・1・サ変、「下」は、下・1・2・接尾−接頭と記録される。なお、基本単語と基本単語の字数と基本単語の品詞数と基本単語の品詞の順番は、基本単語、基本単語の字数、基本単語の品詞数、基本単語の品詞の順番で配列してもよく、それ以外の順番で配列してもよい。
【0041】
漢字列抽出処理手段31は、漢字複合語から抽出する漢字列の先頭の文字位置としての抽出先頭位置を漢字複合語の語頭又は漢字複合語の語頭から設定変更した最新の抽出先頭文字の位置とし、漢字複合語の中から、抽出先頭位置から設定した抽出字数分の漢字列を抽出する。
【0042】
フラグ付与判定処理手段32は、漢字列抽出処理手段31で抽出した漢字列のいずれかの漢字に変更したフラグが付与されているか判定し、漢字列抽出処理手段31で抽出した漢字列のいずれかの漢字に変更したフラグが付与されている場合には、抽出先頭文字を抽出先頭位置から一字分後方のものに設定変更して、漢字列抽出処理手段31に戻る。
【0043】
基本単語照合処理手段33は、日本語辞書1を参照して、漢字列抽出処理手段31で抽出した漢字列を基本単語と照合する。
【0044】
第一の照合結果処理手段34は、基本単語照合処理手段33において、漢字列抽出処理手段31で抽出した漢字列と一致する基本単語が見つかった場合には、日本語辞書1に従い、抽出した漢字列に品詞を付与してから、抽出した漢字列の語尾とその直後の漢字の間を、漢字複合語を分割する区切位置として決定すると共に、抽出した漢字列を構成する各々の漢字に付与されたフラグを変更した後、漢字複合語において、抽出した漢字列の後方に抽出字数以上の文字数の漢字があるか確認し、抽出した漢字列の後方に抽出字数未満の文字数の漢字しかないときは、抽出字数を一つ減らして設定すると共に、抽出先頭文字を漢字複合語の語頭に設定変更して、漢字列抽出処理手段31に戻り、漢字複合語において、抽出した漢字列の後方に抽出字数以上の文字数の漢字があるときは、抽出先頭文字を抽出先頭位置から抽出字数分後方のものに設定変更して、漢字列抽出処理手段31に戻る。
【0045】
第二の照合結果処理手段35は、基本単語照合処理手段33において、漢字列抽出処理手段31で抽出した漢字列と一致する基本単語が見つからなかった場合には、漢字複合語において、抽出した漢字列の後方に漢字があるか確認し、抽出した漢字列の後方に漢字がないときは、抽出字数を一つ減らして設定すると共に、抽出先頭文字を漢字複合語の語頭に設定変更して、漢字列抽出処理手段31に戻り、漢字複合語において、抽出した漢字列の後方に漢字があるときは、抽出先頭文字を抽出先頭位置から一字分後方のものに設定変更して、漢字列抽出処理手段31に戻る。
【0046】
区切位置確定処理手段36は、漢字複合語を構成するすべての漢字に変更されたフラグが付与されている場合又は設定した抽出字数が0になった場合には、第一の照合結果処理手段34で決定した区切位置を、漢字複合語を分割する区切位置として確定し、変更したフラグが付与されていない漢字については1字未知語と定める。
【0047】
本発明では、連続する漢字列で構成された漢字複合語を、日本語辞書に含まれる基本単語に基づき、漢字複合語の抽出位置を順次移動させながら、分割位置を決定する。8字の漢字複合語「良性副腎皮質腫瘍」は、以下の手順で分割される。ここでは、照合方向を前方から後方としている。
【0048】
分割対象の漢字複合語「良性副腎皮質腫瘍」に対し、日本語辞書を構成する基本単語の長さ順、例えば、4字の基本単語、3字の基本単語、2字の基本単語、1字の基本単語の順で照合する。漢字複合語から抽出する抽出字数、即ち照合する基本単語の長さ(Lw)、漢字複合語の語数(Len)、抽出先頭位置(Pos)、漢字複合語を構成する各々の漢字の解析状態(Flag)の変数を用意する。ここでFlagは、漢字複合語を構成する各々の漢字に対する解析状態を表し、0は、初期状態であり、抽出した漢字列と日本語辞書中の基本単語とが一致しなかったことを示し、例えば、1から4は抽出した漢字列と一致した基本単語の長さ(Lw)を示す。初期状態では、全ての文字のFlagを0とする。初期設定として、照合方向を前方から後方としたので、抽出先頭位置は漢字複合語の語頭(Pos=1)、漢字複合語「良性副腎皮質腫瘍」の長さLenは8となる(S301)。
【0049】
まず、漢字複合語の中から、漢字複合語の語頭(Pos=1)から最初に設定した抽出字数4字(Lw=4)分を抽出し、抽出した漢字列を構成する各々の漢字について、0以外のフラグが付与されているか判定する(S302)。漢字複合語の語頭から後方4(=Lw)文字の個々の漢字のすべてのFlagが0である(S302/Yes)ため、抽出した漢字列「良性副腎」が日本語辞書中の4字の基本単語と一致するか照合する(S303)。「良性副腎」と一致する4字の基本単語がない(S303/No)ため、抽出先頭文字を漢字複合語の語頭(Pos=1)から1文字後ろに設定変更する(Pos=1+1=2)(S308)。設定変更した抽出先頭文字の位置と基本単語の長さの和(Pos+Lw)は6で、漢字複合語の語数8を超えない(S309/No)ので、1文字後ろに設定変更した抽出先頭位置(Pos=2)から設定した抽出字数4字(Lw=4)分を抽出し、抽出した漢字列を構成する各々の漢字について、0以外のフラグが付与されているか判定する(S302)。抽出した漢字列の個々の漢字のすべてのFlagが0である(S302/Yes)ため、抽出した漢字列「良性副腎」が日本語辞書中の4字の基本単語と一致するか照合する(S303)。「性副腎皮」と一致する4字の基本単語がない(S303/No)ため、抽出先頭文字(Pos=2)を1文字後ろに設定変更する(Pos=2+1=3)(S308)。ここで、設定変更した抽出先頭文字の位置と基本単語の長さの和(Pos+Lw)は7で、漢字複合語の語数8を超えない(S309/No)ので、1文字後方に設定変更した抽出先頭位置(Pos=3)から設定した抽出字数4字(Lw=4)分を抽出し、抽出した漢字列を構成する各々の漢字について、0以外のフラグが付与されているか判定する(S302)。抽出した漢字列の個々の漢字のすべてのFlagが0である(S302/Yes)ため、抽出した漢字列「副腎皮質」が日本語辞書中の4字の基本単語と一致するか照合する(S303)。
【0050】
「副腎皮質」と一致する4字の基本単語がある(S303/Yes)ため、「副腎皮質」に品詞(名詞)を付与し(S304)、抽出した漢字列の語尾とその直後の漢字の間を区切位置として決定すると共に、「副腎皮質」の4個の漢字のFlagに4を付与する(S305)。ここで、漢字複合語を構成する全ての漢字のFlagは0より大きくない(S306/No)ため、抽出先頭文字を4文字分後方に設定変更する(S307)。抽出先頭位置は7となる(Pos=3+4)。ここで、設定変更した抽出先頭文字の位置と基本単語の長さの和(Pos+Lw)は11で、漢字複合語の語数8を超える(S309/Yes)ので、抽出字数が一字減らした3字に設定変更され、照合する基本単語の長さ(Lw)は3になる(S310)。
【0051】
抽出字数は0でない(S311/No)ため、抽出先頭文字は漢字複合語の語頭(Pos=1)にする(S312)。漢字複合語の語頭(Pos=1)から設定変更した抽出字数3字(Lw=3)分を抽出し、抽出した漢字列を構成する各々の漢字について、0以外のフラグが付与されているか判定する(S302)。漢字複合語の語頭から後方3文字のうち、「副」のFlagが4である(S302/No)ため、抽出先頭位置は2となる(S308)。ここで、設定変更した抽出先頭文字の位置と基本単語の長さの和(Pos+Lw)は6で、漢字複合語の語数8を超えない(S309/No)ので、1文字後方に設定変更した抽出先頭位置(Pos=2)から設定した抽出字数3字(Lw=3)分を抽出し、抽出した漢字列を構成する各々の漢字について、0以外のフラグが付与されているか判定する(S302)。漢字複合語の語頭から後方3文字のうち、「副」と「腎」のFlagが4である(S302/No)ため、抽出先頭位置は3となる(S308)。その後、抽出先頭位置が5となるまで全く同じステップが繰り返され、抽出先頭位置が6のとき、抽出先頭文字の位置と基本単語の長さの和(Pos+Lw)が9になり、漢字複合語の語数8を超える(S309/Yes)ため、抽出字数が一字減らした2字に設定変更され、照合する基本単語の長さ(Lw)は2になる(S310)。
【0052】
抽出字数は0でない(S311/No)ため、抽出先頭文字は漢字複合語の語頭(Pos=1)にする(S312)。漢字複合語の語頭(Pos=1)から設定変更した抽出字数2字(Lw=2)分を抽出し、抽出した漢字列を構成する各々の漢字について、0以外のフラグが付与されているか判定する(S302)。漢字複合語の語頭から後方2(=Lw)文字の個々の漢字のすべてのFlagが0である(S302/Yes)ため、抽出した漢字列「良性」が日本語辞書中の2字の基本単語と一致するか照合する(S303)。「良性」と一致する2字の基本単語がある(S303/Yes)ため、「良性」に品詞(名詞)を付与し(S304)、抽出した漢字列の語尾とその直後の漢字の間を区切位置として決定すると共に、「良性」の2個の漢字のFlagに2を付与する(S305)。
【0053】
以降、ステップ306、ステップ307、ステップ309、ステップ302と進み、ステップ302でNoとなり、ステップ308に進み、抽出先頭位置は1字後方に設定変更され、3となる。その後、ステップ309、ステップ302、ステップ308のループが繰り返され、抽出先頭位置が6のときに、漢字複合語の語頭(Pos=6)から設定変更した抽出字数2字(Lw=2)分を抽出し、抽出した漢字列を構成する各々の漢字については、漢字複合語の語頭から後方2(=Lw)文字の個々の漢字のすべてのFlagが0である(S302/Yes)ため、抽出した漢字列「腫瘍」が日本語辞書中の2字の基本単語と一致するか照合する(S303)。「腫瘍」と一致する2字の基本単語がある(S303/Yes)ため、「腫瘍」に品詞(名詞)を付与する(S304)と共に、「腫瘍」の2個の漢字のFlagに2を付与する(S305)。この段階で、全ての文字のFlagの値は2又は4となった(S306/Yes)ため、漢字複合語の分割処理は終了する(良性(名詞)|副腎皮質(名詞)|腫瘍(名詞))。
【0054】
上記の処理において、日本語辞書中の1字の基本単語にない1字の漢字がある場合には、Flagの値は0のままとなり、ステップ311が真(S311/Yes)となり、終了する。この場合、Flagの値が0の1字の漢字は未知語と判断される。
【実施例】
【0055】
(1)分割精度の評価実験
本発明の分割精度を客観的に測定するため、図3に示す手順で評価実験を行った。具体的には、辞書から取り出した6〜10字の漢字複合語(6字:7776語、7字:4315語、8字:2086語、9字:1117語、10字:543語)を漢字熟語ファイルに記録した。漢字熟語ファイルに記録した漢字複合語15837語について、自動単語分割プログラムを用い、本発明を実行して、漢字複合語を分割し、分割した漢字複合語に品詞を付与した。使用した日本語辞書及び単語分割ファイル辞書は上述したフォーマットのファイルを用い、単語分割パターンは、異なる字数のものを比較することができないようにした。その後、予め人手により分割された漢字複合語との比較を判定プログラムで行って、分割の成否を調べた。非特許文献2〜4の手法についても、6〜10字の漢字複合語の分割精度を求めてみた。表1に本発明と非特許文献2〜4の分割精度を示す。ただし、分割対象の漢字複合語の特性は本発明と非特許文献2〜4では同一ではないことを考慮されたい。
【0056】
【表1】
【0057】
表1から、全ての漢字複合語の字数で、本発明が最も高精度であることがわかった。また、本発明では、漢字複合語の字数が10字であっても分割精度は95%以上であるが、非特許文献2〜4では最高でも94%以下であった。さらに、本発明では総計15000語の漢字複合語を対象としており、非特許文献2〜4で用いられた漢字複合語と比較しても数倍以上大きい。それ故、本発明は、非特許文献2〜4と比較して、学術・特許データベースはもちろんのこと、インターネット上の膨大のwebページなどの大規模なデータに対しても、相対的に最も有効であることは明らかである。
【産業上の利用可能性】
【0058】
本発明は、例えば、形態素解析、構文解析は勿論のこと、Web検索エンジン、音声認識、文字認識、仮名漢字変換などに有用である。
【符号の説明】
【0059】
1 日本語辞書
30 漢字複合語分割装置
31 漢字列抽出処理手段
32 フラグ付与判定処理手段
33 基本単語照合処理手段
34 第一の照合結果処理手段
35 第二の照合結果処理手段
36 区切位置確定処理手段
図1
図2
図3