特許第6042264号(P6042264)IP Force 特許公報掲載プロジェクト 2015.5.11 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧
特許6042264文法規則学習装置、方法、及びプログラム
<>
  • 特許6042264-文法規則学習装置、方法、及びプログラム 図000005
  • 特許6042264-文法規則学習装置、方法、及びプログラム 図000006
  • 特許6042264-文法規則学習装置、方法、及びプログラム 図000007
  • 特許6042264-文法規則学習装置、方法、及びプログラム 図000008
  • 特許6042264-文法規則学習装置、方法、及びプログラム 図000009
  • 特許6042264-文法規則学習装置、方法、及びプログラム 図000010
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6042264
(24)【登録日】2016年11月18日
(45)【発行日】2016年12月14日
(54)【発明の名称】文法規則学習装置、方法、及びプログラム
(51)【国際特許分類】
   G06F 17/27 20060101AFI20161206BHJP
   G06N 3/00 20060101ALI20161206BHJP
【FI】
   G06F17/27 615
   G06N3/00 560J
【請求項の数】3
【全頁数】11
(21)【出願番号】特願2013-103557(P2013-103557)
(22)【出願日】2013年5月15日
(65)【公開番号】特開2014-225104(P2014-225104A)
(43)【公開日】2014年12月4日
【審査請求日】2015年6月26日
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(74)【代理人】
【識別番号】110001519
【氏名又は名称】特許業務法人太陽国際特許事務所
(72)【発明者】
【氏名】進藤 裕之
(72)【発明者】
【氏名】永田 昌明
【審査官】 長 由紀子
(56)【参考文献】
【文献】 特開2013−174971(JP,A)
【文献】 特開2012−181676(JP,A)
【文献】 進藤 裕之 外2名,統計的文法獲得モデルのための部分木ブロック化サンプリング法,情報処理学会 研究報告 数理モデル化と問題解決(MPS) 2013−MPS−093 [online],日本,情報処理学会,2013年 5月16日,p.1-6
【文献】 進藤 裕之 外2名,統計的文法獲得モデルのための擬似部分木ブロック化サンプリング法,情報処理学会 論文誌(トランザクション) 数理モデル化と応用(TOM) Vol.7 No.1 [online],日本,情報処理学会,2014年 3月28日,第7巻第1号,p.34-43
(58)【調査した分野】(Int.Cl.,DB名)
G06F 17/20−28
G06N 3/00
(57)【特許請求の範囲】
【請求項1】
複数種類の複数の部分木と所定のパラメータとで複数の構文木を表した確率的文法モデルにおける前記複数の部分木及び前記所定のパラメータの初期値を設定する初期設定部と、
構文木を構成する部分木の割り当てを確率的に更新する手法により、前記初期設定部により設定された前記複数の部分木及び前記所定のパラメータ、または前回更新された複数の部分木及び所定のパラメータを更新する更新部と、
前記更新部により更新された前記複数の部分木に含まれる第1の種類の部分木を分割して構成される部分木候補の各々から、前記所定のパラメータで表された前記確率的文法モデルにおける各部分木候補と該部分木候補を含む構文木集合との同時確率に応じて選択される部分木候補を第2の種類の部分木とし、前記複数の構文木に含まれる全ての前記第1の種類の部分木を、記第2の種類の部分木に置換して、前記所定のパラメータを更新する置換更新部と、
予め定めた終了条件を満たすまで、前記更新部による前記複数の部分木及び前記所定のパラメータの更新、並びに前記置換更新部による部分木の置換及び前記所定のパラメータの更新を繰り返し、前記終了条件を満たした際の前記複数の部分木の各々を文法規則として、前記終了条件を満たした際の所定のパラメータと共に出力する終了判定部と、
を含む文法規則学習装置。
【請求項2】
初期設定部が、複数種類の複数の部分木と所定のパラメータとで複数の構文木を表した確率的文法モデルにおける前記複数の部分木及び前記所定のパラメータの初期値を設定するステップと、
更新部が、構文木を構成する部分木の割り当てを確率的に更新する手法により、前記初期設定部により設定された前記複数の部分木及び前記所定のパラメータ、または前回更新された複数の部分木及び所定のパラメータを更新するステップと、
置換更新部が、前記更新部により更新された前記複数の部分木に含まれる第1の種類の部分木を分割して構成される部分木候補の各々から、前記所定のパラメータで表された前記確率的文法モデルにおける各部分木候補と該部分木候補を含む構文木集合との同時確率に応じて選択される部分木候補を第2の種類の部分木とし、前記複数の構文木に含まれる全ての前記第1の種類の部分木を、記第2の種類の部分木に置換して、前記所定のパラメータを更新するステップと、
終了判定部が、予め定めた終了条件を満たすまで、前記更新部による前記複数の部分木及び前記所定のパラメータの更新、並びに前記置換更新部による部分木の置換及び前記所定のパラメータの更新を繰り返し、前記終了条件を満たした際の前記複数の部分木の各々を文法規則として、前記終了条件を満たした際の所定のパラメータと共に出力するステップと、
を含む文法規則学習方法。
【請求項3】
コンピュータを、請求項1の文法規則学習装置を構成する各部として機能させるための文法規則学習プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文法規則学習装置、方法、及びプログラムに係り、特に、統語的な情報が付与された構文木のコーパスから、サンプリング法に基づいて文法規則を学習する文法規則学習装置、方法、及びプログラムに関する。
【背景技術】
【0002】
従来、自然言語処理分野では、統語的な情報が付与された構文木コーパスから、確率的文法モデルに基づいて、文法規則を学習することが行われている。ここで、図5に構文木の例を示す。図5の例では、木構造の末端ノードには単語が付与されており、それ以外のノードには統語情報を表すシンボルが付与されている。図5において、“NP”は名詞句、“DT”は前置詞、“N”は名詞、及び“JJ”は形容詞を表すシンボルである。また、確率的文法モデルの例として、文脈自由文法、木置換文法、木接合文法などに基づくモデルがある。図6に、図5に示す構文木から木置換文法に従って得られる文法規則の例を示す。木置換文法における各文法規則は、構文木の部分構造(部分木)となっている。
【0003】
また、構文木コーパスから文法規則を学習する方法として、ギブスサンプリング法を用いた方法が提案されている(例えば、非特許文献1参照)。ギブスサンプリング法では、構文木を一つずつ巡回し、対象となる構文木を構成する現在の部分木の割り当てを確率的に更新していく方法である。ギブスサンプリング法では、部分木の割り当てを更新する度に確率的文法モデルの尤度を計算し、最も尤度の高かった部分木の割り当てを最終的な文法規則として出力する。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】Trevor Cohn, Sharon Goldwater, and Phil Blunsom, "Inducing compact but accurate tree-substitution grammars," In Proceedings of HLT-NAACL, pages 548-556, Boulder, Colorado, June. Association for Computational Linguistics, 2009.
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、非特許文献1に記載のギブスサンプリング法のように、部分木を一つずつ更新して文法規則を学習する手法では、構文木コーパスのデータ量が多い場合に、局所最適解へ留まってしまい、確率的文法モデルにおける尤度が高い文法規則を学習することができない、という問題がある。
【0006】
本発明は、上記問題点を解決するために成されたものであり、確率的文法モデルにおける尤度が高い文法規則を学習することができる文法規則学習装置、方法、及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0007】
上記目的を達成するために、本発明の文法規則学習装置は、複数種類の複数の部分木と所定のパラメータとで複数の構文木を表した確率的文法モデルにおける前記複数の部分木及び前記所定のパラメータの初期値を設定する初期設定部と、構文木を構成する部分木の割り当てを確率的に更新する手法により、前記初期設定部により設定された前記複数の部分木及び前記所定のパラメータ、または前回更新された複数の部分木及び所定のパラメータを更新する更新部と、前記更新部により更新された前記複数の部分木に含まれる第1の種類の部分木を分割して構成される部分木候補の各々から、前記所定のパラメータで表された前記確率的文法モデルにおける各部分木候補と該部分木候補を含む構文木集合との同時確率に応じて選択される部分木候補を第2の種類の部分木とし、前記複数の構文木に含まれる全ての前記第1の種類の部分木を、記第2の種類の部分木に置換して、前記所定のパラメータを更新する置換更新部と、予め定めた終了条件を満たすまで、前記更新部による前記複数の部分木及び前記所定のパラメータの更新、並びに前記置換更新部による部分木の置換及び前記所定のパラメータの更新を繰り返し、前記終了条件を満たした際の前記複数の部分木の各々を文法規則として、前記終了条件を満たした際の所定のパラメータと共に出力する終了判定部と、を含んで構成されている。
【0008】
本発明の文法規則学習装置によれば、初期設定部が、複数種類の複数の部分木と所定のパラメータとで複数の構文木を表した確率的文法モデルにおける複数の部分木及び所定のパラメータの初期値を設定する。そして、更新部が、構文木を構成する部分木の割り当てを確率的に更新する手法により、初期設定部により設定された複数の部分木及び所定のパラメータ、または前回更新された複数の部分木及び所定のパラメータを更新する。更新部による複数の部分木及び所定のパラメータの更新は、例えば、ギブスサンプリング法等の従来手法を用いることができる。
【0009】
そして、置換更新部が、更新部により更新された複数の部分木に含まれる第1の種類の部分木を分割して構成される部分木候補の各々から、所定のパラメータで表された確率的文法モデルにおける各部分木候補と部分木候補を含む構文木集合との同時確率に応じて選択される部分木候補を第2の種類の部分木とし、複数の構文木に含まれる全ての第1の種類の部分木を、第2の種類の部分木に置換して、所定のパラメータを更新する。そして、終了判定部が、予め定めた終了条件を満たすまで、更新部による複数の部分木及び所定のパラメータの更新、並びに置換更新部による部分木の置換及び所定のパラメータの更新を繰り返し、終了条件を満たした際の複数の部分木の各々を文法規則として、終了条件を満たした際の所定のパラメータと共に出力する。
【0010】
このように、複数の構文木を構成する複数の部分木に含まれる第1の種類の部分木を、一度に第2の種類の部分木に置換して、複数の構文木を表す確率的文法モデルのパラメータを更新することにより、部分木の頻度分布を大幅に変更できるため、確率的文法モデルにおける尤度が高い文法規則を学習することができる。
【0011】
また、前記置換更新部は、前記第1の種類の部分木を分割して構成される部分木候補の各々から、前記所定のパラメータで表された前記確率的文法モデルにおける各部分木候補と該部分木候補を含む構文木集合との同時確率に応じて選択された部分木候補を、前記第2の種類の部分木とすることができる。これにより、部分木の頻度分布を多様に変更することができるため、より尤度の高い文法規則を学習することができる。
【0012】
また、本発明の文法規則学習方法は、初期設定部が、複数種類の複数の部分木と所定のパラメータとで複数の構文木を表した確率的文法モデルにおける前記複数の部分木及び前記所定のパラメータの初期値を設定するステップと、更新部が、前記初期設定部により設定された前記複数の部分木及び前記所定のパラメータ、または前回更新された複数の部分木及び所定のパラメータを更新するステップと、置換更新部が、前記更新部により更新された前記複数の部分木に含まれる第1の種類の部分木を、前記第1の種類とは異なる第2の種類の部分木に置換して、前記所定のパラメータを更新するステップと、終了判定部が、予め定めた終了条件を満たすまで、前記更新部による前記複数の部分木及び前記所定のパラメータの更新、並びに前記置換更新部による部分木の置換及び前記所定のパラメータの更新を繰り返し、前記終了条件を満たした際の前記複数の部分木の各々を文法規則として、前記終了条件を満たした際の所定のパラメータと共に出力するステップと、を含む方法である。
【0013】
また、本発明の文法規則学習プログラムは、コンピュータを、上記の文法規則学習装置を構成する各部として機能させるためのプログラムである。
【発明の効果】
【0014】
以上説明したように、本発明の文法規則学習装置、方法、及びプログラムによれば、複数の構文木を構成する複数の部分木に含まれる第1の種類の部分木を、一度に第2の種類の部分木に置換して、複数の構文木を表す確率的文法モデルのパラメータを更新することにより、部分木の頻度分布を大幅に変更できるため、確率的文法モデルにおける尤度が高い文法規則を学習することができる、という効果が得られる。
【図面の簡単な説明】
【0015】
図1】本実施の形態に係る文法規則学習装置の機能的構成を示すブロック図である。
図2】部分木の置換を説明するための概略図である。
図3】本実施の形態における文法規則学習処理ルーチンの内容を示すフローチャートである。
図4】本実施の形態における手法と従来手法との確率的文法モデルの尤度を比較した結果を示す図である。
図5】構文木の一例を示す図である。
図6図5に示す構文木から木置換文法に従って得られる文法規則の一例を示す図である。
【発明を実施するための形態】
【0016】
以下、図面を参照して本発明の実施の形態を詳細に説明する。
【0017】
図1に示すように、本実施の形態に係る文法規則学習装置10は、統語的な情報が付与された構文木tの集合である構文木コーパス{t}を入力とし、確率的文法モデルの尤度を最大にする最適な文法規則、すなわち、部分木の集合を出力する。本実施の形態では、確率的文法モデルとして、木置換文法による確率的文法モデル(例えば、非特許文献1参照)を用いる場合を例に説明する。
【0018】
ここで、木置換文法では、具体的な確率的文法モデルの式は、例えば下記(1)式のように与えられる。
【0019】
【数1】
【0020】
ただし、eは、一つの構文木tを構成する部分木eの集合、{e}は、構文木コーパス{t}全体での部分木eの集合、P({e},{t}|θ)は、パラメータをθとする確率的文法モデルにおける部分木の集合{e}と構文木コーパス{t}との同時確率である。また、iは、構文木コーパス中の構文木を指すインデックス、jは、構文木tを構成する部分木を指すインデックス、Iは、構文木コーパスに含まれる構文木の総数、Jは、構文木tを構成する部分木eの総数である。また、Xは、部分木eの根ノードのシンボルを表し、nは、部分木eが構文木コーパス中に何回出現したかを表す回数である。また、θは、木置換文法のパラメータであり、根ノードのシンボルX毎に定義されている。従って、確率的文法モデルのパラメータは、θの集合、すなわち、θ={θ}となる。n.,Xは、根ノードがXである部分木が、構文木コーパス中に何回出現したかを表す回数である。P(e|X)は、部分木eの基底確率と呼ばれる確率で、例えば一様分布に基づいて計算される。
【0021】
文法規則学習装置10は、構文木コーパス{t}を入力とし、(1)式に示すような確率的文法モデルの尤度P({e},{t}|θ)を最大にする文法規則{^e}及びパラメータ^θを出力する。
【0022】
文法規則学習装置10は、CPUと、RAMと、後述する文法規則学習処理ルーチンを実行するための文法規則学習プログラムを記憶したROMと、を備えたコンピュータで構成されている。すなわち、ROMに記憶された文法規則学習プログラムをCPUが実行することにより、コンピュータが文法規則学習装置10として機能する。また、コンピュータを、記憶手段としてのHDDを含んで構成するようにしてもよい。
【0023】
このコンピュータは、機能的には、図1に示すように、初期設定部11、ギブスサンプリング部12、置換更新部13、及び終了判定部14を含んだ構成で表すことができる。なお、初期設定部11及びギブスサンプリング部12は、本発明の設定部の一例である。
【0024】
初期設定部11は、構文木コーパス{t}を入力として受け付け、初期部分木{e(0)及び初期パラメータθ(0)を設定する。初期部分木{e(0)は、例えば、末端ノード及び根ノードを除く構文木の各ノードに対して、ランダムに0または1の変数を割り当て、1の変数が割り当てられたノードを部分木の根ノードに設定し、0の変数が割り当てられたノードを部分木の内部ノード(部分木の根ノード以外のノード)に設定することができる。初期パラメータθ(0)についても、ランダムに設定することができる。初期設定部11は、設定した初期部分木{e(0)及び初期パラメータθ(0)を、ギブスサンプリング部12へ出力する。
【0025】
ギブスサンプリング部12は、初期部分木{e(0)及び初期パラメータθ(0)、または後述する終了判定部14から出力された部分木{e(u+1)及びパラメータθ(u+1)を入力として受け付ける。なお、uは、更新処理の繰り返し回数を表す変数である。ギブスサンプリング部12は、例えば、非特許文献1に開示されているように、構文木の各ノードをランダムな順番で巡回しながら各ノードを処理対象の対象ノードとする。そして、ギブスサンプリング部12は、対象ノードが部分木の根ノードか内部ノードかを確率的に決定し、対象ノードに対する現在の設定を更新する。
【0026】
また、ギブスサンプリング部12は、構文木の全てのノードを対象ノードとして設定を更新する処理が終了すると、(1)式に基づいてパラメータθを更新する。パラメータθの更新方法として、例えば、非特許文献1に開示されているサンプリング法に基づく方法を用いることができる。この方法では、パラメータθの確率分布P(θ)がガンマ分布Gamma(1.0,1.0)に従うと仮定して、P({e-},{t},θ)=P({e-},{t}|θ)×P(θ)を計算する。そして、{e-}を全て固定した上で、下記(2)式に示す更新後のθ’を、マルコフ連鎖モンテカルロ法で探索し、パラメータθをθ’に更新する。
【0027】
【数2】
【0028】
ギブスサンプリング部12は、更新した部分木{e(u)及びパラメータθ(u)を出力する。
【0029】
置換更新部13は、ギブスサンプリング部12により更新された部分木{e(u)及びパラメータθ(u)を入力として受け付ける。置換更新部13は、構文木の各ノードを巡回するのではなく、部分木{e(u)を一種類ずつランダムな順番で巡回しながら各部分木を処理対象の対象部分木とし、対象部分木eを、別の部分木e’へ、P(e’,{t}|θ)の確率に応じて置換する。ただし、{t}は、別の部分木e’を含む構文木tの集合である。P(e’,{t}|θ)の確率は、下記(3)式のように計算される。
【数3】

ただし、kは{t}に含まれる構文木を指すインデックスであり、Kは{t}に含まれる構文木の総数である。また、P(e’,t|θ)は、(1)式下段に示す、パラメータをθとする確率的文法モデルにおける部分木e’と構文木tとの同時確率である。
このとき、部分木e’の候補として、対象部分木eを分割して構成される全ての部分木の組み合わせを考慮する。図2に示すような部分木eが対象部分木の場合、対象部分木eを分割して構成できる全ての部分木の組み合わせ(図2中のe’(1)〜e’(4))を部分木e’の候補とする。ただし、部分木eと部分木e’とが同じ部分木になる場合もある。図2の例では、部分木e’(4)が対象部分木eと同じ部分木である。置換更新部13は、各部分木の候補e’の確率P(e’,{t}|θ)に応じて、1つの候補を選択し、構文木コーパス{t}に含まれる全ての部分木eを、選択した部分木e’へ置換する。
【0030】
置換更新部13は、部分木の置換が完了したら、ギブスサンプリング部12と同様に、パラメータθを更新する。置換更新部13では、構文木コーパス{t}に含まれる複数の同じ種類の部分木を一度に更新するため、ギブスサンプリング部12による更新よりも、部分木の頻度分布を大幅に変更できる可能性がある。従って、単にギブスサンプリングを何度も繰り返すよりも、尤度の高い部分木の割り当てを発見できる可能性が高まり、確率的文法モデルが局所最適解に留まってしまう問題を解消することができる。置換更新部13は、更新した部分木{e(u)及びパラメータθ(u)を出力する。
【0031】
終了判定部14は、置換更新部13により更新された部分木{e(u)及びパラメータθ(u)を入力として受け付ける。終了判定部14は、終了条件を満たしたか否かを判定し、終了条件を満たすまで、ギブスサンプリング部12及び置換更新部13の処理を繰り返す。終了判定は、例えば、現在の繰り返し回数uが、予め指定された回数(例えば3000回)となったときに終了と判定し、それ未満であれば未終了と判定することができる。終了判定部14は、終了条件を満たしたと判定した場合には、現在の部分木{e(u)及びパラメータθ(u)を、それぞれ確率的文法モデルの尤度を最大にする文法規則{^e}及びパラメータ^θとして出力する。
【0032】
また、終了判定部14は、終了条件を満たしていないと判定した場合には、繰り返し回数uを1つ増やし、現在の部分木{e(u)及びパラメータθ(u)を、{e(u+1)及びθ(u+1)としてギブスサンプリング部12へ出力する。
【0033】
なお、終了判定部14による終了条件の判定は、繰り返し回数が指定された回数となったか否かを判定する場合に限定されない。例えば、置換更新部13により更新された{e(u)及びパラメータθ(u)に基づいて今回算出された確率的文法モデルの尤度と、前回算出された尤度との差が所定値以下となった場合に、終了条件を満たすと判定してもよい。
【0034】
次に、本実施の形態に係る文法規則学習装置10の作用について説明する。文法規則学習装置10に、構文木コーパス{t}が入力されると、文法規則学習装置10において、図3に示す文法規則学習処理ルーチンが実行される。なお、文法規則学習装置10への構文木コーパス{t}の入力は、外部装置や外部記憶媒体等に記憶された構文木コーパス{t}を、ネットワーク等を介して文法規則学習装置10内の記憶装置へ読み込むことにより行われる。また、予め文法規則学習装置10内の記憶装置に記憶された構文木コーパス{t}を読み出して、図3に示す文法規則学習処理ルーチンを開始するようにしてもよい。
【0035】
図3に示す文法規則学習処理ルーチンのステップ100で、初期設定部11が、構文木コーパス{t}を入力として受け付け、初期部分木{e(0)及び初期パラメータθ(0)を設定する。次に、ステップ102で、終了判定部14が、繰り返し回数を示す変数uを0に設定する。
【0036】
次に、ステップ104で、ギブスサンプリング部12が、例えば非特許文献1に開示されているように、構文木の各ノードをランダムな順番で巡回しながら各ノードを対象ノードとし、対象ノードが部分木の根ノードか内部ノードかを確率的に決定し、対象ノードに対する現在の設定を更新し、(1)式に基づいてパラメータθを更新する。
【0037】
次に、ステップ106で、置換更新部13が、部分木{e(u)を一種類ずつランダムな順番で巡回しながら各部分木を対象部分木とし、対象部分木eを分割して構成される全ての部分木の組み合わせを部分木e’の候補とする。そして、置換更新部13は、各部分木の候補e’の確率P(e’,{t}|θ)に応じて、1つの候補を選択し、構文木コーパス{t}に含まれる全ての部分木eを、選択した部分木e’へ置換する。さらに、置換更新部13は、ギブスサンプリング部12と同様に、パラメータθを更新する。
【0038】
次に、ステップ108で、終了判定部14が、現在の繰り返し回数uが、予め指定された回数(例えば3000回)となったか否かを判定することにより、終了条件を満たすか否かを判定する。終了判定部14は、終了条件を満たしていないと判定した場合には、ステップ110へ移行して、繰り返し回数uを1つ増やし、現在の部分木{e(u)及びパラメータθ(u)を、{e(u+1)及びθ(u+1)としてギブスサンプリング部12へ出力し、ステップ104へ戻る。繰り返し処理におけるステップ104では、ギブスサンプリング部12が、更新された{e(u+1)及びθ(u+1)を用いて、対象ノードの設定の更新及びパラメータθの更新を繰り返す。また、繰り返し処理におけるステップ106では、置換更新部13が、ギブスサンプリング部12により更新された{e(u+1)及びθ(u+1)を用いて、部分木の置換及びパラメータθの更新を繰り返す。
【0039】
一方、終了判定部14は、終了条件を満たしたと判定した場合には、ステップ112へ移行し、現在の部分木{e(u)及びパラメータθ(u)を、それぞれ確率的文法モデルの尤度を最大にする文法規則{^e}及びパラメータ^θとして出力し、文法規則学習処理ルーチンを終了する。
【0040】
以上説明したように、本実施の形態に係る文法規則学習装置によれば、構文木コーパスに含まれる複数の同じ種類の部分木を一度に別の部分木に置換して、確率的文法モデルのパラメータを更新する。これにより、従来手法のように、部分木を局所的に更新する場合に比べ、部分木の頻度分布を大幅に変更できるため、尤度の高い部分木の割り当て、すなわち尤度の高い文法規則を発見できる可能性が高まり、確率的文法モデルが局所最適解に留まってしまう問題を解消することができる。また、部分木を別の部分木に置換する際に、元の部分木を分割して構成される全ての部分木の組み合わせを候補として考慮するため、部分木の頻度分布を多様に変更することができる。
【0041】
ここで、本実施の形態に係る文法規則学習装置の効果を検証するため、置換更新部がある場合(本実施の形態)と、置換更新部がない場合(単純なギブスサンプリング法による従来手法)との尤度を比較した実験結果を図4に示す。本実験では、構文木コーパスは約4万文の構文木で構成されており、繰り返し回数uは1000回とした。図4に示すように、本実施の形態に係る文法規則学習装置は、置換更新部の効果により、従来手法よりも尤度の高い文法規則を発見できることを確認した。
【0042】
本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
【0043】
また、上述の文法規則学習装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
【0044】
また、本願明細書中において、プログラムが予めインストールされている実施の形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
【符号の説明】
【0045】
10 文法規則学習装置
11 初期設定部
12 ギブスサンプリング部
13 置換更新部
14 終了判定部
図1
図2
図3
図4
図5
図6