【文献】
越前谷博 他3名,局所着目方式によるアイヌ語−日本語名詞対訳語の抽出について,電子情報通信学会技術研究報告,日本,社団法人電子情報通信学会,2003年10月31日,Vol.103 No.408,93−98頁,(ISSN 0913−5685/NLC2003−49)
(58)【調査した分野】(Int.Cl.,DB名)
前記評価するステップは、異なる対応文から同一の用語対が取得された場合には、前記同一の用語対に対するすべてのスコアを計算して、当該同一の用語対に対する最終的なスコアを決定することを特徴とする請求項2に記載の対訳辞書作成方法。
【発明の概要】
【発明が解決しようとする課題】
【0004】
従来の辞書自動作成方式では、異なる言語間の単語対を尤度に基づいて作成する。しかしながら、対訳コーパスに出現する頻度が少ない単語については、出現頻度に基づく尤度(=確からしさ)が同じ値または同等の値になるので、正しい単語対を作成するために必要な尤度が得られず、正確な対訳辞書を作成することができないという問題があった。
【0005】
本発明は、上述した状況においてなされたものであり、出現頻度の少ない語についても正確な対訳辞書を作成することができる対訳辞書作成装置等を提供することにある。
【課題を解決するための手段】
【0006】
上記の課題を解決するための本発明は、コンピュータが対訳辞書を作成する対訳辞書作成方法であって、第1言語文と第2言語文とが文単位であらかじめ対応付けられた対訳コーパスから、対応文を取得するステップと、 前記対応文の中から抽出された異なる言語間の用語対を、対訳辞書作成対象として決定するステップと、前記用語対にかかる第1言語の用語が前記第1言語文中に出現する出現位置と、前記用語対にかかる第2言語の文字列が前記第2言語文中に出現する出現位置とに基づいて、当該用語対を構成する用語間の対応関係の強さを評価するステップと、前記評価部による評価結果に応じて、前記用語対を、異なる言語間の対訳辞書として作成して出力するステップとを含む。
【0007】
ここで、前記文字列の出現位置は、前記異なる言語間の文構造的特徴が同一となるように並び替えられるようにしてもよい。
【0008】
前記用語の出現位置は、対応する言語文中における当該用語の出現順であり、前記評価するステップは、前記対応する言語文に含まれる形態素または複数の形態素をまとめあげた用語と、前記用語の出現順との関係に基づいて、前記対応関係の強さを表すスコアを計算し、前記出力するステップは、前記スコアに応じて、前記異なる言語間の対訳辞書を作成するようにしてもよい。
【0009】
前記評価するステップは、異なる対応文から同一の用語対が取得された場合には、前記同一の用語対に対するすべてのスコアを計算して、当該同一の用語対に対する最終的なスコアを決定するようにしてもよい。
【0010】
上記の課題を解決するための本発明は、第1言語文と第2言語文とが文単位であらかじめ対応付けられた対訳コーパスから、対応文を取得する取得部と、前記対応文の中から抽出された異なる言語間の用語対を、対訳辞書作成対象として決定する決定部と、前記用語対にかかる第1言語の用語が前記第1言語文中に出現する出現位置と、前記用語対にかかる第2言語の文字列が前記第2言語文中に出現する出現位置とに基づいて、当該用語対を構成する用語間の対応関係の強さを評価する評価部と、前記評価部による評価結果に応じて、前記用語対を、異なる言語間の対訳辞書として作成して出力する出力部とを含む。
【発明の効果】
【0011】
本発明によれば、出現頻度の少ない単語についても正確な対訳辞書を作成することができる。
【発明を実施するための形態】
【0013】
以下、本発明の一実施形態における対訳辞書作成装置を含む対訳辞書作成システム全体の概略構成について
図1を参照して説明する。
図1は、対訳辞書作成システム1全体の概要構成例を示す図である。
【0014】
図1において、対訳辞書作成システム1は、通信端末10と、通信端末10と例えばインターネット等の通信網20を介して接続可能な対訳辞書作成装置30と、対訳辞書作成装置30と接続可能な外部システムとしての対訳コーパス40とを含んで構成されている。
【0015】
対訳辞書作成システム1では、通信端末10と対訳辞書作成装置30との間は、HTTP(HyerText Transfer Protocol)通信が行われるようになっているが、それ以外の通信方式もとり得る。
【0016】
通信端末10は、CPU(Central Processing Unit)と、ROM(Read Only Memory)と、RAM(Random Access Memory)と、液晶ディスプレイ等の表示装置と、タッチパネル等の入力装置とを備える。この実施形態では、通信端末10は、一例として、ラップトップパソコン(Laptop computer)とするが、携帯端末、PDA(Personal Digital Assist)、パーソナルコンピュータなどでもよい。
【0017】
対訳コーパス40は、例えばネットワークの伝送路上に設けられ、ネットワーク上の対訳辞書作成装置30との間で通信可能な文書データベースである。後述するように、対訳コーパス40は、異なる言語(英語、日本語など)間の同じ意味内容を有する文同士を互いに対応付けて記憶している。なお、対訳コーパス40は、CPU(Central Processing Unit)と、ROM(Read Only Memory)と、RAM(Random Access Memory)とを含む。
【0018】
[対訳辞書作成装置のハードウエア構成]
次に、
図1に示した対訳辞書作成装置30のハードウエア構成例について、
図2を参照して説明する。
図2は、対訳辞書作成装置30の構成例を示す図である。
【0019】
対訳辞書作成装置30は、
図2に示すように、CPU(Central Processing Unit)31と、ROM(Read Only Memory)32と、RAM(Random Access Memory)33と、通信インターフェース34と、外部アクセス部35とを含むサーバ装置である。
【0020】
CPU31は、各構成要素とバスで接続されて制御信号やデータの転送を行うとともに、対訳辞書作成装置30全体の処理を実現するためのプログラムの実行、演算処理等を行う。
【0021】
ROM32には、対訳辞書作成装置30全体の動作に必要な対訳辞書作成プログラムが記憶されており、本実施形態の対訳辞書作成装置30は、当該プログラムが実行されることにより実現される。このようなROM33に変えて、クラウドサービスを用いて必要なプログラムおよびデータを取り込むことももちろん可能である。
【0022】
上述したプログラムは、CD−ROM等の記憶媒体に格納されていてもよい。
【0023】
RAM33には、後述する対訳辞書作成処理を行うためのプログラムおよび各種のデータが一時的に保持される。
【0024】
通信インターフェース34は、ネットワークインターフェース機能を有しており、通信端末10との通信を行う。
【0025】
外部アクセス部35は、CPU31が対訳コーパス40にアクセスして対訳コーパス40と通信を行うためのインターフェースである。この実施形態では、対訳コーパス40内の後記する対応文が外部アクセス部35を介してCPU31へ伝送される。なお、対訳辞書作成装置30は、対訳コーパス40内における異なる言語文の対訳を読み込む機能を兼ね備える単一のサーバ装置として構成してもよい。
【0026】
[対訳辞書作成の概略]
次に、対訳辞書作成装置30によって実現される対訳辞書作成の概要について、
図1〜
図3を参照して説明する。
図3は、対訳辞書作成の概略を説明するための図であって、(a)は予め対応付けられた異なる言語文A,Bと、(b)形態素の解析処理と、(c)用語の抽出処理と、(d)用語対の決定処理と、(e)用語の並び替え処理と、(f)用語対の評価処理と、(g)対訳辞書作成処理とを示している。なお、
図3(a)〜(g)は、対訳辞書作成処理を例示的に示しているに過ぎない。
【0027】
先ず、この対訳辞書作成装置30において、対訳辞書作成の処理時には、異なる言語文が文単位であらかじめ対応付けられた対応文(対訳文)が対訳コーパス40から読み込まれる。
図3(a)の例では、対訳辞書作成装置30のCPU31が、「彼は、東京にある会社で働いている。」という日本語文Aと、「He works for a company in Tokyo」という英語文Bとを含む対応文を読み込む。
【0028】
次に、
図3(b)に示すように、CPU31は、日本語文Aおよび英語文Bの各々を、言語学的に意味を持つ最小単位の形態素に区切る処理として、例えば形態素解析を行う。そして、CPU31は、各文A,B中の用語(この実施形態では、例えば、その用語自体で意味を表すことができる自立語)として、例えば
図3(c)に示すように、「彼」、「東京」、「会社」、「働い」、「he」、「works」、「company」および「tokyo」という文字列を抽出し、さらに例えば
図3(d)に示すように、それらの用語を組み合わせた用語対(「彼」と「he」の対など)を作成する。
【0029】
図3(e)に示すように、CPU31は、日本語と英語との間の文構造的特徴(文法構造、用語の意味内容など)が同一となるように、「he works for a company in Tokyo」という英語文Bの用語を並び替えて、「He ga Tokyo in company for works」という並び替え文B1に変換する。換言すれば、上記並び替え文B1は、日本語文Aの語順と整合するように、英語文Bを主辞後置変換したものである。なお、異なる言語間の文構造的特徴が同一または類似する場合には、CPU31は、上記並び替え処理を行わないようにしてもよい。
【0030】
そして、
図3(f)に示すように、CPU31は、日本語文A中の「会社」の出現位置(文頭からの出現が7語目)と、並び替え文B1中の「company」の出現位置(文頭からの出現が5語目)とから、「会社」と「company」の用語対を構成する2つの用語間の対応関係の強さを評価する。なお、以下の説明では、文頭から何番目の形態素として出現するかを示した上記「5語目」および「7語目」を、「出現順」と称する。
【0031】
この実施形態では、対応関係の強さを評価する一例として、{(日本語Aに含まれる用語の出現順)/(日本語文Aに含まれる形態素の総数)−(並び替え文B1に含まれる用語の出現順)/(並び替え文B1に含まれる形態素の総数)}の式(1)で与えられる値の絶対値がスコアとして求められる。
図3(f)の例では、日本語Aの「会社」の出現順=7語目;日本語Aに含まれる形態素の総数=12語;並び替え文B1の「company」の出現順=5語目;並び替え文B1に含まれる形態素の総数=8語、となるので、上記スコアは、{(7/12)−(5/8)}から、約0.04となる。
【0032】
図3(g)の例によれば、CPU31は、他の用語対のスコアについても求め、例えば、0.04のスコアを有する用語対((彼、he)、(東京、tokyo)、(会社、company))を、対訳辞書として採用する。すなわち、スコアが小さいほど、用語対を構成する用語間の対応関係が強いと評価することができるので、スコアの値を考慮することで、正しい対訳辞書を作成することができる。
【0033】
[対訳辞書作成装置の機能構成]
次に、対訳辞書作成装置30の機能構成について
図4を参照して説明する。
図4は、
図2に示したハードウエア構成上で実現される対訳辞書作成装置30の機能構成の一例を示す図である。
【0034】
図4において、対訳辞書作成装置30は、取得部301と、決定部302と、評価部303と、出力部304とを備える。決定部302は、用語抽出部3021と、用語対作成部3022とを含む。これらの構成要素については、以下の対訳辞書作成装置30の処理説明において適宜参照される。
【0035】
[対訳辞書作成装置の処理]
以下、この対訳辞書作成を実現するために実行される対訳辞書作成装置30の処理について、
図1〜
図5を参照して説明する。
図5は、対訳辞書作成装置30における処理全体の一例を示すフローチャートである。
【0036】
図5において、CPU31は、対訳コーパス40から、異なる言語間の対応文を取得する(ステップS10)。対応文は、
図3(a)に一例を示すように、「彼は、東京にある会社で働いている。」という日本語文Aと、「He works for a company in Tokyo」という英語文Bである。
【0037】
ステップS10において、CPU31は、外部アクセス部35と協働して、取得部301として機能する。
【0038】
次にCPU31は、ステップS10で取得された異なる言語間の対応文の中から抽出された用語対を、対訳辞書作成対象として決定する(ステップS11)。
図3(d)では、(彼、he)などの用語対が決定されて、その用語対が作成されることになるが、その決定の前に、CPU31は、
図3(b)および
図3(c)に一例を示すように、日本語文Aと英語文Bとをそれぞれ形態素解析し、「彼」、「he」などの自立語を、用語として抽出することになる。
【0039】
ステップS11の決定処理において、CPU31は、決定部302として機能する。また、上記用語の抽出処理において、CPU31は用語抽出部3021として機能し、上記用語対の作成処理において、CPU31は用語対作成部3022として機能する。
【0040】
CPU31は、ステップS11で決定された用語対のすべてを対象として、対応する用語対のスコアを計算する。この場合、CPU31は、スコアを計算する前に、日本語の文構造的特徴(文法構造、意味内容)に合わせるため、英語文Bの並び替えを行う。
図3(e)では、例えば、英語文Bが主辞後置変換されて並び替え文B1として設定され、この並び替え文B1では、「company」の出現順が文頭から5番目になる(
図3(f))。この並び替えが行われた後に、CPU31は、日本語文Aの「会社」の出現順(=7語目)と、並び替え文B1の「company」の出現順(=5語目)とに基づいて、「会社」と「company」の用語対のスコアを計算する。このときのスコアは、上記式(1)に示したように、{(日本語Aに含まれる「会社」の出現順)/(日本語文Aに含まれる形態素の総数)−(並び替え文B1に含まれる「company」の出現順)/(並び替え文B1に含まれる形態素の総数)}の関係式から、{(7/12)−(5/8)}=約0.04となる。
【0041】
上述したスコアが小さいほど、用語対を構成する用語間の対応関係が強くなるので、スコアによって、用語対の対応関係が強いか否かを評価することができる。
【0042】
ステップS12において、CPU31は、評価部303として機能する。
【0043】
図5において、CPU31は、ステップS10で対訳コーパス40から取得されたすべての対応文を対象として、ステップS11およびステップS12の処理を逐次繰り返し実行する。
【0044】
なお、対象はすべての対応文ではなく、一部の指定した対応文のみであってもよい。
【0045】
なお、上記並び替え処理は、ステップS12で行われることになるが、スコアが計算される前(ステップS10またはステップS11)に行われるようにしてもよい。
【0046】
CPU31は、ステップS12で計算されたスコアに基づいて、用語対を対訳辞書として作成して出力する(ステップS13)。例えば、スコアが予め設定された閾値以上の場合に、用語対を対訳辞書として作成して出力される。
図3(g)では、例えば、上記閾値が0.04で設定されているので、0.04のスコアを有する用語対((彼、he)、(東京、tokyo)、(会社、company))が対訳辞書として作成されて出力される。対訳辞書の作成は、用語対を対訳辞書として示すものであればよく、例えば一覧表や辞書形式など種々の方法によって実施することができる。出力先は、例えば通信端末10である。
【0047】
ステップS13において、CPU31は、通信インターフェース34と協働して、出力部304として機能する。
【0048】
以上説明したように、本実施形態の対訳辞書作成装置30によれば、異なる言語文の対応文中の用語対の各々の用語の出現位置に基づいて、その用語対に対するスコアを計算することにより、異なる言語間の対訳辞書が作成される。ここで、スコアは、出現頻度とは異なり、出現位置に基づいて計算されるので、出現頻度の少ない用語に対しても出現位置次第で異なる値が得られる。これにより、出現頻度の少ない用語についても正確な対訳辞書を作成することができる。
【0049】
なお、上記実施形態は、変更するようにしてもよい。
【0050】
例えば、
図5のスコア計算処理(ステップS12)において、異なる対応文から同一の用語対が取得された場合には、同一の用語対に対するすべてのスコアを計算して、当該同一の用語対に対する最終的なスコアを決定する。最終的なスコアは、例えば、相加平均、相乗平均などの値を適用する。
【0051】
上述したスコアの計算において、用語対にかかる用語の出現頻度に応じて重みを付けるようにしてもよい。
【0052】
以上では、上記式(1)を参照して、(言語文に含まれる形態素の総数)を用いたスコアを計算する処理について説明したが、これに代えて、(複数の形態素をまとめあげた用語の総数)を用いるようにしてもよい。例えば、言語文を形態素で区切った後に、連続する複数の形態素からなる文章が名詞となる場合には、CPU31は、複数の形態素からなる形態素群を一つの用語として認識して上記スコアを計算することができる。
【0053】
上述した対訳辞書作成処理は、出現位置に基づくスコアを考慮して対訳辞書を作成するものであればよい、日本語と英語以外の言語についても適用することができる。