特許第6796096号(P6796096)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社KDDI研究所の特許一覧

特許6796096学習データ作成装置並びに分類モデル学習装置及びカテゴリ付与装置
<>
  • 特許6796096-学習データ作成装置並びに分類モデル学習装置及びカテゴリ付与装置 図000003
  • 特許6796096-学習データ作成装置並びに分類モデル学習装置及びカテゴリ付与装置 図000004
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6796096
(24)【登録日】2020年11月17日
(45)【発行日】2020年12月2日
(54)【発明の名称】学習データ作成装置並びに分類モデル学習装置及びカテゴリ付与装置
(51)【国際特許分類】
   G06F 40/295 20200101AFI20201119BHJP
   G06F 16/906 20190101ALI20201119BHJP
【FI】
   G06F40/295
   G06F16/906
【請求項の数】5
【全頁数】10
(21)【出願番号】特願2018-31495(P2018-31495)
(22)【出願日】2018年2月26日
(65)【公開番号】特開2019-148847(P2019-148847A)
(43)【公開日】2019年9月5日
【審査請求日】2020年1月9日
【国等の委託研究の成果に係る記載事項】(出願人による申告)平成29年度総務省「グローバルコミュニケーション計画の推進−多言語音声翻訳技術の研究開発及び社会実証−1.多言語音声翻訳技術の研究開発」委託事業、産業技術力強化法第19条の適用を受ける特許出願
(73)【特許権者】
【識別番号】599108264
【氏名又は名称】株式会社KDDI総合研究所
(74)【代理人】
【識別番号】100092772
【弁理士】
【氏名又は名称】阪本 清孝
(74)【代理人】
【識別番号】100119688
【弁理士】
【氏名又は名称】田邉 壽二
(72)【発明者】
【氏名】安田 圭志
【審査官】 早川 学
(56)【参考文献】
【文献】 米国特許出願公開第2015/0286629(US,A1)
【文献】 国際公開第2010/119615(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 40/00−40/58
G06F 16/00−16/958
(57)【特許請求の範囲】
【請求項1】
互いに対応関係が与えられている第一コーパス及び第二コーパスからそれぞれ、指定される名詞を含み、互いに対応している第一用例及び第二用例を検索する検索部と、
前記名詞に複数のカテゴリをそれぞれ仮付与する仮付与部と、
前記名詞への各カテゴリ仮付与のもとでそれぞれ、クラスベースの言語モデルによって前記第一用例を第二コーパスにおける用例へと変換した変換結果を得る変換部と、
前記名詞への各カテゴリ仮付与のもとでの各変換結果を、前記第二用例を当該変換における正解として評価する評価部と、
前記名詞と、前記評価結果が最良となる変換結果に仮付与されていたカテゴリと、前記検索された第一用例と、を紐づけた学習データを得る出力部と、を備えることを特徴とする学習データ作成装置。
【請求項2】
前記第一コーパスは第一言語コーパスであり、前記第二コーパスは第二言語コーパスであり、
前記変換部では前記変換として、第一言語から第二言語への翻訳を行うことを特徴とする請求項1に記載の学習データ作成装置。
【請求項3】
前記評価部では、前記名詞への各カテゴリ仮付与のもとでの各変換結果を、前記正解との類似度によって評価することを特徴とする請求項1または2に記載の学習データ作成装置。
【請求項4】
請求項1ないし3のいずれかに記載の学習データ作成装置と、学習部と、を備える分類モデル学習装置であって、
前記学習部は、前記学習データ作成装置が得た学習データを用いた学習を行うことにより、名詞が含まれる用例を入力として、当該用例における当該名詞のカテゴリを出力する分類モデルを構築することを特徴とする分類モデル学習装置。
【請求項5】
請求項4に記載の分類モデル学習装置と、付与部と、を備えるカテゴリ付与装置であって、
前記付与部は、前記分類モデル学習装置が構築した分類モデルを用いることにより、入力された名詞が含まれる用例に対して、当該用例における当該名詞のカテゴリを出力することを特徴とするカテゴリ付与装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、人手によるラベリングを必要とせずに名詞に対するカテゴリを付与した学習データを作成することが可能な学習データ作成装置並びに当該装置に基づく分類モデル学習装置及びカテゴリ付与装置に関する。
【背景技術】
【0002】
音声認識システム、音声翻訳システムの研究開発その他において、固有名詞辞書が不可欠である。一般に、日々、新出する固有名詞に対応するため、自動あるいは人手で抽出した固有名詞をシステム用の辞書に登録するなどの運用が行われている。
【0003】
従来の固有名詞辞書のカテゴリ自動付与は、例えば非特許文献3,4のものがあるが、以下のような手順で行なわれる。
(手順1)固有名詞を抽出(人手あるいは、コーパスを用いた自動抽出)する。
(手順2)手順1で抽出された固有名詞に対して、カテゴリ体系に基づく人手によるカテゴリ付与し、学習データを作成する。
(手順3)手順2のデータを用いて機械学習による固有名詞自動分類器を構築する。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu"BLEU: a Method for Automatic Evaluation of Machine Translation," Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL), Philadelphia, July 2002, pp. 311-318.
【非特許文献2】平尾 努,磯崎 秀樹,Kevin Duh,須藤 克仁,塚田元,永田 昌明RIBES: 順位相関に基づく翻訳の自動評価法,言語処理学会 第 17 回年次大会 発表論文集
【非特許文献3】Jenny Rose Finkel, Trond Grenager, and Christopher Manning. 2005. Incorporating Non-local Information into Information Extraction Systems by Gibbs Sampling. Proceedings of the 43nd Annual Meeting of the Association for Computational Linguistics (ACL 2005), pp. 363-370.
【非特許文献4】Xuezhe Ma, Eduard Hovy,"End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF"https://arxiv.org/abs/1603.01354
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、上記のような従来技術においては、学習データを作成するための手順2において、人手によるラベリング作業が必要になってしまうという課題があった。
【0006】
すなわち、クラスベースの言語モデルを利用するシステムにおいては、固有名詞の表層表現以外にも、単語のカテゴリ (例えば、地名、人名、食品名など)を登録する必要がある。カテゴリ付与のコストを削減するため、これまでにも様々な方法でカテゴリ付与の自動化方法が提案されているが、従来技術の多くは、上記のように手順2において事前に規定されたカテゴリ体系に従い人手でカテゴリのラベル付けをした学習用データを用いて、手順3において機械学習により、カテゴリ自動推定器を作成する必要があった。
【0007】
このような従来技術においては、学習データを作成するために人手によるラベリングのコストがかさみ、また、カテゴリ体系が変更されると、学習データを再度作りなおす必要も生じてしまうこととなる。以上では固有名詞の場合に関して説明してきたが、一般名詞を含む名詞の一般の場合に関しても同様の課題がある。
【0008】
本発明は、上記従来技術の課題に鑑み、人手によるラベリングを必要とせずに学習データを作成することが可能な学習データ作成装置を提供することを第一の目的とする。また、当該学習データ作成装置に基づいた、人手によるラベリングを必要とせずに名詞の分類モデルを学習することが可能な分類モデル学習装置を提供することを第二の目的とする。さらに、当該分類モデル学習装置に基づいた、人手によるラベリングを必要とせずに名詞にカテゴリを付与することが可能なカテゴリ付与装置を提供することを第三の目的とする。
【課題を解決するための手段】
【0009】
上記目的を達成するため、本発明は、学習データ作成装置であって、互いに対応関係が与えられている第一コーパス及び第二コーパスからそれぞれ、指定される名詞を含み、互いに対応している第一用例及び第二用例を検索する検索部と、前記名詞に複数のカテゴリをそれぞれ仮付与する仮付与部と、前記名詞への各カテゴリ仮付与のもとでそれぞれ、クラスベースの言語モデルによって前記第一用例を第二コーパスにおける用例へと変換した変換結果を得る変換部と、前記名詞への各カテゴリ仮付与のもとでの各変換結果を、前記第二用例を当該変換における正解として評価する評価部と、前記名詞と、前記評価結果が最良となる変換結果に仮付与されていたカテゴリと、前記検索された第一用例と、を紐づけた学習データを得る出力部と、を備えることを第一の特徴とする。
【0010】
また、本発明は、前記学習データ作成装置と、学習部と、を備える分類モデル学習装置であって、前記学習部は、前記学習データ作成装置が得た学習データを用いた学習を行うことにより、名詞が含まれる用例を入力として、当該用例における当該名詞のカテゴリを出力する分類モデルを構築することを第二の特徴とする。さらに、本発明は、前記分類モデル学習装置と、付与部と、を備えるカテゴリ付与装置であって、前記付与部は、前記分類モデル学習装置が構築した分類モデルを用いることにより、入力された名詞が含まれる用例に対して、当該用例における当該名詞のカテゴリを出力することを第三の特徴とする。
【発明の効果】
【0011】
本発明における前記第一の特徴を有する学習データ作成装置によれば、人手によるラベリングを必要とせずに学習データを作成することが可能であり、前記第一の目的が達成される。同様にして、本発明における前記第二の特徴を有する分類モデル学習装置及び前記第三の特徴を有するカテゴリ付与装置により、それぞれ前記第二の目的及び前記第三の目的が達成される。
【図面の簡単な説明】
【0012】
図1】一実施形態に係る学習データ作成装置の機能ブロック図である。
図2図1の学習データ作成装置に基づく、一実施形態に係るカテゴリ付与装置の機能ブロック図であり、その一部分の構成として分類モデル学習装置を含むものである。
【発明を実施するための形態】
【0013】
図1は、一実施形態に係る学習データ作成装置10の機能ブロック図である。図示するように、学習データ作成装置10は、検索部1、仮付与部2、変換部3、評価部4及び出力部5を備える。学習データ作成装置10は、その全体的な動作として、互いに対応関係を有する第一コーパス及び第二コーパスを参照することにより、ユーザ等が指定した固有名詞W(より一般には名詞W)に対して、そのカテゴリC(W,j_max)及び対応する第一コーパスにおける用例EX1(W,i)を紐づけて学習データとして出力するものである。(なお、当該Wやj_maxやi等のインデクスに関しては、各部1〜5の説明を後述する際に詳述する。)
【0014】
以下、各部1〜5の動作の詳細を説明することにより、学習データ作成装置10の動作の詳細を説明する。なお、以下の説明では一例として、固有名詞Wに対してカテゴリC(W,j_max)及び対応する第一コーパスにおける用例EX1(W,i)を紐づけて出力する場合を説明するが、固有名詞Wに限らず一般名詞Wに関しても全く同様に、本発明を適用可能である。すなわち、学習データ作成装置10は一般に名詞W(固有名詞又は一般名詞等)を対象として動作することが可能である。
【0015】
図示する通り、ユーザ等が学習データの取得対象として指定する固有名詞Wは検索部1及び仮付与部2へと入力される。検索部1では、互いの対応関係が予め与えられている第一コーパス及び第二コーパスを参照し、当該指定された固有名詞Wが含まれるペアとしての第一用例EX1(W,i)及び第二用例EX(W,i)を各コーパスからそれぞれ検索して取得して、第一コーパスから取得した第一用例EX1(W,i)を変換部3へと出力し、第二コーパスから取得した第二用例EX2(W,i)を評価部4へと出力する。
【0016】
一実施形態において、検索部1での当該検索対象としての第一コーパス及び第二コーパスは、第一用例及び第二用例が構成される単位となる所定のテキスト単位(1つ以上のセンテンスで構成されていてもよい)で相互に対訳が与えられている第一言語のコーパス及び第二言語のコーパスによって実現することができる。例えば、第一言語は日本語であり、第二言語は英語であり、テキスト単位で日英翻訳の対応関係が与えられているものとして、第一コーパス及び第二コーパスを実現することができる。このようなテキスト単位で相互に対応している第一コーパス及び第二コーパスは、人手及び/又は自動で用意しておいたものを利用すればよい。
【0017】
以下、説明のための具体例として上記のような、日英翻訳コーパスとして第一コーパス(日本語コーパス)及び第二コーパス(英語コーパス)が構成されている場合に関して説明する。
【0018】
例えば、インデクスWで区別されるある固有名詞W=1として具体的に、ユーザが固有名詞「ヒルトン札幌ホテル」(W=1)を入力した場合、インデクスiで区別される日英翻訳の用例として、i=1での第一用例EX1(1,1)「ヒルトン札幌ホテルに泊まっています。」と、同インデクスi=1においてペアとして対応するその英訳としての第二用例EX2(1,1)「I am staying at the Hilton Sapporo hotel.」と、が検索されたものとする。以下でもこのようなW=1,i=1の具体例を説明のための模式例として用いる。なお、インデクスi=2以降のその他の所定数の互いに対応する日英翻訳文も検索されることとなるが、以下の各処理に関しては同様に可能である。また、インデクスW=2以降で指定されるその他のユーザ指定の固有名詞に関しても、以下の各処理は同様に可能である。
【0019】
仮付与部2では、ユーザ指定の固有名詞Wに関して、インデクスjで指定される所定の複数のカテゴリC(W,j)を仮のものとして付与して、当該仮付与されたカテゴリC(W,j)を変換部3へと出力する。ここで、当該仮に付与される複数のカテゴリC(W,j)の中から、後述する出力部5において学習データとして固有名詞Wに対応するカテゴリが決定されることから、仮付与部2では「仮」付与するものである。
【0020】
例えば、前述の模式例としての固有名詞「ヒルトン札幌ホテル」(W=1)に対して、インデクスj=1,2,3,…で区別される仮付与されるカテゴリC(W,j)としてC(1,1)「宿泊施設」、C(1,2)「食べ物」、C(1,3)「ランドマーク」、…等を仮付与部2において与えることができる。
【0021】
変換部3では、検索部1より得た第一用例EX1(W,i)(第一コーパスにおける文例)を、クラスベースの言語モデルを用いることにより、仮付与部2より得た仮のカテゴリC(W,j)のそれぞれのもとにおいて第二コーパスでの表現の文例へと変換することで各カテゴリC(W,j)における変換結果TR1(W,i,j)を得て、当該変換結果TR1(W,i,j)を評価部4へと出力する。
【0022】
変換部3における当該クラスベースの言語モデルを用いた自動での変換処理は、第一コーパス及び第二コーパスが与えられている具体的な態様に応じたものとすることができる。例えば、第一コーパスが日本語コーパスであり第二コーパスが英語コーパスであれば、変換部3は日本語から英語への自動翻訳処理を行うものとすればよく、既存手法の日英機械翻訳の処理をクラスベースの言語モデルを用いて行うものとして変換部3を実現することができる。
【0023】
例えば、前述の固有名詞インデクスW=1及び検索結果インデクスi=1で指定される第一用例EX1(1,1)「ヒルトン札幌ホテルに泊まっています」を、カテゴリインデクスj=1,2,3,…で指定されるC(1,1)「宿泊施設」、C(1,2)「食べ物」、C(1,3)「ランドマーク」、…等の各カテゴリにおいて日英機械翻訳した結果TR1(W=1,i=1,j=1,2,3,…)として、変換部3は以下を得ることができる。
TR1(1,1,1):I am staying at the Hilton Sapporo hotel
TR1(1,1,2):I am staying to a Hilton Sapporo hotel
TR1(1,1,3):I am staying at in Hilton Sapporo hotel
【0024】
評価部4では、変換部3からカテゴリC(W,j)毎に得た変換結果TR1(W,i,j)をそれぞれ、検索部1で検索した(同じインデクスi(及びW)において)対応する第二用例EX2(W,i)が当該変換結果における正解に該当するものとして評価することにより、そのスコアSC(W,i,j)を求め、当該スコアSC(W,i,j)を出力部5へと出力する。
【0025】
日英翻訳コーパス等として第一コーパス及び第二コーパスが与えられている場合であれば、前掲の非特許文献1,2等に開示のBLEUやRIBESなどの手法を用いることで、正解翻訳としての第二用例EX2(W,i)と、各カテゴリC(W,j)における機械翻訳結果としての変換結果TR1(W,i,j)と、の語順や単語の一致率(すなわち、当該両者のテキストとしての類似度)を自動評価値として計算することにより、当該自動評価値に基づいたスコアSC(W,i,j)を得ることができる。自動評価値とスコアSC(W,i,j)は同じ値としてもよいし、自動評価値に所定関数(増加関数)を適用したものをスコアSC(W,i,j)としてもよい。
【0026】
具体的には、BLEUでは、ハイパーパラメータである最大n-gram長を4とした場合、次式により、自動評価値(SBLEU)の計算を行なうことができる。
SBLEU=min(1, exp(1 - r/h))×(P1 P2 P3 P4)1/4
ここで、rとhはそれぞれ正解訳と機械翻訳結果に含まれる単語数を表わし、Pnは正解訳と機械翻訳結果を比較した場合のn-gramの適合率を表わす。
【0027】
また、RIBESにおいては、次式により、自動評価値(SRIBES)の計算を行なうことができる。
SRIBES=Cor×(k/h)α
ここで、kは正解訳と機械翻訳結果との間の共通の単語の数を表わし、hは上記BLEUにおいて説明した通りであり、Corは正解訳と機械翻訳結果の共通の単語の語順の順位相関係数を表わす。また、α(0≦α≦1)はペナルティに対するハイパーパラメータである。
【0028】
出力部5は、評価部4より得たカテゴリC(W,j)毎のスコアSC(W,i,j)を最大にするもののカテゴリのインデクスj=j_maxを求めることにより、ユーザ指定された固有名詞Wと、対応する当該スコア最大値を与えるカテゴリC(W,j_max)と、対応する第一用例EX1(W,i)と、を紐づけて、学習データ作成装置10からの最終的な結果としての学習データW,C(W,j_max),EX1(W,i)を出力する。なお、最大スコアを与えるカテゴリのインデクスj=j_maxは式で書けば以下の通りである。
【0029】
【数1】
【0030】
例えば、前述の例における日英機械翻訳した結果TR1(W=1,i=1,j=1,2,3,…)に関して、評価部4ではスコアがSC(1,1,1)=0.9, SC(1,1,2)=0.7, SC(1,1,3)=0.8,…等として求まることにより、出力部5では最大スコアを与えるもの(すなわち、変換部3での日英翻訳結果が最も高品質であったと評価部4で自動評価されたもの)がj=1の場合のSC(1,1,1)=0.9である旨を特定することができる。そして、出力部5では学習データとして、「ヒルトン札幌ホテル」(インデクスW=1の固有名詞)と、「宿泊施設」(当該W=1における最大値スコアを与えたインデクスj=1のカテゴリC(1,1))と、「ヒルトン札幌ホテルに泊まっています」(当該対応する第一用例EX(1,1))と、を紐づけた学習データを得ることができる。
【0031】
なお、「ヒルトン札幌ホテル」(インデクスW=1の固有名詞)の場合であっても、i=2以降で指定され検索部1で検索された別の第一用例EX1(W=1,i≧2)及び第二用例EX2(W=1,i≧2)のペアに関しては、その用例ペアの文脈(内容)によって、j=1の「宿泊施設」以外のカテゴリが対応カテゴリであるものとして、例えば道案内の文脈の用例において、j=3の「ランドマーク」のカテゴリに該当するものとして、学習データが得られることもありうる。
【0032】
以上、図1の学習データ作成装置10の一実施形態に係る各部1〜5の説明より明らかなように、本発明においてはユーザ指定される固有名詞Wに対して、カテゴリC(W,j_max)及び第一用例EX1(W,i)を紐づけた学習データを自動で得ることが可能である。特に、当該指定する固有名詞Wを予め複数リストアップして与えておきそれぞれ学習データ作成装置10に入力することにより、一連の学習データを自動で得ることが可能である。
【0033】
図2は、以上の図1の学習データ作成装置10に基づく、一実施形態に係るカテゴリ付与装置の機能ブロック図である。図示する通り、カテゴリ付与装置30は図1で説明した学習データ作成装置10と、学習部6と、用例取得部7と、付与部8と、を備える。カテゴリ付与装置30はその全体的な動作として、学習データ作成装置10で作成した学習データを用いることにより、ユーザ指定される固有名詞X(第一コーパスにおける固有名詞)に対し、第一コーパスと同形式のデータベース(例えば第一コーパスが日本語コーパスであれば、日本語コーパスとしてのデータベース)を参照して第三用例EX3(X,k)を取得したうえで、当該固有名詞Xの第三用例EX3(X,k)におけるカテゴリC(X,k)を自動付与して出力することができる。なお、説明例として固有名詞Xを用いるが、図1の場合と同様に、一般の名詞X(固有名詞、一般名詞等)を対象としてカテゴリ付与装置30は動作が可能である。
【0034】
なお、図2に示すように、カテゴリ付与装置30のうち学習データ作成装置10及び学習部6の部分は、分類モデル学習装置20を構成しているものとみなすことができる。
【0035】
以下、カテゴリ付与装置30における上記の全体的な動作を実現する各部6〜8の動作の詳細を説明する。
【0036】
学習部6は、図示する通り、学習データ作成装置10の作成した学習データW,C(W,j_max),EX1(W,i)を読み込んで学習することにより、分類モデルを構築して付与部8へと出力する。なお、ここで、学習部6で読み込む学習データはインデクスWで区別される複数の固有名詞Wにつきそれぞれ、検索部1でヒットしたインデクスiでそれぞれ区別される複数の第一用例EX1(W,i)と、当該第一用例のインデクスi毎に(前述の数1より明らかなようにj_max=jmax(i)の形で)1つが対応しているカテゴリC(W,j_max(i))と、が紐づけられることで、一般に大量のデータとして与えられているものである。
【0037】
学習部6における当該学習は、非特許文献3,4,5(非特許文献5は以下参照)等でなされているのと同様に、CRF(条件付き確率場)や、深層学習を用いればよく、当該学習結果としての分類モデルが付与部8へと出力される。学習部6で得られる当該分類モデルを参照することで後述する付与部8はカテゴリ自動付与が可能となるものであり、当該分類モデルはすなわち、固有名詞が含まれる用例を入力として、当該固有名詞の当該用例におけるカテゴリを出力するためのモデルである。
[非特許文献5] 安田圭志, 高井公一,服部元, イラクレウスパニコス, 石川彰夫, 松本一則, 菅谷史昭"翻訳精度に基づく単語クラス自動推定手法",言語処理学会第24回年次大会,2018年3月(発表予定)
【0038】
用例取得部7は、ユーザ指定される固有名詞X(ここでは、図1の学習データ作成装置10におけるユーザ指定の固有名詞Wと区別してインデクスXとしている。)に対し、第一コーパスと同種の外部のデータベース等を検索し、当該固有名詞を含みインデクスkで互いに区別される第三用例EX3(X,k)を取得し、付与部8へと当該第三用例EX3(X,k)を出力する。
【0039】
なお、用例取得部7では上記のように外部データベース等を検索するのではなく、ユーザが独自に指定した固有名詞X及び当該固有名詞Xを含む第三用例EX3(X,k)を取得するようにしてもよい。
【0040】
付与部8では、非特許文献3,4,5等でなされているのと同様に、学習部6で構築された分類モデルを付与部8から得た第三用例EX3(X,k)(及びここで指定されている固有名詞X)に適用することで、当該第三用例EX3(X,k)における固有名詞XのカテゴリC(X,k)を自動付与し、カテゴリ付与装置30からの最終的な結果として出力する。
【0041】
例えば、インデクスX=1で指定される固有名詞「シェラトン沖縄ホテル」に関して、インデクスk=1で指定される第三用例EX3(1,1)「シェラトン沖縄ホテルに泊まりたいです。」におけるカテゴリC(1,1)「宿泊施設」を、付与部8が自動出力することが可能である。なお、別のインデクスk=2で指定される別の第三用例EX3(1,2)に関しては、カテゴリC(1,2)が出力されることとなるが、用例の文脈によりカテゴリC(1,1)「宿泊施設」と一致するとは限らず、例えばC(1,2)として「ランドマーク」が出力されるような場合もありうる。
【0042】
以下、本発明における補足事項を説明する。
【0043】
(1)検索部1において、対応関係を有する第一コーパス及び第二コーパスより、固有名詞Wが含まれ互いに対応している第一用例EX1(W,i)及び第二用例EX2(W,i)をそれぞれ検索する際は、固有名詞Wは第一コーパスにおけるものとして検索してもよいし、第二コーパスにおけるものとして検索してもよい。例えば、第一コーパスにおける固有名詞Wで第一用例EX1(W,i)を検索してから、コーパス間でのテキスト同士の対応関係に基づいて対応する第二用例EX2(W,i)を取得するようにしてもよいし、この逆に第二コーパスにおける固有名詞Wで第二用例EX2(W,i)を検索してから対応する第一用例EX1(W,i)を取得するようにしてもよい。前述の例であれば、日本語(第一コーパス)での固有名詞W「ヒルトン札幌ホテル」で検索してもよいし、英語(第二コーパス)での対応する固有名詞W「Hilton Sapporo hotel」で検索してもよい。なお、各固有名詞Wに関して第一コーパス及び第二コーパスでの表現を併記した固有名詞の対訳辞書を予め用意しておくことで、以上のいずれの手法においても検索及び取得が可能となる。
【0044】
(2)第一コーパス及び第二コーパスは、説明例として用いた日本語及び英語に限らず、テキスト単位で対応関係(すなわち、テキスト単位での対訳の関係)が与えられている任意の第一言語コーパス及び第二言語コーパスを利用することができる。変換部3は、当該任意の第一言語から第二言語へとクラスベースの言語モデルで機械翻訳するものとして実現すればよい。例えば説明例とは逆に、第一コーパスを英語、第二コーパスを日本語としてもよい。
【0045】
(3)図1及び図2に示した学習データ作成装置10並びに分類モデル学習装置20及びカテゴリ付与装置30はそれぞれ、一般的な構成のコンピュータとして実現可能である。すなわち、CPU(中央演算装置)、当該CPUにワークエリアを提供する主記憶装置、ハードディスクやSSDその他で構成可能な補助記憶装置、キーボード、マウス、タッチパネルその他といったユーザからの入力を受け取る入力インタフェース、ネットワークに接続して通信を行うための通信インタフェース、表示を行うディスプレイ、カメラ及びこれらを接続するバスを備えるような、一般的なコンピュータによって各装置10,20,30を構成することができる。さらに、各装置10,20,30の各部の処理はそれぞれ、当該処理を実行させるプログラムを読み込んで実行するCPUによって実現することができるが、任意の一部の処理を別途の専用回路等において実現するようにしてもよい。
【符号の説明】
【0046】
10…学習データ作成装置、20…分類モデル学習装置、30…カテゴリ付与装置
1…検索部、2…仮付与部、3…変換部、4…評価部、5…出力部、6…学習部、7…用例取得部、8…付与部
図1
図2