(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-01-31
(45)【発行日】2022-02-08
(54)【発明の名称】分類装置、学習装置、分類方法及びプログラム
(51)【国際特許分類】
G06F 16/35 20190101AFI20220201BHJP
G06F 40/20 20200101ALI20220201BHJP
G06F 40/279 20200101ALI20220201BHJP
【FI】
G06F16/35
G06F40/20
G06F40/279
(21)【出願番号】P 2019030780
(22)【出願日】2019-02-22
【審査請求日】2021-02-01
(73)【特許権者】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100106002
【氏名又は名称】正林 真之
(74)【代理人】
【識別番号】100120891
【氏名又は名称】林 一好
(72)【発明者】
【氏名】グエン ソン ホアン コック
(72)【発明者】
【氏名】トラン フン タオ
(72)【発明者】
【氏名】披田野 清良
(72)【発明者】
【氏名】清本 晋作
【審査官】田川 泰宏
(56)【参考文献】
【文献】特開2015-176511(JP,A)
【文献】特開2009-129279(JP,A)
【文献】米国特許出願公開第2016/0267073(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/35
G06F 40/20
G06F 40/279
(57)【特許請求の範囲】
【請求項1】
文書データのそれぞれを単語に分割し、当該単語のそれぞれに品詞タグを付与するタグ付け部と、
前記文書データ毎に、前記単語の組み合わせについて、当該単語のそれぞれに定義された単語ベクトル間の距離を算出する距離算出部と、
前記文書データ、及び前記品詞タグの組み合わせ毎に、同一の単語に関する前記距離のグループの中で最小値をそれぞれ抽出する抽出部と、
前記文書データ、及び前記品詞タグの組み合わせ毎に、前記最小値の前記グループの中での統計量を特徴量として算出する特徴量算出部と、
前記文書データ毎に、前記品詞タグの組み合わせに対する前記特徴量を入力とし、予め機械翻訳又は人間翻訳の区分がラベル付けされた文書データにより学習されたモデルにより、分類結果を出力する分類部と、を備える分類装置。
【請求項2】
前記統計量は、平均又は分散の少なくともいずれかを含む請求項1に記載の分類装置。
【請求項3】
文書データのそれぞれを単語に分割し、当該単語のそれぞれに品詞タグを付与するタグ付け部と、
前記文書データ毎に、前記単語の組み合わせについて、当該単語のそれぞれに定義された単語ベクトル間の距離を算出する距離算出部と、
前記文書データ、及び前記品詞タグの組み合わせ毎に、同一の単語に関する前記距離のグループの中で最小値をそれぞれ抽出する抽出部と、
前記文書データ、及び前記品詞タグの組み合わせ毎に、前記最小値の前記グループの中での統計量を特徴量として算出する特徴量算出部と、
前記文書データ毎に、前記品詞タグの組み合わせに対する前記特徴量を入力とし、予めラベル付けされている機械翻訳又は人間翻訳の区分を学習したモデルを生成する学習部と、を備える学習装置。
【請求項4】
前記学習部は、複数の学習アルゴリズムにより複数の前記モデルを生成し、前記区分の出力精度が最も高いモデルを選別する請求項3に記載の学習装置。
【請求項5】
文書データのそれぞれを単語に分割し、当該単語のそれぞれに品詞タグを付与するタグ付けステップと、
前記文書データ毎に、前記単語の組み合わせについて、当該単語のそれぞれに定義された単語ベクトル間の距離を算出する距離算出ステップと、
前記文書データ、及び前記品詞タグの組み合わせ毎に、同一の単語に関する前記距離のグループの中で最小値をそれぞれ抽出する抽出ステップと、
前記文書データ、及び前記品詞タグの組み合わせ毎に、前記最小値の前記グループの中での統計量を特徴量として算出する特徴量算出ステップと、
前記文書データ毎に、前記品詞タグの組み合わせに対する前記特徴量を入力とし、予め機械翻訳又は人間翻訳の区分がラベル付けされた文書データにより学習されたモデルにより、分類結果を出力する分類ステップと、をコンピュータが実行する分類方法。
【請求項6】
請求項1又は請求項2に記載の分類装置としてコンピュータを機能させるための分類プログラム。
【請求項7】
請求項3又は請求項4に記載の学習装置としてコンピュータを機能させるための学習プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、機械翻訳と人間翻訳とを分類するための装置に関する。
【背景技術】
【0002】
従来、スパムメール等の悪意のある文書を攻撃者が作成するために、機械翻訳が利用されている。このため、文書が機械翻訳されたものであるか、人間により翻訳されたものであるかを判別することにより、悪意のある文書を高い確率で検出し、セキュリティ上のリスクを低減することができる。
例えば、非特許文献1~8において、機械翻訳と人間翻訳とを分類する手法が提案されている。
【先行技術文献】
【非特許文献】
【0003】
【文献】Chae, J., Nenkova, A.: Predicting the fluency of text with shallow structural features: case studies of machine translation and human-written text. In: EACL, pp. 139-147 (2009).
【文献】Li, Y., Wang, R., Zhao, H.: A machine learning method to distinguish machine translation from human translation. In: PACLIC, pp. 354-360 (2015).
【文献】Arase, Y., Zhou, M.: Machine translation detection from monolingual web-text. In: ACL (1). pp. 1597-1607 (2013).
【文献】Aharoni, R., Koppel, M., Goldberg, Y.: Automatic detection of machine translatedtext and translation quality estimation. In: ACL (2014).
【文献】Nguyen-Son, H.Q., Echizen, I.: Detecting computer-generated text using fluencyand noise features. In: International Conference of the Pacific Association for Com-putational Linguistics. pp. 288-300. Springer (2017).
【文献】Nguyen-Son, H.Q., Tieu, N.D.T., Nguyen, H.H., Yamagishi, J., Zen, I.E.: Iden-tifying computer-generated text using statistical analysis. In: Asia-Pacific Signaland Information Processing Association Annual Summit and Conference (APSIPAASC), 2017. pp. 1504-1511. IEEE (2017).
【文献】Labbe, C., Labbe, D.: Duplicate and fake publications in the scientific literature: how many SCIgen papers in computer science? In: Scientometrics 94 (1), 379-396(2013).
【文献】Nguyen-Son, H.Q., Tieu, N.D.T., Nguyen, H.H., Yamagishi, J., Echizen, I.: Identifying computer-generated paragraphs using coherence and fluency features. In: Proceedings PACLIC (2018).
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、従来の分類手法は、機械翻訳の品質に大きく依存しており、機械翻訳の品質が人間翻訳に比べて大きく劣っている場合には両者を分類できるものの、近年の機械翻訳の性能向上により、分類精度が低下していた。
【0005】
本発明は、精度良く機械翻訳と人間翻訳とを分類できる分類装置、学習装置、分類方法及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明に係る分類装置は、文書データのそれぞれを単語に分割し、当該単語のそれぞれに品詞タグを付与するタグ付け部と、前記文書データ毎に、前記単語の組み合わせについて、当該単語のそれぞれに定義された単語ベクトル間の距離を算出する距離算出部と、前記文書データ、及び前記品詞タグの組み合わせ毎に、同一の単語に関する前記距離のグループの中で最小値をそれぞれ抽出する抽出部と、前記文書データ、及び前記品詞タグの組み合わせ毎に、前記最小値の前記グループの中での統計量を特徴量として算出する特徴量算出部と、前記文書データ毎に、前記品詞タグの組み合わせに対する前記特徴量を入力とし、予め機械翻訳又は人間翻訳の区分がラベル付けされた文書データにより学習されたモデルにより、分類結果を出力する分類部と、を備える。
【0007】
前記統計量は、平均又は分散の少なくともいずれかを含んでもよい。
【0008】
本発明に係る学習装置は、文書データのそれぞれを単語に分割し、当該単語のそれぞれに品詞タグを付与するタグ付け部と、前記文書データ毎に、前記単語の組み合わせについて、当該単語のそれぞれに定義された単語ベクトル間の距離を算出する距離算出部と、前記文書データ、及び前記品詞タグの組み合わせ毎に、同一の単語に関する前記距離のグループの中で最小値をそれぞれ抽出する抽出部と、前記文書データ、及び前記品詞タグの組み合わせ毎に、前記最小値の前記グループの中での統計量を特徴量として算出する特徴量算出部と、前記文書データ毎に、前記品詞タグの組み合わせに対する前記特徴量を入力とし、予めラベル付けされている機械翻訳又は人間翻訳の区分を学習したモデルを生成する学習部と、を備える。
【0009】
前記学習部は、複数の学習アルゴリズムにより複数の前記モデルを生成し、前記区分の出力精度が最も高いモデルを選別してもよい。
【0010】
本発明に係る分類方法は、文書データのそれぞれを単語に分割し、当該単語のそれぞれに品詞タグを付与するタグ付けステップと、前記文書データ毎に、前記単語の組み合わせについて、当該単語のそれぞれに定義された単語ベクトル間の距離を算出する距離算出ステップと、前記文書データ、及び前記品詞タグの組み合わせ毎に、同一の単語に関する前記距離のグループの中で最小値をそれぞれ抽出する抽出ステップと、前記文書データ、及び前記品詞タグの組み合わせ毎に、前記最小値の前記グループの中での統計量を特徴量として算出する特徴量算出ステップと、前記文書データ毎に、前記品詞タグの組み合わせに対する前記特徴量を入力とし、予め機械翻訳又は人間翻訳の区分がラベル付けされた文書データにより学習されたモデルにより、分類結果を出力する分類ステップと、をコンピュータが実行する。
【0011】
本発明に係る分類プログラムは、前記分類装置としてコンピュータを機能させるためのものである。
【0012】
本発明に係る学習プログラムは、前記学習装置としてコンピュータを機能させるためのものである。
【発明の効果】
【0013】
本発明によれば、精度よく機械翻訳と人間翻訳とを分類できる。
【図面の簡単な説明】
【0014】
【
図1】実施形態に係る分類装置の機能構成を示す図である。
【
図2】実施形態に係る品詞タグの種類を例示する図である。
【
図3】実施形態に係る文書データを構成する単語に品詞タグが付与される手順を例示する図である。
【
図4】実施形態に係る距離の算出単位の具体例を示す図である。
【
図5】実施形態に係る単語間の距離の最小値を抽出する手順を示す図である。
【
図6】実施形態に係る文書データ及び品詞ペア毎の単語間の距離データを例示する図である。
【
図7】実施形態に係る文書データ毎の特徴量を例示する図である。
【発明を実施するための形態】
【0015】
以下、本発明の実施形態の一例について説明する。
図1は、本実施形態に係る分類装置1の機能構成を示す図である。
分類装置及び学習装置としての分類装置1は、サーバ装置又はパーソナルコンピュータ等の情報処理装置(コンピュータ)であり、制御部10及び記憶部20の他、各種データの入出力デバイス及び通信デバイス等を備える。
【0016】
制御部10は、分類装置1の全体を制御する部分であり、記憶部20に記憶された各種プログラムを適宜読み出して実行することにより、本実施形態における各機能を実現する。制御部10は、CPUであってよい。
【0017】
記憶部20は、ハードウェア群を分類装置1として機能させるための各種プログラム、及び各種データ等の記憶領域であり、ROM、RAM、フラッシュメモリ又はハードディスク(HDD)等であってよい。具体的には、記憶部20は、本実施形態の各機能を制御部10に実行させるためのプログラムの他、辞書データ21、コーパス22、学習モデル23等を記憶する。
【0018】
制御部10は、入力部11と、タグ付け部12と、距離算出部13と、抽出部14と、特徴量算出部15と、学習部16と、分類部17とを備える。制御部10は、これらの機能部により、機械翻訳と人間翻訳とを分類する学習モデル23を生成し、新たな文書データを、機械翻訳されたものであるか、人間により翻訳されたものであるかに分類して結果を出力する。
【0019】
入力部11は、学習モデル23の訓練データ、又は学習モデル23による分類対象として、文書データ(テキスト)の入力を受け付ける。
【0020】
タグ付け部12は、入力された文書データのそれぞれを単語に分割し、これらの単語のそれぞれに品詞タグを付与する。
品詞タグを付与するためには、既存の形態素解析の手法が利用可能である。このとき、日本語又は英語等の言語に応じた品詞が定義された辞書データ21が参照される。
なお、辞書データ21は、分類装置1とは別の装置に記憶されていてもよいし、また、例えば、インターネット等を経由してアクセス可能な公開データベースに記憶されていてもよい。
【0021】
図2は、本実施形態に係る品詞タグの種類を例示する図である。
ここでは、英語の文書データを処理する場合を例に、分解された単語に付与する45種類の品詞(POS tag)と、その意味とを示している。
【0022】
図3は、本実施形態に係る文書データを構成する単語に品詞タグが付与される手順を例示する図である。
例えば、文書1に含まれる名詞「school」、「morning」、「bag」等には、品詞タグ「NN」が付与され、動詞「go」、「walk」等には、品詞タグ「VB」が付与されている。
このように、タグ付け部12は、入力された複数の文書データのそれぞれに対して、文書データを構成する全ての単語について、前述の45種類の品詞タグのいずれかを付与する。
【0023】
距離算出部13は、文書データ毎に、単語の組み合わせについて、単語のそれぞれに定義された単語ベクトル間の距離を算出する。
各単語に固有の多次元(例えば300次元)の単語ベクトルは、大量のデータセットに基づいて学習され、単語間の相対的な距離の近さによって意味の類似性又は関連性が示されるデータである。単語ベクトルは、予めコーパス22に格納されている。
なお、コーパス22は、分類装置1とは別の装置に記憶されていてもよいし、また、例えば、インターネット等を経由してアクセス可能な公開データベースに記憶されていてもよい。
【0024】
距離算出部13は、例えば、次の計算式によりユークリッド距離dを算出する。ここで、p及びqは、2つの単語を、p
i及びq
iは、n次元の単語ベクトルのi(1≦i≦n)番目の要素を示す。
【数1】
【0025】
図4は、本実施形態に係る距離の算出単位の具体例を示す図である。
距離算出部13は、文書1に含まれる名詞(NN)と名詞との組み合わせ(品詞ペア)として、「school」と「morning」、「school」と「bag」、「morning」と「bag」のように、2つの単語の組み合わせを順に抽出し、これらの組み合わせの距離dを算出する。
同様に、例えば品詞が45種類の場合には、1035通りの品詞ペアそれぞれについて、単語間の距離dが文書毎に算出される。
【0026】
抽出部14は、文書データ及び品詞ペア毎に、同一の単語に関する他の単語との距離のグループの中で、最小値をそれぞれ抽出する。
例えば、文書1の品詞ペア「NN-NN」については、「school」と他の単語(「morning」及び「bag」等)との距離のグループ、「morning」と他の単語との距離のグループ、「bag」と他の単語との距離のグループのように、複数のグループからそれぞれ距離の最小値を抽出する。
【0027】
図5は、本実施形態に係る単語間の距離の最小値を抽出する手順を示す図である。
文書1の品詞ペア1(NN-NN)では、ある単語に関する距離のグループ「6.3,4.6,2.8,0.6,9.2」からは、最小値0.6が抽出される。また、別の単語に関する距離のグループ「3.9,6.5,2.1,5.8,4.6」からは、最小値2.1が抽出される。
このように、文書データ及び品詞ペア毎に、1つ以上の最小値データが抽出され、同様の処理が全ての品詞ペア及び文書データについて行われる。
【0028】
図6は、本実施形態に係る文書データ及び品詞ペア毎の単語間の距離データを例示する図である。
この例では、抽出部14により抽出された最小値データが文書データと品詞ペアとのマトリクスとして記述されている。マトリクスの各要素には、前述の通り、1つ又は複数の最小値データが配置される。
さらに、文書データが学習のための訓練データである場合、各文書データには、機械翻訳か人間翻訳かの分類ラベルが付与されている。
【0029】
特徴量算出部15は、文書データ及び品詞ペア毎に、最小値のグループの中での統計量を特徴量として算出する。
統計量は、例えば、次の計算式により算出される平均(average)又は分散(variance)の少なくともいずれかを含んでよい。ここで、a
i(1≦i≦n)は、マトリクスの要素(グループ)に含まれるn個の最小値データのi番目を示す。
【数2】
【0030】
図7は、本実施形態に係る文書データ毎の特徴量を例示する図である。
この例では、文書データ毎に、1035通りの品詞ペアに対して平均及び分散の2つの特徴量がそれぞれ算出されている。
【0031】
学習部16は、文書データ毎に、品詞ペアに対する特徴量を入力とし、予めラベル付けされている機械翻訳又は人間翻訳の区分を学習した学習モデル23を生成する。
学習モデル23を生成する手法は、ロジスティック回帰、線形分類器、確率的勾配降下法によるサポートベクタマシン、逐次最小問題最適化法によるサポートベクタマシン等、各種の学習アルゴリズムから適宜選択されてよい。
また、学習部16は、複数の学習アルゴリズムにより複数の学習モデル23を生成してもよく、この場合、出力精度が最も高い学習モデル23が選別されてよい。
【0032】
分類部17は、分類対象の文書データが入力された際に、前述の特徴量算出部15により算出された品詞ペアに対する特徴量(例えば、平均及び分散)を入力とし、学習モデル23により、分類結果を出力する。
【0033】
本実施形態によれば、分類装置1は、文書データを構成する単語に品詞タグを付与し、品詞ペア毎に単語間の距離を算出する。そして分類装置1は、この単語間の距離を統計処理した特徴量を入力として、機械翻訳であるか人間翻訳であるかの既知の区分に基づいて学習モデル23を生成する。
機械翻訳に比べて人間翻訳は、単一の文だけでなく文書内の複数の文の中で、類似性又は関連性の高い単語が一貫性を持って使用される傾向にある。分類装置1は、このような傾向の違いを、単語間の距離に基づく特徴量により表し、適切な学習モデル23を生成できる。
したがって、分類装置1は、精度良く機械翻訳と人間翻訳とを分類できる。この結果、スパムメール等のユーザが望まない文書データを高精度に判別することが可能となる。
【0034】
また、分類装置1は、特徴量として、単語毎の距離の最小値に関する平均又は分散の少なくともいずれかを用いることで、容易な計算により精度良く文書データを分類できる。
さらに、分類装置1は、複数の学習アルゴリズムを用いて学習モデル23を生成し、精度が最も高いものを選別するので、より高精度に文書データを分類できる。
【0035】
以上、本発明の実施形態について説明したが、本発明は前述した実施形態に限るものではない。また、前述した実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、実施形態に記載されたものに限定されるものではない。
【0036】
分類装置1による学習方法及び分類方法は、ソフトウェアにより実現される。ソフトウェアによって実現される場合には、このソフトウェアを構成するプログラムが、情報処理装置(コンピュータ)にインストールされる。また、これらのプログラムは、CD-ROMのようなリムーバブルメディアに記録されてユーザに配布されてもよいし、ネットワークを介してユーザのコンピュータにダウンロードされることにより配布されてもよい。さらに、これらのプログラムは、ダウンロードされることなくネットワークを介したWebサービスとしてユーザのコンピュータに提供されてもよい。
【符号の説明】
【0037】
1 分類装置(学習装置)
10 制御部
11 入力部
12 タグ付け部
13 距離算出部
14 抽出部
15 特徴量算出部
16 学習部
17 分類部
20 記憶部
23 学習モデル