(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-08-05
(45)【発行日】2022-08-16
(54)【発明の名称】分類装置、学習装置、方法及びプログラム
(51)【国際特許分類】
G06N 20/00 20190101AFI20220808BHJP
【FI】
G06N20/00 130
(21)【出願番号】P 2019167456
(22)【出願日】2019-09-13
【審査請求日】2021-07-20
(73)【特許権者】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100106002
【氏名又は名称】正林 真之
(74)【代理人】
【識別番号】100120891
【氏名又は名称】林 一好
(72)【発明者】
【氏名】グエン ソン ホアン コック
(72)【発明者】
【氏名】披田野 清良
(72)【発明者】
【氏名】トラン フン タオ
(72)【発明者】
【氏名】清本 晋作
【審査官】杉浦 孝光
(56)【参考文献】
【文献】特開2008-021190(JP,A)
【文献】特開2002-358499(JP,A)
【文献】国際公開第2015/029158(WO,A1)
【文献】特開2019-056983(JP,A)
【文献】特開2018-055514(JP,A)
【文献】鳴海建太、外2名,統計的手法と事例ベース手法を併用したスパムフィルタリング,電子情報通信学会論文誌,日本,2008年11月01日,Vol.J91-D No.11,pp.2569-2578
(58)【調査した分野】(Int.Cl.,DB名)
G06N 3/00-99/00
(57)【特許請求の範囲】
【請求項1】
対象データに対して、所定の変換手法を適用することにより、変換データを生成する生成部と、
前記対象データと前記変換データとの類似度を算出する算出部と、
機械により生成されたか又は人間により生成されたかの区分が予めラベル付けされた学習データを対象として算出された前記類似度を入力として、前記区分が学習された分類器により、前記対象データの分類結果を出力する分類部と、を備える分類装置。
【請求項2】
前記生成部は、前記対象データであるテキストに対して、機械翻訳による順翻訳及び逆翻訳を行うことで前記変換データを生成する請求項1に記載の分類装置。
【請求項3】
前記対象データの種類に応じて、前記変換手法を選択する選択部を備える請求項1又は請求項2に記載の分類装置。
【請求項4】
学習データに対して、所定の変換手法を適用することにより、変換データを生成する生成部と、
前記学習データと前記変換データとの類似度を算出する算出部と、
前記類似度を入力として、対応する前記学習データに予めラベル付けされた機械により生成されたか又は人間により生成されたかの区分を学習した分類器を生成する学習部と、を備える学習装置。
【請求項5】
対象データに対して、所定の変換手法を適用することにより、変換データを生成する生成ステップと、
前記対象データと前記変換データとの類似度を算出する算出ステップと、
機械により生成されたか又は人間により生成されたかの区分が予めラベル付けされた学習データを対象として算出された前記類似度を入力として、前記区分が学習された分類器により、前記対象データの分類結果を出力する分類ステップと、をコンピュータが実行する分類方法。
【請求項6】
学習データに対して、所定の変換手法を適用することにより、変換データを生成する生成ステップと、
前記学習データと前記変換データとの類似度を算出する算出ステップと、
前記類似度を入力として、対応する前記学習データに予めラベル付けされた機械により生成されたか又は人間により生成されたかの区分を学習した分類器を生成する学習ステップと、をコンピュータが実行する学習方法。
【請求項7】
請求項1から請求項3のいずれかに記載の分類装置としてコンピュータを機能させるための分類プログラム。
【請求項8】
請求項4に記載の学習装置としてコンピュータを機能させるための学習プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、人間が作成したデータか機械が作成したデータかを分類するための装置に関する。
【背景技術】
【0002】
従来、スパムメール又は敵対的サンプル(テキスト、画像等)等、悪意のあるデータによる被害が問題となっている。このような悪意のあるデータは、機械により自動生成される場合が多い。そこで、機械により生成されたデータを検出できる手法が望まれており、例えば、非特許文献1~7で各種の手法が提案されている。
【先行技術文献】
【非特許文献】
【0003】
【文献】Hoang-Quoc Nguyen-Son, Tran Phuong Thao, Seira Hidano, and Shinsaku Kiyomoto, “Detecting Machine-Translated Paragraphs by Matching Similar Words”. In: the 20th International Conference on Computational Linguistics and Intelligent Text Processing (CICLING), 2019.
【文献】Hoang-Quoc Nguyen-Son, Huy H. Nguyen, Ngoc-Dung T. Tieu, Junichi Yamagishi, and Isao Echizen, “Identifying Computer-Translated Paragraphs using Coherence Features”. In: the 32nd Pacific Asia Conference on Language, Information and Computation (PACLIC), 2018.
【文献】Hoang-Quoc Nguyen-Son and Isao Echizen. “Detecting Computer-Generated Text Using Fluency and Noise Features”. In: the 15th International Conference of the Pacific Association for Computational Linguistics (PACLING), pp. 288-300, 2017.
【文献】Hoang-Quoc Nguyen-Son, Ngoc-Dung T. Tieu, Huy H. Nguyen, Junichi Yamagishi, and Isao Echizen, “Identifying Computer-Generated Text Using Statistical Analysis”. In: the Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC), pp. 123-130, 2017.
【文献】Yitong Li, Rui Wang, and Hai Zhai, “A Machine Learning Method to Distinguish Machine Translation from Human Translation”. In: the 29th Pacific Asia Conference on Language, Information and Computation (PACLIC), pp. 354-360, 2015.
【文献】Mika Juuti, Bo Sun, Tatsuya Mori, and N. Asokan, “Stay On-Topic: Generating Context-specific Fake Restaurant Reviews”. In: the 23rd European Symposium on Research in Computer Security (ESORICS), pp. 132-151, 2018.
【文献】Yuanshun Yao, Bimal Viswanath, Jenna Cryan, Haitao Zheng, and Haitao Zheng, “Automated Crowdturfing Attacks and Defenses in Online Review Systems”. In: ACM SIGSAC Conference on Computer and Communications Security (CCS), pp. 1143-1158, 2017.
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、従来の手法は、機械により生成されたデータと人間により生成されたデータとの品質の違いに依存していたり、データの長さ等の制約があったり、特徴量に基づく複雑な計算が必要であったり、といった課題があった。このため、機械により生成されたデータを容易に精度良く検出することは難しかった。
【0005】
本発明は、機械により生成されたデータと人間により生成されたデータとを、容易に精度良く分類できる分類装置、学習装置、方法及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明に係る分類装置は、対象データに対して、所定の変換手法を適用することにより、変換データを生成する生成部と、前記対象データと前記変換データとの類似度を算出する算出部と、機械により生成されたか又は人間により生成されたかの区分が予めラベル付けされた学習データを対象として算出された前記類似度を入力として、前記区分が学習された分類器により、前記対象データの分類結果を出力する分類部と、を備える。
【0007】
前記生成部は、前記対象データであるテキストに対して、機械翻訳による順翻訳及び逆翻訳を行うことで前記変換データを生成してもよい。
【0008】
前記分類装置は、前記対象データの種類に応じて、前記変換手法を選択する選択部を備えてもよい。
【0009】
本発明に係る学習装置は、学習データに対して、所定の変換手法を適用することにより、変換データを生成する生成部と、前記学習データと前記変換データとの類似度を算出する算出部と、前記類似度を入力として、対応する前記学習データに予めラベル付けされた機械により生成されたか又は人間により生成されたかの区分を学習した分類器を生成する学習部と、を備える。
【0010】
本発明に係る分類方法は、対象データに対して、所定の変換手法を適用することにより、変換データを生成する生成ステップと、前記対象データと前記変換データとの類似度を算出する算出ステップと、機械により生成されたか又は人間により生成されたかの区分が予めラベル付けされた学習データを対象として算出された前記類似度を入力として、前記区分が学習された分類器により、前記対象データの分類結果を出力する分類ステップと、をコンピュータが実行する。
【0011】
本発明に係る学習方法は、学習データに対して、所定の変換手法を適用することにより、変換データを生成する生成ステップと、前記学習データと前記変換データとの類似度を算出する算出ステップと、前記類似度を入力として、対応する前記学習データに予めラベル付けされた機械により生成されたか又は人間により生成されたかの区分を学習した分類器を生成する学習ステップと、をコンピュータが実行する。
【0012】
本発明に係る分類プログラムは、前記分類装置としてコンピュータを機能させるためのものである。
【0013】
本発明に係る学習プログラムは、前記学習装置としてコンピュータを機能させるためのものである。
【発明の効果】
【0014】
本発明によれば、機械により生成されたデータと人間により生成されたデータとを、容易に精度良く分類できる。
【図面の簡単な説明】
【0015】
【
図1】実施形態における分類装置の機能構成を示す図である。
【
図2】実施形態における変換の回数に応じた、データの類似度の変化を説明する図である。
【
図3】実施形態における変換の実例と、類似度の違いとを例示する図である。
【
図4】実施形態における学習方法を示すフローチャートである。
【
図5】実施形態における学習方法を示すフローチャートの説明に供する図である。
【
図6】実施形態における分類方法を示すフローチャートである。
【発明を実施するための形態】
【0016】
以下、本発明の実施形態の一例について説明する。
図1は、本実施形態における分類装置1の機能構成を示す図である。
分類装置1(分類装置、学習装置)は、サーバ装置又はパーソナルコンピュータ等の情報処理装置(コンピュータ)であり、制御部10及び記憶部20の他、各種データの入出力デバイス及び通信デバイス等を備える。
【0017】
制御部10は、分類装置1の全体を制御する部分であり、記憶部20に記憶された各種プログラムを適宜読み出して実行することにより、本実施形態における各機能を実現する。制御部10は、CPUであってよい。
【0018】
記憶部20は、ハードウェア群を分類装置1として機能させるための各種プログラム、及び各種データ等の記憶領域であり、ROM、RAM、フラッシュメモリ又はハードディスクドライブ(HDD)等であってよい。具体的には、記憶部20は、本実施形態の各機能を制御部10に実行させるためのプログラム(分類プログラム、学習プログラム)の他、分類器としての学習モデル21等を記憶する。
【0019】
制御部10は、選択部11と、生成部12と、算出部13と、学習部14と、分類部15とを備える。制御部10は、これらの機能部により、機械により生成されたデータと、人間により生成されたデータとを分類するための分類器である学習モデル21を生成し、新たに入力された対象データを、機械により生成されたデータであるか、人間により生成されたデータであるかに分類して結果を出力する。
【0020】
選択部11は、分類を行う対象データの種類に応じて、この対象データが機械により変換されて生成されたものである場合に採用されたと想定される変換手法を選択する。
変換手法は、例えば、メール等のテキストを対象データとする場合、機械翻訳による順翻訳に続いて逆翻訳を行う変換手法が採用可能である。また、テキスト又は画像等の敵対的サンプルを対象データとする場合に、このような敵対的サンプルを生成するための既知の手法が選択されてよい。
【0021】
生成部12は、分類の対象データ又は学習データに対して、選択された所定の変換手法を適用することにより、変換データを生成する。
【0022】
算出部13は、分類の対象データ又は学習データと、生成された変換データとの類似度を算出する。
ここで、類似度の算出方法は限定されないが、例えば、次の文献Aに示されているBLEUスコアが適用可能である。
文献A: Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu, “BLEU: a Method for Automatic Evaluation of Machine Translation”. In: ACL-2002: 40th Annual meeting of the Association for Computational Linguistics, pp. 311-318.
【0023】
学習部14は、学習データから生成された変換データとの類似度を入力として、この学習データに予めラベル付けされた、機械により生成されたか又は人間により生成されたかの区分を学習し、学習モデル21を生成する。
なお、学習手法は限定されず、例えば、ロジスティック回帰、サポートベクタマシン、確率的勾配降下法、逐次最小問題最適化法、深層学習等が適用でき、さらに、k-分割交差検証等のアルゴリズムが利用されてもよい。
【0024】
分類部15は、分類の対象データから生成された変換データとの類似度を算出部13から取得すると、この類似度を学習モデル21に入力し、対象データの分類結果を出力する。
【0025】
図2は、本実施形態における変換の回数に応じた、データの類似度の変化を説明する図である。
ここでは、オリジナルのデータd
mに対して、例えば、機械学習に基づく変換Gにより新たなデータd’
mが生成され、さらに変換Gを繰り返すことで、データd”
m,d”’
m,…が生成された場合を示している。
このとき、d
mとd’
mとの類似度をs
mとし、同様に、データd’
mとd”
mとの類似度をs’
m、d”
mとd”’
mとの類似度をs”
m,…とする。
【0026】
変換Gは、1回の処理で最適化が図られるため、複数回繰り返されることにより、データは収束し、変換前後の類似度は増加傾向(sm<s’m<s”m<…)となる。
すなわち、機械により生成されたデータd’m,d”m,…は、人間により生成されたデータdmよりも、さらに変換した後のデータとの類似度が高くなる。
【0027】
図3は、本実施形態における変換の実例と、類似度の違いとを例示する図である。
この例では、人間により生成された英語のテキストAと、テキストAと同じ意味で書かれたフランス語のテキストBを英語に機械翻訳した、すなわち機械により生成されたテキストCとを比較している。
【0028】
テキストA1は、テキストAをフランス語に機械翻訳した後、さらに英語に機械翻訳したものである。同様に、テキストC1は、テキストCをフランス語に機械翻訳した後、さらに英語に機械翻訳したものである。
【0029】
ここで、テキストAとテキストA1との類似度(BLEUスコア)は、テキストCとテキストC1との類似度に比べて極めて低くなっている。
このように、機械により生成されたテキストと、人間により生成されたテキストとでは、変換前後の類似度が大きく異なるため、この類似度を特徴量として、次のように機械学習を適用して、分類器が生成される。
【0030】
図4は、本実施形態における学習方法を示すフローチャートである。また、
図5は、本フローチャートの説明に供する図である。
なお、データの変換手法は、予め特定されているものとする。
【0031】
ステップS1において、制御部10は、機械により生成されたことを示すラベル(machine)、又は人間により生成されたことを示すラベル(human)が予め付与されたN個の学習データからなるデータセットD={d1,d2,d3,…,dN}を収集する。
【0032】
ステップS2において、生成部12は、各学習データdiに対して変換Gを適用し、変換データd’iを生成する。
【0033】
ステップS3において、算出部13は、各学習データdiと変換データd’iとの類似度siを算出する。
このとき、前述のように、機械により生成されたデータは、人間により生成されたデータよりも、対応する変換データとの類似度が高くなる(s2,sN>s1,s3)。
【0034】
ステップS4において、学習部14は、類似度{s1,s2,s3,…,sN}を入力として、予め付与されているラベルを学習し、学習モデル21を生成する。
【0035】
図6は、本実施形態における分類方法を示すフローチャートである。
ステップS11において、生成部12は、入力された対象データd
xに対して変換Gを適用し、変換データd’
xを生成する。
【0036】
ステップS12において、算出部13は、対象データdxと変換データd’xとの類似度sxを算出する。
【0037】
ステップS13において、分類部15は、算出された類似度sxを学習モデル21に入力することで、対象データが機械により生成されたか、又は人間により生成されたかに分類し、結果を出力する。
【0038】
本実施形態によれば、分類装置1は、学習データに対して、所定の変換手法を適用することにより、変換データを生成し、学習データと変換データとの類似度を学習のための特徴量として算出する。そして、分類装置1は、この類似度を入力として、対応する学習データに予めラベル付けされた機械により生成されたか又は人間により生成されたかの区分を学習し、学習モデル21を生成する。
【0039】
これにより、分類装置は、新たに入力された対象データについて、同様に変換データを生成して類似度を算出することにより、学習モデル21を利用して、機械により生成されたか又は人間により生成されたかの分類結果を出力できる。
したがって、分類装置1は、変換処理を繰り返すことによるデータの収束、すなわち類似度が増加する特徴を利用して、機械により生成されたデータと人間により生成されたデータとを、容易に精度良く分類できる。
【0040】
分類装置1は、対象データであるテキストに対して、機械翻訳による順翻訳及び逆翻訳を行うことで変換データを生成できる。
これにより、分類装置1は、機械翻訳を利用したスパムメール等のテキストを効率よく検出することができる。
【0041】
分類装置1は、対象データの種類に応じて、変換手法を選択するので、様々なデータの種類に対して適切な変換手法を適用し、精度良く分類することができる。また、変換のアルゴリズムが既知のデータを検出対象として、容易に分類器を構成することができる。
【0042】
以上、本発明の実施形態について説明したが、本発明は前述した実施形態に限るものではない。また、前述した実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、実施形態に記載されたものに限定されるものではない。
【0043】
分類装置1による学習方法及び分類方法は、ソフトウェアにより実現される。ソフトウェアによって実現される場合には、このソフトウェアを構成するプログラムが、情報処理装置(コンピュータ)にインストールされる。また、これらのプログラムは、CD-ROMのようなリムーバブルメディアに記録されてユーザに配布されてもよいし、ネットワークを介してユーザのコンピュータにダウンロードされることにより配布されてもよい。さらに、これらのプログラムは、ダウンロードされることなくネットワークを介したWebサービスとしてユーザのコンピュータに提供されてもよい。
【符号の説明】
【0044】
1 分類装置(学習装置)
10 制御部
11 選択部
12 生成部
13 算出部
14 学習部
15 分類部
20 記憶部
21 学習モデル