IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 楽天株式会社の特許一覧

特開2024-2664検知装置、検知方法、検知プログラム、機械学習装置、機械学習方法、及び機械学習モデル
<>
  • 特開-検知装置、検知方法、検知プログラム、機械学習装置、機械学習方法、及び機械学習モデル 図1
  • 特開-検知装置、検知方法、検知プログラム、機械学習装置、機械学習方法、及び機械学習モデル 図2
  • 特開-検知装置、検知方法、検知プログラム、機械学習装置、機械学習方法、及び機械学習モデル 図3
  • 特開-検知装置、検知方法、検知プログラム、機械学習装置、機械学習方法、及び機械学習モデル 図4
  • 特開-検知装置、検知方法、検知プログラム、機械学習装置、機械学習方法、及び機械学習モデル 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024002664
(43)【公開日】2024-01-11
(54)【発明の名称】検知装置、検知方法、検知プログラム、機械学習装置、機械学習方法、及び機械学習モデル
(51)【国際特許分類】
   G06V 10/70 20220101AFI20231228BHJP
   G06Q 50/10 20120101ALI20231228BHJP
   G06T 7/00 20170101ALI20231228BHJP
   G06N 20/00 20190101ALI20231228BHJP
【FI】
G06V10/70
G06Q50/10
G06T7/00 350B
G06N20/00
【審査請求】有
【請求項の数】15
【出願形態】OL
(21)【出願番号】P 2022101995
(22)【出願日】2022-06-24
(71)【出願人】
【識別番号】399037405
【氏名又は名称】楽天グループ株式会社
(74)【代理人】
【識別番号】100122275
【弁理士】
【氏名又は名称】竹居 信利
(72)【発明者】
【氏名】友岡 高志
(72)【発明者】
【氏名】中澤 満
【テーマコード(参考)】
5L049
5L096
【Fターム(参考)】
5L049CC22
5L096DA02
5L096KA04
(57)【要約】      (修正有)
【課題】機械学習に必要なデータを準備できない状況下でも対象状態検知が可能な検知装置、検知方法、検知プログラム、機械学習装置、機械学習方法及び機械学習モデルを提供する。
【解決手段】検知装置1は、第1の機械学習モデル21と、第1の機械学習モデル21とともに相互学習に供される第2の機械学習モデル22を有する制御部11を備える。第2の機械学習モデル22は、第1の機械学習モデル21が複数のモダリティを有する真正又は不正の商品情報を生成するよう機械学習される。制御部11は、複数のモダリティを有する商品情報の正否を識別するよう機械学習される複数のモダリティを有する商品情報を取得し、取得した複数のモダリティを有する商品情報の正否を、第2の機械学習モデル22を用いて推定する。
【選択図】図1
【特許請求の範囲】
【請求項1】
第1の機械学習モデルとともに相互学習に供される第2の機械学習モデルであって、前記第1の機械学習モデルが複数のモダリティを有する真正または不正の商品情報を生成するよう機械学習され、複数のモダリティを有する商品情報の正否を識別するよう機械学習される第2の機械学習モデルを有し、
複数のモダリティを有する商品情報を取得する取得手段、及び、
前記取得手段が取得した複数のモダリティを有する商品情報の正否を、前記第2の機械学習モデルを用いて推定する推定手段を有する検知装置。
【請求項2】
請求項1に記載の検知装置であって、前記第1の機械学習モデルが、複数のモダリティを有する真正の商品情報の少なくとも一部が編集加工された不正の商品情報を生成するよう機械学習される検知装置。
【請求項3】
請求項1に記載の検知装置であって、複数のモダリティを有する前記商品情報は、商品画像を示す画像データを含む検知装置。
【請求項4】
請求項1に記載の検知装置であって、複数のモダリティを有する前記商品情報は、商品タイトルを示すテキストデータを含む検知装置。
【請求項5】
請求項1に記載の検知装置であって、複数のモダリティを有する前記商品情報は、商品説明文を示すテキストデータを含む検知装置。
【請求項6】
請求項1に記載の検知装置であって、複数のモダリティを有する前記商品情報は、商品価格を示す数値データを含む検知装置。
【請求項7】
請求項1に記載の検知装置であって、複数のモダリティを有する前記商品情報は、商品カテゴリを示す属性データを含む検知装置。
【請求項8】
請求項1に記載の検知装置であって、複数のモダリティを有する前記商品情報は、発送タイミングを示す数値データを含む検知装置。
【請求項9】
請求項1に記載の検知装置であって、複数のモダリティを有する前記商品情報は、出品者または販売者の属性を示す属性データを含む検知装置。
【請求項10】
請求項1に記載の検知装置であって、複数のモダリティを有する前記商品情報は、出品者または販売者の評価を示す数値データを含む検知装置。
【請求項11】
第1の機械学習モデルとともに相互学習に供される第2の機械学習モデルであって、前記第1の機械学習モデルが複数のモダリティを有する真正または不正の商品情報を生成するよう機械学習され、複数のモダリティを有する商品情報の正否を識別するよう機械学習される第2の機械学習モデルを有する
コンピュータに、
複数のモダリティを有する商品情報を取得する取得ステップ、及び、
前記取得手段が取得した複数のモダリティを有する商品情報の正否を、前記第2の機械学習モデルを用いて推定する推定ステップ
を実行させる検知方法。
【請求項12】
第1の機械学習モデルとともに相互学習に供される第2の機械学習モデルであって、前記第1の機械学習モデルが複数のモダリティを有する真正または不正の商品情報を生成するよう機械学習され、複数のモダリティを有する商品情報の正否を識別するよう機械学習される第2の機械学習モデルを有する
コンピュータを、
複数のモダリティを有する商品情報を取得する取得手段、及び、
前記取得手段が取得した複数のモダリティを有する商品情報の正否を、前記第2の機械学習モデルを用いて推定する推定手段、
として機能させる検知プログラム。
【請求項13】
第1の機械学習モデルを、複数のモダリティを有する真正または不正の商品情報を生成するよう、第2の機械学習モデルを、複数のモダリティを有する商品情報の正否を識別するよう、前記第1および第2の機械学習モデルを相互学習させる学習手段を有する機械学習装置。
【請求項14】
第1の機械学習モデルを、複数のモダリティを有する真正または不正の商品情報を生成するよう、第2の機械学習モデルを、複数のモダリティを有する商品情報の正否を識別するよう、前記第1および第2の機械学習モデルを相互学習させる学習ステップを有する機械学習方法。
【請求項15】
請求項14に記載の前記機械学習方法により前記第1の機械学習モデルとともに相互学習された前記第2の機械学習モデルであって、複数のモダリティを有する商品情報の正否を識別可能な、機械学習モデル。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、検知装置、検知方法、検知プログラム、機械学習装置、機械学習方法、及び機械学習モデルに関する。
【背景技術】
【0002】
近年では、電子商取引が広く普及している。電子商取引では、取引対象となる商品を、購入希望者が実際に手に取ることがないため、真正な商品でないものが出品されるなどといった不正な出品を防止し、ユーザが安心して電子商取引サービスを利用できるよう種々の対策が要望されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2019-101959号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
上記要望に応えるため、従来、機械学習モデルを用いて電子商取引サービスにおける不正な商品を検知するシステムが提案されている。しかしながら、このようなシステムを用いるためには、不正商品の実例に関する情報を機械学習データとして準備する必要がある。
【0005】
ところが商品の分野によっては、取り扱われる実際の商品の多様化とトレンドサイクルの短期化とが相俟って、商品が常に変化しているのが実情であり、結果として機械学習データを準備できない場合があった。このような事情は不正な商品の検知に限られない。不正・真正の別や何らかの基準に即した適切あるいは不適切の別など、択一的な何らかの状態(以下、対象状態と呼ぶ)にある商品の検出においても同様の事情が生じ得る。
【0006】
本発明は上記実情に鑑みて為されたもので、機械学習に必要なデータを準備できない状況下でも対象状態の検知が可能な技術を提供することを、その目的の一つとする。
【課題を解決するための手段】
【0007】
上記従来例の問題点を解決するための本発明の一態様は、検知装置であって、第1の機械学習モデルとともに相互学習に供される第2の機械学習モデルであって、前記第1の機械学習モデルが複数のモダリティを有する真正または不正の商品情報を生成するよう機械学習され、複数のモダリティを有する商品情報の正否を識別するよう機械学習される第2の機械学習モデルを有し、複数のモダリティを有する商品情報を取得する取得手段、及び、前記取得手段が取得した複数のモダリティを有する商品情報の正否を、前記第2の機械学習モデルを用いて推定する推定手段を有することとしたものである。
【発明の効果】
【0008】
本発明によると、機械学習に必要なデータを準備できない状況下でも、対象状態検知のための情報を出力するよう機械学習したモデルを利用できる。
【図面の簡単な説明】
【0009】
図1】本発明の実施の形態に係る検知装置の構成及び接続例を表すブロック図である。
図2】本発明の実施の形態に係る検知装置により実現される機械学習部の例を表す機能ブロック図である。
図3】本発明の実施の形態に係る検知装置における、機械学習処理を行う制御部の例を表す機能ブロック図である。
図4】本発明の実施の形態に係る検知装置における、推論の処理を行う制御部の例を表す機能ブロック図である。
図5】本発明の実施の形態に係る検知装置が扱う、商品情報に相当する商品ページの例を表す説明図である。
【発明を実施するための形態】
【0010】
本発明の実施の形態について図面を参照しながら説明する。本発明の実施の形態に係る検知装置1は、図1に例示するように、制御部11,記憶部12,操作部13,表示部14,及び通信部15を含んで構成される。またこの検知装置1は、サーバ装置2に対して、ネットワークを介して通信可能に接続されてもよい。
【0011】
この制御部11は、CPU等のプログラム制御デバイスであり、記憶部12に格納されたプログラムに従って動作する。本実施の形態の例では、この制御部11は、所定の第1の機械学習モデル21とともに相互学習に供される第2の機械学習モデル22とを機能的に実現する。ここで、第1の機械学習モデル21は複数のモダリティを有し、真正または不正の商品情報と認識されるべき(つまり対象状態にあると認識されるべき)商品情報を生成するよう機械学習されるものであり、また第2の機械学習モデル22は、複数のモダリティを有する商品情報が対象状態にあるか否か(商品情報の正否等)を識別して出力するよう機械学習されたものである。この機械学習は、検知装置1において行われてもよいし、検知装置1とは異なる機械学習装置などの他の情報処理装置において機械学習されたものであってもよい。なお、本実施形態では、複数のモダリティ(情報の種別)を含む商品情報を、単に商品情報と呼称する。
【0012】
第2の機械学習モデル22の機械学習を検知装置1が行う場合、制御部11は、第1の機械学習モデル21としても機能することとなる。また、第2の機械学習モデル22の機械学習を検知装置1とは異なる他の情報処理装置で行う場合、制御部11は、必ずしも第1の機械学習モデル21として機能する必要はない。
【0013】
制御部11は、正否の認識の対象となる商品情報の入力を取得し、当該取得した商品情報の正否を、上記第2の機械学習モデル22を用いて推定する。そして制御部11は、当該推定の結果を出力する。この制御部11が実現する第1,第2の機械学習モデル21,22の詳しい内容、及び、制御部11の動作例については後に述べる。
【0014】
記憶部12は、メモリデバイスやディスクデバイス等であり、制御部11によって実行されるプログラムを格納する。このプログラムは、コンピュータ可読かつ非一時的な記録媒体に格納されて提供され、この記憶部12に複写されたものであってもよい。
【0015】
操作部13は、キーボードやマウス等であり、ユーザの操作を受け入れて、当該操作の内容を表す情報を、制御部11に出力する。表示部14は、ディスプレイ等であり、制御部11から入力される指示に従って画像を表示する。
【0016】
通信部15は、例えばネットワークインタフェースであり、ネットワークを介して受信されるデータを制御部11に出力し、また制御部11から入力される指示に従って、データを、ネットワークを介して外部のサーバ等に宛てて送出する。
【0017】
[第1の機械学習モデル]
本実施の形態の一例に係る第1の機械学習モデル21は、図2に例示されるように、ノイズ生成部211と、少なくともひとつの情報生成部212とを機能的に含む。なお、商品情報の各モダリティの情報を生成する各機械学習モデルを総じて第1の機械学習モデル21と扱ってもよい。
【0018】
ノイズ生成部211は、例えば乱数発生器であり、情報生成部212に情報を生成させるべき旨の指示があると、ランダムデータ(ランダムなスカラ値であってもよいし、各成分の値をランダムとしたベクトル値でもよい)を発生させて情報生成部212に出力する。
【0019】
情報生成部212は、例として、ノイズ生成部211が出力するランダムデータの入力を受けて、予め定められた種類の情報(テキストデータや画像データ等)を生成するよう機械学習されたニューラルネットワークである。この情報生成部212の具体的な構成は、生成する情報の種類によって異なっていてよい。情報生成部212の一例は、M.Mizra, et al., “Conditional Generative Adversarial Nets”, arXiv preprint, arXiv:1411.1784(2014)などに示されたConditional Generative Adversarial Network(CGAN)における生成器(Generator)であり、生成する情報の種類に応じて種々の生成器が既に知られているので、それらを利用することができる。この情報生成部212は、生成した情報を出力する。
【0020】
本実施の形態の一例では、図2(a)に例示するように、第1の機械学習モデル21は、複数の情報生成部212を含む。ここでの例では、当該複数の情報生成部212のそれぞれは、対象状態にある商品情報を生成するもので、対象状態にある、
・商品画像:商品に係るウェブページ(以下商品ページと呼ぶ)で表示され、商品を表す画像データ、
・商品タイトル:商品ページで表示される商品名のテキストデータ、
・商品価格:商品ページで表示される商品の販売額の数値データ、
をそれぞれ生成(出力)するよう機械学習された状態とされる。以下の例では、対象状態にある商品情報は、不正な商品情報と判断されるべきものとする。もっとも真正な商品情報と判断されるべきものとしてもよい(そうでなければ不正な商品情報であるので、ここでは同じこととなる)。
【0021】
[第2の機械学習モデル]
第2の機械学習モデル22は、図2(b)に例示されるように、少なくとも一つの識別器221と、認識部222とを含む。この識別器221は、第1の機械学習モデル21の情報生成部212に対応して設けられ、機械学習を行う段階では、対応する情報生成部212が出力する予め定めたモダリティ(種類)の情報(テキストデータや画像データ等)の入力を受け入れる。識別器221は、ここで受け入れたテキストデータや画像データ等の所定の種類の情報が対象状態にない(例えば真正なものである)確率を出力する(またはその余事象である対象状態にある(つまり不正である)確率を出力してもよいが、ここでは対象状態にない確率、つまり真正なものである確率を例として説明する)よう機械学習された状態とされるニューラルネットワークである。この識別器221は、上述のCGANにおける識別器(Discriminator)であり、対象とする情報に応じて種々のものが広く知られており、本実施の形態の識別器221も、それらを利用したものでよい。なお、商品情報の各モダリティの情報を識別する各機械学習モデルを総じて第2の機械学習モデル22と扱ってもよい。
【0022】
またこの識別器221は、推論時(実際に商品ページに掲載された情報が不正であるか真正であるかを判断する段階)では、商品ページに含まれる、対応するデータの入力を受け入れ、機械学習の結果に従い、当該受け入れたテキストデータや画像データ等の所定の種類の情報が対象状態にない、つまりここでは真正である確率を出力する。
【0023】
認識部222は、識別器221が出力する情報に基づいて、入力された情報が対象状態にない確率を出力する。本実施の形態の一例では、この認識部222は、複数の識別器221が出力する確率をそれぞれ機械学習された重みで重みづけ平均して出力するものであってよいし、ニューラルネットワークとして機能し、機械学習により複数の識別器221が出力する個々のモダリティの情報が対象状態にない確率に基づいて商品ページの全体が、対象状態にない確率を出力する。ここで認識部222は、商品ページ(商品情報に相当)が対象状態にない確率が所定のしきい値を上回るまたは下回ることを条件として、商品情報が対象状態にあるか否かの検知を行ってよい。例えば、識別器221が、それぞれのモダリティに係るデータが真正である確率を出力している場合、この認識部222は、複数の識別器221が出力する、個々のモダリティのデータが真正である確率に基づいて、商品情報である商品ページの全体が真正である確率を得て、この確率が所定のしきい値を上回るまたは下回ることを条件として、商品情報が不正であることの検知を行ってもよい。
【0024】
[機械学習]
ここで第1,第2の機械学習モデル21,22の機械学習処理について説明する。以下の例では、検知装置1が第1,第2の機械学習モデル21,22の機械学習処理を実行するものとするが、既に述べたように本発明の実施の形態はこれに限られるものではなく、検知装置1とは異なる機械学習装置などの他の情報処理装置において機械学習処理が実行されても構わない。本実施形態における第1,第2の機械学習モデル21、22の相互学習は、GANの機械学習処理の態様をとってよく、CGANの学習処理の態様をとってよい。
【0025】
本実施の形態のここでの例では、制御部11が、記憶部12に格納された機械学習処理のためのプログラムを実行することで、図3に例示するように、第1の機械学習モデル21の機械学習を実行する第1機械学習処理部31と、第2の機械学習モデル22の機械学習を実行する第2機械学習処理部32と、各機械学習処理部を制御する学習制御部33とを機能的に含む構成を実現するものとする。
【0026】
また機械学習処理では、第1の機械学習モデル21の機械学習と、第2の機械学習モデル22の機械学習とを相互に行うこととなる。以下の例では、第2の機械学習モデル22の機械学習のため、対象状態にあるか否か(つまり正否)が明確な商品、例えば真正なものと確認される商品が出品、ないし販売等されたときの、過去の実際の商品画像、商品タイトル、及び商品価格の情報の組を複数組、学習用データとして用意しておく。
【0027】
なお、本実施の形態のある例では、第1の機械学習モデル21が備える情報生成部212については、それぞれ予めランダムデータの入力を受けて、目的の情報である対象状態の(例えば真正または不正の)商品画像と、商品タイトルと、商品価格との情報を出力するよう、実際に対象情報にある(例えば真正または不正の)情報(数は少なくてよく、機械学習が十分である必要もない)に基づいて予備的な機械学習が行われていてもよい。
【0028】
第1機械学習処理部31は、第1の機械学習モデル21のノイズ生成部211にランダムデータ(ランダムノイズ、潜在変数に相当)を発生させ、当該ランダムデータに基づいて、複数の情報生成部212のそれぞれに、対象状態にある(例えば真正または不正な)商品画像と、対象状態にある(例えば真正または不正な)商品タイトルと、対象状態にある(例えば真正または不正な)商品価格の情報とを生成させる。ここで、複数の情報生成部212に入力されるランダムデータには、ラベル情報(カテゴリ情報)が結合(例えば連接)されてもよい。ここで、ラベル情報(カテゴリ情報)は、商品情報が有するモダリティの種別に対応するものであってよく、商品情報が対象状態にあるか否か、例えば不正の種別に対応するものであってよい。
【0029】
第1機械学習処理部31は、第1の機械学習モデル21の複数の情報生成部212によりそれぞれ得られた複数の種類の情報を、それぞれの種類に対応する第2の機械学習モデル22の識別器221に出力し、認識部222が出力する、当該情報の組が真正なものと判断される確率の情報を得る。第1機械学習処理部31は、第1の機械学習モデル21により得られた情報が対象状態にある(真正または不正)と判断される確率が上昇するよう(対象状態にあると判断される損失関数が小さくなるよう)、第1の機械学習モデル21のパラメータをバックプロパゲーションなどの処理により更新する。
【0030】
このとき第1機械学習処理部31は、識別器221や認識部222のパラメータ(重みなど)を変更しない。
【0031】
第1機械学習処理部31は、この、第1の機械学習モデル21に情報の組を生成させて第2の機械学習モデル22により対象状態にあるか否か(つまり正否)を認識させ、対象状態にあると判断される損失関数が小さくなるよう第1の機械学習モデル21のパラメータをバックプロパゲーションなどの処理により更新する処理を繰り返して実行し、第1の機械学習モデル21の機械学習を行う。
【0032】
第2機械学習処理部32は、次の処理を繰り返し実行する。第2機械学習処理部32は、第2の機械学習モデル22に対して対象状態にない(例えば真正である)と判断されるべき商品情報と、対象状態にある(例えば不正である)と判断されるべき商品情報とのいずれを出力するかを所定の規則で(例えばランダムに)決定する。
【0033】
第2機械学習処理部32は、ここで対象状態にない(例えば真正な)商品情報を出力すると決定したときには、予め用意された学習用データに含まれる、過去の実際の商品画像、商品タイトル、及び商品価格の情報の組を読み出す。そして第2機械学習処理部32は、予め用意された学習用データに含まれるそれぞれの種類の情報を、第1の機械学習モデル21が生成した情報の組に加えて、それぞれの種類に対応する第2の機械学習モデル22の識別器221に出力し、当該情報の組が対象状態にない(例えば真正なもの)と判断される確率の情報を得る。
【0034】
第2機械学習処理部32は、この例では、第2の機械学習モデル22が、入力された情報の組が対象状態にない(例えば真正なもの)と判断する確率が上昇するよう(対象状態にある(例えば不正)と判断される損失関数が小さくなるよう)、第2の機械学習モデル22の識別器221及び認識部222のパラメータをバックプロパゲーションなどの処理により更新する。
【0035】
また、先の決定で、対象状態にある(不正の)商品情報を出力すると決定したときには、第2機械学習処理部32は、第1の機械学習モデル21のノイズ生成部211にランダムデータを発生させ、当該ランダムデータに基づいて、複数の情報生成部212のそれぞれに、対象状態にある(不正の)商品画像と、対象状態にある(不正の)商品タイトル、及び対象状態にある(不正の)商品価格の情報を生成させる。
【0036】
そして第2機械学習処理部32は、第1の機械学習モデル21の複数の情報生成部212によりそれぞれ得られた複数のモダリティ(種類)の情報を、それぞれのモダリティ(種類)に対応する第2の機械学習モデル22の識別器221に出力し、認識部222が出力する、当該情報の組が対象状態にない(例えば真正なもの)と判断される確率の情報を得る。第2機械学習処理部32は、第1の機械学習モデル21により得られた情報が対象状態にある(例えば不正である)と判断される確率が上昇するよう(対象状態にあると判断される損失関数が小さくなるよう)、第2の機械学習モデル22の識別器221及び認識部222のパラメータをバックプロパゲーションなどの処理により更新する。
【0037】
この第2機械学習処理部32の処理では、第1の機械学習モデル21のパラメータは更新されない。なお、複数の識別器221に入力される商品情報の各モダリティのデータには、ラベル情報(カテゴリ情報)が結合されてよい。ここで、ラベル情報(カテゴリ情報)は、商品情報が有するモダリティの種別に対応するものであってよく、商品情報の正否に関連する例えば不正の種別に対応するものであってよい。
【0038】
学習制御部33は、第1機械学習処理部31による第1の機械学習モデル21のパラメータの更新と、第2機械学習処理部32による第2の機械学習モデル22のパラメータの更新とを交互に(どちらを先にしてもよい)行わせる。この際、対象状態にない(例えば真正な)出品商品に関する情報については、現実に存在する情報を用いて学習用データを用意できる。
【0039】
[推論動作]
次に、検知装置1の推論処理の動作について説明する。この推論処理を行う検知装置1は、必ずしも機能的に第1の機械学習モデル21を含む必要はない。また検知装置1は、この推論処理により、商品情報に相当するウェブページ(商品ページ)の入力を受けて、当該商品ページに掲載されている商品の情報が対象状態にあるか否か(例えば真正なものであるか不正であるか)を判断する。
【0040】
この推論処理を行う際には、検知装置1の制御部11は、記憶部12に格納された推論処理のためのプログラムを実行し、機能的に、図4に例示するように、分類部41と、第2の機械学習モデル22と、出力部42とを含む構成を実現する。ここで第2の機械学習モデル22は、既に説明したものと同じ構成をとるものであり、第2機械学習処理部32により機械学習が行われたものであるので、ここでの繰り返しての説明は省略する。
【0041】
分類部41は、認識の対象となる商品ページの情報の入力を例えばサーバ装置2から取得する。ここで、商品情報に相当する商品ページの情報は一般にはHTML(Hyper Text Markup Language)で記述されるもので、図5に例示するように、
・商品タイトル:商品タイトル(商品名)を示すテキストデータ(T1)、
・商品画像(HTMLのIMGタグで取得元URLが指定される):画像データ(G)、
・商品説明:商品の内容等を説明する商品説明文を示すテキストデータ(T2)、
・商品価格:商品の価格を示す数値データ(T3)
を含む。以下の例では、これらの各種類のデータのそれぞれに、互いに異なるタグ情報(divタグのclass情報など)が付与され、それぞれの種類のデータが識別可能となっているものとする。
【0042】
分類部41は、取得した商品ページの情報から、上記タグ情報を参照して、
・商品タイトル、
・商品価格
のそれぞれのテキストデータを抽出する。また、商品画像の画像データを、指定されたURLから取得する。
【0043】
分類部41は、抽出したテキストデータのそれぞれ、及び取得した画像データを、第2の機械学習モデル22の、それぞれの種類に対応する識別器221に対して出力する。
【0044】
そして識別器221が、それぞれ、入力された情報が対象状態にない(例えば真正である)確率を推定して出力し、認識部222が、当該各識別器221の出力の重みづけ平均により、商品ページの情報が対象状態にない(例えば真正な)商品を掲載したものであるか否かを表す情報を出力する。一例として認識部222は、各識別器221の出力の重みづけ平均して出力する。
【0045】
出力部42は、第2の機械学習モデル22の認識部222が出力する平均の値が、所定のしきい値、例えば0.5を超えるときに分類部41が受け入れた商品ページの情報が対象状態にない(例えば真正である)との認識結果を出力し、当該平均が上記所定のしきい値、例えば0.5を下回るときに分類部41が受け入れた商品ページの情報が対象状態にある(例えば不正のものである)との認識結果を出力する。
【0046】
[実施形態の効果]
本実施の形態によれば、第1の機械学習モデル21と第2の機械学習モデル22とが、ともに相互学習により機械学習される。すなわち、第1の機械学習モデル21は商品ページに掲載されると想定される商品タイトルや、商品画像、価格等の例えば不正の情報(真正の商品には対応していない情報)を出力するよう機械学習される。また、第2の機械学習モデル22は、現実に出品された真正な商品に係る商品ページに掲載されていた商品タイトルや商品画像などの真正な情報と、第1の機械学習モデル21が生成した不正の情報とを弁別するよう機械学習されることとなる。
【0047】
[第1の機械学習モデルの別の例]
本実施の形態のここまでの説明では、第1の機械学習モデル21は、一般的なCGANにおける生成器であるとしてきたが、本実施の形態はこれに限られない。本実施の形態の別の例では、第2の機械学習モデル22とともに相互学習に供される、別の例に係る第1の機械学習モデル21′は、対象状態にない(例えば真正な)商品ページの情報の入力を受けて、当該情報の少なくとも一部を編集加工して対象状態にある(例えば不正な)商品ページの情報を生成するエディタであってもよい。
【0048】
この例の第1の機械学習モデル21′は、
・商品タイトル、
・商品画像、
・商品説明、
・商品価格

などといった情報の種類に対応した情報生成部212′を複数含む。
【0049】
ここで対象状態にある(例えば不正の)商品画像の画像データを生成する情報生成部212′等は、過去に現実に商品ページで利用された対象状態にない(例えば真正の)商品画像の画像データを加工して出力するニューラルネットワークを用いて構成できる。
【0050】
このように本実施の形態の第1の機械学習モデル21′の別の例では、その情報生成部212′が機械学習可能なニューラルネットワークを含み、第2の機械学習モデル22とともに相互学習によって機械学習を行ってもよい。
【0051】
もっとも、この例の第1の機械学習モデル21′の情報生成部212′は、過去に現実に商品ページで利用された対象状態にない(例えば真正な)テキストデータや画像データを加工でき、かつ第2の機械学習モデル22とともに相互学習ができればよく、ルールベースで単語の置き換え候補や追加候補などを複数出力するものであってもよい。この場合、情報生成部212′は、ニューラルネットワーク等を含み、複数出力された候補の一つを選択するよう機械学習されたものとすればよい。
【0052】
なお、この例において真正な商品ページの情報の入力を受けて、当該情報の少なくとも一部を編集加工する際、情報生成部212′は、対象状態にない(例えば真正な)商品ページの情報(商品情報)を構成する各モダリティの情報(データ)のエンコーディングを行いベクトル表現などの何らかの表現を取得した上でデコーディングを行う態様をとってよく、例えば変分オートエンコーダ(VAE)を適宜、採用してよい。
【0053】
[情報の種類のさらに他の例]
またここまでの説明では、第1の機械学習モデル21,21′の情報生成部212,212′が生成し、第2の機械学習モデル22の識別器221が対象状態にあるか否か(つまり正否)を識別する情報の種類として、
・商品タイトル、
・商品画像、
・商品説明、
・商品価格
を例として挙げたが、本実施の形態はこれに限られず、
・商品カテゴリ:「レディース衣類」などといった所定のテキストデータ、
・商品サイズ:「Sサイズ」などといった予め定められた文字列から選択されるテキストデータ、
・商品ブランド:メーカー名など、予め定められた文字列候補から選択されるテキストデータ、
・商品の状態:「新品」、「未使用」などといった頻出語を含むテキストデータ、
・配送料の負担,発送日の目安,発送元の地域などのテキストデータ、
・商品ページに付与された「いいね」の数や、出品ユーザの評価/コメントなど、出品者に関わる情報であるテキストデータ、
・出品ユーザのプロフィール,サービス利用開始日時,IPアドレスなど出品者の属性に関するテキストデータ
などが含まれてもよい。これらを含める例でも、第1の機械学習モデル21,21′には、それぞれの種類の情報を生成する情報生成部212,212′が設けられ、また第2の機械学習モデル22には対応する識別器221が設けられることとなる。
【0054】
換言すると、商品情報が有する複数のモダリティは、商品のカテゴリ、サイズ、またはブランドを示す属性データまたはテキストデータを含んでよく、商品の状態(新品、未使用、キズあり等)を示す属性データまたはテキストデータを含んでよく、商品の配送料に関する取り決め(購入者または落札者が配送料を負担する等)を示す属性データまたはテキストデータを含んでよく、商品の発送日の時期やタイミング(発送タイミング)を示す属性データ、数値データまたはテキストデータを含んでよく、商品の発送元の地域(エリア)を示す属性データまたはテキストデータを含んでよく、商品のいいね数(ソーシャルボタンの指定回数)を示す数値データを含んでよく、商品の出品者または販売者の属性を示す属性データを含んでよく、商品の出品者または販売者のサービス登録日時を示す数値データを含んでよく、商品の出品者または販売者のIPアドレスなどの所在地域と対応する情報を示す属性データまたはテキストデータを含んでよく、商品の出品者または販売者の多段階の評価結果を示す評価データを含んでよい。さらに、商品情報が有する複数のモダリティは、商品の内容等を説明する動画データを含んでよく、商品の内容等を説明する音声データを含んでよく、商品の外観を示す三次元形状データ(三次元モデルデータ)を含んでよい。
【0055】
[情報生成と認識とを一対の構成で行う例]
また、ここまでの例では第1の機械学習モデル21,21′は、生成する情報の種類ごとに個別の情報生成部212,212′を備え、第2の機械学習モデル22もまた、商品ページに含まれる情報の種類ごとに個別の識別器221を備えることとしていたが、本実施の形態はこの例に限られない。
【0056】
例えば第1の機械学習モデル21,21′は、対象状態にある(例えば不正な)商品ページ全体のテキストデータを生成する単一の情報生成部212,212′を備えて、商品ページ全体のテキストデータを生成して出力してもよい。この場合、第2の機械学習モデル22は、商品ページ全体のテキストデータが対象状態にない(例えば真正である)確率を出力する識別器221を一つ備えることとなる。この場合、認識部222は必ずしも必要とならない。
【0057】
この例でも、第1の機械学習モデル21,21′と、第2の機械学習モデル22とは相互学習の処理に供される。そして当該機械学習された第2の機械学習モデル22は、商品ページ全体のテキストデータの入力を受けて、そのテキストデータで表される商品ページが対象状態にない(例えば真正なものである)確率を出力するので、商品ページが対象状態にある(例えば不正である)か否かを判断する処理に供することが可能となる。
【0058】
[商品ジャンルごとに用意する例]
また本実施の形態のある例では、商品ページに掲載されたデータが真正なものであるか否かを判断するよう機械学習される第2の機械学習モデル22は、商品のジャンル(カテゴリ)ごとに用意されてもよい。
【0059】
この例では、第1の機械学習モデル21,21′と第2の機械学習モデル22との組が商品のジャンルごとに用意され、それぞれ相互学習の処理に供される。
【0060】
すなわちこの例では、ある商品ジャンルに対応する第2機械学習処理部32は、ここで対象状態にない(例えば真の)出品商品に係る情報を出力すると決定したときには、予め用意された、学習用データに含まれる、当該対応する商品ジャンルの出品に係る、過去の実際の商品画像、商品タイトル、及び商品価格の情報の組を読み出す。そして第2機械学習処理部32は、当該読み出した種類の情報を、それぞれの種類に対応する第2の機械学習モデル22の識別器221に出力し、認識部222が出力する、当該情報の組が対象状態にない(例えば真正なもの)と判断される確率の情報を得ることとし、その他の処理については既に述べた例と同様の処理を行う。
【0061】
これにより、第2機械学習処理部32が、当該対応する商品ジャンルの商品ページに掲載されたデータとして対象状態にあるか(例えば不正なものであるか)否かを判断するものとなり、それに対して相互学習される第1の機械学習モデル21,21′は、当該対応する商品ジャンルの商品ページに掲載される、対象状態にない(例えば真正な)データに近接した、対象状態にある(例えば不正な)データを生成するよう機械学習される。
【0062】
なお、第1の機械学習モデル21′は、この例では、対応する商品ジャンルの商品ページから抽出したデータを複数保持し、参照情報として利用することとしてよい。
【符号の説明】
【0063】
1 検知装置、2 サーバ装置、11 制御部、12 記憶部、13 操作部、14 表示部、15 通信部、21,21′ 第1の機械学習モデル、22 第2の機械学習モデル、31 第1機械学習処理部、32 第2機械学習処理部、33 学習制御部、41 分類部、42 出力部、211 ノイズ生成部、212,212′ 情報生成部、221 識別器、221 各識別器、222 認識部。
図1
図2
図3
図4
図5