(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2023-11-20
(45)【発行日】2023-11-29
(54)【発明の名称】情報処理システム、情報処理方法及び情報処理プログラム
(51)【国際特許分類】
H04L 51/212 20220101AFI20231121BHJP
【FI】
H04L51/212
(21)【出願番号】P 2023132015
(22)【出願日】2023-08-14
【審査請求日】2023-09-12
【早期審査対象出願】
(73)【特許権者】
【識別番号】522325919
【氏名又は名称】株式会社Godot
(74)【代理人】
【識別番号】100079108
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100109346
【氏名又は名称】大貫 敏史
(74)【代理人】
【識別番号】100117189
【氏名又は名称】江口 昭彦
(74)【代理人】
【識別番号】100134120
【氏名又は名称】内藤 和彦
(72)【発明者】
【氏名】森山 健
(72)【発明者】
【氏名】鬼澤 綾
(72)【発明者】
【氏名】住本 芽衣
【審査官】岩田 玲彦
(56)【参考文献】
【文献】特開2005-235206(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04L 51/212
(57)【特許請求の範囲】
【請求項1】
フィルタリング対象であると判断された第1コンテンツに含まれる第1行動変容手法(第1BCT)の成分に関する第1BCT成分情報を抽出する第1抽出部と、
フィルタリング対象であると判断されていない第2コンテンツに含まれる第2行動変容手法(第2BCT)の成分に関する第2BCT成分情報を抽出する第2抽出部と、
前記第1BCT成分情報及び前記第2BCT成分情報に基づいて、フィルタリング対象のコンテンツであるか否かの判断基準となる基準情報を推定し、該基準情報に基づくモデルを生成する生成部と、を備え
、
前記基準情報は、前記フィルタリング対象のコンテンツの情報量に対する該コンテンツに含まれる第3行動変容手法(第3BCT)の成分の情報量の比率に関する含有率情報、前記第3BCTの成分の情報量に対する特定のBCTの成分の情報量の比率に関する構成比情報、及び、前記特定のBCTに関するBCT情報の少なくとも一つを含む、
情報処理システム。
【請求項2】
前記第1BCT成分情報は、前記第1コンテンツの情報量に対する前記第1BCTの成分の情報量の比率に関する第1含有率情報、及び、前記第1BCTの成分に対応する情報量に対する前記特定のBCTの成分の情報量の比率に関する第1構成比情報の少なくとも一つを含み、
前記第2BCT成分情報は、前記第1コンテンツの情報量に対する前記第2BCTの成分の情報量の比率に関する第2含有率情報、及び、前記第2BCTの成分に対応する情報量に対する前記特定のBCTの成分の情報量の比率に関する第2構成比情報の少なくとも一つを含む、
請求項
1記載の情報処理システム。
【請求項3】
コンテンツを取得する取得部と、
前記モデルに基づいて、前記取得されたコンテンツが前記フィルタリング対象のコンテンツであるか否かを判断して、判断結果に基づいてフィルタリングを行うフィルタ部と、
を更に備える請求項1
又は請求項2記載の情報処理システム。
【請求項4】
前記第1コンテンツは、迷惑メッセージであり、
前記第2コンテンツは、迷惑メッセージ以外の通常メッセージであり、
前記コンテンツは、ユーザに対して発信されたメッセージである、
請求項
3記載の情報処理システム。
【請求項5】
情報処理装置が、
フィルタリング対象であると判断された第1コンテンツに含まれる第1行動変容手法(第1BCT)の成分に関する第1BCT成分情報を抽出する工程と、
フィルタリング対象であると判断されていない第2コンテンツに含まれる第2行動変容手法(第2BCT)の成分に関する第2BCT成分情報を抽出する工程と、
前記第1BCT成分情報及び前記第2BCT成分情報に基づいて、フィルタリング対象のコンテンツであるか否かの判断基準となる基準情報を推定し、該基準情報に基づくモデルを生成する工程と、
を有
し、
前記基準情報は、前記フィルタリング対象のコンテンツの情報量に対する該コンテンツに含まれる第3行動変容手法(第3BCT)の成分の情報量の比率に関する含有率情報、前記第3BCTの成分の情報量に対する特定のBCTの成分の情報量の比率に関する構成比情報、及び、前記特定のBCTに関するBCT情報の少なくとも一つを含む、情報処理方法。
【請求項6】
コンピュータに、
フィルタリング対象であると判断された第1コンテンツに含まれる第1行動変容手法(第1BCT)の成分に関する第1BCT成分情報を抽出する工程と、
フィルタリング対象であると判断されていない第2コンテンツに含まれる第2行動変容手法(第2BCT)の成分に関する第2BCT成分情報を抽出する工程と、
前記第1BCT成分情報及び前記第2BCT成分情報に基づいて、フィルタリング対象のコンテンツであるか否かの判断基準となる基準情報を推定し、該基準情報に基づくモデルを生成する工程と、を実行させ
、
前記基準情報は、前記フィルタリング対象のコンテンツの情報量に対する該コンテンツに含まれる第3行動変容手法(第3BCT)の成分の情報量の比率に関する含有率情報、前記第3BCTの成分の情報量に対する特定のBCTの成分の情報量の比率に関する構成比情報、及び、前記特定のBCTに関するBCT情報の少なくとも一つを含む、情報処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理システム、情報処理方法及び情報処理プログラムに関する。
【背景技術】
【0002】
従来、機械学習に基づくモデルを用いて種々の情報をフィルタリングすることが知られている。例えば、特許文献1には、ベイジアンフィルタにおける学習用データを学習型スパムフィルタとして管理し、当該学習型スパムフィルタを用いて迷惑メッセージを判定することが記載されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、例えば、特許文献1に記載の従来の迷惑メッセージのフィルタにおいては、迷惑メッセージではないメールが誤って迷惑メッセージと判断されたり(偽陽性)、迷惑メッセージが誤ってフィルタをすり抜けたり(偽陰性)する恐れがある。このような問題は、迷惑メッセージのフィルタだけでなく、種々のコンテンツのフィルタにも生じる恐れがある。
【0005】
そこで、コンテンツのフィルタリングの精度を向上可能な情報処理システム、情報処理方法及び情報処理プログラムを提供することを目的の一つとする。
【課題を解決するための手段】
【0006】
本発明の一態様に係る情報処理システムは、フィルタリング対象であると判断された第1コンテンツに含まれる第1行動変容手法(第1BCT)の成分に関する第1BCT成分情報を抽出する第1抽出部と、フィルタリング対象であると判断されていない第2コンテンツに含まれる第2行動変容手法(第2BCT)の成分に関する第2BCT成分情報を抽出する第2抽出部と、前記第1BCT成分情報及び前記第2BCT成分情報に基づいて、フィルタリング対象のコンテンツであるか否かの判断基準となる基準情報を推定し、該基準情報に基づくモデルを生成する生成部と、を備える。
【0007】
本発明の他の態様に係る情報処理方法は、情報処理装置が、フィルタリング対象であると判断された第1コンテンツに含まれる第1行動変容手法(第1BCT)の成分に関する第1BCT成分情報を抽出する工程と、フィルタリング対象であると判断されていない第2コンテンツに含まれる第2行動変容手法(第2BCT)の成分に関する第2BCT成分情報を抽出する工程と、前記第1BCT成分情報及び前記第2BCT成分情報に基づいて、フィルタリング対象のコンテンツであるか否かの判断基準となる基準情報を推定し、該基準情報に基づくモデルを生成する工程と、を有する。
【0008】
本発明の他の態様に係る情報処理プログラムは、コンピュータに、フィルタリング対象であると判断された第1コンテンツに含まれる第1行動変容手法(第1BCT)の成分に関する第1BCT成分情報を抽出する工程と、フィルタリング対象であると判断されていない第2コンテンツに含まれる第2行動変容手法(第2BCT)の成分に関する第2BCT成分情報を抽出する工程と、前記第1BCT成分情報及び前記第2BCT成分情報に基づいて、フィルタリング対象のコンテンツであるか否かの判断基準となる基準情報を推定し、該基準情報に基づくモデルを生成する工程と、を実行させる。
【発明の効果】
【0009】
本発明によれば、コンテンツのフィルタリングの精度を向上できる。
【図面の簡単な説明】
【0010】
【
図1】
図1は、本実施形態に係るBCTの分類の一例を示す図である。
【
図2A】
図2Aは、従来技術に係るフィルタリング用のモデルの生成の概念図である。
【
図2B】
図2Bは、本実施形態に係るフィルタリング用のモデルの生成の概念図である。
【
図3】
図3は、本実施形態に係る情報処理システム内の各情報処理装置のハードウェア構成の一例を示す図である。
【
図4】
図4は、本実施形態に係る情報処理システムの機能構成の一例を示す図である。
【
図5A】
図5Aは、本実施形態に係る第1BCT成分情報の一例を示す図である。
【
図5B】
図5Bは、本実施形態に係る第2BCT成分情報の一例を示す図である。
【
図6】
図6は、本実施形態に係る生成装置の動作の一例を示すフローチャートである。
【
図7】
図7は、本実施形態に係るフィルタ装置の動作の一例を示すフローチャートである。
【発明を実施するための形態】
【0011】
添付図面を参照して、本発明の実施形態について説明する。なお、各図において、同一の符号を付したものは、同一又は同様の構成を有する。
【0012】
(概要)
本実施形態に係る情報処理システムにおいては、情報処理装置は、フィルタリング対象であると判断された第1コンテンツに含まれる第1行動変容手法(第1BCT)の成分に関する情報(以下、「第1BCT成分情報」という)を抽出する。情報処理装置は、フィルタリング対象であると判断されていない第2コンテンツに含まれる第2行動変容手法(第1BCT)の成分に関する情報(以下、「第2BCT成分情報」という)を抽出する。情報処理装置は、当該第1BCT成分情報及び当該第2BCT成分情報に基づいて、フィルタリング対象のコンテンツであるか否かの判断基準となる情報(以下、「基準情報」という)を推定し、該基準情報に基づくモデルを生成する。なお、抽出は、エンコード等と言い換えることもできる。
【0013】
本実施形態において、行動変容手法(BCT:behavior change technique)とは、行動変容に作用する(働きかける)手法又は方法である。例えば、BCTTv1(Michie S, Richardson M, Johnston M, et al.: The behavior change technique taxonomy (v1) of 93 hierarchically clustered techniques: building an international consensus for the reporting of behavior change interventions. Ann Behav Med 2013; 46: 81~95.)によると16グループの93個のBCTが規定されている。なお、BCTの規定はBCTTv1に限られず、行動変容の手法を包括的に網羅する限り、どのように規定されてもよい。また、本実施形態に係るBCTは、一以上のBCTを含むグループ(以下、「BCTグループ」という)を含み、BCTグループとBCTとは相互に言い換えられてもよい。
【0014】
図1は、本実施形態に係るBCTの分類の一例を示す図である。一以上のBCTは所定の分類法に従って分類される。
図1に示すように、BCTTv1には、「1.Goals and planning」、「2.Feedback and monitoring」、「3.Social support」、「4.Shaping knowledge」、「5.Natural consequences」、「6.Comparison of behaviour」、「7.Associations」、「8.Repetition and substitution」、「9.Comparison of outcomes」、「10.Reward and threat」、「11.Regulation」、「12.Antecedents」、「13.Identity」、「14.Scheduled consequences」、「15.Self-belief」及び「16.Covert learning」という16個のBCTグループが規定されている。
【0015】
BCTTv1において、
図1に示される16個のBCTグループにはそれぞれ一以上のBCTが属する。例えば、BCTグループ「5.Natural consequences」には、例えば、「5.5.Anticipated regret」等のBCTが属する。また、BCTグループ「10.Reward and threat」には、例えば、「10.11.Future punishment」等のBCTが属する。図示しないが、他のグループについても一以上のBCTが属する。
【0016】
また、各BCTは成分を有し、あるコンテンツに含まれる各BCTの度合いが成分値として示されてもよい。また、同BCTグループに属する各BCTの成分値の合計はBCTグループの成分値として示されてもよい。
【0017】
図2A及び
図2Bは、従来技術及び本実施形態に係るフィルタリング用のモデルの生成の概念図である。なお、
図2Bでは、フィルタリング対象のコンテンツが、迷惑メッセージ(spam and/or junk message)であり、フィルタリング対象であると判断された第1コンテンツが、迷惑メッセージであり、フィルタリング対象であると判断されていない第2コンテンツが、迷惑メッセージではないメッセージ(以下、「通常メッセージ」という)であるものとする。しかし、
図2Bは、一例にすぎず、フィルタリング対象のコンテンツ及び第1コンテンツは迷惑メッセージに限られないし、第2コンテンツは通常メッセージに限られない。
【0018】
ここで、迷惑メッセージとは、ユーザ(例えば、メッセージの読み手)により良い意思決定のための判断材料を提供することはせずに、迅速に行動しないことの損失を誇張したり、ユーザの劣等感を煽るような文言で心理的な負担をかけることでユーザの健全な意思決定を阻害したりするように、意図的に設計されたメッセージである。迷惑メッセージは、例えば、電子メール、ショートメッセージ、「いかがでしたでしょうかサイト」と呼ばれるステルス・マーケティングサイト等の種々の媒体によって発信される情報であればよい。また、迷惑メッセージは、テキストデータ、画像データ及び音声データの少なくとも一つであってもよい。
【0019】
また、迷惑メッセージは、特定のBCTの成分を過剰に含む情報ともいえる。当該特定のBCTは、例えば、スラッジ、脅し及び煽りの少なくとも一つの系統に属するBCT(例えば、
図1の「5.5.Anticipated regret」及び/又は「10.11.Future punishment」等)であってもよい。スラッジとは、企業や詐欺集団等が私利私欲のために、ユーザにとって不利な方向に行動を誘導したり、ユーザにとって有利な行動を阻害したりすること示す。例えば、迷惑メッセージの文脈においては、スラッジは、詐欺サイトにクレジットカード番号を入力することを促したり、架空の料金請求に対して現金振り込みをする前に家族に相談する心理的猶予を与えなかったりすることであってもよい。
【0020】
例えば、
図2Aに示すように、従来技術の一例では、迷惑メッセージとしてアノテーションされた教師データとした機械学習により、ベイズ推定に基づく判断基準が生成され、当該判断基準に基づくフィルタリング用のモデルが生成される。ベイズ推定に基づく判断基準は、条件付き確率を使って迷惑メッセージである確率を推定し、予め設定された閾値を超えると迷惑メッセージであると判定するというものである。なお、「アノテーション」は、タグ付け又はラベル付け等と言い換えられてもよい。
【0021】
迷惑メッセージとしてアノテーションされた教師データに基づく従来の他のフィルタ技術としては、ニューラルネットワークやランダムフォレスト等も知られている。また、予め設定したリスト(例えば、ブラックリスト、リアルタイムブラックリスト、レピュテーションリスト等)に基づくブロック技術も知られている。しかしながら、生成AIを活用した迷惑メッセージの個別化や巧妙化が進むにつれて、上記フィルタ技術やブロック技術を用いたモデルによると、偽陽性や偽陰性の確率が高まり、フィルタリングの精度が低下する恐れがある。
【0022】
一方、
図2Bに示すように、本実施形態に係る情報処理システムでは、迷惑メッセージとしてアノテーションされた第1教師データに含まれる第1BCTの成分に関する第1BCT成分情報が抽出され、通常メッセージとしてアノテーションされた第2教師データに含まれる第2BCTの成分に関する第2BCT成分情報が抽出される。当該第1BCT成分情報及び当該第2BCT成分情報の差分の分析により、迷惑メッセージであるか否かの判断基準となる基準情報が推定され、該基準情報に基づく迷惑メッセージのフィルタリング用のモデルが生成される。
【0023】
このように、本実施形態に係る情報処理システムでは、フィルタリング対象であると判断された第1コンテンツ(例えば、迷惑メッセージとしてアノテーションされた第1教師データ)から第1BCT成分情報が抽出され、フィルタリング対象ではないと判断された第2コンテンツ(例えば、通常メッセージとしてアノテーションされた第2教師データ)から第2BCT成分情報が抽出される。また、抽出された第1BCT成分情報及び第2BCT成分情報の比較に基づいて、フィルタリング対象のコンテンツ(例えば、迷惑メッセージ)であるか否かの判断基準としての基準情報が推定され、当該基準情報に基づくモデルが生成される。したがって、従来基準と比較して、偽陽性や偽陰性の確率が少ない判断基準に基づくモデルを生成することができ、この結果、フィルタリングの精度を向上できる。
【0024】
(構成)
次に、本実施形態に係る情報処理システム1の構成を説明する。なお、情報処理システム1は、単一の情報処理装置を含んで構成されてもよいし、複数の情報処理装置を含んで構成されてもよい。例えば、情報処理システム1は、後述する機能構成の一部を実装する複数の情報処理装置で構成され、有線及び/又は無線のネットワークによって接続される当該複数の装置によって後述する機能構成が実現されてもよい。
【0025】
図3は、本実施形態に係る情報処理システムを構成する各情報処理装置のハードウェア構成の一例を示す図である。情報処理システム1内の各情報処理装置(例えば、後述する生成装置10及びフィルタ装置20)は、演算装置に相当するCPU(Central Processing Unit)等のプロセッサ11と、記憶装置12と、通信装置13と、入出力装置14とを有する。これらの各構成は、バスを介して相互にデータ送受信可能に接続される。
【0026】
プロセッサ11は、例えば、CPUであり、情報処理システム1内の各情報処理装置を制御する。プロセッサ11は、プログラムを記憶装置12から読み出して実行することで、本実施形態で説明する各種の処理を実行してもよい。情報処理システム1内の各情報処理装置は、1又は複数のプロセッサ11を備えていてもよい。また、当該各装置は、コンピュータと呼ばれてもよい。
【0027】
記憶装置12は、例えば、メモリ、HDD(Hard Disk Drive)及び/又はSSD(Solid State Drive)等のストレージから構成される。記憶装置12は、プロセッサ11による処理の実行に必要な各種情報(例えば、プロセッサ11によって実行される情報処理プログラム等)を記憶してもよい。
【0028】
通信装置13は、ネットワークを介して通信を行う装置であり、例えば、ネットワークカード、通信モジュール、チップ、アンテナ等を含んでもよい。通信装置13は、ネットワークを介して各種情報を送信する送信部、及び/又は、ネットワークを介して各種情報を受信する受信部を含んでもよい。
【0029】
入出力装置14は、例えば、キーボード、タッチパネル、マウス及び/又はマイク等の入力部と、例えば、ディスプレイ及び/又はスピーカ等の出力部とを含む。入力部は、ユーザからの各種情報の入力を受け付ける。また、出力部は、ユーザに対する各種情報を表示する表示部を含んでもよい。
【0030】
以上説明したハードウェア構成は一例に過ぎない。情報処理システム1内の各情報処理装置は、
図4に記載したハードウェアの一部が省略されていてもよいし、
図4に記載されていないハードウェアを備えていてもよい。また、
図4に示すハードウェアが1又は複数のチップにより構成されていてもよい。また、情報処理装置が複数の装置で構成される場合、各装置がこれらのハードウェアの少なくとも一部を備えてもよい。
【0031】
図4は、本実施形態に係る情報処理システムの機能構成の一例を示す図である。
図4に示すように情報処理システム1は、上記モデル(例えば、
図2B)を生成する情報処理装置(以下、「生成装置」という)10と、コンテンツを取得し、取得したコンテンツを当該モデルに基づいてフィルタリングする情報処理装置(以下、フィルタ装置)20と、を含んで構成される。なお、生成装置10及びフィルタ装置20は、同一の情報処理装置として構成されてもよいし、別体の情報処理装置として構成されてもよい。
【0032】
なお、
図4は例示にすぎず、生成装置10及びフィルタ装置20がそれぞれ不図示の機能構成を備えてもよいことは勿論である。各機能構成の機能は、
図3に示すプロセッサ11等のハードウェアに情報処理プログラムを読み込ませることにより、プロセッサ11の制御のもとで記憶装置12、通信装置13及び入出力装置14の少なくとも一つを動作させることにより実現される。
【0033】
図4に示すように、生成装置10は、格納部101、第1抽出部102、第2抽出部103及び生成部104を備える。
【0034】
格納部101は、フィルタリング対象であると判断された第1コンテンツと、フィルタリング対象であると判断されていない第2コンテンツとを格納する。具体的には、格納部101は、フィルタリング対象であるとアノテーションされた第1教師データ(例えば、迷惑メッセージとしてアノテーションされた教師データ)を第1コンテンツとして格納してもよい。また、格納部101は、フィルタリング対象ではないとアノテーションされた第2教師データ(例えば、通常メッセージとしてアノテーションされた教師データ)を第2コンテンツとして格納してもよい。
【0035】
また、格納部101は、生成部104によって生成されるモデルを格納してもよい。なお、格納部101は、生成部104によって生成されるモデルに基づいて蒸留されたモデルを格納してもよい。
【0036】
第1抽出部102は、フィルタリング対象であると判断された第1コンテンツに含まれる第1BCTの成分に関する第1BCT成分情報を抽出する。具体的には、第1抽出部102は、当該第1コンテンツ(例えば、フィルタリング対象としてアノテーションされた第1教師データ)を用いた機械学習により第1BCT成分情報を抽出してもよい。
【0037】
当該第1BCT成分情報は、当該第1コンテンツに含まれる第1BCTの成分の平均に基づく固定値を示す成分表であってもよいし、又は、当該第1コンテンツに含まれる第1BCTの成分の分布を示してもよい。また、当該第1BCT成分情報は、当該第1コンテンツの情報量に対する当該第1BCTの成分の情報量の比率に関する情報(以下、「第1含有率情報」という)、及び、当該第1BCTの成分に対応する情報量に対する特定のBCTの成分の情報量の比率に関する情報(以下、「第1構成比情報」という)の少なくとも一つを含んでもよい。
【0038】
図5Aは、本実施形態に係る第1BCT成分情報の一例を示す図である。例えば、
図5Aでは、迷惑メッセージとしてアノテーションされた第1教師データから抽出された第1BCT成分情報の一例が示される。また、
図5Aでは、第1BCT成分情報が、当該第1教師データの成分の平均に基づく固定値を示す成分表であるものとするが、上記の通り、当該第1教師データの成分の分布を示してもよい。
【0039】
例えば、
図5Aでは、第1BCT成分情報は、迷惑メールとしてアノテーションされた第1教師データの情報量を100%とすると、脅し系BCTの成分の情報量が50%であり、煽り系BCTの成分の情報量が40%であり、その他のBCTの成分の情報量が5%であり、いずれのBCTにも属さない(BCTなし)情報量が5%であることを示す。この場合、第1教師データに含まれる第1BCT(ここでは、脅し系のBCT、煽り系のBCT及びその他のBCT)の成分の情報量は95%であるので、第1含有率情報は、95/100を示してもよい。また、第1BCTの成分の情報量が95%であり、特定のBCT(ここでは、脅し系のBCT、煽り系のBCT)の成分の情報量は90%(=40%+50%)であるので、第1構成比情報は90/95を示してもよい。
【0040】
第2抽出部103は、フィルタリング対象であると判断されていない第2コンテンツに含まれる第2BCTの成分に関する第2BCT成分情報を抽出する。具体的には、第2抽出部103は、当該第2コンテンツ(例えば、フィルタリング対象外としてアノテーションされた第2教師データ)を用いた機械学習により第2BCT成分情報を抽出してもよい。
【0041】
当該第2BCT成分情報は、当該第2コンテンツに含まれる第2BCTの成分の平均に基づく固定値を示す成分表であってもよいし、又は、当該第2コンテンツに含まれる第2BCTの成分の分布を示してもよい。また、当該第2BCT成分情報は、当該第2コンテンツの情報量に対する当該第2BCTの成分の情報量の比率に関する情報(以下、「第2含有率情報」という)、及び、当該第2BCTの成分に対応する情報量に対する特定のBCTの成分の情報量の比率に関する情報(以下、「第2構成比情報」という)の少なくとも一つを含んでもよい。
【0042】
図5Bは、本実施形態に係る第2BCT成分情報の一例を示す図である。例えば、
図5Bでは、通常メッセージとしてアノテーションされた第2教師データから抽出された第2BCT成分情報の一例が示される。また、
図5Bでは、第2BCT成分情報が、当該第2教師データの成分の平均に基づく固定値を示す成分表であるものとするが、上記の通り、当該第2教師データの成分の分布を示してもよい。
【0043】
例えば、
図5Bでは、第2BCT成分情報は、通常メールとしてアノテーションされた第2教師データの情報量を100%とすると、いずれのBCTにも属さない(BCTなし)情報量が70%であり、比較系BCTの情報量が10%であり、計画系BCTの情報量が10%であり、その他のBCTの情報量が10%であることを示す。この場合、第2教師データに含まれる第2BCT(ここでは、比較系のBCT、計画系のBCT及びその他のBCT)の成分に対応する情報量は30%であるので、第2含有率情報は、30/100を示してもよい。また、第2BCTの成分に対応する情報量が30%であり、特定のBCT(ここでは、脅し系のBCT、煽り系のBCT)の成分に対応する情報量は0%であるので、第2構成比情報は0を示してもよい。
【0044】
生成部104は、第1BCT成分情報及び第2BCT成分情報に基づいて、フィルタリング対象のコンテンツであるか否かの判断基準となる基準情報を推定し、該基準情報に基づくモデルを生成する。当該基準情報は、フィルタリング対象のコンテンツの情報量に対する当該コンテンツに含まれる第3行動変容手法(第3BCT)の成分の情報量の比率に関する情報(以下、「含有率情報」という)、該第3BCTの成分の情報量に対する特定のBCTの成分の情報量の比率に関する情報(以下、「構成比情報」という)、及び、当該特定のBCTに関する情報(以下、「BCT情報」という)の少なくとも一つを含んでもよい。
【0045】
具体的には、生成部104は、第1含有率情報及び第2含有率情報に基づいて、フィルタリング対象のコンテンツの情報量に対する当該コンテンツに含まれる第3BCTの成分の情報量の比率に関する含有率情報を推定してもよい。例えば、
図5A及び5Bで説明したように、第1含有率情報が95/100であり、第2含有率情報が30/100である場合、生成部104は、フィルタリング対象のコンテンツ(すなわち、迷惑メッセージ)であるかの判断基準となる含有率情報を50/100と推定してもよい。
【0046】
また、生成部104は、第1構成比情報及び第2構成比情報に基づいて、第3BCTの成分の情報量に対する特定のBCTの成分の情報量の比率に関する構成比情報を推定してもよい。例えば、
図5A及び5Bで説明したように、第1構成比情報が90/95であり、第2構成比情報が0である場合、生成部104は、フィルタリング対象のコンテンツ(すなわち、迷惑メッセージ)であるかの判断基準となる構成比情報を40/50と推定してもよい。
【0047】
また、生成部104は、第1BCT成分情報及び第2BCT成分情報に基づいて、特定のBCTを示すBCT情報を推定してもよい。例えば、
図5A及び5Bに示されるように、第1BCT成分情報は、脅し系BCT及び煽り系BCTの成分の割合が、通常メッセージに多く含まれる比較系BCT及び計画系BCTの成分の割合と比べて多い。生成部104は、第1BCT成分情報及び第2BCT成分情報の比較に基づいて、フィルタリング対象のコンテンツ(すなわち、迷惑メッセージ)に含まれる傾向のある特定のBCTを示すBCT情報を推定してもよい。
【0048】
図4に示すように、フィルタ装置20は、取得部201、フィルタ部202及び出力部203を備える。
【0049】
取得部201は、コンテンツを取得する。具体的には、取得部201は、フィルタリング対象であるか否かの判断対象となるコンテンツ(例えば、迷惑メッセージであるか否かの判断対象となる対象メッセージ)を取得する。
【0050】
フィルタ部202は、生成装置10で生成されたモデルに基づいて、取得部201によって取得されたコンテンツがフィルタリング対象のコンテンツであるか否かを判断して、判断結果に基づいてフィルタリングを行う。なお、フィルタ部202は、生成部104によって生成されたモデルそのものを用いてもよいし、当該モデルを蒸留したモデルを用いてもよい。上記の通り、当該モデルは、含有率情報及び構成比情報の少なくとも一つを判断基準として用いてもよい。
【0051】
具体的には、フィルタ部202は、取得部201によって取得されたコンテンツの情報量に対する当該コンテンツに含まれるBCTの情報量の比率と、上記含有率情報に基づくモデルを用いて、フィルタリング対象のコンテンツであるか否かを判断してもよい。例えば、当該モデルでは、取得部201によって取得されたコンテンツの情報量に対する当該コンテンツに含まれるBCTの情報量の比率が、上記含有率情報が示す値(例えば、50/100)を超えるか否か、又は、当該含有率情報が示す値からどの程度乖離するかによって、フィルタリング対象のコンテンツであるか否かが判断されてもよい。
【0052】
また、フィルタ部202は、取得部201によって取得されたコンテンツに含まれるBCTの情報量に対する特定のBCTの成分の情報量の比率と、上記構成比情報に基づくモデルを用いて、フィルタリング対象のコンテンツであるか否かを判断してもよい。例えば、当該モデルでは、取得部201によって取得されたコンテンツに含まれるBCTの情報量に対する特定のBCTの成分の比率が、上記構成比情報が示す値(例えば、40/50)を超えるか否か、又は、当該構成比情報が示す値からどの程度乖離するかによって、フィルタリング対象のコンテンツであるか否かが判断されてもよい。
【0053】
また、フィルタ部202は、取得部201によって取得されたコンテンツに含まれるBCTの情報量に対する特定のBCTの成分の情報量の比率と、上記含有率情報及び構成比情報に基づくモデルを用いて、フィルタリング対象のコンテンツであるか否かを判断してもよい。
【0054】
出力部203は、フィルタ部202によるフィルタリングの結果に関する情報(以下、「フィルタリング情報」という)を出力する。なお、フィルタリング情報は、生成装置10にフィードバックされてもよい。例えば、フィルタ部202によってフィルタリング対象のコンテンツとしてフィルタリングされたコンテンツが、フィルタリング対象外とされるべきコンテンツである場合(すなわち、偽陽性の場合)、当該フィルタリングされたコンテンツがフィルタリング対象外としてアノテーションされ、第2教師データとして生成装置10にフィードバックされてもよい。一方、フィルタ部202によってフィルタリング対象のコンテンツとしてフィルタリングされなかったコンテンツが、フィルタリング対象とされるべきコンテンツである場合(すなわち、偽陰性の場合)、当該フィルタリングされなかったコンテンツがフィルタリング対象としてアノテーションされ、第2教師データとして生成装置10にフィードバックされてもよい。これにより、生成装置10で生成されるモデルに基づくフィルタリングの精度を更に向上できる。
(動作)
次に、本実施形態に係る情報処理システム1の動作を説明する。なお、
図6及び
図7に示す生成装置10及びフィルタ装置20の動作は一例にすぎず、図示するものに限られない。例えば、一部のステップが削除及び/又は追加されてもよいし、一部のステップ(例えば、
図6ステップS101及びS102)の順番が入れ替えて実行されてもよいし、又は、並行して実行されてもよい。
【0055】
図6は、本実施形態に係る生成装置10の動作の一例を示すフローチャートである。
図6に示すように、生成装置10は、フィルタリングの対象であると判断された第1コンテンツに含まれる第1BCTの成分に関する第1BCT成分情報を抽出する(ステップS101)。例えば、
図2B及び5Aで説明したように、生成装置10は、迷惑メールとしてアノテーションされた第1教師データを用いた機械学習により、第1BCT成分情報を抽出してもよい。
【0056】
生成装置10は、フィルタリングの対象であると判断されていない第2コンテンツに含まれる第2BCTの成分に関する第2BCT成分情報を抽出する(ステップS102)。例えば、
図2B及び5Bで説明したように、生成装置10は、通常メールとしてアノテーションされた第2教師データを用いた機械学習により、第2BCT成分情報を抽出してもよい。
【0057】
生成装置10は、ステップS101で抽出された第1BCT成分情報及びステップS102で抽出された第2BCT成分情報に基づいて、フィルタリングの対象のコンテンツであるか否かの判断基準となる基準情報を推定する(ステップS103)。具体的には、
図2B、5A及び5Bで説明したように、生成装置10は、第1BCT成分情報及び第2BCT成分情報の差分を分析して、当該判断基準となる基準情報を推定してもよい。生成装置10は、ステップS103で推定された基準情報に基づくモデルを生成する(ステップS104)。
【0058】
図7は、本実施形態に係るフィルタ装置20の動作の一例を示すフローチャートである。
図7に示すように、フィルタ装置20は、フィルタリング対象であるか否かの判断対象となるコンテンツを取得する(ステップS201)。例えば、フィルタ装置20は、迷惑メッセージであるか否かの判断対象となる対象メッセージを取得する。
【0059】
フィルタ装置20は、生成装置10で生成されたモデルに基づいて、ステップS201で取得されたコンテンツがフィルタリング対象のコンテンツであるか否かを判断して、判断結果に基づいてフィルタリングを行う(ステップS202)。例えば、フィルタ装置20は、当該モデルに基づいて、対象メッセージが迷惑メッセージであるか否かを判断して、判断結果に基づいてフィルタリングを行う。
【0060】
フィルタ装置20は、ステップS202におけるフィルタリングの結果に関するフィルタリング情報を出力する(ステップS203)。
【0061】
以上のように、本実施形態に係る情報処理システム1では、生成装置10は、フィルタリング対象であると判断された第1コンテンツから抽出された第1BCT成分情報と、フィルタリング対象ではないと判断された第2コンテンツから抽出された第2BCT成分情報に基づいて、フィルタリング対象のコンテンツ(例えば、迷惑メッセージ)であるか否かの判断基準としての基準情報が推定され、当該基準情報に基づくモデルが生成される。したがって、従来基準と比較して、偽陽性や偽陰性の確率が少ない判断基準に基づくフィルタリング用のモデルを生成できる。
【0062】
また、本実施形態に係る情報処理システム1では、生成装置10によって生成された上記モデルに基づいて、取得されたコンテンツがフィルタリング対象のコンテンツであるか否かを判断して、判断結果に基づいてフィルタリングを行う。したがって、フィルタリングの精度を向上できる。
【0063】
(その他の実施形態)
上記実施形態では、フィルタリング対象のコンテンツとして迷惑メッセージを例示したが、フィルタリング対象のコンテンツは上記に限られない。フィルタリング対象のコンテンツは、例えば、キャッチコピー、広告、プロンプトエンジニアリングによって設計されたコンテンツ等、顕著な傾向を示すBCTを含む確率が高い第1コンテンツと当該顕著な傾向を示すBCTを含む確率が少ない第2コンテンツの組み合わせが存在すれば、どのようなコンテンツをフィルタリング対象とすることの可能である。例えば、上記第1コンテンツ及び第2コンテンツの組み合わせは、キャッチコピーの文章が上手いか下手か、広告のバランスが良いか悪いか、又は、プロンプトエンジニアリングにより設計されたコンテンツが適切か適切でないか等によって定められてもよい。
【0064】
また、フィルタリング対象のコンテンツは、「特定の行動を促そうとするコンテンツ」であってもよい。例えば、生成装置10は、自分より弱い立場の相手に高圧的なメールで行動を促そうとしていないかを判断するモデルを生成し、フィルタ装置は、当該モデルに基づいて対象コンテンツが自分より弱い立場の相手に高圧的なメールで行動を促そうとしていないかを判断してもよい。このようなモデルは、セクシャルハラスメント(セクハラ)、パワーハラスメント(パワハラ)、下請けいじめの有無の判断に用いることができる。
【0065】
また、特定のBCTは、フィルタリング対象であると判断されたコンテンツが、フィルタリング対象ではないと判断されたコンテンツよりも顕著に含むと想定されるBCTであれば、どのようなBCTであってもよい。例えば、文章が上手いと判断されるコンテンツをフィルタリング対象とする場合、特定のBCTは、例えば、対象行動の客観的視点を提示する系統のBCTであってもよいがこれに限られない。また、バランスが良いと判断されるコンテンツをフィルタリング対象とする場合、特定のBCTは、例えば、新しい見方を提示する系統のBCTであってもよいがこれに限られない。また、プロンプトエンジニアリングにより設計され、適切であると判断されたコンテンツをフィルタリング対象とする場合、特定のBCTは、例えば、フィードバックを与える系統のBCTであってもよいがこれに限られない。
【0066】
また、本実施形態における、第1BCT、第2BCT及び第3BCTに付された番号は、3種類のBCTを区別するために付されており、順番を示すものではない。したがって、各BCTが区別される限り、第1、第2及び第3の番号が適宜入れ替えられてもよい。
【0067】
以上説明した実施形態は、本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。実施形態で説明したフローチャート、シーケンス、実施形態が備える各要素並びにその配置、材料、条件、形状及びサイズ等は、例示したものに限定されるわけではなく適宜変更することができる。
【符号の説明】
【0068】
1…情報処理システム、10…生成装置、20…フィルタ装置、11…プロセッサ、12…記憶装置、13…通信装置、14…入出力装置、101…格納部、102…第1抽出部、103…第2抽出部、104…生成部、201…取得部、202…フィルタ部、203…出力部
【要約】
【課題】コンテンツのフィルタリングの精度を向上させること。
【解決手段】情報処理システム1は、フィルタリング対象であると判断された第1コンテンツに含まれる第1行動変容手法(BCT)の成分に関する第1BCT成分情報を抽出する第1抽出部と、フィルタリング対象であると判断されていない第2コンテンツに含まれる第2行動変容手法(BCT)の成分に関する第2BCT成分情報を抽出する第2抽出部と、前記第1BCT成分情報及び前記第2BCT成分情報に基づいて、フィルタリング対象のコンテンツであるか否かの判断基準となる基準情報を推定し、該基準情報に基づくモデルを生成する生成部と、を備える。
【選択図】
図2B