(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2024-10-21
(45)【発行日】2024-10-29
(54)【発明の名称】情報処理システム、情報処理方法及び情報処理プログラム
(51)【国際特許分類】
H04L 51/212 20220101AFI20241022BHJP
G06F 16/906 20190101ALI20241022BHJP
【FI】
H04L51/212
G06F16/906
(21)【出願番号】P 2023184568
(22)【出願日】2023-10-27
(62)【分割の表示】P 2023132015の分割
【原出願日】2023-08-14
【審査請求日】2023-10-30
(73)【特許権者】
【識別番号】522325919
【氏名又は名称】株式会社Godot
(74)【代理人】
【識別番号】100079108
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100109346
【氏名又は名称】大貫 敏史
(74)【代理人】
【識別番号】100117189
【氏名又は名称】江口 昭彦
(74)【代理人】
【識別番号】100134120
【氏名又は名称】内藤 和彦
(72)【発明者】
【氏名】森山 健
(72)【発明者】
【氏名】鬼澤 綾
(72)【発明者】
【氏名】住本 芽衣
【審査官】岩田 玲彦
(56)【参考文献】
【文献】特開2005-235206(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04L 51/212
G06F 16/906
(57)【特許請求の範囲】
【請求項1】
フィルタリング対象であると判断された第1コンテンツに含まれる第1行動変容手法(第1BCT)の成分に関する第1BCT成分情報を抽出する第1抽出部と、
フィルタリング対象で
はないと判断された第2コンテンツに含まれる第2行動変容手法(第2BCT)の成分に関する第2BCT成分情報を抽出する第2抽出部と、
前記第1BCT成分情報及び前記第2BCT成分情報
の差分の分析により、フィルタリング対象のコンテンツであるか否かの判断基準となる基準情報を推定し、該基準情報に基づくモデルを生成する生成部と、
を備え情報処理システム。
【請求項2】
前記基準情報は、前記フィルタリング対象のコンテンツの情報量に対する該コンテンツに含まれる第3行動変容手法(第3BCT)の成分の情報量の比率に関する含有率情報、前記第3BCTの成分の情報量に対する特定のBCTの成分の情報量の比率に関する構成比情報、及び、前記特定のBCTに関するBCT情報の少なくとも一つを含む、
請求項1記載の情報処理システム。
【請求項3】
前記第1BCT成分情報は、前記第1コンテンツの情報量に対する前記第1BCTの成分の情報量の比率に関する第1含有率情報、及び、前記第1BCTの成分に対応する情報量に対する前記特定のBCTの成分の情報量の比率に関する第1構成比情報の少なくとも一つを含み、
前記第2BCT成分情報は、前記第1コンテンツの情報量に対する前記第2BCTの成分の情報量の比率に関する第2含有率情報、及び、前記第2BCTの成分に対応する情報量に対する前記特定のBCTの成分の情報量の比率に関する第2構成比情報の少なくとも一つを含む、
請求項2記載の情報処理システム。
【請求項4】
コンテンツを取得する取得部と、
前記モデルに基づいて、前記取得されたコンテンツが前記フィルタリング対象のコンテンツであるか否かを判断して、判断結果に基づいてフィルタリングを行うフィルタ部と、
を更に備える請求項1から請求項3のいずれか記載の情報処理システム。
【請求項5】
前記第1コンテンツは、迷惑メッセージであり、
前記第2コンテンツは、迷惑メッセージ以外の通常メッセージであり、
前記コンテンツは、ユーザに対して発信されたメッセージである、
請求項4記載の情報処理システム。
【請求項6】
情報処理装置が、
フィルタリング対象であると判断された第1コンテンツに含まれる第1行動変容手法(第1BCT)の成分に関する第1BCT成分情報を抽出する工程と、
フィルタリング対象で
はないと判断された第2コンテンツに含まれる第2行動変容手法(第2BCT)の成分に関する第2BCT成分情報を抽出する工程と、
前記第1BCT成分情報及び前記第2BCT成分情報
の差分の分析により、フィルタリング対象のコンテンツであるか否かの判断基準となる基準情報を推定し、該基準情報に基づくモデルを生成する工程と、
を有する情報処理方法。
【請求項7】
コンピュータに、
フィルタリング対象であると判断された第1コンテンツに含まれる第1行動変容手法(第1BCT)の成分に関する第1BCT成分情報を抽出する工程と、
フィルタリング対象で
はないと判断された第2コンテンツに含まれる第2行動変容手法(第2BCT)の成分に関する第2BCT成分情報を抽出する工程と、
前記第1BCT成分情報及び前記第2BCT成分情報
の差分の分析により、フィルタリング対象のコンテンツであるか否かの判断基準となる基準情報を推定し、該基準情報に基づくモデルを生成する工程と、
を実行させるための情報処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理システム、情報処理方法及び情報処理プログラムに関する。
【背景技術】
【0002】
従来、機械学習に基づくモデルを用いて種々の情報をフィルタリングすることが知られ
ている。例えば、特許文献1には、ベイジアンフィルタにおける学習用データを学習型ス
パムフィルタとして管理し、当該学習型スパムフィルタを用いて迷惑メッセージを判定す
ることが記載されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、例えば、特許文献1に記載の従来の迷惑メッセージのフィルタにおいて
は、迷惑メッセージではないメールが誤って迷惑メッセージと判断されたり(偽陽性)、
迷惑メッセージが誤ってフィルタをすり抜けたり(偽陰性)する恐れがある。このような
問題は、迷惑メッセージのフィルタだけでなく、種々のコンテンツのフィルタにも生じる
恐れがある。
【0005】
そこで、コンテンツのフィルタリングの精度を向上可能な情報処理システム、情報処理
方法及び情報処理プログラムを提供することを目的の一つとする。
【課題を解決するための手段】
【0006】
本発明の一態様に係る情報処理システムは、フィルタリング対象であると判断された第1コンテンツに含まれる第1行動変容手法(第1BCT)の成分に関する第1BCT成分情報を抽出する第1抽出部と、フィルタリング対象ではないと判断された第2コンテンツに含まれる第2行動変容手法(第2BCT)の成分に関する第2BCT成分情報を抽出する第2抽出部と、前記第1BCT成分情報及び前記第2BCT成分情報の差分の分析により、フィルタリング対象のコンテンツであるか否かの判断基準となる基準情報を推定し、該基準情報に基づくモデルを生成する生成部と、を備える。
【0007】
本発明の他の態様に係る情報処理方法は、情報処理装置が、フィルタリング対象であると判断された第1コンテンツに含まれる第1行動変容手法(第1BCT)の成分に関する第1BCT成分情報を抽出する工程と、フィルタリング対象ではないと判断された第2コンテンツに含まれる第2行動変容手法(第2BCT)の成分に関する第2BCT成分情報を抽出する工程と、前記第1BCT成分情報及び前記第2BCT成分情報の差分の分析により、フィルタリング対象のコンテンツであるか否かの判断基準となる基準情報を推定し、該基準情報に基づくモデルを生成する工程と、を有する。
【0008】
本発明の他の態様に係る情報処理プログラムは、コンピュータに、フィルタリング対象であると判断された第1コンテンツに含まれる第1行動変容手法(第1BCT)の成分に関する第1BCT成分情報を抽出する工程と、フィルタリング対象ではないと判断された第2コンテンツに含まれる第2行動変容手法(第2BCT)の成分に関する第2BCT成分情報を抽出する工程と、前記第1BCT成分情報及び前記第2BCT成分情報の差分の分析により、フィルタリング対象のコンテンツであるか否かの判断基準となる基準情報を推定し、該基準情報に基づくモデルを生成する工程と、を実行させる。
【発明の効果】
【0009】
本発明によれば、コンテンツのフィルタリングの精度を向上できる。
【図面の簡単な説明】
【0010】
【
図1】
図1は、本実施形態に係るBCTの分類の一例を示す図である。
【
図2A】
図2Aは、従来技術に係るフィルタリング用のモデルの生成の概念図である。
【
図2B】
図2Bは、本実施形態に係るフィルタリング用のモデルの生成の概念図である。
【
図3】
図3は、本実施形態に係る情報処理システム内の各情報処理装置のハードウェア構成の一例を示す図である。
【
図4】
図4は、本実施形態に係る情報処理システムの機能構成の一例を示す図である。
【
図5A】
図5Aは、本実施形態に係る第1BCT成分情報の一例を示す図である。
【
図5B】
図5Bは、本実施形態に係る第2BCT成分情報の一例を示す図である。
【
図6】
図6は、本実施形態に係る生成装置の動作の一例を示すフローチャートである。
【
図7】
図7は、本実施形態に係るフィルタ装置の動作の一例を示すフローチャートである。
【発明を実施するための形態】
【0011】
添付図面を参照して、本発明の実施形態について説明する。なお、各図において、同一
の符号を付したものは、同一又は同様の構成を有する。
【0012】
(概要)
本実施形態に係る情報処理システムにおいては、情報処理装置は、フィルタリング対象
であると判断された第1コンテンツに含まれる第1行動変容手法(第1BCT)の成分に
関する情報(以下、「第1BCT成分情報」という)を抽出する。情報処理装置は、フィ
ルタリング対象であると判断されていない第2コンテンツに含まれる第2行動変容手法(
第1BCT)の成分に関する情報(以下、「第2BCT成分情報」という)を抽出する。
情報処理装置は、当該第1BCT成分情報及び当該第2BCT成分情報に基づいて、フィ
ルタリング対象のコンテンツであるか否かの判断基準となる情報(以下、「基準情報」と
いう)を推定し、該基準情報に基づくモデルを生成する。なお、抽出は、エンコード等と
言い換えることもできる。
【0013】
本実施形態において、行動変容手法(BCT:behavior change technique)とは、行
動変容に作用する(働きかける)手法又は方法である。例えば、BCTTv1(Michie S
, Richardson M, Johnston M, et al.: The behavior change technique taxonomy (v1)
of 93 hierarchically clustered techniques: building an international consensus f
or the reporting of behavior change interventions. Ann Behav Med 2013; 46: 81~9
5.)によると16グループの93個のBCTが規定されている。なお、BCTの規定はB
CTTv1に限られず、行動変容の手法を包括的に網羅する限り、どのように規定されて
もよい。また、本実施形態に係るBCTは、一以上のBCTを含むグループ(以下、「B
CTグループ」という)を含み、BCTグループとBCTとは相互に言い換えられてもよ
い。
【0014】
図1は、本実施形態に係るBCTの分類の一例を示す図である。一以上のBCTは所定
の分類法に従って分類される。
図1に示すように、BCTTv1には、「1.Goals and
planning」、「2.Feedback and monitoring」、「3.Social support」、「4.Shapi
ng knowledge」、「5.Natural consequences」、「6.Comparison of behaviour」、
「7.Associations」、「8.Repetition and substitution」、「9.Comparison of o
utcomes」、「10.Reward and threat」、「11.Regulation」、「12.Antecedent
s」、「13.Identity」、「14.Scheduled consequences」、「15.Self-belief」
及び「16.Covert learning」という16個のBCTグループが規定されている。
【0015】
BCTTv1において、
図1に示される16個のBCTグループにはそれぞれ一以上の
BCTが属する。例えば、BCTグループ「5.Natural consequences」には、例えば、
「5.5.Anticipated regret」等のBCTが属する。また、BCTグループ「10.Re
ward and threat」には、例えば、「10.11.Future punishment」等のBCTが属す
る。図示しないが、他のグループについても一以上のBCTが属する。
【0016】
また、各BCTは成分を有し、あるコンテンツに含まれる各BCTの度合いが成分値と
して示されてもよい。また、同BCTグループに属する各BCTの成分値の合計はBCT
グループの成分値として示されてもよい。
【0017】
図2A及び
図2Bは、従来技術及び本実施形態に係るフィルタリング用のモデルの生成
の概念図である。なお、
図2Bでは、フィルタリング対象のコンテンツが、迷惑メッセー
ジ(spam and/or junk message)であり、フィルタリング対象であると判断された第1コ
ンテンツが、迷惑メッセージであり、フィルタリング対象であると判断されていない第2
コンテンツが、迷惑メッセージではないメッセージ(以下、「通常メッセージ」という)
であるものとする。しかし、
図2Bは、一例にすぎず、フィルタリング対象のコンテンツ
及び第1コンテンツは迷惑メッセージに限られないし、第2コンテンツは通常メッセージ
に限られない。
【0018】
ここで、迷惑メッセージとは、ユーザ(例えば、メッセージの読み手)により良い意思
決定のための判断材料を提供することはせずに、迅速に行動しないことの損失を誇張した
り、ユーザの劣等感を煽るような文言で心理的な負担をかけることでユーザの健全な意思
決定を阻害したりするように、意図的に設計されたメッセージである。迷惑メッセージは
、例えば、電子メール、ショートメッセージ、「いかがでしたでしょうかサイト」と呼ば
れるステルス・マーケティングサイト等の種々の媒体によって発信される情報であればよ
い。また、迷惑メッセージは、テキストデータ、画像データ及び音声データの少なくとも
一つであってもよい。
【0019】
また、迷惑メッセージは、特定のBCTの成分を過剰に含む情報ともいえる。当該特定
のBCTは、例えば、スラッジ、脅し及び煽りの少なくとも一つの系統に属するBCT(
例えば、
図1の「5.5.Anticipated regret」及び/又は「10.11.Future punis
hment」等)であってもよい。スラッジとは、企業や詐欺集団等が私利私欲のために、ユ
ーザにとって不利な方向に行動を誘導したり、ユーザにとって有利な行動を阻害したりす
ること示す。例えば、迷惑メッセージの文脈においては、スラッジは、詐欺サイトにクレ
ジットカード番号を入力することを促したり、架空の料金請求に対して現金振り込みをす
る前に家族に相談する心理的猶予を与えなかったりすることであってもよい。
【0020】
例えば、
図2Aに示すように、従来技術の一例では、迷惑メッセージとしてアノテーシ
ョンされた教師データとした機械学習により、ベイズ推定に基づく判断基準が生成され、
当該判断基準に基づくフィルタリング用のモデルが生成される。ベイズ推定に基づく判断
基準は、条件付き確率を使って迷惑メッセージである確率を推定し、予め設定された閾値
を超えると迷惑メッセージであると判定するというものである。なお、「アノテーション
」は、タグ付け又はラベル付け等と言い換えられてもよい。
【0021】
迷惑メッセージとしてアノテーションされた教師データに基づく従来の他のフィルタ技
術としては、ニューラルネットワークやランダムフォレスト等も知られている。また、予
め設定したリスト(例えば、ブラックリスト、リアルタイムブラックリスト、レピュテー
ションリスト等)に基づくブロック技術も知られている。しかしながら、生成AIを活用
した迷惑メッセージの個別化や巧妙化が進むにつれて、上記フィルタ技術やブロック技術
を用いたモデルによると、偽陽性や偽陰性の確率が高まり、フィルタリングの精度が低下
する恐れがある。
【0022】
一方、
図2Bに示すように、本実施形態に係る情報処理システムでは、迷惑メッセージ
としてアノテーションされた第1教師データに含まれる第1BCTの成分に関する第1B
CT成分情報が抽出され、通常メッセージとしてアノテーションされた第2教師データに
含まれる第2BCTの成分に関する第2BCT成分情報が抽出される。当該第1BCT成
分情報及び当該第2BCT成分情報の差分の分析により、迷惑メッセージであるか否かの
判断基準となる基準情報が推定され、該基準情報に基づく迷惑メッセージのフィルタリン
グ用のモデルが生成される。
【0023】
このように、本実施形態に係る情報処理システムでは、フィルタリング対象であると判
断された第1コンテンツ(例えば、迷惑メッセージとしてアノテーションされた第1教師
データ)から第1BCT成分情報が抽出され、フィルタリング対象ではないと判断された
第2コンテンツ(例えば、通常メッセージとしてアノテーションされた第2教師データ)
から第2BCT成分情報が抽出される。また、抽出された第1BCT成分情報及び第2B
CT成分情報の比較に基づいて、フィルタリング対象のコンテンツ(例えば、迷惑メッセ
ージ)であるか否かの判断基準としての基準情報が推定され、当該基準情報に基づくモデ
ルが生成される。したがって、従来基準と比較して、偽陽性や偽陰性の確率が少ない判断
基準に基づくモデルを生成することができ、この結果、フィルタリングの精度を向上でき
る。
【0024】
(構成)
次に、本実施形態に係る情報処理システム1の構成を説明する。なお、情報処理システ
ム1は、単一の情報処理装置を含んで構成されてもよいし、複数の情報処理装置を含んで
構成されてもよい。例えば、情報処理システム1は、後述する機能構成の一部を実装する
複数の情報処理装置で構成され、有線及び/又は無線のネットワークによって接続される
当該複数の装置によって後述する機能構成が実現されてもよい。
【0025】
図3は、本実施形態に係る情報処理システムを構成する各情報処理装置のハードウェア
構成の一例を示す図である。情報処理システム1内の各情報処理装置(例えば、後述する
生成装置10及びフィルタ装置20)は、演算装置に相当するCPU(Central Processi
ng Unit)等のプロセッサ11と、記憶装置12と、通信装置13と、入出力装置14と
を有する。これらの各構成は、バスを介して相互にデータ送受信可能に接続される。
【0026】
プロセッサ11は、例えば、CPUであり、情報処理システム1内の各情報処理装置を
制御する。プロセッサ11は、プログラムを記憶装置12から読み出して実行することで
、本実施形態で説明する各種の処理を実行してもよい。情報処理システム1内の各情報処
理装置は、1又は複数のプロセッサ11を備えていてもよい。また、当該各装置は、コン
ピュータと呼ばれてもよい。
【0027】
記憶装置12は、例えば、メモリ、HDD(Hard Disk Drive)及び/又はSSD(Sol
id State Drive)等のストレージから構成される。記憶装置12は、プロセッサ11によ
る処理の実行に必要な各種情報(例えば、プロセッサ11によって実行される情報処理プ
ログラム等)を記憶してもよい。
【0028】
通信装置13は、ネットワークを介して通信を行う装置であり、例えば、ネットワーク
カード、通信モジュール、チップ、アンテナ等を含んでもよい。通信装置13は、ネット
ワークを介して各種情報を送信する送信部、及び/又は、ネットワークを介して各種情報
を受信する受信部を含んでもよい。
【0029】
入出力装置14は、例えば、キーボード、タッチパネル、マウス及び/又はマイク等の
入力部と、例えば、ディスプレイ及び/又はスピーカ等の出力部とを含む。入力部は、ユ
ーザからの各種情報の入力を受け付ける。また、出力部は、ユーザに対する各種情報を表
示する表示部を含んでもよい。
【0030】
以上説明したハードウェア構成は一例に過ぎない。情報処理システム1内の各情報処理
装置は、
図4に記載したハードウェアの一部が省略されていてもよいし、
図4に記載され
ていないハードウェアを備えていてもよい。また、
図4に示すハードウェアが1又は複数
のチップにより構成されていてもよい。また、情報処理装置が複数の装置で構成される場
合、各装置がこれらのハードウェアの少なくとも一部を備えてもよい。
【0031】
図4は、本実施形態に係る情報処理システムの機能構成の一例を示す図である。
図4に
示すように情報処理システム1は、上記モデル(例えば、
図2B)を生成する情報処理装
置(以下、「生成装置」という)10と、コンテンツを取得し、取得したコンテンツを当
該モデルに基づいてフィルタリングする情報処理装置(以下、フィルタ装置)20と、を
含んで構成される。なお、生成装置10及びフィルタ装置20は、同一の情報処理装置と
して構成されてもよいし、別体の情報処理装置として構成されてもよい。
【0032】
なお、
図4は例示にすぎず、生成装置10及びフィルタ装置20がそれぞれ不図示の機
能構成を備えてもよいことは勿論である。各機能構成の機能は、
図3に示すプロセッサ1
1等のハードウェアに情報処理プログラムを読み込ませることにより、プロセッサ11の
制御のもとで記憶装置12、通信装置13及び入出力装置14の少なくとも一つを動作さ
せることにより実現される。
【0033】
図4に示すように、生成装置10は、格納部101、第1抽出部102、第2抽出部1
03及び生成部104を備える。
【0034】
格納部101は、フィルタリング対象であると判断された第1コンテンツと、フィルタ
リング対象であると判断されていない第2コンテンツとを格納する。具体的には、格納部
101は、フィルタリング対象であるとアノテーションされた第1教師データ(例えば、
迷惑メッセージとしてアノテーションされた教師データ)を第1コンテンツとして格納し
てもよい。また、格納部101は、フィルタリング対象ではないとアノテーションされた
第2教師データ(例えば、通常メッセージとしてアノテーションされた教師データ)を第
2コンテンツとして格納してもよい。
【0035】
また、格納部101は、生成部104によって生成されるモデルを格納してもよい。な
お、格納部101は、生成部104によって生成されるモデルに基づいて蒸留されたモデ
ルを格納してもよい。
【0036】
第1抽出部102は、フィルタリング対象であると判断された第1コンテンツに含まれ
る第1BCTの成分に関する第1BCT成分情報を抽出する。具体的には、第1抽出部1
02は、当該第1コンテンツ(例えば、フィルタリング対象としてアノテーションされた
第1教師データ)を用いた機械学習により第1BCT成分情報を抽出してもよい。
【0037】
当該第1BCT成分情報は、当該第1コンテンツに含まれる第1BCTの成分の平均に
基づく固定値を示す成分表であってもよいし、又は、当該第1コンテンツに含まれる第1
BCTの成分の分布を示してもよい。また、当該第1BCT成分情報は、当該第1コンテ
ンツの情報量に対する当該第1BCTの成分の情報量の比率に関する情報(以下、「第1
含有率情報」という)、及び、当該第1BCTの成分に対応する情報量に対する特定のB
CTの成分の情報量の比率に関する情報(以下、「第1構成比情報」という)の少なくと
も一つを含んでもよい。
【0038】
図5Aは、本実施形態に係る第1BCT成分情報の一例を示す図である。例えば、
図5
Aでは、迷惑メッセージとしてアノテーションされた第1教師データから抽出された第1
BCT成分情報の一例が示される。また、
図5Aでは、第1BCT成分情報が、当該第1
教師データの成分の平均に基づく固定値を示す成分表であるものとするが、上記の通り、
当該第1教師データの成分の分布を示してもよい。
【0039】
例えば、
図5Aでは、第1BCT成分情報は、迷惑メールとしてアノテーションされた
第1教師データの情報量を100%とすると、脅し系BCTの成分の情報量が50%であ
り、煽り系BCTの成分の情報量が40%であり、その他のBCTの成分の情報量が5%
であり、いずれのBCTにも属さない(BCTなし)情報量が5%であることを示す。こ
の場合、第1教師データに含まれる第1BCT(ここでは、脅し系のBCT、煽り系のB
CT及びその他のBCT)の成分の情報量は95%であるので、第1含有率情報は、95
/100を示してもよい。また、第1BCTの成分の情報量が95%であり、特定のBC
T(ここでは、脅し系のBCT、煽り系のBCT)の成分の情報量は90%(=40%+
50%)であるので、第1構成比情報は90/95を示してもよい。
【0040】
第2抽出部103は、フィルタリング対象であると判断されていない第2コンテンツに
含まれる第2BCTの成分に関する第2BCT成分情報を抽出する。具体的には、第2抽
出部103は、当該第2コンテンツ(例えば、フィルタリング対象外としてアノテーショ
ンされた第2教師データ)を用いた機械学習により第2BCT成分情報を抽出してもよい
。
【0041】
当該第2BCT成分情報は、当該第2コンテンツに含まれる第2BCTの成分の平均に
基づく固定値を示す成分表であってもよいし、又は、当該第2コンテンツに含まれる第2
BCTの成分の分布を示してもよい。また、当該第2BCT成分情報は、当該第2コンテ
ンツの情報量に対する当該第2BCTの成分の情報量の比率に関する情報(以下、「第2
含有率情報」という)、及び、当該第2BCTの成分に対応する情報量に対する特定のB
CTの成分の情報量の比率に関する情報(以下、「第2構成比情報」という)の少なくと
も一つを含んでもよい。
【0042】
図5Bは、本実施形態に係る第2BCT成分情報の一例を示す図である。例えば、
図5
Bでは、通常メッセージとしてアノテーションされた第2教師データから抽出された第2
BCT成分情報の一例が示される。また、
図5Bでは、第2BCT成分情報が、当該第2
教師データの成分の平均に基づく固定値を示す成分表であるものとするが、上記の通り、
当該第2教師データの成分の分布を示してもよい。
【0043】
例えば、
図5Bでは、第2BCT成分情報は、通常メールとしてアノテーションされた
第2教師データの情報量を100%とすると、いずれのBCTにも属さない(BCTなし
)情報量が70%であり、比較系BCTの情報量が10%であり、計画系BCTの情報量
が10%であり、その他のBCTの情報量が10%であることを示す。この場合、第2教
師データに含まれる第2BCT(ここでは、比較系のBCT、計画系のBCT及びその他
のBCT)の成分に対応する情報量は30%であるので、第2含有率情報は、30/10
0を示してもよい。また、第2BCTの成分に対応する情報量が30%であり、特定のB
CT(ここでは、脅し系のBCT、煽り系のBCT)の成分に対応する情報量は0%であ
るので、第2構成比情報は0を示してもよい。
【0044】
生成部104は、第1BCT成分情報及び第2BCT成分情報に基づいて、フィルタリ
ング対象のコンテンツであるか否かの判断基準となる基準情報を推定し、該基準情報に基
づくモデルを生成する。当該基準情報は、フィルタリング対象のコンテンツの情報量に対
する当該コンテンツに含まれる第3行動変容手法(第3BCT)の成分の情報量の比率に
関する情報(以下、「含有率情報」という)、該第3BCTの成分の情報量に対する特定
のBCTの成分の情報量の比率に関する情報(以下、「構成比情報」という)、及び、当
該特定のBCTに関する情報(以下、「BCT情報」という)の少なくとも一つを含んで
もよい。
【0045】
具体的には、生成部104は、第1含有率情報及び第2含有率情報に基づいて、フィル
タリング対象のコンテンツの情報量に対する当該コンテンツに含まれる第3BCTの成分
の情報量の比率に関する含有率情報を推定してもよい。例えば、
図5A及び5Bで説明し
たように、第1含有率情報が95/100であり、第2含有率情報が30/100である
場合、生成部104は、フィルタリング対象のコンテンツ(すなわち、迷惑メッセージ)
であるかの判断基準となる含有率情報を50/100と推定してもよい。
【0046】
また、生成部104は、第1構成比情報及び第2構成比情報に基づいて、第3BCTの
成分の情報量に対する特定のBCTの成分の情報量の比率に関する構成比情報を推定して
もよい。例えば、
図5A及び5Bで説明したように、第1構成比情報が90/95であり
、第2構成比情報が0である場合、生成部104は、フィルタリング対象のコンテンツ(
すなわち、迷惑メッセージ)であるかの判断基準となる構成比情報を40/50と推定し
てもよい。
【0047】
また、生成部104は、第1BCT成分情報及び第2BCT成分情報に基づいて、特定
のBCTを示すBCT情報を推定してもよい。例えば、
図5A及び5Bに示されるように
、第1BCT成分情報は、脅し系BCT及び煽り系BCTの成分の割合が、通常メッセー
ジに多く含まれる比較系BCT及び計画系BCTの成分の割合と比べて多い。生成部10
4は、第1BCT成分情報及び第2BCT成分情報の比較に基づいて、フィルタリング対
象のコンテンツ(すなわち、迷惑メッセージ)に含まれる傾向のある特定のBCTを示す
BCT情報を推定してもよい。
【0048】
図4に示すように、フィルタ装置20は、取得部201、フィルタ部202及び出力部
203を備える。
【0049】
取得部201は、コンテンツを取得する。具体的には、取得部201は、フィルタリン
グ対象であるか否かの判断対象となるコンテンツ(例えば、迷惑メッセージであるか否か
の判断対象となる対象メッセージ)を取得する。
【0050】
フィルタ部202は、生成装置10で生成されたモデルに基づいて、取得部201によ
って取得されたコンテンツがフィルタリング対象のコンテンツであるか否かを判断して、
判断結果に基づいてフィルタリングを行う。なお、フィルタ部202は、生成部104に
よって生成されたモデルそのものを用いてもよいし、当該モデルを蒸留したモデルを用い
てもよい。上記の通り、当該モデルは、含有率情報及び構成比情報の少なくとも一つを判
断基準として用いてもよい。
【0051】
具体的には、フィルタ部202は、取得部201によって取得されたコンテンツの情報
量に対する当該コンテンツに含まれるBCTの情報量の比率と、上記含有率情報に基づく
モデルを用いて、フィルタリング対象のコンテンツであるか否かを判断してもよい。例え
ば、当該モデルでは、取得部201によって取得されたコンテンツの情報量に対する当該
コンテンツに含まれるBCTの情報量の比率が、上記含有率情報が示す値(例えば、50
/100)を超えるか否か、又は、当該含有率情報が示す値からどの程度乖離するかによ
って、フィルタリング対象のコンテンツであるか否かが判断されてもよい。
【0052】
また、フィルタ部202は、取得部201によって取得されたコンテンツに含まれるB
CTの情報量に対する特定のBCTの成分の情報量の比率と、上記構成比情報に基づくモ
デルを用いて、フィルタリング対象のコンテンツであるか否かを判断してもよい。例えば
、当該モデルでは、取得部201によって取得されたコンテンツに含まれるBCTの情報
量に対する特定のBCTの成分の比率が、上記構成比情報が示す値(例えば、40/50
)を超えるか否か、又は、当該構成比情報が示す値からどの程度乖離するかによって、フ
ィルタリング対象のコンテンツであるか否かが判断されてもよい。
【0053】
また、フィルタ部202は、取得部201によって取得されたコンテンツに含まれるB
CTの情報量に対する特定のBCTの成分の情報量の比率と、上記含有率情報及び構成比
情報に基づくモデルを用いて、フィルタリング対象のコンテンツであるか否かを判断して
もよい。
【0054】
出力部203は、フィルタ部202によるフィルタリングの結果に関する情報(以下、
「フィルタリング情報」という)を出力する。なお、フィルタリング情報は、生成装置1
0にフィードバックされてもよい。例えば、フィルタ部202によってフィルタリング対
象のコンテンツとしてフィルタリングされたコンテンツが、フィルタリング対象外とされ
るべきコンテンツである場合(すなわち、偽陽性の場合)、当該フィルタリングされたコ
ンテンツがフィルタリング対象外としてアノテーションされ、第2教師データとして生成
装置10にフィードバックされてもよい。一方、フィルタ部202によってフィルタリン
グ対象のコンテンツとしてフィルタリングされなかったコンテンツが、フィルタリング対
象とされるべきコンテンツである場合(すなわち、偽陰性の場合)、当該フィルタリング
されなかったコンテンツがフィルタリング対象としてアノテーションされ、第2教師デー
タとして生成装置10にフィードバックされてもよい。これにより、生成装置10で生成
されるモデルに基づくフィルタリングの精度を更に向上できる。
(動作)
次に、本実施形態に係る情報処理システム1の動作を説明する。なお、
図6及び
図7に
示す生成装置10及びフィルタ装置20の動作は一例にすぎず、図示するものに限られな
い。例えば、一部のステップが削除及び/又は追加されてもよいし、一部のステップ(例
えば、
図6ステップS101及びS102)の順番が入れ替えて実行されてもよいし、又
は、並行して実行されてもよい。
【0055】
図6は、本実施形態に係る生成装置10の動作の一例を示すフローチャートである。図
6に示すように、生成装置10は、フィルタリングの対象であると判断された第1コンテ
ンツに含まれる第1BCTの成分に関する第1BCT成分情報を抽出する(ステップS1
01)。例えば、
図2B及び5Aで説明したように、生成装置10は、迷惑メールとして
アノテーションされた第1教師データを用いた機械学習により、第1BCT成分情報を抽
出してもよい。
【0056】
生成装置10は、フィルタリングの対象であると判断されていない第2コンテンツに含
まれる第2BCTの成分に関する第2BCT成分情報を抽出する(ステップS102)。
例えば、
図2B及び5Bで説明したように、生成装置10は、通常メールとしてアノテー
ションされた第2教師データを用いた機械学習により、第2BCT成分情報を抽出しても
よい。
【0057】
生成装置10は、ステップS101で抽出された第1BCT成分情報及びステップS1
02で抽出された第2BCT成分情報に基づいて、フィルタリングの対象のコンテンツで
あるか否かの判断基準となる基準情報を推定する(ステップS103)。具体的には、図
2B、5A及び5Bで説明したように、生成装置10は、第1BCT成分情報及び第2B
CT成分情報の差分を分析して、当該判断基準となる基準情報を推定してもよい。生成装
置10は、ステップS103で推定された基準情報に基づくモデルを生成する(ステップ
S104)。
【0058】
図7は、本実施形態に係るフィルタ装置20の動作の一例を示すフローチャートである
。
図7に示すように、フィルタ装置20は、フィルタリング対象であるか否かの判断対象
となるコンテンツを取得する(ステップS201)。例えば、フィルタ装置20は、迷惑
メッセージであるか否かの判断対象となる対象メッセージを取得する。
【0059】
フィルタ装置20は、生成装置10で生成されたモデルに基づいて、ステップS201
で取得されたコンテンツがフィルタリング対象のコンテンツであるか否かを判断して、判
断結果に基づいてフィルタリングを行う(ステップS202)。例えば、フィルタ装置2
0は、当該モデルに基づいて、対象メッセージが迷惑メッセージであるか否かを判断して
、判断結果に基づいてフィルタリングを行う。
【0060】
フィルタ装置20は、ステップS202におけるフィルタリングの結果に関するフィル
タリング情報を出力する(ステップS203)。
【0061】
以上のように、本実施形態に係る情報処理システム1では、生成装置10は、フィルタ
リング対象であると判断された第1コンテンツから抽出された第1BCT成分情報と、フ
ィルタリング対象ではないと判断された第2コンテンツから抽出された第2BCT成分情
報に基づいて、フィルタリング対象のコンテンツ(例えば、迷惑メッセージ)であるか否
かの判断基準としての基準情報が推定され、当該基準情報に基づくモデルが生成される。
したがって、従来基準と比較して、偽陽性や偽陰性の確率が少ない判断基準に基づくフィ
ルタリング用のモデルを生成できる。
【0062】
また、本実施形態に係る情報処理システム1では、生成装置10によって生成された上
記モデルに基づいて、取得されたコンテンツがフィルタリング対象のコンテンツであるか
否かを判断して、判断結果に基づいてフィルタリングを行う。したがって、フィルタリン
グの精度を向上できる。
【0063】
(その他の実施形態)
上記実施形態では、フィルタリング対象のコンテンツとして迷惑メッセージを例示した
が、フィルタリング対象のコンテンツは上記に限られない。フィルタリング対象のコンテ
ンツは、例えば、キャッチコピー、広告、プロンプトエンジニアリングによって設計され
たコンテンツ等、顕著な傾向を示すBCTを含む確率が高い第1コンテンツと当該顕著な
傾向を示すBCTを含む確率が少ない第2コンテンツの組み合わせが存在すれば、どのよ
うなコンテンツをフィルタリング対象とすることの可能である。例えば、上記第1コンテ
ンツ及び第2コンテンツの組み合わせは、キャッチコピーの文章が上手いか下手か、広告
のバランスが良いか悪いか、又は、プロンプトエンジニアリングにより設計されたコンテ
ンツが適切か適切でないか等によって定められてもよい。
【0064】
また、フィルタリング対象のコンテンツは、「特定の行動を促そうとするコンテンツ」
であってもよい。例えば、生成装置10は、自分より弱い立場の相手に高圧的なメールで
行動を促そうとしていないかを判断するモデルを生成し、フィルタ装置は、当該モデルに
基づいて対象コンテンツが自分より弱い立場の相手に高圧的なメールで行動を促そうとし
ていないかを判断してもよい。このようなモデルは、セクシャルハラスメント(セクハラ
)、パワーハラスメント(パワハラ)、下請けいじめの有無の判断に用いることができる
。
【0065】
また、特定のBCTは、フィルタリング対象であると判断されたコンテンツが、フィル
タリング対象ではないと判断されたコンテンツよりも顕著に含むと想定されるBCTであ
れば、どのようなBCTであってもよい。例えば、文章が上手いと判断されるコンテンツ
をフィルタリング対象とする場合、特定のBCTは、例えば、対象行動の客観的視点を提
示する系統のBCTであってもよいがこれに限られない。また、バランスが良いと判断さ
れるコンテンツをフィルタリング対象とする場合、特定のBCTは、例えば、新しい見方
を提示する系統のBCTであってもよいがこれに限られない。また、プロンプトエンジニ
アリングにより設計され、適切であると判断されたコンテンツをフィルタリング対象とす
る場合、特定のBCTは、例えば、フィードバックを与える系統のBCTであってもよい
がこれに限られない。
【0066】
また、本実施形態における、第1BCT、第2BCT及び第3BCTに付された番号は
、3種類のBCTを区別するために付されており、順番を示すものではない。したがって
、各BCTが区別される限り、第1、第2及び第3の番号が適宜入れ替えられてもよい。
【0067】
以上説明した実施形態は、本発明の理解を容易にするためのものであり、本発明を限定
して解釈するためのものではない。実施形態で説明したフローチャート、シーケンス、実
施形態が備える各要素並びにその配置、材料、条件、形状及びサイズ等は、例示したもの
に限定されるわけではなく適宜変更することができる。
【符号の説明】
【0068】
1…情報処理システム、10…生成装置、20…フィルタ装置、11…プロセッサ、1
2…記憶装置、13…通信装置、14…入出力装置、101…格納部、102…第1抽出
部、103…第2抽出部、104…生成部、201…取得部、202…フィルタ部、20
3…出力部
【要約】
【課題】コンテンツのフィルタリングの精度を向上させること。
【解決手段】情報処理システム1は、フィルタリング対象であると判断された第1コンテンツに含まれる第1行動変容手法(BCT)の成分に関する第1BCT成分情報を抽出する第1抽出部と、フィルタリング対象で
はないと判断された第2コンテンツに含まれる第2行動変容手法(BCT)の成分に関する第2BCT成分情報を抽出する第2抽出部と、前記第1BCT成分情報及び前記第2BCT成分情報
の差分の分析により、フィルタリング対象のコンテンツであるか否かの判断基準となる基準情報を推定し、該基準情報に基づくモデルを生成する生成部と、を備える。
【選択図】
図2B