特許第5813054号(P5813054)IP Force 特許公報掲載プロジェクト 2015.5.11 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ヤフー株式会社の特許一覧
<>
  • 特許5813054-情報判定装置および情報判定方法 図000002
  • 特許5813054-情報判定装置および情報判定方法 図000003
  • 特許5813054-情報判定装置および情報判定方法 図000004
  • 特許5813054-情報判定装置および情報判定方法 図000005
  • 特許5813054-情報判定装置および情報判定方法 図000006
  • 特許5813054-情報判定装置および情報判定方法 図000007
  • 特許5813054-情報判定装置および情報判定方法 図000008
  • 特許5813054-情報判定装置および情報判定方法 図000009
  • 特許5813054-情報判定装置および情報判定方法 図000010
  • 特許5813054-情報判定装置および情報判定方法 図000011
  • 特許5813054-情報判定装置および情報判定方法 図000012
  • 特許5813054-情報判定装置および情報判定方法 図000013
  • 特許5813054-情報判定装置および情報判定方法 図000014
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】5813054
(24)【登録日】2015年10月2日
(45)【発行日】2015年11月17日
(54)【発明の名称】情報判定装置および情報判定方法
(51)【国際特許分類】
   G06Q 50/10 20120101AFI20151029BHJP
   G06F 17/30 20060101ALI20151029BHJP
【FI】
   G06Q50/10
   G06F17/30 170A
   G06F17/30 210A
【請求項の数】8
【全頁数】16
(21)【出願番号】特願2013-128976(P2013-128976)
(22)【出願日】2013年6月19日
(65)【公開番号】特開2015-5057(P2015-5057A)
(43)【公開日】2015年1月8日
【審査請求日】2013年12月16日
(73)【特許権者】
【識別番号】500257300
【氏名又は名称】ヤフー株式会社
(74)【代理人】
【識別番号】100089118
【弁理士】
【氏名又は名称】酒井 宏明
(74)【代理人】
【識別番号】100125612
【弁理士】
【氏名又は名称】中嶋 裕昭
(72)【発明者】
【氏名】工藤 明善
(72)【発明者】
【氏名】奥村 倫弘
【審査官】 塩田 徳彦
(56)【参考文献】
【文献】 特開2013−077044(JP,A)
【文献】 国際公開第2012/129154(WO,A2)
【文献】 特表2013−508870(JP,A)
【文献】 特開2013−077155(JP,A)
【文献】 鍋島啓太 他,訂正パターンに基づく誤情報の収集と拡散状況の分析,自然言語処理,言語処理学会,2013年 6月14日,Vol. 40, No. 3,pp. 461-484
【文献】 鳥海不二夫 他,ソーシャルメディアを用いたデマ判定システムの判定精度評価,情報処理学会デジタルプラクティス,日本,一般社団法人情報処理学会,2012年 7月15日,Vol.3, No.3,pp. 201-208
【文献】 風間一洋,特集「Twitterとソーシャルメディア」Twitterにおける情報伝播,人工知能学会誌,(社)人工知能学会,2012年 1月 1日,Vol. 27, No. 1,pp. 35-42
【文献】 松澤有 他,リツイート時系列の3パラメータ混合対数正規分布モデルによる分析,第27回人工知能学会全国大会論文集[CD−ROM] 2013年度 人工知能学会全国大会(第27回)論文集,2013年 6月 6日,3I4-OS-14b-2in,pp.1-4
(58)【調査した分野】(Int.Cl.,DB名)
G06Q 10/00 − 50/34
G06F 17/30
(57)【特許請求の範囲】
【請求項1】
投稿されたメッセージを記憶する記憶手段と、
前記記憶手段に記憶されたメッセージから所定の内容に対して所定の否定語を含むメッセージを検出する検出手段と、
前記検出手段による検出結果に基づいて、前記所定の内容に虚偽情報が含まれるか否かを判定する判定手段と、
前記判定手段による判定結果に基づいて、前記所定の内容に虚偽情報が含まれる旨の情報を、前記記憶手段に記憶されたメッセージから当該所定の内容を検索した検索結果の先頭に表示して提供する提供手段と、を有することを特徴とする情報判定装置。
【請求項2】
前記判定手段は、前記所定の内容に対して前記所定の否定語を含むメッセージに係る投稿数の急増を検出すると、前記所定の内容に虚偽情報が含まれる旨を判定することを特徴とする請求項1に記載の情報判定装置。
【請求項3】
前記判定手段は、前記記憶されたメッセージのうち、前記所定の内容に対して前記所定の否定語を含まないものと、含むものとの比率に基づき、前記所定の内容に虚偽情報が含まれるか否かを判定することを特徴とする請求項2に記載の情報判定装置。
【請求項4】
前記判定手段は、前記所定の内容を含むメッセージが複数投稿されたことにより、メッセージの投稿数が増加する第一のピークにおける投稿数と、前記所定の内容に対して前記所定の否定語を含むメッセージが複数投稿されたことにより、メッセージの投稿数が増加する第二のピークにおける投稿数と、の比率に基づき前記所定の内容に虚偽情報が含まれるか否かを判定することを特徴とする請求項2または3に記載の情報判定装置。
【請求項5】
前記検出手段は、前記第一のピークが出現した時刻に投稿されたメッセージに共通して含まれる警戒用語と、前記所定の否定語とを検索し、該警戒用語と前記所定の否定語とを含むメッセージを検出することを特徴とする請求項1〜4のいずれか一に記載の情報判定装置。
【請求項6】
前記提供手段は、前記所定の否定語を含むメッセージに係る投稿数に関する情報を提供することを特徴とする請求項2〜5のいずれか一に記載の情報判定装置。
【請求項7】
前記記憶手段に所定ユーザのドメイン名またはアカウントがさらに記憶されており、該所定ユーザのメッセージを特定する特定手段をさらに有し、
前記判定手段は、前記特定手段が前記所定ユーザのメッセージを特定した場合、該メッセージの投稿数に重み付けをし、該重み付けされた投稿数を、前記所定の否定語を含むメッセージに係る投稿数に反映することを特徴とする請求項2〜6のいずか一に記載の情報判定装置。
【請求項8】
コンピュータに、
投稿されたメッセージを記憶手段に記憶する記憶ステップと、
前記記憶手段に記憶されたメッセージから所定の内容に対して所定の否定語を含むメッセージを検出する検出ステップと、
前記検出ステップによる検出結果に基づいて、前記所定の内容に虚偽情報が含まれるか否かを判定する判定ステップと、
前記判定ステップによる判定結果に基づいて、前記所定の内容に虚偽情報が含まれる旨の情報を、前記記憶手段に記憶されたメッセージから当該所定の内容を検索した検索結果の先頭に表示して提供する提供ステップと、を実行させることを特徴とする情報判定方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報判定装置および情報判定方法に関する。
【背景技術】
【0002】
思い浮かんだことを記事にして携帯端末等から適時に投稿できる投稿サイトが普及している。投稿サイトには投稿された記事が直近に投稿されたものから時系列で順番に表示される。
【0003】
また、ユーザの利便性を向上するために投稿サイトには独自の機能が付加されている場合がある。例えば、投稿サイトの機能によりユーザは、投稿記事を閲覧する投稿者を指定できる。この場合、投稿サイトにはその投稿者が投稿した記事のみが表示される。これにより、多数の記事の中にその投稿者の記事が埋もれるのを防いでいる。
【0004】
また、投稿サイトの中には他人の投稿を再投稿する機能を有するものがある。あるユーザが他人の投稿を再投稿すると、当該ユーザを指定する他のユーザは、再投稿された投稿を閲覧することができるようになる。さらに、当該他のユーザは再投稿された投稿を再投稿することもできる。各ユーザがこの再投稿機能を利用することにより、重要な情報が周知されやすくなる。
【0005】
ところが、ユーザにより投稿された記事の中には、ユーザの誤解や悪意により虚偽情報を含まれるものがある。この虚偽情報を含む記事は、他のユーザにより再投稿され、多数のユーザに流布される場合がある。その結果、社会的な混乱を招く恐れがある。
【0006】
虚偽情報の流布を防ぐ技術の一つとして期待されているものに、ウェブページフィルタリングがある。ウェブページフィルタリングは本来、未成年等に有害なサイトを閲覧させない目的で使用される技術である。このウェブページフィルタリングにおいては、サイトに含まれる文字列を取得し、取得した文字列にブラックワードと呼ばれる有害な用語が含まれていないかを検索する。投稿サイトにおいては、虚偽情報を含む記事に含まれると考えられるワードを、予めブラックワードとして登録しておき、虚偽情報を含む記事の投稿がなされたとき、ブラックワードで検索することにより当該記事を検出する。そして、投稿サイトでは検出された記事にフィルタをかけて表示しないようにする。つまり、投稿サイトにおいて虚偽情報が流布するのを防ぐため、ウェブページフィルタリングの技術が応用されているのである。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】特表2013−502000号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
しかしながら、サイトに投稿された新たな内容の虚偽情報には対応できないという問題がある。
【0009】
先述したようにウェブページフィルタリングは、サイト内での用語検索の結果に基づいてウェブページにフィルタを設定するが、検索用語に登録されていない新しいブラックワードが含まれていた場合、記事にフィルタを設定できない。すなわち、サイトに投稿された記事に虚偽情報が含まれていても、対応する検索用語が登録されていないと、虚偽情報を含んだ記事が検索されないという問題がある。
【0010】
本発明は、上記の課題を解決するもので、その目的は、サイトに投稿された新たな内容の虚偽情報に対応可能な情報判定装置および情報判定方法を提供することを目的とする。
【課題を解決するための手段】
【0011】
上記の目的をふまえ、本発明の一態様は、投稿されたメッセージを記憶する記憶手段と、前記記憶手段に記憶されたメッセージから所定の内容に対して所定の否定語を含むメッセージを検出する検出手段と、前記検出手段による検出結果に基づいて、前記所定の内容に虚偽情報が含まれるか否かを判定する判定手段と、前記判定手段による判定結果に基づいて、前記所定の内容に虚偽情報が含まれる旨の情報を提供する提供手段と、を有することを特徴とする。
【発明の効果】
【0012】
以上のように、本発明を使用することにより、ユーザは投稿された記事に係る情報の信憑性を確認することができるようになり、その結果、虚偽情報が流布されることによる社会的混乱の招来を事前に防ぐことができる。
【図面の簡単な説明】
【0013】
図1図1は、実施例1に係る情報判定装置の処理の全体の流れを説明するための図である。
図2図2は、実施例1に係る情報判定装置の構成を示す機能ブロック図である。
図3図3は、本実施形態に係る情報判定装置の処理ループの流れを示したフローチャート図である。
図4図4は、投稿サイトに記事が投稿されたときの表示の一例を示した図である。
図5図5は、投稿DBのデータ構造の一例を示した図である。
図6図6は、警戒記事が投稿されてから所定時間経過後の投稿サイトの表示の一例を示した図である。
図7図7は、警戒記事が投稿されてから所定時間経過したときの投稿DBの一例を示した図である。
図8図8は、虚偽情報を含む記事が掲載された場合の投稿数の推移を示したグラフを示した図である。
図9図9は、投稿サイトに告知記事が投稿されたときの表示の一例を示した図である。
図10図10は、虚偽情報が含まれる旨の判定をした記事の付記部分に否定記事の投稿数を表示した様子を示した図である。
図11図11は、実施例2に係る情報判定装置の構成を示す機能ブロック図である。
図12図12は、否定記事を列挙したウェブページの一例を示した図である。
図13図13は、情報判定装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
【発明を実施するための形態】
【0014】
次に、本発明を実施するための形態(「実施形態」と呼ぶ)について、図に沿って説明する。なお、背景技術や課題等で既に述べた内容と共通の前提事項については適宜省略する。また、以下の各実施形態において同一の部位には同一の符号を付す。各実施例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。なお、この実施形態により本願に係る情報判定装置および情報判定方法が限定されるものではない。
【実施例1】
【0015】
本発明は投稿サイトにおいて使用される他、当該投稿サイトに投稿された記事を検索する投稿検索サイトにおいても使用できる。投稿検索サイトにおいて検索ワードが入力されると、検索ワードとの適合度順か、記事が投稿された時間順に検索ワードを含む記事が表示される。ユーザは検索した記事をお気に入りに登録したり、再投稿したり、投稿者に返信したりすることができる。
【0016】
ユーザはそのときの時事情報を得たい場合に、当該投稿検索サイトを利用すれば、投稿された多数の記事から容易に時事情報を収集できる。本実施形態においては、投稿検索サイトにおいて「製油所」を検索ワードに指定して記事を閲覧する場合について説明する。なお、本発明は、本実施形態に限られず、投稿サイトにおいて使用してもよい。
【0017】
[1.処理の概要]
図1は、実施例1に係る情報判定装置100の処理の全体の流れを説明するための図である。投稿検索サイト200は、検索ワード入力欄201に「製油所」が入力され、検索ボタン202がクリックされると、記事表示欄203に「製油所」というワードを含む記事を、投稿された時間順に列挙して表示する。
【0018】
図1に示したように、情報判定装置100は、投稿検索サイト200において各ユーザから投稿された記事を受け付け、記憶領域に記憶する。このとき、情報判定装置100は、記憶された各記事に共通して含まれる警戒用語「○×製油所」および「火災」を登録する(1)。複数の記事に共通して含まれる語の検出には、形態素解析又はtf-idfなどの言語処理技術を適宜用いることができる。
【0019】
次いで、情報判定装置100は、記憶された記事から警戒用語を含む警戒記事を検索する。警戒記事には、通常の投稿記事以外に再投稿された記事が含まれてもよい。次いで、情報判定装置100は、検索された警戒記事の投稿数をカウントする(2)。
【0020】
次いで、情報判定装置100は、「○×製油所」および「火災」と、所定の否定語「デマ」または「うそ」とを用いて所定期間内に投稿された記事を検索することにより、ある記事の内容を否定する否定記事を検出する(3)。その結果、情報判定装置100は、「○×製油所の火災はうその情報です。惑わされないように。」という否定記事と、「○×製油所の火災はデマです。」という否定記事とを検出する。
【0021】
次いで、情報判定装置100は、検出された否定記事の投稿数が所定値以上になることにより、否定記事の投稿数の急増を検出すると、投稿サイトに「「○×製油所で大規模な火災が発生した模様。みんなに告知してください。」は、虚偽情報の可能性が高いと思われます。」という内容の告知記事を投稿する(4)。
【0022】
[2.情報判定装置の全体構成]
図2は、実施例1に係る情報判定装置100の構成を示す機能ブロック図である。投稿検索サイトのWebサーバと情報判定装置100とは、図示しないネットワークによって接続されており、各種の情報を交換する。かかるネットワークの一態様としては、有線または無線を問わず、LAN(Local Area Network)やVPN(Virtual Private Network)、移動体通信網などの任意の通信網が挙げられる。
【0023】
情報判定装置100は、I/F101と、制御手段110と、記憶手段120とを有する。制御手段110は、検出手段111と、判定手段112と、提供手段113とを有する。また、記憶手段120は、投稿DB121と、警戒用語リスト122、否定語リスト123とを記憶する。通信I/F232は、NIC(Network Interface Card)等のインタフェースである。なお、情報判定装置100は、投稿DB121を有していなくてもよく、投稿サイトのサーバが有するDBを代用してもよい。
【0024】
投稿DB121は、投稿サイトに投稿された記事の履歴を時間に対応付けて記憶する。図5は、投稿DB121のデータ構造の一例を示した図である。図5に示したように、投稿DB121は、IDと、日時と、内容と、警戒フラグと、警戒用語と、再投稿回数と、否定記事数と、否定IDとを対応付けて記憶する。「ID」は、投稿された各記事に一意に付される識別番号を示す。「日時」は、記事が投稿された日付および時間を示す。「内容」は、投稿された記事の内容を示す。「警戒フラグ」は、当該記事が虚偽情報を含むか否かを判定する対象であるか否かを示すフラグである。「警戒用語」は、所定期間に投稿された各記事に共通して含まれる用語を示す。「再投稿回数」は、再投稿機能により当該記事が再投稿された回数を示す。「否定記事数」は、当該記事に対応する否定記事の投稿数を示す。「否定ID」は、当該記事が否定記事である場合に、否定する対象の警戒記事に係るIDを示す。
【0025】
警戒用語リスト122は、所定期間に投稿された各記事に共通して含まれる警戒用語をリストにしたものである。例えば、建造物、施設名等の固有名詞や火災、地震、事故等の社会的混乱を誘発しうる普通名詞等が、各記事に共通して含まれる場合に、警戒用語として当該用語が警戒リスト122に登録される。また、否定語リスト123は、投稿された記事を否定する記事を投稿する際に主に使用される否定語をリストにしたものである。例えば、否定語リスト123には、「デマ」「ガセ」「うそ」「嘘」「間違い」「否定」「誤り」「訂正」等の語が登録されている。なお、投稿DB121、警戒用語リスト122、および否定語リスト123の使用用途に関する詳細は後述する。
【0026】
そして、情報判定装置100では、記憶手段120に予め記憶(インストール)した図示しない所定のコンピュータ・プログラムが制御手段110を制御することで、図1に示す各手段等の要素(111、112・・・など)を実現する。これら各要素のうち、情報の記憶手段120は、各種データベース(「DB」とも表す)やファイル、配列等の変数、システム設定値など任意の形式で実現できる。
【0027】
[3.作用]
図3は、本実施形態に係る情報判定装置100の処理ループの流れを示したフローチャート図である。図3のフローチャートに示したように、まず、検出手段111は、投稿DB121に記憶されている各記事に共通して含まれる警戒用語を抽出する(ステップS10)。このとき、検出手段111は、投稿DB121において当該警戒用語が使用されている警戒記事にフラグを立てる。また、検出手段111は、警戒用語リスト122に警戒用語を登録する。次いで、検出手段111は、投稿DB121から特定された警戒記事の投稿数を算出する(ステップS11)。次いで、検出手段111は、警戒記事の投稿数が所定値以上であるか否かを判定する(ステップS12)。検出手段111は、警戒記事の投稿数が所定値より少ない場合(ステップS12:「No」)、処理ループを一旦終了させる。一方、検出手段111は、警戒記事の投稿数が所定値以上である場合(ステップS12:「Yes」)、次のステップS13の処理に移る。
【0028】
次いで、判定手段112は、警戒リスト122の警戒用語と否定語リスト123の所定の否定語とを用いて、投稿DB121に記憶された記事から所定期間内に投稿された記事を検索することにより、否定記事を検出する(ステップS13)。このとき、判定手段112は、投稿DB121において、検出した否定記事に係る否定IDの項目に、対応する警戒記事のIDを入力する。次いで、判定手段112は、投稿DB121の否定IDに基づき否定記事の投稿数を算出する。次いで、判定手段112は、否定記事の投稿数が所定値以上であるか否かを判定する(ステップS14)。判定手段112は、否定記事の投稿数が所定値より少ない場合(ステップS14:「No」)、処理ループを一旦終了させる。一方、判定手段112は、否定記事の投稿数が所定値以上である場合(ステップS14:「Yes」)、次のステップS15の処理に移る。
【0029】
次いで、提供手段113は、警戒記事を否定する投稿が多い旨もしくは警戒記事に虚偽の内容が含まれる可能性がある旨の告知記事を投稿サイトに投稿することでユーザへの注意喚起を実行する(ステップS15)。なお、提供手段113は、他に、警戒記事に否定記事の投稿数を付記することや、警戒記事を非表示にすることによりフィルタリングしてもよい。
【0030】
[4.情報判定装置における処理]
図2に示された情報判定装置100の各構成がおこなう処理について具体的に説明する。まず、情報判定装置100が警戒記事および否定記事を登録するまでの処理の流れについて説明する。図4は、投稿サイトに記事が投稿されたときの表示の一例を示した図である。図4に示したように、投稿検索サイト200には、検索ワード「製油所」を含む記事が列挙されている。まず、投稿サイトは、あるユーザにより「○×製油所で大規模な火災が発生した模様。みんなに告知してください。」という内容の記事が投稿されると、その記事を掲載する。投稿サイトは、その後に他のユーザにより当該記事が再投稿されると、同じ内容の記事を再度掲載する。
【0031】
図5は、投稿DB121のデータ構造の一例を示した図であり、各項目の説明は先述したとおりである。図5に示したように、情報判定装置100は、先ほどの記事が投稿されると、投稿DB121にID「1」と、投稿日時「2013/4/5 15:06」と、内容「○×製油所で大規模な火災が発生した模様。みんなに告知してください。」を記憶する。
【0032】
次いで、検出手段111は、投稿DB121に記憶されている各記事に共通して含まれる警戒用語として「○×製油所」「火災」を抽出する。次いで、検出手段111は、当該警戒用語を含む記事を警戒記事と判定し、当該警戒記事の投稿数(ここでは16とする)を算出する。警戒記事の投稿数には通常の投稿記事および再投稿記事が含まれる。そして、検出手段111は、検出結果に基づき、図5の投稿DB121においてID1の警戒フラグを「0」から「1」に変更し、警戒用語に「○×製油所」「火災」を登録し、再投稿回数を「16」とする。さらに、検出手段111は、警戒用語リスト122に「○×製油所」「火災」を登録する。なお、検出手段111は、投稿DB121において他の投稿についても同様にID、日時、および内容等を記憶する。
【0033】
図6は、警戒記事が投稿されてから所定時間経過後の投稿検索サイト200の表示の一例を示した図である。図6に示したように、投稿検索サイト200には、正しい知見を有するユーザ等により投稿された「○×製油所の火災はデマです。」「○×製油所の火災はうその情報です。惑わされないように。」という内容の否定記事が掲載される。このとき、検出手段111は、警戒用語「○×製油所」および「火災」と、所定の否定語「うそ」または「デマ」とを含む否定記事を検索し、上記2つの否定記事を検出する。
【0034】
図7は、警戒記事が投稿されてから所定時間経過したときの投稿DB121の一例を示した図である。図7に示したように、否定記事が検出されると、投稿DB121においてID17およびID21の否定IDの項目に、否定対象のID1に係る警戒記事を示す数字「1」がそれぞれ登録される。なお、否定記事が対象とする警戒記事が複数あるときは、それぞれの警戒記事のIDを否定IDの項目に登録してもよい。以上のようにして、情報判定装置100は、警戒記事および否定記事を投稿DB121に登録する。
【0035】
次に、情報判定装置100が警戒記事に虚偽情報が含まれるか否かを判定するまでの処理の流れについて説明する。まず、検出手段111は、ID1が投稿されてから15分以内に投稿された記事の中から、「○×製油所」および「火災」の警戒用語を含む記事を検索し、検索された警戒記事の記事数110を算出する。
【0036】
検出手段111は、警戒記事の投稿数が110あることを確認し、所定数100以上である旨を判定する。次いで、検出手段111は、最初の警戒記事が投稿されてから30〜50分の期間内に投稿された記事の中から否定記事を検索する。検出手段111は、当該期間内に投稿された記事の中から警戒用語リスト122に登録されている「○×製油所」および「火災」の警戒用語と、否定語リスト123に登録されている「うそ」または「デマ」等の否定語を含む記事を検索する。次いで、検出手段111は、検索された否定記事の投稿数57を算出する。
【0037】
判定手段112は、否定記事の投稿数が57であることを確認し、所定数50以上である旨を判定する。次いで、判定手段112は、当該判定結果に基づき警戒記事に虚偽情報が含まれている旨の判定をする。以上のようにして、情報判定装置100は、警戒記事に虚偽情報が含まれるか否かを判定する。
【0038】
次いで、提供手段113は、投稿サイトに「「○×製油所で大規模な火災が発生した模様。みんなに告知してください。」は、虚偽情報の可能性が高いと思われます。」という内容の告知記事を投稿する。告知記事は「「○×製油所で大規模な火災が発生した模様。みんなに告知してください。」といった内容の投稿ないし再投稿については、これを否定する投稿が増えていますので、内容の真偽について慎重に判断してください。」その他の表現でもよい。図9は、投稿サイトに告知記事が投稿されたときの表示の一例を示した図である。また、提供手段113は、虚偽情報が含まれていると判定された警戒記事にマスクをかけてユーザから見えないようにしてもよい。
【0039】
すなわち、情報判定手段100は、以下のようにして虚偽情報を含む記事を告知する。まず、投稿サイトに投稿された各記事が投稿DB121に記憶される。次に、検出手段111は、記憶手段120の投稿DB121に記憶されている各記事に共通して含まれる警戒用語を抽出する。検出手段111は、警戒記事が最初に投稿されてから所定時間内に投稿された記事の中から警戒用語を含む記事を検索し、警戒記事の投稿数を算出する。検出手段111は、警戒記事が所定数以上投稿されていた場合、当該警戒記事に対応する否定記事を、所定期間内に投稿された記事の中から検索する。次いで、判定手段112は、否定記事の投稿数が所定数以上であった場合、当該警戒記事に虚偽情報が含まれている旨の判定をする。次に、提供手段113は、判定手段112により警戒記事に虚偽情報が含まれている旨の判定がなされた場合、警戒記事に虚偽情報が含まれている旨の情報を提供する。
【0040】
次に、虚偽情報を含む記事が増加するピークと、対応する否定記事が増加するピークとの関係について説明する。図8は、虚偽情報を含む記事が掲載された場合の投稿数の推移を示したグラフを示した図である。図8に示したように、虚偽情報を含む記事が掲載されると、投稿数は、当該記事の再投稿や、当該記事を基に作成された記事の投稿により時間Aで一度目の投稿数のピークが発生する。そして、一定時間経過すると、投稿数は、正しい知見を有するユーザにより否定記事が投稿されたり、当該否定記事が再投稿されたりすることにより時間Bで二度目の投稿数のピークが発生する。すなわち、虚偽情報を含む記事が掲載された場合は、虚偽情報を含む記事が原因となって発生した投稿数の一次ピークが表れた後に、二次ピークが発生し、この二次ピークにおいて多くの否定記事が投稿されるという現象が見られる。
【0041】
情報判定装置100は、上記現象を勘案して上述とは別の基準で警戒記事に虚偽情報が含まれるか否かを判定してもよい。そのために検出手段111は、警戒記事が複数投稿されたことにより、記事の投稿数が増加する第一のピークが出現した時刻を検出する。次いで、検出手段111は、上記現象に基づき予め設定されている所定時間を、第一のピークが出現した時刻に加え、第二のピークが出現する時刻を算出する。次いで、検出手段111は、第一のピークにおける警戒記事の投稿数と、第二のピークにおける否定記事の投稿数とを算出する。
【0042】
次いで、判定手段112は、第一のピークにおける警戒記事の投稿数と第二のピークにおける否定記事の投稿数の比率が所定値以上であるか否かを判定する。判定手段112は、当該比率が所定値以上であった場合、警戒記事に虚偽情報が含まれている旨の判定をする。具体的には、判定手段112は、[(二次ピークの投稿数)/(一次ピークの投稿数)]が所定値以上である場合に警戒記事に虚偽情報が含まれている旨の判定をする。これにより、検出手段111は、否定記事を精度よく検出することができる。
【0043】
なお、昨今では、警戒用語のことを「バズワード」と呼ぶことがある。「バズワード」とは、本来、具体性や明確な定義のない曖昧なキーワードを意味するが、投稿サイトのユーザ間においては真偽が明確でない話題に使用されるキーワードを意味することがある。本実施形態における警戒用語は、後者の「バズワード」の意味と同義である。
【0044】
[5.効果]
以上のように、本発明の第一の態様は、投稿された記事を記憶する記憶手段120と、記憶手段120に記憶された記事から警戒記事に対して所定の否定語を含む記事を検出する検出手段111と、検出手段111による検出結果に基づいて、警戒記事に虚偽情報が含まれるか否かを判定する判定手段112と、判定手段112による判定結果に基づいて、警戒記事に虚偽情報が含まれる旨の情報を提供する提供手段113と、を有することを特徴とする。すなわち、投稿された記事の内容を否定する記事が検出され、当該検出結果に基づいて投稿された記事に虚偽情報が含まれるか否かが判定され、虚偽情報が含まれると判定された場合、投稿された記事に虚偽情報が含まれる旨の情報をユーザ等に提供する。これにより、ユーザは投稿された記事の情報の信憑性を確認することができるようになり、その結果、虚偽情報が流布されることによる社会的混乱の招来を事前に防ぐことができる。
【0045】
本発明の第二の態様は、判定手段112は、警戒記事に対して所定の否定語を含む記事に係る投稿数の急増を検出すると、警戒記事に虚偽情報が含まれる旨を判定することを特徴とする。例えば、否定語を含む記事が所定数以上検出された場合、もしくは、投稿サイトにおける所定時間帯の平均投稿数と否定記事の投稿数との比率が所定値以上となった場合等に投稿数の急増を検出する。これにより、投稿された記事に虚偽情報が含まれるか否かを判定するための基準を明確に設定できる。
【0046】
本発明の第三の態様は、判定手段112は、記憶された記事のうち、警戒記事に対して所定の否定語を含まないものと、含むものとの比率に基づき、警戒記事に虚偽情報が含まれるか否かを判定することを特徴とする。これにより、投稿された記事に虚偽情報が含まれるか否かを判定するための基準を明確に設定できる。
【0047】
本発明の第四の態様は、判定手段112は、警戒記事を含む記事が複数投稿されたことにより、記事の投稿数が増加する第一のピークにおける投稿数と、警戒記事に対して所定の否定語を含む記事が複数投稿されたことにより、記事の投稿数が増加する第二のピークにおける投稿数と、の比率に基づき警戒記事に虚偽情報が含まれるか否かを判定することを特徴とする。虚偽情報を含む記事が投稿されると、当該記事が再投稿されることにより第一のピークが形成される。その後、それを否定する記事が投稿されることにより第二のピークが形成されるという現象が見られる。この第二のピークが発生する期間内に否定記事を検出することにより、否定記事を精度よく検出することができる。
【0048】
本発明の第五の態様は、検出手段111は、第一のピークが出現した時刻に投稿された記事に共通して含まれる警戒用語と、所定の否定語とを検索し、該警戒用語と所定の否定語とを含む記事を検出することを特徴とする。すなわち、虚偽情報を含むか否かの判定対象となっている複数の記事に共通して含まれる警戒用語を検出し、否定記事を検出する際に、警戒用語と所定の否定語とを含む記事を検索する。これにより、否定記事を精度よく検出することができる。
【0049】
本発明の第六の態様は、所定の否定語を含む記事に係る投稿数に関する情報を提供することを特徴とする。これにより、投稿サイトを利用するユーザは、投稿または再投稿された記事の信憑性の程度を知ることができる。
【0050】
本発明の第七の態様は、記憶手段120に所定ユーザのドメイン名またはアカウントがさらに記憶されており、該所定ユーザの記事を特定する特定手段をさらに有し、判定手段112は、特定手段が所定ユーザの記事を特定した場合、該記事の投稿数に重み付けをし、該重み付けされた投稿数を、所定の否定語を含む記事に係る投稿数に反映することを特徴とする。例えば、投稿サイトにおいて虚偽情報が流布された場合に民間人の混乱を防ぐため、行政機関、非営利団体、所定の法人等の所定ユーザが、虚偽を含む記事を否定する記事を投稿し、民間人に投稿された記事に虚偽が含まれる旨を告知することがある。このような場合において、所定のユーザによる投稿に重み付けし、これを否定記事の投稿数に反映する。そして、提供手段113は、否定記事の投稿数は警戒記事の付記部分等に表示する。これにより、ユーザは記事の信憑性をより正確に知ることができる。
【0051】
なお、上記第六の態様および第七の態様に関する詳細は次の実施例で説明する。
【0052】
[実施例1に関連する実施形態]
また、警戒用語リスト122は、地震、火災等の各種災害等の事件が発生した際にオペレータが警戒用語を入力することにより作成してもよい。また、情報判定装置100は、ニュースサイト等のサイトで使用されているタグやキーワードを抽出して警戒用語リスト122に登録してもよい。
【0053】
また、提供手段113は、警戒記事に虚偽情報が含まれている旨の告知記事を投稿する場合、投稿検索サイトにおいて当該告知記事を常に先頭に表示するようにしてもよい。また、提供手段113は、警戒記事に相当する記事に係る文字を赤色、否定記事に相当する記事に係る文字を青色、告知記事に係る文字を黄色にする等して色分けして表示してもよい。これにより、ユーザが告知記事を見逃すのを防ぐことができる。
【実施例2】
【0054】
実施例1に係る実施形態によれば、投稿サイトに告知記事を掲載することにより、ユーザに信憑性の低い記事を告知できる。しかし、ユーザは投稿された記事の信憑性が低い旨の通知を受けたとき、その記事の信頼性の程度を確認したいと考えることが多い。また、信憑性が低い根拠となる情報を探すことも多い。
【0055】
そこで、本実施形態に係る情報提供装置は、虚偽情報が含まれている旨の判定をした記事に、対応する否定記事の投稿数を付記してもよい。図10は、虚偽情報が含まれる旨の判定をした記事の付記部分に否定記事の投稿数を表示した様子を示した図である。図10に示したように、最下段にある過去に投稿された警戒記事と、その上段にある警戒記事を再投稿した記事に「打消 15件」という表示を付記する。この表示は否定記事の投稿数を示す。これにより、ユーザは過去に投稿された記事の信頼性を確認することができる。
【0056】
図11は、実施例2に係る情報判定装置300の構成を示す機能ブロック図である。情報判定装置300の構成は、抽出手段314および作成手段315以外、実施例1の情報判定装置100と同一の構成である。以下においては抽出手段314および作成手段315以外の説明を省略する。なお、実施例1の情報判定装置100と同一の構成には、下2桁を同一番号を付した。
【0057】
検出手段311、判定手段312、および提供手段313により警戒記事に虚偽情報が含まれるか否かの判定および告知記事の投稿がなされた後、抽出手段314および作成手段315は、判定結果を表示する処理をおこなう。以下、抽出手段314および作成手段315の具体的な処理について説明する。
【0058】
抽出手段314は、図7においてID1の記事の警戒フラグが「1」であることを確認し、ID1の記事が警戒記事であることを確認する。次いで、抽出手段314は、否定IDの部分を参照し、ID17の記事およびID21の記事がID1の記事に対応する否定記事であることを確認する。そして、抽出手段314は、ID17の記事およびID21の記事を抽出する。
【0059】
次いで、作成手段315は、抽出手段314により抽出された否定記事を列挙したページを作成する。図12は、否定記事を列挙したウェブページ210の一例を示した図である。作成手段315は、図12のようなウェブページ210を作成する。次いで、作成手段315は、図10の投稿検索サイト200のウェブページ200を、否定記事を列挙したウェブページ210にリンクさせる。例えば、図10に係るウェブページ200の「打消 15件」と記載された部分をユーザがクリックした際、投稿検索サイトにおいて図12の否定記事を列挙したウェブページ210を表示するようにしてもよい。
【0060】
すなわち、抽出手段314は、投稿DB321から警戒記事に対応する否定記事を抽出する。次いで、作成手段315は、抽出手段314により抽出された否定記事を列挙したページを作成する。次いで作成手段315は、作成したページへのリンクを作成する。これにより、ユーザは警戒記事に対応する否定記事の内容を確認することができ、警戒記事の信憑性が低い根拠となる情報を得ることができる。
【0061】
[6.実施例2に関連する実施形態]
また、情報判定装置300は、記憶手段320に所定ユーザのドメイン名またはアカウントを記憶しておき、判定手段112は、そのユーザの記事を特定した場合、否定記事の投稿数に重み付けし、その重み付けされた投稿数を否定記事の投稿数に反映してもよい。
例えば、判定手段312は、行政機関、非営利団体、所定の法人等が否定記事を投稿した場合、否定記事の投稿数に100を加算する。提供手段313は、警戒記事の付記部分に「打消 115件」と表示する。
【0062】
また、提供手段313は、図10において「打消 15件」と記載された部分の後段に「重要機関からの投稿記事あり」と表示してもよい。また、作成手段315は、図12の否定記事を列挙したウェブページにおいて行政機関、非営利団体、所定の法人等の否定記事の投稿が常にトップに掲載されるように表示してもよい。
【0063】
なお、情報判定装置300は、投稿サイトまたは投稿検索サイトにおいて、行政機関、非営利団体、所定の法人等の所定ユーザ専用のアカウントを設けておき、専用のアカウントでログインしたことにより、所定ユーザを特定してもよい。また、情報判定装置300は、記事に付記されているドメイン名から所定のユーザを特定してもよい。
【0064】
なお、上記各実施形態は例示に過ぎず、本発明は、以下に例示するものやそれ以外の他の実施態様も含むものである。例えば、本発明において、各部などの要素は、コンピュータの演算制御部に限らず、ワイヤードロジック等に基づく電子回路や、今後登場する非ノイマン型等の情報処理機構で実現してもよい。また、各構成図、データの図、フローチャートの図などは例示に過ぎず、各要素の有無、その順序や具体的内容などは適宜変更可能である。
【0065】
例えば、本装置を複数のサーバ装置で実現したり、各端末を含めて本発明のシステムとして把握したり、機能によっては外部のプラットフォーム等をAPI(アプリケーション・プログラム・インタフェース)やネットワークコンピューティングなどで呼び出して実現するなど、構成は柔軟に変更できる。
【0066】
また、特許請求の範囲に記載した「手段」は、「部(section、module、unit)」や「回路」などに読み替えることができる。例えば、検出手段は、検出手段や検出回路に読み替えることができる。
【0067】
[7.情報判定装置のハードウェア構成]
実施例1または実施例2の実施形態における情報判定装置は、例えば図13に示すような構成のコンピュータ400によって実現される。図13は、情報判定装置の機能を実現するコンピュータ400の一例を示すハードウェア構成図である。コンピュータ400は、CPU(Central Processing Unit)401、RAM(Random Access Memory)402、ROM(Read Only Memory)403、HDD(Hard Disk Drive)404、通信インターフェイス(I/F)405、入出力インターフェイス(I/F)406、およびメディアインターフェイス(I/F)407を備える。
【0068】
CPU401は、ROM403またはHDD404に格納されたプログラムに基づいて動作し、各部の制御を行う。ROM403は、コンピュータ400の起動時にCPU401によって実行されるブートプログラムや、コンピュータ400のハードウェアに依存するプログラム等を格納する。
【0069】
HDD404は、CPU401によって実行されるプログラムおよび当該プログラムによって使用されるデータ等を格納する。通信インターフェイス405は、通信回線413を介して他の機器からデータを受信してCPU401へ送り、CPU401が生成したデータを、通信回線413を介して他の機器へ送信する。
【0070】
CPU401は、入出力インターフェイス406を介して、ディスプレイやプリンタ等の出力装置、および、キーボードやマウス等の入力装置を制御する。CPU401は、入出力インターフェイス406を介して、入力装置からデータを取得する。また、CPU401は、生成したデータを、入出力インターフェイス406を介して出力装置へ出力する。
【0071】
メディアインターフェイス407は、記録媒体408に格納されたプログラムまたはデータを読み取り、RAM402を介してCPU401に提供する。CPU401は、当該プログラムを、メディアインターフェイス407を介して記録媒体408からRAM402上にロードし、ロードしたプログラムを実行する。記録媒体408は、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
【0072】
コンピュータ400が実施例1の実施形態における情報判定装置100として機能する場合、コンピュータ400のCPU401は、RAM402上にロードされたプログラムを実行することにより、検出手段111、判定手段112、および提供手段113の各機能を実現する。また、HDD404には、投稿DB121内のデータ、警戒用語リスト122、および否定語リスト123が格納される。
【0073】
コンピュータ400が実施例2の実施形態における情報判定装置100として機能する場合、コンピュータ400のCPU401は、RAM402上にロードされたプログラムを実行することにより、検出手段311、判定手段312、提供手段313、抽出手段314、および作成手段315の各機能を実現する。また、HDD404には、投稿DB321内のデータ、警戒用語リスト322、および否定語リスト323が格納される。
【符号の説明】
【0074】
100 情報判定装置
101 I/F
110 制御手段
111 検出手段
112 判定手段
113 提供手段
120 記憶手段
121 投稿DB
122 警戒用語リスト
123 否定語リスト
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13