(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024173234
(43)【公開日】2024-12-12
(54)【発明の名称】データ処理プログラム、データ処理装置、及びデータ処理システム
(51)【国際特許分類】
G06F 16/907 20190101AFI20241205BHJP
【FI】
G06F16/907
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2023091523
(22)【出願日】2023-06-02
(71)【出願人】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】100087480
【弁理士】
【氏名又は名称】片山 修平
(72)【発明者】
【氏名】三宅 康太
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175FB02
5B175HA01
(57)【要約】
【課題】お墨付きグラフの生成時間を短縮するデータ処理プログラム、データ処理装置、及びデータ処理システムを提供することを目的とする。
【解決手段】データ処理プログラムは、インターネット上のデータの確からしさにお墨付きを与えるお墨付きデータのつながりをグラフ化したお墨付きグラフの生成が要求された場合に、前記お墨付きグラフの生成を要求する前記データの閲覧者の端末から、前記閲覧者が信頼する前記お墨付きデータの発行体を定義したリストを取得し、前記リストに基づいて決定した前記お墨付きグラフの一部又は全部をキャッシュする、処理をコンピュータに実行させる。
【選択図】
図14
【特許請求の範囲】
【請求項1】
インターネット上のデータの確からしさにお墨付きを与えるお墨付きデータのつながりをグラフ化したお墨付きグラフの生成が要求された場合に、前記お墨付きグラフの生成を要求する前記データの閲覧者の端末から、前記閲覧者が信頼する前記お墨付きデータの発行体を定義したリストを取得し、
前記リストに基づいて決定した前記お墨付きグラフの一部又は全部をキャッシュする、
処理をコンピュータに実行させるためのデータ処理プログラム。
【請求項2】
前記リストに出現する前記発行体の出現頻度の統計を表す統計情報を生成し、
前記統計情報に基づいて決定した前記お墨付きグラフの一部をキャッシュする、
処理を前記コンピュータに実行させることを特徴とする請求項1に記載のデータ処理プログラム。
【請求項3】
前記出現頻度と所定の重みとに基づいて、前記発行体に該発行体の信頼度を表す得点を付与し、
前記得点の大きさに基づいて、設定数の前記発行体を含む前記お墨付きグラフをキャッシュする、
処理を前記コンピュータに実行させることを特徴とする請求項2に記載のデータ処理プログラム。
【請求項4】
前記閲覧者の前記端末から取得した前記リストにおける前記出現頻度と第1の重みとに基づいて、前記発行体に該発行体の信頼度を表す第1の得点を付与し、
分野が共通する前記データへの前記お墨付きグラフに対する前記リストにおける前記出現頻度と第2の重みとに基づいて、前記発行体に前記信頼度を表す第2の得点を付与し、
前記第1の得点と前記第2の得点の合計得点を算出し、
前記合計得点の大きさに基づいて、設定数の前記発行体を含む前記お墨付きグラフをキャッシュする、
処理を前記コンピュータに実行させることを特徴とする請求項2に記載のデータ処理プログラム。
【請求項5】
キャッシュした前記お墨付きグラフに基づいて、前記お墨付きデータを並列的に収集する、
処理を前記コンピュータに実行させることを特徴とする請求項1又は2に記載のデータ処理プログラム。
【請求項6】
インターネット上のデータの確からしさにお墨付きを与えるお墨付きデータのつながりをグラフ化したお墨付きグラフの生成が要求された場合に、前記お墨付きグラフの生成を要求する前記データの閲覧者の端末から、前記閲覧者が信頼する前記お墨付きデータの発行体を定義したリストを取得する取得部と、
前記リストに基づいて決定した前記お墨付きグラフの一部又は全部をキャッシュするキャッシュ部と、
を有するデータ処理装置。
【請求項7】
インターネット上のデータの確からしさにお墨付きを与えるお墨付きデータのつながりをグラフ化したお墨付きグラフの生成を要求する前記データの閲覧者の端末と、
前記お墨付きグラフの生成が要求された場合に、前記端末から、前記閲覧者が信頼する前記お墨付きデータの発行体を定義したリストを取得し、前記リストに基づいて決定した前記お墨付きグラフの一部又は全部をキャッシュするデータ処理装置と、
を有するデータ処理システム。
【発明の詳細な説明】
【技術分野】
【0001】
本件は、データ処理プログラム、データ処理装置、及びデータ処理システムに関する。
【背景技術】
【0002】
インターネット上に発信(例えば投稿など)されたデータの中には、正しい内容のデータもあれば、いわゆる偽情報といった誤った内容のデータもある。このような偽情報に対する対策として、Trustable Internetと呼ばれるアーキテクチャが提案されている(例えば非特許文献1参照)。
【0003】
Trustable Internetでは、インターネット上のデータの確からしさにお墨付きを与えるお墨付きデータ(Endorsement Data)が利用される。お墨付きデータは、例えばお墨付きデータを発行した発行体の情報を含んでいる。発行体は個人や公的機関の場合もあれば、モノ(例えばセンサなど)の場合もある。Trustable Internetでは、インターネット上のデータにお墨付きデータが関連付けられることにより、データが表す内容の信頼性が高められている。
【0004】
また、Trustable Internetでは、データを起点とし、そのデータに関連付けられたお墨付きデータがどのような繋がりを有するかを有向グラフで表現したお墨付きグラフ(Endorsement Graph)が提供される。お墨付きグラフはTrustable Internetで利用されるサーバによってデータを閲覧する閲覧者の端末に提供される。閲覧者はサーバから提供されるお墨付きグラフを端末で確認することにより、お墨付きデータの繋がりを閲覧することができる。なお、有向グラフを利用するデータ処理システムには種々の種類が知られている(例えば特許文献1乃至3参照)。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2009-043258号公報
【特許文献2】特表2023-503016号公報
【特許文献3】米国特許出願公開第2015/0149484号明細書
【非特許文献】
【0006】
【非特許文献1】TIAL(Trusted Internet Architecture Lab), “Trustable Internet”, [online], 2022年10月13日, [令和5年4月18日検索], インターネット<URL:https://tial.sfc.keio.ac.jp/blob/Trustable_InternetホワイトペーパーV1.0.pdf>
【発明の概要】
【発明が解決しようとする課題】
【0007】
ここで、お墨付きグラフは閲覧者の端末からサーバに生成が要求された場合に、閲覧者の端末に提供される。例えば、閲覧者が端末を介してサーバに所定のデータに関連付けられたお墨付きグラフの生成を要求すると、サーバは所定のデータに関連付けられたお墨付きデータを収集してお墨付きグラフを生成し、閲覧者の端末に提供する。
【0008】
しかしながら、上述したように、お墨付きグラフはデータに関連付けられたお墨付きデータがどのような繋がりを有しているかを表現した有向グラフである。このため、サーバはデータに直接的に関連付けられた第1次のお墨付きデータを収集すると、次に、データに間接的に(言い換えれば、第1次のお墨付きデータに直接的に)関連付けられた第2次のお墨付きデータを収集する。このように、サーバはお墨付きデータを再帰的に収集する。そして、サーバは最終次のお墨付きデータを収集し終えることにより、お墨付きグラフを生成して閲覧者の端末に提供する。
【0009】
このように、サーバはお墨付きデータを再帰的に収集し、最終次のお墨付きデータを収集し終えてからお墨付きグラフを生成するため、お墨付きグラフの生成に時間を要するという課題がある。例えば、お墨付きデータを管理するサーバが世界中に点在していれば、1秒を超える通信遅延が発生する可能性があり、閲覧者にお墨付きグラフを迅速に提供できないおそれがある。
【0010】
そこで、1つの側面では、お墨付きグラフの生成時間を短縮するデータ処理プログラム、データ処理装置、及びデータ処理システムを提供することを目的とする。
【課題を解決するための手段】
【0011】
1つの実施態様では、データ処理プログラムは、インターネット上のデータの確からしさにお墨付きを与えるお墨付きデータのつながりをグラフ化したお墨付きグラフの生成が要求された場合に、前記お墨付きグラフの生成を要求する前記データの閲覧者の端末から、前記閲覧者が信頼する前記お墨付きデータの発行体を定義したリストを取得し、前記リストに基づいて決定した前記お墨付きグラフの一部又は全部をキャッシュする、処理をコンピュータに実行させる。
【発明の効果】
【0012】
お墨付きグラフの生成時間を短縮することができる。
【図面の簡単な説明】
【0013】
【
図2】データ処理サーバのハードウェア構成の一例である。
【
図4】お墨付きデータが有するメタデータのキャッシュ例を説明する図である。
【
図5】メタデータに基づくお墨付きグラフの一例である。
【
図6】第1実施形態に係るデータ処理サーバの動作の一例を示すフローチャートである。
【
図7】信頼リストを用いたお墨付きデータの並列的な要求の一例を説明する図である。
【
図8】第1実施形態に係るデータ処理サーバの動作の他の一例を示すフローチャートである。
【
図9】キャッシュ更新時のお墨付きデータの並列的な要求の一例を説明する図である。
【
図10】キャッシュ更新時のお墨付きデータの並列的な収集の一例を説明する図である。
【
図11】再帰処理の一例を示すフローチャートである。
【
図12】第2実施形態に係るデータ処理サーバの動作の一例を示すフローチャートである。
【
図13】(a)は閲覧者の信頼リストに基づく統計情報の一例である。(b)は分野を限定した統計情報の一例である。
【
図14】お墨付きグラフの一部のキャッシュ例を説明する図である。
【
図15】第2実施形態に係るデータ処理サーバの動作の他の一例を示すフローチャートである。
【発明を実施するための形態】
【0014】
以下、本件を実施するための形態について図面を参照して説明する。
【0015】
(第1実施形態)
図1に示すように、データ処理システムSTは、複数の端末装置10,20,30,40と、お墨付きシステム50とを含んでいる。お墨付きシステム50は、データ処理サーバ100と、複数のデータ管理サーバ210,220,230とを含むコンピュータシステムである。データ処理サーバ100はデータ処理装置の一例である。データ処理サーバ100と複数のデータ管理サーバ210,220,230は通信ネットワークNW1を介して接続されている。通信ネットワークNW1は例えばLAN(Local Area Network)やWAN(Wide Area Network)を含んでいる。通信ネットワークNW1は例えばインターネットを含んでいてもよい。
【0016】
また、複数の端末装置10,20,30,40とお墨付きシステム50は通信ネットワークNW2及び携帯基地局BSを介して接続されている。通信ネットワークNW2は例えばインターネットを含んでいる。なお、端末装置10,20,30,40は携帯端末を含んでいる。携帯端末は、スマートフォンであってもよいし、タブレット端末であってもよいし、PC(Personal Computer)であってもよい。
【0017】
端末装置10はデータの投稿者P1によって操作される。例えば、投稿者P1が端末装置10を操作して、政治のニュース記事に対するデータや河川氾濫を含む画像のデータを投稿データとして端末装置10から発信する。これにより、投稿データは携帯基地局BSを介して通信ネットワークNW2に到達する。図示しないが、通信ネットワークNW2には投稿データを通信ネットワークNW2上に公開する公開サーバが接続されている。このため、投稿データは公開サーバによって通信ネットワークNW2上に公開される。なお、公開サーバは例えばSNS(Social Networking Service)を提供するサーバによって実現することができる。
【0018】
端末装置20,30は投稿データの確からしさにお墨付きを与えるお墨付きデータの発行者P2,P3によってそれぞれ操作される。発行者P2,P3はお墨付きデータの発行体の一例である。
図1では、発行者P2,P3の一例として個人が示されているが、法人(例えば教育機関など)や、公的機関(国家や自治体など)、これらに所属する担当者であってもよい。お墨付きデータの発行体は画像センサを含む監視カメラなどであってもよい。
【0019】
例えば、発行者P2は端末装置20を操作して、第1次のお墨付きデータを端末装置20から発信する。第1次のお墨付きデータは、通信ネットワークNW2上に公開された投稿データに直接的に関連付けられる。第1次のお墨付きデータは携帯基地局BS及び通信ネットワークNW2を介して通信ネットワークNW1に到達し、例えばデータ管理サーバ210に格納される。これにより、データ管理サーバ210は第1次のお墨付きデータを管理する。
【0020】
一方、発行者P3は端末装置30を操作して、第2次のお墨付きデータを端末装置30から発信する。第2次のお墨付きデータは投稿データに間接的に関連付けられる。より詳しくは、第2次のお墨付きデータは、第1次のお墨付きデータに直接的に関連付けられることにより、投稿データに間接的に関連付けられる。
【0021】
第2次のお墨付きデータは携帯基地局BS及び通信ネットワークNW2を介して通信ネットワークNW1に到達し、例えばデータ管理サーバ220に格納される。これにより、データ管理サーバ220は第2次のお墨付きデータを管理する。このように、第1次のお墨付きデータと第2次のお墨付きデータはデータ管理サーバ210,220に分散して個別的に管理される。図示しないが、第3次から最終次のお墨付きデータについても同様に管理される。
【0022】
端末装置40は投稿データを閲覧する閲覧者P4によって操作される。閲覧者P4は、投稿データの確からしさを確認する場合、端末装置40を操作して、お墨付きグラフの生成をデータ処理サーバ100に要求する。お墨付きグラフはお墨付きデータのつながりをグラフ化した有向グラフである。お墨付きデータが有向グラフのエッジに相当し、お墨付きデータの発行体及び被発行体が有向グラフのノードに相当する。
【0023】
端末装置40は閲覧者P4から操作されると、お墨付きグラフのグラフ生成要求をデータ処理サーバ100に送信する。このグラフ生成要求は、お墨付きデータが発行される投稿データの識別子をED(Endorsement Data)被発行体ID(Identifier)(
図1では単に被発行体IDと表記)として含んでいる。なお、本実施形態に係るIDはDID(Decentralized ID:分散型識別子)を含んでいる。
【0024】
詳細は後述するが、データ処理サーバ100はグラフ生成要求を受信すると、閲覧者P4が信頼するお墨付きデータの発行者P2,P3などを定義した信頼リストを取得する。信頼リストでは、発行者P2,P3などがED発行体IDにより定義されている。データ処理サーバ100は、信頼リストを取得すると、信頼リストと、データ処理サーバ100が管理するお墨付きグラフの既存のキャッシュ状況とを利用し、データ管理サーバ210,220,230の少なくとも1つからお墨付きデータを収集する。具体的には、データ処理サーバ100はお墨付きデータを再帰的ではなく並列的に収集する。
【0025】
データ処理サーバ100は、お墨付きデータを収集すると、収集したお墨付きデータに基づいて、お墨付きグラフを生成し、生成したお墨付きグラフを送信によって端末装置40に提供する。これにより、閲覧者P4は、端末装置40を介して、投稿データの確からしさをお墨付きグラフにより確認することができる。このように、データ処理サーバ100は、お墨付きグラフの既存のキャッシュ状況を単独で利用して、又は信頼リストと共に利用して、お墨付きデータを再帰的ではなく並列的に収集する。これにより、お墨付きグラフの生成時間を短縮することができる。
【0026】
次に、
図2を参照して、データ処理サーバ100のハードウェア構成について説明する。なお、上述した端末装置10,20,30,40やデータ管理サーバ210,220,230は基本的にデータ処理サーバ100と同様のハードウェア構成であるため、詳細な説明は省略する。
【0027】
データ処理サーバ100は、プロセッサとしてのCPU(Central Processing Unit)100Aと、メモリとしてのRAM(Random Access Memory)100B及びROM(Read Only Memory)100Cを含んでいる。RAM100BはDRAM(Dynamic RAM)とSRAM(Static RAM)を含んでいる。SRAMはCPU100Aに含まれていてもよい。データ処理サーバ100は、ネットワークI/F(インタフェース)100D及びHDD(Hard Disk Drive)100Eを含んでいる。HDD(Hard Disk Drive)100Eに代えて、SSD(Solid State Drive)を採用してもよい。
【0028】
データ処理サーバ100は、必要に応じて、入力I/F100F、出力I/F100G、入出力I/F100H、ドライブ装置100Iの少なくとも1つを含んでいてもよい。CPU100Aからドライブ装置100Iまでは、内部バス100Jによって互いに接続されている。すなわち、データ処理サーバ100はコンピュータによって実現することができる。
【0029】
入力I/F100Fには入力装置710が接続される。入力装置710としては例えばキーボードやマウス、タッチパネルなどがある。出力I/F100Gには表示装置720が接続される。表示装置720としては例えば液晶ディスプレイなどがある。入出力I/F100Hには半導体メモリ730が接続される。半導体メモリ730としては、例えばUSB(Universal Serial Bus)メモリやフラッシュメモリなどがある。入出力I/F100Hは半導体メモリ730に記憶されたデータ処理プログラムを読み取る。入力I/F100F及び入出力I/F100Hは例えばUSBポートを備えている。出力I/F100Gは例えばディスプレイポートを備えている。
【0030】
ドライブ装置100Iには可搬型記録媒体740が挿入される。可搬型記録媒体740としては、例えばCD(Compact Disc)-ROM、DVD(Digital Versatile Disc)といったリムーバブルディスクがある。ドライブ装置100Iは可搬型記録媒体740に記録されたデータ処理プログラムを読み込む。ネットワークI/F100Dは例えばLANポートや通信回路などを備えている。通信回路は有線通信回路と無線通信回路のいずれか一方又は両方を含んでいる。ネットワークI/F100Dは通信ネットワークNW1と接続されている。
【0031】
RAM100BにはROM100C、HDD100E、半導体メモリ730の少なくとも1つに記憶されたデータ処理プログラムがCPU100Aによって一時的に格納される。RAM100Bには可搬型記録媒体740に記録されたデータ処理プログラムがCPU100Aによって一時的に格納される。格納されたデータ処理プログラムをCPU100Aが実行することにより、CPU100Aは後述する各種の機能を実現し、また、後述する各種の処理を含むデータ処理方法を実行する。なお、データ処理プログラムは後述するフローチャートに応じたものとすればよい。
【0032】
図3乃至
図5を参照して、データ処理サーバ100の機能構成について説明する。なお、
図3ではデータ処理サーバ100の機能の要部が示されている。
【0033】
図3に示すように、データ処理サーバ100は記憶部110、処理部120、及び通信部130を備えている。記憶部110は上述したRAM100BとHDD100Eのいずれか一方又は両方によって実現することができる。処理部120は上述したCPU100Aによって実現することができる。通信部130は上述したネットワークI/F100Dによって実現することができる。記憶部110、処理部120、及び通信部130は互いに接続されている。記憶部110は、データ記憶部111を含んでいる。処理部120は、取得部121、収集部122、生成部123、及び分析部124を含んでいる。生成部123はキャッシュ部の一例である。
【0034】
データ記憶部111は、例えばSRAMによって実現されるキャッシュメモリであって、お墨付きデータが有するメタデータの一部を記憶する。具体的には、
図4に示すように、お墨付きデータ60が収集されると、データ記憶部111は、お墨付きデータ60に含まれるメタデータ61の一部を記憶する。例えば、データ記憶部111は、メタデータ61の一部であるED発行体ID「専門家」とED被発行体ID「政治ニュース記事」とを関連付けて記憶する。お墨付きデータ60はED発行体ID「専門家」とED被発行体ID「政治ニュース記事」とを一方向的に関連付けているため、データ記憶部111はED被発行体ID「政治ニュース記事」とED発行体ID「専門家」をグラフ化して記憶することができる。ED被発行体ID「政治ニュース記事」とED発行体ID「専門家」をグラフ化することにより、お墨付きグラフG1の骨格構造を実現することができる。
【0035】
また、データ記憶部111は、メタデータ61の一部であるED格納URL「http://abc.def…」をお墨付きグラフG1の骨格構造に関連付けて記憶する。このように、データ記憶部111は、お墨付きデータ60のメタデータ61の3つを記憶し、メタデータ61の2つを利用してお墨付きグラフG1を記憶する。お墨付きグラフG1にED格納URLが関連付けられているため、ED格納URLにより、お墨付きデータが格納されているデータ管理サーバ210,220,230のいずれかが一意に特定可能である。
【0036】
なお、お墨付きデータ60を含む様々なお墨付きデータが収集されると、例えば、
図5に示すように、データ記憶部111はお墨付きグラフG2を記憶する。
図5では、ED格納URLは省略されて示されている。お墨付きグラフG2では、ED被発行体ID「政治ニュース記事」にED発行体ID「専門家」が直接的に関連付けられている。そして、ED発行体ID「専門家」には、ED発行体ID「国内大学」が直接的に関連付けられている。言い換えれば、ED被発行体ID「政治ニュース記事」には、ED発行体ID「専門家」を介して、ED発行体ID「国内大学」が間接的に関連付けられている。ED発行体ID「専門家」とED発行体ID「国内大学」の関係では、ED発行体ID「専門家」はED被発行体IDに該当し、ED発行体ID「国内大学」はそのままED発行体IDに該当する。
【0037】
このように、お墨付きデータが有するメタデータの一部を利用することにより、投稿データに第1次のお墨付きデータや第2次のお墨付きデータなどが直接的に又は間接的に関連付けられる。投稿データに第1次のお墨付きデータや第2次のお墨付きデータなどが多次的に関連付けられることにより、お墨付きグラフG2が実現される。
【0038】
図3に戻り、取得部121はED被発行体IDを含むお墨付きグラフのグラフ生成要求を端末装置40から受信する。取得部121はグラフ生成要求を受信すると、端末装置40に信頼リストの送信を要求することにより、信頼リストを取得する。収集部122は、取得部121が信頼リストを取得すると、お墨付きデータを収集する。詳細は後述するが、収集部122は、取得部121が信頼リストを取得すると、まず、データ記憶部111が記憶するお墨付きグラフのキャッシュ状況を確認し、グラフ生成要求に含まれるED被発行体IDを含むお墨付きグラフを特定する。収集部122は、お墨付きグラフを特定すると、信頼リストに含まれるED発行体IDが直接的に又は間接的に一方向で関連付けられたED発行体IDを特定する。収集部122は、ED発行体IDを特定すると、特定したED発行体IDを含むお墨付きデータをデータ管理サーバ210,220,230の少なくとも1つから並列的に収集する。
【0039】
生成部123は、収集部122が収集したお墨付きデータに基づいて、お墨付きグラフを生成する。お墨付きデータにはED被発行体IDやED発行体IDが含まれているため、ED被発行体IDとED発行体IDとの関係を利用することにより、生成部123はお墨付きグラフを生成することができる。生成部123はお墨付きグラフを生成すると、お墨付きグラフの全部又は一部をデータ記憶部111にキャッシュする。上述したように、収集部122は信頼リストに基づいてお墨付きデータを収集しているため、生成部123は信頼リストに基づいて決定したお墨付きグラフの全部又は一部をキャッシュすることができる。生成部123はお墨付きグラフをキャッシュすると、お墨付きグラフを閲覧者P4の端末装置40に送信する。
【0040】
分析部124は、信頼リストに出現するED発行体IDの出現頻度の統計を表す統計情報を生成し、統計情報に基づいて決定したお墨付きグラフの一部をデータ記憶部111にキャッシュする。この場合、取得部121は閲覧者P4の端末装置40に加え、端末装置40と異なる別の閲覧者の端末装置(不図示)から信頼リストを取得する。分析部124は、取得部121が取得する複数の信頼リストのそれぞれに出現するED発行体IDの出現頻度の統計を表す統計情報を生成する。
【0041】
なお、詳細は後述するが、分析部124は、複数の信頼リストに出現するED発行体IDの出現頻度と所定の重みとに基づいて、ED発行体IDにED発行体IDの信頼度を表す得点(スコア)を付与する。そして、分析部124は、得点の大きさに基づき、高得点が付与された所定件数分のED発行体IDを含むお墨付きグラフをデータ記憶部111にキャッシュする。所定件数はデータ処理サーバ100の管理者によって事前に設定される。
【0042】
また、分析部124は、複数の信頼リストにおけるED発行体IDの出現頻度と第1の重みとに基づいて、ED発行体IDにED発行体IDの信頼度を表す第1の得点を付与してもよい。一方で、分析部124は、分野が共通する投稿データへのお墨付きグラフに対する信頼リストにおけるED発行体IDの出現頻度と第2の重みとに基づいて、ED発行体IDの信頼度を表す第2の得点を付与してもよい。そして、分析部124は、第1の得点と第2の得点の合計得点を算出し、合計得点の大きさに基づいて、所定件数分のED発行体IDを含むお墨付きグラフをキャッシュしてもよい。
【0043】
図6及び
図7を参照して、データ処理サーバ100の動作の一例について説明する。
【0044】
まず、
図6に示すように、取得部121はED被発行体IDに関するグラフ生成要求を受信する(ステップS1)。より詳しくは、取得部121は対象のED被発行体IDを含むお墨付きグラフのグラフ生成要求を端末装置40から受信する。例えば、取得部121はED被発行体ID「政治ニュース記事」を含むお墨付きグラフのグラフ生成要求を受信する。これにより、
図7に示すように、取得部121はED被発行体ID「政治ニュース記事」を含むお墨付きグラフG2を特定する。
【0045】
ステップS1の処理が終了すると、
図6に示すように、取得部121は信頼リストを取得する(ステップS2)。より詳しくは、取得部121は端末装置40に信頼リストの送信を要求することにより、信頼リストを取得する。例えば、
図7に示すように、取得部121はED発行体ID「日本政府」及び「文科省」を含む信頼リストTLを取得する。
【0046】
ステップS2の処理が終了すると、
図6に示すように、収集部122は信頼リストとお墨付きグラフのキャッシュ状況とを確認する(ステップS3)。より詳しくは、
図7に示すように、収集部122はデータ記憶部111を参照し、取得部121が特定したお墨付きグラフG2のキャッシュ状況と信頼リストTLとを確認する。そして、収集部122は、信頼リストTLに含まれるED発行体IDに基づいて、該ED発行体ID及びED発行体IDと一方向に直接的に又は間接的に関連付けられたお墨付きグラフG2の一部分を特定する。本実施形態であれば、収集部122は、お墨付きグラフG2全体の中から、ED発行体ID「M市民」、「外国大学」、「非専門家」を除いたお墨付きグラフG2の一部分を特定する。
【0047】
ステップS3の処理が終了すると、
図6に示すように、収集部122はお墨付きデータを並列処理で要求する(ステップS4)。例えば、
図7に示すように、お墨付きグラフG2の一部分を特定した場合、収集部122は特定したお墨付きグラフG2の一部分と関連付けられた各ED格納URL(
図4参照)に基づいて、各ED格納URLで指定されるデータ管理サーバ210,220,230の少なくとも1つにお墨付きデータを並列処理で要求する。ED被発行体ID「政治ニュース記事」に近いお墨付きデータから順に再帰的にお墨付きデータを要求せず、収集部122は並列処理で一括して要求するため、お墨付きデータの収集時間を短縮することができる。
【0048】
ステップS4の処理が終了すると、
図6に示すように、収集部122はお墨付きデータを収集する(ステップS5)。
図7に示すように、お墨付きデータを並列処理で要求するため、収集部122はお墨付きグラフG2の一部分に関するお墨付きデータを並列的に収集する。このように、収集部122はデータ記憶部111にキャッシュされた既存のお墨付きグラフG2を利用してお墨付きデータを収集する。
【0049】
仮に、データ記憶部111にお墨付きグラフG2がキャッシュされていなければ、お墨付きグラフG2を生成するために、収集部122はお墨付きデータを個別に再帰的に収集することが求められる。しかしながら、本実施形態によれば、お墨付きデータを個別に再帰的に収集することが要求されず、収集部122はお墨付きデータを並列的に一括して収集することができる。
【0050】
ステップS5の処理が終了すると、
図6に示すように、生成部123はお墨付きグラフを生成する(ステップS6)。お墨付きデータはED発行体IDやED被発行体IDを含むため、生成部123は収集部122が収集したお墨付きデータのED発行体IDとED被発行体IDとの関係と、収集部122が収集しなかったお墨付きデータのED発行体IDとED被発行体IDとの関係の両方に基づいて、お墨付きグラフを生成する。すなわち、生成部123はお墨付きグラフの一部分を更新したお墨付きグラフを新たに生成する。
【0051】
ステップS6の処理が終了すると、
図6に示すように、生成部123はお墨付きグラフをキャッシュする(ステップS7)。例えば、生成部123は過去のお墨付きグラフを削除して、ステップS6の処理で生成した新たなお墨付きグラフをキャッシュする。結果的に、お墨付きグラフ全体が更新される。
【0052】
ステップS7の処理が終了すると、
図6に示すように、生成部123はお墨付きグラフを提供し(ステップS8)、処理を終了する。より詳しくは、生成部123はお墨付きグラフを送信によって端末装置40に提供して処理を終了する。これにより、端末装置40を操作する閲覧者P4は投稿データに関連付けられたお墨付きグラフを比較的短時間で確認することができる。
【0053】
次に、
図8乃至
図11を参照して、データ処理サーバ100の動作の他の一例について説明する。上述した動作の一例では、閲覧者P4が信頼する公的機関など、権威を有する発行者のED発行体IDを定義した信頼リストTLを利用することを説明した。一方で、データ処理サーバ100は、信頼リストTLを取得せずに、事前の設定に基づいて定期的にお墨付きグラフを更新してもよい。
【0054】
まず、
図8に示すように、収集部122はお墨付きグラフのキャッシュ状況を確認する(ステップS11)。例えば、データ処理サーバ100を管理する管理者が設定した深夜帯の所定時刻を検出すると、収集部122はお墨付きグラフのキャッシュ状況を確認する。
【0055】
ステップS11の処理が終了すると、収集部122はお墨付きデータを並列処理で要求する(ステップS12)。例えば、
図9に示すように、収集部122はお墨付きグラフG2の全部分を特定する。すなわち、収集部122はお墨付きグラフG2に含まれるED被発行体ID及びED発行体IDの全てを特定する。そして、収集部122は特定したお墨付きグラフG2の全部分と関連付けられた各ED格納URL(
図4参照)の全てに基づいて、各ED格納URLで指定されるデータ管理サーバ210,220,230にお墨付きデータを並列処理で要求する。信頼リストTLを利用しなくても、収集部122は並列処理で一括して要求するため、お墨付きデータの収集時間を短縮することができる。
【0056】
ステップS12の処理が終了すると、
図8に示すように、収集部122は新規のお墨付きデータを発見したか否かを判断する(ステップS13)。例えば、
図9に示すように、収集部122がお墨付きデータを並列処理で要求すると、新規のお墨付きデータを格納するデータ管理サーバ240がお墨付きシステム50に含まれている場合がある。このような場合、収集部122は新規のお墨付きデータを発見したと判断する(ステップS13:YES)。一方、新規のお墨付きデータを格納するデータ管理サーバ240がお墨付きシステム50に含まれていない場合には、収集部122は新規のお墨付きデータを発見しなかったと判断する(ステップS13:NO)。
【0057】
新規のお墨付きデータを発見した場合、収集部122は新規のお墨付きデータをキャッシュする(ステップS14)。より詳しくは、
図10に示すように、収集部122はデータ管理サーバ210,220,230から既存のお墨付きデータを収集するとともに、データ管理サーバ240から新規のお墨付きデータを収集する。そして、収集部122は新規のお墨付きデータのメタデータの一部をデータ記憶部111に追加的にキャッシュする。
【0058】
本実施形態では、収集部122は、新規のお墨付きデータのメタデータの一部である、ED発行体ID「ファクトチェック団体」とED被発行体ID「A市役所」とデータ管理サーバ240を指定する所定のED格納URLとを関連付けて、追加的にキャッシュする。なお、新規のお墨付きデータを発見しなかった場合、収集部122はステップS14の処理をスキップする。
【0059】
ステップS13又はS14の処理が終了すると、
図8に示すように、収集部122は新規のED発行体IDを発見したか否かを判断する(ステップS15)。上述したように、収集部122は既存のお墨付きデータを収集するため、収集したお墨付きデータによっては、新規のED発行体IDを発見する場合がある。
【0060】
例えば、収集部122がED発行体ID「A市役所」とED被発行体ID「A市民」とを既存のメタデータとし、ED被発行体ID「M市民」を新規のED被発行体IDとして含むお墨付きデータを収集する。この場合、ED発行体ID「A市民」をメタデータとするお墨付きデータにとって、ED発行体ID「A市役所」は新規のED発行体IDに該当する。
【0061】
このように、収集したお墨付きデータに新規のED被発行体IDが含まれている場合には、収集部122は新規のED発行体IDを発見したと判断する(ステップS15:YES)。一方、収集したお墨付きデータに新規のED被発行体IDが含まれていない場合には、収集部122は新規のED発行体IDを発見しなかったと判断する(ステップS15:NO)。
【0062】
新規のED発行体IDを発見した場合、収集部122は新規のED発行体IDを走査リストに追加する(ステップS16)。走査リストは後続の再帰処理において走査対象のED発行体IDを格納するリストである。ステップS16の処理が終了すると、収集部122は再帰処理を実行する(ステップS17)。詳細は後述するが、再帰処理は走査リストを元にお墨付きデータなどを再帰的に収集する処理である。
【0063】
ステップS17の処理が終了すると、収集部122はステップS17の処理で収集したお墨付きデータなどをデータ記憶部111にキャッシュし(ステップS18)、処理を終了する。なお、新規のED発行体IDを発見しなかった場合、収集部122はステップS16からS18の処理をスキップして、処理を終了する。
【0064】
図11を参照して、再帰処理について説明する。上述したように、ステップS16の処理が終了すると、収集部122は再帰処理を実行する。具体的には、
図11に示すように、まず、収集部122は走査リストが空であるか否かを判断する(ステップS21)。走査リストが空である場合(ステップS21:YES)、収集部122は再帰処理を終了する。
【0065】
一方、走査リストが空でない場合(ステップS21:NO)、収集部122はお墨付きデータを問い合わせる(ステップS22)。より詳しくは、収集部122は走査リストからED発行体IDを1つ抽出する。そして、収集部122は抽出したED発行体IDがED被発行体IDとなるお墨付きデータの有無をデータ管理サーバ210,220,230に問い合わせる。
【0066】
このようなお墨付きデータがない場合(ステップS23:NO)、収集部122は再びステップS21の処理を実行する。一方、このようなお墨付きデータがある場合(ステップS23:YES)、収集部122は当該お墨付きデータを収集し、お墨付きデータのメタデータの一部をデータ記憶部111に保存する(ステップS24)。
【0067】
ステップS24の処理が終了すると、収集部122は保存したお墨付きデータのED発行体IDが未走査であるか否かを判断する(ステップS25)。未走査でない場合(ステップS25:NO)、収集部122は再びステップS21の処理を実行する。一方、未走査である場合(ステップS25:YES)、収集部122は保存したお墨付きデータのED発行体IDが信頼リストにあるか否かを判断する(ステップS26)。
【0068】
信頼リストにある場合(ステップS26:YES)、収集部122は再びステップS21の処理を実行する。一方、信頼リストにない場合(ステップS26:NO)、収集部122はこのED発行体IDを走査リストに追加し(ステップS27)、再びステップS21の処理を実行する。上述したように、ステップS21の処理で、走査リストが空である場合、収集部122は再帰処理を終了する。
【0069】
以上説明したように、第1実施形態に係るデータ処理サーバ100は閲覧者P4の端末装置40から信頼リストを取得し、信頼リストと過去のお墨付きグラフとに基づいて決定したお墨付きグラフの全部又は一部をキャッシュする。これにより、お墨付きグラフの生成時間を短縮することができる。
【0070】
(第2実施形態)
図12乃至
図15を参照して、本件の第2実施形態について説明する。第2実施形態では、データ記憶部111に無駄にキャッシュされるお墨付きデータのメタデータのデータ量を削減する。これにより、データ記憶部111がメタデータを記憶できる記憶可能容量が増大し、データ記憶部111は有効なメタデータをさらに記憶することができる。このように、第2実施形態では、非効率亭なキャッシュが抑制され、キャッシュの効率性が向上する。
【0071】
まず、
図12に示すように、分析部124はED発行体IDを確認する(ステップS31)。より詳しくは、分析部124は収集部122が収集したお墨付きデータのED発行体IDを確認する。ステップS31の処理が終了すると、分析部124はED発行体IDが上位K件(Kは自然数で表される閾値件数)に属するか否かを判断する(ステップS32)。より詳しくは、分析部124は、ED発行体IDに付与された得点に基づいて、ED発行体IDが上位K件に属するか否かを判断する。
【0072】
ここで、ED発行体IDに付与される得点の詳細について説明する。分析部124は、取得部121が互いに異なる端末装置40のそれぞれから信頼リストを取得した場合、これらの信頼リストに出現するED発行体IDの出現頻度の統計を表す統計情報を生成する。分析部124は、生成部123がお墨付きグラフを更新する際、統計情報に基づいて、ED発行体IDにED発行体IDの有用度を表す得点を付与する(すなわち、スコアリングする)。
【0073】
このように、分析部124は、ED発行体IDの出現頻度に基づいて、ED発行体IDに得点を付与する。ここで、分析部124は、取得部121が取得した様々な信頼リストにおける出現頻度に基づいて、ED発行体IDに得点を付与する。例えば、
図13(a)に示すように、信頼リストにおけるED発行体ID「日本政府」の出現頻度が出現頻度「0.6」である場合、所定の第1の重み「1.0」を乗じることにより、分析部124はこのED発行体IDに第1の得点として得点「0.6」を付与する。ED発行体ID「文科省」及び「専門家」についても基本的に同様であるため、詳細な説明は省略する。これにより、閲覧者P4の多くが信頼するED発行体IDに高得点が付与される。
【0074】
また、分析部124は、分野(例えば政治や経済、娯楽など)が共通する投稿データへのお墨付きグラフに対する信頼リストにおける出現頻度に基づいて、ED発行体IDに得点を付与する。例えば、
図13(b)に示すように、分野が共通する投稿データへのお墨付きグラフに対する信頼リストにおけるED発行体ID「専門家」の出現頻度が出現頻度「0.4」である場合、所定の第2の重み「1.0」を乗じることにより、分析部124はこのED発行体IDに第2の得点として得点「0.4」を付与する。ED発行体ID「文科省」及び「日本政府」についても基本的に同様であるため、詳細な説明は省略する。これにより、特定の分野で権威を有するお墨付きデータの発行者ほど、その分野の投稿データに対するお墨付きグラフにおいて高得点が付与される。
【0075】
分析部124は、これら2種類の出現頻度の加重平均に基づいて、ED発行体IDに得点を付与する。例えば、同じED発行体ID「日本政府」について、分析部124は第1の得点「0.6」と第2の得点「0.1」(=「0.1」×「1.0」)とを合計して、合計得点「0.7」を算出する。このように、分析部124は、ED発行体IDのそれぞれに得点を付与し、その得点が上位K件内であるか否かを判断する。
【0076】
なお、第1の重みと第2の重みは同じであってもよいし、異なっていてもよい。例えば、各分野の統計情報の質に応じて、第1の重みと第2の重みの一方を他方より重くしてもよい。また、上述した閾値件数はデータ処理サーバ100の管理者によって適宜設定される。例えば、頻繁な問い合わせが発生するお墨付きデータについては、大きな閾値件数が採用される。これにより、データ記憶部111に多くのメタデータに基づくお墨付きグラフがキャッシュされる。一方、問い合わせが少ないお墨付きデータについては、小さな閾値件数が採用される。これにより、データ記憶部111のメタデータのデータ量が低減し、データ記憶部111の記憶可能容量が増大する。
【0077】
このように、ステップS32の処理において、分析部124はED発行体IDが上位K件に属するか否かを判断する。
図12に示すように、ED発行体IDが上位K件に属しない場合(ステップS32:NO)、分析部124は処理を終了する。一方、ED発行体IDが上位K件に属する場合(ステップS32:YES)、分析部124は当該ED発行体IDを含むお墨付きデータのメタデータをデータ記憶部111にキャッシュし(ステップS33)、処理を終了する。
【0078】
これにより、
図14に示すように、有用な一部のメタデータに基づくお墨付きグラフG3がデータ記憶部111にキャッシュされる。すなわち、データ記憶部111に無駄なメタデータがキャッシュされることが抑制される。
図14によれば、お墨付きグラフG3は上位3件に属するED発行体ID「日本政府」、「文科省」、「A市役所」を含んでいる。一方で、ED発行体ID「M市民」、「非専門家」、「外国大学」といった無駄なメタデータがキャッシュされることが抑制される。このように、第2実施形態によれば、非効率亭なキャッシュが抑制され、キャッシュの効率性が向上する。
【0079】
図15を参照して、お墨付きデータを収集する処理について説明する。なお、第1実施形態で説明したステップS1からS8と同様の処理については、詳細な説明を省略する。まず、取得部121はED被発行体IDに関するグラフ生成要求を受信する(ステップS41)。ステップS41の処理が終了すると、取得部121は信頼リストを取得する(ステップS42)。ステップS42の処理が終了すると、収集部122は信頼リストとお墨付きグラフのキャッシュ状況とを確認する(ステップS43)。
【0080】
ステップS43の処理が終了すると、収集部122は信頼リストに格納されたED発行体IDのうち少なくとも1つ以上がお墨付きグラフのキャッシュ状況に含まれていないか否かを判断する(ステップS44)。信頼リストに格納されたED発行体IDのうち少なくとも1つ以上がお墨付きグラフのキャッシュ状況に含まれていない場合(ステップS44:YES)、収集部122は新規のED発行体IDを走査リストに追加し、再帰処理を実行する(ステップS45,S46)。
【0081】
ステップS46の処理が終了すると、収集部122は収集したお墨付きデータのメタデータをデータ記憶部111にキャッシュし、メタデータをお墨付きグラフに統合する(ステップS47)。なお、信頼リストに格納されたED発行体IDのうち少なくとも1つ以上がお墨付きグラフのキャッシュ状況に含まれている場合(ステップS44:NO)、収集部122はステップS45からS47の処理をスキップする。
【0082】
ステップS47の処理が終了するか、ステップS45からS47の処理がスキップされると、収集部122はお墨付きデータを並列処理で要求する(ステップS48)。ステップS48の処理が終了すると、収集部122はお墨付きデータを収集する(ステップS49)。ステップS49の処理が終了すると、生成部123はお墨付きグラフを生成する(ステップS50)。ステップS50の処理が終了すると、生成部123はお墨付きグラフをキャッシュする(ステップS51)。
【0083】
ステップS51の処理が終了すると、生成部123はお墨付きグラフを提供し(ステップS52)、処理を終了する。このように、信頼リストに含まれていないED発行体IDがお墨付きグラフのキャッシュ状況に存在しても、収集部122は信頼リストに含まれていないED発行体IDを含むお墨付きデータを収集することができる。
【0084】
以上、本発明の好ましい実施形態について詳述したが、本発明に係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。例えば、上述した第2実施形態において、分析部124は1種類の出現頻度に基づいて、ED発行体IDに得点を付与してもよい。
【0085】
なお、以上の説明に関して更に以下の付記を開示する。
(付記1)インターネット上のデータの確からしさにお墨付きを与えるお墨付きデータのつながりをグラフ化したお墨付きグラフの生成が要求された場合に、前記お墨付きグラフの生成を要求する前記データの閲覧者の端末から、前記閲覧者が信頼する前記お墨付きデータの発行体を定義したリストを取得し、前記リストに基づいて決定した前記お墨付きグラフの一部又は全部をキャッシュする、処理をコンピュータに実行させるためのデータ処理プログラム。
(付記2)前記リストに出現する前記発行体の出現頻度の統計を表す統計情報を生成し、前記統計情報に基づいて決定した前記お墨付きグラフの一部をキャッシュする、処理を前記コンピュータに実行させることを特徴とする付記1に記載のデータ処理プログラム。
(付記3)前記出現頻度と所定の重みとに基づいて、前記発行体に該発行体の信頼度を表す得点を付与し、前記得点の大きさに基づいて、設定数の前記発行体を含む前記お墨付きグラフをキャッシュする、処理を前記コンピュータに実行させることを特徴とする付記2に記載のデータ処理プログラム。
(付記4)前記閲覧者の前記端末から取得した前記リストにおける前記出現頻度と第1の重みとに基づいて、前記発行体に該発行体の信頼度を表す第1の得点を付与し、分野が共通する前記データへの前記お墨付きグラフに対する前記リストにおける前記出現頻度と第2の重みとに基づいて、前記発行体に前記信頼度を表す第2の得点を付与し、前記第1の得点と前記第2の得点の合計得点を算出し、前記合計得点の大きさに基づいて、設定数の前記発行体を含む前記お墨付きグラフをキャッシュする、処理を前記コンピュータに実行させることを特徴とする付記2に記載のデータ処理プログラム。
(付記5)キャッシュした前記お墨付きグラフに基づいて、前記お墨付きデータを並列的に収集する、処理を前記コンピュータに実行させることを特徴とする付記1又は2に記載のデータ処理プログラム。
(付記6)前記お墨付きグラフは、前記発行体をノードとし、前記お墨付きデータをエッジとする有向グラフである、ことを特徴とする付記1又は2に記載のデータ処理プログラム。
(付記7)前記お墨付きデータは、前記発行体と、前記お墨付きデータの被発行体とを含む、ことを特徴とする付記1又は2に記載のデータ処理プログラム。
(付記8)インターネット上のデータの確からしさにお墨付きを与えるお墨付きデータのつながりをグラフ化したお墨付きグラフの生成が要求された場合に、前記お墨付きグラフの生成を要求する前記データの閲覧者の端末から、前記閲覧者が信頼する前記お墨付きデータの発行体を定義したリストを取得する取得部と、前記リストに基づいて決定した前記お墨付きグラフの一部又は全部をキャッシュするキャッシュ部と、を有するデータ処理装置。
(付記9)インターネット上のデータの確からしさにお墨付きを与えるお墨付きデータのつながりをグラフ化したお墨付きグラフの生成を要求する前記データの閲覧者の端末と、前記お墨付きグラフの生成が要求された場合に、前記端末から、前記閲覧者が信頼する前記お墨付きデータの発行体を定義したリストを取得し、前記リストに基づいて決定した前記お墨付きグラフの一部又は全部をキャッシュするデータ処理装置と、を有するデータ処理システム。
【符号の説明】
【0086】
10,20,30,40 端末装置
50 お墨付きシステム
100 データ処理サーバ
111 データ記憶部
121 取得部
122 収集部
123 生成部
124 分析部
210,220,230,240 データ管理サーバ
ST データ処理システム
TL 信頼リスト
G1,G2,G3 お墨付きグラフ