(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024000926
(43)【公開日】2024-01-09
(54)【発明の名称】情報処理システムおよび情報処理方法
(51)【国際特許分類】
G09C 1/00 20060101AFI20231226BHJP
G09C 1/06 20060101ALI20231226BHJP
【FI】
G09C1/00 650Z
G09C1/06
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2022099924
(22)【出願日】2022-06-21
(71)【出願人】
【識別番号】506340046
【氏名又は名称】VALUENEX株式会社
(74)【代理人】
【識別番号】110000800
【氏名又は名称】デロイトトーマツ弁理士法人
(72)【発明者】
【氏名】中村 達生
(72)【発明者】
【氏名】片桐 広貴
(72)【発明者】
【氏名】王 涛
(72)【発明者】
【氏名】新井 陽
(57)【要約】 (修正有)
【課題】本発明は、処理対象情報の機密性を保持しながら、その処理対象情報を処理することのできる情報処理システムを提供する。
【解決手段】第1情報端末11と、第1情報端末とは独立しており、且つ、第1情報端末とネットワークを介して通信可能な第2情報端末と、を備えている情報処理システムであって、第1情報端末11に設けられ、複数の処理対象情報の各々について、該処理対象情報を暗号化した情報である第1暗号化情報を生成する第1暗号化情報生成部110と、第2情報端末に設けられ、複数の第1暗号化情報を復号化することなく処理した情報である第2暗号化情報を生成する第2暗号化情報生成部と、第1情報端末11に設けられ、第2暗号化情報を復号化して、処理結果情報を取得する復号化処理部111と、を備えている。
【選択図】
図2
【特許請求の範囲】
【請求項1】
第1情報端末と、前記第1情報端末とは独立しており、且つ、前記第1情報端末と通信可能な第2情報端末とを備え、前記第2情報端末が、前記第1情報端末から送信された複数の処理対象情報に対して所定処理を実施し、前記第1情報端末が、該所定処理の結果である処理結果情報を取得する情報処理システムであって、
前記第1情報端末に設けられ、前記複数の処理対象情報の各々について、該処理対象情報を暗号化した情報である第1暗号化情報を生成する第1暗号化情報生成部と、
前記第2情報端末に設けられ、複数の前記第1暗号化情報を復号化することなく該複数の前記第1暗号化情報に対して前記所定処理を実施した情報である第2暗号化情報を生成する第2暗号化情報生成部と、
前記第1情報端末に設けられ、前記第2暗号化情報を復号化して、前記処理結果情報を取得する復号化処理部とを備えていることを特徴とする情報処理システム。
【請求項2】
請求項1に記載の情報処理システムにおいて、
前記所定処理が、解析、分析、統計および集計の少なくとも1つを含むことを特徴とする情報処理システム。
【請求項3】
請求項1または2に記載の情報処理システムにおいて、
前記第1暗号化情報生成部は、
前記複数の処理対象情報の各々に含まれている複数の単語を抽出する単語抽出部と、
前記複数の処理対象情報の各々について、前記複数の単語の各々の出現数に基づいて、該処理対象情報における該単語の出現頻度に関する情報である頻度情報を生成する頻度情報生成部と、
抽出された前記複数の単語の各々について、該単語と該単語に対応する文字列との対応関係を表す情報である対応情報を生成する対応情報生成部と、
前記頻度情報に含まれている複数の単語を前記対応情報に基づいて変換することによって、前記頻度情報を暗号化して前記第1暗号化情報とする第1暗号化処理部と
を有し、
前記復号化処理部は、前記対応情報に基づいて、前記第2暗号化情報を復号化して、前記処理結果情報を取得することを特徴とする情報処理システム。
【請求項4】
請求項3に記載の情報処理システムにおいて、
前記対応情報生成部は、前記複数の処理対象情報に含まれる処理対象情報が変化したときに、該変化前の前記対応情報で用いられている文字列とは異なる文字列を用いて、新たな前記対応情報を生成することを特徴とする情報処理システム。
【請求項5】
請求項3に記載の情報処理システムにおいて、
前記対応情報生成部は、アルファベットからなる文字列を用いて、前記対応情報を生成することを特徴とする情報処理システム。
【請求項6】
請求項3に記載の情報処理システムにおいて、
前記第1暗号化情報生成部は、前記複数の単語の各々同士の相関関係を示すデータである辞書データを格納する辞書データ格納部を有し、
前記単語抽出部は、前記辞書データを用いて、前記複数の処理対象情報の各々に含まれている単語を抽出することを特徴とする情報処理システム。
【請求項7】
請求項3に記載の情報処理システムにおいて、
前記複数の処理対象情報の各々は、該処理対象情報ごとに異なる属性を表す情報である属性情報を含み、
前記第1暗号化情報生成部は、前記複数の処理対象情報の各々にIDを付与するID付与部と、複数の前記第1暗号化情報の各々に、該第1暗号化情報に対応する前記IDを紐づけて前記第2情報端末に送信する通信部とを有し、
前記第2暗号化情報生成部は、前記IDを紐づけられた複数の前記第1暗号化情報を処理して、前記第2暗号化情報を生成し、
前記復号化処理部は、前記第2暗号化情報を復号化して、前記処理結果情報を取得するとともに、前記IDに基づいて、該処理結果情報に前記属性情報を付与することを特徴とする情報処理システム。
【請求項8】
第2情報端末が、第1情報端末から送信された複数の処理対象情報に対して所定処理を実施し、前記第1情報端末が、該所定処理の結果である処理結果情報を取得する情報処理方法であって、
前記複数の処理対象情報の各々について、該処理対象情報を暗号化した情報である第1暗号化情報を前記第1情報端末において生成するステップと、
複数の前記第1暗号化情報を復号化することなく該複数の前記第1暗号化情報に対して前記所定処理を実施した情報である第2暗号化情報を前記第2情報端末において生成するステップと、
前記第2暗号化情報を復号化して、前記処理結果情報を前記第1情報端末において取得するステップとを備えていることを特徴とする情報処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、一の情報端末から送信される暗号化された処理対象情報に対して解析などの各種処理を他の情報端末で実施する情報処理システムなどに関する。
【背景技術】
【0002】
近年、情報通信技術の発展に伴い、個人や企業等が有する情報を管理または解析などの所定処理を実施するサービスが普及している。このとき、個人や企業は、個人や企業が有する情報端末からサービス提供者の情報端末へ情報を送信する必要がある。上記のような情報の送信においては、セキュリティ性を確保するために、情報の暗号化などを行うのが一般的である。
【0003】
特許文献1には、ユーザ側(個人や企業側)の情報処理端末から送信される暗号化された情報を受信し、その暗号化された情報を解析して、暗号化された状態で解析結果としての暗号化インデックスを生成し、暗号化インデックスを情報処理端末に返す情報処理サーバを備えるシステムが開示されている。このシステムによれば、サーバの管理者であるサービス管理者(サービス提供者)などに対して、機密情報を開示することなく、そのデータの所定処理を実施することが可能である。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、特許文献1に開示されるシステムによれば、解析対象情報(処理対象情報)の解析を実施するために、サーバ側(サービス提供者側)で辞書による言葉の分類などの解析前処理が行われる。このときに、一部の情報が復号されるので、解析対象情報の機密性は完全に担保されない。すなわち、解析対象情報の機密性を保持しながら、解析対象情報の解析が行えないという問題がある。
【0006】
本発明は以上の点に鑑みてなされたものであり、処理対象情報の機密性を保持しながら、その処理対象情報に対して解析を含む所定処理を実施することができる情報処理システムおよび情報処理方法を提供することを目的とする。
【課題を解決するための手段】
【0007】
本発明の情報処理システムは、
第1情報端末と、前記第1情報端末とは独立しており、且つ、前記第1情報端末と通信可能な第2情報端末とを備え、前記第2情報端末が、前記第1情報端末から送信された複数の処理対象情報に対して所定処理を実施し、前記第1情報端末が、該所定処理の結果である処理結果情報を取得する情報処理システムであって、
前記第1情報端末に設けられ、前記複数の処理対象情報の各々について、該処理対象情報を暗号化した情報である第1暗号化情報を生成する第1暗号化情報生成部と、
前記第2情報端末に設けられ、複数の前記第1暗号化情報を復号化することなく該複数の前記第1暗号化情報に対して前記所定処理を実施した情報である第2暗号化情報を生成する第2暗号化情報生成部と、
前記第1情報端末に設けられ、前記第2暗号化情報を復号化して、前記処理結果情報を取得する復号化処理部とを備えていることを特徴とする。
【0008】
かかる構成の情報処理システムによれば、第1情報端末で、処理対象情報が暗号化され、第2情報端末に送信される。そして、第2情報端末で、その暗号化された情報が復号化されることなく、暗号化された情報に対して所定処理が実施され、その処理結果である第2暗号化情報が生成される。その後、第1情報端末で、第2暗号化情報が復号化されて、初めて処理結果が把握できるようになる。
【0009】
そのため、第2情報端末における処理では、処理対象情報そのもの、及びその処理結果の具体的な内容は、仮にその処理の工程のいずれかのタイミングで参照されてしまったとしても、把握できない状態になっている。したがって、この情報処理システムによれば、処理対象情報の機密性を保持しながら、その処理対象情報を処理することができる。
【0010】
このとき、本発明の情報処理システムにおいては、
前記所定処理が、解析、分析、統計および集計の少なくとも1つを含むことが好ましい。
【0011】
また、本発明の情報処理システムにおいては、
前記第1暗号化情報生成部は、
前記複数の処理対象情報の各々に含まれている複数の単語を抽出する単語抽出部と、
前記複数の処理対象情報の各々について、前記複数の単語の各々の出現数に基づいて、該処理対象情報における該単語の出現頻度に関する情報である頻度情報を生成する頻度情報生成部と、
抽出された前記複数の単語の各々について、該単語と該単語に対応する文字列との対応関係を表す情報である対応情報を生成する対応情報生成部と、
前記頻度情報に含まれている複数の単語を前記対応情報に基づいて変換することによって、前記頻度情報を暗号化して前記第1暗号化情報とする第1暗号化処理部と
を有し、
前記復号化処理部は、前記対応情報に基づいて、前記第2暗号化情報を復号化して、前記処理結果情報を取得することが好ましい。
【0012】
かかる構成の情報処理システムによれば、第1暗号化情報生成部(ひいては、第1情報端末)が、処理対象情報に含まれる複数の単語の出現数に基づいた頻度情報を生成し、その頻度情報を暗号化した情報を、第1暗号化情報としている。
【0013】
すなわち、第1暗号化情報は、処理対象情報の全文を暗号化した情報に比べ、データ量の少ないものになっている。これにより、第2情報端末への送信時、及び第2情報端末における処理時における負荷を、小さくすることができる。
【0014】
また、このように頻度情報を暗号化した情報は、単純に処理対象情報そのものを暗号化した情報に比べ、機密性の高いものになる。これにより、処理対象情報の機密性を高い水準で保持することができる。
【0015】
また、本発明の情報処理システムにおいては、
前記対応情報生成部は、前記複数の処理対象情報に含まれる処理対象情報が変化したときに、該変化前の前記対応情報で用いられている文字列とは異なる文字列を用いて、新たな前記対応情報を生成することが好ましい。
【0016】
かかる構成の情報処理システムによれば、処理対象情報の母集団が変化する毎に、対応情報も変化して、頻度情報の暗号化の方法も変化する。したがって、この情報処理システムによれば、処理対象情報の機密性を高い水準で保持することができる。
【0017】
また、本発明の情報処理システムにおいては、
前記対応情報生成部は、アルファベットからなる文字列を用いて、前記対応情報を生成することが好ましい。
【0018】
アルファベットからなる文字列は、漢字などに比べ、データ量が少ない。そこで、このように、対応情報をアルファベットからなる文字列によって生成すると、その対応情報によって暗号化された頻度情報のデータ量も少なくすることができる。これにより、第2情報端末への送信時、及び第2情報端末における処理時における負荷を、小さくすることができる。
【0019】
また、本発明の情報処理システムにおいては、
前記第1暗号化情報生成部は、前記複数の単語の各々同士の相関関係を示すデータである辞書データを格納する辞書データ格納部を有し、
前記単語抽出部は、前記辞書データを用いて、前記複数の処理対象情報の各々に含まれている単語を抽出することが好ましい。
【0020】
かかる構成の情報処理システムによれば、第1暗号化情報生成部を備えている第1情報端末に、暗号化処理の基礎となる辞書データが設けられることになる。その辞書データは、第1情報端末のユーザによって、容易に更新することができる。そのため、その辞書データを参照することによって、処理対象情報から、適切に単語情報を抽出できる。ひいては、より詳細な処理を行うことができる。
【0021】
また、本発明の情報処理システムにおいては、
前記複数の処理対象情報の各々は、該処理対象情報ごとに異なる属性を表す情報である属性情報を含み、
前記第1暗号化情報生成部は、前記複数の処理対象情報の各々にIDを付与するID付与部と、複数の前記第1暗号化情報の各々に、該第1暗号化情報に対応する前記IDを紐づけて前記第2情報端末に送信する通信部とを有し、
前記第2暗号化情報生成部は、前記IDに紐づけられた複数の前記第1暗号化情報を処理して、前記第2暗号化情報を生成し、
前記復号化処理部は、前記第2暗号化情報を復号化して、前記処理結果情報を取得するとともに、前記IDに基づいて、該処理結果情報に前記属性情報を付与することが好ましい。
【0022】
処理対象情報には、処理そのものには不要なものの、処理後に参照することに対して有用な情報がある。そこで、このように、処理対象情報に含まれる情報をその処理対象情報を示すIDと属性情報とに分けるとともに、処理の前後においても紐づけられたIDを変更しないように構成すると、処理対象情報のうち処理に必要な情報(すなわち、属性情報を除く情報)のみで処理を行い、後からIDを参照して属性情報を付与することができるようになる。
【0023】
これにより、属性情報が除かれた分だけ、処理対象情報の機密性を高い水準で保持することができるようになる。また、第2情報端末への送信時、及び第2情報端末における処理時における負荷を、小さくすることができる。
【0024】
また、本発明の情報処理方法は、
第2情報端末が、第1情報端末から送信された複数の処理対象情報に対して所定処理を実施し、前記第1情報端末が、該所定処理の結果である処理結果情報を取得する情報処理方法であって、
前記複数の処理対象情報の各々について、該処理対象情報を暗号化した情報である第1暗号化情報を前記第1情報端末において生成するステップと、
複数の前記第1暗号化情報を復号化することなく該複数の前記第1暗号化情報に対して前記所定処理を実施した情報である第2暗号化情報を前記第2情報端末において生成するステップと、
前記第2暗号化情報を復号化して、前記処理結果情報を前記第1情報端末において取得するステップとを備えていることを特徴とする。
【図面の簡単な説明】
【0025】
【
図1】本発明の情報処理システムの構成を示す模式図である。
【
図2】本発明の情報処理システムの第1情報端末の機能的構成を示すブロック図である。
【
図3】本発明の情報処理システムの第2情報端末の機能的構成を示すブロック図である
【
図4】本発明の情報処理システムが行う暗号化および情報解析の一連の制御処理を示すシーケンス図である。
【
図5】本発明の情報処理システムにおいて第1情報端末が行う第1暗号化情報を生成する制御処理を示すフローチャートである。
【発明を実施するための形態】
【0026】
(情報処理システム1の構成)
本発明の一実施形態にかかる情報処理システム1は、下記の説明および図面において、説明される。なお、本実施形態では、所定処理としての情報の解析処理を例にとって説明する。
図1に示すように、本実施形態の情報処理システム1は、第1情報端末11と第2情報端末12とを備える。第1情報端末11および第2情報端末12のそれぞれは互い独立している。
【0027】
また、第1情報端末11および第2情報端末12のそれぞれは、互いに、ネットワーク13を介して通信可能に接続されている。このとき、ネットワーク13はインターネットおよびLANなどで構成されている。また、第1情報端末11はPC(Personal Computer)であり、第2情報端末12はサーバである。なお、第1情報端末11はスマートフォン、タブレットおよびサーバなどPC以外の情報端末であってもよく、第2情報端末12はPC、スマートフォン、タブレットなどサーバ以外の情報端末であってもよい。
【0028】
第1情報端末11は、CPU、メモリ、I/OインターフェースおよびROM,RAM、HDD等の記憶装置などによって構成され、後述する暗号化処理、復号化処理および解析前処理など各種制御処理を実施する。第1情報端末11は、
図2に示すように、第1暗号化情報生成部110と復号化処理部111とを備えている。
【0029】
第1暗号化情報生成部110は、単語抽出部1101と、頻度情報作成部1102と、対応情報生成部1103と、第1暗号化処理部1104と、辞書データ格納部1105と、ID付与部1106と、通信部1107などにより構成されている。
【0030】
第1暗号化情報生成部110は、後述するように、第1情報端末11の所有者が所有する後述する
図6のような解析対象情報(処理対象情報)を第2情報端末12で解析するのに適した状態にするために、暗号化処理および解析処理を実施する。
【0031】
単語抽出部1101は、後述するように、指定された解析対象情報から単語を抽出する。具体的には、単語抽出部1101は、辞書データ格納部1105に内蔵された単語辞書データおよび単語抽出プログラムを用いて、文章から単語を分割し、文章解析に用いる単語を抽出する。
【0032】
頻度情報作成部1102は、後述するように、単語抽出部1101によって、分割された各々の単語の出現頻度を集計し、単語の出現頻度に関する情報である頻度情報を生成する。
【0033】
対応情報生成部1103は、後述するように、単語抽出部1101によって、分割された各々の単語について、各々の単語と該単語に対応する所定の文字列との対応関係を表す情報である対応情報を生成する。
【0034】
第1暗号化処理部1104は、後述するように、頻度情報作成部1102によって生成された頻度情報に含まれている複数の単語の各々を対応情報生成部1103によって生成された対応情報に基づいて変換し、第1暗号化情報を生成する。
【0035】
辞書データ格納部1105は、後述するように、単語抽出部1101が処理を行うためのデータベースであり、単語抽出のために用いられる、単語情報を含む単語辞書(図示せず)を格納している。
【0036】
ID付与部1106は、後述するように、解析対象情報の各々にID(
図6参照)が付与されるとともに、IDに基づいて、解析対象情報ごとの単語抽出元の文書、文書作成者及び作成日などを表す情報である属性情報を付与する。
【0037】
通信部1107は、通信装置などによって構成されており、ネットワーク13を介して、第1情報端末11によって生成した第1暗号化情報を第2情報端末12に送信する。また、後述する第2情報端末12によって生成した第2暗号化情報を受信する。
【0038】
復号化処理部111は後述する第2情報端末12によって生成した第2暗号化情報を復号化して、解析結果情報を取得する。
【0039】
次に、第2情報端末12について説明する。
図3示すように、第2情報端末12は、CPU、メモリ、I/OインターフェースおよびROM,RAM、HDD等の記憶装置などによって構成され、後述する解析処理などの制御処理を実施する。また、第2情報端末12は、第2暗号化情報生成部120と通信部121とを備えている。
【0040】
第2暗号化情報生成部120は、後述するように、複数の第1暗号化情報を解析し、解析結果情報である第2暗号化情報を生成する。
【0041】
通信部121は、通信装置などによって構成されており、ネットワーク13を介して、第1情報端末11によって生成した第1暗号化情報を受信する。また、第2情報端末12によって生成した第2暗号化情報を第1情報端末11に送信する。
【0042】
(情報処理システム1の情報処理方法)
次に、本実施形態の情報処理システム1における各種処理及び機能の詳細について説明する。上述したように、本実施形態に係る情報処理システム1および情報処理方法は、解析対象情報の機密性を保持しながら、その処理対象情報に対して解析処理を実施するものである。
【0043】
以下、
図4を参照しながら、情報処理システム1が行う暗号化および情報解析の一連の制御処理について説明する。
図4に示すように、最初、第1情報端末11により、第1暗号化情報が生成される(
図4/STEP1)。この処理は、具体的には、
図5に示すように実施される。
【0044】
図5に示すように、最初、第1情報端末11の所有者によって指定された解析対象情報から単語が抽出される(
図5/STEP11)。
【0045】
ここで、
図6に示すように、解析対象情報は、複数の単語から構成されている複数の文章情報である。この場合、単語情報は、所定の辞書データに基づいて所定の解析アルゴリズムを用いて文章情報から取得される。ここで、辞書データは複数の単語の各々同士の相関関係を示すデータである。
【0046】
本実施形態においては、解析対象情報が日本語の文章情報である例について開示するが、本発明の解析対象情報は日本語の文章情報に限定されるものではない。例えば、日本語以外の英語、中国語またはフランス語などの所定の外国語であってもよいし、複数の言語を含んだ文章情報(例えば、英語と日本語とからなる文章情報)であってもよい。また、例えば、文章情報以外の解析対象情報として、画像情報、アンケート情報(集計情報)、購買情報および顧客情報などが用いられてもよい。
【0047】
また、辞書データは第1情報端末11に格納されている。辞書データとして、IPA(独立行政法人情報処理推進機構)などの行政機関または国際機関などが発行している辞書データを用いることが好ましい。IPAの他に、第1情報端末11の所有者が任意の辞書データを用意することで、単語抽出の精度を高めることもできる。また、辞書データにストップワードなどの設定をすることで、特に高い機密性を有する単語などが抽出されないようにすることもできる。また、辞書データを更新可能に構成することもできる。こうすることで、最新の単語の情報などが辞書データに反映されるため、単語抽出の精度が高まる。また、後述する第2情報端末12に送信時において、不要な単語およびストップワードを送信する必要がなくなるとともに、重複する単語すべてを送信する必要がなくなる。したがって、文章情報すべてを送信するときと比較してデータ量が減り、解析および通信速度を速めることが可能となる。
【0048】
また、単語の抽出方法(抽出プログラム)としては、形態素解析を用いることが好ましい。文章情報が日本語である場合、形態素解析においては、既存の形態素解析ソフトウェアであるMeCab、ChaSen、JanomeまたはSudachiを用いることが好ましいが、これに限られない。日本語以外の言語においても本発明は実施でき、各言語において、適当な形態素解析が用いられてもよい。また、単語抽出の方法として、形態素解析に限定されず、ルールベースの自然言語処理など当業者にとって任意の解析手法が用いられてもよい。
【0049】
以上のように単語が抽出されると、次いで、抽出された各々の単語について、頻度情報が生成される(
図5/STEP12)。
図7に示すように、頻度情報は文章情報に含まれる、各々の単語の出現頻度を表した情報である。
図7においては、
図6におけるID・Data1のみを頻度情報として示したが、各々のIDが付与された複数の文章情報に対しても同様に頻度情報が作成される。以下の説明においては、ID・Data1のみを対象として、説明する。
【0050】
また、頻度情報には単語の文章ごとの出現を表した情報のみではなく、各々の単語の各々の文章における偏在度である偏在情報が同時に生成されてもよい。ここで偏在度は、任意の単語ついて、複数の文献で広く使われている単語であるか、特定の文献のみで使われている単語であるかを定量化した数値である。このとき、偏在度は複数の文献ではなく、複数の段落またはIDのそれぞれに基づいて定量化されてもよい。
【0051】
次いで、抽出された複数の単語の各々について、該単語と該単語に対応する文字列との対応関係を表す情報である対応情報が生成される(
図5/STEP13)。このとき、
図8に示すように、対応情報生成部1103では、アルファベットからなる文字列を用いて、対応情報が生成される。しかしながら、対象情報の生成手法はこの限りではない。アルファベットの他に数字、記号およびアルファベットのうち少なくとも1種類の文字を含む文字列が対応情報として生成されてもよい。
【0052】
文字列の生成方法としては、特に限定されないが、機密性確保の観点から、複数の解析対象情報に含まれる解析対象情報が変化したときに、変化前の対応情報で用いられている文字列とは異なる文字列を変化後の対応情報として用いることが好ましい。すなわち、同じ単語であっても、異なるIDが付与された文章情報または異なる解析対象情報である場合には、異なる文字列を付与することが好ましい。また、機密性の観点から、文字列は乱数をもとに無作為に生成されることが好ましいが、当業者にとって、任意の手法を用いて、生成されてもよい。
【0053】
次いで、頻度情報に含まれている複数の単語を対応情報に基づいて変換することによって、頻度情報を暗号化して第1暗号化情報が生成される(
図5/STEP14)。
図9に示すように、第1暗号化情報は暗号化された文字列と頻度を示す情報である。
【0054】
この暗号化された頻度情報である第1暗号化情報が生成されたのちに、第1情報端末11の所有者の操作などにより、第1情報端末11からネットワーク13を介して第1暗号化情報がIDとともに第2情報端末12に送信される(
図5/STEP15)。IDは、解析対象情報ごとに異なる属性を表す情報である属性情報に紐づくものであり、これが文章情報に付与されて同時に送信される。本実施形態ではIDが第1暗号化情報とともに、送信される例を示したが、IDの生成および送信は省略されてもよい。
【0055】
このとき、第1暗号化情報などは、所有者の操作によって送信されるほか、生成されたと同時に所定の制御により、第1暗号化情報が第2情報端末12に送信されてもよい。
【0056】
図4に戻り、第2情報端末12が第1暗号化情報およびIDの両方を受信した場合、第2情報端末12は第1暗号化情報に基づいて、第2暗号化情報を生成する(
図4/STEP2)。このとき、第2情報端末12では、第1暗号化情報が所定の解析手法によって解析されることにより、第2暗号化情報が生成される。
【0057】
具体的には、第2暗号化情報は、
図10に示すように、第1暗号化情報である、暗号化された頻度情報に基づいて、暗号化された各々の文字列の特徴量(各々の文章の座標)を解析することで得られる座標情報(俯瞰図における座標情報)として生成される。なお、第2暗号化情報は、座標情報に限らず、俯瞰図そのものであってもよい。また、これらの例示に限らず、第2暗号化情報は、文書中の単語の頻度を集計して第2情報端末12で解析した情報であればよい。
【0058】
また、本解析において、複数の第1暗号化情報を受信した場合、各々の第1暗号化情報のそれぞれの組の類似度が解析されてもよい。特徴量および類似度の解析手法については特に限定されないが、特徴量の解析手法として、tf-idf法、Okapi BM25、Bag of Wordsに基づいた方法などが使用されてよい。また、LDA(潜在的ディリクレ配分法)など、特異値分解または主成分分析を用いて初期の特徴量の次元を減らし、減らした次元に基づいて、特徴量が解析されてもよい。類似度の解析手法としては、前述した方法によって得られた特徴量に基づいて、コサイン類似度およびユークリッド距離などが計算されてよい。また、複数の文章を解析する場合、類似度をマトリックス形式ではなく、二次元座標の射影としてのXY座標で表してもよい(
図10参照)。さらに、複数の文字からなる複合語が同時に生成されてもよい(
図10参照)。複合語を生成することで、第1情報端末11の所有者は、より容易に文章の情報を把握することができる。
【0059】
第2情報端末12において、第2暗号化情報が生成されると、
図4に示すように、第2情報端末12の所有者の操作または第2情報端末12の制御によって、第2暗号化情報およびIDが第1情報端末11に送信される。
【0060】
第1情報端末11が第2暗号化情報およびIDの両方を受信した場合、第1情報端末11は第2暗号化情報を復号化して、解析対象情報を取得する。(
図4/STEP3)。このとき、第1暗号化情報を生成する段階で生成した暗号化鍵(前述した対応情報)によって、第2暗号化情報が復号化される。それにより、第1情報端末11の所有者は、
図11に示すような解析結果を取得できる。したがって、第2情報端末12の所有者およびネットワーク13において不正傍受した者に対して情報が洩れることなく、第1情報端末11の所有者のみが解析対象情報を取得することができる。
【0061】
また、このとき、解析結果に付与されているIDに基づいて、解析結果に紐づけられた属性情報(元の文書や、文書作成者、作成日など)を容易に確認することが可能になる。
【符号の説明】
【0062】
1・・情報処理システム、11・・第1情報端末、12・・第2情報端末、13・・ネットワーク、110・・第1暗号化情報生成部、111・・復号化処理部、120・・第2暗号化情報生成部、121・・通信部(第2情報端末)、1101・・単語抽出部、1102・・頻度情報作成部、1103・・対応情報生成部、1104・・第1暗号化処理部、1105・・辞書データ格納部、1106・・ID付与部、1107・・通信部(第1情報端末)。