IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社FRONTEOの特許一覧

特開2024-162503情報処理装置、情報処理システム及び情報処理方法
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024162503
(43)【公開日】2024-11-21
(54)【発明の名称】情報処理装置、情報処理システム及び情報処理方法
(51)【国際特許分類】
   G06N 20/00 20190101AFI20241114BHJP
   G06F 16/383 20190101ALI20241114BHJP
【FI】
G06N20/00
G06F16/383
【審査請求】有
【請求項の数】16
【出願形態】OL
(21)【出願番号】P 2023078058
(22)【出願日】2023-05-10
(11)【特許番号】
(45)【特許公報発行日】2023-09-28
(71)【出願人】
【識別番号】316014906
【氏名又は名称】株式会社FRONTEO
(74)【代理人】
【識別番号】110002848
【氏名又は名称】弁理士法人NIP&SBPJ国際特許事務所
(72)【発明者】
【氏名】富安 啓輔
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175BA01
5B175DA01
5B175FA01
(57)【要約】
【課題】複数の情報処理装置間の連携処理をセキュアに実行可能な情報処理装置、情報処理システム及び情報処理方法等の提供。
【解決手段】 情報処理装置は、文書データを取得する取得部と、文書データの形態素解析を行う解析処理部と、形態素解析の結果、及び、ハッシュ関数に基づいて文書データに対応する特徴量を決定する特徴量決定部と、特徴量に基づくデータであるエクスポートデータを、第2情報処理装置に出力するエクスポート部と、第2情報処理装置におけるエクスポートデータに基づく処理結果を取得するインポート部と、インポート部が取得した処理結果に基づく処理を行う処理部と、を含む。
【選択図】図2
【特許請求の範囲】
【請求項1】
文書データを取得する取得部と、
前記文書データの形態素解析を行う解析処理部と、
前記形態素解析の結果、及び、ハッシュ関数に基づいて前記文書データに対応する特徴量を決定する特徴量決定部と、
前記特徴量に基づくデータであるエクスポートデータを、第2情報処理装置に出力するエクスポート部と、
前記第2情報処理装置における前記エクスポートデータに基づく処理結果を取得するインポート部と、
前記インポート部が取得した前記処理結果に基づく処理を行う処理部と、
を含む情報処理装置。
【請求項2】
請求項1において、
前記エクスポート部は、
前記エクスポートデータとして、前記特徴量を出力し、
前記第2情報処理装置は、
前記特徴量に基づく機械学習によって学習済モデルを生成し、
前記インポート部は、
前記学習済モデル、または前記学習済モデルに基づく情報を、前記処理結果として取得し、
前記処理部は、
処理対象となる文書データである処理対象文書データの前記特徴量を前記学習済モデルに入力することによって、前記処理対象文書データの処理を行う情報処理装置。
【請求項3】
請求項2において、
前記エクスポート部は、
前記エクスポートデータとして、前記特徴量に基づいて生成された検索パラメータを出力し、
前記インポート部は、
前記検索パラメータ及び前記学習済モデルに基づいて特定された情報を、前記処理結果として取得する情報処理装置。
【請求項4】
請求項1において、
前記処理部は、
前記特徴量決定部が決定した前記特徴量に基づく機械学習によって学習済モデルを生成する学習処理、及び、前記処理結果に基づいて前記学習済モデルを更新する処理を行い、
前記インポート部は、
前記エクスポートデータに基づく分析処理の結果を、前記処理結果として取得する情報処理装置。
【請求項5】
請求項4において、
前記エクスポート部は、
前記エクスポートデータとして、前記処理部により生成された前記学習済モデルを出力し、
前記インポート部は、
前記学習済モデルに関する前記分析処理の結果を、前記処理結果として取得する情報処理装置。
【請求項6】
請求項4において、
前記エクスポート部は、
前記エクスポートデータとして、前記特徴量を出力し、
前記インポート部は、
前記機械学習の訓練データである前記特徴量に関する前記分析処理の結果を、前記処理結果として取得する情報処理装置。
【請求項7】
請求項1乃至6の何れか一項において、
前記特徴量決定部は、
前記文書データに付与されたメタデータに基づいて、前記メタデータに対応する特徴量であるメタデータ特徴量を決定し、
前記エクスポート部は、
前記形態素解析の結果に対応する前記特徴量、及び、前記メタデータ特徴量に基づくデータである前記エクスポートデータを出力する情報処理装置。
【請求項8】
請求項2乃至6の何れか一項において、
前記特徴量決定部は、
前記ハッシュ関数の出力サイズを含む制御パラメータを決定し、前記形態素解析の結果に対して、前記制御パラメータに従った前記ハッシュ関数を適用することによって前記文書データを、前記特徴量の型の一つであるテンソルに変換する情報処理装置。
【請求項9】
請求項8において、
前記特徴量決定部は、
前記学習済モデルの評価処理において、前記学習済モデルの性能が所定以上と判定されるまで、前記ハッシュ関数の前記出力サイズを含む前記制御パラメータを更新する処理を行う情報処理装置。
【請求項10】
請求項8において、
前記特徴量決定部は、
前記形態素解析の結果のうち、記号及び文字化けの少なくとも一方を含む特殊文字に対して前記ハッシュ関数を適用することによって、前記文書データを前記テンソルに変換する情報処理装置。
【請求項11】
第1情報処理装置と、
第2情報処理装置と、
を含み、
前記第1情報処理装置は、
文書データを取得する取得部と、
前記文書データの形態素解析を行う解析処理部と、
前記形態素解析の結果、及び、ハッシュ関数に基づいて前記文書データを表す特徴量を決定する特徴量決定部と、
前記特徴量に基づくデータであるエクスポートデータを前記第2情報処理装置に出力するエクスポート部と、
前記第2情報処理装置における前記エクスポートデータに基づく処理結果を取得するインポート部と、
前記インポート部が取得した前記処理結果に基づく処理を行う処理部と、
を含む情報処理システム。
【請求項12】
情報処理装置が、
文書データを取得し、
前記文書データの形態素解析を行い、
前記形態素解析の結果、及び、ハッシュ関数に基づいて前記文書データを表す特徴量を決定し、
前記特徴量に基づくデータであるエクスポートデータを第2情報処理装置にエクスポートし、
前記第2情報処理装置における前記エクスポートデータに基づく処理結果をインポートし、
インポートした前記処理結果に基づく処理を行う、
情報処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理システム及び情報処理方法等に関する。
【背景技術】
【0002】
従来、機械学習を用いて文書データの処理を行う手法が知られている。例えば特許文献1には、モデルの特徴量を決定する際に、評価対象特徴量の作用種別または重みに基づいてパラメータを更新する文書情報抽出システムが開示されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2022-148430号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1の手法は、類似辞書等に基づく類似関係等を考慮して特徴量を評価するものであって、機密情報である文書データに関する処理を外部装置で実行する場合を考慮していない。
【0005】
本開示のいくつかの態様によれば、複数の情報処理装置間の連携処理をセキュアに実行可能な情報処理装置、情報処理システム及び情報処理方法等を提供できる。
【課題を解決するための手段】
【0006】
本開示の一態様は、文書データを取得する取得部と、前記文書データの形態素解析を行う解析処理部と、前記形態素解析の結果、及び、ハッシュ関数に基づいて前記文書データに対応する特徴量を決定する特徴量決定部と、前記特徴量に基づくデータであるエクスポートデータを、第2情報処理装置に出力するエクスポート部と、前記第2情報処理装置における前記エクスポートデータに基づく処理結果を取得するインポート部と、前記インポート部が取得した前記処理結果に基づく処理を行う処理部と、を含む情報処理装置に関係する。
【0007】
本開示の他の態様は、第1情報処理装置と、第2情報処理装置と、を含み、前記第1情報処理装置は、文書データを取得する取得部と、前記文書データの形態素解析を行う解析処理部と、前記形態素解析の結果、及び、ハッシュ関数に基づいて前記文書データを表す特徴量を決定する特徴量決定部と、前記特徴量に基づくデータであるエクスポートデータを前記第2情報処理装置に出力するエクスポート部と、前記第2情報処理装置における前記エクスポートデータに基づく処理結果を取得するインポート部と、前記インポート部が取得した前記処理結果に基づく処理を行う処理部と、を含む情報処理システムに関係する。
【0008】
本開示のさらに他の態様は、情報処理装置が、文書データを取得し、前記文書データの形態素解析を行い、前記形態素解析の結果、及び、ハッシュ関数に基づいて前記文書データを表す特徴量を決定し、前記特徴量に基づくデータであるエクスポートデータを第2情報処理装置にエクスポートし、前記第2情報処理装置における前記エクスポートデータに基づく処理結果をインポートし、インポートした前記処理結果に基づく処理を行う、情報処理方法に関係する。
【図面の簡単な説明】
【0009】
図1】情報処理装置を含む情報処理システムの構成例である。
図2】第1情報処理装置の構成例である。
図3】第2情報処理装置の構成例である。
図4】本実施形態の処理を説明するシーケンス図である。
図5】文書データの例である。
図6】文書データをハッシュ化した特徴量(ベクトル)の構成例である。
図7】文書データと特徴量の関係例である。
図8】情報処理システムの具体的な構成例である。
図9】第2情報処理装置の他の構成例である。
図10】本実施形態の処理を説明する他のシーケンス図である。
図11】第2情報処理装置の他の構成例である。
図12】本実施形態の処理を説明する他のシーケンス図である。
図13】第1情報処理装置の他の構成例である。
図14】本実施形態の処理を説明する他のシーケンス図である。
図15】情報処理システムの具体的な構成例である。
図16】制御パラメータの自動更新処理を説明するフローチャートである。
図17A】メタデータ特徴量の例である。
図17B】第1ノルムに基づくメタデータ特徴量の補正処理の説明図である。
図17C】第2ノルムに基づくメタデータ特徴量の補正処理の説明図である。
【発明を実施するための形態】
【0010】
以下、本実施形態について図面を参照しつつ説明する。図面については、同一又は同等の要素には同一の符号を付し、重複する説明は省略する。なお、以下に説明する本実施形態は、特許請求の範囲に記載された内容を不当に限定するものではない。また本実施形態で説明される構成の全てが、本開示の必須構成要件であるとは限らない。
【0011】
1.システム構成
図1は、本実施形態に係る情報処理装置である第1情報処理装置100を含む情報処理システム1の構成例を示す図である。情報処理システム1は、第1情報処理装置100、第2情報処理装置200を含む。ただし、情報処理システム1の構成は図1に限定されず、一部の構成を省略する、あるいは他の構成を追加する等、種々の変形実施が可能である。
【0012】
第1情報処理装置100は、文書データを取得する装置である。ここでの文書データは、テキストに関する情報を広く含む。例えば文書データは、電子メール、チャットツールを用いて書き込まれたデータ、SNS(Social Networking Service)に投稿されたデータ、文書作成アプリケーションを用いて作成されたデータ等、種々のデータを含むことが可能である。また文書データは、音声データに対する音声認識処理の結果として取得されるデータや、手書きの書類や帳票の読み取り結果に対して、OCR処理を行った結果のデータ等を含んでもよい。
【0013】
第2情報処理装置200は、第1情報処理装置100とは異なる装置であって、文書データに基づく処理を実行する装置である。例えば、第2情報処理装置200は、学習用の文書データに基づく機械学習を行うことによって、文書データの処理に用いられる学習済モデルを生成する。あるいは、学習済モデルを生成する機械学習は第1情報処理装置100において実行され、第2情報処理装置200は当該機械学習に関する分析処理を行ってもよい。なお後述するように、ここでの文書データに基づく処理とは、文書データをハッシュ化したデータ(後述する特徴量)を用いた処理であってもよい。
【0014】
本実施形態において、学習済モデルを用いて実行される文書データの処理とは、例えば分類処理であってもよい。分類処理とは、例えば所定の事案と対象の文書データとの関係度合いを求める処理であってもよい。ここでの所定の事案は種々考えられる。例えば本実施形態の情報処理システム1は、以下に示すディスカバリ支援システム等、種々のシステムに含まれてもよく、所定の事案とは以下に示す各種事案の何れかであってもよい。ただし、所定の事案は以下に列挙するものに限定されない。
【0015】
・ディスカバリ支援システムにおけるディスカバリ手続きが要求される本件訴訟
・犯罪捜査支援(フォレンジック)システムにおける捜査対象となる犯罪
・電子メール監視システムにおける不正行為(例えば、情報漏えい、談合など)
・医療応用システムにおける医薬に関する事例・事案
・経済安全保障支援システムにおけるリスクと機会に関する事例・事案
・インターネット応用システム等におけるインターネットに関する事例・事案
・プロジェクト評価システムにおける過去に遂行したプロジェクト
・マーケティング支援システムにおけるマーケティング対象となる商品、サービス
・知財評価システムにおける評価対象となる知的財産
・不正取引監視システムにおける不正な金融取引
・コールセンターエスカレーションシステムにおける過去の対応事例
・信用調査システムにおける信用調査する対象
・ドライビング支援システムにおける車両の運転に関すること
・営業支援システムにおける営業成績
【0016】
上記の医療応用システムに示したとおり、本実施形態に係る情報処理システム1は、医療・看護、介護情報、個人情報に関する処理を行ってもよい。例えば情報処理システム1は、患者の電子カルテを含む文書データを入力データとする処理を行うことによって、当該患者と疾病、看護、薬剤、介護等との関連度合いを判定してもよい。ここでの判定は、患者が患っている可能性のある疾病を推定するものであってもよいし、患者に必要な医療・看護処置、介護処置を推定するものであってもよい。あるいは判定は、患者に問題が発生した場合に、当該問題の要因となった医療・看護処置、介護処置、患者属性、患者の環境等を推定するものであってもよい。その他、医療・看護、介護情報に関する処理の具体例については種々の変形実施が可能である。
【0017】
また、本実施形態における文書データに対する処理は分類処理に限定されない。例えば本実施形態では、学習済モデルは、文書データのクラスタリング処理を行うモデルであってもよい。あるいは学習済モデルは、所与の抽出条件(検索パラメータ)に基づいて、文書データからキーワードを抽出するキーワード抽出処理を行ってもよい。あるいは学習済モデルは、文書データを相対的に短い内容にまとめる要約処理を行うモデルであってもよい。その他、本実施形態における文書データの処理は種々の変形実施が可能である。
【0018】
第1情報処理装置100は、例えばサーバシステムによって実現されてもよい。ここでのサーバシステムは、1つのサーバであってもよいし、複数のサーバを含んで構成されていてもよい。例えば、サーバシステムは、データベースサーバとアプリケーションサーバとを含んで構成されていてもよい。データベースサーバは、文書データや、後述する特徴量等を含む種々のデータを記憶する。アプリケーションサーバは、図4等を用いて後述する処理を実行する。なお、ここでの複数のサーバは、物理サーバであってもよいし、仮想サーバであってもよい。また、仮想サーバが用いられる場合、当該仮想サーバは、1つの物理サーバに設けられてもよいし、複数の物理サーバに分散して配置されてもよい。このように、本実施形態におけるサーバシステムの具体的な構成は、種々の変形実施が可能である。換言すれば、本実施形態に係る第1情報処理装置100は、単一の装置によって実現されてもよいし、複数の装置の分散処理によって実現されてもよい。また、第1情報処理装置100は、サーバシステムに限定されず、PC(Personal Computer)等の他の機器によって実現されてもよい。
【0019】
また第2情報処理装置200は、サーバシステムによって実現されてもよいし、PC等の他の機器によって実現されてもよい。第2情報処理装置200がサーバシステムによって実現される場合、具体的な構成に種々の変形実施が可能である点は、第1情報処理装置100と同様である。
【0020】
第1情報処理装置100及び第2情報処理装置200は、例えばネットワークを介して接続される。ここでのネットワークは、例えばインターネット等の公衆通信網である。ただしネットワークは、LAN(Local area network)等であってもよく、具体的な構成は限定されない。
【0021】
図2は、第1情報処理装置100の構成例を示す図である。第1情報処理装置100は、取得部110、解析処理部120、特徴量決定部130、処理部140、エクスポート部150、インポート部160を含む。ただし第1情報処理装置100の構成は図2に限定されず、一部の構成を追加する、あるいは他の構成を追加する等の種々の変形実施が可能である。
【0022】
取得部110は、文書データを取得する。上述したように、文書データは種々のデータを含むことが可能であり、取得部110は種々の装置、アプリケーションから文書データを取得することが可能である。取得部110は、文書データの取得元となる機器との通信を行う通信インターフェイスとして実現されてもよいし、当該通信を制御するプロセッサとして実現されてもよい。ここでの通信インターフェイスは、IEEE802.11やIEEE802.3に準拠した通信を行うインターフェイスであってもよいし、他の方式の通信を行うインターフェイスであってもよい。通信インターフェイスは、例えばアンテナ、RF(Radio Frequency)回路、ベースバンド回路等を含んでもよい。
【0023】
解析処理部120は、取得部110から文書データを取得し、当該文書データの形態素解析を行う。形態素解析については自然言語処理の分野において広く用いられる手法であるため詳細な説明は省略する。形態素解析によって、1つの文書データから、当該文書データに含まれる複数の形態素が抽出される。
【0024】
特徴量決定部130は、形態素解析の結果に基づいて、文書データに基づく特徴量を決定する。特徴量決定部130は、ハッシュ関数を用いることによって特徴量を求めてもよい。例えば特徴量は、語順の情報を残したまま各形態素をハッシュ化したデータであってもよいし、図5図7を用いて後述するように、語順の情報を含まないデータであってもよい。特徴量の詳細については後述する。
【0025】
エクスポート部150は、ハッシュ関数が適用された後の特徴量に基づくデータであるエクスポートデータを、外部装置に出力する。エクスポートデータは、特徴量そのものであってもよいし、特徴量に基づいて求められる情報(例えば後述する学習済モデルや検索パラメータ)であってもよい。例えば、第1情報処理装置100は、エクスポートデータとしてどのようなデータを出力するかを決定するエクスポートデータ決定部(不図示)を含んでもよい。エクスポート部150は、エクスポートデータ決定部によって決定されたデータを、エクスポートデータとして外部装置に出力する。ここでの外部装置は第1情報処理装置100とは異なる装置であって、例えば第2情報処理装置200である。第2情報処理装置200は、エクスポートデータに基づく処理を実行し、処理結果を取得する。インポート部160は、第2情報処理装置200での当該処理結果を取得する。
【0026】
エクスポート部150及びインポート部160は、例えば第2情報処理装置200との通信インターフェイスであってもよいし、当該通信インターフェイスを制御するプロセッサであってもよい。ここでの通信インターフェイスが用いる通信方式は、IEEE802.11に従った通信方式であってもよいし、IEEE802.3に従った通信方式であってもよいし、他の通信方式であってもよい。
【0027】
処理部140は、インポート部160が取得した第2情報処理装置200での処理結果に基づく処理を行う。ここでの処理は、取得した処理結果の出力処理(表示処理等)であってもよいし、他の処理であってもよい。処理部140における処理の詳細については後述する。
【0028】
本実施形態に係る第1情報処理装置100の各部は、下記のハードウェアによって構成される。ハードウェアは、デジタル信号を処理する回路及びアナログ信号を処理する回路の少なくとも一方を含むことができる。例えば、ハードウェアは、回路基板に実装された単一または複数の回路装置や、単一または複数の回路素子によって構成できる。単一または複数の回路装置は例えばIC(Integrated Circuit)、FPGA(field-programmable gate array)等である。単一または複数の回路素子は例えば抵抗、キャパシタ等である。なお第1情報処理装置100の各部とは、例えば取得部110、解析処理部120、特徴量決定部130、処理部140であるが、エクスポート部150及びインポート部160が含まれてもよい。
【0029】
また第1情報処理装置100の各部は、下記のプロセッサによって実現されてもよい。本実施形態の第1情報処理装置100は、情報を記憶するメモリと、メモリに記憶された情報に基づいて動作するプロセッサと、を含む。情報は、例えばプログラムと各種のデータ等である。プログラムは、第1情報処理装置100に、本明細書で説明する処理を実行させるものを含んでよい。プロセッサは、ハードウェアを含む。プロセッサは、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、DSP(Digital Signal Processor)等、各種のプロセッサを用いることが可能である。メモリは、SRAM(Static Random Access Memory)、DRAM(Dynamic Random Access Memory)、フラッシュメモリなどの半導体メモリであってもよいし、レジスタであってもよいし、ハードディスク装置(HDD:Hard Disk Drive)等の磁気記憶装置であってもよいし、光学ディスク装置等の光学式記憶装置であってもよい。例えば、メモリはコンピュータによって読み取り可能な命令を格納しており、当該命令をプロセッサが実行することによって、第1情報処理装置100の各部の機能が処理として実現される。ここでの命令は、プログラムを構成する命令セットの命令でもよいし、プロセッサのハードウェア回路に対して動作を指示する命令であってもよい。
【0030】
図3は、第2情報処理装置200の構成例を示す図である。第2情報処理装置200は、処理部240、エクスポート部250、インポート部260を含む。ただし第2情報処理装置200の構成は図3に限定されず、一部の構成を追加する、あるいは他の構成を追加する等の種々の変形実施が可能である。
【0031】
インポート部260は、第1情報処理装置100が出力したエクスポートデータを取得する処理を行う。
【0032】
処理部240は、インポート部260が取得したエクスポートデータに基づく処理を行う。例えば処理部240は、エクスポートデータとして特徴量を取得し、取得した特徴量を学習用データとした機械学習(学習処理)を行ってもよい。ただし、エクスポートデータは特徴量に限定されず、エクスポートデータに基づく処理部240の処理も学習処理に限定されない。処理部240における処理の詳細については後述する。
【0033】
エクスポート部250は、処理部240での処理結果を第1情報処理装置100に出力する。エクスポート部250及びインポート部260は、例えば第1情報処理装置100との通信インターフェイスであってもよいし、当該通信インターフェイスを制御するプロセッサであってもよい。ここでの通信インターフェイスが用いる通信方式は、IEEE802.11に従った通信方式であってもよいし、IEEE802.3に従った通信方式であってもよいし、他の通信方式であってもよい。
【0034】
第2情報処理装置200の各部は、デジタル信号を処理する回路及びアナログ信号を処理する回路の少なくとも一方を含むハードウェアにより構成できる。例えば、ハードウェアは、回路基板に実装された単一または複数の回路装置や、単一または複数の回路素子によって構成できる。
【0035】
また第2情報処理装置200はプロセッサとメモリを含んでもよい。第2情報処理装置200の各部は、ハードウェアを含むプロセッサによって実現されてもよく、プロセッサは、CPU、GPU、DSP等、各種のプロセッサを用いることが可能である。メモリは、半導体メモリであってもよいし、レジスタであってもよいし、磁気記憶装置であってもよいし、光学式記憶装置であってもよい。例えば、メモリはコンピュータによって読み取り可能な命令を格納しており、当該命令をプロセッサが実行することによって、第2情報処理装置200の各部の機能が処理として実現される。
【0036】
以上のように、第1情報処理装置100が取得した文書データに基づくエクスポートデータを、第2情報処理装置200において処理に用いることによって、第1情報処理装置100と第2情報処理装置200の連携処理が可能になる。例えば本実施形態の情報処理システム1は上述したディスカバリ支援システム等、種々のシステムに適用できるが、当該システムを、第1情報処理装置100と第2情報処理装置200の組み合わせにより実現できる。
【0037】
ただし本実施形態の文書データは、外部に漏洩することの好ましくない情報を含む可能性がある。例えば第1情報処理装置100が、所与の企業が活動する上で作成された電子メールや業務関連のデータを文書データとして取得する場合、当該文書データは社外に漏洩することが好ましくない機密情報となる。あるいは、従業員と顧客の会話データを書き起こした文書データを対象とする場合、文書データは、企業外部の人物(顧客)の発話内容を含む可能性もある。この場合も、文書データは機密情報として管理されることが望ましい。例えば第2情報処理装置200が外部企業の装置である場合、文書データそのものを第2情報処理装置200に送信することによって、機密情報が流出する可能性も考えられる。
【0038】
そこで本実施形態に係る情報処理装置である第1情報処理装置100は、上述したように取得部110と、解析処理部120と、特徴量決定部130と、エクスポート部150と、インポート部160と、処理部140を含む。特徴量決定部130は、ハッシュ関数に基づいて特徴量を決定する。エクスポート部160は、特徴量に基づくデータであるエクスポートデータを第2情報処理装置200に出力する。
【0039】
本実施形態の手法によれば、第1情報処理装置100から第2情報処理装置200へデータを送信する際に、元の文書データそのものではなく、ハッシュ化された特徴量や当該特徴量から求められるデータを、エクスポートデータとして送信することが可能になる。ハッシュ関数は非可逆的な(復号不能な)変換を行うため、エクスポートデータを外部機器へ送信することは機密情報の漏洩につながらない。従って、機密情報の流出を抑制した上で、文書データに基づく種々の処理を、複数の機器で連携して実行することが可能になる。
【0040】
また本実施形態の手法は、上記の第1情報処理装置100と、第2情報処理装置200と、を含む情報処理システム1に適用できる。本実施形態の手法によれば、第1情報処理装置100にとって第2情報処理装置200がセキュアな環境でなかったとしても、機密情報の流出を抑制した上で、複数の機器を適切に連携させることが可能になる。
【0041】
また本実施形態の手法は、情報処理装置(第1情報処理装置100)が、以下の各ステップを実行する情報処理方法に適用できる。情報処理方法は、情報処理装置が、文書データを取得し、文書データの形態素解析を行い、形態素解析の結果、及び、ハッシュ関数に基づいて文書データを表す特徴量を決定し、特徴量に基づくデータであるエクスポートデータを第2情報処理装置200にエクスポートし、第2情報処理装置200におけるエクスポートデータに対する処理結果をインポートし、インポートした処理結果に基づく処理を行う、ステップを含む。
【0042】
2.処理の詳細
情報処理システム1における処理の詳細について説明する。
【0043】
2.1 処理の流れ
図4は、本実施形態における処理の流れを説明するシーケンス図である。この処理が開始されると、まずステップS101において、第1情報処理装置100の取得部110は文書データを取得する。上述したように、ステップS101の処理は、電子メールの受信であってもよいし、SNSの投稿データの取得であってもよいし、他の処理であってもよい。
【0044】
ステップS102において、解析処理部120は、取得した文書データに対する形態素解析処理を行う。ここでの形態素とは、文を構成する言語上で意味を持つ最小単位を表す。形態素解析とは、文書データを複数の形態素に分解する処理を含む。解析処理部120は、形態素解析の結果として、当該文書データに含まれる形態素の集合を取得する。なお解析処理部120では、形態素の品詞等を判定してもよく、それらの判定結果が形態素解析の結果に含まれてもよい。形態素解析については自然言語処理の分野において広く用いられる手法であるため、詳細な説明は省略する。
【0045】
ステップS103において、特徴量決定部130は、文書データに対応する特徴量を決定する。例えば、特徴量決定部130は、対象の文書データにおける所与の形態素の出現状態に基づいて、当該所与の形態素に対応する値を決定する処理を行ってもよい。そして特徴量決定部130は、各形態素について求められた値を並べたテンソル(狭義にはベクトル)を対象の文書データを表す特徴量としてもよい。
【0046】
図5図7は、形態素解析の結果、及び、ハッシュ関数に基づいて特徴量を求める処理を説明する図である。図5は、文書データ、及び形態素解析の結果の簡単な例である。例えば文書データとして文書データA~文書データDの4つの文書があったとする。例えば文書データAは“Impossible is nothing.”という1文からなる文書データである。この場合、形態素解析の結果として(Impossible, is, nothing)の3つの形態素が取得される。文書データB~文書データDについても同様である。
【0047】
この場合、形態素の数を要素とし、各要素の値に出現回数を割り当てることによって特徴量を求める例が考えられる。例えば、文書データAの特徴量は、(Impossible, is, nothing)に対応する3つの要素からなるベクトルであって、各要素の値がそれぞれの形態素の出現回数である1となるベクトルである。ただしこの場合、文書データA~文書データDでは含まれている形態素の種類も数も異なるため、特徴量となるベクトルの要素数や、各要素に対応する形態素が文書データ間で異なってしまう。
【0048】
そこで、サイズがN(Nは2以上の整数)のテンソルを設定し、各形態素に対してハッシュ関数を適用することによって、各形態素をN個の要素の何れかに対応付ける手法が用いられる。図6は、この場合のテンソルの例である。以下、テンソルとして1階のテンソルであるベクトルを用いる例を説明するが、本実施形態のテンソルは行列であってもよいし、3階以上のテンソルであってもよい。図6の例では、テンソルサイズは13203である。例えば特徴量決定部130は、出力サイズ(出力範囲)が1以上、13203以下となるハッシュ関数を用いて、各形態素をテンソルの何れかの要素に対応付ける。図6の例では、Impossibleにハッシュ関数を適用した結果が1となるため、形態素Impossibleは、テンソルの1番目の要素に対応する。同様に、形態素isは、テンソルの2番目の要素に対応し、形態素nothingは、テンソルの3番目の要素に対応する例を考える。
【0049】
図7は、図5に示した文書データを、図6に示す規則で変換した特徴量を表す図である。例えば文書データAは、形態素として(Impossible, is, nothing)を1つずつ含むため、特徴量決定部130は、1~3番目の要素が1であり、他の要素がすべて0となるテンソルを文書データAの特徴量として決定する。文書データB~文書データDについても同様である。ここで取得された特徴量だけを見た場合、1番目の要素がImpossibleに対応し、2番目の要素がisに対応するという関係を求めることは不可能である。従って、特徴量決定部130が求めた特徴量から元の文書データを復元することはできないため、当該特徴量は非機密情報として取り扱うことが可能である。さらに、全ての文書データのテンソルサイズが共通となるため、処理の並列化や共通化を実現でき、結果として本実施形態に係る処理を高速に実行することも可能である。処理の並列化については後述する。
【0050】
なお異なる2つの形態素に対してハッシュ関数を適用した結果がたまたま一致してしまう(衝突する)可能性もある。衝突が発生した場合、当該2つの形態素が区別されないことになるため、処理の精度が低下する可能性がある。従って、ハッシュ関数の出力サイズNは、想定される形態素の数よりも十分大きい値(例えば数十倍から数百倍)であってもよい。
【0051】
図5図7では、形態素の出現回数に着目した処理が行われることによって、語順の情報を含まない特徴量が求められる例を説明した。例えば、文書データAでは、(Impossible, is, nothing)がこの順に出現するが(図5)、並び順がこれ以外であっても、(Impossible, is, nothing)が1回ずつ出現する文書データであれば、特徴量は文書データAと等しくなる(図7)。ただし本実施形態の特徴量はこれに限定されず、語順の情報を含むデータであってもよい。例えば特徴量決定部130は、形態素にハッシュ関数を適用した結果(図6)を、形態素の出現順序通りに並べた情報を特徴量として求めてもよい。その他、本実施形態の特徴量は、形態素解析の結果とハッシュ関数を用いた種々の情報に拡張が可能である。
【0052】
図4に戻って説明を続ける。特徴量が求められた後、ステップS104において、エクスポートデータ決定部は、エクスポートデータとして出力するデータを決定する。例えば第1情報処理装置100の不図示の記憶部は、エクスポートデータの複数の候補を記憶してもよい。エクスポートデータ決定部は、例えばユーザ入力に基づいて、当該複数の候補のいずれかをエクスポートデータとして決定してもよい。
【0053】
ステップS105において、エクスポート部150は、特徴量に基づくエクスポートデータを第2情報処理装置200にエクスポートする。第2情報処理装置200のインポート部260は、第1情報処理装置100からのエクスポートデータをインポートする。
【0054】
ステップS106において、第2情報処理装置200の処理部240は、エクスポートデータに基づいて処理を行う。処理の詳細は図8図14を用いて後述する。
【0055】
ステップS107において、第2情報処理装置200のエクスポート部250は、処理結果を第1情報処理装置100にエクスポートする。第1情報処理装置100のインポート部160は、処理結果をインポートする。
【0056】
ステップS108において、第1情報処理装置100の処理部140は、処理結果に基づく処理を行う。
【0057】
図8は、情報処理システム1の具体的な構成例を示す図である。上述した処理の流れを、図8の情報処理システム1に当てはめた場合の例について説明する。
【0058】
図8に示すように、情報処理システム1は、例えば日本に配置される日本サーバ10、米国に配置される米国サーバ20、欧州に配置される欧州サーバ30、韓国に配置される韓国サーバ40を含んでもよい。
【0059】
日本サーバ10は、日本において取得された文書データを蓄積する(図4のステップS101に相当)。この文書データは、上述した通り機密情報として取り扱われる。同様に、米国サーバ20は、米国において取得された機密情報である文書データを蓄積する。欧州サーバ30は、欧州において取得された機密情報である文書データを蓄積する。韓国サーバ40は、韓国において取得された機密情報である文書データを蓄積する。なお以下の説明では、ハッシュ化される前の文書データを生データ(生の文書データ)とも表記する。生データは機密情報であり、図8の例であればそれぞれの国、地域の内部で取得された文書データを表す。
【0060】
この際、各サーバは、他国の文書データを取得することによって、処理対象を他国にまで拡張することが可能である。例えば、所与の企業の本社が韓国にあり、日本、米国及び欧州に支社が配置される場合、図8に示すように、韓国サーバ40は、日本サーバ10、米国サーバ20及び欧州サーバ30からデータを取得する。これにより、韓国サーバ40は、各国の文書データを集約した処理が可能になる。
【0061】
ただし上記の通り、日本サーバ10は生の文書データをそのまま送信するのではなく、エクスポートデータを韓国サーバ40に送信する(図4のステップS102-S105に相当)。ここでは、エクスポートデータが文書データをハッシュ化した特徴量そのものである例を説明する。特徴量はハッシュ化されたデータであるため、生データとは異なり非機密データである。米国サーバ20及び欧州サーバ30についても同様である。そのため、各国で取得された機密情報が国外へ流出することが抑制される。
【0062】
なお各国のサーバは、エクスポートデータを韓国サーバ40に送信する際、各特徴量に元の文書データを一意に表すIDを付与してもよい。このようにすれば、韓国サーバ40においても特徴量と文書データの対応関係を特定することが可能である。また特徴量に付与される情報はIDに限定されない。例えば韓国サーバ40は、各特徴量について、文書データID、文書データの取得国、取得日時等のメタデータを対応付けて管理してもよい。これらのメタデータは、韓国の文書データについては韓国サーバ40が取得し、他国の文書データについては各国のサーバが韓国サーバ40に送信する。
【0063】
また韓国サーバ40は、収集した情報に基づく処理を行い(図4のステップS106に相当)、処理結果を各国のサーバに送信する(ステップS107に相当)。これにより、日本サーバ10、米国サーバ20及び欧州サーバ30でも処理結果を活用することが可能になる。
【0064】
例えば上記企業の米国支社において訴訟が発生し、ディスカバリ手続きのために資料を提出する必要が生じたとする。この場合、例えば韓国サーバ40は、予め各国の文書データに基づく機械学習を行うことによって、ディスカバリ支援用の学習済モデルを作成してもよい。そして韓国サーバ40は、当該学習済モデルによる分類結果に基づいて、訴訟に関連すると判定された文書データに関する情報を米国サーバ20に送信する。これにより、対象企業におけるディスカバリ手続きを適切に支援することが可能になる。
【0065】
この際、本実施形態の手法では、処理結果として送信されるデータを必要なデータのみに限定することが可能である。上記のディスカバリ手続きの例であれば、韓国サーバ40は、複数の文書データのうち特に訴訟との関連度合いが高い一部のみを送信すればよい。
【0066】
例えば対象のデータが韓国の文書データである場合、韓国サーバ40は、韓国で取得された生の文書データのうち、訴訟に関連する文書データを抽出する処理を行い、抽出された文書データのみを米国サーバ20に送信する。あるいは韓国サーバ40は、生の文書データそのものではなく、当該文書データを画像化したデータや、当該文書データに付与されたメタデータを米国サーバ20に送信してもよい。これにより機密情報である文書データが必要以上に国外に流出することを抑制できる。なお、ディスカバリに関連する文書データが元々どの国で取得されたかは、例えばIDやメタデータから特定される。
【0067】
また対象のデータが米国の文書データである場合、韓国サーバ40は、当該文書データの生データを保持していない。従って韓国サーバ40は、文書データを特定するIDを米国サーバ20に送信してもよい。生の文書データは米国サーバ20に蓄積されているため、米国サーバ20はIDに基づいて、ディスカバリ手続きに使用する文書データを特定できる。
【0068】
また対象の文書データが日本の文書データである場合、韓国サーバ40は、文書データを特定するID、及び当該IDに対応する文書データを米国サーバ20に送信する指示を日本サーバ10に送信してもよい。日本サーバ10は、IDに基づいて対象となる文書データを特定し、特定された文書データを米国サーバ20に送信する。ここで日本サーバ10から米国サーバ20に送信される情報は、上記の例と同様に、生データであってもよいし、生データの一部が画像化された情報であってもよいし、生データに付与されたメタデータであってもよい。対象の文書データが欧州の文書データである場合も同様に、韓国サーバ40は欧州サーバ30を介して必要なデータを米国サーバ20に送信する。
【0069】
図8の例において、エクスポートデータ(特徴量)をエクスポートし、当該エクスポートデータに基づく処理結果をインポートする米国サーバ20が、本実施形態の情報処理装置(第1情報処理装置100)に対応する。また、米国サーバ20から取得したエクスポートデータに基づく処理を行い、処理結果を米国サーバ20に送信する韓国サーバ40が、第2情報処理装置200に対応する。
【0070】
なお、日本サーバ10及び欧州サーバ30は、米国サーバ20によるエクスポートデータの出力先になっていないが、韓国サーバ40の処理結果を米国サーバ20に送信する可能性があることから、米国サーバ20にとっての外部機器(第2情報処理装置200)に含まれてもよい。即ち、第2情報処理装置200は1つの装置に限定されず、複数の装置の分散処理によって実現されてもよい。
【0071】
2.2 エクスポートデータの具体例
次に、第1情報処理装置100から出力されるエクスポートデータ、当該エクスポートデータを用いた第2情報処理装置200における処理、及び、第2情報処理装置200の処理結果、のそれぞれについていくつかの具体例を説明する。
【0072】
<例1>
第2情報処理装置200は、第1情報処理装置100からエクスポートデータが出力される時点で、学習済モデルを取得済みであってもよい。当該学習済モデルは、例えば第2情報処理装置200が取得した文書データに基づいて作成されたモデルであってもよい。この場合、第1情報処理装置100は、特徴量決定部130が求めた特徴量そのものを、推論処理の対象となるデータとしてエクスポートしてもよい。第2情報処理装置200は、第1情報処理装置100からインポートした特徴量を、既存の学習済モデルに入力し、当該モデルの出力を取得する。モデルの出力は、例えば特徴量に対応する文書データと、所与の事案との関連度合いを表すスコアである。第1情報処理装置100のインポート部160は、当該スコアを処理結果として取得してもよい。
【0073】
図9は、この場合の情報処理システム1の構成例を示す図であり、特に第2情報処理装置200の他の構成例を示す図である。図9に示すように、第2情報処理装置200は、取得部210、解析処理部220、特徴量決定部230、処理部240、エクスポート部250、インポート部260を含んでもよい。処理部240は、学習処理部241、推論処理部242を含んでもよい。
【0074】
取得部210は、文書データを取得する。解析処理部220は、取得部210から文書データを取得し、当該文書データの形態素解析を行う。特徴量決定部230は、形態素解析の結果とハッシュ関数に基づいて、文書データを表す特徴量を決定する。取得部210、解析処理部220、特徴量決定部230は、第1情報処理装置100の取得部110、解析処理部120、特徴量決定部130と同様である。
【0075】
学習処理部241は、特徴量に基づいて、モデルにおける重みを決定する機械学習を行う。ここでのモデルは線形モデル、一般化線形モデル、決定木方式、ランダムフォレスト等、種々のモデルを適用できる。あるいはモデルはニューラルネットワークを用いたものであってもよく、例えばRNN(Recurrent Neural Network)やこれらを発展させた手法であってもよい。ここでの機械学習は例えば教師あり学習であり、特徴量には正解データが付与されていてもよい。正解データは、例えば文書データが所与の事案と関連するか否かを表すタグである。例えば学習処理部241は、特徴量を説明変数、正解データを目的変数として、確からしい重みを推定する処理を行う。学習処理部241は、重みが決定されたモデルを学習済モデルとして出力する。ただし、学習済モデルはクラスタリング処理を行うものであってもよく、この場合の機械学習は教師なし学習であってもよい。
【0076】
推論処理部242は、学習処理部241が出力した学習済モデルを用いた推論処理を行う。具体的には、推論処理部242は、推論処理の対象となる文書データの特徴量を学習済モデルに入力することによって、当該文書データのスコアを取得してもよい。
【0077】
例えばインポート部260は、推論処理の対象となる文書データの特徴量を、エクスポートデータとして取得してもよい。推論処理部242は、当該特徴量を学習済モデルに入力する。このようにすれば、推論処理部242は、第1情報処理装置100が取得した文書データを対象として、学習済モデルを用いた処理を実行することが可能になる。具体的には、推論処理部242は、処理の対象となる文書データと、所与の事案との関連度合いをスコア等の情報として求める分類処理を行う。
【0078】
第1情報処理装置100のインポート部160は、推論処理部242が求めたスコア等をインポートする。第1情報処理装置100の処理部140は、例えばスコアを表示する処理を行う。
【0079】
図10は、この場合の処理の流れを説明するシーケンス図である。ステップS201において、第1情報処理装置100の取得部110は、推論処理(例えば分類処理)の対象となる文書データを取得する。例えば取得部110は、第1情報処理装置100を使用するユーザの入力に基づいて、分類処理の対象となる文書データを決定してもよい。あるいは取得部110は、文書データの種別、作成者、作成日時等に基づいて、1または複数の文書データを、分類処理の対象となる文書データとして自動的に選択してもよい。例えば本実施形態の手法が電子メールの監査に用いられる場合、第1情報処理装置100の取得部110は、被監査者が所定期間内に送受信した全ての電子メールを、分類処理の対象となる文書データとしてもよい。
【0080】
ステップS202において、解析処理部120は、文書データの形態素解析を行う。ステップS203において、特徴量決定部130は、形態素解析の結果とハッシュ関数に基づいて特徴量を求める。
【0081】
ステップS204において、エクスポート部150は、特徴量を第2情報処理装置200にエクスポートする。なおステップS204の前に、エクスポートデータ決定部が、特徴量をエクスポートデータとして決定する処理が行われてもよい。
【0082】
ステップS205において、第2情報処理装置200の推論処理部242は、第1情報処理装置100から送信された特徴量を、既存の学習済モデルに入力することによってモデルの出力を求める。エクスポート部250は、モデルの出力を第1情報処理装置100にエクスポートする。
【0083】
ステップS206において、第1情報処理装置100のインポート部160は、学習済モデルの出力をインポートし、処理部140に出力する。このようにすれば、第1情報処理装置100が取得した文書データに関する処理を外部装置で実行する際に、機密情報の流出を抑制することが可能になる。
【0084】
なお第2情報処理装置200が学習済モデルを用いて実行する処理は、分類処理に限定されず、クラスタリング処理、キーワード抽出処理、要約処理等であってもよい。例えば、第2情報処理装置200の学習処理部241は、クラスタリング用の学習済モデルを作成する。推論処理部242は、インポート部260が取得した特徴量を当該学習済モデルに入力することによって、文書データのクラスタリングを行う。あるいは学習処理部241は、キーワード抽出用の学習済モデルを作成し、推論処理部242は、インポート部260が取得した特徴量を当該学習済モデルに入力することによって、所与の抽出条件に従って文書データからキーワードを抽出する。ここでの抽出条件は、例えば予め設定された単語及びそれと類似する単語であってもよいし、異なる条件であってもよい。あるいは学習処理部241は、要約処理の学習済モデルを作成し、推論処理部242は、インポート部260が取得した特徴量を当該学習済モデルに入力することによって、文書データを要約した要約文書データを出力する。
【0085】
<例2>
第2情報処理装置200は、第1情報処理装置100からエクスポートされた特徴量を学習処理に用いてもよい。この場合、第1情報処理装置100は、特徴量を学習用のデータとしてエクスポートしてもよい。第2情報処理装置200は、第1情報処理装置100からインポートした特徴量に基づく機械学習を行い、学習済モデルを作成する。第1情報処理装置100のインポート部160は、作成された学習済モデル自体を処理結果として取得してもよいし、作成された学習済モデルの出力を処理結果として取得してもよい。
【0086】
図11は、この場合の情報処理システム1の構成例を示す図であり、特に第2情報処理装置200の他の構成例を示す図である。第2情報処理装置200が、取得部210、解析処理部220、特徴量決定部230、学習処理部241、推論処理部242、エクスポート部250、インポート部260を含む点は図9と同様である。図9との相違点は、インポート部260が第1情報処理装置100から取得した特徴量が、学習処理部241に入力される点である。また第2情報処理装置200が生の文書データを取得しない場合(学習用データを外部のみから取得する場合)、図11における取得部210、解析処理部220、及び特徴量決定部230は省略されてもよい。
【0087】
図12は、この場合の処理の流れを説明するシーケンス図である。ステップS301において、第1情報処理装置100の取得部110は、学習用のデータである文書データを取得する。例えば取得部110は、文書データに対して、正解データを対応付けるアノテーション処理を実行してもよい。アノテーション処理は、例えばユーザが文書データの詳細を確認した上で、所与の事案に関連するか否かを入力することによって行われる。なおアノテーション処理は第1情報処理装置100以外の装置で実行されてもよい。また教師なし学習が行われる場合、アノテーションは省略される。
【0088】
ステップS302において、解析処理部120は、文書データの形態素解析を行う。ステップS303において、特徴量決定部130は、形態素解析の結果とハッシュ関数に基づいて特徴量を求める。ステップS304において、エクスポート部150は、特徴量をエクスポートデータとして第2情報処理装置200にエクスポートする。
【0089】
ステップS305において、第2情報処理装置200の学習処理部241は、第1情報処理装置100から送信された特徴量を学習用のデータの少なくとも一部として機械学習を行うことによって、学習済モデルを作成する。本実施形態では、機械学習には公知の手法を広く適用可能であるため、詳細な説明については省略する。
【0090】
このように第2情報処理装置200が特徴量に基づく機械学習によって学習済モデルを生成する場合において、第1情報処理装置100のエクスポート部150は、エクスポートデータとして特徴量を出力し、インポート部160は、当該特徴量を用いて作成された学習済モデルまたは学習済モデルに基づく情報を、処理結果として取得してもよい。このようにすれば、第1情報処理装置100でも機械学習の結果を利用した処理を実行することが可能になる。
【0091】
例えばインポート部160は、学習済モデルそのものを処理結果として取得してもよい。このように、学習済モデル自体を取得することによって、第1情報処理装置100において当該学習済モデルを用いた推論処理を実行することが可能になる。例えば、処理部140は、処理対象となる文書データの特徴量を学習済モデルに入力することによって、文書データの処理を行う。第1情報処理装置100が学習済モデルを用いて実行する処理は、上述した第2情報処理装置200の例と同様に、分類処理、クラスタリング処理、キーワード抽出処理、要約処理等、種々の処理を含むことが可能である。
【0092】
図12のステップS306-S311は、学習済モデルをインポートする場合の処理例に対応する。例えばステップS306において、第1情報処理装置100のインポート部160は、学習処理部241で作成された学習済モデルをインポートする。インポートされた学習済モデルは、例えば第1情報処理装置100の不図示の記憶部に記憶される。
【0093】
ステップS307において、取得部110は、推論処理の対象となる文書データである推論用文書データを取得する。ステップS308において、解析処理部120は、推論用文書データの形態素解析を行う。ステップS309において、特徴量決定部130は、形態素解析の結果とハッシュ関数に基づいて特徴量を求める。
【0094】
ステップS310において、処理部140は不図示の記憶部から学習済モデルを読み出し、当該学習済モデルにステップS309で求めた特徴量を入力する。ステップS311において、処理部140は、学習済モデルを用いた処理の結果を出力する。例えば図12に示すように、処理部140は、文書データの分類処理を行い、その結果を出力してもよい。具体的には、学習済モデルが文書データと所与の事案の関連度合いを表すスコアを出力する場合に、処理部140は当該スコアの表示処理等を行う。
【0095】
ただしインポート部160は、学習済モデル自体をインポートするものには限定されない。例えばインポート部160は、第1情報処理装置100がエクスポートした特徴量に基づいて学習済モデルが作成された後、当該学習済モデルに基づいて第2情報処理装置200の推論処理部242が実行した処理の結果をインポートしてもよい。例えば図9及び図10を用いて上述したように、第1情報処理装置100のエクスポート部150は、新たに推論処理の対象となる文書データの特徴量をエクスポートし、インポート部160は当該特徴量に基づく処理結果(分類処理結果を表すスコア等)をインポートしてもよい。
【0096】
あるいは、エクスポート部150は、特徴量に基づいて生成された検索パラメータを、エクスポートデータとして第2情報処理装置200に出力してもよい。本実施形態の手法によれば、第1情報処理装置100は単に学習用データを提供するだけでなく、当該学習用データに基づく検索処理の内容を指定することが可能になる。従って、第1情報処理装置100のユーザの意図に沿った検索処理を第2情報処理装置200に実行させることが可能になる。
【0097】
ここでの検索パラメータは、例えば第1情報処理装置100で取得された複数の文書データの統計処理によって求められる。例えば検索パラメータは、所定の形態素を含む文書データに共通する属性を表す情報であってもよい。ここでの所定の形態素は、ユーザ指定の形態素であってもよいし、tf-idf(Term Frequency-Inverse Document Frequency)の値が大きい形態素であってもよいし、他の条件から決定される形態素であってもよい。また文書データの属性とは、当該文書データに付与されたメタデータから決定されてもよい。例えば文書データの種類、作成者、作成日時等が属性として使用できる。例えば第2情報処理装置200の推論処理部242は、学習済モデルを用いることによって分類処理を行った後、所与の事象に関連すると判定され、且つ、検索パラメータで指定される属性を有するデータを、処理結果として出力してもよい。
【0098】
また学習済モデルがスコアを出力する場合、検索パラメータは当該スコアとの比較処理に使用される閾値であってもよい。例えば第2情報処理装置200の推論処理部242は、学習済モデルを用いることによって推論対象文書データのスコアを求め、当該スコアが検索パラメータで指定される閾値を超えるデータを、処理結果として出力してもよい。例えば、第1情報処理装置100の記憶部は、文書データのメタデータ毎にスコアの分布範囲等の統計量を記憶してもよい。当該統計量は、例えば過去の処理結果に基づいて求められる。閾値は、処理対象文書データに付与されたメタデータと、記憶部が記憶する統計量に基づいて求められてもよい。
【0099】
また検索パラメータとは、学習済モデルの特性(例えば学習処理によって決定された重み)の変更を指示する情報であってもよい。例えば第2情報処理装置200の推論処理部242は、検索パラメータに基づいて学習済モデルを更新し、更新後の学習済モデルを用いた処理結果を出力してもよい。ここで変更対象となる重みや当該重みの変化量は、上記閾値の例と同様に、処理対象文書データに付与されたメタデータと、記憶部が記憶する過去の履歴(統計量等)に基づいて求められてもよい。その他、検索パラメータ及びそれを用いた処理は、種々の変形実施が可能である。
【0100】
図12のステップS312-S315は、検索パラメータを出力する場合の処理例に対応する。例えばステップS312において、第1情報処理装置100のエクスポート部150は、検索パラメータと推論用文書の特徴量をエクスポートデータとして第2情報処理装置200に出力するする。例えば図12には不図示であるが、エクスポートデータ決定部は、特徴量に基づいて検索パラメータを決定する処理を行ってもよい。
【0101】
ステップS313において、第2情報処理装置200の処理部240(狭義には推論処理部242)は、学習済モデルと検索パラメータに基づいて処理を行う。第2情報処理装置200のエクスポート部250は、処理結果を第1情報処理装置100にエクスポートする。
【0102】
ステップS314において、第1情報処理装置100のインポート部160は、学習済モデルと検索パラメータに基づく処理結果をインポートする。ステップS315において、処理部140は、インポートした処理結果を出力する。
【0103】
<例3>
また第1情報処理装置100が学習処理を行うことによって学習済モデルを作成してもよい。この場合、第1情報処理装置100は、特徴量を学習済モデルの分析用データとしてエクスポートしてもよい。第2情報処理装置200は、第1情報処理装置100から取得した特徴量に基づいて分析処理を実行する。ここでの分析処理は、データアセスメント、ラベルアセスメント、クレンジング、教師データ調整、AIモデル種選定等の処理を含んでもよい。なおこれらの処理は機械学習の分野において広く用いられる手法であるため、詳細な説明は省略する。第1情報処理装置100のインポート部160は、第2情報処理装置200での分析結果を処理結果として取得してもよい。
【0104】
図13は、この場合の情報処理システム1の構成例を示す図であり、特に第1情報処理装置100の他の構成例を示す図である。図13に示すように、第1情報処理装置100は、取得部110、解析処理部120、特徴量決定部130、処理部140、エクスポート部150、インポート部160を含む。処理部140は、学習処理部141、推論処理部142を含んでもよい。
【0105】
学習処理部141は、特徴量に基づいて、モデルにおける重みを決定する機械学習を行う。学習処理部141は、重みが決定されたモデルを学習済モデルとして出力する。推論処理部142は、学習処理部141が出力した学習済モデルを用いた推論処理を行う。
【0106】
図14は、この場合の処理の流れを説明するシーケンス図である。ステップS401において、第1情報処理装置100の取得部110は、学習用のデータである文書データを取得する。例えば取得部110は、文書データに対して、正解データを対応付けるアノテーション処理を実行してもよい。
【0107】
ステップS402において、解析処理部120は、文書データの形態素解析を行う。ステップS403において、特徴量決定部130は、形態素解析の結果とハッシュ関数に基づいて特徴量を求める。ステップS404において、処理部140(学習処理部141)は、特徴量に基づいて機械学習を行うことによって、学習済モデルを作成する。
【0108】
ステップS405において、エクスポート部150は、エクスポートデータとして、特徴量を第2情報処理装置200に出力する。より具体的には、エクスポート部150は、分析処理用(調整処理、解析処理用)のデータとして、特徴量決定部130が求めた特徴量を出力する。なおエクスポートデータは特徴量そのものに限定されず、特徴量の統計情報やメタデータを含んでもよい。
【0109】
ステップS406において、第2情報処理装置200の処理部240は、当該特徴量に基づく分析処理を実行する。ここでの特徴量は機械学習の訓練データであるため、第2情報処理装置200では、機械学習が適切なデータに基づいて実行されているか否かの判定や、データが不適切である場合に必要な調整内容等を分析することが可能である。第2情報処理装置200のエクスポート部250は、分析処理の結果を、第1情報処理装置100にエクスポートする。
【0110】
ステップS407において、インポート部160は、分析処理の結果をインポートする。ステップS408において、学習処理部141は、分析処理の結果に基づいて学習済モデルを更新する。例えば学習処理部141は、分析処理の結果に基づいて学習用データやモデル種別を更新した上で、再度学習処理を実行してもよい。
【0111】
ステップS409において、推論処理部142は、更新後の学習済モデルに基づく処理を行い、結果を出力する。なお図14では、特徴量のエクスポート前(ステップS405よりも前)に学習処理が実行される(ステップS404)例を示したがこれには限定されない。学習済モデルは、処理結果に基づく更新処理(ステップS408)よりも前に取得されていればよく、学習処理と、エクスポートデータの出力処理の処理順序は逆であってもよいし、並列に実行されてもよい。
【0112】
以上のように、第1情報処理装置100の処理部140(学習処理部141)は、特徴量決定部130が決定した特徴量に基づく機械学習によって学習済モデルを生成する学習処理(ステップS404)、及び、処理結果に基づいて学習済モデルを更新する処理(ステップS408)を行ってもよい。そしてインポート部160は、エクスポートデータに基づく分析処理の結果を、処理結果として取得する(ステップS407)。
【0113】
本実施形態の手法によれば、第1情報処理装置100が機械学習を行う場合において、当該機械学習に関する分析を外部の装置(第2情報処理装置200)で実行することが可能になる。この際、第2情報処理装置200に提供される情報は特徴量となるため、機密情報の流出を抑制できる。例えば、第1情報処理装置100のユーザは、自身の機密情報を流出させることなく、外部の分析アプリケーションを利用すること等が可能になる。
【0114】
また第2情報処理装置200において機械学習に関する分析を行う場合に、第1情報処理装置100が出力するエクスポートデータは特徴量に限定されない。例えばエクスポート部150は、エクスポートデータとして、処理部140(学習処理部141)により生成された学習済モデルを出力してもよい。この場合、第2情報処理装置200は、学習済モデルそのものを取得することによって、モデル種別や学習処理によって設定された重み等の情報に基づく分析処理を取得できる。インポート部160は、学習済モデルに関する分析処理の結果を、処理結果として取得する。この場合も、第1情報処理装置100が機械学習を行う場合において、機密情報を流出させることなく、当該機械学習に関する分析を外部の装置で実行することが可能になる。
【0115】
またエクスポート部150は、エクスポートデータとして、特徴量決定部130で決定された特徴量と、処理部140(学習処理部141)により生成された学習済モデルの両方を出力してもよい。
【0116】
3.変形例
以下、いくつかの変形例について説明する。
【0117】
3.1 他のシステム構成例
上述した図8の例では、米国サーバ20が第1情報処理装置100として機能し、韓国サーバ40(及び日本サーバ10及び欧州サーバ30)が第1情報処理装置100の外部機器である第2情報処理装置200として機能する例を説明した。ただし本実施形態の手法はこれに限定されない。
【0118】
図15は、情報処理システム1の他の構成例を示す図である。情報処理システム1が日本サーバ10、米国サーバ20、欧州サーバ30及び韓国サーバ40を含む点は図8と同様である。また各国のサーバが、当該国で取得された生の文書データを機密情報として記憶する点も図8と同様である。
【0119】
図15の例では、日本サーバ10は、日本で取得された文書データをハッシュ化した後の特徴量を、米国サーバ20、欧州サーバ30及び韓国サーバ40に送信する。米国サーバ20、欧州サーバ30及び韓国サーバ40についても同様に、自国で取得された文書データをハッシュ化した後の特徴量を他の3つのサーバに送信する。
【0120】
日本サーバ10は、米国、欧州及び韓国で取得された文書データに基づく特徴量を取得するため、日本、米国、欧州及び韓国の全ての文書データを対象とした処理を実行可能である。米国サーバ20、欧州サーバ30及び韓国サーバ40についても同様である。例えば日本サーバ10、米国サーバ20、欧州サーバ30及び韓国サーバ40は、それぞれが複数の国や地域で取得された文書データを対象とした学習処理や、当該学習処理によって作成された学習済モデルを用いた推論処理を実行できる。
【0121】
また日本サーバ10は、実行した処理の結果を、米国サーバ20、欧州サーバ30及び韓国サーバ40に送信してもよい。ここで送信される情報は、日本で取得された文書データの画像化データやメタデータ等であってもよいし、日本以外で取得された文書データに対する分析処理(データアセスメント、ラベルアセスメント、クレンジング、教師データ調整、AIモデル種選定)の結果であってもよいし、他の情報であってもよい。同様に、米国サーバ20、欧州サーバ30及び韓国サーバ40のそれぞれも、処理結果を他のサーバに送信する。
【0122】
以上のように、図15の例では、日本サーバ10、米国サーバ20、欧州サーバ30及び韓国サーバ40は、それぞれが第1情報処理装置100としても機能できるし、第2情報処理装置200としても機能できる。図15の情報処理システム1では、各機器が機密情報を非機密情報に変換して相互に送受信すること、及び、当該非機密情報に基づく処理結果を相互に送受信することが可能であるため、システム構成や処理手順を柔軟に変更することが可能になる。
【0123】
例えば、各国のサーバがそれぞれ異なる処理を実行し、処理結果を共有することによって、多様な処理を高速に実行することが可能である。具体的には、各国サーバが当該国の法制度に基づいて事案を設定し、当該事案と文書データの関連性を判定する処理を実行してもよい。この場合、どの国で訴訟等の問題が発生したとしても、情報処理システム1は、適切な対応をサポートすることが可能になる。あるいは、複数の国のサーバにおいて同じ処理を実行することによって、処理の信頼性を高めることも可能である。
【0124】
また図8及び図15では、第1情報処理装置100と第2情報処理装置200が異なる国または地域に配置される例を説明したが、本実施形態の情報処理システム1はこれに限定されるものではない。例えば第1情報処理装置100と第2情報処理装置200は、それぞれ異なる企業が管理する装置であってもよい。例えば、図13の例において、所与の第1企業が第1情報処理装置100を用いて機械学習を行っているが、期待する精度を得られなかったとする。この場合、第1企業は機械学習の分析に特化した第2企業に分析を依頼することを考えるが、学習用の文書データは機密情報であるため、社外への流出は好ましくない。その点、本実施形態の手法であれば、第2企業が使用する第2情報処理装置200へはハッシュ化後の特徴量や、当該特徴量に基づく学習済モデル等が送信される。そのため、文書データ自体を流出させることなく、外部企業のアプリケーション(この場合は機械学習の分析アプリケーション)を適切に利用することが可能になる。その他、本実施形態の手法は、第2情報処理装置200が第1情報処理装置100にとって非セキュアな環境である場合に広く適用可能である。
【0125】
3.2 ハッシュサイズ
図5図7を用いて上述したように、特徴量決定部130は、ハッシュ関数の出力サイズを含む制御パラメータを決定し、形態素解析の結果に対して、制御パラメータに従ったハッシュ関数を適用することによって、文書データを特徴量であるテンソルに変換してもよい。なおテンソルは特徴量の型の一つであり、他の態様の特徴量が用いられることは妨げられない。ここでの特徴量決定部は、第1情報処理装置100の特徴量決定部130であるが第2情報処理装置200の特徴量決定部230においても同様の処理が行われてもよい。以下、第1情報処理装置100及びその各部について説明するが、適宜、第2情報処理装置200及びその各部に置き換えが可能である。
【0126】
ここでハッシュ関数の出力サイズ、即ちテンソルのサイズ(図6の要素数)であるNは、文書データの内容によらない値であってもよい。例えば上述したように、Nは想定される形態素の数よりも十分多い値に設定される。このようにすれば、どのような文書データでも特徴量の形式が一定となるため、処理を共通化することが可能になる。
【0127】
またハッシュ関数の出力サイズが設定されている場合(定型テンソルを用いる場合)、新たな形態素が追加された場合であっても、特徴量の形式が変更されない。従って、処理済みの文書データを再度読み込むことや、特徴量への変換を再度実行する必要がない。例えば新たな形態素を含む文書データが追加された場合、当該文書データに対応する特徴量を求め、当該特徴量と既存の特徴量をマージすれば全文書データの特徴量を求めることが可能である。
【0128】
また定型テンソルを用いることによって、多数の文書データを特徴量に変換する処理を並列に実行することが可能になる。例えば多数の文書データをn(nは2以上の整数)グループに分割し、n個の装置を用いて並列に特徴量を求める場合、当該n個の装置の出力を単純にマージすれば全文書データの特徴量を求めることが可能である。結果として、高速処理を容易に実現できる。
【0129】
ただし、形態素の衝突を抑制することによる精度向上を考慮すればNを大きくする必要があるが、計算量の削減を考慮すればNを小さくする必要があり、精度と計算量のバランスがとれた適切なNの値をユーザが設定することは容易でなかった。
【0130】
そこで特徴量決定部130は、学習済モデルの評価処理において、学習済モデルの性能が所定以上と判定されるまで、ハッシュ関数の出力サイズを含む制御パラメータを更新する処理を行ってもよい。このようにすれば、ハッシュ関数の出力サイズであるNの設定を自動化できるため、ユーザ負担の軽減が可能である。
【0131】
図16は、この場合の第1情報処理装置100の処理を説明するフローチャートである。まずステップS501において、取得部110は文書データを取得する。ここでの文書データは、学習用の文書データであり、狭義には正解データが付与された文書データである。ステップS502において、解析処理部120は文書データの形態素解析を行う。
【0132】
ステップS503において、特徴量決定部130は、ハッシュ関数の出力サイズであるNの値を含む制御パラメータとして、仮パラメータを決定する。例えば特徴量決定部130は、対象の言語や、文書データの種別等に基づいて予め設定された複数の仮パラメータのうちの何れか1つを選択する。あるいは、仮パラメータはユーザが任意に設定可能であってもよい。
【0133】
ステップS504において、特徴量決定部130は、仮パラメータを用いて文書データを特徴量に変換する。具体的には、特徴量決定部130は、仮パラメータに含まれるNを出力サイズとするハッシュ関数を形態素解析の結果に適用することによって特徴量を求める。
【0134】
ステップS505において、学習処理部141は、特徴量に基づいて機械学習を行うことによって学習済モデルを作成する。ステップS506において、学習処理部141は、ステップS505で作成した学習済モデルの評価処理を行う。例えば学習処理部141は、交差検証を行うことによって学習精度を表す指標値を求め、当該指標値に基づいて学習済モデルの評価を行ってもよい。交差検証とは、複数の学習データをk(kは2以上の整数)単位に分割し、そのうちのk-1単位を訓練データとして重みの更新を行い、残りの1単位をテストデータ(バリデーションデータ)として、上記指標値を求める処理を行う手法である。交差検証については公知の手法であるため詳細な説明は省略する。またここでの指標値は、再現率、正解率、適合率、AUC(Area Under the Curve)等、種々の指標値を用いることが可能である。
【0135】
ステップS507において、学習処理部141は、仮パラメータが適切であったかを判定する。例えば学習処理部141は、ステップS506で求めた指標値が所与の閾値以上である場合に、仮パラメータが適切であると判定する。
【0136】
仮パラメータが適切でないと判定された場合(ステップS507:No)、第1情報処理装置100はステップS503に戻って処理を継続する。即ち、特徴量決定部130は、仮パラメータを更新する処理を行う。具体的には、特徴量決定部130は、複数の仮パラメータのうち、未選択である何れか1つを選択する処理を行ってもよい。あるいは特徴量決定部130は、更新前のNに対して、所定の規則に従った演算(例えば所定値の加算や乗算)を行うことによって仮パラメータを更新してもよい。
【0137】
仮パラメータ更新後の処理は上述した例と同様であり、仮パラメータを用いた特徴量の決定(ステップS504)、学習処理(ステップS505)、評価処理(ステップS506)が実行される。
【0138】
仮パラメータが適切であると判定された場合(ステップS507:Yes)、第1情報処理装置100はその時点の仮パラメータを制御パラメータとして決定する。そしてこれ以降の処理では、決定された制御パラメータを用いて処理が実行される。
【0139】
3.3 特殊文字
形態素解析の結果として記号や文字化けが検出されることがあるが、従来ではこれらはノイズとして除外する処理が行われていた。なお記号とは、日本語における句点(。)や読点(、)であってもよいし、英語におけるカンマ(,)、ピリオド(.)、コロン(:)等であってもよいし、他の記号であってもよい。また文字化けとは、文字コードの違い等に起因して、適切に表現されていない文字を表す。
【0140】
しかし記号や文字化けが形態素として出力されたのであれば、これらは何らかの規則に従って形態素と判定された可能性も考えられる。従って、特徴量決定部130は、形態素解析の結果のうち、記号及び文字化けの少なくとも一方を含む特殊文字に対してハッシュ関数を適用することによって、文書データをテンソルに変換する処理を行ってもよい。このようにすれば、特殊文字に関する情報を特徴量に含めることが可能になる。入力情報の種類が豊富になるため、処理精度の向上が可能になる。
【0141】
なお本実施形態では、特殊文字を処理に用いるか否かが制御パラメータとして扱われてもよい。例えば図16を用いて上述した処理において、制御パラメータは特殊文字の使用のオン/オフを決定するパラメータを含んでもよい。このようにすれば、特殊文字を用いるか否かを自動的に判定できるため、ユーザ負担を軽減しつつ、精度向上を図ることが可能になる。
【0142】
3.4 メタデータ
以上では、エクスポートデータに特徴量のメタデータが含まれる例、及び、第2情報処理装置200の処理結果として所与の文書データを出力する際に、当該文書データのメタデータを出力する例を説明した。ここでのメタデータは、例えば特徴量とは異なるデータとして扱われる。ただし本実施形態の手法はこれに限定されず、特徴量が文書データのメタデータを含んでもよい。
【0143】
本実施形態におけるメタデータは、例えば文書データの文字数、行数、これらの分布や統計量(平均値、中心値、標準偏差等)を含む。また本実施形態における文書データは、複数の人物の会話を書き起こしたデータであってもよい。例えば取得部110は、会話を録音した音声データを取得し、当該音声データに対する音声認識処理を行うことによって文書データを取得してもよい。この場合、文書データのメタデータには、人物毎の発話文字数、発話行数、発話時間等が含まれる。例えば文書データが、顧客と従業員の会話に対応する場合、顧客の発話文字数、従業員の発話文字数、時間分布等がメタデータとして用いられる。また、全発話文字数に対する、顧客の発話文字数の割合や従業員の発話文字数の割合等がメタデータとして用いられてもよい。例えば文書データの保管されていたファイルパス名やメールのやり取りの日時を含めてもよい。
【0144】
特徴量決定部130は、文書データに付与されたメタデータに基づいて、当該メタデータに関する特徴量であるメタデータ特徴量を決定する。そして上述してきた形態素解析の結果に対応する特徴量と、メタデータ特徴量の両方を、新たな特徴量として定義してもよい。例えば、エクスポート部150は、形態素解析の結果に対応する特徴量、及び、メタデータ特徴量に基づくデータであるエクスポートデータを出力する。このようにすれば、上述してきた特徴量を用いた各種処理において、形態素の情報だけでなくメタデータの情報を用いることが可能になる。多様な情報を用いることが可能であるため、処理精度の向上等が可能になる。
【0145】
例えば学習処理部141(または学習処理部241)は、形態素に対応する特徴量、及び、メタデータ特徴量に基づいて、機械学習を行う。このようにすれば、形態素とは異なるメタデータを特徴量に含めることができるため、学習精度の向上が可能になる。
【0146】
ただしメタデータは、その値がデータ毎に大きく異なる可能性がある。例えば、発話文字数は発話行数に比べて値が大きくなりやすい。また発話時間は、単位として秒を用いるか分を用いるかで値が変化しうる。そのため、メタデータの値をそのまま特徴量として用いた場合、値の大きな特徴量に学習モデルが強く影響され、全特徴量をまんべんなく学習できない可能性もある。
【0147】
そこで本実施形態では、メタデータの値そのものではなく、補正後の情報をメタデータ特徴量としてもよい。例えば、メタデータに対応する補正前特徴量として、第1~第P補正前特徴量が取得され、文書データとして、第1~第Q文書が取得された場合を考える。メタデータに対応する特徴量の種類数がPであり、文書データの数がQである。ここで、P、Qはそれぞれ1以上の整数である。ただし実際にはメタデータの種類数、及び文書データの数はともに複数であることが想定されるため、P、Qはそれぞれ2以上の整数であってもよい。
【0148】
特徴量決定部130は、補正前特徴量の個数P、文書データの数Q、第1~第Q文書に現れる第i補正前特徴量(iは1以上P以下の整数)によって求められる第1ノルム、及び、第j(jは1以上Q以下の整数)文書に現れる第1~第P補正前特徴量によって求められる第2ノルム、に基づいて、第1~第P補正前特徴量を補正することによって、メタデータ特徴量を決定してもよい。このようにすれば、メタデータ特徴量を適切に正規化することが可能になる。具体的には第1ノルムに基づく補正により、メタデータ間の値の差異を抑制できる。さらに第2ノルムに基づく補正も行うことで、文書ごとの特徴量の総和に対応する情報(例えば二乗和)を揃えることが可能になる。結果として、求められる特徴量の形式が言語情報(形態素)のみを対象とした場合と同様になるため、メタデータを用いる場合にも言語情報と同様の処理により学習処理等を実行可能である。
【0149】
図17A図17Cは、メタデータ特徴量の補正処理(正規化処理)を具体的に説明する図である。図17Aは、補正前のメタデータ特徴量を表す。補正前のメタデータ特両々とは、例えばメタデータの値そのものである。ここでは4種類のメタデータ特徴量及び、3つの文書データである文書1~文書3を対象とした例を説明する。即ちP=4、Q=3の例を考える。
【0150】
図17Aに示すように、メタデータ特徴量1の値は、文書1~文書3においてそれぞれ100、300、500である。メタデータ特徴量2の値は、文書1~文書3においてそれぞれ3、2、1である。メタデータ特徴量3の値は、文書1~文書3においてそれぞれ5000、300、1である。メタデータ特徴量4の値は、文書1~文書3においてそれぞれ0、1、0である。この例では、メタデータ特徴量1及び3の影響が相対的に強くなってしまう。図17Aにおける||L2||は、二乗和の平方根であるL2ノルムを表す。縦方向のL2ノルムは、第1~第Q文書に現れる第i補正前特徴量(iは1以上P以下の整数)によって求められるノルムであるため、第1ノルムに対応する。
【0151】
図17Bは、P,Q及び第1ノルムを用いた補正処理を説明する図である。図17Bは、図17Aの各要素について、下式(1)によって表される補正処理を行った結果を表す図である。例えばメタデータ特徴量1については、(1/591)×√(3/4)を乗じた結果である。図17Bに示す補正処理を行うことによって、縦方向のL2ノルムの二乗の値が全てのメタデータ特徴量について0.75で統一される。これにより、メタデータ特徴量ごとのスケールによる影響を抑制することが可能になる。
【0152】
【数1】
【0153】
また図17Bにおける横方向のL2ノルムは、第j(jは1以上Q以下の整数)文書に現れる第1~第P補正前特徴量によって求められるノルムであるため、第2ノルムに対応する。図17Bから明らかな通り、文書1はメタデータ特徴量の値が全体的に大きく、文書3はメタデータ特徴量の値が全体的に小さいというばらつきがある。本実施形態では、第2ノルムを用いた補正処理を行うことによって、当該ばらつきが抑制されてもよい。
【0154】
図17Cは、第2ノルムを用いた補正処理を説明する図である。図17Cは、図17Bの各要素について、1/(第2ノルム)を乗算する補正処理を行った結果を表す図である。例えば文書1については、各要素に(1/√1.25)を乗じた結果である。図17Cに示す補正処理を行うことによって、横方向のL2ノルムの二乗の値が全ての文書について1で統一される。これにより、特徴量の形式を言語情報のみを対象とした場合と同等にすることが可能になる。なお、メタデータ特徴量に対する補正処理をまとめると、下式(2)となる。
【0155】
【数2】
【0156】
なお、上記のように本実施形態について詳細に説明したが、本実施形態の新規事項および効果から実体的に逸脱しない多くの変形が可能であることは当業者には容易に理解できるであろう。従って、このような変形例はすべて本開示の範囲に含まれるものとする。例えば、明細書又は図面において、少なくとも一度、より広義または同義な異なる用語と共に記載された用語は、明細書又は図面のいかなる箇所においても、その異なる用語に置き換えることができる。また本実施形態及び変形例の全ての組み合わせも、本開示の範囲に含まれる。また情報処理システム、情報処理装置(第1情報処理装置)、第2情報処理装置等の構成及び動作等も、本実施形態で説明したものに限定されず、種々の変形実施が可能である。
【符号の説明】
【0157】
1…情報処理システム、10…日本サーバ、20…米国サーバ、30…欧州サーバ、40…韓国サーバ、100…第1情報処理装置、110…取得部、120…解析処理部、130…特徴量決定部、140…処理部、141…学習処理部、142…推論処理部、150…エクスポート部、160…インポート部、200…第2情報処理装置、210…取得部、220…解析処理部、230…特徴量決定部、240…処理部、241…学習処理部、242…推論処理部、250…エクスポート部、260…インポート部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17A
図17B
図17C
【手続補正書】
【提出日】2023-08-01
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
文書データを取得する取得部と、
前記文書データの形態素解析を行う解析処理部と、
前記形態素解析の結果、及び、ハッシュ関数に基づいて前記文書データに対応する特徴量を決定する特徴量決定部と、
前記特徴量に基づくデータであるエクスポートデータを、第2情報処理装置に出力するエクスポート部と、
前記第2情報処理装置における前記エクスポートデータに基づく処理結果を取得するインポート部と、
前記インポート部が取得した前記処理結果に基づく処理を行う処理部と、
を含み、
前記エクスポート部は、
前記エクスポートデータとして、前記特徴量を出力し、
前記第2情報処理装置は、
前記特徴量に基づく機械学習によって学習済モデルを生成し、
前記インポート部は、
前記学習済モデル、または前記学習済モデルに基づく情報を、前記処理結果として取得し、
前記処理部は、
処理対象となる文書データである処理対象文書データの前記特徴量を前記学習済モデルに入力することによって、前記処理対象文書データの処理を行い、
前記エクスポート部は、
前記エクスポートデータとして、前記特徴量に基づいて生成された検索パラメータを出力し、
前記インポート部は、
前記検索パラメータ及び前記学習済モデルに基づいて特定された情報を、前記処理結果として取得する情報処理装置。
【請求項2】
文書データを取得する取得部と、
前記文書データの形態素解析を行う解析処理部と、
前記形態素解析の結果、及び、ハッシュ関数に基づいて前記文書データに対応する特徴量を決定する特徴量決定部と、
前記特徴量に基づくデータであるエクスポートデータを、第2情報処理装置に出力するエクスポート部と、
前記第2情報処理装置における前記エクスポートデータに基づく処理結果を取得するインポート部と、
前記インポート部が取得した前記処理結果に基づく処理を行う処理部と、
を含み、
前記処理部は、
前記特徴量決定部が決定した前記特徴量に基づく機械学習によって学習済モデルを生成する学習処理、及び、前記処理結果に基づいて前記学習済モデルを更新する処理を行い、
前記インポート部は、
前記エクスポートデータに基づく分析処理の結果を、前記処理結果として取得する情報処理装置。
【請求項3】
請求項において、
前記エクスポート部は、
前記エクスポートデータとして、前記処理部により生成された前記学習済モデルを出力し、
前記インポート部は、
前記学習済モデルに関する前記分析処理の結果を、前記処理結果として取得する情報処理装置。
【請求項4】
請求項において、
前記エクスポート部は、
前記エクスポートデータとして、前記特徴量を出力し、
前記インポート部は、
前記機械学習の訓練データである前記特徴量に関する前記分析処理の結果を、前記処理結果として取得する情報処理装置。
【請求項5】
文書データを取得する取得部と、
前記文書データの形態素解析を行う解析処理部と、
前記形態素解析の結果、及び、ハッシュ関数に基づいて前記文書データに対応する特徴量を決定する特徴量決定部と、
前記特徴量に基づくデータであるエクスポートデータを、第2情報処理装置に出力するエクスポート部と、
前記第2情報処理装置における前記エクスポートデータに基づく処理結果を取得するインポート部と、
前記インポート部が取得した前記処理結果に基づく処理を行う処理部と、
を含み、
前記特徴量決定部は、
前記文書データに付与されたメタデータに基づいて、前記メタデータに対応する特徴量であるメタデータ特徴量を決定し、
前記エクスポート部は、
前記形態素解析の結果に対応する前記特徴量、及び、前記メタデータ特徴量に基づくデータである前記エクスポートデータを出力する情報処理装置。
【請求項6】
文書データを取得する取得部と、
前記文書データの形態素解析を行う解析処理部と、
前記形態素解析の結果、及び、ハッシュ関数に基づいて前記文書データに対応する特徴量を決定する特徴量決定部と、
前記特徴量に基づくデータであるエクスポートデータを、第2情報処理装置に出力するエクスポート部と、
前記第2情報処理装置における前記エクスポートデータに基づく処理結果を取得するインポート部と、
前記インポート部が取得した前記処理結果に基づく処理を行う処理部と、
を含み、
前記エクスポート部は、
前記エクスポートデータとして、前記特徴量を出力し、
前記第2情報処理装置は、
前記特徴量に基づく機械学習によって学習済モデルを生成し、
前記インポート部は、
前記学習済モデル、または前記学習済モデルに基づく情報を、前記処理結果として取得し、
前記処理部は、
処理対象となる文書データである処理対象文書データの前記特徴量を前記学習済モデルに入力することによって、前記処理対象文書データの処理を行い、
前記特徴量決定部は、
前記ハッシュ関数の出力サイズを含む制御パラメータを決定し、前記形態素解析の結果に対して、前記制御パラメータに従った前記ハッシュ関数を適用することによって前記文書データを、前記特徴量の型の一つであるテンソルに変換する情報処理装置。
【請求項7】
請求項において、
前記特徴量決定部は、
前記学習済モデルの評価処理において、前記学習済モデルの性能が所定以上と判定されるまで、前記ハッシュ関数の前記出力サイズを含む前記制御パラメータを更新する処理を行う情報処理装置。
【請求項8】
請求項において、
前記特徴量決定部は、
前記形態素解析の結果のうち、記号及び文字化けの少なくとも一方を含む特殊文字に対して前記ハッシュ関数を適用することによって、前記文書データを前記テンソルに変換する情報処理装置。
【請求項9】
第1情報処理装置と、
第2情報処理装置と、
を含み、
前記第1情報処理装置は、
文書データを取得する取得部と、
前記文書データの形態素解析を行う解析処理部と、
前記形態素解析の結果、及び、ハッシュ関数に基づいて前記文書データを表す特徴量を決定する特徴量決定部と、
前記特徴量に基づくデータであるエクスポートデータを前記第2情報処理装置に出力するエクスポート部と、
前記第2情報処理装置における前記エクスポートデータに基づく処理結果を取得するインポート部と、
前記インポート部が取得した前記処理結果に基づく処理を行う処理部と、
を含み、
前記エクスポート部は、
前記エクスポートデータとして、前記特徴量を出力し、
前記第2情報処理装置は、
前記特徴量に基づく機械学習によって学習済モデルを生成し、
前記インポート部は、
前記学習済モデル、または前記学習済モデルに基づく情報を、前記処理結果として取得し、
前記処理部は、
処理対象となる文書データである処理対象文書データの前記特徴量を前記学習済モデルに入力することによって、前記処理対象文書データの処理を行い、
前記エクスポート部は、
前記エクスポートデータとして、前記特徴量に基づいて生成された検索パラメータを出力し、
前記インポート部は、
前記検索パラメータ及び前記学習済モデルに基づいて特定された情報を、前記処理結果として取得する情報処理システム。
【請求項10】
第1情報処理装置と、
第2情報処理装置と、
を含み、
前記第1情報処理装置は、
文書データを取得する取得部と、
前記文書データの形態素解析を行う解析処理部と、
前記形態素解析の結果、及び、ハッシュ関数に基づいて前記文書データを表す特徴量を決定する特徴量決定部と、
前記特徴量に基づくデータであるエクスポートデータを前記第2情報処理装置に出力するエクスポート部と、
前記第2情報処理装置における前記エクスポートデータに基づく処理結果を取得するインポート部と、
前記インポート部が取得した前記処理結果に基づく処理を行う処理部と、
を含み、
前記処理部は、
前記特徴量決定部が決定した前記特徴量に基づく機械学習によって学習済モデルを生成する学習処理、及び、前記処理結果に基づいて前記学習済モデルを更新する処理を行い、
前記インポート部は、
前記エクスポートデータに基づく分析処理の結果を、前記処理結果として取得する情報処理システム。
【請求項11】
第1情報処理装置と、
第2情報処理装置と、
を含み、
前記第1情報処理装置は、
文書データを取得する取得部と、
前記文書データの形態素解析を行う解析処理部と、
前記形態素解析の結果、及び、ハッシュ関数に基づいて前記文書データを表す特徴量を決定する特徴量決定部と、
前記特徴量に基づくデータであるエクスポートデータを前記第2情報処理装置に出力するエクスポート部と、
前記第2情報処理装置における前記エクスポートデータに基づく処理結果を取得するインポート部と、
前記インポート部が取得した前記処理結果に基づく処理を行う処理部と、
を含み、
前記特徴量決定部は、
前記文書データに付与されたメタデータに基づいて、前記メタデータに対応する特徴量であるメタデータ特徴量を決定し、
前記エクスポート部は、
前記形態素解析の結果に対応する前記特徴量、及び、前記メタデータ特徴量に基づくデータである前記エクスポートデータを出力する情報処理システム。
【請求項12】
第1情報処理装置と、
第2情報処理装置と、
を含み、
前記第1情報処理装置は、
文書データを取得する取得部と、
前記文書データの形態素解析を行う解析処理部と、
前記形態素解析の結果、及び、ハッシュ関数に基づいて前記文書データを表す特徴量を決定する特徴量決定部と、
前記特徴量に基づくデータであるエクスポートデータを前記第2情報処理装置に出力するエクスポート部と、
前記第2情報処理装置における前記エクスポートデータに基づく処理結果を取得するインポート部と、
前記インポート部が取得した前記処理結果に基づく処理を行う処理部と、
を含み、
前記エクスポート部は、
前記エクスポートデータとして、前記特徴量を出力し、
前記第2情報処理装置は、
前記特徴量に基づく機械学習によって学習済モデルを生成し、
前記インポート部は、
前記学習済モデル、または前記学習済モデルに基づく情報を、前記処理結果として取得し、
前記処理部は、
処理対象となる文書データである処理対象文書データの前記特徴量を前記学習済モデルに入力することによって、前記処理対象文書データの処理を行い、
前記特徴量決定部は、
前記ハッシュ関数の出力サイズを含む制御パラメータを決定し、前記形態素解析の結果に対して、前記制御パラメータに従った前記ハッシュ関数を適用することによって前記文書データを、前記特徴量の型の一つであるテンソルに変換する情報処理システム。
【請求項13】
情報処理装置が、
文書データを取得し、
前記文書データの形態素解析を行い、
前記形態素解析の結果、及び、ハッシュ関数に基づいて前記文書データを表す特徴量を決定し、
前記特徴量に基づくデータであるエクスポートデータを第2情報処理装置にエクスポートし、
前記第2情報処理装置における前記エクスポートデータに基づく処理結果をインポートし、
インポートした前記処理結果に基づく処理を行い、
前記エクスポートにおいて、
前記エクスポートデータとして、前記特徴量を出力し、
前記第2情報処理装置は、
前記特徴量に基づく機械学習によって学習済モデルを生成し、
前記インポートにおいて、
前記学習済モデル、または前記学習済モデルに基づく情報を、前記処理結果として取得し、
前記処理結果に基づく前記処理において、
処理対象となる文書データである処理対象文書データの前記特徴量を前記学習済モデルに入力することによって、前記処理対象文書データの処理を行い、
前記エクスポートにおいて、
前記エクスポートデータとして、前記特徴量に基づいて生成された検索パラメータを出力し、
前記インポートにおいて、
前記検索パラメータ及び前記学習済モデルに基づいて特定された情報を、前記処理結果として取得する、
情報処理方法。
【請求項14】
情報処理装置が、
文書データを取得し、
前記文書データの形態素解析を行い、
前記形態素解析の結果、及び、ハッシュ関数に基づいて前記文書データを表す特徴量を決定し、
前記特徴量に基づくデータであるエクスポートデータを第2情報処理装置にエクスポートし、
前記第2情報処理装置における前記エクスポートデータに基づく処理結果をインポートし、
インポートした前記処理結果に基づく処理を行い、
前記処理結果に基づく前記処理において、
前記特徴量に基づく機械学習によって学習済モデルを生成する学習処理、及び、前記処理結果に基づいて前記学習済モデルを更新する処理を行い、
前記インポートにおいて、
前記エクスポートデータに基づく分析処理の結果を、前記処理結果として取得する、
情報処理方法。
【請求項15】
情報処理装置が、
文書データを取得し、
前記文書データの形態素解析を行い、
前記形態素解析の結果、及び、ハッシュ関数に基づいて前記文書データを表す特徴量を決定し、
前記特徴量に基づくデータであるエクスポートデータを第2情報処理装置にエクスポートし、
前記第2情報処理装置における前記エクスポートデータに基づく処理結果をインポートし、
インポートした前記処理結果に基づく処理を行い、
前記特徴量の決定において、
前記文書データに付与されたメタデータに基づいて、前記メタデータに対応する特徴量であるメタデータ特徴量を決定し、
前記エクスポートにおいて、
前記形態素解析の結果に対応する前記特徴量、及び、前記メタデータ特徴量に基づくデータである前記エクスポートデータを出力する、
情報処理方法。
【請求項16】
情報処理装置が、
文書データを取得し、
前記文書データの形態素解析を行い、
前記形態素解析の結果、及び、ハッシュ関数に基づいて前記文書データを表す特徴量を決定し、
前記特徴量に基づくデータであるエクスポートデータを第2情報処理装置にエクスポートし、
前記第2情報処理装置における前記エクスポートデータに基づく処理結果をインポートし、
インポートした前記処理結果に基づく処理を行い、
前記エクスポートにおいて、
前記エクスポートデータとして、前記特徴量を出力し、
前記第2情報処理装置は、
前記特徴量に基づく機械学習によって学習済モデルを生成し、
前記インポートにおいて、
前記学習済モデル、または前記学習済モデルに基づく情報を、前記処理結果として取得し、
前記処理結果に基づく前記処理において、
処理対象となる文書データである処理対象文書データの前記特徴量を前記学習済モデルに入力することによって、前記処理対象文書データの処理を行い、
前記特徴量の決定において、
前記ハッシュ関数の出力サイズを含む制御パラメータを決定し、前記形態素解析の結果に対して、前記制御パラメータに従った前記ハッシュ関数を適用することによって前記文書データを、前記特徴量の型の一つであるテンソルに変換する、
情報処理方法。