IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

7667229情報処理システム、情報処理方法およびプログラム
<>
  • -情報処理システム、情報処理方法およびプログラム 図1
  • -情報処理システム、情報処理方法およびプログラム 図2
  • -情報処理システム、情報処理方法およびプログラム 図3
  • -情報処理システム、情報処理方法およびプログラム 図4
  • -情報処理システム、情報処理方法およびプログラム 図5
  • -情報処理システム、情報処理方法およびプログラム 図6
  • -情報処理システム、情報処理方法およびプログラム 図7
  • -情報処理システム、情報処理方法およびプログラム 図8
  • -情報処理システム、情報処理方法およびプログラム 図9
  • -情報処理システム、情報処理方法およびプログラム 図10
  • -情報処理システム、情報処理方法およびプログラム 図11
  • -情報処理システム、情報処理方法およびプログラム 図12
  • -情報処理システム、情報処理方法およびプログラム 図13
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2025-04-14
(45)【発行日】2025-04-22
(54)【発明の名称】情報処理システム、情報処理方法およびプログラム
(51)【国際特許分類】
   G06F 16/335 20190101AFI20250415BHJP
   G06F 21/62 20130101ALI20250415BHJP
【FI】
G06F16/335
G06F21/62 345
【請求項の数】 9
(21)【出願番号】P 2023186945
(22)【出願日】2023-10-31
【審査請求日】2023-11-09
(73)【特許権者】
【識別番号】399037405
【氏名又は名称】楽天グループ株式会社
(74)【代理人】
【識別番号】110000154
【氏名又は名称】弁理士法人はるか国際特許事務所
(72)【発明者】
【氏名】グェン テイ ミン
(72)【発明者】
【氏名】チャン トゥアン トゥ
(72)【発明者】
【氏名】ゴー ドゥク トゥアン
【審査官】早川 学
(56)【参考文献】
【文献】特開2020-109592(JP,A)
【文献】特開2014-194621(JP,A)
【文献】特開2013-008175(JP,A)
【文献】国際公開第2022/269909(WO,A1)
【文献】国際公開第2022/269699(WO,A1)
【文献】韓国公開特許第10-2023-0075386(KR,A)
【文献】中国特許第115982779(CN,B)
【文献】中国特許出願公開第116502263(CN,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
G06F 40/00-40/58
G06F 21/62
(57)【特許請求の範囲】
【請求項1】
ユーザからの入力に基づいて1または複数のプライバシー情報を含む問い合わせを取得する取得手段と、
前記問い合わせに含まれる前記1または複数のプライバシー情報のそれぞれを前記1または複数のプライバシー情報と異なる隠蔽情報に置き換える隠蔽手段と、
前記プライバシー情報が置き換えられた問い合わせ文を言語モデルに入力することにより、当該問い合わせ文に対する回答を作成することを前記言語モデルに依頼し、当該言語モデルから回答を取得する回答取得手段と、
前記取得された回答に含まれる前記隠蔽情報を、前記問い合わせにおいて当該隠蔽情報に置き換えられたプライバシー情報に置き換える復元手段と、
前記隠蔽情報が置き換えられた回答に基づく情報を前記ユーザに向けて送る回答手段と、
を含む情報処理システム。
【請求項2】
請求項1に記載の情報処理システムにおいて、
前記隠蔽手段は、前記問い合わせに含まれる前記1または複数のプライバシー情報のそれぞれを、当該プライバシー情報の種類に応じた隠蔽情報に置き換える、
情報処理システム。
【請求項3】
請求項2に記載の情報処理システムにおいて、
前記1または複数のプライバシー情報の種類は、名前、年齢、性別、病歴のうち少なくとも一部を含む、
情報処理システム。
【請求項4】
請求項1に記載の情報処理システムにおいて、
前記1または複数のプライバシー情報のそれぞれを、当該プライバシー情報と置き換えられた隠蔽情報と関連付けてデータベースに記憶させる関連管理手段をさらに含み、
前記復元手段は、前記回答が、前記1または複数のプライバシー情報のうちいずれかが関連付けられた隠蔽情報を含む場合に、前記隠蔽情報を当該隠蔽情報に関連付けられたプライバシー情報に置き換える、
情報処理システム。
【請求項5】
ユーザからの入力に基づいて1または複数のプライバシー情報を含む問い合わせを取得する取得手段と、
前記問い合わせに含まれる前記1または複数のプライバシー情報のそれぞれを前記1または複数のプライバシー情報と異なる隠蔽情報に置き換える隠蔽手段と、
前記プライバシー情報が置き換えられた問い合わせに対する回答を作成することを言語モデルに依頼し、当該言語モデルから回答を取得する回答取得手段と、
前記取得された回答に含まれる前記隠蔽情報を、前記問い合わせにおいて当該隠蔽情報に置き換えられたプライバシー情報に置き換える復元手段と、
前記隠蔽情報が置き換えられた回答に基づく情報を前記ユーザに向けて送る回答手段と、
前記問い合わせが前記ユーザの年齢を含む場合に、予め定められた複数の年齢範囲から、前記ユーザの年齢が属する年齢範囲を選択する範囲選択手段と、
前記選択された年齢範囲内の複数の年齢のうちいずれかを前記ユーザの年齢に対する隠蔽年齢として選択する年齢選択手段とを含み、
前記隠蔽手段は、前記問い合わせに含まれる前記ユーザの年齢を当該ユーザの年齢に対する隠蔽年齢に置き換える、
情報処理システム。
【請求項6】
請求項5に記載の情報処理システムにおいて、
前記年齢選択手段は、前記選択された年齢範囲内の複数の年齢のうちいずれかを前記ユーザの年齢に対する隠蔽年齢としてランダムに選択する、
情報処理システム。
【請求項7】
請求項5または6に記載の情報処理システムにおいて、
前記1または複数のプライバシー情報のうち少なくとも一部に基づいて、複数の回答基礎情報のうちいずれかであって、前記ユーザの年齢が属する年齢範囲を対象とする回答基礎情報を取得する基礎取得手段をさらに含み、
前記回答取得手段は、前記取得された回答基礎情報に基づいて、前記プライバシー情報が置き換えられた質問に対する回答を作成することを言語モデルに依頼し、当該言語モデルから回答を取得する、
情報処理システム。
【請求項8】
ユーザからの入力に基づいて1または複数のプライバシー情報を含む問い合わせを取得するステップと、
前記問い合わせに含まれる前記1または複数のプライバシー情報のそれぞれを前記1または複数のプライバシー情報と異なる隠蔽情報に置き換えるステップと、
前記プライバシー情報が置き換えられた問い合わせ文を言語モデルに入力することにより、当該問い合わせ文に対する回答を作成することを言語モデルに依頼し、当該言語モデルから回答を取得するステップと、
前記取得された回答に含まれる前記隠蔽情報を、前記問い合わせにおいて当該隠蔽情報に置き換えられたプライバシー情報に置き換えるステップと、
前記隠蔽情報が置き換えられた回答に基づく情報を前記ユーザに向けて送るステップと、
を含む情報処理方法。
【請求項9】
ユーザからの入力に基づいて1または複数のプライバシー情報を含む問い合わせを取得する取得手段、
前記問い合わせに含まれる前記1または複数のプライバシー情報のそれぞれを前記1または複数のプライバシー情報と異なる隠蔽情報に置き換える隠蔽手段、
前記プライバシー情報が置き換えられた問い合わせ文を言語モデルに入力することにより、当該問い合わせ文に対する回答を作成することを言語モデルに依頼し、当該言語モデルから回答を取得する回答取得手段、
前記取得された回答に含まれる前記隠蔽情報を、前記問い合わせにおいて当該隠蔽情報に置き換えられたプライバシー情報に置き換える復元手段、および、
前記隠蔽情報が置き換えられた回答に基づく情報を前記ユーザに向けて送る回答手段、
としてコンピュータを機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は情報処理システム、情報処理方法およびプログラムに関する。
【背景技術】
【0002】
大規模言語モデル(large language model、LLM)のような言語モデルの性能が大幅に向上している。大規模言語モデルは、質問に対して自然な文章で回答することができる。大規模言語モデルは、例えばChatGPT(登録商標)のようなチャットボットに用いられている。
【0003】
特許文献1には、膨大なラベルなしテキストを機械学習することで得られた大規模言語モデルを用いて、ユーザの求める要約文を生成する技術が開示されている。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2023-73095号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
発明者は、サービスとして提供される言語モデルを用いて質問に回答するシステムを検討している。このような言語モデルの物理的配置やサービス提供者のポリシーによっては、個人のプライバシー保護に関わる情報を入力することが難しい場合がある。一方で、言語モデルにこのような情報を入力しないと、言語モデルが出力する回答の質が低下する恐れがある。
【0006】
本開示は、プライバシー保護に配慮しつつ、言語モデルの出力に基づく回答の質を向上させる技術を提供する。
【課題を解決するための手段】
【0007】
(1)ユーザからの入力に基づいて1または複数のプライバシー情報を含む問い合わせを取得する質問取得手段と、前記問い合わせに含まれる前記1または複数のプライバシー情報のそれぞれを前記1または複数のプライバシー情報と異なる隠蔽情報に置き換える隠蔽手段と、前記プライバシー情報が置き換えられた問い合わせに対する回答を作成することを言語モデルに依頼し、当該言語モデルから回答を取得する回答取得手段と、前記取得された回答に含まれる前記隠蔽情報を、前記問い合わせにおいて当該隠蔽情報に置き換えられたプライバシー情報に置き換える復元手段と、前記隠蔽情報が置き換えられた回答に基づく情報を前記ユーザに向けて送る回答手段と、を含む情報処理システム。
【0008】
(2)(1)において、前記隠蔽手段は、前記問い合わせに含まれる前記1または複数のプライバシー情報のそれぞれを、当該プライバシー情報の種類に応じた隠蔽情報に置き換える、情報処理システム。
【0009】
(3)(2)において、前記1または複数のプライバシー情報の種類は、名前、年齢、性別、病歴のうち少なくとも一部を含む、情報処理システム。
【0010】
(4)(1)から(3)のいずれかにおいて、前記1または複数のプライバシー情報のそれぞれを、当該プライバシー情報と置き換えられた隠蔽情報と関連付けてデータベースに記憶させる関連管理手段をさらに含み、前記復元手段は、前記回答が、前記1または複数のプライバシー情報のうちいずれかが関連付けられた隠蔽情報を含む場合に、前記隠蔽情報を当該隠蔽情報に関連付けられたプライバシー情報に置き換える、情報処理システム。
【0011】
(5)(1)から(4)のいずれかにおいて、前記問い合わせが前記ユーザの年齢を含む場合に、予め定められた複数の年齢範囲から、前記ユーザの年齢が属する年齢範囲を選択する範囲選択手段と、前記選択された年齢範囲内の複数の年齢のうちいずれかを前記ユーザの年齢に対する隠蔽年齢として選択する年齢選択手段とをさらに含み、前記隠蔽手段は、前記問い合わせに含まれる前記ユーザの年齢を当該ユーザの年齢に対する隠蔽年齢に置き換える、情報処理システム。
【0012】
(6)(5)において、前記年齢選択手段は、前記選択された年齢範囲内の複数の年齢のうちいずれかを前記ユーザの年齢に対する隠蔽年齢としてランダムに選択する、情報処理システム。
【0013】
(7)(5)または(6)において、前記1または複数のプライバシー情報のうち少なくとも一部に基づいて、複数の回答基礎情報のうちいずれかであって、前記ユーザの年齢が属する年齢範囲を対象とする回答基礎情報を取得する基礎取得手段をさらに含み、前記回答取得手段は、前記取得された回答基礎情報に基づいて、前記プライバシー情報が置き換えられた質問に対する回答を作成することを言語モデルに依頼し、当該言語モデルから回答を取得する、情報処理システム。
【0014】
(8)ユーザからの入力に基づいて1または複数のプライバシー情報を含む問い合わせを取得するステップと、前記問い合わせに含まれる前記1または複数のプライバシー情報のそれぞれを前記1または複数のプライバシー情報と異なる隠蔽情報に置き換えるステップと、前記プライバシー情報が置き換えられた問い合わせに対する回答を作成することを言語モデルに依頼し、当該言語モデルから回答を取得するステップと、前記取得された回答に含まれる前記隠蔽情報を、前記問い合わせにおいて当該隠蔽情報に置き換えられたプライバシー情報に置き換えるステップと、前記隠蔽情報が置き換えられた回答に基づく情報を前記ユーザに向けて送るステップと、を含む情報処理方法。
【0015】
(9)ユーザからの入力に基づいて1または複数のプライバシー情報を含む問い合わせを取得する質問取得手段、前記問い合わせに含まれる前記1または複数のプライバシー情報のそれぞれを前記1または複数のプライバシー情報と異なる隠蔽情報に置き換える隠蔽手段、前記プライバシー情報が置き換えられた問い合わせに対する回答を作成することを言語モデルに依頼し、当該言語モデルから回答を取得する回答取得手段、前記取得された回答に含まれる前記隠蔽情報を、前記問い合わせにおいて当該隠蔽情報に置き換えられたプライバシー情報に置き換える復元手段、および、前記隠蔽情報が置き換えられた回答に基づく情報を前記ユーザに向けて送る回答手段、としてコンピュータを機能させるためのプログラム。
【発明の効果】
【0016】
本発明により、プライバシー保護に配慮しつつ、言語モデルの出力に基づく回答の質を向上させることができる。
【図面の簡単な説明】
【0017】
図1】本発明の実施形態にかかる問い合わせ管理システムに関連する要素の一例を示す図である。
図2】問い合わせ管理システムが実現する機能を示すブロック図である。
図3】問い合わせ管理システムの処理の一例を示すフローチャートである。
図4】問い合わせ管理システムへの入力画面の一例を示す図である。
図5】問い合わせ文から抽出されるプライバシー情報の一例を示す図である。
図6】プライバシー情報に基づくクエリの一例を示す図である。
図7】隠蔽情報とプライバシー情報との関係の一例を示す図である。
図8】プライバシー情報が置換された問い合わせ文の一例を示す図である。
図9】大規模言語モデルに入力される命令テキストの一例を示す図である。
図10】大規模言語モデルから出力される回答の一例を示す図である。
図11】隠蔽情報が置き換えられた回答の一例を示す図である。
図12】プライバシー情報が置換された問い合わせ文の他の一例を示す図である。
図13】大規模言語モデルに入力される命令テキストの他の一例を示す図である。
【発明を実施するための形態】
【0018】
以下では、本発明の実施形態を図面に基づいて説明する。同じ符号を付された構成に対しては、重複する説明を省略する。
【0019】
図1は、本発明の実施形態にかかる問い合わせ管理システム2に関連する要素の一例を示す図である。問い合わせ管理システム2は、ユーザが操作するユーザ端末1から、ユーザのプライバシー保護にかかわる情報(プライバシー情報)を含む問い合わせを受け取り、その問い合わせに基づく命令を大規模言語モデルサービス3に入力し、大規模言語モデルサービス3が出力する文章に応じた回答をユーザ端末1に向けて出力する。以下では、問い合わせ管理システム2の一例として、主にユーザに保険商品を薦めるための問い合わせ管理システム2について説明する。
【0020】
ユーザ端末1は、例えばパーソナルコンピュータ、スマートフォンのような、ユーザインタフェースを有するコンピュータである。
【0021】
大規模言語モデルサービス3は、コンピュータにより実現される汎用的な大規模言語モデルを含む。大規模言語モデルサービス3は、問い合わせ管理システム2から命令を受け取り、その命令を大規模言語モデルに入力することにより得られた出力を問い合わせ管理システム2へ受け渡す。この命令はテキスト形式であり、プロンプトとも呼ばれる。以下ではこの命令のうちテキスト形式の命令を命令テキストとも記載する。この汎用的な大規模言語モデルは、幅広い分野のデータにより学習されている。大規模言語モデルサービス3は、例えばChatGPT(登録商標)のようなサービスであってよい。
【0022】
以下では単に「大規模言語モデル」と記載した場合、大規模言語モデルサービス3に含まれる大規模言語モデルを指すものとし、問い合わせ管理システム2は、大規模言語モデルへ情報を入力し、大規模言語モデルからの出力を取得する処理を、大規模言語モデルサービス3が提供するAPIを利用することにより実行する。問い合わせ管理システム2は、すべての情報を一度のAPI呼び出しで入力するとは限らず、複数のAPI呼び出しにより情報を部分ごとに入力してもよい。なお大規模言語モデルサービス3は、問い合わせ管理システム2の中に設けられてもよい。本実施形態では、問い合わせ管理システム2は、大規模言語モデルになんらかの回答の作成を依頼する情報を入力し、大規模言語モデルの出力をその回答として取得する。以下では、なんらかの回答の作成を依頼する情報を大規模言語モデルに入力することを、大規模言語モデルに回答を作成することを依頼するとも記載する。
【0023】
問い合わせ管理システム2は、1または複数のコンピュータ(例えばサーバコンピュータ)を含む。問い合わせ管理システム2は、1または複数のプロセッサ21、1または複数のストレージ22、1または複数の通信部23を含む。問い合わせ管理システム2は、それぞれ1または複数のプロセッサ21、ストレージ22、通信部23を含む複数のコンピュータを含んでもよいし、1または複数のプロセッサ21およびストレージ22を有する1つのコンピュータを含んでもよい。なお問い合わせ管理システム2は1または複数の仮想サーバまたはコンテナ基盤上に実装されてよい。
【0024】
プロセッサ21は、ストレージ22に格納されるプログラム(命令コードともいう)に従って動作する。またプロセッサ21は通信部23を制御する。プロセッサ21は、例えばCPU(Central Processing Unit)を含み、さらにGPU(Graphic Processing Unit)やNPU(Neural Processing Unit)を含んでよい。なお、上記プログラムは、インターネット等を介して提供されるものであってもよいし、フラッシュメモリやDVD-ROM等のコンピュータで読み取り可能な記憶媒体に格納されて提供されるものであってもよい。
【0025】
ストレージ22は、RAMおよびフラッシュメモリ等のメモリ素子と、ハードディスクドライブ(HDD)やソリッドステートドライブ(SSD)のような外部記憶装置とによって構成されている。ストレージ22は、上記プログラムを格納する。また、ストレージ22は、プロセッサ21、通信部23から入力される情報や演算結果を格納する。
【0026】
通信部23は、例えばネットワークインタフェースカードのような、他の装置と通信する通信インタフェースである。通信部23は、例えば無線LAN、有線LANを実現する集積回路やアンテナ、通信端子などにより構成されている。通信部23は、プロセッサ21の制御に基づいて、ネットワークを介して、他の装置から受信した情報をプロセッサ21やストレージ22に入力し、他の装置に情報を送信する。
【0027】
なお、問い合わせ管理システム2のハードウェア構成は、上記の例に限られない。例えば、問い合わせ管理システム2は、コンピュータ読み取り可能な情報記憶媒体を読み取るデバイス(例えば、光ディスクドライブやメモリカードスロット)や外部機器とデータの入出力をするデバイス(例えば、USBポート)を含んでもよい。外部機器は入力デバイスや出力デバイスであってもよい。
【0028】
次に、問い合わせ管理システム2が提供する機能について説明する。図2は、問い合わせ管理システム2が実現する機能を示すブロック図である。問い合わせ管理システム2は、機能的に、管理部50、知識データベース60を含む。また管理部50は、機能的に、入力取得部51、プライバシー管理部52、隠蔽部53、知識取得部54,回答取得部55、復元部56、回答出力部57を含む。プライバシー管理部52は、機能的に、プライバシー抽出部58、関連管理部59を含む。管理部50、知識データベース60は、プロセッサ21が、ストレージ22に格納される各機能に対応するプログラムを実行し、通信部23などを制御することにより実現される。
【0029】
知識データベース60は、ある知識分野の知識情報が格納されるデータベースである。知識データベース60は、ユーザからの入力の特徴を示す情報を管理部50から取得し、その情報に対応する知識情報を検索し、検索により見つかった知識情報を管理部50へ引き渡す。知識データベース60では、知識情報とその知識情報のインデックスとなる特徴ベクトルとは互いに関連付けてストレージ22に格納されている。知識データベース60は、ユーザからの入力に基づいてクエリとなる特徴ベクトルを取得し、そのクエリに対応する知識情報を取得する。
【0030】
ここで知識情報は、テキスト形式の文書、インターネット上のサイトへのリンク文字列(例えばURL)のうち少なくとも一部を含んでよい。本実施形態では、知識分野はある保険会社が販売する保険商品であり、クエリとなる特徴ベクトルは、ユーザおよびユーザの家族の年齢グループ・性別・病歴から生成される。この場合、知識データベース60において、知識情報としての保険商品の情報およびその知識情報の特徴ベクトルだけでなく、その知識情報の適用条件(保険商品の利用条件)となる年齢グループ、性別、病歴を示す情報も関連付けてストレージ22に格納されてよい。知識データベース60は、プライバシーに関わる情報により知識を分類可能であれば他の知識分野の情報を扱ってもよい。知識情報は、大規模言語モデルが質問に対する回答を作成する際の基礎となる情報(回答基礎情報)として利用される。
【0031】
知識情報の検索において、知識データベース60は、ストレージ22に格納される複数の特徴ベクトルからクエリに類似する特徴ベクトルを検索し、その類似する特徴ベクトルに関連付けて記憶された知識情報を出力してよい。またクエリがプライバシー情報の少なくとも一部を含んでもよい。この場合は、知識データベース60は、クエリが利用条件を満たす知識情報を検索してよい。さらに、知識データベース60は、クエリが利用条件を満たす知識情報に関連付けられた1または複数の特徴ベクトルのうち、クエリに類似する特徴ベクトルを検索してよい。知識データベース60は、類似度として、例えばクエリの特徴ベクトルとストレージ22内の特徴ベクトルとのコサイン類似度を用いてよい。知識データベース60は、その類似度が最も大きい特徴ベクトルを類似する特徴ベクトルとして選択し、選択された特徴ベクトルに関連付けられた知識情報を取得してよい。
【0032】
ここで、特徴ベクトルは、機械学習モデルである特徴抽出モデルにより生成されてもよい。特徴抽出モデルは、学習用の文書データを用いて学習される。学習の際には、特徴抽出モデルにより、クエリの特徴ベクトルと、そのクエリに対応する文書データの特徴ベクトルとが抽出される。そして、クエリの特徴ベクトルと対応する文書データの特徴ベクトルとの類似度が大きくなり、対応しない文書データについての類似度が小さくなるように特徴抽出モデルの学習が行われる。学習における文書データは知識文書のうちトピックまたは質問に相当する部分のみであってよい。この学習は、以下の2つの論文に示される手法に基づいて行われてよい。
【0033】
論文1:Wataru Sakata, Tomohide Shibata, Ribeka Tanaka, and Sadao Kurohashi. 2019. FAQ Retrieval using Query-Question Similarity and BERT-Based Query-Answer Relevance. In Proceedings of the 42nd International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR'19). Association for Computing Machinery, New York, NY, USA, 1113-1116.
【0034】
論文2:Seo, J.; Lee, T.; Moon, H.; Park, C.; Eo, S.; Aiyanyo, I.D.; Park, K.; So, A.; Ahn, S.; Park, J. Dense-to-Question and Sparse-to-Answer: Hybrid Retriever System for Industrial Frequently Asked Questions. Mathematics 2022, 10, 1335.
【0035】
管理部50は、ユーザ端末1から、1または複数のプライバシー情報を含む問い合わせを取得し、知識データベース60からその問い合わせに対応する知識情報を取得する一方で、問い合わせに含まれるプライバシー情報を隠蔽する。また管理部50は、プライバシー情報が隠蔽された問い合わせに対する回答の生成を大規模言語モデルサービス3に依頼し、回答に基づく出力文をユーザ端末1へ向けてネットワークを介して出力する。
【0036】
入力取得部51は、ユーザからの入力に基づいて、1または複数のプライバシー情報を含む問い合わせを取得する。問い合わせは、文章であってよいし、文章以外の情報が含まれてもよい。ユーザからの入力は、ユーザがユーザ端末1を操作して入力し、ユーザ端末1から受け取る情報である。入力取得部51は、ユーザからの入力としての文章をそのまま問い合わせとして取得してもよいし、ユーザからの入力として対話的に取得したプライバシー情報および自由文とを加工することにより問い合わせとしての文章を生成してもよい。
【0037】
プライバシー管理部52は、問い合わせに含まれる1または複数のプライバシー情報を抽出し、抽出されたプライバシー情報を管理する。プライバシー管理部52に含まれるプライバシー抽出部58は、問い合わせに含まれるプライバシー情報を抽出する。プライバシー抽出部58は、問い合わせがユーザの年齢を含む場合に、予め定められた複数の年齢範囲から、ユーザの年齢が属する年齢範囲を選択する。プライバシー抽出部58は、問い合わせが他の人物の年齢を含む場合に、予め定められた複数の年齢範囲から、単お人物の年齢が属する年齢範囲を選択する。
【0038】
プライバシー管理部52に含まれる関連管理部59は、問い合わせに含まれる1または複数のプライバシー情報のそれぞれに対応する隠蔽情報を決定する。また、関連管理部59は、問い合わせに含まれる1または複数のプライバシー情報のそれぞれを、そのプライバシー情報に対応する隠蔽情報と関連付けてストレージ22に記憶させる。隠蔽情報は、問い合わせに含まれるプライバシー情報に置き換えられる情報である。隠蔽情報は、プライバシー情報の種類(例えば名前、年齢、性別、病歴)に応じた情報(タグまたはダミー情報)であってよい。
【0039】
隠蔽情報の決定において関連管理部59は、問い合わせがユーザの年齢を含む場合は、プライバシー抽出部58で選択された年齢範囲内の複数の年齢のうちいずれか(ランダムであってよい)をユーザの年齢に対する隠蔽年齢として選択してよい。関連管理部59は、問い合わせがユーザおよび他の人物の年齢を含み、それらが同じ年齢範囲に属する場合には、ユーザに対する隠蔽年齢と他の人物に対する隠蔽年齢とが重複しないように隠蔽年齢を選択してよい。
【0040】
隠蔽部53は、問い合わせに含まれる1または複数のプライバシー情報のそれぞれをそのプライバシー情報と異なる隠蔽情報に置き換える。なお、問い合わせがユーザの年齢を含む場合は、隠蔽部53は、問い合わせに含まれるユーザの年齢をそのユーザの年齢に対する隠蔽年齢に置き換えてよい。また問い合わせが他の人物の年齢を含む場合は、隠蔽部53は、問い合わせに含まれる他の人物の年齢をその他の人物の年齢に対する隠蔽年齢に置き換えてよい。
【0041】
知識取得部54は、知識データベース60へ問い合わせに基づくクエリを送信し、知識データベース60からそのクエリに基づいて検索された知識情報を取得する。知識取得部54は、問い合わせがユーザの年齢を含む場合には、知識データベース60から、ストレージ22に記憶される複数の知識情報から、ユーザの年齢が属する年齢範囲を対象とする知識情報を取得する。年齢範囲を対象とするとは、知識情報の適用条件内に、その年齢範囲が含まれることであってもよいし、知識情報内に、その年齢範囲を対象とすることを示す文字列が含まれることであってもよい。
【0042】
回答取得部55は、プライバシー情報が置き換えられた問い合わせに対する回答を作成することを大規模言語モデルに依頼し、大規模言語モデルから回答を取得する。回答は文章であってよい。ここで、回答取得部55は、知識情報に基づいてライバシー情報が置き換えられた問い合わせに対する回答を作成することを大規模言語モデルに依頼してよい。この大規模言語モデルは、問い合わせ管理システム2とインターネットを介して接続されてよい。なお回答取得部55は、大規模言語モデルから取得される回答に適切でない文字列(例えばURL)が含まれる場合には、その回答からその文字列をフィルタリングし、フィルタリング後の回答を後続の処理に用いてよい。
【0043】
復元部56は、大規模言語モデルから取得された回答に含まれる隠蔽情報を、問い合わせにおいて隠蔽情報に置き換えられたプライバシー情報に置き換える。より具体的には、復元部56は、回答が、問い合わせに含まれる1または複数のプライバシー情報のいずれかに関連付けられた隠蔽情報を含む場合に、その隠蔽情報をその隠蔽情報に関連付けてストレージ22に記憶されたプライバシー情報に置換する。
【0044】
回答出力部57は、隠蔽情報が置き換えられた回答に基づく情報をユーザに向けて送る。より具体的には、回答出力部57は、隠蔽情報が置き換えられた回答を加工し、その加工された回答をユーザに向けて送ってよい。加工は回答に含まれる文章のフォーマットの整形であってもよいし、回答に対する知識情報またはそれに関連する情報へのハイパーリンクの付加であってもよい。また、回答出力部57は、置換または加工された回答が、取得された知識情報に整合しているか判定してもよい。回答出力部57は、整合していると判定された場合に回答に知識情報またはそれに関連する情報へのハイパーリンクを付加し、整合していないと判定された場合に回答に警告文を付加してよい。ここで回答出力部57は、回答に含まれる複数の単語のそれぞれが、知識情報に含まれる単語に含まれるか否かに基づいて、整合を判定してよい。
【0045】
図3は、問い合わせ管理システム2の処理の一例を示すフローチャートである。図3には主に管理部50の処理が記載されている。
【0046】
はじめに入力取得部51は、ユーザの操作に基づいてユーザ端末1から入力される情報に基づいて、1または複数のプライバシー情報を含む問い合わせ文を取得する(S101)。問い合わせ文は、主にテキストを含む問い合わせである。
【0047】
図4は、問い合わせ管理システム2への入力画面の一例を示す図である。図4に示される画面は、ユーザ端末1に出力される。図4の画面には、ユーザが入力した問い合わせ文が表示されている。図4の例では問い合わせ文は、適切な保険を選択させるためにユーザが入力したユーザの自己および家族の紹介文である。図4の例では入力取得部51は一つの入力欄に入力された文を問い合わせ文として取得する。入力取得部51は、さらに、これまでに入力された文で不足する項目があるか否かを検出し、項目が検出された場合に検出された項目の入力を促す情報をユーザ端末1に出力させてよい。この場合、入力取得部51は、その後入力された文を取得し、これまでに入力された文から問い合わせ文を生成してよい。なお、問い合わせの情報が、ユーザの顔の画像などの他のプライバシー情報を含んでもよい。
【0048】
次にプライバシー抽出部58は、問い合わせ文に含まれるプライバシー情報を特定する(S102)。プライバシー抽出部58は、問い合わせ文に含まれるプライバシー情報の種類も特定する。本実施形態の例では、プライバシー情報の種類は、ユーザの名前、年齢、性別、病歴、既婚/未婚および電話番号と、家族の名前、年齢、性別、病歴、既婚/未婚および電話番号とを含む。実際に取り扱うプライバシー情報の種類はこの一部であってもよいし、異なる分類がなされてもよい。プライバシー抽出部58は、問い合わせ文から形態素解析により固有名詞および名詞を抽出し、抽出された固有名詞および名詞と予め作成された辞書とを照合することでプライバシー情報および種類を特定してもよい。また、文章と、文章に含まれるプライバシー情報の位置およびプライバシー情報の種類を含む正解データとを含む学習データにより学習された機械学習モデルに問い合わせ文を入力した際の出力に基づいて、プライバシー情報を特定してもよい。
【0049】
図5は、問い合わせ文から抽出されるプライバシー情報の一例を示す図である。図5の例では、Fieldの欄はプライバシー情報の種類を示し、valueの欄はプライバシー情報そのものを示す。図5はさらに問い合わせ文におけるプライバシー情報の位置を示す情報を含んでよいし、プライバシー情報の種類がユーザおよび家族関係の区分により細分化されてよい。
【0050】
プライバシー情報が特定されると、プライバシー抽出部58は、プライバシー情報をその種類に応じて変換し、クエリ情報を決定する(S103)。プライバシー抽出部58は、問い合わせ文から特定されたプライバシー情報がユーザの年齢を含む(種類がユーザの年齢であるプライバシー情報を含む)場合には、予め定められた複数の年齢範囲から、そのユーザの年齢が属する年齢範囲を選択する。複数の年齢範囲は、例えば、0-5歳、6-17歳、18-19歳、20-29歳、30-39歳、40-49歳、50-59歳、60-69歳のように、重複や離間がないように設定される。プライバシー抽出部58は性別や病気をコードに変換してよい。
【0051】
図6は、プライバシー情報に基づくクエリの一例を示す図である。図6の例では、クエリは、年齢範囲(age_range)、性別を示すコード(gender_code)、病気を示すコード(disease_code)の項目を含む。
【0052】
関連管理部59は、問い合わせ文に含まれる1または複数のプライバシー情報のそれぞれに対応する隠蔽情報を決定し、これらを関連付けてストレージ22に記憶させる(S104)。関連管理部59は、プライバシー情報の種類に応じてそのプライバシー情報に対応する隠蔽情報を決定する。またプライバシー情報のそれぞれを、対応する隠蔽情報と関連付けてストレージ22に記憶させる。関連管理部59は、問い合わせ文に含まれる1または複数のプライバシー情報のうち一部の種類についてプライバシー情報と異なる隠蔽情報を決定してよい。
【0053】
関連管理部59は、問い合わせ文がユーザまたは他の人物の年齢のプライバシー情報を含む(種類がユーザまたは他の人物の年齢であるプライバシー情報を含む)場合には、プライバシー抽出部58がその年齢に対して選択した年齢範囲の内にある複数の年齢のいずれかを、その年齢に対する隠蔽年齢として選択する。この隠蔽年齢は隠蔽情報のうち特に年齢に関するものである。関連管理部59は、特定されたプライバシー情報がユーザまたは他の人物の名前、住所または電話番号である(種類がユーザまたは他の人物の名前、住所または電話番号)場合には、予めその種類に関連付けられた名前等のダミー文字列を隠蔽情報として決定してよい。
【0054】
図7は、プライバシー情報と隠蔽情報との関係の一例を示す図である。図7は、ストレージ22に記憶されるプライバシー情報および隠蔽情報の一例である。relationはプライバシー情報を有する人物の種類を示す欄であり、fieldの欄とともにプライバシー情報の種類を示している。selfはユーザ本人を示し、husbandは男性の配偶者を示す。original_valueは問い合わせ文に含まれるプライバシー情報の欄であり、encoded_valueは隠蔽情報の欄である。図7には、実質的に隠蔽情報に置き換えられないプライバシー情報も示されている。
【0055】
隠蔽情報が決定されると、隠蔽部53は、問い合わせに含まれる1または複数のプライバシー情報のそれぞれを隠蔽情報に置換する(S105)。これによりプライバシー情報のうち少なくとも一部は、そのプライバシー情報と異なる隠蔽情報に置き換えられる。隠蔽部53は、問い合わせ文から抽出されたプライバシー情報の文字列を検索し、見つかった文字列を対応する隠蔽情報の文字列に置き換えてもよいし、隠蔽部53は、プライバシー情報の位置を示す情報に基づいて、その位置にある文字列を隠蔽情報に置き換えてもよい。
【0056】
図8は、プライバシー情報が置換された問い合わせの一例を示す図である。図8は、図4に示される問い合わせ文についてS102~S105の処理が行われた場合の例である。図8図4とを比べると、私の名前および私および夫の年齢が隠蔽情報に置換されている。
【0057】
また、知識取得部54は、S103で決定されたクエリ情報に基づいて、知識データベース60から知識情報を取得する(S106)。知識取得部54は、S103で決定されたクエリ情報に基づくクエリを知識データベース60にAPI経由で送り、知識データベース60がそのクエリの検索によって見つけた知識情報をAPI経由で取得してよい。この知識情報は、大規模言語モデルへ入力され、回答の基礎となる情報として用いられる。S106の処理はS104,S105の処理と並行して実行されてよいし異なる順序で実行されてもよい。
【0058】
そして、回答取得部55は、プライバシー情報が置き換えられた問い合わせ文および知識情報を含む命令テキストを大規模言語モデルに入力し、大規模言語モデルの出力(回答)を取得する(S107)。回答取得部55は、命令テキストの入力により、大規模言語モデルに、問い合わせ文に対する回答の作成を依頼している。
【0059】
図9は、大規模言語モデルに入力される命令テキストの一例を示す図である。図9には、{article}、{user_introduction}という文字列があるが、実際にはそれらの文字列の箇所に、それぞれ、知識情報(例えば保険商品の情報)、および問い合わせ文が設定される。図9に示される命令テキストにより、問い合わせ情報に基づいて、プライバシー情報に基づいて検索された適切な保険商品を薦める回答の生成を大規模言語モデルに依頼する。なお、大規模言語モデルに、知識情報として、その情報へのハイパーリンク(URL)が入力されてもよいし、特定の知識情報がなくても回答が作成できるような用途である場合には、知識情報の取得および大規模言語モデルへの入力が行われなくてもよい。
【0060】
大規模言語モデルに入力される命令テキストに含まれる問い合わせ文は、プライバシー情報の中でも特に個人特定に関する情報を含まない。そのため、大規模言語モデルを含む大規模言語モデルサービス3へそのような情報を渡すことを防ぐことができる。これにより、大規模言語モデルサービス3によりプライバシー情報が流出する恐れを大幅に軽減することができ、またプライバシーに関わるルールに容易に準拠させることができる。また、問い合わせ文が隠蔽情報としてプライバシー情報のダミーを含むことにより、回答の作成への影響を抑えることができる。
【0061】
図10は、大規模言語モデルから出力される回答の一例を示す図である。図10は、図8,9に示される情報および「がん保険A」の知識情報を含む命令テキストが入力された場合に生成される回答の例である。大規模言語モデルは、場合によっては、図10に示されるように、名前の項目のような隠蔽情報を含む回答を生成する。また場合によっては年齢や病歴の隠蔽情報を含む回答が生成されることもありうる。
【0062】
回答が取得されると、復元部56は、取得された回答に含まれる1または複数の隠蔽情報のそれぞれを、その隠蔽情報に対応するプライバシー情報に置き換える(S108)。例えば、復元部56は、回答にストレージ22に格納されプライバシー情報と関連付けられた1または複数の隠蔽情報のそれぞれについて、その隠蔽情報の文字列が含まれるか検索する。そして、回答にその隠蔽情報の文字列が含まれる場合に、復元部56はその文字列をその隠蔽情報に関連付けられたプライバシー情報に置換する。
【0063】
隠蔽情報が置き換えられると、回答出力部57は、隠蔽情報が置き換えられた回答に基づく情報をユーザが操作するユーザ端末1に向けて出力する(S109)。回答出力部57は、回答に基づく情報として、その回答が加工された情報を出力する。
【0064】
図11は、隠蔽情報が置き換えられた回答の一例を示す図である。図11図10に示される回答に対して、復元部56による処理が実行され、さらに知識情報に関する情報へのハイパーリンクが付加された場合の例である。図11の例では、回答のはじめの行に記載される名前がユーザの名前に戻っている。
【0065】
これまでに説明したように、大規模言語モデルに入力する問い合わせ文からプライバシーに関わる情報を隠蔽することによりプライバシー情報の漏洩を防ぐことはできるが、一方で大規模言語モデルから出力される回答に隠蔽情報が含まれてしまい不自然な回答となる恐れがある。本実施形態では、その回答に含まれる隠蔽情報を元のプライバシー情報に戻すことにより、問い合わせ管理システム2が自然な回答を出力することが可能になる。また、隠蔽情報をより実態に近いダミー情報とすることで、大規模言語モデルが生成する回答自体をより自然にすることができる。また、年齢をダミーの隠蔽年齢に置き換える際に、その隠蔽年齢が同じ年齢の範囲になるようにし、さらに、その年齢の範囲の設定を知識情報における年齢の範囲の設定にあわせている。これにより、年齢の変更に伴う回答への影響を最低限にすることができる。
【0066】
なお、本実施形態における隠蔽の手法はこれまでに説明したものに限られない。例えば、隠蔽情報として、プライバシー情報の種類に応じたダミー情報の代わりに、プライバシー情報の種類を示すタグのような固定的な文字列を用いてもよい。
【0067】
図12は、プライバシー情報が置換された問い合わせ文の他の一例を示す図である。図4に示される問い合わせ文についてS102~S105の処理が行うことで、図12の例に示される問い合わせ文となる。ただし、プライバシー情報が置換される隠蔽情報は、実際のプライバシー情報に似せたダミー情報ではなく、プライバシー情報の種類そのものを示すタグ情報である。この場合、S104において、年齢範囲に基づいて年齢を選択する処理は行われず、プライバシー情報の年齢は、単に年齢を示す隠避情報のタグと関連づけられてよい。また、この例では、プライバシー情報の種類は、ユーザ、家族の区分を含まず、単に名前、年齢、性別、病歴といった種類であってよい。
【0068】
図13は、大規模言語モデルに入力される命令テキストの他の一例を示す図である。実際には、図13における{article}、{user_introduction}の文字列の箇所に、それぞれ、知識情報(例えば保険商品の情報)、および図12に示されるような問い合わせ文が設定される。図13の例では、図9の例と異なり、大規模言語モデルに入力する命令テキストに、問い合わせ文の中のタグの意味を説明する情報が記載されている。このようにしても、大規模言語モデルにセンシティブなプライバシー情報を入力せずに回答を生成させることができ、またその回答の品質をある程度確保できる。
【0069】
本実施形態では大規模言語モデルを用いているが、その実装およびパラメータ数の規模については特に限定されない。自然言語を扱う機械学習モデル(言語モデル)に対して本発明を適用可能である。
【符号の説明】
【0070】
1 ユーザ端末、2 問い合わせ管理システム、3 大規模言語モデルサービス、21 プロセッサ、22 ストレージ、23 通信部、50 管理部、51 入力取得部、52 プライバシー管理部、53 隠蔽部、54 知識取得部、55 回答取得部、56 復元部、57 回答出力部、58 プライバシー抽出部、59 関連管理部、60 知識データベース。

【要約】
【課題】プライバシー保護に配慮しつつ、言語モデルの出力に基づく回答の質を向上させる
【解決手段】情報処理システムは、ユーザからの入力に基づいて1または複数のプライバシー情報を含む問い合わせを取得し、前記問い合わせに含まれる前記1または複数のプライバシー情報のそれぞれを前記1または複数のプライバシー情報と異なる隠蔽情報に置き換え、前記プライバシー情報が置き換えられた問い合わせに対する回答を作成することを言語モデルに依頼し、当該言語モデルから回答を取得し、前記取得された回答に含まれる前記隠蔽情報を、前記問い合わせにおいて当該隠蔽情報に置き換えられたプライバシー情報に置き換え、前記隠蔽情報が置き換えられた回答に基づく情報を前記ユーザに向けて送る。
【選択図】図3

図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13