(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024135500
(43)【公開日】2024-10-04
(54)【発明の名称】情報処理システム及びプログラム
(51)【国際特許分類】
G06F 16/383 20190101AFI20240927BHJP
G06F 40/30 20200101ALI20240927BHJP
G06F 40/151 20200101ALI20240927BHJP
G06F 40/169 20200101ALI20240927BHJP
【FI】
G06F16/383
G06F40/30
G06F40/151
G06F40/169
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2023046215
(22)【出願日】2023-03-23
(71)【出願人】
【識別番号】000005496
【氏名又は名称】富士フイルムビジネスイノベーション株式会社
(74)【代理人】
【識別番号】110001210
【氏名又は名称】弁理士法人YKI国際特許事務所
(72)【発明者】
【氏名】宮内 忠信
【テーマコード(参考)】
5B109
5B175
【Fターム(参考)】
5B109QA02
5B109QA04
5B109SA14
5B175DA01
5B175FB02
5B175GC03
(57)【要約】
【課題】文書を得ようとするユーザの意図が表現された自然文に基づいて、当該意図に沿った文書に関連するタグを提供する。
【解決手段】情報処理システム10は、プロセッサ12を備える。プロセッサ12は、ユーザからの自然文データの入力を受け付け、自然文データを解析してユーザの意図を抽出する。ユーザの意図は、注釈付き文書の要求、他の言語への翻訳、特定の人向けの文書変換等である。プロセッサ12は、自然文データを解析して文書データベースから関連する文書を検索し、関連する文書に付与あるいは埋め込むタグを、抽出したユーザの意図を用いて作成して出力する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
プロセッサを備え、前記プロセッサは、
ユーザからの自然文データの入力を受け付け、
前記自然文データを解析して前記ユーザの意図を抽出し、
前記自然文データを解析して文書データベースから関連する文書を検索し、
関連する前記文書に付与するタグを、抽出した前記意図を用いて作成して出力する、
情報処理システム。
【請求項2】
前記プロセッサは、
前記タグを複数生成して前記ユーザが選択可能に出力する、
請求項1に記載の情報処理システム。
【請求項3】
前記プロセッサは、
生成した前記タグを関連する前記文書にアノテーションとして付与して出力する、
請求項1に記載の情報処理システム。
【請求項4】
前記プロセッサは、
生成した前記タグを用いて関連する前記文書を変換して出力する、
請求項1に記載の情報処理システム。
【請求項5】
前記プロセッサは、
前記ユーザの意図として、ある言語から別の言語への翻訳を抽出し、
前記タグとして、関連する前記文書の前記別の言語への翻訳データを生成する、
請求項1に記載の情報処理システム。
【請求項6】
前記プロセッサは、
前記ユーザの意図として、注釈付き特定文書の要求を抽出し、
前記タグとして、前記特定文書に付与する注釈を生成する、
請求項1に記載の情報処理システム。
【請求項7】
前記プロセッサは、
前記ユーザの意図として、視覚障害者向けの変換を抽出し、
前記タグとして、関連する前記文書の変換データを生成する、
請求項1に記載の情報処理システム。
【請求項8】
プロセッサに、
ユーザからの自然文データの入力を受け付けるステップと、
前記自然文データを解析して前記ユーザの意図を抽出するステップと、
前記自然文データを解析して文書データベースから関連する文書を検索するステップと、
関連する前記文書に付与するタグを、抽出した前記意図を用いて作成して出力するステップと、
を実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理システム及びプログラムに関する。
【背景技術】
【0002】
特許文献1には、ユーザからの質問に対する回答を構成する回答文書に対して、回答を検索するためのタグを付与するタグ付与装置が行うタグ付与方法であって、回答文書に対してタグとして付与するトピックを、検索を行うユーザまたは検索の対象に関する所定の基準により調整するためのタグ調整文書を選択し、回答文書および選択されたタグ調整文書から、当該回答文書および当該選択されたタグ調整文書を表わすトピックを抽出し、抽出されたトピックを、所定の基準のタグとして回答文書に付与する技術が記載されている。この構成によれば、回答文書に対して、質問するユーザや、回答の検索対象(例えば、家電製品の機能に関する質問における家電製品)に関する所定の基準(例えば、家電製品に対するユーザの知識レベルや、家電製品の新機種に搭載された機能であるか旧機種に搭載された機能であるか)に応じた検索タグを付与することが可能になると記載されている。
【0003】
また、特許文献2には、文書の入力を受け付ける受付部と、文書を複数のセクションに分割する分割部と、分割部が分割した複数のセクションごとにキーワードタグを生成するキーワードタグ生成部と、複数のセクション中に参照を示唆する文言が含まれるか否かを判定する判定部と、参照を示唆する文言が含まれる場合に、参照先のセクションを特定する特定部とを備える文作成装置が記載されている。この構成によれば、分散している専門書類リソースを電子的に一元化することで、横断的に情報を検索し、いち早く必要な情報にアクセスすることができ、専門書類を単に電子的に閲覧可能にするだけでなく、自然言語処理技術等を用いて専門書類を分析および整理し、専門書類の相互参照関係や特有の用語(キーワードタグ)の文中での使われ方を解析することで、専門書類(例えば、法律文書。例示であって、類似の文書間相互参照が重要な意味を持つ他の専門領域における文書でもよい)間の関係性を整理し、これにより、すべての専門書類から、必要な情報へのピンポイントなアクセス、関連する情報の漏れない調査を行うことが可能になると記載されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特許第6388212号
【特許文献2】特開2021-64143号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
ところで、ユーザの知識レベル等に応じたタグ付与では、抽象的であってタグ付けの品質確保が困難となり得る。
【0006】
本発明は、文書を得ようとするユーザの意図が表現された自然文に基づいて、当該意図に沿った文書に関連するタグを提供することを目的とする。
【課題を解決するための手段】
【0007】
本発明の第1の態様は、プロセッサを備え、前記プロセッサは、ユーザからの自然文データの入力を受け付け、前記自然文データを解析して前記ユーザの意図を抽出し、前記自然文データを解析して文書データベースから関連する文書を検索し、関連する前記文書に付与するタグを、抽出した前記意図を用いて作成して出力する、情報処理システムである。
【0008】
第2の態様は、前記プロセッサは、前記タグを複数生成して前記ユーザが選択可能に出力する、第1の態様に係る情報処理システムである。
【0009】
第3の態様は、前記プロセッサは、生成した前記タグを関連する前記文書にアノテーションとして付与して出力する、第1の態様に係る情報処理システムである。
【0010】
第4の態様は、前記プロセッサは、生成した前記タグを用いて関連する前記文書を変換して出力する、第1の態様に係る情報処理システムである。
【0011】
第5の態様は、前記プロセッサは、前記ユーザの意図として、ある言語から別の言語への翻訳を抽出し、前記タグとして、関連する前記文書の前記別の言語への翻訳データを生成する、第1の態様に係る情報処理システムである。
【0012】
第6の態様は、前記プロセッサは、前記ユーザの意図として、注釈付き特定文書の要求を抽出し、前記タグとして、前記特定文書に付与する注釈を生成する、第1の態様に係る情報処理システムである。
【0013】
第7の態様は、前記プロセッサは、前記ユーザの意図として、視覚障害者向けの変換を抽出し、前記タグとして、関連する前記文書の変換データを生成する、第1の態様に係る情報処理システムである。
【0014】
第8の態様は、プロセッサに、ユーザからの自然文データの入力を受け付けるステップと、前記自然文データを解析して前記ユーザの意図を抽出するステップと、前記自然文データを解析して文書データベースから関連する文書を検索するステップと、関連する前記文書に付与するタグを、抽出した前記意図を用いて作成して出力するステップと、を実行させるプログラムである。
【発明の効果】
【0015】
第1~第8の態様によれば、文書を得ようとするユーザの意図が表現された自然文に基づいて、当該意図に沿った文書に関連するタグを提供することができる。
【0016】
第5の態様によれば、さらに、ある言語から別の言語への翻訳の意図に沿って出力できる。
【0017】
第6の態様によれば、さらに、注釈付き特定文書の要求の意図に沿って出力できる。
【0018】
第7の態様によれば、さらに、視覚障害者向けの変換の意図に沿って出力できる。
【図面の簡単な説明】
【0019】
【
図2】実施形態のプロセッサの処理を示す模式的説明図である。
【
図3】実施形態のプロセッサの処理フローチャートである。
【
図5】実施形態の自然文の係り受け解析説明図である。
【
図6】実施形態の文書リポジトリ検索説明図である。
【
図8】実施形態のタグが付加された文書の一例を示す説明図である。
【
図10】実施形態の他の自然文の係り受け解析説明図である。
【
図11】実施形態の他の文書リポジトリ検索説明図である。
【
図12】実施形態のさらに他の自然文入力の説明図である。
【
図13】実施形態のさらに他の自然文の係り受け解析説明図である。
【
図14】実施形態のさらに他の文書リポジトリ検索説明図である。
【発明を実施するための形態】
【0020】
以下、図面に基づき本発明の実施形態について説明する。
【0021】
図1は、本実施形態の情報処理システム10の構成ブロック図を示す。情報処理システム10は、コンピュータ(サーバ及びパーソナルコンピュータを含む)、タブレット端末、あるいはスマートフォン等で構成される。情報処理システム10は、プロセッサ12、ROM14、RAM16、通信インターフェイス(I/F)18、入力部20、表示部22、及び記憶部24を備え、これらはバスを介して相互にデータ送受信可能に接続される。
【0022】
プロセッサ12は、ROM14あるいは記憶部24に記憶されたプログラムを読み出し、RAM16をワーキングメモリとして用いてプログラムを実行することで各種処理を実現する。プロセッサ12の処理については後述する。本実施形態のプロセッサ12は広義的なプロセッサを指し、汎用的なプロセッサ(例えば CPU Central Processing Unit等)や、専用のプロセッサ(例えばGPU Graphics Processing Unit、ASIC Application Specific Integrated Circuit、FPGA Field Programmable Gate Array 、 プログラマブル論理デバイス、等)を含むものである。また、プロセッサ12の動作は、1つのプロセッサによって成すのみでなく、物理的に離れた位置に存在する複数のプロセッサが協働して成すものであってもよい。また、プロセッサの各動作の順序は適宜変更してもよい。
【0023】
通信I/F18は、ネットワーク26を介して他の機器とデータ送受信する。
図1では、他の機器の一例としてデータベース28が例示されている。プロセッサ12は、通信I/F18及びネットワーク26を介してデータベース28にアクセスする。ネットワーク26は有線/無線を問わず、公衆/専用回線を問わない。ネットワーク26としてインターネットや社内LANが例示されるがこれに限定されない。
【0024】
入力部20は、キーボードやマウス、タッチパネル等で構成され、ユーザが自然文を文字入力するために用いられる。入力部20は、マイクで構成されていてもよく、ユーザは自然文を音声で入力し得る。
【0025】
表示部22は、液晶ディスプレイや有機ELディスプレイ等で構成され、プロセッサ12で処理された文書を出力表示する。表示部22としてタッチパネルを用いる場合、入力部20と表示部22は一体的に構成される。
【0026】
記憶部24は、ハードディスクドライブ(HDD)やソリッドステートドライブ(SSD)、フラッシュメモリ等で構成され、各種プログラムや各種データを記憶する。
【0027】
図2は、プロセッサ12の処理内容を模式的に示す。プロセッサ12は、機能ブロックとして、意図抽出12a、特徴量抽出部12b、及び変換部12cを備える。
【0028】
意図抽出部12aは、ユーザが入力した自然文100を解析して当該自然文からユーザの意図を抽出する。自然文100は、テキストデータあるいは音声データとして与えられ、例えば表示部22に表示された検索クエリーにユーザが文字入力することで与えられる。自然文を例示すると、
「この仕様書を日英翻訳したい」
「外国人アルバイト用の手順書が欲しい」
「競技マニュアルを読み上げて欲しい」
「作業範囲記述書を満たす委託開発に必要な注釈付き書類が欲しい」
「赤色を感じにくい人向けにボッチャの競技説明の文書を見やすく色を変えて欲しい」
等である。
【0029】
意図抽出部12aは、入力された自然文に対し、形態素解析の結果を基にして文の構造を解析する。すなわち、主語―述語、連体修飾語―体言などの係り受け関係を解析する。具体的には、日本語表現の文節同士にある関係を文法ルールや機械学習を取り入れたアルゴリズムに基づいて解析する。意図抽出部12aは、自然文100から抽出した意図を用いて意図記述XML102を生成する。
【0030】
特徴量抽出部12bは、各種文書をデータベースとして格納する文書リポジトリ30にアクセスして、意図抽出部12aで解析して得られた対象文書を検索対象として文書リポジトリ30を検索し、対象文書に関連する文書群104を抽出する。特徴量抽出部12bは、関連する文書群104を例えば関連度合いを用いてランキングして抽出する。ユーザは、ランキングされた文書群104から所望の文書を選択し得る。なお、関連する文書群104が単一である場合には、ユーザは選択する必要がない。
【0031】
変換部12cは、文書リポジトリ30から検索され、必要に応じてユーザにより選択された文書と、意図抽出部12aで抽出された意図が記述された意図記述XML102を用いて汎用言語モデル(ここでは日本語モデル)データベース32にアクセスしてタグ付きの文書106を出力する。より特定的には、変換部12cは、文書リポジトリ30から検索された文書に基づき、当該文書を構成する「章」、「節」、「項」のそれぞれを対象として、ユーザの意図に応じたタグを生成し、生成したタグを検索して得られた文書に付加して出力する。ここで、「変換」には、生成されたタグを文書に付加する他、生成されたタグを文書に埋め込んでデータ変換することが含まれる。また、「タグ」には、テキストデータ中に埋め込む特殊な記号や文字列の他、テキストデータあるいは画像データに関連する情報も含まれる。従って、あるテキストデータに関連する注釈(アノテーション)等のテキストデータ、あるテキストデータに関連する画像データ、あるテキストデータに関連する音声データ、ある画像データに関連する色データ、あるテキストデータに関連するフォントデータ等も「タグ」に含まれ得る。
【0032】
図2において、文書レポジトリ30や汎用言語モデルデータベース32は、
図1におけるネットワーク26上のデータベース28で構成され得るが、少なくともその一部(例えば文書リポジトリ30)を記憶部24で構成してもよい。
【0033】
図3は、プロセッサ12の処理フローチャートを示す。
【0034】
まず、プロセッサ12は、自然文を入力する(S100)。自然文は、ユーザが入力部20から入力する。自然文は、例えば
「サービスAの保守委託発注に必要な注釈付き書類が欲しい」
等である。
【0035】
次に、プロセッサ12は、入力した自然文を係り受け解析することでユーザの意図を抽出する(S101)。プロセッサ12は、抽出した係り受け関係に基づいて自然文を処理内容に分解する。自然文が
「サービスAの保守委託発注に必要な注釈付き書類が欲しい」
であれば、
「サービスA」は目的格で、合成時の置換内容を「サービスA」とする。また、「保守委託発注」は与格で、文書リポジトリ30の検索対象文書とする。また、「必要な」「欲しい」はユーザの意図で、文書リポジトリ30を検索して得られた文書に対する出力内容であり、「注釈付き」は修飾語、「書類」は対象格で、合成処理内容とする。なお、「注釈付き」「書類」は、書類に注釈を付加することを意味するから、例えばワープロソフトのアノテーションアドオンを起動することで注釈付けが実行される。
【0036】
次に、プロセッサ12は、特徴量を抽出する(S102)。すなわち、S101の意図抽出処理で抽出された検索対象文書を用いて文書リポジトリ30を検索し、関連する文書群104を抽出する。例えば、「保守委託発注」が検索対象文書であれば、「保守委託発注」を検索キーワードとして文書リポジトリ30を検索する。なお、検索キーワード毎に関連性の高いカテゴリを順次出力するバーティカル検索等は公知であり、これらのバーティカル検索技術を用いてもよい。検索して得られた関連する文書は、その関連度合いを用いてランキングする。例えば、「保守委託発注」に対し、文書カテゴリとして
1.SOW(作業範囲記述書:Statement of Work)
2.議案
3.稟議書
・・・
等とランキングされる。ユーザは、これらの中から所望の文書を選択し得る。なお、ユーザは自然文を入力する際に、予めSOWを特定して入力してもよく、この場合には文書リポジトリ30からSOWのみが抽出される。
【0037】
次に、プロセッサ12は、S102で抽出された文書を、S101で抽出された意図を用いて変換する(S103)。上記の自然文の場合、ユーザの意図は「注釈付き書類が欲しい」のであるから、S102で抽出された文書に対して注釈を付加する。この注釈は、「保守委託発注に必要な」注釈であるから、これに応じて注釈を作成して文書に付加する。プロセッサ12は、変換して得られた文書を表示部22に出力する(S104)。
【0038】
抽出したユーザの意図に応じて注釈を作成する際には、汎用言語モデルデータベース32が用いられる。汎用言語モデルは、言語モデルを基に構築され、教師あり学習と強化学習の両方の手法で転移学習される。「転移学習」は、ある問題を解決する際に得た知識を蓄積し、関連する別の問題にそれを適用することに焦点を当てた機械学習の手法であり、過去に学習した情報を新たな学習のために再利用または転送することで、強化学習手段のサンプル効率を大幅に改善し得る。汎用言語モデルは、ChatGPT等で公知である。「ChatGPT」は、自然な文章を生成するAIチャットボットであり、質問に答えて自然な言葉で文章を生成し得る。ChatGPT等では、ある文書を入力するとその文書の要約を作成して出力する、あるいは商品やサービスの概要を入力するとその概要から当該商品あるいはサービスの詳細な説明文(思わず購入したくなるような説明文)を作成して出力することができる。本実施形態では、このような汎用言語モデルを用いて、ユーザの意図に沿ったタグを生成して文書に付加する。タグの生成についてはさらに後述する。
【0039】
図4は、表示部22の画面34に表示された検索ウィンドウ36に入力された自然文の一例を示す。ユーザは、入力部20としてのキーボードを用いて
「サービスAの保守委託発注に必要な注釈付き書類が欲しい」
と入力する。
【0040】
図5は、入力された自然文の係り受け解析を模式的に示す。自然文が
「サービスAの保守委託発注に必要な注釈付き書類が欲しい」
の場合である。
「サービスA」
が目的格として抽出され、合成時の置換内容、すなわち、文書に付加する注釈を合成する際の置換内容として抽出される。注釈には、「サービスA」との文言が含まれることになる。また、
「保守委託発注」
が与格として抽出され、文書リポジトリ30から検索する検索対象文書として抽出される。プロセッサ12は、例えば検索キーワードとして「保守委託発注」を用いて文書リポジトリ30を検索し、「保守委託発注」に関連する文書群を抽出する。また、
「必要な」「欲しい」
が処理意図として抽出され、「必要な」や「欲しい」に基づいて文書リポジトリ30のバーティカル検索を実行し、検索して得られた文書に対して処理を施して出力することを決定する。また、
「注釈付き書類」
が対象格として抽出され、合成処理内容が決定される。すなわち、意図に応じた注釈を作成し、文書リポジトリ30から検索して得られた文書に合成する。
【0041】
なお、
図5では、ユーザの意図として「必要な」「欲しい」を抽出しているが、ユーザの意図として、「必要な注釈つき書類が欲しい」を抽出してもよい。
【0042】
図6は、特徴量抽出処理、すなわち文書リポジトリ30を検索し、関連する文書群を抽出する処理を模式的に示す。「保守委託発注」に関連する文書群が関連度合い(あるいは類似度合い)に基づきランキング出力される。図において、文書群104aは「SOW」、文書群104bは「議案」、文書群104cは「注文書」である。関連度合いは、
【0043】
文書群104a>文書群104b>文書群104c
である。
【0044】
文書群104aは、一般に複数のSOWから構成される。文書群104b、104cについても同様である。これらの文書群104a、104b、104cは、表示部22に表示される。ユーザがSOWを所望する場合、マウス等を操作して文書群104aを選択する。図では、表象図形(アイコン)40によりユーザが文書群104aを選択したことを示す。
【0045】
図7は、
図6においてSOWの文書群104aを選択した後の、変換処理を模式的に示す。この処理では、ユーザにより選択されたSOWの文書群104aのそれぞれから「章」、「節」、「項」それぞれのテキストを一文ずつ読み込んで形態素解析し、それぞれの関係を推定して代表表現を抽出する。そして、抽出した代表表現を、ユーザの意図に基づいて変換することで文書に付加する注釈(タグ)を生成する。例えば、
図7において、SOW群42として、「委託プロジェクトの説明」という「節」の「項」として、
「SOW-A:プロダクトAの保守業務を委託する」
「SOW-B:サービスBの保守業務の委託」
「SOW-C:プロダクトC保守業務に関する委託」
「SOW-D:プロダクトDの保守業務委託」
等が記載されているものとする。これらのSOW-A,SOW-B,SOW-C,及びSOW-Dそれぞれについて、自然文に含まれる「サービスA」「保守委託」「発注」等の単語との一致度に応じて類似度を決定し、最も類似度の高いものを代表表現として抽出する。この場合、代表表現44として、最も類似度の高い
「SOW-A:プロダクトAの保守業務を委託する」
を抽出する。
【0046】
なお、代表表現を抽出する際には、任意の公知技術を用いることができ、このような公知技術の一つとして、特許第3500698号に記載された技術が挙げられる。この技術では、表現抽出手段によりテキストから互いに関連する複数の語句からなる表現を抽出するステップと、関係抽出手段により表現抽出手段で抽出された表現を構成する語句の間の関係を推定し関係を表わすリレーション情報および複数の語句からなるリレーション表現を出力するステップと、リレーション表現選択手段により関係抽出手段から出力された前記リレーション情報およびリレーション表現から同じ語句によって構成されリレーション情報が互いに矛盾しないリレーション表現を抽出しその中で最も抽象度の低いリレーション情報を持つリレーション表現をキーワード候補として選択するステップを有する。抽象度が低いリレーション表現を選択するのは、抽象度が低い方が、単語間の関係が確かであり、キーワードとして有効に機能するためである。これによれば、テキスト中の単語だけでなく、単語間の関係も含めてキーワードとして抽出でき、関係の抽象度が異なる類似した表現の中から、適切なキーワードを抽出し得る。
【0047】
プロセッサ12は、さらに、抽出した代表表現44を、汎用言語モデルデータベース32を用いてユーザの意図に沿うように変換する。ユーザの意図が、サービスAの
「必要な注釈つき書類が欲しい」
とすると、代表表現44の「プロダクトA」を「サービスA」に置換して、
「サービスAの保守業務を委託する」
等と作成する。プロセッサ12は、作成した注釈46を文書に付加し、あるいは文書に埋め込んで出力する。
【0048】
ここでは、代表表現を抽出して変換しているが、抽出した「項」の表現をユーザの意図に応じて要約してもよい。例えば、
「重要バグ残存件数:0件」
なる「項」を要約して
「重要バグ 0件」
との注釈を生成して文書に付加してもよい。
【0049】
図8は、生成した注釈(タグ)が付加された文書106の一例を示す。元の文書は、文書リポジトリ30から検索され、ユーザにより選択された文書である。この文書106中、
「1.1 委託プロジェクトの説明」
なる節には
「サービスAの保守業務」
というタグ48が付加される。なお、タグ48として、
「サービスAの保守業務を委託する」
というタグでもよい。
【0050】
また、
「3.2 品質目標・基準」
なる節には
「静的コードチェックツールの規約違反がない」
というタグ50が付加される。このタグ50は、「3.2 品質目標・基準」に属する複数の「項」のうち、代表表現として
「静的コードチェックツールにおいて規約違反がないことを確認すること」
をユーザの意図に応じて変換(要約変換)したものである。
【0051】
また、
「3.2 品質目標・基準」
なる節の、
「1.単体テストにてステートメントの・・・」
なる項には、
「ステートメントの網羅:100%」
というタグが付加される。このタグは、該当する項目の
「C0coverage=100%」
をユーザの意図に応じて変換(要約変換)したものである。
【0052】
さらに、
「3.2 品質目標・基準」
なる節の、
「4.バグ修正率」
なる項には、2つのタグ52
「バグ修正率:90%以上」
「またはバグ修正率:95%以上」
が選択可能に付加される。
【0053】
このタグ52は、該当する項目の
「バグ修正率」
をユーザの意図に応じて2つの数字、及び「または」とのテキストを付加して変換したものである。なお、ユーザに対して選択を促すタグについては、それらのタグが選択可能であることを示す態様、例えば異なる色の態様で付加することが好適であろう。図では、タグ52の一方を青色、他方を緑色で表示することでユーザに提示している。
【0054】
ユーザは、これら2つのタグ52のいずれかを選択し、アイコン40により
「またはバグ修正率95%以上」
が選択されると、選択されたタグ52が文書に埋め込まれて反映される。図では、選択されたタグに従って
「4.バグ修正率:95%以上」
と表示される。
【0055】
このように、生成されたタグは注釈として文書の各項に付加されるだけでなく、ユーザに対して選択可能に付加してもよく、かつ、ユーザが選択した場合に選択されたタグの内容を文書に受けこんで反映させてもよい。
【0056】
以上は、ユーザが入力した自然文が
「サービスAの保守委託発注に必要な注釈付き書類が欲しい」
の場合の処理であるが、以下に、他の自然文が入力された場合についても例示的に説明する。
【0057】
図9は、表示部22の画面34に表示された検索ウィンドウ36に入力された自然文の他の例を示す。ユーザは、入力部20としてのキーボードを用いて
「赤色を感じにくい人向けにボッチャの競技説明の文書を見やすく色を変えて欲しい」
と入力した場合である。
【0058】
図10は、入力された自然文の係り受け解析の他の例を模式的に示す。自然文が
「赤色を感じにくい人向けにボッチャの競技説明の文書を見やすく色を変えて欲しい」
の場合である。この自然文を係り受け解析し、
「赤色を感じにくい人向け」
が相手として抽出され、合成文書の読者が規定される。因みに、赤色を感じにくい人とは、所謂p型色覚者等である。
【0059】
また、自然文のうち
「ボッチャの競技説明」
が文書リポジトリ30から検索する検索対象文書として抽出される。プロセッサ12は、例えば検索キーワードとして「ボッチャの競技説明」あるいは「ボッチャの競技マニュアル」を用いて文書リポジトリ30を検索し、関連する文書群を抽出する。
【0060】
また、自然文のうち
「文書」「欲しい」
が処理意図として抽出され、文書リポジトリ30のバーティカル検索を実行し、検索して得られた文書に対して処理を施して出力することを決定する。
【0061】
また、
「見やすく」「変換」
から合成処理内容として色変換が決定される。
【0062】
図11は、特徴量抽出処理、すなわち文書リポジトリ30を検索し、関連する文書群を抽出する処理を模式的に示す。「ボッチャの競技説明」あるいは「ボッチャの競技マニュアル」に関連する文書群が関連度合い(あるいは類似度合い)に基づきランキング出力される。図において、文書群104dは「競技者向け説明」、文書群104eは「大会ボランティア向け説明」、文書群104fは「初心者向け説明」である。なお、ここでは「競技者向け」、「大会ボランティア向け」、「初心者向け」と種別分けしているが、これは例示であって他の種別分け、例えば初級向け、中級向け、上級向け等でもよい。関連度合いは、例えば、
【0063】
文書群104d>文書群104e>文書群104f
である。
【0064】
これらの文書群104d、104e、104fは、表示部22に表示される。ユーザが初心者向け説明を所望する場合、マウス等を操作して文書群104fを選択する。図では、表象図形(アイコン)40によりユーザが文書群104fを選択したことを示す。
【0065】
この後、プロセッサ12は、選択された初心者向け説明に対し、汎用言語モデルデータベース32を用いて赤色を感じにくい人(p型色覚)向けに赤色を判別しやすい色に色変換した文書を作成して表示部22に表示する。この場合、タグは色変換後の色情報に相当し、色変換後の色で着色して表示することは、タグを文書に埋め込んで反映させることに相当する。
【0066】
なお、色変換を行う場合には、汎用言語モデルデータベース32ではなく、その他の色変換モデルデータベースを用いてもよい。プロセッサ12は、アクセスし得る複数のデータベースのうち、合成処理の内容に応じたデータベースを選択して合成処理する。各種の色覚者用に特定の色を他の判別しやすい色に色変換する技術は、各種の画像処理アプリケーションで公知である。また、多様な色覚者向けのガイドライン(カラーユニバーサルデザインガイドライン)も策定されており、これに準じた色変換を行うことが望ましい。
【0067】
図12は、表示部22の画面34に表示された検索ウィンドウ36に入力された自然文のさらに他の例を示す。ユーザは、入力部20としてのキーボードを用いて
「日本語初学者の外国人向けにボッチャの競技説明の文書を読みやすい日本語にして欲しい」
と入力した場合である。
【0068】
図13は、入力された自然文の係り受け解析のさらに他の例を模式的に示す。自然文が
「日本語初学者の外国人向けにボッチャの競技説明の文書を読みやすい日本語にして欲しい」
の場合である。自然文のうち
「日本語初学者の外国人向け」
が相手として抽出され、合成文書の読者が規定される。また、自然文のうち
「ボッチャの競技説明」
が文書リポジトリ30から検索する検索対象文書として抽出される。プロセッサ12は、例えば検索キーワードとして「ボッチャの競技説明」を用いて文書リポジトリ30を検索し、関連する文書群を抽出する。また、自然文のうち
「文書」「欲しい」
が処理意図として抽出され、文書リポジトリ30のバーティカル検索を実行し、検索して得られた文書に対して処理を施して出力することを決定する。また、自然文のうち
「読みやすい」「日本語」
から合成処理内容として「やさしい日本語」への変換が決定される。
「やさしい日本語」とは、普段使われている言葉を、外国人にも分かるように配慮した簡単な日本語のことであり、変換ルールの基本ルールは各省庁等のガイドラインなどにより開示されている。
【0069】
図14は、特徴量抽出処理、すなわち文書リポジトリ30を検索し、関連する文書群を抽出する処理を模式的に示す。「ボッチャの競技説明」に関連する文書群が関連度合い(あるいは類似度合い)に基づきランキング出力される。図において、文書群104gは「競技者向け説明」、文書群104hは「大会ボランティア向け説明」、文書群104iは「初心者向け説明」である。関連度合いは、
【0070】
文書群104g>文書群104h>文書群104i
である。
【0071】
これらの文書群104g、104h、104iは、表示部22に表示される。ユーザが初心者向け説明を所望する場合、マウス等を操作して文書群104iを選択する。図では、表象図形(アイコン)40によりユーザが文書群104fを選択したことを示す。
【0072】
この後、プロセッサ12は、選択された初心者向け説明に対し、「やさしい日本語」に変換した文書を作成して表示部22に表示する。例えば、
「チームメイトにボールを引き続き渡します」
との文が存在する場合、当該文書の「引き続き」の部分を分かりやすく
「チームメイトにボールを引き続き(これからも続けて)渡します」
等と変換する等である。この場合、タグは「やさしい日本語」を表現するための単語に相当し、「やさしい日本語」の単語を付加、あるいはやさしい単語に変換することは、タグを文書に埋め込んで反映させることに相当する。
【0073】
以上、本発明の実施形態について説明したが、本発明はこれらの実施形態に限定されず、種々の変形が可能である。
【0074】
例えば、本実施形態では、文字入力あるいは音声入力で自然文を入力しているが、視覚・聴覚を含め、複数のコミュニケーションモードを利用した所謂マルチモーダルでユーザの意図を入力してもよい。
【0075】
また、本実施形態では、文書にタグを付加して表示部22に表示して出力しているが、自然文
「この仕様書を日英翻訳したい」
に対して日本語を英語に翻訳する等のテキスト変換(英語データがタグに相当)、あるいは
自然文
「競技マニュアルを読み上げて欲しい」
に対してテキストを音声に変換するメディア変換(音声データがタグに相当)、あるいは
「聴覚障害者のために必要な情報を付加して欲しい」
に対して字幕や手話を挿入するメディア変換(字幕データや手話データがタグに相当)、あるいは自然文
「読みやすいテキストにして欲しい」
に対して読みやすいフォントに変換するフォント処理(フォントデータがタグに相当)や漢字に読み仮名を振る(ルビがタグに相当)、あるいは自然文
「テキストを要約して欲しい」
に対して文書のテキストを要約する等の変換(要約がタグに相当)を行ってもよい。翻訳変換する場合、元の日本語に注釈として付加する他、日本語を他の言語に置換して元の文書に埋め込んでもよく、元の文書のレイアウト解析及びレイアウト再合成を併せて実行してもよい。なお、テキストの要約は、タグの集合とみなすことができる。
【0076】
(付記)
(((1)))
プロセッサを備え、前記プロセッサは、
ユーザからの自然文データの入力を受け付け、
前記自然文データを解析して前記ユーザの意図を抽出し、
前記自然文データを解析して文書データベースから関連する文書を検索し、
関連する前記文書に付与するタグを、抽出した前記意図を用いて作成して出力する、
情報処理システム。
(((2)))
前記プロセッサは、
前記タグを複数生成して前記ユーザが選択可能に出力する、
(((1)))に記載の情報処理システム。
(((3)))
前記プロセッサは、
生成した前記タグを関連する前記文書にアノテーションとして付与して出力する、
(((1)))、(((2)))のいずれか記載の情報処理システム。
(((4)))
前記プロセッサは、
生成した前記タグを用いて関連する前記文書を変換して出力する、
(((1)))、(((2)))のいずれかに記載の情報処理システム。
(((5)))
前記プロセッサは、
前記ユーザの意図として、ある言語から別の言語への翻訳を抽出し、
前記タグとして、関連する前記文書の前記別の言語への翻訳データを生成する、
(((1)))~(((4)))のいずれかに記載の情報処理システム。
(((6)))
前記プロセッサは、
前記ユーザの意図として、注釈付き特定文書の要求を抽出し、
前記タグとして、前記特定文書に付与する注釈を生成する、
(((1)))~(((4)))のいずれかに記載の情報処理システム。
(((7)))
前記プロセッサは、
前記ユーザの意図として、視覚障害者向けの変換を抽出し、
前記タグとして、関連する前記文書の変換データを生成する、
(((1)))~(((4)))のいずれかに記載の情報処理システム。
(((8)))
プロセッサに、
ユーザからの自然文データの入力を受け付けるステップと、
前記自然文データを解析して前記ユーザの意図を抽出するステップと、
前記自然文データを解析して文書データベースから関連する文書を検索するステップと、
関連する前記文書に付与するタグを、抽出した前記意図を用いて作成して出力するステップと、
を実行させるプログラム。
【符号の説明】
【0077】
10 情報処理システム、12 プロセッサ、20 入力部、22 表示部、24 記憶部、26 ネットワーク、28 データベース。