特開2024-135500 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ 富士ゼロックス株式会社の特許一覧

特開2024-135500情報処理システム及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024135500

(43)【公開日】2024-10-04

(54)【発明の名称】情報処理システム及びプログラム

(51)【国際特許分類】

G06F 16/383 20190101AFI20240927BHJP

G06F 40/30 20200101ALI20240927BHJP

G06F 40/151 20200101ALI20240927BHJP

G06F 40/169 20200101ALI20240927BHJP

【ＦＩ】

G06F16/383

G06F40/30

G06F40/151

G06F40/169

【審査請求】未請求

【請求項の数】8

【出願形態】ＯＬ

(21)【出願番号】P 2023046215

(22)【出願日】2023-03-23

(71)【出願人】

【識別番号】000005496

【氏名又は名称】富士フイルムビジネスイノベーション株式会社

(74)【代理人】

【識別番号】110001210

【氏名又は名称】弁理士法人ＹＫＩ国際特許事務所

(72)【発明者】

【氏名】宮内忠信

【テーマコード（参考）】

5B109

5B175

【Ｆターム（参考）】

5B109QA02

5B109QA04

5B109SA14

5B175DA01

5B175FB02

5B175GC03

(57)【要約】

【課題】文書を得ようとするユーザの意図が表現された自然文に基づいて、当該意図に沿った文書に関連するタグを提供する。
【解決手段】情報処理システム１０は、プロセッサ１２を備える。プロセッサ１２は、ユーザからの自然文データの入力を受け付け、自然文データを解析してユーザの意図を抽出する。ユーザの意図は、注釈付き文書の要求、他の言語への翻訳、特定の人向けの文書変換等である。プロセッサ１２は、自然文データを解析して文書データベースから関連する文書を検索し、関連する文書に付与あるいは埋め込むタグを、抽出したユーザの意図を用いて作成して出力する。
【選択図】図１

【特許請求の範囲】

【請求項1】

プロセッサを備え、前記プロセッサは、
ユーザからの自然文データの入力を受け付け、
前記自然文データを解析して前記ユーザの意図を抽出し、
前記自然文データを解析して文書データベースから関連する文書を検索し、
関連する前記文書に付与するタグを、抽出した前記意図を用いて作成して出力する、
情報処理システム。

【請求項2】

前記プロセッサは、
前記タグを複数生成して前記ユーザが選択可能に出力する、
請求項１に記載の情報処理システム。

【請求項3】

前記プロセッサは、
生成した前記タグを関連する前記文書にアノテーションとして付与して出力する、
請求項１に記載の情報処理システム。

【請求項4】

前記プロセッサは、
生成した前記タグを用いて関連する前記文書を変換して出力する、
請求項１に記載の情報処理システム。

【請求項5】

前記プロセッサは、
前記ユーザの意図として、ある言語から別の言語への翻訳を抽出し、
前記タグとして、関連する前記文書の前記別の言語への翻訳データを生成する、
請求項１に記載の情報処理システム。

【請求項6】

前記プロセッサは、
前記ユーザの意図として、注釈付き特定文書の要求を抽出し、
前記タグとして、前記特定文書に付与する注釈を生成する、
請求項１に記載の情報処理システム。

【請求項7】

前記プロセッサは、
前記ユーザの意図として、視覚障害者向けの変換を抽出し、
前記タグとして、関連する前記文書の変換データを生成する、
請求項１に記載の情報処理システム。

【請求項8】

プロセッサに、
ユーザからの自然文データの入力を受け付けるステップと、
前記自然文データを解析して前記ユーザの意図を抽出するステップと、
前記自然文データを解析して文書データベースから関連する文書を検索するステップと、
関連する前記文書に付与するタグを、抽出した前記意図を用いて作成して出力するステップと、
を実行させるプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理システム及びプログラムに関する。

【背景技術】

【0002】

特許文献１には、ユーザからの質問に対する回答を構成する回答文書に対して、回答を検索するためのタグを付与するタグ付与装置が行うタグ付与方法であって、回答文書に対してタグとして付与するトピックを、検索を行うユーザまたは検索の対象に関する所定の基準により調整するためのタグ調整文書を選択し、回答文書および選択されたタグ調整文書から、当該回答文書および当該選択されたタグ調整文書を表わすトピックを抽出し、抽出されたトピックを、所定の基準のタグとして回答文書に付与する技術が記載されている。この構成によれば、回答文書に対して、質問するユーザや、回答の検索対象（例えば、家電製品の機能に関する質問における家電製品）に関する所定の基準（例えば、家電製品に対するユーザの知識レベルや、家電製品の新機種に搭載された機能であるか旧機種に搭載された機能であるか）に応じた検索タグを付与することが可能になると記載されている。

【0003】

また、特許文献２には、文書の入力を受け付ける受付部と、文書を複数のセクションに分割する分割部と、分割部が分割した複数のセクションごとにキーワードタグを生成するキーワードタグ生成部と、複数のセクション中に参照を示唆する文言が含まれるか否かを判定する判定部と、参照を示唆する文言が含まれる場合に、参照先のセクションを特定する特定部とを備える文作成装置が記載されている。この構成によれば、分散している専門書類リソースを電子的に一元化することで、横断的に情報を検索し、いち早く必要な情報にアクセスすることができ、専門書類を単に電子的に閲覧可能にするだけでなく、自然言語処理技術等を用いて専門書類を分析および整理し、専門書類の相互参照関係や特有の用語（キーワードタグ）の文中での使われ方を解析することで、専門書類（例えば、法律文書。例示であって、類似の文書間相互参照が重要な意味を持つ他の専門領域における文書でもよい）間の関係性を整理し、これにより、すべての専門書類から、必要な情報へのピンポイントなアクセス、関連する情報の漏れない調査を行うことが可能になると記載されている。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特許第６３８８２１２号

【特許文献2】特開２０２１－６４１４３号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

ところで、ユーザの知識レベル等に応じたタグ付与では、抽象的であってタグ付けの品質確保が困難となり得る。

【0006】

本発明は、文書を得ようとするユーザの意図が表現された自然文に基づいて、当該意図に沿った文書に関連するタグを提供することを目的とする。

【課題を解決するための手段】

【0007】

本発明の第１の態様は、プロセッサを備え、前記プロセッサは、ユーザからの自然文データの入力を受け付け、前記自然文データを解析して前記ユーザの意図を抽出し、前記自然文データを解析して文書データベースから関連する文書を検索し、関連する前記文書に付与するタグを、抽出した前記意図を用いて作成して出力する、情報処理システムである。

【0008】

第２の態様は、前記プロセッサは、前記タグを複数生成して前記ユーザが選択可能に出力する、第１の態様に係る情報処理システムである。

【0009】

第３の態様は、前記プロセッサは、生成した前記タグを関連する前記文書にアノテーションとして付与して出力する、第１の態様に係る情報処理システムである。

【0010】

第４の態様は、前記プロセッサは、生成した前記タグを用いて関連する前記文書を変換して出力する、第１の態様に係る情報処理システムである。

【0011】

第５の態様は、前記プロセッサは、前記ユーザの意図として、ある言語から別の言語への翻訳を抽出し、前記タグとして、関連する前記文書の前記別の言語への翻訳データを生成する、第１の態様に係る情報処理システムである。

【0012】

第６の態様は、前記プロセッサは、前記ユーザの意図として、注釈付き特定文書の要求を抽出し、前記タグとして、前記特定文書に付与する注釈を生成する、第１の態様に係る情報処理システムである。

【0013】

第７の態様は、前記プロセッサは、前記ユーザの意図として、視覚障害者向けの変換を抽出し、前記タグとして、関連する前記文書の変換データを生成する、第１の態様に係る情報処理システムである。

【0014】

第８の態様は、プロセッサに、ユーザからの自然文データの入力を受け付けるステップと、前記自然文データを解析して前記ユーザの意図を抽出するステップと、前記自然文データを解析して文書データベースから関連する文書を検索するステップと、関連する前記文書に付与するタグを、抽出した前記意図を用いて作成して出力するステップと、を実行させるプログラムである。

【発明の効果】

【0015】

第１～第８の態様によれば、文書を得ようとするユーザの意図が表現された自然文に基づいて、当該意図に沿った文書に関連するタグを提供することができる。

【0016】

第５の態様によれば、さらに、ある言語から別の言語への翻訳の意図に沿って出力できる。

【0017】

第６の態様によれば、さらに、注釈付き特定文書の要求の意図に沿って出力できる。

【0018】

第７の態様によれば、さらに、視覚障害者向けの変換の意図に沿って出力できる。

【図面の簡単な説明】

【0019】

【図1】実施形態のシステム構成図である。

【図2】実施形態のプロセッサの処理を示す模式的説明図である。

【図3】実施形態のプロセッサの処理フローチャートである。

【図4】実施形態の自然文入力の説明図である。

【図5】実施形態の自然文の係り受け解析説明図である。

【図6】実施形態の文書リポジトリ検索説明図である。

【図7】実施形態の変換処理説明図である。

【図8】実施形態のタグが付加された文書の一例を示す説明図である。

【図9】実施形態の他の自然文入力の説明図である。

【図10】実施形態の他の自然文の係り受け解析説明図である。

【図11】実施形態の他の文書リポジトリ検索説明図である。

【図12】実施形態のさらに他の自然文入力の説明図である。

【図13】実施形態のさらに他の自然文の係り受け解析説明図である。

【図14】実施形態のさらに他の文書リポジトリ検索説明図である。

【発明を実施するための形態】

【0020】

以下、図面に基づき本発明の実施形態について説明する。

【0021】

図１は、本実施形態の情報処理システム１０の構成ブロック図を示す。情報処理システム１０は、コンピュータ（サーバ及びパーソナルコンピュータを含む）、タブレット端末、あるいはスマートフォン等で構成される。情報処理システム１０は、プロセッサ１２、ＲＯＭ１４、ＲＡＭ１６、通信インターフェイス（Ｉ／Ｆ）１８、入力部２０、表示部２２、及び記憶部２４を備え、これらはバスを介して相互にデータ送受信可能に接続される。

【0022】

プロセッサ１２は、ＲＯＭ１４あるいは記憶部２４に記憶されたプログラムを読み出し、ＲＡＭ１６をワーキングメモリとして用いてプログラムを実行することで各種処理を実現する。プロセッサ１２の処理については後述する。本実施形態のプロセッサ１２は広義的なプロセッサを指し、汎用的なプロセッサ（例えば CPU Central Processing Unit等）や、専用のプロセッサ（例えばGPU Graphics Processing Unit、ASIC Application Specific Integrated Circuit、FPGA Field Programmable Gate Array 、プログラマブル論理デバイス、等）を含むものである。また、プロセッサ１２の動作は、１つのプロセッサによって成すのみでなく、物理的に離れた位置に存在する複数のプロセッサが協働して成すものであってもよい。また、プロセッサの各動作の順序は適宜変更してもよい。

【0023】

通信Ｉ／Ｆ１８は、ネットワーク２６を介して他の機器とデータ送受信する。図１では、他の機器の一例としてデータベース２８が例示されている。プロセッサ１２は、通信Ｉ／Ｆ１８及びネットワーク２６を介してデータベース２８にアクセスする。ネットワーク２６は有線／無線を問わず、公衆／専用回線を問わない。ネットワーク２６としてインターネットや社内ＬＡＮが例示されるがこれに限定されない。

【0024】

入力部２０は、キーボードやマウス、タッチパネル等で構成され、ユーザが自然文を文字入力するために用いられる。入力部２０は、マイクで構成されていてもよく、ユーザは自然文を音声で入力し得る。

【0025】

表示部２２は、液晶ディスプレイや有機ＥＬディスプレイ等で構成され、プロセッサ１２で処理された文書を出力表示する。表示部２２としてタッチパネルを用いる場合、入力部２０と表示部２２は一体的に構成される。

【0026】

記憶部２４は、ハードディスクドライブ（ＨＤＤ）やソリッドステートドライブ（ＳＳＤ）、フラッシュメモリ等で構成され、各種プログラムや各種データを記憶する。

【0027】

図２は、プロセッサ１２の処理内容を模式的に示す。プロセッサ１２は、機能ブロックとして、意図抽出１２ａ、特徴量抽出部１２ｂ、及び変換部１２ｃを備える。

【0028】

意図抽出部１２ａは、ユーザが入力した自然文１００を解析して当該自然文からユーザの意図を抽出する。自然文１００は、テキストデータあるいは音声データとして与えられ、例えば表示部２２に表示された検索クエリーにユーザが文字入力することで与えられる。自然文を例示すると、
「この仕様書を日英翻訳したい」
「外国人アルバイト用の手順書が欲しい」
「競技マニュアルを読み上げて欲しい」
「作業範囲記述書を満たす委託開発に必要な注釈付き書類が欲しい」
「赤色を感じにくい人向けにボッチャの競技説明の文書を見やすく色を変えて欲しい」
等である。

【0029】

意図抽出部１２ａは、入力された自然文に対し、形態素解析の結果を基にして文の構造を解析する。すなわち、主語―述語、連体修飾語―体言などの係り受け関係を解析する。具体的には、日本語表現の文節同士にある関係を文法ルールや機械学習を取り入れたアルゴリズムに基づいて解析する。意図抽出部１２ａは、自然文１００から抽出した意図を用いて意図記述ＸＭＬ１０２を生成する。

【0030】

特徴量抽出部１２ｂは、各種文書をデータベースとして格納する文書リポジトリ３０にアクセスして、意図抽出部１２ａで解析して得られた対象文書を検索対象として文書リポジトリ３０を検索し、対象文書に関連する文書群１０４を抽出する。特徴量抽出部１２ｂは、関連する文書群１０４を例えば関連度合いを用いてランキングして抽出する。ユーザは、ランキングされた文書群１０４から所望の文書を選択し得る。なお、関連する文書群１０４が単一である場合には、ユーザは選択する必要がない。

【0031】

変換部１２ｃは、文書リポジトリ３０から検索され、必要に応じてユーザにより選択された文書と、意図抽出部１２ａで抽出された意図が記述された意図記述ＸＭＬ１０２を用いて汎用言語モデル（ここでは日本語モデル）データベース３２にアクセスしてタグ付きの文書１０６を出力する。より特定的には、変換部１２ｃは、文書リポジトリ３０から検索された文書に基づき、当該文書を構成する「章」、「節」、「項」のそれぞれを対象として、ユーザの意図に応じたタグを生成し、生成したタグを検索して得られた文書に付加して出力する。ここで、「変換」には、生成されたタグを文書に付加する他、生成されたタグを文書に埋め込んでデータ変換することが含まれる。また、「タグ」には、テキストデータ中に埋め込む特殊な記号や文字列の他、テキストデータあるいは画像データに関連する情報も含まれる。従って、あるテキストデータに関連する注釈（アノテーション）等のテキストデータ、あるテキストデータに関連する画像データ、あるテキストデータに関連する音声データ、ある画像データに関連する色データ、あるテキストデータに関連するフォントデータ等も「タグ」に含まれ得る。

【0032】

図２において、文書レポジトリ３０や汎用言語モデルデータベース３２は、図１におけるネットワーク２６上のデータベース２８で構成され得るが、少なくともその一部（例えば文書リポジトリ３０）を記憶部２４で構成してもよい。

【0033】

図３は、プロセッサ１２の処理フローチャートを示す。

【0034】

まず、プロセッサ１２は、自然文を入力する（Ｓ１００）。自然文は、ユーザが入力部２０から入力する。自然文は、例えば
「サービスＡの保守委託発注に必要な注釈付き書類が欲しい」
等である。

【0035】

次に、プロセッサ１２は、入力した自然文を係り受け解析することでユーザの意図を抽出する（Ｓ１０１）。プロセッサ１２は、抽出した係り受け関係に基づいて自然文を処理内容に分解する。自然文が
「サービスＡの保守委託発注に必要な注釈付き書類が欲しい」
であれば、
「サービスＡ」は目的格で、合成時の置換内容を「サービスＡ」とする。また、「保守委託発注」は与格で、文書リポジトリ３０の検索対象文書とする。また、「必要な」「欲しい」はユーザの意図で、文書リポジトリ３０を検索して得られた文書に対する出力内容であり、「注釈付き」は修飾語、「書類」は対象格で、合成処理内容とする。なお、「注釈付き」「書類」は、書類に注釈を付加することを意味するから、例えばワープロソフトのアノテーションアドオンを起動することで注釈付けが実行される。

【0036】

次に、プロセッサ１２は、特徴量を抽出する（Ｓ１０２）。すなわち、Ｓ１０１の意図抽出処理で抽出された検索対象文書を用いて文書リポジトリ３０を検索し、関連する文書群１０４を抽出する。例えば、「保守委託発注」が検索対象文書であれば、「保守委託発注」を検索キーワードとして文書リポジトリ３０を検索する。なお、検索キーワード毎に関連性の高いカテゴリを順次出力するバーティカル検索等は公知であり、これらのバーティカル検索技術を用いてもよい。検索して得られた関連する文書は、その関連度合いを用いてランキングする。例えば、「保守委託発注」に対し、文書カテゴリとして
１．ＳＯＷ（作業範囲記述書：ＳｔａｔｅｍｅｎｔｏｆＷｏｒｋ）
２．議案
３．稟議書
・・・
等とランキングされる。ユーザは、これらの中から所望の文書を選択し得る。なお、ユーザは自然文を入力する際に、予めＳＯＷを特定して入力してもよく、この場合には文書リポジトリ３０からＳＯＷのみが抽出される。

【0037】

次に、プロセッサ１２は、Ｓ１０２で抽出された文書を、Ｓ１０１で抽出された意図を用いて変換する（Ｓ１０３）。上記の自然文の場合、ユーザの意図は「注釈付き書類が欲しい」のであるから、Ｓ１０２で抽出された文書に対して注釈を付加する。この注釈は、「保守委託発注に必要な」注釈であるから、これに応じて注釈を作成して文書に付加する。プロセッサ１２は、変換して得られた文書を表示部２２に出力する（Ｓ１０４）。

【0038】

抽出したユーザの意図に応じて注釈を作成する際には、汎用言語モデルデータベース３２が用いられる。汎用言語モデルは、言語モデルを基に構築され、教師あり学習と強化学習の両方の手法で転移学習される。「転移学習」は、ある問題を解決する際に得た知識を蓄積し、関連する別の問題にそれを適用することに焦点を当てた機械学習の手法であり、過去に学習した情報を新たな学習のために再利用または転送することで、強化学習手段のサンプル効率を大幅に改善し得る。汎用言語モデルは、ＣｈａｔＧＰＴ等で公知である。「ＣｈａｔＧＰＴ」は、自然な文章を生成するＡＩチャットボットであり、質問に答えて自然な言葉で文章を生成し得る。ＣｈａｔＧＰＴ等では、ある文書を入力するとその文書の要約を作成して出力する、あるいは商品やサービスの概要を入力するとその概要から当該商品あるいはサービスの詳細な説明文（思わず購入したくなるような説明文）を作成して出力することができる。本実施形態では、このような汎用言語モデルを用いて、ユーザの意図に沿ったタグを生成して文書に付加する。タグの生成についてはさらに後述する。

【0039】

図４は、表示部２２の画面３４に表示された検索ウィンドウ３６に入力された自然文の一例を示す。ユーザは、入力部２０としてのキーボードを用いて
「サービスＡの保守委託発注に必要な注釈付き書類が欲しい」
と入力する。

【0040】

図５は、入力された自然文の係り受け解析を模式的に示す。自然文が
「サービスＡの保守委託発注に必要な注釈付き書類が欲しい」
の場合である。
「サービスＡ」
が目的格として抽出され、合成時の置換内容、すなわち、文書に付加する注釈を合成する際の置換内容として抽出される。注釈には、「サービスＡ」との文言が含まれることになる。また、
「保守委託発注」
が与格として抽出され、文書リポジトリ３０から検索する検索対象文書として抽出される。プロセッサ１２は、例えば検索キーワードとして「保守委託発注」を用いて文書リポジトリ３０を検索し、「保守委託発注」に関連する文書群を抽出する。また、
「必要な」「欲しい」
が処理意図として抽出され、「必要な」や「欲しい」に基づいて文書リポジトリ３０のバーティカル検索を実行し、検索して得られた文書に対して処理を施して出力することを決定する。また、
「注釈付き書類」
が対象格として抽出され、合成処理内容が決定される。すなわち、意図に応じた注釈を作成し、文書リポジトリ３０から検索して得られた文書に合成する。

【0041】

なお、図５では、ユーザの意図として「必要な」「欲しい」を抽出しているが、ユーザの意図として、「必要な注釈つき書類が欲しい」を抽出してもよい。

【0042】

図６は、特徴量抽出処理、すなわち文書リポジトリ３０を検索し、関連する文書群を抽出する処理を模式的に示す。「保守委託発注」に関連する文書群が関連度合い（あるいは類似度合い）に基づきランキング出力される。図において、文書群１０４ａは「ＳＯＷ」、文書群１０４ｂは「議案」、文書群１０４ｃは「注文書」である。関連度合いは、

【0043】

文書群１０４ａ＞文書群１０４ｂ＞文書群１０４ｃ
である。

【0044】

文書群１０４ａは、一般に複数のＳＯＷから構成される。文書群１０４ｂ、１０４ｃについても同様である。これらの文書群１０４ａ、１０４ｂ、１０４ｃは、表示部２２に表示される。ユーザがＳＯＷを所望する場合、マウス等を操作して文書群１０４ａを選択する。図では、表象図形（アイコン）４０によりユーザが文書群１０４ａを選択したことを示す。

【0045】

図７は、図６においてＳＯＷの文書群１０４ａを選択した後の、変換処理を模式的に示す。この処理では、ユーザにより選択されたＳＯＷの文書群１０４ａのそれぞれから「章」、「節」、「項」それぞれのテキストを一文ずつ読み込んで形態素解析し、それぞれの関係を推定して代表表現を抽出する。そして、抽出した代表表現を、ユーザの意図に基づいて変換することで文書に付加する注釈（タグ）を生成する。例えば、図７において、ＳＯＷ群４２として、「委託プロジェクトの説明」という「節」の「項」として、
「ＳＯＷ－Ａ：プロダクトＡの保守業務を委託する」
「ＳＯＷ－Ｂ：サービスＢの保守業務の委託」
「ＳＯＷ－Ｃ：プロダクトＣ保守業務に関する委託」
「ＳＯＷ－Ｄ：プロダクトＤの保守業務委託」
等が記載されているものとする。これらのＳＯＷ－Ａ，ＳＯＷ－Ｂ，ＳＯＷ－Ｃ，及びＳＯＷ－Ｄそれぞれについて、自然文に含まれる「サービスＡ」「保守委託」「発注」等の単語との一致度に応じて類似度を決定し、最も類似度の高いものを代表表現として抽出する。この場合、代表表現４４として、最も類似度の高い
「ＳＯＷ－Ａ：プロダクトＡの保守業務を委託する」
を抽出する。

【0046】

なお、代表表現を抽出する際には、任意の公知技術を用いることができ、このような公知技術の一つとして、特許第３５００６９８号に記載された技術が挙げられる。この技術では、表現抽出手段によりテキストから互いに関連する複数の語句からなる表現を抽出するステップと、関係抽出手段により表現抽出手段で抽出された表現を構成する語句の間の関係を推定し関係を表わすリレーション情報および複数の語句からなるリレーション表現を出力するステップと、リレーション表現選択手段により関係抽出手段から出力された前記リレーション情報およびリレーション表現から同じ語句によって構成されリレーション情報が互いに矛盾しないリレーション表現を抽出しその中で最も抽象度の低いリレーション情報を持つリレーション表現をキーワード候補として選択するステップを有する。抽象度が低いリレーション表現を選択するのは、抽象度が低い方が、単語間の関係が確かであり、キーワードとして有効に機能するためである。これによれば、テキスト中の単語だけでなく、単語間の関係も含めてキーワードとして抽出でき、関係の抽象度が異なる類似した表現の中から、適切なキーワードを抽出し得る。

【0047】

プロセッサ１２は、さらに、抽出した代表表現４４を、汎用言語モデルデータベース３２を用いてユーザの意図に沿うように変換する。ユーザの意図が、サービスＡの
「必要な注釈つき書類が欲しい」
とすると、代表表現４４の「プロダクトＡ」を「サービスＡ」に置換して、
「サービスＡの保守業務を委託する」
等と作成する。プロセッサ１２は、作成した注釈４６を文書に付加し、あるいは文書に埋め込んで出力する。

【0048】

ここでは、代表表現を抽出して変換しているが、抽出した「項」の表現をユーザの意図に応じて要約してもよい。例えば、
「重要バグ残存件数：０件」
なる「項」を要約して
「重要バグ０件」
との注釈を生成して文書に付加してもよい。

【0049】

図８は、生成した注釈（タグ）が付加された文書１０６の一例を示す。元の文書は、文書リポジトリ３０から検索され、ユーザにより選択された文書である。この文書１０６中、
「１．１委託プロジェクトの説明」
なる節には
「サービスＡの保守業務」
というタグ４８が付加される。なお、タグ４８として、
「サービスＡの保守業務を委託する」
というタグでもよい。

【0050】

また、
「３．２品質目標・基準」
なる節には
「静的コードチェックツールの規約違反がない」
というタグ５０が付加される。このタグ５０は、「３．２品質目標・基準」に属する複数の「項」のうち、代表表現として
「静的コードチェックツールにおいて規約違反がないことを確認すること」
をユーザの意図に応じて変換（要約変換）したものである。

【0051】

また、
「３．２品質目標・基準」
なる節の、
「１．単体テストにてステートメントの・・・」
なる項には、
「ステートメントの網羅：１００％」
というタグが付加される。このタグは、該当する項目の
「Ｃ０ｃｏｖｅｒａｇｅ＝１００％」
をユーザの意図に応じて変換（要約変換）したものである。

【0052】

さらに、
「３．２品質目標・基準」
なる節の、
「４．バグ修正率」
なる項には、２つのタグ５２
「バグ修正率：９０％以上」
「またはバグ修正率：９５％以上」
が選択可能に付加される。

【0053】

このタグ５２は、該当する項目の
「バグ修正率」
をユーザの意図に応じて２つの数字、及び「または」とのテキストを付加して変換したものである。なお、ユーザに対して選択を促すタグについては、それらのタグが選択可能であることを示す態様、例えば異なる色の態様で付加することが好適であろう。図では、タグ５２の一方を青色、他方を緑色で表示することでユーザに提示している。

【0054】

ユーザは、これら２つのタグ５２のいずれかを選択し、アイコン４０により
「またはバグ修正率９５％以上」
が選択されると、選択されたタグ５２が文書に埋め込まれて反映される。図では、選択されたタグに従って
「４．バグ修正率：９５％以上」
と表示される。

【0055】

このように、生成されたタグは注釈として文書の各項に付加されるだけでなく、ユーザに対して選択可能に付加してもよく、かつ、ユーザが選択した場合に選択されたタグの内容を文書に受けこんで反映させてもよい。

【0056】

以上は、ユーザが入力した自然文が
「サービスＡの保守委託発注に必要な注釈付き書類が欲しい」
の場合の処理であるが、以下に、他の自然文が入力された場合についても例示的に説明する。

【0057】

図９は、表示部２２の画面３４に表示された検索ウィンドウ３６に入力された自然文の他の例を示す。ユーザは、入力部２０としてのキーボードを用いて
「赤色を感じにくい人向けにボッチャの競技説明の文書を見やすく色を変えて欲しい」
と入力した場合である。

【0058】

図１０は、入力された自然文の係り受け解析の他の例を模式的に示す。自然文が
「赤色を感じにくい人向けにボッチャの競技説明の文書を見やすく色を変えて欲しい」
の場合である。この自然文を係り受け解析し、
「赤色を感じにくい人向け」
が相手として抽出され、合成文書の読者が規定される。因みに、赤色を感じにくい人とは、所謂ｐ型色覚者等である。

【0059】

また、自然文のうち
「ボッチャの競技説明」
が文書リポジトリ３０から検索する検索対象文書として抽出される。プロセッサ１２は、例えば検索キーワードとして「ボッチャの競技説明」あるいは「ボッチャの競技マニュアル」を用いて文書リポジトリ３０を検索し、関連する文書群を抽出する。

【0060】

また、自然文のうち
「文書」「欲しい」
が処理意図として抽出され、文書リポジトリ３０のバーティカル検索を実行し、検索して得られた文書に対して処理を施して出力することを決定する。

【0061】

また、
「見やすく」「変換」
から合成処理内容として色変換が決定される。

【0062】

図１１は、特徴量抽出処理、すなわち文書リポジトリ３０を検索し、関連する文書群を抽出する処理を模式的に示す。「ボッチャの競技説明」あるいは「ボッチャの競技マニュアル」に関連する文書群が関連度合い（あるいは類似度合い）に基づきランキング出力される。図において、文書群１０４ｄは「競技者向け説明」、文書群１０４ｅは「大会ボランティア向け説明」、文書群１０４ｆは「初心者向け説明」である。なお、ここでは「競技者向け」、「大会ボランティア向け」、「初心者向け」と種別分けしているが、これは例示であって他の種別分け、例えば初級向け、中級向け、上級向け等でもよい。関連度合いは、例えば、

【0063】

文書群１０４ｄ＞文書群１０４ｅ＞文書群１０４ｆ
である。

【0064】

これらの文書群１０４ｄ、１０４ｅ、１０４ｆは、表示部２２に表示される。ユーザが初心者向け説明を所望する場合、マウス等を操作して文書群１０４ｆを選択する。図では、表象図形（アイコン）４０によりユーザが文書群１０４ｆを選択したことを示す。

【0065】

この後、プロセッサ１２は、選択された初心者向け説明に対し、汎用言語モデルデータベース３２を用いて赤色を感じにくい人（ｐ型色覚）向けに赤色を判別しやすい色に色変換した文書を作成して表示部２２に表示する。この場合、タグは色変換後の色情報に相当し、色変換後の色で着色して表示することは、タグを文書に埋め込んで反映させることに相当する。

【0066】

なお、色変換を行う場合には、汎用言語モデルデータベース３２ではなく、その他の色変換モデルデータベースを用いてもよい。プロセッサ１２は、アクセスし得る複数のデータベースのうち、合成処理の内容に応じたデータベースを選択して合成処理する。各種の色覚者用に特定の色を他の判別しやすい色に色変換する技術は、各種の画像処理アプリケーションで公知である。また、多様な色覚者向けのガイドライン（カラーユニバーサルデザインガイドライン）も策定されており、これに準じた色変換を行うことが望ましい。

【0067】

図１２は、表示部２２の画面３４に表示された検索ウィンドウ３６に入力された自然文のさらに他の例を示す。ユーザは、入力部２０としてのキーボードを用いて
「日本語初学者の外国人向けにボッチャの競技説明の文書を読みやすい日本語にして欲しい」
と入力した場合である。

【0068】

図１３は、入力された自然文の係り受け解析のさらに他の例を模式的に示す。自然文が
「日本語初学者の外国人向けにボッチャの競技説明の文書を読みやすい日本語にして欲しい」
の場合である。自然文のうち
「日本語初学者の外国人向け」
が相手として抽出され、合成文書の読者が規定される。また、自然文のうち
「ボッチャの競技説明」
が文書リポジトリ３０から検索する検索対象文書として抽出される。プロセッサ１２は、例えば検索キーワードとして「ボッチャの競技説明」を用いて文書リポジトリ３０を検索し、関連する文書群を抽出する。また、自然文のうち
「文書」「欲しい」
が処理意図として抽出され、文書リポジトリ３０のバーティカル検索を実行し、検索して得られた文書に対して処理を施して出力することを決定する。また、自然文のうち
「読みやすい」「日本語」
から合成処理内容として「やさしい日本語」への変換が決定される。
「やさしい日本語」とは、普段使われている言葉を、外国人にも分かるように配慮した簡単な日本語のことであり、変換ルールの基本ルールは各省庁等のガイドラインなどにより開示されている。

【0069】

図１４は、特徴量抽出処理、すなわち文書リポジトリ３０を検索し、関連する文書群を抽出する処理を模式的に示す。「ボッチャの競技説明」に関連する文書群が関連度合い（あるいは類似度合い）に基づきランキング出力される。図において、文書群１０４ｇは「競技者向け説明」、文書群１０４ｈは「大会ボランティア向け説明」、文書群１０４ｉは「初心者向け説明」である。関連度合いは、

【0070】

文書群１０４ｇ＞文書群１０４ｈ＞文書群１０４ｉ
である。

【0071】

これらの文書群１０４ｇ、１０４ｈ、１０４ｉは、表示部２２に表示される。ユーザが初心者向け説明を所望する場合、マウス等を操作して文書群１０４ｉを選択する。図では、表象図形（アイコン）４０によりユーザが文書群１０４ｆを選択したことを示す。

【0072】

この後、プロセッサ１２は、選択された初心者向け説明に対し、「やさしい日本語」に変換した文書を作成して表示部２２に表示する。例えば、
「チームメイトにボールを引き続き渡します」
との文が存在する場合、当該文書の「引き続き」の部分を分かりやすく
「チームメイトにボールを引き続き（これからも続けて）渡します」
等と変換する等である。この場合、タグは「やさしい日本語」を表現するための単語に相当し、「やさしい日本語」の単語を付加、あるいはやさしい単語に変換することは、タグを文書に埋め込んで反映させることに相当する。

【0073】

以上、本発明の実施形態について説明したが、本発明はこれらの実施形態に限定されず、種々の変形が可能である。

【0074】

例えば、本実施形態では、文字入力あるいは音声入力で自然文を入力しているが、視覚・聴覚を含め、複数のコミュニケーションモードを利用した所謂マルチモーダルでユーザの意図を入力してもよい。

【0075】

また、本実施形態では、文書にタグを付加して表示部２２に表示して出力しているが、自然文
「この仕様書を日英翻訳したい」
に対して日本語を英語に翻訳する等のテキスト変換（英語データがタグに相当）、あるいは
自然文
「競技マニュアルを読み上げて欲しい」
に対してテキストを音声に変換するメディア変換（音声データがタグに相当）、あるいは
「聴覚障害者のために必要な情報を付加して欲しい」
に対して字幕や手話を挿入するメディア変換（字幕データや手話データがタグに相当）、あるいは自然文
「読みやすいテキストにして欲しい」
に対して読みやすいフォントに変換するフォント処理（フォントデータがタグに相当）や漢字に読み仮名を振る（ルビがタグに相当）、あるいは自然文
「テキストを要約して欲しい」
に対して文書のテキストを要約する等の変換（要約がタグに相当）を行ってもよい。翻訳変換する場合、元の日本語に注釈として付加する他、日本語を他の言語に置換して元の文書に埋め込んでもよく、元の文書のレイアウト解析及びレイアウト再合成を併せて実行してもよい。なお、テキストの要約は、タグの集合とみなすことができる。

【0076】

（付記）
（（（１）））
プロセッサを備え、前記プロセッサは、
ユーザからの自然文データの入力を受け付け、
前記自然文データを解析して前記ユーザの意図を抽出し、
前記自然文データを解析して文書データベースから関連する文書を検索し、
関連する前記文書に付与するタグを、抽出した前記意図を用いて作成して出力する、
情報処理システム。
（（（２）））
前記プロセッサは、
前記タグを複数生成して前記ユーザが選択可能に出力する、
（（（１）））に記載の情報処理システム。
（（（３）））
前記プロセッサは、
生成した前記タグを関連する前記文書にアノテーションとして付与して出力する、
（（（１）））、（（（２）））のいずれか記載の情報処理システム。
（（（４）））
前記プロセッサは、
生成した前記タグを用いて関連する前記文書を変換して出力する、
（（（１）））、（（（２）））のいずれかに記載の情報処理システム。
（（（５）））
前記プロセッサは、
前記ユーザの意図として、ある言語から別の言語への翻訳を抽出し、
前記タグとして、関連する前記文書の前記別の言語への翻訳データを生成する、
（（（１）））～（（（４）））のいずれかに記載の情報処理システム。
（（（６）））
前記プロセッサは、
前記ユーザの意図として、注釈付き特定文書の要求を抽出し、
前記タグとして、前記特定文書に付与する注釈を生成する、
（（（１）））～（（（４）））のいずれかに記載の情報処理システム。
（（（７）））
前記プロセッサは、
前記ユーザの意図として、視覚障害者向けの変換を抽出し、
前記タグとして、関連する前記文書の変換データを生成する、
（（（１）））～（（（４）））のいずれかに記載の情報処理システム。
（（（８）））
プロセッサに、
ユーザからの自然文データの入力を受け付けるステップと、
前記自然文データを解析して前記ユーザの意図を抽出するステップと、
前記自然文データを解析して文書データベースから関連する文書を検索するステップと、
関連する前記文書に付与するタグを、抽出した前記意図を用いて作成して出力するステップと、
を実行させるプログラム。

【符号の説明】

【0077】

１０情報処理システム、１２プロセッサ、２０入力部、２２表示部、２４記憶部、２６ネットワーク、２８データベース。

【図1】