IP Force 特許公報掲載プロジェクト 2022.1.31 β版

ホーム > 特許ランキング > 株式会社日立製作所

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立製作所の特許一覧

特開2024-179166生成装置、生成方法および生成プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024179166

(43)【公開日】2024-12-26

(54)【発明の名称】生成装置、生成方法および生成プログラム

(51)【国際特許分類】

G06F 16/90 20190101AFI20241219BHJP

【ＦＩ】

G06F16/90 100

【審査請求】未請求

【請求項の数】11

【出願形態】ＯＬ

(21)【出願番号】P 2023097784

(22)【出願日】2023-06-14

(71)【出願人】

【識別番号】000005108

【氏名又は名称】株式会社日立製作所

(74)【代理人】

【識別番号】110001678

【氏名又は名称】藤央弁理士法人

(72)【発明者】

【氏名】高島悠樹

(72)【発明者】

【氏名】堀口翔太

(72)【発明者】

【氏名】本間健

【テーマコード（参考）】

5B175

【Ｆターム（参考）】

5B175EA01

(57)【要約】（修正有）

【課題】質問に対する回答の正答率の向上を図るための生成装置、生成方法及び生成プログラムを提供する。
【解決手段】生成装置による応答決定処理方法は、質問に対する回答の根拠となる文書内の回答範囲と当該回答範囲の確からしさを示す信頼度とを含む１以上の回答候補を示す回答候補情報を取得し、信頼度が最大の回答範囲を選択するステップＳ６０２と、取得した回答候補情報内の回答範囲の文字に基づく長さである回答長が所定の回答長以上であるか否かを判定する第１判定結果を求めるステップＳ６０３と、第１判定結果と、信頼度に基づく指標値がしきい値以上であるか否かを判定する第２判定結果と、に基づいて、回答範囲を出力対象に決定するか否かを判定するステップＳ６０４と、決定処理によって決定された出力対象を出力するステップＳ６０５と、を含む。
【選択図】図６

【特許請求の範囲】

【請求項1】

プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有する生成装置であって、
前記プロセッサは、
質問に対する回答の根拠となる文書内の回答範囲と当該回答範囲の確からしさを示す信頼度とを含む１以上の回答候補を示す回答候補情報を取得する取得処理と、
前記取得処理によって取得された回答候補情報内の前記回答範囲の文字に基づく長さである回答長が所定の回答長以上であるか否かを判定する第１判定結果と、前記信頼度に基づく指標値がしきい値以上であるか否かを判定する第２判定結果と、に基づいて、前記回答範囲を出力対象に決定する決定処理と、
前記決定処理によって決定された出力対象を出力する出力処理と、
を実行することを特徴とする生成装置。

【請求項2】

請求項１に記載の生成装置であって、
前記指標値は、前記信頼度であり、
前記決定処理では、前記プロセッサは、前記第１判定結果において前記回答長が所定の回答長以上であり、かつ、前記第２判定結果において前記指標値がしきい値以上である場合、前記回答範囲を前記出力対象に決定する、
ことを特徴とする生成装置。

【請求項3】

請求項１に記載の生成装置であって、
前記指標値は、前記回答候補情報内の最大信頼度に対する前記回答範囲の前記信頼度の割合であり、
前記決定処理では、前記プロセッサは、前記第１判定結果において前記回答長が所定の回答長以上であり、かつ、前記第２判定結果において前記指標値がしきい値以上である場合、前記回答範囲を前記出力対象に決定する、
ことを特徴とする生成装置。

【請求項4】

請求項１に記載の生成装置であって、
前記指標値は、前記回答候補情報内の最大信頼度から前記回答範囲の前記信頼度を引いた差分であり、
前記決定処理では、前記プロセッサは、前記第１判定結果において前記回答長が所定の回答長以上であり、かつ、前記第２判定結果において前記指標値がしきい値未満である場合、前記回答範囲を前記出力対象に決定する、
ことを特徴とする生成装置。

【請求項5】

請求項１に記載の生成装置であって、
前記出力処理では、前記プロセッサは、前記回答範囲が前記出力対象に決定されなかった場合、回答不可情報を出力する、
ことを特徴とする生成装置。

【請求項6】

請求項１に記載の生成装置であって、
前記決定処理では、前記プロセッサは、前記文書内の文節に基づいて前記所定の回答長を算出する、
ことを特徴とする生成装置。

【請求項7】

請求項１に記載の生成装置であって、
前記プロセッサは、
前記質問と前記質問に対する正しい回答を示す正解回答とを用いて学習された機械読解モデルに、前記質問および前記文書を入力すると、前記機械読解モデルから前記回答候補情報を出力する機械読解処理、
を実行することを特徴とする生成装置。

【請求項8】

プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有する生成装置であって、
前記プロセッサは、
質問に対する回答の根拠となる文書内の回答範囲と当該回答範囲の確からしさを示す信頼度とを含む１以上の回答候補を示す回答候補情報を前記質問ごとに取得するとともに、前記質問に対する正しい回答を示す正解回答を前記質問ごとに取得する取得処理と、
前記取得処理によって取得された回答候補情報ごとに、前記回答範囲の文字に基づく長さである回答長が所定の回答長以上であるか否かを判定する第１判定結果に基づいて、特定の回答候補を収集する収集処理と、
前記信頼度に基づく指標値のしきい値の範囲を示すしきい値範囲内の複数のしきい値の各々について、前記収集処理によって前記回答候補情報ごとに収集された特定の回答候補の前記信頼度に基づく指標値が前記しきい値以上であるか否かを判定する第２判定結果に基づいて、前記特定の回答候補における特定の回答範囲を出力対象および非出力対象のいずれかに決定する決定処理と、
前記決定処理による前記しきい値ごとの決定結果に基づいて、前記出力対象の件数に対する前記出力対象と前記正解回答との一致数の割合を示す正答率と、前記出力対象の件数および前記非出力対象の件数の和に対する前記出力対象の件数の割合を示す網羅率と、を前記しきい値ごとに算出し、前記しきい値ごとの前記正答率および前記網羅率を示す可視化情報を生成する生成処理と、
前記生成処理によって生成された可視化情報を出力する出力処理と、
を実行することを特徴とする生成装置。

【請求項9】

請求項８に記載の生成装置であって、
前記プロセッサは、
前記可視化情報を出力した結果、前記しきい値の入力を受け付けて、前記記憶デバイスに登録する登録処理、
を実行することを特徴とする生成装置。

【請求項10】

プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有する生成装置が実行する生成方法であって、
前記プロセッサは、
質問に対する回答の根拠となる文書内の回答範囲と当該回答範囲の確からしさを示す信頼度とを含む１以上の回答候補を示す回答候補情報を取得する取得処理と、
前記取得処理によって取得された回答候補情報内の前記回答範囲の文字に基づく長さである回答長が所定の回答長以上であるか否かを判定する第１判定結果と、前記信頼度に基づく指標値がしきい値以上であるか否かを判定する第２判定結果と、に基づいて、前記回答範囲を出力対象に決定する決定処理と、
前記決定処理によって決定された出力対象を出力する出力処理と、
を実行することを特徴とする生成方法。

【請求項11】

プロセッサに、
質問に対する回答の根拠となる文書内の回答範囲と当該回答範囲の確からしさを示す信頼度とを含む１以上の回答候補を示す回答候補情報を取得する取得処理と、
前記取得処理によって取得された回答候補情報内の前記回答範囲の文字に基づく長さである回答長が所定の回答長以上であるか否かを判定する第１判定結果と、前記信頼度に基づく指標値がしきい値以上であるか否かを判定する第２判定結果と、に基づいて、前記回答範囲を出力対象に決定する決定処理と、
前記決定処理によって決定された出力対象を出力する出力処理と、
を実行させることを特徴とする生成プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、質問に対する回答を生成する生成装置、生成方法および生成プログラムに関する。

【背景技術】

【0002】

従来の質問応答システムでは、想定質問とその回答のペアからなる質問応答対が事前登録される。質問応答システムは、ユーザ質問が入力されると登録された質問の中から最も類似した質問を検索しその回答を返す。質問応答システムでは、事前に登録した質問応答対に関する内容の質問にしか応答できず、また質問応答対の作成に人的コストがかかっていた。

【0003】

そこで近年、機械読解が注目されている（たとえば、下記非特許文献１を参照。）。機械読解は、ユーザ質問と文書を入力し、回答の根拠となる範囲を文書から抽出する技術であり、入力する文書を変えることで任意の内容に関する質問に応答する。機械読解に基づく質問応答システムとして、特許文献１と非特許文献２が知られている。

【0004】

特許文献１は、極性で回答することができる質問に対して、精度よく、極性で回答する回答生成装置を開示する。この回答生成装置では、機械読解部が、入力された文章及び質問文に基づいて、当該文章における当該質問文に対する回答の根拠となる範囲を推定するための予め学習された読解モデルを用いて、当該範囲の始端及び終端を推定し、判断部が、機械読解部の処理によって得られる情報に基づいて、質問文に対する回答の極性が正か否かを判断するための予め学習された判断モデルを用いて、当該質問文に対する回答の極性を判断する。

【先行技術文献】

【特許文献】

【0005】

【特許文献1】国際公開第２０１９／２４４８０３号

【非特許文献】

【0006】

【非特許文献1】Jacob Devlin Ming-Wei Chang Kenton Lee Kristina Toutanova “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding” Proceedings of NAACL-HLT 2019, pages 4171-4186 Minneapolis, Minnesota, June 2 - June 7, 2019.

【非特許文献2】Pranav Rajpurkar, et al. “SQuAD: 100,000+ questions for machine comprehension of text,” Proc. of the Conference on Empirical Methods in Natural Language Processing, 2016, pp.2383-2392.

【発明の概要】

【発明が解決しようとする課題】

【0007】

機械読解は、文書中の任意の部分文字列を回答範囲として抽出できるため、０文字からなる文字列（“回答なし”を意味する）や意味が取れない短い文字列（たとえば、句点や主語が抜けているなど文法的に誤りがある文（例：“がない”））を回答範囲として生成しうる。

【0008】

また、機械読解は、回答範囲に対する信頼度も計算するため、複数の回答範囲から信頼度に基づいて最終的な回答範囲を１つ選択する。この時、上述のような極端に短い回答範囲にも高い信頼度が計算されることがある。したがって、信頼度だけに基づいて回答範囲を選択するのは不十分な場合がある。特に、文や段落のような長い回答を想定する場合には、上述のような短い回答範囲は誤りである可能性が高い。

【0009】

上述した特許文献１および非特許文献１の技術は、そのような回答範囲を応答として返さないように後処理を行うことで回答の正答率を高めるという点については、考慮されていない。

【0010】

本発明は、質問に対する回答の正答率の向上を図ることを目的とする。

【課題を解決するための手段】

【0011】

本願において開示される発明の一側面となる生成装置は、プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有する生成装置であって、前記プロセッサは、質問に対する回答の根拠となる文書内の回答範囲と当該回答範囲の確からしさを示す信頼度とを含む１以上の回答候補を示す回答候補情報を取得する取得処理と、前記取得処理によって取得された回答候補情報内の前記回答範囲の文字に基づく長さである回答長が所定の回答長以上であるか否かを判定する第１判定結果と、前記信頼度に基づく指標値がしきい値以上であるか否かを判定する第２判定結果と、に基づいて、前記回答範囲を出力対象に決定する決定処理と、前記決定処理によって決定された出力対象を出力する出力処理と、を実行することを特徴とする。

【発明の効果】

【0012】

本発明の代表的な実施の形態によれば、質問に対する回答の正答率の向上を図ることすることができる。前述した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。

【図面の簡単な説明】

【0013】

【図1】図１は、生成装置のハードウェア構成例を示すブロック図である。

【図2】図２は、質問の一例を示す説明図である。

【図3】図３は、文書の一例を示す説明図である。

【図4】図４は、実施例１にかかる生成装置の機能的構成例を示すブロック図である。

【図5】図５は、回答候補情報の一例を示す説明図である。

【図6】図６は、実施例１にかかる決定部による応答決定処理手順例を示すフローチャートである。

【図7】図７は、実施例２にかかる生成装置の機能的構成例を示すブロック図である。

【図8】図８は、実施例２にかかる決定部による応答決定処理手順例を示すフローチャートである。

【図9】図９は、実施例３にかかる生成装置の機能的構成例を示すブロック図である。

【図10】図１０は、しきい値決定支援処理手順例を示すフローチャートである。

【図11】図１１は、図１０に示した選択回答候補収集処理（ステップＳ１００１）の詳細な処理手順例を示すフローチャートである。

【図12】図１２は、図１０に示したグラフ生成処理（ステップＳ１００２）の詳細な処理手順例を示すフローチャートである。

【図13】図１３は、グラフ生成処理（ステップＳ６０２）によって生成されたグラフの一例を示す説明図である。

【発明を実施するための形態】

【実施例0014】

＜生成装置のハードウェア構成例＞
図１は、生成装置のハードウェア構成例を示すブロック図である。生成装置１００は、プロセッサ１０１と、記憶デバイス１０２と、入力デバイス１０３と、出力デバイス１０４と、通信インターフェース（通信ＩＦ）１０５と、を有する。プロセッサ１０１、記憶デバイス１０２、入力デバイス１０３、出力デバイス１０４、および通信ＩＦ１０５は、バス１０６により接続される。プロセッサ１０１は、生成装置１００を制御する。記憶デバイス１０２は、プロセッサ１０１の作業エリアとなる。また、記憶デバイス１０２は、各種プログラムやデータを記憶する非一時的なまたは一時的な記録媒体である。記憶デバイス１０２としては、たとえば、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、フラッシュメモリがある。入力デバイス１０３は、データを入力する。入力デバイス１０３としては、たとえば、キーボード、マウス、タッチパネル、テンキー、スキャナ、マイク、センサがある。出力デバイス１０４は、データを出力する。出力デバイス１０４としては、たとえば、ディスプレイ、プリンタ、スピーカがある。通信ＩＦ１０５は、ネットワークと接続し、データを送受信する。

【0015】

＜質問＞
図２は、質問の一例を示す説明図である。質問２００は、生成装置１００に入力されるテキストデータである。質問２００は、生成装置１００と通信可能なコンピュータから受信されてもよい。質問２００は、音声として生成装置１００に入力され、音声認識により生成装置１００内でテキストデータに変換されてもよい。質問２００は、記憶デバイス１０２に保持される。

【0016】

＜文書＞
図３は、文書の一例を示す説明図である。文書３００は、テキストデータで構成される文を含む電子データである。文書３００は、文書ファイルでもよく、Ｗｅｂページでもよい。文書３００は、生成装置１００に入力され、または、生成装置１００で作成され、記憶デバイス１０２に保持される。

【0017】

＜生成装置の機能的構成例＞
図４は、実施例１にかかる生成装置１００の機能的構成例を示すブロック図である。生成装置１００は、機械読解部４０１と、取得部４０２と、決定部４０３と、出力部４０４と、設定情報４３０と、を有する。機械読解部４０１、取得部４０２、決定部４０３、および出力部４０４は、具体的には、たとえば、図１に示した記憶デバイス１０２に記憶されたプログラムをプロセッサ１０１に実行させることにより、または、通信ＩＦ１０５により、実現される。設定情報４３０は、記憶デバイス１０２に記憶された情報である。なお、機械読解部４０１は、生成装置１００と通信可能な生成装置１００外のコンピュータに実装されてもよい。

【0018】

機械読解部４０１は、質問２００と質問２００に対する正しい回答である正解回答とを用いて学習された既知の機械読解モデルにより機械読解を実行する。具体的には、機械読解部４０１は、質問２００の回答となる箇所を文書３００から特定する。たとえば、機械読解部４０１は、質問２００に対する回答の根拠となる回答範囲の始端および終端を抽出し、回答候補情報４１０を生成する。

【0019】

［回答候補情報４１０］
図５は、回答候補情報４１０の一例を示す説明図である。回答候補情報４１０は、フィールドとして、順位５０１と、回答範囲５０２と、信頼度５０３と、を有する。同一行の各フィールドの値の組み合わせが、１つの回答候補を示すエントリとなる。

【0020】

順位５０１は、昇順の番号であり、信頼度５０３が高いほど順位が上位になる。順位の数、すなわち、エントリ数の上限は、ユーザにより設定可能である。回答範囲５０２は、質問２００に対する回答の根拠を示す。図５では、文書３００内の該当する文字列としたが、当該文字列の先頭文字および末尾文字の位置を、文書３００の先頭からの文字数で表現してもよい。

【0021】

信頼度５０３は、回答候補情報４１０の全エントリの回答範囲５０２における、対象となる回答範囲５０２の確からしさを示す指標値であり、たとえば、尤度である。機械読解部４０１は、たとえば、非特許文献１により実現される。

【0022】

図４に戻り、決定部４０３は、設定情報４３０を用いて、出力対象となる回答範囲５０２を決定する。設定情報４３０は、最短回答長４３１としきい値４３２とを含む。最短回答長４３１は、最も短い回答長である。回答長とは、文字に基づく長さであり、たとえば、回答範囲５０２内の文字列の長さである。なお、回答長は、回答範囲５０２内の単語数としてもよい。しきい値４３２は、信頼度５０３のしきい値である。

【0023】

このように、決定部４０３は、文字に基づく長さである最短回答長４３１としきい値４３２とに基づいて生成装置１００が出力する応答内容を決定する。

【0024】

出力部４０４は、回答内容または回答不可内容を含む応答データ４４０を出力する。回答内容は、たとえば、回答範囲５０２で指定された文書３００内の文字列である。回答不可内容とは、「わかりません」といった、質問２００に対して回答できないことが人間に理解可能な文字列である。以下、回答不可内容を含む応答データ４４０を回答不可情報と称す。

【0025】

出力部４０４は、具体的には、たとえば、応答データ４４０を、出力デバイス１０４の一例である表示装置に表示したり、出力デバイス１０４の一例であるスピーカから音声出力したり、通信ＩＦ１０５により、外部のコンピュータに送信したり、記憶デバイス１０２に格納したりする。

【0026】

＜応答決定処理＞
図６は、実施例１にかかる決定部４０３による応答決定処理手順例を示すフローチャートである。決定部４０３は、未選択の回答範囲５０２が回答候補情報４１０にあるか否かを判断する（ステップＳ６０１）。未選択の回答範囲５０２が回答候補情報４１０にない場合（ステップＳ６０１：Ｎｏ）、ステップＳ６０６に移行する。未選択の回答範囲５０２が回答候補情報４１０にある場合（ステップＳ６０１：Ｙｅｓ）、決定部４０３は、未選択の回答範囲５０２のうち信頼度５０３が最大の回答範囲５０２を回答候補情報４１０から選択する（ステップＳ６０２）。

【0027】

決定部４０３は、ステップＳ６０１の選択回答範囲５０２が設定情報４３０内の最短回答長４３１以上であるか否かを判断する（ステップＳ６０３）。選択回答範囲５０２が最短回答長４３１以上でない場合（ステップＳ６０３：Ｎｏ）、ステップＳ６０１に戻る。

【0028】

一方、ステップＳ６０２の選択回答範囲５０２が設定情報４３０内の最短回答長４３１以上である場合（ステップＳ６０３：Ｙｅｓ）、決定部４０３は、選択回答範囲５０２の信頼度５０３に基づく指標値と、設定情報４３０内のしきい値４３２と、に基づいて、選択回答範囲５０２を出力すべきか否かを判定する（ステップＳ６０４）。

【0029】

選択回答範囲５０２の信頼度５０３に基づく指標値については、たとえば、下記（１）～（３）のいずれかが採用可能である。
（１）Ａ
（２）Ａ／Ｂ
（３）Ｂ－Ａ
ただし、選択回答範囲５０２の信頼度５０３を「Ａ」、回答候補情報４１０の中の信頼度５０３の最大値を「Ｂ」とする。

【0030】

上記（１）の場合、決定部４０３は、Ａ（選択回答範囲５０２の信頼度５０３）がしきい値４３２以上であれば選択回答範囲５０２を出力すべきと判定し（ステップＳ６０４：Ｙｅｓ）、ステップＳ６０５に移行し、そうでなければ（ステップＳ６０４：Ｎｏ）、ステップＳ６０６に移行する。

【0031】

上記（２）の場合、決定部４０３は、Ａ／Ｂがしきい値４３２以上であれば選択回答範囲５０２を出力すべきと判定し（ステップＳ６０４：Ｙｅｓ）、ステップＳ６０４に移行し、そうでなければ（ステップＳ６０４：Ｎｏ）、ステップＳ６０５に移行する。

【0032】

上記（３）の場合、決定部４０３は、Ｂ－Ａがしきい値４３２未満であれば選択回答範囲５０２を出力すべきと判定し（ステップＳ６０４：Ｙｅｓ）、ステップＳ６０４に移行し、そうでなければ（ステップＳ６０４：Ｎｏ）、ステップＳ６０５に移行する。

【0033】

選択回答範囲５０２を出力すべきと判定された場合（ステップＳ６０４：Ｙｅｓ）、決定部４０３は、選択回答範囲５０２を出力部４０４に出力する（ステップＳ６０５）。これにより、出力部４０４は、応答内容を含む応答データ４４０を出力する。一方、選択回答範囲５０２を出力すべきでないと判定された場合（ステップＳ６０４：Ｎｏ）、決定部４０３は、回答不可情報を出力部４０４に出力する。

【0034】

このように、実施例１によれば、適切な最短回答長４３１を設定することで、機械読解部４０１で生成された回答候補群から意味の取れない短い回答候補を除去することができる。また、しきい値４３２を１に近い値に設定することで信頼度５０３が低い回答候補の応答データ４４０の通知を抑制することができる。また、ユーザに通知された応答データ４４０の生成元となる質問２００については高い正答率を実現することができる。

【実施例0035】

つぎに、実施例２について説明する。実施例２は、最短回答長４３１を自動算出する例である。実施例２では、実施例１との相違点を中心に説明するため、実施例１との重複部分については説明を省略する。

【0036】

図７は、実施例２にかかる生成装置１００の機能的構成例を示すブロック図である。図８は、実施例２にかかる決定部４０３による応答決定処理手順例を示すフローチャートである。設定情報４３０には、最短回答長４３１が保持されていない代わりに、決定部４０３が、文書３００に基づいて最短回答長４３１を算出する（ステップＳ８００）。

【0037】

ステップＳ８００では、決定部４０３は、文書３００から既存技術で文節群を抽出し、文節群の平均文節長を算出し、平均文節長を最短回答長４３１に設定する。このあと、決定部４０３は、ステップＳ６０１～Ｓ６０６を実行する。

【0038】

実施例２によれば、最短回答長４３１を文書３００から自動算出することができる。実施例２では、文または段落のような複数文節からなる回答を想定しているため、平均文節長を最短回答長４３１に設定することで、短い文字数からなるような回答として不十分な文字列の除去を実現することができる。

【実施例0039】

つぎに、実施例３について説明する。実施例３は、しきい値４３２の決定を支援する例である。実施例２では、実施例１との相違点を中心に説明するため、実施例１との重複部分については説明を省略する。なお、以降の図では、実施例３を実施例１に適用した例について説明するが、実施例３を実施例２に適用した場合は、実施例２で示したように、最短回答長４３１が自動算出されることになる。

【0040】

図９は、実施例３にかかる生成装置１００の機能的構成例を示すブロック図である。正解回答９００は、質問２００に対する正しい回答である。質問２００、文書３００、および正解回答９００の組み合わせを、データセット９１０と称す。データセット９１０の集合をデータセット群９２０と称す。データセット９１０は、質問２００ごとに用意される。したがって、機械読解部４０１は、データセット９１０ごとに、回答候補情報４１０を生成する。取得部４０２は、回答候補情報４１０とデータセット群９２０とを質問２００ごとに取得する。

【0041】

算出部９０５は、データセット群９２０の各データセット９１０について、しきい値４３２が取りうる範囲内でしきい値４３２を変更させ、変更したしきい値４３２ごとに、正答率と網羅率とを算出する。しきい値４３２が取りうる範囲（以下、しきい値範囲と称す）は、たとえば、信頼度５０３の下限から上限までの範囲、すなわち、０．０～１．０の範囲とする。しきい値４３２は、たとえば、しきい値範囲内の等間隔な離散値となるが、変更可能なしきい値４３２の個数は、任意に設定可能である。

【0042】

正答率とは、出力対象に決定した選択回答範囲５０２のうち、選択回答範囲５０２が正解回答９００と一致した件数の割合であり、変更したしきい値４３２ごとに下記式（４）で算出される。

【0043】

Ｒ１＝Ｘ／Ｙ・・・（４）
ただし、上記式（４）において、Ｒ１は正答率、Ｘは出力対象に決定した選択回答範囲と正解回答との一致件数、Ｙは出力対象に決定した選択回答範囲の件数である。

【0044】

また、網羅率とは、選択回答範囲の件数のうち、出力対象に決定した選択回答範囲の件数の割合であり、変更したしきい値４３２ごとに下記式（５）で算出される。

【0045】

Ｒ２＝Ｙ／Ｚ・・・（５）
ただし、上記式（５）において、Ｒ２は網羅率、Ｚは選択回答範囲の件数であり、変更されたしきい値４３２の個数と一致する。

【0046】

したがって、網羅率Ｒ２が１００％の場合、生成装置１００は回答不可情報を出力しない。網羅率Ｒ２が低くなるにしたがって、回答不可情報の出力割合が増加する。すなわち、網羅率Ｒ２と回答不可情報の出力確率との和が１００％となる。

【0047】

＜しきい値決定支援処理＞
図１０は、しきい値決定支援処理手順例を示すフローチャートである。決定部４０３が、選択回答候補収集処理を実行し（ステップＳ１００１）、算出部９０５が、グラフ生成処理を実行し（ステップＳ１００２）、出力部４０４が、グラフ生成処理によって生成されたグラフを出力する。

【0048】

図１１は、図１０に示した選択回答候補収集処理（ステップＳ１００１）の詳細な処理手順例を示すフローチャートである。決定部４０３は、未取得の回答候補情報４１０があるか否かを判断する（ステップＳ１１０１）。未取得の回答候補情報４１０がある場合（ステップＳ１１０１：Ｙｅｓ）、決定部４０３は、未取得の回答候補情報４１０を取得する（ステップＳ１１０２）。

【0049】

決定部４０３は、取得した回答候補情報４１０について、図６に示したステップＳ６０１～Ｓ６０３を実行する。ステップＳ６０３において、選択回答範囲５０２の回答長が最短回答長４３１以上である場合（ステップＳ６０３：Ｙｅｓ）、決定部４０３は、選択回答候補（選択回答範囲５０２およびその信頼度５０３）を保持し（ステップＳ１１０３）、ステップＳ１１０１に戻る。また、ステップＳ６０１において、未選択の回答範囲５０２がない場合（ステップＳ６０１：Ｎｏ）も同様である。

【0050】

ステップＳ１１０１において、未取得の回答候補情報がない場合（ステップＳ１１０１：Ｎｏ）、グラフ生成処理（ステップＳ１１０２）に移行して、決定部４０３は、選択回答候補収集処理（ステップＳ１００１）を終了する。

【0051】

図１２は、図１０に示したグラフ生成処理（ステップＳ１００２）の詳細な処理手順例を示すフローチャートである。決定部４０３は、未選択のしきい値４３２がしきい値範囲内にあるか否かを判断する（ステップＳ１２０１）。未選択のしきい値４３２がしきい値範囲内にある場合（ステップＳ１２０１：Ｙｅｓ）、決定部４０３は、未選択のしきい値４３２を選択する（ステップＳ１２０２）。

【0052】

決定部４０３は、ステップＳ１１０３で保持した回答候補群のうち未選択の回答候補があるか否かを判断する（ステップＳ１２０３）。未選択の回答候補がある場合（ステップＳ１２０１：Ｙｅｓ）、決定部４０３は、回答候補を選択する（ステップＳ１２０４）。

【0053】

決定部４０３は、ステップＳ６０４と同様、選択回答候補内の回答範囲５０２（選択回答範囲）の信頼度５０３に基づく指標値と、ステップＳ１２０２で選択されたしきい値４３２と、に基づいて、選択回答範囲を出力すべきか否かを判断する（ステップＳ１２０５）。

【0054】

選択回答範囲を出力すべきと判断された場合、決定部４０３は、選択回答範囲を出力対象に決定し（ステップＳ１２０６）、ステップＳ１２０３に戻る。選択回答範囲を出力すべきでないと判断された場合、決定部４０３は、選択回答範囲を非出力対象に決定し（ステップＳ１２０７）、ステップＳ１２０３に戻る。

【0055】

ステップＳ１２０３において、未K選択の回答候補がないと判断された場合（ステップＳ１２０３：Ｎｏ）、ステップＳ１２０１に戻る。ステップＳ１２０１において、未選択のしきい値４３２がないと判断された場合（ステップＳ１２０１：Ｎｏ）、ステップＳ１２０８に移行する。

【0056】

ステップＳ１２０８では、算出部９０５は、しきい値４３２ごとに正答率Ｒ１および網羅率Ｒ２を算出する（ステップＳ１２０８）。そして、算出部９０５は、横軸をしきい値４３２とし、縦軸を正答率Ｒ１および網羅率Ｒ２とするグラフを生成し（ステップＳ１２０９）、ステップＳ１００３に移行する。これにより、グラフ生成処理（ステップＳ６０２）が終了する。

【0057】

図１３は、グラフ生成処理（ステップＳ６０２）によって生成されたグラフの一例を示す説明図である。表示画面１３００は、グラフ１３０１としきい値入力領域１３０２と登録ボタン１３０３を含む。表示画面１３００は、出力部４０４によって表示される。

【0058】

グラフ１３０１は、横軸をしきい値４３２とし、縦軸を正答率Ｒ１および網羅率Ｒ２とする。網羅率Ｒ２が高いほど、正しいか否かは別として回答を出力する割合が高くなるが、その分、誤答を出力する確率も増加する。したがて、網羅率Ｒ２が高いほど正答率Ｒ１は低下する。正答率Ｒ１は、質問２００に対する回答の正解率を示す。

【0059】

しきい値入力領域１３０２は、ユーザが入力デバイス１０３を操作することでしきい値４３２が入力される領域である。ユーザは、グラフ１３０１を参照することで、適切なしきい値４３２を入力することができる。

【0060】

登録ボタン１３０３は、しきい値入力領域１３０２に入力されたしきい値４３２を設定情報４３０に登録するためのユーザインタフェースである。ユーザが入力デバイス１０３を操作することで登録ボタン１３０３が押下され、しきい値入力領域１３０２に入力されたしきい値４３２が設定情報４３０に登録される。

【0061】

しきい値４３２が設定情報４３０に登録された後、生成装置１００は、登録されたしきい値４３２を用いることで、実施例１および実施例２に示したように、質問２００が入力されると、応答データ４４０を出力することができる。

【0062】

実施例３によれば、データセット群９２０を事前に用意することで、しきい値４３２の設定のための可視化情報であるグラフ１３０１を得ることができる。しきい値４３２が「０」の時には全ての質問２００に対して回答を返すため網羅率は１００％となるが、信頼度５０３の低い回答も通知されるため正答率Ｒ１は低くなる。

【0063】

一方で、しきい値４３２が「１」の時には最短回答長４３１以上でかつ信頼度５０３が最大の回答のみを返すため網羅率Ｒ２は最も低くなるが、ユーザに通知される回答は常に信頼度５０３が最大の回答となるため正答率Ｒ１は高くなる。ユーザはグラフ１３０１を参照し、所望の正答率Ｒ１と網羅率Ｒ２とが得られるようにしきい値４３２を設定することができる。

【0064】

なお、本発明は前述した実施例に限定されるものではなく、添付した特許請求の範囲の趣旨内における様々な変形例及び同等の構成が含まれる。たとえば、前述した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに本発明は限定されない。また、ある実施例の構成の一部を他の実施例の構成に置き換えてもよい。また、ある実施例の構成に他の実施例の構成を加えてもよい。また、各実施例の構成の一部について、他の構成の追加、削除、または置換をしてもよい。

【0065】

また、前述した各構成、機能、処理部、処理手段等は、それらの一部又は全部を、たとえば集積回路で設計する等により、ハードウェアで実現してもよく、プロセッサがそれぞれの機能を実現するプログラムを解釈し実行することにより、ソフトウェアで実現してもよい。

【0066】

各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記憶装置、又は、ＩＣ（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）カード、ＳＤカード、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）の記録媒体に格納することができる。

【0067】

また、制御線や情報線は説明上必要と考えられるものを示しており、実装上必要な全ての制御線や情報線を示しているとは限らない。実際には、ほとんど全ての構成が相互に接続されていると考えてよい。