特許7224990 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ＴＩＳ株式会社の特許一覧

特許7224990ＱＡ生成装置、ＱＡ生成方法およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-02-10

(45)【発行日】2023-02-20

(54)【発明の名称】ＱＡ生成装置、ＱＡ生成方法およびプログラム

(51)【国際特許分類】

G09B 7/02 20060101AFI20230213BHJP

G06F 40/274 20200101ALI20230213BHJP

G06F 40/253 20200101ALI20230213BHJP

G06Q 50/10 20120101ALI20230213BHJP

【ＦＩ】

G09B7/02

G06F40/274

G06F40/253

G06Q50/10

【請求項の数】 17

(21)【出願番号】P 2019057076

(22)【出願日】2019-03-25

(65)【公開番号】P2020160158

(43)【公開日】2020-10-01

【審査請求日】2021-10-12

(73)【特許権者】

【識別番号】514020389

【氏名又は名称】ＴＩＳ株式会社

(74)【代理人】

【識別番号】110002860

【氏名又は名称】弁理士法人秀和特許事務所

(72)【発明者】

【氏名】小林賢一郎

(72)【発明者】

【氏名】清家巧

(72)【発明者】

【氏名】乙宗寛子

【審査官】前地純一郎

(56)【参考文献】

【文献】特開２０１２－０１８３００（ＪＰ，Ａ）

【文献】特開２００５－０６２５０８（ＪＰ，Ａ）

【文献】特開平０９－０１６０７２（ＪＰ，Ａ）

【文献】特開２０１０－０６１３２９（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０９Ｂ１／００－９／５６

Ｇ０９Ｂ１７／００－１９／２６

Ｇ０６Ｆ４０／２０

Ｇ０６Ｑ５０／２０

(57)【特許請求の範囲】

【請求項1】

出題のソースとなるテキストを取得するソース取得部と、
前記テキストのレイアウトを解析して、前記テキスト中の見出し部分と本文部分を少なくとも特定するレイアウト解析部と、
前記見出し部分及び／又は前記本文部分から複数の語句を抽出し、抽出された前記複数の語句の中から問題の対象とするトピックを決定するトピック決定部と、
前記トピックと関連性を有する文又は文章を、関連記述として、前記本文部分から抽出する関連記述抽出部と、
抽出された前記関連記述に基づいて、問題と解答から構成されるＱＡ情報を生成するＱＡ生成部と、
を有し、
前記ＱＡ生成部は、
前記関連記述の中から１つ以上の対象文を抽出する処理、及び、
抽出された前記対象文そのもの、又は、文意を変えることなく前記対象文を整形したものを、正しい文とし、前記正しい文の一部を変更したものを誤り文とする、正誤問題を生成する処理、を実行可能である
ことを特徴とするＱＡ生成装置。

【請求項2】

前記ＱＡ生成部によって生成された１つ以上のＱＡ情報をＱＡ候補としてユーザに提示し、前記ＱＡ候補の中から採用するＱＡ情報を選択する操作、及び／又は、前記ＱＡ候補の前記問題及び前記解答を修正する操作をユーザから受け付けるＱＡ編集部をさらに有する
ことを特徴とする請求項１に記載のＱＡ生成装置。

【請求項3】

前記ＱＡ生成部は、
前記関連記述の中から１つ以上の対象ワードを選択する処理、
選択された前記対象ワードを含む対象文を前記関連記述の中から抽出する処理、及び、
抽出された前記対象ワードを含む対象文を変形することにより、前記対象ワードが正
答となる穴埋め問題を生成する処理、を実行可能である
ことを特徴とする請求項１又は２に記載のＱＡ生成装置。

【請求項4】

前記ＱＡ生成部は、
前記対象ワードに基づいて、前記穴埋め問題の誤答ワードを生成する処理、を実行可能である
ことを特徴とする請求項３に記載のＱＡ生成装置。

【請求項5】

前記ＱＡ生成部は、
前記正しい文の極性を変更したもの、前記正しい文の中のワードを非同義語に置き換えたもの、前記正しい文の中の数字を異なる数字に置き換えたもの、のうちの少なくともいずれかを前記誤り文とする
ことを特徴とする請求項１又は２に記載のＱＡ生成装置。

【請求項6】

前記ＱＡ生成部は、
複数のワードのそれぞれに対し、１以上の非同義語が対応付けられている負例辞書を用いて、前記正しい文の中のワードを非同義語に置き換える
ことを特徴とする請求項５に記載のＱＡ生成装置。

【請求項7】

前記ＱＡ生成部は、
抽出された前記対象文の一部を変更することにより、誤り指摘問題を生成する処理、を実行可能である
ことを特徴とする請求項１又は２に記載のＱＡ生成装置。

【請求項8】

前記ＱＡ生成部は、
前記対象文の極性を反転し、前記対象文の中のワードを非同義語に置き換え、又は、前記対象文の中の数字を異なる数字に置き換えることにより、誤り指摘問題を生成する
ことを特徴とする請求項７に記載のＱＡ生成装置。

【請求項9】

前記ＱＡ生成部は、
複数のワードのそれぞれに対し、１以上の非同義語が対応付けられている負例辞書を用いて、前記対象文の中のワードを非同義語に置き換える
ことを特徴とする請求項８に記載のＱＡ生成装置。

【請求項10】

前記ＱＡ生成部は、
前記関連記述の中から複数のワード対を抽出する処理、及び、
前記複数のワード対のそれぞれを２つの語群に分けることによって、各語群から対となるワードを選択する形式の組み合わせ問題を生成する処理、を実行可能である
ことを特徴とする請求項１又は２に記載のＱＡ生成装置。

【請求項11】

前記ＱＡ生成部は、前記２つの語群の少なくともいずれかに、誤りワードを追加する
ことを特徴とする請求項１０に記載のＱＡ生成装置。

【請求項12】

前記ＱＡ生成部は、
前記関連記述の中から、時間表現、場所表現、主体表現、数量表現、及び、目的物表現のうちのいずれかの表現で用いられている対象ワードを含む対象文を抽出する処理、及び、
抽出された前記対象ワードを含む対象文を変形することにより、前記対象ワードが正答となるファクトイド型問題を生成する処理、を実行可能である
ことを特徴とする請求項１又は２に記載のＱＡ生成装置。

【請求項13】

前記ＱＡ生成部は、
前記関連記述の中から、複文を抽出する処理、及び、
抽出された前記複文のうちの一方の文の内容を問題に含み、他方の文の内容を解答とする、ＱＡ情報を生成する処理、を実行可能である
ことを特徴とする請求項１又は２に記載のＱＡ生成装置。

【請求項14】

前記ＱＡ生成部は、
前記トピックについての説明を問う形式の問題を生成すると共に、前記関連記述から抽出されたワード及び／又は文から解答例を生成することにより、説明問題を生成する処理、を実行可能である
ことを特徴とする請求項１又は２に記載のＱＡ生成装置。

【請求項15】

前記レイアウト解析部は、前記テキスト中のリスト構造の特定も行い、
前記関連記述抽出部は前記トピックと関連性を有するリスト構造を、関連リストとして抽出し、
前記ＱＡ生成部は、前記関連リストを構成する複数のアイテムのうちの１以上のアイテムを選択肢に含む、選択問題を生成する処理、を実行可能である
ことを特徴とする請求項１又は２に記載のＱＡ生成装置。

【請求項16】

コンピュータが、出題のソースとなるテキストを取得するソース取得ステップと、
コンピュータが、前記テキストのレイアウトを解析して、前記テキスト中の見出し部分と本文部分を少なくとも特定するレイアウト解析ステップと、
コンピュータが、前記見出し部分及び／又は前記本文部分から複数の語句を抽出し、抽出された前記複数の語句の中から問題の対象とするトピックを決定するトピック決定ステップと、
コンピュータが、前記トピックと関連性を有する文又は文章を、関連記述として、前記本文部分から抽出する関連記述抽出ステップと、
コンピュータが、抽出された前記関連記述に基づいて、問題と解答から構成されるＱＡ情報を生成するＱＡ生成ステップと、
を有し、
前記ＱＡ生成ステップは、
前記関連記述の中から１つ以上の対象文を抽出する処理、及び、
抽出された前記対象文そのもの、又は、文意を変えることなく前記対象文を整形したものを、正しい文とし、前記正しい文の一部を変更したものを誤り文とする、正誤問題を生成する処理、を含む
ことを特徴とするＱＡ生成方法。

【請求項17】

請求項１～１５のうちいずれか１項に記載のＱＡ生成装置としてコンピュータを機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、問題及びその解答を自動で生成する技術に関する。

【背景技術】

【0002】

従来より、ｅラーニングのコンテンツを作成するツールが利用されている。しかしながら、従来のツールは、出題のソースとなるテキストからユーザ自ら編集し、問題や解答を作成せねばならないため、非常に手間と時間がかかるものであった。なお、特許文献１～４には問題作成を支援するシステムが提案されているが、単純な質問を生成するにとどまるか、ユーザの介在を必要とするものであり、実用性に欠ける。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２０１６－４５６５２号公報

【文献】特開２０１７－２７２３３号公報

【文献】特許第５９１１９３１号公報

【文献】特開２０１６－１２４２号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

本発明は上記実情に鑑みなされてものであって、出題のソースを与えると、自動ないし略自動で問題及びその解答を生成可能な新規の技術を提供することを目的とする。

【課題を解決するための手段】

【0005】

本発明の第一側面は、出題のソースとなるテキストを取得するソース取得部と、前記テキストのレイアウトを解析して、前記テキスト中の見出し部分と本文部分を少なくとも特定するレイアウト解析部と、前記見出し部分及び／又は前記本文部分から複数の語句を抽出し、抽出された前記複数の語句の中から問題の対象とするトピックを決定するトピック決定部と、前記トピックと関連性を有する文又は文章を、関連記述として、前記本文部分から抽出する関連記述抽出部と、抽出された前記関連記述に基づいて、問題と解答から構成されるＱＡ情報を生成するＱＡ生成部と、を有することを特徴とするＱＡ生成装置を提供する。このような装置によれば、出題のソースとなるテキストから自動ないし略自動で問題及び解答を生成することができる。

【0006】

前記ＱＡ生成部によって生成された１つ以上のＱＡ情報をＱＡ候補としてユーザに提示し、前記ＱＡ候補の中から採用するＱＡ情報を選択する操作、及び／又は、前記ＱＡ候補の前記問題及び前記解答を修正する操作をユーザから受け付けるＱＡ編集部をさらに有してもよい。このような編集機能を設けることにより、ユーザは、ＱＡ生成装置によって生成されたＱＡ情報群の中から採用するＱＡ情報を選んだり、問題や解答の内容をブラッシュアップしたりする作業を容易に行うことができる。
前記ＱＡ生成部は、前記関連記述の中から１つ以上の対象ワードを選択し、選択された前記対象ワードを含む対象文を前記関連記述の中から抽出し、抽出された前記対象文を変形することにより、前記対象ワードが正答となる穴埋め問題を生成してもよい。この場合に、前記ＱＡ生成部は、前記対象ワードに基づいて、前記穴埋め問題の誤答ワードを生成してもよい。

【0007】

前記ＱＡ生成部は、前記関連記述の中から１つ以上の対象文を抽出し、抽出された前記対象文そのもの、又は、文意を変えることなく前記対象文を整形したものを、正しい文と
し、前記正しい文の一部を変更したものを誤り文とする、正誤問題を生成してもよい。この場合に、前記ＱＡ生成部は、前記正しい文の極性を変更したもの、前記正しい文の中のワードを非同義語に置き換えたもの、前記正しい文の中の数字を異なる数字に置き換えたもの、のうちの少なくともいずれかを前記誤り文としてもよい。また、前記ＱＡ生成部は、複数のワードのそれぞれに対し、１以上の非同義語が対応付けられている負例辞書を用いて、前記正しい文の中のワードを非同義語に置き換えてもよい。

【0008】

前記ＱＡ生成部は、前記関連記述の中から１つ以上の対象文を抽出し、抽出された前記対象文の一部を変更することにより、誤り指摘問題を生成してもよい。この場合に、前記ＱＡ生成部は、前記対象文の極性を反転し、前記対象文の中のワードを非同義語に置き換え、又は、前記対象文の中の数字を異なる数字に置き換えることにより、誤り指摘問題を生成してもよい。また、前記ＱＡ生成部は、複数のワードのそれぞれに対し、１以上の非同義語が対応付けられている負例辞書を用いて、前記対象文の中のワードを非同義語に置き換えてもよい。

【0009】

前記ＱＡ生成部は、前記関連記述の中から複数のワード対を抽出し、前記複数のワード対のそれぞれを２つの語群に分けることによって、各語群から対となるワードを選択する形式の組み合わせ問題を生成してもよい。この場合に、前記ＱＡ生成部は、前記２つの語群の少なくともいずれかに、誤りワードを追加してもよい。

【0010】

前記ＱＡ生成部は、前記関連記述の中から、時間表現、場所表現、主体表現、数量表現、及び、目的物表現のうちのいずれかの表現で用いられている対象ワードを含む対象文を抽出し、抽出された前記対象文を変形することにより、前記対象ワードが正答となるファクトイド型問題を生成してもよい。

【0011】

前記ＱＡ生成部は、前記関連記述の中から、複文を抽出し、抽出された前記複文のうちの一方の文の内容を問題に含み、他方の文の内容を解答とする、ＱＡ情報を生成してもよい。

【0012】

前記ＱＡ生成部は、前記トピックについての説明を問う形式の問題を生成すると共に、前記関連記述から抽出されたワード及び／又は文から解答例を生成することにより、説明問題を生成してもよい。

【0013】

前記レイアウト解析部は、前記テキスト中のリスト構造の特定も行い、前記関連記述抽出部は前記トピックと関連性を有するリスト構造を、関連リストとして抽出し、前記ＱＡ生成部は、前記関連リストを構成する複数のアイテムのうちの１以上のアイテムを選択肢に含む、選択問題を生成してもよい。

【0014】

なお、本発明は、上述した機能ないし処理の少なくとも一部を含むＱＡ生成装置、ＱＡ生成システムなどと捉えてもよいし、ＱＡ生成方法、又は、当該方法をコンピュータに実行させるプログラム、又は、当該プログラムを非一時的に記憶した記憶媒体などとして捉えることもできる。

【発明の効果】

【0015】

本発明によれば、出題のソースを与えると、自動ないし略自動で問題及びその解答を生成可能な新規の技術を提供することができる。

【図面の簡単な説明】

【0016】

【図1】図１は、ＱＡ生成システムの構成例を示す図である。

【図2】図２は、ＱＡ生成システムの機能構成を模式的に示す図である。

【図3】図３は、ＱＡ生成システムの処理フロー及び使用方法の概略を示す図である。

【図4】図４は、ソーステキストとレイアウト解析の結果の例である。

【図5】図５は、トピック候補の例である。

【図6】図６は、ＱＡ候補の例である。

【図7】図７は、言語解析処理の詳細フローの一例である。

【図8】図８は、各章の文章内に含まれる単語とその出現頻度（登場回数）を示す表である。

【図9】図９は、穴埋め問題生成処理の流れを示すフローチャートである。

【図10】図１０は、選択式の穴埋め問題の生成例である。

【図11】図１１は、正誤問題生成処理の流れを示すフローチャートである。

【図12】図１２は、正誤問題生成処理の流れを示すフローチャートである。

【図13】図１３は、正誤問題の生成例である。

【図14】図１４は、誤り指摘問題の生成例である。

【図15】図１５は、組み合わせ問題生成処理の流れを示すフローチャートである。

【図16】図１６は、組み合わせ問題の生成例である。

【図17】図１７は、ファクトイド型問題生成処理の流れを示すフローチャートである。

【図18】図１８は、ファクトイド型問題の生成例である。

【図19】図１９は、述語項リレーション型問題生成処理の流れを示すフローチャートである。

【図20】図２０は、述語項リレーション型問題の生成例である。

【発明を実施するための形態】

【0017】

以下、図面を参照して、本発明の実施形態に係るＱＡ生成システムについて説明する。ＱＡ生成システムは、出題ソースとして与えられた文書データを解析して、問題（Question）とその解答（Answer）から構成されるＱＡ情報の候補を自動で生成するシステムである。このＱＡ生成システムは、例えば、ｅラーニングや研修などで使用する講義資料をもとに効果測定のためのＱＡを作成する場面など、さまざまな用途に応用することが可能である。

【0018】

＜ＱＡ生成システム＞
図１は、ＱＡ生成システム１の構成例を示す図である。本実施形態では、いわゆるクラウド型のシステム構成を採用しており、インターネットを介して通信可能なＱＡ生成サーバ１０とユーザ端末１１によってＱＡ生成システム１が構成されている。ユーザはユーザ端末１１からＱＡ生成サーバ１０にログインすることで、ＱＡ生成システム１により提供されるＱＡ生成サービスを利用することができる。例えば、ユーザが、出題ソースとなる文書データをＱＡ生成サーバ１０に与えると、ＱＡ生成サーバ１０において複数のＱＡ情報がが生成される。ＱＡ情報は、問題とその解答が対になったデータである（解答としては、正解のみが含まれていてもよいし、正解と不正解の候補が含まれていてもよい。）。ユーザは、生成されたＱＡ情報をユーザ端末１１にて閲覧ないしダウンロードし、ｅラーニングコンテンツなどに利用可能である。

【0019】

ＱＡ生成サーバ１０は、例えば、ＣＰＵ（プロセッサ）、主記憶装置（メモリ）、補助記憶装置（ＨＤＤ、ＳＳＤなどの大容量ストレージ）、通信装置、入力装置、表示装置などを有する汎用のコンピュータにより構成可能である。ＱＡ生成サーバ１０が提供する機能は、ＣＰＵがストレージに格納されたプログラムをメモリに展開し実行することによって実現されるものである。

【0020】

ユーザ端末１１は、例えば、ＣＰＵ（プロセッサ）、主記憶装置（メモリ）、補助記憶
装置（ＨＤＤ、ＳＳＤなどの大容量ストレージ）、通信装置、入力装置、表示装置などを有する汎用のコンピュータにより構成可能である。ユーザ端末１１が提供する機能は、ＣＰＵがストレージに格納されたプログラムをメモリに展開し実行することによって実現されるものである。図１では、ユーザ端末１１の例としてノートＰＣを示したが、パーソナル・コンピュータに限られず、スマートフォンやタブレット端末などをユーザ端末１１として利用してもよい。

【0021】

なお、図１のシステム構成はあくまで一例にすぎない。ＱＡ生成システム１を単体のコンピュータ（例えばユーザ端末１１のみ）で構成してもよいし、３つ以上のコンピュータの協働により構成してもよい。また、出題ソースをユーザが提供するのではなく、ＱＡ生成サーバ１０が自ら用意してもよい。

【0022】

＜機能構成＞
図２は、ＱＡ生成システム１の機能構成を模式的に示す図である。ＱＡ生成システム１は、主な機能として、出題ソース取得部２０、レイアウト解析部２１、言語解析部２２、ＱＡ生成部２３、ＱＡ編集部２４、出力データ作成部２５、解析結果記憶部２６、辞書記憶部２７を有する。出題ソース取得部２０は、出題ソースとなる文書（テキスト）のデータをユーザから取得する機能を有する。レイアウト解析部２１は、テキストのレイアウトを解析する機能を有する。言語解析部２２は、レイアウト解析後のテキストに対し各種の解析を適用し、出題ソースのなかからさまざまな解析結果を獲得する機能を有する。ＱＡ生成部２３は、獲得された解析結果に基づいて、問題と解答から構成されるＱＡ情報を生成する機能を有する。ＱＡ編集部２４は、ＱＡ生成部２３によって生成されたＱＡ情報の編集環境（オーサリングツール）をユーザに提供する機能を有する。出力データ作成部２５は、生成されたＱＡ情報を所定フォーマットのデータに変換・出力する機能を有する。解析結果記憶部２６は、レイアウト解析部２１の解析結果及び言語解析部２２の解析結果が格納されるデータベースである。辞書記憶部２７は、レイアウト解析部２１及び言語解析部２２が参照する各種の辞書、ルール、定義、設定などのデータが格納されているデータベースである。

【0023】

＜処理フロー＞
図３を参照して、ＱＡ生成システム１の処理フロー及び使用方法の概略を説明する。

【0024】

まず、ユーザがユーザ端末１１を操作し、ＱＡ生成サーバ１０により提供されるＱＡ生成サービスにログインする（ステップＳ３００）。そして、ユーザが、新規登録メニュー（不図示）を選び、出題ソースにしたい文書データをＱＡ生成サーバ１０にアップロードする（ステップＳ３０１）。文書データのデータ形式は特に限定されず、例えば、プレーンテキストでもよいし、ワープロソフト・表計算ソフト・プレゼンテーションソフトのデータでもよいし、ＰＤＦ（Portable Document Format）形式のデータでもよいし、ＨＴＭＬ（HyperText Markup Language）やＸＭＬ（Extensible Markup Language）のような構
造化されたテキストデータでもよい。

【0025】

ＱＡ生成サーバ１０の出題ソース取得部２０は、ユーザ端末１１から受け取った文書に対して前処理を施す（ステップＳ３１０）。例えば、出題ソース取得部２０は、文書データから文字列部分を抽出し、プレーンテキストの形式で保存する。また、不要な改行や空白を削除するなどの整形処理を行ってもよい。ここで得られた前処理後のデータを、「出題ソースとなるテキストデータ」という意味で、以後、「ソーステキスト」と呼ぶ。なお、文書の構造を表す情報（例えば、ＨＴＭＬタグ、インデント、段落のスタイルなど）が文書データ中に含まれている場合には、そのような情報（「構造情報」と呼ぶ）も併せて抽出してもよい。

【0026】

次に、レイアウト解析部２１が、ソーステキストのレイアウトを解析する（ステップＳ３１１）。具体的には、レイアウト解析部２１は、ソーステキスト中の記述を「見出し」と「本文」と「リスト」に分類する。図４に、ソーステキストとレイアウト解析の結果の一例を模式的に示す。「見出し」は、１つの語又は句のように比較的短い文字列であることが多く、また、「１．」「（１）」「１．１．２」「［ａ］」のような章番号を含むことが多い。このような形式的な特徴に基づき、例えば、レイアウト解析部２１は、文字列の長さが所定の閾値より短く、且つ、章番号を含む文字列を、「見出し」であると判定してもよい。なお、章番号を含むか否かの判定は、例えば、数字、アルファベット、カタカナ、ピリオド、カッコなどの所定の文字の組合せを予めルール化しておき、そのルールに合致する文字列を含むか否かで判定すればよい。前述した構造情報が得られている場合には、構造情報に基づいて「見出し」を抽出してもよい。例えば、ＨＴＭＬタグのｈ１～ｈ６タグで囲まれた文字列を「見出し」と判定してもよい。図４の例では、「１．産業財産権」、「（１）特許制度」、「（２）特許要件」、「（３）出願から特許取得までの流れ」の４つの見出しが抽出されている。「本文」は、１つ又は複数の文から構成される文章であり、本例では、「見出し」と「リスト」以外の文字列は「本文」に分類される。「リスト」は、リスト構造により記述された部分である。例えば箇条書きのように、複数の項目が書き並べられている構造がリストに該当する。リストの各項目は、文又は文章になっていることもあれば、語又は句の場合もある。リストの各項目の行頭には「・」「◆」などの記号が付されるか、「（１），（２），…」「（イ），（ロ），…」のように項目番号が付されていることが殆どである。このような形式的な特徴に基づき、例えば、レイアウト解析部２１は、同一の記号から始まる文が連続して表れた場合や、項目番号が付された文が連続して表れた場合に、その複数の文を「リスト」と判定してもよい。前述した構造情報が得られている場合には、構造情報に基づいて「リスト」を抽出してもよい。例えば、ＨＴＭＬタグのｕｌタグ又はｏｌタグで囲まれた部分を「リスト」と判定してもよい。さらに、レイアウト解析部２１は「章」の判別を行う。本実施形態では、「見出し」から次の「見出し」（又は文書の最後）の直前までの記述を１つの「章」とみなす。すなわち、１つの「章」は、冒頭の「見出し」と、「本文」及び「リスト」の少なくともいずれかを１つ以上とから構成される単位である。レイアウト解析部２１は、レイアウト解析の結果（すなわち、見出し／本文／リストの分類、章の開始と終了）を、ソーステキスト中にタグ付けする。なお、ステップＳ３１０の前処理とステップＳ３１１のレイアウト解析処理の順番は逆でもよいし、両方の処理を同時並行的に行ってもよい（すなわち、レイアウトを解析しながら必要な文字列部分をソーステキストとして抽出するなど）。

【0027】

次に、言語解析部２２が、ソーステキストを解析して各種の解析結果を獲得する（ステップＳ３１２）。ここで用いる解析エンジン（解析アルゴリズム）及び獲得する解析結果の種類は、特に限定されない。以下は一例である。

【0028】

・ＮＥＲ（Named Entity Recognition；固有表現抽出）：文中から固有表現（ＮＥ）を抽出する手法。例えば、組織名、人名、地名、日付表現、時間表現、金額表現、割合表現などが固有表現に該当する。

【0029】

・ＲＤＦ（Resource Description Framework）：１つの文を主語、述語、目的語の３つの要素で表現する手法。

【0030】

・ＰＡＳ（Predicate-Argument Structure；述語項構造）：動作・状態を表す述語と、述語が表す動作・状態に関係する対象・時間・場所などを表す名詞（項）との間の構造。

【0031】

・共起：同じ文中又は文章中に、同時に出現する文字列の組み合わせ。

【0032】

・モダリティ：モダリティとは、文のニュアンスを表現するものであり、その文が伝え
る客観的な内容（命題）に対して書き手や話し手がどのように感じているか（主観）を表すものである。例えば、「私はゴルフに行かなくてはならない。」という文の場合、「私はゴルフに行く」という客観的な内容に「なくてはならない」というモダリティが付与されていることで、ゴルフに行くことについてネガティブ（否定的・消極的）な感情を抱いていることが表現されている。

【0033】

・極性：肯定／否定、大／小、高／低のように対となる方向性をもつ２つの表現のうち、文中の表現が示す方向性のこと。

【0034】

・ＩＦ－ＴＨＥＮリレーション：条件と結果という因果関係をもつ２つの文又は節のペア。例えば、「雨が降った場合は運動会は中止である。」という文の場合であれば、「雨が降った」がＩＦ（条件）を表す部分、「運動会は中止である」がＴＨＥＮ（結果）を表す部分となる。このようなＩＦ－ＴＨＥＮリレーションは、例えば、「（Ａする）場合は（Ｂである）」という文のＡとＢに相当する部分を正規表現を用いた検索により抽出し、ＡをＩＦを表す部分に、ＢをＴＨＥＮを表す部分に割り当てることで、得ることができる。

【0035】

・シソーラス：ある単語の上位語、下位語、同義語、類義語、部分語、全体語など。

【0036】

・単語ベクトル：ある文章内における単語ごとの出現頻度を要素としてもつベクトル。本実施形態では、ソーステキスト中の章単位の単語ベクトル（「章単語ベクトル」と呼ぶ）と、ソーステキスト全体の単語ベクトル（「文書単語ベクトル」と呼ぶ）の２種類の単語ベクトルを用いる。

【0037】

・ＴＦ－ＩＤＦ：ＴＦ（Term Frequency；索引語頻度）は文章における単語（索引語）の登場頻度を表す指標であり、ＩＤＦ（Inverse Document Frequency；逆文書頻度）は単語（索引語）が登場する文書の少なさを表す指標である。ＴＦ－ＩＤＦはＴＦとＩＤＦを掛け合わせた指標であり、単語（索引語）の重みを表している。

【0038】

・Ｗｏｒｄ２Ｖｅｃ：各単語がどのような文脈で用いられているか（各単語と他の単語との関係）を学習したニューラルネットワークであり、単語を特徴ベクトルに変換する機能を有する。ベクトル間の距離によって単語同士の類似性を評価できるため、例えば、同義語や類義語、あるいは同じカテゴリの単語群などを取得する目的で利用できる。

【0039】

・照応、省略：照応は、「あれ」「そこ」「彼」のように指示代名詞や代名詞などの単語（照応詞と呼ばれる）を用いて他の対象を指し示す表現であり、省略は、文中の主語、目的語などが省略された表現である。照応詞が実際に指し示している単語や省略されている単語（先行詞と呼ばれる）を特定する手法が、省略・照応解析である。

【0040】

ステップＳ３１２の言語解析処理の解析結果は、ソーステキスト又は元の文書データに紐づけて、解析結果記憶部２６に格納される。以上述べた文書データの解析処理（ソーステキストの生成、レイアウト解析、言語解析）が完了すると、ＱＡ生成の準備が整う。

【0041】

次に、ＱＡ生成部２３が、解析結果記憶部２６に格納されたソーステキストの解析結果に基づき、問題の対象（主題）となりそうなトピック（キーワード）を複数個抽出する（ステップＳ３１３）。例えば、ＱＡ生成部２３は、ソーステキスト中の「見出し」部分に含まれる語句（単語又は句）をトピック候補として抽出してもよい。「見出し」は、その後に続く「本文」や「リスト」の内容を端的に表している語句を含む場合が多いので、その「本文」や「リスト」の内容を問う問題のトピックとして使えるケースが多いからである。あるいは、ＱＡ生成部２３は、ソーステキスト中の「本文」部分に含まれる語句をト
ピック候補として抽出してもよい。例えば、登場頻度の高い語句、固有表現、専門用語などは問題の対象として好適と考えられる。図５は図３の文書から抽出されたトピック候補の例である。矩形枠で囲まれた語句がトピック候補である。抽出されたトピック候補はユーザに提示される。

【0042】

ユーザは、提示された複数のトピック候補の中から、問題の対象にしたいトピックを選択する（ステップＳ３０２）。ユーザによって選択されたトピックを以後「対象トピック」と呼ぶ。なお、対象トピックは何個選択してもよい。また、対象トピックの選択とともに、その対象トピックの問題生成のために参照する「本文」や「リスト」をユーザに明示的に指定させてもよい。

【0043】

さらに、ユーザは、作成したい問題の種類を選択する（ステップＳ３０３）。問題の種類としては、例えば、穴埋め問題、正誤問題（ｎ択問題）、誤り指摘問題、組み合わせ問題、ファクトイド型問題、述語項リレーション型問題、説明問題などがある。問題の種類は何個選択してもよい。

【0044】

ステップＳ３０２、Ｓ３０３で入力された情報は、ユーザ端末１１からＱＡ生成サーバ１０へと送られる。なお、ステップＳ３０２のトピック選択とステップＳ３０３の問題種類選択の順番は逆でもよい。あるいは、一方の選択結果に基づいて他方の選択肢を制限してもよい（例えば、選択された対象トピックに応じて選択可能な問題種類を制限したり、選択された問題種類に応じて選択可能なトピック候補を制限するなど）。

【0045】

そして、ＱＡ生成部２３が、ユーザにより選択された対象トピック・問題種類に従って、解析結果記憶部２６に格納されたソーステキストの各種解析結果と辞書記憶部２７に格納された各種辞書を参照して、ＱＡ情報を複数生成する（ステップＳ３１４）。図６は、一例として、図５の出題ソースに対し「特許要件」が対象トピックとして指定され、「正誤問題（ｎ択問題）」が問題対象として指定された場合に、生成されたＱＡ情報の例を示す。生成されたＱＡ情報はユーザに提示される。

【0046】

ユーザは、ＱＡ編集部２４が提供するＱＡ編集機能（オーサリングツール）を利用して、ユーザ端末１１上で、ＱＡ情報の取捨選択、問題・解答の修正などを行うことができる（ステップＳ３０４）。ＱＡ編集部２４は、ユーザから指示された編集内容に従って、問題・解答を更新する（ステップＳ３１５）。その後、出力データ作成部２５が、最終的に生成された問題及び解答を所定フォーマットのＱＡデータに変換する（ステップＳ３１６）。ユーザは、ＱＡデータをユーザ端末１１にダウンロードし、ｅラーニングコンテンツ、研修、テストなどに利用することができる。ＱＡデータのフォーマットは特に限定されないが、ｅラーニングコンテンツへの利用が目的であれば、例えば、標準的な規格であるＳＣＯＲＭやｘＡＰＩに準拠したフォーマットのＱＡデータを生成してもよい。

【0047】

＜言語解析処理の詳細＞
言語解析部２２による言語解析処理（図３のステップＳ３１２）について、さらに詳しく説明する。

【0048】

図７は、言語解析処理の詳細フローの一例である。なお、図７では、説明の便宜のため、フローチャートと併せて言語解析部２２が参照もしくは出力するデータを記載している。

【0049】

まず、言語解析部２２は、ソーステキストから処理対象のテキストを切り出す（ステップＳ７００）。例えば、１つの文（句点又は改行で区切られた文字列など）が処理対象テキストとして切り出される。言語解析部２２は、辞書記憶部２７内の形態素解析用の辞書
を用いて、処理対象テキストの形態素解析ならびに構文解析を行う（ステップＳ７０１、Ｓ７０２）。形態素解析は、テキストを単語に分割し、各単語に品詞を付与する処理である。構文解析は、単語間の係り受け構造を判定する処理である。

【0050】

続いて、言語解析部２２は、述語項構造解析を行い、その結果として得られるＰＡＳ（述語項構造）を解析結果記憶部２６に格納する（ステップＳ７０３）。述語項構造解析は、述語が表す動作・状態に関係する対象・時間・場所などを表す名詞（項）との間の構造を解析し、述語と各項の間の格構造を判断する処理である。例えば、「彼が彼女にプレゼントを渡す。」という文の場合、述語「渡す」に対して３つの項「彼」「彼女」「プレゼント」が係っており、「彼」は主体を表す「ガ格」、「彼女」は相手を表す「ニ格」、プレゼントは対象を表す「ヲ格」と判断される。

【0051】

言語解析部２２は、省略・照応解析を行い、その結果をＰＡＳに反映する（ステップＳ７０４）。例えば、処理対象テキストの中に「あれ」「そこ」「彼」のような照応詞が含まれていたり、主体、相手、対象などが省略されていた場合に、言語解析部２２は、処理対象テキストの前後の文脈などから先行詞を特定し、ステップＳ７０３で生成されたＰＡＳにおける照応詞を先行詞に置き換えたり、省略されていた項の追加を行う。

【0052】

言語解析部２２は、ＮＥＲモデルを用いてＮＥＲ（固有表現抽出）を行い、処理対象テキストに含まれるＮＥ（固有表現）を抽出し、抽出されたＮＥ群を解析結果記憶部２６に格納する（ステップＳ７０５）。例えば、組織名、人名、地名、日付表現、時間表現、金額表現、割合表現などがＮＥに該当する。ＮＥは、文の中で重要な意味をもつことが多いので、問題のトピックに選んだり、問題文や解答に用いるとよい。また、抽出されたＮＥの情報をＰＡＳに反映してもよい。なお、ＮＥＲモデルは、注目している文字列が固有表現に該当するか否かを識別するためのモデルであり、例えば、文脈との関係や前後の単語・品詞などとの関係をルール化したものである。ＮＥＲモデルは、例えば、大規模コーパスを用いた機械学習によって獲得されたものを用いるとよい。

【0053】

言語解析部２２は、モダリティ解析を行い、処理対象テキストのモダリティを解析結果記憶部２６に格納する（ステップＳ７０６）。モダリティ解析の結果をＰＡＳに反映してもよい。なお、モダリティ解析には、肯定表現と否定表現のパターンをルール化した辞書とのマッチングを行い肯定的か否定的かを判別する手法、大規模コーパスを用いた機械学習によって獲得された分類器を用いて肯定的か否定的かを分類する手法などがあり、いずれの手法を用いてもよい。

【0054】

言語解析部２２は、処理対象テキストに含まれる単語の共起関係を取得し、その結果を解析結果記憶部２６に格納する（ステップＳ７０７）。このとき、言語解析部２２は、処理対象テキストだけでなく、より広い範囲（例えば、処理対象テキストを含む本文、処理対象テキストを含む章、ソーステキストの全体、コーパスなど）から共起関係を取得してもよい。

【0055】

言語解析部２２は、極性辞書及び意見表現辞書を用いて極性・意見解析を行い、処理対象テキストに含まれる極性表現及びその方向性と、処理対象テキストが意見文か事実文かを判別し、その結果を解析結果記憶部２６に格納する。極性表現とは、前述のように、肯定／否定、大／小、高／低のように対となる方向性をもつ表現のことである。例えば「富士山への登頂は簡単ではない。」という文には「簡単」と「ない」の２つの極性表現が含まれている。意見文とは、意見が記述されている文のことであり、事実文とは、事実が記述されている文のことである。例えば「富士山は美しい山だと思う。」は意見文であり、「富士山は火山である。」は事実文である。

【0056】

言語解析部２２は、述語項構造解析により獲得されたＰＡＳを基に処理対象テキストのＲＤＦを作成し、解析結果記憶部２６に格納する（ステップＳ７０９）。ＲＤＦは、主語、述語、目的語の３つの要素で処理対象テキストを表現したデータである。

【0057】

言語解析部２２は、述語項構造解析により獲得されたＰＡＳを基に処理対象テキストのＰＡＳリレーションを作成し、解析結果記憶部２６に格納する（ステップＳ７１０）。ＰＡＳリレーションは、複数のＰＡＳ間での述語同士の関係を表現したデータであり、例えば、係り元のと係り先の間のモダリティの継承などを表す。ＰＡＳリレーションでは、複文における２つの節の間での述語と述語の関係を表現してもよいし、「しかし」「また」などの接続詞により接続される２つの文の間での述語と述語の関係を表現してもよい。

【0058】

言語解析部２２は、処理対象テキストに含まれる単語のシソーラスを取得し、解析結果記憶部２６に格納する（ステップＳ７１１）。言語解析部２２は、例えば、インターネットで公開されているシソーラスから、処理対象テキストに含まれる各単語のシソーラスを取得してもよいし、辞書記憶部２７に格納されているシソーラス辞書から、処理対象テキストに含まれる各単語のシソーラスを取得してもよい。シソーラスとしては、上位語、下位語、同義語、類義語、部分語、全体語などを取得するとよい。また、対義語を取得してもよい。

【0059】

以上述べたステップＳ７００～Ｓ７１１の処理を、処理対象テキストごとに繰り返す。そして、章の最後のテキストまで処理を終えたら（ステップＳ７１２のＹＥＳ）、ステップＳ７１３に処理を進める。章の終わりか否かは、レイアウト解析部２１の解析結果を参照することで判断することができる。言語解析部２２は、この章の章単語ベクトルを作成し、解析結果記憶部２６に格納する（ステップＳ７１３）。章単語ベクトルは、この章の文章内における単語ごとの出現頻度を要素としてもつベクトルである。図８は、各章の文章内に含まれる単語とその出現頻度（登場回数）を示す表である。例えば、第１章には、「特許」「発明」「技術」「権利」という単語がそれぞれ４回、６回、１回、２回登場する。この場合、第１章の章単語ベクトルは、符号８０で示すように｛４，６，１，０，０，０，２，０，０，・・・｝となる。

【0060】

そして、Ｓ７００～Ｓ７１３の処理を、章ごとに繰り返し、文書（ソーステキスト）の最後の章まで処理を終えたら（ステップＳ７１４のＹＥＳ）、言語解析部２２は、Ｗｏｒｄ２Ｖｅｃにより生成されたモデルを解析結果記憶部２６に格納する（ステップＳ７１５）。このとき、言語解析部２２は、インターネット等で公開されているモデルを取得し利用してもよいし、学習により新たにモデルを生成してもよい。新たにモデルを生成する場合には、言語解析部２２は、例えばＷｉｋｉｐｅｄｉａや今回の出題ソースに関連するテキストデータなどを学習データとして用いてＷｏｒｄ２Ｖｅｃの学習を行うとよい。なお、Ｗｏｒｄ２Ｖｅｃにより生成されたモデルが解析結果記憶部２６に既に用意されており、それをそのまま利用する場合には、ステップＳ７１５の処理は省略してもよい。

【0061】

言語解析部２２は、ソーステキスト全体のＴＦ、ＩＤＦ、及びＴＦ－ＩＤＦを計算し、解析結果記憶部２６に格納する（ステップＳ７１７）。

【0062】

最後に、言語解析部２２は、ソーステキスト全体の単語ベクトル（文書単語ベクトルと呼ぶ）を作成し、解析結果記憶部２６に格納する（ステップＳ７１８）。文書単語ベクトルは、章単語ベクトルの合計となる。図８の例では、文書単語ベクトルは、符号８１で示すように、｛２８，３５，８，６，９，６，１９，１１，８，・・・｝となる。

【0063】

なお、ここで述べた処理はあくまで一例であり、言語解析処理の内容、獲得する解析結果の種類は上記実施形態のものには限られない。

【0064】

＜ＱＡ生成処理の詳細＞
ＱＡ生成部２３によるＱＡ生成処理（図３のステップＳ３１４）について、問題の種類ごとに詳しく説明する。以下では、穴埋め問題、正誤問題（ｎ択問題）、誤り指摘問題、組み合わせ問題、ファクトイド型問題、述語項リレーション型問題、説明問題それぞれの生成処理の一例を示す。以下に述べる処理は、図３のステップＳ３０２において、問題の対象にするトピック（対象トピック）がユーザにより指定されていることを前提とする。なお、ユーザから対象トピックが与えられていない場合に、ＱＡ生成部２３が、図３のステップＳ３１３で抽出したトピック候補の中からランダムに対象トピックを選択してもよい。

【0065】

（１）穴埋め問題
穴埋め問題とは、問題文の中に１つ以上の空欄（穴）が設けられており、空欄の中に埋める語句を答えさせる形式の問題である。穴埋め問題には、記述式の穴埋め問題（空欄の中に埋める語句を入力（記述）させるタイプ）と、選択式の穴埋め問題（空欄の中に埋める語句を語群の中から選択させるタイプ）がある。例えば、対象トピックと関連性を有する文又は文章（「関連記述」と呼ぶ）の中から「対象ワード」とその対象ワードを含む「対象文」とを選択し、対象文を変形（加工）することで、穴埋め問題の問題文を生成することができる。ここで、穴埋め問題の正答となる「対象ワード」には、関連記述中に含まれるキーワード、関連記述の中で共起関係にある語句ペアなどを選ぶことができる。以後、前者をキーワード穴埋め、後者を共起穴埋めと呼ぶ。

【0066】

図９は、ＱＡ生成部２３による穴埋め問題生成処理の流れを示すフローチャートであり、図１０は、選択式の穴埋め問題の生成例である。まず、ＱＡ生成部２３は、ソーステキストの中から関連記述を抽出する（ステップＳ９００）。ここでは、対象トピックとの関連性が最も強い章が関連記述に選ばれる。トピックと章との関連性の強さは、例えば、ＴＦ－ＩＤＦ、単語ベクトルなどを用いて評価すればよい。あるいは、対象トピックそれ自体が見出しに含まれる章が存在する場合には、その章を関連記述に選んでもよい。次に、ＱＡ生成部２３は、キーワード穴埋めを生成するか共起穴埋めを生成するかを決定する（ステップＳ９０１）。どちらの穴埋めタイプにするかは、ユーザが指定してもよいし、ランダムに決定されてもよい。

【0067】

キーワード穴埋めの場合（ステップＳ９０２のＹＥＳ）、ＱＡ生成部２３は、関連記述の中からキーワードを選択する（ステップＳ９０３）。例えば、専門用語辞書に基づいて関連記述の中に含まれる専門用語をキーワードとして選択してもよいし、関連記述の中に含まれるＮＥ（固有表現）をキーワードとして選択してもよいし、関連記述の中に含まれる語句のうちＴＦ－ＩＤＦによる重みが大きいものをキーワードとして選択してもよいし、関連記述の中の数値表現をキーワードとして選択してもよい。そして、ＱＡ生成部２３は、関連記述の中から、当該キーワード（対象ワード）を含む文（対象文）を抽出し（ステップＳ９０６）、当該対象文の中のキーワード部分を空欄（穴）にして文の表現に修正を加えたりすることで、穴埋め問題の問題文を作成する（ステップＳ９０７）。

【0068】

一方、共起穴埋めの場合（ステップＳ９０４のＹＥＳ）、ＱＡ生成部２３は、関連記述の中から共起関係にある語句ペアを選択する（ステップＳ９０５）。そして、ＱＡ生成部２３は、関連記述の中から、当該語句ペア（対象ワード）を含む文（対象文）を抽出し（ステップＳ９０６）、当該対象文の中の語句ペアの両方又は一方を空欄（穴）にして文の表現に修正を加えたりすることで、穴埋め問題の問題文を作成する（ステップＳ９０７）。

【0069】

記述式の穴埋め問題の場合（ステップＳ９０８のＹＥＳ）は、ＱＡ生成部２３は、ステ
ップＳ９０７で作成した問題文と、正答としての対象ワード（キーワード又は共起語句）とをセットにして、穴埋め問題のＱＡ情報を生成する（ステップＳ９０９）。選択式の穴埋め問題の場合（ステップＳ９０８のＮＯ）は、ＱＡ生成部２３は、対象ワードに基づいて、穴埋め問題の誤答ワードを生成する（ステップＳ９１０）。誤答ワードとしては、対象ワードに類似した語句、対象ワードと同じカテゴリに属する語句、対象ワードと同じ文脈でよく使われる語句などを選ぶとよい。例えば、Ｗｏｒｄ２Ｖｅｃ、専門用語辞書、ＴＦ－ＩＤＦ、ＮＥ、共起関係などを用いることで、誤答ワードを生成してもよい。また、間違えやすいワードが登録されている負例辞書をあらかじめ用意しておき、負例辞書から誤答ワードを選択してもよい。

【0070】

図１０の例では、対象トピック「特許制度」の関連記述として「（１）特許制度」の章が抽出され、対象ワードとしてキーワード「技術的思想」が、対象ワードを含む対象文として「なお、ここでいう『発明』とは、自然法則を利用した技術的思想の創作のうち高度のものをいいます。」が選択されている。この対象文を抽出して、「技術的思想」の部分を空欄にし、文の細かな表現を調整したものを穴埋め問題の問題文としている。そして、ＮＥやＷｏｒｄ２Ｖｅｃ等から誤答ワード「特許」「技術」「物品」「アイデア」が生成されている。

【0071】

（２）正誤問題（ｎ択問題）
正誤問題とは、問題文の内容が正しいか誤っているかを答えさせる形式の問題である。正しい文は、例えば、関連記述の中から対象文を抽出し、必要に応じて当該対象文を変形（ただし、文意は変えない）することにより、生成することができる。また、誤り文は、正しい文の一部を変更して意味を変えた文に変形することにより、生成することができる。

【0072】

また、ｎ択問題とは、複数の選択肢の中から正しいもの（又は誤っているもの）を選択させる形式の問題である。ｎ択問題は正誤問題を複数並べたものと考えることができ、正しい文と誤り文を生成する点ではＱＡ生成に必要な処理はほぼ共通であるため、以下では正誤問題の生成についてのみ説明することとする。

【0073】

図１１及び図１２は、ＱＡ生成部２３による正誤問題生成処理の流れを示すフローチャートであり、図１３は、正誤問題の生成例である。まず、ＱＡ生成部２３は、ソーステキストの中から関連記述を抽出する（ステップＳ１１００）。ここでは、対象トピックとの関連性が最も強い章が関連記述に選ばれる。トピックと章との関連性の強さは、例えば、ＴＦ－ＩＤＦ、単語ベクトルなどを用いて評価すればよい。あるいは、対象トピックそれ自体が見出しに含まれる章が存在する場合には、その章を関連記述に選んでもよい。次に、ＱＡ生成部２３は、関連記述の中から対象文を１つ選択する（ステップＳ１１０１）。対象文は関連記述の先頭から順に選んでもよいし、ランダムに選んでもよい。そしてＱＡ生成部２３は、選択した対象文が問題として適切か否かを判断する。例えば、対象文が極性表現を含んでいる場合、対象文がキーワードや数字表現を含んでいる場合などに、当該対象文が問題として適切であると判断してもよい。問題として適切な文と判断されると（ステップＳ１１０２のＹＥＳ）、当該対象文を「正しい文」の候補（候補文と呼ぶ）としてメモリに一時保存する（ステップＳ１１０３）。候補文が必要な数だけ得られたら（ステップＳ１１０４のＹＥＳ）、ステップＳ１１０５に進む。

【0074】

ステップＳ１１０５では、ＱＡ生成部２３が、候補文を基に誤り文を生成する。誤り文の生成方法は、候補文の文の極性を変更する方法、候補文の中のワードを非同義語に置き換える方法、候補文の中の数字を異なる数字に置き換える方法などがある。

【0075】

図１２は誤り文生成処理の例である。極性変更により誤り文を生成する場合（ステップ
Ｓ１２００のＹＥＳ）、ＱＡ生成部２３は、極性表現を含む候補文を選び（ステップＳ１２０１）、その極性を変更する（ステップＳ１２０２）。極性の変更方法は、極性の反転と、極性の曖昧化を含む。極性の変更を行う際には、当該候補文のモダリティを考慮したり、極性辞書を参照するとよい。一方、極性反転ではなく、ワードの置き換えにより誤り文を生成する場合（ステップＳ１２００のＮＯ）には、ＱＡ生成部２３は、キーワードを含む候補文を選択し（ステップＳ１２０３）、当該ワードを非同義語に置き換える（ステップＳ１２０４）。置き換え対象となるワードを選択する際には、Ｗｏｒｄ２Ｖｅｃ、専門用語辞書、ＴＦ－ＩＤＦ、ＮＥなどを用いてもよい。また、索引としてのワードに対して１以上の非同義語が対応付けられている負例辞書を用いて、候補文中のワードを非同義語に置き換えることにより誤り文を生成してもよい。例えば、混同しやすいワードを負例辞書に登録しておくことにより、問題の難易度をアップすることができる。

【0076】

その後、ＱＡ生成部２３は、類似文変換の要否を判断し（ステップＳ１２０５）、必要な場合は誤り文の類似文を生成する（ステップＳ１２０６）。例えば、誤り文に含まれる語句を類義語に置き換えるなどすることで類似文を生成することができる。候補文（正しい文）の極性を反転させたりワードを置き換えたりするだけでは、誤り文であることが簡単に見抜けてしまう場合があるが、類似文へと変換することで問題としての難易度をアップすることができる。以上のように生成された誤り文の候補もメモリに一時保存される（ステップＳ１２０７）。

【0077】

誤り文の生成が完了すると、図１１のステップＳ１１０６に戻り、ＱＡ生成部２３が正しい文の候補と誤り文の候補から、正誤問題のデータを生成する。

【0078】

図１３の例では、対象トピック「特許制度」の関連記述として「（１）特許制度」の章が抽出され、対象文として「なお、ここでいう『発明』とは、自然法則を利用した技術的思想の創作のうち高度のものをいいます。」が選択されている。この対象文を抽出し、文意を変えることなく整形したものが「正しい文」であり、極性表現「高度」を「低度」に置き換えたものが「誤り文」である。

【0079】

なお、ソーステキスト中に対象トピックと関連性を有するリスト構造が含まれている場合には、そのリスト構造を関連リストとして抽出し、関連リストを構成するアイテムを選択肢に含むようなｎ択問題を生成してもよい。例えば図６は、図４のリストから生成されたｎ択問題の例である。

【0080】

（３）誤り指摘問題
誤り指摘問題とは、問題文の中で誤っている部分を指摘させる形式の問題である。誤り指摘問題の生成処理は、図１１及び図１２で示した正誤問題の生成処理と基本的には同じである。ただし、ステップＳ１１０６における問題文と解答の作成方法のみ異なる。

【0081】

図１４の例では、対象トピック「特許制度」の関連記述として「（１）特許制度」の章が抽出され、対象文として「なお、ここでいう『発明』とは、自然法則を利用した技術的思想の創作のうち高度のものをいいます。」が選択されている。この対象文を抽出し、極性表現「高度」を「低度」に置き換えた「誤り文」を用いて問題文が生成されている。

【0082】

（４）組み合わせ問題
組み合わせ問題とは、複数の語群から対となるワードを選択する形式の問題である。例えば、関連記述の中から複数のワード対を抽出し、その複数のワード対のそれぞれを語群に分けることによって、ＱＡ情報を生成することができる。ワード対の選び方は特に限定されないが、例えば、共起関係にあるワード対を抽出してもよいし、係り受け関係にあるワード対を抽出してもよいし、ＲＤＦに基づき主語と目的語のペアをワード対として抽出
してもよい。

【0083】

図１５は、ＱＡ生成部２３による組み合わせ問題生成処理の流れを示すフローチャートであり、図１６は、組み合わせ問題の生成例である。まず、ＱＡ生成部２３は、ソーステキストの中から関連記述を抽出する（ステップＳ１５００）。ここでは、対象トピックとの関連性が強い複数の章が関連記述に選ばれる。トピックと章との関連性の強さは、例えば、ＴＦ－ＩＤＦ、単語ベクトルなどを用いて評価すればよい。あるいは、対象トピックそれ自体が見出しに含まれる章が存在する場合には、その章を関連記述に選んでもよい。次に、ＱＡ生成部２３は、関連記述の中から１つ以上のワード対を抽出し（ステップＳ１５０１）、それらを２つの語群に分ける（ステップＳ１５０２）。さらに、ＱＡ生成部２３は、誤りワードを生成し、誤りワードを上記語群に追加する（ステップＳ１５０３）。誤りワードは、例えば、Ｗｏｒｄ２Ｖｅｃ、専門用語辞書、ＴＦ－ＩＤＦ、ＮＥなどから生成すればよい。そして、ＱＡ生成部２３は、これらの語群を利用して組み合わせ問題のＱＡ情報を生成する（ステップＳ１５０４）。

【0084】

図１６の例では、対象トピック「首都」の関連記述として複数の章が抽出され、関連記述の中から「国名」と「首都」のワード対が抽出されている。語群１が国名の語群、語群２が首都の語群であり、語群２にはＷｏｒｄ２Ｖｅｃ等から生成された誤りワードである「ベルリン」「ロンドン」が追加されている。

【0085】

（５）ファクトイド型問題
ファクトイド型問題とは、名称、時間、場所、数量などの事実を訊く問題である（５Ｗ１Ｈを訊く問題ということもできる）。例えば、関連記述の中から、時間表現、場所表現、主体表現、数量表現、及び、目的物表現のうちのいずれかの表現で用いられている対象ワードを含む対象文を抽出し、当該対象文を変形して対象ワードを解答させる問題文を生成すればよい。本実施形態では、対象文のＲＤＦ又は述語項構造から一つのワードを抜くことで問題文を生成する。

【0086】

図１７は、ＱＡ生成部２３によるファクトイド型問題生成処理の流れを示すフローチャートであり、図１８は、ファクトイド型問題の生成例である。まず、ＱＡ生成部２３は、ソーステキストの中から関連記述を抽出する（ステップＳ１７００）。ここでは、対象トピックとの関連性が最も強い章が関連記述に選ばれる。トピックと章との関連性の強さは、例えば、ＴＦ－ＩＤＦ、単語ベクトルなどを用いて評価すればよい。あるいは、対象トピックそれ自体が見出しに含まれる章が存在する場合には、その章を関連記述に選んでもよい。次に、ＱＡ生成部２３は、関連記述の中から対象文を１つ選択する（ステップＳ１７０１）。対象文は関連記述の先頭から順に選んでもよいし、ランダムに選んでもよい。そしてＱＡ生成部２３は、選択した対象文が問題として適切か否かを判断する。例えば、対象文が、時間表現、場所表現、主体表現、数量表現、目的物表現などの対象ワードを含んでいる場合に、当該対象文が問題として適切であると判断する。なお、対象文がこれらの表現を含んでいるかどうかは、ＲＤＦ、ＰＡＳなどを参照することで判断可能である。

【0087】

次に、ＱＡ生成部２３は、対象文から上記対象ワードを抽出し（ステップＳ１７０２）、その対象ワードのタイプを判別する（ステップＳ１７０３）。時間表現である場合（ステップＳ１７０４のＹＥＳ）、ＱＡ生成部２３は、対象文から時間表現を抽出する（ステップＳ１７０５）。また場所表現である場合（ステップＳ１７０６のＹＥＳ）、ＱＡ生成部２３は、対象文から場所表現を抽出する（ステップＳ１７０７）。名前や組織といった主体表現である場合（ステップＳ１７０８のＹＥＳ）、ＱＡ生成部２３は、対象文から主体表現を抽出する（ステップＳ１７０９）。数量表現である場合（ステップＳ１７１０のＹＥＳ）、ＱＡ生成部２３は、対象文から数量表現を抽出する（ステップＳ１７１１）。それ以外の場合は、目的物表現とみなし、ＱＡ生成部２３は、対象文から目的物表現を抽
出する（ステップＳ１７１２）。

【0088】

次にＱＡ生成部２３は、抽出した表現が区間や期間を表すワードかどうかを判別する（ステップＳ１７１３）。区間や期間を表すワードであった場合（ステップＳ１７１４のＹＥＳ）、ＱＡ生成部２３は、期間、開始時期、終了時期を訊く問題文を生成する（ステップＳ１７１５）。終期を表すワードであった場合（ステップＳ１７１６のＹＥＳ）、ＱＡ生成部２３は、終期を訊く問題文を生成する（ステップＳ１７１７）。また、始期を表すワードであった場合（ステップＳ１７１８のＹＥＳ）、ＱＡ生成部２３は、始期を訊く問題文を生成する（ステップＳ１７１９）。区間や期間を表すワードでない場合は、一般質問の問題文が生成される（ステップＳ１７２０）。

【0089】

また解答方式が選択式であるかＹＥＳ／ＮＯ解答式であるかにあわせて、ＱＡ生成部２３は、必要な解答を生成する（ステップＳ１７２１～Ｓ１７２４）。選択式の場合には、Ｗｏｒｄ２Ｖｅｃ、専門用語辞書、ＴＦ－ＩＤＦ、ＮＥなどを用いて負例を生成してもよい。また、ＹＥＳ／ＮＯ解答式の場合は、正しい文を用意するか、対象ワードの数量表現や時間表現を変更したり、場所表現や主体表現を他の類語に置き換えたりすることで、誤り文を生成する。

【0090】

ＱＡ生成部２３は、ステップＳ１７０２～Ｓ１７２４の処理を全ての対象文について行う（ステップＳ１７２５）。最後に、ＱＡ生成部２３は、生成された複数のＱＡ情報のランキングを行い、データを保存する（ステップＳ１７２６）。なお、ＱＡ情報のランクは、例えば、エンティティの含有量やセンテンスの長さなどで評価するとよい。エンティティは、例えば、ＮＥ（固有表現）、専門用語、ＴＦ－ＩＤＦによる重みが大きい単語などである。

【0091】

図１８の例では、対象文「日本の首都は東京である。」から場所表現「東京」が対象ワードとして選択され、「日本の首都はどこですか？」という質問文が生成されている。また、正答である「東京」と、自動生成された負例「ワシントンＤＣ」「ロンドン」「北京」「ソウル」からなる選択肢が生成されている。

【0092】

（６）述語項リレーション型問題
述語項リレーション型問題とは、「・・・はどうしてか？」「何をすると・・・になるか？」のように、理由、原因、仮定、目的などを問う問題である。解答は単語ではなく短文になるケースが多い。例えば、関連記述の中から複文を抽出し、複文のうちの一方の節の内容を問題文、他方の節の内容を解答とすることにより、述語項リレーション型問題を生成することができる。あるいは、関連記述の中から「なぜなら」「よって」などの接続詞により接続された２つの文を抽出し、一方の文の内容から問題文を生成し、他方の文の内容から解答を生成してもよい。

【0093】

図１９は、ＱＡ生成部２３による述語項リレーション型問題生成処理の流れを示すフローチャートであり、図２０は、述語項リレーション型問題の生成例である。まず、ＱＡ生成部２３は、ソーステキストの中から関連記述を抽出する（ステップＳ１９００）。ここでは、対象トピックとの関連性が最も強い章が関連記述に選ばれる。トピックと章との関連性の強さは、例えば、ＴＦ－ＩＤＦ、単語ベクトルなどを用いて評価すればよい。あるいは、対象トピックそれ自体が見出しに含まれる章が存在する場合には、その章を関連記述に選んでもよい。次に、ＱＡ生成部２３は、関連記述の中から対象文を１つ選択する（ステップＳ１９０１）。対象文は関連記述の先頭から順に選んでもよいし、ランダムに選んでもよい。ＱＡ生成部２３は、選択した対象文が意見文であるか事実文であるかを判断する（ステップＳ１９０２）。またＱＡ生成部２３は、対象文の述語・述語関係を評価する（ステップＳ１９０３）。そしてＱＡ生成部２３は、選択した対象文が問題として適切
か否かを判断する（ステップＳ１９０４）。例えば、対象文が事実文である場合、対象文が複文（つまり複数の述語を含む文）である場合、述語と述語がリレーションを有する場合などに、当該対象文が問題として適切であると判断してもよい。問題として適切な文と判断されると、当該対象文を候補文としてメモリに一時保存する。候補文が必要な数だけ得られたら（ステップＳ１９０５のＹＥＳ）、ステップＳ１９０６に進む。

【0094】

続いてＱＡ生成部２３は、対象文のリレーションタイプを判別する（ステップＳ１９０６）。リレーションタイプは、対象文に含まれる２つの述語の関係であり、例えば、ＰＡＳ、ＰＡＳリレーション、ＲＤＦなどに基づき判断することができる。リレーションタイプが「原因・理由」である場合（ステップＳ１９０７のＹＥＳ）、ＱＡ生成部２３は、原因を問う問題文とその解答を生成する（ステップＳ１９０８）。例えば、対象文が「Ａであるため、Ｂとなった。」という複文であるならば、Ｂ節の部分を加工して「Ｂとなったのは何故ですか？」のように原因を問う問題文を生成し、Ａ節の部分を加工して「その理由は、Ａであるためです。」のような解答を生成すればよい。リレーションタイプが「結果」である場合（ステップＳ１９０９のＹＥＳ）、ＱＡ生成部２３は、結果を問う問題文とその解答を生成する（ステップＳ１９１０）。例えば、対象文が「Ａを行ったら、Ｂとなった。」という複文であるならば、Ａ節の部分を加工して「Ａを行った場合にどうなりますか？」のように結果を問う問題文を生成し、Ｂ節の部分を加工して「Ｂとなります。」のような解答を生成すればよい。リレーションタイプが「方法・条件」である場合（ステップＳ１９１１のＹＥＳ）、ＱＡ生成部２３は、方法・条件を問う問題文とその解答を生成する（ステップＳ１９１２）。例えば、対象文が「Ａの場合に、Ｂとなる。」という複文であるならば、Ｂ節の部分を加工して「どのような場合にＢになりますか？」のように方法・条件を問う問題文を生成し、Ａ節の部分を加工して「Ａの場合です。」のような解答を生成すればよい。リレーションタイプが「容態・比喩」である場合（ステップＳ１９１３のＹＥＳ）、ＱＡ生成部２３は、容態・比喩を問う問題文とその解答を生成する（ステップＳ１９１４）。例えば、対象文が「Ａであるように、Ｂする。」という複文であるならば、Ｂ節の部分を加工して「どのようにＢしたか？」のように容態・比喩を問う問題文を生成し、Ａ節の部分を加工して「Ａであるように行った。」のような解答を生成すればよい。リレーションタイプが「ＩＦ－ＴＨＥＮ」である場合（ステップＳ１９１５のＹＥＳ）、ＱＡ生成部２３は、ＩＦ－ＴＨＥＮを問う問題文とその解答を生成する（ステップＳ１９１６）。例えば、対象文が「もしＡの場合は、Ｂである。」という複文であるならば、Ａ節の部分を加工して「Ａの場合にどうなるか？」のような問題文を生成し、Ｂ節の部分を加工して「Ｂとなる。」のような解答を生成すればよい。すべての対象文についてＱＡ情報を生成した後（ステップＳ１９１７）、ＱＡ生成部２３はＱＡ情報のランキングを行い、データを保存する（ステップＳ１９１８）。

【0095】

（７）説明問題
説明問題とは、語句の意味などを説明（記述）させる形式の問題である。ＱＡ生成部２３は、対象トピックに基づいてその説明を求めるような問題文を生成してもよい。例えば、「＜Ｘ＞について説明しなさい。」というような問題テンプレートを予め用意しておき、＜Ｘ＞の部分を対象トピックに置き換えることで、説明問題の問題文を簡単に生成できる。

【0096】

以上述べたように、本実施形態のＱＡ生成システム１によれば、出題ソースを与えると、さまざまなタイプの問題とその解答を略自動で生成することができる。したがって、ｅラーニングコンテンツなどを手間なく簡単に作成することが可能となる。

【符号の説明】

【0097】

１：ＱＡ生成システム
１０：ＱＡ生成サーバ
１１：ユーザ端末

【図1】