(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-11-02
(45)【発行日】2023-11-13
(54)【発明の名称】自然語モデルに基づいた質問-応答ペア生成方法およびこのような方法を遂行する装置
(51)【国際特許分類】
G06F 16/90 20190101AFI20231106BHJP
G06F 40/56 20200101ALI20231106BHJP
G06F 40/44 20200101ALI20231106BHJP
【FI】
G06F16/90 100
G06F40/56
G06F40/44
(21)【出願番号】P 2022087930
(22)【出願日】2022-05-30
【審査請求日】2022-05-30
(31)【優先権主張番号】10-2021-0106247
(32)【優先日】2021-08-11
(33)【優先権主張国・地域又は機関】KR
(73)【特許権者】
【識別番号】521074645
【氏名又は名称】ボイン アイティー カンパニー リミテッド
(74)【代理人】
【識別番号】110001896
【氏名又は名称】弁理士法人朝日奈特許事務所
(72)【発明者】
【氏名】チョン ユン リ
(72)【発明者】
【氏名】ヒョン ヨン キム
【審査官】早川 学
(56)【参考文献】
【文献】特開2020-135456(JP,A)
【文献】特開2016-045652(JP,A)
【文献】韓国公開特許第10-2005-0032937(KR,A)
【文献】DU, Xinya et al.,Harvesting Paragraph-Level Question-Answer Pairs from Wikipedia [online],2018年05月15日,[検索日:2020.03.03], Internet<URL:https://arxiv.org/abs/1805.05942>
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
G06F 40/00-40/58
(57)【特許請求の範囲】
【請求項1】
自然語モデルに基づいた質問-応答ペア生成方法は、
文書転換部が原文上でテキストを抽出する段階、
コンテクスト分離部が前記テキストでコンテクストを決定する段階、および
質問-応答ペア生成部が前記コンテクストで候補質問-応答ペアを生成する段階を含
み、
質問-応答ペア生成部は前記コンテクストで解を決定し、前記解に対応する質問を決定して前記候補質問-応答ペアを生成し、
ウォーカー部は前記候補質問-応答ペアに対して追加的な判断を通じて最終的に質問-応答ペアを決定し、
前記質問-応答ペアのうち、前記解を決定するために、前記コンテクストに含まれる単語のうち前記解に設定可能な品詞に対応する1次候補解が抽出され、前記1次候補解の抽出後、前記1次候補解の分布頻度に基づいて2次候補解が決定され、前記2次候補解の決定後、前記コンテクスト上の位置を考慮して解として設定される優先順位が決定され、前記コンテクスト上の位置は、前記コンテクストを構成するセンテンスのうち前記2次候補解を含むセンテンスの位置を考慮して決定され、
前記2次候補解の優先順位は、前記コンテクスト内の前記2次候補解を含むターゲットセンテンス分布が相対的に広いほどが高く設定され、
前記ターゲットセンテンス分布は、全体センテンスのうち前記ターゲットセンテンス間の距離を基準として判断される
ことを特徴とする、方法。
【請求項2】
前記質問は、質問ターゲットセンテンスのうち最も優先順位が高い質問ターゲットセンテンスを基準として決定され、
前記質問ターゲットセンテンスは、前記ターゲットセンテンスに対する分析に基づいて、前記ターゲットセンテンスのうち質問として生成が容易な優先順位を基準として決定され、
前記質問ターゲットセンテンスの優先順位は、前記ターゲットセンテンスのうち長さが相対的に長いほど相対的に高く設定され、前記ターゲットセンテンスで含まれる単語のうち他のターゲットセンテンスに含まれる単語と重複する単語が相対的に多いほど相対的に高く設定される、請求項1に記載の方法。
【請求項3】
前記コンテクスト分離部は自然語推論および文章類似度測定に基づいて前記テキスト内の文章間の関係を決定し、
前記コンテクスト分離部はディープラーニングモデルに基づいて前記文章でキーワードを抽出して前記コンテクストを決定することを特徴とする、請求項
2に記載の方法。
【請求項4】
自然語モデルに基づいた質問-応答ペア生成器は、
原文上でテキストを抽出するように具現される文書転換部、
前記テキストでコンテクストを決定するように具現されるコンテクスト分離部、および
前記コンテクストで候補質問-応答ペアを生成するように具現される質問-応答ペア生成部を含
み、
質問-応答ペア生成部は前記コンテクストで解を決定し、前記解に対応する質問を決定して前記候補質問-応答ペアを生成し、
ウォーカー部は前記候補質問-応答ペアに対して追加的な判断を通じて最終的に質問-応答ペアを決定し、
前記質問-応答ペアのうち、前記解を決定するために、前記コンテクストに含まれる単語のうち前記解に設定可能な品詞に対応する1次候補解が抽出され、前記1次候補解の抽出後、前記1次候補解の分布頻度に基づいて2次候補解が決定され、前記2次候補解の決定後、前記コンテクスト上の位置を考慮して解として設定される優先順位が決定され、前記コンテクスト上の位置は、前記コンテクストを構成するセンテンスのうち前記2次候補解を含むセンテンスの位置を考慮して決定され、
前記2次候補解の優先順位は、前記コンテクスト内の前記2次候補解を含むターゲットセンテンス分布が相対的に広いほどが高く設定され、
前記ターゲットセンテンス分布は、全体センテンスのうち前記ターゲットセンテンス間の距離を基準として判断される
ことを特徴とする、質問-応答ペア生成器。
【請求項5】
前記質問は、質問ターゲットセンテンスのうち最も優先順位が高い質問ターゲットセンテンスを基準として決定され、
前記質問ターゲットセンテンスは、前記ターゲットセンテンスに対する分析に基づいて、前記ターゲットセンテンスのうち質問として生成が容易な優先順位を基準として決定され、
前記質問ターゲットセンテンスの優先順位は、前記ターゲットセンテンスのうち長さが相対的に長いほど相対的に高く設定され、前記ターゲットセンテンスで含まれる単語のうち他のターゲットセンテンスに含まれる単語と重複する単語が相対的に多いほど相対的に高く設定される、請求項4に記載の質問-応答ペア生成器。
【請求項6】
前記コンテクスト分離部は自然語推論および文章類似度測定に基づいて前記テキスト内の文章間の関係を決定し、
前記コンテクスト分離部はディープラーニングモデルに基づいて前記文章でキーワードを抽出して前記コンテクストを決定することを特徴とする、請求項5に記載の質問-応答ペア生成器。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、自然語モデルに基づいた質問-応答ペア生成方法およびこのような方法を遂行する装置に関する。具体的には、原文に対する分析に基づいて質問-応答ペアを生成して質問-応答ペアデータ構築のための自然語モデルに基づいた質問-応答ペア生成方法およびこのような方法を遂行する装置に関する。
【背景技術】
【0002】
最近人間の理解に基づいて人間親和的なサービスを提供するための知能型システムの発展が着実になされている。このような人工知能システムの核心技術は、使用者が容易に望む知識を対話を通じて提供されたり、言語の制限なく多様な情報を獲得し意思疎通ができる言語知能技術である。
【0003】
また、言語知能のための核心技術として質問応答技術と自動通訳技術が常用化されるのであれば、多様な言語で作られた多様な情報を韓国語で検索して情報を獲得でき、他の言語を使う人々とも自由に疎通することができる。
【0004】
特に、自然語質問応答技術は使用者の自然語質問に合う正解の候補を抽出してその中の最適の正解を提示する技術であり、多様な人工知能応用システムで言語知能核心モジュールとして活用が可能な技術である。
【0005】
このような自然語質問応答技術のためには質問-応答ペアの生成が必要であり、テキストに基づいて質問-応答ペアを自動で生成するための方法に対する研究が必要である。
【発明の概要】
【発明が解決しようとする課題】
【0006】
本発明は前述した問題点をすべて解決することをその目的とする。
【0007】
また、本発明は、入力された原文上でコンテクストを決定し、コンテクストに基づいて質問-応答ペアを生成して質問-応答ペアデータを構築することを目的とする。
【0008】
また、本発明は、文章分離およびコンテクスト分割を通じて解を決定し、解に対応する質問を機械読解を通じて決定して質問-応答ペアの品質を向上させることができる。
【課題を解決するための手段】
【0009】
前記目的を達成するための本発明の代表的な構成は次の通りである。
【0010】
本発明の一実施例によると、自然語モデルに基づいた質問-応答ペア生成方法は、文書転換部が原文上でテキストを抽出する段階、コンテクスト分離部が前記テキストでコンテクストを決定する段階と質問-応答ペア生成部が前記コンテクストで候補質問-応答ペアを生成する段階を含むことができる。
【0011】
一方、前記コンテクスト分離部は自然語推論および文章類似度測定に基づいて前記テキスト内文章間の関係を決定し、前記コンテクスト分離部はBERT(Bidirectional Encoder Representations from Transformers)、ELECTRA、GPT-2等のディープラーニングモデルに基づいて前記文章でキーワードを抽出して前記コンテクストを決定することができる。
【0012】
また、質問-応答ペア生成部は前記コンテクストで解を決定し、前記解に対応する質問を機械読解を通じて決定して前記候補質問-応答ペアを生成し、
【0013】
ウォーカー部は前記候補質問-応答ペアに対して追加的な判断を通じて最終的に質問-応答ペアを決定することができる。
【0014】
本発明の他の実施例によると、自然語モデルに基づいた質問-応答ペア生成器は、原文上でテキストを抽出するように具現される文書転換部、前記テキストでコンテクストを決定するように具現されるコンテクスト分離部と前記コンテクストで候補質問-応答ペアを生成するように具現される質問-応答ペア生成部を含むことができる。
【0015】
一方、前記コンテクスト分離部は自然語推論および文章類似度測定に基づいて前記テキスト内文章間の関係を決定し、前記コンテクスト分離部はBERT、ELECTRA、GPT-2等のディープラーニングモデルに基づいて前記文章でキーワードを抽出して前記コンテクストを決定することができる。
【0016】
また、質問-応答ペア生成部は前記コンテクストで解を決定し、前記解に対応する質問を機械読解を通じて決定して前記候補質問-応答ペアを生成し、ウォーカー部は前記候補質問-応答ペアに対して追加的な判断を通じて最終的に質問-応答ペアを決定することができる。
【発明の効果】
【0017】
本発明によると、入力された原文上でコンテクストが決定され、コンテクストに基づいて質問-応答ペアを生成して質問-応答ペアデータが構築され得る。
【0018】
また、本発明によると、文章分離およびコンテクスト分割を通じて解を決定し、解に対応する質問を機械読解を通じて決定して質問-応答ペアの品質が向上し得る。
【図面の簡単な説明】
【0019】
【
図1】
図1は、本発明の実施例に係る質問-応答ペア生成器を示した概念図である。
【
図2】
図2は、本発明の実施例に係る質問-応答ペア生成器の動作を示した概念図である。
【
図3】
図3は、本発明の実施例に係る質問-応答ペア生成プロセスを示した概念図である。
【
図4】
図4は、本発明の実施例に係るコンテクスト抽出方法を示した概念図である。
【
図5】
図5は、本発明の実施例に係る質問-応答ペアを生成するための方法を示した概念図である。
【
図6】
図6は、本発明の実施例に係る質問-応答ペアの生成方法を示した概念図である。
【
図7】
図7は、本発明の実施例に係る質問-応答ペアで質問を生成する方法を示した概念図である。
【
図8】
図8は、本発明の実施例に係るセンテンス(または文章)に基づいてコンテクストを決定する方法を示した概念図である。
【発明を実施するための形態】
【0020】
後述する本発明に対する詳細な説明は、本発明が実施され得る特定の実施例を例示として図示する添付図面を参照する。このような実施例は、当業者が本発明を充分に実施できるように詳細に説明される。本発明の多様な実施例は互いに異なるが相互排他的である必要はないということが理解されるべきである。例えば、本明細書に記載されている特定形状、構造および特性は、本発明の精神と範囲を逸脱することなく一実施例から他の実施例に変更されて具現され得る。また、それぞれの実施例内の個別構成要素の位置または配置も、本発明の精神と範囲を逸脱することなく変更され得ることが理解されるべきである。したがって、後述する詳細な説明は限定的な意味として行われるものではなく、本発明の範囲は特許請求の範囲の請求項が請求する範囲およびそれと均等なすべての範囲を包括するものと受け入れられるべきである。図面で類似する参照符号は多様な側面にわたって同一または類似する構成要素を示す。
【0021】
以下では、本発明が属する技術分野で通常の知識を有する者が本発明を容易に実施できるようにするために、本発明の多様な好ましい実施例に関して添付された図面を参照して詳細に説明することにする。
【0022】
図1は、本発明の実施例に係る質問-応答ペア生成器を示した概念図である。
【0023】
図1では、入力された原文に基づいて質問-応答ペアを生成するために具現された質問-応答ペア生成器が開示される。
【0024】
図1を参照すると、質問-応答ペア生成器は原文入力部100、ウェブアプリケーション(Web App)110、データベース(database)120、ストレージ(storage)130、マネジャー部140、ウォーカー部150、文書転換部(document converter)160、コンテクスト分離部(context splitter)170、質問-応答ペア生成部180、ノーティファイア(notifier)190を含むことができる。
【0025】
原文入力部100は、質問-応答ペアを生成するための原文の入力のために具現され得る。原文はEPUB、HTML(Hyper Text Markup Language)、XML、TEXT、SQuAD(Stanford Question Answering Dataset)1.0/2.0、KorSQuAD(The Korean Question Answering Dataset)1.0/2.0のようなフォーマットを有することができる。
【0026】
ウェブアプリケーション110は,質問-応答ペアを生成するための多様な命令を伝達するために具現され得る。具体的には、ウェブアプリケーション110は原文をデータベース120、ストレージ130に保存し、マネジャー部140に質問-応答ペアを生成するための原文を伝達することができる。また、ウェブアプリケーション110は学習データを受信し、受信された学習データに対するアラームを伝達するために具現され得る。
【0027】
データベース(database)120は、原文情報および/または学習データに対する保存のために具現され得る。
【0028】
ストレージ(storage)130は、原文情報および/または学習データに対する保存のために具現され得る。
【0029】
マネジャー部140は原文データを受信し、質問-応答ペアを生成するための手続きの制御および管理を遂行できる。
【0030】
ウォーカー部150はマネジャー部から作業が割当され、生成された質問-応答ペアに対する評価を遂行できる。ウォーカー部100は、学習データをウェブアプリケーション110を通じてデータベース120および/またはストレージ130に伝送することができる。ウォーカー部150は抽出した段落と生成された質問-応答ペアを結果(JSONフォーマット)として出力して伝達することができる。
【0031】
文書転換部(document converter)160は、原文でテキストを抽出するために具現され得る。
【0032】
コンテクスト分離部(context splitter)170は、抽出されたテキストでコンテクストを分離するために具現され得る。コンテクスト分離部170は分離された文章同士の連関性推論を通じて内容がつながる段落が生成され得る。
【0033】
質問-応答ペア生成部180は、分離されたコンテクストに基づいて候補質問-応答ペアを生成するために具現され得る。質問-応答ペア生成部180は解を生成し、解による質問をコンテクスト基盤で機械読解を通じて決定して候補質問-応答ペアを生成することができる。
【0034】
質問-応答ペア生成部180により生成された候補質問-応答ペアはウォーカー部150に伝達され、ウォーカー部150は候補質問-応答ペアのうちエラーを判断して最終的に質問-応答ペアを生成することができる。ウォーカー部150は決定された質問-応答ペアを学習データとしてウェブアプリケーション110を通じて伝達することができる。学習データとして伝達された質問-応答ペアは後ほど質問-応答ペアを決定するための学習データとして使われ得る。また、質問-応答ペアは原文に対する質問-応答ペアデータ構築のために使われ得る。
【0035】
ノーティファイア(notifier)190は、ウォーカー部150から学習データの伝達の有無に対するアラームを提供するために具現され得る。
【0036】
本発明ではEPUB、HTML(Hyper Text Markup Language)、XML、TEXT、SQuAD(Stanford Question Answering Dataset)1.0/2.0、KorSQuAD(The Korean Question Answering Dataset)1.0/2.0等のファイル原本入力時、自動で段落抽出および質問-応答ペアが生成され提案されて、人がする手作業が最小化し、結果として良質の質問-応答ペアデータが構築され得る。
【0037】
生成された質問-応答ペアデータは、再びフィードバックされてより正確な質問-応答ペアの生成に活用され得る。また、生成された質問-応答ペアデータは後ほど使用者の質問に対する解を提供するための学習データとして活用されて、質問に対する解を提供するエンジンを実現するために活用され得る。
【0038】
具体的には、段落と段落に関連した質問-正解ペアが生成され、質問-応答ペアデータ構築がなされ得る。例えば、政策資料に対するデータが構築され、これを再学習すれば政策資料に対する質問-応答ペアが生成されて政策に対する返答を提供できるモデルが学習され得る。構築されたデータ(質問-応答)に対する再学習が遂行される場合、質問生成および機械読解モデル性能が向上し得る。質問生成および正解検索の性能が上がることによって今後データセットの構築が円滑となり得る。
【0039】
図2は、本発明の実施例に係る質問-応答ペア生成器の動作を示した概念図である。
【0040】
図2では、質問-応答ペア生成器が質問-応答ペアを生成して学習のための学習データを生成するための方法が開示される。
【0041】
図2を参照すると、原文入力部が原文を受信して原文をウェブアプリケーションに伝送する(段階S200)。
【0042】
ウェブアプリケーションは受信した原文をデータベースとストレージに保存することができる(段階S205)。
【0043】
ウェブアプリケーションは、受信した原文に基づいてマネジャー部に学習データ自動構築を要請することができる(段階S210)。
【0044】
学習データは原文基盤で生成された質問-応答ペアであり得る。
【0045】
マネジャー部はウォーカー部に作業割当を遂行できる(段階S215)。
【0046】
ウォーカー部は文書転換部にテキスト抽出を要請することができる(段階S220)。
【0047】
文書転換部は原文でテキストを抽出することができる。
【0048】
コンテクスト分離部は、抽出されたテキストを対象にコンテクストを分離することができる(段階S225)。
【0049】
質問-応答ペア生成部は分離されたコンテクストに基づいて候補質問-応答ペアを生成し、生成された候補質問-応答ペアをウォーカー部に伝送することができる(段階S230)。
【0050】
ウォーカー部は受信した候補質問-応答ペアを検討して最終的に質問-応答ペアを決定した後、最終的に決定された質問-応答ペアをJSON形態の学習データとしてウェブアプリケーションに伝送することができる(段階S235)。
【0051】
ウェブアプリケーションは受信した学習データをデータベースおよびストレージに保存することができる(段階S240)。
【0052】
ウェブアプリケーションは学習データの受信をノーティファイアに知らせることができる(段階S245)。
【0053】
ノーティファイアは管理者装置に学習データの受信を知らせることができる(段階S250)。
【0054】
管理者の学習データ要請時、下記のような段階で学習データが管理者に伝達され得る。
【0055】
まず、管理者装置はウェブアプリケーションに学習データを要請することができる(段階S255)。
【0056】
ウェブアプリケーションはストレージに学習データを要請することができる(段階S260)。
【0057】
ストレージは管理者装置に学習データを伝達することができる(段階S265)。
【0058】
図3は、本発明の実施例に係る質問-応答ペア生成プロセスを示した概念図である。
【0059】
図3では、EPUB、HTML、XML、TEXT、SQuAD 1.0/2.0、KorSQuAD 1.0/2.0フォーマットの原文を受信し、これらフォーマットの原文に基づいて質問-応答ペアを生成する方法が開示される。
【0060】
図3を参照すると、原文(例えば、EPUBフォーマットの原文)300が入力され得る。
【0061】
入力された原文300は、テキストパーシングに基づいてテキストを抽出してテキスト情報を含んだSQuAD 1.0/2.0、KorSQuAD 1.0/2.0、EXCELフォーマット310で生成され得る。前述した通り、テキストを抽出してテキスト情報を含んだドキュメントフォーマット310への生成は文書転換部で遂行され得る。
【0062】
テキストを含むドキュメント310は文章分離を通じてセンテンス(sentence)320単位で分離することができ、センテンス320は段落抽出を通じてコンテクスト330に決定され得る。前述した通り、コンテクスト分離部で前記のようなコンテクスト決定動作が遂行され得る。
【0063】
コンテクスト330に基づいて質問-応答ペア340、350が生成され、生成された質問-応答ペア340、350はJSONフォーマット360で保存され得る。前述した通り、質問応答生成部は質問-応答ペア340、350を生成し、生成された質問-応答ペア340、350はJSONフォーマット360で保存され得る。
【0064】
図4は、本発明の実施例に係るコンテクスト抽出方法を示した概念図である。
【0065】
図4では、テキストでコンテクストを抽出するための方法が開示される。
【0066】
図4を参照すると、コンテクストを抽出するための1段階410では自然語推論(NLI、Natural Language Inference)、文章類似度測定(Semantic Textual Similarity)を通じて文章類似度が測定され得る。
【0067】
自然語推論(NLI、Natural Language Inference)と文章類似度測定(STS、(Semantic Textual Similarity)はテキスト内の文章間の関係を決定するために使われ得る。
【0068】
自然語推論は、前提として与えられたテキストと仮設として与えられたテキスト間の関係を推論することである。前提と仮設間の関係は仮説が真である場合(entailment)、仮説が偽りである場合(contradiction)、仮説が真であってもよく偽りであってもよい場合(neutral)にラベリングされて自然語推論が遂行され得る。
【0069】
文章類似度は入力で与えられた二つの文章間の意味の同等性を数値で表現するものである。文章類似度はF1 scoreとピアソン相関係数に基づいて決定され得る。
【0070】
前記のように1段階410の自然語推論および文章類似度を通じてテキスト内の文章間の連関性を一次的に決定した後、2段階420でBERT、ELECTRA、GPT-2等のディープラーニングモデルを通じてキーワードを抽出して文章類似度を測定することができる。
【0071】
2段階420では、1段階410基盤で獲得された文章関係に基づいて最大限多くのコンテクストが生成され得る。
【0072】
1段階410では単純に一つの文章と次の文章間の連関性のみを推論することによって段落が細かく分けられて抽出され、捨てる文章が多くなる。2段階420では文章と文章の間での連関性が落ちるように見えても、脈絡を考慮する方法である。つながる内容内では関連がある内容同士を束ねてより大きい単位の段落を作り出すことができる。
【0073】
図5は、本発明の実施例に係る質問-応答ペアを生成するための方法を示した概念図である。
【0074】
図5では、コンテクスト分離部がコンテクストでセンテンス(または文章)を分離し、質問-応答ペアを生成する方法が開示される。
【0075】
図5を参照すると、決定されたコンテクスト500でセンテンス510が分離され、分離されたセンテンス510に基づいて質問530-解520ペアが生成され得る。
【0076】
まず、文章510に基づいて解520が先に決定され得る。解520が決定された後、解520および解520と関連したコンテクスト525に基づいて候補質問530が生成され得る。
【0077】
候補質問530およびコンテクスト540に対する機械読解を通じて候補質問-応答ペアが決定され得る
【0078】
決定された候補質問-応答ペアはウォーカーサーバーに再び伝達され、ウォーカーサーバーは最終的に候補質問-応答ペアのうち最終的に学習データとして使われる質問-応答ペアを決定することができる。
【0079】
図6は、本発明の実施例に係る質問-応答ペアの生成方法を示した概念図である。
【0080】
図6では、質問-応答ペアのうち解を決定するための方法が開示される。
【0081】
図6を参照すると、コンテクストを構成するセンテンス上で解を決定するためにコンテクストに対する分析が遂行され得る。
【0082】
まず、コンテクストに含まれる単語のうち解に設定可能な品詞に対応する1次候補解610が抽出され得る。
【0083】
例えば、名詞が解に設定可能な品詞である場合、コンテクスト上で名詞に該当する単語が1次候補解610として抽出され得る。以下、説明の便宜上解に設定可能な品詞は名詞と仮定して説明する。
【0084】
1次候補解610の抽出後、1次候補解610の分布頻度が判断され得る。
【0085】
例えば、1次候補解610が10個であって、1次候補解1~1次候補解10である場合、1次候補解1~1次候補解10それぞれのコンテクスト内分布頻度が決定され得る。
【0086】
1次候補解1~1次候補解10の分布頻度のうち、第1臨界分布頻度以下、第2臨界分布頻度以上の1次候補解610は除外され、2次候補解620が決定され得る。
【0087】
第1臨界分布頻度以下である場合、解として使うには重要度が低すぎるため解として使われる価値が低いこともあり、第2臨界分布頻度以上の場合、解として使うには一般的な単語であるか、該当解に対する質問難易度が低すぎるため解として使われる価値が低いこともあるためである。
【0088】
2次候補解620の決定後、2次候補解620のコンテクスト上の位置を考慮して解として設定される優先順位が決定され得る。2次候補解620が5個であって、2次候補解1~2次候補解5である場合、2次候補解1~2次候補解5それぞれのコンテクスト上の位置が決定され得る。2次候補解1~2次候補解5のうち、解として設定され得る優先順位が決定され得る。
【0089】
コンテクスト上の位置は、コンテクストを構成するセンテンスのうち2次候補解620を含むセンテンスの位置を考慮して決定され得る。2次候補解620を含むセンテンスはターゲットセンテンスという用語で表現され得る。
【0090】
コンテクスト内のターゲットセンテンス分布が相対的に広いほど2次候補解620の優先順位が高く設定され、解として優先的に設定され得る。コンテクスト内のターゲットセンテンス分布は、全体センテンスのうちターゲットセンテンス間の距離を基準として判断され得る。例えば、20個のセンテンスを含むコンテクストでセンテンスは座標化{(1、0)~(20、0)}とされ得る。座標の分布を計算する方式で座標上でターゲットセンテンス分布が算出され得る。
【0091】
または、コンテクスト内のターゲットセンテンス集中度が相対的に大きいほど2次候補解620の優先順位が高く設定され、解として優先的に設定され得る。コンテクスト内のターゲットセンテンスの集中度はコンテクストの特定位置にターゲットセンテンスが集中的に位置するかに対する値であって、ターゲットセンテンスの個数、ターゲットセンテンスの座標化後の座標間距離を基準として算出され得る。
【0092】
コンテクストの性格、質問の性格(学習度確認、情報提供)により、互いに異なる要素(ターゲットセンテンス分布がターゲットセンテンスの集中度)を基準として2次候補解620の優先順位が決定され得る。
【0093】
コンテクスト別に生成されなければならない質問-応答ペアの個数を考慮して優先順位の順で臨界個数の2次候補解が決定され、臨界個数の2次候補解620が最終的に解として決定されて質問-応答ペアが生成され得る。
【0094】
本発明の実施例によると、質問に対する難易度によって2次候補解620の優先順位は逆に異なって設定され得る。質問に対する難易度が相対的に高くなるほど相対的に低い臨界分布を有し、ターゲットセンテンス分布が相対的に低い2次候補解620を基準として質問が生成され得る。その反対に、質問に対する難易度が相対的に低くなるほど相対的に高い臨界分布を有し、ターゲットセンテンス分布が相対的に高い2次候補解620を基準として質問が生成され得る。
【0095】
図7は、本発明の実施例に係る質問-応答ペアで質問を生成する方法を示した概念図である。
【0096】
図7では、解を決定した後、解に対応する質問を生成するための方法が開示される。
【0097】
図7を参照すると、解に対する質問を決定するために解として設定された2次候補解を含む少なくとも一つのターゲットセンテンス700が分析され得る。
【0098】
ターゲットセンテンス700は質問として生成が容易な優先順位を基準として質問ターゲットセンテンス750として設定され得る。例えば、ターゲットセンテンス700が5個である場合、ターゲットセンテンス1~ターゲットセンテンス5は質問ターゲットセンテンス1~質問ターゲットセンテンス5に優先順位が設定され得る。
【0099】
質問ターゲットセンテンス750の優先順位は、ターゲットセンテンス700のうち長さが相対的に長いほど相対的に高い優先順位を有し、ターゲットセンテンス700で含まれる単語のうち他のターゲットセンテンスに含まれる単語と重複する単語が相対的に多いほど相対的に高い優先順位を有するように設定され得る。その反対に、質問ターゲットセンテンス750の優先順位はターゲットセンテンス700のうち長さが相対的に短いほど相対的に低い優先順位を有し、ターゲットセンテンス700で含まれる単語のうち他の単語と重複する単語が相対的に少ないほど相対的に低い優先順位を有するように設定され得る。
【0100】
このような方法で、質問ターゲットセンテンス750のうち最も優先順位が高い質問ターゲットセンテンスを基準として質問を生成して質問-応答ペアを生成することができる。
【0101】
本発明の実施例によると、優先順位は難易度により適応的に調整され得る。前述した優先順位は難易度が最も低いものを考慮して設定されたものであり、反対に難易度が高く設定されるようにしたい場合、反対に質問ターゲットセンテンス750の優先順位はターゲットセンテンス700のうち長さが相対的に短いほど相対的に高い優先順位を有し、ターゲットセンテンス700で含まれる単語のうち他の単語と重複する単語が相対的に少ないほど相対的に低い優先順位を有するように設定され得る。
【0102】
図8は、本発明の実施例に係るセンテンス(または文章)に基づいてコンテクストを決定する方法を示した概念図である。
【0103】
図8では、センテンスに基づいてコンテクストを決定する方法が開示される。
【0104】
図8を参照すると、センテンス間の関係に基づいてコンテクストを決定するために、センテンス間の連関度に対する分析が遂行され得る。前述した通り、1段階の自然語推論および文章類似度を通じてテキスト内の文章間の連関性を一次的に決定した後、2段階でTF-IDFを通じてキーワードを抽出して文章類似度を測定する方法が開示される。以下、2段階でTF-IDFを通じてキーワードを抽出して文章類似度を測定してコンテクストを決定する方法が開示される。
【0105】
一次的に、候補コンテクスト840を決定するために文章別キーワードに対する分析を通じてキーワード基準の1次コンテクスト化が遂行され得る。1次コンテクスト化は、全体テキストで第1臨界回数以上存在するキーワードである中心キーワード800を決定し、中心キーワード800を含む中心キーワードセンテンス820の集合を生成して遂行され得る。中心キーワード800を含むセンテンスは中心キーワードセンテンス820という用語で表現される。中心キーワード800を含まないセンテンスは非中心キーワードセンテンスという用語で表現される。中心キーワード800は複数個であり得る。第1臨界回数は全体原文内の単語分布およびコンテクスト分割要求個数を考慮して決定され得る。全体原文内の単語分布に基づいて繰り返される単語の個数が相対的に多くないほど第1臨界回数は低く設定され得る。また、コンテクスト分割要求個数が相対的に多いほど第1臨界回数は高く設定され得る。
【0106】
1次コンテクスト化を遂行時、同一の中心キーワード800である第1中心キーワードを有する中心キーワードセンテンス1(第1中心キーワード)と中心キーワードセンテンス2(第1中心キーワード)の間に含まれた非中心キーワードセンテンスは中心キーワードセンテンス1(第1中心キーワード)と中心キーワードセンテンス2(第1中心キーワード)と同一の候補コンテクストに決定され得る。
【0107】
また、中心キーワードセンテンス1(第1中心キーワード)と中心キーワードセンテンス2(第1中心キーワード)の間に他の中心キーワードである第2中心キーワードを含む中心キーワードセンテンス1(第2中心キーワード)が含まれる場合、第2中心キーワードを基準として新しい候補コンテクスト840に分離され得る。
【0108】
前述した処理を通じて候補コンテクスト840が一次的に抽出された後、候補コンテクスト840の内部でコンテクスト中心キーワード860を決定して追加的なコンテクスト分割を遂行して最終的にコンテクストを決定することができる。具体的には、コンテクストはコンテクストの内部で第2臨界回数以上繰り返されるコンテクスト中心キーワード860を含むコンテクスト中心キーワードセンテンス880が臨界距離以下に位置した場合、候補コンテクスト840で分離されて設定され得る。
【0109】
この時、追加的に候補コンテクスト840でコンテクスト中心キーワードセンテンス860を考慮してコンテクストを分離した場合、分離されたコンテクストによって候補コンテクストに残ったセンテンス間の中心キーワード連関度が追加的に分析され、もし、残ったセンテンス間の中心キーワード連関度が臨界値以下である場合、候補コンテクストが最終的にコンテクストに決定され得る。残ったセンテンス間の中心キーワード連関度は、残ったセンテンスが中心キーワードを含んでいるかどうかおよび全体センテンスのうち中心キーワードを含むセンテンスの比率に基づいて決定され得る
【0110】
すなわち、コンテクストでコンテクスト中心キーワードセンテンス880を考慮してコンテクストを分離時、周辺に残った残りのコンテクストが中心キーワード800と関連度が高くない場合、別途のコンテクスト中心キーワードセンテンス880基盤の分離なしに一つのコンテクストに設定することができる。
【0111】
以上で説明された本発明に係る実施例は、多様なコンピュータ構成要素を通じて実行され得るプログラム命令語の形態で具現されてコンピュータ読み取り可能な記録媒体に記録され得る。前記コンピュータ読み取り可能な記録媒体は、プログラム命令語、データファイル、データ構造などを単独でまたは組み合わせて含むことができる。前記コンピュータ読み取り可能な記録媒体に記録されるプログラム命令語は、本発明のために特別に設計されて構成されたものであるか、コンピュータソフトウェア分野の当業者に公知となっている使用可能なものであり得る。コンピュータ読み取り可能な記録媒体の例には、ハードディスク、フロッピーディスクおよび磁気テープのような磁気媒体、CD-ROMおよびDVDのような光記録媒体、フロプティカルディスク(floptical disk)のような磁気-光媒体(magneto-optical medium)、およびROM、RAM、フラッシュメモリなどのような、プログラム命令語を保存し実行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作られるような機械語コードだけでなく、インタープリタなどを使ってコンピュータによって実行され得る高級言語コードも含まれる。ハードウェア装置は本発明に係る処理を遂行するために一つ以上のソフトウェアモジュールに変更され得、その逆も同一である。
【0112】
以上、本発明が具体的な構成要素などのような特定事項と限定された実施例および図面によって説明されたが、これは本発明のより全般的な理解を助けるために提供されたものに過ぎず、本発明は前記実施例に限定されるものではなく、本発明が属する技術分野で通常の知識を有する者であれば、このような記載から多様な修正と変更を試みることができる。
【0113】
したがって、本発明の思想は前記説明された実施例に限定されて定められてはならず、後述する特許請求の範囲だけでなくこの特許請求の範囲と均等なまたはこれから等価的に変更されたすべての範囲は本発明の思想の範疇に属するものと言える。