IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ アムジエン・インコーポレーテツドの特許一覧

特表2024-539670規制質問への応答を容易にする自然言語処理の応用
<>
  • 特表-規制質問への応答を容易にする自然言語処理の応用 図1
  • 特表-規制質問への応答を容易にする自然言語処理の応用 図2
  • 特表-規制質問への応答を容易にする自然言語処理の応用 図3
  • 特表-規制質問への応答を容易にする自然言語処理の応用 図4
  • 特表-規制質問への応答を容易にする自然言語処理の応用 図5A
  • 特表-規制質問への応答を容易にする自然言語処理の応用 図5B
  • 特表-規制質問への応答を容易にする自然言語処理の応用 図5C
  • 特表-規制質問への応答を容易にする自然言語処理の応用 図6
  • 特表-規制質問への応答を容易にする自然言語処理の応用 図7A
  • 特表-規制質問への応答を容易にする自然言語処理の応用 図7B
  • 特表-規制質問への応答を容易にする自然言語処理の応用 図7C
  • 特表-規制質問への応答を容易にする自然言語処理の応用 図8
  • 特表-規制質問への応答を容易にする自然言語処理の応用 図9
  • 特表-規制質問への応答を容易にする自然言語処理の応用 図10
  • 特表-規制質問への応答を容易にする自然言語処理の応用 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-10-29
(54)【発明の名称】規制質問への応答を容易にする自然言語処理の応用
(51)【国際特許分類】
   G06F 16/35 20190101AFI20241022BHJP
【FI】
G06F16/35
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024523171
(86)(22)【出願日】2022-10-18
(85)【翻訳文提出日】2024-05-24
(86)【国際出願番号】 US2022046974
(87)【国際公開番号】W WO2023069401
(87)【国際公開日】2023-04-27
(31)【優先権主張番号】63/270,448
(32)【優先日】2021-10-21
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】63/389,569
(32)【優先日】2022-07-15
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.JAVA
(71)【出願人】
【識別番号】500049716
【氏名又は名称】アムジエン・インコーポレーテツド
(74)【代理人】
【識別番号】110001173
【氏名又は名称】弁理士法人川口國際特許事務所
(72)【発明者】
【氏名】アルクハリファ,サレハ
(72)【発明者】
【氏名】バグル,ダニエル
(72)【発明者】
【氏名】オズユルト,フルカン
(72)【発明者】
【氏名】バイラク,エリフ・シェイマ
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA01
5B175FA03
(57)【要約】
規制質問を処理するシステム及び方法において、規制質問を表すテキストデータが1つ以上のプロセッサにより取得される。本システム及び方法はまた、1つ以上の自然言語処理モデルを用いて規制質問を分類し、規制質問に対する回答を生成し、規制質問の要約を生成し、及び/又は規制質問に類似した文書を識別する。本システム及び方法はまた、分類、回答、要約、及び/又は類似文書を示すデータを保存、送信、及び/又は表示する。
【特許請求の範囲】
【請求項1】
規制質問を処理する方法であって、
1つ以上のプロセッサにより、複数の規制質問を表すテキストデータを取得することと、
前記1つ以上のプロセッサにより、少なくとも部分的に自然言語処理モデルにより前記テキストデータを処理することにより、前記複数の規制質問の1つ以上の分類を生成することと、
前記1つ以上のプロセッサにより、前記1つ以上の分類を示すデータを保存、送信、及び/又は表示することと
を含む方法。
【請求項2】
前記自然言語処理モデルが深層フィードフォワードニューラルネットワークである、請求項1に記載の方法。
【請求項3】
前記深層フィードフォワードニューラルネットワークが丁度1つの大域最大プーリング層及び複数の密層を含んでいる、請求項2に記載の方法。
【請求項4】
前記深層フィードフォワードニューラルネットワークが丁度2つの密層を含んでいる、請求項3に記載の方法。
【請求項5】
前記自然言語処理モデルが少なくとも1つの双方向層を含んでいる、請求項1に記載の方法。
【請求項6】
前記自然言語処理モデルが長短期保存(LSTM)モデルである、請求項5に記載の方法。
【請求項7】
前記自然言語処理モデルにより前記テキストデータを処理する前に、1つ以上のプロセッサにより前記テキストデータに前処理を施して、分類に使用しない単語及び/又は文字を除外することを更に含んでいる、請求項1~6のいずれか1項に記載の方法。
【請求項8】
請求項1~7のいずれか1項に記載の方法において、前記複数の質問が前記テキストデータ内の複数の各々の単語列に対応し、前記方法が更に、
前記自然言語処理モデルにより前記テキストデータを処理する前に、前記1つ以上のプロセッサにより、前記各単語列を各数列に変換することにより前記テキストデータに前処理を施すことを含んでいる方法。
【請求項9】
前記自然言語処理モデルにより前記テキストデータを処理する前に、前記1つ以上のプロセッサにより、前記各単語列を表す全てのベクトルが等しいシーケンス長を有するように前記各単語列をパディングすることにより前記テキストデータに前処理を施すこと
を更に含んでいる、請求項8に記載の方法。
【請求項10】
前記1つ以上のプロセッサにより、前記複数の質問の少なくとも1つのサブセットを、前記1つ以上の分類を示す仕方で表示させること
を含んでいる、請求項1~9のいずれか1項に記載の方法。
【請求項11】
前記複数の質問の前記少なくとも1つのサブセットを前記1つ以上の分類を示す仕方で表示させることが、
(i)前記1つ以上の分類のうち前記質問に対応する分類と、(ii)ユーザーが選択したフィルタ設定とに基づいて、各質問を選択的に表示させるか又は表示させないこと
を含んでいる、請求項10に記載の方法。
【請求項12】
前記複数の質問の前記少なくとも1つのサブセットを前記1つ以上の分類を示す仕方で表示させることが、
前記複数の質問の前記サブセットの各質問を、前記1つ以上の分類からの対応する分類に関連付けて表示させること
を含んでいる、請求項10に記載の方法。
【請求項13】
システムであって、
1つ以上のプロセッサと、
前記1つ以上のプロセッサにより実行されたならば、前記1つ以上のプロセッサに請求項1~12のいずれか1項に記載の方法を実行させる命令を保存する1つ以上のメモリと
を含むシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は一般に規制処理を促進する技術に関し、より具体的には、規制文書(例えば健康評価アンケート(HAQ)又は質問に対する応答(RTQ))における質問を、例えばそのような質問により効率的に応答すべく分類するシステム及び方法に関する。
【背景技術】
【0002】
先進国において、製薬会社又は医療機器会社等の事業体が提供する製品の安全性と有効性を厳格に審査する規制当局(例えば米国では食品医薬品局)が設置されている。これらの規制当局は評価を行うべく典型的に広範なデータを要求する。このため、製薬その他の企業は典型的に各種書類の提出を求められ、規制当局は次いで追加データを求める書類を発行する。これらの規制文書(例えば健康評価アンケート(HAQ)又は質問に対する応答(RTQ)文書)には多くの(例えば数百件の)詳細な質問が含まれる場合があり、完全且つ正確な回答を提供するのに著しく時間を要する。
【発明の概要】
【発明が解決しようとする課題】
【0003】
遅延の極めて重要な要因の一つは、回答者が、自身がどの質問に回答できるか又は最も相応しいかを判定すべく全ての質問を精査しなければならない初期段階である。例えば、主に医薬品のラベル表示に経験を有する人物は臨床試験又は安全性に関する質問には容易に回答できない場合がある。問い合わせが適切なユーザーに向けられたならば、求められている情報をユーザーが完全に理解するまでに掛かる時間に起因して更なる遅延が生じる。例えば、質問が極めて長い(例えば複数の段落)、及び/又は明示的な質問ではなく記事(例えば特定の問題/課題の記述)として表現されている場合がある。ユーザーが質問を理解したならば、ユーザー及び/又は他の人々適切な回答/応答を決定するのに要する時間に起因して更なる遅延が生じる恐れがある。この種の遅延は、従業員の工数を消費するという意味だけでなく、規制当局の承認処理全体を長引かせ得るという意味でもコストを要する。更に、手作業による審査は、例えばユーザーが、実際には当該ユーザーの技量又は経験に関連する質問を読み飛ばすか又は無視することがある、或いはユーザーが最初に質問を誤解する等のミスが生じやすいため、更なる遅延につながる恐れがある。
【課題を解決するための手段】
【0004】
本明細書に記述する複数の実施形態は、規制文書(例えばHAQ、RTQ等)に見出される種類の質問を処理する際の、及び/又は規制当局に提出する応答を生成する際の効率、一貫性、及び/又は正確性を向上させるシステム及び方法に関する。本明細書で使用する、且つ使用する文脈でより具体的な意味を示さない限り、「質問」、「照会」及び「問い合わせ」等の用語は、明示的な質問(例えば「薬剤Xの最大投与量は?」)又は暗黙的質問又はプロンプト(例えば薬物Xの投与に関する潜在的な問題を記述する際に、当該問題を懸念する必要がない理由又は問題がどのように軽減されたか等を応答が説明すべきであると理解されている)を指していてよく、且つ単一の文又は関連する文の組(例えば「薬物Yが条件Zに関連付けられていることが知られている。試験的試行において当該条件がどれぐらいの頻度で生じたか?」)を指していてよい。更に、本明細書は、検討中の特定の質問のソースとなりうる「規制文書」に言及しているが、質問のソースが、例えばユーザーにより他の仕方(例えば規制質問をユーザーインターフェースにカットアンドペーストすることにより、又は予想される将来の規制質問を手動で入力する等により)であってよいことが分かる。本明細書で用いる用語「文書」は、任意の電子文書又はその一部(例えば原本PDF、紙文書をスキャンしたバージョンであるPDF、Word文書等)であってよく、より一般に、質問又は当該質問内の他の文及び/又は文の断片を表すテキストデータの任意の集合体であってよい。
【0005】
一般に、本明細書に開示する複数の技術は、自然言語処理(NLP)及び意味検索を利用して、規制質問を処理し、ユーザーが規制質問に対する応答を準備し易くする特定の出力を提供する。より正確/有用な結果を与えるべく、これらの技術は深層学習モデル(すなわち、ニューラルネットワーク)を利用することができる。ニューラルネットワークはいくつかの実施形態において、キーワード検索等のより簡単なアプローチではなく、テキスト入力の文脈依存埋め込み及び/又は双方向「読み取り」(例えば質問内の複数の単語の関係の理解を深めるべく単語の順序を双方向で考慮する)を行うことができる。更に、規制文書(例えば医薬品規制文書)に特に関連する科学的言語/知識は、モデルを当該文脈でより有用にすべく、学習ステージで深層学習モデルに組み込むことができる。
【0006】
いくつかの実施形態において、本明細書に開示するシステム及び方法は、規制質問を自動的に分類し、これらの質問に対する応答を生成する処理を容易にする。例えば、分類ユニットは、テキストを(例えば質問の構文解析、無関係な単語の除外、トークン化等により)前処理し、次いでNLPモデルを用いて各質問を、回答するのに誰が最も適任であるかをユーザーが識別するのを支援するカテゴリに分類することができる。例示的なカテゴリとして「医療」、「安全性」、「規制」、及び/又は他の適当なラベルが含まれていてよい。このように、規制質問を適当な人物とより迅速且つ正確にペアリングすることができるため、規制当局に応答の完全な組を提供する処理が短縮され、規制当局の承認処理が全体として短縮される可能性がある。本開示はまた、規制文書を分類するタスクに特に適している特定の種類のNLPモデル又はアーキテクチャについても記述する。いくつかの実施形態において、少なくとも1つの双方向層を採用するニューラルネットワーク(例えば長短期記憶(LSTM)ニューラルネットワーク)が分類タスクを実行する。しかし、他の実施形態において、典型的にはテキスト理解又は分類の分野での利用を全く想定していないニューラルネットワークにより分類が実行される。特に、いくつかの実施形態において、深層フィードフォワードニューラルネットワークが各質問を適当なカテゴリに分類する。このアプローチは比較的簡単である(すなわち、双方向性の欠如)にもかかわらず、良好に機能するものと判定されており、少ない数の層(例えば1つのプーリング層と2つの密層だけ)で良好に機能する。深層フィードフォワードニューラルネットワークは簡単であるため、他の分類モデルよりも遥かに高速に訓練及び検証されて分類を実行することができる。例えば、深層フィードフォワードニューラルネットワークは、双方向ニューラルネットワークの約30倍(以上)の速度で(訓練中、検証中、及び実行時に)動作可能である。
【0007】
他の実施形態において、本明細書に開示するシステム及び方法は、現在検討中の質問に類似する1つ以上の過去の/遡及的質問を自動的に識別する。例えば、類似性ユニットは、NLPモデルを用いて質問を処理/解析し、遡及データベースから類似した質問を取り出して、各々の類似性の程度を示す信頼性スコアを判定することができる。ユーザーは次いで、検討中の質問をよりよく理解すべく最も類似した質問を調べること、及び/又は遡及的質問に対する回答/応答が現在のケースに有用であるか否かを確認することができる。類似度ユニットは、例えば分類ユニットに関して上で述べたように、規制質問のテキストに前処理を施してよい。
【0008】
他の実施形態において、本明細書に開示するシステム及び方法は、現在検討中の規制質問に対する回答を生成する。例えば、回答生成ユニットは、1つ以上のNLPモデルを用いて質問を処理/解析して1つ以上の回答候補を自動的に生成することができる。回答生成ユニットは、例えば上で述べたような類似性ユニットを適用することにより、類似した質問を最初に識別することにより関連する遡及的な回答を識別できる。ユーザーは次いで、生成された回答候補のいずれか(の全部又は一部)を提出された規制応答に組み込むか否かを検討することができる。回答生成ユニットは、例えば分類ユニットについて上で述べたように、規制質問のテキストに前処理を施すことができる。
【0009】
他の実施形態において、本明細書に開示するシステム及び方法は、規制質問を自動的に要約する。例えば、要約ユニットは1つ以上のNLPモデルを用いて、比較的長い規制質問(例えば恐らくは明示的な質問として構成されていない2又は3つの段落)を処理して、当該質問のより簡潔なバージョン(例えば明示的な質問として表現された1又は2行)を出力することができる。このように規制質問を要約することで、ユーザーは各質問をより迅速に理解及び/又は分類することができる。要約ユニットは、例えば分類ユニットに関して上で述べたように規制質問のテキストに前処理を施してよい。
【0010】
更に他の実施形態において、上述の実施形態の一部又は全部を、例えばパイプライン、並列、又はハイブリッドパイプライン/並列アーキテクチャで共用される。例えば、本明細書に開示するシステム及び方法は、分類ユニットに質問を入力し、次いで分類ユニットから出力された分類に固有の類似性及び回答生成ユニットに同じ質問を入力することができる。類似性ユニットは次いで類似した遡及的質問を識別し、回答生成ユニットが当該質問に対する回答/返答を提案することができる。他の実施形態及び/又はシナリオにおいて、各種のユニット(分類、類似性、応答生成、又は要約)が独立に用いられる。
【0011】
当業者には、本明細書で説明する図面が、図示を目的として含まれていて本開示を限定するものではないことが理解されよう。図面は必ずしも定縮尺ではなく、本開示の原理の図解に重点が置かれている。いくつかのケースにおいて、記述する実装方式を分かり易くすべく、記述する実装方式の様々な態様を、簡略化、誇張、又は拡大された仕方で示す場合があることを理解されたい。各図面において、様々な図面を通じて類似する参照符号が概ね機能的に類似する、及び/又は構造的に類似する要素を指している。
【図面の簡単な説明】
【0012】
図1】本明細書に記述する技術を実装できる例示的なシステムのブロック図である。
図2】本明細書に記述する技術の例示的なパイプライン実施形態を示す。
図3図1の規制文書応答促進アプリケーションにより実装できる例示的な処理を示す。
図4図1のシステムの分類ユニットにより実装できる例示的な深層フィードフォワードニューラルネットワークを示す。
図5A図4の深層フィードフォワードニューラルネットワークにより達成された性能のプロットを示す。
図5B図4の深層フィードフォワードニューラルネットワークにより達成された性能のプロットを示す。
図5C図4の深層フィードフォワードニューラルネットワークにより達成された性能のプロットを示す。
図6図1のシステムの分類ユニットにより実装できる例示的な双方向ニューラルネットワークを示す。
図7A図1のシステムにおける表示装置に表示できる例示的なユーザーインターフェースを示す。
図7B図1のシステムにおける表示装置に表示できる例示的なユーザーインターフェースを示す。
図7C図1のシステムにおける表示装置に表示できる例示的なユーザーインターフェースを示す。
図8】規制質問を分類する例示的な方法のフロー図である。
図9】規制質問に類似文書を識別する例示的な方法のフロー図である。
図10】規制質問に対する回答候補を生成する例示的な方法のフロー図である。
図11】規制質問を要約する例示的な方法のフロー図である。
【発明を実施するための形態】
【0013】
上で紹介され、以下でより詳細に議論する様々な概念は、多くの仕方のいずれにより実施されてよく、記述する概念はどの特定の実装方式にも限定されない。複数の実装方式の実施例を説明目的で提供する。
【0014】
図1は、本明細書に記述する技術を実装できる例示的なシステム100のブロック図である。システム100は、ネットワーク110を介してクライアント装置104に通信可能に結合されたコンピューティングシステム102を含んでいる。コンピューティングシステム102(例えばサーバ)は一般に、自然言語処理(NLP)を実行する1つ以上の機械学習モデルを訓練して、NLPモデルを用いて以下に更に詳細に説明する1つ以上の目的のために規制文書(例えば特定の規制質問)を処理すべく構成されている。クライアント装置104は一般に、コンピューティングシステム102から遠隔地にいるユーザーもコンピューティングシステム102の規制文書処理機能を利用できるようにして、以下に詳細に述べるように様々な対話機能をユーザーに提供すべく構成されている。ネットワーク110は、単一の通信ネットワークであっても、又は1つ以上の種類の複数の通信ネットワーク(例えば1つ以上の有線及び/又は無線ローカルエリアネットワーク(LAN)、及び/又はインターネット等の1つ以上の有線及び/又は無線ワイドエリアネットワーク(WAN))を含んでいてもよい。図1には1つのクライアント装置104だけを示しているが、他の実施形態ではネットワーク110を介してコンピューティングシステム102に通信可能に結合された任意の数の異なるクライアント装置が含まれていてよい。特に、クライアント装置104及び多数の他のクライアント装置は、コンピューティングシステム102の規制文書/質問処理機能を「クラウド」サービスとして利用してよい。代替的に、コンピューティングシステム102はローカルサーバ又はサーバの集合であってよく、又はクライアント装置104は自身が規制文書処理タスクを実行すべく、コンピューティングシステム102の要素及び機能を含んでいてよい。後者の場合、システム100からコンピューティングシステム102及びネットワーク110が除外されていてよい。更に他の実施形態において、NLPモデルの一つ、一部、又は全部が、コンピューティングシステム102又はクライアント装置104に提供される前に、図1に示していない別のシステム又は装置により訓練される。
【0015】
図1に見られるように、コンピューティングシステム102は、処理ハードウェア120、ネットワークインターフェース122、及びメモリ124を含んでいる。しかし、いくつかの実施形態において、コンピューティングシステム102は、互に同位置又は遠隔地にある2つ以上のコンピュータを含んでいる。これらの分散された実施形態において、処理ハードウェア120、ネットワークインターフェース122、及び/又はメモリ124に関連して本明細書で記述する動作は各々、複数の処理ユニット、ネットワークインターフェース、及び/又はメモリに跨って分割されていてよい。コンピューティングシステム102は、データベース126に(直接、又は1つ以上のネットワーク及び/或いは図1に示していないコンピューティング装置/システムを介して)通信可能に結合されている。データベース126は、1つ以上のローカルメモリ又は分散メモリに保存された1つ以上のデータベースであってよい。データベース126は包括的に、機械学習モデル(例えば後述するNLPモデル130)の訓練に用いられてよいデータだけでなく、過去の規制質問及びその回答(例えば適当な知識、経験、及び職責を有するユーザーにより手動で作成/生成された回答)のアーカイブを含んでいる。しかし、いくつかの実施形態において、1つ以上のNLPモデル130が、ウェブサイト、ソーシャルメディアサービス、及び/又は1つ以上の他のソースから収集/スクレイピングされたテキストデータ等、データベース126の外部のデータを用いて訓練される。
【0016】
処理ハードウェア120は、各々が本明細書に記述するコンピューティングシステム102の機能の一部又は全部を実行すべくメモリ124に保存されたソフトウェア命令を実行するプログラム可能マイクロプロセッサであってよい1つ以上のプロセッサを含んでいる。処理ハードウェア120は、例えば1つ以上の中央処理装置(CPU)及び/又は1つ以上のグラフィック処理装置(GPU)を含んでいてよい。いくつかの実施形態において、処理ハードウェア120内のプロセッサのいくつかは他の種類のプロセッサ(例えば特定用途向け集積回路(ASIC)、フィールドプログラム可能ゲートアレイ(FPGA)等)であってよい。
【0017】
ネットワークインターフェース122は、1つ以上の通信プロトコルを用いてネットワーク110を介してクライアント装置104と(及び他のクライアント装置と)通信すべく構成された任意の適当なハードウェア(例えばフロントエンド送受信ハードウェア)、ファームウェア、及び/又はソフトウェアを含んでいてよい。例えば、ネットワークインターフェース122は、インターネット又はイントラネット等を介してコンピューティングシステム102がクライアント装置104及び他のクライアント装置と通信可能にするイーサネットインターフェースであっても、又は含んでいてもよい。
【0018】
メモリ124は、1つ以上の揮発性メモリ及び/又は不揮発性メモリを含んでいてよい。読み出し専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、フラッシュメモリ、ソリッドステートドライブ(SSD)、ハードディスクドライブ(HDD)等、1種類以上の任意の適当なメモリが含まれていてよい。メモリ124は包括的に、1つ以上のソフトウェアアプリケーション、それらのアプリケーションが受信/使用したデータ、及びそれらのアプリケーションが出力/生成したデータを保存することができる。これらのアプリケーションには、処理ハードウェア120により実行されたならば、規制文書/質問を処理し、これらの文書/質問に対する応答の生成を容易にする仕方で情報を出力/表示する規制文書応答促進(RDRF)アプリケーション128が含まれる。例えば、以下に詳述するように、RDRFアプリケーション128は、検討中の規制質問を分類し、検討中の質問に類似する他の文書(例えば他の規制質問)を識別し、検討中の質問に対する回答を生成し、及び/又は検討中の質問を要約することができる。以下でRDRFアプリケーション128の様々なソフトウェア要素を用語「ユニット」を用いて説明するが、この用語は特定の種類のソフトウェア機能を指して用いられるものと理解されたい。図1に示す様々なソフトウェアユニットは代替的に2つ以上の異なるソフトウェアアプリケーションに跨って分散されてもいても、及び/又は任意の単一のソフトウェアユニットの機能が2つ以上のソフトウェアアプリケーションに跨って分割されていてもよい。更に、図示するソフトウェアユニットのうち2つ以上が単一のソフトウェアモジュールにより実装されていても、及び/又は図示するソフトウェアユニットのうち2つ以上が特定のモジュール/ライブラリ/リソース等を共有していてもよい。メモリ124はまた、RDRFアプリケーション128により利用される(恐らくはその一部である)1つ以上のNLP モデル130も保存している。
【0019】
一般に、RDRFアプリケーション128の前処理ユニット140が、異なる質問へのデータの構文解析、後の処理に無関係な単語の除外、及び/又は他の適当な操作等、規制質問を含むテキストデータ(例えばデータファイル)に対して1つ以上の演算を実行する。RDRFアプリケーション128はまた、分類ユニット142A、類似性ユニット142B、回答生成ユニット142C、及び要約ユニット142Dを(図1に示す実施形態に)含む、RDRFアプリケーション128の主要な処理タスクを実行する多数のソフトウェアユニットも含んでいる。他の実施形態において、RDRFアプリケーション128は、ユニット142A~Dのうち1つ、2つ、又は3つだけを含んでいるか、及び/又は図1に示していない他の処理ユニットを含んでいる。いくつかの実施形態において、前処理ユニット140の機能の一部又は全部がユニット142A~Dの特定の1つに固有である。例えば、類似性ユニット142Bは、要約ユニット142Dと同じ前処理ステップを必要としない場合がある。
【0020】
分類ユニット142Aは一般に、テキストデータにより表される各規制質問毎に適当なカテゴリを判定すべく1つ以上のNLPモデル130をテキストデータに(例えば前処理されたテキストデータに)適用する。RDRFアプリケーション128は、判定されたカテゴリを示すデータを(例えばクライアント装置104又は図1に示されていない別のコンピューティング装置或いはシステムに)保存、送信、及び/又は(例えば、ローカル及び/又はクライアント装置104に)表示する。例えば、RDRFアプリケーション128は、判定されたカテゴリをローカルに(例えば、メモリ124に)保存し、次いで保存されたカテゴリをクライアント装置(例えばクライアント装置104)に送信して、クライアント装置にこれらのカテゴリを表示させる(又はクライアント装置に当該質問を、判定されたカテゴリを別途反映する仕方で表示させる)、又は保存されたカテゴリをプリンタ装置に送信して当該プリンタ装置にカテゴリの表示を印刷させてよい。別の例として、RDRFアプリケーション128はこれらのカテゴリをコンピューティングシステム102に直接表示してもよい。
【0021】
類似性ユニット142Bは一般に、テキストデータにより表される特定の規制質問に最も類似する1つ以上の文書(例えば他の、過去/遡及的質問)を識別すべく1つ以上のNLPモデル130をテキストデータに(又は前処理されたテキストデータに)適用する。類似性ユニット142Bは、例えばデータベース126に含まれる文書のうち類似文書を識別することができる。RDRFアプリケーション128は、識別された類似文書を示すデータを保存、(例えばクライアント装置104又は図1に示していない別のコンピューティング装置又はシステムに)送信、及び/又は(例えばローカル及び/又はクライアント装置104で)表示する。例えば、RDRFアプリケーション128は、識別された文書を示すデータをローカルに(例えばメモリ124に)保存し、次いで保存されたデータをクライアント装置(例えばクライアント装置104)に送信して、クライアント装置に、これらの文書に関する情報(例えばタイトル、抜粋等)を表示させたり、保存されたデータをプリンタ装置に送信して当該プリンタ装置にそのような情報を印刷させたりすることができる。別の例として、RDRFアプリケーション128はデータ/情報をコンピューティングシステム102に直接表示してもよい。
【0022】
回答生成ユニット142Cは一般に、テキストデータにより表される特定の規制質問に対する1つ以上の回答候補を生成すべく1つ以上のNLPモデル130をテキストデータに(又は前処理されたテキストデータに)適用する。いくつかの実施形態において、回答生成ユニット142Cは、類似性ユニット142Bを利用して(又は類似性ユニット142Bに類似する機能を実行して)、データベース126内で特定の規制質問に類似した文書を発見し、次いで類似文書のテキストコンテンツに少なくとも部分的に基づいて回答候補を生成する。これらの実施形態において、回答生成ユニット142Cは、類似文書の一部(例えば類似性ユニット142Bにより識別された過去の規制質問に対する実際の回答の一部)を識別及び抽出することにより回答候補を生成しても、又は類似文書の逐語的テキストに依存することなく(又は完全に依存することなく)応答を合成してもよい。RDRFアプリケーション128は、生成された回答を示すデータ(例えば回答自体)を保存、(例えばクライアント装置104又は図1に示していない別のコンピューティング装置又はシステムに)送信、及び/又は(例えばローカル及び/又はクライアント装置104に)表示する。例えば、RDRFアプリケーション128は、生成された回答を(例えばメモリ124に)ローカルに保存し、次いで保存された回答をクライアント装置(例えばクライアント装置104)に送信してクライアント装置に回答を表示させるか、又は保存された回答をプリンタ装置に送信してプリンタ装置に回答を印刷させることができる。別の例として、RDRFアプリケーション128はコンピューティングシステム102に回答を直接表示してもよい。
【0023】
要約ユニット142Dは一般に、テキストデータにより表される特定の規制質問のより短い要約を生成すべく1つ以上のNLPモデル130をテキストデータに(又は前処理されたテキストデータに)適用する。いくつかの実施形態において、要約ユニット142Dは、類似性ユニット142Bを利用して(又は類似性ユニット142Bに類似する機能を実行して)データベース126内で特定の規制質問に類似文書を発見し、次いで類似文書のテキストコンテンツに少なくとも部分的に基づいて要約を生成する。RDRFアプリケーション128は、生成された要約を示すデータ(例えば要約自体)を保存、(例えばクライアント装置104又は図1に示していない別のコンピューティング装置或いはシステムに)送信、及び/又は(例えばローカル及び/又はクライアント装置104に)表示する。例えば、RDRFアプリケーション128は、生成された要約を(例えばメモリ124に)ローカルに保存し、次いで保存された要約をクライアント装置(例えばクライアント装置104)に送信してクライアント装置に要約を表示させるか又は保存された要約をプリンタ装置に送信してプリンタ装置に要約を印刷させることができる。別の例として、RDRFアプリケーション128はコンピューティングシステム102に要約を直接表示してもよい。
【0024】
各々のユニット142A~Dの動作について以下に更に詳細に記述する。いくつかの実施形態において、ユニット142A~Dの一つ、一部、又は全部の各々が、NLPモデル130の2つ以上のNLPモデルを含んでいてよいことが分かる。一実施形態において、例えば、NLPモデル130は、特定の質問に対応するテキストデータが、単一の各カテゴリに属するものとして分類すべきか又は分類すべきでないかを(例えばNLPモデル130の1つが「安全」として分類するか否かを判定し、NLPモデル130の別の1つが「ラベリング」として分類するか否かを判定する等)判定すべく各々が特化された複数のNLP分類モデルを含み、この場合分類ユニット142Aは、これらクラス固有のNLPモデルの各々を利用して1つ以上のクラス/カテゴリに従い各質問を分類することができる。別の例として、回答生成ユニット142Cは、データベース126内で特定の規制質問に類似文書を識別すべくNLPモデル130のうち第1のモデル、及び識別された文書のテキストコンテンツに基づいて規制質問に対する1つ以上の回答候補を生成すべくNLPモデル130のうち第2のモデルを含んでいてよい。
【0025】
RDRFアプリケーション128はまた、クライアント装置104を具体的に参照して本明細書に記述するように、クライアント装置のユーザーインターフェース及びウェブブラウザのアプリケーションを介してユーザーにより入力されたデータを収集し、及び/又はクライアント装置のユーザーインターフェース及びウェブブラウザのアプリケーションに提示されたコントロールのユーザーによる起動を検出することができる。クライアント装置104は、処理ハードウェア160、ネットワークインターフェース162、表示装置164、ユーザー入力装置166、及びメモリ168を含んでいる。処理ハードウェア160は、1つ以上のプロセッサを含み、それらの各々が本明細書に記述するクライアント装置104の機能の一部又は全部を実行すべくメモリ168に保存されたソフトウェア命令を実行するプログラム可能マイクロプロセッサであってよい。処理ハードウェア160は、例えば1つ以上のCPU及び/又は1つ以上のGPUを含んでいてよい。いくつかの実施形態において、処理ハードウェア160内のプロセッサのいくつかは他の種類のプロセッサ(例えばASIC、FPGA等)であってよい。
【0026】
ネットワークインターフェース162は、1つ以上の通信プロトコルを用いてネットワーク110を介してコンピューティングシステム102と通信すべく構成された任意の適当なハードウェア(例えばフロントエンド送受信ハードウェア)、ファームウェア、及び/又はソフトウェアを含んでいてよい。例えば、ネットワークインターフェース162は、クライアント装置104がインターネット又はイントラネット等を介してコンピューティングシステム102と通信可能にするイーサネットインターフェースであってよく、又はイーサネットインターフェースを含んでいてよい。
【0027】
メモリ168は、1つ以上の揮発性メモリ及び/又は不揮発性メモリを含んでいてよい。1種類以上の任意の適当なメモリ、例えばROM、RAM、フラッシュメモリ、SSD、HDD等が含まれていてよい。メモリ168は包括的に、1つ以上のソフトウェアアプリケーション、それらのアプリケーションが受信/使用したデータ、及びそれらのアプリケーションが出力/生成したデータを保存することができる。これらのアプリケーションには、処理ハードウェア160により実行されたならば、クライアント装置104のユーザーが、様々なウェブサイト及びRDRFアプリケーション128を実行する際にコンピューティングシステム102が提供するサービスを含むウェブサービスにアクセス可能にするウェブブラウザアプリケーション170が含まれている。図1に示していない他の実施形態において(例えばウェブサービスを利用しない特定の実施形態において)、メモリ168は、RDRFアプリケーション128及びNLPモデル130を保存してローカルに実行する。
【0028】
クライアント装置104の表示装置164は、ユーザーに情報を提示する任意の適当なディスプレイ技術(例えばLED、OLED、LCD等)を実装することができ、クライアント装置104のユーザー入力装置166は、キーボード、マイクロフォン、マウス、及び/又は他の任意の適当な入力装置を含んでいてよい。いくつかの実施形態において、表示装置164の少なくとも一部とユーザー入力装置166の少なくとも一部が単一の装置(例えばタッチスクリーンディスプレイ)内に一体化されている。一般に、表示装置164及びユーザー入力装置166は一体的に、ウェブサービスを介して(例えばウェブブラウザアプリケーション170、ネットワークインターフェース162、ネットワーク110、及びネットワークインターフェース122を介して)、又は(RDRFアプリケーション128及びNLPモデル130がクライアント装置104上に存在する場合は)ローカルにRDRFアプリケーション128との通信を可能するユーザーインターフェースとユーザーが対話できるようにしてよい。例えば、ユーザーは、図7A~Cのうち1つ以上のいずれかを参照して後述する仕方でユーザーインターフェースと対話することができる。
【0029】
図2に、RDRFアプリケーション128のユニット142A~Dの機能がパイプライン200として配置されている、例示的な実施形態を示す。パイプライン200において、ステージ202で、特定の規制質問が検討のため選択又は取得される。規制質問は、ユーザーインターフェースに(例えば表示装置164及びユーザー入力装置166を介して)ユーザーが入力した質問であっても、又は前処理ユニット140が例えばより大きい文書から自動的に抽出した質問であってもよい。パイプライン200のステージ204で要約ユニット142Dが規制質問を要約する。RDRFアプリケーション128は要約を(例えばネットワーク110及び表示装置164を介して)ユーザーに対して表示させることができる。また、図示する実施形態において、規制質問の要約されたバージョンがステージ206で分類ユニット142Aにより分類される。しかし、他の実施形態において、分類ユニット142Aは要約を操作するのではなく、(恐らくは前処理ユニット140による前処理の後で)規制質問に対して直接操作する。いずれの場合でも、RDRFアプリケーション128は、カテゴリ/分類を(例えばネットワーク110及び表示装置164を介して)、例えばカテゴリ/分類に対応するテキストラベルを生成/表示することにより、又は特定のカテゴリ用に予約されているユーザーインターフェースの一部に規制質問を表示させることによりユーザーに対して表示させることができる。
【0030】
ステージ208において、類似性ユニット142Bはデータベース126から規制質問に類似する1つ以上の文書を識別する。図示する実施形態において、ステージ206からの分類をステージ208で使用する。例えば、RDRFアプリケーション128は、分類に固有のNLPモデルをステージ208で選択及び使用することができる。しかし、他の実施形態において、類似性ユニット142Bはステージ206からの分類を使用せず、その代わりに(恐らくは前処理ユニット140による前処理の後で)規制質問自体だけを操作する。いずれの場合も、RDRFアプリケーション128は、例えば文書の名称及び/又は他の識別子(例えばファイル名)、及び/又は文書からのテキストの一部(例えば類似性ユニット142Bに文書を識別させた特定のテキストの少なくとも一部)を生成/表示することにより、類似文書に関連する情報を(例えばネットワーク110及び表示装置164を介して)ユーザーに対して表示させることができる。
【0031】
ステージ210において、回答生成ユニット142Dは、規制質問に対する1つ以上の回答候補を生成する。図示する実施形態において、ステージ208からの類似文書をステージ210で用いて回答を生成する。例えば、類似性ユニット142Bは、ステージ208で第1のNLPモデルを用いてデータベース126内の類似文書を識別し、その後ステージ210において回答生成ユニット142Dが識別された文書のテキストコンテンツを解析して1つ以上の回答候補を抽出又は合成することができる。RDRFアプリケーション128は次いで、回答候補を、恐らくは回答候補が導出された文書の識別子(例えばファイル名及び/又は他の文書識別子)等の他の情報、及び/又は回答候補が導出された文書のテキストの一部(例えば回答生成ユニット142Dが回答の生成に用いた特定のテキストの少なくとも一部)と共に(例えばネットワーク110及び表示装置164を介して)ユーザーに対して表示させることができる。
【0032】
図3に、いくつかの実施形態による、システム100の実行時動作を反映する処理300を示す。しかし、処理300により反映される実行時動作の前に、コンピューティングシステム102(又は図1に示していない別のコンピューティングシステム)が、データベース126に保存されたデータ、及び/又はシステム100の外部の他のデータを用いて、NLPモデル130を訓練及び検証する。いくつかの訓練データは、(例えば以下で更に議論するように単語の文脈化された埋め込みを学習するモデルを訓練するための)教師なし学習用であってよい一方、他の訓練データは(例えば分類ユニット142A用の分類モデルを訓練するための)教師あり学習用に手動で用意されたラベルを含んでいてよい。
【0033】
処理300のステージ302で、RDRFアプリケーション128は規制質問(例えばHAQ、RTQ等の1つ以上の規制文書に関連する質問)を取得する。例えば、RDRFアプリケーション128は、遠隔又はローカルソースからPDF又は他の電子ファイル形式の規制文書を取得、1つ以上のより大きい規制文書から抽出されたテキストデータを取得、及び手動で入力された質問を受信すること等ができる。
【0034】
ステージ304において、前処理ユニット140はテキストから構成要素である質問を構文解析する。前処理ユニット140は、テキストを含むデータファイル内の既知の区切り文字又は欄を用いて、テキストを含むデータファイルの他のフォーマットに基づいて(例えば、PDFファイル内のテキストの相対的な間隔/位置調整に基づいて)、又は他の任意の適当な技術を用いてテキストを質問に構文解析することができる。
【0035】
ステージ306において、前処理ユニット140は、RDRFアプリケーション128の1つ以上のユニット及び1つ以上のNLPモデル130が実行するタスクに無関係な(又は無関係な筈の)単語及び/又は文字を除外することにより、質問のテキストをクリーニングする。これは、例えば一部又は全部の接続詞(例えば「のために」、「及び」、「も~でない」、「しかし」、「又は」、「何故ならば」、「~したとき」、「~する間」等)、一部又は全部の前置詞(例えば「~の中」、「~の下」、「~に向けて」、「~の前に」等)、一部又は全部の特殊文字(例えばセミコロン、引用符等)等を除外することを含んでいてよい。いくつかの実施形態において、前処理ユニット140はまた、他の文脈では実質的な意味を有しているが、特定のタスクの実行には無関係、又は阻害さえする単語も除外する。例えば、ステージ306が分類ユニット142Aによる分類の準備に使用される場合、前処理ユニット140は数値を表す単語、或いは「大きい」又は「3%」等の程度だけを表す単語を除外してよい。
【0036】
ステージ308において、前処理ユニット140は、質問のテキストをトークン化する(例えば、各質問を個々の単語又は他の言語単位に構文解析する)。ステージ310において、前処理ユニット140は「クリーニングされた」質問の各トークン(例えば、各単語)を数値に変換することにより、質問内の単語列(ステージ306で除外された単語を除く)を数列に変換する。例えば、比較的短い質問「10cPより大きい粘度を示す詳細な性能結果を提供する」は、「提供する」、「詳細な」、「性能」、「結果」、「示す」、「粘度」、「~よりも大きい」、「cP」という単語/トークンにクリーニング及び構文解析されてよく、これらの単語/トークンは数列125 453 067 012 363 284 138 421に変換されてよい。全ての質問を長さ(すなわち、1つ以上のNLPモデル130に適当な所定の固定長)が等しい数列に変換すべく、ステージ312において前処理ユニット140は必要に応じて各数列をパディングする。固定長は、例えば(ステージ306で実行された種類のクリーニングの後で)規制文書の最も長い質問に存在すると予想されるトークンの数よりも僅かに多くてよい。
【0037】
ステージ314において、1つ以上のユニット142A~Dが、各々のタスクを実行すべく1つ以上のNLPモデル130を(恐らくはパディングされた)数列に適用する。例えば、分類ユニット142は(恐らくはパディングされた)数列にNLPモデル130のうち1つを、当該数列に対応する規制質問を分類すべく適用してよい。ステージ316において、RDRFアプリケーション128は、NLPモデル130により生成された出力を示すデータ(例えば1つ以上の分類を示すデータ)を保存、送信、及び/又は表示する。例えば、分類ユニット142Aがステージ314で動作したならば、コンピューティングシステム102は、クライアント装置104にデータを送信して、クライアント装置104の表示装置164に、各質問の横に適当なカテゴリを表示させるか、又は表示装置164に、ユーザーが指定したカテゴリ(例えば、ウェブブラウザアプリケーション170又は別のアプリケーション等を介してユーザーインターフェースにアクセスする際に、ユーザー入力装置166を介してユーザーが示すカテゴリ)に関連付けられた質問だけを表示させることができる。別の例として、コンピューティングシステム102は、(例えばコンピューティングシステム102、クライアント装置104、及び/又は別のコンピューティング装置或いはシステムが)後で使用するために、メモリ(例えばフラッシュ装置、メモリ124の一部等)にデータを保存させる、又はプリンタ装置にデータを印刷させる等を行ってよい。
【0038】
図3に示す様々なステージの順序は図示するものとは異なる場合があり、及び/又は実施形態及びステージ314で動作しているユニット142A~Dに依存してより少ない及び/又は異なる前処理ステージが含まれていてよい。いくつかの実施形態において、例えば、前処理ユニット140は、全ての質問のテキストをクリーニングして無関係な単語を除外した後(ステージ306)でのみ質問を構文解析する(ステージ304)。別の例として、一連のステージ306、308、310、312、314、及び316は質問毎に(例えば、各質問がステージ304で構文解析されるに従い、又は全ての質問が構文解析された後で)繰り返されてよく、又はマルチスレッド処理によりステージ306、308、310、312、314、及び/又は316が2つ以上の質問に対して同時に動作可能にされてよい。
【0039】
ここで特定のNLPモデル130の様々な実施形態について議論する。最初に分類に言及するに、分類ユニット142Aは、ニューラルネットワークである(NLPモデル130の)NLPモデルを用いて、単語又は他のトークンに基づく分類タスクを実行する(又は他の実施形態では上で説明したように、各々の分類タスクを実行する一組のニューラルネットワーク)。図4に示す実施形態において、分類ユニット142Aが用いるNLPモデルは、深層フィードフォワード(DFF)ニューラルネットワーク400であるか、又は含んでいる。直観に反して、DFFニューラルネットワーク400は、分類等のテキスト理解タスクに余り適していないことを示す双方向性の欠如にもかかわらず良好に機能することができる。DFFニューラルネットワーク400の性能について図5A~Cを参照して以下に詳述する。
【0040】
DFFニューラルネットワーク400において、埋め込み層がステージ310で生成された数列から埋め込み行列402を生成し、埋め込み行列402の一方の次元は数列(例えば5,000、又は10,000等)の(パディング後の)長さであり、埋め込み行列402の他方の次元はDFFニューラルネットワーク400の大域最大プーリング層404(例えば128、256、又は2の別の適当な倍数)の入力次元である。他の実施形態において、埋め込み行列402は3次元である。DFFニューラルネットワーク400は、大域最大プーリング層404の後に第1の密層406、及び第1の密層406の後に第2の密層408を含んでいる。図示する実施形態において、第2の密層408の各ノードは異なる分類/ラベル/カテゴリ410に対応する。本例では、利用可能なカテゴリの組は「CMC」(例えば原薬及び製剤原料の製造及び制御に関する)、「臨床」(例えば患者、患者向けの製剤、又は患者向けの装置に関する)、「規制」(例えば規制又は行政空間に関する)、「ラベリング」(例えば製品のラベリング、言語、及び法的要件の遵守に関する)、及び「安全性」(例えば患者の安全性に関する)が含まれる。DFFニューラルネットワーク400は、図4に示していない1つ以上の追加的なステージ及び/又は層を含んでいてよい。例えば、DFFニューラルネットワーク400は大域最大プーリング層404の直後にドロップアウトステージ、第1の密層406の直後に活性化層(例えばtanh又は他の適当な活性化関数を有する)、及び活性化層の直後に別のドロップアウトステージを含んでいてよい。代替的な複数の実施形態において、DFFニューラルネットワーク400は図4に示すものよりも多くの又は少ない密及び/又はプーリング層を含んでいてよい。しかし、図4の比較的低複雑度のアーキテクチャ(1つのプーリング層だけ、及び2つの密層だけを有する)は、プーリング層及び/又は密層がより多い又は少ない他のDFFニューラルネットワークを上回る結果をもたらすことができる。
【0041】
DFFニューラルネットワーク400は第2の密層408の各ノードの値を計算し、いくつかの実施形態において、分類ユニット142Aは、第2の密層408のどのノードが最も高い値を有するかに基づいて分類を判定する。しかし、他の実施形態では分類ユニット142Aは適当な分類に関して厳密な判定を行わず、代わりに(例えばユーザーが検査/検討するために第2の密層408が計算した値の一部又は全部を提供することにより)緩い判定を示すデータを出力する。
【0042】
DFFニューラルネットワーク400を(実行時動作の前に)訓練するには、データベース126(及び/又は他の任意の箇所)から手動でラベル付けされた規制質問を用いてよく、当該質問は入力/特徴として機能し、手動ラベルは訓練ラベルとして機能する。DFFニューラルネットワーク400は簡単であるため、他の分類モデル(例えば双方向ニューラルネットワーク)よりも遥かに速く(例えば1桁以上)訓練及び検証並びに分類を実行することができる。
【0043】
図4に示すDFFニューラルネットワーク400(すなわち、丁度1つの大域最大プーリング層及び丁度2つの密層を有する)の性能を図5A~Cに示す図5A~Cは、訓練及び検証の両方を示す。図5A~Cは、訓練結果及び検証結果の両方を示しており、検証結果は予想実行時性能をより良く表している。図5A図5B、及び図5Cのプロット500、520、及び540に各々見られるように、DFFニューラルネットワーク400は、約80%の精度、約0.62の損失、及び約76%の想起を与えた。このようなモデルの精度、損失、及び想起尺度は、不正確に分類された質問は若干の追加的な遅延を伴うもの、最終的に(例えば、最初に相応しくない人物に提示された後で、又は最初に「未知」と分類された後で)相応しい人物にルーティングされるため、理想的な尺度に極めて近くなくてもよいことが分かる。尺度が合理的に良好である限り、分類は回答者の時間を極めて大幅に節約することができる。
【0044】
図6に、分類ユニット142Aが用いるかNLPモデルが双方向ニューラルネットワーク600であるか又は含んでいる代替的な実施形態を示す。図6の例示的な双方向ニューラルネットワーク600(例えばLSTMニューラルネットワーク)は、入力(例えば図3のステージ312で出力されたパディングされた数列)を受理する入力層602、(例えばパディングされた数列から埋め込み行列402と同様の埋め込み行列を生成するための)埋め込み層604、ニューラルネットワーク600内で層間フィードバックを実行する双方向層606、1次元畳み込み(Conv1D)層608、1次元平均プーリング層610、1次元最大プーリング層612、連接層614、及び密層616を含んでいる。他の実施形態において、双方向ニューラルネットワーク600は、より多くの、又はより少ない層及び/又はステージ(例えばより多くの密層、より多くのプーリング層等)を含んでいてよい。双方向ニューラルネットワーク600はDFFニューラルネットワーク400よりも訓練、検証、及び実行により多くの時間を要する場合があるが、双方向ニューラルネットワーク600は、実質的に、テキストを順方向及び逆方向の両方で読める能力により、いくつかのケースにおいて(例えば、質問の多くが比較的長い場合)より良い結果を提供する場合がある。
【0045】
類似性ユニット142Bは、双方向ニューラルネットワークであるか又は含んでいる(NLPモデル130の)NLPモデルを用いてよい。更に、類似性ユニット142Bが用いるNLPモデルは、文脈化された埋め込みモデル(すなわち、単語の埋め込みを当該単語が使用された文脈に基づいて学習すべく訓練されたモデル)であってよい。例えば、類似性ユニット142Bは、BERT(Bidirectional Encoder Representations from Transformers(トランスフォーマからの双方向エンコーダ表現))モデルを用いて類似文書を識別してよい。
【0046】
回答生成ユニット142Cは、(直接、又は類似性ユニット142Bを呼び出す等により)同一NLPモデルを用いて規制質問に類似した文書を識別でき、また(同じくNLPモデル130の)追加的なNLPモデルを用いて、識別された文書に基づいて規制質問に対する1つ以上の回答候補を生成することができる。この追加的なNLPモデルは、例えばGPT-2等のトランスフォーマに基づく言語モデルによりあってよく、SQuAD(Stanford Question Answering Dataset(スタンフォード質問回答データセット))等の大規模なデータセットを用いて訓練されてよい。いくつかの実施形態において、NLPモデルは、規制質問/文書に現れる可能性が高い言語をより反映したテキストコンテンツを有するデータソースを用いて(コンピューティングシステム102又は別のコンピューティング装置/システムにより)更に訓練/精緻化される。規制質問が医薬品(例えば使用法、リスク等)に関連する場合、例えば、NLPモデルは遡及的HAQ及びRTQ、医薬品特許等、医薬品に関連する用語を用いる可能性がより高い文書を用いて更に訓練することができる。このように、回答生成ユニット142Cが用いる追加的なNLPモデルは、規制質問の専門用語の理解により相応しいものとなる。
【0047】
要約ユニット142Dは、(NLPモデル130の)更に別のNLPモデルを用いて規制質問の要約を生成することができる。要約ユニット142Dが用いるNLPモデルは双方向ニューラルネットワークであっても、又は含んでいてよい。更に、要約ユニット142Dが用いるNLPモデルは文脈化された埋め込みモデルによりあってよい。例えば、要約ユニット142DはBERTモデルを用いて要約を生成することができる。
【0048】
RDRFアプリケーション128は、エラスティック検索エンジンを用いてデータベース126(又は少なくとも、遡及的な規制文書及び/又は他の文書を含むデータベース126の一部)を検索することができる。エラスティック検索エンジンはデータが疎であるため、且つエラスティック検索が埋め込み(上で述べたように様々なNLPモデルにより用いられてよい)をサポートするため、規制文書で特に正確且つ信頼できることが分かっている。
【0049】
図7A~Cに、図1のシステム100が提供できる例示的なユーザーインターフェースを示す。より具体的には、クライアント装置104のウェブブラウザアプリケーション170は、コンピューティングシステム102で動作しているRDRFアプリケーション128によりクライアント装置104に提供されたデータを用いて、図7A~Cのユーザーインターフェースのいずれか又は全部を表示装置164を介してユーザーに提示できる。代替的に、図7A~Cのユーザーインターフェースは全てクライアント装置104で(例えば、RDRFアプリケーション128がクライアント装置に常駐し、且つシステム100はコンピューティングシステム102を含まない実施形態において)生成されてよい。
【0050】
最初に図7Aを参照するに、例示的なユーザーインターフェース700は、規制文書からの様々な質問のテキストを、関連付けられた情報(すなわち、本例では「臨床」又は「CMC」等、質問の分類)と共に表示できる領域702を含んでいる。ユーザーインターフェース700はまた、ユーザーに様々なフィルタリングオプションを提供する一連のコントロール704を含んでいる。コントロール704の(既定又はユーザー設定された)設定に基づいて、領域702は、指定されたフィルタ基準を満たす(1つ以上の関連する規制文書からの)質問だけを表示する。「予測ラベル」コントロールは、分類ユニット142Aによりなされた質問の完全な組の分類のいずれかに従いユーザーがフィルタリングできるようにする。テキスト検索コントロールは、質問のテキスト内に含まれる文字、用語等に基づいてユーザーが質問を検索できるようにする。
【0051】
以下の表1に、(例えばユーザーが質問の完全なリストをスクロールダウンする場合)領域702に含まれていてよい様々な分類を有する例示的な質問のより広範なリストを示す。しかし、表1のリストが大多数の実世界シナリオと比較して依然として極めて短いことが分かる。
【0052】
【表1】
【0053】
例示的なユーザーインターフェース700はまた、質問の完全な組内で最も頻出する単語のカウント値(又は、いくつかの実施形態ではフィルタリングされた質問の組内で最も頻出する単語のカウント値)を示す単語分布棒グラフ706、及び質問の完全な組について最も頻出する分類/ラベル/カテゴリのカウント値を示す予測ラベル分布棒グラフ710を含んでいる。例示的なユーザーインターフェース700はまた、ユーザーが異なる単語の頻度及び数を視覚的に近似するのを支援する単語クラウド712を含んでいる。他の実施形態において、ユーザーインターフェース700は、より多くの情報(例えば、全ての質問を、判定された分類と共に)、より少ない情報(例えば、単語クラウド712無しで)、及び/又は異なる情報を表示することができ、及び/又は異なる形式(例えば、棒グラフ706、710ではなく単純なカウント値)で情報を表示できることが分かる。
【0054】
図7Bに、別の例示的なユーザーインターフェース720を示す。ユーザーインターフェース720において、入力フィールド722はユーザーが注目する規制質問を入力(例えばタイプ、又はカットアンドペースト)できるようにする。コントロールユニット724は、入力フィールド722に入力された質問に適用するモデル又は機能の種類をユーザーが選択できるようにする。本例において、ユーザーが「DC」を選択したならばRDRFアプリケーション128は入力された質問を分類ユニット142Aにより処理し、ユーザーが「SS」を選択したならばRDRFアプリケーション128は入力された質問を類似性ユニット142Bにより処理し、ユーザーが「QA」を選択したならばRDRFアプリケーション128は入力された質問を回答生成ユニット142Cにより処理し(これはまた、上で述べたように類似性ユニット142Bにより質問を処理することも含む)、及びユーザーが「SUM」を選択したならばRDRFアプリケーション128は入力された質問を要約ユニット142Dにより処理する。図7Bにユーザーが「QA」を選択した場合のシナリオを示す。
【0055】
別のコントロール726により、ユーザーは(例えば図7Bに示す5つの離散的な複雑度レベルの中から選択することにより)モデルの複雑度のレベルを設定できる。複雑度が高いほど、例えばより複雑なNLPモデル(例えばより多くのニューラルネットワーク層)に対応するか、又は単一のNLPモデルがより長い時間適用されることを意味する場合がある。一般に、複雑度が高いほど精度は高くなるが、処理時間も長くなる。
【0056】
ユーザーインターフェース720の領域730は、RDRFアプリケーション128により識別された類似文書が示している。いくつかの実施形態において、類似の質問は類似性ユニット142Bにより識別された質問であり、及び/又はユーザーがコントロール724を用いて「SS」を選択した場合のみ表示される。ユーザーインターフェース720の領域732は、回答生成ユニット142Cにより生成された回答候補を、関連付けられた情報と共に示す。本例において、領域732は、各回答候補について、回答生成ユニット142Cが用いているGPT-2又は他のNLPモデルにより生成された関連付けられた信頼度スコア、図示された回答の導出に回答生成ユニット142Cが用いたソース/文書の識別子、及び図示された回答の導出に回答生成ユニット142Cが用いた文書の特定のテキストの少なくとも一部を示す「文脈」も示す。
【0057】
コントロール734は、表示された回答が有用/役に立つか、又は有用でない/役に立たないかを(図示の例において、各々「親指を立てる」アイコン又は「親指を下げる」アイコンを選択することにより)ユーザーが示すことを可能にする。RDRFアプリケーション128、又はコンピューティングシステム120或いは別のシステム/装置に保存された他のソフトウェアは、コントロール734を介したユーザーの選択又は入力を表すフィードバックデータを用いて、例えば強化学習により回答生成ユニット142Cが用いる1つ以上のNLPモデル130を更に訓練/精緻化することができる。例えば、RDRFアプリケーション128はフィードバックデータを用いて、類似文書の識別に用いられるNLPモデル(例えば、BERTモデル)を更に訓練すること、及び/又は類似文書に基づいて回答を生成すべく用いられる別のNLPモデル(例えば、GPT-2モデル)を更に訓練することができる。
【0058】
図7Cに更に別の例示的なユーザーインターフェース740を示す。ユーザーインターフェース740は、図7Bの入力フィールド722及びコントロール724と同一又は類似していてよい、入力フィールド742及びコントロール744を含んでいる。ユーザーインターフェース740は、例えば図7Bに示すユーザーインターフェース720と同一であってよいが、ユーザーが「QA」ではなく「SS」を選択した異なるシナリオで用いられる。
【0059】
ユーザーインターフェース740の領域746は、分類ユニット142Aにより判定されたカテゴリ/分類候補の数を各々の信頼度スコアと共に示す。信頼度スコアは、例えば図4に示すDFFニューラルネットワーク400の第2の密層408の異なるノードで出力される数値であってよい。ユーザーインターフェース740の領域752は、類似性ユニット142Bにより(データベース126内で)識別された類似文書に関する情報を示す。本例において、領域752はまた、識別された各文書について、文書の識別子/名称、文書の識別子(「ID」)、及び類似性ユニット142Bが文書を「類似」文書として選択/識別する際の基礎として用いた文書の特定のテキストの少なくとも一部を示す「文脈」を示す。
【0060】
ユーザーインターフェース740はまた、ユーザーインターフェース720のコントロール734に類似していてよい、ユーザーフィードバックを提供するコントロール754を含んでいる。RDRFアプリケーション128、又はコンピューティングシステム120或いは別のシステム/装置に保存された他のソフトウェアは、コントロール754を介してユーザーの選択又は入力を表すフィードバックデータを用いて、類似性ユニット142Bが用いる1つ以上のNLPモデル130を、例えば強化学習により更に訓練/精緻化することができる。例えば、RDRFアプリケーション128はフィードバックデータを用いて、類似性ユニット142Bが類似文書の識別に用いるBERTモデルを更に訓練することができる。
【0061】
図8~11は、規制質問に対する回答を容易にする例示的な方法のフロー図である。本方法は、例えばメモリ124に保存されたRDRFアプリケーション128のソフトウェア命令を実行する際にコンピューティングシステム102の処理ハードウェア120により実行されてよい。他の実施形態において、各方法の一部又は全部は、メモリ168に保存されたアプリケーション(例えばウェブブラウザアプリケーション170、又はクライアント装置104に常駐していればRDRFアプリケーション128)のソフトウェア命令を実行する際にクライアント装置104の処理ハードウェア160により実行される。
【0062】
最初に図8を参照するに、ブロック802において、複数の規制質問(例えば1つ以上の規制文書からの質問)を表すテキストデータを取得する。ブロック802は、例えば処理300のステージ302に類似していてよい。ブロック804において、複数の規制質問の1つ以上の分類を、ブロック802で得られたテキストデータをNLPモデルにより処理することにより少なくとも部分的に生成する。NLPモデルは、例えば図1のNLPモデル130のうち1つであってよい。より具体的な例として、NLPモデルは図4のDFFニューラルネットワーク400又は図6の双方向ニューラルネットワーク600であってよい。
【0063】
ブロック806において、分類を示すデータを保存、送信、及び/又は表示する。データは、分類(例えば生成された分類の特定の1つに対応する質問のサブセット)から導出されたデータであっても、又は分類自体であってもよい。いくつかの実施形態において、ブロック806は、複数の規制質問の少なくともサブセットを、分類を示す仕方で(例えばローカル又は別のコンピューティング装置に)表示させることを含んでいる。例えば、ブロック806は、各規制質問を、規制質問に対応する(ブロック804で判定された分類の)分類と、ユーザーが選択したフィルタ設定(例えば図7Aのユーザーインターフェース700の「予測ラベル」コントロールと類似のコントロールの設定)の両方に基づいて選択的に表示させるか又は表示させないことを含んでいてよい。別の例として、ブロック806は、質問のサブセットの各質問(及び恐らくは全ての質問)を、対応する分類に関連付けて(例えば、ブロック804で生成された分類が図7Aのユーザーインターフェース700、又は同様のユーザーインターフェースに、対応する質問と並べて表示されるように)表示させることを含んでいてよい。
【0064】
いくつかの実施形態において、方法800は、図8に示していない1つ以上の追加的なブロックを含んでいる。例えば、方法800は、(例えばブロック802の後且つブロック804の前で生起する)追加的なブロックを含んでいてよく、当該ブロックでテキストデータに前処理を施して、規制質問の単語列を各々の数列に変換することにより、及び/又はこれらの数列をパディングする(例えば図3の処理300のステージ304、306、308、310、及び/又は312を参照しながら上で述べた演算のいずれか)ことにより分類に使用しない単語及び/又は文字を除外することができる。
【0065】
次に図9を参照するに、ブロック902において、規制質問(例えば規制文書からの質問)を表すテキストデータを取得する。ブロック902は、例えば処理300のステージ302の一部に類似していてよい。ブロック904において、規制質問に類似する1つ以上の文書を、ブロック902で得られたテキストデータをNLPモデルにより処理することにより少なくとも部分的に識別する。NLPモデルは、例えば図1のNLPモデル130のうち1つであってよい。より具体的な例として、NLPモデルは、BERTモデル、又は文脈化された埋め込みをサポートする別の双方向ニューラルネットワークであってよい。
【0066】
ブロック906において、文書を示すデータを保存、送信、及び/又は表示する。データは、各文書の名称及び/又は他の識別子、及び/又は、例えばブロック904でNLPモデルが文書を「類似」文書として識別させた文書からのテキストを含んでいてよい。
【0067】
いくつかの実施形態において、方法900は、図9に示していない1つ以上の追加的なブロックを含んでいる。例えば、方法900は、方法800との関連で上で述べた1つ以上の前処理ステップを適用する(例えば無関係な単語及び/又は文字を除外する、単語列を数列に変換する、及び/又は数列をパディングする)1つ以上の追加的なブロック(例えばブロック902の後且つブロック904の前に生じる)を含んでいてよい。
【0068】
次に図10を参照するに、ブロック1002において、規制質問(例えば規制文書からの質問)を表すテキストデータを取得する。ブロック1002は、例えば処理300のステージ302の一部に類似していてよい。ブロック1004において、規制質問に類似する1つ以上の文書を、ブロック1002で取得したテキストデータを第1のNLPモデルにより処理することにより少なくとも部分的に識別する。ブロック1004は、例えば方法900のブロック904に類似していてよい。
【0069】
ブロック1006において、規制質問に対する1つ以上の回答候補を、ブロック1004で識別された文書を第2のNLPモデルにより処理することにより少なくとも部分的に生成する。第2のNLPモデルは、例えばGPT-2モデル、又は他の適当な双方向ニューラルネットワークであってよい。ブロック1008において、ブロック1006で生成された回答候補を示すデータを保存、送信、及び/又は表示する。各々の回答候補について、データは、回答候補自体、回答候補が導出された文書の識別子、及び/又は回答候補が導出された文書のテキストの一部を含んでいてよい。
【0070】
いくつかの実施形態において、方法1000は、図10に示していない1つ以上の追加的なブロックを含んでいる。例えば、方法1000は、方法800との関連で上で述べた1つ以上の前処理ステップを適用する(例えば無関係な単語及び/又は文字を除外する、単語列を数列に変換する、及び/又は数列をパディングする)1つ以上の追加的なブロック(例えばブロック1002の後且つブロック1004の前に生じる)を含んでいてよい。別の例として、方法1000は、規制質問に対する1つ以上の回答候補の各々に関連付けられた信頼度スコアを判定する第1の追加的なブロックと、規制質問に対する1つ以上の回答候補の各々に関連付けられた信頼度スコアを示すデータを保存、送信、及び/又は表示する第2の追加的なブロックとを含んでいてよい。更に別の例として、方法1000は、1つ以上の回答候補の有用性を示すユーザーフィードバックを受信する第1の追加的なブロックと、ユーザーフィードバックを用いて第1及び/又は第2のNLPモデルを訓練する第2の追加的なブロックとを含んでいてよい。
【0071】
次に図11を参照するに、ブロック1102において、規制質問(例えば規制文書からの質問)を表すテキストデータを取得する。ブロック1102は、例えば処理300のステージ302の一部に類似していてよい。ブロック1104において、規制質問の要約を、ブロック1102で得られたテキストデータをNLPモデルにより処理することにより少なくとも部分的に生成する。NLPモデルは、例えば図1のNLPモデル130のうち1つであってよい。より具体的な例として、NLPモデルは、BERTモデル、又は文脈化された埋め込みをサポートする別の双方向ニューラルネットワークであってよい。
【0072】
ブロック1106において、要約を示すデータを保存、送信、及び/又は表示する。データは、例えば要約自体、及び恐らくは要約が導出された1つ以上の文書の名称、識別子、及び/又は部分等の関連付けられた情報を含んでいる。いくつかの実施形態において、方法1100は図11に示していない1つ以上の追加的なブロックを含んでいる。例えば、方法1100は、方法800との関連で上で述べた1つ以上の前処理ステップを適用する(例えば無関係な単語及び/又は文字を除外する、単語列を数列に変換する、及び/又は数列をパディングする)1つ以上の追加的なブロック(例えばブロック1102の後且つブロック1104の前に生じる)を含んでいてよい。
【0073】
複数の実施例の以下のリストは、本開示により明示的に考えられる様々な実施形態を反映している。
【実施例
【0074】
実施例1. 規制質問を処理する方法であって、当該方法は、1つ以上のプロセッサにより、複数の規制質問を表すテキストデータを取得することと、1つ以上のプロセッサにより少なくとも部分的にテキストデータを自然言語処理モデルにより処理することにより、複数の規制質問の1つ以上の分類を生成することと、1つ以上のプロセッサにより、1つ以上の分類を示すデータを保存、送信、及び/又は表示することとを含んでいる。
【0075】
実施例2. 実施例1の方法において、自然言語処理モデルは深層フィードフォワードニューラルネットワークである。
【0076】
実施例3. 実施例2の方法において、深層フィードフォワードニューラルネットワークは丁度1つの大域最大プーリング層及び複数の密層を含んでいる。
【0077】
実施例4. 実施例3の方法において、深層フィードフォワードニューラルネットワークは丁度2つの密層を含んでいる。
【0078】
実施例5. 実施例1の方法において、自然言語処理モデルは少なくとも1つの双方向層を含んでいる。
【0079】
実施例6. 実施例5の方法において、自然言語処理モデルは長短期保存(LSTM)モデルによりある。
【0080】
実施例7. 実施例1~6のいずれかの方法は更に、自然言語処理モデルによりテキストデータを処理する前に、1つ以上のプロセッサによりテキストデータに前処理を施して、分類に使用しない単語及び/又は文字を除外することを含んでいる。
【0081】
実施例8. 実施例1~7のいずれかの方法において、複数の質問がテキストデータ内の複数の各々の単語列に対応しており、本方法が更に、自然言語処理モデルによりテキストデータを処理する前に、1つ以上のプロセッサにより、各々の単語列を各々の数列に変換することによりテキストデータに前処理を施すことを含んでいる。
【0082】
実施例9. 実施例8の方法において、本方法が更に、自然言語処理モデルによりテキストデータを処理する前に、1つ以上のプロセッサにより、各々の単語列を表す全てのベクトルが等しいシーケンス長を有するように、各々の単語列をパディングすることによりテキストデータに前処理を施すことを含んでいる。
【0083】
実施例10. 実施例1~9のいずれかの方法において、本方法が、1つ以上のプロセッサにより、複数の質問の少なくとも1つのサブセットを1つ以上の分類を示す仕方で表示させることを含んでいる。
【0084】
実施例11. 実施例10の方法において、複数の質問の少なくともサブセットを1つ以上の分類を示す仕方で表示させることは、(i)1つ以上の分類のうち質問に対応する分類と、(ii)ユーザーが選択したフィルタ設定とに基づいて、各質問を選択的に表示させるか又は表示させないことを含んでいる。
【0085】
実施例12. 実施例10の方法において、複数の質問の少なくともサブセットを1つ以上の分類を示す仕方で表示させることは、複数の質問のサブセットの各質問を、1つ以上の分類からの対応する分類に関連付けて表示させることを含んでいる。
【0086】
実施例13. システムであって、1つ以上のプロセッサと、当該1つ以上のプロセッサにより実行されたならば、当該1つ以上のプロセッサに例1~12のいずれかの方法を実行させる命令を保存する1つ以上のメモリとを含んでいる。
【0087】
実施例14. 規制質問を処理する方法であって、当該方法は、1つ以上のプロセッサにより規制質問を表すテキストデータを取得することと、1つ以上のプロセッサにより規制質問に類似する1つ以上の文書を、テキストデータを自然言語処理モデルにより処理してデータベース内の1つ以上の文書を識別することに少なくとも部分的に識別することと、1つ以上のプロセッサにより1つ以上の文書を示すデータを保存、送信、及び/又は表示することとを含んでいる。
【0088】
実施例15. 実施例14の方法において、自然言語処理モデルはニューラルネットワークである。
【0089】
実施例16. 実施例14又は15の方法において、自然言語処理モデルは双方向性である。
【0090】
実施例17. 実施例14~16のいずれかの方法において、自然言語処理モデルは文脈化された埋め込みモデルである。
【0091】
実施例18. 実施例14~17のいずれかの方法において、自然言語処理モデルによりテキストデータを処理してデータベース内の1つ以上のドキュメントを識別することは、エラスティック検索エンジンを用いてデータベースを検索することを含んでいる。
【0092】
実施例19. 実施例14~18のいずれかの方法であって、自然言語処理モデルによりテキストデータを処理する前に、1つ以上のプロセッサにより、テキストデータに前処理を施して識別に使用しない単語及び/又は文字を除外することを更に含んでいる。
【0093】
実施例20. 実施例14~19のいずれかの方法において、当該方法は更に、自然言語処理モデルによりテキストデータを処理する前に、1つ以上のプロセッサにより、テキストデータの単語列を数列に変換することにより、テキストデータに前処理を施すことを含んでいる。
【0094】
実施例21. 実施例20の方法において、当該方法は更に、自然言語処理モデルによりテキストデータを処理する前に、1つ以上のプロセッサにより、単語列を表すベクトルが所定のシーケンス長を有するように単語列をパディングすることによりテキストデータに前処理を施すことを含んでいる。
【0095】
実施例22. システムであって、1つ以上のプロセッサと、当該1つ以上のプロセッサにより実行されたならば、当該1つ以上のプロセッサに例14~21のいずれかの方法を実行させる命令を保存する1つ以上のメモリとを含んでいる。
【0096】
実施例23. 規制質問を処理する方法であって、当該方法は、1つ以上のプロセッサにより規制質問を表すテキストデータを取得することと、1つ以上のプロセッサにより規制質問に類似する1つ以上の文書を、第1の自然言語処理モデルによりテキストデータを処理してデータベース内の1つ以上の文書を識別することにより少なくとも部分的に識別することと、1つ以上のプロセッサにより規制質問に対する1つ以上の回答候補を、識別された1つ以上の文書を第2の自然言語処理モデルにより処理することにより少なくとも部分的に生成することと、1つ以上のプロセッサにより、規制質問に対する1つ以上の回答候補を示すデータを保存、送信、及び/又は表示することとを含んでいる。
【0097】
実施例24. 実施例23方法において、第1の自然言語処理モデル及び第2の自然言語処理モデルはニューラルネットワークである。
【0098】
実施例25. 実施例23又は24の方法において、第1の自然言語処理モデルは双方向性である。
【0099】
実施例26. 実施例23~25のいずれかの方法において、第2の自然言語処理モデルはGPT-2モデルである。
【0100】
実施例27. 実施例23~26のいずれかの方法は更に、第1の自然言語処理モデルによりテキストデータを処理する前に、1つ以上のプロセッサによりテキストデータに前処理を施して識別に使用しない単語及び/又は文字を除外することを含んでいる。
【0101】
実施例28. 実施例23~27のいずれかの方法において、当該方法は更に、第1の自然言語処理モデルによりテキストデータを処理する前に、1つ以上のプロセッサにより、テキストデータの単語列を数列に変換することによりテキストデータに前処理を施すことを含んでいる。
【0102】
実施例29. 実施例28の方法において、当該方法は更に、第1の自然言語処理モデルによりテキストデータを処理する前に、1つ以上のプロセッサにより、単語列を表すベクトルが所定のシーケンス長を有するように単語列をパディングすることによりテキストデータに前処理を施すことを含んでいる。
【0103】
実施例30. 実施例23~29のいずれかの方法において、当該方法は更に、1つ以上のプロセッサにより、規制質問に対する1つ以上の回答候補の各々に関連付けられた信頼度スコアを判定することと、1つ以上のプロセッサにより、規制質問に対する1つ以上の回答候補の各々に関連付けられた信頼度スコアを示すデータを保存、送信、及び/又は表示することを含んでいる。
【0104】
実施例31. 実施例23~30のいずれかの方法において、当該方法は更に、規制質問に対する1つ以上の回答候補の各々について、(i)回答候補、(ii)1つ以上の文書のうち、回答候補が導出された文書の識別子、及び(iii)回答候補が導出された文書のテキストの一部を表示することを含んでいる。
【0105】
実施例32. 実施例23~31のいずれかの方法において、当該方法は更に、1つ以上のプロセッサにより1つ以上の回答候補の有用性を示すユーザーフィードバックを受信することと、1つ以上のプロセッサによりユーザーフィードバックを用いて第1及び/又は第2の自然言語処理モデルを訓練することとを含んでいる。
【0106】
実施例33. システムであって、1つ以上のプロセッサと、当該1つ以上のプロセッサにより実行されたならば、当該1つ以上のプロセッサに例23~32のいずれかの方法を実行させる命令を保存する1つ以上のメモリとを含んでいる。
【0107】
実施例34. 規制質問を処理する方法であって、当該方法は、1つ以上のプロセッサにより規制質問を表すテキストデータを取得することと、1つ以上のプロセッサにより規制質問の要約を、テキストデータを自然言語処理モデルにより処理することにより少なくとも部分的に生成することと、1つ以上のプロセッサにより要約を示すデータを保存、送信、及び/又は表示することとを含んでいる。
【0108】
実施例35. 実施例34に記載の方法において、自然言語処理モデルはニューラルネットワークである。
【0109】
実施例36. 実施例35に記載の方法において、自然言語処理モデルは双方向性である。
【0110】
実施例37. システムであって、1つ以上のプロセッサと、当該1つ以上のプロセッサにより実行されたならば、当該1つ以上のプロセッサに例34~36のいずれかの方法を実行させる命令を保存する1つ以上のメモリとを含んでいる。
【0111】
本開示の特定の実施形態は、様々なコンピュータ実装された動作を実行するコンピュータコードを有している非一時的コンピュータ可読記憶媒体に関する。「コンピュータ可読記憶媒体」等の用語は本明細書において、本明細書に記述する動作、方法、及び技術を実行する一連の命令又はコンピュータコードを保存又は符号化可能な任意の媒体を含めるべく用いられてよい。媒体及びコンピュータコードは、本開示の実施形態を目的として特別に設計及び構築されていても、又はコンピュータソフトウェア技術の当業者に公知且つ利用可能な種類のものであってもよい。コンピュータ可読記憶媒体の例として、ハードディスク、フロッピーディスク、磁気テープ等の磁気媒体、CD-ROM、ホログラフィック装置等の光媒体、光ディスク等の光磁気媒体、ASIC、プログラム可能論理装置(「PLD」)、及びROM並びにRAM装置等、プログラムコードの保存及び実行用に特別に構成されたハードウェア装置が含まれるがこれらに限定されない。
【0112】
コンピュータコードの例として、コンパイラにより生成されるマシンコード、及びインタープリタ又はコンパイラを用いてコンピュータにより実行される高水準コードを含むファイルが含まれる。例えば、本開示の実施形態は、Java、C++、又は他のオブジェクト指向プログラミング言語及び開発ツールを用いて実装されてよい。コンピュータコードの追加的な例として、暗号化コード及び圧縮コードが含まれる。更に、本開示の実施形態は、コンピュータプログラム製品としてダウンロードされてよく、送信チャネルを介して遠隔コンピュータ(例えばサーバコンピュータ)から要求元コンピュータ(例えばクライアントコンピュータ又は別のサーバコンピュータ)に転送されていてよい。本開示の別の実施形態は、機械実行可能なソフトウェア命令を代替として、又はマシン実行可能なソフトウェア命令と組み合わせてハードワイヤード回路に実装されていてよい。
【0113】
本明細書で用いる単数形の用語「a」、「an」、及び「the」は、文脈から別途明示されない限り複数の対象を含んでいてよい。
【0114】
本明細書で用いる用語「接続する」、「接続された」、及び「接続」は、動作的結合又は紐付けを指す(且つ図面に描かれた接続はこれらを代表している)。接続された要素は、例えば別の要素の組を介して互いに直接又は間接的に結合可能である。
【0115】
本明細書で用いる用語「ほぼ」、「実質的に」、「実質的な」、及び「約」は、僅かな差異を記述及び説明すべく用いられる。事象又は状況と共に用いられる場合、これらの用語は、事象又は状況が正確に生起する場合だけでなく、事象又は状況が近似的に生起する場合も指していてよい。例えば、数値と共に用いられた場合、これらの用語は当該数値の±10%以下、例えば±5%以下、±4%以下、±3%以下、±2%以下、±1%以下、±0.5%以下、±0.1%以下、又は±0.05%以下の変動範囲を指していてよい。例えば、2つの数値の差が当該数値の平均の±10%以下、例えば±5%以下、±4%以下、±3%以下、±2%以下、±1%以下、±0.5%以下、±0.1%以下、又は±0.05%以下であれば「実質的に」同一とみなすことができる。
【0116】
また、量、比率、及び他の数値が本明細書において範囲形式で示される場合がある。このような範囲形式は、便宜且つ簡潔のため用いられること理解すべきであり、且つある範囲の限界として明示的に指定された数値を含むだけでなく、あたかも各数値及び部分範囲が明示的に指定されているかの如く当該範囲内に含まれる全ての個々の数値又は部分範囲を含むことを柔軟に理解されたい。
【0117】
本開示について特定の実施形態を参照しながら記述及び図示してきたが、これらの記述及び図示は本開示を限定するものではない。当業者には、添付の請求項により定義される本開示の真の主旨及び範囲から逸脱することなく、様々な変更を加え得ること、及び等価物に代替され得ることが理解されよう。図示は必ずしも定縮尺に描かれていない場合がある。製造工程、公差及び/又は他の理由により、本開示における芸術的表現と実際の装置との間に差異が生じる場合がある。具体的に図示しない本開示の他の実施形態が存在する可能性がある。本明細書(請求項以外)及び図面は、限定的ではなく例示的であるとみなすべきである。特定の状況、材料、組成物、技術、又は処理を本開示の目的、主旨、及び範囲に適合させるべく変更が加えられてよい。このような変更は全て、本明細書に添付した請求項の範囲に含まれるものとする。本明細書に開示する技術は、特定の順序で実行される特定の動作を念頭に記述してきたが、これらの動作は、本開示の教示から逸脱することなく、等価な技術を形成するために組み合わされても、部分に分割されても、又は順序を入れ替えてもよいことが理解されよう。従って、本明細書に特に示されない限り、動作の順序及びグループ分けは本開示の制約とはならない。
図1
図2
図3
図4
図5A
図5B
図5C
図6
図7A
図7B
図7C
図8
図9
図10
図11
【国際調査報告】