IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッドの特許一覧

特開2024-163110医薬品知識の問答方法、装置、電子機器及び記憶媒体
<>
  • 特開-医薬品知識の問答方法、装置、電子機器及び記憶媒体 図1
  • 特開-医薬品知識の問答方法、装置、電子機器及び記憶媒体 図2
  • 特開-医薬品知識の問答方法、装置、電子機器及び記憶媒体 図3
  • 特開-医薬品知識の問答方法、装置、電子機器及び記憶媒体 図4
  • 特開-医薬品知識の問答方法、装置、電子機器及び記憶媒体 図5
  • 特開-医薬品知識の問答方法、装置、電子機器及び記憶媒体 図6
  • 特開-医薬品知識の問答方法、装置、電子機器及び記憶媒体 図7
  • 特開-医薬品知識の問答方法、装置、電子機器及び記憶媒体 図8
  • 特開-医薬品知識の問答方法、装置、電子機器及び記憶媒体 図9
  • 特開-医薬品知識の問答方法、装置、電子機器及び記憶媒体 図10
  • 特開-医薬品知識の問答方法、装置、電子機器及び記憶媒体 図11
  • 特開-医薬品知識の問答方法、装置、電子機器及び記憶媒体 図12
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024163110
(43)【公開日】2024-11-21
(54)【発明の名称】医薬品知識の問答方法、装置、電子機器及び記憶媒体
(51)【国際特許分類】
   G06F 16/90 20190101AFI20241114BHJP
【FI】
G06F16/90 100
【審査請求】有
【請求項の数】21
【出願形態】OL
【外国語出願】
【公開請求】
(21)【出願番号】P 2024099047
(22)【出願日】2024-06-19
(31)【優先権主張番号】202410245432.2
(32)【優先日】2024-03-04
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100229448
【弁理士】
【氏名又は名称】中槇 利明
(72)【発明者】
【氏名】ジェンホゥイ シー
(72)【発明者】
【氏名】ユエン シア
(72)【発明者】
【氏名】ジュイン チェン
(72)【発明者】
【氏名】ハイフオン ホワーン
(57)【要約】
【課題】本開示は、人工知能技術分野に関し、具体的には、コンピュータ視覚、画像処理、深層学習、大規模言語モデル、スマート医療などの技術分野に関し、特に医薬品知識の問答方法、装置、電子機器、記憶媒体を提供する。
【解決手段】具体的な実現案として、医薬品質問テキストに基づいて、医薬品知識ベース内の質問答案テキストを検索し、医薬品質問テキストに対応する答案テキストを取得し、医薬品質問テキストに基づいて、医薬品知識ベース内の医薬品説明書を検索し、医薬品質問テキストに対応する説明書テキストを取得し、答案テキストと説明書テキストに基づいて、医薬品質問テキストに対応する返答テキストを生成する。本開示は質問答案テキストの検索により、ユーザーがクエリした質問に関する答案を迅速で正確に検索でき、正確な答案がマッチングできないとき、医薬品説明書の段落を補充として検索してもよく、システムの答え正確率と再現率を向上させる。
【選択図】図1
【特許請求の範囲】
【請求項1】
医薬品知識の問答方法であって、当該方法は、
医薬品質問テキストを取得することと、
前記医薬品質問テキストに基づいて、医薬品知識ベース内の質問答案テキストを検索し、前記医薬品質問テキストに対応する答案テキストを取得することと、
前記医薬品質問テキストに基づいて、前記医薬品知識ベース内の医薬品説明書を検索し、前記医薬品質問テキストに対応する説明書テキストを取得することと、
前記答案テキストと前記説明書テキストに基づいて、前記医薬品質問テキストに対応する返答テキストを生成することとを含む、医薬品知識の問答方法。
【請求項2】
前記医薬品質問テキストに基づいて、医薬品知識ベース内の質問答案テキストを検索する前に、
前記医薬品質問テキストを書き換えることをさらに含む、請求項1に記載の方法。
【請求項3】
前記医薬品質問テキストを書き換えることは、
前記医薬品質問テキストに関する履歴対話情報を取得し、前記履歴対話情報における医薬品情報に基づいて前記医薬品質問テキストを書き換えることを含む、請求項2に記載の方法。
【請求項4】
前記医薬品質問テキストに基づいて、前記医薬品知識ベース内の医薬品説明書を検索し、前記医薬品質問テキストに対応する説明書テキストを取得することは、
前記医薬品質問テキストをエンティティ認識し、前記医薬品質問テキストに対応する医薬品名称を取得することと、
前記医薬品名称により、前記医薬品知識ベースを検索し、前記医薬品質問テキストに対応する医薬品説明書を取得することと、
前記医薬品説明書から前記医薬品質問テキストに対応する前記説明書テキストを抽出して取得することとを含む、請求項1に記載の方法。
【請求項5】
前記医薬品質問テキストをエンティティ認識し、前記医薬品質問テキストに対応する医薬品名称を取得することは、
医薬品包装箱に対応する二次元コードを走査することで、又は取得された前記医薬品包装箱の画像で文字を識別し、前記医薬品質問テキストに対応する医薬品名称を取得することを含む、請求項4に記載の方法。
【請求項6】
前記医薬品説明書から前記医薬品質問テキストに対応する前記説明書テキストを抽出して取得することは、
前記医薬品質問テキストを意図識別し、意図識別結果を取得することと、
前記意図識別結果により、前記医薬品説明書から対応する前記説明書テキストを抽出することとを含む、請求項4に記載の方法。
【請求項7】
前記医薬品名称により、前記医薬品知識ベースを検索し、前記医薬品質問テキストに対応する医薬品説明書を取得することは、
前記医薬品質問テキストに対応する前記医薬品名称と前記医薬品知識ベースにおける各医薬品説明書に基づいて、類似度の計算を行い、類似度が最も高い前記医薬品説明書を取得することを含み、
前記医薬品説明書から前記医薬品質問テキストに対応する前記説明書テキストを抽出して取得することは、
前記意図識別結果により、類似度が最も高い前記医薬品説明書から対応する前記説明書テキストを選別することを含む、請求項6に記載の方法。
【請求項8】
前記答案テキストと前記説明書テキストに基づいて、前記医薬品質問テキストに対応する返答テキストを生成することは、
前記答案テキストと前記説明書テキストを組み合わせて、証拠テキストを取得することと、
前記医薬品質問テキスト、前記証拠テキスト及びテキストの形式要求に従ってプロンプトテキストを構築することと、
前記プロンプトテキストを大規模言語モデルに入力し、前記大規模言語モデルにより前記医薬品質問テキストに対応する前記返答テキストを出力して生成することとを含む、請求項1に記載の方法。
【請求項9】
前記医薬品質問テキストに基づいて、医薬品知識ベース内の質問答案テキストを検索する前に、
問答データを前記質問答案テキストとして解析し、前記医薬品知識ベースに記憶することをさらに含む、請求項1に記載の方法。
【請求項10】
医薬品知識の問答装置であって、
医薬品質問テキストを取得するように構成される取得モジュールと、
前記医薬品質問テキストに基づいて、医薬品知識ベース内の質問答案テキストを検索し、前記医薬品質問テキストに対応する答案テキストを取得するように構成される第1の検索モジュールと、
前記医薬品質問テキストに基づいて、前記医薬品知識ベース内の医薬品説明書を検索し、前記医薬品質問テキストに対応する説明書テキストを取得するように構成される第2の検索モジュールと、
前記答案テキストと前記説明書テキストに基づいて、前記医薬品質問テキストに対応する返答テキストを生成するように構成される生成モジュールとを含む、医薬品知識の問答装置。
【請求項11】
前記第1の検索モジュールが前記医薬品質問テキストに基づいて、医薬品知識ベース内の質問答案テキストを検索する前に、前記医薬品質問テキストを書き換えるように構成される書き換えモジュールをさらに含む、請求項10に記載の装置。
【請求項12】
前記書き換えモジュールが前記医薬品質問テキストを書き換えることは、
前記医薬品質問テキストに関する履歴対話情報を取得し、前記履歴対話情報における医薬品情報に基づいて前記医薬品質問テキストを書き換えることを含む、請求項11に記載の装置。
【請求項13】
前記第2の検索モジュールは、
前記医薬品質問テキストをエンティティ認識し、前記医薬品質問テキストに対応する医薬品名称を取得するように構成されるエンティティ認識ユニットと、
前記医薬品名称により、前記医薬品知識ベースを検索し、前記医薬品質問テキストに対応する医薬品説明書を取得するように構成される検索ユニットと、
前記医薬品説明書から前記医薬品質問テキストに対応する前記説明書テキストを抽出して取得するように構成されるテキスト抽出ユニットとを含む、請求項10に記載の装置。
【請求項14】
前記エンティティ認識ユニットが前記医薬品質問テキストをエンティティ認識し、前記医薬品質問テキストに対応する医薬品名称を取得することは、
医薬品包装箱に対応する二次元コードを走査することで、又は取得された前記医薬品包装箱の画像で文字を識別し、前記医薬品質問テキストに対応する医薬品名称を取得することを含む、請求項13に記載の装置。
【請求項15】
前記テキスト抽出ユニットは、
前記医薬品質問テキストを意図識別し、意図識別結果を取得するように構成される意図識別サブユニットと、
前記意図識別結果により、前記医薬品説明書から対応する前記説明書テキストを抽出するように構成される抽出サブユニットとを含む、請求項13に記載の装置。
【請求項16】
前記検索ユニットが前記医薬品名称により、前記医薬品知識ベースを検索し、前記医薬品質問テキストに対応する医薬品説明書を取得することは、
前記医薬品質問テキストに対応する前記医薬品名称と前記医薬品知識ベースにおける各医薬品説明書に基づいて、類似度の計算を行い、類似度が最も高い前記医薬品説明書を取得することを含み、
前記テキスト抽出ユニットが医薬品説明書から医薬品質問テキストに対応する説明書テキストを抽出して取得することは、
前記意図識別結果により、類似度が最も高い前記医薬品説明書から対応する前記説明書テキストを選別することを含む、請求項15に記載の装置。
【請求項17】
前記生成モジュールは、
前記答案テキストと前記説明書テキストを組み合わせて、証拠テキストを取得するように構成される組み合わせユニットと、
前記医薬品質問テキスト、前記証拠テキスト及びテキストの形式要求に従ってプロンプトテキストを構築するように構成されるプロンプトテキスト構築ユニットと、
前記プロンプトテキストを大規模言語モデルに入力し、前記大規模言語モデルにより前記医薬品質問テキストに対応する前記返答テキストを出力して生成するように構成される生成ユニットとを含む、請求項10に記載の装置。
【請求項18】
前記医薬品質問テキストに基づいて、医薬品知識ベース内の質問答案テキストを検索する前に、問答データを前記質問答案テキストとして解析し、前記医薬品知識ベースに記憶するように構成されるデータ処理モジュールをさらに含む、請求項10に記載の装置。
【請求項19】
電子機器であって、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信接続されるメモリとを含み、ここで、
前記メモリは、前記少なくとも1つのプロセッサによって実行可能な命令を記憶し、前記命令は前記少なくとも1つのプロセッサによって実行されることにより、前記少なくとも1つのプロセッサに請求項1~9のいずれか一項に記載の方法を実行させることを可能にする、電子機器。
【請求項20】
コンピュータ命令が記憶された非一時的コンピュータ可読記憶媒体であって、前記コンピュータ命令はコンピュータに請求項1~9のいずれか一項に記載の方法を実行させるために用いられる、非一時的コンピュータ可読記憶媒体。
【請求項21】
コンピュータプログラムを含むコンピュータプログラム製品であって、前記コンピュータプログラムは、プロセッサによって実行されると、請求項1~9のいずれか一項に記載の方法を実現する、コンピュータプログラム製品。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、人工知能技術分野に関し、具体的には、コンピュータ視覚、画像処理、深層学習、大規模言語モデル、スマート医療などの技術分野に関し、特に医薬品知識の問答方法、装置、電子機器、記憶媒体に関する。
【背景技術】
【0002】
現在の医薬品の紙説明書は、一般消費者に対して、その専門的かつ厳密な説明方法が、複雑すぎることがあり、それらは実際の医薬品の使用状況を理解することが困難になる。これは患者に迷惑をかけるだけでなく、場合によっては医薬品の使用ミスや誤解を招くこともある。また、いくつかの医薬品に対して、その説明書の文字内容が多く、長さもあるので、読者の時間を多く消費する。ペースの速い現代の生活環境では、多くのユーザーは複雑で長い医薬品説明書を読むために多くの時間をかかることができず、これにより、それらは医薬品の使用に関する重要な情報を無視する可能性がある。同時に、既存の医薬品説明書では、一部の内容の文字説明を省略することがあり、ユーザーが受け取る情報が不完全になり、これはそれらの医薬品への誤解を招き、医薬品の正しい使用に影響を与える可能性がある。
【発明の概要】
【0003】
本開示は医薬品知識の問答方法、装置、電子機器及び記憶媒体を提供する。
【0004】
本開示の第1の態様によれば、医薬品知識の問答方法を提供し、この方法は、
医薬品質問テキストを取得することと、
前記医薬品質問テキストに基づいて、医薬品知識ベース内の質問答案テキストを検索し、前記医薬品質問テキストに対応する答案テキストを取得することと、
前記医薬品質問テキストに基づいて、前記医薬品知識ベース内の医薬品説明書を検索し、前記医薬品質問テキストに対応する説明書テキストを取得することと、
前記答案テキストと前記説明書テキストに基づいて、前記医薬品質問テキストに対応する返答テキストを生成することとを含む。
【0005】
本開示の第2の態様によれば、医薬品知識の問答装置を提供し、この装置は、
医薬品質問テキストを取得するように構成される取得モジュールと、
前記医薬品質問テキストに基づいて、医薬品知識ベース内の質問答案テキストを検索し、前記医薬品質問テキストに対応する答案テキストを取得するように構成される第1の検索モジュールと、
前記医薬品質問テキストに基づいて、前記医薬品知識ベース内の医薬品説明書を検索し、前記医薬品質問テキストに対応する説明書テキストを取得するように構成される第2の検索モジュールと、
前記答案テキストと前記説明書テキストに基づいて、前記医薬品質問テキストに対応する返答テキストを生成するように構成される生成モジュールとを含む。
【0006】
本開示の第3の態様によれば、電子機器を提供し、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信接続されるメモリとを含み、ここで、
前記メモリは、前記少なくとも1つのプロセッサによって実行可能な命令を記憶し、前記命令は前記少なくとも1つのプロセッサによって実行されることにより、前記少なくとも1つのプロセッサに上述の技術案におけるいずれか1つに記載の方法を実行させることを可能にする。
【0007】
本願の第4の態様によれば、コンピュータに上述の技術案におけるいずれか1つに記載の方法を実行させるためのコンピュータ命令が記憶された非一時的コンピュータ可読記憶媒体を提供する。
【0008】
本願の第5の態様によれば、プロセッサによって実行されると、上述の技術案におけるいずれか1つに記載の方法を実現するコンピュータプログラムを含むコンピュータプログラム製品を提供する。
【0009】
理解すべきこととして、この部分に説明される内容は、本開示の実施例の要点又は重要な特徴を識別することを意図しておらず、本開示の範囲を限定するためのものでもない。本開示の他の特徴は、以下の明細書によって容易に理解される。
【図面の簡単な説明】
【0010】
図面は、本案をより良く理解するためのものであり、本開示に対する限定を構成しない。
図1】本開示の実施例における医薬品知識の問答方法のステップを示す概略図である。
図2】本開示の実施例における別の医薬品知識の問答方法のステップを示す概略図である。
図3】本開示の実施例における医薬品知識の問答方法のステップS103の具体的なステップを示す概略図である。
図4】本開示の実施例における医薬品知識の問答方法のステップS1033の具体的なステップを示す概略図である。
図5】本開示の実施例における証拠検索の流れ全体を示す概略図である。
図6】本開示の実施例における医薬品知識の問答方法のステップS104の具体的なステップを示す概略図である。
図7】本開示の実施例における医薬品知識の問答装置を示す原理ブロック図である。
図8】本開示の実施例における別の医薬品知識の問答装置を示す原理ブロック図である。
図9】本開示の実施例における第2の検索モジュールを示す原理ブロック図である。
図10】本開示の実施例におけるテキスト抽出ユニットを示す原理ブロック図である。
図11】本開示の実施例における生成モジュールを示す原理ブロック図である。
図12】本発明の実施例における医薬品知識の問答方法を実現するための電子機器のブロック図である。
【発明を実施するための形態】
【0011】
以下、図面を結び付けながら本開示の例示的な実施例を説明し、理解を容易にするために、その中には本開示の実施例の様々な詳細が含まれているが、それらは単なる例示的なものと見なされるべきである。したがって、当業者であれば認識できるように、本開示の範囲及び精神から逸脱することなく、本明細書で説明された実施例に対して様々な変更及び修正を行うことができる。同様に、明瞭と簡潔のために、以下の説明では公知の機能及び構造についての説明を省略している。
【0012】
現在の第1の医薬品知識問答システムは、通常、専門家又は医療専門家により人工的に解答するものであり、即ち、ユーザーが問答システムで質問し、システムは質問を異なる専門家に割り当てて、専門家が答えを書き終わった後、システムはユーザーに返す。このような問答システムでは一定数の専門家や医療専門家が必要であり、人件費が高いことのほか、人により返事の非効率性や遅れなどの問題はシステムの応答が低下し、ユーザー体験が悪いことを招く。
【0013】
現在の第2の医薬品知識問答システムは、問答ライブラリに基づいて答えるものであり、ユーザーが問答システムで質問し、システムはユーザーの質問により、問答ライブラリ内の質問とマッチングし、マッチングした場合、問答ライブラリ内の質問に対応する答えをユーザーに返し、マッチングしない場合、デフォルトの返事をするか、又は専門家や医療専門家により人工的に解答する。したがって、この問答システムでは、一連の質問と答えを事前に発掘し又は人工的に整理し、問答ライブラリを構築しておく必要があるため、人件費が高いことのほか、ユーザーからの質問と問答ライブラリ内の質問とのマッチングアルゴリズムの効果がうまくないため、答え正確率と再現率が低くなる。
【0014】
上記の技術的問題に対して、本開示は、医薬品知識の問答方法を提供し、図1に示すように、この方法は、
医薬品質問テキストを取得するステップS101と、
医薬品質問テキストに基づいて、医薬品知識ベース内の質問答案テキストを検索し、医薬品質問テキストに対応する答案テキストを取得するステップS102と、
医薬品質問テキストに基づいて、医薬品知識ベース内の医薬品説明書を検索し、医薬品質問テキストに対応する説明書テキストを取得するステップS103と、
答案テキストと説明書テキストに基づいて、医薬品質問テキストに対応する返答テキストを生成するステップS104とを含む。
【0015】
具体的には、本実施例における医薬品質問テキストとは、ユーザーが入力されたクエリ、例えば、「頭痛に一番効く薬は何ですか?」、「この薬の副作用は何ですか?」などの質問を指す。質問答案テキストとは、QAペアを指し、各QAペアは質問(question)及び対応する答案(answer)を含む。例えば、「イブプロフェンの副作用は何ですか?」という質問に対して、対応する答案は、「イブプロフェンの副作用は、吐き気、嘔吐、腹痛、灼熱感や軽度の消化不良、胃腸潰瘍、出血などの胃腸障害を引き起こす可能性があり、時には発疹、蕁麻疹なども見られることである」ことである。ステップS102では、先ず、QAペアマッチングを行うことができ、対応する質問Qがマッチングした場合、答案テキストとして対応する答案Aを直接返す。
【0016】
ステップS102において、答案テキストがマッチングしない場合、ステップS103では、さらに医薬品説明書をマッチングすることができ、クエリに含まれる医薬品名称に対応する医薬品説明書を見つけて、対応する医薬品説明書から関連する医薬品知識を検索し、ユーザーに返す。通常、医薬品説明書の内容が多く、検索により、クエリに関する医薬品知識のみをユーザーに返すことができ、例えば、ユーザーが「この薬の副作用は何ですか?」ということを入力する場合、医薬品説明書における、副作用に関する段落のみを説明書テキストとして抽出する必要があり、これにより、正確なマッチングを実現する。
【0017】
本開示は質問答案テキストの検索と医薬品説明書の段落検索という2つの方法を合わせたものであり、質問答案テキストの検索により、ユーザークエリに関する答案を迅速で正確に検索でき、正確な答案がマッチングしないとき、医薬品説明書の段落を補充として検索してもよく、問答システムの再現率を確保し、システムの答え正確率と再現率を向上させる。
【0018】
選択的な実施形態として、医薬品質問テキストに基づいて、医薬品知識ベース内の質問答案テキストを検索し、医薬品質問テキストに対応する答案テキストを取得するステップS102では、従来の検索アルゴリズム、例えば、TF-IDFアルゴリズムを選択してもよいし、ベクトル検索の方法を選択してもよい。ユーザークエリベクトルと医薬品説明書の内容ベクトルとのコサイン類似度などを計算することにより、最も関連性の高い内容を再現し、例えば、クエリとQAライブラリにおけるQに基づいて類似度を計算し、類似性スコアに従ってソーティングし、類似性スコアが最も高いTop5のQAペアを選択し、これにより、ユーザー質問への正確なマッチングを実現する。
【0019】
選択的な実施形態として、ステップS102において、医薬品質問テキストに基づいて、医薬品知識ベース内の質問答案テキストを検索する前に、図2に示すように、
医薬品質問テキストを書き換えるステップS101aをさらに含む。
【0020】
具体的に、図2に示すように、本実施例における医薬品知識の問答方法は、
医薬品質問テキストを取得するステップS101と、
医薬品質問テキストを書き換えるステップS101aと、
書き換えられた後の医薬品質問テキストに基づいて、医薬品知識ベース内の質問答案テキストを検索し、対応する答案テキストを取得するステップS102と、
書き換えられた後の医薬品質問テキストに基づいて、医薬品知識ベース内の医薬品説明書を検索し、対応する説明書テキストを取得するステップS103と、
答案テキストと説明書テキストに基づいて、書き換えられた後の医薬品質問テキストに対応する返答テキストを生成するステップS104とを含む。
【0021】
ユーザーが医薬品情報をクエリするとき、様々な言語と表現方式、例えば、「頭痛に一番効く薬は何ですか?」又は「この薬の副作用は何ですか?」などを使ってそれらのニーズを説明する可能性がある。従来の自然言語処理技術では、ユーザークエリに対して単語の分割とストップワードの削除などの操作を行い、又はあらかじめ設定されたルールに従って書き換える必要がある。本実施例では、大規模言語モデル(Large Language Model、LLM)のプロンプトワード技術によって実現できる。具体的なやり方は、ユーザーがクエリしたコンテキスト履歴対話情報と今回ユーザーが入力した質問とを完全なコンテキスト対話に組み立てられた後、対話内容とプロンプトワード要求とをともにLLMの入力として、モデルにもっと標準(具体的な医薬品名称、具体的なユーザー意図などの情報を含む)的なユーザークエリ(即ち、書き換えられた後の医薬品質問テキスト)を生成させ、書き換えられた後のクエリが現在のクエリと同じセマンティクスがあることを保証することである。医薬品質問テキストへの書き換えにより、システムがユーザーにより入力した医薬品質問テキストを理解することに役立ち、これにより、問答システムの正確率を高める。
【0022】
選択的な実施形態として、医薬品質問テキストを書き換えることは、
医薬品質問テキストに関する履歴対話情報を取得し、履歴対話情報における医薬品情報に基づいて医薬品質問テキストを書き換えることを含む。
【0023】
具体的には、本開示はユーザークエリの書き換え方法を提供し、この方法は、複数ラウンドの対話を行ったコンテキスト情報により、医薬品情報をユーザーの最後のクエリに補充し、例えば、1ラウンド目の対話でユーザーが「頭痛に一番効く薬は何ですか?」とクエリし、この薬がイブプロフェンであると得た後、「この薬の副作用は何ですか?」という現在のユーザークエリを「イブプロフェンの副作用は何ですか?」に書き換えて、これにより、問答システムの正確率を高める。次に、ユーザーの自然言語のクエリをエンティティ認識などの方法で、機器が理解できる形式に変換し、これにより、クエリの正確率を高める。
【0024】
選択的な実施形態として、ステップS103において、医薬品質問テキストに基づいて、医薬品知識ベース内の医薬品説明書を検索し、医薬品質問テキストに対応する説明書テキストを取得することは、図3に示すように、
医薬品質問テキストをエンティティ認識し、医薬品質問テキストに対応する医薬品名称を取得するステップS1031と、
医薬品名称により、医薬品知識ベースを検索し、医薬品質問テキストに対応する医薬品説明書を取得するステップS1032と、
医薬品説明書から医薬品質問テキストに対応する説明書テキストを抽出して取得するステップS1033とを含む。
【0025】
具体的には、検索の正確率を高めるために、クエリで言及された医薬品をエンティティ認識する必要があり、エンティティ認識のステップはクエリの書き換えプロセス中に完成できる。医薬品エンティティにより、本医薬品以外の内容をフィルタリングし、これにより、抽出された内容の正確率を高める。エンティティ認識は従来の名前付きエンティティ認識(Name Entity Recognition、NER)技術を使用してもよいし、キーワードマッチングの方法で医薬品名称を識別してもよい。医薬品名称を識別して取得し、医薬品名称で対応する医薬品説明書を検索して取得し、その後、医薬品説明書からクエリに対応する説明書テキストを抽出して取得する。例えば、医薬品質問テキストが「イブプロフェンの副作用は何ですか?」であり、ステップS1031では、医薬品質問テキストをエンティティ認識し、医薬品名称が「イブプロフェン」であることを取得し、ステップS1032では、「イブプロフェン」という医薬品名称で医薬品知識ベースにおいて、イブプロフェンの医薬品説明書を検索して取得し、ステップS1033では、イブプロフェンの医薬品説明書から「副作用」に関する説明書テキストを抽出して取得し、ユーザーの質問に答え、これにより、問答システムの正確率を高める。
【0026】
選択的な実施形態として、医薬品質問テキストをエンティティ認識し、医薬品質問テキストに対応する医薬品名称を取得することは、
医薬品包装箱に対応する二次元コードを走査することで、又は取得された医薬品包装箱の画像で文字を識別し、医薬品質問テキストに対応する医薬品名称を取得することを含む。
【0027】
本開示では、デジタルヒューマンを介して、医薬品に関するユーザーの質問に生き生きと答えることができる。例えば、ユーザーが携帯電話を使用して、医薬品包装箱にある二次元コードを走査すると、携帯電話にはデジタルヒューマンが表示され、使用上の説明がいくつかある。ユーザーが該医薬品に関する質問をダイアログボックスに入力すると、デジタルヒューマンは解答し、ユーザーは使いやすい。
【0028】
選択的な実施形態として、ステップS1033において、医薬品説明書から医薬品質問テキストに対応する説明書テキストを抽出して取得することは、図4に示すように、
医薬品質問テキストを意図識別し、意図識別結果を取得するステップS1033aと、
意図識別結果により、医薬品説明書から対応する説明書テキストを抽出するステップS1033bとを含む。
【0029】
本開示では、機械学習技術を使用してユーザークエリの意図を分類し、ここで、意図が用法・用量、相互作用、基本情報、有害反応、禁忌症、有効性、注意事項など複数の種類に分けられることができ、意図識別の役割はユーザーのクエリ意図が医薬品説明書のどの部分の内容に属するかを判断し、その後、対応する部分に位置決めして検索することであり、検索の正確率と効率を高める。例えば、ユーザーが「この薬の副作用は何ですか?」とクエリする場合、医薬品説明書における「有害反応」という部分が検索される。
【0030】
具体的には、意図分類モデルは汎用のテキスト分類モデル、例えば、CNN(Convolutional Neural Networks、畳み込みニューラルネットワーク)、RNN(Recurrent Neural Network、リカレントニューラルネットワーク)、Transformerなどのモデルを採用し、softmax層を出力層に接続し、クロスエントロピー損失を計算すれば、勾配降下法でモデルを最適化し、モデルトレーニングを完成することができる。
【0031】
選択的な実施形態として、ステップS1032において、医薬品名称により、医薬品知識ベースを検索し、医薬品質問テキストに対応する医薬品説明書を取得することは、
医薬品質問テキストに対応する医薬品名称と医薬品知識ベースにおける各医薬品説明書に基づいて、類似度の計算を行い、最も類似度の高い医薬品説明書を取得することを含み、
ステップS1033において、医薬品説明書から医薬品質問テキストに対応する説明書テキストを抽出して取得することは、
意図識別結果により、類似度が最も高い医薬品説明書から対応する説明書テキストを選別することを含む。
【0032】
本実施例におけるステップS103は医薬品名称を識別し、医薬品名称と医薬品説明書における医薬品名称により、類似度スコアを計算し、類似性スコアに従ってソーティングすることにより、類似性スコアが最も高いTop5の医薬品の医薬品説明書を選択することができる。類似性の原理は検索された医薬品説明書とユーザークエリにおける医薬品が同じ薬であることを保証できないため、フィルタリングが必要となる。Top5の医薬品説明書をトラバースし、ユーザークエリにおける医薬品名称が医薬品説明書における医薬品名の部分文字列であるかどうかを判断し、そうであれば、同じ薬と考えられ、該医薬品説明書の内容を保留し、トラバースが停止し、そうでなければ、該医薬品説明書の内容を捨てる。医薬品説明書を検索した場合、クエリの意図に基づいて、該意図に対応する説明書テキストを保留すれば良い。
【0033】
例示的に、図5に示すように、本実施例における完全な証拠検索の流れは、ステップS101において、医薬品質問テキストを取得した後、システムが2つの並行ブランチを介して証拠テキストを検索して取得することを含み、1番目のブランチはステップS102により、QAライブラリを検索し、類似性スコアが最も高いTop5のQAペアを取得するブランチであり、2番目のブランチはステップS103により、医薬品説明書を検索し、対応する説明書テキストを取得するブランチである。
【0034】
図5に示されたステップS103は具体的に、医薬品名称を識別するステップS1031と、次に、医薬品名称により、対応する医薬品説明書を検索するステップS1032と、ユーザーの意図により、医薬品説明書を抽出し、対応する説明書テキストを取得するステップS1033とを含む。
【0035】
図5に示されたステップS1032はさらに、Top5の医薬品説明書をトラバースし、医薬品説明書をフィルタリングするステップS1032aと、ユーザークエリにおける医薬品名称が医薬品説明書における医薬品名の部分文字列であるかどうかを判断し、そうであれば、同じ薬と考えられ、該医薬品説明書の内容を保留し、トラバースが停止するステップS1032bと、システムがマッチングされた医薬品説明書を返すステップS1032cとを含む。
【0036】
選択可能な実施形態として、ステップS104において、答案テキストと説明書テキストに基づいて、医薬品質問テキストに対応する返答テキストを生成することは、図6に示すように、
答案テキストと説明書テキストを組み合わせて、証拠テキストを取得するステップS104aと、
医薬品質問テキスト、証拠テキスト及びテキストの形式要求に従ってプロンプトテキスト(prompt)を構築するステップS104bと、
プロンプトテキストを大規模言語モデルに入力し、大規模言語モデルにより医薬品質問テキストに対応する返答テキストを出力して生成するステップS104cとを含む。
【0037】
ステップS102とステップS103において、それぞれ答案テキストと説明書テキストを検索した後、本実施例では、ステップS104aにより、QAペアと検索された医薬品説明書の内容を組み合わせて、最終的な証拠テキストを取得し、さらに、ステップS104bにおいて、組み合わされた証拠テキストにより、プロンプトを構築し、ステップS104cにおいて、該プロンプトを大規模言語モデルに入力し、大規模言語モデルは該プロンプトに基づいて、返答テキストを出力し、問答システムの答え正確率と再現率を向上させる。
【0038】
具体的には、プロンプト組み立ては比較的巧みな一環である。プロンプトの適切な組み立てはLLMの答えの錯覚を低減し、答えの正確性を高めることができる。医薬品問答のシーンでは、答えの正確率を十分に考慮する必要があり、ユーザーに傷害を与えることを回避する。そのため、大規模言語モデルの機能をより良く利用するには、本発明者らは、jsonフォーマットのキャリアに依存して思考を構造し、論理を強化し、大規模モデルの答えの正確率を向上するために、one-shotモードを導入した。
【0039】
ステップS104bにおいて、プロンプト構築の主な根拠は書き換えられた後のユーザークエリ、検索し取得された証拠テキスト、問答システムにより出力されたテキストへの形式要求という3つの部分である。ここで、第1の部分のクエリ書き換えと医薬品名識別:履歴対話を使用するかどうかを判断する必要があり、答えが履歴対話に依存する場合、history_useフィールドはtrueであり、且つコンテキストの参照を考慮し、再生成された質問はquery_rephraseフィールドに配置され、分析はhistory_use_reasonフィールドに配置され、現在のクエリの医薬品名前はdrug_nameフィールドに配置される。第2の部分の証拠理解と答え:答え内容はresponseフィールドに配置され、引用された検索証拠ポイントはcite_listリスト フィールドに配置され、cite_contentフィールドには、各段落の引用された内容(その中の省略された文字数が省略記号で置き換えることができる)が格納され、reason_for_citeはこの段落の内容を引用した考えや分析を格納するために用いられる。提供された参考証拠が質問と無関係な場合、unrelevantフィールドに配置され、且つその理由を説明する。第3の部分の形式要求はOne-shotモードを採用してもよい:全体的な思想は、大規模言語モデルに返しの例を提供することであり、該例は上記の説明に対応し、例示的な出力フォーマットは次のとおりである:

”history_use”: ”true/false”,
”query_rephrase”: ”xxxx”,
”history_use_reason”:”xxxx”,
”unrelevant”: ”xxxx”,
”cite_use”: ”true/false”,
”cite_list”:[
{”cite_content”:”[1]xxxx”,”reason_for_cite”:”この段落の内容は、xxxxについて言及し、これは提起された質問に答えることができる”}
],
”response”:”答え内容”
【0040】
上記のステップは、履歴対話を使用するかどうかと、再生成されたクエリは何であるかと、クエリを再生成する分析と、提供された、質問と無関係な参考証拠は何であるかと、証拠を引用するかどうかと、リスクには何の検索証拠ポイントが含まれるかと、何の内容を引用するかと、この段落の内容を引用した考えや分析と、クエリに対して答えることとを含む。プロンプトの組み立てにより、大規模言語モデルにユーザーの質問をよりよく理解させ、且つユーザーの質問に答えるために、よりわかりやすいテキストを生成させることができる。
【0041】
選択的な実施形態として、ステップS102において、医薬品質問テキストに基づいて、医薬品知識ベース内の質問答案テキストを検索する前に、
問答データを質問答案テキストとして解析し、医薬品知識ベースに記憶することをさらに含む。
【0042】
具体的には、問答システムの使用前に、医薬品知識ベースを取得するために、データベースを前処理する必要がある。本開示は自然言語処理技術を使用して医薬品説明書を構造化処理し、医薬品の名称、成分、適応症、用法・用量、有害反応などのキー情報を抽出し、それらをデータベースに記憶する。具体的なやり方は、医薬品名称、医薬品成分などのキーワード、及びこれらのキーワードのテキスト構造(例えば、段落の最初の行にある)などのルールに従って、構造化されていない医薬品説明書テキストを構造化処理し、データベースに記憶する。なお、該問答システムの汎化力を高めるために、問答データを統括的に<質問(question)、答案(answer)>ペア(即ち、QAペア)に解析し、データベースに記憶し、医薬品知識ベースを構築する。
【0043】
本開示はさらに、医薬品知識の問答装置700を提供し、図7に示すように、この装置は、
医薬品質問テキストを取得するように構成される取得モジュール701と、
医薬品質問テキストに基づいて、医薬品知識ベース内の質問答案テキストを検索し、医薬品質問テキストに対応する答案テキストを取得するように構成される第1の検索モジュール702と、
医薬品質問テキストに基づいて、医薬品知識ベース内の医薬品説明書を検索し、医薬品質問テキストに対応する説明書テキストを取得するように構成される第2の検索モジュール703と、
答案テキストと説明書テキストに基づいて、医薬品質問テキストに対応する返答テキストを生成するように構成される生成モジュール704とを含む。
【0044】
具体的には、本実施例における医薬品質問テキストとは、ユーザーが入力されたクエリ、例えば、「頭痛に一番効く薬は何ですか?」、「この薬の副作用は何ですか?」などの質問を指す。質問答案テキストとは、QAペアを指し、各QAペアは質問(question)及び対応する答案(answer)を含む。例えば、「イブプロフェンの副作用は何ですか?」という質問に対して、対応する答案は、「イブプロフェンの副作用は、吐き気、嘔吐、腹痛、灼熱感や軽度の消化不良、胃腸潰瘍、出血などの胃腸障害を引き起こす可能性があり、時には発疹、蕁麻疹、蕁麻疹なども見られることである」ことである。第1の検索モジュール702では、先ず、QAペアマッチングを行うことができ、対応する質問Qがマッチングした場合、答案テキストとして対応する答案Aを直接返す。
【0045】
第1の検索モジュール702では、答案テキストがマッチングできない場合、第2の検索モジュール703は、さらに医薬品説明書をマッチングすることができ、クエリに含まれる医薬品名称に対応する医薬品説明書を見つけて、対応する医薬品説明書から関連する医薬品知識を検索し、ユーザーに返す。通常、医薬品説明書の内容が多く、検索により、クエリに関する医薬品知識のみをユーザーに返すことができ、例えば、ユーザーが「この薬の副作用は何ですか?」ということを入力する場合、医薬品説明書における、副作用に関する段落のみを説明書テキストとして抽出する必要があり、これにより、正確なマッチングを実現する。
【0046】
本開示は質問答案テキストの検索と医薬品説明書の段落検索という2つの方法を合わせたものであり、質問答案テキストの検索により、ユーザークエリに関する答案を迅速で正確に検索でき、正確な答案がマッチングできないとき、医薬品説明書の段落を補充として検索してもよく、問答システムの再現率を確保し、システムの答え正確率と再現率を向上させる。
【0047】
選択的な実施形態として、医薬品質問テキストに基づいて、医薬品知識ベース内の質問答案テキストを検索し、医薬品質問テキストに対応する答案テキストを取得する第1の検索モジュール702において、従来の検索アルゴリズム、例えば、TF-IDFアルゴリズムを選択してもよいし、ベクトル検索の方法を選択してもよい。ユーザークエリベクトルと医薬品説明書の内容ベクトルとのコサイン類似度などを計算することにより、最も関連性の高い内容を再現し、例えば、クエリとQAライブラリにおけるQに基づいて類似度を計算し、類似性スコアに従ってソーティングし、類似性スコアが最も高いTop5のQAペアを選択し、これにより、ユーザー質問への正確なマッチングを実現する。
【0048】
選択的な実施形態として、図8に示すように、医薬品知識の問答装置700はさらに、
医薬品質問テキストに基づいて、医薬品知識ベース内の質問答案テキストを検索する前に、医薬品質問テキストを書き換えるように構成される書き換えモジュール705を含む。
【0049】
具体的には、ユーザーが医薬品情報をクエリするとき、様々な言語と表現方式、例えば、「頭痛に一番効く薬は何ですか?」又は「この薬の副作用は何ですか?」などを使ってそれらのニーズを説明する。従来の自然言語処理技術では、ユーザークエリに対して単語の分割とストップワードの削除などの操作を行い、又はあらかじめ設定されたルールに従って書き換える必要がある。本実施例では、大規模言語モデルのプロンプトワード技術によって実現できる。具体的なやり方は、ユーザーがクエリしたコンテキスト履歴対話情報と今回ユーザーが入力した質問とを完全なコンテキスト対話に組み立てられた後、対話内容とプロンプトワード要求とをともにLLMの入力として、モデルにもっと標準(具体的な医薬品名称、具体的なユーザー意図などの情報を含む)的なユーザークエリ(即ち、書き換えられた後の医薬品質問テキスト)を生成させ、書き換えられた後のクエリが現在のクエリと同じセマンティクがあることを保証することである。医薬品質問テキストへの書き換えにより、システムがユーザーにより入力した医薬品質問テキストを理解することに役立ち、これにより、問答システムの正確率を高める。
【0050】
選択的な実施形態として、書き換えモジュール705で、医薬品質問テキストを書き換えることは、
医薬品質問テキストに関する履歴対話情報を取得し、履歴対話情報における医薬品情報に基づいて医薬品質問テキストを書き換えることを含む。
【0051】
具体的には、本開示はユーザークエリの書き換え方法を提供し、この方法は、複数ラウンドの対話を行ったコンテキスト情報により、医薬品情報をユーザーの最後のクエリに補充し、例えば、1ラウンド目の対話でユーザーが「頭痛に一番効く薬は何ですか?」とクエリし、この薬がイブプロフェンであると得た後、「この薬の副作用は何ですか?」という現在のユーザークエリを「イブプロフェンの副作用は何ですか?」に書き換えて、これにより、問答システムの正確率を高める。次に、ユーザーの自然言語のクエリをエンティティ認識などの方法で、機器が理解できる形式に変換し、これにより、クエリの正確率を高める。
【0052】
選択的な実施形態として、図9に示すように、第2の検索モジュール703は、
医薬品質問テキストをエンティティ認識し、医薬品質問テキストに対応する医薬品名称を取得するように構成されるエンティティ認識ユニット7031と、
医薬品名称により、医薬品知識ベースを検索し、医薬品質問テキストに対応する医薬品説明書を取得するように構成される検索ユニット7032と、
医薬品説明書から医薬品質問テキストに対応する説明書テキストを抽出して取得するように構成されるテキスト抽出ユニット7033とを含む。
【0053】
具体的には、検索の正確率を高めるために、クエリで言及された医薬品をエンティティ認識する必要があり、エンティティ認識のステップはクエリの書き換えプロセス中に完成できる。医薬品エンティティにより、本医薬品以外の内容をフィルタリングし、これにより、抽出された内容の正確率を高める。エンティティ認識は従来のNER技術を使用してもよいし、キーワードマッチングの方法で医薬品名称を識別してもよい。医薬品名称を識別して取得し、医薬品名称で対応する医薬品説明書を検索して取得し、その後、医薬品説明書からクエリに対応する説明書テキストを抽出して取得する。例えば、医薬品質問テキストが「イブプロフェンの副作用は何ですか?」であり、エンティティ認識ユニット7031では、医薬品質問テキストをエンティティ認識し、医薬品名称が「イブプロフェン」であることを取得し、検索ユニット7032では、「イブプロフェン」という医薬品名称で医薬品知識ベースにおいて、イブプロフェンの医薬品説明書を検索して取得し、テキスト抽出ユニット7033では、イブプロフェンの医薬品説明書から「副作用」に関する説明書テキストを抽出して取得し、ユーザーの質問に答え、これにより、問答システムの正確率を高める。
【0054】
選択的な実施形態として、エンティティ認識ユニット7031では、医薬品質問テキストをエンティティ認識し、医薬品質問テキストに対応する医薬品名称を取得することは、
医薬品包装箱に対応する二次元コードを走査することで、又は取得された医薬品包装箱の画像で文字を識別し、医薬品質問テキストに対応する医薬品名称を取得することを含む。
【0055】
本開示では、デジタルヒューマンを介して、医薬品に関するユーザーの質問に生き生きと答えることができる。例えば、ユーザーが携帯電話を使用して、医薬品包装箱にある二次元コードを走査すると、携帯電話にはデジタルヒューマンが表示され、使用上の説明がいくつかある。ユーザーが該医薬品に関する質問をダイアログボックスに入力すると、デジタルヒューマンは解答する。
【0056】
選択的な実施形態として、図10に示すように、テキスト抽出ユニット7033は、
医薬品質問テキストを意図識別し、意図識別結果を取得するように構成される意図識別サブユニット7033aと、
意図識別結果により、医薬品説明書から対応する説明書テキストを抽出するように構成される抽出サブユニット7033bとを含む。
【0057】
本開示では、機械学習技術を使用してユーザークエリの意図を分類し、ここで、意図が用法・用量、相互作用、基本情報、有害反応、禁忌症、有効性、注意事項など複数の種類に分けられることができ、意図識別の役割はユーザーのクエリ意図が医薬品説明書のどの部分の内容に属するかを判断し、対応する部分に位置決めして検索することである。例えば、ユーザーが「この薬の副作用は何ですか?」とクエリする場合、医薬品説明書における「有害反応」という部分が検索される。
【0058】
具体的には、意図分類モデルは汎用のテキスト分類モデル、例えば、CNN、RNN、Transformerなどのモデルを採用してよく、softmax層を出力層に接続し、クロスエントロピー損失を計算すれば、勾配降下法でモデルを最適化し、モデルトレーニングを完成することができる。
【0059】
選択的な実施形態として、検索ユニット7032において、医薬品名称により、医薬品知識ベースを検索し、医薬品質問テキストに対応する医薬品説明書を取得することは、
医薬品質問テキストに対応する医薬品名称と医薬品知識ベースにおける各医薬品説明書に基づいて、類似度の計算を行い、類似度が最も高い医薬品説明書を取得することを含み、
テキスト抽出ユニット7033において、医薬品説明書から医薬品質問テキストに対応する説明書テキストを抽出して取得することは、
意図識別結果により、類似度が最も高い医薬品説明書から対応する説明書テキストを選別することを含む。
【0060】
本実施例における検索ユニット7032は医薬品名称を識別し、医薬品名称と医薬品説明書における医薬品名称により、類似度スコアを計算し、類似性スコアに従ってソーティングすることにより、類似性スコアが最も高いTop5の医薬品の医薬品説明書を選択することができる。類似性の原理は検索された医薬品説明書とユーザークエリにおける医薬品が同じ薬であることを保証できないため、フィルタリングが必要となる。Top5の医薬品説明書をトラバースし、ユーザークエリにおける医薬品名称が医薬品説明書における医薬品名の部分文字列であるかどうかを判断し、そうであれば、同じ薬と考えられ、該医薬品説明書の内容を保留し、トラバースが停止し、そうでなければ、該医薬品説明書の内容を捨てる。医薬品説明書を検索した場合、テキスト抽出ユニット7033はクエリの意図に基づいて、該意図に対応する説明書テキストを抽出して、保留すれば良い。
【0061】
選択的な実施形態として、図11に示すように、生成モジュール704は、
答案テキストと説明書テキストを組み合わせて、証拠テキストを取得するように構成される組み合わせユニット704aと、
医薬品質問テキスト、証拠テキスト及びテキストの形式要求に従ってプロンプトテキスト(prompt)を構築するように構成されるプロンプトテキスト構築ユニット704bと、
プロンプトテキストを大規模言語モデルに入力し、大規模言語モデルにより医薬品質問テキストに対応する返答テキストを出力して生成するように構成される生成ユニット704cとを含む。
【0062】
第1の検索モジュール702と第2の検索モジュール703において、それぞれ答案テキストと説明書テキストを検索した後、本実施例では、システムは組み合わせユニット704aにより、QAペアと検索された医薬品説明書の内容を組み合わせて、最終的な証拠テキストを取得し、さらに、プロンプトテキスト構築ユニット704bは、組み合わされた証拠テキストにより、プロンプトを構築し、生成ユニット704cは、該プロンプトを大規模言語モデルに入力し、大規模言語モデルは該プロンプトに基づいて、返答テキストを出力し、問答システムの答え正確率と再現率を向上させる。
【0063】
具体的には、プロンプト組み立ては比較的巧みな一環である。プロンプトの適切な組み立てはLLMの答えの錯覚を低減し、答えの正確性を高めることができる。医薬品問答のシーンでは、答えの正確率を十分に考慮する必要があり、ユーザーに傷害を与えることを回避する。そのため、大規模言語モデルの機能をより良く利用するには、本発明者らは、jsonフォーマットのキャリアに依存して思考を構造し、論理を強化し、大規模モデルの答えの正確率を向上するために、one-shotモードを導入した。
【0064】
プロンプト構築の具体的な方法の主な根拠は書き換えられた後のユーザークエリ、検索し取得された証拠テキスト、問答システムにより出力されたテキストへの形式要求という3つの部分である。ここで、第1の部分のクエリ書き換えと医薬品名識別:履歴対話を使用するかどうかを判断する必要があり、答えが履歴対話に依存する場合、history_useフィールドはtrueであり、且つコンテキストの参照を考慮し、再生成された質問はquery_rephraseフィールドに配置され、分析はhistory_use_reasonフィールドに配置され、現在のクエリの医薬品名前はdrug_nameフィールドに配置される。第2の部分の証拠理解と答え:答え内容はresponseフィールドに配置され、引用された検索証拠ポイントはcite_listリスト フィールドに配置され、cite_contentフィールドには、各段落の引用された内容(その中の省略された文字数が省略記号で置き換えることができる)が格納され、reason_for_citeはこの段落の内容を引用した考えや分析を格納するために用いられる。提供された参考証拠が質問と無関係な場合、unrelevantフィールドに配置され、且つその理由を説明する。第3の部分の形式要求はOne-shotモードを採用してもよい:全体的な思想は、大規模言語モデルに返しの例を提供することであり、該例は上記の説明に対応し、例示的な出力フォーマットは次のとおりである:

”history_use”: ”true/false”,
”query_rephrase”: ”xxxx”,
”history_use_reason”:”xxxx”,
”unrelevant”: ”xxxx”,
”cite_use”: ”true/false”,
”cite_list”:[
{”cite_content”:”[1]xxxx”,”reason_for_cite”:”この段落の内容は、xxxxについて言及し、これは提起された質問に答えることができる”}
],
”response”:”答え内容”
【0065】
上記のステップは、履歴対話を使用するかどうかと、再生成されたクエリは何であるかと、クエリを再生成する分析と、提供された、質問と無関係な参考証拠は何であるかと、証拠を引用するかどうかと、リスクには何の検索証拠ポイントが含まれるかと、何の内容を引用するかと、この段落の内容を引用した考えや分析と、クエリに対して答えることとを含む。プロンプトの組み立てにより、大規模言語モデルにユーザーの質問をよりよく理解させ、且つユーザーの質問に答えるために、よりわかりやすいテキストを生成させることができる。
【0066】
選択的な実施形態として、医薬品知識の問答装置700はさらに、
第1の検索モジュール702が医薬品質問テキストに基づいて、医薬品知識ベース内の質問答案テキストを検索する前に、問答データを質問答案テキストとして解析し、医薬品知識ベースに記憶するように構成されるデータ処理モジュールを含む。
【0067】
具体的には、問答システムの使用前に、医薬品知識ベースを取得するために、データベースを前処理する必要がある。本開示は自然言語処理技術を使用して医薬品説明書を構造化処理し、医薬品の名称、成分、適応症、用法・用量、有害反応などのキー情報を抽出し、それらをデータベースに記憶する。具体的なやり方は、医薬品名称、医薬品成分などのキーワード、及びこれらのキーワードのテキスト構造(例えば、段落の最初の行にある)などのルールに従って、構造化されていない医薬品説明書テキストを構造化処理し、データベースに記憶する。なお、該問答システムの汎化力を高めるために、問答データを統括的に<質問(question)、答案(answer)>ペア(即ち、QAペア)に解析し、データベースに記憶し、医薬品知識ベースを構築する。
【0068】
本開示の技術案において、関連するユーザー個人情報の取得、記憶と応用などは、すべて関連法律法規の規定に合致し、かつ公順良俗に違反しない。
【0069】
本開示の実施例によれば、本開示は、電子機器、可読記憶媒体及びコンピュータプログラム製品をさらに提供する。
【0070】
図12では、本開示の実施例を実現するために使用できる例示的な電子機器1200の概略ブロック図が示されている。電子機器は、様々な形態のデジタルコンピュータ機器、例えば、ラップトップ型コンピュータ、デスクトップ型コンピュータ、ステージ、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、その他の適切なコンピュータを示すことを目的とする。電子機器はさらに、様々な形態の移動装置、例えば、パーソナルデジタル処理、携帯電話、インテリジェントフォン、ウェアラブル機器とその他の類似する計算装置を示してよい。本明細書に示す部品、それらの接続関係及びそれらの機能は、例示的なものに過ぎず、本明細書において説明及び/又は請求した本開示の実現を制限することを意図しない。
【0071】
図12に示すように、機器1200は、計算ユニット1201を含み、それはリードオンリーメモリ(ROM)1202に記憶されたコンピュータプログラムまた記憶ユニット1208からランダムアクセスメモリ(RAM)1203にロードされるコンピュータプログラムによって、種々の適当な操作と処理を実行することができる。RAM1203において、さらに機器1200を操作するために必要な様々なプログラムとデータを記憶してよい。計算ユニット1201、ROM1202及びRAM1203は、バス1204を介して互いに接続される。入力/出力(I/O)インターフェース1205もバス1204に接続されている。
【0072】
機器1200における複数の部品はI/Oインターフェース1205に接続され、例えばキーボード、マウスなどの入力ユニット1206、例えば様々なタイプのディスプレイ、スピーカーなどの出力ユニット1207、例えば磁気ディスク、光ディスクなどの記憶ユニット1208、及び例えばネットワークカード、変調復調器、無線通信送受信機などの通信ユニット1209を含む。通信ユニット1209は、機器1200が例えばインターネットなどのコンピュータネットワーク及び/又は様々な電気通信ネットワークを介して他の装置と情報/データを交換することを可能にする。
【0073】
計算ユニット1201は、処理及び計算能力を有する様々な汎用及び/又は専用処理コンポーネントであってよい。計算ユニット1201のいくつかの例として、中央処理ユニット(CPU)、グラフィックス処理ユニット(GPU)、様々な専用人工知能(AI)計算チップ、機械学習の目的関数アルゴリズムを実行する様々な計算ユニット、デジタル信号プロセッサ(DSP)、及び任意の適当なプロセッサ、コントローラ、マイクロコントローラなどを含んでもよいが、これらに限定されない。計算ユニット1201は上記内容で説明した各方法と処理、例えば医薬品知識の問答方法を実行する。例えば、一部の実施例において、医薬品知識の問答方法はコンピュータソフトウェアプログラムとして実現してよく、機械可読媒体、例えば、記憶ユニット1208に有形に含まれる。いくつかの実施例において、コンピュータプログラムの一部又はすべてはROM1202及び/又は通信ユニット1209を経由して機器1200にロード及び/又はインストールされてよい。コンピュータプログラムがRAM1203にロードされて計算ユニット1201によって実行されるとき、上記で説明される医薬品知識の問答方法の1つ又は複数のステップを実行することができる。代替的に、別の実施例において、計算ユニット1201は他のいかなる適切な方式で(例えば、ファームウェアにより)医薬品知識の問答方法を実行するように構成されてよい。
【0074】
本明細書で上述したシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールド・プログラマブル・ゲート・アレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、複雑なプログラマブル論理デバイス(CPLD)、ソフトウェア・ハードウェア、ファームウェア、ソフトウェア、及び/又はこれらの組み合わせにおいて実装することができる。これらの様々な実施形態は、以下を含んでもよい。1つ又は複数のコンピュータプログラムにおいて実施され、該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムで実行及び/又は解釈されてもよく、該プログラマブルプロセッサは、専用又は汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、少なくとも1つの出力装置からデータと命令を受信するとともに、データと命令を該記憶システム、該少なくとも1つの入力装置、該少なくとも1つの出力装置に送信してもよい。
【0075】
本開示の方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせで書かれてもよい。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよく、それによりプログラムコードがプロセッサ又はコントローラによって実行されるとき、フローチャート及び/又はブロック図に規定される機能/操作が実施される。プログラムコードは、完全に機械で実行されてもよく、部分的に機械で実行されてもよく、独立したソフトウェアパッケージとして部分的に機械で実行され且つ部分的に遠隔機械で実行されてもよく、又は完全に遠隔機械又はサーバで実行されてもよい。
【0076】
本開示のコンテキストにおいて、機械可読媒体は、有形の媒体であってもよく、それは、命令実行システム、装置又はデバイスに使用されるか又は命令実行システム、装置又はデバイスに結合されて使用されるプログラムを包含又は記憶してもよい。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子的、磁気的、光学的、電磁的、赤外線的、又は半導体システム、装置又は機器、又は上記内容の任意の適切な組み合わせを含んでもよいが、それらに限らない。機械可読記憶媒体のより具体的な例は、1つ又は複数の線による電気的接続、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能なプログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバー、携帯型コンパクトディスクリードオンリーメモリ(CD-ROM)、光学記憶デバイス、磁気記憶デバイス、又は上記内容の任意の適切な組み合わせを含む。
【0077】
ユーザーとのインタラクションを提供するために、コンピュータにおいてここで説明したシステムと技術を実施してもよく、該コンピュータは、ユーザーに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)監視モニタ)、及びキーボードとポインティング装置(例えば、マウスやトラックボール)を有し、ユーザーは、該キーボードと該ポインティング装置によって入力をコンピュータに提供してもよい。その他の種類の装置はさらに、ユーザーとのインタラクティブを提供するためのものであってもよい。例えば、ユーザーに提供されるフィードバックは、任意の形式の感覚フィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、そして任意の形式(音声入力、ボイス入力、触覚入力を含む)でユーザーからの入力を受信してもよい。
【0078】
ここで説明したシステム及び技術は、バックグラウンド部材を含む計算システム(例えば、データサーバ)や、ミドルウェア部材を含む計算システム(例えば、アプリケーションサーバ)や、フロントエンド部材を含む計算システム(例えば、グラフィカルユーザーインタフェース又はウェブブラウザを有するユーザーコンピュータであり、ユーザーは、該グラフィカルユーザーインタフェース又は該ウェブブラウザを通じて、ここで説明したシステム及び技術の実施形態とインタラクションできる)や、このようなバックグラウンド部材、ミドルウェア部材、又はフロントエンド部材の任意の組み合わせを含む計算システムにおいて実施されてもよい。システムの部材は、任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)により相互に接続されてもよい。通信ネットワークの例として、ローカルネットワーク(LAN)、広域ネットワーク(WAN)とインターネットを含む。
【0079】
コンピュータシステムは、クライアントとサーバを含んでもよい。クライアントとサーバは、一般的に互に遠く離れており、通常、通信ネットワークを介してインタラクションを行う。互いにクライアント-サーバという関係を有するコンピュータプログラムを、該当するコンピュータにおいて実行することによって、クライアントとサーバの関係を生成する。サーバは、クラウドサーバであってもよく、分散型システムのサーバ、又はブロックチェーンを組み込んだサーバであってもよい。
【0080】
理解すべきこととして、上記に示す様々な形式のフローを使用して、ステップを改めて順位付け、追加又は削除してもよい。例えば、本開示に記載された各ステップは、並列的に実行してもよいし、順次実行してもよいし、異なる順序で実行させてもよいし、本開示の技術案が所望する結果を実現できれば、本文はこれに限定されないことである。
【0081】
上述した具体的な実施形態は、本開示の保護範囲に対する限定を構成するものではない。当業者であれば、設計要求及び他の要因に応じて、各種の修正、組み合わせ、サブ組み合わせ及び代替を行うことができると理解すべきである。本開示の趣旨及び原則内になされた任意の修正、同等置換及び改良などは、いずれも本開示の保護範囲に含まれるべきである。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
【外国語明細書】