IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 國立成功大學の特許一覧

特開2024-63704知識グラフを生成するシステムおよび方法、ならびにそれらを使用するシステムおよび方法
<>
  • 特開-知識グラフを生成するシステムおよび方法、ならびにそれらを使用するシステムおよび方法 図1
  • 特開-知識グラフを生成するシステムおよび方法、ならびにそれらを使用するシステムおよび方法 図2
  • 特開-知識グラフを生成するシステムおよび方法、ならびにそれらを使用するシステムおよび方法 図3
  • 特開-知識グラフを生成するシステムおよび方法、ならびにそれらを使用するシステムおよび方法 図4
  • 特開-知識グラフを生成するシステムおよび方法、ならびにそれらを使用するシステムおよび方法 図5
  • 特開-知識グラフを生成するシステムおよび方法、ならびにそれらを使用するシステムおよび方法 図6
  • 特開-知識グラフを生成するシステムおよび方法、ならびにそれらを使用するシステムおよび方法 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024063704
(43)【公開日】2024-05-13
(54)【発明の名称】知識グラフを生成するシステムおよび方法、ならびにそれらを使用するシステムおよび方法
(51)【国際特許分類】
   G06F 16/36 20190101AFI20240502BHJP
【FI】
G06F16/36
【審査請求】有
【請求項の数】10
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2022186823
(22)【出願日】2022-11-22
(31)【優先権主張番号】111140554
(32)【優先日】2022-10-26
(33)【優先権主張国・地域又は機関】TW
(71)【出願人】
【識別番号】502250743
【氏名又は名称】國立成功大學
【氏名又は名称原語表記】NATIONAL CHENG KUNG UNIVERSITY
(74)【代理人】
【識別番号】110000408
【氏名又は名称】弁理士法人高橋・林アンドパートナーズ
(72)【発明者】
【氏名】ル, ウェン-シャン
(72)【発明者】
【氏名】トゥン, シャ-ミン
(72)【発明者】
【氏名】リュウ, ディン-ジェ
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA01
5B175KA12
(57)【要約】      (修正有)
【課題】知識グラフを生成する又は使用する方法及びシステムを提供する。
【解決手段】処理装置によって実行される知識グラフを生成する方法は、知識ドキュメントを取得し、知識ドキュメントに対して単語分割および品詞タグ付けを実行し、複数のタグ付けされた単語を生成し、デフォルトの文型にしたがって、タグ付けされた単語から複数の文を取得する、ことを含む。ここで、各文は主語、副詞型に対応する副詞、動詞および目的語を含む。各文について、知識グラフを生成する方法は、主語をトリプルの第1エンティティとして使用し、目的語をトリプルの第2エンティティとして使用し、副詞型および動詞をトリプルの関係として使用し、各文に対応するトリプルを使用して知識グラフを形成する、ことを含む。
【選択図】図2
【特許請求の範囲】
【請求項1】
処理装置によって実行される知識グラフを生成する方法であって、
前記知識グラフを生成する方法は、
知識ドキュメントを取得し、
前記知識ドキュメントに対して単語分割および品詞タグ付けを実行し、複数のタグ付けされた単語を生成し、
デフォルト文パターンにしたがって、前記タグ付けされた単語から複数の文を取得する、ことを含み、
前記文の各々は、主語、副詞型に対応する副詞、動詞および目的語を含み、
前記文の各々について、前記知識グラフを生成する方法は、
前記主語をトリプルの第1エンティティとして使用し、
前記目的語を前記トリプルの第2エンティティとして使用し、
前記副詞型および前記動詞を前記トリプルの関係として使用し、
前記文の各々に対応する前記トリプルを使用して知識グラフを形成する、ことを含む、
知識グラフを生成する方法。
【請求項2】
前記処理装置はレキシコンと接続され、
前記主語を取得した後、前記知識グラフを生成する方法は、さらに、
前記レキシコンが前記主語を有するか否かを判定し、
前記レキシコンが前記主語を有していないとき、前記主語を前記レキシコンに追加し、
前記知識ドキュメントに対して、前記品詞タグ付けを再度実行する、ことを含む、
請求項1に記載の知識グラフを生成する方法。
【請求項3】
第1処理装置によって実行される知識グラフを使用する方法であって、
前記知識グラフを使用する方法は、
入力質問を取得し、
前記入力質問に対して自然言語理解手順を実行し、前記入力質問の質問主語、質問目的語および質問関係を含む質問セットを取得し、
請求項1に記載の前記知識グラフを生成する方法により生成された複数の候補知識グラフから、前記質問主語と一致するターゲット知識グラフを検索し、
前記質問主語と一致する前記ターゲット知識グラフの中の第1ターゲットエンティティ、および前記質問目的語と一致する前記ターゲット知識グラフの中の第2ターゲットエンティティを決定し、
前記第1ターゲットエンティティと前記第2ターゲットエンティティとを接続するターゲット関係を決定し、
前記第1ターゲットエンティティ、前記第2ターゲットエンティティおよび前記ターゲット関係にしたがって質問応答を出力する、ことを含む、
知識グラフを使用する方法。
【請求項4】
前記質問セットは、さらに、質問意図を含み、
前記第1ターゲットエンティティ、前記第2ターゲットエンティティおよび前記ターゲット関係にしたがって前記質問応答を出力することは、
前記質問意図を、前記第1ターゲットエンティティ、前記第2ターゲットエンティティおよび前記ターゲット関係と照合し、初期応答を形成し、
前記初期応答に対して自然言語生成手順を実行し、前記質問応答を生成する、ことを含む、
請求項3に記載の知識グラフを使用する方法。
【請求項5】
第1処理装置によって実行される知識グラフを使用する方法であって、
前記知識グラフを使用する方法は、
入力質問を取得し、
前記入力質問に対して自然言語理解手順を実行し、前記入力質問の質問主語、質問目的語および質問関係を含む質問セットを取得し、
請求項2に記載の知識グラフを生成する方法により生成された複数の候補知識グラフから、前記質問主語と一致するターゲット知識グラフを検索し、
前記質問主語と一致する前記ターゲット知識グラフの中の第1ターゲットエンティティ、および前記質問目的語と一致する前記ターゲット知識グラフの中の第2ターゲットエンティティを決定し、
前記第1ターゲットエンティティと前記第2ターゲットエンティティとを接続するターゲット関係を決定し、
前記第1ターゲットエンティティ、前記第2ターゲットエンティティ、および前記ターゲット関係にしたがって質問応答を出力する、ことを含む、
知識グラフを使用する方法。
【請求項6】
知識ドキュメントを格納するメモリと、
前記メモリと接続される処理装置と、を含み、
前記処理装置は、
前記知識ドキュメントを取得し、
前記知識ドキュメントに対して単語分割および品詞タグ付けを実行し、複数のタグ付けされた単語を生成し、
デフォルト文パターンにしたがって、前記タグ付けされた単語から複数の文を取得する、ことを実行し、
前記文の各々は、主語、副詞型に対応する副詞、動詞および目的語を含み、
前記文の各々について、前記処理装置は、
前記主語をトリプルの第1エンティティとして使用し、
前記目的語を前記トリプルの第2エンティティとして使用し、
前記副詞型および前記動詞を前記トリプルの関係として使用し、
前記文の各々に対応する前記トリプルを使用して知識グラフを形成する、ことを実行する、
知識グラフを生成するシステム。
【請求項7】
前記処理装置はレキシコンと接続され、
前記主語を取得した後、前記処理装置は、さらに、
前記レキシコンが前記主語を有するか否かを判定し、
前記レキシコンが前記主語を有していないとき、前記主語を前記レキシコンに追加し、
前記知識ドキュメントに対して、前記品詞タグ付けを再度実行する、ことを実行する、
請求項6に記載の知識グラフを生成するシステム。
【請求項8】
請求項1に記載された知識グラフを生成する方法にしたがって生成された複数の候補知識グラフを格納するメモリと、
入力質問を取得し、前記入力質問に対応する質問応答を提示するユーザインターフェースと、
前記メモリおよび前記ユーザインターフェースと接続される第1処理装置と、を含み、
前記第1処理装置は、
前記入力質問に対して自然言語理解手順を実行し、前記入力質問の質問主語、質問目的語および質問関係を含む質問セットを取得し、
前記複数の候補知識グラフから前記質問主語と一致するターゲット知識グラフを検索し、
前記質問主語と一致する前記ターゲット知識グラフの中の第1ターゲットエンティティ、および前記質問目的語と一致する前記ターゲット知識グラフの中の第2ターゲットエンティティを決定し、
前記第1ターゲットエンティティと前記第2ターゲットエンティティとを接続するターゲット関係を決定し、
前記第1ターゲットエンティティ、前記第2ターゲットエンティティおよび前記ターゲット関係にしたがって質問応答を出力する、ことを実行する、
知識グラフを使用するシステム。
【請求項9】
前記質問セットは、さらに、質問意図を含み、
前記第1処理装置が、前記第1ターゲットエンティティ、前記第2ターゲットエンティティおよび前記ターゲット関係にしたがって前記質問応答を出力することを実行することは、
前記質問意図を、前記第1ターゲットエンティティ、前記第2ターゲットエンティティおよび前記ターゲット関係と照合して、初期応答を形成し、
前記初期応答に対して自然言語生成手順を実行し、前記質問応答を生成する、ことを含む、
請求項8に記載の知識グラフを使用するシステム。
【請求項10】
請求項2に記載された知識グラフを生成する方法にしたがって生成された複数の候補知識グラフを格納するメモリと、
入力質問を取得し、前記入力質問に対応する質問応答を提示するユーザインターフェースと、
前記メモリおよび前記ユーザインターフェースと接続される第1処理装置と、を含み、
前記第1処理装置は、
前記入力質問に対して自然言語理解手順を実行し、前記入力質問の質問主語、質問目的語および質問関係を含む質問セットを取得し、
前記複数の候補知識フラフから前記質問主語と一致するターゲット知識グラフを検索し、
前記質問主語と一致する前記ターゲット知識グラフの中の第1ターゲットエンティティ、および前記質問目的語と一致する前記ターゲット知識グラフの中の第2ターゲットエンティティを決定し、
前記第1ターゲットエンティティと前記第2ターゲットエンティティとを接続するターゲット関係を決定し、
前記第1ターゲットエンティティ、前記第2ターゲットエンティティおよびターゲット関係にしたがって質問応答する、ことを実行する、
知識グラフを使用するシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、知識グラフを生成するシステムおよび方法、ならびにそれらを使用するシステムおよび方法に関する。
【背景技術】
【0002】
近年、知識グラフは、人間の言語および知識推論の理解を支援し、チャットボットによるユーザ体験を向上させるために、医療知識グラフ、金融知識グラフ、電子商取引グラフなどのチャットボットおよび質問応答システムで広く使用されている。ノード(エンティティ)とエッジ(関係)で形成される知識グラフにより、ユーザはより迅速に答えを見つけ、またはユーザが予期しなかった検索結果に関する情報を提供することができる。
【0003】
しかしながら、既存の知識グラフ技術は、知識の衝突の問題に対処していないため、一部の知識を正しく表現することができない。さらに、知識グラフを構築するための既存の意味論的解析は、表面的かつ直接的であり、深い意味論的含意を扱っていない。
【発明の概要】
【発明が解決しようとする課題】
【0004】
したがって、本開示は、知識グラフを生成するシステムおよび方法、ならびにそれらを使用するシステムおよび方法を提供する。
【課題を解決するための手段】
【0005】
本開示の1つ以上の実施形態によれば、処理装置によって実行される知識グラフを生成する方法は、知識ドキュメントを取得し、知識ドキュメントに対して単語分割および品詞タグ付けを実行し、複数のタグ付けされた単語を生成し、デフォルト文パターンにしたがって、タグ付けされた単語から複数の文を取得する、ことを含む。ここで、各文は、主語、副詞型に対応する副詞、動詞および目的語を含む。各文について、知識グラフを生成する方法は、主語をトリプルの第1エンティティとして使用し、目的語をトリプルの第2エンティティとして使用し、副詞型および動詞をトリプルの関係として使用し、各文に対応するトリプルを使用して知識グラフを形成する。
【0006】
本開示の1つ以上の実施形態によれば、知識グラフを生成するシステムは、メモリと処理装置とを含む。メモリは知識ドキュメントを格納する。処理装置は、メモリと接続され、知識ドキュメントを取得し、知識ドキュメントに対して単語分割および品詞タグ付けを実行し、複数のタグ付けされた単語を生成し、デフォルト文パターンにしたがって、タグ付けされた単語から複数の文を取得することを実行する。各文は、主語、副詞型に対応する副詞、動詞および目的語を含み、各文について、処理装置は、主語をトリプルの第1エンティティとして使用し、目的語をトリプルの第2エンティティとして使用し、副詞型および動詞をトリプルの関係として使用し、各文に対応するトリプルを使用して知識グラフを形成することを実行する。
【0007】
以上の記載から、本開示の1つ以上の実施形態に係る知識グラフを生成するシステムおよび方法は、組織化された知識グラフを生成するために適用されてもよく、情報と情報との接続および知識推論は、より効率的かつ正確になり得る。また、本開示は、副詞の副詞型を2つのエンティティ間の関係として使用し、これは、知識の衝突の問題を解決するのに役立ち、知識を正確に表現するために、より深い意味論的含意を処理することができ、知識グラフの拡張を改善する。
【0008】
本開示は、以下に与えられる詳細な説明、および例示のみを目的として与えられ、したがって本開示を限定するものではない添付の図面からより完全に理解される。
【図面の簡単な説明】
【0009】
図1】本開示の一実施形態に係る知識グラフを生成するシステムを示すブロック図である。
図2】本開示の一実施形態に係る知識グラフを生成する方法を示すフローチャートである。
図3】本開示の一実施形態に係る知識グラフを示す模式図である。
図4】本開示の別の実施形態に係る知識グラフを生成する方法を示すフローチャートである。
図5】本開示の一実施形態に係るを使用するシステムを示すブロック図である。
図6】本開示の一実施形態に係る知識グラフを使用する方法を示すフローチャートである。
図7】本開示の別の実施形態に係る知識グラフを使用する方法を示すフローチャートである。
【発明を実施するための形態】
【0010】
以下の詳細な説明では、説明の目的のため、開示された実施形態の完全な理解を提供するために、多くの特定の詳細が記載されている。明細書に開示された説明、特許請求の範囲、および図面によれば、当業者は、本発明の概念および特徴を容易に理解することができる。以下の実施形態は、本発明の様々な態様をさらに説明するが、本発明の範囲を限定することを意図するものではない。
【0011】
図1を参照する。図1は、本開示の一実施形態に係る知識グラフを生成するシステムを示すブロック図である。本開示の一実施形態に係る知識グラフを生成するシステム1は、メモリ11および第1処理装置12を含む。メモリ11は、第1処理装置12と通信接続され、または第1処理装置12と電気的に接続されていてもよい。メモリ11は、リードオンリーメモリ(ROM)、フラッシュメモリまたは不揮発性ランダムアクセスメモリ(NVRAM)などの不揮発性メモリであってもよく、本開示はこれに限定されない。第1処理デバイス12は、中央処理装置、プログラマブルロジックデバイスまたは特定用途向け集積回路などであってもよく、本開示はこれらに限定されない。
【0012】
メモリ11は、様々な知識分野に対応する知識ドキュメントを格納するように構成され、第1処理装置12は、知識ドキュメントにしたがって様々な知識分野に対応する知識グラフを生成し、知識グラフをメモリ11またはその他のメモリに格納するように構成される。第1処理装置12は、様々なウェブサイト上で定期的に、または非定期的にウェブクローラーを実行して、知識ドキュメントをメモリ11に格納することができる。知識ドキュメントは、内部知識ドキュメントおよび外部知識ドキュメントを含む場合がある。例えば、知識分野が医学であると仮定すると、内部知識ドキュメントには病院が発行する健康教育記事が含まれ、外部知識ドキュメントにはウィキペディアの医学記事、医学雑誌および各国の食品医薬品局のウェブサイトが含まれる場合があり、本開示は知識ドキュメントのソースを限定しない。
【0013】
知識グラフを生成する方法をより詳細に説明するために、図2を参照する。図2は、本開示の一実施形態に係る知識グラフを生成する方法を示すフローチャートである。図2に示すように、本開示の一実施形態に係る知識グラフを生成する方法は、第1処理装置12によって実行され、知識ドキュメントを取得し(ステップS201)、知識ドキュメントに対して単語分割および品詞タグ付けを実行し、複数のタグ付けされた単語を生成し(ステップS203)、デフォルト文パターンにしたがって、タグ付けされた単語から複数の文を取得する(ステップS205)。ここで、各文は、主語、副詞型に対応する副詞、動詞および目的語を含む。また、本開示の一実施形態に係る知識グラフを生成する方法は、主語をトリプルの第1エンティティとして使用し(ステップS207)、目的語をトリプルの第2エンティティとして使用し(ステップS209)、副詞型および動詞をトリプルの関係として使用し(ステップS211)、各文に対応するトリプルを使用して知識グラフを形成する(ステップS213)。以下の説明では、医学に関する知識ドキュメントを例として説明する。
【0014】
ステップS201では、第1処理装置12が、メモリ11から知識ドキュメントを取得する。ステップS203では、第1処理装置12が、知識ドキュメントに対して単語分割および品詞タグ付け(POSタグ付け)を実行し、タグ付けされた単語を生成する。ここで、第1処理装置12は、品詞タガーを使用してPOSタグ付けを実行することができる。例えば、知識ドキュメント内の文の1つが「骨折の患者は、カルシウム、チーズ、骨ブロスを摂取するとよい(Patients suffered from bone fracture can consume calcium, cheese and bone broth)」であるとする。このとき、第1処理装置12は、文に対して単語分割を実行し、「骨折(bone fracture)」、「よい(can)」、「摂取する(consume)」、「チーズ(cheese)」、「カルシウム(calcium)」および「骨ブロス(bone broth)」の単語を生成する。第1処理装置12は、これらの単語にPOSタグ付けを実行し、「骨折の患者(patients suffered from bone fracture)_主語」、「よい(can)_副詞」、「摂取する(consume)_動詞」、「チーズ(cheese)_目的語」、「カルシウム(calcium)_目的語」、「骨ブロス(bone broth)_目的語」のタグ付けされた単語を取得する。
【0015】
ステップS205では、第1処理装置12が、デフォルト文にしたがって、これらのタグ付けされた単語から文を取得する。デフォルト文は、例えば、「主語-副詞-動詞-目的語」である。例えば、第1処理装置12は、デフォルト文にしたがって3つの文を取得することができ、これらはそれぞれ、「骨折の患者は、チーズを摂取するとよい(Patients suffered from bone fracture can consume cheese)」、「骨折の患者は、カルシウムを摂取するとよい(Patients suffered from bone fracture can consume calcium)」および「骨折の患者は、骨ブロスを摂取するとよい(Patients suffered from bone fracture can consume bone broth)」である。
【0016】
また、副詞は、対応する副詞型を有する。副詞型は、肯定型、否定型、高頻度型および低頻度型を含んでいてもよい。肯定型は、主語と目的語との間の肯定的な関係を示すために使用される。否定型は、主語と目的語との間の否定的な関係を示すために使用される。高頻度型は、主語と目的語との間の肯定的な関係を示すために使用され、主語に対応する状況が発生すると、目的語のコンテンツを使用/実行する頻度が増加する場合がある。低頻度型は、主語と目的語との間の否定的な関係を示すために使用され、主語に対応する状況が発生すると、目的語のコンテンツを使用/実行する頻度が減少する場合がある。
【0017】
例えば、上記の例における副詞「よい(can)」の副詞型は肯定型であり、骨折(bone fracture)の状況が発生した場合、人はチーズ(cheese)、カルシウム(calcium)および骨ブロス(bone broth)を摂取する場合があることを意味する。主語が「骨折(bone fracture)」の他の例では、目的語が「ウェイトトレーニング(weight training)」で、「骨折(bone fracture)」(主語)と「ウェイトトレーニング(weight training)」(目的語)との間の副詞型が否定型であるとすると、骨折(bone fracture)の人はウェイトトレーニング(weight training)を行うべきではないことを意味する。目的語が「リハビリテーション(rehabilitation)」で、「骨折(bone fracture)」(主語)と「リハビリテーション(rehabilitation)」(目的語)との間の副詞型が高頻度型であるとすると、骨折(bone fracture)の人はより多くのリハビリテーション(rehabilitation)をしたほうがよいことを意味する。目的語が「横になる(lying down)」で、「骨折(bone fracture)」(主語)と「横になる(lying down)」(目的語)との間の副詞型が低頻度型であるとすると、骨折(bone fracture)の人は横になる(lying down)時間を多くすべきではないことを意味する。
【0018】
また、メモリ11は、第1処理装置12が副詞の副詞型を決定するために、以下に示すような副詞型テーブルを格納することができる。
【0019】
【表1】
【0020】
第1処理装置12は、知識ドキュメントに対してステップS203およびステップS205を複数回実行し、文を取得する。そして、第1処理装置12は、各文に対してステップS207、ステップS209およびステップS211を実行する。ステップS207、ステップS209およびステップS211を詳細に説明するため、図3を参照する。図3は、本開示の一実施形態に係る知識グラフを示す模式図である。
【0021】
ステップS207では、第1処理装置12は、主語「骨折(bone fracture)」をトリプルの第1エンティティA1として使用する。ステップS209では、第1処理装置12は、目的語「骨折(bone broth)」をトリプルの第2エンティティB1として使用する。ステップS211では、第1処理装置12は、肯定型の副詞「よい(can)」および動詞「摂取する(consume)」を第1エンティティA1と第2エンティティB1との間の関係R1として使用する。同様に、第1処理装置12は、目的語「チーズ(cheese)」をトリプルの第2エンティティB2として使用し、肯定型の副詞「よい(can)」および動詞「摂取する(consume)」を第1エンティティA1と第2エンティティB2との間の関係R2として使用する。第1処理装置12は、目的語「カルシウム(calcium)」をトリプルの第2エンティティB3として使用し、肯定型の副詞「よい(can)」および動詞「摂取する(consume)」を第1エンティティA1と第2エンティティB3との間の関係R3として使用する。
【0022】
なお、理解を深めるために、図3に示す第1エンティティA1と第2エンティティB1~B3との関係は、副詞と動詞(CAN_EAT)の形で表されているが、第1エンティティA1と第2エンティティB1~B3との間の関係は、対応する動詞とともに、肯定型、否定型、高頻度型および低頻度型の形で表されてもよい。
【0023】
次に、ステップS213では、第1処理装置12が、各文に対して、ステップS207、ステップS209およびステップS211を実行して生成されたトリプルにより知識グラフKGを構築する。例えば、第1処理装置12は、第1エンティティA1、第2エンティティB1~B3および関係R1~R3を1つの知識グラフとして使用してもよい。また、第1処理装置12は、知識グラフKGが対応する分野ヘッダを有するように、知識グラフKGの知識分野にしたがって知識グラフKGにタグを付けてもよい。図3を例にとると、知識グラフKGの分野ヘッダは、「医学(medicine)」、「整形外科(orthopedics)」、または「骨折(bone fracture)」などであってもよい。したがって、分野ヘッダに基づいて、知識グラフKGを迅速に検索することができる。
【0024】
また、図3に示すように、知識グラフKGは、さらに、第1エンティティA1に接続された第3エンティティC1~C3を含んでもよい。ここで、第1エンティティA1と第3エンティティC1~C3との間の関係R4~R6は、動詞である。第3エンティティC1~C3を生成する方法は、第2エンティティB1~B3を生成する方法と同じであってもよい。文が副詞を含まないとき、第1処理装置12は、主語をトリプルの第1エンティティA1として使用し、目的語をトリプルの第3エンティティC1~C3として使用し、主語と目的語との間の動詞をトリプルの第1エンティティA1と第3エンティティとの間の関係R4~R6として使用してもよい。
【0025】
また、図3に示すように、目的語に基づいて生成された第3エンティティC1~C3は、さらに、別の目的語に基づいて生成された第4エンティティに接続されていてもよい。例えば、知識ドキュメントがさらに「浮腫の人は、ビタミンB6を摂取するとよい(A person with edema can consume vitamin B6)」の記述を含むとすると、ステップS203およびステップS205に基づいて、タグ付けされた「浮腫(edema)_主語」、「よい(can)_副詞」、「摂取する(consume)_動詞」および「ビタミンB6(vitamin B6)_目的語」が取得されてもよい。
【0026】
したがって、ステップS207では、第1処理装置12が、エンティティC1「浮腫(edema)(主語)」をトリプルの第1エンティティとして使用する。ステップS209では、第1処理装置12が、目的語「ビタミンB6(vitamin B6)」をトリプルの第2エンティティ(ここでは、第4エンティティD1とする)として使用する。ステップS211では、第1処理装置12が、肯定型の副詞「よい(can)」および動詞「摂取する(consume)」を第3エンティティC1と第4エンティティD1との間の関係R7として使用する。すなわち、目的語に基づいて生成されたエンティティは、上述の第1エンティティとみなされてもよく、それに応じて知識グラフKGを拡張することができる。
【0027】
上記の説明は、例えば、医学に関する知識ドキュメントを使用したが、本開示の1つ以上の実施形態に係る知識グラフを生成するシステムおよび方法は、製造業、ニュース、政治または国際情勢などの他の分野にも適用することができる。
【0028】
製造業を例にとると、知識ドキュメントに「上半期の製造業全体の業績は2021年の同時期より劣らず、半導体産業、繊維産業、電気機械・機械産業の業績も2021年の同時期よりもよい(The performance of the overall manufacturing industry in the first half of the year is not inferior to that of the same period in 2021, and even the performances of semiconductor industry, textile industry, electrical machinery and machinery industry are better than the same period in 2021)」の記述があるとすると、ステップS203を実行する第1処理装置12によって取得されるタグ付けされた単語は、「上半期の製造業全体の業績(performance of the overall manufacturing industry in the first half)_主語」、「ない(not)_副詞」、「より劣る(inferior to)_動詞」および「2021年の同時期(same period in 2021)_目的語」を含んでいてもよい。第1処理装置12は、ステップS205を実行し、デフォルト文にしたがって「上半期の製造業全体の業績(主語)は、2021年の同時期(目的語)より劣ら(動詞)ない(副詞)(performance of the overall manufacturing industry in the first half (主語) not (副詞) inferior to (動詞) same period in 2021 (目的語))」の文を取得する。そして、第1処理装置12は、ステップS207、ステップS209およびステップS211を実行し、第1エンティティ(上半期の製造業全体の業績(performance of the overall manufacturing industry in the first half))、第2エンティティ(2021年の同時期(same period in 2021))および関係(より劣らない(not inferior to))のトリプルを取得する。
【0029】
また、「半導体産業、繊維産業、電気機械・機械産業の業績も2021年の同時期よりもよい(even the performances of semiconductor industry, textile industry, electrical machinery and machinery industry are better than the same period in 2021)」の場合、ステップS203を実行する第1処理装置12によって取得されるタグ付けされた単語は、「半導体産業、繊維産業、電気機械・機械産業の業績(performances of semiconductor industry, textile industry, electrical machinery and machinery industry)_主語」、「も(even)_副詞」、「よりよい(are better than)_動詞」および「2021年の同時期(same period in 2021)_目的語」を含んでいてもよい。第1処理装置12は、ステップS205を実行し、デフォルト文にしたがって「半導体産業、繊維産業、電気機械・機械産業の業績(主語)も(副詞)2021年の同時期(目的語)よりよい(動詞)(performances of semiconductor industry, textile industry, electrical machinery and machinery industry (主語) even (副詞) are better than (動詞) same period in 2021 (目的語)」の文を取得する。そして、第1処理装置12は、ステップS207、ステップS209およびステップS211を実行し、第1エンティティ(半導体産業、繊維産業、電気機械・機械産業の業績(performances of semiconductor industry, textile industry, electrical machinery and machinery industry))、第2エンティティ(2021年の同時期(same period in 2021))および関係(もよりよい(even better than))のトリプルを取得する。この例では、副詞および動詞を、第1エンティティと第2エンティティとの間の関係として直接使用してもよい。
【0030】
したがって、この例では、エンティティ「上半期の製造業全体の業績(performance of the overall manufacturing industry in the first half)」およびエンティティ「半導体産業、繊維産業、電気機械・機械産業の業績(performances of semiconductor industry, textile industry, electrical machinery and machinery industry)」は、いずれもエンティティ「2021年の同時期(same period in 2021)」に接続されていてもよい。
【0031】
また、製造業を例にとると、知識ドキュメントに「新規参入産業である非金属鉱業を除いて、他の4産業はいずれも粗利益率上位5産業に属している(Except for the non-metallic mineral products industry, which is a newly entered industry, the other four industries all belong to the top five industries in gross profit margin)」の記述があるとすると、ステップS203を実行する第1処理装置12によって取得されるタグ付けされた単語は、「他の4産業(the other four industries)_主語」、「新規参入産業である非金属鉱業を除いて(except for the non-metallic mineral products industry, which is a newly entered industry)_副詞」、「いずれも(all)_副詞」、「属している(belong to)_動詞」および「粗利益率上位5産業(the top five industries in gross profit margin)_目的語」を含んでいてもよい。第1処理装置12は、ステップS205を実行し、デフォルト文にしたがって「他の4産業は(主語)新規参入産業である非金属鉱業を除いて(副詞)粗利益率上位5産業(目的語)に属している(動詞)(the other four industries (主語) except for the non-metallic mineral products industry, which is a newly entered industry (副詞) belong to (動詞) the top five industries in gross profit margin (目的語))」の文を取得する。そして、第1処理装置12は、ステップS207、ステップS209およびステップS211を実行し、第1エンティティ(他の4産業(the other four industries))、第2エンティティ(粗利益率上位5産業(the top five industries in gross profit margin))および関係(いずれも属している(all belong to))のトリプルを取得し、それに応じて知識グラフを形成する。この例では、副詞および動詞を、第1エンティティと第2エンティティとの間の関係として直接使用してもよい。
【0032】
製造業を別の例としてとると、知識ドキュメントに「ゴムおよびプラスチック産業が初めてリストのトップになった(The rubber and plastic industry topped the list for the first time)」の記述があるとすると、ステップS203を実行する第1処理装置12によって取得されるタグ付けされた単語は、「ゴムおよびプラスチック産業(rubber and plastic industry)_主語」、「初めて(for the first time)_副詞」、「トップになった(topped)_動詞」および「リスト(the list)_目的語」を含んでいてもよい。第1処理装置12は、ステップS205を実行し、デフォルト文にしたがって「ゴムおよびプラスチック産業(主語)が初めて(副詞)リスト(目的語)のトップになった(動詞)(rubber and plastic industry (主語) for the first time (副詞) topped (動詞) the list (目的語))」の文を取得する。そして、第1処理装置12は、ステップS207、ステップS209およびステップS211を実行し、第1エンティティ(ゴムおよびプラスチック産業(rubber and plastic industry))、第2エンティティ(リスト(the list))および関係(初めてトップになった(topped for the first time))を取得し、それに応じて知識グラフを形成する。この例では、副詞および動詞を、第1エンティティと第2エンティティとの間の関係として直接使用してもよい。
【0033】
ニュースを例にとると、ニュース記事(知識ドキュメント)に「新竹球場の設計者は専門家の意見を尊重しなかった(The designer of Hsinchu baseball stadium did not respect professional opinion)」の記述があるとすると、ステップS203を実行する第1処理装置12によって取得されるタグ付けされた単語は、「新竹球場の設計者(designer of Hsinchu baseball stadium)_主語」、「ない(not)_副詞」、「尊重する(respect)_動詞」および「専門家の意見(professional opinion)_目的語」を含んでいてもよい。第1処理装置12は、ステップS205を実行し、デフォルト文にしたがって「新竹球場の設計者(主語)は専門家の意見(目的語)を尊重し(動詞)ない(副詞)(designer of Hsinchu baseball stadium (主語) not (副詞) respect (動詞) professional opinion (目的語))」の文を取得する。そして、第1処理装置12は、ステップS207、ステップS209およびステップS211を実行し、第1エンティティ(新竹球場の設計者(designer of Hsinchu baseball stadium))、第2エンティティ(専門家の意見(professional opinion))および関係(尊重しない(not respect))のトリプルを取得し、それに応じて知識グラフを形成する。この例では、副詞および動詞を、第1エンティティと第2エンティティとの間の関係として直接使用してもよい。
【0034】
国際情勢を例にとると、ニュース記事(知識ドキュメント)に「EU加盟国は全面的にガス消費を削減する(EU member states cut gas consumption across the board)」の記述があるとすると、ステップS203を実行する第1処理装置12によって取得されるタグ付けされた単語は、「EU加盟国(EU member states)_主語」、「全面的に(across the board)_副詞」、「削減する(cut)_動詞」、「ガス消費(gas consumption)_目的語」を含んでいてもよい。第1処理装置12は、ステップS205を実行し、デフォルト文にしたがって「EU加盟国(主語)は全面的に(副詞)ガス消費(目的語)を削減する(動詞)(EU member states (主語) across the board (副詞) cut (動詞) gas consumption (目的語))」の文を取得する。そして、第1処理装置12は、ステップS207、ステップS209およびステップS211を実行し、第1エンティティ(EU加盟国(EU member states))、第2エンティティ(ガス消費(gas consumption))および関係(全面的に削減する(cut across the board))を取得し、それに応じて知識グラフを形成する。この例では、副詞および動詞を、第1エンティティと第2エンティティとの間の関係として直接使用してもよい。
【0035】
図1図4を参照する。図4は、本開示の別の実施形態に係る知識グラフを生成する方法を示すフローチャートである。図4に示すステップS401、ステップS403およびステップS405は、第1処理装置12が主語を取得した後、第1エンティティが生成される前に実行されてもよい。すなわち、図4に示すステップS401、ステップS403およびステップS405は、図2に示すステップS205とステップS207との間で実行されてもよい。図4に示すように、主語を取得した後、第1処理装置12は、レキシコンが主語を有するか否かを判定し(ステップS401)、ステップS401の判定結果が「いいえ」である場合、主語をレキシコンに追加し(ステップS403)、知識ドキュメントに対してPOSタグ付けを再度実行する(ステップS405)。また、ステップS401の判定結果が「はい」である場合、第1処理装置12は、図2に示すステップS207を実行してもよい。
【0036】
第1処理装置12は、レキシコンと接続され(レキシコンへのアクセスを有し)ていてもよい。ここで、レキシコンは、メモリ11に格納されていてもよい。したがって、図2に示すステップS205を経て主語を取得した後、ステップS401において、第1処理装置12は、レキシコンの中に主語が存在するか否かを判定してもよい。
【0037】
第1処理装置12が、レキシコンが主語を有すると決定した場合、第1処理装置12は、図2に示すステップS207を実行してもよい。第1処理装置12が、レキシコンが主語を有していないと決定した場合、ステップS403において、第1処理装置12は、主語をレキシコンに追加し、知識ドキュメントに対してPOSタグ付けを再度実行し、複数のタグ付けされた単語を生成してもよい。
【0038】
換言すれば、新しい単語を見つけた後、第1処理装置12は、最初にその新しい単語を現在のレキシコンに追加し、次に知識ドキュメントに対してエンティティ関係の抽出を実行してもよい。したがって、既存の知識グラフを拡張し、より完全にすることができる。
【0039】
図5を参照する。図5は、本開示の一実施形態に係る知識グラフを使用するシステムを示すブロック図である。図5に示すように、知識グラフを使用するシステム2は、メモリ21、第2処理装置22およびユーザインターフェース23を含む。第2処理装置22は、メモリ21およびユーザインターフェース23と電気的に接続され、または通信接続されている。メモリ21は、リードオンリーメモリ(ROM)、フラッシュメモリまたは不揮発性ランダムアクセスメモリ(NVRAM)などの不揮発性メモリであってもよく、本開示はこれに限定されない。メモリ21は、本開示の実施形態に係る知識グラフを生成するシステムおよび方法にしたがって生成された複数の知識グラフを格納することができるが、以下では、これらの知識グラフを候補知識グラフとする。また、メモリ21は、さらに、上述の知識ドキュメントを格納することができる。第2処理装置22は、中央処理装置、プログラマブルロジックデバイスまたは特定用途向け集積回路などであってもよく、本開示はこれらに限定されない。ユーザインターフェース23は、スクリーン、タッチディスプレイインターフェースおよびオーディオデバイスなどであってもよく、ユーザインターフェース23は、ユーザ命令を受信し、および情報を提示するために使用することができる任意の要素であってもよい。
【0040】
図5に示すメモリ21と図1に示すメモリ11とは同じメモリであってもよく、図5に示すメモリ21は、図1のメモリとは異なる別のメモリであってもよい。図5に示す第2処理装置22と図1に示す第1処理装置12とは同じ処理装置であってもよく、図5に示す第2処理装置22は、図1の処理装置とは異なる別の処理装置であってもよい。
【0041】
上記実施形態にしたがって生成された候補知識グラフを使用する方法をより詳細に説明するために、図5および図6を参照する。図6は、本開示の一実施形態に係る知識グラフを使用する方法を示すフローチャートである。
【0042】
本開示の一実施形態に係る知識グラフを使用する方法を示すフローチャートである図6に示すように、第2処理装置22によって実行される当該方法は、入力質問を取得し(ステップS601)、入力質問に対して自然言語理解手順を実行し、質問セットを取得する(ステップS603)、ことを含む。ここで、質問セットは、入力質問の質問主語、質問目的語および質問関係を含む。当該方法は、複数の候補知識グラフから質問主語と一致するターゲット知識グラフを検索し(ステップS605)、質問主語と一致するターゲット知識グラフの中の第1ターゲットエンティティおよび質問目的語と一致するターゲット知識グラフの中の第2ターゲットエンティティを決定し(ステップS607)、第1ターゲットエンティティと第2ターゲットエンティティとを接続するターゲット関係を決定し(ステップS609)、第1ターゲットエンティティ、第2ターゲットエンティティおよびターゲット関係にしたがって質問応答を出力する(ステップS611)、ことを含む。
【0043】
ステップS601では、ユーザインターフェース23が、ユーザによって入力された入力質問を取得し、入力質問を第2処理装置22に送信する。ステップS603では、第2処理装置22が、入力質問に対して自然言語理解(NLU)手順を実行し、入力質問の構文または意味論を解析し、それによって質問セットを取得する。ここで、質問セットは、入力質問の質問主語、質問目的語および質問関係を含む。例えば、入力質問が「骨折の患者はチーズを摂取するとよいか?(Can patients suffered from bone fracture consume cheese?)」であるとすると、第2処理装置22は、自然言語理解手順を通じて、質問主語「骨折(bone fracture)」、質問目的語「チーズ(cheese)」および質問関係「摂取するとよい(can consume)」を取得することができる。すなわち、第2処理装置22は、自然言語理解手順を通じて、ユーザがエンティティ「骨折(bone fracture)」とエンティティ「チーズ(cheese)」との間の関係が「食べるとよい(can eat)」であるか否かを尋ねていることを理解することができる。なお、入力質問の質問関係が「食べるとよい(can eat)」であるとすると、第2処理装置22は、自然言語理解を通じて「摂取する(consume)」と「食べる(eat)」とが同義語であると決定してもよい。
【0044】
ステップS603では、第2処理装置22が、メモリ21に格納された候補知識グラフの中から、ターゲット知識グラフとして質問主語と一致する知識グラフを検索する。上述したように、各候補知識グラフは対応する分野ヘッダを有することができ、第2処理装置22は、質問主語および分野ヘッダにしたがってターゲット知識グラフを検索することができる。例えば、質問主語が「骨折(bone fracture)」である例では、第2処理装置22は、分野ヘッダ「骨折(bone fracture)」である候補知識グラフをターゲット知識グラフとして使用してもよい。
【0045】
ステップS607およびステップS609では、第2処理装置22が、質問主語と一致するターゲット知識グラフの中の第1ターゲットエンティティ、質問目的語と一致するターゲット知識グラフの中の第2ターゲットエンティティを決定し、第1ターゲットエンティティと第2ターゲットエンティティとの間を接続するターゲット関係を決定する。例えば、上述の入力質問および図3を例としてとると、第2処理装置22は、質問主語「骨折(bone fracture)」と一致する知識グラフKGの中のエンティティが第1ターゲットエンティティA1であり、質問目的語「チーズ(cheese)」と一致する知識グラフKGの中のエンティティが第2ターゲットエンティティB2であると決定し、第1ターゲットエンティティA1と第2ターゲットエンティティB2とを接続する関係がターゲット関係R2であると決定する。
【0046】
次に、ステップS611では、第2処理装置22が、第1ターゲットエンティティA1、第2ターゲットエンティティB2およびターゲット関係R2にしたがって質問応答を生成し、ユーザインターフェース23に質問応答を出力する。具体的には、ターゲット関係R2は、第1ターゲットエンティティA1と第2ターゲットエンティティB2との間の動詞および対応する副詞型を示すので、第2処理装置22は、第1ターゲットエンティティA1と第2ターゲットエンティティB2との間の関係に基づいて質問応答を生成することができる。
【0047】
上記の質問主語「骨折(bone fracture)」および質問目的語「チーズ(cheese)」を例にとると、知識グラフにしたがって、第2処理装置22は、対応する主語および目的語のエンティティ間のターゲット関係R2が、肯定型副詞および動詞「摂取する(consume)」であると決定することができる。したがって、第2処理装置22は、「はい、骨折の患者はチーズを摂取するとよい(Yes, a patient suffered from bone fracture can consume cheese)」の質問応答などの肯定的な質問応答を生成することができる。
【0048】
図5および図7を参照する。図7は、本開示の別の実施形態に係る知識グラフを使用する方法を示すフローチャートである。図6に示すステップS611は、図7に示すステップS701およびステップS703を含んでいてもよい。図7に示すように、図6に示すステップS611は、質問意図を、第1ターゲットエンティティ、第2ターゲットエンティティおよびターゲット関係と照合し、初期応答を形成し(ステップS701)、初期応答に対して自然言語生成手順を実行し、質問応答を生成する(ステップS703)、ことを含んでいてもよい。
【0049】
ステップS701では、第2処理装置22が、初期応答「骨折_肯定型_摂取する_チーズ(bone fracture_肯定型_consume_cheese)」から第1ターゲットエンティティA1、第2ターゲットエンティティB2およびターゲット関係R2を照合する。ステップS703では、第2処理装置22が、初期応答に対して自然言語生成(NLG)手順を実行し、上述の質問応答「はい、骨折の患者はチーズを摂取するとよい(Yes, a patient suffered from bone fracture can consume cheese)」のような質問応答を生成する。
【0050】
上記の説明を考慮すると、本開示の1つ以上の実施形態に係る知識グラフを生成するシステムおよび方法は、組織化された知識グラフを生成するために適用されてもよく、情報と情報との間の接続および知識推論が、より効率的かつ正確になり得る。また、本開示は、副詞の副詞型を2つのエンティティ間の関係として使用し、これは、知識の衝突の問題を解決するのに役立ち、知識をより正確に表現すするために、より深い意味論的含意を処理することができ、知識グラフの拡張を改善する。また、本開示の1つ以上の実施形態に係る知識グラフを生成するシステムおよび方法は、さらに、レキシコンに新しい単語を追加し、知識ドキュメントに対してエンティティ関係の抽出を再度実行することを開示する。したがって、既存の知識グラフを拡張し、より完全にすることができる。さらに、本開示の1つ以上の実施形態に係る知識グラフを使用するシステムおよび方法は、ユーザに正確な応答または提案を提供することができる。
【0051】
関連出願の相互参照
本出願は、35 U.S.C.119(a)の下で2022年10月26日に中華民国(ROC)に出願された特許出願第111140554号の優先権を主張し、その内容を全体として本出願で参照として組み込む。
図1
図2
図3
図4
図5
図6
図7
【外国語明細書】