特開2023-152122 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ソフトバンクモバイル株式会社の特許一覧

特開2023-152122オントロジー生成方法及び学習方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023152122

(43)【公開日】2023-10-16

(54)【発明の名称】オントロジー生成方法及び学習方法

(51)【国際特許分類】

G06F 16/36 20190101AFI20231005BHJP

G06F 16/90 20190101ALI20231005BHJP

G06F 16/35 20190101ALI20231005BHJP

【ＦＩ】

G06F16/36

G06F16/90 100

G06F16/35

【審査請求】有

【請求項の数】9

【出願形態】ＯＬ

(21)【出願番号】P 2022062071

(22)【出願日】2022-04-01

(11)【特許番号】

(45)【特許公報発行日】2023-08-08

(71)【出願人】

【識別番号】501440684

【氏名又は名称】ソフトバンク株式会社

(74)【代理人】

【識別番号】110000338

【氏名又は名称】弁理士法人ＨＡＲＡＫＥＮＺＯＷＯＲＬＤＰＡＴＥＮＴ＆ＴＲＡＤＥＭＡＲＫ

(72)【発明者】

【氏名】王欣陽

(72)【発明者】

【氏名】劉牧

(72)【発明者】

【氏名】山下勝司

(72)【発明者】

【氏名】岡本康宏

(72)【発明者】

【氏名】山田聡

【テーマコード（参考）】

5B175

【Ｆターム（参考）】

5B175DA01

5B175EA01

5B175FA03

(57)【要約】

【課題】自然言語処理タスクにおいてテキスト分類に用いる学習データが少ない場合においても、自然言語処理タスクの精度をより向上させる。
【解決手段】本発明の一態様に係るオントロジー生成方法は、テキスト分類に用いる複数のドメイン知識が格納されたドメイン知識データベースに、第１のドメイン知識を追加するオントロジー生成方法であって、対象テキストに含まれる各単語間の共起性を用いて、前記ドメイン知識データベースから第２のドメイン知識を決定するドメイン知識決定工程と、前記第２のドメイン知識に含まれる情報であって、当該対象テキストに含まれる各単語に関連付けられた情報を用いて、前記第１のドメイン知識を生成し、前記ドメイン知識データベースに追加するドメイン知識追加工程と、を含む。
【選択図】図１

【特許請求の範囲】

【請求項1】

テキスト分類に用いる複数のドメイン知識が格納されたドメイン知識データベースに、第１のドメイン知識を追加するオントロジー生成方法であって、
対象テキストに含まれる各単語間の共起性を用いて、前記ドメイン知識データベースから第２のドメイン知識を決定するドメイン知識決定工程と、
前記第２のドメイン知識に含まれる情報であって、当該対象テキストに含まれる各単語に関連付けられた情報を用いて、前記第１のドメイン知識を生成し、前記ドメイン知識データベースに追加するドメイン知識追加工程と、
を含むオントロジー生成方法。

【請求項2】

前記ドメイン知識決定工程においては、
前記ドメイン知識データベースに含まれる複数のドメイン知識のうち、前記第１のドメイン知識とのコサイン類似度が最も類似するドメイン知識が、前記第２のドメイン知識として決定される、請求項１に記載のオントロジー生成方法。

【請求項3】

前記ドメイン知識決定工程においては、
前記ドメイン知識データベースに含まれる複数のドメイン知識の各々について、当該ドメイン知識に対応する前記各単語間の共起性と、前記対象テキストに含まれる各単語間の共起性との類似度が算出され、前記複数のドメイン知識のうち前記類似度が最も高くなるドメイン知識が、前記第２のドメイン知識として決定される、請求項２に記載のオントロジー生成方法。

【請求項4】

前記ドメイン知識追加工程においては、
当該対象テキストに含まれる各単語に関連付けられた情報として、前記第２のドメイン知識に含まれるＥｍｂｅｄｄｉｎｇが少なくとも用いられる、請求項１から３までの何れか１項に記載のオントロジー生成方法。

【請求項5】

前記ドメイン知識追加工程においては、
当該対象テキストに含まれる各単語であって、前記第２のドメイン知識における各単語のＥｍｂｅｄｄｉｎｇと当該対象テキストに対応するラベルとの組が、テキスト分類のための学習モデルに入力されることによって当該Ｅｍｂｅｄｄｉｎｇが更新され、更新された当該Ｅｍｂｅｄｄｉｎｇが、前記第１のドメイン知識として追加される、請求項４に記載のオントロジー生成方法。

【請求項6】

前記ドメイン知識追加工程においては、
当該対象テキストに含まれる各単語のＥｍｂｅｄｄｉｎｇとＴＦ－ＩＤＦとが、前記学習モデルに入力される、請求項５に記載のオントロジー生成方法。

【請求項7】

前記ドメイン知識追加工程においては、
当該対象テキストに含まれる各単語に関連付けられた情報として、前記第２のドメイン知識に含まれるＴＦ－ＩＤＦであって、各単語のＴＦ－ＩＤＦが少なくとも用いられる、請求項１から３までの何れか１項に記載のオントロジー生成方法。

【請求項8】

前記ドメイン知識データベースは、
前記第２のドメイン知識の候補となるデフォルトのドメイン知識であって、当該オントロジー生成方法を実行する装置とは異なるサーバ上に保存されたドメイン知識を含む、請求項１から３までの何れか１項に記載のオントロジー生成方法。

【請求項9】

テキスト分類のための学習モデルを学習させる学習方法であって、
対象テキストに含まれる各単語間の共起性を用いて、テキスト分類に用いる複数のドメイン知識が格納されたドメイン知識データベースから類似ドメイン知識を決定するドメイン知識決定工程と、
前記類似ドメイン知識に含まれる情報であって、当該対象テキストに含まれる各単語に関連付けられた情報を用いて、前記学習モデルを学習させる学習工程と、
を含む学習方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、オントロジー生成方法及び学習方法に関する。

【背景技術】

【0002】

近年、少ない教師データで効率的に学習モデルを学習させることが可能な機械学習手法の一つとして、Ｆｅｗ－Ｓｈｏｔｌｅａｒｎｉｎｇが知られている。関連する技術として、特許文献１では、複数のオントロジーの各ノードのマッピングにおいて、教師データが少ない場合でも、効率的に学習を行うためのオントロジーマッピングシステムが開示されている。特許文献２では教師データが少ない場合におけるモデルの学習効率を向上させるための学習方法が開示されている。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】国際公開番号ＷＯ２０２１／０８４６４６Ａ１

【特許文献2】特開２０２０－５２６４４号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

自然言語処理タスクにおいては、テキスト分類に用いる学習データの分量等に応じて、自然言語処理タスクの精度が左右され得る。この点を踏まえ、上記特許文献に開示された発明とは異なる手法によって、自然言語処理タスクの精度を向上させる余地がある。

【0005】

本発明の一態様は、自然言語処理タスクにおいてテキスト分類に用いる学習データが少ない場合においても、自然言語処理タスクの精度をより向上させることを目的とする。

【課題を解決するための手段】

【0006】

本発明の一態様に係るオントロジー生成方法は、テキスト分類に用いる複数のドメイン知識が格納されたドメイン知識データベースに、第１のドメイン知識を追加するオントロジー生成方法であって、対象テキストに含まれる各単語間の共起性を用いて、前記ドメイン知識データベースから第２のドメイン知識を決定するドメイン知識決定工程と、前記第２のドメイン知識に含まれる情報であって、当該対象テキストに含まれる各単語に関連付けられた情報を用いて、前記第１のドメイン知識を生成し、前記ドメイン知識データベースに追加するドメイン知識追加工程と、を含む。

【0007】

本発明の他の態様に係る学習方法は、テキスト分類のための学習モデルを学習させる学習方法であって、対象テキストに含まれる各単語間の共起性を用いて、テキスト分類に用いる複数のドメイン知識が格納されたドメイン知識データベースから類似ドメイン知識を決定するドメイン知識決定工程と、前記類似ドメイン知識に含まれる情報であって、当該対象テキストに含まれる各単語に関連付けられた情報を用いて、前記学習モデルを学習させる学習工程と、を含む。

【0008】

前記の各態様に係る方法をコンピュータにて実現させる制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。また、前記制御プログラムは、当該方法をコンピュータにて実現させる処理において、各種の機械学習手法を用いてもよい。この場合、機械学習手法を用いるプログラムは、前記コンピュータ上で動作するものであってもよいし、他の装置（例えばエッジコンピュータまたはクラウドサーバ等）で動作するものであってもよい。

【発明の効果】

【0009】

本発明の一態様によれば、自然言語処理タスクにおいてテキスト分類に用いる学習データが少ない場合においても、自然言語処理タスクの精度をより向上させることができる。

【図面の簡単な説明】

【0010】

【図1】オントロジー生成装置の概略構成の一例を示す図である。

【図2】或るタスクに対応するコーパス情報の一例を示す表である。

【図3】或るタスクに対応する共起情報の一例を示している。

【図4】ドメイン知識データベースに含まれる情報の一例を示している。

【図5】ドメイン知識の追加処理例１の処理の流れを示すフローチャートの一例である。

【図6】ドメイン知識の追加処理例２の処理の流れを示すフローチャートの一例である。

【発明を実施するための形態】

【0011】

以下、本発明の一実施形態について、詳細に説明する。

【0012】

〔１．概略構成例〕
図１は、本開示に係るオントロジー生成装置１の概略構成の一例を示す図である。図１に示すように、オントロジー生成装置１は、制御部１０、記憶部１２及び通信部１４を備えている。制御部１０は、オントロジー生成装置１全体を統括する制御装置であって、例えば１又は複数のプロセッサであり、ＭＰＵ（Micro Processing Unit）、ＣＰＵ（Central Processing Unit）、ＡＳＩＣ（Application Specific Integrated Circuit）又はＰＬＤ（Programmable Logic Device）等の各種プロセッサを用いることができる。

【0013】

記憶部１２は、各種情報を少なくとも一時的に記憶する記憶装置であって、例えばテキスト分類のための学習モデルを規定するパラメータセットを記憶する。また、記憶部１２は、タスク毎に規定されるコーパス情報を格納する。また、タスクとは、テキストが何れの作業又は発生元等に対応するかに応じたカテゴリ毎に区分される分類項目である。タスクの一例としては「人事部門タスク」「市場部門タスク」及び「セキュリティ部門タスク」等が挙げられる。

【0014】

図２は、或るタスクに対応するコーパス情報の一例を示す表である。図２に示すように、コーパス情報は、テキストとラベルとの１又は複数の組を含んでいる。前述したように、コーパス情報は、タスク毎に規定されるため、同一のテキストに対応するラベルは、第１のタスクと第２のタスクとで互いに異なり得る。

【0015】

図２の例において、テキストは、ウェブページの感想を示しており、ラベルは、対応するテキストが「Ｐｏｓｉｔｉｖｅ」即ち肯定的であるか、「Ｎｅｇａｔｉｖｅ」即ち否定的であるかを示している。自然言語処理タスクの一態様においては、コーパス情報を教師データとして学習された学習モデルであってテキスト分類のための学習モデルにテキストが入力され、当該テキストが肯定的であるか否定的であるかの結果が出力される。

【0016】

通信部１４は、制御部１０による制御に基づいて、記憶装置３等の外部の装置との通信処理を行うことによって各種情報を送受信するインタフェースである。

【0017】

記憶装置３は、テキスト分類に用いる１又は複数のドメイン知識を含むデータベースであるドメイン知識データベースを記憶する記憶装置であって、例えばデータサーバとして実現される。なお、ドメイン知識データベースの一部又は全部は、記憶部１２が記憶する構成であってもよい。以下、ドメイン知識データベースには、複数のドメイン知識が含まれるものとして説明する。

【0018】

本開示において、ドメイン知識とは、テキストを構成するトークン（単語）の各々に対してタスク毎に規定されるＥｍｂｅｄｄｉｎｇ及びＴＦ－ＩＤＦ（Term Frequency - Inverse Document Frequency）を意味している。ここで、Ｅｍｂｅｄｄｉｎｇとは、複数の数値を有するベクトルの形式によってトークンを表したものである。Ｅｍｂｅｄｄｉｎｇを算出するためのアルゴリズムとしては、Ｗｏｒｄ２Ｖｅｃ、ＧｌｏＶｅ又はｆａｓｔＴｅｘｔ等が挙げられる。

【0019】

ＴＦ－ＩＤＦとは、対象となるトークンが、１又は複数のテキストにおいてどの程度重要であるかを示す指標値、或いは当該指標値を算出するためのアルゴリズムである。具体的には、ＴＦ－ＩＤＦは、或るテキスト内において当該トークンがどの程度出現するかを示すＴＦと、当該トークンを含むテキストがどの程度少ない頻度で存在するかを示すＩＤＦとを掛け合わせた値となる。

【0020】

また、ドメイン知識データベースには、或る２つの単語が、或るタスクに対応する単一のテキストに含まれる度合である共起性を示す共起情報が含まれる。共起情報は、Ｅｍｂｅｄｄｉｎｇ及びＴＦ－ＩＤＦと同様にタスク毎に規定される。Ｅｍｂｅｄｄｉｎｇ、ＴＦ－ＩＤＦ及び共起情報は、例えば或るタスクに対応するテキストを用いた学習における中間生成物として生成される情報である。一態様において、Ｅｍｂｅｄｄｉｎｇ、ＴＦ－ＩＤＦ及び共起情報は、共通して対応するタスクを識別するための情報であるＩＤを介して互いに関連付けられる。また、前述したドメイン知識及び共起情報は、オントロジーの一例である。

【0021】

図３は、或るタスクに対応する共起情報の一例を示している。図３の例においては、「スマートフォン」と「パソコン」との共起性は１０であり、「スマートフォン」と「購入」との共起性は１５である。この場合、当該タスクに対応するテキストにおいては、「スマートフォン」と「パソコン」とが一文に含まれる割合よりも「スマートフォン」と「購入」とが一文に含まれる割合の方が高い。

【0022】

図４は、ドメイン知識データベースに含まれる情報の一例を示している。図４に例示するように、或る同じトークンに対応するＥｍｂｅｄｄｉｎｇ及びＴＦ－ＩＤＦ、並びに或るトークン同士の共起性は、第１のタスクと第２のタスクとで互いに異なり得る。

【0023】

〔２．ドメイン知識の追加処理例１〕
続いて、オントロジー生成装置１によって実行される処理の一例について説明する。図５は、本例の処理の流れを示すフローチャートの一例である。また、図５は、或るタスクに対応するコーパス情報に基づくドメイン知識をドメイン知識データベースに追加する処理の流れを示している。

【0024】

Ｓ１０１において、制御部１０は、コーパス情報に含まれる任意の対象テキストに対する前処理として、対象テキストをトークンに分割する処理、即ち品詞毎に分割する処理と、ストップワードを削除する処理とを行う。例えば対象テキストが「ウェブページの表示速度が速い！」であった場合、制御部１０は、対象テキストから「ウェブページ」「表示」「速度」「早い」という複数のトークンを生成する。

【0025】

Ｓ１０２において、制御部１０は、既存のＷｏｒｄＥｍｂｅｄｄｉｎｇモデルを参照して、生成したトークンの各々に対応するＥｍｂｅｄｄｉｎｇを取得する。また、既存のＷｏｒｄＥｍｂｅｄｄｉｎｇモデルとしては、Ｗｏｒｄ２Ｖｅｃ、ＧｌｏＶｅ又はｆａｓｔＴｅｘｔ等が挙げられる。

【0026】

Ｓ１０３において、制御部１０は、対象テキストの各Ｅｍｂｅｄｄｉｎｇと、当該対象テキストに対応するラベルとを、テキスト分類のための学習モデルに入力することによって、当該学習モデルを学習させる。ここで、学習モデルを学習させる手法は、ＤＮＮテキスト分類モデルを訓練する既存の手法であってもよい。学習モデルの学習によって、各Ｅｍｂｅｄｄｉｎｇと、記憶部１２が記憶するパラメータセットとが更新されて、テキスト分類の精度が向上する。また、Ｓ１０３の工程は、学習工程の一例である。

【0027】

Ｓ１０４において、制御部１０は、学習モデルの学習によって更新された各Ｅｍｂｅｄｄｉｎｇを取得する。

【0028】

Ｓ１０５において、制御部１０は、対象テキストのトークンの各々について、ＴＦ－ＩＤＦを、コーパス情報の各テキストを用いて算出する。制御部１０は、テキスト毎に求められる当該トークンのＴＦ－ＩＤＦのうち、最も高い値のＴＦ－ＩＤＦを算出結果として記憶部１２に記憶させる。また、制御部１０は、対象テキストのトークン同士の共起性を、コーパス情報の各テキストを用いて算出する。

【0029】

Ｓ１０６において、制御部１０は、コーパス情報に対応するタスクを識別するための情報であるＩＤに関連付けて、各トークンに対応する更新後のＥｍｂｅｄｄｉｎｇ、及びＴＦ－ＩＤＦを、ドメイン知識としてドメイン知識データベースにそれぞれ追加する。ドメイン知識データベースに追加される更新後のＥｍｂｅｄｄｉｎｇ及びＴＦ－ＩＤＦは、本開示における第１のドメイン知識の一例である。また、制御部１０は、当該ＩＤに関連付けて、算出した共起性を、共起情報としてドメイン知識データベースに追加する。

【0030】

また、制御部１０は、コーパス情報に含まれるその他のテキストの一部又は全部を順に対象テキストとして、Ｓ１０１～Ｓ１０６の処理を行う。当該処理において、制御部１０は、ドメイン知識データベースに追加するＥｍｂｅｄｄｉｎｇ、ＴＦ－ＩＤＦ及び共起情報が、当該コーパス情報に対応するタスクのＩＤに関連付けられて既にドメイン知識データベースに存在する場合、情報を上書きして追加してもよい。また、後述する追加処理例２においても同様である。

【0031】

〔３．ドメイン知識の追加処理例２〕
続いて、オントロジー生成装置１によって実行される処理の他の一例について説明する。なお、説明の便宜上、上記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、重複する説明を繰り返さない。本例においては、タスクに対応するコーパス情報における一部のテキストにラベルが付されていない場合、換言すると前記タスクがＦｅｗ－Ｓｈｏｔタスクである場合等にドメイン知識をドメイン知識データベースに追加する処理の流れについて説明する。図６は、本例の処理の流れを示すフローチャートの一例である。

【0032】

Ｓ２０１においては、Ｆｅｗ－Ｓｈｏｔタスクに対応するコーパス情報を対象として、Ｓ１０１と同様の処理が実行される。即ち制御部１０は、対象テキストに対する前処理として対象テキストをトークンに分割する処理、即ち品詞毎に分割する処理と、ストップワードを削除する処理とを行い、対象テキストから複数のトークンを生成する。

【0033】

Ｓ２０２において、制御部１０は、対象テキストのトークン間の共起性を、コーパス情報の各テキストを用いて算出する。更に、制御部１０は、各タスクを示すＩＤに関連付けられた共起情報を参照して、ドメイン知識データベースに含まれる複数のドメイン知識の各々について、当該ドメイン知識に対応する前記トークン間の共起性を算出する。

【0034】

Ｓ２０３において、制御部１０は、ドメイン知識データベースに含まれる複数のドメイン知識のうち、コーパス情報に対応する共起性と類似度が最も高くなる共起性に対応するドメイン知識を決定する。一態様において、各共起性の類似度は、各共起性のコサイン類似度によって算出される。ここで、コサイン類似度とは、２つのベクトル間における類似度の尺度の一種である。制御部１０は、前記コサイン類似度が最も類似する共起性同士を、最も類似度が高い共起性として決定する。

【0035】

また、前記コサイン類似度が最も類似するドメイン知識は、本開示における第２のドメイン知識に相当する。本開示においては、簡略化のため、前記コサイン類似度が最も類似するドメイン知識のことを「第２のドメイン知識」或いは「類似ドメイン知識」とも呼称する。コサイン類似度の値は、或る対象タスク同士の間において、対象タスクの全てのトークンを用いて算出される。

【0036】

例えば、対象タスクに「私は、スマートフォンの購入を希望しています」というテキストが対応し、当該対象タスクに含まれるトークンが「私」「スマートフォン」「購入」「希望」であった場合において、トークン間の共起性がそれぞれ以下の通りであったとする。
＜コーパス情報に対応する共起性＞
［（私,スマートフォン）,（私,購入）,（私,希望）,（スマートフォン,購入）,（スマートフォン,希望）,（購入,希望）］＝［３,３,３,３,３,３］
＜タスクＡのドメイン知識に対応する共起性＞
［（私,スマートフォン）,（私,購入）,（私,希望）,（スマートフォン,購入）,（スマートフォン,希望）,（購入,希望）］＝［１００,１００,１,１,０,０］
＜タスクＢのドメイン知識に対応する共起性＞
［（私,スマートフォン）,（私,購入）,（私,希望）,（スマートフォン,購入）,（スマートフォン,希望）,（購入,希望）］＝［２,１,１,１,０,１］
前記の場合、コーパス情報に対応する共起性とタスクＡのドメイン知識に対応する共起性とのコサイン類似度は０．５８３１、コーパス情報に対応する共起性とタスクＢのドメイン知識に対応する共起性とのコサイン類似度は０．８６６０となり、後者のコサイン類似度の方が、類似度が高い。

【0037】

また、Ｓ２０３の工程は、対象タスクに含まれる各トークン間の共起性を用いて、ドメイン知識データベースから第２のドメイン知識を決定するドメイン知識決定工程に相当する。別の側面から言えば、ドメイン知識決定工程においては、ドメイン知識データベースに含まれる複数のドメイン知識の各々について、当該ドメイン知識に対応する前記各単語間の共起性と、前記対象テキストに含まれる各単語間の共起性との類似度が算出される。そして、前記複数のドメイン知識のうち前記類似度が最も高くなるドメイン知識が、前記第２のドメイン知識として決定される。コーパス情報と最も類似度の高いドメイン知識が第２のドメイン知識として用いられることにより、Ｆｅｗ－Ｓｈｏｔタスク等の精度を向上させることに寄与する。

【0038】

また、ドメイン知識データベースは、第２のドメイン知識の候補となるデフォルトのドメイン知識を含んでいてもよいし、図１に示す構成のように、オントロジー生成方法を実行する装置とは異なるサーバ上に保存されたドメイン知識を含んでいてもよい。一態様において、コーパス情報に対応する共起性と、デフォルトのドメイン知識に対応する共起性とのコサイン類似度が所定値以下であれば、制御部１０は、デフォルトのドメイン知識を第２のドメイン知識として決定してもよい。また、デフォルトのドメイン知識は、例えば各トークンの意味が記載された既存のＷｉｋｉ、及び学習モデルを用いて訓練されたドメイン知識であってもよい。

【0039】

Ｓ２０４において、制御部１０は、対象テキストのトークンの各々に対して、第２のドメイン知識における当該トークンのＥｍｂｅｄｄｉｎｇとＴＦ－ＩＤＦとのうち、いずれを関連付けるかに応じた分岐を行う。制御部１０は、対象テキストのトークンの各々に対して当該Ｅｍｂｅｄｄｉｎｇのみを関連付ける場合にはＳ２０５の処理を行い、当該ＴＦ－ＩＤＦのみを関連付ける場合にはＳ２０６の処理を行う。また、当該Ｅｍｂｅｄｄｉｎｇと当該ＴＦ－ＩＤＦとの双方を関連付ける場合にはＳ２０７の処理を行う。また、Ｓ２０５～Ｓ２０７の工程においては、制御部１０が、対象テキストのトークンに対応するドメイン知識として、第２のドメイン知識を設定する。

【0040】

また、Ｓ２０４に続いてＳ２０５～Ｓ２０７の何れに遷移するかは、図示しない入力装置を介してオントロジー生成装置１に対してユーザが指定可能であってもよい。ただし、コーパス情報のデータ量が少ない場合には、Ｓ２０５又はＳ２０７に遷移することが望ましい。なお、制御部１０は、Ｓ２０５～Ｓ２０７のうち２つ又は３つの処理と、後述するＳ２０８の処理とを行い、Ｓ２０５～Ｓ２０７のうち何れの処理を行った場合にテキスト分類の精度が最も向上したかを導出し、前記精度が最も向上した処理結果を、学習モデルに反映する構成であってもよい。

【0041】

Ｓ２０５において、制御部１０は、対象テキストのトークンの各々について、第２のドメイン知識における当該トークンのＥｍｂｅｄｄｉｎｇを取得する。また、制御部１０は、対象テキストのトークンの各々について、ＴＦ－ＩＤＦを、コーパス情報の各テキストを用いて算出する。なお、制御部１０は、第２のドメイン知識において、対応するトークンのＥｍｂｅｄｄｉｎｇが存在しない場合、既存のＷｏｒｄＥｍｂｅｄｄｉｎｇモデルを参照して、対応するＥｍｂｅｄｄｉｎｇを取得してもよい。

【0042】

Ｓ２０６において、制御部１０は、対象テキストのトークンの各々について、第２のドメイン知識における当該トークンのＴＦ－ＩＤＦを取得する。また、制御部１０は、既存のＷｏｒｄＥｍｂｅｄｄｉｎｇモデルを参照して、対象テキストのトークンの各々に対応するＥｍｂｅｄｄｉｎｇを取得する。

【0043】

Ｓ２０７において、制御部１０は、対象テキストのトークンの各々について、第２のドメイン知識における当該トークンのＥｍｂｅｄｄｉｎｇとＴＦ－ＩＤＦとを取得する。

【0044】

Ｓ２０８において、制御部１０は、対象テキストのトークンの各々に対応するＥｍｂｅｄｄｉｎｇのベクトルの末尾にＴＦ－ＩＤＦを追加する。なお、トークンに対応するＴＦ－ＩＤＦが存在しない場合、制御部１０は、当該トークンに対応するＥｍｂｅｄｄｉｎｇのベクトルの末尾に０の値を追加する。

【0045】

これにより、ベクトルの次元数が１だけ増加する。続いて制御部１０は、ＴＦ－ＩＤＦが追加されたＥｍｂｅｄｄｉｎｇと、対象テキストに対応するラベルとを、テキスト分類のための学習モデルに入力することによって、当該学習モデルを学習させる。

【0046】

このように、Ｓ２０８においては、対象テキストに含まれる各トークンのＥｍｂｅｄｄｉｎｇとＴＦ－ＩＤＦとが、学習モデルに入力される。ただし、対象テキストにラベルが付されていない場合、制御部１０は、ラベルについては学習モデルへの入力を行わない。

【0047】

また、Ｓ２０８の工程は、学習工程の一例である。前述したように、Ｓ２０８においては、第２のドメイン知識に含まれる情報であって、対象テキストに含まれる各トークンに関連付けられた情報であるドメイン知識を用いて、学習モデルの学習が行われる。なお、例えば或る対象トークンのＥｍｂｅｄｄｉｎｇのサイズが所定サイズよりも大きい場合、ＴＦ－ＩＤＦが学習モデルには入力されない構成であってもよい。

【0048】

Ｓ２０９において、制御部１０は、学習モデルの学習によって更新された各ＥｍｂｅｄｄｉｎｇとＴＦ－ＩＤＦとを取得する。前記Ｅｍｂｅｄｄｉｎｇには、更新されたＴＦ－ＩＤＦがベクトルの末尾に含まれる。

【0049】

Ｓ２１０において、制御部１０は、コーパス情報に対応するタスクを識別するためのＩＤに関連付けて、各トークンに対応する更新後のＥｍｂｅｄｄｉｎｇ及びＴＦ－ＩＤＦを、ドメイン知識としてドメイン知識データベースにそれぞれ追加する。ドメイン知識データベースに追加される更新後のＥｍｂｅｄｄｉｎｇ及びＴＦ－ＩＤＦは、本開示における第１のドメイン知識の一例である。また、制御部１０は、当該ＩＤに関連付けて、算出した共起性を、共起情報としてドメイン知識データベースに追加する。

【0050】

また、Ｓ２０８～Ｓ２１０の工程は、ドメイン知識追加工程に相当する。ドメイン知識追加工程において、制御部１０は、第２のドメイン知識に含まれる情報であって、対象テキストに含まれる各トークンに関連付けられた情報であるＥｍｂｅｄｄｉｎｇとＴＦ－ＩＤＦとのうち少なくとも何れかを用いて第１のドメイン知識を生成する。また、制御部１０は、当該第１のドメイン知識をドメイン知識データベースに追加する。これにより、第２のドメイン知識のＥｍｂｅｄｄｉｎｇとＴＦ－ＩＤＦとのうち少なくとも何れかを用いて、テキスト分類に用いる情報の分量を増加せることができる。

【0051】

また、前述したように、ドメイン知識追加工程においては、対象テキストに含まれる各トークンであって、第２のドメイン知識における各トークンのドメイン知識と当該対象テキストに対応するラベルとの組が、テキスト分類のための学習モデルに入力される。これにより、当該ドメイン知識と、記憶部１２が記憶するパラメータセットとが更新されてテキスト分類の精度が向上する。また、更新された当該ドメイン知識が、第１のドメイン知識としてドメイン知識データベースに追加される。

【0052】

また、制御部１０は、コーパス情報に含まれるその他のテキストの一部又は全部を順に対象テキストとして、Ｓ２０１～Ｓ２１０の処理を行う。

【0053】

本例の構成によれば、第２のドメイン知識を用いて第１のドメインを生成し、ドメイン知識データベースへの追加を行うことができる。これにより、自然言語処理タスクにおいてテキスト分類に用いる学習データが少ない場合においても、自然言語処理タスクの精度をより向上させることができる。

【0054】

〔ソフトウェアによる実現例〕
オントロジー生成装置１（以下、「装置」と呼ぶ）の機能は、当該装置としてコンピュータを機能させるためのプログラムであって、当該装置の各制御ブロック（特に制御部１０）としてコンピュータを機能させるためのプログラムにより実現することができる。

【0055】

この場合、上記装置は、上記プログラムを実行するためのハードウェアとして、少なくとも１つの制御装置（例えばプロセッサ）と少なくとも１つの記憶装置（例えばメモリ）を有するコンピュータを備えている。この制御装置と記憶装置により上記プログラムを実行することにより、上記各実施形態で説明した各機能が実現される。

【0056】

上記プログラムは、一時的ではなく、コンピュータ読み取り可能な、１または複数の記録媒体に記録されていてもよい。この記録媒体は、上記装置が備えていてもよいし、備えていなくてもよい。後者の場合、上記プログラムは、有線または無線の任意の伝送媒体を介して上記装置に供給されてもよい。

【0057】

また、上記各制御ブロックの機能の一部または全部は、論理回路により実現することも可能である。例えば、上記各制御ブロックとして機能する論理回路が形成された集積回路も本発明の範疇に含まれる。この他にも、例えば量子コンピュータにより上記各制御ブロックの機能を実現することも可能である。

【0058】

また、上記各実施形態で説明した各処理は、ＡＩ（Artificial Intelligence：人工知能）に実行させてもよい。この場合、ＡＩは上記制御装置で動作するものであってもよいし、他の装置（例えばエッジコンピュータまたはクラウドサーバ等）で動作するものであってもよい。

【0059】

本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。

【符号の説明】

【0060】

１オントロジー生成装置
３記憶装置（サーバ）
１０制御部
１２記憶部
１４通信部

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【手続補正書】

【提出日】2023-04-21

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

テキスト分類に用いる複数のドメイン知識が格納されたドメイン知識データベースに、第１のドメイン知識を追加する、コンピュータによって実行されるオントロジー生成方法であって、
対象テキストに含まれる各単語間の共起性を用いて、前記ドメイン知識データベースから、前記第１のドメイン知識に類似する第２のドメイン知識を決定するドメイン知識決定工程と、
前記第２のドメイン知識に含まれる情報であって、当該対象テキストに含まれる各単語に関連付けられた情報を用いて、前記第１のドメイン知識を生成し、前記ドメイン知識データベースに追加するドメイン知識追加工程と、
を含むオントロジー生成方法。

【請求項2】

【請求項3】

【請求項4】

【請求項5】

【請求項6】

【請求項7】

【請求項8】

【請求項9】

テキスト分類のための学習モデルを学習させる、コンピュータによって実行される学習方法であって、
対象テキストに含まれる各単語間の共起性を用いて、テキスト分類に用いる複数のドメイン知識が格納されたドメイン知識データベースから類似ドメイン知識を決定するドメイン知識決定工程と、
前記類似ドメイン知識に含まれる情報であって、当該対象テキストに含まれる各単語に関連付けられた情報を用いて、前記学習モデルを学習させる学習工程と、
を含み、
前記類似ドメイン知識は、当該類似ドメイン知識に対応する各単語間の共起性が、前記対象テキストに含まれる各単語間の共起性と類似するドメイン知識である、学習方法。

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版