IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ソフトバンクモバイル株式会社の特許一覧

<>
  • 特開-オントロジー生成方法及び学習方法 図1
  • 特開-オントロジー生成方法及び学習方法 図2
  • 特開-オントロジー生成方法及び学習方法 図3
  • 特開-オントロジー生成方法及び学習方法 図4
  • 特開-オントロジー生成方法及び学習方法 図5
  • 特開-オントロジー生成方法及び学習方法 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023152122
(43)【公開日】2023-10-16
(54)【発明の名称】オントロジー生成方法及び学習方法
(51)【国際特許分類】
   G06F 16/36 20190101AFI20231005BHJP
   G06F 16/90 20190101ALI20231005BHJP
   G06F 16/35 20190101ALI20231005BHJP
【FI】
G06F16/36
G06F16/90 100
G06F16/35
【審査請求】有
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2022062071
(22)【出願日】2022-04-01
(11)【特許番号】
(45)【特許公報発行日】2023-08-08
(71)【出願人】
【識別番号】501440684
【氏名又は名称】ソフトバンク株式会社
(74)【代理人】
【識別番号】110000338
【氏名又は名称】弁理士法人 HARAKENZO WORLD PATENT & TRADEMARK
(72)【発明者】
【氏名】王 欣陽
(72)【発明者】
【氏名】劉 牧
(72)【発明者】
【氏名】山下 勝司
(72)【発明者】
【氏名】岡本 康宏
(72)【発明者】
【氏名】山田 聡
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA01
5B175EA01
5B175FA03
(57)【要約】
【課題】自然言語処理タスクにおいてテキスト分類に用いる学習データが少ない場合においても、自然言語処理タスクの精度をより向上させる。
【解決手段】本発明の一態様に係るオントロジー生成方法は、テキスト分類に用いる複数のドメイン知識が格納されたドメイン知識データベースに、第1のドメイン知識を追加するオントロジー生成方法であって、対象テキストに含まれる各単語間の共起性を用いて、前記ドメイン知識データベースから第2のドメイン知識を決定するドメイン知識決定工程と、前記第2のドメイン知識に含まれる情報であって、当該対象テキストに含まれる各単語に関連付けられた情報を用いて、前記第1のドメイン知識を生成し、前記ドメイン知識データベースに追加するドメイン知識追加工程と、を含む。
【選択図】図1
【特許請求の範囲】
【請求項1】
テキスト分類に用いる複数のドメイン知識が格納されたドメイン知識データベースに、第1のドメイン知識を追加するオントロジー生成方法であって、
対象テキストに含まれる各単語間の共起性を用いて、前記ドメイン知識データベースから第2のドメイン知識を決定するドメイン知識決定工程と、
前記第2のドメイン知識に含まれる情報であって、当該対象テキストに含まれる各単語に関連付けられた情報を用いて、前記第1のドメイン知識を生成し、前記ドメイン知識データベースに追加するドメイン知識追加工程と、
を含むオントロジー生成方法。
【請求項2】
前記ドメイン知識決定工程においては、
前記ドメイン知識データベースに含まれる複数のドメイン知識のうち、前記第1のドメイン知識とのコサイン類似度が最も類似するドメイン知識が、前記第2のドメイン知識として決定される、請求項1に記載のオントロジー生成方法。
【請求項3】
前記ドメイン知識決定工程においては、
前記ドメイン知識データベースに含まれる複数のドメイン知識の各々について、当該ドメイン知識に対応する前記各単語間の共起性と、前記対象テキストに含まれる各単語間の共起性との類似度が算出され、前記複数のドメイン知識のうち前記類似度が最も高くなるドメイン知識が、前記第2のドメイン知識として決定される、請求項2に記載のオントロジー生成方法。
【請求項4】
前記ドメイン知識追加工程においては、
当該対象テキストに含まれる各単語に関連付けられた情報として、前記第2のドメイン知識に含まれるEmbeddingが少なくとも用いられる、請求項1から3までの何れか1項に記載のオントロジー生成方法。
【請求項5】
前記ドメイン知識追加工程においては、
当該対象テキストに含まれる各単語であって、前記第2のドメイン知識における各単語のEmbeddingと当該対象テキストに対応するラベルとの組が、テキスト分類のための学習モデルに入力されることによって当該Embeddingが更新され、更新された当該Embeddingが、前記第1のドメイン知識として追加される、請求項4に記載のオントロジー生成方法。
【請求項6】
前記ドメイン知識追加工程においては、
当該対象テキストに含まれる各単語のEmbeddingとTF-IDFとが、前記学習モデルに入力される、請求項5に記載のオントロジー生成方法。
【請求項7】
前記ドメイン知識追加工程においては、
当該対象テキストに含まれる各単語に関連付けられた情報として、前記第2のドメイン知識に含まれるTF-IDFであって、各単語のTF-IDFが少なくとも用いられる、請求項1から3までの何れか1項に記載のオントロジー生成方法。
【請求項8】
前記ドメイン知識データベースは、
前記第2のドメイン知識の候補となるデフォルトのドメイン知識であって、当該オントロジー生成方法を実行する装置とは異なるサーバ上に保存されたドメイン知識を含む、請求項1から3までの何れか1項に記載のオントロジー生成方法。
【請求項9】
テキスト分類のための学習モデルを学習させる学習方法であって、
対象テキストに含まれる各単語間の共起性を用いて、テキスト分類に用いる複数のドメイン知識が格納されたドメイン知識データベースから類似ドメイン知識を決定するドメイン知識決定工程と、
前記類似ドメイン知識に含まれる情報であって、当該対象テキストに含まれる各単語に関連付けられた情報を用いて、前記学習モデルを学習させる学習工程と、
を含む学習方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、オントロジー生成方法及び学習方法に関する。
【背景技術】
【0002】
近年、少ない教師データで効率的に学習モデルを学習させることが可能な機械学習手法の一つとして、Few-Shot learningが知られている。関連する技術として、特許文献1では、複数のオントロジーの各ノードのマッピングにおいて、教師データが少ない場合でも、効率的に学習を行うためのオントロジーマッピングシステムが開示されている。特許文献2では教師データが少ない場合におけるモデルの学習効率を向上させるための学習方法が開示されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】国際公開番号WO2021/084646A1
【特許文献2】特開2020-52644号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
自然言語処理タスクにおいては、テキスト分類に用いる学習データの分量等に応じて、自然言語処理タスクの精度が左右され得る。この点を踏まえ、上記特許文献に開示された発明とは異なる手法によって、自然言語処理タスクの精度を向上させる余地がある。
【0005】
本発明の一態様は、自然言語処理タスクにおいてテキスト分類に用いる学習データが少ない場合においても、自然言語処理タスクの精度をより向上させることを目的とする。
【課題を解決するための手段】
【0006】
本発明の一態様に係るオントロジー生成方法は、テキスト分類に用いる複数のドメイン知識が格納されたドメイン知識データベースに、第1のドメイン知識を追加するオントロジー生成方法であって、対象テキストに含まれる各単語間の共起性を用いて、前記ドメイン知識データベースから第2のドメイン知識を決定するドメイン知識決定工程と、前記第2のドメイン知識に含まれる情報であって、当該対象テキストに含まれる各単語に関連付けられた情報を用いて、前記第1のドメイン知識を生成し、前記ドメイン知識データベースに追加するドメイン知識追加工程と、を含む。
【0007】
本発明の他の態様に係る学習方法は、テキスト分類のための学習モデルを学習させる学習方法であって、対象テキストに含まれる各単語間の共起性を用いて、テキスト分類に用いる複数のドメイン知識が格納されたドメイン知識データベースから類似ドメイン知識を決定するドメイン知識決定工程と、前記類似ドメイン知識に含まれる情報であって、当該対象テキストに含まれる各単語に関連付けられた情報を用いて、前記学習モデルを学習させる学習工程と、を含む。
【0008】
前記の各態様に係る方法をコンピュータにて実現させる制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。また、前記制御プログラムは、当該方法をコンピュータにて実現させる処理において、各種の機械学習手法を用いてもよい。この場合、機械学習手法を用いるプログラムは、前記コンピュータ上で動作するものであってもよいし、他の装置(例えばエッジコンピュータまたはクラウドサーバ等)で動作するものであってもよい。
【発明の効果】
【0009】
本発明の一態様によれば、自然言語処理タスクにおいてテキスト分類に用いる学習データが少ない場合においても、自然言語処理タスクの精度をより向上させることができる。
【図面の簡単な説明】
【0010】
図1】オントロジー生成装置の概略構成の一例を示す図である。
図2】或るタスクに対応するコーパス情報の一例を示す表である。
図3】或るタスクに対応する共起情報の一例を示している。
図4】ドメイン知識データベースに含まれる情報の一例を示している。
図5】ドメイン知識の追加処理例1の処理の流れを示すフローチャートの一例である。
図6】ドメイン知識の追加処理例2の処理の流れを示すフローチャートの一例である。
【発明を実施するための形態】
【0011】
以下、本発明の一実施形態について、詳細に説明する。
【0012】
〔1.概略構成例〕
図1は、本開示に係るオントロジー生成装置1の概略構成の一例を示す図である。図1に示すように、オントロジー生成装置1は、制御部10、記憶部12及び通信部14を備えている。制御部10は、オントロジー生成装置1全体を統括する制御装置であって、例えば1又は複数のプロセッサであり、MPU(Micro Processing Unit)、CPU(Central Processing Unit)、ASIC(Application Specific Integrated Circuit)又はPLD(Programmable Logic Device)等の各種プロセッサを用いることができる。
【0013】
記憶部12は、各種情報を少なくとも一時的に記憶する記憶装置であって、例えばテキスト分類のための学習モデルを規定するパラメータセットを記憶する。また、記憶部12は、タスク毎に規定されるコーパス情報を格納する。また、タスクとは、テキストが何れの作業又は発生元等に対応するかに応じたカテゴリ毎に区分される分類項目である。タスクの一例としては「人事部門タスク」「市場部門タスク」及び「セキュリティ部門タスク」等が挙げられる。
【0014】
図2は、或るタスクに対応するコーパス情報の一例を示す表である。図2に示すように、コーパス情報は、テキストとラベルとの1又は複数の組を含んでいる。前述したように、コーパス情報は、タスク毎に規定されるため、同一のテキストに対応するラベルは、第1のタスクと第2のタスクとで互いに異なり得る。
【0015】
図2の例において、テキストは、ウェブページの感想を示しており、ラベルは、対応するテキストが「Positive」即ち肯定的であるか、「Negative」即ち否定的であるかを示している。自然言語処理タスクの一態様においては、コーパス情報を教師データとして学習された学習モデルであってテキスト分類のための学習モデルにテキストが入力され、当該テキストが肯定的であるか否定的であるかの結果が出力される。
【0016】
通信部14は、制御部10による制御に基づいて、記憶装置3等の外部の装置との通信処理を行うことによって各種情報を送受信するインタフェースである。
【0017】
記憶装置3は、テキスト分類に用いる1又は複数のドメイン知識を含むデータベースであるドメイン知識データベースを記憶する記憶装置であって、例えばデータサーバとして実現される。なお、ドメイン知識データベースの一部又は全部は、記憶部12が記憶する構成であってもよい。以下、ドメイン知識データベースには、複数のドメイン知識が含まれるものとして説明する。
【0018】
本開示において、ドメイン知識とは、テキストを構成するトークン(単語)の各々に対してタスク毎に規定されるEmbedding及びTF-IDF(Term Frequency - Inverse Document Frequency)を意味している。ここで、Embeddingとは、複数の数値を有するベクトルの形式によってトークンを表したものである。Embeddingを算出するためのアルゴリズムとしては、Word2Vec、GloVe又はfastText等が挙げられる。
【0019】
TF-IDFとは、対象となるトークンが、1又は複数のテキストにおいてどの程度重要であるかを示す指標値、或いは当該指標値を算出するためのアルゴリズムである。具体的には、TF-IDFは、或るテキスト内において当該トークンがどの程度出現するかを示すTFと、当該トークンを含むテキストがどの程度少ない頻度で存在するかを示すIDFとを掛け合わせた値となる。
【0020】
また、ドメイン知識データベースには、或る2つの単語が、或るタスクに対応する単一のテキストに含まれる度合である共起性を示す共起情報が含まれる。共起情報は、Embedding及びTF-IDFと同様にタスク毎に規定される。Embedding、TF-IDF及び共起情報は、例えば或るタスクに対応するテキストを用いた学習における中間生成物として生成される情報である。一態様において、Embedding、TF-IDF及び共起情報は、共通して対応するタスクを識別するための情報であるIDを介して互いに関連付けられる。また、前述したドメイン知識及び共起情報は、オントロジーの一例である。
【0021】
図3は、或るタスクに対応する共起情報の一例を示している。図3の例においては、「スマートフォン」と「パソコン」との共起性は10であり、「スマートフォン」と「購入」との共起性は15である。この場合、当該タスクに対応するテキストにおいては、「スマートフォン」と「パソコン」とが一文に含まれる割合よりも「スマートフォン」と「購入」とが一文に含まれる割合の方が高い。
【0022】
図4は、ドメイン知識データベースに含まれる情報の一例を示している。図4に例示するように、或る同じトークンに対応するEmbedding及びTF-IDF、並びに或るトークン同士の共起性は、第1のタスクと第2のタスクとで互いに異なり得る。
【0023】
〔2.ドメイン知識の追加処理例1〕
続いて、オントロジー生成装置1によって実行される処理の一例について説明する。図5は、本例の処理の流れを示すフローチャートの一例である。また、図5は、或るタスクに対応するコーパス情報に基づくドメイン知識をドメイン知識データベースに追加する処理の流れを示している。
【0024】
S101において、制御部10は、コーパス情報に含まれる任意の対象テキストに対する前処理として、対象テキストをトークンに分割する処理、即ち品詞毎に分割する処理と、ストップワードを削除する処理とを行う。例えば対象テキストが「ウェブページの表示速度が速い!」であった場合、制御部10は、対象テキストから「ウェブページ」「表示」「速度」「早い」という複数のトークンを生成する。
【0025】
S102において、制御部10は、既存のWord Embeddingモデルを参照して、生成したトークンの各々に対応するEmbeddingを取得する。また、既存のWord Embeddingモデルとしては、Word2Vec、GloVe又はfastText等が挙げられる。
【0026】
S103において、制御部10は、対象テキストの各Embeddingと、当該対象テキストに対応するラベルとを、テキスト分類のための学習モデルに入力することによって、当該学習モデルを学習させる。ここで、学習モデルを学習させる手法は、DNNテキスト分類モデルを訓練する既存の手法であってもよい。学習モデルの学習によって、各Embeddingと、記憶部12が記憶するパラメータセットとが更新されて、テキスト分類の精度が向上する。また、S103の工程は、学習工程の一例である。
【0027】
S104において、制御部10は、学習モデルの学習によって更新された各Embeddingを取得する。
【0028】
S105において、制御部10は、対象テキストのトークンの各々について、TF-IDFを、コーパス情報の各テキストを用いて算出する。制御部10は、テキスト毎に求められる当該トークンのTF-IDFのうち、最も高い値のTF-IDFを算出結果として記憶部12に記憶させる。また、制御部10は、対象テキストのトークン同士の共起性を、コーパス情報の各テキストを用いて算出する。
【0029】
S106において、制御部10は、コーパス情報に対応するタスクを識別するための情報であるIDに関連付けて、各トークンに対応する更新後のEmbedding、及びTF-IDFを、ドメイン知識としてドメイン知識データベースにそれぞれ追加する。ドメイン知識データベースに追加される更新後のEmbedding及びTF-IDFは、本開示における第1のドメイン知識の一例である。また、制御部10は、当該IDに関連付けて、算出した共起性を、共起情報としてドメイン知識データベースに追加する。
【0030】
また、制御部10は、コーパス情報に含まれるその他のテキストの一部又は全部を順に対象テキストとして、S101~S106の処理を行う。当該処理において、制御部10は、ドメイン知識データベースに追加するEmbedding、TF-IDF及び共起情報が、当該コーパス情報に対応するタスクのIDに関連付けられて既にドメイン知識データベースに存在する場合、情報を上書きして追加してもよい。また、後述する追加処理例2においても同様である。
【0031】
〔3.ドメイン知識の追加処理例2〕
続いて、オントロジー生成装置1によって実行される処理の他の一例について説明する。なお、説明の便宜上、上記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、重複する説明を繰り返さない。本例においては、タスクに対応するコーパス情報における一部のテキストにラベルが付されていない場合、換言すると前記タスクがFew-Shotタスクである場合等にドメイン知識をドメイン知識データベースに追加する処理の流れについて説明する。図6は、本例の処理の流れを示すフローチャートの一例である。
【0032】
S201においては、Few-Shotタスクに対応するコーパス情報を対象として、S101と同様の処理が実行される。即ち制御部10は、対象テキストに対する前処理として対象テキストをトークンに分割する処理、即ち品詞毎に分割する処理と、ストップワードを削除する処理とを行い、対象テキストから複数のトークンを生成する。
【0033】
S202において、制御部10は、対象テキストのトークン間の共起性を、コーパス情報の各テキストを用いて算出する。更に、制御部10は、各タスクを示すIDに関連付けられた共起情報を参照して、ドメイン知識データベースに含まれる複数のドメイン知識の各々について、当該ドメイン知識に対応する前記トークン間の共起性を算出する。
【0034】
S203において、制御部10は、ドメイン知識データベースに含まれる複数のドメイン知識のうち、コーパス情報に対応する共起性と類似度が最も高くなる共起性に対応するドメイン知識を決定する。一態様において、各共起性の類似度は、各共起性のコサイン類似度によって算出される。ここで、コサイン類似度とは、2つのベクトル間における類似度の尺度の一種である。制御部10は、前記コサイン類似度が最も類似する共起性同士を、最も類似度が高い共起性として決定する。
【0035】
また、前記コサイン類似度が最も類似するドメイン知識は、本開示における第2のドメイン知識に相当する。本開示においては、簡略化のため、前記コサイン類似度が最も類似するドメイン知識のことを「第2のドメイン知識」或いは「類似ドメイン知識」とも呼称する。コサイン類似度の値は、或る対象タスク同士の間において、対象タスクの全てのトークンを用いて算出される。
【0036】
例えば、対象タスクに「私は、スマートフォンの購入を希望しています」というテキストが対応し、当該対象タスクに含まれるトークンが「私」「スマートフォン」「購入」「希望」であった場合において、トークン間の共起性がそれぞれ以下の通りであったとする。
<コーパス情報に対応する共起性>
[(私,スマートフォン),(私,購入),(私,希望),(スマートフォン,購入),(スマートフォン,希望),(購入,希望)]=[3,3,3,3,3,3]
<タスクAのドメイン知識に対応する共起性>
[(私,スマートフォン),(私,購入),(私,希望),(スマートフォン,購入),(スマートフォン,希望),(購入,希望)]=[100,100,1,1,0,0]
<タスクBのドメイン知識に対応する共起性>
[(私,スマートフォン),(私,購入),(私,希望),(スマートフォン,購入),(スマートフォン,希望),(購入,希望)]=[2,1,1,1,0,1]
前記の場合、コーパス情報に対応する共起性とタスクAのドメイン知識に対応する共起性とのコサイン類似度は0.5831、コーパス情報に対応する共起性とタスクBのドメイン知識に対応する共起性とのコサイン類似度は0.8660となり、後者のコサイン類似度の方が、類似度が高い。
【0037】
また、S203の工程は、対象タスクに含まれる各トークン間の共起性を用いて、ドメイン知識データベースから第2のドメイン知識を決定するドメイン知識決定工程に相当する。別の側面から言えば、ドメイン知識決定工程においては、ドメイン知識データベースに含まれる複数のドメイン知識の各々について、当該ドメイン知識に対応する前記各単語間の共起性と、前記対象テキストに含まれる各単語間の共起性との類似度が算出される。そして、前記複数のドメイン知識のうち前記類似度が最も高くなるドメイン知識が、前記第2のドメイン知識として決定される。コーパス情報と最も類似度の高いドメイン知識が第2のドメイン知識として用いられることにより、Few-Shotタスク等の精度を向上させることに寄与する。
【0038】
また、ドメイン知識データベースは、第2のドメイン知識の候補となるデフォルトのドメイン知識を含んでいてもよいし、図1に示す構成のように、オントロジー生成方法を実行する装置とは異なるサーバ上に保存されたドメイン知識を含んでいてもよい。一態様において、コーパス情報に対応する共起性と、デフォルトのドメイン知識に対応する共起性とのコサイン類似度が所定値以下であれば、制御部10は、デフォルトのドメイン知識を第2のドメイン知識として決定してもよい。また、デフォルトのドメイン知識は、例えば各トークンの意味が記載された既存のWiki、及び学習モデルを用いて訓練されたドメイン知識であってもよい。
【0039】
S204において、制御部10は、対象テキストのトークンの各々に対して、第2のドメイン知識における当該トークンのEmbeddingとTF-IDFとのうち、いずれを関連付けるかに応じた分岐を行う。制御部10は、対象テキストのトークンの各々に対して当該Embeddingのみを関連付ける場合にはS205の処理を行い、当該TF-IDFのみを関連付ける場合にはS206の処理を行う。また、当該Embeddingと当該TF-IDFとの双方を関連付ける場合にはS207の処理を行う。また、S205~S207の工程においては、制御部10が、対象テキストのトークンに対応するドメイン知識として、第2のドメイン知識を設定する。
【0040】
また、S204に続いてS205~S207の何れに遷移するかは、図示しない入力装置を介してオントロジー生成装置1に対してユーザが指定可能であってもよい。ただし、コーパス情報のデータ量が少ない場合には、S205又はS207に遷移することが望ましい。なお、制御部10は、S205~S207のうち2つ又は3つの処理と、後述するS208の処理とを行い、S205~S207のうち何れの処理を行った場合にテキスト分類の精度が最も向上したかを導出し、前記精度が最も向上した処理結果を、学習モデルに反映する構成であってもよい。
【0041】
S205において、制御部10は、対象テキストのトークンの各々について、第2のドメイン知識における当該トークンのEmbeddingを取得する。また、制御部10は、対象テキストのトークンの各々について、TF-IDFを、コーパス情報の各テキストを用いて算出する。なお、制御部10は、第2のドメイン知識において、対応するトークンのEmbeddingが存在しない場合、既存のWord Embeddingモデルを参照して、対応するEmbeddingを取得してもよい。
【0042】
S206において、制御部10は、対象テキストのトークンの各々について、第2のドメイン知識における当該トークンのTF-IDFを取得する。また、制御部10は、既存のWord Embeddingモデルを参照して、対象テキストのトークンの各々に対応するEmbeddingを取得する。
【0043】
S207において、制御部10は、対象テキストのトークンの各々について、第2のドメイン知識における当該トークンのEmbeddingとTF-IDFとを取得する。
【0044】
S208において、制御部10は、対象テキストのトークンの各々に対応するEmbeddingのベクトルの末尾にTF-IDFを追加する。なお、トークンに対応するTF-IDFが存在しない場合、制御部10は、当該トークンに対応するEmbeddingのベクトルの末尾に0の値を追加する。
【0045】
これにより、ベクトルの次元数が1だけ増加する。続いて制御部10は、TF-IDFが追加されたEmbeddingと、対象テキストに対応するラベルとを、テキスト分類のための学習モデルに入力することによって、当該学習モデルを学習させる。
【0046】
このように、S208においては、対象テキストに含まれる各トークンのEmbeddingとTF-IDFとが、学習モデルに入力される。ただし、対象テキストにラベルが付されていない場合、制御部10は、ラベルについては学習モデルへの入力を行わない。
【0047】
また、S208の工程は、学習工程の一例である。前述したように、S208においては、第2のドメイン知識に含まれる情報であって、対象テキストに含まれる各トークンに関連付けられた情報であるドメイン知識を用いて、学習モデルの学習が行われる。なお、例えば或る対象トークンのEmbeddingのサイズが所定サイズよりも大きい場合、TF-IDFが学習モデルには入力されない構成であってもよい。
【0048】
S209において、制御部10は、学習モデルの学習によって更新された各EmbeddingとTF-IDFとを取得する。前記Embeddingには、更新されたTF-IDFがベクトルの末尾に含まれる。
【0049】
S210において、制御部10は、コーパス情報に対応するタスクを識別するためのIDに関連付けて、各トークンに対応する更新後のEmbedding及びTF-IDFを、ドメイン知識としてドメイン知識データベースにそれぞれ追加する。ドメイン知識データベースに追加される更新後のEmbedding及びTF-IDFは、本開示における第1のドメイン知識の一例である。また、制御部10は、当該IDに関連付けて、算出した共起性を、共起情報としてドメイン知識データベースに追加する。
【0050】
また、S208~S210の工程は、ドメイン知識追加工程に相当する。ドメイン知識追加工程において、制御部10は、第2のドメイン知識に含まれる情報であって、対象テキストに含まれる各トークンに関連付けられた情報であるEmbeddingとTF-IDFとのうち少なくとも何れかを用いて第1のドメイン知識を生成する。また、制御部10は、当該第1のドメイン知識をドメイン知識データベースに追加する。これにより、第2のドメイン知識のEmbeddingとTF-IDFとのうち少なくとも何れかを用いて、テキスト分類に用いる情報の分量を増加せることができる。
【0051】
また、前述したように、ドメイン知識追加工程においては、対象テキストに含まれる各トークンであって、第2のドメイン知識における各トークンのドメイン知識と当該対象テキストに対応するラベルとの組が、テキスト分類のための学習モデルに入力される。これにより、当該ドメイン知識と、記憶部12が記憶するパラメータセットとが更新されてテキスト分類の精度が向上する。また、更新された当該ドメイン知識が、第1のドメイン知識としてドメイン知識データベースに追加される。
【0052】
また、制御部10は、コーパス情報に含まれるその他のテキストの一部又は全部を順に対象テキストとして、S201~S210の処理を行う。
【0053】
本例の構成によれば、第2のドメイン知識を用いて第1のドメインを生成し、ドメイン知識データベースへの追加を行うことができる。これにより、自然言語処理タスクにおいてテキスト分類に用いる学習データが少ない場合においても、自然言語処理タスクの精度をより向上させることができる。
【0054】
〔ソフトウェアによる実現例〕
オントロジー生成装置1(以下、「装置」と呼ぶ)の機能は、当該装置としてコンピュータを機能させるためのプログラムであって、当該装置の各制御ブロック(特に制御部10)としてコンピュータを機能させるためのプログラムにより実現することができる。
【0055】
この場合、上記装置は、上記プログラムを実行するためのハードウェアとして、少なくとも1つの制御装置(例えばプロセッサ)と少なくとも1つの記憶装置(例えばメモリ)を有するコンピュータを備えている。この制御装置と記憶装置により上記プログラムを実行することにより、上記各実施形態で説明した各機能が実現される。
【0056】
上記プログラムは、一時的ではなく、コンピュータ読み取り可能な、1または複数の記録媒体に記録されていてもよい。この記録媒体は、上記装置が備えていてもよいし、備えていなくてもよい。後者の場合、上記プログラムは、有線または無線の任意の伝送媒体を介して上記装置に供給されてもよい。
【0057】
また、上記各制御ブロックの機能の一部または全部は、論理回路により実現することも可能である。例えば、上記各制御ブロックとして機能する論理回路が形成された集積回路も本発明の範疇に含まれる。この他にも、例えば量子コンピュータにより上記各制御ブロックの機能を実現することも可能である。
【0058】
また、上記各実施形態で説明した各処理は、AI(Artificial Intelligence:人工知能)に実行させてもよい。この場合、AIは上記制御装置で動作するものであってもよいし、他の装置(例えばエッジコンピュータまたはクラウドサーバ等)で動作するものであってもよい。
【0059】
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。
【符号の説明】
【0060】
1 オントロジー生成装置
3 記憶装置(サーバ)
10 制御部
12 記憶部
14 通信部
図1
図2
図3
図4
図5
図6
【手続補正書】
【提出日】2023-04-21
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
テキスト分類に用いる複数のドメイン知識が格納されたドメイン知識データベースに、第1のドメイン知識を追加する、コンピュータによって実行されるオントロジー生成方法であって、
対象テキストに含まれる各単語間の共起性を用いて、前記ドメイン知識データベースから、前記第1のドメイン知識に類似する第2のドメイン知識を決定するドメイン知識決定工程と、
前記第2のドメイン知識に含まれる情報であって、当該対象テキストに含まれる各単語に関連付けられた情報を用いて、前記第1のドメイン知識を生成し、前記ドメイン知識データベースに追加するドメイン知識追加工程と、
を含むオントロジー生成方法。
【請求項2】
前記ドメイン知識決定工程においては、
前記ドメイン知識データベースに含まれる複数のドメイン知識のうち、前記第1のドメイン知識とのコサイン類似度が最も類似するドメイン知識が、前記第2のドメイン知識として決定される、請求項1に記載のオントロジー生成方法。
【請求項3】
前記ドメイン知識決定工程においては、
前記ドメイン知識データベースに含まれる複数のドメイン知識の各々について、当該ドメイン知識に対応する前記各単語間の共起性と、前記対象テキストに含まれる各単語間の共起性との類似度が算出され、前記複数のドメイン知識のうち前記類似度が最も高くなるドメイン知識が、前記第2のドメイン知識として決定される、請求項2に記載のオントロジー生成方法。
【請求項4】
前記ドメイン知識追加工程においては、
当該対象テキストに含まれる各単語に関連付けられた情報として、前記第2のドメイン知識に含まれるEmbeddingが少なくとも用いられる、請求項1から3までの何れか1項に記載のオントロジー生成方法。
【請求項5】
前記ドメイン知識追加工程においては、
当該対象テキストに含まれる各単語であって、前記第2のドメイン知識における各単語のEmbeddingと当該対象テキストに対応するラベルとの組が、テキスト分類のための学習モデルに入力されることによって当該Embeddingが更新され、更新された当該Embeddingが、前記第1のドメイン知識として追加される、請求項4に記載のオントロジー生成方法。
【請求項6】
前記ドメイン知識追加工程においては、
当該対象テキストに含まれる各単語のEmbeddingとTF-IDFとが、前記学習モデルに入力される、請求項5に記載のオントロジー生成方法。
【請求項7】
前記ドメイン知識追加工程においては、
当該対象テキストに含まれる各単語に関連付けられた情報として、前記第2のドメイン知識に含まれるTF-IDFであって、各単語のTF-IDFが少なくとも用いられる、請求項1から3までの何れか1項に記載のオントロジー生成方法。
【請求項8】
前記ドメイン知識データベースは、
前記第2のドメイン知識の候補となるデフォルトのドメイン知識であって、当該オントロジー生成方法を実行する装置とは異なるサーバ上に保存されたドメイン知識を含む、請求項1から3までの何れか1項に記載のオントロジー生成方法。
【請求項9】
テキスト分類のための学習モデルを学習させる、コンピュータによって実行される学習方法であって、
対象テキストに含まれる各単語間の共起性を用いて、テキスト分類に用いる複数のドメイン知識が格納されたドメイン知識データベースから類似ドメイン知識を決定するドメイン知識決定工程と、
前記類似ドメイン知識に含まれる情報であって、当該対象テキストに含まれる各単語に関連付けられた情報を用いて、前記学習モデルを学習させる学習工程と、
を含み、
前記類似ドメイン知識は、当該類似ドメイン知識に対応する各単語間の共起性が、前記対象テキストに含まれる各単語間の共起性と類似するドメイン知識である、学習方法。