特開2023-17307 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 沖電気工業株式会社の特許一覧

特開2023-17307言語処理装置、及び言語処理プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023017307

(43)【公開日】2023-02-07

(54)【発明の名称】言語処理装置、及び言語処理プログラム

(51)【国際特許分類】

G06F 40/30 20200101AFI20230131BHJP

【ＦＩ】

G06F40/30

【審査請求】未請求

【請求項の数】4

【出願形態】ＯＬ

(21)【出願番号】P 2021121484

(22)【出願日】2021-07-26

(71)【出願人】

【識別番号】000000295

【氏名又は名称】沖電気工業株式会社

(74)【代理人】

【識別番号】100180275

【弁理士】

【氏名又は名称】吉田倫太郎

(74)【代理人】

【識別番号】100161861

【弁理士】

【氏名又は名称】若林裕介

(72)【発明者】

【氏名】奥村晃弘

【テーマコード（参考）】

5B091

【Ｆターム（参考）】

5B091AA15

5B091CA02

5B091CA12

5B091CC04

5B091EA01

5B091EA02

(57)【要約】（修正有）

【課題】解析の連鎖を必要とせずに高精度に発話意図を取得できる言語処理装置及び言語処理プログラムを提供する。
【解決手段】言語処理装置１は、入力テキストをトークンに分割するトークン分割部１１と、概念の含有関係を定義する概念定義部１４と、トークン分割部１１で分割されたトークンについて、概念定義部１４で定義した概念の階層数に応じて、自然言語の学習と推論を行うトークン分類部１２と、トークン分類部１２で学習した学習結果を記憶するモデル１５－１～１５－Ｎと、モデル１５－１～１５－Ｎを用いたトークン分類部１２の推論結果に基づいてスロット充填を行うスロット充填部１３と、を有する。
【選択図】図１

【特許請求の範囲】

【請求項1】

入力テキストをトークンに分割するトークン分割手段と、
概念の含有関係を定義する概念定義手段と、
前記トークン分割手段で分割されたトークンについて、前記概念定義手段で定義した概念の階層数に応じて、自然言語の学習と推論を行うトークン分類手段と、
前記トークン分類手段で学習した学習結果を記憶するモデルと、
前記モデルを用いた前記トークン分類手段の推論結果に基づいて、スロット充填を行うスロット充填手段と
を有することを特徴とする言語処理装置。

【請求項2】

前記モデルは、前記階層数と同一又はそれ以上の数のモデルで構成され、
前記トークン分類手段は、階層ごとに前記モデルに基づくトークン分類問題を解き、
前記スロット充填手段は、前記トークン分類問題の結果を統合してスロット充填を行う
ことを特徴とする請求項１に記載の言語処理装置。

【請求項3】

前記スロット充填手段は、トークンごとの分類結果を前記概念定義手段で定義した前記含有関係を維持するように補正することを特徴とする請求項２に記載の言語処理装置。

【請求項4】

コンピュータを、
入力テキストをトークンに分割するトークン分割手段と、
概念の含有関係を定義する概念定義手段と、
前記トークン分割手段で分割されたトークンについて、前記概念定義手段で定義した概念の階層数に応じて、自然言語の学習と推論を行うトークン分類手段と、
前記トークン分類手段で学習した学習結果を記憶するモデルと、
前記モデルを用いた前記トークン分類手段の推論結果に基づいて、スロット充填を行うスロット充填手段と
して機能させることを特徴とする言語処理プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、言語処理装置、及び言語処理プログラムに関する。

【背景技術】

【0002】

近年、言語処理技術の発達によって、機械が人間の発話を理解していると感じることができるシステムが増加している。例えば、特定のタスクを遂行するためのタスク指向型の対話システムでは、あらかじめ想定した範囲内で対話することができる。

【0003】

上記のような対話システムには人間の発話意図を知るための意図解析が必要となる。この意図解析に関しては、例えば、特許文献１に記載の技術が挙げられる。特許文献１に記載の技術は、発話を形態素解析、構文解析、意図解析の順番に連鎖させて処理するものである。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特許第６３２８２６０号

【非特許文献】

【0005】

【非特許文献1】ＪａｃｏｂＤｅｖｌｉｎ，Ｍｉｎｇ－ＷｅｉＣｈａｎｇ，ＫｅｎｔｏｎＬｅｅ，ａｎｄＫｒｉｓｔｉｎａＴｏｕｔａｎｏｖａ， “ＢＥＲＴ：Ｐｒｅ－ｔｒａｉｎｉｎｇｏｆＤｅｅｐＢｉｄｉｒｅｃｔｉｏｎａｌＴｒａｎｓｆｏｒｍｅｒｓｆｏｒＬａｎｇｕａｇｅＵｎｄｅｒｓｔａｎｄｉｎｇ” ａｒＸｉｖ：１８１０．０４８０５（２０１８）

【発明の概要】

【発明が解決しようとする課題】

【0006】

しかしながら、上述のタスク指向型の対話システムでは、例えば、事前に想定する範囲を広げた状況の場合や、１回の発話で伝えるべき情報量が多い場合には適切に処理をすることができなかった。

【0007】

本来、対話システムは、想定する範囲を広げてより汎用的に使えるようにすることや、１回の発話で複雑な用件を伝えられても処理できることが望まれる。想定範囲を広げていくと発話内容とその表現方法は爆発的に増加するし、複雑な用件の場合には１回の発話に含まれる単語数が増加するので、従来よりもさらに意図解析精度を向上させる必要がある。

【0008】

しかしながら、従来の３つの解析技術を連鎖させる方式では、全体の精度を向上させることが困難であった。例えば、それぞれの精度を９５％まで高めたとしても、全体では８６％となってしまう。何れの分野であっても９０％台後半からさらに精度を上げるのは非常に困難であるため、この問題は重大であり、解決すべき問題であった。

【0009】

本発明は、上述した課題に鑑み、解析の連鎖を必要とせずに高精度に発話意図を取得できる言語処理装置、及び言語処理プログラムを提供するものである。

【課題を解決するための手段】

【0010】

第１の本発明の言語処理装置は、（１）入力テキストをトークンに分割するトークン分割手段と、（２）概念の含有関係を定義する概念定義手段と、（３）前記トークン分割手段で分割されたトークンについて、前記概念定義手段で定義した概念の階層数に応じて、自然言語の学習と推論を行うトークン分類手段と、（４）前記トークン分類手段で学習した学習結果を記憶するモデルと、（５）前記モデルを用いた前記トークン分類手段の推論結果に基づいて、スロット充填を行うスロット充填手段とを有することを特徴とする。

【0011】

第２の本発明の言語処理プログラムは、コンピュータを、（１）入力テキストをトークンに分割するトークン分割手段と、（２）概念の含有関係を定義する概念定義手段と、（３）前記トークン分割手段で分割されたトークンについて、前記概念定義手段で定義した概念の階層数に応じて、自然言語の学習と推論を行うトークン分類手段と、（４）前記トークン分類手段で学習した学習結果を記憶するモデルと、（５）前記モデルを用いた前記トークン分類手段の推論結果に基づいて、スロット充填を行うスロット充填手段として機能させることを特徴とする。

【発明の効果】

【0012】

本発明によれば、解析の連鎖を必要とせずに高精度に発話意図を取得できる。

【図面の簡単な説明】

【0013】

【図1】実施形態に係る言語処理装置の構成を示すブロック図である。

【図2】実施形態に係る任意の発話に対して充填したスロットの一例を示す説明図である。

【図3】実施形態に係る概念定義部で定義したオントロジーの一例を示す説明図（その１）である。

【図4】実施形態に係る概念定義部で定義したオントロジーの一例を示す説明図（その２）である。

【図5】実施形態に係る入力テキストと概念定義部内の概念との関係を示す説明図である。

【図6】実施形態に係る教師データの一例を示す説明図（その１）である。

【図7】実施形態に係る教師データの一例を示す説明図（その２）である。

【図8】実施形態に係る言語処理装置の学習時の動作について示すフローチャートである。

【図9】実施形態に係る言語処理装置の推論時の動作について示すフローチャートである。

【図10】実施形態に係る各モデルに基づく推論結果をまとめた一例を示す説明図である（その１）

【図11】実施形態に係るスロット表の一例を示す説明図である（その１）

【図12】実施形態に係る各モデルに基づく推論結果をまとめた一例を示す説明図である（その２）

【図13】実施形態に係るスロット表の一例を示す説明図である（その２）

【図14】実施形態に係る各モデルに基づく推論結果をまとめた一例を示す説明図である（その３）

【図15】実施形態に係るスロット表の一例を示す説明図である（その３）

【図16】実施形態に係るトークン分類部による分類結果の補正方法のイメージを示す説明図である。

【図17】実施形態に係る概念定義と学習モデルの関係を示す説明図である。

【発明を実施するための形態】

【0014】

（Ａ）基本概念
まず、本発明の基本概念を図面を参照しながら説明する。

【0015】

本発明では発話意図の取得をスロット充填として捉える。図２は、実施形態に係る任意の発話に対して充填したスロットの一例を示す説明図である。

【0016】

図２（Ａ）では、「山田と申します。女性です。」と発話された例が示されている。この例は、図２（Ｂ）に示すように「名前」と「性別」の２つのスロットが存在し、それぞれに「山田」と「女性」が値として入っていることを示している。以降では「名前」や「性別」をスロット名、「山田」や「女性」をスロット値と呼ぶものとする。

【0017】

スロットには値として表現を取るものと、概念を取るものの２種類が存在する。スロット値として表現を取るとは、発話内容の一部を切り出してそこで使用された表現をそのまま使うことを意味する。

【0018】

例えば、図２（Ｂ）の名前スロットは発話内容から人名部分を切り出すことで、スロット値を求めることができる。一方、図２（Ｂ）のもう１つのスロットである性別スロットは「女性」か「男性」を区別するためのものとすると、このスロットは値として概念を取るスロットでなければならない。なぜなら、「女性」か「男性」を区別しようとする場合、「女性」、「女の子」、「オンナ」など様々に表現された言葉を１つの概念としてまとめる必要があるからである。即ち、性別スロットの値である「女性」は、発話内容の一部を切り出したものではなく、「女性」「女の子」「オンナ」などで表される概念の名前である。

【0019】

上述したとおり、「女性」という概念を表現する言葉は数多くあり、その中には「女性」という言葉自身も含まれている。つまり、図２の例では、一見発話内容の一部を切り出したように見えるが、実際上は概念を取得している。

【0020】

スロット充填にあたって、スロット値として表現を取るものは、固有表現抽出技術などで処理可能であることから、本発明ではスロットの値として概念を取得する場合を対象とし、以下、本発明の具体例である実施形態を示すものとする。

【0021】

（Ｂ）主たる実施形態
以下、本発明に係る言語処理装置、及び言語処理プログラムの実施形態を、図面を参照しながら詳述する。

【0022】

（Ｂ－１）実施形態の構成
（Ｂ－１－１）言語処理装置の詳細な構成
図１は、実施形態に係る言語処理装置の構成を示すブロック図である。

【0023】

図１において、実施形態に係る言語処理装置１は、トークン分割部１１、トークン分類部１２、スロット充填部１３、概念定義部１４、第１階層モデル１５－１～第Ｎ階層モデル１５－Ｎ、及び教師データ１６を有する。

【0024】

実施形態に係る言語処理装置は、図１に示す各構成部を搭載した専用のＩＣチップ等のハードウェアとして構成しても良いし、又は、ＣＰＵと、ＣＰＵが実行するプログラムを中心としてソフトウェア的に構成して良いが、機能的には、図１で表すことができる。

【0025】

トークン分割部１１は、テキストで書かれた文書（例えば、ｔｘｔファイル、Ｗｏｒｄファイル等種々様々なデータ形式）である入力テキスト５をトークンに分割する機能部である。

【0026】

この実施形態では、トークン分割部１１は、入力テキスト５を１文字ごとのトークンに分割するが、分割方法はこれに限定されるものでは無く、例えば、単語単位であっても良いし、単語をさらに細かく分割したサブワード単位であっても良い。

【0027】

トークン分類部１２は、トークン分類の学習、および、推論を実施する機能部である。言語処理が可能で文脈情報をトークンに内包させる機械学習が好適である。例えば、非特許文献１に記載の技術を用いることができる。

【0028】

スロット充填部１３は、トークン分類部１２が入力テキスト５から推論した結果を統合し、スロット名とスロット値を出力する機能部である。

【0029】

概念定義部１４は、スロットに使用する概念の定義を記憶する機能部である。概念の定義の仕方については後述する。

【0030】

第１階層モデル１５－１～第Ｎ階層モデル１５－Ｎは、トークン分類部１２が学習および推論を実行するときに使用するモデルである。学習時には学習結果をモデルに保存し、推論時にはモデルを読み込んで推論する。階層別にモデルがあり、必要に応じて切り替えて使用される。

【0031】

（Ｂ－１－２）概念定義部の詳細
概念定義部１４における概念の定義の仕方について説明を行う。

【0032】

概念定義部１４では対象とする概念の包含関係（オントロジー）を定義する。概念の包含関係は、一般的な概念を全て網羅する方が好ましいが、これは現実的ではない。そのため、概念定義部１４ではタスクに応じて必要な概念を定義する。

【0033】

図３は、実施形態に係る概念定義部で定義したオントロジーの一例を示す説明図（その１）である。

【0034】

紙面の都合上、概念を図３（Ａ）から図３（Ｅ）に分割して示しているが、これらは全体で１つのツリー構造を成している。図３では、上位概念下位概念の関係を定義しており、Ｒｏｏｔに近いほど上位の概念であることを表している。

【0035】

ところで、概念体系をあらゆる状況で使えるように一般化しようとすると、１つのツリー構造では表現できない場合もある。例えば、「動物」の下位概念を表す場合、少なくとも図４（Ａ）、図４（Ｂ）の２種類が考えられ、これらを１つにまとめることはできない。従って、常に使える汎用のツリー構造があるわけではなく、タスクに応じてツリー構造を決めれば良い。ただし、上位概念と下位概念の関係は常に守られている必要がある。つまり、下位の概念はその上位概念に必ず含まれていなければならない。

【0036】

この実施形態の言語処理装置１は、概念定義部１４で定義された階層の数だけのモデル（第１階層モデル１５－１～第Ｎ階層モデル１５－Ｎ）を準備し、階層ごとにトークン分類部１２が学習および推論をできるように構成される。例えば、図１７に示すように、概念定義部１４で定義された階層の数が「４」だった場合には、第１階層モデル１５－１～第４階層モデル１５－４の４つのモデルを準備することになる。

【0037】

（Ｂ－２）実施形態の動作
次に、以上のような構成を有する実施形態に係る言語処理装置１の動作を説明する。言語処理装置１の動作は、学習時と推論時で動作が異なるので、それぞれについて順に説明する。

【0038】

（Ｂ－２－１）学習時の動作
まず、学習時の動作について説明する前に教師データ１６の作成方法について具体例を挙げて説明する。以下では、手作業で教師データ１６を作成する例を示すものとする。

【0039】

ここで示す例は、一般社員が社内の総務部門に社内ルールに関して質問する内容のテキストから意図を取得するタスクを想定している。

【0040】

取得する概念のツリー構造を概念定義部１４に図３に示したように定義したとする。このとき入力テキストが「転勤になったので家族で引っ越すのですが、家族の旅費は支給されますか？」という文章の場合の考え方を図５に示すものとする。

【0041】

図５は、実施形態に係る入力テキストと概念定義部内の概念との関係を示す説明図である。図５では、入力テキストから以下の３点が分かることを前提としている。

【0042】

第１に「転勤…家族で引っ越す」という表現があることから、「赴任手当支給種別」が「家族同伴」であることである。

【0043】

第２に「転勤…引っ越す」という表現があることから、「転宅有無」が「転宅有」であることである。

【0044】

第３に「転勤…旅費は…？」という表現があることから、「知りたいこと」が「赴任旅費について知りたい」であることである。

【0045】

そして、３点それぞれの表現中の重要な単語として、「家族」５０１、「引っ越す」５０２、「旅費」５０３を選択し、注目単語として概念定義部１４内の概念（図３）と結びつける。概念定義部１４において、ある概念が該当する場合はその上位概念も必ず該当することから、Ｒｏｏｔに至るまでのすべての上位概念を列挙し、階層ごとにまとめる。

【0046】

このように入力テキストに対して注目単語と取得すべき概念が決まったら、概念名として注目単語を抽出するためのトークン分類問題として、教師データ１６を作成する。ただし、階層ごとに別々のモデル（第１階層モデル１５－１～第Ｎ階層モデル１５－Ｎ）として学習させるため、教師データ１６も階層ごとに準備する。

【0047】

図５に基づいて作成した教師データ１６を図６に示すものとする。なお、図６中の「Ｂ」、「Ｉ」、「Ｏ」は一般の系列ラベリングの手法に従っている。また、図６において第４階層を省略しているが、全てのラベルを「Ｏ」に設定する。なお、系列ラベリングの手法は上記に限らず、種々様々な手法を適用することができる。

【0048】

同様に、「日帰り出張のときの日当はいくらですか？」というテキストから作成した別の教師データを図７に示すものとする。

【0049】

このようにして、想定する入力テキストを多数準備し、それらから教師データ１６を作成する。以上が教師データ１６の作成方法である。

【0050】

続いて、言語処理装置１の学習時の動作について、説明を行う。図８は、実施形態に係る言語処理装置の学習時の動作について示すフローチャートである。

【0051】

＜ステップＳ１０１＞
概念定義部１４に定義された階層の数を取得し、Ｎとする。対象とする階層を示す変数Ａの値を１から順番に増やしながらステップＳ１０２、及びステップＳ１０３の処理を繰り返す。

【0052】

＜ステップＳ１０２、ステップＳ１０３＞
トークン分類部１２は、階層Ａの教師データ１６を読み込み、機械学習を実施して学習した結果を第Ａ階層モデル１５－Ａに保存する。

【0053】

＜ステップＳ１０４＞
言語処理装置１は、以上をＮの処理が終わるまでステップＳ１０１に戻って繰り返す。

【0054】

（Ｂ－２－２）推論時の動作
次に、言語処理装置１の推論時の動作について、説明を行う。図９は実施形態に係る言語処理装置の推論時の動作について示すフローチャートである。

【0055】

＜ステップＳ２０１＞
まず、言語処理装置１のトークン分割部１１は、入力テキスト５を１文字ごとのトークンに分割する。

【0056】

＜ステップＳ２０２＞
次に、言語処理装置１は、概念定義部１４に定義された階層の数を取得し、Ｎとする。言語処理装置１は、対象とする階層を示す変数Ａの値を１から順番に増やしながらステップＳ２０３の処理を繰り返す。

【0057】

＜ステップＳ２０３＞
トークン分類部１２は、第Ａ階層モデル１５－Ａから学習結果を読み込んで推論を実施する。

【0058】

＜ステップＳ２０４＞
言語処理装置１は、以上をＮの処理が終わるまでステップＳ２０２に戻って繰り返す。

【0059】

＜ステップＳ２０５＞
ここまでで、言語処理装置１がＮ階層分のモデル（第１階層モデル１５－１～第Ｎ階層モデル１５－Ｎ）を使用してそれぞれ予測を実施したので、１つの入力テキスト５に対してＮ種類の結果が得られた状態である。各推論は個別に実施するため、概念定義部１４で定義したツリー構造に当てはめるとＲｏｏｔからの１つのパスを形成しない場合がある。その場合には、トークンの分類結果を補正する。補正方法に関しては後述する。

【0060】

＜ステップＳ２０６＞
次に、トークン分類部１２は、抽出した文字列ごとに各階層の結果を統合する。

【0061】

例えば、各モデルの推論結果が図６（教師データ１６の例と共用）になった場合の結果は図１０である。同様に、各モデルの推論結果が図７（教師データ１６の例と共用）になった場合の結果は図１２である。

【0062】

＜ステップＳ２０７＞
そして、スロット充填部１３は、第１階層をスロット名、第２階層以降をスロット値としてスロットを作成し、スロット充填を実施する。

【0063】

例えば、スロット充填部１３が図１０から実施した結果（スロット表）を図１１に示すものとする。同様に、図１２から実施した結果を図１３に示すものとする。

【0064】

なお、例えば入力テキスト５が「日帰り出張と宿泊出張の日当を教えてください」だった場合には、図１４の様な結果が得られることがある。このように、抽出した文字列で統合した後であっても、１つのスロットに入るべきスロット値が複数になる場合には図１５に示すように両方の値をスロット値に入れる。

【0065】

（Ｂ－２－３）補正方法（ステップＳ２０５の詳細）
図１６は、実施形態に係るトークン分類部による分類結果の補正方法のイメージを示す説明図である。

【0066】

一般に機械学習で分類問題を解いた場合、各ラベルの確率が予測されている。

【0067】

図１６中の１Ａ～２Ｄは分類ラベルであり、その下の数値はそれぞれのラベルの確率である。図１６の場合は、各層個別に分類結果を決定すると「１Ａ」と「２Ｄ」となり、Ｒｏｏｔから１つのパスを形成しない。このような場合には、例えば、各層の確率の積を使ってＲｏｏｔから末端までのパス全体の確率を求めて、最も確率が高いパスを選択し補正する。

【0068】

例えば、図１６（Ａ）に示すように、パス全体の確率の積が最も高い「１Ａ」と「２Ｂ」を選択することになり（０９×０．２＝０．１８）、図１５（Ｂ）に示すように、第２階層の分類結果を「２Ｄ」から「２Ｂ」へと補正できる。

【0069】

（Ｂ－３）実施形態の効果
本実施形態によれば、以下の効果を奏する。

【0070】

言語処理装置１は、従来技術のように３つの解析技術（形態素解析、構文解析、意図解析）を連鎖させる必要がないため、全体の精度向上が容易である。

【0071】

また、言語処理装置１は、教師データ１６を使用して学習させるため、タスクに特有な問題に容易に対応できる。例えば、特定の企業の業務支援をタスクとする場合は、その企業に特有な用語や言い回しに容易に対応できる。

【0072】

言語処理装置１は、概念の包含関係を考慮し階層ごとにモデルを分割しているので、トークン分類部１２が事前学習（例えば、非特許文献１に記載の技術）を行っていた場合は、その効果を損なうことなく学習（ファインチューニング）することができる。

【0073】

例えば、「ペットの飼い方を教えて」、「犬の飼い方を教えて」などの入力テキストを扱うときに、「ペット」という言葉を使った場合は犬や猫を含めた全般的な質問として捉え、「犬」という言葉を使った場合は犬に特有な質問として捉える必要があるとする。このときに、１つのモデルだけを使った分類問題で解こうとすると、本来「ペット」と「犬」には包含関係があるのも関わらず、「ペット」と「犬」を全く別物として区別させることになるため、例え「ペット」と「犬」が近い関係にある事を事前学習で得ていたとしても、それを生かすことができなかった。

【0074】

本実施形態の言語処理装置１では階層ごとにモデルを分割しているので（第１階層モデル１５－１～第Ｎ階層モデル１５－Ｎ）、このような事態を避けることができる。

【0075】

（Ｃ）他の実施形態
上述した実施形態においても種々の変形実施形態を言及したが、本発明は、以下の変形実施形態にも適用できる。

【0076】

（Ｃ－１）上述した実施形態では概念定義部１４で定義した階層の数と同じ数のモデルを準備すると説明したが、これに限定されるものではない。１つの階層を複数のモデルで担当し、状況によって切り替えるように構成しても良い。

【0077】

（Ｃ－２）トークン分類部１２は、例えば、非特許文献１に記載されている様な技術を用いて事前学習を実施しておくのが良い。大量の一般的な文章で事前学習を行って、言語モデルを作成しておけば、タスクに特化した部分の教師データ１６で効率よく学習（ファインチューニング）できる。

【0078】

（Ｃ－３）上述した実施形態では教師データ１６の作成方法として正例を中心に説明したが、教師データ１６は負例を元にしても良い。例えば、あるトークンが事前学習による言語モデルの効果により意図せず「Ｏ」以外に分類される場合は、そのトークンの正解ラベルを「Ｏ」とした教師データ１６を作成しても良い。

【0079】

（Ｃ－４）上述した実施形態では教師データ１６は全て手作業で作成すると説明したが、概念定義部１４の定義に従えば、ある概念の上位概念は一意に決まるので、下位概念の教師データ１６から上位概念の教師データ１６を自動的に作成するようにしても良い。

【0080】

（Ｃ－５）上述した実施形態ではスロット値としてスロット名からのパスをスラッシュ「／」で区切って表示した（図１１等）。これは、概念定義部１４での定義に使うノード名に重複があっても特定できるようにするためである。

【0081】

例えば、図３（Ｂ）には「赴任旅費について知りたい」と「出張旅費について知りたい」それぞれの下に「交通費について知りたい」と「宿泊費ついて知りたい」が存在しておりノード名前が重複しているため、スロット値として「交通費について知りたい」を入れた場合はどちらなのか特定できなくなる。そのため、概念定義部１４での定義に使うノード名を重複しないようにしている場合はスラッシュ「／」で区切る必要はない。

【0082】

（Ｃ－６）上述した実施形態では説明を簡易なものにするために概念定義部１４での定義に使ったノード名を教師データ１６のラベル名とすると説明した。しかし、図３（Ｂ）のように「赴任旅費について知りたい」と「出張旅費について知りたい」それぞれの下に「交通費について知りたい」と「宿泊費ついて知りたい」が存在してノード名前が重複している場合は、異なるラベルを指定する必要がある。

【0083】

（Ｃ－７）上述した実施形態では入力テキストとしてユーザーの発話のみを示したが、対話の経緯を入力テキストに含めても良い。例えば、システムがユーザーに問いかけた文章と、ユーザーがそれに対して答えた文章をセパレータで区切って入力テキストとしても良い。

【0084】

（Ｃ－８）上述した実施形態では、処理言語として日本語を対象とした場合を説明したが、これに限定されるものでは無く、種々様々な言語を適用することができる。ただし、当然のことながら、言語処理装置１で教師データ１６を作成し学習（ファインチューニング）する言語と事前学習に用いる言語は同一の必要がある。

【符号の説明】

【0085】

１…言語処理装置、５…入力テキスト、１１…トークン分割部、１２…トークン分類部、１３…スロット充填部、１４…概念定義部、１５－１～１５－Ｎ…第１階層モデル～第Ｎ階層モデル、１６…教師データ。

【図1】