IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧

特許7172101タグ付与モデル生成装置、タグ付与装置、これらの方法及びプログラム
<>
  • 特許-タグ付与モデル生成装置、タグ付与装置、これらの方法及びプログラム 図1
  • 特許-タグ付与モデル生成装置、タグ付与装置、これらの方法及びプログラム 図2
  • 特許-タグ付与モデル生成装置、タグ付与装置、これらの方法及びプログラム 図3
  • 特許-タグ付与モデル生成装置、タグ付与装置、これらの方法及びプログラム 図4
  • 特許-タグ付与モデル生成装置、タグ付与装置、これらの方法及びプログラム 図5
  • 特許-タグ付与モデル生成装置、タグ付与装置、これらの方法及びプログラム 図6
  • 特許-タグ付与モデル生成装置、タグ付与装置、これらの方法及びプログラム 図7
  • 特許-タグ付与モデル生成装置、タグ付与装置、これらの方法及びプログラム 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-11-08
(45)【発行日】2022-11-16
(54)【発明の名称】タグ付与モデル生成装置、タグ付与装置、これらの方法及びプログラム
(51)【国際特許分類】
   G06F 40/216 20200101AFI20221109BHJP
【FI】
G06F40/216
【請求項の数】 8
(21)【出願番号】P 2018071308
(22)【出願日】2018-04-03
(65)【公開番号】P2019185153
(43)【公開日】2019-10-24
【審査請求日】2020-08-03
【新規性喪失の例外の表示】特許法第30条第2項適用 (1) 発行日 2017年10月5日 刊行物 「第81回言語・音声理解と対話処理研究会資料 P84-89」 発行者名 一般社団法人 人工知能学会
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(74)【代理人】
【識別番号】100121706
【弁理士】
【氏名又は名称】中尾 直樹
(74)【代理人】
【識別番号】100128705
【弁理士】
【氏名又は名称】中村 幸雄
(74)【代理人】
【識別番号】100147773
【弁理士】
【氏名又は名称】義村 宗洋
(72)【発明者】
【氏名】成松 宏美
(72)【発明者】
【氏名】杉山 弘晃
(72)【発明者】
【氏名】水上 雅博
【審査官】長 由紀子
(56)【参考文献】
【文献】国際公開第2008/146583(WO,A1)
【文献】中野 桂吾、平井 有三,日本語固有表現抽出における文節情報の利用,情報処理学会論文誌,日本,社団法人情報処理学会,2004年03月15日,第45巻 第3号,pp.934-941
【文献】加藤 明彦 外2名,固有表現と複合機能語を考慮したMWEベースの依存構造コーパス構築と解析,言語処理学会第23回年次大会 発表論文集 [online],日本,言語処理学会,2017年03月06日, pp.42-45
【文献】藤原 勇 外2名,統語的タグを用いた統計的階層句機械翻訳,言語処理学会第18回年次大会発表論文集 チュートリアル 本会議 [CD-ROM] ,日本,言語処理学会,2012年03月31日,pp.255-258
(58)【調査した分野】(Int.Cl.,DB名)
G06F 40/00-58
G06F 16/00-958
(57)【特許請求の範囲】
【請求項1】
テキストに関連する情報であるテキスト関連情報は、そのテキストに含まれる少なくとも品詞情報を含む各単語に関連する情報である単語関連情報と、その各単語の単語関連情報に付与されたタグであって、単語の係り受けに基づくフレーズを対象として付与されたタグとであるとし、学習データは、複数のテキストにそれぞれ対応する複数のテキスト関連情報であるとして
入力された学習データを用いて、各単語関連情報に各タグが対応付けられている確率を表す確率関連情報と、各テキストの中の連続する複数の単語の単語関連情報にそれぞれ対応付けられている連続する複数のタグの出現頻度を考慮した各タグが出現する確率である連結確率を表す連結確率関連情報とを含むタグ付与モデルを生成する学習部と、
上記生成されたタグ付与モデルを記憶する記憶部と、
を含むタグ付与モデル生成装置。
【請求項2】
請求項1のタグ付与モデル生成装置であって、
上記単語関連情報は、上記そのテキストに含まれる少なくとも品詞情報を含む各単語に関連する情報である単語関連情報と、その各単語の単語関連情報に対応付けられた、単語の係り受けに基づくフレーズを考慮したタグが付与された単語そのものを含む、
タグ付与モデル生成装置。
【請求項3】
請求項1又は2のタグ付与モデル生成装置であって、
上記学習データの量が所定の基準値より大である場合の各単語の単語関連情報の数は、そうでない場合の各単語の単語関連情報に含まれる品詞情報の小カテゴリの品詞情報を含むことにより、上記そうでない場合の各単語の単語関連情報の数よりも多くなっている、
タグ付与モデル生成装置。
【請求項4】
請求項1のタグ付与モデル生成装置により生成されたタグ付与モデルと、入力されたテキストに含まれる各単語に関連する情報である単語関連情報とを用いて、上記入力されたテキストの各単語に尤もらしいタグを付与するタグ付与部と、
上記タグ付与部により所定のタグが付与された連続する複数の単語から構成されるフレーズ、又は、上記タグ付与部により各単語にタグが付与されたテキストを出力する出力部と、
を含むタグ付与装置。
【請求項5】
テキストに関連する情報であるテキスト関連情報は、そのテキストに含まれる少なくと
も品詞情報を含む各単語に関連する情報である単語関連情報と、その各単語の単語関連情
報に付与されたタグであって、単語の係り受けに基づくフレーズを対象として付与されたタグとであるとし、学習データは、複数のテキストにそれぞれ対応する複数のテキスト関連情報であるとして
学習部が、入力された学習データを用いて、各単語関連情報に各タグが対応付けられている確率を表す確率関連情報と、各テキストの中の連続する複数の単語の単語関連情報にそれぞれ対応付けられている連続する複数のタグの出現頻度を考慮した各タグが出現する確率である連結確率を表す連結確率関連情報とを含むタグ付与モデルを生成する学習ステップと、
記憶部が、上記生成されたタグ付与モデルを記憶する記憶ステップと、
を含むタグ付与モデル生成方法。
【請求項6】
タグ付与部が、請求項5のタグ付与モデル生成方法により生成されたタグ付与モデルと、入力されたテキストに含まれる各単語に関連する情報である単語関連情報とを用いて、上記入力されたテキストの各単語に尤もらしいタグを付与するタグ付与ステップと、
出力部が、上記タグ付与部により所定のタグが付与された連続する複数の単語から構成されるフレーズ、又は、上記タグ付与部により各単語にタグが付与されたテキストを出力する出力ステップと、
を含むタグ付与方法。
【請求項7】
請求項1から3のタグ付与モデル生成装置の各部としてコンピュータを機能させるためのプログラム。
【請求項8】
請求項4のタグ付与装置の各部としてコンピュータを機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
この発明は、テキストの各単語にタグを付与するためのモデルを生成する技術、又は、生成されたモデルを用いてテキストの各単語にタグを付与する技術に関する。
【背景技術】
【0002】
テキストの各単語に場所等のタグを付与する技術として、非特許文献1に記載された固有表現抽出技術が知られている。
【0003】
非特許文献1の技術は、CRF(Conditional Random Field)(条件付き確率場)を用いて、固有表現を抽出するものである。非特許文献1の技術では、抽出する固有表現として固有名詞等が想定されている。また、非特許文献1の技術では、タグを付与するためのモデルの学習に用いる特徴量として、漢字/かな/カタカナ/英字等が用いられており、文字種の変化点(漢字からかなへ等)が基本的なタグの区切れとなっている。
【0004】
このため、非特許文献1の技術により、例えば、「日本には富士山がある。」というテキストから、「日本」「富士山」という場所の固有表現を抽出することができる。言い換えれば、非特許文献1の技術により、「日本」「富士山」に「地名」というタグを付与することができる。
【0005】
また、非特許文献1の技術により、例えば、「東京タワーに上った。」というテキストから、「東京タワー」という固有表現を抜き出すことができる。言い換えれば、非特許文献1の技術により、「東京タワー」に「地名」というタグを付与することができる。
【0006】
さらに、非特許文献1の技術により、例えば、「東京にあるタワーに上った。」というテキストから、「東京」という固有表現を抜き出すことができる。言い換えれば、非特許文献1の技術により、「東京」に「地名」というタグを付与することができる。
【先行技術文献】
【非特許文献】
【0007】
【文献】齋藤邦子、鈴木潤、今村賢治、“CRFを用いたブログからの固有表現抽出”、[online]、2007年、[平成30年3月22日検索]、インターネット〈URL:http://www.anlp.jp/proceedings/annual_meeting/2007/pdf_dir/D1-3.pdf〉
【発明の概要】
【発明が解決しようとする課題】
【0008】
ところで、例えば自動応答システム、対話システム等の人の発話を理解するシステムでは、場所についての情報をより正確に取得するために、例えば「東京にあるタワーに上った。」というテキストから、「東京」ではなく、「東京にあるタワー」をひとまとまりで場所として認識する必要がある。
【0009】
しかし、非特許文献1の技術では、「東京にあるタワーに上った。」というテキストが入力された際に、「東京にあるタワー」をひとまとまりで場所として認識することができなかった。言い換えれば、「東京にあるタワー」に「場所」のタグを付与することができなかった。
【0010】
すなわち、非特許文献1の技術では、単語の係り受けに基づくフレーズを考慮してタグを付与することができなかった。
【0011】
この発明は、単語の係り受けに基づくフレーズを考慮してタグを付与するためのタグ付与モデルを生成するタグ付与モデル生成装置、生成されたタグ付与モデルを用いて単語の係り受けに基づくフレーズを考慮してタグを付与するタグ付与装置、これらの方法及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0012】
この発明の一態様によるタグ付与モデル生成装置によれば、テキストに関連する情報であるテキスト関連情報は、そのテキストに含まれる少なくとも品詞情報を含む各単語に関連する情報である単語関連情報と、その各単語の単語関連情報に付与されたタグであって、単語の係り受けに基づくフレーズを対象として付与されたタグとであるとし、学習データは、複数のテキストにそれぞれ対応する複数のテキスト関連情報であるとして、入力された学習データを用いて、各単語関連情報に各タグが対応付けられている確率を表す確率関連情報と、各テキストの中の連続する複数の単語の単語関連情報にそれぞれ対応付けられている連続する複数のタグの出現頻度を考慮した各タグが出現する確率である連結確率を表す連結確率関連情報とを含むタグ付与モデルを生成する学習部と、生成されたタグ付与モデルを記憶する記憶部と、を備えている。
【0013】
この発明の一態様によるタグ付与装置によれば、上記のタグ付与モデル生成装置により生成されたタグ付与モデルと、入力されたテキストに含まれる各単語に関連する情報である単語関連情報とを用いて、入力されたテキストの各単語に尤もらしいタグを付与するタグ付与部と、タグ付与部により所定のタグが付与された連続する複数の単語から構成されるフレーズ、又は、タグ付与部により各単語にタグが付与されたテキストを出力する出力部と、を備えている。
【発明の効果】
【0014】
この発明によれば、単語の係り受けに基づくフレーズを考慮してタグを付与するためのタグ付与モデルを生成することができる。また、この発明によれば、生成されたタグ付与モデルを用いて単語の係り受けに基づくフレーズを考慮してタグを付与することができる。
【図面の簡単な説明】
【0015】
図1図1は、タグ付与モデル生成装置の機能構成の例を示す図である。
図2図2は、タグ付与モデル生成方法の処理手続きの例を示す図である。
図3図3は、タグ付与装置の機能構成の例を示す図である。
図4図4は、タグ付与方法の処理手続きの例を示す図である。
図5図5は、単語関連情報及び正解タグの例を示す図である。
図6図6は、確率関連情報及び連結確率関連情報の例を示す図である。
図7図7は、各単語の単語関連情報に対する各タグの付与を表す経路の例を示す図である。
図8図8は、場所曖昧性ラベルの分類の例を示す図である。
【発明を実施するための形態】
【0016】
以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
【0017】
後述するように、タグ付与モデル生成装備及び方法、タグ付与装置及び方法により様々なタグを付与することができるが、以下では、「場所」のタグを付与する場合を例にあげて説明する。
【0018】
[タグ付与モデル生成装置及び方法]
タグ付与モデル生成装置は、図1に示すように、学習データ生成部1と、学習部2と、記憶部3とを例えば備えている。
【0019】
学習データ生成部1は、図1に示すように、分離部11と、単語関連情報生成部12と、正解タグ付与部13とを例えば備えている。
【0020】
単語関連情報生成部12は、形態素解析部121と、品詞付与部122とを備えている。
【0021】
タグ付与モデル生成方法は、タグ付与モデル生成装置の各部が、以下及び図2に例示するステップS1からステップS3の処理を行うことにより実現される。
【0022】
[[学習データ生成部1]]
学習データ生成部1に、単語の係り受けに基づくフレーズの箇所が示された複数のテキストが入力される。
【0023】
テキストは、人が雑談した実際の発話を書き起こしたテキストであってもよいし、音声認識システムにより得られたテキストであってもよいし、チャットデータ、独話、物語等の任意のテキストデータであってもよい。
【0024】
単語の係り受けに基づくフレーズの箇所は、タグの付与の対象となる箇所を表し、例えば人手で予め与えられえる。
【0025】
この際、タグの付与漏れを抑えるために、少しでもそのタグに関係すると読み取れる箇所が、単語の係り受けに基づくフレーズの箇所として選択されるとする。例えば、各助詞の前(修飾語)を含んだできる限りひとまとまりのフレーズが、単語の係り受けに基づくフレーズの箇所として選択される。例えば、「昔はよく街の駄菓子屋さんに行くのが好きでした。」というテキストに対しては、「街」「駄菓子屋さん」ではなく、「街の駄菓子屋さん」が、単語の係り受けに基づくフレーズの箇所として選択されるとする。
【0026】
また、修飾語中であっても、単語の係り受けに基づくフレーズの箇所として選択される。例えば、「旅先でよくするスポーツはありますか?」というテキストに対しては、「旅先」が、単語の係り受けに基づくフレーズの箇所として選択されるとする。なお、この例のように、単語の係り受けに基づくフレーズの箇所として、複数の単語から構成されるフレーズではなく、単語そのものが選択されてもよい。
【0027】
また、エリアを限定するような表現、例えば「xxらへん」「xxをするところ」という表現も、単語の係り受けに基づくフレーズの箇所として選択されるとする。例えば、「自宅の近くにスポーツができるところはありますか?」というテキストに対しては、「自宅」「近く」「ところ」ではなく、「自宅の近く」「スポーツができるところ」が、単語の係り受けに基づくフレーズの箇所として選択されるとする。
【0028】
例えば、「今日は{駅前のラーメン屋}に行ってきた。」というテキストが学習データ生成部1に入力される。{駅前のラーメン屋}が、単語の係り受けに基づくフレーズの箇所を表す。
【0029】
学習データ生成部1は、入力された単語の係り受けに基づくフレーズの箇所が示された複数のテキストを用いて、複数のテキストにそれぞれ対応する複数のテキスト関連情報である学習データを生成する(ステップS1)。
【0030】
テキスト関連情報は、テキストに関連する情報であり、例えば、そのテキストに含まれる品詞情報を含む各単語に関連する情報である単語関連情報と、その各単語の単語関連情報に対応付けられた、単語の係り受けに基づくフレーズを考慮したタグとである。ここでは単語関連情報として品詞情報を含む場合の例で説明するが、単語関連情報はフレーズの特定できる情報であれば品詞情報を含まなくてもよい。
【0031】
生成された学習データは、学習部2に出力される。
【0032】
以下、学習データ生成部1の処理についてより詳細に説明する。
【0033】
[[[分離部11]]]
学習データ生成部1の分離部11は、学習データ生成部1に入力された単語の係り受けに基づくフレーズの箇所が示された複数のテキストを入力とし、入力された複数のテキストのそれぞれを、テキスト本文の情報であるテキスト文と、フレーズ箇所とに分離する(ステップS11)。
【0034】
分離されたテキスト文は、単語関連情報生成部12に出力される。分離されたフレーズ箇所は、正解タグ付与部13に出力される。
【0035】
例えば、分離部11は、「今日は{駅前のラーメン屋}に行ってきた。」というテキストを、「今日は駅前のラーメン屋に行ってきた。」というテキスト文と、「駅前のラーメン屋」というフレーズ箇所とに分離する。
【0036】
[[[単語関連情報生成部12]]]
学習データ生成部1の単語関連情報生成部12に、テキスト文が入力される。
【0037】
単語関連情報生成部12は、テキスト文を用いて、そのテキストに含まれる少なくとも品詞情報を含む各単語に関連する情報である単語関連情報を生成する(ステップS12)。
【0038】
生成された、各単語の単語関連情報は、正解タグ付与部13に出力される。
【0039】
単語関連情報は、例えば単語の品詞についての情報である品詞情報を少なくとも含む。単語関連情報は、単語そのものを含んでいてもよい。言い換えれば、単語関連情報は、テキストに含まれる少なくとも品詞情報を含む各単語に関連する情報である単語関連情報と、その各単語の単語関連情報に対応付けられた、単語の係り受けに基づくフレーズを考慮したタグが付与された単語そのものを含んでいてもよい。
【0040】
単語関連情報生成部12は、例えばMeCab等の既存の形態素解析エンジンを用いて形態素解析し、単語関連情報を生成する。MeCabについては「http://taku910.github.io/mecab/」を参照されたい。
【0041】
例えば、単語関連情報生成部12の形態素解析部121が、テキスト文を形態素解析することにより、テキスト文を単語に分割する。そして、単語関連情報生成部12の品詞付与部122が、分割された各単語に品詞を付与する。この場合、例えば、分割された単語と、分割された単語に付与された品詞についての情報とが、単語関連情報となる。
【0042】
例えば、単語関連情報生成部12の形態素解析部121が、「今日は駅前のラーメン屋に行ってきた。」というテキスト文を形態素解析することにより、図5の表の左の列に示すように、「<S>/今日/は/駅前/の/ラーメン/屋/に/行/っ/て/き/た/。/</S>」と単語に分離する。ここで、「<S>」は文の最初であることがわかるように付与される記号であり、「</S>」は文の終わりであることがわかるように付与される記号である。この例のように、形態素解析により得られる単語列に、「<S>」「</S>」等の、単語以外の記号が含まれていてもよい。
【0043】
そして、単語関連情報生成部12の品詞付与部122が、図5の表の中央の列に示すように、各単語に品詞(POS)を付与する。図5の例では、「<S>」に「BOS」というラベルが、「今日」に「名詞:日時:連用」という品詞が、「は」に「連用助詞」という品詞が、「駅前」に「名詞」という品詞が、「の」に「格助詞」という品詞が、「ラーメン」に「名詞」という品詞が、「屋」に「名詞接尾辞」という品詞が、「に」に「格助詞:連用」という品詞が、「行」に「動詞語幹」という品詞が、「っ」に「動詞活用語句」という品詞が、「て」に「動詞活用語尾」という品詞が、「き」に「動詞語幹」という品詞が、「た」に「動接尾辞」という品詞が、「。」に「句点」という品詞が、「</S>」に「EOS」というラベルが付与されている。「BOS」は”Beginning Of Sentence”の頭文字であり文の最初を表すラベルであり、「EOS」は”End Of Sentence”の頭文字であり文の終わりを表すラベルである。この例のように、形態素解析により得られる単語列に単語以外の記号(例えば、「<S>」「</S>」)が含まれている場合には、その単語以外の記号にラベル(例えば、「BOS」「EOS」)が付与されてもよい。
【0044】
[[[正解タグ付与部13]]]
正解タグ付与部13に、フレーズ箇所及び各単語の単語関連情報が入力される。
【0045】
正解タグ付与部13は、フレーズ箇所及び各単語の単語関連情報を用いて、各単語の単語関連情報に正解のタグを付与し(ステップS13)、正解のタグを付与した各単語の単語関連情報を、複数のテキストにそれぞれ対応する複数のテキスト関連情報である学習データとして学習部2へ出力する。フレーズ箇所は、単語の係り受けに基づくフレーズの箇所であるため、正解タグ付与部13により付与されたタグは、各単語の単語関連情報に対応付けられた、単語の係り受けに基づくフレーズを考慮したタグとなる。
【0046】
例えば、正解タグ付与部13は、図5の表の右の列に示すように、「<S>」の単語関連情報に[START]というタグを、「駅前」の単語関連情報に[B-LOC]というタグを、「の」の単語関連情報に[I-LOC]というタグを、「ラーメン」の単語関連情報に[I-LOC]というタグを、「屋」の単語関連情報に[I-LOC]というタグを、「</S>」の単語関連情報に[END]というタグを、これら以外の単語の単語関連情報に[NL]というタグを付与している。この例のように、単語の係り受けに基づくフレーズの箇所以外の単語や記号に、単語の係り受けに基づくフレーズの箇所以外の単語や記号であることを示すタグが付与されてもよい。
【0047】
ここで、[START]は文の先頭を表すタグであり、[END]は文の終わりを表すタグであり、[B-LOC]は「場所」を表すフレーズの先頭単語を表すタグであり、[I-LOC]は「場所」を表すフレーズの中の[B-LOC]に対応する単語に続く単語を表すタグであり、[NL]は「場所」を表すフレーズの単語ではないことを表すタグである。
【0048】
[[学習部2]]
学習部2には、学習データ生成部1から出力された、正解のタグを付与した各単語の単語関連情報である学習データが入力される。
【0049】
学習部2は、学習データを用いて、各単語関連情報に各タグが対応付けられている確率に関連する情報である確率関連情報と、各テキストの中の連続する複数の単語の単語関連情報にそれぞれ対応付けられている連続する複数のタグの出現頻度を考慮した各タグが出現する確率である連結確率に関連する情報である連結確率関連情報とを含むタグ付与モデルを生成する(ステップS2)。
【0050】
学習部2は、例えば、CRF等の系列ラベリングの手法によりタグ付与モデルを生成する。学習部2は、ディープラーニングを用いた系列ラベリング手法等のその他の手法によりタグ付与モデルを生成してもよい。
【0051】
生成されたタグ付与モデルは、記憶部3に出力される。
【0052】
確率関連情報は、各単語関連情報に各タグが対応付けられている確率が大きいほど大きな値を取る値であってもよいし、各単語関連情報に各タグが対応付けられている確率が小さいほど大きな値を取る値であってもよい。各単語関連情報に各タグが対応付けられている確率が小さいほど大きな値を取る値の例は、各単語関連情報に各タグを対応付けたときのコストである。コストは大きいほど確からしさが低いことを意味する。
【0053】
学習データとなる単語関連情報の一系列(すなわち一文に相当する)をX、t番目の単語関連情報をx_t、t番目のタグをy_tとおくと、t番目においてx_tにy_tが付与される確率が、p(y_t|x_t)と算出できる。なお、tの添え字がつかないxやyは、系列の中での出現位置によらない単語関連情報及びタグを表すものとする。単語関連情報xに対してタグyが付与される確率p(y|x)は、学習データ中の出現頻度より、p(y,x)/p(x)から算出できる。ここで、p(y,x)は学習データ中のタグyが付与されている単語関連情報xの出現頻度であり、p(x)は学習データ中の単語関連情報xの出現頻度である。例えば、コストはp(y|x)の逆数として求めることができる。
【0054】
また、確率関連情報は、各単語関連情報に各タグが対応付けられている確率そのものであってもよい。確率関連情報は、学習データの中の各単語関連情報に対応付けられた各タグの出現頻度に基づいて計算される。
【0055】
連結確率関連情報は、連結確率が大きいほど大きな値を取る値であってもよいし、連結確率が小さいほど大きな値を取る値であってもよい。連結確率が小さいほど大きな値を取る値の例は、各テキストの中の連続する複数の単語の単語関連情報にそれぞれ対応付けられている連続する複数のタグの出現頻度を考慮した各タグが出現する連結コストである。
【0056】
ここで、タグとしてBOS(文の最初)、B-LOC(場所のタグの最初の単語)、I-LOC(場所のタグの後続の単語)、NL(場所のタグでない)、EOS(文の最後)があると想定し、連結コスト算出の一例を記述する。
【0057】
t-2番目からt番目までのタグの連結確率として、t-1番目のタグ、t-2番目のラグとの連結を合わせたp(y_t | y_{t-1}, y_{t-2})を算出する。例えば、BOS、B-LOC、I-LOCと続く確率は、p(y_t=I-LOC | y_{t-1}=B-LOC, y_{t-2}=BOS)と表現できる。その確率は、全体の中で、当該x_{t-2}, x_{t-1}, x_{t}の列に対して、BOS, B-LOC, I-LOCが付与される確率を、学習データ中の出現頻度から算出する。なお、出現確率については、それぞれの単語関連情報を持つタグBOS, B-LOC, I-LOCとして、系列が連続する出現頻度を算出することで、単語関連情報と合わせた連結確率p(y_t=I-LOC | y_{t-1}=B-LOC, y_{t-2}=BOS)を算出できる。連結コストは連結確率の逆数として求めることができる。
【0058】
連結コストは大きいほど確からしさが低いことを意味する。また、連結確率関連情報は、連結確率そのものであってもよい。連結確率関連情報は、学習データの中の各単語関連情報に対応付けられた各タグの出現頻度に基づいて算出される。
【0059】
また、連結確率関連情報は、各テキストの中の連続する複数の単語の単語関連情報と、その各テキストの中の連続する複数の単語の単語関連情報にそれぞれ対応付けられている連続する複数のタグの出現頻度を考慮した、各タグが出現する確率である連結確率に関連する情報であってもよい。
【0060】
連続する複数の単語の単語関連情報は、処理の対象となっているタグに対応する単語を含む連続する複数の単語の単語関連情報である。例えば、連続する複数の単語の単語関連情報は、処理の対象となっているタグに対応する単語のn個前の単語から、その処理の対象となっているタグに対応する単語までのn+1個の単語の列を構成する単語の単語関連情報のことである。また、連続する複数の単語の単語関連情報は、処理の対象となっているタグに対応する単語のn個前の単語から、その処理の対象となっているタグに対応するn個後の単語までの2n+1個の単語の列を構成する単語の単語関連情報のことであってもよい。nは、2以上の整数である。例えば、n=2である。
【0061】
図6は、「京都の駅前に行ってきた」「品川の駅前に行ってきた」「駅前に行ってきた」「駅前のラーメン屋に行ってきた」というテキストの学習データを用いて学習部2が学習したときの確率関連情報及び連結確率関連情報の例を表す。図6の例では、確率関連情報として各単語関連情報に各タグを対応付けたときのコストを用いており、連結確率関連情報として各テキストの中の連続する複数の単語の単語関連情報にそれぞれ対応付けられている連続する複数のタグの出現頻度を考慮した各タグが出現する連結コストを用いている。図6の下線が付いた数字は確率関連情報であるコストであり、図6の下線が付いていない数字は連結確率関連情報である連結コストである。
【0062】
[[記憶部3]]
記憶部3に、生成されたタグ付与モデルが入力される。
【0063】
記憶部3は、入力されたタグ付与モデルを記憶する(ステップS3)。
【0064】
上記のタグ付与モデル生成装置及び方法により、単語の係り受けに基づくフレーズを考慮してタグを付与するためのタグ付与モデルを生成することができる。
【0065】
[タグ付与装置及び方法]
タグ付与装置は、図3に示すように、記憶部3と、単語関連情報生成部12と、タグ付与部4と、出力部5とを例えば備えている。
【0066】
タグ付与方法は、タグ付与装置の各部が、以下及び図4に例示するステップS4からステップS5の処理を行うことにより実現される。
【0067】
[[記憶部3]]
記憶部3は、タグ付与モデル生成装置の記憶部3と同様である。
【0068】
すなわち、記憶部3には、タグ付与モデル生成装置により生成されたタグ付与モデルが記憶されている。
【0069】
[[単語関連情報生成部12]]
単語関連情報生成部12は、テキスト文ではなく、テキストに対して処理を行う点を除いて、タグ付与モデル生成装置の単語関連情報生成部12と同様である。以下、同様の部分については重複説明を省略する。
【0070】
すなわち、単語関連情報生成部12に、テキストが入力される。
【0071】
また、単語関連情報生成部12は、テキストを用いて、そのテキストに含まれる少なくとも品詞情報を含む各単語に関連する情報である単語関連情報を生成する(ステップS12)。
【0072】
生成された、各単語の単語関連情報は、タグ付与部4に出力される。
【0073】
[[タグ付与部4]]
タグ付与部4には、記憶部3から読み込んだタグ付与モデルと、各単語の単語関連情報とが入力される。
【0074】
タグ付与部4は、タグ付与モデルと、各単語の単語関連情報とを用いて、入力されたテキストの各単語に尤もらしいタグを付与する(ステップS4)。
【0075】
各単語にタグが付与されたテキストは、出力部5に出力される。
【0076】
タグ付与モデルに含まれる、確率関連情報がコストであり、連結確率関連情報が連結コストである場合には、タグ付与部4は、例えば以下のようにして入力されたテキストの各単語に尤もらしいタグを付与する。
【0077】
タグ付与部4は、タグ付与モデルと、各単語の単語関連情報とを用いて、各単語の単語関連情報に各タグを付与したときのスコアが最も小さくなるように、各単語の単語関連情報に各タグを付与することにより、入力されたテキストの各単語に尤もらしいタグを付与する。ここで、スコアは、値が大きいほど尤もらしくないことを表す。スコアの例は、各単語の単語関連情報に各タグを付与したときのコストと、各単語を含む連続する複数の単語に各タグを付与したときの連結コストの和である。コストと連結コストは、タグ付与モデルに、各単語の単語関連情報と付与する各タグを入力することにより得られる。
【0078】
図7に例示するように、各単語の単語関連情報に対する各タグの付与が、複数の経路で表されるとする。ある経路には、そのある経路に対応するタグの組が対応付けられており、異なる経路には、異なるタグの組が対応付けられているとする。そして、ある経路を選択した場合には、その経路上の単語の単語関連情報に、その経路に対応するタグの組が付与されるとする。
【0079】
なお、図7の下線が付いた数字は、その数字に対応する単語の単語関連情報にその数字に対応するタグを付与したときのコストであり、図7の下線が付いていない数字は、その数字に対応する単語を含む連続する複数の単語にその経路に対応するタグの組に基づいてタグを付与したときの連結コストである。これらのコスト及び連結コストは、タグ付与モデルを参照することにより得られる。
【0080】
タグ付与部4は、このような経路を用いて、入力されたテキストの各単語に尤もらしいタグを付与してもよい。例えば、タグ付与部4は、タグ付与モデルと、各単語の単語関連情報とを用いて、各経路を選択したときのスコアを、その各経路に対応するタグの組により定まるコスト及び連結コストに基づいて計算する。ここで、スコアは、値が大きいほど尤もらしくないことを表す。スコアの例は、選択された経路におけるコストと連結コストの和である。そして、タグ付与部4は、スコアが最も小さい経路を最終的に選択し、最終的に選択した経路に対応するタグの組を付与することにより、入力されたテキストの各単語に尤もらしいタグを付与する。
【0081】
例えば、図7の例では、「BOS」から始まり「EOS」で終わる複数の経路の中で、太線で表される経路が、最もスコアが小さい経路として最終的に選択されている。その結果、「駅前」には[B-LOC]というタグが、「の」には[I-LOC]というタグが、「ラーメン屋」には[I-LOC]というタグが、「に」には[NL]というタグが、「行ってきた」には[NL]というタグが付与される。
【0082】
[[出力部5]]
出力部5には、各単語にタグが付与されたテキストが入力される。
【0083】
出力部5は、タグ付与部4により所定のタグが付与された連続する複数の単語から構成されるフレーズを出力する。
【0084】
フレーズの出力をしない場合には、出力部5は、タグ付与部4により各単語にタグが付与されたテキストをそのまま出力してもよい。
【0085】
すなわち、出力部5は、タグ付与部4により所定のタグが付与された連続する複数の単語から構成されるフレーズ、又は、タグ付与部4により各単語にタグが付与されたテキストをそのまま出力する(ステップS5)。
【0086】
例えば、場所を表すフレーズを検出したいときには、出力部5は、[B-LOC]が付与されている単語から[I-LOC]が付与されている最後の単語までの単語の列を結合し、場所を表すフレーズとして出力する。
【0087】
例えば、タグ付与部4において、図7の太線の経路が最終的に選択された場合には、出力部5は、「駅前のラーメン屋」を場所を表すフレーズとして出力する。
【0088】
従来の固有表現抽出手法では、例えば、「東京」「東京タワー」等の辞書に登録されている固有名詞等が抽出の対象であったため、「東京のタワー」と表現した場合にそれを「場所」として抽出することが不可能であった。
【0089】
これに対して、上記説明した、タグ付与モデル生成装置及び方法、タグ付与装置及び方法により、単語の係り受けに基づくフレーズを考慮してタグを付与することにより、「東京のタワー」等の辞書に登録されていないような係り受けからなるものも、「場所」として抽出することが可能となる。
【0090】
このため、上記説明したタグ付与装置及び方法を、例えば自動応答システム、対話システムに用いた場合には、より適切な発話を生成することができる。また、自動応答システム、対話システムがユーザの発話を理解している感を増すことができる。
【0091】
上記説明した、タグ付与モデル生成装置及び方法、タグ付与装置及び方法により、雑談中の場所フレーズの検出精度が30%から75%まで向上したという実験結果が得られた。ここでの検出精度は、“修飾語を含む場所フレーズ”及び“他の修飾語にかかっている場所” が場所フレーズの正解としてタグ付けされたデータに対して、その語及びフレーズ全体を正しく検出した正解率を表す。なお、テストに用いたデータは、学習させるデータには含めていない。
【0092】
検出精度の測定については、場所として理解する対象として迷ったか、フレーズの区間に迷ったか等について図8に示す分類により場所曖昧性ラベルとして予め付与し、“人が迷わず場所として認識した”データ(図8で場所曖昧性ラベル0が付与されたデータ)に対してのみの検出精度を算出した。
【0093】
約30%は固有名詞の場所等であり、フレーズとなり検出できていなかった部分が検出できるようになったことにより、検出精度が45%向上した。
【0094】
雑談中には、上記のようにフレーズで構成される対象も頻出することがわかっており、「場所」以外の「時間」「手段」「感想」、等のその他のフレーズに対しても同様の手法で検出可能になることが期待できる。
【0095】
[変形例]
[[変形例1]]
これまで、「場所」のタグを付与する場合を例にあげて説明してきたが、タグ付与モデル生成装置及び方法、タグ付与装置及び方法を「場所」以外のタグを付与するために用いてもよい。タグ付与モデル生成装置及び方法、タグ付与装置及び方法は、例えば、「場所」の以外のいわゆる5W1Hである「時間」「主語」「動作」「手段」「理由」のタグや、人がグラウディングする対象のタグを付与するために用いることができる。ここで、グラウディングとは、文中の選択した箇所(単語又はフレーズ)を、当該箇所何を意味するかの意味ラベルに対応付けることを表す。
【0096】
タグは階層的に定義されていてもよい。「動物」という大カテゴリのタグには、「ペットにできるもの」、「ぺットにできないもの」という2個の小カテゴリのタグが存在する。「動物」という大カテゴリのタグには、「ネコ科」、「イヌ科」という2個の小カテゴリのタグが存在する。また、「飲食物」という大カテゴリのタグには、「食べ物」、「飲み物」という2個の小カテゴリのタグが存在する。さらに、「感想」という大カテゴリのタグには、「嬉しい気持ち」、「悲しい気持ち」という2個の小カテゴリのタグが存在する。
【0097】
このように、タグを階層的に定義した場合、タグとして大カテゴリのタグが用いられてもよいし、タグとして小カテゴリのタグが用いられてもよい。
【0098】
例えば、「感想」という大カテゴリのタグの中の「悲しい気持ち」という小カテゴリのタグをタグとして用いた場合には、上記説明したタグ付与モデル生成装置及び方法、タグ付与装置及び方法により、「昨日はご飯を食べられなくて残念だった。」というテキストの中の「残念だった」という箇所に「感想:悲しい気持ち」というタグを付与することができる。
【0099】
また、「飲食物」という大カテゴリのタグの中の「飲み物」という小カテゴリのタグをタグとして用いた場合には、上記説明したタグ付与モデル生成装置及び方法、タグ付与装置及び方法により、「お腹いっぱいだけど大好きな紅茶は飲んだ。」というテキストの中の「大好きな紅茶」という箇所に「飲食物:飲み物」というタグを付与することができる。
【0100】
なお、カテゴリの階層は2階層ではなく、3階層以上であってもよい。
【0101】
また、複数のタグを組み合わせて使用してもよい。複数のタグを組み合わせて使用する場合は、複数のタグのそれぞれに対して、タグ付与モデル生成装置及び方法、タグ付与装置及び方法の処理が行われる。
【0102】
[[変形例2]]
例えば、学習データの量が所定の基準値以下である場合の各単語の単語関連情報の種類は、そうでない場合の各単語の単語関連情報の種類よりも少なくなるようにしてもよい。すなわち、学習データの量に応じて、単語関連情報の種類を調整してもよい。これは、学習データの種類が少ないと、データ疎になってしまい、当てはまらないデータが多数存在する懸念、又は、過学習状態になってしまう懸念があるためである。
【0103】
学習データの量が所定の基準値以下であるかどうかの判断は、例えば、学習データが所定の基準を満たすかどうかを判断することで行われる。例えば、学習データとして必要な「連結確率を求める際のn個前まで見た(n+1個連結した)単語列の単語関連情報の並び」の複数パターンの中に、学習データが1個しかないパターンが1種類でもある場合、「学習データの量が所定の基準値以下である」と判断する。
【0104】
例えば、学習データの量が所定の基準値以下である場合には、「名詞」「格助詞」等の代表的な品詞のみを単語関連情報として用いて、学習データの量が所定の基準値より大である場合には、「名詞:連用」等のより細かい品詞を単語関連情報として用いてもよい。ここで、「:」は品詞の連結を表し、「名詞:連用」は「名詞」という品詞と「連用」という品詞をひとまとまりで1つの品詞としたものである。
【0105】
このように、「:」で複数の品詞を連結したものをひとまとまりで1つの品詞とすることで、品詞の種類を増やすことができる。学習データの量が所定の基準値より大である場合には、例えばこのようにして種類を増やした品詞を用いることで、単語関連情報の種類を増やしてもよい。
【0106】
言い換えれば、学習データの量が所定の基準値より大である場合の各単語の単語関連情報の数は、そうでない場合の各単語の単語関連情報に含まれる品詞情報の小カテゴリの品詞情報を含むことにより、上記そうでない場合の各単語の単語関連情報の数よりも多くなるようにしてもよい。 学習データの量に応じた単語関連情報の種類の調整は、単語関連情報生成部12で行われてもよいし、学習部2で行われてもよい。
【0107】
学習データの量に応じた単語関連情報の種類の調整が単語関連情報生成部12で行われる場合には、単語関連情報生成部12は、学習データの量が所定の基準値以下である場合にはそうでない場合よりも少ない種類の単語関連情報を用いて各単語の単語関連情報を生成する。
【0108】
学習データの量に応じた単語関連情報の種類の調整が学習部2で行われる場合には、学習部2は、学習データの量が所定の基準値以下である場合にはそうでない場合よりも少ない種類の単語関連情報を用いて学習を行う。
【0109】
以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。
【0110】
また、実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
【0111】
[プログラム、記録媒体]
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
【0112】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
【0113】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【0114】
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
【0115】
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
【符号の説明】
【0116】
1 学習データ生成部
11 分離部
12 単語関連情報生成部
121 形態素解析部
122 品詞付与部
13 正解タグ付与部
2 学習部
3 記憶部
4 タグ付与部
5 出力部
図1
図2
図3
図4
図5
図6
図7
図8