(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6778654
(24)【登録日】2020年10月14日
(45)【発行日】2020年11月4日
(54)【発明の名称】単語分割推定モデル学習装置、単語分割装置、方法、及びプログラム
(51)【国際特許分類】
G06F 40/284 20200101AFI20201026BHJP
G06F 16/28 20190101ALI20201026BHJP
G06F 16/30 20190101ALI20201026BHJP
【FI】
G06F40/284
G06F16/28
G06F16/30
【請求項の数】8
【全頁数】12
(21)【出願番号】特願2017-113765(P2017-113765)
(22)【出願日】2017年6月8日
(65)【公開番号】特開2018-206261(P2018-206261A)
(43)【公開日】2018年12月27日
【審査請求日】2019年8月27日
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(74)【代理人】
【識別番号】110001519
【氏名又は名称】特許業務法人太陽国際特許事務所
(72)【発明者】
【氏名】斉藤 いつみ
(72)【発明者】
【氏名】齋藤 邦子
(72)【発明者】
【氏名】松尾 義博
【審査官】
長 由紀子
(56)【参考文献】
【文献】
特開2010−238043(JP,A)
【文献】
米国特許出願公開第2008/0221863(US,A1)
【文献】
山口 修平 外3名,ラティス構造を学習するニューラル単語分割,言語処理学会第23回年次大会 発表論文集 [online],日本,言語処理学会,2017年 3月 6日,pp.975-978
【文献】
篠原 正太 外1名,ニューラルネットワークを用いた系列ラベリングによる単語分割手法,第9回データ工学と情報マネジメントに関するフォーラム (第15回日本データベース学会年次大会)[online],日本,電子情報通信学会データ工学研究専門委員会 日本データベース学会 情報処理学会データベースシステム研究会,2017年 2月27日,pp.1-6
【文献】
難波 悟史 外3名,マイクロブログに対する文境界推定および係り受け解析,言語処理学会第21回年次大会 発表論文集 [online],日本,言語処理学会,2015年 3月 9日,pp.107-110
(58)【調査した分野】(Int.Cl.,DB名)
G06F 40/00−58
G06F 16/00−958
(57)【特許請求の範囲】
【請求項1】
テキストの文字ごとに単語分割境界が存在するか否かを表す単語分割ラベルを付与するための単語分割モデルを学習する単語分割推定モデル学習装置であって、
文字ごとに前記単語分割ラベルが付与されたテキストを受け付ける入力部と、
前記テキストを単語単位に分割した結果を取得する既存解析器分割結果取得部と、
前記テキストの文字ごとに付与された前記単語分割ラベルを正解ラベルとして、文字ごとに対応した隠れ層を有するニューラルネットワークであって、前記テキストの文字の各々の埋め込みを文字ごとの隠れ層の入力として、かつ、前記分割した結果に基づいて各単語の埋め込みを取得し、前記単語の埋め込みを、前記分割した結果から得られる単語の末尾文字の隠れ層の入力として、前記テキストの各文字に付与する単語分割ラベルを出力するニューラルネットワークである単語分割モデルを学習する単語分割モデル学習部と、
を含む単語分割推定モデル学習装置。
【請求項2】
前記正解ラベルとしての前記単語分割ラベルには、先頭、中間、及び末尾を表すラベルを用いる請求項1に記載の単語分割推定モデル学習装置。
【請求項3】
テキストの文字ごとに単語分割境界が存在するか否かを表す単語分割ラベルを付与するための単語分割モデルを用いて単語分割を行う単語分割装置であって、
前記テキストを単語単位に分割した結果を取得する既存解析器分割結果取得部と、
前記テキストの文字の各々、及び前記テキストを単語単位に分割した結果を入力として、文字ごとに対応した隠れ層を有するニューラルネットワークであって、前記テキストの文字の各々の埋め込みを文字ごとの隠れ層の入力として、かつ、前記分割した結果に基づいて各単語の埋め込みを取得し、前記単語の埋め込みを、前記分割した結果から得られる単語の末尾文字の隠れ層の入力として、前記テキストの各文字に付与する単語分割ラベルを出力するニューラルネットワークであるように予め学習された前記単語分割モデルの出力として、前記テキストの各文字に対して前記単語分割ラベルを付与する単語分割部と、
を含む単語分割装置。
【請求項4】
テキストの文字ごとに単語分割境界が存在するか否かを表す単語分割ラベルを付与するための単語分割モデルを学習する単語分割推定モデル学習装置における単語分割推定モデル学習方法であって、
入力部が、文字ごとに前記単語分割ラベルが付与されたテキストを受け付けるステップと、
既存解析器分割結果取得部が、前記テキストを単語単位に分割した結果を取得するステップと、
単語分割モデル学習部が、前記テキストの文字ごとに付与された前記単語分割ラベルを正解ラベルとして、文字ごとに対応した隠れ層を有するニューラルネットワークであって、前記テキストの文字の各々の埋め込みを文字ごとの隠れ層の入力として、かつ、前記分割した結果に基づいて各単語の埋め込みを取得し、前記単語の埋め込みを、前記分割した結果から得られる単語の末尾文字の隠れ層の入力として、前記テキストの各文字に付与する単語分割ラベルを出力するニューラルネットワークである単語分割モデルを学習するステップと、
を含む単語分割推定モデル学習方法。
【請求項5】
前記正解ラベルとしての前記単語分割ラベルには、先頭、中間、及び末尾を表すラベルを用いる請求項4に記載の単語分割推定モデル学習方法。
【請求項6】
テキストの文字ごとに単語分割境界が存在するか否かを表す単語分割ラベルを付与するための単語分割モデルを用いて単語分割を行う単語分割装置における単語分割方法であって、
既存解析器分割結果取得部が、前記テキストを単語単位に分割した結果を取得するステップと、
単語分割部が、前記テキストの文字の各々、及び前記テキストを単語単位に分割した結果を入力として、文字ごとに対応した隠れ層を有するニューラルネットワークであって、前記テキストの文字の各々の埋め込みを文字ごとの隠れ層の入力として、かつ、前記分割した結果に基づいて各単語の埋め込みを取得し、前記単語の埋め込みを、前記分割した結果から得られる単語の末尾文字の隠れ層の入力として、前記テキストの各文字に付与する単語分割ラベルを出力するニューラルネットワークであるように予め学習された前記単語分割モデルの出力として、前記テキストの各文字に対して前記単語分割ラベルを付与するステップと、
を含む単語分割方法。
【請求項7】
コンピュータを、請求項1又は請求項2に記載の単語分割推定モデル学習装置の各部として機能させるためのプログラム。
【請求項8】
コンピュータを、請求項3に記載の単語分割装置の各部として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、単語分割推定モデル学習装置、単語分割装置、方法、及びプログラムに係り、特に、テキストを単語に分割するための単語分割推定モデル学習装置、単語分割装置、方法、及びプログラムに関する。
【背景技術】
【0002】
従来より、リカレント型ニューラルネットワークを用いた日本語の単語分割の技術が知られている。従来の技術では、リカレント型ニューラルネットワークを用いた単語分割モデルにおいて辞書引き情報を単語レベルの情報として導入する手法が提案されている(非特許文献1参照)。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】池田大志, 進藤裕之, 松本裕治, 辞書情報と単語分散表現を組み込んだリカレントニューラルネットワークによる日本語単語分割, 言語処理学会第23回年次大会講演論文集(2017).
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、従来の技術では、リカレント型ニューラルネットワークの入力として、単語の情報として辞書引きの結果のみが考慮されており、単語連接そのものの素性が考慮されていなかった。
【0005】
本発明は、上記事情を鑑みて成されたものであり、精度よく、テキストを単語に分割するためのモデルを学習することができる単語分割推定モデル学習装置、方法、及びプログラムを提供することを目的とする。
【0006】
また、精度よく、テキストを単語に分割できる単語分割装置、方法、及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0007】
上記目的を達成するために、第1の発明に係る単語分割推定モデル学習装置は、テキストの文字ごとに単語分割境界が存在するか否かを表す単語分割ラベルを付与するための単語分割モデルを学習する単語分割推定モデル学習装置であって、文字ごとに前記単語分割ラベルが付与されたテキストを受け付ける入力部と、前記テキストを所定の文字列単位に分割した結果を取得する既存解析器分割結果取得部と、前記テキストの文字ごとに付与された前記単語分割ラベルと、前記既存解析器分割結果取得部によって取得した前記テキストを所定の文字列単位に分割した結果とに基づいて、前記テキストの文字の各々、及び前記テキストを所定の文字列単位に分割した結果を入力として、前記テキストの各文字に付与する前記単語分割ラベルを出力とするニューラルネットワークである単語分割モデルを学習する単語分割モデル学習部と、を含んで構成されている。
【0008】
また、第1の発明に係る単語分割推定モデル学習装置において、前記単語分割ラベルには、先頭、中間、及び末尾を表すラベルを用いるようにしてもよい。
【0009】
また、第1の発明に係る単語分割推定モデル学習装置において、前記所定の文字列単位は単語であって、前記ニューラルネットワークは、文字ごとに隠れ層及び出力層を有し、前記テキストを単語ごとに分割した結果から得られる単語の末尾文字の隠れ層の入力として、前記単語又は単語分割境界の情報を含み、出力層の直前の隠れ層の入力として、前記テキストに付与された前記単語分割ラベルに基づいて得られた前記出力層に対応する文字までの部分の単語分割結果を用いて得られる単語連接情報を含むようにしてもよい。
【0010】
第2の発明に係る単語分割装置は、テキストの文字ごとに単語分割境界が存在するか否かを表す単語分割ラベルを付与するための単語分割モデルを用いて単語分割を行う単語分割装置であって、前記テキストを所定の文字列単位に分割した結果を取得する既存解析器分割結果取得部と、前記分割結果取得部によって取得した前記テキストを所定の文字列単位に分割した結果とに基づいて、前記テキストの文字の各々、及び前記テキストを所定の文字列単位に分割した結果を入力として、前記テキストの各文字に付与する単語分割ラベルを出力とするニューラルネットワークである予め学習された前記単語分割モデルを用いて、前記テキストの各文字に対して前記単語分割ラベルを付与する単語分割部と、を含んで構成されている。
【0011】
第3の発明に係る単語分割推定モデル学習方法は、テキストの文字ごとに単語分割境界が存在するか否かを表す単語分割ラベルを付与するための単語分割モデルを学習する単語分割推定モデル学習装置における単語分割推定モデル学習方法であって、入力部が、文字ごとに前記単語分割ラベルが付与されたテキストを受け付けるステップと、既存解析器分割結果取得部が、前記テキストを所定の文字列単位に分割した結果を取得するステップと、単語分割モデル学習部が、前記テキストの文字ごとに付与された前記単語分割ラベルと、前記分割結果取得部によって取得した前記テキストを所定の文字列単位に分割した結果とに基づいて、前記テキストの文字の各々、及び前記テキストを所定の文字列単位に分割した結果を入力として、前記テキストの各文字に付与する前記単語分割ラベルを出力とするニューラルネットワークである単語分割モデルを学習するステップと、を含んで実行することを特徴とする。
【0012】
また、第3の発明に係る単語分割推定モデル学習方法において、前記単語分割ラベルには、先頭、中間、及び末尾を表すラベルを用いるようにしてもよい。
【0013】
また、第4の発明に係る単語分割方法は、テキストの文字ごとに単語分割境界が存在するか否かを表す単語分割ラベルを付与するための単語分割モデルを用いて単語分割を行う単語分割装置における単語分割方法であって、既存解析器分割結果取得部が、前記テキストを所定の文字列単位に分割した結果を取得するステップと、単語分割部が、前記分割結果取得部によって取得した前記テキストを所定の文字列単位に分割した結果とに基づいて、前記テキストの文字の各々、及び前記テキストを所定の文字列単位に分割した結果を入力として、前記テキストの各文字に付与する単語分割ラベルを出力とするニューラルネットワークである予め学習された前記単語分割モデルを用いて、前記テキストの各文字に対して前記単語分割ラベルを付与するステップと、を含んで実行することを特徴とする。
【0014】
第5の発明に係るプログラムは、コンピュータを、上記の単語分割推定モデル学習装置、又は上記の単語分割装置の各部として機能させるためのプログラムである。
【発明の効果】
【0015】
本発明の単語分割推定モデル学習装置、方法、及びプログラムによれば、テキストの文字ごとに単語分割境界が存在するか否かを表す単語分割ラベルが付与されたテキストを受け付け、テキストを所定の文字列単位に分割した結果を取得し、テキストの文字ごとに付与された単語分割ラベルと、取得したテキストを所定の文字列単位に分割した結果とに基づいて、テキストの文字の各々、及びテキストを所定の文字列単位に分割した結果を入力として、テキストの各文字に付与する単語分割ラベルを出力とするニューラルネットワークである単語分割モデルを学習することにより、精度よく、テキストを単語に分割するためのモデルを学習することができる、という効果が得られる。
【0016】
また、本発明の単語分割装置、方法、及びプログラムによれば、テキストを所定の文字列単位に分割した結果を取得し、取得したテキストを所定の文字列単位に分割した結果とに基づいて、テキストの文字の各々、及びテキストを所定の文字列単位に分割した結果を入力として、テキストの各文字に付与する単語分割ラベルを出力とするニューラルネットワークである予め学習された単語分割モデルを用いて、テキストの各文字に対して単語分割ラベルを付与することにより、精度よく、テキストを単語に分割できる、という効果が得られる。
【図面の簡単な説明】
【0017】
【
図1】本発明の実施の形態に係る単語分割推定モデル学習装置の構成を示すブロック図である。
【
図3】LSTMにおいて、単語のembeddingを、分割した単語の末尾文字の隠れ層の入力に追加する場合の一例を示す図である。
【
図4】LSTMの解析途中を想定した単語レベルのLSTMの隠れ層を、出力層の直前の隠れ層の入力とする場合の一例を示す図である。
【
図5】LSTMの解析途中を想定した単語レベルのLSTMの更新手順の一例を示す図である。
【
図6】本発明の実施の形態に係る単語分割推定モデル学習装置における単語分割推定モデル学習処理ルーチンを示すフローチャートである。
【
図7】本発明の実施の形態に係る単語分割装置の構成を示すブロック図である。
【
図8】本発明の実施の形態に係る単語分割装置における単語分割処理ルーチンを示すフローチャートである。
【発明を実施するための形態】
【0018】
以下、図面を参照して本発明の実施の形態を詳細に説明する。
【0020】
まず、本発明の実施の形態における概要を説明する。
【0021】
本発明の実施の形態では、テキストの文字ごとに単語分割境界が存在するか否かを表す単語分割ラベルを付与するための単語分割モデルを学習する。単語分割モデルの学習には、リカレント型ニューラルネットワークを用いる。単語分割モデルの学習において、次の2点を導入して単語分割モデルを学習する。一つは、単語ベースの解析器によって得られた単語の分割結果を用いる。もう一つは、解析中の単語レベルのLSTMを導入する。
【0022】
これらの2点を導入することにより、より多様で豊富な単語レベルの情報を用いて、リカレント型ニューラルネットワークによる単語分割モデルを学習することができる。
【0023】
<本発明の実施の形態に係る単語分割推定モデル学習装置の構成>
【0024】
次に、本発明の実施の形態に係る単語分割推定モデル学習装置の構成について説明する。
図1に示すように、本発明の実施の形態に係る単語分割推定モデル学習装置100は、CPUと、RAMと、後述する単語分割推定モデル学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この単語分割推定モデル学習装置100は、機能的には
図1に示すように入力部10と、演算部20とを備えている。
【0025】
入力部10は、文字ごとに単語分割ラベルが付与されたテキストを受け付ける。単語分割ラベルは、テキストの各文字の後ろに、単語分割境界が存在するか否かを示す(1/0)のラベルである。
【0026】
例えば、対象のテキストが「今日は暑いです」であれば、単語分割ラベルは「0110101」と付与される。ただし、単語分割ラベルとして、単語の先頭、中間、及び末尾を表すBMEの3種ラベルを用いてもよい。本実施の形態では以降0/1の単語分割ラベルを用いる場合について説明する。
【0027】
演算部20は、既存解析器分割結果取得部30と、単語分割モデル学習部32と、単語分割モデル40とを含んで構成されている。
【0028】
既存解析器分割結果取得部30は、既存解析器により、入力部10で受け付けたテキストを単語ごとに分割し、単語ごとに分割した結果を取得する。ここでは、既存解析器でテキストを自動分割し、その結果を取得すればよい。例えば、入力されたテキストが「今日は暑いです」であれば、既存解析器による自動解析により「今日/は/暑い/です」というテキストを分割した結果が得られる。
【0029】
単語分割モデル学習部32は、テキストの文字ごとに付与された単語分割ラベルと、既存解析器分割結果取得部30によって取得した、既存解析器によりテキストを単語ごとに分割した結果とに基づいて、テキストの文字の各々、及び既存解析器によりテキストを単語ごとに分割した結果を入力として、テキストの各文字に付与する単語分割ラベルを出力とするニューラルネットワークである単語分割モデルを学習する。ここで学習した単語分割モデルは単語分割モデル40として保持する。なお、単語ごとが所定の文字列単位の一例である。
【0030】
ここでは、リカレント型ニューラルネットワークであるLSTMを用いて、単語分割モデルを学習する。LSTMは、文字ごとに隠れ層及び出力層を有する。ここで、LSTMの学習において、既存解析器によりテキストを単語ごとに分割した結果から得られる単語の末尾文字の隠れ層の入力として、当該単語の情報を含める。また、LSTMの学習において、出力層の直前の隠れ層の入力として、テキストに付与された単語分割ラベルに基づいて得られた当該出力層に対応する文字までの部分の単語分割結果を用いて得られる単語連接情報を含める。なお、単語の末尾文字の隠れ層の入力として、0又は1などで表した単語分割境界の情報を用いてもよい。
【0031】
LSTMの基本構造を
図2に示す。LSTMのforward隠れ層、及びbackward隠れ層のそれぞれの入力はE
in=W
str*e
strとする。e
strは文字のembedding、W
strはe
strに対する重みである。出力の直前の隠れ層はH
out=W
f*h
f+W
b*h
bとする。h
fは文字レベルのLSTMのforward隠れ層、W
fはh
fに対する重み、h
bは文字レベルのLSTMのbackward隠れ層、W
bはh
bに対する重みである。LSTMの学習では、これらの重みのパラメータが学習される。なお、
図2ではbackward隠れ層への入力としてのみ、E
inが図示されているが、forward隠れ層への入力もE
inであり、各backward隠れ層及び各forward隠れ層への入力の図示は省略されているものとする。以下
図3、
図4についても同様である。
【0032】
また、
図3に示すように、LSTMにおいて、既存解析器によりテキストを単語ごとに分割した結果の単語のembeddingを、分割した単語の末尾文字の隠れ層の入力に追加する。従って、forward隠れ層、及びbackward隠れ層のそれぞれの入力をE
in=W
str*e
str+W
word*e
wordとする。e
wordは単語のembedding、W
wordはe
wordに対する重みである。
【0033】
また、単語分割モデル学習部32は、
図4に示すように、LSTMの解析途中を想定して、出力層毎に、当該出力層に対応する文字までの部分の単語連接情報を含む単語レベルのLSTMを構築し、単語レベルのLSTMの隠れ層の出力を当該出力層の直前の隠れ層の入力として、出力層における単語分割ラベルの予測に利用する。この場合、出力層の直前の隠れ層の出力はH
out=W
f*h
f+W
b*h
b+W
word*h
wordとなる。h
wordは単語レベルのLSTMの隠れ層、W
wordはh
wordに対する重みである。
【0034】
上記LSTMの解析途中を想定した単語レベルのLSTMの更新手順について
図5を参照して説明する。文字毎に先頭から順に解析するときに、まず、解析済みの文字で、単語分割ラベルに基づいて単語として確定している部分を解析済単語リストに追加する。次に、単語として確定していない文字は、未追加リストに追加し、未追加リストの文字と現時点の解析対象の文字とを結合したものを、次単語候補としてLSTMを計算する。次に、新たに解析済単語リストに単語を追加する場合(単語分割ラベルが1となった場合)には、単語レベルのLSTMを更新して、上記と同様にLSTMの計算を行う。
【0035】
<本発明の実施の形態に係る単語分割推定モデル学習装置の作用>
【0036】
次に、本発明の実施の形態に係る単語分割推定モデル学習装置100の作用について説明する。入力部10において文字ごとに単語分割ラベルが付与されたテキストを複数受け付けると、単語分割推定モデル学習装置100は、
図6に示す単語分割推定モデル学習処理ルーチンを実行する。
【0037】
まず、ステップS100では、既存解析器で、入力部10で受け付けた複数のテキストを単語ごとに分割した結果を取得する。
【0038】
次に、ステップS102では、複数のテキストの文字ごとに付与された単語分割ラベルと、既存解析器分割結果取得部30によって取得した、既存解析器により複数のテキストを単語ごとに分割した結果とに基づいて、テキストの文字の各々、及び既存解析器によりテキストを単語ごとに分割した結果を入力とし、テキストの各文字に付与する単語分割ラベルを出力とするLSTMを単語分割モデルとして学習する。LSTMにおいて、上記
図3に示すように、既存解析器によりテキストを単語ごとに分割した結果から得られる単語の末尾文字の隠れ層の入力として、当該単語の情報を含める。また、上記
図4に示すように、出力層の直前の隠れ層の入力として、テキストに付与された単語分割ラベルに基づいて得られた当該出力層に対応する文字までの部分の単語分割結果を用いて得られる単語連接情報を含める。
【0039】
以上説明したように、本発明の実施の形態に係る単語分割推定モデル学習装置によれば、テキストの文字ごとに単語分割境界が存在するか否かを表す単語分割ラベルが付与されたテキストを受け付け、既存解析器でテキストを単語ごとに分割した結果を取得し、テキストの文字ごとに付与された単語分割ラベルと、取得したテキストを単語ごとに分割した結果とに基づいて、テキストの文字の各々、及びテキストを単語ごとに分割した結果を入力として、テキストの各文字に付与する単語分割ラベルを出力とするニューラルネットワークである単語分割モデルを学習することにより、精度よく、テキストを単語に分割するためのモデルを学習することができる。
【0040】
<本発明の実施の形態に係る単語分割装置の構成>
【0041】
次に、本発明の実施の形態に係る単語分割装置の構成について説明する。
図7に示すように、本発明の実施の形態に係る単語分割装置200は、CPUと、RAMと、後述する単語分割処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この単語分割装置200は、機能的には
図7に示すように入力部210と、演算部220と、出力部250とを備えている。
【0042】
入力部210は、分割対象のテキストを受け付ける。
【0043】
演算部20は、既存解析器分割結果取得部230と、単語分割部232と、単語分割モデル240とを含んで構成されている。
【0044】
単語分割モデル240は、上記単語分割推定モデル学習装置100により学習された、テキストの文字の各々、及びテキストを単語ごとに分割した結果を入力として、テキストの各文字に付与する単語分割ラベルを出力とするニューラルネットワーク(LSTM)である単語分割モデルである。
【0045】
既存解析器分割結果取得部230は、既存解析器で、入力部210で受け付けたテキストを単語ごとに分割し、単語ごとに分割した結果を取得する。詳しい分割方法は上記単語分割推定モデル学習装置100の既存解析器分割結果取得部30と同様であり、例えば、既存解析器によりテキストを単語ごとに分割した結果を取得する。
【0046】
単語分割部232は、既存解析器分割結果取得部230によって取得したテキストを単語ごとに分割した結果に基づいて、単語分割モデル240を用いて、テキストの各文字に対して単語分割ラベルを付与して出力部250に出力する。
【0047】
具体的には、単語分割モデル240であるLSTMの計算において、既存解析器によりテキストを単語ごとに分割した結果から得られる単語の末尾文字の隠れ層の入力として、当該単語の情報を含める。
【0048】
また、出力層の直前の隠れ層の入力として、単語分割モデル240により付与された単語分割ラベルに基づいて得られた当該出力層に対応する文字までの部分の単語分割結果を用いて得られる単語連接情報を含める。このとき、出力層毎に、当該出力層に対応する文字までの部分の単語連接情報を含む単語レベルのLSTMを構築し、単語レベルのLSTMの隠れ層の出力を当該出力層の直前の隠れ層の入力として、出力層における単語分割ラベルの予測に利用する。
【0049】
単語レベルのLSTMの更新手順について上記
図5を参照して説明する。単語分割部232が、文字毎に先頭から順に解析するときに、まず、解析済みの文字で、単語分割モデル240を用いて付与された単語分割ラベルに基づいて単語として確定している部分を解析済単語リストに追加する。次に、単語として確定していない文字は、未追加リストに追加し、未追加リストの文字と現時点の解析対象の文字とを結合したものを、次単語候補としてLSTMを計算する。次に、新たに解析済単語リストに単語を追加する場合(単語分割モデル240を用いて付与された単語分割ラベルが1となった場合)には、単語レベルのLSTMを更新して、上記と同様にLSTMの計算を行う。
【0050】
<本発明の実施の形態に係る単語分割装置の作用>
【0051】
次に、本発明の実施の形態に係る単語分割装置200の作用について説明する。入力部210において分割対象のテキストを受け付けると、単語分割装置200は、
図8に示す単語分割処理ルーチンを実行する。
【0052】
まず、ステップS200では、既存解析器で、入力部210で受け付けたテキストを単語ごとに分割した結果を取得する。
【0053】
次に、ステップS202では、既存解析器分割結果取得部230によって取得したテキストを単語ごとに分割した結果に基づいて、単語分割モデル240を用いて、テキストの各文字に対して単語分割ラベルを付与して出力部250に出力し、処理を終了する。ここで、単語分割モデル240であるLSTMにおいて、上記
図3に示すように、既存解析器によりテキストを単語ごとに分割した結果から得られる単語の末尾文字の隠れ層の入力として、当該単語の情報を含める。また、上記
図4に示すように、出力層の直前の隠れ層の入力として、単語分割モデル240により付与された単語分割ラベルに基づいて得られた当該出力層に対応する文字までの部分の単語分割結果を用いて得られる単語連接情報を含める。
【0054】
以上説明したように、本発明の実施の形態に係る単語分割装置によれば、既存解析器でテキストを単語ごとに分割した結果を取得し、取得したテキストを単語ごとに分割した結果とに基づいて、テキストの文字の各々、及びテキストを単語ごとに分割した結果を入力として、テキストの各文字に付与する単語分割ラベルを出力とするニューラルネットワークである予め学習された単語分割モデルを用いて、テキストの各文字に対して単語分割ラベルを付与することにより、精度よく、テキストを単語に分割できる。
【0055】
なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
【0056】
例えば、上述した実施の形態では、LSTMの学習において、テキストを単語ごとに分割した結果から得られる単語の末尾文字の隠れ層の入力として、単語を含め、かつ、出力層の直前の隠れ層の入力として、文字ごとに付与された単語分割ラベルに基づいて得られた出力層に対応する文字までの部分の単語分割結果を用いて得られる単語連接情報を含める場合について説明したが、これに限定されるものではない。例えば、上記の単語と、単語連接情報とのいずれか一方のみをそれぞれの隠れ層の入力に用いてLSTMを学習するようにしてもよい。
【0057】
また、上述した実施の形態では、既存解析器によりテキストを単語に分割して、単語又は単語分割境界の情報をLSTMの入力に用いる場合を例として説明したが、これに限定されるものではない。例えば、既存解析器により、テキストを所定の文字列単位(例えば、文節)に区切り、所定の文字列単位の情報を、LSTMの入力として用いるようにしてもよい。
【0058】
また、既存解析器分割結果取得部30、230は、既存解析器によりテキストを単語ごとに分割する場合を例に説明したが、これに限定されるものではなく、入力部10から、既存解析器によりテキストを単語ごとに分割した結果を受け付けるようにしてもよく、この場合には既存解析器分割結果取得部30、230の処理を省略してもよい。
【符号の説明】
【0059】
10、210 入力部
20、220 演算部
30、230 既存解析器分割結果取得部
32 単語分割モデル学習部
40、240 単語分割モデル
100 単語分割推定モデル学習装置
200 単語分割装置
232 単語分割部