特許第6443843号(P6443843)IP Force 特許公報掲載プロジェクト 2015.5.11 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧
特許6443843言語モデル作成装置、言語モデル作成方法、およびプログラム
<>
  • 特許6443843-言語モデル作成装置、言語モデル作成方法、およびプログラム 図000006
  • 特許6443843-言語モデル作成装置、言語モデル作成方法、およびプログラム 図000007
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6443843
(24)【登録日】2018年12月7日
(45)【発行日】2018年12月26日
(54)【発明の名称】言語モデル作成装置、言語モデル作成方法、およびプログラム
(51)【国際特許分類】
   G10L 15/197 20130101AFI20181217BHJP
   G10L 15/06 20130101ALI20181217BHJP
   G06F 17/27 20060101ALI20181217BHJP
   G06F 17/18 20060101ALI20181217BHJP
【FI】
   G10L15/197
   G10L15/06 300C
   G06F17/27 615
   G06F17/18 Z
【請求項の数】3
【全頁数】8
(21)【出願番号】特願2015-183630(P2015-183630)
(22)【出願日】2015年9月17日
(65)【公開番号】特開2017-58534(P2017-58534A)
(43)【公開日】2017年3月23日
【審査請求日】2017年5月31日
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(73)【特許権者】
【識別番号】504157024
【氏名又は名称】国立大学法人東北大学
(74)【代理人】
【識別番号】100121706
【弁理士】
【氏名又は名称】中尾 直樹
(74)【代理人】
【識別番号】100128705
【弁理士】
【氏名又は名称】中村 幸雄
(74)【代理人】
【識別番号】100147773
【弁理士】
【氏名又は名称】義村 宗洋
(72)【発明者】
【氏名】増村 亮
(72)【発明者】
【氏名】政瀧 浩和
(72)【発明者】
【氏名】大庭 隆伸
(72)【発明者】
【氏名】伊藤 彰則
【審査官】 冨澤 直樹
(56)【参考文献】
【文献】 特開2005−173390(JP,A)
【文献】 国際公開第2005/122143(WO,A1)
【文献】 米国特許出願公開第2005/0080632(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00−15/34
G06F 17/18
G06F 17/27
G06F 3/16
(57)【特許請求の範囲】
【請求項1】
地名を表す単語と地理的な位置情報とが関連付けて構造化された地図情報を記憶する地図情報記憶部と、
入力された単語の予測確率を出力する言語モデルを記憶する言語モデル記憶部と、
上記地図情報を用いて、入力された二つの単語が表す地名間の地理的な距離を出力する地図情報言語モデルを生成する地図情報言語モデル生成部と、
上記言語モデルと上記地図情報言語モデルとを統合した統合言語モデルを生成する言語モデル統合部と、
を含み、
上記言語モデルは、直前のN-1単語wi-N+1,…,wi-1から現在の単語wiの予測確率P(wi|wi-N+1,…,wi-1)を求めるN-gram言語モデルであり、
上記地図情報言語モデルは、地名を表す単語waと地名を表す単語wbとの地理的な距離d(wa, wb)を求める言語モデルであり、
上記統合言語モデルは、hiをM-1個の単語wi-M+1,…,wi-1を含むコンテキスト制約とし、d(wi|hi)を現在の単語wiとコンテキスト制約hiに含まれる各単語wi-M+1,…,wi-1との地理的な距離の総和とし、αをあらかじめ定めた統合重みとし、次式で表されるものである、
【数3】

言語モデル作成装置。
【請求項2】
地図情報記憶部に、地名を表す単語と地理的な位置情報とが関連付けて構造化された地図情報が記憶されており、
言語モデル記憶部に、入力された単語の予測確率を出力する言語モデルが記憶されており、
地図情報言語モデル生成部が、上記地図情報を用いて、入力された二つの単語が表す地名間の地理的な距離を出力する地図情報言語モデルを生成する地図情報言語モデル生成ステップと、
言語モデル統合部が、上記言語モデルと上記地図情報言語モデルとを統合した統合言語モデルを生成する言語モデル統合ステップと、
を含み、
上記言語モデルは、直前のN-1単語wi-N+1,…,wi-1から現在の単語wiの予測確率P(wi|wi-N+1,…,wi-1)を求めるN-gram言語モデルであり、
上記地図情報言語モデルは、地名を表す単語waと地名を表す単語wbとの地理的な距離d(wa, wb)を求める言語モデルであり、
上記統合言語モデルは、hiをM-1個の単語wi-M+1,…,wi-1を含むコンテキスト制約とし、d(wi|hi)を現在の単語wiとコンテキスト制約hiに含まれる各単語wi-M+1,…,wi-1との地理的な距離の総和とし、αをあらかじめ定めた統合重みとし、次式で表されるものである、
【数4】

言語モデル作成方法。
【請求項3】
請求項1に記載の言語モデル作成装置としてコンピュータを機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
この発明は、自然言語処理などで用いられる言語モデルを作成する技術に関する。
【背景技術】
【0002】
例えば、音声認識や機械翻訳では、言語的な予測のために言語モデルが必要である。言語モデルは、言語的なつながりの良さを計測するために利用されるものであり、その性能が音声認識や機械翻訳の性能を左右する。これまで、様々な種類の言語モデルが提案されている。
【0003】
言語モデルは基本的にテキストから言語的なつながりを獲得する。テキストから言語的なつながりを獲得する手段は、大きく2つある。
【0004】
1つめは単語連鎖情報から言語的なつながりを獲得する枠組みである。代表的な言語モデルであるN-gram言語モデルであれば、単語N個組の頻度がテキスト上に何回出現するかを調べて、直前のN-1単語wi-N+1,…,wi-1から現在の単語wiの予測確率P(wi|wi-N+1,…,wi-1)を構成することで言語的なつながりを定義する。N-gram言語モデルの学習方法は公知の技術であり、例えば、非特許文献1などに記載されている。
【0005】
2つめは単語共起情報から言語的なつながりを獲得する枠組みである。例えばトリガーモデルでは、ある単語がドキュメントという単位の中でどんな単語と共起するかを調べ、ある単語waが出たときにある単語wbが出現する確率P(wb|wa)をモデル化する。単語共起情報に関するモデルは、単語連鎖とは異なり、長距離の情報を反映できる。
【0006】
高精度な言語モデルを構築するためには、これらの枠組みを代表として、テキストから得られる様々な情報を組み合わせて、短距離の単語連鎖情報と長距離の単語共起情報とを利用して言語的なつながりの良さを計測する。
【先行技術文献】
【非特許文献】
【0007】
【非特許文献1】北研二著、「言語と計算(4) 確率的言語モデル」、東京大学出版会、1999年11月、pp. 57-62
【発明の概要】
【発明が解決しようとする課題】
【0008】
既存の単語共起情報を獲得する枠組みの課題は、共起情報を獲得するためには大規模なドキュメント集合を必要とする点である。そして、ドキュメントは対象とするタスク(例えば、コンタクトセンタ音声認識用、特許翻訳用など)に適合したドキュメントである必要がある。タスクに適合したドキュメントは大量に集めることができない場合が多く、獲得できる共起情報が少なくなってしまうと、言語制約のロバストネスに欠けた言語モデルになってしまう。この問題は、一般的に言語モデルにおけるデータスパースネス問題と呼ばれる。
【0009】
この発明の目的は、このような点に鑑みて、言語共起情報を高精度化することができる言語モデル作成技術を提供することである。
【課題を解決するための手段】
【0010】
上記の課題を解決するために、この発明の言語モデル作成装置は、地名を表す単語と地理的な位置情報とが関連付けて構造化された地図情報を記憶する地図情報記憶部と、入力された単語の予測確率を出力する言語モデルを記憶する言語モデル記憶部と、地図情報を用いて、入力された二つの単語が表す地名間の地理的な距離を出力する地図情報言語モデルを生成する地図情報言語モデル生成部と、言語モデルと地図情報言語モデルとを統合した統合言語モデルを生成する言語モデル統合部と、を含む。
【発明の効果】
【0011】
この発明の言語モデル作成技術によれば、地名を表す単語に対して地理的な距離を考慮して予測確率を算出するため、言語共起情報を高精度化することができる。
【図面の簡単な説明】
【0012】
図1図1は、言語モデル作成装置の機能構成を例示する図である。
図2図2は、言語モデル作成方法の処理手続きを例示する図である。
【発明を実施するための形態】
【0013】
この発明は、地図上の地名間の距離情報を利用することで、言語的な予測を促す言語モデルを構築するための技術である。上述した共起情報をモデル化する際のデータスパースネスの課題に対して、例えばカーナビ等の検索システムや地域情報検索システムなど、地名が重要となるタスクに対象を絞り解決手段を提示することができる。具体的には、地図という構造化された情報を言語モデルの言語予測に導入する。地図情報からは地名間の距離情報を取得することができる。そして、これらの情報が日本全国、そして世界中について構造化されたデータがすでに整っている。例えばカーナビ内部に含まれるシステムでは、これらの地図情報が構造化されており、簡単に取り出すことができる。
【0014】
地名間の距離情報が言語モデルにどのように役立つかを説明する。距離が近い地名は同じ会話の中で比較的出現し易いといった制約を与えることができると考えられる。例えば、いま“新宿”に関連することが話題にあがっていた場合、例えば“渋谷”や“池袋”といった距離的に近い地名を表す単語が話題に上がりやすく、例えば“稚内”や“那覇”といった距離的に遠い地名を表す単語が話題に上がりにくい。このような言語制約を様々な地名間について導入することで、言語モデルのデータスパースネスを解決できると考えられる。
【0015】
以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
【0016】
実施形態の言語モデル作成装置は、図1に示すように、地図情報記憶部1、言語モデル記憶部2、地図情報言語モデル生成部3、地図情報言語モデル記憶部4、言語モデル統合部5、および統合言語モデル記憶部6を含む。この言語モデル作成装置が後述する各ステップの処理を行うことにより実施形態の言語モデル作成方法が実現される。
【0017】
言語モデル作成装置は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。言語モデル作成装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。言語モデル作成装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。また、言語モデル作成装置の各処理部の少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。言語モデル作成装置の各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。
【0018】
地図情報記憶部1には、構造化された地図情報が記憶されている。構造化された地図情報は各地名などが電子化されたデータであり、地名間の距離関係や地名の住所を取得可能なデータである。具体的には、地名を表す単語とその地名の地理的な位置情報とが関連付けられた情報であり、指定された地名の座標もしくは住所を得ることが可能となっている。例えば、カーナビゲーションシステムでは、この条件を満たす構造化された地図情報が用いられている。その他の例では、Web上で利用可能な“Google(登録商標)マップ”のような地図情報は、構造化された地図情報に該当する。
【0019】
言語モデル記憶部2には、通常の言語モデルが記憶されている。通常の言語モデルは、従来から用いられてきた言語モデルであり、入力された単語の予測確率を出力するモデルである。この実施形態では、N-gram言語モデルを例として説明する。
【0020】
図2を参照して、実施形態の言語モデル作成方法の処理手続きを説明する。
【0021】
ステップS1において、地図情報言語モデル生成部3は、地図情報記憶部1に記憶された地図情報を用いて、二つの地名を表す単語を入力とし、その地名間の地理的な距離を出力する地図情報言語モデルを生成する。生成した地図情報言語モデルは、地図情報言語モデル記憶部4へ記憶される。
【0022】
以下、地図情報言語モデルの作成方法を詳細に説明する。最初に、構造化された地図情報において位置情報を獲得可能なすべての場所の地名を列挙する。これは例えば、“東京タワー”、“フジテレビ”などの地名である。なお、あらかじめ音声認識や機械翻訳のタスクを絞ることができる場合は、“東京都の範囲内”や“新潟市の範囲内”など、地名を取得する地理的な範囲を限定してもよい。ここでは、列挙した地名がM個であったものとする。次に、列挙したM個の地名に対して、すべての二つ組について、構造化された地図情報から距離を計算する。具体的には、選択した二地点の座標情報に基づいて、その二地点間の距離を計算する。二地点の緯度および経度から距離を算出する方法は公知であるため、ここでは詳細な説明は省略する。すべての二地点間の距離を算出すると、最終的にM*(M-1)*1/2個の距離が得られることとなる。この距離に関する情報が地図情報言語モデルとなる。つまり、ある地点の名前waとある地点の名前wbとの地理的近さd(wa, wb)が地図情報言語モデルである。
【0023】
ステップS2において、言語モデル統合部5は、言語モデル記憶部2に記憶された通常の言語モデルと、地図情報言語モデル記憶部4に記憶された地図情報言語モデルとを統合して、統合言語モデルを生成する。生成した統合言語モデルは、統合言語モデル記憶部6に記憶される。
【0024】
以下、統合言語モデルの作成方法を詳細に説明する。N-gram言語モデルでは、直前のN-1単語wi-N+1,…,wi-1から現在の単語wiの予測確率P(wi|wi-N+1,…,wi-1)を構成している。これに、地図情報言語モデルを統合するためには、コンテキスト制約が必要となる。コンテキスト制約とは、N-gram言語モデルであれば、直前のN-1単語となる。地図情報言語モデルのコンテキスト制約は様々に与えることができる。ここでは簡単のために、wiのコンテキストをhiとする。例えば地図情報言語モデルのコンテキスト制約を直前の20単語とすると、hiはwi-21,…,wi-1と与えられる。このときの地図情報言語モデルから得られるスコアをd(wi|hi)とおくと、統合言語モデルS(wi|hi)は次式の形で与えられる。
【0025】
【数1】
【0026】
ここで、αは統合重みである。統合重みは人手で与える。統合重みは音声認識や機械翻訳の性能が高くなるように設定すればよいが、例えば0.0001などと設定できる。
【0027】
実際のd(wi|hi)の求め方について説明する。前述の例と同様に、地図情報言語モデルのコンテキスト制約を直前の20単語とする。このとき、d(wi|hi)は次式で与えられる。
【0028】
【数2】
【0029】
つまり、コンテキスト制約中のすべての単語に対して地図情報言語モデルでモデル化した値を求め、その値を総和する。なお、wiが地図情報言語モデルの中のM単語に含まれない場合は、d(wi│hi)は0になる。また、wkが地図情報言語モデルの中のM単語に含まれない場合は、d(wi, wk)は無限大になる。このように構成することで、地図情報言語モデルの中のM単語については、頑健なスコアを付与できる。その結果、この言語モデルを音声認識や機械翻訳で用いることにより性能向上が期待できる。
【0030】
上述のように構成することにより、この発明の言語モデル作成技術は、地図上の地名間の距離情報を利用した言語制約を導入した言語モデルを構築することができる。これにより、単語共起に関する言語制約のロバストネスを高めることができ、データスパースネスの問題を回避できる。その結果として、この言語モデルをカーナビ等の検索システムや地域情報検索システムなどの地名が重要となるタスクにおいて利用することで、音声認識においてはこれまでよりも高い認識性能が得られ、機械翻訳においてはこれまでよりも高い翻訳性能が得られる。
【0031】
この発明は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。上記実施形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
【0032】
[プログラム、記録媒体]
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
【0033】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
【0034】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【0035】
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
【0036】
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
【符号の説明】
【0037】
1 地図情報記憶部
2 言語モデル記憶部
3 地図情報言語モデル生成部
4 地図情報言語モデル記憶部
5 言語モデル統合部
6 統合言語モデル記憶部
図1
図2