特許6495856 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社ＫＤＤＩ研究所の特許一覧

特許6495856適用用途の異なる辞書を生成する辞書生成装置、サーバ、プログラム及び方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6495856

(24)【登録日】2019年3月15日

(45)【発行日】2019年4月3日

(54)【発明の名称】適用用途の異なる辞書を生成する辞書生成装置、サーバ、プログラム及び方法

(51)【国際特許分類】

G06F 17/27 20060101AFI20190325BHJP

G10L 15/06 20130101ALI20190325BHJP

【ＦＩ】

G06F17/27 635

G10L15/06 300C

【請求項の数】9

【全頁数】17

(21)【出願番号】特願2016-55986(P2016-55986)

(22)【出願日】2016年3月18日

(65)【公開番号】特開2017-173907(P2017-173907A)

(43)【公開日】2017年9月28日

【審査請求日】2018年4月10日

【国等の委託研究の成果に係る記載事項】（出願人による申告）平成２７年度、総務省、「グローバルコミュニケーション計画の推進−多言語音声翻訳技術の研究開発及び社会実証」委託研究、産業技術強化法第１９条の適用を受ける特許出願

(73)【特許権者】

【識別番号】599108264

【氏名又は名称】株式会社ＫＤＤＩ総合研究所

(74)【代理人】

【識別番号】100135068

【弁理士】

【氏名又は名称】早原茂樹

(72)【発明者】

【氏名】安田圭志

【審査官】長由紀子

(56)【参考文献】

【文献】特開２００５−１０７７０５（ＪＰ，Ａ）

【文献】特開２００５−１４９０１５（ＪＰ，Ａ）

【文献】米国特許出願公開第２０１６／６５５３４（ＵＳ，Ａ１）

【文献】米国特許出願公開第２００８／２４３８３４（ＵＳ，Ａ１）

【文献】土田崇仁外６名，Ｗｏｒｄ２Ｖｅｃを用いた地域やランドマークの意味演算，第８回データ工学と情報マネジメントに関するフォーラム（第１４回日本データベース学会年次大会）［ｏｎｌｉｎｅ］，日本，電子情報通信学会データ工学研究専門委員会日本データベース学会情報処理学会データベースシステム研究会，２０１６年３月２日，p.1-6

【文献】小木曽智信，通時コーパスの構築に向けた古文用形態素解析辞書の開発，情報処理学会研究報告２０１１（平成２３）年度４［ＣＤ−ＲＯＭ］，日本，一般社団法人情報処理学会，２０１１年１２月１５日，p.1-4，国内学会論文2011-00858-006

【文献】吉井和輝外３名，日本語単語ベクトルの構築とその評価，情報処理学会研究報告音声言語情報処理（ＳＬＰ）２０１５−ＳＬＰ−１０６［ｏｎｌｉｎｅ］，日本，情報処理学会，２０１５年５月１８日，p.1-8

【文献】晃昇祥恵外３名，地域連想語辞書の構築に関する研究，言語処理学会第１８回年次大会発表論文集チュートリアル本会議［ＣＤ−ＲＯＭ］，日本，言語処理学会，２０１２年３月１３日，p.1095-1097

【文献】伝康晴，多様な目的に適した形態素解析システム用電子化辞書，人工知能学会誌，日本，（社）人工知能学会，２００９年９月１日，第24巻第5号，p.640-646

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ０６Ｆ１７／２０−３０

Ｇ１０Ｌ１５／０６

(57)【特許請求の範囲】

【請求項1】

言語体系の表層表現の単語及びカテゴリ名を記憶する適応元用途の第１の辞書から、適応先用途のカテゴリ名を用いて、表層表現の単語を記憶する適応先用途の第２の辞書を生成する辞書生成装置であって、
言語体系に含まれる単語毎に、分散表現の単語ベクトルを対応付けて記憶した単語ベクトル記憶手段と、
前記単語ベクトル記憶手段を用いて、第１の辞書に記憶された各単語に対応する単語ベクトルと、当該単語のカテゴリ名に対応するカテゴリ名ベクトルとを対応付けて記憶した辞書ベクトル記憶手段と、
前記単語ベクトル記憶手段を用いて、適応先用途のカテゴリ名に対応するカテゴリ名ベクトルを検索するカテゴリ名ベクトル検索手段と、
前記辞書ベクトル記憶手段から取得した任意の単語ベクトルから、当該単語ベクトルに対応するカテゴリ名ベクトルを引算し、適応先用途のカテゴリ名に対応するカテゴリ名ベクトルを加算した候補ベクトルを算出する候補ベクトル算出手段と、
前記候補ベクトルと、前記単語ベクトル記憶手段の各単語ベクトルとの間の距離が所定閾値以下又は類似度が所定閾値以上となる当該単語ベクトルを検索するベクトル距離判定手段と、
検索された前記単語ベクトルに対応する表層表現の単語を、第２の辞書に追加する辞書生成手段と
を有することを特徴とする辞書生成装置。

【請求項2】

前記単語ベクトル記憶手段に記憶された各単語の単語ベクトルは、
言語体系のコーパス(corpus)に含まれる文章を、形態素解析によって単語に区分し、
区分された単語群における分散表現を学習して、分散表現モデルを生成し、
区分された単語毎に、前記分散表現モデルを用いて、分散表現の単語ベクトルを生成したものである
ことを特徴とする請求項１に記載の辞書生成装置。

【請求項3】

前記辞書ベクトル記憶手段に記憶された各単語の単語ベクトルは、第１の辞書に記憶された単語毎に、前記分散表現モデルを用いて、分散表現の単語ベクトルを生成したものであることを特徴とする請求項２に記載の辞書生成装置。

【請求項4】

前記カテゴリ名は、「地域名」であり、
適用元用途の第１の辞書は、第１の地域で用いられるシステム辞書であり、
適用先用途の第２の辞書は、第２の地域で用いられるシステム辞書である
ことを特徴とする請求項１から３のいずれか１項に記載の辞書生成装置。

【請求項5】

前記カテゴリ名は、「見出し語名」又は「地域名及び見出し語名」である
ことを特徴とする請求項１から４のいずれか１項に記載の辞書生成装置。

【請求項6】

第１の言語体系の単語と、第２の言語体系の単語とを対応付けて記憶した汎用対訳辞書を更に有し、
第１の辞書は、第１の言語体系の表層表現の単語及びカテゴリ名と、その対訳となる第２の言語体系の表層表現の単語及びカテゴリ名とを対応付けて記憶したものであり、
第２の辞書は、第１の言語体系の表層表現の単語と、第２の言語体系の表層表現の単語とを対応付けて記憶したものであり、
前記単語ベクトル記憶手段は、第１の言語体系用及び第２の言語体系用それぞれに備えられ、
前記辞書ベクトル記憶手段は、第１の言語体系用及び第２の言語体系用それぞれに備えられ、
前記カテゴリ名ベクトル検索手段は、適応先用途のカテゴリ名に対応する、第１の言語体系のカテゴリ名ベクトルと、第２の言語体系のカテゴリ名ベクトルとを検索し、
前記候補ベクトル算出手段は、第１の言語体系に基づく第１の候補ベクトルと、第２の言語体系に基づく第２の候補ベクトルとを算出し、
前記ベクトル距離判定手段は、第１の候補ベクトルと距離が所定閾値以下となる、第１の言語体系用の単語ベクトルを検索し、第２の候補ベクトルと距離が所定閾値以下又は類似度が所定閾値以上となる、第２の言語体系用の単語ベクトルを検索し、
前記辞書生成手段は、前記ベクトル距離判定手段によって検索された第１の言語体系用の単語ベクトルに対応する表層表現の単語と、第２の言語体系用の単語ベクトルに対応する表層表現の単語とが、対訳として前記汎用対訳辞書に記憶されている場合にのみ、両方の表層表現の単語を対訳として第２の辞書に追加する
ことを特徴とする請求項１から５のいずれか１項に記載の辞書生成装置。

【請求項7】

請求項１から６のいずれか１項に記載の辞書生成装置を搭載したサーバであって、
ユーザ所有の端末から、当該ユーザが位置する地域情報を受信し、
当該ユーザに対して、前記地域情報に対応する音声認識用のシステム辞書を選択し、
当該ユーザ所有の端末から受信した音声情報に対して、選択された音声認識用のシステム辞書を適用する
ことを特徴とするサーバ。

【請求項8】

言語体系の表層表現の単語及びカテゴリ名を記憶する適応元用途の第１の辞書から、適応先用途のカテゴリ名を用いて、表層表現の単語を記憶する適応先用途の第２の辞書を生成するようにコンピュータを機能させるプログラムであって、
言語体系に含まれる単語毎に、分散表現の単語ベクトルを対応付けて記憶した単語ベクトル記憶手段と、
前記単語ベクトル記憶手段を用いて、第１の辞書に記憶された各単語に対応する単語ベクトルと、当該単語のカテゴリ名に対応するカテゴリ名ベクトルとを対応付けて記憶した辞書ベクトル記憶手段と、
前記単語ベクトル記憶手段を用いて、適応先用途のカテゴリ名に対応するカテゴリ名ベクトルを検索するカテゴリ名ベクトル検索手段と、
前記辞書ベクトル記憶手段から取得した任意の単語ベクトルから、当該単語ベクトルに対応するカテゴリ名ベクトルを引算し、適応先用途のカテゴリ名に対応するカテゴリ名ベクトルを加算した候補ベクトルを算出する候補ベクトル算出手段と、
前記候補ベクトルと、前記単語ベクトル記憶手段の各単語ベクトルとの間の距離が所定閾値以下又は類似度が所定閾値以上となる当該単語ベクトルを検索するベクトル距離判定手段と、
検索された前記単語ベクトルに対応する表層表現の単語を、第２の辞書に追加する辞書生成手段と
してコンピュータを機能させることを特徴とするプログラム。

【請求項9】

言語体系の表層表現の単語及びカテゴリ名を記憶する適応元用途の第１の辞書から、適応先用途のカテゴリ名を用いて、表層表現の単語を記憶する適応先用途の第２の辞書を生成する装置の辞書生成方法であって、
前記装置は、
言語体系に含まれる単語毎に、分散表現の単語ベクトルを対応付けて記憶した単語ベクトル記憶部と、
前記単語ベクトル記憶部を用いて、第１の辞書に記憶された各単語に対応する単語ベクトルと、当該単語のカテゴリ名に対応するカテゴリ名ベクトルとを対応付けて記憶した辞書ベクトル記憶部と
を有し、
前記装置は、
前記単語ベクトル記憶部を用いて、適応先用途のカテゴリ名に対応するカテゴリ名ベクトルを検索する第１のステップと、
前記辞書ベクトル記憶部から取得した任意の単語ベクトルから、当該単語ベクトルに対応するカテゴリ名ベクトルを引算し、適応先用途のカテゴリ名に対応するカテゴリ名ベクトルを加算した候補ベクトルを算出する第２のステップと、
前記候補ベクトルと、前記単語ベクトル記憶部の各単語ベクトルとの間の距離が所定閾値以下又は類似度が所定閾値以上となる当該単語ベクトルを検索する第３のステップと、
検索された前記単語ベクトルに対応する表層表現の単語を、第２の辞書に追加する第４のステップと
を実行することを特徴とする辞書生成方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、言語処理に利用される辞書を生成する技術に関する。特に、音声認識システムや機械翻訳システムに適用される技術に関する。

【背景技術】

【0002】

音声認識及び音声翻訳システムによれば、辞書は、必須の構成要素である。従来、辞書は、地域や利用分野に応じて、関連する語彙の辞書を、人手によって構築及び整備する必要があった。勿論、言語コーパスから自動的に辞書を構築することもできるが、不要な語彙を登録することも多く、処理速度の低下やシステム性能の劣化を生じる。これを防ぐために、地域や利用分野の適用用途に応じた言語コーパスを用いて、辞書を生成する必要があった。この場合、言語コーパス自体の精度が要求されることとなる。

【0003】

従来、辞書は、例えば以下のような方法で拡張されている。
・地域や利用分野に応じた言語コーパス（インドメイン言語コーパス）から、辞書を構築する。
・地域や利用分野に関する辞書を人手によって整備する。
・音声認識システムにおける利用ログから、未知語を抽出し、その未知語を辞書に追加する。

【0004】

また、ユーザ所有の携帯端末に実装されたローカル辞書を補強する技術がある（例えば特許文献１参照）。この技術によれば、携帯端末は、オンラインでサーバと通信することによって、音声認識及び音声翻訳を実行する。サーバは、大語彙辞書を搭載しており、携帯端末は、小規模のローカル辞書を搭載する。サーバは、携帯端末から受信する音声信号を認識する中で、ユーザの利用ログを記録し、補強が必要な辞書エントリを携帯端末へ送信する。携帯端末は、サーバから受信した辞書エントリによって、ローカル辞書を補強することができる。ここで、携帯端末が、サーバへ、ローカル辞書の補強のための辞書エントリを依頼するものであってもよい。

【0005】

更に、位置情報に依存した単語を取得するために、twitter（登録商標）を用いた技術もある（例えば非特許文献１参照）。この技術によれば、位置情報付きツイートを位置に応じて分類し、分類された位置毎に特有の単語を抽出することができる。

【先行技術文献】

【特許文献】

【0006】

【特許文献1】特開２０１４−０４８５０７号公報

【非特許文献】

【0007】

【非特許文献1】荒川豊、田頭茂明、福田晃「Twitter分析に基づく位置情報依存文字列の抽出」、情報処理学会研究報告モバイルコンピューティングとユビキタス通信、2010-MBL-55(10)、pp.1-6、2010-08-26

【非特許文献2】Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg S Corrado, Jeff Dean, "Distributed representations of words and phrases and their compositionality", 2013, NIPS 2013: 3111-3119

【発明の概要】

【発明が解決しようとする課題】

【0008】

しかしながら、特許文献１に記載の技術によれば、ユーザに音声認識サービスを提供する中で、辞書が拡張されるものであって、基本的にユーザ毎に構築される辞書も異なる。また、非特許文献１に記載の技術によれば、ツイートの記述内容と、音声認識システムにおけるユーザの発話内容とに乖離がある場合、システム性能を向上させるような辞書を生成することはできない。例えばユーザからある名詞が発話されるのに対し、ツイートではそのような名詞が記述されない場合も多い。

【0009】

ここで、本願の発明者らは、第１の適用用途（地域や利用分野）の第１の辞書から、第２の適用用途の第２の辞書を生成することができないか？と考えた。例えば東京では「東京タワー」という単語が用いられる文章の中では、大阪では「通天閣」という単語が用いられる可能性が高いのではないか？と考えた。そうであれば、東京に滞在するユーザに利用される音声認識システムの第１の辞書の中で、「東京タワー」という単語は、大阪に滞在するユーザに利用される音声認識システムの第２の辞書の中で、「通天閣」という単語に置き換えることができると考えた。

【0010】

そこで、本発明は、第１の適用用途の辞書から第２の適用用途の辞書を生成することができる辞書生成装置、サーバ、プログラム及び方法を提供することを目的とする。

【課題を解決するための手段】

【0011】

本発明によれば、言語体系の表層表現の単語及びカテゴリ名を記憶する適応元用途の第１の辞書から、適応先用途のカテゴリ名を用いて、表層表現の単語を記憶する適応先用途の第２の辞書を生成する辞書生成装置であって、
言語体系に含まれる単語毎に、分散表現の単語ベクトルを対応付けて記憶した単語ベクトル記憶手段と、
単語ベクトル記憶手段を用いて、第１の辞書に記憶された各単語に対応する単語ベクトルと、当該単語のカテゴリ名に対応するカテゴリ名ベクトルとを対応付けて記憶した辞書ベクトル記憶手段と、
単語ベクトル記憶手段を用いて、適応先用途のカテゴリ名に対応するカテゴリ名ベクトルを検索するカテゴリ名ベクトル検索手段と、
辞書ベクトル記憶手段から取得した任意の単語ベクトルから、当該単語ベクトルに対応するカテゴリ名ベクトルを引算し、適応先用途のカテゴリ名に対応するカテゴリ名ベクトルを加算した候補ベクトルを算出する候補ベクトル算出手段と、
候補ベクトルと、単語ベクトル記憶手段の各単語ベクトルとの間の距離が所定閾値以下又は類似度が所定閾値以上となる当該単語ベクトルを検索するベクトル距離判定手段と、
検索された単語ベクトルに対応する表層表現の単語を、第２の辞書に追加する辞書生成手段と
を有することを特徴とする。

【0012】

本発明の辞書生成装置における他の実施形態によれば、
単語ベクトル記憶手段に記憶された各単語の単語ベクトルは、
言語体系のコーパス(corpus)に含まれる文章を、形態素解析によって単語に区分し、
区分された単語群における分散表現を学習して、分散表現モデルを生成し、
区分された単語毎に、分散表現モデルを用いて、分散表現の単語ベクトルを生成したものであることも好ましい。

【0013】

本発明の辞書生成装置における他の実施形態によれば、
辞書ベクトル記憶手段に記憶された各単語の単語ベクトルは、第１の辞書に記憶された単語毎に、分散表現モデルを用いて、分散表現の単語ベクトルを生成したものであることも好ましい。

【0014】

本発明の辞書生成装置における他の実施形態によれば、
カテゴリ名は、「地域名」であり、
適用元用途の第１の辞書は、第１の地域で用いられるシステム辞書であり、
適用先用途の第２の辞書は、第２の地域で用いられるシステム辞書である
ことも好ましい。

【0015】

本発明の辞書生成装置における他の実施形態によれば、
カテゴリ名は、「見出し語名」又は「地域名及び見出し語名」である
ことも好ましい。

【0016】

本発明の辞書生成装置における他の実施形態によれば、
第１の言語体系の単語と、第２の言語体系の単語とを対応付けて記憶した汎用対訳辞書を更に有し、
第１の辞書は、第１の言語体系の表層表現の単語及びカテゴリ名と、その対訳となる第２の言語体系の表層表現の単語及びカテゴリ名とを対応付けて記憶したものであり、
第２の辞書は、第１の言語体系の表層表現の単語と、第２の言語体系の表層表現の単語とを対応付けて記憶したものであり、
単語ベクトル記憶手段は、第１の言語体系用及び第２の言語体系用それぞれに備えられ、
辞書ベクトル記憶手段は、第１の言語体系用及び第２の言語体系用それぞれに備えられ、
カテゴリ名ベクトル検索手段は、適応先用途のカテゴリ名に対応する、第１の言語体系のカテゴリ名ベクトルと、第２の言語体系のカテゴリ名ベクトルとを検索し、
候補ベクトル算出手段は、第１の言語体系に基づく第１の候補ベクトルと、第２の言語体系に基づく第２の候補ベクトルとを算出し、
ベクトル距離判定手段は、第１の候補ベクトルと距離が所定閾値以下となる、第１の言語体系用の単語ベクトルを検索し、第２の候補ベクトルと距離が所定閾値以下又は類似度が所定閾値以上となる、第２の言語体系用の単語ベクトルを検索し、
辞書生成手段は、ベクトル距離判定手段によって検索された第１の言語体系用の単語ベクトルに対応する表層表現の単語と、第２の言語体系用の単語ベクトルに対応する表層表現の単語とが、対訳として汎用対訳辞書に記憶されている場合にのみ、両方の表層表現の単語を対訳として第２の辞書に追加する
ことも好ましい。

【0017】

本発明によれば、前述した辞書生成装置を搭載したサーバであって、
ユーザ所有の端末から、当該ユーザが位置する地域情報を受信し、
当該ユーザに対して、地域情報に対応する音声認識用のシステム辞書を選択し、
当該ユーザ所有の端末から受信した音声情報に対して、選択された音声認識用のシステム辞書を適用することを特徴とする。

【0018】

本発明によれば、言語体系の表層表現の単語及びカテゴリ名を記憶する適応元用途の第１の辞書から、適応先用途のカテゴリ名を用いて、表層表現の単語を記憶する適応先用途の第２の辞書を生成するようにコンピュータを機能させるプログラムであって、
言語体系に含まれる単語毎に、分散表現の単語ベクトルを対応付けて記憶した単語ベクトル記憶手段と、
単語ベクトル記憶手段を用いて、第１の辞書に記憶された各単語に対応する単語ベクトルと、当該単語のカテゴリ名に対応するカテゴリ名ベクトルとを対応付けて記憶した辞書ベクトル記憶手段と、
単語ベクトル記憶手段を用いて、適応先用途のカテゴリ名に対応するカテゴリ名ベクトルを検索するカテゴリ名ベクトル検索手段と、
辞書ベクトル記憶手段から取得した任意の単語ベクトルから、当該単語ベクトルに対応するカテゴリ名ベクトルを引算し、適応先用途のカテゴリ名に対応するカテゴリ名ベクトルを加算した候補ベクトルを算出する候補ベクトル算出手段と、
候補ベクトルと、単語ベクトル記憶手段の各単語ベクトルとの間の距離が所定閾値以下又は類似度が所定閾値以上となる当該単語ベクトルを検索するベクトル距離判定手段と、
検索された単語ベクトルに対応する表層表現の単語を、第２の辞書に追加する辞書生成手段と
してコンピュータを機能させることを特徴とする。

【0019】

本発明によれば、言語体系の表層表現の単語及びカテゴリ名を記憶する適応元用途の第１の辞書から、適応先用途のカテゴリ名を用いて、表層表現の単語を記憶する適応先用途の第２の辞書を生成する装置の辞書生成方法であって、
装置は、
言語体系に含まれる単語毎に、分散表現の単語ベクトルを対応付けて記憶した単語ベクトル記憶部と、
単語ベクトル記憶部を用いて、第１の辞書に記憶された各単語に対応する単語ベクトルと、当該単語のカテゴリ名に対応するカテゴリ名ベクトルとを対応付けて記憶した辞書ベクトル記憶部と
を有し、
装置は、
単語ベクトル記憶部を用いて、適応先用途のカテゴリ名に対応するカテゴリ名ベクトルを検索する第１のステップと、
辞書ベクトル記憶部から取得した任意の単語ベクトルから、当該単語ベクトルに対応するカテゴリ名ベクトルを引算し、適応先用途のカテゴリ名に対応するカテゴリ名ベクトルを加算した候補ベクトルを算出する第２のステップと、
候補ベクトルと、単語ベクトル記憶部の各単語ベクトルとの間の距離が所定閾値以下又は類似度が所定閾値以上となる当該単語ベクトルを検索する第３のステップと、
検索された単語ベクトルに対応する表層表現の単語を、第２の辞書に追加する第４のステップと
を実行することを特徴とする。

【発明の効果】

【0020】

本発明の辞書生成装置、サーバ、プログラム及び方法によれば、第１の適用用途の辞書から第２の適用用途の辞書を生成することができる。

【図面の簡単な説明】

【0021】

【図1】本発明における辞書生成装置を含むシステム構成図である。

【図2】第１の言語体系における単語ベクトル及び辞書ベクトルを生成する機能構成図である。

【図3】本発明における辞書生成装置の機能構成図である。

【図4】本発明におけるベクトル間の距離の計算方法を表す説明図である。

【図5】第２の言語体系における単語ベクトル及び辞書ベクトルを生成する機能構成図である。

【図6】第１の言語体系及び第２の言語体系に基づく単語ベクトル記憶部及び辞書ベクトル記憶部の具体例を表す説明図である。

【図7】本発明における対訳用の辞書生成装置の機能構成図である。

【発明を実施するための形態】

【0022】

以下、本発明の実施の形態について、図面を用いて詳細に説明する。

【0023】

図１は、本発明における辞書生成装置を含むシステム構成図である。

【0024】

図１（ａ）によれば、辞書生成装置１が、インターネットのようなネットワークに接続されており、地域毎に、異なる音声認識サーバが配置されている。例えば、東京付近では、東京用の音声認識サーバが配置されており、辞書には、東京に滞在するユーザによる利用頻度が高いであろう「東京タワー」が登録されている。
一方で、例えば、大阪付近では、大阪用の音声認識サーバが配置されており、辞書には、大阪に滞在するユーザによる利用頻度が高いであろう「通天閣」が登録されている。

【0025】

図１（ｂ）によれば、辞書生成装置と一体的に構成された音声認識サーバが、インターネットに接続されている。音声認識サーバに搭載された辞書生成装置も、地域毎に、異なる辞書を生成する。音声認識サーバは、ユーザ所有の端末から、当該ユーザが位置する地域情報（例えばＧＰＳの位置情報）を受信する。このとき、音声認識サーバは、当該ユーザに対して、その地域情報に対応する音声認識用のシステム辞書を選択する。そして、音声認識サーバは、当該ユーザ所有の端末から受信した音声情報に対して、選択された音声認識用のシステム辞書を適用する。例えば、東京に滞在する端末からの利用の場合、東京用の辞書を用いて音声認識処理を実行する。

【0026】

尚、辞書生成装置１は、ユーザによって発話された音声信号を音声認識によってテキストに変換し、その中に含まれる「地域名」によって、音声認識用のシステム辞書を選択するものであってもよい。また、ユーザによって発話された内容から、話題となっているトピックによって音声認識用のシステム辞書を選択するものであってもよい。

【0027】

［辞書生成装置１］
辞書生成装置１は、適応元用途の第１の辞書から、適応先用途の第２の辞書を生成することができる。例えば適用元用途としての東京用の辞書から、適用先用途としての大阪用の辞書を生成することができる。
「適用元用途の第１の辞書」は、言語体系の表層表現の「単語」及び「カテゴリ名」を記憶する。また、適用元用途の第１の辞書は、第１の地域（例えば東京）で用いられるシステム辞書であってもよい。
「適用先用途の第２の辞書」は、表層表現の「単語」を記憶する。また、適用先用途の第２の辞書は、第２の地域（例えば大阪）で用いられるシステム辞書であってもよい。

【0028】

第１の辞書は、例えば東京で用いられるシステム辞書であるとする。
カテゴリ名
東京タワー［東京、ランドマーク］
ナポリタン［東京、食べ物］
・・・

【0029】

ここで、「カテゴリ名」とは、「地域名」及び／又は「見出し語」を意味する。例えば単語「東京タワー」に対して、カテゴリ名「東京、ランドマーク」が対応付けられたものである。「見出し語」とは、例えば大規模なコーパス辞書の中で、分類用のノードとして用いられる単語である。

【0030】

図２は、第１の言語体系における単語ベクトル及び辞書ベクトルを生成する機能構成図である。

【0031】

図２によれば、辞書生成装置１は、第１の言語体系における第１の辞書１０１と、コーパス文章群とを用いて、単語ベクトル記憶部１０２及び辞書ベクトル記憶部１０３を作成する。図２の構成は、単語ベクトル記憶部１０２及び辞書ベクトル記憶部１０３を学習によって構築するためのフェーズに基づくものである。即ち、図２のように構成することを必須とするものではなく、事前に何らかの方法で、単語ベクトル記憶部１０２及び辞書ベクトル記憶部１０３を構成したものであればよい。

【0032】

辞書生成装置１は、最初に、言語体系のコーパス(corpus)に含まれる文章群を、形態素解析によって単語に区分する。形態素解析とは、自然言語で書かれた文を言語として意味を持つ最小単位である形態素(Morpheme)に分割する技術をいう。また、形態素毎の品詞も判別することも、分かち書きの処理をすることもできる。本発明によれば、形態素解析によって、単語の中でも「名詞」に限って抽出する。

【0033】

言語体系のコーパスの文章群は、Wikipedia（登録商標）や新聞コーパス、Ｗｅｂクローリングによって取得したテキスト群のような、一般の言語コーパスである。即ち、特定の地域や利用分野に依存したインドメインコーパスである必要はなない。

【0034】

次に、辞書生成装置１は、区分された単語群における分散表現を学習して、分散表現モデルを生成する。
「分散表現(Distributed Representation、Word Embeddings)」とは、各単語を、単語間の各特徴要素（次元）に対して、定量化した連続値で表現したベクトルである。
分散表現モデルを構築するアルゴリズムとしては、例えば「Word2Vec」がある（例えば非特許文献２参照）。
「Word2Vec」とは、「同じ文脈で利用される単語は、同じ意味を持つ」という仮説に基づいて、単語の特徴や意味構造を含めてベクトル化したものである。これによって生成されるベクトル空間は、単語の「意味」を直接的に表現しているかのような性質を認めることができる。意味的に近い単語は、空間上で近くに存在するベクトルとして表現される。この技術によれば、例えば日本人が日常的に使う語彙数の数万〜数十万個における各単語を、２００次元程度の空間内に、分散表現のベクトルとして表す。

【0035】

「分散表現モデル」は、ディープラーニングにおける人工ニューラルネットワークに基づいて構築される。Word2Vecによれば、ある単語が与えられたとき、その近くに出現する他の単語（５個〜１０個程度）を当てる、という問題の解を、与えられた文章中の単語全てに対して人工ニューラルネットワークに学習させる。似た意味の言葉は、学習の過程で、徐々に近しい方向のベクトルに収束する。尚、Word2Vecは、自然言語処理ツールとして、オープンソース化されている。

【0036】

［単語ベクトル記憶部１０２］
単語ベクトル記憶部１０２は、区分された単語毎に、分散表現モデルを用いて、分散表現の単語ベクトルを生成したものである。
図２によれば、単語ベクトル記憶部１０２は、以下のように対応付けて記憶する。
＜単語＞＜ベクトル＞
たこやき −＞ベクトル（たこやき）
東京 −＞ベクトル（東京）
ナポリタン−＞ベクトル（ナポリタン）
通天閣 −＞ベクトル（通天閣）
大阪 −＞ベクトル（大阪）
東京タワー−＞ベクトル（東京タワー）
・・・

【0037】

［辞書ベクトル記憶部１０３］
辞書ベクトル記憶部１０３は、第１の辞書に記憶された単語毎に、分散表現モデルを用いて、分散表現の単語ベクトルを生成したものである。
図２によれば、辞書ベクトル記憶部１０３は、以下のように対応付けて記憶する。
＜単語のベクトル＞＜カテゴリ名のベクトル＞
ベクトル（東京タワー）［ベクトル（東京）、ベクトル（ランドマーク）］
ベクトル（ナポリタン）［ベクトル（東京）、ベクトル（食べ物）］
・・・

【0038】

図３は、本発明における辞書生成装置の機能構成図である。

【0039】

図３の辞書生成装置１によれば、カテゴリ名ベクトル検索部１１と、候補ベクトル算出部１２と、ベクトル距離判定部１３と、辞書生成部１４とを有する。これら機能構成部は、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現される。また、これら機能構成部の処理の流れは、装置の辞書生成方法としても理解できる。

【0040】

［カテゴリ名ベクトル検索部１１］
カテゴリ名は、「地域名」であってもよい。例えば「大阪」のようなものである。
カテゴリ名は、「見出し語名」又は「地域名及び見出し語名」であってもよい。例えば「ランドマーク」又は「東京、ランドマーク」のようなものである。
カテゴリ名ベクトル検索部１１は、単語ベクトル記憶部１０２を用いて、適応先用途のカテゴリ名に対応するカテゴリ名ベクトルを検索する。
図３によれば、カテゴリ名ベクトル検索部１１は、例えば、検索キーとしてのカテゴリ名「大阪」を、単語ベクトル記憶部１０２へ入力し、その出力として、分散表現のベクトル（大阪）を取得する。
そして、検索されたカテゴリ名ベクトルは、候補ベクトル算出部１２へ出力される。

【0041】

［候補ベクトル算出部１２］
候補ベクトル算出部１２は、辞書ベクトル記憶部１０３から取得した任意の単語ベクトルから、当該単語ベクトルに対応するカテゴリ名ベクトルを引算し、適応先用途のカテゴリ名に対応するカテゴリ名ベクトルを加算した候補ベクトルを算出する。
図３によれば、具体的には、以下のような候補ベクトルを算出する。
任意の単語ベクトル：例えばベクトル（東京タワー）
当該単語に対応するカテゴリ名ベクトル：例えばベクトル（東京）
適用先用途のカテゴリ名：例えば大阪
適用先用途のカテゴリ名に対応するカテゴリ名ベクトル：例えばベクトル（大阪）
候補ベクトル＝ベクトル（東京タワー）−ベクトル（東京）＋ベクトル（大阪）
この候補ベクトルの意味は、大阪で、「東京タワー」と同じように使われる単語のベクトルが、候補ベクトルとなる。
次に、辞書ベクトル記憶部１０３から、異なる任意の単語ベクトルが取得される。
任意の単語ベクトル：例えばベクトル（ナポリタン）
当該単語に対応するカテゴリ名ベクトル：例えばベクトル（東京）
適用先用途のカテゴリ名：例えば大阪
適用先用途のカテゴリ名に対応するカテゴリ名ベクトル：例えばベクトル（大阪）
候補ベクトル＝ベクトル（ナポリタン）−ベクトル（東京）＋ベクトル（大阪）
このように、深層学習を用いた単語の分散表現のベクトルによれば、意味の加減算が可能となる。
ここでの任意の単語ベクトルは、辞書ベクトル記憶部１０３に記憶された全ての単語ベクトルとの組み合わせに対して、候補ベクトルを算出する。
そして、算出された候補ベクトルは、ベクトル距離判定部１３へ出力される。

【0042】

図４は、本発明におけるベクトル間の距離の計算方法を表す説明図である。図４によれば、適用元用途のカテゴリ名と適用先用途のカテゴリ名とに応じて、候補ベクトルを算出するための様々な計算方法を表す。
ｗs：任意の単語ベクトル
ｌ：当該単語に対応するカテゴリ名（地域名）ベクトル
ｆ：当該単語に対応するカテゴリ名（見出し語名）ベクトル
ｔl：適用先用途のカテゴリ名（地域名）に対応するカテゴリ名ベクトル
ｔf：適用先用途のカテゴリ名（見出し語名）に対応するカテゴリ名ベクトル
ｗn：他の単語ベクトル

【0043】

［ベクトル距離判定部１３］
ベクトル距離判定部１３は、候補ベクトルと、単語ベクトル記憶部１０２の各単語ベクトルとの間の距離が所定閾値以下又は類似度が所定閾値以上となる当該単語ベクトルを検索する。
図３によれば、候補ベクトルと、単語ベクトル記憶部１０２のベクトル（通天閣）との間の距離が所定閾値以下（又は類似度が所定閾値以上）であると判定されている。ここでは、大阪で、「東京タワー」と同じように使われる単語のベクトルとして、ベクトル（通天閣）が、距離が近いものとして判定されている。勿論、ベクトル間の距離が最も近いもの１つに限られず、複数あってもよいし、逆に、距離が所定閾値以下のものが無いとして０であってもよい。
ここでの各単語ベクトルは、単語ベクトル記憶部１０２に記憶された全ての単語ベクトルとの組み合わせに対して判定する。
ベクトル距離判定部１３によって真と判定された単語ベクトルは、辞書生成部１４へ出力される。

【0044】

［辞書生成部１４］
辞書生成部１４は、検索された単語ベクトルに対応する表層表現の単語を、第２の辞書に追加する。
図３によれば、ベクトル（通天閣）に対応する単語「通天閣」を、第２の辞書に追加する。このようにすることによって、例えば東京で使用されている辞書から、大阪で使用可能な辞書を自動的に生成することができる。

【0045】

図５〜図７は、異なる言語体系に対応する対訳辞書を生成するためのものである。ここでは、第１の言語体系が日本語であり、第２の言語体系が英語である。この場合、辞書生成装置１は、適用元用途としての東京用の日本語対英語の対訳辞書から、適用先用途としての大阪用の日本語対英語の対訳辞書を生成することができる。

【0046】

図５は、第２の言語体系における単語ベクトル及び辞書ベクトルを生成する機能構成図である。

【0047】

図５は、図２と同様であって、第１の辞書に記憶された英語の単語毎に、分散表現モデルを用いて、分散表現の単語ベクトルを生成したものである。
図５によれば、第１の辞書１０１は、以下のように対応付けて記憶する。
＜単語＞＜カテゴリ名＞
Tokyo tower［Tokyo、Landmark］
Neapolitan ［Tokyo、Food］
・・・
即ち、図２及び図５を組み合わせて、第１の辞書は、第１の言語体系（例えば日本語）の表層表現の単語及びカテゴリ名と、その対訳となる第２の言語体系（例えば英語）の表層表現の単語及びカテゴリ名とを対応付けて記憶したものとなる。

【0048】

図５によれば、単語ベクトル記憶部１０２は、例えば以下のように対応付けて記憶する。
＜単語＞＜ベクトル＞
takoyaki −＞ベクトル（takoyaki）
Tokyo −＞ベクトル（Tokyo）
Neapolitan −＞ベクトル（Neapolitan）
Tsutenkaku −＞ベクトル（Tsutenkaku）
Osaka −＞ベクトル（Osaka）
Tokyo tower−＞ベクトル（Tokyo tower）
・・・

【0049】

図５によれば、辞書ベクトル記憶部１０３は、例えば以下のように対応付けて記憶する。
＜単語のベクトル＞＜カテゴリ名のベクトル＞
ベクトル（Tokyo tower）［ベクトル（Tokyo）、ベクトル（Landmark）］
ベクトル（Neapolitan）［ベクトル（Tokyo）、ベクトル（Food）］
・・・

【0050】

図６は、第１の言語体系及び第２の言語体系に基づく単語ベクトル記憶部及び辞書ベクトル記憶部の具体例を表す説明図である。

【0051】

汎用対訳辞書を更に有し、第１の言語体系の単語と、第２の言語体系の単語とを対応付けて記憶する。図６によれば、汎用対訳辞書は、例えば以下のような対訳の辞書である。
通天閣＜−＞Tsutenkaku
東京タワー＜−＞Tokyo tower
たこやき＜−＞Takoyaki
ナポリタン＜−＞Neapolitan
梅田スカイビル＜−＞Umeda Sky Building
ツイン２１＜−＞Twin21

【0052】

単語ベクトル記憶部１０２は、第１の言語体系用及び第２の言語体系用それぞれに備えられる。
［第１の言語体系用］
たこやき −＞ベクトル（たこやき）
東京 −＞ベクトル（東京）
ナポリタン−＞ベクトル（ナポリタン）
通天閣 −＞ベクトル（通天閣）
大阪 −＞ベクトル（大阪）
東京タワー−＞ベクトル（東京タワー）
・・・
［第２の言語体系用］
Takoyaki −＞ベクトル（Takoyaki）
Tokyo −＞ベクトル（Tokyo）
Neapolitan −＞ベクトル（Neapolitan）
Tsutenkaku −＞ベクトル（Tsutenkaku）
Osaka −＞ベクトル（Osaka）
Tokyo tower−＞ベクトル（Tokyo tower）
・・・

【0053】

辞書ベクトル記憶部１０３も、第１の言語体系用及び第２の言語体系用それぞれに備えられる。
［第１の言語体系用］
ベクトル（東京タワー）［ベクトル（東京）、ベクトル（ランドマーク）］
ベクトル（ナポリタン）［ベクトル（東京）、ベクトル（食べ物）］
・・・
［第２の言語体系用］
ベクトル（Tokyo tower）［ベクトル（Tokyo）、ベクトル（Landmark）］
ベクトル（Neapolitan）［ベクトル（Tokyo）、ベクトル（Food）］
・・・

【0054】

図７は、本発明における対訳用の辞書生成装置の機能構成図である。

【0055】

［カテゴリ名ベクトル検索部１１］
カテゴリ名ベクトル検索部１１は、単語ベクトル記憶部１０２を用いて、適応先用途のカテゴリ名に対応する、第１の言語体系のカテゴリ名ベクトルと、第２の言語体系のカテゴリ名ベクトルとを検索する。
図７によれば、例えば適応先カテゴリ名として「大阪」を入力し、その日本語及び英語のカテゴリ名ベクトルを、単語ベクトル記憶部１０２を用いて検索する。
大阪 −＞ベクトル（大阪）
Osaka −＞ベクトル（Osaka）

【0056】

［候補ベクトル算出部１２］
候補ベクトル算出部１２は、辞書ベクトル記憶部１０３を用いて、第１の言語体系に基づく第１の候補ベクトルと、第２の言語体系に基づく第２の候補ベクトルとを算出する。
図７によれば、第２の言語体系について、具体的には、以下のような候補ベクトルを算出する。
任意の単語ベクトル：例えばベクトル（Tokyo tower）
当該単語に対応するカテゴリ名ベクトル：例えばベクトル（Tokyo）
適用先用途のカテゴリ名：例えばOsaka
適用先用途のカテゴリ名に対応するカテゴリ名ベクトル
：例えばベクトル（Osaka）
第２の言語体系の候補ベクトル
＝ベクトル（Tokyo tower）−ベクトル（Tokyo）＋ベクトル（Osaka）

【0057】

［ベクトル距離判定部１３］
ベクトル距離判定部１３は、第１の候補ベクトルと距離が所定閾値以下となる、第１の言語体系用の単語ベクトルを検索し、第２の候補ベクトルと距離が所定閾値以下となる、第２の言語体系用の単語ベクトルを検索する。
図７によれば、第２の言語体系の候補ベクトルと、単語ベクトル記憶部１０２のベクトル（Tsutenkaku）との間の距離が所定閾値以下（又は類似度が所定閾値以上）であると判定されている。ここでは、Osakaで、「Tokyo tower」と同じように使われる単語のベクトルとして、ベクトル（Tsutenkaku）が、距離が近いものとして判定されている。
ここで、第２の言語体系の各単語ベクトルは、単語ベクトル記憶部１０２に記憶された第２の言語体系全ての単語ベクトルとの組み合わせに対して判定する。
ベクトル距離判定部１３によって真と判定された第１の言語体系の単語ベクトル及び第２の言語体系の単語ベクトルは、辞書生成部１４へ出力される。

【0058】

［辞書生成部１４］
辞書生成部１４は、ベクトル距離判定部１３によって検索された第１の言語体系用の単語ベクトルに対応する表層表現の単語と、第２の言語体系用の単語ベクトルに対応する表層表現の単語とが、対訳として汎用対訳辞書に記憶されている場合にのみ、両方の表層表現の単語を対訳として第２の辞書に追加する。
これによって、第１の言語体系の第１の単語と第２の言語体系の第２の単語とが、ベクトル間距離が近いけれども、対訳として存在しないものを、第２の辞書に登録することがなくなる。即ち、ベクトル間距離が近くて対訳関係が存在するもののみを、第２の辞書に登録することができる。

【0059】

これによって、第２の辞書には、第１の言語体系の表層表現の単語と、第２の言語体系の表層表現の単語とを対応付けて記憶することができる。

【0060】

以上、詳細に説明したように、本発明の辞書生成装置、サーバ、プログラム及び方法によれば、第１の適用用途の辞書から第２の適用用途の辞書を生成することができる。本発明によれば、人手を要することなく、インドメインコーパスやシステム利用ログ等を用いることなく、第１の適用用途の辞書から、既存の一般言語コーパスを用いて、地域や利用分野に応じた辞書を生成することができる。

【0061】

前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。

【符号の説明】

【0062】

１辞書生成装置
１０１第１の辞書
１０２単語ベクトル記憶部
１０３辞書ベクトル記憶部
１０４第２の辞書
１１カテゴリ名ベクトル検索部
１２候補ベクトル算出部
１３ベクトル距離判定部
１４辞書生成部

【図1】