特許第6495856号(P6495856)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社KDDI研究所の特許一覧

特許6495856適用用途の異なる辞書を生成する辞書生成装置、サーバ、プログラム及び方法
<>
  • 特許6495856-適用用途の異なる辞書を生成する辞書生成装置、サーバ、プログラム及び方法 図000002
  • 特許6495856-適用用途の異なる辞書を生成する辞書生成装置、サーバ、プログラム及び方法 図000003
  • 特許6495856-適用用途の異なる辞書を生成する辞書生成装置、サーバ、プログラム及び方法 図000004
  • 特許6495856-適用用途の異なる辞書を生成する辞書生成装置、サーバ、プログラム及び方法 図000005
  • 特許6495856-適用用途の異なる辞書を生成する辞書生成装置、サーバ、プログラム及び方法 図000006
  • 特許6495856-適用用途の異なる辞書を生成する辞書生成装置、サーバ、プログラム及び方法 図000007
  • 特許6495856-適用用途の異なる辞書を生成する辞書生成装置、サーバ、プログラム及び方法 図000008
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6495856
(24)【登録日】2019年3月15日
(45)【発行日】2019年4月3日
(54)【発明の名称】適用用途の異なる辞書を生成する辞書生成装置、サーバ、プログラム及び方法
(51)【国際特許分類】
   G06F 17/27 20060101AFI20190325BHJP
   G10L 15/06 20130101ALI20190325BHJP
【FI】
   G06F17/27 635
   G10L15/06 300C
【請求項の数】9
【全頁数】17
(21)【出願番号】特願2016-55986(P2016-55986)
(22)【出願日】2016年3月18日
(65)【公開番号】特開2017-173907(P2017-173907A)
(43)【公開日】2017年9月28日
【審査請求日】2018年4月10日
【国等の委託研究の成果に係る記載事項】(出願人による申告)平成27年度、総務省、「グローバルコミュニケーション計画の推進−多言語音声翻訳技術の研究開発及び社会実証」委託研究、産業技術強化法第19条の適用を受ける特許出願
(73)【特許権者】
【識別番号】599108264
【氏名又は名称】株式会社KDDI総合研究所
(74)【代理人】
【識別番号】100135068
【弁理士】
【氏名又は名称】早原 茂樹
(72)【発明者】
【氏名】安田 圭志
【審査官】 長 由紀子
(56)【参考文献】
【文献】 特開2005−107705(JP,A)
【文献】 特開2005−149015(JP,A)
【文献】 米国特許出願公開第2016/65534(US,A1)
【文献】 米国特許出願公開第2008/243834(US,A1)
【文献】 土田 崇仁 外6名,Word2Vecを用いた地域やランドマークの意味演算, 第8回データ工学と情報マネジメントに関するフォーラム (第14回日本データベース学会年次大会) [online] ,日本,電子情報通信学会データ工学研究専門委員会 日本データベース学会 情報処理学会データベースシステム研究会 ,2016年 3月 2日,p.1-6
【文献】 小木曽 智信,通時コーパスの構築に向けた古文用形態素解析辞書の開発,情報処理学会研究報告 2011(平成23)年度4 [CD−ROM] ,日本,一般社団法人情報処理学会,2011年12月15日,p.1-4,国内学会論文2011-00858-006
【文献】 吉井 和輝 外3名,日本語単語ベクトルの構築とその評価,情報処理学会 研究報告 音声言語情報処理(SLP) 2015−SLP−106 [online],日本,情報処理学会,2015年 5月18日,p.1-8
【文献】 晃昇 祥恵 外3名,地域連想語辞書の構築に関する研究,言語処理学会第18回年次大会発表論文集 チュートリアル 本会議 [CD−ROM],日本,言語処理学会,2012年 3月13日,p.1095-1097
【文献】 伝 康晴,多様な目的に適した形態素解析システム用電子化辞書,人工知能学会誌,日本,(社)人工知能学会,2009年 9月 1日,第24巻第5号,p.640-646
(58)【調査した分野】(Int.Cl.,DB名)
G06F 17/20−30
G10L 15/06
(57)【特許請求の範囲】
【請求項1】
言語体系の表層表現の単語及びカテゴリ名を記憶する適応元用途の第1の辞書から、適応先用途のカテゴリ名を用いて、表層表現の単語を記憶する適応先用途の第2の辞書を生成する辞書生成装置であって、
言語体系に含まれる単語毎に、分散表現の単語ベクトルを対応付けて記憶した単語ベクトル記憶手段と、
前記単語ベクトル記憶手段を用いて、第1の辞書に記憶された各単語に対応する単語ベクトルと、当該単語のカテゴリ名に対応するカテゴリ名ベクトルとを対応付けて記憶した辞書ベクトル記憶手段と、
前記単語ベクトル記憶手段を用いて、適応先用途のカテゴリ名に対応するカテゴリ名ベクトルを検索するカテゴリ名ベクトル検索手段と、
前記辞書ベクトル記憶手段から取得した任意の単語ベクトルから、当該単語ベクトルに対応するカテゴリ名ベクトルを引算し、適応先用途のカテゴリ名に対応するカテゴリ名ベクトルを加算した候補ベクトルを算出する候補ベクトル算出手段と、
前記候補ベクトルと、前記単語ベクトル記憶手段の各単語ベクトルとの間の距離が所定閾値以下又は類似度が所定閾値以上となる当該単語ベクトルを検索するベクトル距離判定手段と、
検索された前記単語ベクトルに対応する表層表現の単語を、第2の辞書に追加する辞書生成手段と
を有することを特徴とする辞書生成装置。
【請求項2】
前記単語ベクトル記憶手段に記憶された各単語の単語ベクトルは、
言語体系のコーパス(corpus)に含まれる文章を、形態素解析によって単語に区分し、
区分された単語群における分散表現を学習して、分散表現モデルを生成し、
区分された単語毎に、前記分散表現モデルを用いて、分散表現の単語ベクトルを生成したものである
ことを特徴とする請求項1に記載の辞書生成装置。
【請求項3】
前記辞書ベクトル記憶手段に記憶された各単語の単語ベクトルは、第1の辞書に記憶された単語毎に、前記分散表現モデルを用いて、分散表現の単語ベクトルを生成したものであることを特徴とする請求項2に記載の辞書生成装置。
【請求項4】
前記カテゴリ名は、「地域名」であり、
適用元用途の第1の辞書は、第1の地域で用いられるシステム辞書であり、
適用先用途の第2の辞書は、第2の地域で用いられるシステム辞書である
ことを特徴とする請求項1から3のいずれか1項に記載の辞書生成装置。
【請求項5】
前記カテゴリ名は、「見出し語名」又は「地域名及び見出し語名」である
ことを特徴とする請求項1から4のいずれか1項に記載の辞書生成装置。
【請求項6】
第1の言語体系の単語と、第2の言語体系の単語とを対応付けて記憶した汎用対訳辞書を更に有し、
第1の辞書は、第1の言語体系の表層表現の単語及びカテゴリ名と、その対訳となる第2の言語体系の表層表現の単語及びカテゴリ名とを対応付けて記憶したものであり、
第2の辞書は、第1の言語体系の表層表現の単語と、第2の言語体系の表層表現の単語とを対応付けて記憶したものであり、
前記単語ベクトル記憶手段は、第1の言語体系用及び第2の言語体系用それぞれに備えられ、
前記辞書ベクトル記憶手段は、第1の言語体系用及び第2の言語体系用それぞれに備えられ、
前記カテゴリ名ベクトル検索手段は、適応先用途のカテゴリ名に対応する、第1の言語体系のカテゴリ名ベクトルと、第2の言語体系のカテゴリ名ベクトルとを検索し、
前記候補ベクトル算出手段は、第1の言語体系に基づく第1の候補ベクトルと、第2の言語体系に基づく第2の候補ベクトルとを算出し、
前記ベクトル距離判定手段は、第1の候補ベクトルと距離が所定閾値以下となる、第1の言語体系用の単語ベクトルを検索し、第2の候補ベクトルと距離が所定閾値以下又は類似度が所定閾値以上となる、第2の言語体系用の単語ベクトルを検索し、
前記辞書生成手段は、前記ベクトル距離判定手段によって検索された第1の言語体系用の単語ベクトルに対応する表層表現の単語と、第2の言語体系用の単語ベクトルに対応する表層表現の単語とが、対訳として前記汎用対訳辞書に記憶されている場合にのみ、両方の表層表現の単語を対訳として第2の辞書に追加する
ことを特徴とする請求項1から5のいずれか1項に記載の辞書生成装置。
【請求項7】
請求項1から6のいずれか1項に記載の辞書生成装置を搭載したサーバであって、
ユーザ所有の端末から、当該ユーザが位置する地域情報を受信し、
当該ユーザに対して、前記地域情報に対応する音声認識用のシステム辞書を選択し、
当該ユーザ所有の端末から受信した音声情報に対して、選択された音声認識用のシステム辞書を適用する
ことを特徴とするサーバ。
【請求項8】
言語体系の表層表現の単語及びカテゴリ名を記憶する適応元用途の第1の辞書から、適応先用途のカテゴリ名を用いて、表層表現の単語を記憶する適応先用途の第2の辞書を生成するようにコンピュータを機能させるプログラムであって、
言語体系に含まれる単語毎に、分散表現の単語ベクトルを対応付けて記憶した単語ベクトル記憶手段と、
前記単語ベクトル記憶手段を用いて、第1の辞書に記憶された各単語に対応する単語ベクトルと、当該単語のカテゴリ名に対応するカテゴリ名ベクトルとを対応付けて記憶した辞書ベクトル記憶手段と、
前記単語ベクトル記憶手段を用いて、適応先用途のカテゴリ名に対応するカテゴリ名ベクトルを検索するカテゴリ名ベクトル検索手段と、
前記辞書ベクトル記憶手段から取得した任意の単語ベクトルから、当該単語ベクトルに対応するカテゴリ名ベクトルを引算し、適応先用途のカテゴリ名に対応するカテゴリ名ベクトルを加算した候補ベクトルを算出する候補ベクトル算出手段と、
前記候補ベクトルと、前記単語ベクトル記憶手段の各単語ベクトルとの間の距離が所定閾値以下又は類似度が所定閾値以上となる当該単語ベクトルを検索するベクトル距離判定手段と、
検索された前記単語ベクトルに対応する表層表現の単語を、第2の辞書に追加する辞書生成手段と
してコンピュータを機能させることを特徴とするプログラム。
【請求項9】
言語体系の表層表現の単語及びカテゴリ名を記憶する適応元用途の第1の辞書から、適応先用途のカテゴリ名を用いて、表層表現の単語を記憶する適応先用途の第2の辞書を生成する装置の辞書生成方法であって、
前記装置は、
言語体系に含まれる単語毎に、分散表現の単語ベクトルを対応付けて記憶した単語ベクトル記憶部と、
前記単語ベクトル記憶部を用いて、第1の辞書に記憶された各単語に対応する単語ベクトルと、当該単語のカテゴリ名に対応するカテゴリ名ベクトルとを対応付けて記憶した辞書ベクトル記憶部と
を有し、
前記装置は、
前記単語ベクトル記憶部を用いて、適応先用途のカテゴリ名に対応するカテゴリ名ベクトルを検索する第1のステップと、
前記辞書ベクトル記憶部から取得した任意の単語ベクトルから、当該単語ベクトルに対応するカテゴリ名ベクトルを引算し、適応先用途のカテゴリ名に対応するカテゴリ名ベクトルを加算した候補ベクトルを算出する第2のステップと、
前記候補ベクトルと、前記単語ベクトル記憶部の各単語ベクトルとの間の距離が所定閾値以下又は類似度が所定閾値以上となる当該単語ベクトルを検索する第3のステップと、
検索された前記単語ベクトルに対応する表層表現の単語を、第2の辞書に追加する第4のステップと
を実行することを特徴とする辞書生成方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、言語処理に利用される辞書を生成する技術に関する。特に、音声認識システムや機械翻訳システムに適用される技術に関する。
【背景技術】
【0002】
音声認識及び音声翻訳システムによれば、辞書は、必須の構成要素である。従来、辞書は、地域や利用分野に応じて、関連する語彙の辞書を、人手によって構築及び整備する必要があった。勿論、言語コーパスから自動的に辞書を構築することもできるが、不要な語彙を登録することも多く、処理速度の低下やシステム性能の劣化を生じる。これを防ぐために、地域や利用分野の適用用途に応じた言語コーパスを用いて、辞書を生成する必要があった。この場合、言語コーパス自体の精度が要求されることとなる。
【0003】
従来、辞書は、例えば以下のような方法で拡張されている。
・地域や利用分野に応じた言語コーパス(インドメイン言語コーパス)から、辞書を構築する。
・地域や利用分野に関する辞書を人手によって整備する。
・音声認識システムにおける利用ログから、未知語を抽出し、その未知語を辞書に追加する。
【0004】
また、ユーザ所有の携帯端末に実装されたローカル辞書を補強する技術がある(例えば特許文献1参照)。この技術によれば、携帯端末は、オンラインでサーバと通信することによって、音声認識及び音声翻訳を実行する。サーバは、大語彙辞書を搭載しており、携帯端末は、小規模のローカル辞書を搭載する。サーバは、携帯端末から受信する音声信号を認識する中で、ユーザの利用ログを記録し、補強が必要な辞書エントリを携帯端末へ送信する。携帯端末は、サーバから受信した辞書エントリによって、ローカル辞書を補強することができる。ここで、携帯端末が、サーバへ、ローカル辞書の補強のための辞書エントリを依頼するものであってもよい。
【0005】
更に、位置情報に依存した単語を取得するために、twitter(登録商標)を用いた技術もある(例えば非特許文献1参照)。この技術によれば、位置情報付きツイートを位置に応じて分類し、分類された位置毎に特有の単語を抽出することができる。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2014−048507号公報
【非特許文献】
【0007】
【非特許文献1】荒川豊、田頭茂明、福田晃「Twitter分析に基づく位置情報依存文字列の抽出」、情報処理学会研究報告モバイルコンピューティングとユビキタス通信、2010-MBL-55(10)、pp.1-6、2010-08-26
【非特許文献2】Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg S Corrado, Jeff Dean, "Distributed representations of words and phrases and their compositionality", 2013, NIPS 2013: 3111-3119
【発明の概要】
【発明が解決しようとする課題】
【0008】
しかしながら、特許文献1に記載の技術によれば、ユーザに音声認識サービスを提供する中で、辞書が拡張されるものであって、基本的にユーザ毎に構築される辞書も異なる。また、非特許文献1に記載の技術によれば、ツイートの記述内容と、音声認識システムにおけるユーザの発話内容とに乖離がある場合、システム性能を向上させるような辞書を生成することはできない。例えばユーザからある名詞が発話されるのに対し、ツイートではそのような名詞が記述されない場合も多い。
【0009】
ここで、本願の発明者らは、第1の適用用途(地域や利用分野)の第1の辞書から、第2の適用用途の第2の辞書を生成することができないか?と考えた。例えば東京では「東京タワー」という単語が用いられる文章の中では、大阪では「通天閣」という単語が用いられる可能性が高いのではないか?と考えた。そうであれば、東京に滞在するユーザに利用される音声認識システムの第1の辞書の中で、「東京タワー」という単語は、大阪に滞在するユーザに利用される音声認識システムの第2の辞書の中で、「通天閣」という単語に置き換えることができると考えた。
【0010】
そこで、本発明は、第1の適用用途の辞書から第2の適用用途の辞書を生成することができる辞書生成装置、サーバ、プログラム及び方法を提供することを目的とする。
【課題を解決するための手段】
【0011】
本発明によれば、言語体系の表層表現の単語及びカテゴリ名を記憶する適応元用途の第1の辞書から、適応先用途のカテゴリ名を用いて、表層表現の単語を記憶する適応先用途の第2の辞書を生成する辞書生成装置であって、
言語体系に含まれる単語毎に、分散表現の単語ベクトルを対応付けて記憶した単語ベクトル記憶手段と、
単語ベクトル記憶手段を用いて、第1の辞書に記憶された各単語に対応する単語ベクトルと、当該単語のカテゴリ名に対応するカテゴリ名ベクトルとを対応付けて記憶した辞書ベクトル記憶手段と、
単語ベクトル記憶手段を用いて、適応先用途のカテゴリ名に対応するカテゴリ名ベクトルを検索するカテゴリ名ベクトル検索手段と、
辞書ベクトル記憶手段から取得した任意の単語ベクトルから、当該単語ベクトルに対応するカテゴリ名ベクトルを引算し、適応先用途のカテゴリ名に対応するカテゴリ名ベクトルを加算した候補ベクトルを算出する候補ベクトル算出手段と、
候補ベクトルと、単語ベクトル記憶手段の各単語ベクトルとの間の距離が所定閾値以下又は類似度が所定閾値以上となる当該単語ベクトルを検索するベクトル距離判定手段と、
検索された単語ベクトルに対応する表層表現の単語を、第2の辞書に追加する辞書生成手段と
を有することを特徴とする。
【0012】
本発明の辞書生成装置における他の実施形態によれば、
単語ベクトル記憶手段に記憶された各単語の単語ベクトルは、
言語体系のコーパス(corpus)に含まれる文章を、形態素解析によって単語に区分し、
区分された単語群における分散表現を学習して、分散表現モデルを生成し、
区分された単語毎に、分散表現モデルを用いて、分散表現の単語ベクトルを生成したものであることも好ましい。
【0013】
本発明の辞書生成装置における他の実施形態によれば、
辞書ベクトル記憶手段に記憶された各単語の単語ベクトルは、第1の辞書に記憶された単語毎に、分散表現モデルを用いて、分散表現の単語ベクトルを生成したものであることも好ましい。
【0014】
本発明の辞書生成装置における他の実施形態によれば、
カテゴリ名は、「地域名」であり、
適用元用途の第1の辞書は、第1の地域で用いられるシステム辞書であり、
適用先用途の第2の辞書は、第2の地域で用いられるシステム辞書である
ことも好ましい。
【0015】
本発明の辞書生成装置における他の実施形態によれば、
カテゴリ名は、「見出し語名」又は「地域名及び見出し語名」である
ことも好ましい。
【0016】
本発明の辞書生成装置における他の実施形態によれば、
第1の言語体系の単語と、第2の言語体系の単語とを対応付けて記憶した汎用対訳辞書を更に有し、
第1の辞書は、第1の言語体系の表層表現の単語及びカテゴリ名と、その対訳となる第2の言語体系の表層表現の単語及びカテゴリ名とを対応付けて記憶したものであり、
第2の辞書は、第1の言語体系の表層表現の単語と、第2の言語体系の表層表現の単語とを対応付けて記憶したものであり、
単語ベクトル記憶手段は、第1の言語体系用及び第2の言語体系用それぞれに備えられ、
辞書ベクトル記憶手段は、第1の言語体系用及び第2の言語体系用それぞれに備えられ、
カテゴリ名ベクトル検索手段は、適応先用途のカテゴリ名に対応する、第1の言語体系のカテゴリ名ベクトルと、第2の言語体系のカテゴリ名ベクトルとを検索し、
候補ベクトル算出手段は、第1の言語体系に基づく第1の候補ベクトルと、第2の言語体系に基づく第2の候補ベクトルとを算出し、
ベクトル距離判定手段は、第1の候補ベクトルと距離が所定閾値以下となる、第1の言語体系用の単語ベクトルを検索し、第2の候補ベクトルと距離が所定閾値以下又は類似度が所定閾値以上となる、第2の言語体系用の単語ベクトルを検索し、
辞書生成手段は、ベクトル距離判定手段によって検索された第1の言語体系用の単語ベクトルに対応する表層表現の単語と、第2の言語体系用の単語ベクトルに対応する表層表現の単語とが、対訳として汎用対訳辞書に記憶されている場合にのみ、両方の表層表現の単語を対訳として第2の辞書に追加する
ことも好ましい。
【0017】
本発明によれば、前述した辞書生成装置を搭載したサーバであって、
ユーザ所有の端末から、当該ユーザが位置する地域情報を受信し、
当該ユーザに対して、地域情報に対応する音声認識用のシステム辞書を選択し、
当該ユーザ所有の端末から受信した音声情報に対して、選択された音声認識用のシステム辞書を適用することを特徴とする。
【0018】
本発明によれば、言語体系の表層表現の単語及びカテゴリ名を記憶する適応元用途の第1の辞書から、適応先用途のカテゴリ名を用いて、表層表現の単語を記憶する適応先用途の第2の辞書を生成するようにコンピュータを機能させるプログラムであって、
言語体系に含まれる単語毎に、分散表現の単語ベクトルを対応付けて記憶した単語ベクトル記憶手段と、
単語ベクトル記憶手段を用いて、第1の辞書に記憶された各単語に対応する単語ベクトルと、当該単語のカテゴリ名に対応するカテゴリ名ベクトルとを対応付けて記憶した辞書ベクトル記憶手段と、
単語ベクトル記憶手段を用いて、適応先用途のカテゴリ名に対応するカテゴリ名ベクトルを検索するカテゴリ名ベクトル検索手段と、
辞書ベクトル記憶手段から取得した任意の単語ベクトルから、当該単語ベクトルに対応するカテゴリ名ベクトルを引算し、適応先用途のカテゴリ名に対応するカテゴリ名ベクトルを加算した候補ベクトルを算出する候補ベクトル算出手段と、
候補ベクトルと、単語ベクトル記憶手段の各単語ベクトルとの間の距離が所定閾値以下又は類似度が所定閾値以上となる当該単語ベクトルを検索するベクトル距離判定手段と、
検索された単語ベクトルに対応する表層表現の単語を、第2の辞書に追加する辞書生成手段と
してコンピュータを機能させることを特徴とする。
【0019】
本発明によれば、言語体系の表層表現の単語及びカテゴリ名を記憶する適応元用途の第1の辞書から、適応先用途のカテゴリ名を用いて、表層表現の単語を記憶する適応先用途の第2の辞書を生成する装置の辞書生成方法であって、
装置は、
言語体系に含まれる単語毎に、分散表現の単語ベクトルを対応付けて記憶した単語ベクトル記憶部と、
単語ベクトル記憶部を用いて、第1の辞書に記憶された各単語に対応する単語ベクトルと、当該単語のカテゴリ名に対応するカテゴリ名ベクトルとを対応付けて記憶した辞書ベクトル記憶部と
を有し、
装置は、
単語ベクトル記憶部を用いて、適応先用途のカテゴリ名に対応するカテゴリ名ベクトルを検索する第1のステップと、
辞書ベクトル記憶部から取得した任意の単語ベクトルから、当該単語ベクトルに対応するカテゴリ名ベクトルを引算し、適応先用途のカテゴリ名に対応するカテゴリ名ベクトルを加算した候補ベクトルを算出する第2のステップと、
候補ベクトルと、単語ベクトル記憶部の各単語ベクトルとの間の距離が所定閾値以下又は類似度が所定閾値以上となる当該単語ベクトルを検索する第3のステップと、
検索された単語ベクトルに対応する表層表現の単語を、第2の辞書に追加する第4のステップと
を実行することを特徴とする。
【発明の効果】
【0020】
本発明の辞書生成装置、サーバ、プログラム及び方法によれば、第1の適用用途の辞書から第2の適用用途の辞書を生成することができる。
【図面の簡単な説明】
【0021】
図1】本発明における辞書生成装置を含むシステム構成図である。
図2】第1の言語体系における単語ベクトル及び辞書ベクトルを生成する機能構成図である。
図3】本発明における辞書生成装置の機能構成図である。
図4】本発明におけるベクトル間の距離の計算方法を表す説明図である。
図5】第2の言語体系における単語ベクトル及び辞書ベクトルを生成する機能構成図である。
図6】第1の言語体系及び第2の言語体系に基づく単語ベクトル記憶部及び辞書ベクトル記憶部の具体例を表す説明図である。
図7】本発明における対訳用の辞書生成装置の機能構成図である。
【発明を実施するための形態】
【0022】
以下、本発明の実施の形態について、図面を用いて詳細に説明する。
【0023】
図1は、本発明における辞書生成装置を含むシステム構成図である。
【0024】
図1(a)によれば、辞書生成装置1が、インターネットのようなネットワークに接続されており、地域毎に、異なる音声認識サーバが配置されている。例えば、東京付近では、東京用の音声認識サーバが配置されており、辞書には、東京に滞在するユーザによる利用頻度が高いであろう「東京タワー」が登録されている。
一方で、例えば、大阪付近では、大阪用の音声認識サーバが配置されており、辞書には、大阪に滞在するユーザによる利用頻度が高いであろう「通天閣」が登録されている。
【0025】
図1(b)によれば、辞書生成装置と一体的に構成された音声認識サーバが、インターネットに接続されている。音声認識サーバに搭載された辞書生成装置も、地域毎に、異なる辞書を生成する。音声認識サーバは、ユーザ所有の端末から、当該ユーザが位置する地域情報(例えばGPSの位置情報)を受信する。このとき、音声認識サーバは、当該ユーザに対して、その地域情報に対応する音声認識用のシステム辞書を選択する。そして、音声認識サーバは、当該ユーザ所有の端末から受信した音声情報に対して、選択された音声認識用のシステム辞書を適用する。例えば、東京に滞在する端末からの利用の場合、東京用の辞書を用いて音声認識処理を実行する。
【0026】
尚、辞書生成装置1は、ユーザによって発話された音声信号を音声認識によってテキストに変換し、その中に含まれる「地域名」によって、音声認識用のシステム辞書を選択するものであってもよい。また、ユーザによって発話された内容から、話題となっているトピックによって音声認識用のシステム辞書を選択するものであってもよい。
【0027】
[辞書生成装置1]
辞書生成装置1は、適応元用途の第1の辞書から、適応先用途の第2の辞書を生成することができる。例えば適用元用途としての東京用の辞書から、適用先用途としての大阪用の辞書を生成することができる。
「適用元用途の第1の辞書」は、言語体系の表層表現の「単語」及び「カテゴリ名」を記憶する。また、適用元用途の第1の辞書は、第1の地域(例えば東京)で用いられるシステム辞書であってもよい。
「適用先用途の第2の辞書」は、表層表現の「単語」を記憶する。また、適用先用途の第2の辞書は、第2の地域(例えば大阪)で用いられるシステム辞書であってもよい。
【0028】
第1の辞書は、例えば東京で用いられるシステム辞書であるとする。
カテゴリ名
東京タワー[東京、ランドマーク]
ナポリタン[東京、食べ物]
・・・
【0029】
ここで、「カテゴリ名」とは、「地域名」及び/又は「見出し語」を意味する。例えば単語「東京タワー」に対して、カテゴリ名「東京、ランドマーク」が対応付けられたものである。「見出し語」とは、例えば大規模なコーパス辞書の中で、分類用のノードとして用いられる単語である。
【0030】
図2は、第1の言語体系における単語ベクトル及び辞書ベクトルを生成する機能構成図である。
【0031】
図2によれば、辞書生成装置1は、第1の言語体系における第1の辞書101と、コーパス文章群とを用いて、単語ベクトル記憶部102及び辞書ベクトル記憶部103を作成する。図2の構成は、単語ベクトル記憶部102及び辞書ベクトル記憶部103を学習によって構築するためのフェーズに基づくものである。即ち、図2のように構成することを必須とするものではなく、事前に何らかの方法で、単語ベクトル記憶部102及び辞書ベクトル記憶部103を構成したものであればよい。
【0032】
辞書生成装置1は、最初に、言語体系のコーパス(corpus)に含まれる文章群を、形態素解析によって単語に区分する。形態素解析とは、自然言語で書かれた文を言語として意味を持つ最小単位である形態素(Morpheme)に分割する技術をいう。また、形態素毎の品詞も判別することも、分かち書きの処理をすることもできる。本発明によれば、形態素解析によって、単語の中でも「名詞」に限って抽出する。
【0033】
言語体系のコーパスの文章群は、Wikipedia(登録商標)や新聞コーパス、Webクローリングによって取得したテキスト群のような、一般の言語コーパスである。即ち、特定の地域や利用分野に依存したインドメインコーパスである必要はなない。
【0034】
次に、辞書生成装置1は、区分された単語群における分散表現を学習して、分散表現モデルを生成する。
「分散表現(Distributed Representation、Word Embeddings)」とは、各単語を、単語間の各特徴要素(次元)に対して、定量化した連続値で表現したベクトルである。
分散表現モデルを構築するアルゴリズムとしては、例えば「Word2Vec」がある(例えば非特許文献2参照)。
「Word2Vec」とは、「同じ文脈で利用される単語は、同じ意味を持つ」という仮説に基づいて、単語の特徴や意味構造を含めてベクトル化したものである。これによって生成されるベクトル空間は、単語の「意味」を直接的に表現しているかのような性質を認めることができる。意味的に近い単語は、空間上で近くに存在するベクトルとして表現される。この技術によれば、例えば日本人が日常的に使う語彙数の数万〜数十万個における各単語を、200次元程度の空間内に、分散表現のベクトルとして表す。
【0035】
「分散表現モデル」は、ディープラーニングにおける人工ニューラルネットワークに基づいて構築される。Word2Vecによれば、ある単語が与えられたとき、その近くに出現する他の単語(5個〜10個程度)を当てる、という問題の解を、与えられた文章中の単語全てに対して人工ニューラルネットワークに学習させる。似た意味の言葉は、学習の過程で、徐々に近しい方向のベクトルに収束する。尚、Word2Vecは、自然言語処理ツールとして、オープンソース化されている。
【0036】
[単語ベクトル記憶部102]
単語ベクトル記憶部102は、区分された単語毎に、分散表現モデルを用いて、分散表現の単語ベクトルを生成したものである。
図2によれば、単語ベクトル記憶部102は、以下のように対応付けて記憶する。
<単語> <ベクトル>
たこやき −> ベクトル(たこやき)
東京 −> ベクトル(東京)
ナポリタン−> ベクトル(ナポリタン)
通天閣 −> ベクトル(通天閣)
大阪 −> ベクトル(大阪)
東京タワー−> ベクトル(東京タワー)
・・・
【0037】
[辞書ベクトル記憶部103]
辞書ベクトル記憶部103は、第1の辞書に記憶された単語毎に、分散表現モデルを用いて、分散表現の単語ベクトルを生成したものである。
図2によれば、辞書ベクトル記憶部103は、以下のように対応付けて記憶する。
<単語のベクトル> <カテゴリ名のベクトル>
ベクトル(東京タワー)[ベクトル(東京)、ベクトル(ランドマーク)]
ベクトル(ナポリタン)[ベクトル(東京)、ベクトル(食べ物)]
・・・
【0038】
図3は、本発明における辞書生成装置の機能構成図である。
【0039】
図3の辞書生成装置1によれば、カテゴリ名ベクトル検索部11と、候補ベクトル算出部12と、ベクトル距離判定部13と、辞書生成部14とを有する。これら機能構成部は、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現される。また、これら機能構成部の処理の流れは、装置の辞書生成方法としても理解できる。
【0040】
[カテゴリ名ベクトル検索部11]
カテゴリ名は、「地域名」であってもよい。例えば「大阪」のようなものである。
カテゴリ名は、「見出し語名」又は「地域名及び見出し語名」であってもよい。例えば「ランドマーク」又は「東京、ランドマーク」のようなものである。
カテゴリ名ベクトル検索部11は、単語ベクトル記憶部102を用いて、適応先用途のカテゴリ名に対応するカテゴリ名ベクトルを検索する。
図3によれば、カテゴリ名ベクトル検索部11は、例えば、検索キーとしてのカテゴリ名「大阪」を、単語ベクトル記憶部102へ入力し、その出力として、分散表現のベクトル(大阪)を取得する。
そして、検索されたカテゴリ名ベクトルは、候補ベクトル算出部12へ出力される。
【0041】
[候補ベクトル算出部12]
候補ベクトル算出部12は、辞書ベクトル記憶部103から取得した任意の単語ベクトルから、当該単語ベクトルに対応するカテゴリ名ベクトルを引算し、適応先用途のカテゴリ名に対応するカテゴリ名ベクトルを加算した候補ベクトルを算出する。
図3によれば、具体的には、以下のような候補ベクトルを算出する。
任意の単語ベクトル :例えばベクトル(東京タワー)
当該単語に対応するカテゴリ名ベクトル:例えばベクトル(東京)
適用先用途のカテゴリ名 :例えば大阪
適用先用途のカテゴリ名に対応するカテゴリ名ベクトル:例えばベクトル(大阪)
候補ベクトル=ベクトル(東京タワー)−ベクトル(東京)+ベクトル(大阪)
この候補ベクトルの意味は、大阪で、「東京タワー」と同じように使われる単語のベクトルが、候補ベクトルとなる。
次に、辞書ベクトル記憶部103から、異なる任意の単語ベクトルが取得される。
任意の単語ベクトル :例えばベクトル(ナポリタン)
当該単語に対応するカテゴリ名ベクトル:例えばベクトル(東京)
適用先用途のカテゴリ名 :例えば大阪
適用先用途のカテゴリ名に対応するカテゴリ名ベクトル:例えばベクトル(大阪)
候補ベクトル=ベクトル(ナポリタン)−ベクトル(東京)+ベクトル(大阪)
このように、深層学習を用いた単語の分散表現のベクトルによれば、意味の加減算が可能となる。
ここでの任意の単語ベクトルは、辞書ベクトル記憶部103に記憶された全ての単語ベクトルとの組み合わせに対して、候補ベクトルを算出する。
そして、算出された候補ベクトルは、ベクトル距離判定部13へ出力される。
【0042】
図4は、本発明におけるベクトル間の距離の計算方法を表す説明図である。図4によれば、適用元用途のカテゴリ名と適用先用途のカテゴリ名とに応じて、候補ベクトルを算出するための様々な計算方法を表す。
ws:任意の単語ベクトル
l:当該単語に対応するカテゴリ名(地域名)ベクトル
f:当該単語に対応するカテゴリ名(見出し語名)ベクトル
tl:適用先用途のカテゴリ名(地域名)に対応するカテゴリ名ベクトル
tf:適用先用途のカテゴリ名(見出し語名)に対応するカテゴリ名ベクトル
wn:他の単語ベクトル
【0043】
[ベクトル距離判定部13]
ベクトル距離判定部13は、候補ベクトルと、単語ベクトル記憶部102の各単語ベクトルとの間の距離が所定閾値以下又は類似度が所定閾値以上となる当該単語ベクトルを検索する。
図3によれば、候補ベクトルと、単語ベクトル記憶部102のベクトル(通天閣)との間の距離が所定閾値以下(又は類似度が所定閾値以上)であると判定されている。ここでは、大阪で、「東京タワー」と同じように使われる単語のベクトルとして、ベクトル(通天閣)が、距離が近いものとして判定されている。勿論、ベクトル間の距離が最も近いもの1つに限られず、複数あってもよいし、逆に、距離が所定閾値以下のものが無いとして0であってもよい。
ここでの各単語ベクトルは、単語ベクトル記憶部102に記憶された全ての単語ベクトルとの組み合わせに対して判定する。
ベクトル距離判定部13によって真と判定された単語ベクトルは、辞書生成部14へ出力される。
【0044】
[辞書生成部14]
辞書生成部14は、検索された単語ベクトルに対応する表層表現の単語を、第2の辞書に追加する。
図3によれば、ベクトル(通天閣)に対応する単語「通天閣」を、第2の辞書に追加する。このようにすることによって、例えば東京で使用されている辞書から、大阪で使用可能な辞書を自動的に生成することができる。
【0045】
図5図7は、異なる言語体系に対応する対訳辞書を生成するためのものである。ここでは、第1の言語体系が日本語であり、第2の言語体系が英語である。この場合、辞書生成装置1は、適用元用途としての東京用の日本語対英語の対訳辞書から、適用先用途としての大阪用の日本語対英語の対訳辞書を生成することができる。
【0046】
図5は、第2の言語体系における単語ベクトル及び辞書ベクトルを生成する機能構成図である。
【0047】
図5は、図2と同様であって、第1の辞書に記憶された英語の単語毎に、分散表現モデルを用いて、分散表現の単語ベクトルを生成したものである。
図5によれば、第1の辞書101は、以下のように対応付けて記憶する。
<単語> <カテゴリ名>
Tokyo tower[Tokyo、Landmark]
Neapolitan [Tokyo、Food]
・・・
即ち、図2及び図5を組み合わせて、第1の辞書は、第1の言語体系(例えば日本語)の表層表現の単語及びカテゴリ名と、その対訳となる第2の言語体系(例えば英語)の表層表現の単語及びカテゴリ名とを対応付けて記憶したものとなる。
【0048】
図5によれば、単語ベクトル記憶部102は、例えば以下のように対応付けて記憶する。
<単語> <ベクトル>
takoyaki −> ベクトル(takoyaki)
Tokyo −> ベクトル(Tokyo)
Neapolitan −> ベクトル(Neapolitan)
Tsutenkaku −> ベクトル(Tsutenkaku)
Osaka −> ベクトル(Osaka)
Tokyo tower−> ベクトル(Tokyo tower)
・・・
【0049】
図5によれば、辞書ベクトル記憶部103は、例えば以下のように対応付けて記憶する。
<単語のベクトル> <カテゴリ名のベクトル>
ベクトル(Tokyo tower)[ベクトル(Tokyo)、ベクトル(Landmark)]
ベクトル(Neapolitan) [ベクトル(Tokyo)、ベクトル(Food)]
・・・
【0050】
図6は、第1の言語体系及び第2の言語体系に基づく単語ベクトル記憶部及び辞書ベクトル記憶部の具体例を表す説明図である。
【0051】
汎用対訳辞書を更に有し、第1の言語体系の単語と、第2の言語体系の単語とを対応付けて記憶する。図6によれば、汎用対訳辞書は、例えば以下のような対訳の辞書である。
通天閣 <−>Tsutenkaku
東京タワー <−>Tokyo tower
たこやき <−>Takoyaki
ナポリタン <−>Neapolitan
梅田スカイビル<−>Umeda Sky Building
ツイン21 <−>Twin21
【0052】
単語ベクトル記憶部102は、第1の言語体系用及び第2の言語体系用それぞれに備えられる。
[第1の言語体系用]
たこやき −>ベクトル(たこやき)
東京 −>ベクトル(東京)
ナポリタン−>ベクトル(ナポリタン)
通天閣 −>ベクトル(通天閣)
大阪 −>ベクトル(大阪)
東京タワー−>ベクトル(東京タワー)
・・・
[第2の言語体系用]
Takoyaki −>ベクトル(Takoyaki)
Tokyo −>ベクトル(Tokyo)
Neapolitan −>ベクトル(Neapolitan)
Tsutenkaku −>ベクトル(Tsutenkaku)
Osaka −>ベクトル(Osaka)
Tokyo tower−>ベクトル(Tokyo tower)
・・・
【0053】
辞書ベクトル記憶部103も、第1の言語体系用及び第2の言語体系用それぞれに備えられる。
[第1の言語体系用]
ベクトル(東京タワー)[ベクトル(東京)、ベクトル(ランドマーク)]
ベクトル(ナポリタン)[ベクトル(東京)、ベクトル(食べ物)]
・・・
[第2の言語体系用]
ベクトル(Tokyo tower)[ベクトル(Tokyo)、ベクトル(Landmark)]
ベクトル(Neapolitan)[ベクトル(Tokyo)、ベクトル(Food)]
・・・
【0054】
図7は、本発明における対訳用の辞書生成装置の機能構成図である。
【0055】
[カテゴリ名ベクトル検索部11]
カテゴリ名ベクトル検索部11は、単語ベクトル記憶部102を用いて、適応先用途のカテゴリ名に対応する、第1の言語体系のカテゴリ名ベクトルと、第2の言語体系のカテゴリ名ベクトルとを検索する。
図7によれば、例えば適応先カテゴリ名として「大阪」を入力し、その日本語及び英語のカテゴリ名ベクトルを、単語ベクトル記憶部102を用いて検索する。
大阪 −>ベクトル(大阪)
Osaka −>ベクトル(Osaka)
【0056】
[候補ベクトル算出部12]
候補ベクトル算出部12は、辞書ベクトル記憶部103を用いて、第1の言語体系に基づく第1の候補ベクトルと、第2の言語体系に基づく第2の候補ベクトルとを算出する。
図7によれば、第2の言語体系について、具体的には、以下のような候補ベクトルを算出する。
任意の単語ベクトル :例えばベクトル(Tokyo tower)
当該単語に対応するカテゴリ名ベクトル:例えばベクトル(Tokyo)
適用先用途のカテゴリ名 :例えばOsaka
適用先用途のカテゴリ名に対応するカテゴリ名ベクトル
:例えばベクトル(Osaka)
第2の言語体系の候補ベクトル
=ベクトル(Tokyo tower)−ベクトル(Tokyo)+ベクトル(Osaka)
【0057】
[ベクトル距離判定部13]
ベクトル距離判定部13は、第1の候補ベクトルと距離が所定閾値以下となる、第1の言語体系用の単語ベクトルを検索し、第2の候補ベクトルと距離が所定閾値以下となる、第2の言語体系用の単語ベクトルを検索する。
図7によれば、第2の言語体系の候補ベクトルと、単語ベクトル記憶部102のベクトル(Tsutenkaku)との間の距離が所定閾値以下(又は類似度が所定閾値以上)であると判定されている。ここでは、Osakaで、「Tokyo tower」と同じように使われる単語のベクトルとして、ベクトル(Tsutenkaku)が、距離が近いものとして判定されている。
ここで、第2の言語体系の各単語ベクトルは、単語ベクトル記憶部102に記憶された第2の言語体系全ての単語ベクトルとの組み合わせに対して判定する。
ベクトル距離判定部13によって真と判定された第1の言語体系の単語ベクトル及び第2の言語体系の単語ベクトルは、辞書生成部14へ出力される。
【0058】
[辞書生成部14]
辞書生成部14は、ベクトル距離判定部13によって検索された第1の言語体系用の単語ベクトルに対応する表層表現の単語と、第2の言語体系用の単語ベクトルに対応する表層表現の単語とが、対訳として汎用対訳辞書に記憶されている場合にのみ、両方の表層表現の単語を対訳として第2の辞書に追加する。
これによって、第1の言語体系の第1の単語と第2の言語体系の第2の単語とが、ベクトル間距離が近いけれども、対訳として存在しないものを、第2の辞書に登録することがなくなる。即ち、ベクトル間距離が近くて対訳関係が存在するもののみを、第2の辞書に登録することができる。
【0059】
これによって、第2の辞書には、第1の言語体系の表層表現の単語と、第2の言語体系の表層表現の単語とを対応付けて記憶することができる。
【0060】
以上、詳細に説明したように、本発明の辞書生成装置、サーバ、プログラム及び方法によれば、第1の適用用途の辞書から第2の適用用途の辞書を生成することができる。本発明によれば、人手を要することなく、インドメインコーパスやシステム利用ログ等を用いることなく、第1の適用用途の辞書から、既存の一般言語コーパスを用いて、地域や利用分野に応じた辞書を生成することができる。
【0061】
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
【符号の説明】
【0062】
1 辞書生成装置
101 第1の辞書
102 単語ベクトル記憶部
103 辞書ベクトル記憶部
104 第2の辞書
11 カテゴリ名ベクトル検索部
12 候補ベクトル算出部
13 ベクトル距離判定部
14 辞書生成部
図1
図2
図3
図4
図5
図6
図7