特許6281856 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 独立行政法人情報通信研究機構の特許一覧

特許6281856ローカル言語資源の補強装置及びサービス提供設備装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6281856

(24)【登録日】2018年2月2日

(45)【発行日】2018年2月21日

(54)【発明の名称】ローカル言語資源の補強装置及びサービス提供設備装置

(51)【国際特許分類】

G10L 15/06 20130101AFI20180208BHJP

G10L 15/30 20130101ALI20180208BHJP

G10L 15/32 20130101ALI20180208BHJP

【ＦＩ】

G10L15/06 300J

G10L15/30

G10L15/32 220Z

【請求項の数】6

【全頁数】23

(21)【出願番号】特願2012-191972(P2012-191972)

(22)【出願日】2012年8月31日

(65)【公開番号】特開2014-48507(P2014-48507A)

(43)【公開日】2014年3月17日

【審査請求日】2015年7月21日

(73)【特許権者】

【識別番号】301022471

【氏名又は名称】国立研究開発法人情報通信研究機構

(74)【代理人】

【識別番号】100099933

【弁理士】

【氏名又は名称】清水敏

(72)【発明者】

【氏名】志賀芳則

(72)【発明者】

【氏名】大熊英男

(72)【発明者】

【氏名】木村法幸

(72)【発明者】

【氏名】杉浦孔明

(72)【発明者】

【氏名】林輝昭

(72)【発明者】

【氏名】水上悦雄

【審査官】上田雄

(56)【参考文献】

【文献】特開２００６−００３６９６（ＪＰ，Ａ）

【文献】国際公開第２００８／０７２４１３（ＷＯ，Ａ１）

【文献】特開２００３−２９５８９３（ＪＰ，Ａ）

【文献】国際公開第２０１１／１４８５９４（ＷＯ，Ａ１）

【文献】特開２００７−０３３９０１（ＪＰ，Ａ）

【文献】特開２００２−１６２９８９（ＪＰ，Ａ）

【文献】特開平０９−３１９７４９（ＪＰ，Ａ）

【文献】特開２０１１−２３８１７３（ＪＰ，Ａ）

【文献】特開２０１２−０８８３７０（ＪＰ，Ａ）

【文献】特開２００１−２８２７８９（ＪＰ，Ａ）

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ１０Ｌ１５／００−１５／３４

(57)【特許請求の範囲】

【請求項1】

予め準備された言語資源を用いた言語サービスを提供するサービス提供設備装置とオンラインで通信することにより、当該言語サービスを利用するサービス利用手段と、
前記サービス提供設備装置と通信可能でないときに、前記言語サービスと同種のサービスを、前記言語資源よりも規模の小さなローカル言語資源を用いてローカルで実行するためのローカルサービス実行手段と、
前記サービス提供設備装置と通信可能なときに、前記言語サービスへの入力に応じて、前記サービスの提供を受けるためのリクエストを前記サービス提供設備装置に送信するためのリクエスト送信手段と、
前記サービス提供設備装置と通信可能なときに、前記リクエストに応答して前記サービス提供設備装置から送信されてくる前記言語サービスの実行結果に、前記ローカル言語資源の補強用の言語資源が付されていることに応答して、前記受信した言語資源を用いて、前記ローカル言語資源を補強するための言語資源補強手段とを含む、ローカル言語資源の補強装置。

【請求項2】

前記サービス提供設備装置は、前記リクエスト送信手段からのリクエストに応答して、処理対象の言語データを前記言語サービスにより処理した結果と、前記言語資源の内、当該処理の結果を得る過程で使用した言語資源からなる補強用の言語資源とを、ともに、又は別個に、前記ローカル言語資源の補強装置に送信し、
前記言語資源補強手段は、前記サービス提供設備装置と通信可能なときに、前記サービス提供設備装置から送信されてくる前記補強用の言語資源を受信して、前記ローカル言語資源に前記補強用の言語資源を追加するための言語資源追加手段を含む、請求項１に記載のローカル言語資源の補強装置。

【請求項3】

前記ローカル言語資源の補強装置は、さらに、前記サービス提供設備装置と通信可能なときに、前記リクエストの送信とは独立の、指定されたタイミングで、前記ローカル言語資源を前記サービス提供設備装置に送信するためのローカル言語資源送信手段を含む、請求項１又は請求項２に記載のローカル言語資源の補強装置。

【請求項4】

オンラインによる通信を介して、予め準備された言語資源を用いた言語サービスを他の端末装置に対して提供するサービス提供手段と、
前記サービス提供手段によるサービスの実行結果を用いて、他の端末装置でローカルに使用するローカル言語資源を補強するための補強用言語資源を作成するための補強用言語資源作成手段と、
前記他の端末装置と通信可能なときに、前記補強用言語資源作成手段により作成された前記補強用言語資源を前記他の端末装置に送信するための、補強用言語資源送信手段とを含む、サービス提供設備装置であって、
前記ローカル言語資源は、それぞれ互いに区別される複数のデータ項目を含み、
前記補強用言語資源作成手段は、
複数の端末装置から、各端末装置で使用されるローカル言語資源を収集し蓄積するためのローカル言語資源蓄積手段と、
前記ローカル言語資源蓄積手段に蓄積されたローカル言語資源に基づいて、１又は複数の頻出データ項目群を特定するための頻出データ項目群特定手段とを含み、前記１又は複数の頻出データ項目群の各々は、前記ローカル言語資源の各々の内で共起する可能性がしきい値より高い複数のデータ項目からなり、
前記補強用言語資源作成手段はさらに、
前記複数の端末装置の各々について、前記１又は頻出データ項目群の内で当該端末装置から送信されてきたローカル言語資源に一部のデータ項目のみが含まれている頻出データ項目群を特定し、当該頻出データ項目群に基づいて、当該端末装置のための前記補強用言語資源を作成するための手段を含む、サービス提供設備装置。

【請求項5】

前記補強用言語資源作成手段は、さらに、他の端末装置でローカルに使用するローカル言語資源の補強を依頼するリクエストを前記他の端末装置から受信したことに応答して、前記サービス提供手段がサービスを提供する際に使用した部分的な言語資源を用いて前記補強用言語資源を作成するための手段を含む、請求項４に記載のサービス提供設備装置。

【請求項6】

前記作成するための手段は、前記予め準備された言語資源の内で、前記他の端末装置からのリクエストに応答して前記サービス提供手段がサービスを提供する際に使用した部分的な言語資源を一時記憶するための一時記憶手段を含み、
前記補強用言語資源送信手段は、前記サービス提供手段により提供されるサービスの処理結果とともに、前記一時記憶手段に記憶されていた前記部分的な言語資源を送信する、請求項５に記載のサービス提供設備装置。

【発明の詳細な説明】

【技術分野】

【0001】

この発明は、音声認識、自動翻訳等、単語辞書を使用したサービスに関し、特に、音声認識又は自動翻訳の精度を改善するために、ユーザ辞書を補強するための技術に関する。

【背景技術】

【0002】

携帯型の電話機、特に、いわゆるスマートフォンの普及に伴い、さまざまなアプリケーションが出現している。中でも、入力に音声認識を用いるアプリケーションはこれからさらに普及してくるものと思われる。これは、スマートフォンのように小さな装置では、テキストの入力が難しいという事情による。

【0003】

しかし、音声認識をさらに普及させるためには、音声認識の精度をさらに高める必要がある。精度を高めるための１つの方策として、音声認識に用いられる辞書を充実させるという方法がある。音声認識では、原理的に、辞書にない単語を認識することが難しいためである。現在でも、音声認識に限らず、音声に関するデータ処理を行なうシステムは、一般に数万から数十万の語彙を持つ辞書を備えている。

【0004】

一方で、使用頻度の低い語、例えば専門用語、新語、及び流行語等はこうした辞書には登録されていないことが多い。そうした語彙を含む音声をシステムに入力すると、適切な音声処理の結果が得られない。

【0005】

そうした問題に対処するために、一般的に、こうしたシステムには、ユーザが自ら語彙を登録可能なユーザ辞書が備えられている。ユーザがよく使用する語彙をユーザ辞書に登録することにより、処理量の増加を抑えながら、音声処理の精度を高めることができる。

【0006】

同様の問題が自動翻訳においても生ずる。自動翻訳でも、対象となる２つの言語の語彙の対からなる翻訳辞書と、翻訳先の言語の語彙の辞書とについて、ユーザ辞書を設けておくことにより、ユーザの専門分野に関する文の翻訳精度を高めることができる。

【0007】

しかし、現状ではユーザ辞書が十分有効に活用されているとはいえないという問題がある。その原因の１つは、ユーザ辞書への語彙登録のための手続きが煩雑であることである。一部のユーザはユーザ辞書を有効に活用しているが、一般的なユーザがユーザ辞書を活用するためには、ユーザ辞書の補強をより簡易に行なえるようにするか、ユーザによるユーザ辞書登録の作業なしでユーザ辞書を補強できるようにする必要がある。

【0008】

こうした問題を解決するための発明が、後掲の特許文献１に提案されている。特許文献１に開示された音声認識システムの音声認識端末は、基本的には音声認識端末に備えられた音声認識用の辞書を用いて音声認識を行なう。この音声認識に失敗すると、音声認識端末はその音声データを音声認識サーバに送信する。音声認識サーバは、音声認識端末の辞書よりはるかに大きな語彙の音声認識用辞書を用いて音声認識を行ない、結果を音声認識端末に送信する。この音声認識の結果の単語は、元の音声データとともに音声認識用辞書に登録される。したがって、音声認識端末で認識に失敗した単語（通常は音声認識端末の辞書に存在しない単語）が音声認識端末の辞書に追加登録される。特許文献１の開示によれば、この間の処理にユーザが介在することはなく、簡単に音声認識端末の辞書に新たな単語が登録される。

【先行技術文献】

【特許文献】

【0009】

【特許文献1】特開２０１２−８８３７０号公報

【発明の概要】

【発明が解決しようとする課題】

【0010】

しかし、特許文献１に開示されたシステムでは、依然として以下のように解決すべき課題がある。

【0011】

第１に、ユーザによる発話内に出現しない語彙は、音声認識端末の辞書に単語を登録することができないという問題がある。特許文献１は、ユーザによる発話内に出現しない語彙を端末の辞書に登録することについては全く触れていない。

【0012】

第２に、特許文献１に記載の発明は、ユーザの発話内容については全く問題としていない。ユーザの発話がある特定分野に関するものに集中する傾向がある場合、その特定分野以外の語彙をユーザ辞書に登録してもあまり効果を得ることはできない。これは、発話がサーバで処理された場合でも同様である。そのような特定分野に適合した形でユーザ辞書を補強することについては、特許文献１は全く関心を示していない。

【0013】

それゆえに本発明の目的は、端末ごとに、簡単な操作で、かつ言語処理の精度を下げないような態様で、ユーザによる言語処理の要求内容に適合した形で、端末に備えられたローカルな言語処理に用いられるローカル言語資源を補強できる言語資源の補強装置、及びそのような言語資源の補強装置と通信して言語サービスを提供することによりローカル言語資源の補強を実現できるサービス提供設備装置を提供することである。

【課題を解決するための手段】

【0014】

本発明の第１の局面に係るローカル言語資源の補強装置は、予め準備された言語資源を用いた言語サービスを提供するサービス提供設備装置とオンラインで通信することにより、当該言語サービスを利用するサービス利用手段と、言語サービスと同種のサービスを、言語資源よりも規模の小さなローカル言語資源を用いてローカルで実行するためのローカルサービス実行手段と、サービス提供設備装置と通信可能なときに、サービス提供設備装置から送信されてくる補強用の言語資源を用いて、ローカル言語資源を補強するための言語資源補強手段とを含む。

【0015】

好ましくは、ローカル言語資源の補強装置は、サービス提供設備装置と通信可能なときに、サービス提供設備装置に対して、ローカル言語資源の補強を依頼する補強依頼を送信するための補強依頼手段をさらに含む。言語資源補強手段は、補強依頼に応答してサービス提供設備装置から送信されてくる補強用の言語資源を用いて、ローカル言語資源を補強するための手段を含む。

【0016】

さらに好ましくは、補強依頼手段は、サービス提供設備装置と通信可能なときに、サービス提供設備装置に対して、処理対象の言語データとともに当該言語データに対する言語サービスによる処理を要求するための処理要求手段を含む。サービス提供設備装置は、処理要求手段からの処理の要求に応答して、処理対象の言語データを言語サービスにより処理した結果と、言語資源の内、当該処理の結果を得る過程で使用した言語資源からなる補強用の言語資源を、ともに、又は別個に、ローカル言語資源の補強装置に送信する。補強するための手段は、サービス提供設備装置と通信可能なときに、サービス提供設備装置から送信されてくる補強用の言語資源を受信して、ローカル言語資源に補強用の言語資源を追加するための言語資源追加手段を含む。

【0017】

より好ましくは、補強依頼手段は、サービス提供設備装置と通信可能なときに、ローカル言語資源とともに、ローカル言語資源の補強を依頼する補強依頼をサービス提供設備装置に送信するためのローカル言語資源送信手段を含む。補強するための手段は、ローカル言語資源送信手段により送信された補強依頼に応答してサービス提供設備装置から送信されてくる、補強後のローカル言語資源で補強前のローカル言語資源を置換するためのローカル言語資源置換手段を含んでもよい。

【0018】

本発明の第２の局面に係るサービス提供設備装置は、オンラインによる通信を介して、予め準備された言語資源を用いた言語サービスを他のクライアント装置に対して提供するサービス提供手段と、サービス提供手段によるサービスの実行結果を用いて、他の端末装置でローカルに使用するローカル言語資源を補強するための補強用言語資源を作成するための補強用言語資源作成手段と、他の端末装置と通信可能なときに、補強用言語資源作成手段により作成された補強用言語資源を他の端末装置に送信するための、補強用言語資源送信手段とを含む。

【0019】

好ましくは、補強用言語資源作成手段は、他の端末装置でローカルに使用するローカル言語資源の補強を依頼する補強依頼を他の端末装置から受信したことに応答して、サービス提供手段がサービスを提供する際に使用した部分的な言語資源を用いて補強用言語資源を作成するための手段を含む。

【0020】

さらに好ましくは、補強用言語資源作成手段は、予め準備された言語資源の内で、他の端末装置からの依頼に応答してサービス提供手段がサービスを提供する際に使用した部分的な言語資源を一時記憶するための一時記憶手段を含む。補強用言語資源送信手段は、サービス提供手段により提供されるサービスの処理結果とともに、又は別個に、一時記憶手段に記憶されていた部分的な言語資源を他の端末装置に送信するための処理結果送信手段とを含む。

【0021】

好ましくは、ローカル言語資源は、それぞれ互いに区別される１又は複数のデータ項目を含む。補強用言語資源作成手段は、複数の端末装置から、各端末装置で使用されるローカル言語資源を収集し蓄積するためのローカル言語資源蓄積手段と、ローカル言語資源蓄積手段に蓄積されたローカル言語資源に基づいて、共起する可能性がしきい値より高いと判定される１又は複数の頻出データ項目群を特定するための頻出データ項目群特定手段と、複数の端末装置の各々について、１又は複数の頻出データ項目群の内で当該端末装置から送信されてきたローカル言語資源に一部のデータ項目のみが含まれている頻出データ項目群を特定し、特定された頻出データ項目群に基づいて当該端末装置のための補強用言語資源を作成するための手段とを含む。

【発明の効果】

【0022】

以上のように本発明によれば、端末装置は、サービス提供設備装置によりオンラインで提供される言語サービスと同種のアプリケーションを、言語資源よりも規模の小さなローカル言語資源を用いてローカルで実行する。補強依頼手段は、端末装置がサービス提供設備と通信可能なときに、サービス提供設備装置に対して、ローカル言語資源の補強を依頼する補強依頼を送信する。サービス提供設備装置は、この補強依頼を受けると、その端末装置で使用される可能性の高い補強用の言語資源を作成し、端末装置に送信する。端末装置の言語資源補強手段は、この補強用の言語資源を用いて、ローカル言語資源を補強する。

【0023】

端末装置では、補強用の言語資源を入出するために、サービス提供設備装置と通信しそのサービスを利用すればよい。そのために特に複雑な操作が要求されることはない。サービス提供設備装置からは、例えば言語サービスの提供中に得られた情報、又は他のユーザの言語資源と端末装置のユーザの言語資源とに対するデータマイニングを行ない、端末装置で使用される可能性の高い言語資源のデータ項目を補強用の言語資源として作成し、端末装置に送信する。

【0024】

その結果、端末ごとに、簡単な操作で、かつ音声認識の精度を下げないような態様で、ユーザによる言語処理の要求内容に適合した形でローカル言語資源を補強できるローカル言語資源の補強装置、及びそのようなローカル言語資源の補強装置と通信して言語サービスを提供することによりローカル言語資源の補強を実現できるサービス提供設備装置を提供できる。

【図面の簡単な説明】

【0025】

【図1】本発明の第１の実施の形態に係る音声翻訳システムの全体構成を模式的に示す図である。

【図2】図１に示すシステムにおける携帯型端末と音声翻訳サーバとの間の通信シーケンスを模式的に示すシーケンス図である。

【図3】第１の実施の形態のシステムで使用される携帯型端末のハードウェア構成を示すブロック図である。

【図4】第１の実施の形態のシステムで使用される音声翻訳サーバを実現するコンピュータシステムのハードウェア構成を示すブロック図である。

【図5】第１の実施の形態に係るシステムの音声翻訳サーバにおいて、携帯型端末からの音声翻訳のリクエストに応答して音声翻訳サービスを提供するためのプログラムのフローチャートである。

【図6】第１の実施の形態に係るシステムの携帯型端末において、音声翻訳サーバから送信されてパーソナル辞書用の語彙をパーソナル辞書に登録するためのプログラムの制御構造を示すフローチャートである。

【図7】本発明の第２の実施の形態に係る音声翻訳サーバにおいて、携帯型端末と音声翻訳サーバとの間で行なわれる、ユーザ補充辞書を登録又は更新するために行なわれる通信シーケンスを模式的に示すシーケンス図である。

【図8】第２の実施の形態に係るシステムの音声翻訳サーバにおいて、各ユーザのためのパーソナル辞書用語彙集を作成するプログラムの制御構造を示すフローチャートである。

【発明を実施するための形態】

【0026】

以下の説明及び図面では、同一の部品には同一の参照番号を付してある。したがって、それらについての詳細な説明は繰返さない。

【0027】

［第１の実施の形態］
〈概略〉
《全体構成（図１）》
図１を参照して、この発明に係る音声翻訳システム１００は、インターネット１０２に接続された、音声翻訳クライアント装置からの音声翻訳要求に応答して、言語サービスの一種である音声翻訳サービスを提供する設備装置であるサーバ１０６と、インターネット１０２に接続可能で、インターネット１０２を介してサーバ１０６と通信可能であればサーバ１０６により提供される音声翻訳サービスを利用し（図１(A)）、何らかの原因でサーバ１０６と通信することができないときには（図１(B)）ローカルな環境で音声翻訳サービス（以下、これを「ローカル音声翻訳サービス」と呼ぶ。）１１２を実行する機能を持つ携帯型端末１０４とを含む。ローカル音声翻訳サービス１１２は、オンラインでサーバ１０６と通信できないときに、ローカルに音声翻訳サービスを提供する機能と考えることができる。

【0028】

サーバ１０６は、大容量の音声処理用の辞書（大語彙辞書１０８）を用いて音声翻訳サービスを行なう。大語彙辞書１０８は、個々の語彙を現すデータ項目（辞書エントリ）を、互いに区別できる形式で多数記憶している。なお、音声翻訳サービスにおいては、音声認識のための統計的モデルである音響モデル及び自動翻訳のための統計的モデルである翻訳モデルに加え、一般に、ソース言語の音声認識のための単語辞書と、翻訳時の目的言語の単語辞書と、ソース言語及び目的言語の組合せに応じた翻訳辞書と、ターゲット言語の音声合成時の単語辞書とが必要とされる。以下の説明では、主として音声認識用及び音声合成用の単語辞書並びに翻訳辞書について、サーバ１０６が、端末ごと（又はユーザごと）に、ユーザ辞書を補強する処理を行なう場合について説明する。

【0029】

なお、図１(A)において、携帯型端末１０４がサーバ１０６の音声翻訳サービスを利用する場合、以下のような手順で作業が行なわれる。まず、ユーザが発話した音声を携帯型端末１０４からサーバ１０６に翻訳要求とともに送る。サーバ１０６は、この音声に対して大語彙辞書１０８を用いた音声認識を行ない、ソース言語の形態素列を出力する。サーバ１０６はさらに、この形態素列を入力とし、翻訳要求に付された言語ペアの情報にしたがった自動翻訳を行なう。この際、大語彙辞書１０８内のターゲット言語の言語辞書、及び指定された言語ペアの翻訳辞書が使用される。自動翻訳の結果、目的言語の形態素列が得られるので、その形態素列に対する音声合成を行なって合成音声をサーバ１０６から携帯型端末１０４に送信する。この音声合成の際、大語彙辞書１０８内のターゲット言語の音声合成用の単語辞書が使用される。携帯型端末１０４は、この合成音声をスピーカで発声する。

【0030】

図１(B)を参照して、携帯型端末１０４は、ローカル音声翻訳サービス１１２を実行するために用いる、大語彙辞書１０８よりも小さな音声処理用のローカル辞書１１０を内蔵している。ローカル辞書１１０は、互いに区別される語彙を個々のデータ項目として、大語彙辞書１０８のデータ項目数より小さな数のデータ項目を記憶している。この数が大語彙辞書１０８のデータ項目数より小さいのは、携帯型端末１０４のハードウェア上及び性能上の制約による。

【0031】

図１(B)の実施形態では、上記した音声翻訳の過程で、サーバ１０６が携帯型端末１０４のローカル辞書１１０に追加登録すべき単語候補を抽出し、一時的に記憶した後、音声翻訳の結果を送信する際に一緒に携帯型端末１０４に送る。携帯型端末１０４では、受信した単語候補の内、ローカル辞書１１０に存在しないもののみをローカル辞書１１０に追加登録する。これら処理の詳細については後述する。

【0032】

音声認識用辞書の各エントリは、見出し語である単語（又は形態素）と、その見出し語に対する音声認識を機能させるために必要な情報を含む。

【0033】

翻訳用辞書の各エントリは、見出し語である単語（又は形態素）と、その見出し語に対する言語翻訳を機能させるために必要な情報を含む。

【0034】

音声合成用辞書の各エントリは、見出し語である単語（又は形態素）と、その見出し語に対する音声合成を機能させるために必要な情報を含む。

【0035】

─音声翻訳及び辞書登録のシーケンス（図２）─
図２を参照して、音声翻訳システム１００のサーバ１０６により提供される音声翻訳サービスを用いた音声翻訳の際の、携帯型端末１０４とサーバ１０６との間の典型的な通信シーケンスを説明する。ここで、携帯型端末１０４がローカルに保持している言語資源であるローカル辞書１１０は、携帯型端末１０４でローカルに稼動するローカル音声翻訳サービス１１２が使用する、基本的な語彙を収めた基本辞書１３４と、ユーザが独自に語彙を登録できるユーザ辞書１３０とを含む。本実施の形態に係るローカル辞書１１０はさらに、サーバ１０６の機能によって、基本辞書１３４に含まれず、かつユーザ辞書１３０にも含まれない単語であって、サーバ１０６による音声翻訳サービスの過程で使用され一時的に記憶装置に記憶されていた音声認識用、自動翻訳用、及び音声合成用の単語辞書のエントリからなる、ユーザ辞書１３０を補強するためのパーソナル辞書１３２を含む。

【0036】

最初に、携帯型端末１０４において音声入力１５０を行ない、その音声データと、音声翻訳の言語の組合せ等の情報とを含む音声認識リクエストをサーバ１０６に送信する。このリクエストは、本実施の形態では、音声認識の依頼であるとともに、ローカルのユーザ辞書１３０を補強する処理を行なうようサーバ１０６に対して行なわれる補強依頼でもある。

【0037】

サーバ１０６は、音声認識リクエストを受信すると、音声認識処理１５２を行なう。この音声認識の過程で、サーバ１０６は、大語彙辞書１０８の内、音声認識処理１５２により用いられた辞書エントリをパーソナル辞書作成用記憶部３８０（図４参照）に一時的に記録する。続いてサーバ１０６は、音声認識処理１５２により出力されるソース言語の形態素列に対し、ターゲット言語への自動翻訳１５４を行なう。この自動翻訳処理の過程でもサーバ１０６は、大語彙辞書１０８内の音声認識用辞書の、自動翻訳１５４で用いられたエントリをパーソナル辞書作成用記憶部３８０に一時的に記録する。さらにサーバ１０６は、自動翻訳１５４により得られたターゲット言語の形態素列に基づいて、図示しない音声合成用のリソースを用いて音声合成１５６を行なう。この音声合成処理の過程でもサーバ１０６は、大語彙辞書１０８内の音声合成用辞書の、音声合成１５６で用いられたエントリをパーソナル辞書作成用記憶部３８０に一時的に記憶する。最後に、サーバ１０６は、音声認識結果、自動翻訳結果、及び合成音声からなるサービスの利用結果、並びにパーソナル辞書作成用記憶部３８０に一時的に記録されたパーソナル辞書１３２の補強用言語資源である辞書エントリを携帯型端末１０４に送信する（処理１５８）。なお、サーバ１０６においては、自動翻訳１５４による翻訳結果をソース言語に逆翻訳し、その結果の形態素列も携帯型端末１０４に送信する。このように逆翻訳を携帯型端末１０４で表示することにより、ユーザは自分の意図した内容がターゲット言語に翻訳されたか否かを判断できる。ただし、逆翻訳については本発明に直接関係するわけではないので、以下の説明では逆翻訳についての説明は行なわない。

【0038】

サーバ１０６からの音声認識結果、自動翻訳結果、合成音声、及び辞書エントリを受信した携帯型端末１０４は、音声認識と自動翻訳との結果のテキストを画面に表示すると同時に、合成音声をスピーカを用いて発声する（処理１６０）。この音声を携帯型端末１０４のユーザと対話している相手に聞かせることで、ユーザと相手との対話を行なうことができる。

【0039】

さらに、続く処理１６２で、サーバ１０６から受信したソース言語及びターゲット言語の音声認識用及び音声合成用辞書のエントリと、ソース言語及びターゲット言語の組合せに対応する翻訳辞書のエントリとをパーソナル辞書１３２のソース言語及びターゲット言語の音声認識用及び音声合成用辞書、並びにソース言語とターゲット言語との組合せに対応する翻訳辞書に追加する。この処理により、ローカルの言語資源であるユーザ辞書１３０が補強される。ただし、サーバ１０６から送信された辞書エントリの内、既にユーザ辞書１３０又は基本辞書１３４に収められている単語はパーソナル辞書１３２には追加しない。

【0040】

なお、サーバ１０６が送出する辞書エントリの作成及び一時的記憶、並びにクライアント装置への送信は、音声翻訳サービスの提供と同時である必要はなく、どのようなタイミングでもよい。例えば、音声翻訳の履歴をクライアント装置ごとに記録しておき、それら履歴に基づいて辞書エントリを作成し記憶してもよい。エントリの送信も音声翻訳サービス提供と同時である必要はなく、サーバ１０６に保持しておいて何らかのタイミングでクライアント装置に送信してもよい。サーバ１０６において、携帯型端末１０４の基本辞書１３４の語彙が分かっている場合には、処理１５８で携帯型端末１０４に送信する辞書エントリの内、基本辞書に搭載されているエントリを除くようにしてもよい。

【0041】

なお、図２に示したのは典型的な処理シーケンスである。この処理シーケンスと異なるシーケンスであっても、図２に示したものと本質的に同じ通信を同じ順序で含む処理シーケンスであれば、本実施の形態と同じ効果を得ることができることはいうまでもない。ユーザがさらに音声翻訳サービスを利用する場合には、図２のシーケンスが繰返し実行される。

【0042】

なお、クライアント装置は、パーソナル辞書に登録されたエントリを、そのクライアント装置において各エントリが使用された頻度にしたがって自動的に保守する機能を持つものとしてもよい。例えば、パーソナル辞書のエントリごとに、音声翻訳サービスにおいて使用された回数を記憶しておき、パーソナル辞書が肥大化して一定の容量を超えると、使用頻度の低いエントリを消去するようにしてもよい。こうすることで、パーソナル辞書の容量を一定以下に維持することができる。

【0043】

〈ハードウェア構成〉
《携帯型端末１０４（図３）》
図３を参照して、携帯型端末１０４は、所定のプログラムを実行して携帯型端末１０４の各部を制御することにより、種々の機能を実現するためのプロセッサ２５０と、プロセッサ２５０が実行する各種プログラム及びデータを記憶するメモリ２５２と、プロセッサ２５０のための作業記憶領域を提供するＲＡＭ２６２と、プロセッサ２５０と後述する各種センサ等との間のインターフェイス２５４とを含む。以下に説明する構成要素は、いずれも、インターフェイス２５４を介してプロセッサ２５０と通信可能である。

【0044】

携帯型端末１０４はさらに、マイクロフォン２５６、ＧＰＳ機能により携帯型端末１０４の位置の経度及び緯度情報を取得するためのＧＰＳ受信機２５８、各種のセンサ群２６０、無線通信により図示しない基地局を介してインターネット１０２に接続可能な通信装置２７２、タッチパネル２７４、タッチパネル２７４とは別に携帯型端末１０４の筐体に設けられた操作ボタン２７６、及びスピーカ２８０を含む。

【0045】

メモリ２５２は、サーバ１０６と通信可能なときにサーバ１０６が提供する音声翻訳サービスを利用するための音声翻訳クライアントアプリケーションプログラム（以下、「音声翻訳クライアント」と呼ぶ。）３００と、ローカル音声翻訳サービス１１２（図１を参照）を実現するためのアプリケーション群、音響モデル及び翻訳モデル、並びに音声合成のための音響リソース等のローカルプログラム群３０２と、前述したローカル辞書１１０に対応する辞書群３０４と、サーバ１０６との通信によりパーソナル辞書１３２にエントリを追加する処理を実行するパーソナル辞書自動登録プログラム３０６と、ユーザがユーザ辞書１３０を保守するために使用する辞書保守プログラム３０８とを記憶する。

【0046】

《サーバ１０６（図４）》
上記実施の形態に係るサーバ１０６は、コンピュータハードウェアと、そのコンピュータハードウェア上で実行されるコンピュータプログラムとにより実現できる。図４はこのサーバ１０６を構成するコンピュータの内部構成を示す。

【0047】

図４を参照して、サーバ１０６は、ルータ３７６を介してインターネット１０２に接続されるＬＡＮ３７８と、ＬＡＮ３７８に接続され、メモリポート３５２及びＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）ドライブ３５０を有するコンピュータ３４０と、いずれもコンピュータ３４０に接続されたキーボード３４６、マウス３４８、及びモニタ３４２とを含む。サーバ１０６はさらに、コンピュータ３４０に接続されたプリンタを含んでもよい。

【0048】

コンピュータ３４０は、メモリポート３５２及びＤＶＤドライブ３５０に加えて、ＣＰＵ（中央処理装置）３５６と、ＣＰＵ３５６に接続されたバス３６６とを含む。メモリポート３５２及びＤＶＤドライブ３５０もこのバス３６６に接続されている。コンピュータ３４０はさらに、バス３６６に接続され、ブートアッププログラム等を記憶する読出専用メモリ（ＲＯＭ）３５８と、バス３６６に接続され、プログラム命令、システムプログラム、及び作業データ等を一時的に記憶するＲＡＭ３６０とを含む。サーバ１０６はさらに、ＣＰＵ３５６が使用する、音声認識、自動翻訳、音声合成等のためのプログラムと、これらに必要な音響モデル、翻訳モデル、単語辞書、音声合成用の音声素片等の各種データと、コンピュータ３４０のオペレーティングシステムプログラム等を記憶するハードディスク３５４と、コンピュータ３４０に、ＬＡＮ３７８上又はルータ３７６を介してインターネット１０２上の他端末（例えば携帯型端末１０４）との接続を提供するネットワークインターフェイスカード（ＮＩＣ）３６８と、ＨＤＤ３５４に記憶された各種辞書の内、ユーザからの音声翻訳リクエストの処理に参照され使用された辞書エントリを携帯型端末１０４の端末ＩＤと関連付けて一時的に記憶するための、ハードディスク等からなるパーソナル辞書作成用記憶部３８０とを含む。

【0049】

ハードディスク３５４は、音声翻訳サーバの各機能部をサーバ１０６のコンピュータハードウェアにより実現するためのコンピュータプログラム、オペレーティングシステム（ＯＳ）、及び各種モデル等のデータを記憶する不揮発性の補助記憶装置である。このコンピュータプログラムは、ＤＶＤドライブ３５０又はメモリポート３５２にそれぞれ装着されるＤＶＤ３６２又はリムーバブルメモリ３６４に記憶され、さらにハードディスク３５４に転送され記憶される。又は、プログラムはインターネット１０２、ルータ３７６及びＮＩＣ３６８を通じてコンピュータ３４０に送信されハードディスク３５４に記憶されてもよい。上記各実施の形態の装置及び方法を実現するためのプログラム、及び各種のデータは実行の際に適宜ＲＡＭ３６０にロードされる。ＤＶＤ３６２から、リムーバブルメモリ３６４から、又はネットワークを介して、直接にＲＡＭ３６０に各種プログラム及びデータをロードしてもよい。

【0050】

〈ソフトウェア構成〉
《サーバ１０６（図５）》
サーバ１０６で実行される音声翻訳サービスのプログラムの制御構造を図５に示す。音声翻訳サービスの各機能を実現するためのプログラムは，以下のような制御構造を持つ。なお、このプログラムは、コンピュータ３４０を、上記実施の形態に係る音声翻訳サーバの各機能部として機能させるための複数の命令を含む。この動作を行なわせるのに必要な基本的機能のいくつかはコンピュータ３４０上で動作するＯＳ若しくはサードパーティのプログラム、又は、コンピュータ３４０にインストールされる各種プログラミングツールキットのモジュール若しくはフレームワークにより提供される。したがって、このプログラムはこの実施の形態のシステム及び方法を実現するのに必要な命令を必ずしも全て含まなくてよい。このプログラムは、命令の内容にしたがい、所望の結果が得られるように制御されたやり方で適切な機能又はプログラミングツールキット内の適切なプログラムツールを呼出すことにより、上記したシステムとしての機能を実現する命令のみを含んでいればよい。このように、適宜必要な命令又は一連の命令の集合を必要に応じて適宜記憶装置から読出して実行する際のサーバ１０６の動作は周知である。したがってここではその詳細な説明は繰返さない。

【0051】

図５を参照して、このプログラムは、起動後にまず記憶領域の確保、所定変数の値の初期化、通信状態の確認等の初期化処理を行なうステップ４００と、ステップ４００の初期化が完了した後、端末からの音声翻訳リクエストの受信等のイベントを待ち受け、イベントが発生するとイベントの種類に応じて制御の流れを分岐させるステップ４０２とを含む。ステップ４０２で受ける可能性のあるイベントとしては、携帯型端末１０４等からの音声翻訳リクエスト、音声認識結果の修正リクエスト、音声翻訳の条件設定リクエスト等、種々のものがあり得る。ここでは本発明に特に関係のある、音声翻訳リクエストに応答してサーバ１０６が実行する処理部分について説明し、それ以外のリクエストがあったときの処理は図５においてステップ４３０としてまとめて示し、その詳細については説明しない。

【0052】

ステップ４０２で携帯型端末１０４等のクライアント装置から音声翻訳リクエストを受信すると、制御はステップ４０４に進む。音声翻訳リクエストは、翻訳対象となる音声データと、翻訳言語の組合せを示す情報と、端末ＩＤ及びそのアドレス等とを含む。ステップ４０４では、このリクエストがクライアント装置との新たなセッションを開くものか否かを判定する。新たなセッションの場合、サーバ１０６はユニークなセッションＩＤを生成し、そのセッションＩＤと、クライアント装置の端末ＩＤとをＲＡＭ３６０（図４）に保存する（ステップ４０６）。以後、クライアント装置との通信には必ずこのセッションＩＤを使用してクライアント装置を区別する。セッションＩＤと端末ＩＤとを関係付けることにより、各端末に応じた処理をサーバ１０６で管理することが可能になる。セッション管理自体はよく知られた技術であり、説明及び図面を分かりやすくするため、セッション管理についての詳細は以後の説明では行なわない。

【0053】

なお、ここでいう「新規」とは、過去の一定期間内にこの端末ＩＤから音声翻訳リクエスト等がなかったことをいう。セッションＩＤ及び端末ＩＤは、その端末からの通信が所定期間なかったときには自動的に廃棄されるので、その後に同じ端末から音声翻訳リクエストを受信したときには新規のリクエストとして扱われる。

【0054】

この後、ステップ４０８で、リクエストとともに受信した音声データに対し、音声認識プログラムを実行することにより音声認識を行なう。この音声認識のプロセスでは、音声認識結果の語彙を得るために、ソース言語の単語辞書が使用される。音声認識が終了すると、認識結果の形態素列からなるテキストが得られる。

【0055】

ステップ４０８に続くステップ４１０では、音声データと、その認識結果と、音声認識で使用された辞書エントリをパーソナル辞書作成用記憶部３８０に一時的に記憶する。

【0056】

続くステップ４１２では、ステップ４０８で得られた音声認識の結果である形態素列に対し、音声翻訳リクエスト中の設定データにより特定される言語への自動翻訳を実行する。この自動翻訳のプロセスでは、言語の組合せに応じた翻訳辞書と、ターゲット言語の単語辞書とが使用される。

【0057】

ステップ４１２に続くステップ４１４で、ステップ４１２の自動翻訳で使用された辞書エントリをパーソナル辞書作成用記憶部３８０に一時的に記憶する。

【0058】

ステップ４１４に続くステップ４１６では、ステップ４１２の翻訳結果をソース言語に逆翻訳し、翻訳結果の音声を合成する。最終的に、音声認識の結果である形態素列及びその付属情報と、翻訳結果と、逆翻訳結果と、合成音声とが得られる。ステップ４１６に続くステップ４１８において、サーバ１０６は、これらの情報と、パーソナル辞書作成用記憶部３８０に一時的に記録されていた音声認識及び自動翻訳の際に使用された各種辞書の辞書エントリ、並びに辞書の種類及び言語を示す情報とともに、音声翻訳リクエストを送信してきた端末装置に送信して制御をステップ４０２に戻す。なお、ここで送信される辞書エントリは、ほとんどの場合、各辞書について複数存在するが、それらは全て携帯型端末１０４に送信される。

【0059】

ステップ４０２で他のイベントが発生した場合には、制御はステップ４３０に分岐し、そのイベントに対応した処理を実行して制御をステップ４０２に戻す。

【0060】

《携帯型端末１０４（図６）》
携帯型端末１０４で実行される、音声認識クライアントアプリケーションの内、サーバ１０６から音声翻訳結果を受信したときに実行されるルーチン部分の制御構造を図６に示す。音声認識クライアントアプリケーションの内、この部分以外については、本発明とは関係がほとんどないので、ここではその詳細は説明しない。

【0061】

例えば、本実施の形態では、このプログラムを起動するためのアイコンが携帯型端末１０４のタッチパネル画面に表示され、利用者がそのアイコンにタッチすることにより起動される。画面には音声入力を開始又は終了させるボタン、音声翻訳の組合せを設定するためのボタン等が表示されており、それらボタンを押すことにより、ユーザが望む処理に対応したリクエストが、そのリクエストを処理するために必要とされるデータとともにサーバ１０６に送信される。図６に示されるのは、音声翻訳リクエストをサーバ１０６に送信した後、サーバ１０６から音声翻訳結果を受信したときに実行されるルーチン部分である。

【0062】

図６を参照して、このルーチンは、サーバ１０６から受信した音声認識結果のテキスト、自動翻訳結果のテキスト、逆翻訳結果のテキスト、合成音声データ、音声認識用辞書エントリ、及び翻訳用辞書エントリを互いに分離するステップ４５０と、音声認識結果、翻訳結果、及びその逆翻訳結果を携帯型端末１０４の画面に表示するステップ４５２と、自動翻訳結果の合成音声をスピーカ２８０（図３）を駆動して発声するステップ４５４とを含む。スピーカ２８０を合成音声データにしたがって駆動することで、要求した発話の翻訳結果が音声の形で提示される。

【0063】

続いて、サーバ１０６から受信した複数の音声認識用辞書エントリに対して以下に述べる処理を実行するステップ４５６が実行される。

【0064】

ステップ４５６で音声認識用辞書エントリの各々に対して実行される処理は、ローカル辞書１１０の内、音声認識用の単語辞書のいずれかに、処理対象の辞書エントリが存在するか否かを判定するステップ４５８と、ステップ４５８の判定が否定のときに、処理対象の辞書エントリを音声認識用のパーソナル辞書（パーソナル辞書１３２の一部）に追加するステップ４６０とを含む。ステップ４５８の判定が肯定ならその辞書エントリについては何もされない。

【0065】

このプログラムはさらに、サーバ１０６から受信した複数の自動翻訳用辞書エントリに対して以下に述べる処理を実行するステップ４６２を含む。

【0066】

ステップ４６２で各エントリに対して実行される処理は、処理対象の自動翻訳用辞書エントリが、ローカル辞書１１０の内、自動翻訳用辞書のいずれかに存在するか否かを判定するステップ４６４と、ステップ４６４の判定が否定のときに、処理対象の辞書エントリを自動翻訳用のパーソナル辞書（パーソナル辞書１３２の一部）に追加するステップ４６６とを含む。ステップ４６４の判定が肯定の場合には、その辞書エントリについては何も行なわれない。

【0067】

以上が、携帯型端末１０４で実行される、サーバ１０６の音声翻訳サービスを利用するための音声翻訳クライアント３００の内、サーバ１０６から音声翻訳結果と辞書エントリとを受信したときに行なわれるルーチンの制御構造である。

【0068】

〈動作〉
《概要》
─音声翻訳─
携帯型端末１０４等には、図３に示すような音声翻訳クライアント３００を予め配布しておく。本実施の形態では、携帯型端末１０４が接続可能なサーバ１０６は、音声翻訳クライアント３００により固定されているものとする。もちろん、サーバ１０６が複数あるなら、ユーザがそれらの中から所望のものを選択するようにしてもよい。

【0069】

サーバ１０６の音声翻訳サービスを利用しようとする場合のユーザの操作については前述したとおりである。ユーザによる音声入力が終了すると、収録された音声データが、翻訳言語の組合せを示す情報、携帯型端末１０４の端末ＩＤ及びアドレスとともに、音声翻訳リクエストとしてサーバ１０６に送信される。なおこれに先立ち、ユーザは、予め定められた手順で設定画面を呼出し、自分が利用しようとするソース言語とターゲット言語との組合せを選択しておく必要がある。

【0070】

サーバ１０６は、この音声翻訳リクエストを受信すると（図５のステップ４０２）、このセッションが新規か否かを判定し（ステップ４０４）、新セッションのときにはそのセッションのためのユニークなセッションＩＤを生成し、このセッションＩＤと相手の端末の端末ＩＤとを記録する。

【0071】

続いてステップ４０８で、音声認識が行なわれる。この際、ソース言語の音声認識用の単語辞書の辞書エントリが使用される。ステップ４０８に続くステップ４１０において、携帯型端末１０４から受信した音声データと音声認識結果と、どの辞書エントリが使用されたかを示す情報とが端末ＩＤと関連付けられてパーソナル辞書作成用記憶部３８０（図３）に一時的に記録される。

【0072】

続くステップ４１２において、音声翻訳リクエスト中の言語ペア情報にしたがって言語ペアを選択し、その言語ペアに応じた自動翻訳用単語辞書と、ターゲット言語の単語辞書とを用いて自動翻訳をする。ステップ４１４において、自動翻訳結果の形態素列と、自動翻訳用辞書と、ターゲット言語の単語辞書との内で自動翻訳の過程において使用された辞書エントリを示す情報がパーソナル辞書作成用記憶部３８０に一時的に記録される。

【0073】

さらに、ステップ４１６で、翻訳結果に対する逆翻訳と、翻訳結果に関する音声合成とが行なわれる。

【0074】

最後にステップ４１８で、音声認識結果と、翻訳結果と、その逆翻訳と、翻訳結果の合成音声とが携帯型端末１０４に送信される。このとき、ステップ４１０及びステップ４１４でパーソナル辞書作成用記憶部３８０に一時的に記録された情報にしたがい、音声翻訳の処理で使用された各辞書のエントリが、辞書の言語及び種類を示す情報とともに携帯型端末１０４に送信される。

【0075】

ステップ４１８の処理が終了すると、携帯型端末１０４からの音声翻訳リクエストの処理は一旦終了し、サーバ１０６は次のリクエストを待ち受ける状態（ステップ４０２）に戻る。

【0076】

─パーソナル辞書へのエントリの追加─
ステップ４１８でサーバ１０６から送信された情報を受信した携帯型端末１０４は、以下のように動作する。図６を参照して、ステップ４５０，４５２及び４５４により、音声認識結果、翻訳結果、及び逆翻訳を表示し、翻訳結果の合成音声を発声させる。さらに、図６のステップ４５６を実行することにより、サーバ１０６から受信した音声認識用辞書のエントリの内、ローカル辞書１１０中の音声認識用単語辞書（ユーザ辞書１３０、パーソナル辞書１３２及び基本辞書１３４）にないエントリがあれば、そのエントリを追加する。音声認識用単語辞書に既にあるエントリについては何もしない。この処理は、ソース言語の単語辞書と、ターゲット言語の単語辞書の双方について行なう。ステップ４６２において、ローカル辞書１１０中の、自動翻訳の言語ペアに応じた自動翻訳用辞書についても同様の処理を行なう。この後、携帯型端末１０４はユーザによる操作待ちの状態に戻る。

【0077】

以上の処理により、携帯型端末１０４がサーバ１０６と通信可能なときにサーバ１０６の音声翻訳サービスを利用すると、そのとき使用された単語辞書及び翻訳辞書のエントリの内、携帯型端末１０４のローカル辞書１１０内に存在していない辞書エントリが、自動的に、携帯型端末１０４のローカル辞書１１０内の適切なパーソナル辞書１３２に追加される。ユーザにより使用された語句は、その後も繰返して使用される可能性が高い。携帯型端末１０４でローカル音声翻訳サービス１１２を動作させたときには、パーソナル辞書１３２が使用されるので、音声認識及び音声翻訳において、正しい単語が使用される可能性を高められる。その結果、携帯型端末１０４がサーバ１０６と通信できない状態のときに、携帯型端末１０４でローカルに実行される音声翻訳サービスの精度を高めることができる。

【0078】

なお、上記した実施の形態では、音声翻訳のソース言語の単語辞書、言語ペアに応じた翻訳辞書、及びターゲット言語の単語辞書について使用されたエントリをパーソナル辞書１３２に自動的に追加している。しかし、本発明はそのような実施の形態には限定されない。上記した３種類の辞書の全てではなく、一部の辞書についてのみエントリの追加を行なうようにしてもよい。また、サーバ１０６から送信されてきた辞書エントリをパーソナル辞書１３２に追加するに先立って、ユーザにその内容を確認させたり、パーソナル辞書１３２に追加する単語及び追加しない単語を区分させたりしてもよい。

【0079】

［第２の実施の形態］
〈概略〉
上記第１の実施の形態では、携帯型端末１０４とサーバ１０６とが通信可能な状態で、携帯型端末１０４のユーザがサーバ１０６の音声翻訳サービスを利用したときに、サーバ１０６での処理で用いられた辞書エントリを携帯型端末１０４のローカルのパーソナル辞書に登録している。こうすることで、一度使用した語彙が携帯型端末１０４でローカルに利用できる。携帯型端末１０４がサーバ１０６と通信できない場合、携帯型端末１０４のローカル音声翻訳サービスを使用する場合にも、その語彙を使用して処理の精度を高めることができる。

【0080】

しかしこのような方法によると、ユーザによる音声翻訳リクエストの処理に伴って一度使用した語彙でないと、パーソナル辞書には登録されない。ユーザが頻繁にサーバ１０６の音声翻訳サービスを利用し、かつその処理に必要な語彙が広範囲にわたる場合には、携帯型端末１０４のパーソナル辞書も充実することが予測される。しかし、実際にはパーソナル辞書の語彙が十分多くなるほど頻繁に音声翻訳サービスを利用することは難しい。したがって、何らかの方法で携帯型端末１０４にローカルで準備される辞書を、ユーザによる使用頻度が低くても早く充実させる技術があるとより望ましい。以下に説明する第２の実施の形態に係る音声翻訳システムは、そのようなシステムである。

【0081】

《全体構成》
図７を参照して、この第２の実施の形態に係る音声翻訳システム５００は、インターネットを介したオンラインによる音声翻訳サービスを提供する音声翻訳サーバ５０６と、音声翻訳サーバ５０６にインターネットを介して通信可能で、音声翻訳システム５００による音声翻訳サービスを利用する複数の携帯型端末５０４、５０８、及び５１０を含む。携帯型端末５０４、５０８及び５１０は互いに同じハードウェア及び同じソフトウェア構成である必要はないが、いずれにも、音声翻訳サーバ５０６による音声翻訳サービスを利用するための、第１の実施の形態の音声翻訳クライアント３００と同様の音声翻訳クライアントがインストールされている。以下、これら携帯型端末を代表して、携帯型端末５０４を例に、音声翻訳サーバ５０６との間の通信シーケンスについて説明する。

【0082】

この携帯型端末５０４は、第１の実施の形態のものと同様、音声翻訳サーバ５０６と通信可能な場合には音声翻訳サーバ５０６による音声翻訳サービスを利用し、音声翻訳サーバ５０６と通信ができない場合には、携帯型端末５０４にローカルに設けられているリソースを利用してローカル音声翻訳サービスを実行する。そのために携帯型端末５０４には、ローカル辞書５２０が設けられている。ローカル辞書５２０は、音声認識のための辞書、自動翻訳のための辞書、及び音声合成用の辞書を含む。以下の説明では、本実施の形態では、説明を簡潔にするため、音声認識のための辞書と自動翻訳のための辞書と音声合成用の辞書とを特に区別せず、単にローカル辞書と呼ぶ。

【0083】

ローカル辞書５２０は、図７の左上に示すように、当初は、音声翻訳に必要な基本的語彙を含む基本辞書５２２と、ユーザがエントリを登録可能なユーザ辞書５２４とを含む。しかし、本実施の形態に係る処理を実行することにより、図７の左下に示すように、ローカル辞書５２０には、基本辞書５２２及びユーザ辞書５２４に加え、ユーザ辞書５２４にも基本辞書５２２にも登録されていない単語であって、このユーザが使用する可能性の高い語彙を収録したユーザ補充辞書５５４を含むようになる。このユーザ補充辞書５５４は、携帯型端末５０４を含め、多くの携帯型端末５０８及び５１０等のユーザ辞書を集積し、携帯型端末５０４のユーザ辞書５２４に収録されている語彙を手がかりに、データマイニングの手法を用いて、今後携帯型端末５０４で使用される可能性の高い語彙を、集積されたユーザ辞書の語彙中から抽出して作成する。データマイニング手法は、最近のインターネットを経由した通信販売等でよく使用される手法である。例えばあるユーザが購入した履歴と、他のユーザの購入履歴とを比較して、そのユーザがさらに購入する可能性の高い物品をそのユーザに推薦したりするときに使用される。

【0084】

データマイニング手法としては、種々のものが存在している。本実施の形態では、その中でも頻出パターンマイニング法を用いる。以下、図７を参照して全体のデータの流れを述べ、その後に図８を参照して音声翻訳サーバ５０６におけるユーザ補充辞書の作成のためのソフトウェア構成について述べる。

【0085】

図７を参照して、携帯型端末５０４は、あるタイミングでユーザ辞書５２４を音声翻訳サーバ５０６に送信する（ステップ５３０）。この送信は、例えばユーザがユーザ補充辞書を入手又は更新したいと考えたときにある処理を呼出すことにより行なってもよいし、一定の周期（例えば１ヶ月に１回）という周期で行なってもよい。携帯型端末５０４が自発的にユーザ辞書５２４を音声翻訳サーバ５０６に送るのではなく、音声翻訳サーバ５０６の側から、音声翻訳サーバ５０６を過去に利用した携帯型端末５０４に対してユーザ辞書５２４を送るように定期的に要求してもよい。

【0086】

同様の処理が携帯型端末５０４のみならず、携帯型端末５０８、５１０等についても行なわれる。音声翻訳サーバ５０６には、このようにして多数の携帯型端末のユーザ辞書が常に集積された状態となる（ステップ５３２）。ある携帯型端末から再びユーザ辞書が送信されてきた場合には、その携帯型端末からの古いユーザ辞書を新しい辞書で置換するようにする。

【0087】

なお、携帯型端末からユーザ辞書を集めるタイミングは互いに異なっていることが通常である。同じ時期に全ての携帯型端末からユーザ辞書を音声翻訳サーバ５０６に送信する必要はない。

【0088】

このように集積されたユーザ辞書を保持すると、音声翻訳サーバ５０６は、定期的（例えば日に１回）に、集積データを頻出パターンマイニング法を用いて解析する（ステップ５３４）。この手法を実現するソフトウェア構成については後述する。この頻出パターンマイニング法では、ある単語と、その単語と同じユーザ辞書に登録されている単語（すなわち、同一の辞書内に共起する単語ペア）とのペアの内、頻度が高いもののリストが抽出される。抽出された単語ペアを、頻出単語ペアと呼ぶ。

【0089】

さらに、頻出パターンマイニング法を用いて得られた解析結果を用い、音声翻訳サーバ５０６は、携帯端末ごとにユーザ補充辞書５５４に登録すべき補充単語を特定する（ステップ５３６）。具体的には、音声翻訳サーバ５０６は、頻出パターンマイニング法により抽出された頻出単語ペアの内、そのユーザ辞書に一方の単語のみが登録されているものを探し出す。そして、その頻出単語ペアの他方の単語をその携帯型端末の辞書のための補充単語として選択する。この補充単語の集合は、対象となったユーザ辞書を送信してきた携帯型端末の端末ＩＤとともに保存される。

【0090】

次に、何らかのタイミングで携帯型端末５０４がユーザ補充辞書の送信リクエストを音声翻訳サーバ５０６に対して送る（ステップ５５０）。この送信リクエストは、例えばユーザによる指示に基づくものでもよいし、ステップ５３０でユーザ辞書を音声翻訳サーバ５０６に送信してから所定時間（例えば１日）が経過した後に自動的に送信するようにしてもよい。

【0091】

音声翻訳サーバ５０６は、この送信リクエストを受信すると、携帯型端末５０４の端末ＩＤに対応する補充単語群を記憶装置から読出し、携帯型端末５０４に送信する（ステップ５３８）。

【0092】

この補充単語群を受信した携帯型端末５０４は、補充単語群からなるユーザ補充辞書をローカル辞書５２０中に生成する（ステップ５５２）。既に古いユーザ補充辞書がローカル辞書５２０内にある場合には、新たなユーザ補充辞書で古い辞書を書換える。

【0093】

〈ソフトウェア構成〉
携帯型端末５０４で実行される処理はいわゆる当業者であれば容易に実現できる。したがってここでは、音声翻訳サーバ５０６において実行される処理の内、図７のステップ５３４及び５３６を実現するプログラムの制御構造について説明する。

【0094】

《サーバ》
以下の説明では、音声翻訳サーバ５０６に既に多数のユーザ辞書が集積されていることを前提とする。図８を参照して、音声翻訳サーバ５０６で実行される、ユーザ補充辞書のための単語を抽出するプログラムは、頻出パターンマイニング法により、集積されたユーザ辞書内で頻出する単語ペア（頻出単語ペア）を抽出するステップ５３４と、ステップ５３４で抽出された頻出単語ペアの中から、携帯端末ごとに補充辞書のための単語の集合を特定するステップ５３６とを含む。

【0095】

ステップ５３４は、全ユーザ辞書について、語彙ペアの組合せを全て抽出し、それらの出現頻度（語彙ペアを構成する単語が同じ辞書内に存在する頻度）を調べるステップ５７０と、ステップ５７０で抽出された語彙ペアの内、出現頻度が所定のしきい値未満の語彙ペアを削除するステップ５７２とを含む。ここでのしきい値は、全ユーザ辞書に含まれる単語数によって異なってくるため、一律に定めるのは難しい。ここではむしろ、しきい値を決めてからそのようなしきい値を充足する出現頻度の単語ペアを求めるのではなく、抽出されるべき単語ペアの最大個数を携帯型端末５０４で利用可能な記憶容量との比較で予め決め、そのような数の単語ペアが求められるようにしきい値を求める、いわゆる「top-K頻出集合発見」法を用いる。この方法を用いることで、処理時間は多少長くなるが比較的効率よく単語ペアを特定できる。このtop-K頻出集合発見法については、次に記載の参考文献１を参照されたい。

【0096】

［参考文献１］
宇野毅明、有村博紀、頻出パターン発見アルゴリズム入門 ─アイテム集合からグラフまで─、人工知能学会全国大会論文集（ＣＤ−ＲＯＭ）、第２２巻、２２ｎｄ３Ｍ１−０１、２００８年

【0097】

ステップ５３６は、音声翻訳サーバ５０６に蓄積されているユーザ辞書の各々について、以下の処理を繰返すステップ５８０を含む。

【0098】

ステップ５８０の処理は、補充単語を記憶するための作業領域をクリアするステップ５８２と、ステップ５３４で抽出された語彙ペアの各々に対し、その語彙ペアの一方の語彙のみがそのユーザ辞書に登録されているときに、他方の語彙をそのユーザ辞書のための補充語彙として作業領域に保存する処理を繰返して行なうステップ５８４と、ステップ５８４で作業領域に保存された語彙群を、処理対象のユーザ辞書を送信してきた端末の端末ＩＤと関連付けて記憶装置に保存するステップ５９０とを含む。

【0099】

ステップ５８４は、処理対象の語彙ペアの一方語彙のみが処理対象のユーザ辞書に登録されているか否かを判定するステップ５８６と、ステップ５８６の判定が肯定であるときに、処理対象の語彙ペアの他方語彙を作業領域に追加するステップ５８８とを含む。ステップ５８６での判定は、語彙ペアを構成する各語彙と、音声翻訳サーバ５０６に記憶されているユーザ辞書内の語彙とを比較することにより行なえる。

【0100】

〈動作〉
図７を参照して、携帯型端末５０４をはじめとして、携帯型端末５０８、５１０等は、各々、ユーザ辞書をそれぞれのタイミングで音声翻訳サーバ５０６に送信する（ステップ５３０）。音声翻訳サーバ５０６は、ユーザ辞書が送信されてくるたびにそれを記憶装置に一時的に蓄積する（ステップ５３２）。既にユーザ辞書を送信してきた携帯型端末から重ねてユーザ辞書が送信されてきたときには、音声翻訳サーバ５０６は、古い辞書を新しい辞書で置換する。

【0101】

例えば１日に一度、音声翻訳サーバ５０６は集積されたユーザ辞書のデータを、頻出パターンマイニング法を用いて処理し、予め決められた個数の頻出語彙ペア（出現頻度が上位から予め決められた個数の語彙ペア）を抽出する（ステップ５３４）。具体的には、図８のステップ５７０及び５７２を実行する。

【0102】

続いて音声翻訳サーバ５０６は、集積されたユーザ辞書の各々について、以下の処理を実行する。まず作業領域をクリアする（図８のステップ５８２）。ステップ５３４で抽出された所定個数の頻出語彙ペアの各々について、その語彙ペアを構成する語彙の内一方のみが処理対象のユーザ辞書に登録されていれば（ステップ５８６でＹＥＳ）その語彙を作業領域に追加し（ステップ５８８）、語彙ペアを構成する双方の語彙が処理対象のユーザ辞書に登録されていないか、双方とも登録されている場合には何もしない。こうした処理を繰返すことにより、処理対象のユーザ辞書に対して補充すべき語彙が作業領域に蓄積される。

【0103】

全ての頻出語彙ペアに対する処理が終了すると、音声翻訳サーバ５０６は、作業領域に蓄積されていた語彙集を作業対象のユーザＩＤに対応する端末ＩＤと関連付けて記憶装置に保存する（ステップ５９０）。

【0104】

音声翻訳サーバ５０６は、上記したステップ５８０，５８２，５８４及び５９０の処理を全てのユーザ辞書に対して実行する。したがってステップ５３８が終了した時点では、ユーザ辞書を送信してきた全ての携帯型端末に対し、ユーザ辞書に補充すべき語彙の集合が、端末ＩＤと関連付けて音声翻訳サーバ５０６の記憶装置に保存されていることになる。

【0105】

再び図７を参照して、あるタイミングで携帯型端末５０４が補充辞書を要求すると（ステップ５５０）、音声翻訳サーバ５０６は、携帯型端末５０４の端末ＩＤと関連付けて記憶装置に保存されていた補充単語群を携帯型端末５０４に送信する（ステップ５３８）。これを受けた携帯型端末５０４は、送信されてきた補充単語群で新たなユーザ補充辞書５５４を作成し、ローカル辞書５２０中に保存する。もしも既にローカル辞書５２０中にユーザ補充辞書５５４が存在している場合には、携帯型端末５０４は、古いユーザ補充辞書５５４を新しい語彙からなるユーザ補充辞書で置換する。

【0106】

《実施の形態の効果》
この第２の実施の形態によれば、多数のユーザ辞書が音声翻訳サーバ５０６により集積され、その中から頻出単語ペアが抽出される。各ユーザ辞書について、頻出単語ペアの内、一方の語彙のみが登録されているときには、他方の語彙も補充辞書に登録される。そうでないときには補充辞書には語彙は登録されていない。したがって、ユーザ辞書に登録されている語彙とともに辞書に登録される可能性の高い語彙であって、まだユーザ辞書に登録されていない語彙がユーザ補充辞書に登録される。ユーザが音声翻訳サービスの利用時に使用したことのない語彙であっても、ユーザ補充辞書に登録されることになり、ユーザ辞書を効率よく補強できる。さらに、多数のユーザ辞書を集積した結果から頻出単語ペアを抽出するため、ユーザが今までに使用した語彙の範囲に限定されることなく、今後使用する可能性のある単語を効率よく補充できる。さらに、音声翻訳サーバ５０６に対してユーザ補充辞書の更新を依頼するたびにユーザ補充語彙が増加していくため、ユーザ辞書を補強する速度を速めることができる。

【0107】

なお、頻出パターンマイニングは、上記した手法以外にもアプリオリ法、ＦＰ−ｇｒｏｗｔｈ法、相関ルール等を用いて実現することもできる。要するに、この実施の形態は、多数の端末から収集したユーザ辞書データを用いて、特定の端末のユーザ辞書に補充すべき語彙を決定するものであって、そのためのデータ解析の方法としては、ユーザ辞書に登録されている単語と一緒にユーザ辞書に登録される可能性が高い単語を見つけることができる方法ならどのような方法でもよい。

【0108】

［可能な変形例］
第１の実施の形態では、ユーザ辞書ではなくパーソナル辞書に語彙を自動的に登録している。また、第２の実施の形態でも、ユーザ辞書とは別のユーザ補充辞書の語彙を抽出している。しかし本発明はそのような実施の形態に限定されるわけではない。ユーザ辞書と別の辞書ではなく、ユーザ辞書そのものに語彙を追加するようにしてもよい。ただしこの場合、ユーザが意識的に追加した単語との区別ができなくなるため、できれば両者を区別する方策を採ることが望ましい。また、第１の実施の形態におけるパーソナル辞書内の語彙を対象として、第２の実施の形態における語彙補強を適用してもよい。さらに、第１の実施の形態で自動的に語彙が登録される辞書をパーソナル辞書と呼び、第２の実施の形態において自動的に語彙が集積される辞書をユーザ補充辞書と呼んでいる。しかしこれらは単に辞書の名称にすぎず、他の名前を使用してもよいことはいうまでもない。

【0109】

第２の実施の形態では、複数の携帯型端末が単独のサーバを使用してユーザ補充辞書の作成を依頼している。しかし本発明はそのような実施の形態には限定されない。サーバを複数設け、各サーバでは別々の携帯型端末のユーザ補充辞書を作成するようにしてもよい。この場合、各サーバで集積したユーザ辞書データをサーバ同士で共有するようにすれば、語彙の補充という意味ではさらに好ましい。ただし、集積されたユーザ辞書の数があまりに多くなったり、各ユーザ辞書に登録されている語彙があまりに多くなったりすると、サーバでの処理時間に影響する。したがって、各サーバが処理する携帯型端末の数を制限してもよい。

【0110】

第２の実施の形態ではさらに、蓄積されたユーザ辞書データの中で頻出単語ペアをデータマイニングにより抽出している。しかし本発明はそのような実施の形態には限定されない。例えば頻出単語ペアではなく、３つの単語の組で頻出するもの、又は４つ以上の単語の組で頻出するものを抽出するようにしてもよい。

【0111】

上記実施の形態の説明では、使用する言語を特に限定していないが、最初に述べたように、翻訳の際の言語の組合せを指定できるようにしてもよいことはもちろんである。その場合、上記した辞書は、単語辞書については言語ごとに設けられ、翻訳辞書については各言語の組合せとその翻訳方向とに応じて設ける必要があり、その各々について上記した処理を実装する必要がある。

【0112】

上記実施の形態では、音声翻訳サービスを例にしている。しかし本発明はそうしたサービスに限定されるわけではない。例えば音声認識による入力を単独でオンラインにより提供するサービス、テキスト入力に基づくオンラインの翻訳サービス等についても本発明を適用できる。すなわち、本発明が適用可能な言語サービスは、音声を使用するものには限定されない。オンラインでサーバにより提供されるサービスと、端末でローカルに実行する同種のアプリケーションとを切替えて利用できるような言語サービスであり、かついわゆる辞書を利用するサービスであればどのようなものにも適用できる。

【0113】

上記実施の形態では、クライアント装置から何らかの形でローカル辞書の補強依頼があったときに、サーバがローカル辞書の補強用情報を作成してクライアント装置に送信している。しかし本発明はそのような実施の形態には限定されず、ローカルで使用する言語資源を補強するための情報を、サーバで提供しているサービスの結果を用いて作成するようなものであれば、クライアント装置からの要求なしで、サーバからプッシュ型でクライアント装置に配信するようなシステムにも適用できる。

【0114】

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。

【符号の説明】

【0115】

１００、５００音声翻訳システム
１０４、５０４，５０８，５１０携帯型端末
１０６、５０６サーバ
１０８大語彙辞書
１１０、５２０ローカル辞書
１３０、５２４ユーザ辞書
１３２パーソナル辞書
１３４、５２２基本辞書
２５０プロセッサ
２５２メモリ
３５６ＣＰＵ
３６０ＲＡＭ
３８０パーソナル辞書作成用記憶部
５５４ユーザ補充辞書

【図1】