(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022117376
(43)【公開日】2022-08-10
(54)【発明の名称】音声認識プログラム及び音声認識装置
(51)【国際特許分類】
G10L 15/06 20130101AFI20220803BHJP
【FI】
G10L15/06 400V
【審査請求】未請求
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2021060947
(22)【出願日】2021-03-31
(31)【優先権主張番号】P 2021013495
(32)【優先日】2021-01-29
(33)【優先権主張国・地域又は機関】JP
(71)【出願人】
【識別番号】000000011
【氏名又は名称】株式会社アイシン
(74)【代理人】
【識別番号】110000534
【氏名又は名称】弁理士法人真明センチュリー
(72)【発明者】
【氏名】中村 正樹
(57)【要約】
【課題】音声認識のレスポンスを向上できる音声認識プログラム及び音声認識装置を提供すること。
【解決手段】発音文字列Tpの文字数毎のM文字辞書データSdM(1~10文字辞書データSd3~10)が設けられ、入力文字列TiNの文字数と一致したM文字辞書データSdMからそれぞれの語句Wが検索される。入力文字列TiNの文字数と一致したM文字辞書データSdMで語句Wを検索することで、入力文字列TiNの文字数と一致しない文字数の発音文字列Tpとの比較が省略でき、語句Wを迅速に取得できる。発音文字列Tpや入力文字列TiNの文字数は容易に取得可能なので、変換辞書データSdの作成や入力文字列TiNの文字数に一致するM文字辞書データSdMの取得を迅速に行うことができる。これらにより、ユーザHが音声Vを入力してから該当する語句Wが表示されるまでをレスポンス良く実行できる。
【選択図】
図2
【特許請求の範囲】
【請求項1】
記憶部を備えたコンピュータに、音声認識処理を実行させる音声認識プログラムであって、
前記記憶部を、発音文字列とその発音文字列に対応する語句との組み合わせによる辞書データであって、前記発音文字列の特徴量毎に分けられた複数の変換辞書データを記憶する変換辞書記憶手段として機能させ、
入力された音声をその発音を表す入力文字列に変換する音声変換ステップと、
その音声変換ステップで変換された入力文字列の特徴量を取得する特徴量取得ステップと、
前記変換辞書記憶手段から前記特徴量取得ステップで取得された特徴量に該当する変換辞書データを取得する辞書取得ステップと、
その辞書取得ステップで取得された変換辞書データから前記音声変換ステップで変換された入力文字列に該当する語句を検索する検索ステップと、
その検索ステップで検索された語句を出力する出力ステップと、
を備えていることを特徴とする音声認識プログラム。
【請求項2】
前記音声変換ステップは、入力された音声をその発音を表す文字列に変換し、その文字列を単語毎に分解したものを入力文字列とし、
前記特徴量取得ステップは、前記音声変換ステップで変換され、単語毎に分解された入力文字列のそれぞれの特徴量を取得し、
前記辞書取得ステップは、前記変換辞書記憶手段から、前記特徴量取得ステップで取得された単語毎に分解された入力文字列のそれぞれの特徴量に該当する変換辞書データをそれぞれ取得し、
前記検索ステップは、前記辞書取得ステップで取得されたそれぞれの変換辞書データから、前記音声変換ステップで変換された単語毎に分解された入力文字列のそれぞれに該当する語句を検索するものであることを特徴とする請求項1記載の音声認識プログラム。
【請求項3】
前記特徴量は、前記発音文字列または前記入力文字列の文字数であることを特徴とする請求項1又は2に記載の音声認識プログラム。
【請求項4】
前記特徴量は、前記発音文字列または前記入力文字列の先頭文字であることを特徴とする請求項1から3のいずれかに記載の音声認識プログラム。
【請求項5】
前記特徴量は、前記発音文字列または前記入力文字列の文字数と先頭文字との組み合わせであることを特徴とする請求項1又は2に記載の音声認識プログラム。
【請求項6】
発音文字列とその発音文字列に対応する語句との組み合わせによる辞書データであって、前記発音文字列の特徴量毎に分けられた複数の変換辞書データを記憶する変換辞書記憶手段と、
音声を入力する音声入力手段と、
その音声入力手段で入力された音声をその発音を表す入力文字列に変換する音声変換手段と、
その音声変換手段で変換された入力文字列の特徴量を取得する特徴量取得手段と、
前記変換辞書記憶手段で記憶された変換辞書データのうち、前記特徴量取得手段で取得された特徴量に該当する変換辞書データを取得する辞書取得手段と、
その辞書取得手段で取得された変換辞書データから前記音声変換手段で変換された入力文字列に該当する語句を検索する検索手段と、
その検索手段で検索された語句を出力する出力手段と、
を備えていることを特徴とする音声認識装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認識プログラム及び音声認識装置に関するものである。
【背景技術】
【0002】
特許文献1には、語句の種別(住所、施設名、電話番号等)毎に認識辞書が設けられ、入力された音声を、予めユーザが選択している語句の種別に該当する認識辞書で検索することで音声認識を行う技術が開示されている。具体的に、認識辞書には、仮名文字やアルファベット等による発音を表記する文字列(以下「発音文字列」という)と、その発音文字列に対応する語句とが記憶されている。入力された音声を文字列に変換した入力文字列を認識辞書の発音文字列で検索することで、該当する語句が取得される。認識辞書を語彙の種別毎に設けることで、全ての種別の語彙の発音文字列および語句を1つの認識辞書に記憶するよりも発音文字列および語句の数を抑制できるので、検索に要する時間を短縮できる。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2006-162782号公報(例えば、段落0012-0015,0033-0037,
図1,4,5)
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、認識辞書は語句の種別毎に構成される一方で、その認識辞書には語句に応じた様々な発音文字列が記憶される。例えば、5文字の入力文字列に対し、認識辞書には語句に応じた2文字や3文字等の様々な文字数の発音文字列が記憶されるので、検索においては入力文字列と文字数が同一の発音文字列との参照に加え、入力文字列と文字数の異なる発音文字列とも参照しなければならない。これによって検索に時間を要し、音声認識のレスポンスが低下する虞があるという問題点があった。
【0005】
本発明は、上述した問題点を解決するためになされたものであり、音声認識のレスポンスを向上できる音声認識プログラム及び音声認識装置を提供することを目的としている。
【課題を解決するための手段】
【0006】
この目的を達成するために本発明の音声認識プログラムは、記憶部を備えたコンピュータに、音声認識処理を実行させるプログラムであって、前記記憶部を、発音文字列とその発音文字列に対応する語句との組み合わせによる辞書データであって、前記発音文字列の特徴量毎に分けられた複数の変換辞書データを記憶する変換辞書記憶手段として機能させ、入力された音声をその発音を表す入力文字列に変換する音声変換ステップと、その音声変換ステップで変換された入力文字列の特徴量を取得する特徴量取得ステップと、前記変換辞書記憶手段から前記特徴量取得ステップで取得された特徴量に該当する変換辞書データを取得する辞書取得ステップと、その辞書取得ステップで取得された変換辞書データから前記音声変換ステップで変換された入力文字列に該当する語句を検索する検索ステップと、その検索ステップで検索された語句を出力する出力ステップと、を備えている。
【0007】
また本発明の音声認識装置は、発音文字列とその発音文字列に対応する語句との組み合わせによる辞書データであって、前記発音文字列の特徴量毎に分けられた複数の変換辞書データを記憶する変換辞書記憶手段と、音声を入力する音声入力手段と、その音声入力手段で入力された音声をその発音を表す入力文字列に変換する音声変換手段と、その音声変換手段で変換された入力文字列の特徴量を取得する特徴量取得手段と、前記変換辞書記憶手段で記憶された変換辞書データのうち、前記特徴量取得手段で取得された特徴量に該当する変換辞書データを取得する辞書取得手段と、その辞書取得手段で取得された変換辞書データから前記音声変換手段で変換された入力文字列に該当する語句を検索する検索手段と、その検索手段で検索された語句を出力する出力手段と、を備えている
【発明の効果】
【0008】
請求項1記載の音声認識プログラムによれば、発音文字列とその発音文字列に対応する語句との組み合わせによる辞書データであって、発音文字列の特徴量毎に分けられた複数の変換辞書データが記憶される。そして入力された音声の発音を表す入力文字列からその特徴量が取得され、その取得された特徴量に該当する変換辞書データが取得される。そして、取得された変換辞書データから入力文字列に該当する語句が取得され、その取得された語句が出力される。
【0009】
即ち語句の検索に用いられる変換辞書データには、入力文字列と共通する特徴量の発音文字列とその語句とが記憶されるので、当該変換辞書データには入力文字列に類似する発音文字列のみが記憶される。これにより、当該変換辞書データから入力文字列に該当する発音文字列の語句を迅速に検索できるので、音声認識のレスポンス向上できるという効果がある。
【0010】
請求項2記載の音声認識プログラムによれば、請求項1記載の音声認識プログラムの奏する効果に加え、次の効果を奏する。入力された音声が単語毎に分解された入力文字列に変換され、その単語毎に分解された入力文字列のそれぞれの特徴量が取得される。そして、取得された単語毎に分解された入力文字列のそれぞれの特徴量に該当する変換辞書データがそれぞれ取得され、その取得されたそれぞれの変換辞書データから単語毎に分解された入力文字列のそれぞれに該当する語句が検索される。
【0011】
即ち単語毎に分解された入力文字列の特徴量がそれぞれ取得され、その取得されたそれぞれの特徴量に該当する変換辞書データから語句が検索されるので、複数の単語が含まれる入力文字列をそのまま変換辞書データで検索する場合と比較して、きめ細く且つ精度の高い語句の出力が可能となるという効果がある。
【0012】
請求項3記載の音声認識プログラムによれば、請求項1又は2に記載の音声認識プログラムの奏する効果に加え、次の効果を奏する。特徴量が発音文字列または入力文字列の文字数とされる。これによって、変換辞書データが発音文字列の文字数に応じて記憶される。そして、入力文字列の文字数が取得され、その取得された文字数に該当する変換辞書データが取得され、語句の検索に用いられる。
【0013】
これにより、入力文字列の文字数に一致しない発音文字列の変換辞書データによる語句の検索を省略できるので、入力文字列に該当する語句を迅速に検索できる。また、入力文字列または発音文字列の文字数は、複雑な解析をすることなく容易に取得できるので、入力文字列の特徴量(文字数)に該当する変換辞書データの取得を迅速に行うことができる。これらにより、音声認識のレスポンスを向上できるという効果がある。
【0014】
請求項4記載の音声認識プログラムによれば、請求項1から3のいずれかに記載の音声認識プログラムの奏する効果に加え、次の効果を奏する。特徴量が発音文字列または入力文字列の先頭文字とされる。これによって、変換辞書データが発音文字列の先頭文字に応じて記憶される。そして、入力文字列の先頭文字が取得され、その取得された先頭文字に該当する変換辞書データが取得され、語句の検索に用いられる。
【0015】
これにより、入力文字列の先頭文字に一致しない発音文字列の変換辞書データによる語句の検索を省略できるので、入力文字列に該当する語句を迅速に検索できる。また、入力文字列または発音文字列の先頭文字は、複雑な解析をすることなく容易に取得できるので、入力文字列の特徴量(先頭文字)に該当する変換辞書データの取得を迅速に行うことができる。これらにより、音声認識のレスポンスを向上できるという効果がある。
【0016】
請求項5記載の音声認識プログラムによれば、請求項1又は2に記載の音声認識プログラムの奏する効果に加え、次の効果を奏する。特徴量が発音文字列または入力文字列の文字数と先頭文字との組み合わせとされる。これによって、変換辞書データが発音文字列の文字数と先頭文字との組み合わせに応じて記憶される。そして、入力文字列の文字数と先頭文字との組み合わせが取得され、その取得された文字数と先頭文字との組み合わせに該当する変換辞書データが取得され、語句の検索に用いられる。
【0017】
これにより、入力文字列の文字数および先頭文字に一致しない発音文字列の変換辞書データによる語句の検索を省略できるので、入力文字列に該当する語句を迅速に検索することができる。更に、特徴量を文字数と先頭文字との組み合わせとすることで、特徴量を文字数のみや特徴量を先頭文字のみとした場合と比較して、変換辞書データに記憶される発音文字列およびその語句の数を少なくすることができる。これによっても、入力文字列に該当する語句を迅速に検索できる。
【0018】
また、入力文字列または発音文字列の文字数および先頭文字は、複雑な解析をすることなく容易に取得できるので、入力文字列の特徴量(文字数と先頭文字との組み合わせ)に該当する変換辞書データの取得を迅速に行うことができる。これらにより、音声認識のレスポンスを向上できるという効果がある。
【0019】
請求項6記載の音声認識装置によれば、請求項1記載の音声認識プログラムと同様の効果を奏する。
【図面の簡単な説明】
【0020】
【
図2】(a)は、全辞書データからの変換辞書データの作成を模式的に表した図であり、(b)は、変換辞書データを用いた入力文字列の置き換えを模式的に表した図である。
【
図3】携帯端末の電気的構成を示すブロック図である。
【
図4】(a)は、音声処理のフローチャートであり、(b)は、変換辞書データ作成処理のフローチャートである。
【
図6】(a)は、第2実施形態における全辞書データからの変換辞書データの作成を模式的に表した図であり、(b)は、第2実施形態における変換辞書データを用いた入力文字列の置き換えを模式的に表した図である。
【
図7】第2実施形態の携帯端末の電気的構成を示すブロック図である。
【
図8】(a)は、第2実施形態の変換辞書データ作成処理のフローチャートであり、(b)は、第2実施形態の辞書適用処理のフローチャートである。
【発明を実施するための形態】
【0021】
以下、本発明の好ましい実施形態について、添付図面を参照して説明する。まず、
図1を参照して、本実施形態における携帯端末1の構成を説明する。
図1は、携帯端末1の外観図である。携帯端末1は、ユーザHが発する発話を音声認識する情報処理装置(コンピュータ)である。携帯端末1では、音声Vが入力可能に構成され、入力された音声Vをその発音を表す文字列である入力文字列Tiに変換する。変換された入力文字列Tiを
図2で後述の変換辞書データSdに参照することで、入力文字列Tiを適切な語句Wに置き換えてLCD16(
図3参照)に表示する。
【0022】
次に、
図2を参照して変換辞書データSd及び変換辞書データSdを用いた入力文字列Tiの置き換えを説明する。
図2(a)は、全辞書データAdからの変換辞書データSdの作成を模式的に表した図であり、
図2(b)は、変換辞書データSdを用いた入力文字列Tiの置き換えを模式的に表した図である。
【0023】
携帯端末1には、全辞書データAdと、変換辞書データSdとの2種類の辞書データが設けられる。全辞書データAdには、ひらがなやカタカナ等の表音文字による文字列である発音文字列Tpと、その発音文字列Tpに該当する漢字やアルファベット等による文字列である語句Wとの組み合わせが複数記憶される。全辞書データAdには、単語単位の語句W及びその語句Wに対応する発音文字列Tpが記憶され、入力文字列Tiの置き換えに用いられる語句W及び発音文字列Tpの組み合わせの全てが記憶される。
【0024】
変換辞書データSdは、その全辞書データAdから作成される辞書データであり、全辞書データAdに記憶される発音文字列Tp及びその発音文字列Tpに対応する語句Wの組み合わせ(以下「発音文字列Tp及び語句Wの組み合わせ」と略す)を発音文字列Tpの文字数毎に分けて構築される辞書データである。
【0025】
即ち変換辞書データSdには、1文字で構成される発音文字列Tp及びその発音文字列Tpが対応する語句Wの組み合わせが記憶される1文字辞書データSd1と、2文字で構成される発音文字列Tp及びその発音文字列Tpが対応する語句Wの組み合わせが記憶される2文字辞書データSd2とが設けられ、同様に、3~10文字で構成される発音文字列Tp及びその発音文字列Tpが対応する語句Wの組み合わせが記憶される3~10文字辞書データSd3~Sd10もそれぞれ設けられる。以下、1~10文字辞書データSd3~10のことを、まとめて「M文字辞書データSdM」という。
【0026】
このように構成された変換辞書データSdを用いて、入力文字列Tiの置き換えが行われる。具体的に
図2(b)に示す通り、まず入力文字列Tiを形態素解析することで、単語単位の入力文字列TiN(Nは自然数)に分解する。
図2(b)の例では、入力文字列Tiが「ほんじつはありがとうございます」とされる。よって、この入力文字列Tiを形態素解析することで、入力文字列Tiは「ほんじつ」による入力文字列Ti1と、「は」による入力文字列Ti2と、「ありがとう」による入力文字列Ti3と、「ございます」による入力文字列Ti4との4つの単語に分解される。
【0027】
そして、単語毎に分解された入力文字列TiNのそれぞれを変換辞書データSdで参照することで、それぞれに該当する語句Wが取得される。具体的に、入力文字列TiN毎にその文字数が取得され、取得された文字数と一致する文字数の発音文字列Tpを有する変換辞書データSdが取得される。そして、入力文字列TiNと取得された変換辞書データSdの発音文字列Tpとで検索が行われ、入力文字列TiNと一致する発音文字列Tpに該当する語句Wが取得される。
【0028】
図2(b)の例では、入力文字列Ti1の文字数は「4」なので、変換辞書データSdのうちの4文字辞書データSd4が取得され、4文字辞書データSd4から入力文字列Ti1と一致する発音文字列Tpの語句Wが取得される。また、入力文字列Ti2の文字数は「1」なので、1文字辞書データSd1が取得され、その1文字辞書データSd1から入力文字列Ti2と一致する発音文字列Tpの語句Wが取得される。同様に、入力文字列Ti3及び入力文字列Ti4の文字数は「5」なので、5文字辞書データSd5が取得され、その5文字辞書データSd5から入力文字列Ti3及び入力文字列Ti4と一致する発音文字列Tpの語句Wがそれぞれ取得される。
【0029】
このように、発音文字列Tpの文字数毎のM文字辞書データSdMが設けられ、入力文字列TiNの文字数と一致したM文字辞書データSdMからそれぞれの語句Wが検索される。入力文字列TiNの文字数と一致したM文字辞書データSdMで語句Wを検索することで、そもそも入力文字列TiNの文字数と一致しない文字数の発音文字列Tpとの比較を省略できるので、語句Wを迅速に検索することができる。
【0030】
また、発音文字列Tpや入力文字列TiNの文字数は、複雑な解析をすることなく容易に取得できるので、変換辞書データSdの作成や、入力文字列TiNの文字数に一致するM文字辞書データSdMの取得を迅速に行うことができる。これらにより、ユーザHが音声Vを入力してからその音声Vに該当する語句Wが表示されるまでを、レスポンス良く行うことができる。
【0031】
更に、ユーザHから入力文字列Tiを、単語毎の入力文字列TiNに分解し、入力文字列TiN毎に変換辞書データSdを検索することで、複数の単語が含まれる入力文字列Tiを変換辞書データSdで検索する場合と比較して、単語単位のきめ細く且つ精度の高い語句Wの取得が可能となる。
【0032】
次に、
図3を参照して、携帯端末1の電気的構成を説明する。
図3は、携帯端末1の電気的構成を示すブロック図である。
図3に示す通り、携帯端末1は、CPU10と、フラッシュROM11と、RAM12とを有し、これらはバスライン13を介して入出力ポート14にそれぞれ接続されている。入出力ポート14には更に、音声Vを入力するマイク15と、音声認識をした結果の語句W等が表示されるLCD16と、ユーザHからの指示が入力されるタッチパネル17とが接続される。
【0033】
CPU10は、バスライン13により接続された各部を制御する演算装置である。フラッシュROM11は、書き換え可能な不揮発性のメモリであり、音声認識プログラム11aと、全辞書データAdが記憶される全辞書データ11bと、変換辞書データSdが記憶される変換辞書データ11cとが保存される。CPU10によって音声認識プログラム11aが実行されると、
図4の音声処理が実行される。
【0034】
変換辞書データ11cには、上記した1文字辞書データSd1が記憶される1文字辞書データ11c1と、2文字辞書データSd2が記憶される2文字辞書データ11c2とが設けられ、同様に3~10文字辞書データSd3~10がそれぞれ記憶される3~10文字辞書データ11c3~11c10とが設けられる。以下、1~10文字辞書データ11c1~11c10のことを、まとめて「M文字辞書データ11cM」という。
【0035】
RAM12は、CPU10の音声認識プログラム11aの実行時に各種のワークデータやフラグ等を書き換え可能に記憶するためのメモリであり、入力文字列TiNから取得された語句Wが記憶される出力文字列メモリ12aが設けられる。
【0036】
次に、
図4,5を参照して、携帯端末1のCPU10で実行される処理を説明する。
図4(a)は、音声処理のフローチャートである。音声処理は、タッチパネル17等を介してユーザHから音声認識プログラム11aを実行する指示が入力された場合に実行される処理である。
【0037】
音声処理はまず、全辞書データ11bの全辞書データAdが更新されたかを確認する(S1)。具体的に、全辞書データ11bの全辞書データAdの発音文字列Tp及び語句Wの組み合わせは、追加または削除、発音文字列Tpまたは語句Wの修正による更新が可能に構成され、ユーザHからタッチパネル17を介して全辞書データ11bの全辞書データAdの更新の指示がされたかが確認される。
【0038】
S1の処理において、全辞書データ11bの全辞書データAdが更新された場合は(S1:Yes)、全辞書データAdが更新されたことで、全辞書データAdに含まれる発音文字列Tp及び語句Wの組み合わせと、変換辞書データ11cに記憶される発音文字列Tp及び語句Wの組み合わせとに相違が発生している虞があるので、変換辞書データ作成処理(S2)を実行する。
図4(b)を参照して、変換辞書データ作成処理を説明する。
【0039】
図4(b)は、変換辞書データ作成処理のフローチャートである。変換辞書データ作成処理はまず、全辞書データ11bから更新された後の全辞書データAdを取得する(S20)。S20の処理の後、取得した全辞書データAdの発音文字列Tp及び語句Wの組み合わせを発音文字列Tpの文字数順に並び変える(S21)。
【0040】
S21の処理の後、発音文字列Tpの文字数順に並び変えられた全辞書データAdから、発音文字列Tpの文字数毎に発音文字列Tp及び語句Wの組み合わせを取得して辞書データを作成し、その辞書データを変換辞書データ11cの該当する文字数のM文字辞書データ11cMに記憶する(S22)。これにより、変換辞書データ11cのM文字辞書データ11cMには、更新後の全辞書データ11bの全辞書データAdと同一の発音文字列Tp及び語句Wの組み合わせが記憶される。
【0041】
S22の処理の後、変換辞書データ作成処理を終了する。
【0042】
図4(a)に戻る。S1の処理において全辞書データ11bの全辞書データAdが更新されていない場合は(S1:No)、S2の処理をスキップする。S1,S2の処理の後、出力文字列メモリ12aをクリアする(S3)。S3の処理の後、マイク15から入力された音声Vを文字列に変換することで、上記の入力文字列Tiを取得する(S4)。なお、音声Vを文字列に変換する手法は公知の手法が用いられるので、その詳細の説明を省略する。
【0043】
S4の処理の後、取得された入力文字列Tiを形態素解析することで、単語毎の入力文字列TiNを取得する(S5)。なお、形態素解析は既知の手法が用いられるので、その詳細な説明は省略する。S5の処理の後、辞書適用処理(S6)を実行する。
図5を参照して、辞書適用処理を説明する。
【0044】
図5は、辞書適用処理のフローチャートである。辞書適用処理はまず、
図4(a)のS5の処理で取得された入力文字列TiNの文字数をそれぞれ取得する(S30)。S30の処理の後、入力文字列Tiから取得された入力文字列TiNの順番を表すカウンタ変数Nに1を設定する(S31)。例えば、カウンタ変数Nが「1」の場合が上記の「入力文字列Ti1」とされ、カウンタ変数Nが「2」の場合が上記の「入力文字列Ti2」とされる。以下、入力文字列Tiのカウンタ変数N番目における入力文字列TiNのことを「N番目の入力文字列TiN」という。
【0045】
S31の処理の後、N番目の入力文字列TiNの文字数に該当するM文字辞書データ11cMを変換辞書データ11cから取得する(S32)。S32の処理の後、N番目の入力文字列TiNを、S32の処理で取得したM文字辞書データ11cMで検索することで、N番目の入力文字列TiNに該当する語句Wを取得する(S33)。
【0046】
具体的に、S32の処理で取得したM文字辞書データ11cMにおいて、N番目の入力文字列TiNと一致する発音文字列Tpが検索され、一致する発音文字列Tpが検索された場合は、該当する語句Wが取得される。一方で、N番目の入力文字列TiNと一致する発音文字列TpがM文字辞書データ11cMから検索されなかった場合は、N番目の入力文字列TiNがそのまま語句Wとして取得される。
【0047】
S33の処理の後、取得された語句Wを出力文字列メモリ12aに追加する(S34)。S34の処理の後、カウンタ変数Nに1を加算し(S35)、そのカウンタ変数Nが入力文字列Tiから分解された入力文字列TiNの数より大きいかを確認する(S36)。S36の処理において、カウンタ変数Nが入力文字列TiNの数以下の場合は(S36:No)、S32以下の処理を繰り返す。一方で、カウンタ変数Nが入力文字列TiNの数より大きい場合は(S36:Yes)、辞書適用処理を終了する。
【0048】
図4(a)に戻る。S6の辞書適用処理の後、出力文字列メモリ12aに記憶される文字列をLCD16に表示する(S7)。これにより、ユーザHから入力された音声Vが入力文字列Tiに変換され、その入力文字列Tiのうち変換辞書データ11cに記憶される発音文字列Tpに該当するものが、該当する語句Wに置き換えられてLCD16に表示される。
【0049】
S7の処理の後、ユーザHからタッチパネル17を介して音声処理の終了する指示を取得したかを確認する(S8)。S8の処理において、音声処理の終了の指示を取得しなかった場合は(S8:No)、S1以下の処理を繰り返し、音声処理の終了の指示を取得した場合は(S8:Yes)、音声処理を終了する。
【0050】
次に、
図6~8を参照して、第2実施形態の携帯端末100を説明する。上記した第1実施形態では、変換辞書データSdを発音文字列Tpの文字数毎に分けて作成し、変換辞書データSdのうち入力文字列TiNの文字数と一致する辞書データ(即ちM文字辞書データSdM)を取得し、その辞書データを用いて語句Wを取得した。
【0051】
これに対し、第2実施形態では、変換辞書データSdを発音文字列Tpの先頭文字毎に分けて作成し、変換辞書データSdのうち入力文字列TiNの先頭文字と一致する辞書データを取得し、その辞書データを用いて語句Wを取得する。上記した第1実施形態と同一の部分については、同一の符号を付し、その説明は省略する。
【0052】
図6(a)は、第2実施形態における全辞書データAdからの変換辞書データSdの作成を模式的に表した図であり、
図6(b)は、第2実施形態における変換辞書データSdを用いた入力文字列Tiの置き換えを模式的に表した図である。第2実施形態では、全辞書データAdの発音文字列Tp及び語句Wの組み合わせから、発音文字列Tpの先頭文字毎に変換辞書データSdが作成される。
【0053】
具体的に、第2実施形態の変換辞書データSdは、全辞書データAdに記憶される発音文字列Tp及び語句Wの組み合わせを発音文字列Tpの先頭文字毎に分けて構築される。第2実施形態は、先頭文字として「ひらがな」が用いられる。即ち変換辞書データSdには、先頭文字が「あ」である発音文字列Tp及びその発音文字列Tpが対応する語句Wの組み合わせが記憶される「あ」用辞書データSd20と、先頭文字が「い」である発音文字列Tp及びその発音文字列Tpが対応する語句Wの組み合わせが記憶される「い」用辞書データSd21とが設けられ、同様に先頭文字が「う」~「ん」である発音文字列Tp及びその発音文字列Tpが対応する語句Wの組み合わせが記憶される「う」~「ん」用辞書データSd22~65もそれぞれ設けられる。以下、「あ」~「ん」用辞書データSd20~65のことを、まとめて「P用辞書データSdP」という。
【0054】
第2実施形態では「が」のような濁音や「ぴ」のような半濁音が先頭文字の発音文字列Tp及び語句Wの組み合わせは、これらの濁点や半濁音がない文字(例えば、「が」の場合は「か」、「ぴ」の場合は「ひ」)が発音文字列Tpの先頭文字のP用辞書データSdPに記憶される。なお、これに限られず、濁音や半濁音が先頭文字である発音文字列Tp及び語句Wの組み合わせによるP用辞書データSdPを、個別に変換辞書データSdに設けても良い。
【0055】
このように構成された変換辞書データSdを用いて、入力文字列Tiの置き換えが行われる。
図6(b)の例では、入力文字列Tiが「あさはくうきがすんでいる」であるので、この入力文字列Tiを形態素解析することで、入力文字列Tiは「あさ」による先頭文字が「あ」である入力文字列Ti1と、「は」による先頭文字が「は」である入力文字列Ti2と、「くうき」による先頭文字が「く」である入力文字列Ti3と、「が」による先頭文字が「が」である入力文字列Ti4と、「すんでいる」による先頭文字が「す」である入力文字列Ti5との5つの単語に分解される。
【0056】
そして、分解された入力文字列TiN毎に変換辞書データSdを参照して語句Wが取得される。具体的に、入力文字列TiN毎にその先頭文字が取得され、取得された先頭文字と一致する先頭文字の発音文字列Tpを有するP用辞書データSdPが取得される。
【0057】
図2(b)の例では、入力文字列Ti1の先頭文字は「あ」なので、変換辞書データSdのうちの「あ」用辞書データSd20が取得され、その辞書データから入力文字列Ti1と一致する発音文字列Tpの語句Wが取得される。同様に、入力文字列Ti2の先頭文字は「は」なので、「は」用辞書データSd45が取得され、その辞書データから語句Wが取得され、入力文字列Ti3の先頭文字は「く」なので、「く」用辞書データSd27が取得され、その辞書データから語句Wが取得される。入力文字列Ti4の先頭文字は「が」なので、「か」用辞書データSd25が取得され、その辞書データから語句Wが取得され、入力文字列Ti5の先頭文字は「す」なので、「す」用辞書データSd32が取得され、その辞書データから語句Wが取得される。
【0058】
このように、発音文字列Tpの先頭文字毎のP用辞書データSdPが設けられ、入力文字列TiNの先頭文字と一致したP用辞書データSdPからそれぞれの語句Wが検索される。入力文字列TiNの先頭文字と一致したP用辞書データSdPで語句Wを検索することで、そもそも入力文字列TiNの先頭文字と一致しない文字数の発音文字列Tpとの比較を省略できるので、語句Wを迅速に検索することができる。
【0059】
また、発音文字列Tpや入力文字列TiNの先頭文字は、文字列の複雑な解析をすることなく容易に取得できるので、変換辞書データSdの作成や、入力文字列TiNの先頭文字に一致するP用辞書データSdPの取得を迅速に行うことができる。これらにより、ユーザHが音声Vを入力してからその音声Vに該当する語句Wが表示されるまでを、迅速に行うことができる。
【0060】
次に、
図7を参照して、第2実施形態の携帯端末100の電気的構成を説明する。
図7は、第2実施形態の携帯端末100の電気的構成を示すブロック図である。第2実施形態の携帯端末100の変換辞書データ11cには、M文字辞書データ11cMの代わりに、「あ」~「ん」用辞書データSd20~65がそれぞれ記憶される「あ」~「ん」用辞書データ11c20~11c65が記憶される。以下、「あ」~「ん」用辞書データ11c20~11c65のことを「P用辞書データ11cP」という。
【0061】
次に、
図8を参照して、第2実施形態の携帯端末100のCPU10で実行される処理を説明する。
図8(a)は、第2実施形態の変換辞書データ作成処理のフローチャートである。第2実施形態の変換辞書データ作成処理は、S20の処理の後、取得した全辞書データAdの発音文字列Tp及び語句Wの組み合わせを発音文字列Tpの先頭文字順に並び変える(S100)。
【0062】
S100の処理の後、発音文字列Tpの先頭文字順に並び変えられた全辞書データAdから、発音文字列Tpの先頭文字毎に発音文字列Tp及び語句Wの組み合わせを取得して辞書データを作成し、その辞書データを変換辞書データ11cの該当する先頭文字のP用辞書データ11cPに保存する(S101)。S101の処理の後、変換辞書データ作成処理を終了する。
【0063】
次に、第2実施形態の辞書適用処理を説明する。
図8(b)は、第2実施形態の辞書適用処理のフローチャートである。第2実施形態の辞書適用処理はまず、
図4(a)で上記したS5の処理で取得された入力文字列TiNの先頭文字をそれぞれ取得する(S110)。S110の処理の後、上記したS31の処理を行い、そのS31の処理の後、N番目の入力文字列TiNの先頭文字に該当するP用辞書データ11cPを変換辞書データ11cから取得する(S111)。
【0064】
S111の処理の後、N番目の入力文字列TiNを、S111の処理で取得したP用辞書データ11cPで検索することで、N番目の入力文字列TiNに該当する語句Wを取得する(S112)。P用辞書データ11cPから入力文字列TiNに該当する語句Wを取得する手法は、上記した
図5のS33の処理と同様なので詳細な説明は省略する。S112の処理の後、S34以下の処理を実行する。
【0065】
以上、実施形態に基づき本発明を説明したが、本発明は上述した実施形態に何ら限定されるものではなく、本発明の趣旨を逸脱しない範囲内で種々の改良変更が可能であることは容易に推察できるものである。
【0066】
第1実施形態では発音文字列Tpの文字数毎に変換辞書データSdを作成し、第2実施形態では発音文字列Tpの先頭文字毎に変換辞書データSdを作成したが、これらに限られない。例えば、発音文字列Tpの文字数と先頭文字との組み合わせ毎に変換辞書データSdを作成しても良い。この場合、入力文字列TiNの文字数と先頭文字との組み合わせを取得し、その組み合わせに該当する文字数と先頭文字との組み合わせの辞書データを変換辞書データSdから取得し、取得された辞書データを用いて、語句Wの検索をすれば良い。
【0067】
これにより、入力文字列TiNの文字数および先頭文字に一致しない発音文字列Tpとの比較を省略できるので、入力文字列TiNに該当する語句Wを更に迅速に検索できる。更に、発音文字列Tpの文字数と先頭文字との組み合わせ毎に変換辞書データSdを作成することで、第1実施形態の文字数毎の変換辞書データSdや第2実施形態の先頭文字毎の変換辞書データSdと比較して、1の辞書データに記憶される発音文字列Tp及び語句Wの数を少なくすることができる。これによっても、入力文字列TiNに該当する語句Wを迅速に検索できる。
【0068】
また、変換辞書データSdは文字数や先頭文字に応じて作成するものに限られず、発音文字列Tpや入力文字列TiNの他の特徴量に応じて作成しても良い。例えば、発音文字列Tpや入力文字列TiNを構成する文字の文字コード値の合計に応じて変換辞書データSdを作成しても良い。この場合、入力文字列TiNを構成する文字の文字コード値の合計を取得し、その文字コード値の合計に該当する辞書データを変換辞書データSdから取得し、取得された辞書データを用いて、語句Wの検索をすれば良い。
【0069】
上記実施形態では、全辞書データAdを設け、全辞書データAdから変換辞書データSdを作成したが、これに限られない。例えば、全辞書データAdを省略し、変換辞書データSdのみで構成しても良い。この場合、
図4の音声処理におけるS1,S2の処理の代わりに、ユーザHから指示に応じて変換辞書データSdの更新を行えば良い。
【0070】
上記実施形態では、発音文字列Tpや入力文字列TiNをひらがなで構成したが、これに限られず、カタカナやアルファベットや中国語のピンイン等の他の表音文字を用いても良い。また、第2実施形態の変換辞書データSdもひらがなによる先頭文字に応じて作成したが、これに限られず、カタカナやアルファベットや中国語のピンイン等の他の表音文字による先頭文字に応じて変換辞書データSdを作成しても良い。
【0071】
第1実施形態では、変換辞書データSdに1~10文字辞書データSd3~10の最大10文字までの辞書データを設けたが、これに限られず、10文字以上の辞書データを設けても良い。
【0072】
上記実施形態では、入力文字列Tiを単語毎の入力文字列TiNに分解し、入力文字列TiNのそれぞれを変換辞書データSdで検索したが、これに限られず、複数の単語が含まれる入力文字列Tiで変換辞書データSdを検索しても良い。
【0073】
上記実施形態では、入力文字列Tiの単語毎の入力文字列TiNへの分解を形態素解析で行ったが、これに限られず、AI等の他の手法によって、入力文字列Tiの単語毎の入力文字列TiNへの分解を行っても良い。
【0074】
上記実施形態では、
図5,8(b)のS34の処理で、出力文字列メモリ12aの文字列をLCD16に表示したが、これに限られない。例えば、図示しない通信装置を介して、出力文字列メモリ12aの文字列を他の携帯端末1等の情報処理装置に送信しても良いし、図示しないプリンタを接続し、出力文字列メモリ12aの文字列を紙に印刷しても良い。
【0075】
上記実施形態では、音声認識プログラム11aが組み込まれた携帯端末1を例示したが、これに限られず、パーソナルコンピュータやタブレット端末等の他の情報処理装置(コンピュータ)によって音声認識プログラム11aを実行する構成としても良い。また、音声認識プログラム11aをROMやICチップ等に記憶し、音声認識プログラム11aのみを実行する専用装置に、本発明を適用しても良い。
【符号の説明】
【0076】
1,100 携帯端末(コンピュータ)
11 フラッシュROM(記憶部)
11a 音声認識プログラム
V 音声
Tp 発音文字列
W 語句
Sd 変換辞書データ
11c 変換辞書データ(変換辞書記憶手段)
Ti,TiN 入力文字列
S4 音声変換ステップ、音声変換手段
S30,S110 特徴量取得ステップ、特徴量取得手段
S32,S111 辞書取得ステップ、特徴量取得手段
S33,S112 検索ステップ、検索手段
S7 出力ステップ、出力手段