特開2022-117376 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ アイシン精機株式会社の特許一覧

特開2022-117376音声認識プログラム及び音声認識装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022117376

(43)【公開日】2022-08-10

(54)【発明の名称】音声認識プログラム及び音声認識装置

(51)【国際特許分類】

G10L 15/06 20130101AFI20220803BHJP

【ＦＩ】

G10L15/06 400V

【審査請求】未請求

【請求項の数】6

【出願形態】ＯＬ

(21)【出願番号】P 2021060947

(22)【出願日】2021-03-31

(31)【優先権主張番号】P 2021013495

(32)【優先日】2021-01-29

(33)【優先権主張国・地域又は機関】JP

(71)【出願人】

【識別番号】000000011

【氏名又は名称】株式会社アイシン

(74)【代理人】

【識別番号】110000534

【氏名又は名称】弁理士法人真明センチュリー

(72)【発明者】

【氏名】中村正樹

(57)【要約】

【課題】音声認識のレスポンスを向上できる音声認識プログラム及び音声認識装置を提供すること。
【解決手段】発音文字列Ｔｐの文字数毎のＭ文字辞書データＳｄＭ（１～１０文字辞書データＳｄ３～１０）が設けられ、入力文字列ＴｉＮの文字数と一致したＭ文字辞書データＳｄＭからそれぞれの語句Ｗが検索される。入力文字列ＴｉＮの文字数と一致したＭ文字辞書データＳｄＭで語句Ｗを検索することで、入力文字列ＴｉＮの文字数と一致しない文字数の発音文字列Ｔｐとの比較が省略でき、語句Ｗを迅速に取得できる。発音文字列Ｔｐや入力文字列ＴｉＮの文字数は容易に取得可能なので、変換辞書データＳｄの作成や入力文字列ＴｉＮの文字数に一致するＭ文字辞書データＳｄＭの取得を迅速に行うことができる。これらにより、ユーザＨが音声Ｖを入力してから該当する語句Ｗが表示されるまでをレスポンス良く実行できる。
【選択図】図２

【特許請求の範囲】

【請求項1】

記憶部を備えたコンピュータに、音声認識処理を実行させる音声認識プログラムであって、
前記記憶部を、発音文字列とその発音文字列に対応する語句との組み合わせによる辞書データであって、前記発音文字列の特徴量毎に分けられた複数の変換辞書データを記憶する変換辞書記憶手段として機能させ、
入力された音声をその発音を表す入力文字列に変換する音声変換ステップと、
その音声変換ステップで変換された入力文字列の特徴量を取得する特徴量取得ステップと、
前記変換辞書記憶手段から前記特徴量取得ステップで取得された特徴量に該当する変換辞書データを取得する辞書取得ステップと、
その辞書取得ステップで取得された変換辞書データから前記音声変換ステップで変換された入力文字列に該当する語句を検索する検索ステップと、
その検索ステップで検索された語句を出力する出力ステップと、
を備えていることを特徴とする音声認識プログラム。

【請求項2】

前記音声変換ステップは、入力された音声をその発音を表す文字列に変換し、その文字列を単語毎に分解したものを入力文字列とし、
前記特徴量取得ステップは、前記音声変換ステップで変換され、単語毎に分解された入力文字列のそれぞれの特徴量を取得し、
前記辞書取得ステップは、前記変換辞書記憶手段から、前記特徴量取得ステップで取得された単語毎に分解された入力文字列のそれぞれの特徴量に該当する変換辞書データをそれぞれ取得し、
前記検索ステップは、前記辞書取得ステップで取得されたそれぞれの変換辞書データから、前記音声変換ステップで変換された単語毎に分解された入力文字列のそれぞれに該当する語句を検索するものであることを特徴とする請求項１記載の音声認識プログラム。

【請求項3】

前記特徴量は、前記発音文字列または前記入力文字列の文字数であることを特徴とする請求項１又は２に記載の音声認識プログラム。

【請求項4】

前記特徴量は、前記発音文字列または前記入力文字列の先頭文字であることを特徴とする請求項１から３のいずれかに記載の音声認識プログラム。

【請求項5】

前記特徴量は、前記発音文字列または前記入力文字列の文字数と先頭文字との組み合わせであることを特徴とする請求項１又は２に記載の音声認識プログラム。

【請求項6】

発音文字列とその発音文字列に対応する語句との組み合わせによる辞書データであって、前記発音文字列の特徴量毎に分けられた複数の変換辞書データを記憶する変換辞書記憶手段と、
音声を入力する音声入力手段と、
その音声入力手段で入力された音声をその発音を表す入力文字列に変換する音声変換手段と、
その音声変換手段で変換された入力文字列の特徴量を取得する特徴量取得手段と、
前記変換辞書記憶手段で記憶された変換辞書データのうち、前記特徴量取得手段で取得された特徴量に該当する変換辞書データを取得する辞書取得手段と、
その辞書取得手段で取得された変換辞書データから前記音声変換手段で変換された入力文字列に該当する語句を検索する検索手段と、
その検索手段で検索された語句を出力する出力手段と、
を備えていることを特徴とする音声認識装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、音声認識プログラム及び音声認識装置に関するものである。

【背景技術】

【0002】

特許文献１には、語句の種別（住所、施設名、電話番号等）毎に認識辞書が設けられ、入力された音声を、予めユーザが選択している語句の種別に該当する認識辞書で検索することで音声認識を行う技術が開示されている。具体的に、認識辞書には、仮名文字やアルファベット等による発音を表記する文字列（以下「発音文字列」という）と、その発音文字列に対応する語句とが記憶されている。入力された音声を文字列に変換した入力文字列を認識辞書の発音文字列で検索することで、該当する語句が取得される。認識辞書を語彙の種別毎に設けることで、全ての種別の語彙の発音文字列および語句を１つの認識辞書に記憶するよりも発音文字列および語句の数を抑制できるので、検索に要する時間を短縮できる。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２００６－１６２７８２号公報（例えば、段落００１２－００１５，００３３－００３７，図１，４，５）

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、認識辞書は語句の種別毎に構成される一方で、その認識辞書には語句に応じた様々な発音文字列が記憶される。例えば、５文字の入力文字列に対し、認識辞書には語句に応じた２文字や３文字等の様々な文字数の発音文字列が記憶されるので、検索においては入力文字列と文字数が同一の発音文字列との参照に加え、入力文字列と文字数の異なる発音文字列とも参照しなければならない。これによって検索に時間を要し、音声認識のレスポンスが低下する虞があるという問題点があった。

【0005】

本発明は、上述した問題点を解決するためになされたものであり、音声認識のレスポンスを向上できる音声認識プログラム及び音声認識装置を提供することを目的としている。

【課題を解決するための手段】

【0006】

この目的を達成するために本発明の音声認識プログラムは、記憶部を備えたコンピュータに、音声認識処理を実行させるプログラムであって、前記記憶部を、発音文字列とその発音文字列に対応する語句との組み合わせによる辞書データであって、前記発音文字列の特徴量毎に分けられた複数の変換辞書データを記憶する変換辞書記憶手段として機能させ、入力された音声をその発音を表す入力文字列に変換する音声変換ステップと、その音声変換ステップで変換された入力文字列の特徴量を取得する特徴量取得ステップと、前記変換辞書記憶手段から前記特徴量取得ステップで取得された特徴量に該当する変換辞書データを取得する辞書取得ステップと、その辞書取得ステップで取得された変換辞書データから前記音声変換ステップで変換された入力文字列に該当する語句を検索する検索ステップと、その検索ステップで検索された語句を出力する出力ステップと、を備えている。

【0007】

また本発明の音声認識装置は、発音文字列とその発音文字列に対応する語句との組み合わせによる辞書データであって、前記発音文字列の特徴量毎に分けられた複数の変換辞書データを記憶する変換辞書記憶手段と、音声を入力する音声入力手段と、その音声入力手段で入力された音声をその発音を表す入力文字列に変換する音声変換手段と、その音声変換手段で変換された入力文字列の特徴量を取得する特徴量取得手段と、前記変換辞書記憶手段で記憶された変換辞書データのうち、前記特徴量取得手段で取得された特徴量に該当する変換辞書データを取得する辞書取得手段と、その辞書取得手段で取得された変換辞書データから前記音声変換手段で変換された入力文字列に該当する語句を検索する検索手段と、その検索手段で検索された語句を出力する出力手段と、を備えている

【発明の効果】

【0008】

請求項１記載の音声認識プログラムによれば、発音文字列とその発音文字列に対応する語句との組み合わせによる辞書データであって、発音文字列の特徴量毎に分けられた複数の変換辞書データが記憶される。そして入力された音声の発音を表す入力文字列からその特徴量が取得され、その取得された特徴量に該当する変換辞書データが取得される。そして、取得された変換辞書データから入力文字列に該当する語句が取得され、その取得された語句が出力される。

【0009】

即ち語句の検索に用いられる変換辞書データには、入力文字列と共通する特徴量の発音文字列とその語句とが記憶されるので、当該変換辞書データには入力文字列に類似する発音文字列のみが記憶される。これにより、当該変換辞書データから入力文字列に該当する発音文字列の語句を迅速に検索できるので、音声認識のレスポンス向上できるという効果がある。

【0010】

請求項２記載の音声認識プログラムによれば、請求項１記載の音声認識プログラムの奏する効果に加え、次の効果を奏する。入力された音声が単語毎に分解された入力文字列に変換され、その単語毎に分解された入力文字列のそれぞれの特徴量が取得される。そして、取得された単語毎に分解された入力文字列のそれぞれの特徴量に該当する変換辞書データがそれぞれ取得され、その取得されたそれぞれの変換辞書データから単語毎に分解された入力文字列のそれぞれに該当する語句が検索される。

【0011】

即ち単語毎に分解された入力文字列の特徴量がそれぞれ取得され、その取得されたそれぞれの特徴量に該当する変換辞書データから語句が検索されるので、複数の単語が含まれる入力文字列をそのまま変換辞書データで検索する場合と比較して、きめ細く且つ精度の高い語句の出力が可能となるという効果がある。

【0012】

請求項３記載の音声認識プログラムによれば、請求項１又は２に記載の音声認識プログラムの奏する効果に加え、次の効果を奏する。特徴量が発音文字列または入力文字列の文字数とされる。これによって、変換辞書データが発音文字列の文字数に応じて記憶される。そして、入力文字列の文字数が取得され、その取得された文字数に該当する変換辞書データが取得され、語句の検索に用いられる。

【0013】

これにより、入力文字列の文字数に一致しない発音文字列の変換辞書データによる語句の検索を省略できるので、入力文字列に該当する語句を迅速に検索できる。また、入力文字列または発音文字列の文字数は、複雑な解析をすることなく容易に取得できるので、入力文字列の特徴量（文字数）に該当する変換辞書データの取得を迅速に行うことができる。これらにより、音声認識のレスポンスを向上できるという効果がある。

【0014】

請求項４記載の音声認識プログラムによれば、請求項１から３のいずれかに記載の音声認識プログラムの奏する効果に加え、次の効果を奏する。特徴量が発音文字列または入力文字列の先頭文字とされる。これによって、変換辞書データが発音文字列の先頭文字に応じて記憶される。そして、入力文字列の先頭文字が取得され、その取得された先頭文字に該当する変換辞書データが取得され、語句の検索に用いられる。

【0015】

これにより、入力文字列の先頭文字に一致しない発音文字列の変換辞書データによる語句の検索を省略できるので、入力文字列に該当する語句を迅速に検索できる。また、入力文字列または発音文字列の先頭文字は、複雑な解析をすることなく容易に取得できるので、入力文字列の特徴量（先頭文字）に該当する変換辞書データの取得を迅速に行うことができる。これらにより、音声認識のレスポンスを向上できるという効果がある。

【0016】

請求項５記載の音声認識プログラムによれば、請求項１又は２に記載の音声認識プログラムの奏する効果に加え、次の効果を奏する。特徴量が発音文字列または入力文字列の文字数と先頭文字との組み合わせとされる。これによって、変換辞書データが発音文字列の文字数と先頭文字との組み合わせに応じて記憶される。そして、入力文字列の文字数と先頭文字との組み合わせが取得され、その取得された文字数と先頭文字との組み合わせに該当する変換辞書データが取得され、語句の検索に用いられる。

【0017】

これにより、入力文字列の文字数および先頭文字に一致しない発音文字列の変換辞書データによる語句の検索を省略できるので、入力文字列に該当する語句を迅速に検索することができる。更に、特徴量を文字数と先頭文字との組み合わせとすることで、特徴量を文字数のみや特徴量を先頭文字のみとした場合と比較して、変換辞書データに記憶される発音文字列およびその語句の数を少なくすることができる。これによっても、入力文字列に該当する語句を迅速に検索できる。

【0018】

また、入力文字列または発音文字列の文字数および先頭文字は、複雑な解析をすることなく容易に取得できるので、入力文字列の特徴量（文字数と先頭文字との組み合わせ）に該当する変換辞書データの取得を迅速に行うことができる。これらにより、音声認識のレスポンスを向上できるという効果がある。

【0019】

請求項６記載の音声認識装置によれば、請求項１記載の音声認識プログラムと同様の効果を奏する。

【図面の簡単な説明】

【0020】

【図1】携帯端末の外観図である。

【図2】（ａ）は、全辞書データからの変換辞書データの作成を模式的に表した図であり、（ｂ）は、変換辞書データを用いた入力文字列の置き換えを模式的に表した図である。

【図3】携帯端末の電気的構成を示すブロック図である。

【図4】（ａ）は、音声処理のフローチャートであり、（ｂ）は、変換辞書データ作成処理のフローチャートである。

【図5】辞書適用処理のフローチャートである。

【図6】（ａ）は、第２実施形態における全辞書データからの変換辞書データの作成を模式的に表した図であり、（ｂ）は、第２実施形態における変換辞書データを用いた入力文字列の置き換えを模式的に表した図である。

【図7】第２実施形態の携帯端末の電気的構成を示すブロック図である。

【図8】（ａ）は、第２実施形態の変換辞書データ作成処理のフローチャートであり、（ｂ）は、第２実施形態の辞書適用処理のフローチャートである。

【発明を実施するための形態】

【0021】

以下、本発明の好ましい実施形態について、添付図面を参照して説明する。まず、図１を参照して、本実施形態における携帯端末１の構成を説明する。図１は、携帯端末１の外観図である。携帯端末１は、ユーザＨが発する発話を音声認識する情報処理装置（コンピュータ）である。携帯端末１では、音声Ｖが入力可能に構成され、入力された音声Ｖをその発音を表す文字列である入力文字列Ｔｉに変換する。変換された入力文字列Ｔｉを図２で後述の変換辞書データＳｄに参照することで、入力文字列Ｔｉを適切な語句Ｗに置き換えてＬＣＤ１６（図３参照）に表示する。

【0022】

次に、図２を参照して変換辞書データＳｄ及び変換辞書データＳｄを用いた入力文字列Ｔｉの置き換えを説明する。図２（ａ）は、全辞書データＡｄからの変換辞書データＳｄの作成を模式的に表した図であり、図２（ｂ）は、変換辞書データＳｄを用いた入力文字列Ｔｉの置き換えを模式的に表した図である。

【0023】

携帯端末１には、全辞書データＡｄと、変換辞書データＳｄとの２種類の辞書データが設けられる。全辞書データＡｄには、ひらがなやカタカナ等の表音文字による文字列である発音文字列Ｔｐと、その発音文字列Ｔｐに該当する漢字やアルファベット等による文字列である語句Ｗとの組み合わせが複数記憶される。全辞書データＡｄには、単語単位の語句Ｗ及びその語句Ｗに対応する発音文字列Ｔｐが記憶され、入力文字列Ｔｉの置き換えに用いられる語句Ｗ及び発音文字列Ｔｐの組み合わせの全てが記憶される。

【0024】

変換辞書データＳｄは、その全辞書データＡｄから作成される辞書データであり、全辞書データＡｄに記憶される発音文字列Ｔｐ及びその発音文字列Ｔｐに対応する語句Ｗの組み合わせ（以下「発音文字列Ｔｐ及び語句Ｗの組み合わせ」と略す）を発音文字列Ｔｐの文字数毎に分けて構築される辞書データである。

【0025】

即ち変換辞書データＳｄには、１文字で構成される発音文字列Ｔｐ及びその発音文字列Ｔｐが対応する語句Ｗの組み合わせが記憶される１文字辞書データＳｄ１と、２文字で構成される発音文字列Ｔｐ及びその発音文字列Ｔｐが対応する語句Ｗの組み合わせが記憶される２文字辞書データＳｄ２とが設けられ、同様に、３～１０文字で構成される発音文字列Ｔｐ及びその発音文字列Ｔｐが対応する語句Ｗの組み合わせが記憶される３～１０文字辞書データＳｄ３～Ｓｄ１０もそれぞれ設けられる。以下、１～１０文字辞書データＳｄ３～１０のことを、まとめて「Ｍ文字辞書データＳｄＭ」という。

【0026】

このように構成された変換辞書データＳｄを用いて、入力文字列Ｔｉの置き換えが行われる。具体的に図２（ｂ）に示す通り、まず入力文字列Ｔｉを形態素解析することで、単語単位の入力文字列ＴｉＮ（Ｎは自然数）に分解する。図２（ｂ）の例では、入力文字列Ｔｉが「ほんじつはありがとうございます」とされる。よって、この入力文字列Ｔｉを形態素解析することで、入力文字列Ｔｉは「ほんじつ」による入力文字列Ｔｉ１と、「は」による入力文字列Ｔｉ２と、「ありがとう」による入力文字列Ｔｉ３と、「ございます」による入力文字列Ｔｉ４との４つの単語に分解される。

【0027】

そして、単語毎に分解された入力文字列ＴｉＮのそれぞれを変換辞書データＳｄで参照することで、それぞれに該当する語句Ｗが取得される。具体的に、入力文字列ＴｉＮ毎にその文字数が取得され、取得された文字数と一致する文字数の発音文字列Ｔｐを有する変換辞書データＳｄが取得される。そして、入力文字列ＴｉＮと取得された変換辞書データＳｄの発音文字列Ｔｐとで検索が行われ、入力文字列ＴｉＮと一致する発音文字列Ｔｐに該当する語句Ｗが取得される。

【0028】

図２（ｂ）の例では、入力文字列Ｔｉ１の文字数は「４」なので、変換辞書データＳｄのうちの４文字辞書データＳｄ４が取得され、４文字辞書データＳｄ４から入力文字列Ｔｉ１と一致する発音文字列Ｔｐの語句Ｗが取得される。また、入力文字列Ｔｉ２の文字数は「１」なので、１文字辞書データＳｄ１が取得され、その１文字辞書データＳｄ１から入力文字列Ｔｉ２と一致する発音文字列Ｔｐの語句Ｗが取得される。同様に、入力文字列Ｔｉ３及び入力文字列Ｔｉ４の文字数は「５」なので、５文字辞書データＳｄ５が取得され、その５文字辞書データＳｄ５から入力文字列Ｔｉ３及び入力文字列Ｔｉ４と一致する発音文字列Ｔｐの語句Ｗがそれぞれ取得される。

【0029】

このように、発音文字列Ｔｐの文字数毎のＭ文字辞書データＳｄＭが設けられ、入力文字列ＴｉＮの文字数と一致したＭ文字辞書データＳｄＭからそれぞれの語句Ｗが検索される。入力文字列ＴｉＮの文字数と一致したＭ文字辞書データＳｄＭで語句Ｗを検索することで、そもそも入力文字列ＴｉＮの文字数と一致しない文字数の発音文字列Ｔｐとの比較を省略できるので、語句Ｗを迅速に検索することができる。

【0030】

また、発音文字列Ｔｐや入力文字列ＴｉＮの文字数は、複雑な解析をすることなく容易に取得できるので、変換辞書データＳｄの作成や、入力文字列ＴｉＮの文字数に一致するＭ文字辞書データＳｄＭの取得を迅速に行うことができる。これらにより、ユーザＨが音声Ｖを入力してからその音声Ｖに該当する語句Ｗが表示されるまでを、レスポンス良く行うことができる。

【0031】

更に、ユーザＨから入力文字列Ｔｉを、単語毎の入力文字列ＴｉＮに分解し、入力文字列ＴｉＮ毎に変換辞書データＳｄを検索することで、複数の単語が含まれる入力文字列Ｔｉを変換辞書データＳｄで検索する場合と比較して、単語単位のきめ細く且つ精度の高い語句Ｗの取得が可能となる。

【0032】

次に、図３を参照して、携帯端末１の電気的構成を説明する。図３は、携帯端末１の電気的構成を示すブロック図である。図３に示す通り、携帯端末１は、ＣＰＵ１０と、フラッシュＲＯＭ１１と、ＲＡＭ１２とを有し、これらはバスライン１３を介して入出力ポート１４にそれぞれ接続されている。入出力ポート１４には更に、音声Ｖを入力するマイク１５と、音声認識をした結果の語句Ｗ等が表示されるＬＣＤ１６と、ユーザＨからの指示が入力されるタッチパネル１７とが接続される。

【0033】

ＣＰＵ１０は、バスライン１３により接続された各部を制御する演算装置である。フラッシュＲＯＭ１１は、書き換え可能な不揮発性のメモリであり、音声認識プログラム１１ａと、全辞書データＡｄが記憶される全辞書データ１１ｂと、変換辞書データＳｄが記憶される変換辞書データ１１ｃとが保存される。ＣＰＵ１０によって音声認識プログラム１１ａが実行されると、図４の音声処理が実行される。

【0034】

変換辞書データ１１ｃには、上記した１文字辞書データＳｄ１が記憶される１文字辞書データ１１ｃ１と、２文字辞書データＳｄ２が記憶される２文字辞書データ１１ｃ２とが設けられ、同様に３～１０文字辞書データＳｄ３～１０がそれぞれ記憶される３～１０文字辞書データ１１ｃ３～１１ｃ１０とが設けられる。以下、１～１０文字辞書データ１１ｃ１～１１ｃ１０のことを、まとめて「Ｍ文字辞書データ１１ｃＭ」という。

【0035】

ＲＡＭ１２は、ＣＰＵ１０の音声認識プログラム１１ａの実行時に各種のワークデータやフラグ等を書き換え可能に記憶するためのメモリであり、入力文字列ＴｉＮから取得された語句Ｗが記憶される出力文字列メモリ１２ａが設けられる。

【0036】

次に、図４，５を参照して、携帯端末１のＣＰＵ１０で実行される処理を説明する。図４（ａ）は、音声処理のフローチャートである。音声処理は、タッチパネル１７等を介してユーザＨから音声認識プログラム１１ａを実行する指示が入力された場合に実行される処理である。

【0037】

音声処理はまず、全辞書データ１１ｂの全辞書データＡｄが更新されたかを確認する（Ｓ１）。具体的に、全辞書データ１１ｂの全辞書データＡｄの発音文字列Ｔｐ及び語句Ｗの組み合わせは、追加または削除、発音文字列Ｔｐまたは語句Ｗの修正による更新が可能に構成され、ユーザＨからタッチパネル１７を介して全辞書データ１１ｂの全辞書データＡｄの更新の指示がされたかが確認される。

【0038】

Ｓ１の処理において、全辞書データ１１ｂの全辞書データＡｄが更新された場合は（Ｓ１：Ｙｅｓ）、全辞書データＡｄが更新されたことで、全辞書データＡｄに含まれる発音文字列Ｔｐ及び語句Ｗの組み合わせと、変換辞書データ１１ｃに記憶される発音文字列Ｔｐ及び語句Ｗの組み合わせとに相違が発生している虞があるので、変換辞書データ作成処理（Ｓ２）を実行する。図４（ｂ）を参照して、変換辞書データ作成処理を説明する。

【0039】

図４（ｂ）は、変換辞書データ作成処理のフローチャートである。変換辞書データ作成処理はまず、全辞書データ１１ｂから更新された後の全辞書データＡｄを取得する（Ｓ２０）。Ｓ２０の処理の後、取得した全辞書データＡｄの発音文字列Ｔｐ及び語句Ｗの組み合わせを発音文字列Ｔｐの文字数順に並び変える（Ｓ２１）。

【0040】

Ｓ２１の処理の後、発音文字列Ｔｐの文字数順に並び変えられた全辞書データＡｄから、発音文字列Ｔｐの文字数毎に発音文字列Ｔｐ及び語句Ｗの組み合わせを取得して辞書データを作成し、その辞書データを変換辞書データ１１ｃの該当する文字数のＭ文字辞書データ１１ｃＭに記憶する（Ｓ２２）。これにより、変換辞書データ１１ｃのＭ文字辞書データ１１ｃＭには、更新後の全辞書データ１１ｂの全辞書データＡｄと同一の発音文字列Ｔｐ及び語句Ｗの組み合わせが記憶される。

【0041】

Ｓ２２の処理の後、変換辞書データ作成処理を終了する。

【0042】

図４（ａ）に戻る。Ｓ１の処理において全辞書データ１１ｂの全辞書データＡｄが更新されていない場合は（Ｓ１：Ｎｏ）、Ｓ２の処理をスキップする。Ｓ１，Ｓ２の処理の後、出力文字列メモリ１２ａをクリアする（Ｓ３）。Ｓ３の処理の後、マイク１５から入力された音声Ｖを文字列に変換することで、上記の入力文字列Ｔｉを取得する（Ｓ４）。なお、音声Ｖを文字列に変換する手法は公知の手法が用いられるので、その詳細の説明を省略する。

【0043】

Ｓ４の処理の後、取得された入力文字列Ｔｉを形態素解析することで、単語毎の入力文字列ＴｉＮを取得する（Ｓ５）。なお、形態素解析は既知の手法が用いられるので、その詳細な説明は省略する。Ｓ５の処理の後、辞書適用処理（Ｓ６）を実行する。図５を参照して、辞書適用処理を説明する。

【0044】

図５は、辞書適用処理のフローチャートである。辞書適用処理はまず、図４（ａ）のＳ５の処理で取得された入力文字列ＴｉＮの文字数をそれぞれ取得する（Ｓ３０）。Ｓ３０の処理の後、入力文字列Ｔｉから取得された入力文字列ＴｉＮの順番を表すカウンタ変数Ｎに１を設定する（Ｓ３１）。例えば、カウンタ変数Ｎが「１」の場合が上記の「入力文字列Ｔｉ１」とされ、カウンタ変数Ｎが「２」の場合が上記の「入力文字列Ｔｉ２」とされる。以下、入力文字列Ｔｉのカウンタ変数Ｎ番目における入力文字列ＴｉＮのことを「Ｎ番目の入力文字列ＴｉＮ」という。

【0045】

Ｓ３１の処理の後、Ｎ番目の入力文字列ＴｉＮの文字数に該当するＭ文字辞書データ１１ｃＭを変換辞書データ１１ｃから取得する（Ｓ３２）。Ｓ３２の処理の後、Ｎ番目の入力文字列ＴｉＮを、Ｓ３２の処理で取得したＭ文字辞書データ１１ｃＭで検索することで、Ｎ番目の入力文字列ＴｉＮに該当する語句Ｗを取得する（Ｓ３３）。

【0046】

具体的に、Ｓ３２の処理で取得したＭ文字辞書データ１１ｃＭにおいて、Ｎ番目の入力文字列ＴｉＮと一致する発音文字列Ｔｐが検索され、一致する発音文字列Ｔｐが検索された場合は、該当する語句Ｗが取得される。一方で、Ｎ番目の入力文字列ＴｉＮと一致する発音文字列ＴｐがＭ文字辞書データ１１ｃＭから検索されなかった場合は、Ｎ番目の入力文字列ＴｉＮがそのまま語句Ｗとして取得される。

【0047】

Ｓ３３の処理の後、取得された語句Ｗを出力文字列メモリ１２ａに追加する（Ｓ３４）。Ｓ３４の処理の後、カウンタ変数Ｎに１を加算し（Ｓ３５）、そのカウンタ変数Ｎが入力文字列Ｔｉから分解された入力文字列ＴｉＮの数より大きいかを確認する（Ｓ３６）。Ｓ３６の処理において、カウンタ変数Ｎが入力文字列ＴｉＮの数以下の場合は（Ｓ３６：Ｎｏ）、Ｓ３２以下の処理を繰り返す。一方で、カウンタ変数Ｎが入力文字列ＴｉＮの数より大きい場合は（Ｓ３６：Ｙｅｓ）、辞書適用処理を終了する。

【0048】

図４（ａ）に戻る。Ｓ６の辞書適用処理の後、出力文字列メモリ１２ａに記憶される文字列をＬＣＤ１６に表示する（Ｓ７）。これにより、ユーザＨから入力された音声Ｖが入力文字列Ｔｉに変換され、その入力文字列Ｔｉのうち変換辞書データ１１ｃに記憶される発音文字列Ｔｐに該当するものが、該当する語句Ｗに置き換えられてＬＣＤ１６に表示される。

【0049】

Ｓ７の処理の後、ユーザＨからタッチパネル１７を介して音声処理の終了する指示を取得したかを確認する（Ｓ８）。Ｓ８の処理において、音声処理の終了の指示を取得しなかった場合は（Ｓ８：Ｎｏ）、Ｓ１以下の処理を繰り返し、音声処理の終了の指示を取得した場合は（Ｓ８：Ｙｅｓ）、音声処理を終了する。

【0050】

次に、図６～８を参照して、第２実施形態の携帯端末１００を説明する。上記した第１実施形態では、変換辞書データＳｄを発音文字列Ｔｐの文字数毎に分けて作成し、変換辞書データＳｄのうち入力文字列ＴｉＮの文字数と一致する辞書データ（即ちＭ文字辞書データＳｄＭ）を取得し、その辞書データを用いて語句Ｗを取得した。

【0051】

これに対し、第２実施形態では、変換辞書データＳｄを発音文字列Ｔｐの先頭文字毎に分けて作成し、変換辞書データＳｄのうち入力文字列ＴｉＮの先頭文字と一致する辞書データを取得し、その辞書データを用いて語句Ｗを取得する。上記した第１実施形態と同一の部分については、同一の符号を付し、その説明は省略する。

【0052】

図６（ａ）は、第２実施形態における全辞書データＡｄからの変換辞書データＳｄの作成を模式的に表した図であり、図６（ｂ）は、第２実施形態における変換辞書データＳｄを用いた入力文字列Ｔｉの置き換えを模式的に表した図である。第２実施形態では、全辞書データＡｄの発音文字列Ｔｐ及び語句Ｗの組み合わせから、発音文字列Ｔｐの先頭文字毎に変換辞書データＳｄが作成される。

【0053】

具体的に、第２実施形態の変換辞書データＳｄは、全辞書データＡｄに記憶される発音文字列Ｔｐ及び語句Ｗの組み合わせを発音文字列Ｔｐの先頭文字毎に分けて構築される。第２実施形態は、先頭文字として「ひらがな」が用いられる。即ち変換辞書データＳｄには、先頭文字が「あ」である発音文字列Ｔｐ及びその発音文字列Ｔｐが対応する語句Ｗの組み合わせが記憶される「あ」用辞書データＳｄ２０と、先頭文字が「い」である発音文字列Ｔｐ及びその発音文字列Ｔｐが対応する語句Ｗの組み合わせが記憶される「い」用辞書データＳｄ２１とが設けられ、同様に先頭文字が「う」～「ん」である発音文字列Ｔｐ及びその発音文字列Ｔｐが対応する語句Ｗの組み合わせが記憶される「う」～「ん」用辞書データＳｄ２２～６５もそれぞれ設けられる。以下、「あ」～「ん」用辞書データＳｄ２０～６５のことを、まとめて「Ｐ用辞書データＳｄＰ」という。

【0054】

第２実施形態では「が」のような濁音や「ぴ」のような半濁音が先頭文字の発音文字列Ｔｐ及び語句Ｗの組み合わせは、これらの濁点や半濁音がない文字（例えば、「が」の場合は「か」、「ぴ」の場合は「ひ」）が発音文字列Ｔｐの先頭文字のＰ用辞書データＳｄＰに記憶される。なお、これに限られず、濁音や半濁音が先頭文字である発音文字列Ｔｐ及び語句Ｗの組み合わせによるＰ用辞書データＳｄＰを、個別に変換辞書データＳｄに設けても良い。

【0055】

このように構成された変換辞書データＳｄを用いて、入力文字列Ｔｉの置き換えが行われる。図６（ｂ）の例では、入力文字列Ｔｉが「あさはくうきがすんでいる」であるので、この入力文字列Ｔｉを形態素解析することで、入力文字列Ｔｉは「あさ」による先頭文字が「あ」である入力文字列Ｔｉ１と、「は」による先頭文字が「は」である入力文字列Ｔｉ２と、「くうき」による先頭文字が「く」である入力文字列Ｔｉ３と、「が」による先頭文字が「が」である入力文字列Ｔｉ４と、「すんでいる」による先頭文字が「す」である入力文字列Ｔｉ５との５つの単語に分解される。

【0056】

そして、分解された入力文字列ＴｉＮ毎に変換辞書データＳｄを参照して語句Ｗが取得される。具体的に、入力文字列ＴｉＮ毎にその先頭文字が取得され、取得された先頭文字と一致する先頭文字の発音文字列Ｔｐを有するＰ用辞書データＳｄＰが取得される。

【0057】

図２（ｂ）の例では、入力文字列Ｔｉ１の先頭文字は「あ」なので、変換辞書データＳｄのうちの「あ」用辞書データＳｄ２０が取得され、その辞書データから入力文字列Ｔｉ１と一致する発音文字列Ｔｐの語句Ｗが取得される。同様に、入力文字列Ｔｉ２の先頭文字は「は」なので、「は」用辞書データＳｄ４５が取得され、その辞書データから語句Ｗが取得され、入力文字列Ｔｉ３の先頭文字は「く」なので、「く」用辞書データＳｄ２７が取得され、その辞書データから語句Ｗが取得される。入力文字列Ｔｉ４の先頭文字は「が」なので、「か」用辞書データＳｄ２５が取得され、その辞書データから語句Ｗが取得され、入力文字列Ｔｉ５の先頭文字は「す」なので、「す」用辞書データＳｄ３２が取得され、その辞書データから語句Ｗが取得される。

【0058】

このように、発音文字列Ｔｐの先頭文字毎のＰ用辞書データＳｄＰが設けられ、入力文字列ＴｉＮの先頭文字と一致したＰ用辞書データＳｄＰからそれぞれの語句Ｗが検索される。入力文字列ＴｉＮの先頭文字と一致したＰ用辞書データＳｄＰで語句Ｗを検索することで、そもそも入力文字列ＴｉＮの先頭文字と一致しない文字数の発音文字列Ｔｐとの比較を省略できるので、語句Ｗを迅速に検索することができる。

【0059】

また、発音文字列Ｔｐや入力文字列ＴｉＮの先頭文字は、文字列の複雑な解析をすることなく容易に取得できるので、変換辞書データＳｄの作成や、入力文字列ＴｉＮの先頭文字に一致するＰ用辞書データＳｄＰの取得を迅速に行うことができる。これらにより、ユーザＨが音声Ｖを入力してからその音声Ｖに該当する語句Ｗが表示されるまでを、迅速に行うことができる。

【0060】

次に、図７を参照して、第２実施形態の携帯端末１００の電気的構成を説明する。図７は、第２実施形態の携帯端末１００の電気的構成を示すブロック図である。第２実施形態の携帯端末１００の変換辞書データ１１ｃには、Ｍ文字辞書データ１１ｃＭの代わりに、「あ」～「ん」用辞書データＳｄ２０～６５がそれぞれ記憶される「あ」～「ん」用辞書データ１１ｃ２０～１１ｃ６５が記憶される。以下、「あ」～「ん」用辞書データ１１ｃ２０～１１ｃ６５のことを「Ｐ用辞書データ１１ｃＰ」という。

【0061】

次に、図８を参照して、第２実施形態の携帯端末１００のＣＰＵ１０で実行される処理を説明する。図８（ａ）は、第２実施形態の変換辞書データ作成処理のフローチャートである。第２実施形態の変換辞書データ作成処理は、Ｓ２０の処理の後、取得した全辞書データＡｄの発音文字列Ｔｐ及び語句Ｗの組み合わせを発音文字列Ｔｐの先頭文字順に並び変える（Ｓ１００）。

【0062】

Ｓ１００の処理の後、発音文字列Ｔｐの先頭文字順に並び変えられた全辞書データＡｄから、発音文字列Ｔｐの先頭文字毎に発音文字列Ｔｐ及び語句Ｗの組み合わせを取得して辞書データを作成し、その辞書データを変換辞書データ１１ｃの該当する先頭文字のＰ用辞書データ１１ｃＰに保存する（Ｓ１０１）。Ｓ１０１の処理の後、変換辞書データ作成処理を終了する。

【0063】

次に、第２実施形態の辞書適用処理を説明する。図８（ｂ）は、第２実施形態の辞書適用処理のフローチャートである。第２実施形態の辞書適用処理はまず、図４（ａ）で上記したＳ５の処理で取得された入力文字列ＴｉＮの先頭文字をそれぞれ取得する（Ｓ１１０）。Ｓ１１０の処理の後、上記したＳ３１の処理を行い、そのＳ３１の処理の後、Ｎ番目の入力文字列ＴｉＮの先頭文字に該当するＰ用辞書データ１１ｃＰを変換辞書データ１１ｃから取得する（Ｓ１１１）。

【0064】

Ｓ１１１の処理の後、Ｎ番目の入力文字列ＴｉＮを、Ｓ１１１の処理で取得したＰ用辞書データ１１ｃＰで検索することで、Ｎ番目の入力文字列ＴｉＮに該当する語句Ｗを取得する（Ｓ１１２）。Ｐ用辞書データ１１ｃＰから入力文字列ＴｉＮに該当する語句Ｗを取得する手法は、上記した図５のＳ３３の処理と同様なので詳細な説明は省略する。Ｓ１１２の処理の後、Ｓ３４以下の処理を実行する。

【0065】

以上、実施形態に基づき本発明を説明したが、本発明は上述した実施形態に何ら限定されるものではなく、本発明の趣旨を逸脱しない範囲内で種々の改良変更が可能であることは容易に推察できるものである。

【0066】

第１実施形態では発音文字列Ｔｐの文字数毎に変換辞書データＳｄを作成し、第２実施形態では発音文字列Ｔｐの先頭文字毎に変換辞書データＳｄを作成したが、これらに限られない。例えば、発音文字列Ｔｐの文字数と先頭文字との組み合わせ毎に変換辞書データＳｄを作成しても良い。この場合、入力文字列ＴｉＮの文字数と先頭文字との組み合わせを取得し、その組み合わせに該当する文字数と先頭文字との組み合わせの辞書データを変換辞書データＳｄから取得し、取得された辞書データを用いて、語句Ｗの検索をすれば良い。

【0067】

これにより、入力文字列ＴｉＮの文字数および先頭文字に一致しない発音文字列Ｔｐとの比較を省略できるので、入力文字列ＴｉＮに該当する語句Ｗを更に迅速に検索できる。更に、発音文字列Ｔｐの文字数と先頭文字との組み合わせ毎に変換辞書データＳｄを作成することで、第１実施形態の文字数毎の変換辞書データＳｄや第２実施形態の先頭文字毎の変換辞書データＳｄと比較して、１の辞書データに記憶される発音文字列Ｔｐ及び語句Ｗの数を少なくすることができる。これによっても、入力文字列ＴｉＮに該当する語句Ｗを迅速に検索できる。

【0068】

また、変換辞書データＳｄは文字数や先頭文字に応じて作成するものに限られず、発音文字列Ｔｐや入力文字列ＴｉＮの他の特徴量に応じて作成しても良い。例えば、発音文字列Ｔｐや入力文字列ＴｉＮを構成する文字の文字コード値の合計に応じて変換辞書データＳｄを作成しても良い。この場合、入力文字列ＴｉＮを構成する文字の文字コード値の合計を取得し、その文字コード値の合計に該当する辞書データを変換辞書データＳｄから取得し、取得された辞書データを用いて、語句Ｗの検索をすれば良い。

【0069】

上記実施形態では、全辞書データＡｄを設け、全辞書データＡｄから変換辞書データＳｄを作成したが、これに限られない。例えば、全辞書データＡｄを省略し、変換辞書データＳｄのみで構成しても良い。この場合、図４の音声処理におけるＳ１，Ｓ２の処理の代わりに、ユーザＨから指示に応じて変換辞書データＳｄの更新を行えば良い。

【0070】

上記実施形態では、発音文字列Ｔｐや入力文字列ＴｉＮをひらがなで構成したが、これに限られず、カタカナやアルファベットや中国語のピンイン等の他の表音文字を用いても良い。また、第２実施形態の変換辞書データＳｄもひらがなによる先頭文字に応じて作成したが、これに限られず、カタカナやアルファベットや中国語のピンイン等の他の表音文字による先頭文字に応じて変換辞書データＳｄを作成しても良い。

【0071】

第１実施形態では、変換辞書データＳｄに１～１０文字辞書データＳｄ３～１０の最大１０文字までの辞書データを設けたが、これに限られず、１０文字以上の辞書データを設けても良い。

【0072】

上記実施形態では、入力文字列Ｔｉを単語毎の入力文字列ＴｉＮに分解し、入力文字列ＴｉＮのそれぞれを変換辞書データＳｄで検索したが、これに限られず、複数の単語が含まれる入力文字列Ｔｉで変換辞書データＳｄを検索しても良い。

【0073】

上記実施形態では、入力文字列Ｔｉの単語毎の入力文字列ＴｉＮへの分解を形態素解析で行ったが、これに限られず、ＡＩ等の他の手法によって、入力文字列Ｔｉの単語毎の入力文字列ＴｉＮへの分解を行っても良い。

【0074】

上記実施形態では、図５，８（ｂ）のＳ３４の処理で、出力文字列メモリ１２ａの文字列をＬＣＤ１６に表示したが、これに限られない。例えば、図示しない通信装置を介して、出力文字列メモリ１２ａの文字列を他の携帯端末１等の情報処理装置に送信しても良いし、図示しないプリンタを接続し、出力文字列メモリ１２ａの文字列を紙に印刷しても良い。

【0075】

上記実施形態では、音声認識プログラム１１ａが組み込まれた携帯端末１を例示したが、これに限られず、パーソナルコンピュータやタブレット端末等の他の情報処理装置（コンピュータ）によって音声認識プログラム１１ａを実行する構成としても良い。また、音声認識プログラム１１ａをＲＯＭやＩＣチップ等に記憶し、音声認識プログラム１１ａのみを実行する専用装置に、本発明を適用しても良い。

【符号の説明】

【0076】

１，１００携帯端末（コンピュータ）
１１フラッシュＲＯＭ（記憶部）
１１ａ音声認識プログラム
Ｖ音声
Ｔｐ発音文字列
Ｗ語句
Ｓｄ変換辞書データ
１１ｃ変換辞書データ（変換辞書記憶手段）
Ｔｉ，ＴｉＮ入力文字列
Ｓ４音声変換ステップ、音声変換手段
Ｓ３０，Ｓ１１０特徴量取得ステップ、特徴量取得手段
Ｓ３２，Ｓ１１１辞書取得ステップ、特徴量取得手段
Ｓ３３，Ｓ１１２検索ステップ、検索手段
Ｓ７出力ステップ、出力手段

【図1】