(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023054951
(43)【公開日】2023-04-17
(54)【発明の名称】音声認識システム、音声認識方法、辞書登録システム、及び、辞書登録方法
(51)【国際特許分類】
G10L 15/06 20130101AFI20230410BHJP
【FI】
G10L15/06 300E
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2021163989
(22)【出願日】2021-10-05
(71)【出願人】
【識別番号】720009479
【氏名又は名称】オンキヨー株式会社
(72)【発明者】
【氏名】森川 裕介
(72)【発明者】
【氏名】日月 伸也
(57)【要約】
【課題】Nグラムの肥大化を防止すること。
【解決手段】辞書を用いて音声を認識する音声認識システムである。同形異音語において、文脈により読み方が決まる同形異音語は、2以上の別の単語として、辞書に登録されている。また、文脈により読み方が決まらない同形異音語は、1つの単語として、前記辞書に登録されている。同形異音語が、辞書に登録されるときに、文脈により読み方が決まるか否かに基づいて、グループ分けが行われる。
【選択図】
図1
【特許請求の範囲】
【請求項1】
辞書を用いて音声を認識する音声認識システムであって、
同形異音語において、
文脈により読み方が決まる同形異音語は、2以上の別の単語として、前記辞書に登録され、
文脈により読み方が決まらない同形異音語は、1つの単語として、前記辞書に登録されていることを特徴とする音声認識システム。
【請求項2】
同形異音語が、前記辞書に登録されるときに、文脈により読み方が決まるか否かに基づいて、グループ分けが行われることを特徴とする請求項1に記載の音声認識システム。
【請求項3】
各グループにおいて、各形態素に与えられている注釈から、形態素に発音情報が付加されることを特徴とする請求項2に記載の音声認識システム。
【請求項4】
辞書を用いて音声を認識する音声認識方法であって、
同形異音語において、
文脈により読み方が決まる同形異音語は、2以上の別の単語として、前記辞書に登録され、
文脈により読み方が決まらない同形異音語は、1つの単語として、前記辞書に登録されていることを特徴とする音声認識方法。
【請求項5】
音声認識に用いられる辞書に単語を登録する辞書登録システムであって、
同形異音語において、
文脈により読み方が決まる同形異音語を、2以上の別の単語として、前記辞書に登録し、
文脈により読み方が決まらない同形異音語を、1つの単語として、前記辞書に登録することを特徴とする辞書登録システム。
【請求項6】
同形異音語が、文脈により読み方が決まるか否かに基づいて、グループ分けを行うことを特徴とする請求項5に記載の辞書登録システム。
【請求項7】
各グループにおいて、各形態素に与えられている注釈から、形態素に発音情報を付加することを特徴とする請求項6に記載の辞書登録システム。
【請求項8】
音声認識に用いられる辞書に単語を登録する辞書登録方法であって、
同形異音語において、
文脈により読み方が決まる同形異音語を、2以上の別の単語として、前記辞書に登録し、
文脈により読み方が決まらない同形異音語を、1つの単語として、前記辞書に登録することを特徴とする辞書登録方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声を認識する音声認識システム、音声認識方法、音声認識に用いられる辞書に単語を登録する辞書登録システム、及び、辞書登録方法に関する。
【背景技術】
【0002】
日本語の音声認識において、同形異音語が多数存在するという言語的特徴が問題となる場合ある。「同形異音語」とは、同じ表記でありながら異なる読み(発音)を持つ語を指す。例えば、「2」の場合、「ニ」、「ジ」等の読み方がある。しかしながら、「2」の発音の仕方として、「ニ/ジ」を辞書に登録した場合、「9時/クジ」という音声を、「92/クジ」と誤って認識してしまうことがある。
【0003】
上述した問題を解決する従来技術として、同形異音語を読み方ごとに別々の単語として扱う手法が知られている(例えば、特許文献1参照。)。この手法では、例えば、「2/ニ」、「2/ジ」をそれぞれ別々の単語として、辞書に登録する。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、上述した従来技術では、「言う/イウ」と「言う/ユー」のような、単なる読み方の微妙な違いでしかない語についても区別することになり、Nグラムが肥大化してしまうという問題がある。
【0006】
本発明の目的は、Nグラムの肥大化を防止することである。
【課題を解決するための手段】
【0007】
第1の発明の音声認識システムは、辞書を用いて音声を認識する音声認識システムであって、同形異音語において、文脈により読み方が決まる同形異音語は、2以上の別の単語として、前記辞書に登録され、文脈により読み方が決まらない同形異音語は、1つの単語として、前記辞書に登録されていることを特徴とする。
【0008】
本発明では、文脈により読み方が決まる同形異音語は、2以上の別の単語として、辞書に登録される。また、文脈により読み方が決まらない同形異音語は、1つの単語として、辞書に登録される。これにより、Nグラムが肥大化することがない。
【0009】
第2の発明の音声認識システムは、第1の発明の音声認識システムにおいて、同形異音語が、前記辞書に登録されるときに、文脈により読み方が決まるか否かに基づいて、グループ分けが行われることを特徴とする。
【0010】
第3の発明の音声認識システムは、第2の発明の音声認識システムにおいて、各グループにおいて、各形態素に与えられている注釈から、形態素に発音情報が付加されることを特徴とする。
【0011】
第4の発明の音声認識方法は、辞書を用いて音声を認識する音声認識方法であって、同形異音語において、文脈により読み方が決まる同形異音語は、2以上の別の単語として、前記辞書に登録され、文脈により読み方が決まらない同形異音語は、1つの単語として、前記辞書に登録されていることを特徴とする。
【0012】
第5の発明の辞書登録システムは、音声認識に用いられる辞書に単語を登録する辞書登録システムであって、同形異音語において、文脈により読み方が決まる同形異音語を、2以上の別の単語として、前記辞書に登録し、文脈により読み方が決まらない同形異音語を、1つの単語として、前記辞書に登録することを特徴とする。
【0013】
第6の発明の辞書登録システムは、第5の発明の辞書登録システムにおいて、同形異音語が、文脈により読み方が決まるか否かに基づいて、グループ分けを行うことを特徴とする。
【0014】
第7の発明の辞書登録システムは、第6の発明の辞書登録システムにおいて、各グループにおいて、各形態素に与えられている注釈から、形態素に発音情報を付加することを特徴とする。
【0015】
第8の発明の辞書登録方法は、音声認識に用いられる辞書に単語を登録する辞書登録方法であって、同形異音語において、文脈により読み方が決まる同形異音語を、2以上の別の単語として、前記辞書に登録し、文脈により読み方が決まらない同形異音語を、1つの単語として、前記辞書に登録することを特徴とする。
【発明の効果】
【0016】
本発明によれば、Nグラムが肥大化することがない
【図面の簡単な説明】
【0017】
【
図2】辞書登録における処理動作を示すフローチャートである。
【発明を実施するための形態】
【0018】
以下、本発明の実施形態について説明する。音声を認識する音声認識システムは、例えば、マイクロホン、スピーカー等を備えるスピーカー装置、スピーカー装置と通信するクラウドサーバーから構成される。スピーカー装置において、ユーザーが発話した音声が、マイクロホンにより、集音される。スピーカー装置において集音された音声が、クラウドサーバーに送信され、クラウドサーバーにおいて、音声認識が行われる。なお、音声認識システムは、例えば、マイクロホン、スピーカー等を備えるスピーカー装置のみにより構成され、スピーカー装置で音声認識が行われてもよい。また、音声認識機能を備えていれば、上述のスピーカー装置に限られず、他の電子機器のみで、音声認識システムが構成されていてもよい。
【0019】
上述の音声認識システムにおいて、音声認識に、辞書が用いられる。辞書には、単語が登録されている。辞書に登録されている同形異音語において、文脈により読み方が決まる同形異音語は、2以上の別の単語として、辞書に登録されている。文脈により読み方が決まらない同形異音語は、1つの単語として、辞書に登録されている。従って、単語の辞書登録時、文脈により読み方が決まる同形異音語を、2以上の別の単語として、辞書に登録する。また、文脈により読み方が決まらない同形異音語を、1つの単語として、辞書に登録する。
【0020】
同形異音語が、辞書に登録されるときに、文脈により読み方が決まるか否かに基づいて、グループ分けが行われる。
図1は、グループ分けの例を示す図である。(a)は、「言う」の場合の例を示し、(b)は、「1」の場合の例を示している。「言う」の場合、文脈により読み方が決まらないため、1つのグループ(グループA)となる。また、「1」の場合、文脈により読み方が決まるため(「1/イチ」、「1/イッ」、「1/ヒト」)、グループA~Cにグループ分けされる。また、各グループにおいて、各形態素に与えられている注釈から、形態素に発音情報が付加される。例えば、「言う」の場合、「イウ」、「ユー」が付加される。また、「1」のグループAの場合、「イチ」、「イーチ」が付加される。
【0021】
図2は、辞書登録における処理動作を示すフローチャートである。まず、コーパスが作成される(S1)次に、音響モデルのトレーニングが行われる(S2)。次に、同形異音語のグループ分けが行われる(S3)。次に、形態素に発音情報が付加される(S4)。次に、言語モデルのトレーニングが行われる(S5)。
【0022】
以上説明したように、本実施形態では、文脈により読み方が決まる同形異音語は、2以上の別の単語として、辞書に登録される。また、文脈により読み方が決まらない同形異音語は、1つの単語として、辞書に登録される。これにより、Nグラムが肥大化することがない。
【0023】
また、本実施形態では、各グループにおいて、各形態素に与えられている注釈から、形態素に発音情報が付加される。これにより、同形異音語をグループ毎に別の形態素として扱うことができ、Nグラムも別々のものとして計算されるようになる。
【0024】
以上、本発明の実施形態について説明したが、本発明を適用可能な形態は、上述の実施形態には限られるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更を加えることが可能である。
【産業上の利用可能性】
【0025】
本発明は、音声を認識する音声認識システム、音声認識方法、音声認識に用いられる辞書に単語を登録する辞書登録システム、及び、辞書登録方法に好適に採用され得る。