特開2023-54951 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ オンキヨー株式会社の特許一覧

特開2023-54951音声認識システム、音声認識方法、辞書登録システム、及び、辞書登録方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023054951

(43)【公開日】2023-04-17

(54)【発明の名称】音声認識システム、音声認識方法、辞書登録システム、及び、辞書登録方法

(51)【国際特許分類】

G10L 15/06 20130101AFI20230410BHJP

【ＦＩ】

G10L15/06 300E

【審査請求】未請求

【請求項の数】8

【出願形態】ＯＬ

(21)【出願番号】P 2021163989

(22)【出願日】2021-10-05

(71)【出願人】

【識別番号】720009479

【氏名又は名称】オンキヨー株式会社

(72)【発明者】

【氏名】森川裕介

(72)【発明者】

【氏名】日月伸也

(57)【要約】

【課題】Ｎグラムの肥大化を防止すること。
【解決手段】辞書を用いて音声を認識する音声認識システムである。同形異音語において、文脈により読み方が決まる同形異音語は、２以上の別の単語として、辞書に登録されている。また、文脈により読み方が決まらない同形異音語は、１つの単語として、前記辞書に登録されている。同形異音語が、辞書に登録されるときに、文脈により読み方が決まるか否かに基づいて、グループ分けが行われる。
【選択図】図１

【特許請求の範囲】

【請求項1】

辞書を用いて音声を認識する音声認識システムであって、
同形異音語において、
文脈により読み方が決まる同形異音語は、２以上の別の単語として、前記辞書に登録され、
文脈により読み方が決まらない同形異音語は、１つの単語として、前記辞書に登録されていることを特徴とする音声認識システム。

【請求項2】

同形異音語が、前記辞書に登録されるときに、文脈により読み方が決まるか否かに基づいて、グループ分けが行われることを特徴とする請求項１に記載の音声認識システム。

【請求項3】

各グループにおいて、各形態素に与えられている注釈から、形態素に発音情報が付加されることを特徴とする請求項２に記載の音声認識システム。

【請求項4】

辞書を用いて音声を認識する音声認識方法であって、
同形異音語において、
文脈により読み方が決まる同形異音語は、２以上の別の単語として、前記辞書に登録され、
文脈により読み方が決まらない同形異音語は、１つの単語として、前記辞書に登録されていることを特徴とする音声認識方法。

【請求項5】

音声認識に用いられる辞書に単語を登録する辞書登録システムであって、
同形異音語において、
文脈により読み方が決まる同形異音語を、２以上の別の単語として、前記辞書に登録し、
文脈により読み方が決まらない同形異音語を、１つの単語として、前記辞書に登録することを特徴とする辞書登録システム。

【請求項6】

同形異音語が、文脈により読み方が決まるか否かに基づいて、グループ分けを行うことを特徴とする請求項５に記載の辞書登録システム。

【請求項7】

各グループにおいて、各形態素に与えられている注釈から、形態素に発音情報を付加することを特徴とする請求項６に記載の辞書登録システム。

【請求項8】

音声認識に用いられる辞書に単語を登録する辞書登録方法であって、
同形異音語において、
文脈により読み方が決まる同形異音語を、２以上の別の単語として、前記辞書に登録し、
文脈により読み方が決まらない同形異音語を、１つの単語として、前記辞書に登録することを特徴とする辞書登録方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、音声を認識する音声認識システム、音声認識方法、音声認識に用いられる辞書に単語を登録する辞書登録システム、及び、辞書登録方法に関する。

【背景技術】

【0002】

日本語の音声認識において、同形異音語が多数存在するという言語的特徴が問題となる場合ある。「同形異音語」とは、同じ表記でありながら異なる読み（発音）を持つ語を指す。例えば、「２」の場合、「ニ」、「ジ」等の読み方がある。しかしながら、「２」の発音の仕方として、「ニ／ジ」を辞書に登録した場合、「９時／クジ」という音声を、「９２／クジ」と誤って認識してしまうことがある。

【0003】

上述した問題を解決する従来技術として、同形異音語を読み方ごとに別々の単語として扱う手法が知られている（例えば、特許文献１参照。）。この手法では、例えば、「２／ニ」、「２／ジ」をそれぞれ別々の単語として、辞書に登録する。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開２００７－００４６３３号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかしながら、上述した従来技術では、「言う／イウ」と「言う／ユー」のような、単なる読み方の微妙な違いでしかない語についても区別することになり、Ｎグラムが肥大化してしまうという問題がある。

【0006】

本発明の目的は、Ｎグラムの肥大化を防止することである。

【課題を解決するための手段】

【0007】

第１の発明の音声認識システムは、辞書を用いて音声を認識する音声認識システムであって、同形異音語において、文脈により読み方が決まる同形異音語は、２以上の別の単語として、前記辞書に登録され、文脈により読み方が決まらない同形異音語は、１つの単語として、前記辞書に登録されていることを特徴とする。

【0008】

本発明では、文脈により読み方が決まる同形異音語は、２以上の別の単語として、辞書に登録される。また、文脈により読み方が決まらない同形異音語は、１つの単語として、辞書に登録される。これにより、Ｎグラムが肥大化することがない。

【0009】

第２の発明の音声認識システムは、第１の発明の音声認識システムにおいて、同形異音語が、前記辞書に登録されるときに、文脈により読み方が決まるか否かに基づいて、グループ分けが行われることを特徴とする。

【0010】

第３の発明の音声認識システムは、第２の発明の音声認識システムにおいて、各グループにおいて、各形態素に与えられている注釈から、形態素に発音情報が付加されることを特徴とする。

【0011】

第４の発明の音声認識方法は、辞書を用いて音声を認識する音声認識方法であって、同形異音語において、文脈により読み方が決まる同形異音語は、２以上の別の単語として、前記辞書に登録され、文脈により読み方が決まらない同形異音語は、１つの単語として、前記辞書に登録されていることを特徴とする。

【0012】

第５の発明の辞書登録システムは、音声認識に用いられる辞書に単語を登録する辞書登録システムであって、同形異音語において、文脈により読み方が決まる同形異音語を、２以上の別の単語として、前記辞書に登録し、文脈により読み方が決まらない同形異音語を、１つの単語として、前記辞書に登録することを特徴とする。

【0013】

第６の発明の辞書登録システムは、第５の発明の辞書登録システムにおいて、同形異音語が、文脈により読み方が決まるか否かに基づいて、グループ分けを行うことを特徴とする。

【0014】

第７の発明の辞書登録システムは、第６の発明の辞書登録システムにおいて、各グループにおいて、各形態素に与えられている注釈から、形態素に発音情報を付加することを特徴とする。

【0015】

第８の発明の辞書登録方法は、音声認識に用いられる辞書に単語を登録する辞書登録方法であって、同形異音語において、文脈により読み方が決まる同形異音語を、２以上の別の単語として、前記辞書に登録し、文脈により読み方が決まらない同形異音語を、１つの単語として、前記辞書に登録することを特徴とする。

【発明の効果】

【0016】

本発明によれば、Ｎグラムが肥大化することがない

【図面の簡単な説明】

【0017】

【図1】グループ分けの例を示す図である。

【図2】辞書登録における処理動作を示すフローチャートである。

【発明を実施するための形態】

【0018】

以下、本発明の実施形態について説明する。音声を認識する音声認識システムは、例えば、マイクロホン、スピーカー等を備えるスピーカー装置、スピーカー装置と通信するクラウドサーバーから構成される。スピーカー装置において、ユーザーが発話した音声が、マイクロホンにより、集音される。スピーカー装置において集音された音声が、クラウドサーバーに送信され、クラウドサーバーにおいて、音声認識が行われる。なお、音声認識システムは、例えば、マイクロホン、スピーカー等を備えるスピーカー装置のみにより構成され、スピーカー装置で音声認識が行われてもよい。また、音声認識機能を備えていれば、上述のスピーカー装置に限られず、他の電子機器のみで、音声認識システムが構成されていてもよい。

【0019】

上述の音声認識システムにおいて、音声認識に、辞書が用いられる。辞書には、単語が登録されている。辞書に登録されている同形異音語において、文脈により読み方が決まる同形異音語は、２以上の別の単語として、辞書に登録されている。文脈により読み方が決まらない同形異音語は、１つの単語として、辞書に登録されている。従って、単語の辞書登録時、文脈により読み方が決まる同形異音語を、２以上の別の単語として、辞書に登録する。また、文脈により読み方が決まらない同形異音語を、１つの単語として、辞書に登録する。

【0020】

同形異音語が、辞書に登録されるときに、文脈により読み方が決まるか否かに基づいて、グループ分けが行われる。図１は、グループ分けの例を示す図である。（ａ）は、「言う」の場合の例を示し、（ｂ）は、「１」の場合の例を示している。「言う」の場合、文脈により読み方が決まらないため、１つのグループ（グループＡ）となる。また、「１」の場合、文脈により読み方が決まるため（「１／イチ」、「１／イッ」、「１／ヒト」）、グループＡ～Ｃにグループ分けされる。また、各グループにおいて、各形態素に与えられている注釈から、形態素に発音情報が付加される。例えば、「言う」の場合、「イウ」、「ユー」が付加される。また、「１」のグループＡの場合、「イチ」、「イーチ」が付加される。

【0021】

図２は、辞書登録における処理動作を示すフローチャートである。まず、コーパスが作成される（Ｓ１）次に、音響モデルのトレーニングが行われる（Ｓ２）。次に、同形異音語のグループ分けが行われる（Ｓ３）。次に、形態素に発音情報が付加される（Ｓ４）。次に、言語モデルのトレーニングが行われる（Ｓ５）。

【0022】

以上説明したように、本実施形態では、文脈により読み方が決まる同形異音語は、２以上の別の単語として、辞書に登録される。また、文脈により読み方が決まらない同形異音語は、１つの単語として、辞書に登録される。これにより、Ｎグラムが肥大化することがない。

【0023】

また、本実施形態では、各グループにおいて、各形態素に与えられている注釈から、形態素に発音情報が付加される。これにより、同形異音語をグループ毎に別の形態素として扱うことができ、Ｎグラムも別々のものとして計算されるようになる。

【0024】

以上、本発明の実施形態について説明したが、本発明を適用可能な形態は、上述の実施形態には限られるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更を加えることが可能である。

【産業上の利用可能性】

【0025】

本発明は、音声を認識する音声認識システム、音声認識方法、音声認識に用いられる辞書に単語を登録する辞書登録システム、及び、辞書登録方法に好適に採用され得る。

【図1】

【図2】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版