IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ オンキヨー株式会社の特許一覧

特開2024-84169音声認識システム、及び、音声認識方法
<>
  • 特開-音声認識システム、及び、音声認識方法 図1
  • 特開-音声認識システム、及び、音声認識方法 図2
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024084169
(43)【公開日】2024-06-25
(54)【発明の名称】音声認識システム、及び、音声認識方法
(51)【国際特許分類】
   G10L 15/06 20130101AFI20240618BHJP
   G10L 15/22 20060101ALI20240618BHJP
   G10L 15/00 20130101ALI20240618BHJP
【FI】
G10L15/06 400V
G10L15/22 200H
G10L15/00 200A
【審査請求】未請求
【請求項の数】11
【出願形態】OL
(21)【出願番号】P 2022198287
(22)【出願日】2022-12-13
(71)【出願人】
【識別番号】720009479
【氏名又は名称】オンキヨー株式会社
(72)【発明者】
【氏名】平田 穂奈美
(57)【要約】
【課題】人名の音声認識率を向上させる手段を提供すること。
【解決手段】音声認識システムは、名前を音声認識するためのモデルであって、名前の出現率が、複数の所定の年齢層及び性別に基づき補正された複数の名前用モデルから、発話者の年齢及び性別に基づき選択した名前用モデルを用いて、発話者によって発話された名前を音声認識する。名前用モデルは、年齢及び性別に多い名前の出現率が高くなるように補正されている。音声認識システムは、名前用モデルとは別のモデルを用いて、発話者によって発話された名前以外の発話を音声認識する。
【選択図】図2
【特許請求の範囲】
【請求項1】
名前を音声認識するためのモデルであって、名前の出現率が、複数の所定の年齢層及び性別に基づき補正された複数の名前用モデルから、発話者の年齢及び性別に基づき選択した名前用モデルを用いて、発話者によって発話された名前を音声認識することを特徴とする音声認識システム。
【請求項2】
名前を音声認識するためのモデルであって、名前の出現率が、年齢及び性別に基づき補正された複数の名前用モデルから、発話者の年齢及び性別に基づき選択した名前用モデルを用いて、発話者によって発話された名前を音声認識することを特徴とする音声認識システム。
【請求項3】
名前用モデルは、年齢及び性別に多い名前の出現率が高くなるように補正されていることを特徴とする請求項1又は2に記載の音声認識システム。
【請求項4】
年齢及び性別の入力を受け付け、
入力を受け付けた年齢及び性別に基づいて、複数の名前用モデルから、音声認識に用いる名前用モデルを選択し、
選択した名前用モデルを用いて、発話者によって発話された名前を音声認識することを特徴とする請求項1又は2に記載の音声認識システム。
【請求項5】
発話者に年齢及び性別の入力を促す音声を出力し、
音声出力後に年齢及び性別の入力を受け付けることを特徴とする請求項4に記載の音声認識システム。
【請求項6】
発話者に名前の音声入力を促す音声を出力し、
音声出力後の発話者からの発話を名前として音声認識することを特徴とする請求項1又は2に記載の音声認識システム。
【請求項7】
名前用モデルとは別のモデルを用いて、発話者によって発話された名前以外の発話を音声認識することを特徴とする請求項1又は2に記載の音声認識システム。
【請求項8】
発話者に名前以外の音声入力を促す音声を出力し、
音声出力後の発話者からの発話を名前用モデルとは別のモデルを用いて音声認識することを特徴とする請求項7に記載の音声認識システム。
【請求項9】
入電を受電し、受電した電話の通話音声を認識することを特徴とする請求項1又は2に記載の音声認識システム。
【請求項10】
名前を音声認識するためのモデルであって、名前の出現率が、複数の所定の年齢層及び性別に基づき補正された複数の名前用モデルから、発話者の年齢及び性別に基づき選択した名前用モデルを用いて、発話者によって発話された名前を音声認識することを特徴とする音声認識方法。
【請求項11】
名前を音声認識するためのモデルであって、名前の出現率が、年齢及び性別に基づき補正された複数の名前用モデルから、発話者の年齢及び性別に基づき選択した名前用モデルを用いて、発話者によって発話された名前を音声認識することを特徴とする音声認識方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認識を行う音声認識システム、及び、音声認識方法に関する。
【背景技術】
【0002】
近年、音声認識技術の向上により、音声認識を用いたコールシステムが普及し始めている。ここで、「コールシステム」とは、利用者からの入電を受電し、利用者の発話に対応するシステムを意味する。音声認識を用いたコールシステムでは、例えば、以下の手法が用いられる場合がある。
1.受電後、利用者が発話した利用者の名前(氏名)・用件等を音声認識する。
2.入電履歴・入電履歴の詳細を確認するためのビュアーに、音声認識結果を表示する。
【0003】
音声認識を用いたコールシステムにおいて、全ての音声認識に、単一の一般的な音声認識エンジンが用いられると、一般名詞の多い要件のような場合の認識率に比べ、人名の認識率が下がる問題があった。この問題の改善策として、例えば、広く名付けられているような名前に重みを付けて、全体の正答率を上げる方法が考えられる。しかしながら、名前には流行があるため、コールシステムで扱われるサービスの年齢層次第では、逆効果になる可能性もある。
【0004】
なお、特許文献1には、周囲音声を音声認識し、音声認識結果から利用者の呼び名を決定する情報処理装置において、呼び名の決定に名前のランキングが用いられる発明が開示されている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2021-032992号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
上述したように、人名の音声認識においては、誤った音声認識が行われる可能性が高いという問題がある。
【0007】
本発明の目的は、人名の音声認識率を向上させる手段を提供することである。
【課題を解決するための手段】
【0008】
第1の発明の音声認識システムは、名前を音声認識するためのモデルであって、名前の出現率が、複数の所定の年齢層及び性別に基づき補正された複数の名前用モデルから、発話者の年齢及び性別に基づき選択した名前用モデルを用いて、発話者によって発話された名前を音声認識することを特徴とする。
【0009】
本発明では、音声認識システムは、名前を音声認識するためのモデルであって、名前の出現率が、複数の所定の年齢層及び性別に基づき補正された複数の名前用モデルから、発話者の年齢及び性別に基づき選択した名前用モデルを用いて、発話者によって発話された名前を音声認識する。例えば、名前用モデルは、所定の年齢層(例えば、10歳代、20歳代、30歳代、40歳代・・・のように、10歳毎)及び性別(男性、女性)に多い名前の発現率が高くなるように補正されている。このような複数の名前用モデルから、発話者の年齢及び性別に応じた名前用モデルが選択される。例えば、発話者の年齢が42歳、性別が女性であれば、40歳代の女性に多い名前の発現率が高くなるように補正された、40歳代・女性の名前用モデルが選択され、音声認識が行われる。このため、本発明によれば、人名の音声認識率が向上する。
【0010】
すなわち、名前の音声認識に年代の流行と性別とを加味した適切な補正がかかるため、システムの全体的な名前認識率をサービスの年齢層に因らず、底上げすることができる。
【0011】
第2の発明の音声認識システムは、名前を音声認識するためのモデルであって、名前の出現率が、年齢及び性別に基づき補正された複数の名前用モデルから、発話者の年齢及び性別に基づき選択した名前用モデルを用いて、発話者によって発話された名前を音声認識することを特徴とする。
【0012】
本発明では、音声認識システムは、名前を音声認識するためのモデルであって、名前の出現率が、年齢及び性別に基づき補正された複数の名前用モデルから、発話者の年齢及び性別に基づき選択した名前用モデルを用いて、発話者によって発話された名前を音声認識する。例えば、名前用モデルは、年齢(例えば、20歳、21歳、22歳・・・のように年齢毎)及び性別(男性、女性)に多い名前の発現率が高くなるように補正されている。このような複数の名前用モデルから、発話者の年齢及び性別に応じた名前用モデルが選択される。例えば、発話者の年齢が22歳、性別が男性であれば、22歳の男性に多い名前の発現率が高くなるように補正された、音声認識が行われるため、人名の音声認識率が向上する。
【0013】
すなわち、名前の音声認識に年代の流行と性別とを加味した適切な補正がかかるため、システムの全体的な名前認識率をサービスの年齢層に因らず、底上げすることができる。
【0014】
第3の発明の音声認識システムは、第1又は第2の発明の音声認識システムにおいて、 名前用モデルは、年齢及び性別に多い名前の出現率が高くなるように補正されていることを特徴とする。
【0015】
第4の発明の音声認識システムは、第1又は第2の発明の音声認識システムにおいて、年齢及び性別の入力を受け付け、入力を受け付けた年齢及び性別に基づいて、複数の名前用モデルから、音声認識に用いる名前用モデルを選択し、選択した名前用モデルを用いて、発話者によって発話された名前を音声認識することを特徴とする。
【0016】
第5の発明の音声認識システムは、第4の発明の音声認識システムにおいて、発話者に年齢及び性別の入力を促す音声を出力し、音声出力後に年齢及び性別の入力を受け付けることを特徴とする。
【0017】
第6の発明の音声認識システムは、第1又は第2の発明の音声認識システムにおいて、発話者に名前の音声入力を促す音声を出力し、音声出力後の発話者からの発話を名前として音声認識することを特徴とする。
【0018】
第7の発明の音声認識システムは、第1又は第2の発明の音声認識システムにおいて、名前用モデルとは別のモデルを用いて、発話者によって発話された名前以外の発話を音声認識することを特徴とする。
【0019】
第8の発明の音声認識システムは、第7の発明の音声認識システムにおいて、発話者に名前以外の音声入力を促す音声を出力し、音声出力後の発話者からの発話を名前用モデルとは別のモデルを用いて音声認識することを特徴とする。
【0020】
第9の発明の音声認識システムは、第1又は第2の発明の音声認識システムにおいて、入電を受電し、受電した電話の通話音声を認識することを特徴とする。
【0021】
第10の発明の音声認識方法は、名前を音声認識するためのモデルであって、名前の出現率が、複数の所定の年齢層及び性別に基づき補正された複数の名前用モデルから、発話者の年齢及び性別に基づき選択した名前用モデルを用いて、発話者によって発話された名前を音声認識することを特徴とする。
【0022】
第11の発明の音声認識方法は、名前を音声認識するためのモデルであって、名前の出現率が、年齢及び性別に基づき補正された複数の名前用モデルから、発話者の年齢及び性別に基づき選択した名前用モデルを用いて、発話者によって発話された名前を音声認識することを特徴とする。
【発明の効果】
【0023】
本発明によれば、人名の音声認識率が向上する。
【図面の簡単な説明】
【0024】
図1】名前用モデルの一例を示す図である。
図2】モデルの選択を説明するための図である。
【0025】
以下、本発明の実施形態について説明する。本実施形態では、音声認識を行う音声認識システムを、利用者からの入電を受電し、利用者の発話に対応するコールシステムに適用した例について説明する。すなわち、コールシステムは、利用者からの入電を受電し、受電した電話の通話(発話)音声を認識する。音声認識は、例えば、クラウド上で実現される。
【0026】
本実施形態では、音声認識のための音声認識エンジンとして、(A)名前用のモデル(名前用モデル)と、(B)一般的なモデル(用件用モデル)とが、用いられる。(A)名前用モデルとして、図1に示すように、年代が1940年から10年単位で区切られ、個々の年代に名付けられることが多かった名前に、男女別で重みを付けてそれぞれ学習させたモデルが、現在分まで用意される。
【0027】
言い換えれば、名前用モデルは、名前を音声認識するためのモデルにおいて、名前の出現率が、複数の所定の年齢層(例えば、図1に示すように、1940年代から10年単位)及び性別(男性、女性)に基づき補正されたモデルである。具体的には、名前用モデルは、年齢及び性別に多い名前の出現率が高くなるように補正されている。例えば、1980年生まれの男性に多い名前は、大輔(だいすけ)、誠(まこと)、直樹(なおき)、哲也(てつや)、剛(つよし、たけし)等である。従って、1980年代・男性の名前用モデルにおいては、例えば、これらの名前の出現率が高くなるように補正されている。
【0028】
コールシステムは、通話先の利用者(発話者)によって発話された名前を、利用者の年齢及び性別に基づき選択した名前用モデルを用いて、利用者によって発話された名前を音声認識する。例えば、コールシステムは、利用者の年齢が25歳、性別が女性であり、現在、2022年であれば、1990年代・女性の名前用モデルを用いて、利用者によって発話された名前を音声認識する。
【0029】
コールシステムは、利用者からの入電の受電後、通話先の利用者に年齢及び性別の入力を促す音声を出力する。コールシステムは、音声出力後に年齢及び性別のボタン入力を受け付ける。コールシステムは、入力を受け付けた年齢及び性別に基づいて、名前用モデルを選択する。コールシステムは、選択した名前用モデルを用いて、利用者によって発話された名前を音声認識する。
【0030】
コールシステムは、利用者による年齢及び性別の入力を受け付けた後、利用者に名前の音声入力を促す音声を出力する。コールシステムは、音声出力後の利用者からの発話を名前として音声認識する。
【0031】
コールシステムは、名前の音声入力を受け付けた後、利用者に名前以外、すなわち、用件の音声入力を促す音声を出力する。コールシステムは、音声出力後の利用者からの発話を名前用モデルとは別のモデル、すなわち、(B)用件用モデルを用いて音声認識する。(B)用件用モデルとして、用件の認識に用いられる、従来の一般的なモデルが用意される。
【0032】
以下、本実施形態に係るコールシステムのフローについて説明する。
(1)コールシステムは、利用者からの電話を受信する。
(2)コールシステムは、利用者に年齢と性別とのボタン入力を促す音声を出力する。コールシステムは、年齢のボタン入力を促す音声として、例えば、「数字ボタンで年齢を入力した後、シャープを押してください」という音声を出力する。また、コールシステムは、性別のボタン入力を促す音声として、例えば、「男性の方は、1、女性の方は、2を押した後、シャープを押してください」という音声を出力する。
(3)コールシステムは、ボタンによる入力を受け付ける。
(4)コールシステムは、受け付けた入力内容に基づいて、(A)名前用モデルから最適なモデルを選択する。例えば、コールシステムは、年齢として、「40」、性別として、「2」の入力を受け付けたとする。この場合、現在、2022年であれば、利用者は、「1982年生まれの女性」であるから、コールシステムは、図2に示すように、「1980-89年 女性モデル」を選択する。
(5)コールシステムは、利用者に名前の音声入力を促す音声を出力する。コールシステムは、利用者に名前の音声入力を促す音声として、例えば、「お名前をお話しください」という音声を出力する。
(6)コールシステムは、選択したモデルを用いて、音声認識を行う。例えば、コールシステムは、選択した「1980-89年 女性モデル」を用いて、音声認識を行う。
(7)コールシステムは、音声認識結果を、データベース(DB)等に保存する。
(8)コールシステムは、利用者に用件の音声入力を促す音声を出力する。コールシステムは、利用者に用件の音声入力を促す音声として、例えば、「ご用件をお話しください」という音声を出力する。
(9)コールシステムは、(B)用件用モデルを用いて、音声認識を行う。
(10)コールシステムは、音声認識結果を、データベース(DB)等に保存する。
【0033】
以上説明したように、本実施形態では、コールシステム(音声認識システム)は、名前を音声認識するためのモデルであって、名前の出現率が、複数の所定の年齢層及び性別に基づき補正された複数の名前用モデルから、発話者の年齢及び性別に基づき選択した名前用モデルを用いて、発話者によって発話された名前を音声認識する。例えば、名前用モデルは、所定の年齢層(例えば、1940年代、1950年代、1960年代・・・のように、10年毎)及び性別(男性、女性)に多い名前の発現率が高くなるように補正されている。このような複数の名前用モデルから、発話者の年齢及び性別に応じた名前用モデルが選択される。例えば、発話者の年齢が42歳、性別が女性であれば、1980代の女性に多い名前の発現率が高くなるように補正された、1980年代・女性の名前用モデルが選択され、音声認識が行われる。このため、本実施形態によれば、人名の音声認識率が向上する。
【0034】
すなわち、名前の音声認識に年代の流行と性別とを加味した適切な補正がかかるため、システムの全体的な名前認識率をサービスの年齢層に因らず、底上げすることができる。
【0035】
以上、本発明の実施形態について説明したが、本発明を適用可能な形態は、上述の実施形態には限られるものではなく、以下に例示するように、本発明の趣旨を逸脱しない範囲で適宜変更を加えることが可能である。
【0036】
上述の実施形態においては、名前用モデルは、名前を音声認識するためのモデルにおいて、名前の出現率が、複数の所定の年齢層(例えば、図1に示すように、1940年代から10年単位)及び性別(男性、女性)に基づき補正されたモデルである。これに限らず、名前用モデルは、名前を音声認識するためのモデルにおいて、名前の出現率が、年齢及び性別に基づき補正されたモデルであってもよい。すなわち、複数の所定の年齢層ではなく、各年齢(21歳、22歳、23歳・・・)に応じて補正されたモデルであってもよい。
【0037】
この場合、コールシステム(音声認識システム)は、名前を音声認識するためのモデルであって、名前の出現率が、年齢及び性別に基づき補正された複数の名前用モデルから、発話者の年齢及び性別に基づき選択した名前用モデルを用いて、発話者によって発話された名前を音声認識する。例えば、名前用モデルは、年齢(例えば、20歳、21歳、22歳・・・のように年齢毎)及び性別(男性、女性)に多い名前の発現率が高くなるように補正されている。このような複数の名前用モデルから、発話者の年齢及び性別に応じた名前用モデルが選択される。例えば、発話者の年齢が22歳、性別が男性であれば、22歳の男性に多い名前の発現率が高くなるように補正された、音声認識が行われるため、人名の音声認識率が向上する。すなわち、名前の音声認識に年代の流行と性別とを加味した適切な補正がかかるため、システムの全体的な名前認識率をサービスの年齢層に因らず、底上げすることができる。
【0038】
上述の実施形態においては、コールシステムは、年齢及び性別のボタン入力を受け付けるようになっている。これに限らず、コールシステムは、年齢及び性別の音声入力を受け付けるようになっていてもよい。
【産業上の利用可能性】
【0039】
本発明は、音声認識を行う音声認識システム、及び、音声認識方法に好適に採用され得る。
図1
図2