IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ オンキヨー株式会社の特許一覧

特開2022-94442音声認識システム、及び、音声認識方法
<>
  • 特開-音声認識システム、及び、音声認識方法 図1
  • 特開-音声認識システム、及び、音声認識方法 図2
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022094442
(43)【公開日】2022-06-27
(54)【発明の名称】音声認識システム、及び、音声認識方法
(51)【国際特許分類】
   G10L 15/22 20060101AFI20220620BHJP
   G10L 15/00 20130101ALI20220620BHJP
   G06F 3/16 20060101ALI20220620BHJP
【FI】
G10L15/22 470Z
G10L15/22 460Z
G10L15/00 200A
G10L15/22 200H
G06F3/16 650
【審査請求】未請求
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2020207326
(22)【出願日】2020-12-15
(71)【出願人】
【識別番号】720009479
【氏名又は名称】オンキヨー株式会社
(72)【発明者】
【氏名】日月 伸也
(57)【要約】
【課題】音声認識における誤認識を防止する手段を提供すること。
【解決手段】音声認識システムは、音声を認識する音声認識処理と、音声認識処理の結果から、所定部分と推定される結果を特定する特定処理と、特定処理により特定された所定部分と同音の漢字を検索する漢字検索処理と、漢字検索処理により検索された同音の漢字と、音声認識処理による漢字と、を表示する表示処理と、を実行する。所定部分は、氏、又は、名である。さらに、音声認識システムは、表示処理により表示される、漢字検索処理により検索された同音の漢字と、前記認識処理による漢字と、から、いずれかの選択を受け付ける受付処理をさらに実行する。
【選択図】図1
【特許請求の範囲】
【請求項1】
音声を認識する音声認識処理と、
前記音声認識処理の結果から、所定部分と推定される結果を特定する特定処理と、
前記特定処理により特定された前記所定部分と同音の漢字を検索する漢字検索処理と、
前記漢字検索処理により検索された前記同音の漢字と、前記音声認識処理による漢字と、を表示する表示処理と、
を実行することを特徴とする音声認識システム。
【請求項2】
前記表示処理により表示される、前記漢字検索処理により検索された前記同音の漢字と、前記音声認識処理による漢字と、から、いずれかの選択を受け付ける受付処理をさらに実行することを特徴とする請求項1に記載の音声認識システム。
【請求項3】
前記受付処理により受け付けられた漢字を、音声認識結果として決定する決定処理をさらに実行することを特徴とする請求項2に記載の音声認識システム。
【請求項4】
外部からの着信を受電する受電処理をさらに実行し、
前記音声認識処理において、前記受電処理により受電された着信からの音声を認識することを特徴とする請求項1~3のいずれか1項に記載の音声認識システム。
【請求項5】
前記受電処理において、受電後、発話を促す音声ガイドを送出することを特徴とする請求項4に記載の音声認識システム。
【請求項6】
前記音声ガイドは、住所、氏名の発話を促す音声ガイドであることを特徴とする請求項5に記載の音声認識システム。
【請求項7】
前記所定部分は、同音の漢字が複数存在する部分であることを特徴とする請求項1~6のいずれか1項に記載の音声認識システム。
【請求項8】
前記所定部分は、氏、又は、名であることを特徴とする請求項1~7のいずれか1項に記載の音声認識システム。
【請求項9】
音声を認識する音声認識処理と、
前記音声認識処理の結果から、所定部分と推定される結果を特定する特定処理と、
前記特定処理により特定された前記所定部分と同音の漢字を検索する漢字検索処理と、
前記漢字検索処理により検索された前記同音の漢字と、前記音声認識処理による漢字と、を表示する表示処理と、
を実行することを特徴とする音声認識方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認識を行う音声認識システム、及び、音声認識方法に関する。
【背景技術】
【0002】
音声認識が用いられ、日本語の音声からテキストに人名が変換された場合、都道府県名と同じ発音の苗字が、人名ではなく、都道府県名に誤認識されたり、異なる漢字の氏名が誤った漢字で出力されたりする場合がある。例えば、「ナガノ」という発音の苗字は、「長野」、「永野」の場合があるが、都道府県名と同じ「長野」に誤認識される場合がある(図2参照。)。例えば、音声認識された情報に基づいて、荷物等を配達するサービスでは(例えば、特許文献1参照。)、誤った氏名で送付されると、誤配達となる可能性があり、問題である。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2020-057932号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
上述したように、音声認識において、誤認識が発生すると、問題が発生する可能性がある。
【0005】
本発明の目的は、音声認識における誤認識を防止する手段を提供することである。
【課題を解決するための手段】
【0006】
第1の発明の音声認識システムは、音声を認識する音声認識処理と、前記音声認識処理の結果から、所定部分と推定される結果を特定する特定処理と、前記特定処理により特定された前記所定部分と同音の漢字を検索する漢字検索処理と、前記漢字検索処理により検索された前記同音の漢字と、前記音声認識処理による漢字と、を表示する表示処理と、を実行することを特徴とする。
【0007】
本発明では、音声認識処理による漢字と、漢字検索処理により検索された同音の漢字と、が表示される。これにより、オペレーター等は、正しい漢字を選択することができるため、音声認識における誤認識を防止することができる。
【0008】
第2の発明の音声認識システムは、第1の発明の音声認識システムにおいて、前記表示処理により表示される、前記漢字検索処理により検索された前記同音の漢字と、前記音声認識処理による漢字と、から、いずれかの選択を受け付ける受付処理をさらに実行することを特徴とする。
【0009】
第3の発明の音声認識システムは、第2の発明の音声認識システムにおいて、前記受付処理により受け付けられた漢字を、音声認識結果として決定する決定処理をさらに実行することを特徴とする。
【0010】
第4の発明の音声認識システムは、第1~第3のいずれかの発明の音声認識システムにおいて、外部からの着信を受電する受電処理をさらに実行し、前記音声認識処理において、前記受電処理により受電された着信からの音声を認識することを特徴とする。
【0011】
第5の発明の音声認識システムは、第4の発明の音声認識システムにおいて、前記受電処理において、受電後、発話を促す音声ガイドを送出することを特徴とする
【0012】
第6の発明の音声認識システムは、第5の発明の音声認識システムにおいて、前記音声ガイドは、住所、氏名の発話を促す音声ガイドであることを特徴とする。
【0013】
第7の発明の音声認識システムは、第1~第6のいずれかの発明の音声認識システムにおいて、前記所定部分は、同音の漢字が複数存在する部分であることを特徴とする。
【0014】
第8の発明の音声認識システムは、第1~第7のいずれかの発明の音声認識システムにおいて、前記書知恵部分は、氏、又は、名であることを特徴とする。
【0015】
第9の発明の音声認識方法は、音声を認識する音声認識処理と、前記音声認識処理の結果から、所定部分と推定される結果を特定する特定処理と、前記特定処理により特定された前記所定部分と同音の漢字を検索する漢字検索処理と、前記漢字検索処理により検索された前記同音の漢字と、前記音声認識処理による漢字と、を表示する表示処理と、を実行することを特徴とする。
【発明の効果】
【0016】
本発明によれば、オペレーター等は、正しい漢字を選択することができるため、音声認識における誤認識を防止することができる。
【図面の簡単な説明】
【0017】
図1】音声認識処理の結果を示す図である。
図2】従来の音声認識処理の結果を示す図である。
【0018】
以下、本発明の実施形態について説明する。本実施形態では、音声認識を行う音声認識システムを、電話の自動応答システム(以下、単に「自動応答システム」という。)に適用した場合について説明する。自動応答システムは、音声を認識するクラウドサーバー、クラウドサーバーによる音声認識結果を格納するデータべース等から構成される。自動応答システムの動作の概要は以下の通りである、自動応答システムは、ユーザーからの着信を受電する。自動応答システムは、着信からの音声(ユーザーによる住所、氏名の発話)を認識し、音声認識結果をデータベースに格納する。データベースに格納された音声認識結果(データ)に基づいて、荷物等の発送が行われる。なお、音声認識は、上述したクラウドサーバーに限らず、他の音声認識を実行可能な装置等によって行われてもよい。
【0019】
自動応答システムは、受電処理、音声認識処理、特定処理、漢字検索処理、表示処理、受付処理、決定処理等を行う。以下、各処理について説明する。
【0020】
受電処理は、外部からの着信を受電する処理である。自動応答システムは、受電処理において、受電後、ユーザーによる発話を促す音声ガイドを送出する(流す)。音声ガイドは、ユーザーによる住所、氏名の発話を促す音声ガイドであり、例えば、「ピーという音の後、住所、氏名をお願いします。」というような音声ガイドである。ユーザーは、自動応答システムに割り当てられた電話番号に発信し、音声ガイドに従って、住所、氏名を発話する。
【0021】
音声認識処理は、受電処理により受電された着信からの音声を認識する処理である。自動音声システムは、ユーザーによる発話の音声データを、一旦、ストレージに格納する(録音)。その後、自動応答システムは、音声データをテキストに変換する。自動応答システムは、変換したテキストを、データベースに格納する。
【0022】
ここで、発話データ毎に音声データがわかれているため、自動応答システムは、音声データに、どの(氏名、住所)が含まれているか、を判断することは容易である。しかしながら、音声認識に汎用のシステムが用いられた場合、氏名が誤認識される場合がある。例えば、ユーザーが、「ながの」と発話したとき、正しい氏が、「永野」であっても、都道府県と同じ「長野」と認識される可能性が高い。また、ユーザーが、「おがわ」と発話した場合、「小川」、「尾川」、「緒川」と多くの候補があるため(図1参照)、自動応答システムは、正しい漢字を選択することは難しい。この問題を解決するため、本実施形態では、自動応答システムは、苗字(氏)と推定される単語を検出した場合、内蔵されている同音の単語リストから同じ苗字を検索し、苗字の他の候補として、情報を追加する。
【0023】
特定処理は、音声認識処理の結果から、所定部分(同音の漢字が複数存在する部分)と推定される結果を特定する処理である。本実施形態では、所定部分は、氏(苗字)(又は、名)である。従って、特定処理において、氏(苗字)と推定される結果が特定される。漢字検索処理は、特定処理により特定された氏(苗字)と同音の漢字を検索する処理である。例えば、特定処理により特定された氏(苗字)が、「小川」である場合、同音の漢字として、「尾川」、「緒川」が検索される。
【0024】
表示処理は、漢字検索処理により検索された同音の漢字と、音声認識処理による漢字と、を表示する処理である。例えば、音声認識処理による漢字が「小川」であり、同音の漢字として、「尾川」、「緒川」が検索された場合、漢字検索処理により検索された同音の漢字「尾川」、「緒川」と、音声認識処理による漢字「小川」と、が表示される。
【0025】
受付処理は、表示処理により表示される、漢字検索処理により検索された同音の漢字と、音声認識処理よる漢字と、から、いずれかの選択を受け付ける。例えば、自動応答システムを利用するコールセンターのオペレーター等は、表示された複数の漢字の候補から、いずれかを選択する。決定処理は、受付処理により受け付けられた漢字を、音声認識結果として決定する処理である。自動応答システムは、決定した漢字を、データベースに格納する。そして、データベースに格納された情報に基づいて、荷物等が発送される。
【0026】
以上説明したように、本実施形態では、音声認識処理による漢字(例えば、「小川」)と、漢字検索処理により検索された同音の漢字(例えば、「尾川」、「緒川」)と、が表示される。これにより、オペレーター等は、正しい漢字を選択することができるため、音声認識における誤認識を防止することができる。
【0027】
以上、本発明の実施形態について説明したが、本発明を適用可能な形態は、上述の実施形態には限られるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更を加えることが可能である。
【産業上の利用可能性】
【0028】
本発明は、音声認識を行う音声認識システム、及び、音声認識方法に好適に採用され得る。
図1
図2