(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024087465
(43)【公開日】2024-07-01
(54)【発明の名称】音声処理装置
(51)【国際特許分類】
G10L 15/28 20130101AFI20240624BHJP
G10L 15/10 20060101ALI20240624BHJP
G10L 15/00 20130101ALI20240624BHJP
【FI】
G10L15/28 353
G10L15/10 200W
G10L15/00 200J
【審査請求】未請求
【請求項の数】4
【出願形態】OL
(21)【出願番号】P 2022202302
(22)【出願日】2022-12-19
(71)【出願人】
【識別番号】000005348
【氏名又は名称】株式会社SUBARU
(74)【代理人】
【識別番号】110001357
【氏名又は名称】弁理士法人つばさ国際特許事務所
(72)【発明者】
【氏名】阿久津 岳志
(57)【要約】
【課題】ユーザが発した音声に応じた処理を適切に行うことができる音声処理装置を得る。
【解決手段】本発明の一実施の形態に係る車外環境検出システムは、音声データに基づいて音声データに含まれる、予め定められた音声コマンドを検出する音声解析部と、音声解析部により検出された音声コマンドに基づいて、その音声コマンドが示す処理を指示する制御信号を生成する制御信号生成部とを備える。音声コマンドは、第1の部分と、第1の部分よりも後に配置され、動詞を含む第2の部分と、第2の部分よりも後に配置され、第1の部分と同じである第3の部分とを含む。
【選択図】
図4
【特許請求の範囲】
【請求項1】
音声データに基づいて、前記音声データに含まれる、予め定められた音声コマンドを検出する音声解析部と、
前記音声解析部により検出された前記音声コマンドに基づいて、その音声コマンドが示す処理を指示する制御信号を生成する制御信号生成部と
を備え、
前記音声コマンドは、第1の部分と、前記第1の部分よりも後に配置され、動詞を含む第2の部分と、前記第2の部分よりも後に配置され、前記第1の部分と同じである第3の部分とを含む
音声処理装置。
【請求項2】
前記第1の部分における文字の数は、前記第2の部分における文字の数よりも少ない
請求項1に記載の音声処理装置。
【請求項3】
前記第1の部分は、前記第2の部分に含まれる前記動詞の目的語を含む
請求項1に記載の音声処理装置。
【請求項4】
前記音声処理装置は、車両に設けられ、
前記車両は、前記制御信号に基づいて、前記音声コマンドに応じた処理を行う
請求項1に記載の音声処理装置。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、音声に基づいて処理を行う音声処理装置に関する。
【背景技術】
【0002】
近年、ユーザが発した音声を認識する音声認識技術がしばしば用いられる。例えば、特許文献1には、ユーザが発した音声を認識する音声認識装置が開示されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
ユーザが発した音声に基づいて処理を行う装置では、ユーザが発した音声に応じた処理を適切に行うことが望まれている。
【0005】
ユーザが発した音声に応じた処理を適切に行うことができる音声処理装置を提供することが望ましい。
【課題を解決するための手段】
【0006】
本開示の一実施の形態に係る音声処理装置は、音声解析部と、制御信号生成部とを備えている。音声解析部は、音声データに基づいて、音声データに含まれる、予め定められた音声コマンドを検出するものである。制御信号生成部は、音声解析部により検出された音声コマンドに基づいて、その音声コマンドが示す処理を指示する制御信号を生成するものである。音声コマンドは、第1の部分と、第1の部分よりも後に配置され、動詞を含む第2の部分と、第2の部分よりも後に配置され、第1の部分と同じである第3の部分とを含む。
【発明の効果】
【0007】
本開示の一実施の形態に係る音声処理装置によれば、ユーザが発した音声に応じた処理を適切に行うことができる。
【図面の簡単な説明】
【0008】
【
図1】本開示の一実施の形態に係る音声処理システムの一構成例を表す構成図である。
【
図3】音声コマンドの他の一例を表す説明図である。
【
図4】音声コマンドの他の一例を表す説明図である。
【発明を実施するための形態】
【0009】
以下、本開示の実施の形態について、図面を参照して詳細に説明する。
【0010】
<実施の形態>
[構成例]
図1は、一実施の形態に係る音声処理装置を備えた音声処理システム1の一構成例を表すものである。この音声処理システム1は、この例では、車両10に適用されている。車両10は、自動車などの車両である。車両10は、ユーザインタフェース11と、マイクロフォン12と、処理部20と、通信部13と、ナビゲーション処理部14と、ヘッドランプ制御部15と、ドアロック制御部16とを備えている。
【0011】
ユーザインタフェース11は、例えば、表示パネル、タッチパネル、各種ボタンなどを含み、車両10の乗員の操作を受け付けるとともに、様々な情報を車両10の乗員に提示するように構成される。
【0012】
マイクロフォン12は、車両10の乗員が発した音声に応じた音波を電気信号(音声信号)に変換するように構成される。
【0013】
処理部20は、例えば1または複数のプロセッサおよび1または複数のメモリを含んで構成される。処理部20は、音声解析部21と、制御信号生成部22とを有している。
【0014】
音声解析部21は、マイクロフォン12から供給された音声信号に基づいて、音声を解析するように構成される。具体的には、音声解析部21は、まず、マイクロフォン12から供給された音声信号に基づいて、所定のサンプリングレートでAD(Analog to Digital)変換を行うことにより、音声データを生成する。そして、音声解析部21は、この音声データに基づいてフーリエ変換を行うことにより、スペクトルデータを生成する。具体的には、音声解析部21は、所定の時間間隔で、スペクトルデータを順次生成することにより、一連のスペクトルデータを生成する。音声解析部21は、一連のスペクトルデータのそれぞれに基づいて、音声データに含まれる文字や単語を抽出することにより、その音声データが示す文章を含む文章データを生成する。そして、音声解析部21は、この文章データに基づいて、車両10の乗員が指示する処理の内容を示す音声コマンドを検出する。音声処理システム1において使用可能な音声コマンドは、予め定められている。なお、この例では、音声解析部21は、文章データに基づいて音声コマンドを検出したが、これに限定されるものではなく、これに代えて、例えば、音声データに基づいて音声コマンドを検出してもよいし、スペクトルデータに基づいて音声コマンドを検出してもよい。そして、音声解析部21は、音声コマンドの検出結果を制御信号生成部22に供給するようになっている。
【0015】
制御信号生成部22は、音声解析部21における音声コマンドの検出結果に基づいて、音声コマンドが示す処理に応じた制御信号を生成するように構成される。そして、処理部20は、この制御信号を、通信部13、ナビゲーション処理部14、ヘッドランプ制御部15、およびドアロック制御部16に供給するようになっている。
【0016】
通信部13は、例えば無線LAN(Local Area Network)やブルートゥース(登録商標)などの無線通信を行うことにより、外部機器と通信を行うように構成される。この例では、通信部13は、車両10の乗員のスマートフォン100と通信を行うことができるようになっている。
【0017】
ナビゲーション処理部14は、車両10が走行すべき目的地までのルート(予定走行ルート)を決定するとともに、車両10の乗員に予定走行ルートのルート情報を提供することにより、決定した予定走行ルートに沿って車両10を誘導するように構成される。ナビゲーション処理部14は、GPS(Global Positioning System)などのGNSS(Global Navigation Satellite System)を用いて、地上での車両10の位置を取得し、道路地図についての情報を含む地図情報データベースを用いて、車両10の予定走行ルートを決定する。ナビゲーション処理部14は、例えば、地図情報データベースを記憶し、記憶された地図情報データベースを用いて予定走行ルートを決定してもよいし、例えば地図情報データベースが記憶されたネットワークサーバと通信を行うことにより予定走行ルートを決定してもよい。ナビゲーション処理部14は、例えば、車両10の乗員がユーザインタフェース11を操作することにより入力した目的地についての情報に基づいて目的地までの予定走行ルートを決定し、決定した予定走行ルートについてのルート情報を、このユーザインタフェース11を用いて乗員に提供するようになっている。
【0018】
ヘッドランプ制御部15は、車両10の前方に光を照射するヘッドランプの点灯動作および消灯動作を制御するように構成される。
【0019】
ドアロック制御部16は、乗員が乗降する車両10のドアの施錠動作および開錠動作を制御するように構成される。
【0020】
スマートフォン100は、この例では車両10の乗員が所有する高機能携帯電話である。このスマートフォン100には、例えば電話帳データを含む様々なデータが記憶されている。スマートフォン100は、車両10の通信部13との間で通信を行うことができるようになっている。
【0021】
この構成により、音声処理システム1では、処理部20は、マイクロフォン12から供給された音声信号に基づいて、音声コマンドを検出することにより、車両1の乗員の音声指示を把握し、制御信号を生成する。そして、通信部13、ナビゲーション処理部14、ヘッドランプ制御部15、およびドアロック制御部16は、この制御信号に基づいて、乗員の音声指示に応じた処理を行うようになっている。
【0022】
ここで、処理部20は、本開示の一実施の形態における「音声処理装置」の一具体例に対応する。音声解析部21は、本開示の一実施の形態における「音声解析部」の一具体例に対応する。制御信号生成部22は、本開示の一実施の形態における「制御信号生成部」の一具体例に対応する。車両10は、本開示の一実施の形態における「車両」の一具体例に対応する。
【0023】
[動作および作用]
続いて、本実施の形態の音声処理システム1の動作および作用について説明する。
【0024】
(全体動作概要)
まず、
図1~3を参照して、音声処理システム1の動作を説明する。ユーザインタフェース11は、車両10の乗員の操作を受け付けるとともに、様々な情報を車両10の乗員に提示する。マイクロフォン12は、車両10の乗員が発した音声に応じた音波を電気信号(音声信号)に変換する。処理部20の音声解析部21は、マイクロフォン12から供給された音声信号に基づいて、音声コマンドを検出する。制御信号生成部22は、音声解析部21における音声コマンドの検出結果に基づいて、音声コマンドが示す処理に応じた制御信号を生成する。通信部13は、車両10の乗員のスマートフォン100と通信を行う。ナビゲーション処理部14は、車両10が走行すべき目的地までのルート(予定走行ルート)を決定するとともに、車両10の乗員に予定走行ルートのルート情報を提供することにより、決定した予定走行ルートに沿って車両10を誘導する。ヘッドランプ制御部15は、車両10の前方に光を照射するヘッドランプの点灯動作および消灯動作を制御する。ドアロック制御部16は、乗員が乗降する車両10のドアの施錠動作および開錠動作を制御する。
【0025】
(詳細動作)
図2は、音声コマンドの一例を表すものである。音声コマンドは、車両10の乗員は、音声コマンドを含む音声を発することにより、この例では、通信部13、ナビゲーション処理部14、ヘッドランプ制御部15、およびドアロック制御部16に処理を行わせることができる。
【0026】
例えば、
図2(A)に示したように、音声データに含まれる文章が「Aさんに電話して」である場合には、音声解析部21は、この、Aさんへの電話を指示する音声コマンドを検出し、制御信号生成部22は、スマートフォン100がAさんに電話を行うように制御する制御信号を生成する。処理部20は、この制御信号を通信部13に供給する。通信部13は、この制御信号をスマートフォン100に送信する。スマートフォン100は、この制御信号に基づいて、電話帳データを用いてAさんの電話番号を特定し、この電話番号を用いてAさんに電話をかける処理を行う。
【0027】
また、例えば、
図2(B)に示したように、音声データに含まれる文章が「B市に行きたい」である場合には、音声解析部21は、この、B市へのルートの提供を指示する音声コマンドを検出し、制御信号生成部22は、音声解析部21から供給された情報に基づいて、ナビゲーション処理部14がB市までの予定走行ルートを決定するように制御する制御信号を生成する。処理部20は、この制御信号をナビゲーション処理部14に供給する。ナビゲーション処理部14は、この制御信号に基づいて、B市までの予定走行ルートを決定し、決定した予定走行ルートをユーザインタフェース11に表示させる。
【0028】
また、例えば、
図2(C)に示したように、音声データに含まれる文章が「ヘッドランプを消して」である場合には、音声解析部21は、この、ヘッドランプの消灯を指示する音声コマンドを検出し、制御信号生成部22は、ヘッドランプ制御部15がヘッドランプを消灯させるように制御する制御信号を生成する。処理部20は、この制御信号をヘッドランプ制御部15に供給する。ヘッドランプ制御部15は、この制御信号に基づいて、ヘッドランプを消灯するように、ヘッドランプの動作を制御する。
【0029】
また、例えば、
図2(D)に示したように、音声データに含まれる文章が「ドアをロックして」である場合には、音声解析部21は、この、ドアの施錠を指示する音声コマンドを検出し、制御信号生成部22は、ドアロック制御部16がドアをロックするように制御する制御信号を生成する。処理部20は、この制御信号をドアロック制御部16に供給する。ドアロック制御部16は、この制御信号に基づいて、ドアを施錠する。
【0030】
ところで、例えば、
図2(A)において「Aさん」の文字数が少ない場合があり得る。また、例えば、
図2(B)において「B市」の文字数が少ない場合があり得る。音声解析部21は、このような文字数が少ない単語を認識しにくい可能性がある。また、車両10では、走行音などのノイズが多いので、音声解析部21は、このような文字数が少ない単語を認識しにくい可能性がある。
【0031】
図3は、音声コマンドのより具体的な一例を表すものである。例えば、「ママ」の文字数は2文字であり短く、「ママ」は例えば「電話して」よりも短い。また「ママ」は同じ音の繰り返しである。よって、音声解析部21は、この「ママ」の部分を認識しにくい可能性がある。また、例えば「津市」の文字数は2文字であり短く、「津市」は「行きたい」よりも短い。よって、音声解析部21は、この「津市」の部分を認識しにくい可能性がある。
【0032】
そこで、音声解析部21は、このような文字数が少ない単語を認識しやすくするために、以下に示すような音声コマンドをも解析することができる。
【0033】
図4は、音声コマンドの他の一例を表すものである。これらの音声コマンドは、3つの部分P1~P3を含む。部分P1,P2からなる文章は、
図3の文章と同じである。部分P3は、部分P1と同じである。例えば、部分P2は、動詞を含む。そして、部分P1,P3は、その動詞の目的語を含む。この目的語は、例えば、普通名詞、固有名詞、代名詞、略称などがあり得る。
【0034】
例えば、
図4(A)に示したように、音声データに含まれる文章が「ママに電話して、ママに」である場合には、音声解析部21は、部分P1(“ママに”)と部分P3(“ママに”)の類似性が高いことを検出する。乗員は、このように「ママに」の部分を繰り返して発している。よって、解析される音素が増えるので、音声解析部21は、この「ママに」を認識することができる。そして、制御信号生成部22は、スマートフォン100がママに電話を行うように制御する制御信号を生成する。処理部20は、この制御信号を通信部13に供給する。通信部13は、この制御信号をスマートフォン100に送信する。スマートフォン100は、この制御信号に基づいて、電話帳データを用いて電話番号を特定し、この電話番号を用いて電話をかける処理を行う。
【0035】
例えば、
図4(B)に示したように、音声データに含まれる文章が「津市に行きたい、三重県津市に」である場合には、音声解析部21は、部分P1(“津市に”)と部分P3(“津市に”)の類似性が高いことを検出する。乗員は、このように「津市に」の部分を繰り返して発している。よって、解析される音素が増えるので、音声解析部21は、「津市に」を認識することができる。そして、制御信号生成部22は、音声解析部21から供給された情報に基づいて、ナビゲーション処理部14が三重県津市までの予定走行ルートを決定するように制御する制御信号を生成する。処理部20は、この制御信号をナビゲーション処理部14に供給する。ナビゲーション処理部14は、この制御信号に基づいて、三重県津市までの予定走行ルートを決定し、決定した予定走行ルートをユーザインタフェース11に表示させる。
【0036】
人間は、例えば、他の人から短い言葉が発せられた場合に、その短い言葉を認識しにくい場合がある。人間は、この場合において、もう一度その言葉が発せられると、その短い言葉を認識しやすい。同様に、音声解析部21は、互いに類似性が高い部分P1,P3を検出した場合に、その部分P1,P3を精度よく認識することができる。これにより、音声処理システム1では、短い単語を含む文章の認識精度を高めることができ、ユーザが発した音声に応じた処理を適切に行うことができる。
【0037】
このように、音声処理システム1では、音声データに基づいて、音声データに含まれる、予め定められた音声コマンドを検出する音声解析部21と、音声解析部21により検出された音声コマンドに基づいて、その音声コマンドが示す処理を指示する制御信号を生成する制御信号生成部22とを設けるようにした。この音声コマンドは、第1の部分(部分P1)と、第1の部分よりも後に配置され、動詞を含む第2の部分(部分P2)と、第2の部分よりも後に配置され、第1の部分と同じである第3の部分(部分P3)とを含むようにした。これにより、音声解析部21は、その部分P1,P3を精度よく認識することができる。その結果、音声処理システム1では、例えば、短い単語を含む文章の認識精度を高めることができるので、ユーザが発した音声に応じた処理を適切に行うことができる。
【0038】
また、音声処理システム1では、第1の部分(部分P1)における文字の数は、第2の部分(部分P2)における文字の数よりも少ないようにした。このような場合でも、この部分P1と同じである部分P3があるので、この文字の数が少ない部分が繰り返されるため、この文字の数が少ない部分を精度よく認識することができる。その結果、音声処理システム1では、ユーザが発した音声に応じた処理を適切に行うことができる。
【0039】
また、音声処理システム1では、第1の部分は、第2の部分に含まれる動詞の目的語を含むようにした。目的語は、例えば、普通名詞だけではなく、固有名詞、代名詞、略称などがあり得るので、認識されにくい場合がある。音声処理システム1では、このような場合でも、この部分P1と同じである部分P3があるので、例えば目的語を認識しにくい場合でも、この目的語が繰り返されるため、この目的語を精度よく認識することができる。その結果、音声処理システム1では、ユーザが発した音声に応じた処理を適切に行うことができる。
【0040】
また、音声処理システム1では、処理部20は、車両1に設けられるようにした。そして、車両1は、制御信号に基づいて、音声コマンドに応じた処理を行うようにした。これにより、音声処理システム1では、走行音などのノイズが多い車両内において、ユーザが発した音声に応じた処理を適切に行うことができる。
【0041】
[効果]
以上のように本実施の形態では、音声データに基づいて、音声データに含まれる、予め定められた音声コマンドを検出する音声解析部と、音声解析部により検出された音声コマンドに基づいて、その音声コマンドが示す処理を指示する制御信号を生成する制御信号生成部とを設けるようにした。この音声コマンドは、第1の部分と、第1の部分よりも後に配置され、動詞を含む第2の部分と、第2の部分よりも後に配置され、第1の部分と同じである第3の部分とを含むようにした。これにより、ユーザが発した音声に応じた処理を適切に行うことができる。
【0042】
本実施の形態では、第1の部分における文字の数は、第2の部分における文字の数よりも少ないようにしたので、ユーザが発した音声に応じた処理を適切に行うことができる。
【0043】
本実施の形態では、第1の部分は、第2の部分に含まれる動詞の目的語を含むようにしたので、ユーザが発した音声に応じた処理を適切に行うことができる。
【0044】
本実施の形態では、処理部を、車両に設けるようにした。そして、車両は、制御信号に基づいて、音声コマンドに応じた処理を行うようにした。これにより、ユーザが発した音声に応じた処理を適切に行うことができる。
【0045】
以上、実施の形態を挙げて本発明を説明したが、本発明はこれらの実施の形態等には限定されず、種々の変形が可能である。
【0046】
例えば、上記実施の形態では、本技術を車両10に適用したが、これに限定されるものではなく、これに代えて、様々な装置に適用することができる。具体的には、本技術を、例えばスマートフォンやスマートスピーカに適用してもよい。
【0047】
また、例えば、
図2~4に記載の音声コマンドは一例であり、他の音声コマンドであってもよい。
【0048】
本明細書中に記載された効果はあくまで例示であり、本開示の効果は、本明細書中に記載された効果に限定されない。よって、本開示に関して、他の効果が得られてもよい。
【0049】
さらに、本開示は、以下の態様を取り得る。
【0050】
(1)
音声データに基づいて、前記音声データに含まれる、予め定められた音声コマンドを検出する音声解析部と、
前記音声解析部により検出された前記音声コマンドに基づいて、その音声コマンドが示す処理を指示する制御信号を生成する制御信号生成部と
を備え、
前記音声コマンドは、第1の部分と、前記第1の部分よりも後に配置され、動詞を含む第2の部分と、前記第2の部分よりも後に配置され、前記第1の部分と同じである第3の部分とを含む
音声処理装置。
(2)
前記第1の部分における文字の数は、前記第2の部分における文字の数よりも少ない
前記(1)に記載の音声処理装置。
(3)
前記第1の部分は、前記第2の部分に含まれる前記動詞の目的語を含む
前記(1)または(2)に記載の音声処理装置。
(4)
前記音声処理装置は、車両設けられ、
前記車両は、前記制御信号に基づいて、前記音声コマンドに応じた処理を行う
前記(1)から(3)のいずれかに記載の音声処理装置。
【符号の説明】
【0051】
1…音声処理システム、10…車両、11…ユーザインタフェース、12…マイクロフォン、13…通信部、14…ナビゲーション処理部、15…ヘッドランプ制御部、16…ドアロック制御部、20…処理部、21…音声解析部、22…制御信号生成部、100…スマートフォン。