特開2024-87465 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士重工業株式会社の特許一覧

特開2024-87465音声処理装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024087465

(43)【公開日】2024-07-01

(54)【発明の名称】音声処理装置

(51)【国際特許分類】

G10L 15/28 20130101AFI20240624BHJP

G10L 15/10 20060101ALI20240624BHJP

G10L 15/00 20130101ALI20240624BHJP

【ＦＩ】

G10L15/28 353

G10L15/10 200W

G10L15/00 200J

【審査請求】未請求

【請求項の数】4

【出願形態】ＯＬ

(21)【出願番号】P 2022202302

(22)【出願日】2022-12-19

(71)【出願人】

【識別番号】000005348

【氏名又は名称】株式会社ＳＵＢＡＲＵ

(74)【代理人】

【識別番号】110001357

【氏名又は名称】弁理士法人つばさ国際特許事務所

(72)【発明者】

【氏名】阿久津岳志

(57)【要約】

【課題】ユーザが発した音声に応じた処理を適切に行うことができる音声処理装置を得る。
【解決手段】本発明の一実施の形態に係る車外環境検出システムは、音声データに基づいて音声データに含まれる、予め定められた音声コマンドを検出する音声解析部と、音声解析部により検出された音声コマンドに基づいて、その音声コマンドが示す処理を指示する制御信号を生成する制御信号生成部とを備える。音声コマンドは、第１の部分と、第１の部分よりも後に配置され、動詞を含む第２の部分と、第２の部分よりも後に配置され、第１の部分と同じである第３の部分とを含む。
【選択図】図４

【特許請求の範囲】

【請求項1】

音声データに基づいて、前記音声データに含まれる、予め定められた音声コマンドを検出する音声解析部と、
前記音声解析部により検出された前記音声コマンドに基づいて、その音声コマンドが示す処理を指示する制御信号を生成する制御信号生成部と
を備え、
前記音声コマンドは、第１の部分と、前記第１の部分よりも後に配置され、動詞を含む第２の部分と、前記第２の部分よりも後に配置され、前記第１の部分と同じである第３の部分とを含む
音声処理装置。

【請求項2】

前記第１の部分における文字の数は、前記第２の部分における文字の数よりも少ない
請求項１に記載の音声処理装置。

【請求項3】

前記第１の部分は、前記第２の部分に含まれる前記動詞の目的語を含む
請求項１に記載の音声処理装置。

【請求項4】

前記音声処理装置は、車両に設けられ、
前記車両は、前記制御信号に基づいて、前記音声コマンドに応じた処理を行う
請求項１に記載の音声処理装置。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、音声に基づいて処理を行う音声処理装置に関する。

【背景技術】

【0002】

近年、ユーザが発した音声を認識する音声認識技術がしばしば用いられる。例えば、特許文献１には、ユーザが発した音声を認識する音声認識装置が開示されている。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２０１８－０４５１２７号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

ユーザが発した音声に基づいて処理を行う装置では、ユーザが発した音声に応じた処理を適切に行うことが望まれている。

【0005】

ユーザが発した音声に応じた処理を適切に行うことができる音声処理装置を提供することが望ましい。

【課題を解決するための手段】

【0006】

本開示の一実施の形態に係る音声処理装置は、音声解析部と、制御信号生成部とを備えている。音声解析部は、音声データに基づいて、音声データに含まれる、予め定められた音声コマンドを検出するものである。制御信号生成部は、音声解析部により検出された音声コマンドに基づいて、その音声コマンドが示す処理を指示する制御信号を生成するものである。音声コマンドは、第１の部分と、第１の部分よりも後に配置され、動詞を含む第２の部分と、第２の部分よりも後に配置され、第１の部分と同じである第３の部分とを含む。

【発明の効果】

【0007】

本開示の一実施の形態に係る音声処理装置によれば、ユーザが発した音声に応じた処理を適切に行うことができる。

【図面の簡単な説明】

【0008】

【図1】本開示の一実施の形態に係る音声処理システムの一構成例を表す構成図である。

【図2】音声コマンドの一例を表す説明図である。

【図3】音声コマンドの他の一例を表す説明図である。

【図4】音声コマンドの他の一例を表す説明図である。

【発明を実施するための形態】

【0009】

以下、本開示の実施の形態について、図面を参照して詳細に説明する。

【0010】

＜実施の形態＞
［構成例］
図１は、一実施の形態に係る音声処理装置を備えた音声処理システム１の一構成例を表すものである。この音声処理システム１は、この例では、車両１０に適用されている。車両１０は、自動車などの車両である。車両１０は、ユーザインタフェース１１と、マイクロフォン１２と、処理部２０と、通信部１３と、ナビゲーション処理部１４と、ヘッドランプ制御部１５と、ドアロック制御部１６とを備えている。

【0011】

ユーザインタフェース１１は、例えば、表示パネル、タッチパネル、各種ボタンなどを含み、車両１０の乗員の操作を受け付けるとともに、様々な情報を車両１０の乗員に提示するように構成される。

【0012】

マイクロフォン１２は、車両１０の乗員が発した音声に応じた音波を電気信号（音声信号）に変換するように構成される。

【0013】

処理部２０は、例えば１または複数のプロセッサおよび１または複数のメモリを含んで構成される。処理部２０は、音声解析部２１と、制御信号生成部２２とを有している。

【0014】

音声解析部２１は、マイクロフォン１２から供給された音声信号に基づいて、音声を解析するように構成される。具体的には、音声解析部２１は、まず、マイクロフォン１２から供給された音声信号に基づいて、所定のサンプリングレートでＡＤ（Analog to Digital）変換を行うことにより、音声データを生成する。そして、音声解析部２１は、この音声データに基づいてフーリエ変換を行うことにより、スペクトルデータを生成する。具体的には、音声解析部２１は、所定の時間間隔で、スペクトルデータを順次生成することにより、一連のスペクトルデータを生成する。音声解析部２１は、一連のスペクトルデータのそれぞれに基づいて、音声データに含まれる文字や単語を抽出することにより、その音声データが示す文章を含む文章データを生成する。そして、音声解析部２１は、この文章データに基づいて、車両１０の乗員が指示する処理の内容を示す音声コマンドを検出する。音声処理システム１において使用可能な音声コマンドは、予め定められている。なお、この例では、音声解析部２１は、文章データに基づいて音声コマンドを検出したが、これに限定されるものではなく、これに代えて、例えば、音声データに基づいて音声コマンドを検出してもよいし、スペクトルデータに基づいて音声コマンドを検出してもよい。そして、音声解析部２１は、音声コマンドの検出結果を制御信号生成部２２に供給するようになっている。

【0015】

制御信号生成部２２は、音声解析部２１における音声コマンドの検出結果に基づいて、音声コマンドが示す処理に応じた制御信号を生成するように構成される。そして、処理部２０は、この制御信号を、通信部１３、ナビゲーション処理部１４、ヘッドランプ制御部１５、およびドアロック制御部１６に供給するようになっている。

【0016】

通信部１３は、例えば無線ＬＡＮ（Local Area Network）やブルートゥース（登録商標）などの無線通信を行うことにより、外部機器と通信を行うように構成される。この例では、通信部１３は、車両１０の乗員のスマートフォン１００と通信を行うことができるようになっている。

【0017】

ナビゲーション処理部１４は、車両１０が走行すべき目的地までのルート（予定走行ルート）を決定するとともに、車両１０の乗員に予定走行ルートのルート情報を提供することにより、決定した予定走行ルートに沿って車両１０を誘導するように構成される。ナビゲーション処理部１４は、ＧＰＳ（Global Positioning System）などのＧＮＳＳ（Global Navigation Satellite System）を用いて、地上での車両１０の位置を取得し、道路地図についての情報を含む地図情報データベースを用いて、車両１０の予定走行ルートを決定する。ナビゲーション処理部１４は、例えば、地図情報データベースを記憶し、記憶された地図情報データベースを用いて予定走行ルートを決定してもよいし、例えば地図情報データベースが記憶されたネットワークサーバと通信を行うことにより予定走行ルートを決定してもよい。ナビゲーション処理部１４は、例えば、車両１０の乗員がユーザインタフェース１１を操作することにより入力した目的地についての情報に基づいて目的地までの予定走行ルートを決定し、決定した予定走行ルートについてのルート情報を、このユーザインタフェース１１を用いて乗員に提供するようになっている。

【0018】

ヘッドランプ制御部１５は、車両１０の前方に光を照射するヘッドランプの点灯動作および消灯動作を制御するように構成される。

【0019】

ドアロック制御部１６は、乗員が乗降する車両１０のドアの施錠動作および開錠動作を制御するように構成される。

【0020】

スマートフォン１００は、この例では車両１０の乗員が所有する高機能携帯電話である。このスマートフォン１００には、例えば電話帳データを含む様々なデータが記憶されている。スマートフォン１００は、車両１０の通信部１３との間で通信を行うことができるようになっている。

【0021】

この構成により、音声処理システム１では、処理部２０は、マイクロフォン１２から供給された音声信号に基づいて、音声コマンドを検出することにより、車両１の乗員の音声指示を把握し、制御信号を生成する。そして、通信部１３、ナビゲーション処理部１４、ヘッドランプ制御部１５、およびドアロック制御部１６は、この制御信号に基づいて、乗員の音声指示に応じた処理を行うようになっている。

【0022】

ここで、処理部２０は、本開示の一実施の形態における「音声処理装置」の一具体例に対応する。音声解析部２１は、本開示の一実施の形態における「音声解析部」の一具体例に対応する。制御信号生成部２２は、本開示の一実施の形態における「制御信号生成部」の一具体例に対応する。車両１０は、本開示の一実施の形態における「車両」の一具体例に対応する。

【0023】

［動作および作用］
続いて、本実施の形態の音声処理システム１の動作および作用について説明する。

【0024】

（全体動作概要）
まず、図１～３を参照して、音声処理システム１の動作を説明する。ユーザインタフェース１１は、車両１０の乗員の操作を受け付けるとともに、様々な情報を車両１０の乗員に提示する。マイクロフォン１２は、車両１０の乗員が発した音声に応じた音波を電気信号（音声信号）に変換する。処理部２０の音声解析部２１は、マイクロフォン１２から供給された音声信号に基づいて、音声コマンドを検出する。制御信号生成部２２は、音声解析部２１における音声コマンドの検出結果に基づいて、音声コマンドが示す処理に応じた制御信号を生成する。通信部１３は、車両１０の乗員のスマートフォン１００と通信を行う。ナビゲーション処理部１４は、車両１０が走行すべき目的地までのルート（予定走行ルート）を決定するとともに、車両１０の乗員に予定走行ルートのルート情報を提供することにより、決定した予定走行ルートに沿って車両１０を誘導する。ヘッドランプ制御部１５は、車両１０の前方に光を照射するヘッドランプの点灯動作および消灯動作を制御する。ドアロック制御部１６は、乗員が乗降する車両１０のドアの施錠動作および開錠動作を制御する。

【0025】

（詳細動作）
図２は、音声コマンドの一例を表すものである。音声コマンドは、車両１０の乗員は、音声コマンドを含む音声を発することにより、この例では、通信部１３、ナビゲーション処理部１４、ヘッドランプ制御部１５、およびドアロック制御部１６に処理を行わせることができる。

【0026】

例えば、図２（Ａ）に示したように、音声データに含まれる文章が「Ａさんに電話して」である場合には、音声解析部２１は、この、Ａさんへの電話を指示する音声コマンドを検出し、制御信号生成部２２は、スマートフォン１００がＡさんに電話を行うように制御する制御信号を生成する。処理部２０は、この制御信号を通信部１３に供給する。通信部１３は、この制御信号をスマートフォン１００に送信する。スマートフォン１００は、この制御信号に基づいて、電話帳データを用いてＡさんの電話番号を特定し、この電話番号を用いてＡさんに電話をかける処理を行う。

【0027】

また、例えば、図２（Ｂ）に示したように、音声データに含まれる文章が「Ｂ市に行きたい」である場合には、音声解析部２１は、この、Ｂ市へのルートの提供を指示する音声コマンドを検出し、制御信号生成部２２は、音声解析部２１から供給された情報に基づいて、ナビゲーション処理部１４がＢ市までの予定走行ルートを決定するように制御する制御信号を生成する。処理部２０は、この制御信号をナビゲーション処理部１４に供給する。ナビゲーション処理部１４は、この制御信号に基づいて、Ｂ市までの予定走行ルートを決定し、決定した予定走行ルートをユーザインタフェース１１に表示させる。

【0028】

また、例えば、図２（Ｃ）に示したように、音声データに含まれる文章が「ヘッドランプを消して」である場合には、音声解析部２１は、この、ヘッドランプの消灯を指示する音声コマンドを検出し、制御信号生成部２２は、ヘッドランプ制御部１５がヘッドランプを消灯させるように制御する制御信号を生成する。処理部２０は、この制御信号をヘッドランプ制御部１５に供給する。ヘッドランプ制御部１５は、この制御信号に基づいて、ヘッドランプを消灯するように、ヘッドランプの動作を制御する。

【0029】

また、例えば、図２（Ｄ）に示したように、音声データに含まれる文章が「ドアをロックして」である場合には、音声解析部２１は、この、ドアの施錠を指示する音声コマンドを検出し、制御信号生成部２２は、ドアロック制御部１６がドアをロックするように制御する制御信号を生成する。処理部２０は、この制御信号をドアロック制御部１６に供給する。ドアロック制御部１６は、この制御信号に基づいて、ドアを施錠する。

【0030】

ところで、例えば、図２（Ａ）において「Ａさん」の文字数が少ない場合があり得る。また、例えば、図２（Ｂ）において「Ｂ市」の文字数が少ない場合があり得る。音声解析部２１は、このような文字数が少ない単語を認識しにくい可能性がある。また、車両１０では、走行音などのノイズが多いので、音声解析部２１は、このような文字数が少ない単語を認識しにくい可能性がある。

【0031】

図３は、音声コマンドのより具体的な一例を表すものである。例えば、「ママ」の文字数は２文字であり短く、「ママ」は例えば「電話して」よりも短い。また「ママ」は同じ音の繰り返しである。よって、音声解析部２１は、この「ママ」の部分を認識しにくい可能性がある。また、例えば「津市」の文字数は２文字であり短く、「津市」は「行きたい」よりも短い。よって、音声解析部２１は、この「津市」の部分を認識しにくい可能性がある。

【0032】

そこで、音声解析部２１は、このような文字数が少ない単語を認識しやすくするために、以下に示すような音声コマンドをも解析することができる。

【0033】

図４は、音声コマンドの他の一例を表すものである。これらの音声コマンドは、３つの部分Ｐ１～Ｐ３を含む。部分Ｐ１，Ｐ２からなる文章は、図３の文章と同じである。部分Ｐ３は、部分Ｐ１と同じである。例えば、部分Ｐ２は、動詞を含む。そして、部分Ｐ１，Ｐ３は、その動詞の目的語を含む。この目的語は、例えば、普通名詞、固有名詞、代名詞、略称などがあり得る。

【0034】

例えば、図４（Ａ）に示したように、音声データに含まれる文章が「ママに電話して、ママに」である場合には、音声解析部２１は、部分Ｐ１（“ママに”）と部分Ｐ３（“ママに”）の類似性が高いことを検出する。乗員は、このように「ママに」の部分を繰り返して発している。よって、解析される音素が増えるので、音声解析部２１は、この「ママに」を認識することができる。そして、制御信号生成部２２は、スマートフォン１００がママに電話を行うように制御する制御信号を生成する。処理部２０は、この制御信号を通信部１３に供給する。通信部１３は、この制御信号をスマートフォン１００に送信する。スマートフォン１００は、この制御信号に基づいて、電話帳データを用いて電話番号を特定し、この電話番号を用いて電話をかける処理を行う。

【0035】

例えば、図４（Ｂ）に示したように、音声データに含まれる文章が「津市に行きたい、三重県津市に」である場合には、音声解析部２１は、部分Ｐ１（“津市に”）と部分Ｐ３（“津市に”）の類似性が高いことを検出する。乗員は、このように「津市に」の部分を繰り返して発している。よって、解析される音素が増えるので、音声解析部２１は、「津市に」を認識することができる。そして、制御信号生成部２２は、音声解析部２１から供給された情報に基づいて、ナビゲーション処理部１４が三重県津市までの予定走行ルートを決定するように制御する制御信号を生成する。処理部２０は、この制御信号をナビゲーション処理部１４に供給する。ナビゲーション処理部１４は、この制御信号に基づいて、三重県津市までの予定走行ルートを決定し、決定した予定走行ルートをユーザインタフェース１１に表示させる。

【0036】

人間は、例えば、他の人から短い言葉が発せられた場合に、その短い言葉を認識しにくい場合がある。人間は、この場合において、もう一度その言葉が発せられると、その短い言葉を認識しやすい。同様に、音声解析部２１は、互いに類似性が高い部分Ｐ１，Ｐ３を検出した場合に、その部分Ｐ１，Ｐ３を精度よく認識することができる。これにより、音声処理システム１では、短い単語を含む文章の認識精度を高めることができ、ユーザが発した音声に応じた処理を適切に行うことができる。

【0037】

このように、音声処理システム１では、音声データに基づいて、音声データに含まれる、予め定められた音声コマンドを検出する音声解析部２１と、音声解析部２１により検出された音声コマンドに基づいて、その音声コマンドが示す処理を指示する制御信号を生成する制御信号生成部２２とを設けるようにした。この音声コマンドは、第１の部分（部分Ｐ１）と、第１の部分よりも後に配置され、動詞を含む第２の部分（部分Ｐ２）と、第２の部分よりも後に配置され、第１の部分と同じである第３の部分（部分Ｐ３）とを含むようにした。これにより、音声解析部２１は、その部分Ｐ１，Ｐ３を精度よく認識することができる。その結果、音声処理システム１では、例えば、短い単語を含む文章の認識精度を高めることができるので、ユーザが発した音声に応じた処理を適切に行うことができる。

【0038】

また、音声処理システム１では、第１の部分（部分Ｐ１）における文字の数は、第２の部分（部分Ｐ２）における文字の数よりも少ないようにした。このような場合でも、この部分Ｐ１と同じである部分Ｐ３があるので、この文字の数が少ない部分が繰り返されるため、この文字の数が少ない部分を精度よく認識することができる。その結果、音声処理システム１では、ユーザが発した音声に応じた処理を適切に行うことができる。

【0039】

また、音声処理システム１では、第１の部分は、第２の部分に含まれる動詞の目的語を含むようにした。目的語は、例えば、普通名詞だけではなく、固有名詞、代名詞、略称などがあり得るので、認識されにくい場合がある。音声処理システム１では、このような場合でも、この部分Ｐ１と同じである部分Ｐ３があるので、例えば目的語を認識しにくい場合でも、この目的語が繰り返されるため、この目的語を精度よく認識することができる。その結果、音声処理システム１では、ユーザが発した音声に応じた処理を適切に行うことができる。

【0040】

また、音声処理システム１では、処理部２０は、車両１に設けられるようにした。そして、車両１は、制御信号に基づいて、音声コマンドに応じた処理を行うようにした。これにより、音声処理システム１では、走行音などのノイズが多い車両内において、ユーザが発した音声に応じた処理を適切に行うことができる。

【0041】

［効果］
以上のように本実施の形態では、音声データに基づいて、音声データに含まれる、予め定められた音声コマンドを検出する音声解析部と、音声解析部により検出された音声コマンドに基づいて、その音声コマンドが示す処理を指示する制御信号を生成する制御信号生成部とを設けるようにした。この音声コマンドは、第１の部分と、第１の部分よりも後に配置され、動詞を含む第２の部分と、第２の部分よりも後に配置され、第１の部分と同じである第３の部分とを含むようにした。これにより、ユーザが発した音声に応じた処理を適切に行うことができる。

【0042】

本実施の形態では、第１の部分における文字の数は、第２の部分における文字の数よりも少ないようにしたので、ユーザが発した音声に応じた処理を適切に行うことができる。

【0043】

本実施の形態では、第１の部分は、第２の部分に含まれる動詞の目的語を含むようにしたので、ユーザが発した音声に応じた処理を適切に行うことができる。

【0044】

本実施の形態では、処理部を、車両に設けるようにした。そして、車両は、制御信号に基づいて、音声コマンドに応じた処理を行うようにした。これにより、ユーザが発した音声に応じた処理を適切に行うことができる。

【0045】

以上、実施の形態を挙げて本発明を説明したが、本発明はこれらの実施の形態等には限定されず、種々の変形が可能である。

【0046】

例えば、上記実施の形態では、本技術を車両１０に適用したが、これに限定されるものではなく、これに代えて、様々な装置に適用することができる。具体的には、本技術を、例えばスマートフォンやスマートスピーカに適用してもよい。

【0047】

また、例えば、図２～４に記載の音声コマンドは一例であり、他の音声コマンドであってもよい。

【0048】

本明細書中に記載された効果はあくまで例示であり、本開示の効果は、本明細書中に記載された効果に限定されない。よって、本開示に関して、他の効果が得られてもよい。

【0049】

さらに、本開示は、以下の態様を取り得る。

【0050】

（１）
音声データに基づいて、前記音声データに含まれる、予め定められた音声コマンドを検出する音声解析部と、
前記音声解析部により検出された前記音声コマンドに基づいて、その音声コマンドが示す処理を指示する制御信号を生成する制御信号生成部と
を備え、
前記音声コマンドは、第１の部分と、前記第１の部分よりも後に配置され、動詞を含む第２の部分と、前記第２の部分よりも後に配置され、前記第１の部分と同じである第３の部分とを含む
音声処理装置。
（２）
前記第１の部分における文字の数は、前記第２の部分における文字の数よりも少ない
前記（１）に記載の音声処理装置。
（３）
前記第１の部分は、前記第２の部分に含まれる前記動詞の目的語を含む
前記（１）または（２）に記載の音声処理装置。
（４）
前記音声処理装置は、車両設けられ、
前記車両は、前記制御信号に基づいて、前記音声コマンドに応じた処理を行う
前記（１）から（３）のいずれかに記載の音声処理装置。

【符号の説明】

【0051】

１…音声処理システム、１０…車両、１１…ユーザインタフェース、１２…マイクロフォン、１３…通信部、１４…ナビゲーション処理部、１５…ヘッドランプ制御部、１６…ドアロック制御部、２０…処理部、２１…音声解析部、２２…制御信号生成部、１００…スマートフォン。

【図1】

【図2】

【図3】

【図4】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版