IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ファナック株式会社の特許一覧

特許7712405音声認識装置、及びコンピュータが読み取り可能な記録媒体
<>
  • 特許-音声認識装置、及びコンピュータが読み取り可能な記録媒体 図1
  • 特許-音声認識装置、及びコンピュータが読み取り可能な記録媒体 図2
  • 特許-音声認識装置、及びコンピュータが読み取り可能な記録媒体 図3
  • 特許-音声認識装置、及びコンピュータが読み取り可能な記録媒体 図4
  • 特許-音声認識装置、及びコンピュータが読み取り可能な記録媒体 図5
  • 特許-音声認識装置、及びコンピュータが読み取り可能な記録媒体 図6
  • 特許-音声認識装置、及びコンピュータが読み取り可能な記録媒体 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-07-14
(45)【発行日】2025-07-23
(54)【発明の名称】音声認識装置、及びコンピュータが読み取り可能な記録媒体
(51)【国際特許分類】
   G10L 15/20 20060101AFI20250715BHJP
   G10L 15/32 20130101ALI20250715BHJP
【FI】
G10L15/20 353
G10L15/32 200Z
【請求項の数】 9
(21)【出願番号】P 2023579897
(86)(22)【出願日】2022-02-08
(86)【国際出願番号】 JP2022004938
(87)【国際公開番号】W WO2023152803
(87)【国際公開日】2023-08-17
【審査請求日】2024-09-06
(73)【特許権者】
【識別番号】390008235
【氏名又は名称】ファナック株式会社
(74)【代理人】
【識別番号】110001151
【氏名又は名称】あいわ弁理士法人
(72)【発明者】
【氏名】芝▲崎▼ 泰弘
【審査官】大野 弘
(56)【参考文献】
【文献】特開平09-325798(JP,A)
【文献】特開2015-215503(JP,A)
【文献】特開2006-330389(JP,A)
【文献】特開2004-347956(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/20
G10L 15/32
(57)【特許請求の範囲】
【請求項1】
製造現場において入力された音声信号を音声認識して音声コマンドとして利用する音声認識装置であって、
入力された音声信号の所定の属性に対して複数の異なる調整を行い、これに対応する複数の調整済み音声信号を生成する調整波形群生成部と、
前記調整波形群生成部が出力する前記音声信号及び複数の前記調整済み音声信号に対する音声認識を行う音声認識部と、
を備え、
前記調整波形群生成部が行う調整は、調整対象の属性として発話速度を含む、
音声認識装置。
【請求項2】
前記調整波形群生成部が行う調整は、前記調整対象の属性に対して乱数によって決まる変更を加えるものである、
請求項1に記載の音声認識装置。
【請求項3】
前記音声信号及び複数の前記調整済み音声信号に対して、前記音声認識部が認識した認識結果群を所定の集計方式で統計処理する集計結果生成部を更に備える、
請求項1または2に記載の音声認識装置。
【請求項4】
前記集計結果生成部は、書き起こし結果文字列群の最頻値を出力する、
請求項3に記載の音声認識装置。
【請求項5】
前記集計結果生成部は、書き起こし結果信頼度群の中央値を出力する、
請求項3に記載の音声認識装置。
【請求項6】
前記集計結果生成部が統計処理した結果をユーザに提示する出力部を更に備える、
請求項3~5のいずれか1つに記載の音声認識装置。
【請求項7】
調整対象となる前記属性とその調整幅について、ユーザ入力を受け付け登録する調整方式登録部をさらに備える、
請求項1~6のいずれか1つに記載の音声認識装置。
【請求項8】
前記集計方式について、ユーザ入力を受け付け登録する集計方式登録部をさらに備える、
請求項3~6のいずれか1つに記載の音声認識装置。
【請求項9】
製造現場において入力された音声信号を音声認識して音声コマンドとして利用する音声認識装置で実行されるプログラムを記録するコンピュータ読み取り可能な記録媒体であって、
入力された音声信号の発話速度を含む所定の属性に対して複数の異なる調整を行い、これに対応する複数の調整済み音声信号を生成する調整波形群生成部、
前記調整波形群生成部が出力する前記音声信号及び複数の前記調整済み音声信号に対する音声認識を行う音声認識部、
としてコンピュータを機能させるプログラムを記録するコンピュータ読み取り可能な記録媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認識装置、及びコンピュータが読み取り可能な記録媒体に関する。
【背景技術】
【0002】
現在、製造業などの産業分野では、ロボット、搬送機、工作機械、機械設備などの様々な機器が作動している。このような機器には、操作部を備えたものも多く、PLC(Programmable Logic Controller)、NC(Numerical Controller)、制御盤など、各機器を制御する機器も操作部を備える。
【0003】
機器の操作部は、ボタンや操作画面が多いが、操作が複雑で習熟に時間のかかることがある。音声入力インタフェースは、音声コマンドを発話するだけで目的の操作が実行できる。そのため、音声入力インタフェースを用いた操作性の向上が試みられている。
【0004】
機器の操作に使用する音声コマンドは、音声コマンドを使用する機器の種類、機器を設置する現場、機器の操作内容などにより想定することができる。そのため、想定される音声コマンドを文法(構文及び単語)で作成することができる。例えば、特許文献1参照。
【先行技術文献】
【特許文献】
【0005】
【文献】特開平9-325787号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
認識対象となる音声の性質を決めるものとして、音声区間切り出し位置、背景ノイズの乗り方、発話速度などの各種の属性が存在する。これらの属性の微小ズレで音声の認識結果(書き起こし文字列、信頼度等)が乱れることがある。この乱れが、音声認識の正解率の低下に繋がる。
【0007】
製造現場では、その環境において稼働する機械の数や種類、作業者の作業などが原因で発生する現象により、これらの属性にズレが生じることがある。そのため、製造現場で利用される音声認識に係るアプリケーションの開発や現場実運用時の調整の際は、音声認識の精度を向上させるために製造現場で生じる現象の再現性が重要となる。上記乱れが発生すると、音声認識の誤認識の再現性が低下する。結果として、音声認識処理の障害調査等が難しくなる。このように、一般的な家庭や事務現場での利用とは違って、製造業などの産業分野で用いられる音声認識のアプリケーションでは、認識結果のランダム性は問題になりやすい。
そこで、製造現場では認識結果の乱れに対応できる音声認識の技術が望まれている。
【課題を解決するための手段】
【0008】
本発明による音声認識装置は、入力された音声信号の所定の属性(波形パラメータ)を微小調整した複数の音声信号を生成し、それぞれを音声認識の対象とする。そして、その認識結果の最頻値を正しい認識結果とすることで、上記課題を解決する。
【0009】
そして、本開示の一態様は、製造現場において入力された音声信号を音声認識して音声コマンドとして利用する音声認識装置であって、入力された音声信号の所定の属性に対して複数の異なる調整を行い、これに対応する複数の調整済み音声信号を生成する調整波形群生成部と、前記調整波形群生成部が出力する前記音声信号及び複数の前記調整済み音声信号に対する音声認識を行う音声認識部と、を備え、前記調整波形群生成部が行う調整は、調整対象の属性として発話速度を含む、音声認識装置である。
【0010】
本開示の他の態様は、製造現場において入力された音声信号を音声認識して音声コマンドとして利用する音声認識装置で実行されるプログラムを記録するコンピュータ読み取り可能な記録媒体であって、入力された音声信号の発話速度を含む所定の属性に対して複数の異なる調整を行い、これに対応する複数の調整済み音声信号を生成する調整波形群生成部、前記調整波形群生成部が出力する前記音声信号及び複数の前記調整済み音声信号に対する音声認識を行う音声認識部、としてコンピュータを機能させるプログラムを記録するコンピュータ読み取り可能な記録媒体である。
【発明の効果】
【0011】
本開示の一態様により、音声波形の所定の属性に乱れが生じても、音声認識の処理精度が頑健化される。そのため、音声認識の正解率も向上することが見込まれる。
【図面の簡単な説明】
【0012】
図1】本発明の一実施形態による音声認識装置の概略的なハードウェア構成図である。
図2】本発明の一実施形態による音声認識装置の概略的な機能を示すブロック図である。
図3】調整方式情報登録画面の例である。
図4】集計方式情報登録画面の例である。
図5】書き起こし文字列の最頻値で集計した例を示す図である。
図6】書き起こし文字列の信頼度の中央値で集計した例を示す図である。
図7】本発明の他の実施形態による音声認識装置の概略的な機能を示すブロック図である。
【発明を実施するための形態】
【0013】
以下、本発明の実施形態を図面と共に説明する。
図1は本発明の一実施形態による音声認識装置の要部を示す概略的なハードウェア構成図である。本実施形態による音声認識装置1は、工場などの製造現場に設置された産業機械2を制御する制御装置の上に実装することができる。また、音声認識装置1は、制御装置に併設されたパソコンや、制御装置と有線乃至無線のネットワークを介して接続されたフォグコンピュータ6、クラウドサーバ7などのコンピュータ上に実装することができる。以下では、本実施形態による音声認識装置1を、産業機械2を制御する制御装置上に実装した例に基づいて説明する。
【0014】
本実施形態による音声認識装置1が備えるCPU11は、音声認識装置1を全体的に制御するプロセッサである。CPU11は、バス22を介してROM12に格納されたシステム・プログラムを読み出し、該システム・プログラムに従って音声認識装置1全体を制御する。RAM13には一時的な計算データや表示データ、及び外部から入力された各種データ等が一時的に格納される。
【0015】
不揮発性メモリ14は、例えば図示しないバッテリでバックアップされたメモリやSSD(Solid State Drive)等で構成され、音声認識装置1の電源がオフされても記憶状態が保持される。不揮発性メモリ14には、産業機械2から取得されたデータ、インタフェース15を介して外部機器72から読み込まれた制御用プログラムやデータ、入力装置71を介して入力された制御用プログラムやデータ、ネットワーク5を介して他の装置から取得された制御用プログラムやデータ等が記憶される。不揮発性メモリ14に記憶された制御用プログラムやデータは、実行時/利用時にはRAM13に展開されても良い。また、ROM12には、公知の解析プログラムなどの各種システム・プログラムがあらかじめ書き込まれている。
【0016】
インタフェース15は、音声認識装置1のCPU11とUSB装置等の外部機器72と接続するためのインタフェースである。外部機器72側からは、例えば産業機械2の制御に用いられる制御用プログラムや設定データ等が読み込まれる。また、音声認識装置1内で編集した制御用プログラムや設定データ等は、外部機器72を介して外部記憶手段に記憶させることができる。PLC(プログラマブル・ロジック・コントローラ)16は、ラダープログラムを実行して産業機械2及び産業機械2の周辺装置(例えば、工具交換装置や、ロボット等のアクチュエータ、産業機械2に取付けられている温度センサや湿度センサ等の複数のセンサ3)にI/Oユニット19を介して信号を出力し制御する。また、産業機械2の本体に配備された操作盤の各種スイッチや周辺装置等の信号を受け、必要な信号処理をした後、CPU11に渡す。
【0017】
インタフェース20は、音声認識装置1のCPUと有線乃至無線のネットワーク5とを接続するためのインタフェースである。ネットワーク5には、工作機械や放電加工機などの他の産業機械4やフォグコンピュータ6、クラウドサーバ7等が接続され、音声認識装置1との間で相互にデータのやり取りを行っている。
【0018】
表示装置70には、メモリ上に読み込まれた各データ、プログラム等が実行された結果として得られたデータ等がインタフェース17を介して出力されて表示される。また、キーボードやポインティングデバイス等から構成される入力装置71は、オペレータによる操作に基づく指令,データ等をインタフェース18を介してCPU11に渡す。
【0019】
インタフェース21は、音声認識装置1のCPU11と音声センサ73とを接続するためのインタフェースである。音声センサ73は、例えばマイクなどの収音機器であってよい。音声センサ73は、例えば入力装置71や図示しない機械操作盤、ペンダント(携帯型機械操作盤)などに取り付けられていてよい。音声センサ73が検出した作業者の発する音声は、音声信号としてCPU11に渡される。
【0020】
産業機械2が備える軸を制御するための軸制御回路30はCPU11からの軸の移動指令量を受けて、軸の指令をサーボアンプ40に出力する。サーボアンプ40はこの指令を受けて、工作機械が備える軸を移動させるサーボモータ50を駆動する。軸のサーボモータ50は位置・速度検出器を内蔵し、この位置・速度検出器からの位置・速度フィードバック信号を軸制御回路30にフィードバックし、位置・速度のフィードバック制御を行う。なお、図1のハードウェア構成図では軸制御回路30、サーボアンプ40、サーボモータ50は1つずつしか示されていないが、実際には制御対象となる産業機械2に備えられた軸の数だけ用意される。
【0021】
図2は、本発明の一実施形態による音声認識装置1が備える機能を概略的なブロック図として示したものである。本実施形態による音声認識装置1が備える各機能は、図1に示した音声認識装置1が備えるCPU11がシステム・プログラムを実行し、音声認識装置1の各部の動作を制御することにより実現される。
【0022】
本実施形態の音声認識装置1は、音声信号取得部100、調整方式登録部110、調整波形群生成部120、音声認識部130、集計方式登録部140、集計結果生成部150、コマンド処理部160、出力部170を備える。また、音声認識装置1のRAM13乃至不揮発性メモリ14には、調整方式登録部110が登録した調整方式データを記憶するための領域である調整方式記憶部180、及び集計方式登録部140が登録した集計方式データを記憶するための領域である集計方式記憶部190が予め用意されている。
【0023】
音声信号取得部100は、音声センサ73が検出した音声信号を取得する。そして、取得した音声信号から1回の発話として認識される音声信号を抽出する。音声センサ73が検出する音声信号は、主として作業者が発話した音声に基づくものである。音声信号取得部100は、その中から作業者の1回の発話に対応する音声信号を切り出すようにしてよい。これは、例えば音声信号が予め定めた所定のレベルLvth以下となる状態が予め定めた所定の期間Tsth以上続いたところを音声の区切りとして、音声の区切りで挟まれた所定の期間Tnth以上の音声信号を1回の発話に対応する音声信号として切り出すようにすればよい。また、音声の切り出しにその他の公知の音声信号の解析技術を用いるようにしてもよい。音声信号取得部100が切り出した音声信号は、調整波形群生成部120に出力される。
【0024】
調整方式登録部110は、音声波形の調整方式に係る情報を受け付けて調整方式記憶部180に登録する。調整方式に係る情報は、調整対象としての音声信号の属性に係る情報と、該属性に対する調整幅に係る情報を含む。調整対象となる属性としては、例えば発話速度、振幅、ピッチ、フォルマント、SN比などが例示される。調整方式登録部110は、例えばそれぞれの属性について、調整対象とするか否か、調整対象とする場合にどの程度の調整幅で調整するのかを受け付ける。そして、受け付けた入力を調整方式に係る情報とする。調整幅に係る情報としては、固定値ではなく所定の調整幅を最大値とする乱数を使うように指定できるようにしてもよい。調整方式に係る情報は、更に生成する調整済みの音声信号の個数を含んでいてもよい。図3に例示するように、調整方式登録部110は、入力を受け付けるためのインタフェースを表示装置70に表示するようにしてもよい。なお、典型的な調整方式に係る情報を予め調整方式記憶部180に記憶しておくようにしてもよい。このような場合、調整方式を変更するとき以外は、調整方式登録部110の機能は不要となる。
【0025】
調整波形群生成部120は、調整方式記憶部180に記憶される調整方式に係る情報に従って、音声信号取得部100から入力された音声信号を調整した複数の調整済み音声信号を生成する。例えば、図3に例示されるように、発話速度を調整対象の属性として、調整幅が±1.0%とされる調整方式に係る情報が調整方式記憶部180に記憶されているとする。この場合、調整波形群生成部120は、入力された音声信号の発話速度を101%にした調整済み音声信号、99%にした調整済み音声信号、102%にした調整済み音声信号、98%にした調整済み音声信号、…、をそれぞれ生成する。調整幅として乱数を使うように指定されている場合には、逐次乱数で調整幅を求めて調整量を決定するようにすればよい。振幅についても同様である。ピッチ、フォルマントなどについては、SOLA(Synchronized OverLap-Add method:同期波形重畳法)やPV(Phase Vocoder)などの公知のピッチシフト、フォルマントシフトの手法で変更することが可能である。SN比については、音声信号の中で所定の振幅以下の成分をノイズとみなして、その成分の大きさを変化させることで変更可能である。他の音声信号の属性についても、公知の手法で変更可能である。調整方式に係る情報に生成する調整済み音声信号の個数が含まれている場合、そこで指定されている個数の調整済み音声信号を生成する。含まれていない場合には、予め定めた所定の個数の調整済み音声信号を生成するようにしてよい。調整波形群生成部120は、本来の音声信号と、複数の調整済み音声信号とを調整波形群に係るデータとして音声認識部130に対して出力する。
【0026】
音声認識部130は、調整波形群生成部120により入力された調整波形群に係るデータに含まれるそれぞれの音声信号(本来の音声信号と、複数の調整済み音声信号)に対して公知の音声認識の処理を実行する。そして、それぞれの音声信号に対する音声認識の結果を集計結果生成部150に出力する。音声認識部130が実行する音声認識の処理は、例えばDP(Dynamic Programming)マッチングやHMM(Hidden Markov Model:隠れマルコフモデル)、GMM(Gaussian Mixture Model)-HMM、DNN(Deep Neural Network)-HMM、RNN(Recurrent Neural Network)、LSTM(Long Short-Term Memory)など、公知のモデルを用いたものであってよい。
【0027】
集計方式登録部140は、音声認識部130が調整波形群に係るデータに含まれるそれぞれの音声信号に対して音声認識を実行した結果をどのような統計処理により集計するのかを示す集計方式に係る情報を受け付けて集計方式記憶部190に登録する。集計方式に係る情報は、少なくとも複数のデータに基づいて1つの結果を集計できる統計処理に係る情報を含む。一例として、集計方式に係る情報は、音声認識の結果としての書き起こし文字列群の最頻値にあたる書き起こし文字列を指定する情報であってよい。また、他の例として、音声認識の結果としてのそれぞれの書き起こし文字列の信頼度の中央値に近い書き起こし文字列を指定する情報であってよい。このように、音声認識の結果としての書き起こし文字列や信頼度に対して行われる所定の統計処理に基づくものであってよい。図4に例示するように、集計方式登録部140は、入力を受け付けるためのインタフェースを表示装置70に表示するようにしてもよい。なお、典型的な集計方式に係る情報を予め集計方式記憶部190に記憶しておくようにしてもよい。このような場合、集計方式を変更するとき以外は、集計方式登録部140の機能は不要となる。
【0028】
集計結果生成部150は、集計方式記憶部190に記憶される集計方式に係る情報に従って、音声認識部130による調整波形群に係るデータに対する音声認識の結果に対して所定の統計処理を実行する。そして、その統計処理の結果を集計結果として出力する。
【0029】
図5に、集計方式に係る情報として音声認識の結果としての書き起こし文字列群の最頻値にあたる書き起こし文字列が指定されている場合の例を示す。音声信号取得部100が出力した音声信号が調整波形群生成部120に入力されると、調整波形群生成部120は調整方式記憶部180に記憶された調整方式に係る情報に従って、入力された音声信号の所定の属性を調整した複数の音声信号を生成する。図5の例では、発話速度を所定の調整幅で調整した複数の調整済み音声信号を生成している。そして、これらの音声信号及び複数の調整された音声信号を調整波形群に係るデータとして音声認識部130に出力する。音声認識部130では、調整波形群に含まれるそれぞれの音声信号に対して音声認識の処理を実行する。結果として、それぞれの音声信号から認識される書き起こし文字列と、その信頼度が得られる。集計結果生成部150は、これらの音声認識の結果について、書き起こし文字列の最頻値にあたる書き起こし文字列を求める集計処理を実行する。書き起こし文字列の最頻値が「機器の設定」であるため、集計結果生成部150は、集計処理の結果として書き起こし文字列「機器の設定」を出力する。
【0030】
図6に、集計方式に係る情報として音声認識の結果としてのそれぞれの書き起こし文字列の信頼度の中央値に近い書き起こし文字列が指定されている場合の例を示す。音声信号取得部100が出力した音声信号が調整波形群生成部120に入力されると、調整波形群生成部120は調整方式記憶部180に記憶された調整方式に係る情報に従って、入力された音声信号の所定の属性を調整した複数の音声信号を生成する。図6の例では、音声信号の振幅値を所定の調整幅で調整した複数の調整済み音声信号を生成している。そして、これらの音声信号及び複数の調整された音声信号を調整波形群に係るデータとして音声認識部130に出力する。音声認識部130では、調整波形群に含まれるそれぞれの音声信号に対して音声認識の処理を実行する。結果として、それぞれの音声信号から認識される書き起こし文字列と、その信頼度が得られる。集計結果生成部150は、これらの音声認識の結果について、信頼度の中央値を求める集計処理を実行する。ここで、信頼度の中央値が0.81であったとする。この時、集計結果生成部150は、集計処理の結果として信頼度の値が0.81に最も近い音声認識結果である調整済み音声信号4の音声認識結果の書き起こし文字列である「暖機運転時間を減らしたい」を出力する。
【0031】
コマンド処理部160は、集計結果生成部150から出力された集計結果を音声コマンドとして受け付ける。そして、受け付けた音声コマンドに従って、音声コマンドに対応する所定の機能を実行する。所定の機能は、制御装置が備える一般的な機能であってよい。例えば音声認識装置の所定の画面を呼び出す機能や、所定のパラメータの設定機能、産業機械2に対する制御に係る機能などが例示される。
【0032】
出力部170は、集計結果生成部150から出力された集計結果を表示装置70に対して表示出力する。出力部170は、集計結果を表示装置70の画面上で実行されている所定の機能の表示の邪魔にならない位置(例えば、画面の最下段の状態表示領域など)に表示するようにしてもよい。また、ダイアログなどの形で表示出力するようにしてもよい。出力部170は、集計結果をネットワーク5を介して他の産業機械4やフォグコンピュータ6、クラウドサーバ7などの上位のコンピュータに送信出力するようにしてもよい。また、不揮発性メモリ14などの上に予め設けられたログ記録領域に出力するようにしてもよい。
【0033】
上記構成を備えた音声認識装置1は、取得した音声信号に対して、波形の類似する調整された複数の音声信号を生成する。次に、生成した調整波形群に対して音声認識処理を行う。そして、音声認識処理の結果に対して所定の統計処理を行うことで、製造現場の環境要因に基づく音声信号の所定の属性の乱れが生じたとしても、音声認識の処理精度が頑健化される。そのため、音声認識の正解率も向上することが見込まれる。
【0034】
以上、本発明の実施形態について説明したが、本発明は上述した実施の形態の例のみに限定されることなく、適宜の変更を加えることにより様々な態様で実施することができる。
例えば、上記した実施形態では、音声認識装置1上に全ての機能を持たせている例を示している。しかしながら、一部の機能をフォグコンピュータ6やクラウドサーバ7などの他のコンピュータ上に設けるように構成してもよい。例えば、図7に例示するように、調整方式登録部110、集計方式登録部140、調整方式記憶部180、集計方式記憶部190をフォグコンピュータ上に設け、調整法式に係る情報や集計方式に係る情報を複数の音声認識装置1(制御装置)で共有して利用するようにしてもよい。
【符号の説明】
【0035】
1 音声認識装置
2 産業機械
4 産業機械
5 ネットワーク
6 フォグコンピュータ
7 クラウドサーバ
11 CPU
12 ROM
13 RAM
14 不揮発性メモリ
15,17,18,20,21 インタフェース
16 PLC
19 I/Oユニット
22 バス
30 軸制御回路
40 サーボアンプ
50 サーボモータ
70 表示装置
71 入力装置
72 外部機器
73 音声センサ
100 音声信号取得部
110 調整方式登録部
120 調整波形群生成部
130 音声認識部
140 集計方式登録部
150 集計結果生成部
160 コマンド処理部
170 出力部
180 調整方式記憶部
190 集計方式記憶部
図1
図2
図3
図4
図5
図6
図7