特開2024-151738 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社東芝の特許一覧

特開2024-151738プログラム、情報処理装置および情報処理方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024151738

(43)【公開日】2024-10-25

(54)【発明の名称】プログラム、情報処理装置および情報処理方法

(51)【国際特許分類】

G06N 3/0464 20230101AFI20241018BHJP

G10L 15/16 20060101ALI20241018BHJP

【ＦＩ】

G06N3/0464

G10L15/16

【審査請求】未請求

【請求項の数】10

【出願形態】ＯＬ

(21)【出願番号】P 2023065376

(22)【出願日】2023-04-13

(71)【出願人】

【識別番号】000003078

【氏名又は名称】株式会社東芝

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】籠嶋岳彦

(57)【要約】

【課題】畳み込みニューラルネットワークモデルを用いる場合に、１つのモデルを用いて計算量と精度とのトレードオフを制御する柔軟な実装を実現する。
【解決手段】実施形態のプログラムは、コンピュータを、記憶制御部と変換部と第１ＣＮＮ部と第２ＣＮＮ部として機能させる。記憶制御部は、第１のストライドパラメータと第１のディレーションパラメータと、を記憶装置から読み出す。変換部は、変換パラメータを用いて、第１のストライドパラメータを第２のストライドパラメータに変換し、第１のディレーションパラメータを第２のディレーションパラメータに変換する。第１ＣＮＮ部は、少なくとも第２のストライドパラメータを用いて、特徴ベクトルの第１ＣＮＮ処理を実行する。第２ＣＮＮ部は、少なくとも第２のディレーションパラメータを用いて、第１ＣＮＮ部の出力ベクトルを入力とする第２ＣＮＮ処理を実行する。
【選択図】図４

【特許請求の範囲】

【請求項1】

コンピュータを、
出力の解像度を制御する第１のストライドパラメータと、入力の解像度を制御する第１のディレーションパラメータと、を記憶装置から読み出す記憶制御部と、
変換パラメータを用いて、前記第１のストライドパラメータを第２のストライドパラメータに変換し、前記第１のディレーションパラメータを第２のディレーションパラメータに変換する変換部と、
少なくとも前記第２のストライドパラメータを用いて、特徴ベクトルの第１ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）処理を実行する第１ＣＮＮ部と、
少なくとも前記第２のディレーションパラメータを用いて、前記第１ＣＮＮ部の出力ベクトルを入力とする第２ＣＮＮ処理を実行する第２ＣＮＮ部、
として機能させるためのプログラム。

【請求項2】

前記変換部は、前記第１のストライドパラメータに前記変換パラメータを乗じることによって前記第２のストライドパラメータを生成し、前記第１のディレーションパラメータに前記変換パラメータの逆数を乗じることによって、前記第２のディレーションパラメータを生成する、
請求項１に記載のプログラム。

【請求項3】

前記記憶装置は、複数の前記第２のストライドパラメータと、複数の前記第２のディレーションパラメータとを記憶し、
前記変換部は、前記変換パラメータに基づき、前記複数の第２のストライドパラメータから１つの前記第２のストライドパラメータを選択することによって、前記第１のストライドパラメータを変換し、前記変換パラメータに基づき、前記複数の第２のディレーションパラメータから１つの前記第２のディレーションパラメータを選択することによって、前記第１のディレーションパラメータを変換する、
請求項１に記載のプログラム。

【請求項4】

前記複数の第２のストライドパラメータのそれぞれは、第１の方向の出力解像度を制御するパラメータと、第２の方向の出力解像度を制御するパラメータとを含み、
前記複数の第２のディレーションパラメータのそれぞれは、第１の方向の入力解像度を制御するパラメータと、第２の方向の入力解像度を制御するパラメータとを含む、
請求項３に記載のプログラム。

【請求項5】

前記第２ＣＮＮ部の出力ベクトルの次元は、１次元以上であり、
前記第２ＣＮＮ部の出力ベクトルの少なくとも一つの次元の解像度が不足している場合、前記解像度が不足している少なくとも１つの次元の解像度を補間する補間部、
を更に備える請求項１乃至３のいずれか１項に記載のプログラム。

【請求項6】

前記特徴ベクトルは、入力された音声の特徴量を示し、
前記入力された音声から前記特徴量を抽出することによって、前記特徴ベクトルを生成する抽出部と、
前記第２ＣＮＮ部の出力ベクトルを用いて、前記音声を認識する認識部、
として更に機能させる請求項１乃至４のいずれか１項に記載のプログラム。

【請求項7】

前記認識部は、前記第２ＣＮＮ部の出力ベクトルを用いて、前記音声に含まれるキーワードを検出し、
前記キーワードに対応付けられたコマンドを起動する起動部、
として更に機能させる請求項６に記載のプログラム。

【請求項8】

出力の解像度を制御する第１のストライドパラメータと、入力の解像度を制御する第１のディレーションパラメータと、を記憶装置から読み出す記憶制御部と、
変換パラメータを用いて、前記第１のストライドパラメータを第２のストライドパラメータに変換し、前記第１のディレーションパラメータを第２のディレーションパラメータに変換する変換部と、
少なくとも前記第２のストライドパラメータを用いて、特徴ベクトルの第１ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）処理を実行する第１ＣＮＮ部と、
少なくとも前記第２のディレーションパラメータを用いて、前記第１ＣＮＮ部の出力ベクトルを入力とする第２ＣＮＮ処理を実行する第２ＣＮＮ部と、
を備える情報処理装置。

【請求項9】

情報処理装置が、出力の解像度を制御する第１のストライドパラメータと、入力の解像度を制御する第１のディレーションパラメータと、を記憶装置から読み出すステップと、
前記情報処理装置が、変換パラメータを用いて、前記第１のストライドパラメータを第２のストライドパラメータに変換し、前記第１のディレーションパラメータを第２のディレーションパラメータに変換するステップと、
前記情報処理装置が、少なくとも前記第２のストライドパラメータを用いて、特徴ベクトルの第１ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）処理を実行するステップと、
前記情報処理装置が、少なくとも前記第２のディレーションパラメータを用いて、前記第１ＣＮＮ処理の出力ベクトルを入力とする第２ＣＮＮ処理を実行するステップと、
を含む情報処理方法。

【請求項10】

第１の情報処理装置が、出力の解像度を制御する第１のストライドパラメータと、入力の解像度を制御する第１のディレーションパラメータと、を記憶装置から読み出すステップと、
前記第１の情報処理装置が、変換パラメータを用いて、前記第１のストライドパラメータを第２のストライドパラメータに変換し、前記第１のディレーションパラメータを第２のディレーションパラメータに変換するステップと、
前記第１の情報処理装置が、少なくとも前記第２のストライドパラメータを、特徴ベクトルの第１ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）処理に使用されるパラメータとして、第２の情報処理装置に保存するステップと、
前記第１の情報処理装置が、少なくとも前記第２のディレーションパラメータを、前記第１ＣＮＮ処理の出力ベクトルを入力とする第２ＣＮＮ処理に使用されるパラメータとして、前記第２の情報処理装置に保存するステップと、
を含む情報処理方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明の実施形態はプログラム、情報処理装置および情報処理方法に関する。

【背景技術】

【0002】

ニューラルネットワークの計算量を削減する方法としてフレームスキップが従来から知られている。この方法は、例えば奇数番目のフレームのみニューラルネットワーク処理を実行して出力し、偶数番目のフレームは処理を実行せずに奇数番目の出力を使用することで計算量を半減する技術である。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特許第６４５３９１７号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、従来の技術では、畳み込みニューラルネットワークモデルを用いる場合に、１つのモデルを用いて計算量と精度とのトレードオフを制御する柔軟な実装を実現することができなかった。

【課題を解決するための手段】

【0005】

実施形態のプログラムは、コンピュータを、記憶制御部と変換部と第１ＣＮＮ部と第２ＣＮＮ部として機能させる。記憶制御部は、出力の解像度を制御する第１のストライドパラメータと、入力の解像度を制御する第１のディレーションパラメータと、を記憶装置から読み出す。変換部は、変換パラメータを用いて、前記第１のストライドパラメータを第２のストライドパラメータに変換し、前記第１のディレーションパラメータを第２のディレーションパラメータに変換する。第１ＣＮＮ部は、少なくとも前記第２のストライドパラメータを用いて、特徴ベクトルの第１ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）処理を実行する。第２ＣＮＮ部は、少なくとも前記第２のディレーションパラメータを用いて、前記第１ＣＮＮ部の出力ベクトルを入力とする第２ＣＮＮ処理を実行する。

【図面の簡単な説明】

【0006】

【図1】第１実施形態の情報処理装置のハードウェア構成の一例を示す図。

【図2】第１実施形態の情報処理装置の機能構成の一例を示す図。

【図3】第１実施形態のキーワードおよびコマンドの対応情報の例を示す図。

【図4】第１実施形態の検出制御部の機能構成の一例を示す図。

【図5】第１実施形態の畳み込みニューラルネットワーク処理の例１を示す図。

【図6】第１実施形態の畳み込みニューラルネットワーク処理の例２を示す図。

【図7】第１実施形態の情報処理方法の例を示すフローチャート。

【図8】第２実施形態の情報処理装置の機能構成の一例を示す図。

【図9】第２実施形態のパラメータの一例を示す図。

【図10】第２実施形態の計算リソースに応じた変換パラメータの一例を示す図。

【図11】第２実施形態の補間部の入力例１を示す図。

【図12】第２実施形態の補間部の入力例２を示す図。

【図13】第２実施形態の補間部の入力例３を示す図。

【図14】第２実施形態の情報処理方法の一例を示すフローチャート。

【発明を実施するための形態】

【0007】

以下に添付図面を参照して、プログラム、情報処理装置および情報処理方法の実施形態を詳細に説明する。

【0008】

（第１実施形態）
はじめに、第１実施形態の情報処理装置１００のハードウェア構成の例について説明する。

【0009】

［ハードウェア構成の例］
図１は第１実施形態の情報処理装置１００のハードウェア構成の一例を示す図である。図１の例は、第１実施形態の情報処理装置１００が、スマートフォンなどのスマートデバイスに搭載されるキーワード発話検出装置およびコマンド起動装置として実現される場合を示す。

【0010】

第１実施形態の情報処理装置１００は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）３０１と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）３０２と、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）３０３と、操作入力装置３０４と、表示装置３０５と、記憶装置３０６と、通信装置３０７と、音声入力装置３０８とを備える。そして、ＣＰＵ３０１と、ＲＡＭ３０２と、ＲＯＭ３０３と、操作入力装置３０４と、表示装置３０５と、記憶装置３０６と、通信装置３０７と、音声入力装置３０８とは、バス３０９により接続される。

【0011】

ＣＰＵ３０１は、プログラムに従って演算処理および制御処理等を実行するプロセッサである。ＣＰＵ３０１は、ＲＡＭ３０２の所定領域を作業領域として、ＲＯＭ３０３および記憶装置３０６等に記憶されたプログラムとの協働により各種処理を実行する。

【0012】

ＲＡＭ３０２は、ＳＤＲＡＭ（ＳｙｎｃｈｒｏｎｏｕｓＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等のメモリである。ＲＡＭ３０２は、ＣＰＵ３０１の作業領域として機能する。ＲＯＭ３０３は、プログラムおよび各種情報を書き換え不可能に記憶するメモリである。

【0013】

操作入力装置３０４は、タッチスクリーンおよびキーボード等の入力デバイスである。操作入力装置３０４は、ユーザから操作入力された情報を指示信号として受け付け、指示信号をＣＰＵ３０１に出力する。

【0014】

表示装置３０５は、ＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）等の表示デバイスである。表示装置３０５は、ＣＰＵ３０１からの表示信号に基づいて、各種情報を表示する。

【0015】

記憶装置３０６は、フラッシュメモリ等の半導体による記憶媒体、または、磁気的若しくは光学的に記録可能な記憶媒体等にデータを書き込みおよび読み出しをする装置である。記憶装置３０６は、ＣＰＵ３０１からの制御に応じて、記憶媒体にデータの書き込みおよび読み出しをする。

【0016】

通信装置３０７は、ＣＰＵ３０１からの制御に応じて外部の機器とネットワークを介して通信する。

【0017】

音声入力装置３０８は、マイクロフォンおよびＡＤ変換（アナログ／デジタル変換）装置などで構成され、ユーザの発話した音声信号をデジタル信号に変換してＣＰＵ３０１に出力する。

【0018】

［機能構成の例］
図２は第１実施形態の情報処理装置１００の機能構成の一例を示す図である。第１実施形態の情報処理装置１００は、ユーザの発話に含まれる所定のキーワードを認識して、例えばスマートデバイス上に実装されている適切なコマンドを実行するコマンド起動装置として動作する。第１実施形態の情報処理装置１００は、音声取得部１０１、計算リソース取得部１０２、検出制御部１０３、起動部１０４および記憶部１０５を備える。

【0019】

音声取得部１０１は、マイクロフォンに入力された音声を取得し、当該音声をデジタル信号に変換し、当該デジタル信号によって表された音声信号を検出制御部１０３に入力する。

【0020】

計算リソース取得部１０２は、ＣＰＵ３０１の計算能力とＣＰＵ３０１の負荷とを含む計算リソース情報を取得し、その時点で検出制御部１０３が利用可能な計算リソース情報を検出制御部１０３に入力する。例えば、ＣＰＵ３０１の計算能力が１０００ＭＩＰＳ（ＭｉｌｌｉｏｎＩｎｓｔｒｕｃｔｉｏｎｓＰｅｒＳｅｃｏｎｄ）であり、ＣＰＵ３０１の負荷が８０％であれば、利用可能な計算リソースが２００ＭＩＰＳであることを示す計算リソース情報を検出制御部１０３に入力する。

【0021】

検出制御部１０３は、音声取得部１０１から入力された音声信号から、キーワード発話を検出する処理を実行し、キーワード発話が検出された場合に、キーワード発話に対応するキーワードＩＤを起動部１０４に入力する。このとき、検出制御部１０３は、計算リソース取得部１０２から入力された計算リソース情報を参照し、計算リソース情報が示す計算量の範囲内でキーワード検出処理を実行する。

【0022】

起動部１０４は、検出制御部１０３から入力されたキーワードＩＤに対応付けられたコマンドを起動する。

【0023】

記憶部１０５は情報を記憶する。例えば、記憶部１０５は、検出制御部１０３によるキーワード検出処理で参照される情報を記憶する。

【0024】

図３は第１実施形態のキーワードおよびコマンドの対応情報の例を示す図である。第１実施形態の情報処理装置１００では、第１実施形態のコマンド起動装置は、図３に示す３つのキーワードＩＤが登録されており、それぞれ対応するコマンドを実行するように構成されている。

【0025】

第１実施形態のキーワードおよびコマンドの対応情報は、ＩＤ、表記、発音及びコマンドを含む。ＩＤは、キーワードを識別する識別情報である。表記は、キーワードの表記を示す。発音は、キーワードの発音を示す。コマンドは、キーワードに対応付けられたコマンドを示す。

【0026】

例えば、ＩＤ＝１の「現在時刻」には、時計アプリを起動して現在時刻を表示するコマンドが対応付けられている。

【0027】

次に、第１実施形態の検出制御部１０３の詳細な動作を、図４を参照して説明する。図４は第１実施形態の検出制御部１０３の機能構成の一例を示す図である。第１実施形態の検出制御部１０３は、記憶制御部２０１、生成部２０２、変換部２０３、抽出部２０４、第１ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）部２０５、第２ＣＮＮ部２０６および認識部２０７を備える。

【0028】

記憶制御部２０１は、記憶部１０５に記憶された情報の読み出し、書き込み及び削除などの記憶制御を行う。例えば、記憶制御部２０１は、第１ＣＮＮ部２０５のパラメータとして、カーネルサイズｋ_１＝３、ストライドｓ_１＝１、ディレーションｄ_１＝１、重みパラメータＷ_１を記憶部１０５から読み出し、第２ＣＮＮ部２０６のパラメータとして、カーネルサイズｋ_２＝３、ストライドｓ_２＝１、ディレーションｄ_２＝２、重みパラメータＷ_２を記憶部１０５から読み出す。

【0029】

生成部２０２は、計算リソース取得部１０２から入力された計算リソース情報に基づいて、変換パラメータｒを生成する。例えば、生成部２０２は、計算リソース情報が１００ＭＩＰＳ以上であれば、変換パラメータｒ＝１を生成し、計算リソース情報が１００ＭＩＰＳ未満であれば、変換パラメータｒ＝２を生成する。生成部２０２は、生成された変換パラメータｒを変換部２０３に入力する。

【0030】

変換部２０３は、第１ＣＮＮ部２０５に入力されるストライドｓ_１’および第２ＣＮＮ部２０６に入力されるディレーションｄ_２’を、下記式（１）および（２）を用いて算出する。
ｓ_１’＝ｒｓ_１・・・（１）
ｄ_２’＝ｄ_２／ｒ・・・（２）

【0031】

変換部２０３は、ストライドｓ_１に変換パラメータｒを乗じることによってストライドｓ_１’を生成し、ディレーションｄ_２に変換パラメータｒの逆数を乗じることによって、ディレーションｄ_２’を生成する。このようにパラメータを変換することで、同じ重みパラメータのモデルで、精度（出力の時間解像度）および計算量のトレードオフが制御可能になる。

【0032】

なお、ディレーションの値は整数である必要があるため、変換パラメータｒは、ディレーションｄ_２の約数である必要がある。

【0033】

変換部２０３は、カーネルサイズｋ_１、ストライドｓ_１’、ディレーションｄ_１および重みパラメータＷ_１を第１ＣＮＮ部２０５に入力し、カーネルサイズｋ_２、ストライドｓ_２、ディレーションｄ_２’および重みパラメータＷ_２を第１ＣＮＮ部２０５に入力する。

【0034】

抽出部２０４は、音声取得部１０１から入力された音声信号に対して、窓長３２ｍｓ、フレームシフト１０ｍｓで短時間フーリエ変換を行い、短時間フーリエ変換後のデータを、さらに３２次元のメルフィルタバンク特徴ベクトルに変換する。

【0035】

なお、入力された音声の特徴量を示す特徴ベクトルには、メルフィルタバンクの他にも、例えばＭＦＣＣ（ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒａｌＣｏｅｆｆｉｃｉｅｎｔ）などの種々の特徴量を用いることができる。また、特徴量抽出のためのニューラルネットワークが用いられてもよい。

【0036】

第１ＣＮＮ部２０５は、変換部２０３から入力されるパラメータを用いて、抽出部２０４から入力される特徴ベクトルに、時間方向の１次元ＣＮＮ処理を実施し、続いてバッチ正規化処理およびＲｅＬＵ（ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ）関数による活性化処理を順次実行する。

【0037】

第２ＣＮＮ部２０６は、変換部２０３から入力されるパラメータを用いて、第１ＣＮＮ部２０５の出力データに、時間方向の１次元ＣＮＮ処理を実施し、続いてバッチ正規化処理およびＲｅＬＵ関数による活性化処理を順次実行する。

【0038】

認識部２０７は、第２ＣＮＮ部２０６の出力ベクトルを用いて、音声を認識する。具体的には、認識部２０７は、第２ＣＮＮ部２０６の出力に対して１層の全結合ニューラルネットワーク処理を実施し、続いてＳｏｆｔｍａｘ活性化処理を実行して、フレーム毎に４次元の出力ベクトルｙ＝［ｙ_０，ｙ_１，ｙ_２，ｙ_３］を生成する。

【0039】

ここで、ｙ_０は発話にキーワードが含まれていない確率を表す。ｙ_１，ｙ_２，ｙ_３は、それぞれキーワードＩＤが１，２，３のキーワードが含まれている確率を表す。認識部２０７は、これら４つの確率値の中で、例えばｙ_１，ｙ_２またはｙ_３のいずれかが最大となった場合に、最大となった確率値に対応するキーワードＩＤを検出結果として出力する。

【0040】

なお、認識部２０７による音声認識は、入力音声に含まれるキーワードを検出する目的以外にも、入力音声をテキスト化する目的などに利用されてもよい。

【0041】

次に、利用可能な計算リソースが大きい場合（例えば２００ＭＩＰＳ）と、小さい場合（例えば８０ＭＩＰＳ）との差異に注目して、第１実施形態の検出制御部１０３の動作について詳細に説明する。

【0042】

計算リソースが２００ＭＩＰＳの場合、生成部２０２の出力はｒ＝１となるため、上述の式（１）および（２）より、ｓ_１’＝ｓ_１＝１およびｄ_２’＝ｄ_２＝２となる。この場合の入力ベクトル、第１ＣＮＮ部２０５の出力の各フレーム、および、第２ＣＮＮ部２０６の出力の各フレームと、ＣＮＮにおける演算との関係を図５に示す。

【0043】

図５は第１実施形態の畳み込みニューラルネットワーク処理の例１を示す図である。図５の丸は、入出力のフレームを表す。また、丸を結ぶ線は、畳み込み演算によって出力フレームを生成するときに参照される入力フレームを表す。

【0044】

第２ＣＮＮ部２０６の出力の１つのフレーム１１に注目すると、フレーム１１を生成するために、第１ＣＮＮ部２０５の出力の３つのフレームが参照されており、これら３つのフレームを出力するために入力特徴ベクトルの７フレームが参照されている。また図５の例では、第２ＣＮＮ部２０６の出力フレーム数は入力特徴ベクトルのフレーム数と同じであり、時間解像度が保たれていることが分かる。

【0045】

一方、計算リソースが８０ＭＩＰＳの場合、生成部２０２の出力はｒ＝２となるため、上述の式（１）および（２）より、ｓ_１’＝２ｓ_１＝２およびｄ_２’＝ｄ_２／２＝１となる。この場合の入力ベクトル、第１ＣＮＮ部２０５の出力の各フレーム、および、第２ＣＮＮ部２０６の出力の各フレームと、ＣＮＮにおける演算との関係を図６に示す。

【0046】

図６は第１実施形態の畳み込みニューラルネットワーク処理の例２を示す図である。第２ＣＮＮ部２０６の出力の１つのフレーム１２に注目すると、入出力の依存関係が図５の場合と同一であることから、出力の値は図５の対応するフレーム１１の出力と等しくなる。ただし、第２ＣＮＮ部２０６の出力フレーム数は入力特徴ベクトルのフレーム数の１／２となっており、時間解像度が低下して若干の性能低下があるが、必要な計算量は図５の場合と比較して１／２に削減される。

【0047】

第１実施形態の検出制御部１０３は、図５に示した構成の計算量が１００ＭＩＰＳで十分にリアルタイム処理が可能となるように設定されている。そのため、利用可能な計算リソースが１００ＭＩＰＳ以上の場合は検出精度を重視して高い時間解像度で出力を生成する．また、利用可能な計算リソースが１００ＭＩＰＳを下回った場合でも、図６の構成を用いて計算量を半減させることでリアルタイム処理を可能とし、若干の性能低下でキーワード発話検出を実行することが可能となる。

【0048】

［情報処理方法の例］
図７は第１実施形態の情報処理方法の例を示すフローチャートである。はじめに、計算リソース取得部１０２が、上述の計算リソース情報を取得する（ステップＳ１）。次に、生成部２０２が、ステップＳ１で取得された計算リソース情報に基づいて、変換パラメータｒを生成する（ステップＳ２）。

【0049】

次に、変換部２０３が、第１ＣＮＮ部２０５に入力されるストライドパラメータｓ_１’、および、第２ＣＮＮ部２０６に入力されるディレーションパラメータｄ_２’を、上述の式（１）および（２）を用いて変換する（ステップＳ３）。

【0050】

次に、抽出部２０４が、音声取得部１０１から入力された音声信号から、音声の特徴量を示す特徴ベクトルを抽出する（ステップＳ４）。

【0051】

次に、第１ＣＮＮ部２０５が、ステップＳ３で変換されたストライドパラメータｓ_１’を用いて、ステップＳ４で抽出された特徴ベクトルに、時間方向の１次元ＣＮＮ処理を実行する（ステップＳ５）。次に、第２ＣＮＮ部２０６が、ステップＳ３で変換されたディレーションパラメータｄ_２’を用いて、第１ＣＮＮ部２０５の出力データに、時間方向の１次元ＣＮＮ処理を実行する（ステップＳ６）。

【0052】

次に、認識部２０７が、第２ＣＮＮ部２０６の出力ベクトルを用いて、音声に含まれるキーワードを検出し（ステップＳ７）、起動部１０４が、キーワードに対応付けられたコマンドを起動する（ステップＳ２０）。

【0053】

以上述べたように、第１実施形態の情報処理装置１００では、記憶制御部２０１が、出力の解像度を制御するストライドｓ_１（第１のストライドパラメータ）と、入力の解像度を制御するディレーションｄ_２（第１のディレーションパラメータ）と、を記憶部１０５から読み出す。変換部２０３が、変換パラメータｒを用いて、ストライドｓ_１をストライドｓ_１’（第２のストライドパラメータ）に変換し、ディレーションｄ_２をディレーションｄ_２’（第２のディレーションパラメータ）に変換する。第１ＣＮＮ部２０５が、少なくとも第２のストライドパラメータを用いて、特徴ベクトルの第１ＣＮＮ処理を実行する。そして、第２ＣＮＮ部２０６が、少なくとも第２のディレーションパラメータを用いて、第１ＣＮＮ部２０５の出力ベクトルを入力とする第２ＣＮＮ処理を実行する。

【0054】

これにより第１実施形態の情報処理装置１００によれば、畳み込みニューラルネットワークモデルを用いる場合であっても、１つのモデルを用いて計算量と精度とのトレードオフを制御する柔軟な実装を実現することができる。例えば、２層以上の畳み込みニューラルネットワークにおいて、変換パラメータｒを制御することにより精度重視（計算量は大きいが出力の解像度が高い）と、計算量重視（計算量は小さいが出力が間引かれる）とを切り替えることが可能になる。すなわち、同じニューラルネットワークモデルを計算能力の異なる様々な計算機で実行できるという効果がある。

【0055】

具体的には、第１実施形態の検出制御部１０３は、畳み込みニューラルネットワークモデルを用いて高精度な検出が可能であると共に、精度と計算量とのトレードオフを柔軟に制御することが可能である。これにより、計算リソースが限られる場合には構成を変化させてリアルタイム処理を行うことができるという効果がある。

【0056】

このような柔軟な処理は、あらかじめ複数のモデルを用意して切り替えることでも実現可能であるが、その場合はモデルを記憶するメモリ容量の増大が課題となるのに対して、第１実施形態では１つのモデルで対応可能であるために、省メモリで実装できる効果がある。

【0057】

また、第１実施形態の検出制御部１０３は、さまざまな能力のプロセッサでその計算能力に合わせてリアルタイム処理が可能であることから、プロセッサ毎にニューラルネットワークモデルを開発する必要が無く、開発コストを削減できるという効果もある。

【0058】

例えば、情報処理装置１００（第１の情報処理装置）が、開発者の操作入力に応じて、任意の装置（第２の情報処理装置）のプロセッサに合わせてパラメータ変換処理を行って、変換されたパラメータが第２の情報処理装置に組み込まれてもよい。この場合、第１の情報処理装置はＣＮＮ処理を実行することは必須ではなく、また、第２の情報処理装置には、パラメータ変換処理を行う機能が含まれていなくてもよい。

【0059】

すなわち、第１の情報処理装置が、出力の解像度を制御する第１のストライドパラメータと、入力の解像度を制御する第１のディレーションパラメータと、を記憶装置から読み出すステップと、第１の情報処理装置が、変換パラメータを用いて、第１のストライドパラメータを第２のストライドパラメータに変換し、第１のディレーションパラメータを第２のディレーションパラメータに変換するステップと、第１の情報処理装置が、少なくとも第２のストライドパラメータを、特徴ベクトルの第１ＣＮＮ処理に使用されるパラメータとして、第２の情報処理装置に保存するステップと、第１の情報処理装置が、少なくとも第２のディレーションパラメータを、第１ＣＮＮ処理の出力ベクトルを入力とする第２ＣＮＮ処理に使用されるパラメータとして、第２の情報処理装置に保存するステップと、を含む情報処理方法も考えられる。

【0060】

なお、従来は、出力が１フレームの入力のみから計算可能なモデルの場合は、モデルを変更することなくスキップフレーム数を変更して計算量を調整することが可能だった。しかしながら、畳み込みニューラルネットワークにおいては１フレームの入力だけでなく、その前後の入力を参照するために、スキップフレーム数を変化させると出力に影響を与えるため、スキップフレーム数を変更することができなかった。そのため、畳み込みニューラルネットワークモデルを用いる場合、１つのモデルを用いて計算量と精度のトレードオフを制御する柔軟な実装を実現することができなかった。このような柔軟性を実現するためには、計算量の異なる複数のモデルをあらかじめ学習して搭載し、それらを切り替えるなどする必要があり、モデルを記憶するメモリ容量の増大や、モデルを開発するコストの増大などの課題があった。

【0061】

（第２の実施形態）
次に第２実施形態について説明する。第２実施形態の説明では、第１実施形態と同様の説明については省略し、第１実施形態と異なる箇所について説明する。

【0062】

［機能構成の例］
図８は第２実施形態の情報処理装置の機能構成の一例を示す図である。上述した第１実施形態と同一の構成要素については同一の番号を付して説明を省略する。第２実施形態は、畳み込みニューラルネットワークが３層となっており、それぞれ２次元畳み込みニューラルネットワークであること、補間部４０９が追加されていること、などが上述した第１実施形態との主な相違点である。

【0063】

第２実施形態の検出制御部１０３－２は、記憶制御部４０１、生成部４０２、変換部４０３、抽出部２０４、第１ＣＮＮ部４０５、第２ＣＮＮ部４０６、第３ＣＮＮ部４０８、補間部４０９および認識部２０７を備える。

【0064】

記憶制御部４０１は、第１ＣＮＮ部４０５、第２ＣＮＮ部４０６および第３ＣＮＮ部４０８にそれぞれ対応するパラメータとして、図９に示すパラメータを記憶部１０５に記憶する。

【0065】

図９は第２実施形態のパラメータの一例を示す図である。図９の例は、第２実施形態のパラメータがテーブル形式で記憶される場合を示す。第２実施形態では、時間方向（第１の方向の一例）および周波数方向（第２の方向の一例）の２次元の畳み込みニューラルネットワークが用いられるため、カーネルサイズ、ストライドおよびディレーションの各パラメータは時間方向および周波数方向のパラメータの対で表される。

【0066】

例えば、第２ＣＮＮ部４０６のカーネルサイズｋ_２＝（５，３）は、時間方向のカーネルサイズが５、周波数方向のカーネルサイズが３であることを表す。ストライドおよびディレーションのパラメータの一部（例えば、第１ＣＮＮ部４０５のストライド）は、５個のパラメータのリストで表されている。

【0067】

リストに含まれるストライドパラメータのそれぞれは、周波数方向の出力解像度を制御するパラメータと、時間方向の出力解像度を制御するパラメータとを含む。同様に、リストに含まれるディレーションパラメータのそれぞれは、周波数方向の入力解像度を制御するパラメータと、時間方向の入力解像度を制御するパラメータとを含む。

【0068】

生成部４０２は、計算リソース取得部１０２から入力された計算リソース情報に基づいて、変換パラメータｒを生成する。具体的には、生成部４０２は、図１０に示すテーブルに従って計算リソース情報に含まれるＭＩＰＳ値を、変換パラメータｒに変換する。

【0069】

図１０は第２実施形態の計算リソースに応じた変換パラメータの一例を示す図である。図１０の例は、第２実施形態の変換パラメータがテーブル形式で記憶される場合を示す。例えば、１００以上２００未満のＭＩＰＳ値は、変換パラメータｒ＝３に変換される。

【0070】

変換部４０３は、図１０に示す変換パラメータｒをインデックスとして使用して、図９に示すパラメータのリストから、第１ＣＮＮ部４０５のストライドｓ_１’、第２ＣＮＮ部４０６のストライドｓ_２’およびディレーションｄ_２’、並びに、第３ＣＮＮ部４０８のディレーションｄ_３’を選択する。

【0071】

例えば、変換パラメータｒ＝１の場合は、パラメータのリストの先頭の要素が選択される。この場合、第１ＣＮＮ部４０５のストライドｓ_１’、第２ＣＮＮ部４０６のストライドｓ_２’およびディレーションｄ_２’、並びに、第３ＣＮＮ部４０８のディレーションｄ_３’は、それぞれ、ｓ_１’＝（１，２）、ｓ_２’＝（６，１）、ｄ_２’＝（１，１）、ｄ_３’＝（１，１）となる。

【0072】

また例えば、変換パラメータｒ＝３の場合は、パラメータのリストの３番目の要素が選択される。この場合、第１ＣＮＮ部４０５のストライドｓ_１’、第２ＣＮＮ部４０６のストライドｓ_２’およびディレーションｄ_２’、並びに、第３ＣＮＮ部４０８のディレーションｄ_３’は、それぞれ、ｓ_１’＝（１，１）、ｓ_２’＝（３，１）、ｄ_２’＝（１，２）、ｄ_３’＝（２，２）となる。

【0073】

第２実施形態では、第１ＣＮＮ部４０５のストライドと第２ＣＮＮ部４０６のディレーションとの組み合わせ、および第２ＣＮＮ部４０６のストライドと第３ＣＮＮ部４０８とのディレーションの組み合わせについて、可能な組み合わせが予めリストとして記憶部１０５に記憶されている。そのため、パラメータの変換は、変換パラメータｒが、インデックスとして使用されたリストの要素の選択によって実施され、第１実施形態のようなｒについての約数の制約は無い。

【0074】

第１ＣＮＮ部４０５は、変換部４０３から入力されるパラメータを用いて、抽出部２０４から入力された特徴ベクトルに時間方向および周波数方向の２次元ＣＮＮ処理を実施し、続いてバッチ正規化処理、ＲｅＬＵ関数による活性化処理を順次実行する。

【0075】

第２ＣＮＮ部４０６は、変換部４０３から入力されるパラメータを用いて、第１ＣＮＮ部４０５の出力ベクトルに時間方向および周波数方向の２次元ＣＮＮ処理を実施し、続いてバッチ正規化処理、ＲｅＬＵ関数による活性化処理を順次実行する。

【0076】

第３ＣＮＮ部４０８は、変換部４０３から入力されるパラメータを用いて、第２ＣＮＮ部４０６の出力ベクトルに時間方向および周波数方向の２次元ＣＮＮ処理を実施し、続いてバッチ正規化処理、ＲｅＬＵ関数による活性化処理を順次実行する。

【0077】

補間部４０９は、第３ＣＮＮ部４０８の出力ベクトルを、必要に応じて時間方向および周波数方向に補間して出力する。すなわち、補間部４０９は、第３ＣＮＮ部４０８の出力ベクトルの時間解像度又は周波数解像度の少なくとも一方が不足している場合、当該出力ベクトルの時間解像度又は周波数解像度の少なくとも一方を補間する。

【0078】

なお、補間部４０９の処理対象となる出力ベクトルは、２次元に限らず、任意でよい。例えば、第１実施形態のように、第３ＣＮＮ部４０８の出力ベクトルが１次元の場合にも、補間部４０９の処理が適用されてもよい。また例えば、３次元以上の出力ベクトルに対して、補間部４０９の処理が適用されてもよい。

【0079】

図１１、図１２および図１３は、第２実施形態の補間部４０９の入力例１～３を示す図である。図１１、図１２および図１３の入力例１～３は、４３フレーム分の特徴ベクトルに対応する第３ＣＮＮ部４０８の出力が補間部４０９に入力される場合を表す。

【0080】

例えば、変換パラメータｒ＝５の場合は、時間方向および周波数方向のストライドが全て１であるため、図１１に示されるように、入力される特徴ベクトルと同様に周波数方向３２次元、時間方向４３フレームのベクトルが出力される。この場合、補間部４０９は補間処理を行わず、第３ＣＮＮ部４０８の出力ベクトルをそのまま出力する。

【0081】

また例えば、変換パラメータｒ＝３の場合は、第２ＣＮＮ部４０６の時間方向のストライドが３となるため、出力のフレーム数が１／３に間引かれて、第３ＣＮＮ部４０８の出力は図１２で表される。ここで、斜線で表された四角は出力データが存在し、白色の四角はストライドによりスキップされて出力データが存在しないことを表す。この場合、補間部４０９は、例えば時間方向の線形補間を行って、白色の四角に対応するデータを挿入することによって、出力ベクトルを図１１と同じデータサイズにする。

【0082】

また例えば、変換パラメータｒ＝１の場合は、第１ＣＮＮ部４０５の周波数方向のストライドが２となり、第２ＣＮＮ部４０６の時間方向のストライドが６となるため、出力のフレーム数が周波数方向に１／２、時間方向に１／３に間引かれて、第３ＣＮＮ部４０８の出力は図１３で表される。この場合、補間部４０９は、例えば時間方向および周波数方向の線形補間を行って白色の四角に対応するデータを挿入し、出力ベクトルを図１１と同じデータサイズにする。

【0083】

図１２および図１３の例のように、計算量重視の設定で、ニューラルネットワーク出力の時間解像度または周波数解像度が低下した（間引かれた）場合に、補間部４０９は、間引かれた出力を補間によって生成する。これにより精度重視の設定（精度を向上させる設定）、または計算量重視の設定（計算量を削減させる設定）にかかわらず、出力データの仕様が共通となり、以降の処理を共通化できるという効果がある。

【0084】

［情報処理方法の例］
図１４は第２実施形態の情報処理方法の一例を示すフローチャートである。はじめに、計算リソース取得部１０２が、上述の計算リソース情報を取得する（ステップＳ１１）。次に、生成部４０２が、ステップＳ１１で取得された計算リソース情報に含まれるＭＩＰＳ値を、図１０に示すテーブルに従って、変換パラメータｒを生成する（ステップＳ１２）。

【0085】

次に、変換部４０３が、第１ＣＮＮ部４０５、第２ＣＮＮ部４０６および第３ＣＮＮ部４０８のパラメータを変換する（ステップＳ１３）。具体的には、変換部４０３は、図１０に示す変換パラメータｒをインデックスとして使用して、図９に示すパラメータのリストから、第１ＣＮＮ部４０５のストライドｓ_１’、第２ＣＮＮ部４０６のストライドｓ_２’およびディレーションｄ_２’、並びに、第３ＣＮＮ部４０８のディレーションｄ_３’を選択する。

【0086】

次に、抽出部２０４が、音声取得部１０１から入力された音声信号から、音声の特徴量を示す特徴ベクトルを抽出する（ステップＳ１４）。

【0087】

次に、第１ＣＮＮ部４０５が、ステップＳ１３で変換されたストライドパラメータｓ_１’を用いて、ステップＳ１４で抽出された特徴ベクトルに、時間方向および周波数方向の２次元ＣＮＮ処理を実行する（ステップＳ１５）。

【0088】

次に、第２ＣＮＮ部４０６が、ステップＳ１３で変換されたストライドパラメータｓ_２’およびディレーションパラメータｄ_２’を用いて、第１ＣＮＮ部４０５の出力データに、時間方向および周波数方向の２次元ＣＮＮ処理を実行する（ステップＳ１６）。

【0089】

次に、第３ＣＮＮ部４０８が、ステップＳ１３で変換されたディレーションパラメータｄ_３’を用いて、第２ＣＮＮ部４０６の出力データに、時間方向および周波数方向の２次元ＣＮＮ処理を実行する（ステップＳ１７）。

【0090】

次に、補間部４０９が、第３ＣＮＮ部４０８の出力ベクトルを、必要に応じて時間方向および周波数方向に補間して出力する（ステップＳ１８）。

【0091】

次に、認識部２０７が、第３ＣＮＮ部４０８の出力ベクトルを用いて、音声に含まれるキーワードを検出し（ステップＳ１９）、起動部１０４が、キーワードに対応付けられたコマンドを起動する（ステップＳ２０）。

【0092】

以上、説明したように、第２実施形態では、記憶部１０５が、複数のストライドｓ’（第２のストライドパラメータ）と、複数のディレーションｄ’（第２のディレーションパラメータ）とを記憶する。変換部４０３は、変換パラメータｒに基づき、複数の第２のストライドパラメータから１つの第２のストライドパラメータを選択することによって、ストライドｓ（第１のストライドパラメータ）を変換し、変換パラメータｒに基づき、複数の（第２のディレーションパラメータ）から１つの前記第２のディレーションパラメータを選択することによって、ディレーションｄ_２（第１のディレーションパラメータ）を変換する。

【0093】

これにより、第２実施形態によれば、第１実施形態と同様の効果が得られる。

【0094】

また、以上述べた第２実施形態では、２次元の畳み込みニューラルネットワーク３層を用いているため、第１実施形態よりもより詳細なモデル化が可能となり、検出精度が改善する効果がある。また、ストライドパラメータの変換およびディレーションパラメータの変換を、時間方向だけでなく周波数方向でも行うことで、計算量の調整範囲が広がると共に、多段階に細かく調整できるようになる。これにより、第２利用可能な計算リソースに合わせてできるだけ精度を落とさずにリアルタイム処理を行うことができる効果がある。

【0095】

上述した第１実施形態の第１ＣＮＮ部２０５および第２ＣＮＮ部２０６、並びに、第２実施形態の第１ＣＮＮ部４０５、第２ＣＮＮ部４０６および第３ＣＮＮ部４０８では、ＣＮＮ処理に続いてバッチ正規化処理とＲｅＬＵ活性化処理とを実行する例について説明したが、これらに限定されるものではなく、種々の正規化処理や活性化処理を用いることができる。また、プーリング処理などを適用したり、スキップコネクションなどを付加したりするようにしてもよい。また、これらのＣＮＮ処理では出力チャネル数のパラメータについては説明を省略したが、任意の値を設定することが可能である。

【0096】

また、第１及び第２実施形態では、キーワード発話検出を例として説明したが、これに限定されるものではなく、２層以上の畳み込みニューラルネットワークを利用する応用であれば適用が可能である。例えば、上述の第１及び第２実施形態は、キーワード発話だけでなく連続発話が認識可能な音声認識装置にも当然適用可能である。また例えば、上述の第１及び第２実施形態は、音声以外の温度、加速度または光などの各種センサー信号処理や、画像または映像の処理にも適用が可能である。このような音声以外の処理においても同様に、利用可能な計算リソースに応じて、できるだけ性能を落とさずにリアルタイム処理を実行できる効果がある。

【0097】

また、上述の第１及び第２実施形態の畳み込みニューラルネットワークは、１次元または２次元の例で説明したが、３次元以上の畳み込みニューラルネットワークにも適用可能である。

【0098】

また、上述の第１及び第２実施形態は、スマートフォンで実現する例で説明したが、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）、タブレット、その他各種組み込み機器などに適用されてもよい。また、上述の第１及び第２実施形態の構成は、ソフトウェア（プログラム）で実現してもよいし、一部または全部をハードウェア回路で実現してもよい。

【0099】

また、コンピュータで実行されるプログラムは、コンピュータにインストール可能な形式または実行可能な形式のファイルで、ＣＤ－ＲＯＭ、フレキシブルディスク、ＣＤ－Ｒ、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）等のコンピュータで読み取り可能な記録媒体に記録されて提供される。

【0100】

また、このプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、このプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。

【0101】

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

【符号の説明】

【0102】

１００情報処理装置
１０１音声取得部
１０２計算リソース取得部
１０３検出制御部
１０４起動部
１０５記憶部
２０１記憶制御部
２０２生成部
２０３変換部
２０４抽出部
２０５第１ＣＮＮ部
２０６第２ＣＮＮ部
２０７認識部
３０１ＣＰＵ
３０２ＲＡＭ
３０３ＲＯＭ
３０４操作入力装置
３０５表示装置
３０６記憶装置
３０７通信装置
３０８音声入力装置
３０９バス
４０１記憶制御部
４０２生成部
４０３変換部
４０５第１ＣＮＮ部
４０６第２ＣＮＮ部
４０８第３ＣＮＮ部
４０９補間部

【図1】