特開2024-142132 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立製作所の特許一覧

特開2024-142132演算方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024142132

(43)【公開日】2024-10-10

(54)【発明の名称】演算方法

(51)【国際特許分類】

G06N 3/0455 20230101AFI20241003BHJP

G10L 15/16 20060101ALN20241003BHJP

【ＦＩ】

G06N3/0455

G10L15/16

【審査請求】未請求

【請求項の数】3

【出願形態】ＯＬ

(21)【出願番号】P 2023054155

(22)【出願日】2023-03-29

(71)【出願人】

【識別番号】000005108

【氏名又は名称】株式会社日立製作所

(74)【代理人】

【識別番号】110002365

【氏名又は名称】弁理士法人サンネクスト国際特許事務所

(72)【発明者】

【氏名】ヤルタネルソン

(72)【発明者】

【氏名】堀口翔太

(57)【要約】

【課題】パラメータの数を大幅に増加させることなく精度を向上できる。
【解決手段】演算方法は、直列に接続された同一の構成を有する複数の演算ブロックを有する演算装置が実行する演算方法であって、演算ブロックのそれぞれに、演算ブロックごとに異なる値であるＩＤ番号および全ての演算ブロックに共通する値である重みを入力することと、予め定められた数式、ＩＤ番号、および重みを用いて演算ブロックごとに異なる演算を行うこととを含む。
【選択図】図８

【特許請求の範囲】

【請求項1】

直列に接続された同一の構成を有する複数の演算ブロックを有する演算装置が実行する演算方法であって、
前記演算ブロックのそれぞれに、前記演算ブロックごとに異なる値であるＩＤ番号および全ての前記演算ブロックに共通する値である重みを入力することと、
予め定められた数式、前記ＩＤ番号、および前記重みを用いて前記演算ブロックごとに異なる演算を行うこととを含む演算方法。

【請求項2】

請求項１に記載の演算方法であって、
前記演算ブロックは、エンコーダネットワークを構成する演算方法。

【請求項3】

請求項１に記載の演算方法であって、
前記重みは第１重みと第２重みとを含み、
前記演算ブロックのそれぞれは、マルチヘッドアテンションおよび位置毎符号化を含み、
前記第１重みは前記マルチヘッドアテンションに用いられ、前記第２重みは前記位置毎符号化に用いられる演算方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、演算方法に関する。

【背景技術】

【0002】

音声処理や自然言語処理、画像処理などを行う機械学習モデルとして、Transformerが知られている。Transformerをベースとして、精度の向上や処理の高速化など様々な試みがなされている。非特許文献１には、Transformerに基づく音声認識のエンコーダネットワークの複数のレイヤに同一の重み係数を用いる構成が開示されている。

【先行技術文献】

【非特許文献】

【0003】

【非特許文献1】Tatsuya Komatsu, "Non-autoregressive ASR with self-conditionedFolded Encoders", in Proc. IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP), 2022, pp. 7427-7431

【発明の概要】

【発明が解決しようとする課題】

【0004】

非特許文献１に記載されている発明では、表現の精度に改善の余地がある。

【課題を解決するための手段】

【0005】

本発明の第１の態様による演算方法は、直列に接続された同一の構成を有する複数の演算ブロックを有する演算装置が実行する演算方法であって、前記演算ブロックのそれぞれに、前記演算ブロックごとに異なるＩＤ番号および全ての前記演算ブロックに共通する値である重みを入力することと、予め定められた数式、前記ＩＤ番号、および前記重みを用いて前記演算ブロックごとに異なる演算を行うこととを含む。

【発明の効果】

【0006】

本発明によれば、パラメータの数を大幅に増加させることなく精度を向上できる。

【図面の簡単な説明】

【0007】

【図1】音声認識システムの構成図

【図2】音声認識システムのハードウエア構成図

【図3】エンコーダネットワークの構成図

【図4】エンコーダブロックの構成図

【図5】マルチヘッドアテンションの構成図

【図6】ヘッドの構成図

【図7】位置毎符号化部の構成図

【図8】線形変換部の構成図

【図9】音声認識システムの動作を示すフローチャート

【図10】変形例１における線形変換部の構成図

【発明を実施するための形態】

【0008】

―第１の実施の形態―
以下、図１～図７を参照して、音声認識システムの第１の実施の形態を説明する。

【0009】

図１は、本発明に係る音声認識システム１の構成図である。音声認識システム１は、音声入力部１４と、音声認識部１０と、ユーザインタフェース１５とを備える。音声入力部１４は、人間の発話などの音声を電気信号に変換し、音声信号１１１を音声認識部１０に出力する。音声認識部１０は、音声入力部１４から入力される音声信号１１１を処理して認識テキスト１１４を生成し、ユーザインタフェース１５に認識テキスト１１４を出力する。ユーザインタフェース１５は、音声認識部１０から入力された認識テキスト１１４を任意の他のアプリケーションに入力する。ただし、ユーザインタフェース１５は入力された認識テキスト１１４を表示するだけでもよい。以下では音声認識部１０の構成および動作を詳細に説明する。

【0010】

音声認識部１０は、ベクトルエンコーダ１１２と、Ｅ２Ｅモデル１３０とを備える。ベクトルエンコーダ１１２には音声信号１１１が入力される。ベクトルエンコーダ１１２は、音声信号１１１の特徴量を算出して音声特徴量１１３をＥ２Ｅモデル１３０に出力する。Ｅ２Ｅモデル１３０には音声特徴量１１３が入力される。Ｅ２Ｅモデル１３０は、後述する処理を経て認識テキスト１１４をユーザインタフェース１５に出力する。

【0011】

Ｅ２Ｅモデル１３０は、エンドツーエンド（Ｅ２Ｅ）の音声認識を行う。Ｅ２Ｅモデル１３０は、エンコーダネットワーク２０と、デコーダネットワーク２１と、ＣＴＣネットワーク２２と、ビームサーチ２３とを備える。エンコーダネットワーク２０にはベクトルエンコーダ１１２から音声特徴量１１３が入力される。エンコーダネットワーク２０は、後述する処理を経て時系列埋め込みベクトル２０１をデコーダネットワーク２１およびＣＴＣネットワーク２２に出力する。

【0012】

デコーダネットワーク２１は、エンコーダネットワーク２０から時系列埋め込みベクトル２０１が入力される。デコーダネットワーク２１はビームサーチ２３に各トークンの確率を出力する。ＣＴＣネットワーク２２は、エンコーダネットワーク２０から時系列埋め込みベクトル２０１が入力される。ＣＴＣネットワーク２２はビームサーチ２３に各トークンの確率を出力する。ビームサーチ２３は、デコーダネットワーク２１およびＣＴＣネットワーク２２から各トークンの確率が入力される。ビームサーチ２３は認識テキスト１１４をユーザインタフェース１５に出力する。

【0013】

図２は、音声認識システム１のハードウエア構成図である。ただし音声認識システム１は複数のハードウエア装置により実現されてもよく、図２に示す構成は一例である。音声認識システム１は、「演算装置」とも呼べる。音声認識システム１は、中央演算装置であるＣＰＵ４１、読み出し専用の記憶装置であるＲＯＭ４２、読み書き可能な記憶装置であるＲＡＭ４３、音声信号を収集するマイク４４、および通信装置４５を備える。ＣＰＵ４１がＲＯＭ４２に格納されるプログラムをＲＡＭ４３に展開して実行することで音声認識部１０の機能を実現する。

【0014】

音声認識システム１は、ＣＰＵ４１、ＲＯＭ４２、およびＲＡＭ４３の組み合わせの代わりに書き換え可能な論理回路であるＦＰＧＡ（Field Programmable Gate Array）や特定用途向け集積回路であるＡＳＩＣ（Application Specific Integrated Circuit）により実現されてもよい。また音声認識システム１は、ＣＰＵ４１、ＲＯＭ４２、およびＲＡＭ４３の組み合わせの代わりに、異なる構成の組み合わせ、たとえばＣＰＵ４１、ＲＯＭ４２、ＲＡＭ４３とＦＰＧＡの組み合わせにより実現されてもよい。マイク４４は音声入力部１４を実現する。通信装置４５は、音声認識システム１の外部と通信し、ユーザインタフェース１５を実現する。通信装置４５による通信は、有線および無線のいずれでもよい。

【0015】

図３は、エンコーダネットワーク２０の構成図である。エンコーダネットワーク２０は、Ｌ個のエンコーダブロック２００を含む。それぞれのエンコーダブロック２００は「レイヤ」とも呼ばれ、図示上部のエンコーダブロック２００は１つ目のレイヤ、図示下部のエンコーダブロック２００はＮ個目のレイヤとも呼べる。それぞれのエンコーダブロック２００の構成および動作は同一である。以下では便宜的に、それぞれのエンコーダブロック２００の入力および出力を、ブロック入力６１およびブロック出力６２と呼ぶ。なお以下では、エンコーダブロック２００を「演算ブロック」とも呼ぶ。

【0016】

エンコーダブロック２００の入出力は原則として次のとおりである。ｋ番目のエンコーダブロック２００のブロック入力６１は、ｋ－１番目のエンコーダブロックのブロック出力６２である。ｋ番目のエンコーダブロック２００のブロック出力６２は、ｋ＋１番目のエンコーダブロック２００のブロック入力６１である。エンコーダブロック２００の入出力の例外は、１番目のエンコーダブロック２００のブロック入力６１が音声特徴量１１３である点と、Ｎ番目のエンコーダブロック２００のブロック出力６２がエンコーダネットワーク２０の出力である時系列埋め込みベクトル２０１になる点である。次に、それぞれのエンコーダブロック２００の構成を説明する。

【0017】

図４は、エンコーダブロック２００の構成図である。エンコーダブロック２００は、第１レイヤーノルム４１１と、マルチヘッドアテンション４２１と、第１加算器４３１と、第２レイヤーノルム４１２と、位置毎符号化部４２２と、第２加算器４３３と、ＩＤ出力部４３０と、第１重み出力部４４１と、第２重み出力部４４２と、を備える。エンコーダブロック２００の処理は、図３において図示上部から図示下部に向かって進む。エンコーダブロック２００の処理が図４の下端に達すると、次のエンコーダブロック２００の処理が開始される。入力から第１加算器４３１までの前半処理と、第１加算器４３１の出力より後の後半処理とに分かれる。前半処理と後半処理は類似しており、大きな違いは第１重み４０１および第２重み４０２のいずれが用いられるかである。

【0018】

第１レイヤーノルム４１１には、ブロック入力６１が入力され、第１出力４５１を出力する。マルチヘッドアテンション４２１には、第１レイヤーノルム４１１から第１出力４５１が入力され、第１重み出力部４４１から第１重み４０１が入力され、ＩＤ出力部４３０からＩＤ４０５が入力される。マルチヘッドアテンション４２１は、後述する演算により第２出力４５２を出力する。第１加算器４３１は、ブロック入力６１と第２出力４５２との和である第３出力４５３を出力する。

【0019】

第２レイヤーノルム４１２には、第３出力４５３が入力され、第４出力４５４を出力する。位置毎符号化部４２２には、第２レイヤーノルム４１２から第４出力４５４が入力され、第２重み出力部４４２から第２重み４０２が入力され、ＩＤ出力部４３０からＩＤ４０５が入力される。位置毎符号化部４２２は、後述する演算により第５出力４５５を出力する。第２加算器４３２は、第３出力４５３と第５出力４５５との和であるブロック出力６２を出力する。

【0020】

第１重み出力部４４１は、第１重み４０１をマルチヘッドアテンション４２１に出力する。第２重み出力部４４２は第２重み４０２を位置毎符号化部４２２に出力する。第１重み４０１および第２重み４０２は、いずれも長さＫの一次元配列である。なお、このスカラー値Ｋは、後述するスカラー値であるｓとｔの積である。第１重み４０１および第２重み４０２の値は、事前に行われる学習処理により決定される。以下に示す数式では、第１重み４０１をｐで表し、第２重み４０２をｑで表す。

【0021】

ＩＤ出力部４３０は、ＩＤ４０５をマルチヘッドアテンション４２１および位置毎符号化部４２２に出力する。ＩＤ４０５は、レイヤの番号である。たとえばＩＤ出力部４３０を含むエンコーダブロック２００がエンコーダネットワーク２０のｋ番目のレイヤである場合に、ＩＤ出力部４３０は数値「ｋ」を出力する。ＩＤ出力部４３０の出力は、マルチヘッドアテンション４２１および位置毎符号化部４２２のいずれに対しても同一である。

【0022】

図５は、マルチヘッドアテンション４２１の構成図である。マルチヘッドアテンション４２１は、複数のヘッド４２１０と、連結部４２１３と、線形変換部５００とを備える。本実施の形態における線形変換部５００は他の構成よりも抽象度が高い。たとえば図６以降にも線形変換部５００は記載されるが、図５とは入出力が異なる。線形変換部５００の構成および動作は後述する。

【0023】

それぞれのヘッド４２１０の出力は、連結部４２１３に入力される。連結部４２１３の出力は線形変換部５００に入力される。図５における線形変換部５００の出力は、マルチヘッドアテンション４２１の出力である第２出力４５２である。それぞれのヘッド４２１０および線形変換部５００には、ＩＤ出力部４３０からＩＤ４０５が入力され、第１重み出力部４４１から第１重み４０１が入力される。マルチヘッドアテンション４２１の処理は次の式で表される。

【0024】

【数1】

【0025】

図６は、ヘッド４２１０の構成図である。ヘッド４２１０は、３つの線形変換部５００と、アテンションブロック４２１５とを備える。線形変換部５００には、ＩＤ出力部４３０からＩＤ４０５が入力され、第１重み出力部４４１から第１重み４０１が入力される。ヘッド４２１０の処理は次の式で表される。

【0026】

【数2】

【0027】

図７は、位置毎符号化部４２２の構成図である。位置毎符号化部４２２は、２つの線形変換部５００を備える。線形変換部５００には、ＩＤ出力部４３０からＩＤ４０５が入力され、第２重み出力部４４２から第２重み４０２が入力される。

【0028】

図８は、線形変換部５００の構成図である。ここでは、線形変換部５００への入力をｘ、線形変換部５００の出力をｚとおく。線形変換部５００には、ＩＤ４０５および第１重み４０１またはＩＤ４０５および第２重み４０２が入力される。図８では線形変換部５００に第１重み４０１および第２重み４０２の両方が入力されるようにも記載されるが、１つの線形変換部５００には第１重み４０１および第２重み４０２のいずれか一方しか入力されない。ＩＤ４０５はＩＤ出力部４３０から入力され、第１重み４０１は第１重み出力部４４１から入力され、第２重み４０２は第２重み出力部４４２から入力される。以下では、第１重み４０１および第２重み４０２をまとめて「重み」４００と呼ぶ。

【0029】

線形変換部５００は、拡張部５１０ａと、重み決定部５３０ａと、プロジェクション５２０ａとを備える。拡張部５１０ａは、ＩＤ４０５を用いて算出関数４２１１を重み決定部５３０ａに出力する。算出関数４２１１はｆ（ｄ；ｌ_ｎ）で表される。ｌ_ｎはｎ番目のエンコーダに対応する学習可能なスカラーパラメータであり、線形変換ごとに異なる値をとってもよい。関数ｆは特に限定されないが、たとえば次のような関数を用いることができる。ｄおよびＤについては後述する。

【0030】

【数3】

【0031】

【数4】

【0032】

【数5】

【0033】

重み決定部５３０ａは、重み４００および算出関数４２１１を用いて重み行列４２１２をプロジェクション５２０に出力する。重み行列４２１２はｓ行ｔ列の行列であり、重み行列４２１２のｉ行ｊ列の要素は次のように算出できる。ｓ行ｔ列の二次元配列に含まれる全要素を順番に並べると、ｉ行ｊ列の要素は先頭から（ｉｔ＋ｊ）番目になる。この値を上述した数式では変数ｄで表していた。すなわちｄ＝ｉｔ＋ｊである。またＤはｓとｔの積である。

【0034】

【数6】

【0035】

この式６は、重み４００の（ｉｔ＋ｊ）番目の要素の値ｐ_ｉｔ＋ｊにｆ（ｋ；ｌ_ｎ）を掛け合わせることを示している。重み決定部５３０は、重み行列４２１２の全要素を対象として式６の演算を繰り返す。換言すると、重み決定部５３０は変数ｋを１からＫまで変化させて式６の演算を繰り返す。重み決定部５３０は、重み行列４２１２の全要素の算出が完了すると、ｎ番目のレイヤ用の重み行列４２１２をプロジェクション５２０に出力する。プロジェクション５２０は、ベクトルである入力ｘと重み行列４２１２の積を算出してベクトルである出力ｚを得る。線形変換部５００への入力であるｘと、線形変換部５００の出力であるｚとの関係は次の式７のように表される。

【0036】

ｚ＝Ｗ^ｎｘ・・・（式７）

【0037】

式２には多数の線形変換が含まれ、この線形変換のそれぞれにおいて図８で説明した処理が行われる。式２は、線形変換を「ｈ＋１」含む。すなわち第１重み４０１および第２重み４０２は、「ｈ＋１」個設けられる。この重みの数は、エンコーダネットワーク２０に含まれるエンコーダブロック２００の個数Ｌに関わらず一定である。なぜならば、式３～式５に示したように、レイヤの番号ｌ_ｎに応じて重みの値が変更されるからである。それぞれの第１重み４０１および第２重み４０２は、事前の学習によりそれぞれの値が決定される。

【0038】

図９は、音声認識システム１の動作を示すフローチャートである。ステップＳ８０１において音声認識システム１の音声入力部１４は、発話の音声を取得し、音声信号１１１に変換して音声認識部１０に出力する。続くステップＳ８０２では、音声認識部１０のベクトルエンコーダ１１２が音声特徴量１１３を生成してＥ２Ｅモデル１３０に出力する。続くステップＳ８０３では、Ｅ２Ｅモデル１３０のエンコーダネットワーク２０が、学習済みのパラメータである第１重み４０１および第２重み４０２を用いて、音声特徴量１１３の隠れた特徴である時系列埋め込みベクトル２０１を算出する。

【0039】

続くステップＳ８０４では、Ｅ２Ｅモデル１３０は、デコーダネットワーク２１、ＣＴＣネットワーク２２、およびビームサーチ２３を用いて認識テキスト１１４を出力する。続くステップＳ８０５では音声認識システム１は、ユーザインタフェース１５を用いて認識テキスト１１４を出力する。

【0040】

上述した第１の実施の形態によれば、次の作用効果が得られる。
（１）音声認識システム１が実行する演算方法は、Ｌ個のエンコーダブロック２００のそれぞれに、エンコーダブロック２００ごとに異なる値であるＩＤ番号４０５および全ての演算ブロックに共通する値である重み４００を入力することと、式３～式５に示す予め定められた数式、ＩＤ番号４０５、および重み４００を用いてエンコーダブロック２００ごとに異なる演算を行うこととを含む。そのため、パラメータの数を大幅に増加させることなく精度を向上できる。

【0041】

（２）エンコーダブロック２００は、エンコーダネットワーク２０を構成する。

【0042】

（３）重み４００は、第１重み４０１と第２重み４０２とを含む。エンコーダブロック２００のそれぞれは、マルチヘッドアテンション４２１および位置毎符号化部４２２を含む。第１重み４０１はマルチヘッドアテンション４２１に用いられ、第２重み４０２は位置毎符号化に用いられる。

【0043】

（変形例１）
上述した第１の実施の形態における線形変換ではバイアス項を含まなかった。しかし線形変換にバイアス項が含まれてもよい。

【0044】

図１０は、変形例１における線形変換部５００の構成図である。線形変換がバイアス項を含む場合には、第１重み４０１および第２重み４０２のそれぞれは、長さＫの一次元配列と、長さｓの一次元配列の組み合わせとなる。たとえば第１重み４０１は、長さＫの一次元配列ｐと、長さｓの一次元配列ｂの組み合わせである。この場合に、一次元配列ｐは第１の実施の形態と同様に利用され、一次元配列ｂは次のように利用される。

【0045】

まず、第２拡張部５１２において、ＩＤ４０５を用いて算出関数ｇ（ｄ；ｌ’_ｎ）を出力する。ｌ’_ｎはｎ番目のエンコーダに対応する学習可能なスカラーパラメータであり、線形変換ごとに異なる値をとってもよい。関数ｇはたとえば前述の数式３～５と同様に定義される。そして第２重み決定部５３２は、一次元配列ｂと第２拡張部５１２が出力する算出関数ｇ（ｄ；ｌ’_ｎ）とを用いてたとえば次の数式８のようにｂ^ｎを算出する。

【0046】

【数7】

【0047】

この式８は、重みのｉ番目の要素ｑ_ｉにｇ（ｄ；ｌ’_ｎ）をかけ合わせることを示している。なお前述のように一次元配列ｂ^ｎの長さはｓである。本変形例におけるプロジェクション５２０は、次のように出力ｚを算出する。

【0048】

ｚ＝Ｗ^ｎｘ＋ｂⁿ ・・・（式９）

【0049】

（変形例２）
上述した第１の実施の形態では、算出関数４２１１はｆ（ｋ；ｌｎ）として表された。しかし、他の形式、たとえばｆ（ｋ；ｌｎ、φｎ）で表されてもよい。たとえば次の式１０のように表されてもよい。

【0050】

【数8】

【0051】

なお式１０においてφｎは位相を表すスカラーパラメータであり、ｌ_ｎと同様に学習可能なパラメータである。

【0052】

上述した各実施の形態および変形例において、機能ブロックの構成は一例に過ぎない。別々の機能ブロックとして示したいくつかの機能構成を一体に構成してもよいし、１つの機能ブロック図で表した構成を２以上の機能に分割してもよい。また各機能ブロックが有する機能の一部を他の機能ブロックが備える構成としてもよい。

【0053】

上述した各実施の形態および変形例において、プログラムはＲＯＭ４２に格納されるとしたが、プログラムは不図示の不揮発性記憶装置に格納されていてもよい。また、音声認識システム１が不図示の入出力インタフェースを備え、必要なときに入出力インタフェースと音声認識システム１が利用可能な媒体を介して、他の装置からプログラムが読み込まれてもよい。ここで媒体とは、例えば入出力インタフェースに着脱可能な記憶媒体、または通信媒体、すなわち有線、無線、光などのネットワーク、または当該ネットワークを伝搬する搬送波やディジタル信号、を指す。また、プログラムにより実現される機能の一部または全部がハードウエア回路やＦＰＧＡにより実現されてもよい。

【0054】

上述した各実施の形態および変形例は、それぞれ組み合わせてもよい。上記では、種々の実施の形態および変形例を説明したが、本発明はこれらの内容に限定されるものではない。本発明では音声認識を例にとって説明したが、多層Transformerを用いる別のアプリケーション、例えば自然言語処理や画像処理などに適用することもできる。本発明の技術的思想の範囲内で考えられるその他の態様も本発明の範囲内に含まれる。

【符号の説明】

【0055】

１：音声認識システム
１０：音声認識部
２０：エンコーダネットワーク
２１：デコーダネットワーク
２２：ＣＴＣネットワーク
２３：ビームサーチ
６１：ブロック入力
６２：ブロック出力
１１１：音声信号
１１２：ベクトルエンコーダ
１１３：音声特徴量
１１４：認識テキスト
１３０：Ｅ２Ｅモデル
２００：エンコーダブロック
４０１：第１重み
４０２：第２重み
４１１：第１レイヤーノルム
４１２：第２レイヤーノルム
４２１：第１マルチヘッドアテンション
４２２：第２マルチヘッドアテンション
４３０：ＩＤ出力部
４３１：第１加算器
４３２：第２加算器
４３３：第２加算器
５１０：拡張部
５１２：第２拡張部
５２０：プロジェクション
５３０：重み決定部
５３２：第２重み決定部
４２１１：算出関数
４２１２：重み行列

【図1】