IP Force 特許公報掲載プロジェクト 2022.1.31 β版

ホーム > 特許ランキング > 富士通株式会社

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特開2024-127077演算処理装置及び演算処理方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024127077

(43)【公開日】2024-09-20

(54)【発明の名称】演算処理装置及び演算処理方法

(51)【国際特許分類】

G06F 17/16 20060101AFI20240912BHJP

【ＦＩ】

G06F17/16 K

【審査請求】未請求

【請求項の数】7

【出願形態】ＯＬ

(21)【出願番号】P 2023035942

(22)【出願日】2023-03-08

(71)【出願人】

【識別番号】000005223

【氏名又は名称】富士通株式会社

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】戸倉宏樹

【テーマコード（参考）】

5B056

【Ｆターム（参考）】

5B056BB42

(57)【要約】

【課題】標準固有値問題の計算効率を向上させる演算処理装置及び演算処理方法を提供する。
【解決手段】計算実行部は、所定の対称行列に対する標準固有値問題の計算を分割して生成されたそれぞれが異なる計算を行う複数の計算単位について、各計算単位の計算がそれぞれで実行される複数のタスクのうちの第１タスクと第２タスクとの間にいずれか一方の結果に基づいて他方が計算を行うという依存関係が存在しない場合、第１タスクと第２タスクとを非同期で計算し、第１タスクと第２タスクとに依存関係が存在する場合、第１タスクと第２タスクとを逐次計算する。出力部は、計算実行部により計算された所定の対称行列に対する標準固有値問題の計算結果を出力する。
【選択図】図５

【特許請求の範囲】

【請求項1】

所定の対称行列に対する標準固有値問題の計算を分割して生成されたそれぞれが異なる計算を行う複数の計算単位について、各前記計算単位がそれぞれで実行される複数のタスクのうちの第１タスクと第２タスクとの間にいずれか一方の結果に基づいて他方が計算を行うという依存関係が存在しない場合、前記第１タスクと前記第２タスクとを非同期で計算し、前記第１タスクと前記第２タスクとに前記依存関係が存在する場合、前記第１タスクと前記第２タスクとを逐次計算する計算実行部と、
前記計算実行部により計算された前記所定の対称行列に対する標準固有値問題の計算結果を出力する出力部と
を備えたことを特徴とする演算処理装置。

【請求項2】

前記計算実行部は、前記第１タスク及び前記第２タスクのそれぞれについて、実行する前記計算単位の計算量が所定値以上の場合、前記計算単位の計算を複数スレッドで実行することを特徴とする請求項１に記載の演算処理装置。

【請求項3】

前記複数のタスク間の計算の結果の入出力関係を示す依存関係グラフを生成する依存関係グラフ生成部をさらに備え、
前記計算実行部は、前記依存関係グラフ生成部により生成された前記依存関係グラフを基に、前記第１タスクと前記第２タスクとの間の依存関係の存否を判定する依存関係判定部とを備える
ことを特徴とする請求項１に記載の演算処理装置。

【請求項4】

前記計算実行部は、前記所定の対称行列に対する標準固有値問題の計算に含まれる対称行列の三重対角化の計算を複数に分割した計算単位を含む前記複数の計算単位について、前記第１タスクと前記第２タスクとの間の依存関係の存否に基づいて計算を実行することを特徴とする請求項１に記載の演算処理装置。

【請求項5】

前記計算実行部は、前記所定の対称行列に対する標準固有値問題の計算に含まれる対称行列の三重対角化から得られる三重対角行列に対する固有値及び固有ベクトルの計算を複数に分割した計算単位を含む前記複数の計算単位について、前記第１タスクと前記第２タスクとの間の依存関係の存否に基づいて計算を実行することを特徴とする請求項１に記載の演算処理装置。

【請求項6】

前記計算実行部は、前記三重対角行列の固有ベクトルの逆変換で使用する三角行列の計算を行う計算単位を含む前記複数の計算単位について、前記第１タスクと前記第２タスクとの間の依存関係の存否に基づいて計算を実行することを特徴とする請求項５に記載の演算処理装置。

【請求項7】

所定の対称行列に対する標準固有値問題の計算を分割して生成されたそれぞれが異なる計算を行う複数の計算単位について、
各前記計算単位がそれぞれで実行される複数のタスクのうちの第１タスクと第２タスクとの間にいずれか一方の結果に基づいて他方が計算を行うという依存関係が存在しない場合、前記第１タスクと前記第２タスクとを非同期で計算し、
前記第１タスクと前記第２タスクとに前記依存関係が存在する場合、前記第１タスクと前記第２タスクとを逐次計算する
処理をプロセッサに実行させることを特徴とする演算処理方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、演算処理装置及び演算処理方法に関する。

【背景技術】

【0002】

行列の標準固有値問題は、特定の正方行列に対して、Ａν＝λνと表される固有値（λ）と固有ベクトル（ν）とをすべて求める問題である。特定の正方行列がｎ×ｎの大きさの場合、固有値（λ)と固有ベクトル（ν）のペアが一般にｎ個存在し、標準固有値問題を解くことでそれらを求めることができる。標準固有値問題は、科学技術分野において幅広く用いられている。特に対称行列の標準固有値問題は、新薬設計やビッグデータ解析などで用いられ、現代社会において重要なテーマである。

【0003】

対称行列の標準固有値問題を計算機で求める場合、一般には次のように行列を変換しながら計算が進められる。第１に、計算機は、対称行列の三重対角化を行う。次に、計算機は、三重対角行列に対する固有値及び固有ベクトルの計算を行う。最後に、計算機は、三重対角行列の固有ベクトルの逆変換を行い、元の対称行列の固有値及び固有ベクトルを算出する。

【0004】

ここで、三重対角行列は、対角成分と対角成分の上下隣り合う要素のみ非ゼロである行列である。また、三重対角化では、行列の相似変換により対称行列が三重対角行列へ変換される。この変換に用いられる行列として、ハウスホルダー変換を用いたハウスホルダー行列が知られている。

【0005】

三重対角化では、一般には以下の３つの手法のいずれかが用いられる。第１の手法は、ＱＲ法と呼ばれる手法であり、直交行列による相似変換を用いて標準固有値問題を解くことが行われる。ＱＲ法は、固有値・固有ベクトルを安定して求めやすいという特徴を有する。第２の手法は、ＭＲＲＲ（Multiple Relatively Robust Representations）法と呼ばれる手法である。ＭＲＲＲ法は、精度良く標準固有値問題を解き易いという特徴を有する。第３の手法は、分割統治法と呼ばれる手法である。分割統治法は、行列を小さな行列に分割し、固有値及び固有ベクトルを計算する方法である。分割統治法は、高い並列度で計算し易いという特徴を有する。近年の計算機は、大規模化に伴い並列度が非常に高い。そこで、高い並列度により標準固有値問題を解くために、分割統治法が用いられることが多い。

【0006】

標準固有値問題を始めとする様々な数学的問題では、行列演算などが多用される。そのため、線形代数の基本的な演算をまとめたBasic Linear Algebra Subprograms（ＢＬＡＳ）や標準固有値問題計算関数及び特異値問題計算関数をまとめたLinear Algebra Package（ＬＡＰＡＣＫ）等がオープンソースとして公開されている。一般的には、ＢＬＡＳやＬＡＰＡＣＫを組み合わせて対称行列の標準固有値問題を計算することができる。ＢＬＡＳやＬＡＰＡＣＫは頻繁に用いられるため、各ベンダーからチューニングされた様々なライブラリが提供されている。

【0007】

ここで、近年のプロセッサの傾向として、より多くのコアを搭載することで計算性能の向上が図られている。例えば、富士通が開発したスーパーコンピュータ京とスーパーコンピュータ富岳向けのプロセッサのコア数は８から４８に増加している。その他、Ｎｖｉｄｉａ社が開発しているフラグシップ向けＧＰＵのコア数は、順に、５１２０（Ｖ１００）、６９１２（Ａ１００）、１６８９６（Ｈ１００）と増加している。このようなプロセッサを用いる場合、計算性能を高めるためには、すべてのコアを使い切るような高い並列度を持ったアルゴリズムを用いることが好ましい。

【0008】

倍精度の対称行列の標準固有値問題をＬＡＰＡＣＫにより分割統治法で解く場合、倍精度の対称行列の標準固有値問題の専用関数（ＤＳＹＥＶＤと呼ばれる関数：Double to Symmetric Eigenvalue using Divide and conquer algorithm）が用いられる。ＤＳＹＥＶＤでは、主にＤＳＹＴＲＤ、ＤＳＴＥＤＣ及びＤＯＲＭＴＲと呼ばれる関数で処理が構成される。ＤＳＹＴＲＤ（Double to Symmetric tridiagonal form reduce）は、対称行列の三重対角化を行う関数である。ＤＳＴＥＤＣ（Double to Symmetric tridiagonal Eigenvalue using Divide and conquer algorithm）は、三重対角行列の標準固有値問題を分割統治法で解く関数である。ＤＯＲＭＴＲ（Double Overwrite Real M-by-N matrix with Trans）は、三重対角行列の固有ベクトルを行列積により逆変換を行う関数である。

【0009】

ここで、各関数の特徴を挙げる。ＤＳＹＴＲＤは、キャッシュヒットし難い傾向があり、計算が進むにつれて並列度が減少する。また、ＤＳＴＥＤＣは、高い並列度と高い計算効率で計算することが可能である。また、ＤＯＲＭＴＲは、高い計算効率で計算することが可能である。そのため、一般に対称行列の標準固有値問題では、ＤＳＹＴＲＤが全体の計算時間のうち多くの時間を占める。このようなそれぞれの関数の特徴から、ＤＳＹＴＲＤにおけるパフォーマンスの問題を改善することで全体のパフォーマンスを向上することができると考えられる。

【0010】

なお、並列処理の技術として、与えられた計算モデルを分割して、非相互依存の複数のサブ計算を構築し、複数のプロセッサがサブ計算をそれぞれ並列で処理する技術が提案されている。

【先行技術文献】

【特許文献】

【0011】

【特許文献1】特表２０２２－５００７５５号公報

【発明の概要】

【発明が解決しようとする課題】

【0012】

しかしながら、対称行列の標準固有値問題の計算では、ＤＳＹＴＲＤの特徴としてキャッシュヒットし難い傾向及び計算が進むにつれ並列度が減少するといった特徴が存在するため、ＤＳＹＴＲＤによる三重対角化の計算がボトルネックになる。そのため、キャッシュヒットし難い傾向を改善できない場合には、倍精度の対称行列の標準固有値問題を分割統治法で解く限り計算効率を向上させることが困難であった。

【0013】

一例として、サイズが１６×１６の対称行列に対するＤＳＹＴＲＤによる実際の計算の流れを説明する。１回目の相似変換を行うために０列目の１行目から１５行目の要素にアクセスし、ハウスホルダー行列を計算する。ハウスホルダー行列はベクトルを用いて表現できるため、実際にはベクトルの形で保持される。そして、ハウスホルダー行列を用いて相似変換を行う。ここで、相似変換は行列ベクトル積で行われキャッシュ効率が悪く、計算に多くの待ちが発生してしまう。１回目の相似変換では、実質、２２５（＝１５×１５）要素の更新が行われる。２回目の相似変換も０列目と同じように計算が行われる。２回目の相似変換では、実質、１９６（＝１４×１４）要素の更新が行われる。このような計算を繰り返した場合、相似変換により更新される要素が大きく減っていき、十分な並列度がなくなっていく。そのため、複数のスレッドが利用可能であっても、一部のスレッドにより計算が行われるため、プロセッサの計算性能を十分に引き出すことは困難である。

【0014】

ここで、ＤＳＹＴＲＤの特徴の１つであるキャッシュヒットし難いといった問題は、計算アルゴリズムを変更することによりある程度の回避は可能である。この方法として、例えば、ＬＡＰＡＣＫに含まれるdsytrd_2stageと呼ばれるアルゴリズムを使用することが考えられる。ただし、dsytrd_2stageを用いた場合、固有ベクトル計算においてＤＯＲＭＴＲに相当する部分で計算量が２倍程度になるため、計算段階に対応して使い分けることが好ましい。しかし、dsytrd_2stageを使用したとしても、三重対角化における並列度の低下を回避することは困難である。

【0015】

開示の技術は、上記に鑑みてなされたものであって、標準固有値問題の計算効率を向上させる演算処理装置及び演算処理方法を提供することを目的とする。

【課題を解決するための手段】

【0016】

本願の開示する演算処理装置及び演算処理方法の一つの態様において、計算実行部は、所定の対称行列に対する標準固有値問題の計算を分割して生成されたそれぞれが異なる計算を行う複数の計算単位について、各前記計算単位がそれぞれで実行される複数のタスクのうちの第１タスクと第２タスクとの間にいずれか一方の結果に基づいて他方が計算を行うという依存関係が存在しない場合、前記第１タスクと前記第２タスクとを非同期で計算し、前記第１タスクと前記第２タスクとに前記依存関係が存在する場合、前記第１タスクと前記第２タスクとを逐次計算する。出力部は、前記計算実行部により計算された前記所定の対称行列に対する標準固有値問題の計算結果を出力する。

【発明の効果】

【0017】

１つの側面では、本発明は、標準固有値問題の計算効率を向上させることができる。

【図面の簡単な説明】

【0018】

【図1】図１は、実施例に係る計算機のブロック図である。

【図2】図２は、スレッド並列とタスク並列の一例を示す図である。

【図3】図３は、標準固有値問題の計算の流れを示す図である。

【図4】図４は、ＤＳＹＴＲＤによる三重対角化の計算の流れを示す図である。

【図5】図５は、実施例１に係る依存関係グラフの一例を示す図である。

【図6】図６は、実施例に係るプロセッサによる標準固有値問題の計算処理のフローチャートである。

【図7】図７は、非同期実行可否判定処理のフローチャートである。

【図8】図８は、依存関係判定処理のフローチャートである。

【図9】図９は、非同期実行判定処理のフローチャートである。

【図10】図１０は、標準固有値問題の計算について計算単位の非同期実行を行う場合と行わない場合とを比較したタイムラインの一例の図である。

【図11】図１１は、実施例１に係るプロセッサによる標準固有値問題の計算と計算単位の非同期実行を行わない場合の計算との計算速度の比較を示す図である。

【図12】図１２は、実施例２に係る依存関係グラフの一例を示す図である。

【図13】図１３は、ＤＳＴＥＤＣにおける行列の分割を示す図である。

【図14】図１４は、ＤＳＴＥＤＣにおける再帰的な行列の固有値及び固有ベクトルの計算を示す図である。

【図15】図１５は、実施例２に係るプロセッサによる標準固有値問題の計算と計算単位の非同期実行を行わない場合の計算との計算速度の比較を示す図である。

【図16】図１６は、実施例３に係る依存関係グラフの一例を示す図である。

【図17】図１７は、実施例３に係るＤＯＲＭＴＲによる計算の概要を示す図である。

【発明を実施するための形態】

【0019】

以下に、本願の開示する演算処理装置及び演算処理方法の実施例を図面に基づいて詳細に説明する。なお、以下の実施例により本願の開示する演算処理装置及び演算処理方法が限定されるものではない。

【実施例0020】

図１は、実施例に係る計算機のブロック図である。本実施例では、計算機１が線形代数の基本的な演算をまとめたライブラリであるＬＡＰＡＣＫ又はＢＬＡＳを用いて標準固有値問題を解く場合で説明する。ただし、標準固有値問題を計算するためのアルゴリズムであれば、計算機１が使用するアルゴリズムに特に限定はない。

【0021】

計算機１は、プロセッサ１０、メモリ１１及び記憶装置１２を有する。プロセッサ１０、メモリ１１及び記憶装置１２は、それぞれバスに接続され相互にデータの送受信が可能である。

【0022】

プロセッサ１０は、複数のコアを有する。各コアは、一度に１つのスレッドを実行することが可能である。すなわち、プロセッサ１０は、複数のスレッドを実行することが可能である。また、プロセッサ１０は、複数のスレッドを並列で実行することが可能である。複数のスレッドの並列での実行を、スレッド並列と呼ぶ。

【0023】

また、本実施例では、ＬＡＰＡＣＫやＢＬＡＳにより提供される数学的な処理及びプロセッサ１０が計算を進めるための一まとまりの処理の関数や、ユーザが定義した数学的な処理又はプロセッサ１０が計算を進めるための一まとまりの処理を、計算単位と呼ぶ。計算単位は、何らかの結果が得られる計算や処理であれば、自由に定義可能である。ただし、計算単位を小さくすると、その計算単位単体で得られる結果が、その計算単位を含むより大きな計算や処理等の単なる途中経過等といった意味を持たないものとなることが考えられる。そのような計算単位は、処理を複雑化するため好ましくない。本実施例では、数学的に意味のある結果が得られる計算や処理を計算単位とする。

【0024】

本実施例に係る計算単位として、以下のようなものを使用することが可能である。例えば、計算単位の１つは、倍精度実数の行列積を行う関数であり、例えば、ＢＬＡＳにおけるdgemmである。また、計算単位の１つは、倍精度実数の三重対角対称行列の固有値及び固有ベクトルの計算を行う関数であり、例えば、ＬＡＰＡＣＫにおけるdsteqrである。

【0025】

また、計算単位の１つは、倍精度の行列の複製を行う関数であり、例えば、ＬＡＰＡＣＫにおけるdlacpyである。ここで、ＬＡＰＡＣＫやＢＬＡＳでは行列やベクトルの上書きを前提にする関数も存在する。そのため、本実施例では、計算機１で計算を進めるための行列やベクトルの複製も計算単位とする。

【0026】

また、計算単位の１つは、ユーザにより定義された計算を行うために配列要素の一時退避を行う関数である。配列には、行列も含まれる。ここで、配列要素の一時退避は数学的には意味はないが、プログラム観点では処理を進めるために必要な処理である。そのため、このような関数も計算単位として扱う。このように、本実施例では、課題を解決するためにユーザにより定義された処理も計算単位とすることができる。

【0027】

一方で、本実施例では、以下に示す例は計算単位として扱われない。１つは、エラー処理用の関数であり、例えば、ＢＬＡＳにおけるdgemmから呼ばれるxerblaである。エラー処理は数学的な処理または計算機１で計算を進めるための処理でないため、xerblaは、計算単位として扱われない。例えば、xerblaは、計算単位であるdgemmの計算単位に含まれる処理として扱われる。また、１つは、ＢＬＡＳにおけるdgemm内部の積和演算である。dgemmを構成する積和演算自体は、数学的な最終的な意味を有さない。dgemm内部の積和演算は計算単位であるdgemmに含まれる処理として扱われる。

【0028】

また、１つは、倍精度実数における定数を取得する関数であり、例えば、ＬＡＰＡＣＫにおけるdsteqr内部のdlamchである。dlamchは、dsteqrの計算で必要な定数を取得する関数であり、数学的な処理でないため計算単位でない。dlamchは、計算単位であるdsteqrに含まれる処理として扱われる。また、１つは、計算単位として扱われるＬＡＰＡＣＫにおけるdstedc内部のdgemmである。計算単位であるdstedc内部で呼ばれるdgemmは、dstedcに含まれる処理として扱われる。

【0029】

また、１つは、ユーザが実装したdsteqrの計算結果を標準出力に出力する処理である。この処理は、数学的な処理または計算機１で計算を進めるために必用な処理でないため計算単位として取り扱わない。この処理は、計算単位であるdsteqrに含まれる処理として扱われる。

【0030】

プロセッサ１０は、標準固有問題をとくプログラムに含まれる計算単位それぞれを１つのタスクとして扱う。タスクには、１つ又は複数のスレッドが含まれる。プロセッサ１０は、複数のタスクを並列で実行することが可能である。複数のタスクの非同期での実行を、非同期でのタスクの実行と呼ぶ。また、タスクで処理される計算単位を指して、計算単位の非同期実行と呼ぶ場合もある。非同期でのタスクの実行では、プロセッサ１０は、プログラムの記述に沿って順番に各タスクを実行する場合と異なり、それぞれのタスクを独立して実行する。

【0031】

ここで、本実施例のプロセッサ１０は、タスクを非同期で処理する場合、ＯｐｅｎＭＰ（Multi Processing）のタスク並列機能を用いる。ただし、実際には、プロセッサ１０は、アーキテクチャ毎に適切なアルゴリズムを選択することが好ましい。例えば、ハードウェアバリア機能による高速な同期を使用するためＯｐｅｎＭＰのタスク並列機能を使用すると性能が出やすい場合には、ＯｐｅｎＭＰを用いることが好ましい。他にも、プロセッサ１０は、stream機能やCUDA Graphs機能を使用してもよい。

【0032】

図２は、スレッド並列とタスク並列の一例を示す図である。例えば、プロセッサ１０は、スレッド並列２０１に示すように計算を実行する。すなわち、プロセッサ１０は、１つの計算単位を実行するタスク２１１について、複数スレッドで計算を行う。

【0033】

また、プロセッサ１０は、タスク並列２０２に示すように計算を実行する。この場合、プロセッサ１０は、タスク２２１と、タスク２２２と、タスク２２３とを並列、すなわち非同期で実行する。タスク並列２０２において、ある計算単位に着目した場合、その計算単位に複数のスレッドが割当たっていれば、プロセッサ１０は、スレッド並列でその計算単位の処理を実行している。すなわち、プロセッサ１０は、タスク２２１やタスク２２３についてスレッド並列で処理を実行する。すなわち、プロセッサ１０は、タスク並列の売、複数の計算単位を同じタイミングで１つ又は複数のスレッドで計算する。ここで、タスク並列の場合、プロセッサ１０は、同じタイミングでの複数の計算単位の処理を期待されるだけで、実際には異なるタイミングでそれら複数の計算単位を処理してもよい。

【0034】

図１に戻って説明を続ける。プロセッサ１０は、スレッド並列及びタスク並列を用いて標準固有値問題を解く。ここでは、プロセッサ１０は、対称行列の標準固有値問題を計算する。

【0035】

図３は、標準固有値問題の計算の流れを示す図である。ここで、図３を用いて、本実施例に係るプロセッサ１０による標準固有値問題の計算の流れの概要を説明する。ここでは、対称行列２３１が、ｎ×ｎ行列である場合を例に説明する。

【0036】

プロセッサ１０は、対称行列２３１に対してＤＳＹＴＲＤを用いて三重対角化を行い、三重対角行列２３２を算出する（ステップＳ１）。三重対角化の際、プロセッサ１０は、固有ベクトルの計算のために、ｉ番目の相似変換で使用したハウスホルダー行列Ｈｉを直交行列Ｑ_ｔに蓄積する。そして、三重対角化完了後に、プロセッサ１０は、Ｑ_ｔ＝Ｈ_ｎ－２・・・Ｈ_２Ｈ_１を得る。

【0037】

図４は、ＤＳＹＴＲＤによる三重対角化の計算の流れを示す図である。プロセッサ１０は、ＤＳＹＴＲＤを実行することにより、図４に示すように対称行列の左の列から右の列に向かって１列ずつ三重対角行列へ変換していく。この時、１回の相似変換により１列の三重対角化を行うことができる。図４では、確定した対角成分を黒で表し、確定した副対角要素を斜線パターンで表し、それ以外の確定した要素を白で表し、未確定の要素をグレーで表した。ｎ×ｎの対称行列の場合、ｎ－２回の相似変換で三重対角化が完了する。

【0038】

図３に戻って説明を続ける。次に、プロセッサ１０は、解２３３として示した三重対角行列２３２の固有値（λ_１，λ_２，・・・，λ_ｎ）及び固有ベクトル（ｘ_１，ｘ_２，・・・，ｘ_ｎ）を算出する（ステップＳ２）。

【0039】

次に、プロセッサ１０は、固有ベクトル（ｘ_１，ｘ_２，・・・，ｘ_ｎ）の逆変換を行い、対称行列２３１の固有ベクトル（ν_１，ν_２，・・・，ν_ｎ）を算出する。これにより、プロセッサ１０は、解２３４として示した対称行列２３１の固有値（λ_１，λ_２，・・・，λ_ｎ）及び固有ベクトル（ν_１，ν_２，・・・，ν_ｎ）を取得する（ステップＳ３）。

【0040】

図１に戻って説明を続ける。メモリ１１は、主記憶装置である。メモリ１１は、例えば、ＤＲＡＭ（Dynamic Random Access Memory）である。メモリ１１は、例えば、プロセッサ１０により演算処理における記憶領域として用いられる。

【0041】

記憶装置１２は、補助記憶装置であり、例えば、ハードディスクやＳＳＤ（Solid State Drive）である。記憶装置１２は、プロセッサ１０が演算処理を実行するための各種プログラムを格納する。また、記憶装置１２は、プロセッサ１０が演算処理を実行するためのデータを記憶する。例えば、記憶装置１２は、標準固有値問題により固有行列や固有値を求める対象となる対称行列を記憶する。

【0042】

次に、本実施例に係るプロセッサ１０による標準固有値問題の計算の詳細について説明する。プロセッサ１０は、図１に示すように、計算単位分割部１０１、依存関係グラフ生成部１０２、依存関係判定部１０３、計算実行部１０４及び出力部１０５を有する。

【0043】

計算単位分割部１０１は、予め指定された計算単位の生成ルールを有する。計算単位分割部１０１は、標準固有値問題を計算する対象となる対称行列を記憶装置１２から取得する。そして、計算単位分割部１０１は、行数や列数といった対称行列の特徴から、生成ルールにしたがい、標準固有値問題の計算全体を計算単位に分割して、計算単位を生成する。その後、計算単位分割部１０１は、生成した計算単位の情報を依存関係グラフ生成部１０２へ出力する。

【0044】

図５は、実施例１に係る依存関係グラフの一例を示す図である。図５は、標準固有値問題の計算における計算単位に対応するタスク間の依存関係の一例を示す。

【0045】

例えば、計算単位分割部１０１は、標準固有値問題の計算のうちＤＳＹＴＲＤによる計算におけるハウスホルダー行列Ｈ_ｉの生成を１つの計算単位とする。ｉは対称行列のｉ列目を表し、Ｈ_ｉはｉ列目のハウスホルダー行列を表す。図４におけるタスク＃１－ｉが、ハウスホルダー行列Ｈｉの生成を行う計算単位を表す。タスク＃１－ｉがこの計算単位にあたり、ｉ列目のハウスホルダー行列Ｈ_ｉを生成する処理を表す。

【0046】

また、計算単位分割部１０１は、標準固有値問題の計算のうちＤＳＹＴＲＤによる計算における相似変換を１つの計算単位とする。図５におけるタスク＃２－ｉがこの計算単位にあたり、ｉ列目のハウスホルダー行列Ｈ_ｉを用いた相似変換を行う処理を表す。

【0047】

また、計算単位分割部１０１は、標準固有値問題の計算のうちＤＳＴＥＤＣによる三重対角行列の固有値及び固有ベクトルの計算を１つの計算単位とする。図５におけるタスク＃３がこの計算単位にあたる。

【0048】

また、計算単位分割部１０１は、標準固有値問題の計算のうちＤＯＲＭＴＲによる計算におけるハウスホルダー行列Ｈ_ｉの行列式への変換を１つの計算単位とする。図５におけるタスク＃４－ｉがこの計算単位にあたり、ｉ列目のハウスホルダー行列Ｈ_ｉの行列式への変換を表す。

【0049】

また、計算単位分割部１０１は、標準固有値問題の計算のうちＤＯＲＭＴＲによる計算における行列積を１つの計算単位とする。図５におけるタスク＃５がこの計算単位にあたる。

【0050】

図１に戻って説明を続ける。依存関係グラフ生成部１０２は、対称行列に対する標準固有値問題の計算の計算単位の情報の入力を計算単位分割部１０１から受ける。次に、依存関係グラフ生成部１０２は、特定の計算単位を実行するタスクが入力情報として他の計算単位を実行するタスクにより算出された結果を用いる場合に、タスク間の計算の結果の出入力関係を示す情報を生成する。例えば、依存関係グラフ生成部１０２は、結果を出力した他の計算単位から特定の計算単位へ向けて矢印を配置する。

【0051】

例えば、ＤＳＹＴＲＤにおいて、ｉ列目のハウスホルダー行列Ｈ_ｉが生成されると、そのハウスホルダー行列Ｈ_ｉを用いて相似変換が行われる。また、ＤＳＹＴＲＤにおいて生成されたｉ列目のハウスホルダー行列Ｈ_ｉは、ＤＯＲＭＴＲにより行列式へ変換される。そこで、依存関係グラフ生成部１０２は、図５の依存関係グラフ２４０のようにタスク＃１－ｉから、タスク＃２－ｉ及び＃４－ｉに向かって矢印を配置して、出入力関係を示す情報を生成する。

【0052】

依存関係グラフ生成部１０２は、全ての計算単位について出入力関係を示す情報を生成する。これにより、依存関係グラフ生成部１０２は、例えば、図５に示す依存関係グラフ２４０を生成する。その後、依存関係グラフ生成部１０２は、生成した依存関係グラフを依存関係判定部１０３へ出力する。ここで、本実施例では、分かり易いように２次元のグラフとして非依存関係グラフを表現したが、依存関係グラフは、タスク間の出入力関係の情報が取得可能な情報であれば他の形式の情報でもよい。

【0053】

依存関係判定部１０３は、依存関係グラフの入力を依存関係グラフ生成部１０２から受ける。次に、取得した依存関係グラフから依存関係が存在しないタスクの組み合わせを抽出する。ここで、第１タスクが出力した結果を、他の第２タスクが直接又は間接的に計算に利用する場合、または、第２タスクが出力した結果を、第１タスクが直接又は間接的に計算に利用する場合、第１タスクと第２タスクとの間に依存関係が存在するといえる。依存関係が存在しないタスクの組み合わせの抽出後、依存関係判定部１０３は、各計算単位の情報及び依存関係が存在しないタスクの組み合わせの情報を計算実行部１０４へ出力する。以下に、図５を参照して、依存関係が存在しないタスクの抽出の詳細を説明する。

【0054】

依存関係グラフは出入力関係毎に向きが存在する有向グラフであり、依存関係グラフ中に存在する異なるタスクＡとタスクＢとを例に説明する。タスクＡからタスクＢ、もしくは、タスクＢからタスクＡへの出入力関係の向きにしたがった経路が存在する場合、依存関係判定部１０３は、タスクＡとタスクＢとの間に依存関係が存在すると判定する。一方、タスクＡからタスクＢ、及び、タスクＢからタスクＡへの出入力関係の向きにしたがった経路が存在しない場合、依存関係判定部１０３は、タスクＡとタスクＢとの間に依存関係が存在しないと判定する。

【0055】

例えば、図５におけるタスク＃２－０とタスク＃４－０との間には、出入力関係の方向にしたがって、タスク＃２－０からタスク＃４－０へ辿る経路及びタスク＃４－０からタスク＃２－０へたどる経路は存在しない。そこで、依存関係判定部１０３は、タスク＃２－０とタスク＃４－０との間に依存関係が存在しないと判定する。また、タスク＃１－２とタスク＃４－１との間にも同様に、出入力関係の方向にしたがって辿ることができる経路は存在しないため、依存関係判定部１０３は、タスク＃１－２とタスク＃４－１との間に依存関係が存在しないと判定する。

【0056】

一方、タスク＃２－０とタスク＃４－２との間では、出入力関係の方向にしたがって、タスク＃４－２からタスク＃２－０へたどる経路は存在しないが、タスク＃２－０からタスク＃４－２へたどる経路は存在する。そこで、依存関係判定部１０３は、タスク＃２－０とタスク＃４－２との間に依存関係が存在すると判定する。

【0057】

図１に戻って説明を続ける。計算実行部１０４は、非同期実行判定部１４０を有する。計算実行部１０４は、各計算単位の情報及び依存関係が存在しないタスクの組み合わせの情報の入力を依存関係判定部１０３から受ける。また、計算実行部１０４は、対称行列を記憶装置１２から取得する。

【0058】

そして、計算実行部１０４は、取得した対称行列に対して図３に概要を示した標準固有値問題の計算の実行を開始する。標準固有値問題の計算において、計算実行部１０４は、依存関係が存在しないタスク同士は、非同期で各計算単位の計算を実行する。これに対して、依存関係が存在し非同期での計算に対応しないタスク同士は、決められた順序で逐次にそれぞれのタスクの計算単位の計算を行う関数を呼び出して順番に処理する。

【0059】

より具体的には、計算実行部１０４の非同期実行判定部１４０は、あるタスクの終了後に、そのタスクの次に実行し得る各タスクの中から、依存関係が存在しないタスクを抽出する。そして、非同期実行判定部１４０は、特定のタスクと抽出したタスクとを非同期で実行した場合に計算速度が上昇するか否かを判定する。計算速度が上昇する場合、非同期実行判定部１４０は、特定のタスクと抽出したタスクとの非同期での実行を決定する。そして、計算実行部１０４は、非同期実行判定部１４０の決定にしたがって、各タスクを実行する。

【0060】

例えば、図５において、タスク＃１－ｉの完了後は、タスク＃２－ｉとタスク＃４－ｉとの間には依存関係が存在しないため、非同期実行判定部１４０は、タスク＃２－ｉとタスク＃４－ｉとが非同期で実行可能であることを確認する。そして、計算実行部１０４は、非同期実行判定部１４０によりタスク＃２－ｉとタスク＃４－ｉとの非同期での実行が決定されると、タスク＃２－ｉとタスク＃４－ｉとを非同期で実行する。

【0061】

ここで、計算実行部１０４は、非同期で計算できる計算単位は、例えば、ＯｐｅｎＭＰのタスク並列機能を用いて計算することができる。タスク並列機能により、計算実行部１０４は、タスク化された処理をスレッドとして割り当て非同期に処理することができる。例えば、タスク＃２－ｉとタスク＃４－ｉは処理が比較的重たい処理であるためスレッド並列で行うことが好ましい。そこで、計算実行部１０４は、タスク＃２－ｉ及びタスク＃４－ｉの処理を#pragma omp taskloopを用いて処理させる。これにより、タスク＃２－ｉに割り当てられたスレッドは、計算の完了後にタスク＃４－ｉの処理に割り当てられる可能性があり、その逆も可能性がある。すなわち、計算実行部１０４は、タスク＃２－ｉとタスク＃４－ｉとを非同期で実行できる可能性がある。これにより、プロセッサ１０の効率を向上させることが期待できる。

【0062】

非同期でタスクを実行する場合、各タスクの依存関係に応じた様々な制御が行われる。そして、タスクの依存関係が定義できている場合、タスク実行の自動化が可能である。例えば、計算実行部１０４は、ＮＶＩＤＩＡ社により提供されるＣＵＤＡにおけるstream機能やCUDA Graphs機能によりタスク実行の自動化を行える。stream機能を用いる場合、計算実行部１０４は、streamと呼ばれるキューを用意し、依存関係にないタスクを異なるキューに投入することで依存関係にないタスクを非同期で実行できる。この場合、同じキューに投入されたタスクは、依存関係にあるとみなされ各タスクは順番に実行される。CUDA Graphs機能を用いる場合、計算実行部１０４は、各タスクの依存関係を定義した後に、タスクを実行する。この時、依存関係にないタスクは非同期で実行される可能性が高く、依存関係にあるタスクは適切な順番で実行される。

【0063】

また、計算実行部１０４は、各タスクについて、そのタスクで実行される計算単位の計算量が所定値以上の場合、前記タスクに含まれる計算単位の計算を複数スレッドで実行する。また、計算実行部１０４は、各タスクについて、そのタスクで実行される計算単位の計算量が所定値未満の場合、前記タスクに含まれる計算単位の計算を単一スレッドで実行する。

【0064】

計算実行部１０４は、全てのタスクの実行を完了させることで、対称行列の固有値及び固有ベクトルの算出を完了する。そして、計算実行部１０４は、算出した対称行列の固有値及び固有ベクトルを出力部１０５へ通知する。

【0065】

以上のように、本実施例に係る計算実行部１０４は、所定の対称行列に対する標準固有値問題の計算に含まれる対称行列の三重対角化の計算（ＤＳＹＴＲＤ）を複数に分割した計算単位を含む複数の計算単位について、第１タスクと第２タスクとの間の依存関係の存否に基づいて計算を実行する。

【0066】

出力部１０５は、対称行列の固有値及び固有ベクトルの通知を計算実行部１０４から受ける。そして、出力部１０５は、通知された対称行列の固有値及び固有ベクトルを表示装置等に表示させて、計算結果をユーザに提示する。

【0067】

図６は、実施例に係るプロセッサによる標準固有値問題の計算処理のフローチャートである。次に、図６を参照して、本実施例に係るプロセッサ１０による標準固有値問題の計算処理の流れを説明する。

【0068】

計算単位分割部１０１は、予め決められた計算単位の生成ルールにしたがって、対称行列に対する標準固有値問題の計算を計算単位に分割する（ステップＳ１０１）。

【0069】

依存関係グラフ生成部１０２は、計算単位分割部１０１により生成された計算単位の間における出入力関係の情報を生成して、依存関係グラフを生成する（ステップＳ１０２）。

【0070】

依存関係判定部１０３は、依存関係グラフ生成部１０２により生成された依存関係グラフを用いて、各タスク間の依存関係を判定する依存関係判定処理を実行する（ステップＳ１０３）。

【0071】

計算実行部１０４は、タスク間の依存関係に応じた非同期実行判定部１４０による各タスクの非同期で実行するか否かの決定にしたがって、対称行列に対する標準固有値問題の計算を実行する（ステップＳ１０４）。

【0072】

出力部１０５は、計算実行部１０４により算出された対称行列の固有値及び固有ベクトルを出力してユーザに提供する（ステップＳ１０５）。

【0073】

図７は、非同期実行可否判定処理のフローチャートである。図７のフローで示される各処理は、図６のステップＳ１０３及びＳ１０４で実行される処理の一例にあたる。ただし、図７のフローでは、ステップＳ１０３及びＳ１０４が並行して行われる場合を例に各処理を記載した。次に、図７を参照して、本実施例に係るプロセッサ１０による非同期実行可否判定処理の流れを説明する。ここでは、対称行列がｎ×ｎ行列であり、且つ、各タスクに連番で番号が振られた場合で説明する。

【0074】

依存関係判定部１０３は、依存関係グラフを依存関係グラフ生成部１０２から取得する（ステップＳ２０１）。

【0075】

次に、依存関係判定部１０３は、ｉ＝０及びｊ＝０と設定する（ステップＳ２０２）。

【0076】

次に、依存関係判定部１０３は、タスク＃ｉとタスク＃ｊとの間に依存関係が存在するか否かを判定する（ステップＳ２０３）。

【0077】

タスク＃ｉとタスク＃ｊとの間に依存関係が存在する場合（ステップＳ２０３：肯定）、非同期実行判定部１４０は、タスク＃ｉとタスク＃ｊとを非同期で実行可能と判定する（ステップＳ２０４）。

【0078】

これに対して、タスク＃ｉとタスク＃ｊとの間に依存関係が存在しない場合（ステップＳ２０３：否定）、非同期実行判定部１４０は、タスク＃ｉとタスク＃ｊとを非同期で実行しないと決定する（ステップＳ２０５）。

【0079】

その後、依存関係判定部１０３は、ｊ＝Ｎ－１か否かを判定する（ステップＳ２０６）。ｊ≠Ｎ－１の場合（ステップＳ２０６：否定）、依存関係判定部１０３は、ｊを１つインクリメントする（ステップＳ２０７）。その後、非同期実行可否判定処理は、ステップＳ２０３へ戻る。

【0080】

これに対して、ｊ＝Ｎ－１の場合（ステップＳ２０６：肯定）、依存関係判定部１０３は、ｉ＝Ｎ－１か否かを判定する（ステップＳ２０８）。ｉ≠Ｎ－１の場合（ステップＳ２０８：否定）、依存関係判定部１０３は、ｉを１つインクリメントする（ステップＳ２０９）。その後、非同期実行可否判定処理は、ステップＳ２０３へ戻る。

【0081】

これに対して、ｉ＝Ｎ－１の場合（ステップＳ２０８：肯定）、依存関係判定部１０３及び非同期実行判定部１４０は、非同期実行可否判定処理を終了する。

【0082】

図８は、依存関係判定処理のフローチャートである。図８のフローで示される各処理は、図７のステップＳ２０３で実行される処理の一例にあたる。次に、図８を参照して、本実施例に係るプロセッサ１０による依存関係判定処理の流れを説明する。

【0083】

依存関係判定部１０３は、依存関係グラフを用いて、出入力関係の向きにしたがいタスク＃ｉからタスク＃ｊへ辿る経路が存在するか否かを判定する（ステップＳ３０１）。

【0084】

タスク＃ｉからタスク＃ｊへ辿る経路が存在しない場合（ステップＳ３０１：否定）、依存関係判定部１０３は、出入力関係の向きにしたがいタスク＃ｊからタスク＃ｉへ辿る経路が存在するか否かを判定する（ステップＳ３０２）。

【0085】

タスク＃ｉからタスク＃ｊへ辿る経路が存在する場合（ステップＳ３０１：肯定）、依存関係判定部１０３は、タスク＃ｉとタスク＃ｊとの間に依存関係が存在すると判定する（ステップＳ３０３）。また、タスク＃ｊからタスク＃ｉへ辿る経路が存在する場合（ステップＳ３０２：肯定）、依存関係判定部１０３は、タスク＃ｉとタスク＃ｊとの間に依存関係が存在すると判定する（ステップＳ３０３）。

【0086】

これに対して、タスク＃ｊからタスク＃ｉへ辿る経路が存在しない場合（ステップＳ３０２：否定）、依存関係判定部１０３は、タスク＃ｉとタスク＃ｊとの間に依存関係が存在しないと判定する（ステップＳ３０４）。

【0087】

図９は、非同期実行判定処理のフローチャートである。図９のフローで示される各処理は、図６のステップＳ１０４で実行される処理の一例にあたる。次に、図９を参照して、本実施例に係るプロセッサ１０による非同期実行判定処理の流れを説明する。ここでは、対称行列がｎ×ｎ行列であり、且つ、各タスクに連番で番号が振られた場合で説明する。

【0088】

非同期実行判定部１４０は、タスク集合Ｘの完了後に、次に実行可能なタスクについて依存関係が存在しないタスク群を取得する（ステップＳ４０１）。ここで、次に実行可能なタスクの数をＭとし、次に実行可能なタスクに対して依存関係が存在しないタスク群にふくまれるタスクの数をＫとする。

【0089】

次に、非同期実行判定部１４０は、次に実行可能なタスクであるタスク＃ｉについて、ｉ＝０と設定する。また、非同期実行判定部１４０は、タスク＃ｉに対応する依存関係が存在しないタスク群に含まれるタスク＃ｊについてｊ＝０と設定する（ステップＳ４０２）。

【0090】

次に、非同期実行判定部１４０は、タスク＃ｉとタスク＃ｊとを非同期で実行した場合に計算速度が上昇するか否かを判定する（ステップＳ４０３）。

【0091】

計算速度が上昇する場合（ステップＳ４０３：肯定）、非同期実行判定部１４０は、タスク＃ｉとタスク＃ｊとの非同期での実行を決定する（ステップＳ４０４）。

【0092】

これに対して、計算速度が上昇しない場合（ステップＳ４０３：否定）、非同期実行判定部１４０は、タスク＃ｉとタスク＃ｊとを順次実行すると決定する（ステップＳ４０５）。

【0093】

その後、非同期実行判定部１４０は、ｊ＝Ｋ－１か否かを判定する（ステップＳ４０６）。ｊ≠Ｋ－１の場合（ステップＳ４０６：否定）、非同期実行判定部１４０は、ｊを１つインクリメントする（ステップＳ４０７）。その後、非同期実行判定部１４０は、ステップＳ４０３へ戻る。

【0094】

これに対して、ｊ＝Ｋ－１の場合（ステップＳ４０６：肯定）、非同期実行判定部１４０は、ｉ＝Ｍ－１か否かを判定する（ステップＳ４０８）。ｉ≠Ｍ－１の場合（ステップＳ４０８：否定）、非同期実行判定部１４０は、ｉを１つインクリメントする（ステップＳ４０９）。その後、非同期実行判定部１４０は、ステップＳ４０３へ戻る。

【0095】

これに対して、ｉ＝Ｍ－１の場合（ステップＳ４０８：肯定）、非同期実行判定部１４０は、非同期実行判定処理を終了する。

【0096】

図１０は、標準固有値問題の計算について計算単位の非同期実行を行う場合と行わない場合とを比較したタイムラインの一例の図である。通常の場合は、グラフ２５１に示すように、プロセッサ１０は、ＤＳＹＴＲＤが完了した後にＤＳＴＥＤＣを実行し、ＤＳＴＥＤＣが完了した後にＤＯＲＭＴＲを実行する。これに対して、計算単位を非同期で実行した場合、例えば、グラフ２５２に示すように、プロセッサ１０は、ＤＳＹＴＲＤの所定のタスクが完了すると、ＤＳＴＥＤＣ及びＤＯＲＭＴＲをＤＳＹＴＲＤに並行して処理することができる。グラフ２５１とグラフ２５２とを比較した場合、グラフ２５２における処理が、グラフ２５１における処理よりも早く終了することが示されている。ここで、図６では、非同期でのタスクの実行において各タスクが連続して実行されるように記載したが、例えば、図５に示した依存関係を各タスクが有する場合には、ＤＳＹＴＲＤ、ＤＳＴＥＤＣ、ＤＯＲＭＴＲにおいて特定のタスクが完了するまでの同期待ちの待機が発生する場合がある。

【0097】

図１１は、実施例１に係るプロセッサによる標準固有値問題の計算と計算単位の非同期実行を行わない場合の計算との計算速度の比較を示す図である。図１１では、対称行列をｎ×ｎ行列として、ｎ＝１０２４，２０４８，３０７２，４０９６，５１２０，６１４４，７１６８，８１９２，９２１６，１０２４０，１１２６４，１２２８８である場合について記載した。

【0098】

この場合、対称行列が１２２８８×１２２８８まで大きくなると、計算単位の非同期実行による効果が表れ、プロセッサ１０は、計算単位の非同期実行を行わない計算手法に対して標準固有値問題の計算を３０％程度の高速化することができる。

【0099】

以上に説明したように、本実施例に係る演算処理装置であるプロセッサは、対称行列に対する標準固有値問題の計算を予め決められたルールにしたがい計算単位に分割する。そして、プロセッサは、各計算単位をタスクとしてその依存関係に基づいてタスク同士を非同期実行で実行するか否かを決定して、決定にしたがって対称行列の標準固有値問題を計算する。これにより、使用するコアの並列度が低くなった待ち時間に、個別に並列でタスクを計算処理でき、キャッシュミスした待ち時間の隠蔽ができる。したがって、キャッシュヒットし難い傾向がある場合でも、分割統治法による計算効率の改善および高速化を実現することができ、標準固有値問題の計算効率を向上させることが可能となる。

【実施例0100】

次に、実施例２について説明する。実施例２に係るプロセッサは、標準固有値問題の計算における三重対角行列の標準固有値問題を分割統治法で解く関数であるＤＳＴＥＤＣを異なる種類の複数の計算単位に分割して、非同期で計算を行う。本実施例に係る計算機１も図１のブロック図で示される。以下の説明では、実施例１と同様の各部の動作については説明を省略する。

【0101】

図１２は、実施例２に係る依存関係グラフの一例を示す図である。図１２は、標準固有値問題の計算における計算単位に対応するタスク間の依存関係の一例を示す。

【0102】

計算単位分割部１０１は、ＤＳＹＴＲＤ、ＤＳＴＥＤＣ及びＤＯＲＭＴＲにおける計算を以下のように計算単位に分割する。本実施例において計算単位の依存関係は最終的に図１２に示す依存関係グラフ３０１で表される。ここでは、本実施例では、プロセッサ１０は、ＤＳＹＴＲＤによる計算において、１６×１６の三重対角行列を２×２の行列まで分割する場合で説明する。ただし、実際には、プロセッサ１０は２×２まで小さく分割しなくてもよく、行列の分割サイズは使用するアーキテクチャに合わせて変化させることが好ましい。

【0103】

例えば、計算単位分割部１０１は、標準固有値問題の計算のうちＤＳＹＴＲＤによる２列分三重対角化の計算を１つの計算単位とする。図１２におけるタスク＃１－ｉが、ｉ列目から２列分を三重対角化する２列分三重対角化を行う計算単位を表す。タスク＃１－ｉには、相似変換も含まれる。ここでは、ＤＳＴＥＤＣにおいて２×２単位で行列を分割するため、計算単位分割部１０１は、ＤＳＹＴＲＤにおいて２列毎の三重対角化を計算単位とする。

【0104】

また、計算単位分割部１０１は、標準固有値問題の計算のうちＤＳＴＥＤＣによる三重対角行列を２×２の行列へ分割するまでの各段階の分割それぞれと、固有値及び固有ベクトルの計算とを１つの計算単位とする。図１２におけるタスク＃２－ｉが、ｉ列目から２列分の２×２の行列の分割及び分割した２×２の行列の固有値及び固有ベクトルを計算する計算単位を表す。

【0105】

また、計算単位分割部１０１は、標準固有値問題の計算のうちＤＳＴＥＤＣによる末端の２×２の行列から繰り返される固有値及び固有ベクトルの再帰的な統合の計算の全体をまとめて１つの計算単位とする。図１２におけるタスク＃３が、分割した８個の２×２の行列の固有値及び固有ベクトルを用いて三重対角行列の固有値及び固有ベクトル計算する計算単位を表す。

【0106】

図１３は、ＤＳＴＥＤＣにおける行列の分割を示す図である。本実施例では、プロセッサ１０は、ＤＳＴＥＤＣにおいて、図１３の分割状態３０２に示すように、三重対角行列を繰り返し半分に分割していき、十分に小さくなった行列の固有値及び固有ベクトルを計算する。プロセッサ１０は、十分に小さくなった行列の固有値及び固有ベクトル計算に、ＱＲ法等の分割統治法以外の処理負荷の低い手法を用いることができる。また、十分に小さくなった行列の固有値及び固有ベクトル計算は互いに依存関係がないため、プロセッサ１０は、行列の固有値及び固有ベクトル計算を並列計算することができる。

【0107】

図１４は、ＤＳＴＥＤＣにおける再帰的な行列の固有値及び固有ベクトルの計算を示す図である。十分に小さくなった行列の固有値及び固有ベクトル計算が完了すると、プロセッサ１０は、図１４の処理３０３に示すように分割元の行列の固有値・固有ベクトルを計算する。プロセッサ１０は、分割した２つの行列の固有値及び固有ベクトルを用いて、分割元の行列の固有値及び固有ベクトルを計算する。プロセッサ１０は、この計算を段階３１１～３１３に対して繰り返し行うことで、分割前の三重対角行列の固有値及び固有ベクトルを算出することができる。また、分割元の行列の固有値及び固有ベクトルの計算は別の分割元の行列とは依存関係にないため、プロセッサ１０は、分割元の行列の固有値及び固有ベクトルの計算を並列計算することができる。さらに、分割元の行列の固有値及び固有ベクトルの計算では行列積を用いた計算が可能であり、プロセッサ１０は、この計算方法を用いることで計算効率を向上させることができる。

【0108】

計算単位分割部１０１は、図１２における段階３１１～３１３の固有値及び固有ベクトルの再帰的な統合の計算の全体をまとめて１つの計算単位とする。各段階３１１～３１３での固有値及び固有ベクトルの統合をバッチ処理することでプロセッサ１０の計算性能が向上することが知られている。そこで、計算単位分割部１０１は、段階３１１～３１３毎の固有値及び固有ベクトルの再帰的な統合の計算をまとめて１つの計算単位とした。

【0109】

また、計算単位分割部１０１は、標準固有値問題の計算のうちＤＯＲＭＴＲによるベクトルの形で保持されるハウスホルダー行列Ｈ_ｉの行列形式への変換を１つの計算単位とする。図１２におけるタスク＃４－ｉが、ｉ列目のハウスホルダー行列Ｈ_ｉを行列形式へ変換する計算単位を表す。

【0110】

また、計算単位分割部１０１は、標準固有値問題の計算のうちＤＯＲＭＴＲによる行列積を１つの計算単位とする。図１２におけるタスク＃５が、この計算単位を表す。

【0111】

依存関係判定部１０３は、例えば、図１２の依存関係グラフ３０１の入力を依存関係グラフ生成部１０２から受ける。

【0112】

依存関係グラフ３０１において、タスク＃２－０とタスク＃４－０との間には、タスク＃２－０からタスク＃４－０へ辿ることができる経路及びタスク＃４－０からタスク＃２－０へ辿ることができる経路のいずれも存在しない。そこで、依存関係判定部１０３は、タスク＃２－０とタスク＃４－０との間には依存関係が存在しないと判定する。また、タスク＃２－２とタスク＃４－２との間も同じように双方向のいずれも辿ることができる経路が存在しないため、依存関係判定部１０３は、タスク＃２－２とタスク＃４－２との間には依存関係が存在しないと判定する。

【0113】

一方、タスク＃１－４とタスク＃４－８との間には、タスク＃４－８からタスク＃１－４へ辿る経路は存在しないが、タスク＃１－４からタスク＃４－８へ辿る経路が存在する。そこで、依存関係判定部１０３は、タスク＃１－４とタスク＃４－８との間には依存関係が存在すると判定する。

【0114】

非同期実行判定部１４０は、依存関係判定部１０３から通知された依存関係を用いて、非同期での計算の可否を判定する。例えば、図１２において、タスク＃１－ｉの完了後は、タスク＃２－ｉとタスク＃４－ｉとの間には依存関係が存在しないため、非同期実行判定部１４０は、タスク＃２－ｉとタスク＃４－ｉとが非同期で計算ができると判定する。そして、非同期実行判定部１４０は、非同期で計算を行うことで計算効率が向上するのであれば、タスク＃２－ｉとタスク＃４－ｉとを非同期で実行することを決定する。

【0115】

計算実行部１０４は、計算単位分割部１０１により生成されたＤＳＴＥＤＣが分割された計算単位を含む複数の計算単位について、各タスク間の依存関係の存否にしたがって標準固有値問題を計算する。すなわち、計算実行部１０４は、対称行列の三重対角化から得られる三重対角行列に対する固有値及び固有ベクトルの計算を複数に分割した計算単位を含む複数の計算単位について、第１タスクと第２タスクとの間の依存関係の存否に基づいて計算を実行する。

【0116】

計算実行部１０４は、非同期で実行可能な計算単位は、ＯｐｅｎＭＰのタスク並列機能を用いて計算を行う。ここで、タスク＃２－ｉは処理が比較的軽いため、計算実行部１０４は、タスク＃２－ｉを１スレッドで処理してもよい。一方で、タスク＃４－ｉは処理が比較的重たいため、計算実行部１０４は、タスク＃４－ｉを複数のスレッドで処理することが好ましい。そこで、計算実行部１０４は、タスク＃２－ｉの処理を#pragma omp taskを用いて実行し、タスク＃４－ｉの処理を#pragma omp taskloopを用いて実行する。これにより、計算実行部１０４は、タスク＃２－ｉに割り当てられたスレッドの計算の完了後に、そのスレッドをタスク＃４－ｉの処理に割り当てられる可能性があり、プロセッサ１０の計算効率を向上させることができる。

【0117】

図１５は、実施例２に係るプロセッサによる標準固有値問題の計算と計算単位の非同期実行を行わない場合の計算との計算速度の比較を示す図である。図１１では、対称行列をｎ×ｎ行列として、ｎ＝１０２４，２０４８，３０７２，４０９６，５１２０，６１４４，７１６８，８１９２，９２１６である場合について記載した。

【0118】

この場合、行列サイズが十分に大きくなり並列度が十分に大きくなると多数のコアを十分に使用可能になり、本実施例に係るプロセッサ１０による計算の効果が出ていることがわかる。図１５には記載していない他の例として、１０２４０×１０２４０の対称行列の固有値及び固有ベクトルの計算において、プロセッサ１０は、計算単位を非同期で実行しない計算手法に対して標準固有値問題の計算を２０％程度の高速化することができる。

【0119】

以上に説明したように、本実施例に係る演算処理装置であるプロセッサは、標準固有値問題の計算のうちＤＳＴＥＤＣによる三重対角行列の２×２の行列への分割、並びに、固有値及び固有ベクトルの計算を１つの計算単位とする。また、プロセッサは、標準固有値問題の計算のうちＤＳＴＥＤＣによる末端の２×２の行列から繰り返される固有値及び固有ベクトルの再帰的な統合の計算の全体をまとめて１つの計算単位とする。そして、プロセッサは、各計算単位をタスクとしてその依存関係に基づいて非同期で実行するか否かを決定して、決定にしたがって対称行列の標準固有値問題を計算する。これにより、ＤＳＴＥＤＣにおいて、行列サイズが十分に大きくなり並列度が十分に大きくなると多数のコアを十分に使用可能になる。したがって、標準固有値問題の計算効率を向上させることが可能となる。

【実施例0120】

次に、実施例３について説明する。実施例２に係るプロセッサは、標準固有値問題の計算におけるＤＳＴＥＤＣ及びＤＯＲＭＴＲを分割して生成する計算単位が実施例１及び２と異なる。本実施例に係る計算機１も図１のブロック図で示される。以下の説明では、実施例１と同様の各部の動作については説明を省略する。

【0121】

図１６は、実施例３に係る依存関係グラフの一例を示す図である。図１６は、標準固有値問題の計算における計算単位に対応するタスク間の依存関係の一例を示す。

【0122】

計算単位分割部１０１は、ＤＳＹＴＲＤ、ＤＳＴＥＤＣ及びＤＯＲＭＴＲにおける計算を以下のように計算単位に分割する。本実施例において計算単位の依存関係は最終的に図１６に示す依存関係グラフ４０１で表される。ここでは、本実施例では、プロセッサ１０は、ＤＳＹＴＲＤによる計算において、１６×１６の三重対角行列を２×２の行列まで分割する場合で説明する。ただし、実際には、プロセッサ１０は２×２まで小さく分割しなくてもよく、行列の分割サイズは使用するアーキテクチャに合わせて変化させることが好ましい。

【0123】

例えば、計算単位分割部１０１は、標準固有値問題の計算のうちＤＳＹＴＲＤによる２列分三重対角化の計算を１つの計算単位とする。図１６におけるタスク＃１－ｉが、ｉ列目から２列分を三重対角化する２列分三重対角化を行う計算単位を表す。タスク＃１－ｉには、相似変換も含まれる。ここでは、ＤＳＴＥＤＣにおいて２×２単位で行列を分割するため、計算単位分割部１０１は、ＤＳＹＴＲＤにおいて２列毎の三重対角化を計算単位とする。

【0124】

また、計算単位分割部１０１は、標準固有値問題の計算のうちＤＳＴＥＤＣによる三重対角行列を２×２の行列へ分割するまでの各段階の分割それぞれと、固有値及び固有ベクトルの計算とを１つの計算単位とする。図１６におけるタスク＃２－ｉが、ｉ列目から２列分の２×２の行列の分割及び分割した２×２の行列の固有値及び固有ベクトルを計算する計算単位を表す。ここで、三重対角化は左上の要素から値が確定していくが、分割する２×２の行列は確定した要素のみ用いて求めることができる。

【0125】

また、計算単位分割部１０１は、標準固有値問題の計算のうちＤＳＴＥＤＣによる２×２の行列の固有値及び固有ベクトルの統合の計算を１つの計算単位とする。図１６におけるタスク＃３－ｉが、２×２の行列を元の三重対角行列に対応させて並べて上段から順に連番を振った場合の、ｉ番目とｉ＋１番目の行列の固有値及び固有ベクトルの統合する計算単位である。

【0126】

また、計算単位分割部１０１は、標準固有値問題の計算のうちＤＳＴＥＤＣによる４×４の行列の固有値及び固有ベクトルの統合の計算を１つの計算単位とする。図１６におけるタスク＃４－ｉが、４×４の行列を元の三重対角行列に対応させて並べて上段から順に連番を振った場合の、ｉ番目とｉ＋１番目の行列の固有値及び固有ベクトルの統合する計算単位である。

【0127】

また、計算単位分割部１０１は、標準固有値問題の計算のうちＤＳＴＥＤＣによる８×８の行列の固有値及び固有ベクトルの統合の計算を１つの計算単位とする。図１６におけるタスク＃５－ｉが、８×８の行列を元の三重対角行列に対応させて並べて上段から順に連番を振った場合の、ｉ番目とｉ＋１番目の行列の固有値及び固有ベクトルの統合する計算単位である。

【0128】

また、計算単位分割部１０１は、標準固有値問題の計算のうちＤＯＲＭＴＲによるタスク＃１－ｉで使用した変換の三角行列部分の計算を１つの計算単位とする。図１７は、実施例３に係るＤＯＲＭＴＲによる計算の概要を示す図である。三重対角化に使用したハウスホルダー行列はcompact WY表現と呼ばれる形式を有しており、複数個がまとめて適用される場合がある。本実施例では、プロセッサ１０は、図１７の計算４０３に示すように、三重対角化の際に２つのハウスホルダー変換をまとめて適用する。図１７であれば、７個分の計算４０３により三重対角行列の固有ベクトルが求められる。この計算４０３において、２つのハウスホルダー変換をまとめて適用する際に三角行列４０２が用いられる。そこで、プロセッサ１０は、固有ベクトルの逆変換を行う場合に、２×２の三角行列４０２を計算する。図１６におけるタスク＃６－ｉが、この計算を行う計算単位であり、すなわち、タスク＃１－ｉで使用した変換の三角行列部分の計算を行う計算単位である。

【0129】

また、計算単位分割部１０１は、標準固有値問題の計算のうちＤＯＲＭＴＲによる三重対角行列の固有ベクトルの逆変換の計算を１つの計算単位とする。図１７のタスク＃７が、この計算単位を表す。

【0130】

非同期実行判定部１４０は、例えば、依存関係判定部１０３から通知された図１７で示される依存関係を用いて、タスク同士の非同期での計算の可否を判定し、非同期で処理するタスクを決定する。そして、計算実行部１０４は、非同期実行判定部１４０の決定にしたがって標準固有値問題の計算を実行する。

【0131】

このように、計算実行部１０４は、計算単位分割部１０１により生成されたＤＳＴＥＤＣ及びＤＯＲＭＴＲが分割された計算単位を含む複数の計算単位について、各タスク間の依存関係の存否にしたがって標準固有値問題を計算する。すなわち、計算実行部１０４は、三重対角行列の固有ベクトルの逆変換で使用する三角行列の計算を行う計算単位を含む数の計算単位について、第１タスクと第２タスクとの間の依存関係の存否に基づいて計算を実行する。

【0132】

本実施例に係るプロセッサは、タスク制御が極めて柔軟にでき、ＢＬＡＳやＬＡＰＡＣＫの動作が高性能に実施できる環境であれば、非同期で実行するタスクの数を増やし且つ各タスクのスレッド並列性を高くすることができる。これにより、プロセッサは、標準固有値問題の計算性能を向上させることが可能である。