(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-09-25
(45)【発行日】2024-10-03
(54)【発明の名称】光信号処理装置
(51)【国際特許分類】
G06N 3/067 20060101AFI20240926BHJP
【FI】
G06N3/067
(21)【出願番号】P 2022513749
(86)(22)【出願日】2020-04-07
(86)【国際出願番号】 JP2020015727
(87)【国際公開番号】W WO2021205547
(87)【国際公開日】2021-10-14
【審査請求日】2022-08-10
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(74)【代理人】
【識別番号】110001243
【氏名又は名称】弁理士法人谷・阿部特許事務所
(72)【発明者】
【氏名】中島 光雅
(72)【発明者】
【氏名】橋本 俊和
(72)【発明者】
【氏名】田仲 顕至
【審査官】坂庭 剛史
(56)【参考文献】
【文献】特表2019-523932(JP,A)
【文献】特開平04-050824(JP,A)
【文献】特開2018-106237(JP,A)
【文献】特開2006-018035(JP,A)
【文献】米国特許第07212293(US,B1)
【文献】特開2019-082643(JP,A)
【文献】米国特許出願公開第2017/0062894(US,A1)
【文献】特開2005-150625(JP,A)
【文献】米国特許第05121231(US,A)
【文献】特表平09-500995(JP,A)
【文献】米国特許出願公開第2008/0154815(US,A1)
【文献】橋本俊和,波面整合法による光回路設計,電子情報通信学会2016年総合大会講演論文集[1],日本,一般社団法人電子情報通信学会,2016年03月01日,p.198(C-3-60),ISSN 1349-1369
(58)【調査した分野】(Int.Cl.,DB名)
G06N 3/067
(57)【特許請求の範囲】
【請求項1】
ニューラルネットワークを構成するための信号処理装置であって、
電気信号を光信号へと変換する光変調器と、
前記光変調器で変調された光信号に対する演算処理によって当該光信号の変換を行う
光回路と、を含み、
前記光回路は、前記
光信号に対し、前記ニューラルネットワークにおける重み
を更新する処理を行う光媒質を
含み、
前記光媒質は、光波の伝搬方向をz、当該zと直交する軸をxとしたときに、(x,z)面内を導波路の寸法よりも小さい間隔で離散化し、当該離散化された領域毎に屈折率の分布が制御され、
前記領域毎の屈折率値は
前記ニューラルネットワークが適切な出力を行うべく機械学習アルゴリズムにて最適化され、
前記光回路で変換された光信号を受信することで出力信号を得る光受信器と、を含む光演算装置を具備すること
を特徴とする光信号処理装置。
【請求項2】
前記光演算装置の屈折率分布の最適化に、アドジョイント法を用いることを特徴とする、請求項1に記載の光信号処理装置。
【請求項3】
前記光演算装置の
後段に、前記ニューラルネットワークで実施される演算を実施し、出力を得る電気演算回路を具備し、
前記電気演算回路は、前記光回路による屈折率の分布の制御を分担するニューラルネットワークを有することを特徴とする、請求項1または2に記載の光信号処理装置。
【請求項4】
前記光媒質の屈折率分布は、前記電気演算回路及び前記光受信
器の出力を元に制御ないしは設計されることを特徴とする、請求項3に記載の光信号処理装置。
【請求項5】
前記光回路を複数個有し、
前記複数の光回路を並列または直列に接続する
ことを特徴とする請求項1に記載の光信号処理装置。
【請求項6】
前記光媒質が伝搬面内の前記屈折率の分布を制御した2次元導波路である
ことを特徴とする請求項2または3に記載の光信号処理装置。
【請求項7】
前記光媒質の前記屈折率の分布の最小寸法は、前記光回路における損失に基づいて定められた下限と、前記光回路内部に打ち込める重みの数に基づいて定められた上限と、を有した範囲内にあることを特徴とする請求項1乃至3のいずれか一項に記載の光信号処理装置。
【請求項8】
前記屈折率の虚部をゼロに固定し、実部のみを変更することで前記屈折率を設計することを特徴とする請求項1乃至4のいずれか一項に記載の光信号処理装置。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、光信号処理装置に関し、詳しくは、ニューラルネットワークの層構成に光学素子を用いた技術に関する。
【背景技術】
【0002】
脳の情報処理をモデルにしたディープニューラルネットワーク(以下、「DNN」とも言う)による機械学習に注目が集まっている。DNNの一構成として、residual network(残差ネットワーク、以下、「ResNet」とも言う)と呼ばれる、比較的深い層からなるネットワーク構成が良好な性能を示すことが知られている(非特許文献1)。さらに、ResNetにおける各層の演算を連続極限として表現した、neural ordinary differential equation network (以下、「ODE-Net」とも言う)が提案されている(非特許文献2)。このネットワーク構成によれば、メモリ効率やネットワーク性能を向上させることができる。
【0003】
上述したResNetやODE-Netなどのニューラルネットは、データの学習・処理に広く応用されているが、層数やニューロン数の増加に伴ってシナプスの結合が著しく増加するため計算に時間や電力を要することがある。このような課題を解く手法として光回路を用いたDNN処理回路(光技術を用いたDNN処理専用ハードウェア)が提案されている(非特許文献3)。この回路では、一般的に、マッハツェンダ干渉計(MZI)等をはじめとする光ゲート回路によって上記のニューロン間の重みを制御する。そして、演算は光波の伝搬のみでなされることから、電力や演算速度に優れるといった利点を有している。
【先行技術文献】
【非特許文献】
【0004】
【文献】K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In Proc. IEEE Conf. Comp. Vis. Patt. Recogn., 2016.
【文献】T. Q. Chen, Y. Rubanova, J. Bettencourt, and D. K. Duvenaud, “Neural ordinary differential equations,” in Advances in Neural Information Processing Systems, 2018, pp. 6571-6583.
【文献】Y. Shen, N. C. Harris, S. Skirlo, M. Prabhu, T. Baehr-Jones, M. Hochberg, X. Sun, S. Zhao, H. Larochelle, D. Englund et al., “Deep learning with coherent nanophotonic circuits,” Nat. Photonics 11, (2017) 441-446.
【文献】S. Molesky, Z. Lin, A. Y. Piggott, W. Jin, J. Vuckovic and A. W. Rodriguez, “Inverse design in nanophotonics,” Nature Photonics 12, (2018) 659-670.
【文献】Y. Sakamaki, T. Saida, T. Hashimoto, and H. Takahashi, “New optical waveguide design based on wavefront matching method,” J. Lightw. Technol., Nov. 2007, vol. 25, no. 11, pp. 3511-3518.
【文献】L. Ruthotto, E. Haber,“Deep Neural Networks Motivated by Partial Differential Equations,”Journal of Mathematical Imaging and Vision, Sep. 18 (2019) , pp. 1-9.
【文献】Y. LeCun, “A theoretical framework for back-propagation,” Proc. the 1988 Connectionist Models Summer School, (1988) pages 21-28.
【発明の概要】
【0005】
しかしながら、MZI素子のサイズは一般的に100 μm2角を超えるため、多数の重み制御回路の形成は容易でない。例えば、非特許文献3には、約1mm角に56個のMZIを有する構成が記載されているが、そのニューロン数は4ニューロン×4層である。画像認識等で利用される典型的なDNNの重み数が107 個よりも多い値(典型的なDNNの重み数>107)に達することから、上記のゲート素子を利用する構成はスケーラビリティに課題を有している。
【0006】
本開示は、上記の課題を解決する構成として、光伝搬とDNNにおける信号の伝搬とのアナロジー(類推)の関係を利用し、局所的に屈折率分布を制御することでDNNの構成を実現するものである。局所的な屈折率分布は、数十ナノ~マイクロメートルオーダーで制御可能であることから、1 mm角内に106~108程度の重みを印可することが可能である。
【0007】
上記の課題を解決するために、光信号処理装置の一態様は、ニューラルネットワークを構成するための信号処理装置であって、電気信号を光信号へと変換する光変調器と、前記光変調器で変調された光信号に対する演算処理によって当該光信号の変換を行う光回路と、を含み、前記光回路は、前記光信号に対し、前記ニューラルネットワークにおける重みを更新する処理を行う光媒質を含み、前記光媒質は、光波の伝搬方向をz、当該zと直交する軸をxとしたときに、(x,z)面内を導波路の寸法よりも小さい間隔で離散化し、当該離散化された領域毎に屈折率の分布が制御され、前記領域毎の屈折率値はニューラルネットワークが適切な出力を行うべく機械学習アルゴリズムにて最適化され、前記光回路で変換された光信号を受信することで出力信号を得る光受信器と、を含む光演算装置を具備することを特徴とする。
【0008】
本開示の一形態によれば、光回路を用いたDNN処理技術によるハードウェアにおいて高いスケーラビリティを実現することができる。
【図面の簡単な説明】
【0009】
【
図1】は、実施の形態1の光ニューラル信号処理の構成を示す図である。
【
図2】は、実施の形態2の光ニューラル信号処理の構成を示す図である。
【
図3】(a)は、WFMをベースとした学習の模式図を示す。(b)は、通常のニューラルネットワークを示す図である。(c)は、WFM更新ルールを利用したニューラルネットワークを示す図である。
【
図4】は、実施の形態2の光ニューラル信号処理の構成を示す図である。
【
図5】は、実施の形態3の光ニューラル信号処理の構成を示す図である。
【
図6】(a)~(c)は、学習のシミュレーションによる検証例を示す図である。
【発明を実施するための形態】
【0010】
以下、図面を参照して本開示の実施形態を説明する。
(実施の形態1)
本発明にかかる実施の形態1について、
図1を用いて説明する。光源101-N(自然数)より出射した光は、光変調器(光変調手段)102-N(自然数)により光波の強度、位相値のいずれかまたは両方が変調される。これによって入力情報を表現する。画像情報などのような、複数次元を有するデータに対しては、時間多重・波長多重・空間多重・偏光多重などのような光自由度を利用、組み合わせることで対応することができる。また、多重方式に合わせて、入力光源の構成が変わる(波長数・空間多重数分だけ光源を並べる)が、これは光通信で一般的に用いられる技術を利用して実現することができる。
図1は、例として、単一波長の光信号を空間的に多重化する場合について示しているが、いずれの多重化方式を利用しても構わない。
【0011】
変調された光信号は、光伝搬部103を介して、屈折率分布が制御された光媒質を含む光回路104に至る。光媒質は伝搬面内の屈折率分布を制御した2次元導波路である。この回路内で光演算が施され、出力端に設置された光伝搬部105を介して光受信部106に至る。光伝搬部103、105は、例えば光ファイバアレーや光回路104中に形成された光導波路などを用いることができる。光受信部106はフォトダイオードアレーなどを用いる。また、光受信部にコヒーレント光源を干渉させることなどにより、光強度のみならず位相や偏光方向を測定する構成を備えていてもよいまた、波長分離素子を用いて波長ごとに光信号を測定する構成を有していてもよい。これによって、前述の種々の方式で多重化した光を分離し、出力データにも複数次元の自由度を与えることが可能である。
【0012】
屈折率分布を制御する光回路104は、製造時に屈折率分布を何らかの手法で形成し、その後は更新しない形態と、動的に屈折率分布を変更可能な光回路の形態がある。前者については、ニューラルネットの学習を回路の設計、製造過程で実施することにより、回路において所望の屈折率を実現する。これにより、この回路は、推論を行う推論用の信号処理装置として用いることができる。後者については、動的に屈折率を更新することにより、後述する学習についても実行することができる。
【0013】
装置の製造段階での屈折率分布の形成手法については、例えば、非特許文献4に記載されるように導波路形状を、エッチング等の加工(例えば、空穴を開けるなど)によって制御することで、空気と材料の屈折率差を利用する手法がある。また、非特許文献5に記載のように、空気ではなく、光媒質において母材の異なる組成の材料等との屈折率差を用いてもよい。このようの材料の組成によって屈折率分布を実現する場合、典型的には重みは2値等に制限される。以下で説明するように、上記屈折率は、実部と虚部のいずれを制御するものであってもよい。ただし、実部のみを制御し、虚部を0で固定する(または、それに可能に限り近づける)ことで、原理的な演算損失が0になるという効果を発揮することができる。これを実現するには、入力波に対する損失が少ない材料(1.5 um帯の光であれば、例えばSiOxガラスやSi)を母材とし、前述した方法で屈折率分布を制御すればよい。
【0014】
動的に屈折率を更新する手法は、例えば液晶等の素子を導波路構成材とし、マトリクス上に配置した電極に電圧を印可することで局所的に液晶鎖の回転等により屈折率変化を誘起させ、その分布を後述する手法によって制御することで実現することができる。液晶材料の他にもLiNbO3, (Pb1-x,Lax)ZrTiO3のような非線形素子を構成材とすることでも形成可能である。
【0015】
<アナロジー>
本実施形態は、光回路104における光伝搬が、DNNにおける信号伝搬の伝搬とアナロジー(類推)の関係にあることを利用して光回路を構成するものである。以下では、このアナロジーについて説明する。
【0016】
DNNにおける信号伝搬に関し、非特許文献1で提案されているResNetでは、L層目の演算は以下の式で表される。
【0017】
【0018】
式(1)において、xは隠れ層の状態を示しており、θは学習重み、fは非線形関数をそれぞれ示している。
【0019】
非特許文献2は、この式(1)の連続極限の表現を示しており、その表現が次式で表せられることを示している。
【0020】
【0021】
式(2)において、lは連続化した層数である。このように層の演算が(2)式で表現されるODE-Netは、ResNetと同等の性能を発揮するとともにメモリ効率を向上させることができる。
【0022】
ここで、DNNにおける畳み込み層(Convolutional Layer)の演算は、偏微分方程式で表現できるという考え方(非特許文献6)を導入する。これによれば、畳み込みにおけるカーネルフィルタK(θ)は、
【0023】
【0024】
と表すことができる。
【0025】
以上のDNNの信号伝搬に対し、光伝搬に関する、平面光回路内を伝搬する光伝搬はシュレディンガー方程式を導入すると、その方程式は以下の(4)式で表すことができる。
【0026】
【0027】
式(4)において、jは虚数、x, zは導波路中の座標、Ψ(x, z)は光電界を表す。Hはハミルトニアン演算子に相当するものであり、ハミルトニアン演算子は系が線形の場合(カー効果等の非線形性がない場合)は以下の式で表される。
【0028】
【0029】
式(5)において、nrは導波路の参照屈折率である。参照屈折率として、本実施形態では、導波路のクラッドの屈折率を用いることができる。Vは(x, z)座標における局所的なポテンシャル場に相当し、以下で記述される。
【0030】
【0031】
式(6)において、kは波数、n(x、z)は局所的な屈折率、Δnは局所屈折率と参照屈折率の差である。
【0032】
式(6)のV(x,z)を式(5)に代入し、その得られた式を式(4)に代入すると、以下の式(7)が得られる。
【0033】
【0034】
以上説明した、DNNの信号伝搬における式(3)は畳み込み層における変換を表し、一方、光回路の光信号伝搬における式(7)は伝搬における変換を表している。そして、これらの式を対比すると、式(7)における二次微分1/2knr・α2/αx2、および定数1/2knr・k2Δn(x、z)の項は、式(3)における二次微分α3(θ)・α2/αx2、および定数α1(θ)の項にそれぞれ対応する。これは、光伝搬回路における変換演算が、DNNにおける畳み込み層のフィルタ演算することと同じ表現になることを示している。
【0035】
ここで、式(3)におけるθは重みであり、その機能は、式(7)においては局所屈折率n(x、z)が果たすことになる。すなわち、本実施形態では、光信号回路でDNNを構成するときに、上述したアナロジーに基づき、局所屈折率n(x、z)を制御し、例えば、学習における重みを調整する。
【0036】
なお、一般的なニューラルネットでは実数領域で演算がなされるが、光回路内では複素領域で演算がなされる。非特許文献5によると、複素空間へ拡張することによりむしろ表現力が向上することが報告されており、本構成でも同様な効果が期待される。ただし、式(2)においては、非線形関数fが印可されるが、式(4)のハミルトニアンでは非線形変換を含まない点が異なる。そこで、例えば系が2次の非線形を有する場合を考えると、ハミルトニアンは以下のようになる。
【0037】
【0038】
gは非線形性に係る定数である。これによって、3項目で非線形を印可することが可能である。さらに高次の非線形を考えることも可能であるが、本実施形態の発明によると、いずれの場合も後述する更新則によって記述可能である。以上から、光回路内の順伝搬はDNNと同様な動作を行うことがわかる。
【0039】
<光受信部>
回路中をある伝搬長z1まで伝搬した光の電界Ψ(x, z1)をすべて測定するのが信号処理の上では望ましいが、実際にはフォトディテクター(PD)の開口、アレー数の限界、多アレーでのコヒーレント検波の困難性の問題から、導波路を介してPDアレーに接続する場合が製造容易性の観点では優れる。これについて、あるモードフィールドφ (x)を有する光導波部を介してPDによる強度受信を行う場合を考えると、その受信強度ηは以下のようになる。
【0040】
【0041】
ここで、PDは複数あるものと考えており、iは受信機の番号である。式(7)からわかるように、線形な光回路を利用する場合でも受信によって非線形変換を行うことが可能である。Φは例えば、以下のようなガウシアンで与えられる。
【0042】
【0043】
ここで、ωoは、開口の半径であり、xpは受信導波路の中心座標である。
【0044】
<学習>
以上説明した本実施形態に係る光回路によるDNNにおける重みである屈折率n(x、z)の更新、すなわち学習について説明する。一般的に、DNNでは最小化したいコスト関数Lに対する、各重みωの微分値(dL/dω)を誤差逆伝搬法を用いて計算し、それを用いて重みを更新していく。一方、本発明の本実施形態における順伝搬の信号処理は、式(3)で記述されるは発展方程式であり、通常用いられる離散化されたDNNの誤差逆伝搬法による重みの最適化は使用できない。一方で、このような連続的なDNNの場合は、構造物のトポロジー最適化などで用いられるアドジョイント法が誤差逆伝搬と等価になることが知られている[非特許文献7]。そこで、次のようなアドジョイントa(x, z)と呼ばれる変数を考える。その発展方程式である式(12)を計算することで、屈折率に対する損失関数の微分(dL/dn)を式(13)より求める。
【0045】
【0046】
【0047】
【0048】
式(3), (4)を代入すると、屈折率の更新は以下で与えられる。
【0049】
【0050】
【0051】
nrealとnimagはそれぞれ屈折率の実部と虚部を表す。実部は局所的な位相変化に相当し、虚部は損失、利得に相当する。以上から、順伝搬時に得られる電界Ψ(x, z)とアドジョイント方程式(12)を解いて得られるa(x, z)を用いて屈折率の微分値が決定できる。これは、a(x, z1)における値を式(11)から計算し、それを初期値として計算可能である。一方で、式(7)のようにPDを介して受信する場合は、直接に式(11)から初期値を決められない。このような場合は、微分の連鎖率を用いて初期値を以下の式で計算することが可能である。
【0052】
【0053】
【0054】
これによって、強度受信のような場合でも屈折率の更新が可能である。具体例として、同じ次元の教師信号diとηiを比較し、これらがなるべく近くなるように屈折率を更新する場合について考える。この場合損失関数Lは、例えば以下のような2乗誤差を考えればよい。
【0055】
【0056】
この微分は、以下である。
【0057】
【0058】
式(17), (19)を(15)に代入することで、a(x,z1)が決定できる。これを初期値とし、a(x, z)を式(12)で計算し、式(14), (15)を用いて屈折率に関する勾配を決定できる。その更新方法については通常のDNNで用いられる種々の最適化方法が利用できる。例えば、確率勾配急降下法では、学習データのうちからN個(N=128)を取り出し、それについてそれぞれ勾配を求め、以下の式(20)で示すように更新する。
【0059】
【0060】
上記の畳み込みフィルタ簡単のために一次元での表記を説明しているが、2次元以上の畳み込み演算についても同様に偏微分方程式で表現できる(非特許文献6)。この場合は、考慮する次元に応じてシュレディンガー方程式の次元を、光波が持ちうる自由度に応じて拡張すればよい(x,y,z空間、偏波、時間、波長)。また、後述の光実装についても、2次元導波路で1次元の畳み込み演算を行う場合を記載するが、拡張した次元に応じて3次元導波路構造等を利用しても構わない。
【0061】
以上の方法によれば、光伝搬の法則とDNNの伝搬が同等であることを利用し、局所的に屈折率分布を制御することでDNNの構成を模擬することが可能となる。局所的な屈折率分布は、数十ナノ~マイクロメートルオーダで制御可能であるため、1 mm角内に106~108程度の重みを印可することが可能である。伝搬光の実効的な波長よりも微細な屈折率分布は光波が解像できないため、平均的な屈折率が光波の感じる屈折率となる(有効媒質近似)。これは、例えば2値の屈折率分布であっても粗密によってアナログ値を表現できるため有効である。しかしながら、散乱等による損失も増加することから、最小寸法は光波長の1/10程度以上であることが望ましい。また、屈折率分布を疎にすると、光回路内部に打ち込める重みの数が減少するため、屈折率分布の最小寸法は光波長の10倍以下程度に収めることが望ましい。
【0062】
なお、屈折率は実部、虚部の両方を必ずしも更新しなくともよく、少なくとも一方を更新すれば構わない。特に実部のみを更新し、虚部を0に固定することで、以下の効果を奏することができる。
【0063】
・光回路上に損失が発生せず、原理的な演算消費電力が不要になる。
・原理損失がないので、損失の増加に伴うS/Nの劣化が避けられる。
・重み行列がユニタリ発展に相当するため、学習が安定化する。
(出力が発振したり、カオス転移しない)
【0064】
これは、波面整合法(Wavefront matching method:WFM)[非特許文献5]と呼ばれる手法でニューラルネットワークを学習していることに相当する。通常のニューラルネットワークとの違いを
図3(a)~(c)を参照して説明する。
【0065】
図3(a)は、WFMをベースとした学習の模式図を示し、
図3(b)は、通常のニューラルネットワークを示し、
図3(c)は、WFM更新ルールを利用したニューラルネットワークを示している。
図3(b)、(c)に示される、DNN学習とWFM学習との違いとして、n
imag及び式(21)
【0066】
【0067】
は、0に設定される。WFMにおいて、前進波と後退波との波面に合わせて更新がされる。ここで、波の振幅は保たれている。
【0068】
【0069】
【0070】
式(22),(23)のΨは、順伝搬する光の電界である。a(x,z)は光回路に逆側から光を入れた時の電界の様子に対応する。例えば、回路が線形(dH/dΨ=0)の場合を考えると、シュレディンがー方程式を単純に時間反転(この場合はz方向に逆発展)する形式になると理解できる。式(22),(23)はそれらの重なりを評価して、差に応じて屈折率分布を更新するというものである。本質的には、ニューラルネットの誤差逆伝搬を複素空間かつ連続発展形式で行っているのと意味するところは同じである。
【0071】
この手法を用いることにより、
図3(b)の標準ニューラルネットワークにおいて、max |eigin(W)|>1の場合、システムは不安定化する。省エネルギ一の法則は成立していない。
【0072】
図3(C)のWFM更新ルールを利用したニューラルネットワークでは、Wはユニタリ行列であって、システムは常に安定性を維持している。局所的な屈折率に由来する重み行列は、ハミルト行列を意味する。省エネルギ一の法則が成立しており、主なエネルギー消費はないといえる。
【0073】
本実施の形態によれば、ニューラルネットワークを構成するための信号処理装置であって、電気信号を光信号へと変換する光変調器と、光変調器で変調された光信号に対する演算処理によって当該光信号の変換を行う光回路であって、ニューラルネットワークにおける重みに相当する屈折率の分布が制御された光媒質を含む光回路と、光回路で変換された光信号を受信することで出力信号を得る光受信器と、を含む光演算装置を具備したことを特徴とする光信号処理装置を用いることにより、従来のMZIを配列した光学的なDNNに代えて、局所的屈折率を重みに対応させてDNNを構築できる。
【0074】
(実施の形態2)
上述した実施の形態1では、光回路部においてすべてのニューラル信号処理を実施していたが、ディジタル電子回路(ディジタル信号処理を実施する電気演算回路)等で演算する通常のニューラルネットワークと機能を分担してもよい。本実施形態はそのような形態の一例である、実施の形態2について、
図2を参照して説明する。光源201-N(Nは自然数)より出射した連続レーザは、光変調器(手段)202-N(Nは自然数)により光波の強度、位相値のいずれかまたは両方が変調される。これによって入力情報を表現する。画像情報などのような、複数次元を有するデータに対しては、実施の形態1で述べたような複数の表現手法があり、いずれの多重化方式を利用しても構わない。
【0075】
変調された光信号は、光伝搬部203を介して、屈折率分布を制御した光回路204に至る。この回路内で光演算が施され、出力端に設置された光伝搬部205を介して光受信部206に至る。光伝搬部203、205は光ファイバアレーや光回路204中に形成された光導波路などを例えば用いる。光受信部206はフォトダイオードアレーなどを用いる。また、光受信部にコヒーレント光源を干渉させることなどにより、光強度のみならず位相や偏光方向を測定する手段を備えていてもよい。また、波長分離素子を用いて波長ごとに光信号を測定する手段を有していてもよい。これによって、前述の主種の方式で多重化した光を分離し、出力データにも複数次元の自由度を与えることが可能である。
【0076】
受信された光はディジタル演算回路中のニューラルネットワーク207の入力となる。演算回路内では一般的なDNNで実施される演算(例えば、非線形変換、全結合、畳み込み演算など)を実施し、出力を得る。本構成によれば、光回路の規模制約等の問題で、すべてを光演算で行うことが難しい問題においても、ディジタル演算を介することで演算を実施することが可能となる。また、光演算部では原理演算電力が不要であるため、全てを電気領域でのディジタル演算で行う場合と比較し、演算に消費する電力が低減するといった優れた機能が発現する。
【0077】
図4に、アナログ光回路401と、光検出器402と、ディジタル電子回路403と、を含む光信号処理装置を示す。
【0078】
なお、アナログ、検出器、及びディジタル順伝搬及び逆伝搬の関係式は、
図4中に示されている。順伝搬の過程は、まず、光回路中を光が順伝搬し、次いで、PDで受信し、その出力をニューラルネットで順伝搬処理するという過程で構成される。一方、逆伝搬過程は、まず、出力と所望の出力を比較してコストLを定義し、それをディジタル誤差逆伝搬し、次いで、PDから光回路への逆伝搬をチェインルールに従って計算し、PDから伝搬してくる誤差信号を光回路内で逆伝搬させるという操作過程で構成される。
【0079】
更新の方法は実施の形態1と概ね同様であるが、電子回路上のニューラルネットを介して出力されているため、例えば式(19)のようにして直接dL/dηを決定できない。したがって、
図4に示すように、ディジタル領域のニューラルネットからの誤差逆伝搬を介して、dL/dηを計算し屈折率の更新を行う。DNN出力Yは、コスト関数によって、損失Lにコンバートされる。Lの後退は、標準の後退波の式を用いて計算され、
図4のディジタル後退波の式が得られる。なお、検出器順伝搬の関係式は、式(7)に対応し、アナログ順伝搬の関係式は、式(3)に対応する。
【0080】
本実施の形態では、光演算装置の後段に、ディープニューラルネットワークで実施される演算を実施し、出力を得る電気演算回路を具備することを特徴とする光信号処理装置を用いることにより、従来のMZIを配列した光学的なDNNに代えて、局所的屈折率を重みに対応させてDNNを構築できる。
【0081】
本実施の形態では、光演算装置の後段に、ディープニューラルネットワークで実施される演算を実施し、出力を得る電気演算回路を具備することを特徴とする光信号処理装置を用いたが、光演算装置の前段に、ディープニューラルネットワークで実施される演算を実施し、出力を得る電気演算回路を具備してもよい。
【0082】
(実施の形態3)
実施の形態1、2では、光演算部が1つの場合を考慮していたが、
図5に示すように複数接続されていても構わない。
図5に、アナログ光回路401-N(Nは自然数)と、光検出器402と、ディジタル電子回路403と、を含む光信号処理装置を示す。光回路による光アナログ演算と電気ディジタル演算のフローを示す。非線形層を有する、ハミルトニアン系のN分割されたSE-NET(シュレディンガー方程式を基礎としたニューラルネットワーク)を示す。なお、
図4と同様、アナログ、検出器、及びディジタル順伝搬及び逆伝搬の関係式は、
図5中に示されている。この場合、単一の光回路に比べて処理性能が向上するといった優れた機能が発現する。この場合の設計方法は実施の形態1,2で記述した方法と同様である。
【0083】
本実施の形態では、アナログ光回路を複数個有し、複数のアナログ光回路を直列に接続したが、複数のアナログ光回路を並列に接続してもよい。
【0084】
実施の形態1~3の光信号処理装置において、CNN(Convolution Neural Network),LSTM(Long Short-Term Memory),GAN(Generative Adversarial Network), 深層強化学習(DQN(Deep Q-Network), A3C(Asynchronous Advantage Actor-Critic), A2C(Actor-Critic))等のアルゴリズムを適用できる。
【0085】
(設計例)
上述の実施形態による、光回路設計の一例について説明する。機械学習のテストで一般的に用いられるIRISとよばれるアヤメの品種データとし、そのデータから品種を分類するタスクを実施する。入力データは「がくの長さ」と「がくの幅」、「花弁の長さ」と「花弁の幅」からなる4次元のスカラー量からなる。このデータから、Iris (アヤメ属) に属する 3 品種、setosa (セトサ)、versicolor (バージカラー)、versinica (バージニカ)を分類することが、本タスクの目的である。光演算回路は非屈折率1.45、損失0.01 dB/cmのガラス材料で構成され、局所的に屈折率の実部のみを変更する場合を考慮した。入力は空間多重によって4次元を表現し、各入力導波路間の距離を6 um、入力導波路間の距離をハミルトニアンは線形(式(4)の場合)を実行した。全データ(150)のうちの75%を訓練用とし、25%を検証用のデータとした。屈折率分布は1 um角で制御し、全体で50um角の屈折率分布を制御した。
【0086】
PDの数を3つとし、光演算回路1つのみで分類した結果(実施の形態1に相当)を
図6(a)に、光回路を3つカスケードに接続した場合(実施の形態3に相当)を
図6(b)に示す。PDの数を10とし、それらの出力を電気領域の10×3の全結合ニューラルネットで演算して出力した場合(実施の形態3に相当)の結果を
図6(c)に示す。いずれの場合も85%よりも高い精度で分類が実行できており、本発明の手法で学習を実行できていることがわかる。また、実施の形態2または3のような構成をとることで、分類精度を98%よりも高くまで向上させることができており、性能の向上に有効であることがわかる。性能はおおむね同等であるが、実施の形態3は実施の形態2と比較して、ディジタル演算が不要であることによる演算の電力低減といった効果を有する。