(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-08-13
(45)【発行日】2024-08-21
(54)【発明の名称】方法、プログラム、及び装置
(51)【国際特許分類】
G10L 25/69 20130101AFI20240814BHJP
G10L 25/30 20130101ALI20240814BHJP
【FI】
G10L25/69
G10L25/30
(21)【出願番号】P 2020150111
(22)【出願日】2020-09-07
【審査請求日】2023-08-23
(32)【優先日】2020-04-10
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2019-10-01
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】000005496
【氏名又は名称】富士フイルムビジネスイノベーション株式会社
(74)【代理人】
【識別番号】110001519
【氏名又は名称】弁理士法人太陽国際特許事務所
(72)【発明者】
【氏名】アンドリュー アランポート
(72)【発明者】
【氏名】ドア ブーセ チャウダー
(72)【発明者】
【氏名】キム チョルファン
(72)【発明者】
【氏名】パテル ミタッシュクマー
(72)【発明者】
【氏名】ドナルド ジー キンバー
(72)【発明者】
【氏名】チョン リュウ
【審査官】大野 弘
(56)【参考文献】
【文献】特開平06-186958(JP,A)
【文献】特開2011-067479(JP,A)
【文献】特許第6452061(JP,B1)
【文献】Flavio Riberio et al.,Auditory augmented reality:Object sonification for the visually impaired,2012 IEEE 14th International Workshop on Multimedia Signal Processing(MMSP),2012年09月17日,p.319-324
【文献】Xingchao Wang et al.,Jukepix:A Cross-Modality Approach to Transform Paintings into Music Segments,2018 IEEE International Conference on Robotics and Biomimetics(ROBIO),2018年12月12日,p.456-461
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00-13/10
G10L 21/00-21/18
G10L 25/00-25/93
(57)【特許請求の範囲】
【請求項1】
コンピュータが、
受信信号を第1のモダリティに埋め込み、
前記第1のモダリティの前記埋め込まれた受信信号を第2のモダリティの信号に再埋め込みして、前記第2のモダリティで出力を生成し、
前記出力に基づいて、知覚されるように構成された前記第2のモダリティの信号をレンダリングし、
前記埋め込み、前記再埋め込み、及び前記生成は、生成された前記出力から目標分布の実際の例を識別することに関連する敵対的学習の操作を実行すること、及び知覚距離を有する前記出力を生成することに関連する計量学習の操作を実行することによって、訓練されるモデルを適用する、
方法。
【請求項2】
前記埋め込みは、特徴埋め込みモデルを適用するエンコーダによって実行される、請求項1に記載の方法。
【請求項3】
前記再埋め込みは、再埋め込みネットワークによって実行される、請求項1に記載の方法。
【請求項4】
前記敵対的学習の実行は、識別機損失を生成するために、前記生成された出力と前記出力の実際のバージョンとを識別する識別機ネットワークに生成された前記出力を提供することを含む、請求項1に記載の方法。
【請求項5】
前記計量学習の実行は、前記知覚距離の決定に関連する計量損失関数を生成するために、メル周波数ケプストラル(MFC)変換を適用することを含む、請求項1に記載の方法。
【請求項6】
前記第1のモダリティは視覚であり、前記第2のモダリティは音声である、請求項1に記載の方法。
【請求項7】
コンピュータにより、
受信信号を第1のモダリティに埋め込みを行うステップと、
前記第1のモダリティの前記埋め込まれた受信信号を第2のモダリティの信号に再埋め込みして、前記第2のモダリティで出力を生成するステップと、
前記出力に基づいて、知覚されるように構成された前記第2のモダリティの信号をレンダリングするステップと、
を実行させるためのプログラムであって、
前記埋め込み、前記再埋め込み、及び前記生成は、生成された前記出力から目標分布の実際の例を識別することに関連する敵対的学習の操作を実行すること、及び知覚距離を有する前記出力を生成することに関連する計量学習の操作を実行することによって、訓練されるモデルを適用する、
プログラム。
【請求項8】
前記埋め込みは、特徴埋め込みモデルを適用するエンコーダによって実行される、請求項7に記載のプログラム。
【請求項9】
前記再埋め込みは、再埋め込みネットワークによって実行される、請求項7に記載のプログラム。
【請求項10】
前記敵対的学習の実行は、識別機損失を生成するために、前記生成された出力と前記出力の実際のバージョンとを識別する識別機ネットワークに生成された前記出力を提供することを含む、請求項7に記載のプログラム。
【請求項11】
前記計量学習の実行は、前記知覚距離の決定に関連する計量損失関数を生成するために、メル周波数ケプストラル(MFC)変換を適用することを含む、請求項7に記載のプログラム。
【請求項12】
前記第1のモダリティは視覚であり、前記第2のモダリティは音声である、請求項7に記載のプログラム。
【請求項13】
第1のモダリティを有する情報を受け付けるように構成された入力デバイスと、
第2のモダリティを有する情報を出力するように構成された出力デバイスと、
前記第1のモダリティを有する前記情報を取得し、前記第2のモダリティを有する前記情報を生成するプロセッサと、
を備え、
前記プロセッサは、
受信信号を第1のモダリティに埋め込み、
前記第1のモダリティの前記埋め込まれた受信信号を第2のモダリティの信号に再埋め込みして、前記第2のモダリティで出力を生成し、
前記出力に基づいて、知覚されるように構成された前記第2のモダリティの信号をレンダリングし、
前記埋め込み、前記再埋め込み、及び前記生成は、生成された前記出力から目標分布の実際の例を識別することに関連する敵対的学習の操作を実行すること、及び知覚距離を有する前記出力を生成することに関連する計量学習の操作を実行することによって、訓練されるモデルを適用する、
装置。
【請求項14】
前記入力デバイスはカメラを含み、前記出力デバイスはスピーカ又はヘッドフォンを含む、請求項13に記載の装置。
【請求項15】
前記第1のモダリティは視覚であり、前記第2のモダリティは音声である、請求項13に記載の装置。
【請求項16】
前記入力デバイス及び前記出力デバイスは、ウェアラブルデバイスに取り付けられる、請求項13に記載の装置。
【請求項17】
前記ウェアラブルデバイスは眼鏡を含む、請求項16に記載の装置。
【請求項18】
前記プロセッサは、特徴埋め込みモデルを適用するエンコーダによって埋め込みを行い、再埋め込みネットワークによって再埋め込みを行うように構成される、請求項13に記載の装置。
【請求項19】
前記敵対的学習の実行は、識別機損失を生成するために、前記生成された出力と前記出力の実際のバージョンとを識別する識別機ネットワークに生成された前記出力を提供することを含み、
前記計量学習の実行は、前記知覚距離の決定に関連する計量損失関数を生成するために、メル周波数ケプストラル(MFC)変換を適用することを含む、
請求項13に記載の装置。
【請求項20】
前記第1のモダリティと前記第2のモダリティとの間のマッピングを学習するために、注釈付きデータを必要としない、請求項13に記載の装置。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願の相互参照)
この出願は、2019年10月1日に提出された米国特許出願第62/909,088号の優先権を主張し、その内容は参照により本明細書に組み込まれる。
【0002】
本開示は、第1のモダリティから第2のモダリティへの特徴ベクトルのトランスモーダル変換(transmodal translation)に関連する、方法、プログラム、及び装置に関する。
【背景技術】
【0003】
人間は、眼や耳などを介した感覚フィードバックを望んでいる場合がある。しかしながら、一部の人間は視覚障害を有する可能性があり、彼らは眼による感覚フィードバックを得ることができない。さらに、一部の人間は、人工装具などの医療機器からのフィードバックを必要とする場合がある。一般的には、特に視覚障害などがある場合、人間は自分の神経系又は生物学的システムを増強し、強力なフィードバックを受け取りたいと思う可能性がある。
【0004】
例えば、これに限定される訳ではないが、人間は視覚によって、部屋やインターフェースなどの目標物を簡単にちらりと(例えば、1秒)見た後で、目標物に関する主要な特徴を説明することができる。しかしながら、対象物に関連して説明される主要な特徴が数語よりも長い場合、又は追加のコンテキストや説明が必要な場合には、英語などの言語の話し言葉で出力を伝達する必要があるため、主要な特徴の伝達に必要な時間が1秒を超えるなど長すぎる場合がある。したがって、言語による伝達だけを使用する関連技術の手法では不十分な場合がある。
【0005】
人間以外にも、コウモリなどの一部の動物は、視覚ナビゲーションを使用する代わりに、聴覚システムをナビゲーションに使用できる場合がある。しかしながら、このような手法は、様々な周波数範囲で信号を感知する能力及び聴きとる能力が異なるため、人間にとって効果的ではない可能性がある。しかしながら、関連技術は聴覚システムを使用するような適応能力を有していない。
【先行技術文献】
【非特許文献】
【0006】
【文献】AMOS, B.,et al., OpenFace: A General-Purpose Face Recognition Library with Mobile Applications, Technical Report CMU-CS-16-118, Carnegie Mellon University School of Computer Science, Pittsburgh, PA, 2016, 20 pgs.
【文献】ARANDJELOVIC, R.,et al., NetVLAD: CNN Architecture for Weakly Supervised Place Recognition, IEEE Computer Vision and Pattern Recognition(CPR)2016, May 2, 2016, 17 pgs.
【文献】BUNKER, D., Speech2Face: Reconstructed Lip Syncing withGenerative Adversarial Networks, Data Reflexions: Thoughts and Projects, 2017, 8 pgs.
【文献】CONNORS, E. C.,et al., Action Video Game Play and Transfer of Navigation and Spatial Cognition Skills in Adolescents who are Blind, Frontiers in Human Neuroscience 8(133), March 2014, 9 pgs.
【文献】ENGEL, J.,et al., Neural Audio Synthesis of Musical Notes with WaveNet Autoencoders, ICML'17: Proceedings of the 34th International Conference on Machine Learning, 70, August 2017, pp.1068-1077.
【文献】GOODFELLOW, I. J.,et al., Generative Adversarial Nets, Advances in Neural Information Processing Systems, 27, 2014, 9 pgs.
【文献】HERMANS, A.,et al., In Defense of the Triplet Loss for Person Re-Identification, arXiv:1703.07737, 2017, 15 pgs.
【文献】NAGRANI, A.,et al., Seeing Voices and Hearing Faces: Cross-modal biometric matching, Proceeding of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp.8427-8436.
【文献】PANAYOTOV, V.,et al., Librispeech: An ASR corpus based on public domain audio books, 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) 2015, 5206-5210.
【文献】PENG, X.,et al., Reconstruction-Based Disentanglement for Pose-invariant Face Recognition, IEEE International Conference on Computer Vision (ICCV), 2017, pp.1623-1632.
【文献】SCHROFF, F.,et al., FaceNet: A Unified Embedding for Face Recognition and Clustering, Proceeding of the IEEE Conference on Computer Vision and Pattern Recognition, 2015, pp.815-823/
【文献】STILES, N. R. B.,et al., Auditory Sensory Substitution is Intuitive and Automatic with Texture Stimuli, Scientific Reports, 5:15628, 2015, 14 pgs.
【発明の概要】
【発明が解決しようとする課題】
【0007】
深層学習に対する関連技術の手法は、比較的低次元のユークリッド空間に高レベルの視覚情報を効果的に埋め込む方法を提供してきた。しかしながら、関連技術の深層学習の手法には満たされていないニーズがある。それは、幾何学的構造を維持したままで、人間の第1のモダリティ又は感覚と、第2のモダリティ又は感覚との間での変換を可能にすることである。
【0008】
本開示の技術は、幾何学的構造を維持したままで、人間の第1のモダリティ又は感覚と、第2のモダリティ又は感覚との間での変換を可能にすることを目的とする。
【課題を解決するための手段】
【0009】
例示的な一実装形態によれば、コンピュータにより実施される方法が提供される。この方法は、コンピュータが、受信信号を第1のモダリティに埋め込み、第1のモダリティの埋め込まれた受信信号を第2のモダリティの信号に再埋め込みして、第2のモダリティで出力を生成し、出力に基づいて、知覚されるように構成された第2のモダリティの信号をレンダリングし、埋め込み、再埋め込み、及び生成は、生成された出力から目標分布の実際の例を識別することに関連する敵対的学習の操作を実行すること、及び知覚距離を有する出力を生成することに関連する計量学習の操作を実行することによって、訓練されるモデルを適用する。
【0010】
例示的な実装形態はまた、コンピュータにより、受信信号を第1のモダリティに埋め込みを行うステップと、第1のモダリティの埋め込まれた受信信号を第2のモダリティの信号に再埋め込みして、第2のモダリティで出力を生成するステップと、出力に基づいて、知覚されるように構成された第2のモダリティの信号をレンダリングするステップと、を実行させるためのプログラムであって、埋め込み、再埋め込み、及び生成は、生成された出力から目標分布の実際の例を識別することに関連する敵対的学習の操作を実行すること、及び知覚距離を有する出力を生成することに関連する計量学習の操作を実行することによって、訓練されるモデルを適用する、プログラムを含む。
【0011】
例示的な実装形態はまた、第1のモダリティを有する情報を受け付けるように構成された入力デバイスと、第2のモダリティを有する情報を出力するように構成された出力デバイスと、第1のモダリティを有する情報を取得し、第2のモダリティを有する情報を生成するプロセッサと、を備え、プロセッサは、受信信号を第1のモダリティに埋め込み、第1のモダリティの埋め込まれた受信信号を第2のモダリティの信号に再埋め込みして、第2のモダリティで出力を生成し、出力に基づいて、知覚されるように構成された第2のモダリティの信号をレンダリングし、埋め込み、再埋め込み、及び生成は、生成された出力から目標分布の実際の例を識別することに関連する敵対的学習の操作を実行すること、及び知覚距離を有する出力を生成することに関連する計量学習の操作を実行することによって、訓練されるモデルを適用する、装置を含む。
【0012】
埋め込みは、特徴埋め込みモデルを適用するエンコーダによって実行されるようにしてもよい。再埋め込みは、再埋め込みネットワークによって実行されるようにしてもよい。敵対的学習の実行は、識別機損失を生成するために、生成された出力と出力の実際のバージョンとを識別する識別機ネットワークに生成された出力を提供することを含んでいてもよい。計量学習の実行は、知覚距離の決定に関連する計量損失関数を生成するために、メル周波数ケプストラル(MFC)変換を適用することを含んでいてもよい。第1のモダリティは視覚であり、第2のモダリティは音声であってもよい。
【0013】
入力デバイスはカメラを含み、出力デバイスはスピーカ又はヘッドフォンを含んでいてもよい。入力デバイス及び出力デバイスは、ウェアラブルデバイスに取り付けられていてもよい。ウェアラブルデバイスは眼鏡を含んでいてもよい。プロセッサは、特徴埋め込みモデルを適用するエンコーダによって埋め込みを行い、再埋め込みネットワークによって再埋め込みを行うように構成されていてもよい。第1のモダリティと第2のモダリティとの間のマッピングを学習するために、注釈付きデータを必要としなくてもよい。
【図面の簡単な説明】
【0014】
【
図1】例示的な実装形態を示す図であり、パイプラインを示している。
【
図2】例示的な実装形態に係る試作品を示す図である。
【
図3】例示的な実装形態に係る立体音響レンダリング手法を示す図である。
【
図4】例示的な実装形態に係る補間手法を示す図である。
【
図5】いくつかの例示的な実装形態の例示的なプロセスを示す図である。
【
図6】いくつかの例示的な実装形態での使用に適した例示的なコンピュータ装置を備えた例示的なコンピューティング環境を示す図である。
【
図7】いくつかの例示的な実装形態に適した例示的な環境を示す図である。
【発明を実施するための形態】
【0015】
以下の詳細な説明は、本出願の図面及び例示的な実装形態の詳細を提供する。図面間の重複する要素の参照符号及び説明は、明確化のために省略されている。説明全体にわたって使用される用語は、例示として提供されており、限定を意図するものではない。
【0016】
例示的な実装態様は、視覚(または他のタイプの)信号などの第1のモダリティから高レベルの情報が抽出され、それを音声(acoustically)などの第2のモダリティとして表す、深層学習ベースのシステムを対象とする。目標の音声分布は、十分なサイズの音(例えば、人間の発話)のあらゆる分布に合わせて調整することができる。
【0017】
発話は音として開示されているが、他の音で代用してもよい。これに限定される訳ではないが、例えば、人間の発話音を使用する代わりに、音楽などの別の音を、人間の発話音の代わりに、又は人間の発話音と組み合わせて使用することができる。
【0018】
例示的な実装形態によれば、信号から音声(audio)への変換システムは、特徴埋め込みモデルが(例えば、顔、対象物、感情などを)識別するように教えることができるすべての信号間の学習された幾何学的関係を保持する。その結果、知覚障害のあるユーザが自分の環境をよりよく理解できるように、知覚的に聞こえる高レベルの情報を含む音が生成され得る。例示的な実装形態では、高レベルの画像特徴と音声との間のマッピングを学習するために注釈付きデータを必要とせずにこれを実現することができる。
【0019】
関連技術に関して上記で説明したように、話し言葉(spoken language)を使用して視覚障害のある人に視覚情報を伝達する場合、簡潔さが課題となり得る。例示的な実装態様は、機械学習された特徴の埋め込みを活用して視覚情報を知覚音声領域に変換することに関するシステムと方法を対象としている。埋め込みのユークリッド幾何学は、第1のモダリティと第2のモダリティとの間で保持される。これに限定される訳ではないが、例えば、未変換の特徴ベクトル間の距離は、対応する変換値(例えば、音声信号)間のメルケプストラムベースの音響心理学的距離に等しい(又は強く同等である)。
【0020】
さらに、例示的な実装形態では、高レベルの特徴(例えば、顔、対象物、感情)と音声との間のマッピングを学習するために、注釈付きのデータは必要ない。その代わりに、例示的な実装形態では、以下でさらに詳しく説明するように、敵対的学習を使用して関連付けを学習する。
【0021】
例示的な実装形態によれば、第1のモダリティから第2のモダリティへの特徴ベクトルのトランスモーダル変換が提供される。より具体的には、視覚モダリティから音声モダリティへのトランスモーダル変換が提供される。このトランスモーダル変換は支援デバイスで使用され得る。
【0022】
より具体的には、幾何学的構造を転送することができる。これに限定される訳ではないが、例えば、顔認識の例示的な使用事例では、128次元の球などの多次元の球に埋め込まれた顔の視覚的印象を提供することができる。三重項損失関数が適用され、類似する顔がより近くに表示されたり、及び/又は異なる顔がさらに離れて表示されたりする。次に、上記で説明した埋め込み画像は、例示的な実装形態に従って音声領域に転送され、音声信号に関連付けられる。より具体的には、音(sound)は、人間の直感に相関するように識別されてもよい。さらに、音の間で補間を行ってもよい。より具体的には、第1のモダリティのデータポイントに最もよく一致する2つの音の間にスペースがある場合、特に人間の発話に関しては、適切な音は2つの音の間の補間によって生成され得る。
【0023】
1つの例示的な実装形態によれば、深層学習ベースのフレームワークは、画像又は他の信号から抽出された高レベルの情報(例えば、顔の識別/表情、対象物の位置など)を音声に変換する。この例示的な実装形態は、ユークリッド空間のサブセットに入力を埋め込む任意の特徴埋め込みモデルに基づいて構築され得る(即ち、任意のモデル、f:X→Y、ここで、||f(y1)-f(y2)||2は有意である)。
【0024】
例示的な実装形態によれば、画像から所望の特徴を抽出することができる事前訓練された特徴埋め込みモデルが提供される。このモデルは「ベースモデル」と呼ばれることもある。次に、再埋め込みネットワークで訓練が実行され、ベースモデルの出力が目標の知覚音声領域にマッピングされる。この知覚音声領域は、十分に大きく多様な音のデータセットによって決定され得る。
【0025】
より具体的には、敵対的生成ネットワークを用いた敵対的学習(GAN)手法を使用して、再埋め込みネットワークを訓練する。例えば、GAN手法では、i)出力音が目標のデータセットによって特定された音分布に適合すること、ii)ベースモデルの出力間の距離と、再埋め込みモデルの対応する出力間の距離とが等しいこと、が強制される。例示的な実装形態では、2つの音声信号間の距離は、それらの信号のメル周波数ケプストラル係数(MFCC)の差の2乗を合計することで計算することができる。しかしながら、MFCCのみを知覚距離に使用すると、様々なデメリット(例えば、ノイズの類似性に基づく誤差)が生じるおそれがある。したがって、MFCCの使用は、以下で説明するように組み合わせて使用される。さらに、訓練データには、元のデータセット、別の関連するデータセット、又はベースモデルに関連付けられた出力と同じ形状のランダムに生成された配列が含まれる場合がある。
【0026】
図1は、例示的な実装形態に係るパイプライン100を示す。より具体的には、画像101に関連する信号又は他の入力信号などの入力信号が、エンコーダ103に提供される。例えば、エンコーダ103は、FaceNetであってもよいが、これに限定される訳ではない。エンコーダ103は、入力信号又は入力画像101を、高次元空間からベクトル又はより上位のテンソルに符号化する動作を実行する。より具体的には、エンコーダ103は、これに限定される訳ではないが、特徴埋め込みネットワークなどの特徴埋め込みモデル105を含んでいてもよい。所望により、特徴埋め込みモデル105は、事前に訓練され固定されていてもよく、或いは識別不可能/訓練不可能であってもよい。例示的な実装形態の一例によれば、特徴埋め込みネットワークは、FaceNetのOpenFace実装を採用することができる。しかしながら、本開示の例示的な実装形態はこれに限定されるものではない。
【0027】
エンコーダ103の出力は、再埋め込みネットワーク109を含む再埋め込みブロック107に提供される。再埋め込みブロック107は、エンコーダ103の出力である特徴マップを音声空間に送る。ネットワークによって生成される音のタイプを制御するために、「識別」ネットワークが提供されて、特徴ベクトルを音の目標分布に適合する音に変換する。
【0028】
再埋め込みネットワーク107の出力は、生成された音であり、敵対的学習111と計量学習117とに提供される。敵対的学習111は、識別機113が実際の音と生成された音とを識別する能力を改善し、生成器が識別機113をだます音を生成する能力を改善するために提供される。例示的な実装形態によれば、生成器は、再埋め込みネットワーク107のみを備えてもよく、又はエンコーダ103と再埋め込みネットワーク107との組み合わせを備えていてもよい。
【0029】
より具体的には、出力音を目標分布に適合させるために、識別器ネットワークが使用される。識別器ネットワークは、音が、目標分布から発生したものか、生成器によって合成されたものかを予測するように訓練されている。生成器ネットワーク(即ち、再埋め込みネットワーク)は、次の2つの目標で訓練される。1.識別機をだますこと、2.任意の2つの生成された出力(例えば音)間の距離が、対応する2つの入力間の距離と(スケーリング定数まで)ほぼ等しくなるようにすること。訓練中には、識別器ネットワークは、生成された音の例と、目標分布からの音声である「実際の音声」の例とを受け取る。したがって、符号115で識別器損失が発生する。以下で説明するように、計量学習及び計量損失と共に、例示的なディクテーションによるモデルは、敵対的生成ネットワーク(GAN)である。
【0030】
計量学習117は、出力音が有意の知覚距離を有することを促すために提供される。より具体的には、エンコーダ103が固定されているか、識別不可能であるか、又は重みの更新を許容しない場合には、MFCC変換119に基づく計量損失関数が提供される。MFCC変換119は、画像/信号から音への変換が、事前訓練されたエンコーダ103によって学習されたメトリックを保存することを実行する。より具体的には、計量損失関数は、関係(1)で表される以下に示す関数を含むことができる。
【0031】
【0032】
ここで、Nはバッチサイズ、φはエンコーダ、xiは入力バッチのi番目の画像(又は信号)、yiはi番目の生成された音声出力である。したがって、符号121で計量損失が発生する。
【0033】
それを行うのにコストが法外に高くない場合など特定の条件下では、訓練データが利用可能であり、エンコーダ103は識別可能かつ訓練可能であり、必要に応じて、例示的な実装形態ではエンコーダ103の重みの更新が可能にすることができる。さらに、別の任意選択の例示的な手法として、例示的な実装形態では、システムが最初からエンドツーエンドで訓練されるのを可能にすることができる。したがって、関係(1)の代わりに、適切な距離ベースの損失関数(例えば、三重項損失)が使用される。
【0034】
例示的な実装形態によれば、前述の態様と組み合わせて関連するハードウェアを含むようにプロトタイプを提供することができる。例えば、
図2に示すように、ウェアラブルハードウェアのプロトタイプ200が提供されるが、これに限定される訳ではない。例えば、カメラなどの視覚入力デバイス201が、「オープンイヤー」ヘッドフォン(例えばステレオスピーカ)等の音声出力部が埋め込まれている眼鏡フレームなどの、ウェアラブルデバイス203に取り付けられてもよいが、これに限定される訳ではない。カメラは、深度カメラ(Depth Camera)であってもよく、それは取り付け部品205によって眼鏡に取り付けられる。この例示的な実装形態によれば、ユーザは装置を着用することができ、ユーザが頭を動かすことにより、カメラに画像を撮影させることができ、画像内の1つまたは複数の対象物に関連付けられた出力音を提供することができる。
【0035】
しかしながら、例示的な実装形態はこれに限定される訳ではなく、ユーザの位置又はユーザにより着用された位置に関連付けられ得る画像を受信又は撮影するように構成された他の構造が提供されてもよい(例えば、帽子、時計、衣服、医療機器、携帯電話、又はユーザに配置される又はユーザと一緒に配置される可能性のあるその他の対象物)。さらに、音声出力は、当業者によって理解される、他のスピーカ、ヘッドフォン、または手法によって提供されてもよい。
【0036】
図2の一例示的な実装形態によれば、空間化された音声およびRGBDカメラが使用され、例示的な実装形態によって検出された対象物の位置及び奥行きを伝達する機能をユーザに提供する。より具体的には、対象物及び顔が検出され、切り取られ、パイプライン100を介して送信されて、音が生成され得る。これらの生成された音は、立体音響(spatialized audio)を用いて再生され、それらの識別情報、場所、及び/又は他の特性を、自然であると認識されるやり方で示すことができる。
【0037】
図3は、例示的な実装形態による立体音響(spatial audio)レンダリングシステム300の概要を示す。より具体的には、例示的な実装形態では、音声サンプルが取得され、シーン内のサンプル又は顔の各々に関連付けられたソースノードが生成される。したがって、画像内の対象物の位置は、聴覚シーン内の音源位置までの距離データを使用して変換される。
【0038】
これに限定される訳ではないが、例えば、符号301で、符号303の3次元(3D)顔位置データが受信され、符号305で、生成された音声を含む媒体要素機能に提供される。符号307で、ソースノードが、媒体要素音声機能によって作成される。符号309で、レンダリング機能が回転行列の適用などによって実行され、それに応じて左右の音声チャネル311として生成される。これは次に、符号313でヘッドフォンに出力される。
【0039】
前述の例示的な実装形態を評価することができる。これに限定される訳ではないが、例えば、FaceNetベースのモデルを使用して、予備的なユーザ調査を実行し、1つ又は複数の領域に関して例示的な実装形態を評価することができる。
【0040】
1つの評価手法によれば、計量(metric)との知覚的一致が評価され得る。同じ顔または2つの異なる顔の2つのランダムに選択された画像が与えられると、例示的な実装形態によって出力された2つの対応する音が、人間によってそれぞれ同じであるか異なると認識されるかどうかの判定が行われる。これに限定される訳ではないが、例えば、この評価は、異なる音に関連付けられていると認識されている異なる顔と、同一又は類似の音に関連付けられていると認識されている同一又は類似の顔とに基づく。
【0041】
別の評価された手法によれば、音の想起性(memorability)を評価することができる。ランダムに選択された異なる顔の画像がk個ある場合、ユーザが出力音を効果的に想起できるかどうかを判定することができる。例示的な評価された手法によれば、生成された音と識別情報とのペアリングを記憶するユーザのパフォーマンスは、ランダムに割り当てられた英語名から作成されたコントロールのペアリングに関して比較することができる。これに限定される訳ではないが、例えば、この評価は、音が人に関連付けられていることを覚えているユーザなど、音に関連付けられている意味を思い出すことを簡単に学習できるユーザに関連付けられる。
【0042】
さらに別の評価された手法によれば、質問応答及び意図しない特徴抽出が評価され得る。これに限定される訳ではないが、例えば、眼鏡をかけている顔と眼鏡をかけていない顔とで異なる音を想起できるか、髪の色の音を想起できるかなど、生成された音から簡単なパターンを抽出するユーザの能力をテストすることができる。
【0043】
図4は、第1のモダリティから第2のモダリティへの変換に関連する例示的な実装形態による手法400を示す。ここで、第1のモダリティは視覚であり、第2のモダリティは音である。ここで、「モダリティ」という用語は、視覚、音、温度、圧力などの知覚された情報に関連するモードを意味することができる。例えば、伝達されることが望まれる情報に関して判定がなされなければならない。本開示の例示的な実装形態によれば、顔401などの視覚ベースの情報に関して、上述したエンコーダを使用することができる。
【0044】
エンコーダは、距離ベースの損失で訓練された任意のエンコーダとすることができる。これに限定される訳ではないが、例えば、FaceNetは、類似の顔の画像がエンコーダとして類似のベクトルに(L2距離で)送信されるように、128次元の単位ベクトルとして画像の顔を埋め込むように設計されたネットワークであり、エンコーダとして使用され得る。次に、変換システムは、顔の画像から音へのマッピングを提供し、類似の顔は類似の音にマッピングされ、異なる顔は異なる音にマッピングされる。これに限定される訳ではないが、例えば、目標データセットは、人間の発話から構成され得る。その場合、生成された音も人間の発話に似ているが、必ずしも認識可能な単語やフレーズであるとは限らない。
【0045】
符号403に示すように、顔の画像は高次元の球体に埋め込まれている。距離ベースの損失が小さい顔は類似しているとみなされ、一方、距離ベースの損失が大きい顔は類似性が低いとみなされる。
【0046】
符号405で、音は、音の目標分布に適合するように生成される。データセットは、十分に大きく、音のサンプルに対して変化するように選択されて、ユーザが理解するか、効果的に解釈することを学習することができる音間の直感的な類似性に相関する音声信号を提供する。
【0047】
符号407では、上述したように、計量損失や識別機損失の計算を含む、敵対的学習及び計量学習が実行され、選択された音のサンプルが直感に最も密接に相関することを保証する。
【0048】
上述した例示的な実装形態は、顔に関連付けられた認識可能な音声をユーザに提供する方法で、第1のモダリティから第2のモダリティへの変換を対象としているが、本開示の例示的な実装形態は、本発明の範囲から逸脱することなく、前述の例示的な実装形態を、他のアプリケーションと組み合わせたり、他のアプリケーションで置き換えることができ、これに限定される訳ではない。
【0049】
これに限定される訳ではないが、例えば、例示的な実装形態は、視覚障害のあるユーザが環境をナビゲートするのを支援するなど、ナビゲーション支援に関連するシステムで使用することができる。視覚障害に関わらず、ユーザが環境を効果的にナビゲートできるように、奥行きと障害物に関する音情報を提供することができる。いくつかの例示的な実装形態では、これは、鉄道駅または他の混雑したエリアなどをユーザが歩くことに焦点を合わせることができる。しかしながら、本開示の例示的な実装形態は、これに限定される訳ではなく、視覚障害者が以前は困難または危険であったスポーツ、趣味などの活動に参加することができるなど、他のナビゲーション目的が考慮されてもよい。
【0050】
例示的な実装形態は、視覚障害のあるユーザが見ることができるよう支援することに関連して使用することもできる。さらに、視覚障害のあるなしに関わらず、ユーザは自身の標準範囲外の視覚入力を提供されてもよく、ユーザが背中の後ろを見ることができるなど、その範囲外の情報をユーザに提供できる場合がある。そのような手法は、首や背中の怪我など他の仕方で障害を有していて、頭を回すことができないが、人の往来、運転、又は首や背中をひねるとユーザが環境内で機能を実行できるようになる他の状況で、ナビゲートが可能になることを望むユーザにとっても有用であり得る。
【0051】
同様に、例示的な実装形態は、通常目に見えるもの以外のスペクトル領域で見る能力をユーザに提供することができる。例えば、変換は、第1の視覚領域から第2の視覚領域への変換、即ち、音声領域から視覚領域への変換であってもよいが、これに限定される訳ではない。さらに、本開示の例示的な実装形態は、2つの領域に限定されず、複数の領域(例えば、温度、視覚、圧力など)が関与していてもよい。
【0052】
例示的な実装形態はまた、義肢やロボットアームに関連するフィードバックなどのフィードバックをユーザに提供することができる。例えば、第1の領域における圧力検知情報は、音声フィードバックに変換されて、圧力レベルの適切さをユーザに伝達するための音声出力を提供してもよい。
【0053】
別の例示的な実装形態によれば、音声入力は、視覚などの第2のモダリティに変換される、産業設定における第1のモダリティとして提供されてもよい。これに限定される訳ではないが、例えば、標準範囲内で動作している機器は、通常、ある範囲内の振動を放出している。しかしながら、機器が誤作動やメンテナンス期間に近づくと、機器によって放出される音が変化したり、他の音が機器から放出されたりすることがあるが、これらの音は、視覚では検出できない(例えば、微小亀裂または内部の亀裂)か、費用や出入りの難しさのために簡単にアクセスすることができない。例示的な実装形態では、そのような音を検知すると、第2のモダリティへの変換を実行して、故障しそうな部品に関するメンテナンス情報、またはメンテナンス実施に関するメンテナンス情報を提供することができる。
【0054】
さらに、例示的な実装形態はまた、ビデオ、映画、クローズドキャプションなどにおける、画像キャプション変換を対象にしてもよい。
【0055】
図5は、例示的な実装形態による例示的なプロセス500を示す。例示的なプロセス500は、本明細書で説明するように、1つまたは複数のデバイス上で実行され得る。例示的なプロセスは、学習501と推論503とを含むことができる。
【0056】
学習501において、敵対的学習操作505が実行され得る。上記で説明したように、実際の音と生成された音を識別できる識別機の場合、識別機損失が発生する。符号507で、MFC変換を使用することにより、例えば、上記で説明したような計量損失関数を使用することによって、計量損失が決定される。したがって、出力音声情報は、有意の知覚距離を有する音を生成することができる。
【0057】
モデルが学習501で訓練されると、推論503では、符号509で画像や信号などの情報が第1のモダリティで受け取られる。上記で説明したように、特徴埋め込みモデルを使用することなどにより、エンコーダを使用して埋め込みを実行することができる。
【0058】
符号511で、埋め込まれた第1のモダリティの情報が、第2のモダリティに変換される。本開示の例示的な実装形態では、第1のモダリティは画像または信号であり、第2のモダリティは画像または信号に関連する音である。これに限定される訳ではないが、例えば、再埋め込みネットワークを使用して、画像に対応する音間の距離損失に基づいて、適切な音を決定する操作を実行することができる。
【0059】
符号513で、音声がレンダリングされ得る。これに限定される訳ではないが、例えば、出力は、ヘッドフォン、又は耳や耳の近くに音声出力を有するウェアラブル眼鏡に関連する前述のデバイスに提供され得るし、第2のモダリティでユーザに音声出力を提供することができる。さらに、当業者には理解されるように、推論503と学習(例えば、訓練)501との間で誤差逆伝播法を実行することができる。
【0060】
符号501で適切かつ十分なデータセットで訓練されたモデルの場合、類似の新しい顔は類似の新しい音に変換され、非類似の新しい顔は非類似の新しい音に変換される。これらの音は、依然として目標分布に適合する。
【0061】
さらに、モデルが訓練されると、モデルはすべての可能な顔に関連付けられた音を有し(例えば、「周囲識別技術なし」)、エンコーダによって生成された単位ベクトルが以前に遭遇した単位ベクトルと異なっていても、可能なすべての顔には固有の音が割り当てられ、依然として距離が維持される。
【0062】
例示的な実装形態によれば、顔ごとに指定された音を音声の目標分布に合わせる必要はなく、画像が音声に変換されるときに、依然としてこれらのポイント間の距離が維持されることだけが必要である。その結果、可能性のある顔各々に固有の音が割り当てられる。この手法によれば、訓練中にモデルが受け取る入力がより均一に分散されるため、モデルはソース領域の幾何学的配置を学習するように支援され得る。
【0063】
図6は、いくつかの例示的な実装形態での使用に適した例示的なコンピュータ装置605を備えた例示的なコンピューティング環境600を示している。コンピューティング環境600におけるコンピュータ装置605は、1又は複数の処理ユニット、コア、若しくはプロセッサ610、メモリ615(例えば、RAM、ROM、及び/又は同様のもの)、内部記憶装置620(例えば、磁気、光、固体記憶装置、及び/又は有機)、及び/又はI/Oインターフェース625を含むことができる。これらのいずれも、情報を通信するために通信機構又はバス630に接続されてもよく、又はコンピュータ装置605に内蔵されていてもよい。
【0064】
本開示の例示的な実装形態によれば、神経活動に関連する処理は、中央処理装置(CPU)であるプロセッサ610上で行うことができる。あるいは、本発明の概念から逸脱することなく、他のプロセッサを代わりに使用してもよい。これに限定される訳ではないが、例えば、グラフィックス処理ユニット(GPU)、及び/又はニューラル処理ユニット(NPU)を、前述の例示的な実装の処理を実行するために、CPUの代わりに又はCPUと組み合わせて使用することができる。
【0065】
コンピュータ装置605は、入力/ユーザインターフェース635及び出力装置/インターフェース640に通信可能に接続されていてもよい。入力/ユーザインターフェース635及び出力装置/インターフェース640の一方又は両方は、有線又は無線インターフェースとすることができ、着脱可能とすることができる。入力/ユーザインターフェース635は、入力を提供するために使用され得る、物理的若しくは仮想的な任意の装置、コンポーネント、センサ、又はインターフェース(例えば、ボタン、タッチスクリーンインターフェース、キーボード、ポインティング/カーソル制御、マイク、カメラ、点字、モーションセンサ、光学リーダなど)を含んでいてもよい。
【0066】
出力装置/インターフェース640は、ディスプレイ、テレビ、モニタ、プリンタ、スピーカ、点字などを含んでいてもよい。いくつかの例示的な実装形態において、入力/ユーザインターフェース635及び出力装置/インターフェース640は、コンピュータ装置605に内蔵されていてもよく、又はコンピュータ装置605に物理的に接続されていてもよい。他の例示的な実装形態では、他のコンピュータ装置は、コンピュータ装置605についても入力/ユーザインターフェース635や、出力装置/インターフェース640として機能してもよく、又はそれらの機能を提供してもよい。
【0067】
コンピュータ装置605の例は、これに限定されるものではないが、高度なモバイル装置(例えば、スマートフォン、車両及び他の機械に搭載された装置、人間及び動物によって携行される装置など)、モバイル装置(例えば、タブレット、ノートブック、ラップトップ、パーソナルコンピュータ、ポータブルテレビ、ラジオなど)、及び移動用に設計されていない装置(例えば、デスクトップコンピュータ、他のコンピュータ、情報キオスク、1又は複数のプロセッサが内蔵された及び/又はそれに接続されたテレビ、ラジオなど)を含んでいてもよい。
【0068】
コンピュータ装置605は、同一又は異なる構成の1又は複数のコンピュータ装置を含む、任意の数のネットワークコンポーネント、装置、及びシステムと通信するために、外部記憶装置645及びネットワーク650に(例えば、I/Oインターフェース625を介して)通信可能に接続されていてもよい。コンピュータ装置605又は任意の接続されたコンピュータ装置は、サーバ、クライアント、シンサーバ、汎用マシーン、専用マシーン、又は他のラベルのサービスを提供するように機能してもよく、又はそのように呼ばれてもよい。これに限定される訳ではないが、例えば、ネットワーク650は、ブロックチェーンネットワーク及び/又はクラウドを含んでもよい。
【0069】
I/Oインターフェース625は、これに限定されるものではないが、コンピューティング環境600内の少なくとも全ての接続されたコンポーネント、装置、及びネットワークとの間で情報を通信するために、任意の通信又はI/Oプロトコル又は標準規格(例えば、イーサネット(登録商標)、802.11x、ユニバーサルシステムバス、WiMax、モデム、セルラーネットワークプロトコルなど)を使用する有線及び/又は無線インターフェースを含むことができる。ネットワーク650は、任意のネットワーク又はネットワークの組み合わせ(例えば、インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク、電話ネットワーク、セルラーネットワーク、衛星ネットワークなど)とすることができる。
【0070】
コンピュータ装置605は、一時的媒体及び非一時的媒体を含むコンピュータ使用可能な媒体又はコンピュータ可読媒体を利用して、使用及び/又は通信することができる。一時的媒体は、伝送媒体(例えば、金属ケーブル、光ファイバ)、信号、搬送波などを含む。非一時的媒体は、磁気媒体(例えば、ディスク及びテープ)、光媒体(例えば、CD-ROM、ディジタルビデオディスク、ブルーレイディスク)、固体媒体(例えば、RAM、ROM、フラッシュメモリ、固体記憶装置)、及び他の不揮発性記憶装置又はメモリを含む。
【0071】
コンピュータ装置605は、いくつかの例示的なコンピューティング環境において、技術、方法、アプリケーション、プロセス、又はコンピュータ実行可能命令を実行するために使用されてもよい。コンピュータ実行可能命令は、一時的媒体から取得されてもよく、非一時的媒体に記憶されて非一時的媒体から取得されてもよい。実行可能命令は、プログラミング言語、スクリプト言語、及び機械語(例えば、C、C++、C#、Java(登録商標)、ビジュアルベーシック、パイソン、パール、JavaScript(登録商標)など)のうちの1又は複数から生成されてもよい。
【0072】
プロセッサ610は、ネイティブな環境又は仮想環境において、任意のオペレーティングシステム(OS)(図示しない)の下で動作することができる。論理ユニット660、アプリケーションプログラミングインターフェース(API)ユニット665、入力ユニット670、出力ユニット675、並びに、異なるユニットが互いに通信すると共にOSや他のアプリケーション(図示しない)と通信するためのユニット間通信機構695を含む1又は複数のアプリケーションが展開されてもよい。
【0073】
例えば、符号化ユニット675、再埋め込みユニット680、及び学習ユニット685は、上述した構造に関して上記で示した1又は複数のプロセスを実行することができる。説明されたユニット及び要素は、設計、機能、構成、又は実装において変更される可能性があり、提供された説明には限定されない。
【0074】
いくつかの例示的な実装形態では、情報又は実行命令がAPIユニット660によって取得されると、それは1又は複数の他のユニット(例えば、論理ユニット655、入力ユニット665、符号化ユニット675、再埋め込みユニット680、及び学習ユニット685)に伝達され得る。
【0075】
例えば、符号化ユニット675は、上記で説明したように、シミュレートされたデータ、履歴データ、又は1若しくは複数のセンサから、第1のモダリティの情報を取得して処理することができる。符号化ユニット675の出力は、再埋め込みユニット680に提供され、再埋め込みユニット680は、例えば、上述され且つ
図1~
図7に図示されるような音を生成するために必要な操作を実行する。さらに、学習ユニット685は、符号化ユニット675及び再埋め込みユニット680の出力に基づいて、敵対的学習及び計量学習などの操作を実行することができると共に、計量損失関数を使用して、実際の音と生成された音を識別し、出力音に有意の知覚距離を持たせるようにする操作を実行することができる。
【0076】
いくつかの例では、論理ユニット655は、ユニット間の情報の流れを制御し、上述のいくつかの例示的な実装形態では、APIユニット660、入力ユニット665、符号化ユニット675、再埋め込みユニット680、および学習ユニット685によって提供されるサービスを指示するように構成することができる。例えば、1又は複数のプロセス又は実装の流れは、論理ユニット655のみによって、又はAPIユニット660と併せて制御され得る。
【0077】
図7は、いくつかの例示的な実装形態に適した例示的な環境を示す。環境700は、装置705~745を含み、それぞれは、例えば、ネットワーク760を介して(例えば、有線接続及び/又は無線接続によって)少なくとも1つの他の装置に通信可能に接続されている。いくつかの装置は、1又は複数の記憶装置730及び記憶装置745に通信可能に接続されていてもよい。
【0078】
1又は複数の装置705~745の例は、それぞれ
図6に記載されているコンピュータ装置605であってもよい。装置705~745は、これに限定される訳ではないが、上述したようにモニタ及び関連するウェブカメラを有するコンピュータ装置705(例えば、ラップトップコンピュータ装置)、モバイル装置710(例えば、スマートフォンまたはタブレット)、テレビ715、車両720に関連する装置、サーバーコンピュータ725、コンピュータ装置735~740、記憶装置730、745を含んでもよい。
【0079】
いくつかの実装形態では、装置705~720は、ユーザに関連付けられたユーザ装置とみなすことができ、ユーザは、前述の例示的な実装形態の入力として使用される検知された入力をリモートで取得することができる。本開示の例示的な実装形態では、これらのユーザ装置705~720のうちの1又は複数は、ユーザの身体に(例えば、眼鏡上に)あるカメラやユーザに音声出力を提供することに関連するスピーカなどの1又は複数のセンサに関連付けることができ、上記で説明したように、本開示の例示的な実装形態の必要に応じて情報を検知することができる。
【0080】
本開示の例示的な実装形態は、関連技術の手法と比較して、様々な利益及び利点を有することができる。これに限定される訳ではないが、例えば、関連技術の手法は、画像内の情報の伝達をピクセル単位で使用することができるが、本開示の例示的な実装形態は、ピクセル情報を符号化又は保存せずに、代わりに、学習された特徴埋め込みによって抽出された高レベルの情報を符号化又は保存する。その結果、特徴空間の幾何学的構造を知覚音声領域にマッピングすることで、情報を幅広い領域から知覚的に意味のある音声に変換することができる。
【0081】
さらに、本開示の例示的な実装形態は、出力音声信号の分布を調整する機能を提供することができる。その結果、ユーザは、変換がどのような音に聞こえるかを思いのままに制御することができる。これに限定される訳ではないが、例えば、音声出力は、オーディオ出力は、ユーザの好みの話し言葉の音素を使用するように条件付けられてもよい。さらに、例示的な実装形態に関する区別としても、関連技術の手法は、顔情報や立体音響フィードバックを提供しない。
【0082】
本明細書で説明する例示的な実装形態は、関連技術の視覚障害者のための音声支援装置が、立体音響を含むことができるが、関連技術の手法は、人間の顔情報、顔の表情、感情的な反応、身体の動きの質又は相互作用を提供しない点で、関連技術とはさらに区別することができる。
【0083】
いくつかの例示的な実装形態が示され、説明されているが、これらの例示的な実装形態は、本明細書に記載される主題を当業者に伝えるために提供される。本明細書に記載された主題は、記載された例示的な実装形態に限定されることなく、様々な形態で実施されてもよいことを理解されたい。本明細書に記載された主題は、具体的に定義若しくは記載された事項を使用して、又は記載されていない他の若しくは異なる要素若しくは事項を使用して実施できる。当業者は、添付の特許請求の範囲及びその均等物で定義された本明細書に記載された主題から逸脱することなく、これらの例示的な実装形態に対して変更を行うことができることを理解するであろう。
【0084】
本開示の特定の非限定的な実施形態の態様は、上記で考察された特徴及び/又は上述されていない他の特徴に対処する。しかしながら、非限定的な実施形態の態様は、上述の特徴に対処する必要はなく、本開示の非限定的な実施形態の態様が上述の特徴に対処しなくてもよい。