(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-02-19
(45)【発行日】2024-02-28
(54)【発明の名称】非テキスト入力による感覚媒体間の関連付けを学習するためのシステム、プログラム及び方法
(51)【国際特許分類】
G06N 3/0455 20230101AFI20240220BHJP
G06N 3/063 20230101ALI20240220BHJP
【FI】
G06N3/0455
G06N3/063
(21)【出願番号】P 2020031669
(22)【出願日】2020-02-27
【審査請求日】2023-01-20
(32)【優先日】2019-03-14
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】000005496
【氏名又は名称】富士フイルムビジネスイノベーション株式会社
(74)【代理人】
【識別番号】110001519
【氏名又は名称】弁理士法人太陽国際特許事務所
(72)【発明者】
【氏名】チョン リュウ
(72)【発明者】
【氏名】ユアン レイ
(72)【発明者】
【氏名】フー ハオ
(72)【発明者】
【氏名】ザング ヤンシャ
(72)【発明者】
【氏名】チェン インイン
(72)【発明者】
【氏名】フランシーン チェン
【審査官】青木 重徳
(56)【参考文献】
【文献】特表2018-526711(JP,A)
【文献】特開2017-041206(JP,A)
【文献】国際公開第2018/213841(WO,A1)
【文献】米国特許出願公開第2018/0144746(US,A1)
【文献】米国特許出願公開第2019/0005976(US,A1)
【文献】Jiquan Ngiam et al.,Multimodal Deep Learning,ICML'11: Proceedings of the 28th Internatinal Conference on Machine Learning,米国,2011年06月28日
【文献】Qiong Liu et al.,Sensory Media Association through Reciprocation Training ,2019 IEEE International Symposium on Multimedia (ISM),米国,IEEE,2019年12月09日,pp. 108-111
(58)【調査した分野】(Int.Cl.,DB名)
G06N 3/045
G06N 3/063
IEEE Xplore
THE ACM DIGITAL LIBRARY
(57)【特許請求の範囲】
【請求項1】
感覚媒体間の関連付けを学習するためにコンピュータによって実施される方法であって、
第1タイプの非テキスト入力と第2タイプの非テキスト入力とを受信し、
第1畳み込みニューラルネットワークを有する第1オートエンコーダを使用して前記第1タイプの非テキスト入力を符号化して復号するとともに、第2畳み込みニューラルネットワークを有する第2オートエンコーダを使用して前記第2タイプの非テキスト入力を符号化して復号し、
第1モダリティに関連した第1オートエンコーダ表現と第2モダリティに関連した第2オートエンコーダ表現との間の対応付けを学習する深層ニューラルネットワークによって、前記第1オートエンコーダ表現と前記第2オートエンコーダ表現とのブリッジングを行い、
前記符号化と前記復号と前記ブリッジングとに基づき、前記第1タイプの非テキスト入力あるいは前記第2タイプの非テキスト入力に基づいた、第1タイプの非テキスト出力及び第2タイプの非テキスト出力を、前記第1モダリティ及び前記第2モダリティのいずれか一方において生成すること、
を含む、コンピュータによって実施される方法。
【請求項2】
前記第1タイプの非テキスト入力が音声であり、前記第2タイプの非テキスト入力が画像である、請求項1に記載のコンピュータによって実施される方法。
【請求項3】
前記音声はマイクロホンによって検出され、前記画像はカメラによって検出される、請求項2に記載のコンピュータによって実施される方法。
【請求項4】
前記第1タイプの非テキスト入力は、音声、画像、温度、接触、及び放射線のうちの1つであり、
前記第2タイプの非テキスト入力は、音声、画像、温度、接触、及び放射線のうちの他の1つである、請求項1に記載のコンピュータによって実施される方法。
【請求項5】
前記第1タイプの非テキスト入力及び前記第2タイプの非テキスト入力が、訓練のために自律的なロボットに対して提供される、請求項1に記載のコンピュータによって実施される方法。
【請求項6】
テキストラベルが使用されず、
前記受信、前記符号化、前記復号、前記ブリッジング、及び前記生成は、言語非依存である、請求項1に記載のコンピュータによって実施される方法。
【請求項7】
第3タイプの非テキスト入力を受信し、
第3畳み込みニューラルネットワークを有する第3オートエンコーダを使用して、前記第3タイプの非テキスト入力を符号化し、
前記第3オートエンコーダが、第3モダリティに関連した第3タイプの表現と、第1タイプの表現及び第2タイプの表現と、の間の対応付けを学習する前記深層ニューラルネットワークによって、前記第1オートエンコーダ及び前記第2オートエンコーダに対してブリッジングされ、
前記第1オートエンコーダ、前記第2オートエンコーダ、前記第1畳み込みニューラルネットワーク、及び前記第2畳み込みニューラルネットワークの再訓練を必要とすることなく、第3タイプの非テキスト出力を生成する
ことをさらに含む、請求項1に記載のコンピュータによって実施される方法。
【請求項8】
第1タイプの非テキスト入力と第2タイプの非テキスト入力とを受信し、
第1畳み込みニューラルネットワークを有する第1オートエンコーダを使用して前記第1タイプの非テキスト入力を符号化して復号するとともに、第2畳み込みニューラルネットワークを有する第2オートエンコーダを使用して前記第2タイプの非テキスト入力を符号化して復号し、
第1モダリティに関連した第1オートエンコーダ表現と第2モダリティに関連した第2オートエンコーダ表現との間の対応付けを学習する深層ニューラルネットワークによって、前記第1オートエンコーダ表現と前記第2オートエンコーダ表現とのブリッジングを行い、
前記符号化と前記復号と前記ブリッジングとに基づき、前記第1タイプの非テキスト入力あるいは前記第2タイプの非テキスト入力に基づいた、第1タイプの非テキスト出力及び第2タイプの非テキスト出力を、前記第1モダリティ及び前記第2モダリティのいずれか一方において生成すること、
を含む方法をコンピュータに実行させる、プログラム。
【請求項9】
前記第1タイプの非テキスト入力は音声であり、前記第2タイプの非テキスト入力は画像である、請求項8に記載のプログラム。
【請求項10】
前記音声はマイクロホンによって検出され、前記画像は、カメラによって検出される、請求項9に記載のプログラム。
【請求項11】
前記第1タイプの非テキスト入力は、音声、画像、温度、接触、及び放射線のうちの1つであり、
前記第2タイプの非テキスト入力は、音声、画像、温度、接触、及び放射線のうちの他の1つである、請求項8にプログラム。
【請求項12】
前記第1タイプの非テキスト入力及び前記第2タイプの非テキスト入力は、訓練のために自律的なロボットに対して提供される、請求項8に記載のプログラム。
【請求項13】
テキストラベルが使用とされず、
前記受信、前記符号化、前記復号、前記ブリッジング、及び前記生成は、言語非依存である、請求項8に記載のプログラム。
【請求項14】
前記方法が、
第3タイプの非テキスト入力を受信し、
第3畳み込みニューラルネットワークを有する第3オートエンコーダを使用して、前記第3タイプの非テキスト入力を符号化し、
前記第3オートエンコーダが、第3モダリティに関連した第3タイプの表現と、第1タイプの表現及び第2タイプの表現と、の間の対応付けを学習する前記深層ニューラルネットワークによって、前記第1オートエンコーダ及び前記第2オートエンコーダに対してブリッジングされ、
前記第1オートエンコーダ、前記第2オートエンコーダ、前記第1畳み込みニューラルネットワーク、及び前記第2畳み込みニューラルネットワークの再訓練を必要とすることなく、第3タイプの非テキスト出力を生成する
ことをさらに含む、請求項8に記載のプログラム。
【請求項15】
感覚媒体間の関連付けを学習するためにコンピュータによって実施されるシステムであって、
第1タイプの非テキスト入力を受信する第1タイプのセンサ、及び、第2タイプの非テキスト入力を受信する第2タイプのセンサと、
前記第1タイプの非テキスト入力及び前記第2タイプの非テキスト入力を受信し、第1畳み込みニューラルネットワークを有する第1オートエンコーダを使用して前記第1タイプの非テキスト入力を符号化して復号し、第2畳み込みニューラルネットワークを有する第2オートエンコーダを使用して前記第2タイプの非テキスト入力を符号化して復号し、第1モダリティに関連した第1オートエンコーダ表現と第2モダリティに関連した第2オートエンコーダ表現との間の対応付けを学習する深層ニューラルネットワークによって、前記第1オートエンコーダ表現と前記第2オートエンコーダ表現とのブリッジングを行う、プロセッサと、
前記符号化と前記復号と前記ブリッジングとに基づき、前記第1タイプの非テキスト入力あるいは前記第2タイプの非テキスト入力に基づいた、第1タイプの非テキスト出力及び第2タイプの非テキスト出力を、前記第1モダリティ及び前記第2モダリティのいずれか一方において生成する出力装置と、
を含む、コンピュータによって実施されるシステム。
【請求項16】
前記第1タイプのセンサはマイクロホンであり、前記第2タイプのセンサはカメラである、請求項15に記載のコンピュータによって実施されるシステム。
【請求項17】
前記第1タイプの非テキスト入力は、音声、画像、温度、接触、及び放射線のうちの1つであり、
前記第2タイプの非テキスト入力は、音声、画像、温度、接触、及び放射線のうちの他の1つである、請求項15に記載のコンピュータによって実施されるシステム。
【請求項18】
前記第1タイプの非テキスト入力及び前記第2タイプの非テキスト入力は、訓練のために自律的なロボットに対して提供される、請求項15に記載のコンピュータによって実施されるシステム。
【請求項19】
テキストラベルが使用されず、
前記受信、前記符号化、前記復号、前記ブリッジング、及び前記生成は、言語非依存である、請求項15に記載のコンピュータによって実施されるシステム。
【請求項20】
前記プロセッサがさらに、
第3タイプの非テキスト入力を受信し、
第3畳み込みニューラルネットワークを有する第3オートエンコーダを使用して、前記第3タイプの非テキスト入力を符号化し、
前記第3オートエンコーダが、第3モダリティに関連した第3タイプの表現と、第1タイプの表現及び第2タイプの表現と、の間の対応付けを学習する前記深層ニューラルネットワークによって、前記第1オートエンコーダ及び前記第2オートエンコーダに対してブリッジングされ、
前記第1オートエンコーダ、前記第2オートエンコーダ、前記第1畳み込みニューラルネットワーク、及び前記第2畳み込みニューラルネットワークの再訓練を必要とすることなく、第3タイプの非テキスト出力を生成する、
請求項15に記載のコンピュータによって実施されるシステム。
【発明の詳細な説明】
【技術分野】
【0001】
例示的な実施形態の態様は、非テキスト入力による感覚媒体(例えば、音声及び画像の少なくとも一方)間の関連付けを学習することに関連した方法、プログラム、システム、及びユーザ経験に関する。
【背景技術】
【0002】
関連技術の深層学習技法においては、テキストラベルが付された大量のデータを必要とする。テキストラベルデータは、モデルを訓練するためにラベル付け実行者によって生成される。関連技術においては、テキストラベル付けを実行するためのコストが、現実世界の多くの状況下において、深層学習技法の使用を制限している。
【0003】
例えば、数百万個の画像ラベルを使用してカスタマイズされた製品画像データセットを生成する関連技術の深層学習技法を使用することは、時には、そのような作業を実行できないほどに単調でコスト高である。さらに、関連技術の深層学習技法において必要とされているように、適切なテキストラベルを有した映像のために、画像の詳細な説明を生成することもまた、ラベル付け実行者が記録の確認及び入力などの作業のために膨大な時間とリソースを費やすという点において、多大なコストを必要とすることとなる。
【0004】
したがって、関連技術の深層学習技法においては、テキストラベル付けに関連した関連技術におけるコストや欠点を受けることなく、リアルタイムでデータを収集し、データセットを生成するという、未解決の要望が存在している。
【先行技術文献】
【特許文献】
【0005】
【非特許文献】
【0006】
【文献】"See What I Mean - a speech to image communication tool" Vimeo video: https://vimeo.com/75581546; 2014年公開, 2019年3月14日検索
【文献】TORFI, A. "Lip Reading - Cross Audio-Visual Recognition using 3D Convolutional Neural Networks - Official Project Page" GitHub; https://github.com/astorfi/lip-reading-deepleaning; 2019年3月14日検索
【文献】CHAUDHURY, S. et al., "Conditional generation of multi-modal data using constrained embedding space mapping" ICML 2017 Workshop on Implicit Models; 2017年
【文献】VUKOTIC, V. et al. "Bidirectional Joint Representation Learning with Symmetrical Deep Neural Networks for Multimodal and Crossmodal Applications" ICMR, 2016年6月, 米国ニューヨーク
【文献】KIROS, R. "neural-storyteller" GitHub; https://github.com/ryankiros/neural-storyteller, 2019年3月14日検索
【文献】SHEN, T. et al. "Style Transfer from Non-Parallel Text by Cross-Alignment" 31st Conference on Neural Information Processing Systems (NIPS 2017), 12 pages; 米国カリフォルニア州ロングビーチ
【文献】VAN DEN OORD, A. et al. "WaveNet: A Generative Model for Raw Audio" 2016年9月19日
【文献】"Microsoft Azure Speaker Verification" https://azure.microsoft.com/en-us/services/cognitive-services/speaker-recognition/; 2019年3月14日検索
【文献】"Speaker Recognition API" https://docs.microsoft.com/en-us/azure/cognitive-services/speaker-recognition/home; 2019年3月14日検索
【発明の概要】
【発明が解決しようとする課題】
【0007】
本発明は、非テキスト入力による感覚媒体(例えば、音声、画像等)間の関連付けを学習することができるシステム、プログラム、及び方法を提供することを課題とする。
【0008】
例示的な実施形態によれば、感覚媒体間の関連付けを学習するためにコンピュータによって実施される方法は、第1タイプの非テキスト入力と第2タイプの非テキスト入力とを受信し、第1畳み込みニューラルネットワークを有する第1オートエンコーダを使用して第1タイプの非テキスト入力を符号化及び復号するとともに、第2畳み込みニューラルネットワークを有する第2オートエンコーダを使用して第2タイプの非テキスト入力を符号化及び復号し、第1モダリティ(様式)に関連する第1オートエンコーダ表現と第2モダリティ(様相)に関連する第2オートエンコーダ表現との間の対応付けを学習する深層ニューラルネットワークによって、第1オートエンコーダ表現と第2オートエンコーダ表現とのブリッジング(橋渡し)を行い、符号化と復号とブリッジングとに基づき、第1タイプの非テキスト入力又は第2タイプの非テキスト入力に基づいた、第1タイプの非テキスト出力及び第2タイプの非テキスト出力を、第1モダリティと第2モダリティとのいずれか一方において生成すること、を含む。
【0009】
さらなる態様によれば、第1タイプの非テキスト入力は音声であり、第2タイプの非テキスト入力は画像である。他の態様によれば、音声はマイクロホンによって検出され、画像はカメラによって検出される。
【0010】
さらに他の態様によれば、第1タイプの非テキスト入力は、音声と、画像と、温度と、接触と、放射と、のうちの1つであり、第2タイプの非テキスト入力は、音声、画像、温度、接触、放射線、のうちの他の1つであり。
【0011】
さらに他の態様によれば、第1タイプの非テキスト入力及び第2タイプの非テキスト入力は、訓練のために自律的なロボットに対して提供される。
【0012】
追加的な態様によれば、テキストラベルは使用されず、受信と符号化と復号とブリッジングと生成とは、言語非依存である。
【0013】
さらに他の態様によれば、第3タイプの非テキスト入力が受信され、第3畳み込みニューラルネットワークを有する第3オートエンコーダを使用して、第3タイプの非テキスト入力が符号化され、第3オートエンコーダは、第3モダリティに関連する第3タイプの表現と、第1タイプの表現及び第2タイプの表現と、の間の対応付けを学習する深層ニューラルネットワークによって、第1オートエンコーダ及び第2オートエンコーダに対してブリッジングされ、第1オートエンコーダと第2オートエンコーダと第1畳み込みニューラルネットワークと第2畳み込みニューラルネットワークとの再訓練を必要とすることなく、第3タイプの非テキスト出力が生成される。
【0014】
例示的な別の実施形態によれば、プログラムが提供され、当該プログラムは、第1タイプの非テキスト入力と第2タイプの非テキスト入力とを受信し、第1畳み込みニューラルネットワークを有する第1オートエンコーダを使用して前記第1タイプの非テキスト入力を符号化して復号するとともに、第2畳み込みニューラルネットワークを有する第2オートエンコーダを使用して前記第2タイプの非テキスト入力を符号化して復号し、第1モダリティに関連した第1オートエンコーダ表現と第2モダリティに関連した第2オートエンコーダ表現との間の対応付けを学習する深層ニューラルネットワークによって、前記第1オートエンコーダ表現と前記第2オートエンコーダ表現とのブリッジングを行い、前記符号化と前記復号と前記ブリッジングとに基づき、前記第1タイプの非テキスト入力あるいは前記第2タイプの非テキスト入力に基づいた、第1タイプの非テキスト出力及び第2タイプの非テキスト出力を、前記第1モダリティ及び前記第2モダリティのいずれか一方において生成すること、を含む方法をコンピュータに実行させる。
【0015】
前記第1タイプの非テキスト入力は音声であってよく、前記第2タイプの非テキスト入力は画像であってもよい。
【0016】
前記音声はマイクロホンによって検出されてもよく、前記画像は、カメラによって検出されてもよい。
【0017】
前記第1タイプの非テキスト入力は、音声、画像、温度、接触、及び放射線のうちの1つであってよく、前記第2タイプの非テキスト入力は、音声、画像、温度、接触、及び放射線のうちの他の1つであってよい。
【0018】
前記第1タイプの非テキスト入力及び前記第2タイプの非テキスト入力は、訓練のために自律的なロボットに対して提供されてもよい。
【0019】
テキストラベルが使用とされず、前記受信、前記符号化、前記復号、前記ブリッジング、及び前記生成は、言語非依存であってもよい。
【0020】
前記方法は、第3タイプの非テキスト入力を受信し、第3畳み込みニューラルネットワークを有する第3オートエンコーダを使用して、前記第3タイプの非テキスト入力を符号化し、前記第3オートエンコーダが、第3モダリティに関連した第3タイプの表現と、第1タイプの表現及び第2タイプの表現と、の間の対応付けを学習する前記深層ニューラルネットワークによって、前記第1オートエンコーダ及び前記第2オートエンコーダに対してブリッジングされ、前記第1オートエンコーダ、前記第2オートエンコーダ、前記第1畳み込みニューラルネットワーク、及び前記第2畳み込みニューラルネットワークの再訓練を必要とすることなく、第3タイプの非テキスト出力を生成する
ことをさらに含んでもよい。
【0021】
例示的なまた別の実施形態によれば、感覚媒体間の関連付けを学習するためにコンピュータによって実施されるシステムが提供され、当該システムは、第1タイプの非テキスト入力を受信する第1タイプのセンサ、及び、第2タイプの非テキスト入力を受信する第2タイプのセンサと、前記第1タイプの非テキスト入力及び前記第2タイプの非テキスト入力を受信し、第1畳み込みニューラルネットワークを有する第1オートエンコーダを使用して前記第1タイプの非テキスト入力を符号化して復号し、第2畳み込みニューラルネットワークを有する第2オートエンコーダを使用して前記第2タイプの非テキスト入力を符号化して復号し、第1モダリティに関連した第1オートエンコーダ表現と第2モダリティに関連した第2オートエンコーダ表現との間の対応付けを学習する深層ニューラルネットワークによって、前記第1オートエンコーダ表現と前記第2オートエンコーダ表現とのブリッジングを行う、プロセッサと、前記符号化と前記復号と前記ブリッジングとに基づき、前記第1タイプの非テキスト入力あるいは前記第2タイプの非テキスト入力に基づいた、第1タイプの非テキスト出力及び第2タイプの非テキスト出力を、前記第1モダリティ及び前記第2モダリティのいずれか一方において生成する出力装置と、を含む。
【0022】
前記第1タイプのセンサはマイクロホンであってよく、前記第2タイプのセンサはカメラであってよい。
【0023】
前記第1タイプの非テキスト入力は、音声、画像、温度、接触、及び放射線のうちの1つであってよく、前記第2タイプの非テキスト入力は、音声、画像、温度、接触、及び放射線のうちの他の1つであってよい。
【0024】
前記第1タイプの非テキスト入力及び前記第2タイプの非テキスト入力は、訓練のために自律的なロボットに対して提供されてもよい。
【0025】
テキストラベルが使用されず、前記受信、前記符号化、前記復号、前記ブリッジング、及び前記生成は、言語非依存であってよい。
【0026】
前記プロセッサがさらに、第3タイプの非テキスト入力を受信し、第3畳み込みニューラルネットワークを有する第3オートエンコーダを使用して、前記第3タイプの非テキスト入力を符号化し、前記第3オートエンコーダが、第3モダリティに関連した第3タイプの表現と、第1タイプの表現及び第2タイプの表現と、の間の対応付けを学習する前記深層ニューラルネットワークによって、前記第1オートエンコーダ及び前記第2オートエンコーダに対してブリッジングされ、前記第1オートエンコーダ、前記第2オートエンコーダ、前記第1畳み込みニューラルネットワーク、及び前記第2畳み込みニューラルネットワークの再訓練を必要とすることなく、第3タイプの非テキスト出力を生成してもよい。
【0027】
特許又は出願書類には、少なくとも1つのカラー図面が含まれている。カラー図面を含む本特許又は特許出願の公報の写しは、請求及び必要な手数料の支払いにより特許庁より提供される。
【図面の簡単な説明】
【0028】
【
図1】システム及び方法の例示的な実施形態を示す。
【
図9】例示的な実施形態による例示的なプロセスを示す。
【
図10】いくつかの例示的な実施形態における使用に適した例示的なコンピュータ装置を備えた例示的な演算環境を示す。
【
図11】いくつかの例示的な実施形態に適した例示的な環境を示す。
【
図12】ロボットへの適用に関連した例示的な実施形態を示す。
【発明を実施するための形態】
【0029】
以下の詳細な説明は、本出願の図面及び例示的な実施形態に関するさらなる詳細を提供する。図面にわたって重複する構成要素に関する参照符号及び説明は、簡略化のために省略されている。明細書全体にわたって使用されている用語は、例として提供されているものであって、限定を意図したものではない。
【0030】
関連技術においては、非テキスト入力による感覚媒体の機械学習のための深層学習技法操作を可能とするツールが必要とされているという、未解決の要望が存在している。上述したように、関連技術のアプローチは、テキストラベルデータを得るためにコストを含み、このことが、データを要求する多数の機械学習作業にとっての障害となる。他方、人間は、テキストラベルがなくても、媒体間の関連付けを学習することができる(例えば、子供は、一般的に知られた数字を知らなくても、対象物に名前を付ける方法を学習することができる、あるいは、被験者は、英数字の観点から、その人が知らない言語で対象物に名前を付ける方法を学習することができる)。
【0031】
例示的な実施形態の態様は、スピーチ(音声)と視覚とのモダリティ交差的な(cross-modality)関連付けに関するものである。関連技術のアプローチは、スピーチと視覚データとを連結するためのブリッジ(橋渡し)としてテキストを使用し得るが、例示的な実施形態は、キーボードを使用しないなどの非テキスト的な態様で、感覚媒体を使用した機械学習に関するものである。
【0032】
キーボードによるラベル付けなどのテキストを除去することにより、様々な効果及び利点を奏することができる。例えば、これに限定されないが、機械学習技法を、より自然な態様で人の振る舞いをより正確に真似た態様で行うことができるとともに、予定やコストなどのキーボードによるラベル付けにおける関連技術の制限によって、制限を受けることがない。その結果、機械学習作業にとっての不十分な訓練データという関連技術の問題点も、軽減することができる。その上、訓練データの新たな領域を利用可能なものとすることができる。
【0033】
さらに、例示的な実施形態によれば、テキストラベル付け及びこれによる複雑さに関連するコストが不要であることにより、通常の利用者がより容易に、関連技術のシステムにおいては現在利用できない方法でシステムを訓練することができる。例えば、これに限定されないが、例示的な実施形態は、視力又は聴力に障がいがある個人への支援に有益であり、視覚障がい者に対しては、視覚的な入力を音声出力として提供し得るとともに、聴覚障がい者に対しては、音声入力を視覚的な出力として提供することができる。
【0034】
例示的な実施形態によれば、複数の深層畳み込みオートエンコーダが設けられる。より具体的には、一つの深層畳み込みオートエンコーダが、第1非テキスト領域(例えば、スピーチ表現の学習)のために設けられ、他の深層畳み込みオートエンコーダは、第2非テキスト領域(例えば、画像表現の学習)のために設けられる。これらにより、隠れた特性を抽出することができる。これらオートエンコーダの潜在空間は、スピーチ及び画像のそれぞれコンパクトな埋め込みを示す。これにより、2つのオートエンコーダの潜在空間同士がブリッジングされるように2つの深層ネットワークが訓練され、スピーチ対画像と画像対スピーチとの双方に関して、強固な対応付け(マッピング)が生成される。従って、音声を、ユーザが視覚化し得る画像へと変換することができる。このような対応付けにより、画像入力は、対応するスピーチ出力を生成(activate)することができる、あるいは逆に、スピーチ入力は、対応する画像出力を生成(activate)することができる。
【0035】
本発明の概念に関連した例示的な実施形態は、様々な状況下で使用することができる。例えば、これに限定されないが、システムは、障がいを有する個人を支援するために使用することができる。さらに、大量の低コスト訓練データを利用可能として、自律的なロボットの訓練を実行し、機械学習アルゴリズム及びシステムを生成することができる。さらに、機械学習システムは、コストや予定などのテキストラベルに関連した関連技術の問題点及び欠点によって制限されることなく、使用することができる。
【0036】
本例示的な実施形態においては、機械には、カメラ及びマイクロホンなどのセンサを設けられてもよく、センサは、人が同じ情報を感知する方法と同様に、連続的な態様で、リアルタイムデータを収集することができる。温度検出に関連した温度計、接触を検出するためのものであって圧力マップの作製に関連した感圧アレイ、放射センサ、あるいは、検出されるパラメータ情報に関連した他のセンサなどの、他のセンサを設けてもよい。収集されたリアルタイムデータは、この例示的な実施形態におけるエンコーダ/デコーダ構造によって使用される。例えば、検出装置は、通常の日常活動から、また、既存の映像から、使用可能なデータを得てもよい。関連技術のアプローチの場合のようにテキストラベル付け実行者がそのようなデータにラベルを付けるという関連技術の制限が無いことにより、例示的な実施形態は、環境の情報を連続的に検出して観測し得るとともに、その環境から学習を行うことができる。
【0037】
図1は、構造100の例示的な実施形態を示している。より具体的には、マイクロホンやカメラなどの装置から受信できる情報である、音声入力101及び画像入力103が提供されている。例示的な実施形態は、音声表現及び画像表現を学習するために、音声モジュール及び画像モジュールの各々に関して使用される、エンコーダ/デコーダ構造を含む。符号化プロセス109を通して、音声出力105が生成され、また、符号化プロセス111を通して、画像出力107が生成される。音声モジュールは、訓練用の入力及び出力として音声信号を使用しているので、深層ネットワークを訓練するためにテキストラベルは不要である。同様に、画像モジュールは、ネットワークの入力及び出力として画像を使用しているので、同様にテキストラベルは不要である。
【0038】
エンコーダ及びデコーダからなる各対の間の表現とともに、1つのニューラルネットワークが音声表現113を画像表現115に対応付けるために使用され、別のニューラルネットワークが、画像表現119を音声表現117に対応付けるために使用される。上記の構成を有してパラメータを学習するこの例示的な実施形態によれば、音声入力が、音声出力と同様に画像出力も生成することができる。逆に、画像入力は、画像出力と同様に音声出力も生成することができる。
【0039】
より具体的には、例示的な実施形態によれば、各々のモダリティ(様相)(
図1においては2つのモダリティが図示されているが、例示的な実施形態は、2つのモダリティに限定されるものではなく、本明細書において説明するように、追加的なモダリティを提供してもよい)について、オートエンコーダは、この例ではそれぞれ音声及び映像モダリティである入力101及び103を受信するエンコーダ部分121、123を含んでいる。エンコーダ部分121、123の複数の層が入力情報に対して適用された後に、第1モダリティの表現が125で示すようにして生成され、第2モダリティの表現が127で示すようにして生成される。
【0040】
第1モダリティの表現125及び第2モダリティの表現127は、その後、深層ニューラルネットワークに対して提供され、第1モダリティ表現113から第2モダリティ表現115への対応付け、あるいは第2モダリティ表現119から第1モダリティ表現117への対応付けなどの、モダリティ交差的ブリッジングが実行される。表現の送出及び受信は、表現125、127から延びる破線によって示されている。
【0041】
さらに、デコーダ部分129、131が設けられており、これにより、上述したモダリティ交差的ブリッジングの結果を含む第1モダリティ表現125及び第2モダリティ表現127を復号することができる。デコーダ部分129、131の複数の層が、第1モダリティ表現125及び第2モダリティ表現127に対して適用されると、それぞれ出力105、107が生成される。
【0042】
上記の例示的な実施形態は、異なる入力-出力の組合せに対して使用することができる。例えば、これに限定されないが、上記の構造が音声入力と学習した音声出力との間のペアリングに関する情報を有していない場合には、例示的な実施形態は、入力信号を、音声モジュールの入力及び出力の双方に対して供給してもよく、オートエンコーダによる学習手順を使用して表現を学習してもよい。音声入力と既存の音声出力との間のペアリング情報が既知である場合には、例示的な実施形態は、オートエンコーダによって、音声入力と既存の音声出力とを関連付けるために学習してもよい。音声出力と画像出力との双方が利用可能である場合には、例示的な実施形態は、訓練のために、双方の出力と音声入力とを使用してもよい。逆に、例示的な実施形態を使用したものと同様のアプローチを、同様の方法で、画像モジュールの訓練のために適用することもできる。
【0043】
例示的な実施形態は、画像クリップと音声クリップとの間の関係性を学習する。より具体的には、音声クリップと画像クリップとの間のペアリング情報は、例示的な実施形態に関連したシステムに対して提示される。例示的な実施形態によるペアリングは、ある人が他の人に対して対象物の名付け教示する際のペアリングと類似している。従って、例示的な実施形態は、より自然な学習アプローチを有した機械学習を提供する。
図1に示すネットワーク内の対応するパラメータは、機械に対する教師によって提供されたペアリング情報を使用して訓練される。
【0044】
より具体的には、ある例示的な実施形態によれば、画像学習モジュール及び音声学習モジュールの双方に関して、敵対的畳み込みオートエンコーダが使用され、これにより、低レベル特性の演算コストが節約されるとともに、訓練パラメータの数を低減させるために、音声入力は2次元のMFCC表現へと変換されて、畳み込みオートエンコーダへと供給される。この変換は、画像学習モジュールに非常に類似した音声学習モジュールをもたらす。オートエンコーダは、エンコーダ及びデコーダのそれぞれについて7つの層を含んでいる。しかしながら、本発明の例示的な実施形態はこれに限定されるものではなく、本発明の範囲を逸脱することなく、7つの層を他の層数に置き換えてもよい。
【0045】
例示的な実施形態によれば、3×3の畳み込みフィルタが使用され、各畳み込み層でデータが処理される。オートエンコーダは入力の忠実性を失うことなく音声入力を圧縮する。一例によれば、音声入力は、16,384のサンプルを有してもよく、オートエンコーダの中間層は、232の次元を有してもよい。入力のこの32次元の表現を使用して、例示的な実施形態はデコーダによって、可聴歪みを発生させることなく、同様の音声を再構成することができる。
【0046】
画像に関しては、28×28の手書き画像が、784次元のベクトルへと再成形されて、画像オートエンコーダへと供給される。画像オートエンコーダは、5つの完全に連結された層を有しており、入力を32次元の画像表現へと低減することができる。32次元の画像表現を使用することにより、訓練済みのデコーダによって入力画像を再構成することができる。
【0047】
図2は、スペクトログラム及び画像200を示しており、これらは、隠れノードが使用されている場合には、潜在空間内のグリッド上に位置する様々な隠れノード値に対応している。これらの図はデータクラスタリング及び潜在空間を示している。201においては、音声学習モジュールの出力が、様々な隠れノード値に対応したスペクトログラムの形態で提供されている。203においては、画像学習モジュールの出力画像が、様々な隠れノード値に対応するものとして、提供されている。情報の損失及び出力上における大きな歪みを引き起こし得るものの、2つのノードの潜在空間が可視化のために提供されている。そのような欠点及び問題点を回避するために、また、音声エンコーダからの出力の歪みを小さなものに抑えるために、例示的な実施形態は、音声学習モジュール及び画像学習モジュールの双方に関して32ビットノードを使用している。
【0048】
32ノードの音声表現層と32ノードの画像表現層との間の対応付けを学習するために、各層あたりに512ノードを有する5層の完全に連結された2つのネットワークが使用され、音声から画像への対応付け、及び、画像から音声への対応付けをそれぞれ学習することができる。
【0049】
上記の例示的な実施形態は、以下の例示的な例において、データに対して適用された。60,000個の訓練用画像と10,000個のテスト画像とを有するMNIST手書きデジタルデータセットと、3人の話者と1500個の録音(1人の話者あたりにつき、各数字に50個)とを有するFSDD(free spoken dataset)からの英語で話されたデジタルデータセットとが、ネットワークパラメータをチューニングするための訓練データとして使用された。
【0050】
図3は、音声入力スペクトログラム301、307と、対応する音声学習モジュールスペクトログラム出力303、309と、音声入力を使用して画像デコーダによって得られた対応する出力画像305、311と、の例300を示している。異なる話者からの音声を学習システムに対して供給すると、画像出力は、数字出力においてわずかの変動を有している。
【0051】
図4の400に示すように、典型的な手書き画像、及び、スピーチによって生成された画像は、ここで示すように、それぞれ画像入力401及び画像出力403として提供され、出力画像は入力画像と比較して、より認識可能なものとすることができる。このことは、
図4に示す数字6、7、8に関して特に明らかである。
【0052】
加えて、512ノードの潜在空間オートエンコーダは、画像から音声への対応付けを学習するために、敵対的なネットワークを使用して、画像対画像モジュール及び音声対音声モジュールの双方に関してテストされた。
【0053】
図5の500に示すように、画像学習モジュールの入力501と、画像学習モジュールの出力503と、入力画像501によって生成された対応する音声スペクトログラム出力505と、が示されている。
図5に示す画像は、画像対画像モジュールが、潜在空間の拡張により、入力画像に対してより類似した画像を出力できることを示している。
【0054】
図6は、入力601とオートエンコーダ出力603とスピーチ出力605とを含むCOIL-100(Columbia Object Image Library)データセットの結果600を示している。このデータセットの画像は比較的大きいことから、入力画像を表現するために、畳み込みオートエンコーダを使用して512個の次元特性が抽出される。
【0055】
さらに、Abstract Sceneのデータセットを使用して、10,000個の128×128画像についてスピーチ情報が生成された。上記の学習アーキテクチャを使用して、画像表現層及び音声表現層はそれぞれ、1024ノードへとスケールアップされた。同様に、音声対画像対応付けネットワーク及び画像対音声対応付けネットワークは、データの複雑さの増大に対処するために、512個から2048個へと増大された。
【0056】
この例の結果が、
図7の700に示されている。より具体的には、
図7の第1列は、グラウンドトゥルース(地上検証データ)701を示しており、第2列は、音声により生成された画像703を示している。
【0057】
図8は、画像を使用して生成された3つのスピーチセグメント801、803、805のMFCC(メル周波数ケプストラム係数)800を示している。立会人に画像によって生成されたスピーチセグメントを聞くよう求めることにより、スピーチセグメントが容易に理解可能なものであるかどうかに判断された。
【0058】
訓練品質を向上させるために、例示的な実施形態は、トークンとしてIDを有するトレーナを使用してもよい。画像を示した後にスピーチを生成するというモードに関しては、トークンは、ランダムな話者でもよく、あるいは特定の話者であってもよい。他方、スピーチをした後に画像を生成するというモードに関しては、例示的な実施形態が1つ又は複数の以下のオプションに基づいて動作し得るよう、結果は話者に非依存であるべきである。
【0059】
ある例示的な実施形態によれば、互いに別個のエンコーダ・デコーダモデルを、2つのケースについて訓練してもよい。言い換えれば、一方のエンコーダ・デコーダモデルは話者非依存、すなわち、スピーチ対画像に関するものとしてもよく、他方のエンコーダ・デコーダモデルはトークンを使用し、画像対スピーチに関するものとしてもよい。
【0060】
他の例示的な実施形態によれば、トークンを使用し、すべての話者についてトークンセットIDを有する組合せモデルを使用してもよい。この組合せモデルは、各発話について2度訓練を行う。これに代えて、大量のデータが存在する場合には、発話は、話者トークン、あるいは、「全話者(everyone)」トークンのいずれかに対して、ランダムに割り当てられてもよい。
【0061】
さらに他の例示的な実施形態によれば、話者IDを使用してもよい。しかしながら、この例示的な実施形態によれば、システムが注意を払う話者は、話者IDを有している話者に限定され得る。このアプローチは、ある種の状況においては、例えば、空港で職員が個人を写真と照合するよう試みるような状況において有用であり、方言センサ及び個人に関連する話者IDが存在する場合、より厳密で迅速な判断をすることができる。このアプローチを使用すれば、音声モジュールのクラスタ化を、より容易かつ明瞭な態様で行うことができる。
【0062】
ここで説明した例示的な実施形態は、様々な実施及び応用されることができる。上述したように、例示的な実施形態の態様を使用することにより、身体障がいを有した人々、とりわけ、微細な運動スキルを要するキーボード又はマウスからのタイピングや情報入力を行うことがなく、視覚的な出力又は音声出力を提供できる人々を支援し得るシステムを構築することができる。さらに、例示的な実施形態はまた、人間と同様の方法で音声環境及び視覚的環境に関して学習する必要があり、それによってその環境内において安全にかつ効率的に実行し得る自律的なロボットの訓練などの分野においても有用であり得る。さらに、例示的な実施形態は、大量の低コスト訓練データを必要とする機械学習アルゴリズム及び/又はシステム、さらには、スケジュールやコストなどのテキストラベル付けに関する制限によって限定されることを意図していない機械学習システムを対象とすることができる。
【0063】
ある例示的な実施形態によれば、聴力に障がいを有する人が周囲の人との会話の対象を判断することを支援したり、あるいは、視覚障がい者に対してスピーチを使用して環境の物理的な周囲状況を告げるために、言語非依存の装置を訓練することができる。
【0064】
本発明の例示的な実施形態においては、テキストが使用されないことにより、訓練システムもまた言語非依存であり、国、文化、及び言語をまたがって使用することができる。例示的な実施形態が、共通のネットワークに対して接続された複数のセンサを含み得ることにより、同じ領域内で同じ言語を話すユーザ同士は、共通の方法でシステムを訓練し得る。
【0065】
自律的なロボット訓練に関連する他の例示的な実施形態によれば、例示的なアプローチは共有された潜在空間、あるいは、機能制限された潜在空間において有利である。より具体的には、例示的な実施形態によれば、潜在空間間の結合を解除することにより、ユーザは、新たなモダリティが先に学習したモダリティに影響を及ぼすことなく、後から機械内により多くのモダリティを追加することができる。むしろ、例示的な実施形態によれば、新たなモダリティは自ら学習して、先のモダリティに対するより多くの結合を徐々に構築していく。
【0066】
例えば、これに限定されないが、自律的なロボットは当初から、カメラなどの視覚的態様に関するセンサと、マイクロホンなどの音声的態様に関する他のセンサと、を有している。しかしながら、ユーザは、温度、接触、放射線、あるいは環境内で感じられ得る他のパラメータなどの他のモダリティに関する追加的なセンサを追加することを要望するかもしれない。そのような新たなモダリティは、従来技術ではなし得なかった手法でもって、既存のモダリティ(例えば、視覚及び音声モダリティ)に影響を及ぼすことなく、例示的な実施形態に対して追加されることができる。さらに、ロボットは、深海や宇宙空間などの人間の動作が困難な環境に関連する学習を可能としてもよい。
【0067】
接触モダリティに関連するある例示的な実施形態によれば、ロボットに対して、瓶又はコップなどの対象物を把持する方法を教えてもよい。ロボットは、接触に関連する自身の訓練データに基づいて学習することにより、対象物をより小さな力で掴むかあるいはより大きな力で掴むかを判断することができる。テキストラベル付けという概念が存在しないことにより、ロボットは自身の出力を検出された入力として使用してもよく、あるいは予め準備された人間の訓練データから学習してもよい。
【0068】
図9は、例示的な実施形態における例示的なプロセス900を示している。この例示的なプロセス900は、ここで説明するように、1つ又は複数の装置を使用して実行されてもよい。
【0069】
901において、様々なタイプの非テキスト入力が、検出装置から受信される。例えば、これに限定されないが、音声入力が、あるタイプの非テキスト入力としてマイクロホンから受信されてもよく、画像入力が、他のタイプの非テキスト入力としてカメラから受信されてもよい。例示的な実施形態は、上記の2つのタイプの非テキスト入力に限定されるものではなく、温度、接触、放射線、映像、あるいは検出可能な他の入力などの他の非テキスト入力を、例示的な実施形態に含んでもよい。
【0070】
903において、入力を受信した各タイプの非テキスト入力に対し、自動的な符号化及び復号が実行される。この自動的な符号化及び復号は、例えば畳み込みニューラルネットワークを使用して実行してもよい。これにより、マイクロホンから受信された音声入力を一つのオートエンコーダによって符号化することができ、カメラから受信された画像入力を他のオートエンコーダによって符号化することができる。それぞれのタイプの非テキスト入力表現の各々を学習する深層畳み込みオートエンコーダを使用することにより、出力を生成することができる。
【0071】
905において、深層ネットワークを使用して、903において使用された2つの深層畳み込みオートエンコーダの潜在空間同士のブリッジングが行われる。より具体的には、第1モダリティ表現と第2モダリティ表現との間の対応付けを学習する深層ニューラルネットワークが使用され、第1タイプのオートエンコーダ表現と第2タイプのオートエンコーダ表現との間の潜在空間のブリッジングが行われる。例えば、これに限定されないが、深層ネットワークは、音声タイプの入力と画像タイプの出力との間において相互変換を行い得るように、あるいはその逆を行い得るように構成されている。音声出力と画像出力との双方が利用可能である場合には、例示的な実施形態は訓練のために、音声入力に対して音声出力及び画像出力の双方を使用することができる。同様のアプローチを、画像入力が利用可能である場合には画像入力に対して行うことができる。ペアリング情報が利用可能でない場合には、オートエンコーダの訓練は履歴データを使用して行うことができる。
【0072】
907において、符号化、復号、及びブリッジングに基づき、第1モダリティ又は第2モダリティのいずれかである非テキスト入力に対して、第1タイプの非テキスト出力及び第2タイプの非テキスト出力を含む適切な出力が、各タイプの非テキスト入力について生成される。例えば、音声学習モジュールの出力スペクトログラム、あるいは、様々な隠れノード値に対応した出力画像が、出力として提供されてもよい。入力及び出力の例は、上述の図面に図示されているとともに、例示的な実施形態に関する説明において記述されている。
【0073】
図10は、いくつか例示的な実施形態における使用に適した例示的なコンピュータ装置1005を備えた例示的な演算環境1000を示している。演算環境1000内のコンピュータ装置1005は、1つ又は複数の処理ユニット、コア、又はプロセッサ1010、メモリ1015(例えば、RAM、ROM、等)、内部記憶装置1020(例えば、磁気記憶装置、光学記憶装置、固体素子記憶装置、及び有機記憶装置の少なくとも一つ)、及び、I/Oインターフェース1025の少なくとも一つを含むことができる。これらのうちの任意の構成要素は、情報通信のために通信機構すなわちバス1030上で接続されるか、コンピュータ装置1005内に埋め込まれることができる。
【0074】
コンピュータ装置1005は、入力/インターフェース1035及び出力装置/インターフェース1040に通信可能に接続されることができる。入力/インターフェース1035及び出力装置/インターフェース1040のいずれか一方あるいは双方は、有線又は無線インターフェースであってよく、着脱可能であってもよい。入力/インターフェース1035は、入力を提供するために使用し得る任意の装置、構成要素、センサ、インターフェース、物理的又は仮想的なこれらのものを含むことができる(例えば、ボタン、タッチスクリーンインターフェース、キーボード、ポインティング/カーソルコントロール、マイクロホン、カメラ、点字、モーションセンサ、光学的読取器等)。
【0075】
出力装置/インターフェース1040は、ディスプレイ、テレビ、モニタ、プリンタ、スピーカ、点字、等を含むことができる。いくつかの例示的な実施形態においては、入力/インターフェース1035(例えば、ユーザインターフェース)及び出力装置/インターフェース1040は、コンピュータ装置1005に埋め込まれるか、物理的に接続されることができる。他の例示的な実施形態においては、他の演算装置が、コンピュータ装置1005のための入力/インターフェース1035及び出力装置/インターフェース1040として機能してもよく、あるいは、これらの機能を提供してもよい。
【0076】
コンピュータ装置1005の例は、これらに限定されないが、高移動性装置(例えば、スマートフォン、車両又は他の機械内の装置、人及び動物等によって携行される装置)、携帯装置(例えば、タブレット、ノートブック、ラップトップ、パーソナルコンピュータ、ポータブルテレビ、ラジオ等)、及び、携帯用に構成されていない装置(例えば、デスクトップコンピュータ、サーバ装置、他のコンピュータ、インフォメーションセンターの情報端末、内部に1つ又は複数のプロセッサが埋め込まれるか接続されたテレビ、ラジオ等)を含むことができる。
【0077】
コンピュータ装置1005は、外部記憶装置1045及びネットワーク1050に通信可能に(例えばI/Oインターフェース1025を介して)接続されることができ、これにより、同じ構成のあるいは他の構成の1つ又は複数の演算装置を含む任意の数のネットワーク化された構成要素や装置やシステムに対しての通信することができる。コンピュータ装置1005、あるいは接続された任意の演算装置は、サーバ、クライアント、シンサーバ(thin server)、汎用機、特定用途の機械、又は他のラベルとして機能するか、参照されることができる。例えば、これに限定されないが、ネットワーク1050は、ブロックチェーンネットワーク及びクラウドの少なくとも一つを含んでもよい。
【0078】
I/Oインターフェース1025は、これらに限定されないが、演算環境1000内の少なくともすべての接続された構成要素、装置、ネットワークに対して、及びこれらからの情報通信のために、任意の通信又はI/Oプロトコルあるいは規格(例えば、イーサネット(登録商標)、802.11xs、ユニバーサルシステムバス、WiMAX、モデム、携帯電話ネットワークプロトコル等)を使用した、無線及び有線の少なくとも一方であるインターフェースを含むことができる。ネットワーク1050は、任意のネットワーク又はそれらの組合せであってよい(例えば、インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク、電話ネットワーク、携帯電話ネットワーク、人工衛星ネットワーク等)。
【0079】
コンピュータ装置1005は、一過性及び持続性の媒体を含むコンピュータ使用可能又はコンピュータ可読の媒体を使用するか、あるいは、これ使用して通信を行うことができる。一過性の媒体は、伝送媒体(例えば、金属ケーブル、光ファイバ)、信号、搬送波等を含む。持続性の媒体は、磁性媒体(例えば、ディスク、テープ)、光媒体(例えば、CD-ROM、デジタルビデオディスク、ブルーレイディスク)、固体素子媒体(例えば、RAM、ROM、フラッシュメモリ、固体素子記憶装置)、及び、他の不揮発性の記憶装置又はメモリを含む。
【0080】
コンピュータ装置1005を使用することにより、いくつかの例示的な演算環境内における技術や方法や応用やプロセスやコンピュータ実行可能な命令を実施することができる。コンピュータ実行可能な命令は、一過性の媒体から取得され、持続性媒体に格納して持続性媒体から取得されることができる。コンピュータ実行可能な命令は、1つ又は複数の任意のプログラムやスクリプトや機械言語(例えば、C、C++、C#、Java(登録商標)、ビジュアルベーシック(登録商標)、Python、Perl、JavaScript(登録商標)、等)から生じさせることができる。
【0081】
1つ又は複数のプロセッサ1010は、ネイティブ又は仮想環境下において、任意のオペレーティングシステム(OS)(図示せず)のもとで実行することができる。論理ユニット1055、アプリケーションプログラミングインターフェース(API)ユニット1060、入力ユニット1065、出力ユニット1070、非テキスト入力ユニット1075、非テキスト出力ユニット1080、エンコーダ/デコーダ及び媒体交差的ニューラルネットワークユニット1085、及び、様々なユニットが互いに、あるいはOSに対して、あるいは他のアプリケーション(図示せず)に対して通信するためのユニット相互通信機構1095、を含む、1つ又は複数のアプリケーションを配置することができる。
【0082】
例えば、非テキスト入力ユニット1075、非テキスト出力ユニット1080、及びエンコーダ/デコーダ及び媒体交差的ニューラルネットワークユニット1085は、上述した構造に対して、上述した1つ又は複数のプロセスを実施することができる。説明したユニット及び構成要素は、設計、機能、構成、又は実施に関して変更することができるとともに、提供された説明に限定されるものではない。
【0083】
いくつかの例示的な実施形態においては、情報あるいは実行命令がAPIユニット1060によって受信されると、1つ又は複数の他のユニット(例えば、論理ユニット1055、入力ユニット1065、非テキスト入力ユニット1075、非テキスト出力ユニット1080、及び、エンコーダ/デコーダ及び媒体交差的ニューラルネットワークユニット1085)に伝達され得る。
【0084】
例えば、非テキスト入力ユニット1075は、画像及び音声などの入力を受信して処理することができ、エンコーダ/デコーダ及び媒体交差的ニューラルネットワークユニット1085による処理を介して(例えば、上記の特に
図2及び
図5を参照して説明した態様を使用して)、非テキスト出力ユニット1080において画像出力あるいは音声出力を生成することができる。
【0085】
いくつかの例においては、論理ユニット1055は、ユニット間の情報フローを制御し、上述したいくつかの例示的な実施形態においては、APIユニット1060、入力ユニット1065、非テキスト入力ユニット1075、非テキスト出力ユニット1080、及び、エンコーダ/デコーダ及び媒体交差的ニューラルネットワークユニット1085によって提供されるサービスを管理するように構成してもよい。例えば、1つ又は複数のプロセス又は実施のフローは、論理ユニット1055のみによって、あるいは、論理ユニット1055とAPIユニット1060との協働によって制御されてもよい。
【0086】
図11は、いくつかの例示的な実施形態に適した例示的な環境を示している。環境1100は、装置1105~1145を含んでいる。これら装置の各々は、例えばネットワーク1160(例えば、有線接続又は無線接続)を介して、少なくとも1つの他の装置に対して通信可能に接続されている。いくつかの装置は、1つ又は複数の記憶装置1130、1145に対して通信可能に接続されてもよい。
【0087】
1つ又は複数の装置1105~1145の例はそれぞれ、
図10において説明したコンピュータ装置1005であってよい。装置1105~1145は、これらに限定されないが、モニタ及びウェブカメラを有する上述のコンピュータ1105(例えば、ラップトップ型のコンピュータ装置)、携帯デバイス1110(例えば、スマートフォンあるいはタブレット)、テレビ1115、車両に関連した装置1120、サーバコンピュータ1125、コンピュータ装置1135~1140、記憶装置1130、1145、を含むことができる。
【0088】
いくつかの実施形態においては、装置1105~1120は、企業のユーザに関連したユーザ装置と見なすことができる。装置1125~1145は、サービスプロバイダに関連した装置(例えば、様々な図面を参照して上述したサービスを提供するために、及び、ウェブページ、テキスト、テキストセグメント、画像、画像セグメント、音声、音声セグメント、映像、映像セグメント、及び、それらに関する情報のうちの少なくとも一つのデータを格納するために、外部ホストによって使用されている装置)であってもよい。
【0089】
図12は、ロボットへの適用に関連する例示的な実施形態を示している。より具体的には、1200にロボットが示されている。このロボットは、直接的接続又は無線通信により接続され、ロボットに対しての入力を提供するセンサ1201を含んでもよい。1つ又は複数のモダリティの各々に関連する複数のセンサを設けてもよい。実行可能なコンピュータ命令などの、この例示的な実施形態に関連した命令情報と、センサ1201から受信したデータと、を含む記憶装置1203が設けられている。マイクロプロセッサあるいはCPUなどのプロセッサ1205が設けられ、このプロセッサ1205は、ロボットから遠隔又はロボット内に配置される記憶装置1203から命令及びデータを受信する。センサ1201もまた、遠隔から又はロボット内から、プロセッサ1205に対して直接的にデータを提供し得ることに注意されたい。
【0090】
プロセッサ1205は、上記の例示的な実施形態において説明した様々な操作を実行し、出力コマンド及び出力データを生成する。出力コマンド及び出力データは、例えば、1つ又は複数のモダリティで情報を出力するプレーヤ1207に対して提供されてもよく、動作を実行するモータなどの装置1209に対して提供されてもよい。
図12の図示は、ネットワークを介しての通信を示しているが、図示されている構成要素間は、本発明の範囲を逸脱することなく、例えばロボット1200の内部回路を使用した接続のように、互いに直接的に接続されてもよい。
【0091】
上記の例示的な実施形態は、従来技術と比較して、様々な利点及び効果を有することができる。例えば、これに限定されないが、機械学習に対する関連技術のアプローチは、単一のモダリティ内における形式の転送を探求するものであり、感覚媒体を交差した関連付けに関しては、傍流としてテキストラベルを使用するに過ぎなかった。例示的な実施形態は、進歩という利点を有しているとともに、カメラ及びマイクロホンなどのIOTタイプのセンサの進歩を活用し幅広く適用することで、テキストラベルを必要とすることなく、視聴覚という感覚データを関連付けするための新規な手法を提供することができる。
【0092】
さらに、関連技術においては、スピーチをテキストへと変換するアプローチ、及びテキストを使用して画像を検索するアプローチがある。しかしながら、スピーチをテキストへと変換するには、予め定められたスピーチ認識エンジンが必要とされるが、上記の例示的な実施形態においては、機械学習に際して事前準備されたスピーチエンジンは不要である。事前準備されたスピーチエンジンを必要とする関連技術のアプローチは、また、感覚データから直接的に機械学習を実行することにも困難性を引き起こす。
【0093】
加えて、画像及びスピーチに関して共通の潜在空間を使用する関連技術のアプローチとは対照的に、例示的な実施形態は、2つの埋め込みの間の対応付けを使用することに関するものである。より具体的には、関連技術のように共通の潜在空間を使用する場合、システムは単一の共有された潜在空間を、それぞれ個別の潜在空間へと置き換える必要があるため、多様体次元を実質的に増大させてしまい、さらに、2つの別個の空間を互いに近接させるために目的関数を導入させてしまう。この関連技術のアプローチはまた、異なるモダリティ間の干渉を引き起こし得る。本発明による例示的な実施形態を使用することにより、各モダリティの非連結状態での学習に関する学習構造を含み、非線形のモダリティリンクを別個に生成するので、例示的な実施形態において2つのモダリティ間の非線形関係の学習を続ける間、関連技術におけるモダリティ間の干渉に関連する問題点及び欠点が回避される。
【0094】
加えて、例示的な実施形態は、テキストなどの1つのモダリティからのみのデータを含む関連技術のアプローチと比較して、画像及び音声などの異なる2つのモダリティの間のブリッジングを構築する点において相違している。よって、例示的な実施形態は、関連技術の手法では解決することができなかった、2つのモダリティ間に非対称な次元及び構造を有するデータに対して対処することができる。さらに、ニューラルネットワークアプローチに代えて参照表(ルックアップテーブル)を使用することは、関連技術における参照表と比較して選択肢とはならない。なぜなら、上述したCNNベースのオートエンコーダを使用した例示的な実施形態と同様の機能を参照表により得ることは、参照表に関する空間的及び記憶装置の制限のために、即ち、試みたとしてもメモリ空間が不足してしまうために達成できないからである。
【0095】
いくつかの例示的な実施形態が図示され説明されたが、これらの例示的な実施形態は、本明細書に記載される主題をこの技術分野に精通した人々に伝達するために提供される。本明細書に記載された主題は、記載された例示的な実施形態に限定されることなく、様々な態様でもって実施され得ることが理解されよう。本明細書に記載された主題は、詳細に定義されたあるいは説明された態様を用いることなく、また、他の構成要素や異なる構成要素を使用して、また、説明されていない態様でもって、実施することができる。当業者であれば、添付の特許請求の範囲及びその均等物において規定された本明細書に記載された主題から逸脱することなく、これらの例示的な実施形態に対して変更を行い得ることが理解されるだろう。