(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-12-26
(54)【発明の名称】効率的な時系列順序分類のための半教師ありフレームワーク
(51)【国際特許分類】
G06N 20/00 20190101AFI20241219BHJP
【FI】
G06N20/00 130
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024535678
(86)(22)【出願日】2023-01-11
(85)【翻訳文提出日】2024-06-14
(86)【国際出願番号】 US2023010543
(87)【国際公開番号】W WO2023154161
(87)【国際公開日】2023-08-17
(32)【優先日】2022-02-09
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2023-01-10
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】504080663
【氏名又は名称】エヌイーシー ラボラトリーズ アメリカ インク
【氏名又は名称原語表記】NEC Laboratories America, Inc.
(74)【代理人】
【識別番号】100123788
【氏名又は名称】宮崎 昭夫
(74)【代理人】
【識別番号】100127454
【氏名又は名称】緒方 雅昭
(72)【発明者】
【氏名】トン、 リアン
(72)【発明者】
【氏名】溝口 毅彦
(72)【発明者】
【氏名】チェン、 ジェンジャン
(72)【発明者】
【氏名】チェン、 ウェイ
(72)【発明者】
【氏名】チェン、 ハイフォン
(72)【発明者】
【氏名】アハド、 ナウマン
(57)【要約】
コンピュータに実装された順序予測法が提供される。この方法には、時系列データを時間符号器で符号化し、潜在空間表現を得ることが含まれる。この方法は、半教師あり学習を用いて時間符号器を最適化して、ラベル付けされたデータを用いてラベル付けされた空間内の異なるクラスを区別し、ラベル付けされていない訓練データを用いて潜在空間表現を補強し、半教師あり表現を得ることを含む。この方法はさらに、時間符号器の後の線形層を破棄し、時間符号器を修正することを含む。この方法はまた、半教師あり表現の上でk-1個のバイナリ分類器を訓練して、k-1個のバイナリ予測値を得ることを含む。この方法はさらに、k-1個のバイナリ予測値の矛盾するものを、k-1個のバイナリ予測値の矛盾しないものとマッチングさせることによって特定し、訂正することを含む。この方法はさらに、k-1個のバイナリ予測値を集約して順序予測を得ることを含む。
【選択図】
図1
【特許請求の範囲】
【請求項1】
順序予測のための、コンピュータに実装された方法であって、
時系列データを時間符号器で符号化し、潜在空間表現を得ることと、
半教師あり学習を用いて前記時間符号器を最適化して、ラベル付けされたデータを用いてラベル付けされた空間において異なるクラスを区別し、ラベル付けされていない訓練データを用いて前記潜在空間表現を補強し、半教師あり表現を得ることと、
前記時間符号器の後の線形層を破棄し、前記時間符号器を修正することと、
前記半教師あり表現の上でk-1個のバイナリ分類器を訓練して、k-1個のバイナリ予測値を得ることと、
前記k-1個のバイナリ予測値の矛盾するものを、前記k-1個のバイナリ予測値の矛盾しないものとマッチングさせることによって特定し、訂正することと、
前記k-1個のバイナリ予測値を集約して順序予測を得ることとを含む、コンピュータに実装された方法。
【請求項2】
前記時間符号器は、x次元を超える高次元空間からy次元を下回る低次元空間へ前記時系列データを符号化するLSTM(Long Short-Term Memory)からなり、xおよびyは整数であり、x>yである、請求項1に記載のコンピュータに実装された方法。
【請求項3】
前記線形層は、前記潜在空間表現に対する分類器である、請求項1に記載のコンピュータに実装された方法。
【請求項4】
前記時間符号器と前記線形層とは共に訓練可能である、請求項1に記載のコンピュータに実装された方法。
【請求項5】
形式的な損失を用いて前記k-1個の分類器を訓練することをさらに含む、請求項1に記載のコンピュータに実装された方法。
【請求項6】
前記形式的な損失は、ソフトマックスクロスエントロピー損失およびバイナリクロスエントロピー損失からなるグループから選択される、請求項1に記載のコンピュータに実装された方法。
【請求項7】
前記特定するステップは、その中に予期しないゼロを有する1の数列とその中に予期しない1を有するゼロの数列とを検索する、請求項1に記載のコンピュータに実装された方法。
【請求項8】
前記訂正するステップは、前記1の数列と前記ゼロの数列とのそれぞれから予期しないゼロと予期しない1とを取り除く、請求項7に記載のコンピュータに実装された方法。
【請求項9】
差し迫った衝突を予測する順序予測に応答して、衝突回避のために車両システムを自動的に制御することをさらに含む、請求項1に記載のコンピュータに実装された方法。
【請求項10】
順序予測のためのコンピュータプログラム製品であって、該コンピュータプログラム製品は、その中に具現化されたプログラム命令を有する非一過性のコンピュータ可読記憶媒体を含み、コンピュータによって実行可能である前記プログラム命令は、前記コンピュータに、
前記コンピュータのハードウェアプロセッサにより、時系列データを時間符号器で符号化し、潜在空間表現を得ることと、
前記ハードウェアプロセッサにより、半教師あり学習を用いて前記時間符号器を最適化して、ラベル付けされたデータを用いてラベル付けされた空間において異なるクラスを区別し、ラベル付けされていない訓練データを用いて前記潜在空間表現を補強し、半教師あり表現を得ることと、
前記ハードウェアプロセッサにより、前記時間符号器の後の線形層を破棄し、前記時間符号器を修正することと、
前記ハードウェアプロセッサにより、前記半教師あり表現の上でk-1個のバイナリ分類器を訓練して、k-1個のバイナリ予測値を得ることと、
前記ハードウェアプロセッサにより、前記k-1個のバイナリ予測値の矛盾するものを、前記k-1個のバイナリ予測値の矛盾しないものとマッチングさせることによって特定し、訂正することと、
前記ハードウェアプロセッサにより、前記k-1個のバイナリ予測値を集約して順序予測を得ることとを含む方法を実行させるコンピュータプログラム製品。
【請求項11】
前記時間符号器は、x次元を超える高次元空間からy次元を下回る低次元空間へ前記時系列データを符号化するLSTM(Long Short-Term Memory)からなり、xおよびyは整数であり、x>yである、請求項10に記載のコンピュータプログラム製品。
【請求項12】
前記線形層は、前記潜在空間表現に対する分類器である、請求項10に記載のコンピュータプログラム製品。
【請求項13】
前記時間符号器と前記線形層とは共に訓練可能である、請求項10に記載のコンピュータプログラム製品。
【請求項14】
前記方法は、形式的な損失を用いて前記k-1個の分類器を訓練することをさらに含む、請求項10に記載のコンピュータプログラム製品。
【請求項15】
前記形式的な損失は、ソフトマックスクロスエントロピー損失およびバイナリクロスエントロピー損失からなるグループから選択される、請求項10に記載のコンピュータプログラム製品。
【請求項16】
前記特定するステップは、その中に予期しないゼロを有する1の数列とその中に予期しない1を有するゼロの数列とを検索する、請求項10に記載のコンピュータプログラム製品。
【請求項17】
前記訂正するステップは、前記1の数列と前記ゼロの数列とのそれぞれから予期しないゼロと予期しない1とを取り除く、請求項16に記載のコンピュータプログラム製品。
【請求項18】
前記方法は、差し迫った衝突を予測する順序予測に応答して、衝突回避のために車両システムを自動的に制御することをさらに含む、請求項10に記載のコンピュータプログラム製品。
【請求項19】
順序予測のためのコンピュータ処理システムであって、
プログラムコードを格納するメモリ装置と、
前記メモリ装置に動作可能に結合されたプロセッサ装置とを有し、前記プロセッサ装置は、
時系列データを時間符号器で符号化し、潜在空間表現を得て、
半教師あり学習を用いて前記時間符号器を最適化して、ラベル付けされたデータを用いてラベル付けされた空間において異なるクラスを区別し、ラベル付けされていない訓練データを用いて前記潜在空間表現を補強し、半教師あり表現を得て、
前記時間符号器の後の線形層を破棄し、前記時間符号器を修正し、
前記半教師あり表現の上でk-1個のバイナリ分類器を訓練して、k-1個のバイナリ予測値を得て、
前記k-1個のバイナリ予測値の矛盾するものを、前記k-1個のバイナリ予測値の矛盾しないものとマッチングさせることによって特定し、訂正し、
前記k-1個のバイナリ予測値を集約して順序予測を得るためのプログラムコードを実行するためのプロセッサ装置であるコンピュータ処理システム。
【請求項20】
前記時間符号器は、x次元を超える高次元空間からy次元を下回る低次元空間へ前記時系列データを符号化するLSTM(Long Short-Term Memory)からなり、xおよびyは整数であり、x>yである、請求項19に記載のコンピュータ処理システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は分類器に関し、より詳細には、効率的な時系列順序分類のための半教師ありフレームワークに関する。
【背景技術】
【0002】
関連技術の説明
実世界の分類問題は、固有の順序を持つラベルを含むことが多い。ある患者の健康状態が、「良好」、「安定」、「危機的」という3つのラベルカテゴリーに分類されている例を考えてみよう。「安定」は「危機的」に近いため、「危機的」が「良好」と誤って分類されれば大惨事となる。このような設定では、ワン・ホットに符号化されたラベルを用いたクロスエントロピー損失を用いる分類器のような形式的な分類法は、このような誤りを犯しやすい。この望ましくない動作は、分類ミスに等しくペナルティを課す損失関数の結果である。対照的に、順序分類法(順序回帰と呼ばれることもある)は、ラベルに内在する順序に違反するエラーを抑制する。したがって順序分類法は、順序付けられたラベルを含む分類問題により適している。順序分類は、形式的な分類と回帰との間に位置すると考えることができる。連続的で順序付けられた空間に入力をマッピングする回帰タスクとは異なり、順序分類では、順序付けられた離散的なカテゴリーに入力が分類される必要がある。
【0003】
従来の順序分類法には2つの弱点があり、実際の業務では実用的ではない。第1に、訓練データがすべてラベル付きであることを前提としているが、これは常に正しいとは限らず、特に人間の専門家にアノテーションを依頼するのはコストと時間がかかる。第2に、バイナリ分類器のコレクションの予測は矛盾する可能性がある。上記の実行例では、1番目のバイナリ分類器は患者の健康状態が危機的であることを示すことができるが、2番目の分類器は良好であることを示し、2つの分類の集約を困難にしている。
【発明の概要】
【0004】
本発明の側面によれば、順序予測のための、コンピュータに実装された方法が提供される。その方法は、時系列データを時間符号器で符号化し、潜在空間表現を得ることを含む。その方法は、半教師あり学習を用いて前記時間符号器を最適化して、ラベル付けされたデータを用いてラベル付けされた空間において異なるクラスを区別し、ラベル付けされていない訓練データを用いて前記潜在空間表現を補強し、半教師あり表現を得ることを含む。その方法は、さらに、前記時間符号器の後の線形層を破棄し、前記時間符号器を修正することを含む。その方法は、また、前記半教師あり表現の上でk-1個のバイナリ分類器を訓練して、k-1個のバイナリ予測値を得ることを含む。その方法は、さらに、前記k-1個のバイナリ予測値の矛盾するものを、前記k-1個のバイナリ予測値の矛盾しないものとマッチングさせることによって特定し、訂正することを含む。その方法は、さらに、前記k-1個のバイナリ予測値を集約して順序予測を得ることを含む。
【0005】
本発明の他の側面によれば、順序予測のためのコンピュータプログラム製品が提供される。コンピュータプログラム製品は、その中に具現化されたプログラム命令を有する非一過性のコンピュータ可読記憶媒体を含む。プログラム命令は、方法を実行するコンピュータに方法によって実行可能である。その方法は、前記コンピュータのハードウェアプロセッサにより、時系列データを時間符号器で符号化し、潜在空間表現を得ることを含む。その方法は、さらに、前記ハードウェアプロセッサにより、半教師あり学習を用いて前記時間符号器を最適化して、ラベル付けされたデータを用いてラベル付けされた空間において異なるクラスを区別し、ラベル付けされていない訓練データを用いて前記潜在空間表現を補強し、半教師あり表現を得ることを含む。その方法は、また、前記ハードウェアプロセッサにより、前記時間符号器の後の線形層を破棄し、前記時間符号器を修正することを含む。その方法は、さらに、前記ハードウェアプロセッサにより、前記半教師あり表現の上でk-1個のバイナリ分類器を訓練して、k-1個のバイナリ予測値を得ることを含む。その方法は、さらに、前記ハードウェアプロセッサにより、前記k-1個のバイナリ予測値の矛盾するものを、前記k-1個のバイナリ予測値の矛盾しないものとマッチングさせることによって特定し、訂正することを含む。その方法は、また、前記ハードウェアプロセッサにより、前記k-1個のバイナリ予測値を集約して順序予測を得ることを含む。
【0006】
本発明のさらに他の側面によれば、順序予測のためのコンピュータ処理システムが提供される。そのシステムは、プログラムコードを格納するメモリ装置を含む。そのシステムは、さらに、前記メモリ装置に動作可能に結合され、時系列データを時間符号器で符号化し、潜在空間表現を得るためのプログラムコードを実行するプロセッサ装置を含む。そのプロセッサ装置は、また、半教師あり学習を用いて前記時間符号器を最適化して、ラベル付けされたデータを用いてラベル付けされた空間において異なるクラスを区別し、ラベル付けされていない訓練データを用いて前記潜在空間表現を補強し、半教師あり表現を得るためのプログラムコードを実行する。そのプロセッサ装置は、さらに、前記時間符号器の後の線形層を破棄し、前記時間符号器を修正すためのプログラムコードを実行する。そのプロセッサ装置は、さらに、前記半教師あり表現の上でk-1個のバイナリ分類器を訓練して、k-1個のバイナリ予測値を得るためのプログラムコードを実行する。そのプロセッサ装置は、また、前記k-1個のバイナリ予測値の矛盾するものを、前記k-1個のバイナリ予測値の矛盾しないものとマッチングさせることによって特定し、訂正するためのプログラムコードを実行する。そのプロセッサ装置は、さらに、前記k-1個のバイナリ予測値を集約して順序予測を得るためのプログラムコードを実行する。
【0007】
これらおよび他の特徴および利点は、添付の図面と関連して読まれる、その例示的な実施形態の以下の詳細な説明から明らかになるであろう。
【図面の簡単な説明】
【0008】
本開示は、以下の図を参照して、好ましい実施形態の以下の説明において詳細を提供する。
【0009】
【
図1】本発明の実施形態による、例示的な演算装置を示すブロック図である。
【0010】
【
図2】本発明の実施形態による、例示的な半教師ありkクラス順序学習を示すブロック図である。
【0011】
【
図3】本発明の実施形態による、半教師ありkクラス順序学習の例示的な方法を示す図である。
【0012】
【
図4】本発明の実施形態による、代替案を含む例示的な処理フローを示すブロック図である。
【0013】
【
図5】本発明の実施形態による、順序分類のための他の例示的な方法を示すフロー図である。
【
図6】本発明の実施形態による、順序分類のための他の例示的な方法を示すフロー図である。
【0014】
【
図7】本発明の実施形態による、本発明を適用できる例示的な環境を示すブロック図である。
【発明を実施するための形態】
【0015】
本発明の実施形態は、効率的な時系列順序分類のための半教師ありフレームワークに向けられている。
【0016】
上述したように、多くの最新技術は、理想的にはすべての訓練データがラベル付けされていることを前提としているため、訓練データの一部しかアノテーションされていない場合、パフォーマンスが低下する可能性がある。さらに、バイナリ分類器のコレクションから得られる結果に矛盾があることも、満足のいかないパフォーマンスの一因となる。
【0017】
1つ以上の実施形態は、半教師あり表現学習モジュールを提供する。半教師あり表現学習モジュールは、高いデータ効率を達成できるように、ラベル付きデータとラベルなしデータとの両方で訓練することで、優れた表現を学習することを目的としている。1つ以上の実施形態において、半教師あり表現学習モジュールは、ラベル付きデータから表現を学習することを可能にする半教師あり損失を使用し、表現はラベルなしデータによっても補強することができる。
【0018】
1つ以上の実施形態は、アンサンブルされたバイナリ分類モジュールを提供する。アンサンブルされたバイナリ分類モジュールは、半教師あり順序kクラス学習問題をk-1個のバイナリ学習問題に分解する。アンサンブルされたバイナリ分類モジュールは、表現モジュールの上で動作し、バイナリ予測結果のコレクションを返す。1つ以上の実施形態において、アンサンブルされたバイナリ分類モデルは、複雑な問題である序数分類をコントローラバイナリ分類サブ問題に変換する。
【0019】
1つ以上の実施形態は、ロバスト集約モジュールを提供する。ロバスト集約モジュールは、バイナリ分類器のコレクション間で矛盾した予測結果を検出して訂正し、その結果を最終判定に集約することを目的としている。1つ以上の実施形態において、ロバスト集計モジュールは、バイナリ分類間の矛盾を特定し訂正するために、矛盾検出器を採用する。集約はさらに、最終的な出力において順序情報が保持されることを強制する。
【0020】
図1は、本発明の一実施形態による例示的な演算装置100を示すブロック図である。演算装置100は、時系列の半教師あり順序分類を実行するように構成されている。
【0021】
演算装置100は、限定されないが、コンピュータ、サーバ、ラックベースのサーバ、ブレードサーバ、ワークステーション、デスクトップコンピュータ、ラップトップコンピュータ、ノートブックコンピュータ、タブレットコンピュータ、モバイル演算装置、ウェアラブル演算装置、ネットワーク機器、ウェブ機器、分散演算システム、プロセッサベースのシステム、および/または利用者電子装置など、本書に記載される機能を実行できる任意のタイプの計算またはコンピュータ装置として具現化することができる。さらにまたは代替的に、演算装置100は、1つまたは複数のコンピュートスレッド、メモリスレッド、または他のラック、スレッド、演算シャーシ、または物理的に分解された演算装置の他の構成要素として具現化されてもよい。
図1に示すように、演算装置100は、例示的に、プロセッサ110、入力/出力サブシステム120、メモリ130、データ記憶装置140、および通信サブシステム150、および/またはサーバまたは同様の演算装置に一般的に見られる他の構成要素およびデバイスを含んでいる。もちろん、演算装置100は、他の実施形態において、サーバコンピュータに一般的に見られるような他のまたは追加の構成要素(例えば、様々な入力/出力デバイス)を含んでもよい。さらに、いくつかの実施形態では、例示的な構成要素の1つ以上が、別の構成要素に組み込まれるか、さもなければ、別の構成要素の一部を形成することができる。例えば、メモリ130、またはその一部は、いくつかの実施形態において、プロセッサ110に組み込まれても良い。
【0022】
プロセッサ110は、本明細書に記載された機能を実行することができる任意のタイプのプロセッサとして具現化することができる。プロセッサ110は、シングルプロセッサ、マルチプロセッサ、中央処理ユニット(CPU)、グラフィック処理ユニット(GPU)、シングルまたはマルチコアプロセッサ、デジタル信号プロセッサ、マイクロコントローラ、またはその他のプロセッサやプロセスシング/制御回路として具現化されてもよい。
【0023】
メモリ130は、本明細書に記載された機能を実行することができる任意のタイプの揮発性または不揮発性メモリまたははデータストレージとして具現化され得る。動作中、メモリ130は、オペレーティングシステム、アプリケーション、プログラム、ライブラリ、およびドライバなど、演算装置100の動作中に使用される様々なデータおよびソフトウェアを格納することができる。メモリ130は、I/Oサブシステム120を介してプロセッサ110と通信可能に結合され、プロセッサ110、メモリ130、および演算装置100の他の構成要素との入出力動作を容易にするための回路および/または構成要素として具現化され得る。例えば、I/Oサブシステム120は、メモリコントローラハブ、入力/出力制御ハブ、プラットフォームコントローラハブ、集積制御回路、ファームウェアデバイス、通信リンク(例えば、ポイントツーポイントリンク、バスリンク、ワイヤ、ケーブル、ライトガイド、プリント回路基板トレースなど)および/または、入力/出力操作を容易にするための他の構成要素およびサブシステムとして具現化されてもよく、さもなければ、これらを含んでいても良い。いくつかの実施形態では、I/Oサブシステム120は、システムオンチップ(SOC)の一部を形成し、プロセッサ110、メモリ130、および演算装置100の他の構成要素と共に、単一の集積回路チップに組み込まれてもよい。
【0024】
データ記憶装置140は、例えば、メモリ装置および回路、メモリカード、ハードディスクドライブ、ソリッドステートドライブ、または他のデータ記憶装置など、データの短期または長期記憶用に構成された任意のタイプの装置またはデバイスとして具現化することができる。データ記憶装置140は、時系列半教師あり順序分類のためのプログラムコードを格納することができる。演算装置100の通信サブシステム150は、ネットワークを介して演算装置100と他のリモート装置との間の通信を可能にすることができる、任意のネットワークインタフェースコントローラまたは他の通信回路、装置、またはその集合体として具現されることができる。通信サブシステム150は、任意の1つ以上の通信技術(例えば、有線または無線通信)および関連するプロトコル(例えば、イーサネット、InfiniBand(登録商標)、Bluetooth(登録商標)、Wi-Fi(登録商標)、WiMAX(登録商標)など)を使用してそのような通信を実現するように構成され得る。
【0025】
図示のように、演算装置100は、1つ以上の周辺装置160も含むことができる。周辺装置160は、任意の数の追加の入出力装置、インタフェース装置、および/または他の周辺装置を含んでもよい。例えば、いくつかの実施形態では、周辺装置160は、ディスプレイ、タッチスクリーン、グラフィック回路、キーボード、マウス、スピーカシステム、マイク、ネットワークインタフェース、および/または他の入力/出力装置、インタフェース装置、および/または周辺装置を含むことができる。
【0026】
もちろん、演算装置100は、当業者が容易に思いつくように、他の要素(図示せず)を含むこともでき、また、特定の要素を省略することもできる。例えば、様々な他の入力装置および/または出力装置は、当業者によって容易に理解されるように、同じものの特定の実装に依存して、演算装置100に含まれることが可能である。例えば、様々なタイプの無線および/または有線の入力および/または出力装置を使用することができる。さらに、プロセッサ、コントローラ、メモリなどを追加して、様々な構成で利用することも可能である。処理システム100のこれらおよび他の変形例は、本明細書に提供される本発明の教示を考慮すれば、当業者によって容易に企図されるものである。
【0027】
本明細書で採用されるように、「ハードウェアプロセッササブシステム」または「ハードウェアプロセッサ」という用語は、1つ以上の特定のタスクを実行するために協働するプロセッサ、メモリ(RAM、キャッシュなどを含む)、ソフトウェア(メモリ管理ソフトウェアを含む)またはそれらの組み合わせを指すことができる。有用な実施形態では、ハードウェアプロセッササブシステムは、1つまたは複数のデータ処理要素(例えば、論理回路、処理回路、命令実行デバイスなど)を含むことができる。1つまたは複数のデータ処理要素は、中央処理ユニット、画像処理ユニットおよび/または別個のプロセッサまたはコンピューティング要素ベースのコントローラ(たとえば、論理ゲートなど)に含めることができる。ハードウェアプロセッササブシステムは、1つ以上のオンボードメモリ(例えば、キャッシュ、専用メモリアレイ、読み出し専用メモリなど)を含むことができる。いくつかの実施形態では、ハードウェアプロセッササブシステムは、オンボードまたはオフボードにすることができるか、またはハードウェアプロセッササブシステム(例えば、ROM、RAM、基本入出力システム(BIOS)など)によって使用するために専用にすることができる1つ以上のメモリを含むことができる。
【0028】
ある実施形態では、ハードウェアプロセッササブシステムは、1つ以上のソフトウェア要素を含むことができ、実行することができる。1つ以上のソフトウェア要素は、特定の結果を達成するために、オペレーティングシステムおよび/または1つ以上のアプリケーションおよび/または特定のコードを含むことができる。
【0029】
他の実施形態では、ハードウェアプロセッササブシステムは、指定された結果を達成するために1つまたは複数の電子処理機能を実行する専用の専用回路を含むことができる。そのような回路は、1つまたは複数のアプリケーション専用集積回路(ASIC)、FPGA、および/またはPLAを含むことができる。
【0030】
ハードウェアプロセッササブシステムのこれらおよび他の変形もまた、本発明の実施形態に従って企図される。
【0031】
図2は、本発明の実施形態による、例示的な半教師ありkクラス順序学習200を示すブロック図である。
【0032】
半教師ありkクラス順序学習200は、半教師あり学習に対応する第1のフェーズ291、半教師あり表現上のバイナリ分類に対応する第2のフェーズ292、およびロバスト集約に対応する第3のフェーズ293を含む。
【0033】
ラベル付けされたデータとラベル付けされていないデータとのコレクション201が与えられると、時間符号器(通常はLSTMニューラルネットワーク)210が半教師あり学習291によって訓練される。そうすることで、元の入力201を潜在空間表現220に変換することができる。本発明は、潜在空間表現220を利用し、その上にk-1個のバイナリ分類器230を構築する。その後、本発明は、エラー特定器240を使用して、バイナリ予測231の間に矛盾があるかどうかをチェックし、そのような矛盾が特定されたときに訂正する。最後に、本発明は、訂正されたバイナリ予測231を順序予測251として集約する。
【0034】
図3は、本発明の実施形態による、半教師ありkクラス順序学習の例示的な方法300を示す。
【0035】
ブロック310では、時間符号器で時系列を符号化する。
【0036】
ブロック320では、半教師あり学習によって符号器を最適化する。
【0037】
ブロック330で、最後の層を破棄し、符号器を修正する。
【0038】
ブロック340で、半教師あり表現の上にk-1個のバイナリ分類器を訓練する。
【0039】
ブロック350では、バイナリ分類器が矛盾したバイナリ予測を提供しているかどうかを判断する。もしそうなら、ブロック260に進む。そうでなければ、ブロック270に進む。
【0040】
ブロック360で、矛盾したバイナリ予測を特定し、訂正する。
【0041】
ブロック370では、バイナリ予測を順序予測として集約する。
【0042】
次に、本発明の実施形態によるブロック310についてさらに説明する。
【0043】
まずニューラルネットワークを使って、時系列セグメントを高次元から低次元の潜在空間に変換する。これらのセグメントは、訓練データに含まれる非常に長い数列からスライスされたものである。数列は、連続する時間帯におけるすべての記録値である。時系列の時間依存性を捉えるために、LSTM210を符号器として使用し、以下に説明するいくつかの損失関数でLSTM210を最適化することにより、時系列を潜在空間表現に変換する。本発明の精神を維持しつつ、GRUなどの他の符号器も使用できることに留意されたい。
【0044】
次に、本発明の実施形態によるブロック320について、さらに説明する。
【0045】
我々の目標は、ブロック310の符号器を使って、以下のような表現を得ることである。
(a)異なるクラスに属する入力データを潜在空間内でうまく区別することができる(これを実現するためにラベル付きデータを使用する)、(b)学習された表現は、訓練セットのラベルなしデータによってさらに補強することができる。
【0046】
これらの目的を達成するために、半教師あり学習は以下のようにこれらの表現を学習するために使用される。
【数1】
ここで、X
Lはラベル付きデータの集合、X
Uはラベルなし訓練データ、θは最適化すべき符号器のパラメータである。ここでは、半教師あり学習を可能にするために、2つの損失関数が組み合わされている。ラベル付きデータに対してはL
nominalが組み合わされ、ラベルなしデータに対してはL
selfが組み合わされる。
【0047】
ラベル付けされたデータに対しては、クロスエントロピー損失が表現の学習に使われる。具体的には、LSTM210の後に線形層が追加され、線形層は潜在空間表現に対する分類器となる。ここでは、LSTM210と線形層との両方が訓練可能である。そして、各データXとそのラベルYについて、訓練損失は以下のようになる。
【数2】
ここで
【数3】
の上付き文字kは最終線形層のk番目のロジットを表す。
【0048】
ラベル付けされていないデータに対しては、ラベル付けされたデータから学習された表現を補強するために、自己教師あり学習が使用される。具体的には、以下のようにN対対照損失を自己教師ありに用いる。
【数4】
ここでτは温度スケーリング定数である。与えられた入力xに対して、この損失関数はx
+で示されるxに類似したサンプルと、x
-で示される非類似のサンプルとを必要とする。ここで、x
+は、xとx
+が依然として類似しているように、時系列の反転、タイムワープ、xのスケーリングなどのデータ補強によって得られる。一方、ニューラルネットワークがバッチ方式(訓練データを使用する最も一般的な方法)で訓練される場合、x
-はx以外の同じバッチ内の残りのデータすべてからランダムに選択される。
【0049】
形式的な損失と自己教師あり損失とが特定されると、訓練損失L(θ)を最小化する最適なθを見つけることによってニューラルネットワークが最適化される。
【0050】
次に、本発明の実施形態によるブロック330についてさらに説明する。
【0051】
LSTM210とその次の線形層とが訓練されると、線形層は取り除かれ、符号器は修正される。これ以降、入力時系列データが与えられると、LSTM210の最終的な隠れ状態は半教師あり潜在空間表現となり、これはK-1個のバイナリ分類器230を訓練するために使用される入力特徴ベクトルとなる。
【0052】
次に、本発明の実施形態によるブロック340について、さらに説明する。
【0053】
表現学習符号器ネットワークが訓練されると、潜在空間表現220は、K-1個のバイナリ分類器230(Kはクラスの数)を訓練するための特徴ベクトルとして使用される。これは以下の手順で実現できる。
【0054】
まず、k番目のバイナリ分類器230について、訓練セットで以前にラベル付けされた各データを再ラベル付けする。具体的には、ラベル付き訓練データのi番目のデータと対応するラベルを(x
i,y
i)とする。
【数5】
とすることで訓練データのコピーを作り、y
iをラベリングし直すと、以下のようになる。
【数6】
【0055】
そうすることで、訓練データ
【数7】
は、予測されたラベルがkよりも大きいかどうかを示すk番目のバイナリ分類器を訓練するために使用される。
【0056】
次に、各バイナリ分類器に対応する訓練データが再ラベル化されると、形式的な損失を用いてK-1個の分類器230を訓練する。具体的には
【数8】
はΦ
kでパラメータ化されたk番目のバイナリ分類器230を表す。それから、
【数9】
は以下の損失関数を最小化することで訓練される。
【数10】
ここでL
Nominalは、ソフトマックスクロスエントロピー損失やバイナリクロスエントロピー損失など、バイナリ分類器の訓練に使用できる任意の損失関数である。
【0057】
次に、本発明の実施形態によるブロック350についてさらに説明する。
【0058】
LSTM210とバイナリ分類器230とが訓練されると、与えられたテストデータ(x,y)に対して、バイナリ予測値
【数11】
はエラー特定器でチェックされる。
【数12】
はバイナリ結果を返し、k番目のバイナリ分類器230は、対応する予測ラベルがkよりも大きいかどうかを示す。理想的には、
【数13】
は、一連の0の後に続く1の数列を含むリストであるべきである。1の数列の長さはkであり、ゼロの数列の長さはK-k-1である。それゆえ、
【数14】
は、ゼロが1の真ん中に現れたり、1がゼロの真ん中に現れたりすると、不整合が検出されるように、この標準を用いてチェックされる。
【0059】
次に、本発明の実施形態によるブロック360についてさらに説明する。
【0060】
ブロック350で紹介したように、ある種のパターンが現れた場合、矛盾したバイナリ予測を検出することができる。そして、これらの矛盾したバイナリ予測は、反転され、その予測は隣接する予測とは異なるため、位置を特定することができる。そして、矛盾した予測は、訂正された予測がその隣の予測と同じになるように反転される。例えば、K=7でk=4の場合、正しいバイナリ予測は[1,1,1,1,0,0,0,0]となり、[1,0,1,1,0,0,0,0]は矛盾した予測(2番目の予測)を示す。
【0061】
次に、本発明の実施形態によるブロック370についてさらに説明する。
【0062】
バイナリ予測がチェックされ、矛盾が確認された場合は訂正された後、最終的な順序予測を得るために以下のように集約される。
【数15】
【0063】
つまり、最終的な予測値は、ラベルが現在の指標kよりも大きいことを示す予測値のカウントである。
【0064】
図4は、本発明の実施形態による、代替案を含む例示的な処理フロー400を示すブロック図である。
【0065】
ブロック410では、時系列符号化を実行する。符号化は、リカレントニューラルネットワーク(RNN)410A、ゲーテッドリカレントネットワーク(GRU)410B、および/またはロングショートタームメモリ410Cのいずれかを含むことができる。
【0066】
ブロック420では、符号器の最適化を実行する。最適化は、教師あり損失420A、教師ありトリプレット損失420A1、教師ありクロスエントロピー損失420A2、自己教師あり損失420B、および自己教師ありN対対照損失420B1のいずれかを含むことができる。
【0067】
ブロック430で、半教師あり学習を行い、表現を得る。
【0068】
ブロック440では、バイナリ分類を実行する。分類は、クロスエントロピー損失440A、バイナリクロスエントロピー(BCE)損失440B、および焦点損失440Cのいずれかを含むことができる。
【0069】
ブロック450で、エラー特定/訂正を実行する。
【0070】
ブロック460では、バイナリ予測集約を実行する。
【0071】
図5および
図6は、本発明の実施形態による、順序分類のための他の例示的な方法500を示すフロー図である。メソッド500は、より上位のメソッド300に追加的な詳細を提供する。
【0072】
ブロック510では、時系列データを時間符号器で符号化し、潜在空間表現を得る。
【0073】
一実施形態では、ブロック510はブロック510Aを含むことができる。
【0074】
ブロック510Aにおいて、x次元を超える高次元空間からy次元を下回る低次元空間へ時系列データを符号化する時間符号器としてLSTM(Long Short-Term Memory)を構成する(ここで、xおよびyは整数であり、x>yである)。
【0075】
ブロック520では、ラベル付けされたデータを使用してラベル付けされた空間内の異なるクラスを区別し、ラベル付けされていない訓練データを使用して潜在空間表現を補強し、半教師あり表現を得るために、半教師あり学習を使用して時間符号器を最適化する。
【0076】
ブロック530で、時間符号器の後の線形レイヤを破棄し、時間符号器を修正する。一実施形態では、線形層は潜在空間表現に対する分類器とすることができる。一実施形態では、時間符号器と線形層とは両方とも訓練可能である。
【0077】
ブロック540では、半教師あり表現の上でk-1個のバイナリ分類器を訓練して、k-1個のバイナリ予測を得る。
【0078】
一実施形態では、ブロック540は、ブロック540Aから540Cのうちの1つ以上を含むことができる。
【0079】
ブロック540Aで、形式的な損失を用いてk-1個の分類器を訓練する。
【0080】
ブロック540Bで、ソフトマックスクロスエントロピー損失を用いてk-1個の分類器を訓練する。
【0081】
ブロック540Cで、バイナリクロスエントロピー損失を用いてk-1個の分類器を訓練する。
【0082】
ブロック550では、k-1個のバイナリ予測のうちの矛盾するものを、k-1個のバイナリ予測のうちの矛盾しないものとマッチングさせることによって特定し、訂正する。
【0083】
一実施形態では、ブロック550は、ブロック550Aおよび550Bのうちの1つ以上を含むことができる。
【0084】
ブロック550Aで、予期しないゼロを含む1の数列と予期しない1を含むゼロの数列とを検索する。
【0085】
ブロック550Bで、1の数列とゼロの数列とから、それぞれ予期しないゼロと1とを取り除く。
【0086】
ブロック560では、k-1個のバイナリ予測を集約して順序予測値を得る。
【0087】
図7は、本発明の実施形態による、本発明を適用することができる例示的な環境700を示すブロック図である。
【0088】
環境700において、ユーザ788は、それぞれが独自の位置および軌道を有する複数の対象物799があるシーンに位置している。ユーザ788は、ADAS777を有する車両772(例えば、自動車、トラック、オートバイ等)を運転している。
【0089】
ADAS777は、順序予測値を受信する。
【0090】
順序予測値に応答して、車両制御決定がなされる。そのために、ADAS777は、決定に対応する動作として、例えば、ステアリング、ブレーキ、および加速システムを制御することができるが、これらに限定されない。
【0091】
このように、ADASの状況において、ステアリング、加速/ブレーキ、摩擦(または摩擦の欠如)、ヨーレート、照明(ハザード、ハイビーム点滅など)、タイヤ圧、ターンシグナリングなどはすべて、本発明に従った最適化判断において効率的に利用することができる。
【0092】
本発明のシステム(例えば、システム777)は、ユーザが操作している車両772の1つまたは複数のシステムを通じて、ユーザとインタフェースすることができる。例えば、本発明のシステムは、車両772のシステム772A(例えば、ディスプレイシステム、スピーカシステム、および/または何らかの他のシステム)を介してユーザ情報を提供することができる。さらに、本発明のシステム(例えば、システム777)は、車両を制御し、車両772に1つ以上の動作を実行させるために、車両772自身と(例えば、ステアリングシステム、ブレーキシステム、加速システム、ステアリングシステム、照明(ウインカー、ヘッドライト)システムなどを含むがこれらに限定されない車両772の1つ以上のシステムを通して)インタフェースすることができる。このようにして、ユーザまたは車両772自体は、これらの対象物799の周りをナビゲートして、その間の潜在的な衝突を回避することができる。情報の提供および/または車両の制御は、本発明の実施形態に従って決定される動作と考えることができる。
【0093】
ADASに関して説明したが、本発明は、例えば軌跡を含む無数のアプリケーションに適用できる。例えば、自動エージェント、ロボット、視覚障害者のための支援技術などを含むナビゲーション等は、本発明の実施形態によって利用することができる。
【0094】
本発明は、統合の任意の可能な技術的詳細レベルにおけるシステム、方法、および/またはコンピュータプログラム製品であり得る。コンピュータプログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令をその上に有するコンピュータ可読記憶媒体(または媒体)を含み得る。
【0095】
コンピュータ可読記憶媒体は、命令実行装置によって使用するための命令を保持し格納することができる有形装置であり得る。コンピュータ可読記憶媒体は、例えば、電子記憶装置、磁気記憶装置、光学記憶装置、電磁気記憶装置、半導体記憶装置、またはこれらの任意の適切な組み合わせであってもよいが、これらに限定されるものではない。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストには、以下のものが含まれる。携帯用コンピュータディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能プログラマブルリードオンリーメモリ(EPROMまたはフラッシュメモリ)、静的ランダムアクセスメモリ(SRAM)、携帯用コンパクトディスクリードオンリーメモリ(CD-ROM)、デジタル多機能ディスク(DVD)、メモリスティック、フロッピーディスク、パンチカードやその上に記録した命令を持つ溝内の隆起構造などの機械的に符号化した装置および前述の任意の適切な組合せ。本明細書で使用するコンピュータ可読記憶媒体は、電波または他の自由に伝搬する電磁波、導波管または他の伝送媒体を伝搬する電磁波(例えば、光ファイバーケーブルを通過する光パルス)、またはワイヤを介して伝送される電気信号などの一過性の信号そのものであると解釈してはならない。
【0096】
本明細書に記載のコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれの演算/処理装置にダウンロードすることができ、またはネットワーク、例えばインターネット、ローカルエリアネットワーク、ワイドエリアネットワークおよび/または無線ネットワークを介して外部コンピュータまたは外部記憶装置にダウンロードすることができる。ネットワークは、銅伝送ケーブル、光伝送ファイバー、無線伝送、ルーター、ファイアウォール、スイッチ、ゲートウェイコンピュータおよび/またはエッジサーバーで構成されることがある。各演算/処理装置内のネットワークアダプタカードまたはネットワークインタフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、それぞれの演算/処理装置内のコンピュータ可読記憶媒体に格納するためにコンピュータ可読プログラム命令を転送する。
【0097】
本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはSMALLTALK(登録商標)、C++などのオブジェクト指向プログラミング言語、「C」プログラミング言語などの従来の手続き型プログラミング言語または同様のプログラミング言語などを含む1以上のプログラミング言語の任意の組み合わせで書かれたソースコードまたはオブジェクトコードのどちらかであり得る。コンピュータ可読プログラム命令は、ユーザのコンピュータ上で完全に、ユーザのコンピュータ上で部分的に、スタンドアロンソフトウェアパッケージとして、ユーザのコンピュータ上で部分的に、リモートコンピュータ上で部分的に、またはリモートコンピュータ若しくはサーバ上で完全に実行することができる。後者のシナリオでは、リモートコンピュータは、ローカルエリアネットワーク(LAN)またはワイドエリアネットワーク(WAN)を含む任意のタイプのネットワークを介してユーザのコンピュータに接続されてもよく、接続は外部のコンピュータに(例えば、インターネットサービスプロバイダを使用してインターネットを介して)行われることがある。いくつかの実施形態では、例えば、プログラマブル論理回路、フィールドプログラマブルゲートアレイ(FPGA)、またはプログラマブル論理アレイ(PLA)を含む電子回路は、本発明の側面を実行するために、コンピュータ可読プログラム命令の状態情報を利用して電子回路を個人化し、コンピュータ可読プログラム命令を実行できる。
【0098】
本発明の態様は、本発明の実施形態による方法、装置(システム)およびコンピュータプログラム製品のフローチャート図および/またはブロック図を参照して、本明細書で説明される。フローチャート図および/またはブロック図の各ブロック、並びにフローチャート図および/またはブロック図のブロックの組み合わせは、コンピュータプログラム命令によって実施できることが理解されるであろう。
【0099】
これらのコンピュータ可読プログラム命令は、汎用コンピュータ、特殊用途コンピュータ、または他のプログラム可能なデータ処理装置のプロセッサに提供され、コンピュータまたは他のプログラム可能なデータ処理装置のプロセッサを介して実行される命令が、フローチャートおよび/またはブロック図のブロックまたはブロックで指定された機能/動作を実施する手段を作り出すように、機械を製造することができる。これらのコンピュータ可読プログラム命令は、コンピュータ、プログラム可能なデータ処理装置、および/または他の装置が特定の方法で機能するように指示することができるコンピュータ可読記憶媒体に格納することもでき、コンピュータ可読記憶媒体に格納された命令が、フローチャートおよび/またはブロック図のブロックまたはブロックで指定される機能/動作の態様を実施する命令を含む製造物品を構成する、記憶された命令を持つようにすることができる。
【0100】
コンピュータ可読プログラム命令は、コンピュータ、他のプログラム可能なデータ処理装置、または他の装置にロードして、コンピュータに実装された処理を生成するためにコンピュータ、他のプログラム可能な装置、または他の装置上で実行する一連の動作ステップを実行させることもでき、コンピュータ、他のプログラム可能な装置、または他の装置上で実行する命令が、フローチャートやブロック図のブロックまたはブロックに指定されている機能/動作を実施するようにする。
【0101】
図中のフローチャートおよびブロック図は、本発明の様々な実施形態によるシステム、方法、およびコンピュータプログラム製品の可能な実装のアーキテクチャ、機能性、および動作を示すものである。この点で、フローチャートまたはブロック図の各ブロックは、命令のモジュール、セグメント、または部分を表すことがあり、これは、指定された論理機能(複数可)を実装するための1つまたは複数の実行可能命令を含んでいる。いくつかの代替的な実装では、ブロックに記された機能は、図に記された順序から外れて発生する可能性がある。例えば、連続して表示されている2つのブロックは、実際には実質的に同時に実行されることもあれば、関係する機能に応じて、ブロックが逆の順序で実行されることもある。また、ブロック図および/またはフローチャート図の各ブロック、並びにブロック図および/またはフローチャート図のブロックの組み合わせは、指定された機能または動作を実行する、または特別な目的のハードウェアとコンピュータ命令との組み合わせを実行する特別な目的のハードウェアベースのシステムによって実施できることに注目される。
【0102】
明細書において、本発明の「一実施形態」または「一実施形態」、およびその他の変形例への言及は、実施形態に関連して説明した特定の特徴、構造、特性などが、本発明の少なくとも一実施形態に含まれることを意味する。したがって、本明細書中の各所に現れる「一実施形態において」または「一実施形態において」という表現、および他の任意の変形は、必ずしもすべてが同じ実施形態を指すとは限らない。
【0103】
例えば「A/B」の場合、「Aおよび/またはB」、「AとBとの少なくとも1つ」のような、以下の「/」、「および/または」、「少なくとも1つ」のいずれかの使用は、第1のリストされた選択肢(A)のみの選択、または第2のリストされた選択肢(B)のみの選択、または両方の選択肢(AおよびB)の選択を包含すると意図していると理解されよう。さらなる例として、「A、B、および/またはC」および「A、B、およびCの少なくとも1つ」の場合、かかる表現は、第1のリストされた選択肢(A)のみの選択、または第2のリストされた選択肢(B)のみの選択、または第3のリストされた選択肢(C)のみの選択、または第1および第2のリストされた選択肢(AおよびB)のみの選択、第1および第3のリストされた選択肢(AおよびC)のみの選択、第2および第3のリストされた選択肢(BおよびC)のみの選択、または3つすべての選択肢(AおよびBおよびC)の選択を包含すると意図されている。このことは、本技術および関連技術における通常の技術者が容易に理解できるように、記載された項目の数だけ拡張することができる。
【0104】
上記は、あらゆる点で例示的かつ例示的であるが、制限的なものではないと理解され、ここに開示された発明の範囲は、詳細な説明からではなく、特許法によって許される全幅に従って解釈された請求項から決定されるものである。本明細書に示され説明された実施形態は、本発明の例示に過ぎず、当業者は、本発明の範囲及び精神から逸脱することなく、様々な修正を実施することができることを理解されたい。当業者であれば、本発明の範囲と精神から逸脱することなく、様々な他の特徴の組み合わせを実施することができる。このように、特許法が要求する詳細さと特殊性をもって本発明の側面を説明したが、特許状によって請求され、保護されることを望むものは、添付の特許請求の範囲に記載されているとおりである。
【国際調査報告】