(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-08-02
(45)【発行日】2024-08-13
(54)【発明の名称】情報処理装置、情報処理方法、及びプログラム
(51)【国際特許分類】
G06N 20/00 20190101AFI20240805BHJP
【FI】
G06N20/00 130
(21)【出願番号】P 2020154594
(22)【出願日】2020-09-15
【審査請求日】2023-09-11
(73)【特許権者】
【識別番号】000001007
【氏名又は名称】キヤノン株式会社
(74)【代理人】
【識別番号】100090273
【氏名又は名称】國分 孝悦
(72)【発明者】
【氏名】佐藤 慶尚
【審査官】大倉 崚吾
(56)【参考文献】
【文献】国際公開第2019/003485(WO,A1)
【文献】特表2018-537798(JP,A)
【文献】国際公開第2016/185617(WO,A1)
【文献】特開2020-077231(JP,A)
【文献】特開2018-200685(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06N 3/00-99/00
(57)【特許請求の範囲】
【請求項1】
アノテーションが付与されたデータから、当該データに対するアノテーションの付与結果の妥当性についてのレビューの難易度の指標に関する情報を抽出する抽出手段と、
前記データから抽出された前記情報に基づき、前記難易度を計算する計算手段と、
を備えることを特徴とする情報処理装置。
【請求項2】
前記計算手段は、前記データから抽出された前記情報と、あらかじめ設定された前記難易度の計算に係るパラメータと、に基づき、当該難易度を計算する、
ことを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記抽出手段は、前記データからバウンディングボックスの数に関する情報を抽出し、
前記計算手段は、抽出された前記バウンディングボックスの数に関する情報に基づき、前記難易度を計算する、
ことを特徴とする請求項1または2に記載の情報処理装置。
【請求項4】
前記抽出手段は、前記データから他のバウンディングボックスと重畳するバウンディングボックスの数に関する情報を抽出し、
前記計算手段は、抽出された前記バウンディングボックスの数に関する情報に基づき、前記難易度を計算する、
ことを特徴とする請求項1~3のいずれか1項に記載の情報処理装置。
【請求項5】
前記抽出手段は、前記データから複数のバウンディンボックスが重畳する部分の面積に関する情報を抽出し、
前記計算手段は、抽出された前記面積に関する情報に基づき、前記難易度を計算する、
ことを特徴とする請求項1~4のいずれか1項に記載の情報処理装置。
【請求項6】
学習済みの機械学習モデルを読み込む読み込み手段と、
読み込まれた前記機械学習モデルに基づき、前記データに対してアノテーションとして付与されるラベルの推定を行う推定手段と、
を備えることを特徴とする請求項1~5のいずれか1項に記載の情報処理装置。
【請求項7】
前記抽出手段は、前記ラベルの推定結果のうち、前記ラベルがアノテーションの対象を示していることの確からしさに関するスコアが閾値以下であるものの個数に関する情報を抽出し、
前記計算手段は、抽出された前記スコアが閾値以下である前記ラベルの推定結果の個数に関する情報に基づき、前記難易度を計算する、
ことを特徴とする請求項6に記載の情報処理装置。
【請求項8】
前記抽出手段は、前記データにアノテーションとして付与されたラベルと、前記機械学習モデルに基づく当該データに対してアノテーションとして付与されるラベルの推定結果と、の間の差異に関する情報を抽出し、
前記計算手段は、抽出された前記差異に関する情報に基づき、前記難易度を計算する、
ことを特徴とする請求項6または7に記載の情報処理装置。
【請求項9】
前記データの入力を受け付ける受け付け手段を備え、
前記抽出手段は、入力が受け付けられた前記データから前記指標に関する情報を抽出する、
ことを特徴とする請求項1~8のいずれか1項に記載の情報処理装置。
【請求項10】
コンピュータが、
アノテーションが付与されたデータから、当該データに対するアノテーションの付与結果の妥当性についてのレビューの難易度の指標に関する情報を抽出する抽出ステップと、
前記データから抽出された前記情報に基づき、前記難易度を計算する計算ステップと、
を含むことを特徴とする情報処理方法。
【請求項11】
前記計算ステップは、前記データから抽出された前記情報と、あらかじめ設定された前記難易度の計算に係るパラメータと、に基づき、当該難易度を計算する、
ことを特徴とする請求項10に記載の情報処理方法。
【請求項12】
前記抽出ステップは、前記データからバウンディングボックスの数に関する情報を抽出し、
前記計算ステップは、抽出された前記バウンディングボックスの数に関する情報に基づき、前記難易度を計算する、
ことを特徴とする請求項10または11に記載の情報処理方法。
【請求項13】
前記抽出ステップは、前記データから他のバウンディングボックスと重畳するバウンディングボックスの数に関する情報を抽出し、
前記計算ステップは、抽出された前記バウンディングボックスの数に関する情報に基づき、前記難易度を計算する、
ことを特徴とする請求項10~12のいずれか1項に記載の情報処理方法。
【請求項14】
前記抽出ステップは、前記データから複数のバウンディンボックスが重なっている部分の面積に関する情報を抽出し、
前記計算ステップは、抽出された前記面積に関する情報に基づき、前記難易度を計算する、
ことを特徴とする請求項10~13のいずれか1項に記載の情報処理方法。
【請求項15】
学習済みの機械学習モデルを読み込む読み込みステップと、
読み込まれた前記機械学習モデルに基づき、前記データに対してアノテーションとして付与されるラベルの推定を行う推定ステップと、
を含むことを特徴とする請求項10~14のいずれか1項に記載の情報処理方法。
【請求項16】
前記抽出ステップは、前記ラベルの推定結果のうち、前記ラベルがアノテーションの対象を示していることの確からしさに関するスコアが閾値以下であるものの個数に関する情報を抽出し、
前記計算ステップは、抽出された前記スコアが閾値以下である前記ラベルの推定結果の個数に関する情報に基づき、前記難易度を計算する、
ことを特徴とする請求項15に記載の情報処理方法。
【請求項17】
前記抽出ステップは、前記データにアノテーションとして付与されたラベルと、前記機械学習モデルに基づく当該データに対してアノテーションとして付与されるラベルの推定結果と、の間の差異に関する情報を抽出し、
前記計算ステップは、抽出された前記差異に関する情報に基づき、前記難易度を計算する、
ことを特徴とする請求項15または16に記載の情報処理方法。
【請求項18】
前記データの入力を受け付ける受け付けステップを含み、
前記抽出ステップは、入力が受け付けられた前記データから前記指標に関する情報を抽出する、
ことを特徴とする請求項10~17のいずれか1項に記載の情報処理方法。
【請求項19】
コンピュータを、請求項1~9のいずれか1項に記載の情報処理装置の各手段として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、情報処理装置、情報処理方法、及びプログラムに関する。
【背景技術】
【0002】
機械学習に用いられる学習データを作成するためのプログラムとして、対象となるデータに対して学習すべき正解情報(正解ラベル)を付与するアノテーションツールが利用されている。機械学習に用いられる学習データに対しては、付与される正解情報の精度がより高いことと、そのデータの数がより多いことが求められている。これは、高精度かつデータ量が多い学習データが学習に用いられることで、より高性能な機械学習モデル(例えば、推定結果の精度がより高い機械学習モデル)を作成可能となるためである。
【0003】
アノテーションツールには、例えば、対象となるデータに対してより高精度な正解情報を効率的に付与するための機能が用意されている場合がある。例えば、事前に別の学習データを用いて学習済みの類似タスク向けの機械学習モデルを利用して、アノテーションの対象となるデータを解析し、当該解析の結果に基づき、アノテーションとして付与する正解情報の候補を自動的に提示する機能が挙げられる。また、他の一例として、特許文献1に開示された機能が挙げられる。この機能は、アノテーションの付与に係る作業の信頼度を複数の指標から算出し、信頼度が閾値以下の場合にはアノテーションの付与に係る作業のやり直しを提案する。この機能を利用して、アノテーションの付与に係る作業の精度を向上させることで、付与された正解情報の精度がより高い学習データを作成することが可能となる。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
ところで、大量のデータに対してアノテーションを付与する作業には、より多くの工数(人的コスト)が割かれる傾向にあるため、近年では、アノテーションの付与に係る作業の外部委託サービスが提供されている。このように、アノテーションの付与に係る作業に外部委託サービスが利用される状況下では、例えば、アノテーションの付与結果に関する妥当性をレビューすることで、学習データの精度(例えば、付与された正解情報の確からしさ)を保証する場合がある。
【0006】
一方で、アノテーションの付与結果の妥当性についてのレビューの難易度が、当該レビューの対象となるデータに応じて異なる場合がある。このような状況下では、例えば、レビューに係る習熟度の低いレビュー作業者に対して、レビューの難易度が高いアノテーションの付与結果が割り当てられることで、より正確なレビューを行うことが困難となり、ひいては学習データの精度が低下する場合がある。このような背景から、アノテーションの付与結果の妥当性についてのレビューに係る難易度を推定可能とすることで、当該レビューに係る作業の効率化と、学習データの精度の向上とを両立可能とする仕組みの導入が求められている。
【0007】
本発明は上記の問題を鑑み、アノテーションの付与結果の妥当性についてのレビューに係る難易度をより好適な態様で推定可能とすることを目的とする。
【課題を解決するための手段】
【0008】
本発明に係る情報処理装置は、アノテーションが付与されたデータから、当該データに対するアノテーションの付与結果の妥当性についてのレビューの難易度の指標に関する情報を抽出する抽出手段と、前記データから抽出された前記情報に基づき、前記難易度を計算する計算手段と、を備えることを特徴とする。
【発明の効果】
【0009】
本発明によれば、アノテーションの付与結果の妥当性についてのレビューに係る難易度をより好適な態様で推定することが可能となる。
【図面の簡単な説明】
【0010】
【
図1】情報処理装置のハードウェア構成の一例を示した図である。
【
図2】情報処理装置の機能構成の一例を示したブロック図である。
【
図3】ユーザインタフェースの一例を示した図である。
【
図5】パラメータの保管に係るデータベースの構造の一例を示した図である。
【
図6】情報処理装置の処理の一例を示したフローチャートである。
【
図7】情報処理装置の処理の一例を示したフローチャートである。
【
図8】情報処理装置の処理の一例を示したフローチャートである。
【
図9】情報処理装置の機能構成の他の一例を示したブロック図である。
【
図10】情報処理装置の処理の他の一例を示したフローチャートである。
【
図11】情報処理装置の処理の他の一例を示したフローチャートである。
【発明を実施するための形態】
【0011】
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
【0012】
また、本開示では、既存の学習済みの機械学習モデルを「事前学習モデル」とも称する。また、作業者によるアノテーション作業の対象となるデータを「アノテーション対象データ」とも称する。また、アノテーション作業により、アノテーション対象データに付与されたアノテーションの情報を「正解情報」とも称する。また、アノテーション対象データと正解情報とを合わせたものを、「アノテーション作業結果データ」とも称する。
【0013】
また、以降で説明する本実施形態に係る情報処理方法は、例えば、
図1を参照して説明する情報処理装置(コンピュータ)が所定のプログラムを実行することで実現され得る。また、本実施形態に係る情報処理方法は、単一の情報処理装置により実現されてもよいし、複数の情報処理装置が協働することで実現されてもよい。複数の情報処理装置が協働することで本実施形態に係る情報処理方法が実現される場合には、例えば、当該情報処理方法を実現するための各機能が複数の情報処理装置に分散するように割り当てられてもよい。また、他の一例として、本実施形態に係る情報処理方法を実現するための各機能のうち少なくとも一部の機能の実現に係る処理の負荷が複数の情報処理装置に分散されてもよい。
【0014】
また、複数の情報処理装置が協働して動作する場合には、当該複数の情報処理装置は、所定のネットワークを介して互いに情報を送受信可能に接続される。なお、この場合には、複数の情報処理装置間を接続することが可能であれば、当該ネットワークの種別は特に限定されない。具体的な一例として、上記ネットワークとして、インターネット、LAN(Local Area Network)、WAN(Wide Area Network)、公衆回線(例えば、電話回線、移動体通信回線等)等が適用されてもよい。また、他の一例として、上記ネットワークとして、専用線、ATM(Asynchronous Transfer Mode)やフレームリレー回線、ケーブルテレビ回線、データ放送用無線通信回線等が適用されてもよい。また、上記ネットワークは、無線のネットワークであってもよく、有線のネットワークであってもよい。また、上記ネットワークは、複数種類の異なるネットワークを含んでもよい。具体的な一例として、複数の情報処理装置間の通信が、他の通信装置により中継されてもよい。この場合において、当該他の通信装置と、複数の情報処理装置それぞれとの間の通信に対して、互いに異なる種別のネットワークが適用されてもよい。
【0015】
<ハードウェア構成>
図1を参照して、本開示の一実施形態に係る情報処理装置100のハードウェア構成の一例について説明する。
図1に示すように、本実施形態に係る情報処理装置100は、CPU(Central Processing Unit)101と、ROM(Read Only Memory)102と、RAM(Random Access Memory)103とを含む。また、情報処理装置100は、補助記憶装置104と、入力デバイスインタフェース105と、出力デバイスインタフェース106と、ネットワークインタフェース107とを含む。CPU101と、ROM102と、RAM103と、補助記憶装置104と、入力デバイスインタフェース105と、出力デバイスインタフェース106と、ネットワークインタフェース107とは、バス108を介して相互に接続されている。
【0016】
CPU101は、情報処理装置100の各種動作を制御する中央演算装置である。例えば、CPU101は、情報処理装置100全体の動作を制御してもよい。ROM102は、CPU101で実行可能な制御プログラムやブートプログラムなどを記憶する。RAM103は、CPU101の主記憶メモリであり、ワークエリア又は各種プログラムを展開するための一時記憶領域として用いられる。
【0017】
補助記憶装置104は、各種データや各種プログラムを記憶する。補助記憶装置104は、例えば、HDD(Hard Disk Drive)や、SSD(Solid State Drive)に代表される不揮発性メモリ等のような、各種データを一時的または持続的に記憶可能な記憶デバイスにより実現される。また、他の一例として、補助記憶装置104は、フレキシブルディスク(FD:Flexible Disk)やコンパクトディスク(CD:Compact Disk)等の光ディスク、磁気や光カード、ICカード、メモリカード等により実現されてもよい。
【0018】
入力デバイスインタフェース105は、ユーザから各種指示を受け付ける入力デバイス109を情報処理装置100に接続するためのインタフェースである。入力デバイス109は、例えば、ポインティングデバイス、キーボード、及びタッチパネル等が適用され得る。なお、入力デバイス109として適用されるデバイスは、ユーザからの指示を認識する方法に応じて適宜変更されてもよい。具体的な一例として、ユーザが発話した音声によりユーザからの指示が認識される場合には、マイクロフォン等のような当該音声を集音するための集音デバイスが入力デバイス109として適用されてもよい。また、入力デバイス109として複数種類のデバイスが適用されてもよい。
【0019】
出力デバイスインタフェース106は、ユーザに対して各種情報を提示する出力デバイス110を情報処理装置100に接続するためのインタフェースである。出力デバイス110は、例えば、ディスプレイ等のような各種情報を視認可能に表示することで当該情報をユーザに提示する表示デバイスにより実現され得る。なお、出力デバイス110として適用されるデバイスは、ユーザに対して情報を提示する方法に応じて適宜変更されてもよい。具体的な一例として、出力デバイス110は、音声や電子音等の音響によりユーザに情報が提示される場合には、当該音響を出力可能なスピーカやヘッドホン等のような音響出力デバイスが出力デバイス110として適用されてもよい。また、出力デバイス110として複数種類のデバイスが適用されてもよい。
【0020】
ネットワークインタフェース107は、外部の装置とのネットワーク111(例えば、インターネット等)を介した通信に利用される。なお、ネットワークインタフェース107として適用されるデバイスは、通信経路の種別や適用される通信方式に応じて適宜変更されてもよい。
【0021】
CPU101が、ROM102または補助記憶装置104に記憶されたプログラムをRAM103に展開し、このプログラムを実行することで、
図2及び
図9に示す機能構成や、
図6~
図8、
図10、及び
図11にフローチャートとして示す処理が実現される。
上記プログラムを供給するための記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、及び光磁気ディスク等を利用することが可能である。また、記憶媒体の他の一例として、CD-ROM、CD-R、磁気テープ、不揮発性のメモリカード、ROM、DVD等を利用することも可能である。
また、上記プログラムは、コンピュータにより直接実行されてもよいし、コンピュータ上で動作するOS(Operating System)等のような基盤となるソフトウェアによる管理の元で実行されてもよい。
また、記憶媒体から読み出されたプログラムが、コンピュータに装着された機能拡張ボードや、コンピュータに接続された機能拡張ユニット等によって処理されてもよい。
【0022】
<第1の実施形態>
本開示の第1の実施形態として、対象となるデータに対するアノテーションの付与結果の妥当性についてのレビューの難易度を推定する情報処理装置の一例について以下に説明する。
【0023】
(機能構成)
まず、
図2を参照して、本実施形態に係る情報処理装置の機能構成の一例について説明する。なお、以降では、本実施形態に係る情報処理装置を、他の実施形態に係る情報処理装置と区別するために、便宜上「情報処理装置200」とも称する。
【0024】
情報処理装置200は、データ入力部201と、指標抽出部202と、パラメータ保管部203と、レビュー難易度計算部204とを含む。
【0025】
データ入力部201は、アノテーションの付与の対象となるデータ(例えば、画像)と、当該データに対してアノテーションとして付与された正解情報とを含む一連のデータ(以降では、「アノテーション作業結果データ」とも称する)の入力を受け付ける。アノテーション作業結果データの入力には、例えば、ユーザからの指示を受け付けるユーザインタフェースが用いられる。
【0026】
例えば、
図3は、アノテーション作業結果データの入力を受け付けるためのユーザインタフェース300の一例を示した図である。ユーザインタフェース300は、入力領域301及び302と、決定ボタン303とを含む。
入力領域301は、アノテーションの対象となるデータに対する正解情報の付与結果に関するファイル(以下、「正解情報ファイル」とも称する)のパスの指定をユーザから受け付けるための入力領域である。
入力領域302は、アノテーションの対象となるデータ(例えば、画像等)に対応するファイルのパスの指定をユーザから受け付けるための入力領域である。
決定ボタン303は、入力領域301及び302それぞれに入力された情報の確定に係る指示をユーザから受け付けるボタンである。
【0027】
データ入力部201は、入力領域301及び302それぞれに対してファイルへのパスが入力された状態で、ポインタ310の操作に基づき決定ボタン303が押下されると、当該入力領域301及び302それぞれに入力された情報(パス)を取得する。そのうえで、データ入力部201は、入力領域301に入力された情報(パス)に基づき正解情報ファイルを読み出すことで、アノテーションの対象となるデータに対する正解情報の付与結果を取得する。また、データ入力部201は、入力領域302に入力された情報(パス)に基づきアノテーションの対象となるデータのファイルを読み出すことで、当該データを取得する。以上のようにして、データ入力部201は、ユーザから指定されたアノテーション作業結果データを取得する。
【0028】
なお、ポインタ310の操作は、例えば、入力デバイス109として情報処理装置200に接続されたポインティングデバイス等により実現され得る。もちろん、ポインタ310の操作を実現することが可能であれば、その方法は必ずしもポインティングデバイスを利用した方法には限定されない。
また、
図3に示す例では、アノテーションの対象となるデータに対応するファイルと、正解情報ファイルとのそれぞれのパスが個別に指定される場合の一例について説明したが、これらのファイルを読み出すことが可能であればその指定方法は限定されない。例えば、
図4を参照して後述する例では、正解情報ファイルがアノテーションの対象となるデータに対応するファイルのパスに関する情報を含んでいる。この場合には、正解情報ファイルのパスの指定を受け付けることで、当該正解情報ファイルと、当該正解情報ファイルに含まれるパスに関する情報により指定されたアノテーションの対象となるデータのファイルとが読み出されてもよい。
【0029】
ここで、
図4を参照して、正解情報ファイルの一例について説明する。
図4に示す正解情報ファイル400は、xmlと称されるマークアップ言語により、アノテーションの対象となるデータに対する正解情報の付与結果に関する各種情報が記録されている。
具体的には、正解情報ファイル400は、annotation要素によりこのファイルがアノテーションの付与結果に関する情報を含むことを示している。
図4に示す例では、folder要素及びfilename要素により、アノテーションの対象となるデータ(例えば、画像)に対応するファイルが指定されている。具体的には、
図4に示す例では、画像をアノテーションの対象となるデータとしており、当該画像のファイルがfolder要素及びfilename要素により指定されている。
また、size要素では、アノテーションの対象となるデータのサイズ(画像の大きさ)が指定されている。具体的には、width要素によりアノテーションの対象となるデータの幅が指定されている。また、height要素によりアノテーションの対象となるデータの高さが指定されている。
また、оbject要素により、アノテーションの対象となるデータに対して付与された正解情報に関する各種情報が指定されている。具体的には、name要素によりどのような正解情報(対象が何を示しているかを示す情報)が付与されたかが示されている。また、bndbox要素により、アノテーションの対象となるデータ(例えば、画像)中のどの領域に、name要素で指定したアノテーション(正解情報)を付与したバウンディングボックスを配置したかを示している。例えば、
図4に示す例では、xmin要素及びxmax要素によりバウンディングボックスが配置されるx方向(幅方向)の領域が示されており、ymin要素及びymax要素によりバウンディングボックスが配置されるy方向(高さ方向)の領域が示されている。
【0030】
もちろん、上記はあくまで一例であり、アノテーションの対象となるデータと、当該データに対する正解情報の付与結果とをデータ入力部201が取得することが可能であれば、その方法は上記に説明した例に限定はされない。
具体的な一例として、アノテーションの対象となるデータが画像ファイルとして取得され、当該データに対する正解情報の付与結果が所謂txt形式のデータとして取得されてもよい。
また、他の一例として、アノテーションの対象となるデータと、当該データに対する正解情報の付与結果とが所謂データベースに格納されていてもよい。この場合には、データ入力部201は、当該データベースから、所定の条件(例えば、ユーザから指定された条件)を満たすアノテーションの対象となるデータと、当該データに対する正解情報の付与結果とを取得すればよい。
また、正解情報ファイルのデータ形式についても特に限定はされない。具体的な一例として、正解情報ファイルのデータ形式として、YOLO形式やPASCAL VOC形式が採用されていてもよい。
【0031】
指標抽出部202は、対象となるデータ(例えば、データ入力部201が入力を受け付けたデータ)に対して所定の解析処理を施すことで、当該データからアノテーションの付与結果の妥当性についてのレビューの難易度の指標に関する情報を抽出する。なお、当該指標に関する情報の一例については詳細を別途後述する。
【0032】
パラメータ保管部203は、アノテーションの付与結果の妥当性についてのレビューの難易度の計算に係るパラメータに関する情報を保管する。なお、当該パラメータに関する情報を保管する方法については特に限定はされない。具体的な一例として、当該パラメータに関する情報の保管に所謂データベースが利用されてもよい。
【0033】
例えば、
図5は、アノテーションの付与結果の妥当性についてのレビューの難易度の計算に係るパラメータに関する情報の保管に係るデータベース構造の一例を示した図である。
図5に示す例では、パラメータ名と、当該パラメータに設定される値とが関連付けられて保管されている。
具体的な一例として、1行目のデータは、パラメータ名がバウンディングボックスの個数に対する重みであり、その値が0.1であることを示している。また、2行目のデータは、パラメータ名が他との重畳があるバウンディングボックスの個数に対する重みであり、その値が0.3であることを示している。また、3行目のデータは、パラメータ名がバウンディングボックスの総重畳面積に対する重みであり、その値が0.4であることを示している。
【0034】
なお、
図5に示す例はあくまで一例であり、上記パラメータに関する情報を保管することが可能であれば、当該保管に係る方法は特に限定はされない。具体的な一例として、上記に例示した各種パラメータに関する情報が、txt形式やxml形式の設定ファイルに保持されてもよい。
また、
図5に挙げられたパラメータはあくまで一例であり、アノテーションの付与結果の妥当性についてのレビューの難易度の計算に利用可能であれば、当該難易度の計算に適用されるパラメータは特に限定はされない。また、
図5に示す例では、3つのパラメータが示されているが、上記レビューの難易度の計算に利用されるパラメータの数は必ずしも3つには限定されない。具体的な一例として、上記レビューの難易度の計算に利用されるパラメータの数が、
図5に示す例に比べてより多くてもよいし、より少なくてもよい。
【0035】
レビュー難易度計算部204は、対象となるデータに対するアノテーションの付与結果の妥当性についてのレビューの難易度を、指標抽出部202により当該データから抽出された指標に関する情報に基づき計算する。また、この際に、レビュー難易度計算部204は、パラメータ保管部203により保管されたパラメータを利用して、上記レビューの難易度を計算してもよい。具体的な一例として、レビュー難易度計算部204は、指標抽出部202により抽出された上記指標に関する情報に対して、パラメータ保管部203により保管されたパラメータに基づき重み付けを行うことで、上記レビューの難易度を計算してもよい。
【0036】
(処理)
次いで、
図6~
図8を参照して、本実施形態に係る情報処理装置200の処理の一例について説明する。
【0037】
まず、
図6を参照して、本実施形態に係る情報処理装置200の全体的な処理の流れの一例について説明する。
S601において、データ入力部201は、アノテーション作業結果データの入力を受け付けることで、当該アノテーション作業結果データを取得する。
S602において、指標抽出部202は、S601において取得されたアノテーション作業結果データに対して所定の解析処理を施すことで、当該データからアノテーションの付与結果の妥当性についてのレビューの難易度の指標に関する情報を抽出する。なお、S602の処理の詳細については、
図7を参照して別途後述する。
S603において、対象となるデータに対するアノテーションの付与結果の妥当性についてのレビューの難易度を、S602において抽出された指標に関する情報に基づき計算する。なお、S603の処理の詳細については、
図8を参照して別途後述する。
【0038】
次いで、
図7を参照して、
図6におけるS602の処理の詳細について一例を説明する。
S701において、指標抽出部202は、
図6のS601において取得されたアノテーション作業結果データから、バウンディングボックスの個数に関する情報を取得する。例えば、指標抽出部202は、アノテーション作業結果データが
図4に示すxml形式のデータの場合には、当該データに設定されたbodbox要素の個数を、バウンディングボックスの個数に関する情報として取得してもよい。
もちろん、上記はあくまで一例であり、アノテーション作業結果データから、バウンディングボックスの個数に関する情報を取得することが可能であれば、その方法は限定されない。
【0039】
S702において、指標抽出部202は、上記アノテーション作業結果データから、他のバウンディングボックスと重畳するバウンディングボックスの個数に関する情報を取得する。
具体的な一例として、指標抽出部202は、アノテーション作業結果データが
図4に示すxml形式のデータの場合には、各bndbox要素以下のxmin、ymin、xmax、ymax要素に基づき、設定されたバウンディングボックスを認識してもよい。この場合には、例えば、指標抽出部202は、まず一部のbndbox要素について、xminを最小とし、xmaxを最大とするx軸範囲と、yminを最小とし、ymaxを最大とするy軸範囲を設定する。そのうえで、指標抽出部202は、他のbndbox要素のxminまたはxmaxが上記x軸範囲中に存在し、かつyminまたはymaxが上記y軸範囲中に存在する場合に、2つのバインディングが重畳していると認識してもよい。
また、他の一例として、指標抽出部202は、アノテーションの対象となるデータである画像の各画素に対して、当該画素が範囲内に含まれるバウンディングボックスのIDを付与したうえで、複数のバウンディンボックスのIDが付与された画素を抽出してもよい。この場合には、指標抽出部202は、抽出された各画素に対して付与されたバウンディングボックスのIDの組み合わせを抽出することで、重畳しているバウンディングボックスの組み合わせの数を抽出してもよい。この際に抽出される組み合わせの数が、他のバウンディングボックスと重畳するバウンディングボックスの個数に相当する。
もちろん上記はあくまで一例であり、アノテーション作業結果データから、他のバウンディングボックスと重畳するバウンディングボックスの個数に関する情報を取得することが可能であれば、その方法は限定されない。
【0040】
S703において、指標抽出部202は、上記アノテーション作業結果データから、複数のバウンディングボックスが重畳する部分の面積(例えば、複数のバウンディングボックスが重畳する部分の総面積)に関する情報を取得する。
具体的な一例として、指標抽出部202は、S702において重畳していると認識した2つのバインディングボックスの各xmin及びxmaxのうち、最大でも最小でもない2つの値を、面積を求める対象範囲の一辺の両端として抽出する。同様にして、指標抽出部202は、上記2つのバインディングボックスの各ymin及びymaxのうち、最大でも最小でもない2つの値を、面積を求める対象範囲の他の一辺の両端として抽出する。そのうえで、指標抽出部202は、抽出した辺により規定される領域の面積を、上記2つのバインディングボックスが重畳する部分の面積として計算してもよい。以上のようにして、指標抽出部202は、重畳していると認識したバウンディンボックスの組それぞれについて上述した面積の計算を行う。そのうえで、指標抽出部202は、各組について計算した面積を合算した値を、複数のバウンディングボックスが重畳する部分の面積に関する情報として取得してもよい。
また、他の一例として、指標抽出部202は、複数のバウンディンボックスが重畳する部分の画素をカウントすることで、当該部分の面積に関する情報を取得してもよい。具体的には、指標抽出部202は、まずアノテーションの対象となるデータである画像の各画素に対して、当該画素が範囲内に含まれるバウンディングボックスのIDを付与する。次いで、指標抽出部202は、S702において重畳していると認識した一連のバインディングボックスの組合せに対して、当該組合せに含まれる各バウンディンボックスのIDが付与された画素の数を計上する。そのうえで、指標抽出部202は、各組み合わせについて計上した画素の数を合算した値に基づき、複数のバウンディングボックスが重畳する部分の面積を算出してもよい。
もちろん上記はあくまで一例であり、アノテーション作業結果データから、複数のバウンディングボックスが重畳する部分の面積に関する情報を取得することが可能であれば、その方法は限定されない。
【0041】
次いで、
図8を参照して、
図6におけるS603の処理の詳細について一例を説明する。
S801において、レビュー難易度計算部204は、パラメータ保管部203により保管されているパラメータを取得する。
S802において、レビュー難易度計算部204は、
図6のS602において抽出された指標に関する情報と、S801において取得したパラメータとに基づき、対象となるデータに対するアノテーションの付与結果の妥当性についてのレビューの難易度を計算する。具体的な一例として、レビュー難易度計算部204は、各指標に対して上記パラメータを重みとして掛け合わせ、重みが掛け合わされた各指標を合算した結果に基づき、上記レビューの難易度を計算してもよい。
もちろん上記はあくまで一例であり、上記指標や上記パラメータに基づき上記レビューの難易度を計算することが可能であればその方法は特に限定されない。
【0042】
<第2の実施形態>
次いで、本開示の第2の実施形態として、対象となるデータに対するアノテーションの付与結果の妥当性についてのレビューの難易度を推定する情報処理装置の他の一例について以下に説明する。本実施形態に係る情報処理装置は、上記レビューの難易度の推定に、事前の機械学習に基づき構築された事前学習モデルを利用する点で、前述した第1の実施形態に係る情報処理装置200と異なる。そこで、以降では、本実施形態に係る情報処理装置について、特に前述した第1の実施形態に係る情報処理装置200と異なる部分に着目して説明することとし、当該情報処理装置200と実質的に同様の部分については詳細な説明は省略する。
【0043】
(機能構成)
まず、
図9を参照して、本実施形態に係る情報処理装置の機能構成の一例について説明する。なお、以降では、本実施形態に係る情報処理装置を、他の実施形態に係る情報処理装置と区別するために、便宜上「情報処理装置900」とも称する。
【0044】
情報処理装置900は、学習モデル読込部901と、推定部902とを含む点で、
図2を参照して説明した情報処理装置200と異なる。そこで、以降では、情報処理装置900の機能構成について、特に、
図2を参照して説明した情報処理装置200の機能構成と異なる部分に着目して説明し、当該情報処理装置200と実質的に同様の部分については詳細な説明は省略する。
【0045】
学習モデル読込部901は、対象となるデータに対するアノテーションの付与に係る機械学習に基づき事前に構築された事前学習モデルの読み込みを行う。読み込まれた事前学習モデルは、所定の記憶領域(例えば、情報処理装置900が備えるRAM103や補助記憶装置104等の記憶領域)に保持される。
【0046】
推定部902は、読み込まれた事前学習モデルを利用して、入力を受け付けられたアノテーション作業結果データ(特に、アノテーションの付与の対象となるデータ)に対して、アノテーションとして付与されるラベルの推定を行う。
【0047】
また、本実施形態では、パラメータ保管部203は、パラメータに関する情報として、事前学習モデルを利用した推定結果があいまいな数に対する重みに係るパラメータに関する情報を保管する。また、パラメータ保管部203は、パラメータに関する情報として、アノテーション結果データと事前学習モデルの推定結果との間に差異があるものの数に対する重みに係るパラメータに関する情報を保管する。もちろん上記はあくまで一例であり、パラメータ保管部203は、上記に例示したパラメータ以外の他のパラメータを保持してもよい。
【0048】
(処理)
次いで、
図10及び
図11を参照して、本実施形態に係る情報処理装置900の処理の一例について説明する。
【0049】
まず、
図10を参照して、本実施形態に係る情報処理装置900の全体的な処理の流れの一例について説明する。
図10に示す例は、S1001の処理を含む点と、S602の処理の内容とが、
図6を参照して説明した例と異なり、S601及びS603の処理については
図6を参照して説明した例と実質的に同様である。そこで、以降では、情報処理装置900の全体の処理について、特に、
図6を参照して説明した情報処理装置200の処理と異なる部分に着目して説明し、当該情報処理装置200と実質的に同様の部分については詳細な説明は省略する。
【0050】
S1001において、推定部902は、学習モデル読込部901が読み込んだ事前学習モデルを利用して、データ入力部201が入力を受け付けたアノテーション作業結果データに対して、アノテーションとして付与されるラベルの推定を行う。
具体的な一例として、推定部902は、
図4を参照して説明した正解情報ファイル400(xmlファイル)に規定されたobject要素それぞれについてbndbox要素により指定された範囲を切り抜いた画像データを上記推定の対象としてもよい。
もちろん、上記はあくまで一例であり、事前学習モデルを利用したアノテーションとして付与されるラベルの推定の対象は特に限定はされない。例えば、アノテーションの対象となるデータである画像データ全体に対して、事前学習モデルを利用したアノテーションとして付与されるラベルの推定が行われてもよい。
【0051】
続いて、
図11を参照して、
図10に示すS602の処理の詳細について一例を説明する。なお、
図11に示す例は、S1101及びS1102の処理を含む点が
図7を参照して説明した例と異なり、S701~S703の処理については
図7を参照して説明した例と実質的に同様である。そこで、以降では、
図10に示すS602の処理について、特に、
図7を参照して説明した情報処理装置200の処理と異なる部分に着目して説明し、当該情報処理装置200と実質的に同様の部分については詳細な説明は省略する。
【0052】
S1101において、指標抽出部202は、S1001における推定結果に基づき、あいまいな推定結果の数に関する情報を取得する。具体的には、指標抽出部202は、対象となる一連のバウンディンボックスのうち、事前学習モデルに基づきアノテーションとして付与されるラベルの推定結果の確からしさに係るスコアが閾値以下となるバウンディンボックスの数に関する情報を取得してもよい。
【0053】
S1102において、指標抽出部202は、S1001における推定結果と、S601において取得されたアノテーション作業結果データとを比較し、双方の間で差異のあるラベル(アノテーションとして付与されるラベル)の数に関する情報を取得する。具体的には、指標抽出部202は、各バウンディンボックスを対象として、当該バウンディンボックスに対してアノテーションとして付与されたラベルと、当該バウンディンボックスを対象としたアノテーションとして付与されるラベルの推定結果とを比較する。そして、指標抽出部202は、付与されたラベルと、上記推定結果のうちよりスコアの高いラベル(例えば、スコアの最も高いラベル)の推定結果と、の間の差異がある場合には、双方の間で差異があると判定する。
【0054】
もちろん上記はあくまで一例であり、S1001における推定結果と、S601において取得されたアノテーション作業結果データと、の間の差異の有無を判定することが可能であれば、その方法は特に限定はされない。具体的な一例として対象となるデータに対するユーザによるアノテーションの付与に先駆けて、事前学習モデルを利用した当該データに対してアノテーションとして付与するラベルの推定結果に基づき、当該データに対してアノテーションの付与が行われてもよい。そのうえで、ユーザが上記データに対してアノテーションを付与した後に、上記推定結果に基づき付与されたアノテーションが修正されたか否かの判定結果に応じた情報が保持されてもよい。これにより、保持された当該情報に基づき、事前学習モデルを利用したアノテーションとして付与されるラベルの推定結果と、ユーザによりアノテーションとして付与されたラベルと、の間における差異の有無を判定することが可能となる。
【0055】
以上のようにして、指標抽出部202は、事前学習モデルを利用したアノテーションとして付与されるラベルの推定結果と、ユーザによりアノテーションとして付与されたラベルと、の間で差異があると判定されたバウンディンボックスの数に関する情報を取得する。
【0056】
<その他の実施形態>
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記録媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読み出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
【符号の説明】
【0057】
100、200 情報処理装置
202 指標抽出部
203 パラメータ保管部
204 レビュー難易度計算部