IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ヤフー株式会社の特許一覧

特開2024-132374情報処理装置、情報処理方法、及びプログラム
<>
  • 特開-情報処理装置、情報処理方法、及びプログラム 図1
  • 特開-情報処理装置、情報処理方法、及びプログラム 図2
  • 特開-情報処理装置、情報処理方法、及びプログラム 図3
  • 特開-情報処理装置、情報処理方法、及びプログラム 図4
  • 特開-情報処理装置、情報処理方法、及びプログラム 図5
  • 特開-情報処理装置、情報処理方法、及びプログラム 図6
  • 特開-情報処理装置、情報処理方法、及びプログラム 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024132374
(43)【公開日】2024-10-01
(54)【発明の名称】情報処理装置、情報処理方法、及びプログラム
(51)【国際特許分類】
   G06T 7/10 20170101AFI20240920BHJP
   G06T 7/70 20170101ALI20240920BHJP
   G06T 7/00 20170101ALI20240920BHJP
   G06T 7/60 20170101ALI20240920BHJP
【FI】
G06T7/10
G06T7/70 B
G06T7/00 650A
G06T7/00 640
G06T7/60 200J
G06T7/00 350B
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2023043112
(22)【出願日】2023-03-17
(71)【出願人】
【識別番号】500257300
【氏名又は名称】LINEヤフー株式会社
(74)【代理人】
【識別番号】100149548
【弁理士】
【氏名又は名称】松沼 泰史
(74)【代理人】
【識別番号】100154852
【弁理士】
【氏名又は名称】酒井 太一
(74)【代理人】
【識別番号】100181124
【弁理士】
【氏名又は名称】沖田 壮男
(74)【代理人】
【識別番号】100194087
【弁理士】
【氏名又は名称】渡辺 伸一
(72)【発明者】
【氏名】土井 賢治
(72)【発明者】
【氏名】田中 智大
(72)【発明者】
【氏名】大塚 雄也
(72)【発明者】
【氏名】落合 真也
(72)【発明者】
【氏名】二宮 一浩
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096BA18
5L096CA01
5L096DA01
5L096EA07
5L096FA05
5L096FA67
5L096FA69
5L096HA11
(57)【要約】      (修正有)
【課題】画像上において対象物の領域を精度よくセグメンテーションすることで、アノテーションを効果的に行うことができる情報処理装置、情報処理方法、及びプログラムを提供することである。
【解決手段】情報処理装置100(情報提供装置)は、上空から地表面が撮像された画像上において対象物の領域を検出する領域検出部と、対象物の領域の向きを推定する向き推定部と、推定した向きに基づいて、対象部の領域を整形する画像処理部と、を備える。
【選択図】図1
【特許請求の範囲】
【請求項1】
上空から地表面が撮像された画像上において対象物の領域を検出する検出部と、
前記領域の向きを推定する推定部と、
前記向きに基づいて、前記領域を整形する画像処理部と、
を備える情報処理装置。
【請求項2】
前記対象物は、横断歩道であり、
前記検出部は、前記画像上において前記横断歩道の領域を検出し、
前記推定部は、歩行者が前記横断歩道を横断する方向である第1方向と、前記横断歩道として道路上に描かれた白線の長手方向である第2方向とを推定し、
前記画像処理部は、前記第1方向及び前記第2方向に基づいて、前記横断歩道の領域を整形する、
請求項1に記載の情報処理装置。
【請求項3】
前記横断歩道の領域は、4辺からなる四角形状の領域であり、
前記画像処理部は、前記4辺のうち第1の対辺の組みが前記第1方向と平行になり、かつ前記4辺のうち第2の対辺の組みが前記第2方向と平行になるように前記四角形状の領域を整形する、
請求項2に記載の情報処理装置。
【請求項4】
前記検出部は、第1機械学習モデルを用いて、前記画像上において前記対象物の領域を検出し、
前記第1機械学習モデルは、あるトレーニング対象画像に対して、前記トレーニング対象画像上において検出されるべき正解の前記対象物の領域が対応付けられた第1トレーニングデータセットに基づいて学習された機械学習モデルである、
請求項1又は2に記載の情報処理装置。
【請求項5】
前記推定部は、第2機械学習モデルを用いて、検出された前記領域が前記画像から切り出された画像であるクロップド画像上において前記領域の向きを推定し、
前記第2機械学習モデルは、あるトレーニング対象画像から前記対象物の領域が切り出された画像であるトレーニング対象のクロップド画像に対して、前記トレーニング対象のクロップド画像上において推定されるべき正解の前記対象物の領域の向きが対応付けられた第2トレーニングデータセットに基づいて学習された機械学習モデルである、
請求項1又は2に記載の情報処理装置。
【請求項6】
ユーザの端末装置と通信する通信部と、
整形された前記対象物の領域がアノテーションとして付与された前記画像を前記通信部を介して前記端末装置に送信する通信制御部と、を更に備える、
請求項1又は2に記載の情報処理装置。
【請求項7】
コンピュータを用いた情報処理方法であって、
上空から地表面が撮像された画像上において対象物の領域を検出すること、
前記領域の向きを推定すること、
前記向きに基づいて、前記領域を整形すること、
を含む情報処理方法。
【請求項8】
コンピュータに実行させるためのプログラムであって、
上空から地表面が撮像された画像上において対象物の領域を検出すること、
前記領域の向きを推定すること、
前記向きに基づいて、前記領域を整形すること、
を含むプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理方法、及びプログラムに関する。
【背景技術】
【0002】
機械学習により、画像上において所望の対象物を検出するというアノテーションに関する技術が知られている(例えば、特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2019-46094号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら従来の技術では、対象物の領域のセグメンテーションの精度が不十分であり、その結果、検出された対象物をアノテーションとして画像に付与するのが効果的でない場合があった。
【0005】
本発明は、このような事情が考慮されたものであり、画像上において対象物の領域を精度よくセグメンテーションすることで、アノテーションを効果的に行うことができる情報処理装置、情報処理方法、及びプログラムを提供することを目的の一つとする。
【課題を解決するための手段】
【0006】
本発明の一態様は、上空から地表面が撮像された画像上において対象物の領域を検出する検出部と、前記領域の向きを推定する推定部と、前記向きに基づいて、前記領域を整形する画像処理部と、を備える情報処理装置である。
【発明の効果】
【0007】
本発明の一態様によれば、画像上において対象物の領域を精度よくセグメンテーションすることで、アノテーションを効果的に行うことができる。
【図面の簡単な説明】
【0008】
図1】実施形態に係る情報処理装置100の構成の一例を表す図である。
図2】実施形態に係る処理部110の一連の処理の流れを示すフローチャートである。
図3】第1機械学習モデルMDL1を用いて横断歩道の領域を検出する方法を説明するための図である。
図4】第2機械学習モデルMDL2を用いて各種向きを推定する方法を説明するための図である。
図5】横断歩道の領域を整形する方法を説明するための図である。
図6】アノテーションが付与された衛星画像の一例を表す図である。
図7】実施形態の情報処理装置100のハードウェア構成の一例を示す図である。
【発明を実施するための形態】
【0009】
以下、図面を参照し、本発明の情報処理装置、情報処理方法、及びプログラムの実施形態について説明する。
【0010】
[概要]
本実施形態の一態様の情報処理装置は、上空から地表面が撮像された画像上において対象物の領域を検出するとともに、対象物の領域の向きを推定する。
【0011】
上空から地表面が撮像された画像は、例えば、衛星画像(衛星写真)、航空画像(航空写真)、空中画像(空中写真)などである。
【0012】
画像上において検出される対象物は、ユーザに提供されるサービスやアプリ―ションの種類に応じて任意に決定することができる。例えば、ユーザに対して衛星画像や航空画像などを地図データとして提供する場合、それら画像上に写るあらゆるものが対象物となり得る。より具体的には、地図データを用いてユーザを目的地までナビゲーションする場合、目的地までの経路上に存在する横断歩道や信号機、スクールゾーン、踏切などの交通規制設置物が対象物として選択されてよい。以下、一例として対象物が「横断歩道」であるものとして説明する。
【0013】
なお、衛星画像や航空画像などの地図データが土砂くずれや河川氾濫といった自然災害の防災に利用される場合、それら災害を引き起こし得るもの(例えば森林を伐採して設置された太陽光パネルなど)が対象物として選択されてもよい。
【0014】
情報処理装置は、画像上において対象物(例えば横断歩道)の領域を検出し、かつ対象物の領域の向きを推定すると、推定された向きに基づいて対象物の領域を整形する。このように、対象物(例えば横断歩道)の領域を整形することでセグメンテーションの精度が向上する。この結果、横断歩道などの対象物を衛星画像などにアノテーションとして付与する際に、そのアノテーションを効果的に行うことができる。
【0015】
[情報処理装置]
図1は、実施形態に係る情報処理装置100の構成の一例を表す図である。例えば、情報処理装置100は、ユーザの端末装置と情報の送受信を行うウェブサーバやアプリケーションサーバである。
【0016】
ユーザの端末装置は、スマートフォンやパーソナルコンピュータ、タブレット端末などの通信機能と表示機能を有するコンピュータ装置である。具体的には、端末装置は、ネットワークNWを介してコンテンツ提供装置50などの外部装置を通信するための通信インタフェースと、ディスプレイと、GNSS(Global Navigation Satellite System)受信機とを備える。ネットワークNWは、インターネットやLAN(Local Area Network)、WAN(Wide Area Network)、セルラー網などを含む。
【0017】
通信インタフェースは、例えば、NIC(Network Interface Card)等のネットワークカード、無線通信モジュールを含む。ディスプレイは、例えば、LCD(Liquid Crystal Display)や有機EL(Electro Luminescence)ディスプレイ等を含む。これらディスプレイには、ユーザからの各種の入力操作を受け付けるためのGUI(Graphical User Interface)が表示される。GNSS受信機は、端末装置の位置を測位する。
【0018】
更に、端末装置は、CPU(Central Processing Unit)などのプロセッサを備えており、そのCPUがUA(User Agent)を実行することで、各種コンテンツがディスプレイに表示される。
【0019】
情報処理装置100は、ユーザの端末装置上においてウェブブラウザ又はアプリケーションがUAとして起動され、そのUAからリクエストが送信されると、そのリクエストに対するレスポンスとして、各種コンテンツを端末装置に提供する。コンテンツには、例えば、横断歩道などの対象物がアノテーションとして付与された衛星画像などが含まれる。
【0020】
図示のように情報処理装置100は、通信部102と、処理部110と、記憶部130とを備える。
【0021】
通信部102は、例えば、ネットワークNWに接続するためのネットワークカード等の通信インターフェースである。
【0022】
処理部110は、取得部112と、領域検出部114と、向き推定部116と、画像処理部118と、通信制御部120と、学習部122とを備える。これらの構成要素は、例えば、CPU(Central Processing Unit)などのハードウェアプロセッサがプログラム(ソフトウェア)を実行することにより実現される。処理部110の構成要素のうち一部または全部は、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)などのハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。
【0023】
記憶部130は、例えば、HDD(Hard Disc Drive)、フラッシュメモリ、EEPROM(Electrically Erasable Programmable Read Only Memory)、ROM(Read Only Memory)、RAM(Random Access Memory)などの記憶装置により実現される。記憶部130には、プロセッサによって実行されるファームウェアやアプリケーションプログラムなどが格納される。プログラムは、予め記憶部130に格納されていてもよいし、DVDやCD-ROMなどの着脱可能な記憶媒体(非一過性の記憶媒体)に格納されており、記憶媒体がドライブ装置に装着されることで記憶部130にインストールされてもよい。
【0024】
また記憶部130には、衛星画像や航空画像を含む地図データ132や、トレーニングデータセット134が記憶されている。地図データ132には、衛星画像や航空画像といった上空から地表面を撮像した各種画像が含まれる。トレーニングデータセット134は、後述の機械学習モデルを学習するために用意されたデータセット(入力データと正解の出力データの組み)である。
【0025】
[情報処理装置の処理フロー]
以下、フローチャートに即して処理部110の処理内容についてフローチャートを用いて説明する。図2は、実施形態に係る処理部110の一連の処理の流れを示すフローチャートである。本フローチャートの処理は、例えば、所定の周期で繰り返し実行されてよい。
【0026】
まず、取得部112は、衛星画像IMG1を取得する(ステップS100)。例えば、記憶部130に地図データ132として衛星画像IMG1が記憶されている場合、取得部112は、記憶部130から衛星画像IMG1を読み出して取得してよい。また、取得部112は、通信部102を介して外部サーバ(例えばデータソースサーバ)から衛星画像IMG1を取得してもよい。また、例えば、情報処理装置100のドライブ装置に、衛星画像IMG1が格納された非一過性の記憶媒体(例えばフレッシュメモリ等)が接続された場合、取得部112は、記憶媒体から衛星画像IMG1を読み出してもよい。上述したように取得部112は、衛星画像の代わりに航空画像や空中画像を取得してもよい。以下、一例として取得対象の画像が衛星画像IMG1であるものとして説明する。
【0027】
次に、領域検出部114は、取得部112によって取得された衛星画像IMG1(航空画像や空中画像でもよい)上において、対象物の一例である横断歩道の領域を検出する(ステップS102)。
【0028】
例えば、領域検出部114は、セグメンテーションモデルの一つである第1機械学習モデルMDL1を用いて、衛星画像IMG1上において横断歩道の領域を検出する(セグメンテーションを行う)。
【0029】
第1機械学習モデルMDL1は、例えば、例えば、CNN(Convolutional Neural Network(s))等のニューラルネットワークを用いて実装されたセグメンテーションモデルであってよい。
【0030】
第1機械学習モデルMDL1は、あるトレーニング対象の衛星画像に対して、トレーニング対象の衛星画像上において検出されるべき正解の対象物(例えば横断歩道)の領域が対応付けられた第1トレーニングデータセットに基づいて学習される。対象物を横断歩道とした場合、その領域は4頂点をもつ四角形の領域となる。
【0031】
図3は、第1機械学習モデルMDL1を用いて横断歩道の領域を検出する方法を説明するための図である。領域検出部114は、取得部112によって取得された衛星画像IMG1を、第1機械学習モデルMDL1に入力する。上述したように、第1機械学習モデルMDL1は、第1トレーニングデータセットに基づき学習されている。そのため、第1機械学習モデルMDL1は、衛星画像IMG1が入力されたことを受けて、横断歩行の領域として、その領域の位置やサイズを出力する。更に、第1機械学習モデルMDL1は、領域の位置やサイズの尤もらしさ、つまりどの程度信頼できるのかを表すスコア(以下、信頼スコアという)を出力してよい。
【0032】
フローチャートの説明に戻る。次に、画像処理部118は、衛星画像IMG1から横断歩行の領域をクロッピングし(切り出し)、そのクロッピングした衛星画像IMG1の一部領域をクロップド画像IMG2として生成する(ステップS104)。
【0033】
第1機械学習モデルMDL1を用いて横断歩道の領域を検出した場合、その横断歩道の領域は四角形の領域として検出されやすいが、一方で5頂点をもつ五角形の領域や、それ以上の頂点をもつ多角形の領域として検出される場合がある。
【0034】
横断歩道の領域が5頂点以上の多角形の領域として検出された場合、画像処理部118は、以下の条件をもとに、多角形である横断歩道の領域を4頂点をもつ四角形(或いは5頂点をもつ五角形)に近似してよい。
(1)最初に4頂点をもつ四角形のポリゴンで横断歩道の領域を近似する。
(2)近似した四角形のポリゴンの面積と、元の横断歩道の領域の面積との差が、元の横断歩道の領域の面積の25%未満、又は1ピクセルの面積を1とした場合に、元の横断歩道の領域の面積が128未満であれば、近似せずに元の横断歩道の領域をそのまま採用する。
(3)次に5頂点をもつ五角形のポリゴンで、四角形のポリゴンに近似した横断歩道の領域を更に近似する。
【0035】
次に、画像処理部118は、クロップド画像IMG2のアスペクト比が許容範囲内であるか否かを判定する(ステップS106)。例えば、後述の第2機械学習モデルMDL2に対して入力するクロップド画像IMG2が正方形であるものと想定されている場合(学習時に正方形の画像を含む第2トレーニングデータセットを用いている場合)、アスペクト比の許容範囲は、例えば、正方形のアスペクト比1:1と同じか、又は正方形のアスペクト比に数%の誤差を許容したものであってよい。
【0036】
クロップド画像IMG2のアスペクト比が許容範囲外である場合(つまりクロップド画像IMG2が正方形でない場合)、画像処理部118は、アスペクト比が許容範囲内となるように、クロップド画像IMG2をパディングする(ステップS108)。
【0037】
例えば、画像処理部118は、パディングとして、クロップド画像IMG2を表す行列に対して、そのクロップド画像IMG2の上下左右のいずれか一つ又は全部に任意の画素値(例えば道路面と同色の画素値)を加えることで、クロップド画像IMG2の形状を正方形に近づける。
【0038】
一方、クロップド画像IMG2のアスペクト比が許容範囲内である場合(つまりクロップド画像IMG2が正方形である場合)、画像処理部118は、S118の処理であるパディングを省略する。
【0039】
一般的に、横断歩道の形状は道路やその周辺の交通事情に応じて決められており、横断歩道の形状が極端に縦長であったり、横長であったりする場合がある。このように様々な形状の横断歩道のクロップド画像IMG2が、後述の第2機械学習モデルMDL2に入力されることになると、第2機械学習モデルMDL2によって推定される各向き(詳細は後述する)が、学習時に想定された向きから乖離しやすい。例えば、学習時に想定された向きが0度、90度、180度である場合、それら角度以外が第2機械学習モデルMDL2によって推定されやすい。
【0040】
これに対して、後述の第2機械学習モデルMDL2に対して入力するクロップド画像IMG2のアスペクト比をパディングによって調整することで、後述の第2機械学習モデルMDL2の出力結果の精度を向上させることができる。例えば、アスペクト比を統一した上でクロップド画像IMG2を第2機械学習モデルMDL2へと入力することで、第2機械学習モデルMDL2が学習時に想定された向き(0度、90度、180度)を出力しやすくなる。
【0041】
なお、第2機械学習モデルMDL2に対して入力するクロップド画像IMG2が正方形ではなく長方形であると想定されている場合(学習時に長方形の画像を含む第2トレーニングデータセットを用いている場合)、S106の判定処理で比較されるアスペクト比の許容範囲は、正方形ではなく長方形のアスペクト比に応じて決められてよい。
【0042】
次に、向き推定部116は、クロップド画像IMG2に含まれる横断歩道の向きV1と、横断歩道として道路上に描かれた白線の向きV2とを推定する(ステップS110)。
【0043】
横断歩道の向きV1は、歩行者が横断歩道を横断する方向であり、白線の長手方向(白線が延在する方向)と交差する方向である。白線の向きV2は、白線の長手方向(白線が延在する方向)である。横断歩道の向きV1は「第1方向」の一例であり、白線の向きV2は「第2方向」の一例である。
【0044】
例えば、向き推定部116は、CNN(Convolutional Neural Network(s))等のニューラルネットワークを用いて実装された第2機械学習モデルMDL2を用いて、クロップド画像IMG2上において横断歩道の向きV1及び白線の向きV2を推定する。
【0045】
第2機械学習モデルMDL2は、あるトレーニング対象のクロップド画像上において推定されるべき正解の対象物の領域の向きとして横断歩道の向きV1及び白線の向きV2が対応付けられた第2トレーニングデータセットに基づいて学習される。トレーニング対象のクロップド画像は、トレーニング対象の衛星画像から横断歩道の領域が切り出された画像であり、例えば、上述したように正方形の画像である。
【0046】
図4は、第2機械学習モデルMDL2を用いて各種向きを推定する方法を説明するための図である。向き推定部116は、画像処理部118によって生成されたクロップド画像IMG2を、第2機械学習モデルMDL2に入力する。上述したように、第2機械学習モデルMDL2は、第2トレーニングデータセットに基づき学習されている。そのため、第2機械学習モデルMDL2は、クロップド画像IMG2が入力されたことを受けて、対象物の領域の向きとして、横断歩道の向きV1及び白線の向きV2を出力する。
【0047】
次に、画像処理部118は、向き推定部116によって推定された横断歩道の向きV1及び白線の向きV2に基づいて、領域検出部114によって検出された横断歩道の領域を整形する(ステップS112)。
【0048】
図5は、横断歩道の領域を整形する方法を説明するための図である。図中の(a)は、クロップド画像IMG2を表しており、そのクロップド画像IMG2上のRは、領域検出部114によって検出された横断歩道の領域を表している。クロップド画像IMG2は便宜上長方形となっているが実際には正方形であってよい。またクロップド画像IMG2が長方形であっても上述のようにパディングによって正方形に変換されてよい。
【0049】
図中の(b)は、(a)のクロップド画像IMG2上において横断歩道の向きV1及び白線の向きV2が推定されていることを表している。図示のように、検出された横断歩道の領域Rは、実際の横断歩道の領域を完全にはマスクしない場合がある。これはセグメンテーションモデルが第1機械学習モデルMDL1を用いたモデルベースであることに起因する。従って、画像処理部118は、横断歩道の向きV1及び白線の向きV2に基づいて、実際の横断歩道の領域を完全にマスクするように、第1機械学習モデルMDL1を用いて検出された横断歩道の領域Rを整形する。
【0050】
(c)に示すように、まず画像処理部118は、横断歩道の領域Rとして検出された四角形の4辺のうち、互いに対向する辺同士、つまり対辺を一組にして2つの組に分ける。具体的には、画像処理部118は、横断歩道の領域Rとして検出された四角形の4辺を、横断歩道の向きV1の角度に近い(V1との角度差が小さくより平行な)2辺と、白線の向きV2の角度に近い(V2との角度差が小さくより平行な)2辺とに分類する。横断歩道の向きV1の角度に近い(V1との角度差が小さくより平行な)2辺は「第1の対辺」の一例であり、白線の向きV2の角度に近い(V2との角度差が小さくより平行な)2辺は「第2の対辺」の一例である。
【0051】
(d)に示すように、次に画像処理部118は、横断歩道の向きV1の角度に近い(V1との角度差が小さくより平行な)2辺を、横断歩道の向きV1に近づくように回転させる。同様に、画像処理部118は、白線の向きV2の角度に近い(V2との角度差が小さくより平行な)2辺を、白線の向きV2に近づくように回転させる。この際、画像処理部118は、各辺の中点周りにそれら辺を回転させてよい。
【0052】
(e)に示すように、画像処理部118は、角度が修正された4辺によって閉じた領域(つまり整形された領域)を、新たな横断歩道の領域R#とする。この際、画像処理部118は、新たな横断歩道の領域R#の面積が、整形前の横断歩道の領域Rの面積の50%以下となった場合、新たな横断歩道の領域R#を採用せずに、整形前の横断歩道の領域Rを採用する。また画像処理部118は、新たな横断歩道の領域R#と、整形前の横断歩道の領域Rとの重複する部分が、整形前の横断歩道の領域Rの面積の50%以下となった場合であっても、新たな横断歩道の領域R#を採用せずに、整形前の横断歩道の領域Rを採用してよい。
【0053】
このような一連の処理によって横断歩道の領域Rが整形され、本フローチャートの処理が終了する。通信制御部120は、ユーザの端末装置から送信された地図データのリクエストが通信部102によって受信されると、そのリクエストに対するレスポンスとして、整形後の横断歩道の領域R#(面積の条件を満たさない場合には整形前の横断歩道の領域R)がアノテーションとして付与された衛星画像を、通信部102を介してユーザの端末装置に送信してよい。
【0054】
図6は、アノテーションが付与された衛星画像の一例を表す図である。図中のANは、アノテーションを表しており、そのアノテーションは、衛星画像上の横断歩道に、整形後の横断歩道の領域R#を重畳表示している。このようなアノテーションANの表示によって、ユーザは、横断歩道などの対象物の位置や形状をよりリアルに認識することができ、ナビゲーションなどのサービスを違和感なく(不自然に感じることなく)利用することができる。
【0055】
[機械学習モデルのトレーニング]
以下、上述した第1機械学習モデルMDL1と第2機械学習モデルMDL2の学習方法(トレーニング方法)について説明する。学習部122は、上述した第1トレーニングデータセットを用いて第1機械学習モデルMDL1を学習し、上述した第2トレーニングデータセットを用いて第2機械学習モデルMDL2を学習する。学習部122は、第2機械学習モデルMDL2を学習する際に、損失関数を以下のようにする。上述した「向き」は「角度」と同義で扱ってよい。第2機械学習モデルMDL2によってV1及びV2の角度として出力される数値は0~1の範囲であり、この数値範囲0~1は、角度範囲0度~180度に対応している。
【0056】
(i)第2機械学習モデルMDL2によって出力された角度(以下、推定角度という)と、第2トレーニングデータセットに含まれる正解の角度とが90度(0.5)以上異なっており、
(ii)推定角度と正解の角度の両方が、18度(0.1)未満、又は162度(0.9)以上のどちらかに該当していれば、
(iii)正解の角度を推定角度に近づけるように(0度又は180度に近づけるように)修正してからBCELoss(Binary Cross Entropy Loss)によって損失関数の最適化を行う。
【0057】
クロップド画像IMG2を入力したことに応じて第2機械学習モデルMDL2によって出力される(推定される)V1及びV2の角度が、ほぼ0度又はほぼ180度となる場合、正解の角度と推定角度とが真逆の向きとなる場合がある。例えば、正解の角度が179.8度程度(第2機械学習モデルMDL2の出力値に換算すると0.999程度)となっている場合に、推定角度がほぼ0度(第2機械学習モデルMDL2の出力値に換算すると0.0001程度)になっていまう場合がある。
【0058】
ほぼ180度とほぼ0度は実際にはほとんど同一の角度であるが、第2機械学習モデルMDL2の出力値である推定角度が、ほぼ0(例えば0.0001程度)か、ほぼ1(例えば0.999程度)と異なる値であっても、正解と見做した方がよい。
【0059】
従って、上記の(i)~(iii)の例外条件を含む損失関数に基づいて第2機械学習モデルMDL2を学習する。これによって、第2機械学習モデルMDL2の学習効率やその精度を向上させることができる。
【0060】
以上説明した実施形態によれば、情報処理装置100は、衛星画像(衛星写真)、航空画像(航空写真)、空中画像(空中写真)といった上空から地表面が撮像された画像上において対象物(例えば横断歩道)の領域を検出するとともに、対象物の領域の向きを推定する。情報処理装置100は、推定された向きに基づいて対象物の領域を整形する。このように、対象物(例えば横断歩道)の領域を整形することでセグメンテーションの精度が向上する。この結果、横断歩道などの対象物を衛星画像などにアノテーションとして付与する際に、そのアノテーションを効果的に行うことができる。
【0061】
<ハードウェア構成>
上述した実施形態の情報処理装置100は、例えば、図7に示すようなハードウェア構成により実現される。図7は、実施形態の情報処理装置100のハードウェア構成の一例を示す図である。
【0062】
情報処理装置100は、NIC100-1、CPU100-2、RAM100-3、ROM100-4、フラッシュメモリやHDDなどの二次記憶装置100-5、およびドライブ装置100-6が、内部バスあるいは専用通信線によって相互に接続された構成となっている。ドライブ装置100-6には、光ディスクなどの可搬型記憶媒体が装着される。二次記憶装置100-5、またはドライブ装置100-6に装着された可搬型記憶媒体に格納されたプログラムがDMAコントローラ(不図示)などによってRAM100-3に展開され、CPU100-2によって実行されることで処理部110が実現される。CPU100-2が参照するプログラムは、ネットワークNWを介して他の装置からダウンロードされてもよい。
【0063】
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。
【符号の説明】
【0064】
100…情報処理装置、102…通信部、110…処理部、112…取得部、114…領域検出部、116…向き推定部、118…画像処理部、120…通信制御部、122…学習部
図1
図2
図3
図4
図5
図6
図7