IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ソフトバンクモバイル株式会社の特許一覧

特許7542165情報処理装置、情報処理方法及び情報処理プログラム
<>
  • 特許-情報処理装置、情報処理方法及び情報処理プログラム 図1
  • 特許-情報処理装置、情報処理方法及び情報処理プログラム 図2
  • 特許-情報処理装置、情報処理方法及び情報処理プログラム 図3
  • 特許-情報処理装置、情報処理方法及び情報処理プログラム 図4
  • 特許-情報処理装置、情報処理方法及び情報処理プログラム 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2024-08-21
(45)【発行日】2024-08-29
(54)【発明の名称】情報処理装置、情報処理方法及び情報処理プログラム
(51)【国際特許分類】
   G06V 10/774 20220101AFI20240822BHJP
   G06T 7/00 20170101ALI20240822BHJP
【FI】
G06V10/774
G06T7/00 350B
【請求項の数】 9
(21)【出願番号】P 2024048036
(22)【出願日】2024-03-25
【審査請求日】2024-03-25
【新規性喪失の例外の表示】特許法第30条第2項適用 公開者 ソフトバンク株式会社 公開場所 https://www.docs.tsk-pf.com/annotation-screen/ai-annotation/prompt-annotation 公開日 令和5年7月5日
【新規性喪失の例外の表示】特許法第30条第2項適用 公開者 ソフトバンク株式会社 公開場所 東京ビックサイト 公開日 令和5年7月11日 第1回AI World夏
【新規性喪失の例外の表示】特許法第30条第2項適用 公開者 ソフトバンク株式会社 公開場所 http://ans.bb.local/#/detail/d21c925b80ffcddccf9818953e72988d?keyword=tasuki%20annotation 公開日 令和5年9月5日
【新規性喪失の例外の表示】特許法第30条第2項適用 公開者 ソフトバンク株式会社 公開場所 https://tsk-pf.com/annotation-tool 公開日 令和5年11月2日
【新規性喪失の例外の表示】特許法第30条第2項適用 公開者 株式会社アイスマイリー 公開場所 https://aismiley.co.jp/product/sbi_tasuki-annotation-tool/ 公開日 令和6年1月26日
【新規性喪失の例外の表示】特許法第30条第2項適用 公開者 ソフトバンク株式会社 公開場所 https://biz.tm.softbank.jp/pg12450-web-doc-entry-tasuki.html 公開日 令和6年1月30日
【新規性喪失の例外の表示】特許法第30条第2項適用 公開者 ソフトバンク株式会社 公開場所 https://www.softbank.jp/biz/news/cloud/20240130/ 公開日 令和6年1月30日
【早期審査対象出願】
(73)【特許権者】
【識別番号】501440684
【氏名又は名称】ソフトバンク株式会社
(74)【代理人】
【識別番号】110002516
【氏名又は名称】弁理士法人白坂
(72)【発明者】
【氏名】石井田 聡哉
(72)【発明者】
【氏名】松岡 佑磨
(72)【発明者】
【氏名】森 誠一郎
(72)【発明者】
【氏名】大村 昇平
【審査官】岡本 俊威
(56)【参考文献】
【文献】特許第7390628(JP,B2)
【文献】特開2021-099528(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06V 10/00-10/98
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
画像を取得する取得部と、
チャットを利用して入力と返答とを行うことによって、入力された文字列により目的対象物についての指示内容を受け付ける受付部と、
前記受付部によって受け付けた指示内容に基づいて、前記取得部によって取得した画像に記録される目的対象物の領域を推定する推定部と、
前記推定部によって推定した目的対象物の領域を出力するよう制御する出力制御部と、
を備える情報処理装置。
【請求項2】
前記推定部は、前記目的対象物の領域として、前記画像における目的対象物の画素領域及び目的対象物の輪郭境界のうち少なくとも一方を推定する
請求項1に記載の情報処理装置。
【請求項3】
前記推定部は、前記目的対象物の領域の大きさに応じた値を付し、
前記出力制御部は、入力された値以上の大きさの目的対象物の領域を出力するよう制御する
請求項1に記載の情報処理装置。
【請求項4】
前記出力制御部は、前記目的対象物の領域に対して指示内容に基づいたアノテーションを付して出力するよう制御する
請求項1に記載の情報処理装置。
【請求項5】
前記目的対象物の領域に対してアノテーションが付された場合、当該目的対象物の領域を学習して学習済モデルを生成する学習部を備える
請求項1~4のいずれか1項に記載の情報処理装置。
【請求項6】
前記学習部によって生成した学習済モデルに対して対象を入力し、当該対象中の目的対象物を推定するAI部を備える
請求項5に記載の情報処理装置。
【請求項7】
画像を取得する取得部と、
目的対象物についての指示内容を受け付ける受付部と、
前記受付部によって受け付けた指示内容に基づいて、前記取得部によって取得した画像に記録される目的対象物の領域を推定し、当該目的対象物の領域の大きさに応じた値を付す推定部と、
前記推定部によって推定した目的対象物の領域であって、入力された値以上の大きさの当該目的対象物の領域を出力するよう制御する出力制御部と、
を備える情報処理装置。
【請求項8】
コンピュータが、
画像を取得する取得ステップと、
チャットを利用して入力と返答とを行うことによって、入力された文字列により目的対象物についての指示内容を受け付ける受付ステップと、
前記受付ステップによって受け付けた指示内容に基づいて、前記取得ステップによって取得した画像に記録される目的対象物の領域を推定する推定ステップと、
前記推定ステップによって推定した目的対象物の領域を出力するよう制御する出力制御ステップと、
を実行する情報処理方法。
【請求項9】
コンピュータに、
画像を取得する取得機能と、
チャットを利用して入力と返答とを行うことによって、入力された文字列により目的対象物についての指示内容を受け付ける受付機能と、
前記受付機能によって受け付けた指示内容に基づいて、前記取得機能によって取得した画像に記録される目的対象物の領域を推定する推定機能と、
前記推定機能によって推定した目的対象物の領域を出力するよう制御する出力制御機能と、
を実現させる情報処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、情報処理装置、情報処理方法及び情報処理プログラムに関する。
【背景技術】
【0002】
従来、画像のアノテーションを支援する装置がある。その装置は、アノテーションの付与候補となる対象画像の複数の対象領域を、その対象画像に表れる特徴に基づいて分類して分類情報を生成する。その装置は、分類情報を可視化して、対象画像と対比可能に表示する。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2022-131937号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
ところで、アノテーションを付与する作業は手間がかかるものであり、アノテーションを付与する対象を自動で特定することが求められている。
【0005】
本開示は、アノテーションを付す対象となる目的対象物の領域を推定することができる情報処理装置、情報処理方法及び情報処理プログラムを提供する。
【課題を解決するための手段】
【0006】
一態様の情報処理装置は、画像を取得する取得部と、目的対象物についての指示内容を受け付ける受付部と、受付部によって受け付けた指示内容に基づいて、取得部によって取得した画像に記録される目的対象物の領域を推定する推定部と、推定部によって推定した目的対象物の領域を出力するよう制御する出力制御部と、を備える。
【発明の効果】
【0007】
本開示の情報処理装置、情報処理方法及び情報処理プログラムは、アノテーションを付す対象となる目的対象物の領域を推定することができる。
【図面の簡単な説明】
【0008】
図1】一実施形態に係る情報処理装置の制御に基づいて表示する画面について説明するための図である。
図2】一実施形態に係る情報処理装置について説明するためのブロック図である。
図3】画像(画像情報)の一例について説明するための図である。
図4図3に例示する画像(画像情報)についての指示内容(プロンプト)の一例について説明するための図である。
図5】一実施形態に係る情報処理方法について説明するためのフローチャートである。
【発明を実施するための形態】
【0009】
以下、一実施形態について説明する。
【0010】
[情報処理装置100の概要]
まず、一実施形態に係る情報処理装置100の概要について説明する。
図1は、一実施形態に係る情報処理装置100の制御に基づいて表示する画面について説明するための図である。
【0011】
情報処理装置100は、例えば、受け付けた文字列による指示内容141(プロンプト)に基づいて、画像200に記録され、その文字列に対応する物体(目的対象物)の領域を推定(特定)する推定装置(特定装置)等として構成されてもよい。また、情報処理装置100は、推定した物体(目的対象物)の領域に対してアノテーションを付与する付与装置等として構成されてもよい。情報処理装置100は、上述した一例の装置に限らず、種々の装置等を構成してもよい。
情報処理装置100は、例えば、サーバ、デスクトップ、ラップトップ、タブレット及びスマートフォン等のコンピュータであってもよい。
【0012】
情報処理装置100は、画像200を取得する。画像200には、1又は複数の物体が記録される。
図1に例示する場合、情報処理装置100は、道路、及び、その道路を走行する車両(例えば、普通車201及びトラック202等の物体)を記録した画像200を取得して表示部133に表示する。また、情報処理装置100は、その情報処理装置100に対する指示内容(プロンプト)を入力するインターフェース(例えば、チャットを用いた入力インターフェース140等)を表示部133に表示する。
【0013】
情報処理装置100は、例えば、入力インターフェース140を介して、文字列(テキスト)等による指示内容141(プロンプト)を受け付ける。文字列は、種々の内容であってよいが、領域を推定する対象となる物体(目的対象物)の内容等であってもよい。すなわち一例として、画像200に記録される物体として普通車201及びトラック202があり、画像200中の普通車201の領域を推定する場合、情報処理装置100は、文字列として「普通車」(指示内容)141を受け付ける。
【0014】
情報処理装置100は、上述したように受け付けた指示内容141に基づいて、画像200に記録される目的対象物の領域を推定する。情報処理装置100は、例えば、公知の物体認識処理等を始めとする種々の処理を用いることにより、画像200に記録される、指示内容141に対応する物体(目的対象物)の領域を推定する。一例として、画像200に記録される物体として普通車201及びトラック202があり、画像200中の普通車201の領域を推定する場合、情報処理装置100は、文字列として「普通車」(指示内容)141を受け付けると、画像200中の普通車201(目的対象物)の領域を推定(特定)する。
この場合、情報処理装置100は、推定(特定)した目的対象物の領域の大きさと、入力インターフェース140を介して入力された閾値とに基づいて、閾値以上となる大きさを有する目的対象物の領域を特定してもよい。
【0015】
情報処理装置100は、上述したように推定(特定)した目的対象物の領域を出力する。情報処理装置100は、例えば、画像200中の目的対象物の領域に、他の領域とは異なる色を付して表示する。図1に例示する場合では、画像200中の目的対象物(普通車201)の領域に斜線を付し、他の領域(例えば、トラック202等)には斜線を付さず、目的対象物(普通車201)の領域を他の領域(例えば、トラック202等)とは異なる態様で示すようになっている。
【0016】
また、情報処理装置100は、上述したように受け付けた文字列の指示内容141(プロンプト)に基づいて、画像200中において特定した目的対象物の領域にアノテーションを付す。すなわち、図1に例示する場合には、情報処理装置100は、文字列(指示内容141(プロンプト))として入力された「普通車」に基づいて、斜線を付した目的対象物(普通車201)の領域を特定すると、その目的対象物(普通車201)の領域に「普通車」のアノテーションを付してもよい。
なお、アノテーションを付与する対象は、普通車201及びトラック202に限定されることはなく、種々の物体であってもよい。
【0017】
[情報処理装置100の詳細]
次に、一実施形態に係る情報処理装置100について詳細に説明する。
図2は、一実施形態に係る情報処理装置100について説明するためのブロック図である。
図3は、画像200(画像情報)の一例について説明するための図である。
図4は、図3に例示する画像200(画像情報)についての指示内容(プロンプト)の一例について説明するための図である。
【0018】
情報処理装置100は、例えば、入力部121、通信部131、記憶部132、表示部133及び制御部110等を備える。通信部131、記憶部132及び表示部133は、出力部の一実施形態であってもよい。制御部110は、例えば、取得部111、受付部112、推定部113、出力制御部114、学習部115及びAI部116等を備える。制御部110は、例えば、情報処理装置100の演算処理装置等によって構成されてもよい。制御部110(例えば、演算処理装置等)は、例えば、記憶部132等に記憶される各種プログラム等を適宜読み出して実行することにより、各部(例えば、取得部111、受付部112、推定部113、出力制御部114、学習部115及びAI部116等)の機能を実現してもよい。すなわち、コンピュータ実装により、各部の機能を実現してもよい。
【0019】
入力部121は、例えば、グラフィカルユーザインターフェース(GUI)等であってもよい。また、入力部121は、例えば、キーボード及びマウス等であってもよい。
【0020】
通信部131は、例えば、情報処理装置100の外部にある装置(外部装置)(図示せず)等との間で種々の情報の送受信が可能な通信インターフェースである。
【0021】
記憶部132は、例えば、種々の情報及びプログラムを記憶してもよい。記憶部132の一例は、メモリ、ソリッドステートドライブ及びハードディスクドライブ等であってもよい。なお、記憶部132は、例えば、クラウド上にある記憶領域及びサーバ等であってもよい。
【0022】
表示部133は、例えば、種々の文字、記号及び画像等を表示することが可能なディスプレイである。
【0023】
取得部111は、画像200(画像情報)を取得する。
取得部111は、例えば、記憶部132に記憶される画像200(画像情報)を取得する。
また、取得部111は、例えば、通信部131を介して、画像200(画像情報)を外部装置(図示せず)から取得する。外部装置は、例えば、サーバ及びユーザ端末等であってもよい。ユーザ端末は、情報処理装置100のユーザが使用する端末であり、デスクトップ、ラップトップ、タブレット及びスマートフォン等であってもよい。
また、取得部111は、例えば、画像200(画像情報)が記憶される外部メモリ(図示せず)が情報処理装置100のインターフェース(図示せず)に接続された場合、その外部メモリから画像200(画像情報)を取得してもよい。
画像200は、静止画又は動画であってもよい。画像200には、1又は複数の物体が記録される。
ここで一例として図3に示すように、取得部111は、道路、及び、その道路を走行する車両(例えば、普通車201及びトラック202等の物体)を記録した画像200(画像情報)を取得してもよい。
【0024】
受付部112は、例えば、入力インターフェース140を介して、目的対象物についての指示内容141(プロンプト)を受け付ける。受付部112は、例えば、目的対象物についての文字列(テキスト)による指示内容141(プロンプト)を受け付けてもよい。文字列(テキスト)は、種々の内容であってよいが、一例として、領域を推定する対象となる物体(目的対象物)の内容等であってもよい。入力インターフェース140は、例えば、チャットを利用して指示内容141(プロンプト)を受け付けるインターフェース等であってもよい。
【0025】
すなわち一例として図4に示すように、画像200に記録される物体として普通車201及びトラック202があり、画像200中の普通車201の領域を推定する場合、情報処理装置100は、文字列として「普通車」(指示内容)141を受け付ける。情報処理装置100は、入力インターフェース140に「普通車」が入力されるのに応じて、普通車201の領域を推定するためのチャットの返答として「推論します」等の内容142を表示部133(入力インターフェース140)に表示してもよい。
【0026】
同様に一例として、画像200に記録される物体として普通車201及びトラック202があり、画像200中のトラック202の領域を推定する場合、情報処理装置100は、文字列として「トラック」(指示内容)を受け付ける。
同様に一例として、画像200に記録される物体として普通車201及びトラック202があり、画像200中の普通車201の領域及びトラック202の領域の両方を推定する場合、情報処理装置100は、文字列として「普通車」及び「トラック」(複数の指示内容)を受け付けてもよい。
【0027】
推定部113は、受付部112によって受け付けた指示内容141に基づいて、取得部111によって取得した画像200に記録される目的対象物の領域を推定する。推定部113は、例えば、公知の物体認識処理等を始めとする種々の処理を用いることにより、画像200に記録される、指示内容141に対応する物体(目的対象物)の領域を推定する。
上述した一例を用いる場合、すなわち画像200に記録される物体として普通車201及びトラック202があり、画像200中の普通車201の領域を推定する場合、推定部113は、文字列として「普通車」(指示内容)141を受け付けると(図4参照)、画像200中の普通車201(目的対象物)の領域を推定(特定)する。
同様に一例として、画像200に記録される物体として普通車201及びトラック202があり、画像200中のトラック202の領域を推定する場合、推定部113は、文字列として「トラック」(指示内容)を受け付けると、画像200中のトラック202(目的対象物)の領域を推定(特定)する。
同様に一例として、画像200に記録される物体として普通車201及びトラック202があり、画像200中の普通車201の領域及びトラック202の領域の両方を推定する場合、情報処理装置100は、文字列として「普通車」及び「トラック」(複数の指示内容)を受け付けると、画像200中の普通車201及びトラック202(複数の目的対象物)の領域を推定(特定)してもよい。
推定部113は、推定が成功すると、入力インターフェース140に「成功しました」等の内容144のチャットの返答を表示してもよい。推定部113は、例えば、推定が成功しなかった場合は、「指示内容(プロンプト)を再入力して下さい」等の内容のチャットの返答を表示してもよい。
【0028】
推定部113は、目的対象物の領域として、画像200における目的対象物の画素領域及び目的対象物の輪郭境界のうち少なくとも一方を推定してもよい。すなわち、推定部113は、目的対象物における、画素領域及び輪郭境界のグループのうち少なくとも一方を推定してもよい。目的対象物の画素領域は、目的対象物の輪郭の内側となる面領域であってもよい。目的対象物の輪郭境界は、目的対象物の輪郭と言い換えることができる。
【0029】
推定部113は、目的対象物の領域の大きさに応じた値を付してもよい。推定部113は、例えば、上述したように推定した複数の目的対象物の領域のうち、最も大きい領域に100の値を付し、最も小さい領域に0の値を付し、最も小さい領域から最も大きい領域までの各領域に、その領域の大きさに応じて0より大きく100よりも小さい値を付してもよい。なお、値(値の範囲)は、上述した0から100の範囲に限定されず、種々の値(種々の値の範囲)を付してもよい。
【0030】
なお、上述した推定部113の具体的な処理内容の一例として、推定部113は、まず指示内容141(プロンプト)に対応した、画像200中の各物体(各目的対象物)の矩形領域を検出して矩形領域画像を生成し、その後に各矩形領域画像の物体について輪郭近似を行い輪郭の座標を取得してもよい。この場合、推定部113は、例えば、AI等の処理によって矩形領域画像を生成してもよい。推定部113は、AI等の処理の一例として、物体(目的対象物)の信頼度を規定する「信頼度スコア」が入力されると、その信頼度スコアに応じて推定される物体(目的対象物)を特定し、その特定した物体(目的対象物)の周囲に矩形領域の画像を生成してもよい。なお一例として、信頼度スコアは、0から1の範囲の値等であってもよい。さらに、推定部113は、取得したその座標に基づいて、物体(物体の輪郭)を多角形(ポリゴン)で囲み、そのポリゴンの座標点を取得してもよい。推定部113は、複数の物体それぞれに対応して、上述したようにポリゴンの座標点を取得してもよい。すなわち、推定部113は、ポリゴンの座標点を用いて、物体の輪郭(輪郭領域)、及び、その輪郭(輪郭領域)の内側となる物体内部(物体の画素領域)のうち少なくとも一方を推定してもよい。
次に、推定部113は、複数の物体それぞれのポリゴン(ポリゴンの座標点で囲う領域)のうち最も大きいポリゴンの大きさと最も小さいポリゴンの大きさとに基づいて、複数のポリゴンそれぞれの大きさをスコアリングする。すなわち一例として、推定部113は、例えば、最も大きいポリゴンに100の値を付し、最も小さいポリゴンに0の値を付し、複数のポリゴンそれぞれの大きさに応じて0~100の間で値を付す。
【0031】
なお、推定部113は、受付部112によって指示内容141を受け付けると、指示内容141毎(目的対象物の種類毎)に異なるスレッド(すなわち、ページ等)を生成し、各スレッド(各ページ)で1つの目的対象物の領域を生成してもよい。
【0032】
出力制御部114は、推定部113によって推定した目的対象物の領域を出力するよう出力部を制御する。ここで、出力部は、例えば、通信部131、記憶部132及び表示部133等であってもよい。
【0033】
一例として、出力制御部114は、例えば、推定部113によって画像200中の複数の目的対象物(例えば、普通車201(又は、トラック202)の領域を推定した場合、画像200中において推定した普通車201(又は、トラック202)(目的対象物)の領域の特定する態様で出力するよう出力部を制御してもよい。
【0034】
また一例として、出力制御部114は、例えば、推定部113によって画像200中の複数の目的対象物(例えば、普通車201及びトラック202)それぞれの領域を推定した場合、入力インターフェース140を介して文字列(「普通車」及び「トラック」のうちの一方)が入力されると、入力された文字列に応じた目的対象物の領域、すなわち目的対象物を特定するための文字列として「普通車」(又は、「トラック」)が入力されると画像200中の普通車201(又は、トラック202)(目的対象物)の領域を出力するよう出力部を制御してもよい。
【0035】
また一例として、出力制御部114は、例えば、推定部113によって画像200中の目的対象物(例えば、普通車201)の領域を推定し、その後、推定部113によって同一画像200中の目的対象物(例えば、トラック202)の領域を推定した場合、推定した目的対象物毎(普通車201及びトラック202それぞれ毎)にスレッド(例えば、普通車201の画面及びトラック202の画面)を作成して、複数のスレッドの一方(1つ)又は両方(複数)を出力するよう出力部を制御してもよい。この場合、出力制御部114は、例えば、入力インターフェース140を介して文字列(例えば、「普通車」及び「トラック」のうちの一方)が入力されると、又は、入力インターフェース140を介してスレッドの1つが選択されると、入力された文字列又は選択されたスレッドに応じた目的対象物(例えば、普通車201又はトラック202)の領域を出力するよう出力部を制御してもよい。すなわち、出力制御部114は、入力インターフェース140を介して、複数のスレッドについて表示又は非表示の切り替えを行ってもよい。
【0036】
出力制御部114は、入力された値(閾値)以上の大きさの目的対象物の領域を出力するよう制御してもよい。出力制御部114は、推定部113によって付した値(目的対象物の領域の大きさ)と、入力インターフェース140を介して入力された閾値とに基づいて、閾値以上となる値(領域の大きさ)を有する目的対象物の領域を特定、特定した目的対象物の領域を出力するよう制御してもよい。
具体的な一例として、出力制御部114は、入力インターフェース140を介して入力された閾値と、各物体(各目的対象物)のポリゴンの大きさとを比較し、閾値未満の大きさとなるポリゴンに対応する各物体(各目的対象物)を非表示とするようフィルタ処理を行ってもよい。
【0037】
一例として図4に示すように、出力制御部114は、閾値を0から100の範囲で指定するスライダ143を入力インターフェース140に表示し、入力部121の操作に応じてスライダ143が動かされると、そのスライダ143の位置に応じて閾値を変更可能としてもよい。出力制御部114は、その閾値と、物体(目的対象物)(図4に例示する場合は普通車201)の領域の大きさとに基づいて、閾値以上となる物体(目的対象物)(図4に例示する場合は普通車201)の領域を、他の領域とは異なる態様で表示部133に表示してもよい。図4に例示する場合では、出力制御部114は、画像200中の目的対象物(普通車201)の領域に斜線を付し、他の領域(例えば、トラック202、及び、図4には図示しない閾値未満の大きさの普通車等)には斜線を付さず、目的対象物(普通車201)の領域を他の領域(例えば、トラック202等)とは異なる態様で示すようになっている。
【0038】
出力制御部114は、目的対象物の領域に対して指示内容141に基づいたアノテーションを付して出力するよう制御してもよい。また、出力制御部114は、上述したように受付部112によって受け付けた文字列(指示内容141(プロンプト))に基づいて、画像200中において特定した目的対象物の領域にアノテーションを付してもよい。出力制御部114は、入力インターフェース140を介して入力された値(閾値)以上の大きさの目的対象物の領域に対して指示内容141(プロンプト)に基づいたアノテーションを付して出力するよう制御してもよい。
一例として図4に示す場合、出力制御部114は、文字列(指示内容141(プロンプト))として入力された「普通車」に基づいて、斜線を付すように目的対象物(普通車201)の領域を特定すると、その目的対象物(普通車201)の領域に「普通車」のアノテーションを付してもよい。
【0039】
上述した出力の一例として、出力制御部114は、目的対象物の領域、及び、アノテーションを付した画像200のグループのうち少なくとも1つの情報を外部装置(図示せず)に送信するよう通信部131を制御してもよい。外部装置は、例えば、サーバ及びユーザ端末等であってもよい。
また出力の一例として、出力制御部114は、目的対象物の領域、及び、アノテーションを付した画像200のグループのうち少なくとも1つの情報を記憶するよう記憶部132を制御してもよい。
また出力の一例として、出力制御部114は、目的対象物の領域、及び、アノテーションを付した画像200のグループのうち少なくとも1つを表示するよう表示部133を制御してもよい。この場合、出力制御部114は、例えば、画像200中の目的対象物の領域を、その領域を除く他の領域とは異なる態様(例えば、異なる色、輪郭の囲う線の太さを変える、目的対象物の領域を明滅させる若しくは明るくする)を付して表示するよう表示部133を制御してもよい。
【0040】
学習部115は、例えば、出力制御部114によって文字列(指示内容141(プロンプト))に対応するアノテーションが付された画像等を学習して学習済モデルを生成してもよい。すなわち、学習部115は、目的対象物の領域に対してアノテーションが付された場合、その目的対象物の領域を学習して学習済モデルを生成してもよい。
学習部115は、上述した一例を用いる場合、すなわち画像に記録される物体として、普通車201のアノテーションが付された領域、及び、トラック202のアノテーションが付された領域がある場合、それらのアノテーションが付された画像等を学習して学習済モデルを生成してもよい。
【0041】
AI部116は、学習部115によって生成した学習済モデルに対して対象を入力し、その対象中の目的対象物を推定してもよい。対象の一例は、静止画及び動画等の画像(画像情報)であってもよい。すなわち、AI部116は、推定対象となる画像(対象)を学習済モデルに入力すると、その画像(対象)に記録される目的対象物(推定対象物)を推定することが可能となる。
具体的な一例として、学習部115によって、普通車201のアノテーションが付された普通車201の領域と、トラック202のアノテーションが付されたトラック202の領域とを学習した学習済モデルが生成された場合、AI部116は、画像(対象)と、学習済モデルとに基づいて、画像(対象)中の普通車201又はトラック202(目的対象物)を推定してもよい。
【0042】
[情報処理方法]
次に、一実施形態に係る情報処理方法について説明する。
図5は、一実施形態に係る情報処理方法について説明するためのフローチャートである。
【0043】
ステップST101において、取得部111は、画像200(画像情報)を取得する。
【0044】
ステップST102において、受付部112は、目的対象物についての指示内容141(プロンプト)を受け付ける。受付部112は、目的対象物についての文字列(テキスト)による指示内容141(プロンプト)を受け付けてもよい。
【0045】
ステップST103において、推定部113は、ステップST101で受け付けた指示内容141に基づいて、ステップST102で取得した画像200に記録される目的対象物の領域を推定する。推定部113は、目的対象物の領域として、画像200における目的対象物の画素領域及び目的対象物の輪郭境界のうち少なくとも一方を推定してもよい。推定部113は、目的対象物の領域の大きさに応じた値を付してもよい。
【0046】
ステップST104において、出力制御部114は、ステップST103で推定した目的対象物の領域を出力するよう出力部を制御する。
出力制御部114は、ステップST103で付した値(目的対象物の領域の大きさに応じた値)と、入力インターフェース140を介して入力された閾値(値)とに基づいて、入力された閾値(値)以上の大きさの目的対象物の領域を出力するよう制御してもよい。
出力制御部114は、ステップST102で受け付けた指示内容141(文字列等のプロンプト)に基づいて、目的対象物の領域に対してアノテーションを付してもよい。
【0047】
ステップST104の処理に応じて、目的対象物の領域に対してアノテーションが付された場合、学習部115は、その目的対象物の領域を学習して学習済モデルを生成してもよい。
AI部116は、学習部115によって生成した学習済モデルに対して対象を入力し、その対象中の目的対象物を推定してもよい。
【0048】
[機能及び回路について]
次に、上述した情報処理装置100の機能及び回路について説明する。
情報処理装置100の各部は、コンピュータの演算処理装置等の機能として実現されてもよい。すなわち、情報処理装置100の取得部111、受付部112、推定部113、出力制御部114、学習部115及びAI部116(制御部110)は、コンピュータの演算処理装置等による取得機能、受付機能、推定機能、出力制御機能、学習機能及びAI機能(制御機能)としてそれぞれ実現されてもよい。
情報処理プログラムは、上述した各機能をコンピュータに実現させることができる。情報処理プログラムは、例えば、メモリ、ソリッドステートドライブ、ハードディスクドライブ又は光ディスク等の、コンピュータで読み取り可能な非一時的な記憶媒体等に記録されてもよい。記憶媒体は、例えば、情報処理プログラムを格納する非一時的なコンピュータ可読媒体と言い換えてもよい。また、情報処理プログラムは、オンラインで伝送されてもよい。
また、上述したように、情報処理装置100の各部は、コンピュータの演算処理装置等で実現されてもよい。その演算処理装置等は、例えば、集積回路等によって構成される。このため、情報処理装置100の各部は、演算処理装置等を構成する回路として実現されてもよい。すなわち、情報処理装置100の取得部111、受付部112、推定部113、出力制御部114、学習部115及びAI部116(制御部110)は、コンピュータの演算処理装置等を構成する取得回路、受付回路、推定回路、出力制御回路、学習回路及びAI回路(制御回路)として実現されてもよい。
また、情報処理装置100の入力部121、並びに、通信部131、記憶部132及び表示部133(出力部)は、例えば、演算処理装置等の機能を含む入力機能、並びに、通信機能、記憶機能及び表示機能(出力機能)として実現されてもよい。また、情報処理装置100の入力部121、並びに、通信部131、記憶部132及び表示部133(出力部)は、例えば、集積回路等によって構成されることにより入力回路、並びに、通信回路、記憶回路及び表示回路(出力回路)として実現されてもよい。また、情報処理装置100の入力部121、並びに、通信部131、記憶部132及び表示部133(出力部)は、例えば、複数のデバイスによって構成されることにより入力部装置、並びに、通信装置、記憶装置及び表示装置(出力装置)として構成されてもよい。
【0049】
情報処理装置100は、上述した複数の各部のうち1又は任意の複数を組み合わせることが可能である。
本開示では、「情報」の文言を使用しているが、「情報」の文言は「データ」と言い換えることができ、「データ」の文言は「情報」と言い換えることができる。
【0050】
[本実施形態の態様及び効果]
次に、本実施形態の一態様及び各態様が奏する効果について説明する。なお、以下に記載する各態様は出願時の一例であり、本実施形態は以下に記載する態様に限定されることはない。すなわち、本実施形態は以下に記載する各態様に限定されることはなく、上述した各部を適宜組み合わせて実現されてもよい。また、下位の態様は、それよりも上位の態様のいずれでも引用できる場合がある。
また、以下に記載する本実施形態の効果は一例であり、各態様が奏する効果は以下に記載するものに限定されることはない。また、各態様は、例えば、以下に記載する少なくとも1つの効果を奏してもよい。
【0051】
(態様1)
一態様の情報処理装置は、画像を取得する取得部と、目的対象物についての指示内容を受け付ける受付部と、受付部によって受け付けた指示内容に基づいて、取得部によって取得した画像に記録される目的対象物の領域を推定する推定部と、推定部によって推定した目的対象物の領域を出力するよう制御する出力制御部と、を備える。
これにより、情報処理装置は、文字列(テキスト)の指示内容(プロンプト)を受け付けると、その指示内容(プロンプト)に応じた画像中の目的対象物の領域について出力(例えば、表示等)を行うことができる。
情報処理装置は、例えば、画像中に複数種類の目的対象物の領域がある場合には、出力内容(表示内容)を切り替えることにより1種類の目的対象物の領域について出力(例えば、表示等)を行うことができる。
情報処理装置は、出力対象となる目的対象物の領域に対して、文字列(テキスト)に対応するアノテーションを付すことができる。
【0052】
(態様2)
一態様の情報処理装置では、推定部は、目的対象物の領域として、画像における目的対象物の画素領域及び目的対象物の輪郭境界のうち少なくとも一方を推定することとしてもよい。
これにより、情報処理装置は、画像中の目的対象物における、画素領域及び輪郭境界のグループのうちの少なくとも一方に基づいて、アノテーションを付すことができる。
【0053】
(態様3)
一態様の情報処理装置では、推定部は、目的対象物の領域の大きさに応じた値を付し、出力制御部は、入力された値以上の大きさの目的対象物の領域を出力するよう制御することとしてもよい。
これにより、情報処理装置は、入力された値(閾値)未満の大きさの領域についてはノイズと推定することができる。情報処理装置は、誤った目的対象物の領域(ノイズ)にアノテーションを付すことを防ぐことができる。
【0054】
(態様4)
一態様の情報処理装置では、受付部は、目的対象物についてのテキストによる指示内容を受け付けることとしてもよい。
これにより、情報処理装置は、テキスト(文字列)の指示内容(プロンプト)に基づいて、そのテキスト(文字列)の内容に対応する目的対象物の領域にアノテーションを付すことができる。すなわち、情報処理装置は、テキスト(文字列)の内容に対応するアノテーションを目的対象物の領域に付すことができる。
【0055】
(態様5)
一態様の情報処理装置では、出力制御部は、目的対象物の領域に対して指示内容に基づいたアノテーションを付して出力するよう制御することとしてもよい。
これにより、情報処理装置は、例えば、アノテーションを付した、画像中の目的対象物の領域等を学習することにより学習済モデルを生成することができる。すなわち、情報処理装置は、画像中における目的対象物に対して自動でアノテーションを付して、正解データを生成することができる。
すなわち、情報処理装置は、画像のアップロードを受け付け、さらに入力部を介して目的対象物についての指示内容(プロンプト)を受け付けると、自動的に画像中の目的対象物にアノテーションを付すことができる。情報処理装置は、自動的にアノテーションを付すことができるので、手動で画像中の目的対象物を特定してアノテーションを付す場合に比べて、作業時間及び作業工数(作業コスト)を大幅に減らすことができる。
【0056】
(態様6)
一態様の情報処理装置は、目的対象物の領域に対してアノテーションが付された場合、その目的対象物の領域を学習して学習済モデルを生成する学習部を備えることとしてもよい。
これにより、情報処理装置は、正解データに基づいて自動的に学習を行って学習済モデルを生成することができる。
【0057】
(態様7)
一態様の情報処理装置は、学習部によって生成した学習済モデルに対して対象を入力し、その対象中の目的対象物を推定するAI部を備えることとしてもよい。
これにより、情報処理装置は、学習済モデルを生成する際に学習した種々の目的対象物について推定を行うことができる。
【0058】
(態様8)
一態様の情報処理方法では、コンピュータが、画像を取得する取得ステップと、目的対象物についての指示内容を受け付ける受付ステップと、受付ステップによって受け付けた指示内容に基づいて、取得ステップによって取得した画像に記録される目的対象物の領域を推定する推定ステップと、推定ステップによって推定した目的対象物の領域を出力するよう制御する出力制御ステップと、を実行する。
これにより、情報処理方法は、上述した一態様の情報処理装置と同様の効果を奏することができる。
【0059】
(態様9)
一態様の情報処理プログラムは、コンピュータに、画像を取得する取得機能と、目的対象物についての指示内容を受け付ける受付機能と、受付機能によって受け付けた指示内容に基づいて、取得機能によって取得した画像に記録される目的対象物の領域を推定する推定機能と、推定機能によって推定した目的対象物の領域を出力するよう制御する出力制御機能と、を実現させる。
これにより、情報処理プログラムは、上述した一態様の情報処理装置と同様の効果を奏することができる。
【符号の説明】
【0060】
100 情報処理装置
110 制御部
111 取得部
112 受付部
113 推定部
114 出力制御部
115 学習部
116 AI部
121 入力部
131 通信部
132 記憶部
133 表示部
140 入力インターフェース
141 指示内容(プロンプト)
142 チャットの返答内容
143 スライダ
144 チャットの返答内容
200 画像
201 普通車
202 トラック
【要約】
【課題】アノテーションを付す対象となる目的対象物の領域を推定することができる情報処理装置、情報処理方法及び情報処理プログラムを提供する。
【解決手段】情報処理装置は、画像を取得する取得部と、目的対象物についての指示内容を受け付ける受付部と、受付部によって受け付けた指示内容に基づいて、取得部によって取得した画像に記録される目的対象物の領域を推定する推定部と、推定部によって推定した目的対象物の領域を出力するよう制御する出力制御部と、を備える。
【選択図】図1
図1
図2
図3
図4
図5