(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024159592
(43)【公開日】2024-11-08
(54)【発明の名称】情報処理方法、プログラム及び情報処理システム
(51)【国際特許分類】
G06T 7/20 20170101AFI20241031BHJP
G06T 7/70 20170101ALI20241031BHJP
G06T 7/00 20170101ALI20241031BHJP
G06Q 50/20 20120101ALI20241031BHJP
【FI】
G06T7/20 300
G06T7/70 Z
G06T7/00 350B
G06Q50/20
【審査請求】有
【請求項の数】12
【出願形態】OL
(21)【出願番号】P 2024067197
(22)【出願日】2024-04-18
(31)【優先権主張番号】P 2023074650
(32)【優先日】2023-04-28
(33)【優先権主張国・地域又は機関】JP
(71)【出願人】
【識別番号】517255566
【氏名又は名称】株式会社エクサウィザーズ
(72)【発明者】
【氏名】加藤 卓哉
(72)【発明者】
【氏名】ジアゼン チャイ
(72)【発明者】
【氏名】野沢 綸佐
【テーマコード(参考)】
5L050
5L096
【Fターム(参考)】
5L050CC11
5L096BA08
5L096CA02
5L096DA05
5L096FA67
5L096FA69
5L096HA02
5L096JA16
5L096KA04
(57)【要約】
【課題】撮影した対象に対する推定結果からより具体化した情報を得る。
【解決手段】
一実施形態に係る情報処理方法によれば、情報処理装置が実行する情報処理方法であって、対象を撮影し前記対象に関する情報である対象情報を取得する対象情報取得ステップと、前記対象情報から推定される推定情報を取得する推定情報生成ステップと、前記推定情報から所定の条件に沿って二次情報を生成する生成ステップと、を含む。
【選択図】
図1
【特許請求の範囲】
【請求項1】
情報処理装置が実行する情報処理方法であって、
対象を撮影し前記対象に関する情報である対象情報を取得する対象情報取得ステップと、
前記対象情報から推定される推定情報を生成する推定情報生成ステップと、
前記推定情報から所定の条件に沿って二次情報を生成する生成ステップと、
を含む情報処理方法。
【請求項2】
前記情報処理装置は、前記対象情報取得ステップにおいて、動画及び静止画の少なくとも一方から前記対象情報を取得する、
請求項1に記載の情報処理方法。
【請求項3】
前記対象情報は、前記対象の位置情報である、
請求項1に記載の情報処理方法。
【請求項4】
前記対象情報は、前記対象の姿勢情報である、
請求項1に記載の情報処理方法。
【請求項5】
前記対象情報は、前記対象の視線情報である、
請求項1に記載の情報処理方法。
【請求項6】
前記対象情報は、前記対象の動作情報である、
請求項1に記載の情報処理方法。
【請求項7】
前記対象情報は、前記対象の種類情報を取得する、
請求項1に記載の情報処理方法。
【請求項8】
前記推定情報は、前記対象情報から前記対象とそれ以外のオブジェクトとの関係性を推定する、
請求項1に記載の情報処理方法。
【請求項9】
前記二次情報は、アドバイス情報である、
請求項1に記載の情報処理方法。
【請求項10】
前記情報処理装置は、取得した前記対象情報の中から所定の要求と一致度が高い前記対象情報を選択すると共に、
選択した前記対象情報から前記推定情報を推定する、
請求項1に記載の情報処理方法。
【請求項11】
対象を撮影し前記対象に関する情報である対象情報を取得する対象情報取得ステップと、
前記対象情報から推定される推定情報を取得する推定情報生成ステップと、
前記推定情報から所定の条件に沿って二次情報を生成する生成ステップと、
をコンピュータに実行させるプログラム。
【請求項12】
情報処理装置と、当該情報処理装置に相互に通信可能な撮影装置と、を備え、
対象を撮影し前記対象に関する情報である対象情報を取得する対象情報取得ステップと、
前記対象情報から推定される推定情報を取得する推定情報生成ステップと、
前記推定情報から所定の条件に沿って二次情報を生成する生成ステップと、
を実行する情報処理システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理方法、プログラム及び情報処理システムに関する。
【背景技術】
【0002】
引用文献1には、対象エリア内の状況を多角的に管理するプログラムが開示されている。このプログラムは、監視対象エリアに設置された複数の撮影装置から連続する時系列の第1画像を取得し、画像解析を実行して、監視対象エリア内の機器に起因する事象の発生を推定する。さらに、推定結果に基づく情報を提示する。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、提示された推定結果に基づく情報を提示されただけでは、当該情報をもってどのようにしたらよいか被提示者が検討しなければならない場合があり、その点で改善の余地がある。
【0005】
本発明は、上記事実を考慮し、撮影した対象に対する推定結果からより具体化した情報を得ることを目的とする。
【課題を解決するための手段】
【0006】
一実施形態に係る情報処理方法によれば、情報処理装置が実行する情報処理方法であって、対象を撮影し前記対象に関する情報である対象情報を取得する対象情報取得ステップと、前記対象情報から推定される推定情報を取得する推定情報生成ステップと、前記推定情報から所定の条件に沿って二次情報を生成する生成ステップと、を含む。
【発明の効果】
【0007】
一実施形態によれば、撮影した対象に対する推定結果からより具体化した情報を得ることができる。
【図面の簡単な説明】
【0008】
【
図1】実施形態に係る情報処理システムの構成の一例を示す図である。
【
図2】実施形態に係るサーバのハードウェア構成の一例を示す図である。
【
図3】実施形態に係る利用者端末のハードウェア構成の一例を示す図である。
【
図4】実施形態に係るサーバの機能構成の一例を示す図である。
【
図5】実施形態に係る利用者端末の機能構成の一例を示す図である。
【
図6】実施形態に係る情報処理システムが実行する処理の一例を示すフローチャートである。
【
図7】実施形態に係る撮影装置が撮影した画像の一例を示す概略図である。
【
図8】実施形態に係る情報処理システムの処理の流れの一例を表す図である。
【
図9】実施形態に係る利用者端末の入力及び出力画面の一例を示す図である。
【
図10】実施形態に係る利用者端末の入力及び出力画面の一例を示す図である。
【
図11】実施形態に係る利用者端末の入力及び出力画面の一例を示す図である。
【
図12】実施形態に係る利用者端末の入力及び出力画面の一例を示す図である。
【発明を実施するための形態】
【0009】
以下、
図1~
図12を用いて、本発明に係る情報処理システムの一実施形態について説明する。なお、各図において同一又は等価な構成要素及び部分には同一の参照符号を付与している。また、図面の寸法比率は、説明の都合上誇張されており、実際の比率とは異なる場合がある。
【0010】
(システム概要)
まず、本実施形態に係る情報処理システム10の概要について説明する。本実施形態に係る情報処理システム10は、対象を撮影し撮影結果から写っている対象の状況を推定した上で所定の条件に沿って二次情報を生成するシステムである。本実施形態では、一例として、保育園・幼稚園などの施設に設置される撮影装置が、対象として乳幼児や先生等を撮影することを想定している。この撮影結果は、動画及び画像の少なくとも一方とされている。撮影結果から、乳幼児や先生等の位置情報、姿勢情報、視線情報、動作情報及び種類情報の少なくとも一方が取得され、これらの情報が請求項1に記載の「対象情報」に相当する。
【0011】
情報処理システム10は、対象情報から推定される推定情報を生成する。推定情報は、一例として、対象とそれ以外のオブジェクトとの関係性を推定する情報である。具体的には、乳幼児や先生等の位置情報、視線情報、動作情報及び種類情報から、乳幼児や先生等同士の関係性を推定する。なお、種類情報とは、撮影結果に写る対象が乳幼児か先生か、を特定する情報であり、さらには特定の人物であるか否かを判定する情報である。情報処理システム10は、推定情報を自然言語化して出力するように学習された学習モデル38を利用して自然言語化する。
【0012】
情報処理システム10は、推定情報から、所定の条件に従って二次情報を生成する。具体的には、大規模言語モデルに対して自然言語化された推定情報を入力し、生成された出力結果を二次情報とする。所定の条件とは、具体的には「連絡帳に記載する情報として生成すること」、「アドバイスを生成すること」等が挙げられる。また、この他にも、所定の条件に従って画像生成モデルを利用して生成された画像を二次情報としてもよい。この画像の例としては、ノベルティグッズや表彰品などのアイテムのデザイン画像(
図8参照)などが挙げられるが、これ以外の画像でもよい。
【0013】
(システム構成)
図1は、本実施形態に係る情報処理システム10の構成の一例を示す図である。
図1に示すように、本実施形態に係る情報処理システム10は、ネットワークNを介して相互に通信可能に接続された、利用者端末12と、サーバ14と、撮影装置16と、を備える。ネットワークNは、例えば、有線LAN(Local Area Network)、無線LAN、インターネット、公衆回線網、モバイルデータ通信網、又はこれらの組み合わせである。
【0014】
利用者端末12は、情報処理システム10が生成する各種情報の表示及び二次情報利用のための操作を行う情報処理装置の一例である。利用者端末12は、PC(Personal Computer)、スマートフォン、タブレット端末、サーバ装置、マイクロコンピュータ、ウェアラブルデバイス、又はこれらの組み合わせであってもよい。
【0015】
サーバ14は、撮影装置16が撮影した動画像から対象情報を取得し、対象情報を基に推定情報を推定すると共に、推定情報から所定の条件に従って二次情報を生成する情報処理装置の一例である。サーバ14は、PC(Personal Computer)、スマートフォン、タブレット端末、サーバ装置、マイクロコンピュータ、又はこれらの組み合わせであってもよい。サーバ14の具体的な構成及び作用については、後述する。
【0016】
撮影装置16は、施設に設置され、施設内外の様子を撮影する装置の一例である。撮影装置16は、動画で連続的に撮影してもよいし、所定の周期で繰り返し自動的に静止画の撮影を行ってもよい。
【0017】
(ハードウェア構成-サーバ)
図2は、サーバ14のハードウェア構成を示すブロック図である。サーバ14は、バスBを介して相互に通信可能に接続された、プロセッサ20と、メモリ22と、ストレージ24と、通信I/F26と、を備える。
【0018】
プロセッサ20は、ストレージ24に記憶された各種プログラムをメモリ22に展開して実行することにより、サーバ14の各構成を制御し、サーバ14の機能を実現する。プロセッサ20が実行するプログラムは、OS(Operating System)及び後述する各種プログラムを含むが、これに限られない。プロセッサ20がこれらプログラムを実行することにより、本実施形態に係る状態可視化方法の一部が実現される。プロセッサ20は、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)、GPU(Graphics Processing Unit)、ASIC(Application Specific Integrated Circuit)、DSP(Digital Signal Processor)、又はこれらの組み合わせである。
【0019】
メモリ22は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、又はこれらの組み合わせである。ROMは、例えば、PROM(Programmable ROM)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable ROM)、又はこれらの組み合わせである。RAMは、例えば、DRAM(Dynamic RAM)、SRAM(Static RAM)、MRAM(Magnetoresistive RAM)、又はこれらの組み合わせである。
【0020】
ストレージ24は、OS、後述する各種プログラム、及び各種のデータを記憶する。ストレージ24は、例えば、フラッシュメモリ、HDD(Hard Disk Drive)、SSD(Solid State Drive)、SCM(Storage Class Memories)、又はこれらの組み合わせである。
【0021】
通信I/F26は、サーバ14を、ネットワークNを介して、利用者端末12や撮影装置16を含む外部装置に接続し、通信を制御するためのインタフェースである。通信I/F26は、例えば、Bluetooth(登録商標)、Wi-Fi(登録商標)、ZigBee(登録商標)、Ethernet(登録商標)、又は光通信(例えば、Fibre Channel)に準拠したアダプタであるが、これに限られない。
【0022】
(ハードウェア構成-利用者端末)
図3は、利用者端末12のハードウェア構成を示すブロック図である。利用者端末12は、バスBを介して相互に通信可能に接続された、プロセッサ20と、メモリ22と、ストレージ24と、通信I/F26と、入出力I/F28と、出力装置30と、入力装置32と、を備える。通信I/F26は、利用者端末12を、ネットワークNを介して、サーバ14を含む外部装置に接続し、通信を制御するためのインタフェースである。通信I/F26は、例えば、Bluetooth(登録商標)、Wi-Fi(登録商標)、ZigBee(登録商標)、Ethernet(登録商標)、又は光通信(例えば、Fibre Channel)に準拠したアダプタであるが、これに限られない。
【0023】
入出力I/F28は、利用者端末12に入力装置32及び出力装置30を接続するためのインタフェースである。入力装置32は、例えば、マウス、キーボード、タッチパネル、マイク、スキャナ、カメラ、各種センサ、操作ボタン、又はこれらの組み合わせである。出力装置30は、例えば、ディスプレイ、プロジェクタ、プリンタ、スピーカ、バイブレータ、又はこれらの組み合わせである。本実施形態では、一例として出力装置30と入力装置32とは、一体的に構成されたタッチパネルディスプレイとされている。
【0024】
なお、本実施形態において、プログラムは、利用者端末12、サーバ14の製造段階でメモリ22又はストレージ24に書き込まれてもよいし、ネットワークNを介して利用者端末12、サーバ14に提供されてもよいし、図示しないディスクメディアなどの非一時的でコンピュータ読み取り可能な記録媒体を介して利用者端末12、サーバ14に提供されてもよい。
【0025】
(機能構成-サーバ)
次に、サーバ14の機能構成について説明する。
図4は、サーバ14の機能構成の一例を示す図である。各種プログラムを実行する際に、サーバ14は上記のハードウェア資源を用いて、各種の機能を実現する。サーバ14は、サーバ14が実現する機能構成として、記憶部31と、処理部33と、通信部34と、を有している。各機能構成は、プロセッサ20がメモリ22又はストレージ24に記憶されたプログラム36を読み出し、実行することで実現される。
【0026】
通信部34は、通信I/F26により実現される。通信部34は、ネットワークNを介して、利用者端末12との間で情報の送受信を行う。通信部34は、利用者端末12から入力された情報を受信する。また、通信部34は、利用者端末12に対して情報を送信し、利用者端末12からユーザによるリクエストを受信する。
【0027】
記憶部31は、メモリ22及びストレージ24により実現される。記憶部31には、プログラム36と、学習モデル38と、対象情報DB40と、推定情報DB42と、ユーザDB44と、結果DB46とが格納される。
【0028】
学習モデル38は、少なくとも一つの学習済み機械学習モデルにより構成されている。この学習モデル38は、一例として、画像認識モデルと、画像言語モデルと、大規模言語モデルと、を含むものとされている。画像認識モデルは、動画像が入力されると、当該動画像内の物体及び人物の少なくとも一方を検出すると共に、検出された対象の位置情報、姿勢情報、視線情報、動作情報及び種類情報の少なくとも一方を対象情報として出力するように学習させた機械学習モデルとされている。この画像認識モデルの出力は、動画像内に図示するバウンディングボックスのようなオブジェクト情報(
図7参照)であってもよいし、プログラミング言語や自然言語などのテキスト情報であってもよいし、音声情報等これ以外の情報であってもよいし、これらを組み合わせた情報であってもよい。
【0029】
大規模言語モデルは、インターネット上の記事、書籍及びウェブサイトなどからの大量のテキストデータを学習させたモデルとされており、プロンプトと称されるテキストデータを入力すると、プロンプトに応じた処理結果をテキストデータにて生成し出力する。
【0030】
画像言語モデルは、画像とそれに対応するテキストデータとを組合せた学習データを学習させたモデルとされており、画像を入力すると当該画像から情報を抽出してその画像の説明を生成したり、質問に対して当該画像を根拠とした回答を生成し、出力する。また、画像言語モデルは、前述した入力及び出力とは逆に、プロンプトを入力すると当該プロンプトに関連する画像を生成し出力する。
【0031】
記憶部31における学習モデル38は、上述した画像認識モデル、画像言語モデル及び大規模言語モデル単体での処理のみならず、それぞれのモデルを適宜組合せて処理を実行する。一例として、学習モデル38に画像やテキストデータが入力されると、処理結果として画像を根拠としたテキストデータを生成し出力する。これにより、学習モデル38に画像である撮影結果が入力されると、当該撮影結果から対象情報を取得して当該対象情報から推定される推定情報を自然言語によるテキストデータにて生成する。
【0032】
対象情報DB40は、取得された撮影結果から取得される対象情報が格納されるデータベースである。対象情報DB40は、例えば、撮影結果と、当該撮影結果から取得される乳幼児や先生等の位置情報、姿勢情報、視線情報、動作情報及び種類情報の少なくとも一つとが互いに紐付けられて格納されている。
【0033】
推定情報DB42は、対象情報から推定される推定情報が格納されるデータベースである。推定情報DB42は、例えば、乳幼児や先生等同士の関係性を推定した結果の情報(すなわち、推定情報)が対象情報と紐付けられて格納されている。
【0034】
ユーザDB44は、情報処理システム10の利用アカウントとして予め登録されたユーザアカウント情報が格納されるデータベースである。ユーザDB44は、例えば、ユーザアカウント情報に対して当該ユーザアカウントにて入力された入力情報及び出力情報の少なくとも一方が互いに紐づけられて格納されている。
【0035】
結果DB46は、生成された二次情報が格納されるデータベースである。結果DB46は、二次情報と、当該二次情報が生成された際に利用された推定情報と、当該推定情報が生成された差異に利用された対象情報と、当該対象情報が取得された際に利用された撮影結果とが互いに紐付けられて格納されている。
【0036】
処理部33は、対象情報取得部50と、推定部52と、生成部54と、出力部56と、を有している。対象情報取得部50は、利用者端末12及び撮影装置16の少なくとも一方が対象を撮影した当該対象に関する情報である撮影結果としての動画及び画像の少なくとも一方を取得すると共に、当該動画像を学習モデル38へ入力することで得られる学習モデル38の出力データ(対象情報)を取得する。本実施形態では、対象情報として前述のように乳幼児や先生等の位置情報、姿勢情報、視線情報、動作情報及び種類情報の少なくとも一方が取得される。
【0037】
推定部52は、対象情報から推定される推定情報を生成する。すなわち、推定部52は、対象情報を取得し学習モデル38へ入力することで得られる学習モデル38の出力データ(推定情報)を取得する。本実施形態では、推定情報として対象とそれ以外のオブジェクトとの関係性を推定する情報とされており、具体的には、乳幼児や先生等の位置情報、視線情報、動作情報及び種類情報から、乳幼児や先生等同士の関係性に関する情報の少なくとも一方が生成される。
【0038】
生成部54は、推定情報から、前述した所定の条件に従って二次情報を生成する。具体的には、学習モデル38に対して自然言語化された推定情報を入力し、生成された出力結果を二次情報とする。本実施形態では、所定の条件に従ってアドバイスや記録などのテキスト情報、ノベルティグッズや表彰品などのアイテムのデザイン画像等が生成される。
【0039】
出力部56は、生成部54にて生成された二次情報を利用者端末12へ向けて出力する。なお、出力部56は、二次情報のみならず、対象情報、推定情報及び所定の条件に関する情報の少なくとも一方を出力してもよい。
【0040】
(機能構成-利用者端末)
次に、利用者端末12の機能構成について説明する。
図5は、利用者端末12の機能構成の一例を示す図である。各種プログラムを実行する際に、利用者端末12は上記のハードウェア資源を用いて、各種の機能を実現する。利用者端末12は、利用者端末12が実現する機能構成として、プログラム36が記憶された記憶部60と、処理部62と、通信部64と、を有している。各機能構成は、プロセッサ20がメモリ22又はストレージ24に記憶されたプログラム36を読み出し、実行することで実現される。
【0041】
通信部64は、通信I/F26により実現される。通信部64は、ネットワークNを介して、サーバ14との間で情報の送受信を行う。通信部64は、サーバ14から送信された情報を受信する。また、通信部64は、利用者端末12からユーザによるリクエストをサーバ14へ送信する。
【0042】
記憶部60は、プログラム36が格納されている。また、処理部62は、撮影制御部66と、取得部68と、表示部70とを有している。撮影制御部66は、一例として、入力装置32のカメラによる撮影の制御を行う。なお、撮影制御部66は、撮影装置16による撮影をネットワークNを介して制御してもよい。
【0043】
取得部68は、撮影結果及び、ユーザにより入力された二次情報に対する所定の条件に関する情報を取得する。所定の条件に関する情報としては、テキスト情報(
図9~
図12参照)や、画像などが挙げられるが、これに限らず、音声情報や取得部68が提示した複数の選択肢の選択結果情報などでもよい。
【0044】
表示部70は、ユーザにより入力された所定の条件に関する情報、サーバ14から受信した二次情報、対象情報、推定情報及びサーバ14による処理に用いられた所定の条件に関する情報の少なくとも一方を出力装置30に表示させる。また、表示部70は、所定の条件に関する情報をユーザが入力するための入力画面を生成し出力装置30に表示させる。
【0045】
図6は、情報処理システム10が実行する処理に関する図である。プロセッサ20がストレージ24に記憶されたプログラム36を読み出して、メモリ22に展開して実行することにより、処理が行われる。なお、図示しないが、プロセッサ20は、情報処理システム10の作動終了操作情報、又は実行中の判定処理において利用者端末12より操作終了の情報(これらを単に「終了操作」と称する)を受信した場合は、処理中のプログラム36に基づく処理を終了する。
【0046】
プロセッサ20は、撮影装置16や利用者端末12を制御して撮影を行い(ステップS100)、撮影結果から対象情報として乳幼児や先生等の位置情報、姿勢情報、視線情報、動作情報及び種類情報の少なくとも一方を取得する(ステップS102)。
【0047】
プロセッサ20は、取得した対象情報から推定される推定情報を生成し(ステップS104)、所定の条件をユーザが入力するための入力画面を表示させる処理を要求する(ステップS106)。
【0048】
プロセッサ20は、入力画面を通じて所定の条件に関する情報が入力されたか否かを判定する(ステップS108)。入力されていない場合(ステップS108:NO)、プロセッサ20は、ステップS106へ処理を移行する。一方、入力された場合(ステップS108:YES)、プロセッサ20は、当該所定の条件に従って推定情報から二次情報を生成する(ステップS110)。
【0049】
プロセッサ20は、生成された二次情報を含む情報を利用者端末12に表示させる(ステップS112)。その後、プロセッサ20は、ユーザよりプログラム36における処理の終了指示があるか否かを判定する(ステップS114)。終了指示が無い場合(ステップS114:NO)は、プロセッサ20は、ステップS100へ処理を移行する。一方、終了指示がある場合(ステップS114:YES)、プロセッサ20は、本処理フローを終了する。
【0050】
図7は、撮影装置16が撮影した画像の一例を示す図である。
撮影装置16が撮影する画像及び処理は、
図7に示す通りである。なお、人物の顔を囲む枠は、一例として学習モデル38により人物の顔を検出していることを示すものである。また、人物の顔から空間へ向けて延びる線(空間側に点が付された線)は、学習モデル38により人物の視線方向及び焦点位置の推定した結果の一例を示すものである。
【0051】
図8は、情報処理システム10の処理の流れの一例を示す概略図である。
情報処理システム10が処理する一連の流れは、
図8に示す通りである。
【0052】
図9は、情報処理システム10における推定情報、所定の条件及びこれに対する二次情報の一例を示す概略図である。
情報処理システム10による入力及ぶ出力の一例は、
図9に示す通りである。
【0053】
図10は、情報処理システム10における推定情報、所定の条件及びこれに対する二次情報の一例を示す概略図である。
情報処理システム10による入力及ぶ出力の一例は、
図10に示す通りである。
【0054】
図11は、情報処理システム10における推定情報、所定の条件及びこれに対する二次情報の一例を示す概略図である。
情報処理システム10による入力及ぶ出力の一例は、
図11に示す通りである。
【0055】
図12は、情報処理システム10における推定情報、所定の条件及びこれに対する二次情報の一例を示す概略図である。
情報処理システム10による入力及ぶ出力の一例は、
図12に示す通りである。
【0056】
本実施形態に係る情報処理システム10によれば、対象を撮影し対象に関する情報である対象情報を取得する対象情報取得ステップと、対象情報から推定される推定情報を取得する推定情報生成ステップと、推定情報から所定の条件に沿って二次情報を生成する生成ステップと、を実行することから、撮影した動画像から連絡帳に記載する情報やアドバイス、デザイン画像など、撮影結果に基く各種情報を取得することができる。つまり、撮影した対象に対する推定結果からより具体化した情報を得ることができる。
【0057】
また、本実施形態では、対象情報を取得し当該対象情報から推定情報を推定する構成とされているが、これに限らず、取得した対象情報の中から所定の要求と一致度が高い対象情報を選択すると共に、選択した対象情報から推定情報を推定してもよい。具体的には、所定の要求として、「遊び」「食事」「睡眠」を予め用意しておき、取得した動画像情報から「遊び」「食事」「睡眠」のシーンと一致度が高い動画像情報を選択する。そして、選択された動画像情報から推定情報を推定することで、推定情報ひいては二次情報を出力として求めたものにより近くすることができる。なお、所定の要求として、「遊び」「食事」「睡眠」を挙げたが、これに限らず、その他のものでもよい。さらに、所定の要求の例として、本システムが設けられた施設における本日の予定を大規模言語モデルに入力し、「遊び」「食事」「睡眠」に対してさらに具体度を増した所定の要件(一例として「ボール遊び」「ハンバーグ」「お昼寝」等)を基に対象情報を選択してもよい。これにより、推定情報ひいては二次情報をより精度の高いものにすることができる。
【0058】
以上、本発明の一実施形態について説明したが、本発明は、上述の実施形態に限定されるものではなく、本発明の目的を達成できる範囲での変形、改良等は本発明に含まれるものである。
【0059】
また例えば、上述した一連の処理は、ハードウェアにより実行させることもできるし、ソフトウェアにより実行させることもできる。換言すると、機能的構成は例示に過ぎず、特に限定されない。即ち、上述した一連の処理を全体として実行できる機能が情報処理システムに備えられていれば足り、この機能を実現するためにどのような機能ブロックを用いるのかは特に限定されない。また、機能ブロックの存在場所も、特に限定されず、任意でよい。例えば、サーバの機能ブロックを利用者端末等に移譲させてもよい。逆に利用者端末の機能ブロックをサーバ等に移譲させてもよい。また、1つの機能ブロックは、ハードウェア単体で構成してもよいし、ソフトウェア単体で構成してもよいし、それらの組み合わせで構成してもよい。
【0060】
また例えば、一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、コンピュータ等にネットワークや記録媒体からインストールされる。コンピュータは、専用のハードウェアに組み込まれているコンピュータであってもよい。また、コンピュータは、各種のプログラムをインストールすることで、各種の機能を実行することが可能なコンピュータ、例えばサーバの他汎用のスマートフォンやパーソナルコンピュータであってもよい。
【0061】
また例えば、このようなプログラムを含む記録媒体は、ユーザにプログラムを提供するために装置本体とは別に配布される図示せぬリムーバブルメディアにより構成されるだけでなく、装置本体に予め組み込まれた状態でユーザに提供される記録媒体等で構成される。
【0062】
なお、本明細書において、記録媒体に記録されるプログラムを記述するステップは、その順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的或いは個別に実行される処理をも含むものである。
また、本明細書において、システムの用語は、複数の装置や複数の手段等より構成される全体的な装置を意味するものとする。
【0063】
以上を換言すると、本発明が適用されるプログラムは、次のような構成を有していれば足り、各種各様な実施の形態を取ることができる。
即ち、本発明が適用されるプログラムは、
対象を撮影し前記対象に関する情報である対象情報を取得する対象情報取得ステップと、前記対象情報から推定される推定情報を取得する推定情報生成ステップと、前記推定情報から所定の条件に沿って二次情報を生成する生成ステップと、を含む処理を実行する。
【0064】
これにより、撮影した対象に対する推定結果からより具体化した情報を得ることができる。
【0065】
また、上述した実施形態では、保育園・幼稚園における撮影結果から二次情報を生成するシステムとされたが、これに限らず、本発明はそれ以外の撮影結果から二次情報を生成する構成としてもよい。一例として、工場における生産ラインを撮影した撮影結果から、生産ラインを流れた製品の状態のレポートを二次情報として生成したり、車両に設けられたドライブレコーダの撮影結果から、運転や事故に関するレポート、交通情報、信号等の交通制御情報の提供などを行うシステムなどがある。これ以外にも、撮影結果から警報の発動、所有者への通知、警察への自動通報等を二次情報として生成するセキュリティシステム、撮影結果から個人の健康状態に関するアドバイス、カスタマイズされたトレーニングプログラムを二次情報として生成する健康管理システム、撮影結果から施肥や灌水の最適化、収穫の最適時期、病害虫駆除の提案を二次情報として生成する農業支援システム、撮影結果から購入推奨、類似商品の提案、価格比較情報を生成する買い物支援システムなど、様々な分野に適用することができる。
【0066】
<付記>
本実施形態は、以下の開示を含む。
【0067】
(付記1)
情報処理装置が実行する情報処理方法であって、
対象を撮影し前記対象に関する情報である対象情報を取得する対象情報取得ステップと、
前記対象情報から推定される推定情報を生成する推定情報生成ステップと、
前記推定情報から所定の条件に沿って二次情報を生成する生成ステップと、
を含む情報処理方法。
【0068】
(付記2)
前記情報処理装置は、前記対象情報取得ステップにおいて、動画及び静止画の少なくとも一方から前記対象情報を取得する、
付記1に記載の情報処理方法。
【0069】
(付記3)
前記対象情報は、前記対象の位置情報である、
付記1及び付記2に記載の情報処理方法。
【0070】
(付記4)
前記対象情報は、前記対象の姿勢情報である、
付記1~付記3のいずれか一項に記載の情報処理方法。
【0071】
(付記5)
前記対象情報は、前記対象の視線情報である、
付記1~付記4のいずれか一項に記載の情報処理方法。
【0072】
(付記6)
前記対象情報は、前記対象の動作情報である、
付記1~付記5のいずれか一項に記載の情報処理方法。
【0073】
(付記7)
前記対象情報は、前記対象の種類情報を取得する、
付記1~付記6のいずれか一項に記載の情報処理方法。
【0074】
(付記8)
前記推定情報は、前記対象情報から前記対象とそれ以外のオブジェクトとの関係性を推定する、
付記1~付記7のいずれか一項に記載の情報処理方法。
【0075】
(付記9)
前記二次情報は、アドバイス情報である、
付記1~付記8のいずれか一項に記載の情報処理方法。
【0076】
(付記10)
前記情報処理装置は、取得した前記対象情報の中から所定の要求と一致度が高い前記対象情報を選択すると共に、
選択した前記対象情報から前記推定情報を推定する、
付記1~付記9のいずれか一項に記載の情報処理方法。
【0077】
(付記11)
対象を撮影し前記対象に関する情報である対象情報を取得する対象情報取得ステップと、
前記対象情報から推定される推定情報を取得する推定情報生成ステップと、
前記推定情報から所定の条件に沿って二次情報を生成する生成ステップと、
をコンピュータに実行させるプログラム。
【0078】
(付記12)
情報処理装置と、当該情報処理装置に相互に通信可能な撮影装置と、を備え、
対象を撮影し前記対象に関する情報である対象情報を取得する対象情報取得ステップと、
前記対象情報から推定される推定情報を取得する推定情報生成ステップと、
前記推定情報から所定の条件に沿って二次情報を生成する生成ステップと、
を実行する情報処理システム。
【符号の説明】
【0079】
10情報処理システム
12利用者端末(情報処理装置、対象者情報取得装置、表示装置)
14サーバ(情報処理装置、対象者情報取得装置、推定装置)
【手続補正書】
【提出日】2024-09-11
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
情報処理装置が実行する情報処理方法であって、
対象を撮影し前記対象に関する情報である対象情報を取得する対象情報取得ステップと、
前記対象情報から推定される推定情報を生成する推定情報生成ステップと、
前記推定情報から任意に入力された生成結果に対する所定の条件に沿って二次情報を生成する生成ステップと、
を含む情報処理方法。
【請求項2】
前記情報処理装置は、前記対象情報取得ステップにおいて、動画及び静止画の少なくとも一方から前記対象情報を取得する、
請求項1に記載の情報処理方法。
【請求項3】
前記対象情報は、前記対象の位置情報である、
請求項1に記載の情報処理方法。
【請求項4】
前記対象情報は、前記対象の姿勢情報である、
請求項1に記載の情報処理方法。
【請求項5】
前記対象情報は、前記対象の視線情報である、
請求項1に記載の情報処理方法。
【請求項6】
前記対象情報は、前記対象の動作情報である、
請求項1に記載の情報処理方法。
【請求項7】
前記対象情報は、前記対象の種類情報を取得する、
請求項1に記載の情報処理方法。
【請求項8】
前記推定情報は、前記対象情報から前記対象とそれ以外のオブジェクトとの関係性を推定する、
請求項1に記載の情報処理方法。
【請求項9】
前記二次情報は、アドバイス情報である、
請求項1に記載の情報処理方法。
【請求項10】
前記情報処理装置は、取得した前記対象情報の中から予め用意された所定の要求と一致度が高い前記対象情報を選択すると共に、
選択した前記対象情報から前記推定情報を推定する、
請求項1に記載の情報処理方法。
【請求項11】
対象を撮影し前記対象に関する情報である対象情報を取得する対象情報取得ステップと、
前記対象情報から推定される推定情報を取得する推定情報生成ステップと、
前記推定情報から任意に入力された生成結果に対する所定の条件に沿って二次情報を生成する生成ステップと、
をコンピュータに実行させるプログラム。
【請求項12】
情報処理装置と、当該情報処理装置に相互に通信可能な撮影装置と、を備え、
対象を撮影し前記対象に関する情報である対象情報を取得する対象情報取得ステップと、
前記対象情報から推定される推定情報を取得する推定情報生成ステップと、
前記推定情報から任意に入力された生成結果に対する所定の条件に沿って二次情報を生成する生成ステップと、
を実行する情報処理システム。