(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2025-03-05
(45)【発行日】2025-03-13
(54)【発明の名称】情報処理装置、方法、プログラム及びシステム
(51)【国際特許分類】
H04N 21/27 20110101AFI20250306BHJP
G06Q 50/10 20120101ALI20250306BHJP
【FI】
H04N21/27
G06Q50/10
(21)【出願番号】P 2024188961
(22)【出願日】2024-10-28
【審査請求日】2024-10-28
【早期審査対象出願】
(73)【特許権者】
【識別番号】500521522
【氏名又は名称】株式会社オプティム
(74)【代理人】
【識別番号】110002815
【氏名又は名称】IPTech弁理士法人
(72)【発明者】
【氏名】菅谷 俊二
【審査官】大西 宏
(56)【参考文献】
【文献】特許第7385204(JP,B1)
【文献】特許第7573330(JP,B1)
【文献】米国特許出願公開第2021/0099505(US,A1)
【文献】米国特許出願公開第2021/0383127(US,A1)
【文献】米国特許第11900067(US,B1)
【文献】中国特許出願公開第113542910(CN,A)
【文献】中国特許出願公開第117237606(CN,A)
【文献】中国特許出願公開第117609550(CN,A)
【文献】中国特許出願公開第117746279(CN,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 21/00 -21/858
G06Q 50/00 -50/20
(57)【特許請求の範囲】
【請求項1】
プロセッサと、メモリとを備えるコンピュータを動作させるためのプログラムであって、前記プログラムは、前記プロセッサに、
複数フレームから成る動画を取得するステップと、
前記動画又は前記動画を成す所定のフレームと、前記動画を成すフレームの内容を説明させるためのプロンプトとを大規模言語モデルに入力し、前記フレームの説明文を前記大規模言語モデルに出力させるステップと、
前記説明文の一覧をユーザに提示し、前記動画の要約を出力させるためのプロンプトを前記ユーザから受け付けるステップと、
複数の前記説明文と、
前記受け付けられたプロンプトとを前記大規模言語モデルに入力し、前記動画の要約を前記大規模言語モデルに出力させるステップと、
前記大規模言語モデルによって出力された要約を
前記ユーザに提示するステップと、
を実行させるプログラム。
【請求項2】
前記説明文を出力させるステップにおいて、複数フレームのうち、所定周期毎のフレームを、前記大規模言語モデルに入力する、請求項1に記載のプログラム。
【請求項3】
前記説明文を出力させるステップにおいて、複数フレームのうち、ランダムなタイミングのフレームを、前記大規模言語モデルに入力する、請求項1に記載のプログラム。
【請求項4】
前記説明文を出力させるステップにおいて、複数フレームのうち、所定の物体又は所定の行為が検出されたフレームを、前記大規模言語モデルに入力する、請求項1に記載のプログラム。
【請求項5】
前記受け付けるステップにおいて、所定の物体又は所定の行為が表れているフレームの説明文を、他の説明文に対して識別可能に前記ユーザに提示する、請求項
1に記載のプログラム。
【請求項6】
前記要約を出力させるステップにおいて、所定の時間幅に含まれる複数のフレームの説明文と、前記所定の時間幅の動画の要約を出力させるためのプロンプトと、を前記大規模言語モデルに入力し、前記所定の時間幅の動画の要約を前記大規模言語モデルに出力させる、請求項1に記載のプログラム。
【請求項7】
前記取得するステップにおいて、前記動画は、監視カメラに撮影された動画である、請求項1に記載のプログラム。
【請求項8】
前記取得するステップにおいて、前記動画は、手術において撮影された動画である、請求項1に記載のプログラム。
【請求項9】
プロセッサと、メモリとを備えるコンピュータに実行される方法であって、前記プロセッサが、請求項1から請求項
8のいずれかに係る発明において実行される全てのステップを実行する方法。
【請求項10】
制御部と、記憶部とを備える情報処理装置であって、前記制御部が、請求項1から請求項
8のいずれかに係る発明において実行される全てのステップを実行する情報処理装置。
【請求項11】
請求項1から請求項
8のいずれかに係る発明において実行される全てのステップを実行する手段を備えるシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、情報処理装置、方法、プログラム及びシステムに関する。
【背景技術】
【0002】
特許文献1では、画像に表されたオブジェクトの動作や音の把握が容易な画像を提供する技術について記載されている。例えば、特許文献1では、情報処理装置は、複数のフレームで構成され1又は複数のオブジェクト(人や物)が表された動画像データを受け、1又は複数のオブジェクトの動作、又は、1又は複数のオブジェクトからの音に基づいて、動画像データから特徴的フレームを選択する。情報処理装置は、動画像データに表された1又は複数のオブジェクトの動き、又は、1又は複数のオブジェクトからの音に基づいて、1又は複数のオブジェクトから特徴的オブジェクトを選択する。情報処理装置は、特徴的オブジェクトの動作及び特徴的オブジェクトからの音のうち少なくとも一方を示すテクスト情報を、特徴的オブジェクトに関連付けて、特徴的フレームの画像に表示する。
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1では、特徴的オブジェクトの動作及び特徴的オブジェクトからの音のうち少なくとも一方を示すテクスト情報を、特徴的オブジェクトに関連付けて、特徴的フレームの画像に表示する。特許文献1では、画像を確認することで、画像に表されたオブジェクトの動作や音の把握が可能であるが、画像に情報を関連付けるため、容量が重くなったり、所望の情報についての検索がかけづらかったりする等の問題がある。
【0005】
本開示の目的は、動画の要約を容易に把握可能とすることである。
【課題を解決するための手段】
【0006】
プロセッサと、メモリとを備えるコンピュータを動作させるためのプログラムであって、プログラムは、プロセッサに、複数フレームから成る動画を取得するステップと、動画又は動画を成す所定のフレームと、動画を成すフレームの内容を説明させるためのプロンプトとを大規模言語モデルに入力し、フレームの説明文を大規模言語モデルに出力させるステップと、複数の説明文と、動画の要約を出力させるためのプロンプトとを大規模言語モデルに入力し、動画の要約を大規模言語モデルに出力させるステップと、大規模言語モデルによって出力された要約をユーザに提示するステップと、を実行させるプログラム。
【発明の効果】
【0007】
動画の要約を容易に把握できる。
【図面の簡単な説明】
【0008】
【
図1】システム1の全体構成を示すブロック図である。
【
図2】端末装置10の機能的な構成例を示すブロック図である。
【
図3】サーバ20の機能的な構成例を示すブロック図である。
【
図6】システム1における処理の流れの一例を示す図である。
【
図8】コンピュータ90の基本的なハードウェア構成を表すブロック図である。
【発明を実施するための形態】
【0009】
以下、本開示の実施形態について図面を参照して説明する。実施形態を説明する全図において、共通の構成要素には同一の符号を付し、繰り返しの説明を省略する。なお、以下の実施形態は、特許請求の範囲に記載された本開示の内容を不当に限定するものではない。また、実施形態に示される構成要素のすべてが、本開示の必須の構成要素であるとは限らない。また、各図は模式図であり、必ずしも厳密に図示されたものではない。
【0010】
また、以下の説明において、「プロセッサ」は、1以上のプロセッサである。少なくとも1つのプロセッサは、典型的には、CPU(Central Processing Unit)のようなマイクロプロセッサであるが、GPU(Graphics Processing Unit)のような他種のプロセッサでもよい。少なくとも1つのプロセッサは、シングルコアでもよいしマルチコアでもよい。
【0011】
また、少なくとも1つのプロセッサは、処理の一部又は全部を行うハードウェア回路(例えばFPGA(Field-Programmable Gate Array)又はASIC(Application Specific Integrated Circuit))といった広義のプロセッサでもよい。
【0012】
また、以下の説明において、「xxxテーブル」といった表現により、入力に対して出力が得られる情報を説明することがあるが、この情報は、どのような構造のデータでもよいし、入力に対する出力を発生するニューラルネットワークのような学習モデルでもよい。従って、「xxxテーブル」を「xxx情報」と言うことができる。
【0013】
また、以下の説明において、各テーブルの構成は一例であり、1つのテーブルは、2以上のテーブルに分割されてもよいし、2以上のテーブルの全部又は一部が1つのテーブルであってもよい。
【0014】
また、以下の説明において、「プログラム」を主語として処理を説明する場合があるが、プログラムは、プロセッサによって実行されることで、定められた処理を、適宜に記憶部及び/又はインタフェース部などを用いながら行うため、処理の主語が、プロセッサ(或いは、そのプロセッサを有するコントローラのようなデバイス)とされてもよい。
【0015】
プログラムは、計算機のような装置にインストールされてもよいし、例えば、プログラム配布サーバ又は計算機が読み取り可能な(例えば非一時的な)記録媒体にあってもよい。また、以下の説明において、2以上のプログラムが1つのプログラムとして実現されてもよいし、1つのプログラムが2以上のプログラムとして実現されてもよい。
【0016】
また、以下の説明において、種々の対象の識別情報として、識別番号が使用されるが、識別番号以外の種類の識別情報(例えば、英字や符号を含んだ識別子)が採用されてもよい。
【0017】
また、以下の説明において、同種の要素を区別しないで説明する場合には、参照符号(又は、参照符号のうちの共通符号)を使用し、同種の要素を区別して説明する場合は、要素の識別番号(又は参照符号)を使用することがある。
【0018】
また、以下の説明において、制御線や情報線は、説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていてもよい。
【0019】
各情報処理装置は演算装置と記憶装置とを備えたコンピュータにより構成されている。コンピュータの基本ハードウェア構成および、当該ハードウェア構成により実現されるコンピュータの基本機能構成は後述する。サーバ20、端末装置10のそれぞれについて、後述するコンピュータの基本ハードウェア構成およびコンピュータの基本機能構成と重複する説明は省略する。
【0020】
<概略>
本実施形態に係るシステムは、所定の規則に従い、時系列的に連続した複数のフレーム、(例:動画)についての説明文を大規模言語モデル(LLM:large language model)に生成させ、生成された複数の説明文に基づき、複数のフレームのサマリ(例:動画の要約)をLLMに生成させる。
【0021】
<1.システム全体の構成図>
図1は、システム1の全体構成の例を示すブロック図である。
図1に示すシステム1は、例えば、端末装置10、サーバ20、及びLLMシステム30を含む。端末装置10、サーバ20、及びLLMシステム30は、例えば、ネットワーク80を介して通信接続する。
【0022】
図1において、システム1が端末装置10を2台含む例を示しているが、システム1に含まれる端末装置10の数は、2台に限定されない。システム1に含まれる端末装置10は、1台であってもよいし、3台以上であってもよい。
【0023】
図1において、システム1が1つのLLMシステム30を含む例を示しているが、システム1に含まれるLLMシステム30の数は、1つに限定されない。システム1に含まれるLLMシステム30は、2つ以上であってもよい。
【0024】
図1において、サーバ20がLLMシステム30から独立している例を示しているが、サーバ20は、LLMシステム30の機能を含んでいてもよい。つまり、サーバ20は、LLMを記憶していてもよい。
【0025】
本実施形態において、複数の装置の集合体を1つのサーバとしてもよい。1つ又は複数のハードウェアに対して本実施形態に係るサーバ20を実現することに要する複数の機能の配分の仕方は、各ハードウェアの処理能力及び/又はサーバ20に求められる仕様等に鑑みて適宜決定することができる。
【0026】
図1に示す端末装置10は、サーバ20により提供されるサービスを利用するユーザが使用する情報処理装置である。例えば、端末装置10は、サーバ20により提供される文書出力サービスを利用し、文書を作成するユーザが操作する情報処理装置である。端末装置10は、例えば、据え置き型のPC(Personal Computer)、ラップトップPC、ヘッドマウントディスプレイ等により実現される。また、端末装置10は、スマートフォン、又はタブレット端末等の携行性を備えたコンピュータであってもよい。
【0027】
端末装置10は、通信IF(Interface)12と、入力装置13と、出力装置14と、メモリ15と、ストレージ16と、プロセッサ19とを備える。入力装置13は、ユーザからの入力操作を受け付けるための装置(例えば、タッチパネル、タッチパッド、マウス等のポインティングデバイス、キーボード等)である。出力装置14は、ユーザに対して情報を提示するための装置(ディスプレイ、スピーカー等)である。
【0028】
サーバ20は、動画の要約を生成するサービスを提供する情報処理装置である。サーバ20は、例えば、ネットワーク80に接続されたコンピュータにより実現される情報処理装置である。
図1に示すように、サーバ20は、通信IF22と、入出力IF23と、メモリ25と、ストレージ26と、プロセッサ29とを備える。入出力IF23は、ユーザからの入力操作を受け付けるための入力装置、及び、ユーザに対して情報を出力するための出力装置とのインタフェースとして機能する。
【0029】
LLMシステム30は、例えば、自然言語処理(NLP)の分野で使用される大規模な人工知能モデル(LLM)が構築されたシステムである。LLMは、大量のテキストデータ(ウェブページ、書籍、記事等)を学習することで、人間が使用する言語のパターンを理解し、自然言語生成(NLG)タスクを効果的に実行することができる。
【0030】
LLMは、特定の問いへの応答生成、文章の自動生成、テクストの要約、翻訳、感情分析等、多くのNLPタスクで使用される。また、教育、エンターテイメント、カスタマーサービス、製品開発等、様々な用途で活用可能である。LLMは、例えば、マルチモーダルLLMである。LLMには、例えば、以下のようなものが存在する。
・GPT-4(登録商標)(OpenAI社)
・Gemini(登録商標)(Google社)
・StableLM(StableAI社)
・Llama3.2(Meta社)
【0031】
LLMシステム30は、サーバ20から受信したテキストデータ、及びプロンプトをLLMに入力し、入力されたテキストデータ、及びプロンプトに基づく回答をLLMに出力させる。LLMシステム30は、LLMから出力された回答をサーバ20へ送信する。
【0032】
撮影装置31は、受光素子により光を受光し、画像信号として出力するための装置である。撮影装置31は、ユーザが状況を把握したい空間(以下、現場と称する)の状況を撮影できるように設置されている。具体的には、撮影装置31は、遮蔽物なく現場全体を見渡せる位置に設置されている。例えば、撮影装置31は、現場の隅の高所に設置される。撮影装置31は、1台で現場全体の状況を捉えきれない場合には、複数台設置される。撮影装置31は、例えば、繁華街、公園、駅、オフィス、学校などに設置された監視カメラである。撮影装置31は、例えば、病院において手術を撮影したカメラである。
【0033】
各情報処理装置は演算装置と記憶装置とを備えたコンピュータにより構成されている。コンピュータの基本ハードウェア構成および、当該ハードウェア構成により実現されるコンピュータの基本機能構成は後述する。端末装置10、サーバ20のそれぞれについて、後述するコンピュータの基本ハードウェア構成およびコンピュータの基本機能構成と重複する説明は省略する。
【0034】
<2.端末装置の構成>
図2は、端末装置10の機能的な構成例を表すブロック図である。
図2に示すように、端末装置10は、通信部120と、入力装置13と、出力装置14と、音声処理部17と、マイク171と、スピーカー172と、カメラ160と、位置情報センサ150と、記憶部180と、制御部190とを備える。端末装置10に含まれる各ブロックは、例えば、バス等により電気的に接続される。
【0035】
通信部120は、端末装置10が他の装置と通信するための変復調処理等の処理を行う。通信部120は、制御部190で生成された信号に送信処理を施し、外部(例えば、サーバ20)へ送信する。通信部120は、外部から受信した信号に受信処理を施し、制御部190へ出力する。
【0036】
入力装置13は、端末装置10を操作するユーザが指示、又は情報を入力するための装置である。入力装置13は、例えば、操作面へ触れることで指示が入力されるタッチ・センシティブ・デバイス131等により実現される。端末装置10がPC等である場合には、入力装置13は、リーダー、キーボード、マウス等により実現されてもよい。入力装置13は、ユーザから入力される指示を電気信号へ変換し、電気信号を制御部190へ出力する。なお、入力装置13には、例えば、外部の入力機器から入力される電気信号を受け付ける受信ポートが含まれてもよい。
【0037】
出力装置14は、端末装置10を操作するユーザへ情報を提示するための装置である。出力装置14は、例えば、ディスプレイ141等により実現される。ディスプレイ141は、制御部190の制御に応じたデータを表示する。ディスプレイ141は、例えば、LCD(Liquid Crystal Display)、又は有機EL(Electro-Luminescence)ディスプレイ等によって実現される。
【0038】
音声処理部17は、例えば、音声信号のデジタル-アナログ変換処理を行う。音声処理部17は、マイク171から与えられる信号をデジタル信号に変換して、変換後の信号を制御部190へ与える。また、音声処理部17は、音声信号をスピーカー172へ与える。音声処理部17は、例えば音声処理用のプロセッサによって実現される。マイク171は、音声入力を受け付けて、当該音声入力に対応する音声信号を音声処理部17へ与える。スピーカー172は、音声処理部17から与えられる音声信号を音声に変換して当該音声を端末装置10の外部へ出力する。
【0039】
カメラ160は、受光素子により光を受光し、撮影信号として出力するためのデバイスである。
【0040】
位置情報センサ150は、端末装置10の位置を検出するセンサであり、例えばGPS(Global Positioning System)モジュールである。GPSモジュールは、衛星測位システムで用いられる受信装置である。衛星測位システムでは、少なくとも3個または4個の衛星からの信号を受信し、受信した信号に基づいて、GPSモジュールが搭載される端末装置10の現在位置を検出する。位置情報センサ150は、端末装置10が接続する無線基地局の位置から、端末装置10の現在の位置を検出してもよい。
【0041】
記憶部180は、例えば、メモリ15、及びストレージ16等により実現され、端末装置10が使用するデータ、及びプログラムを記憶する。記憶部180は、例えば、ユーザ情報181を記憶する。
【0042】
ユーザ情報181は、例えば、端末装置10を使用するユーザについての情報を含む。ユーザについての情報には、例えば、ユーザの氏名、年齢、住所、生年月日、連絡先等が含まれる。
【0043】
制御部190は、プロセッサ19が記憶部180に記憶されるプログラムを読み込み、プログラムに含まれる命令を実行することにより実現される。制御部190は、端末装置10の動作を制御する。制御部190は、プログラムに従って動作することにより、操作受付部191と、送受信部192と、提示制御部193としての機能を発揮する。
【0044】
操作受付部191は、入力装置13から入力される指示、又は情報を受け付けるための処理を行う。具体的には、例えば、操作受付部191は、タッチ・センシティブ・デバイス131等から入力される指示、又は情報を受け付ける。
【0045】
また、操作受付部191は、マイク171から入力される音声指示を受け付ける。具体的には、例えば、操作受付部191は、マイク171から入力され、音声処理部17でデジタル信号に変換された音声信号を受信する。操作受付部191は、例えば、受信した音声信号を分析して所定の名詞を抽出することで、ユーザからの指示を取得する。
【0046】
送受信部192は、端末装置10が、サーバ20等の外部の装置と、通信プロトコルに従ってデータを送受信するための処理を行う。具体的には、例えば、送受信部192は、ユーザから入力された情報、又はユーザから指示をサーバ20へ送信する。また、送受信部192は、サーバ20から提供される情報を受信する。
【0047】
提示制御部193は、サーバ20から提供された情報をユーザに対して提示するため、出力装置14を制御する。具体的には、例えば、提示制御部193は、サーバ20から送信される文書に関する情報をディスプレイ141に表示させる。また、提示制御部193は、サーバ20から送信される情報をスピーカー172から出力させる。
【0048】
<3.サーバの機能的な構成>
図3は、サーバ20の機能的な構成例を示す図である。
図3に示すように、サーバ20は、通信部201と、記憶部202と、制御部203としての機能を発揮する。
【0049】
通信部201は、サーバ20が外部の装置と通信するための処理を行う。
【0050】
記憶部202は、例えば、ユーザ情報テーブル2021と、動画ログテーブル2022等とを有する。記憶部202で記憶されるテーブルは、これらに限定されない。
【0051】
ユーザ情報テーブル2021は、ユーザについての情報を記憶するテーブルである。詳細は後述する。
【0052】
動画ログテーブル2022は、動画を成すフレームについての情報を記憶するテーブルである。詳細は後述する。
【0053】
制御部203は、プロセッサ29が記憶部202に記憶されるプログラムを読み込み、プログラムに含まれる命令を実行することにより実現される。プログラムは、ウェブブラウザアプリケーション等のアプリケーションを含む。プログラムは、端末装置10に記憶されているウェブブラウザアプリケーション上で実行されるJavaScript(登録商標)等のプログラミング言語を含む。制御部203は、プログラムに従って動作することにより、受信制御モジュール2031、送信制御モジュール2032、サービス処理モジュール2033、及び提示制御モジュール2034として示す機能を発揮する。
【0054】
受信制御モジュール2031は、サーバ20が外部の装置から通信プロトコルに従って信号を受信する処理を制御する。
【0055】
送信制御モジュール2032は、サーバ20が外部の装置に対し通信プロトコルに従って信号を送信する処理を制御する。
【0056】
サービス処理モジュール2033は、LLMにプロンプトを入力する処理および動画の要約を生成させる処理を制御する。
【0057】
提示制御モジュール2034は、ユーザへ情報を提示する処理を制御する。
【0058】
画像解析モジュール2035は、動画を解析することで、所定の物体、所定の行為、又はこれらの組み合わせを検出する。
【0059】
<4.データ構造>
サーバ20が記憶するテーブルのデータ構造を説明する。なお、説明するデータ構造は一例であり、記載されていないデータを除外するものではない。また、同一のテーブルに記載されるデータであっても、記憶部202において離れた記憶領域に記憶されていることもあり得る。
【0060】
図4は、ユーザ情報テーブル2021のデータ構造を示す図である。
図4に示すユーザ情報テーブル2021は、ユーザIDをキーとして、氏名、年齢、性別、生年月日、連絡先のカラムを有するテーブルである。
【0061】
ユーザIDは、ユーザを一意に識別するための識別子を記憶する項目である。氏名は、ユーザの名前を記憶する項目である。年齢は、ユーザの年齢を記憶する項目である。性別は、ユーザの性別を記憶する項目である。生年月日は、ユーザの生年月日を記憶する項目である。連絡先は、ユーザが有している端末装置10の連絡先(例えば、電話番号、メールアドレス等)を記憶する項目である。
【0062】
図5は、動画ログテーブル2022のデータ構造を示す図である。
図5が示すように、動画ログテーブル2022は、例えば、動画ID、フレームID、時刻、説明文の項目を有する。動画ログテーブル2022は、動画IDの下にフレームIDを羅列する。動画ログテーブル2022は、1のフレームIDをキーとして、時刻、説明文を紐づける。
【0063】
動画IDは、撮影装置31によって撮影された動画を識別するための識別情報を示す。例えば、動画を撮影する撮影装置31毎に、異なる動画IDが動画に付与される。動画は、同じ撮影装置31によって撮影されていても、時間毎(例えば、日毎、3時間毎など)に異なる動画として認識され異なる動画IDが付与されてもよい。
【0064】
フレームIDは、動画を成すフレームを識別するための識別情報を示す。フレームIDは、動画を成すフレームのうち所定のフレームに付与される。詳細は後述する。時刻は、フレームが抽出された時刻を示す。
【0065】
説明文は、フレームの内容を説明する文を示す。詳細は後述する。
【0066】
<5.動作>
システム1における処理の流れの一例を説明する。
【0067】
図6は、サーバ20がLLMに動画の要約を生成させる際の動作の例を表すフローチャートである。
【0068】
ステップS1001において、サーバ20は撮影装置31から動画を受信する。具体的には、受信制御モジュール2031は、撮影装置31によって撮影された現場の動画を、撮影装置31から受信する。動画には、例えば、撮影した撮影装置31の識別情報に基づく動画IDが付されている。サーバ20は、例えば、受信した動画を記憶部202に記憶する。撮影装置31は、動画を1のファイルとして一括でサーバ20に送信してもよいし、動画をパケット単位でサーバ20に送信してもよい。
【0069】
受信制御モジュール2031は、例えば、動画の代わりに動画を成す複数のフレームのうち所定のフレームを、撮影装置31から受信してもよい。この場合、撮影装置31は、例えば、所定周期毎(例えば、30秒毎など)のフレームをサーバ20に送信する。また、撮影装置31は、ランダムなタイミングのフレームをサーバ20に送信してもよい。
【0070】
ステップS1002において、サーバ20はフレームを選定する。具体的には、サービス処理モジュール2033は、所定の規則に従って、受信された動画を成す複数のフレームの中から所定のフレームを選定する。
【0071】
例えば、サービス処理モジュール2033は、動画において所定周期毎(例えば、30秒毎)のフレームを選定する。
【0072】
また、例えば、サービス処理モジュール2033は、動画においてランダムなタイミングのフレームを選定してもよい。
【0073】
また、例えば、サービス処理モジュール2033は、画像解析モジュール2035が所定の物体又は所定の行為を検出したフレームを選定してもよい。この場合、例えば、画像解析モジュール2035は、ステップS1001において受信された動画を解析する。所定の物体は、例えば、乗物、動物、武器などである。所定の行為は、例えば、入退室、転倒、衝突などである。画像解析モジュール2035は、動画を解析することで、所定の物体、所定の行為、又はこれらの組み合わせを検出する。
【0074】
サービス処理モジュール2033は、選定されたフレームにフレームIDを付与する。
【0075】
ステップS1003において、サーバ20は、フレーム、および、プロンプトAをLLMシステム30に送信する。具体的には、サービス処理モジュール2033は、選定されたフレーム、および、当該フレームの内容を説明させるためのプロンプトAをLLMシステム30に送信する。プロンプトAは、例えば、動画要約のサービス提供者によって既定で設定されている。プロンプトAの文面は、例えば、「入力されたフレームの内容を説明する文を出力してください」である。LLMシステム30は、送信されたフレームおよびプロンプトAをLLMに入力する。
【0076】
なお、サービス処理モジュール2033は、フレームの代わりに、動画をLLMシステム30に送信してもよい。この場合、プロンプトAの文面は、例えば、「フレームIDが付与されたフレームの内容を説明する文を出力してください」である。プロンプトAの文面は、所定のタイミングのフレームの内容を説明させるものであってもよい。具体的には、例えば、プロンプトAの文面は、「タグが付与されたフレームの内容を説明する文を出力してください」であってもよい。また、プロンプトAの文面は、例えば、「所定周期のフレームの内容を説明する文を出力してください」であってもよい。
【0077】
ステップS1004において、サーバ20は、LLMシステム30に説明文を出力させる。具体的には、LLMは、入力されたプロンプトAに応える説明文を出力する。受信制御モジュール2031は、出力された説明文をLLMシステム30から受信する。サーバ20は、動画ログテーブル2022において、受信された説明文、および、当該説明文に対応する動画ID、フレームID、時刻を記憶する。つまり、サービス処理モジュール2033は、ユーザからの指示がなくても、フレームの説明文をLLMから出力させ、動画ログテーブル2022に記憶させる。
【0078】
ステップS1005において、サーバ20は、説明文に係る情報を端末装置10に提示する。具体的には、送信制御モジュール2032は、動画データ、動画ID、フレームID、時刻、説明文を端末装置10に送信する。提示制御モジュール2034は、動画データ、動画ID、フレームID、時刻、説明文を端末装置10で表示するための配置情報を端末装置10に送信する。
【0079】
ステップS1006において、端末装置10は、説明文に係る情報をユーザに提示する。具体的には、提示制御部193は、サーバ20から送信された配置情報に従って、動画データ、動画ID、フレームID、時刻、説明文をディスプレイ141に表示する。この時、提示制御部193は、所定の物体又は所定の行為が表れているフレームの説明文を、他の説明文と識別可能な態様で表示してもよい。例えば、提示制御部193は、所定の物体又は所定の行為が表れているフレームの説明文に、ユーザの目を惹く印をつけてもよい。ユーザの目を惹く印は、例えば、星マークなどである。所定の物体は、例えば、乗物、動物、武器などである。所定の行為は、例えば、入退室、転倒、衝突などである。なお、提示制御部193は、説明文に係る情報をディスプレイ141に表示しなくてもよい。
【0080】
ステップS1007において、端末装置10は、ユーザから要約出力の指示を受け付ける。具体的には、操作受付部191は、動画の要約を出力させるためのプロンプトBを受け付ける。例えば、ユーザは、複数のフレームの説明文が表示されている画面を参照し、ディスプレイ141上でプロンプトBを入力する。なお、ユーザは、説明文が表示されていない画面において、プロンプトBを入力してもよい。プロンプトBの文面は、例えば、「動画内で危険な状況が発生している場合、その状況と時刻を教えてください」である。また、プロンプトBの文面は、例えば、「HH時MM1分からMM2分までに発生した内容を教えてください。」であってもよい。サーバ20は、プロンプトBを端末装置10から受信する。なお、ユーザは、プロンプトBにて要約の対象となる動画の時間幅(開始時刻から終了時刻)を指定してもよいし、しなくてもよい。ユーザがプロンプトBにて要約の対象となる動画の時間幅を指定しなかった場合、サービス処理モジュール2033は、例えば、動画全体、すなわち、動画の開始時刻から終了時刻までの全時間が時間幅として指定されたとみなす。
【0081】
ステップS1008において、サーバ20は、プロンプトBおよび説明文をLLMシステム30に送信する。具体的には、サービス処理モジュール2033は、端末装置10から送信されたプロンプトB、および、要約を作成するのに必要な時間幅における説明文をLLMシステム30に送信する。プロンプトBにおいて、対象となる動画の時間幅が指定されている場合、サービス処理モジュール2033は、プロンプトBにて指定された時間幅における説明文をLLMシステム30へ送信する。
【0082】
ステップS1009において、サーバ20は、LLMシステム30に動画の要約を出力させる。具体的には、LLMは、ステップS1008において送信されたプロンプトBと、説明文とに基づき、動画の要約を出力する。LLMから出力される動画の要約は、例えば、複数の説明文の内容に基づいている。受信制御モジュール2031は、LLMから出力された動画の要約をLLMシステム30から受信する。
【0083】
ステップS1010において、サーバ20は、動画の要約に係る情報を端末装置10に提示する。具体的には、提示制御モジュール2034は、動画の要約に関する情報を端末装置10に提示する。送信制御モジュール2032は、動画の要約を端末装置10で表示するための配置情報を端末装置10に送信する。
【0084】
ステップS1011において、端末装置10は、動画の要約に係る情報をユーザに表示する。具体的には、提示制御部193は、サーバ20から送信された配置情報に基づき、動画の要約をディスプレイ141に表示する。提示制御部193は、動画の要約の中で注目すべき事象を指し表す単語、句、文を、他の単語、句、文と識別可能に表示してもよい。具体的には、例えば、提示制御部193は、ユーザの目を惹く装飾を施してもよい。ユーザの目を惹く装飾は、例えば、太文字、カラー文字などである。
【0085】
なお、ステップS1004において説明文を出力するLLMシステム30、および、ステップS1009において動画の要約を出力するLLMシステム30は、別個であってもよい。例えば、LLMシステム30AがプロンプトAに応じて説明文を出力し、LLMシステム30BがプロンプトBに応じて動画の要約を出力してもよい。
【0086】
<6.画面例>
本開示における端末装置10のディスプレイ141の画面例を説明する。
【0087】
図7は、説明文と要約が表示され、プロンプトBが入力される画面の一例である。
【0088】
領域501は、ステップ1006において、動画が表示される領域である。
図7では、人が床に伏せているフレームが領域501に表示されている。領域501の隅に、動画に関する情報は表示される。動画に関する情報は、例えば、動画ID、表示されているフレームの時刻などである。
【0089】
バー502は、時間軸上における動画の再生箇所を表すためのバーである。ユーザは、バー502上のドットを調整することで再生箇所を調整できる。
【0090】
アイコン群503は、動画を操作するためのアイコンである。アイコン群503は、
図7で示される3アイコンに限定されない。
【0091】
表504は、ステップ1006において、フレームID、時刻、説明文を表示するための表である。ユーザが表上のフレームID、時刻、説明文のいずれをクリックすると、対応するフレームは表領域501上に表示される。
【0092】
ボックス505は、ステップ1007において、ユーザからプロンプトBが入力されるためのボックスである。ユーザにより入力されたプロンプトBは、例えば、ユーザが動画要約サービスを終了するまで(例えば、
図7の画面がユーザによって閉じられるまで)、ボックス505での表示が維持されてもよい。
【0093】
ボックス506は、ステップ1011において、要約が表示されるためのボックスである。プロンプトBに対する回答として出力された要約は、例えば、ユーザが動画要約サービスを終了するまで(例えば、
図7の画面がユーザによって閉じられるまで)、ボックス506での表示が維持されてもよい。なお、
図7では、プロンプトBと、要約としての回答とが異なるボックスで表示される場合を説明したが、表示形式はこれに限定されない。プロンプトBと、要約としての回答とは、チャット形式で表示されてもよい。
【0094】
<7.小括>
以上のように、上記実施形態では、サーバ20は、複数フレームから成る動画を取得する。サーバ20は、動画又は動画を成す所定のフレームと、動画を成すフレームの内容を説明させるためのプロンプトとを大規模言語モデルに入力し、フレームの説明文を大規模言語モデルに出力させる。サーバ20は、複数の説明文と、動画の要約を出力させるためのプロンプトとを大規模言語モデルに入力し、動画の要約を大規模言語モデルに出力させる。サーバ20は、大規模言語モデルによって出力された要約をユーザに提示する。これにより、ユーザが動画全時間を視聴せずとも、動画の要約を通して、動画の中で起きている事象の概要を容易に把握できる。
【0095】
また、上記実施形態では、説明文を出力させるステップにおいて、サーバ20は、複数フレームのうち、所定周期毎のフレームを、大規模言語モデルに入力する。これにより、時間を条件としたフレームの選定が可能となる。また、フレームが自動的に大規模言語モデルに入力されるようになる。
【0096】
また、上記実施形態では、説明文を出力させるステップにおいて、サーバ20は、複数フレームのうち、ランダムなタイミングのフレームを、大規模言語モデルに入力する。これにより、ランダムなフレームの選定が可能となる。また、フレームが自動的に大規模言語モデルに入力されるようになる。
【0097】
また、上記実施形態では、説明文を出力させるステップにおいて、サーバ20は、所定の物体又は所定の行為が検出されたフレームを、大規模言語モデルに入力する。これにより、ユーザが着目する物体又は行為を条件としたフレームの選定が可能となる。また、フレームが自動的に大規模言語モデルに入力されるようになる。
【0098】
また、上記実施形態では、サーバ20は、説明文の一覧をユーザに提示し、動画の要約を出力させるためのプロンプトをユーザから受け付けるステップ。これにより、ユーザにとって説明文の一覧性が向上し、要約を指示するための判断材料が把握しやすくなる。
【0099】
また、上記実施形態では、受け付けるステップにおいて、サーバ20は、所定の物体又は所定の行為が表れているフレームの説明文を、他の説明文に対して識別可能にユーザに提示する。これにより、ユーザが着目する物体又は行為が表れているフレームが瞬時に分かる。
【0100】
また、上記実施形態では、要約を出力させるステップにおいて、サーバ20は、所定の時間幅に含まれる複数のフレームの説明文と、所定の時間幅の動画の要約を出力させるためのプロンプトと、を大規模言語モデルに入力し、所定の時間幅の動画の要約を大規模言語モデルに出力させる。これにより、ユーザが所望する時間幅だけの動画の要約が手に入る。
【0101】
また、上記実施形態では、動画は、監視カメラに撮影された動画である。また、動画は、手術において撮影された動画であってもよい。これにより、多様な場所ないし状況での動画の要約が可能となる。
【0102】
<8.変形例>
上記実施形態の変形例を説明する。
<8.1.変形例1>
上記実施形態では、ユーザは、ステップS1007において、プロンプトBにて、すなわち、言語的な方法にて、動画の要約対象となる時間幅を指定する。しかしながら、ユーザは、非言語的な方法にて動画の要約対象となる時間幅を指定してもよい。例えば、端末装置10は、ユーザから、
図7におけるバー502にて開始時刻のポイントから終了時刻のポイントにかけてドラッグされることによって、時間幅の指定を受け付けてもよい。また、端末装置10は、ユーザから、
図7における表504にて開始時刻の行から終了時刻の行にかけてドラッグされることによって、時間幅の指定を受け付けてもよい。
【0103】
これらの場合、ユーザは、プロントBにて時間幅の指定をしない。プロンプトBの文面は、例えば、「動画内で危険な状況が発生している場合、その状況と時刻を教えてください」である。
【0104】
<8.2.変形例2>
上記実施形態では、サーバ20は、選定されたフレーム内の全領域の説明文をLLMシステム30に出力させた。しかし、サーバ20は、選定されたフレーム内の一部領域の説明文のみをLLMシステム30に出力させてもよい。例えば、ディスプレイ141上で
図7における動画が表示される領域501のうち一部領域がユーザによってドラッグされて指定され、当該領域で表される画像の説明を求めるプロンプトが入力される。このときのプロンプトは、例えば、「この中にXXは、何人いますか?」、又は「この中の状況を教えてください。」等である。サーバ20は、指定された領域を特定する情報と、プロンプトとを端末装置10から受け付ける。サーバ20は、指定された領域に基づきフレームから画像を抜き出す。サーバ20は、抜き出した画像と、プロンプトとをLLMシステム30に入力し、選定されたフレーム内の指定された一部領域の説明文をLLMシステム30に出力させる。
【0105】
なお、指定された一部領域に加工されるべき光景がある場合、サーバ20は、該当光景に加工してもよい。加工されるべき光景は、例えば、プライバシーに係る光景である。加工は、例えば、マスク処理、又はモザイク処理等、対象の識別力を下げる処理である。例えば、サーバ20は、指定された領域内にプライバシーに配慮すべき光景(例えば、人の顔など)を検出した場合、当該対象に対してモザイクをかける。
【0106】
<8.3.変形例3>
サーバ20は、フレームの説明文を参照し、重要なフレームがつなぎ合わされた動画を、すなわち、ハイライト動画を作成してもよい。例えば、重要なフレームは、その説明文が長い(説明文が5文以上である、説明文が50文字以上である、など)フレームである。また、例えば、重要なフレームは、所定の物体又は所定の行為に言及されている説明文のフレームである。所定の物体は、例えば、乗物、動物、武器などである。所定の行為は、例えば、入退室、転倒、衝突などである。
【0107】
サーバ20は、例えば、ユーザにより、ハイライト動画の作成を指示する旨の指示を受け付ける。指示を受けるとサーバ20は、例えば、記憶している説明文を解析し、重要なフレームを抽出する。解析は、例えば、自然言語解析であってもよいし、重要なフレームを抽出するように学習された学習済みモデルを用いて実施してもよいし、LLMを用いて実施してもよい。サーバ20は、重要なフレームに基づいて、ハイライト動画を構成し得るフレームを抽出する。サーバ20は、重要なフレームを、ハイライト動画を構成し得るフレームとしてもよいし、重要なフレームを基準とした複数のフレームをハイライト動画を構成し得るフレームとしてもよい。サーバ20は、抽出したフレームを繋ぎ、ハイライト動画を作成する。これにより、ユーザは、ハイライト動画を容易に入手することが可能となり、動画を確認する負担が軽減されることになる。
【0108】
<8.4.変形例4>
上記実施形態では、ステップS1007において、プロンプトBは動画の要約を出力させるためのプロンプトであり、プロンプトBの文面は、例えば、「動画内で危険な状況が発生している場合、その状況と時刻を教えてください」である。しかしながら、プロンプトBは、動画での事象を分析するためのプロンプトであってもよい。つまり、プロンプトBの文面は、例えば、「動画において来店者の年齢の分布を教えてください」であってもよい。この場合、ステップS1009においてLLMは、直感的形式で結果を出力してもよい。つまり、例えば、プロンプトBの文面は、「動画において来店者の年齢の分布を、グラフで教えてください」であってもよい。例えば、LLMは、ステップS1004において出力された各フレームの来店者の年齢に言及する説明文に基づいて、ステップS1009において来店者の年齢分布のグラフを出力する。
【0109】
<コンピュータの基本ハードウェア構成>
図8は、コンピュータ90の基本的なハードウェア構成を示すブロック図である。コンピュータ90は、プロセッサ901、主記憶装置902、補助記憶装置903、通信IF991(インタフェース、Interface)を少なくとも備える。これらは通信バス921により相互に電気的に接続される。
【0110】
プロセッサ901とは、プログラムに記述された命令セットを実行するためのハードウェアである。プロセッサ901は、演算装置、レジスタ、周辺回路等から構成される。
【0111】
主記憶装置902とは、プログラム、及びプログラム等で処理されるデータ等を一時的に記憶するためのものである。例えば、DRAM(Dynamic Random Access Memory)等の揮発性のメモリである。
【0112】
補助記憶装置903とは、データ及びプログラムを保存するための記憶装置である。例えば、フラッシュメモリ、HDD(Hard Disc Drive)、光磁気ディスク、CD-ROM、DVD-ROM、半導体メモリ等である。
【0113】
通信IF991とは、有線又は無線の通信規格を用いて、他のコンピュータとネットワークを介して通信するための信号を入出力するためのインタフェースである。
ネットワークは、インターネット、LAN、無線基地局等によって構築される各種移動通信システム等で構成される。例えば、ネットワークには、3G、4G、5G移動通信システム、LTE(Long Term Evolution)、所定のアクセスポイントによってインターネットに接続可能な無線ネットワーク(例えばWi-Fi(登録商標))等が含まれる。無線で接続する場合、通信プロトコルとして例えば、Z-Wave(登録商標)、ZigBee(登録商標)、Bluetooth(登録商標)等が含まれる。有線で接続する場合は、ネットワークには、USB(Universal Serial Bus)ケーブル等により直接接続するものも含む。
【0114】
なお、各ハードウェア構成の全部または一部を複数のコンピュータ90に分散して設け、ネットワークを介して相互に接続することによりコンピュータ90を仮想的に実現することができる。このように、コンピュータ90は、単一の筐体、ケースに収納されたコンピュータ90だけでなく、仮想化されたコンピュータシステムも含む概念である。
【0115】
<コンピュータ90の基本機能構成>
コンピュータ90の基本ハードウェア構成(
図8)により実現されるコンピュータの機能構成を説明する。コンピュータは、制御部、記憶部、通信部の機能ユニットを少なくとも備える。
【0116】
なお、コンピュータ90が備える機能ユニットは、それぞれの機能ユニットの全部または一部を、ネットワークで相互に接続された複数のコンピュータ90に分散して設けても実現することができる。コンピュータ90は、単一のコンピュータ90だけでなく、仮想化されたコンピュータシステムも含む概念である。
【0117】
制御部は、プロセッサ901が補助記憶装置903に記憶された各種プログラムを読み出して主記憶装置902に展開し、当該プログラムに従って処理を実行することにより実現される。制御部は、プログラムの種類に応じて様々な情報処理を行う機能ユニットを実現することができる。これにより、コンピュータは情報処理を行う情報処理装置として実現される。
【0118】
記憶部は、主記憶装置902、補助記憶装置903により実現される。記憶部は、データ、各種プログラム、各種データベースを記憶する。また、プロセッサ901は、プログラムに従って記憶部に対応する記憶領域を主記憶装置902または補助記憶装置903に確保することができる。また、制御部は、各種プログラムに従ってプロセッサ901に、記憶部に記憶されたデータの追加、更新、削除処理を実行させることができる。
【0119】
データベースは、リレーショナルデータベースを指し、行と列によって構造的に規定された表形式のテーブル、マスタと呼ばれるデータ集合を、互いに関連づけて管理するためのものである。データベースでは、表をテーブル、マスタ、表の列をカラム、表の行をレコードと呼ぶ。リレーショナルデータベースでは、テーブル、マスタ同士の関係を設定し、関連づけることができる。
通常、各テーブル、各マスタにはレコードを一意に特定するための主キーとなるカラムが設定されるが、カラムへの主キーの設定は必須ではない。制御部は、各種プログラムに従ってプロセッサ901に、記憶部に記憶された特定のテーブル、マスタにレコードを追加、削除、更新を実行させることができる。
また、記憶部に、データ、各種プログラム、各種データベースを記憶させることにより、本開示にかかる情報処理装置、情報処理システムが製造されたものとして捉えることができる。
【0120】
なお、本開示におけるデータベース、マスタは、情報が構造的に規定された任意のデータ構造体(リスト、辞書、連想配列、オブジェクトなど)を含み得る。データ構造体には、データと、任意のプログラミング言語により記述された関数、クラス、メソッドなどを組み合わせることにより、データ構造体と見なし得るデータも含むものとする。
【0121】
通信部は、通信IF991により実現される。通信部は、ネットワークを介して他のコンピュータ90と通信を行う機能を実現する。通信部は、他のコンピュータ90から送信された情報を受信し、制御部へ入力することができる。制御部は、各種プログラムに従ってプロセッサ901に、受信した情報に対する情報処理を実行させることができる。また、通信部は、制御部から出力された情報を他のコンピュータ90へ送信することができる。
【0122】
また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、本発明は、実施例の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をコンピュータに提供し、そのコンピュータが備えるプロセッサが記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施例の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、CD-ROM、DVD-ROM、ハードディスク、SSD、光ディスク、光磁気ディスク、CD-R、磁気テープ、不揮発性のメモリカード、ROMなどが用いられる。
【0123】
また、本実施例に記載の機能を実現するプログラムコードは、例えば、アセンブラ、C/C++、perl、Shell、PHP、Java(登録商標)等の広範囲のプログラム又はスクリプト言語で実装できる。
【0124】
さらに、実施例の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することによって、それをコンピュータのハードディスクやメモリ等の記憶手段又はCD-RW、CD-R等の記憶媒体に格納し、コンピュータが備えるプロセッサが当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしてもよい。
【0125】
本明細書中に記載されている構成要素により実現される機能は、当該記載された機能を実現するようにプログラムされた、汎用プロセッサ、特定用途プロセッサ、集積回路、ASICs (Application Specific Integrated Circuits)、CPU (a Central Processing Unit)、従来型の回路、および/又はそれらの組合せを含む、circuitry又はprocessing circuitryにおいて実装されてもよい。プロセッサは、トランジスタやその他の回路を含み、circuitry又はprocessing circuitryとみなされる。プロセッサは、メモリに格納されたプログラムを実行する、programmed processorであってもよい。
本明細書において、circuitry、ユニット、手段は、記載された機能を実現するようにプログラムされたハードウェア、又は実行するハードウェアである。当該ハードウェアは、本明細書に開示されているあらゆるハードウェア、又は、当該記載された機能を実現するようにプログラムされた、又は、実行するものとして知られているあらゆるハードウェアであってもよい。
当該ハードウェアがcircuitryのタイプであるとみなされるプロセッサである場合、当該circuitry、手段、又はユニットは、ハードウェアと、当該ハードウェア及び又はプロセッサを構成する為に用いられるソフトウェアの組合せである。
【0126】
以上、本開示のいくつかの実施形態を説明したが、これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものとする。
【0127】
(付記)
以上の各実施形態で説明した事項を以下に付記する。
【0128】
(付記1)
プロセッサと、メモリとを備えるコンピュータを動作させるためのプログラムであってプログラムは、プロセッサに、複数フレームから成る動画を取得するステップと、動画又は動画を成す所定のフレームと、動画を成すフレームの内容を説明させるためのプロンプトとを大規模言語モデルに入力し、フレームの説明文を大規模言語モデルに出力させるステップと、複数の説明文と、動画の要約を出力させるためのプロンプトとを大規模言語モデルに入力し、動画の要約を大規模言語モデルに出力させるステップと、大規模言語モデルによって出力された要約をユーザに提示するステップと、を実行させるプログラム。
(付記2)
説明文を出力させるステップにおいて、複数フレームのうち、所定周期毎のフレームを、大規模言語モデルに入力する、(付記1)に記載のプログラム。
(付記3)
説明文を出力させるステップにおいて、複数フレームのうち、ランダムなタイミングのフレームを、大規模言語モデルに入力する、(付記1)又は(付記2)に記載のプログラム。
(付記4)
説明文を出力させるステップにおいて、複数フレームのうち、所定の物体又は所定の行為が検出されたフレームを、大規模言語モデルに入力する、(付記1)から(付記3)のいずれかに記載のプログラム。
(付記5)
説明文の一覧をユーザに提示し、動画の要約を出力させるためのプロンプトをユーザから受け付けるステップを、プロセッサに実行させる、(付記1)から(付記4)のいずれかに記載のプログラム。
(付記6)
受け付けるステップにおいて、所定の物体又は所定の行為が表れているフレームの説明文を、他の説明文に対して識別可能にユーザに提示する、(付記5)に記載のプログラム。
(付記7)
要約を出力させるステップにおいて、所定の時間幅に含まれる複数のフレームの説明文と、所定の時間幅の動画の要約を出力させるためのプロンプトと、を大規模言語モデルに入力し、所定の時間幅の動画の要約を大規模言語モデルに出力させる、(付記1)から(付記6)のいずれかに記載のプログラム。
(付記8)
取得するステップにおいて、動画は、監視カメラに撮影された動画である、(付記1)から(付記7)のいずれかに記載のプログラム。
(付記9)
取得するステップにおいて、動画は、手術において撮影された動画である、(付記1)から(付記8)のいずれかに記載のプログラム。
(付記10)
プロセッサと、メモリとを備えるコンピュータに実行される方法であって、プロセッサが、(付記1)から(付記9)のいずれかに係る発明において実行される全てのステップを実行する方法。
(付記11)
制御部と、記憶部とを備える情報処理装置であって、制御部が、(付記1)から(付記9)のいずれかに係る発明において実行される全てのステップを実行する情報処理装置。
(付記12)
(付記1)から(付記9)のいずれかに係る発明において実行される全てのステップを実行する手段を備えるシステム。
【符号の説明】
【0129】
1…システム
10…端末装置
12…通信IF
13…入力装置
14…出力装置
15…メモリ
16…ストレージ
19…プロセッサ
20…サーバ
22…通信IF
23…入出力IF
25…メモリ
26…ストレージ
29…プロセッサ
30…LLMシステム
31…撮影装置
80…ネットワーク
【要約】
【課題】本開示によれば、動画の要約を容易に把握できる。
【解決手段】プロセッサと、メモリとを備えるコンピュータを動作させるためのプログラムであって、プログラムは、プロセッサに、複数フレームから成る動画を取得するステップと、動画又は動画を成す所定のフレームと、動画を成すフレームの内容を説明させるためのプロンプトとを大規模言語モデルに入力し、フレームの説明文を大規模言語モデルに出力させるステップと、複数の説明文と、動画の要約を出力させるためのプロンプトとを大規模言語モデルに入力し、動画の要約を大規模言語モデルに出力させるステップと、大規模言語モデルによって出力された要約をユーザに提示するステップと、を実行させるプログラム。
【選択図】
図7