7645035 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

7645035情報処理装置、方法、プログラム及びシステム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B1)

(11)【特許番号】

(24)【登録日】2025-03-05

(45)【発行日】2025-03-13

(54)【発明の名称】情報処理装置、方法、プログラム及びシステム

(51)【国際特許分類】

H04N 21/27 20110101AFI20250306BHJP

G06Q 50/10 20120101ALI20250306BHJP

【ＦＩ】

H04N21/27

G06Q50/10

【請求項の数】 11

(21)【出願番号】P 2024188961

(22)【出願日】2024-10-28

【審査請求日】2024-10-28

【早期審査対象出願】

(73)【特許権者】

【識別番号】500521522

【氏名又は名称】株式会社オプティム

(74)【代理人】

【識別番号】110002815

【氏名又は名称】ＩＰＴｅｃｈ弁理士法人

(72)【発明者】

【氏名】菅谷俊二

【審査官】大西宏

(56)【参考文献】

【文献】特許第７３８５２０４（ＪＰ，Ｂ１）

【文献】特許第７５７３３３０（ＪＰ，Ｂ１）

【文献】米国特許出願公開第２０２１／００９９５０５（ＵＳ，Ａ１）

【文献】米国特許出願公開第２０２１／０３８３１２７（ＵＳ，Ａ１）

【文献】米国特許第１１９０００６７（ＵＳ，Ｂ１）

【文献】中国特許出願公開第１１３５４２９１０（ＣＮ，Ａ）

【文献】中国特許出願公開第１１７２３７６０６（ＣＮ，Ａ）

【文献】中国特許出願公開第１１７６０９５５０（ＣＮ，Ａ）

【文献】中国特許出願公開第１１７７４６２７９（ＣＮ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｈ０４Ｎ２１／００－２１／８５８

Ｇ０６Ｑ５０／００－５０／２０

(57)【特許請求の範囲】

【請求項1】

プロセッサと、メモリとを備えるコンピュータを動作させるためのプログラムであって、前記プログラムは、前記プロセッサに、
複数フレームから成る動画を取得するステップと、
前記動画又は前記動画を成す所定のフレームと、前記動画を成すフレームの内容を説明させるためのプロンプトとを大規模言語モデルに入力し、前記フレームの説明文を前記大規模言語モデルに出力させるステップと、
前記説明文の一覧をユーザに提示し、前記動画の要約を出力させるためのプロンプトを前記ユーザから受け付けるステップと、
複数の前記説明文と、前記受け付けられたプロンプトとを前記大規模言語モデルに入力し、前記動画の要約を前記大規模言語モデルに出力させるステップと、
前記大規模言語モデルによって出力された要約を前記ユーザに提示するステップと、
を実行させるプログラム。

【請求項2】

前記説明文を出力させるステップにおいて、複数フレームのうち、所定周期毎のフレームを、前記大規模言語モデルに入力する、請求項１に記載のプログラム。

【請求項3】

前記説明文を出力させるステップにおいて、複数フレームのうち、ランダムなタイミングのフレームを、前記大規模言語モデルに入力する、請求項１に記載のプログラム。

【請求項4】

前記説明文を出力させるステップにおいて、複数フレームのうち、所定の物体又は所定の行為が検出されたフレームを、前記大規模言語モデルに入力する、請求項１に記載のプログラム。

【請求項5】

前記受け付けるステップにおいて、所定の物体又は所定の行為が表れているフレームの説明文を、他の説明文に対して識別可能に前記ユーザに提示する、請求項１に記載のプログラム。

【請求項6】

前記要約を出力させるステップにおいて、所定の時間幅に含まれる複数のフレームの説明文と、前記所定の時間幅の動画の要約を出力させるためのプロンプトと、を前記大規模言語モデルに入力し、前記所定の時間幅の動画の要約を前記大規模言語モデルに出力させる、請求項１に記載のプログラム。

【請求項7】

前記取得するステップにおいて、前記動画は、監視カメラに撮影された動画である、請求項１に記載のプログラム。

【請求項8】

前記取得するステップにおいて、前記動画は、手術において撮影された動画である、請求項１に記載のプログラム。

【請求項9】

プロセッサと、メモリとを備えるコンピュータに実行される方法であって、前記プロセッサが、請求項１から請求項８のいずれかに係る発明において実行される全てのステップを実行する方法。

【請求項10】

制御部と、記憶部とを備える情報処理装置であって、前記制御部が、請求項１から請求項８のいずれかに係る発明において実行される全てのステップを実行する情報処理装置。

【請求項11】

請求項１から請求項８のいずれかに係る発明において実行される全てのステップを実行する手段を備えるシステム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、情報処理装置、方法、プログラム及びシステムに関する。

【背景技術】

【0002】

特許文献１では、画像に表されたオブジェクトの動作や音の把握が容易な画像を提供する技術について記載されている。例えば、特許文献１では、情報処理装置は、複数のフレームで構成され１又は複数のオブジェクト（人や物）が表された動画像データを受け、１又は複数のオブジェクトの動作、又は、１又は複数のオブジェクトからの音に基づいて、動画像データから特徴的フレームを選択する。情報処理装置は、動画像データに表された１又は複数のオブジェクトの動き、又は、１又は複数のオブジェクトからの音に基づいて、１又は複数のオブジェクトから特徴的オブジェクトを選択する。情報処理装置は、特徴的オブジェクトの動作及び特徴的オブジェクトからの音のうち少なくとも一方を示すテクスト情報を、特徴的オブジェクトに関連付けて、特徴的フレームの画像に表示する。

【0003】

【文献】特開２０１５－０７３１９８号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

特許文献１では、特徴的オブジェクトの動作及び特徴的オブジェクトからの音のうち少なくとも一方を示すテクスト情報を、特徴的オブジェクトに関連付けて、特徴的フレームの画像に表示する。特許文献１では、画像を確認することで、画像に表されたオブジェクトの動作や音の把握が可能であるが、画像に情報を関連付けるため、容量が重くなったり、所望の情報についての検索がかけづらかったりする等の問題がある。

【0005】

本開示の目的は、動画の要約を容易に把握可能とすることである。

【課題を解決するための手段】

【0006】

プロセッサと、メモリとを備えるコンピュータを動作させるためのプログラムであって、プログラムは、プロセッサに、複数フレームから成る動画を取得するステップと、動画又は動画を成す所定のフレームと、動画を成すフレームの内容を説明させるためのプロンプトとを大規模言語モデルに入力し、フレームの説明文を大規模言語モデルに出力させるステップと、複数の説明文と、動画の要約を出力させるためのプロンプトとを大規模言語モデルに入力し、動画の要約を大規模言語モデルに出力させるステップと、大規模言語モデルによって出力された要約をユーザに提示するステップと、を実行させるプログラム。

【発明の効果】

【0007】

動画の要約を容易に把握できる。

【図面の簡単な説明】

【0008】

【図1】システム１の全体構成を示すブロック図である。

【図2】端末装置１０の機能的な構成例を示すブロック図である。

【図3】サーバ２０の機能的な構成例を示すブロック図である。

【図4】テーブルのデータ構造を示す図である。

【図5】テーブルのデータ構造を示す図である。

【図6】システム１における処理の流れの一例を示す図である。

【図7】本開示の画面例を示す図である。

【図8】コンピュータ９０の基本的なハードウェア構成を表すブロック図である。

【発明を実施するための形態】

【0009】

以下、本開示の実施形態について図面を参照して説明する。実施形態を説明する全図において、共通の構成要素には同一の符号を付し、繰り返しの説明を省略する。なお、以下の実施形態は、特許請求の範囲に記載された本開示の内容を不当に限定するものではない。また、実施形態に示される構成要素のすべてが、本開示の必須の構成要素であるとは限らない。また、各図は模式図であり、必ずしも厳密に図示されたものではない。

【0010】

また、以下の説明において、「プロセッサ」は、１以上のプロセッサである。少なくとも１つのプロセッサは、典型的には、ＣＰＵ（Central Processing Unit）のようなマイクロプロセッサであるが、ＧＰＵ（Graphics Processing Unit）のような他種のプロセッサでもよい。少なくとも１つのプロセッサは、シングルコアでもよいしマルチコアでもよい。

【0011】

また、少なくとも１つのプロセッサは、処理の一部又は全部を行うハードウェア回路（例えばＦＰＧＡ（Field-Programmable Gate Array）又はＡＳＩＣ（Application Specific Integrated Circuit））といった広義のプロセッサでもよい。

【0012】

また、以下の説明において、「ｘｘｘテーブル」といった表現により、入力に対して出力が得られる情報を説明することがあるが、この情報は、どのような構造のデータでもよいし、入力に対する出力を発生するニューラルネットワークのような学習モデルでもよい。従って、「ｘｘｘテーブル」を「ｘｘｘ情報」と言うことができる。

【0013】

また、以下の説明において、各テーブルの構成は一例であり、１つのテーブルは、２以上のテーブルに分割されてもよいし、２以上のテーブルの全部又は一部が１つのテーブルであってもよい。

【0014】

また、以下の説明において、「プログラム」を主語として処理を説明する場合があるが、プログラムは、プロセッサによって実行されることで、定められた処理を、適宜に記憶部及び／又はインタフェース部などを用いながら行うため、処理の主語が、プロセッサ（或いは、そのプロセッサを有するコントローラのようなデバイス）とされてもよい。

【0015】

プログラムは、計算機のような装置にインストールされてもよいし、例えば、プログラム配布サーバ又は計算機が読み取り可能な（例えば非一時的な）記録媒体にあってもよい。また、以下の説明において、２以上のプログラムが１つのプログラムとして実現されてもよいし、１つのプログラムが２以上のプログラムとして実現されてもよい。

【0016】

また、以下の説明において、種々の対象の識別情報として、識別番号が使用されるが、識別番号以外の種類の識別情報（例えば、英字や符号を含んだ識別子）が採用されてもよい。

【0017】

また、以下の説明において、同種の要素を区別しないで説明する場合には、参照符号（又は、参照符号のうちの共通符号）を使用し、同種の要素を区別して説明する場合は、要素の識別番号（又は参照符号）を使用することがある。

【0018】

また、以下の説明において、制御線や情報線は、説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていてもよい。

【0019】

各情報処理装置は演算装置と記憶装置とを備えたコンピュータにより構成されている。コンピュータの基本ハードウェア構成および、当該ハードウェア構成により実現されるコンピュータの基本機能構成は後述する。サーバ２０、端末装置１０のそれぞれについて、後述するコンピュータの基本ハードウェア構成およびコンピュータの基本機能構成と重複する説明は省略する。

【0020】

＜概略＞
本実施形態に係るシステムは、所定の規則に従い、時系列的に連続した複数のフレーム、（例：動画）についての説明文を大規模言語モデル（ＬＬＭ：large language model）に生成させ、生成された複数の説明文に基づき、複数のフレームのサマリ（例：動画の要約）をＬＬＭに生成させる。

【0021】

＜１．システム全体の構成図＞
図１は、システム１の全体構成の例を示すブロック図である。図１に示すシステム１は、例えば、端末装置１０、サーバ２０、及びＬＬＭシステム３０を含む。端末装置１０、サーバ２０、及びＬＬＭシステム３０は、例えば、ネットワーク８０を介して通信接続する。

【0022】

図１において、システム１が端末装置１０を２台含む例を示しているが、システム１に含まれる端末装置１０の数は、２台に限定されない。システム１に含まれる端末装置１０は、１台であってもよいし、３台以上であってもよい。

【0023】

図１において、システム１が１つのＬＬＭシステム３０を含む例を示しているが、システム１に含まれるＬＬＭシステム３０の数は、１つに限定されない。システム１に含まれるＬＬＭシステム３０は、２つ以上であってもよい。

【0024】

図１において、サーバ２０がＬＬＭシステム３０から独立している例を示しているが、サーバ２０は、ＬＬＭシステム３０の機能を含んでいてもよい。つまり、サーバ２０は、ＬＬＭを記憶していてもよい。

【0025】

本実施形態において、複数の装置の集合体を１つのサーバとしてもよい。１つ又は複数のハードウェアに対して本実施形態に係るサーバ２０を実現することに要する複数の機能の配分の仕方は、各ハードウェアの処理能力及び／又はサーバ２０に求められる仕様等に鑑みて適宜決定することができる。

【0026】

図１に示す端末装置１０は、サーバ２０により提供されるサービスを利用するユーザが使用する情報処理装置である。例えば、端末装置１０は、サーバ２０により提供される文書出力サービスを利用し、文書を作成するユーザが操作する情報処理装置である。端末装置１０は、例えば、据え置き型のＰＣ（Personal Computer）、ラップトップＰＣ、ヘッドマウントディスプレイ等により実現される。また、端末装置１０は、スマートフォン、又はタブレット端末等の携行性を備えたコンピュータであってもよい。

【0027】

端末装置１０は、通信ＩＦ（Interface）１２と、入力装置１３と、出力装置１４と、メモリ１５と、ストレージ１６と、プロセッサ１９とを備える。入力装置１３は、ユーザからの入力操作を受け付けるための装置（例えば、タッチパネル、タッチパッド、マウス等のポインティングデバイス、キーボード等）である。出力装置１４は、ユーザに対して情報を提示するための装置（ディスプレイ、スピーカー等）である。

【0028】

サーバ２０は、動画の要約を生成するサービスを提供する情報処理装置である。サーバ２０は、例えば、ネットワーク８０に接続されたコンピュータにより実現される情報処理装置である。図１に示すように、サーバ２０は、通信ＩＦ２２と、入出力ＩＦ２３と、メモリ２５と、ストレージ２６と、プロセッサ２９とを備える。入出力ＩＦ２３は、ユーザからの入力操作を受け付けるための入力装置、及び、ユーザに対して情報を出力するための出力装置とのインタフェースとして機能する。

【0029】

ＬＬＭシステム３０は、例えば、自然言語処理（ＮＬＰ）の分野で使用される大規模な人工知能モデル（ＬＬＭ）が構築されたシステムである。ＬＬＭは、大量のテキストデータ（ウェブページ、書籍、記事等）を学習することで、人間が使用する言語のパターンを理解し、自然言語生成（ＮＬＧ）タスクを効果的に実行することができる。

【0030】

ＬＬＭは、特定の問いへの応答生成、文章の自動生成、テクストの要約、翻訳、感情分析等、多くのＮＬＰタスクで使用される。また、教育、エンターテイメント、カスタマーサービス、製品開発等、様々な用途で活用可能である。ＬＬＭは、例えば、マルチモーダルＬＬＭである。ＬＬＭには、例えば、以下のようなものが存在する。
・ＧＰＴ－４（登録商標）（ＯｐｅｎＡＩ社）
・Ｇｅｍｉｎｉ（登録商標）（Ｇｏｏｇｌｅ社）
・ＳｔａｂｌｅＬＭ（ＳｔａｂｌｅＡＩ社）
・Ｌｌａｍａ３．２（Ｍｅｔａ社）

【0031】

ＬＬＭシステム３０は、サーバ２０から受信したテキストデータ、及びプロンプトをＬＬＭに入力し、入力されたテキストデータ、及びプロンプトに基づく回答をＬＬＭに出力させる。ＬＬＭシステム３０は、ＬＬＭから出力された回答をサーバ２０へ送信する。

【0032】

撮影装置３１は、受光素子により光を受光し、画像信号として出力するための装置である。撮影装置３１は、ユーザが状況を把握したい空間（以下、現場と称する）の状況を撮影できるように設置されている。具体的には、撮影装置３１は、遮蔽物なく現場全体を見渡せる位置に設置されている。例えば、撮影装置３１は、現場の隅の高所に設置される。撮影装置３１は、１台で現場全体の状況を捉えきれない場合には、複数台設置される。撮影装置３１は、例えば、繁華街、公園、駅、オフィス、学校などに設置された監視カメラである。撮影装置３１は、例えば、病院において手術を撮影したカメラである。

【0033】

各情報処理装置は演算装置と記憶装置とを備えたコンピュータにより構成されている。コンピュータの基本ハードウェア構成および、当該ハードウェア構成により実現されるコンピュータの基本機能構成は後述する。端末装置１０、サーバ２０のそれぞれについて、後述するコンピュータの基本ハードウェア構成およびコンピュータの基本機能構成と重複する説明は省略する。

【0034】

＜２．端末装置の構成＞
図２は、端末装置１０の機能的な構成例を表すブロック図である。図２に示すように、端末装置１０は、通信部１２０と、入力装置１３と、出力装置１４と、音声処理部１７と、マイク１７１と、スピーカー１７２と、カメラ１６０と、位置情報センサ１５０と、記憶部１８０と、制御部１９０とを備える。端末装置１０に含まれる各ブロックは、例えば、バス等により電気的に接続される。

【0035】

通信部１２０は、端末装置１０が他の装置と通信するための変復調処理等の処理を行う。通信部１２０は、制御部１９０で生成された信号に送信処理を施し、外部（例えば、サーバ２０）へ送信する。通信部１２０は、外部から受信した信号に受信処理を施し、制御部１９０へ出力する。

【0036】

入力装置１３は、端末装置１０を操作するユーザが指示、又は情報を入力するための装置である。入力装置１３は、例えば、操作面へ触れることで指示が入力されるタッチ・センシティブ・デバイス１３１等により実現される。端末装置１０がＰＣ等である場合には、入力装置１３は、リーダー、キーボード、マウス等により実現されてもよい。入力装置１３は、ユーザから入力される指示を電気信号へ変換し、電気信号を制御部１９０へ出力する。なお、入力装置１３には、例えば、外部の入力機器から入力される電気信号を受け付ける受信ポートが含まれてもよい。

【0037】

出力装置１４は、端末装置１０を操作するユーザへ情報を提示するための装置である。出力装置１４は、例えば、ディスプレイ１４１等により実現される。ディスプレイ１４１は、制御部１９０の制御に応じたデータを表示する。ディスプレイ１４１は、例えば、ＬＣＤ（Liquid Crystal Display）、又は有機ＥＬ（Electro-Luminescence）ディスプレイ等によって実現される。

【0038】

音声処理部１７は、例えば、音声信号のデジタル－アナログ変換処理を行う。音声処理部１７は、マイク１７１から与えられる信号をデジタル信号に変換して、変換後の信号を制御部１９０へ与える。また、音声処理部１７は、音声信号をスピーカー１７２へ与える。音声処理部１７は、例えば音声処理用のプロセッサによって実現される。マイク１７１は、音声入力を受け付けて、当該音声入力に対応する音声信号を音声処理部１７へ与える。スピーカー１７２は、音声処理部１７から与えられる音声信号を音声に変換して当該音声を端末装置１０の外部へ出力する。

【0039】

カメラ１６０は、受光素子により光を受光し、撮影信号として出力するためのデバイスである。

【0040】

位置情報センサ１５０は、端末装置１０の位置を検出するセンサであり、例えばＧＰＳ（Global Positioning System）モジュールである。ＧＰＳモジュールは、衛星測位システムで用いられる受信装置である。衛星測位システムでは、少なくとも３個または４個の衛星からの信号を受信し、受信した信号に基づいて、ＧＰＳモジュールが搭載される端末装置１０の現在位置を検出する。位置情報センサ１５０は、端末装置１０が接続する無線基地局の位置から、端末装置１０の現在の位置を検出してもよい。

【0041】

記憶部１８０は、例えば、メモリ１５、及びストレージ１６等により実現され、端末装置１０が使用するデータ、及びプログラムを記憶する。記憶部１８０は、例えば、ユーザ情報１８１を記憶する。

【0042】

ユーザ情報１８１は、例えば、端末装置１０を使用するユーザについての情報を含む。ユーザについての情報には、例えば、ユーザの氏名、年齢、住所、生年月日、連絡先等が含まれる。

【0043】

制御部１９０は、プロセッサ１９が記憶部１８０に記憶されるプログラムを読み込み、プログラムに含まれる命令を実行することにより実現される。制御部１９０は、端末装置１０の動作を制御する。制御部１９０は、プログラムに従って動作することにより、操作受付部１９１と、送受信部１９２と、提示制御部１９３としての機能を発揮する。

【0044】

操作受付部１９１は、入力装置１３から入力される指示、又は情報を受け付けるための処理を行う。具体的には、例えば、操作受付部１９１は、タッチ・センシティブ・デバイス１３１等から入力される指示、又は情報を受け付ける。

【0045】

また、操作受付部１９１は、マイク１７１から入力される音声指示を受け付ける。具体的には、例えば、操作受付部１９１は、マイク１７１から入力され、音声処理部１７でデジタル信号に変換された音声信号を受信する。操作受付部１９１は、例えば、受信した音声信号を分析して所定の名詞を抽出することで、ユーザからの指示を取得する。

【0046】

送受信部１９２は、端末装置１０が、サーバ２０等の外部の装置と、通信プロトコルに従ってデータを送受信するための処理を行う。具体的には、例えば、送受信部１９２は、ユーザから入力された情報、又はユーザから指示をサーバ２０へ送信する。また、送受信部１９２は、サーバ２０から提供される情報を受信する。

【0047】

提示制御部１９３は、サーバ２０から提供された情報をユーザに対して提示するため、出力装置１４を制御する。具体的には、例えば、提示制御部１９３は、サーバ２０から送信される文書に関する情報をディスプレイ１４１に表示させる。また、提示制御部１９３は、サーバ２０から送信される情報をスピーカー１７２から出力させる。

【0048】

＜３．サーバの機能的な構成＞
図３は、サーバ２０の機能的な構成例を示す図である。図３に示すように、サーバ２０は、通信部２０１と、記憶部２０２と、制御部２０３としての機能を発揮する。

【0049】

通信部２０１は、サーバ２０が外部の装置と通信するための処理を行う。

【0050】

記憶部２０２は、例えば、ユーザ情報テーブル２０２１と、動画ログテーブル２０２２等とを有する。記憶部２０２で記憶されるテーブルは、これらに限定されない。

【0051】

ユーザ情報テーブル２０２１は、ユーザについての情報を記憶するテーブルである。詳細は後述する。

【0052】

動画ログテーブル２０２２は、動画を成すフレームについての情報を記憶するテーブルである。詳細は後述する。

【0053】

制御部２０３は、プロセッサ２９が記憶部２０２に記憶されるプログラムを読み込み、プログラムに含まれる命令を実行することにより実現される。プログラムは、ウェブブラウザアプリケーション等のアプリケーションを含む。プログラムは、端末装置１０に記憶されているウェブブラウザアプリケーション上で実行されるＪａｖａＳｃｒｉｐｔ（登録商標）等のプログラミング言語を含む。制御部２０３は、プログラムに従って動作することにより、受信制御モジュール２０３１、送信制御モジュール２０３２、サービス処理モジュール２０３３、及び提示制御モジュール２０３４として示す機能を発揮する。

【0054】

受信制御モジュール２０３１は、サーバ２０が外部の装置から通信プロトコルに従って信号を受信する処理を制御する。

【0055】

送信制御モジュール２０３２は、サーバ２０が外部の装置に対し通信プロトコルに従って信号を送信する処理を制御する。

【0056】

サービス処理モジュール２０３３は、ＬＬＭにプロンプトを入力する処理および動画の要約を生成させる処理を制御する。

【0057】

提示制御モジュール２０３４は、ユーザへ情報を提示する処理を制御する。

【0058】

画像解析モジュール２０３５は、動画を解析することで、所定の物体、所定の行為、又はこれらの組み合わせを検出する。

【0059】

＜４．データ構造＞
サーバ２０が記憶するテーブルのデータ構造を説明する。なお、説明するデータ構造は一例であり、記載されていないデータを除外するものではない。また、同一のテーブルに記載されるデータであっても、記憶部２０２において離れた記憶領域に記憶されていることもあり得る。

【0060】

図４は、ユーザ情報テーブル２０２１のデータ構造を示す図である。図４に示すユーザ情報テーブル２０２１は、ユーザＩＤをキーとして、氏名、年齢、性別、生年月日、連絡先のカラムを有するテーブルである。

【0061】

ユーザＩＤは、ユーザを一意に識別するための識別子を記憶する項目である。氏名は、ユーザの名前を記憶する項目である。年齢は、ユーザの年齢を記憶する項目である。性別は、ユーザの性別を記憶する項目である。生年月日は、ユーザの生年月日を記憶する項目である。連絡先は、ユーザが有している端末装置１０の連絡先（例えば、電話番号、メールアドレス等）を記憶する項目である。

【0062】

図５は、動画ログテーブル２０２２のデータ構造を示す図である。図５が示すように、動画ログテーブル２０２２は、例えば、動画ＩＤ、フレームＩＤ、時刻、説明文の項目を有する。動画ログテーブル２０２２は、動画ＩＤの下にフレームＩＤを羅列する。動画ログテーブル２０２２は、１のフレームＩＤをキーとして、時刻、説明文を紐づける。

【0063】

動画ＩＤは、撮影装置３１によって撮影された動画を識別するための識別情報を示す。例えば、動画を撮影する撮影装置３１毎に、異なる動画ＩＤが動画に付与される。動画は、同じ撮影装置３１によって撮影されていても、時間毎（例えば、日毎、３時間毎など）に異なる動画として認識され異なる動画ＩＤが付与されてもよい。

【0064】

フレームＩＤは、動画を成すフレームを識別するための識別情報を示す。フレームＩＤは、動画を成すフレームのうち所定のフレームに付与される。詳細は後述する。時刻は、フレームが抽出された時刻を示す。

【0065】

説明文は、フレームの内容を説明する文を示す。詳細は後述する。

【0066】

＜５．動作＞
システム１における処理の流れの一例を説明する。

【0067】

図６は、サーバ２０がＬＬＭに動画の要約を生成させる際の動作の例を表すフローチャートである。

【0068】

ステップＳ１００１において、サーバ２０は撮影装置３１から動画を受信する。具体的には、受信制御モジュール２０３１は、撮影装置３１によって撮影された現場の動画を、撮影装置３１から受信する。動画には、例えば、撮影した撮影装置３１の識別情報に基づく動画ＩＤが付されている。サーバ２０は、例えば、受信した動画を記憶部２０２に記憶する。撮影装置３１は、動画を１のファイルとして一括でサーバ２０に送信してもよいし、動画をパケット単位でサーバ２０に送信してもよい。

【0069】

受信制御モジュール２０３１は、例えば、動画の代わりに動画を成す複数のフレームのうち所定のフレームを、撮影装置３１から受信してもよい。この場合、撮影装置３１は、例えば、所定周期毎（例えば、３０秒毎など）のフレームをサーバ２０に送信する。また、撮影装置３１は、ランダムなタイミングのフレームをサーバ２０に送信してもよい。

【0070】

ステップＳ１００２において、サーバ２０はフレームを選定する。具体的には、サービス処理モジュール２０３３は、所定の規則に従って、受信された動画を成す複数のフレームの中から所定のフレームを選定する。

【0071】

例えば、サービス処理モジュール２０３３は、動画において所定周期毎（例えば、３０秒毎）のフレームを選定する。

【0072】

また、例えば、サービス処理モジュール２０３３は、動画においてランダムなタイミングのフレームを選定してもよい。

【0073】

また、例えば、サービス処理モジュール２０３３は、画像解析モジュール２０３５が所定の物体又は所定の行為を検出したフレームを選定してもよい。この場合、例えば、画像解析モジュール２０３５は、ステップＳ１００１において受信された動画を解析する。所定の物体は、例えば、乗物、動物、武器などである。所定の行為は、例えば、入退室、転倒、衝突などである。画像解析モジュール２０３５は、動画を解析することで、所定の物体、所定の行為、又はこれらの組み合わせを検出する。

【0074】

サービス処理モジュール２０３３は、選定されたフレームにフレームＩＤを付与する。

【0075】

ステップＳ１００３において、サーバ２０は、フレーム、および、プロンプトＡをＬＬＭシステム３０に送信する。具体的には、サービス処理モジュール２０３３は、選定されたフレーム、および、当該フレームの内容を説明させるためのプロンプトＡをＬＬＭシステム３０に送信する。プロンプトＡは、例えば、動画要約のサービス提供者によって既定で設定されている。プロンプトＡの文面は、例えば、「入力されたフレームの内容を説明する文を出力してください」である。ＬＬＭシステム３０は、送信されたフレームおよびプロンプトＡをＬＬＭに入力する。

【0076】

なお、サービス処理モジュール２０３３は、フレームの代わりに、動画をＬＬＭシステム３０に送信してもよい。この場合、プロンプトＡの文面は、例えば、「フレームＩＤが付与されたフレームの内容を説明する文を出力してください」である。プロンプトＡの文面は、所定のタイミングのフレームの内容を説明させるものであってもよい。具体的には、例えば、プロンプトＡの文面は、「タグが付与されたフレームの内容を説明する文を出力してください」であってもよい。また、プロンプトＡの文面は、例えば、「所定周期のフレームの内容を説明する文を出力してください」であってもよい。

【0077】

ステップＳ１００４において、サーバ２０は、ＬＬＭシステム３０に説明文を出力させる。具体的には、ＬＬＭは、入力されたプロンプトＡに応える説明文を出力する。受信制御モジュール２０３１は、出力された説明文をＬＬＭシステム３０から受信する。サーバ２０は、動画ログテーブル２０２２において、受信された説明文、および、当該説明文に対応する動画ＩＤ、フレームＩＤ、時刻を記憶する。つまり、サービス処理モジュール２０３３は、ユーザからの指示がなくても、フレームの説明文をＬＬＭから出力させ、動画ログテーブル２０２２に記憶させる。

【0078】

ステップＳ１００５において、サーバ２０は、説明文に係る情報を端末装置１０に提示する。具体的には、送信制御モジュール２０３２は、動画データ、動画ＩＤ、フレームＩＤ、時刻、説明文を端末装置１０に送信する。提示制御モジュール２０３４は、動画データ、動画ＩＤ、フレームＩＤ、時刻、説明文を端末装置１０で表示するための配置情報を端末装置１０に送信する。

【0079】

ステップＳ１００６において、端末装置１０は、説明文に係る情報をユーザに提示する。具体的には、提示制御部１９３は、サーバ２０から送信された配置情報に従って、動画データ、動画ＩＤ、フレームＩＤ、時刻、説明文をディスプレイ１４１に表示する。この時、提示制御部１９３は、所定の物体又は所定の行為が表れているフレームの説明文を、他の説明文と識別可能な態様で表示してもよい。例えば、提示制御部１９３は、所定の物体又は所定の行為が表れているフレームの説明文に、ユーザの目を惹く印をつけてもよい。ユーザの目を惹く印は、例えば、星マークなどである。所定の物体は、例えば、乗物、動物、武器などである。所定の行為は、例えば、入退室、転倒、衝突などである。なお、提示制御部１９３は、説明文に係る情報をディスプレイ１４１に表示しなくてもよい。

【0080】

ステップＳ１００７において、端末装置１０は、ユーザから要約出力の指示を受け付ける。具体的には、操作受付部１９１は、動画の要約を出力させるためのプロンプトＢを受け付ける。例えば、ユーザは、複数のフレームの説明文が表示されている画面を参照し、ディスプレイ１４１上でプロンプトＢを入力する。なお、ユーザは、説明文が表示されていない画面において、プロンプトＢを入力してもよい。プロンプトＢの文面は、例えば、「動画内で危険な状況が発生している場合、その状況と時刻を教えてください」である。また、プロンプトＢの文面は、例えば、「ＨＨ時ＭＭ１分からＭＭ２分までに発生した内容を教えてください。」であってもよい。サーバ２０は、プロンプトＢを端末装置１０から受信する。なお、ユーザは、プロンプトＢにて要約の対象となる動画の時間幅（開始時刻から終了時刻）を指定してもよいし、しなくてもよい。ユーザがプロンプトＢにて要約の対象となる動画の時間幅を指定しなかった場合、サービス処理モジュール２０３３は、例えば、動画全体、すなわち、動画の開始時刻から終了時刻までの全時間が時間幅として指定されたとみなす。

【0081】

ステップＳ１００８において、サーバ２０は、プロンプトＢおよび説明文をＬＬＭシステム３０に送信する。具体的には、サービス処理モジュール２０３３は、端末装置１０から送信されたプロンプトＢ、および、要約を作成するのに必要な時間幅における説明文をＬＬＭシステム３０に送信する。プロンプトＢにおいて、対象となる動画の時間幅が指定されている場合、サービス処理モジュール２０３３は、プロンプトＢにて指定された時間幅における説明文をＬＬＭシステム３０へ送信する。

【0082】

ステップＳ１００９において、サーバ２０は、ＬＬＭシステム３０に動画の要約を出力させる。具体的には、ＬＬＭは、ステップＳ１００８において送信されたプロンプトＢと、説明文とに基づき、動画の要約を出力する。ＬＬＭから出力される動画の要約は、例えば、複数の説明文の内容に基づいている。受信制御モジュール２０３１は、ＬＬＭから出力された動画の要約をＬＬＭシステム３０から受信する。

【0083】

ステップＳ１０１０において、サーバ２０は、動画の要約に係る情報を端末装置１０に提示する。具体的には、提示制御モジュール２０３４は、動画の要約に関する情報を端末装置１０に提示する。送信制御モジュール２０３２は、動画の要約を端末装置１０で表示するための配置情報を端末装置１０に送信する。

【0084】

ステップＳ１０１１において、端末装置１０は、動画の要約に係る情報をユーザに表示する。具体的には、提示制御部１９３は、サーバ２０から送信された配置情報に基づき、動画の要約をディスプレイ１４１に表示する。提示制御部１９３は、動画の要約の中で注目すべき事象を指し表す単語、句、文を、他の単語、句、文と識別可能に表示してもよい。具体的には、例えば、提示制御部１９３は、ユーザの目を惹く装飾を施してもよい。ユーザの目を惹く装飾は、例えば、太文字、カラー文字などである。

【0085】

なお、ステップＳ１００４において説明文を出力するＬＬＭシステム３０、および、ステップＳ１００９において動画の要約を出力するＬＬＭシステム３０は、別個であってもよい。例えば、ＬＬＭシステム３０ＡがプロンプトＡに応じて説明文を出力し、ＬＬＭシステム３０ＢがプロンプトＢに応じて動画の要約を出力してもよい。

【0086】

＜６．画面例＞
本開示における端末装置１０のディスプレイ１４１の画面例を説明する。

【0087】

図７は、説明文と要約が表示され、プロンプトＢが入力される画面の一例である。

【0088】

領域５０１は、ステップ１００６において、動画が表示される領域である。図７では、人が床に伏せているフレームが領域５０１に表示されている。領域５０１の隅に、動画に関する情報は表示される。動画に関する情報は、例えば、動画ＩＤ、表示されているフレームの時刻などである。

【0089】

バー５０２は、時間軸上における動画の再生箇所を表すためのバーである。ユーザは、バー５０２上のドットを調整することで再生箇所を調整できる。

【0090】

アイコン群５０３は、動画を操作するためのアイコンである。アイコン群５０３は、図７で示される３アイコンに限定されない。

【0091】

表５０４は、ステップ１００６において、フレームＩＤ、時刻、説明文を表示するための表である。ユーザが表上のフレームＩＤ、時刻、説明文のいずれをクリックすると、対応するフレームは表領域５０１上に表示される。

【0092】

ボックス５０５は、ステップ１００７において、ユーザからプロンプトＢが入力されるためのボックスである。ユーザにより入力されたプロンプトＢは、例えば、ユーザが動画要約サービスを終了するまで（例えば、図７の画面がユーザによって閉じられるまで）、ボックス５０５での表示が維持されてもよい。

【0093】

ボックス５０６は、ステップ１０１１において、要約が表示されるためのボックスである。プロンプトＢに対する回答として出力された要約は、例えば、ユーザが動画要約サービスを終了するまで（例えば、図７の画面がユーザによって閉じられるまで）、ボックス５０６での表示が維持されてもよい。なお、図７では、プロンプトＢと、要約としての回答とが異なるボックスで表示される場合を説明したが、表示形式はこれに限定されない。プロンプトＢと、要約としての回答とは、チャット形式で表示されてもよい。

【0094】

＜７．小括＞
以上のように、上記実施形態では、サーバ２０は、複数フレームから成る動画を取得する。サーバ２０は、動画又は動画を成す所定のフレームと、動画を成すフレームの内容を説明させるためのプロンプトとを大規模言語モデルに入力し、フレームの説明文を大規模言語モデルに出力させる。サーバ２０は、複数の説明文と、動画の要約を出力させるためのプロンプトとを大規模言語モデルに入力し、動画の要約を大規模言語モデルに出力させる。サーバ２０は、大規模言語モデルによって出力された要約をユーザに提示する。これにより、ユーザが動画全時間を視聴せずとも、動画の要約を通して、動画の中で起きている事象の概要を容易に把握できる。

【0095】

また、上記実施形態では、説明文を出力させるステップにおいて、サーバ２０は、複数フレームのうち、所定周期毎のフレームを、大規模言語モデルに入力する。これにより、時間を条件としたフレームの選定が可能となる。また、フレームが自動的に大規模言語モデルに入力されるようになる。

【0096】

また、上記実施形態では、説明文を出力させるステップにおいて、サーバ２０は、複数フレームのうち、ランダムなタイミングのフレームを、大規模言語モデルに入力する。これにより、ランダムなフレームの選定が可能となる。また、フレームが自動的に大規模言語モデルに入力されるようになる。

【0097】

また、上記実施形態では、説明文を出力させるステップにおいて、サーバ２０は、所定の物体又は所定の行為が検出されたフレームを、大規模言語モデルに入力する。これにより、ユーザが着目する物体又は行為を条件としたフレームの選定が可能となる。また、フレームが自動的に大規模言語モデルに入力されるようになる。

【0098】

また、上記実施形態では、サーバ２０は、説明文の一覧をユーザに提示し、動画の要約を出力させるためのプロンプトをユーザから受け付けるステップ。これにより、ユーザにとって説明文の一覧性が向上し、要約を指示するための判断材料が把握しやすくなる。

【0099】

また、上記実施形態では、受け付けるステップにおいて、サーバ２０は、所定の物体又は所定の行為が表れているフレームの説明文を、他の説明文に対して識別可能にユーザに提示する。これにより、ユーザが着目する物体又は行為が表れているフレームが瞬時に分かる。

【0100】

また、上記実施形態では、要約を出力させるステップにおいて、サーバ２０は、所定の時間幅に含まれる複数のフレームの説明文と、所定の時間幅の動画の要約を出力させるためのプロンプトと、を大規模言語モデルに入力し、所定の時間幅の動画の要約を大規模言語モデルに出力させる。これにより、ユーザが所望する時間幅だけの動画の要約が手に入る。

【0101】

また、上記実施形態では、動画は、監視カメラに撮影された動画である。また、動画は、手術において撮影された動画であってもよい。これにより、多様な場所ないし状況での動画の要約が可能となる。

【0102】

＜８．変形例＞
上記実施形態の変形例を説明する。
＜８．１．変形例１＞
上記実施形態では、ユーザは、ステップＳ１００７において、プロンプトＢにて、すなわち、言語的な方法にて、動画の要約対象となる時間幅を指定する。しかしながら、ユーザは、非言語的な方法にて動画の要約対象となる時間幅を指定してもよい。例えば、端末装置１０は、ユーザから、図７におけるバー５０２にて開始時刻のポイントから終了時刻のポイントにかけてドラッグされることによって、時間幅の指定を受け付けてもよい。また、端末装置１０は、ユーザから、図７における表５０４にて開始時刻の行から終了時刻の行にかけてドラッグされることによって、時間幅の指定を受け付けてもよい。

【0103】

これらの場合、ユーザは、プロントＢにて時間幅の指定をしない。プロンプトＢの文面は、例えば、「動画内で危険な状況が発生している場合、その状況と時刻を教えてください」である。

【0104】

＜８．２．変形例２＞
上記実施形態では、サーバ２０は、選定されたフレーム内の全領域の説明文をＬＬＭシステム３０に出力させた。しかし、サーバ２０は、選定されたフレーム内の一部領域の説明文のみをＬＬＭシステム３０に出力させてもよい。例えば、ディスプレイ１４１上で図７における動画が表示される領域５０１のうち一部領域がユーザによってドラッグされて指定され、当該領域で表される画像の説明を求めるプロンプトが入力される。このときのプロンプトは、例えば、「この中にＸＸは、何人いますか？」、又は「この中の状況を教えてください。」等である。サーバ２０は、指定された領域を特定する情報と、プロンプトとを端末装置１０から受け付ける。サーバ２０は、指定された領域に基づきフレームから画像を抜き出す。サーバ２０は、抜き出した画像と、プロンプトとをＬＬＭシステム３０に入力し、選定されたフレーム内の指定された一部領域の説明文をＬＬＭシステム３０に出力させる。

【0105】

なお、指定された一部領域に加工されるべき光景がある場合、サーバ２０は、該当光景に加工してもよい。加工されるべき光景は、例えば、プライバシーに係る光景である。加工は、例えば、マスク処理、又はモザイク処理等、対象の識別力を下げる処理である。例えば、サーバ２０は、指定された領域内にプライバシーに配慮すべき光景（例えば、人の顔など）を検出した場合、当該対象に対してモザイクをかける。

【0106】

＜８．３．変形例３＞
サーバ２０は、フレームの説明文を参照し、重要なフレームがつなぎ合わされた動画を、すなわち、ハイライト動画を作成してもよい。例えば、重要なフレームは、その説明文が長い（説明文が５文以上である、説明文が５０文字以上である、など）フレームである。また、例えば、重要なフレームは、所定の物体又は所定の行為に言及されている説明文のフレームである。所定の物体は、例えば、乗物、動物、武器などである。所定の行為は、例えば、入退室、転倒、衝突などである。

【0107】

サーバ２０は、例えば、ユーザにより、ハイライト動画の作成を指示する旨の指示を受け付ける。指示を受けるとサーバ２０は、例えば、記憶している説明文を解析し、重要なフレームを抽出する。解析は、例えば、自然言語解析であってもよいし、重要なフレームを抽出するように学習された学習済みモデルを用いて実施してもよいし、ＬＬＭを用いて実施してもよい。サーバ２０は、重要なフレームに基づいて、ハイライト動画を構成し得るフレームを抽出する。サーバ２０は、重要なフレームを、ハイライト動画を構成し得るフレームとしてもよいし、重要なフレームを基準とした複数のフレームをハイライト動画を構成し得るフレームとしてもよい。サーバ２０は、抽出したフレームを繋ぎ、ハイライト動画を作成する。これにより、ユーザは、ハイライト動画を容易に入手することが可能となり、動画を確認する負担が軽減されることになる。

【0108】

＜８．４．変形例４＞
上記実施形態では、ステップＳ１００７において、プロンプトＢは動画の要約を出力させるためのプロンプトであり、プロンプトＢの文面は、例えば、「動画内で危険な状況が発生している場合、その状況と時刻を教えてください」である。しかしながら、プロンプトＢは、動画での事象を分析するためのプロンプトであってもよい。つまり、プロンプトＢの文面は、例えば、「動画において来店者の年齢の分布を教えてください」であってもよい。この場合、ステップＳ１００９においてＬＬＭは、直感的形式で結果を出力してもよい。つまり、例えば、プロンプトＢの文面は、「動画において来店者の年齢の分布を、グラフで教えてください」であってもよい。例えば、ＬＬＭは、ステップＳ１００４において出力された各フレームの来店者の年齢に言及する説明文に基づいて、ステップＳ１００９において来店者の年齢分布のグラフを出力する。

【0109】

＜コンピュータの基本ハードウェア構成＞
図８は、コンピュータ９０の基本的なハードウェア構成を示すブロック図である。コンピュータ９０は、プロセッサ９０１、主記憶装置９０２、補助記憶装置９０３、通信ＩＦ９９１（インタフェース、Interface）を少なくとも備える。これらは通信バス９２１により相互に電気的に接続される。

【0110】

プロセッサ９０１とは、プログラムに記述された命令セットを実行するためのハードウェアである。プロセッサ９０１は、演算装置、レジスタ、周辺回路等から構成される。

【0111】

主記憶装置９０２とは、プログラム、及びプログラム等で処理されるデータ等を一時的に記憶するためのものである。例えば、ＤＲＡＭ（Dynamic Random Access Memory）等の揮発性のメモリである。

【0112】

補助記憶装置９０３とは、データ及びプログラムを保存するための記憶装置である。例えば、フラッシュメモリ、ＨＤＤ（Hard Disc Drive）、光磁気ディスク、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、半導体メモリ等である。

【0113】

通信ＩＦ９９１とは、有線又は無線の通信規格を用いて、他のコンピュータとネットワークを介して通信するための信号を入出力するためのインタフェースである。
ネットワークは、インターネット、ＬＡＮ、無線基地局等によって構築される各種移動通信システム等で構成される。例えば、ネットワークには、３Ｇ、４Ｇ、５Ｇ移動通信システム、ＬＴＥ（Long Term Evolution）、所定のアクセスポイントによってインターネットに接続可能な無線ネットワーク（例えばWi-Fi（登録商標））等が含まれる。無線で接続する場合、通信プロトコルとして例えば、Ｚ－Ｗａｖｅ（登録商標）、ＺｉｇＢｅｅ（登録商標）、Ｂｌｕｅｔｏｏｔｈ（登録商標）等が含まれる。有線で接続する場合は、ネットワークには、ＵＳＢ（Universal Serial Bus）ケーブル等により直接接続するものも含む。

【0114】

なお、各ハードウェア構成の全部または一部を複数のコンピュータ９０に分散して設け、ネットワークを介して相互に接続することによりコンピュータ９０を仮想的に実現することができる。このように、コンピュータ９０は、単一の筐体、ケースに収納されたコンピュータ９０だけでなく、仮想化されたコンピュータシステムも含む概念である。

【0115】

＜コンピュータ９０の基本機能構成＞
コンピュータ９０の基本ハードウェア構成（図８）により実現されるコンピュータの機能構成を説明する。コンピュータは、制御部、記憶部、通信部の機能ユニットを少なくとも備える。

【0116】

なお、コンピュータ９０が備える機能ユニットは、それぞれの機能ユニットの全部または一部を、ネットワークで相互に接続された複数のコンピュータ９０に分散して設けても実現することができる。コンピュータ９０は、単一のコンピュータ９０だけでなく、仮想化されたコンピュータシステムも含む概念である。

【0117】

制御部は、プロセッサ９０１が補助記憶装置９０３に記憶された各種プログラムを読み出して主記憶装置９０２に展開し、当該プログラムに従って処理を実行することにより実現される。制御部は、プログラムの種類に応じて様々な情報処理を行う機能ユニットを実現することができる。これにより、コンピュータは情報処理を行う情報処理装置として実現される。

【0118】

記憶部は、主記憶装置９０２、補助記憶装置９０３により実現される。記憶部は、データ、各種プログラム、各種データベースを記憶する。また、プロセッサ９０１は、プログラムに従って記憶部に対応する記憶領域を主記憶装置９０２または補助記憶装置９０３に確保することができる。また、制御部は、各種プログラムに従ってプロセッサ９０１に、記憶部に記憶されたデータの追加、更新、削除処理を実行させることができる。

【0119】

データベースは、リレーショナルデータベースを指し、行と列によって構造的に規定された表形式のテーブル、マスタと呼ばれるデータ集合を、互いに関連づけて管理するためのものである。データベースでは、表をテーブル、マスタ、表の列をカラム、表の行をレコードと呼ぶ。リレーショナルデータベースでは、テーブル、マスタ同士の関係を設定し、関連づけることができる。
通常、各テーブル、各マスタにはレコードを一意に特定するための主キーとなるカラムが設定されるが、カラムへの主キーの設定は必須ではない。制御部は、各種プログラムに従ってプロセッサ９０１に、記憶部に記憶された特定のテーブル、マスタにレコードを追加、削除、更新を実行させることができる。
また、記憶部に、データ、各種プログラム、各種データベースを記憶させることにより、本開示にかかる情報処理装置、情報処理システムが製造されたものとして捉えることができる。

【0120】

なお、本開示におけるデータベース、マスタは、情報が構造的に規定された任意のデータ構造体（リスト、辞書、連想配列、オブジェクトなど）を含み得る。データ構造体には、データと、任意のプログラミング言語により記述された関数、クラス、メソッドなどを組み合わせることにより、データ構造体と見なし得るデータも含むものとする。

【0121】

通信部は、通信ＩＦ９９１により実現される。通信部は、ネットワークを介して他のコンピュータ９０と通信を行う機能を実現する。通信部は、他のコンピュータ９０から送信された情報を受信し、制御部へ入力することができる。制御部は、各種プログラムに従ってプロセッサ９０１に、受信した情報に対する情報処理を実行させることができる。また、通信部は、制御部から出力された情報を他のコンピュータ９０へ送信することができる。

【0122】

また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、本発明は、実施例の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をコンピュータに提供し、そのコンピュータが備えるプロセッサが記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施例の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、ハードディスク、ＳＳＤ、光ディスク、光磁気ディスク、ＣＤ－Ｒ、磁気テープ、不揮発性のメモリカード、ＲＯＭなどが用いられる。

【0123】

また、本実施例に記載の機能を実現するプログラムコードは、例えば、アセンブラ、Ｃ／Ｃ＋＋、ｐｅｒｌ、Ｓｈｅｌｌ、ＰＨＰ、Ｊａｖａ（登録商標）等の広範囲のプログラム又はスクリプト言語で実装できる。

【0124】

さらに、実施例の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することによって、それをコンピュータのハードディスクやメモリ等の記憶手段又はＣＤ－ＲＷ、ＣＤ－Ｒ等の記憶媒体に格納し、コンピュータが備えるプロセッサが当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしてもよい。

【0125】

本明細書中に記載されている構成要素により実現される機能は、当該記載された機能を実現するようにプログラムされた、汎用プロセッサ、特定用途プロセッサ、集積回路、ASICs (Application Specific Integrated Circuits)、CPU (a Central Processing Unit)、従来型の回路、および／又はそれらの組合せを含む、circuitry又はprocessing circuitryにおいて実装されてもよい。プロセッサは、トランジスタやその他の回路を含み、circuitry又はprocessing circuitryとみなされる。プロセッサは、メモリに格納されたプログラムを実行する、programmed processorであってもよい。
本明細書において、circuitry、ユニット、手段は、記載された機能を実現するようにプログラムされたハードウェア、又は実行するハードウェアである。当該ハードウェアは、本明細書に開示されているあらゆるハードウェア、又は、当該記載された機能を実現するようにプログラムされた、又は、実行するものとして知られているあらゆるハードウェアであってもよい。
当該ハードウェアがcircuitryのタイプであるとみなされるプロセッサである場合、当該circuitry、手段、又はユニットは、ハードウェアと、当該ハードウェア及び又はプロセッサを構成する為に用いられるソフトウェアの組合せである。

【0126】

以上、本開示のいくつかの実施形態を説明したが、これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものとする。

【0127】

（付記）
以上の各実施形態で説明した事項を以下に付記する。

【0128】

（付記１）
プロセッサと、メモリとを備えるコンピュータを動作させるためのプログラムであってプログラムは、プロセッサに、複数フレームから成る動画を取得するステップと、動画又は動画を成す所定のフレームと、動画を成すフレームの内容を説明させるためのプロンプトとを大規模言語モデルに入力し、フレームの説明文を大規模言語モデルに出力させるステップと、複数の説明文と、動画の要約を出力させるためのプロンプトとを大規模言語モデルに入力し、動画の要約を大規模言語モデルに出力させるステップと、大規模言語モデルによって出力された要約をユーザに提示するステップと、を実行させるプログラム。
（付記２）
説明文を出力させるステップにおいて、複数フレームのうち、所定周期毎のフレームを、大規模言語モデルに入力する、（付記１）に記載のプログラム。
（付記３）
説明文を出力させるステップにおいて、複数フレームのうち、ランダムなタイミングのフレームを、大規模言語モデルに入力する、（付記１）又は（付記２）に記載のプログラム。
（付記４）
説明文を出力させるステップにおいて、複数フレームのうち、所定の物体又は所定の行為が検出されたフレームを、大規模言語モデルに入力する、（付記１）から（付記３）のいずれかに記載のプログラム。
（付記５）
説明文の一覧をユーザに提示し、動画の要約を出力させるためのプロンプトをユーザから受け付けるステップを、プロセッサに実行させる、（付記１）から（付記４）のいずれかに記載のプログラム。
（付記６）
受け付けるステップにおいて、所定の物体又は所定の行為が表れているフレームの説明文を、他の説明文に対して識別可能にユーザに提示する、（付記５）に記載のプログラム。
（付記７）
要約を出力させるステップにおいて、所定の時間幅に含まれる複数のフレームの説明文と、所定の時間幅の動画の要約を出力させるためのプロンプトと、を大規模言語モデルに入力し、所定の時間幅の動画の要約を大規模言語モデルに出力させる、（付記１）から（付記６）のいずれかに記載のプログラム。
（付記８）
取得するステップにおいて、動画は、監視カメラに撮影された動画である、（付記１）から（付記７）のいずれかに記載のプログラム。
（付記９）
取得するステップにおいて、動画は、手術において撮影された動画である、（付記１）から（付記８）のいずれかに記載のプログラム。
（付記１０）
プロセッサと、メモリとを備えるコンピュータに実行される方法であって、プロセッサが、（付記１）から（付記９）のいずれかに係る発明において実行される全てのステップを実行する方法。
（付記１１）
制御部と、記憶部とを備える情報処理装置であって、制御部が、（付記１）から（付記９）のいずれかに係る発明において実行される全てのステップを実行する情報処理装置。
（付記１２）
（付記１）から（付記９）のいずれかに係る発明において実行される全てのステップを実行する手段を備えるシステム。

【符号の説明】

【0129】

１…システム
１０…端末装置
１２…通信ＩＦ
１３…入力装置
１４…出力装置
１５…メモリ
１６…ストレージ
１９…プロセッサ
２０…サーバ
２２…通信ＩＦ
２３…入出力ＩＦ
２５…メモリ
２６…ストレージ
２９…プロセッサ
３０…ＬＬＭシステム
３１…撮影装置
８０…ネットワーク

【要約】

【課題】本開示によれば、動画の要約を容易に把握できる。
【解決手段】プロセッサと、メモリとを備えるコンピュータを動作させるためのプログラムであって、プログラムは、プロセッサに、複数フレームから成る動画を取得するステップと、動画又は動画を成す所定のフレームと、動画を成すフレームの内容を説明させるためのプロンプトとを大規模言語モデルに入力し、フレームの説明文を大規模言語モデルに出力させるステップと、複数の説明文と、動画の要約を出力させるためのプロンプトとを大規模言語モデルに入力し、動画の要約を大規模言語モデルに出力させるステップと、大規模言語モデルによって出力された要約をユーザに提示するステップと、を実行させるプログラム。
【選択図】図７