IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社ACESの特許一覧

特許7591311動画情報検索装置、検索方法、検索プログラム、及び検索結果の利用方法
<>
  • 特許-動画情報検索装置、検索方法、検索プログラム、及び検索結果の利用方法 図1
  • 特許-動画情報検索装置、検索方法、検索プログラム、及び検索結果の利用方法 図2
  • 特許-動画情報検索装置、検索方法、検索プログラム、及び検索結果の利用方法 図3
  • 特許-動画情報検索装置、検索方法、検索プログラム、及び検索結果の利用方法 図4
  • 特許-動画情報検索装置、検索方法、検索プログラム、及び検索結果の利用方法 図5
  • 特許-動画情報検索装置、検索方法、検索プログラム、及び検索結果の利用方法 図6
  • 特許-動画情報検索装置、検索方法、検索プログラム、及び検索結果の利用方法 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2024-11-20
(45)【発行日】2024-11-28
(54)【発明の名称】動画情報検索装置、検索方法、検索プログラム、及び検索結果の利用方法
(51)【国際特許分類】
   G06F 16/73 20190101AFI20241121BHJP
【FI】
G06F16/73
【請求項の数】 8
(21)【出願番号】P 2023142598
(22)【出願日】2023-09-01
【審査請求日】2023-09-04
【早期審査対象出願】
(73)【特許権者】
【識別番号】520008533
【氏名又は名称】株式会社ACES
(74)【代理人】
【識別番号】110002181
【氏名又は名称】弁理士法人IP-FOCUS
(74)【代理人】
【識別番号】100208959
【弁理士】
【氏名又は名称】島田 敏史
(72)【発明者】
【氏名】荒川 陸
(72)【発明者】
【氏名】矢倉 大夢
(72)【発明者】
【氏名】山下 桐正
(72)【発明者】
【氏名】久保 静真
(72)【発明者】
【氏名】前田 清州
(72)【発明者】
【氏名】武市 一成
【審査官】三橋 竜太郎
(56)【参考文献】
【文献】特開2010-250310(JP,A)
【文献】特開2002-142188(JP,A)
【文献】国際公開第2007/043679(WO,A1)
【文献】特開平09-044510(JP,A)
【文献】特開平09-006794(JP,A)
【文献】特開2022-053669(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
(57)【特許請求の範囲】
【請求項1】
発話者及び受話者のデータを備えた動画データから所望のシーンを検索する装置であって、
画像データと音声データを有する動画データが入力される入力手段と、
前記音声データについて言語情報を検索する言語クエリと、前記音声データについて音声情報を検索する音声クエリとを用いて検索クエリを作成するクエリ作成手段と、
前記動画データから前記検索クエリの条件に合致するシーンである検索結果シーンを抽出する抽出手段と、
前記抽出手段により抽出された前記検索結果シーンを表示可能な表示手段とを備え、
前記クエリ作成手段は、前記音声データ及び前記画像データの双方について検索が可能な複合クエリを作成可能であり、
前記動画データ内の前記発話者の発話及び挙動の少なくとも一方に対する前記受話者の反応を関連付けて前記複合クエリを作成可能であり、
前記複合クエリは、前記言語情報、前記音声情報、及び前記画像データについての画像情報の少なくとも一部又は全部を用いて前記動画データ内の前記発話者の発話及び挙動の少なくとも一方、及びこれらに対して関連付けられた前記受話者の反応について検索可能であることを特徴とする動画情報検索装置。
【請求項2】
請求項1に記載の動画情報検索装置であって、
前記クエリ作成手段は前記画像データについて画像情報を検索する画像クエリを作成可能であり、前記言語クエリ、前記音声クエリ、又は前記画像クエリの少なくとも2種類のクエリを用いて前記検索クエリを作成することを特徴とする動画情報検索装置。
【請求項3】
請求項1に記載の動画情報検索装置であって、
前記クエリ作成手段は、前記言語クエリ、前記音声クエリ、及び検索式の作成に用いる演算子をオブジェクトとして前記表示手段により表示し、これらのクエリと前記演算子を組み合わせて前記検索クエリを作成可能であることを特徴とする動画情報検索装置。
【請求項4】
請求項2に記載の動画情報検索装置であって、
前記クエリ作成手段は、前記言語クエリ、前記音声クエリ、前記画像クエリ、及び検索式の作成に用いる演算子をオブジェクトとして前記表示手段により表示し、これらのクエリと前記演算子を組み合わせて前記検索クエリを作成可能であることを特徴とする動画情報検索装置。
【請求項5】
請求項1に記載の動画情報検索装置であって、
作成された前記検索クエリを記憶する検索クエリ記憶手段をさらに備え、
前記クエリ作成手段は、前記検索クエリ記憶手段に記憶された記憶済の前記検索クエリをそのまま使用するか、記憶済の前記検索クエリを編集して使用可能であることを特徴とする動画情報検索装置。
【請求項6】
コンピュータを請求項1に記載の動画情報検索装置として作動させる動画情報検索プログラム。
【請求項7】
画像データと音声データを有する
コンピュータが、発話者及び受話者のデータを備えた動画データから所望のシーンを検索する方法であって、
コンピュータに画像データと音声データを有する動画データが入力される入力ステップと、
コンピュータが、前記音声データについて言語情報を検索する言語クエリと、前記音声データについて音声情報を検索する音声クエリとを用いて検索クエリをユーザが作成可能となるように表示させるクエリ表示ステップと、
コンピュータが前記動画データから前記検索クエリの条件に合致するシーンである検索結果シーンを抽出する抽出ステップと、
コンピュータが前記抽出ステップで抽出された前記検索結果シーンを表示する表示ステップとを備え、
前記クエリ表示ステップにおいて、前記検索クエリは、前記音声データ及び前記画像データの双方について検索が可能な複合クエリを含み、
前記複合クエリは、前記動画データ内の前記発話者の発話及び挙動の少なくとも一方に対する前記受話者の反応を関連付けられたものを含み、前記言語情報、前記音声情報、及び前記画像データについての画像情報の少なくとも一部又は全部を用いて前記動画データ内の前記発話者の発話及び挙動の少なくとも一方、及びこれらに対して関連付けられた前記受話者の反応について検索可能であることを特徴とする動画情報検索方法。
【請求項8】
請求項1に記載の動画情報検索装置による前記検索結果シーンを利用する方法であって、
前記検索結果シーンを用いて、入力に対して回答を行うAIシステムに入力可能なコマンドを作成するコマンド作成ステップと、
前記AIシステムに前記コマンド及び前記検索結果シーンを入力して前記回答を得る回答入手ステップを備えていることを特徴とする検索結果の利用方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ビデオ会議、或いは講演会等の動画データから重要なシーンを検索可能な装置、方法、プログラム、及び検索結果の利用方法に関する。
【背景技術】
【0002】
近年では、テレワーク等の普及に伴い、ビデオ会議を利用する機会が増加している。また、営業活動においても、担当者が顧客を直接訪問して営業活動を行うだけでなく、ビデオ会議を利用して営業活動を行う機会が増加している。さらには、オンラインでの講演会等も頻繁に行われるようになっている。
【0003】
特許文献1には、会議の参加者に会議に関連する関連情報を提示するシステムであって、音声データ、画像データ、及び登録されたキーワードを示すキーワードデータのうちの少なくとも2つのデータに含まれる複数のテキストデータに共通する共通語に基づいてクエリを生成し、所定のデータベースからクエリによる検索結果を取得し、検索結果又は検索結果の一部を所定の出力装置に出力する装置が開示されている。
【0004】
特許文献1の装置では、会議中に発せられた音声や表示された画像に関連する情報を参加者に提示する際に、音声をテキスト化する際に実行される音声認識処理や画像をテキスト化する際に実行される画像認識処理において誤認識を減少させることができるとされている。
【先行技術文献】
【特許文献】
【0005】
【文献】特開2019-102060号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
特許文献1に記載の技術では、音声認識処理や画像をテキスト化する際に実行される画像認識処理において、音声データ、画像データ及び登録キーワードのうち少なくとも2つのデータに含まれる複数のテキストデータに共通する共通語を用いてクエリを作成し、データベースから当該クエリによる検索結果を取得しており、これら複数のデータで共通する共通語を用いることで、画像処理における誤認識を減少させている。
【0007】
しかしながら、特許文献1の技術では、画像処理における誤認識を減少させることはできるが、その会議における重要な会話がどの会話であったのか等、会議の要点を把握することは困難である。
【0008】
また、長時間の動画データから重要なシーンを検索する場合、検索を行うためのクエリが重要になるが、特許文献1においては、クエリは音声データ、画像データ及び登録キーワードに共通する共通語を用いているのみであり、その音声データ等が会議において重要なシーンであるか否かについてはなんら考慮がなされていない。
【0009】
本発明は、上記課題に鑑み、会議や講演会における重要なシーンを容易に検索することができる動画情報検索装置、検索方法、及び検索プログラムを提供することを目的とする。また、本発明の他の目的は、これらの検索方法等による検索結果を有効に利用する検索結果の利用方法を提供することにある。
【課題を解決するための手段】
【0010】
上記目的を達成するために、本発明の動画情報検索装置は、発話者及び受話者のデータを備えた動画データから所望のシーンを検索する装置であって、画像データと音声データを有する動画データが入力される入力手段と、前記音声データについて言語情報を検索する言語クエリと、前記音声データについて音声情報を検索する音声クエリとを用いて検索クエリを作成するクエリ作成手段と、前記動画データから前記検索クエリの条件に合致するシーンである検索結果シーンを抽出する抽出手段と、前記抽出手段により抽出された前記検索結果シーンを表示可能な表示手段とを備え、前記クエリ作成手段は、前記音声データ及び前記画像データの双方について検索が可能な複合クエリを作成可能であり、前記動画データ内の前記発話者の発話及び挙動の少なくとも一方に対する前記受話者の反応を関連付けて前記複合クエリを作成可能であり、前記複合クエリは、前記言語情報、前記音声情報、及び前記画像データについての画像情報の少なくとも一部又は全部を用いて前記動画データ内の前記発話者の発話及び挙動の少なくとも一方、及びこれらに対して関連付けられた前記受話者の反応について検索可能であることを特徴とする。
【0011】
本発明の動画情報検索装置は、動画データから所望のシーンを検索する際、言語クエリ及び音声クエリを用いて検索クエリを生成し、当該検索クエリを用いて動画データから検索結果シーンを抽出する。このように、本発明では、動画データ内の複数の形式の情報に対してクエリを作成することができるので、マルチモーダルな検索が可能となる。ここで、言語情報とは、動画データの音声における言葉の内容や意味等に関する情報である。音声情報とは、動画データの音声における、声質、声量、口調、テンポ等に関する情報である。
【0012】
本発明の動画情報検索装置において、前記クエリ作成手段が前記画像データについて画像情報を検索する画像クエリを作成可能であり、前記言語クエリ、前記音声クエリ、又は前記画像クエリの少なくとも2種類のクエリを用いて前記検索クエリを作成するようにしてもよい。当該構成により、動画データ内のさらに多くの形式の情報に対してクエリを作成することができるので、マルチモーダルな検索が可能となる。ここで、画像情報とは、動画データにおいて、主に人物の見た目、しぐさ、表情、視線、動き等の情報である。
【0013】
本発明の動画情報検索装置において、前記クエリ作成手段が、前記言語クエリ、前記音声クエリ、及び検索式の作成に用いる演算子をオブジェクトとして前記表示手段により表示し、これらのクエリと前記演算子を組み合わせて前記検索クエリを作成可能としてもよい。さらに、前記画像クエリもオブジェクトとして前記表示手段により表示し、これらのクエリと前記演算子を組み合わせて前記検索クエリを作成可能としてもよい。
【0014】
当該構成によれば、各クエリ及び演算子をオブジェクトとして取り扱い、これらを組み合わせて検索クエリを作成することができる。従って、検索クエリの作成を視覚的に行うことができるため、検索クエリの作成が容易となる。なお、オブジェクトとは、独立した情報処理を行う単位をいい、本発明では視覚的に表されたクエリ及び演算子となる。
【0015】
本発明の動画情報検索装置において、前記クエリ作成手段、前記音声データ及び前記画像データの双方について検索が可能な複合クエリを作成可能であるときは、音声データ又は画像データ単独では検出が困難なシーンであっても、複合クエリによって検索が可能となる。複合クエリの例としては、主に人物の感情を挙げることができる。
【0016】
当該構成において、前記複合クエリ、前記言語情報、前記音声情報、及び前記画像情報の少なくとも一部又は全部を用いて前記動画データ内の発話者の発話及び挙動の少なくとも一方、及びこれらに対する受話者の反応について検索可能であるときは、動画データ内の発話者が何をどう伝えたのか、及び受話者が何をどう受け取ったのかについて検索可能となる
【0017】
当該構成によれば、発話者の発話や挙動、及びこれらに対する受話者の反応での検索ができるため、情報のやりとりにおいて発生した当事者の心境の変化等を的確に検索することができる。例えば、発話者が大きな声で挨拶をした場合の受話者の表情を検索する場合や、発話者の発言に対して受話者が怯えてしまったシーンを検索する場合等が挙げられる。このとき、複合クエリについてもオブジェクトとして表示し、クエリとして使用し、又は編集することができるようにしてもよい。
【0018】
本発明の動画情報検索装置において、作成された前記検索クエリを記憶する検索クエリ記憶手段をさらに備え、前記クエリ作成手段は、前記検索クエリ記憶手段に記憶された記憶済の前記検索クエリをそのまま使用するか、記憶済の前記検索クエリを編集して使用可能としてもよい。
【0019】
当該構成によれば、動画データの検索を行う際、検索クエリ記憶手段に記憶されている検索クエリに同じ検索目的のものがあればそのまま使用することができる。また、検索目的に近い検索クエリが記憶されていれば、その検索クエリを編集することで容易に検索目的の検索クエリを作成することができる。
【0020】
また、本発明は、コンピュータを上記各動画情報検索装置として作動させる動画情報検索プログラムとすることができる。動画情報検索プログラムの状態としては、コンピュータにインストールされている状態の他、CDロムやDVDロム等に記憶されている状態、ネットワークを介してアップロードやダウンロードされる状態が含まれる。
【0021】
また、本発明の動画情報検索方法は、コンピュータが、発話者及び受話者のデータを備えた動画データから所望のシーンを検索する方法であって、コンピュータに画像データと音声データを有する動画データが入力される入力ステップと、コンピュータが、前記音声データについて言語情報を検索する言語クエリと、前記音声データについて音声情報を検索する音声クエリとを用いて検索クエリをユーザが作成可能となるように表示させるクエリ表示ステップと、コンピュータが前記動画データから前記検索クエリの条件に合致するシーンである検索結果シーンを抽出する抽出ステップと、コンピュータが前記抽出ステップで抽出された前記検索結果シーンを表示する表示ステップとを備え、前記クエリ表示ステップにおいて、前記検索クエリは、前記音声データ及び前記画像データの双方について検索が可能な複合クエリを含み、前記複合クエリは、前記動画データ内の前記発話者の発話及び挙動の少なくとも一方に対する前記受話者の反応を関連付けられたものを含み、前記言語情報、前記音声情報、及び前記画像データについての画像情報の少なくとも一部又は全部を用いて前記動画データ内の前記発話者の発話及び挙動の少なくとも一方、及びこれらに対して関連付けられた前記受話者の反応について検索可能であることを特徴とする。
【0022】
当該動画情報検索方法においては、入力ステップにおいて画像データを入手し、前記クエリ作成ステップにおいて前記画像データについて画像情報を検索する画像クエリを作成可能であり、前記言語クエリ、前記音声クエリ、又は前記画像クエリの少なくとも2種類のクエリを用いて前記検索クエリを作成するようにしてもよい。
【0023】
また、前記クエリ作成ステップにおいて、前記言語クエリ、前記音声クエリ、及び検索式の作成に用いる演算子をオブジェクトとして表示し、これらのクエリと前記演算子を組み合わせて前記検索クエリを作成可能としてもよい。また、前記クエリ作成ステップにおいて、前記言語クエリ、前記音声クエリ、前記画像クエリ、及び検索式の作成に用いる演算子をオブジェクトとして表示し、これらのクエリと前記演算子を組み合わせて前記検索クエリを作成可能としてもよい。
【0024】
また、当該動画情報検索方法においては、前記クエリ作成ステップにおいて、前記音声データ及び前記画像データの双方について検索が可能な複合クエリを作成可能としてもよい。また、前記複合クエリは、前記言語情報、前記音声情報、及び前記画像情報の少なくとも一部又は全部を用いて前記動画データ内の人物の感情を検索可能としてもよい。
【0025】
さらに、当該動画情報検索方法において、作成された前記検索クエリを記憶する検索クエリ記憶ステップをさらに備え、前記クエリ作成ステップにおいて、前記検索クエリ記憶ステップで記憶された記憶済の前記検索クエリをそのまま使用するか、記憶済の前記検索クエリを編集して使用可能としてもよい。
【0026】
また、本発明の動画情報検索方法による検索結果シーンを利用する方法は、前記検索結果シーンを用いてコマンドを作成するコマンド作成ステップと、入力に対して回答を行うAIシステムに前記コマンド及び前記検索結果シーンを入力して前記回答を得る回答入手ステップを備えていることを特徴とする。
【0027】
当該利用方法によれば、コマンド作成ステップによって作成されるコマンドが、重要なシーンである検索結果シーンを用いて作成され、当該コマンド及び前記検索結果シーンをAIシステムに入力し、回答入手ステップで回答が得られるため、AIシステムを利用して重要度の高い回答を得ることができる。
【発明の効果】
【0028】
本発明によれば、会議や講演会における重要なシーンを容易に検索することができる動画情報検索装置、検索方法、検索プログラム、及び検索結果の利用方法を提供することができる。
【図面の簡単な説明】
【0029】
図1】本発明の実施形態の一例である動画情報検索装置の機能的構成を示す説明図。
図2】本実施形態の動画情報検索装置における操作画面を示す説明図。
図3】動画データの構成と、検索クエリの構成を示す説明図。
図4】検索を所望するシーンの一例を示す説明図。
図5】保存された検索クエリの状態を示す説明図。
図6】複合検索クエリの一例を示す説明図。
図7】本実施形態の動画情報検索装置による検索結果の利用方法を示す説明図。
【発明を実施するための形態】
【0030】
次に、図1図7を参照して、本発明の実施形態である動画情報検索装置、検索方法、検索プログラム、及び検索結果の利用方法について説明する。本実施形態の動画情報検索装置1は、図1に示すように、動画データが入力される入力手段2と、動画データから所望のシーンを抽出するためのクエリを作成するクエリ作成手段3と、クエリを用いて動画データからシーンを抽出する抽出手段4と、抽出されたシーンを表示させる表示手段5と、作成されたクエリを記憶する検索クエリ記憶手段6を備えている。
【0031】
動画情報検索装置1は、ハードウェアとしてのコンピュータと、コンピュータに記憶されたソフトウェアである動画情報検索プログラム7によって構成されている。コンピュータは、CPU(中央演算処理装置)、GPU(画像処理装置)等のプロセッサ、ハードディスク、メモリ等の記憶手段、及び各種ネットワークとの接続手段、キーボード、マウス、及びディスプレイ等を備えている(図示省略)。
【0032】
図2は、本実施形態の動画情報検索装置1において、表示手段5によって表示がなされる操作画面10を示している。操作画面10においては、動画データが入力される入力手段2の一部である入力エリア11が設けられている。この入力エリア11に、シーンを抽出したい動画データ20をドラッグアンドドロップ等で入力することができる。
【0033】
操作画面10には、クエリ作成手段3により表示されるクエリ、及び検索式の作成に用いる演算子を選択可能な選択エリア12と、オブジェクト化されたクエリ及び演算子を配置し、連結して検索クエリ30を作成可能なクエリ作成エリア13と、検索クエリ30によって検索がなされた結果表示される検索結果シーン20Sを表示可能な検索結果エリア14が設けられている。
【0034】
選択エリア12には、検索クエリ30を作成する際に使用可能なクエリと演算子が表示されている。これらのクエリと演算子は、マウス等で選択してクエリ作成エリア13に移動させることができる。
【0035】
クエリ作成エリア13は、オブジェクト化されたクエリや演算子を組み合わせて検索クエリ30を作成することができるエリアである。オブジェクト化された各クエリ及び演算子には、接続ポートPが設けられており、このマウス等で接続ポートP同士を接続することが可能となっている。このように、各クエリと演算子はオブジェクト化されており、視覚的に検索クエリ30を作成することが可能となっている。
【0036】
クエリ作成エリア13には、検索クエリ30を作成するために用いられる+ボタン30a、-ボタン30b、削除ボタン30c、コード生成ボタン30d、及び実行ボタン30eが設けられている。
【0037】
次に、図3を参照して、動画データ20の構造と、検索クエリ30を構成する各クエリの関係について説明する。動画データ20は、図3に示すように、音声データ21と画像データ22を有している。音声データ21には、人の会話や講演等の言語的な情報である言語情報21aと、声の大きさ、声の高さ、或いは抑揚等を検知可能な音声情報21bが含まれている。画像データ22には、人物の表情等を含む画像情報22aが含まれている。
【0038】
検索クエリ30は、言語クエリ31、音声クエリ32、複合クエリ33、及び画像クエリ34の各クエリと、演算子35を有している。言語クエリ31は、言語情報21aに対して検索を行うためのクエリであり、言語的特徴量を検索するクエリである。音声クエリ32は、音声情報21bに対して検索可能なクエリであり、準言語的特徴量を検索するクエリである。複合クエリ33は、言語情報21a及び音声情報21bの双方に対して検索可能であり、さらに、画像情報22aに対して検索可能なクエリである。画像クエリ34は、画像情報22aに対して検索を行うクエリであり、非言語的特徴量を検索するクエリである。
【0039】
言語クエリ31の具体例としては、発話が質問文であるか、特定の相づちがあるか、納期等の特定の単語があるか、発話にフィラー(「えー」や「まあ」等の意味のない語句)が含まれているか等を挙げることができる。
【0040】
音声クエリ32の具体例としては、発話における声の大きさ、声の高さ、発話中の声の高さのばらつき具合、次の発話との間の長さ、隣接する発話の発話者が同じか否か、発話のスピード等を挙げることができる。
【0041】
複合クエリ33の具体例としては、発話者の発話及び挙動の少なくとも一方、及びこれらに対する受話者の反応を挙げることができる。会話が行われれば、当事者のうち、一方が発話者になり、他方が受話者になる。このとき、発話者の発話や挙動(表情、身振り手振り、頭の動き、声の大きさ等)が受話者の反応(喜び、驚き、戸惑い、困惑、怒り、悲しみ、中立等)を検索することができれば、重要なシーンの抽出が容易となる。
【0042】
例えば、発話者が笑顔で大きな声で挨拶をした場合、受話者の表情が和らぐ場合は、発話者と受話者は良好な関係を築いていると言える。一方で、発話者の発話や挙動が怒気を含んでおり、受話者が怯えたような表情となった場合、会話としては好ましくないシーンであることが想定される。このように、発話者の発話等と受話者との反応を組み合わせて検索可能とすることにより、重要なシーンの抽出を容易なものとすることができる。
【0043】
また、複合クエリ33の具体例としては、人物の感情を挙げることができる。感情としては、前述の受話者の反応と同様に、喜び、驚き、戸惑い、困惑、怒り、悲しみ、中立等を挙げることができる。例えば、複合クエリ33が「喜び」であれば、言語情報21aとしては肯定的な言語であり、音声情報21bとしては比較的声が高く、画像情報22aとしては目が大きく開いて口角が上がっている等の情報から特定することができる。
【0044】
次に、本実施形態の動画情報検索装置1及び動画情報検索プログラム7を用いて動画データ20から所望のシーンを検索する方法について説明する。検出したい重要なシーンとしては、例えば、図4に示すように、商談における発話者による発話が、言語情報21aでは質問形式であり、音声情報21bでは語気が強く、画像情報22aにおいて姿勢が前のめりである場合が考えられる。このように、商談において、発話者が強調をしながら質問をするシーンは、商談の中でも重要なシーンであることが多い。
【0045】
このようなシーンを検索する場合は、まずは検索対象となる動画データ20を入力エリア11に入力する(入力ステップ)。具体的には、例えば、動画情報検索装置1を構成するコンピュータに記憶され、或いはネットワーク等に接続されたコンピュータやサーバ等に記憶された動画データ20をマウス等のデバイスを用いて入力エリア11にドラッグアンドドロップする。
【0046】
次に、言語クエリ31、音声クエリ32、及び画像クエリ34のいずれかのクエリを用いて検索クエリ30を作成する(クエリ作成ステップ)。具体的には、図2に示す選択エリア12に表示された各クエリをマウス等で選択し、クエリ作成エリア13にドラッグアンドドロップで配置する。図2においては、音声クエリ32として「語気の強さ」32a、言語クエリ31として「発話は質問文か?」31a、画像クエリ34として「縦方向の頭の向き」34aというクエリと、「~より大」35a,35b、「And」35c、「検出」35dという演算子35を配置している。
【0047】
次に、各オブジェクトを組み合わせて検索クエリ30を作成する。図2に示すように、「語気の強さ」32aと「~より大」35aの各オブジェクトの接続ポートP同士を接続する。「~より大」35aのオブジェクトでは、最大が1となっているパラメータを入力する。図2では、例示として「0.6」というパラメータの入力を行っている。また、「~より大」35aと「And」35c、及び「検出」35dの各オブジェクトも接続ポートPで接続する。
【0048】
また、「発話は質問文か?」31aと「And」35cの各オブジェクトについても接続を行う。また、「縦方向の頭の向き」34aは、パラメータが「0.6」に設定された「~より大」35bと接続し、この「~より大」35bを「And」35cに接続する。検索クエリ30が完成した場合は、クエリ作成エリア13のコード生成ボタン30dをクリックすることで、作成された検索クエリ30で検索処理が実行可能となる。
【0049】
このように作成された検索クエリ30は、語気の強さが0.6よりも大で、発話が質問文であり、縦方向の頭の向きが0.6より大である人物が撮影されたシーンを検索するクエリとなっている。ここで、クエリ作成エリア13の実行ボタン30eをクリックすると、動画データ20内において、検索クエリ30により形成された条件に合致するシーンの検索及び抽出が行われ(抽出ステップ)、条件に合致するシーンがある場合は、検索結果エリア14に1或いは複数の検索結果シーン20Sが表示される(表示ステップ)。
【0050】
動画データ20の検索を行ったユーザは、検索結果シーン20Sを確認することにより、自身が作成した検索クエリ30の妥当性を判断することができる。仮に、検索結果シーン20Sが、自身が検索結果として想像したシーンとは異なる場合は、検索クエリ30を修正することができる。例えば、検索結果シーン20Sが、発話者の質問が行われているシーンであったが、語気が弱く、その質問が強調されているものではなかった場合、クエリ作成エリア13内の演算子35である「~より大」35aのパラメータを0.6よりも大とすればよい。
【0051】
本実施形態の動画情報検索装置1では、このように、クエリ作成エリア13において視覚的に検索クエリ30を作成及び編集することができるので、検索を行うユーザは直感的な操作で検索クエリ30を作成することができる。また、作成した検索クエリ30が妥当であるかどうか、検索結果シーン20Sを見ることで確認することができるので、検索クエリ30の微調整も容易に行うことができる。
【0052】
また、本実施形態の動画情報検索装置1では、検索クエリ30として、複合クエリ33である感情ラベル33aを用いることができる。感情ラベル33aは、人物の感情についての検索を行うクエリであり、例えば、喜び、驚き、戸惑い、困惑、怒り、悲しみ、中立等の感情を選択することができるようになっている。或いはユーザがこれらとは別に「不機嫌」等の感情に関するクエリを設定することもできる。
【0053】
感情ラベル33aは、言語情報21a、音声情報21b、及び画像情報22aの少なくとも一部又は全部を用いて作成されるクエリである。例えば、言語情報21aで「困りました」等の情報であれば、言語情報21aのみで困惑の感情を検索することができる。または、音声情報21bで発話の声量が急激に上昇した場合は、音声情報21bのみで怒りの感情を検索することもできる。或いは、画像情報22aで、人物の表情が判別できるため、画像情報22aのみでも感情を検索することができる。さらに、言語情報21a、音声情報21b、及び画像情報22aの各情報を組み合わせることにより、精度の高い感情の検索が可能となる。
【0054】
このように作成された検索クエリ30は、検索クエリ記憶手段6に記憶することにより、次回以降のクエリ作成ステップにおいて使用することができる。検索クエリ記憶手段6いに記憶された検索クエリ30は、図5に示すようにライブラリ画面36において一覧表示を行うことができる。ライブラリ画面36においては、オブジェクト化されたクエリや演算子を見ることができ、各クエリの名称や、その内容を説明する説明文が表示されている。
【0055】
このライブラリ画面36により、ユーザは、記憶済の検索クエリ30の中から自身の所望する検索クエリ30を選んでそのまま使用することができる。また、自身の所望する検索クエリ30が発見されないときは、自身の所望する検索クエリ30に近いクエリを抽出してクエリ作成エリア13において編集し、自身の所望する検索クエリ30とすることができる。
【0056】
ここで、複合クエリ33の一例として、図6に示す「会話における発話者の発話や挙動に対する受話者の反応」を検索する複合クエリ33bについて説明する。この複合クエリ33bは、発話者の発話及び挙動が入力可能な発話者入力部33cと、受話者の反応を入力可能な受話者入力部33dを備えている。
【0057】
発話者入力部33cでは、発話者がどのような発話をしたのか、及びどのような挙動(表情等)を伴って発話をしたのかが入力可能である。受話者入力部33dでは、入力可能なエリアが2箇所設けられており、受話者が何をどのように受け取ったか等の反応を入力することができる。これらの入力欄は、いずれか一方のみに入力してもよく、双方に入力してもよい。
【0058】
次に、動画情報検索方法による検索結果シーンを利用する方法について、図7を参照して説明する。本実施形態の動画情報検索装置1及び検索方法で抽出された検索結果シーン20Sは、ユーザの所望する重要なシーンとなっている。例えば、動画データ20がオンラインでの商談に関する動画データであり、検索クエリ30が商談における営業担当者の気をつけるべき点を抽出するものであった場合、検索結果シーン20Sは、営業担当者が気を付けるべきシーンの集合となる。
【0059】
このような重要なシーンの集合である検索結果シーン20Sを用いてAIシステム8用にコマンド9を作成し、検索結果シーン20Sとコマンド9をAIシステム8に入力することにより、有用な情報を得ることが期待される。
【0060】
まず、検索結果シーン20Sを用いてコマンド9を作成する(コマンド作成ステップ)。具体的には、検索クエリ30に関連するキーワードを用いてコマンド9を作成する。例えば、検索クエリ30が商談における営業担当者の気をつけるべき点を抽出するものであった場合、コマンド9としては、「これらの動画データ(検索結果シーン20S)は、営業担当者が質問されてうまく回答できなかったシーンです。これらのシーンから、この営業担当者の今後の訓練に必要なトピックを抽出してください。」といったコマンド9を作成することができる。
【0061】
このコマンド作成ステップでは、コマンド9の作成をAIシステムを用いて行ってもよく、検索クエリ30に関連付けられたデータテーブルを用いて行ってもよい。さらに、操作を行うユーザによって編集可能としてもよい。
【0062】
ここで、AIシステム8としては、公知の大規模モデルと呼ばれているモデルを用いることができる。例えば、OpenAIのGPT等を挙げることができる。このようなAIシステム8に、検索結果シーン20Sと作成したコマンド9を入力し、回答8aを得る(回答入手ステップ)。
【0063】
この回答入手ステップにより得られた回答8aは、動画情報検索装置1及び検索方法により得られた検索結果シーン20Sと、検索クエリ30に関連するコマンド9を入力することにより得られた回答であるため、ユーザの所望する回答を高い確率で得ることができる。
【0064】
なお、上記実施形態においては、クエリ作成ステップにおいて、言語クエリ31、音声クエリ32、及び画像クエリ34を用いて検索クエリ30を作成しているが、少なくとも2種類のクエリを用いて検索クエリ30を作成すればよい。また、このように3種類のクエリを用いる場合に限らず、言語クエリ31及び音声クエリ32のみを用いて検索クエリ30を作成してもよい。この場合であっても、音声データ21に対して言語情報21a及び音声情報21bによる検索を行うことができるため、マルチモーダルな検索が可能となる。
【0065】
また、上記実施形態においては、動画情報検索プログラム7は、動画情報検索装置1にインストールされてこれを作動させているが、これに限らず、クラウドコンピューティングによってプログラムを提供してもよく、CDロムやDVDロム等の記憶媒体に記憶させた状態で提供してもよい。また、動画情報検索プログラム7は、図示しないサーバにインストールされていてもよく、API(Application Programming Interface)連携を利用したプログラムとしてもよい。
【符号の説明】
【0066】
1…動画情報検索装置
2…入力手段
3…クエリ作成手段
4…抽出手段
5…表示手段
6…検索クエリ記憶手段
7…動画情報検索プログラム
8…AIシステム
10…操作画面
11…入力エリア
12…選択エリア
13…クエリ作成エリア
14…検索結果エリア
20…動画データ
20S…検索結果シーン
21…音声データ
21a…言語情報
21b…音声情報
22…画像データ
22a…画像情報
30…検索クエリ
31…言語クエリ
32…音声クエリ
33…複合クエリ
33a…感情ラベル
34…画像クエリ
35…演算子
36…ライブラリ画面

【要約】
【課題】会議や講演会における重要なシーンを容易に検索することができる動画情報検索装置、検索方法、検索プログラム、及び検索結果の利用方法を提供する。
【解決手段】動画情報検索装置1は、動画データが入力される入力手段2と、クエリを作成するクエリ作成手段3と、動画データからシーンを抽出する抽出手段4と、抽出されたシーンを表示させる表示手段5と、検索クエリ記憶手段6を備える。操作画面10には、動画データが入力される入力エリア11と、検索クエリ30を作成可能なクエリ作成エリア13と、検索結果シーン20Sを表示可能な検索結果エリア14がある。選択エリア12には、使用可能なクエリと演算子が表示され、クエリ作成エリア13はオブジェクト化されたクエリや演算子を組み合わせて検索クエリ30を作成可能なエリアであり、視覚的に検索クエリ30を作成可能である。検索クエリ30は、言語クエリ31、音声クエリ32、及び画像クエリ34の組合せで作成する。
【選択図】図2
図1
図2
図3
図4
図5
図6
図7