特許7455338 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ダイキン工業株式会社の特許一覧 ▶ フェアリーデバイセズ株式会社の特許一覧

特許7455338情報処理方法、情報処理装置及びコンピュータプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-03-15

(45)【発行日】2024-03-26

(54)【発明の名称】情報処理方法、情報処理装置及びコンピュータプログラム

(51)【国際特許分類】

G06F 16/683 20190101AFI20240318BHJP

G06F 16/783 20190101ALI20240318BHJP

G06F 16/632 20190101ALI20240318BHJP

G06F 16/732 20190101ALI20240318BHJP

【ＦＩ】

G06F16/683

G06F16/783

G06F16/632

G06F16/732

【請求項の数】 15

(21)【出願番号】P 2022112563

(22)【出願日】2022-07-13

(65)【公開番号】P2024010943

(43)【公開日】2024-01-25

【審査請求日】2023-07-07

(73)【特許権者】

【識別番号】000002853

【氏名又は名称】ダイキン工業株式会社

(73)【特許権者】

【識別番号】513190830

【氏名又は名称】ＦａｉｒｙＤｅｖｉｃｅｓ株式会社

(74)【代理人】

【識別番号】100114557

【弁理士】

【氏名又は名称】河野英仁

(74)【代理人】

【識別番号】100078868

【弁理士】

【氏名又は名称】河野登夫

(72)【発明者】

【氏名】バティアワンシュ

(72)【発明者】

【氏名】セナティアニシュラム

(72)【発明者】

【氏名】パトラワラウィラフ

(72)【発明者】

【氏名】藤野真人

【審査官】松尾真人

(56)【参考文献】

【文献】特開２０２２－０３９９７３（ＪＰ，Ａ）

【文献】特開２０２２－０１３２５６（ＪＰ，Ａ）

【文献】特開２０１６－１３６３４１（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ１６／００－１６／９５８

Ｇ０６Ｆ４０／２０－４０／５８

(57)【特許請求の範囲】

【請求項1】

情報処理装置の処理部は、
音声データを文字列データに変換し、
前記文字列データから第１のワードを抽出して質問データを生成し、
前記文字列データ及び前記質問データが入力された場合、前記文字列データから前記質問データに対する回答に相当するワードを出力する学習済みの言語学習モデルに前記文字列データ及び前記質問データを入力することによって、前記文字列データから第２のワードを抽出し、
前記音声データ、第１のワード及び第２のワードを関連付けて記憶する
情報処理方法。

【請求項2】

第１のワードは動詞又は形容詞であり、
第２のワードは名詞である
請求項１に記載の情報処理方法。

【請求項3】

前記処理部は、
前記文字列データに含まれる複数の動詞又は形容詞のワードのうち、所定ワードを記憶した辞書データにあるワードを第１のワードとして抽出し、前記質問データを生成する
請求項１又は請求項２に記載の情報処理方法。

【請求項4】

前記第１のワード及び第２のワードはそれぞれ複数である
請求項１又は請求項２に記載の情報処理方法。

【請求項5】

前記音声データは複数シーンに区分けされており、
前記処理部は、
各区分の文字列データから第１のワードを抽出して質問データを生成し、
前記言語学習モデルに前記文字列データ及び前記質問データを入力することによって、各区分の文字列データから第２のワードをそれぞれ抽出し、
各区分に、該区分に係る第１のワードと、該区分に係る第２のワードとを関連付けて記憶する
請求項１又は請求項２に記載の情報処理方法。

【請求項6】

前記処理部は、
前記音声データの全文字列データから第１のワードを抽出して質問データを生成し、
前記言語学習モデルに前記文字列データ及び前記質問データを入力することによって、前記音声データの全文字列データから第２のワードを抽出し、
前記音声データのファイルに、該ファイルに係る第１のワードと、該ファイルに係る第２のワードとを関連付けて記憶する
請求項５に記載の情報処理方法。

【請求項7】

前記処理部は、
文字を含む報告書のテンプレートから第１のワードを抽出して前記質問データを生成し、
前記文字列データから抽出された第２のワードを前記テンプレートに入力し、
前記テンプレートに第２のワードが入力された報告書データを、前記音声データに関連付けて記憶する
請求項１又は請求項２に記載の情報処理方法。

【請求項8】

前記処理部は、
機器の保守点検の現場で撮像及び録音された動画データを取得し、
取得した動画データに含まれる音声データを文字列データに変換し、
第１のワードを含む質問データを用いて、前記文字列データから第２のワードを抽出し、
前記動画データ、第１のワード及び第２のワードを関連付けて記憶する
請求項１又は請求項２に記載の情報処理方法。

【請求項9】

前記処理部は、
前記動画データの動画に関連する第１のワード及び第２のワードを該動画に重畳して表示する
請求項８に記載の情報処理方法。

【請求項10】

前記処理部は、
文字を含む検索要求を受け付け、
データベースに記憶する複数の前記音声データから、
検索要求の文字と関連する第１のワード及び第２のワードが関連付けられた前記音声データを検出する
請求項１又は請求項２に記載の情報処理方法。

【請求項11】

情報処理装置の処理部は、
動画データに含まれる音声データを文字列データに変換し、
前記文字列データから第１のワードを抽出して質問データを生成し、
前記文字列データ及び前記質問データが入力された場合、前記文字列データから前記質問データに対する回答に相当するワードを出力する学習済みの言語学習モデルに前記文字列データ及び前記質問データを入力することによって、前記文字列データから第２のワードを抽出し、
前記動画データと共に、第１のワードを含む質問データ及び第２のワードを出力する
情報処理方法。

【請求項12】

音声データを文字列データに変換し、前記文字列データから第１のワードを抽出して質問データを生成し、前記文字列データ及び前記質問データが入力された場合、前記文字列データから前記質問データに対する回答に相当するワードを出力する学習済みの言語学習モデルに前記文字列データ及び前記質問データを入力することによって、前記文字列データから第２のワードを抽出する処理部と、
前記音声データ、第１のワード及び第２のワードを関連付けて記憶する記憶部と
を備える情報処理装置。

【請求項13】

動画データに含まれる音声データを文字列データに変換し、前記文字列データから第１のワードを抽出して質問データを生成し、前記文字列データ及び前記質問データが入力された場合、前記文字列データから前記質問データに対する回答に相当するワードを出力する学習済みの言語学習モデルに前記文字列データ及び前記質問データを入力することによって、前記文字列データから第２のワードを抽出する処理部と、
前記動画データと共に、第１のワードを含む質問データ及び第２のワードを出力する出力部と
を備える情報処理装置。

【請求項14】

音声データを文字列データに変換し、
前記文字列データから第１のワードを抽出して質問データを生成し、
前記文字列データ及び前記質問データが入力された場合、前記文字列データから前記質問データに対する回答に相当するワードを出力する学習済みの言語学習モデルに前記文字列データ及び前記質問データを入力することによって、前記文字列データから第２のワードを抽出し、
前記音声データ、第１のワード及び第２のワードを関連付けて記憶する
処理をコンピュータに実行させるためのコンピュータプログラム。

【請求項15】

動画データに含まれる音声データを文字列データに変換し、
前記文字列データから第１のワードを抽出して質問データを生成し、
前記文字列データ及び前記質問データが入力された場合、前記文字列データから前記質問データに対する回答に相当するワードを出力する学習済みの言語学習モデルに前記文字列データ及び前記質問データを入力することによって、前記文字列データから第２のワードを抽出し、
前記動画データと共に、第１のワードを含む質問データ及び第２のワードを出力する
処理をコンピュータに実行させるためのコンピュータプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、情報処理方法、情報処理装置及びコンピュータプログラムに関する。

【背景技術】

【0002】

特許文献１は、撮影部と、録音部と、録音データに含まれる音声を文字列に変換する変換部と、文字列から名詞を抽出し、抽出された名詞と対応付けられている関連語を辞書部から取得し、撮影データと、名詞と、関連語とを関連付けて記憶する技術を開示する。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２０１６－１７０６５４号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

特許文献１においては、音声の文字列から単純に抽出される名詞、関連語が、必ずしも録音データの内容を的確に表したものではないという技術的問題があった。

【0005】

本開示は、撮影又は録音された動画又は音声データに当該データの内容を的確に表したインデックス情報を関連付けることができる情報処理方法、情報処理装置及びコンピュータプログラムを提案する。

【課題を解決するための手段】

【0006】

本開示の第１の観点に係る情報処理方法は、音声データを文字列データに変換し、第１のワードを含む質問データを用いて、前記文字列データから第２のワードを抽出し、前記音声データ、第１のワード及び第２のワードを関連付けて記憶する。

【0007】

本開示の第２の観点に係る情報処理方法は、第１の観点に係る情報処理方法であって、前記文字列データ及び前記質問データが入力された場合、前記文字列データから前記質問データに対する回答に相当するワードを出力する学習済みの言語学習モデルに前記文字列データ及び前記質問データを入力することによって、前記文字列データから第２のワードを抽出する構成が好ましい。

【0008】

本開示の第３の観点に係る情報処理方法は、第１の観点又は第２の観点に係る情報処理方法であって、前記文字列データから第１のワードを抽出して前記質問データを生成する構成が好ましい。

【0009】

本開示の第４の観点に係る情報処理方法は、第３の観点に係る情報処理方法であって、第１のワードは動詞又は形容詞であり、第２のワードは名詞である構成が好ましい。

【0010】

本開示の第５の観点に係る情報処理方法は、第３の観点又は第４の観点に係る情報処理方法であって、前記文字列データに含まれる複数の動詞又は形容詞のワードのうち、所定ワードを記憶した辞書データにあるワードを第１のワードとして抽出し、前記質問データを生成する構成が好ましい。

【0011】

本開示の第６の観点に係る情報処理方法は、第１の観点から第５の観点のいずれか一つに係る情報処理方法であって、前記第１のワード及び第２のワードはそれぞれ複数である構成が好ましい。

【0012】

本開示の第７の観点に係る情報処理方法は、第１の観点から第６の観点のいずれか一つに係る情報処理方法であって、前記音声データは複数シーンに区分けされており、各区分の文字列データから第２のワードをそれぞれ抽出し、各区分に、第１のワード及び第２のワードを関連付けて記憶する構成が好ましい。

【0013】

本開示の第８の観点に係る情報処理方法は、第７の観点に係る情報処理方法であって、前記音声データの全文字列データから第２のワードを抽出し、前記音声データのファイルに第１のワード及び第２のワードを関連付けて記憶する構成が好ましい。

【0014】

本開示の第９の観点に係る情報処理方法は、第１の観点から第８の観点のいずれか一つに係る情報処理方法であって、文字を含む報告書のテンプレートから第１のワードを抽出して前記質問データを生成し、前記文字列データから抽出された第２のワードを前記テンプレートに入力し、前記テンプレートに第２のワードが入力された報告書データを、前記音声データに関連付けて記憶する構成が好ましい。

【0015】

本開示の第１０の観点に係る情報処理方法は、第１の観点から第９の観点のいずれか一つに係る情報処理方法であって、機器の保守点検の現場で撮像及び録音された動画データを取得し、取得した動画データに含まれる音声データを文字列データに変換し、第１のワードを含む質問データを用いて、前記文字列データから第２のワードを抽出し、前記動画データ、第１のワード及び第２のワードを関連付けて記憶する構成が好ましい。

【0016】

本開示の第１１の観点に係る情報処理方法は、第１０の観点に係る情報処理方法であって、前記動画データの動画に関連する第１のワード及び第２のワードを重畳する構成が好ましい。

【0017】

本開示の第１２の観点に係る情報処理方法は、第１の観点から第１０の観点のいずれか一つに係る情報処理方法であって、文字を含む検索要求を受け付け、データベースに記憶する複数の前記音声データから、検索要求の文字と関連する第１のワード及び第２のワードが関連付けられた前記音声データを検出する構成が好ましい。

【0018】

本開示の第１３の観点に係る情報処理方法は、動画データに含まれる音声データを文字列データに変換し、第１のワードを含む質問データを用いて、前記文字列データから第２のワードを抽出し、前記動画データと共に、第１のワードを含む質問データ及び第２のワードを出力する。

【0019】

本開示の第１４の観点に係る情報処理装置は、音声データを文字列データに変換し、第１のワードを含む質問データを用いて、前記文字列データから第２のワードを抽出する処理部と、前記音声データ、第１のワード及び第２のワードを関連付けて記憶する記憶部とを備える。

【0020】

本開示の第１５の観点に係る情報処理装置は、動画データに含まれる音声データを文字列データに変換し、第１のワードを含む質問データを用いて、前記文字列データから第２のワードを抽出する処理部と、前記動画データと共に、第１のワードを含む質問データ及び第２のワードを出力する出力部とを備える。

【0021】

本開示の第１６の観点に係るコンピュータプログラムは、音声データを文字列データに変換し、第１のワードを含む質問データを用いて、前記文字列データから第２のワードを抽出し、前記音声データ、第１のワード及び第２のワードを関連付けて記憶する処理をコンピュータに実行させる。

【0022】

本開示の第１７の観点に係るコンピュータプログラムは、動画データに含まれる音声データを文字列データに変換し、第１のワードを含む質問データを用いて、前記文字列データから第２のワードを抽出し、前記動画データと共に、第１のワードを含む質問データ及び第２のワードを出力する処理をコンピュータに実行させる。

【図面の簡単な説明】

【0023】

【図1】実施形態１に係る情報処理システムの概要を示す模式図である。

【図2】実施形態１に係るサーバ装置の構成を示すブロック図である。

【図3】実施形態１に係る動画ＤＢの一例を示す概念図である。

【図4】実施形態１に係る言語学習モデルの構成を示すブロック図である。

【図5】実施形態１に係る言語学習モデルの一例であるＢＥＲＴの構成を示すブロック図である。

【図6】実施形態１に係る端末装置の構成を示すブロック図である。

【図7】実施形態１に係るインデックス情報生成処理手順を示すフローチャートである。

【図8】実施形態１に係るインデックス情報生成処理方法を示す概念図である。

【図9】実施形態１に係る動画検索処理手順を示すフローチャートである。

【図10】実施形態１に係る動画再生画面の一例を示す模式図である。

【図11】実施形態２に係る情報処理手順を示すフローチャートである。

【図12】シーンインデックス情報の生成処理手順を示すフローチャートである。

【図13】動画のシーンと、発話文データとのマッチング方法を示す概念図である。

【図14】ファイルインデックス情報の生成処理手順を示すフローチャートである。

【図15】実施形態２に係る報告書作成手順を示すフローチャートである。

【図16】報告書テンプレートの一例を示す模式図である。

【図17】実施形態２に係る動画ＤＢの一例を示す概念図である。

【図18】実施形態２に係る動画検索処理手順を示すフローチャートである。

【図19】実施形態２に係る動画再生画面の一例を示す模式図である。

【図20】実施形態３に係るサーバ装置の構成を示すブロック図である。

【図21】実施形態４に係るインデックス情報生成処理手順を示すフローチャートである。

【発明を実施するための形態】

【0024】

以下、本開示の情報処理方法、情報処理装置及びコンピュータプログラムについて、その実施形態を示す図面に基づいて詳述する。

【0025】

（実施形態１）
空調設備、化学プラント等の各種設備の保守点検、修理又は施工等の作業は技術的な熟練を要し、その作業効率は作業者の熟練度によって大きく異なる。非熟練者の作業を支援する方法の一つとして、熟練者の作業を撮影して得た動画データを収集して蓄積し、蓄積した動画データを非熟練者に提供することが考えられる。蓄積した動画データのなかから、非熟練者が必要とする動画データを検索するためには、動画データに適切なインデックス情報を付与する必要がある。

【0026】

本開示は、撮影又は録音された動画又は音声データに当該データの内容を的確に表したインデックス情報を関連付けることができる情報処理方法、情報処理装置及びコンピュータプログラムを提案するものである。

【0027】

＜システム構成＞
図１は、実施形態１に係る情報処理システムの概要を示す模式図である。実施形態１に係る情報処理システムは、サーバ装置（情報処理装置、コンピュータ）１と、ヘッドセット２と、端末装置３とを備える。サーバ装置１は、携帯電話通信網、無線ＬＡＮ（Local Area Network）及びインターネット等の有線又は無線の通信網を介してヘッドセット２及び端末装置３に通信接続されている。

【0028】

ヘッドセット２は、空調設備Ａの保守点検、修理又は施工等の作業を行う作業者、特に当該作業の熟練者Ｂの頭部に装着される装置である。ヘッドセット２は、カメラ２ａ、マイク２ｂ、ヘッドホン等を有し、熟練者Ｂの作業の様子を撮影及び集音する。動画データにはマイク２ｂにより集音して得た音声データが含まれているものとする。
ヘッドセット２は、熟練者Ｂの作業の様子を撮影及び集音する装置の一例であり、撮影及び集音機能を有するその他のウェアラブルデバイス、携帯端末であってもよい。ヘッドセット２に代えて、空調設備Ａ及び熟練者Ｂの周辺に設置されたカメラ２ａ及びマイク２ｂを採用してもよい。

【0029】

撮影及び集音して得た動画データは、サーバ装置１に与えられる。例えば、ヘッドセット２が通信回路を有する場合、ヘッドセット２は、有線又は無線の通信により、サーバ装置１へ動画データを送信する。ヘッドセット２は、ＰＣ（パーソナルコンピュータ）又はスマートフォン等の通信端末を介してサーバ装置１へ動画データを送信するように構成してもよい。ヘッドセット２が通信回路を有しない場合、ヘッドセット２はメモリカード又は光ディスク等の記録デバイスに動画データを記録する。記録デバイスを介してヘッドセット２からサーバ装置１へ動画データが提供される。
上記したヘッドセット２からサーバ装置１への動画データの提供方法は一例であり、任意の公知の方法を採用すればよい。

【0030】

サーバ装置１は、ヘッドセット２から提供された動画データを取得し、取得した動画データを動画ＤＢ１２ｂに蓄積する。端末装置３は、空調設備Ａの保守点検、修理又は施工等の作業を学び、行う非熟練者Ｃが使用するスマートフォン又はＰＣ等の汎用的な通信端末である。端末装置３は、サーバ装置１にアクセスし、非熟練者Ｃが所望する動画データの検索を要求する。サーバ装置１は、端末装置３からの要求に応じて動画データを検索し、所要の動画データを端末装置３へ送信する。端末装置３は、要求に応じて送信された動画データを受信する。端末装置３は、受信した動画データを再生することによって、熟練者Ｂが行う作業する様子を記録した動画を表示する。非熟練者Ｃは、端末装置３に表示された動画により、熟練者Ｂの技術を学ぶことができる。

【0031】

＜装置構成＞
図２は、実施形態１に係るサーバ装置１の構成を示すブロック図である。実施形態１に係るサーバ装置１は、制御部１１、記憶部（ストレージ）１２及び通信部（トランシーバ）１３を備える。

【0032】

制御部１１は、ＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro-Processing Unit）、ＧＰＵ（Graphics Processing Unit）又は量子プロセッサ等の演算処理装置、ＲＯＭ（Read Only Memory）及びＲＡＭ（Random Access Memory）等を有する。制御部１１は、記憶部１２に記憶されたサーバプログラム１２ａを読み出して実行することにより、蓄積した動画データにインデックス情報を付与する処理を実行する。インデックス情報は、複数のワードによって動画データの内容を示す情報である。制御部１１は、インデックス情報を参照して所要の動画データを検索して端末装置３へ送信する処理等を行う。
制御部１１は、音声認識部１１ａ、自然言語処理部１１ｂ、ＡＩ処理部１１ｃ、トークナイザ１１ｄ、動画処理部１１ｅとして機能する。各機能部は、制御部１１がサーバプログラム１２ａを読み出して実行することによりソフトウェア的に実現してもよいし、一部又は全部を回路によりハードウェア的に実現するように構成してもよい。各機能部の概要は以下の通りである。

【0033】

音声認識部１１ａは、動画データに含まれる音声データを発話文データ（文字列データ）に変換する構成部である。発話文データは、熟練者Ｂの発話内容をテキスト化した文字列データである。

【0034】

自然言語処理部１１ｂは、形態素解析により発話文データが表す文字列を形態素に分割して第１ワード（動詞又は形容詞）を抽出し、抽出された第１ワードを用いて質問文データを生成する構成部である。自然言語処理部１１ｂは、機械学習により得られる言語学習モデル１２ｃを用いないルールベースに基づく処理を行う構成部である。質問文データは、発話文データから意味のある名詞を抽出するためのデータである。

【0035】

ＡＩ処理部１１ｃは、学習済みの言語学習モデル１２ｃに質問文データ及び発話文データを入力することによって、発話文データから当該質問文に対する回答に相当する回答データを出力させる処理を実行する構成部である。回答データは、名詞である第２ワードを含む。

【0036】

トークナイザ１１ｄは、字句解析器であり、上記質問文データ及び発話文データを、言語学習モデル１２ｃで処理できるデータにエンコードするエンコーダとしての機能を有する。言語学習モデル１２ｃとしてＢＥＲＴを用いる場合、トークナイザ１１ｄは、質問文データ及び発話文データを埋め込み表現されたテンソルデータにエンコードする。具体的には、トークナイザ１１ｄは、質問文データ及び発話文データを、言葉の最小単位であるトークン（字句）に分割し、トークンＩＤを並べたトークン列のテンソルデータに変換する。トークナイザ１１ｄは、文頭に特殊トークン［ＣＬＳ］を挿入し、質問文データのトークン列と、発話文データのトークン列との間に特殊トークン[ＳＥＰ]を埋め込む。トークナイザ１１ｄは、トークン列のテンソルデータに、各トークンが、質問文に相当するトークンか、発話文に相当するトークンであるかを識別するためのセグメント情報を加算する。トークナイザ１１ｄは、トークン列のテンソルデータに、質問文及び発話文に相当する複数のトークンの並び順を示す位置情報を加算する。
トークナイザ１１ｄは、言語学習モデル１２ｃから出力されるテンソルデータを文字列のデータにデコードするデコーダとしての機能も有する。

【0037】

動画処理部１１ｅは、動画データを解析し、１つのファイルである動画データを複数のシーンに分割する等の処理を実行する構成部である。以下、実施形態１では、１つのファイルである動画データにインデックス情報を付加する例を説明する。分割された複数のシーン毎にインデックス情報を付加する方法は、実施形態２で説明する。

【0038】

記憶部１２は、例えばハードディスク等の大容量の記憶装置である。記憶部１２は、制御部１１が実行するサーバプログラム１２ａ、制御部１１の処理に必要な各種データを記憶する。記憶部１２は、カメラ２ａ及びマイク２ｂを用いて撮影及び集音して得た動画データを蓄積する動画ＤＢ（DataBase）１２ｂを構成する。記憶部１２は、動画データに付与するインデックス情報を生成するための言語学習モデル１２ｃを記憶する。記憶部１２は、サーバ装置１に接続された外部記憶装置であってよい。

【0039】

サーバプログラム１２ａは、記録媒体１０にコンピュータ読み取り可能に記録されている態様でも良い。記憶部１２は、読出装置によって記録媒体１０から読み出されたサーバプログラム１２ａを記憶する。記録媒体１０は、半導体メモリ、光ディスク、磁気ディスク、磁気光ディスク等である。サーバ装置１は、ネットワークＮに接続されている外部サーバから本実施形態１に係るサーバプログラム１２ａをダウンロードし、記憶部１２に記憶させても良い。

【0040】

図３は、動画ＤＢ１２ｂの一例を示す概念図である。動画ＤＢ１２ｂは、カメラ２ａ及びマイク２ｂを用いて撮影及び集音して得た動画データと、撮影日時と、本実施形態１に係る情報処理方法によって生成されたインデックス情報とを関連付けて記憶するデータベースである。インデックス情報は、後述する第１ワードと、第２ワードとを含む情報である。

【0041】

図４は、実施形態１に係る言語学習モデル１２ｃの構成を示すブロック図である。言語学習モデル１２ｃは、質問文データ及び発話文データが入力された場合、発話文データから当該質問文データが表す質問に対する回答に相当する回答データを出力する学習済みの機械学習モデルである。言語学習モデル１２ｃは、例えば深層ニューラルネットワークを用いて構成される。言語学習モデル１２ｃの構成は特に限定されるものでは無いが、ＢＥＲＴが好適である。以下、言語学習モデル１２ｃはＢＥＲＴで構成されているものとして説明する。

【0042】

図５は、実施形態１に係る言語学習モデル１２ｃの一例であるＢＥＲＴの構成を示すブロック図である。ＢＥＲＴで構成された言語学習モデル１２ｃは、連結された複数のトランスフォーマエンコーダ（Ｔｒｍ）１２ｄを有する。入力層に相当する第１段目のトランスフォーマエンコーダ１２ｄは、質問文データ及び発話文データのテンソルデータの要素値が入力される複数のノードを有する。図５中、下側の「Ｔｏｋ１」～「ＴｏｋＮ」は質問文データのトークンＩＤ、「Ｔｏｋ１」～「ＴｏｋＭ」は発話文データのトークンＩＤ、「ＣＬＳ」、「ＳＥＰ」は特殊トークンを表している。中間層に相当する複数のトランスフォーマエンコーダ１２ｄは、前段のトランスフォーマエンコーダ１２ｄのノードから出力された値に対して、所要のタスクに応じた演算処理を実行し、後段のトランスフォーマエンコーダ１２ｄへ出力する。本実施形態１のＢＥＲＴは、質問文に対する回答に相当するトークンを抽出する演算処理が実行される。出力層に相当する最終段のトランスフォーマエンコーダ１２ｄは、第１段目のトランスフォーマエンコーダ１２ｄと同数のノードを有し、回答文のテンソルデータを出力する。図５中、上側の「Ｔｏｋ１」、「Ｔｏｋ２」…は、回答データのトークンＩＤを表している。

【0043】

ＢＥＲＴである言語学習モデル１２ｃは、事前学習及びファインチューニングにより学習させることができる。事前学習は、ラベル無しの学習用データを用いて行う。具体的には、単語予測学習（MLM: Masked LM）と、次文予測（NSP：Next Sentence Prediction）学習によって、ニューラルネットワークを学習させる。単語予測学習では、学習用データの入力文であるトークン列の一部をマスクし、マスクされたトークンを予測できるようにトランスフォーマエンコーダ１２ｄの重み係数を最適化する。次文予測学習では、第１の文字列と、第２の文字列とが続きの文字列であるか否を正しく判別できるようにトランスフォーマエンコーダ１２ｄの重み係数を最適化する。
ファインチューニングでは、質問文データ及び発話文データのテンソルデータが入力された場合に、所望の回答データのテンソルデータが出力されるように、トランスフォーマエンコーダ１２ｄの重み係数を微修正する。
なお、言語学習モデル１２ｃは、実際に使用される質問文データ及び発話文データを用いてＢＥＲＴをファインチューニングしてもよいし、一般的な文字列データを用いてファインチューニングされたＢＥＲＴを用いてもよい。

【0044】

通信部１３は、携帯電話通信網、無線ＬＡＮ、インターネット等を含むネットワークＮを介して、ヘッドセット２及び端末装置３との間で通信を行う。通信部１３は、制御部１１から与えられたデータをヘッドセット２又は端末装置３へ送信すると共に、ヘッドセット２又は端末装置３から受信したデータを制御部１１に与える。

【0045】

サーバ装置１を一つのコンピュータ装置で構成する例を説明したが、サーバ装置１は、複数のコンピュータを含み、分散処理を行うマルチコンピュータであってよい。サーバ装置１は、ソフトウェアによって仮想的に構築された仮想マシンであってもよい。

【0046】

図６は、実施形態１に係る端末装置３の構成を示すブロック図である。端末装置３は、制御部３１、記憶部（ストレージ）３２、通信部（トランシーバ）３３、表示部（ディスプレイ）３４及び操作部３５を備える。

【0047】

制御部３１は、ＣＰＵ又はＭＰＵ等の演算処理装置、ＲＯＭ及び等を有する。制御部３１は、記憶部３２に記憶された端末プログラム３２ａを読み出して実行することにより、サーバ装置１の動画ＤＢ１２ｂに蓄積された動画データの検索要求処理、サーバ装置１から提供された動画データの再生処理（表示処理）を行う。端末プログラム３２ａは、実施形態１に係る情報処理方法に係る専用のプログラムであってもよいし、インターネットブラウザ又はウェブブラウザ等の汎用のプログラムであってもよい。

【0048】

記憶部３２は、例えばフラッシュメモリ等の不揮発性のメモリ素子又はハードディスク等の記憶装置である。記憶部３２は、制御部３１が実行する端末プログラム３２ａ、制御部３１の処理に必要な各種データを記憶する。記録媒体３０にコンピュータ読み取り可能に記録されている態様でも良い。記憶部３２は、読出装置によって記録媒体３０から読み出された端末プログラム３２ａを記憶する。記録媒体３０は、半導体メモリ、光ディスク、磁気ディスク、磁気光ディスク等である。端末装置３は、ネットワークＮに接続されている外部サーバから本実施形態１に係る端末プログラム３２ａをダウンロードし、記憶部１２に記憶させても良い。

【0049】

通信部３３は、ネットワークＮを介して、サーバ装置１との間で通信を行う。通信部３３は、制御部３１から与えられたデータをサーバ装置１へ送信すると共に、サーバ装置１から受信したデータを制御部３１へ与える。

【0050】

表示部３４は、液晶パネル、有機ＥＬディスプレイ等である。表示部３４は、制御部３１から与えられたデータに応じた動画、静止画及び文字等を表示する。

【0051】

操作部３５は、タッチパネル、ソフトキー、ハードキー、キーボード、マウス等の入力装置である。操作部３５は、例えば、非熟練者Ｃの操作を受け付け、受け付けた操作を制御部３１へ通知する。

【0052】

＜情報処理方法（インデックス情報の生成及び付与）＞
サーバ装置１は、熟練者Ｂが行う空調設備Ａの保守点検、修理又は施工等の作業の様子を撮影して得た動画データの内容は的確に表したインデックス情報を生成することができる。
図７は、実施形態１に係るインデックス情報生成処理手順を示すフローチャート、図８は、実施形態１に係るインデックス情報生成処理方法を示す概念図である。サーバ装置１の制御部１１は、動画データを取得する（ステップＳ１１１）。例えば、サーバ装置１は、ヘッドセット２から送信された動画データを通信部１３にて受信することによって、動画データを取得する。動画データは、熟練者Ｂの作業の様子を撮影及び集音して得られたものであり、音声データを含む。サーバ装置１は、記憶部１２又は外部の記憶デバイスが記憶する動画データを読み出すことによって、当該動画データを取得してもよい。

【0053】

制御部１１は、取得した動画データから音声データを抽出する（ステップＳ１１２）。制御部１１又は音声認識部１１ａは、音声認識処理により、抽出した音声データをテキストの発話文データに変換する（ステップＳ１１３）。制御部１１又は自然言語処理部１１ｂは、形態素解析処理により、発話文データを形態素に分割し、動詞又は形容詞である一又は複数の第１ワードを抽出する（ステップＳ１１４）。例えば、第１ワードは、「修理する」、「取り替える」等の動詞、「熱い」、「遅い」等の形容詞である。制御部１１は、発話文データに含まれるすべての動詞及び形容詞を第１ワードとして抽出してもよいし、所定数の動詞及び形容詞を第１ワードとして抽出してもよい。制御部１１は、ランダムに所定数の動詞及び形容詞を第１ワードとして抽出してもよい。制御部１１は、類似度の分散が大きくなるように所定数の動詞及び形容詞を第１ワードとして抽出してもよい。制御部１１は、再生時間がばらつくように第１ワードを抽出してもよい。制御部１１は、出願頻度が所定範囲、例えば１σの範囲の動詞及び形容詞を第１ワードとして抽出してもよい。

【0054】

制御部１１又は自然言語処理部１１ｂは、一又は複数の第１ワードに基づいて、一又は複数の質問文データを生成する（ステップＳ１１５）。例えば、制御部１１は、第１ワード「修理」を用いて「何を修理しましたか？」といった質問文データを生成する。例えば、制御部１１は、第１ワード「取り替える」を用いて「何を取り替えましたか？」といった質問文データを生成する。
一つの第１ワードに基づいて、複数の質問文データを生成することもできる。例えば、制御部１１は、「何を修理しましたか？」、「何を使って修理しましたか？」、「どのように修理しましたか？」といった質問文データを生成してもよい。
記憶部１２が関連語辞書を記憶するように構成してもよい。記憶部１２が関連語辞書を記憶している場合、制御部１１は、「修理」の関連語を用いて質問文データを生成する。例えば、「修理」の関連語が「問題」、「部品」、「エラーコード」等である場合、「何が問題ですか？」、「部品は何ですか？」、「エラーコードは何ですか？」といった質問文データを生成する。
記憶部１２は、定型の質問文データを記憶するように構成してもよい。制御部１１は、生成した質問文データに、記憶部１２から読み出した定型の質問文データを加えてもよい。例えば「機器の型番は何ですか？」といった質問文データを定型の質問として加えてもよい。

【0055】

制御部１１は、質問文データ及び発話文データを言語学習モデル１２ｃに入力することによって、回答データを出力させる（ステップＳ１１６）。複数の質問文データがある場合、対応する複数の回答データが得られる。回答データは名詞である第２ワードを含む。具体的には、トークナイザ１１ｄは質問文データ及び発話文データをテンソルデータにエンコードする。制御部１１は、エンコードされたテンソルデータを言語学習モデル１２ｃに入力することによって、回答文に係るテンソルデータを出力させる。トークナイザ１１ｄは、言語学習モデル１２ｃから出力されたテンソルデータを回答データにデコードする。

【0056】

制御部１１は、第１ワード及び第２ワードに基づいてインデックス情報を生成する（ステップＳ１１７）。例えば、インデックス情報は、第１ワード及び第２ワードを配列したデータである。

【0057】

制御部１１は、動画データに、生成したインデックス情報を関連付けて記憶部１２に記憶する（ステップＳ１１８）。具体的には、制御部１１は、動画データ及びインデックス情報を動画ＤＢ１２ｂに記憶させる。

【0058】

＜動画検索処理＞
非熟練者Ｃは、端末装置３を用いてサーバ装置１の動画ＤＢ１２ｂに蓄積された動画データを検索及び視聴することができる。
図９は、実施形態１に係る動画検索処理手順を示すフローチャートである。端末装置３の制御部３１は、サーバ装置１の動画ＤＢ１２ｂに記憶された動画データを検索するための検索画面を表示部３４に表示する（ステップＳ１７１）。制御部３１は、操作部３５にて検索ワードを受け付ける（ステップＳ１７２）。制御部３１は、受け付け検索ワードを含み、動画データの検索を要求するための検索要求データを通信部３３にてサーバ装置１へ送信する（ステップＳ１７３）。

【0059】

サーバ装置１は、端末装置３から送信された検索要求データを通信部１３にて受信する（ステップＳ１７４）。検索要求データを受信したサーバ装置１の制御部１１は、検索要求データに含まれる検索ワードをキーにして、動画ＤＢ１２ｂが記憶するインデックス情報を参照することにより、当該検索ワードに合致する動画データを検索する（ステップＳ１７５）。制御部１１は、ステップＳ１７５の検索結果を、通信部１３にて検索要求元の端末装置３へ送信する（ステップＳ１７６）。検索結果は、動画データのファイル名、サムネイル画像、撮影日時、再生時間、インデックス情報等を含む。

【0060】

端末装置３の制御部３１は、サーバ装置１から送信された検索結果を通信部３３にて受信する（ステップＳ１７７）。制御部３１は、検索結果の情報を表示部３４に表示し、操作部３５にて再生する動画の選択を受け付ける（ステップＳ１７８）。

【0061】

制御部３１は、選択された動画を示す情報、例えば動画データのファイル名を含み、動画データを要求する動画要求データを通信部３３にてサーバ装置１へ送信する（ステップＳ１７９）。

【0062】

サーバ装置１の制御部１１は、端末装置３から送信された動画要求データを通信部１３にて受信する（ステップＳ１８０）。制御部１１は、動画要求データが示す動画データ及びインデックス情報を、動画ＤＢ１２ｂから取得する（ステップＳ１８１）。制御部１１、読み出した動画データ及びインデックス情報を通信部１３にて、動画要求元の端末装置３へ送信する（ステップＳ１８２）。

【0063】

端末装置３の制御部３１は、サーバ装置１から送信された動画データ及びインデックス情報を通信部３３にて受信する（ステップＳ１８３）。制御部３１は、受信した動画データを再生して表示部３４に表示する（ステップＳ１８４）。制御部３１は、インデックス情報を動画の映像に重畳して表示する（ステップＳ１８５）。

【0064】

図１０は、実施形態１に係る動画再生画面３４ａの一例を示す模式図である。端末装置３は、例えば、動画再生画面３４ａを表示部３４に表示する。端末装置３は、サーバ装置１から受信した動画データに基づく動画を、動画再生画面３４ａの中央部に表示する。端末装置３は、動画の上部又は下部に、インデックス情報を重畳表示させる。端末装置３は、動画再生画面３４ａの下部に、再生ボタン、一時停止ボタン、停止ボタン、早送り、早戻し等の操作ボタンを表示し、表示部３４の画面中央の動画表示に表示し、各種ボタンが操作された場合、制御部３１は、操作されたボタンに応じて動画の再生を制御する。

【0065】

本実施形態１に係る情報処理システム等によれば、動画データにその動画の内容を的確に表したインデックス情報を関連付けて動画ＤＢ１２ｂに記憶させることができる。第１ワードを含む質問文データを用いて、発話文データから第２ワードを抽出する構成であるため、第２ワードは質問文データに対応する内容的に意味のある情報を含む。第１ワード及び第２ワードは、動画データの内容を的確に表した情報であり、第１ワード及び第２ワードをインデックス情報として動画データに関連付けることができる。

【0066】

機械学習モデルである言語学習モデル１２ｃを用いることによって、より的確に発話文データの内容を表した第２ワードを抽出することができる。特に、ＢＥＲＴを用いることによって、内容的により意味のある第２ワードを発話文データから抽出することができる。

【0067】

発話文データから抽出した第１ワードを用いて質問文データを生成する構成であるため、より的確に発話文データの内容を表した第２ワードを抽出することができる。第１ワードは、動画データの発話文データに含まれる情報であるため、動画データの内容にそった質問文データを得ることができる。

【0068】

質問文データを構成する第１ワードは動詞又は形容詞であるため、当該動詞又は形容詞に関連した第２ワード、すなわち名詞を抽出するのに適した質問文データを生成することができる。

【0069】

動画データに関連付けられた第１ワード及び第２ワードは複数であるため、より具体的に動画データの内容を表したインデックス情報を生成することができる。

【0070】

機器の保守点検の現場で撮像及び録音された動画データに関連付けられたインデックス情報の第１ワード及び第２ワードは、動画データの内容を表している。インデックス情報の第１ワード及び第２ワードを参照することによって、動画データの内容を確認することができる。

【0071】

動画データの動画に、第１ワード及び第２ワードを含むインデックス情報を動画に表示することができる。

【0072】

インデックス情報を参照することによって、所望の動画データを検索することができる。

【0073】

なお、本実施形態１では、空調設備Ａの作業の様子を撮影及び集音して得られる動画データを例に説明したが、保守点検、修理又は施工等の作業対象は限定されるものでは無い。化学プラント、その他の各種設備の保守点検の様子を撮影及び集音して得られた動画データに、本実施形態１に係る情報処理方法等を適用してもよい。
コールセンター支援用、営業支援用、社員研修用のために撮影又は録音された動画データ又は音声データに本実施形態１に係る情報処理方法等を適用してもよい。

【0074】

本実施形態１では、動画データにインデックス情報を関連付ける例を説明したが、音声データに対して、本実施形態１に係る情報処理方法を適用してもよい。つまり、音声データに、本実施形態１に係る情報処理方法等にて生成したインデックス情報を関連付けて記憶するように構成してもよい。

【0075】

（実施形態２）
実施形態２に係る情報処理装置は、動画データを複数のシーンに分割し、各シーンにもインデックス情報を付加する点が実施形態１と異なる。実施形態２に係る情報処理装置は、空調設備Ａの保守点検等の作業の様子を撮影した動画データに対して、作業の報告書を自動的に作成する点が実施形態１と異なる。実施形態２に係る情報処理装置は、動画データの再生方法が実施形態１と異なる。情報処理システムの他の構成及び処理は、実施形態１に係る情報処理システムと同様であるため、同様の箇所には同じ符号を付し、詳細な説明を省略する。

【0076】

＜情報処理方法（インデックス情報の生成及び付与）＞
図１１は、実施形態２に係る情報処理手順を示すフローチャートである。サーバ装置１の制御部１１は、動画データを取得する（ステップＳ２１１）。制御部１１又は動画処理部１１ｅは、動画データを解析し、１つのファイルである動画データを複数シーンに分割する（ステップＳ２１２）。例えば、動画処理部１１ｅは、動画を構成する各フレーム画像の輝度の変化、オブジェクトの特徴量の変化等に基づいて、動画内容を複数のシーンに分割する。制御部１１は、複数のシーンを示す情報として、各シーンを識別するためのシーン番号、各シーンのエンドフレームの番号、各シーンの開始位置及び終了位置を示す再生時間等の情報を含むシーンデータを動画データに関連付けて動画ＤＢ１２ｂに記憶する（図１７参照）。

【0077】

制御部１１は、取得した動画データから音声データを抽出する（ステップＳ２１３）。制御部１１又は音声認識部１１ａは、音声認識処理により、抽出した音声データをテキストの発話文データに変換する（ステップＳ２１４）。具体的には、制御部１１又は音声認識部１１ａは、発話の区切れ目毎に音声データをテキストの発話文データに変換する。制御部１１又は音声認識部１１ａは、複数の発話文データを識別する番号と、各発話文データの再生開始位置及び終了位置を示す再生時間と、発話文データとを含む発話文データ群を記憶部１２に一時記憶する。

【0078】

制御部１１は、複数の各シーンの発話文データに基づいてインデックス情報を生成する処理を実行する（ステップＳ２１５）。以下、各シーンの発話文データに基づいて生成されるインデックス情報を、シーンインデックス情報と呼ぶ。

【0079】

図１２は、シーンインデックス情報の生成処理手順を示すフローチャートである。制御部１１は、動画データの各シーンと、発話文データとのマッチングを行う（ステップＳ２３１）。

【0080】

図１３は、動画のシーンと、発話文データとのマッチング方法を示す概念図である。制御部１１は、図１３に示すように、シーンデータを参照し、各シーンの開始位置及び終了位置と、ステップＳ２１４で変換した複数の発話文データそれぞれの開始位置及び終了位置とを比較する。制御部１１は、シーンの開始位置に近い開始位置を有する発話文データを特定する。制御部１１は、終了位置に近い終了位置を有する発話文データを特定する。制御部１１は、特定されたシーンの開始位置の発話文データと、開始位置～終了位置の間の発話文データと、シーンの終了位置の発話文データとを統合する。
例えば、シーン番号１のシーンの開始位置は００：００、終了位置は００：１２である。当該シーンの開始位置～終了位置に相当する発話文データは、Ｎｏ．１～Ｎｏ．３の発話文データであり、制御部１１は、Ｎｏ．１～Ｎｏ．３の発話文データを統合する。同様に、シーン番号２のシーンの開始位置は００：１２、終了位置は００：２３である。当該シーンの開始位置～終了位置に相当する発話文データは、Ｎｏ．４～Ｎｏ．７の発話文データであり、制御部１１は、Ｎｏ．４～Ｎｏ．７の発話文データを統合する。

【0081】

制御部１１又は自然言語処理部１１ｂは、形態素解析処理により、１つのシーンの発話文データを形態素に分割し、動詞又は形容詞である一又は複数の第１ワードを抽出する（ステップＳ２３２）。制御部１１又は自然言語処理部１１ｂは、一又は複数の第１ワードに基づいて、一又は複数の質問文データを生成する（ステップＳ２３３）。制御部１１は、質問文データ及び発話文データを言語学習モデル１２ｃに入力することによって、回答データを出力させる（ステップＳ２３４）。複数の質問文データがある場合、対応する複数の回答データが得られる。回答データは名詞である第２ワードを含む。制御部１１は、第１ワード及び第２ワードに基づいてシーンインデックス情報を生成する（ステップＳ２３５）。

【0082】

制御部１１は、全てのシーンのシーンインデックス情報を生成する処理を終えたか否かを判定する（ステップＳ２３６）。シーンインデックス情報が生成されていないシーンがあると判定した場合（ステップＳ２３６：ＮＯ）、制御部１１は、処理をステップＳ２３２へ戻す。全てのシーンのシーンインデックス情報が生成されたと判定した場合（ステップＳ２３６：ＹＥＳ）、シーンのインデックス情報の生成処理を終える。

【0083】

図１１に戻り、制御部１１は、１つのファイルである動画データに基づいてインデックス情報を生成する処理を実行する（ステップＳ２１６）。以下、１つのファイルである動画データに基づいて生成されるインデックス情報を、ファイルインデックス情報と呼ぶ。

【0084】

図１４は、ファイルインデックス情報の生成処理手順を示すフローチャートである。制御部１１又は自然言語処理部１１ｂは、形態素解析処理により、動画データ全体の発話文データ（全文字列データ）を形態素に分割し、動詞又は形容詞である一又は複数の第１ワードを抽出する（ステップＳ２５１）。制御部１１又は自然言語処理部１１ｂは、一又は複数の第１ワードに基づいて、一又は複数の質問文データを生成する（ステップＳ２５２）。制御部１１は、質問文データ及び発話文データを言語学習モデル１２ｃに入力することによって、回答データを出力させる（ステップＳ２５３）。回答データは名詞である第２ワードを含む。制御部１１は、第１ワード及び第２ワードに基づいてファイルインデックス情報を生成し（ステップＳ２５４）、ファイルインデックス情報生成処理を終える。

【0085】

図１１に戻り、制御部１１は、発話文データに基づいて報告書を作成する（ステップＳ２１７）。報告書は、空調設備Ａの保守点検等の作業に関する情報を含むものである。

【0086】

図１５は、実施形態２に係る報告書作成手順を示すフローチャートである。サーバ装置１の記憶部１２は、報告書テンプレートを記憶しており、サーバ装置１の制御部１１は、報告書テンプレートを記憶部１２から取得する（ステップＳ２７１）。

【0087】

図１６は、報告書テンプレートの一例を示す模式図である。報告書テンプレートは、情報を入力すべき項目を表した複数の入力項目文字を含む。入力項目文字は、例えば「項目」、「修理場所」、「問合せ番号」、「顧客名」、「顧客住所」、「電話番号」、「モデル名」、「修理日時」等である。

【0088】

制御部１１は、取得した報告書テンプレートから複数の第１ワード、すなわち複数の入力項目文字を抽出する（ステップＳ２７２）。制御部１１又は自然言語処理部１１ｂは、複数の第１ワードに基づいて、複数の質問文データを生成する（ステップＳ２７３）。制御部１１は、質問文データ及び発話文データを言語学習モデル１２ｃに入力することによって、回答データを出力させる（ステップＳ２７４）。回答データは名詞である第２ワードを含む。第２ワードは、入力項目文字が示す項目に入力すべき情報である。制御部１１は、報告書テンプレートに回答データが入力された報告書データを生成し（ステップＳ２７５）、報告書作成処理を終える。報告書データの形式は特に限定されるものでは無く、報告書データは、例えば、報告書テンプレートの入力項目文字と、当該項目に対応する回答データとを対応付けた配列データである。報告書データは、報告書テンプレートの各項目に回答データを表示した画像データであってもよい。

【0089】

図１１に戻り、制御部１１は、生成したシーンインデックス情報と、ファイルインデックス情報と、報告書データとを、動画データに関連付けて記憶部１２に記憶する（ステップＳ２１８）。

【0090】

図１７は、実施形態２に係る動画ＤＢ１２ｂの一例を示す概念図である。制御部１１は、図１７に示すように、１つのファイルである動画データにファイルインデックス情報を関連付ける。制御部１１は、複数のシーンそれぞれにシーンインデックス情報を関連付ける。具体的には、動画データには、複数のシーンそれぞれのシーン番号、エンドフレーム番号、開始位置及び終了位置を示す再生時間を示す情報が関連付けられており、制御部１１は、各シーン番号に、当該シーンに対応するシーンインデックス情報を関連付けて動画ＤＢ１２ｂに記憶する。制御部１１は、動画データに報告書データを関連付ける。

【0091】

＜動画検索処理＞
図１８は、実施形態２に係る動画検索処理手順を示すフローチャートである。端末装置３の制御部３１及びサーバ装置１の制御部１１は、実施形態１で説明したステップＳ１７１～ステップＳ１８０と同様の処理を実行し、サーバ装置１は動画要求データを通信部１３にて受信する（ステップＳ２７１～ステップＳ２８０）。なお、ステップＳ２７５において、制御部１１は、動画データに関連付けられたファイルインデックス情報を参照して動画データを検索する。処理の実体は実施形態１と同様である。

【0092】

サーバ装置１の制御部１１は、動画要求データが示す動画データ、ファイルインデックス情報及び報告書データを取得する（ステップＳ２８１）。制御部１１は、検索要求データに含まれる検索ワードをキーにして、シーンインデックス情報を参照することにより、当該検索ワードに合致するシーンを特定する（ステップＳ２８２）。

【0093】

制御部１１は、取得した動画データ、ファイルインデックス情報、シーンデータ、ステップＳ２８２で特定したシーンを指定するシーン指定情報を、通信部１３にて、動画要求元の端末装置３へ送信する（ステップＳ２８３）。

【0094】

端末装置３の制御部３１は、サーバ装置１から送信された動画データ、ファイルインデックス情報、シーンデータ、シーンインデックス情報及びシーン指定情報を通信部３３にて受信する（ステップＳ２８４）。制御部３１は、受信した動画データを、シーン指定情報が示すシーンから再生して表示部３４に表示する（ステップＳ２８５）。制御部３１は、ファイルインデックス情報と、現在再生中のシーンに該当するシーンのインデックス情報を動画の映像に重畳して表示する（ステップＳ２８６）。具体的には、制御部３１は、シーンデータを参照することにより、現在再生中のシーンと、当該シーンに対応するシーンインデックス情報を特定する。制御部３１は、ファイルインデックス情報と、特定されたシーンのインデックス情報を動画に重畳表示する。

【0095】

制御部３１は、受信した報告書データを表示部３４に表示する（ステップＳ２８７）。制御部３１は、操作部３５の操作に応じて報告書データを表示するように構成してもよい。

【0096】

図１９は、実施形態２に係る動画再生画面３４ａの一例を示す模式図である。端末装置３は、例えば、動画再生画面３４ａを表示部３４に表示する。端末装置３は、サーバ装置１から受信した動画データに基づく動画を、動画再生画面３４ａの中央部に表示する。端末装置３の制御部３１は、動画の上部及び下部にファイルインデックス情報及びシーンインデックス情報をそれぞれ重畳表示させる。制御部３１は、動画の右下にシーン番号を重畳表示させる。制御部３１は、動画データの発話文データを公知の技術で要約した文字列を動画に重畳表示させるように構成してもよい。ファイルインデックス情報、シーンのインデックス情報、シーン番号、要約の表示位置は一例である。

【0097】

制御部３１は、報告書データに基づいて、報告書を動画再生画面３４ａに表示する。例えば、制御部３１は、動画と並べて報告書データを表示する。

【0098】

本実施形態２に係る情報処理システム等によれば、動画データを分割して得られる複数のシーンそれぞれに、その内容を的確に表したシーンインデックス情報を関連付けて動画ＤＢ１２ｂに記憶させることができる。
分割されていない動画データのファイルに、その内容を的確に表したシーンインデックス情報を関連付けて動画ＤＢ１２ｂに記憶させることができる。

【0099】

動画データを、検索ワードに関連したシーンから自動的に再生させることができる。

【0100】

動画データに基づいて、空調設備Ａの保守点検等の作業の報告書を自動的に作成することができる。報告書のテンプレートから第１ワードを抽出して質問文データを生成する。第１ワードは、報告書に入力すべき項目を示すものである。発話文データから質問文データを用いて抽出される第２ワードは、項目に対応する情報である。テンプレートに第２ワードを入力することによって、動画データの内容を表した報告書データを作成することができる。
端末装置３は、報告書を表示し、動画データを再生することができる。

【0101】

（実施形態３）
実施形態３に係る情報処理装置は、辞書データ３１２ｄを用いて、発話文データから第１ワードを抽出して質問文データを生成する点が実施形態１～２と異なる。情報処理システムの他の構成及び処理は、実施形態１～２に係る情報処理システムと同様であるため、同様の箇所には同じ符号を付し、詳細な説明を省略する。

【0102】

図２０は、実施形態３に係るサーバ装置１の構成を示すブロック図である。実施形態３に係るサーバ装置１の記憶部１２は、辞書データ３１２ｄを記憶する。辞書データ３１２ｄは、質問文データの生成に好適な動詞及び形容詞（所定ワード）と、質問データの生成に不適な動詞及び形容詞を記憶する。

【0103】

制御部１１は、発話文データから第１ワードを抽出する場合、辞書データ３１２ｄを選択して取捨選択する。例えば、制御部１１は、発話文データから抽出した動詞又は形容詞が、質問文データの生成に好適な動詞及び形容詞として辞書データ３１２ｄが記憶する動詞又は形容詞と一致するか否かを判定し、一致すると判定した場合、第１ワードとして抽出する。制御部１１は、発話文データから抽出した動詞又は形容詞が、質問文データの生成に不適な動詞及び形容詞として辞書データ３１２ｄが記憶する動詞又は形容詞と一致するか否かを判定し、一致すると判定した場合、第１ワードとして抽出しない。制御部１１は、発話文データから抽出した動詞又は形容詞が、辞書データ３１２ｄに無い場合、第１ワードとして抽出すればよい。

【0104】

第１ワード抽出後の処理は、実施形態１及び実施形態２と同様であり、質問文データを生成し、発話文データから回答データを取得し、インデックス情報を生成する。

【0105】

実施形態３によれば、サーバ装置１は、より的確な質問文データを生成することができる。適切な質問文データ及び発話文データを言語学習モデル１２ｃに入力することによって、より的確な回答データ（第２データ）を出力させることができる。従って、動画データの内容をより的確に表したインデックス情報を生成し、動画データに関連付けることができる。

【0106】

（実施形態４）
実施形態４に係る情報処理装置は、生成したインデックス情報を外部出力する点が実施形態１～３と異なる。情報処理システムの他の構成及び処理は、実施形態１～３に係る情報処理システムと同様であるため、同様の箇所には同じ符号を付し、詳細な説明を省略する。

【0107】

図２１は、実施形態４に係るインデックス情報生成処理手順を示すフローチャートである。サーバ装置１の制御部１１は、実施形態１で説明したステップＳ１１１～ステップＳ１１６と同様の処理を実行し、サーバ装置１は動画データの内容を表した第１ワード及び回答データ（第２ワード）を得る（ステップＳ４１１～ステップＳ４１６）。制御部１１は、動画データと共に、第１ワードを含む質問文データと、回答データ（第２ワード）とを外部出力する（ステップＳ４１７）。制御部１１は、例えば、動画データを再生すると共に、質問文データ及び回答データを外部の表示装置に表示する。制御部１１は、動画データ、質問文データ及び回答データを外部のコンピュータへ出力又は送信してもよい。
ステップＳ４１７の処理を実行する制御部１１は、動画データと共に、第１のワードを含む質問データ及び第２のワードを出力する出力部として機能する。

【0108】

実施形態４によれば、動画データと共に、その動画の内容を的確に表したインデックス情報を外部出力することができる。

【0109】

以上、実施形態を説明したが、本発明はこれらの例示に限定されるものではなく、特許請求の範囲の趣旨及び範囲から逸脱することなく、形態や詳細の多様な変更が可能なことが理解されるであろう。また、上記した実施形態の少なくとも一部を任意に組み合わせてもよい。

【符号の説明】

【0110】

１サーバ装置（情報処理装置、コンピュータ）
２ヘッドセット
２ａカメラ
２ｂマイク
３端末装置
１１制御部
１１ａ音声認識部
１１ｂ自然言語処理部
１１ｃＡＩ処理部
１１ｄトークナイザ
１１ｅ動画処理部
１２記憶部
１２ａサーバプログラム（コンピュータプログラム）
１２ｂ動画ＤＢ
１２ｃ言語学習モデル
１２ｄトランスフォーマエンコーダ
３１２ｄ辞書データ
１３通信部
３１制御部
３２記憶部
３２ａ端末プログラム
３３通信部
３４表示部
３４ａ動画再生画面
３５操作部
１０，３０記録媒体
Ａ空調設備
Ｂ熟練者
Ｃ非熟練者
Ｎネットワーク

【図1】