(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-03-15
(45)【発行日】2024-03-26
(54)【発明の名称】情報処理方法、情報処理装置及びコンピュータプログラム
(51)【国際特許分類】
G06F 16/683 20190101AFI20240318BHJP
G06F 16/783 20190101ALI20240318BHJP
G06F 16/632 20190101ALI20240318BHJP
G06F 16/732 20190101ALI20240318BHJP
【FI】
G06F16/683
G06F16/783
G06F16/632
G06F16/732
(21)【出願番号】P 2022112563
(22)【出願日】2022-07-13
【審査請求日】2023-07-07
(73)【特許権者】
【識別番号】000002853
【氏名又は名称】ダイキン工業株式会社
(73)【特許権者】
【識別番号】513190830
【氏名又は名称】Fairy Devices株式会社
(74)【代理人】
【識別番号】100114557
【氏名又は名称】河野 英仁
(74)【代理人】
【識別番号】100078868
【氏名又は名称】河野 登夫
(72)【発明者】
【氏名】バティア ワンシュ
(72)【発明者】
【氏名】セナティ アニシュラム
(72)【発明者】
【氏名】パトラワラ ウィラフ
(72)【発明者】
【氏名】藤野 真人
【審査官】松尾 真人
(56)【参考文献】
【文献】特開2022-039973(JP,A)
【文献】特開2022-013256(JP,A)
【文献】特開2016-136341(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
G06F 40/20-40/58
(57)【特許請求の範囲】
【請求項1】
情報処理装置の処理部は、
音声データを文字列データに変換し、
前記文字列データから第1のワードを抽出して質問データを生成し、
前記文字列データ及び前記質問データが入力された場合、前記文字列データから前記質問データに対する回答に相当するワードを出力する学習済みの言語学習モデルに前記文字列データ及び前記質問データを入力することによって、前記文字列データから第2のワードを抽出し、
前記音声データ、第1のワード及び第2のワードを関連付けて記憶する
情報処理方法。
【請求項2】
第1のワードは動詞又は形容詞であり、
第2のワードは名詞である
請求項1に記載の情報処理方法。
【請求項3】
前記処理部は、
前記文字列データに含まれる複数の動詞又は形容詞のワードのうち、所定ワードを記憶した辞書データにあるワードを第1のワードとして抽出し、前記質問データを生成する
請求項1又は請求項2に記載の情報処理方法。
【請求項4】
前記第1のワード及び第2のワードはそれぞれ複数である
請求項1又は請求項2に記載の情報処理方法。
【請求項5】
前記音声データは複数シーンに区分けされており、
前記処理部は、
各区分の文字列データから第1のワードを抽出して質問データを生成し、
前記言語学習モデルに前記文字列データ及び前記質問データを入力することによって、各区分の文字列データから第2のワードをそれぞれ抽出し、
各区分に、
該区分に係る第1のワード
と、該区分に係る第2のワード
とを関連付けて記憶する
請求項1又は請求項2に記載の情報処理方法。
【請求項6】
前記処理部は、
前記音声データの全文字列データから第1のワードを抽出して質問データを生成し、
前記言語学習モデルに前記文字列データ及び前記質問データを入力することによって、前記音声データの全文字列データから第2のワードを抽出し、
前記音声データのファイルに
、該ファイルに係る第1のワード
と、該ファイルに係る第2のワード
とを関連付けて記憶する
請求項5に記載の情報処理方法。
【請求項7】
前記処理部は、
文字を含む報告書のテンプレートから第1のワードを抽出して前記質問データを生成し、
前記文字列データから抽出された第2のワードを前記テンプレートに入力し、
前記テンプレートに第2のワードが入力された報告書データを、前記音声データに関連付けて記憶する
請求項1又は請求項2に記載の情報処理方法。
【請求項8】
前記処理部は、
機器の保守点検の現場で撮像及び録音された動画データを取得し、
取得した動画データに含まれる音声データを文字列データに変換し、
第1のワードを含む質問データを用いて、前記文字列データから第2のワードを抽出し、
前記動画データ、第1のワード及び第2のワードを関連付けて記憶する
請求項1又は請求項2に記載の情報処理方法。
【請求項9】
前記処理部は、
前記動画データの動画に関連する第1のワード及び第2のワードを
該動画に重畳
して表示する
請求項8に記載の情報処理方法。
【請求項10】
前記処理部は、
文字を含む検索要求を受け付け、
データベースに記憶する複数の前記音声データから、
検索要求の文字と関連する第1のワード及び第2のワードが関連付けられた前記音声データを検出する
請求項1又は請求項2に記載の情報処理方法。
【請求項11】
情報処理装置の処理部は、
動画データに含まれる音声データを文字列データに変換し、
前記文字列データから第1のワードを抽出して質問データを生成し、
前記文字列データ及び前記質問データが入力された場合、前記文字列データから前記質問データに対する回答に相当するワードを出力する学習済みの言語学習モデルに前記文字列データ及び前記質問データを入力することによって、前記文字列データから第2のワードを抽出し、
前記動画データと共に、第1のワードを含む質問データ及び第2のワードを出力する
情報処理方法。
【請求項12】
音声データを文字列データに変換し、
前記文字列データから第1のワードを抽出して質問データを生成し、前記文字列データ及び前記質問データが入力された場合、前記文字列データから前記質問データに対する回答に相当するワードを出力する学習済みの言語学習モデルに前記文字列データ及び前記質問データを入力することによって、前記文字列データから第2のワードを抽出する処理部と、
前記音声データ、第1のワード及び第2のワードを関連付けて記憶する記憶部と
を備える情報処理装置。
【請求項13】
動画データに含まれる音声データを文字列データに変換し、
前記文字列データから第1のワードを抽出して質問データを生成し、前記文字列データ及び前記質問データが入力された場合、前記文字列データから前記質問データに対する回答に相当するワードを出力する学習済みの言語学習モデルに前記文字列データ及び前記質問データを入力することによって、前記文字列データから第2のワードを抽出する処理部と、
前記動画データと共に、第1のワードを含む質問データ及び第2のワードを出力する出力部と
を備える情報処理装置。
【請求項14】
音声データを文字列データに変換し、
前記文字列データから第1のワードを抽出して質問データを生成し、
前記文字列データ及び前記質問データが入力された場合、前記文字列データから前記質問データに対する回答に相当するワードを出力する学習済みの言語学習モデルに前記文字列データ及び前記質問データを入力することによって、前記文字列データから第2のワードを抽出し、
前記音声データ、第1のワード及び第2のワードを関連付けて記憶する
処理をコンピュータに実行させるためのコンピュータプログラム。
【請求項15】
動画データに含まれる音声データを文字列データに変換し、
前記文字列データから第1のワードを抽出して質問データを生成し、
前記文字列データ及び前記質問データが入力された場合、前記文字列データから前記質問データに対する回答に相当するワードを出力する学習済みの言語学習モデルに前記文字列データ及び前記質問データを入力することによって、前記文字列データから第2のワードを抽出し、
前記動画データと共に、第1のワードを含む質問データ及び第2のワードを出力する
処理をコンピュータに実行させるためのコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、情報処理方法、情報処理装置及びコンピュータプログラムに関する。
【背景技術】
【0002】
特許文献1は、撮影部と、録音部と、録音データに含まれる音声を文字列に変換する変換部と、文字列から名詞を抽出し、抽出された名詞と対応付けられている関連語を辞書部から取得し、撮影データと、名詞と、関連語とを関連付けて記憶する技術を開示する。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1においては、音声の文字列から単純に抽出される名詞、関連語が、必ずしも録音データの内容を的確に表したものではないという技術的問題があった。
【0005】
本開示は、撮影又は録音された動画又は音声データに当該データの内容を的確に表したインデックス情報を関連付けることができる情報処理方法、情報処理装置及びコンピュータプログラムを提案する。
【課題を解決するための手段】
【0006】
本開示の第1の観点に係る情報処理方法は、音声データを文字列データに変換し、第1のワードを含む質問データを用いて、前記文字列データから第2のワードを抽出し、前記音声データ、第1のワード及び第2のワードを関連付けて記憶する。
【0007】
本開示の第2の観点に係る情報処理方法は、第1の観点に係る情報処理方法であって、前記文字列データ及び前記質問データが入力された場合、前記文字列データから前記質問データに対する回答に相当するワードを出力する学習済みの言語学習モデルに前記文字列データ及び前記質問データを入力することによって、前記文字列データから第2のワードを抽出する構成が好ましい。
【0008】
本開示の第3の観点に係る情報処理方法は、第1の観点又は第2の観点に係る情報処理方法であって、前記文字列データから第1のワードを抽出して前記質問データを生成する構成が好ましい。
【0009】
本開示の第4の観点に係る情報処理方法は、第3の観点に係る情報処理方法であって、第1のワードは動詞又は形容詞であり、第2のワードは名詞である構成が好ましい。
【0010】
本開示の第5の観点に係る情報処理方法は、第3の観点又は第4の観点に係る情報処理方法であって、前記文字列データに含まれる複数の動詞又は形容詞のワードのうち、所定ワードを記憶した辞書データにあるワードを第1のワードとして抽出し、前記質問データを生成する構成が好ましい。
【0011】
本開示の第6の観点に係る情報処理方法は、第1の観点から第5の観点のいずれか一つに係る情報処理方法であって、前記第1のワード及び第2のワードはそれぞれ複数である構成が好ましい。
【0012】
本開示の第7の観点に係る情報処理方法は、第1の観点から第6の観点のいずれか一つに係る情報処理方法であって、前記音声データは複数シーンに区分けされており、各区分の文字列データから第2のワードをそれぞれ抽出し、各区分に、第1のワード及び第2のワードを関連付けて記憶する構成が好ましい。
【0013】
本開示の第8の観点に係る情報処理方法は、第7の観点に係る情報処理方法であって、前記音声データの全文字列データから第2のワードを抽出し、前記音声データのファイルに第1のワード及び第2のワードを関連付けて記憶する構成が好ましい。
【0014】
本開示の第9の観点に係る情報処理方法は、第1の観点から第8の観点のいずれか一つに係る情報処理方法であって、文字を含む報告書のテンプレートから第1のワードを抽出して前記質問データを生成し、前記文字列データから抽出された第2のワードを前記テンプレートに入力し、前記テンプレートに第2のワードが入力された報告書データを、前記音声データに関連付けて記憶する構成が好ましい。
【0015】
本開示の第10の観点に係る情報処理方法は、第1の観点から第9の観点のいずれか一つに係る情報処理方法であって、機器の保守点検の現場で撮像及び録音された動画データを取得し、取得した動画データに含まれる音声データを文字列データに変換し、第1のワードを含む質問データを用いて、前記文字列データから第2のワードを抽出し、前記動画データ、第1のワード及び第2のワードを関連付けて記憶する構成が好ましい。
【0016】
本開示の第11の観点に係る情報処理方法は、第10の観点に係る情報処理方法であって、前記動画データの動画に関連する第1のワード及び第2のワードを重畳する構成が好ましい。
【0017】
本開示の第12の観点に係る情報処理方法は、第1の観点から第10の観点のいずれか一つに係る情報処理方法であって、文字を含む検索要求を受け付け、データベースに記憶する複数の前記音声データから、検索要求の文字と関連する第1のワード及び第2のワードが関連付けられた前記音声データを検出する構成が好ましい。
【0018】
本開示の第13の観点に係る情報処理方法は、動画データに含まれる音声データを文字列データに変換し、第1のワードを含む質問データを用いて、前記文字列データから第2のワードを抽出し、前記動画データと共に、第1のワードを含む質問データ及び第2のワードを出力する。
【0019】
本開示の第14の観点に係る情報処理装置は、音声データを文字列データに変換し、第1のワードを含む質問データを用いて、前記文字列データから第2のワードを抽出する処理部と、前記音声データ、第1のワード及び第2のワードを関連付けて記憶する記憶部とを備える。
【0020】
本開示の第15の観点に係る情報処理装置は、動画データに含まれる音声データを文字列データに変換し、第1のワードを含む質問データを用いて、前記文字列データから第2のワードを抽出する処理部と、前記動画データと共に、第1のワードを含む質問データ及び第2のワードを出力する出力部とを備える。
【0021】
本開示の第16の観点に係るコンピュータプログラムは、音声データを文字列データに変換し、第1のワードを含む質問データを用いて、前記文字列データから第2のワードを抽出し、前記音声データ、第1のワード及び第2のワードを関連付けて記憶する処理をコンピュータに実行させる。
【0022】
本開示の第17の観点に係るコンピュータプログラムは、動画データに含まれる音声データを文字列データに変換し、第1のワードを含む質問データを用いて、前記文字列データから第2のワードを抽出し、前記動画データと共に、第1のワードを含む質問データ及び第2のワードを出力する処理をコンピュータに実行させる。
【図面の簡単な説明】
【0023】
【
図1】実施形態1に係る情報処理システムの概要を示す模式図である。
【
図2】実施形態1に係るサーバ装置の構成を示すブロック図である。
【
図3】実施形態1に係る動画DBの一例を示す概念図である。
【
図4】実施形態1に係る言語学習モデルの構成を示すブロック図である。
【
図5】実施形態1に係る言語学習モデルの一例であるBERTの構成を示すブロック図である。
【
図6】実施形態1に係る端末装置の構成を示すブロック図である。
【
図7】実施形態1に係るインデックス情報生成処理手順を示すフローチャートである。
【
図8】実施形態1に係るインデックス情報生成処理方法を示す概念図である。
【
図9】実施形態1に係る動画検索処理手順を示すフローチャートである。
【
図10】実施形態1に係る動画再生画面の一例を示す模式図である。
【
図11】実施形態2に係る情報処理手順を示すフローチャートである。
【
図12】シーンインデックス情報の生成処理手順を示すフローチャートである。
【
図13】動画のシーンと、発話文データとのマッチング方法を示す概念図である。
【
図14】ファイルインデックス情報の生成処理手順を示すフローチャートである。
【
図15】実施形態2に係る報告書作成手順を示すフローチャートである。
【
図16】報告書テンプレートの一例を示す模式図である。
【
図17】実施形態2に係る動画DBの一例を示す概念図である。
【
図18】実施形態2に係る動画検索処理手順を示すフローチャートである。
【
図19】実施形態2に係る動画再生画面の一例を示す模式図である。
【
図20】実施形態3に係るサーバ装置の構成を示すブロック図である。
【
図21】実施形態4に係るインデックス情報生成処理手順を示すフローチャートである。
【発明を実施するための形態】
【0024】
以下、本開示の情報処理方法、情報処理装置及びコンピュータプログラムについて、その実施形態を示す図面に基づいて詳述する。
【0025】
(実施形態1)
空調設備、化学プラント等の各種設備の保守点検、修理又は施工等の作業は技術的な熟練を要し、その作業効率は作業者の熟練度によって大きく異なる。非熟練者の作業を支援する方法の一つとして、熟練者の作業を撮影して得た動画データを収集して蓄積し、蓄積した動画データを非熟練者に提供することが考えられる。蓄積した動画データのなかから、非熟練者が必要とする動画データを検索するためには、動画データに適切なインデックス情報を付与する必要がある。
【0026】
本開示は、撮影又は録音された動画又は音声データに当該データの内容を的確に表したインデックス情報を関連付けることができる情報処理方法、情報処理装置及びコンピュータプログラムを提案するものである。
【0027】
<システム構成>
図1は、実施形態1に係る情報処理システムの概要を示す模式図である。実施形態1に係る情報処理システムは、サーバ装置(情報処理装置、コンピュータ)1と、ヘッドセット2と、端末装置3とを備える。サーバ装置1は、携帯電話通信網、無線LAN(Local Area Network)及びインターネット等の有線又は無線の通信網を介してヘッドセット2及び端末装置3に通信接続されている。
【0028】
ヘッドセット2は、空調設備Aの保守点検、修理又は施工等の作業を行う作業者、特に当該作業の熟練者Bの頭部に装着される装置である。ヘッドセット2は、カメラ2a、マイク2b、ヘッドホン等を有し、熟練者Bの作業の様子を撮影及び集音する。動画データにはマイク2bにより集音して得た音声データが含まれているものとする。
ヘッドセット2は、熟練者Bの作業の様子を撮影及び集音する装置の一例であり、撮影及び集音機能を有するその他のウェアラブルデバイス、携帯端末であってもよい。ヘッドセット2に代えて、空調設備A及び熟練者Bの周辺に設置されたカメラ2a及びマイク2bを採用してもよい。
【0029】
撮影及び集音して得た動画データは、サーバ装置1に与えられる。例えば、ヘッドセット2が通信回路を有する場合、ヘッドセット2は、有線又は無線の通信により、サーバ装置1へ動画データを送信する。ヘッドセット2は、PC(パーソナルコンピュータ)又はスマートフォン等の通信端末を介してサーバ装置1へ動画データを送信するように構成してもよい。ヘッドセット2が通信回路を有しない場合、ヘッドセット2はメモリカード又は光ディスク等の記録デバイスに動画データを記録する。記録デバイスを介してヘッドセット2からサーバ装置1へ動画データが提供される。
上記したヘッドセット2からサーバ装置1への動画データの提供方法は一例であり、任意の公知の方法を採用すればよい。
【0030】
サーバ装置1は、ヘッドセット2から提供された動画データを取得し、取得した動画データを動画DB12bに蓄積する。端末装置3は、空調設備Aの保守点検、修理又は施工等の作業を学び、行う非熟練者Cが使用するスマートフォン又はPC等の汎用的な通信端末である。端末装置3は、サーバ装置1にアクセスし、非熟練者Cが所望する動画データの検索を要求する。サーバ装置1は、端末装置3からの要求に応じて動画データを検索し、所要の動画データを端末装置3へ送信する。端末装置3は、要求に応じて送信された動画データを受信する。端末装置3は、受信した動画データを再生することによって、熟練者Bが行う作業する様子を記録した動画を表示する。非熟練者Cは、端末装置3に表示された動画により、熟練者Bの技術を学ぶことができる。
【0031】
<装置構成>
図2は、実施形態1に係るサーバ装置1の構成を示すブロック図である。実施形態1に係るサーバ装置1は、制御部11、記憶部(ストレージ)12及び通信部(トランシーバ)13を備える。
【0032】
制御部11は、CPU(Central Processing Unit)、MPU(Micro-Processing Unit)、GPU(Graphics Processing Unit)又は量子プロセッサ等の演算処理装置、ROM(Read Only Memory)及びRAM(Random Access Memory)等を有する。制御部11は、記憶部12に記憶されたサーバプログラム12aを読み出して実行することにより、蓄積した動画データにインデックス情報を付与する処理を実行する。インデックス情報は、複数のワードによって動画データの内容を示す情報である。制御部11は、インデックス情報を参照して所要の動画データを検索して端末装置3へ送信する処理等を行う。
制御部11は、音声認識部11a、自然言語処理部11b、AI処理部11c、トークナイザ11d、動画処理部11eとして機能する。各機能部は、制御部11がサーバプログラム12aを読み出して実行することによりソフトウェア的に実現してもよいし、一部又は全部を回路によりハードウェア的に実現するように構成してもよい。各機能部の概要は以下の通りである。
【0033】
音声認識部11aは、動画データに含まれる音声データを発話文データ(文字列データ)に変換する構成部である。発話文データは、熟練者Bの発話内容をテキスト化した文字列データである。
【0034】
自然言語処理部11bは、形態素解析により発話文データが表す文字列を形態素に分割して第1ワード(動詞又は形容詞)を抽出し、抽出された第1ワードを用いて質問文データを生成する構成部である。自然言語処理部11bは、機械学習により得られる言語学習モデル12cを用いないルールベースに基づく処理を行う構成部である。質問文データは、発話文データから意味のある名詞を抽出するためのデータである。
【0035】
AI処理部11cは、学習済みの言語学習モデル12cに質問文データ及び発話文データを入力することによって、発話文データから当該質問文に対する回答に相当する回答データを出力させる処理を実行する構成部である。回答データは、名詞である第2ワードを含む。
【0036】
トークナイザ11dは、字句解析器であり、上記質問文データ及び発話文データを、言語学習モデル12cで処理できるデータにエンコードするエンコーダとしての機能を有する。言語学習モデル12cとしてBERTを用いる場合、トークナイザ11dは、質問文データ及び発話文データを埋め込み表現されたテンソルデータにエンコードする。具体的には、トークナイザ11dは、質問文データ及び発話文データを、言葉の最小単位であるトークン(字句)に分割し、トークンIDを並べたトークン列のテンソルデータに変換する。トークナイザ11dは、文頭に特殊トークン[CLS]を挿入し、質問文データのトークン列と、発話文データのトークン列との間に特殊トークン[SEP]を埋め込む。トークナイザ11dは、トークン列のテンソルデータに、各トークンが、質問文に相当するトークンか、発話文に相当するトークンであるかを識別するためのセグメント情報を加算する。トークナイザ11dは、トークン列のテンソルデータに、質問文及び発話文に相当する複数のトークンの並び順を示す位置情報を加算する。
トークナイザ11dは、言語学習モデル12cから出力されるテンソルデータを文字列のデータにデコードするデコーダとしての機能も有する。
【0037】
動画処理部11eは、動画データを解析し、1つのファイルである動画データを複数のシーンに分割する等の処理を実行する構成部である。以下、実施形態1では、1つのファイルである動画データにインデックス情報を付加する例を説明する。分割された複数のシーン毎にインデックス情報を付加する方法は、実施形態2で説明する。
【0038】
記憶部12は、例えばハードディスク等の大容量の記憶装置である。記憶部12は、制御部11が実行するサーバプログラム12a、制御部11の処理に必要な各種データを記憶する。記憶部12は、カメラ2a及びマイク2bを用いて撮影及び集音して得た動画データを蓄積する動画DB(DataBase)12bを構成する。記憶部12は、動画データに付与するインデックス情報を生成するための言語学習モデル12cを記憶する。記憶部12は、サーバ装置1に接続された外部記憶装置であってよい。
【0039】
サーバプログラム12aは、記録媒体10にコンピュータ読み取り可能に記録されている態様でも良い。記憶部12は、読出装置によって記録媒体10から読み出されたサーバプログラム12aを記憶する。記録媒体10は、半導体メモリ、光ディスク、磁気ディスク、磁気光ディスク等である。サーバ装置1は、ネットワークNに接続されている外部サーバから本実施形態1に係るサーバプログラム12aをダウンロードし、記憶部12に記憶させても良い。
【0040】
図3は、動画DB12bの一例を示す概念図である。動画DB12bは、カメラ2a及びマイク2bを用いて撮影及び集音して得た動画データと、撮影日時と、本実施形態1に係る情報処理方法によって生成されたインデックス情報とを関連付けて記憶するデータベースである。インデックス情報は、後述する第1ワードと、第2ワードとを含む情報である。
【0041】
図4は、実施形態1に係る言語学習モデル12cの構成を示すブロック図である。言語学習モデル12cは、質問文データ及び発話文データが入力された場合、発話文データから当該質問文データが表す質問に対する回答に相当する回答データを出力する学習済みの機械学習モデルである。言語学習モデル12cは、例えば深層ニューラルネットワークを用いて構成される。言語学習モデル12cの構成は特に限定されるものでは無いが、BERTが好適である。以下、言語学習モデル12cはBERTで構成されているものとして説明する。
【0042】
図5は、実施形態1に係る言語学習モデル12cの一例であるBERTの構成を示すブロック図である。BERTで構成された言語学習モデル12cは、連結された複数のトランスフォーマエンコーダ(Trm)12dを有する。入力層に相当する第1段目のトランスフォーマエンコーダ12dは、質問文データ及び発話文データのテンソルデータの要素値が入力される複数のノードを有する。
図5中、下側の「Tok1」~「TokN」は質問文データのトークンID、「Tok1」~「TokM」は発話文データのトークンID、「CLS」、「SEP」は特殊トークンを表している。中間層に相当する複数のトランスフォーマエンコーダ12dは、前段のトランスフォーマエンコーダ12dのノードから出力された値に対して、所要のタスクに応じた演算処理を実行し、後段のトランスフォーマエンコーダ12dへ出力する。本実施形態1のBERTは、質問文に対する回答に相当するトークンを抽出する演算処理が実行される。出力層に相当する最終段のトランスフォーマエンコーダ12dは、第1段目のトランスフォーマエンコーダ12dと同数のノードを有し、回答文のテンソルデータを出力する。
図5中、上側の「Tok1」、「Tok2」…は、回答データのトークンIDを表している。
【0043】
BERTである言語学習モデル12cは、事前学習及びファインチューニングにより学習させることができる。事前学習は、ラベル無しの学習用データを用いて行う。具体的には、単語予測学習(MLM: Masked LM)と、次文予測(NSP:Next Sentence Prediction)学習によって、ニューラルネットワークを学習させる。単語予測学習では、学習用データの入力文であるトークン列の一部をマスクし、マスクされたトークンを予測できるようにトランスフォーマエンコーダ12dの重み係数を最適化する。次文予測学習では、第1の文字列と、第2の文字列とが続きの文字列であるか否を正しく判別できるようにトランスフォーマエンコーダ12dの重み係数を最適化する。
ファインチューニングでは、質問文データ及び発話文データのテンソルデータが入力された場合に、所望の回答データのテンソルデータが出力されるように、トランスフォーマエンコーダ12dの重み係数を微修正する。
なお、言語学習モデル12cは、実際に使用される質問文データ及び発話文データを用いてBERTをファインチューニングしてもよいし、一般的な文字列データを用いてファインチューニングされたBERTを用いてもよい。
【0044】
通信部13は、携帯電話通信網、無線LAN、インターネット等を含むネットワークNを介して、ヘッドセット2及び端末装置3との間で通信を行う。通信部13は、制御部11から与えられたデータをヘッドセット2又は端末装置3へ送信すると共に、ヘッドセット2又は端末装置3から受信したデータを制御部11に与える。
【0045】
サーバ装置1を一つのコンピュータ装置で構成する例を説明したが、サーバ装置1は、複数のコンピュータを含み、分散処理を行うマルチコンピュータであってよい。サーバ装置1は、ソフトウェアによって仮想的に構築された仮想マシンであってもよい。
【0046】
図6は、実施形態1に係る端末装置3の構成を示すブロック図である。端末装置3は、制御部31、記憶部(ストレージ)32、通信部(トランシーバ)33、表示部(ディスプレイ)34及び操作部35を備える。
【0047】
制御部31は、CPU又はMPU等の演算処理装置、ROM及び等を有する。制御部31は、記憶部32に記憶された端末プログラム32aを読み出して実行することにより、サーバ装置1の動画DB12bに蓄積された動画データの検索要求処理、サーバ装置1から提供された動画データの再生処理(表示処理)を行う。端末プログラム32aは、実施形態1に係る情報処理方法に係る専用のプログラムであってもよいし、インターネットブラウザ又はウェブブラウザ等の汎用のプログラムであってもよい。
【0048】
記憶部32は、例えばフラッシュメモリ等の不揮発性のメモリ素子又はハードディスク等の記憶装置である。記憶部32は、制御部31が実行する端末プログラム32a、制御部31の処理に必要な各種データを記憶する。記録媒体30にコンピュータ読み取り可能に記録されている態様でも良い。記憶部32は、読出装置によって記録媒体30から読み出された端末プログラム32aを記憶する。記録媒体30は、半導体メモリ、光ディスク、磁気ディスク、磁気光ディスク等である。端末装置3は、ネットワークNに接続されている外部サーバから本実施形態1に係る端末プログラム32aをダウンロードし、記憶部12に記憶させても良い。
【0049】
通信部33は、ネットワークNを介して、サーバ装置1との間で通信を行う。通信部33は、制御部31から与えられたデータをサーバ装置1へ送信すると共に、サーバ装置1から受信したデータを制御部31へ与える。
【0050】
表示部34は、液晶パネル、有機ELディスプレイ等である。表示部34は、制御部31から与えられたデータに応じた動画、静止画及び文字等を表示する。
【0051】
操作部35は、タッチパネル、ソフトキー、ハードキー、キーボード、マウス等の入力装置である。操作部35は、例えば、非熟練者Cの操作を受け付け、受け付けた操作を制御部31へ通知する。
【0052】
<情報処理方法(インデックス情報の生成及び付与)>
サーバ装置1は、熟練者Bが行う空調設備Aの保守点検、修理又は施工等の作業の様子を撮影して得た動画データの内容は的確に表したインデックス情報を生成することができる。
図7は、実施形態1に係るインデックス情報生成処理手順を示すフローチャート、
図8は、実施形態1に係るインデックス情報生成処理方法を示す概念図である。サーバ装置1の制御部11は、動画データを取得する(ステップS111)。例えば、サーバ装置1は、ヘッドセット2から送信された動画データを通信部13にて受信することによって、動画データを取得する。動画データは、熟練者Bの作業の様子を撮影及び集音して得られたものであり、音声データを含む。サーバ装置1は、記憶部12又は外部の記憶デバイスが記憶する動画データを読み出すことによって、当該動画データを取得してもよい。
【0053】
制御部11は、取得した動画データから音声データを抽出する(ステップS112)。制御部11又は音声認識部11aは、音声認識処理により、抽出した音声データをテキストの発話文データに変換する(ステップS113)。制御部11又は自然言語処理部11bは、形態素解析処理により、発話文データを形態素に分割し、動詞又は形容詞である一又は複数の第1ワードを抽出する(ステップS114)。例えば、第1ワードは、「修理する」、「取り替える」等の動詞、「熱い」、「遅い」等の形容詞である。制御部11は、発話文データに含まれるすべての動詞及び形容詞を第1ワードとして抽出してもよいし、所定数の動詞及び形容詞を第1ワードとして抽出してもよい。制御部11は、ランダムに所定数の動詞及び形容詞を第1ワードとして抽出してもよい。制御部11は、類似度の分散が大きくなるように所定数の動詞及び形容詞を第1ワードとして抽出してもよい。制御部11は、再生時間がばらつくように第1ワードを抽出してもよい。制御部11は、出願頻度が所定範囲、例えば1σの範囲の動詞及び形容詞を第1ワードとして抽出してもよい。
【0054】
制御部11又は自然言語処理部11bは、一又は複数の第1ワードに基づいて、一又は複数の質問文データを生成する(ステップS115)。例えば、制御部11は、第1ワード「修理」を用いて「何を修理しましたか?」といった質問文データを生成する。例えば、制御部11は、第1ワード「取り替える」を用いて「何を取り替えましたか?」といった質問文データを生成する。
一つの第1ワードに基づいて、複数の質問文データを生成することもできる。例えば、制御部11は、「何を修理しましたか?」、「何を使って修理しましたか?」、「どのように修理しましたか?」といった質問文データを生成してもよい。
記憶部12が関連語辞書を記憶するように構成してもよい。記憶部12が関連語辞書を記憶している場合、制御部11は、「修理」の関連語を用いて質問文データを生成する。例えば、「修理」の関連語が「問題」、「部品」、「エラーコード」等である場合、「何が問題ですか?」、「部品は何ですか?」、「エラーコードは何ですか?」といった質問文データを生成する。
記憶部12は、定型の質問文データを記憶するように構成してもよい。制御部11は、生成した質問文データに、記憶部12から読み出した定型の質問文データを加えてもよい。例えば「機器の型番は何ですか?」といった質問文データを定型の質問として加えてもよい。
【0055】
制御部11は、質問文データ及び発話文データを言語学習モデル12cに入力することによって、回答データを出力させる(ステップS116)。複数の質問文データがある場合、対応する複数の回答データが得られる。回答データは名詞である第2ワードを含む。具体的には、トークナイザ11dは質問文データ及び発話文データをテンソルデータにエンコードする。制御部11は、エンコードされたテンソルデータを言語学習モデル12cに入力することによって、回答文に係るテンソルデータを出力させる。トークナイザ11dは、言語学習モデル12cから出力されたテンソルデータを回答データにデコードする。
【0056】
制御部11は、第1ワード及び第2ワードに基づいてインデックス情報を生成する(ステップS117)。例えば、インデックス情報は、第1ワード及び第2ワードを配列したデータである。
【0057】
制御部11は、動画データに、生成したインデックス情報を関連付けて記憶部12に記憶する(ステップS118)。具体的には、制御部11は、動画データ及びインデックス情報を動画DB12bに記憶させる。
【0058】
<動画検索処理>
非熟練者Cは、端末装置3を用いてサーバ装置1の動画DB12bに蓄積された動画データを検索及び視聴することができる。
図9は、実施形態1に係る動画検索処理手順を示すフローチャートである。端末装置3の制御部31は、サーバ装置1の動画DB12bに記憶された動画データを検索するための検索画面を表示部34に表示する(ステップS171)。制御部31は、操作部35にて検索ワードを受け付ける(ステップS172)。制御部31は、受け付け検索ワードを含み、動画データの検索を要求するための検索要求データを通信部33にてサーバ装置1へ送信する(ステップS173)。
【0059】
サーバ装置1は、端末装置3から送信された検索要求データを通信部13にて受信する(ステップS174)。検索要求データを受信したサーバ装置1の制御部11は、検索要求データに含まれる検索ワードをキーにして、動画DB12bが記憶するインデックス情報を参照することにより、当該検索ワードに合致する動画データを検索する(ステップS175)。制御部11は、ステップS175の検索結果を、通信部13にて検索要求元の端末装置3へ送信する(ステップS176)。検索結果は、動画データのファイル名、サムネイル画像、撮影日時、再生時間、インデックス情報等を含む。
【0060】
端末装置3の制御部31は、サーバ装置1から送信された検索結果を通信部33にて受信する(ステップS177)。制御部31は、検索結果の情報を表示部34に表示し、操作部35にて再生する動画の選択を受け付ける(ステップS178)。
【0061】
制御部31は、選択された動画を示す情報、例えば動画データのファイル名を含み、動画データを要求する動画要求データを通信部33にてサーバ装置1へ送信する(ステップS179)。
【0062】
サーバ装置1の制御部11は、端末装置3から送信された動画要求データを通信部13にて受信する(ステップS180)。制御部11は、動画要求データが示す動画データ及びインデックス情報を、動画DB12bから取得する(ステップS181)。制御部11、読み出した動画データ及びインデックス情報を通信部13にて、動画要求元の端末装置3へ送信する(ステップS182)。
【0063】
端末装置3の制御部31は、サーバ装置1から送信された動画データ及びインデックス情報を通信部33にて受信する(ステップS183)。制御部31は、受信した動画データを再生して表示部34に表示する(ステップS184)。制御部31は、インデックス情報を動画の映像に重畳して表示する(ステップS185)。
【0064】
図10は、実施形態1に係る動画再生画面34aの一例を示す模式図である。端末装置3は、例えば、動画再生画面34aを表示部34に表示する。端末装置3は、サーバ装置1から受信した動画データに基づく動画を、動画再生画面34aの中央部に表示する。端末装置3は、動画の上部又は下部に、インデックス情報を重畳表示させる。端末装置3は、動画再生画面34aの下部に、再生ボタン、一時停止ボタン、停止ボタン、早送り、早戻し等の操作ボタンを表示し、表示部34の画面中央の動画表示に表示し、各種ボタンが操作された場合、制御部31は、操作されたボタンに応じて動画の再生を制御する。
【0065】
本実施形態1に係る情報処理システム等によれば、動画データにその動画の内容を的確に表したインデックス情報を関連付けて動画DB12bに記憶させることができる。第1ワードを含む質問文データを用いて、発話文データから第2ワードを抽出する構成であるため、第2ワードは質問文データに対応する内容的に意味のある情報を含む。第1ワード及び第2ワードは、動画データの内容を的確に表した情報であり、第1ワード及び第2ワードをインデックス情報として動画データに関連付けることができる。
【0066】
機械学習モデルである言語学習モデル12cを用いることによって、より的確に発話文データの内容を表した第2ワードを抽出することができる。特に、BERTを用いることによって、内容的により意味のある第2ワードを発話文データから抽出することができる。
【0067】
発話文データから抽出した第1ワードを用いて質問文データを生成する構成であるため、より的確に発話文データの内容を表した第2ワードを抽出することができる。第1ワードは、動画データの発話文データに含まれる情報であるため、動画データの内容にそった質問文データを得ることができる。
【0068】
質問文データを構成する第1ワードは動詞又は形容詞であるため、当該動詞又は形容詞に関連した第2ワード、すなわち名詞を抽出するのに適した質問文データを生成することができる。
【0069】
動画データに関連付けられた第1ワード及び第2ワードは複数であるため、より具体的に動画データの内容を表したインデックス情報を生成することができる。
【0070】
機器の保守点検の現場で撮像及び録音された動画データに関連付けられたインデックス情報の第1ワード及び第2ワードは、動画データの内容を表している。インデックス情報の第1ワード及び第2ワードを参照することによって、動画データの内容を確認することができる。
【0071】
動画データの動画に、第1ワード及び第2ワードを含むインデックス情報を動画に表示することができる。
【0072】
インデックス情報を参照することによって、所望の動画データを検索することができる。
【0073】
なお、本実施形態1では、空調設備Aの作業の様子を撮影及び集音して得られる動画データを例に説明したが、保守点検、修理又は施工等の作業対象は限定されるものでは無い。化学プラント、その他の各種設備の保守点検の様子を撮影及び集音して得られた動画データに、本実施形態1に係る情報処理方法等を適用してもよい。
コールセンター支援用、営業支援用、社員研修用のために撮影又は録音された動画データ又は音声データに本実施形態1に係る情報処理方法等を適用してもよい。
【0074】
本実施形態1では、動画データにインデックス情報を関連付ける例を説明したが、音声データに対して、本実施形態1に係る情報処理方法を適用してもよい。つまり、音声データに、本実施形態1に係る情報処理方法等にて生成したインデックス情報を関連付けて記憶するように構成してもよい。
【0075】
(実施形態2)
実施形態2に係る情報処理装置は、動画データを複数のシーンに分割し、各シーンにもインデックス情報を付加する点が実施形態1と異なる。実施形態2に係る情報処理装置は、空調設備Aの保守点検等の作業の様子を撮影した動画データに対して、作業の報告書を自動的に作成する点が実施形態1と異なる。実施形態2に係る情報処理装置は、動画データの再生方法が実施形態1と異なる。情報処理システムの他の構成及び処理は、実施形態1に係る情報処理システムと同様であるため、同様の箇所には同じ符号を付し、詳細な説明を省略する。
【0076】
<情報処理方法(インデックス情報の生成及び付与)>
図11は、実施形態2に係る情報処理手順を示すフローチャートである。サーバ装置1の制御部11は、動画データを取得する(ステップS211)。制御部11又は動画処理部11eは、動画データを解析し、1つのファイルである動画データを複数シーンに分割する(ステップS212)。例えば、動画処理部11eは、動画を構成する各フレーム画像の輝度の変化、オブジェクトの特徴量の変化等に基づいて、動画内容を複数のシーンに分割する。制御部11は、複数のシーンを示す情報として、各シーンを識別するためのシーン番号、各シーンのエンドフレームの番号、各シーンの開始位置及び終了位置を示す再生時間等の情報を含むシーンデータを動画データに関連付けて動画DB12bに記憶する(
図17参照)。
【0077】
制御部11は、取得した動画データから音声データを抽出する(ステップS213)。制御部11又は音声認識部11aは、音声認識処理により、抽出した音声データをテキストの発話文データに変換する(ステップS214)。具体的には、制御部11又は音声認識部11aは、発話の区切れ目毎に音声データをテキストの発話文データに変換する。制御部11又は音声認識部11aは、複数の発話文データを識別する番号と、各発話文データの再生開始位置及び終了位置を示す再生時間と、発話文データとを含む発話文データ群を記憶部12に一時記憶する。
【0078】
制御部11は、複数の各シーンの発話文データに基づいてインデックス情報を生成する処理を実行する(ステップS215)。以下、各シーンの発話文データに基づいて生成されるインデックス情報を、シーンインデックス情報と呼ぶ。
【0079】
図12は、シーンインデックス情報の生成処理手順を示すフローチャートである。制御部11は、動画データの各シーンと、発話文データとのマッチングを行う(ステップS231)。
【0080】
図13は、動画のシーンと、発話文データとのマッチング方法を示す概念図である。制御部11は、
図13に示すように、シーンデータを参照し、各シーンの開始位置及び終了位置と、ステップS214で変換した複数の発話文データそれぞれの開始位置及び終了位置とを比較する。制御部11は、シーンの開始位置に近い開始位置を有する発話文データを特定する。制御部11は、終了位置に近い終了位置を有する発話文データを特定する。制御部11は、特定されたシーンの開始位置の発話文データと、開始位置~終了位置の間の発話文データと、シーンの終了位置の発話文データとを統合する。
例えば、シーン番号1のシーンの開始位置は00:00、終了位置は00:12である。当該シーンの開始位置~終了位置に相当する発話文データは、No.1~No.3の発話文データであり、制御部11は、No.1~No.3の発話文データを統合する。同様に、シーン番号2のシーンの開始位置は00:12、終了位置は00:23である。当該シーンの開始位置~終了位置に相当する発話文データは、No.4~No.7の発話文データであり、制御部11は、No.4~No.7の発話文データを統合する。
【0081】
制御部11又は自然言語処理部11bは、形態素解析処理により、1つのシーンの発話文データを形態素に分割し、動詞又は形容詞である一又は複数の第1ワードを抽出する(ステップS232)。制御部11又は自然言語処理部11bは、一又は複数の第1ワードに基づいて、一又は複数の質問文データを生成する(ステップS233)。制御部11は、質問文データ及び発話文データを言語学習モデル12cに入力することによって、回答データを出力させる(ステップS234)。複数の質問文データがある場合、対応する複数の回答データが得られる。回答データは名詞である第2ワードを含む。制御部11は、第1ワード及び第2ワードに基づいてシーンインデックス情報を生成する(ステップS235)。
【0082】
制御部11は、全てのシーンのシーンインデックス情報を生成する処理を終えたか否かを判定する(ステップS236)。シーンインデックス情報が生成されていないシーンがあると判定した場合(ステップS236:NO)、制御部11は、処理をステップS232へ戻す。全てのシーンのシーンインデックス情報が生成されたと判定した場合(ステップS236:YES)、シーンのインデックス情報の生成処理を終える。
【0083】
図11に戻り、制御部11は、1つのファイルである動画データに基づいてインデックス情報を生成する処理を実行する(ステップS216)。以下、1つのファイルである動画データに基づいて生成されるインデックス情報を、ファイルインデックス情報と呼ぶ。
【0084】
図14は、ファイルインデックス情報の生成処理手順を示すフローチャートである。制御部11又は自然言語処理部11bは、形態素解析処理により、動画データ全体の発話文データ(全文字列データ)を形態素に分割し、動詞又は形容詞である一又は複数の第1ワードを抽出する(ステップS251)。制御部11又は自然言語処理部11bは、一又は複数の第1ワードに基づいて、一又は複数の質問文データを生成する(ステップS252)。制御部11は、質問文データ及び発話文データを言語学習モデル12cに入力することによって、回答データを出力させる(ステップS253)。回答データは名詞である第2ワードを含む。制御部11は、第1ワード及び第2ワードに基づいてファイルインデックス情報を生成し(ステップS254)、ファイルインデックス情報生成処理を終える。
【0085】
図11に戻り、制御部11は、発話文データに基づいて報告書を作成する(ステップS217)。報告書は、空調設備Aの保守点検等の作業に関する情報を含むものである。
【0086】
図15は、実施形態2に係る報告書作成手順を示すフローチャートである。サーバ装置1の記憶部12は、報告書テンプレートを記憶しており、サーバ装置1の制御部11は、報告書テンプレートを記憶部12から取得する(ステップS271)。
【0087】
図16は、報告書テンプレートの一例を示す模式図である。報告書テンプレートは、情報を入力すべき項目を表した複数の入力項目文字を含む。入力項目文字は、例えば「項目」、「修理場所」、「問合せ番号」、「顧客名」、「顧客住所」、「電話番号」、「モデル名」、「修理日時」等である。
【0088】
制御部11は、取得した報告書テンプレートから複数の第1ワード、すなわち複数の入力項目文字を抽出する(ステップS272)。制御部11又は自然言語処理部11bは、複数の第1ワードに基づいて、複数の質問文データを生成する(ステップS273)。制御部11は、質問文データ及び発話文データを言語学習モデル12cに入力することによって、回答データを出力させる(ステップS274)。回答データは名詞である第2ワードを含む。第2ワードは、入力項目文字が示す項目に入力すべき情報である。制御部11は、報告書テンプレートに回答データが入力された報告書データを生成し(ステップS275)、報告書作成処理を終える。報告書データの形式は特に限定されるものでは無く、報告書データは、例えば、報告書テンプレートの入力項目文字と、当該項目に対応する回答データとを対応付けた配列データである。報告書データは、報告書テンプレートの各項目に回答データを表示した画像データであってもよい。
【0089】
図11に戻り、制御部11は、生成したシーンインデックス情報と、ファイルインデックス情報と、報告書データとを、動画データに関連付けて記憶部12に記憶する(ステップS218)。
【0090】
図17は、実施形態2に係る動画DB12bの一例を示す概念図である。制御部11は、
図17に示すように、1つのファイルである動画データにファイルインデックス情報を関連付ける。制御部11は、複数のシーンそれぞれにシーンインデックス情報を関連付ける。具体的には、動画データには、複数のシーンそれぞれのシーン番号、エンドフレーム番号、開始位置及び終了位置を示す再生時間を示す情報が関連付けられており、制御部11は、各シーン番号に、当該シーンに対応するシーンインデックス情報を関連付けて動画DB12bに記憶する。制御部11は、動画データに報告書データを関連付ける。
【0091】
<動画検索処理>
図18は、実施形態2に係る動画検索処理手順を示すフローチャートである。端末装置3の制御部31及びサーバ装置1の制御部11は、実施形態1で説明したステップS171~ステップS180と同様の処理を実行し、サーバ装置1は動画要求データを通信部13にて受信する(ステップS271~ステップS280)。なお、ステップS275において、制御部11は、動画データに関連付けられたファイルインデックス情報を参照して動画データを検索する。処理の実体は実施形態1と同様である。
【0092】
サーバ装置1の制御部11は、動画要求データが示す動画データ、ファイルインデックス情報及び報告書データを取得する(ステップS281)。制御部11は、検索要求データに含まれる検索ワードをキーにして、シーンインデックス情報を参照することにより、当該検索ワードに合致するシーンを特定する(ステップS282)。
【0093】
制御部11は、取得した動画データ、ファイルインデックス情報、シーンデータ、ステップS282で特定したシーンを指定するシーン指定情報を、通信部13にて、動画要求元の端末装置3へ送信する(ステップS283)。
【0094】
端末装置3の制御部31は、サーバ装置1から送信された動画データ、ファイルインデックス情報、シーンデータ、シーンインデックス情報及びシーン指定情報を通信部33にて受信する(ステップS284)。制御部31は、受信した動画データを、シーン指定情報が示すシーンから再生して表示部34に表示する(ステップS285)。制御部31は、ファイルインデックス情報と、現在再生中のシーンに該当するシーンのインデックス情報を動画の映像に重畳して表示する(ステップS286)。具体的には、制御部31は、シーンデータを参照することにより、現在再生中のシーンと、当該シーンに対応するシーンインデックス情報を特定する。制御部31は、ファイルインデックス情報と、特定されたシーンのインデックス情報を動画に重畳表示する。
【0095】
制御部31は、受信した報告書データを表示部34に表示する(ステップS287)。制御部31は、操作部35の操作に応じて報告書データを表示するように構成してもよい。
【0096】
図19は、実施形態2に係る動画再生画面34aの一例を示す模式図である。端末装置3は、例えば、動画再生画面34aを表示部34に表示する。端末装置3は、サーバ装置1から受信した動画データに基づく動画を、動画再生画面34aの中央部に表示する。端末装置3の制御部31は、動画の上部及び下部にファイルインデックス情報及びシーンインデックス情報をそれぞれ重畳表示させる。制御部31は、動画の右下にシーン番号を重畳表示させる。制御部31は、動画データの発話文データを公知の技術で要約した文字列を動画に重畳表示させるように構成してもよい。ファイルインデックス情報、シーンのインデックス情報、シーン番号、要約の表示位置は一例である。
【0097】
制御部31は、報告書データに基づいて、報告書を動画再生画面34aに表示する。例えば、制御部31は、動画と並べて報告書データを表示する。
【0098】
本実施形態2に係る情報処理システム等によれば、動画データを分割して得られる複数のシーンそれぞれに、その内容を的確に表したシーンインデックス情報を関連付けて動画DB12bに記憶させることができる。
分割されていない動画データのファイルに、その内容を的確に表したシーンインデックス情報を関連付けて動画DB12bに記憶させることができる。
【0099】
動画データを、検索ワードに関連したシーンから自動的に再生させることができる。
【0100】
動画データに基づいて、空調設備Aの保守点検等の作業の報告書を自動的に作成することができる。報告書のテンプレートから第1ワードを抽出して質問文データを生成する。第1ワードは、報告書に入力すべき項目を示すものである。発話文データから質問文データを用いて抽出される第2ワードは、項目に対応する情報である。テンプレートに第2ワードを入力することによって、動画データの内容を表した報告書データを作成することができる。
端末装置3は、報告書を表示し、動画データを再生することができる。
【0101】
(実施形態3)
実施形態3に係る情報処理装置は、辞書データ312dを用いて、発話文データから第1ワードを抽出して質問文データを生成する点が実施形態1~2と異なる。情報処理システムの他の構成及び処理は、実施形態1~2に係る情報処理システムと同様であるため、同様の箇所には同じ符号を付し、詳細な説明を省略する。
【0102】
図20は、実施形態3に係るサーバ装置1の構成を示すブロック図である。実施形態3に係るサーバ装置1の記憶部12は、辞書データ312dを記憶する。辞書データ312dは、質問文データの生成に好適な動詞及び形容詞(所定ワード)と、質問データの生成に不適な動詞及び形容詞を記憶する。
【0103】
制御部11は、発話文データから第1ワードを抽出する場合、辞書データ312dを選択して取捨選択する。例えば、制御部11は、発話文データから抽出した動詞又は形容詞が、質問文データの生成に好適な動詞及び形容詞として辞書データ312dが記憶する動詞又は形容詞と一致するか否かを判定し、一致すると判定した場合、第1ワードとして抽出する。制御部11は、発話文データから抽出した動詞又は形容詞が、質問文データの生成に不適な動詞及び形容詞として辞書データ312dが記憶する動詞又は形容詞と一致するか否かを判定し、一致すると判定した場合、第1ワードとして抽出しない。制御部11は、発話文データから抽出した動詞又は形容詞が、辞書データ312dに無い場合、第1ワードとして抽出すればよい。
【0104】
第1ワード抽出後の処理は、実施形態1及び実施形態2と同様であり、質問文データを生成し、発話文データから回答データを取得し、インデックス情報を生成する。
【0105】
実施形態3によれば、サーバ装置1は、より的確な質問文データを生成することができる。適切な質問文データ及び発話文データを言語学習モデル12cに入力することによって、より的確な回答データ(第2データ)を出力させることができる。従って、動画データの内容をより的確に表したインデックス情報を生成し、動画データに関連付けることができる。
【0106】
(実施形態4)
実施形態4に係る情報処理装置は、生成したインデックス情報を外部出力する点が実施形態1~3と異なる。情報処理システムの他の構成及び処理は、実施形態1~3に係る情報処理システムと同様であるため、同様の箇所には同じ符号を付し、詳細な説明を省略する。
【0107】
図21は、実施形態4に係るインデックス情報生成処理手順を示すフローチャートである。サーバ装置1の制御部11は、実施形態1で説明したステップS111~ステップS116と同様の処理を実行し、サーバ装置1は動画データの内容を表した第1ワード及び回答データ(第2ワード)を得る(ステップS411~ステップS416)。制御部11は、動画データと共に、第1ワードを含む質問文データと、回答データ(第2ワード)とを外部出力する(ステップS417)。制御部11は、例えば、動画データを再生すると共に、質問文データ及び回答データを外部の表示装置に表示する。制御部11は、動画データ、質問文データ及び回答データを外部のコンピュータへ出力又は送信してもよい。
ステップS417の処理を実行する制御部11は、動画データと共に、第1のワードを含む質問データ及び第2のワードを出力する出力部として機能する。
【0108】
実施形態4によれば、動画データと共に、その動画の内容を的確に表したインデックス情報を外部出力することができる。
【0109】
以上、実施形態を説明したが、本発明はこれらの例示に限定されるものではなく、特許請求の範囲の趣旨及び範囲から逸脱することなく、形態や詳細の多様な変更が可能なことが理解されるであろう。また、上記した実施形態の少なくとも一部を任意に組み合わせてもよい。
【符号の説明】
【0110】
1 サーバ装置(情報処理装置、コンピュータ)
2 ヘッドセット
2a カメラ
2b マイク
3 端末装置
11 制御部
11a 音声認識部
11b 自然言語処理部
11c AI処理部
11d トークナイザ
11e 動画処理部
12 記憶部
12a サーバプログラム(コンピュータプログラム)
12b 動画DB
12c 言語学習モデル
12d トランスフォーマエンコーダ
312d 辞書データ
13 通信部
31 制御部
32 記憶部
32a 端末プログラム
33 通信部
34 表示部
34a 動画再生画面
35 操作部
10,30 記録媒体
A 空調設備
B 熟練者
C 非熟練者
N ネットワーク