(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2024-09-02
(45)【発行日】2024-09-10
(54)【発明の名称】セグメント検索装置及びプログラム
(51)【国際特許分類】
G06F 16/907 20190101AFI20240903BHJP
G06F 16/78 20190101ALI20240903BHJP
【FI】
G06F16/907
G06F16/78
(21)【出願番号】P 2023216002
(22)【出願日】2023-12-21
【審査請求日】2023-12-21
【早期審査対象出願】
(73)【特許権者】
【識別番号】511113970
【氏名又は名称】株式会社インタラクティブソリューションズ
(74)【代理人】
【識別番号】100116850
【氏名又は名称】廣瀬 隆行
(74)【代理人】
【識別番号】100165847
【氏名又は名称】関 大祐
(72)【発明者】
【氏名】関根 潔
【審査官】早川 学
(56)【参考文献】
【文献】特開2008-086030(JP,A)
【文献】韓国登録特許第10-2434880(KR,B1)
【文献】特開2019-212308(JP,A)
【文献】特開2004-104836(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
(57)【特許請求の範囲】
【請求項1】
動画、音声又は文章であるコンテンツを、セグメントに分けるセグメント分割部と、
前記セグメントごとに、当該セグメントに関する検索用文を作成する検索用文作成部と、
検索用語が入力される検索用語入力部と、
前記検索用語と前記検索用文とを照合し、前記セグメントのうち、前記検索用語と対応したセグメントである対応セグメントを見出す、対応セグメント検索部と、
前記対応セグメント、前記対応セグメントのアクセス情報、又は前記対応セグメントに関する検索用文を出力する対応セグメント出力部とを有
し、
前記検索用文は、前記セグメントを構成するテキストデータに関して予想される質問文とそれに対する回答文とを対にした質疑応答集を含む、
セグメント検索装置。
【請求項2】
請求項1に記載のセグメント検索装置であって、前記コンテンツは動画であり、
前記検索用文は、
さらに前記セグメントの要約文
を含む、
セグメント検索装置。
【請求項3】
請求項1に記載のセグメント検索装置であって、前記検索用語は、生成系AIの入力用語であり、
前記対応セグメント出力部は、前記生成系AIの回答として、前記対応セグメント、前記対応セグメントのアクセス情報、又は前記対応セグメントに関する検索用文を出力する、
セグメント検索装置。
【請求項4】
コンピュータを、
動画又は文章であるコンテンツを、セグメントに分けるセグメント分割部と、
前記セグメントごとに、当該セグメントに関する検索用文を作成する検索用文作成部と、
検索用語が入力される検索用語入力部と、
前記検索用語と前記検索用文とを照合し、前記セグメントのうち、前記検索用語と対応したセグメントである対応セグメントを見出す、対応セグメント検索部と、
前記対応セグメント、前記対応セグメントのアクセス情報、又は前記対応セグメントに関する検索用文を出力する対応セグメント出力部とを有
し、
前記検索用文は、前記セグメントを構成するテキストデータに関して予想される質問文とそれに対する回答文とを対にした質疑応答集を含む、
セグメント検索装置として機能させるためのプログラム。
【請求項5】
請求項4に記載のプログラムを記憶した非一時的情報記録媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、動画、音声、文章などのコンテンツを複数のセグメントに分けるとともに、各セグメントを検索対象とすることのできる検索装置及びそれに関するコンピュータプログラムに関する。
【背景技術】
【0002】
本願出願人は、以前より、プレゼンテーション資料の各頁に関する検索用語の候補を適切に抽出することのできるシステムを提案している(特許文献1)。この特許文献1に記載のシステムでは、資料の各頁から用語(資料中用語)とそれに関連するトピックス語を抽出してメモリに記憶しておき、このメモリから資料中用語と関連するトピックス語を抽出して、ここで抽出したトピックス語を資料内の各頁の検索用語の候補として用いることとしている。これにより、特許文献1のシステムによれば、プレゼンテーション資料の各頁に関連する検索用語を効果的に提供して、各頁を効果的に検索できるようなるとされている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
ところで、特許文献1のシステムでは、プレゼンテーション資料の各頁に実際に記載されている用語とトッピクス語を、各頁を検索する際に入力する検索用語として用いることとしている。このため、資料内の用語とトッピクス語を十分に理解している者であれば、たしかに、それらの用語とトッピクス語を検索用語として用いて効果的に資料内の頁を検索することが可能である。しかしながら、これらの資料内の用語とトッピクス語が例えば専門用語や造語である場合には、専門家や資料作成者ではない一般の者がこれらの用語とトッピクスを十分に理解できないことがある。このような場合には、一般の者にとって資料内の各頁を検索することが依然として難しいという課題が残る。
【0005】
また、プレゼンテーション資料に限らず、講演(話者が1名)や会話(話者が複数名)の動画や音声から文字起こしたテキストデータを検索対象とすることを考える。この場合、テキストデータに含まれる文字列は主に口語体となっていることが多く、検索の対象となるキーワードが少ない場合がある。このような口語体のテキストデータは、検索用語を用いた検索には不向きであるという課題がある。特に、口語体のテキストデータには、正しい用語やトピックス語が含まれていない場合があるため、特許文献1のシステムを応用して検索対象とすることも難しい。
【0006】
そこで、本発明は、動画、音声、文章などのコンテンツを構成する各セグメントをより柔軟に検索対象とすることのできる技術を提供することを主な課題とする。
【課題を解決するための手段】
【0007】
本発明の発明者は、上記の従来発明の課題を解決する手段について鋭意検討した結果、動画や文章などのコンテンツを論点や話題に応じた複数のセグメントに分けて、セグメントごとに要約文や質疑応答集といった検索用文を作成しておき、ユーザによって検索用語が入力されたときに、この検索用語と予め作成しておいた検索用文とを照合して、この検索用語に対応するセグメントを検索することにより、各種コンテンツをより柔軟に検索対象とすることが可能になるという知見を得た。そして、本発明者は、上記知見に基づけば従来発明の課題を解決できることに想到し、本発明を完成させた。
【0008】
本発明の第1の側面は、セグメント検索装置に関する。セグメント検索装置は、セグメント分割部、検索用文作成部、検索用語入力部、対応セグメント検索部、及び対応セグメント出力部を有する。セグメント分割部は、動画、音声又は文章であるコンテンツをセグメントに分ける。例えば、セグメント分割部は、コンテンツの中に複数の論点又は話題が含まれている場合には、それらの論点又は話題ごとにセグメントを区切ればよい。検索用文作成部は、セグメントごとに、当該セグメントに関する検索用文を作成する。セグメントには、例えば動画又は音声から変換されたテキストや、文章そのままのテキストが含まれるが、検索用文作成部は、これらのテキストから検索用文を作成すればよい。なお、検索用文は、複数の単語が含まれるものであり、特に複数の単語がまとまって一連の文をなしていることが好ましく、さらに複数の文がまとまった文章となっていてもよい。ここで作成された検索用文は、その作成の基になったセグメントに対応付けてメモリ等に記憶される。検索用語入力部は、ユーザから検索用語の入力を受け付ける。検索用語は、一つの単語であってもよいし、複数の単語であってもよいし、複数の単語がまとまった一連の文となっていてもよい。対応セグメント検索部は、検索用語と検索用文とを照合して、複数のセグメントの中から、検索用語と対応したセグメントである対応セグメントを見出す。なお、対応セグメント検索部は、検索用文に加えて、セグメントに含まれるテキストそのものを検索対象としてもよい。対応セグメント出力部は、対応セグメント、対応セグメントのアクセス情報、又は対応セグメントに関する検索用文を出力する。なお、対応セグメントのアクセス情報は、コンピュータ内部のファイルやフォルダの場所を指定するパスであってもよいし、インターネット上のファイルやフォルダの場所を指定するURLであってもよい。
【0009】
上記構成のように、本発明では、コンテンツを構成する各セグメントに含まれるテキストをそのまま検索対象とするのではなく、各セグメントに含まれるテキストから検索用文を作成して、この検索用文を検索対象とする。例えば、セグメントに含まれるテキストが口語体である場合には、検索用文においては検索により適した文語体とすればよい。また、例えば、セグメントに含まれるテキストが専門用語である場合には、検索用文においてはより一般に理解しやすい単語に置き換えればよい。このように、セグメントに関する検索用文を作成しておくことで、各セグメントをより柔軟に検索することができる。また、セグメントに含まれるテキストとそこから作成された検索用文とのデータセットは、機械学習(特に生成AI)の教師データとして利用しやすいという副次的な効果もある。
【0010】
本発明に係るセグメント検索装置において、コンテンツは動画(音声含む)であり、検索用文は、セグメントの要約文又はセグメントの質疑応答集であることが好ましい。このような動画の内容をまとめた要約文や動画の内容に関する質疑応答集(Q&A)は、ユーザの検索の目的や疑問点に関わるものであることから、これらの要約文又は質疑応答集を検索用文として作成しておくことで、ユーザから検索用語が入力されたときに、その検索用語に対応したセグメントをより適切に見出すことができる。
【0011】
本発明に係るセグメント検索装置において、検索用語は、生成系AIの入力用語であってもよい。また、対応セグメント出力部は、生成系AIの回答として、対応セグメント、対応セグメントのアクセス情報、又は対応セグメントに関する検索用文を出力するものであってもよい。このように、セグメント検索装置に生成系AIを導入することで、ユーザはより簡単な方法でコンテンツ内のセグメントを発見することができる。
【0012】
本発明の第2の側面は、コンピュータを、前述した第1の側面に係るセグメント検索装置として機能させるためのプログラムである。前述したとおり、セグメント検索装置は、セグメント分割部、検索用語入力部、対応セグメント検索部、及び対応セグメント出力部を有するものである。なお、このプログラムは、コンピュータにプリインストールされるものであってもよいし、インターネットを介してダウンロードされるものであってもよい。
【0013】
本発明の第3の側面は、上記第2の側面に係るプログラムを記憶した非一時的情報記録媒体である。非一時的情報記録媒体の例は、CD-ROM及びフラッシュメモリである。
【発明の効果】
【0014】
本発明によれば、コンテンツを構成する各セグメントをより柔軟に検索対象とすることができる。
【図面の簡単な説明】
【0015】
【
図1】
図1は、セグメント検索装置を含むシステムの例を示した全体図である。
【
図2】
図2は、セグメント検索装置の機能構成の例を示したブロック図である。
【
図3】
図3は、セグメントごとに検索用文を作成する処理の例を示した模式図である。
【
図4】
図4は、セグメント情報の例を示した模式図である。
【
図5】
図5は、セグメント検索装置による出力の例を示した模式図である。
【発明を実施するための形態】
【0016】
以下、図面を用いて本発明を実施するための形態について説明する。本発明は、以下に説明する形態に限定されるものではなく、以下の形態から当業者が自明な範囲で適宜変更したものも含む。
【0017】
図1は、セグメント検索装置10とその周辺機器を含むシステム100の一例を示している。
図1に示した例において、このシステム100は、セグメント検索装置10に加えて、撮像装置20、集音装置30、入力装置40、表示装置50、及び放音装置60などの周辺機器を含み、これらの周辺機器がセグメント検索装置10に接続されている。
図1に示した例では、二人の会話を撮像装置20と集音装置30を用いて撮影及び録音することを想定している。撮像装置20と集音装置30によって得られた動画データ(音声データを含む)はセグメント検索装置10に入力され、このセグメント検索装置10によって解析及び編集等の処理が行われる。このため、この例では、音声と動画像を含む動画データがセグメント検索装置10による処理対象の「コンテンツ」となる。
【0018】
また、ユーザは、このセグメント検索装置10を利用して、このコンテンツの中から所望の一部分を検索することができる。例えば、コンテンツが二人の会話の動画データである場合には、ユーザは任意の検索用語を入力することで、その検索用語に対応する会話の一又は複数の場面を動画データの中から探し出すことができる。このとき、ユーザは、セグメント検索装置10に接続された入力装置40に検索用語を入力すればよい。また、セグメント検索装置10による検索結果は、表示装置50と放音装置60から出力される。なお、ここで挙げたコンテンツは一例であり、コンテンツは、一人の独話の動画データ(音声を含む)であってもよいし、動画像を含まない音声データであってもよい。その他、コンテンツは、文章データであってもよい。
【0019】
セグメント検索装置10は、基本的にコンピュータにより実現される。一般的に、コンピュータは、入力部、出力部、制御部、演算部及び記憶部を有しており、各要素は、バスなどによって接続され、情報の授受を行うことができるようにされている。各種情報は、デジタル情報であり、コンピュータはデジタル情報を処理して、各種演算を行うことができ、記憶部はデジタル情報を記憶することができる。例えば、記憶部には、制御プログラムが記憶されていてもよいし、各種情報が記憶されていてもよい。入力部から所定の情報が入力された場合、制御部は、記憶部に記憶される制御プログラムを読み出す。そして、制御部は、記憶部に記憶された情報を適宜読み出し、演算部へ伝える。また、制御部は、適宜入力された情報を演算部へ伝える。演算部は、受け取った各種情報を用いて演算処理を行い、記憶部に記憶する。制御部は、記憶部に記憶された演算結果を読み出して、出力部から出力する。このようにして、各種処理や各工程が実行される。この各種処理を実行するものが、各部や各手段である。コンピュータは、プロセッサを有し、プロセッサが各種機能や各種工程を実現するものであってもよい。コンピュータは、スタンドアロンであってもよい。コンピュータは、機能の一部がサーバと端末に分散されていてもよい。その場合サーバと端末とは、インターネットやイントラネットなどのネットワークにより、情報の授受を行うことができるようにされていることが好ましい。コンピュータは、プロセッサと、プロセッサに連結されたメモリを備えていてもよい。そして、メモリが、命令を格納しており、命令は、プロセッサによって実行されると、コンピュータに、各種工程を行わせたり、コンピュータを各種要素として機能させるものであってもよい。コンピュータは、各種教師データを与えて機械学習を行うことにより学習済みモデルを構築しておき、この学習済みモデルに各種情報を入力することにより、希望する結果を得るようにしてもよい。また、得られた結果を、コンピュータに入力して、フィードバックすることにより、学習済みモデルの精度を向上させてもよい。この場合、コンピュータは、AI(人工知能)の機械学習・深層学習により作成された学習モデルを用いて各種解析や分析を実行してもよい。
【0020】
撮像装置20は、静止画又は動画の画像データを取得するための装置である。撮像装置20としては、公知のデジタルカメラを利用することができる。撮像装置20は、
図1に示したようにセグメント検索装置10に外付けられた装置であってもよいし、セグメント検索装置10を構成するコンピュータに内蔵されていてもよい。撮像装置20は、例えば、レンズ、メカシャッター、シャッタードライバ、CCDイメージセンサユニット又はCMOSイメージセンサユニットといった光電変換素子、光電変換素子から電荷量を読み出し画像データを生成するデジタルシグナルプロセッサ(DSP)、及びICメモリなどを備える。撮像装置20は、取得した画像データをデジタル信号に変換してセグメント検索装置10へと送出する。セグメント検索装置10は、撮像装置20から受信した画像データを少なくとも一時的に記憶部12に保存する。
【0021】
集音装置30は、音声データを取得するための装置である。集音装置30は、ダイナミックマイクやコンデンサマイク、MEMS(Micro-Electrical-Mechanical Systems)マイクなど、公知のマイクロフォンを利用することができる。マイクロフォンは指向性マイクであってもよいし、無指向性(全指向性)マイクであってもよい。また、集音装置30は、
図1に示したようにセグメント検索装置10に外付けられた装置であってもよいし、セグメント検索装置10を構成するコンピュータに内蔵されていてもよい。集音装置30は、音を電気信号に変換し、その電気信号をアンプ回路によって増幅した上で、A/D変換回路によってデジタル信号に変換してセグメント検索装置10へと出力する。セグメント検索装置10は、集音装置30から受信した音声データを少なくとも一時的に記憶部12に保存する。
【0022】
入力装置40は、ユーザにより入力された情報をセグメント検索装置10に伝達するための装置である。入力装置40としては、マウス、キーボード、タッチパネル、スタイラスペンなどの公知の入力装置を利用すればよい。なお、入力装置40は、セグメント検索装置10から物理的に分離可能なものであってもよく、その場合には入力装置40はBluetooth(登録商標)等の近距離無線通信規格でセグメント検索装置10と接続される。また、タッチパネルをディスプレイの前面に配置することで、タッチパネルディスプレイが構成されていてもよい。
【0023】
表示装置50は、所定の画像(静止画及び動画)を表示するための装置である。表示装置50は、液晶ディスプレイや有機ELディスプレイといった公知のディスプレイ装置により構成されている。表示装置50は、
図1に示したようにセグメント検索装置10に外付けられた装置であってもよいし、セグメント検索装置10を構成するコンピュータに内蔵されていてもよい。
【0024】
放音装置60は、音を出力するための装置である。放音装置60は、電気信号を物理的振動(すなわち音)に変換して出力する。放音装置60の例は、空気振動により音を装着者に伝達する一般的なスピーカである。放音装置60は、
図1に示したようにセグメント検索装置10に外付けられた装置であってもよいし、セグメント検索装置10を構成するコンピュータに内蔵されていてもよい。なお、放音装置60は、装着者の骨を振動させることにより音を装着者に伝達する骨伝導スピーカであってもよい。
【0025】
図2は、システム100の機能構成を示したブロック図である。特にこの
図2では、特にセグメント検索装置10の機能ブロックを示している。セグメント検索装置10は、主に処理部11、記憶部12、及び通信部13を備える。処理部11は、例えばプロセッサとメモリから構成される。プロセッサの例は公知のCPUやGPUである。プロセッサは、メモリに記憶されているプログラムやデータに従って所定の演算処理や画像処理を行い、その処理の結果をメモリの作業空間に書き出しながら各種の制御処理を実行する。メモリは、例えばRAM(Random Access Memory)等の揮発性メモリから構成され、上記したプロセッサによる演算処理に利用される。記憶部12は、主に処理部11での演算処理に利用されるデータを記憶するための要素(ストレージ)である。記憶部12は、ROM(Read Only Memory)やフラッシュメモリ等の不揮発性メモリや、HDD(ハードディスクドライブ)から構成される。また、記憶部12には、処理部11に所定の処理を実行させるためのコンピュータプログラムが記憶されていてもよい。また、詳しくは後述するが、記憶部12には、処理部11での演算処理に用いられる情報又は処理部11での演算処理の結果として得られる情報として、コンテンツや、セグメント情報、及び学習済みモデルが記憶されている。通信部13は、セグメント検索装置10がインターネットを介して外部のコンピュータ(例えばWebサーバ)とデータの送受信を行うための要素である。通信部13は、有線又は無線によってデータを送受信できるものであればよい。無線通信を行う場合、通信部13としては、4G、5G、あるいはWi-Fi(登録商標)などの公知の無線通信規格に則った通信モジュールを採用できる。
【0026】
また、
図2に示されるように、処理部11は、テキスト化部11a、セグメント分割部11b、検索用文作成部11c、検索用語入力部11d、対応セグメント検索部11e、及び対応セグメント出力部11f対応といった各機能ブロックを有している。これらの機能ブロックは、処理部11が所定のプログラムを実行することにより得られる機能であり、実際には主にプロセッサとメインメモリの協働によって実現される。これらの機能ブロックの詳細については、
図2に加えて、
図3~
図5に記載の例を参照して説明する。
【0027】
図3に示されるように、動画(音声を含む)、音声、文章といったコンテンツがセグメント検索装置10の処理対象となる。例えば処理対象となるコンテンツが動画又は音声である場合、セグメント検索装置10は、前述した撮像装置20及び/又は集音装置30を利用して、これらの動画データ又は音声データを取得することができる。その他、セグメント検索装置10は、通信部13により、動画、音声、文章といったコンテンツをインターネットを介して受信(ダウンロード)することもできる。コンテンツに関するデータは、セグメント検索装置10の記憶部12に保存される。
【0028】
次に、処理対象となるコンテンツが動画又は音声である場合、セグメント検索装置10のテキスト化部11aは、記憶部12に記憶されている動画データ又は音声データを読み出して音声認識処理を行なう。音声認識処理は、例えば、動画データに含まれる音声データ又は音声データそのものについて、ノイズの除去や信号の増幅といった前処理を行った後、その音声データから特徴量を抽出する。特徴量としては、例えば公知のメルスペクトルやメル周波数ケプストラム係数(MFCC)を用いればよい。これにより音声データの周波数成分や時間的なパターンが抽出される。その後、抽出した特徴量を、公知の音声認識エンジンや音声認識モデル(機械学習の学習済みモデル)に供給して、音声データをテキストデータに変換する。なお、音声認識モデルでは、特徴量を解析して最も可能性の高いテキストデータを生成することができる。また、テキスト化部11aは、音声認識処理と共に、誤変換補正処理を行なうことが好ましい。誤変換補正処理は、例えば前述した音声認識モデルに文脈を加味した言語モデルを導入することで、文脈に基づいた誤りを修正したテキストデータを生成することができる。これにより、テキスト化部11aは、音声データをテキストデータに精度良く変換することができる。その他、音声認識と誤変換補正については、上記手法に限られず、公知の手法を適宜採用することができる。
【0029】
なお、処理の対象となるコンテンツが文章である場合、その文書にはテキストデータが含まれているため、テキスト化部11aの機能を実行する必要はない。ただし、テキスト化部11aは、文章に含まれるテキストデータについて誤変換補正を行い、誤字脱字を修正することとしてもよい。
【0030】
次に、セグメント検索装置10のセグメント分割部11bは、テキスト化部11aにより生成されたテキストデータを複数のセグメント(クラスタともいう)に分割する。複数のセグメントは、それぞれ異なる話題又は論点を含む。各セグメントは、基本的には一つの話題又は論点で構成され、同方向の話題又は論点を含む文書についてグループを形成したものである。セグメント分割部11bは、公知の自然言語処理により、テキストデータを話題又は論点ごとにセグメント化すればよい。例えば、セグメント分割部11bは、k-平均法(k-means)といった教師なしデータ分類手法を用いて、似た内容を持つテキストデータを一つのセグメントにまとめることができる。また、セグメント分割部11bは、テキスト全体をトピックに分けて各トピックに関連する文章をまとめるLDA(Latent Dirichlet Allocation)などのトピックモデルを利用して、トピックごとにセグメントを作成することしてもよい。また、セグメント分割部11bは、TF-IDF(Term Frequency-Inverse Document Frequency)といった手法を利用し、テキストデータの重要な単語やフレーズを抽出して、その単語やフレーズの重要性に基づいてセグメント化することとしてもよい。さらに、セグメント分割部11bは、RNN(Recurrent Neural Networks)やTransformerベースのモデル、あるいはGPT(Generative Pre-trained Transformer)などの事前学習済みの言語モデルを利用し、テキストデータの文脈情報を考慮して、話題や論点に基づいてテキストデータをセグメント化することもできる。なお、これらの手法は組み合わせてもよい。さらに、ユーザが学習済みモデルに対してセグメント分けが正しいこと又はセグメント分けが正しくないことに関する情報を入力できるようにしてもよい。これにより、クラスタ分割処理を繰り返すことにより、モデルの精度を向上させることができる。
図3では、話者Aと話者Bの二者の会話をセグメント化した概念図を示している。この例では、二者の会話について、キーワードやキーフレーズに基づき、話している内容が変わる度に論点を細かく分け、セグメントとして視覚化している。
【0031】
次に、検索用文作成部11cは、セグメントごとに検索用文を作成する。検索用文は、セグメントを構成するテキストデータの文字列を基にして作成される文であり、テキストデータに含まれる文字列を例えば変換、抽象化、要約、補足したものとなる。検索用文の例は、要約文と質疑応答集である。
【0032】
要約文は、各セグメントを構成するテキストデータから主要な情報を抽出して、簡潔な形でまとめたものである。要約文には、例えば抽出型要約文と生成型要約文がある。抽出型要約文は、例えばテキスト中の重要な単語やフレーズをTF-IDなどの手法で抽出し、それらを含む文やパッセージを抜粋することにより作成できる。また、抽出型要約文は、PageRankのようなアルゴリズムを使ってテキスト内の文の重要度を評価し、重要な文をランク付けして抜粋することにより作成してもよい。一方、生成型要約文は、例えばEncoder-Decoder構造のSeq2Seqといったニューラルネットワークモデルを使用し、文の意味を理解して新しい文として生成することができる。また、生成型要約文は、自己注意メカニズムを持つTransformerアーキテクチャを用いて、文の重要な部分を特定し、それを用いて生成することとしてもよい。なお、要約文の品質を評価するために、自動的な評価指標(ROUGE、BLEUなど)を用いることも可能である。
【0033】
質疑応答集は、各セグメントを構成するテキストデータに関して予想される質問文とそれに対する回答文とを対にしたものである。セグメント検索装置10は、インターネットと接続されており、様々なウェブページにアクセスでき、様々なウェブページのコンテンツをクロールできる。検索用文作成部11cは、各セグメントに含まれるキーワードに基づいて、様々なウェブページから情報を入手し、記憶部12に適宜記憶する。そのうえで、検索用文作成部11cは、各セグメントに含まれるキーワードに関連する質疑応答集を自動的に作成してもよい。例えば、キーワードが、「A錠」の場合、検索用文作成部11cは、「A錠」に関する添付文書から、各種情報を入手して記憶部12に記憶する。そして、検索用文作成部11cは、「A錠を使用するうえで禁忌はありますか?」という質問文と、「はい。B疾患の治療薬を処方されている患者には、A錠を処方できません。」という回答文を作成する。また、検索用文作成部11cは、自然言語処理の技術を使用して、セグメントに含まれるテキストデータから質問とそれに対する回答を作成することもできる。例えば、検索用文作成部11cは、BERT(Bidirectional Encoder Representations from Transformers)やGPTといった事前学習済みの言語モデルを使用して、各セグメントのテキストデータから質問と回答を生成することができる。この手法では、このテキストデータを言語モデルへの入力とし、特定の形式の質問とそれに対する最適な回答を出力することができる。また、人手で質問と回答のペアを多数作成し、それを教師データとして機械学習モデル(例えば、Seq2SeqやTransformerベースのモデル)を訓練して、新しい質問に対して自動的に回答を生成するすることも可能である。
【0034】
検索用文作成部11cにより作成された検索用文(例えば要約文と質疑応答集)は、セグメントに含まれるテキストデータや、そのセグメントに関する情報(メタデータ)と共に、セグメントごとに関連付けて記憶部12に記憶される。本願明細書では、このようにセグメントごとに関連付けられている情報をセグメント情報という。
図4は、セグメント情報の一例を示している。
図4に示されるように、セグメント情報には、例えば、セグメント名、セグメントに含まれる話題又は論点のタイトル、コンテンツの中の各セグメントのタイムライン(時間情報)、要約文、説明文、及び質疑応答集が含まれる。セグメント名は、セグメント固有のファイル名であり、例えばコンテンツが8個のセグメントに分割された場合には、時系列順に論点1~8といったセグメント名が自動的に割り当てられる。タイトルは、セグメントに含まれる話題や論点を端的に表したものであり、人手によって作成してもよいし、検索用文作成部11cが上記した手法で要約文を作成する際に、その要約文を更に端的に表したタイトルを自動生成するようにしてもよい。タイムラインは、処理対象となるコンテンツが動画又は音声等の時系列データである場合に、そのコンテンツ中における各セグメントの時間に関する情報である。また、処理対象となるコンテンツが文章である場合には、タイムラインに代えて、文章中のページ数や段落番号、行数など、文章中における各セグメントの出現位置を特定できる情報とすればよい。要約文は、検索用文作成部11cが前述した手法により作成したものである。説明文は、テキスト化部11aが音声認識処理により作成したものである。テキストデータが会話形式である場合には、発話者(A又はB)ごとにテキストデータをまとめてもよい。質疑応答集は、検索用文作成部11cが前述した手法により作成したものである。
【0035】
上記の情報を含むセグメント情報は、記憶部12内にデータベース化して保存され、セグメントの検索を行なう際に利用される。
図3に示したように、セグメント検索装置10は、検索実行前に行なう前処理として、各コンテンツをテキスト化し、このテキストデータを複数のセグメントに分割して、各セグメントについて検索用文(要約文、質疑応答集など)を作成しておく。これにより、コンテンツが動画又は音声である場合ように、実際にはテキストデータを含まないものであっても、このようなコンテンツを文字による検索の対象とすることができる。また、コンテンツは複数のセグメントに分割されていることから、コンテンツをさらに細かく分類したセグメントを検索の対象とすることができる。さらに、コンテンツの各セグメントは、それを構成するテキストだけでなく、そのテキストを基に作成された要約文や質疑応答集が関連付けられていることから、検索時にユーザにより入力された文字がテキストに合致しない場合でも、その文字が要約文や質疑応答集内の文字と合致する可能性があるため、各セグメントをより柔軟に検索することが可能となる。特に、コンテンツが二者以上の会話(口語体)であるような場合、文字による検索は通常行うことが難しいが、この会話の要約文や質疑応答集(文語体)を作成しておくことで、会話の中の所望のセグメントを文字により検索しやすくなる。
【0036】
次に、
図5を参照して、コンテンツ内のセグメントを検索する方法の例について説明する。特に、
図5では、セグメントの検索に生成AIを利用する例を示している。生成AIは、一般的に、機械学習や人工知能の分野において新しいデータや情報を生成する能力を持つ技術を指す。このような生成AIは、与えられたデータやパターンから学習した学習済みモデルであり、その学習した内容に基づいて新しいデータやコンテンツを生成することができる。このようなモデルは、大量のデータに基づいてトレーニングされ、そのデータのパターンや特徴を理解し、新しいデータを生成するためのパラメータを学習している。生成AIの代表例は、GAN(Generative Adversarial Network)と呼ばれるアーキテクチャであり、GANでは、生成器(Generator)と識別器(Discriminator)という2つのネットワークを競わせることで学習しリアルなデータに似たデータを生成できる。なお、この生成AI(学習済みモデル)は、セグメント検索装置10の記憶部12に保存されていてもよいし、Webサーバ上に保存されており必要に応じてセグメント検索装置10がインターネットを介して生成AIにアクセスできるように構成されていてもよい。
【0037】
セグメント検索装置10の検索用語入力部11dは、
図5に示されるように、生成AIに対する検索用語(質問)を入力するのUI(ユーザインタフェース)を提供する。具体的には、検索用語入力部11dは、表示装置50にUIを表示し、そのUIを介してユーザから検索用語の入力を受け付ける。検索用語は、一つの単語であってもよいし、複数の単語であってもよいし、一文であってもよいし、複数の文からなる文章であってもよい。
図5に示した例では、この検索用語は生成AIに対するプロンプトとしてとして機能する。
【0038】
次に、セグメント検索装置10の対応セグメント検索部11eは、事前に作成したコンテンツのセグメントの中から、ユーザにより入力された検索用語に対応する対応セグメントを検索する。
図5に示した例では、事前に作成した検索用文を含むセグメント情報(
図4参照)を生成AIに教師データとして入力することで、この生成AIを再教育した二次モデルが作成されている。このため、この生成AIに検索用語(プロンプト)を入力することで、この生成AIからは事前に作成したセグメント情報を考慮した回答を得ることができる。対応セグメント検索部11eは、このような生成AIを利用して、検索用語に対応する対応セグメントを検索すればよい。
【0039】
次に、セグメント検索装置10の対応セグメント出力部11fは、対応セグメント検索部11eにより抽出された情報を出力する。
図5に示されるように、対応セグメント出力部11fは、例えば生成AIの回答を表示装置50に表示させるなどして出力すればよい。具体的には、生成AIによれば、検索用語に対する回答が生成される。また、検索用語にコンテンツ内のセグメントの検索に関する質問が含まれている場合には、その検索により抽出された対応セグメントや、対応セグメントへのアクセス情報、及び対応セグメントに関する検索用文が表示装置50に表示される。例えば、検索用語が「動画コンテンツαの中からA錠に関する論点を検索してください。」というものである場合には、生成AIの回答としては、動画コンテンツαを構成する複数のセグメントのうち、A錠に関する論点を含むセグメントのセグメント情報や、A錠に関する論点を含む動画の一部分やその時間帯が表示装置50上に表示される。また、A錠に関する論点を動画へのアクセス情報を、コンピュータ内部のファイルやフォルダの場所を指定するパスや、インターネット上のファイルやフォルダの場所を指定するURLといった形式で表示することとしてもよい。このようにすれば、ユーザは、任意のコンテンツの中から、所望のセグメントを簡単に検索することができる。また、対応セグメント出力部11fは、ユーザにより、動画コンテンツの再生が指示された場合には、動画コンテンツの画像を表示装置50によって表示するとともに、動画コンテンツの音声を放音装置60から出力する。また、対応セグメント出力部11fは、対応セグメント検索部11eによって検索されたセグメント情報を、通信部13を介して、Webサーバに送信(アップロード)したり、他のコンピュータに対して個別に送信することも可能である。
【0040】
なお、上記
図5に示した例では、対応セグメント検索部11eと対応セグメント出力部11fは、それぞれ生成AIを利用してセグメントの検索やその出力を行なうこととしている。ただし、対応セグメント検索部11eは、検索用語入力部11dによってユーザから入力を受け付けた検索用語と、記憶部12に記憶されているセグメント情報内の説明文や検索用文(要約文、質疑応答集)を単純に照合し、検索用語と合致する用語を含むセグメント情報を抽出することとしてもよい。この場合は、対応セグメント出力部11fは、対応セグメント検索部11eにより抽出されたセグメント情報を表示装置50に表示するなどして、単純にユーザに提供することとしてもよい。
【0041】
以上、本願明細書では、本発明の内容を表現するために、図面を参照しながら本発明の実施形態の説明を行った。ただし、本発明は、上記実施形態に限定されるものではなく、本願明細書に記載された事項に基づいて当業者が自明な変更形態や改良形態を包含するものである。
【産業上の利用可能性】
【0042】
本発明は、セグメント検索装置及びプログラムに関するものであり、情報関連産業において利用されうる。
【符号の説明】
【0043】
10…セグメント検索装置 11…処理部
11a…テキスト化部 11b…セグメント分割部
11c…検索用文作成部 11d…検索用語入力部
11e…対応セグメント検索部 11f…対応セグメント出力部
12…記憶部 13…通信部
20…撮像装置 30…集音装置
40…入力装置 50…表示装置
60…放音装置 100…システム
【要約】
【課題】コンテンツを構成する各セグメントをより柔軟に検索対象にできるようにする。
【解決手段】セグメント検索装置10は、動画、音声又は文章であるコンテンツをセグメントに分けるセグメント分割部11bと、セグメントごとに当該セグメントに関する検索用文を作成する検索用文作成部11cと、検索用語が入力される検索用語入力部11dと、検索用語と検索用文とを照合して検索用語と対応したセグメントである対応セグメントを見出す対応セグメント検索部11eと、対応セグメント、対応セグメントのアクセス情報、又は対応セグメントに関する検索用文を出力する対応セグメント出力部11fを有する。
【選択図】
図2