(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2024-05-20
(45)【発行日】2024-05-28
(54)【発明の名称】電子マニュアルの作成を支援するためのコンピュータシステムおよびプログラム
(51)【国際特許分類】
H04N 5/91 20060101AFI20240521BHJP
【FI】
H04N5/91
(21)【出願番号】P 2024023759
(22)【出願日】2024-02-20
【審査請求日】2024-02-26
【早期審査対象出願】
(73)【特許権者】
【識別番号】510130239
【氏名又は名称】株式会社スタディスト
(74)【代理人】
【識別番号】100078282
【氏名又は名称】山本 秀策
(74)【代理人】
【識別番号】100107489
【氏名又は名称】大塩 竹志
(74)【代理人】
【識別番号】100113413
【氏名又は名称】森下 夏樹
(74)【代理人】
【識別番号】100181674
【氏名又は名称】飯田 貴敏
(74)【代理人】
【識別番号】100181641
【氏名又は名称】石川 大輔
(74)【代理人】
【識別番号】230113332
【氏名又は名称】山本 健策
(72)【発明者】
【氏名】鈴木 悟史
(72)【発明者】
【氏名】長谷川 和樹
(72)【発明者】
【氏名】平山 雷太
(72)【発明者】
【氏名】武波 康一
(72)【発明者】
【氏名】村田 健育
(72)【発明者】
【氏名】木本 俊光
【審査官】鈴木 順三
(56)【参考文献】
【文献】特開2004-120127(JP,A)
【文献】特許第7023427(JP,B1)
【文献】特開2019-144822(JP,A)
【文献】特開2019-20789(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 5/76 - 5/956
(57)【特許請求の範囲】
【請求項1】
電子マニュアルの作成を支援するためのコンピュータシステムであって、前記コンピュータシステムは、
1つ以上の動画を受信する手段と、
複数のステップに変換するための条件を示す情報を受信する手段と、
前記条件に基づいて、前記1つ以上の動画に含まれる音声から、複数のステップを構成するための構造化テキストを生成する手段であって、前記構造化テキストは、前記複数のステップのそれぞれのタイトルまたは説明文を少なくとも含む、手段と、
前記1つ以上の動画と、前記構造化テキストとに少なくとも基づいて、前記1つ以上の動画を複数のサブ動画または静止画に分割する手段と、
前記構造化テキストと、前記複数のサブ動画または静止画とに基づいて、前記電子マニュアルを仮生成する手段と
を備える、コンピュータシステム。
【請求項2】
前記条件は、ステップの数の制限を含む、請求項1に記載のコンピュータシステム。
【請求項3】
前記条件は、タイトルの文字数の制限および/または説明文の文字数の制限をさらに含む、請求項2に記載のコンピュータシステム。
【請求項4】
前記1つ以上の動画に含まれる音声は、前記電子マニュアルの手順を示す音声である、請求項1に記載のコンピュータシステム。
【請求項5】
前記仮生成された電子マニュアルは、前記1つ以上の動画に含まれる音声を含まない、請求項4に記載のコンピュータシステム。
【請求項6】
前記1つ以上の動画と、前記構造化テキストとに少なくとも基づいて、前記1つ以上の動画を複数のサブ動画または静止画に分割することは、
前記1つ以上の動画と、前記構造化テキストとに少なくとも基づいて、前記1つ以上の動画を複数の候補サブ動画に分割することと、
前記複数の候補サブ動画のうち、所定の時間の間に所定の音量を上回る音声が存在する一方で画像に変化が表れない候補サブ動画を、前記候補サブ動画に基づいて静止画に変換することと
を含む、請求項1に記載のコンピュータシステム。
【請求項7】
前記1つ以上の動画と、前記構造化テキストとに少なくとも基づいて、前記1つ以上の動画を複数のサブ動画または静止画に分割することは、
前記構造化テキストに基づいて、シーンの切り替わりのタイミングを特定することと、
前記シーンの切り替わりのタイミングに基づいて前記1つ以上の動画を分割することによって、前記複数のサブ動画または静止画を生成すること
を含む、請求項1に記載のコンピュータシステム。
【請求項8】
前記構造化テキストに基づいて、前記シーンの切り替わりのタイミングを特定することは、
前記構造化テキストに基づいて、前記構造化テキストの内容の切れ目を特定することと、
前記構造化テキストの切れ目に対応する前記音声内のタイミングを前記シーンの切り替わりのタイミングとして特定することと
を含む、請求項7に記載のコンピュータシステム。
【請求項9】
前記1つ以上の動画と、前記構造化テキストとに少なくとも基づいて、前記1つ以上の動画を複数のサブ動画または静止画に分割することは、
前記1つ以上の動画の画像変化の大きいタイミングを特定することと、
前記音声の切れ目のタイミングを特定することと、
前記画像変化の大きいタイミングと前記シーンの切り替わりのタイミングと前記音声の切れ目のタイミングとが一致するタイミングで、前記1つ以上の動画を分割することによって、前記複数のサブ動画または静止画を生成することと
をさらに含む、請求項7に記載のコンピュータシステム。
【請求項10】
前記条件に基づいて、前記1つ以上の動画に含まれる音声から、前記構造化テキストを生成することは、
前記1つ以上の動画に含まれる音声を文字起こしすることによって、前記音声をテキストに変換することと、
前記音声から変換されたテキストと、前記条件とに基づいて、前記構造化テキストを生成することと
を含む、請求項1に記載のコンピュータシステム。
【請求項11】
前記コンピュータシステムは、
前記仮生成された電子マニュアルを編集することを希望することを示す第1のユーザ入力を受信する手段と、
前記第1のユーザ入力を受信したことに応答して、前記仮生成された電子マニュアルのステップ間における分割候補の時間帯を特定する手段であって、前記分割候補の時間帯内において、ユーザは、前記仮生成された電子マニュアルのステップ間の分割位置を調整することができる、ことと、
前記分割候補の時間帯を提示する手段と、
前記分割候補の時間帯内における前記仮生成された電子マニュアルのステップ間の分割位置を調整するための第2のユーザ入力を受信する手段と、
前記第2のユーザ入力に基づいて、前記仮生成された電子マニュアルを編集する手段と
をさらに備える、請求項1に記載のコンピュータシステム。
【請求項12】
前記分割候補の時間帯を特定することは、前記構造化テキストと、前記1つ以上の動画に含まれる音声とに基づいて、前記分割候補の時間帯を特定することを含む、請求項11に記載のコンピュータシステム。
【請求項13】
前記構造化テキストと、前記1つ以上の動画に含まれる音声とに基づいて、前記分割候補の時間帯を特定することは、
前記構造化テキストに基づいて、前記複数のステップの各ステップに対応する前記音声の再生時間を特定することと、
各ステップに対応する前記音声の再生時間に基づいて、前記分割候補の時間帯を特定することと
を含む、請求項11に記載のコンピュータシステム。
【請求項14】
前記コンピュータシステムは、
前記電子マニュアルの本生成を実行するための第3のユーザ入力を受信する手段と、
前記第3のユーザ入力を受信したことに応答して、前記電子マニュアルの本生成を実行する手段と
をさらに備える、請求項1に記載のコンピュータシステム。
【請求項15】
前記コンピュータシステムは、
前記1つ以上の動画が音声を含むか否かを判定する手段と、
前記1つ以上の動画が音声を含まないと判定される場合に、前記1つ以上の動画に音声が含まれていないことをユーザに警告する手段と
をさらに備える、請求項1に記載のコンピュータシステム。
【請求項16】
前記1つ以上の動画に含まれる音声は、口語調であり、前記タイトルおよび前記説明文は、文語調である、請求項1に記載のコンピュータシステム。
【請求項17】
前記コンピュータシステムは、前記構造化テキストを読み上げるための音声データを生成する手段をさらに備える、請求項1に記載のコンピュータシステム。
【請求項18】
前記コンピュータシステムは、
入力言語および出力言語を設定するための入力を受信する手段と、
前記構造化テキストに含まれる前記複数のステップのそれぞれの前記タイトルまたは前記説明文の言語を前記入力言語から前記出力言語に変換する手段と
を備え、
前記構造化テキストと、前記複数のサブ動画または静止画とに基づいて、前記電子マニュアルを仮生成することは、前記複数のステップのそれぞれの前記出力言語に変換された前記タイトルまたは前記説明文と、前記複数のサブ動画または静止画とに基づいて、前記電子マニュアルを仮生成することを含む、請求項1に記載のコンピュータシステム。
【請求項19】
電子マニュアルの作成を支援するためのコンピュータシステムにおいて実行されるプログラムであって、前記コンピュータシステムは、前記コンピュータシステムの動作を制御するプロセッサ部を備え、
前記プログラムは、前記プロセッサ部によって実行されると、
1つ以上の動画を受信することと、
複数のステップに変換するための条件を示す情報を受信することと、
前記条件に基づいて、前記1つ以上の動画に含まれる音声から、複数のステップを構成するための構造化テキストを生成することであって、前記構造化テキストは、前記複数のステップのそれぞれのタイトルまたは説明文を少なくとも含む、ことと、
前記1つ以上の動画と、前記構造化テキストとに少なくとも基づいて、前記1つ以上の動画を複数のサブ動画または静止画に分割することと、
前記構造化テキストと、前記複数のサブ動画または静止画とに基づいて、前記電子マニュアルを仮生成することと
を前記プロセッサ部に少なくとも行わせる、プログラム。
【請求項20】
電子マニュアルの作成を支援するためのプログラムであって、前記プログラムは、ユーザ装置上で実行され、前記ユーザ装置は、前記ユーザ装置の動作を制御するプロセッサ部を備え、
前記プログラムは、前記プロセッサ部によって実行されると、
1つ以上の動画を特定することと、
複数のステップに変換するための条件を示す情報を特定することと、
前記条件に基づいて、前記1つ以上の動画に含まれる音声から、複数のステップを構成するための構造化テキストを生成することであって、前記構造化テキストは、前記複数のステップのそれぞれのタイトルまたは説明文を少なくとも含む、ことと、
前記1つ以上の動画と、前記構造化テキストとに少なくとも基づいて、前記1つ以上の動画を複数のサブ動画または静止画に分割することと、
前記構造化テキストと、前記複数のサブ動画または静止画とに基づいて、前記電子マニュアルを仮生成することと
を前記プロセッサ部に少なくとも行わせる、プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、電子マニュアルの作成を支援するためのコンピュータシステムおよびプログラムに関する。
【背景技術】
【0002】
従来から、作業の効率化などを目的として、電子マニュアルを作成し、利用することが知られている(例えば、特許文献1を参照)。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、電子マニュアルを作成することは、依然として、時間および労力を必要とするものであり、特に、動画を含む電子マニュアルを作成することは、かなりの時間および労力を必要とするものである。
【0005】
本発明は、上述した課題に鑑みてなされたものであり、電子マニュアルの作成を支援するためのコンピュータシステムおよびプログラムを提供することにより、電子マニュアルの作成に必要な時間および労力を低減することを目的とする。
【課題を解決するための手段】
【0006】
本発明の1つの局面において、本発明のコンピュータシステムは、電子マニュアルの作成を支援するためのコンピュータシステムであり、前記コンピュータシステムは、1つ以上の動画を受信する手段と、複数のステップに変換するための条件を示す情報を受信する手段と、前記条件に基づいて、前記1つ以上の動画に含まれる音声から、複数のステップを構成するための構造化テキストを生成する手段であって、前記構造化テキストは、前記複数のステップのそれぞれのタイトルまたは説明文を少なくとも含む、手段と、前記1つ以上の動画と、前記構造化テキストとに少なくとも基づいて、前記1つ以上の動画を複数のサブ動画または静止画に分割する手段と、前記構造化テキストと、前記複数のサブ動画または静止画とに基づいて、前記電子マニュアルを仮生成する手段とを備える。
【0007】
本発明の一実施形態では、前記条件は、ステップの数の制限を含んでいてもよい。
【0008】
本発明の一実施形態では、前記条件は、タイトルの文字数の制限および/または説明文の文字数の制限をさらに含んでいてもよい。
【0009】
本発明の一実施形態では、前記1つ以上の動画に含まれる音声は、前記電子マニュアルの手順を示す音声であってもよい。
【0010】
本発明の一実施形態では、前記仮生成された電子マニュアルは、前記1つ以上の動画に含まれる音声を含まなくてもよい。
【0011】
本発明の一実施形態では、前記1つ以上の動画と、前記構造化テキストとに少なくとも基づいて、前記1つ以上の動画を複数のサブ動画または静止画に分割することは、前記1つ以上の動画と、前記構造化テキストとに少なくとも基づいて、前記1つ以上の動画を複数の候補サブ動画に分割することと、前記複数の候補サブ動画のうち、所定の時間の間に所定の音量を上回る音声が存在する一方で画像に変化が表れない候補サブ動画を、前記候補サブ動画に基づいて静止画に変換することとを含んでいてもよい。
【0012】
本発明の一実施形態では、前記1つ以上の動画と、前記構造化テキストとに少なくとも基づいて、前記1つ以上の動画を複数のサブ動画または静止画に分割することは、前記構造化テキストに基づいて、シーンの切り替わりのタイミングを特定することと、前記シーンの切り替わりのタイミングに基づいて前記1つ以上の動画を分割することによって、前記複数のサブ動画または静止画を生成することを含んでいてもよい。
【0013】
本発明の一実施形態では、前記構造化テキストに基づいて、前記シーンの切り替わりのタイミングを特定することは、前記構造化テキストに基づいて、前記構造化テキストの内容の切れ目を特定することと、前記構造化テキストの切れ目に対応する前記音声内のタイミングを前記シーンの切り替わりのタイミングとして特定することとを含んでいてもよい。
【0014】
本発明の一実施形態では、前記1つ以上の動画と、前記構造化テキストとに少なくとも基づいて、前記1つ以上の動画を複数のサブ動画または静止画に分割することは、前記1つ以上の動画の画像変化の大きいタイミングを特定することと、前記音声の切れ目のタイミングを特定することと、前記画像変化の大きいタイミングと前記シーンの切り替わりのタイミングと前記音声の切れ目のタイミングとが一致するタイミングで、前記1つ以上の動画を分割することによって、前記複数のサブ動画または静止画を生成することとをさらに含んでいてもよい。
【0015】
本発明の一実施形態では、前記条件に基づいて、前記1つ以上の動画に含まれる音声から、前記構造化テキストを生成することは、前記1つ以上の動画に含まれる音声を文字起こしすることによって、前記音声をテキストに変換することと、前記音声から変換されたテキストと、前記条件とに基づいて、前記構造化テキストを生成することとを含んでいてもよい。
【0016】
本発明の一実施形態では、前記コンピュータシステムは、前記仮生成された電子マニュアルを編集することを希望することを示す第1のユーザ入力を受信する手段と、前記第1のユーザ入力を受信したことに応答して、前記仮生成された電子マニュアルのステップ間における分割候補の時間帯を特定する手段であって、前記分割候補の時間帯内において、ユーザは、前記仮生成された電子マニュアルのステップ間の分割位置を調整することができる、ことと、前記分割候補の時間帯を提示する手段と、前記分割候補の時間帯内における前記仮生成された電子マニュアルのステップ間の分割位置を調整するための第2のユーザ入力を受信する手段と、前記第2のユーザ入力に基づいて、前記仮生成された電子マニュアルを編集する手段とをさらに備えてもよい。
【0017】
本発明の一実施形態では、前記分割候補の時間帯を特定することは、前記構造化テキストと、前記1つ以上の動画に含まれる音声とに基づいて、前記分割候補の時間帯を特定することを含んでいてもよい。
【0018】
本発明の一実施形態では、前記構造化テキストと、前記1つ以上の動画に含まれる音声とに基づいて、前記分割候補の時間帯を特定することは、前記構造化テキストに基づいて、前記複数のステップの各ステップに対応する前記音声の再生時間を特定することと、各ステップに対応する前記音声の再生時間に基づいて、前記分割候補の時間帯を特定することとを含んでいてもよい。
【0019】
本発明の一実施形態では、前記コンピュータシステムは、前記電子マニュアルの本生成を実行するための第3のユーザ入力を受信する手段と、前記第3のユーザ入力を受信したことに応答して、前記電子マニュアルの本生成を実行する手段とをさらに備えていてもよい。
【0020】
本発明の一実施形態では、前記コンピュータシステムは、前記1つ以上の動画が音声を含むか否かを判定する手段と、前記1つ以上の動画が音声を含まないと判定される場合に、前記1つ以上の動画に音声が含まれていないことをユーザに警告する手段とをさらに備えていてもよい。
【0021】
本発明の一実施形態では、前記1つ以上の動画に含まれる音声は、口語調であり、前記タイトルおよび前記説明文は、文語調であってもよい。
【0022】
本発明の一実施形態では、前記コンピュータシステムは、前記構造化テキストを読み上げるための音声データを生成する手段をさらに備えていてもよい。
【0023】
本発明の一実施形態では、前記コンピュータシステムは、入力言語および出力言語を設定するための入力を受信する手段と、前記構造化テキストに含まれる前記複数のステップのそれぞれの前記タイトルまたは前記説明文の言語を前記入力言語から前記出力言語に変換する手段とを備え、前記構造化テキストと、前記複数のサブ動画または静止画とに基づいて、前記電子マニュアルを仮生成することは、前記複数のステップのそれぞれの前記出力言語に変換された前記タイトルまたは前記説明文と、前記複数のサブ動画または静止画とに基づいて、前記電子マニュアルを仮生成することを含んでいてもよい。
【0024】
本発明の1つの局面において、本発明のプログラムは、電子マニュアルの作成を支援するためのコンピュータシステムにおいて実行されるプログラムであり、前記コンピュータシステムは、前記コンピュータシステムの動作を制御するプロセッサ部を備え、前記プログラムは、前記プロセッサ部によって実行されると、1つ以上の動画を受信することと、複数のステップに変換するための条件を示す情報を受信することと、前記条件に基づいて、前記1つ以上の動画に含まれる音声から、複数のステップを構成するための構造化テキストを生成することであって、前記構造化テキストは、前記複数のステップのそれぞれのタイトルまたは説明文を少なくとも含む、ことと、前記1つ以上の動画と、前記構造化テキストとに少なくとも基づいて、前記1つ以上の動画を複数のサブ動画または静止画に分割することと、前記構造化テキストと、前記複数のサブ動画または静止画とに基づいて、前記電子マニュアルを仮生成することとを前記プロセッサ部に少なくとも行わせる。
【0025】
本発明の1つの局面において、本発明のプログラムは、電子マニュアルの作成を支援するためのプログラムであり、前記プログラムは、ユーザ装置上で実行され、前記ユーザ装置は、前記ユーザ装置の動作を制御するプロセッサ部を備え、前記プログラムは、前記プロセッサ部によって実行されると、1つ以上の動画を特定することと、複数のステップに変換するための条件を示す情報を特定することと、前記条件に基づいて、前記1つ以上の動画に含まれる音声から、複数のステップを構成するための構造化テキストを生成することであって、前記構造化テキストは、前記複数のステップのそれぞれのタイトルまたは説明文を少なくとも含む、ことと、前記1つ以上の動画と、前記構造化テキストとに少なくとも基づいて、前記1つ以上の動画を複数のサブ動画または静止画に分割することと、前記構造化テキストと、前記複数のサブ動画または静止画とに基づいて、前記電子マニュアルを仮生成することとを前記プロセッサ部に少なくとも行わせる。
【発明の効果】
【0026】
本発明によれば、電子マニュアルの作成を支援するためのコンピュータシステムおよびプログラムを提供することにより、電子マニュアルの作成に必要な時間および労力を低減することが可能である。
【図面の簡単な説明】
【0027】
【
図1A】ユーザ装置に表示される画面100の一例を示す図
【
図1B】ユーザ装置に表示される画面110の一例を示す図
【
図1C】ユーザ装置に表示される画面120の一例を示す図
【
図1D】ユーザ装置に表示される画面130の一例を示す図
【
図2】電子マニュアルの作成を支援するためのシステム200の構成の一例を示す図
【
図3】コンピュータシステム210において実行される処理の一例を示す図
【
図4】コンピュータシステム210において実行される処理の他の一例を示す図
【発明を実施するための形態】
【0028】
以下、図面を参照しながら、本発明の実施の形態を説明する。
【0029】
1.ユーザ装置に表示される画面の遷移
図1Aは、ユーザ装置に表示される画面100の一例を示す。画面100は、作成したい電子マニュアルのベースとなる1つ以上の動画を特定するための画面である。なお、画面100は、本発明のプログラムがユーザ装置に予めインストールされていることによって、ユーザ装置に表示されてもよいし、本発明のプログラムが予めインストールされたコンピュータシステムとユーザ装置が通信することによって、ユーザ装置に表示されてもよい。
【0030】
図1Aに示される例では、画面100は、作成したい電子マニュアルのベースとなる1つ以上の動画を選択するための動画選択領域101と、作成したい電子マニュアルの入力言語(すなわち、作成したい電子マニュアルのベースとなる1つ以上の動画に含まれる音声の言語)を設定するための入力言語設定領域102と、作成したい電子マニュアルの出力言語(すなわち、作成したい電子マニュアルの複数のステップの各ステップのタイトルおよび説明文の言語)を設定するための出力言語設定領域103と、次の画面(例えば、
図1Bの画面110)に遷移するための遷移領域104とを含む。ユーザが動画選択領域101を選択すると、ユーザ装置のメモリ内に記憶されている少なくとも1つの動画の一覧が表示される。表示された少なくとも1つの動画のうち、1つ以上の動画がユーザによって選択されることによって、作成したい電子マニュアルのベースとなる1つ以上の動画を特定することが可能である。
図1Aに示される例では、入力言語設定領域102において、「日本語」が選択されており、出力言語設定領域103において、「日本語」が選択されている。
図1Aに示される例では、入力言語設定領域102および出力言語設定領域103にはプルダウン方式が採用されており、ユーザは、入力言語設定領域102を選択することによって、作成したい電子マニュアルの入力言語を変更することが可能であり、出力言語設定領域103を選択することによって、作成したい電子マニュアルの出力言語を変更することが可能である。入力言語設定領域102において入力言語を設定することにより、後の構造化テキストの生成の段階において、構造化テキストの精度を向上させることが可能である。
【0031】
動画選択領域101において、作成したい電子マニュアルのベースとなる1つ以上の動画を選択し、かつ、入力言語設定領域102において、作成したい電子マニュアルの入力言語を選択し、かつ、出力言語設定領域103において、作成したい電子マニュアルの出力言語を選択した後に、遷移領域104を選択することによって、画面100から次の画面に遷移することが可能である。なお、遷移領域104は、作成したい電子マニュアルのベースとなる1つ以上の動画の選択と、作成したい電子マニュアルの入力言語および出力言語の選択との両方が完了するまで、選択することができない状態であってもよい。
【0032】
なお、動画選択領域101において選択された1つ以上の動画は、音声を含むものであり得る。動画選択領域101において選択された1つ以上の動画に含まれる音声は、動画選択領域101において選択された1つ以上の動画の再生時間のうち、音声が発せられている時刻と関連付けられている。動画選択領域101において選択された1つ以上の動画が音声を含まない場合には、遷移領域104が選択された後に、動画選択領域101において選択された1つ以上の動画に音声が含まれていない旨の警告が、ユーザ装置に表示され得る。このとき、音声を入力することを要求するための画面が、ユーザ装置に表示され、ユーザによって音声が入力されると、画面100は、次の画面(例えば、
図1Bの画面110)に遷移する。
【0033】
また、動画選択領域101において選択された1つ以上の動画に含まれる音声の言語が自動的に検出されてもよい。例えば、入力言語設定領域102において選択された入力言語が、1つ以上の動画に含まれる音声の自動的に検出された言語と異なる場合、入力言語の確認をユーザに要求するための画面が、ユーザ装置を介してユーザに提示されてもよい。これにより、入力言語設定領域102において選択された入力言語が1つ以上の動画に含まれる音声の言語と異なるリスクを低減することが可能であるため、構造化テキストの精度が低減することを回避することが可能である。
【0034】
図1Bは、ユーザ装置に表示される画面110の一例を示す。画面110は、動画選択領域101において選択された1つ以上の動画に含まれる音声を複数のステップに変換するための条件を入力するための画面である。画面110は、
図1Aに示される画面100内の遷移領域104がユーザによって選択された際に、
図1Aに示される画面100から遷移した画面の一例である。
【0035】
図1Bに示される例では、画面110は、電子マニュアル内のステップの数の制限に関連する「ステップの粒度」を規定するための領域111と、電子マニュアル内の各ステップのタイトルの文字数の制限を規定するための領域112と、電子マニュアル内の各ステップの説明文の文字数の制限を規定するための領域113と、電子マニュアル内の各ステップの説明文の言い回しを規定するための領域114と、電子マニュアルの想定される閲覧者を規定するための領域115と、電子マニュアル内の字幕の有無を規定するための領域116と、電子マニュアルの仮生成を実行するための仮生成領域117とを含む。
図1Bに示される例では、領域111には、プルダウン方式が採用されており、領域111を選択することによって「ステップの粒度」を変更することが可能である。領域112、領域113、領域114、領域115、および領域116の各々についても同様である。
【0036】
図1Bに示される例では、領域111において、「ステップの粒度」として「標準」が選択されており、領域112において、電子マニュアル内の各ステップのタイトルの文字数の制限として「30文字まで」が選択されており、領域113において、電子マニュアル内の各ステップの説明文の文字数の制限として「100文字程度」が選択されており、領域114において、電子マニュアル内の各ステップの説明文の言い回しとして「ていねい」が選択されており、領域115において、電子マニュアルの想定される閲覧者として「初心者」が選択されており、領域116において、電子マニュアル内の字幕の有無として「あり」が選択されている。
【0037】
領域111において、「ステップの粒度」は、例えば、密、標準、疎などの中から選択され得るが、本発明はこれに限定されない。すなわち、「ステップの粒度」は、2つ以上の選択肢の中から選択されてもよい。また、領域112において、電子マニュアル内の各ステップのタイトルの文字数は、例えば、10文字まで、15文字まで、20文字まで、30文字までなどの中から選択されてもよいし、10文字程度、15文字程度、20文字程度、30文字程度などの中から選択されてもよいが、本発明はこれに限定されない。また、領域113において、電子マニュアル内の各ステップの説明文の文字数は、例えば、25文字まで、50文字まで、75文字まで、100文字まで、125文字まで、150文字までなどの中から選択されてもよいし、25文字程度、50文字程度、75文字程度、100文字程度、125文字程度、150文字程度などの中から選択されてもよいが、本発明はこれに限定されない。また、領域114において、電子マニュアル内の各ステップの説明文の言い回しは、例えば、ていねい、フランクなどの中から選択され得るが、本発明はこれに限定されない。また、領域115において、電子マニュアルの想定される閲覧者は、例えば、初心者、中級者、上級者などの中から選択され得るが、本発明はこれに限定されない。また、領域116において、電子マニュアル内の字幕の有無は、ありまたは無しの中から選択される。
【0038】
領域111において、「ステップの粒度」を選択し、かつ、領域112において、電子マニュアル内の各ステップのタイトルの文字数を選択し、かつ、領域113において、電子マニュアル内の各ステップの説明文の文字数を選択し、かつ、領域114において、電子マニュアル内の各ステップの説明文の言い回しを選択し、かつ、領域115において、電子マニュアルの想定される閲覧者を選択し、かつ、領域116において、電子マニュアル内の字幕の有無を選択した後に、仮生成領域117を選択することによって、領域111~領域116の各々において選択された「1つ以上の動画に含まれる音声を複数のステップに変換するための条件」に基づいて電子マニュアルを仮生成することが可能であり、画面110から次の画面に遷移することが可能である。なお、仮生成領域117は、領域111~領域116の各々における選択が完了するまで、選択することができない状態であってもよい。
【0039】
なお、
図1Bに示される実施形態では、領域111において「ステップの粒度」を選択する例が説明されたが、本発明はこれに限定されない。例えば、領域111において、電子マニュアル内のステップの数(例えば、2、3、4、5、6、7、8、9、および10のうちの1つ)を選択することが可能であってもよい。
【0040】
図1Cは、ユーザ装置に表示される画面120の一例を示す。画面120は、仮生成された電子マニュアルを閲覧するためのプレビュー画面である。画面120は、
図1Bに示される画面110内の仮生成領域117がユーザによって選択された際に、
図1Bに示される画面110から遷移した画面の一例である。
【0041】
図1Cに示される例では、画面120は、仮生成された電子マニュアルの概要を説明するための概要領域121と、複数のステップの各々を表示するためのステップ領域122と、電子マニュアルの仮生成をやり直すためのやり直し領域123と、仮生成された電子マニュアルの編集を実行するための編集開始領域124と、仮生成された電子マニュアルの本生成を実行するための本生成領域125とを含む。やり直し領域123、編集開始領域124、本生成領域125は、選択可能なように構成されている。
【0042】
概要領域121に表示される仮生成された電子マニュアルの概要は、電子マニュアルの仮生成の前に入力されたものであってもよいし、電子マニュアルの仮生成時に自動的に生成されるものであってもよい。
図1Cに示される例では、画面120には、複数のステップのうちの第1のステップと第2のステップと第3のステップの一部とが表示されているが、ユーザは、所定の操作(例えば、縦スクロール)によって、複数のステップのすべてを確認することが可能である。ユーザがやり直し領域123を選択することによって、画面120は
図1Bの画面110に遷移し、ユーザは、1つ以上の動画に含まれる音声を複数のステップに変換するための条件の入力をやり直すことが可能である。また、ユーザが編集開始領域124を選択することによって、画面120は
図1Dの画面130に遷移し、ユーザは、仮生成された電子マニュアルの編集作業を行うことが可能である。また、ユーザが本生成領域125を選択することによって、仮生成された電子マニュアルの本生成が実行される。
【0043】
図1Cに示される例では、各ステップ領域122は、
図1Aの動画選択領域101において選択された1つ以上の動画から分割されたサブ動画または静止画を表示するための画像領域126と、ステップのタイトルを表示するためのタイトル領域127と、ステップの説明文を表示するための説明文領域128とを含む。画像領域126には、第1のステップの画像領域のように動画が表示されてもよいし、第2のステップの画像領域のように静止画が表示されてもよい。画像領域126に動画が表示される場合には、その画像領域126は、選択可能なように構成されており、画像領域126を選択するためのユーザ操作(例えば、タップ、クリック、ホバリング)に応じて動画を再生することが可能である。
【0044】
画面120に表示されるステップの数、各ステップのタイトルの文字数、各ステップの説明文の文字数、および各ステップの説明文の言い回しは、
図1Bの画面110の領域111~領域114の各々において選択された「1つ以上の動画に含まれる音声を複数のステップに変換するための条件」に従っている。また、各ステップの画像領域126に表示される動画内の字幕の有無は、
図1Bの画面110の領域116において選択された「1つ以上の動画に含まれる音声を複数のステップに変換するための条件」に従っている。1つ以上の動画に含まれる音声は、口語調であり得る一方で、各ステップのタイトルおよび説明文は、文語調であり得る。
【0045】
図1Dは、ユーザ装置に表示される画面130の一例を示す。画面130は、仮生成された電子マニュアルを編集するための画面である。画面130は、
図1Cに示される画面120内の編集開始領域124がユーザによって選択された際に、
図1Cに示される画面120から遷移した画面の一例である。
【0046】
図1Dに示される例では、画面130は、動画を表示するための動画領域131と、府複数のステップのシーケンスを表示するためのステップシーケンス領域132と、1つ以上の動画を編集するためのインジケータを表示するためのインジケータ領域133と、1つ以上の動画を分割するための分割領域134と、仮生成された電子マニュアルの編集を終了するための編集終了領域135とを含む。分割領域134および編集終了領域135は、選択可能なように構成されている。
【0047】
インジケータ領域133は、
図1Aの動画選択領域101において選択された1つ以上の動画のタイムラインを水平方向に表したものである。インジケータ領域133の左端部は、例えば、
図1Aの動画選択領域101において選択された1つ以上の動画の再生開始時間(すなわち、0分0秒)であり得、インジケータ領域133の右端部は、例えば、
図1Aの動画選択領域101において選択された1つ以上の動画の再生終了時間(例えば、M分S秒)であり得る。ここで、Mは0~59の整数であり、Sは1~59の整数である。
【0048】
図1Dに示される例では、インジケータ領域133は、現在の再生位置を示す現在位置インジケータ136と、電子マニュアルの仮生成を実行したときに自動的に分割処理された動画の分割位置を示す分割位置インジケータ137と、仮生成された電子マニュアルのステップ間における分割候補の時間帯を示す分割候補時間帯インジケータ138と、電子マニュアルの仮生成を実行したときに所定の理由(例えば、所定の時間の間、画像に変化が表れない)で自動的に削除された動画の時間帯を示す削除時間帯インジケータ139とを含む。
【0049】
現在位置インジケータ136が位置する場所に対応する再生時間における動画が、動画領域131に表示される。現在位置インジケータ136は、インジケータ領域133上を水平方向にスライドすることが可能である。ユーザは、分割領域134を選択すると、インジケータ領域133の位置に分割位置インジケータ137を設置することが可能であり、インジケータ領域133の位置で1つ以上の動画を分割することが可能である。
【0050】
表示されている分割位置インジケータ137は、例えば、分割候補時間帯インジケータ138内において水平方向にスライドさせることが可能であり得、これにより、仮生成された電子マニュアルのステップ間における分割候補の時間帯において分割位置を調節することが可能である。なお、表示されている分割位置インジケータ137は、分割候補時間帯インジケータ138を超えて水平方向にスライドさせることが可能であってもよい。
【0051】
図1Dに示される例では、ステップシーケンス領域132には、隣接するステップを結合するための結合インジケータ140を含む。結合インジケータ140の数は、インジケータ領域133内に表示されている分割位置インジケータ137の数に対応している。結合インジケータ140は、選択可能なように構成されている。ユーザは、結合インジケータ140を選択することによって、選択された結合インジケータ140は消滅し、隣接する2つのステップを結合し、1つのステップにすることが可能である。このとき、消滅した結合インジケータ140に対応する分割位置インジケータ137も消滅する。
【0052】
ユーザは、削除時間帯インジケータ139に対して所定の操作を実行することによって、自動的に削除された動画を復活させることが可能である。
【0053】
なお、
図1Aの動画選択領域101において複数の動画が選択された場合には、インジケータ領域133には、その複数の動画が連続して表示され得る。また、この場合、画面130には、複数の動画の順序を変更するための順序変更領域(図示せず)が表示されていており、インジケータ領域133において、ユーザによるその順序変更領域の選択に応じて複数の動画の順序変更を達成することが可能であってもよい。
【0054】
このように、ユーザは、電子マニュアルのベースとなる1つ以上の動画を選択し、「1つ以上の動画に含まれる音声を複数のステップに変換するための条件」を入力することによって、電子マニュアル(例えば、ステップ構造型の電子マニュアル)を簡単に仮生成および本生成することが可能である。また、ユーザは、インジケータ領域133、現在位置インジケータ136、分割位置インジケータ137、分割候補時間帯インジケータ138、削除時間帯インジケータ139、および結合インジケータ140などをガイドとして、仮生成された電子マニュアルを簡単に編集することが可能である。
【0055】
2.電子マニュアルの作成を支援するためのシステムの構成
図2は、電子マニュアルの作成を支援するためのシステム200の構成の一例を示す。
【0056】
図2に示される実施形態では、システム200は、電子マニュアルの作成を支援するためのコンピュータシステム210と、ユーザ装置220
1~220
Nとを備える。コンピュータシステム210は、インターネット230を介して、ユーザ装置220
1~220
Nのそれぞれと通信することが可能なように構成されている。ユーザ装置220
1~220
Nは、電子マニュアルを作成することを希望するユーザによって操作され得る。ここで、Nは、1以上の整数である。
【0057】
コンピュータシステム210は、電子マニュアルの作成を支援するためのプログラムを提供・管理する管理会社のための処理を実行する情報処理システムである。
図2に示される実施形態では、コンピュータシステム210は、インターフェース部211と、1つ以上のCPU(Central Processing Unit)を含むプロセッサ部212と、メモリ部213とを備えている。コンピュータシステム210のハードウェア構成は、その機能を実現できる限りにおいて特に限定されず、単一のマシンで構成されていてもよく、複数台のマシンを組み合わせて構成されたものであってもよい。
【0058】
インターフェース部211は、ユーザ装置2201~220Nのそれぞれとの通信を制御する。
【0059】
メモリ部213には、処理を実行するために必要とされるプログラムやそのプログラムを実行するために必要とされるデータ等が格納されている。ここで、プログラムをどのようにしてメモリ部213に格納するかは問わない。例えば、プログラムは、メモリ部213にプリインストールされていてもよい。あるいは、プログラムは、インターネット230などのネットワークを経由してダウンロードされることによってメモリ部213にインストールされるようにしてもよいし、光ディスクやUSBなどの記憶媒体を介してメモリ部213にインストールされるようにしてもよい。
【0060】
プロセッサ部212は、コンピュータシステム210全体の動作を制御する。プロセッサ部212は、メモリ部213に格納されているプログラムを読み出し、そのプログラムを実行する。これにより、コンピュータシステム210は、所望のステップを実行する装置として機能することが可能であり、コンピュータシステム210のプロセッサ部212は、所望の機能を達成する手段として動作することが可能である。
【0061】
図2に示される実施形態では、コンピュータシステム210は、データベース部240に接続されている。データベース部240には、例えば、仮生成を経て本生成された電子マニュアルが格納され得る。
【0062】
ユーザ装置220
1は、インターネット230を介して、コンピュータシステム210と通信することが可能なように構成されている。
図2に示される実施形態では、ユーザ装置220
1は、インターフェース部221と、プロセッサ部222と、メモリ部223と、表示部224と、入力(例えば、音、選択(例えば、タップ、クリック)による入力など)を受信するための入力部225とを備えている。ユーザ装置220
1は、例えば、出力(例えば、音など)を出力するための出力部(図示せず)などをさらに備えていてもよい。ユーザ装置220
1は、携帯電話、スマートフォン、タブレット端末等の携帯無線端末であってもよいし、ラップトップPC、ノートPC等のパーソナルコンピュータであってもよい。ユーザ装置220
1のインターフェース部221、プロセッサ部222、およびメモリ部223の構成は、コンピュータシステム210のインターフェース部211、プロセッサ部212、およびメモリ部213と同様であるため、ここではその詳細な説明を省略する。メモリ部223には、電子マニュアルのベースとなり得る1つ以上の動画が格納されている。ユーザ装置220
2~220
Nについても同様である。
【0063】
なお、
図2に示される実施形態では、ユーザ装置220
1~220
Nのそれぞれがインターネット230を介してコンピュータシステム210と通信可能であると説明したが、本発明はこれに限定されない。インターネット230の代わりに任意のタイプのネットワークを用いることも可能である。
【0064】
また、
図2に示される実施形態では、データベース部240は、コンピュータシステム210の外部に設けられているが、本発明はこれに限定されない。データベース部240をコンピュータシステム210の内部に設けることも可能である。データベース部240の構成は、特定のハードウェア構成には限定されない。例えば、データベース部240は、単一のハードウェア部品で構成されてもよいし、複数のハードウェア部品で構成されてもよい。例えば、データベース部240は、コンピュータシステム210の単一の外付けハードディスク装置として構成されてもよいし、ネットワークを介して接続されるクラウド上のストレージとして構成されてもよい。
【0065】
3.コンピュータシステムにおいて実行される処理
図3は、コンピュータシステム210において実行される処理の一例を示す。
図3に示される各ステップは、例えば、コンピュータシステム210のプロセッサ部212によって実行される。以下、
図3に示される各ステップを説明する。
【0066】
ステップS301:1つ以上の動画が特定される。コンピュータシステム210は、1つ以上の動画を、例えば、ユーザ装置220
1から受信し、これにより、1つ以上の動画を特定することが可能である。特定された1つ以上の動画は、例えば、ユーザ装置220
1を操作するユーザが電子マニュアルのベースとすることを希望する動画である。この処理は、例えば、
図1Aの動画選択領域101に対する操作に対応し得る。
【0067】
このとき、コンピュータシステム210は、入力言語(すなわち、1つ以上の動画に含まれる音声の言語)および出力言語(すなわち、電子マニュアルの仮生成および本生成における電子マニュアルの言語)を設定するための入力を受信してもよい。この処理は、例えば、
図1Aの入力言語設定領域102および出力言語設定領域103に対する操作に対応し得る。コンピュータシステム210が、入力言語を設定するための入力を受信することにより、ステップS308における構造化テキストの精度を向上させることが可能である。また、コンピュータシステム210が、出力言語を設定するための入力を受信することにより、入力言語と同じ言語でも入力言語と異なる言語でも電子マニュアルを作成することが可能である。
【0068】
ステップS302:ステップS301において受信された1つ以上の動画に音声が含まれているか否かが判定される。1つ以上の動画に含まれる音声は、電子マニュアルの手順を示す音声であり得る。判定結果が「Yes」の場合には、処理はステップS307に進み、判定結果が「No」の場合には、処理はステップS303に進む。
【0069】
ステップS303:ステップS301において受信された1つ以上の動画に音声が含まれていないことを警告するための処理が実行される。この処理は、例えば、コンピュータシステム210が、1つ以上の動画に音声が含まれていない旨を示す警告をユーザ装置2201に送信してその警告をユーザ装置2201上で提示することによって、達成されてもよいし、コンピュータシステム210が、1つ以上の動画に音声が含まれていない旨を示す警告音の信号をユーザ装置2201に送信してその警告音をユーザ装置2201上で発することによって、達成されてもよい。
【0070】
ステップS304:音声を入力する旨を示すユーザ入力を受信したか否かが判定される。音声を入力する旨を示すユーザ入力は、例えば、ユーザ装置2201から受信され得る。判定結果が「Yes」の場合には、処理はステップS306に進み、判定結果が「No」の場合には、処理はステップS305に進む。
【0071】
ステップS305:電子マニュアルを作成できない旨を提示するための処理が実行される。この処理は、例えば、コンピュータシステム210が、電子マニュアルを作成できない旨を示す情報をユーザ装置2201に送信してその情報をユーザ装置2201上で提示することによって、達成されてもよい。
【0072】
ステップS306:音声の入力を受信したか否かが判定される。音声の入力は、例えば、ユーザ装置2201から受信され得る。音声の入力は、例えば、事前に録音した音声が入力されることによって達成されてもよいし、1つ以上の動画をユーザ装置2201上で再生することと並行して音声がレコーディングされることによって達成されてもよい。判定結果が「Yes」の場合には、処理はステップS307に進み、判定結果が「No」の場合には、処理はステップS306に戻る。
【0073】
ステップS307:1つ以上の動画に含まれる音声を複数のステップに変換するための条件が特定される。複数のステップに変換するための条件は、少なくとも、ステップの数の制限を含み、これは、
図1Bの領域111に対する操作に対応し得る。また、複数のステップに変換するための条件は、タイトルの文字数の制限(例えば、電子マニュアル内の各ステップのタイトルの文字数の制限)および/または説明文の文字数の制限(例えば、電子マニュアル内の各ステップの説明文の文字数の制限)をさらに含み得、これは、
図1Bの領域112および領域113に対する操作に対応し得る。また、複数のステップに変換するための条件は、説明文の言い回しの制限(例えば、電子マニュアル内の各ステップの説明文の言い回しの制限)および/または電子マニュアルの想定される閲覧者をさらに含み得、これは、
図1Bの領域114および領域115に対する操作に対応し得る。
【0074】
ステップS308:電子マニュアルの複数のステップの構成するための構造化テキストが生成される。構造化テキストは、1つ以上の動画に含まれる音声を複数のステップに変換するための条件に基づいて、ステップS301において特定された1つ以上の動画に含まれる音声から、生成される。構造化テキストは、複数のステップのそれぞれのタイトルまたは説明文を少なくとも含む。構造化テキストに含まれる複数のステップのそれぞれのタイトルは、例えば、
図1Cの画面120内のタイトル領域127における記載に対応し得る。構造化テキストに含まれる複数のステップのそれぞれの説明文は、例えば、
図1Cの画面120内の説明文領域128における記載に対応し得る。構造化テキストは、例えば、人工知能(例えば、ChatGPT)を用いて生成されてもよい。コンピュータシステム210は、構造化テキスト(特に、構造化テキストに含まれる複数のステップのそれぞれのタイトルまたは説明文)を入力言語から出力言語に変換することが可能なように構成されている。これにより、1つ以上の動画に含まれる音声の入力言語が電子マニュアルの出力言語と異なる場合においても、コンピュータシステム210は、設定された出力言語で構造化テキストを生成することが可能である。
【0075】
なお、コンピュータシステム210は、構造化テキストを、1つ以上の動画に含まれる音声を複数のステップに変換するための条件に基づいて、1つ以上の動画に含まれる音声から直接生成してもよい。あるいは、コンピュータシステム210は、1つ以上の動画に含まれる音声を文字起こしすることによって、1つ以上の動画に含まれる音声をテキストに変換し、その変換されたテキストと、1つ以上の動画に含まれる音声を複数のステップに変換するための条件とに基づいて、構造化テキストを生成してもよい。
【0076】
ステップS309:1つ以上の動画が、複数のサブ動画または静止画に分割される。この処理は、ステップS301において特定された1つ以上の動画と、ステップS308において生成された構造化テキストとに少なくとも基づいて、実行される。この処理は、コンピュータシステム210が、例えば、構造化テキストに基づいて、動画内のシーンの切り替わりのタイミングを特定することと、シーンの切り替わりのタイミングに基づいて1つ以上の動画を分割することによって複数のサブ動画または静止画を生成することとを行うことによって、達成され得る。シーンの切り替わりのタイミングの特定は、例えば、構造化テキストに基づいて、構造化テキストの内容の切れ目を特定することと、構造化テキストの切れ目に対応する音声内のタイミングをシーンの切り替わりのタイミングとして特定することによって、達成されてもよい。構造化テキストの内容の切れ目は、例えば、複数のステップのステップ間に存在し得る。
【0077】
コンピュータシステム210は、例えば、1つ以上の動画の画像変化の大きいタイミングを特定することと、音声の切れ目のタイミングを特定することと、画像変化の大きいタイミングとシーンの切り替わりのタイミングと音声の切れ目のタイミングとが一致するタイミングで、1つ以上の動画を分割することとを行うことによって、1つ以上の動画から複数のサブ動画または静止画を生成してもよい。1つ以上の動画の画像変化の大きいタイミングは、例えば、動画の表示面積に対して画像が変化した面積が所定の閾値を超えるタイミングであり得る。音声の切れ目のタイミングは、例えば、1つ以上の動画に含まれる音声が無音である時間帯が所定の時間長さを超えて存在するタイミングであり得る。
【0078】
コンピュータシステム210は、例えば、1つ以上の動画と、構造化テキストとに少なくとも基づいて、1つ以上の動画を複数の候補サブ動画に分割することと、複数の候補サブ動画のうち、所定の時間の間に所定の音量を上回る音声が存在する一方で画像に変化が表れない候補サブ動画を特定することと、その候補サブ動画に基づいてその候補サブ動画を静止画に変換することとを行うことによって、1つ以上の動画を複数のサブ動画または静止画に分割することを達成してよい。候補サブ動画を静止画に変換することは、例えば、候補サブ動画の一部を静止画としてキャプチャすることによって、達成され得る。
【0079】
ステップS310:電子マニュアルが仮生成される。この処理は、ステップS308において生成された構造化テキストと、ステップS309において生成された複数のサブ動画または静止画とに基づいて、実行される。この処理は、電子マニュアルの仮生成を要求するユーザ入力をユーザ装置220
1から受信したことに応答して、実行され得る。この処理は、例えば、
図1Bの仮生成領域117に対する操作に対応し得る。仮生成された電子マニュアルは、1つ以上の動画に含まれていた音声を含まなくてもよい。なお、仮生成された電子マニュアルの言語は、
図1Aの入力言語設定領域102および出力言語設定領域103における言語設定に応じて、入力言語から出力言語に変更され得る。1つ以上の動画に含まれる音声の入力言語が電子マニュアルの出力言語と異なる場合には、仮生成された電子マニュアルの言語は、例えば機械翻訳などによって、変更され得る。また、構造化テキスト(特に、構造化テキストに含まれる複数のステップのそれぞれのタイトルまたは説明文)が出力言語に変換されている場合には、コンピュータシステム210は、複数のステップのそれぞれの出力言語に変換されたタイトルまたは説明文と、ステップS309において生成された複数のサブ動画または静止画とに基づいて、電子マニュアルを仮生成することが可能である。
【0080】
ステップS311:電子マニュアルの本生成を実行するためのユーザ入力を受信したか否かが判定される。電子マニュアルの本生成を実行するためのユーザ入力は、例えば、ユーザ装置2201から受信され得る。判定結果が「Yes」の場合には、処理はステップS312に進み、判定結果が「No」の場合には、処理はステップS311に戻る。
【0081】
ステップS312:電子マニュアルの本生成が実行される。これにより、電子マニュアルが完成する。なお、本生成される電子マニュアルは、
図1Aの出力言語設定領域103における言語設定に応じて、出力され得る。電子マニュアルの本生成を実行するとき、コンピュータシステム210は、ステップS308において生成された構造化テキストを読み上げるための音声データを生成してもよい。これにより、完成した電子マニュアルの自動読み上げを実現することが可能である。また、ステップS308において生成された構造化テキストを読み上げるための音声データを多言語で生成することによって、1つ以上の動画に含まれる音声の言語にかかわらず、多言語で電子マニュアルを提供することを実現することが可能である。
【0082】
図4は、コンピュータシステム210において実行される処理の他の一例を示す。
図4に示される各ステップは、例えば、コンピュータシステム210のプロセッサ部212によって実行される。
図4に示される各ステップは、
図3のステップS311の後かつステップS312の前の任意のタイミングにおいて、仮生成された電子マニュアルの編集を行うための処理の一例を示す。以下、
図4に示される各ステップを説明する。
【0083】
ステップS401:仮生成された電子マニュアルを編集することを希望することを示すユーザ入力が受信される。仮生成された電子マニュアルを編集することを希望することを示すユーザ入力は、例えば、ユーザ装置220
1から受信され得る。この処理は、例えば、
図1Cの編集開始領域124に対する操作に対応し得る。
【0084】
ステップS402:仮生成された電子マニュアルの複数のステップのステップ間における分割候補の時間帯が特定される。分割候補の時間帯内において、ユーザは、仮生成された電子マニュアルの複数のステップのステップ間の分割位置を調整することが可能であり得る。分割候補の時間帯は、例えば、ステップS308において生成された構造化テキストと、1つ以上の動画に含まれる音声とに基づいて、特定される。具体的には、コンピュータシステム210は、例えば、ステップS308において生成された構造化テキストに基づいて、複数のステップの各ステップに対応する音声の再生時間を特定し、各ステップに対応する音声の再生時間に基づいて、分割候補の時間帯を特定してもよい。例えば、分割候補の時間帯は、あるステップに対応する音声の再生時間の終了時点と次のステップに対応する音声の再生時間の開始時点との間の時間帯全体であってもよいし、あるステップに対応する音声の再生時間の終了時点と次のステップに対応する音声の再生時間の開始時点との間のある時点から所定の範囲内の時間帯であってもよい。
【0085】
ステップS403:仮生成された電子マニュアルの複数のステップのステップ間における分割候補の時間帯を提示するための処理が実行される。この処理は、例えば、コンピュータシステム210が、仮生成された電子マニュアルの複数のステップのステップ間における分割候補の時間帯を示す情報をユーザ装置220
1に送信してその情報をユーザ装置220
1上で提示することによって、達成されてもよい。この処理は、例えば、
図1Dの画像130をユーザ装置220
1に表示することに対応し得る。これにより、ユーザは、仮生成された電子マニュアルの編集作業を開始することが可能である。
【0086】
ステップS404:仮生成された電子マニュアルを編集するためのユーザ入力が受信されたか否かが判定される。仮生成された電子マニュアルを編集するためのユーザ入力は、例えば、ユーザ装置220
1から受信され得る。この処理は、例えば、
図1Dの画像130上での操作に対応し得る。判定結果が「Yes」の場合には、処理はステップS405に進み、判定結果が「No」の場合には、処理はステップS406に進む。
【0087】
仮生成された電子マニュアルを編集するためのユーザ入力は、例えば、分割候補の時間帯内における仮生成された電子マニュアルの複数のステップのステップ間の分割位置を調整するためのユーザ入力を含む。これは、
図1Dの分割位置インジケータ137に対する操作に対応し得る。また、仮生成された電子マニュアルを編集するためのユーザ入力は、例えば、1つ以上の動画を分割するためのユーザ入力をさらに含み得る。これは、
図1Dの分割領域134に対する操作に対応し得る。また、仮生成された電子マニュアルを編集するためのユーザ入力は、自動的に削除された動画を復活させるためのユーザ入力をさらに含み得る。これは、
図1Dの削除時間帯インジケータ139に対する操作に対応し得る。また、仮生成された電子マニュアルを編集するためのユーザ入力は、隣接するステップを結合するためのユーザ入力をさらに含み得る。これは、
図1Dの結合インジケータ140に対する操作に対応し得る。
【0088】
ステップS405:仮生成された電子マニュアルを編集するためのユーザ入力に応じて、仮生成された電子マニュアルの編集が実行される。例えば、仮生成された電子マニュアルを編集するためのユーザ入力が、分割候補の時間帯内における仮生成された電子マニュアルの複数のステップのステップ間の分割位置を調整するためのユーザ入力である場合には、分割候補の時間帯内における仮生成された電子マニュアルの複数のステップのステップ間の分割位置の調整が実行される。
【0089】
ステップS406:仮生成された電子マニュアルの編集を終了するためのユーザ入力を受信したか否かが判定される。仮生成された電子マニュアルの編集を終了するためのユーザ入力は、例えば、ユーザ装置220
1から受信され得る。この処理は、例えば、
図1Dの編集終了領域135に対する操作に対応し得る。
【実施例】
【0090】
ChatGPTを用いて構造化テキストを生成する場合の実施例を以下に説明する。
【0091】
例えば、1つ以上の動画に含まれる音声が「まず設定アプリを開きます。設定アプリを開いた後、左側のメニューの下の方にある一般管理を開きます。で、右側のメニューにあるテキストの読み上げをタップします。その次に、優先エンジンの隣にある歯車アイコンをタップします。で、すでにインストールされている言語が右側下の方に並んでいて、その中に言語がない場合には音声データをインストールをタップします。で、この中でインストールされていない言語をタップすると、こちらのようにインストールを促す画面が出ますので、インストールボタンを押します。でインストールが完了すると完了を知らせるこのような画面が出ます。以上で、音声データのインストール方法は終わります。」であるとする。「ステップの数が50まで」、「タイトルの文字数が50文字まで」、および「説明文の文字数が200文字まで」という条件の下、ChatGPTを用いると、この音声から、以下の出力文が構造化テキストとして出力される。
【化1】
【0092】
上記の出力文において、「ステップ〇:・・・」は、各ステップのタイトルを表し、「説明」は、各ステップの説明文を表す。また、「ベーステキスト」は、各ステップに対応する音声をテキスト化したものを意味する。上述された音声の例では、構造化テキストは、7つのステップを含む。
【0093】
構造化テキストを生成するとき、複数のステップの各ステップと、各ステップに対応する音声の再生時間との間の対応関係は、維持および/または記録されている。上述された音声の例において、ステップ1のベーステキスト「まず設定アプリを開きます。」は、1つ以上の動画に含まれる音声の再生時間0分0秒~0分18秒に対応し、ステップ2のベーステキスト「左側のメニューの下の方にある一般管理を開きます。」は、音声の再生時間0分19秒~0分23秒に対応し、ステップ3のベーステキスト「テキストの読み上げをタップします。」は、音声の再生時間0分24秒~0分30秒に対応し、ステップ4のベーステキスト「優先エンジンの隣にある歯車アイコンをタップします。」は、音声の再生時間0分32秒~0分38秒に対応し、ステップ5のベーステキスト「すでにインストールされている言語が右側下の方に並んでいて、その中に言語がない場合には音声データをインストールをタップします。で、この中でインストールされていない言語をタップします」は、音声の再生時間0分40秒~0分48秒に対応し、ステップ6のベーステキスト「インストールされていない言語をタップすると、こちらのようにインストールを促す画面が出ますので、インストールボタンを押します。」は、音声の再生時間0分50秒~1分02秒に対応し、ステップ7のベーステキスト「インストールが完了すると完了を知らせるこのような画面が出ます。」は、音声の再生時間1分04秒~1分15秒に対応するとする。この場合、例えば、構造化テキストのステップ1が音声の再生時間「0分0秒~0分18秒」に対応し、かつ、構造化テキストのステップ2が音声の再生時間「0分19秒~0分23秒」に対応するため、コンピュータシステム210は、ステップ1とステップ2との間の分割候補の時間帯を、「0分0秒~0分18秒」と「0分19秒~0分23秒」との間の「0分18秒~0分19秒」と特定することが可能であり、電子マニュアルの仮生成を実行するときには、ステップ1とステップ2との間における動画の分割位置を分割候補の時間帯「0分18秒~0分19秒」の中で決定することが可能である。ステップ2とステップ3との間の分割候補の時間帯、ステップ3とステップ4との間の分割候補の時間帯、ステップ4とステップ5との間の分割候補の時間帯、ステップ5とステップ6との間の分割候補の時間帯、およびステップ6とステップ7との間の分割候補の時間帯についても同様である。
【0094】
コンピュータシステム210は、ステップ1とステップ2との間における動画の分割位置を分割候補の時間帯「0分18秒~0分19秒」の中で決定するとき、例えば、その分割位置を分割候補の時間帯「0分18秒~0分19秒」の中央に自動的に決定してもよいし、その分割位置を分割候補の時間帯「0分18秒~0分19秒」の中からランダムで決定してもよい。他の分割候補の時間帯についても同様である。
【0095】
なお、
図3~
図4に示される実施形態では、コンピュータシステム210が
図3~
図4に示される各ステップの処理を実行する例が説明されたが、本発明はこれに限定されない。例えば、
図3~
図4に示される各ステップの処理は、コンピュータシステム210に替えて、例えば、ユーザ装置220
1(特に、ユーザ装置220
1のプロセッサ部222)によって実行されてもよい。この場合、ユーザ装置220
1は、
図3のステップS301において、ユーザ装置220
1のメモリ部223内に記憶されている複数の動画のうちの1つ以上の動画が
図1Aの動画選択領域101において選択されることによって、電子マニュアルのベースとなるべき1つ以上の動画を特定することが可能であり、
図3のステップS307において、
図1Bの領域111~領域116の各々において「1つ以上の動画に含まれる音声を複数のステップに変換するための条件」が選択されることによって、複数のステップに変換するための条件を特定することが可能である。また、ユーザ装置220
1は、
図3のステップS304およびステップS311と、
図4のステップS406とにおいて、ユーザ装置220
1の入力部225を介してユーザ入力を受信する。
【0096】
なお、
図3~
図4に示される実施形態では、メモリ部に格納されたプログラムをプロセッサ部が実行することによって、
図3~
図4に示される各ステップの処理が実現される例を説明したが、本発明はこれに限定されない。
図3~
図4に示される各ステップのうちの少なくとも一部の処理が制御回路などのハードウェア構成によって実現されてもよい。
【0097】
以上のように、本発明の好ましい実施形態を用いて本発明を例示してきたが、本発明は、この実施形態に限定して解釈されるべきものではない。本発明は、特許請求の範囲によってのみその範囲が解釈されるべきであることが理解される。当業者は、本発明の具体的な好ましい実施形態の記載から、本発明の記載および技術常識に基づいて等価な範囲を実施することができることが理解される。
【産業上の利用可能性】
【0098】
本発明は、電子マニュアルの作成を支援するためのコンピュータシステムおよびプログラム等を提供することにより、電子マニュアルの作成に必要な時間および労力を低減するものとして有用である。
【符号の説明】
【0099】
200 システム
210 コンピュータシステム
2201~220N ユーザ装置
230 インターネット
240 データベース部
【要約】
【課題】電子マニュアルの作成を支援するためのコンピュータシステムを提供すること。
【解決手段】コンピュータシステムは、1つ以上の動画を受信する手段と、複数のステップに変換するための条件を示す情報を受信する手段と、条件に基づいて、1つ以上の動画に含まれる音声から、複数のステップを構成するための構造化テキストを生成する手段であって、構造化テキストは、複数のステップのそれぞれのタイトルまたは説明文を少なくとも含む、手段と、1つ以上の動画と、構造化テキストとに少なくとも基づいて、1つ以上の動画を複数のサブ動画または静止画に分割する手段と、構造化テキストと、複数のサブ動画または静止画とに基づいて、電子マニュアルを仮生成する手段とを備える。
【選択図】
図1C