特開2022-39206 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社ａｌｕｍｉｓｔｕｄｉｏの特許一覧

特開2022-39206プログラム及び情報処理方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022039206

(43)【公開日】2022-03-10

(54)【発明の名称】プログラム及び情報処理方法

(51)【国際特許分類】

G10L 15/28 20130101AFI20220303BHJP

G06F 3/16 20060101ALI20220303BHJP

G10L 15/00 20130101ALI20220303BHJP

【ＦＩ】

G10L15/28 230J

G06F3/16 500

G10L15/00 200B

【審査請求】未請求

【請求項の数】9

【出願形態】ＯＬ

(21)【出願番号】P 2020144119

(22)【出願日】2020-08-28

(71)【出願人】

【識別番号】520330261

【氏名又は名称】株式会社ａｌｕｍｉｓｔｕｄｉｏ

(74)【代理人】

【識別番号】100090033

【弁理士】

【氏名又は名称】荒船博司

(74)【代理人】

【識別番号】100093045

【弁理士】

【氏名又は名称】荒船良男

(72)【発明者】

【氏名】片山大地

(72)【発明者】

【氏名】飯島聡美

(57)【要約】

【課題】オンラインから入手した音声と音声入力装置から入手した音声の文字起こしが可能なプログラム及び情報処理方法を提供する。
【解決手段】本実施形態の文字起こしアプリ１３１は、ＣＰＵとの協働により、音声入力装置２から入力された第一の音声を取得し、通信ネットワークＮを通じて入力された第二の音声を取得し、取得した音声の文字起こしを行う。
【選択図】図２

【特許請求の範囲】

【請求項1】

コンピュータを、
音声入力装置から入力された第一の音声を取得する第一音声取得手段、
通信ネットワークを通じて入力された第二の音声を取得する第二音声取得手段、
前記第一音声取得手段と前記第二音声取得手段により取得された音声の文字起こしを行う文字起こし手段、
として機能させるためのプログラム。

【請求項2】

前記第二音声取得手段は、前記通信ネットワークを通じて入力された前記第二の音声を会議通話アプリケーションを介して取得する請求項１に記載のプログラム。

【請求項3】

前記第一の音声は、前記会議通話アプリケーションにより前記通信ネットワークを通じて会議相手の端末に送信される請求項２に記載のプログラム。

【請求項4】

前記コンピュータを、さらに、
前記コンピュータ内で再生されている第三の音声を取得する第三音声取得手段、
として機能させ、
前記文字起こし手段は、さらに、前記第三音声取得手段が取得した前記第三の音声の文字起こしを行う請求項１～３のいずれか一項に記載のプログラム。

【請求項5】

前記コンピュータを、さらに、
前記第一の音声、前記第二の音声、又は前記第三の音声のうち文字起こしの対象とする音声を選択する選択手段、
として機能させ、
前記文字起こし手段は、前記選択手段により文字起こしの対象として選択された音声の文字起こしを行う請求項４に記載のプログラム。

【請求項6】

前記コンピュータを、さらに、
前記通信ネットワークを通じて入力された前記第二の音声又は前記コンピュータ内で再生されている前記第三の音声を、音声出力装置と、前記第二音声取得手段又は前記第三音声取得手段とに分配する音声分配手段として機能させる請求項４又は５に記載のプログラム。

【請求項7】

前記文字起こし手段は、前記第二音声取得手段又は前記第三音声取得手段により取得された音声の文字起こしを行うとともに、前記音声を音声出力装置に出力する請求項４に記載のプログラム。

【請求項8】

前記第一音声取得手段、前記第二音声取得手段及び前記第三音声取得手段は、同一の音声取得手段によって実現される請求項４～６のいずれか一項に記載のプログラム。

【請求項9】

音声入力装置から入力された第一の音声を取得する第一音声取得工程と、
通信ネットワークを通じて入力された第二の音声を取得する第二音声取得工程と、
前記第一音声取得工程と前記第二音声取得工程において取得された音声の文字起こしを行う文字起こし工程と、
を含む情報処理方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、プログラム及び情報処理方法に関する。

【背景技術】

【0002】

オンライン会議の音声を文字に変換する文字起こしシステムが提案されている（例えば、非特許文献１参照）。

【先行技術文献】

【非特許文献】

【0003】

【非特許文献1】Otter Voice Meeting Notes - Otter.ai，［令和2年8月6日検索］，インターネット＜URL：https://otter.ai/ ＞

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかし、非特許文献１によるオンライン会議の文字起こしシステムのアプリケーションでは、当該アプリケーション利用者の音声入力装置から取得した音声の文字起こしをすることしかできず、オンラインから取得した音声の文字起こしをすることができない。この文字起こしシステムで会議全体の文字起こしのテキストを取得するには、会議参加者全員がそれぞれの端末に当該アプリケーションをインストールし、各アプリケーションにより各自の音声を文字起こししてそのテキストをサーバにそれぞれアプロードし、サーバでテキストを集約する必要がある。

【0005】

本発明の課題は、オンラインから入手した音声と音声入力装置から入手した音声の文字起こしが可能なプログラム及び情報処理方法を提供することである。

【課題を解決するための手段】

【0006】

上記課題を解決するため、本発明のプログラムは、
コンピュータを、
音声入力装置から入力された第一の音声を取得する第一音声取得手段、
通信ネットワークを通じて入力された第二の音声を取得する第二音声取得手段、
前記第一音声取得手段と前記第二音声取得手段により取得された音声の文字起こしを行う文字起こし手段、
として機能させる。

【0007】

また、本発明の情報処理方法は、
音声入力装置から入力された第一の音声を取得する第一音声取得工程と、
通信ネットワークを通じて入力された第二の音声を取得する第二音声取得工程と、
前記第一音声取得工程と前記第二音声取得工程において取得された音声の文字起こしを行う文字起こし工程と、
を含む。

【発明の効果】

【0008】

本発明によれば、オンラインから入手した音声と音声入力装置から入手した音声の文字起こしが可能なプログラム及び情報処理方法を提供することが可能となる。

【図面の簡単な説明】

【0009】

【図1】文字起こしアプリが搭載された端末装置の機能的構成を示すブロック図である。

【図2】第１の実施形態における文字起こしアプリの機能及び音声の流れを示す図である。

【図3】文字起こし対象とする音声の選択画面を示す図である。

【図4】対象音声制御処理の流れを示すフローチャートである。

【図5】第２の実施形態における文字起こしアプリの機能及び音声の流れを示す図である。

【図6】第３の実施形態における文字起こしアプリの機能及び音声の流れを示す図である。

【発明を実施するための形態】

【0010】

以下、本発明の実施形態を図面に基づいて詳細に説明する。ただし、発明の範囲は図示例に限定されない。

【0011】

＜第１の実施形態＞
（端末装置の構成）
まず、本発明に係る文字起こしアプリケーション（文字起こしアプリと呼ぶ）１３１が搭載されたコンピュータである端末装置１の構成について説明する。
図１は、端末装置１の機能的構成を示すブロック図である。
図１に示すように、端末装置１は、ＣＰＵ（Central Processing Unit）１１、ＲＡＭ（Random Access Memory）１２、記憶部１３、操作部１４、表示部１５、通信部１６、音声入力装置２と接続するための接続端子１７、音声出力装置３と接続するための接続端子１８、カメラ４と接続するための接続端子１９等を備えて構成され、各部はバス１０１により接続されている。

【0012】

ＣＰＵ１１は、操作部１４の操作に応じて、記憶部１３に記憶されているシステムプログラムや各種処理プログラムを読み出してＲＡＭ１２内に展開し、展開されたプログラムに従って、各種処理を実行する。

【0013】

ＲＡＭ１２は、ＣＰＵ１１に作業用のメモリー空間を提供し、一時的にデータを記憶する。

【0014】

記憶部１３は、不揮発性の半導体メモリーやハードディスク等により構成される。記憶部１３は、システムプログラム（OS: Operating System）、各種処理プログラム（アプリケーションプログラム）、プログラムの実行に必要なパラメーター、或いは処理結果等のデータを記憶する。各プログラムは、読取可能なプログラムコードの形態で格納され、ＣＰＵ１１は、当該プログラムコードに従った動作を逐次実行する。

【0015】

本実施形態において、記憶部１３には、アプリケーションプログラムとして、文字起こしアプリ１３１、会議通話アプリ１３２、音声再生アプリ１３３等が記憶されている。

【0016】

文字起こしアプリ１３１は、音声入力装置２から入力された音声、ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）、インターネット等の通信ネットワークＮを通じて入力された音声、及び／又は端末装置１内で再生されている音声を取得して文字起こしを行う機能をＣＰＵ１１に実行させるためのアプリケーションプログラムである。詳細は後述する。
会議通話アプリ１３２は、通信ネットワークＮを通じてオンラインでの会議を実現させるためのアプリケーションプログラムであり、音声入力装置２から入力されたユーザーの音声やカメラ４から入力されたユーザーの映像を通信ネットワークＮを通じて会議相手の端末装置５に送信する。また、会議相手の端末装置５から送信された会議相手の音声や映像を通信ネットワークＮを通じて取得し、音声出力装置３やカメラ４により出力する。
音声再生アプリ１３３は、音声コンテンツや映像コンテンツを再生するアプリケーションプログラムである。音声再生アプリ１３３としては、例えば、動画配信アプリ等が挙げられ、通信ネットワークＮを通じて取得された音声コンテンツや映像コンテンツを再生するものも含まれる。

【0017】

操作部１４は、カーソルキー、数字入力キー、及び各種機能キー等を備えたキーボードと、マウス等のポインティングデバイスを備えて構成され、キーボードに対するキー操作やマウス操作により入力された指示信号をＣＰＵ１１に出力する。また、操作部１４は、表示部１５の表示画面にタッチパネルを備えても良く、この場合、タッチパネルを介して入力された指示信号をＣＰＵ１１に出力する。

【0018】

表示部１５は、ＬＣＤ（Liquid Crystal Display）やＣＲＴ（Cathode Ray Tube）等のモニターにより構成され、ＣＰＵ１１から入力される表示信号の指示に従って、操作部１４からの入力指示やデータ等を表示する。

【0019】

通信部１６は、ＬＡＮ、ＷＡＮ、インターネット等の通信ネットワークＮを介して外部機器とデータ送受信を行う。

【0020】

音声入力装置２は、マイク等により構成され、音声を電気信号に変換して音声データとして入力する。
音声出力装置３は、スピーカ、イヤホン等により構成され、端末装置１内で再生された音声を接続端子１８を介して外部に出力する。
カメラ４は、ＣＣＤ（Charge Coupled Device）等を備え、ビデオ動画を撮影する。
端末装置５は、端末装置１のユーザーの会議相手のコンピュータである。なお、端末装置５の台数は、１台として図示しているが、特に限定されない。

【0021】

（文字起こしアプリの機能）
次に、ＣＰＵ１１が文字起こしアプリ１３１を実行することにより実現される機能について説明する。
図２は、ＣＰＵ１１が文字起こしアプリ１３１を実行することにより実現される音声取得に係る機能及び音声の流れを示す図である。図２に示すように、ＣＰＵ１１と文字起こしアプリ１３１との協働により、音声入力装置２から入力された音声（第一の音声）、通信ネットワークＮを通じて会議通話アプリ１３２から入力された会議相手の音声（第二の音声）、音声再生アプリ１３３等により端末装置１内で再生されている音声（第三の音声）を取得して、取得した音声の文字起こしを行う。図２における点線内のブロックが、ＣＰＵ１１と文字起こしアプリ１３１との協働により実現される機能である。すなわち、文字起こしアプリ１３１は、ＣＰＵ１１との協働により、ＣＰＵ１１に、音声入出力部３０、複数出力音声デバイス３１ａ、複数出力音声デバイス３１ｃ、仮想音声デバイス３２、仮想音声デバイス３３、文字起こし部３４としての機能を実現させる。本実施形態では、音声入出力部３０については、起動する／しないを選択可能であり、図２に示す点線内のその他の機能ブロックについては、文字起こしアプリ１３１が起動されると同時に起動されるようになっている。

【0022】

仮想音声デバイス（複数出力音声デバイス３１ａ、複数出力音声デバイス３１ｃ、仮想音声デバイス３２、仮想音声デバイス３３等）は、物理的な音声デバイス（例えば、音声入力装置２、音声出力装置３等）ではなく、プログラムやＯＳ等によって実現される機能であり、プログラムやＯＳによって音声（音声データ）の入力元や出力先として仮想音声デバイスを指定すると、仮想音声デバイスからの音声を入力したり、仮想音声デバイスに音声を出力したりすることができる。また、仮想音声デバイスで音声の入力元や出力先のデバイスを指定することにより、指定した入力元からの入力音声を取得したり、指定した出力先に音声を出力したりすることができる。

【0023】

ここで、第二の音声を文字起こしアプリ１３１で利用できるようにするためには、会議通話アプリ１３２で予めユーザー操作により音声の出力先デバイスを複数出力音声デバイス３１ａに設定しておく必要がある。そこで、文字起こしアプリ１３１は、起動された際に、ＣＰＵ１１との協働により、例えば、「使用する会議通話アプリの音声の出力先デバイスを複数出力音声デバイス３１ａに設定しておく必要があります」等のメッセージを表示部１５に表示し、ユーザーに設定の確認を促すことが好ましい。
また、第三の音声を文字起こしアプリ１３１で利用できるようにするためには、音声再生アプリ１３３の音声の出力先デバイスが複数出力音声デバイス３１ｃとなる必要があり、そのためには、一般的に、ＯＳにおける音声の出力先デバイスが複数出力音声デバイス３１ｃに指定されている必要がある。そこで、文字起こしアプリ１３１は、起動されると、ＣＰＵ１１との協働により、自動的にＯＳの音声出力先デバイスを複数出力音声デバイス３１ｃに切り替える。

【0024】

また、文字起こしアプリ１３１は、起動されると、ＣＰＵ１１との協働により、表示部１５に、文字起こし対象の音声を選択するための選択手段としての選択画面１５１を表示させる。

【0025】

図３は、選択画面１５１の一例を示す図である。図３に示すように、選択画面１５１には、会議相手の音声である第二の音声を文字起こし対象に含めるか含めないかを選択するためのボタン１５１ａと、ユーザーの音声である第一の音声を文字起こし対象に含めるか含めないかを選択するためのボタン１５１ｂと、端末装置１内で再生されている音声である第三の音声を文字起こし対象に含めるか含めないかを選択するためのボタン１５１ｃと、文字起こしの開始を指示するための開始ボタン１５１ｄと、が設けられている。ＣＰＵ１１は、各ボタン１５１ａ～ボタン１５１ｃが、右にスライドされると、各音声を「文字起こし対象に含める」に設定し、左にスライドされると、「文字起こし対象に含めない」に設定する。そして、開始ボタン１５１ｄが押下されると、文字起こしアプリ１３１は、ＣＰＵ１１との協働により、図４に示す対象音声制御処理を実施して、文字起こし対象として選択された音声を文字起こし部３４に流すように制御する。

【0026】

対象音声制御処理においては、まず、ＣＰＵ１１は、会議相手の音声である第二の音声を文字起こし対象に含める設定がなされているか否かを判断する（ステップＳ１）。
会議相手の音声である第二の音声を文字起こし対象に含める設定がなされていると判断した場合（ステップＳ１；ＹＥＳ）、ＣＰＵ１１は、複数出力音声デバイス３１ａの音声の出力先デバイスとして音声出力装置３と仮想音声デバイス３２を指定し（ステップＳ２）、ステップＳ４に移行する。
会議相手の音声である第二の音声を文字起こし対象に含める設定がなされていないと判断した場合（ステップＳ１；ＮＯ）、ＣＰＵ１１は、複数出力音声デバイス３１ａの音声の出力先デバイスとして音声出力装置３のみを指定し（ステップＳ３）、ステップＳ４に移行する。

【0027】

ステップＳ４において、ＣＰＵ１１は、ユーザーの音声である第一の音声を文字起こし対象に含める設定がなされているか否かを判断する（ステップＳ４）。
ユーザーの音声である第一の音声を文字起こし対象に含める設定がなされていると判断した場合（ステップＳ４；ＹＥＳ）、ＣＰＵ１１は、音声入出力部３０を起動させ（ステップＳ５）、ステップＳ７に移行する。
ユーザーの音声である第一の音声を文字起こし対象に含める設定がなされていないと判断した場合（ステップＳ４；ＮＯ）、ＣＰＵ１１は、音声入出力部３０を起動させず（ステップＳ６）、ステップＳ７に移行する。

【0028】

ステップＳ７において、ＣＰＵ１１は、端末装置１内で再生されている音声である第三の音声を文字起こし対象に含める設定がなされているか否かを判断する（ステップＳ７）。
端末装置１内で再生されている音声である第三の音声を文字起こし対象に含める設定がなされていると判断した場合（ステップＳ７；ＹＥＳ）、ＣＰＵ１１は、複数出力音声デバイス３１ｃの音声の出力先デバイスとして音声出力装置３と仮想音声デバイス３２を指定し（ステップＳ８）、対象音声制御処理を終了する。
端末装置１内で再生されている音声である第三の音声を文字起こし対象に含める設定がなされていないと判断した場合（ステップＳ７；ＮＯ）、ＣＰＵ１１は、複数出力音声デバイス３１ｃの音声の出力先デバイスとして音声出力装置３のみを指定し（ステップＳ９）、対象音声制御処理を終了する。

【0029】

対象音声制御処理によって、文字起こし対象の音声を取得して文字起こし部３４へと流す仮想音声デバイス３２、仮想音声デバイス３３に音声が流れるように制御することができる。

【0030】

以下、図２を参照して、オンライン会議における文字起こしアプリ１３１による音声の取得～文字起こしの流れについて説明する。
まず、端末装置１のユーザーは、会議通話アプリ１３２の起動中、端末装置１に接続された音声入力装置２に対して発言を行う。
会議通話アプリ１３２の音声入力部１３２ａは、音声入力装置２により入力された音声である第一の音声を入力音声として取得する。そして、会議通話アプリ１３２は、音声入力部１３２ａにより入力された第一の音声を通信部１６により通信ネットワークＮを通じて会議相手の端末装置５に送信する。

【0031】

会議通話アプリ１３２の音声出力部１３２ｂは、会議相手の端末装置５から送信された音声である第二の音声が通信ネットワークＮを通じて通信部１６により入力されると、入力された第二の音声を設定に基づき複数出力音声デバイス３１ａに出力する。

【0032】

複数出力音声デバイス３１ａは、音声出力仮想デバイスであり、音声分配手段として複数の音声デバイスに音声を出力可能に構成されている。複数出力音声デバイス３１ａは、音声の出力先デバイスとして音声出力装置３と仮想音声デバイス３２が指定されている場合、会議通話アプリ１３２の音声出力部１３２ｂから出力された第二の音声を音声出力装置３と仮想音声デバイス３２に分配して出力する。音声の出力先デバイスとして音声出力装置３のみが指定されている場合、会議通話アプリ１３２の音声出力部１３２ｂから出力された第二の音声を音声出力装置３に出力する。
これにより、会議の相手の音声である第二の音声を音声出力装置３から外部出力することが可能となるとともに、第二の音声が文字起こしの対象として設定されている場合、第二の音声を仮想音声デバイス３２に出力することが可能となる。

【0033】

音声入出力部３０は、音声入力を音声出力に流すプログラムであり、起動されている場合、音声の入力元デバイスとして音声入力装置２を指定して、音声入力装置２により入力された第一の音声を入力音声として取得する。また、音声の出力先デバイスとして仮想音声デバイス３２を指定して、音声入力装置２から取得した第一の音声を仮想音声デバイス３２に出力する。これにより、ユーザーの音声である第一の音声が文字起こしの対象として設定されている場合、第一の音声を仮想音声デバイス３２に出力することが可能となる。

【0034】

また、音声再生アプリ１３３により音声再生が行われている場合、音声再生アプリ１３３により端末装置１内で再生されている第三の音声は、ＯＳにより複数出力音声デバイス３１ｃに出力される。

【0035】

複数出力音声デバイス３１ｃは、音声出力仮想デバイスであり、音声分配手段として複数の音声デバイスに音声を出力可能に構成されている。複数出力音声デバイス３１ｃは、音声の出力先デバイスとして音声出力装置３と仮想音声デバイス３２が指定されている場合、音声再生アプリ１３３により再生された第三の音声を音声出力装置３と仮想音声デバイス３２に分配して出力する。音声の出力先デバイスとして音声出力装置３のみが指定されている場合、音声再生アプリ１３３により再生された第三の音声を音声出力装置３に出力する。
これにより、端末装置１内を流れる第三の音声を音声出力装置３から外部出力することが可能となるとともに、第三の音声が文字起こしの対象として設定されている場合、第三の音声を仮想音声デバイス３２に出力することが可能となる。

【0036】

仮想音声デバイス３２は、音声出力仮想デバイスであり、出力先として受け取った音声を自動的に仮想音声デバイス３３に流す機能を有する。
仮想音声デバイス３３は、音声入力仮想デバイスであり、仮想音声デバイス３２に流れてきた音声を入力音声として扱う。
すなわち、仮想音声デバイス３２及び仮想音声デバイス３３は、出力されてきた第一の音声、第二の音声、及び／又は第三の音声を取得することができ、第一音声取得手段、第二音声取得手段、第三音声取得手段としての機能を実現する。仮想音声デバイス３２及び仮想音声デバイス３３は、出力されてきた第一の音声、第二の音声、及び／又は第三の音声の全てを１対で（単独で）取得する構成のため（すなわち、第一音声取得手段、第二音声取得手段、第三音声取得手段が同一のため）、出力されてきた複数の音声を集約することができる。

【0037】

文字起こし部３４は、音声の入力元デバイスとして仮想音声デバイス３３を指定して、仮想音声デバイス３３により入力された音声を取得して文字に変換し、記憶部１３に記憶させる。

【0038】

文字起こしアプリ１３１の図２に示す各ブロックは、例えば、操作部１４により終了が指示されるまで上述のように動作し、ユーザーにより文字起こし対象として選択された音声を取得して文字起こしを行う。

【0039】

このように、第１実施形態の文字起こしアプリ１３１によれば、会議通話アプリ１３２でのオンライン会議中に音声入力装置２から入力された第一の音声、通信ネットワークＮを通じて入力された会議相手の第二の音声を取得して文字起こしをすることができる。すなわち、オンラインから入手した音声と音声入力装置から入手した音声の文字起こしができる。そのため、会議参加者全員がそれぞれの端末装置で文字起こしアプリ１３１を利用しなくても、会議参加者のうちひとりが文字起こしアプリ１３１を利用すれば、会議全体の文字起こしを行うことが可能となる。また、どの会議通話アプリ１３２と併用してもオンライン会議の文字起こしが可能となる。また、端末装置１内で再生されている第三の音声を取得して文字起こしをすることができるため、音声コンテンツや映像コンテンツの音声を文字起こしすることが可能となる。また、第一の音声～第三の音声のどの音声を文字起こしの対象にするのかをユーザーが選択することができ、選択された音声のみを取得して文字起こしするため、ユーザーが所望する音声のみを対象として文字起こしすることが可能となる。さらに、選択された音声が複数の場合、複数の音声を集約して文字起こしすることが可能となる。

【0040】

＜第２の実施形態＞
次に、第２の実施形態について説明する。
第２の実施形態において、端末装置１の記憶部１３には、第１の実施形態における文字起こしアプリ１３１の代わりに、文字起こしアプリ１３４が記憶されている。
以下、ＣＰＵ１１が文字起こしアプリ１３４を実行することにより実現される機能について説明する。

【0041】

図５は、ＣＰＵ１１が文字起こしアプリ１３４を実行することにより実現される音声取得に係る機能及び音声の流れを示す図である。図５に示すように、ＣＰＵ１１と文字起こしアプリ１３４との協働により、音声入力装置２から入力された第一の音声、通信ネットワークＮを通じて会議通話アプリ１３２から入力された会議相手の第二の音声、端末装置１内で再生されている第三の音声を取得して、取得した音声の文字起こしを行う。図５における点線内のブロックが、ＣＰＵ１１と文字起こしアプリ１３４との協働により実現される機能である。すなわち、文字起こしアプリ１３４は、ＣＰＵ１１との協働により、ＣＰＵ１１に、音声入出力部３０ｂ、仮想音声デバイス３２ａ～３２ｃ、仮想音声デバイス３３ａ～３３ｃ、文字起こし部３４ａ～３４ｃとしての機能を実現させる。

【0042】

ここで、第二の音声を文字起こしアプリ１３４で利用できるようにするためには、会議通話アプリ１３２で予めユーザー操作により音声の出力先デバイスを仮想音声デバイス３２ａに設定しておく必要がある。そこで、文字起こしアプリ１３４は、起動された際に、ＣＰＵ１１との協働により、例えば、「使用する会議通話アプリの音声の出力先デバイスを仮想音声デバイス３２ａに設定しておく必要があります」等のメッセージを表示部１５に表示し、ユーザーに設定の確認を促すことが好ましい。
また、第三の音声を文字起こしアプリ１３４で利用できるようにするためには、音声再生アプリ１３３の音声の出力先デバイスが仮想音声デバイス３２ｃとなる必要があり、そのためには、一般的に、ＯＳにおける音声の出力先デバイスが仮想音声デバイス３２ｃに指定されている必要がある。そこで、文字起こしアプリ１３４は、起動されると、ＣＰＵ１１との協働により、自動的にＯＳの音声出力先デバイスを仮想音声デバイス３２ｃに切り替える。

【0043】

以下、図５を参照して、文字起こしアプリ１３４を利用したオンライン会議における音声の取得～文字起こしの流れの、第１の実施形態と異なる部分について説明する。

【0044】

図５に示すように、会議通話アプリ１３２の音声出力部１３２ｂは、会議相手の端末装置５から送信された音声である第二の音声が通信ネットワークＮを通じて通信部１６により入力されると、入力された第二の音声を設定に基づき仮想音声デバイス３２ａに出力する。

【0045】

仮想音声デバイス３２ａは、音声出力仮想デバイスであり、出力先として受け取った第二の音声を自動的に仮想音声デバイス３３ａに流す。
仮想音声デバイス３３ａは、音声入力仮想デバイスであり、仮想音声デバイス３２ａに流れてきた第二の音声を入力音声として扱う。
すなわち、仮想音声デバイス３２ａ及び仮想音声デバイス３３ａは、通信ネットワークＮを通じて会議通話アプリ１３２から入力された会議相手の音声である第二の音声を取得することができ、第二音声取得手段としての機能を実現する。

【0046】

文字起こし部３４ａは、音声の入力元デバイスとして仮想音声デバイス３３ａを指定し、仮想音声デバイス３３ａにより入力された第二の音声を取得して文字に変換する。また、文字起こし部３４ａは、仮想音声デバイス３３ａから入力された第二の音声を音声出力装置３に出力する。
これにより、会議相手の音声を文字起こしすることが可能となるとともに、音声出力装置３から外部出力することが可能となる。

【0047】

また、音声入出力部３０ｂは、音声の入力元デバイスとして音声入力装置２を指定して、音声入力装置２から入力された第一の音声を入力音声として取得する。また、出力先デバイスとして仮想音声デバイス３２ｂを指定して、音声入力装置２から流れてきた第一の音声を仮想音声デバイス３２ｂに出力する。

【0048】

仮想音声デバイス３２ｂは、音声出力仮想デバイスであり、出力先として受け取った第一の音声を自動的に仮想音声デバイス３３ｂに流す。
仮想音声デバイス３３ｂは、音声入力仮想デバイスであり、仮想音声デバイス３２ｂに流れてきた第一の音声を入力音声として扱う。
すなわち、仮想音声デバイス３２ｂ及び仮想音声デバイス３３ｂは、音声入力装置２により入力されたユーザーの音声である第一の音声を取得することができ、第一音声取得手段としての機能を実現する。

【0049】

文字起こし部３４ｂは、音声の入力元デバイスとして仮想音声デバイス３３ｂを指定し、仮想音声デバイス３３ｂにより入力された第一の音声を取得して文字に変換する。
これにより、ユーザーの音声を文字起こしすることが可能となる。

【0050】

また、音声再生アプリ１３３により音声再生が行われている場合、音声再生アプリ１３３により端末装置１内で再生されている音声である第三の音声は、ＯＳにより仮想音声デバイス３２ｃに出力される。

【0051】

仮想音声デバイス３２ｃは、音声出力仮想デバイスであり、出力先として受け取った第三の音声を自動的に仮想音声デバイス３３ｃに流す。
仮想音声デバイス３３ｃは、音声入力仮想デバイスであり、仮想音声デバイス３２ｃに流れてきた第三の音声を入力音声として扱う。
すなわち、仮想音声デバイス３２ｃ及び仮想音声デバイス３３ｃは、音声再生アプリ１３３により再生され、端末装置１内を流れる第三の音声を取得することができ、第三音声取得手段としての機能を実現する。

【0052】

文字起こし部３４ｃは、音声の入力元デバイスとして仮想音声デバイス３３ｃを指定し、仮想音声デバイス３３ｃにより入力された第三の音声を取得して文字に変換する。また、文字起こし部３４ｃは、仮想音声デバイス３３ｃから入力された第三の音声を音声出力装置３に出力する。
これにより、音声再生アプリ１３３により再生されている音声を文字起こしすることが可能となるとともに、音声出力装置３から外部出力することが可能となる。

【0053】

文字起こしアプリ１３４の図５に示す各ブロックは、例えば、操作部１４により終了が指示されるまで上述のように動作し、第一の音声～第三の音声を取得して文字起こしを行うとともに、第二の音声及び第三の音声を音声出力装置３から出力する。

【0054】

このように、第２実施形態の文字起こしアプリ１３４によれば、会議通話アプリ１３２でのオンライン会議中に音声入力装置２から入力された第一の音声、通信ネットワークＮを通じて入力された会議相手の第二の音声を取得してそれぞれを文字起こしすることができる。すなわち、オンラインから入手した音声と音声入力装置から入手した音声の文字起こしができる。そのため、会議参加者全員がそれぞれの端末装置で文字起こしアプリ１３１を利用しなくても、会議参加者のうちひとりが文字起こしアプリ１３１を利用すれば、会議全体の文字起こしを行うことが可能となる。また、どの会議通話アプリ１３２と併用してもオンライン会議の参加メンバーのそれぞれの音声を文字起こしすることが可能となる。また、音声再生アプリ１３３により再生されている第三の音声を取得して第一の音声、第二の音声とは別に文字起こしをすることができるため、端末装置１内で再生されている音声コンテンツや映像コンテンツの音声を会議の音声とは別に文字起こしすることが可能となる。

【0055】

＜第３の実施形態＞
次に、第３の実施形態について説明する。
第３の実施形態において、端末装置１の記憶部１３には、第１の実施形態における文字起こしアプリ１３１の代わりに、文字起こしアプリ１３５が記憶されている。
以下、ＣＰＵ１１が文字起こしアプリ１３５を実行することにより実現される機能について説明する。

【0056】

図６は、ＣＰＵ１１が文字起こしアプリ１３５を実行することにより実現される音声取得に係る機能及び音声の流れを示す図である。図６に示すように、ＣＰＵ１１と文字起こしアプリ１３５との協働により、音声入力装置２から入力された第一の音声、通信ネットワークＮを通じて会議通話アプリ１３２から入力された会議相手の第二の音声、音声再生アプリ１３３により端末装置１内で再生されている第三の音声を取得して、取得した音声の文字起こしを行う。図６における点線内のブロックが、ＣＰＵ１１と文字起こしアプリ１３５との協働により実現される機能である。すなわち、文字起こしアプリ１３５は、ＣＰＵ１１との協働により、ＣＰＵ１１に、音声入出力部３０ｂ、複数出力音声デバイス３１ａ´、複数出力音声デバイス３１ｃ´、仮想音声デバイス３２ａ～３２ｃ、仮想音声デバイス３３ａ～３３ｃ、文字起こし部３４ａ´、文字起こし部３４、文字起こし部３４ｃ´としての機能を実現させる。

【0057】

第二の音声を文字起こしアプリ１３５で利用できるようにするためには、会議通話アプリ１３２で予めユーザー操作により音声の出力先デバイスを複数出力音声デバイス３１ａ´に設定しておく必要がある。そこで、文字起こしアプリ１３５は、起動された際に、ＣＰＵ１１との協働により、例えば、「使用する会議通話アプリの音声の出力先デバイスを複数出力音声デバイス３１ａ´に設定しておく必要があります」等のメッセージを表示部１５に表示し、ユーザーに設定の確認を促すことが好ましい。
また、第三の音声を文字起こしアプリ１３５で利用できるようにするためには、音声再生アプリ１３３の音声の出力先デバイスが複数出力音声デバイス３１ｃ´となる必要があり、そのためには、一般的に、ＯＳにおける音声の出力先デバイスが複数出力音声デバイス３１ｃ´に指定されている必要がある。そこで、文字起こしアプリ１３５は、起動されると、ＣＰＵ１１との協働により、自動的にＯＳの音声出力先デバイスを複数出力音声デバイス３１ｃ´に切り替える。

【0058】

以下、図６を参照して、文字起こしアプリ１３５を利用したオンライン会議における音声の取得～文字起こしの流れについて、第１及び第２の実施形態と異なる部分について説明する。

【0059】

会議通話アプリ１３２の音声出力部１３２ｂは、会議相手の端末装置５から送信された音声である第二の音声が通信ネットワークＮを通じて通信部１６により入力されると、入力された第二の音声を設定に基づき複数出力音声デバイス３１ａ´に出力する。

【0060】

複数出力音声デバイス３１ａ´は、音声出力仮想デバイスであり、音声分配手段として複数の音声デバイスに音声を出力可能に構成されている。複数出力音声デバイス３１ａ´は、音声の出力先デバイスとして音声出力装置３と仮想音声デバイス３２ａを指定して、会議通話アプリ１３２の音声出力部１３２ｂから出力された第二の音声を音声出力装置３と仮想音声デバイス３２ａに分配して出力する。
これにより、会議の相手の音声である第二の音声を音声出力装置３から外部出力することが可能となるとともに、第二の音声を仮想音声デバイス３２ａに出力することが可能となる。

【0061】

仮想音声デバイス３２ａは、出力先として受け取った第二の音声を自動的に仮想音声デバイス３３ａに流す。
仮想音声デバイス３３ａは、仮想音声デバイス３２ａに流れてきた第二の音声を入力音声として扱う。

【0062】

文字起こし部３４ａ´は、音声の入力元デバイスとして仮想音声デバイス３３ａを指定し、仮想音声デバイス３３ａから入力される第二の音声を取得して文字に変換する。

【0063】

また、音声再生アプリ１３３により音声再生が行われている場合、音声再生アプリ１３３により端末装置１内で再生されている音声である第三の音声は、ＯＳにより複数出力音声デバイス３１ｃ´に出力される。

【0064】

複数出力音声デバイス３１ｃ´は、音声出力仮想デバイスであり、音声分配手段として複数の音声デバイスに音声を出力可能に構成されている。複数出力音声デバイス３１ｃ´は、音声の出力先デバイスとして音声出力装置３と仮想音声デバイス３２ｃを指定して、音声再生アプリ１３３により再生された第三の音声を音声出力装置３と仮想音声デバイス３２ｃに分配して出力する。
これにより、音声再生アプリ１３３により再生された第三の音声を音声出力装置３から出力することが可能となるとともに、第三の音声を仮想音声デバイス３２ｃに出力することが可能となる。

【0065】

仮想音声デバイス３２ｃは、出力先として受け取った第三の音声を自動的に仮想音声デバイス３３ｃに流す。
仮想音声デバイス３３ｃは、仮想音声デバイス３２ｃに流れてきた第三の音声を入力音声として扱う。

【0066】

文字起こし部３４ｃ´は、音声の入力元デバイスとして仮想音声デバイス３３ｃを指定し、仮想音声デバイス３３ｃから入力される第三の音声を取得して文字に変換する。

【0067】

第一の音声の流れ及び文字起こしについては、第２の実施形態で説明したものと同様であるので説明を援用する。
文字起こしアプリ１３５の図６に示す各ブロックは、例えば、操作部１４により終了が指示されるまで上述のように動作して、第一の音声～第三の音声を取得して文字起こしを行うとともに、第二の音声及び第三の音声を音声出力装置３から出力する。

【0068】

このように、第３実施形態の文字起こしアプリ１３５によれば、会議通話アプリ１３２でのオンライン会議中に音声入力装置２から入力された第一の音声、通信ネットワークＮを通じて入力された会議相手の第二の音声を取得してそれぞれを文字起こしすることができる。すなわち、オンラインから入手した音声と音声入力装置から入手した音声の文字起こしができる。そのため、会議参加者全員がそれぞれの端末装置で文字起こしアプリ１３１を利用しなくても、会議参加者のうちひとりが文字起こしアプリ１３１を利用すれば、会議全体の文字起こしを行うことが可能となる。また、どの会議通話アプリ１３２と併用してもオンライン会議の参加メンバーのそれぞれの音声を別々に文字起こしすることが可能となる。また、音声再生アプリ１３３により再生されている第三の音声を取得して第一の音声、第二の音声とは別に文字起こしをすることができるため、端末装置１内で再生されている音声コンテンツや映像コンテンツの音声を会議の音声とは別に文字起こしすることが可能となる。

【0069】

以上、本発明の第１～第３の実施形態について説明したが、上記実施形態における記述は、本発明に係る後処理システムの好適な一例であり、これに限定されるものではない。

【0070】

例えば、上記実施形態では、第一の音声～第三の音声を取得して文字起こしを行うこととして説明したが、文字起こしに限らず、録音等の他の用途に音声を活用してもよい。

【0071】

また、上記実施形態では、会議相手の音声は、音声の出力先を設定可能な会議通話アプリ１３２から取得されることとして説明したが、音声の出力先を設定する機能のない会議通話アプリケーションにより再生される会議相手の音声や、ウェブによる会議システムにより再生される会議相手の音声は、第１の実施形態～第３の実施形態で説明した第三音声として取得し、文字起こしすることが可能である。

【0072】

また、上記実施形態では、単一の文字起こしアプリケーションによって音声の取得から文字起こしまでを実現したがこれに限らず、本発明は、音声の流れをコントロールする機能部と文字起こしや録音等の音声の活用を行う機能部が別々のアプリケーションを組み合わせることによって実現される場合にも適用される。
また、上記実施形態では、本発明を適用した文字起こしアプリケーションを会議通話アプリケーションと併用したが、これに限らず、会議通話アプリケーションに限らないアプリケーションに内蔵されても良い。

【0073】

その他、文字起こしアプリとＣＰＵとの協働により実現する機能の細部動作に関しても、本発明の趣旨を逸脱することのない範囲で適宜変更可能である。

【符号の説明】

【0074】

１３１文字起こしアプリ
１３２会議通話アプリ
１３３音声再生アプリ

【図1】