IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社alumi studioの特許一覧

<>
  • 特開-プログラム及び情報処理方法 図1
  • 特開-プログラム及び情報処理方法 図2
  • 特開-プログラム及び情報処理方法 図3
  • 特開-プログラム及び情報処理方法 図4
  • 特開-プログラム及び情報処理方法 図5
  • 特開-プログラム及び情報処理方法 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022039206
(43)【公開日】2022-03-10
(54)【発明の名称】プログラム及び情報処理方法
(51)【国際特許分類】
   G10L 15/28 20130101AFI20220303BHJP
   G06F 3/16 20060101ALI20220303BHJP
   G10L 15/00 20130101ALI20220303BHJP
【FI】
G10L15/28 230J
G06F3/16 500
G10L15/00 200B
【審査請求】未請求
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2020144119
(22)【出願日】2020-08-28
(71)【出願人】
【識別番号】520330261
【氏名又は名称】株式会社alumi studio
(74)【代理人】
【識別番号】100090033
【弁理士】
【氏名又は名称】荒船 博司
(74)【代理人】
【識別番号】100093045
【弁理士】
【氏名又は名称】荒船 良男
(72)【発明者】
【氏名】片山 大地
(72)【発明者】
【氏名】飯島 聡美
(57)【要約】
【課題】オンラインから入手した音声と音声入力装置から入手した音声の文字起こしが可能なプログラム及び情報処理方法を提供する。
【解決手段】本実施形態の文字起こしアプリ131は、CPUとの協働により、音声入力装置2から入力された第一の音声を取得し、通信ネットワークNを通じて入力された第二の音声を取得し、取得した音声の文字起こしを行う。
【選択図】図2
【特許請求の範囲】
【請求項1】
コンピュータを、
音声入力装置から入力された第一の音声を取得する第一音声取得手段、
通信ネットワークを通じて入力された第二の音声を取得する第二音声取得手段、
前記第一音声取得手段と前記第二音声取得手段により取得された音声の文字起こしを行う文字起こし手段、
として機能させるためのプログラム。
【請求項2】
前記第二音声取得手段は、前記通信ネットワークを通じて入力された前記第二の音声を会議通話アプリケーションを介して取得する請求項1に記載のプログラム。
【請求項3】
前記第一の音声は、前記会議通話アプリケーションにより前記通信ネットワークを通じて会議相手の端末に送信される請求項2に記載のプログラム。
【請求項4】
前記コンピュータを、さらに、
前記コンピュータ内で再生されている第三の音声を取得する第三音声取得手段、
として機能させ、
前記文字起こし手段は、さらに、前記第三音声取得手段が取得した前記第三の音声の文字起こしを行う請求項1~3のいずれか一項に記載のプログラム。
【請求項5】
前記コンピュータを、さらに、
前記第一の音声、前記第二の音声、又は前記第三の音声のうち文字起こしの対象とする音声を選択する選択手段、
として機能させ、
前記文字起こし手段は、前記選択手段により文字起こしの対象として選択された音声の文字起こしを行う請求項4に記載のプログラム。
【請求項6】
前記コンピュータを、さらに、
前記通信ネットワークを通じて入力された前記第二の音声又は前記コンピュータ内で再生されている前記第三の音声を、音声出力装置と、前記第二音声取得手段又は前記第三音声取得手段とに分配する音声分配手段として機能させる請求項4又は5に記載のプログラム。
【請求項7】
前記文字起こし手段は、前記第二音声取得手段又は前記第三音声取得手段により取得された音声の文字起こしを行うとともに、前記音声を音声出力装置に出力する請求項4に記載のプログラム。
【請求項8】
前記第一音声取得手段、前記第二音声取得手段及び前記第三音声取得手段は、同一の音声取得手段によって実現される請求項4~6のいずれか一項に記載のプログラム。
【請求項9】
音声入力装置から入力された第一の音声を取得する第一音声取得工程と、
通信ネットワークを通じて入力された第二の音声を取得する第二音声取得工程と、
前記第一音声取得工程と前記第二音声取得工程において取得された音声の文字起こしを行う文字起こし工程と、
を含む情報処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、プログラム及び情報処理方法に関する。
【背景技術】
【0002】
オンライン会議の音声を文字に変換する文字起こしシステムが提案されている(例えば、非特許文献1参照)。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】Otter Voice Meeting Notes - Otter.ai,[令和2年8月6日検索],インターネット <URL:https://otter.ai/ >
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、非特許文献1によるオンライン会議の文字起こしシステムのアプリケーションでは、当該アプリケーション利用者の音声入力装置から取得した音声の文字起こしをすることしかできず、オンラインから取得した音声の文字起こしをすることができない。この文字起こしシステムで会議全体の文字起こしのテキストを取得するには、会議参加者全員がそれぞれの端末に当該アプリケーションをインストールし、各アプリケーションにより各自の音声を文字起こししてそのテキストをサーバにそれぞれアプロードし、サーバでテキストを集約する必要がある。
【0005】
本発明の課題は、オンラインから入手した音声と音声入力装置から入手した音声の文字起こしが可能なプログラム及び情報処理方法を提供することである。
【課題を解決するための手段】
【0006】
上記課題を解決するため、本発明のプログラムは、
コンピュータを、
音声入力装置から入力された第一の音声を取得する第一音声取得手段、
通信ネットワークを通じて入力された第二の音声を取得する第二音声取得手段、
前記第一音声取得手段と前記第二音声取得手段により取得された音声の文字起こしを行う文字起こし手段、
として機能させる。
【0007】
また、本発明の情報処理方法は、
音声入力装置から入力された第一の音声を取得する第一音声取得工程と、
通信ネットワークを通じて入力された第二の音声を取得する第二音声取得工程と、
前記第一音声取得工程と前記第二音声取得工程において取得された音声の文字起こしを行う文字起こし工程と、
を含む。
【発明の効果】
【0008】
本発明によれば、オンラインから入手した音声と音声入力装置から入手した音声の文字起こしが可能なプログラム及び情報処理方法を提供することが可能となる。
【図面の簡単な説明】
【0009】
図1】文字起こしアプリが搭載された端末装置の機能的構成を示すブロック図である。
図2】第1の実施形態における文字起こしアプリの機能及び音声の流れを示す図である。
図3】文字起こし対象とする音声の選択画面を示す図である。
図4】対象音声制御処理の流れを示すフローチャートである。
図5】第2の実施形態における文字起こしアプリの機能及び音声の流れを示す図である。
図6】第3の実施形態における文字起こしアプリの機能及び音声の流れを示す図である。
【発明を実施するための形態】
【0010】
以下、本発明の実施形態を図面に基づいて詳細に説明する。ただし、発明の範囲は図示例に限定されない。
【0011】
<第1の実施形態>
(端末装置の構成)
まず、本発明に係る文字起こしアプリケーション(文字起こしアプリと呼ぶ)131が搭載されたコンピュータである端末装置1の構成について説明する。
図1は、端末装置1の機能的構成を示すブロック図である。
図1に示すように、端末装置1は、CPU(Central Processing Unit)11、RAM(Random Access Memory)12、記憶部13、操作部14、表示部15、通信部16、音声入力装置2と接続するための接続端子17、音声出力装置3と接続するための接続端子18、カメラ4と接続するための接続端子19等を備えて構成され、各部はバス101により接続されている。
【0012】
CPU11は、操作部14の操作に応じて、記憶部13に記憶されているシステムプログラムや各種処理プログラムを読み出してRAM12内に展開し、展開されたプログラムに従って、各種処理を実行する。
【0013】
RAM12は、CPU11に作業用のメモリー空間を提供し、一時的にデータを記憶する。
【0014】
記憶部13は、不揮発性の半導体メモリーやハードディスク等により構成される。記憶部13は、システムプログラム(OS: Operating System)、各種処理プログラム(アプリケーションプログラム)、プログラムの実行に必要なパラメーター、或いは処理結果等のデータを記憶する。各プログラムは、読取可能なプログラムコードの形態で格納され、CPU11は、当該プログラムコードに従った動作を逐次実行する。
【0015】
本実施形態において、記憶部13には、アプリケーションプログラムとして、文字起こしアプリ131、会議通話アプリ132、音声再生アプリ133等が記憶されている。
【0016】
文字起こしアプリ131は、音声入力装置2から入力された音声、LAN(Local Area Network)、WAN(Wide Area Network)、インターネット等の通信ネットワークNを通じて入力された音声、及び/又は端末装置1内で再生されている音声を取得して文字起こしを行う機能をCPU11に実行させるためのアプリケーションプログラムである。詳細は後述する。
会議通話アプリ132は、通信ネットワークNを通じてオンラインでの会議を実現させるためのアプリケーションプログラムであり、音声入力装置2から入力されたユーザーの音声やカメラ4から入力されたユーザーの映像を通信ネットワークNを通じて会議相手の端末装置5に送信する。また、会議相手の端末装置5から送信された会議相手の音声や映像を通信ネットワークNを通じて取得し、音声出力装置3やカメラ4により出力する。
音声再生アプリ133は、音声コンテンツや映像コンテンツを再生するアプリケーションプログラムである。音声再生アプリ133としては、例えば、動画配信アプリ等が挙げられ、通信ネットワークNを通じて取得された音声コンテンツや映像コンテンツを再生するものも含まれる。
【0017】
操作部14は、カーソルキー、数字入力キー、及び各種機能キー等を備えたキーボードと、マウス等のポインティングデバイスを備えて構成され、キーボードに対するキー操作やマウス操作により入力された指示信号をCPU11に出力する。また、操作部14は、表示部15の表示画面にタッチパネルを備えても良く、この場合、タッチパネルを介して入力された指示信号をCPU11に出力する。
【0018】
表示部15は、LCD(Liquid Crystal Display)やCRT(Cathode Ray Tube)等のモニターにより構成され、CPU11から入力される表示信号の指示に従って、操作部14からの入力指示やデータ等を表示する。
【0019】
通信部16は、LAN、WAN、インターネット等の通信ネットワークNを介して外部機器とデータ送受信を行う。
【0020】
音声入力装置2は、マイク等により構成され、音声を電気信号に変換して音声データとして入力する。
音声出力装置3は、スピーカ、イヤホン等により構成され、端末装置1内で再生された音声を接続端子18を介して外部に出力する。
カメラ4は、CCD(Charge Coupled Device)等を備え、ビデオ動画を撮影する。
端末装置5は、端末装置1のユーザーの会議相手のコンピュータである。なお、端末装置5の台数は、1台として図示しているが、特に限定されない。
【0021】
(文字起こしアプリの機能)
次に、CPU11が文字起こしアプリ131を実行することにより実現される機能について説明する。
図2は、CPU11が文字起こしアプリ131を実行することにより実現される音声取得に係る機能及び音声の流れを示す図である。図2に示すように、CPU11と文字起こしアプリ131との協働により、音声入力装置2から入力された音声(第一の音声)、通信ネットワークNを通じて会議通話アプリ132から入力された会議相手の音声(第二の音声)、音声再生アプリ133等により端末装置1内で再生されている音声(第三の音声)を取得して、取得した音声の文字起こしを行う。図2における点線内のブロックが、CPU11と文字起こしアプリ131との協働により実現される機能である。すなわち、文字起こしアプリ131は、CPU11との協働により、CPU11に、音声入出力部30、複数出力音声デバイス31a、複数出力音声デバイス31c、仮想音声デバイス32、仮想音声デバイス33、文字起こし部34としての機能を実現させる。本実施形態では、音声入出力部30については、起動する/しないを選択可能であり、図2に示す点線内のその他の機能ブロックについては、文字起こしアプリ131が起動されると同時に起動されるようになっている。
【0022】
仮想音声デバイス(複数出力音声デバイス31a、複数出力音声デバイス31c、仮想音声デバイス32、仮想音声デバイス33等)は、物理的な音声デバイス(例えば、音声入力装置2、音声出力装置3等)ではなく、プログラムやOS等によって実現される機能であり、プログラムやOSによって音声(音声データ)の入力元や出力先として仮想音声デバイスを指定すると、仮想音声デバイスからの音声を入力したり、仮想音声デバイスに音声を出力したりすることができる。また、仮想音声デバイスで音声の入力元や出力先のデバイスを指定することにより、指定した入力元からの入力音声を取得したり、指定した出力先に音声を出力したりすることができる。
【0023】
ここで、第二の音声を文字起こしアプリ131で利用できるようにするためには、会議通話アプリ132で予めユーザー操作により音声の出力先デバイスを複数出力音声デバイス31aに設定しておく必要がある。そこで、文字起こしアプリ131は、起動された際に、CPU11との協働により、例えば、「使用する会議通話アプリの音声の出力先デバイスを複数出力音声デバイス31aに設定しておく必要があります」等のメッセージを表示部15に表示し、ユーザーに設定の確認を促すことが好ましい。
また、第三の音声を文字起こしアプリ131で利用できるようにするためには、音声再生アプリ133の音声の出力先デバイスが複数出力音声デバイス31cとなる必要があり、そのためには、一般的に、OSにおける音声の出力先デバイスが複数出力音声デバイス31cに指定されている必要がある。そこで、文字起こしアプリ131は、起動されると、CPU11との協働により、自動的にOSの音声出力先デバイスを複数出力音声デバイス31cに切り替える。
【0024】
また、文字起こしアプリ131は、起動されると、CPU11との協働により、表示部15に、文字起こし対象の音声を選択するための選択手段としての選択画面151を表示させる。
【0025】
図3は、選択画面151の一例を示す図である。図3に示すように、選択画面151には、会議相手の音声である第二の音声を文字起こし対象に含めるか含めないかを選択するためのボタン151aと、ユーザーの音声である第一の音声を文字起こし対象に含めるか含めないかを選択するためのボタン151bと、端末装置1内で再生されている音声である第三の音声を文字起こし対象に含めるか含めないかを選択するためのボタン151cと、文字起こしの開始を指示するための開始ボタン151dと、が設けられている。CPU11は、各ボタン151a~ボタン151cが、右にスライドされると、各音声を「文字起こし対象に含める」に設定し、左にスライドされると、「文字起こし対象に含めない」に設定する。そして、開始ボタン151dが押下されると、文字起こしアプリ131は、CPU11との協働により、図4に示す対象音声制御処理を実施して、文字起こし対象として選択された音声を文字起こし部34に流すように制御する。
【0026】
対象音声制御処理においては、まず、CPU11は、会議相手の音声である第二の音声を文字起こし対象に含める設定がなされているか否かを判断する(ステップS1)。
会議相手の音声である第二の音声を文字起こし対象に含める設定がなされていると判断した場合(ステップS1;YES)、CPU11は、複数出力音声デバイス31aの音声の出力先デバイスとして音声出力装置3と仮想音声デバイス32を指定し(ステップS2)、ステップS4に移行する。
会議相手の音声である第二の音声を文字起こし対象に含める設定がなされていないと判断した場合(ステップS1;NO)、CPU11は、複数出力音声デバイス31aの音声の出力先デバイスとして音声出力装置3のみを指定し(ステップS3)、ステップS4に移行する。
【0027】
ステップS4において、CPU11は、ユーザーの音声である第一の音声を文字起こし対象に含める設定がなされているか否かを判断する(ステップS4)。
ユーザーの音声である第一の音声を文字起こし対象に含める設定がなされていると判断した場合(ステップS4;YES)、CPU11は、音声入出力部30を起動させ(ステップS5)、ステップS7に移行する。
ユーザーの音声である第一の音声を文字起こし対象に含める設定がなされていないと判断した場合(ステップS4;NO)、CPU11は、音声入出力部30を起動させず(ステップS6)、ステップS7に移行する。
【0028】
ステップS7において、CPU11は、端末装置1内で再生されている音声である第三の音声を文字起こし対象に含める設定がなされているか否かを判断する(ステップS7)。
端末装置1内で再生されている音声である第三の音声を文字起こし対象に含める設定がなされていると判断した場合(ステップS7;YES)、CPU11は、複数出力音声デバイス31cの音声の出力先デバイスとして音声出力装置3と仮想音声デバイス32を指定し(ステップS8)、対象音声制御処理を終了する。
端末装置1内で再生されている音声である第三の音声を文字起こし対象に含める設定がなされていないと判断した場合(ステップS7;NO)、CPU11は、複数出力音声デバイス31cの音声の出力先デバイスとして音声出力装置3のみを指定し(ステップS9)、対象音声制御処理を終了する。
【0029】
対象音声制御処理によって、文字起こし対象の音声を取得して文字起こし部34へと流す仮想音声デバイス32、仮想音声デバイス33に音声が流れるように制御することができる。
【0030】
以下、図2を参照して、オンライン会議における文字起こしアプリ131による音声の取得~文字起こしの流れについて説明する。
まず、端末装置1のユーザーは、会議通話アプリ132の起動中、端末装置1に接続された音声入力装置2に対して発言を行う。
会議通話アプリ132の音声入力部132aは、音声入力装置2により入力された音声である第一の音声を入力音声として取得する。そして、会議通話アプリ132は、音声入力部132aにより入力された第一の音声を通信部16により通信ネットワークNを通じて会議相手の端末装置5に送信する。
【0031】
会議通話アプリ132の音声出力部132bは、会議相手の端末装置5から送信された音声である第二の音声が通信ネットワークNを通じて通信部16により入力されると、入力された第二の音声を設定に基づき複数出力音声デバイス31aに出力する。
【0032】
複数出力音声デバイス31aは、音声出力仮想デバイスであり、音声分配手段として複数の音声デバイスに音声を出力可能に構成されている。複数出力音声デバイス31aは、音声の出力先デバイスとして音声出力装置3と仮想音声デバイス32が指定されている場合、会議通話アプリ132の音声出力部132bから出力された第二の音声を音声出力装置3と仮想音声デバイス32に分配して出力する。音声の出力先デバイスとして音声出力装置3のみが指定されている場合、会議通話アプリ132の音声出力部132bから出力された第二の音声を音声出力装置3に出力する。
これにより、会議の相手の音声である第二の音声を音声出力装置3から外部出力することが可能となるとともに、第二の音声が文字起こしの対象として設定されている場合、第二の音声を仮想音声デバイス32に出力することが可能となる。
【0033】
音声入出力部30は、音声入力を音声出力に流すプログラムであり、起動されている場合、音声の入力元デバイスとして音声入力装置2を指定して、音声入力装置2により入力された第一の音声を入力音声として取得する。また、音声の出力先デバイスとして仮想音声デバイス32を指定して、音声入力装置2から取得した第一の音声を仮想音声デバイス32に出力する。これにより、ユーザーの音声である第一の音声が文字起こしの対象として設定されている場合、第一の音声を仮想音声デバイス32に出力することが可能となる。
【0034】
また、音声再生アプリ133により音声再生が行われている場合、音声再生アプリ133により端末装置1内で再生されている第三の音声は、OSにより複数出力音声デバイス31cに出力される。
【0035】
複数出力音声デバイス31cは、音声出力仮想デバイスであり、音声分配手段として複数の音声デバイスに音声を出力可能に構成されている。複数出力音声デバイス31cは、音声の出力先デバイスとして音声出力装置3と仮想音声デバイス32が指定されている場合、音声再生アプリ133により再生された第三の音声を音声出力装置3と仮想音声デバイス32に分配して出力する。音声の出力先デバイスとして音声出力装置3のみが指定されている場合、音声再生アプリ133により再生された第三の音声を音声出力装置3に出力する。
これにより、端末装置1内を流れる第三の音声を音声出力装置3から外部出力することが可能となるとともに、第三の音声が文字起こしの対象として設定されている場合、第三の音声を仮想音声デバイス32に出力することが可能となる。
【0036】
仮想音声デバイス32は、音声出力仮想デバイスであり、出力先として受け取った音声を自動的に仮想音声デバイス33に流す機能を有する。
仮想音声デバイス33は、音声入力仮想デバイスであり、仮想音声デバイス32に流れてきた音声を入力音声として扱う。
すなわち、仮想音声デバイス32及び仮想音声デバイス33は、出力されてきた第一の音声、第二の音声、及び/又は第三の音声を取得することができ、第一音声取得手段、第二音声取得手段、第三音声取得手段としての機能を実現する。仮想音声デバイス32及び仮想音声デバイス33は、出力されてきた第一の音声、第二の音声、及び/又は第三の音声の全てを1対で(単独で)取得する構成のため(すなわち、第一音声取得手段、第二音声取得手段、第三音声取得手段が同一のため)、出力されてきた複数の音声を集約することができる。
【0037】
文字起こし部34は、音声の入力元デバイスとして仮想音声デバイス33を指定して、仮想音声デバイス33により入力された音声を取得して文字に変換し、記憶部13に記憶させる。
【0038】
文字起こしアプリ131の図2に示す各ブロックは、例えば、操作部14により終了が指示されるまで上述のように動作し、ユーザーにより文字起こし対象として選択された音声を取得して文字起こしを行う。
【0039】
このように、第1実施形態の文字起こしアプリ131によれば、会議通話アプリ132でのオンライン会議中に音声入力装置2から入力された第一の音声、通信ネットワークNを通じて入力された会議相手の第二の音声を取得して文字起こしをすることができる。すなわち、オンラインから入手した音声と音声入力装置から入手した音声の文字起こしができる。そのため、会議参加者全員がそれぞれの端末装置で文字起こしアプリ131を利用しなくても、会議参加者のうちひとりが文字起こしアプリ131を利用すれば、会議全体の文字起こしを行うことが可能となる。また、どの会議通話アプリ132と併用してもオンライン会議の文字起こしが可能となる。また、端末装置1内で再生されている第三の音声を取得して文字起こしをすることができるため、音声コンテンツや映像コンテンツの音声を文字起こしすることが可能となる。また、第一の音声~第三の音声のどの音声を文字起こしの対象にするのかをユーザーが選択することができ、選択された音声のみを取得して文字起こしするため、ユーザーが所望する音声のみを対象として文字起こしすることが可能となる。さらに、選択された音声が複数の場合、複数の音声を集約して文字起こしすることが可能となる。
【0040】
<第2の実施形態>
次に、第2の実施形態について説明する。
第2の実施形態において、端末装置1の記憶部13には、第1の実施形態における文字起こしアプリ131の代わりに、文字起こしアプリ134が記憶されている。
以下、CPU11が文字起こしアプリ134を実行することにより実現される機能について説明する。
【0041】
図5は、CPU11が文字起こしアプリ134を実行することにより実現される音声取得に係る機能及び音声の流れを示す図である。図5に示すように、CPU11と文字起こしアプリ134との協働により、音声入力装置2から入力された第一の音声、通信ネットワークNを通じて会議通話アプリ132から入力された会議相手の第二の音声、端末装置1内で再生されている第三の音声を取得して、取得した音声の文字起こしを行う。図5における点線内のブロックが、CPU11と文字起こしアプリ134との協働により実現される機能である。すなわち、文字起こしアプリ134は、CPU11との協働により、CPU11に、音声入出力部30b、仮想音声デバイス32a~32c、仮想音声デバイス33a~33c、文字起こし部34a~34cとしての機能を実現させる。
【0042】
ここで、第二の音声を文字起こしアプリ134で利用できるようにするためには、会議通話アプリ132で予めユーザー操作により音声の出力先デバイスを仮想音声デバイス32aに設定しておく必要がある。そこで、文字起こしアプリ134は、起動された際に、CPU11との協働により、例えば、「使用する会議通話アプリの音声の出力先デバイスを仮想音声デバイス32aに設定しておく必要があります」等のメッセージを表示部15に表示し、ユーザーに設定の確認を促すことが好ましい。
また、第三の音声を文字起こしアプリ134で利用できるようにするためには、音声再生アプリ133の音声の出力先デバイスが仮想音声デバイス32cとなる必要があり、そのためには、一般的に、OSにおける音声の出力先デバイスが仮想音声デバイス32cに指定されている必要がある。そこで、文字起こしアプリ134は、起動されると、CPU11との協働により、自動的にOSの音声出力先デバイスを仮想音声デバイス32cに切り替える。
【0043】
以下、図5を参照して、文字起こしアプリ134を利用したオンライン会議における音声の取得~文字起こしの流れの、第1の実施形態と異なる部分について説明する。
【0044】
図5に示すように、会議通話アプリ132の音声出力部132bは、会議相手の端末装置5から送信された音声である第二の音声が通信ネットワークNを通じて通信部16により入力されると、入力された第二の音声を設定に基づき仮想音声デバイス32aに出力する。
【0045】
仮想音声デバイス32aは、音声出力仮想デバイスであり、出力先として受け取った第二の音声を自動的に仮想音声デバイス33aに流す。
仮想音声デバイス33aは、音声入力仮想デバイスであり、仮想音声デバイス32aに流れてきた第二の音声を入力音声として扱う。
すなわち、仮想音声デバイス32a及び仮想音声デバイス33aは、通信ネットワークNを通じて会議通話アプリ132から入力された会議相手の音声である第二の音声を取得することができ、第二音声取得手段としての機能を実現する。
【0046】
文字起こし部34aは、音声の入力元デバイスとして仮想音声デバイス33aを指定し、仮想音声デバイス33aにより入力された第二の音声を取得して文字に変換する。また、文字起こし部34aは、仮想音声デバイス33aから入力された第二の音声を音声出力装置3に出力する。
これにより、会議相手の音声を文字起こしすることが可能となるとともに、音声出力装置3から外部出力することが可能となる。
【0047】
また、音声入出力部30bは、音声の入力元デバイスとして音声入力装置2を指定して、音声入力装置2から入力された第一の音声を入力音声として取得する。また、出力先デバイスとして仮想音声デバイス32bを指定して、音声入力装置2から流れてきた第一の音声を仮想音声デバイス32bに出力する。
【0048】
仮想音声デバイス32bは、音声出力仮想デバイスであり、出力先として受け取った第一の音声を自動的に仮想音声デバイス33bに流す。
仮想音声デバイス33bは、音声入力仮想デバイスであり、仮想音声デバイス32bに流れてきた第一の音声を入力音声として扱う。
すなわち、仮想音声デバイス32b及び仮想音声デバイス33bは、音声入力装置2により入力されたユーザーの音声である第一の音声を取得することができ、第一音声取得手段としての機能を実現する。
【0049】
文字起こし部34bは、音声の入力元デバイスとして仮想音声デバイス33bを指定し、仮想音声デバイス33bにより入力された第一の音声を取得して文字に変換する。
これにより、ユーザーの音声を文字起こしすることが可能となる。
【0050】
また、音声再生アプリ133により音声再生が行われている場合、音声再生アプリ133により端末装置1内で再生されている音声である第三の音声は、OSにより仮想音声デバイス32cに出力される。
【0051】
仮想音声デバイス32cは、音声出力仮想デバイスであり、出力先として受け取った第三の音声を自動的に仮想音声デバイス33cに流す。
仮想音声デバイス33cは、音声入力仮想デバイスであり、仮想音声デバイス32cに流れてきた第三の音声を入力音声として扱う。
すなわち、仮想音声デバイス32c及び仮想音声デバイス33cは、音声再生アプリ133により再生され、端末装置1内を流れる第三の音声を取得することができ、第三音声取得手段としての機能を実現する。
【0052】
文字起こし部34cは、音声の入力元デバイスとして仮想音声デバイス33cを指定し、仮想音声デバイス33cにより入力された第三の音声を取得して文字に変換する。また、文字起こし部34cは、仮想音声デバイス33cから入力された第三の音声を音声出力装置3に出力する。
これにより、音声再生アプリ133により再生されている音声を文字起こしすることが可能となるとともに、音声出力装置3から外部出力することが可能となる。
【0053】
文字起こしアプリ134の図5に示す各ブロックは、例えば、操作部14により終了が指示されるまで上述のように動作し、第一の音声~第三の音声を取得して文字起こしを行うとともに、第二の音声及び第三の音声を音声出力装置3から出力する。
【0054】
このように、第2実施形態の文字起こしアプリ134によれば、会議通話アプリ132でのオンライン会議中に音声入力装置2から入力された第一の音声、通信ネットワークNを通じて入力された会議相手の第二の音声を取得してそれぞれを文字起こしすることができる。すなわち、オンラインから入手した音声と音声入力装置から入手した音声の文字起こしができる。そのため、会議参加者全員がそれぞれの端末装置で文字起こしアプリ131を利用しなくても、会議参加者のうちひとりが文字起こしアプリ131を利用すれば、会議全体の文字起こしを行うことが可能となる。また、どの会議通話アプリ132と併用してもオンライン会議の参加メンバーのそれぞれの音声を文字起こしすることが可能となる。また、音声再生アプリ133により再生されている第三の音声を取得して第一の音声、第二の音声とは別に文字起こしをすることができるため、端末装置1内で再生されている音声コンテンツや映像コンテンツの音声を会議の音声とは別に文字起こしすることが可能となる。
【0055】
<第3の実施形態>
次に、第3の実施形態について説明する。
第3の実施形態において、端末装置1の記憶部13には、第1の実施形態における文字起こしアプリ131の代わりに、文字起こしアプリ135が記憶されている。
以下、CPU11が文字起こしアプリ135を実行することにより実現される機能について説明する。
【0056】
図6は、CPU11が文字起こしアプリ135を実行することにより実現される音声取得に係る機能及び音声の流れを示す図である。図6に示すように、CPU11と文字起こしアプリ135との協働により、音声入力装置2から入力された第一の音声、通信ネットワークNを通じて会議通話アプリ132から入力された会議相手の第二の音声、音声再生アプリ133により端末装置1内で再生されている第三の音声を取得して、取得した音声の文字起こしを行う。図6における点線内のブロックが、CPU11と文字起こしアプリ135との協働により実現される機能である。すなわち、文字起こしアプリ135は、CPU11との協働により、CPU11に、音声入出力部30b、複数出力音声デバイス31a´、複数出力音声デバイス31c´、仮想音声デバイス32a~32c、仮想音声デバイス33a~33c、文字起こし部34a´、文字起こし部34、文字起こし部34c´としての機能を実現させる。
【0057】
第二の音声を文字起こしアプリ135で利用できるようにするためには、会議通話アプリ132で予めユーザー操作により音声の出力先デバイスを複数出力音声デバイス31a´に設定しておく必要がある。そこで、文字起こしアプリ135は、起動された際に、CPU11との協働により、例えば、「使用する会議通話アプリの音声の出力先デバイスを複数出力音声デバイス31a´に設定しておく必要があります」等のメッセージを表示部15に表示し、ユーザーに設定の確認を促すことが好ましい。
また、第三の音声を文字起こしアプリ135で利用できるようにするためには、音声再生アプリ133の音声の出力先デバイスが複数出力音声デバイス31c´となる必要があり、そのためには、一般的に、OSにおける音声の出力先デバイスが複数出力音声デバイス31c´に指定されている必要がある。そこで、文字起こしアプリ135は、起動されると、CPU11との協働により、自動的にOSの音声出力先デバイスを複数出力音声デバイス31c´に切り替える。
【0058】
以下、図6を参照して、文字起こしアプリ135を利用したオンライン会議における音声の取得~文字起こしの流れについて、第1及び第2の実施形態と異なる部分について説明する。
【0059】
会議通話アプリ132の音声出力部132bは、会議相手の端末装置5から送信された音声である第二の音声が通信ネットワークNを通じて通信部16により入力されると、入力された第二の音声を設定に基づき複数出力音声デバイス31a´に出力する。
【0060】
複数出力音声デバイス31a´は、音声出力仮想デバイスであり、音声分配手段として複数の音声デバイスに音声を出力可能に構成されている。複数出力音声デバイス31a´は、音声の出力先デバイスとして音声出力装置3と仮想音声デバイス32aを指定して、会議通話アプリ132の音声出力部132bから出力された第二の音声を音声出力装置3と仮想音声デバイス32aに分配して出力する。
これにより、会議の相手の音声である第二の音声を音声出力装置3から外部出力することが可能となるとともに、第二の音声を仮想音声デバイス32aに出力することが可能となる。
【0061】
仮想音声デバイス32aは、出力先として受け取った第二の音声を自動的に仮想音声デバイス33aに流す。
仮想音声デバイス33aは、仮想音声デバイス32aに流れてきた第二の音声を入力音声として扱う。
【0062】
文字起こし部34a´は、音声の入力元デバイスとして仮想音声デバイス33aを指定し、仮想音声デバイス33aから入力される第二の音声を取得して文字に変換する。
【0063】
また、音声再生アプリ133により音声再生が行われている場合、音声再生アプリ133により端末装置1内で再生されている音声である第三の音声は、OSにより複数出力音声デバイス31c´に出力される。
【0064】
複数出力音声デバイス31c´は、音声出力仮想デバイスであり、音声分配手段として複数の音声デバイスに音声を出力可能に構成されている。複数出力音声デバイス31c´は、音声の出力先デバイスとして音声出力装置3と仮想音声デバイス32cを指定して、音声再生アプリ133により再生された第三の音声を音声出力装置3と仮想音声デバイス32cに分配して出力する。
これにより、音声再生アプリ133により再生された第三の音声を音声出力装置3から出力することが可能となるとともに、第三の音声を仮想音声デバイス32cに出力することが可能となる。
【0065】
仮想音声デバイス32cは、出力先として受け取った第三の音声を自動的に仮想音声デバイス33cに流す。
仮想音声デバイス33cは、仮想音声デバイス32cに流れてきた第三の音声を入力音声として扱う。
【0066】
文字起こし部34c´は、音声の入力元デバイスとして仮想音声デバイス33cを指定し、仮想音声デバイス33cから入力される第三の音声を取得して文字に変換する。
【0067】
第一の音声の流れ及び文字起こしについては、第2の実施形態で説明したものと同様であるので説明を援用する。
文字起こしアプリ135の図6に示す各ブロックは、例えば、操作部14により終了が指示されるまで上述のように動作して、第一の音声~第三の音声を取得して文字起こしを行うとともに、第二の音声及び第三の音声を音声出力装置3から出力する。
【0068】
このように、第3実施形態の文字起こしアプリ135によれば、会議通話アプリ132でのオンライン会議中に音声入力装置2から入力された第一の音声、通信ネットワークNを通じて入力された会議相手の第二の音声を取得してそれぞれを文字起こしすることができる。すなわち、オンラインから入手した音声と音声入力装置から入手した音声の文字起こしができる。そのため、会議参加者全員がそれぞれの端末装置で文字起こしアプリ131を利用しなくても、会議参加者のうちひとりが文字起こしアプリ131を利用すれば、会議全体の文字起こしを行うことが可能となる。また、どの会議通話アプリ132と併用してもオンライン会議の参加メンバーのそれぞれの音声を別々に文字起こしすることが可能となる。また、音声再生アプリ133により再生されている第三の音声を取得して第一の音声、第二の音声とは別に文字起こしをすることができるため、端末装置1内で再生されている音声コンテンツや映像コンテンツの音声を会議の音声とは別に文字起こしすることが可能となる。
【0069】
以上、本発明の第1~第3の実施形態について説明したが、上記実施形態における記述は、本発明に係る後処理システムの好適な一例であり、これに限定されるものではない。
【0070】
例えば、上記実施形態では、第一の音声~第三の音声を取得して文字起こしを行うこととして説明したが、文字起こしに限らず、録音等の他の用途に音声を活用してもよい。
【0071】
また、上記実施形態では、会議相手の音声は、音声の出力先を設定可能な会議通話アプリ132から取得されることとして説明したが、音声の出力先を設定する機能のない会議通話アプリケーションにより再生される会議相手の音声や、ウェブによる会議システムにより再生される会議相手の音声は、第1の実施形態~第3の実施形態で説明した第三音声として取得し、文字起こしすることが可能である。
【0072】
また、上記実施形態では、単一の文字起こしアプリケーションによって音声の取得から文字起こしまでを実現したがこれに限らず、本発明は、音声の流れをコントロールする機能部と文字起こしや録音等の音声の活用を行う機能部が別々のアプリケーションを組み合わせることによって実現される場合にも適用される。
また、上記実施形態では、本発明を適用した文字起こしアプリケーションを会議通話アプリケーションと併用したが、これに限らず、会議通話アプリケーションに限らないアプリケーションに内蔵されても良い。
【0073】
その他、文字起こしアプリとCPUとの協働により実現する機能の細部動作に関しても、本発明の趣旨を逸脱することのない範囲で適宜変更可能である。
【符号の説明】
【0074】
131 文字起こしアプリ
132 会議通話アプリ
133 音声再生アプリ
図1
図2
図3
図4
図5
図6