(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024113943
(43)【公開日】2024-08-23
(54)【発明の名称】音声処理のためのプログラム、システム、および方法
(51)【国際特許分類】
H04R 3/00 20060101AFI20240816BHJP
G10L 15/28 20130101ALI20240816BHJP
【FI】
H04R3/00 310
H04R3/00
G10L15/28 230Z
【審査請求】有
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2023019237
(22)【出願日】2023-02-10
(71)【出願人】
【識別番号】515018091
【氏名又は名称】株式会社オルツ
(74)【代理人】
【識別番号】100078282
【弁理士】
【氏名又は名称】山本 秀策
(74)【代理人】
【識別番号】100107489
【弁理士】
【氏名又は名称】大塩 竹志
(74)【代理人】
【識別番号】100113413
【弁理士】
【氏名又は名称】森下 夏樹
(74)【代理人】
【識別番号】100181674
【弁理士】
【氏名又は名称】飯田 貴敏
(74)【代理人】
【識別番号】100181641
【弁理士】
【氏名又は名称】石川 大輔
(74)【代理人】
【識別番号】230113332
【弁護士】
【氏名又は名称】山本 健策
(72)【発明者】
【氏名】吉村 歩
(72)【発明者】
【氏名】手束 朗
【テーマコード(参考)】
5D220
【Fターム(参考)】
5D220AA50
5D220EE11
(57)【要約】
【課題】ユーザの負担を軽減し、かつ、音質低下を回避して、音声アプリケーションから出力される音声データに対して音声処理を行うこと
【解決手段】本発明は、音声処理のためのプログラムを提供し、前記プログラムは、プロセッサを備えるコンピュータにおいて実行され、前記プログラムは、音声データを出力する音声アプリケーションから音声データを受信することと、前記受信された音声データに対して、音声処理を行うこと、および前記音声処理を行うことなく、音声として出力することの両方を行うこととを含む処理を前記プロセッサに行わせる。
【選択図】
図1
【特許請求の範囲】
【請求項1】
音声処理のためのプログラムであって、前記プログラムは、プロセッサを備えるコンピュータにおいて実行され、前記プログラムは、
音声データを出力する音声アプリケーションから音声データを受信することと、
前記受信された音声データに対して、
音声処理を行うこと、および
前記音声処理を行うことなく、音声として出力すること
の両方を行うことと
を含む処理を前記プロセッサに行わせる、プログラム。
【請求項2】
前記音声処理は、前記音声データの音声の認識、前記音声データの音声の話者の識別、前記音声データの記憶のうちの少なくとも1つを含む、請求項1に記載のプログラム。
【請求項3】
前記コンピュータの外部の音声を示す外部音声データを受信することをさらに備え、
前記処理を行うことは、前記受信された音声データと、前記受信された外部音声データとに対して前記音声処理を行うことを含む、請求項1に記載のプログラム。
【請求項4】
前記音声処理は、前記音声データの音声および前記外部音声データの音声の認識、前記音声データの音声の話者および前記外部音声データの音声の話者の識別、前記音声データおよび前記外部音声データの記憶のうちの少なくとも1つを含む、請求項3に記載のプログラム。
【請求項5】
前記音声アプリケーションから前記音声データを受信することは、
前記音声アプリケーションから前記音声データを受信した仮想デバイスから出力された前記音声データを受信することを含む、請求項1に記載のプログラム。
【請求項6】
音声処理のための方法であって、
音声データを出力する音声アプリケーションから音声データを受信することと、
前記受信された音声データに対して、
音声処理を行うこと、および
前記音声処理を行うことなく、音声として出力すること
の両方を行うことと
を含む、方法。
【請求項7】
音声処理のためのシステムであって、
音声データを出力する音声アプリケーションから音声データを受信する受信手段と、
前記受信された音声データに対して、音声処理を行う処理手段と、
前記受信された音声データに対して、前記音声処理を行うことなく、音声として出力する出力手段と
を備えるシステム。
【請求項8】
音声データを出力する音声アプリケーションと共に利用される音声処理のための処理アプリケーションに組み込まれることが可能なプログラムであって、前記処理アプリケーションは、プロセッサを備えるコンピュータにおいて実行され、前記音声アプリケーションから音声データを受信することと、前記受信された音声データに対して音声処理を行うこととを前記プロセッサに行わせ、前記プログラムは、
前記音声処理を行うことなく、前記コンピュータの外部に音声として出力すること
を前記プロセッサにさらに行わせる、プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声処理のためのプログラム、システム、および方法に関する。
【背景技術】
【0002】
音声データを出力するアプリケーション(以下、「音声アプリケーション」という)が知られている。音声アプリケーションは、例えば、音楽再生アプリケーション、動画再生アプリケーション、音声通話アプリケーション、ビデオ通話アプリケーション等である。
【0003】
今日では、音声アプリケーションから出力される音声データに対して音声処理を行いたいというニーズがある。音声処理は、例えば、音声認識、話者識別、記憶等である。例えば、ユーザは、音声データに対して音声認識を行うことで、音声データをテキストデータに変換し、音声をテキストとして保存することを所望する。例えば、ユーザは、音声データに対して音声認識を行い、音声データをテキストデータに変換し、かつ、音声データに対して話者識別を行うことで、音声を話者毎にテキストとして保存することを所望する。これは、例えば、議事録として利用され得る(例えば、特許文献1を参照)。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明は、ユーザの負担を軽減し、かつ、音質低下を回避して、音声アプリケーションから出力される音声データに対して音声処理を行うことを目的とする。
【課題を解決するための手段】
【0006】
本発明は、音声処理を行うシステムまたは処理アプリケーションが、受信した音声をそのまま、すなわち、音声処理を行うことなく出力することを可能にすることを特徴の1つとしている。本発明は、例えば、以下の項目を提供する。
(項目1)
音声処理のためのプログラムであって、前記プログラムは、プロセッサを備えるコンピュータにおいて実行され、前記プログラムは、
音声データを出力する音声アプリケーションから音声データを受信することと、
前記受信された音声データに対して、
音声処理を行うこと、および
前記音声処理を行うことなく、音声として出力すること
の両方を行うことと
を含む処理を前記プロセッサに行わせる、プログラム。
(項目2)
前記音声処理は、前記音声データの音声の認識、前記音声データの音声の話者の識別、前記音声データの記憶のうちの少なくとも1つを含む、上記項目に記載のプログラム。
(項目3)
前記コンピュータの外部の音声を示す外部音声データを受信することをさらに備え、
前記処理を行うことは、前記受信された音声データと、前記受信された外部音声データとに対して前記音声処理を行うことを含む、上記項目のいずれか一項に記載のプログラム。
(項目4)
前記音声処理は、前記音声データの音声および前記外部音声データの音声の認識、前記音声データの音声の話者および前記外部音声データの音声の話者の識別、前記音声データおよび前記外部音声データの記憶のうちの少なくとも1つを含む、上記項目のいずれか一項に記載のプログラム。
(項目5)
前記音声アプリケーションから前記音声データを受信することは、
前記音声アプリケーションから前記音声データを受信した仮想デバイスから出力された前記音声データを受信することを含む、上記項目のいずれか一項に記載のプログラム。
(項目6)
音声処理のための方法であって、
音声データを出力する音声アプリケーションから音声データを受信することと、
前記受信された音声データに対して、
音声処理を行うこと、および
前記音声処理を行うことなく、音声として出力すること
の両方を行うことと
を含む、方法。
(項目6A)
上記項目の1つまたは複数に記載の特徴を備える、項目6に記載の方法。
(項目7)
音声処理のためのシステムであって、
音声データを出力する音声アプリケーションから音声データを受信する受信手段と、
前記受信された音声データに対して、音声処理を行う処理手段と、
前記受信された音声データに対して、前記音声処理を行うことなく、音声として出力する出力手段と
を備えるシステム。
(項目7A)
上記項目の1つまたは複数に記載の特徴を備える、項目7に記載のシステム。
(項目8)
音声データを出力する音声アプリケーションと共に利用される音声処理のための処理アプリケーションに組み込まれることが可能なプログラムであって、前記処理アプリケーションは、プロセッサを備えるコンピュータにおいて実行され、前記音声アプリケーションから音声データを受信することと、前記受信された音声データに対して音声処理を行うこととを前記プロセッサに行わせ、前記プログラムは、
前記音声処理を行うことなく、前記コンピュータの外部に音声として出力すること
を前記プロセッサにさらに行わせる、プログラム。
(項目8A)
上記項目の1つまたは複数に記載の特徴を備える、項目7に記載のプログラム。
【発明の効果】
【0007】
本発明によれば、音声処理のためのプログラム等、または、音声処理のための処理アプリケーションに組み込まれるプログラムが提供され、これにより、ユーザの負担なしに、かつ、音質低下を回避して、音声アプリケーションから出力される音声データに対して音声処理を行うことが可能になる。
【図面の簡単な説明】
【0008】
【
図1】「おうむ返し」機能を有する処理アプリケーション40を用いて、音声アプリケーションから出力された音声データに対して音声処理を行うためのフローの一例を示す図
【
図2】音声処理のためのシステム100の構成の一例を示す図
【
図3A】システム100を実装する端末装置200の構成の一例を示す図
【
図3B】システム100を実装するサーバ装置300の構成の一例を示す図
【
図4A】声処理のためのシステム100における処理400の一例を示すフローチャート
【
図4B】音声処理のためのシステム100における処理410の一例を示すフローチャート
【
図5A】音声アプリケーションから出力された音声データに対して同一の端末装置を用いて音声処理を行うために行われている従来のフローを概略的に示す図
【
図5B】
図5Aのフローで生じ得る音質低下を回避するように行われる別のフローを概略的に示す図
【発明を実施するための形態】
【0009】
(定義)
本明細書において、「音声アプリケーション」とは、音声データを出力する機能を有するソフトウェアをいう。音声アプリケーションは、音声データを出力することができる限り、任意のソフトウェアであり得る。音声アプリケーションは、例えば、音楽再生アプリケーション、動画再生アプリケーション、音声通話アプリケーション、ビデオ通話アプリケーション等である。
【0010】
本明細書において、「音声データ」とは、音声を表すデータをいう。音声データは、スピーカ、イヤホン等の音声出力手段によって音声に変換されて出力されることができる。
【0011】
本明細書において、「音声処理」とは、音声データに対して加工、分析、変換、転送および/または記憶を行うことをいう。
【0012】
本明細書において、「処理アプリケーション」とは、音声データに対して音声処理を行うためのソフトウェアをいう。処理アプリケーションは、例えば、議事録作成アプリケーション、文字起こしアプリケーション、音声通話アプリケーション、音声記録アプリケーション、音声対話アプリケーション、音声制御・指示アプリケーション、質問応答アプリケーション等である。処理アプリケーションは、音声アプリケーションとは別のアプリケーションである。処理アプリケーションは、複数の音声アプリケーションからの音声データのそれぞれに対して同様に音声処理を行うことができる。
【0013】
以下、図面を参照しながら、本発明の実施の形態を説明する。
【0014】
1.音声アプリケーションからの音声データに対する音声処理
図5Aは、音声アプリケーションから出力された音声データに対して同一の端末装置を用いて音声処理を行うために行われている従来のフローを概略的に示す。
【0015】
本例では、ユーザUが、端末装置200を利用することを例に説明する。端末装置200は、音声データを出力する音声アプリケーション10および音声データに対して音声処理を行う処理アプリケーション20の両方を実行可能である。音声アプリケーション10は、音声通話アプリケーションであり、通話相手の音声を表す音声データが出力されるものとする。処理アプリケーション20は、議事録生成アプリケーションであり、音声データに対して音声認識、話者識別、および記憶の処理を行うことにより、会話をテキストで記憶することができるものとする。なお、音声アプリケーション10および処理アプリケーション20は、端末装置200にインストールされたネイティブアプリケーションであってもよいし、Webブラウザ上で動作するWebアプリケーションであってもよい。
【0016】
端末装置200は、音声出力部240(スピーカ)を有しており、端末装置200の外部に音声を出力することができる。端末装置200は、音声入力部250(マイク)を有しており、端末装置200の外部から音声を入力することができる。
【0017】
まず、ステップS1で、音声アプリケーション10が、音声データを音声出力部240に渡す。音声出力部240は、音声データを音声に変換して出力する。
【0018】
ステップS2では、ユーザUは、音声出力部240から出力された音声を聞くことができる。これにより、ユーザUは、通話相手の音声を認識する。なお、図中の破線は、空気中を伝播する音波によって音声が伝わることを表している。
【0019】
音声出力部240から出力された音声は、ステップS3において、音声入力部250によって拾われ、音声入力部250を介して端末装置200に入力される。
【0020】
また、ユーザUが発した音声は、ステップS4において、音声入力部250によって拾われ、音声入力部250を介して端末装置200に入力される。
【0021】
このようにして、音声アプリケーション10からの音声データに対応する音声およびユーザUの音声の両方が端末装置200に入力されることになる。
【0022】
ステップS5では、音声入力部250を介して入力された音声が音声データに変換されて、処理アプリケーション20に渡される。これにより、処理アプリケーション20は、音声アプリケーション10からの音声データに相当する音声データと、ユーザUの音声を表す音声データとの両方に対して音声処理を行うことができる。
【0023】
上述した例では、ステップS3で、音声出力部240によって端末装置200の外部に出力された音声を音声入力部250が受け取る。このとき、音質の低下が不可避である。例えば、音声出力部240の性能が悪いと、音声出力部240から出力された際に音質が低下し得る。例えば、音声出力部240から音声入力部250まで空気中を音波が伝播するときに音波が減衰し、音質が低下し得る。例えば、音声入力部250の性能が悪いと、音声入力部250が音声を受け取るときに音質が低下し得る。
【0024】
従って、音質の低下を回避するために、音声アプリケーション10からの音声データを処理アプリケーション20に入力する際には、音声出力部240および音声出力部240を介して入力するべきではない。
【0025】
図5Bは、
図5Aのフローで生じ得る音質低下を回避するように行われる別のフローを概略的に示す。
【0026】
本例でも、
図5Aに示される例と同様に、ユーザUが、音声出力部240(イヤホン)と音声入力部250(マイク)とを有する端末装置200を利用し、端末装置200は、音声通話アプリケーションである音声アプリケーション10および議事録生成アプリケーションである処理アプリケーション20の両方を実行可能であることを例に説明する。音声アプリケーション10および処理アプリケーション20は、端末装置200にインストールされたネイティブアプリケーションであってもよいし、Webブラウザ上で動作するWebアプリケーションであってもよい。
【0027】
本例では、音声アプリケーション10からの音声データを処理アプリケーション20に音声出力部240および音声出力部240を介して入力するのではなく、音声アプリケーション10および処理アプリケーション20とは別に端末装置200に実装される仮想ミキサー30を介して入力する。
【0028】
まず、ステップS11で、音声アプリケーション10が、音声データを仮想ミキサー30に渡す。仮想ミキサーとは、物理的な実体のあるミキサーではなく、仮想的に実装されるミキサーであり、仮想ミキサーは、端末装置200にインストールされたネイティブアプリケーションによって実現される。仮想ミキサー30は、入力された音声データを複数の出力にルーティングするルーティング機能を有することができる。このルーティング機能により、音声アプリケーション10からの音声データを音声出力部240と、処理アプリケーション20との両方に出力することができる。
【0029】
ステップS12では、仮想ミキサー30が、音声データを音声出力部240に渡す。音声出力部240は、音声データを音声に変換して出力する。
【0030】
ステップS13では、ユーザUは、音声出力部240から出力された音声を聞くことができる。これにより、ユーザUは、通話相手の音声を認識する。なお、音声出力部240がイヤホンであるため、通話相手の音声は音声入力部250まで届かず、通話相手の音声が音声入力部250によって拾われることはない。
【0031】
ステップS14では、仮想ミキサー30が、音声データを処理アプリケーション20に渡す。
【0032】
ユーザUが発した音声は、ステップS15において、音声入力部250によって拾われ、音声入力部250を介して端末装置200に入力される。
【0033】
ステップS16では、音声入力部250を介して入力された音声が音声データに変換されて、処理アプリケーション20に渡される。
【0034】
このようにして、処理アプリケーション20は、音声アプリケーション10からの音声データと、ユーザUの音声を表す音声データとの両方を受け取り、これらに対して音声処理を行うことができる。
【0035】
上述した例では、音声アプリケーション10からの音声データが端末装置200内のルーティングのみで処理アプリケーション20に入力されるため、音声データを音声に変換する必要がなく、音質の低下を回避することができる。
【0036】
しかしながら、仮想ミキサー30は、音声アプリケーション10および処理アプリケーション20とは別のネイティブアプリケーションによって実現されるため、ユーザUは、音声アプリケーション10および処理アプリケーション20とは別に仮想ミキサーを起動し、ルーティングを設定する必要がある。これは、ユーザUにとって煩わしく、特に、コンピュータの知識が乏しいユーザにとっては非常に負担となり得る。
【0037】
本発明の発明者は、鋭意研究の結果、ユーザの負担を軽減し、かつ、音質低下を回避して、音声データに対して音声処理を行うことができるように、「おうむ返し」機能を処理アプリケーションに組み込むことを開発した。
【0038】
図1は、「おうむ返し」機能を有する処理アプリケーション40を用いて、音声アプリケーションから出力された音声データに対して音声処理を行うためのフローの一例を示す。
【0039】
本例でも、
図5Aおよび
図5Bに示される例と同様に、ユーザUが、音声出力部240(イヤホン)と音声入力部250(マイク)とを有する端末装置200を利用し、端末装置200は、音声通話アプリケーションである音声アプリケーション10および議事録生成アプリケーションである処理アプリケーション40の両方を実行可能であることを例に説明する。音声アプリケーション10および処理アプリケーション20は、端末装置200にインストールされたネイティブアプリケーションであってもよいし、Webブラウザ上で動作するWebアプリケーションであってもよい。
【0040】
図5Aおよび
図5Bに示される例とは異なり、処理アプリケーション40は、「おうむ返し」機能を有している。「おうむ返し」機能とは、処理アプリケーション40に入力された音声データに対して音声処理を行うことなく、その音声データを処理アプリケーション40から出力することを可能にする機能である。
【0041】
「おうむ返し」機能は、例えば、処理アプリケーション40内に仮想プレイヤーを構築し、仮想プレイヤーの出力先を音声出力部240に設定し、音声アプリケーション10からの音声データを取得して仮想プレイヤーで再生することにより、達成され得る。この方式は、音声アプリケーション10からの音声データの出力先を選択することができるという利点がある。逆にこの方式でなければ音声アプリケーション10からの音声データの出力先を選択することができない。
【0042】
まず、ステップS101で、音声アプリケーション10が、音声データを処理アプリケーション40に渡す。音声アプリケーション10は、端末装置200内に実装される仮想デバイス(すなわち、仮想スピーカと仮想マイクとのペア)を介して、処理アプリケーション40に音声データを渡すようにしてもよい。
【0043】
処理アプリケーション40は、音声データを受信すると、「おうむ返し」機能により音声データを音声出力部240に出力することと、音声データに対して音声処理を行うこととの両方を行うことになる。
【0044】
ステップS102では、処理アプリケーション40が、「おうむ返し」機能により音声データを音声出力部240に出力する。音声出力部240は、音声データを音声に変換して出力する。
【0045】
ステップS103では、ユーザUは、音声出力部240から出力された音声を聞くことができる。これにより、ユーザUは、通話相手の音声を認識する。なお、音声出力部240がイヤホンであるため、通話相手の音声は音声入力部250まで届かず、通話相手の音声が音声入力部250によって拾われることはない。
【0046】
ユーザUが発した音声は、ステップS104において、音声入力部250によって拾われ、音声入力部250を介して端末装置200に入力される。
【0047】
ステップS105では、音声入力部250を介して入力された音声が音声データに変換されて、処理アプリケーション40に渡される。
【0048】
このようにして、処理アプリケーション40は、音声アプリケーション10からの音声データと、ユーザUの音声を表す音声データとの両方を受け取り、これらに対して音声処理を行うことができる。
【0049】
上述した例では、音声アプリケーション10からの音声データが端末装置200内のルーティングのみで処理アプリケーション40に入力されるため、音声データを音声に変換する必要がなく、音質の低下を回避することができる。
【0050】
さらに、「おうむ返し」機能は、処理アプリケーション40に組み込まれている機能であるため、ユーザUが音声アプリケーション10および処理アプリケーション20とは別のアプリケーションを起動および設定する必要がなく、むしろ、処理アプリケーション40を起動するだけでよい。これにより、ユーザの負担を著しく軽減することができる。
【0051】
なお、上述した例では、処理アプリケーション40が1つの音声アプリケーション10からの音声データに対して音声処理を行うことを説明したが、本発明は、これに限定されない。処理アプリケーション40は、複数の音声アプリケーション10からの音声データのそれぞれに対して音声処理を行うことができる。従って、複数の音声アプリケーション10が存在する場合であっても、1つの処理アプリケーション40で対応することができる。
【0052】
また、上述した例では、ユーザUによる音声に対しても音声処理することを説明したが、これは必ずしも必要ではない。音声アプリケーション10からの音声データに対してのみ音声処理することも本発明の範囲内である。この場合、ステップS104、S105は省略され得、音声入力部250も省略され得る。
【0053】
上述した処理アプリケーション40は、後述する音声処理のためのシステムによって実現されることができる。
【0054】
2.音声処理のためのシステムの構成
図2は、音声処理のためのシステム100の構成の一例を示す。
【0055】
システム100は、受信手段110と、処理手段120と、出力手段130とを備えている。
【0056】
受信手段110は、少なくとも1つの音声アプリケーションから音声データを受信するように構成されている。
【0057】
少なくとも1つの音声アプリケーションは、システム100の外部で実行されているアプリケーションであってもよいし、システム100内で実行されているアプリケーションであってもよい。少なくとも1つの音声アプリケーションは、システム100を実装する端末装置200またはシステム100にアクセス可能な端末装置200において実行されているアプリケーションである。音声アプリケーションは、例えば、端末装置200にインストールされているネイティブアプリケーションであってもよいし、端末装置200と通信するサーバ装置にインストールされてWebブラウザ上で動作するWebアプリケーションであってもよい。
【0058】
音声データは、任意の形式で受信されることができる。例えば、音声アプリケーションから出力される形式のまま受信されるようにしてもよいし、処理手段120によって処理可能な形式で受信されるようにしてもよい。受信された音声データが処理手段120によって処理可能な形式でない場合、受信手段110または処理手段120は、音声データの形式を変更するようにしてもよい。
【0059】
受信手段110は、音声アプリケーションから音声データを直接受信してもよいが、仮想デバイスを介して音声データを受信することもできる。すなわち、受信手段110は、音声アプリケーションから音声データを受信した仮想デバイスから出力された音声データを受信することができる。仮想デバイスは、物理的な実体のあるデバイスではなく、仮想的に実装されるデバイスである。音声アプリケーションからの音声データを受信手段110に出力するための仮想デバイスは、仮想スピーカと仮想マイクとのペアであり得る。音声アプリケーションからの音声データは、仮想スピーカによって仮想的に再生され、仮想的に再生された音声が仮想マイクによって仮想的に取得されて音声データとなり、その音声データが受信手段110へと出力され、受信手段110はこれを受信する。仮想ではない実際のデバイスを使う場合、空気中を音波が伝わるため、その際に減衰が発生し、音声の品質が劣化するという問題がある。加えて仮想デバイスはネットワーク等からインストールすることによって利用が可能になり利用が簡便であるという利点がある。
【0060】
受信手段110によって受信された音声データは、処理手段120と出力手段130との両方に渡される。
【0061】
一実施形態において、受信手段110は、音声アプリケーションからの音声データに加えて、システム100の外部の音声を示す外部音声データを受信することができる。外部音声データは、端末装置200の音声入力部250を介して入力された音声の音声データであり得る。
【0062】
受信手段110によって受信された外部音声データは、処理手段120に渡される。
【0063】
処理手段120は、受信手段110によって受信された音声データに対して音声処理を行うように構成されている。
【0064】
処理手段120は、当該技術分野において公知の手法を用いて、音声データに対して音声処理を行うことができる。
【0065】
一例において、処理手段120は、音声データに対して音声認識を行うことができる。音声認識により、音声データは、テキストに変換され得る。
【0066】
一例において、処理手段120は、音声データに対して話者識別を行うことができる。話者識別により、音声データがどの話者による音声を表すかを特定することができる。
【0067】
一例において、処理手段120は、音声データを記憶手段(図示せず)に記憶することができる。
【0068】
上記の音声処理は、単独で行われてもよいし、組み合わせて行われてもよい。
【0069】
受信手段110によって外部音声データも受信された場合には、処理手段120は、音声データに対してのみならず、外部音声データに対しても同様の音声処理を行うことができる。
【0070】
具体的な例において、処理手段120は、音声データに対して音声認識を行い、かつ、話者識別を行い、かつ、音声認識されたテキストを識別された話者と関連付けて記憶するとともに、外部音声データに対して音声認識を行い、かつ、話者識別を行い、かつ、音声認識されたテキストを識別された話者と関連付けて記憶することで、会話の記録(例えば、議事録)を生成することができる。
【0071】
出力手段130は、受信手段110によって受信された音声データに対して、処理手段120による音声処理を行うことなく、当該音声データをシステム100の外部に出力するように構成されている。すなわち、出力手段130は、受信された音声データをそのまま出力することになる。いわゆる「おうむ返し」を行うことになる。
【0072】
出力手段130によって出力された音声データは、端末装置200の音声出力部240を介して音声として出力されることができる。これにより、端末装置200のユーザは、音声アプリケーションからの音声データの音声を聞くことができる。
【0073】
上述したシステム100は、端末装置200において実装されることができる。これは、例えば、上述した処理アプリケーション40が端末装置200のネイティブアプリケーションである場合であり得る。
【0074】
図3Aは、システム100を実装する端末装置200の構成の一例を示す。
【0075】
端末装置200は、通信インターフェース部210と、メモリ部220と、プロセッサ部230と、音声出力部240と、音声入力部250とを備える。
【0076】
通信インターフェース部210は、ネットワークを介した通信を制御する。端末装置200のプロセッサ部230は、通信インターフェース部210を介して、端末装置200の外部から情報を受信することが可能であり、端末装置200の外部に情報を送信することが可能である。通信インターフェース部210は、任意の方法で通信を制御し得る。端末装置200は、通信インターフェース部210を介して、後述するサーバ装置300または音声アプリケーションを提供するサーバ装置等と通信することができる。
【0077】
本発明のシステム100の受信手段110および出力手段130の少なくとも一部は、通信インターフェース部210によって実装されることができる。
【0078】
メモリ部220には、端末装置200における処理を実行するためのプログラムやそのプログラムの実行に必要とされるデータ等が格納されている。メモリ部220には、例えば、音声処理のためのプログラム(例えば、後述する
図4Aおよび
図4Bに示される処理を実現するプログラム、すなわち、処理アプリケーション40)が格納されている。メモリ部220には、例えば、少なくとも1つの音声アプリケーションが格納されていてもよい。ここで、プログラムをどのようにしてメモリ部2200に格納するかは問わない。例えば、プログラムは、メモリ部220にプリインストールされていてもよい。あるいは、プログラムは、ネットワークを経由してダウンロードされることによってメモリ部220にインストールされるようにしてもよい。あるいは、プログラムは、コンピュータ読み取り可能な記憶媒体に記憶され、コンピュータ読み取り可能な記憶媒体を読み取ることによってメモリ部220にインストールされるようにしてもよい。
【0079】
プロセッサ部230は、端末装置200全体の動作を制御する。プロセッサ部230は、メモリ部220に格納されているプログラムを読み出し、そのプログラムを実行する。これにより、端末装置200を所望のステップを実行する装置として機能させることが可能である。プロセッサ部230は、単一のプロセッサによって実装されてもよいし、複数のプロセッサによって実装されてもよい。
【0080】
本発明のシステム100の処理手段120は、プロセッサ部230によって実装されることができる。本発明のシステム100の受信手段110および出力手段130の少なくとも一部も、プロセッサ部230によって実装されることができる。
【0081】
音声出力部240は、音声を出力するための任意の手段である。音声出力部240は、例えば、スピーカ、イヤホン、ヘッドホン等である。
【0082】
音声入力部250は、音声を入力するための任意の手段である。音声入力部250は、例えば、マイクである。
【0083】
端末装置200は、上記の構成に加えて、端末装置200に情報を入力することを可能にする入力部、端末装置200から情報を出力することを可能にする出力部等も備えることができる。
【0084】
端末装置200は、任意のコンピュータであり得る。端末装置200は、例えば、スマートフォン、タブレット、パーソナルコンピュータ等であり得る。
【0085】
本例では、音声アプリケーションは、端末装置200のネイティブアプリケーションであってもよいし、Webアプリケーションであってもよい。いずれにせよ、ユーザは、同一の端末装置200を用いて音声アプリケーションおよび処理アプリケーションの両方を利用することができる。
【0086】
上述したシステム100は、サーバ装置300において実装されることができる。これは、例えば、上述した処理アプリケーション40がWebブラウザ上で動作するWebアプリケーションである場合であり得る。
【0087】
図3Bは、システム100を実装するサーバ装置300の構成の一例を示す。
【0088】
サーバ装置300は、通信インターフェース部310と、メモリ部320と、プロセッサ部330とを備える。サーバ装置300は、データベース部400に接続されている。
【0089】
通信インターフェース部310は、ネットワークを介した通信を制御する。また、通信インターフェース部310は、データベース部400との通信も制御する。サーバ装置300のプロセッサ部330は、通信インターフェース部310を介して、サーバ装置300の外部から情報を受信することが可能であり、サーバ装置300の外部に情報を送信することが可能である。サーバ装置300のプロセッサ部330は、通信インターフェース部310を介して、端末装置200から情報を受信することが可能であり、端末装置200に情報を送信することが可能である。通信インターフェース部310は、任意の方法で通信を制御し得る。
【0090】
本発明のシステム100の受信手段110および出力手段130の少なくとも一部は、通信インターフェース部310によって実装されることができる。
【0091】
メモリ部320には、サーバ装置300の処理の実行に必要とされるプログラムやそのプログラムの実行に必要とされるデータ等が記憶されている。例えば、音声処理のためのプログラム(例えば、後述する
図4Aおよび
図4Bに示される処理を実現するプログラム、すなわち、処理アプリケーション40)の一部または全部が格納されている。ここで、プログラムをどのようにしてメモリ部320に記憶するかは問わない。例えば、プログラムは、メモリ部320にプリインストールされていてもよい。あるいは、プログラムは、ネットワークを経由してダウンロードされることによってメモリ部320にインストールされるようにしてもよい。プログラムは、コンピュータ読み取り可能な有形記憶媒体上に記憶されてもよい。メモリ部320は、任意の記憶手段によって実装され得る。
【0092】
プロセッサ部330は、サーバ装置300全体の動作を制御する。プロセッサ部330は、メモリ部320に記憶されているプログラムを読み出し、そのプログラムを実行する。これにより、サーバ装置300を所望のステップを実行する装置として機能させることが可能である。プロセッサ部330は、単一のプロセッサによって実装されてもよいし、複数のプロセッサによって実装されてもよい。
【0093】
本発明のシステム100の処理手段120は、プロセッサ部330によって実装されることができる。本発明のシステム100の受信手段110および出力手段130の少なくとも一部も、プロセッサ部330によって実装されることができる。
【0094】
本例では、音声アプリケーションは、端末装置200のネイティブアプリケーションであってもよいし、Webアプリケーションであってもよい。Webアプリケーションである場合、Webアプリケーションは、サーバ装置300によって提供されてもよいし、別のサーバ装置によって提供されてもよい。いずれにせよ、ユーザは、同一の端末装置200を用いて音声アプリケーションおよび処理アプリケーションの両方を利用することができる。
【0095】
図3Bに示される例では、サーバ装置300の各構成要素がサーバ装置200内に設けられているが、本発明はこれに限定されない。サーバ装置300の各構成要素のいずれかがサーバ装置300の外部に設けられることも可能である。例えば、メモリ部320、プロセッサ部330のそれぞれが別々のハードウェア部品で構成されている場合には、各ハードウェア部品が任意のネットワークを介して接続されてもよい。このとき、ネットワークの種類は問わない。各ハードウェア部品は、例えば、LANを介して接続されてもよいし、無線接続されてもよいし、有線接続されてもよい。
【0096】
端末装置200およびサーバ装置300は、特定のハードウェア構成には限定されない。例えば、プロセッサ部230および/またはプロセッサ部330をデジタル回路ではなくアナログ回路によって構成することも本発明の範囲内である。端末装置200およびサーバ装置300の構成は、その機能を実現できる限りにおいて上述したものに限定されない。
【0097】
3.音声処理のためのシステムにおける処理
図4Aは、音声処理のためのシステム100における処理400の一例を示すフローチャートである。処理400は、端末装置200のプロセッサ部230またはサーバ装置300のプロセッサ部330において実行される。以下では、端末装置200のプロセッサ部230が処理400を実行することを説明するが、サーバ装置300のプロセッサ部330も同様に処理400を実行することができる。
【0098】
ステップS401では、プロセッサ部230が、音声アプリケーションから音声データを受信する。
【0099】
プロセッサ部230は、例えば、プロセッサ部230において実行されている音声アプリケーションから音声データを受信するようにしてもよいし、Webアプリケーションとして動作している音声アプリケーションから、通信インターフェース部210を介して、音声データを受信するようにしてもよい。
【0100】
サーバ装置300のプロセッサ部330おいて実行される場合、プロセッサ部330は、例えば、プロセッサ部330において実行されている音声アプリケーションから音声データを受信するようにしてもよいし、端末装置200のプロセッサ部230において実行されている音声アプリケーションから、通信インターフェース部310を介して、音声データを受信するようにしてもよい。
【0101】
ステップS402では、プロセッサ部230が、ステップS401で受信された音声データに対して音声処理を行うことなく、音声データを出力する。出力された音声データは、音声出力部240に渡され、音声として出力されることになる。すなわち、音声データは、おうむ返しされる。
【0102】
サーバ装置300のプロセッサ部330おいて実行される場合、プロセッサ部330は、例えば、通信インターフェース部310を介して、音声データを端末装置200に送信し、音声データを端末装置200の音声出力部240から音声として出力することになる。
【0103】
プロセッサ部230は、受信された音声データに対して何ら音声処理を行わないので、音声アプリケーションから出力された音声データがそのまま音声出力部240から音声として出力されることになる。従って、音声データの音声の音質の低下を回避することができる。
【0104】
また、おうむ返し機能は、音声処理のためのシステム100の機能であるので、ユーザは、仮想ミキサー等の別のアプリケーションを起動および設定する必要がない。
【0105】
ステップS403では、プロセッサ部230が、ステップS401で受信された音声データに対して音声処理を行う。音声処理されたデータは、例えば、端末装置200の外部に出力されてもよいし、端末装置200の記憶部に記憶されてもよいし、サーバ装置300に送信さてもよい。
【0106】
このように、処理400により、ユーザは、音声アプリケーションからの音声データの音声を聞くとともに、音声アプリケーションからの音声データに対して音声処理を行うことができる。ユーザは、音声処理のためのシステム100によって実装される処理アプリケーション40および音声アプリケーション10の他に特別なアプリケーション(例えば、仮想ミキサー)を起動および設定する必要がなく、煩わしさも回避することができる。
【0107】
図4Bは、音声処理のためのシステム100における処理410の一例を示すフローチャートである。処理410は、システム100の外部の音声を示す外部音声データに対しても音声処理を行う場合の処理である。処理410は、端末装置200のプロセッサ部230またはサーバ装置300のプロセッサ部330において実行される。以下では、端末装置200のプロセッサ部230が処理410を実行することを説明するが、サーバ装置300のプロセッサ部330も同様に処理410を実行することができる。
【0108】
ステップS411では、プロセッサ部230が、音声アプリケーションから音声データを受信する。ステップS411は、ステップS401と同様である。
【0109】
ステップS412では、プロセッサ部230が、ステップS411で受信された音声データに対して音声処理を行うことなく、音声データを出力する。ステップS412は、ステップS412と同様である。
【0110】
ステップS413では、プロセッサ部230が、端末装置200の外部の音声を示す外部音声データを受信する。外部音声データは、音声入力部250を介して入力された音声の音声データであり、プロセッサ部230は、音声入力部250から外部音声データを受信することができる。
【0111】
サーバ装置300のプロセッサ部330おいて実行される場合、プロセッサ部330は、例えば、音声入力部250を介して入力された音声の音声データを、通信インターフェース部310を介して、受信するようにしてもよい。
【0112】
ステップS414では、プロセッサ部230が、ステップS401で受信された音声データおよびステップS413で受信された音声データの両方に対して音声処理を行う。音声処理されたデータは、例えば、端末装置200の外部に出力されてもよいし、端末装置200の記憶部に記憶されてもよいし、サーバ装置300に送信さてもよい。
【0113】
このように、処理410により、ユーザは、音声アプリケーションからの音声データの音声を聞くとともに、音声アプリケーションからの音声データおよび端末装置200の外部の音声データ(例えば、ユーザの音声データ)に対して音声処理を行うことができる。ユーザは、音声処理のためのシステム100によって実装される処理アプリケーション40および音声アプリケーション10の他に特別なアプリケーション(例えば、仮想ミキサー)を起動および設定する必要がなく、煩わしさも回避することができる。
【0114】
なお、上述した例では、特定の順序で各ステップが行われることを説明したが、各ステップが行われる順序は示されるものに限定されない。各ステップは、論理的に可能な任意の順序で行われることができる。
【0115】
図4Aおよび
図4Bを参照して上述した例では、メモリ部220に格納されたプログラムによって一連の処理が行われることを説明した。上述したステップのうち、ステップS401およびステップS403、ならびに、ステップS411、ステップS413、およびステップ414は、音声処理のための従来の処理アプリケーションが、概して行う処理であると言える。本発明は、このような従来の処理アプリケーションに組み込まれることにより、処理400または処理410を可能にするプログラムも提供する。すなわち、このプログラムを実行すると、処理アプリケーションが、ステップS402またはステップS412をさらに行うことが可能になる。このようなプログラムは、既存の処理アプリケーションのためのアドオンであり得る。
【0116】
図4Aおよび
図4Bを参照して上述した例では、
図4Aおよび
図4Bに示される各ステップの処理は、プロセッサ部230およびメモリ部220に格納されたプログラム、または、プロセッサ部330およびメモリ部320に格納されたプログラムよって実現することが説明されたが、本発明はこれに限定されない。
図4Aおよび
図4Bに示される各ステップの処理のうちの少なくとも1つは、制御回路などのハードウェア構成によって実現されてもよい。
【0117】
本発明は、上述した実施形態に限定されるものではない。本発明は、特許請求の範囲によってのみその範囲が解釈されるべきであることが理解される。当業者は、本発明の具体的な好ましい実施形態の記載から、本発明の記載および技術常識に基づいて等価な範囲を実施することができることが理解される。
【産業上の利用可能性】
【0118】
本発明は、ユーザの負担を軽減し、かつ、音質低下を回避して、音声アプリケーションから出力される音声データに対して音声処理を行うことが可能なプログラム等を提供するものとして有用である。
【符号の説明】
【0119】
U ユーザ
10 音声アプリケーション
20、40 処理アプリケーション
30 仮想ミキサー
100 システム
110 受信手段
120 処理手段
130 出力手段
200 端末装置
240 音声出力部
250 音声入力部
【手続補正書】
【提出日】2024-07-19
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
音声処理のためのプログラムであって、前記プログラムは、プロセッサを備えるコンピュータにおいて実行され、前記プログラムは、
音声データを出力する音声アプリケーションから音声データを受信することであって、前記音声アプリケーションから前記音声データを受信することは、前記音声アプリケーションから前記音声データを受信した仮想デバイスから出力された前記音声データを受信することを含む、ことと、
前記受信された音声データに対して、
音声処理を行うこと、および
前記音声処理を行うことなく、音声として出力すること
の両方を行うことと
を含む処理を前記プロセッサに行わせる、プログラム。
【請求項2】
前記仮想デバイスは、仮想スピーカと仮想マイクとのペアである、請求項1に記載のプログラム。
【請求項3】
前記音声処理は、前記音声データの音声の認識、前記音声データの音声の話者の識別、前記音声データの記憶のうちの少なくとも1つを含む、請求項1に記載のプログラム。
【請求項4】
前記コンピュータの外部の音声を示す外部音声データを受信することをさらに備え、
前記処理を行うことは、前記受信された音声データと、前記受信された外部音声データとに対して前記音声処理を行うことを含む、請求項1に記載のプログラム。
【請求項5】
前記音声処理は、前記音声データの音声および前記外部音声データの音声の認識、前記音声データの音声の話者および前記外部音声データの音声の話者の識別、前記音声データおよび前記外部音声データの記憶のうちの少なくとも1つを含む、請求項4に記載のプログラム。
【請求項6】
音声処理のための方法であって、
音声データを出力する音声アプリケーションから音声データを受信することであって、前記音声アプリケーションから前記音声データを受信することは、前記音声アプリケーションから前記音声データを受信した仮想デバイスから出力された前記音声データを受信することを含む、ことと、
前記受信された音声データに対して、
音声処理を行うこと、および
前記音声処理を行うことなく、音声として出力すること
の両方を行うことと
を含む、方法。
【請求項7】
音声処理のためのシステムであって、
音声データを出力する音声アプリケーションから音声データを受信する受信手段であって、前記受信手段は、前記音声アプリケーションから前記音声データを受信した仮想デバイスから出力された前記音声データを受信する、受信手段と、
前記受信された音声データに対して、音声処理を行う処理手段と、
前記受信された音声データに対して、前記音声処理を行うことなく、音声として出力する出力手段と
を備えるシステム。
【請求項8】
音声データを出力する音声アプリケーションと共に利用される音声処理のための処理アプリケーションに組み込まれることが可能なプログラムであって、前記処理アプリケーションは、プロセッサを備えるコンピュータにおいて実行され、前記音声アプリケーションから音声データを受信することと、前記受信された音声データに対して音声処理を行うこととを前記プロセッサに行わせ、前記プログラムは、
仮想デバイスを構築することと、
前記音声処理を行うことなく、前記コンピュータの外部に音声として出力すること
を前記プロセッサにさらに行わせ、前記前記音声アプリケーションから前記音声データを受信することは、前記音声アプリケーションから前記音声データを受信した前記仮想デバイスから出力された前記音声データを受信することを含む、プログラム。