特開2024-113943 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社オルツの特許一覧

特開2024-113943音声処理のためのプログラム、システム、および方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3A
3B
4A
4B
5A
5B

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024113943

(43)【公開日】2024-08-23

(54)【発明の名称】音声処理のためのプログラム、システム、および方法

(51)【国際特許分類】

H04R 3/00 20060101AFI20240816BHJP

G10L 15/28 20130101ALI20240816BHJP

【ＦＩ】

H04R3/00 310

H04R3/00

G10L15/28 230Z

【審査請求】有

【請求項の数】8

【出願形態】ＯＬ

(21)【出願番号】P 2023019237

(22)【出願日】2023-02-10

(71)【出願人】

【識別番号】515018091

【氏名又は名称】株式会社オルツ

(74)【代理人】

【識別番号】100078282

【弁理士】

【氏名又は名称】山本秀策

(74)【代理人】

【識別番号】100107489

【弁理士】

【氏名又は名称】大塩竹志

(74)【代理人】

【識別番号】100113413

【弁理士】

【氏名又は名称】森下夏樹

(74)【代理人】

【識別番号】100181674

【弁理士】

【氏名又は名称】飯田貴敏

(74)【代理人】

【識別番号】100181641

【弁理士】

【氏名又は名称】石川大輔

(74)【代理人】

【識別番号】230113332

【弁護士】

【氏名又は名称】山本健策

(72)【発明者】

【氏名】吉村歩

(72)【発明者】

【氏名】手束朗

【テーマコード（参考）】

5D220

【Ｆターム（参考）】

5D220AA50

5D220EE11

(57)【要約】

【課題】ユーザの負担を軽減し、かつ、音質低下を回避して、音声アプリケーションから出力される音声データに対して音声処理を行うこと
【解決手段】本発明は、音声処理のためのプログラムを提供し、前記プログラムは、プロセッサを備えるコンピュータにおいて実行され、前記プログラムは、音声データを出力する音声アプリケーションから音声データを受信することと、前記受信された音声データに対して、音声処理を行うこと、および前記音声処理を行うことなく、音声として出力することの両方を行うこととを含む処理を前記プロセッサに行わせる。
【選択図】図１

【特許請求の範囲】

【請求項1】

音声処理のためのプログラムであって、前記プログラムは、プロセッサを備えるコンピュータにおいて実行され、前記プログラムは、
音声データを出力する音声アプリケーションから音声データを受信することと、
前記受信された音声データに対して、
音声処理を行うこと、および
前記音声処理を行うことなく、音声として出力すること
の両方を行うことと
を含む処理を前記プロセッサに行わせる、プログラム。

【請求項2】

前記音声処理は、前記音声データの音声の認識、前記音声データの音声の話者の識別、前記音声データの記憶のうちの少なくとも１つを含む、請求項１に記載のプログラム。

【請求項3】

前記コンピュータの外部の音声を示す外部音声データを受信することをさらに備え、
前記処理を行うことは、前記受信された音声データと、前記受信された外部音声データとに対して前記音声処理を行うことを含む、請求項１に記載のプログラム。

【請求項4】

前記音声処理は、前記音声データの音声および前記外部音声データの音声の認識、前記音声データの音声の話者および前記外部音声データの音声の話者の識別、前記音声データおよび前記外部音声データの記憶のうちの少なくとも１つを含む、請求項３に記載のプログラム。

【請求項5】

前記音声アプリケーションから前記音声データを受信することは、
前記音声アプリケーションから前記音声データを受信した仮想デバイスから出力された前記音声データを受信することを含む、請求項１に記載のプログラム。

【請求項6】

音声処理のための方法であって、
音声データを出力する音声アプリケーションから音声データを受信することと、
前記受信された音声データに対して、
音声処理を行うこと、および
前記音声処理を行うことなく、音声として出力すること
の両方を行うことと
を含む、方法。

【請求項7】

音声処理のためのシステムであって、
音声データを出力する音声アプリケーションから音声データを受信する受信手段と、
前記受信された音声データに対して、音声処理を行う処理手段と、
前記受信された音声データに対して、前記音声処理を行うことなく、音声として出力する出力手段と
を備えるシステム。

【請求項8】

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、音声処理のためのプログラム、システム、および方法に関する。

【背景技術】

【0002】

音声データを出力するアプリケーション（以下、「音声アプリケーション」という）が知られている。音声アプリケーションは、例えば、音楽再生アプリケーション、動画再生アプリケーション、音声通話アプリケーション、ビデオ通話アプリケーション等である。

【0003】

今日では、音声アプリケーションから出力される音声データに対して音声処理を行いたいというニーズがある。音声処理は、例えば、音声認識、話者識別、記憶等である。例えば、ユーザは、音声データに対して音声認識を行うことで、音声データをテキストデータに変換し、音声をテキストとして保存することを所望する。例えば、ユーザは、音声データに対して音声認識を行い、音声データをテキストデータに変換し、かつ、音声データに対して話者識別を行うことで、音声を話者毎にテキストとして保存することを所望する。これは、例えば、議事録として利用され得る（例えば、特許文献１を参照）。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開２０２２－７９３６６号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

本発明は、ユーザの負担を軽減し、かつ、音質低下を回避して、音声アプリケーションから出力される音声データに対して音声処理を行うことを目的とする。

【課題を解決するための手段】

【0006】

本発明は、音声処理を行うシステムまたは処理アプリケーションが、受信した音声をそのまま、すなわち、音声処理を行うことなく出力することを可能にすることを特徴の１つとしている。本発明は、例えば、以下の項目を提供する。
（項目１）
音声処理のためのプログラムであって、前記プログラムは、プロセッサを備えるコンピュータにおいて実行され、前記プログラムは、
音声データを出力する音声アプリケーションから音声データを受信することと、
前記受信された音声データに対して、
音声処理を行うこと、および
前記音声処理を行うことなく、音声として出力すること
の両方を行うことと
を含む処理を前記プロセッサに行わせる、プログラム。
（項目２）
前記音声処理は、前記音声データの音声の認識、前記音声データの音声の話者の識別、前記音声データの記憶のうちの少なくとも１つを含む、上記項目に記載のプログラム。
（項目３）
前記コンピュータの外部の音声を示す外部音声データを受信することをさらに備え、
前記処理を行うことは、前記受信された音声データと、前記受信された外部音声データとに対して前記音声処理を行うことを含む、上記項目のいずれか一項に記載のプログラム。
（項目４）
前記音声処理は、前記音声データの音声および前記外部音声データの音声の認識、前記音声データの音声の話者および前記外部音声データの音声の話者の識別、前記音声データおよび前記外部音声データの記憶のうちの少なくとも１つを含む、上記項目のいずれか一項に記載のプログラム。
（項目５）
前記音声アプリケーションから前記音声データを受信することは、
前記音声アプリケーションから前記音声データを受信した仮想デバイスから出力された前記音声データを受信することを含む、上記項目のいずれか一項に記載のプログラム。
（項目６）
音声処理のための方法であって、
音声データを出力する音声アプリケーションから音声データを受信することと、
前記受信された音声データに対して、
音声処理を行うこと、および
前記音声処理を行うことなく、音声として出力すること
の両方を行うことと
を含む、方法。
（項目６Ａ）
上記項目の１つまたは複数に記載の特徴を備える、項目６に記載の方法。
（項目７）
音声処理のためのシステムであって、
音声データを出力する音声アプリケーションから音声データを受信する受信手段と、
前記受信された音声データに対して、音声処理を行う処理手段と、
前記受信された音声データに対して、前記音声処理を行うことなく、音声として出力する出力手段と
を備えるシステム。
（項目７Ａ）
上記項目の１つまたは複数に記載の特徴を備える、項目７に記載のシステム。
（項目８）
音声データを出力する音声アプリケーションと共に利用される音声処理のための処理アプリケーションに組み込まれることが可能なプログラムであって、前記処理アプリケーションは、プロセッサを備えるコンピュータにおいて実行され、前記音声アプリケーションから音声データを受信することと、前記受信された音声データに対して音声処理を行うこととを前記プロセッサに行わせ、前記プログラムは、
前記音声処理を行うことなく、前記コンピュータの外部に音声として出力すること
を前記プロセッサにさらに行わせる、プログラム。
（項目８Ａ）
上記項目の１つまたは複数に記載の特徴を備える、項目７に記載のプログラム。

【発明の効果】

【0007】

本発明によれば、音声処理のためのプログラム等、または、音声処理のための処理アプリケーションに組み込まれるプログラムが提供され、これにより、ユーザの負担なしに、かつ、音質低下を回避して、音声アプリケーションから出力される音声データに対して音声処理を行うことが可能になる。

【図面の簡単な説明】

【0008】

【図1】「おうむ返し」機能を有する処理アプリケーション４０を用いて、音声アプリケーションから出力された音声データに対して音声処理を行うためのフローの一例を示す図

【図2】音声処理のためのシステム１００の構成の一例を示す図

【図3A】システム１００を実装する端末装置２００の構成の一例を示す図

【図3B】システム１００を実装するサーバ装置３００の構成の一例を示す図

【図4A】声処理のためのシステム１００における処理４００の一例を示すフローチャート

【図4B】音声処理のためのシステム１００における処理４１０の一例を示すフローチャート

【図5A】音声アプリケーションから出力された音声データに対して同一の端末装置を用いて音声処理を行うために行われている従来のフローを概略的に示す図

【図5B】図５Ａのフローで生じ得る音質低下を回避するように行われる別のフローを概略的に示す図

【発明を実施するための形態】

【0009】

（定義）
本明細書において、「音声アプリケーション」とは、音声データを出力する機能を有するソフトウェアをいう。音声アプリケーションは、音声データを出力することができる限り、任意のソフトウェアであり得る。音声アプリケーションは、例えば、音楽再生アプリケーション、動画再生アプリケーション、音声通話アプリケーション、ビデオ通話アプリケーション等である。

【0010】

本明細書において、「音声データ」とは、音声を表すデータをいう。音声データは、スピーカ、イヤホン等の音声出力手段によって音声に変換されて出力されることができる。

【0011】

本明細書において、「音声処理」とは、音声データに対して加工、分析、変換、転送および／または記憶を行うことをいう。

【0012】

本明細書において、「処理アプリケーション」とは、音声データに対して音声処理を行うためのソフトウェアをいう。処理アプリケーションは、例えば、議事録作成アプリケーション、文字起こしアプリケーション、音声通話アプリケーション、音声記録アプリケーション、音声対話アプリケーション、音声制御・指示アプリケーション、質問応答アプリケーション等である。処理アプリケーションは、音声アプリケーションとは別のアプリケーションである。処理アプリケーションは、複数の音声アプリケーションからの音声データのそれぞれに対して同様に音声処理を行うことができる。

【0013】

以下、図面を参照しながら、本発明の実施の形態を説明する。

【0014】

１．音声アプリケーションからの音声データに対する音声処理
図５Ａは、音声アプリケーションから出力された音声データに対して同一の端末装置を用いて音声処理を行うために行われている従来のフローを概略的に示す。

【0015】

本例では、ユーザＵが、端末装置２００を利用することを例に説明する。端末装置２００は、音声データを出力する音声アプリケーション１０および音声データに対して音声処理を行う処理アプリケーション２０の両方を実行可能である。音声アプリケーション１０は、音声通話アプリケーションであり、通話相手の音声を表す音声データが出力されるものとする。処理アプリケーション２０は、議事録生成アプリケーションであり、音声データに対して音声認識、話者識別、および記憶の処理を行うことにより、会話をテキストで記憶することができるものとする。なお、音声アプリケーション１０および処理アプリケーション２０は、端末装置２００にインストールされたネイティブアプリケーションであってもよいし、Ｗｅｂブラウザ上で動作するＷｅｂアプリケーションであってもよい。

【0016】

端末装置２００は、音声出力部２４０（スピーカ）を有しており、端末装置２００の外部に音声を出力することができる。端末装置２００は、音声入力部２５０（マイク）を有しており、端末装置２００の外部から音声を入力することができる。

【0017】

まず、ステップＳ１で、音声アプリケーション１０が、音声データを音声出力部２４０に渡す。音声出力部２４０は、音声データを音声に変換して出力する。

【0018】

ステップＳ２では、ユーザＵは、音声出力部２４０から出力された音声を聞くことができる。これにより、ユーザＵは、通話相手の音声を認識する。なお、図中の破線は、空気中を伝播する音波によって音声が伝わることを表している。

【0019】

音声出力部２４０から出力された音声は、ステップＳ３において、音声入力部２５０によって拾われ、音声入力部２５０を介して端末装置２００に入力される。

【0020】

また、ユーザＵが発した音声は、ステップＳ４において、音声入力部２５０によって拾われ、音声入力部２５０を介して端末装置２００に入力される。

【0021】

このようにして、音声アプリケーション１０からの音声データに対応する音声およびユーザＵの音声の両方が端末装置２００に入力されることになる。

【0022】

ステップＳ５では、音声入力部２５０を介して入力された音声が音声データに変換されて、処理アプリケーション２０に渡される。これにより、処理アプリケーション２０は、音声アプリケーション１０からの音声データに相当する音声データと、ユーザＵの音声を表す音声データとの両方に対して音声処理を行うことができる。

【0023】

上述した例では、ステップＳ３で、音声出力部２４０によって端末装置２００の外部に出力された音声を音声入力部２５０が受け取る。このとき、音質の低下が不可避である。例えば、音声出力部２４０の性能が悪いと、音声出力部２４０から出力された際に音質が低下し得る。例えば、音声出力部２４０から音声入力部２５０まで空気中を音波が伝播するときに音波が減衰し、音質が低下し得る。例えば、音声入力部２５０の性能が悪いと、音声入力部２５０が音声を受け取るときに音質が低下し得る。

【0024】

従って、音質の低下を回避するために、音声アプリケーション１０からの音声データを処理アプリケーション２０に入力する際には、音声出力部２４０および音声出力部２４０を介して入力するべきではない。

【0025】

図５Ｂは、図５Ａのフローで生じ得る音質低下を回避するように行われる別のフローを概略的に示す。

【0026】

本例でも、図５Ａに示される例と同様に、ユーザＵが、音声出力部２４０（イヤホン）と音声入力部２５０（マイク）とを有する端末装置２００を利用し、端末装置２００は、音声通話アプリケーションである音声アプリケーション１０および議事録生成アプリケーションである処理アプリケーション２０の両方を実行可能であることを例に説明する。音声アプリケーション１０および処理アプリケーション２０は、端末装置２００にインストールされたネイティブアプリケーションであってもよいし、Ｗｅｂブラウザ上で動作するＷｅｂアプリケーションであってもよい。

【0027】

本例では、音声アプリケーション１０からの音声データを処理アプリケーション２０に音声出力部２４０および音声出力部２４０を介して入力するのではなく、音声アプリケーション１０および処理アプリケーション２０とは別に端末装置２００に実装される仮想ミキサー３０を介して入力する。

【0028】

まず、ステップＳ１１で、音声アプリケーション１０が、音声データを仮想ミキサー３０に渡す。仮想ミキサーとは、物理的な実体のあるミキサーではなく、仮想的に実装されるミキサーであり、仮想ミキサーは、端末装置２００にインストールされたネイティブアプリケーションによって実現される。仮想ミキサー３０は、入力された音声データを複数の出力にルーティングするルーティング機能を有することができる。このルーティング機能により、音声アプリケーション１０からの音声データを音声出力部２４０と、処理アプリケーション２０との両方に出力することができる。

【0029】

ステップＳ１２では、仮想ミキサー３０が、音声データを音声出力部２４０に渡す。音声出力部２４０は、音声データを音声に変換して出力する。

【0030】

ステップＳ１３では、ユーザＵは、音声出力部２４０から出力された音声を聞くことができる。これにより、ユーザＵは、通話相手の音声を認識する。なお、音声出力部２４０がイヤホンであるため、通話相手の音声は音声入力部２５０まで届かず、通話相手の音声が音声入力部２５０によって拾われることはない。

【0031】

ステップＳ１４では、仮想ミキサー３０が、音声データを処理アプリケーション２０に渡す。

【0032】

ユーザＵが発した音声は、ステップＳ１５において、音声入力部２５０によって拾われ、音声入力部２５０を介して端末装置２００に入力される。

【0033】

ステップＳ１６では、音声入力部２５０を介して入力された音声が音声データに変換されて、処理アプリケーション２０に渡される。

【0034】

このようにして、処理アプリケーション２０は、音声アプリケーション１０からの音声データと、ユーザＵの音声を表す音声データとの両方を受け取り、これらに対して音声処理を行うことができる。

【0035】

上述した例では、音声アプリケーション１０からの音声データが端末装置２００内のルーティングのみで処理アプリケーション２０に入力されるため、音声データを音声に変換する必要がなく、音質の低下を回避することができる。

【0036】

しかしながら、仮想ミキサー３０は、音声アプリケーション１０および処理アプリケーション２０とは別のネイティブアプリケーションによって実現されるため、ユーザＵは、音声アプリケーション１０および処理アプリケーション２０とは別に仮想ミキサーを起動し、ルーティングを設定する必要がある。これは、ユーザＵにとって煩わしく、特に、コンピュータの知識が乏しいユーザにとっては非常に負担となり得る。

【0037】

本発明の発明者は、鋭意研究の結果、ユーザの負担を軽減し、かつ、音質低下を回避して、音声データに対して音声処理を行うことができるように、「おうむ返し」機能を処理アプリケーションに組み込むことを開発した。

【0038】

図１は、「おうむ返し」機能を有する処理アプリケーション４０を用いて、音声アプリケーションから出力された音声データに対して音声処理を行うためのフローの一例を示す。

【0039】

本例でも、図５Ａおよび図５Ｂに示される例と同様に、ユーザＵが、音声出力部２４０（イヤホン）と音声入力部２５０（マイク）とを有する端末装置２００を利用し、端末装置２００は、音声通話アプリケーションである音声アプリケーション１０および議事録生成アプリケーションである処理アプリケーション４０の両方を実行可能であることを例に説明する。音声アプリケーション１０および処理アプリケーション２０は、端末装置２００にインストールされたネイティブアプリケーションであってもよいし、Ｗｅｂブラウザ上で動作するＷｅｂアプリケーションであってもよい。

【0040】

図５Ａおよび図５Ｂに示される例とは異なり、処理アプリケーション４０は、「おうむ返し」機能を有している。「おうむ返し」機能とは、処理アプリケーション４０に入力された音声データに対して音声処理を行うことなく、その音声データを処理アプリケーション４０から出力することを可能にする機能である。

【0041】

「おうむ返し」機能は、例えば、処理アプリケーション４０内に仮想プレイヤーを構築し、仮想プレイヤーの出力先を音声出力部２４０に設定し、音声アプリケーション１０からの音声データを取得して仮想プレイヤーで再生することにより、達成され得る。この方式は、音声アプリケーション１０からの音声データの出力先を選択することができるという利点がある。逆にこの方式でなければ音声アプリケーション１０からの音声データの出力先を選択することができない。

【0042】

まず、ステップＳ１０１で、音声アプリケーション１０が、音声データを処理アプリケーション４０に渡す。音声アプリケーション１０は、端末装置２００内に実装される仮想デバイス（すなわち、仮想スピーカと仮想マイクとのペア）を介して、処理アプリケーション４０に音声データを渡すようにしてもよい。

【0043】

処理アプリケーション４０は、音声データを受信すると、「おうむ返し」機能により音声データを音声出力部２４０に出力することと、音声データに対して音声処理を行うこととの両方を行うことになる。

【0044】

ステップＳ１０２では、処理アプリケーション４０が、「おうむ返し」機能により音声データを音声出力部２４０に出力する。音声出力部２４０は、音声データを音声に変換して出力する。

【0045】

ステップＳ１０３では、ユーザＵは、音声出力部２４０から出力された音声を聞くことができる。これにより、ユーザＵは、通話相手の音声を認識する。なお、音声出力部２４０がイヤホンであるため、通話相手の音声は音声入力部２５０まで届かず、通話相手の音声が音声入力部２５０によって拾われることはない。

【0046】

ユーザＵが発した音声は、ステップＳ１０４において、音声入力部２５０によって拾われ、音声入力部２５０を介して端末装置２００に入力される。

【0047】

ステップＳ１０５では、音声入力部２５０を介して入力された音声が音声データに変換されて、処理アプリケーション４０に渡される。

【0048】

このようにして、処理アプリケーション４０は、音声アプリケーション１０からの音声データと、ユーザＵの音声を表す音声データとの両方を受け取り、これらに対して音声処理を行うことができる。

【0049】

上述した例では、音声アプリケーション１０からの音声データが端末装置２００内のルーティングのみで処理アプリケーション４０に入力されるため、音声データを音声に変換する必要がなく、音質の低下を回避することができる。

【0050】

さらに、「おうむ返し」機能は、処理アプリケーション４０に組み込まれている機能であるため、ユーザＵが音声アプリケーション１０および処理アプリケーション２０とは別のアプリケーションを起動および設定する必要がなく、むしろ、処理アプリケーション４０を起動するだけでよい。これにより、ユーザの負担を著しく軽減することができる。

【0051】

なお、上述した例では、処理アプリケーション４０が１つの音声アプリケーション１０からの音声データに対して音声処理を行うことを説明したが、本発明は、これに限定されない。処理アプリケーション４０は、複数の音声アプリケーション１０からの音声データのそれぞれに対して音声処理を行うことができる。従って、複数の音声アプリケーション１０が存在する場合であっても、１つの処理アプリケーション４０で対応することができる。

【0052】

また、上述した例では、ユーザＵによる音声に対しても音声処理することを説明したが、これは必ずしも必要ではない。音声アプリケーション１０からの音声データに対してのみ音声処理することも本発明の範囲内である。この場合、ステップＳ１０４、Ｓ１０５は省略され得、音声入力部２５０も省略され得る。

【0053】

上述した処理アプリケーション４０は、後述する音声処理のためのシステムによって実現されることができる。

【0054】

２．音声処理のためのシステムの構成
図２は、音声処理のためのシステム１００の構成の一例を示す。

【0055】

システム１００は、受信手段１１０と、処理手段１２０と、出力手段１３０とを備えている。

【0056】

受信手段１１０は、少なくとも１つの音声アプリケーションから音声データを受信するように構成されている。

【0057】

少なくとも１つの音声アプリケーションは、システム１００の外部で実行されているアプリケーションであってもよいし、システム１００内で実行されているアプリケーションであってもよい。少なくとも１つの音声アプリケーションは、システム１００を実装する端末装置２００またはシステム１００にアクセス可能な端末装置２００において実行されているアプリケーションである。音声アプリケーションは、例えば、端末装置２００にインストールされているネイティブアプリケーションであってもよいし、端末装置２００と通信するサーバ装置にインストールされてＷｅｂブラウザ上で動作するＷｅｂアプリケーションであってもよい。

【0058】

音声データは、任意の形式で受信されることができる。例えば、音声アプリケーションから出力される形式のまま受信されるようにしてもよいし、処理手段１２０によって処理可能な形式で受信されるようにしてもよい。受信された音声データが処理手段１２０によって処理可能な形式でない場合、受信手段１１０または処理手段１２０は、音声データの形式を変更するようにしてもよい。

【0059】

受信手段１１０は、音声アプリケーションから音声データを直接受信してもよいが、仮想デバイスを介して音声データを受信することもできる。すなわち、受信手段１１０は、音声アプリケーションから音声データを受信した仮想デバイスから出力された音声データを受信することができる。仮想デバイスは、物理的な実体のあるデバイスではなく、仮想的に実装されるデバイスである。音声アプリケーションからの音声データを受信手段１１０に出力するための仮想デバイスは、仮想スピーカと仮想マイクとのペアであり得る。音声アプリケーションからの音声データは、仮想スピーカによって仮想的に再生され、仮想的に再生された音声が仮想マイクによって仮想的に取得されて音声データとなり、その音声データが受信手段１１０へと出力され、受信手段１１０はこれを受信する。仮想ではない実際のデバイスを使う場合、空気中を音波が伝わるため、その際に減衰が発生し、音声の品質が劣化するという問題がある。加えて仮想デバイスはネットワーク等からインストールすることによって利用が可能になり利用が簡便であるという利点がある。

【0060】

受信手段１１０によって受信された音声データは、処理手段１２０と出力手段１３０との両方に渡される。

【0061】

一実施形態において、受信手段１１０は、音声アプリケーションからの音声データに加えて、システム１００の外部の音声を示す外部音声データを受信することができる。外部音声データは、端末装置２００の音声入力部２５０を介して入力された音声の音声データであり得る。

【0062】

受信手段１１０によって受信された外部音声データは、処理手段１２０に渡される。

【0063】

処理手段１２０は、受信手段１１０によって受信された音声データに対して音声処理を行うように構成されている。

【0064】

処理手段１２０は、当該技術分野において公知の手法を用いて、音声データに対して音声処理を行うことができる。

【0065】

一例において、処理手段１２０は、音声データに対して音声認識を行うことができる。音声認識により、音声データは、テキストに変換され得る。

【0066】

一例において、処理手段１２０は、音声データに対して話者識別を行うことができる。話者識別により、音声データがどの話者による音声を表すかを特定することができる。

【0067】

一例において、処理手段１２０は、音声データを記憶手段（図示せず）に記憶することができる。

【0068】

上記の音声処理は、単独で行われてもよいし、組み合わせて行われてもよい。

【0069】

受信手段１１０によって外部音声データも受信された場合には、処理手段１２０は、音声データに対してのみならず、外部音声データに対しても同様の音声処理を行うことができる。

【0070】

具体的な例において、処理手段１２０は、音声データに対して音声認識を行い、かつ、話者識別を行い、かつ、音声認識されたテキストを識別された話者と関連付けて記憶するとともに、外部音声データに対して音声認識を行い、かつ、話者識別を行い、かつ、音声認識されたテキストを識別された話者と関連付けて記憶することで、会話の記録（例えば、議事録）を生成することができる。

【0071】

出力手段１３０は、受信手段１１０によって受信された音声データに対して、処理手段１２０による音声処理を行うことなく、当該音声データをシステム１００の外部に出力するように構成されている。すなわち、出力手段１３０は、受信された音声データをそのまま出力することになる。いわゆる「おうむ返し」を行うことになる。

【0072】

出力手段１３０によって出力された音声データは、端末装置２００の音声出力部２４０を介して音声として出力されることができる。これにより、端末装置２００のユーザは、音声アプリケーションからの音声データの音声を聞くことができる。

【0073】

上述したシステム１００は、端末装置２００において実装されることができる。これは、例えば、上述した処理アプリケーション４０が端末装置２００のネイティブアプリケーションである場合であり得る。

【0074】

図３Ａは、システム１００を実装する端末装置２００の構成の一例を示す。

【0075】

端末装置２００は、通信インターフェース部２１０と、メモリ部２２０と、プロセッサ部２３０と、音声出力部２４０と、音声入力部２５０とを備える。

【0076】

通信インターフェース部２１０は、ネットワークを介した通信を制御する。端末装置２００のプロセッサ部２３０は、通信インターフェース部２１０を介して、端末装置２００の外部から情報を受信することが可能であり、端末装置２００の外部に情報を送信することが可能である。通信インターフェース部２１０は、任意の方法で通信を制御し得る。端末装置２００は、通信インターフェース部２１０を介して、後述するサーバ装置３００または音声アプリケーションを提供するサーバ装置等と通信することができる。

【0077】

本発明のシステム１００の受信手段１１０および出力手段１３０の少なくとも一部は、通信インターフェース部２１０によって実装されることができる。

【0078】

メモリ部２２０には、端末装置２００における処理を実行するためのプログラムやそのプログラムの実行に必要とされるデータ等が格納されている。メモリ部２２０には、例えば、音声処理のためのプログラム（例えば、後述する図４Ａおよび図４Ｂに示される処理を実現するプログラム、すなわち、処理アプリケーション４０）が格納されている。メモリ部２２０には、例えば、少なくとも１つの音声アプリケーションが格納されていてもよい。ここで、プログラムをどのようにしてメモリ部２２００に格納するかは問わない。例えば、プログラムは、メモリ部２２０にプリインストールされていてもよい。あるいは、プログラムは、ネットワークを経由してダウンロードされることによってメモリ部２２０にインストールされるようにしてもよい。あるいは、プログラムは、コンピュータ読み取り可能な記憶媒体に記憶され、コンピュータ読み取り可能な記憶媒体を読み取ることによってメモリ部２２０にインストールされるようにしてもよい。

【0079】

プロセッサ部２３０は、端末装置２００全体の動作を制御する。プロセッサ部２３０は、メモリ部２２０に格納されているプログラムを読み出し、そのプログラムを実行する。これにより、端末装置２００を所望のステップを実行する装置として機能させることが可能である。プロセッサ部２３０は、単一のプロセッサによって実装されてもよいし、複数のプロセッサによって実装されてもよい。

【0080】

本発明のシステム１００の処理手段１２０は、プロセッサ部２３０によって実装されることができる。本発明のシステム１００の受信手段１１０および出力手段１３０の少なくとも一部も、プロセッサ部２３０によって実装されることができる。

【0081】

音声出力部２４０は、音声を出力するための任意の手段である。音声出力部２４０は、例えば、スピーカ、イヤホン、ヘッドホン等である。

【0082】

音声入力部２５０は、音声を入力するための任意の手段である。音声入力部２５０は、例えば、マイクである。

【0083】

端末装置２００は、上記の構成に加えて、端末装置２００に情報を入力することを可能にする入力部、端末装置２００から情報を出力することを可能にする出力部等も備えることができる。

【0084】

端末装置２００は、任意のコンピュータであり得る。端末装置２００は、例えば、スマートフォン、タブレット、パーソナルコンピュータ等であり得る。

【0085】

本例では、音声アプリケーションは、端末装置２００のネイティブアプリケーションであってもよいし、Ｗｅｂアプリケーションであってもよい。いずれにせよ、ユーザは、同一の端末装置２００を用いて音声アプリケーションおよび処理アプリケーションの両方を利用することができる。

【0086】

上述したシステム１００は、サーバ装置３００において実装されることができる。これは、例えば、上述した処理アプリケーション４０がＷｅｂブラウザ上で動作するＷｅｂアプリケーションである場合であり得る。

【0087】

図３Ｂは、システム１００を実装するサーバ装置３００の構成の一例を示す。

【0088】

サーバ装置３００は、通信インターフェース部３１０と、メモリ部３２０と、プロセッサ部３３０とを備える。サーバ装置３００は、データベース部４００に接続されている。

【0089】

通信インターフェース部３１０は、ネットワークを介した通信を制御する。また、通信インターフェース部３１０は、データベース部４００との通信も制御する。サーバ装置３００のプロセッサ部３３０は、通信インターフェース部３１０を介して、サーバ装置３００の外部から情報を受信することが可能であり、サーバ装置３００の外部に情報を送信することが可能である。サーバ装置３００のプロセッサ部３３０は、通信インターフェース部３１０を介して、端末装置２００から情報を受信することが可能であり、端末装置２００に情報を送信することが可能である。通信インターフェース部３１０は、任意の方法で通信を制御し得る。

【0090】

本発明のシステム１００の受信手段１１０および出力手段１３０の少なくとも一部は、通信インターフェース部３１０によって実装されることができる。

【0091】

メモリ部３２０には、サーバ装置３００の処理の実行に必要とされるプログラムやそのプログラムの実行に必要とされるデータ等が記憶されている。例えば、音声処理のためのプログラム（例えば、後述する図４Ａおよび図４Ｂに示される処理を実現するプログラム、すなわち、処理アプリケーション４０）の一部または全部が格納されている。ここで、プログラムをどのようにしてメモリ部３２０に記憶するかは問わない。例えば、プログラムは、メモリ部３２０にプリインストールされていてもよい。あるいは、プログラムは、ネットワークを経由してダウンロードされることによってメモリ部３２０にインストールされるようにしてもよい。プログラムは、コンピュータ読み取り可能な有形記憶媒体上に記憶されてもよい。メモリ部３２０は、任意の記憶手段によって実装され得る。

【0092】

プロセッサ部３３０は、サーバ装置３００全体の動作を制御する。プロセッサ部３３０は、メモリ部３２０に記憶されているプログラムを読み出し、そのプログラムを実行する。これにより、サーバ装置３００を所望のステップを実行する装置として機能させることが可能である。プロセッサ部３３０は、単一のプロセッサによって実装されてもよいし、複数のプロセッサによって実装されてもよい。

【0093】

本発明のシステム１００の処理手段１２０は、プロセッサ部３３０によって実装されることができる。本発明のシステム１００の受信手段１１０および出力手段１３０の少なくとも一部も、プロセッサ部３３０によって実装されることができる。

【0094】

本例では、音声アプリケーションは、端末装置２００のネイティブアプリケーションであってもよいし、Ｗｅｂアプリケーションであってもよい。Ｗｅｂアプリケーションである場合、Ｗｅｂアプリケーションは、サーバ装置３００によって提供されてもよいし、別のサーバ装置によって提供されてもよい。いずれにせよ、ユーザは、同一の端末装置２００を用いて音声アプリケーションおよび処理アプリケーションの両方を利用することができる。

【0095】

図３Ｂに示される例では、サーバ装置３００の各構成要素がサーバ装置２００内に設けられているが、本発明はこれに限定されない。サーバ装置３００の各構成要素のいずれかがサーバ装置３００の外部に設けられることも可能である。例えば、メモリ部３２０、プロセッサ部３３０のそれぞれが別々のハードウェア部品で構成されている場合には、各ハードウェア部品が任意のネットワークを介して接続されてもよい。このとき、ネットワークの種類は問わない。各ハードウェア部品は、例えば、ＬＡＮを介して接続されてもよいし、無線接続されてもよいし、有線接続されてもよい。

【0096】

端末装置２００およびサーバ装置３００は、特定のハードウェア構成には限定されない。例えば、プロセッサ部２３０および／またはプロセッサ部３３０をデジタル回路ではなくアナログ回路によって構成することも本発明の範囲内である。端末装置２００およびサーバ装置３００の構成は、その機能を実現できる限りにおいて上述したものに限定されない。

【0097】

３．音声処理のためのシステムにおける処理
図４Ａは、音声処理のためのシステム１００における処理４００の一例を示すフローチャートである。処理４００は、端末装置２００のプロセッサ部２３０またはサーバ装置３００のプロセッサ部３３０において実行される。以下では、端末装置２００のプロセッサ部２３０が処理４００を実行することを説明するが、サーバ装置３００のプロセッサ部３３０も同様に処理４００を実行することができる。

【0098】

ステップＳ４０１では、プロセッサ部２３０が、音声アプリケーションから音声データを受信する。

【0099】

プロセッサ部２３０は、例えば、プロセッサ部２３０において実行されている音声アプリケーションから音声データを受信するようにしてもよいし、Ｗｅｂアプリケーションとして動作している音声アプリケーションから、通信インターフェース部２１０を介して、音声データを受信するようにしてもよい。

【0100】

サーバ装置３００のプロセッサ部３３０おいて実行される場合、プロセッサ部３３０は、例えば、プロセッサ部３３０において実行されている音声アプリケーションから音声データを受信するようにしてもよいし、端末装置２００のプロセッサ部２３０において実行されている音声アプリケーションから、通信インターフェース部３１０を介して、音声データを受信するようにしてもよい。

【0101】

ステップＳ４０２では、プロセッサ部２３０が、ステップＳ４０１で受信された音声データに対して音声処理を行うことなく、音声データを出力する。出力された音声データは、音声出力部２４０に渡され、音声として出力されることになる。すなわち、音声データは、おうむ返しされる。

【0102】

サーバ装置３００のプロセッサ部３３０おいて実行される場合、プロセッサ部３３０は、例えば、通信インターフェース部３１０を介して、音声データを端末装置２００に送信し、音声データを端末装置２００の音声出力部２４０から音声として出力することになる。

【0103】

プロセッサ部２３０は、受信された音声データに対して何ら音声処理を行わないので、音声アプリケーションから出力された音声データがそのまま音声出力部２４０から音声として出力されることになる。従って、音声データの音声の音質の低下を回避することができる。

【0104】

また、おうむ返し機能は、音声処理のためのシステム１００の機能であるので、ユーザは、仮想ミキサー等の別のアプリケーションを起動および設定する必要がない。

【0105】

ステップＳ４０３では、プロセッサ部２３０が、ステップＳ４０１で受信された音声データに対して音声処理を行う。音声処理されたデータは、例えば、端末装置２００の外部に出力されてもよいし、端末装置２００の記憶部に記憶されてもよいし、サーバ装置３００に送信さてもよい。

【0106】

このように、処理４００により、ユーザは、音声アプリケーションからの音声データの音声を聞くとともに、音声アプリケーションからの音声データに対して音声処理を行うことができる。ユーザは、音声処理のためのシステム１００によって実装される処理アプリケーション４０および音声アプリケーション１０の他に特別なアプリケーション（例えば、仮想ミキサー）を起動および設定する必要がなく、煩わしさも回避することができる。

【0107】

図４Ｂは、音声処理のためのシステム１００における処理４１０の一例を示すフローチャートである。処理４１０は、システム１００の外部の音声を示す外部音声データに対しても音声処理を行う場合の処理である。処理４１０は、端末装置２００のプロセッサ部２３０またはサーバ装置３００のプロセッサ部３３０において実行される。以下では、端末装置２００のプロセッサ部２３０が処理４１０を実行することを説明するが、サーバ装置３００のプロセッサ部３３０も同様に処理４１０を実行することができる。

【0108】

ステップＳ４１１では、プロセッサ部２３０が、音声アプリケーションから音声データを受信する。ステップＳ４１１は、ステップＳ４０１と同様である。

【0109】

ステップＳ４１２では、プロセッサ部２３０が、ステップＳ４１１で受信された音声データに対して音声処理を行うことなく、音声データを出力する。ステップＳ４１２は、ステップＳ４１２と同様である。

【0110】

ステップＳ４１３では、プロセッサ部２３０が、端末装置２００の外部の音声を示す外部音声データを受信する。外部音声データは、音声入力部２５０を介して入力された音声の音声データであり、プロセッサ部２３０は、音声入力部２５０から外部音声データを受信することができる。

【0111】

サーバ装置３００のプロセッサ部３３０おいて実行される場合、プロセッサ部３３０は、例えば、音声入力部２５０を介して入力された音声の音声データを、通信インターフェース部３１０を介して、受信するようにしてもよい。

【0112】

ステップＳ４１４では、プロセッサ部２３０が、ステップＳ４０１で受信された音声データおよびステップＳ４１３で受信された音声データの両方に対して音声処理を行う。音声処理されたデータは、例えば、端末装置２００の外部に出力されてもよいし、端末装置２００の記憶部に記憶されてもよいし、サーバ装置３００に送信さてもよい。

【0113】

このように、処理４１０により、ユーザは、音声アプリケーションからの音声データの音声を聞くとともに、音声アプリケーションからの音声データおよび端末装置２００の外部の音声データ（例えば、ユーザの音声データ）に対して音声処理を行うことができる。ユーザは、音声処理のためのシステム１００によって実装される処理アプリケーション４０および音声アプリケーション１０の他に特別なアプリケーション（例えば、仮想ミキサー）を起動および設定する必要がなく、煩わしさも回避することができる。

【0114】

なお、上述した例では、特定の順序で各ステップが行われることを説明したが、各ステップが行われる順序は示されるものに限定されない。各ステップは、論理的に可能な任意の順序で行われることができる。

【0115】

図４Ａおよび図４Ｂを参照して上述した例では、メモリ部２２０に格納されたプログラムによって一連の処理が行われることを説明した。上述したステップのうち、ステップＳ４０１およびステップＳ４０３、ならびに、ステップＳ４１１、ステップＳ４１３、およびステップ４１４は、音声処理のための従来の処理アプリケーションが、概して行う処理であると言える。本発明は、このような従来の処理アプリケーションに組み込まれることにより、処理４００または処理４１０を可能にするプログラムも提供する。すなわち、このプログラムを実行すると、処理アプリケーションが、ステップＳ４０２またはステップＳ４１２をさらに行うことが可能になる。このようなプログラムは、既存の処理アプリケーションのためのアドオンであり得る。

【0116】

図４Ａおよび図４Ｂを参照して上述した例では、図４Ａおよび図４Ｂに示される各ステップの処理は、プロセッサ部２３０およびメモリ部２２０に格納されたプログラム、または、プロセッサ部３３０およびメモリ部３２０に格納されたプログラムよって実現することが説明されたが、本発明はこれに限定されない。図４Ａおよび図４Ｂに示される各ステップの処理のうちの少なくとも１つは、制御回路などのハードウェア構成によって実現されてもよい。

【0117】

本発明は、上述した実施形態に限定されるものではない。本発明は、特許請求の範囲によってのみその範囲が解釈されるべきであることが理解される。当業者は、本発明の具体的な好ましい実施形態の記載から、本発明の記載および技術常識に基づいて等価な範囲を実施することができることが理解される。

【産業上の利用可能性】

【0118】

本発明は、ユーザの負担を軽減し、かつ、音質低下を回避して、音声アプリケーションから出力される音声データに対して音声処理を行うことが可能なプログラム等を提供するものとして有用である。

【符号の説明】

【0119】

Ｕユーザ
１０音声アプリケーション
２０、４０処理アプリケーション
３０仮想ミキサー
１００システム
１１０受信手段
１２０処理手段
１３０出力手段
２００端末装置
２４０音声出力部
２５０音声入力部

【図1】

【図2】

【図3A】

【図3B】

【図4A】

【図4B】

【図5A】

【図5B】

【手続補正書】

【提出日】2024-07-19

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

音声処理のためのプログラムであって、前記プログラムは、プロセッサを備えるコンピュータにおいて実行され、前記プログラムは、
音声データを出力する音声アプリケーションから音声データを受信することであって、前記音声アプリケーションから前記音声データを受信することは、前記音声アプリケーションから前記音声データを受信した仮想デバイスから出力された前記音声データを受信することを含む、ことと、
前記受信された音声データに対して、
音声処理を行うこと、および
前記音声処理を行うことなく、音声として出力すること
の両方を行うことと
を含む処理を前記プロセッサに行わせる、プログラム。

【請求項2】

前記仮想デバイスは、仮想スピーカと仮想マイクとのペアである、請求項１に記載のプログラム。

【請求項3】

【請求項4】

【請求項5】

前記音声処理は、前記音声データの音声および前記外部音声データの音声の認識、前記音声データの音声の話者および前記外部音声データの音声の話者の識別、前記音声データおよび前記外部音声データの記憶のうちの少なくとも１つを含む、請求項４に記載のプログラム。

【請求項6】

音声処理のための方法であって、
音声データを出力する音声アプリケーションから音声データを受信することであって、前記音声アプリケーションから前記音声データを受信することは、前記音声アプリケーションから前記音声データを受信した仮想デバイスから出力された前記音声データを受信することを含む、ことと、
前記受信された音声データに対して、
音声処理を行うこと、および
前記音声処理を行うことなく、音声として出力すること
の両方を行うことと
を含む、方法。

【請求項7】

音声処理のためのシステムであって、
音声データを出力する音声アプリケーションから音声データを受信する受信手段であって、前記受信手段は、前記音声アプリケーションから前記音声データを受信した仮想デバイスから出力された前記音声データを受信する、受信手段と、
前記受信された音声データに対して、音声処理を行う処理手段と、
前記受信された音声データに対して、前記音声処理を行うことなく、音声として出力する出力手段と
を備えるシステム。

【請求項8】

音声データを出力する音声アプリケーションと共に利用される音声処理のための処理アプリケーションに組み込まれることが可能なプログラムであって、前記処理アプリケーションは、プロセッサを備えるコンピュータにおいて実行され、前記音声アプリケーションから音声データを受信することと、前記受信された音声データに対して音声処理を行うこととを前記プロセッサに行わせ、前記プログラムは、
仮想デバイスを構築することと、
前記音声処理を行うことなく、前記コンピュータの外部に音声として出力すること
を前記プロセッサにさらに行わせ、前記前記音声アプリケーションから前記音声データを受信することは、前記音声アプリケーションから前記音声データを受信した前記仮想デバイスから出力された前記音声データを受信することを含む、プログラム。

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版