(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】特表2019-537041(P2019-537041A)
(43)【公表日】2019年12月19日
(54)【発明の名称】オーディオ信号をテキストにリアルタイムで文字起こしするためのシステムおよび方法
(51)【国際特許分類】
G10L 15/34 20130101AFI20191122BHJP
G10L 15/00 20130101ALI20191122BHJP
G10L 15/04 20130101ALI20191122BHJP
【FI】
G10L15/34 200
G10L15/00 200A
G10L15/04 200
【審査請求】有
【予備審査請求】未請求
【全頁数】22
(21)【出願番号】特願2018-568243(P2018-568243)
(86)(22)【出願日】2017年4月24日
(85)【翻訳文提出日】2019年4月5日
(86)【国際出願番号】CN2017081659
(87)【国際公開番号】WO2018195704
(87)【国際公開日】20181101
(81)【指定国】
AP(BW,GH,GM,KE,LR,LS,MW,MZ,NA,RW,SD,SL,ST,SZ,TZ,UG,ZM,ZW),EA(AM,AZ,BY,KG,KZ,RU,TJ,TM),EP(AL,AT,BE,BG,CH,CY,CZ,DE,DK,EE,ES,FI,FR,GB,GR,HR,HU,IE,IS,IT,LT,LU,LV,MC,MK,MT,NL,NO,PL,PT,RO,RS,SE,SI,SK,SM,TR),OA(BF,BJ,CF,CG,CI,CM,GA,GN,GQ,GW,KM,ML,MR,NE,SN,TD,TG),AE,AG,AL,AM,AO,AT,AU,AZ,BA,BB,BG,BH,BN,BR,BW,BY,BZ,CA,CH,CL,CN,CO,CR,CU,CZ,DE,DJ,DK,DM,DO,DZ,EC,EE,EG,ES,FI,GB,GD,GE,GH,GM,GT,HN,HR,HU,ID,IL,IN,IR,IS,JP,KE,KG,KH,KN,KP,KR,KW,KZ,LA,LC,LK,LR,LS,LU,LY,MA,MD,ME,MG,MK,MN,MW,MX,MY,MZ,NA,NG,NI,NO,NZ,OM,PA,PE,PG,PH,PL,PT,QA,RO,RS,RU,RW,SA,SC,SD,SE,SG,SK,SL,SM,ST,SV,SY,TH,TJ,TM,TN,TR,TT,TZ
(71)【出願人】
【識別番号】516317573
【氏名又は名称】ベイジン ディディ インフィニティ テクノロジー アンド ディベロップメント カンパニー リミティッド
(74)【代理人】
【識別番号】100120891
【弁理士】
【氏名又は名称】林 一好
(74)【代理人】
【識別番号】100165157
【弁理士】
【氏名又は名称】芝 哲央
(74)【代理人】
【識別番号】100205659
【弁理士】
【氏名又は名称】齋藤 拓也
(74)【代理人】
【識別番号】100126000
【弁理士】
【氏名又は名称】岩池 満
(74)【代理人】
【識別番号】100185269
【弁理士】
【氏名又は名称】小菅 一弘
(72)【発明者】
【氏名】リー シーロン
(57)【要約】
オーディオ信号をテキストにリアルタイムに文字起こしするためのシステムおよび方法が開示される。オーディオ信号は、第1の音声信号および第2の音声信号を含む。本方法は、オーディオ信号を受信するためのセッションを確立することと、第1の音声信号を、確立されたセッションを通じて受信することと、第1の音声信号を、音声セグメントの第1のセットに分割することと、音声セグメントの第1のセットを、テキストの第1のセットに文字起こしすることと、音声セグメントの第1のセットが文字起こしされている間に、第2の音声信号を受信することとを含むことができる。
【選択図】
図1
【特許請求の範囲】
【請求項1】
オーディオ信号をテキストに文字起こしするための方法であって、前記オーディオ信号は第1の音声信号および第2の音声信号を含み、前記方法は、
前記オーディオ信号を受信するためのセッションを確立するステップと、
前記第1の音声信号を、前記確立されたセッションを通じて受信するステップと、
前記第1の音声信号を、音声セグメントの第1のセットに分割するステップと、
前記音声セグメントの第1のセットを、テキストの第1のセットに文字起こしするステップと、
前記音声セグメントの第1のセットが文字起こしされている間に、前記確立されたセッションを通じて前記第2の音声信号を受信するステップと、
を含む、方法。
【請求項2】
前記第2の音声信号を、音声セグメントの第2のセットに分割するステップと、
前記音声セグメントの第2のセットを、テキストの第2のセットに文字起こしするステップと、
を更に含む、請求項1に記載の方法。
【請求項3】
前記テキストの第1のセットおよび第2のセットを連続して組み合わせ、前記組み合わされたテキストを、前記文字起こしされたテキストに対する追加として記憶するステップを更に含む、請求項2に記載の方法。
【請求項4】
サブスクライバから、前記オーディオ信号の前記文字起こしされたテキストをサブスクライブするための第1の要求を受信するステップと、
前記第1の要求が受信された時点を判断するステップと、
前記時点に対応する前記文字起こしされたテキストのサブセットを前記サブスクライバに配信するステップと、
を更に含む、請求項1に記載の方法。
【請求項5】
前記サブスクライバから、前記オーディオ信号の前記文字起こしされたテキストを更新するための第2の要求を更に受信するステップと、
前記第2の要求に従って、前記サブスクライバに、最も近時に文字起こしされたテキストを配信するステップと、
を更に含む、請求項4に記載の方法。
【請求項6】
最も近時に文字起こしされたテキストを前記サブスクライバに自動的にプッシュするステップを更に含む、請求項4に記載の方法。
【請求項7】
前記オーディオ信号を受信するための前記セッションを確立するステップは、
メディア・リソース制御プロトコル・バージョン2またはハイパーテキスト転送プロトコルに従って前記オーディオ信号を受信するステップを更に含む、請求項1に記載の方法。
【請求項8】
前記オーディオ信号を受信するためのパケット損失率を監視するステップと、
前記パケット損失率が所定のしきい値よりも高いとき、前記セッションを終了させるステップと、
を更に含む、請求項1に記載の方法。
【請求項9】
前記セッションが所定の期間にわたってアイドルであった後、前記セッションを終了させるステップを更に含む、請求項1に記載の方法。
【請求項10】
前記サブスクライバは、前記文字起こしされたテキストを自動的に解析するための命令を実行するプロセッサを含む、請求項4に記載の方法。
【請求項11】
前記第1の音声信号は、前記セッション中に確立された第1のスレッドを通じて受信され、前記方法は、
前記音声セグメントの第1のセットが文字起こしされている間に、前記第1のスレッドを解放するための応答を送信するステップと、
前記第2の音声信号を受信するための第2のスレッドを確立するステップと、
を更に含む、請求項1に記載の方法。
【請求項12】
オーディオ信号を音声テキストに文字起こしするための音声認識システムであって、前記オーディオ信号は第1の音声信号および第2の音声信号を含み、前記音声認識システムは、
前記オーディオ信号を受信するためのセッションを確立し、前記第1の音声信号を、前記確立されたセッションを通じて受信するように構成された通信インターフェースと、
前記第1の音声信号を、音声セグメントの第1のセットに分割するように構成された分割ユニットと、
前記音声セグメントの第1のセットを、テキストの第1のセットに文字起こしするように構成された文字起こしユニットと、
を備え、
前記通信インターフェースは、前記音声セグメントの第1のセットが文字起こしされている間に、前記第2の音声信号を受信するように更に構成される、音声認識システム。
【請求項13】
前記分割ユニットは、前記第2の音声信号を、音声セグメントの第2のセットに分割するように更に構成され、
前記文字起こしユニットは、前記音声セグメントの第2のセットを、テキストの第2のセットに文字起こしするように更に構成される、請求項12に記載の音声認識システム。
【請求項14】
前記テキストの第1のセットおよび第2のセットを連続して組み合わせ、前記組み合わされたテキストを、前記文字起こしされたテキストに対する追加として記憶するように構成されたメモリを更に備える、請求項13に記載の音声認識システム。
【請求項15】
配信インターフェースを更に備え、
前記通信インターフェースは、サブスクライバから、前記オーディオ信号の前記文字起こしされたテキストをサブスクライブするための第1の要求を受信し、前記第1の要求が受信された時点を判断するように更に構成され、
前記配信インターフェースは、前記時点に対応する前記文字起こしされたテキストのサブセットを前記サブスクライバに配信するように構成される、請求項12に記載の音声認識システム。
【請求項16】
前記通信インターフェースは、前記オーディオ信号を受信するためのパケット損失率を監視し、前記パケット損失率が所定のしきい値よりも高いとき、前記セッションを終了させるように更に構成される、請求項12に記載の音声認識システム。
【請求項17】
前記通信インターフェースは、前記セッションが所定の期間にわたってアイドルであった後、前記セッションを終了させるように更に構成される、請求項12に記載の音声認識システム。
【請求項18】
前記サブスクライバは、前記文字起こしされたテキストを自動的に解析するための命令を実行するプロセッサを含む、請求項15に記載の音声認識システム。
【請求項19】
前記第1の音声信号は、前記セッション中に確立された第1のスレッドを通じて受信され、前記通信インターフェースは、
前記音声セグメントの第1のセットが文字起こしされている間に、前記第1のスレッドを解放するための応答を送信し、
前記第2の音声信号を受信するための第2のスレッドを確立するように更に構成される、請求項12に記載の音声認識システム。
【請求項20】
音声認識システムの少なくとも1つのプロセッサによって実行されると、前記音声認識システムに、オーディオ信号をテキストに文字起こしするための方法を行わせる命令のセットを記憶する非一時的コンピュータ可読媒体であって、前記オーディオ信号は第1の音声信号および第2の音声信号を含み、前記方法は、
前記オーディオ信号を受信するためのセッションを確立するステップと、
前記第1の音声信号を、前記確立されたセッションを通じて受信するステップと、
前記第1の音声信号を、音声セグメントの第1のセットに分割するステップと、
前記音声セグメントの第1のセットを、テキストの第1のセットに文字起こしするステップと、
前記音声セグメントの第1のセットが文字起こしされている間に、前記第2の音声信号を受信するステップと、
を含む、非一時的コンピュータ可読媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、音声認識に関し、より詳細には、音声等のオーディオ信号をテキストに文字起こしし、テキストをサブスクライバ(subscriber)にリアルタイムで配信するためのシステムおよび方法に関する。
【背景技術】
【0002】
自動音声認識(ASR)システムを用いて、音声をテキストに文字起こしすることができる。文字起こしされたテキストは、更なる解析のために、コンピュータ・プログラムまたは人物によってサブスクライブすることができる。例えば、ユーザのコール(call)からASR文字起こしされたテキストは、オンライン配車プラットフォームのコール・センターによって利用することができ、それによって、タクシーまたは自家用車をユーザに派遣する効率を改善するために、コールをより効率的に解析することができる。
【0003】
従来のASRシステムは、文字起こしされたテキストを生成するために音声認識を実行することができる前に、音声全体が受信されることを必要とする。したがって、長い音声の文字起こしはリアルタイムで行うことがほとんどできない。例えば、オンライン配車プラットフォームのASRシステムは、コールが終了するまでコールを記録し続け、その後、記録されたコールの文字起こしを開始することができる。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本開示の実施形態は、音声をテキストに文字起こしし、テキストをサブスクライバにリアルタイムに配信する、改善された文字起こしシステムおよび方法を提供する。
【課題を解決するための手段】
【0005】
1つの態様において、本開示は、オーディオ信号をテキストに文字起こしするための方法を対象とし、オーディオ信号は第1の音声信号および第2の音声信号を含む。本方法は、オーディオ信号を受信するためのセッションを確立することと、第1の音声信号を、確立されたセッションを通じて受信することと、第1の音声信号を、音声セグメントの第1のセットに分割することと、音声セグメントの第1のセットを、テキストの第1のセットに文字起こしすることと、音声セグメントの第1のセットが文字起こしされている間に、第2の音声信号を受信することとを含むことができる。
【0006】
別の態様において、本開示は、オーディオ信号を音声テキストに文字起こしするための音声認識システムを対象とし、オーディオ信号は第1の音声信号および第2の音声信号を含む。音声認識システムは、オーディオ信号を受信するためのセッションを確立し、第1の音声信号を、確立されたセッションを通じて受信するように構成された通信インターフェースと、第1の音声信号を、音声セグメントの第1のセットに分割するように構成された分割ユニットと、音声セグメントの第1のセットを、テキストの第1のセットに文字起こしするように構成された文字起こしユニットとを備えることができ、通信インターフェースは、音声セグメントの第1のセットが文字起こしされている間に、第2の音声信号を受信するように更に構成される。
【0007】
別の態様において、本開示は、非一時的コンピュータ可読媒体を対象とする。コンピュータ可読媒体に記憶されたコンピュータ命令は、プロセッサによって実行されると、オーディオ信号をテキストに文字起こしするための方法を行うことができ、オーディオ信号は第1の音声信号および第2の音声信号を含む。本方法は、オーディオ信号を受信するためのセッションを確立することと、第1の音声信号を、確立されたセッションを通じて受信することと、第1の音声信号を、音声セグメントの第1のセットに分割することと、音声セグメントの第1のセットを、テキストの第1のセットに文字起こしすることと、音声セグメントの第1のセットが文字起こしされている間に、第2の音声信号を受信することとを含むことができる。
【0008】
上記の包括的な説明および以下の詳細な説明の双方が例示的で説明的なものにすぎず、特許請求される本発明を限定するものではないことが理解されよう。
【図面の簡単な説明】
【0009】
【
図1】本開示のいくつかの実施形態による、音声認識システムの概略図である。
【
図2】本開示のいくつかの実施形態による、音声ソースおよび音声認識システム間の例示的な接続を示す図である。
【
図3】本開示のいくつかの実施形態による、音声認識システムのブロック図である。
【
図4】本開示のいくつかの実施形態による、オーディオ信号をテキストに文字起こしするための例示的なプロセスのフローチャートである。
【
図5】本開示のいくつかの実施形態による、文字起こしされたテキストをサブスクライバに配信するための例示的なプロセスのフローチャートである。
【
図6】本開示のいくつかの実施形態による、オーディオ信号をテキストに文字起こしするための例示的なプロセスのフローチャートである。
【発明を実施するための形態】
【0010】
ここで、例示的な実施形態が詳細に参照される。例示的な実施形態の例は添付の図面に示されている。可能な限り、同じ参照符号が図面全体にわたって同じまたは類似のパーツを指すのに用いられる。
【0011】
図1は、本開示のいくつかの実施形態による、音声認識システムの概略図を示す。
図1に示されるように、音声認識システム100は、音声ソース101からオーディオ信号を受信し、オーディオ信号を音声テキストに文字起こしすることができる。音声ソース101は、マイクロフォン101a、電話101b、または通話の記録等のオーディオ信号を受信および記録するスマート・デバイス101c(スマート・フォン、タブレット等)上のアプリケーションを含むことができる。
図2は、本開示のいくつかの実施形態による、音声ソース101および音声認識システム100間の例示的な接続を示す。
【0012】
1つの実施形態において、スピーカー(speaker)が会議または講義における音声を与えることができ、音声はマイクロフォン101bによって記録することができる。音声は、リアルタイムで、または音声が終了し完全に記録された後、音声認識システム100にアップロードすることができる。次に、音声は、音声認識システム100によって音声テキストに文字起こしすることができる。音声認識システム100は、音声テキストを自動的に保存し、かつ/または音声テキストをサブスクライバに配信することができる。
【0013】
別の実施形態において、ユーザは、電話101bを用いて通話することができる。例えば、ユーザは、オンライン配車プラットフォームのコール・センターに電話をかけ、タクシーまたは自家用車を要求することができる。
図2に示されているように、オンライン配車プラットフォームは、様々なサービスをクライアントに提供するために音声サーバ(例えば、オンライン配車プラットフォームにおけるサーバ)によって用いられる通信プロトコルである、メディア・リソース制御プロトコル・バージョン2(MRCPv2)をサポートすることができる。MRCPv2は、例えば、セッション開始プロトコル(SIP)およびリアルタイム・プロトコル(RTP)を用いることによって、クライアントおよびサーバ間の制御セッションおよびオーディオ・ストリームを確立することができる。すなわち、通話のオーディオ信号は、MRCPv2に従って音声認識システム100によってリアルタイムに受信することができる。
【0014】
音声認識システム100によって受信されるオーディオ信号は、文字起こしされる前に前処理することができる。いくつかの実施形態では、オーディオ信号のオリジナル・フォーマットは、音声認識システム100と互換性のあるフォーマットに変換することができる。加えて、通話のデュアル・オーディオ・トラック・レコーディングは、2つのシングル・オーディオ・トラック信号に分割することができる。例えば、マルチメディア・フレームワークFFmpegを用いて、デュアル・オーディオ・トラック・レコーディングを、パルス符号変調(PCM)フォーマットにおける2つのシングル・オーディオ・トラック信号に変換することができる。
【0015】
更に別の実施形態では、ユーザは、スマート・デバイス101cにおけるモバイル・アプリケーション(DiDiアプリ等)を通じて、ボイス・メッセージを記録するか、またはオンライン配車プラットフォームのカスタマー・サービスとのボイス・チャットを行うことができる。
図2に示されるように、モバイル・アプリケーションは、ボイス・メッセージまたはボイス・チャットのオーディオ信号を処理するためのボイス・ソフトウェア開発キット(SDK)を含むことができ、処理されたオーディオ信号は、例えば、ハイパーテキスト転送プロトコル(HTTP)に従って、オンライン配車プラットフォームの音声認識システム100に送信することができる。アプリケーションのSDKは、オーディオ信号を、適応マルチ・レート(amr)またはブロード・ボイス32(bv32)フォーマットにおけるオーディオ・ファイルに更に圧縮することができる。
【0016】
図1に戻って参照すると、文字起こしされた音声テキストは、ストレージ・デバイス103に記憶することができ、それによって、記憶された音声テキストを後に取り出し、更に処理することができる。ストレージ・デバイス103は、音声認識システム100の内部にあっても外部にあってもよい。ストレージ・デバイス103は、スタティック・ランダム・アクセス・メモリ(SRAM)、電気的消去可能プログラマブル読取り専用メモリ(EEPROM)、消去可能プログラマブル読取り専用メモリ(EPROM)、プログラマブル読取り専用メモリ(PROM)、読取り専用メモリ(ROM)、磁気メモリ、フラッシュ・メモリ、または磁気もしくは光ディスク等の、任意のタイプの揮発性もしくは不揮発性メモリ・デバイス、またはそれらの組み合わせとして実施することができる。
【0017】
音声認識システム100は、文字起こしされたテキストを、自動的にまたは要求時に、1つまたは複数のサブスクライバ105に配信することもできる。サブスクライバ105は、テキストをサブスクライブする人物、またはテキストを更に処理するように構成されたデバイス(コンピュータ・プログラムを含む)を含むことができる。例えば、
図1に示すように、サブスクライバ105は、第1のユーザ105a、第2のユーザ105bおよびテキスト処理デバイス105cを含むことができる。サブスクライバは、異なる時点において、文字起こしされたテキストをサブスクライブすることができる。これについては更に論考される。
【0018】
いくつかの実施形態では、音声は、しばらく続く長い音声である場合があり、音声のオーディオ信号は、音声が依然として進行中である間に、音声認識システム100に断片的に送信することができる。オーディオ信号は、複数の音声信号を含むことができ、複数の音声信号は連続して送信することができる。いくつかの実施形態では、音声信号は、一定の期間中の音声の一部分、または音声の一定のチャネルを表すことができる。音声信号はまた、電話の変換、動画、TVの一話、楽曲、報道、プレゼンテーション、討論等の、文字起こし可能なコンテンツを表す任意のタイプのオーディオ信号であり得る。例えば、オーディオ信号は、第1の音声信号および第2の音声信号を含む場合があり、この第1の音声信号および第2の音声信号は、連続して送信することができる。第1の音声信号は音声の第1の部分に対応し、第2の音声信号は音声の第2の部分に対応する。別の例として、第1の音声信号および第2の音声信号は、それぞれ、音声の左チャネルおよび右チャネルのコンテンツに対応する。
【0019】
図3は、本開示のいくつかの実施形態による、音声認識システム100のブロック図を示す。
【0020】
音声認識システム100は、通信インターフェース301、識別ユニット303、文字起こしユニット305、配信インターフェース307およびメモリ309を備えることができる。いくつかの実施形態では、識別ユニット303および文字起こしユニット305は、音声認識システム100のプロセッサの構成要素であってもよい。これらのモジュール(および任意の対応するサブモジュールまたはサブユニット)は、他の構成要素と共に用いるように設計された機能ハードウェアユニット(例えば、集積回路の一部分)であってもよく、または特定の機能を実行する(コンピュータ可読媒体上に記憶された)プログラムの一部であってもよい。
【0021】
通信インターフェース301は、オーディオ信号を受信するためのセッションを確立することができ、確立されたセッションを通じてオーディオ信号の音声信号(例えば、第1の音声信号および第2の音声信号)を受信することができる。例えば、クライアント端末は、セッションを確立することの要求を通信インターフェース301に送信することができる。MRCPv2およびSIPに従ってセッションが確立されるとき、音声認識システム100は、タグ(「To」タグ、「From」タグ、および「コールID」タグ等)によってSIPセッションを識別することができる。HTTPに従ってセッションが確立されるとき、音声認識システム100は、汎用一意識別子(UUID)によって生成された特有の(unique)トークンをセッションに割り当てることができる。セッションのためのトークンは、セッションが完了した後に解放することができる。
【0022】
通信インターフェース301は、オーディオ信号の送信中のパケット損失率を監視することができる。パケット損失率は、ネットワーク接続安定性の指標である。パケット損失率が一定の値(例えば、2%)よりも高いとき、音声ソース101と音声認識システム100との間のネットワーク接続が安定していないことが示唆される場合があり、音声の受信オーディオ信号は、何らかの再構成または更なる解析が可能になるには過度に多くのデータを損失している場合がある。したがって、通信インターフェース301は、パケット損失率が所定のしきい値(例えば、2%)よりも高いときにセッションを終了させ、音声ソース101にエラーを報告することができる。いくつかの実施形態では、セッションが所定の期間(例えば、30秒)にわたってアイドルとなった後、音声認識システム100は、スピーカーが音声を終了したと判断することができ、次に、通信インターフェース301はセッションを終了させることができる。セッションは、音声ソース101(すなわち、スピーカー)によって手動で終了させることもできることが予期される。
【0023】
通信インターフェース301は、音声信号の各々が受信される時点を更に判断することができる。例えば、通信インターフェース301は、第1の音声信号が受信される第1の時点および第2の音声信号が受信される第2の時点を判断することができる。
【0024】
通信インターフェース301によって受信されるオーディオ信号は、文字起こしユニット305によって文字起こしされる前に更に処理することができる。各音声信号は、ボイス認識システム100が一度に文字起こしするには過度に長いいくつかの文を含む場合がある。このため、識別ユニット303は、受信したオーディオ信号を音声セグメントに分割することができる。例えば、オーディオ信号の第1の音声信号および第2の音声信号は、それぞれ、音声セグメントの第1のセットおよび第2のセットに更に分割することができる。いくつかの実施形態では、受信したオーディオ信号を分割するために、ボイス・アクティビティ検出(VAD)を用いることができる。例えば、VADは、第1の音声信号を、文または単語に対応する音声セグメントに分けることができる。VADは、第1の音声信号の非音声セクションを識別し、この非音声セクションを文字起こしから更に除外し、システムの計算およびスループットを節減することもできる。いくつかの実施形態では、第1の音声信号および第2の音声信号を組み合わせて、連続した長い音声信号にすることができ、次にこれを分割することができる。
【0025】
文字起こしユニット305は、音声信号の各々について音声セグメントをテキストのセットに文字起こしすることができる。例えば、第1の音声信号および第2の音声信号の音声セグメントの第1のセットおよび第2のセットは、それぞれ、テキストの第1のセットおよび第2のセットに文字起こしすることができる。音声セグメントは、連続してまたは並列に文字起こしすることができる。いくつかの実施形態では、自動音声認識(ASR)を用いて音声セグメントを文字起こしすることができ、それによって、音声信号は、テキストとして記憶し、更にテキストとして処理することができる。
【0026】
オーディオ信号をテキストに単に変換するだけでなく、文字起こしユニット305は、スピーカーの特定のボイスがシステムのデータベースに記憶されている場合に、スピーカーのアイデンティティを更に識別することができる。文字起こしされたテキストおよびスピーカーのアイデンティティは、更なる処理のために識別ユニット303に返送することができる。
【0027】
更に、例えば、ユーザがオンライン配車プラットフォームに電話をかけるとき、音声認識システム100は、通話のオーディオ信号を文字起こしし、ユーザのアイデンティティを更に識別することができる。次に、音声認識システム100の識別ユニット303は、文字起こしされたテキストにおけるキーワードを識別し、キーワードをハイライトし、かつ/またはキーワードに関連付けられたその他の情報をオンライン配車プラットフォームのカスタマー・サービスに提供することができる。いくつかの実施形態では、移動の出発地ロケーションおよび目的地ロケーションのためのキーワードが文字起こしされたテキストにおいて検出されるとき、可能な移動ルート、およびルートごとの時間を提供することができる。したがって、カスタマー・サービスは、関連情報を手動で収集する必要がない場合がある。いくつかの実施形態では、ユーザの嗜好、履歴オーダー、頻繁に使用される目的地等の、ユーザに関連付けられた情報を識別し、プラットフォームのカスタマー・サービスに提供することができる。
【0028】
第1の音声信号の音声セグメントの第1のセットが文字起こしユニット305によって文字起こしされている間、通信インターフェース301は、第2の音声信号を受信し続けることができる。音声信号(例えば、第1の音声信号および第2の音声信号)ごとに、セッション中にスレッドを確立することができる。例えば、第1の音声信号は、第1のスレッドを介して受信することができ、第2の音声信号は、第2のスレッドを介して受信することができる。第1の音声信号の送信が完了すると、第1のスレッドを解放するための応答を生成することができ、識別ユニット303および文字起こしユニット305は、受信した信号の処理を開始することができる。その間、第2の音声信号を受信するための第2のスレッドを確立することができる。同様に、第2の音声信号が完全に受信され、文字起こしのために送信されるとき、音声認識システム100の通信インターフェース301は、別の音声信号を受信するための別のスレッドを確立することができる。
【0029】
したがって、文字起こしを始めることができる前にオーディオ信号全体が受信されるまで待機する必要なく、受信した音声信号の処理は、到来する別の音声信号が受信される間に行うことができる。この特徴は、音声認識システム100が音声をリアルタイムで文字起こしすることを可能にすることができる。
【0030】
識別ユニット303および文字起こしユニット305は、別個の処理ユニットとして示されているが、ユニット303および305は、プロセッサの機能構成要素とすることもできることが予期される。
【0031】
メモリ309は、音声信号の音声テキストを連続して組み合わせ、組み合わされたテキストを、文字起こしされたテキストへの追加として記憶することができる。例えば、テキストの第1のセットおよび第2のセットは、組み合わせて記憶することができる。更に、メモリ309は、組み合わされたテキストに対応する音声信号が受信されたときを示す、通信インターフェース301によって検出された時点に従って、組み合わされたテキストを記憶することができる。
【0032】
オーディオ信号の音声信号の受信に加えて、通信インターフェース301は更に、サブスクライバから、オーディオ信号の文字起こしされたテキストをサブスクライブするための第1の要求を受信し、第1の要求が受信された時点を判断することができる。配信インターフェース307は、通信インターフェース301によって判断された時点に対応する文字起こしされたテキストのサブセットをサブスクライバに配信することができる。いくつかの実施形態では、通信インターフェース301は、サブスクライバから、文字起こしされたテキストの同じセットをサブスクライブするための複数の要求を受信することができ、要求の各々の時点が判断され、記録されることができる。配信インターフェース307はそれぞれ、サブスクライバの各々に、時点に対応する文字起こしされたテキストのサブセットを配信することができる。配信インターフェース307は、文字起こしされたテキストを、直接または通信インターフェース301を介してサブスクライバに配信することができることが予期される。
【0033】
時点に対応する文字起こしされたテキストのサブセットは、開始からその時点までのオーディオ信号のコンテンツに対応する文字起こしされたテキストのサブセット、またはオーディオ信号のコンテンツの予め設定された期間に対応する文字起こしされたテキストのサブセットを含むことができる。例えば、サブスクライバは音声認識システム100に接続され、通話が始まった2分後の時点に、通話をサブスクライブするための要求を送信することができる。配信インターフェース307は、サブスクライバ(例えば、
図1における第1のユーザ105a、第2のユーザ105bおよび/またはテキスト処理デバイス105c)に、通話の開始から2分の間の全てのコンテンツに対応するテキストのサブセット、またはその時点の前の所定の期間(例えば、その時点の前の10秒間のコンテンツ)のみに対応するテキストのサブセットを配信することができる。テキストのサブセットは、その時点に対しほとんど近時の音声セグメントにも対応することができることが予期される。
【0034】
いくつかの実施形態では、サブスクライブ後に、追加の配信を行うことができる。例えば、オーディオ信号が初めてサブスクライブされるときに受信した要求に従ってテキストのサブセットがサブスクライバに配信された後、配信インターフェース307は、文字起こしされたテキストをサブスクライバに継続して配信することができる。1つの実施形態では、通信インターフェース301は、サブスクライバから、オーディオ信号の文字起こしされたテキストを更新するための第2の要求を受信するまで、更なるテキストを配信しない場合がある。次に、通信インターフェース301は、第2の要求に従って、最も近時に文字起こしされたテキストをサブスクライバに配信することができる。例えば、サブスクライバは、グラフィック・ユーザ・インターフェース(GUI)によって表示されたリフレッシュボタンをクリックして、第2の要求を通信インターフェース301に送信し、配信インターフェース307は、新たに文字起こしされたテキストが存在するか否かを判断し、新たに文字起こしされたテキストをサブスクライバに送信することができる。別の実施形態において、配信インターフェース307は、最も近時に文字起こしされたテキストをサブスクライバに自動的にプッシュすることができる。
【0035】
文字起こしされたテキストが受信された後、サブスクライバは、テキストを更に処理し、テキストに関連付けられた情報を抽出することができる。上記で論考したように、サブスクライバは、
図1のテキスト処理デバイス105cとすることができ、テキスト処理デバイス105cは、文字起こしされたテキストを自動的に解析するための命令を実行するプロセッサを含むことができる。
【0036】
図4および
図5を参照して、オーディオ信号をテキストに文字起こしし、文字起こしされたテキストをハイパーテキスト転送プロトコル(HTTP)に従って配信するためのプロセスが更に説明される。
【0037】
図4は、本開示のいくつかの実施形態による、オーディオ信号をテキストに文字起こしするための例示的なプロセス400のフローチャートである。プロセス400は、オーディオ信号を文字起こしするために音声認識システム100によって実施することができる。
【0038】
フェーズ401において、音声ソース101(例えば、スマート・フォン上のアプリケーションのSDK)は、音声セッションを確立するための要求を音声認識システム100の通信インターフェース301に送信することができる。例えば、セッションは、HTTPに従って確立することができ、したがって、要求は、例えば、「HTTP GET」コマンドによって送信することができる。「HTTP GET」要求を受信する通信インターフェース301は、例えば、HTTPリバース・プロキシとすることができる。リバース・プロキシは、音声認識システム100の他のユニットからリソースを取り出し、リソースを、リバース・プロキシ自体から発信されたかのように音声ソース101に返すことができる。次に、通信インターフェース301は、要求を、例えばFast CGIを介して識別ユニット303に転送することができる。Fast CGIは、プログラムをサーバに結び付けるためのプロトコルである。要求を転送するための他の適切なプロトコルを用いることができることが予期される。セッションを確立するための要求が受信された後、識別ユニット303は、メモリ309において、セッションのためのキューを生成することができ、セッションを示すためのトークンが通信インターフェース301のために確立される。いくつかの実施形態では、トークンは、UUIDによって生成することができ、本明細書に記載されるプロセス全体にわたって大域的に特有のアイデンティティである。通信インターフェース301がトークンを受信した後、HTTP応答200(「OK」)がソース101に送信され、セッションが確立されたことを示す。HTTP応答200は、要求/コマンドの処理に成功したことを示す。
【0039】
セッションが確立された後、フェーズ403において音声認識が初期化される。フェーズ403において、ソース101は、通信インターフェース301に、音声認識を初期化するためのコマンドおよびオーディオ信号の音声信号を送信することができる。コマンドは、セッションを示すためのトークンを搬送することができ、音声信号は、所定の期間(例えば、160ミリ秒)よりも持続することができる。音声信号はID番号を含むことができ、これは、到来する音声信号の各々についてインクリメントする。コマンドおよび音声信号は、例えば、「HTTP POST」コマンドによって送信することができる。同様に、通信インターフェース301は、コマンドおよび音声信号を、「Fast CGI」を介して識別ユニット303に転送することができる。次に、識別ユニット303は、トークンをチェックし、音声信号のパラメータを検証することができる。パラメータは、音声信号が受信される時点、ID番号等を含むことができる。いくつかの実施形態では、通常連続している音声信号のID番号を検証して、パケット損失率を判断することができる。上記で論考したように、音声信号の送信が完了しているとき、音声信号を送信するためのスレッドを解放することができる。例えば、受信した音声信号が検証されるとき、識別ユニット303は通信インターフェース301に通知することができ、通信インターフェース301は、音声信号が受信されたことを示すHTTP応答200を音声ソース101に送信することができ、対応するスレッドは解放されることができる。フェーズ403は、ループで実行することができ、それによって、オーディオ信号の全ての音声信号は、音声認識システム100にアップロードすることができる。
【0040】
フェーズ403はループで実行されているが、フェーズ405は、ループが終了するのを待機する必要なく、アップロードされたオーディオ信号を処理することができる。フェーズ405において、識別ユニット303は、受信した音声信号を音声セグメントに分割することができる。例えば、
図4に示されるように、0.3秒〜5.7秒にわたって持続し、2.6秒〜2.8秒の非音声セクションを含む第1の音声信号は、ModelVAD技法等のVADを用いて音声セグメントの第1のセットに分割することができる。例えば、音声信号は、0.3秒〜2.6秒の第1のセグメントと、2.8秒〜5.7秒の第2のセグメントとに分けることができる。音声セグメントはテキストに文字起こしすることができる。例えば、第1のセグメントおよび第2のセグメントは、テキストの第1のセットおよび第2のセットに文字起こしすることができ、テキストの第1のセットおよび第2のセットは、識別ユニット303によって生成されたキューに記憶される。オーディオ信号から生成された全てのテキストは、オーディオ信号に対応する同じキューに記憶される。文字起こしされたテキストは、それらが受信された時点に従って記憶することができる。キューは、UUIDによって一意に生成されたトークンに従って識別することができる。したがって、各オーディオ信号は、文字起こしされたテキストを記憶するための特有のキューを有する。文字起こしユニット305が受信された音声信号に対し作動している間、音声ソース101は、通信インターフェース301に、フィードバックを要求するコマンドを送信することができる。フィードバックは、例えば、音声の現在の長さ、オーディオ信号の文字起こしの進行、オーディオ信号のパケット損失率等に関する情報を含むことができる。情報はスピーカーに表示することができ、それによって、スピーカーは、必要な場合に音声を調整することができる。例えば、音声を文字起こしする進行が所定の期間にわたって音声自体から遅れている場合、スピーカーは進行を通知されることができ、それによってスピーカーは音声の速度を調整することができる。コマンドは、同様に、セッションを識別するためのトークンを搬送することができ、通信インターフェース301はコマンドを識別ユニット303に転送することができる。コマンドが受信された後、識別ユニット303は、トークンに対応するフィードバックを取り出し、これを通信インターフェース301に送信し、更に音声ソース101に送信することができる。
【0041】
フェーズ407において、セッションを終了させるためのコマンドを音声ソース101から発行することができる。同様に、コマンドは、トークンと共に、通信ユニット301を介して識別ユニット303に送信される。次に、識別ユニット303は、セッションをクリアし、セッションのためのリソースを解放することができる。セッションが終了したことを示す応答を通信インターフェース301に返送することができ、通信インターフェース301は更に、HTTP応答200(「OK」)を生成し、これを音声ソース101に送信する。いくつかの他の実施形態では、セッションは、パケット損失率が高いとき、または十分長い期間にわたってアイドルであるときにも終了させることができる。例えば、セッションは、例えば、パケット損失率が2%よりも高いか、またはセッションが30秒にわたってアイドルである場合に終了させることができる。
【0042】
HTTP応答のうちの1つまたは複数が「OK」ではなくエラーである場合があることが予期される。特定のプロシージャが失敗したことを示すエラーを受信したとき、この特定のプロシージャを繰り返すことができるか、またはセッションを終了させることができ、エラーをスピーカーおよび/または音声認識システム100の管理者に報告することができる。
【0043】
図5は、本開示のいくつかの実施形態による、文字起こしされたテキストをサブスクライバに配信するための例示的なプロセス500のフローチャートである。プロセス500は、
図5のフローチャートに従って文字起こしされたテキストを配信するために音声認識システム100によって実施することができる。
【0044】
フェーズ501において、音声認識システム100は、複数の音声を同時に処理することができるため、メモリ309においてメッセージ・キューを確立することができ、それによって文字起こしユニット305は、音声のトピックをメッセージ・キューに発行することができる。そして、トピックの各々のためのサブスクライバキューもメモリ309において確立することができ、それによって、特定のトピックのサブスクライバは、それぞれのサブスクライバキューにおいてリスト化することができ、音声テキストは、文字起こしユニット305によってそれぞれのサブスクライバキューにプッシュすることができる。メモリ309は、音声のトピックの発行に成功したか否かおよび/または音声テキストのプッシュに成功したか否かを示す応答を文字起こしユニット305に返すことができる。
【0045】
フェーズ503において、サブスクライバ105は、通信インターフェース301に、現在アクティブな音声をクエリするための要求を送信することができる。上記で説明したように、要求は、「HTTP GET」コマンドによって通信インターフェース301に送信することができる。そして、要求は、例えばFast CGIによって配信インターフェース307に転送され、次に、配信インターフェース307は、メモリ309のメッセージ・キュー内に記憶されたアクティブな音声のトピックをクエリすることができる。したがって、メモリ309は、現在アクティブな音声のトピックを、音声の関連情報と共に、通信インターフェース301を介してサブスクライバ105に返すことができる。関連情報は、例えば、音声の識別子および記述を含むことができる。通信インターフェース301は、HTTP応答200(「OK」)をサブスクライバ105に送信することもできる。
【0046】
フェーズ505において、現在アクティブな音声のトピックおよび関連情報をサブスクライバ105に表示することができ、サブスクライバ105は識別子を有する音声をサブスクライブすることができる。音声をサブスクライブするための要求を通信インターフェース301に送信することができ、次に配信インターフェース307に転送することができる。配信インターフェース307は、要求のパラメータを検証することができる。例えば、パラメータは、チェックコード、サブスクライバ105の識別子、音声の識別子、音声のトピック、サブスクライバ105が要求を送信する時点等を含むことができる。
【0047】
配信ユニット307が、サブスクライバ105が新たなサブスクライバであると判断する場合、要求に対応する音声がサブスクライブされることができ、サブスクライバ105はメモリ309のサブスクライバキュー内に更新されることができる。次に、サブスクライブが成功したことを示す応答を配信インターフェース307に送信することができ、配信インターフェース307は、通信インターフェース301に、サブスクライバの識別子、音声の現在のスケジュール、および/または音声のサブスクライバ数等の、音声に関する情報を送信することができる。通信インターフェース301は、HTTP応答200(「OK」)を生成し、上記の情報を、HTTP応答と共にサブスクライバ105に返送することができる。
【0048】
配信ユニット307が、サブスクライバ105が既存のサブスクライバであると判断する場合、配信インターフェース307は、情報を通信インターフェース301に直接送信することができる。
【0049】
フェーズ507において、HTTP応答200(「OK」)がサブスクライバ105によって受信された後、サブスクライバ105は、例えば、サブスクライバの識別子、セッションのトークン、および/または音声の現在のスケジュールに従って、テキストを取得するための要求を送信する。要求は、Fast CGIによって通信インターフェース301を介して配信インターフェース307に転送することができ、それによって、配信インターフェース307は文字起こしされたテキストにアクセスすることができる。配信インターフェース307は、任意の新たな文字起こしされたテキストをソース105に返送するか、または新たなテキストがない場合、「ヌル」信号を送信することができる。
【0050】
最も近時に文字起こしされたテキストを、要求なしでサブスクライバ105に自動的にプッシュすることもできることが予期される。
【0051】
いくつかの実施形態では、メッセージ・キューに記憶される音声のトピックが、所定の期間にわたって問い合わせされない場合、トピックは期限切れのトピックとしてクリアすることができる。
【0052】
図6は、本開示のいくつかの実施形態による、オーディオ信号をテキストに文字起こしするための例示的なプロセス600のフローチャートである。例えば、プロセス600は、音声認識システム100によって行うことができ、以下のように論考されるステップS601〜S609を含むことができる。
【0053】
ステップS601において、音声認識システム100は、オーディオ信号を受信するためのセッションを確立することができる。オーディオ信号は、第1の音声信号および第2の音声信号を含むことができる。例えば、第1の音声信号は、まず、メディア・リソース制御プロトコル・バージョン2またはハイパーテキスト転送プロトコルに従って受信することができる。音声認識システム100は、オーディオ信号を受信するためのパケット損失率を更に監視し、パケット損失率が所定のしきい値よりも高いとき、セッションを終了させることができる。いくつかの実施形態では、パケット損失率が2%よりも高いとき、セッションは不安定であるとみなされ、終了させることができる。音声認識システム100は、セッションが所定の期間にわたってアイドルであった後にセッションを終了させることもできる。例えば、セッションが30秒間にわたってアイドルであった後、音声認識システム100は、音声が終わったとみなし、セッションを終了させることができる。
【0054】
ステップS603において、音声認識システム100は、受信した第1の音声信号を、音声セグメントの第1のセットに分割することができる。いくつかの実施形態では、VADは、第1の音声信号を音声セグメントに更に分割するために利用することができる。
【0055】
ステップS605において、音声認識システム100は、音声セグメントの第1のセットをテキストの第1のセットに文字起こしすることができる。いくつかの実施形態では、ASRを用いて音声セグメントを文字起こしすることができ、それによって第1の音声信号は、テキストとして記憶し、更に処理することができる。同じスピーカーの以前の音声がシステムのデータベースに記憶されている場合、スピーカーのアイデンティティも識別することができる。スピーカー(例えば、オンライン配車プラットフォームのユーザ)のアイデンティティは、ユーザの嗜好、履歴オーダー、頻繁に使用される目的地等の、ユーザに関連付けられた情報を取得するのに更に利用することができ、これによりプラットフォームの効率を改善することができる。
【0056】
ステップS607において、音声セグメントの第1のセットがテキストの第1のセットに文字起こしされている間、音声認識システム100は、第2の音声信号を更に受信することができる。いくつかの実施形態では、第1の音声信号は、セッション中に確立された第1のスレッドを通じて受信される。第1の音声信号が音声セグメントの第1のセットに分割された後、音声セグメントの第1のセットが文字起こしされている間、第1のスレッドを解放するための応答を送信することができる。第1のスレッドが解放されると、第2の音声信号を受信するための第2のスレッドを確立することができる。1つの音声信号を文字起こしし、次の信号を並列に受信することによって、オーディオ信号は、リアルタイムでテキストに文字起こしすることができる。同様に、音声認識システム100は、第2の音声信号を、音声セグメントの第2のセットに分割することができ、次に音声セグメントの第2のセットをテキストの第2のセットに文字起こしすることができる。音声認識システム100は更に、テキストの第1のセットおよび第2のセットを連続して組み合わせ、組み合わされたテキストを、文字起こしされたテキストへの追加として内部メモリまたは外部ストレージ・デバイスに記憶することができる。このように、オーディオ信号全体をテキストに文字起こしすることができる。
【0057】
音声認識システム100は、文字起こしされたテキストの更なる処理または解析を提供することができる。例えば、音声認識システム100は、文字起こしされたテキストにおけるキーワードを識別し、キーワードをハイライトし、かつ/またはキーワードに関連付けられたその他の情報を提供することができる。いくつかの実施形態では、オーディオ信号は、オンライン配車プラットフォームへの通話から生成され、移動の出発地ロケーションおよび目的地ロケーションのためのキーワードが文字起こしされたテキストにおいて検出されるとき、可能な移動ルート、およびルートごとの時間を提供することができる。
【0058】
ステップS609において、音声認識システム100は、文字起こしされたテキストのサブセットをサブスクライバに配信することができる。例えば、音声認識システム100は、サブスクライバから、オーディオ信号の文字起こしされたテキストをサブスクライブするための第1の要求を受信し、第1の要求が受信された時点を判断し、その時点に対応する文字起こしされたテキストのサブセットをサブスクライバに配信することができる。音声認識システム100は更に、サブスクライバから、オーディオ信号の文字起こしされたテキストを更新するための第2の要求を受信し、サブスクライバに、第2の要求に従って、最も近時に文字起こしされたテキストを配信することができる。いくつかの実施形態では、最も近時に文字起こしされたテキストは、サブスクライバに自動的にプッシュすることもできる。いくつかの実施形態では、上記で説明した文字起こしされたテキストの追加の解析(例えば、キーワード、ハイライト、その他の情報)をサブスクライバに配信することもできる。
【0059】
いくつかの実施形態では、サブスクライバは、文字起こしされたテキストを自動的に解析するための命令を実行するプロセッサを備えることができる算出デバイスとすることができる。様々なテキスト解析または処理ツールを用いて、音声のコンテンツを判断することができる。いくつかの実施形態では、サブスクライバは、テキストを異なる言語に更に翻訳することができる。テキストの解析は通常、計算量がより低く、このため、オーディオ信号を直接解析するよりもはるかに高速である。
【0060】
本開示の別の態様は、実行されると、1つまたは複数のプロセッサに、上記で論考した方法を行わせる命令を記憶する非一時的コンピュータ可読媒体を対象とする。コンピュータ可読媒体は、揮発性または不揮発性、磁気、半導体、テープ、光、リムーバブル、非リムーバブル、または他のタイプのコンピュータ可読媒体もしくはコンピュータ可読ストレージ・デバイスを含むことができる。例えば、コンピュータ可読媒体は、開示されるように、コンピュータ命令が記憶されたストレージ・デバイスまたはメモリ・モジュールとすることができる。いくつかの実施形態では、コンピュータ可読媒体は、コンピュータ命令が記憶されたディスクまたはフラッシュ・ドライブとすることができる。
【0061】
当業者には、開示されたなりすまし検出システムおよび関連方法に対し様々な変更および変形を行うことができることが明らかであろう。開示されたなりすまし検出システムおよび関連方法の明細書および実例を考慮した当業者には他の実施形態が明らかであろう。実施形態は、オンライン配車プラットフォームを例として用いて説明されたが、説明されたリアルタイム文字起こしシステムおよび方法は、任意の他の状況で生成されたオーディオ信号を文字起こしするのに応用することができる。例えば、説明されたシステムおよび方法は、歌詞、ラジオ/TV放送、プレゼンテーション、ボイス・メッセージ、会話等を文字起こしするのに用いることができる。
【0062】
明細書および実施例は、単なる例示とみなされることが意図され、真の範囲は、以下の特許請求の範囲およびその均等物によって示される。
【手続補正書】
【提出日】2019年4月5日
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
オーディオ信号をテキストに文字起こしするための方法であって、前記オーディオ信号は第1の音声信号および第2の音声信号を含み、前記方法は、
前記オーディオ信号を受信するためのセッションを確立するステップと、
前記第1の音声信号を、前記確立されたセッションを通じて受信するステップと、
前記第1の音声信号を、音声セグメントの第1のセットに分割するステップと、
前記音声セグメントの第1のセットを、テキストの第1のセットに文字起こしするステップと、
前記音声セグメントの第1のセットが文字起こしされている間に、前記確立されたセッションを通じて前記第2の音声信号を受信するステップと、
を含む、方法。
【請求項2】
前記テキストの第1のセットおよび第2のセットを連続して組み合わせ、前記組み合わされたテキストを、前記文字起こしされたテキストに対する追加として記憶するステップを更に含む、請求項1に記載の方法。
【請求項3】
サブスクライバから、前記オーディオ信号の前記文字起こしされたテキストをサブスクライブするための第1の要求を受信するステップと、
前記第1の要求が受信された時点を判断するステップと、
前記時点に対応する前記文字起こしされたテキストのサブセットを前記サブスクライバに配信するステップと、
前記サブスクライバから、前記オーディオ信号の前記文字起こしされたテキストを更新するための第2の要求を受信するステップと、
前記第2の要求に従って、前記サブスクライバに、最も近時に文字起こしされたテキストを配信するステップと、
を更に含む、請求項1または2に記載の方法。
【請求項4】
前記オーディオ信号を受信するためのパケット損失率を監視するステップと、
前記パケット損失率が所定のしきい値よりも高いとき、前記セッションを終了させるステップと、
を更に含む、請求項1〜3のいずれか一項に記載の方法。
【請求項5】
前記セッションが所定の期間にわたってアイドルであった後、前記セッションを終了させるステップを更に含む、請求項1〜3のいずれか一項に記載の方法。
【請求項6】
前記サブスクライバは、前記文字起こしされたテキストを自動的に解析するための命令を実行するプロセッサを含む、請求項3〜5のいずれか一項に記載の方法。
【請求項7】
前記第1の音声信号は、前記セッション中に確立された第1のスレッドを通じて受信され、前記方法は、
前記音声セグメントの第1のセットが文字起こしされている間に、前記第1のスレッドを解放するための応答を送信するステップと、
前記第2の音声信号を受信するための第2のスレッドを確立するステップと、
を更に含む、請求項1〜6のいずれか一項に記載の方法。
【請求項8】
オーディオ信号を音声テキストに文字起こしするための音声認識システムであって、前記オーディオ信号は第1の音声信号および第2の音声信号を含み、前記音声認識システムは、
前記オーディオ信号を受信するためのセッションを確立し、前記第1の音声信号を、前記確立されたセッションを通じて受信するように構成された通信インターフェースと、
前記第1の音声信号を、音声セグメントの第1のセットに分割するように構成された分割ユニットと、
前記音声セグメントの第1のセットを、テキストの第1のセットに文字起こしするように構成された文字起こしユニットと、
を備え、
前記通信インターフェースは、前記音声セグメントの第1のセットが文字起こしされている間に、前記第2の音声信号を受信するように更に構成される、音声認識システム。
【請求項9】
前記分割ユニットは、前記第2の音声信号を、音声セグメントの第2のセットに分割するように更に構成され、
前記文字起こしユニットは、前記音声セグメントの第2のセットを、テキストの第2のセットに文字起こしするように更に構成される、請求項8に記載の音声認識システム。
【請求項10】
前記テキストの第1のセットおよび第2のセットを連続して組み合わせ、前記組み合わされたテキストを、前記文字起こしされたテキストに対する追加として記憶するように構成されたメモリを更に備える、請求項8または9に記載の音声認識システム。
【請求項11】
配信インターフェースを更に備え、
前記通信インターフェースは、サブスクライバから、前記オーディオ信号の前記文字起こしされたテキストをサブスクライブするための第1の要求を受信し、前記第1の要求が受信された時点を判断するように更に構成され、
前記配信インターフェースは、前記時点に対応する前記文字起こしされたテキストのサブセットを前記サブスクライバに配信するように構成される、請求項8〜10のいずれか一項に記載の音声認識システム。
【請求項12】
前記通信インターフェースは、前記オーディオ信号を受信するためのパケット損失率を監視し、前記パケット損失率が所定のしきい値よりも高いとき、前記セッションを終了させ、前記セッションが所定の期間にわたってアイドルであった後、前記セッションを終了させるように更に構成される、請求項8〜11のいずれか一項に記載の音声認識システム。
【請求項13】
サブスクライバは、前記文字起こしされたテキストを自動的に解析するための命令を実行するプロセッサを含む、請求項10〜12のいずれか一項に記載の音声認識システム。
【請求項14】
前記第1の音声信号は、前記セッション中に確立された第1のスレッドを通じて受信され、前記通信インターフェースは、
前記音声セグメントの第1のセットが文字起こしされている間に、前記第1のスレッドを解放するための応答を送信し、
前記第2の音声信号を受信するための第2のスレッドを確立するように更に構成される、請求項8〜13のいずれか一項に記載の音声認識システム。
【請求項15】
音声認識システムの少なくとも1つのプロセッサによって実行されると、前記音声認識システムに、オーディオ信号をテキストに文字起こしするための方法を行わせる命令のセットを記憶する非一時的コンピュータ可読媒体であって、前記オーディオ信号は第1の音声信号および第2の音声信号を含み、前記方法は、
前記オーディオ信号を受信するためのセッションを確立するステップと、
前記第1の音声信号を、前記確立されたセッションを通じて受信するステップと、
前記第1の音声信号を、音声セグメントの第1のセットに分割するステップと、
前記音声セグメントの第1のセットを、テキストの第1のセットに文字起こしするステップと、
前記音声セグメントの第1のセットが文字起こしされている間に、前記第2の音声信号を受信するステップと、
を含む、非一時的コンピュータ可読媒体。
【国際調査報告】