IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ パク、サンレの特許一覧

特表2024-506527音声認識及び音声合成を利用した無線通信装置
<>
  • 特表-音声認識及び音声合成を利用した無線通信装置 図1
  • 特表-音声認識及び音声合成を利用した無線通信装置 図2
  • 特表-音声認識及び音声合成を利用した無線通信装置 図3
  • 特表-音声認識及び音声合成を利用した無線通信装置 図4
  • 特表-音声認識及び音声合成を利用した無線通信装置 図5
  • 特表-音声認識及び音声合成を利用した無線通信装置 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-02-14
(54)【発明の名称】音声認識及び音声合成を利用した無線通信装置
(51)【国際特許分類】
   G10L 19/00 20130101AFI20240206BHJP
   G10L 15/00 20130101ALI20240206BHJP
   G10L 13/00 20060101ALI20240206BHJP
【FI】
G10L19/00 250
G10L15/00 200Z
G10L13/00 100Z
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023544784
(86)(22)【出願日】2021-02-03
(85)【翻訳文提出日】2023-07-25
(86)【国際出願番号】 KR2021001397
(87)【国際公開番号】W WO2022158633
(87)【国際公開日】2022-07-28
(31)【優先権主張番号】10-2021-0010472
(32)【優先日】2021-01-25
(33)【優先権主張国・地域又は機関】KR
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.JAVA
(71)【出願人】
【識別番号】516229243
【氏名又は名称】パク、サンレ
(74)【代理人】
【識別番号】100176072
【弁理士】
【氏名又は名称】小林 功
(72)【発明者】
【氏名】パク、サンレ
(57)【要約】
本発明による無線通信装置は、マイクを通じて入力される音声信号を音声認識を用いて音節情報のストリームに変換する音声認識部;音節情報のストリームを符号化してデジタル送信データを生成する符号化部;デジタル送信データを変調して送信信号をアンテナを通じて送信する送信部;アンテナを通じて受信される受信信号を復調してデジタル受信データを出力する受信部;デジタル受信データを復号化して音節情報のストリームに変換する復号化部;及び音節情報のストリームを音声合成を用いて音声信号に変換してスピーカーを通じて出力する音声合成部;を含むことを特徴とする。
【特許請求の範囲】
【請求項1】
マイクを通じて入力される音声信号を音声認識を用いて音節情報のストリームに変換する音声認識部と、
前記音節情報のストリームを符号化してデジタル送信データを生成する符号化部と、
前記デジタル送信データを変調して送信信号をアンテナを通じて送信する送信部と、
前記アンテナを通じて受信される受信信号を復調してデジタル受信データを出力する受信部と、
前記デジタル受信データを復号化して音節情報のストリームに変換する復号化部と、
前記音節情報のストリームを音声合成を用いて音声信号に変換してスピーカーを通じて出力する音声合成部と、
を含むことを特徴とする無線通信装置。
【請求項2】
前記音節情報は、初声、中声、終声の組み合わせを含むことを特徴とする請求項1に記載の無線通信装置。
【請求項3】
前記音節情報は、韻律情報をさらに含むことを特徴とする請求項2に記載の無線通信装置。
【請求項4】
前記韻律情報は、普通音、上昇音、下降音、長音、強勢音を含むことを特徴とする請求項3に記載の無線通信装置。
【請求項5】
前記音節情報は、音色情報をさらに含むことを特徴とする請求項2に記載の無線通信装置。
【請求項6】
前記音色情報は、男性、女性、老人、子供別に所定個数のレベルを含むことを特徴とする請求項5に記載の無線通信装置。
【請求項7】
前記音節情報を構成する初声、中声、終声は、3次元座標系の3軸にそれぞれ対応し、前記音節情報は、前記3次元座標系での前記初声、中声、終声のそれぞれの座標値によってデジタルデータにマッピングされることを特徴とする請求項2に記載の無線通信装置。
【請求項8】
前記音節情報は、韻律情報をさらに含み、
前記音節情報は、前記3次元座標系での前記初声、中声、終声のそれぞれの座標値及び前記韻律情報に基づいて前記デジタルデータにマッピングされることを特徴とする請求項7に記載の無線通信装置。
【請求項9】
前記無線通信装置は、人工衛星を通じた音声通話のための無線通信装置であり、
前記送信部及び前記受信部は、前記送信信号及び前記受信信号を人工衛星と送受信できるように変調及び復調することを特徴とする請求項1に記載の無線通信装置。
【請求項10】
ジャイロセンサーと、
前記アンテナに連結された3軸ギアと、
前記ジャイロセンサーのセンシング値によって前記アンテナが上方に向かうように前記3軸ギアを制御するアンテナ姿勢制御部と、
をさらに含むことを特徴とする請求項9に記載の無線通信装置。
【請求項11】
前記符号化部から出力される前記デジタル送信データ及び前記受信部から出力される前記デジタル受信データを保存する録音部をさらに備えることを特徴とする請求項1に記載の無線通信装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、無線通信装置に係り、より詳細には、音声認識及び音声合成を利用した無線通信装置に関する。
【背景技術】
【0002】
音声通信のための無線通信装置は、一般的にアナログ信号である音声信号をサンプリング、量子化、符号化などの過程を経てデジタル信号に変換して無線通信網を通じて送信し、受信されるデジタル信号をその逆変換過程を経て音声信号に変換して出力する。このような音声通信方式は、音楽用高音質のオーディオ伝送においては、128kbps、192kbps、320kbpsのビットレートが要求され、音声通信で最大の音声圧縮が行われたオーディオ伝送においては、2.4kbps、3.2kbpsなどが要求されるなどビットレートを下げるのに限界がある。
【発明の概要】
【発明が解決しようとする課題】
【0003】
本発明が解決しようとする技術的課題は、既存の音声通信方式に比べてビットレートを画期的に下げることができる無線通信装置を提供するところにある。
【課題を解決するための手段】
【0004】
前記技術的課題を解決するための本発明による無線通信装置は、マイクを通じて入力される音声信号を音声認識を用いて音節情報のストリームに変換する音声認識部;前記音節情報のストリームを符号化してデジタル送信データを生成する符号化部;前記デジタル送信データを変調して送信信号をアンテナを通じて送信する送信部;前記アンテナを通じて受信される受信信号を復調してデジタル受信データを出力する受信部;前記デジタル受信データを復号化して音節情報のストリームに変換する復号化部;及び前記音節情報のストリームを音声合成を用いて音声信号に変換してスピーカーを通じて出力する音声合成部;を含むことを特徴とする。
【0005】
前記音節情報は、初声、中声、終声の組み合わせを含みうる。
【0006】
前記音節情報は、韻律情報をさらに含みうる。
【0007】
前記韻律情報は、普通音、上昇音、下降音、長音、強勢音を含みうる。
【0008】
前記音節情報は、音色情報をさらに含みうる。
【0009】
前記音色情報は、男性、女性、老人、子供別に所定個数のレベルを含みうる。
【0010】
前記音節情報を構成する初声、中声、終声は、3次元座標系の3軸にそれぞれ対応し、前記音節情報は、前記3次元座標系での前記初声、中声、終声のそれぞれの座標値によってデジタルデータにマッピングされる。
【0011】
前記音節情報は、韻律情報をさらに含み、前記音節情報は、前記3次元座標系での前記初声、中声、終声のそれぞれの座標値及び前記韻律情報に基づいて前記デジタルデータにマッピングされる。
【0012】
前記無線通信装置は、人工衛星を通じた音声通話のための無線通信装置であり、前記送信部及び前記受信部は、前記送信信号及び前記受信信号を人工衛星と送受信できるように変調及び復調することができる。
【0013】
前記無線通信装置は、ジャイロセンサー;前記アンテナに連結された3軸ギア;及び前記ジャイロセンサーのセンシング値によって前記アンテナが上方に向かうように前記3軸ギアを制御するアンテナ姿勢制御部;をさらに含みうる。
【0014】
前記無線通信装置は、前記符号化部から出力される前記デジタル送信データ及び前記受信部から出力される前記デジタル受信データを保存する録音部をさらに備えることができる。
【発明の効果】
【0015】
本発明によれば、音声認識と音声合成とを用いて既存の音声通信方式に比べてビットレートを画期的に下げることができる無線通信装置を提供することができる。
【0016】
また、本発明は、音節構成が中声単独、初声と中声、中声と終声、初声、中声、終声で構成される英語、ラテン語などあらゆる言語に適用可能である。
【0017】
また、本発明は、音節情報ストリームを3次元座標系を用いてデジタルデータ化し、それを符号化部でデジタル送信データに作った後、録音部(図示せず)に保存することにより、既存の音声通信方式及び音声圧縮ファイルを保存する方式に比べて録音に必要なメモリを最小化させることができ、同様に受信部から出力されるデジタル受信データを録音部に保存することにより、既存の音声通信方式及び音声圧縮ファイルを保存する方式に比べて録音に必要なメモリを最小化させるという長所がある。
【0018】
また、本発明の無線通信装置は、前記録音部で録音内容を検索する場合、連続した音節を録音部でデジタルデータの状態に直接マッチングして検索することができるので、既存の音声圧縮ファイルを保存し、録音データを検索する方式に比べて特定の単語などの録音内容を画期的に迅速に検索できるという長所がある。
【0019】
マイクを通じて入力された音声を文章に変換するSTT(Speech to Text)方式の既存の音声認識方法は、入力された音声が全く異なる意味の文章に変換されるなどエラーが多く、所望の文章に正確に変換されるのには限界がある。したがって、このような問題を解決するためには、膨大な量の音声認識DBと音声認識データとを処理する高度の学習プログラムが必要となる。
【0020】
逆に、入力された文章を音声に変換するTTS(Text to Speech)方式の既存の音声合成方法は、自然でないか、聞きづらい面があることがまだ現実であり、このような限界点を克服するためには、巨大なシステムとプログラムとが必要となる。
【0021】
本発明は、マイクを通じて入力された発話者の音声を音声認識部で音節と韻律とで構成された音節情報ストリームを作って符号化部で数字コードであるデジタル送信データを直ちに生成するので、正確な音声を伝達することができ、受信部出力のデジタル受信データは、該当する正確な音節情報ストリームを復号化部で構成して直ちに音声合成部及びスピーカーを通じて音声をプレーさせる。したがって、本発明は、既存のSTT方式の音声認識とTTS方式の音声合成とに比べて画期的に簡単なシステム及びプログラムで構成が可能であるという長所がある。
【図面の簡単な説明】
【0022】
図1】本発明の一実施形態による無線通信装置の構成を示す図面である。
【0023】
図2】音節情報のコード構成を示す図面である。
【0024】
図3】音節を構成する初声、中声、終声が3次元座標系の3軸にそれぞれ対応する概念を示す図面である。
【0025】
図4】音節を構成する初声、中声、終声に対応する3次元座標系の具体例を示す図面である。
【0026】
図5】本発明の一実施形態による無線通信装置の追加的な構成を示す図面である。
【0027】
図6】本発明の実施形態によって無線通信装置のアンテナが上方に向かうように制御される形状を示す図面である。
【発明を実施するための形態】
【0028】
以下、図面を参照して、本発明の望ましい実施形態を詳しく説明する。以下、説明及び添付図面で実質的に同じ構成要素は、それぞれ同じ符号で示すことにより、重複説明を省略する。また、本発明を説明するに当って、関連した公知の機能あるいは構成についての具体的な説明が、本発明の要旨を不明にする恐れがあると判断される場合、それについての詳細な説明は省略する。
【0029】
図1は、本発明の一実施形態による無線通信装置の構成を示す。
【0030】
本実施形態による無線通信装置100は、マイク111、音声認識部112、符号化部113、送信部114、受信部121、復号化部122、音声合成部123、スピーカー124、アンテナ130を含む。
【0031】
無線通信装置100は、他の無線通信装置200と音声通信することができる。他の無線通信装置200も、無線通信装置100と同様に、マイク211、音声認識部212、符号化部213、送信部214、受信部221、復号化部222、音声合成部223、スピーカー224、アンテナ230を含む。
【0032】
無線通信装置100と無線通信装置200は、直接通信を行う装置であるか(例えば、無線機と類似に)、基地局を通じて互いに通信する装置であるか(例えば、セルラーフォンと類似に)、人工衛星を通じて互いに通信する装置である。
【0033】
音声認識部112、212は、マイク111、211を通じて入力される音声信号を音声認識を用いて音節情報のストリームに変換する。符号化部113、213は、前記音節情報のストリームを符号化してデジタル送信データを生成する。送信部114、214は、前記デジタル送信データを変調して送信信号をアンテナ130、230を通じて送信する。
【0034】
受信部121、221は、アンテナ130、230を通じて受信される受信信号を復調してデジタル受信データを出力する。復号化部122、222は、前記デジタル受信データを復号化して音節情報のストリームに変換する。音声合成部123、223は、前記音節情報のストリームを音声合成を用いて音声信号に変換してスピーカー124、224を通じて出力する。
【0035】
無線通信装置100と無線通信装置200が、人工衛星を通じて互いに通信する装置である場合、送信部114、214及び受信部121、221は、前記送信信号及び前記受信信号を人工衛星と送受信できるように変調及び復調する。
【0036】
本発明の実施形態において、前記音節情報は、初声、中声、終声の組み合わせを含み、初声、中声、終声は、ローマ字発音記号で表現される。
【0037】
例えば、初声は、次のように無音価、有声子音、無声子音、半子音を含む26種で構成することができる。
【0038】
【0039】
例えば、中声は、次のように10種の母音で構成することができる。
【0040】
【0041】
例えば、終声は、次のように無音価、有声子音、無声子音を含む12種で構成することができる。
【0042】
【0043】
また、音節情報は、一定の長さの休止区間を示す休止符を含みうる。
【0044】
もちろん、表現しようとする音節によって必要に応じて、初声、中声、終声に前記のような音節構成要素以外にも他の音節構成要素が追加される。
【0045】
【0046】
また、前記音節情報は、音色情報をさらに含みうる。例えば、音色情報は、男性、女性、老人、子供別に所定個数(例えば、100レベル)で設定されて、総400個の音色を表現することができる。音色情報として、デフォルトで特定の音色が設定されるか、ユーザ音声の周波数または波形を分析して特定の音色を設定するか、ユーザが選択した特定の音色が設定されうる。音色情報は、電話中にユーザが変更可能にすることもできる。音色の種類及びレベルも、拡大または追加される。受信側の音声合成部223は、音声合成時に音節情報に含まれた音色情報を反映して音声信号を生成することができる。
【0047】
1つの音節を示すためのコード数を見れば、次の通りである。まず、初声26個、中声10個、終声12個の組み合わせは、26×10×12=3,120になり、各組み合わせごとに5種の韻律があるので、3,120×5=15,600になり、これに、休止符を加えれば、15,601になる。そして、音色情報400を加えれば、15,601+400=16,001になる。すなわち、16,001種のコードで1つの有効音節を表現することができる。
【0048】
例えば、1つの音節を2Byteで表現する場合、2Byteは、16ビットなので、0000~FFFF、すなわち、216=65,536種に表現可能である。そして、0000は、休止符として使用するので、0001~FFFF、すなわち、65,535-16,001=49,534が残るので、この部分は、他の付加情報を伝達することができる予備コードとして活用することができる。すなわち、0000Hで休止符を表現し、0001H(1)~3CF1H(15,601)で音節及び韻律を表現し、~3E81H(16,001)で音色を表現し、~FFFFH(65,535)を予備コードとして使用することができる。図2は、これによる音節情報のコード構成を示す。
【0049】
本発明の実施形態において、音節を構成する初声、中声、終声は、図3に示したように、3次元座標系の3軸にそれぞれ対応させることができる。例えば、初声をx軸に、中声をy軸に、終声をz軸に対応させることができる。そして、3次元座標系での初声、中声、終声のそれぞれの座標値によって当該音節がデジタルデータにマッピングされる。この際、韻律を含む音節情報は、3次元座標系での初声、中声、終声のそれぞれの座標値と共に、韻律情報に基づいてデジタルデータにマッピングされる。
【0050】
図4は、音節を構成する初声、中声、終声に対応する3次元座標系の具体例を示す。
【0051】
【0052】
韻律値をnであるとすれば、例えば、普通音の場合、n=1、上昇音の場合、n=2、下降音の場合、n=3、長音の場合、n=4、強勢音の場合、n=5に示すことができる。
【0053】
音節(x、y、z)と韻律nとに対応するコードは、次の数式によって計算される。
【0054】
f(x,y,z,n)=(XmYmZm)(n-1)+(XmYm)(z-1)+Xm(y-1)+x
【0055】
ここで、Xm、Ym、Zmは、それぞれx、y、zの最大値、すなわち、Xm=26、Ym=10、Zm=12であり、x、y、z≠0である。
【0056】
例えば、普通音[a]をデジタル値で示すと、f(1,1,1,1)=0001Hになる。
【0057】
【0058】
【0059】
【0060】
【0061】
64bpsは、高音質オーディオ伝送用ビットレートである320kbpsの僅か約1/5000に過ぎない値である。したがって、本発明によれば、既存の伝送方式よりも約5000倍の伝送チャネルを確保することができ、最大圧縮時の音声通信用ビットレートである2.4kbpsと比較しても、約37.5倍も高い伝送効率を有する。
【0062】
本発明の実施形態において、音節を構成する初声、中声、終声をローマ字発音記号で表現したが、本発明は、ローマ字発音記号に限定されるものではなく、ハングル(Korean Alphabet)発音記号、日本語(ひらがな)発音記号、国際標準発音記号など初声、中声、終声を表現することができる発音記号であれば、如何なる文字に基づいたものでも使われる。
【0063】
また、無線通信装置100は、符号化部113、213から出力される前記デジタル送信データ受信部121、221から出力される前記デジタル受信データを保存する録音部(図示せず)をさらに備えることができる。
【0064】
符号化部113、213から出力されるデジタル送信データや受信部121、221から出力されるデジタル受信データは、音節情報ストリームを3次元座標系を用いてデジタルデータ化し、デジタルデータで作ったものであるために、録音部(図示せず)を構成するメモリは、既存の音声通信方式や音声圧縮ファイルを保存する方式に比べてメモリ容量を最小化させることができる。
【0065】
また、録音部(図示せず)で特定の単語や音節を検索する場合、該当する単語や音節を録音部でデジタルデータの状態に直接マッチングして検索することができるので、既存の音声圧縮ファイルを保存し、録音データを検索する方式に比べて特定の単語などの録音内容を迅速に検索することができる。
【0066】
音節や単語を検索するために、デジタルデータをマッチングする方法は、多様であり、当業者がその方法を容易に理解することができるので、詳細な説明は省略する。
【0067】
無線通信装置100が人工衛星を通じた通信のための無線通信装置である場合、アンテナ130は、人工衛星に向かった方向、すなわち、上方に向かうように指向制御されることが望ましい。図5は、そのための本発明の一実施形態による無線通信装置の追加的な構成を示す。
【0068】
図5を参照すれば、無線通信装置100は、アンテナ130に連結された3軸ギア131、姿勢制御部132、ジャイロセンサー133をさらに含みうる。姿勢制御部132は、ジャイロセンサー133のセンシング値によって3軸ギア131を制御して無線通信装置100が傾いてもアンテナ130が上方に向かうようにする。
【0069】
図6は、本発明の実施形態によって無線通信装置100のアンテナ130が上方に向かうように制御される形状を示す。示したように、無線通信装置100が傾いても、アンテナ130は上方に向かうので、人工衛星との通信が円滑になされる。
【0070】
本発明の実施形態は、機能的なブロック構成及び多様な処理段階で表われる。このような機能ブロックは、特定の機能を実行する多様な個数のハードウェアまたは/及びソフトウェア構成として具現可能である。例えば、実施形態は、1つ以上のマイクロプロセッサの制御または他の制御装置によって多様な機能を実行することができる、メモリ、プロセッシング、ロジック(logic)、ルックアップテーブル(look-up table)のような集積回路構成を採用することができる。本発明での構成要素が、ソフトウェアプログラミングまたはソフトウェア要素で実行されるものと類似に、実施形態は、データ構造、プロセス、ルーチンまたは他のプログラミング構成の組み合わせで具現される多様なアルゴリズムを含んで、C、C++、ジャバ(Java)、アセンブラー(assembler)のようなプログラミングまたはスクリプト言語として具現可能である。機能的な側面は、1つ以上のプロセッサで実行されるアルゴリズムとして具現可能である。また、実施形態は、電子的な環境設定、信号処理、及び/またはデータ処理などのために、従来技術を採用することができる。「メカニズム」、「要素」、「手段」、「構成」のような用語は、広く使われ、機械的であり、物理的な構成として限定されるものではない。前記用語は、プロセッサなどと連携してソフトウェアの一連の処理(routines)の意味を含みうる。
【0071】
実施形態で説明する特定の実行は、一実施形態であって、如何なる方法でも実施形態の範囲を限定するものではない。明細書の簡潔さのために、従来の電子的な構成、制御システム、ソフトウェア、前記システムの他の機能的な側面の記載は省略される。また、図面に示された構成要素間の線の連結または連結部材は、機能的な連結及び/または物理的または回路的連結を例示的に示したものであって、実際の装置では代替可能であるか、追加の多様な機能的な連結、物理的な連結、または回路連結として表われる。また、「必須的な」、「重要に」のように具体的な言及がなければ、本発明の適用のために、必ずしも必要な構成要素ではない。
【0072】
以上、本発明について、その望ましい実施形態を中心に説明した。当業者ならば、本発明が、本発明の本質的な特性から外れない範囲で変形された形態として具現可能であるということを理解できるであろう。したがって、開示された実施形態は、限定的な観点ではなく、説明的な観点で考慮されなければならない。本発明の範囲は、前述した説明ではなく、特許請求の範囲に示されており、それと同等な範囲内にあるあらゆる差異点は、本発明に含まれるものと解釈しなければならない。
図1
図2
図3
図4
図5
図6
【国際調査報告】