(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-04-11
(45)【発行日】2024-04-19
(54)【発明の名称】音声チップおよび電子機器
(51)【国際特許分類】
G10L 15/22 20060101AFI20240412BHJP
G10L 13/00 20060101ALI20240412BHJP
G10L 13/02 20130101ALI20240412BHJP
G10L 15/10 20060101ALI20240412BHJP
【FI】
G10L15/22 300Z
G10L13/00 100M
G10L13/02 110B
G10L15/10 200W
(21)【出願番号】P 2020216077
(22)【出願日】2020-12-25
【審査請求日】2020-12-25
【審判番号】
【審判請求日】2023-01-10
(31)【優先権主張番号】202010090986.1
(32)【優先日】2020-02-13
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】512015127
【氏名又は名称】バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド
(74)【代理人】
【識別番号】100118913
【氏名又は名称】上田 邦生
(72)【発明者】
【氏名】ヤン, シャオピン
(72)【発明者】
【氏名】ティアン, チャオ
【合議体】
【審判長】畑中 高行
【審判官】木方 庸輔
【審判官】板垣 有紀
(56)【参考文献】
【文献】特開2008-129412(JP,A)
【文献】特開2020-008635(JP,A)
【文献】特開平10-319991(JP,A)
【文献】特開2020-013034(JP,A)
【文献】登録実用新案第3188999(JP,U)
【文献】特表2020-514171(JP,A)
【文献】特開2018-189984(JP,A)
【文献】”An Ultra-Low Power Binarized Convolutional Neural Network-Based Speech Recognition Processor With On-Chip Self-Learning”,米国,IEEE,2019年10月09日,Volume 66,4648-4661,[オンライン],[検索日 2022.1.24],インターネット:<URL:https://ieeexplore.ieee.org/document/8863422>
【文献】SPIの基本を学ぶ,Analog Dialogue,米国,ANALOG DEVICES,2019年,Volume 52 Number 3,p56-p61,[オンライン],[検索日 2023.3.16],インターネット:<URL:https://www.analog.com/media/jp/analogue-dailogue/volume-52/number-3/volume52-number3_jp.pdf>
【文献】THE MICROSOFT 2017 CONVERSATIONAL SPEECH RECOGNITION SYSTEM,MICROSOFT TECHNICALREPORT MSR-TR-2017-39,米国,MICROSOFT AI AND RESEARCH,2017年08月24日,[オンライン],[検索日 2023.3.16],インターネット:<URL:https://arxiv.org/abs/1708.06073>
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00
(57)【特許請求の範囲】
【請求項1】
第1の処理モジュールと、第2の処理モジュールと、第3の処理モジュールと、を含
む音声チップであって、
前記第1の処理モジュールは、オペレーティングシステムを実行し、及びチップ内の前記第1の処理モジュール以外の他のモジュールに対してデータスケジューリングを行うように構成され、
前記第2の処理モジュールは、音声モデルに基づいて音声とテキストとの相互変換を行うように構成され、
前記第3の処理モジュールは、入力音声に対してデジタル信号処理を行うように構成され、
前記チップの電源モジュールは、音声検出ユニットと、電源管理ユニットと、を含み、
前記音声検出ユニットは、
前記音声チップの待機時に入力音声の有無を
リアルタイムに検出するように構成され、
前記電源管理ユニットは、
入力音声を検出した場合に、前記第3の処理モジュールに電力を供給し、前記第3の処理モジュールが前記
入力音声に対してウェイクアップワード検出を行い、前記
入力音声にウェイクアップワードが含まれる場合に、電源モジュール及び前記第3の処理モジュール以外の他のモジュールに電力を供給するように構成され、
前記第2の処理モジュールは、前記音声モデルを初期化するように、モデルデータに基づいて前記音声モデルの構成情報を設定し、
前記モデルデータは、前記第1の処理モジュールがペリフェラルインタフェースを介して外部ストレージデバイスから取得し、前記構成情報が、モデルタイプと、モデルのハイパーパラメータと、を含むことを特徴とする、音声チップ。
【請求項2】
前記第2の処理モジュールは、第2のプロセッサと内部メモリとを含み、
前記第2のプロセッサは、前記音声モデルに基づいて音声とテキストとの相互変換を行うように構成され、
前記内部メモリは、前記第2の処理モジュールに接続され、前記音声モデルの実行過程中のデータを記憶するように構成されることを特徴とする、請求項1に記載のチップ。
【請求項3】
前記チップは、第2の処理モジュールに接続され、前記モデルデータを記憶するように構成される外部記憶モジュールをさらに含むことを特徴とする、請求項1に記載のチップ。
【請求項4】
前記第2のプロセッサは組み込み型ニューラルネットワークプロセッサであることを特徴とする、請求項2に記載のチップ。
【請求項5】
前記第3の処理モジュールは、入力音声に対してデジタル信号処理を行い、
前記第3の処理モジュールは、処理された音声信号又は音声特徴データを前記第2の処理モジュールに送信し、前記第2の処理モジュールが、前記音声モデルに基づいて、入力音声を認識し、
前記第1の処理モジュールは、認識結果に基づいて、ペリフェラルインタフェースを介して外部ストレージデバイスから応答結果を取得し、応答結果をユーザにフィードバックすることを特徴とする、請求項1に記載のチップ。
【請求項6】
前記チップは、収集された画像を処理して、画像内のテキスト情報をユーザに放送及び/又は表示するように構成される画像処理モジュールをさらに含むことを特徴とする、請求項1に記載のチップ。
【請求項7】
前記画像処理モジュールは、画像取得ユニットと、画像処理ユニットと、画像表示ユニットと、を含み、
前記画像取得ユニットは、画像を取得するように構成され、
前記画像処理ユニットは、取得された画像に対してテキスト認識を行い、前記第1の処理モジュールが前記第2の処理モジュールを制御して認識されたテキストに対して音声変換を行い、周辺機器により変換された音声をユーザに放送するように構成され、
前記画像表示ユニットは、取得された画像及び/又は認識されたテキストを表示するように構成されることを特徴とする、請求項6に記載のチップ。
【請求項8】
前記第1の処理モジュールはマルチコア中央演算処理装置を含み、
前記第3の処理モジュールはデジタルシグナルプロセッサを含むことを特徴とする、請求項1に記載のチップ。
【請求項9】
請求項1から8のいずれかに記載の音声チップを含むことを特徴とする、電子機器。
【請求項10】
コンピュータプログラムであって、
前記コンピュータプログラムにおける命令が実行された場合に、請求項1から8のいずれかに記載の音声チップが実行されることを特徴とする、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本出願の実施例は、データ処理技術分野に関し、特に、音声技術に関する。具体的に、本出願の実施例は、音声チップおよび電子機器を提案する。
【背景技術】
【0002】
現在、インテリジェント音声製品に適用される音声チップは、CPUと、オーデイオエンジンと、周辺機器と、を主に含む。その原理は、周辺機器により音声信号を収集し、オーデイオエンジンが収集された音声信号を前処理し、CPUが前処理された音声信号をリモートサーバに送信し、リモートサーバが認識及び応答し、CPUが応答音声を受信し、周辺機器を制御して応答音声をユーザに放送することである。
【0003】
上記方法は、音声認識機能が完全にリモートサーバに依存するので、オフライン場面ではアプリケーションをサポートできないという欠陥を有する。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本出願の実施例は、インテリジェント音声製品がオフライン場面において、アプリケーションをサポートできるようにする音声チップおよび電子機器を提案する。
【課題を解決するための手段】
【0005】
本出願の実施例は、音声チップを提案し、当該チップは、第1の処理モジュールと、第2の処理モジュールと、第3の処理モジュールと、を含み、前記第1の処理モジュールは、オペレーティングシステを実行し、及びチップ内の前記第1の処理モジュール以外の他のモジュールに対してデータスケジューリングを行うように構成され、前記第2の処理モジュールは、音声モデルに基づいて音声とテキストとの相互変換を行うように構成され、前記第3の処理モジュールは、入力音声に対してデジタル信号処理を行うように構成される。
【0006】
本出願の実施例の技術案によれば、音声チップに第2の処理モジュールを増設することにより、音声モデルに基づいて入力音声又は入力テキストに対して音声とテキストとの相互変換を行う。そして、第1の処理モジュールが交換結果に基づいてユーザに応答することにより、当該音声チップを利用するインテリジェント音声製品に、オフライン場面でアプリケーションをサポートさせる。
【0007】
本出願の実施例は、第2の処理モジュールによって実現されたテキストから音声への変換に基づいて、音声チップはテキストを音声に交換することに関連するアプリケーションを実現することができる。
【0008】
前記第2の処理モジュールは、第2のプロセッサと内部メモリとを含み、前記第2のプロセッサは、前記音声モデルに基づいて音声とテキストとの相互変換を行うように構成され、前記内部メモリは、前記第2の処理モジュールに接続され、前記音声モデルの実行過程中のデータを記憶するように構成される。
【0009】
当該技術特徴に基づいて、本出願の実施例は、チップに内部メモリを増設することにより、音声モデルの実行過程中のデータを記憶して、音声モデルの実行を補助し、音声モデルの実行効率を向上させる。
【0010】
前記第2の処理モジュールは、前記音声モデルを初期化するように、モデルデータに基づいて前記音声モデルの構成情報を設定する。前記モデルデータは、前記第1の処理モジュールがペリフェラルインタフェースを介して外部ストレージデバイスから取得する。
【0011】
当該技術特徴に基づいて、本出願の実施例は、第1の処理モジュールによりペリフェラルインタフェースを介して外部ストレージデバイスからモデルデータを取得し、第2の処理モジュールを介して、取得されたモデルデータに基づいて音声モデルの構成情報を設定することによって、前記音声モデルの初期化を実現する。モデルデータを修正することにより、音声モデルのアップデートを実現することもできる。
【0012】
前記チップは、第2の処理モジュールに接続され、前記モデルデータを記憶するように構成される外部記憶モジュールをさらに含む。
【0013】
当該技術特徴に基づいて、本出願の実施例は、チップに外部記憶モジュールを増設することで、モデルデータの記憶を実現し、さらにはモデルデータのロードを実現する。
【0014】
前記第2のプロセッサは組み込み型ニューラルネットワークプロセッサである。
【0015】
前記第3の処理モジュールは、入力音声に対してデジタル信号処理を行い、前記第3の処理モジュールは、処理された音声信号又は音声特徴データを前記第2の処理モジュールに送信し、前記第2の処理モジュールが、前記音声モデルに基づいて、入力音声を認識し、前記第1の処理モジュールは、認識結果に基づいて、ペリフェラルインタフェースを介して外部ストレージデバイスから応答結果を取得し、応答結果をユーザにフィードバックする。
【0016】
当該技術特徴に基づいて、本出願の実施例は、第1の処理モジュールと、第2の処理モジュールと、第3の処理モジュールとのインタラクションにより、インテリジェント音声製品にオフライン場面でのアプリケーションをサポートさせる。
【0017】
前記チップの電源モジュールは、音声検出ユニットと、電源管理ユニットと、を含み、前記音声検出ユニットは、リアルタイムにユーザ音声を検出するように構成され、前記電源管理ユニットは、ユーザ音声を検出した場合に、前記第3の処理モジュールに電力を供給し、前記第3の処理モジュールが前記ユーザ音声に対してウェイクアップワード検出を行い、前記ユーザ音声にウェイクアップワードが含まれる場合に、電源モジュール及び前記第3の処理モジュール以外の他のモジュールに電力を供給するように構成される。
【0018】
当該技術特徴に基づいて、本出願の実施例は、ウェイクアップされていない時に電源モジュール内の音声検出ユニットにだけ電力を供給し、電源モジュール以外の他のモジュールへの電力供給を停止し、ユーザ音声を検出した後に第3の処理モジュールに電力を供給して、ウェイクアップワード検出を行うことで、チップの待機状態の時の消費電力をさらに削減することができる。
【0019】
前記チップは、収集された画像を処理して、画像内のテキスト情報をユーザに放送及び/又は表示するように構成される画像処理モジュールをさらに含む。
【0020】
当該技術特徴に基づいて、本出願の実施例は、音声チップに画像処理モジュールを増設することにより、画像に関連する機能の拡張を実現する。
【0021】
前記画像処理モジュールは、画像取得ユニットと、画像処理ユニットと、画像表示ユニットと、を含み、前記画像取得ユニットは、画像を取得するように構成され、前記画像処理ユニットは、取得された画像に対してテキスト認識を行い、前記第1の処理モジュールが前記第2の処理モジュールを制御して認識されたテキストに対して音声変換を行い、周辺機器により変換された音声をユーザに放送するように構成され、前記画像表示ユニットは、取得された画像及び/又は認識されたテキストを表示するように構成される。
【0022】
当該技術特徴に基づいて、本出願の実施例は、画像処理ユニットにより画像のテキストの認識を実現し、第1の処理モジュールが第2の処理モジュールを制御して認識されたテキストに対して音声変換を行うことにより、テキストを音声に交換するアプリケーションを実現する。
【0023】
前記第1の処理モジュールはマルチコア中央演算処理装置を含み、前記第3の処理モジュールはデジタルシグナルプロセッサを含む。
【0024】
本出願の実施例は、本出願の実施例における任意の前記音声チップを含む電子機器を提案する。
本出願の実施例は、コンピュータプログラムを提供し、前記コンピュータプログラムにおける命令が実行された場合に、本出願の実施例における任意の前記音声チップが実行される。
【図面の簡単な説明】
【0025】
図面は、本技術案をよりよく理解するために使用されており、本出願を限定するものではない。
【
図1】本出願の第1の実施例によって提供される音声チップの概略構成図である。
【
図2】本出願の第2の実施例によって提供される音声チップの概略構成図である。
【
図3】本出願の第3の実施例によって提供される音声チップの概略構成図である。
【
図4】本出願の第4の実施例によって提供される音声チップの概略構成図である。
【
図5】本出願の第5の実施例によって提供される音声チップの概略構成図である。
【
図6】本出願の第6の実施例によって提供される電子機器の概略構成図である。
【
図7】本出願の第7の実施例によって提供される電子機器のブロック図である。
【発明を実施するための形態】
【0026】
以下、図面と組み合わせて本出願の例示的な実施例を説明し、理解を容易にするためにここでには本出願の実施例の様々な詳細事項を含むが、それらは単なる例示と見なされる。したがって、当業者は、本出願の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができることを認識されたい。同様に、明確及び簡潔のため、以下の説明では、周知の機能及び構造の説明を省略する。
【0027】
(第1の実施例)
図1は本出願の第1の実施例によって提供される音声チップの概略構成図である。本実施例は、オフライン場面に音声処理を行うことに適用することができる。
図1を参照すると、本出願の実施例により提供される音声チップは、第1の処理モジュールと、第2の処理モジュールと、第3の処理モジュールと、を含み、前記第1の処理モジュールは、オペレーティングシステを実行し、及びチップ内の前記第1の処理モジュール以外の他のモジュールに対してデータスケジューリングを行うように構成され、前記第2の処理モジュールは、音声モデルに基づいて音声とテキストとの相互変換を行うように構成され、前記第3の処理モジュールは、入力音声に対してデジタル信号処理を行うように構成される。
【0028】
音声モデルは、音声とテキストとの相互変換を行う任意のモデルである。典型的には、音声モデルはニューラルネットワークモデルである。
【0029】
上記3つのモジュールに基づいて、オフライン場面をサポートする様々なアプリケーションを実現することができる。典型的には、オフライン場面でのアプリケーションを実現するインタラクションプロセスは以下のように説明されてもよい。
前記第3の処理モジュールは、入力音声に対してデジタル信号処理を行い、前記第3の処理モジュールは、処理された音声信号又は音声特徴データを前記第2の処理モジュールに送信し、前記第2の処理モジュールが、前記音声モデルに基づいて、入力音声を認識し、前記第1の処理モジュールは、認識結果に基づいて、ペリフェラルインタフェースを介して外部ストレージデバイスから応答結果を取得し、応答結果をユーザにフィードバックする。
【0030】
選択可能に、本実施例は前記第1の処理モジュール、第2の処理モジュール、第3の処理モジュールに含まれるデバイスを限定しない。
【0031】
典型的には、前記第1の処理モジュールは少なくとも1つのマルチコア中央演算処理装置を含み、前記第3の処理モジュールは少なくとも1つのデジタルシグナルプロセッサを含む。
【0032】
具体的には、前記チップは、周辺機器モジュールと、オーデイオエンジンモジュールと、を含み、前記周辺機器モジュールは、チップのクロックと、リセットと、ペリフェラルインタフェースとを提供するように構成され、前記オーデイオエンジンモジュールは、前記周辺機器モジュールに接続され、オーデイオインターフェースの通信プロトコル処理と、信号フィルタリングと、データ圧縮と、データ解凍処理とをするように構成される。
【0033】
本出願の実施例の技術案によれば、音声チップに第2の処理モジュールを増設することにより、音声モデルに基づいて入力音声又は入力テキストに対して音声とテキストとの相互変換を行い、第1の処理モジュールが交換結果に基づいてユーザに応答することにより、当該音声チップを利用するインテリジェント音声製品がオフライン場面でのアプリケーションをサポートする。
【0034】
本出願の実施例では、第2の処理モジュールによって実現されたテキストから音声への変換に基づいて、音声チップは、テキストを音声に交換することに関連するアプリケーションを実現できる。
【0035】
(第2の実施例)
図2は本出願の第2の実施例によって提供される音声チップの概略構成図である。本実施例は、上記実施例を基に提供される選択可能な一案である。
図2を参照すると、本実施例が提供する音声チップの第2の処理モジュールは、第2のプロセッサと、内部メモリとを含み、前記第2のプロセッサは、前記音声モデルに基づいて音声とテキストとの相互変換を行うように構成され、前記内部メモリは、前記第2の処理モジュールに接続され、前記音声モデルの実行過程中のデータを記憶するように構成される。
【0036】
選択可能に、第2のプロセッサは、音声モデルに基づいて音声とテキストとの相互変換を行う任意のプロセッサである。
【0037】
典型的には、第2のプロセッサは組み込み型ニューラルネットワークプロセッサである。
【0038】
第2のプロセッサを音声チップに適応させるために、音声モデルに基づいて音声とテキストとの相互変換を行う前に、音声モデルに関連するアルゴリズムを最適化する必要がある。
【0039】
具体的な最適化のプロセスは、アルゴリズムに関連するデータタイプを浮動小数点型から整数型に調整して、計算量を削減することを含む。
【0040】
第2の処理モジュール内の音声モデルに基づいて音声とテキストとの相互変換を行う前に、前記第2の処理モジュールは、前記音声モデルを初期化するように、モデルデータに基づいて前記音声モデルの構成情報を設定し、前記モデルデータは、前記第1の処理モジュールがペリフェラルインタフェースを介して外部ストレージデバイスから取得するステップを含む。
【0041】
具体的には、上記構成情報はモデルタイプと、モデルのハイパーパラメータと、を含む。
【0042】
当該技術特徴に基づいて、本出願の実施例は、第1の処理モジュールによりペリフェラルインタフェースを介して外部ストレージデバイスからモデルデータを取得し、第2の処理モジュールを介して、取得されたモデルデータに基づいて音声モデルの構成情報を設定することによって、前記音声モデルの初期化を実現する。モデルデータを修正することにより、音声モデルのアップデートを実現することもできる。モデルタイプの決定により異なる種類のモデルの選択を実現することができる。
【0043】
モデルタイプの記憶を実現し、モデルタイプのロードをさらに実現するために、前記チップは、第2の処理モジュールに接続され、前記モデルデータを記憶するように構成される外部記憶モジュールをさらに含む。
【0044】
本出願の実施例の技術案によれば、チップに内部メモリを増設することにより、音声モデルの実行過程中のデータを記憶して、音声モデルの実行を補助し、音声モデルの実行効率を向上させる。
【0045】
(第3の実施例)
図3は本出願の第3の実施例によって提供される音声チップの概略構成図である。本実施例は、上記実施例を基に提供される選択可能な一案である。
図3を参照すると、本実施例が提供する音声チップの電源モジュールは、音声検出ユニットと、電源管理ユニットと、を含み、前記音声検出ユニットは、リアルタイムにユーザ音声を検出するように構成され、前記電源管理ユニットは、ユーザ音声を検出した場合に、前記第3の処理モジュールに電力を供給し、前記第3の処理モジュールが前記ユーザ音声に対してウェイクアップワード検出を行い、前記ユーザ音声にウェイクアップワードが含まれる場合に、電源モジュール及び前記第3の処理モジュール以外の他のモジュールに電力を供給するように構成される。
【0046】
本出願の実施例の技術案によれば、ウェイクアップしない時には電源モジュール内の音声検出ユニットにのみ電力を供給し、電源モジュール以外の他のモジュールへの電力供給を停止し、ユーザ音声を検出した後に第3の処理モジュールに電力を供給して、ウェイクアップワード検出を行うことにより、チップの待機状態の時の消費電力をさらに削減することができる。
【0047】
(第4の実施例)
図4は本出願の第4の実施例によって提供される音声チップの概略構成図である。本実施例は、上記実施例を基に提供される選択可能な一案である。
図4を参照し、本実施例が提供する音声チップは、収集された画像を処理して、画像内のテキスト情報をユーザに放送及び/又は表示するように構成される画像処理モジュールをさらに含む。
【0048】
具体的には、前記画像処理モジュールは、画像取得ユニットと、画像処理ユニットと、画像表示ユニットと、を含み、前記画像取得ユニットは、画像を取得するように構成され、前記画像処理ユニットは、取得された画像に対してテキスト認識を行い、前記第1の処理モジュールが前記第2の処理モジュールを制御して認識されたテキストに対して音声変換を行い、周辺機器により変換された音声をユーザに放送するように構成され、前記画像表示ユニットは、取得された画像及び/又は認識されたテキストを表示するように構成される。
【0049】
当該技術特徴に基づいて、本出願の実施例は、画像処理ユニットにより画像のテキストの認識を実現し、第1の処理モジュールが第2の処理モジュールを制御して認識されたテキストに対して音声変換を行うことにより、テキストを音声に交換することに関連するアプリケーションを実現する。
【0050】
本出願の実施例の技術案によれば、音声チップに画像処理モジュールを増設することにより、画像に関連する機能の拡張を実現する。
【0051】
(第5の実施例)
図5は本出願の第5の実施例によって提供される音声チップの概略構成図である。本実施例は、上記実施例を基に提供される選択可能な一案である。
図5を参照し、本実施例が提供する音声チップは、電源モジュールと、周辺機器モジュールと、第1の処理モジュールと、第2の処理モジュールと、第3の処理モジュールと、外部記憶モジュールと、オーデイオエンジンモジュールと、ダイレクトメモリアクセスモジュールと、画像処理モジュールと、を含む。
【0052】
前記電源モジュールは、前記電源モジュール以外の他のモジュールの電源のオンとオフを制御するように構成され、当該モジュールは、音声検出ユニットと、電源管理ユニットと、を含む。音声検出ユニットは、リアルタイムにユーザ音声を検出するように構成され、電源管理ユニットは、ユーザ音声を検出した場合に、第3の処理モジュールをオンにして、第3の処理モジュールがユーザ音声にウェイクアップワードが含まれるか否かを検出し、ウェイクアップワードが含まれる場合に、電源モジュール及び第3の処理モジュール以外の他のモジュールに電力を供給して、チップをウェイクアップ状態にさせ、ウェイクアップワードが含まれない場合に、引き続き電源モジュール及び第3の処理モジュール以外の他のモジュールに対して停電処理を行うように構成される。周辺機器モジュールは、チップのクロックと、リセットと、ペリフェラルインタフェースとを提供し、通電した後ペリフェラルインタフェースを介してユーザの入力音声を収集するように構成される。第1の処理モジュールは、周辺機器モジュールに接続され、通電した後、オフライン状態と検出された場合に、音声モジュールにモデルデータをロードし、ロードデータに基づいて音声モデルを初期化するように第2の処理モジュールに通知し、第3の処理モジュールが入力音声に対してデジタル信号処理を行う。処理された音声信号又は音声特徴データを第2の処理モジュールに送信し、第2の処理モジュールが、音声モデルに基づいて入力音声を認識し、第1の処理モジュールは、認識結果に基づいて応答し、応答結果を周辺機器によりユーザにフィードバックし、第2の処理モジュールは、第1の処理モジュールに接続され、処理されたユーザ音声を認識するように構成される。第2の処理モジュールは、組み込み型ニューラルネットワークプロセッサと内部メモリとを含み、組み込み型ニューラルネットワークプロセッサは、訓練された音声モデルに基づいて音声とテキストとの相互変換を行うように構成され、内部メモリは、組み込み型ニューラルネットワークモジュールに接続され、モデルの実行過程中のデータを記憶するように構成される。第3の処理モジュールは、電源モジュール及び第1の処理モジュールに接続され、ユーザ音声に対してウェイクアップワード検出を行い、入力音声に対してデジタル信号処理を行うように構成される。外部記憶モジュールは、第1の処理モジュール、第2の処理モジュール、および第3の処理モジュールに接続され、音声モデルのロードデータと、第1の処理モジュールと、第2の処理モジュールと、第3の処理モジュールの間の一時的な交換データとを記憶するように構成される。オーデイオエンジンモジュールは、周辺機器モジュールに接続され、オーデイオインターフェースの通信プロトコル処理をするように構成され、ダイレクトメモリアクセスモジュールは、異なる速度のハードウェアデバイスが第1の処理モジュールの大量の割り込み負荷に依存せずに通信することを許可するように構成され、画像処理モジュールは、収集された画像を処理して、画像内のテキスト情報をユーザに放送及び/又は表示するように構成される。画像処理モジュールは、画像取得ユニットと、画像処理ユニットと、画像表示ユニットと、を含み、画像取得ユニットは、画像を取得するように構成され、画像処理ユニットは、取得された画像に対してテキスト認識を行い、第1の処理モジュールが第2の処理モジュールを制御して認識されたテキストに対して音声変換を行い、周辺機器により変換された音声をユーザに放送するように構成され、画像表示ユニットは、取得された画像及び/又は認識されたテキストを表示するように構成される。
【0053】
典型的には、第1の処理モジュールはマルチコア中央演算処理装置を含み、マルチコア中央演算処理装置はARM A53 MP、RISCV 64ビットマルチコアCPUを含むことができるが、これらに限定されない。
【0054】
第3の処理モジュールはデジタルシグナルプロセッサを含み、例えば、HIFI4/5DSPコアを含む。
【0055】
本出願の実施例によって提供される音声チップは、以下のような4つの主流音声適用シーンを構築できる。
オンラインインテリジェント音声の低コスト、低消費電力、複数適用のシーン:第3の処理モジュールに電力を供給し、第1の処理モジュール、第2の処理モジュール、外部記憶モジュール、および画像処理モジュールに対して部分的又は完全な停電を行うことにより、様々な適用シーンを生成し、人工知能のモノのインターネットのインテリジェント音声製品アプリケーションに特に適用され、同時に、非常に低い消費電力は、バッテリー機器に適し、例えば、バッテリー駆動のスマートスピーカ及びモバイル音声製品などがある。
【0056】
オンラインインテリジェント音声製品アプリケーション:第1の処理モジュール及び第3の処理モジュールに電力を供給し、第2の処理モジュール、外部記憶モジュール、および画像処理モジュールに対して部分的又は完全な停電を行う。第2の処理モジュールと、外部記憶モジュールと、画像処理モジュールとがチップ全体で最も電力を消費する部分であるため、現在の適用シーンは、そのようなアプリケーションの全体的な電力消費を節約し、同時に、実現されたオンライン音声ウェイクアップ認識の全体的な品質を向上させる。全体的なコストは、既存のデュアルチップの音声ソリューションよりも優れている。
【0057】
オフラインインテリジェント音声製品アプリケーション:第1の処理モジュール、第2の処理モジュール、及び第3の処理モジュールに電力を供給し、画像処理モジュールに対して部分的な停電を行う。オフライン音声機能では、ローカルチップがオンラインクラウドサーバの部分の機能を実行又は置き換えることができる必要があるため、第2の処理モジュールの計算能力を最適化する必要があり、最新の音声モデルなどを記憶するためのより大きな外部記憶モジュールが必要とされる。
【0058】
フル機能の音声製品アプリケーション:チップ内の全てのモジュールに電力を供給して、全てのオンライン及びオフラインの音声機能をサポートする。例えば、音声ウェイクアップ、音声認識、テキストおよび音声放送(TTS)、及び低遅延のオフライン音声インタラクティブコントロール。このようなシナリオには、テキストおよび画像を組み合わせて、音声ベースの製品アプリケーションをより豊富にする適用シーンも含む。
【0059】
本出願の実施例は、第1の処理モジュール、第2の処理モジュール、および第3の処理モジュールの異種マルチコアメインアーキテクチャと、動的に構成可能なモジュールデザインの組み合わせとを採用することにより、音声チップが上記4つの主流音声適用シーンを実現することができるという技術的利点を有する。
【0060】
このアーキテクチャスキームに基づくチップ製品は、オンラインインテリジェント音声機能を適切にサポートすることができるだけでなく、様々なオフラインインテリジェント音声アプリケーションをサポートすることもできる。
【0061】
第2の処理モジュールに基づいて、テキストを音声に交換するアプリケーションを実現する。
【0062】
画像処理モジュールを増設することにより、インテリジェント音声に基づく画像とテキストのアプリケーションを拡張することができる。
【0063】
音声検出ユニット及び電源管理ユニットの設計により、独立した電源管理が実現され、全体の待機電力消費がさらに削減される。
【0064】
図6は本出願の第6の実施例によって提供される電子機器の概略構成図である。本出願の実施例に係る電子機器は、PC、クラウドデバイス、モバイルデバイス、インテリジェントスピーカなどであってもよく、モバイルデバイスは、例えば、携帯電話、タブレット、携帯情報端末、ウェアラブルデバイス、車載機器など、様々なオペレーティングシステム、タッチスクリーンおよび/またはディスプレイを有するハードウェアデバイスであってもよい。
【0065】
図6に示すように、当該電子機器は、本出願の前述した実施例により提案された音声チップを含むことができる。
【0066】
前述した音声チップの実施例に対する解釈や説明は、当該実施例の電子機器にも適用され、ここでは説明を省略する。本出願の実施例によれば、コンピュータプログラムが提供される。当該コンピュータプログラムにおける命令が実行された場合に、上記音声チップが実行される。
【0067】
図7は、本出願の実施形態の実現に適する例示的電子機器のブロック図を示す。
図7に示される電子機器12は、単なる一例であり、本出願の実施例の機能および使用範囲について一切限定しない。
【0068】
電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレーム、及び他の適切なコンピュータなどの様々な形式のデジタルコンピュータを表すことを目的とする。電子機器は、任意の車載デバイスを表すことができ、携帯情報端末、携帯電話、インテリジェントフォン、ウェアラブルデバイス、他の同様のコンピューティングデバイスなどの様々な形式のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び/又は要求される本出願の実施例の実現を制限することを意図しない。
【0069】
図7に示すように、当該電子機器は、1つ又は複数のプロセッサ701と、メモリ702と、高速インターフェースと低速インターフェースを含む各コンポーネントを接続するためのインターフェースと、を含む。各コンポーネントは、異なるバスで相互に接続され、共通のマザーボードに取り付けられるか、又は必要に応じて他の方式で取り付けることができる。プロセッサは、外部入力/出力装置(インターフェースに結合されたディスプレイデバイスなど)にGUIの図形情報を表示するためにメモリに記憶されている命令を含む、電子機器内に実行される命令を処理することができる。他の実施形態では、必要に応じて、複数のプロセッサ及び/又は複数のバスを、複数のメモリと複数のメモリとともに使用することができる。同様に、複数の電子機器を接続することができ、各機器は、必要な操作の一部を提供することができる(例えば、サーバアレイ、ブレードサーバ、又はマルチプロセッサシステムなど)。
図7では、1つのプロセッサ701を例とする。
【0070】
メモリ702は、本出願の実施例により提供される非一時的なコンピュータ読み取り可能な記憶媒体である。前記メモリには、前記少なくとも1つのプロセッサが本出願の各実施例の機能を実行するように、少なくとも1つのプロセッサによって実行可能な命令が記憶されている。本出願の非一時的なコンピュータ読み取り可能な記憶媒体は、コンピュータに本出願の各実施例の機能を実行させるためのコンピュータ命令を記憶する。
【0071】
メモリ702は、非一時的なコンピュータ読み取り可能な記憶媒体として、本出願の各実施例の機能に対応するプログラム命令/モジュール、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュールを記憶するために用いられる。プロセッサ701は、メモリ702に記憶されている非一時的なソフトウェアプログラム、命令及びモジュールを実行することで、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち本出願の各実施例の機能を実現する。
【0072】
メモリ702は、プログラム記憶領域とデータ記憶領域とを含むことができ、プログラム記憶領域は、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションプログラムを記憶することができ、データ記憶領域は、電子機器の使用によって作成されたデータなどを記憶することができる。メモリ702は、高速ランダム存取メモリを含むことができ、非一時的なメモリをさらに含むことができ、例えば、少なくとも1つのディスクストレージデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートストレージデバイスである。いくつかの実施例では、メモリ702は、プロセッサ701に対して遠隔に設置されたメモリを選択的に含むことができ、これらの遠隔メモリは、ネットワークを介して電子機器に接続されることができる。上記ネットワークの例は、インターネット、イントラネット、ブロックチェーンネットワーク、ローカルエリアネットワーク、モバイル通信ネットワーク、及びその組み合わせを含むが、これらに限定されない。
【0073】
電子機器は、入力装置703と出力装置704とをさらに含むことができる。プロセッサ701、メモリ702、入力装置703、及び出力装置704は、バス又は他の方式を介して接続することができ、
図7では、バスによる接続を例とする。
【0074】
入力装置703は、入力された数字又は文字情報を受信することができ、及び電子機器のユーザ設定及び機能制御に関するキー信号入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、1つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置704は、ディスプレイデバイス、補助照明デバイス(例えば、LED)、及び触覚フィードバックデバイス(例えば、振動モータ)などを含むことができる。当該ディスプレイデバイスは、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、及びプラズマディスプレイを含むことができるが、これらに限定されない。いくつかの実施形態では、ディスプレイデバイスは、タッチスクリーンであってもよい。
【0075】
上記に示される様々なモジュール、ユニット及びデバイスを組み合わせ、追加、又は削除することができることを理解されたい。本出願で開示されている技術案の所望の結果を実現することができれば、本明細書では限定されない。
【0076】
上記具体的な実施形態は、本出願に対する保護範囲の限定するものではない。当業者は、設計要件と他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。任意の本出願の精神と原則内で行われる修正、同等の置換、及び改善などは、いずれも本出願の保護範囲内に含まれるべきである。