特表2024-521873 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ソニー株式会社の特許一覧

特表2024-521873リップリーディング予測の訂正

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-06-04

(54)【発明の名称】リップリーディング予測の訂正

(51)【国際特許分類】

G10L 15/25 20130101AFI20240528BHJP

G10L 15/22 20060101ALI20240528BHJP

G10L 15/16 20060101ALI20240528BHJP

【ＦＩ】

G10L15/25

G10L15/22 470Z

G10L15/16

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2023573630

(86)(22)【出願日】2022-07-20

(85)【翻訳文提出日】2023-11-29

(86)【国際出願番号】 IB2022056652

(87)【国際公開番号】W WO2023007313

(87)【国際公開日】2023-02-02

(31)【優先権主張番号】63/203,684

(32)【優先日】2021-07-28

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】17/572,029

(32)【優先日】2022-01-10

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＢＬＵＥＴＯＯＴＨ

２．ＪＡＶＡ

３．ＪＡＶＡＳＣＲＩＰＴ

(71)【出願人】

【識別番号】000002185

【氏名又は名称】ソニーグループ株式会社

(74)【代理人】

【識別番号】100092093

【弁理士】

【氏名又は名称】辻居幸一

(74)【代理人】

【識別番号】100109070

【弁理士】

【氏名又は名称】須田洋之

(74)【代理人】

【識別番号】100067013

【弁理士】

【氏名又は名称】大塚文昭

(74)【代理人】

【氏名又は名称】上杉浩

(74)【代理人】

【識別番号】100141553

【弁理士】

【氏名又は名称】鈴木信彦

(72)【発明者】

【氏名】リージョンファ

(72)【発明者】

【氏名】ウヌックマシュー

(72)【発明者】

【氏名】コステラフランシスコ

(72)【発明者】

【氏名】ジンシウェイ

(57)【要約】

実装は、一般に、リップリーディング予測の訂正に関する。いくつかの実装では、方法は、ユーザのビデオ入力を受け取るステップであって、前記ユーザは前記ビデオ入力において話している、ステップを含む。前記方法は、前記ユーザの口の動きから１又は２以上の単語を予測して、１又は２以上の予測された単語を提供するステップを更に含む。前記方法は、前記１又は２以上の予測された単語から１又は２以上の訂正候補単語を訂正するステップを更に含む。前記方法は、前記１又は２以上の予測された単語から１又は２以上のセンテンスを予測するステップを更に含む。
【選択図】図２

【特許請求の範囲】

【請求項1】

システムであって、
１又は２以上のプロセッサと、
前記１又は２以上のプロセッサによって実行するための１又は２以上の非一時的コンピュータ可読記憶媒体に符号化され、かつ実行時に、前記１又は２以上のプロセッサに動作を実行させるように作動可能であるロジックと、
を含み、前記動作は、
ユーザのビデオ入力を受け取るステップであって、前記ユーザは前記ビデオ入力において話している、ステップと、
前記ユーザの口の動きから１又は２以上の単語を予測して、１又は２以上の予測された単語を提供するステップと、
前記１又は２以上の予測された単語から１又は２以上の訂正候補単語を訂正するステップと、
前記１又は２以上の予測された単語から１又は２以上のセンテンスを予測するステップと、
を含む、
ことを特徴とするシステム。

【請求項2】

前記１又は２以上の単語の予測は、深層学習に基づくことを特徴とする、請求項１に記載のシステム。

【請求項3】

前記１又は２以上の訂正候補単語の訂正は、自然言語処理に基づくことを特徴とする、請求項１に記載のシステム。

【請求項4】

前記１又は２以上の訂正候補単語の訂正は、類推（ａｎａｌｏｇｙ）に基づくことを特徴とする、請求項１に記載のシステム。

【請求項5】

前記１又は２以上の訂正候補単語の訂正は、単語類似度に基づくことを特徴とする、請求項１に記載のシステム。

【請求項6】

前記１又は２以上の訂正候補単語の訂正は、ベクトル類似度に基づくことを特徴とする、請求項１に記載のシステム。

【請求項7】

前記１又は２以上の訂正候補単語の訂正は、コサイン類似度に基づくことを特徴とする、請求項１に記載のシステム。

【請求項8】

プログラム命令を記憶した非一時的コンピュータ可読記憶媒体であって、前記プログラム命令は、１又は２以上のプロセッサによって実行された時に、前記１又は２以上のプロセッサに動作を実行させるように作動可能であり、前記動作は、
ユーザのビデオ入力を受け取るステップであって、前記ユーザは前記ビデオ入力において話している、ステップと、
前記ユーザの口の動きから１又は２以上の単語を予測して、１又は２以上の予測された単語を提供するステップと、
前記１又は２以上の予測された単語から１又は２以上の訂正候補単語を訂正するステップと、
前記１又は２以上の予測された単語から１又は２以上のセンテンスを予測するステップと、
を含む、
ことを特徴とするコンピュータ可読記憶媒体。

【請求項9】

前記１又は２以上の単語の予測は、深層学習に基づくことを特徴とする、請求項８に記載のコンピュータ可読記憶媒体。

【請求項10】

前記１又は２以上の訂正候補単語の訂正は、自然言語処理に基づくことを特徴とする、請求項８に記載のコンピュータ可読記憶媒体。

【請求項11】

前記１又は２以上の訂正候補単語の訂正は、類推に基づくことを特徴とする、請求項８に記載のコンピュータ可読記憶媒体。

【請求項12】

前記１又は２以上の訂正候補単語の訂正は、単語類似度に基づくことを特徴とする、請求項８に記載のコンピュータ可読記憶媒体。

【請求項13】

前記１又は２以上の訂正候補単語の訂正は、ベクトル類似度に基づくことを特徴とする、請求項８に記載のコンピュータ可読記憶媒体。

【請求項14】

前記１又は２以上の訂正候補単語の訂正は、コサイン類似度に基づくことを特徴とする、請求項８に記載のコンピュータ可読記憶媒体。

【請求項15】

コンピュータ実装方法であって、
ユーザのビデオ入力を受け取るステップであって、前記ユーザは前記ビデオ入力において話している、ステップと、
前記ユーザの口の動きから１又は２以上の単語を予測して、１又は２以上の予測された単語を提供するステップと、
前記１又は２以上の予測された単語から１又は２以上の訂正候補単語を訂正するステップと、
前記１又は２以上の予測された単語から１又は２以上のセンテンスを予測するステップと、
を含む、
ことを特徴とする方法。

【請求項16】

前記１又は２以上の単語の予測は、深層学習に基づくことを特徴とする、請求項１５に記載の方法。

【請求項17】

前記１又は２以上の訂正候補単語の訂正は、自然言語処理に基づくことを特徴とする、請求項１５に記載の方法。

【請求項18】

前記１又は２以上の訂正候補単語の訂正は、類推に基づくことを特徴とする、請求項１５に記載の方法。

【請求項19】

前記１又は２以上の訂正候補単語の訂正は、単語類似度に基づくことを特徴とする、請求項１５に記載の方法。

【請求項20】

前記１又は２以上の訂正候補単語の訂正は、ベクトル類似度に基づくことを特徴とする、請求項１５に記載の方法。

【発明の詳細な説明】

【技術分野】

【0001】

〔関連出願の相互参照〕
[01] 本出願は、２０２２年１月１０日出願の米国特許出願番号第１７／５７２，０２９号「リップリーディング予測の訂正（ＣＯＲＲＥＣＴＩＮＧＬＩＰ－ＲＥＡＤＩＮＧＰＲＥＤＩＣＴＩＯＮＳ）」（０２０６９９－１１９３００ＵＳ／ＳＹＰ３４０５３２ＵＳ０２）を主張するものであり、この出願は、２０２１年７月２８日出願の米国仮特許出願番号第６３／２０３，６８４号「リップリーディング予測を訂正するための自然言語処理（ＮＡＴＵＲＡＬＬＡＮＧＵＡＧＥＰＲＯＣＥＳＳＩＮＧＦＯＲＣＯＲＲＥＣＴＩＮＧＬＩＰ－ＲＥＡＤＩＮＧＰＲＥＤＩＣＴＩＯＮ）」（クライアント整理番号：ＳＹＰ３４０５３２ＵＳ０１）の優先権を主張するものであり、これらの出願は、全ての目的に対してあたかも本出願に全てが示されている如くここに引用により組み込まれる。

【背景技術】

【0002】

[02] オーディオに依拠することなく発話（ｓｐｅｅｃｈ）を認識するリップリーディング技術は、不正確な予測を招く場合がある。例えば、リップリーディング技術は、「寒いです（Ｉ’ｍｃｏｌｄ）」という正しい表現から、「Ｉｍｃｏｒｄ」を認識する場合がある。これは、深層学習モデルが、オーディオ支援なしで唇の動きに依拠するからである。「買う（ｂｕｙ）」と「さよなら（ｂｙｅ）」、又は「引用する（ｃｉｔｅ）」と「サイト（ｓｉｔｅ）」などの異なる単語に対して、話者の口の形状が類似している場合がある。従来の手法は、エンドツーエンド深層学習モデルを使用して、単語からセンテンスへの予測を行う。しかしながら、現在の最新のモデルと現実世界の推論との間に大きなギャップがある。例えば、モデルは、コマンド＋色＋前置詞＋文字＋数字＋副詞などの単語又は固定構造のみを予測する場合がある。

【発明の概要】

【課題を解決するための手段】

【0003】

[03] 実装は、一般に、リップリーディング予測の訂正に関する。いくつかの実装では、システムは、１又は２以上のプロセッサを含み、前記１又は２以上のプロセッサによって実行するための１又は２以上の非一時的コンピュータ可読記憶媒体に符号化されるロジックを含む。前記ロジックは、実行時に、前記１又は２以上のプロセッサに動作を実行させるように作動可能であり、前記動作は、ユーザのビデオ入力を受け取るステップであって、前記ユーザは前記ビデオ入力において話している、ステップと、前記ユーザの口の動きから１又は２以上の単語を予測して、１又は２以上の予測された単語を提供するステップと、前記１又は２以上の予測された単語から１又は２以上の訂正候補単語を訂正するステップと、前記１又は２以上の予測された単語から１又は２以上のセンテンスを予測するステップと、を含む。

【0004】

[04] 更に、前記システムについて、いくつかの実装では、前記１又は２以上の単語の予測は、深層学習に基づく。いくつかの実装では、前記１又は２以上の訂正候補単語の訂正は、自然言語処理に基づく。いくつかの実装では、前記１又は２以上の訂正候補単語の訂正は、類推（ａｎａｌｏｇｙ）に基づく。いくつかの実装では、前記１又は２以上の訂正候補単語の訂正は、単語類似度に基づく。いくつかの実装では、前記１又は２以上の訂正候補単語の訂正は、ベクトル類似度に基づく。いくつかの実装では、前記１又は２以上の訂正候補単語の訂正は、コサイン類似度に基づく。

【0005】

[05] いくつかの実装では、プログラム命令を記憶した非一時的コンピュータ可読記憶媒体が提供される。前記命令は、１又は２以上のプロセッサによって実行された時に、前記１又は２以上のプロセッサに動作を実行させるように作動可能であり、前記動作は、ユーザのビデオ入力を受け取るステップであって、前記ユーザは前記ビデオ入力において話している、ステップと、前記ユーザの口の動きから１又は２以上の単語を予測して、１又は２以上の予測された単語を提供するステップと、前記１又は２以上の予測された単語から１又は２以上の訂正候補単語を訂正するステップと、前記１又は２以上の予測された単語から１又は２以上のセンテンスを予測するステップと、を含む。

【0006】

[06] 更に、前記コンピュータ可読記憶媒体について、いくつかの実装では、前記１又は２以上の単語の予測は、深層学習に基づく。いくつかの実装では、前記１又は２以上の訂正候補単語の訂正は、自然言語処理に基づく。いくつかの実装では、前記１又は２以上の訂正候補単語の訂正は、類推に基づく。いくつかの実装では、前記１又は２以上の訂正候補単語の訂正は、単語類似度に基づく。いくつかの実装では、前記１又は２以上の訂正候補単語の訂正は、ベクトル類似度に基づく。いくつかの実装では、前記１又は２以上の訂正候補単語の訂正は、コサイン類似度に基づく。

【0007】

[07] いくつかの実装では、方法は、ユーザのビデオ入力を受け取るステップであって、前記ユーザは前記ビデオ入力において話している、ステップと、前記ユーザの口の動きから１又は２以上の単語を予測して、１又は２以上の予測された単語を提供するステップと、前記１又は２以上の予測された単語から１又は２以上の訂正候補単語を訂正するステップと、前記１又は２以上の予測された単語から１又は２以上のセンテンスを予測するステップと、を含む。

【0008】

[08] 更に、前記方法について、いくつかの実装では、前記１又は２以上の単語の予測は、深層学習に基づく。いくつかの実装では、前記１又は２以上の訂正候補単語の訂正は、自然言語処理に基づく。いくつかの実装では、前記１又は２以上の訂正候補単語の訂正は、類推に基づく。いくつかの実装では、前記１又は２以上の訂正候補単語の訂正は、単語類似度に基づく。いくつかの実装では、前記１又は２以上の訂正候補単語の訂正は、ベクトル類似度に基づく。いくつかの実装では、前記１又は２以上の訂正候補単語の訂正は、コサイン類似度に基づく。

【0009】

[09] 本明細書の残りの部分及び添付図面の参照により、本明細書に開示する特定の実装の特質及び利点の更なる理解を達成することができる。

【図面の簡単な説明】

【0010】

【図1】本明細書で説明する実装のために使用することができる、リップリーディング予測を訂正するための例示的な環境のブロック図である。

【図2】いくつかの実装による、リップリーディング予測を訂正するための例示的なフロー図である。

【図3】いくつかの実装による、類推に基づく単語予測で使用される単語ベクトルを示す例示的な図である。

【図4】いくつかの実装による、単語類似度に基づく単語予測で使用される単語ベクトルを示す例示的な図である。

【図5】いくつかの実装による、予測された単語の数字へのマッピングを示す例示的な図である。

【図6】本明細書で説明するいくつかの実装のために使用することができる例示的なネットワーク環境のブロック図である。

【図7】本明細書で説明するいくつかの実装のために使用することができる例示的なコンピュータシステムのブロック図である。

【発明を実施するための形態】

【0011】

[17] 本明細書で説明する実装は、自然言語処理を使用して、リップリーディング予測を訂正する。本明細書で説明する実装は、従来のリップリーディング技術の制限に対処する。このようなリップリーディング技術は、オーディオストリームに依拠することなく発話（ｓｐｅｅｃｈ）を認識する。これは、正しくない、不正確な、又は部分的な予測を招く場合がある。例えば、「戻って来ます（Ｉ’ｌｌｂｅｂａｃｋ）」という正しい表現の代わりに、「ａｙｌｂｉｙｂａｅｋ」を認識する場合がある。「寒いです（Ｉ’ｍｃｏｌｄ）」という正しい表現の代わりに、「Ｉｍｃｏｒｄ」を認識する場合がある。「寒くて凍えそうです（Ｉ’ｍｆｒｅｅｚｉｎｇ）」という正しい表現の代わりに、「Ｉｍｆｒｅｚ」を認識する場合がある。これは、深層学習モデルが、オーディオ支援なしで唇の動きに依拠するからである。「買う（ｂｕｙ）」と「さよなら（ｂｙｅ）」との間で、又は「引用する（ｃｉｔｅ）」と「サイト（ｓｉｔｅ）」との間で、話者の口の形状が類似している。人工知能（ＡＩ）深層学習モデルにおいて、自然言語処理（ＮＬＰ）を使用して、文書内の言語の文脈上のニュアンスを含む文書の内容を理解することができる。これは、書き言葉にも適用される。

【0012】

[18] 本明細書で説明する実装は、ＮＬＰを使用して、機械学習出力から導出される誤った又は不正確な予測を訂正するためのパイプラインを提供する。例えば、機械学習モデルは、オーディオが存在しない場合、話者の唇の動きから「Ｉｍｃｏｒｄ」を予測する場合がある。本明細書で説明する実装は、ＮＬＰ技術を含み、「Ｉｍｃｏｒｄ」という単語を入力として、その言葉を「寒いです（Ｉ’ｍｃｏｌｄ）」という正しい表現に訂正する。本明細書で説明する実装は、ＮＬＰを利用することによって、固定構造だけでなく非構造化フォーマットにも適用される。

【0013】

[19] 本明細書でより詳細に説明するように、様々な実装では、システムは、ユーザのビデオ入力を受け取り、ユーザはビデオ入力において話している。システムは、更に、ユーザの口の動きから１又は２以上の単語を予測して、１又は２以上の予測された単語を提供する。システムは、更に、１又は２以上の予測された単語から１又は２以上の訂正候補単語を訂正する。システムは、更に、１又は２以上の予測された単語から１又は２以上のセンテンスを予測する。

【0014】

[20] 図１は、本明細書で説明する実装のために使用することができる、リップリーディング予測を訂正する例示的な環境１００のブロック図である。図１の環境１００は、リップリーディング予測を訂正するためのパイプライン全体を示す。いくつかの実装では、環境１００は、ビデオ入力を受け取り、ビデオ入力からの単語予測に基づいてセンテンス予測を出力するシステム１０２を含む。

【0015】

[21] 本明細書でより詳細に説明するように、様々な実装では、システム１０２の深層学習リップリーディングモジュール１０４が、単語予測を実行する。システム１０２のＮＬＰモジュール１０６が、訂正候補単語の訂正を実行し、センテンスの単語予測を実行する。単語予測及びセンテンス予測を対象とする様々な実装について、例えば図２に関連して、本明細書でより詳細に説明する。

【0016】

[22] 図示を容易にするために、図１は、システム１０２、深層学習リップリーディングモジュール１０４及びＮＬＰモジュール１０６の各々に対して１つのブロックを示す。ブロック１０２、１０４及び１０６は、複数のシステム、深層学習リップリーディングモジュール及びＮＬＰモジュールを表すことができる。他の実装では、環境１００は、示される構成要素の全てを有さなくてもよく、かつ／又は本明細書で示されるものの代わりに又はそれらに加えて、他のタイプの要素を含む他の要素を有することができる。

【0017】

[23] システム１０２は、本明細書で説明する実装を実行するが、他の実装では、システム１０２と関連付けられる任意の適切な構成要素又は構成要素の組み合わせ、又はシステム１０２と関連付けられる任意の適切な単複のプロセッサは、本明細書で説明する実装を実行することを容易にすることができる。

【0018】

[24] 図２は、いくつかの実装による、リップリーディング予測を訂正するための例示的なフロー図である。本明細書で説明する実装は、ＮＬＰを使用して、深層学習モデルの単語予測を訂正し、かつセンテンス予測を訂正するためのパイプラインを提供する。図１及び図２の両方を参照すると、ブロック２０２において、方法を開始して、システム１０２などのシステムが、ユーザのビデオ入力を受け取り、ユーザはビデオ入力（例えばビデオ）において話している。様々な実装では、システムは、ビデオから画像を抽出して、ユーザの口を識別する。例えば、システムは、３秒間に９０フレームの画像を受け取ることができ、リップリーディングモジュールは、リップリーディングモデルを使用して、異なる位置のユーザの口を識別することができる。いくつかの実装では、システムは、分析のためにビデオのユーザの口をトリミングし、この場合、口の形状及び口の動きは特徴領域である。

【0019】

[25] ブロック２０４において、システムは、ユーザの口の動きから１又は２以上の単語を予測して、１又は２以上の予測された単語を提供する。様々な実装では、システムは、深層学習に基づいて、１又は２以上の単語を予測する。例えば、様々な実装では、システム１０２の深層学習リップリーディングモジュール１０４は、リップリーディングモデルを適用して、口の動きから単語を決定又は予測する。

【0020】

[26] 様々な実装では、リップリーディングは、ビデオのみ（例えば、音声ではなく視覚情報のみ）に基づいて何が話されているかを理解するシステムのプロセスである。リップリーディングは視覚的な手がかり（例えば、口の動き）に依存するので、いくつかの口の形状は非常に類似して見える。これは、不正確さを招く場合がある。

【0021】

[27] 図１に関連する上記の例では、システム１０２の深層学習リップリーディングモジュール１０４は、単語予測のためにリップリーディングモデルを使用して、単語を予測する。例えば、深層学習リップリーディングは、「ＡＹＬ．」、「ＢＩＹ．」、「ＢＡＥＫ．」という個々の単語を予測する場合がある。これらの単語は、深層学習に基づいて、「Ａｙｌｂｉｙｂａｅｋ」というセンテンスになる。

【0022】

[28] 別の例では、「ｔｈ」及び「ｆ」という音の口の動きは、解読するのが難しい場合がある。したがって、微妙な文字及び／又は単語を検出することは重要である。別の例では、「ｔｏｏ」及び「ｔｏ」という単語の口の動きは、同一ではないにしても非常に近く見える。様々な実装では、システム１０２の深層学習リップリーディングモジュール１０４は、リップリーディングモデルを適用して、無音で口の動きのみを使用して、グラウンドトゥルース単語予測を決定する。

【0023】

[29] 次に、ブロック２０６に関連して以下に説明するように、システム１０２のＮＬＰモジュール１０６は、リップリーディングモデルを適用して、任意の不正確に予測された単語を訂正する。本明細書でより詳細に説明するように、ＮＬＰモジュール１０６は、ＮＬＰを利用して、単語を正確に決定又は予測して（不正確な単語予測を訂正することを含む）、予測された単語のストリングから表現又はセンテンスを正確に予測する。

【0024】

[30] ブロック２０６において、システムは、１又は２以上の予測された単語から１又は２以上の訂正候補単語を訂正する。深層学習リップリーディングモジュール１０４は、個々の単語を予測するように機能するが、ＮＬＰモジュール１０６は、リップリーディングモジュール１０４からの不正確に予測された単語を訂正するとともに、ユーザからの表現又はセンテンスを予測するように機能する。

【0025】

[31] 様々な実装では、システムは、ＮＬＰ技術を利用して、発話（ｓｐｅｅｃｈ）及びテキストを含む自然言語を解釈する。ＮＬＰは、機械が、テキスト類似度、情報検索、文書分類、エンティティ抽出、クラスタリング等などの様々な技術を適用することによって、このようなテキストデータからパターンを理解して抽出できるようにする。ＮＬＰは、一般に、テキスト分類、バーチャルアシスタントのためのチャットボット、テキスト抽出及び機械翻訳のために使用される。

【0026】

[32] 様々な実装では、システム１０２のＮＬＰモジュール１０６は、自然言語処理に基づいて、１又は２以上の訂正候補単語を訂正する。訂正候補単語は、正しくないように見える単語とすることができる。例えば、「ＡＹＬ．」、「ＢＩＹ．」及び「ＢＡＥＫ．」という単語予測は、英語辞書に載っている単語ではないので、訂正候補である。様々な実装では、システム１０２のＮＬＰモジュール１０６は、これらの訂正候補単語の訂正を実行する。

【0027】

[33] 様々な実装では、ＮＬＰモジュール１０６は、受け取られる各予測された単語を、ベクトル又は数（例えば、数字のストリング）に変換又はマッピングする。例えば、ＮＬＰモジュール１０６は、「ＡＹＬ．」を数字１００にマッピングし、「ＢＩＹ．」を数字０１０にマッピングし、「ＢＡＥＫ．」を数字００１にマッピングすることができる。様々な実装では、ＮＬＰモジュール１０６は、また、１又は２以上の他の単語を、これらのベクトル又は数字に変換又はマッピングする。例えば、ＮＬＰモジュール１０６は、「Ｉ’ｌｌ」を数字１００にマッピングし、「ｂｅ」を数字０１０にマッピングし、「ｂａｃｋ」を数字００１にマッピングすることができる。ＮＬＰモジュール１０６が単語を受け取り、その単語をベクトル又は数字にマッピングする時に、ＮＬＰモジュール１０６は、そのベクトルと他の記憶されたベクトルとを比較して、最も近いベクトルを識別する。

【0028】

[34] この例示的な実装では、ＮＬＰモジュール１０６は、「ＡＹＬ．」及び「Ｉ’ｌｌ」の両方をベクトル又は数字１００にマッピングし、「ＢＩＹ．」及び「ｂｅ」の両方をベクトル又は数字０１０にマッピングし、「ＢＡＥＫ．」及び「ｂａｃｋ」の両方をベクトル又は数字００１にマッピングすることを決定する。したがって、ＮＬＰモジュール１０６は、「ＡＹＬ．」を「Ｉ’ｌｌ」に訂正し、「ＢＩＹ．」を「ｂｅ」に訂正し、「ＢＡＥＫ．」を「ｂａｃｋ」に訂正する。

【0029】

[35] ブロック２０８において、システムは、１又は２以上の予測された単語から１又は２以上のセンテンスを予測する。様々な実装では、システム１０２のＮＬＰモジュール１０６は、表現又はセンテンスの単語予測を実行する。上記のように、ＮＬＰモジュール１０６は、「ＡＹＬ．」を「Ｉ’ｌｌ」に訂正し、「ＢＩＹ．」を「ｂｅ」に訂正し、「ＢＡＥＫ．」を「ｂａｃｋ」に訂正する。次に、システム１０２のＮＬＰモジュール１０６は、「戻って来ます（Ｉ’ｌｌｂｅｂａｃｋ）」というセンテンスを予測する。換言すれば、ＮＬＰモジュール１０６は、訂正候補「ＡＹＬ．ＢＩＹ．ＢＡＥＫ．」を、最も近い表現である「戻って来ます（Ｉ’ｌｌｂｅｂａｃｋ）」に訂正する。

【0030】

[36] 図３及び図４は、単語予測を対象とする追加の例示的な実装を示す。図５は、センテンス予測を対象とする追加の例示的な実装を示す。

【0031】

[37] 図３は、いくつかの実装による、類推に基づく単語予測で使用される単語ベクトルを示す例示的な図である。様々な実装では、システム１０２のＮＬＰモジュール１０６は、類推に基づいて、１又は２以上の訂正候補単語を訂正する。例えば、上記のように、ＮＬＰモジュール１０６は、この場合、単語類推に基づいて、最も類似している単語を見つける。「男（ｍａｎ）」という単語が「女（ｗｏｍａｎ）」という単語に対するように、「王（ｋｉｎｇ）」という単語は「女王（ｑｕｅｅｎ）」という単語に対する。単語類推に基づいて、「王（ｋｉｎｇ）」は「男（ｍａｎ）」に近く、「女王（ｑｕｅｅｎ）」は「女（ｗｏｍａｎ）」に近い。

【0032】

[38] 図４は、いくつかの実装による、単語類似度に基づく単語予測で使用される単語ベクトルを示す例示的な図である。様々な実装では、システムは、単語類似度に基づいて、１又は２以上の訂正候補単語を訂正する。例えば、上記のように、ＮＬＰモジュール１０６は、この場合、単語の意味の類似度に基づいて、最も類似している単語を見つける。「良い（ｇｏｏｄ）」及び「すごい（ａｗｅｓｏｍｅ）」という単語は互いに比較的近く、「悪い（ｂａｄ）」及び「最悪の（ｗｏｒｓｔ）」という単語は互いに比較的近い。これらのペアは、意味が類似している単語を含む。

【0033】

[39] 本明細書で示すように、様々な実装では、システムは、ベクトル類似度に基づいて、１又は２以上の訂正候補単語を訂正する。様々な実装では、ベクトルは、システムが比較することができる数である。システムは、ベクトル空間内の単語ベクトル間の類似度を見つけることによって、訂正を実行する。コンピュータプログラムが数を処理するので、システムは、本明細書で説明するように、テキストデータを、ベクトル空間内の数値フォーマットに変換又は符号化する。

【0034】

[40] いくつかの実装では、システムは、２つの単語の間の単語類似度を決定して、数の範囲を指定する。例えば、数の範囲は、値０～１の間の値とすることができる。数の範囲内の数値は、２つの単語が意味的にどれほど近いかを示す。例えば、０の値は、単語同士は近くなく、代わりに意味が非常に異なることを意味することができる。０．５の値は、単語同士は、意味が非常に近いか又は同義語であることを意味することができる。様々な実装では、システムは、コサイン類似度に基づいて、１又は２以上の訂正候補単語を訂正する。コサインは、２つのベクトル（各ベクトルは単語を表す）の間の距離として定義することができる。図４を参照すると、「良い（ｇｏｏｄ）」及び「すごい（ａｗｅｓｏｍｅ）」という単語は近い。また、「悪い（ｂａｄ）」及び「最悪の（ｗｏｒｓｔ）」という単語も近い。これらのペアは、コサイン類似度を有する。

【0035】

[41] 様々な実装では、符号化中に、システムは、テキストの大きなコーパスを入力として、ベクトル空間を生成する。ベクトル空間のサイズは、特定の実装に応じて変えることができる。例えば、ベクトル空間は、数百次元を有することができる。様々な実装では、システムは、コーパス内の各一意の単語を、空間内の対応するベクトルに割り当てる。

【0036】

[42] システムは、所与のテキストのチャンクのベクトルを有すると、生成されたベクトル間の類似度を計算する。システムは、任意の適切な統計技術を利用して、ベクトル類似度を決定することができる。このような技術は、コサイン類似度である。別の例では、リップリーディングモジュール１０４は、「Ｉｍｓｔｏｐｈｏｔ」を予測する場合がある。次に、ＮＬＰモジュール１０６は、「Ｉｍｓｔｏｐｈｏｔ」を入力として、その入力と、ベクトル空間内の最も類似するセンテンスとを比較することができる。結果として、ＮＬＰモジュール１０６は、「暑すぎます（Ｉ’ｍｔｏｏｈｏｔ）」を見つけて出力する。

【0037】

[43] 図５は、いくつかの実装による、予測された単語の数字へのマッピングを示す例示的な図である。「深層（ｄｅｅｐ）」、「学習（ｌｅａｒｎｉｎｇ）」、「である（ｉｓ）」、「難しい（ｈａｒｄ）」及び「おもしろい（ｆｕｎ）」という単語が示されている。様々な実装では、システムのＮＬＰモジュールは、各予測された単語を、機械又はコンピュータによって読み取り可能な一連の数字に変換する。例えば、「深層（ｄｅｅｐ）」を数字５０２（例えば、１００００）にマッピングし、「学習（ｌｅａｒｎｉｎｇ）」を数字５０４（例えば、０１０００）にマッピングし、「である（ｉｓ）」を数字５０６（例えば、００１００）にマッピングし、「難しい（ｈａｒｄ）」を数字５０８（例えば、０００１０）にマッピングし、「おもしろい（ｆｕｎ）」を数字５１０（例えば、００００１）にマッピングする。図示の数字は２進数であるが、他の数字方式を使用することができる（例えば、１６進数など）。

【0038】

[44] 様々な実装では、システムのＮＬＰモジュールは、単語類似度に基づいて、及び／又は文法規則及び単語の位置に基づいて、数字を単語に割り当てる。例えば、システムは、「難しい（ｈａｒｄ）」という単語及び「困難な（ｄｉｆｆｉｃｕｌｔ）」という単語を、数字０００１０にマッピングすることができる。これらの単語は、意味が類似している。システムは、「おもしろい（ｆｕｎ）」という単語及び「楽しい（ｊｏｙｆｕｌ）」という単語を、数字００００１にマッピングすることができる。これらの単語は、意味が類似している。「難しい（ｈａｒｄ）」及び「おもしろい（ｆｕｎ）」という単語は異なる単語であるが、システムは、文法規則及び単語の位置に基づいて、互いに近い数字を割り当てることができる。例えば、「難しい（ｈａｒｄ）」及び「おもしろい（ｆｕｎ）」は、単語ストリング「深層（ｄｅｅｐ）」、「学習（ｌｅａｒｎｉｎｇ）」、「である（ｉｓ）」、「難しい（ｈａｒｄ）」及び「おもしろい（ｆｕｎ）」の最後に配置される形容詞である。

【0039】

[45] 図示の例では、システムのＮＬＰモジュールは、異なるが類似する２つのセンテンスを予測することができる。一方のセンテンスは、「深層学習は難しい（Ｄｅｅｐｌｅａｒｎｉｎｇｉｓｈａｒｄ）」であると予測することができる。他方のセンテンスは、「深層学習はおもしろい（Ｄｅｅｐｌｅａｒｎｉｎｇｉｓｆｕｎ）」であると予測することができる。システムは、予測される個々の単語に基づいて、他方のセンテンスよりも一方のセンテンスを最終的に予測することができる。例えば、単語ストリングの最後の単語が「おもしろい（ｆｕｎ）」である場合、システムは、「深層学習はおもしろい（Ｄｅｅｐｌｅａｒｎｉｎｇｉｓｆｕｎ）」というセンテンスを最終的に予測する。ストリングの最後の単語が、深層学習モジュールによって「ｆｕｎｎ」又は「ｆｕｕｎ」として不正確に予測されても、システムは、数字００００１を予測された単語に割り当てる。システムは、また、数字００００１を「おもしろい（ｆｕｎ）」という単語に割り当てるので、現実の単語であるので「おもしろい（ｆｕｎ）」という単語を使用する。したがって、予測されたセンテンス（「深層学習はおもしろい（Ｄｅｅｐｌｅａｒｎｉｎｇｉｓｆｕｎ）」）は意味をなすので、システムによって選択される。

【0040】

[46] ステップ、作動、又は計算は、特定の順番で提示することができるが、この順番は、特定の実装では変更することができる。特定の実装に応じて、ステップの他の順番が可能である。いくつかの特定の実装では、本明細書で順次示される複数のステップは、同時に実行することができる。また、いくつかの実装は、示されるステップの全てを有さなくてもよく、かつ／又は本明細書で示されるものの代わりに又はそれらに加えて、他のステップを有することができる。

【0041】

[47] 本明細書で説明する実装は、様々な利益を提供する。例えば、実装は、深層学習モデルを使用するリップリーディング技術と、ＮＬＰ技術を使用する単語訂正技術とを組み合わせる。実装は、ＮＬＰを利用して、リップリーディングモデルが推論する不正確な単語予測を訂正する。本明細書で説明する実装は、騒々しい環境又は背景ノイズがある時（例えば、ドライブスルーで顧客の注文を受ける時など）に適用することもできる。

【0042】

[48] 図６は、本明細書で説明するいくつかの実装のために使用することができる例示的なネットワーク環境６００のブロック図である。いくつかの実装では、ネットワーク環境６００は、サーバ装置６０４及びデータベース６０６を含むシステム６０２を含む。例えば、システム６０２を使用して、図１のシステム１０２を実装するとともに、本明細書で説明する実装を実行することができる。ネットワーク環境６００は、また、システム６０２と通信することができる、かつ／又は直接又はシステム６０２を介して互いに通信することができるクライアント装置６１０、６２０、６３０及び６４０を含む。ネットワーク環境６００は、また、ネットワーク６５０を含み、ネットワーク６５０を通じて、システム６０２及びクライアント装置６１０、６２０、６３０及び６４０は通信する。ネットワーク６５０は、Ｗｉ－Ｆｉネットワーク、Ｂｌｕｅｔｏｏｔｈネットワーク、インターネット等などの任意の適切な通信ネットワークとすることができる。

【0043】

[49] 図示を容易にするために、図６は、システム６０２、サーバ装置６０４及びネットワークデータベース６０６の各々に対して１つのブロックを示し、クライアント装置６１０、６２０、６３０及び６４０については４つのブロックを示す。ブロック６０２、６０４及び６０６は、複数のシステム、サーバ装置及びネットワークデータベースを表すことができる。また、任意の数のクライアント装置が存在することができる。他の実装では、環境６００は、示される構成要素の全てを有さなくてもよく、かつ／又は本明細書で示されるものの代わりに又はそれらに加えて、他のタイプの要素を含む他の要素を有することができる。

【0044】

[50] システム６０２のサーバ装置６０４は、本明細書で説明する実装を実行するが、他の実装では、システム６０２と関連付けられる任意の適切な構成要素又は構成要素の組み合わせ、又はシステム６０２と関連付けられる任意の適切な単複のプロセッサは、本明細書で説明する実装を実行することを容易にすることができる。

【0045】

[51] 本明細書で説明する様々な実装では、システム６０２のプロセッサ及び／又は任意のクライアント装置６１０、６２０、６３０及び６４０のプロセッサが、本明細書で説明する要素（例えば、情報等）を、１又は２以上のディスプレイ画面上のユーザインターフェイスに表示させる。

【0046】

[52] 図７は、本明細書で説明するいくつかの実装のために使用することができる例示的なコンピュータシステム７００のブロック図である。例えば、コンピュータシステム７００を使用して、図６のサーバ装置６０４及び／又は図１のシステム１０２を実装するとともに、本明細書で説明する実装を実行することができる。いくつかの実装では、コンピュータシステム７００は、プロセッサ７０２と、オペレーティングシステム７０４と、メモリ７０６と、入力／出力（Ｉ／Ｏ）インターフェイス７０８とを含むことができる。様々な実装では、プロセッサ７０２を使用して、本明細書で説明する様々な機能及び特徴を実装するとともに、本明細書で説明する方法の実装を実行することができる。プロセッサ７０２は、本明細書で説明する実装を実行するものとして説明されているが、コンピュータシステム７００の任意の適切な構成要素又は構成要素の組み合わせ、又はコンピュータシステム７００又は任意の適切なシステムと関連付けられる任意の適切な単複のプロセッサは、説明されるステップを実行することができる。本明細書で説明する実装は、ユーザ装置上、サーバ上、又はこれらの両方の組み合わせにおいて実行することができる。

【0047】

[53] コンピュータシステム７００は、また、ソフトウェアアプリケーション７１０を含み、ソフトウェアアプリケーション７１０は、メモリ７０６に又は他の任意の適切な記憶位置又はコンピュータ可読媒体に記憶することができる。ソフトウェアアプリケーション７１０は命令を与え、この命令によって、プロセッサ７０２は、本明細書で説明する実装及び他の機能を実行することができる。ソフトウェアアプリケーションは、１又は２以上のネットワーク及びネットワーク通信と関連付けられる様々な機能を実行するためのネットワークエンジンなどのエンジンを含むこともできる。コンピュータシステム７００の構成要素は、１又は２以上のプロセッサ又はハードウェア装置の任意の組み合わせ、及びハードウェア、ソフトウェア、ファームウェア等の任意の組み合わせによって実装することができる。

【0048】

[54] 図示を容易にするために、図７は、プロセッサ７０２、オペレーティングシステム７０４、メモリ７０６、Ｉ／Ｏインターフェイス７０８及びソフトウェアアプリケーション７１０の各々に対して１つのブロックを示す。これらのブロック７０２、７０４、７０６、７０８及び７１０は、複数のプロセッサ、オペレーティングシステム、メモリ、Ｉ／Ｏインターフェイス及びソフトウェアアプリケーションを表すことができる。様々な実装では、コンピュータシステム７００は、示される構成要素の全てを有さなくてもよく、かつ／又は本明細書で示されるものの代わりに又はそれらに加えて、他のタイプの構成要素を含む他の要素を有することができる。

【0049】

[55] 特定の実装に関連して説明してきたが、これらの特定の実装は単なる例示であり、限定的なものではない。例に示される概念は、他の例及び実装に適用することができる。

【0050】

[56] 様々な実装では、ソフトウェアは、１又は２以上のプロセッサによって実行するための１又は２以上の非一時的コンピュータ可読媒体に符号化される。ソフトウェアは、１又は２以上のプロセッサによって実行された時に、本明細書で説明する実装及び他の機能を実行するように作動可能である。

【0051】

[57] 特定の実装のルーチンを実装するために、Ｃ、Ｃ＋＋、Ｃ＃、Ｊａｖａ、ＪａｖａＳｃｒｉｐｔ、アセンブリ言語等を含む任意の適切なプログラミング言語を使用することができる。手続き型又はオブジェクト指向などの異なるプログラミング技術を使用することができる。ルーチンは、単一の処理デバイス又は複数のプロセッサ上で実行することができる。ステップ、作動、又は計算は、特定の順番で提示することができるが、この順番は、異なる特定の実装では変更することができる。いくつかの特定の実装では、本明細書で順次示される複数のステップは、同時に実行することができる。

【0052】

[58] 特定の実装は、命令実行システム、装置、又はデバイスによって又はこれに関連して使用するための非一時的コンピュータ可読記憶媒体（機械可読記憶媒体とも呼ばれる）に実装することができる。特定の実装は、ソフトウェア又はハードウェア又はこれらの両方の組み合わせにおいて制御ロジックの形態で実装することができる。制御ロジックは、１又は２以上のプロセッサによって実行された時に、本明細書で説明する実装及び他の機能を実行するように作動可能である。例えば、ハードウェア記憶装置などの有形媒体を使用して、実行可能命令を含むことができる制御ロジックを記憶することができる。

【0053】

[59] 特定の実装は、プログラマブル汎用デジタルコンピュータを使用することによって、及び／又は特定用途向け集積回路、プログラマブル論理デバイス、フィールドプログラマブルゲートアレイ、光学、化学、生物学、量子又はナノ工学システム、構成要素及び機構を使用することによって実装することができる。一般に、特定の実装の機能は、本技術分野で公知の任意の手段によって達成することができる。分散型、ネットワーク型システム、構成要素、及び／又は回路を使用することができる。データの通信又は転送は、有線、無線、又は任意の他の手段によるものとすることができる。

【0054】

[60] 「プロセッサ」は、データ、信号又は他の情報を処理する任意の適切なハードウェア及び／又はソフトウェアシステム、機構又は構成要素を含むことができる。プロセッサは、汎用中央処理装置を有するシステム、複数の処理装置、機能を実現するための専用回路、又は他のシステムを含むことができる。処理は、地理的位置に限定されるか又は時間的制約を有する必要はない。例えば、プロセッサは、「リアルタイム」、「オフライン」、「バッチモード」等で、その機能を実行することができる。処理の一部は、異なる（又は同じ）処理システムによって、異なる時間及び異なる場所で実行することができる。コンピュータは、メモリと通信する任意のプロセッサとすることができる。メモリは、プロセッサによって実行するための命令（例えば、プログラム又はソフトウェア命令）を記憶するのに適した、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、磁気記憶装置（ハードディスクドライブ等）、フラッシュ、光学記憶装置（ＣＤ、ＤＶＤ等）、磁気又は光ディスク、又は他の有形媒体などの電子記憶装置を含む、任意の適切なデータストレージ、メモリ及び／又は非一時的コンピュータ可読記憶媒体とすることができる。例えば、ハードウェア記憶装置などの有形媒体を使用して、実行可能命令を含むことができる制御ロジックを記憶することができる。命令は、例えば、サーバ（例えば、分散型システム及び／又はクラウドコンピューティングシステム）から配信されるサービス（ＳａａＳ）としてソフトウェアの形態で、電子信号に含まれて、電子信号として供給することもできる。

【0055】

[61] 図面／図に示す要素のうちの１又は２以上は、より分離された又は一体化された方法で、又は特定用途に応じて有用であるような特定の場合には更に取り外されるか又は作動不能にされて実装することもできることも理解されるであろう。上記の方法のいずれかをコンピュータに実行させるために機械可読媒体に記憶することができるプログラム又はコードを実装することも本発明の趣旨及び範囲内である。

【0056】

[62] 本明細書の説明及び以下に続く特許請求の範囲で使用される「ａ、ａｎ（英文不定冠詞）」及び「ｔｈｅ（英文定冠詞）」は、文脈によって別途明確に指定しない限り、複数の参照物を含む。また、本明細書の説明及び以下に続く特許請求の範囲で使用される「内（ｉｎ）」の意味は、文脈によって別途明確に指定しない限り、「内（ｉｎ）」及び「上（ｏｎ）」を含む。

【0057】

[63] したがって、本明細書で特定の実装を説明したが、修正、様々な変更、及び置換の自由が、以上の開示において意図されており、場合によっては、説明する範囲及び趣旨から逸脱することなく、特定の実装のいくつかの特徴は、他の特徴の対応する使用なしに使用されることは理解されるであろう。したがって、特定の状況又は内容を実質的な範囲及び趣旨に適合させるように、多くの修正を行うことができる。

【符号の説明】

【0058】

１００環境
１０２システム
１０４深層学習リップリーディングモジュール
１０６ＮＬＰモジュール
２０２ユーザのビデオ入力を受け取り、ユーザはビデオにおいて話している
２０４ユーザの口の動きから１又は２以上の単語を予測して、１又は２以上の予測された単語を提供
２０６１又は２以上の予測された単語から１又は２以上の訂正候補単語を訂正
２０８１又は２以上の予測された単語から１又は２以上のセンテンスを予測
５０２数字
５０４数字
５０６数字
５０８数字
５１０数字
６００ネットワーク環境
６０２システム
６０４サーバ装置
６０６データベース
６１０，６２０，６３０，６４０クライアント装置
６５０ネットワーク
７００コンピュータシステム
７０２プロセッサ
７０４オペレーティングシステム
７０６メモリ
７０８入力／出力（Ｉ／Ｏ）インターフェイス
７１０ソフトウェアアプリケーション

【図1】