(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-10-24
(45)【発行日】2022-11-01
(54)【発明の名称】翻訳方法、装置、電子機器及びコンピュータプログラム製品
(51)【国際特許分類】
G06F 40/58 20200101AFI20221025BHJP
G06F 16/335 20190101ALI20221025BHJP
G06F 3/0481 20220101ALI20221025BHJP
【FI】
G06F40/58
G06F16/335
G06F3/0481
(21)【出願番号】P 2021042333
(22)【出願日】2021-03-16
【審査請求日】2021-03-16
(31)【優先権主張番号】202010929840.1
(32)【優先日】2020-09-07
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】512015127
【氏名又は名称】バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド
(74)【代理人】
【識別番号】100118913
【氏名又は名称】上田 邦生
(74)【代理人】
【識別番号】100142789
【氏名又は名称】柳 順一郎
(74)【代理人】
【識別番号】100163050
【氏名又は名称】小栗 眞由美
(74)【代理人】
【識別番号】100201466
【氏名又は名称】竹内 邦彦
(72)【発明者】
【氏名】易 紹▲ティン▼
(72)【発明者】
【氏名】餘 永佳
【審査官】木村 大吾
(56)【参考文献】
【文献】特開2015-069365(JP,A)
【文献】米国特許出願公開第2014/0180670(US,A1)
【文献】米国特許出願公開第2004/0210444(US,A1)
【文献】韓国公開特許第10-2019-0063277(KR,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 40/00-40/58
G06F 16/00-16/958
G06F 3/0481
(57)【特許請求の範囲】
【請求項1】
翻訳装置により実行される翻訳方法であって、
翻訳されるテキストを含む画像を取得することと、
前記画像内の前記テキストを分割して、前記テキストの文字又は単語を含む複数のターゲット対象を取得することと、
前記複数のターゲット対象に対する入力操作を受信して、前記複数のターゲット対象のうちの翻訳対象を取得して前記翻訳対象を翻訳することと、
を含み、
前記画像内の前記テキストを分割して、複数のターゲット対象を取得することが、
認識モデルを用いて前記画像を認識して、第2の認識結果を取得することと、
前記第2の認識結果に基づいて前記画像が学習シーンでの画像であると決定した場合に、前記画像内の前記テキストを分割して、前記複数のターゲット対象を取得することと、
を含む翻訳方法。
【請求項2】
前記翻訳対象は、前記複数のターゲット対象のうちの1つのターゲット対象、又は位置が連続しない複数のターゲット対象、又は前記複数のターゲット対象のうちの位置が連続する複数のターゲット対象を含む、請求項1に記載の方法。
【請求項3】
前記画像内の前記テキストを分割して、ターゲット対象を複数取得することは、
前記画像に対してコンテンツ認識を行って、第1の認識結果を取得することと、
前記第1の認識結果における文字を分割して、前記複数のターゲット対象を取得することと、
前記画像内の、クリックボックスをさらに含む前記ターゲット対象の位置にクリックボックスを表示することと、を含み、
前記複数のターゲット対象に対する入力操作を受信して、前記複数のターゲット対象のうちの翻訳対象を取得することは、
前記複数のターゲット対象のクリックボックスに対する入力操作を受信して、前記複数のターゲット対象のうちの、前記クリックボックスに対応する文字又は単語である翻訳対象を取得することを含む、請求項1に記載の方法。
【請求項4】
前記第1の認識結果における文字を分割して、前記複数のターゲット対象を取得することは、
前記第1の認識結果における文字を行ごとに分割して、少なくとも1行の文字情報を取得することと、
前記少なくとも1行の文字情報内の各行の文字情報をそれぞれ文字間隔に応じて分割して、前記複数のターゲット対象を取得することと、を含む、請求項3に記載の方法。
【請求項5】
前記画像内の前記ターゲット対象の位置にクリックボックスを表示することは、
前記画像内の前記ターゲット対象の位置に所定の透明度のマスクレイヤーを表示することと、
前記マスクレイヤーにクリックボックスを表示することと、を含む、請求項3に記載の方法。
【請求項6】
前記翻訳対象を翻訳することは、
前記翻訳対象を翻訳して、翻訳結果を取得することと、
前記テキストにおける前記翻訳対象の文脈を取得して、データベースから複数のナレッジポイント情報を抽出することと、
ユーザの履歴照会データに基づいて、前記複数のナレッジポイント情報の優先度を決定することと、
前記複数のナレッジポイント情報を優先度に応じて順序付け、上位に順序付けられた、正の整数であるN個のナレッジポイント情報を取得することと、
前記翻訳結果及び前記N個のナレッジポイント情報を表示することと、を含む、請求項1に記載の方法。
【請求項7】
翻訳されるテキストを含む画像を取得する取得モジュールと、
前記画像内の前記テキストを分割して、前記テキストの文字又は単語を含む複数のターゲット対象を取得する分割モジュールと、
前記複数のターゲット対象に対する入力操作を受信して、前記複数のターゲット対象のうちの翻訳対象を取得する受信モジュールと、
前記翻訳対象を翻訳する翻訳モジュールと、
を含み、
前記分割モジュールが、
認識モデルを用いて前記画像を認識して、第2の認識結果を取得する第2の認識サブモジュールと、
前記第2の認識結果に基づいて前記画像が学習シーンでの画像であると決定した場合に、前記画像内の前記テキストを分割して、前記複数のターゲット対象を取得する第2の分割サブモジュールと、
を含む翻訳装置。
【請求項8】
前記翻訳対象は、前記複数のターゲット対象のうちの1つのターゲット対象、又は位置が連続しない複数のターゲット対象、又は前記複数のターゲット対象のうちの位置が連続する複数のターゲット対象を含む、請求項
7に記載の装置。
【請求項9】
前記分割モジュールは、
前記画像に対してコンテンツ認識を行って、第1の認識結果を取得する第1の認識サブモジュールと、
前記第1の認識結果における文字を分割して、前記複数のターゲット対象を取得する第1の分割サブモジュールと、
前記画像内の、クリックボックスをさらに含む前記ターゲット対象の位置にクリックボックスを表示する第1の表示サブモジュールと、を含み、
前記受信モジュールは、前記複数のターゲット対象のクリックボックスに対する入力操作を受信して、前記複数のターゲット対象のうちの、前記クリックボックスに対応する文字又は単語である翻訳対象を取得する、請求項
7に記載の装置。
【請求項10】
前記第1の分割サブモジュールは、
前記第1の認識結果における文字を行ごとに分割して、少なくとも1行の文字情報を取得し、
前記少なくとも1行の文字情報内の各行の文字情報をそれぞれ文字間隔に応じて分割して、前記複数のターゲット対象を取得する、請求項
9に記載の装置。
【請求項11】
前記第1の表示サブモジュールは、
前記画像内の前記ターゲット対象の位置に所定の透明度のマスクレイヤーを表示する第1の表示ユニットと、
前記マスクレイヤーにクリックボックスを表示する第2の表示ユニットと、を含む、請求項
9に記載の装置。
【請求項12】
前記翻訳モジュールは、
前記翻訳対象を翻訳して、翻訳結果を取得する翻訳サブモジュールと、
前記テキストにおける前記翻訳対象の文脈を取得して、データベースから複数のナレッジポイント情報を抽出する第1の取得サブモジュールと、
ユーザの履歴照会データに基づいて、前記複数のナレッジポイント情報の優先度を決定する決定サブモジュールと、
前記複数のナレッジポイント情報を優先度に応じて順序付け、上位に順序付けられた、正の整数であるN個のナレッジポイント情報を取得する順序付けサブモジュールと、
前記翻訳結果及び前記N個のナレッジポイント情報を表示する第2の表示サブモジュールと、を含む、請求項
7に記載の装置。
【請求項13】
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信接続されるメモリと、を含み、
前記メモリには、前記少なくとも1つのプロセッサに実行可能で、前記少なくとも1つのプロセッサによって実行されると、請求項1から
6のいずれか
一項に記載の方法を前記少なくとも1つのプロセッサに実行させる命令が記憶されている、電子機器。
【請求項14】
請求項1から
6のいずれか
一項に記載の方法をコンピュータに実行させるためのコンピュータ命令が記憶されている非一時的なコンピュータ可読記憶媒体。
【請求項15】
プロセッサによって実行されると、請求項1から
6のいずれか一項に記載の方法が実現されるコンピュータプログラ
ム。
【発明の詳細な説明】
【技術分野】
【0001】
本願は、画像処理の技術分野におけるコンピュータビジョン技術に関し、特に翻訳方法、装置、電子機器及びコンピュータプログラム製品に関する。
【背景技術】
【0002】
従来の翻訳は、テキスト翻訳、音声翻訳又は画像翻訳を含む。テキスト翻訳では、ユーザが翻訳を必要とする文字コンテンツを手動で入力する必要があり、テキスト内容が長いと入力コストが高くなる、また、音声翻訳では、ユーザが翻訳を必要とするテキストコンテンツを読み上げて入力する必要があり、ユーザが不慣れな外国語コンテンツでは、音声入力を用いることができない。さらに、画像翻訳では、テキストコンテンツを撮影して、撮影して取得されたコンテンツを画像理解技術に基づいて翻訳する必要がある。
【発明の概要】
【0003】
本開示は、翻訳方法、装置、電子機器及び記憶媒体を提供する。
【0004】
本開示の第1の態様に係る翻訳方法は、翻訳されるテキストを含む画像を取得することと、前記画像内の前記テキストを分割して、前記テキストの文字又は単語を含む複数のターゲット対象を取得することと、前記複数のターゲット対象に対する入力操作を受信して、前記複数のターゲット対象のうちの翻訳対象を取得することと、前記翻訳対象を翻訳することと、を含む。
【0005】
本開示の第2の態様に係る翻訳装置は、翻訳されるテキストを含む画像を取得する取得モジュールと、前記画像内の前記テキストを分割して、前記テキストの文字又は単語を含む複数のターゲット対象を取得する分割モジュールと、前記複数のターゲット対象に対する入力操作を受信して、前記複数のターゲット対象のうちの翻訳対象を取得する受信モジュールと、前記翻訳対象を翻訳する翻訳モジュールと、を含む。
【0006】
本開示の第3の態様に係る電子機器は、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサに通信接続されるメモリと、を含み、前記メモリには、前記少なくとも1つのプロセッサによって実行可能で、前記少なくとも1つのプロセッサによって実行されると、第1の態様のいずれか1項に記載の方法を前記少なくとも1つのプロセッサに実行させる命令が記憶されている。
【0007】
本願の第4の態様に係る非一時的なコンピュータ可読記憶媒体には、第1の態様のいずれか1項に記載の方法をコンピュータに実行させるコンピュータ命令が記憶されている。
【0008】
本願の技術は、ユーザが翻訳対象のコンテンツを手動で入力する場合に効率が低くなるという問題を解決する。本願は、翻訳されるテキストを含む画像を取得し、前記画像内の前記テキストを分割して、前記テキストの文字又は単語を含む複数のターゲット対象を取得し、前記複数のターゲット対象に対する入力操作を受信して、前記複数のターゲット対象のうちの翻訳対象を取得し、前記翻訳対象を翻訳することにより、テキストへの翻訳を実現できる。上記方法では、翻訳されるテキストを含む画像のみを取得すればよく、ユーザが手動で翻訳されるテキストを入力する必要がないため、ユーザの操作を簡略化し、翻訳効率を向上させることができる。
【0009】
本部分で説明された内容は、本開示の実施例の主要又は重要な特徴を特定することを意図するものではなく、本開示の範囲を限定するものでもないことを理解されたい。本開示の他の特徴は、以下の明細書により容易に理解される。
【図面の簡単な説明】
【0010】
図面は、本解決手段をより良く理解するためのものであり、本願を限定するものではない。
【0011】
【
図1】本願の実施例に係る翻訳方法のフローチャートである。
【
図2a】本願の実施例に係るテキスト分割結果の概略図である。
【
図2b】本願の実施例に係るテキスト分割結果の概略図である。
【
図2c】本願の実施例に係る翻訳対象選択インタフェースの概略図である。
【
図2d】本願の実施例に係る翻訳対象の選択結果の概略図である。
【
図2e】本願の実施例に係る翻訳対象の選択結果の概略図である。
【
図3】本願の実施例に係る翻訳装置の構成図である。
【
図4】本願の実施例に係る翻訳方法を実現する電子機器のブロック図である。
【発明を実施するための形態】
【0012】
以下、理解を容易にするために、図面を参照しながら、本願の実施例の様々な詳細を含めて本願の例示的な実施例を説明するが、これらは単なる例示と見なすべきである。したがって、当業者であれば、本願の範囲及び趣旨を逸脱することなく、ここに説明する実施例に対して様々な変更及び修正を行うことができることを認識すべきである。同様に、明確かつ簡潔のため、以下の説明では、公知の機能及び構造に対する説明は省略される。
【0013】
図1を参照すると、
図1は、本願の実施例に係る翻訳方法のフローチャートである。
図1に示すように、本実施例に係る、電子機器に適用される翻訳方法は、以下のステップ101~ステップ104を含む。
【0014】
ステップ101では、翻訳されるテキストを含む画像を取得する。
【0015】
画像は、翻訳されるテキストを含み、撮像又はスキャンによって取得できるが、ここでは限定されない。
【0016】
ステップ102では、上記画像内の上記テキストを分割して、上記テキストの文字又は単語を含む複数のターゲット対象を取得する。
【0017】
画像認識技術を用いてテキストを認識し、認識されたテキストに対して単語分割を行い、個々の文字及び/又は単語を取得する。即ち、テキストの文字又は単語を含む複数のターゲット対象を取得する。
【0018】
ステップ103では、上記複数のターゲット対象に対する入力操作を受信して、上記複数のターゲット対象のうちの翻訳対象を取得する。
【0019】
複数のターゲット対象に対して入力操作を行う。例えば、複数のターゲット対象の一部又は全ての対象を選択して、翻訳対象を決定する。翻訳対象は、入力操作に基づいて決定された複数のターゲット対象の一部又は全てである。
【0020】
ステップ104では、上記翻訳対象を翻訳する。
【0021】
翻訳対象を取得した後、翻訳ソフトウェアを用いて翻訳対象を翻訳する。例えば、インターネットに基づくニューラルネットワーク翻訳システムを用いて翻訳し、翻訳結果を電子機器の表示画面に表示する。
【0022】
電子機器は、携帯電話、タブレットコンピュータ、ラップトップコンピュータ、パーソナルデジタルアシスタント、モバイルインターネット装置又はウェアラブル機器等であってよい。
【0023】
本実施例では、翻訳されるテキストを含む画像を取得し、上記画像内の上記テキストを分割して、上記テキストの文字又は単語を含む複数のターゲット対象を取得し、上記複数のターゲット対象に対する入力操作を受信して、上記複数のターゲット対象のうちの翻訳対象を取得し、上記翻訳対象を翻訳することにより、テキストへの翻訳を実現できる。上記方法では、翻訳されるテキストを含む画像のみを取得すればよく、ユーザが翻訳されるテキストを手動で入力する必要がないため、ユーザの操作を簡略化し、翻訳効率を向上させることができる。また、上記方法は、ユーザが翻訳されるテキストを知らない場合にも適用できるので、ユーザが新たな知識を自律的に学習し、新たな物事を理解するのに役立つ。
【0024】
本願の一実施例では、上記入力操作は、上記複数のターゲット対象のうちの1つのターゲット対象又は位置が連続しない複数のターゲット対象に対する第1の入力であり、或いは上記複数のターゲット対象のうちの位置が連続する複数のターゲット対象に対する第2の入力である。
【0025】
第1の入力は、クリック入力であってよい。例えば、テキスト内の複数のターゲット対象をクリック入力し、複数のターゲット対象のうちの1つのターゲット対象を選択するか又は複数のターゲット対象のうちの位置が連続しない複数のターゲット対象を選択する。ターゲット対象の位置は、ターゲット対象のテキストでの位置である。位置が連続しないことは、選択された複数のターゲット対象のテキストでの位置が隣接しないことを意味する。例えば、選択された複数のターゲット対象が同一行に位置する場合、隣接しない2つのターゲット対象が存在し、或いは、選択された複数のターゲット対象が異なる行に位置する場合、隣接する行に位置しない2つのターゲット対象が存在する。即ち、第1の入力によって、1つのターゲット対象又は位置が連続しない複数のターゲット対象を選択でき、テキストでは、選択された複数のターゲット対象の間に選択されていないターゲット対象が存在する。例えば、テキスト内のABCDEがそれぞれ一文の5つの文字及び/又は単語を表し、各文字又は単語が1つのターゲット対象であれば、第1の入力によってABCDEのうちの1つ以上のターゲット対象を選択でき、選択された複数のターゲット対象の位置が連続せず、例えば、ACD、BDE又はABDE等を選択することができる。
【0026】
上述したように、第1の入力を行うとき、第1の入力は、複数のクリック入力を含んでよく、1つのクリック入力を完了した後に、所定の時間内に次のクリック入力を検出しなければ、ユーザが第1の入力を完了したとみなして、選択されたターゲット対象を翻訳する。所定の時間は、0.5秒又は1秒等であってもよく、具体的には実際の状況に応じて設定でき、ここでは限定されない。
【0027】
また、複数のターゲット対象のうちの位置が連続する複数のターゲット対象を選択してもよく、クリック入力によって選択してもよい。例えば、位置が連続する複数のターゲット対象をクリックによって選択してもよいし、スライド入力によって選択してもよい。
【0028】
例えば、開始位置のターゲット対象を長押しし、該ターゲット対象の位置を開始位置としてスライドすることにより、スライド軌跡が通過する位置でのターゲット対象を選択し、又は、スライド軌跡の開始位置と終了位置とで構成された矩形領域を決定する。例えば、開始位置がA1(x1,y1)であり、終了位置がB1(x2,y2)であれば、矩形領域の4つの頂点がそれぞれ(x1,y1)、(x2,y1)、(x1,y2)、(x2,y2)であり、矩形領域に位置するターゲット対象を選択する。上述したように、スライド入力によって、テキスト内の位置が連続する複数のターゲット対象を迅速に選択するので、ユーザの選択操作を簡略化し、選択効率を向上させることができる。
【0029】
本実施例では、上記入力操作は、上記複数のターゲット対象のうちの1つのターゲット対象又は位置が連続しない複数のターゲット対象に対する第1の入力であり、或いは上記複数のターゲット対象のうちの位置が連続する複数のターゲット対象に対する第2の入力である。入力操作が第1の入力である場合、翻訳対象は、上記複数のターゲット対象のうちの1つのターゲット対象又は位置が連続しない複数のターゲット対象を含み、入力操作が第2の入力である場合、翻訳対象は、上記複数のターゲット対象のうちの位置が連続する複数のターゲット対象を含む。ユーザは、実際のニーズに応じてテキスト内の複数のターゲット対象の一部又は全てを選択でき、ユーザの入力操作を簡略化し、入力効率を向上させる。同時に、入力操作によってテキスト内の位置が連続しない複数のターゲット対象又は位置が連続する複数のターゲット対象を選択できることにより、後続の翻訳ステップではテキスト内の位置が連続しない複数のターゲット対象又は位置が連続する複数のターゲット対象を翻訳できるため、テキスト内のコンテンツへの選択的な翻訳の柔軟性を向上させることができる。
【0030】
本願の一実施例では、上記画像内の上記テキストを分割して、ターゲット対象を複数取得することは、上記画像に対してコンテンツ認識を行って、第1の認識結果を取得することと、上記第1の認識結果における文字を分割して、複数のターゲット対象を取得することと、上記画像内の、クリックボックスをさらに含む上記ターゲット対象の位置にクリックボックスを表示することと、を含み、上記複数のターゲット対象に対する入力操作を受信して、上記複数のターゲット対象のうちの翻訳対象を取得することは、上記複数のターゲット対象のクリックボックスに対する入力操作を受信して、上記複数のターゲット対象のうちの、上記クリックボックスに対応する文字又は単語である翻訳対象を取得することを含む。
【0031】
本実施例では、翻訳されるテキストを含む画像を取得した後に、画像に対してコンテンツ認識を行って、認識された文字領域であると理解できる第1の認識結果を取得する。具体的には、画像前処理の方式によって画像内のテキスト情報を強化し、元の画像の歪み、ぼけ、不鮮明な光、複雑な背景等の問題を解決する。次に、文字を分割し、具体的には、上記第1の認識結果における文字を分割して、上記複数のターゲット対象を取得することは、上記第1の認識結果における文字を行ごとに分割して、少なくとも1行の文字情報を取得することと、上記少なくとも1行の文字情報内の各行の文字情報をそれぞれ文字間隔に応じて分割して、上記複数のターゲット対象を取得することと、を含む。
【0032】
文字検出技術によって画像内のテキスト領域の位置を特定し、水平方向に分割する。即ち、テキスト領域を1行ずつの文字領域、即ち少なくとも1行の文字情報に分割する。
【0033】
次に、少なくとも1行の文字情報の各行の文字情報をそれぞれ分割する。分割する際には、隣接する文字間の文字間隔に応じて分割してもよい。例えば、文字間隔で区切られた2つの文字は、2つの独立した文字であり、又は分割する際に、文字認識機能を起動して、文字間隔で区切られた連続する複数の文字がフレーズを構成するか否かを判断してもよい。フレーズの場合には、該連続する複数の文字を分割しないで、これらを全体として、各行の文字情報を上記方式によって分割し、複数の文字及び/又は単語に分割してもよい。各文字又は単語は、1つのターゲット対象である。分割の粒度を文字又は単語に低減することにより、ユーザが文字又は単語を容易に選択して、ユーザの多様な翻訳ニーズを満たすことができる。
【0034】
画像におけるターゲット対象の位置に応じて、ターゲット対象の位置にクリックボックスを表示する。各ターゲット対象は、1つのクリックボックスを含む。クリックボックスは、ユーザにより選択され、ユーザがクリックボックスを選択すると、クリックボックスに対応する文字又は単語が選択される。
【0035】
分割する際に、文字自体の特性に応じて分割することができる。例えば、文字内の各文字又は単語の間にスペースがあり、英語のように各単語をスペースで区切れる場合には、各行の文字を垂直方向に分割して、単語が存在する領域の最小外接矩形であってよい各単語の位置を取得して、各単語の位置にクリックボックスを表示することができる。
【0036】
画像内のテキストの各ターゲット対象の位置にクリックボックスが表示されるので、ユーザは、クリックボックスを選択することができる。例えば、クリック操作により、1つのクリックボックス又は位置が連続する複数のクリックボックス又は位置が連続しない複数のクリックボックスを選択する。選択されたクリックボックスに対応する文字又は単語は翻訳対象である。位置が連続する複数のクリックボックスが選択されると、翻訳対象において、テキストでの位置が連続する複数のクリックボックスの位置関係によって、翻訳対象における対応する文字又は単語の位置関係を決定する。例えば、テキスト内に位置が順次連続するクリックボックス1、クリックボックス2及びクリックボックス3が存在し、それぞれ対応する単語が「I」、「like」、「it」である場合、翻訳対象において「I」、「like」、「it」の間の位置関係は、クリックボックスの位置関係によって決定される。即ち、翻訳対象における単語の順序は「I」、「like」、「it」である。
【0037】
翻訳対象を取得した後に、翻訳対象を翻訳する。具体的には、従来の翻訳システムを用いて翻訳できるが、ここでは限定されない。
【0038】
本実施例では、上記画像に対してコンテンツ認識を行い、第1の認識結果を取得し、上記第1の認識結果における文字を分割して、複数のターゲット対象を取得し、上記画像内の上記ターゲット対象の位置にクリックボックスを表示し、上記複数のターゲット対象に対するクリックボックスの入力操作を受信して、上記複数のターゲット対象のうちの、上記クリックボックスに対応する文字又は単語である翻訳対象を取得する。ユーザにターゲット対象を選択したクリックボックスを提供し、ユーザは、クリックボックスを選択することによってターゲット対象を選択する。電子機器は、ユーザが選択したターゲット対象に基づいて翻訳するので、ユーザによる入力を簡略化して、入力効率を向上させることにより、翻訳効率を向上させることができる。
【0039】
本願の一実施例において、上記画像内の上記ターゲット対象の位置にクリックボックスを表示することは、上記画像内の上記ターゲット対象の位置に所定の透明度のマスクレイヤーを表示することと、上記マスクレイヤーにクリックボックスを表示することと、を含む。
【0040】
さらに、表示効果を向上させるために、ターゲット対象の位置を決定した後、画像内のターゲット対象の位置に、ターゲット対象の上層を被覆する、一定の透明効果を有するマスクレイヤーとして理解される所定の透明度のマスクレイヤーを表示する。所定の透明度のマスクレイヤーによって、ユーザは、依然としてマスクレイヤーを介してマスクレイヤーの下層のターゲット対象を判別でき、所定の透明度は、実際の状況に応じて設定できるが、ここでは限定されない。1つのターゲット対象の上層に1つのマスクレイヤーが表示され、ターゲット対象のクリックボックスがマスクレイヤーに表示され、クリックボックスに含まれる領域の面積は、対応するマスクレイヤーの被覆面積よりわずかに小さくてもよい。ユーザがクリックボックスを選択すると、選択されたときに、対応する紫色又は青色等の色をクリックボックスに含まれる領域に表示して、該ターゲット対象のクリックボックスが選択されたことをユーザに提示する。
【0041】
本実施例では、より高い表示効果を達成するため、画像内のターゲット対象の位置に所定の透明度のマスクレイヤーを表示して、マスクレイヤーにクリックボックスを表示する。これにより、ユーザは、クリックボックスを選択することで翻訳を必要とするターゲット対象を選択することができる。ユーザは、翻訳する文字又は単語を手動で入力する必要がなくなるので、ユーザによる入力を簡略化し、入力効率を向上させ、最終的に翻訳効率を向上させることができる。
【0042】
本願の一実施例では、上記翻訳対象を翻訳することは、上記翻訳対象を翻訳して、翻訳結果を取得することと、上記テキストにおける上記翻訳対象の文脈を取得して、データベースから複数のナレッジポイント情報を抽出することと、ユーザの履歴照会データに基づいて、上記複数のナレッジポイント情報の優先度を決定することと、上記複数のナレッジポイント情報を優先度に応じて順序付け、上位に順序付けられた、正の整数であるN個のナレッジポイント情報を取得することと、上記翻訳結果及び上記N個のナレッジポイント情報を表示することと、を含む。
【0043】
本実施例では、翻訳対象を翻訳して、翻訳結果を取得するだけでなく、テキストでの翻訳対象の文脈に合わせて、既存のデータベースから、関連する故実、ターゲット対象に関連する固定フレーズの組み合わせ、ターゲット対象の類義語又は反義語、常用フレーズ、時制等のターゲット対象に関連する情報である複数のナレッジポイント情報を抽出して、ユーザが学習又は理解するための追加のナレッジポイントをユーザに提供する。
【0044】
ナレッジポイント情報を取得した後に、ユーザの履歴照会データに基づいて、ナレッジポイント情報の優先度を決定する。例えば、あるナレッジポイント情報に対して、ユーザの履歴照会回数が多ければ、該ナレッジポイント情報の優先度が高く、或いは、話し言葉に多く使用された知識点情報は、優先度が高い。
【0045】
上記複数のナレッジポイント情報を優先度に応じて順序付け、上位に順序付けられた、正の整数であるN個のナレッジポイント情報を取得する。例えば、表示する際に、優先度に応じて大きい順に順序付けてN個のナレッジポイント情報を順次表示する。このように、優先度の高いナレッジポイント情報がより前方の位置に表示されるので、ユーザは、必要な情報を、高い確率で、できるだけ早く取得し、ユーザによる情報検索のコストを低減することができる。
【0046】
本願の一実施例では、上記画像内の上記テキストを分割して、複数のターゲット対象を取得することは、認識モデルを用いて上記画像を認識して、第2の認識結果を取得することと、上記第2の認識結果に基づいて上記画像が学習シーンでの画像であると決定すれば、上記画像内の上記テキストを分割して、上記複数のターゲット対象を取得することと、を含む。
【0047】
本実施例では、まず、画像を認識し、学習シーンの画像であるか否かを判断する。学習シーンの画像であれば、画像内のテキストを分割して、複数のターゲット対象を取得する。
【0048】
汎用の翻訳シーンでは、使用するシーンが多く複雑であり、商品に対する翻訳、教科書の練習問題に対する翻訳、電子スクリーンに対する翻訳、エラーページに対する翻訳等を含んでいる。異なるシーンでは、ユーザの要求が大きく異なり、学習タイプのシーンでは、ユーザの構造文法等の知識に対する要求が高くなる一方、他の汎用タイプのシーンでは、ユーザの単語、フレーズ、文に対する要求が高くなく、テキストを分割する必要がないため、本実施例では、まず、文字シーン分類モデルで学習タイプの翻訳シーンを選別する。即ち、画像に対してシーン認識を行う際に、認識モデル(即ち、文字シーン分類モデル)を用いて認識することができる。認識モデルの取得過程は、以下を含む。
【0049】
まず、印刷テキストタイプの練習問題を含む画像又は文章と絵がカラーである教科書を含む画像を含む学習シーンと非学習シーンでの画像を取得し、各画像を人工的にマーキングして、トレーニングセットを構成する。
【0050】
次に、上記トレーニングセットを使用して分類器をトレーニングして、各タイプの画像の特徴を学習する。
【0051】
最後に、分類器のトレーニングが完了すると、分類器は、入力画像の分類を予測し、該分類器の効果を検証するために、識別器の予測結果と該入力画像の実際のラベルとをさらに比較して、分類器のパラメータを調整し、分類器のパラメータを最適化し、分類器の予測精度を向上させる。認識モデルは、トレーニングが完了した分類器として理解することができる。
【0052】
分類器に基づいて、画像を認識して、画像が学習シーンでの画像であるか否かを決定する。
【0053】
本実施例では、画像内のテキストを分割する前に、まず、画像の学習シーンを判断し、画像が学習シーンである場合には、画像内のテキストを分割する。これにより、シーンのニーズにより応じて分割するので、不要な分割を低減することができる。
【0054】
以下では、英語翻訳を例として、上記翻訳方法を例示的に説明する。
【0055】
ステップ1では、翻訳シーンの認識を学習する。
【0056】
汎用の翻訳シーンでは、ユーザの使用シーンが多く複雑であり、例えば、商品に対する翻訳、教科書の練習問題に対する翻訳、電子スクリーンに対する翻訳、エラーページに対する翻訳等を含む。異なるシーンでは、ユーザの要求が大きく異なり、学習タイプ(英語のテキスト/練習問題)のシーンでは、ユーザの構造及び英文法等の知識に対する要求が高く、他の汎用タイプのシーンでは、ユーザの単語、フレーズ、文に対する要求が高くない。このため、文字シーン分類モデルで学習タイプの翻訳シーンを選別することができる。
【0057】
まず、印刷テキストタイプの練習問題を含む画像又は文章と絵がカラーである教科書を含む画像を含む学習シーンと非学習シーンでの画像を取得し、各画像を人工的にマーキングして、トレーニングセットを構成する。
【0058】
次に、上記トレーニングセットを使用して分類器をトレーニングし、各タイプの画像の特徴を学習する。
【0059】
最後に、分類器のトレーニングが完了すると、分類器は、入力画像の分類を予測する。そして、該分類器の効果を検証するために、識別器の予測結果と該入力画像の実際のラベルとをさらに比較して、分類器のパラメータを調整し、分類器のパラメータを最適化し、分類器の予測精度を向上させる。認識モデルは、トレーニングが完了した分類器として理解される。
【0060】
分類器に基づいて、画像を認識し、画像が学習シーンでの画像であるか否かを決定することができる。
【0061】
ステップ2では、OCR(Optical Character Recognition、光学文字認識)による単語分割及び認識を行う。
【0062】
英語学習シーンでは、英単語は粒度が最も小さい有効セマンティックセグメントである。ユーザの複数の粒度の翻訳に対する要求を満たすため、OCR文字検出及び分割技術に基づいて、画像内のテキストコンテンツを認識して分割する。
【0063】
深層学習技術に基づいて、まず、画像前処理の方式によって画像内のテキスト情報を強化し、元の画像に存在する歪み、ぼけ、不鮮明な光、複雑な背景等の問題を解決する。次に、文字検出技術によって画像内のテキスト領域の位置を特定し、水平方向に分割して、1行ずつ文字領域を取得する。
図2aに示すように、図において文字の外側に描かれたボックスは、水平方向に分割した後に取得されたテキスト領域である。文字検出が完了すると、英単語間がスペースで区切られるという特徴に基づいて、
図2bに示すように、英単語を垂直方向に分割して、対応する単語が存在する領域の位置座標を取得する。
図2bにおいて文字の外側に描かれたボックスは、垂直方向に分割した後に取得された単語の位置領域である。
図2cに示すように、分割後の単語にマスク層(即ち、マスクレイヤー)及びクリックボックスを表示する。
図2cにおけるマスク層の透明度は0.5であり、図において単語の外側に位置するボックスは、クリックボックスである。クリックボックスによって、ユーザが選択操作を行うことで、翻訳したいテキストコンテンツを容易に選択することができる。
【0064】
最後に、文字認識を行い、画像内の具体的なテキストコンテンツを認識するとともに、テキスト及びレイアウト情報を取得し、具体的なテキストコンテンツを取得する。これにより、後続のユーザは、対応するクリックボックスをクリックすると、対応するテキストコンテンツを取得することができる。
【0065】
ステップ3では、翻訳を必要とするコンテンツをクリックする。
【0066】
クリックによって単一の単語の検索のみをサポートするという従来の対話操作と比較し、本機能は、連続しない複数を選択するというクリック方式によって、翻訳したい単語、フレーズ、文、段落又は文章の選択をサポートする。具体的な実施形態として、ステップ2では、単語の粒度に応じて単語を分割するため、実際のクリック過程において、単一のクリックボックスは1つの単語に対応し、ユーザのクリック操作を検出すると、複数のクリックボックスに対応する単語をスペースで区切ることにより、新たなフレーズ、文又は段落を構成する。
【0067】
ユーザがクリック操作を完了した後に、1s以内にユーザのクリック操作を検出しない場合には、ユーザがコンテンツの選択を完了したと見なして、次のステップの翻訳に自動的に進み、対応する構造化学習情報を取得する。
【0068】
コンテンツを選択する過程において、選択用ジェスチャは、先頭の単語を長押しし、速くフリックして連続するテキストコンテンツを選択するショートカットジェスチャをサポートする。これにより、長いテキストの翻訳を要求する際の、ユーザが連続してクリックする操作コストを低減する。
図2dに示すように、選択された単語は、テキスト内で連続せず、選択された単語で表示する色は、選択されていない単語で表示する色と異なっていてもよい。又は、選択された単語の位置でのマスクレイヤーの透明度は、選択されていない単語の位置でのマスクレイヤーの透明度と異なることにより、選択された単語をユーザに提示する。
図2dにおいて、選択された単語の位置でのマスクレイヤーは、「hair」と「long」でのマスクレイヤーのように、完全に透明であり、
図2eに示すように、選択された単語はテキスト内で連続しする。例えば、選択された「My」、「hair」、「was」、「long」、「then」は、テキスト内の同じ文での単語である。
【0069】
ステップ4では、文字を翻訳する。
【0070】
文字認識結果を取得した後に、インターネットニューラルネットワーク翻訳システムに基づいて、外国語コンテンツから中国語への翻訳を実現する。ユーザが外国語コンテンツの具体的な中国語解釈を取得するので、外国語をより良く把握するのに役立つ。
【0071】
ステップ5では、構造化英語の学習情報を表示する。
【0072】
学習シーンでの要求については、高校及び大学の入学試験の大綱の要件に基づいて、基本的な翻訳結果に加えて、試験の要点に基づいてユーザに重要な語彙、フレーズ及び文法パターンを提供し、また、これまでの高校及び大学の入学試験での対応するコンテンツの出現頻度を提供するので、学生たちが試験の要点をより速く明確に理解し、構造化英語の学習情報を取得するのに役立つ。
【0073】
構造化学習情報を表示する過程は、主に、ユーザが撮影した画像からナレッジポイントコンテンツを抽出するステップ1と、抽出されたナレッジポイントに基づいて、データベースから対応する学習データを引き出すステップ2と、ナレッジポイントコンテンツをグレーディングし、フロントエンドに表示するステップ3と、を含む。
【0074】
ナレッジポイント抽出では、インテリジェントな意味解析技術によって、文字内の試験の要点を分析して認識する。
【0075】
学習データの引き出しにおいては、試験の大綱に対する研究に基づいて、高校及び大学の入学試験の要点及び対応する情報を人工的に充実させている。例えば、単語に対して、対応する時制、常用フレーズ、固定された組み合わせ、使用する文法等の情報を充実させて、試験の要点をカバーしている。
【0076】
情報表示において、対応するデータを引き出すと、該テキストに対するユーザの集団の履歴要求分布に基づいて、結果ページのコンテンツの優先度を動的に調整する。即ち、comeという単語を例とすると、履歴検索行為では、ユーザは、主にこの単語の固定された組み合わせフレーズ情報を照会するので、翻訳結果の表示順序では、この単語の固定された組み合わせフレーズ情報は、上位に順序付けられる。このため、ユーザによる情報照会コストを低減することができる。
【0077】
本願に係る翻訳方法は、以下の有益な効果を有する。入力効率が高く、1つの単語を1秒で認識でき、フレーズ、文、段落の検索速度がテキスト入力の5倍であるので、学習効率を大幅に向上させ、入力閾値がなく、写真を撮影するだけで単語の自動的な分割を実現することができる。また、クリックした後にコンテンツを自動的に認識して翻訳するので、テキストコンテンツを知らないために、入力できないという問題を視覚的理解技術によって完全に解決することができる。また、翻訳粒度が多次元であり、現在の画像翻訳モードにおける全画面翻訳、単語抽出/単語分割翻訳モードによってフレーズ、文、段落を粒度とするコンテンツを翻訳できないという問題を解決することができ、ユーザの学習シーンでの多様な翻訳要求を容易に満たすことができ、学生の学習要求により合致することができる。同時に、フレーズ、文又は段落に基づいて、差別化された構造化学習情報をユーザに提供することができ、試験のコンテンツの要点を効率的に取得して、学習効率を向上させることができる。
【0078】
図3を参照すると、
図3は、本願の実施例に係る音声調整装置の構成図が示されている。
図3に示すように、本実施例に係る翻訳装置300は、翻訳されるテキストを含む画像を取得する取得モジュール301と、上記画像内の上記テキストを分割して、上記テキストの文字又は単語を含む複数のターゲット対象を取得する分割モジュール302と、上記複数のターゲット対象に対する入力操作を受信して、上記複数のターゲット対象のうちの翻訳対象を取得する受信モジュール303と、上記翻訳対象を翻訳する翻訳モジュール304と、を含んでいる。
【0079】
本願の一実施例では、上記入力操作は、上記複数のターゲット対象のうちの1つのターゲット対象又は位置が連続しない複数のターゲット対象に対する第1の入力であり、或いは上記複数のターゲット対象のうちの位置が連続する複数のターゲット対象に対する第2の入力である。
【0080】
本願の一実施例では、上記分割モジュール302は、上記画像に対してコンテンツ認識を行って、第1の認識結果を取得する第1の認識サブモジュールと、上記第1の認識結果における文字を分割して、上記複数のターゲット対象を取得する第1の分割サブモジュールと、上記画像内の、クリックボックスをさらに含む上記ターゲット対象の位置にクリックボックスを表示する第1の表示サブモジュールと、を含む。上記受信モジュール303は、上記複数のターゲット対象のクリックボックスに対する入力操作を受信して、上記複数のターゲット対象のうちの、上記クリックボックスに対応する文字又は単語である翻訳対象を取得する。
【0081】
本願の一実施例では、上記第1の表示サブモジュールは、上記画像内の上記ターゲット対象の位置に所定の透明度のマスクレイヤーを表示する第1の表示ユニットと、上記マスクレイヤーにクリックボックスを表示する第2の表示ユニットと、を含む。
【0082】
本願の一実施例では、上記翻訳モジュール304は、上記翻訳対象を翻訳して、翻訳結果を取得する翻訳サブモジュールと、上記テキストにおける上記翻訳対象の文脈を取得して、データベースから複数のナレッジポイント情報を抽出する第1の取得サブモジュールと、ユーザの履歴照会データに基づいて、上記複数のナレッジポイント情報の優先度を決定する決定サブモジュールと、上記複数のナレッジポイント情報を優先度に応じて順序付け、上位に順序付けられた、正の整数であるN個のナレッジポイント情報を取得する順序付けサブモジュールと、上記翻訳結果及び上記N個のナレッジポイント情報を表示する第2の表示サブモジュールと、を含む。
【0083】
本願の一実施例では、上記分割モジュール302は、認識モデルを用いて上記画像を認識して、第2の認識結果を取得する第2の認識サブモジュールと、上記第2の認識結果に基づいて上記画像が学習シーンでの画像であると決定すれば、上記画像内の上記テキストを分割して、上記複数のターゲット対象を取得する第2の分割サブモジュールと、を含む。
【0084】
翻訳装置300は、
図1に示す方法の実施例における電子機器によって実現される各過程を実現することができ、重複を避けるために、ここでは説明を繰り返さない。
【0085】
本願の実施例に係る翻訳装置300は、翻訳されるテキストを含む画像を取得し、上記画像内の上記テキストを分割して、上記テキストの文字又は単語を含む複数のターゲット対象を取得し、上記複数のターゲット対象に対する入力操作を受信して、上記複数のターゲット対象のうちの翻訳対象を取得し、上記翻訳対象を翻訳することにより、テキストへの翻訳を実現でき、上記方法では、翻訳されるテキストを含む画像のみを取得する必要があり、ユーザが翻訳されるテキストを手動で入力する必要がないため、ユーザの操作を簡略化し、翻訳効率を向上させることができる。
【0086】
本願の実施例によれば、本願は、電子機器及び可読記憶媒体をさらに提供する。
【0087】
図4に示すように、本願の実施例に係る翻訳方法の電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ及び他の適切なコンピュータ等の様々な形態のデジタルコンピュータを表すことを意図する。電子機器は、パーソナルデジタルアシスタント、携帯電話、スマートフォン、ウェアラブル機器及びその他の類似のコンピューティング装置等の様々な形態のモバイル装置をさらに表すことができる。本明細書で示されたコンポーネント、それらの接続及び関係、並びにそれらの機能は、単なる例に過ぎず、本明細書で説明及び/又は要求された本願の実現を限定していることを意図しない。
【0088】
図4に示すように、該電子機器は、1つ以上のプロセッサ501と、メモリ502と、高速インタフェース及び低速インタフェースを含む、各コンポーネントを接続するインタフェースと、を含む。各コンポーネントは、異なるバスを介して互いに接続され、かつ共通のマザーボードに取り付けられるか又は必要に応じて他の方式で取り付けられてよい。プロセッサは、電子機器内で実行された、外部入力/出力装置(例えば、インタフェースに結合された表示機器)上にGUIのグラフィック情報を表示するようにメモリ内又はメモリ上に記憶される命令を含む命令を処理することができる。他の実施形態では、必要があれば、複数のプロセッサ及び/又は複数のバスを複数のメモリとともに使用することができる。同様に、複数の電子機器を接続してよく、各機器は、(例えば、サーバアレイ、1組のブレードサーバ又はマルチプロセッサシステムとする)一部の必要な操作を提供する。
図4において、1つのプロセッサ501を例とする。
【0089】
メモリ502は、本願に係る非一時的なコンピュータ可読記憶媒体である。上記メモリには、少なくとも1つのプロセッサによって実行可能で、本願に係る翻訳方法を上記少なくとも1つのプロセッサに実行させる命令が記憶されている。本願に係る非一時的なコンピュータ可読記憶媒体は、本願に係る翻訳方法をコンピュータに実行させるコンピュータ命令を記憶する。
【0090】
メモリ502は、非一時的なコンピュータ可読記憶媒体として、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュール、例えば、本願の実施例における翻訳方法に対応するプログラム命令/モジュール(例えば、
図3に示される取得モジュール301、分割モジュール302、受信モジュール303及び翻訳モジュール304)を記憶することができる。プロセッサ501は、メモリ502内に記憶された非一時的なソフトウェアプログラム、命令及びモジュールを実行することにより、サーバの様々な機能アプリケーション及びデータ処理を実行し、即ち、上記方法の実施例における翻訳方法を実現する。
【0091】
メモリ502は、オペレーティングシステム及び少なくとも1つの機能に必要なアプリケーションプログラムを記憶できるプログラム記憶領域と、翻訳のための電子機器の使用に応じて作成されたデータ等を記憶することができるデータ記憶領域とを含んでよい。また、メモリ502は、高速ランダムアクセスメモリを含んでもよく、少なくとも1つの磁気ディスクメモリ素子、フラッシュメモリ素子等の非一時的なメモリ又は他の非一時的な固体メモリ素子を含んでもよい。いくつかの実施例では、メモリ502は、好ましくは、プロセッサ501に対して遠隔に設置されたメモリを含み、これらの遠隔メモリは、ネットワークにより翻訳のための電子機器に接続することができる。上記ネットワークの例は、インターネット、企業イントラネット、ローカルエリアネットワーク、移動通信ネットワーク及びそれらの組み合わせを含むが、これらに限定されない。
【0092】
翻訳方法のための電子機器は、入力装置503及び出力装置504をさらに含んでよい。プロセッサ501、メモリ502、入力装置503及び出力装置504は、バス又は他の方式で接続されてよく、
図4において、バスによる接続を例とする。
【0093】
入力装置503は、入力された数字又は文字情報を受信したり、翻訳のための電子機器のユーザ設定及び機能制御に関連するキー信号の入力を生成したりすることができ、入力装置としては、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、1つ以上のマウスボタン、トラックボール、ジョイスティック等の入力装置がある。出力装置504は、表示機器、補助照明装置(例えば、LED)及び触覚フィードバック装置(例えば、振動モータ)等を含んでよい。該表示機器は、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ及びプラズマディスプレイ等を含んでよいが、これらに限定されない。いくつかの実施形態では、表示機器は、タッチスクリーンであってよい。
【0094】
本明細書に説明されたシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実現することができる。これらの様々な実施形態は、1つ以上のコンピュータプログラムにおける実施を含んでよく、該1つ以上のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行可能及び/又は解釈されてよく、該プログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであってよく、記憶システム、少なくとも1つの入力装置及び少なくとも1つの出力装置からデータ及び命令を受信し、かつデータ及び命令を該記憶システム、該少なくとも1つの入力装置及び該少なくとも1つの出力装置に伝送することができる。
【0095】
これらのコンピューティングプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション又はコードとも呼ばれる)は、プログラマブルプロセッサの機械命令を含み、かつ高レベルなプロセス及び/又はオブジェクト指向のプログラミング言語、及び/又はアセンブリ/機械言語により実施することができる。本明細書で使用されるように、「機械可読媒体」及び「コンピュータ可読媒体」という用語は、機械命令を機械可読信号として受信する機械可読媒体を含む、機械命令及び/又はデータをプログラマブルプロセッサに提供する任意のコンピュータプログラム製品、機器及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジック装置(PLD))を指す。「機械可読信号」という用語は、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。
【0096】
ユーザとの対話を提供するために、コンピュータ上で本明細書に説明されたシステム及び技術を実施することができ、該コンピュータは、ユーザに情報を表示する表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティング装置(例えば、マウス又はトラックボール)とを有し、ユーザは、該キーボードと該ポインティング装置により、入力をコンピュータに提供することができる。他のタイプの装置は、ユーザとの対話をさらに提供することができ、例えば、ユーザに対して提供されるフィードバックは、任意の形式の感覚フィードバック(例えば、視覚フィードバック、聴覚フィードバック又は触覚フィードバック)であってよく、また、任意の形式(音響入力、音声入力又は触覚入力を含む)でユーザからの入力を受信することができる。
【0097】
本明細書に説明されたシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバとする)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、ユーザが本明細書に説明されたシステム及び技術の実施形態と対話できるグラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ)、又はこのようなバックエンドコンポーネント、ミドルウェアコンポーネント又はフロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムにおいて実施することができる。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によりシステムのコンポーネントを互いに接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、及びインターネットを含む。
【0098】
コンピュータシステムは、クライアントとサーバを含んでもよい。クライアントとサーバは、一般的に、互いに離れ、かつ通常、通信ネットワークを介して対話する。クライアントとサーバの関係は、対応するコンピュータ上で実行し、かつ互いにクライアント-サーバ関係を有するコンピュータプログラムによって生成される。
【0099】
本願の実施例に係る技術手段によれば、翻訳されるテキストを含む画像を取得し、上記画像内の上記テキストを分割して、上記テキストの文字又は単語を含む複数のターゲット対象を取得し、上記複数のターゲット対象に対する入力操作を受信して、上記複数のターゲット対象のうちの翻訳対象を取得し、上記翻訳対象を翻訳することにより、テキストへの翻訳を実現できる。上記方法では、翻訳されるテキストを含む画像のみを取得するだけでよく、ユーザが手動で翻訳されるテキストを入力する必要がないため、ユーザの操作を簡略化し、翻訳効率を向上させることができる。また、上記方法は、ユーザが翻訳されるテキストを知らない場合にも適用できるので、ユーザが新たな知識を自律的に学習し、新たな物事を理解するのに役立つ。
【0100】
上記入力操作は、上記複数のターゲット対象のうちの1つのターゲット対象又は位置が連続しない複数のターゲット対象に対する第1の入力であり、或いは上記複数のターゲット対象のうちの位置が連続する複数のターゲット対象に対する第2の入力である。ユーザは、実際のニーズに応じてテキスト内の複数のターゲット対象の一部又は全てを選択するので、ユーザの入力操作を簡略化して、入力効率を向上させることができる。同時に、入力操作によってテキスト内の位置が連続しない複数のターゲット対象又は位置が連続する複数のターゲット対象を選択するので、後続の翻訳ステップではテキスト内の位置が連続しない複数のターゲット対象又は位置が連続する複数のターゲット対象を翻訳する。このため、テキスト内のコンテンツへの選択的翻訳の柔軟性を向上させることができる。
【0101】
上記画像に対してコンテンツ認識を行って、第1の認識結果を取得し、上記第1の認識結果における文字を分割して、複数のターゲット対象を取得し、上記画像内の上記ターゲット対象の位置にクリックボックスを表示し、上記複数のターゲット対象のクリックボックスに対する入力操作を受信して、上記複数のターゲット対象のうちの、上記クリックボックスに対応する文字又は単語である翻訳対象を取得する。ユーザにターゲット対象を選択するためのクリックボックスを提供するので、ユーザは、クリックボックスを選択することでターゲット対象を選択する。電子機器は、ユーザが選択したターゲット対象に基づいて翻訳するので、ユーザによる入力を簡略化し、入力効率を向上させることができ、翻訳効率を向上させることができる。
【0102】
より高い表示効果を達成するために、画像内のターゲット対象の位置に所定の透明度のマスクレイヤーを表示して、マスクレイヤーにクリックボックスを表示することとしてもよい。ユーザは、クリックボックスを選択することで翻訳を必要とするターゲット対象を選択することができる。ユーザは、翻訳する文字又は単語を手動で入力する必要がなくなるので、ユーザによる入力を簡略化し、入力効率を向上させ、最終的に翻訳効率を向上させることができる。
【0103】
上記複数のナレッジポイント情報を優先度に応じて順序付け、上位に順序付けられた、正の整数であるN個のナレッジポイント情報を取得する。例えば、表示する際に、優先度に応じて大きい順に順序付けてN個のナレッジポイント情報を順次表示する。このように、優先度の高いナレッジポイント情報がより前方の位置に表示されるので、ユーザは、必要な情報を、高い確率で、できるだけ早く取得することができ、ユーザによる情報検索のコストを低減することができる。
【0104】
画像内のテキストを分割する前に、まず、画像の学習シーンを判断し、画像が学習シーンである場合には、画像内のテキストを分割する。シーンのニーズに応じて分割するので、不要な分割を低減することができる。
【0105】
上記様々な形態のフローを用いて、ステップを改めて順序付けたり、追加したり、削除したりすることができることを理解されたい。例えば、本願で開示された技術手段の所望の結果を実現する限り、本願に記載された各ステップは、並列的に実行されてもよく、順次実行されてもよく、異なる順序で実行されてもよく、本明細書は限定しない。
【0106】
上記具体的な実施例は、本願の保護範囲を限定するものではない。当業者に理解できるように、設計要求及びその他の要因に応じて、様々な修正、組み合わせ、サブ組み合わせ及び置換を行うことができる。本願の精神と原則内に行われるいかなる修正、同等置換及び改善等は、いずれも本発明の保護範囲内に含まれるべきである。