特許6893606 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 達闥机器人有限公司の特許一覧

特許6893606画像のタグ付け方法、装置及び電子機器

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6893606

(24)【登録日】2021年6月4日

(45)【発行日】2021年6月23日

(54)【発明の名称】画像のタグ付け方法、装置及び電子機器

(51)【国際特許分類】

G06T 7/00 20170101AFI20210614BHJP

【ＦＩ】

G06T7/00 U

G06T7/00 250

【請求項の数】13

【全頁数】18

(21)【出願番号】特願2019-547989(P2019-547989)

(86)(22)【出願日】2017年3月20日

(65)【公表番号】特表2020-509504(P2020-509504A)

(43)【公表日】2020年3月26日

(86)【国際出願番号】CN2017077253

(87)【国際公開番号】WO2018170663

(87)【国際公開日】20180927

【審査請求日】2019年8月29日

(73)【特許権者】

【識別番号】521102638

【氏名又は名称】達闥机器人有限公司

(74)【代理人】

【識別番号】110001139

【氏名又は名称】ＳＫ特許業務法人

(74)【代理人】

【識別番号】100130328

【弁理士】

【氏名又は名称】奥野彰彦

(74)【代理人】

【識別番号】100130672

【弁理士】

【氏名又は名称】伊藤寛之

(72)【発明者】

【氏名】廉士国

(72)【発明者】

【氏名】劉兆祥

(72)【発明者】

【氏名】王寧

(72)【発明者】

【氏名】南一冰

【審査官】鈴木隆夫

(56)【参考文献】

【文献】特開２００３−０６９９２５（ＪＰ，Ａ）

【文献】特開２００４−０８６１２４（ＪＰ，Ａ）

【文献】特開２００７−０７９４１６（ＪＰ，Ａ）

【文献】特開２００７−０２５６４８（ＪＰ，Ａ）

【文献】特開２００５−２７６１８７（ＪＰ，Ａ）

【文献】特開２００５−０６５１９１（ＪＰ，Ａ）

【文献】特開２０１３−０５４４１７（ＪＰ，Ａ）

【文献】特開２００９−２７２８１６（ＪＰ，Ａ）

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ０６Ｔ７／００

(57)【特許請求の範囲】

【請求項1】

画像のタグ付け方法であって、
端末にて収集された画像を取得するステップと、
前記画像に関連する音声情報を取得するステップと、
前記音声情報に基づいて前記画像にタグを付け、そして前記画像のタグ付けの結果を記憶するステップとを含み、
前記画像には様々なタグ付け対象物が含まれ、前記画像に関連する音声情報を取得する前記ステップの前に、前記方法は、さらに、
領域抽出アルゴリズムを用いて前記画像中のタグ付け対象物の領域情報を抽出するステップと、
前記領域情報に基づいて前記画像中のタグ付け対象物に対してサブ領域分割を行うステップと、
前記サブ領域分割の結果又はサブ領域分割後の画像を送信するステップとを含み、
前記画像に関連する音声情報を取得するステップは、前記画像中のサブ領域に関連する音声情報を取得するステップを含む、ことを特徴とする画像のタグ付け方法。

【請求項2】

前記サブ領域分割の結果又はサブ領域分割後の画像を送信するステップの後、前記方法は、さらに、
端末にて前記サブ領域分割の結果又はサブ領域分割後の画像に対して調整操作を行った後の画像を取得するステップを含み、
前記音声情報に基づいて前記画像にタグを付けることは、具体的には、前記音声情報に基づいて前記調整操作を行った後の画像にタグを付けることを含む、ことを特徴とする請求項１に記載の方法。

【請求項3】

前記音声情報に基づいて前記画像にタグを付け、そして前記画像のタグ付けの結果を記憶するステップは、
音声認識に基づいて前記音声情報中の前記サブ領域に対応するキーワードを抽出することと、
前記キーワードと前記サブ領域とのマッピング関係テーブルを構築し、そして前記マッピング関係テーブルに基づいて前記サブ領域にタグを付け、タグ付けの結果を記憶することとを含む、ことを特徴とする請求項１又は２に記載の方法。

【請求項4】

前記画像に関連する音声情報を取得する前に、前記方法は、さらに、
画像認識により前記画像に自動的にタグを付けるステップと、
前記画像に自動的にタグを付けた後、自動タグ付けの結果を端末にて表示するステップとを含み、
前記音声情報に基づいて前記画像にタグを付けるステップは、
前記音声情報が自動タグ付けの結果が正しいと指示する場合、自動タグ付けの結果を記憶し、及び／又は、前記音声情報が自動タグ付けの結果が正しくないと指示する場合、音声情報に基づいて前記画像にタグを付けるステップを含む、ことを特徴とする請求項１に記載の方法。

【請求項5】

前記画像に関連する音声情報を取得する前に、前記方法は、さらに、
画像認識により前記画像に自動的にタグを付けるステップを含み、
前記音声情報に基づいて前記画像にタグを付けるステップは、
前記自動タグ付けが失敗した時、前記音声情報に基づいて前記画像にタグを付けるステップを含む、ことを特徴とする請求項１に記載の方法。

【請求項6】

画像のタグ付け装置であって、
端末にて収集された画像を取得するための第１の取得モジュールと、
前記画像に関連する音声情報を取得するための第２の取得モジュールと、
前記音声情報に基づいて前記画像にタグを付け、そして前記画像のタグ付けの結果を記憶するための第１のタグ付けモジュールとを含み、
前記画像には様々なタグ付け対象物が含まれ、前記装置は、さらに、
領域抽出アルゴリズムを用いて前記画像中のタグ付け対象物の領域情報を抽出するための第１の抽出モジュールと、
前記領域情報に基づいて前記画像中のタグ付け対象物に対してサブ領域分割を行うための第１の分割モジュールと、
前記サブ領域分割の結果又はサブ領域分割後の画像を送信するための第１の送信モジュールとを含み、
前記第２の取得モジュールは、具体的には、前記画像中のサブ領域に関連する音声情報を取得するために用いられる、ことを特徴とする画像のタグ付け装置。

【請求項7】

前記装置は、さらに、
端末にて前記サブ領域分割の結果又はサブ領域分割後の画像に対して調整操作を行った後の画像を取得するための第３の取得モジュールを含み、
前記第１のタグ付けモジュールは、具体的には、前記音声情報に基づいて前記調整操作を行った後の画像にタグを付け、そして前記画像のタグ付けの結果を記憶するために用いられる、ことを特徴とする請求項６に記載の装置。

【請求項8】

前記第１のタグ付けモジュールは、
音声認識に基づいて前記音声情報中の前記サブ領域に対応するキーワードを抽出するための抽出ユニットと、
前記キーワードと前記サブ領域とのマッピング関係テーブルを構築し、そして前記マッピング関係テーブルに基づいて前記サブ領域にタグを付け、タグ付けの結果を記憶するためのタグ付けユニットとを含む、ことを特徴とする請求項６又は７に記載の装置。

【請求項9】

前記装置は、さらに、
画像認識により前記画像に自動的にタグを付けるための第２のタグ付けモジュールと、
前記画像に自動的にタグを付けた後、自動タグ付けの結果を端末にて表示するための表示モジュールとを含み、
前記第１のタグ付けモジュールは、具体的には、前記音声情報が自動タグ付けの結果が正しいと指示する場合、自動タグ付けの結果を記憶し、及び／又は、前記音声情報が自動タグ付けの結果が正しくないと指示する場合、音声情報に基づいて前記画像にタグを付けるために用いられる、ことを特徴とする請求項６に記載の装置。

【請求項10】

前記装置は、さらに、
画像認識により前記画像に自動的にタグを付けるための第３のタグ付けモジュールを含み、
前記第１のタグ付けモジュールは、具体的には、前記自動タグ付けが失敗した時、前記音声情報に基づいて前記画像にタグを付けるために用いられる、ことを特徴とする請求項６に記載の装置。

【請求項11】

電子機器であって、少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信可能に接続されるメモリとを含み、ここで、
前記メモリには前記少なくとも１つのプロセッサにより実行できる命令プログラムが記憶され、前記少なくとも１つのプロセッサによる前記命令プログラムの実行により、前記少なくとも１つのプロセッサに請求項１から請求項５のいずれか一項に記載の方法を実行させる、ことを特徴とする電子機器。

【請求項12】

コンピュータプログラム製品であって、不揮発性コンピュータ可読記憶媒体と、前記不揮発性コンピュータ可読記憶媒体に組み込まれた、請求項１から請求項５のいずれか一項に記載の方法をプロセッサに実行させる命令を含むコンピュータプログラム命令とを含む、ことを特徴とするコンピュータプログラム製品。

【請求項13】

不揮発性コンピュータ可読記憶媒体であって、請求項１から請求項５のいずれか一項に記載の方法をコンピュータに実行させるためのコンピュータが実行可能な命令が記憶されている、ことを特徴とする不揮発性コンピュータ可読記憶媒体。

【発明の詳細な説明】

【技術分野】

【0001】

本願は、画像管理及び画像認識の技術分野に関し、特に画像のタグ付け方法、装置及び電子機器に関する。

【背景技術】

【0002】

画像認識プロセスにおいて、重要なステップはデータサンプルにタグを付けることである。例えば、犬を認識するようにスマート認識装置をトレーニングするために、犬の写真及び「犬」というテキストタグなどを含む大量のタグ付け済みの犬のデータサンプルを必要とする。

【0003】

現在、一般的に使用されているデータのタグ付け方法は、マニュアル及びコンピュータ機器により収集された大量の画像及びテキストにタグを付けることである。タグ付け済みのデータサンプルを取得した後、当該タグ付け済みのデータサンプルに基づいて対応する画像認識トレーニングを行うが、このような実施方法は、タグを付ける時間が長く、効率が低く、人件費が高いなどの問題がある。

【0004】

日常生活では、移動状態で（ウェアラブル機器を介してでも）画像サンプル（例えば携帯電話、ＡＲメガネ、盲導ヘルメット、ロボットなどによって）をリアルタイムに収集する必要がある場合もあり、サンプルの収集中にデータにタグを付けることができれば、続いてオフラインでタグを付ける複雑度が低減される。しかしながら、どのように移動状態でリアルタイムにタグを付けるかという問題を解決する必要がある。例えば、モバイル／ウェアラブル機器の場合、テキストタグの入力と画像サブ領域の選択が難しい。既存のタグツールのほとんどは、デスクトップコンピュータ用であり、モバイル／ウェアラブル機器のような状況を考慮しておらず、移動状態でリアルタイムにデータにタグを付けることに適さず、すなわちタグの利便性が不十分である。

【発明の概要】

【発明が解決しようとする課題】

【0005】

本願の実施例は、主に画像にタグを付ける際に効率が低く、利便性が不十分であるという問題を解決するために、画像のタグ付け方法、装置及び電子機器を提供する。

【課題を解決するための手段】

【0006】

上記技術的課題を解決するために、本願の実施例が用いる１つの技術的解決手段は、端末にて収集された画像を取得するステップと、前記画像に関連する音声情報を取得するステップと、前記音声情報に基づいて前記画像にタグを付け、そして前記画像のタグ付けの結果を記憶するステップとを含む、画像のタグ付け方法を提供することである。

【0007】

上記技術的課題を解決するために、本願の実施例が用いる別の技術的解決手段は、端末にて収集された画像を取得するための第１の取得モジュールと、前記画像に関連する音声情報を取得するための第２の取得モジュールと、前記音声情報に基づいて前記画像にタグを付け、そして前記画像のタグ付けの結果を記憶するための第１のタグ付けモジュールとを含む、画像のタグ付け装置を提供することである。

【0008】

上記技術的課題を解決するために、本願の実施例が用いるほかの技術的解決手段は、少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサに通信可能に接続されるメモリとを含み、ここで、前記メモリには前記少なくとも１つのプロセッサにより実行できる命令プログラムが記憶され、前記少なくとも１つのプロセッサに上記方法を実行させるように、前記命令プログラムが前記少なくとも１つのプロセッサに実行される、電子機器を提供することである。

【0009】

上記技術的課題を解決するために、本願の実施例が用いるもう１つの技術的解決手段は、不揮発性コンピュータ可読記憶媒体と、前記不揮発性コンピュータ可読記憶媒体に組み込まれ、上記方法をプロセッサに実行させる命令を含むコンピュータプログラム命令とを含む、コンピュータプログラム製品を提供することである。

【0010】

上記技術的課題を解決するために、本願の実施例が用いる更なる技術的解決手段は、上記方法をコンピュータに実行させるためのコンピュータ実行可能な命令が記憶されている、不揮発性コンピュータ可読記憶媒体を提供する。

【発明の効果】

【0011】

本願の実施例において、取得した音声情報を分析することにより、当該音声情報の分析結果に基づいて取得した画像にタグを付け、本願の実施例の実施形態は、受信した画像にリアルタイムにタグを付けることができ、画像にタグを付ける時間周期を短縮し、それにより画像を認識する時の作業効率を向上させる。

【図面の簡単な説明】

【0012】

１つ又は複数の実施例は、対応する添付図面の写真を参考して例示的に説明し、これらの例示的な説明は実施例を限定するものではなく、添付図面において、類似部品を同じ符号で表示し、特別な説明がない限り、添付図面内の図は比例を限定するものではない。

【図1】本願の実施例に係る画像のタグ付け方法の動作環境を示す模式図である。

【図2】本願の実施例に係る画像のタグ付け方法のフローを示す模式図である。

【図3】本願の別の実施例に係る画像のタグ付け方法のフローを示す模式図である。

【図4】本願のもう１つの実施例に係る画像のタグ付け方法のフローを示す模式図である。

【図5】（ａ）−（ｄ）本願の実施例に係る画像のタグ付け方法の例を示す模式図である。

【図6】本願のまた１つの実施例に係る画像のタグ付け方法のフローを示す模式図である。

【図7】本願のまた別の実施例に係る画像のタグ付け方法のフローを示す模式図である。

【図8】本願の実施例に係る画像のタグ付け装置の構造を示す模式図である。

【図9】本願の別の実施例に係る画像のタグ付け装置の構造を示す模式図である。

【図10】本願のもう１つの実施例に係る画像のタグ付け装置の構造を示す模式図である。

【図11】本願のまた１つの実施例に係る画像のタグ付け装置の構造を示す模式図である。

【図12】本願の実施例に係る電子機器のハードウェアの構造を示す模式図である。

【発明を実施するための形態】

【0013】

本願の目的、技術的解決手段及び長所をより明確にするために、以下では添付図面及び実施例を参考しながら、本願についてさらに詳細に説明する。なお、本明細書に記載された具体的な実施例は本願を説明するものにすぎず、本願を限定するものではないことは理解すべきである。

【0014】

図１は、本願の実施例に係る画像のタグ付け方法の動作環境を示す模式図であり、図１を参照してください。図１に示すように、当該応用環境は、ユーザ１０、端末２０及びクラウド３０を含む。

【0015】

ユーザ１０は、いかなる数量を有する、同じ又は類似する操作行動を有するグループであってもよく、例えばロボットユーザグループ、携帯電話ユーザグループ、ＡＲメガネユーザグループ、及び盲導ヘルメットユーザグループなどがある。ユーザ１０は、単独の個人であってもよい。異なるユーザ１０が有する個人化要求、使用習慣、使用ニーズなどは異なり、したがって各ユーザはそれぞれ自分の特定のユーザデータを有する。

【0016】

端末２０は、一定の論理演算能力を有し、ユーザの意図を満すことができる１つ又は複数の機能を提供する、任意の適切な種類の電子機器であってもよく、それは画像収集、音声収集、音声認識、表示・再生などの機能を備えている。端末２０は、ロボット、スマートフォーン、ＡＲメガネ、スマートヘルメットなどの様々な種類のスマート端末機器を含む。ユーザ１０は、任意の適切な種類の、１つ又は複数のユーザインタラクション機器（例えば、マウス、キーボード、リモコン、タッチパネル、体性感覚カメラ、及び音声収集装置など）を介してスマート端末２０とインタラクションし、命令の入力又はスマート端末２０の制御により１つ又は複数の操作を実行する。

【0017】

クラウド３０は、データ記憶とデータ処理機能を有し、端末２０とデータの受信とデータの送信を含むデータ通信ができる。クラウド３０は、端末２０から送信されたデータを受信し、且つ当該データに対してデータ処理を行い、具体的には、受信した画像データと音声データに基づいて画像にタグを付け、クラウド３０は、さらにデータを記憶することもできる。

【0018】

なお、本願の実施例に係る画像のタグ付け方法は、図１に示される応用環境に限定されず、他の適切な応用環境にさらに広げられる。図１に３つのユーザ、３つの端末、及び１つのクラウドサーバのみを表示したが、当業者であれば、実際の応用プロセスにおいて、当該応用環境が含むユーザ、端末及びクラウドサーバがより多くてもより少なくてもよいことは理解できる。

【0019】

上記動作環境を参照して、以下では、端末２０とクラウド３０に基づいて画像にタグを付ける具体的な実施形態について説明する。

【0020】

図２は、本願の実施例に係る画像のタグ付け方法のフローを示す模式図であり、図２を参照してください。図２に示すように、クラウドに応用される当該方法は、
端末にて収集された画像を取得するステップ１０１と、
前記画像に関連する音声情報を取得するステップ１０２と、
前記音声情報に基づいて前記画像にタグを付け、そして前記画像のタグ付けの結果を記憶するステップ１０３と、を含む。

【0021】

本願の実施例において、端末は、それがおかれている実際のシーンに基づいて、カメラなどの機器を介して予め設定された範囲内のタグすべき物体の画面上の画像をリアルタイムに収集し、画像収集プロセスにおいて、端末は静止状態であっても移動状態であってもよく、タグ付け対象物体の画像を収集した後、端末は当該画像をクラウドに送信し、当該送信された画像は端末にて圧縮処理された画像であってもよく、それにより画像をクラウドにアップロードする速度を速める。

【0022】

端末は、クラウドに画像を送信すると同時に、クラウドに当該画像に関連する音声情報もアップロードし、クラウドが取得した画像に自動的にタグを付けることができない場合、クラウドは当該音声情報に基づいて当該画像にタグを付け、そして画像のタグ付けの結果を記憶することができる。

【0023】

例えば、端末が収集した画像にタグ付け対象物が１つしかない場合、ユーザは音声入力方法で収集された画像が「犬」であると端末に教えることができ、端末がユーザの音声情報を収集し、そして当該音声情報をクラウドに送信し、クラウドは音声認識モジュールで当該音声情報の重要な特徴を抽出してから、当該重要な特徴に基づいて当該画像にタグを付ける。また、ユーザは、テキスト入力方法で収集された画像が「犬」であることを端末に教えることもできる。

【0024】

ここで、当該端末は、携帯電話、ＡＲメガネ、スマートヘルメット、及びロボットなどを含む。当該携帯電話、ＡＲメガネ、スマートヘルメット、及びロボットは、いずれも画像を撮影し、音声を収集することができる。

【0025】

ここで、ユーザは、音声入力１回だけで複数枚の画像にタグを付けることができ、例えば画像のアップロード順に従って音声を順番に入力することにより、音声を画像に対応させる。ユーザは、音声入力１回だけで、異なる画角からの犬のビデオのような１つの連続する画像シーケンスにタグを付けることができる。

【0026】

クラウドが大量のタグ付け画像ファイルを記憶した後、端末が同じタグ付け対象物の画像の画面を再び収集したとき、クラウドで画像画面内の物体をスマート認識することができ、それにより端末側のマニュアルタグ付けプロセスを省く。

【0027】

なお、認識できない物体がある場合、端末は自機の音声モジュールで「これはなんですか？」という音声を発して、傍の又はクラウドバックグランドの従業員に通知し、従業員はローカルで端末に付属のスマート機器を介して画像にタグを付け（例えば音声によるタグ付け又はスクリーンタッチによるタグ付けなど）、又はクラウドでバックグランド制御機器（例えばコンピュータ）を介してタグを付け、そしてタグ付けの結果をクラウドに記憶する。

【0028】

本願の実施例に係る画像のタグ付け方法は、クラウドのスマートツールを用いて取得した音声情報を分析し、そして分析結果に基づいて取得したタグ付け対象物を含む画像にタグを付け、またクラウドに画像のタグ付けの結果を記憶する。当該方法は、取得した画像に対してリアルタイムにインタラクション式タグ付けを行うことができ、画像のタグ付けの効率、利便性を向上させる。

【0029】

以下の実施例は、収集された画像に様々なタグ付け対象物が含まれている場合、例えば１枚の写真に犬と猫両方が含まれているとき、より正確に画像中の物体にタグを付けるための画像のタグ付け方法を提供する。

【0030】

図３は、本願の別の実施例に係る画像のタグ付け方法のフローを示す模式図であり、図３を参考してください。図３に示すように、当該方法は以下のステップを含む。

【0031】

ステップ２０１、端末にて収集された画像を取得する。

【0032】

ステップ２０２、領域抽出アルゴリズムを用いて前記画像中のタグ付け対象物の領域情報を抽出する。

【0033】

画像から標的領域を取得することは、様々な画像処理の応用における重要なステップであり、当該領域抽出アルゴリズムは、画像からタグ付け対象物の領域を抽出するために用いられ、既存技術において関連する研究も多く、例えば、コンテンツベースの画像検索、関心領域に基づく画像の圧縮と符号化、コンテンツベースの画像認証及び画像適応型表示などがある。

【0034】

本願の実施例において、領域抽出アルゴリズムを用いて画像からタグ付け対象物の領域情報を抽出し、例えば、当該画像中のタグ付け対象物が１匹の犬と１匹の猫である場合、「犬」と「猫」の領域情報を抽出し、即ち「犬」と「猫」の画像が当該画面上の画像中で占める範囲を抽出する。画像中の各タグ付け対象物は、いずれもそれに対応する領域情報があり、抽出された領域情報を数式で表すことができ、例えば、［ａ１、ａ２］はそれぞれ「犬」と「猫」の領域情報を表す。当該領域抽出アルゴリズムは、特徴点に基づく抽出方法、視覚的注意メカニズムに基づく抽出方法（スペクトル残差モデル）などを含む。関連技術において、当該関連の領域抽出アルゴリズムは、いずれも詳細に説明されているため、ここではその説明を省略する。

【0035】

ステップ２０３、前記領域情報に基づいて前記画像中のタグ付け対象物に対してサブ領域分割を行う。

【0036】

画像からタグ付け対象物の領域情報を抽出した後、本ステップにおいて、当該領域情報に基づいて画像中のタグ付け対象物に対して領域分割を行って、複数のサブ領域に分割し、当該サブ領域分割プロセスは、実は各サブ領域に対応する領域情報を取得した後、各タグ付け対象物が対応する領域の範囲を区別することである。例えば、各タグ付け対象物のサブ領域を明確にするために異なる色の枠図を使用してもよく、例えば、「犬」に対応するサブ領域を「緑色枠の領域」で表し、「猫」に対応するサブ領域を「赤色枠の領域」で表す。各タグ付け対象物のサブ領域を明確にするために異なる色を使用してもよく、例えば、「犬」のサブ領域を灰色で表示し、「猫」のサブ領域を黒色で表す。その他の方法により画像中のタグ付け対象物の領域を区別することもできる。なお、画像に含まれているタグ付け対象物の種類が多いほど、サブ領域分割を正確に行うことにより当該画像にタグを付ける精度を効果的に向上させることができる。

【0037】

ステップ２０４、前記サブ領域分割の結果又はサブ領域分割後の画像を送信する。

【0038】

クラウドで当該画像のサブ領域分割を完了した後、クラウドがサブ領域分割の結果を端末に送信し、端末が当該分割結果を収集された前記画像に重ねることにより、端末ユーザにサブ領域分割後の画像を表示する。クラウドはサブ領域分割後の画像を端末に直接送信することもでき、端末は当該分割後の画像を表示するだけでよい。

【0039】

ステップ２０６、前記画像中のサブ領域に関連する音声情報を取得する。

【0040】

端末はクラウドから送信されたサブ領域分割の結果又はサブ領域分割後の画像を受信した後、端末はサブ領域を含む画像を取得することができ、この場合、端末は、画像上の各サブ領域に対して、当該サブ領域に関する重要な情報を取得し、さらに当該重要な情報をクラウドに送信する。

【0041】

例えば、ユーザは、スクリーンタッチなどの方法により端末に表示されている画像中の１つのサブ領域を選択し、且つ音声で「これは犬です」と入力し、この場合、当該サブ領域の重要な情報はこの１つの音声情報であり、端末は当該声情報をクラウドに送信する。

【0042】

例えば、ユーザは、直接端末で「紅色領域は犬です」、「緑色領域は猫です」という音声情報を入力し、この場合、当該重要な情報はこの２つの音声情報であり、端末が、収集された音声情報をクラウドに送信する。

【0043】

ステップ２０７、前記音声情報に基づいて前記画像にタグを付け、そして前記画像のタグ付けの結果を記憶する。

【0044】

当然のことながら、当該音声情報は前記画像中のサブ領域に対応する音声情報であり、クラウドは音声認識モジュールを介して音声認識に基づいて当該音声情報のキーワードを抽出し、そして当該キーワードとサブ領域のマッピング関係テーブル、例えば、＜ａ１、ｔ１＞、＜ａ２、ｔ２＞、＜ａ３、ｔ３＞、...を構築する。したがって、当該マッピング関係テーブルに基づいて前記サブ領域にタグを付け、且つタグ付けの結果、例えば、＜ａ１、ｔ１＞＝＜紅色領域、「犬」＞；＜ａ２、ｔ２＞＝＜緑色領域、「猫」＞を記憶する。ここで、当該キーワードはサブ領域に対応し、各サブ領域は１つ又は複数のキーワードを含むことができ、１つのサブ領域が複数のキーワードを含む場合、当該複数のキーワードを用いて当該サブ領域にタグを付けることができ、例えば、＜ａ１、ｔ１＞＝＜紅色領域、「犬」「サモ」「白色」＞である。

【0045】

本願の実施例において、画像に様々なタグ付け対象物が含まれている場合、先に画像に対してサブ領域分割を行い、続いて分割したサブ領域に基づいて、人と端末が対話する方法を用いて各サブ領域の音声情報を取得し、さらに当該音声情報をクラウドに送信し、クラウドが当該音声情報に基づいて画像中のサブ領域にタグを付ける。このような実施形態により、画像のタグ付け精度を向上させることができ、またサブ領域に分割してからタグを付けることにより、画像のタグ付け効率を向上させる。

【0046】

当然のことながら、クラウドでサブ領域分割を行うプロセスにおいて、画像のノイズなどの原因で画像のサブ領域の分割に錯誤があり、例えば、２種類のタグ付け対象物を１つのサブ領域内に分割するか、又はタグ付け対象物の領域でない領域を１つのサブ領域に分割するか、又は一部のタグ付け対象物がサブ領域範囲内に分割されていない。以下の実施例は、画像のタグ付けの正確さと完全性への影響を避けるための画像のタグ付け方法を提供する。

【0047】

図４は、本願のもう１つの実施例に係る画像のタグ付け方法のフローを示す模式図であり、図４を参考してください。図４と図３の主な異なる点は、クラウドがサブ領域分割の結果又はサブ領域分割後の画像を端末に送信した後、当該方法は、
端末にて前記サブ領域分割の結果又はサブ領域分割後の画像に対して調整操作を行った後の画像を取得するステップ２０５をさらに含む。

【0048】

本願の実施例において、クラウドが端末に前記サブ領域分割の結果又はサブ領域分割後の画像を送信した後、クラウドで分割されたサブ領域が正確で且つ適切であるかを確認するために、端末は当該画像に対して調整操作を行うことができる。例えば、端末が、ユーザがスクリーンタッチ方法でタグ付け対象物に適すように色枠の位置とサイズを微調整することを受け入れること、端末が、ユーザが画像中の余分な枠、例えばタグ付け対象物がない枠を削除することを受け入れること、さらに、端末が、ユーザが画像に欠ける枠を追加することを受け入れること、などがある。

【0049】

なお、端末が分割後のサブ領域に対して調整操作を行った後、サブ領域に基づいて音声情報を収集する場合、調整後の画像のサブ領域に基づいて音声情報を収集し、且つクラウドは前記音声情報に基づいて調整操作を行った後の画像にタグを付ける。

【0050】

本願の実施例において、端末は、分割したサブ領域を調整し、且つ調整後の画像をクラウドに送信し、クラウドが当該確認された画像及び当該確認された画像のサブ領域の音声情報に基づいて画像のサブ領域にタグを付ける。タグ付け時の画像中のタグ付け対象物の正確性と完全性を保障する。

【0051】

上記実施例を基に、端末にて収集された画像に様々なタグ付け対象物が含まれていることを例として説明し、当該画像は図５（ａ）に示すように、当該画像は「犬」と「猫」２つのタグ付け対象物を含み、上記領域抽出アルゴリズムで当該画像中のタグ付け対象物に対してサブ領域分割を行い、分割結果は図５（ｂ）又は図５（ｃ）に示すとおりであり、図５（ｂ）又は図５（ｃ）におけるタグ付け対象物のサブ領域分割の結果が不完全であるか又は錯誤がある場合にユーザ端末にて発見することができ、このとき、端末ユーザがサブ領域分割の結果又はサブ領域分割後の画像を調整することができ、調整後の画像は図５（ｄ）に示すとおりであり、端末が当該調整後の画像をクラウドに送信し、且つ調整後の画像のサブ領域に関連する音声情報を送信し、それにより、クラウドは受信した音声情報に基づいてサブ領域を調整した後の画像にタグを付ける。

【0052】

図６は、本願のまた１つの実施例に係る画像のタグ付け方法のフローを示す模式図であり、図６を参考してください。図６に示すように、当該方法は、
端末にて収集された画像を取得するステップ３０１と、
画像認識により前記画像に自動的にタグを付けるステップ３０２と、
前記画像に自動的にタグを付けた後、自動タグ付けの結果を端末にて表示するステップ３０３と、
前記画像に関連する音声情報を取得するステップ３０４と、
前記音声情報が自動タグ付けの結果が正しいと指示する場合、自動タグ付けの結果を記憶し、及び／又は、前記音声情報が自動タグ付けの結果が正しくないと指示する場合、音声情報に基づいて前記画像にタグを付けるステップ３０５と、を含む。

【0053】

本願の実施例における画像のタグ付け方法は、クラウドが自動的に完了することができ、端末側で収集された音声情報を受信する必要がない。

【0054】

具体的には、クラウドが当該画像を取得した後、画像認識方法に基づいて当該画像に自動的にタグを付ける。例えば、まずクラウドが受信した画像に対してサブ領域分割を行い、続いて物体認識方法により各サブ領域に自動的にタグを付け、画像中の１つのタグ付け対象物にタグを付けることと、画像中の様々なタグ付け対象物にタグを付けることとを含み、それにより当該画像のタグ付けを完了する。ここで、クラウドは、領域抽出アルゴリズムを用いて画像に対してサブ領域分割を行うことができ、具体的なプロセスは上記実施例における説明を参考にされたい。

【0055】

ここで、物体認識方法は、コンピュータビジョン分野を基に、主に、物体を正確に検出・認識する問題を解決するために用いられ、それは有効な画像特徴点を選択すること、物体認識プロセスに発生する閉鎖と画像ノイズによる影響を低減すること、及びより良い物体認識の精度を達成することなどを含む。

【0056】

なお、物体認識方法は、画像中の物体を認識する以外に、テキストを認識することもでき、すなわち物体上のテキストを認識して当該物体のタグ付け用選択項目とし、例えば、パック上の「ミルク」という字を認識したとき、当該パックのタグ付け用項目には「ミルク」が含まれる。

【0057】

さらに、クラウドは、物体認識方法に基づいて画像に自動的にタグを付けた後、画像のタグ付けの結果を端末に送信して端末に表示することもでき、端末ユーザがタグ付けの結果に錯誤があるか否かを確認し、自動タグ付けの結果に錯誤がある場合、タグ付けの結果を修正することができる。例えば、スクリーンタッチで紅色領域に対応する「豚」というタグを削除してから、「これは犬です」という音声で紅色領域に「犬」というタグを付けるような、音声で自動タグ付けの結果を修正することができること、また、スクリーンタッチでタグ付け対象物の「猫」を選択し、続いて「これは猫です」という音声を入力することにより、新しいタグを生成し、当該プロセスでは、テキスト入力方法で追加することもできるような、音声で自動タグ付けの結果に欠けているタグを付けることもできること、また、音声で自動タグ付けの結果における余分なタグを削除することもできることなどがある。

【0058】

自動タグ付けの結果が正しい場合、当該自動タグ付けの結果を記憶する。

【0059】

本願の実施例に係る画像のタグ付け方法は、クラウドが、取得した画像に自動的にタグを付け、端末にて当該自動タグ付けの結果が正しいか否かを判断し、タグが正しい場合、当該タグ付け結果を記憶し、誤ったタグがある場合、音声情報に基づいてタグ付けの結果を調整する。当該実施形態は、画像のタグ付けの時間周期を短縮できるだけでなく、画像のタグ付けの結果の正確性と画像認識の精度も大幅に向上させることができる。

【0060】

図７は、本願のまた別の実施例に係る画像のタグ付け方法のフローを示す模式図であり、図７を参考してください。図７に示すように、当該方法は、
端末にて収集された画像を取得するステップ４０１と、
画像認識により前記画像に自動的にタグを付けるステップ４０２と、
前記画像に関連する音声情報を取得するステップ４０３と、
前記自動タグ付けが失敗した時、前記音声情報に基づいて前記画像にタグを付けるステップ４０４と、を含む。

【0061】

本願の実施例における画像のタグ付け方法は、クラウド画像自動タグ付けが失敗した場合のためのものであり、このとき、取得された音声情報に基づいて画像に再度タグを付ける。

【0062】

ここで、クラウドが、当該画像に自動的にタグを付けるプロセス、及び音声情報に基づいて当該画像に再度タグを付けるプロセスは、上記実施例の説明を参照することができるため、ここでは詳細な説明を省略する。

【0063】

ここで、自動タグ付けが完了したか否かは、クラウドにより判断されてもよく、端末によりフィードバックされてもよく、またその他の方法で判断されてもよく、ここでは特に制限しない。

【0064】

本願の実施例に係る画像のタグ付け方法は、クラウドで画像に対して自動タグ付けを行い、且つ自動タグ付けが失敗した時、取得された音声情報に基づいて画像にタグを付ける。当該実施形態により、画像にタグを付けることを保障し、且つタグ付け時間を短縮し、タグ付け方法がより便利になる。

【0065】

なお、上記の各実施例の方法は、クラウドサーバ内の対応する機能モジュールにより単独で実行される方法であっても、クラウド内の機能モジュールと端末内の機能モジュールのシステムにより共同で実行される方法であってもよい。クラウド内の機能モジュールが単独でタグを付ける場合、ステップ１０１、１０２における取得は、端末から送信された画像及び音声情報を受信することであっても、端末にてタグ付けの結果を表示することであっても、タグ付けの結果を端末に送信して、端末が表示することであってもよい。クラウドと端末が一緒に構成したシステムにより共同で実行される場合、上記の取得は、端末にて機能モジュールが端末のハードウェアを呼び出して画像と音声を収集し、端末にて対応する内容を表示することであってもよい。当然のことながら、どのような方法も、本願の目的を達成することができ、したがって、本願の保護範囲に含まれるべきである。

【0066】

図８は、本願の実施例に係る画像のタグ付け装置の構造を示す模式図であり、図８を参考してください。図８に示すように、装置４０は、第１の取得モジュール４１、第２の取得モジュール４２、及び第１のタグ付けモジュール４３を含む。

【0067】

ここで、第１の取得モジュール４１は、端末にて収集された画像を取得するために用いられ、第１の取得モジュール４２は、前記画像に関連する音声情報を取得するために用いられ、第１のタグ付けモジュール４３は、前記音声情報に基づいて前記画像にタグを付け、そして前記画像のタグ付けの結果を記憶するために用いられる。

【0068】

本願の実施例において、第１の取得モジュール４１と第２の取得モジュール４２は、両方とも第１のタグ付けモジュール４３に接続され、受信した画像と音声情報に基づいて、第１のタグ付けモジュール４３により当該画像にタグを付ける。

【0069】

なお、上記装置内のモジュール間の情報交換、実行プロセスなどの内容は、本願の方法の実施例と同じ概念に基づくため、具体的な内容は本願の方法の実施例における説明を参照することができ、ここでは詳細な説明を省略する。

【0070】

本願の実施例に係る画像のタグ付け装置は、クラウドのスマートツールを使用して取得した音声情報を分析し、且つ分析結果に基づいて取得したタグ付け対象物を含む画像にタグを付け、そしてクラウドに画像のタグ付けの結果を記憶する。当該装置は、取得した画像にリアルタイムにタグを付けることができ、画像のタグ付け効率を向上させる。

【0071】

図９は、本願の別の実施例に係る画像のタグ付け装置の構造を示す模式図であり、図９を参考してください。本願の実施例は、受信した画像に様々なタグ付け対象物が含まれていることに対する実施形態である。図９に示すように、当該装置５０は、第１の取得モジュール５１、第１の抽出モジュール５２、第１の分割モジュール５３、第１の送信モジュール５４、第２の取得モジュール５５、及び第１のタグ付けモジュール５６を含む。

【0072】

ここで、第１の取得モジュール５１は、端末にて収集された画像を取得するために用いられ、第１の抽出モジュール５２は、領域抽出アルゴリズムを用いて前記画像中のタグ付け対象物の領域情報を抽出するために用いられ、第１の分割モジュール５３は、前記領域情報に基づいて前記画像中のタグ付け対象物に対してサブ領域分割を行うために用いられ、第１の送信モジュール５４は、前記サブ領域分割の結果又はサブ領域分割後の画像を送信するために用いられ、第２の取得モジュール５５は、前記画像中のサブ領域に関連する音声情報を取得するために用いられ、第１のタグ付けモジュール５６は、前記音声情報に基づいて前記画像にタグを付け、そして前記画像のタグ付けの結果を記憶するために用いられる。

【0073】

ここで、第１のタグ付けモジュール５６は、抽出ユニット５６１とタグ付けユニット５６２を含む。抽出ユニット５６１は、音声認識に基づいて前記音声情報中の前記サブ領域に対応するキーワードを抽出するために用いられ、タグ付けユニット５６２は、前記キーワードと前記サブ領域とのマッピング関係テーブルを構築し、そして前記マッピング関係テーブルに基づいて前記サブ領域にタグを付け、タグ付けの結果を記憶するために用いられる。

【0074】

一部の実施例において、当該装置は、さらに、端末にて前記サブ領域分割の結果又はサブ領域分割後の画像に対して調整操作を行った後の画像を取得するための第３の取得モジュールを含む。この場合、第１のタグ付けモジュール５６は、具体的には、前記音声情報に基づいて前記調整操作を行った後の画像にタグを付け、そして前記画像のタグ付けの結果を記憶するために用いられる。

【0075】

図１０は、本願のもう１つの実施例に係る画像のタグ付け装置の構造を示す模式図であり、図１０を参考してください。図１０に示すように、当該装置６０は、第１の取得モジュール６１、第２のタグ付けモジュール６２、表示モジュール６３、第２の取得モジュール６４、及び第１のタグ付けモジュール６５を含む。

【0076】

第１の取得モジュール６１は、端末にて収集された画像を取得するために用いられ、第２タグ付けモジュール６２は、画像認識により前記画像に自動的にタグを付けるために用いられ、表示モジュール６３は、前記画像に自動的にタグを付けた後、自動タグ付けの結果を端末にて表示するために用いられ、第２の取得モジュール６４は、前記画像に関連する音声情報を取得するために用いられ、第１のタグ付けモジュール６５は、前記音声情報が自動タグ付けの結果が正しいと指示する場合、自動タグ付けの結果を記憶し、及び／又は、前記音声情報が自動タグ付けの結果が正しくないと指示する場合、音声情報に基づいて前記画像にタグを付けるために用いられる。

【0077】

【0078】

本願の実施例に係る画像のタグ付け装置は、クラウドが、取得した画像に自動的にタグを付け、端末にて当該自動タグ付けの結果が正しいか否かを判断し、タグが正しい場合、当該釈結果を記憶し、誤ったタグがある場合、音声情報に基づいてタグ付けの結果を調整する。当該実施形態は、画像のタグ付けの期間を短縮できるだけでなく、画像のタグ付けの結果の正確性と画像認識の精度も大幅に向上させることができる

【0079】

図１１は、本願のまた１つの実施例に係る画像のタグ付け装置の構造を示す模式図であり、図１１を参考してください。図１１に示すように、当該装置７０は、第１の取得モジュール７１、第３のタグ付けモジュール７２、第２の取得モジュール７３、及び第１のタグ付けモジュール７４を含む。

【0080】

第１の取得モジュール７１は、端末にて収集された画像を取得するために用いられ、第３のタグ付けモジュール７２は、画像認識により前記画像に自動的にタグを付けるために用いられ、第２の取得モジュール７３は、前記画像に関連する音声情報を取得するために用いられ、第１のタグ付けモジュール７４は、自動タグ付けが失敗した時、前記音声情報に基づいて前記画像にタグを付けるために用いられる。

【0081】

【0082】

クラウドにて画像に対して自動タグ付け行い、且つ自動タグ付けが失敗した時、取得された音声情報に基づいて画像にタグを付ける。当該実施形態により、画像にタグを付けることを保障し、且つタグ付け時間を短縮し、タグ付け方法がより便利である。

【0083】

図１２は、本願の実施例に係る電子機器のハードウェアの構造を示す模式図であり、図１２を参考してください。電子機器８０は、上記の画像のタグ付け方法を実行することができる。当該電子機器はクラウドサーバであっても、端末とクラウドサーバを含むシステムであってもよい。

【0084】

図１２に示すように、電子機器８０は、１つ又は複数のプロセッサ８１とメモリ８２とを含み、図１２において、１つのプロセッサ８１を例として説明する。

【0085】

プロセッサ８１とメモリ８２は、バス又はその他の手段を介して接続されることができ、図１２において、バスを介して接続されることを例として説明する。

【0086】

メモリ８１は、不揮発性コンピュータ可読記憶媒体として、不揮発性ソフトウェアプログラム、不揮発性コンピュータ実行可能なプログラム、及びモジュール、例えば、本願の実施例における画像のタグ付け方法に対応するプログラム命令／モジュール（例えば、図８に示す第１の取得モジュール４１、第２の取得モジュール４２、及び第１のタグ付けモジュール４３）を記憶するために用いることができる。プロセッサ８１は、メモリ８２に記憶されている不揮発性ソフトウェアプログラム、命令、及びモジュールを動作させることにより、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち上記方法の実施例における画像のタグ付け方法を実施する。

【0087】

メモリ８２は、プログラム記憶ゾーンとデータ記憶ゾーンを含んでもよく、ここで、プログラム記憶ゾーンは操作システム、少なくとも１つの機能に必要なアプリケーションプログラムを記憶することができ、データ記憶ゾーンは、画像のタグ付け装置の使用によって生成されたデータなどを記憶することができる。また、メモリ８２は、高速ランダムアクセスメモリを含むことができ、さらに不揮発性メモリを含むこともでき、例えば、少なくとも１つの磁気ディスクストレージデバイス、フラッシュメモリ、又はその他の不揮発性固体メモリデバイスがある。一部の実施例において、メモリ８２は、プロセッサ８１に対して遠隔に配置されたメモリを含むことができ、これらのリモートメモリは、ネットワークを介して画像タグ付け装置に接続することができる。上記ネットワークは、例として、インターネット、イントラネット、ローカルエリアネットワーク、移動体通信ネットワーク、及びそれらの組み合わせがあげられるが、これらに限定されるものではない。

【0088】

前記１つ又は複数のモジュールは、メモリ８２に記憶され、１つ又は複数のプロセッサ８１により実行されるとき、上記のいずれかの方法の実施例における画像のタグ付け方法を実行する。

【0089】

本発明の実施例に係る不揮発性コンピュータ可読記憶媒体には、電子機器に上記のいずれかの方法の実施例における画像のタグ付け方法を実行させるコンピュータが実行可能な命令が記憶されており、例えば、上記の図２における方法のステップ１０１〜ステップ１０３と、図３における方法ステップ２０１〜ステップ２０４、及びステップ２０６と２０７、図４における方法ステップ２０１〜ステップ２０７と、図６における方法ステップ３０１〜ステップ３０５と、図７における方法ステップ４０１〜ステップ４０４とを実行し、図８におけるモジュール４１−４３と、図９におけるモジュール５１−５６、及びユニット５６１−５６２と、図１０におけるモジュール６１−６５と、図１１におけるモジュール７１−７４との機能を実施させる。

【0090】

本願の実施例に係るコンピュータプログラム製品は、不揮発性コンピュータ可読記憶媒体に記憶されている、プログラム命令を含むコンピュータプログラムを含み、前記プログラム命令がコンピュータにより実行されるとき、前記コンピュータに上記のいずれかの方法の実施例における画像のタグ付け方法を実行させ、例えば、上記の図２における方法ステップ１０１〜ステップ１０３と、図３における方法ステップ２０１〜ステップ２０４、及びステップ２０６と２０７と、図４における方法ステップ２０１〜ステップ２０７と、図６における方法ステップ３０１〜ステップ３０５と、図７における方法ステップ４０１〜ステップ４０４とを実行し、図８におけるモジュール４１−４３と、図９におけるモジュール５１−５６、及びユニット５６１−５６２と、図１０におけるモジュール６１−６５と、図１１におけるモジュール７１−７４との機能を実施させる。

【0091】

当業者であれば、本明細書に開示された実施例に記載の各例のユニット及びアルゴリズムステップを参照し、電子ハードウェア、コンピュータソフトウェア、又は両者の組み合わせで実現することができることを理解でき、ハードウェアとソフトウェアの相互互換性を明確に説明するために、上記説明において各例の構成及びステップを機能に従って一般的に説明する。これらの機能がハードウェアで実行されるかソフトウェアで実行されるかは、技術的解決手段の特定のアプリケーション及びソリューションの設計上の制約によって異なる。当業者は、各特定のアプリケーションに異なる方法を使用することにより記載された機能を実施することができるが、そのような実施は本出願の範囲内であると見なすべきである。前記コンピュータソフトウェアはコンピュータ可読記憶媒体に記憶され、当該プログラムを実行する際に、上記の各方法の実施例のプロセスを含むことができる。ここで、前記の記憶媒体は、磁気ディスク、光ディスク、読み取り専用記憶媒体、又はランダムアクセスメモリとすることができる。

【0092】

以上に記載の内容は本発明の実施形態に過ぎず、本発明の範囲を限定することを意図するものではなく、直接的又は間接的に他の関連技術に適用される本発明の明細書及び図面を用いて行われる等価構造又は等価プロセス変換は、いずれも本発明の特許保護の範囲に含まれる。

【図1】