(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-01-19
(45)【発行日】2023-01-27
(54)【発明の名称】画像分類およびマーキング方法、並びに、そのシステム
(51)【国際特許分類】
G06T 7/00 20170101AFI20230120BHJP
【FI】
G06T7/00 350B
(21)【出願番号】P 2021077717
(22)【出願日】2021-04-30
【審査請求日】2021-06-08
(32)【優先日】2021-02-09
(33)【優先権主張国・地域又は機関】TW
(73)【特許権者】
【識別番号】521190325
【氏名又は名称】アウー インテリジェンス, インコーポレイテッド
【氏名又は名称原語表記】Awoo Intelligence, Inc.
【住所又は居所原語表記】14F., No.96, Sec. 2, Zhongshan N. Rd., Zhongshan Dist., Taipei City 104, Taiwan
(74)【代理人】
【識別番号】100137095
【氏名又は名称】江部 武史
(74)【代理人】
【識別番号】100091627
【氏名又は名称】朝比 一夫
(72)【発明者】
【氏名】シュ ウ リン
(72)【発明者】
【氏名】ガン フェン ホ
(72)【発明者】
【氏名】クオ ミン リン
【審査官】真木 健彦
(56)【参考文献】
【文献】特開2020-144755(JP,A)
【文献】特開2012-038244(JP,A)
【文献】特開2013-021482(JP,A)
【文献】特開2020-149682(JP,A)
【文献】特開2010-028486(JP,A)
【文献】特開2012-042990(JP,A)
【文献】特開2013-054512(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
G06T 1/00
G06N 3/00
(57)【特許請求の範囲】
【請求項1】
画像の分類を行い、少なくとも1つのラベルまたは少なくとも1つのテキスト説明のうちの何れか1種類またはそれらの組み合わせを付与する画像分類およびマーキングシステムであって、
前記画像分類およびマーキングシステムを実行するための中央処理モジュールと、
前記中央処理モジュールと情報接続し、分類モデルに基づいて前記画像に対する分類を行い、且つ前記画像に対して前記ラベルまたは前記テキスト説明のうちの何れか1種類またはそれらの組み合わせを付与する人工知能モジュールと、
前記中央処理モジュールと情報接続し、前記画像を受信するための入力モジュールと、
前記中央処理モジュールと情報接続し、前記分類モデル及びストリングネットワークを保存するためのストレージモジュールと、
前記中央処理モジュールと情報接続し、前記ストリングネットワークを形成するためのストリングモジュールと、
前記中央処理モジュールと情報接続し、前記画像を複数の分割画像に分割する分割モジュールとを備え
、
前記人口知能モジュールは、前記複数の分割画像の内容、相対位置、大きさおよび関連度に基づいて、前記複数の分割画像間の関連点数を計算し、前記関連点数に基づいて、前記ラベルまたは前記テキスト説明のうちの何れか1種類またはそれらの組み合わせを前記画像に付与することを特徴とする画像分類およびマーキングシステム。
【請求項2】
前記ストレージモジュールは少なくとも1つのラーニング画像を保存しているラーニング画像データベースを備え、前記人工知能モジュールは前記ラーニング画像に基づいて前記分類モデルを構築することを特徴とする請求項1に記載の画像分類およびマーキングシステム。
【請求項3】
前記中央処理モジュールと情報接続し、前記画像の文字を抽出するキャラクター認識モジュールをさらに備えることを特徴とする請求項1に記載の画像分類およびマーキングシステム。
【請求項4】
前記ラーニング画像データベースには少なくとも1つの前記ラベルまたは少なくとも1つの前記テキスト説明を有している前記画像をさらに保存し、前記ラーニング画像とすることを特徴とする請求項2に記載の画像分類およびマーキングシステム。
【請求項5】
画像の分類を行い、少なくとも1つのラベルまたは少なくとも1つのテキスト説明のうちの何れか1種類またはそれらの組み合わせを付与する画像分類およびマーキング方法であって、
前記画像分類およびマーキング方法により前記画像を受信する画像入力ステップと、
前記画像分類およびマーキング方法により前記画像を複数の分割画像に分割する画像分割ステップと、
前記画像分類およびマーキング方法により
、分類モデル
と、前記複数の分割画像の内容、相対位置、大きさおよび関連度に基づいて計算された前記複数の分割画像間の関連点数とに基づいて
、前記画像に対する分類を行う画像分類ステップと、
前記画像分類およびマーキング方法によりストリングネットワーク
および前記関連点数に基づいて分類が完了した前記画像に対し少なくとも1つの前記ラベルを付与する画像
ラベル付与ステップと、
前記画像分類およびマーキング方法によりストリングネットワーク
および前記関連点数に基づいて分類が完了した前記画像に対し少なくとも1つの前記テキスト説明を付与する画像テキスト説明付与ステップと、を含むことを特徴とする画像分類およびマーキング方法。
【請求項6】
前記画像分類およびマーキング方法により少なくとも1つのラーニング画像に基づいて前記分類モデルを構築するラーニングステップを含むことを特徴とする請求項
5に記載の画像分類およびマーキング方法。
【請求項7】
前記画像分類ステップにおいて、キャラクター認識モジュールにより前記画像に対する分類を行うことを特徴とする請求項
5に記載の画像分類およびマーキング方法。
【請求項8】
前記ラーニング画像は前記画像
ラベル付与ステップが完了した前記画像を含むことを特徴とする請求項
6に記載の画像分類およびマーキング方法。
【請求項9】
前記ラーニング画像は前記画像テキスト説明付与ステップが完了した前記画像を含むことを特徴とする請求項
6に記載の画像分類とマーキング方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、人工知能を利用して画像の分割及び文字認識を行い、且つ分類、マッチング、ラベル付与、及びテキスト説明を行う画像分類およびマーキング方法、並びに、そのシステムに関する。
【背景技術】
【0002】
現在、科学技術の発展に伴って画像分類が各分野で広く応用されており、日常的な撮影から工業生産に至るまで画像分類技術が求められている。従来の特許文献では、例えば、下記特許文献1の「製品推奨の精度を向上させる方法」という記載があり、ユーザー側で商品画像ファイルを入力すると、ショッピングプラットフォームが商品画像を単独で認識し、且つ商品画像に関連する商品ラベルを生成する。また、下記特許文献2の「複数の商品画像中からの商品認識」という記載があり、画像中の商品を認識し、認識した商品の商品情報(ブランド、型番号、または商品説明)を提供している。また、下記特許文献3の「分類ラベル情報の取得方法と装置」、下記特許文献4の「Web情報発掘による映像中の商品注釈」及び下記特許文献5の「情報処理装置、情報処理方法及びプログラム」という記載がある。
【先行技術文献】
【特許文献】
【0003】
【文献】台湾特許出願公開第201913493号明細書
【文献】米国特許出願公開第2019/0318405号明細書
【文献】中国特許出願公開第106909694号明細書
【文献】米国特許第09355330号明細書
【文献】特開2020-140488号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
上述の特許文献に記載されている内容は画像から商品を認識し、且つ分類すると共に情報ラベルを貼り付けている。しかしながら、商品は通常複数種の属性を有し、複数種のラベル情報を表示する必要があった。また、ラベル情報用語の多くは現在使用されているものとは異なった古い語彙が使用されていた。なお、商品間の関連性や商品の高速テキスト説明は全て現在商務で応用するための必須の技術であり、よって、画像の分類及びマッチングを高速且つ精確に行い、対応する複数の情報ラベルを付与し、画像内容に対して高速にテキスト説明を行い、且つラベル及びテキスト説明を当時の時代背景に最も関連する語彙とすることが、解決が待たれている問題であった。
【0005】
そこで、本発明者は上記の欠点が改善可能と考え、鋭意検討を重ねた結果、合理的設計で上記の課題を効果的に改善する本発明の提案に至った。
【0006】
本発明は、かかる事情に鑑みてなされたものであり、その目的とするところは、画像分類およびマーキング方法、並びに、そのシステムを提供することにある。
【課題を解決するための手段】
【0007】
上記課題を解決するために、本発明のある態様の画像分類とマーキング方法及びそのシステムは、中央処理モジュールと、入力モジュールと、ストレージモジュールと、分割モジュールと、人工知能モジュールと、ストリングモジュールと、を備えている。人工知能モジュールはストレージモジュール内のラーニング画像をラーニングデータとして機械学習法により分類モデルを構築する。入力モジュールにより分類する画像を受信し、人工知能モジュールが分類する画像を分類モデルに基づいて分類する。分割モジュールは分類する画像の各部分の特徴を認識すると共にさらに分割、分類、及びマッチングを行い、人工知能モジュールはストリングモジュールと協同で分類及びマッチングが完了した画像に対し少なくとも1つのラベル及びテキスト説明を付与する。また、本発明は、画像中の文字を認識して総合学習及び演算を行うためのキャラクター認識モジュールをさらに備えている。
【0008】
本発明の他の特徴については、本明細書及び添付図面の記載により明らかにする。
【図面の簡単な説明】
【0009】
【
図1】本発明に係るシステムを示す概略構成図(1)である。
【
図2】本発明の実施形態に係る画像分類およびマーキング方法のフローチャート(1)である。
【
図3】本発明の実施形態を示す概略図(1)である。
【
図4】本発明の実施形態を示す概略図(2)である。
【
図5】本発明の実施形態を示す概略図(3)である。
【
図6】本発明の実施形態を示す概略図(4)である。
【
図7】本発明の実施形態を示す概略図(5)である。
【
図8】本発明の実施形態に係る画像分類およびマーキング方法のフローチャート(2)である。
【
図9】本発明の他の実施形態を示す図(1)である。
【
図10】本発明のさらなる他の実施形態を示す図(2)である。
【発明を実施するための形態】
【0010】
本発明における好適な実施の形態について、添付図面を参照して説明する。尚、以下に説明する実施の形態は、特許請求の範囲に記載された本発明の内容を限定するものではない。また、以下に説明される構成の全てが、本発明の必須要件であるとは限らない。
【0011】
本発明の画像分類およびマーキングシステム1は、中央処理モジュール11を備え、中央処理モジュール11に情報接続している入力モジュール12と、ストレージモジュール13と、分割モジュール14と、人工知能モジュール15と、ストリングモジュール16とをさらに有している(
図1参照)。以下、各構成部材の機能について例示する。
<中央処理モジュール11>
【0012】
中央処理モジュール11は画像分類およびマーキングシステム1を実行し、上述の各モジュール(12~16)を作動するように駆動し、論理演算を行い、演算結果を一時保存し、命令実行位置を保存する等の機能を備える中央処理装置(Central Processing Unit、CPU)でもよいが、これに限られない。
<入力モジュール12>
【0013】
入力モジュール12は分類する画像P1を受信するUSB(Universal Serial Bus)、シリアルポート(RS232またはRS485等)、PCIE(Peripheral Component Interconnect Express)等でもよい。BluetoothやWiFi等のワイヤレス伝送でもよい。また、ブラウザ検索、データキャプチャ、Webクローラー(Web Crawler)等の方式またはそれらの組み合わせにより画像P1を獲得してもよいが、これらに限られない。
<ストレージモジュール13>
【0014】
ストレージモジュール13は人工知能モジュール15のラーニングに必要なデータを提供する。ストレージモジュール13はラーニング画像データベース131をさらに備えている。ラーニング画像データベース131には少なくとも1つのラーニング画像P2を保存し、ラーニング画像P2はラベルまたはテキスト説明のうちの何れか1種類またはそれらの組み合わせを有している上付き文字画像でもよく、或いはラベル及びテキスト説明を有していない画像でもよく、人工知能モジュール15はラーニング画像P2を利用してラーニングを行って分類モデルを構築する。
<分割モジュール14>
【0015】
分割モジュール14は画像P1中の各物体を認識及び検出し、画像P1内の異なる物体、物品、標的等を各分割画像P3に分割し、画像をさらに分析する。
<人工知能モジュール15>
【0016】
人工知能モジュール15はストレージモジュール13内のデータを目標としてラーニングを行って分類モデルを構築する。人工知能モジュール15はラーニングを行う機械学習(Machine Learning)であり、教師なし学習(Un-supervised learning)或いは自己教師あり学習(Self-Supervised Learning)のうちの何れか1種類またはそれらの組み合わせを使用している。人工知能モジュール15はラーニングにより構築した分類モデルに基づいて画像(P1及びP3)の分類及びマッチングを行い、画像(P1及びP3)にラベル及び/或いはテキスト説明を付与する。前述のマッチングでは、人工知能モジュール15が画像P1中の各分割画像P3間の内容、相対位置、大きさ、及び関連度等のパラメータに基づいて、各分割画像P3間の関連点数を計算する。よって、人工知能モジュール15は関連点数により補完して画像(P1及びP3)により適切なラベル及び/或いはテキスト説明を付与する。
<ストリングモジュール16>
【0017】
ストリングモジュール16はテキストを収集し、且つ機械学習(Machine Learning)方式によりテキスト内の有価値文字または単語を抽出する。有価値文字または単語は検索頻度の高さ、話題性を有する等のホットワードであり、且つ相互に関連する単字を相互に連結してストリングネットワークを形成し、ストレージモジュール13に保存している。人工知能モジュール15はストリングモジュール16と協同で、ストリングネットワークに基づいて分類した画像(P1及びP3)にラベル及び/或いはテキスト説明を付与する。
【0018】
図2は本発明の実施形態に係る画像分類およびマーキング方法のフローチャート(1)である。以下、図を参照しながら、本発明の画像分類およびマーキング方法、並びに、そのシステムの実施形態を詳しく説明する。
<画像入力ステップS1>
【0019】
図3に示すように、入力モジュール13は少なくとも1つの分類する画像P1を受信し、入力モジュール13は有線、ワイヤレス等の伝送方式で画像P1を受信する。
<画像分割ステップS2>
【0020】
図4に示すように、分割モジュール14は受信した画像P1を認識及び識別し、各部分の特徴に基づいて分割し、画像P1中の各物体を独立させて分割して分割画像P3を生成し、人工知能モジュール15が画像P1の全体及び各部分をさらに全面的に分析して判断する。図示するように、入力モジュール13がスポーツ用商品の画像P1を受信した後、分割モジュール14が認識すると共に「自転車」、「ヘルメット」、「ランニングシューズ」、「水泳キャップ」等の分割画像P3に分割する。
<画像分類ステップS3>
【0021】
人工知能モジュール15は各画像(P1及びP3)をラーニングが完了した分類モデルに基づいて画像の分類及びマッチングを行う。各画像(P1及びP3)は単一のカテゴリに分類しても、単一の画像(P1及びP3)を複数のカテゴリに分類してもよい。また、分類は、人工知能モジュール15が画像(P1及びP3)中の内容、相対位置、大きさ、関連度等に基づいて各分割画像P3間の関連点数を計算し、画像(P1及びP3)の分類を行い、且つ画像入力ステップS1で入力した未分割の画像P1も直接画像分類ステップS3を実行し、画像分割ステップS2を実行する必要がない。
図4に示すように、人工知能モジュール15がこれを「スポーツ」に分類し、
図4の分割画像P3の「自転車」を例にすると、人工知能モジュール15がこれを「自転車」及び「陸上スポーツ」に分類する。また、「自転車」、「水泳キャップ」、「ランニングシューズ」等の画像から三者が「トライアスロン」のカテゴリに関連することを見出す。
<画像上付き文字付与ステップS4>
【0022】
図5と
図6に示すように、人工知能モジュール15は分類及びマッチングが完了した画像(P1及びP3)にラベルTを付与する。人工知能モジュール15は画像(P1及びP3)に単一のラベルTを付与しても、画像(P1及びP3)に複数のラベルTを付与してもよい。また、人工知能モジュール15はさらに画像P1中の各分割画像P3の関連点数に基づいて、ストリングモジュール16と協同でストリングネットワークに基づいて画像(P1及びP3)に関連するラベルTを付与する。
図5に示すように、「自転車」、「水泳キャップ」、「ランニングシューズ」等の分割画像を同時に有するため、画像分類およびマーキングシステム1は前述の分割画像、関連点数、及びストリングネットワークに基づいて画像に「トライアスロン」のラベルを付与する。また、
図6を参照し、分割画像P3の「自転車」にはその分類と関連する「自転車」、「自転車」、「陸上スポーツ」等のラベルを付与し、且つ分割画像P3の「自転車」が「水泳キャップ」、「ランニングシューズ」等の分割画像P3を有している画像P1から分割したものであるため、前述の分割画像、関連点数、及びストリングネットワークに基づいて「トライアスロン」のラベルを付与する。
<画像テキスト説明付与ステップS5>
【0023】
図7を併せて参照し、人工知能モジュール15はストリングモジュール16と協同でストリングネットワークに基づいて画像(P1及びP3)にテキスト説明Dを付与する。テキスト説明Dは画像(P1及びP3)についての簡単な説明でも長い文章でもよい。図示するように、オリンピックの年に防疫という時代背景がある場合、画像P3の「自転車」に「歩く代わりに自転車で通勤及び帰宅する」、「オリンピックではまず競技専用自転車を選択する」、「多機能の変速機能を有し、軽量化された自転車」等のテキスト説明Dを付与する。
【0024】
図8と
図2を併せて参照し、本発明はモデルラーニングステップS6をさらに含む。画像入力ステップS1の前に、モデルラーニングステップS6では人工知能モジュール15に用いる分類モデルを構築する。人工知能モジュール15はストレージモジュール13内のラーニング画像(P2及びP3)に基づいて、教師なし学習(Un-supervised Learning)、自己教師あり学習(Self-Supervised Learning)のうちの何れか1種類またはそれらの組み合わせ等の機械学習法を使用する。教師なし学習(Un-supervised Learning)を例にすると、人工知能モジュール15はストレージモジュール13内のラベルT及びテキスト説明Dを有していないラーニング画像P2に基づいて、教師なし学習(Un-supervised Learning)を使用して分類モデルを構築する。また、ステップS3、ステップS4、及びステップS5が完了した画像(P1及びP3)を新たなラーニングデータとし、分類が完了しているためラベルT及び/或いはテキスト説明Dを有しており、続いて人工知能モジュール15による分類モデルの構築を改善する。
【0025】
図9と
図10に示すように、本発明はキャラクター認識モジュール17を備えている。キャラクター認識モジュール17は画像中の文字を抽出して総合学習及び演算を行い、人工知能モジュール15が画像上付き文字付与ステップS4及び画像テキスト説明付与ステップS5を実行する際に、さらに精確に分類及びマッチングを行ってラベルT及び/或いはテキスト説明Dを付与するようにしている。キャラクター認識モジュール17は光学文字認識モデル(Optical Character Recognition、OCR)を有している。図示するように、画像P3の「自転車」がフレーム上に「CARBON」という書体を有している場合、キャラクター認識モジュール17が文字を抽出し、画像P3の「自転車」に、「炭素繊維製自転車」というより精確なラベルT及び/或いはテキスト説明Dを付与する。
【0026】
以上を総合すると、本発明の画像分類とマーキング方法及びそのシステムは、中央処理モジュールと、入力モジュールと、ストレージモジュールと、分割モジュールと、人工知能モジュールと、ストリングモジュールと、キャラクター認識モジュールと、を備えている。人工知能モジュールは機械学習により分類モデルを構築し、画像に対して本発明により分類、マッチング、ラベル付与、及びテキスト説明付与を行う。また、分割モジュールにより各画像の特徴に基づいて分割し、ストリングモジュールにより分類した画像に現代的な有価値文字のラベル及びテキスト説明を付与する。なお、キャラクター認識モジュールは画像の文字を認識してより精確な分類、ラベル付与、及びテキスト説明を達成する。よって、本発明を実施することで、高速で精確な画像の分類及び対応するラベル及びテキスト説明の付与を確実に達成する。
【0027】
上述の実施形態は本発明の技術思想及び特徴を説明するためのものにすぎず、当該技術分野を熟知する者に本発明の内容を理解させると共にこれをもって実施させることを目的とし、本発明の特許請求の範囲を限定するものではない。従って、本発明の精神を逸脱せずに行う各種の同様の効果をもつ改良又は変更は、後述の請求項に含まれるものとする。
【符号の説明】
【0028】
1 画像分類およびマーキングシステム
11 中央処理モジュール
12 入力モジュール
13 ストレージモジュール
131 ラーニング画像データベース
14 分割モジュール
15 人工知能モジュール
16 ストリングモジュール
17 キャラクター認識モジュール
S1 画像入力ステップ
S2 画像分割ステップ
S3 画像分類ステップ
S4 画像上付き文字付与ステップ
S5 画像テキスト説明付与ステップ
S6 モデルラーニングステップ
P1 画像
P2 ラーニング画像
P3 分割画像
T ラベル
D テキスト説明