IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

2025-113637画像処理装置、画像処理装置の制御方法、及びプログラム
<>
  • -画像処理装置、画像処理装置の制御方法、及びプログラム 図1
  • -画像処理装置、画像処理装置の制御方法、及びプログラム 図2
  • -画像処理装置、画像処理装置の制御方法、及びプログラム 図3
  • -画像処理装置、画像処理装置の制御方法、及びプログラム 図4
  • -画像処理装置、画像処理装置の制御方法、及びプログラム 図5
  • -画像処理装置、画像処理装置の制御方法、及びプログラム 図6
  • -画像処理装置、画像処理装置の制御方法、及びプログラム 図7
  • -画像処理装置、画像処理装置の制御方法、及びプログラム 図8
  • -画像処理装置、画像処理装置の制御方法、及びプログラム 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2025113637
(43)【公開日】2025-08-04
(54)【発明の名称】画像処理装置、画像処理装置の制御方法、及びプログラム
(51)【国際特許分類】
   H04N 1/00 20060101AFI20250728BHJP
   G06N 3/0475 20230101ALI20250728BHJP
【FI】
H04N1/00 127A
H04N1/00 L
G06N3/0475
【審査請求】未請求
【請求項の数】15
【出願形態】OL
(21)【出願番号】P 2024007900
(22)【出願日】2024-01-23
(71)【出願人】
【識別番号】000001007
【氏名又は名称】キヤノン株式会社
(74)【代理人】
【識別番号】100125254
【弁理士】
【氏名又は名称】別役 重尚
(72)【発明者】
【氏名】王 暁立
【テーマコード(参考)】
5C062
【Fターム(参考)】
5C062AA05
5C062AA13
5C062AA32
5C062AA35
5C062AB02
5C062AB17
5C062AB20
5C062AB22
5C062AB23
5C062AB41
5C062AB43
5C062AB44
5C062AC02
5C062AC04
5C062AC05
5C062AC22
5C062AC38
5C062AC61
5C062AC64
5C062AE01
5C062AE15
5C062AF14
(57)【要約】
【課題】生成AIに対して画像生成の指示を適切に行うことができる仕組みを提供する。
【解決手段】画像処理装置1は、AI画像データを生成する生成AIサーバー10と通信を行う。画像処理装置1は、原稿を読み取るスキャナー装置を備える。画像処理装置1は、ユーザがオブジェクトを大まかに手書きで描いたラフ画の原稿をスキャンし、この原稿のスキャン画像データを生成する。画像処理装置1は、このスキャン画像データに基づいて生成AIサーバー10にAI画像データを生成させる。
【選択図】図1
【特許請求の範囲】
【請求項1】
原稿を読み取る読取手段と、
前記読取手段によって前記原稿を読み取ることによって得られた第1の画像データに基づいて生成AIに第2の画像データを生成させる手段と、
前記生成AIによって生成された第2の画像データを受信する手段とを備えることを特徴とする画像処理装置。
【請求項2】
原稿を撮影する撮影手段と、
前記撮影手段によって前記原稿を撮影することによって得られた第1の画像データに基づいて生成AIに第2の画像データを生成させる手段と、
前記生成AIによって生成された第2の画像データを受信する手段とを備えることを特徴とする画像処理装置。
【請求項3】
前記原稿には、ユーザが手書きで描いたオブジェクトが含まれることを特徴とする請求項1又は2に記載の画像処理装置。
【請求項4】
前記生成させる手段は、前記第1の画像データから前記オブジェクトを識別し、前記識別したオブジェクトの特徴情報を含む中間データを生成し、前記中間データを前記生成AIに送信することを特徴とする請求項3に記載の画像処理装置。
【請求項5】
前記識別したオブジェクトの特徴情報となる複数の候補の中から、前記中間データに含める特徴情報をユーザに選択させる手段を更に備えることを特徴とする請求項4に記載の画像処理装置。
【請求項6】
前記原稿には、前記オブジェクトの傍に当該オブジェクトの特徴を示す文字列が描かれ、
前記中間データは、前記第1の画像データから識別された文字列を更に含むことを特徴とする請求項4に記載の画像処理装置。
【請求項7】
前記中間データをユーザに編集させる手段を更に備えることを特徴とする請求項4に記載の画像処理装置。
【請求項8】
前記生成させる手段は、前記第1の画像データを前記生成AIに送信することを特徴とする請求項1又は2に記載の画像処理装置。
【請求項9】
前記受信した第2の画像データを印刷する手段を更に備えることを特徴とする請求項1又は2に記載の画像処理装置。
【請求項10】
前記生成させる手段は、ユーザに設定された印刷設定に対応する第2の画像データを前記生成AIに生成させることを特徴とする請求項9に記載の画像処理装置。
【請求項11】
前記生成AIは、前記画像処理装置と異なる外部装置が備えることを特徴とする請求項1又は2に記載の画像処理装置。
【請求項12】
前記生成AIを更に備えることを特徴とする請求項1又は2に記載の画像処理装置。
【請求項13】
原稿を読み取る読取工程と、
前記読取工程にて前記原稿を読み取ることによって得られた第1の画像データに基づいて生成AIに第2の画像データを生成させる工程と、
前記生成AIによって生成された第2の画像データを受信する工程とを有することを特徴とする画像処理装置の制御方法。
【請求項14】
原稿を撮影する撮影工程と、
前記撮影工程にて前記原稿を撮影することによって得られた第1の画像データに基づいて生成AIに第2の画像データを生成させる工程と、
前記生成AIによって生成された第2の画像データを受信する工程とを有することを特徴とする画像処理装置の制御方法。
【請求項15】
請求項13又は14に記載の画像処理装置の制御方法をコンピューターに実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像処理装置、画像処理装置の制御方法、及びプログラムに関する。
【背景技術】
【0002】
ユーザが入力したキーワードを用いて画像を生成するAIGC(AI-Generated Content:生成的人工知能)システムが知られている。AIGCシステムでは、キーワードとして、例えば、自然言語の文字列からなるプロンプトが入力される(特許文献1参照)。AIGCシステムは、ユーザが入力したプロンプトに対応するオブジェクトを含む画像を生成する。これにより、ユーザは、AIGCシステムにプロンプトを入力するだけで、人物や車等といった、このプロンプトに対応するオブジェクトを含む画像を取得することができる。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】US2023/0267652A1
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、上述したプロンプトを画像生成の指示として用いる構成では、ユーザは、例えば、人物がどの向きを向いているかといった構図に関する指示や、背景に関する指示を適切に行うことができないことがある。
【0005】
本発明は、生成AIに対して画像生成の指示を適切に行うことができる仕組みを提供することを目的とする。
【課題を解決するための手段】
【0006】
上記目的を達成するために、本発明の画像処理装置は、原稿を読み取る読取手段と、前記読取手段によって前記原稿を読み取ることによって得られた第1の画像データに基づいて生成AIに第2の画像データを生成させる手段と、前記生成AIによって生成された第2の画像データを受信する手段とを備えることを特徴とする。
【発明の効果】
【0007】
本発明によれば、生成AIに対して画像生成の指示を適切に行うことができる。
【図面の簡単な説明】
【0008】
図1】本実施の形態に係る画像処理装置を含むAIGCシステムの構成を概略的に示す構成図である。
図2図1のコントローラーの構成を概略的に示すブロック図である。
図3図1の生成AIサーバーの構成を概略的に示すブロック図である。
図4図1の画像処理装置が生成AIサーバーから受信したAI画像データを用いて行う処理について説明するための図である。
図5図1の操作部に表示されるUI画面の一例を示す図である。
図6図1の操作部に表示される設定画面の一例を示す図である。
図7図6の設定画面における操作ボタンの設定について説明するための図である。
図8図1の画像処理装置によって実行されるAI画像データの生成制御処理の手順を示すフローチャートである。
図9図8のAI画像データの生成制御処理における各工程の詳細を説明するための図である。
【発明を実施するための形態】
【0009】
以下、添付図面を参照して本発明の実施の形態を詳しく説明する。なお、以下の実施の形態は特許請求の範囲に係る本発明を限定するものでなく、また、本実施の形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。
【0010】
図1は、本実施の形態に係る画像処理装置1を含むAIGCシステム(AI-Generated Content:生成的人工知能)の構成を概略的に示す構成図である。AIは、Artificial Intelligenceの略である。図1において、このAIGCシステムは、画像処理装置1、コンピューター9、及び生成AIサーバー10で構成される。画像処理装置1、コンピューター9、及び生成AIサーバー10は、LAN/Internet8経由で互いに通信可能である。このAIGCシステムでは、画像処理装置1は、ユーザがオブジェクトを大まかに手書きで描いたラフ画の原稿を読み取ってこの原稿のデジタル画像データ(以下、「スキャン画像データ」とする。)を生成する。画像処理装置1は、このスキャン画像データに基づいて画像生成要求を生成AIサーバー10に送信する。生成AIサーバー10は、受信した画像生成要求に従って、色付きのリアルな画像データ(以下、「AI画像データ」とする。)を生成する生成AIを備える。生成AIサーバー10は、生成したAI画像データを画像処理装置1やコンピューター9といった画像生成要求で指定された送信先へ送信する。
【0011】
次に、画像処理装置1の構成について説明する。画像処理装置1は、図1に示すように、スキャナー装置2、コントローラー3、プリンター装置4、操作部5、ストレージ装置6、及びFAX装置7を備える。コントローラー3は、スキャナー装置2、プリンター装置4、操作部5、ストレージ装置6、及びFAX装置7と夫々接続されている。
【0012】
スキャナー装置2は、原稿束を自動的に逐次入れ替えることが可能な原稿給紙ユニット21、原稿を光学スキャンしてスキャン画像データに変換することが可能なスキャナーユニット22を備える。スキャナー装置2は、原稿から光学的に画像を読み取ってスキャン画像データに変換し、このスキャン画像データをコントローラー3に送信する。
【0013】
コントローラー3は、接続されたモジュールに指示を出すことでジョブを実行する。プリンター装置4は、画像データを用紙に印刷する。プリンター装置4は、用紙束から一枚ずつ逐次給紙可能な給紙ユニット42、給紙した用紙に画像データを印刷するためのマーキングユニット41、印刷後の用紙を排紙するための排紙ユニット43を備える。
【0014】
操作部5は、ユーザから各種指示を受け付け、また、画像処理装置1に関する各種情報を表示する。ストレージ装置6は、画像データや制御プログラム等を記憶する。FAX装置7は、電話回線等を介して外部装置にスキャン画像データ等を送信する。
【0015】
画像処理装置1は、例えば、LAN/Internet8経由で、コンピューター9と画像データの送受信を行う。また、画像処理装置1は、コンピューター9から送信されたジョブの発行指示等を、LAN/Internet8を介して受信する。
【0016】
また、コンピューター9は、LAN/Internet8経由で、画像処理装置1の動作を制御する。例えば、コンピューター9は、LAN/Internet8経由で、画像処理装置1のコントローラー3に電源OFF指示を出力する。コントローラー3は、受信した電源OFF指示に従って、画像処理装置1の電源OFFシーケンスの制御を行う。
【0017】
画像処理装置1は、複写機能、画像送信機能、画像保存機能、画像印刷機能等の複数の機能を備える。複写機能は、スキャナー装置2が原稿を光学スキャンして生成されたスキャン画像データをストレージ装置6に記録し、このスキャン画像データをプリンター装置4によって印刷する機能である。画像送信機能は、スキャナー装置2が原稿を光学スキャンして生成されたスキャン画像データを、LAN/Internet8を介してコンピューター9等の外部装置へ送信する機能である。画像保存機能は、スキャナー装置2が原稿を光学スキャンして生成されたスキャン画像データをストレージ装置6に記録し、必要に応じてこのスキャン画像データの送信や印刷を行う機能である。画像印刷機能は、コンピューター9から送信されたPDLデータを解析してプリンター装置4に印刷処理を実行させる機能である。
【0018】
次に、画像処理装置1のコントローラー3の構成について説明する。図2は、図1のコントローラー3の構成を概略的に示すブロック図である。図2において、コントローラー3は、メインシステム200及びサブシステム220から構成される。
【0019】
メインシステム200には、USBメモリー209、操作部5、ストレージ装置6等が接続される。メインシステム200は、いわゆる汎用的なCPUシステムである。メインシステム200は、メインCPU201、ブートロム202、メモリー203、バスコントローラー204、不揮発性メモリー205、ディスクコントローラー206を備える。メインシステム200は更に、フラッシュディスク207、USBコントローラー208、ネットワークインターフェース210、RTC211を備える。
【0020】
メインCPU201は、メインシステム200全体を制御する。ブートロム202は、ブートプログラムを記憶する。メモリー203は、メインCPU201のワークメモリーとして使用される。バスコントローラー204は、外部バスとのブリッジ機能を持つ。不揮発性メモリー205は、メインシステム200が電源OFFされた場合でもデータを保持可能な記憶装置である。ディスクコントローラー206は、フラッシュディスク207やストレージ装置6等の記憶装置を制御する。フラッシュディスク207は、半導体デバイスで構成された比較的小容量の不揮発性記憶装置、例えば、SSDである。USBコントローラー208は、画像処理装置1に接続されたUSBデバイスを制御する。例えば、USBコントローラー208は、画像処理装置1に接続されたUSBメモリー209に画像データを保存する処理や、USBメモリー209に保存された画像データを読み出す処理を行う。ネットワークインターフェース210は、LAN/Internet8を介して、コンピューター9や生成AIサーバー10等の外部装置とデータ通信を行う。RTC211は、時計機能を有する。
【0021】
サブシステム220には、プリンター装置4、スキャナー装置2、FAX装置7等が接続される。サブシステム220は、比較的小さな汎用サブCPUシステムと画像処理ハードウェアから構成される。サブシステム220は、サブCPU221、メモリー223、バスコントローラー224、不揮発性メモリー225、画像処理プロセッサー226、プリンターコントローラー227、スキャナーコントローラー228を備える。
【0022】
サブCPU221は、サブシステム220全体を制御する。また、サブCPU221は、FAX装置7を制御する。メモリー223は、サブCPU221のワークメモリーとして使用される。バスコントローラー224は、外部バスとのブリッジ機能を持つ。不揮発性メモリー225は、サブシステム220が電源OFFされた場合でもデータを保持可能な記憶装置である。画像処理プロセッサー226は、リアルタイムデジタル画像処理を行う。プリンターコントローラー227は、プリンター装置4による印刷処理を制御する。例えば、プリンターコントローラー227は、印刷対象となる画像データをプリンター装置4に送る。スキャナーコントローラー228は、スキャナー装置2によるスキャン処理を制御する。例えば、スキャナーコントローラー228は、スキャナー装置2に対してスキャン処理の実行指示を行い、このスキャン処理にて生成されたスキャン画像データをスキャナー装置2から取得する。
【0023】
ここで、コントローラー3の動作について、複写機能を例に説明する。ユーザが操作部5から画像複写の指示を行うと、メインCPU201がサブCPU221を介してスキャナー装置2に画像読み取り命令を送る。スキャナー装置2は、セットされた原稿を光学スキャンしてスキャン画像データに変換し、このスキャン画像データをプリンターコントローラー227を介して画像処理プロセッサー226に送る。画像処理プロセッサー226は、サブCPU221を介してメモリー223にDMA転送を行ってこのスキャン画像データの一時保存を行う。
【0024】
メインCPU201は、スキャン画像データがメモリー223に一定量若しくは全て記憶されたことが確認できると、サブCPU221を介してプリンター装置4に画像出力指示を出す。サブCPU221は、画像処理プロセッサー226にメモリー223におけるスキャン画像データの記憶領域を伝える。メモリー223に記憶されたスキャン画像データは、プリンター装置4が出力する同期信号に従って、画像処理プロセッサー226とプリンターコントローラー227を介してプリンター装置4に送信される。プリンター装置4は、受信したスキャン画像データを用紙に印刷する。
【0025】
なお、複数部数の印刷を行う場合、メインCPU201が、メモリー223に記憶されたスキャン画像データをストレージ装置6に保存する。このようにストレージ装置6にスキャン画像データを保存することで、2部目以降のスキャン画像データをスキャナー装置2から再度取得することなく、プリンター装置4に送ることが可能となる。
【0026】
図3は、図1の生成AIサーバー10の構成を概略的に示すブロック図である。図3において、生成AIサーバー10は、AIGCフロントエンドサーバー101、AIGCバックエンドサーバー102、学習データベース103を備える。
【0027】
AIGCフロントエンドサーバー101は、コンピューター9や画像処理装置1等の外部装置から受信した画像生成要求に基づいて、AIGCバックエンドサーバー102に画像生成を依頼する。AIGCバックエンドサーバー102は、学習データベース103に格納された学習済みモデルを用いて画像生成処理を行ってAI画像データを生成する。また、AIGCバックエンドサーバー102は、生成したAI画像データをフロントエンドサーバー101経由で、画像生成要求にて指定された送信先(画像処理装置1やコンピューター9等)へ送信する。例えば、画像データが画像処理装置1へ送信された場合、画像処理装置1は、図4のAに示すように、受信した画像データを用紙に印刷する。また、画像処理装置1は、図4のBに示すように、受信した画像データを、コンピューター9や図4のスマートフォン12といった他の装置へ転送する。学習データベース103は、線画から色付きのリアルな画像を出力するように学習された学習済みモデルを格納する。
【0028】
次に、画像処理装置1のUIの構成について説明する。図5は、図1の操作部5に表示されるUI画面500の一例を示す図である。UI画面500には、画像処理装置1で利用可能な機能に対応する複数の操作ボタン、例えば、「コピー」ボタン501、「スキャン送信」ボタン502、「AIGC利用」ボタン503、「デバイス設定」ボタン504が表示される。なお、UI画面500の構成は一例であり、UI画面500には、これらの操作ボタン以外の操作ボタンが含まれていても良い。
【0029】
「コピー」ボタン501は、画像処理装置1の複写機能を利用するための操作ボタンである。「スキャン送信」ボタン502は、画像処理装置1の画像送信機能を利用するための操作ボタンである。「デバイス設定」ボタン504は、画像処理装置1の各種設定を行うための操作ボタンである。「AIGC利用」ボタン503は、本実施の形態におけるAIGCシステムを利用するための操作ボタンである。ユーザが「AIGC利用」ボタン503を選択すると、画像処理装置1に搭載された不図示のAIGCアプリが起動し、操作部5には、図6の設定画面600が表示される。設定画面600は、操作ボタン601~操作ボタン605を含む。
【0030】
操作ボタン601は、AIGCシステムの入力として画像のみを使うか、画像と文字を使うかを設定するためのボタンである。例えば、「AIGCシステムの入力として画像のみを使う」ことが設定された場合、画像処理装置1は、生成したスキャン画像データから識別したオブジェクトに基づいて中間データを生成し、この中間データを画像生成要求と共に生成AIサーバー10へ送信する。中間データは、例えば、ラフ画の特徴を表した自然言語の文字列からなるプロンプトである。プロンプトは、例えば、スキャン画像データに含まれるオブジェクトの種類を示す文字列(「人」や「猫」等)、スキャン画像データに含まれるオブジェクトの位置を示す文字列(「中央」等)、AI画像データのスタイルを示す文字列(「漫画風」等)を含む。なお、中間データは、プロンプトに限られず、このラフ画から色付きのリアルなAI画像データを生成する指示として生成AIサーバー10が解釈可能なコマンドであってスキャン画像データに含まれるオブジェクトの特徴情報を含むコマンドであっても良い。
【0031】
「AIGCシステムの入力として画像と文字を使う」ことが設定された場合、画像処理装置1は、生成したスキャン画像データから識別したオブジェクトと文字情報とに基づいて中間データを生成する。また、画像処理装置1は、この中間データを画像生成要求と共に生成AIサーバー10へ送信する。例えば、スキャン画像データにおいてオブジェクトの傍に「漫画風」という文字列が記載されていた場合、画像処理装置1は、このオブジェクトの特徴を表した自然言語の文字列と、「漫画風」という文字列とを含む中間データを生成する。
【0032】
操作ボタン602は、オブジェクト補正の設定を行うためのボタンである。ユーザがオブジェクト補正の設定を有効に設定すると、画像処理装置1では、ラフ画が曖昧であるためにオブジェクトの特徴情報を絞り込めない場合に、想定される複数の候補の中からオブジェクトの特徴情報をユーザに選択させる。
【0033】
ここで、操作ボタン601の設定で「AIGCシステムの入力として画像のみを使う」ことが設定された場合について説明する。この場合に、図7(a)に示すように、背景と人物が描かれたラフ画の原稿701が画像処理装置1にセットされると、画像処理装置1は、この原稿のスキャン画像データに含まれるオブジェクトの識別処理を行う。画像処理装置1は、このスキャン画像データに含まれるオブジェクトが「人間」であることは識別できるが、ラフ画が曖昧であるのでこのオブジェクトが「男性」、「女性」、「子供」の何れであるかまで識別することができない。このため、画像処理装置1は、想定される複数の候補の中からオブジェクトの特徴情報をユーザに選択させる選択画面702を操作部5に表示する。画像処理装置1は、選択画面702で選択された特徴情報に基づいて中間データを生成する。
【0034】
また、操作ボタン601の設定で「AIGCシステムの入力として画像と文字を使う」ことが設定された場合についても同様に選択画面が表示される。例えば、図7(b)に示すように、人物の傍に「漫画風」という文字列が描かれたラフ画の原稿703が画像処理装置1にセットされると、画像処理装置1は、この原稿のスキャン画像データに含まれるオブジェクトの識別処理を行う。画像処理装置1は、このスキャン画像データに含まれるオブジェクトが「人間」であることは識別できるが、ラフ画が曖昧であるのでこのオブジェクトが「男性」、「女性」、「子供」の何れであるかまで識別することができない。このため、画像処理装置1は、想定される複数の候補の中からオブジェクトの特徴情報をユーザに選択させる選択画面704を操作部5に表示する。画像処理装置1は、選択画面704で選択された特徴情報に基づいて中間データを生成する。
【0035】
操作ボタン603は、ラフ画の原稿を読み取って当該原稿のスキャン画像データを生成する指示を行うためのボタンである。
【0036】
操作ボタン604は、成果物に関する設定を行うためのボタンである。本実施の形態では、例えば、生成AIサーバー10によって生成されたAI画像データを印刷する、このAI画像データをユーザが操作するコンピューター9等へ転送することが可能である。また、このAI画像データをコンピューター9等に表示する、中間データであるプロンプトの再利用の有無等を設定することも可能である。
【0037】
操作ボタン605は、印刷設定を行うためのボタンである。操作ボタン604の設定で「AI画像データを印刷する」ことを設定した際に、この印刷処理で使用される印刷設定が設定される。例えば、ポスター形式や冊子で出力するように設定することが可能である。
【0038】
図8は、図1の画像処理装置1によって実行されるAI画像データの生成制御処理の手順を示すフローチャートである。AI画像データの生成制御処理は、コントローラー3がメモリー203やメモリー223等に格納されたプログラムを実行することによって実現される。AI画像データの生成制御処理は、ユーザがラフ画の原稿をセットし操作ボタン603を選択した際に実行される。
【0039】
図8において、まず、コントローラー3は、セットされたラフ画の原稿をスキャンする(S801)。これにより、この原稿のスキャン画像データが生成される。次いで、コントローラー3は、生成したスキャン画像データに含まれるオブジェクトの識別処理を行う。これにより、スキャン画像データに含まれる人物等のオブジェクトが識別される。また、操作ボタン601の設定で「AIGCシステムの入力として画像と文字を使う」ことが設定された場合には、スキャン画像データに含まれる文字情報も識別される。
【0040】
次いで、コントローラー3は、オブジェクト補正の設定が有効に設定されているか否かを判定する(S802)。
【0041】
S802にてオブジェクト補正の設定が有効に設定されていないと判定された場合、本処理は後述するS804へ進む。S802にてオブジェクト補正の設定が有効に設定されていると判定された場合、コントローラー3は、識別処理にて識別した結果に基づいて、オブジェクトの特徴情報をユーザに選択させるための選択画面を操作部5に表示させる(S803)。ここで、一例として、図9に示すように、背景と人物が描かれ更にその人物の傍に「漫画風」という文字列が描かれたラフ画の原稿901がセットされた場合について説明する。原稿901のスキャン画像データに含まれるオブジェクトの識別処理において、コントローラー3は、背景と人物が描かれていることは識別できるが、ラフ画が曖昧であるのでその人物が「男性」、「女性」、「子供」の何れであるかまで識別することができない。このため、コントローラー3は、複数の候補の中からその人物の特徴情報をユーザに選択させるための選択画面902を操作部5に表示させる。ユーザが選択画面902に含まれる複数の候補の中から1つを選択すると、本処理はS804へ進む。
【0042】
S804では、コントローラー3は、生成AIサーバー10にAI画像を生成させるための中間データを生成する。例えば、オブジェクト補正の設定が有効に設定されていない場合、コントローラー3は、識別処理にて識別したオブジェクトの特徴情報に基づいて中間データを生成する。なお、中間データは、上述した通り、識別したオブジェクトの特徴を表す自然言語の文字列からなるプロンプトである。一方、オブジェクト補正の設定が有効に設定されている場合、コントローラー3は、選択画面902にて選択された特徴情報903に基づいて中間データ904を生成する。
【0043】
次いで、コントローラー3は、生成した中間データを操作部5に表示させ、この中間データで画像生成を行うか否かをユーザに確認する(S805)。
【0044】
S805において、この中間データで画像生成を行う指示をユーザから受けた場合、コントローラー3は、S804で生成した中間データと画像生成要求とを生成AIサーバー10に送信する(S806)。生成AIサーバー10は、受信した中間データを入力として画像生成処理を行う。これにより、例えば、原稿901に描かれたラフ画をリアル且つ漫画風に描画したAI画像データ905が生成される。生成AIサーバー10は、生成したAI画像データ905を、画像生成要求にて指定された送信先、例えば、画像処理装置1へ送信する。
【0045】
次いで、コントローラー3は、生成AIサーバー10からAI画像データ905を受信する(S807)。コントローラー3は、例えば、上述した図4のAに示すように、受信したAI画像データ905を用紙に印刷する、若しくは上述した図4のBに示すように、受信したAI画像データ905をコンピューター9やスマートフォン12といった外部装置へ送信する。その後、本処理は終了する。
【0046】
S805において、この中間データで画像生成を行わない指示をユーザから受けた場合、コントローラー3は、ユーザから受けた修正指示に従って中間データを修正する(S808)。次いで、コントローラー3は、S806にて、修正された中間データと画像生成要求とを生成AIサーバー10へ送信する。その後、上述したS807が行われ、本処理は終了する。
【0047】
上述した実施の形態によれば、原稿をスキャンして得られたスキャン画像データに基づいて生成AIサーバー10にAI画像データを生成させる。これにより、生成AIサーバー10に対する画像生成の指示に、スキャン画像データから得られた構図に関する情報や背景に関する情報を含めることができ、もって、生成AIサーバー10に対して画像生成の指示を適切に行うことができる。
【0048】
また、上述した実施の形態では、原稿には、ユーザが手書きで描いたオブジェクトが含まれる。これにより、ユーザは、手書きでオブジェクトが描かれた原稿を準備するだけで、生成AIサーバー10に対して構図に関する指示や背景に関する指示を適切に行うことができる。
【0049】
また、上述した実施の形態では、スキャン画像データから識別したオブジェクトの特徴情報を含む中間データが生成され、この中間データが生成AIサーバー10に送信される。これにより、スキャン画像データから識別したオブジェクトの特徴情報を生成AIサーバー10に伝えることができる。
【0050】
また、上述した実施の形態では、識別したオブジェクトの特徴情報となる複数の候補の中から、中間データに含める情報をユーザに選択させる選択画面が操作部5に表示される。これにより、中間データに含める情報について、ユーザの意図を反映させることができる。
【0051】
また、上述した実施の形態では、原稿には、オブジェクトの傍に当該オブジェクトの特徴を示す文字列が描かれ、中間データは、スキャン画像データから識別された文字列を更に含む。これにより、ユーザは、ラフ画と文字を組み合わせて、生成AIサーバー10に対して画像生成の指示を行うことができる。
【0052】
また、上述した実施の形態では、中間データをユーザに編集させる。これにより、生成AIサーバー10に対し、ユーザの意図をより反映した指示を行うことができる。
【0053】
また、上述した実施の形態では、受信したAI画像データが印刷される。これにより、生成AIサーバー10に生成させたAI画像データの印刷物を得ることができる。
【0054】
また、上述した実施の形態では、生成AIは、画像処理装置1と異なる外部装置である生成AIサーバー10が備える。これにより、外部装置である生成AIサーバー10に対して画像生成の指示を適切に行うことができる。
【0055】
なお、本実施の形態では、画像処理装置1は、スキャン機能を備える装置に限られない。例えば、撮影機能を備えるスマートフォン、タブレット端末、PC等の装置であっても良い。撮影機能を備える装置の制御部、又はこの装置にインストールされたアプリケーションは、ラフ画の原稿を撮影してこの原稿の撮影画像データを生成する処理を行い、生成した撮影画像データを用いて上述したS802~S808の処理を行う。このように撮影機能を備える装置においても、生成AIサーバー10に対して画像生成の指示を適切に行うことができる。
【0056】
また、本実施の形態では、画像処理装置1が生成AIを備える構成であっても良い。これにより、生成AIを備える画像処理装置1において、この生成AIに対して画像生成の指示を適切に行うことができる。
【0057】
また、本実施の形態では、スキャン画像データや撮影画像データからオブジェクトを認識する処理を、画像処理装置1が備えるAIを用いて行っても良い。昨今のCPUには、オブジェクト認識専用の回路が組み込まれている場合が多く、この回路と併用することで、オブジェクトを認識する処理の負荷を最小限に留めつつ、この処理を精度良く実施することができる。
【0058】
また、本実施の形態では、画像処理装置1は、印刷設定に対応するAI画像データを生成AIサーバー10に生成させてもよい。例えば、印刷設定で2in1設定が行われた場合、画像処理装置1は、2つの画像データを割り付けた1つのAI画像データを生成AIサーバー10に生成させる中間データを生成する。これにより、生成AIサーバー10に対し、印刷設定に対応するAI画像データを生成する指示を行うことができる。
【0059】
また、本実施の形態では、生成AIサーバー10がラフ画の画像データを入力として、AI画像データを生成可能な構成である場合、中間データではなく、スキャン画像データや撮影画像データを画像生成要求と共に生成AIサーバー10へ送信しても良い。これにより、画像処理装置1は中間データの生成にそのリソースを割くことなく、生成AIサーバー10に対して画像生成の指示を適切に行うことができる。
【0060】
なお、本実施の形態に係る技術の利用ケースとして、例えば、フローチャートの作成、ポスターの作成(例えば、人間を線でスケッチしてその姿勢をラフ画で示し、その横に「漫画風」といった文字列を記述してそのスタイルを示す)が挙げられる。また、スライドの雛形、年賀状、手紙、チラシ、個人で楽しむ同人誌等の作成が挙げられる。
【0061】
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
【0062】
なお、本実施形態の開示は、以下の構成および方法を含む。
(構成1)原稿を読み取る読取手段と、前記読取手段によって前記原稿を読み取ることによって得られた第1の画像データに基づいて生成AIに第2の画像データを生成させる手段と、前記生成AIによって生成された第2の画像データを受信する手段とを備えることを特徴とする画像処理装置。
(構成2)原稿を撮影する撮影手段と、前記撮影手段によって前記原稿を撮影することによって得られた第1の画像データに基づいて生成AIに第2の画像データを生成させる手段と、前記生成AIによって生成された第2の画像データを受信する手段とを備えることを特徴とする画像処理装置。
(構成3)前記原稿には、ユーザが手書きで描いたオブジェクトが含まれることを特徴とする構成1又は2に記載の画像処理装置。
(構成4)前記生成させる手段は、前記第1の画像データから前記オブジェクトを識別し、前記識別したオブジェクトの特徴情報を含む中間データを生成し、前記中間データを前記生成AIに送信することを特徴とする構成3に記載の画像処理装置。
(構成5)前記識別したオブジェクトの特徴情報となる複数の候補の中から、前記中間データに含める特徴情報をユーザに選択させる手段を更に備えることを特徴とする構成4に記載の画像処理装置。
(構成6)前記原稿には、前記オブジェクトの傍に当該オブジェクトの特徴を示す文字列が描かれ、前記中間データは、前記第1の画像データから識別された文字列を更に含むことを特徴とする構成4又は5に記載の画像処理装置。
(構成7)前記中間データをユーザに編集させる手段を更に備えることを特徴とする構成4乃至6の何れか1つに記載の画像処理装置。
(構成8)前記生成させる手段は、前記第1の画像データを前記生成AIに送信することを特徴とする構成1乃至3の何れか1つに記載の画像処理装置。
(構成9)前記受信した第2の画像データを印刷する手段を更に備えることを特徴とする構成1乃至8の何れか1つに記載の画像処理装置。
(構成10)前記生成させる手段は、ユーザに設定された印刷設定に対応する第2の画像データを前記生成AIに生成させることを特徴とする構成9に記載の画像処理装置。
(構成11)前記生成AIは、前記画像処理装置と異なる外部装置が備えることを特徴とする構成1乃至10の何れか1つに記載の画像処理装置。
(構成12)前記生成AIを更に備えることを特徴とする構成1乃至10の何れか1つに記載の画像処理装置。
(制御方法13)原稿を読み取る読取工程と、前記読取工程にて前記原稿を読み取ることによって得られた第1の画像データに基づいて生成AIに第2の画像データを生成させる工程と、前記生成AIによって生成された第2の画像データを受信する工程とを有することを特徴とする画像処理装置の制御方法。
(制御方法14)原稿を撮影する撮影工程と、前記撮影工程にて前記原稿を撮影することによって得られた第1の画像データに基づいて生成AIに第2の画像データを生成させる工程と、前記生成AIによって生成された第2の画像データを受信する工程とを有することを特徴とする画像処理装置の制御方法。
(プログラム)制御方法13又は14に記載の画像処理装置の制御方法をコンピューターに実行させるためのプログラム。
【符号の説明】
【0063】
1 画像処理装置
2 スキャナー装置
3 コントローラー
4 プリンター装置
5 操作部
10 生成AIサーバー
210 ネットワークインターフェース
702 選択画面
704 選択画面
902 選択画面
905 AI画像データ
図1
図2
図3
図4
図5
図6
図7
図8
図9