(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-10-01
(45)【発行日】2024-10-09
(54)【発明の名称】画像処理方法、画像処理装置及び非一時的な記憶媒体
(51)【国際特許分類】
G06T 7/60 20170101AFI20241002BHJP
G06T 3/00 20240101ALI20241002BHJP
G06T 5/00 20240101ALI20241002BHJP
【FI】
G06T7/60 200D
G06T3/00
G06T5/00 700
(21)【出願番号】P 2023541634
(86)(22)【出願日】2021-12-03
(86)【国際出願番号】 CN2021135356
(87)【国際公開番号】W WO2022148192
(87)【国際公開日】2022-07-14
【審査請求日】2023-07-07
(31)【優先権主張番号】202110015478.1
(32)【優先日】2021-01-07
(33)【優先権主張国・地域又は機関】CN
【早期審査対象出願】
【前置審査】
(73)【特許権者】
【識別番号】520016251
【氏名又は名称】新▲東▼方教育科技集▲団▼有限公司
(74)【代理人】
【識別番号】110000291
【氏名又は名称】弁理士法人コスモス国際特許商標事務所
(72)【発明者】
【氏名】岳 海純
(72)【発明者】
【氏名】張 俊
(72)【発明者】
【氏名】蘭 永亮
(72)【発明者】
【氏名】呉 伯川
(72)【発明者】
【氏名】李 力
【審査官】▲広▼島 明芳
(56)【参考文献】
【文献】中国特許出願公開第109409366(CN,A)
【文献】特開2006-221525(JP,A)
【文献】中国特許出願公開第111681284(CN,A)
【文献】中国特許出願公開第111861943(CN,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 1/00 - 7/90
G06V 10/00 - 20/90
(57)【特許請求の範囲】
【請求項1】
コンピュータにより実行される画像処理方法であって、
教学シーンの入力画像を取得することと、
前記入力画像に対して検出処理を行って、板書領域を含む矩形検出領域を決定することと、
前記矩形検出領域に対して解析処理を行って、前記板書領域に対応するターゲット領域を決定することと、
前記ターゲット領域の4つの頂点を決定することと、
前記ターゲット領域の4つの頂点に基づいて、前記ターゲット領域に対して座標変換を行って、補正後の板書領域画像を得ることとを含み、
前記ターゲット領域の4つの頂点を決定することは、
輪郭検出アルゴリズムを使用して前記ターゲット領域に対して輪郭検出処理を行って、少なくとも1つの輪郭を得ることと、
前記少なくとも1つの輪郭に対してスクリーニング処理を行って、少なくとも1つの予備輪郭を得ることと、
前記少なくとも1つの予備輪郭に基づいて、予備角点集合を決定することと、
前記予備角点集合に基づいて、前記ターゲット領域の4つの頂点を決定することとを含
み、
前記矩形検出領域に対して前記解析処理を行って、前記板書領域に対応する前記ターゲット領域を決定することは、
前記矩形検出領域に対してフィルタリング処理を行って、前記矩形検出領域に対応するフィルタリング画像を得、フィルタリング画像に基づいて第1の階調画像を得ることと、
前記第1の階調画像に対して顕著性領域検出処理を行って、第2の階調画像を得ることと、
前記第2の階調画像に対してエッジ検出処理及び二値化処理を行って、二値画像を得ることと、
前記二値画像に対して連通領域解析処理を行って、前記板書領域に対応する前記ターゲット領域を決定することとを含み、
前記第2の階調画像に対して前記エッジ検出処理及び前記二値化処理を行って、前記二値画像を得ることは、
前記第2の階調画像上のすべての画素の階調勾配を計算して、初期選択エッジ画素を決定することと、
前記初期選択エッジ画素に対して非極大値抑制操作を行って、二次選択エッジ画素を決定することと、
前記二次選択エッジ画素に対して二重閾値スクリーニング操作を行って、最終的選択エッジ画素を得ることと、
前記最終的選択エッジ画素に基づいて、前記第2の階調画像に対して前記二値化処理を行って、前記二値画像を得ることとを含む、画像処理方法。
【請求項2】
前記少なくとも1つの予備輪郭に基づいて、前記予備角点集合を決定することは、
前記少なくとも1つの予備輪郭の各角点に対応する頂角の角度値を計算することと、
前記少なくとも1つの予備輪郭の各角点に対応する頂角の角度値に基づいて、前記少なくとも1つの予備輪郭の各角点をスクリーニングして、複数の第1の予備角点を得ることとを含み、
前記予備角点集合は、前記複数の第1の予備角点を含む、請求項1に記載の画像処理方法。
【請求項3】
前記少なくとも1つの予備輪郭に基づいて、前記予備角点集合を決定することは、
角点の数閾値に基づいて前記少なくとも1つの予備輪郭をスクリーニングし、少なくとも1つの予備選択輪郭を得ることと、
フィッティング精度に従って各前記予備選択輪郭に対して折れ線化フィッティングを行い、各前記予備選択輪郭における距離が前記フィッティング精度よりも大きい角点を廃棄し、距離が前記フィッティング精度よりも小さい角点を残して、閉じたフィッティンググラフィックを得ることと、
前記フィッティンググラフィックの面積及び角点の数を計算し、面積が面積閾値よりも小さく且つ角点の数が4よりも小さい前記フィッティンググラフィックに対応する予備選択輪郭を廃棄し、そうではない場合、面積が前記面積閾値以上であり且つ角点の数が4に等しいフィッティンググラフィックを見つけるまで、前記フィッティング精度の数値を向上させ且つ次の折れ線化フィッティングを行い、最終的に決定されたフィッティング画像の4つの頂点を第2の予備角点とすることとを含み、
前記予備角点集合は、複数の前記第2の予備角点を含む、請求項1に記載の画像処理方法。
【請求項4】
前記少なくとも1つの予備輪郭に基づいて、前記予備角点集合を決定することは、
前記少なくとも1つの予備輪郭の各角点に対応する頂角の角度値を計算することと、
前記少なくとも1つの予備輪郭の各角点に対応する頂角の角度値に基づいて、前記少なくとも1つの予備輪郭の各角点をスクリーニングして、複数の第1の予備角点を得ることと、
角点の数閾値に基づいて前記少なくとも1つの予備輪郭をスクリーニングし、少なくとも1つの予備選択輪郭を得ることと、
フィッティング精度に従って各前記予備選択輪郭に対して折れ線化フィッティングを行い、各前記予備選択輪郭における距離が前記フィッティング精度よりも大きい角点を廃棄し、距離が前記フィッティング精度よりも小さい角点を残して、閉じたフィッティンググラフィックを得ることと、
前記フィッティンググラフィックの面積及び角点の数を計算し、面積が面積閾値よりも小さく且つ角点の数が4よりも小さい前記フィッティンググラフィックに対応する予備選択輪郭を廃棄し、そうではない場合、面積が前記面積閾値以上であり且つ角点の数が4に等しいフィッティンググラフィックを見つけるまで、前記フィッティング精度の数値を向上させ且つ次の折れ線化フィッティングを行い、最終的に決定されたフィッティング画像の4つの頂点を第2の予備角点とすることとを含み、
前記予備角点集合は、前記複数の第1の予備角点及び複数の前記第2の予備角点を含む、請求項1に記載の画像処理方法。
【請求項5】
前記予備角点集合に基づいて、前記ターゲット領域の4つの頂点を決定することは、
前記予備角点集合における角点に対してクラスタリング操作を行って、4つのクラスタ中心を得、前記4つのクラスタ中心を前記ターゲット領域の4つの頂点とすることを含む、請求項1に記載の画像処理方法。
【請求項6】
前記矩形検出領域に対して前記フィルタリング処理を行って、前記矩形検出領域に対応する前記フィルタリング画像を得ることは、
中央値フィルタリング法を用いて前記矩形検出領域に対して前記フィルタリング処理を行って、前記矩形検出領域に対応する前記フィルタリング画像を得ることを含む、請求項
1に記載の画像処理方法。
【請求項7】
前記第1の階調画像に対して前記顕著性領域検出処理を行って、前記第2の階調画像を得ることは、
前記第1の階調画像上の各画素の、前記第1の階調画像上のグローバルコントラストを前記各画素の顕著値として計算することと、
前記第1の階調画像上のすべての画素の顕著値に基づいて、第2の階調画像を得ることであって、前記第2の階調画像上のいずれかの画素の階調値は、前記第1の階調画像上の前記いずれかの画素に対応するある画素の顕著値であることとを含む、請求項
1に記載の画像処理方法。
【請求項8】
前記二値画像に対して連通領域解析処理を行って、前記板書領域に対応する前記ターゲット領域を決定することは、
前記二値画像上のすべての連通領域及び各前記連通領域の外接矩形枠を決定することと、
前記外接矩形枠の面積の大きい順に第2~第N(Nは、2以上の整数である)の連通領域を選択すべき領域として選択することと、
前記板書領域の第2の事前知識に基づいて、前記選択すべき領域を認証して、前記板書領域に対応する前記ターゲット領域を決定することとを含み、
前記第2の事前知識は、前記板書領域の中心座標と前記二値画像の中心座標との間の距離が距離閾値よりも小さいことと、前記板書領域の縦横比が第2の範囲内にあることとを含む、請求項
1に記載の画像処理方法。
【請求項9】
前記入力画像に対して前記検出処理を行って、前記板書領域を含む前記矩形検出領域を決定することは、
前記板書領域の第1の事前知識に基づいて、前記矩形検出領域を認証することを含み、
前記第1の事前知識は、 前記板書領域の中心座標が前記入力画像の上半部分に位置することと、前記板書領域の縦横比が第1の範囲内にあることとを含む、請求項1に記載の画像処理方法。
【請求項10】
前記ターゲット領域の4つの頂点に基づいて、前記ターゲット領域に対して前記座標変換を行って、前記補正後の板書領域画像を得ることは、
制約条件に基づいて前記座標変換を行うことを含み、
前記制約条件は、
前記補正後の板書領域画像が矩形であり、前記ターゲット領域の4つの頂点が前記座標変換後に前記矩形の4つの頂点に対応することを含む、請求項1に記載の画像処理方法。
【請求項11】
前記教学シーンのビデオシーケンスを取得することと、
前記ビデオシーケンスからマルチフレームの画像をそれぞれ前記入力画像として抽出して、前記ターゲット領域の前記マルチフレームの画像のうちの各フレームの画像上の4つの頂点を得ることと、
前記ターゲット領域の前記マルチフレームの画像のうちの各フレームの画像上の4つの頂点を予測頂点として、前記予測頂点に基づいて前記ターゲット領域の4つの最終的予測頂点を決定することと、
前記ターゲット領域の4つの最終的予測頂点に基づいて、前記ビデオシーケンスの各フレームの画像におけるターゲット領域に対して座標変換を行って、前記ビデオシーケンスの各フレームの画像に対応する補正後の板書領域画像を得ることとをさらに含む、請求項1~
10のいずれか1項に記載の画像処理方法。
【請求項12】
前記ターゲット領域の前記マルチフレームの画像のうちの各フレームの画像上の4つの頂点を前記予測頂点とし、前記予測頂点に基づいて前記ターゲット領域の4つの最終的予測頂点を決定することは、
前記ターゲット領域の各頂点に対応する予測頂点の座標に基づいて、前記各頂点に対応する予測頂点に対して第2のクラスタリング操作を行って、前記各頂点に対応する少なくとも1つの予測サブクラスを得、前記各頂点に対応する、現在最も多い予測頂点を含む予測サブクラスの中心座標を前記各頂点の現在予測座標とすることと、
前記ターゲット領域の4つの頂点の現在予測座標に基づいて、任意の2つの隣接する頂点の現在予測座標の結ぶ線と水平線との第1の夾角値を決定することと、
前記任意の2つの隣接する頂点の現在予測座標に基づいて、前記マルチフレームの画像のうちのあるフレームの画像において1つの予測矩形領域を決定することであって、前記あるフレームの画像は、フィルタリング処理、顕著性領域検出処理、エッジ検出処理及び二値化処理がされたものであり、前記任意の2つの隣接する頂点の現在予測座標の結ぶ線は、前記予測矩形領域の対角線であり、前記予測矩形領域の各辺は、前記水平線に平行する又は垂直であることと、
前記予測矩形領域において直線を探して、複数本の線分を含む1本の曲線分を決定し、前記複数本の線分に基づいて前記曲線分の平均接線の傾きを決定し、前記平均接線の傾きに基づいて前記平均接線と前記水平線との第2の夾角値を決定することと、
前記第1の夾角値及び前記第2の夾角値に基づいて、前記任意の2つの隣接する頂点の最終的予測座標を決定することとを含む、請求項
11に記載の画像処理方法。
【請求項13】
前記第1の夾角値及び前記第2の夾角値に基づいて、前記任意の2つの隣接する頂点の最終的予測座標を決定することは、
前記第1の夾角値と前記第2の夾角値との差分が第1の閾値以下であることに応答して、前記任意の2つの隣接する頂点の現在予測座標を前記任意の2つの隣接する頂点の最終的予測座標とすることを含む、請求項
12に記載の画像処理方法。
【請求項14】
前記第1の夾角値及び前記第2の夾角値に基づいて、前記任意の2つの隣接する頂点の最終的予測座標を決定することは、
前記第1の夾角値と前記第2の夾角値との差分が前記第1の閾値よりも大きいことに応答して、前記任意の2つの隣接する頂点の現在予測座標と前記曲線分との最小距離が第2の閾値以下であるかどうかを判断することと、
前記任意の2つの隣接する頂点のうちの一方の現在予測座標と前記曲線分との最小距離が前記第2の閾値以下であり且つ前記任意の2つの隣接する頂点のうちの他方の現在予測座標と前記曲線分との最小距離が前記第2の閾値よりも大きいことに応答して、前記平均接線の傾きに基づいて、前記任意の2つの隣接する頂点のうちの一方の現在予測座標を通る第1の直線を決定するとともに、前記任意の2つの隣接する頂点のうちの一方に対向する頂点の現在予測座標及び前記任意の2つの隣接する頂点のうちの他方の現在予測座標に基づいて第2の直線を決定し、前記任意の2つの隣接する頂点のうちの一方の現在予測座標を前記任意の2つの隣接する頂点のうちの一方の最終的予測座標とし、前記第1の直線と前記第2の直線との交点の座標を前記任意の2つの隣接する頂点のうちの他方の最終的予測座標とすることと、
前記任意の2つの隣接する頂点の現在予測座標と前記曲線分との最小距離がいずれも前記第2の閾値よりも大きいことに応答して、前記任意の2つの隣接する頂点のうちの各頂点の最終的予測座標を決定するまで、前記任意の2つの隣接する頂点のうちの各頂点に対応する、現在最も多い予測頂点を含む予測サブクラスを廃棄し、前記任意の2つの隣接する頂点のうちの各頂点に対応する、最も多い予測頂点を含む他の予測サブクラスの中心座標を前記任意の2つの隣接する頂点のうちの各頂点の現在予測座標とすることとをさらに含む、請求項
13に記載の画像処理方法。
【請求項15】
前記第1の夾角値及び前記第2の夾角値に基づいて、前記任意の2つの隣接する頂点の最終的予測座標を決定することは、
前記任意の2つの隣接する頂点に対応するすべての予測サブクラスがいずれも廃棄されたことに応答して、前記任意の2つの隣接する頂点に対応する前記曲線分の平均接線の傾きに基づいて、前記任意の2つの隣接する頂点に対応する曲線分の平均接線を決定し、前記任意の2つの隣接する頂点のうちの一方に対向する頂点の現在予測座標及び前記任意の2つの隣接する頂点のうちの他方の現在予測座標に基づいて第3の直線を決定し、前記任意の2つの隣接する頂点のうちの他方に対向する頂点の現在予測座標、及び前記任意の2つの隣接する頂点のうちの一方の現在予測座標に基づいて第4の直線を決定し、前記平均接線と前記第3の直線との交点の座標を前記任意の2つの隣接する頂点のうちの一方の最終的予測座標とし、前記平均接線と前記第3の直線との交点の座標を前記任意の2つの隣接する頂点のうちの他方の最終的予測座標とすることをさらに含む、請求項
14に記載の画像処理方法。
【請求項16】
画像処理装置であって、
コンピュータ読み取り可能なコマンドを非一時的に記憶するためのメモリと、
前記コンピュータ読み取り可能なコマンドを実行するためのプロセッサであって、前記コンピュータ読み取り可能なコマンドが前記プロセッサにより実行されると、請求項1~
15のいずれか1項に記載の画像処理方法を実行するプロセッサを含む、画像処理装置。
【請求項17】
コンピュータ読み取り可能なコマンドを非一時的に記憶する非一時的な記憶媒体であって、前記コンピュータ読み取り可能なコマンドがコンピュータにより実行されると、請求項1~
15のいずれか1項に記載の画像処理方法をする、非一時的な記憶媒体。
【発明の詳細な説明】
【技術分野】
【0002】
本開示の実施例は、画像処理方法、画像処理装置及び非一時的な記憶媒体に関する。
【背景技術】
【0003】
教育情報化の発展に伴い、ビデオ課程の教学過程における応用はますます広くなっている。例えば、対面授業教学を行う時、録画放送システムを利用して授業教学の内容を録画して授業教学ビデオことを形成することができ、それにより、学生は、授業教学ビデオをオンラインで見て、関連する教学内容を補習、復習することができる。また、授業教学ビデオは、さらに教学評価、模範授業の録画、教育見学、遠隔教育などに幅広くに適用される。
【発明の概要】
【課題を解決するための手段】
【0004】
本開示の少なくともいくつかの実施例は、画像処理方法を提供し、この画像処理方法は、教学シーンの入力画像を取得することと、前記入力画像に対して検出処理を行って、板書領域を含む矩形検出領域を決定することと、前記矩形検出領域に対して解析処理を行って、前記板書領域に対応するターゲット領域を決定することと、前記ターゲット領域の4つの頂点を決定することと、前記ターゲット領域の4つの頂点に基づいて、前記ターゲット領域に対して座標変換を行って、補正後の板書領域画像を得ることとを含む。
【0005】
例えば、本開示のいくつかの実施例による画像処理方法では、前記ターゲット領域の4つの頂点を決定することは、輪郭検出アルゴリズムを使用して前記ターゲット領域に対して輪郭検出処理を行って、少なくとも1つの輪郭を得ることと、前記少なくとも1つの輪郭に対してスクリーニング処理を行って、少なくとも1つの予備輪郭を得ることと、前記少なくとも1つの予備輪郭に基づいて、予備角点集合を決定することと、前記予備角点集合に基づいて、前記ターゲット領域の4つの頂点を決定することとを含む。
【0006】
例えば、本開示のいくつかの実施例による画像処理方法では、前記少なくとも1つの予備輪郭に基づいて、前記予備角点集合を決定することは、前記少なくとも1つの予備輪郭の各角点に対応する頂角の角度値を計算することと、前記少なくとも1つの予備輪郭の各角点に対応する頂角の角度値に基づいて、前記少なくとも1つの予備輪郭の各角点をスクリーニングして、複数の第1の予備角点を得ることとを含み、前記予備角点集合は、前記複数の第1の予備角点を含む。
【0007】
例えば、本開示のいくつかの実施例による画像処理方法では、前記少なくとも1つの予備輪郭に基づいて、前記予備角点集合を決定することは、角点の数閾値に基づいて前記少なくとも1つの予備輪郭をスクリーニングし、少なくとも1つの予備選択輪郭を得ることと、フィッティング精度に従って各前記予備選択輪郭に対して折れ線化フィッティングを行い、各前記予備選択輪郭における距離が前記フィッティング精度よりも大きい角点を廃棄し、距離が前記フィッティング精度よりも小さい角点を残して、閉じたフィッティンググラフィックを得ることと、前記フィッティンググラフィックの面積及び角点の数を計算し、面積が面積閾値よりも小さく且つ角点の数が4よりも小さい前記フィッティンググラフィックに対応する予備選択輪郭を廃棄し、そうではない場合、面積が前記面積閾値以上であり且つ角点の数が4に等しいフィッティンググラフィックを見つけるまで、前記フィッティング精度の数値を向上させ且つ次の折れ線化フィッティングを行い、最終的に決定されたフィッティング画像の4つの頂点を第2の予備角点とすることとを含み、前記予備角点集合は、複数の前記第2の予備角点を含む。
【0008】
例えば、本開示のいくつかの実施例による画像処理方法では、前記少なくとも1つの予備輪郭に基づいて、前記予備角点集合を決定することは、前記少なくとも1つの予備輪郭の各角点に対応する頂角の角度値を計算することと、前記少なくとも1つの予備輪郭の各角点に対応する頂角の角度値に基づいて、前記少なくとも1つの予備輪郭の各角点をスクリーニングして、複数の第1の予備角点を得ることと、角点の数閾値に基づいて前記少なくとも1つの予備輪郭をスクリーニングし、少なくとも1つの予備選択輪郭を得ることと、フィッティング精度に従って各前記予備選択輪郭に対して折れ線化フィッティングを行い、各前記予備選択輪郭における距離が前記フィッティング精度よりも大きい角点を廃棄し、距離が前記フィッティング精度よりも小さい角点を残して、閉じたフィッティンググラフィックを得ることと、前記フィッティンググラフィックの面積及び角点の数を計算し、面積が面積閾値よりも小さく且つ角点の数が4よりも小さい前記フィッティンググラフィックに対応する予備選択輪郭を廃棄し、そうではない場合、面積が前記面積閾値以上であり且つ角点の数が4に等しいフィッティンググラフィックを見つけるまで、前記フィッティング精度の数値を向上させ且つ次の折れ線化フィッティングを行い、最終的に決定されたフィッティング画像の4つの頂点を第2の予備角点とすることとをさらに含み、前記予備角点集合は、前記複数の第1の予備角点及び複数の前記第2の予備角点を含む。
【0009】
例えば、本開示のいくつかの実施例による画像処理方法では、前記予備角点集合に基づいて、前記ターゲット領域の4つの頂点を決定することは、前記予備角点集合における角点に対してクラスタリング操作を行って、4つのクラスタ中心を得、前記4つのクラスタ中心を前記ターゲット領域の4つの頂点とすることを含む。
【0010】
例えば、本開示のいくつかの実施例による画像処理方法では、前記予備角点集合における角点に対して前記クラスタリング操作を行うことは、K(K=4である)平均クラスタリングアルゴリズムを用いて前記第1のクラスタリング操作を行うことを含む。
【0011】
例えば、本開示のいくつかの実施例による画像処理方法では、前記矩形検出領域に対して前記解析処理を行って、前記板書領域に対応する前記ターゲット領域を決定することは、前記矩形検出領域に対してフィルタリング処理を行って、前記矩形検出領域に対応するフィルタリング画像を得、フィルタリング画像に基づいて第1の階調画像を得ることと、前記第1の階調画像に対して顕著性領域検出処理を行って、第2の階調画像を得ることと、前記第2の階調画像に対してエッジ検出処理及び二値化処理を行って、二値画像を得ることと、前記二値画像に対して連通領域解析処理を行って、前記板書領域に対応する前記ターゲット領域を決定することとを含む。
【0012】
例えば、本開示のいくつかの実施例による画像処理方法では、前記矩形検出領域に対して前記フィルタリング処理を行って、前記矩形検出領域に対応する前記フィルタリング画像を得ることは、中央値フィルタリング法を用いて前記矩形検出領域に対して前記フィルタリング処理を行って、前記矩形検出領域に対応する前記フィルタリング画像を得ることを含む。
【0013】
例えば、本開示のいくつかの実施例による画像処理方法では、前記第1の階調画像に対して前記顕著性領域検出処理を行って、前記第2の階調画像を得ることは、前記第1の階調画像上の各画素の、前記第1の階調画像上のグローバルコントラストを前記各画素の顕著値として計算することと、前記第1の階調画像上のすべての画素の顕著値に基づいて、第2の階調画像を得ることであって、前記第2の階調画像上のいずれかの画素の階調値は、前記第1の階調画像上の前記いずれかの画素に対応するある画素の顕著値であることとを含む。
【0014】
例えば、本開示のいくつかの実施例による画像処理方法では、前記第2の階調画像に対して前記エッジ検出処理及び前記二値化処理を行って、前記二値画像を得ることは、前記第2の階調画像上のすべての画素の階調勾配を計算して、初期選択エッジ画素を決定することと、前記初期選択エッジ画素に対して非極大値抑制操作を行って、二次選択エッジ画素を決定することと、前記二次選択エッジ画素に対して二重閾値スクリーニング操作を行って、最終的選択エッジ画素を得ることと、前記最終的選択エッジ画素に基づいて、前記第2の階調画像に対して前記二値化処理を行って、前記二値画像を得ることとを含む。
【0015】
例えば、本開示のいくつかの実施例による画像処理方法では、前記二値画像に対して連通領域解析処理を行って、前記板書領域に対応する前記ターゲット領域を決定することは、前記二値画像上のすべての連通領域及び各前記連通領域の外接矩形枠を決定することと、前記外接矩形枠の面積の大きい順に第2~第N(Nは、2以上の整数である)の連通領域を選択すべき領域として選択することと、前記板書領域の第2の事前知識に基づいて、前記選択すべき領域を認証して、前記板書領域に対応する前記ターゲット領域を決定することとを含む。
【0016】
例えば、本開示のいくつかの実施例による画像処理方法では、前記第2の事前知識は、前記板書領域の中心座標と前記二値画像の中心座標との間の距離が距離閾値よりも小さいことと、前記板書領域の縦横比が第2の範囲内にあることとを含む。
【0017】
例えば、本開示のいくつかの実施例による画像処理方法では、前記入力画像に対して前記検出処理を行って、前記板書領域を含む前記矩形検出領域を決定することは、前記板書領域の第1の事前知識に基づいて、前記矩形検出領域を認証することを含む。
【0018】
例えば、本開示のいくつかの実施例による画像処理方法では、前記第1の事前知識は、前記板書領域の中心座標が前記入力画像の上半部分に位置することと、前記板書領域の縦横比が第1の範囲内にあることとを含む。
【0019】
例えば、本開示のいくつかの実施例による画像処理方法では、前記ターゲット領域の4つの頂点に基づいて、前記ターゲット領域に対して前記座標変換を行って、前記補正後の板書領域画像を得ることは、制約条件に基づいて前記座標変換を行うことを含む。前記制約条件は、前記補正後の板書領域画像が矩形であり、前記ターゲット領域の4つの頂点が前記座標変換後に前記矩形の4つの頂点に対応することを含む。
【0020】
例えば、本開示のいくつかの実施例による画像処理方法は、前記教学シーンのビデオシーケンスを取得することと、前記ビデオシーケンスからマルチフレームの画像をそれぞれ前記入力画像として抽出して、前記ターゲット領域の前記マルチフレームの画像のうちの各フレームの画像上の4つの頂点を得ることと、前記ターゲット領域の前記マルチフレームの画像のうちの各フレームの画像上の4つの頂点を予測頂点として、前記予測頂点に基づいて前記ターゲット領域の4つの最終的予測頂点を決定することと、前記ターゲット領域の4つの最終的予測頂点に基づいて、前記ビデオシーケンスの各フレームの画像におけるターゲット領域に対して座標変換を行って、前記ビデオシーケンスの各フレームの画像に対応する補正後の板書領域画像を得ることとをさらに含む。
【0021】
例えば、本開示のいくつかの実施例による画像処理方法では、前記ターゲット領域の前記マルチフレームの画像のうちの各フレームの画像上の4つの頂点を前記予測頂点とし、前記予測頂点に基づいて前記ターゲット領域の4つの最終的予測頂点を決定することは、前記ターゲット領域の各頂点に対応する予測頂点の座標に基づいて、前記各頂点に対応する予測頂点に対して第2のクラスタリング操作を行って、前記各頂点に対応する少なくとも1つの予測サブクラスを得、前記各頂点に対応する、現在最も多い予測頂点を含む予測サブクラスの中心座標を前記各頂点の現在予測座標とすることと、前記ターゲット領域の4つの頂点の現在予測座標に基づいて、任意の2つの隣接する頂点の現在予測座標の結ぶ線と水平線との第1の夾角値を決定することと、前記任意の2つの隣接する頂点の現在予測座標に基づいて、前記マルチフレームの画像のうちのあるフレームの画像において1つの予測矩形領域を決定することであって、前記あるフレームの画像は、フィルタリング処理、顕著性領域検出処理、エッジ検出処理及び二値化処理がされたものであり、前記任意の2つの隣接する頂点の現在予測座標の結ぶ線は、前記予測矩形領域の対角線であり、前記予測矩形領域の各辺は、前記水平線線に平行する又は垂直であることと、前記予測矩形領域において直線を探して、複数本の線分を含む1本の曲線分を決定し、前記複数本の線分に基づいて前記曲線分の平均接線の傾きを決定し、前記平均接線の傾きに基づいて前記平均接線と前記水平線との第2の夾角値を決定することと、前記第1の夾角値及び前記第2の夾角値に基づいて、前記任意の2つの隣接する頂点の最終的予測座標を決定することとを含む。
【0022】
例えば、本開示のいくつかの実施例による画像処理方法では、前記第1の夾角値及び前記第2の夾角値に基づいて、前記任意の2つの隣接する頂点の最終的予測座標を決定することは、前記第1の角度値と前記第2の角度値との差分が第1の閾値以下であることに応答して、前記任意の2つの隣接する頂点の現在予測座標を前記任意の2つの隣接する頂点の最終的予測座標とすることを含む。
【0023】
例えば、本開示のいくつかの実施例による画像処理方法では、前記第1の夾角値及び前記第2の夾角値に基づいて、前記任意の2つの隣接する頂点の最終的予測座標を決定することは、前記第1の角度値と前記第2の角度値との差分が前記第1の閾値よりも大きいことに応答して、前記任意の2つの隣接する頂点の現在予測座標と前記曲線分との最小距離が第2の閾値以下であるかどうかを判断することと、前記任意の2つの隣接する頂点のうちの一方の現在予測座標と前記曲線分との最小距離が前記第2の閾値以下であり且つ前記任意の2つの隣接する頂点のうちの他方の現在予測座標と前記曲線分との最小距離が前記第2の閾値よりも大きいことに応答して、前記平均接線の傾きに基づいて、前記任意の2つの隣接する頂点のうちの一方の現在予測座標を通る第1の直線を決定するとともに、前記任意の2つの隣接する頂点のうちの一方に対向する頂点の現在予測座標及び前記任意の2つの隣接する頂点のうちの他方の現在予測座標に基づいて第2の直線を決定し、前記任意の2つの隣接する頂点のうちの一方の現在予測座標を前記任意の2つの隣接する頂点のうちの一方の最終的予測座標とし、前記第1の直線と前記第2の直線との交点の座標を前記任意の2つの隣接する頂点のうちの他方の最終的予測座標とすることと、前記任意の2つの隣接する頂点の現在予測座標と前記曲線分との最小距離がいずれも前記第2の閾値よりも大きいことに応答して、前記任意の2つの隣接する頂点のうちの各頂点の最終的予測座標を決定するまで、前記任意の2つの隣接する頂点のうちの各頂点に対応する、現在最も多い予測頂点を含む予測サブクラスを廃棄し、前記任意の2つの隣接する頂点のうちの各頂点に対応する、最も多い予測頂点を含む他の予測サブクラスの中心座標を前記任意の2つの隣接する頂点のうちの各頂点の現在予測座標とすることとをさらに含む。
【0024】
例えば、本開示のいくつかの実施例による画像処理方法では、前記第1の夾角値及び前記第2の夾角値に基づいて、前記任意の2つの隣接する頂点の最終的予測座標を決定することは、前記任意の2つの隣接する頂点に対応するすべての予測サブクラスがいずれも廃棄されたことに応答して、前記任意の2つの隣接する頂点に対応する前記曲線分の平均接線の傾きに基づいて、前記任意の2つの隣接する頂点に対応する曲線分の平均接線を決定し、前記任意の2つの隣接する頂点のうちの一方に対向する頂点の現在予測座標及び前記任意の2つの隣接する頂点のうちの他方の現在予測座標に基づいて第3の直線を決定し、前記任意の2つの隣接する頂点のうちの他方に対向する頂点の現在予測座標、及び前記任意の2つの隣接する頂点のうちの一方の現在予測座標に基づいて第4の直線を決定し、前記平均接線と前記第3の直線との交点の座標を前記任意の2つの隣接する頂点のうちの一方の最終的予測座標とし、前記平均接線と前記第4の直線との交点の座標を前記任意の2つの隣接する頂点のうちの他方の最終的予測座標とすることをさらに含む。
【0025】
本開示の少なくともいくつかの実施例は、画像処理装置をさらに提供し、この画像処理装置は、コンピュータ読み取り可能なコマンドを非一時的に記憶するためのメモリと、前記コンピュータ読み取り可能なコマンドを実行するためのプロセッサであって、前記コンピュータ読み取り可能なコマンドが前記プロセッサにより実行されると、本開示のいずれかの実施例による画像処理方法を実行するプロセッサとを含む。
【0026】
本開示の少なくともいくつかの実施例は、コンピュータ読み取り可能なコマンドを非一時的に記憶する非一時的な記憶媒体をさらに提供し、前記コンピュータ読み取り可能なコマンドがコンピュータにより実行されると、本開示のいずれかの実施例による画像処理方法を実行する。
【0027】
本開示の実施例の技術的解決手段をより明確に説明するために、以下、実施例の図面を簡単に説明するが、明らかに、以下に説明する図面は、本開示の制限ではなく、本開示のいくつかの実施例に係るものに過ぎない。である。
【図面の簡単な説明】
【0028】
【
図1】本開示の少なくともいくつかの実施例による画像処理方法のフローチャートである。
【
図2】本開示の少なくともいくつかの実施例による入力画像における矩形検出領域の概略図である。
【
図3】本開示の少なくともいくつかの実施例による
図1に示すステップS300に対応する例示的なフローチャートである。
【
図4】本開示の少なくともいくつかの実施例による
図3に示すステップS320に対応する例示的なフローチャートである。
【
図5】本開示の少なくともいくつかの実施例による
図3に示すステップS330に対応する例示的なフローチャートである。
【
図6】本開示の少なくともいくつかの実施例による
図3に示すステップS340に対応する例示的なフローチャートである。
【
図7】本開示の少なくともいくつかの実施例による連通領域解析処理の結果概略図である。
【
図8】本開示の少なくともいくつかの実施例による
図1に示すステップS400に対応する例示的なフローチャートである。
【
図9A】本開示の少なくともいくつかの実施例による
図8に示すステップS430に対応する例示的なフローチャートである。
【
図9B】本開示の少なくともいくつかの実施例による
図8に示すステップS430に対応する別の例示的なフローチャートである。
【
図10A】本開示の少なくともいくつかの実施例による入力画像の概略図である。
【
図10B】
図1に示す画像処理方法に基づいて、
図10Aに示す入力画像を処理して得られた補正後の板書領域画像の概略図である。
【
図11】本開示の少なくともいくつかの実施例による別の画像処理方法のフローチャートである。
【
図12】本開示の少なくともいくつかの実施例による
図11に示すステップS800に対応する別の例示的なフローチャートである。
【
図13A】本開示の少なくともいくつかの実施例による入力画像の概略的なブロック図である。
【
図13B】
図13Aに示す入力画像におけるターゲット領域の四角形境界の概略図である。
【
図13C】
図13Aに示す入力画像におけるターゲット領域の4つの頂点の概略図である。
【
図14】本開示の少なくともいくつかの実施例による画像処理装置の概略的なブロック図である。
【
図15】本開示の少なくともいくつかの実施例による非一時的な記憶媒体の概略図である。
【発明を実施するための形態】
【0029】
本開示の実施例の目的、技術的解決手段及び利点をより明確にするために、以下に、本開示の実施例の図面を併せて、本開示の実施例の技術案を明確に、完全に説明する。明らかに、記載された実施例は本開示の一部の実施例であり、すべての実施例ではない。記載された本開示の実施例に基づいて、当業者が創造的な労働を必要とせずに取得した他のすべての実施例は、本開示の保護の範囲に属する。
【0030】
特に定義されない限り、本開示で使用される技術用語又は科学用語は、本開示が属する分野において一般的な技能を有する者に理解される一般的な意味であるべきである。本開示で使用される「第1」、「第2」及び類似の語は、いかなる順序、数、又は重要性を表すものではなく、異なる構成要素を区別するために使用されるものに過ぎない。「含む」又は「包含する」などの類似語は、その語の前に現れた要素又は物体が、他の要素又は物体を排除することなく、その語の後に列挙された要素又は物体及びそれらの等価物をカバーすることを意味する。「接続」又は「連結」などの類似語は、物理的又は機械的な接続に限定されるものではなく、直接的であれ間接的であれ、電気的な接続を含むことができる。「上」、「下」、「左」、「右」などは、相対位置関係を表すためにのみ使用され、記述されたオブジェクトの絶対位置が変化すると、その相対位置関係もそれに応じて変化することがある。
【0031】
以下、いくつかの具体的な実施例により本開示を説明する。本開示の実施例の以下の説明を明確かつ簡明に維持するために、本開示は、既知機能及び既知部品の詳細な説明を省略する。本開示の実施例のいずれかの部材が1つ以上の図面に現れた場合、該部材は、各図面において同一又は類似する参照符号で表される。
【0032】
現在、授業教学ビデオを録画する時、一般的に、カメラを使用して対面授業教室の教壇方向においてビデオを収集する。実際の授業教学現場では、カメラの配置状況は、非常に複雑であり、その配置位置により、必然的に程度の異なるピッチ角(pitch)及びヨー角(yaw)が発生し、場合によっては配置が不合理であるため、ある程度のロール角(roll)が形成される可能性もあり、これらの状況は、いずれも明らかなビデオ画面の変形を招く。
【0033】
上記ビデオ画面の変形の問題を解決するために、現在使用されている方法は、主に2つある。第1の方法(「スクリーンマーキング法」と略称する)は、収集されたビデオ画像に対して手動にデータマーキングを行い、複数の既知の2次元点座標を得て、2次元座標と3次元座標との関係に基づいてホモグラフィー行列を得、最終的にホモグラフィー行列に基づいて画面の変形を補正することである。第2の方法(「現場キャリブレーション法」と略称する)は、複数のカメラ又は深度カメラを用い、現場に置かれたキャリブレーションプレートによりカメラキャリブレーションを行い、次に得られたカメラパラメータに基づいて画面の変形を補正することである。しかしながら、該方法は、ハードウェアにコストをかける(複数のカメラ又は高い深度カメラを使用する)必要があり、汎用性を有さない。
【0034】
しかしながら、上記2つの方法は、いずれも大きな手作業量を必要とする。また、実際の教室に配置されたカメラは、さまざまな環境要素(例えば、建築工事などによる振動など)によって角度、位置、焦点距離などが変化することが多く、変化するたびにスクリーンマーキング又は現場キャリブレーションを再び行う必要があることを考慮すると、人件費の投入はさらに計り知れない。
【0035】
本開示の少なくともいくつかの実施例は、画像処理方法を提供する。該画像処理方法は、教学シーンの入力画像を取得することと、入力画像に対して検出処理を行って、板書領域を含む矩形検出領域を決定することと、矩形検出領域に対して解析処理を行って、板書領域に対応するターゲット領域を決定することと、ターゲット領域の4つの頂点を決定することと、ターゲット領域の4つの頂点に基づいて、ターゲット領域に対して座標変換を行って、補正後の板書領域画像を得ることとを含む。
【0036】
本開示のいくつかの実施例は、上記画像処理方法に対応する画像処理装置及び非一時的な記憶媒体をさらに提供する。
【0037】
本開示の実施例による画像処理方法は、入力画像における変形した板書領域をキャリブレーション及び補正して、補正後の板書領域画像を得ることができる。該画像処理方法は、他の追加装置を配置することなく、低コストの固定カメラを用いればよく、実用性が高く、広範囲の普及に適している。また、入力画像に対して手動にデータマーキングを行う必要がなく、教学シーンにキャリブレーションプレートを置き且つカメラキャリブレーションを行う必要がなく、人件費を大幅に節約することができ、そして、板書領域の自動マーキング及び補正結果に基づいて、対応する領域の特定処理を補助することができ、例えば、学生が見た関心のあるところを板書領域に集中させることを補助することができる。
【0038】
以下、図面を併せて、本開示のいくつかの実施例及びその例について詳細に説明する。ここに説明された具体的な実施形態は、本開示を説明及び解釈するためにのみ使用され、本開示を限定するために使用されないことを理解すべきである。
【0039】
図1は、本開示の少なくともいくつかの実施例による画像処理方法のフローチャートである。例えば、該画像処理方法は、計算機器に適用することができ、該計算機器は、計算機能を有する任意の電子機器を含み、電子機器は、例えばスマートフォン、ノートパソコン、タブレットコンピュータ、デスクトップコンピュータ、サーバなどであってもよく、本開示の実施例は、これを制限しない。例えば、該計算機器は、中央処理ユニット(Central Processing Unit、CPU)又はグラフィック処理ユニット(Graphics Processing Unit、GPU)を有し、該計算機器は、メモリをさらに含む。該メモリは、例えば、オペレーティングシステムのコードが記憶された不揮発性メモリ(例えば読み取り専用メモリ(Read Only Memory、ROM))である。例えば、メモリにさらにコード又はコマンドが記憶されており、これらのコード又はコマンドを実行することで、本開示の実施例による画像処理方法を実現することができる。
【0040】
例えば、
図1に示すように、該画像処理方法は、以下のステップS100~ステップS500を含む。
【0041】
ステップS100:教学シーンの入力画像を取得する。
【0042】
例えば、一般的な教学シーンにおいて、教師は、教壇で教学を行い、様々な板書で補助する。例えば、本開示の実施例では、板書は、黒板、白板、PPTの投影領域などを含む、教師の教学内容を展示するために使用できる運び手を指し、例えば、板書において、教師は、文字、図形、記号などの板書内容によって教学内容を説明することができる。黒板、白板、PPTの投影領域などの板書に対して、それに具体的な板書の内容があるかどうかにかかわらず、板書とみなされることを理解すべきである。
【0043】
例えば、教学シーンの入力画像は、カメラ(例えば、ビデオカメラのカメラレンズ、スマートフォンのカメラなど)により上記教学シーンの教壇方向を撮影して得られた写真及びビデオ画像などを含んでもよい。例えば、教学シーンの入力画像の画面は、一般的に、上記板書の画面(すなわち板書領域)を含む。
【0044】
例えば、いくつかの実施例では、入力画像は、カラー画像であってもよい。例えば、カラー画像には、3種類のカラーチャンネルを有するカラー画像などが含まれるが、これらに限定されない。例えば、該3種類のカラーチャンネルは、第1のカラーチャンネル、第2のカラーチャンネル及び第3のカラーチャンネルを含む。例えば、該3種類のカラーチャンネルは、三原色に対応する。例えば、いくつかの実施例では、第1のカラーチャンネルは、赤色(R)チャンネルであり、第2のカラーチャンネルは、緑色(G)チャンネルであり、第3のカラーチャンネルは、青色(B)チャンネルであり、すなわち上記カラー画像は、RGBフォーマットのカラー画像であってもよく、なお、本開示の実施例は、これを含むがこれに限定されない。例えば、別の実施例では、入力画像は、階調画像であってもよい。
【0045】
ステップS200:入力画像に対して検出処理を行って、板書領域を含む矩形検出領域を決定する。
【0046】
例えば、いくつかの実施例では、一般的なターゲット検出アルゴリズムを用いて入力画像における板書領域を検出してもよい。例えば、一般的なターゲット検出アルゴリズムは、R-CNN(Region-based Convolutional Neural Networks)、SPP-net(Spatial Pyramid Pooling-net)、Fast R-CNN、Faster R-CNN、R-FCN(Region-based Fully Convolutional Networks)、YOLO(You Only Look Once)、SSD(Single Shot MultiBox Detector)などを含む。例えば、上記ターゲット検出アルゴリズムの検出結果は、入力画像に含まれるターゲットオブジェクトのタイプ及び位置を含んでもよく、ターゲットオブジェクトのタイプに基づいて、入力画像に板書領域が存在するかどうかを判断することができ、ターゲットオブジェクトの位置に基づいて、板書領域の位置を決定することができる。例えば、上記ターゲット検出アルゴリズムは、一般的に、ターゲットオブジェクトのバウンディングボックス(bounding box)(例えば、バウンディングボックスの左上角座標及び右下角座標)を戻すことによって、ターゲットオブジェクトの位置を決定する。上記ターゲット検出アルゴリズムを使用してステップS200を実行する前、一般的に、ターゲット検出モデルを訓練する必要があり、訓練過程は、一般的な訓練方法を参照すればよく、ここでこれ以上説明しないが、もちろん、予め訓練されたターゲット検出モデルを用いてもよいことを理解すべきである。
【0047】
例えば、ステップS200は、入力画像に板書領域が存在するかどうかを検出し、板書領域のバウンディングボックスを戻すために用いられる。異なる教学シーン(例えば、教室)のシーン複雑さが異なるため、異なる教学シーンの入力画像から板書領域を抽出する困難度も異なる。入力画像のシーン全体に基づいて板書領域を抽出する場合、複雑な背景、人物遮蔽、又は自然なシーンの変化に大きく干渉され、シーン全体の入力画像に対して操作を行うと計算コストが増大し、実行速度が低下する。板書領域をより良く検出するために、計算リソースを特定の小領域に集中させることができ、例えば、いくつかの実施例では、YOLOv5モデルを用いてシーン全体画像から特定領域を分割してもよい。YOLOv5モデルは、柔軟性が他のモデルよりはるかに優れており、モデルの迅速な配置において極めて強く、モデルの軽量と速い特徴を兼ね備えている。YOLOv5モデルは、バウンディングボックス回帰(bounding box regression)結果及び分類結果(classification)を出力することができ、それにより、分類が板書領域のバウンディングボックスを得ることができ、例えば、板書領域のバウンディングボックスの左上角座標(X_leftTop、Y_leftTop)及び右下角座標(X_rightBottom、Y_rightBottom)を得ることができる。YOLOv5モデルは、入力画像において検出範囲を狭めることができ、後続の検出のために背景干渉の一部を排除することができる。
【0048】
例えば、いくつかの実施例では、ターゲット検出モデル(例えば、YOLOv5モデル)により出力された板書領域のバウンディングボックスは、検出された板書領域の最小外接矩形枠であり、該最小外接矩形枠で囲まれた矩形領域は、ステップS200における矩形検出領域である。例えば、別の実施例では、後続の処理を容易にするために、上記最小外接矩形枠をそれぞれ上下左右の4つの方向において外へ複数の画素(例えば、10~20個の画素、例えば、15つの画素)拡張することにより、新しい矩形枠を得てもよく、該新しい矩形枠の面積は、最小外接矩形枠の面積よりもやや大きく、この場合、該新しい矩形枠で囲まれた矩形領域をステップS200における矩形検出領域とすることができる。
【0049】
例えば、いくつかの実施例では、存在する可能性のある誤検出を排除するために、板書領域のオリジナル特徴を第1の事前知識として矩形検出領域を認証して、ターゲット検出モデルの誤った分類を排除し、それによりターゲット検出モデルの正確率を向上させることができる。
図2は、本開示の少なくともいくつかの実施例による入力画像における矩形検出領域の概略図である。例示的に、
図2の入力画像は、2つの変形した板書領域(変形したため、矩形状からずれたPPT領域)、及びそれらに対応する2つの矩形検出領域(
図2における黒色矩形枠に示す)を示す。
図2は、概略的であり、本開示の実施例に対する制限とみなすべきではないことを理解すべきである。
【0050】
例えば、いくつかの実施例では、第1の事前知識は、板書領域の中心座標が一般的に入力画像の上半部分に位置することを含む。したがって、矩形検出領域の中心座標は、一般的に入力画像の上半部分に位置する。例えば、上記板書領域のバウンディングボックスの左上角座標及び右下角座標に基づいて計算して矩形検出領域の中心座標を得てもよく、例えば、矩形検出領域の中心座標は、((X_leftTop+X_rightBottom)/2,(Y_leftTop+Y_rightBottom)/2)である。
【0051】
例えば、いくつかの実施例では、第1の事前知識は、板書領域の縦横比が第1の範囲内にあることをさらに含む。現実世界では、板書領域の縦横比は、一般的に知られており、例えば、PPT領域の縦横比は、一般的に4:3又は16:9などであり、白板領域の縦横比は、一般的に1.5:1などであり、黒板領域の縦横比は、一般的に3:1~4:1である。入力画像における板書領域の変形が一般的にひどくないことを考慮すると、上記矩形検出領域の縦横比は、板書領域の縦横比に近くすべきである。例えば、いくつかの実施例では、矩形検出領域の縦横比の要求を以下のように設定することができ、
【数1】
ただし、Rは、矩形検出領域の縦横比を表し、R0は、板書領域の縦横比を表し、xは、許容差のパーセンテージを表す。それにより、第1の範囲は、[(1-x)*R0,(1+x)*R0)]に設定されてもよい。例えば、xの数値は、実際の需要に応じて設定されてもよく、本開示の実施例は、これを制限しない。例えば、いくつかの実施例では、xの値範囲は、[5%,15%]に設定されてもよく、例えば、xは、10%に設定されてもよいが、これに限定されない。
【0052】
理論的に変形していない板書領域に対して、ステップS200における検出処理により、板書領域の具体的な位置を直接得ることができるが、実際の応用において、教学シーンにおけるカメラは、異なる程度の歪みがあり、入力画像における板書領域は、異なる程度の変形が発生し(入力画像には矩形状にぴったりの板書領域がほとんど存在しない)、それにより板書領域のキャリブレーションに一定の影響を与え、ステップS200により板書領域の具体的な位置を直接決定することが困難であるため、ステップS200で得られた矩形検出領域を後続処理する必要がある。
【0053】
ステップS300:矩形検出領域に対して解析処理を行って、板書領域に対応するターゲット領域を決定する。
【0054】
例えば、ステップS300により、矩形検出領域における板書領域に属していないほとんどの画素又はすべての画素を排除し、それにより板書領域の具体的な位置(すなわちターゲット領域)を決定することができる。
【0055】
図3は、本開示の少なくともいくつかの実施例による
図1に示すステップS300に対応する例示的なフローチャートである。例えば、
図3に示すように、ステップS300は、以下のステップS310~ステップS340を含んでもよい。
【0056】
ステップS310:矩形検出領域に対してフィルタリング処理を行って、矩形検出領域に対応するフィルタリング画像を得、フィルタリング画像に基づいて第1の階調画像を得る。
【0057】
例えば、いくつかの実施例では、中央値フィルタリング法を用いて矩形検出領域(入力画像における矩形検出領域を1つの画像とする)に対してフィルタリング処理を行う。例えば、中央値フィルタリング法は、非線形平滑化技術であり、中央値フィルタリング法の原理は、各画素の階調値を該画素の近傍ウィンドウ(例えば、該画素を中心とする3×3のウィンドウにおける、該画素以外の他の8つの画素からなる8近傍ウィンドウ)内のすべての画素階調値の中央値で代替し、周囲の画素値をより真の値に近づけさせ、不要なノイズ点を抑制し、冗長干渉を排除することである。なお、本開示の実施例は、フィルタリング処理に用いる方法を制限しない。また、なお、画像では、ノイズ点がある位置は、一般的に階調変化が大きいところであり、ノイズ点がある位置は、擬似エッジと識別されやすいため、ステップS310におけるフィルタリング処理は、後続のステップS330におけるエッジ検出処理の効果を改善することができる。
【0058】
例えば、いくつかの実施例では、入力画像は、カラー画像(例えば、RGBフォーマットのカラー画像)であり、これに対応して、フィルタリング画像もカラー画像であり、この場合、一般的な変換式によってカラー画像(例えば、フィルタリング画像)を階調画像(例えば、第1の階調画像)に変換することができる。RGBフォーマットのカラー画像を階調画像に変換することを例として、以下の変換式により変換することができ、
Gray=R*0.299+G*0.587+B*0.114
ただし、Grayは、階調画像の輝度情報を表し、R、G及びBは、それぞれRGBフォーマットのカラー画像の赤色情報(すなわち赤色チャンネルのデータ情報)、緑色情報(すなわち緑色チャンネルのデータ情報)及び青色情報(すなわち青色チャンネルのデータ情報)を表す。
【0059】
例えば、別の実施例では、入力画像は、階調画像であり、これに対応して、フィルタリング画像も階調画像であり、この場合、直接フィルタリング画像を第1の階調画像とすることができる。
【0060】
ステップS320:第1の階調画像に対して顕著性領域検出処理を行って、第2の階調画像を得る。
【0061】
例えば、いくつかの実施例では、グローバルコントラストに基づく顕著性検出方法を用いて第1の階調画像に対して顕著性領域検出を行ってもよい。例えば、いくつかの実施例では、
図4に示すように、ステップS320は、以下のステップS321及びステップS322を含んでもよい。
【0062】
ステップS321:第1の階調画像上の各画素の、第1の階調画像上のグローバルコントラストを該各画素の顕著値として計算する。
【0063】
例えば、グローバルコントラストに基づく顕著性検出方法は、各画素の全画像(すなわち第1の階調画像)上のグローバルコントラストを該各画素の顕著値として計算し、すなわち各画素と画像における他の画素との階調値上の距離の和を該各画素の顕著値としてもよい。例えば、以下の式により画像におけるいずれかの画素の顕著値を計算してもよく、
【数2】
ただし、SalS(I
k)は、画像Iにおけるk番目の画素の顕著値を表し、I
kは、画像Iにおけるk番目の画素の階調値を表し、I
iは、画像Iにおけるi番目の画素の階調値を表す。該方法は、矩形検出領域における最も顕著な物体(例えば、
図2に示す輝度が高いPPT領域)を強調することができ、高い耐ノイズ性を有する。
【0064】
ステップS322:第1の階調画像上のすべての画素の顕著値に基づいて、第2の階調画像を得、第2の階調画像上のいずれかの画素の階調値は、第1の階調画像上の該いずれかの画素に対応するある画素の顕著値である。
【0065】
例えば、いくつかの実施例では、第1の階調画像における各画素の階調値を該各画素の顕著値に置き換えることによって、第2の階調画像を得てもよい。
【0066】
ステップS330:第2の階調画像に対してエッジ検出処理及び二値化処理を行って、二値画像を得る。
【0067】
例えば、いくつかの実施例では、Sobelアルゴリズム、Cannyアルゴリズム及びLaplacianアルゴリズムなどのエッジ検出アルゴリズムのうちのいずれかを用いて第2の階調画像に対してエッジ検出処理を行ってもよい。例えば、いくつかの実施例では、
図5に示すように、ステップS330は、以下のステップS331~ステップS334を含んでもよい。
【0068】
ステップS331:第2の階調画像上のすべての画素の階調勾配を計算して、初期選択エッジ画素を決定する。
【0069】
例えば、階調勾配は、階調変化が明らかなところを表すことができ、物体のエッジも階調変化が明らかなところでもあるため、階調勾配を計算することによって画像における物体のエッジを決定することができる。もちろん、階調変化が大きいところは、物体のエッジである可能性があり、物体のエッジではない可能性があるため、ステップS331において、可能な物体のエッジ(すなわち初期選択エッジ画素)しか得ることができない。ステップS331に基づいて、初期選択エッジ画素の集合を得る。
【0070】
ステップS332:初期選択エッジ画素に対して非極大値抑制操作を行って、二次選択エッジ画素を決定する。
【0071】
例えば、一般的に階調変化が明らかなところは、集中しており、局所範囲内の勾配方向において、階調変化が最も大きい(すなわち勾配値が最も大きい)ものを残しておき、他のものを残さず、このように初期選択エッジ画素の大部分を除去し、それにより複数の画素幅を有する物体のエッジを単一画素幅の物体のエッジに変えることができる。非極大値抑制操作により、誤検出のエッジを削除することができる。
【0072】
ステップS333:二次選択エッジ画素に対して二重閾値スクリーニング操作を行って、最終的選択エッジ画素を得る。
【0073】
例えば、非極大値抑制操作の後、真の物体のエッジに属していない二次選択エッジ画素が多数存在する可能性がある。二重閾値、すなわち高閾値及び低閾値をさらに設定して、二重閾値スクリーニング操作を行うことができる。ある画素の階調勾配値が高閾値よりも高い場合、残し、それを強エッジ画素に設定し、ある画素の階調勾配値が低閾値よりも低い場合、廃棄し、ある画素の階調勾配値が高閾値と低閾値との間にある場合、それを弱エッジ画素に設定し、該画素の近傍ウィンドウ(例えば、8近傍)内から階調勾配値を探し、高閾値よりも高い階調勾配値がある場合、残し、そうではない場合、廃棄する。このようにする目的は、強エッジ画素のみを残すと、エッジが閉じない可能性があり、エッジができるだけ閉じるように、弱エッジ画素から補充する必要があることである。
【0074】
二重閾値の選択がエッジ検出処理の結果に大きな影響を与えるため、本開示の実施例は、異なる画像に基づいて高低閾値を自動的に決定できる方式を提供し、まず画像(例えば、第2の階調画像)勾配の中央値vを決定し、固定パラメータa0(a0>0であり且つa0<1である)を設定し、計算して低閾値(1-a0)*v及び高閾値(1+a0)*vを得る。それにより、異なるシーンの異なる画像に対してより合理的なエッジ検出処理を行い、物体の輪郭(例えば、板書領域の輪郭)をより明瞭に表示することができる。例えば、a0の値は、実際の需要に応じて設定されてもよく、本開示の実施例は、これを制限しない。例えば、いくつかの実施例では、a0の値範囲は、[0.28,0.37]に設定されてもよく、例えば、a0は、0.33に設定されてもよいが、これに限定されない。
【0075】
ステップS334:最終的選択エッジ画素に基づいて、第2の階調画像に対して二値化処理を行って、二値画像を得る。
【0076】
例えば、いくつかの実施例では、第2の階調画像におけるすべての最終的選択エッジ画素の階調平均値を閾値として、第2の階調画像に対して二値化処理を行って、二値画像を得てもよい。なお、本開示は、これを含むがこれに限定されない。例えば、実際の応用において、さらに他の任意の実現可能な方式を用いて二値化処理における閾値を決定してもよい。
【0077】
ステップS340:二値画像に対して連通領域解析処理を行って、板書領域に対応するターゲット領域を決定する。
【0078】
例えば、いくつかの実施例では、
図6に示すように、ステップS340は、以下のステップS341~ステップS343を含んでもよい。
【0079】
ステップS341:二値画像上のすべての連通領域及び各連通領域の外接矩形枠を決定する。
【0080】
例えば、連通領域とは、画像における同じ画素値を有し且つ位置が隣接する前景画素からなる画像領域を意味する。例えば、2回の走査(Two-Pass)法又はシードフィリング(Seed-Filling)法又はOpenCVのconnectedComponentsWithStates関数などの一般的なアルゴリズムを用いて二値画像において連通領域を探してもよく、次に、最小外接矩形アルゴリズム(例えば、OpenCVのminAreaRect関数を含むがこれに限定されない)を用いて各連通領域の外接矩形枠を決定してもよい。例えば、いくつかの実施例では、各連通領域の外接矩形枠の左上角座標(x1,y1)及び右下角座標(x2,y2)を得てもよい。
【0081】
ステップS342:外接矩形枠の面積の大きい順に第2~第N(Nは、2以上の整数である)の連通領域を選択すべき領域として選択する。
【0082】
例えば、いくつかの実施例では、各連通領域の外接矩形枠の面積は、その左上角座標(x1,y1)及び右下角座標(x2,y2)に基づいて計算して得られてもよく、例えば、計算式は、以下に表してもよく、
Area=|x1-x2|*|y1-y2|
ただし、Areaは、外接矩形枠の面積を表す。
【0083】
例えば、二値画像では、背景画素は一般に連通しており、背景領域(すなわち背景画素が形成した連通領域)に対応する外接矩形枠の面積が最も大きいことが多いため、ステップS342では、外接矩形枠の面積が最も大きい連通領域を直接排除することができ、すなわち背景領域を直接排除することができる。
【0084】
例えば、Nは、実際の需要に応じて設定されてもよく、本開示の実施例は、これを制限しない。例えば、いくつかの実施例では、Nの値範囲は、[2,5]に設定されてもよく、例えばN=2であり、また例えばN=5などである。
【0085】
ステップS343:板書領域の第2の事前知識に基づいて、選択すべき領域を認証して、板書領域に対応するターゲット領域を決定する。
【0086】
例えば、いくつかの実施例では、第2の事前知識は、板書領域の中心座標と二値画像の中心座標との間の距離が距離閾値よりも小さいことを含む。これに対応して、板書領域の外接矩形枠の中心座標と二値画像の中心座標との間の距離も距離閾値よりも小さい。例えば、上記各連通領域の外接矩形枠の左上角座標及び右下角座標に基づいて計算して各連通領域の外接矩形枠の中心座標を得てもよく、例えば、各連通領域の外接矩形枠の中心座標は、((x1+x2)/2,(y1+y2)/2)であり、次に、各連通領域の外接矩形枠の中心座標と二値画像の中心座標との間の距離を計算してもよく、距離が距離閾値よりも小さい連通領域は、板書領域に対応するターゲット領域である可能性が高い。例えば、いくつかの例では、各連通領域の外接矩形枠の中心座標と二値画像の中心座標との間の距離は、二値画像の幅方向における第1の距離及び二値画像の高さ方向における第2の距離を含み、これに対応して、距離閾値は、二値画像の幅方向における第1の距離閾値及び二値画像の高さ方向における第2の距離を含み、第1の距離は、第1の距離閾値よりも小さくすべきであり、第2の距離は、第2の距離閾値よりも小さくすべきである。例えば、第1の距離閾値は、二値画像の幅の5%~30%又は他の適切な比率などに設定されてもよく、同様に、第2の距離閾値は、二値画像の高さの5%~30%又は他の適切な比率などに設定されてもよい。
【0087】
例えば、いくつかの実施例では、第2の事前知識は、板書領域の縦横比が第2の範囲内にあることをさらに含む。例えば、第2の範囲は、[(1-y)*R0,(1+y)*R0)]に設定されてもよく、R0は、板書領域の縦横比を表し、yは、許容差のパーセンテージを表す。例えば、yの数値は、実際の需要に応じて設定されてもよく、本開示の実施例は、これを制限しない。例えば、いくつかの実施例では、yの値範囲は、[5%,15%]に設定されてもよく、例えば、yは、10%に設定されてもよいが、これに限定されない。例えば、第2の範囲は、第1の範囲と同じであってもよく、もちろん、両者は異なっていてもよい。
【0088】
図7は、本開示の少なくともいくつかの実施例による連通領域解析処理の結果概略図である。例示的に、
図7に示すように、二値画像に対して連通領域解析処理を行う時、複数の連通領域(背景領域、板書領域及び他のマーキングされていない連通領域を含み、
図7における異なる階調の領域に示す)を得ることができ、すべての連通領域の外接矩形枠のうち、背景領域の外接矩形枠の面積の大きさの順序は、一般的に第1位であり、板書領域の外接矩形枠の面積の大きさの順序は、一般的に第2位である。なお、簡潔に示すために、
図7において、各連通領域の外接矩形枠を省略するとともに、異なる連通領域を区別するために、異なる階調を使用して異なる連通領域を示すため、
図7は、元の二値画像と異なる。
図7は、概略的であり、本開示の実施例に対する制限とみなすべきではないことを理解すべきである。
【0089】
ステップS400:ターゲット領域の4つの頂点を決定する。
【0090】
例えば、いくつかの実施例では、
図8に示すように、ステップS400は、以下のステップS410~ステップS440を含んでもよい。
【0091】
ステップS410:輪郭検出アルゴリズムを使用してターゲット領域に対して輪郭検出処理を行って、少なくとも1つの輪郭を得る。
【0092】
例えば、いくつかの実施例では、OpenCVのfindContours関数などの輪郭検出アルゴリズムを用いてターゲット領域に対して輪郭検出処理を行って、少なくとも1つの輪郭を抽出してもよい。例えば、いくつかの実施例では、上記二値画像(ターゲット領域を含む)に対して輪郭検出処理を行ってもよい。例えば、いくつかの実施例では、輪郭検出処理を行う時、ターゲット領域(すなわち板書領域)における文字又は画像などの内容の輪郭も抽出されてもよい。
【0093】
例えば、各輪郭は、いずれも1つの対応する輪郭リストを含み、該輪郭リストは、該選択すべき輪郭のすべての角点の情報(例えば、角点の座標位置など)を含む。
【0094】
ステップS420:該少なくとも1つの輪郭に対してスクリーニング処理を行って、少なくとも1つの予備輪郭を得る。
【0095】
例えば、いくつかの実施例では、以下のスクリーニング原則に基づいて少なくとも1つの輪郭に対してスクリーニング処理を行ってもよい。(1)輪郭で囲まれた領域の面積が大きい。(2)輪郭で囲まれた領域の周長が長い。その原理は、ターゲット領域における面積が大きい又は周長が長い輪郭が一般的に板書領域のエッジ及び角点に関連することである。
【0096】
ステップS430:該少なくとも1つの予備輪郭に基づいて、予備角点集合を決定する。
【0097】
例えば、いくつかの実施例では、該少なくとも1つの予備輪郭の輪郭リストに基づいて、各角点に対応する頂角の角度値を計算し、スクリーニングして予備角点集合を得てもよい。実際の応用において、各輪郭リストは、一般的に複数の角点からなるが、どの角点が板書領域の頂点に対応するかを決定することができない。背景エッジ情報が乱雑であることを考慮すると、板書領域に属していない角点が輪郭リストに現れる可能性がある。例えば、板書領域の頂点(板書領域が4つの頂点を含む)に対して、一般的に、板書領域の頂点での角度変化が平行線上の角点の角度変化よりも大きいという事前情報を決定してもよい。
【0098】
図9Aは、本開示の少なくともいくつかの実施例による
図8に示すステップS430に対応する例示的なフローチャートである。例えば、いくつかの実施例では、
図9Aに示すように、ステップS430は、以下のステップS431~ステップS432を含んでもよい。
【0099】
ステップS431:少なくとも1つの予備輪郭の各角点に対応する頂角の角度値を計算する。
【0100】
例えば、いくつかの実施例では、各予備輪郭の輪郭リストに基づいて、各角点の座標位置及び該角点に隣接する2つの角点の座標位置を決定してもよい。ある角点Bを例として、角点Bに隣接する2つの角点が角点A及び角点Cであり、角点A、B、Cの座標がそれぞれ(x
A,y
A)、(x
B,y
B)、(x
C,y
C)であり、角点Bに対応する頂角が∠ABCであると、角点A、B、Cからなる三角形の3本の辺a、b、cの大きさは、それぞれ以下の通りであり、
【数3】
角点Bに対応する頂角∠ABCの角度値は、以下の式(三角形余弦定理)に基づいて計算してもよく、
【数4】
ただし、βは、角点Bに対応する頂角∠ABCの角度値を表す。
【0101】
ステップS432:少なくとも1つの予備輪郭の各角点に対応する頂角の角度値に基づいて、該少なくとも1つの予備輪郭の各角点をスクリーニングして、複数の第1の予備角点を得、予備角点集合は、該複数の第1の予備角点を含む。
【0102】
例えば、理論的に変形していない板書領域に対して、その4つの頂点に対応する頂角は、いずれも直角であり、しかしながら、画面の変形を考慮し、入力画像における板書領域の各頂点に対応する頂角は、やや直角からずれる可能性がある。例えば、いくつかの実施例では、頂角の角度値が予め設定された角度範囲内にある角点を第1の予備角点としてもよい。例えば、予め設定された角度範囲は、実際の需要に応じて設定されてもよく、本開示の実施例は、これを制限しない。例えば、いくつかの実施例では、予め設定された角度範囲は、60°~135°又は75°~125°などに設定されてもよい。それにより、スクリーニングにより得られた予備角点集合における角点(すなわち複数の第1の予備角点)は、板書領域のある頂点の近くにある可能性が高い(ある角点自体が板書領域のある頂点である場合を含む)。
【0103】
例えば、別の実施例では、該少なくとも1つの予備輪郭の輪郭リストに基づいて、各予備輪郭に対して四角形フィッティングを行って、予備角点集合を得てもよい。例えば、ステップS420で得られた予備輪郭は、一般的に、形状が異なる多角形であり、各予備輪郭に対して四角形フィッティングを行い、フィッティングして得られた四角形の4つの頂点を予備角点(例えば、第2の予備角点)とすることにより、予備角点集合のデータ規模を小さくすることができ、画像処理方法の実行速度を向上させることに有利である。
【0104】
図9Bは、本開示の少なくともいくつかの実施例による
図8に示すステップS430に対応する別の例示的なフローチャートである。例えば、いくつかの実施例では、
図9Bに示すように、ステップS430は、以下のステップS433~ステップS435を含んでもよい。
【0105】
ステップS433:角点の数閾値に基づいて少なくとも1つの予備輪郭をスクリーニングし、少なくとも1つの予備選択輪郭を得る。
【0106】
例えば、画面の変形を考慮しても、入力画像における板書領域に対応する輪郭に含まれた角点の数が一般的にあまり多くないため、角点の数が角点の数閾値よりも大きい予備輪郭が板書領域の頂点を含まない可能性が高いと考えられる。例えば、角点の数閾値は、実際の需要に応じて設定されてもよく、本開示の実施例は、これを制限しない。例えば、いくつかの実施例では、角点の数閾値の値範囲は、[6,10]に設定されてもよく、例えば、角点の数閾値は、8に設定されてもよいが、これに限定されない。
【0107】
ステップS434:フィッティング精度に従って各予備選択輪郭に対して折れ線化フィッティングを行い、各予備選択輪郭における距離がフィッティング精度よりも大きい角点を廃棄し、距離がフィッティング精度よりも小さい角点を残して、閉じたフィッティンググラフィックを得る。
【0108】
例えば、いくつかの実施例では、1回目の折れ線化フィッティング過程におけるフィッティング精度(すなわちフィッティング精度初期値)は、b0*Lengthに設定されてもよく、b0>0であり且つb0<1であり、Lengthは、対応する予備選択輪郭の輪郭周長を表す。例えば、いくつかの実施例では、b0の値範囲は、[0.005,0.02]に設定されてもよく、例えば、b0は、0.01に設定されてもよいが、これに限定されない。
【0109】
ステップS435:フィッティンググラフィックの面積及び角点の数を計算し、面積が面積閾値よりも小さく且つ角点の数が4よりも小さいフィッティンググラフィックに対応する予備選択輪郭を廃棄し、そうではない場合、面積が面積閾値以上であり且つ角点の数が4に等しいフィッティンググラフィックを見つけるまで、フィッティング精度の数値を向上させ且つ次の折れ線化フィッティングを行い、最終的に決定されたフィッティング画像の4つの頂点を第2の予備角点とし、予備角点集合は、複数の第2の予備角点を含む。
【0110】
例えば、面積閾値は、実際の需要に応じて設定されてもよく、本開示の実施例は、これを制限しない。例えば、いくつかの実施例では、固定パラメータc0(c0>0であり且つc0<1である)を設定し、ステップS300において決定されたターゲット領域(例えば、具体的に、ステップS343において決定されたターゲット領域)に基づいてターゲット領域の面積S0を計算し、計算して面積閾値c0*S0を得てもよい。例えば、c0の値は、実際の需要に応じて設定されてもよく、本開示の実施例は、これを制限しない。例えば、いくつかの実施例では、c0の値範囲は、[0.1,0.3]に設定されてもよく、例えば、c0は、0.2に設定されてもよいが、これに限定されない。もちろん、いくつかの実施例では、実行速度を向上させるために、上記ターゲット領域の面積S0をターゲット領域の外接矩形枠の面積に置き換えてもよい。
【0111】
例えば、いくつかの実施例では、フィッティング精度初期値がb0*Lengthに設定される場合、この後の毎回の折れ線化フィッティング過程におけるフィッティング精度は、前の折れ線化フィッティング過程におけるフィッティング精度に例えば0.5*b0*Lengthなど増加してもよい。
【0112】
例えば、いくつかの実施例では、同時に以上の2つの方式を用いてステップS430の操作を実現してもよく、つまり、ステップS430は、上記ステップS431~ステップS435を含んでもよく、この場合、予備角点集合は、複数の第1の予備角点及び複数の第2の予備角点を含み、それにより、後続のステップS440において決定されたターゲット領域の4つの頂点の精度を向上させることができる。
【0113】
例えば、ステップS430において得られた予備角点集合は、板書領域の各頂点の近くに分布した複数の角点を含む。
【0114】
ステップS440:予備角点集合に基づいて、ターゲット領域の4つの頂点を決定する。
【0115】
例えば、いくつかの実施例では、予備角点集合における角点(すなわち上記第1の予備角点及び/又は第2の予備角点)に対して第1のクラスタリング操作を行って、4つのクラスタ中心を得、該4つのクラスタ中心をターゲット領域の4つの頂点としてもよい。例えば、いくつかの実施例では、K平均クラスタリングアルゴリズムを用いて上記第1のクラスタリング操作を行ってもよい。
【0116】
例えば、K平均クラスタリングアルゴリズムの主なステップは、予測データ(すなわち予備角点集合)をKグループに分け、K個のオブジェクト(オブジェクトは、予備角点集合における角点である)を初期のクラスタ中心としてランダムに選択し、次に各オブジェクトと各シードクラスタ中心との間の距離を計算し、各オブジェクトをそれと最も近いクラスタ中心に割り当てることを含む。クラスタ中心及びそれらに割り当てられたオブジェクトは、1つのクラスタを表す。サンプルを割り当てるごとに、クラスタのクラスタ中心は、クラスタにおける既存のオブジェクトに基づいて再計算される。この過程は、ある終了条件が満たされるまで繰り返される。終了条件は、0個(又は最少数)のオブジェクトが異なるクラスタに再割り当てられ、0個(又は最少数)のクラスタ中心が変化し、誤差二乗和が局所的に最小であることである。
【0117】
例えば、本開示の実施例では、K値は、4に設定され、予備角点集合におけるすべての角点を4種類に分類し、クラスタリング過程において用いられる距離は、ユークリッド距離(具体的に、2次元空間のユークリッド距離)である。例えば、分類すべきサンプルの座標位置及びクラスタ中心の座標位置に基づいて、両者間のユークリッド距離を計算してもよく、上記座標位置は、いずれも画像座標系下の座標位置である。最終的に、4つのクラスタ中心をターゲット領域の4つの頂点として得、すなわち板書領域の4つの頂点を予測してもよい。つまり、入力画像における変形した板書領域に対するキャリブレーションを実現する。
【0118】
ステップS500:ターゲット領域の4つの頂点に基づいて、ターゲット領域に対して座標変換を行って、補正後の板書領域画像を得る。
【0119】
例えば、補正後の板書領域画像は、実際の板書領域に対応し、一般的に矩形である。例えば、いくつかの実施例では、制約条件に基づいてステップS500における座標変換操作を行ってもよく、制約条件は、補正後の板書領域画像が矩形であり、ターゲット領域の4つの頂点が座標変換後に矩形の4つの頂点に対応することを含む。
【0120】
例えば、いくつかの例では、上記制約条件に基づいて、以下の座標変換式に従って座標変換行列を計算してもよく、
【数5】
ただし、(U,V)は、補正後の板書領域画像における座標を表し、(X,Y)は、入力画像における座標を表し、a11、a21、a31、a12、a22、a32、a13、a23、a33は、3×3の変換行列であり、a33=1である。例えば、まず上記座標変換式、及びターゲット領域の4つの頂点の入力画像における座標位置と補正後の板書領域画像の4つの頂点の座標位置との対応関係に基づいて、変換行列を決定し、次に、上記座標変換式に基づいて、ターゲット領域(及びターゲット領域の周りの一部の領域)における各画素点に対して座標変換を行って、補正後の板書領域画像における各画素点を得てもよい。それにより、入力画像における変形した板書領域に対する補正を実現する。
【0121】
図10Aは、本開示の少なくともいくつかの実施例による入力画像の概略図であり、
図10Bは、
図1に示す画像処理方法を用いて
図10Aに示す入力画像を処理して得られた補正後の板書領域画像の概略図である。なお、
図10Bは、
図1に示す画像処理方法を用いて
図10Aに示す入力画像の右側の板書領域(すなわち
図10Aのブロックに示すPPT領域)を処理して得られた補正後の板書領域画像を例示的に示す。例えば、
図10Aに示す入力画像に比べて、
図10Bに示す補正後の板書領域画像は、学生が見た関心のあるところを板書領域に集中させることを補助することができ、それにより勉強効率を向上させることに寄与する。
【0122】
なお、マルチフレームの画像を含む授業教学ビデオに対して、人物遮蔽又は光線変化などの要素の存在により、異なるフレームの画像に対応する出力結果(すなわちキャリブレーションされた板書領域の頂点座標)が一致しない問題を招く可能性がある。上記問題を解決するために、2回の認証の方式を用いてターゲット領域(すなわち板書領域)の4つの頂点の座標を再確認することができる。
【0123】
図11は、本開示の少なくともいくつかの実施例による別の画像処理方法のフローチャートである。例えば、
図11に示すように、該画像処理方法は、以下のステップS600~ステップS900を含む。
【0124】
ステップS600:教学シーンのビデオシーケンスを取得する。
【0125】
例えば、ステップS100における操作と同様に、カメラにより教学シーンの教壇方向を撮影してビデオシーケンスを得てもよい。例えば、ビデオシーケンスは、一般的に複数のフレームの画像を含み、例えば、一部のフレームの画像には、板書領域の頂点が人物(例えば、教師など)により遮蔽される問題が存在する可能性があり、それにより、この一部のフレームの画像に対して板書領域のキャリブレーションを行う時、板書領域の頂点の位置を正確にキャリブレーションできず(すなわち正確ではない予測頂点が存在し)、さらに、上記正確ではない予測頂点に基づいて板書領域を補正すると、補正後の板書領域画像の画面に変形が存在してしまう可能性があり、それにより見る効果の改善に不利になる。
【0126】
ステップS700:ビデオシーケンスからマルチフレームの画像をそれぞれ入力画像として抽出して、ターゲット領域の該マルチフレームの画像のうちの各フレームの画像上の4つの頂点を得る。
【0127】
例えば、いくつかの実施例では、ビデオシーケンスから例えば10~20フレームの画像をそれぞれ入力画像としてランダムに抽出してもよく、本開示は、これを含むがこれに限定されない。
【0128】
例えば、抽出された各フレームの画像を入力画像とした後、上記ステップS100~ステップS500を用いてステップS700の操作を実現してもよく、具体的な実現過程及び詳細は、上記関連説明を参照すればよく、ここでこれ以上説明しない。
【0129】
ステップS800:ターゲット領域の該マルチフレームの画像のうちの各フレームの画像上の4つの頂点を予測頂点とし、予測頂点に基づいてターゲット領域の4つの最終的予測頂点を決定する。
【0130】
例えば、いくつかの実施例では、
図12に示すように、ステップS800は、以下のステップS810~ステップS850を含んでもよい。
【0131】
ステップS810:ターゲット領域の各頂点に対応する予測頂点の座標に基づいて、各頂点に対応する予測頂点に対して第2のクラスタリング操作を行って、各頂点に対応する少なくとも1つの予測サブクラスを得、各頂点に対応する、現在最も多い予測頂点を含む予測サブクラスの中心座標を前記各頂点の現在予測座標とする。
【0132】
例えば、いくつかの実施例では、各頂点に対応する複数の予測頂点のうちの任意の2つの予測頂点のユークリッド距離を計算し、ある予測頂点及びその近くの例えば3つの画素以下の予測頂点を1つの予測サブクラスにまとめ、該予測サブクラスの中心点を次のステップの予測頂点とし、予測頂点が異なる予測サブクラスに再割り当てられていない又は予測サブクラスの中心座標が変化していない又は誤差二乗和が局所的に最小になるまで、上記操作を繰り返す。それにより、第2のクラスタリング操作を実現することができる。
【0133】
ステップS820:ターゲット領域の4つの頂点の現在予測座標に基づいて、任意の2つの隣接する頂点の現在予測座標の結ぶ線と水平線との第1の夾角値を決定する。
【0134】
例えば、いくつかの実施例では、任意の2つの隣接する頂点の現在予測座標の結ぶ線の傾きを計算し、次に傾き及び三角関数に基づいて該結ぶ線と水平線との第1の夾角値を決定してもよい。なお、傾きが無限大になる時、該結ぶ線が水平線に垂直であり、すなわち該結ぶ線と水平線との第1の夾角値が90°であることを示している。
【0135】
例えば、別の実施例では、ある頂点の現在予測座標の、水平線に平行する方向において任意の1つの画素点座標を選択し、上記三角形余弦定理に基づいて、2つの隣接する頂点の現在予測座標の結ぶ線と、該ある頂点の現在予測座標と該画素点座標の結ぶ線との夾角値を計算すれば、2つの隣接する頂点の現在予測座標の結ぶ線と水平線との第1の夾角値を得ることができる。
【0136】
ステップS830:任意の2つの隣接する頂点の現在予測座標に基づいて、該マルチフレームの画像のうちのあるフレームの画像において1つの予測矩形領域を決定し、該あるフレームの画像は、フィルタリング処理、顕著性領域検出処理、エッジ検出処理及び二値化処理がされたものであり、該任意の2つの隣接する頂点の現在予測座標の結ぶ線は、予測矩形領域の対角線であり、予測矩形領域の各辺は、水平線に平行する又は垂直である。
【0137】
例えば、ステップS830におけるフィルタリング処理、顕著性領域検出処理、エッジ検出処理及び二値化処理は、上記ステップS310、ステップS320、ステップS330の関連説明を参照すればよい。具体的な実現過程及び詳細は、ここでこれ以上説明しない。例えば、上記処理の後、該あるフレームの画像に基づいて二値画像を得ることができ、それにより、該二値画像において予測矩形領域を決定することができ、該予測矩形領域にターゲット領域(すなわち板書領域)のエッジ画素(例えば、最終的選択エッジ画素)情報が含まれる。画面の変形を考慮し、予測矩形領域において、板書領域の境界は、水平する又は垂直な境界ではなく、湾曲した円弧線分と示される。
【0138】
ステップS840:予測矩形領域において直線を探して、複数本の線分を含む1本の曲線分を決定し、該複数本の線分に基づいて該曲線分の平均接線の傾きを決定し、該平均接線の傾きに基づいて該平均接線と水平線との第2の夾角値を決定する。
【0139】
例えば、いくつかの実施例では、ステップS840は、以下のステップS841~ステップS843を含んでもよい。
【0140】
ステップS841:予測矩形領域におけるエッジ画素の形成した線分をデカルト座標系からハフ空間に変換して、複数の線分を決定する。
【0141】
例えば、デカルト座標系における1本の直線は、ハフ空間の1点に対応し、デカルト座標系下の点が共線であると、ハフ空間におけるこれらの点に対応する直線は、1点に交差する。従って、この特性に基づいてデカルト座標系における直線を検出することができる。該方法は、直線を探す他の方法に比べて、ノイズ干渉をよりよく低減させることができる。なお、ステップ(1)に基づいて、一般的に予測矩形領域において多くの連続しない線分を得ることができる。
【0142】
ステップS842:線分の始終点の位置が重なるかどうか又は近いどうかに基づいて、上記複数の線分が同じ曲線に属しているかどうかを判断して、1本の曲線分を決定する。
【0143】
例えば、ステップS842では、重なるかどうか又は近いかどうかを判断する閾値は、実際の需要に応じて設定されてもよい。例えば、該閾値は、例えば5つの画素に設定されてもよく、すなわち、1本の線分のある端点と別の線分のある端点との間の距離が5つの画素以下である場合、この2つの線分の始終点の位置が重なる又は近いと考える。ステップ(2)に基づいて、入力画像における板書領域の境界に対応する1つの曲線分を決定することができる。
【0144】
ステップS843:曲線分におけるすべての線分の傾きの平均値を曲線分の平均接線の傾きとして計算し、平均接線の傾きに基づいて平均接線と水平線との第2の夾角値を決定する。
【0145】
例えば、以下の式に基づいて曲線分におけるすべての線分の傾きの平均値を計算してもよく、
【数6】
ただし、kは、曲線分におけるすべての線分の傾きの平均値を表し、nは、曲線分におけるすべての線分の数を表し、iは、i番目の線分を表し、
【数7】
は、それぞれ線分の両端の座標を表す。次に、三角関数に基づいて曲線分の平均接線と水平線との第2の夾角値を決定してもよい。
【0146】
ステップS850:第1の夾角値及び第2の夾角値に基づいて、該任意の2つの隣接する頂点の最終的予測座標を決定する。
【0147】
例えば、いくつかの実施例では、ステップS850は、以下のステップ(1)を含んでもよい。
【0148】
(1)第1の角度値と第2の角度値との差分が第1の閾値以下であることに応答して、該任意の2つの隣接する頂点の現在予測座標を前記任意の2つの隣接する頂点の最終的予測座標とする。例えば、第1の閾値は、実際の需要に応じて設定されてもよく、本開示の実施例は、これを制限しない。例えば、いくつかの実施例では、第1の閾値は、例えば3°に設定されてもよいが、これに限定されない。
【0149】
例えば、いくつかの実施例では、ステップS850は、以下のステップ(2)-(4)をさらに含んでもよい。
【0150】
(2)第1の角度値と第2の角度値との差分が第1の閾値よりも大きいことに応答して、該任意の2つの隣接する頂点の現在予測座標と前記曲線分との最小距離が第2の閾値以下であるかどうかを判断する。例えば、第1の角度値と第2の角度値との差分が第1の閾値よりも大きいと、該任意の2つの隣接する頂点のうちの少なくとも1つの現在予測座標に予測誤差が存在し、その現在予測座標が最終的予測座標として適切ではないことを示している。ここに2つの場合が存在する。1つは、1つの頂点だけの現在予測座標に予測誤差が存在する。もう1つは、2つの頂点の現在予測座標にいずれも予測誤差が存在する。以下のステップ(3)及び(4)により、判断結果に基づいて上記2つの場合をそれぞれ処理することができる。例えば、各頂点の現在予測座標と曲線分との最小距離は、各頂点の現在予測座標と曲線分におけるすべての線分との距離の最小者であり、例えば、各頂点の現在予測座標と各線分との距離は、ユークリッド距離を用いて計算されてもよい。
【0151】
(3)該任意の2つの隣接する頂点のうちの一方の現在予測座標と該曲線分との最小距離が第2の閾値以下であり且つ該任意の2つの隣接する頂点のうちの他方の現在予測座標と該曲線分との最小距離が第2の閾値よりも大きいことに応答して、平均接線の傾きに基づいて、該任意の2つの隣接する頂点のうちの一方の現在予測座標を通る第1の直線を決定するとともに、該任意の2つの隣接する頂点のうちの一方に対向する頂点の現在予測座標及び該任意の2つの隣接する頂点のうちの他方の現在予測座標に基づいて第2の直線を決定し、該任意の2つの隣接する頂点のうちの一方の現在予測座標を該任意の2つの隣接する頂点のうちの一方の最終的予測座標とし、該第1の直線と第2の直線との交点の座標を該任意の2つの隣接する頂点のうちの他方の最終的予測座標とする。該任意の2つの隣接する頂点のうちの一方に対向する頂点は、該任意の2つの隣接する頂点のうちの他方に隣接し且つ該任意の2つの隣接する頂点のうちの一方と異なる頂点であることを理解すべきである。
【0152】
(4)該任意の2つの隣接する頂点の現在予測座標と該曲線分との最小距離がいずれも第2の閾値よりも大きいことに応答して、該任意の2つの隣接する頂点のうちの各頂点の最終的予測座標を決定するまで、該任意の2つの隣接する頂点のうちの各頂点に対応する、現在最も多い予測頂点を含む予測サブクラスを廃棄し、該任意の2つの隣接する頂点のうちの各頂点に対応する、最も多い予測頂点を含む他の予測サブクラスの中心座標を該任意の2つの隣接する頂点のうちの各頂点の現在予測座標とする。
【0153】
例えば、ごくまれな場合、上記ステップ(1)-(4)に従っても、ターゲット領域の4つの頂点の最終的予測座標を決定できない(すなわちターゲット領域の4つの最終的予測頂点を決定できない)可能性がある。従って、いくつかの実施例では、ステップS850は、以下のステップ(5)をさらに含んでもよい。
【0154】
(5)該任意の2つの隣接する頂点に対応するすべての予測サブクラスがいずれも廃棄されたことに応答して、該任意の2つの隣接する頂点に対応する曲線分の平均接線の傾きに基づいて、該任意の2つの隣接する頂点に対応する曲線分の平均接線を決定し、該任意の2つの隣接する頂点のうちの一方に対向する頂点の現在予測座標、及び該任意の2つの隣接する頂点のうちの他方の現在予測座標に基づいて第3の直線を決定し、該任意の2つの隣接する頂点のうちの他方に対向する頂点の現在予測座標、及び該任意の2つの隣接する頂点のうちの一方の現在予測座標に基づいて第4の直線を決定し、該平均接線と第3の直線との交点の座標を該任意の2つの隣接する頂点のうちの一方の最終的予測座標とし、該平均接線と第3の直線との交点の座標を該任意の2つの隣接する頂点のうちの他方の最終的予測座標とする。
【0155】
ステップ(3)における第2の直線の決定方式は、ステップ(1)-(5)の関連説明を参照すればよく、ここで繰り返し説明しないことを理解すべきである。同様に、ステップ(5)における第3の直線及び第4の直線の決定方式もステップ(1)-(5)の関連説明を参照すればよく、ここで繰り返し説明しない。さらに、ステップ(4)において、該任意の2つの隣接する頂点のうちの各頂点に対応する、最も多い予測頂点を含む他の予測サブクラスの中心座標を該任意の2つの隣接する頂点のうちの各頂点の現在予測座標とする場合、該任意の2つの隣接する頂点のうちの各頂点の最終的予測座標を再決定する過程は、上記ステップS820及びステップS850(例えばステップ(1)-(5))の関連説明を参照すればよいことを理解すべきであり、さらに、この過程において、この前にステップS830及びステップS840に基づいて決定された第2の夾角値を直接使用することができ、それによりステップS830及びステップS840を繰り返して実行する必要がないことを理解すべきである。
【0156】
上記ステップS810~ステップS850に基づいて、ターゲット領域の4つの頂点の最終的予測座標を決定することができ、すなわち、ターゲット領域の4つの最終的予測頂点を決定することができることを理解すべきである。
【0157】
ステップS900:ターゲット領域の4つの最終的予測頂点に基づいて、ビデオシーケンスの各フレームの画像におけるターゲット領域に対して座標変換を行って、ビデオシーケンスの各フレームの画像に対応する補正後の板書領域画像を得る。
【0158】
例えば、ステップS900の操作は、上記ステップS500の関連説明を参照すればよく、具体的な実現過程及び詳細は、ここで繰り返し説明されない。例えば、いくつかの実施例では、ビデオシーケンスの各フレームの画像に対応する補正後の板書領域画像に基づいて、補正後のビデオシーケンスを得てもよい。
【0159】
図13Aは、本開示の少なくともいくつかの実施例による入力画像の概略的なブロック図であり、
図13Bは、
図13Aに示す入力画像におけるターゲット領域(すなわち板書領域)の四角形境界の概略図であり、
図13Cは、
図13Aに示す入力画像におけるターゲット領域(すなわち板書領域)の4つの頂点の概略図である。例えば、
図13Aは、
図1に示す画像処理方法を用いて決定されたターゲット領域の4つの頂点(
図13Aにおける黒色点に示す)を示し、人物遮蔽により、
図13Aにおける左下角の頂点は、その真の位置から明らかにずれている。例えば、
図13Aは、あるビデオシーケンスにおける1フレームの画像であり、該ビデオシーケンスにおける他のフレームの画像は、いずれも示されていない。例えば、
図13Bは、
図11に示す画像処理方法を用いて決定されたターゲット領域の四角形境界を示し、該四角形境界の各辺は、隣接する2つの頂点の結ぶ線、上記第1の直線、上記第2の直線、上記第3の直線及び上記第4の直線のうちの1つである。例えば、
図13Cは、
図11に示す画像処理方法を用いて決定されたターゲット領域の4つの頂点(すなわち4つの最終的予測頂点であり、
図13Cにおける黒色点に示す)を示し、
図13Cにおける左下角の頂点は、
図13Aに比べて、その真の位置により近い。従って、
図11に示す画像処理方法は、人物遮蔽又は光線変化などの要素による異なるフレームの画像に対応する出力結果(すなわちキャリブレーションされた板書領域の頂点座標)が一致しない問題を克服することができる。
【0160】
なお、本開示の実施例では、上記画像処理方法のプロセスは、順次実行または並列実行可能なより多くまたはより少ない操作を含んでもよい。以上に説明された画像処理方法のプロセスは、特定の順序で出現する複数の操作を含むが、複数の操作の順序は限定されないことを明らかに理解すべきである。以上に説明された画像処理方法は、1回実行してもよいし、所定の条件で複数回実行してもよい。
【0161】
本開示の実施例による画像処理方法は、入力画像における変形した板書領域をキャリブレーション及び補正して、補正後の板書領域画像を得ることができる。該画像処理方法は、他の追加装置を配置することなく、低コストの固定カメラを用いればよく、実用性が高く、広範囲の普及に適している。また、入力画像に対して手動にデータマーキングを行う必要がなく、教学シーンにキャリブレーションプレートを置き且つカメラキャリブレーションを行う必要がなく、人件費を大幅に節約することができ、そして、板書領域の自動マーキング及び補正結果に基づいて、対応する領域の特定処理を補助することができ、例えば、学生が見た関心のあるところを板書領域に集中させることを補助することができる。
【0162】
本開示の少なくともいくつかの実施例は、画像処理装置をさらに提供する。
図14は、本開示の少なくともいくつかの実施例による画像処理装置の概略的なブロック図である。例えば、
図14に示すように、該画像処理装置100は、メモリ110及びプロセッサ120を含む。
【0163】
例えば、メモリ110は、コンピュータ読み取り可能なコマンドを非一時的に記憶するために用いられ、プロセッサ120は、該コンピュータ読み取り可能なコマンドを実行するために用いられ、該コンピュータ読み取り可能なコマンドがプロセッサ120により実行されると、本開示のいずれかの実施例による画像処理方法を実行する。
【0164】
例えば、メモリ110とプロセッサ120とは、直接的または間接的に相互に通信することができる。例えば、いくつかの例では、
図2に示すように、該画像処理装置100は、システムバス130をさらに含んでもよく、メモリ110とプロセッサ120とは、システムバス130を介して互いに通信することができ、例えば、プロセッサ120は、システムバス130を介してメモリ110にアクセスすることができる。例えば、別の例では、メモリ110とプロセッサ120などのコンポーネントとは、ネットワーク接続を介して通信することができる。ネットワークは、無線ネットワーク、有線ネットワーク、及び/又は無線ネットワークと有線ネットワークの任意の組み合わせを含んでもよい。ネットワークは、ローカルエリアネットワーク、インターネット、電気通信網、インターネットおよび/または電気通信網に基づくユビキタスネットワーク(Internet of Things)、及び/又は以上のネットワークの任意の組み合わせなどを含んでもよい。有線ネットワークは、例えばツイストペア、同軸ケーブル又は光ファイバー伝送などの方式を用いて通信することができ、無線ネットワークは、例えば3G/4G/5G移動通信ネットワーク、ブルートゥース、Zigbee又はWiFiなどの通信方式を用いることができる。本開示は、ここでネットワークのタイプ及び機能を制限しない。
【0165】
例えば、プロセッサ120は、所望の機能を実行するために画像処理装置における他のコンポーネントを制御することができる。プロセッサ120は、中央処理ユニット(CPU)、テンソルプロセッサ(TPU)又はグラフィックプロセッサGPUなど、データ処理能力及び/又はプログラム実行能力を有するデバイスであってもよい。中央プロセッサ(CPU)は、X86又はARMアーキテクチャなどであってもよい。GPUは、単独でマザーボードに直接集成されてもよく、又はマザーボードのノースブリッジチップに内蔵されてもよい。GPUも中央プロセッサ(CPU)に内蔵されてもよい。
【0166】
例えば、メモリ110は、1つ又は複数のコンピュータプログラム製品の任意組み合わせを含んでもよく、コンピュータプログラム製品は、様々な形態のコンピュータ読み取り可能な記憶媒体、例えば揮発性メモリ及び/又は不揮発性メモリを含んでもよい。揮発性メモリは、例えばランダムアクセスメモリ(RAM)及び/又は高速キャッシュ(cache)などを含んでもよい。不揮発性メモリは、例えば読み取り専用メモリ(ROM)、ハードディスク、消去可能プログラマブル読み取り専用メモリ(EPROM)、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)、USBメモリ、フラッシュメモリなどを含んでもよい。
【0167】
例えば、メモリ110上に1つ又は複数のコンピュータコマンドを記憶することができ、プロセッサ120は、前記コンピュータコマンドを実行して、様々な機能を実現することができる。コンピュータ読み取り可能な記憶媒体にさらに様々なアプリケーションプログラム及び様々なデータ、例えば入力画像、ビデオシーケンス、補正後の板書領域画像及びアプリケーションプログラム使用及び/又は生じた様々なデータなどが記憶されてもよい。
【0168】
例えば、メモリ110に記憶されたいくつかのコンピュータコマンドがプロセッサ120により実行されると、以上に記載の画像処理方法における1つ又は複数のステップを実行することができる。
【0169】
例えば、
図14に示すように、画像処理装置100は、外部機器と画像処理装置100との通信を可能にする入力インタフェース140をさらに含んでもよい。例えば、入力インタフェース140は、外部コンピュータ機器、ユーザーなどからコマンド又はデータ(例えば、入力画像、ビデオシーケンスなど)を受信するために用いられてもよい。画像処理装置100は、画像処理装置100と1つ又は複数の外部機器とを相互に接続する出力インタフェース150をさらに含んでもよい。例えば、画像処理装置100は、出力インタフェース150を介して画像処理結果(例えば、補正後の板書領域画像)などを出力することができる。入力インタフェース140及び出力インタフェース150を介して画像処理装置100と通信する外部機器は、任意のタイプのユーザーが対話可能なユーザーインタフェースを提供する環境に含まれてもよい。ユーザーインタフェースタイプの例は、グラフィカルユーザーインタフェース、自然ユーザーインタフェースなどを含む。例えば、グラフィカルユーザーインタフェースは、例えばキーボード、マウス、リモコンなどの入力機器を使用するユーザーからの入力を受信し、及び例えばディスプレイのような出力機器上で出力を提供することができる。また、自然ユーザーインタフェースは、ユーザーが例えばキーボード、マウス、リモコンなどのような入力機器によって課せられた制約を受けることなく、画像処理装置100と対話することができる。対照的に、自然ユーザーインタフェースは、音声識別、タッチ及びスタイラスペン識別、スクリーン上及びスクリーンの近くのジェスチャー識別、空中ジェスチャー、頭部及び目追跡、音声及びセマンティクス、視覚、タッチ、ジェスチャー、及び機器インテリジェントなどに依存することができる。
【0170】
また、画像処理装置100は、
図14において単一のシステムとして示されているが、画像処理装置100は、分散システムであってもよく、クラウド施設(パブリッククラウドまたはプライベートクラウドを含む)としてもよいことが理解される。従って、例えば、複数の機器は、ネットワーク接続を介して通信することができ、画像処理装置100が実行すると説明されているタスクを共同で実行することができる。例えば、いくつかの実施例では、クライアントを介して入力画像又はビデオシーケンスを取得し、入力画像又はビデオシーケンスをサーバにアップロードすることができ、サーバは、受信した入力画像又はビデオシーケンスに基づいて画像処理の過程を実行した後、補正後の板書領域画像又は補正後の板書領域画像シーケンス(すなわちビデオシーケンスの各フレームの画像に対応する補正後の板書領域画像)をクライアントに戻して、ユーザーに提供する。
【0171】
例えば、画像処理方法の実現過程に関する詳細な説明は、上記画像処理方法の実施例における関連説明を参照すればよい。繰り返すところは、ここでこれ以上説明しない。
【0172】
例えば、いくつかの例では、該画像処理装置は、スマートフォン、タブレットコンピュータ、パーソナルコンピュータ、パーソナルデジタルアシスタント(Personal Digital Assistant、PDA)、ウェアラブルデバイス、ヘッドマウント表示デバイス、サーバなどを含んでもよいがこれに限定されない。
【0173】
なお、本開示の実施例による画像処理装置は、限定的ではなく、例示的であり、実際の応用ニーズに応じて、該画像処理装置は、他の一般的な部材又は構造、例えば、画像処理装置の実現に必要な機能をさらに含んでもよく、当業者は、特定の応用シーンに基づいて他の従来の部品または構造を設定することができ、本開示の実施例は、これを制限しない。
【0174】
本開示の実施例による画像処理装置の技術的効果は、上記実施例における画像処理方法に関する対応する説明を参照すればよい。ここでこれ以上説明しない。
【0175】
本開示の少なくとも1つの実施例は、非一時的な記憶媒体をさらに提供する。
図15は、本開示の1つの実施例による非一時的な記憶媒体の概略図である。例えば、
図15に示すように、該非一時的な記憶媒体200は、コンピュータ読み取り可能なコマンド201を非一時的に記憶し、非一時的なコンピュータ読み取り可能なコマンド201がコンピュータ(プロセッサを含む)により実行されると、本開示のいずれかの実施例による画像処理方法を実行することができる。
【0176】
例えば、非一時的な記憶媒体200上に1つ又は複数のコンピュータコマンドが記憶されてもよい。非一時的な記憶媒体200に記憶されたいくつかのコンピュータコマンドは、例えば上記画像処理方法における1つ又は複数のステップを実現するためのコマンドであってもよい。
【0177】
例えば、非一時的な記憶媒体は、タブレットコンピュータの記憶部材、パーソナルコンピュータのハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROM)、光ディスク読み取り専用メモリ(CD-ROM)、フラッシュメモリ、又は上記記憶媒体の任意の組み合わせを含んでもよく、他の適用可能な記憶媒体であってもよい。
【0178】
本開示の実施例による非一時的な記憶媒体の技術的効果は、上記実施例における画像処理方法に関する対応説明を参照すればよい。ここでこれ以上説明しない。
【0179】
本開示については、以下の点を説明する必要がある。
【0180】
(1)本開示の実施例の図面では、本開示の実施例に係る構成にのみ関し、その他の構成は一般的に設計を参照することができる。
【0181】
(2)競合しない場合、本開示の実施例及び実施例における特徴を互いに組み合わせて新たな実施例を得ることができる。
【0182】
以上、本開示の具体的な実施形態に過ぎないが、本開示の保護範囲はこれに限定されるものではなく、本開示の技術分野に精通しているいかなる技術者が本開示の技術範囲内に容易に想到できる変更や置換は、本開示の保護範囲内に含まれるべきである。したがって、本開示の保護範囲は、請求項の保護範囲の保護範囲に準じなければならない。