(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0012】
以下、図面を参照して本発明の実施形態について詳述する。但し、これらの実施形態はいずれも例示であり、本発明についての限定的解釈を与えるものではない。なお、図面において、同一の又は対応する部分については同一の符号を付すものとする。
【0013】
(第1の実施形態)
図1は、第1の実施形態の検閲装置のフローチャートである。第1の実施形態にかかる検閲装置10は、主に、機械判別器1と、検閲者指標記憶部2と、タスク生成器3と、を備える。
【0014】
検閲装置10は、主にネットワーク上の複数のコンテンツを複数の検閲者に検閲させる装置である。コンテンツとしては、主に、テキスト、画像、動画、及びこれらの複合データが挙げられる。検閲者は、目視によりコンテンツ内の検閲対象(個人情報、著作権に関わるデータ、公序良俗に反するデータ等)の有無を判別し、コンテンツに対してOK(検閲対象を含まない)又はNG(検閲対象を含む)といった分類を行う。
【0015】
機械判別器1は、主に1つ又は複数のコンテンツを自動分類するものである。機械判別器1にコンテンツが入力されると、機械判別器1は、そのコンテンツに対する指標(以下、「コンテンツに関する指標」という。)を出力する。コンテンツに関する指標には、少なくとも、コンテンツ分類及びコンテンツ分類毎のスコアが含まれる。
【0016】
ここで、コンテンツ分類とは、コンテンツの検閲対象毎のカテゴリーをいい、記憶装置等に保存されている。コンテンツ分類は、例えば、特定キャラクターを含んだ著作権に関するもの、性に関するもの、暴力に関するもの、などのように、数10種ほどを予め設定しておいてもよい。また、流行(トレンド)等に合わせて適宜追加・変更してもよく、さらには、検閲を希望するクライアントのニーズに合わせて追加・変更することもできる。コンテンツ分類毎のスコアとは、コンテンツの検閲対象毎の確からしさ(コンテンツ内の相対的確率)を表すものであり、例えば、数値である。このスコアをみることにより、コンテンツ内の検閲対象の有無の確からしさを知ることができる。
【0017】
機械判別器1は、以下(1)〜(3)の処理を実施する。
【0018】
(1)入力されたコンテンツから検閲対象を抽出するために有効な特徴部分を抽出する。この特徴部分は、既存の特徴点抽出手法によりコンテンツからメタデータをパラメータとして抽出することができる。
【0019】
(2)(1)のパラメータの分布から検閲対象との近似性や関連性等を解析し、コンテンツ分類毎に数値化する。例えば、抽出したパラメータ群をSVM(Support Vector Machine)やK−Means法、K−NearestNeighbor法等で多変量解析することにより、検閲対象毎にコンテンツ内の相対的確率を算出する。なお、上記パラメータを含む検閲対象のデータを蓄積し、その蓄積されたデータに対してデータマイニングにより高頻度で発生する特徴的なパターンやパラメータの相関関係等を見つけ、それらを相対的確率の算出に反映するようにしてもよい。
【0020】
(3)このコンテンツ分類毎に算出された数値をコンテンツ分類毎のスコアとして出力する。このコンテンツ分類毎のスコアは記憶装置等に保存してもよい。なお、特徴量は、例えばJPEGファイルのEXIF領域に記録されている写真の撮影条件や画像に関する各種パラメータに加え、画素情報から計算されるカラーヒストグラムやエントロピー、また深層学習ニューラルネットワークやSIFTのような特徴抽出アルゴリズムによって抽出することができる。
【0021】
機械判別器1において、コンテンツ分類毎のスコアが非常に高い又は低い場合、すなわち、コンテンツ内の検閲対象の有無が非常に高い確率で判別可能な場合は、検閲者による検閲(人力分類)をすることなく、機械判別器1によりOK又はNGの判定を行ってもよい。機械判別器1の判定によりコンテンツ内の検閲対象がなくなった場合、以後このコンテンツに関する指標をタスク生成器3へ出力しないようにしてもよい。このようにすれば、以後の人的作業が不要となり、タスク生成器3により生成されるタスクの数を減らすことができる。
【0022】
検閲者指標記憶部2は、主に複数の検閲者の各々についての指標(以下、「検閲者に関する指標」という。)を記憶するデータベースである。検閲者に関する指標には、少なくとも、複数の検閲者(1〜n、nは2以上の整数)の各々に対する、コンテンツ分類毎の検閲精度及び検閲速度が含まれる。
【0023】
図2は、第1の実施形態の検閲者指標記憶部2のデータベースを示す図である。
図2(a)はテーブルを示す図であり、
図2(b)はコンテンツ分類毎の複数のテーブルを示す図である。テーブル2a〜2cはコンテンツ分類毎のテーブルである。このデータベースでは、検閲者1〜nに検閲者IDとして00001〜0000nが各々割り当てられ、各テーブルには検閲者1〜nに関する指標(検閲者ID、検閲精度、検閲速度、対応分類、単価、・・・)が登録されている。
【0024】
タスク生成器3は、複数の検閲者により人力分類する検閲対象コンテンツを生成し、それらを検閲者の各々に分配するものである。機械判別器1からタスク生成器3にコンテンツに関する指標が入力されると、タスク生成器3は、そのコンテンツに関する指標、及び検閲者指標記憶部2の検閲者に関する指標に基づき、検閲者1〜nの各々が検閲すべき1つ又は複数のコンテンツ1〜nを生成し、検閲者1〜nの各々に対するタスク1〜nとして分配する。
【0025】
タスク生成器3は、以下(1)〜(3)の処理により、入力されたコンテンツに関する指標から、検閲者1〜nに対する各々のタスク1〜nを生成する。
【0026】
(1)コンテンツに関する指標に基づき、人力分類するにあたって最適なコンテンツ分類毎のタスクを構成する。
なお、タスクを構成する際に、コンテンツを適宜加工してもよい。また、コンテンツに関する指標に基づき、タスク1〜nに対して難易度情報を設定するようにしてもよい。
【0027】
コンテンツ加工を伴うタスクの構成方法として、例えば、以下の(a)〜(c)が挙げられる。
(a)卑猥な写真の可能性が高い場合、画像にフィルターをかけ、類似の他のコンテンツと合わせて一括目視確認するタスクを構成する。
(b)子供の顔が写っている可能性が高い場合、画像中の顔が認識された領域をハイライトし、未成年かどうかの判定を目視確認するタスクを構成する。
(c)パーティー写真の可能性が高い場合、画像中に酒類が含まれていないかを目視確認するタスクを構成する。
【0028】
(2)検閲者指標記憶部2の検閲者に関する指標に基づき、検閲者1〜nを選定する。
この選定は、検閲者が対応可能なコンテンツ分類であることが前提条件となるが、特に、検閲者の検閲精度や検閲速度を重要視すれば、人力分類による検閲の作業効率の向上が見込まれる。
(3)(1)のタスクを検閲者1〜nの各々に振り分けて、検閲者1〜nに対する各々のタスク1〜nを生成する。
【0029】
以上のように、第1の実施形態の検閲装置10は、タスク生成器3が、機械判別器1から入力されるコンテンツに関する指標と、検閲者指標記憶部2の検閲者1〜nに関する指標、特に、検閲精度及び検閲速度とに基づき、検閲者1〜nのタスク1〜nを生成し、検閲者1〜nの各々にそれらのタスク1〜nを分配するものであるため、従来の人力分類を前提とした検閲装置よりも、人力分類による検閲の作業効率を向上させることができる。
【0030】
(第2の実施形態)
図3は、第2の実施形態の検閲装置20のフローチャートである。第2の実施形態にかかる検閲装置20は、主に、前述の第1の実施形態の検閲装置10の構成と、さらに、検閲結果取得部4と、検閲判定部5と、検閲精度に対する自動学習部6とを備える。
【0031】
検閲結果取得部4は、複数の検閲者1〜n毎の検閲結果1〜nを取得するものである。検閲結果取得部4は検閲者1〜nの検閲結果1〜nを取得すると、検閲結果取得部4はそれらの検閲結果1〜nを検定判定部5及び自動学習部6へ各々出力する。取得された検閲結果1〜nは、検閲結果取得部4内部の記憶装置又は外部記憶装置に保存するようにしてもよい。
【0032】
検閲判定部5は、複数の検閲結果1〜nに基づき、検閲対象とすべきか否かを判定するものである。検閲結果取得部4から検閲判定部5に検閲結果1〜nが入力されると、検閲判定部5は、コンテンツがOKかNGかを判定する。例えば、検閲判定部5の判定は、検閲結果1〜nのOKの数とNGの数とを比較し、多数決の原理により判定結果を出してもよい。
【0033】
また、検閲判定部5の判定は、検閲結果1〜nに対して、検閲者指標記憶部2の検閲者に関する指標、特に、検閲者1〜nの検閲精度情報に基づいた重み付けをして判定結果を出してもよい。
【0034】
前述の判定後、検閲判定部5は、判定結果を自動学習部6へ出力する。自動学習部6は、検閲者1〜nの検閲結果1〜nと、検閲判定部5の判定結果と、の比較に基づき、検閲者指標記憶部2に記憶されている検閲者1〜nの検閲精度情報を更新する。自動学習部6に検閲結果1〜n及び判定結果が入力されると、自動学習部6は、それらを検閲者1〜nの検閲精度情報にフィードバックし、以後タスク生成器3は更新された検閲者に関する指標に基づきタスク1〜nを生成する。これにより、検閲者1〜nの検閲精度情報に基づいた最適なタスク1〜nを生成することができるため、検閲者による人力分類による検閲の作業効率を向上させることができる。
【0035】
検閲者1〜nに関する指標は、自動学習部6によりフィードバックされる毎に、又は所定のタイミング毎に、検閲者指標記憶部2又は他の記憶装置に記憶させるようにしてもよい。これにより、検閲者1〜nの実際の時間あたりの単価、検閲者1〜n毎の検閲したタスク量、及び検閲者1〜nのトータルコスト等を算出することができ、コストや検閲者の管理に有効な情報となるからである。
【0036】
第2の実施形態の検閲装置20は、自動学習部6が、検閲者1〜nの検閲結果1〜nと、検閲判定部5の判定結果との比較により検証された、検閲者1〜nの検閲結果1〜nの正誤情報に基づき、検閲者1〜nに関する指標、特に、検閲精度を動的に更新し、タスク生成器3は、更新された検閲者1〜nの検閲精度を基に検閲者1〜nの最適なタスク1〜nを生成するため、第1の実施形態の検閲装置よりもさらに人力分類による検閲の作業効率を向上させることができる。
【0037】
なお、上記にいう「動的に更新」とは、検閲者1〜nのに関する指標をリアルタイムで更新することをいうものとするが、かかる更新は完全なリアルタイムでなくてもよく、所定周期毎に、若しくは、所定のイベント毎に更新してもよい。
【0038】
(第3の実施形態)
図4は、第3の実施形態の検閲装置30のフローチャートである。第3の実施形態にかかる検閲装置30は、主に、前述の第2の実施形態の検閲装置20の構成と、さらに、検閲時間測定部7と、検閲速度に対する自動学習部6とを備える。
【0039】
検閲時間測定部7は、検閲者1〜nの各々について、タスク生成器3によりタスク1〜nが分配されてから、検閲者1〜nが検閲結果1〜nを返すまでの時間を測定する。検閲時間測定部7は検閲者1〜nの検閲時間1〜nを測定すると、検閲時間測定部7はそれらの検閲時間1〜nを自動学習部6へ各々出力する。測定された検閲結果1〜nは、検閲時間測定部7内や外部の記憶装置に保存されるようにしてもよい。
【0040】
自動学習部6は、検閲測定部7の検閲時間1〜nに基づき、検閲者指標記憶部2に記憶されている検閲者1〜nの検閲速度情報を更新する。自動学習部6に検閲時間1〜nが入力されると、自動学習部6は、それらを検閲者1〜nの検閲速度情報にフィードバックして、以後タスク生成器3によるタスク1〜nの生成に反映させる。これにより、検閲者1〜nの検閲速度情報に基づいた最適なタスク1〜nを生成することができ、検閲者による人力分類による検閲の作業効率を向上させることができる。
【0041】
従来の検閲装置では、各検閲者に対する1つのタスクあたりのコンテンツを、単純に検閲者の人数で均等に分配していた。例えば、
図10のように、検閲者101(101a〜101c)が3人の場合、各人が担当するコンテンツ(102a〜102c)は全コンテンツ102を3等分したものであった。これは、3人の検閲者(101a〜101c)の検閲精度及び検閲速度に差がなければ問題ないが、実際には能力の低い検閲者が人力分類の作業においてボトルネックとなり、作業効率に影響していた。
【0042】
一方、本実施形態におけるタスク生成器3は、検閲者1〜nのタスク1〜nに対して、検閲者指標記憶部2の動的に更新された検閲者に関する指標、特に、自動学習部6により動的に更新された検閲者1〜nの検閲精度及び検閲速度に基づき、一度に処理すべきコンテンツ量を各々決定することが好ましい。このようにすると、検閲者1〜nのより最適なタスク1〜nを生成することができるため、検閲者による人力分類の作業効率を向上させることができる。
【0043】
第3の実施形態の検閲装置30は、自動学習部6が、検閲時間測定部7の測定時間に基づき、検閲者1〜nに関する指標、特に、検閲速度を動的に更新し、タスク生成器3は、更新された検閲者1〜nの検閲速度を基に検閲者1〜nの最適なタスク1〜nを生成するため、第2の実施形態の検閲装置よりもさらに人力分類による検閲の作業効率を向上させることができる。
【0044】
特に、タスク生成器3が、更新された検閲者1〜nの検閲精度及び検閲速度に基づき、検閲者1〜nの一度に処理すべきタスク量を決定していくことで、検閲者の各々の最新の検閲精度及び検閲速度を反映した人力分類を行うことができるため、人力分類による検閲の作業効率をより向上させることができる。
【0045】
従来の検閲装置では、検閲者は、事前登録等された、ある限られた対象を母集団とするものがほとんどであり、検閲者に関する指標が頻繁に変化することは想定されていなかった。一方、本実施形態で取り扱う検閲装置においては、世界中のオンラインユーザーを検閲者の母集団とすることができ、検閲者の入れ替わりが激しかったり、その情報が頻繁に更新されるようなことも想定されるが、そのような場合であっても、常に最新の検閲者に関する指標に基づきタスクを決定できるため、最適なタスク分配が可能となる。すなわち、本実施形態における検閲装置は、検閲者の流動性が高い環境においても適用できるものである。
【0046】
(第4の実施形態)
図5は、第4の実施形態の検閲装置のフローチャートである。
図5(a)は主にタスク細分化処理部31及びタスク重付処理部32を示す図であり、
図5(b)は主にコンテンツ加工部33を示す図である。第4の実施形態にかかる検閲装置は、前述の第1〜3の実施形態の検閲装置のいずれか1つの構成と、さらに、タスク記憶部8を備える。タスク記憶部8は、コンテンツ分類毎に処理すべきタスクを記憶するものである。タスク生成器3は、コンテンツ分類に基づき、タスク記憶部8に記憶されたタスクを選択するようにしてもよい。このようにすることで、タスク生成器3は、より効率よく検閲者1〜nのタスク1〜nを生成することができる。
【0047】
図6は、第4の実施形態のタスク記憶部8のデータベースを示す図である。
図6(a)はテーブルを示す図であり、
図6(b)はコンテンツ毎の複数のテーブルを示す図である。テーブル8a〜8cはコンテンツ分類毎のテーブルである。このデータベースでは、タスク1〜nのタスクIDとして00001〜0000nが各々割り当てられ、各テーブルにはタスクに関する指標(タスクID、内容、難易度、条件1、条件2、・・・)が登録されている。
【0048】
第4の実施形態にかかる検閲装置は、さらに、タスク細分化処理部31と、タスク重付処理部32とを備えてもよい。
【0049】
タスク細分化処理部31は、選択されたタスクを複数のステップ1〜m(mは2以上の整数)に各々細分化する。機械判別器1からタスク細分化処理部31にコンテンツ分類及びコンテンツ分類毎のスコアが入力されると、タスク細分化処理部31は、タスク記憶部8のコンテンツ分類毎のタスクを選択し、それらのタスクを複数のステップ1〜mに各々細分化してタスク重付処理部32へ各々出力する。
【0050】
タスク重付処理部32は、主に細分化された複数のステップ1〜mのうち、優先度の高いステップから順に検閲者1〜nに処理させるようタスクの順番を調整する。タスク細分化処理部31からタスク重付処理部32にステップ1〜mが入力されると、タスク重付処理部32は、それらのステップ1〜mを検閲すべきと判断される可能性の高い順に並び替えて検閲者1〜nのタスク1〜nを生成し、タスク1〜nを各々出力する。
【0051】
ここで、「ステップ」とは、タスクよりもさらに細分化した1つ又は複数の検閲すべきコンテンツをいう。優先度の高さとしてはコンテンツ分類毎のスコアを用いるようにしてもよい。例えば、タスク重付処理部32は、コンテンツ分類毎のスコアが高い順にステップ1〜mを並び替えてタスク1〜nを生成してもよい。
【0052】
さらに、タスク重付処理部32は、少なくとも検閲者1〜nの検閲精度、検閲速度、及びタスクの難易度のいずれか1つに基づき、ステップ1〜mを優先度の高い順に並び替えて検閲者1〜nのタスク1〜nを生成するようにしてもよい。
【0053】
図11は、従来の検閲手法においてステップの順番を示す概念図である。
図11(a)は総当たりの場合を示す図であり、
図11(b)は分散処理の場合を示す図である。この図に示す従来の検閲手法では、検閲者は、概ね総当たり又は分散処理の2通りの方法で検閲対象を目視確認していた。
【0054】
例えば、
図11(a)に示すように、左から順に、コンテンツが検閲対象「Is scenery」、「Is violent」、「Is religious」、「Is copyrighted」、「Is human」、「Is naked」、及び「Is sexual」に該当するか否かを総当たりで目視確認していた。そして、全ての検閲対象に該当しない場合通過(pass)、又は検閲対象に該当した時点で、拒絶(decline)を判定していた。
【0055】
また、
図11(b)に示すように、コンテンツを、各々のタスク(検閲対象)毎で分散処理して、通過又は拒絶を判定していた。この場合、ステップ毎の優先順位は均等(図中では、すべて重み1)であった。
【0056】
以上のような従来の検閲手法では、例えば、ステップ毎の優先順位が均等である場合、ステップの難易度や検閲者の検閲技能によって検閲結果、検閲精度及び検閲時間に大きな差が生じ、さらに、重要度の高いステップ及びに対しても優先順位が均等な対応となり、人力分類の効率が非常に悪かった。
【0057】
一方、
図9は、第4の実施形態の検閲装置40においてステップの順番を示す概念図である。
図9に示すように、検閲装置40では、各々のステップに対する重み付けによりステップの優先順位を決定する。具体的には、まず、重み付けが一番高いステップ(図中では重みが1のステップ)である、コンテンツが検閲対象「Is human」、「Is naked」、及び「Is sexual」であるか否かを検閲者に判定させる。コンテンツが検閲対象に該当しなかった場合、次に重み付けが高いステップ(図中では重みが0.6のステップ)である、コンテンツが検閲対象「Is violent」であるか否かを検閲者に判定させる。以後同様にして重み付けの降順に検閲者にステップを実施させる。検閲装置40では、このようなステップの順番に並べ替えたタスクを生成する。このようにして優先順位の高い順に検閲者に検閲させることにより、人力分類の効率をより向上させることができる。
【0058】
重み付けの高いステップとは、1つのタスクに対する複数のステップのうち、NGと判定される可能性が高いステップのことをいう。検閲者によるタスク処理において、コンテンツがNGと判断された時点で、その検閲者による検閲を終了させることができる。よって、NGと判定される可能性が高いステップ、すなわち、重み付けの高いステップから検閲を実行させることで早期にそのコンテンツがNGであると判定できれば、それ以降、かかるコンテンツに関するタスク(ステップ)を行う必要がなくなり、作業を短縮化できる。
【0059】
従来は、総当たり又は重み付けを考慮しない分散処理がなされていた。一方、本実施形態における検閲装置は、検閲者の作業効率が向上するようタスクを細分化し、かつ、NGと判定される可能性が高い、重み付けの高いステップから処理させるようにしたことで、検閲者の作業効率が向上するだけではなく、従来よりも検閲工程自体を短縮することが可能となり、全体としての作業効率を飛躍的に向上させることができる。
【0060】
第4の実施形態にかかる検閲装置は、さらに、コンテンツ加工部33を備えてもよい。コンテンツ加工部33は、種々の目的によって、検閲者に分配されるタスク中のコンテンツを加工修正するものである。
【0061】
コンテンツ加工部33の一形態として、コンテンツ加工部33は、タスク重付処理部32から入力されたタスク1〜n内のコンテンツに対し、色階調補正を行う。例えば、卑猥な写真に対して色階調を落として輪郭を強調したアニメ調の画像への変換を行う。そして、コンテンツ加工部33は、加工後のタスク1〜nを検閲者1〜nの各々に分配する。
【0062】
検閲者は卑猥な写真等の検閲に長時間従事し続けると精神的負荷が蓄積しやすいが、コンテンツ加工部33によってコンテンツの色階調補正を行うことにより、検閲中に検閲者1〜nが受ける刺激を緩和でき、検閲者1〜nの精神的負担を軽減させることができる。
【0063】
また、コンテンツ加工部33の別形態としては、コンテンツ、特に画像に対して、セキュリティ対策を行ってもよく、例えば以下(a)〜(c)の処理を少なくとも1つを行ってもよい。
(a)画像に透かしを埋め込む。
(b)画像を複数に分割する。
(c)画像にフィルターをかけ、特徴を残しつつもオリジナルでない状態にする。
【0064】
このセキュリティ対策により、オリジナルのコンテンツの流出を抑えることができ、たとえタスク1〜nが流出してもコンテンツが特定されることを抑えることができる。
【0065】
第4の実施形態の検閲装置は、タスク細分化処理部31が選択された検閲者1〜nのタスク1〜nを複数のステップ1〜mに各々細分化し、タスク重付処理部32が細分化された複数のステップ1〜mのうち、優先度の高いステップから順に検閲者1〜nに処理させるようにタスクの順番を調整するため、人力分類による検閲の作業効率をより向上させることができる。さらに、コンテンツ加工部33が検閲すべきコンテンツの色階調補正を行うことにより、長時間の検閲による検閲者1〜nの精神的負担を軽減することができる。
【0066】
さらに、第4の実施形態にかかる検閲装置は、従来のマイクロタスキングプラットフォームに対し、以下のような効果を有する。なお、マイクロタスキングプラットフォームとは、上述したように、検閲作業をマイクロタスクと呼ばれる最小単位に分類し、各マイクロタスクごとに単価を定め、予めネットワーク上で検閲者を登録した上で、検閲者がタスクを選別する仕組みである。
【0067】
(1−1)従来のマイクロタスキングプラットフォームでは、タスク単価でリスト表示されるものの、実際にタスクにかかる時間や一時間あたりの見積もり額等は検閲者の能力が考慮されず、検閲者にとってタスクの選別が困難であった。
【0068】
(1−2)一方、第4の実施形態にかかる検閲装置は、実際の統計的な観測から、検閲者における時間あたり単価を算出し、検閲者に対して参考値として提示できるため、検閲者によるタスク選択が容易となる。
【0069】
(2−1)従来のマイクロタスキングプラットフォームでは、タスク単価が発注者による言い値であり、低く設定される傾向にあったため、検閲者のモチベーションが低下し、高い検閲精度を維持できないという問題があった。
【0070】
(2−2)一方、第4の実施形態にかかる検閲装置では、発注者は固定単価の代わりに「最大予算」を指定することができる。「最大予算」とは、発注者がそのタスクに対して支払うことができる対価の上限額である。これにより、実際のタスク単価及び処理の優先度は、同時間における他の発注者との自動的な競争入札によって決定させることができる。例えば、多くのタスクが発注される時間帯においては単価を上げなければなかなか処理が完了しないようにすることができる。また、検閲者としても、検閲精度や検閲速度を上げることでより多くの対価が期待できるため、検閲者のモチベーションを高く維持できる。
【0071】
(3−1)従来のマイクロタスキングプラットフォームでは、サービス上で検閲者として登録した上で作業を行うことが主流となっていた。しかし、検閲者は平均賃金の低い途上国からの登録が大半を占めるため、フェアトレードの観点からこのような仕組みが問題視されていた。
【0072】
(3−2)一方、本実施形態にかかる検閲装置では、例えば、汎用的なWebサイトやアプリにおけるディスプレイ広告やリワード広告が表示される領域にマイクロタスクを挿入することにより、世界中のオンラインユーザーを対象として幅広く検閲者を確保することができる。さらに、検閲者に対してプロファイリング、アンケート調査、又はモニター調査等を実施することができる。
【0073】
以上説明した第1乃至第4の実施形態の検閲装置はいずれも任意に組み合わせて実施することができる。
【0074】
(実施例)
図7は、第4の実施形態の検閲装置40の具体的な構成例を示す図である。検閲装置40は、機械判別器1としてMachine Classifiersと、検閲者指標記憶部2及びタスク記憶部8としてDatabaseと、タスク生成器3としてHuman Computation Gatewayと、検閲結果取得部4、検閲判定部5、自動学習部6、及び検閲時間測定部7としてResult Aggregatorと、を備える。例えば、Machine Classifiers、Human Computation Gateway、Result Aggregatorはいずれもサーバであり、Databaseは記憶装置である。
【0075】
機械判別器1、検閲者指標記憶部2、タスク生成器3、検閲結果取得部4、検閲判定部5、自動学習部6、検閲時間測定部7、及びタスク記憶部8は、少なくともハードウェア又はソフトウェア(プログラム)のいずれかにより各々構成され、前述の処理が各々実施される。
【0076】
ServiceAのコンテンツ及びServiceBのコンテンツは、Gateway(サーバ)を介して検閲装置40にダウンロード(取得)される。ダウンロードされたコンテンツは、Machine Classifiersに入力され、Human Computation Gatewayにより複数のタスクが生成され、それらのタスクが複数の検閲者(Micro−task workers)に分配される。Result Aggregatorは、検閲者の各々の検閲結果、検閲精度、検閲時間、及び判定結果を取得して、それらをDatabaseに記憶された検閲者に関する指標に反映する。そして、それらの指標がMachine Classifiersの次のタスク生成のためにフィードバックされる。
【0077】
図8は、第4の実施形態の検閲装置40の実施例のフローチャートである。以下、このフローチャートの概要を説明する。コンテンツ(テキスト、画像、動画、音声、音楽等)は、Application Serverに集約されており、第4の実施形態の検閲装置40は、まず、それらのコンテンツをWeb API等を用いてGatewayを介してダウンロード(取得)する。次に、ダウンロードされたコンテンツを既存の様々な手法によりコンテンツ分類毎にメタデータ(Obj.Detector、OCR、Speech to Txt、Features等)を抽出する。次に、多変量解析のアルゴリズム等(SVM、Deep Learning、Cache、Custom Filters等)を用いてコンテンツ分類毎にスコアを算出する。このとき、検閲対象の有無を判別できる(Almost Certain)場合は、コンテンツに対してOK又はNGを判定する。
【0078】
次に、それ以外の(検閲対象の有無の確からしさがない、Less Sure)のコンテンツに対して複数の検閲者(Worker)各々に最適なタスクを生成し、それらを複数の検閲者に分配する。次に、少なくとも検閲者の検閲結果、検閲精度、検閲速度、及び判定結果の1つを取得し、それらをフィードバックして次のタスク生成に反映させる。
【0079】
以上のような検閲装置40を構成し、手書きによるアニメーション画像を組み合わせたコンテンツからの肌の露出のあるヒトの画像の検閲を検証した結果、人力分類において60〜90%のコストを削減することができた。
【0080】
なお、上記検証結果の詳細は以下のとおりである。以下のワークフローにより、平均的に約27%の時間で検閲を実施できた。
・前処理によって重複フレームを省くことで平均30%程度フレームを削減できた。
・卑猥なコンテンツを絞り込むために、「ヒトが写っているかどうか(81%)」、「肌の露出があるか(67%)」という2つの分類器を実装した。
・上記分類結果に基づいてヒトが写っていない可能性の高い画像と写っていない画像に分け、複数枚をまとめてそれぞれ「ヒトの写っていない画像を選択」、「ヒトの写っている画像を選択」というタスクを構成した。
・上記タスクにより、ヒトの写っていない画像を検閲対象から効率的に除外することができ、全体の約60%の画像を、ランダムに1枚ずつ目視するときに比べて4倍の効率で検閲できた。また、この時、ページ上に36枚の画像を一度に表示した場合が平均的に最も効率が高く、検閲者によっては54枚まで同じ時間内に処理することができた。
・残りの40%の画像に対しても同様に、分類結果に基いてグループ分けを行い、「肌の露出のある画像を選ぶ」、「肌の露出のない画像を選ぶ」というタスクを適用したところ、約3倍の効率で検閲できた。