CelebA データセットから好みのデータセットを抽出する

今回は、CelebAデータセットから、属性ファイルを使って、好みのデータセットを抽出してみます。

こんにちは cedro です。

皆さん、CelebA データセットは、ご存じですか。

このブログでも過去２回登場していますが、CelebaA データセットは有名人の顔画像をカラー178×218ピクセルで202,599枚集めたデータセットです。

機械学習はデータ数が多いに越したことなく、20万枚越えのデータ数量は天下無敵と言っても良いでしょう。しかしながら、CelebA はデータが１つのフォルダーにまとめて格納されているので用途は限られ、せいぜいGANやVAEにしか使えませんでした。

手作業で分類できないわけではないですが、さすがに１万枚以上になると無理です。根気が続きません。

実は、CelebaA には属性ファイルが付属していて、これを活用すれば自分の好みデータセットを抽出できそうなことは分かっていたのですが、なんとなく敷居が高く、そのままになっていました。

しかし、実際にトライしてみると、意外に簡単だったので、ブログにします。

というわけで、今回は、CelebA データセットから、属性ファイルを使って、好みのデータセットを抽出してみます。

CelebAの属性とは

CelebaA には、各画像データが40種類の属性について、該当するかどうかをまとめた属性ファイル（ list_attr_celeba.txt ）が付属しています。

まず、その40種類の属性名を、具体的な画像例と共に見て行きます。属性名の横にある２枚の画像の内、左がその属性がYESの例、右がその属性がNOの例です。また、属性名の下にある数字は 202,599枚の内、何枚がこの属性に該当しているかを示しています。

最初、1) 5_o_Clock_Shadow が全く分からなかったのですが、どうも「髭の剃り残しがある」という意味みたいです。昔シェーバーのCMでありましたが、午後５時の影を消せというノリですね。

2) Arched_Eyebrows は「三日月眉」。3) Attractive つまり「魅力的」という属性があるんですが、これに該当していない人はかわいそうですね。4) Bags_Under_Eyes は「目の下のたるみ」。

5) Bald はスキンヘッド。6) Bangsは、「前髪」という意味ですが、これはちょっと分かりませんでした。7) は「大きな唇」、8) は「大きな鼻」。

9),10),12) は髪の毛の色で、「黒髪」、「金髪」、「茶髪」。11) Blurry は「ぼやけた」画像。13) Bushy_ Eyebrows は「ゲジゲジ眉毛」。

14) chubby は「ぽっちゃり」、15) Double_Chin は「２重あご」、16) は「メガネ」。

17) Goatee は下あごに生やす「やぎひげ」。18) は「白髪」、19) は「厚化粧」。20) High_Cheekbones は「高い頬骨」で、外国ではこれが美人の条件の１つとして挙げられているようです。

21) はズバリ「男」、なのでこの属性がNOなら「女」です。22) Mouth_Slightly_Open は「口が少し開いている」、23) Mustache は「口ひげ」、24) は「細目」。

25) No_Bead は「ひげが無い」、26) Oval_Face は「うりざね顔」、27) Pale_Skin は「顔色が悪い」、28) Pointy_Nose は「とがった鼻」。

29) Receding_Hairline は「額がはげ上がった」、30) Rosy_Cheeks は「紅顔」、31) Sideburns は「頬ひげ」。そして、32) は「笑顔」。

33),34) は髪型で、「ストレート」か「カール」か。この後は、着けているものが、並びます。

35) は「イアリング」、36) は「帽子」、37) は「口紅」、38) は「ネックレス」、39) は「ネクタイ」。そして最後の 40) が「若さ」。

２０万枚を超える画像に対して、４０の属性について１枚づつチェックするには、相当な労力が掛かった思います。本当に感謝です。

この属性ファイルを上手く使うことによって、CelebA データセットから、色々なデータセットを抽出できることが分かると思います。

この後、データセットの入手から抽出までをやってみたいと思います。

CelebAデータセットを入手する

まず、このリンクから celebA のデータセットを入手します。

赤枠の「Google Drive」をクリックし、Img > img_align_celeba_png.7z にある、16個のファイルを適当なフォルダーに全てダウンロードします。

１つが700MBくらいありますので、結構時間がかかります。

ダウンロードしたファイルを解凍すると、img_align_celeba_png というデータフォルダーが出来ます（容量は11.2GBです）。なお、この7z という形式を解凍できるアプリをお持ちでない場合は、７zip がお勧めです。

次に、同じく「Google Drive」にある属性ファイル Anno > list_attr_celeba.txt をダウンロードします。

list_attr_celeba.txt のファイルの中身は、こんな形。１行目にデータ総数 202,599 、2行目に40個の属性名、３行目以降に各画像データがどの属性に該当しているかが書いてあり、データの区切りはスペースです。

3行目以降、属性に該当している場合は「１」、該当していない場合は「－１」が表示されています。

この後のプログラムで扱い易いように、赤枠で囲まれている１行目と２行目は削除します。

また、理由は分かりませんが、ダウンロードして解凍した画像が「png」なのに、属性ファイルの記載が「jpg」なので、エディタの文字置換機能等を使って、属性ファイルの方を「jpg →「png」に全て変更しておきます。

好みのデータセットを抽出する


from PIL import Image  ### 画像処理ライブラリPillow をインポート
count = 0
with open("list_attr_celeba.txt","r") as f:    ### 属性ファイルを開く
     for i in range(202599):   ### 全部で202,599枚処理する
         line = f.readline()   ### 1行データ読み込み
         line = line.split()　 ### データを分割
         count = count+1
         print(count)          ### 何枚目を処理しているかスクリーン表示
                         
         if line[3]=="1" and line[16]=="-1" and line[21]=="1" and line[32]=="1" and line[36]=="-1" and line[40]=="1":  ### 魅力的で、メガネ無しで、男性で、笑顔で、帽子無しで、若い
            image = Image.open("d:/celeba/img_align_celeba_png/"+line[0])　### 該当画像読み込み
            image.save("./0/"+line[0])　　### 「0」フォルダーに保存
            
         elif line[3]=="1" and line[16]=="-1" and line[21]=="1" and line[32]=="-1" and line[36]=="-1" and line[40]=="1":
            image = Image.open("d:/celeba/img_align_celeba_png/"+line[0])
            image.save("./1/"+line[0])           
             
         elif line[3]=="1" and line[16]=="-1" and line[21]=="-1" and line[32]=="1" and line[36]=="-1" and line[40]=="1":
            image = Image.open("d:/celeba/img_align_celeba_png/"+line[0])
            image.save("./2/"+line[0])           
            
         elif line[3]=="1" and line[16]=="-1" and line[21]=="-1" and line[32]=="-1" and line[36]=="-1" and line[40]=="1":
            image = Image.open("d:/celeba/img_align_celeba_png/"+line[0])
            image.save("./3/"+line[0])

from PIL import Image ### 画像処理ライブラリPillow をインポート

count = 0

with open("list_attr_celeba.txt","r") as f: ### 属性ファイルを開く

for i in range(202599): ### 全部で202,599枚処理する

line = f.readline() ### 1行データ読み込み

line = line.split()　 ### データを分割

count = count+1

print(count) ### 何枚目を処理しているかスクリーン表示

if line[3]=="1" and line[16]=="-1" and line[21]=="1" and line[32]=="1" and line[36]=="-1" and line[40]=="1": ### 魅力的で、メガネ無しで、男性で、笑顔で、帽子無しで、若い

image = Image.open("d:/celeba/img_align_celeba_png/"+line[0])　### 該当画像読み込み

image.save("./0/"+line[0])　　### 「0」フォルダーに保存

elif line[3]=="1" and line[16]=="-1" and line[21]=="1" and line[32]=="-1" and line[36]=="-1" and line[40]=="1":

image = Image.open("d:/celeba/img_align_celeba_png/"+line[0])

image.save("./1/"+line[0])

elif line[3]=="1" and line[16]=="-1" and line[21]=="-1" and line[32]=="1" and line[36]=="-1" and line[40]=="1":

image = Image.open("d:/celeba/img_align_celeba_png/"+line[0])

image.save("./2/"+line[0])

elif line[3]=="1" and line[16]=="-1" and line[21]=="-1" and line[32]=="-1" and line[36]=="-1" and line[40]=="1":

image = Image.open("d:/celeba/img_align_celeba_png/"+line[0])

image.save("./3/"+line[0])

好みのデータセットを抽出するプログラムの例です。属性ファイルを１行づつ読み込み、データを分割し、IF文の条件と比較します。この時、line[x] はｘ番目のデータを表します。条件が合った場合、d:ドライブにある画像を読み込んで、指定したフォルダー「０」～「３」に保存します。

取り上げている属性は、「3) 魅力的」、「16) メガネ」、「21) 男性」、「32) 笑顔」、「36) 帽子」、「40) 若さ」の６種類です。

「21) 男性」と「32) 笑顔」の組み合わせで、「笑っている男性」、「笑っていない男性」、「笑っている女性」、「笑っていない女性」の４種類のパターンを作り、残りの属性は固定です。

先ほど作成したプログラムをtest.py で保存します。そして、「０」、「１」、「２」、「３」の空のフォルダーを作成します。なお、私の環境では、CelebA の画像ファイルは、d:/celeba/img_align_celeba_png フォルダーに置いてあります。


python test.py

python test.py

プログラムが格納されているディレクトリに移動し、上記コマンドでプログラムが起動します。

さて、結果はどうでしょうか。

フォルダー「０」の「笑っている男性」です。画像数は、9,653枚。

フォルダー「１」の「笑っていない男性」です。画像数は、10,393枚。

フォルダー「２」の「笑っている女性」です。画像数は、41,607枚。

フォルダー「３」の「笑っていない女性」です。画像数は、32,249枚。

こんな感じで、属性ファイルを活用すると、２０万枚にも及ぶ CelebA から自分の好きなデータセットが抽出できます。

しばらく、色々とデータセットを抽出して、遊んでみようと思います。

では、また。

P.S.
今更ながらCelebAのAは何なのかと思って、ホームページをよく見ると、CelebFaces Attributes (CelebA) Dataset と書いてありました。AはAttributesの略で、属性ファイルとセットで使うことが前提のデータセットなのね、ということにやっと気づきました。

CelebA データセットから好みのデータセットを抽出する

今回は、CelebAデータセットから、属性ファイルを使って、好みのデータセットを抽出してみます。

CelebAの属性とは

CelebAデータセットを入手する

好みのデータセットを抽出する

コメントを残すコメントをキャンセル

ABOUTこの記事をかいた人

NEW POSTこのライターの最新記事

Animate Anyoneで、１枚の画像から動画を生成する

SVDで静止画から動画を生成する

DiffMorpherを使って、拡散モデルでモーフィングを行う

Domo AIで、実写動画をアニメ化する

最近の投稿

最近のコメント

アーカイブ

カテゴリー

メタ情報

今回は、CelebAデータセットから、属性ファイルを使って、好みのデータセットを抽出してみます。

CelebAの属性とは

CelebAデータセットを入手する

好みのデータセットを抽出する

コメントを残す コメントをキャンセル

RECOMMENDこちらの記事も人気です。

Animate Anyoneで、１枚の画像から動画を生成する

StyleGAN-Humanで、全身画像を生成する

One Shot Talking Face を使って音声で顔画像を動かす

SONY Neural Network Console に待望のサンプル…

PyTorch まずMLPを使ってみる

smooth infinite zoomで文から動画を生成する

Keras で変分オートエンコーダ（VAE）を漢字データセットでやってみる

DifFaceで、低画質な顔画像を高画質化する

ABOUTこの記事をかいた人

NEW POSTこのライターの最新記事

Animate Anyoneで、１枚の画像から動画を生成する

SVDで静止画から動画を生成する

DiffMorpherを使って、拡散モデルでモーフィングを行う

Domo AIで、実写動画をアニメ化する

最近の投稿

最近のコメント

アーカイブ

カテゴリー

メタ情報

コメントを残すコメントをキャンセル