カラー画像のデータセットを探し求めて


2017年 04月 28日

MNISTは、グレースケールの手書き数字のデータ・セットだった。
でも、もう飽きたので、写真などでテストすることにしよう。

といっても、自分でディープラーニング用の画像データを集めるのは気が遠くなるほど面倒だ。

それで、まず、ディープラーニング用のデータ・セットでどのようなものがあるか探ってみた。

http://deeplearning.net/datasets/

そうすると、こちらが探そうとしていることが、そのままURLになっているのが見つかった(笑)

These datasets can be used for benchmarking deep learning algorithms:

という文の下に、自由に使えそうなデータセットが並んでいるのだ。
MNIST関連は飛ばして、色々な写真などのデータセットらしいのを探そう。

CIFAR-10
これは、元トロント大、現在GoogleのAlex Krizhevsky氏が配布しているものだ。
サイトは、今もトロント大にあり、データ収集は
Alex Krizhevsky, Vinod Nair, and Geoffrey Hinton の3名が行ったとある。
最後の Geoffrey Hinton
は、the godfather of deep learning として知られ、Google/DeepMind の AlphaGo にも関係している人なのだ。
画像は32×32とかなりコンパクトで、学習用に50000枚、テスト用に10000枚用意されている。
これは外せないな。

Caltech 101
こちらは、その名の通り、カルテック、カリフォルニア工科大学が用意してくれている画像データセットだ。
101種類の画像で、サイズが300×200程度という。各種類40から500枚くらいで、かなりバラバラである。

その他にも色々あるので、あとは自分で見てみよう。

さて、どれを利用してみるか、それが問題だ。

mnistのデータセットは、こんな感じで読み込んだのだった。

train, test = chainer.datasets.get_mnist()
次のデータセットも、同じように読み込めれば楽である。
ということで、こんな感じに読み込めそうな、つまりchainerがサポートしているデータセットを探した。

Docs ≫ Chainer Reference Manual ≫ Dataset examples

この中が、General datasets と Concrete datasets に別れており、Concrete datasets の中にmnistがあったのだ。
mnist以外では、CIFAR10/100 と Pen Tree Bank があったが、後者は英文に関するデータセットで今考えているものとは違う。

ということで、すんなり、CIFARを選ぶことに決定した。
次回から、実際にデータを読み込んで、あれこれやってみよう。