Academication-AI

AI活用・オープンイノベーションのためのメディアです。最先端のAIビジネス事例情報と研究情報をお届けします。

【研究者向け】PixelCNNを並列化【DeepMind2017/03/10】

自然画像の生成に用いられるPixelCNNを大幅に高速化

 

【論文名】Parallel Multiscale Autoregressive Density Estimation

【URL】https://arxiv.org/pdf/1703.03664.pdf

【abstract翻訳】

PixelCNNは、自然画像の密度推定でstate-of-the-artを達成している。トレーニングは高速ですが、推論にはコストがかかる。ピクセルごとに1つのネットワーク評価が必要で、つまりN個のピクセルについてはO(N)である。 これはアクティベーションをキャッシングすることで高速化できるが、それでも各ピクセルを順次生成する。 本研究では、ある画素群を条件付き独立としてモデリングすることにより、より効率的な推論を可能にする並列化PixelCNNを提案する。 当社の新しいPixelCNNモデルは、O(N)ではなくO(log N)サンプリングという、以前に匹敵する密度推定と数倍のスピードアップを達成し、512x512の画像を実際に生成することができる。 私たちはモデルをクラス条件付き画像生成、テキスト - イメージ合成、およびアクション条件付きビデオ生成で評価し、効率的なサンプリングを可能にする非ピクセル自己回帰密度モデルの中で最良の結果を得ることを示す。

 

【abstract】

PixelCNN achieves state-of-the-art results in density estimation for natural images. Although training is fast, inference is costly, requiring one network evaluation per pixel; O(N) for N pixels. This can be sped up by caching activations, but still involves generating each pixel sequentially. In this work, we propose a parallelized PixelCNN that allows more efficient inference by modeling certain pixel groups as conditionally independent. Our new PixelCNN model achieves competitive density estimation and orders of magnitude speedup - O(log N) sampling instead of O(N) - enabling the practical generation of 512x512 images. We evaluate the model on class-conditional image generation, text-to-image synthesis, and action-conditional video generation, showing that our model achieves the best results among non-pixel-autoregressive density models that allow efficient sampling.

 

 

DeepMindの論文投稿速度は凄まじい。それでもなおGoogleには余力がありそうなのが恐ろしい。彼らは私たちがDeepLearningをLuarで実装している時にTensorflow使って研究していたのだから、差がつくのも宜なるかな。

 

以下が論文内にある結果

・4×4から鳥の画像を生成

f:id:latebloom:20170319102254p:plain

 

・テキストから画像の生成(Captionsが与えたText、Samplesが4×4から256×256で生成したもの

f:id:latebloom:20170319104557p:plain