玩了 Stable Diffusion 一陣也該是時後來了解一下其生成圖片的原理了,跟過去最火的 GAN 比起來真的複雜很多,但不得不說生出來的圖片效果真的非常好,Open AI 的 DALL·E 跟 Google Imagen 背後也都是使用 Diffusion Model,就讓我們來一探究竟吧

玩了 Stable Diffusion 一陣也該是時後來了解一下其生成圖片的原理了,跟過去最火的 GAN 比起來真的複雜很多,但不得不說生出來的圖片效果真的非常好,Open AI 的 DALL·E 跟 Google Imagen 背後也都是使用 Diffusion Model,就讓我們來一探究竟吧
Scaling Up Your Kernels to 31x31: Revisiting Large Kernel Design in CNNs 近年來 Transformer 的崛起,普遍認為 self-attention 在影像領域可以表現得比 CNN 更好,這篇發表在 CVPR 2022 上的研究表示認為這不是因為 Self-attention 的設計形式(query-key-value),而是因為其有效感受野特別大,因此作者提出了提出了超大 kernel 的模型,在一系列的實驗下證明較大的卷積核在現代模型優化的設計下,計算量並不會提升多少且在一些 downstream tasks 的效能更甚於較深但 kernel 較小的網路架構。
以 Dennis Gabor 命名的 Gabor 濾波器,是一種用於紋理分析的線性濾波器,主要分析的是影像在特定區域的特定方向上是否有特定頻率的內容,許多視覺科學家認為 Gabor 的頻率和方向的表達與人類的視覺系統很類似。研究發現,Gabor 濾波器特別適合用於紋理表示和辨識。
智慧監控所使用的CNN的架構大部分是來自 ImageNet Challenge 比賽中獲勝的網路架構,這些較著名的CNN 架構具有更深層且更複雜的神經網路從而達到更高的精度,但在現今的硬體技術發展下,高端硬體設備已經可以讓這些複雜的神經網路達成 real-time 的效果。但在智慧監控領域中多通道的影像,需要同時進行處理並實現及時運算,考量這些大量監視器影像所需的計算成本,以現今的硬體設備還是難以達成
作為首篇學習筆記,來記錄一下最近閱讀學長論文時文中的 Winograd 演算法,該方法可以減少矩陣乘法中的乘法運算,近年來有許多相關研究將其應用於加速 convolutional operation