[單元8] AI深度學習CNN硬體加速器(1)-Edge SoC

由訓練到推論-硬體平行加速器 HLS RTL SoC FPGA實作

TWD $8000

7 hours 42 mins
作者
ChipSkywalker
請先登入才能購買課程
章節及內容

2 堂課

17 分鐘
AI CNN訓練/量化/硬體平行加速推論-課程規劃
介紹課程全重點及AI CNN實作流程 (免費預覽課堂)
17 分鐘
***課程Lab material 下載
請下載附件
1 堂課

24 分鐘
AI:第四次工業革命
人才輩出;大量開源;百家爭鳴;十年內最重要的科技之一
24 分鐘
2 堂課

60 分鐘
CNN卷積神經網路簡介(1)
快速說明CNN主要三個Layer及運算;理解CNN運算原理才能實作硬體加速
31 分鐘
CNN卷積神經網路簡介(2)
同時說明並比較CNN LeNet及經典LeNet-5;你會很驚訝1998年的LeNet-5就很強了
29 分鐘
3 堂課

57 分鐘
Lab1 Tensorflow/Keras CNN訓練(1)
TF/Keras環境架設與CNN模型講解
25 分鐘
Lab1 Tensorflow/Keras CNN訓練(2)
CNN訓練的名詞及用法;導出"硬體平行處理"格式的權重;Python轉出Test Dataset 及Label
26 分鐘
Lab1 Tensorflow/Keras CNN訓練(3)
Lab1 Demo 實際演練操作影片
6 分鐘
2 堂課

18 分鐘
Lab2 CPU C 軟體推論(1)
用C程式碼深入理解推論的過程;為硬體加速作準備
16 分鐘
Lab2 CPU C 軟體推論(2)
Lab2 Demo實際操作影片
2 分鐘
3 堂課

62 分鐘
Lab 3 HLS C to RTL 硬體CNN 推論 IP(1)
硬體(Vivado)/HLS(Vitis HLS)/軟體SDK(Vitis) 工具安裝
12 分鐘
Lab 3 HLS C to RTL 硬體CNN 推論 IP(2)
講解如何以HLS C to RTL 實作"硬體CNN 推論 IP" : CNN介面,效能及面積分析
34 分鐘
Lab 3 HLS C to RTL 硬體CNN 推論 IP(3)
HLS C to RTL 硬體CNN 推論 IP : Demo 實際演練操作
16 分鐘
4 堂課

72 分鐘
Lab4 最佳化CNN IP(1)
float 型別 CNN及改寫為AXI4 Streaming介面
20 分鐘
Lab4 最佳化CNN IP(2)
float 型別 CNN及改寫為AXI4 Streaming介面-Demo影片
20 分鐘
Lab4 最佳化CNN IP(3)
half(float16)型別 CNN及改寫為AXI4 Streaming介面;以及用工具自動條列比較float32/half CNN的效能與面積
20 分鐘
Lab4 最佳化CNN IP(4)
half(float16) 型別 CNN及改寫為AXI4 Streaming介面-Demo影片
12 分鐘
6 堂課

141 分鐘
Lab 5 Edge AI CNN Accelerators(1)
ARM SoC FPGA + CNN加速器- 硬體架構與設計
24 分鐘
Lab 5 Edge AI CNN Accelerators(2)
ARM SoC FPGA + CNN加速器- 硬體架構與設計 : Demo 操作影片
22 分鐘
Lab 5 Edge AI CNN Accelerators(3)
ARM SoC FPGA + CNN加速器- BSP平台與軟體設計
18 分鐘
Lab 5 Edge AI CNN Accelerators(4)
BSP平台與軟體設計 : Demo操作影片與C程式碼講解(如何控制及驅動CNN及DMA等等)
30 分鐘
Lab 5 Edge AI CNN Accelerators(5)
進一步最佳化CNN加速器(H/W & S/W)
33 分鐘
Lab 5 Edge AI CNN Accelerators(6)
進一步最佳化CNN加速器(H/W & S/W) : Demo操作影片
14 分鐘
1 堂課

11 分鐘
快速簡介如何移植到其他SoC FPGA平台
11 分鐘
產品介紹

(應該是)目前硬體CNN加速器,說明清楚且以實作導向的課程

  • 以經典的手寫辨識CNN模型為講解示範 (重要的是實作流程,而非模型)
  • 說明CNN的主要架構,原理重點及參數意義 (能用手算出CNN的各層參數個數)
  • 由Tensorflow/Keras快速建立模型及訓練 (理解工具,善用工具)
  • Python將參數導出為硬體平行處理的格式 (務必詳細了解)
  • 以C語言撰寫推論代碼,解釋推論的步驟 (為理解硬體實現準備)
  • 使用HLS工具將C代碼轉為平行處理RTL IP (尚未最佳化)
  • 進行float32/float16 量化,證明量化的好處 (由實驗數據分析)
  • 改寫C代碼,以HLS合成AXI4-stream CNN IP (最佳化硬體設計)
  • HLS工具比較float32/float16 CNN模型的面積大小 (為量產成本考慮)
  • SoC FPGA軟硬體協同設計,實現硬體CNN加速器 (集大成的實作章節)

課程注意事項

  • 建議學習基礎單元5/6/7,與本單元合購有優惠,詳見首頁優惠
  • 課程有效期 : 購買後二年(730天)