logo

ВГГ-16 | Модель CNN

Архітектура згорткової нейронної мережі (CNN) — це модель глибокого навчання, розроблена для обробки структурованих даних у вигляді сітки, наприклад зображень. Він складається з кількох шарів, включаючи згортковий, об’єднаний і повністю зв’язаний шари. CNN дуже ефективні для таких завдань, як класифікація зображень, виявлення об’єктів і сегментація зображень завдяки їх можливостям вилучення ієрархічних ознак.

ВГГ-16

Модель VGG-16 — це архітектура згорткової нейронної мережі (CNN), запропонована групою візуальної геометрії (VGG) Оксфордського університету. Він характеризується своєю глибиною, що складається з 16 шарів, включаючи 13 згорткових шарів і 3 повністю з'єднаних шари. VGG-16 відомий своєю простотою та ефективністю, а також здатністю досягати високої продуктивності в різних задачах комп’ютерного зору, включаючи класифікацію зображень і розпізнавання об’єктів. Архітектура моделі включає стек згорткових шарів, за якими слідують шари максимального об’єднання з поступово зростаючою глибиною. Ця конструкція дозволяє моделі вивчати складні ієрархічні представлення візуальних функцій, що веде до надійних і точних прогнозів. Незважаючи на свою простоту порівняно з новішими архітектурами, VGG-16 залишається популярним вибором для багатьох програм глибокого навчання завдяки своїй універсальності та чудовій продуктивності.



ImageNet Large Scale Visual Recognition Challenge (ILSVRC) — це щорічне змагання з комп’ютерного зору, де команди вирішують завдання, зокрема локалізацію об’єктів і класифікацію зображень. VGG16, запропонований Кареном Симоняном і Ендрю Зіссерманом у 2014 році, досяг найкращих результатів в обох завданнях, виявляючи об’єкти з 200 класів і класифікуючи зображення за 1000 категоріями.


oracle sql не дорівнює

Архітектура ВГГ-16



Ця модель досягає 92,7% топ-5 перевірте точність на наборі даних ImageNet, який містить 14 мільйонів зображень, що належать до 1000 класів.

Мета моделі VGG-16:

Набір даних ImageNet містить зображення фіксованого розміру 224*224 і мають канали RGB. Отже, ми маємо тензор (224, 224, 3) як наш внесок. Ця модель обробляє вхідне зображення та виводить вектор a 1000 значення:

hat{y} =egin{bmatrix} hat{y_0} hat{y_1} hat{y_2} . . . hat{y}_{999} end{bmatrix}



Цей вектор представляє ймовірність класифікації для відповідного класу. Припустимо, що ми маємо модель, яка передбачає, що зображення з імовірністю належить до класу 0 1 , клас 1 з ймовірністю 0,05 , клас 2 з ймовірністю 0,05 , клас 3 з ймовірністю 0,03 , клас 780 з ймовірністю 0,72 , клас 999 з ймовірністю 0,05 і всі інші клас с 0 .

отже, вектор класифікації для цього буде:

do while java

hat{y}=egin{bmatrix} hat{y_{0}}=0.1 0.05 0.05 0.03 . . . hat{y_{780}} = 0.72 . . hat{y_{999}} = 0.05 end{bmatrix}

Щоб переконатися, що ці ймовірності додають до 1 , ми використовуємо функцію softmax.

Ця функція softmax визначається таким чином:

hat{y}_i = frac{e^{z_i}}{sum_{j=1}^{n} e^{z_j}}

Після цього беремо у вектор 5 найбільш ймовірних кандидатів.

C =egin{bmatrix} 780 0 1 2 999 end{bmatrix}

і наш базовий вектор істинності визначається наступним чином:

G = egin{bmatrix} G_{0} G_{1} G_{2} end{bmatrix}=egin{bmatrix} 780 2 999 end{bmatrix}

Потім ми визначаємо нашу функцію Error наступним чином:

E = frac{1}{n}sum_{k}min_{i}d(c_{i}, G_{k})

фірма проти компанії

Він обчислює мінімальну відстань між кожним наземним класом істинності та прогнозованими кандидатами, де функція відстані d визначається як:

  • d=0 якщоc_i=G_k
  • d=1 інакше

Отже, функція втрат для цього прикладу:

egin{aligned} E &=frac{1}{3}left ( min_{i}d(c_{i}, G_{1}) +min_{i}d(c_{i}, G_{2})+min_{i}d(c_{i}, G_{3}) ight ) &= frac{1}{3}(0 + 0 +0) &=0 end{aligned}

Оскільки всі категорії основної правди входять до прогнозованої матриці топ-5, тому втрата дорівнює 0.

VGG Архітектура:

Архітектура VGG-16 — це глибока згорточна нейронна мережа (CNN), розроблена для завдань класифікації зображень. Він був представлений групою візуальної геометрії Оксфордського університету. VGG-16 характеризується своєю простотою та уніфікованою архітектурою, що робить його легким для розуміння та впровадження.

c логічний

Конфігурація VGG-16 зазвичай складається з 16 шарів, включаючи 13 згорткових шарів і 3 повністю з'єднані шари. Ці шари організовані в блоки, причому кожен блок містить кілька згорткових шарів, за якими йде шар максимального об’єднання для зменшення дискретизації.

Карта архітектури VGG-16

Ось розбивка архітектури VGG-16 на основі наданих деталей:

  1. Вхідний шар:
    1. Вхідні розміри: (224, 224, 3)
  2. Згорткові шари (64 фільтри, фільтри 3 × 3, однакові заповнення):
    • Два послідовних згорткових шару з 64 фільтрами кожен і розміром фільтра 3×3.
    • Для збереження просторових розмірів застосовано таке ж відступ.
  3. Максимальний шар об’єднання (2×2, крок 2):
    • Шар максимального об’єднання з розміром басейну 2×2 і кроком 2.
  4. Згорткові шари (128 фільтрів, фільтри 3 × 3, однакові заповнення):
    • Два послідовних згорткових шару з 128 фільтрами кожен і розміром фільтра 3×3.
  5. Максимальний шар об’єднання (2×2, крок 2):
    • Шар максимального об’єднання з розміром басейну 2×2 і кроком 2.
  6. Згорткові шари (256 фільтрів, фільтри 3 × 3, однакові заповнення):
    • Два послідовних згорткових шару з 256 фільтрами кожен і розміром фільтра 3×3.
  7. Згорткові шари (512 фільтрів, фільтри 3 × 3, однакові заповнення):
    • Два набори з трьох послідовних згорткових шарів з 512 фільтрами кожен і розміром фільтра 3×3.
  8. Максимальний шар об’єднання (2×2, крок 2):
    • Шар максимального об’єднання з розміром басейну 2×2 і кроком 2.
  9. Стек згорткових шарів і максимальне об'єднання:
    • Два додаткових згорткових шари після попереднього стека.
    • Розмір фільтра: 3×3.
  10. Зведення:
    • Зведіть вихідну карту функцій (7x7x512) у вектор розміром 25088.
  11. Повністю підключені шари:
    • Три повністю з'єднані шари з активацією ReLU.
    • Перший шар із вхідним розміром 25088 і вихідним розміром 4096.
    • Другий шар із вхідним розміром 4096 і вихідним розміром 4096.
    • Третій рівень із вхідним розміром 4096 і вихідним розміром 1000, що відповідає 1000 класам у виклику ILSVRC.
    • Активація Softmax застосовується до виходу третього повністю підключеного шару для класифікації.

Ця архітектура відповідає наданим специфікаціям, включно з використанням функції активації ReLU та ймовірностей виведення остаточного повного підключеного рівня для 1000 класів із використанням активації softmax.

Конфігурація VGG-16:

Основна відмінність між конфігураціями VGG-16 C і D полягає у використанні розмірів фільтрів у деяких згорткових шарах. Хоча в обох версіях переважно використовуються фільтри 3×3, у версії D є випадки, коли замість них використовуються фільтри 1×1. Ця невелика варіація призводить до різниці в кількості параметрів, причому версія D має трохи більшу кількість параметрів порівняно з версією C. Однак обидві версії зберігають загальну архітектуру та принципи моделі VGG-16.

Інша конфігурація VGG

Локалізація об'єкта на зображенні:

Щоб виконати локалізацію, нам потрібно замінити оцінку класу на координати розташування обмежувальної рамки. Розташування обмежувальної рамки представлено 4-вимірним вектором (координати центру (x,y), висота, ширина). Є дві версії архітектури локалізації, одна з яких обмежувальна рамка використовується між різними кандидатами (вихід 4 вектор параметрів), а інший – це обмежувальна рамка, що залежить від класу (вихід є 4000 вектор параметрів). У статті експериментували з обома підходами на архітектурі VGG -16 (D). Тут нам також потрібно змінити втрату з втрат класифікації на функції втрат регресії (наприклад, MSE ), які штрафують за відхилення прогнозованих втрат від наземної істини.

Результати: VGG-16 була однією з найефективніших архітектур у змаганні ILSVRC 2014. Вона посіла друге місце в класифікаційному завданні з п’ятіркою найбільших помилок класифікації 7,32% (лише за GoogLeNet із помилкою класифікації 6,66% ). Він також став переможцем завдання локалізації с 25,32% помилка локалізації.

Обмеження VGG 16:

  • Він дуже повільний для навчання (оригінальна модель VGG навчалася на GPU Nvidia Titan протягом 2-3 тижнів).
  • Розмір навчених ваги imageNet VGG-16 становить 528 MB. Таким чином, це займає досить багато дискового простору та пропускної здатності, що робить його неефективним.
  • 138 мільйонів параметрів призводять до проблеми вибухових градієнтів.

Подальші вдосконалення: введено Resnets, щоб запобігти проблемі вибухових градієнтів, яка виникла у VGG-16.