Архітектура згорткової нейронної мережі (CNN) — це модель глибокого навчання, розроблена для обробки структурованих даних у вигляді сітки, наприклад зображень. Він складається з кількох шарів, включаючи згортковий, об’єднаний і повністю зв’язаний шари. CNN дуже ефективні для таких завдань, як класифікація зображень, виявлення об’єктів і сегментація зображень завдяки їх можливостям вилучення ієрархічних ознак.
ВГГ-16
Модель VGG-16 — це архітектура згорткової нейронної мережі (CNN), запропонована групою візуальної геометрії (VGG) Оксфордського університету. Він характеризується своєю глибиною, що складається з 16 шарів, включаючи 13 згорткових шарів і 3 повністю з'єднаних шари. VGG-16 відомий своєю простотою та ефективністю, а також здатністю досягати високої продуктивності в різних задачах комп’ютерного зору, включаючи класифікацію зображень і розпізнавання об’єктів. Архітектура моделі включає стек згорткових шарів, за якими слідують шари максимального об’єднання з поступово зростаючою глибиною. Ця конструкція дозволяє моделі вивчати складні ієрархічні представлення візуальних функцій, що веде до надійних і точних прогнозів. Незважаючи на свою простоту порівняно з новішими архітектурами, VGG-16 залишається популярним вибором для багатьох програм глибокого навчання завдяки своїй універсальності та чудовій продуктивності.
ImageNet Large Scale Visual Recognition Challenge (ILSVRC) — це щорічне змагання з комп’ютерного зору, де команди вирішують завдання, зокрема локалізацію об’єктів і класифікацію зображень. VGG16, запропонований Кареном Симоняном і Ендрю Зіссерманом у 2014 році, досяг найкращих результатів в обох завданнях, виявляючи об’єкти з 200 класів і класифікуючи зображення за 1000 категоріями.
oracle sql не дорівнює

Архітектура ВГГ-16
Ця модель досягає 92,7% топ-5 перевірте точність на наборі даних ImageNet, який містить 14 мільйонів зображень, що належать до 1000 класів.
Мета моделі VGG-16:
Набір даних ImageNet містить зображення фіксованого розміру 224*224 і мають канали RGB. Отже, ми маємо тензор (224, 224, 3) як наш внесок. Ця модель обробляє вхідне зображення та виводить вектор a 1000 значення:
Цей вектор представляє ймовірність класифікації для відповідного класу. Припустимо, що ми маємо модель, яка передбачає, що зображення з імовірністю належить до класу 0 1 , клас 1 з ймовірністю 0,05 , клас 2 з ймовірністю 0,05 , клас 3 з ймовірністю 0,03 , клас 780 з ймовірністю 0,72 , клас 999 з ймовірністю 0,05 і всі інші клас с 0 .
отже, вектор класифікації для цього буде:
do while java
Щоб переконатися, що ці ймовірності додають до 1 , ми використовуємо функцію softmax.
Ця функція softmax визначається таким чином:
Після цього беремо у вектор 5 найбільш ймовірних кандидатів.
і наш базовий вектор істинності визначається наступним чином:
Потім ми визначаємо нашу функцію Error наступним чином:
фірма проти компанії
Він обчислює мінімальну відстань між кожним наземним класом істинності та прогнозованими кандидатами, де функція відстані d визначається як:
- d=0 якщо
c_i=G_k - d=1 інакше
Отже, функція втрат для цього прикладу:
Оскільки всі категорії основної правди входять до прогнозованої матриці топ-5, тому втрата дорівнює 0.
VGG Архітектура:
Архітектура VGG-16 — це глибока згорточна нейронна мережа (CNN), розроблена для завдань класифікації зображень. Він був представлений групою візуальної геометрії Оксфордського університету. VGG-16 характеризується своєю простотою та уніфікованою архітектурою, що робить його легким для розуміння та впровадження.
c логічний
Конфігурація VGG-16 зазвичай складається з 16 шарів, включаючи 13 згорткових шарів і 3 повністю з'єднані шари. Ці шари організовані в блоки, причому кожен блок містить кілька згорткових шарів, за якими йде шар максимального об’єднання для зменшення дискретизації.

Карта архітектури VGG-16
Ось розбивка архітектури VGG-16 на основі наданих деталей:
- Вхідний шар:
- Вхідні розміри: (224, 224, 3)
- Згорткові шари (64 фільтри, фільтри 3 × 3, однакові заповнення):
- Два послідовних згорткових шару з 64 фільтрами кожен і розміром фільтра 3×3.
- Для збереження просторових розмірів застосовано таке ж відступ.
- Максимальний шар об’єднання (2×2, крок 2):
- Шар максимального об’єднання з розміром басейну 2×2 і кроком 2.
- Згорткові шари (128 фільтрів, фільтри 3 × 3, однакові заповнення):
- Два послідовних згорткових шару з 128 фільтрами кожен і розміром фільтра 3×3.
- Максимальний шар об’єднання (2×2, крок 2):
- Шар максимального об’єднання з розміром басейну 2×2 і кроком 2.
- Згорткові шари (256 фільтрів, фільтри 3 × 3, однакові заповнення):
- Два послідовних згорткових шару з 256 фільтрами кожен і розміром фільтра 3×3.
- Згорткові шари (512 фільтрів, фільтри 3 × 3, однакові заповнення):
- Два набори з трьох послідовних згорткових шарів з 512 фільтрами кожен і розміром фільтра 3×3.
- Максимальний шар об’єднання (2×2, крок 2):
- Шар максимального об’єднання з розміром басейну 2×2 і кроком 2.
- Стек згорткових шарів і максимальне об'єднання:
- Два додаткових згорткових шари після попереднього стека.
- Розмір фільтра: 3×3.
- Зведення:
- Зведіть вихідну карту функцій (7x7x512) у вектор розміром 25088.
- Повністю підключені шари:
- Три повністю з'єднані шари з активацією ReLU.
- Перший шар із вхідним розміром 25088 і вихідним розміром 4096.
- Другий шар із вхідним розміром 4096 і вихідним розміром 4096.
- Третій рівень із вхідним розміром 4096 і вихідним розміром 1000, що відповідає 1000 класам у виклику ILSVRC.
- Активація Softmax застосовується до виходу третього повністю підключеного шару для класифікації.
Ця архітектура відповідає наданим специфікаціям, включно з використанням функції активації ReLU та ймовірностей виведення остаточного повного підключеного рівня для 1000 класів із використанням активації softmax.
Конфігурація VGG-16:
Основна відмінність між конфігураціями VGG-16 C і D полягає у використанні розмірів фільтрів у деяких згорткових шарах. Хоча в обох версіях переважно використовуються фільтри 3×3, у версії D є випадки, коли замість них використовуються фільтри 1×1. Ця невелика варіація призводить до різниці в кількості параметрів, причому версія D має трохи більшу кількість параметрів порівняно з версією C. Однак обидві версії зберігають загальну архітектуру та принципи моделі VGG-16.

Інша конфігурація VGG
Локалізація об'єкта на зображенні:
Щоб виконати локалізацію, нам потрібно замінити оцінку класу на координати розташування обмежувальної рамки. Розташування обмежувальної рамки представлено 4-вимірним вектором (координати центру (x,y), висота, ширина). Є дві версії архітектури локалізації, одна з яких обмежувальна рамка використовується між різними кандидатами (вихід 4 вектор параметрів), а інший – це обмежувальна рамка, що залежить від класу (вихід є 4000 вектор параметрів). У статті експериментували з обома підходами на архітектурі VGG -16 (D). Тут нам також потрібно змінити втрату з втрат класифікації на функції втрат регресії (наприклад, MSE ), які штрафують за відхилення прогнозованих втрат від наземної істини.
Результати: VGG-16 була однією з найефективніших архітектур у змаганні ILSVRC 2014. Вона посіла друге місце в класифікаційному завданні з п’ятіркою найбільших помилок класифікації 7,32% (лише за GoogLeNet із помилкою класифікації 6,66% ). Він також став переможцем завдання локалізації с 25,32% помилка локалізації.
Обмеження VGG 16:
- Він дуже повільний для навчання (оригінальна модель VGG навчалася на GPU Nvidia Titan протягом 2-3 тижнів).
- Розмір навчених ваги imageNet VGG-16 становить 528 MB. Таким чином, це займає досить багато дискового простору та пропускної здатності, що робить його неефективним.
- 138 мільйонів параметрів призводять до проблеми вибухових градієнтів.
Подальші вдосконалення: введено Resnets, щоб запобігти проблемі вибухових градієнтів, яка виникла у VGG-16.