В останні роки глибоке навчання змінило поле комп’ютерного зору, дозволяючи комп’ютерам сприймати та з’ясовувати візуальну інформацію на незвичайних рівнях. Гра зі згортковими нейронними мережами (CNN) мала вирішальний вплив на цю зміну з кількома новаторськими розробками. Двома найвпливовішими структурами CNN є AlexNet і GoogleNet (InceptionNet). Обидві моделі загалом додали до прогресу завдань класифікації зображень, але вони контрастують за своїми структурами та принципами дизайну. У цій статті ми зануримося в критичні відмінності між AlexNet і GoogleNet, досліджуючи їхні структури, дизайнерські рішення та виконання.
Основні відмінності між AlexNet і GoogleNet
Особливість | AlexNet | GoogleNet (InceptionV3) |
---|---|---|
Рік випуску/представлення | 2012 рік | 2014 рік |
Кількість шарів у моделі | 8 (5 згорток, 3 FC) | 159 (включаючи допоміжні) |
Архітектура | Послідовний | Мультифілія (початок) |
Розмір згортки | Більші фільтри (11x11, 5x5) | Менші фільтри (1x1, 3x3, 5x5) |
Об'єднання шарів | Макс Пулінг | Максимальне та середнє об’єднання |
Функція активації | резюме | ReLU та інші варіації |
Нормалізація локальної реакції (LRN) | б/в | Не використовується |
Початкові модулі | Не використовується | Використовується з багатьма гілками |
Обчислювальна ефективність | Помірний | Вища |
Складність моделі | Низький | Високий |
Топ-1 точність (ImageNet) | 0,571 | 0,739 |
Що таке AlexNet?
AlexNet — це варта уваги архітектура згорткової нейронної мережі (CNN), створена Алексом Крижевським, Іллею Суцкевером і Джеффрі Гінтоном. Він був представлений у 2012 році та досяг критичного прогресу в ImageNet Large Scope Visual Recognition Challenge (ILSVRC), по суті перемігши різні методології. AlexNet був основним каналом CNN, який продемонстрував життєздатність глибокого навчання для завдань упорядкування зображень, позначаючи визначальний момент у сфері комп’ютерного зору.
1. Архітектура
Випущений у 2012 році, AlexNet був лідером CNN, який виграв ImageNet Large Scope Visual Recognition Challenge (ILSVRC) з критичним простором для помилок. Він складається з п’яти згорткових шарів, за якими йдуть три пов’язані шари. Використання ReLU (Redressed Direct Unit) активації та стандартизації реакції сусідства (LRN) додало йому процвітання. Крім того, AlexNet представив ідею залучення графічних процесорів до підготовки, що взагалі прискорило розвиток досвіду.
2. Глибина мережі:
З вісьмома шарами (п’ятьма згортковими і трьома повністю пов’язаними шарами) AlexNet вважався глибоким на момент його презентації. Незважаючи на це, на відміну від поточних дизайнів, він, як правило, неглибокий, що обмежує його здатність вловлювати приголомшливі елементи та приклади в надзвичайно складних наборах даних.
3. Обчислювальна продуктивність:
Хоча презентація AlexNet про підготовку графічного процесора пришвидшила освітній досвід, вона все ще була дорогою з точки зору обчислень через глибші повністю пов’язані рівні та обмежене використання розпаралелювання.
4. Переобладнання:
Через помірно поверхневий дизайн і величезну кількість меж AlexNet був більш схильний до переобладнання, особливо на більш скромних наборах даних. Згодом були представлені такі стратегії, як відсівання, щоб модерувати це питання.
5. Навчання:
Щоб навчити AlexNet, творці використали набір даних ImageNet, який містить понад 1 000 000 іменованих зображень із 1000 класифікацій. Вони використали стохастичне падіння кута (SGD) з енергією для розрахунку покращення. Під час навчання застосовувалися такі методи розширення інформації, як довільне редагування та перегортання, щоб збільшити розмір навчального набору даних і подальшого розвитку узагальнення.
Систему навчання вимагали обчислення, і використання AlexNet графічних процесорів для рівноправної обробки виявилося важливим. Навчання AlexNet на системі подвійного графічного процесора вимагало близько семи днів, що було критичним покращенням у порівнянні зі звичайним часом навчання на основі процесора комп’ютера.
6. Результати:
функція прототипу c++
У конкурентній боротьбі ImageNet 2012 AlexNet досягла вагомої п’ятірки помилок — близько 15,3%, перевершивши різні методології.
Результати AlexNet викликали потік інтересу до глибокого навчання та CNN, спонукаючи до зміни локальної концентрації комп’ютерного бачення в бік додаткових складних і глибших нейронних мереж.
7. Налаштування згорткового шару:
Згорткові шари в AlexNet організовані в базовій послідовності з періодичним максимальним об’єднанням шарів для зменшення дискретизації. Ця чітка інженерія мала важливе значення на той момент, але вона обмежувала здатність організації вловлювати складні прогресивні елементи.
8. Зменшення розмірності:
AlexNet передбачає максимальне об’єднання шарів для зменшення дискретизації, зменшуючи просторові компоненти карт елементів. Це допомагає зменшити обчислювальну вагу та контролювати переобладнання.
9. Розмір і складність моделі:
Хоча AlexNet вважався глибоким на той момент, він дещо скромніший і менш складний на відміну від пізніших дизайнів. Ця прямота зробила його більш очевидним і реалізованим.
10. Використання допоміжних класифікаторів:
Щоб вирішити проблему кутів випаровування під час підготовки, AlexNet представив ідею допоміжних класифікаторів. Ці додаткові класифікатори були приєднані до помірних шарів і дали знаки кутів переднім шарам під час зворотного поширення.
11. Вплив на напрямок дослідження:
Результати AlexNet означають величезні зміни в полі бачення ПК. Це підштовхнуло вчених до дослідження можливості глибокого навчання для різних завдань, пов’язаних із зображеннями, що спонукало до швидкого вдосконалення подальших розробок проектів CNN.
Що таке GoogleNet?
GoogleNet, інакше звана Inception v1, — це архітектура CNN, створена групою Google Brain, особливо Крістіаном Сегеді, Вей Лю та іншими. Він був представлений у 2014 році та виграв ILSVRC завдяки подальшому вдосконаленню точності та обчислювальної продуктивності. Архітектура GoogleNet описується її глибоким дизайном, який складається з 22 рівнів, що робить її однією з перших «надзвичайно глибоких» CNN.
1. Архітектура
GoogleNet (Inception v1): GoogleNet, представлений у 2014 році, має важливе значення для початкової групи CNN. Він відомий своїм глибоким дизайном, що включає 22 шари (початкові модулі). Важливою розробкою GoogleNet є початковий модуль, який розглядає однакові згортки каналів різних розмірів у подібному шарі. Це зменшило обчислювальну складність, зберігаючи при цьому точність, що зробило GoogleNet більш ефективним, ніж AlexNet.
2. Глибина мережі:
Початкові модулі GoogleNet вважаються істотно глибшою конструкцією без збільшення обчислювальних витрат. Завдяки 22 рівням GoogleNet був одним із головних каналів CNN, які показали переваги розширеної глибини мережі, спонукаючи до подальшого вдосконалення точності та потужності.
3. Обчислювальна продуктивність:
Початкові модулі в GoogleNet вважаються більш продуктивним використанням обчислювальних ресурсів. Використовуючи однакові згортки в кожному початковому блоці, GoogleNet зменшив кількість меж і обчислень, зробивши його більш досяжним для безперервних додатків і передачі на гаджетах, що потребують ресурсів.
4. Переобладнання:
Глибока, але ефективна конструкція GoogleNet істотно зменшила переобладнання, що дозволило йому працювати краще на скромніших наборах даних і змінювати навчальні ситуації.
5. Навчання:
Навчання GoogleNet додатково розробляє використання набору даних ImageNet, а порівняльні процедури збільшення інформації були використані для покращення узагальнення. Як би там не було, через свою глибшу архітектуру під час навчання GoogleNet вимагав більше обчислювальних ресурсів, ніж AlexNet.
Розробка початкових модулів дозволила GoogleNet знайти певну гармонію між глибиною та обчислювальною ефективністю. Рівні згортки всередині кожного початкового блоку зменшили кількість обчислень і меж у цілому, зробивши навчання більш досяжним і ефективним.
6. Результати:
На конкурсі ImageNet 2014 GoogleNet показав чудовий показник помилок у топ-5 – близько 6,67%, перевершивши презентацію AlexNet.
Глибока, але досвідчена архітектура GoogleNet показала можливості глибших нейронних мереж, не відставаючи від обчислювальної досяжності, що зробило її більш привабливою для справжніх програм.
7. Налаштування згорткового шару:
GoogleNet представив ідею початкових модулів, які містять численні рівні згорткові шари різних розмірів каналів. Цей план дозволяє GoogleNet виявляти основні моменти в різних масштабах і загалом впливає на здатність організації видаляти важливі елементи з різних ступенів обговорення.
8. Зменшення розмірності:
незважаючи на звичайне максимальне об’єднання, GoogleNet використовує методи зменшення розмірності, такі як згортки 1x1. Ці більш скромні згортки мають меншу обчислювальну ескалацію та допомагають зменшити кількість елементів, захищаючи фундаментальні дані.
9. Розмір і складність моделі:
Модулі походження GoogleNet створюють більш глибокий дизайн із значно більшою кількістю шарів і меж. Ця складність, пропонуючи подальшу точність, може також зробити організацію більш тестовою для підготовки та калібрування.
10. Використання допоміжних класифікаторів:
GoogleNet вдосконалив ідею допоміжних класифікаторів, включивши їх у модулі ініціації. Ці допоміжні класифікатори прискорюють підготовку більш глибоких шарів і покращують кутовий потік, додаючи до більш стабільної та ефективної підготовки.
11. Вплив на напрямок дослідження:
Початкові модулі GoogleNet надавали можливість ефективного вилучення компонентів у різних масштабах. Ця ідея вплинула на план кінцевих проектів, дозволяючи аналітикам зосередитися на вдосконаленні глибини організації та обчислювальної продуктивності, не відставаючи від точності або вдосконалюючи її.
Висновок
І AlexNet, і GoogleNet довго впливають на сферу комп’ютерного зору та глибокого навчання. AlexNet продемонстрував можливості CNN для завдань розпізнавання зображень і налаштувався на майбутні прогресії. Знову ж таки, GoogleNet представив ідею вихідних модулів, готуючи їх до більш ефективних і глибших структур CNN.
машинопис дата час
У той час як AlexNet і GoogleNet мають свої особливі переваги, сфера глибокого навчання отримала фундаментальний розвиток після їх презентацій. Сучасні проекти, такі як ResNet, DenseNet і EfficientNet, додатково розширили межі точності, продуктивності та узагальнення. Оскільки аналітики продовжують удосконалювати та розширювати ці основні моделі, доля комп’ютерного зору має значно більше уваги та додаткові інтригуючі перспективи.