LLE (Локально лінійне вбудовування) це неконтрольований підхід, призначений для перетворення даних із їх оригінального простору високої розмірності в представлення нижчої розмірності, намагаючись зберегти основні геометричні характеристики основної структури нелінійних ознак. LLE працює в кілька ключових етапів:
- По-перше, він будує графік найближчих сусідів, щоб охопити ці локальні зв’язки. Потім він оптимізує значення ваги для кожної точки даних, щоб мінімізувати помилку реконструкції під час вираження точки як лінійної комбінації її сусідів. Ця вагова матриця відображає міцність зв’язків між точками.
- Далі LLE обчислює представлення даних нижчого розміру шляхом пошуку власні вектори матриці, отриманої з вагової матриці. Ці власні вектори представляють найбільш актуальні напрямки у зменшеному просторі. Користувачі можуть вказати бажану розмірність для вихідного простору, а LLE відповідно вибере верхні власні вектори.
Як ілюстрацію розглянемо a Набір даних Swiss roll , який за своєю суттю є нелінійним у своєму багатовимірному просторі. У цьому випадку LLE працює над проектуванням цієї складної структури на нижню площину, зберігаючи її відмінні геометричні властивості протягом усього процесу трансформації.
Зміст
- Математична реалізація алгоритму LLE
- Алгоритм локально лінійного вбудовування
- Параметри в алгоритмі LLE
- Реалізація локально лінійного вбудовування
- Переваги LLE
- Недоліки LLE
Математична реалізація алгоритму LLE
Ключова ідея LLE полягає в тому, що локально, поблизу кожної точки даних, дані лежать приблизно на лінійному підпросторі. LLE намагається розгорнути або розгорнути дані, зберігаючи ці локальні лінійні зв’язки.
Ось математичний огляд алгоритму LLE:
Згорнути: 
На тему : 
веб-сервіси Java
Де:
структура java
- xiпредставляє i-ту точку даних.
- вijце ваги, які мінімізують помилку реконструкції для точки даних xiвикористовуючи своїх сусідів.
Він спрямований на пошук низьковимірного представлення даних, зберігаючи локальні зв’язки. Математичний вираз для LLE передбачає мінімізацію помилки реконструкції кожної точки даних шляхом виразу її як зваженої суми її k найближчих сусідів «внески. Ця оптимізація підлягає обмеженням, які гарантують, що сума вагових коефіцієнтів дорівнює 1 для кожної точки даних. Локально лінійне вбудовування (LLE) — це техніка зменшення розмірності, яка використовується в машинному навчанні й аналізі даних. Він зосереджений на збереженні локальних зв’язків між точками даних під час відображення високовимірних даних у низьковимірний простір. Тут ми пояснимо алгоритм LLE та його параметри.
Алгоритм локально лінійного вбудовування
Алгоритм LLE можна розбити на кілька етапів:
- Вибір району: Для кожної точки даних у високовимірному просторі LLE ідентифікує її k-найближчих сусідів. Цей крок є ключовим, оскільки LLE передбачає, що кожна точка даних може бути добре апроксимована лінійною комбінацією її сусідів.
- Конструкція вагової матриці: LLE обчислює набір вагових коефіцієнтів для кожної точки даних, щоб виразити її як лінійну комбінацію її сусідів. Ці ваги визначаються таким чином, щоб мінімізувати помилку реконструкції. Для визначення цих ваг часто використовується лінійна регресія.
- Збереження глобальної структури: Після побудови вагової матриці LLE прагне знайти представлення даних нижчої розмірності, яке найкраще зберігає локальні лінійні зв’язки. Це робиться шляхом пошуку набору координат у нижньому вимірному просторі для кожної точки даних, що мінімізує функцію вартості. Це функція витрат оцінює, наскільки добре кожна точка даних може бути представлена її сусідами.
- Вбудований вихід: Після завершення процесу оптимізації LLE надає остаточне низьковимірне представлення даних. Це представлення фіксує основну структуру даних, одночасно зменшуючи їх розмірність.
Параметри в алгоритмі LLE
LLE має кілька параметрів, які впливають на його поведінку:
- k (Кількість сусідів): Цей параметр визначає, скільки найближчих сусідів враховується при побудові вагової матриці. Більше k фіксує більш глобальні зв’язки, але може створювати шум. Менше k зосереджується на локальних зв’язках, але може бути чутливим до викидів. Вибір відповідного значення для k є важливим для успіху алгоритму.
- Розмірність вихідного простору: Ви можете вказати розмірність нижнього вимірного простору, на який будуть зіставлені дані. Це часто вибирається на основі вимог проблеми та компромісу між обчислювальною складністю та збереженням інформації.
- Метрика відстані: LLE покладається на метрику відстані, щоб визначити відстань між точками даних. Загальні варіанти включають евклідову відстань, манхеттенську відстань або спеціальні функції відстані. Вибір метрики відстані може вплинути на результати.
- Регулярізація (необов'язково): У деяких випадках умови регулярізації додаються до функції вартості, щоб запобігти переобладнанню. Регуляризація може бути корисною при роботі з шумними даними або коли кількість сусідів велика.
- Алгоритм оптимізації (опціонально): LLE часто використовує такі методи оптимізації, як Декомпозиція сингулярного значення (SVD) або методи власного вектора для пошуку представлення меншої розмірності. Ці методи оптимізації можуть мати власні параметри, які можна регулювати.
LLE (локально лінійне вбудовування) являє собою значний прогрес у структурному аналізі, перевершуючи традиційні методи моделювання щільності, такі як локальне PCA або суміші факторних аналізаторів. Обмеження моделей щільності полягає в їх нездатності послідовно встановити набір глобальних координат, здатних вбудовувати спостереження по всьому структурному колектору. Отже, вони виявляються непридатними для таких завдань, як генерування низькорозмірних проекцій вихідного набору даних. Ці моделі перевершують лише ідентифікацію лінійних особливостей, як показано на зображенні нижче. Однак їм не вдається вловити складні вигнуті візерунки, здатність, притаманну LLE.
Підвищена обчислювальна ефективність за допомогою LLE. LLE пропонує чудову обчислювальну ефективність завдяки обробці розріджених матриць, перевершуючи інші алгоритми.
Реалізація локально лінійного вбудовування
Імпорт бібліотек
Python3
#importing Libraries> import> numpy as np> import> matplotlib.pyplot as plt> from> sklearn.datasets>import> make_swiss_roll> from> sklearn.manifold>import> LocallyLinearEmbedding> |
>
>
Код починається з імпорту необхідних бібліотек, включаючи numpy, matplotlib.pyplot , make_swiss_roll із sklearn.datasets та LocallyLinearEmbedding із sklearn.manifold .
Створення синтетичного набору даних (Swiss Roll)
Python3
# Code for Generating a synthetic dataset (Swiss Roll)> n_samples>=> 1000> # Define the number of neighbors for LLE> n_neighbors>=> 10> X, _>=> make_swiss_roll(n_samples>=>n_samples)> |
>
>
Він генерує синтетичний набір даних, схожий на Swiss Roll, використовуючи функцію make_swiss_roll від scikit-learn.
n_samples визначає кількість точок даних для генерації.
n_neighbors визначає кількість сусідів, які використовуються в алгоритмі LLE.
Застосування локально лінійного вбудовування (LLE)
Python3
# Including Locally Linear Embedding> lle>=> LocallyLinearEmbedding(n_neighbors>=>n_neighbors, n_components>=>2>)> X_reduced>=> lle.fit_transform(X)> |
>
>
Примірник алгоритму LLE створюється за допомогою LocallyLinearEmbedding. Параметр n_neighbors визначає кількість сусідів, які слід враховувати під час процесу вбудовування.
Потім алгоритм LLE підбирається до вихідних даних X за допомогою fit_transform метод. Цей крок зменшує набір даних до двох вимірів (n_components=2).
як центрувати зображення на css
Візуалізація вихідних і скорочених даних
Python3
# Code for Visualizing the original Versus reduced data> plt.figure(figsize>=>(>12>,>6>))> plt.subplot(>121>)> plt.scatter(X[:,>0>], X[:,>1>], c>=>X[:,>2>], cmap>=>plt.cm.Spectral)> plt.title(>'Original Data'>)> plt.xlabel(>'Feature 1'>)> plt.ylabel(>'Feature 2'>)> plt.subplot(>122>)> plt.scatter(X_reduced[:,>0>], X_reduced[:,>1>], c>=>X[:,>2>], cmap>=>plt.cm.Spectral)> plt.title(>'Reduced Data (LLE)'>)> plt.xlabel(>'Component 1'>)> plt.ylabel(>'Component 2'>)> plt.tight_layout()> plt.show()> |
>
>
Вихід:
Локально лінійне вбудовування
На другому підсхемі зменшені дані, отримані з LLE (X_reduced), візуалізуються подібним чином до вихідних даних. Колір точок даних все ще визначається третьою ознакою вихідних даних (X[:, 2]). plt.tight_layout() Функція використовується для забезпечення належного інтервалу між підсхемами.
довго нанизувати
Переваги LLE
Метод зменшення розмірності, відомий як локально лінійне вбудовування (LLE), має багато переваг для обробки та візуалізації даних. Нижче наведено основні переваги LLE:
- Збереження місцевих структур : LLE чудово підтримує локальні зв’язки або структури в даних. Він успішно фіксує природну геометрію нелінійних різновидів, зберігаючи попарні відстані між сусідніми точками даних.
- Обробка нелінійності : LLE має можливість фіксувати нелінійні шаблони та структури в даних, на відміну від лінійних методів, таких як Аналіз головних компонентів (PCA). Це особливо корисно під час роботи зі складними, викривленими або перекрученими наборами даних.
- Зменшення розмірності : LLE знижує розмірність даних, зберігаючи їх основні властивості. Особливо під час роботи з масивами даних великого розміру це скорочення спрощує представлення даних, дослідження та аналіз.
Недоліки LLE
- Прокляття розміреності : LLE може відчути прокляття розміреності при використанні з даними надзвичайно великої розмірності, як і багато інших підходів до зменшення розмірності. Кількість сусідів, необхідних для захоплення локальних взаємодій, зростає разом із розмірністю, що потенційно збільшує обчислювальну вартість підходу.
- Пам'ять і обчислювальні вимоги : для великих наборів даних створення зваженої матриці суміжності як частини LLE може потребувати великої кількості пам’яті. Етап декомпозиції власних значень також може бути важким для великих наборів даних.
- Викиди та шумові дані : LLE чутливий до аномалій і коливання точок даних. Це може вплинути на якість вбудовування, а локальні лінійні зв’язки можуть бути спотворені викидами.