Нейронні мережі імпульс зміни ваги та втрати ваги

Імпульс використовується для зменшення коливань ваги під час послідовних ітерацій: α 'role = "prezentacija"> α

Розпад ваги λ 'роль = "презентація"> λ карає зміни у вазі:

Питання в тому, чи є сенс поєднувати ці дві хитрощі при зворотному розмноженні та який ефект це матиме?

Так, дуже часто використовують обидві підказки. Вони вирішують різні проблеми і можуть добре працювати разом.

Одним із способів думати про це є те, що схуднення змінює оптимізовану функцію, тоді як кількість рухів змінює шлях, яким ви йдете. .

Зменшення ваги, зменшуючи ваші коефіцієнти до нуля, гарантує, що ви знайдете локальний оптимум з низькими параметрами амплітуди. Це, як правило, має вирішальне значення, щоб уникнути переобладнання (хоча інші типи навантаження на ваги також можуть спрацювати). З іншого боку, може бути також простіше оптимізувати модель, зробивши цільову функцію більш опуклою.

Коли у вас є цільова функція, вам потрібно вирішити, як її обійти. Більш простий підхід - крутіший спуск по градієнту, але ви маєте рацію, коливання можуть бути великою справою. Додавання динаміки допомагає вирішити цю проблему. Якщо ви працюєте з пакетними оновленнями (що, як правило, погана ідея для нейронних мереж), кроки, подібні до Ньютона, є ще одним варіантом. Нові "гарячі" підходи засновані на прискореному градієнті Нестерова та на так званій "гессівській" оптимізації.

Але якими б правилами оновлення ви не користувались (імпульс, Ньютон тощо), ви все одно працюєте з тією самою цільовою функцією, яка визначається вашою функцією помилки (наприклад, помилка в квадраті) та іншими обмеженнями (наприклад, втрата ваги). . Головне питання, яке слід врахувати, вирішуючи, який із них використовувати, - це те, наскільки швидко ви отримаєте хороший набір ваг.