Як інтерпретувати "втрату" та "точність" для моделі d; машинне навчання

Коли я треную свою нейронну мережу за допомогою Theano або Tensorflow, вони повідомлятимуть про змінну, що називається "втрата" за епоху.

Як я повинен інтерпретувати цю змінну? Вищі втрати - це краще чи гірше, або що це означає для кінцевої продуктивності (точності) моєї нейронної мережі?

Тим більше втрата є низький , тим краща модель (якщо модель не надто відповідає даним навчальних даних). Втрата обчислюється, коли навчання і деякі перевірка і його взаємодія - це продуктивність моделі для цих двох наборів. На відміну від точності, втрата не є відсотком. Це сума помилок, допущених для кожного прикладу в навчальних або валідаційних наборах.

У випадку нейронних мереж втрата, як правило, є від'ємною log-ймовірністю та залишковою сумою квадратів для класифікації та регресії відповідно. Тоді, звичайно, головною метою навчальної моделі є зменшення (мінімізація) значення функції втрат щодо параметрів моделі шляхом зміни значень вектора ваги різними методами оптимізації, наприклад, ніж зворотне поширення в нейронних мережах.

Значення втрат означає, наскільки добре чи погано поводиться певна модель після кожної ітерації оптимізації. В ідеалі можна було б очікувати зменшення втрат після кожної або декількох ітерацій.

Точність моделі, як правило, визначається після того, як параметри моделі вивчені та задані, а навчання не проводиться. Потім тестові зразки подаються в модель і реєструється кількість помилок (нульових втрат), які робить модель, після порівняння з реальними цілями. Потім розраховується відсоток неправильної класифікації.

Наприклад, якщо кількість тестових зразків 1000 і модель правильно класифікує 952 з них, точність моделі становить 95,2%.

Є також деякі тонкощі при зменшенні вартості втрат. Наприклад, ви можете зіткнутися з проблемою переобладнання, коли модель "запам'ятовує" навчальні приклади і стає трохи неефективною для набору тестів. Переоснащення також відбувається у випадках, коли ви не використовуєте регуляризацію, у вас дуже складна модель (кількість вільних параметрів W велика) або кількість точок даних N дуже мала.