Чому Лаплас виробляє до розсіяних розчинів
Я переглядав літературу з регуляризації, і часто бачу абзаци, які відносять регулювання L2 до Гауса, а L1 до Лапласа з центром на нулі.
Я знаю, як виглядають ці пріоритети, але не розумію, як це перекладається, наприклад, на ваги в лінійній моделі. У L1, наскільки я розумію, ми очікували б розріджених рішень, тобто деякі ваги будуть зсунуті до нуля. І в L2 ми отримуємо малі ваги, але не нульові ваги.
Але чому це трапляється?
Будь ласка, коментуйте, якщо мені потрібно надати більше інформації або пояснити своє мислення.
Співвідношення апріорного розподілу Лапласа з медіаною (або нормою L1) було знайдено самим Лапласом, який виявив, що, використовуючи такі апріорі, ви оцінюєте медіану, а не середнє значення, як при нормальному розподілі (див. Stingler, 1986 або Вікіпедія). Це означає, що регресія з розподілом помилок Лапласа оцінює медіану (наприклад, квантильну регресію), тоді як нормальні помилки посилаються на оцінку OLS.
Твердих прабатьків, з якими ви брали інтерв’ю, також описав Тібшірані (1996), який зазначив, що сильна регресія Лассо в байєсівських умовах рівноцінна використанню Лапласа раніше. Такі пріоритети для коефіцієнтів центрируються навколо нуля (із змінними по центру) і мають широкі хвости - тому більшість коефіцієнтів регресії, оцінених за допомогою цього кінця, в точності дорівнюють нулю. Це зрозуміло, якщо уважно розглянути зображення нижче, розподіл Лапласа має пік близько нуля (є більша маса розподілу), тоді як нормальний розподіл є більш дифузним навколо нуля, тому ненульові значення мають більший імовірнісна маса. Іншими можливостями для надійних апріорі є розподіли Коші або. t 'role = "Презентація"> t
Використовуючи такі пріоритети, ви схильні отримувати багато коефіцієнтів нульового значення, деякі середнього розміру, а інші великого розміру (довгий хвіст), тоді як з Normal до цього ви отримуєте більш помірні коефіцієнти розміру. Які не зовсім нульові, але не далеко від нуля теж.

(вихідне зображення Тібшірані, 1996)
Stigler, SM (1986). Історія статистики: Вимірювання невизначеності до 1900 року. Кембридж, Массачусетс: Belknap Press, Гарвардський університет.
Тібшірані, Р. (1996). Відступ та відбір регресії за допомогою ласо. Журнал Королівського статистичного товариства. Серія В (методологічна), 267-288.
Нортон, Р.М. (1984). Подвійний експоненціальний розподіл: використовуйте числення, щоб знайти оцінювач максимальної ймовірності. Американський статистик, 38 (2): 135-136.