Разница между погрешностью и дисперсией в машинном обучении
Мы живем в мире, где алгоритмы повсюду, и многие из нас используют их, возможно, даже не подозревая, что в них задействован алгоритм. Чтобы решить проблему на компьютере, нам нужен алгоритм. Машинное обучение зависит от ряда алгоритмов для преобразования наборов данных в модели. Предвзятость и дисперсия — это два фундаментальных понятия машинного обучения. Их важно понимать, когда речь идет о точности любого алгоритма машинного обучения.
Что такое погрешность?
Ошибка прогнозирования для любого алгоритма машинного обучения может быть разбита на три части — ошибка смещения, ошибка дисперсии и несводимая ошибка. Ошибка смещения — это явление, которое возникает в модели машинного обучения из-за неверных предположений в процессе машинного обучения. Ошибка смещения — это систематическая ошибка, которая возникает, когда алгоритм выдает результаты, которые систематически смещены из-за некоторых неверных предположений в процессе машинного обучения. Это предположения, сделанные моделью для того, чтобы облегчить изучение целевой функции.
Высокое смещение означает, что ошибка как в обучающих, так и в тестовых данных больше. Всегда рекомендуется, чтобы алгоритм был низко смещенным, чтобы избежать проблемы недостаточной подгонки. Допустим, вы подобрали модель, которая не может вывести даже основные закономерности из набора данных — это называется недоподгонкой. Итак, проще говоря, предвзятость возникает в ситуации, когда вы используете алгоритм, а он не подходит должным образом.
Что такое дисперсия?
Дисперсия — это изменение точности предсказания машинного обучения между обучающими и тестовыми данными. Если вариации в наборе данных приводят к изменению производительности модели, это называется ошибкой дисперсии. Это сумма, на которую изменится оценка целевой функции при использовании других обучающих данных. Целевая функция предполагается алгоритмом машинного обучения на основе обучающих данных, поэтому ожидается некоторая дисперсия алгоритма.
Дисперсия зависит от одного обучающего набора и определяет несогласованность различных прогнозов с использованием разных обучающих наборов. Низкая дисперсия предполагает небольшие изменения в оценке целевой функции при изменении набора обучающих данных, а высокая дисперсия предполагает большие изменения в оценке целевой функции при изменении набора обучающих данных. Алгоритмы машинного обучения с высокой дисперсией сильно зависят от специфики обучающих данных.
Разница между погрешностью и дисперсией
Значение
Bias — это явление, возникающее в модели машинного обучения, когда вы используете алгоритм, и он не подходит должным образом. Это означает, что используемая функция не имеет отношения к сценарию и не способна извлечь правильные закономерности. С другой стороны, дисперсия определяет, насколько изменится оценка целевой функции при использовании различных обучающих данных. Она говорит о том, насколько сильно случайная переменная отклоняется от своего ожидаемого значения.
Сценарий
Смещение — это разница между прогнозируемыми и фактическими значениями. Низкое смещение предполагает меньше предположений о форме целевой функции, в то время как высокое смещение предполагает больше предположений о форме целевой функции. Случай, когда модель не может найти закономерности в обучающем множестве, называется недоподгонкой. Дисперсия — это когда модель учитывает колебания в данных. Модель хорошо работает на тестовых данных и получает высокую точность, но не справляется с новыми и невидимыми данными.
Bias | Вариация |
Биас — это явление, возникающее в модели машинного обучения, когда используется алгоритм и он не подходит должным образом. | Вариация определяет, насколько изменится оценка целевой функции при использовании различных обучающих данных. |
Bias относится к разнице между предсказанными и фактическими значениями. | Вариация говорит о том, насколько случайная переменная отклоняется от своего ожидаемого значения. |
Модель не может найти закономерности в обучающем наборе данных и терпит неудачу как для просмотренных, так и для непросмотренных данных. | Модель находит большинство закономерностей в наборе данных и даже учится на ненужных данных или шуме. |
Вывод
Какой бы ни была ваша модель, она должна быть идеальным балансом между смещением и дисперсией. Целью любого алгоритма машинного обучения под наблюдением является достижение низкой погрешности и низкой дисперсии. Однако такой сценарий невозможен, поскольку оба показателя находятся в обратной зависимости друг от друга, и практически невозможно получить модель машинного обучения с низкой погрешностью и низкой дисперсией. В отличие от смещения, дисперсия — это когда модель учитывает колебания в данных и даже шум. Если вы попытаетесь изменить алгоритм, чтобы он лучше соответствовал данному набору данных, это может привести к низкой погрешности, но увеличит дисперсию.
Часто задаваемые вопросы
Предвзятость в машинном обучении - это явление, которое возникает, когда используется алгоритм, который не подходит должным образом. Некоторые примеры предвзятости включают предвзятость подтверждения, предвзятость стабильности и предвзятость доступности. К алгоритмам ML с низкой дисперсией относятся линейная регрессия, логистическая регрессия и линейный дискриминантный анализ.
Три типа погрешности - это информационная погрешность, погрешность отбора и сбивание с толку.
Невозможно иметь модель машинного обучения с низкой погрешностью и низкой дисперсией. Чтобы минимизировать смещение в машинном обучении, можно выбрать правильную модель обучения или использовать правильный набор данных для обучения.
Четыре типа погрешностей включают погрешность отбора, выбросы, погрешность измерения, погрешность отзыва и другие.