Python для сложных задач: наука о данных и машинное обучение

Lezen

Александр Проскуринciteerde uit2 jaar geleden
Дональда Кнута: «Лучше не держать в голове подобные “малые” вопросы производительности, скажем, 97 % времени: преждевременная оптимизация — корень всех зол»
- Leuk vinden
- Opmerking
- Delen
  Facebook
  Twitter
  Koppeling kopiëren
- Melden
Kirill Kruglikovciteerde uit4 jaar geleden
Это ценный показатель, поскольку он наглядно демонстрирует нам реакцию нашей модели на увеличение объема обучающих данных. В частности, после того момента, когда кривая обучения уже сошлась к какому-то значению (то есть когда кривые обучения и проверки уже близки друг к другу), добавление дополнительных обучающих данных не улучшит аппроксимацию существенно! Эта ситуация отражена на левом рисунке с кривой обучения для модели второй степени.

Единственный способ улучшения оценки уже сошедшейся кривой — использовать другую (обычно более сложную) модель. Это видно на правом рисунке: перейдя к более сложной модели, мы улучшаем оценку для точки сходимости (отмеченную штриховой линией) за счет более высокой дисперсии модели (соответствующей расстоянию между оценками эффективности для обучения и проверки). Если бы нам пришлось добавить еще больше точек, кривая обучения для более сложной из этих моделей все равно в итоге бы сошлась.

Построение графика кривой обучения для конкретных модели и набора данных облегчает принятие решения о том, как продвинуться еще дальше на пути улучшения анализа данных.
- Leuk vinden
- Opmerking
- Delen
  Facebook
  Twitter
  Koppeling kopiëren
- Melden
Kirill Kruglikovciteerde uit4 jaar geleden
Таким образом, мы видим, что поведение кривой проверки зависит не от одного, а от двух важных факторов: сложности модели и количества точек обучения. Зачастую бывает полезно исследовать поведение модели как функции от количества точек обучения. Сделать это можно путем использования постепенно увеличивающихся подмножеств данных для обучения модели. График оценок для обучения/проверки с учетом размера обучающей последовательности известен под названием кривой обучения (learning curve).

Поведение кривой обучения должно быть следующим.

• Модель заданной сложности окажется переобученной на слишком маленьком наборе данных. Это значит, что оценка эффективности для обучения будет относительно высокой, а оценка эффективности для проверки — относительно низкой.

• Модель заданной сложности окажется недообученной на слишком большом наборе данных. Это значит, что оценка эффективности для обучения будет снижаться, а оценка эффективности для проверки — повышаться по мере роста размера набора данных.

• Модель никогда, разве что случайно, не покажет на проверочном наборе лучший результат, чем на обучающей последовательности. Это значит, что кривые будут сближаться, но никогда не пересекутся.

Учитывая эти особенности, можно ожидать, что кривая обучения будет выглядеть качественно схожей с изображенной на рис. 5.32.

Заметная особенность кривой обучения — сходимость к конкретному значению оценки при росте числа обучающих выборок. В частности, если количество точек достигло значения, при котором данная конкретная модель сошлась, то добавление новых обучающих данных не поможет! Единственным способом улучшить качество модели в этом случае будет использование другой (зачастую более сложной) модели.
- Leuk vinden
- Opmerking
- Delen
  Facebook
  Twitter
  Koppeling kopiëren
- Melden
Kirill Kruglikovciteerde uit4 jaar geleden
Важнейшим является следующим вопрос: что делать, если наш оцениватель показывает недостаточно хорошие результаты? Существует несколько возможных ответов:

• использовать более сложную/гибкую модель;

• применять менее сложную/гибкую модель;

• собрать больше выборок для обучения;

• собрать больше данных для добавления новых признаков к каждой заданной выборке.
- Leuk vinden
- Opmerking
- Delen
  Facebook
  Twitter
  Koppeling kopiëren
- Melden
Kirill Kruglikovciteerde uit4 jaar geleden
Исследования в области машинного обучения возникли на основе научных исследований в этой области, но в контексте приложения методов машинного обучения к науке о данных полезнее рассматривать машинное обучение как средство создания моделей данных.

Машинное обучение занимается построением математических моделей для исследования данных. Задачи «обучения» начинаются с появлением у этих моделей настраиваемых параметров, которые можно приспособить для отражения наблюдаемых данных, таким образом, программа как бы обучается на данных. Как только эти модели обучатся на имеющихся данных наблюдений, их можно будет использовать для предсказания и понимания различных аспектов данных новых наблюдений. Оставлю читателю в качестве самостоятельного задания обдумать философский вопрос о том, насколько подобное математическое, основанное на моделях обучение схоже с обучением человеческого мозга.
- Leuk vinden
- Opmerking
- Delen
  Facebook
  Twitter
  Koppeling kopiëren
- Melden