Спецкурс «Прикладные задачи анализа данных»

Основная цель: практика решения современных задач классификации, прогнозирования, регрессии, рекомендации и т.п., подготовка участников к соревнованиям на платформах Kaggle и Algomost.

Мероприятие проходит в двух режимах:

спецкурса – лекции о решении прикладных задач, обучение некоторым системам анализа данных (например R, Matlab, Python+ и т.п.
спецсеминара – обсуждение решаемых задач, выработка общих стратегий, разделение работы в рамках участия в соревновании одной командой, мозговой штурм и т.п.

Важно: от участников потребуется выполнение нетривиальных практических заданий!

Выпускники ПЗАДа, известные в спортивном анализе данных

2013 2014 2015 Трофимов МихаилРыжков АлександрСофиюк КонстантинФонарев АлександрХарациди Олег Гущин АлександрСемёнов СтаниславФенстер АлександраУльянов ДмитрийСиверский МихаилШапулин АндрейНижибицкий ЕвгенийОстапец Андрей это место вакантно

Правила

Рассылки материалов делаются только зарегистрированным слушателям курса (перечислены в таблице слушателей).
Слушатели, которые перестают делать домашние задания, удаляются из таблицы.
За каждое задание можно было получить от 0 до 10 штрафных баллов. 10 штрафных баллов понижают итоговую оценку на один балл.
Для аспирантов и студентов ВМК: важно вовремя делать задания (опоздания штрафуются); экзамена, как такового, не будет; штрафы могут быть исправлены только качественным выполнением последующих заданий

Лекции

Здесь будет выложена программа нового (2015 года) - по мере чтения курса.

Старые программы см. на страницах прошлых лет.

Разбор конкурсных задач: решение задачи [Search Results Relevance] (классическая и неклассическая задачи поиска, сравнение блоков информации, 3-граммы, настройка случайного леса, деформация ответов и решающие правила, выравнивание распределений ответов).

Домашнее задание №1: решение задачи [MSUvisits] (прогноз дня недели следующего визита клиента).

Домашнее задание №1: ещё неделя на решение, потом неделя на отчёты.

Книга Шурыгин А.М. Математические методы прогнозирования // М., Горячая линия — Телеком, 2009, 180 с. * Неплохие идеи для решения некоторых практических задач статистики (но в целом, специфична)
Статья Дьяконов А.Г. Прогноз поведения клиентов супермаркетов с помощью весовых схем оценок вероятностей и плотностей // Бизнес-информатика. 2014. № 1 (27). С. 68–77..
Видео Оценка вероятности: когда к нам придёт клиент?

Разбор конкурсных задач: решение задачи [Liberty Mutual Group: Property Inspection Prediction] (настройка xgboost, ансамбль их сигмоид над xgboost, особенности в целевом признаке), решение задачи [Caterpillar Tube Pricing].

Книга Beautiful Visualization: Looking at Data through the Eyes of Experts (Theory in Practice) по визуализации данных

Новое домашнее задание: Rossmann Store Sales (Сделать за неделю свой бенчмарк - появиться в лидерборде)

Функции ошибки / функционалы качества: MAE, RMSE, SMAPE, MAP, MRAE, REL_MAE, PB, нормированные ошибки, несимметричные ошибки, ошибки с точностью до порога, MCE, точность (Precision), полнота, специфичность, False Positive Rate, F1-мера, AUROC, GINI, Log Loss, Hamming Loss, MAP, Discounted Cumulative Gain (DCG), Quadratic Weighted Kappa, редакторское расстояние. Матожидание ошибок. Генерация признаков с помощью функций ошибок. Confusion matrix.

Tom Fawcett An introduction to ROC analysis // Pattern Recognition Letters Volume 27 Issue 8, 2006, P. 861-874.
Стрижов В.В. Функция ошибки в задачах восстановления регрессии // Заводская лаборатория, 2013, 79(5): 65-73.
К.Д. Маннинг, П. Рагхаван, Х. Шютце «Введение в информационный поиск» // М. — Вильямс, 2011.

Домашнее задание: Rossmann Store Sales (Сделать небольшой отчёт по исследованию задачи и простым методам в ветке)

Домашнее задание: Rossmann Store Sales (Сделать за 3 недели отчёт в виде pdf-презентации в ветке)

Линейные алгоритмы: персептронный алгоритм, режимы обучения, концепция поощрение-наказание, концепция минимизации функционала, линейная регрессия, SGD, delta-bar-delta, хэширование признаков, регуляризация, обобщения регрессии, прогноз раскупаемости, прогноз методом kNN, прогноз линейным оператором, линейный алгоритм над SVD, признаковое прогнозирование спроса, профили товаров, сезонность, LibSVM, LibLinear. Задачи: [JRS12], [NN5], [tourism2].

Ту Дж., Гонсалес Р. Принципы распознавания образов // Издательство Мир , Мо-сква, 1978 - 412 стр.
Прогнозирование рядов соревнования «Tourism Forecasting Part Two» (414Кб)
Alexander D’yakonov A Blending of Simple Algorithms for Topical Classification// Rough Sets and Current Trends in Computing, Lecture Notes in Computer Science, 2012, Volume 7413/2012, 432–438.
видео Линейная регрессия: как решать матричные уравнения

Домашнее задание: сделать "интеллектуальный" сабмишн в конкурсе Walmart Recruiting: Trip Type Classification.

Анализ текстов: классификация и регрессия - этапы работы с текстом, токенизация, стоп-слова, векторное представление документа, n-граммы, стемминг, алгоритм Портера, TF*IDF, оценки качества (точность, полнота, F-мера), классификация спама, Local and Global Consistency, этапные алгоритмы, устойчивые признаки, иерархическая классификация текстов, основные методы (Роше, kNN, SVM), приведение к шаблону, обнаружение оскорблений, распределение по топикам (задача со многими классами), блендинг алгоритмов, фонетические алгоритмы. Задачи: [spam], [LSHTC], [JRS12].

К.Д. Маннинг, П. Рагхаван, Х. Шютце «Введение в информационный поиск» // . — Вильямс, 2011.

Домашнее задание: сделать преодолеть порог 0.9 конкурсе Walmart Recruiting: Trip Type Classification.

Дьяконов А. Методы решения задач классификации с категориальными признаками // Прикладная математика и информатика. Труды факультета Вычислительной математики и кибернетики МГУ имени М.В. Ломоносова. — 2014. — № 46. — С. 103–127
Y. Koren, R.M. Bell, C. Volinsky Matrix Factorization Techniques for Recommender Systems // IEEE Computer 42(8): 30-37 (2009).
S. Funk Netflix Update: Try This at Home
LibFM: Factorization Machine Library

А. Liaw, M. Wiener Classification and Regression by randomForest // R News (2002) Vol. 2/3 p. 18.
И. Генрихов О критериях ветвления, используемых при синтезе решающих деревьев // Машинное обучение и анализ данных, 2014, Т.1, №8, С.988-1017
A. Natekin, A. Knoll Gradient boosting machines, a tutorial // Front Neurorobot. 2013; 7: 21.

Домашнее задание: соревнование "Прогнозирование появление рёбер в графе соцсети". За неделю преодолеть бенчмарк "Решение за 5 минут".

Прогнозирование появления ребра в динамическом графе (Link Prediction Problem), коэффициенты Жаккара, Адамик/Адара, Katz, PageRank, решение задачи соревнования IJCNN Social Network Challenge, признаки для рёбер.

Выделение сообществ в графах (Community detection): переборные методы, Edge betweenness, модулярность, Multilevel, распространение меток, Walktrap, спектральная теория графов, разложения матриц графа. Задача Learning Social Circles in Networks: определению кругов в эго-подграфах графа социальной сети (задача, данные, редакторское расстояние),

Л.Жуков курс Structural Analysis and Visualization of Networks в ВШЭ // http://leonidzhukov.net/hse/2015/socialnetworks/

Примитивная настройка линейных комбинаций алгоритмов и метрик. Технология LENKOR (синтез близостей, составление комбинации близостей, настройка коэффициентов, добавление нелинейностей). Подробный разбор задачи детектирования оскорблений. Задачи [PhotoQualityPrediction] (определение качества фотографии по метаданным), [unimelb] (предсказывание успешности выполнения гранта), [VLNetChallenge] (рекомендация видеолекций для просмотра). Деформация ответов, теоремы Колмогорова, Горбаня и Пинкуса, алгебраический подход к коррекции и его правильное применение на практике.

Дьяконов А.Г. Алгоритмы для рекомендательной системы: технология LENCOR // Бизнес-Информатика, 2012, №1(19), С. 32–39.

Пост-троечные последовательности: проблема обезличивания информации, построение рекомендательной системы для холодного старта в задаче [VLNetChallenge] (рекомендация видеолекций для просмотра).

Отчётность

отчёты по решению конкурсных задач (доклады с презентацией + исходники)
зачёт с оценкой в конце семестра

Страницы курсов прошлых лет

Ссылки

Книга Jure Leskovec, Anand Rajaraman, Jeff Ullman Mining of Massive Datasets * Неплохая книга на английском языке с обзором основных задач и методов в анализе данных (уровень сложности - средний).
Книга Beautiful Visualization: Looking at Data through the Eyes of Experts (Theory in Practice) по визуализации данных
Книга Шурыгин А.М. Математические методы прогнозирования * Неплохие идеи для решения некоторых практических задач статистики (но в целом, специфична)
Статья Прогноз поведения клиентов супермаркетов с помощью весовых схем оценок вероятностей и плотностей.
Книга Ту Дж., Гонсалес Р. Принципы распознавания образов * Уже чуть устаревшая книга. Но полистать стоит! Первая «энциклопедия по методам классификации».
Прогнозирование рядов соревнования «Tourism Forecasting Part Two» (414Кб) * Подробное описание некоторых простых алгоритмов для прогнозирования туристических временных рядов.
Статья A Blending of Simple Algorithms for Topical Classification * Описание метода классификации текстов. Содержание рассказывалось на лекции.
Книга К.Д. Маннинг, П. Рагхаван, Х. Шютце «Введение в информационный поиск» * Простая, но хорошая книга по основам работы с текстом (прочитать обязательно).
Статья Алгоритмы для рекомендательной системы: технология LENCOR.
Книга Научно-популярная лекция «Введение в анализ данных» (PDF, 1.4 Мб) * Вводная лекция, которая написана для просеминара.
Анализ данных, обучение по прецедентам, логические игры, системы WEKA, RapidMiner и MatLab (практикум на ЭВМ кафедры математических методов прогнозирования) * Глава 12 «Шаманство в анализе данных».
Научно-популярная лекция «Шаманство в анализе данных» (1.21Мб) * Переработка предыдущего источника в научно-популярную лекцию.
Научно-популярная лекция «Чему не учат в анализе данных и машинном обучении» * Рассказываются тонкости решения задач, которые умалчиваются в основных курсах.
Дьяконов А. Методы решения задач классификации с категориальными признаками // Прикладная математика и информатика. Труды факультета Вычислительной математики и кибернетики МГУ имени М.В. Ломоносова. — 2014. — № 46. — С. 103–127 * Методы работы с категориальными признаками, описанные на лекции
Y. Koren, R.M. Bell, C. Volinsky Matrix Factorization Techniques for Recommender Systems // IEEE Computer 42(8): 30-37 (2009). * Классика рекомендаций
S. Funk Netflix Update: Try This at Home * Пост в блоге, с которого началось повальное использование SGD в Netflix
LibFM: Factorization Machine Library * Сайт Рендела
А. Liaw, M. Wiener Classification and Regression by randomForest // R News (2002) Vol. 2/3 p. 18.
И. Генрихов О критериях ветвления, используемых при синтезе решающих деревьев // Машинное обучение и анализ данных, 2014, Т.1, №8, С.988-1017
A. Natekin, A. Knoll Gradient boosting machines, a tutorial // Front Neurorobot. 2013; 7: 21.
Л.Жуков курс Structural Analysis and Visualization of Networks в ВШЭ // http://leonidzhukov.net/hse/2015/socialnetworks/

Аналогичные курсы

Data Science * Аналогичный (по духу) гарвардский курс
Страница спецсеминара «Алгебра над алгоритмами и эвристический поиск закономерностей» * Приведены ссылки на сайты с данными реальных задач анализа данных.

Ещё ссылки

Неплохая короткая демка про соревнования в анализе данных, платформы для соревнований и возможности системы R.

РАНЕЕ ДОВОДИМАЯ ИНФОРМАЦИЯ

В сентябре 2015 года будет объявлен новый набор слушателей спецкурса.

Поскольку обычно желающих очень много, а работа на спецкурсе подразумевает сильную вовлечённость студентов и небольшое число слушателей, то будет произведён отбор.

Для участия в отборе необходимо:

освоить (если его не было в учебной программе) курс Машинное обучение,
выступить хотя бы в одном соревновании по анализу данных (см. ниже),
пройти анкетирование (или собеседование в сентябре).

Список допустимых соревнований:

Search Results Relevanceсоревнование уже закрыто
Caterpillar Tube Pricingсоревнование уже закрыто
Liberty Mutual Group: Property Inspection Predictionсоревнование уже закрыто

Результат будет учитываться при отборе. Участие в соревновании не гарантирует отбор! Важно: участие в соревновании должно быть индивидуальное (в команде 1 человек), называйте команду по образцу: "Team Name (I want to PZAD)".

Как всегда: программа нового года будет слегка отличаться от предыдущих (добавлены новые темы, улучшено содержание).

Курс открыт для всех желающих, но при их большом количестве студенты/аспиранты ВМК МГУ пользуются преимуществом.

📎📎📎📎📎📎📎📎📎📎