Спецкурс «Прикладные задачи анализа данных»
Основная цель: практика решения современных задач классификации, прогнозирования, регрессии, рекомендации и т.п., подготовка участников к соревнованиям на платформах Kaggle и Algomost.
Мероприятие проходит в двух режимах:
- спецкурса – лекции о решении прикладных задач, обучение некоторым системам анализа данных (например R, Matlab, Python+ и т.п.
- спецсеминара – обсуждение решаемых задач, выработка общих стратегий, разделение работы в рамках участия в соревновании одной командой, мозговой штурм и т.п.
Важно: от участников потребуется выполнение нетривиальных практических заданий!
Выпускники ПЗАДа, известные в спортивном анализе данных
2013 2014 2015 Трофимов МихаилРыжков АлександрСофиюк КонстантинФонарев АлександрХарациди Олег Гущин АлександрСемёнов СтаниславФенстер АлександраУльянов ДмитрийСиверский МихаилШапулин АндрейНижибицкий ЕвгенийОстапец Андрей это место вакантноПравила
- Рассылки материалов делаются только зарегистрированным слушателям курса (перечислены в таблице слушателей).
- Слушатели, которые перестают делать домашние задания, удаляются из таблицы.
- За каждое задание можно было получить от 0 до 10 штрафных баллов. 10 штрафных баллов понижают итоговую оценку на один балл.
- Для аспирантов и студентов ВМК: важно вовремя делать задания (опоздания штрафуются); экзамена, как такового, не будет; штрафы могут быть исправлены только качественным выполнением последующих заданий
Лекции
Здесь будет выложена программа нового (2015 года) - по мере чтения курса.
Старые программы см. на страницах прошлых лет.
Разбор конкурсных задач: решение задачи [Search Results Relevance] (классическая и неклассическая задачи поиска, сравнение блоков информации, 3-граммы, настройка случайного леса, деформация ответов и решающие правила, выравнивание распределений ответов).
Домашнее задание №1: решение задачи [MSUvisits] (прогноз дня недели следующего визита клиента).
Домашнее задание №1: ещё неделя на решение, потом неделя на отчёты.
- Книга Шурыгин А.М. Математические методы прогнозирования // М., Горячая линия — Телеком, 2009, 180 с. * Неплохие идеи для решения некоторых практических задач статистики (но в целом, специфична)
- Статья Дьяконов А.Г. Прогноз поведения клиентов супермаркетов с помощью весовых схем оценок вероятностей и плотностей // Бизнес-информатика. 2014. № 1 (27). С. 68–77..
- Видео Оценка вероятности: когда к нам придёт клиент?
Разбор конкурсных задач: решение задачи [Liberty Mutual Group: Property Inspection Prediction] (настройка xgboost, ансамбль их сигмоид над xgboost, особенности в целевом признаке), решение задачи [Caterpillar Tube Pricing].
- Книга Beautiful Visualization: Looking at Data through the Eyes of Experts (Theory in Practice) по визуализации данных
Новое домашнее задание: Rossmann Store Sales (Сделать за неделю свой бенчмарк - появиться в лидерборде)
Функции ошибки / функционалы качества: MAE, RMSE, SMAPE, MAP, MRAE, REL_MAE, PB, нормированные ошибки, несимметричные ошибки, ошибки с точностью до порога, MCE, точность (Precision), полнота, специфичность, False Positive Rate, F1-мера, AUROC, GINI, Log Loss, Hamming Loss, MAP, Discounted Cumulative Gain (DCG), Quadratic Weighted Kappa, редакторское расстояние. Матожидание ошибок. Генерация признаков с помощью функций ошибок. Confusion matrix.
- Tom Fawcett An introduction to ROC analysis // Pattern Recognition Letters Volume 27 Issue 8, 2006, P. 861-874.
- Стрижов В.В. Функция ошибки в задачах восстановления регрессии // Заводская лаборатория, 2013, 79(5): 65-73.
- К.Д. Маннинг, П. Рагхаван, Х. Шютце «Введение в информационный поиск» // М. — Вильямс, 2011.
Домашнее задание: Rossmann Store Sales (Сделать небольшой отчёт по исследованию задачи и простым методам в ветке)
Домашнее задание: Rossmann Store Sales (Сделать за 3 недели отчёт в виде pdf-презентации в ветке)
Линейные алгоритмы: персептронный алгоритм, режимы обучения, концепция поощрение-наказание, концепция минимизации функционала, линейная регрессия, SGD, delta-bar-delta, хэширование признаков, регуляризация, обобщения регрессии, прогноз раскупаемости, прогноз методом kNN, прогноз линейным оператором, линейный алгоритм над SVD, признаковое прогнозирование спроса, профили товаров, сезонность, LibSVM, LibLinear. Задачи: [JRS12], [NN5], [tourism2].
- Ту Дж., Гонсалес Р. Принципы распознавания образов // Издательство Мир , Мо-сква, 1978 - 412 стр.
- Прогнозирование рядов соревнования «Tourism Forecasting Part Two» (414Кб)
- Alexander D’yakonov A Blending of Simple Algorithms for Topical Classification// Rough Sets and Current Trends in Computing, Lecture Notes in Computer Science, 2012, Volume 7413/2012, 432–438.
- видео Линейная регрессия: как решать матричные уравнения
Домашнее задание: сделать "интеллектуальный" сабмишн в конкурсе Walmart Recruiting: Trip Type Classification.
Анализ текстов: классификация и регрессия - этапы работы с текстом, токенизация, стоп-слова, векторное представление документа, n-граммы, стемминг, алгоритм Портера, TF*IDF, оценки качества (точность, полнота, F-мера), классификация спама, Local and Global Consistency, этапные алгоритмы, устойчивые признаки, иерархическая классификация текстов, основные методы (Роше, kNN, SVM), приведение к шаблону, обнаружение оскорблений, распределение по топикам (задача со многими классами), блендинг алгоритмов, фонетические алгоритмы. Задачи: [spam], [LSHTC], [JRS12].
- К.Д. Маннинг, П. Рагхаван, Х. Шютце «Введение в информационный поиск» // . — Вильямс, 2011.
Домашнее задание: сделать преодолеть порог 0.9 конкурсе Walmart Recruiting: Trip Type Classification.
Домашнее задание: сделать преодолеть порог 0.9 конкурсе Walmart Recruiting: Trip Type Classification.
- Дьяконов А. Методы решения задач классификации с категориальными признаками // Прикладная математика и информатика. Труды факультета Вычислительной математики и кибернетики МГУ имени М.В. Ломоносова. — 2014. — № 46. — С. 103–127
- Y. Koren, R.M. Bell, C. Volinsky Matrix Factorization Techniques for Recommender Systems // IEEE Computer 42(8): 30-37 (2009).
- S. Funk Netflix Update: Try This at Home
- LibFM: Factorization Machine Library
- А. Liaw, M. Wiener Classification and Regression by randomForest // R News (2002) Vol. 2/3 p. 18.
- И. Генрихов О критериях ветвления, используемых при синтезе решающих деревьев // Машинное обучение и анализ данных, 2014, Т.1, №8, С.988-1017
- A. Natekin, A. Knoll Gradient boosting machines, a tutorial // Front Neurorobot. 2013; 7: 21.
Домашнее задание: соревнование "Прогнозирование появление рёбер в графе соцсети". За неделю преодолеть бенчмарк "Решение за 5 минут".
Прогнозирование появления ребра в динамическом графе (Link Prediction Problem), коэффициенты Жаккара, Адамик/Адара, Katz, PageRank, решение задачи соревнования IJCNN Social Network Challenge, признаки для рёбер.
Выделение сообществ в графах (Community detection): переборные методы, Edge betweenness, модулярность, Multilevel, распространение меток, Walktrap, спектральная теория графов, разложения матриц графа. Задача Learning Social Circles in Networks: определению кругов в эго-подграфах графа социальной сети (задача, данные, редакторское расстояние),
- Л.Жуков курс Structural Analysis and Visualization of Networks в ВШЭ // http://leonidzhukov.net/hse/2015/socialnetworks/
Примитивная настройка линейных комбинаций алгоритмов и метрик. Технология LENKOR (синтез близостей, составление комбинации близостей, настройка коэффициентов, добавление нелинейностей). Подробный разбор задачи детектирования оскорблений. Задачи [PhotoQualityPrediction] (определение качества фотографии по метаданным), [unimelb] (предсказывание успешности выполнения гранта), [VLNetChallenge] (рекомендация видеолекций для просмотра). Деформация ответов, теоремы Колмогорова, Горбаня и Пинкуса, алгебраический подход к коррекции и его правильное применение на практике.
- Дьяконов А.Г. Алгоритмы для рекомендательной системы: технология LENCOR // Бизнес-Информатика, 2012, №1(19), С. 32–39.
Пост-троечные последовательности: проблема обезличивания информации, построение рекомендательной системы для холодного старта в задаче [VLNetChallenge] (рекомендация видеолекций для просмотра).
Отчётность
- отчёты по решению конкурсных задач (доклады с презентацией + исходники)
- зачёт с оценкой в конце семестра
Страницы курсов прошлых лет
Ссылки
- Книга Jure Leskovec, Anand Rajaraman, Jeff Ullman Mining of Massive Datasets * Неплохая книга на английском языке с обзором основных задач и методов в анализе данных (уровень сложности - средний).
- Книга Beautiful Visualization: Looking at Data through the Eyes of Experts (Theory in Practice) по визуализации данных
- Книга Шурыгин А.М. Математические методы прогнозирования * Неплохие идеи для решения некоторых практических задач статистики (но в целом, специфична)
- Статья Прогноз поведения клиентов супермаркетов с помощью весовых схем оценок вероятностей и плотностей.
- Книга Ту Дж., Гонсалес Р. Принципы распознавания образов * Уже чуть устаревшая книга. Но полистать стоит! Первая «энциклопедия по методам классификации».
- Прогнозирование рядов соревнования «Tourism Forecasting Part Two» (414Кб) * Подробное описание некоторых простых алгоритмов для прогнозирования туристических временных рядов.
- Статья A Blending of Simple Algorithms for Topical Classification * Описание метода классификации текстов. Содержание рассказывалось на лекции.
- Книга К.Д. Маннинг, П. Рагхаван, Х. Шютце «Введение в информационный поиск» * Простая, но хорошая книга по основам работы с текстом (прочитать обязательно).
- Статья Алгоритмы для рекомендательной системы: технология LENCOR.
- Книга Научно-популярная лекция «Введение в анализ данных» (PDF, 1.4 Мб) * Вводная лекция, которая написана для просеминара.
- Анализ данных, обучение по прецедентам, логические игры, системы WEKA, RapidMiner и MatLab (практикум на ЭВМ кафедры математических методов прогнозирования) * Глава 12 «Шаманство в анализе данных».
- Научно-популярная лекция «Шаманство в анализе данных» (1.21Мб) * Переработка предыдущего источника в научно-популярную лекцию.
- Научно-популярная лекция «Чему не учат в анализе данных и машинном обучении» * Рассказываются тонкости решения задач, которые умалчиваются в основных курсах.
- Дьяконов А. Методы решения задач классификации с категориальными признаками // Прикладная математика и информатика. Труды факультета Вычислительной математики и кибернетики МГУ имени М.В. Ломоносова. — 2014. — № 46. — С. 103–127 * Методы работы с категориальными признаками, описанные на лекции
- Y. Koren, R.M. Bell, C. Volinsky Matrix Factorization Techniques for Recommender Systems // IEEE Computer 42(8): 30-37 (2009). * Классика рекомендаций
- S. Funk Netflix Update: Try This at Home * Пост в блоге, с которого началось повальное использование SGD в Netflix
- LibFM: Factorization Machine Library * Сайт Рендела
- А. Liaw, M. Wiener Classification and Regression by randomForest // R News (2002) Vol. 2/3 p. 18.
- И. Генрихов О критериях ветвления, используемых при синтезе решающих деревьев // Машинное обучение и анализ данных, 2014, Т.1, №8, С.988-1017
- A. Natekin, A. Knoll Gradient boosting machines, a tutorial // Front Neurorobot. 2013; 7: 21.
- Л.Жуков курс Structural Analysis and Visualization of Networks в ВШЭ // http://leonidzhukov.net/hse/2015/socialnetworks/
Аналогичные курсы
- Data Science * Аналогичный (по духу) гарвардский курс
- Страница спецсеминара «Алгебра над алгоритмами и эвристический поиск закономерностей» * Приведены ссылки на сайты с данными реальных задач анализа данных.
Ещё ссылки
Неплохая короткая демка про соревнования в анализе данных, платформы для соревнований и возможности системы R.
РАНЕЕ ДОВОДИМАЯ ИНФОРМАЦИЯ
В сентябре 2015 года будет объявлен новый набор слушателей спецкурса.
Поскольку обычно желающих очень много, а работа на спецкурсе подразумевает сильную вовлечённость студентов и небольшое число слушателей, то будет произведён отбор.
Для участия в отборе необходимо:
- освоить (если его не было в учебной программе) курс Машинное обучение,
- выступить хотя бы в одном соревновании по анализу данных (см. ниже),
- пройти анкетирование (или собеседование в сентябре).
Список допустимых соревнований:
- Search Results Relevanceсоревнование уже закрыто
- Caterpillar Tube Pricingсоревнование уже закрыто
- Liberty Mutual Group: Property Inspection Predictionсоревнование уже закрыто
Результат будет учитываться при отборе. Участие в соревновании не гарантирует отбор! Важно: участие в соревновании должно быть индивидуальное (в команде 1 человек), называйте команду по образцу: "Team Name (I want to PZAD)".
Как всегда: программа нового года будет слегка отличаться от предыдущих (добавлены новые темы, улучшено содержание).
Курс открыт для всех желающих, но при их большом количестве студенты/аспиранты ВМК МГУ пользуются преимуществом.