Факультет компьютерных наук вшэ

Содержание:

Контрольные работы

Контрольная работа № 1

Контрольная работа № 1 состоится 1-го декабря с 1810 до 2010 МСК. Контрольная пройдет заочно: студенты получают задания и до окончания отведенного времени загружают скан или фото своей работы по указанной ссылке (Google Forms; требуется залогиниться в Гугле!).

Контрольная состоит из 8 заданий. За каждое можно получить 0, 1/2 или 1 балл. Оценка за контрольную равна сумме баллов за решенные задачи, деленной на 8 (без округления; для ясности можно еще умножить на 10 — формально это делается лишь с итоговой оценкой за семестр).

Контрольная работа № 2

Контрольная работа № 2 состоится 19-го декабря с 1300 до 1500 МСК. Контрольная пройдет заочно: студенты получают задания и до окончания отведенного времени загружают скан или фото своей работы по указанной ссылке (Google Forms; требуется залогиниться в Гугле!).

Контрольная работа № 3

Пишущим оффлайн разрешается использовать любые бумажные материалы и запрещаются любые электронные.

Пишущие через Zoom могут пользоваться оффлайн материалами под надзором проктора. Использование интернет-ресурсов помимо Zoom и чата курса в Telegram запрещается.

Ссылки для пишущих онлайн:

Контрольная работа № 4

Контрольная работа № 4 состоится 19-го июня с 1300 до 1530 МСК (работы принимаются строго до 15:45:00 МСК). Контрольная пройдет заочно: студенты получают задания и до окончания отведенного времени загружают скан или фото своей работы по указанной ссылке (Google Forms; требуется залогиниться в Гугле!).

Экзамен

Экзамен состоится 29-го декабря с 1100 до 1300 МСК. Контрольная пройдет заочно: студенты получают задания и до окончания отведенного времени загружают скан или фото своей работы по указанной ссылке (Google Forms; требуется залогиниться в Гугле!).

Критерии оценки знаний, навыков

Оценки по всем формам текущего контроля выставляются по 10-ти балльной шкале. В диплом выставляется результирующая оценка по учебной дисциплине.

Оценка по курсу формируется из следующих составляющих:

  • Домашнее задание 1 (оценивается от 0 до 10) – Одз1
  • Домашнее задание 2 (оценивается от 0 до 10) – Одз2
  • Домашнее задание 3 (оценивается от 0 до 10) – Одз3
  • Самостоятельные работы (оцениваются от 0 до 10) – Оср
  • Защита проекта (оценивается от 0 до 10) – Опроект

Оценка за самостоятельные работы (Оср) расчитывается как среднее арифметическое лучших 6 оценок.

Результирующая оценка рассчитывается следующим образом:
Орез=0,15* Одз1 + 0,15* Одз2+ 0,15* Одз3+ 0,15* Опроект+ 0,4* Оср

Способ округления результирующей оценки по учебной дисциплине — арифметический. Проведение итогового экзамена не предусматривается.

Дедлайны

Все домашние задания, самостоятельные работы и проект имеют жесткий дедлайн, который объявляется заранее. По решению преподавателя работы после дедлайна могут приниматься с понижением оценки.
Дедлайн по самостоятельным работам по решению преподавателя может быть продлен.

Сроки сдачи Самостоятельных работ (Оср):

  • Самостоятельные работы вывешиваются в день проведения семинарских занятий (у каждой группы вариант немного отличается)
  • Самостоятельные работы могут быть сданы в течение одного дня без потери балла. Для сдачи самостоятельной работы присутствие на семинаре не обязательно.
  • Самостоятельные работы могут быть сданы на следующий день с коэффициентом 0.8 . На третий и четвертый дни с коэффициентами 0.6 и 0.4 соответственно.

Сроки сдачи Домашних работ (Одз1,2,3):

  • Домашние задания разрешается сдавать с опозданием (вплоть до 1 недели).
  • С опозданием на 3 дня — (понижающий) коэффициент 0.8, 5 дней — 0.6, 7 дней — 0.4

Справочная информация по 1 тесту

Структура теста:

  1. 15 вопросов с одним или несколькими вариантами ответа
  2. 3 открытых вопроса (ответ в 3-4 предложения)
  3. 2 вопроса по картинке и матрице ошибок классификации (ответ в 3-4 предложения)

Примеры вопросов 1 части:

  1. Установите последовательность преобразования сигнала в знание (лекция 2)
  2. Представлена генеральная совокупность автомобилей 3 цветов из 6 элементов (например,ЧЧККЖЖ, где Ч — черный, К — красный, Ж — желтый). Необходимо сделать такую выборку, которая репрезентативна по признаку цвета. Выберите репрезентативную выборку из вариантов — (ЧКК, ЧЖЖ, ЧКЖ)
  3. Выберите, каким методом необходимо решать следующие задачи (дан набор задач, для каждой необходимо выбрать между классификацией, регрессией и кластеризацией)
  4. Выберите качественные признаки из (и 4 варианта признаков)
  5. Выберите количественные признаки из (и 4 варианта признаков)
  6. Данные утверждения верны для матрицы объект-признак (даны утвержения, выберите верные)
  7. Дано уравнение линейной регрессии цены квартиры в зависимости от площади: price=20*square+10 (где price — цена, square — площадь). Рассчитайте цену квартиры при площади 30.
  8. Приведен пример дерева решений, дан вектор признаков на объекте. Укажите, каково будет предсказание дерева решений на данном объекте.

Примеры вопросов 2 части:

  1. В чем смысл метода kNN (k ближайших соседей) в задаче классификации? Почему не стоит выбирать K четным? Объясните суть метода и ответьте на вопрос (3-4 предложения).
  2. Можно ли оцифровать картинку? Если да, в какую математическую структуру ее можно преобразовать?

Примеры вопросов 3 части:

  1. Дан график рассеяния точек зависимости роста от возраста, на нем проведены три линии. Выберите ту, которая в смысле метода наименьших квадратов является наиболее релевантной к приведенным данным. Объясните смысл метода наименьших квадратов.
  2. Опишите, чем отличаются ошибки первого и второго рода. Рассчитайте accuracy по заданной матрице ошибок классификации

Семинары групп 181, 182

Неделя 1. 1 сентября. Миникр «Вспомнить всё» и МНК

  • Домашнее задание:

ИП: 1.2, 1.3, 1.7, 1.8, 1.9, 1.10, 2.1, 2.2, 2.3, будет миникр по мотивам: 1.2, 1.3, 2.2, 2.3

БП: 1.1, 1.2, 1.3, 1.7, 1.8, 1.9, 1.10, будет миникр по мотивам: 1.2, 1.3, 1.4, 1.7

Неделя 2. 7 сентября. Геометрия МНК

  • Домашнее задание:

ИП: 1.6, 1.15-1.18, 2.5, 3.1, будет миникр по мотивам 3.1, 3.3

БП: 1.5, 1.6, 1.15-1.18, 3.1, будет миникр по мотивам 3.1, 3.3

Неделя 3. 14 сентября. Матрица-шляпница и R^2

  • Миникр-3: Нарисуйте картинку МНК, отметить 4 прямых угла и выписать 4 теоремы Пифагора. Выпишите матрицы X, X’X, X’y для данной модели и данной выборки.
  • Домашнее задание: установите julia
  1. Запускаем первую клетку с помощью shift + Enter.
  2. Ждём пока на виртуальный комп гугла установится julia. Примерно 5 минут.
  3. Перезагружаем страничку (ctrl + r).
  4. Во второй клетке тестируем, например, находим exp(1).

Локальная установка julia

  1. Установите расширение Julia для VS Code:
    1. Запустите VS Code.
    2. Внутри VS Code переместитесь во вкладку Extensions (расширения) (ctrl + shift + x)
    3. Во вкладке Extensions (расширения) просто найдите Julia (можно вписать в строку поиска). Выберете расширение Julia 1.0.7 и нажмите кнопку install (установить). Вам возможно понадобится перезапустить VS Code после этого шага.
  2. Запустите VS Code, если он у вас не запущен, cоздайте файл test.jl со строкой exp(1), сохраните, нажмите ctrl + enter. Все хорошо, если вы увидели во вкладке Terminal 2.71828182… 🙂

Тонкости с локальной настройкой расширения Julia

Если вы установили Julia в стандартную папку на Mac или Windows, расширение Julia VS Code должно автоматически найти вашу установку Julia, и вам не нужно ничего настраивать.

Если расширение не находит вашу установку Julia автоматически, вы можете установить julia.executablePath для того чтобы указать VS Code на исполняемый файл языка Julia. Чтобы изменить параметры конфигурации, выполните команду Preferences: Open User Settings (вы также можете получить доступ к ней через меню File->Preferences->Settings), а затем убедитесь, что ваши пользовательские настройки включают julia.executablePath. Если нет, то необходимо вручную указать на расположение исполняемого файла Julia. Формат адресной строки должен соответствовать вашей операционной системе и имейте в виду, что \ является escape-символом в JSON, поэтому вам нужно использовать \\ в качестве символа разделителя пути в Windows.

Магистратура

Программа направлена на подготовку специалистов в области вычислительной биологии, способных применять математический аппарат для решения биологических и медицинских задач

Программа посвящена подготовке специалистов в области современных методов анализа данных, математических методов моделирования и прогнозирования. В рамках этой программы действует совместная специализация Школы анализа данных и ФКН «Анализ интернет-данных» где студенты изучают современные методы работы с большими данными, машинное обучение, анализ изображений и текстов. В ходе обучения они посещают часть занятий и участвуют в научных семинарах ШАДа. 

Программа готовит специалистов в области разработки программного обеспечения и информационно-коммуникационных технологий, в том числе облачных и мобильных приложений.

Программа направлена на подготовку разработчиков и исследователей, способных развивать новейшие технологии создания системного программного обеспечения. 

Программа выпускает специалистов на стыке математики и компьютерных наук, математической статистики, машинного обучения, оптимизации, теории информации и теории сложности. 

Созданная ФКН и Сбербанком программа готовит профессионалов в области анализа данных и предиктивной аналитики, готовых создавать стоимость для бизнеса с помощью математических моделей. 

Финальное эссе

Сроки: до 17 июня включительно

Формат: в виде .pdf документа с Times New Roman 12, 1,5 интервал на почту aibdcourse2018@gmail.com

Данное эссе посвящено теме будущего ИИ и Больших данных с точки зрения студентов.

Работы выполняются самостоятельно, в случае нахождения плагиата будет проставлено строго 0 баллов всем, у кого этот плагиат будет.

Это эссе должно быть предельно коротким и емким (не более 2-5 страниц в 12 Times New Roman с отступом 1,5).

Ожидаемое содержание эссе:

  1. Введение
    1. Расскажите о том, в какой области вам было бы интересно применять методы и механизмы искусственного интеллекта (и/или анализа больших данных). В этой секции желательно описать практические проблемы, которые можно решить с помощью методов ИИ и БД.
  2. Текущая практика
    1. В этой секции необходимо со ссылками на источники описать примеры применения ИИ и БД в указанной профессиональной отрасли или сфере. В случае, если такие примеры совершенно отсутствуют, это необходимо явно указать.
  3. Возможное будущее
    1. Данная секция является ключевой для эссе. Опишите, своими словами, какими методами ИИ и БД из изученных (или известных вам) можно улучшить тот или иной процесс, интерфейс или отрасль за счет использования искусственного интеллекта или анализа больших данных. Хорошим тоном так же будет сослаться на анализ отрасли c точки зрения технологических евангелистов и развить их идеи в своем рассуждении.

Критерии оценивания эссе

  1. Размерность — менее 1 страницы — 0 баллов, более 5 страниц — 1 балл, от 2 до 5 — 3 балла
  2. Практическая секция — менее одного примера текущего использования технологий — 1 балл, 1 и более — 2 балла
  3. Возможное будущее — корректное, обоснованное источниками (или логическими аргументами) описание возможностей применения ИИ в отрасли или процессе — 5 баллов. Полное отсутствие ссылок на любые источники — 4 балла. Отсутствие базовых логических аргументов — 2 балла.

Итого по данному эссе можно получить 10 баллов (они не будут шкалироваться к максимуму, как тесты и эссе по визуализации).

Научно-исследовательский семинар

Расписание

Индивидуальные беседы — 13:20 — 14:20

Темы

  • Декабрь — Мировые ИТ компании
  • Январь — Языки программирования
  • Февраль — Интересное приложение
  • Март — Цифровой стартап
  • Апрель-май — История одной железки
  • Сентябрь — Основы верстки научных тексов в Latex.
  • Октябрь — Визуализация

Доклады

Выбрать определенный предмет изучения
Подготовить конспект (1-2 страницы)
Записать 15-20 минутный доклад (презентация + рассказ)

Задание в Latex

Необходимо выбрать пять заданий по математике и информатике, например, из ЕГЭ:

  • два задания по алгебре, где требуется решения уравнений;
  • два задания по геометрии, где для решения требуется построение чертежа;
  • одно задание по информатике, где требуется написать код.

Ваша задача заключается в том, чтобы подготовить подробный текст в Latex условий и решений выбранных заданий с записью всех уравнений, графиков, чертежей и оформления кода:

Для каждой задачи запишите ее условие и подробное образцовое решение.

В результате Вам необходимо подготовить и отправить:

  • Архив tex файлом и всеми дополнительными файлами (в overleaf есть кнопка «Download» в списке проектов)
  • Итоговый PDF файл (в overleaf при редактировании есть «Download PDF»)

Задание будет оцениваться по количеству задач и качеству оформления текста.

Задание на визуализацию

Вам необходимо выбрать пять каких-то понятий или явлений и построить для них диаграмму связей (mind map, ментальная карта).
Что такое диаграммы связей можно почитать, например, тут:

  • и еще много где, загуглив «mind map»

Явления или понятия Вы можете выбрать сами, например, это может быть что-то из Ваших лицейских предметов, или просто вещи, которыми Вы интересуетесь, и в которых Вы разбираетесь.

Сделайте карты достаточно подробными, в каждой из них должно быть не менее 20 связных элементов. Если Вам кажется, что для данного явления или понятия нет 20 элементов, то:

  • либо подумайте еще, скорее всего еще не до конца разобрались;
  • либо выберете другое понятие или явление.

О курсе

Проводится с 2016 года.

Полезные ссылки

Почта для сдачи домашних заданий (на самом деле задания сдаются в AnyTask, но если он не работает, то присылайте на почту): hse.cs.ml+<номер группы>@gmail.com (например, hse.cs.ml+171@gmail.com)

Семинары

Группа Преподаватель
191 (МОП) Хрушков Павел Вадимович
192 (МОП)
193 (МОП)
194 (АДИС)
195 (РС) Каюмов Эмиль Марселевич
196 (РС) Шабалин Александр Михайлович
197 (АПР)
198 (ТИ)
199 (МИ)
1910 (ПР)
ФЭН
Пермь (БИ)
Пермь (ПИ)

Правила выставления оценок

В курсе предусмотрено несколько форм контроля знания:

  • Самостоятельные работы на семинарах, проверяющие знание основных фактов с лекций и семинаров
  • Практические домашние работы на Python
  • Письменная контрольная работа
  • Письменный экзамен

Итоговая оценка вычисляется на основе оценки за работу в семестре и оценки за экзамен:

Итог = Округление(0.15 * ПР + 0.4 * ДЗ + 0.15 * КР + 0.3 * Э)

ПР — средняя оценка за самостоятельные работы на семинарах

ДЗ — средняя оценка за практические домашние работы на Python

КР — оценка за контрольную работу

Э — оценка за экзамен

Округление арифметическое.

Правила сдачи заданий

За каждый день просрочки после мягкого дедлайна снимается 1 балл. После жёсткого дедлайна работы не принимаются. Даже при опоздании на одну секунду. Сдавайте заранее. Есть исключение: в течение семестра каждый студент может не более 2 раз сдать задание после жёсткого дедлайна — в этом случае за каждый день просрочки продолжает вычитаться по одному баллу (если не оговорено иное).

При обнаружении плагиата оценки за домашнее задание обнуляются всем задействованным в списывании студентам, а также подаётся докладная записка в деканат. Следует помнить, что при повторном списывании деканат имеет право отчислить студента.

При наличии уважительной причины пропущенную проверочную можно написать позднее, а дедлайн по домашнему заданию может быть перенесён. Дедлайн по домашнему заданию переносится на количество дней, равное продолжительности уважительной причины. Решение о том, является ли причина уважительной, принимает исключительно учебный офис.

Администрация

Первый ректор Ярослав Кузьминов   , 2010 г.

Вышка была создана 27 ноября 1992 года постановлением правительства РФ. С тех пор университетом руководит бессменный ректор Ярослав Кузьминов  , который также участвовал в создании университета.

В июле 2021 года Ярослав Кузьминов подал в отставку. Новым ректором стал Никита Анисимов   . Кузьминов был избран на должность научного руководителя, которую Евгений Ясин оставил по состоянию здоровья.

До этого бывший министр экономики Евгений Ясин занимал должность научного руководителя и представлял университет в других академических организациях, а президент университета Александр Шохин представлял его во взаимодействии с государственными органами. Посты проректоров НИУ ВШЭ заняли экономисты Вадим Радаев   , Лев Якобсон   и Александр Шамрин.

В состав советов университета входят российский политик Сергей Кириенко , бывший помощник президента Владимира Путина Вячеслав Володин , основатель « Сбербанка » Герман Греф , президент Группы « Ренова» Виктор Вексельберг , российский миллиардер, технологический предприниматель Аркадий Волож , председатель правления банка «ФК Открытие» Михаил Михайлович Задорнов , Леонид Михельсон, крупный акционер российской газовой компании « Новатэк» , меценат Вадим Мошкович , а также бизнесмен и политический деятель Михаил Прохоров .

Состав

  • Лицей НИУ ВШЭ  
  • Факультет математики НИУ ВШЭ
  • Факультет физики НИУ ВШЭ
  • НИУ ВШЭ Московский институт электроники и математики им. Тихонова (МИЭМ НИУ ВШЭ)

    • Школа электронной инженерии
    • Школа компьютерной инженерии
    • Школа прикладной математики
  • Факультет компьютерных наук  

    • Школа программной инженерии
    • Школа анализа данных и искусственного интеллекта
    • Школа больших данных и информационного поиска
  • Факультет бизнеса и менеджмента
    • Школа делового администрирования
    • Школа логистики
    • Школа бизнес-информатики
    • Высшая школа бизнес-информатики
    • Институт инновационного менеджмента
    • Международный центр обучения логистике
    • Высшая школа проектного менеджмента
    • Высшая школа маркетинга и развития бизнеса
  • Факультет права
    • Кафедра гражданского права
    • Кафедра конституционного и административного права
    • Кафедра международного публичного и частного права
    • Кафедра практического права
    • Департамент судебной власти
    • Кафедра теории права и сравнительного правоведения
    • Департамент права труда и социальной защиты населения
    • Кафедра уголовного права
    • Совместное управление с Федеральной антимонопольной службой
    • Кафедра финансового, налогового и таможенного права
  • Факультет гуманитарных наук  

    • Школа истории
    • Школа Культурологии
    • Школа лингвистики
    • Школа истории и теории литературы
    • Школа философии
    • Школа иностранных языков
  • Факультет социальных наук
    • Школа политики и управления
    • Школа социологии
    • Школа Психологии
    • Институт Образования
    • Институт демографии
    • Департамент общественной политики
  • Факультет коммуникаций, медиа и дизайна
    • Школа СМИ
    • Школа интегрированных коммуникаций
    • Школа Искусства и Дизайна  
  • Факультет мировой экономики и мировой политики

    • Школа Мировой Экономики
    • Школа международных отношений
    • Школа международных региональных исследований
    • Школа востоковедения
  • Факультет экономических исследований
    • Кафедра теоретической экономики
    • Кафедра прикладной экономики
    • Школа Финансов
    • Кафедра математики
    • Департамент статистики и анализа данных
  • Международный колледж экономики и финансов
  • Факультет городского и регионального развития
  • Химический факультет
  • Факультет биологии и биотехнологии
  • Факультет географии и геоинформационных технологий
Независимые отделы
  • Кафедра высшей математики
  • Совместный отдел с Музеем современного искусства «Гараж»
  • Кафедра физического воспитания
  • Департамент инновационного менеджмента
  • Департамент исследований безопасности
  • Кафедра военной подготовки

Аттестация и оценки

Во 2-ом модуле производится промежуточная аттестация за осенний
семестр.

В осеннем семестре проводятся две контрольные работы (КР1 и
КР2); выдается и проверяется домашнее задание (ДЗ2). Оценка за
контрольную работу выставляется в долях единицы без округления (т.е. с
максимальной доступной используемым вычислительным средствам
точностью). Оценка ДЗ2 также выставляется в долях единицы без
округления. Оценка ДЗ2 может быть больше единицы за счет «бонусных
баллов».

Накопленная оценка НК2 за осенний семестр вычисляется по формулам:

НК2′ = 10 * min (1, 0.35 * КР1 + 0.35 * КР2 + 0.3 * ДЗ2)

НК2 = ОКРУГЛ (НК2′).

Здесь и далее ОКРУГЛение производится к ближайшему целому числу, причем
полуцелые числа округляются вверх.

Если НК2 >= 4, то промежуточная оценка за осенний семестр Э2 = НК2.

Если НК2 < 4, студенту предлагается выполнить итоговое контрольное
задание ИК2, оцениваемое по десятибалльной системе. В этом случае
промежуточная оценка за осенний семестр

Э2 = ОКРУГЛ (0.7 * ИК2 + 0.3 * НК2′).

В весеннем семестре проводятся две контрольные работы (КР3 и
КР4); выдается и проверяется домашнее задание (ДЗ4). Оценки
выставляются так же, как и в осеннем семестре.

Накопленная оценка НК4 за весенний семестр вычисляется по формулам:

НК4′ = 10 * min (1, 0.35 * КР3 + 0.35 * КР4 + 0.3 * ДЗ4)

НК4 = ОКРУГЛ (НК4′).

Если НК4 >= 4, то итоговая оценка за весенний семестр Э4 = НК4.

Если НК4 < 4, студенту предлагается выполнить итоговое контрольное
задание ИК4, оцениваемое по десятибалльной системе. В этом случае
итоговая оценка за весенний семестр

Э4 = ОКРУГЛ (0.7 * ИК4 + 0.3 * НК4′).

Результирующая оценка Р по дисциплине выставляется по десятибалльной
шкале согласно формуле

Материалы курса

Лекции

Тема Презентация !
1 Введение
2 Обзор инструментов. Python
3 Обзорная лекция про математику
4 Этапы проекта. Рынок данных. Задачи Data Science
5 Еще про Python. Кейс

Инструкция по установке и запуску среды

Скачать и установить анаконду:

Домашнее задание и семнары вы будете выполнять в Jupyter’е. Чтобы его запустить, нужно открыть Ananconda Navigator и там под иконкой Jupyter Notebook (не путать с Jupyterlab) нажать на launch.

Семинары

Внутри каждого IPython-ноутбука есть семинарский материал и задача для самостоятельного выполнения. Датасеты доступны либо в правом столбце, либо в каждом из ноутбуков есть ссылка на скачивание нужного датасета.

Тема Ноутбук Датасет
1 Введение в язык Нет
2 Введение в Pandas
3 Описательная статистика в Python
4 Визуализация данных
5 A/B-тестирование
6 — 7 Классификация. Метрики качества
8 Кластеризация
9 Регрессия. Метрики качества
10 Анализ текстов

Программирование и анализ данных на Python (часть 1)

Идентификатор конференции: 261 255 6227

Код доступа: 939738

Расписание

  • Лекция — 10:00 — 10:50
  • Индивидуальные беседы — 11:10 — 14:00

Курс посвящён изучению основ и методологии программирования на основе языка Python, который широко используется для разработки и реализации методов анализа данных. Рассматриваются основные алгоритмы и структуры данных, средства разработки и отладки программ.

Изучается возможность использования языка Python для создания web-приложений на микрофремворке Flask.

Изучаются основы работы с библиотекой поддержки больших многомерных массивов NumPy, пакетом анализа данных Pandas и пакетом машинного обучения Scikit-learn. Также в курсе излагаются базовые вопросы из теории вероятностей и математической статистики, необходимые для понимания алгоритмов машинного обучения.

Учебный ассистент Денис Семенов @ltybc138.

Занятия

03.12.2020

10.12.2020

Теория:

  • Проблема оценки сложности работы программ
  • Асимптотический анализ: Понятие O («О» большое)

17.12.2020

Теория:

Асимптотический анализ для полиномов.

24.12.2020

Теория:

Асимптотический анализ для a^n и log(n).

14.01.2021
Теория:

  • Бинарный поиск
  • Инвариант цикла
  • Поиск аргумента, при которой возрастающая функция принимает заданное значение.

21.01.2021

Теория:

  • Сортировка пузырьком, сортировка вставкой
  • Сложность сортировок, инвариант сортировок

28.01.2021

Теория:

Нижняя оценка сложности алгоритмов сортировки: n*log(n).

04.02.2021

Теория:

  • Сортировка слиянием.
  • Быстрая сортировка.
  • Оценка времени работы и использованной памяти.

11.02.2021

Теория:

Приоритетная очередь. Формулировка задачи. Построение на базе массивов.

18.02.2021

Теория:

  • Структура данных куча. Добавление, изменение значений, изъятие минимального элемента.
  • Сортировка массива при помощи кучи.

25.02.2021

Теория:

Связный список. Сравнение с массивом.

04.03.2021

Теория:

Хеш-таблица. Разрешение коллизий методом цепочек (списка)

Материалы курса

Видео лекций и семинаров (основного потока) выкладывается по этой ссылке (с задержкой).

Описания и записи лекций пилотного потока

Черновик учебника. В этой книге излагается почти всё, что будет в курсе (за исключением задач — те меняются чаще, чем пишутся книги). Как нетрудно догадаться, мы рекомендуем читать эту книгу (окончательный вариант есть на бумаге — издан издательством ВШЭ).

Конспекты лекций основного потока. В этом файле будут собираться конспекты лекций основного потока

Обратите внимание: файл будет обновляться по мере чтения лекций, ссылка останется той же самой

Ещё одно важное указание: в конце лекции приводятся контрольные вопросы. Это простые вопросы, решение которых позволяет проверить понимание материала лекции

Настоятельно рекомендуется просмотреть их и решить перед семинаром на данную тему: разбор этих упражнений на семинарах не планируется, а если вы не можете решить их, то пользы от семинара по данной теме для вас скорее всего не будет. Как обычно, контрольные вопросы к лекции предполагают также, что вы помните содержание предыдущих лекций.

Это простые вопросы, решение которых позволяет проверить понимание материала лекции. Настоятельно рекомендуется просмотреть их и решить перед семинаром на данную тему: разбор этих упражнений на семинарах не планируется, а если вы не можете решить их, то пользы от семинара по данной теме для вас скорее всего не будет. Как обычно, контрольные вопросы к лекции предполагают также, что вы помните содержание предыдущих лекций.

Ниже приводится списки задачи для разбора в классе и домашние задания. В файле «Занятие » содержатся и задачи для разбора в классе, и задачи домашнего задания. Для основного потока: задачи со звёздочкой в классных листках не обязательно очень трудные. Так отмечены задачи, решение которых желательно, но необязательно, для успешного освоения курса. Кроме того, для основного потока приводятся ссылки на буквальный конспект лекций — то, что было написано на доске.

Программирование и анализ данных на Python (часть 3)

Откуда брать задания и куда их сдавать?

15.04.2021

Теория: Понятие матрицы, сложение и вычитание матриц, умножение матриц на число. Умножение матриц (размера до 3×3)

22.04.2021

Теория: Запись системы линейных уравнений в матричном виде. Обратная матрица. Связь обратной матрицы и определителя.

29.04.2021

Теория: Метод наименьших квадратов для построения прямой (полинома), расположенной наиболее близко к заданному множеству точке

02.09.2021

Теория: Понятие случайного события и случайной величины.

09.09.2021

Теория: Математическое ожидание и стандартное отклонение случайной величины. Среднее и стандартное отклонение выборки. Постановка задачи регрессии (определения положения кривой, наиболее близко проходящей к точкам) при помощи случайных величин.

16.09.2021

Теория: Функция плотности распределения. Плотность распределения равномерной случайной величины на отрезке.

23.09.2021

Теория: Нормальное распределение. Центральная предельная теорема. Экспоненциальное распределение.

Задание 3

Дедлайн 29.09.2017 23:59.

Формат файла task_1.txt:

Первые четыре строки должны содержать описание того, что Вы делали, чтобы решить каждое задание. Например:1 строка: Использовал регулярное выражение: … заменил все вхождения на …2 строка: Использовал регулярное выражение: … заменил все вхождения на …3 строка: Использовал регулярное выражение: … Всего упоминаний о князьях нашел: (число)
4 строка: Использовал регулярное выражение: … Всего упоминаний Новгорода нашел: (число)

На следующих строках должна быть летопись после обработки.

Внимание: При нарушении правил сдачи задание может быть оценено в 0 баллов!

Соревнования

Правила участия и оценивания

В соревновании по анализу данных вам предлагается по имеющимся данным решить некоторую задачу, оптимизируя указанную метрику, и отправить ответы для заданного тестового множества. Максимальное количество посылок в сутки ограничено (как правило, разрешается сделать 2 посылки), ближе к концу соревнования вам будем необходимо выбрать 2 посылки, которые вы считаете лучшими. Тестовые данные делятся на публичные и приватные в некотором соотношении, на основе которых строятся публичный и приватный лидерборды соответственно, при этом публичный лидерборд доступен в течение всего соревнования, а приватный строится после его окончания для выбранных вами посылок.

В лидербордах каждого из соревнований присутствуют несколько базовых решений (бейзлайнов), каждое из которых соответствует определённой оценке. Например, для получения оценки не ниже 8 баллов необходимо, чтобы ваше решение на приватном лидерборде оказалось лучше соответствующего бейзлайна. Далее для студента, преодолевшего бейзлайн на N_1 баллов, но не преодолевшего бейзлайн на N_2 балла, итоговая оценка за соревнование рассчитывается по равномерной сетке среди всех таких студентов в зависимости от места в приватном лидерборде среди них; если быть точными, то по следующей формуле:

N_2 — (N_2 — N_1) * i / M,

где M — количество студентов (из всех студентов, изучающих курс), преодолевших бейзлайн на N_1 баллов, но не преодолевших бейзлайн на N_2 балла;

i — место (начиная с 1) студента в приватном лидерборде среди всех таких студентов.

Единственное исключение из формулы — студенты, преодолевшие самый сильный бейзлайн, получают прибавку 1/M к своей оценке.

Чтобы вас не пропустили при проверке решений соревнования, необходимо использовать следующий формат для имени команды (вкладка Team):

« Имя Фамилия номер_группы»

В течение 3 суток после окончания соревнования в соответствующее задание на anytask необходимо прислать код, воспроизводящий ответы для посылки, фигурирующей в приватном лидерборде. При оформлении кода предполагайте, что данные лежат рядом с ним в папке data, а в результате выполнения кода ответы должны быть записаны в файл solution-N-Username.csv, где N — номер соревнования, Username — ваша фамилия. У нас должна быть возможность запустить код и получить те же ответы, что и в вашей посылке, — в частности, это означает, что:

1. Если вы отправляете файл *.py, мы будем запускать его при помощи команды python *.py в вышеуказанном предположении о местонахождении данных.

2. Если вы отправляете ноутбук *.ipynb, мы последовательно запустим все ячейки ноутбука и будем ожидать в результате его работы формирование файла с ответами.

3. Если вы отправляете код с использованием другого языка программирования, в том же письме направьте нам инструкцию по его запуску с тем, чтобы получить тот же файл с ответами.

В случае отсутствия кода, воспроизводящего результат, в установленный срок студенту выставляется 0 в качестве оценки за соревнование. Студенты, попавшие в топ-3 согласно приватному лидерборду, смогут получить бонусные баллы, если в течение недели после окончания соревнования сдадут в anytask отчет о получении решения, фигурирующего в приватном лидерборде. Если не оговорено иное, использовать любые внешние данные в соревнованиях запрещено. Под внешними данными понимаются размеченные данные, где разметка имеет прямое отношение к решаемой задаче. Грубо говоря, сборник текстов с википедии не считается внешними данными.

В некоторых соревнованиях данные взяты из завершившегося соревнования на Kaggle.
Категорически запрещено использовать данные из оригинального соревнования для восстановления целевой переменной на тестовой выборке.

Соревнование 1

Задача: выявление мошеннических тразнакций

Это соревнование на бонусные баллы, оно не является обязательным.

Дедлайн: 15.12.2020 23:59MSK

В задании всего один бейзлайн (lightgbm), ненулевые баллы получают решения, преодолевшие его на приватном лидерборде.
Все решения выше этого бейзлайна оцениваются по равномерной шкале от 0 до 5.

Обратите внимание на раздел Baselines на Kaggle — там можно найти много полезного.

Эссе по визуализации

Эссе по визуализации принимается до 30 мая. Работать можно в командах до 5 человек включительно.

Концепция задания следующая:

  1. Возьмите данные о каком-либо социальном процессе, явлении, историческом, культурном или политическом событии. Под данными подразумевается некоторый набор статистики.
  2. Проведите анализ этих данных — посмотрите на распределения, выделите средние, распределения, медианы и дисперсии — о чем они говорят?
  3. Визуализируйте результаты описанными в лекциях графиками и графическими инструментами. Проследите за тем, чтобы визуализации получились наглядными, выдержанными в едином стиле, информационно полными (с соблюдением принципов, описанных в лекциях).
  4. Под полученными визуализациями добавьте текстовые аннотации на ± полстраницы текста на каждую графическую единицу.
  5. Итоговая размерность задания, если переводить его в word / pdf с 14 Times New Roman — около 3-5 страниц (больше — по желанию).
  6. Итоговая работа может быть в любом виде по желанию вашей команды, например:
    1. .docx / .pdf / .pptx с картинками и подписями (самый простой вариант).
    2. веб-страница с графиками и текстом (взгляните, например, на Tableau Public — там можно рисовать графики (включая картографические) и прочее в Web-версии без знания особых инструментов)
    3. Бумажный ватман с распечатанными и наклеенными / нарисованными графиками и подписями (если вдруг такое взбредет вам в голову, получится что-то похожее на стенгазету).
    4. любой неперечисленный выше формат лучше все таки уточнить у нас (я правда не знаю что еще может прийти в голову, но если вдруг).
    5. Позаботьтесь о том, чтобы в вашем задании был некоторый осмысленный и осязаемый из графиков вывод об объекте изучения. Он должен быть не менее 3-х предложений по теме.

N.B. Постарайтесь подойти к этому заданию творчески. Возможно, вы захотите чтобы оно вошло в портфолио ваших проектов — получится явная польза помимо курса.

Возможные вопросы:

Q: Я не умею в сложный web и не очень хорошо рисую, как мне сделать это задание?

A: Самый простой способ — возьмите обычный Excel и Word, разберите данные там, сделайте графики в Excel и перенесите их в Word.

Q: А где брать данные?

A: Вопрос непростой, но есть некоторые базовые локации:

  1. Социальная / экономическая статистика:
  2. Любые цифровые выкладки по вашему предмету визуалиации — желательно чтобы данные были открытыми.
  3. В сообществе ods.ai в канале #datasets есть самые разнообразные данные (даже картинки со сканом легких). Зарегистрируйтесь (это займет около 1 дня на рассмотрение регистрации) — и спросите там (или у нас)
  4. Спросите нас — может сможем что-нибудь подсказать.

Q: Можно ли мне сделать что-нибудь по данным с realtime API (twitter / google / etc)?

A: Конечно же да, но тогда должно быть понятно о чем именно вы рассказываете.

Q: А какими инструментами можно пользоваться?

Критерии оценивания эссе по визуализации

  1. Логическая связность повествования — от 1 до 5 баллов
  2. Понятность графических объектов (не менее 3-х графических объектов, меньше — 1 балл) — от 1 до 10 баллов
  3. Аккуратность, информативность графиков, подписанные оси, грамотные аннотации — от 1 до 10 баллов
  4. Наличие логичного вывода в концовке эссе и его связность с темой — от 1 до 5 баллов
Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *