Воронцов гасу

Санкт-Петербургский государственный архитектурно-строительный университет 

Общежитие:
 

     
Государственный:
 

     
Воен. центр:
 

    
Бюджетные места:
 

    
Лицензия/аккредитация:
 

Оценить шанс поступить

В настоящее время в составе СПбГАСУ 7 факультетов (38 кафедр), осуществляющих подготовку по широкому спектру направлений подготовки бакалавров, специалистов и магистров. Обучение ведётся по всем формам: очная, очно-заочная (вечерняя), заочная. Вуз обладает необходимым учебно-аудиторным фондом и оборудованными лабораториями, имеет современное программно-информационное компьютерное обеспечение учебного процесса и научно-инновационной деятельности, достаточную учебно-спортивную базу. Имеются столовая и кафе, общежитие, здравпункт.

Доля трудоустроенных выпускников

После первого высшего очного

Софт и проекты

Удобный инструмент для аналитических исследований, генерации графиков в Internet, подготовки отчетов, выполнения курсовых и дипломных работ, встраивания графиков в приложения на Delphi и C#. Имеет собственный формат входных данных CHD (CHart Description), позволяющий описывать как таблицы данных, так и внешний вид графика. Поддерживается более 150 команд, более 50 свойств точек графика, имеется встроенный калькулятор арифметических выражений. Графики могут быть выведены в окно прикладной программы, на принтер, в буфер обмена, в файлы графических форматов BMP, EMF, PNG, JPEG, GIF. Имеется программа chdView. exe для просмотра CHD-файлов.

Страница: ChartLib
Документация: на сайте ВЦ РАН (надо вручную переключиться на KOI8-R)

Параллельная распределённая реализация методов вероятностного тематического моделирования на основе аддитивной регуляризации. Реализация ядра библиотеки на С++, интерфейсы на C++, Python. Позволяет добавлять новые регуляризаторы и метрики качества.

Страница: github. com/bigartm
Документация: bigartm. org
Архитектор проекта Александр Фрей

Верхнеуровневая обёртка над BigARTM, упрощающая построение тематических моделей в прикладных проектах и автоматизирующая проведение вычислительных экспериментов по оптимизации моделей.

Страница: github. com/machine-intelligence-laboratory/TopicNet
Разработка лаборатории машинного интеллекта МФТИ

Поисково-рекомендательная система для формирования и анализа тематических подборок англоязычных научных статей.

Научные интересы

Всё, что скрывается за терминами «науки о данных» (data science), «интеллектуальный анализ данных» (data mining) и «машинное обучение» (machine learning):
распознавание образов,
прогнозирование,
математическая статистика,
дискретная математика,
численные методы оптимизации,
аналитика больших данных,
а также практический анализ данных в разнообразных областях
(медицина,
техника,
биоинформатика,
экономика,
лингвистика,
интернет).

Анализ текстов и информационный поиск

Современные средства текстового поиска предназначены для ответов на короткие текстовые запросы. Этого не достаточно при самообразовании и поиске научной информации, в особенности новой или содержащей неизвестную пользователю терминологию. Поиск и мониторинг новых тенденций, терминологии, профессиональных сообществ всё ещё требует больших затрат времени и высокой квалификации. Существует барьер входа в новую профессиональную область. Ответ на вопрос «где находится передний край науки по данной теме» по-прежнему достигается, главным образом, путём личного общения, следовательно, субъективен и не общедоступен. Наш подход к исследовательскому поиску (Exploratory Search) основан на концепции Мастерской Знаний. Это среда для поиска, анализа и переработки больших объёмов текстовой информации. В ней пользователь «мастерит» тематические текстовые подборки. Мастерская помогает ему расширять подборку, писать по ней рефераты и обзоры, выделять ключевые понятия и факты, систематизировать по темам, строить графические визуализации в виде «карты знаний». Миссия проекта — убирать барьеры между человеком и знанием. В Мастерской применяются разнообразные технологии обработки естественного языка (NLP).

Вероятностное тематическое моделирование (Probabilistic Topic Modeling) служит для выявления тематики больших текстовых коллекций и определения, к каким темам относится каждый текстовый документ. Также оно находит всё больше неожиданных применений в областях, далёких от анализа текстов: при обработке изображений и видео, звуковых и биомедицинских сигналов, нуклеотидных и аминокислотных последовательностей, пользовательских логов, финансовых и транзакционных данных.

Основные направления исследований и разработок

  • иерархическая тематическая модель научного и научно-популярного контента;
  • тематический исследовательский информационный поиск;
  • полуавтоматическое реферирование тематических подборок научных статей;
  • классификация и динамическая тематизация новостных потоков;
  • модели символьной динамики для анализа дискретных временных рядов;
  • тематическая кластеризация отзывов клиентов или опросов персонала;
  • классификация и сценарный анализ записей разговоров контактного центра;
  • выявления паттернов потребительского поведения клиентов по банковским транзакциям;
  • выявление видов экономической деятельности компаний по банковским транзакциям;

Материалы и задания

  • Тематический анализ больших данных. Краткое популярное введение в BigARTM.
  • Разведочный информационный поиск. Видеолекция на ПостНауке.
  • Тематическое моделирование. FAQ на ПостНауке, совместно с Корпоративным университетом Сбербанка.
  • Тематическое моделирование на пути к разведочному информационному поиску. Лекция на DataFest3, 10 сентября 2016. Видеозапись.
  • Коллекции документов для тематического моделирования.

Фейковые новости и потенциально опасный дискурс

Постправда — это политика игнорирования фактов, использования фейковых новостей и приёмов пропаганды для формирования общественного мнения. Опасность постправды в том, что она навязывает социуму ложную картину мира и вынуждает людей принимать невыгодные для них решения. Блогосфера и социальные сети способствуют распространению фейков, лженаучных и мифологизированных представлений о мире. Средства массовой информации всё чаще используются для ведения информационных войн между корпорациями, государствами и идеологиями. Создание технологий, способных противостоять некритичному восприятию постправды, становится фундаментально важной задачей. Речь идёт об использовании технологий машинного обучения и автоматической обработки текстов для выявления манипулятивных приёмов, обмана, слухов, сплетен, мистификаций, противоречий, замалчивания, мифологизации и идеологизации. Мы называем эти явления потенциально опасным дискурсом. Их необходимо не только выявлять, но и оценивать степень их опасности, и на какие целевые аудитории направлено воздействие. Исследование носит междисциплинарный характер и предполагает тесное взаимодействие с лингвистами, журналистами, политологами, психологами.

Основные направления исследований и разработок:

  • распознавание фейков в новостях;
  • распознавание пропаганды и приёмов информационной войны;
  • поиск противоречивых оценок и интерпретаций одних и тех же событий в различных источниках;
  • выявление манипулятивных приёмов в тексте;
  • классификация психоэмоциональных реакций целевых аудиторий на текстовое сообщение;
  • выявление конструктов мифологизированной/идеологизированной картины мира (мифологем/идеологем);
  • модели классификации текстов, пар текстов и фрагментов текстов по размеченным выборкам;
  • методы активного обучения для формирования неразмеченных выборок в краудсорсинге;
  • разработка открытых библиотек для выявления и анализа потенциально опасного дискурса.
  • Фейковые новости и другие типы потенциально опасного дискурса: типология, подходы, датасеты, соревнования.
  • Estela Saquete et al. (2020) Fighting post-truth using natural language processing: A review and open challenges.

Отслеживание контактов и оценка рисков инфицирования

В условиях пандемии перед производственными предприятиями и организациями встают вопросы: какие противоэпидемиологические мероприятия провести, чтобы минимизировать потери, избежать локдауна или максимально эффективно из него выйти. Кого в первую очередь тестировать, кого отправлять на карантин, кого вакцинировать, для всех ли сотрудников масочно-перчаточный режим строго обязателен. Ответы на эти вопросы не универсальны и зависят от структуры контактов на конкретном предприятии. В проекте используются данные о контактах, предоставленные компанией Софттри в рамках проекта Amuleit, для моделирования распространения инфекции по графу контактов и сравнения эффективности различных мероприятий. Для оценивания индивидуального риска инфицирования строятся вероятностные модели по обучающим выборкам, сформированным имитационной моделью распространения инфекции по графу контактов. Оценки индивидуального риска позволяют формировать приоритетные списки людей для тестирования и вакцинации, и тем самым существенно сокращать затраты и повышать эффективность противоэпидемических мероприятий.

  • имитационное моделирование распространения инфекции по заданному динамическому графу контактов;
  • имитационное моделирование для генерирования динамического графа контактов;
  • вероятностные модели риска с прямым и обратным отслеживанием контактов;
  • методы инкрементного обучения вероятностной модели индивидуального риска инфицирования;
  • оценивание результативности противоэпидемиологических мероприятий с помощью имитационного моделирования.

Теория обобщающей способности

Проблема обобщающей способности является ключевой и в то же время наиболее сложной в машинном обучении. Её даже выделяют в отдельную дисциплину — теорию вычислительного обучения. Если алгоритм, восстанавливающий некоторую неизвестную зависимость, построен по конечной обучающей выборке прецедентов, то как предсказать качество его работы на контрольной выборке, состоящей из новых прецедентов?
Почему это вообще возможно?
Как надо обучать алгоритм, чтобы он редко ошибался на новых данных?

Активное исследование этих вопросов началось в конце 60-х, когда В. Вапник и А. Червоненкис предложили статистическую теорию восстановления зависимостей по эмпирическим данным (VC theory) и получили верхние оценки вероятности ошибки обученного алгоритма (VC-bounds). Эти оценки позволили обосновать давно замеченный эмпирический факт:
по мере увеличения сложности используемого семейства алгоритмов качество обучения сначала улучшается, затем начинает ухудшаться. Ухудшение связано с эффектом переобучения. Если алгоритм имеет избыточное число параметров («степеней свободы»), то он может слишком точно настроиться на конкретную обучающую выборку в ущерб качеству восстановления зависимости в целом. В теории Вапника-Червоненкиса разработан метод структурной минимизации риска (СМР), позволяющий автоматически находить модель оптимальной сложности. К сожалению, оценки вероятности ошибки чрезвычайно завышены (осторожны, пессимистичны), что может приводить к переупрощению модели в методе СМР. Несмотря на 40-летние усилия многих ученых и существенное усложнение математического аппарата, точные оценки до сих пор не были получены.

Комбинаторная теория переобучения — это принципиально новый подход,
основанный на слабой вероятностной аксиоматике,
впервые позволивший получить точные (не завышенные, не асимптотические) комбинаторные оценки вероятности переобучения
и показать ключевую роль эффектов расслоения и сходства в семействах алгоритмов. Пока что точные оценки получены лишь для ряда модельных семейств алгоритмов, обладающих некоторой регулярной структурой. Для реальных смейств удалось получить верхние оценки расслоения-связности — SC-оценки (splitting and connectivity bounds). Они завышены в разы, тогда как VC-оценки завышены на 5–8 порядков. Для некоторых модельных семейств SC-оценки являются точными. Тем не менее, проблемы остаются, и дело не только в завышенности оценок. Во-первых, SC-оценки могут быть ненаблюдаемыми, то есть в них могут входить некоторые функции от скрытых контрольных данных. Эти функции вполне можно оценивать по наблюдаемым обучающим данным, но это дополнительная работа. Во-вторых, SC-оценки могут быть вычислительно неэффективными и требовать неадекватно больших затрат памяти и времени. Получение приближённых или асимптотических SC-оценок гарантированной точности также является отдельной работой.

Пока имеется лишь два примера практического применения комбинаторных оценок обобщающей способности:

  • Модификация критериев информативности для уменьшения переобучения конъюнктивных закономерностей в логических алгоритмах классификации (Андрей Ивахненко).
  • Эффективный алгоритм отбора эталонных объектов в методе ближайших соседей (Максим Иванов).

Основная цель дальнейших исследований — доведение комбинаторной теории переобучения до уровня практической применимости.

Основные направления исследований:

  • разработка математической техники для перехода от ненаблюдаемых оценок к наблюдаемым (возможно, как на основе комбинаторики, так и на основе теории концентрации вероятностной меры);
  • исследование комбинаторно-статистических свойств графа расслоения-связности модельных и реальных семейств алгоритмов.
  • получение оценок вероятности переобучения через наблюдаемый профиль расслоения-связности;
  • разработка эффективных методов оценивания нижних слоёв профиля расслоения-связности в конкретных методах обучения;
  • разработка логических алгоритмов классификации с управляемой переобученностью логических закономерностей;
  • развитие понятия «плотности» семейства алгоритмов и изучение возможности аппроксимации «плотных» семейств их «разреженными» подсемействами малой мощности;
  • развитие понятия «комбинаторного отступа» и его использование для повышения обобщающей способности линейных классификаторов;
  • развитие понятия локальной радемахеровской сложности для более аккуратного учёта эффектов расслоения и сходства;
  • обобщение понятий расслоения и сходства алгоритмов для непрерывных функций потерь;
  • разработка эффективных метрических алгоритмов классификации на основе комбинаторных оценок полного скользящего контроля;
  • исследование связи профилей компактности с функциями конкурентного сходства;
  • разработка методики тестирования и анализа обобщающей способности для «Полигона алгоритмов классификации».
  • Воронцов, К. В. Комбинаторная теория надёжности обучения по прецедентам: Дис. док. физ.-мат. наук: 05-13-17. — Вычислительный центр РАН, 2010. — 271 с.  (подробнее)
  • Комбинаторная теория переобучения (виртуальный семинар)

Ключевые слова:
overfitting, generalization bounds, computational learning theory, Vapnik-Chervonenkis theory, local Rademacher complexity.

Комбинаторная (перестановочная) статистика

Это направление логично вытекает из предыдущего и является его обобщением. Оказывается, многие фундаментальные факты теории вероятностей и математической статистики можно переформулировать и доказать, не опираясь на колмогоровскую аксиоматику, то есть не используя теорию меры, и даже не употребляя само понятие вероятности. В задачах анализа данных мы всегда имеем дело с выборками конечной длины. Поэтому естественно ставить вопрос не «какова вероятность события?», а «какой может быть частота этого события на скрытых (пока еще не известных) данных?». Ответы на эти два вопроса, вообще говоря, различны, причем на выборках малой длины различие существенно. Вероятность события — абстрактная идеализированная величина. Частота события — это как раз то, что реально измеряется в эксперименте. Именно её и имеет смысл оценивать (предсказывать).

Слабая вероятностная аксиоматика основана на одной единственной аксиоме:
рассматривается конечная выборка неслучайных объектов, которые появляются в случайном порядке, причём все перестановки равновероятны. Событие — это бинарная функция на множестве всех перестановок выборки. Вероятность события определяется как доля перестановок выборки, при которых эта бинарная функция принимает единичное значение (т. событие имеет место).

В слабой аксиоматике удаётся переформулировать значительную часть фундаментальных результатов теории вероятностей и математической статистики, оносящихся к конечным выборкам независимых наблюдений. В их числе: закон больших чисел, закон сходимости эмпирических распределений (критерий Смирнова), многие непараметрические, ранговые и перестановочные статические критерии, теория обобщающей способности, теория информации. Во многих случаях получаемые оценки являются точными, т. не асимптотическими и не завышенными. Многие результаты сильно упрощаются, освобождаясь от второстепенных технических усложнений, связанных с теорией меры. Например, отпадает необходимость введения различных типов сходимости.

  • выяснение границ применимости слабой вероятностной аксиоматики;
  • точные (комбинаторные) статистические тесты;
  • эффективные алгоритмы вычисления комбинаторных оценок;
  • исследование других вероятностных предположений, кроме равновероятности всех перестановок;
  • множественное тестирование статистических гипотез и его связь с проблемой переобучения.

Ключевые слова:
exchangeability, permutational statistics, concentration of probability measure.

Прогнозирование объёмов продаж

Задачи прогнозирования объёмов продаж в сетях супермаркетов характеризуются
огромным количеством временных рядов,
фактической невозможностью использования классических ресурсоёмких методов прогнозирования,
несимметричностью функции потерь,
разнородностью и нестационарностью временных рядов,
наличием пропусков и неточностей в данных,
возможностью привлечения дополнительной информации о структуре ассортимента, географии продаж, ценах, промо-акциях и поведении конкурентов.

  • адаптивные методы краткосрочного прогнозирования при несимметричной функции потерь;
  • адаптивные композиции алгоритмов прогнозирования при несимметричной функции потерь;
  • адаптивные методы прогнозирования плотности распределения;
  • адаптивные методы квантильной регрессии;
  • поиск взаимозаменяемых товаров, анализ и прогнозирование каннибализации брендов.

Ключевые слова:
sales forecast, density forecast, forecasting under asymmetric loss, quantile regression.

Другие проекты и семинары

(в значительной степени устаревшие)

  • Полигон алгоритмов классификации
  • Полигон алгоритмов коллаборативной фильтрации
  • Similarity Miner (виртуальный семинар)
  • Улучшение сканированного текста (виртуальный семинар)
  • Оценивание дискретных распределений при дополнительных ограничениях на вероятности некоторых событий (виртуальный семинар)
  • Расслоение и сходство алгоритмов (виртуальный семинар)
  • Анализ клиентских сред и коллаборативная фильтрация (виртуальный семинар)

Материалы для преподавателей

  • MachineLearning:Учебный процесс
  • Преподавание машинного обучения
  • Коллекция учебных задач
  • Методы анализа текстов (спецсеминары, К.В. Воронцов)/2017-2018 год
  • Задачи анализа данных в бизнес-аналитике (семинар К. В. Воронцова)
  • Семинар К. В. Рудакова — регулярный не виртуальный семинар (следите за объявлениями!)

Интервью, выступления, блоги

  • Все эпизоды
  • 5 февраля 2020. Исследования, разработки и перспективы ИИ в России, совместно с Игорем Пивоваровым.
  • 13 января 2020. Искусственный интеллект – наука, ремесло или спорт?, совместно с Александром Дьяконовым.
  • 16 декабря 2019. Вас обслуживает чатбот-юрист. Автоматизация юридических консультаций, совместно с Сергеем Переверзевым.
  • 29 октября 2019. iPavlov – когда машины будут свободно говорить как люди, совместно с Михаилом Бурцевым.
  • 15 октября 2019. Чатботы, нейросети и естественная речь машин, совместно с Сергеем Николенко.
  • 1 октября 2019. Big data: искусственный интеллект в мире больших данных.
  • 17 сентября 2019. Чему машины учатся у людей?

Мои подстраницы

Vokov/CVVokov/PublicationsVokov/Вики-ресурс MachineLearning. RU: концепция и перспективыVokov/Иллюзия простоты выбораVokov/Интервью для InTalent. proVokov/Интервью для Кота Шрёдингера 2017-10-04Vokov/Интервью для Новой газеты 2019-02-25Vokov/Интервью для ПостНауки 2017-09-27Vokov/Интервью для РИА Новости 2020-05-25Vokov/Комбинаторная статистикаVokov/НаучпопVokov/Некоторые задачи интеллектуального анализа данных (лекция)Vokov/ПесочницаVokov/Планы по развитию MachineLearning. RUVokov/Публикации

Публикации

  • LaTeX2e в примерах. — 2005. — 56 c.
  • Теория обучения машин. Первый семестр. Курс лекций ВМК МГУ и МФТИ.
  • Теория надёжности обучения по прецедентам. 2011. Курс лекций ВМК МГУ и МФТИ.
  • Полный список публикаций.
  • Publications of Konstantin Vorontsov in English — список публикаций на английском языке.

Учебные материалы

  • Машинное обучение — годовой курс, кафедра «Интеллектуальные системы» ФУПМ МФТИ и кафедра ММП ВМК МГУ.
  • Математические методы анализа текстов — семестровый курс, кафедра «Интеллектуальные системы» ФУПМ МФТИ и кафедра ММП ВМК МГУ
  • Вероятностные тематические модели — семестровый курс, кафедра «Интеллектуальные системы» ФУПМ МФТИ и спецкурс на кафедре ММП ВМК МГУ.
  • Теория надёжности обучения по прецедентам — спецкурс, кафедра ММП ВМК МГУ.
  • Прикладной статистический анализ данных — семестровый курс, кафедра ММП ВМК МГУ; альтернативный семестровый курс, ФУПМ МФТИ.

Рекомендации для студентов и аспирантов

Каждый студент, с которым мы начинаем совместную научную работу, должен внимательно прочитать и осмыслить:

  • Научно-исследовательская работа (рекомендации)
  • Написание отчётов и статей (рекомендации)
  • Подготовка презентаций (рекомендации)
  • Защита выпускной квалификационной работы (рекомендации)

Другие методические материалы:

  • Обзорные статьи на английском языке — рекомендуется студентам младших курсов в качестве текстов по специальности
  • Требования к кандидатской диссертации

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *