Анализ данных в социальных и гуманитарных науках (АнДан)

Подать заявку
на ЛШ2018

АнДан

Интервью Александра Фенина

«Первые два дня вы будете вопить от ужаса, но потом модальность этого вопля будет потихонечку меняться, и с каждой следующей итерацией этот вопль будет больше напоминать вопль счастья. Потому что на самом деле это действительно что-то, во что ты втягиваешься, продираешься сквозь тернии и в конечном итоге получаешь невероятное наслаждение от того, что ты прекрасно понимаешь, что ты делаешь своими руками, что именно происходит с данными, как именно они обрабатываются, как именно можно изменить этот алгоритм, как именно можно воспроизвести алгоритм других людей и т.д.»

27 апреля 2018 г.

Полный текст интервью

Описание мастерской

Привет.

Мы – организаторы мастерской АнДан.

Каждый из нас в своё время задумался, зачем ему или ей корпеть над данными, для каждого изменения процедуры перекраивая целые листы формул, забывая документировать выбранные способы. Каждый из нас рано или поздно так или иначе пришёл к прозрачному, удобному и бесконечно функциональному языку статистического программирования R, который используют социальные и гуманитарные учёные, HR-аналитики, компьютерные лингвисты, картографы, биостатистики, дата сайентисты и многие другие по всему миру.

И вот уже третий год мы сокращаем для наших участников этот путь и приводим их в лоно R.

Мы рассказываем привыкшим путаться в листах Excel и выдачах SPSS и Stata, что работа с данными бывает захватывающим приключением, если использовать понятный на каждом этапе обработки R. Мягко вводим уже освоившихся с языком в продвинутые аналитические методы: машинное обучение, сетевой анализ, работу со строками и многое другое. Учим тех, кто любит R за бесконечные возможности разнообразной визуализации, как рисовать карты, графики, интерактивные дэшборды и отчёты лаконично, красиво и необычно. Погружаем будущих и состоявшихся лингвистов в мир распознавания речи, конструирования чат-ботов и другой высокоуровневой компьютерной лингвистики. В общем, занимаемся непотребством и возвращаем программистский хардкор туда, где он снова нужен – в социальные и гуманитарные науки.

Итак, вы, мы, R, берег Волги, музыка, нон-стоп анализ и две лучшие недели этого лета.

Что будет

Будет. Много. Работы. Три пары в день, мастер-классы, золотые лекции, полмастерской за домашкой в два ночи под мерный речитатив ВИА «Кровосток» на веранде, а иногда ещё и хозяйственные обязанности. В общем, нагрузка будь здоров. Зато отдыхать будем как в последний раз: ночные пения, гитары, прогулки, -- всё включено.

В этот раз мы запускаем четыре программы: · стартовую для тех, кто ни разу не открывал R и возможно даже ни разу в жизни не кодил, · визуализационную для тех, кто уже неплохо знает R и хочет рисовать графики, дэшборды и интерактивные сайты по всему, что попадает в руки, · продвинутую для тех, кто хорошо знает R и хочет прокачиваться в более сложной аналитике и моделировании, · лингвистическую для тех, кто мечтает обрабатывать лингвистические данные (тексты, звук, видео), писать чатботов, строить распознавание речи и многое другое.

Подробное описание смотрите во вкладке с программами.

Кого ждем

В идеале, вы — социальный или гуманитарный учёный. Может, вы не умеете кодить, а может, R для вас – второй язык после русского. Не так важно. Важно, что, если вы учитесь на экономиста, юриста, психолога, социолога, культуролога, географа, филолога, лингвиста и так далее и так далее, то знайте: мы работаем для вас.

Но никто не будет против, если вы, скажем, биолог, биоинформатик, медицинский физик, врач общей категории или кто-нибудь ещё. Мы рады будем научить и вас.

Для стартовой программы потребуется только хорошее знание статистики немного теорвера и логики. Для продвинутой и визуализационной нужно владеть R на неплохом уровне: делать разнообразный анализ для первой и рисовать графики в ggplot во второй. В рамках лингвистической программы мы ожидаем, что вы уже умеете программировать на Python и R (или готовы пройти онлайн курсы перед мастерской) и знаете немного статистику.

На мастерской будет нужен ноутбук с некоторыми программами и пакетами (подробный список всем разошлём); крайне не помешает адекватность и умение впрягаться в сложную работу во имя собственного будущего. В этом будущем, полагаем, вы должны представлять научную деятельность, или же аналитику и работу с данными.

И, несмотря на нашу безумную серьёзность в тексте выше (ага, ну да), будет очень здорово, если вы окажетесь человеком с хорошим чувством юмора. Мы планируем сделать крутую мастерскую, а без юмора крутые мастерские не получаются.

Всё, дочитали. Выдыхайте. Читайте про курсы ниже и подавайте заявку, будет нереально.

Почта по всем вопросам


Александр Фенин Директор по общим вопросам

http://vk.com/etofenin

telegram: @etofenin

+79168217889
Мария Серветник Директор стартовой программы

telegram: @servetnikmaria


Елена Рыбина Директор продвинутой программы

telegram: @elenary


Алла Жукова Директор программы визуализации

telegram: @bugsy88


Гарик Мороз Директор лингвистической программы

telegram: @aGricolaMZ


Елизавета Кожанова Координатор лингвистической программы

telegram: @gunguard


Где ещё в Интернете
http://vk.com/come_andan

Лингвистическая

Основная цель направления – научить извлекать и анализировать информацию из нестандартных лингвистических источников данных, таких как тексты, звук, видео и т. д. В программе сейчас следующие темы:

  • создание чатботов (Python)
  • распознавание речи (Kaldi)
  • тематическое моделирование (Python)
  • сетевой анализ (Python, Gephi)
  • разметка и извлечения данных из звука и видео (Praat, Elan, R)
  • лингвистическое картографирование (R)
  • создание собственных корпусов (Elan, Python)

Каждый курс будет содержать и теоретическое введение, и практическую часть для оттачивания полученных знаний на ваших компьютерах.

Мы ждем слушателей, которые уже умеют немного программировать на Python и R (или готовы научиться азам до школы): как лингвистов, которые хотят подтянуться в компьютерной лингвистике, так и представителей смежных наук, заинтересованных в анализе данных и обработке естественного языка.

Даты проведения

4 цикл: с 28 июля по 6 августа

Возрастные ограничения
18+
Кого ищут
тех, кто хочет углубить свои знания в области компьютерного сбора и анализа лингвистических данных

Визуализация

Добро пожаловать в дивный новый дата-мир

Программа для тех, кто использует R во имя визуализации. Ведь если данные были обработаны в тёмном лесу, и никто этого не видел, значит можно считать, что данные не были обработаны, правда? ggplot станет вашим вторым именем, вы погрузитесь в такие пакеты, где R перестаёт напоминать сам себя, и научитесь представлять данные одновременно максимально эффективно и невероятно красиво.

Две недели на R от неуверенного facet_wrap до засовывания интерактивного пятигеомного ggplot в shiny

На визуализационной программе мы слегка потопчемся на теории и немедленно нырнём в практику. Будут короткие курсы основ инфографики, а затем рисование карт, расширения к ggplot, plotly, d3.js, визуализация графов и интерактивные визуализации в shiny. На сопровождающих программу факультативных мастер-классах мы возьмём самый удобный фреймворк подготовки данных к визуализации -- dplyr сотоварищи, -- поработаем с Tableau и займёмся другими странными вещами.

Напоминаем: у нас нет проектов, нет собственных исследований, мы не выезжаем в Кимры и Дубну, не мучаем других участников школы многостраничными анкетами и хитрыми экспериментами. Есть мы, есть данные, и тут уж либо мы их обработаем, либо они нас.

Во-первых, R – это красиво. Во-вторых, подавайтесь.

Даты проведения

3-4 циклы: с 21 июля по 6 августа

Возрастные ограничения
18+
Кого ищут
тех, кто неплохо знает R и хочет раскрыть его визуализационный потенциал

Продвинутая

Добро пожаловать в аналитическое безумие

Программа для хардкорщиков. Программа для тех, кому мало. Программа с духом старого АнДана, где полвторого ночи на мастерской — это разгар выполнения домашки. Будет полезна желающим превратиться в человека, который может анализировать данные самыми невероятными способами. Во снах вы будете гонять бенчмарки функций.

Две недели на R от «да ладно, я умею всё, что нужно» до «господи, я ничего этого не знал и ещё тонну всего не знаю»

На продвинутой программе нас ждёт полное погружение в машинное обучение и курс сетевого анализа от Валентины Кусковой, академического руководителя магистерской программы «Прикладная статистика с методами сетевого анализа» и заведующей Международной лабораторией прикладного сетевого анализа. Может, и что-нибудь ещё! Приготовьтесь, будет действительно сложно и действительно интересно.

И нет, у нас нет проектов, нет собственных исследований, мы не выезжаем в Кимры и Дубну, не мучаем других участников школы многостраничными анкетами и хитрыми экспериментами. Есть мы, есть данные, и тут уж либо мы их обработаем, либо они нас.

Подавайтесь, если хотите отправиться к глубинам R.

Даты проведения

3-4 циклы: с 21 июля по 6 августа

Возрастные ограничения
18+
Кого ищут
тех, кто хочет въехать в машинное обучение и сетевой анализ, уже неплохо зная R и базовые статистические методы

Стартовая

Добро пожаловать в научный хардкор

Эта программа будет полезна любым студентам, учёным и практикам, примерно понимающим количественные методы и желающим получить великолепный инструментальный задел. Да, абсолютно нормально, если вы не до конца уверены, как делать логистическую регрессию. Да, здесь почти никто не открывал R Studio. Между тем, как справедливо замечает Владимир Волохонский: даже уже неплохо работающим в R людям часто бывает полезно пройтись по основам — никогда не знаешь, что и где нечаянно пропустил и всё это время делал неоптимально.

Две недели, чтобы узнать всё: R от открытия файлов до построения безумных графиков по результатам обработки на 200 строк кода

Двухнедельный курс R от основы основ до выкачивания VK, визуализации графов и организации командной разработки будут вести бывшие студенты АнДана под чутким руководством и присмотром Владимира Волохонского и Ивана Иванчея, а также сами мастера. У одного за плечами почти десять лет обучения студентов статистике, у другого — авторство курсов на Stepic.org. И оба — ветераны АнДана-2016 и АнДана-2017, перловку съевшие на преподавании R на берегу Волги. Вы будете в восторге.

И нет, у нас нет проектов, нет собственных исследований, мы не выезжаем в Кимры и Дубну, не мучаем других участников школы многостраничными анкетами и хитрыми экспериментами. Есть мы, есть данные, и тут уж либо мы их обработаем, либо они нас.

Чувствуете, что готовы к такому? Подавайтесь. Мы будем очень ждать.

Даты проведения

3-4 циклы: с 21 июля по 6 августа

Возрастные ограничения
18+
Кого ищут
тех, кто давно хотел выучить R, но никак не получалось