Анализ данных в социальных и гуманитарных науках (АнДан)

АнДан

Привет.

Мы — организаторы мастерской АнДан.

Каждый из нас в своё время задумался, зачем ему или ей корпеть над данными, для каждого изменения процедуры перекраивая целые листы формул, забывая документировать выбранные способы и, чертыхаясь, листать мануал по очередному готовому пакету навроде SPSS. Каждый из нас рано или поздно, так или иначе, пришёл к прозрачному, удобному и бесконечно функциональному языку статистического программирования R, который используют социальные и гуманитарные учёные, HR-аналитики, лингвисты, специалисты в области картографии и визуализации данных, биостатистики, эконометристы, маркетологи, дата сайентисты и многие другие по всему миру. И вот уже четвёртый год мы сокращаем для наших участников этот путь и приводим их в лоно R.

Мы рассказываем привыкшим путаться в листах Excel и выдачах SPSS и Stata, что работа с данными бывает захватывающим приключением, если использовать понятный на каждом этапе обработки R. Мягко вводим уже освоившихся с языком в продвинутое моделирование. Учим тех, кто любит R за огромные возможности разнообразной визуализации, как рисовать карты, графики, интерактивные дэшборды и отчёты лаконично, красиво и грамотно. Погружаем будущих и состоявшихся лингвистов в мир распознавания речи, конструирования чат-ботов и другой высокоуровневой компьютерной лингвистики. Собираем желающих поучиться байесовской статистике и вместе вкапываемся в её математические основы и средства реализации на R.

Итак, вы, мы, R, берег Волги, музыка, нон-стоп анализ и две лучшие недели этого лета.

Что будет

Будет много учёбы. Три пары в день, факультативные мастер-классы, золотые лекции, большое количество домашки, за которой можно засидеться до двух ночи под мерный речитатив ВИА «Кровосток» на веранде, а иногда ещё и хозяйственные обязанности. В общем, нагрузка будь здоров. Зато отдыхать будем как в последний раз: ночные пения, гитары, прогулки, — всё включено.

В этот раз мы запускаем четыре программы на любой вкус:

  1. Стартовую для тех, кто знает статистику, но ни разу не открывал R или даже ни разу в жизни не кодил,

  2. Визуализацию для тех, кто уже неплохо знает R и хочет прокачаться в инфографике и другой статичной визуализации: рисовать графики, готовить обновляющиеся отчёты, презентации и целые сайты по всему, что попадает в руки,

  3. Фонетическую для тех, кто мечтает обрабатывать фонетические данные, узнать, какие бывают лингвистические задачи, какие статистические методы используются, как устроено распознавание речи и многое другое,

  4. Байесовскую для мечтающих наконец разобраться с математическими основами и конкретным применением линейных моделей и байесовской статистики.

Подробное описание и расписание смотрите во вкладке с программами.

Кого ждём

В идеале, вы — социальный или гуманитарный учёный. Может, вы не умеете кодить, а может, R для вас – второй язык после русского. Не так важно. Важно, что, если вы учитесь на экономиста, юриста, психолога, социолога, культуролога, географа, филолога, лингвиста и так далее и так далее, то знайте: мы работаем для вас.

Но мы будем рады научить вас, и если вы, скажем, биолог, биоинформатик, медицинский физик, врач общей категории или кто-нибудь ещё.

Вам потребуется хорошее знание статистики (для стартовой программы), а также это самое знание, R и соответствующее его использование для любой из остальных трёх. На мастерской будет нужен ноутбук с некоторыми программами и пакетами (подробный список всем разошлём); крайне не помешает адекватность и умение впрягаться в сложную работу во имя собственного будущего. В этом будущем, полагаем, вы должны представлять научную деятельность, или же аналитику и работу с данными. И несмотря на нашу безумную серьёзность в тексте выше (ага, ну да), будет очень здорово, если вы окажетесь человеком с хорошим чувством юмора. Мы планируем сделать крутую мастерскую, а без юмора крутые мастерские не получаются.

В фонетической программе мы ожидаем, что вы уже знакомы с основами работы на R (или готовы пройти онлайн курсы перед мастерской) и знаете немного статистику.

Для байесовской программы вам потребуется глубокое понимание фриквентистской статистики и готовность разбираться в математике.

Всё, дочитали. Выдыхайте. Читайте про курсы ниже и подавайте заявку, будет нереально.

Почта по всем вопросам


Мария Серветник Директор по общим вопросам, директор Стартовой программы

http://vk.com/servetnikmaria

telegram: @servetnikmaria

+79166245471
Елена Рыбина Директор Байесовской программы

telegram: @elenary


Григорий Ануфриев Директор "Визуализации"

telegram: @AnufrievGrigoriy


Гарик Мороз Директор Фонетической и Байесовской программы

telegram: @aGricolaMZ


Где ещё в Интернете
http://vk.com/come_andan
http://t-do.ru/come_andan

Байесовская

БайДан — это программа летней школы по анализу данных для мечтающих наконец разобраться с математическими основами и конкретным применением байесовской статистики, а также научиться строить сложные линейные модели (ограничения на применения регрессии, mixed effects models, nested models, GAM).

Байесовские методы в статистике становятся все популярнее, но университеты за изменениями не поспевают, так что в социальных и гуманитарных науках, где статистика традиционно считалась чем-то второстепенным, чаще всего продолжают читать уже накатанные курсы. В программе будет пошагово и с самых азов разбираться байесовский статистический анализ и методы его применения. Мы хотим интегрировать в обучение работу над реальными датасетами, так что будем особенно рады участникам, у которых уже есть обработанные данные, так как им будет куда проще оттачивать полученные знания на близких к своей области материалах.

Подойдет тем, кто:

  • уже чуть-чуть разобрался в байесовской статистике, но еще не уверен;

  • может представить вероятностное распределение и немного помедитировал над формулой условной вероятности, но в целом откровенно ничерта не разобрался (этот уровень доступен всем после нескольких часов гугления по запросам “bayesian inference” \ “байесовская статистика”);

  • кто уже немного освоился в базовом анализе данных, изучил t test, имеет какое-то представление о том, как применять ANOVA и как строить линейную регрессию, но чувствует, что реальные экспериментальные данные устроены сложнее, чем простое вытаскивание готовых функций из пакетов.

Даты проведения

4 цикл: с 28 июля по 5 августа

Возрастные ограничения
от 18 лет
Кого ищут
тех, кто хочет углубить свои знания в области байесовского анализа данных и сложных линейных моделях

Фонетическая

Программа предназначена не только для лингвистов, но и для любых заинтересованных в фонетическом анализе данных, так что не бойтесь подаваться. Каждый курс будет содержать и теоретическое введение, и практическую часть, где можно будет оттачивать полученные навыки.

В программе основы артикуляционной фонетики, основы спектрального анализа, работы в Praat и с Praat-скриптами, статистические методы, используемые в фонетическом исследовании (с примерами на R), а также немного про автоматическое распознавание речи и другие speech technologies.

Мы хотим интегрировать в обучение работу над реальными данными, так что особенно будем рады участникам со своими данными и сформулированными исследовательскими вопросами.

Даты проведения

3 цикл: с 21 по 28 июля

Возрастные ограничения
18+
Кого ищут
тех, кто хочет углубить свои знания в области анализа и сбора фонетических данных

Стартовая

Первый шаг

Эта программа будет полезна любым студентам, учёным и практикам, примерно понимающим количественные методы и желающим получить великолепный инструментальный задел. Да, абсолютно нормально, если вы не до конца уверены, как делать логистическую регрессию. Да, здесь почти никто не открывал R Studio. Между тем, как справедливо замечает Владимир Волохонский: даже уже неплохо работающим в R людям часто бывает полезно пройтись по основам — никогда не знаешь, что и где нечаянно пропустил и всё это время делал неоптимально.

Содержание курса

На протяжении двух недель вы:

  • Разберётесь в R и R Studio, даже если никогда раньше не программировали (таких участников у нас большинство),

  • Научитесь мастерски готовить данные, реструктуризировать их, чистить и упорядочивать сразу несколькими способами: в base R, data.table и (опционально) dplyr,

  • Откроете для себя широкие возможности визуализации графиков с помощью ggplot,

  • Сможете делать полноценные обновляемые отчёты в R Markdown, Научитесь делать в R ANOVA, линейную регрессию и несколько других простых GLM-методов,

  • Подтянете математическую и статистическую подготовку, необходимую для интерпретации результатов и более глубокого погружения в указанные методы.

Большая часть занятий состоит из интерактивных лекций (слушаем, кодим, разбираем код) и домашних заданий. В программе один или даже два хакатона для отработки и закрепления, а также серия факультативных занятий, на которых можно будет научиться, например, писать телеграм-ботов в R.

Чувствуете, что готовы к такому? Подавайтесь. Мы будем очень ждать.

Даты проведения

3-4 циклы: с 21 июля по 5 августа

Возрастные ограничения
18+
Кого ищут
тех, кто давно хотел выучить R, но никак не получалось

Визуализация

Покажем наглядно

Эта программа будет полезна любым пользователям R (то есть вы должны уметь базово кодить и строить графики в ggplot), регулярно сталкивающимся с необходимостью визуализировать данные. Может быть, вы студент, аспирант или учёный, которому нужно вывести приятную таблицу с результатами ANOVA или график линейной регрессии, может быть вы визуализируете воронки и распределения как продуктовый аналитик, может быть вы регулярно готовите отчёты или даже презентации с данными, и хотели бы делать всё это, не вылезая из — в любом случае, добро пожаловать на визуализационную программу.

Содержание курса

На протяжении недели вы:

  • Лучше поймёте теоретическую подоплёку конструирования инфографики, выбора форм и цветов,

  • Подтянете навык подготовки данных для графиков с помощью tidyverse и конкретно dplyr,

  • В каждом графике научитесь отсекать лишнее и добавлять нужное, используя как неисчерпаемые возможности ggplot, так и дополнительные пакеты,

  • Сделаете аккуратный шаг в интерактивность графиков, используя plotly или htmlwidgets,

  • Подробно разберёте RMarkdown и сможете создавать отчёты, сайты и презентации, не покидая R,

  • Поймёте всё про таблицы, используя DT, pandoc, kable и другие. Большая часть занятий состоит из интерактивных лекций (слушаем, кодим, разбираем код) и домашних заданий.

В программе один или даже два хакатона для отработки и закрепления, а также серия факультативных занятий, на которых можно будет научиться, например, писать телеграм-ботов в R.

Чувствуете, что готовы к такому? Подавайтесь. Мы будем очень ждать.

Даты проведения

4 цикл: с 28 июля по 5 августа

Возрастные ограничения
18+
Кого ищут
тех, кто неплохо знает R и хочет раскрыть его визуализационный потенциал