Все интервью ЛШ-2018 на Soundcloud
Слушать в iTunes
Андрей Ромашков: Сегодня мы разговариваем с Александром Фениным, директором мастерской «Анализ данных в социальных и гуманитарных науках» или, коротко, «АнДан». Привет, Александр!
Александр Фенин: Привет!
А.Р.: Собственно, название мастерской звучит более чем угрожающе ― «Анализ данных в социальных и гуманитарных науках». Можешь разъяснить дрожащим от страха потенциальным участникам мастерской, что это вообще значит и чему у вас учат?
А.Ф.: На самом деле в том, что потенциальные участники дрожат от страха, нет совершенно ничего удивительного. В распространенном дискурсе принято считать, что социальный, гуманитарный, особенно гуманитарный, ученый — это человек очень далекий от технарей, от технических приблуд, таких как программирование, анализ каких-то непонятных данных и так далее. На самом деле в социальных, гуманитарных науках данных огромное количество, даже в тех работах, в которых принято думать совсем не так. Например, в филологии есть огромный пласт исследований, которые называют Digital Humanities, и в нем делаются очень разные, очень интересные вещи. Например, визуализация графов связей между персонажами в различной литературе или упоминаний тех или иных произведений и отсылок между этими произведениями.
Все это требует достаточно неплохих умений в плане анализа текста, в том числе компьютеризированного анализа, все это требует умений для построения этих сетей, графов, визуализации и так далее.
И всему этому можно научиться у нас.
Не могу сказать, что мы учим филологов именно этому, у нас на самом деле довольно широкий спектр вещей, которые мы даем. Мы даем, в первую очередь, умение работать с количественными данными, это те данные, которые вы собираете с помощью опросников, с помощью каких-то исследований, с помощью когнитивных экспериментов, если вы там, допустим, когнитивный психолог, и так далее. Это что-то, что представлено в виде цифр или категорий, что-то, что можно посчитать, что-то, на чем можно провести какие-то базовые статистические операции, и что-то, что можно визуализировать, представить в отчете и так далее.
Мы занимаемся тем, что обучаем этому, в том числе «с нуля», но если вы уже неплохо разбираетесь в таком языке статистического программирования как R, то мы берем вас с вашим уровнем и подтягиваем его или в сторону более углубленного анализа, или в сторону визуализации, или в сторону конкретных, в этом году лингвистических способов обработки данных.
А.Р.: Мощно! Есть ли дискриминация по каким-то признакам при наборе на мастерскую: возрастной цензор, профессиональный, все такое? Кого, собственно, ждут на АнДане?
А.Ф.: На АнДане, разумеется, ждут студентов и выпускников, аспирантов, в любом случае 18+ — это единственный возрастной ценз. У нас учатся, в том числе и преподаватели.
В этом году на продвинутую программу первая заявка была от моей преподавательницы по статистике, которая преподавала у меня, когда я еще учился в университете. Сейчас она приедет к нам для того, чтобы учиться самой, и мне кажется, что это очень вдохновляющий факт.
Что касается профессиональных навыков, то здесь очень просто: для стартовой программы вам надо знать неплохо статистику, на каком-то базовом уровне, по крайней мере, немножко разбираться в какой-то супер базовой логике, и, наверное, все. Для продвинутой визуализационной и лингвистической программ нужно будет немножко разбираться в языке программирования R, на котором мы, собственно, в основном и пишем. У нас даже девиз такой: «Here we R,» — в том смысле, что здесь мы используем R.
Соответственно, нужно немножко знать про это: можно пройти курсы на Stepik, можно поучиться на наших же программах или же на наших мероприятиях, которые мы организуем в межсезонье, тот же АйсДан, который был зимой, немножко подтянуть свой уровень R, и тогда можно подаваться и на остальные программы.
Вот и вся дискриминация, все остальные приветствуются.
А.Р.: Понятно. А чем ты занимаешься за пределами Летней школы? И чем занимаются другие организаторы? И, собственно, будут ли какие-то внушительные приглашенные лекторы?
А.Ф.: Внушительные приглашенные лекторы будут обязательно. У нас будет преподавать, например, руководительница международной лаборатории сетевого анализа в Вышке на продвинутой программе. Она же руководитель соответствующей магистерской программы в Вышке. У нас из именитых людей, известных в коммьюнити R-юзеров, преподаватели, которые ведут курс по основам статистики и по R на Stepik и какое-то количество людей на «Золотых лекциях», которые тоже в мире, в первую очередь психологическом, известны.
Почему в психологическом? Потому что на самом деле в первые годы существования мастерская была направлена в первую очередь на психологов, потому что мы сами по большей части, люди, которые делают мастерскую, не считая лингвистической программы, в той или иной мере психологи.
У нас на самом деле много директоров, пять человек, и из этих пяти человек один лингвист, трое по образованию психологи, а руководитель нашей продвинутой программы заканчивает сейчас магистратуру, связанную с когнитивной психологией. Она по базовому образованию не психолог, но при этом тоже, так или иначе, пришла в эту сферу. Занимаемся мы все разными вещами: кто-то все еще учится, кто-то уже доучился и преподает, кто-то занимается тем, что в психологии называется «продавать ковры». Ковры продают те, кто учился психологии, но пошел в индустрию, например, в юзабилити, UX и так далее, такой очень распространенный вариант продажи ковров.
Я, например, занимаюсь сейчас разными вещами, связанными с цифровой психологией.
Мы делаем одно очень классное приложение для того, чтобы собирать всякого рода психологические и не только данные, различать их и возвращать пользователям интересную обратную связь, и учить потом на этих данных моделить. Немножко промышляю популяризацией науки, уже в меньшей степени, чем раньше, чему исключительно рад. Еще наша лингвистическая, так сказать, часть, она находится под руководством лингвистов, и это в основном преподаватели, которые сами уже ведут пары и читают лекции.
А.Р.: Стороннему человеку может показаться, что АнДан чем-то похож на другую мастерскую Летней школы — ЦПИ (центр полевых исследований), только там скорее на стороне сбора данных работают, а АнДан на стороне обработки. Так ли это или неправомерное сравнение?
А.Ф.: На самом деле вопрос хороший, потому что с программой ЦПИ я не могу сказать, что знаком очень хорошо. У меня возникало ощущение, что ЦПИ в основном работает с качественными исследованиями. Есть такое разделение в социальных науках на качественные и количественные исследования. Разница принципиальная в том, что в количественных исследованиях то, то вы собираете, в конечном итоге переводится в некоторую цифирную оценку. То есть там, если вы, допустим, дали людям какие-то опросники, то всегда можно сказать ответил он там 1,2,3,4 или 5, то в дальнейшем можно посчитать это.
А качественные исследования работают с более глубокой реальностью, которую сложно охватить в заранее размеченных категориях, это такие методы как структурированное/ неструктурированное интервью, проективные методы и т.д. И такие данные количественно обрабатывать можно в очень редких случаях, чаще всего они обрабатываются на уровне интерпретаций, на уровне своих довольно сложных методов, которые, тем не менее, не имеют ничего общего с анализом данных в количественных.
У меня есть такое ощущение, что ЦПИ работает скорее в рамках качественных данных, я могу заблуждаться сейчас. Я не знаком с их предыдущими программами, с тем, что они планируют делать сейчас, но в любом случае, скорее всего, с данными, которые собирают они, мы работать не сможем, просто потому что они будут не очень репрезентативными для тех методов, которые мы используем.
При этом не могу сказать, что мы только анализируем данные, на самом деле мы их и собираем.
Допустим, на продвинутой программе у нас будет большой блок, посвященный сетевому анализу, ну, а для того, чтобы не использовать какие-то готовые наборы данных, чтобы сделать вообще всю эту процедуру повеселее, мы планируем выкачивать данные из ВКонтакте, это все делается очень легко, тоже с помощью языка того самого статистического программирования R.
Мы будем строить графы людей, например, связанных с Летней школой, и можем на них учиться высчитывать те или иные коэффициенты, метрики, центральность и связность и т.д. Мы будем понимать, что они означают, как их использовать для какого-то более глубокого анализа и многое другое. На самом деле на стартовой программе мы тоже учим работать с данными из ВКонтакте.
Даже если вы еще совсем не умеете пользоваться R, вы можете приехать к нам и поучиться считать, в том числе и такие данные, собирать их и считать, не вылезая из языка программирования
А.Р.: Подводя итог, можешь описать один день участника мастерской АнДан: какой график занятий, есть ли различные модули, все такое?
А.Ф.: Ну, АнДан в этом плане очень прост, и, наверное, в этом его красота, в простоте. Потому что АнДан — это мастерская, где вы не расстаетесь со своим ноутбуком независимо от того, где вы находитесь: идете вы на завтрак, плавать в Волгу. Вы встаете утром, если вы хорошо поспали — завтракаете, чаще всего вы не завтракаете. После этого вы отправляетесь на занятия, дальше у вас две пары, на которых вы сидите и ботаете, ботаете, ботаете. Потом у вас небольшой перерыв на обед. В рамках обеда практически все разговоры связаны с тем, что вы успели или не успели сделать, какие вам мысли пришли в голову, какие интересные штуки вы заметили в данных и так далее. Потом возвращаетесь и снова ботаете, и так до вечера.
У нас практически всегда примерно полночи значительная часть аудитории нашей мастерской сидит с домашними заданиями.
Причем, судя по всему, на это не очень влияет количество нагрузки, потому что первый год, когда мы делали четыре пары в день, у нас это происходило именно в таком духе, второй год мы сделали три пары в день, и у нас все еще сидело половина мастерской до двух, до полтретьего. Не знаю, почему это происходит, но мне кажется, что люди, которые к нам приезжают на АнДан, это люди, которые очень быстро втягиваются в такую очень интенсивную, эффективную работу, и в конечном итоге им самим начинает это нравиться.
Еще мы ставим на веранде «Кровосток», иногда делаем перерывы на какие-то настольные игрушки, иногда ходим на костры послушать или поиграть музыку, но по большей части мы занимаемся именно тем, что ботаем и получаем от этого нереальное удовольствие.
Это может звучать немножко страшновато, но действительно на второй третий день уже просто втягиваешься, и без этого начинает ломать
А.Р.: Отлично! Очень интересно получилось. Какое-нибудь обращение к потенциальным участникам может быть?
А.Ф.: Наше главное обращение, наш главный, так сказать, барьер, который стоит между вами, дорогие друзья, и нами в качестве мастерской, если мы считаем вас за социальных, гуманитарных ученых и так далее, самый большой барьер, который между нами с вами может стоять это страх. Страх того, что у меня вот не хватит навыков, у меня не хватит знаний, где я, и где программирование и так далее. По крайней мере, это что-то, с чем мы сталкивались, и на самом деле что-то, что блокировало нас самих от того, чтобы погружаться в эту среду до того, как мы придумали эту мастерскую. Но я хочу сказать, что будет действительно страшно, в смысле, от этого никуда не деться.
Первые два дня вы будете вопить от ужаса, но потом модальность этого вопля будет потихонечку меняться, и с каждой следующей итерацией этот вопль будет больше напоминать вопль счастья.
Потому что на самом деле это действительно что-то, во что ты втягиваешься, продираешься сквозь тернии и в конечном итоге получаешь невероятное наслаждение от того, что ты прекрасно понимаешь, что ты делаешь своими руками, что именно происходит с данными, как именно они обрабатываются, как именно можно изменить этот алгоритм, как именно можно воспроизвести алгоритм других людей и т.д.
И это просто невероятное ощущение, пожалуйста, преодолейте страх сейчас или даже не преодолевайте, вы бойтесь, но подавайте заявку, а дальше мы разберемся.
А.Р.: Итак, о перевоплощении воплей ужаса в вопли счастья посредством прослушивания «Кровостока» рассказывал Александр Фенин, директор мастерской «Анализ данных в социальных и гуманитарных науках» или АнДан. Спасибо!
Подробнее о мастерской
Подать заявку на мастерскую