Совмещение ежа с ужом или как я пытаюсь “подружить” академическую “библию статистика” с вычислительной статистикой хакера

Следствием того, что я влюбился в дата-сайнс, стал поиск курсов и образовательных программ, которых, оказывается, куча. Читающие меня друзья начали советовать ШАД, Вышку, курсы Карпова и т. д.

Изучая лендинги, созваниваясь и общаясь с выпускниками курсов аналитики данных и университетов, я начал ощущать, что что-то «не так», а степень «нетакости» мне понять было сложно. Тогда я попросил пару учреждений прислать мне их учебные программы. Я же все-таки «пИдагог», мне нетрудно разобраться в том, чему они учат и какими дидактическими средствами достигают результата. Вывод для меня оказался неутешительным.

Все эти, без ложной скромности, уважаемые учреждения воспитывают и обучают бизнес-аналитиков, задача которых — работа с продуктом, обработка несистематизированных данных, АБ-тесты по продукту и прочие бизнес-штучки, которые к моему запросу не имеют никакого отношения.

Да, на этих курсах меня научат статистике, немного или много пайтону. Я научусь работать с библиотеками (pandas, matlab и т. д.) и получу навыки визуализации информации, но… чего из этого я сейчас не умею? Немногого.

Да, с ограничениями, да, с условностями, но большая часть того, чему меня будут учить, мне или не пригодится, или ограниченно пригодится. На обучение необходимо заложить от 8 месяцев до 2 лет, а на выполнение домашек, которые не имеют отношения к моей прямой деятельности (а именно педагогическим исследованиям), потребуется еще от 10 часов в неделю. Ой-ой, у меня и так проектов в «портфеле» кучка и еще маленький кармашек. Обучение в универе на аналитика данных — не мой вариант. Что в таком случае делать?

Правильно, составить свой план обучения, формализовать материал, по которому я буду учиться, и спроектировать теоретико-практические занятия. Но перед всем этим мне нужно ответить на вопрос «зачем» мне учиться аналитике данных (а уже потом, может быть, и дата-сайнс).

Мой ответ звучит так: научиться проводить эмпирические исследования для публикации в разного рода журналах и прочей научной деятельности, связанной с опросами, замерами и обработкой иных «повседневных» данных, которых накапливается огромное множество.

Я осознаю свои пробелы в знаниях статистики, пайтона (эксель я сразу не рассматриваю) и математики.

С математикой все просто, я же работаю в школе, поэтому «будет» мне учитель, так сказать, не выходя с работы. Со статистикой и исследованиями все значительно сложнее, а с пайтоном еще сложнее: у меня или отсутствуют, или крайне скудные навыки в методах стат.анализа и написания кода на пайтоне. Но подобного рода трудности меня лишь возбуждают, в хорошем смысле слова.

Где-то за пару месяцев я собрал список книг по статистике и пайтону, начал в вялотекущем режиме в них ковыряться: читать, что-то пробовать, но системности не было, пока мне не присоветовали Downey A. B. Think Stats: Exploratory Data Analysis / A. B. Downey, Sebastopo, CA: O’Reilly Media, 2025. 321 c., и случилась Эврика.

Отдыхая на Рождество на даче, у меня появился план. 7 книг — это слишком много, все, что более двух, является информационным передозом. Очевидно, что мне нужно «нечитать», как, собственно, я всегда и делаю, но даже, если «нечитать» — 7 книг все равно много. Мне нужно остановиться на двух (почему двух? Одна — теория, другая — практика). Мне нужно выбрать из семи одну по методам стат.анализа, а другую — по пайтону применительно к статистике. Вот они:

  1. Privitera G. J. Statistics for the Behavioral Sciences / G. J. Privitera, Los Angeles London New Delhi Singapore Washington DC Melbourne: SAGE Publications, Inc, 2024. 960 c.
  2. Downey A. B. Think Stats: Exploratory Data Analysis / A. B. Downey, Sebastopo, CA: O’Reilly Media, 2025. 321 c.

Прочитав внимательно оглавление, я понял, что первая книга — это теория, которая поможет «поставить» мышление аналитика и «статистика», а вторая книга — это руки, которые научат мышление «прилаживать» с помощью пайтона к данным. Ну а дальше с помощью ИИ я формализовал окончательный план самообучения, который состоит из 4 блоков и короткой инструкции (не скажу, чтобы она мне нужна была), в какой последовательности действовать.

Инструкция: что и как делать, или 4 этапа самообучения методам стат.анализа данных

Распределение исключительно примерное, то есть пропорции могут изменяться, но я предполагаю, что не сильно. Получившийся план и пропорции — результат по сути двух действий курса «Как (не)читать книги»: анализ оглавления и формулирование запроса к каждому из разделов.

Я решил использовать первую книгу для «прошивки» статистического и исследовательского мышления в голову, а вторую как молоток, которым я статистическое мышление буду практически проверять (обстукивать).

Изучение описательной статистики

Это фундамент, который поможет мне «понимать» данные. Первая книга (гл. 1-4) объяснит мне про типы переменных, интервалы, пропорции, тенденции и вариативность. Я смогу лучше разобраться в том, что такое популяция и выборка и как их «подружить» друг с другом. А вторая книга — это прям инструмент. С помощью блокнота Marimo (во второй книге используют Jupyter, но это не принципиально) я буду учиться строить гистограммы и считать среднее, вариативность, пропорции, изучением которых я занимался в первой книге. Пойму наконец, что за библиотека такая pandas и так далее.

Цель этого этапа — увидеть, как формулы, о которых написали в первой книге, выглядят в виде кода пайтон.

Вероятность и распределения

В этом блоке я ожидаю много проблем. Первая — это математика, подтягиванием которой займусь в школе, когда «раздобуду» себе учителя, а вторая — методическая.

Дело в том, что в первой книге (гл. 5-6) представлена классическая теория стат. исследования, а во второй (гл. 3-6) — вычислительный подход. И мне нужно будет «преодолеть» методический разрыв, когда требуется «неподвижную» теорию «натянуть» на «мобильную» практику.

Это самый «интересный» блок с точки зрения «задачи педагога»: совместить мышление на основе данных (вторая книга) с идеальными условиями, о которых говорится в теоретическом материале из первой книги.

Проверка гипотез

Проверка гипотез — как раз то, чему я на самом деле хочу научиться. Обратите внимание, насколько основная часть идет «не сразу». Мне крайне важно подготовиться к ней. Хоть сейчас я и занимаюсь проверкой всяких гипотез в своих «местечковых» исследованиях, я уверен, что если подойти основательно, так, как я предлагаю сейчас, то результаты «проверок» будут более убедительными. Чтобы преодолеть этот этап, мне требуется прочесть в первой книге разделы, посвященные проверке гипотез (гл. 7-11), понять логику p-value (не могу сказать, что я сейчас ее не понимаю, но академический подход, скорее всего, откроет новый смысл), изучить теорию относительно ошибок в гипотезах. В социальных исследованиях (педагогика, психология) понимание ошибок критически важно, чтобы «случай» не принять за «подтвержденную» гипотезу.

В то время как первая книга снова учит теории, вторая — практике, и подходы, описанные во второй, радикально отличаются от подходов первой. Там, где первая через формулы учит параметрическим тестам, вторая учит симуляции, что, на мой взгляд, ГОРАЗДО интереснее. Это так называемый бутстрап. Тем не менее в научном дискурсе «привычен» параметрический подход.

Я многого ожидаю после освоения этой части, например, попробую написать парочку научных статей не на основе тестов, а на основе симуляции: «что будет, если…».

Эксперименты и взаимосвязи

К этому моменту я надеюсь, что смогу подружить теорию и практику: первая книга научит логике корреляций и предсказывать результаты (гл. 15-16), а вторая — линейной регрессии. Но тут включается линейная алгебра, и я опять ожидаю сложностей с математикой. Плюс я не знаю, как проводить дисперсионный анализ, который описан теоретически в первой книге (гл. 12-14), но нет описания, как это делать с помощью пайтона. Придется, скорее всего, искать для этого другую книгу.

Обработка естественного языка

Это отдельный блок, и этого я вообще не касался, просто потому что «некогда». Я буду учиться параллельно, методом проб и ошибок, изучая по мере необходимости всякие библиотеки, например pytorch, и пытаться что-то сделать. Но обработка естественного языка, хоть, по сути, интересна, не является первоочередной задачей.

П.С. Я уже начал работать по этому плану и могу сказать, что мне он нравится, наблюдаю за результатами.


BIO

🧠 theBrain mapping

ID: 202601081419 Source:: Friend:: Child:: Next::

Keywords:

Reference: