Кто есть кто в джедайском старте, или Как я учился анализировать естественную речь

В общем, дело было так: уже пару месяцев я активно обучаюсь методам статистического анализа. Сначала я делал это методом «научного тыка», потом более академично, с использованием книг, разработав себе программу обучения. Разбираюсь в коде Пайтона, параметрических тестах и вычислительной статистике. В общем, примеряю ко всему подряд свои «аналитические» умения как могу.

Однако существует одна категория данных, которая никак не дается мне — вернее, поддается, но мне все равно сложно понять, как с ней работать. Какие библиотеки использовать, какой алгоритм анализа и т.д. Это естественный язык.

И вот в первых числах января «подвалило» счастье, а именно очередная порция данных от участников нашего спринта.

У нас есть традиция: каждый новый спринт рассказывать о себе. Кто-то в Новый год ходит в баню, а мы вот рассказываем о себе. Так случилось и в этот раз: прислали мне 118 ответов участников нашего трехмесячного марафона, в которых они говорят, кто они, зачем сюда пришли, и описывают уровень их джедайской зрелости (который мы измеряем, спросив, читали ли они книгу или нет, пробовали ли какие-то техники). Что у них получается хорошо, а что нет. В общем, ответы — «та еще история в нескольких актах». Читать интересно, но как анализировать — непонятно.

Подобные опросы-«представления» существуют в первую очередь для того, чтобы участники малых групп знали, с кем в компании они оказались. Ну и в целом банально вежливо представиться перед трехмесячным путешествием по пустыне продуктивности. Пустыня она еще и потому, что многие современные профессионалы являются выгоревшими профессионалами. Да, если что, и на это утверждение у нас тоже есть что «предъявить». Мы все анализируем. Но вернемся к насущному опросу.

Немного деталей:

Дата проведения: 1–7 января 2026 года

Место: онлайн с помощью бота.

Форма: сообщение с тегом “осебе”

Содержание: имя, возраст, увлечения, читал «Джедайские техники» или нет, пять слов о себе, какая цель на марафон.

Из формата опроса можно догадаться, что он крайне шумный и вообще никак не структурированный. То есть для того, чтобы понять, что нам написали, нужно прочитать 118 ответов объемом от 50 до 250 слов. Текст мало прочитать, его еще нужно проанализировать, а человек, мягко говоря, сомнительное средство анализа. Во-первых, потому что интерпретировать каждый будет по-разному, а во-вторых, интерпретации даже одного и того же человека будут отличаться в зависимости от его состояния. Другое дело компьютер: математика не ошибается, и железка не устает. Поэтому средствами анализа стали: Python, Marimo notebook, FastText (векторная модель эмбеддингов), гибридная классификация (ручная подстановка слов) ну и всякие средства визуализации, например векторов, и всякие прочие plot’ы.

Перед тем как сказать, что FastText и векторный анализ для малого объема текста — это чересчур, я сам скажу: да, чересчур. Но очень уж мне хотелось попробовать эту вундервафлю, и мне понравилось.

Немного о том, зачем такой анализ нам нужен: мы хотим наглядно показать всем, кто записывается в «младшую» программу, что в этом нет ничего особенного и возвращаться, так сказать, к истокам, пересматривать свою систему является нормальной практикой. Спойлерну: нам это удалось. В младшей программе всего 48% новичков, 52% — это те, кто пробовал, пытался что-то сделать, у кого уже имеется система и он просто хочет ее «пересмотреть», обновить и так далее.

Теперь к тому, как выглядел весь процесс.

Загадка

Первой и самой большой сложностью является то, что данные ненадежные. Когда джедай говорит, что владеет «силой», он представляет себя магистром Йодой, ну, на худой конец, Оби-Ваном, тогда как на самом деле он еще падаван.

Джедай первого уровня может написать «Я прочитал книгу» или «Что прочитал, но в книге ничего особенного, суть можно сформулировать одним предложением», предполагая безграничное владение «силой». В то время как джедай второго или третьего уровня напишет: «моя система рухнула», подразумевая неудачу. Хотя формулировка «моя система рухнула» говорит о компетенции значительно больше, чем «я прочитал книгу». Когда что-то рушится — это значит, что как минимум была или есть попытка систематизировать задачи, проекты, расписание в календаре.

Именно потому, что речь «многогранна» и «многосмысленна», нам и нужен математический способ «вскрыть» смысл написанного и классифицировать всех 118 джедаев джедайского старта от первого уровня (который в моей математике стал нулевым) до пятого (который превратился в четвертый) без «ручного» чтения.

Однако прочесть все равно пришлось, потому что 34 джедая удалили или модернизировали эмодзи, которые я планировал использовать для «вырезания» текста, предполагаемого к анализу (находившегося между двумя эмодзи 🪴...🎯).

Методология, или Балет в трех актах

Пайтон, блокнот Маримо и всякие библиотеки стали моей любимой игрушкой последних месяцев. Поэтому написать простой скриптик я считаю скучным — мне хочется ковыряться с новыми игрушками как можно дольше и как можно «извращенней». Имея такое желание, решил я построить фильтр из стоп-слов, ИИ-векторов и уникального набора ключевых слов, на который направлю векторы.

Вообще сначала была идея использовать только лишь ИИ, но фокус не удался: у меня получалось от 70 до 90 джедаев с сомнительной «ориентацией» — то ли первый уровень, то ли пятый. Разброс конский, поэтому пришлось включать двухуровневую фильтрацию.

Акт первый. Векторное пространство

Для «создания» векторного пространства я использовал открытую модель FastText, которая превращает слова в 300-мерное пространственное поле. Как это работает — ХЗ, но как-то работает. Идея заключалась в том, чтобы слова с одинаковым смыслом соотнести с якорями (о них в следующем абзаце). Например, в 300-мерном пространстве слова «хаос» и «бардак» находятся рядом, а в нашем контексте несут одинаковый смысл.

Далее к каждому уровню джедайства нам нужно было «наколхозить» некоторый набор ключевых слов, за которые векторы зацепятся. Я пробовал разные варианты, от относительно простых:

До навороченных, где по три предложения на один уровень:

Но ни один не выдавал результат, при котором джедаев с «сомнительной» ориентацией было бы меньше 60, а этого, как бы, очень много на выборку в 110 касок. Когда я начал разбираться, почему так происходит, то заметил, что векторы ломаются на следующих предложениях: «Я не читал книгу» и «Я читал книгу».

Математически эти два предложения в 300-мерном пространстве находятся очень близко друг к другу. FastText понимает суть предложений, но не понимает «негативную коннотацию».

Ладно, подумал я, сейчас мы «извратимся», и пошел колхозить классификатор.

Акт второй. Как я построил Киборга

Чтобы как-то развеяться и взбодрить мозг, я пошел смотреть «Добро пожаловать в Дерри». Ужасы Пеннивайза помогли. В результате я решил разделить ответственность: оставить ИИ (художнику) 300-мерное векторное пространство и способность работать с абстрактными словами и понятиями, такими как «стресс», «привычка», «состояние потока», но при этом создать правило поиска специфических «свидетельств», например словосочетания «не читал» и слова «забросил». Правило простое: если в тексте есть слово или словосочетание, которое откровенно указывает на то, что человек «определенного» уровня, ИИ, работающий с абстракцией, не включается, и джедая классифицируют в соответствии с правилами.

Получилось, что половина джедаев была рассортирована ИИ, в то время как другая — набором правил. А теперь пора проверить, правильно ли они рассортированы.

Акт третий. Проверка

Вопрос проверки, всё ли у нас верно, стоит как нельзя кстати. Мне сложно понять, что измерять, и поэтому я взял на себя смелость обратиться к ИИ с моим запросом и попросить помочь проверить получившийся результат. Решение мы нашли: у нас будет одна визуальная, другая интуитивная проверка.

Для простоты я попробую привести аналогию школьной столовой и детей разных классов: начальная школа, средняя и старшая. Если я как дежурный буду стоять в столовой, мне практически невозможно определить, кто с кем находится, для меня это будет месиво из детей. Но если я поднимусь на этаж выше и посмотрю, как дети передвигаются, то смогу легко выяснить, какие классы где находятся. Потому что старшие дети могут передвигаться самостоятельно, а младшие — под присмотром классного руководителя. Дальше — больше: если приглядеться к старшим детям, среди них можно безошибочно распознать, кто чем увлекается, какое им свойственно поведение и так далее.

То же самое мы сделаем с 300-мерным пространством ИИ: мы расположим джедаев по уровням и посмотрим, какие «кучки» они образуют и получается ли «движение» от первого до пятого уровня, в смысле — как будут расположены кластеры.

Если детально анализировать карту выше, то можно заметить, что у нас на самом деле не 5 уровней, а три.

Помните якоря, которые мы «устанавливали» во время первого акта? Всё, о чем дальше пойдет речь, связано именно с ними.

Первый, второй и третий уровни (нулевой, первый и второй) джедайства характеризуются словами: читал, книга, видео, хочу. Семантически первый-третий уровни очень близки друг к другу, а математически (если оценивать по векторам) идентичны. Джедаи первого уровня говорят «Я купил книгу» или «Я хочу прочесть книгу», джедаи третьего уровня — «Я прочел книгу». И у первого, и у второго уровня одинаковый шаблон поведения: потребление контентика, который создает иллюзию понимания. Оба уровня сосредоточены на информации, а не применении, иначе говоря, они пока еще «туристы» в мире продуктивности.

Четвертый уровень — это немного уже иное, тут слова начинают изменяться: периодически, держаться, частично, возвращаюсь. Я бы сказал, что четвертый уровень — наиболее критичный. Обратите внимание, как изменились слова: от существительных к глаголам. Книга, видео, хочу → держаться, частично, возвращаюсь. Если читать ответы четвертого уровня, то можно подумать, что у них неудача за неудачей, однако это не так. Их неуспех — это индикатор того, что они действуют; они перестали читать, а пытаются действовать, вооруженные новым знанием. Нельзя «всё развалить», если не построить в начале.

Пятый уровень, тут словарь еще больше трансформируется: работает, внедрил, стабильно, задачи. Я бы называл этот словарь «скучным», здесь минимум эмоций, нет превозмогания, борьбы. Например, слово «работает» у них появляется шесть раз, слово «стабильно» два раза. Они перестают думать о техниках, вакцинах и индикаторах и начинают — о проектах, задачах и прочем джедайском.

Почему когда все развалилось – это успех

Я бы сказал так: если у вас «все развалилось», то вы на верном пути. Сейчас поясню почему. Наша семантическая двумерная карта 300-мерного векторного пространства наглядно показывает, как учится человек. Разрыв между «знаю» и «умею» существует. То, что первый, второй и третий уровни пересекаются, явно об этом сигнализирует. Даже если у нас есть интеллектуальные компетенции (то есть мы знаем что-то), это не трансформируется автоматически в поведенческие компетенции. Иными словами, даже если запомнить наизусть все вакцины из «Пути Джедая» и говорить правильные слова, когда вам задают вопросы, математический анализ произнесенных или написанных слов выдаст в вас падавана, а не джедая.

Другое открытие для меня не совсем открытие, но все-таки приятно получить этому математическое подтверждение: стресс — это не баг, а фича. Если посмотреть на джедаев четвертого уровня (тех, кто возвращается и у кого что-то частично держится), то по карте они «разбросаны» между уровнями. Я бы сказал, что Путь Джедая лежит через хаос, страдание, неуспехи и возвращение в начало. Поэтому даже те, кто считал, что построил свою систему управления делами, но пришел в «старт», находятся на верном пути. Пути Джедая.

Мастерство молчаливо. Вроде как поэтично, но на самом деле так и есть: джедаи пятого уровня избегают эмоциональных слов, вместо «надеюсь», «пытаюсь», «хочу» они используют глаголы действия — «работает», «внедрил».

Очень важное послесловие

Друзья, как бы похоже на правду все сказанное выше мне не казалось, датасет очень маленький, грязненький, и векторы на таких «крошечных» объемах текста не строят. Но этот эксперимент, пусть не самый чистый, помог увидеть новую для меня грань, как еще можно анализировать естественную речь и в целом шумные данные.

А мы будем, скорее всего, этим заниматься и в какой-то момент сможем подобрать алгоритм и инструменты, которые смогут точнее обучать наших джедаев.

Постскриптум

Я немного поигрался с визуализацией данных и, чтобы не быть голословным, покажу вам, что пишут джедаи разных уровней и где они расположены на карте.

Важно: движение к «мастерству» — это перемещение с левого верхнего в правый нижний угол карты, как у нас ровно и получается.


BIO

🧠 theBrain mapping

ID: 202601091244 Source:: Friend:: Child:: Next::

Keywords:

Reference: