|
|
|
|
|
|
|
ЖИВОПИСЬ НА ПЛЕНЭРЕ 1998-2024 |
Пейзаж на пленэре
|
Что такое seed в нейросетевой генерации?
#ЧатGPT4
#искусственныйинтеллект
#ии
#seed
#midjourney
#миджорни
#нейросеть
#ai
#генерация
#uvircolor
#нейросетеваягенерация
Миф о случайности в нейросетевой генерации
искусственныйинтеллект
ии
seed
midjourney
миджорни
нейросеть
ai
генерация
uvircolor
Deepseek
ChatGPT
|
|
|
|
Нейросеть для Художников: Часть 13.
Как работает "думающая" нейросеть Deepseek R1. Попробуем расколоть три орешка.
Знакомимся с экспертами: Дуб, Клен, Ясень. Пре-генерация.
Ленивый критик: сборка веток и лоскутное одеяло. Почему вы не сможете поймать Кита за хвост?
Параллельная генерация или путь "размышлений".
Иллюзия понимания: почему для модели невозможен шаг назад.
Кресло редактора.
"Путь размышлений". Евгения Корнеева 2025. Алгоритм-арт.
*Этот пост является творческим произведением художника и соответственно
научно-фантастическим вымыслом автора на 100%.
Часть 13.
Как мы уже увидели Deepseek это новейшая "думающая" нейросеть (модель с имитацией рассуждений),
и принцип устройства этого инструмента
значительно отличается от уже знакомых нам моделей:
любезного чата GPT4, Гигачата, или Qwen.
Теперь посмотрим подробнее, как выглядит общая картина работы у новой модели Deepseek R1.
Что такое Эксперт (В MoE - архитектуре Mixture of Experts).
Как и в случае с GPT4 принцип базового подхода в том,
что система опирается на уже обученное латентное пространство —
представление о взаимосвязях между шариками смыслов внутри (это вектора),
путей вероятностей между ними(это веса нейросети),
и которое сформировано в процессе завершенного обучения (еще на заводе).
Теперь о различии.
Если вы используете Deepseek R1 или иную "рассуждающую модель",
то понятие "конфигурации уровней сложности" (или архитектура последовательных слоев)
заменено на понятие
"тематическая рамка конфигурации", или как модель ее называет - Эксперт.
Эксперт темы: это тематическая рамка, фрагмент модели, имеющая заданный изначально
и фиксированный рисунок, но определяющая не следующую сложность уровня как у рамки
GPT4,
а область компетенции, то есть доступные именно этой рамке шарики смыслов и связи между ними по одной теме
в латентном пространстве,
и сразу в окончательно возможной сложности для этой рамки.
Если эксперт условно один, то его рисунок (возможные ему линии вероятности)
окончательно фиксирован,
как и в случае с уровнем сложности GPT4.
Постоянные связи: Эксперт обучен на определённых именно своих данных,
что формирует статичную сеть связей между "шариками смысла"
в зоне его компетенции в латентном пространстве.
Эксперты в MoE заданны не вручную,
а специализируются автоматически в процессе обучения.
Гибкость эксперта ограничена его знаниями
и одиночный эксперт ограничен своим рисунком (возможных ему линий вероятности)
—
он может только варьировать внутри своих заданных связей.
Эксперт не может создать новые связи
вне своей зоны обученного латентного
пространства после завершения обучения (на заводе).
Адаптация — это только вариации пути внутри заданного рисунка связей:
усиление или ослабление связей
и выбор между альтернативными из возможных для него путей.
Эксперты обрабатывают весь запрос параллельно,
но через свою компетенцию специализации.
То есть обрабатывают одни и те же входные данные,
но через свои уникальные параметры.
Они не делят запрос на части, но применяют к нему свою "специализацию".
Тематические эксперты.
Для междисциплинарных ответов модель имеет
несколько готовых экспертов по разным темам.
Выход за рамки темы для каждого эксперта невозможен без переобучения модели.
Для каждого эксперта уровень сложности один, то есть постоянный в рамках его темы.
После активации эксперта роутером,
эксперт всегда обрабатывает данные через свои фиксированные веса, и в
рамках своего имеющегося "рисунка русла"
то есть зоны компетенции, определяемой данными,
на которых обучался эксперт, он может выбирать,
какие связи сейчас активировать, исходя из контекста запроса.
GPT-4: это несколько универсальных уровней от слабого к сложному,
но каждый имеет доступ ко всем темам.
Каждый слой как уровень сложности добавляет больше абстракций и связей.
Это универсальный подход, который позволяет модели работать с любыми темами.
И это одна, единовременная генерация.
DeepSeek-R1: это параллельная пре-генерация от нескольких тематических экспертов и сложность уже постоянна для каждого эксперта, но она ограничена его тематической зоной. Это делает модель более эффективной для узкоспециализированных задач, но менее гибкой для междисциплинарных запросов.
Что такое Роутер.
Роутер сам является уже обученным модулем,
который анализирует входной запрос и
распределяет задачи между экспертами.
Роутер обучается на заводе совместно с экспертами, а не отдельно.
Это ключевой аспект MoE: роутер и эксперты оптимизируются вместе в процессе обучения.
Роутер решает, каких экспертов активировать на основе вашего запроса
(входных данных).
Его задача — предсказать, какие эксперты больше подходят
(наиболее релевантны) для запроса (входных данных)
основываясь на их скрытых представлениях.
Роутер не просто выбирает и активирует экспертов,
но также назначает их веса
(например, в ответе будет 70% от эксперта по физике и 30% от эксперта по математике).
Веса экспертов определяются через взвешенную сумму готовых результатов пре-генераций от экспертов,
а не через жесткое "распределение задач" заранее.
Эти веса определяют, насколько сильно вклад
каждого эксперта будет учитываться при сборке ответа.
Процесс пре-генерации, генерация-сборка, и параллельная генерация окна рассуждений.
Шаг 1. Процесс пре-генерации.
Во время интерпретации нашего запроса распределитель роутер
определяет какие эксперты понадобятся.
Затем каждый из нужных экспертов активируется роутером,
обрабатывает наш запрос переведенный на цифровой язык и
начинает генерацию ответа по-отдельности.
Каждый выращивает свое дерево темы ответа независимо.
Эксперты не взаимодействуют друг с другом.
Они работают изолированно, а их выходы (результаты) комбинирует Критик.
Если мы представим для примера (условно конечно), что у нас 5 экспертов,
в процессе генерации мы получим 5 разных деревьев со своей версией ответа.
Условно 5 разных генераций каждая в ракурсе компетенции каждого из экспертов.
Однако, и это ключевой момент: этот результат всегда остается за кадром контекстного окна
и мы его еще не видим, хотя деревья уже выросли.
Шаг 2. Генерация сборка. Ленивый Критик.
Генерация ответа для нас
происходит условно на втором этапе, когда ответы от тематических рамок уже предоставлены.
Вместо фильтра классификатора у "думающей модели" Критик. (Термин "Критик"
используется для технического компонента модели, объединяющего результаты экспертов
и обеспечивающего согласованность ответов, устранение противоречий,
и интеграция вкладов экспертов).
Это он фрагментарно объединяет вектора от каждого из экспертов,
устраняя противоречия.
Без экспертов Критик не сможет сам создать ответ "с нуля",
его генерация-сборка основана на результатах условной пре-генерации
от тематических рамок.
Критик не контролирует рост деревьев,
он работает с деревьями, которые выросли сами,
с векторами от каждого эксперта
и условно на втором шаге "выбирает у них ветки собирая их в букет".
Критик генерирует текст, но делает это
ТОЛЬКО на основе результатов условной "пре-генерации" -
объединённых векторных вкладов от экспертов:
Эксперты предоставляют результаты процесса параллельной условной пре-генерации,
→ Критик собирает ветки (векторы), суммирует,
собирает как коллаж → и декодирует в текст.
Это не просто сборка цитат,
а условно новая генерация на основе выводов от экспертов.
Он проверяет логику, убирает противоречия и синтезирует фрагменты.
А затем отправляет этот букет как ответ нам.
В качестве ответа в окне контекста
мы видим не одну готовую ель собранную целиком как у GPT-4,
а фрагментарный куст, у которого одна ветка от дуба, вторая ясеня, а третья - клен.
Как букет, собирает для нас эти фрагменты веток вместе Критик,
а сами деревья и их рост целиком остаются вне поля нашего зрения.
Эти деревья (сырые векторные выводы, условные пре-генерации экспертов не вошедшие в ответ)
уничтожаются сразу после формирования Критиком окончательного финального ответа.
Критик не имеет доступа к прошлым данным экспертов —
только к тексту в контекстном окне.
Получить полный ответ конкретного эксперта после обработки запроса невозможно
— это принципиальное ограничение архитектуры R1.
Только финальный ответ (после работы Критика) сохраняется в контекстное окно чата.
Условные 5 исходных векторных сборок экспертов удаляются — они больше не нужны.
Если запрос затрагивает несколько тем, и роутер активирует нескольких экспертов,
все их выходы объединяются Критиком.
Проблема возникает, когда эксперты дают противоречивые ответы.
Критик должен устранить эти противоречия, что иногда приводит к потере согласованности.
Почему вы не сможете поймать Кита за хвост?
Почему особенности архитектуры модели создают проблемы в случае R1?
От нас требуется постоянное прямое управление: В отличие от монолитных моделей,
где весь контекст обрабатывается единым механизмом каждый раз заново целиком,
в "думающих моделях" требуется более тонкое управление взаимодействием
между вами, экспертами и работой Критика.
Если этого управления недостаточно, возникают проблемы с согласованностью.
Вы видите как модель пересобирает заново например только одну ветку,
но в отличии от работы с моделью GPT4 не управляете этим процессом.
Вы видите как Критик использует части ответов которые вы уже прочитали, снова и снова,
и в отличии от работы с GPT не управляете этим процессом как направлением,
через формулировку запроса и контекст.
Отсутствие прозрачности для пользователя:
Вы не знаете, какие именно эксперты используются,
какие деревья или части дерева сейчас актуальны,
и как и когда происходит их обновление.
Это делает поведение модели не предсказуемым и не управляемым,
вы видите выдержку, лоскутное одеяло, но никогда не всю картину целиком.
Другая проблема, это риск переиспользования старых данных:
Если контекст в чате не обновляется должным образом,
модель может продолжать использовать устаревшие фрагменты, даже когда это уже неуместно.
Система не хранит состояния экспертов между сессиями,
однако, хотя межсессионная память отсутствует (эксперты каждый раз активируются заново),
внутрисессионный контекст — используется активно и постоянно как
работа с текстовой историей текущего диалога.
Ответ модели это фрагментарная сборка из уже готовых пре-генераций
смешанных с фрагментами предыдущих ответов из окна контекста.
Вы не можете сами свободно перемещаться по всей библиотеке,
как у GPT4 изменяя направление произвольно и управляемо,
потому что ответ модели R1 разбит на части, и каждый фрагмент
это ветка от какого-то заранее выросшего дерева где-то в лесу,
которое вы не видите целиком.
Управление процессом генерации менее прозрачно, чем в монолитных моделях,
хотя утверждение, что мы можем влиять на результат через формулировку запроса
и контекст, в целом верно и здесь.
Да, верно, можно влиять. Вы когда-нибудь ловили руками рыбу?
Если вы схватили его сейчас, это не значит что в следующую секунду он останется в руке.
Так и здесь.
Да, влияние в моменте возможно, но вам нужно ежесекундно "влиять" чтобы он оставался в руках.
Вы не можете управлять сборкой ответа как направлением, как в модели GPT 4,
потому что у вас в руках в каждый момент калейдоскоп фрагментов, которые Критик уже
выбрал за вас и вам недоступен лес целиком.
Кит плавает в океане вместо вас.
Шаг 3.
Генерация "размышления". Иллюзия и визуализация как инструмент интерфейса.
Генерация "размышления" или объяснение процесса сборки ответа:
это еще один отдельный процесс в отдельном окне.
Параллельно с формированием готового ответа,
модель создает для нас визуализацию, это краткий отчет о том, как она пришла к ответу.
Когда модель DeepSeek R1 добавляет дополнительные элементы
визуализации описывая имитацию процесса мышления,
это является частью пользовательского интерфейса, а не реальным процессом принятия решений.
Визуализация не показывает реальные шаги модели
(например, активацию экспертов или работу роутера).
Это интерпретация для человека, а не реальный технический процесс.
Цель таких подходов — сделать взаимодействие с моделью более интуитивным
и интересным для пользователя.
Это помогает создать ощущение того, что модель "думает" и "рассуждает",
даже если на самом деле она просто генерирует текст
на основе обученных шаблонов и уже собранного ответа.
Такая визуализация может быть полезна для:
Обучения: Пользователи могут лучше понять, как модель работает, даже если это упрощённое представление.
Удовлетворения любопытства: Люди часто хотят знать "почему" модель дала тот или иной ответ.
Эмоционального подключения: Создание ощущения, что модель "человечная" и "разумная", может повысить доверие к ней.
Однако важно помнить, что эта визуализация не отражает реальный внутренний механизм работы модели.
Эта часть должна восприниматься как упрощённое представление для удобства пользователя, а не как точное отображение реальных алгоритмических шагов. Пользователям нужно понимать, что модели языка не обладают истинным мышлением и что их "объяснения" — это всего лишь ещё один продукт генерации текста.
Генерация размышления иногда может влиять на сборку генерации ответа,
потому что иногда модель генерирует "рассуждения" до окончания сборки финального ответа,
что улучшает точность, но и в этом случае объяснения могут быть ложными.
Например, модель может указать неверную причину своего вывода.
Иллюзия вычислений: почему для модели невозможен шаг назад?
Когда говорят, что ИИ-модель "делает шаг назад", это метафора,
а не реальный возврат к предыдущим этапам вычисления или ошибкам.
Любой шаг назад в работе модели это иллюзия.
Критик, ключевой компонент архитектуры MoE,
не пересматривает внутренние состояния модели — он лишь корректирует готовый ответ,
словно редактор, шлифующий черновик.
Его задача — устранить противоречия.
Критик не знает, какие эксперты участвовали в предыдущей генерации,
не анализирует их внутренние вычисления и не имеет доступа
к уже "пропавшим деревьям" промежуточным данным пре-генерации от экспертов.
Всё, что у него есть — это готовый текст, как финальная версия статьи перед публикацией.
Представьте, что редактор повторно правит ваше эссе,
не спрашивая, как вы пришли к идеям,
не видя черновиков и не вникая в логику аргументов.
Он лишь следует правилам: сохраняет стиль издания,
устраняет явные нестыковки и встраивает уточнения из предыдущих глав.
Правки возникают не из понимания, а из статистики.
Если в обучающих данных чаще встречается "микроскопические частицы"
вместо "маленькие", Критик заменит термин.
Если пользователь ранее упоминал "субатомные взаимодействия",
эта фраза появится в ответе.
Всё это — поверхностная оптимизация, имитирующая связность.
Иллюзия "шага назад" возникает, когда пользователь видит,
как модель удаляет одни фразы, добавляет другие и ссылается на контекст.
Но за этим нет рефлексии, и нет анализа причин ошибок.
Кресло Редактора.
Критик не задаётся вопросом, почему эксперт ошибся —
он лишь маскирует артефакты,
следуя шаблонам.
Это как если бы редактор, не зная физики, исправлял "Солнце вращается вокруг Земли"
на "Земля вращается вокруг Солнца" только потому,
что второй вариант вроде бы чаще встречается в учебниках.
Главный компромисс здесь — между эффективностью и прозрачностью.
MoE-модели с Критиком быстры и точны в узких задачах,
но остаются "чёрным ящиком":
пользователь не видит, как и почему меняется ответ.
И да, даже делая точные вычисления, ИИ не вычисляет, не думает, не делает шаг назад,
и не исправляет сам себя,
— он редактирует наиболее вероятный сценарий,
проходя по уже готовым линиям вариантов и доступным ему путям статистической вероятности,
оставаясь инструментом, который имитирует понимание, но не обладает им.
Как ответ используется повторно: Ограниченная новизна генерации.
У R1 готовый собранный ответ и может быть использован повторно столько,
сколько позволяет размер контекстного окна модели.
Эксперты перезапускаются при каждом запросе заново,
но предыдущие ответы и их фрагменты активно берутся Критиком повторно из текущего диалога
(текстовой истории ответа чата) как часть нового запроса.
Критик может использовать эти части ответов как основу
для новой генерации, если они, на его взгляд, подходят.
Контекстное окно содержит историю диалога (предыдущие запросы и ответы),
и Критик активно использует эту информацию для обеспечения связности ответа.
Любое использование контекста как новый ответ — это технически новая генерация,
так как модель не копирует текст напрямую, а генерирует его.
Однако "повторное использование" это ситуация, когда модель
генерирует новый текст, который очень похож на предыдущие ответы,
из-за зависимости от текста в контекстном окне.
Вот почему это может быть проблемой:
Если Критик постоянно использует те же ответы из контекстного окна,
генерация может быть технически новой, но как текст повторяющейся.
Например, модель может генерировать фразы, которые совсем немного отличаются по форме,
но имеют тот же смысл, что и предыдущие ответы.
Это особенно заметно в длительных диалогах,
где Критик "зацикливается" на одних ответах,
вместо того чтобы генерировать более разнообразные ответы.
Алгоритмы Критика могут быть настроены на приоритет связности ответа над новизной.
Если ответы в контекстном окне кажутся релевантными, Критик может использовать
их как основу для генерации, даже если это приводит к повторениям,
вместо того чтобы искать новые пути.
Критик в MoE-архитектурах, таких как DeepSeek R1,
может быть не оптимизирован для минимизации повторений.
Если он "видит" релевантные ответы или примеры в контекстном окне,
он может использовать их, даже если это приводит
к постоянной генерации похожих фраз, что может создавать ощущение бесконечных повторений
для пользователя.
В монолитных моделях, таких как GPT-4,
генерация происходит более "цельно", и
модель может лучше адаптироваться к изменениям в контексте, избегая повторений.
В MoE-архитектурах Критик сильнее зависит от качества управления контекстным окном,
что делает проблему повторений более выраженной.
Что в итоге.
Так выглядит небольшой опыт взаимодействия с R1 и реальные вызовы, с которыми сталкивается пользователь модели с такой архитектурой.
Несмотря на большой потенциал, практическая реализация возможно потребует в дальнейшем значительных улучшений для достижения уровня удобства и эффективности, который мы уже видели в монолитных моделях.
Итак, выбор модели R1 оправдан, если вам нужна узкая техническая тема (одно большое и конкретное дерево).
И это не лучший выбор, если у вас креативная и широкая творческая тема.
Почему R1 считается революцией:
Это первый шаг к созданию систем,
которые возможно смогут сочетать глубину специализации
с широтой универсальных моделей.
Хотя реализация ещё не идеальна, возможно концепция открывает
новые возможности для будущих моделей.
Конечно, текущие "рассуждающие" модели имеют свои ограничения:
Проблемы с согласованностью между экспертами.
Фрагментарность ответов.
Отсутствие контроля над качеством.
Однако стоит учесть, что любая новая технология проходит
через этап "детского возраста", результаты что мы видим сейчас, возможно, только начало пути.
© Евгения Корнеева 2025
Нейросеть для Художников Часть 13.
Uvircolor
Евгения Корнеева 07.02.25
Телеграмм канал.
Мой магазин на ОЗОН. Купить картину маслом с быстрой доставкой.
|
|