16+

Уже несколько месяцев не утихает шум вокруг открытой китайской модели искусственного интеллекта под названием DeepSeek. Что это такое? Как установить её себе? Круче ли она творения Сэма Альтмана? Давайте разбираться!

Новая нейронка появилась в 2015 году. Три инженера из Чжэцзянского университета основаLLN ли хедж-фонд High-Flyer, среди них был Лян Вэньфэн, ставший впоследствии руководителем проекта DeepSeek, который он финансировал как раз через этот фонд. DeepSeek-V2 вышел в мае 2024 года и тут же послужил причиной ценовой войны моделей искусственного интеллекта в Китае, предлагая высокую производительность по низкой цене. Именно из-за неё крупным игрокам рынка вроде Tencent, Baidu и Alibaba, пришлось снижать цены на свои модели искусственного интеллекта.

К январю этого года DeepSeek смогла создать ИИ с возможностями, не уступающими детищам технологических гигантов США, но, как заявлено, на менее мощных чипах и за малую часть стоимости. Однако действительно ли китаец обгоняет детище Сэма Альтмана? Сравнивать модели мы будем по количеству параметров, токенов и длине контекста. Грубо говоря, параметры – это мозг ИИ, определяющий алгоритмы принятия решений, токены  — фрагменты текста, на которых языковая модель учится, чем их больше – тем умнее модель. Для русского языка один токен равен двум-трём символам (разные источники указывают разное значение, также показатель зависит от стиля языка, а именно от длинны слов). Синий кит имеет 671 млрд параметров и обучена на 14+ трлн токенов, а у топовой ChatGPT 4 – 1.7 трлн (в 2.5 раз больше, чем у DeepSeek), количество токенов компания не раскрывает. Значит ли это, что всем известный чат в два раза умнее? Нет. Дело в том, что при обучении DeepSeek применялись алгоритмы обучения с подкреплением. Это — когда нейросеть проверяет и перепроверяет свои же ответы, корректирует и верифицирует их (то есть убеждается в их достоверности). Суть инновации китайской компании, позволившей ей сэкономить огромные деньги.

Не менее важным сравнительным показателем является контекст: условно это то же самое, что память. Количественный показатель контекста определяет, сколько текста модель понимает без потери смысла. Так вот, по этому показателю детище Open AI проигрывает синему киту. У GPT-4 в нерасширенной версии длинна контекста составляет 8192 токена (в расширенной до 32 000), длинна контекста же китайской модели – до 128 000 токенов, что в четыре  раза больше. Но важно не путать контекст: сохранение смысла внутри диалога, а не запоминание ключевой информации из предыдущих разговоров. В этом смысле DeepSeek на данный момент не имеет памяти, в отличие от детища американской компании.

бесплатный ChatGPT 4

Известно, что синий кит обучался в том числе на текстах, созданных чатом GPT, выяснилось это следующим образом: в ряде тестовых запросов китайский ИИ представлялся как свой западный коллега!

Что же касается недавнего скандала с утечкой данных – и на это у фирмы разработчика есть ответ:  китайская модель выложена в открытый доступ, любой может скачать её и запустить на своём компьютере, откуда данные уже точно никуда не денутся. Этим мы сегодня и займёмся.

бесплатный ChatGPT 4

Для начала установим LLM-Studio. Просто заходим на сайт и кликаем на ссылку для нужной операционной системы. Думаю, в большинстве случаев в наших широтах это будет Windows. Запускаем скачанный файл и устанавливаем так же, как и любую другую программу. После запуска щёлкаем по кнопке Get your first LLM, и буквально сразу он предложит нам скачать квантованную или же сжатую версию DeepSeek R1 7b. И вот тут стоит вспомнить о моей давней статье, где я рассказывал о квантизации, о том, что модели 7b маленькие, что чем больше миллиардов параметров —  тем выше качество текста, но тем больше требование к ресурсом. Для обычных компьютеров, в зависимости от конфигурации, рекомендуются модели от 6 до 13 миллиардов параметров. Ну, конечно, если у вас 4090 или 50-я серия видеокарт от Nvidia за 100 000 +, можно замахнуться и на большее.

Нажимаем значок с лупой и вбиваем в поиске Deepseek, ну, и, выбрав подходящую модель с нужной вам квантизацией, качаем её. Кстати, LLM-Studio сама подскажет, подходит ли выбранная модель и квантизация для вашей системы – в карточке модели будет зелёный, серый или красный значок. Зелёный – модель влезет в видеопамять вашей видеокарты, серый – частично будет использоваться процессор, красный – ищите другую. Также по личным ощущениям Модель на базе Qwen 7b лучше справляется с программированием, а на базе Llama 8b — генерирует более адекватный обычный текст. На момент написания статьи у обоих версий иногда вылезали косяки с русским языком, но в будущем их, конечно, поправят, как это было с Llama 3.

Если же никакие утечки вам не страшны – смело пользуйтесь веб-версией или приложением для Android, доступным в Google Play.

Фото: автор

Александр Меркушев

Специально для Агентства Особых Новостей (on24.media)

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *