Новые мультимодальные ассистенты на базе генеративного ИИ меняют повседневную жизнь незрячих и слабовидящих. При этом важно, что теперь не только англоязычные пользователи, но и русскоязычные люди с нарушением зрения получают всё более продвинутые инструменты для чтения текста, распознавания предметов и описания изображений. Эти помощники объединяют компьютерное зрение, оптическое распознавание текста (OCR), синтез речи и большие языковые модели, так что смартфон или специальное устройство превращаются в «говорящие глаза», способные отвечать на вопросы о сцене, читать длинные документы и подсказывать, что находится в кадре. Порог вхождения в новую эру доступности оказался удивительно низким: чтобы получить «зрячего спутника», достаточно смартфона и пары минут на установку приложения. Для русскоязычного пользователя это уже не эксперимент из лаборатории, а практичный инструмент на каждый день. И, хотя идеальных технологий не бывает, мультимодальные ассистенты стали близки к той точке, где их полезность стабильна, а экономия времени — ощутима.
Мы составили небольшой обзор тех программных решений, которые уже официально поддерживают русский язык и активно внедряют элементы генеративного ИИ в функционал для незрячих пользователей.
Envision давно позиционирует себя как универсальный OCR-ассистент, умеющий «озвучивать» визуальный мир и отвечать на вопросы о прочитанном или увиденном. Приложение может мгновенно читать печатный и рукописный текст, импортировать PDF и возвращать структурированную речь, а разработчики подчёркивают, что программа распознаёт и воспроизводит текст более чем на шести десятках языков, среди которых есть русский. Envision также развивает режимы «описания сцены» и диалогового взаимодействия, где модель не просто диктует текст, но и формулирует ответы на вопросы пользователя о содержимом изображения — это шаг к мультимодальной работе с картинкой и текстом в одном потоке. Для некоторых режимов работы и для носимых устройств Envision оговаривает различие между онлайн и офлайн-возможностями, а поддержка чтения и интерфейса на определённых языках может зависеть от платформы и наличия подключения.

Supersense — ещё один массовый игрок на мобильном рынке ассистивных продуктов: приложение позиционируется как «сканер для людей с нарушением зрения», объединяющий OCR, распознавание купюр и предметов, историю распознанных элементов и голосовой интерфейс. В сторе и на официальном сайте отмечается полная поддержка экранных читалок и наличие множества языков интерфейса и распознавания, включая русский; многие функции работают без постоянного интернета, что важно для пользователей, которым нужна приватность и автономность. Технологически Supersense опирается на современные компьютерное зрение и ML-модели. При этом, хотя разработчики не всегда раскрывают подробности архитектуры генеративных моделей, приложение даёт пользователю возможность задавать вопросы по изображению и получать развёрнутые ответы, что переносит его из категории простых OCR-инструментов в разряд мультимодальных ассистентов.
Be My Eyes, известная как платформа для соединения незрячих с волонтёрами по видеосвязи, в последние годы ввела собственный ИИ-модуль «Be My AI», который отвечает на загруженные изображения и даёт голосовые описания для широкого круга задач. Компания подчёркивает, что волонтёры на платформе говорят на сотнях языков (включая русский), которые поддерживает и встроенный ИИ — пользователи сообщают о возможности задавать вопросы относительно изображения и получать понятные, синтезированные ответы без ожидания живого волонтёра. Такой гибрид «человеческой помощи + ИИ» делает сервис гибким: когда живой помощник не доступен, генеративная модель может выступить виртуальным волонтёром, сократив время на решение повседневных задач. Важно отметить, что полнота и точность ответов зависят от качества кадра и контекста, поэтому в критичных ситуациях приложение рекомендует подключать живого волонтёра.
Google Lookout — приложение Google для людей с нарушениями зрения, также эволюционировавшее в сторону мультимодальности: помимо классических режимов для чтения текста, сортировки пищи и распознавания товаров, Lookout экспериментирует с эксплор-режимом и элементами генеративного описания сцены, где камера «обходит» окружающее пространство и сообщает, что в нём находится. При выборе автоматического определения языка приложение способно распознавать и читать текст на поддерживаемой речевой модели, включая русскую, что делает его применимым для русскоязычных пользователей мобильных устройств Android. Google подчёркивает, что некоторые бета-функции ещё находятся в стадии развития, но общая тенденция — интеграция генеративных ответов и более интуитивных описаний, а не просто перечисление обнаруженных объектов.

Носимые решения, такие как устройства OrCam, тоже движутся в сторону мультимодальности и локализации. OrCam MyEye и похожие продукты ориентированы на автономное распознавание текста, лиц и продуктов и предоставляют голосовые подсказки. Компания предлагает поддержку многих языков и публикует руководства и обучающие материалы на русском языке, при этом набор доступных языковых пакетов может зависеть от региона и модели устройства. В отличие от облачных приложений, подобные устройства опираются на приватность и скорость реакции, однако возможности «глубокого» генеративного диалога обычно ограничены встроенными функциями и специально подготовленными алгоритмами распознавания, а не крупными LLM в облаке. Для пользователей это означает более быстрые и приватные ответы на типовые задачи чтения и идентификации, но меньшую гибкость в свободной текстовой интерпретации изображений по сравнению с мобильными приложениями, использующими облачные модели.
Как это меняет повседневность русскоязычных пользователей? Возможность задавать вопросы изображению на русском и получать развернутые ответы сокращает зависимость от посторонней помощи: можно самостоятельно читать письма и инструкции, проверять состав продуктов, ориентироваться в новых пространствах и получать описания фотографий в соцсетях. Одновременно появляются и новые вызовы: точность распознавания шрифта или рукописного текста, корректное определение объектов в сложных сценах, ошибки при определении цвета и контекстных нюансов могут приводить к недопониманию. Также важна прозрачность того, какие данные отправляются в облако для генерации ответа, и возможность офлайн-работы для сохранения приватности. Многие разработчики предлагают гибридные режимы: офлайн-OCR для простых задач и облачные генеративные ответы для сложных запросов, а для критических ситуаций остаётся опция вызова живого волонтёра или службы поддержки.
Технологические и этические вопросы тоже выступают на первый план. Для эффективной работы мультимодальных ассистентов нужна большая база данных образцов, надёжные модели распознавания речи и качественный её синтез на русском, пригодный для длительного прослушивания. Разработчики стремятся улучшить локализацию, но различия в диалектах, орфографии и формате документов в русскоязычном пространстве требуют постоянной адаптации. Кроме того, генеративные модели иногда «достоверно» формулируют неверную информацию — эффект, который может быть критичен для людей, полагающихся на голосовой вывод как на единственный канал восприятия. Поэтому на практике рекомендовано сочетание инструментов: автономные OCR-режимы для точного чтения, облачные мультимодальные ответы для описания сложных сцен и возможность включить живого помощника при сомнениях.
Таким образом, международная экосистема ассистивных технологий постепенно адаптирует свои продукты под российский рынок и под русскоязычных пользователей по всему миру. Envision, Supersense, Be My Eyes и Google Lookout демонстрируют, что мультимодальность и генеративный ИИ перестали быть экспериментальной функцией и превратились в практический инструмент. Главная задача на ближайшие годы — довести качество распознавания и диалога на русском до уровня, при котором пользователи смогут полностью полагаться на голосовой вывод для широкого круга повседневных задач, не теряя контроля над своими данными.
Константин Белихов, специально для Агентства Особых Новостей (on24.media)
Иллюстрации автора

