То, что люди более восьмидесяти процентов информации воспринимают с помощью зрения — это, конечно же, не новость. Как и не новость, что незрячим людям эта самая информация по большей части остается недоступной. По большей части? То есть, какая-то часть все же доступна? Да, доступна и, мало того, представляет большой интерес (ну, если мы говорим о людях любознательных и жадных до жизни и происходящего вокруг). Доступна с помощью нормально — или «лучшевидящих» родных, близких, друзей, знакомых, случайных и неслучайных собеседников. В общем — людей, с кем происходит живое общение. Кто-то умеет описывать и рассказывать, что происходит в реальной ситуации, или в фильме, который вы смотрите вместе, кто-то плохо подбирает слова и аналогии. Но все же, как не крути, а если говоришь с «живым человеком», всегда есть возможность уточнить и переспросить, правильно ли понимаешь комментарий.
Есть еще один вариант познания визуальной части мира — это профессиональное тифлокомментирование. Такие рассказы и описания создаются людьми по определенным правилам и содержат много разносторонней информации в реальном времени поясняющей, например, происходящее в фильме, или театральной постановке. Такие объяснения достаточно подробны и четки, в них зачастую нет ощущения «личности» комментатора, его субъективная оценка (тифлокомментарий к фильму, например — это четко выстроенные по определенному шаблону описания, в которых избегаются оценочные суждения и эмоциональная окраска).
Но есть еще один способ описания происходящего, который существенно облегчает и мою жизнь, и жизнь многих других незрячих и слабовидящих людей, внося в нее ту самую доступность. Это распознавание визуальной информации и описание различного рода изображений искусственным интеллектом. Благодаря развитию искусственного интеллекта в этом направлении, я могу, например, сфотографировать и прочитать таким образом квитанции и различные документы и бумаги (в этом случае, после фотографирования приложение распознает изображение и переведет его в текст, который мне будет озвучен голосовым помощником телефона). Благодаря таким приложениям можно прочитать вывески, информационные стенды на улице и многое другое.
Мало того, искусственный интеллект учится описывать изображения. И это отдельный и, очень часто, наполненный недоумениями, юмором и шутками разговор. Сейчас существует множество приложений, которые с разной степенью адекватности описывают предлагаемые картинки и фотографии. Сказываются здесь особенности перевода с других языков на русский (поскольку подавляющее большинство приложений — русифицированный аналог заграничного), недостаток библиотечных данных из которой приложение «сверяет» распознаваемое изображение.
Например, как-то раз приложение рассказывало, что я сфотографировала: «банан, сидящий на столе», а худощавую взрослую женщину, подмигнувшую в камеру, распознали, как: «маленькая девочка кривляется».
В общем, искусственный интеллект уже учится, и, хоть, его суждения бывают чудны, но описание бывает вполне подробным и понятным.
Хорошее описание картинки: «Два человека сидят за столом, на котором стоят две белые кружки с чёрным кофе. Они держатся за руки. На руке одного из людей надеты часы с металлическим браслетом. На заднем плане видны подушки с полосатым узором».
Но я вряд ли затеяла бы сегодня разговор на тему описания фотографий нашими «любимыми железячными визуальными помощниками», если бы ни описание одной фотографии. А дело было так. Встречались мы сегодня с музыкальной группой, с которой пишем песни и выступаем. И сфотографироваться решили, поскольку оказались в очень красивой студии. И обстановка хорошая, и мы, вроде, тоже очень даже прекрасны… но!
Посмотрите, пожалуйста, на это фото и прочитайте результат распознавания изображения

Описание фотографии от искусственного интеллекта:
«Похоже, что изображение имеет группу из четырех женщин, стоящих в комнате с большим окном. Похоже, они представляют для картины, с одной женщиной, сидящей на скамейке. Женщины одеты в различные стили: одна носит платье, другая носит юбку, а третья носит куртку. Четвертая женщина носит более непристойный наряд. В номере есть пианино, расположенное на заднем плане, а обеденный стол расположен в левой стороне комнаты. Есть также два стула, один возле обеденного стола, а другой ближе к окну. Общая атмосфера комнаты предлагает комфортное и приглашенное пространство для общения и развлечений.»
Дорогие читатели, как весьма-весьма слабовидящий человек, прошу ваш тифлокомментарий: которая из женщин, на ваш взгляд, одета «непристойно»? В общем, мы, конечно, в целом, поняли, о чем эта фотография, хотя, главный вопрос все же так и остался неразрешенным.
Да, высоким технологиям предстоит еще долго учиться описывать изображения так, чтобы эти описания были похожи на «человеческие» (то есть, данные живыми людьми). Но, как бы порой не было абсурдно или смешно, это направление развития искусственного интеллекта является очень важным для огромного числа людей, не имеющих возможности различать изображения самостоятельно. И пока кто-то, всматривается в фотографию и пытается понять аргументированность замечания кому-то из нас по поводу внешнего вида, мы еще раз улыбнемся неуклюжести искусственного интеллекта и пожелаем ему развития и объективности!
Валентина Наумова, специально для Агентства Особых Новостей (on24.media)
Фото из открытых источников, личного архива автора

