WorldsScribe — новое приложение для описания окружающей обстановки пользователям с нарушениям зрения

В Мичиганском университете разработали программу, которая при помощи искусственного интеллекта и камеры смартфона может описывать всё то, что находится вокруг пользователя. Например, если человек с инвалидностью по зрению захочет узнать, что находится в комнате, то WorldScribe сгенерирует краткое описание объектов, зафиксированных камерой смартфона.

Презентация приложения прошла 14 октября на симпозиуме в Питтсбурге, который был посвящен разработке технологий и программного обеспечения для улучшения пользовательского интерфейса.

Сотрудниками университета было также проведено исследование: «WorldScribe: На пути к контекстному описанию изображений в реальном времени», которое размещено на сервере препринтов arXiv.

Для создания изображений с камеры смартфона и генерирования текстовых и аудио описаний в режиме реального времени приложение WorldScribe использует языковые модели генеративного искусственного интеллекта. Такой инструмент поможет пользователям быстрее понимать, что находится вокруг них. Программа может изменять уровень детализации описаний в зависимости от команд пользователя или продолжительности нахождения объекта в кадре, а громкость звукового описания регулируется автоматически, в зависимости от того, где находится пользователь. Например, в комнате, где громко играет музыка или на оживленной улице громкость воспроизведения описания автоматически увеличится.

Сэм Рау — слепорожденный пользователь, принимавший участие в бета-тестировании WorldScribe, отметил, что для них, незрячих пользователей, программа может действительно коренным образом изменить то, как они взаимодействуют с окружающим миром в повседневной жизни:

«У меня нет ни малейшего понятия о том, как это, видеть, но когда я попробовал данное приложение, я получил представление о том, как на самом деле выглядит мир вокруг меня. Я был восхищен тем, сколько существует различных цветов и как выглядят разные предметы.

Слепые люди, как бы соединяют картину происходящего вокруг по частям, и нам может потребоваться немало умственных усилий, чтобы создать более целостный образ. Но программа может помочь нам мгновенно получить нужную информацию и, на мой взгляд, это значительно облегчит нам жизнь. Я не знаю, могу ли я передать словами, какое это на самом деле чудесное решение для незрячих людей».

Когда пользователь медленно перемещается по комнате, WorldScribe использует модель GPT-4 для создания красочных описаний объектов вокруг. Если попросить ИИ помочь в поиске ноутбука, программа, в первую очередь, станет выдавать подробные описания любых ноутбуков, находящихся в комнате.

Во время исследования Рау ходил по лаборатории в наушниках, подключенных к смартфону. Камера устройства передавала изображения на сервер, где практически мгновенно генерировались текстовые и аудио описания объектов, попавших в кадр: ноутбука на столе, стопки бумаг, телевизора и картин, висящих на стене поблизости.

Описание постоянно менялось в зависимости от того, что попадало в объектив. При этом приоритет отдавался объектам, расположенным ближе всего к Рау. Когда стол, буквально на секунду, попадал в кадр, можно было получить только краткое описание (одно слово), но при более продолжительном наведении камеры выяснилось, что на нем лежат различные папки и бумаги.

За счет трех различных языковых моделей программа может регулировать то, насколько подробными будут описания. Модель YOLO World быстро генерирует простое описание объектов, которые ненадолго появляются в кадре. Подробное описание объектов, попавших в поле зрения смартфона на более продолжительное время, обрабатываются GPT-4, языковой моделью, лежащей в основе ChatGPT. Третья модель — Moondream, обеспечивает средний по подробности уровень описания.

Аньхонг Го, соавтор исследования, старший преподаватель кафедры компьютерных наук и инженерии Мичиганского университета считает, что многие из существующих вспомогательных технологий, использующих искусственный интеллект, ориентированы на конкретные задачи или требуют какого-либо пошагового взаимодействия. Например, вы делаете фотографию, а затем получаете какой-то результат.

«Для инструментов, обеспечивающих доступность, предоставление подробного описания, которое поможет в решении повседневных задач — настоящий вызов с точки зрения науки. Мы увидели огромный потенциал использования моделей искусственного интеллекта, которые с каждым днем становятся все эффективнее, в том, что касается автоматического создания релевантных описаний в режиме реального времени», — заявил Го.

Поскольку в основе работы WorldScribe лежит генеративный ИИ, приложение может реагировать на поставленные пользователем задачи. Например, в первую очередь, описывать те объекты, которые человек попросил найти. Однако некоторые участники исследования отметили, что у программы наблюдались проблемы с обнаружением определенных предметов, таких как флакона с каплями.

Рау утверждает, что на текущий момент WorldScribe все еще немного неудобен для повседневного использования, но он бы пользовался им каждый день, если бы приложение можно было интегрировать в умные очки или другое носимое устройство.

Исследователи подали заявку на патент и ищут партнеров, которые могли бы помочь в усовершенствовании технологии и выведении ее на рынок.

Перевёл Владислав Бондаренко

Источник: techxplore.com