TalkBack будет описывать изображения при помощи искусственного интеллекта

Google объявила, что Gemini Nano будет интегрирован в TalkBack. Это отличный пример того, как компания использует генеративный искусственный интеллект для облегчения жизни пользователям с инвалидностью.

Gemini Nano — минимальная версия искусственного интеллекта Google, работающая на базе больших языковых моделей (LLM). Она предназначена для работы исключительно на устройстве, т. Е. Без необходимости подключения к интернету. В случае с TalkBack его связка с искусственным интеллектом от Google будет использоваться для создания описаний визуальных объектов для слабовидящих и незрячих пользователей, которые затем будут прочитаны программой экранного доступа.

В приведенном выше примере TalkBack описывает предмет одежды следующим образом: »крупным планом изображено черно-белое платье в полоску. Платье короткое, с воротником и длинными рукавами. На талии оно завязано с помощью большого банта».

По данным Google, пользователи TalkBack ежедневно сталкиваются примерно с 90 изображениями без описания. Благодаря большим языковым моделям, искусственный интеллект сможет предоставлять информацию о том, что изображено на фотографии. Это, в свою очередь, потенциально избавит людей от необходимости составлять описания изображений вручную.

«Это обновление поможет восполнить недостающую информацию», — отмечает президент подразделения Android ecosystem Самир Самат.«Будь то более подробная информация о том, что изображено на фотографии, которую прислали родственники или друзья, или описание стиля и покроя одежды при совершении покупок в Интернете», — продолжает Самат.

Функция выйдет на Android позднее в этом году. Если предположить, что она будет работать так же хорошо, как и демо-версия, то ее появление может кардинально изменить жизнь незрячих и слабовидящих пользователей.

Источник: https://www.yahoo.com/news/google-talkback-gemini-describe-images-175536486.html