Обзор приложения PiccyBot: искусственный интеллект теперь и для описания видео тоже

В последнее время искусственный интеллект круто изменил жизнь незрячих людей в лучшую сторону. Он показывает себя очень неплохо в описании и распознавании изображений для людей с нарушениями зрения. Это особенно заметно в связи с увеличением числа сервисов и приложений, использующих различные модели искусственного интеллекта с целью сделать жизнь незрячих пользователей более комфортной.

Недавно было представлено приложение PiccyBot для описания изображений. Оно доступно на устройствах под управлением iOS и Android. Эта программа — не просто ещё один заурядный сервис для описания картинок. Она выделяется на фоне других своим функционалом и амбициозным подходом разработчиков. Предлагаю поближе познакомиться с приложением PiccyBot, узнать, как им пользоваться, и понять, почему оно заслуживает внимания. Также я напишу о некоторых своих наблюдениях и замечаниях.

Что отличает PiccyBot от конкурентов

Анализ и описание видео

Наиболее важная функция PiccyBot — возможность описания видео. На момент написания статьи ни один другой сервис не предоставляет такой возможности. С помощью приложения можно либо снять видео, либо поделиться им с программой и она опишет его для вас. Максимальная продолжительность видео может варьироваться в зависимости от бесплатной и платной версии. Во время обработки происходит автоматическое воспроизведение ролика, поэтому понять, какая его часть была удалена программой не составит труда. В настройках приложения вы можете указать, насколько подробно будет описано видео. Есть 3 уровня детализации описания: высокий, средний и низкий.

Ответы голосом

Ещё одно отличие приложения от похожих сервисов в том, что программа проговаривает описание видео голосом, похожим на человеческий, в то время как другие сервисы предоставляют только текстовое описание контента. В версии Pro можно выбрать голос и настроить скорость проговаривания информации. Отмечу, что текстовые ответы также доступны в PiccyBot.

Интонация и эмоции

Искусственный интеллект в PiccyBot пытается вывести описание на новый уровень, добавляя индивидуальности ответам в том, как их озвучивает голос. Фишка проявляется в различных интонациях, которые пользователь может выбрать. Каждый говорящий обладает определенным характером, например, серьезным, эмоциональным, заботливым, счастливым и т.д. Больше всего данная особенность выражается в ответах бота, который пытается вести беседу как человек. Это проявляется в таких выражениях, как «ого», «о, давайте посмотрим», и в вопросах из серии «красиво, не правда ли?», а также во фразах, наподобие «давайте посмотрим, что изображено на картинке…». В любом случае, когда вы попробуете данную возможность, либо она вам очень понравится, либо вы её возненавидите.

Функция интонационно и эмоционально окрашенных ответов включена по умолчанию и в бесплатной версии её невозможно отключить.

Не одна, а 7 моделей искусственного интеллекта

В большинстве сервисов описания изображений вы, как правило, не можете выбрать модель искусственного интеллекта для использования. Более того, некоторые сервисы даже не раскрывают, какую модель искусственного интеллекта они используют. В этом плане подход разработчиков PiccyBot отличается. В вашем распоряжении 7 моделей искусственного интеллекта:

Claude 3 Haiku
Google Gemini Flash
GPT-4o
LAMA3
Claude 3 Sonnet
Google Gemini Pro
Reka

Между моделями можно переключаться только в версии Pro. Также я сделал одно наблюдение касательно модели GPT 4o, о котором расскажу позже.

Подписка на версию Pro

У PiccyBot есть бесплатная версия, но её функционал сильно ограничен. Пользователи данной версии не могут выбрать модель искусственного интеллекта, отключить функцию «человеческой» интонации и эмоциональных ответов, изменить голос или скорость речи, а также поделиться аудио ответами искусственного интеллекта в формате MP3. Кроме того, в бесплатной версии есть реклама. Однако за короткое время её использования (пока я не перешел на Pro), реклама не показалась мне навязчивой. На мой взгляд, чтобы по максимуму использовать возможности приложения, необходимо приобрести платную версию. Можно выбрать ежемесячную подписку или купить пожизненную лицензию.

Интерфейс и использование

Пользовательский интерфейс приложения PiccyBot довольно простой. Основные элементы включают: текстовое поле с названием «Что на этом изображении?» Или «Задайте свой вопрос PiccyBot», кнопки «Камера», чтобы сделать снимок или выбрать фотографию, «Видео», чтобы снять видео или выбрать его из галереи и кнопку «Настройки», нажав которую вы перейдете к настройкам приложения. Примечание: элементы интерфейса приложения на iPhone немного отличаются, но пользователю не составит труда в них разобраться. Перемещение по элементам осуществляется смахиваниями. Кнопки «Камера» и «Видео» расположены в нижней части экрана, а кнопка «Настройки» — вверху.

Когда вы нажмете кнопку камеры или видео, вам будет предложено сделать или выбрать фото, снять или выбрать видео соответственно. При съемке фотографий или видео вы будете использовать интерфейс камеры вашего телефона. Если она поддерживает такую функцию, как, например, обнаружение лица, вы услышите, когда в кадре появятся чьи-либо лица. После завершения съемки фотографии или видео приложение спросит, хотите ли вы повторить съемку или нажать «Ок» для начала распознавания. На моем телефоне, с установленным PiccyBot версии 1.17, я сталкиваюсь с багом, из-за которого после завершения съемки при нажатии кнопки «Ок», программа вылетает.

Если выбрать фотографию или видео из галереи устройства, на экране появятся приложения, в том числе и файловые менеджеры, из которых можно добавить фото или видео. Кроме того, вы можете отправить фотографию или видео в PiccyBot из других приложений, без необходимости предварительно открывать программу.

Как только вы выберете или снимите фотографию/ видео, начнется процесс распознавания, который будет сопровождаться звуковым сигналом. Его, при желании, можно отключить в настройках. Для того, чтобы узнать, на каком этапе (например, загрузка или обработка) находится процесс распознавания, вы можете использовать программу экранного доступа. Обратите внимание, что иногда она не проговаривает ту или иную стадию полностью, а только несколько букв слова.

После завершения распознавания вы сразу же услышите описание. Также его можно прочитать с помощью VoiceOver или TalkBack. Однако стоит отметить, что голосовые ответы отключить нельзя. Вы не можете выбрать только текстовое отображение ответов на экране.

После прослушивания ответа появится новая кнопка «Микрофон». С её помощью можно задать уточняющий вопрос о распознанном изображении или видео. Кнопки «Камера», «Видео» и «Настройки» никуда не исчезают и располагаются на прежних местах. После того, как вы зададите свой вопрос, произойдет его обработка, сопровождаемая все тем же звуковым сигналом. Во время тестирования приложения я обнаружил, что на экране отображается только последний ответ, и нет возможности просмотреть историю сообщений или другие сообщения в разговоре.

Если вы предпочитаете печатать, а не говорить, то в настоящее время отсутствует текстовое поле, куда можно вписать вопрос, но в качестве альтернативного решения вы можете очистить поле «Что на изображении» и ввести вопрос туда. Это можно сделать после того, как будет выполнено первоначальное распознавание изображения.

После распознавания материала и озвучки ответа, появится кнопка «Поделиться», которая позволяет поделиться самим изображением/видео или сохранить его с помощью файлового менеджера.

В настройках можно изменить используемую модель искусственного интеллекта, голос и скорость речи, язык, уровень детализации описания, а также включить/выключить функцию интонационно и эмоционально окрашенных ответов.

Также в настройках есть опция «Поделиться аудио», нажав которую можно поделиться последним ответом в формате MP3. То, что данная кнопка находится в настройках — немного странно, поскольку пользователи, скорее всего, ожидают, что она будет находиться рядом с уже упоминавшейся кнопкой «Поделиться», но никак не в настройках.

Во время выбора голоса вы можете предварительно прослушать его образец, нажав на соответствующую кнопку. После изменения настроек, таких как голос или модель искусственного интеллекта и последующего выхода из настроек распознавание начнется снова, что является приятной особенностью программы.

При использовании бесплатной версии приложения большинство настроек нельзя изменить, что в значительной степени ограничивает функционал PiccyBot.

Наблюдения, сделанные в ходе тестирования программы

Поддержка семи моделей искусственного интеллекта вместо одной дает приложению значительное преимущество при распознавании изображений. Наличие такого количества вариантов позволяет сравнивать различные сервисы искусственного интеллекта, а кроме того взглянуть на фотографию или видео, что называется, под разным углом. Модель искусственного интеллекта легко изменить в настройках, а затем можно снова распознать то же изображение или видео. Примечание: все тесты я проводил, используя английский в качестве языка для распознавания речи на видео.

Описание видео — это действительно прорыв

Несмотря на то, что в сервисах описания фотографий недостатка нет, описание видео — это нечто новое. Моё тестирования показало, что функция распознавания видео работает эффективно, предоставляя его подробное описание. Оно не состоит из разрозненных элементов рассказа, а наоборот, излагается связно на протяжении всего видео.

Однако этот факт не значит, что описание видео идеально, так как искусственный интеллект легко можно сбить с толку, особенно когда в видео много деталей. Тестирование приложения целиком и полностью проходило с использованием моделей GPT и Gemini и обе выдавали ложные описания, но в разных частях видео. Например, Gemini предположила, что слова, произнесенные ребенком, которого не было видно в кадре на видео, принадлежали пожилой даме, которая на видео появлялась.

Проблемы с описанием видео не связаны с самим приложением, они связаны с используемыми моделями искусственного интеллекта. Ожидается, что описание будет становиться более точным по мере их совершенствования.

В целом, опыт работы с данной функцией показывает, что она — не просто «ненужная диковинка». Описания, как и подробности о видео — вещь полезная, но, как всегда бывает в случае с искусственным интеллектом, вам следует остерегаться «галлюцинаций» и путаницы в деталях.

При попытке описать одно видео с помощью PiccyBot у меня возникла проблема: процесс завис на стадии сжатия более чем на две минуты. После того, как я несколько раз сгенерировал описание в программе, данная проблема повторилась. Однако потом, когда я отправил то же самое видео себе в WhatsApp, а затем через меню «Поделиться» отправил его в PiccyBot, оно было распознано без проблем. Видео было обрезано с помощью программы AudioLab, и, хотя другие видео тоже обрабатывались при помощи данного инструмента, это было единственное, с которым возникли подобные сложности.

Общие замечания

GPT-4o — неразгаданная тайна глупости

Когда я выбрал GPT-4o в качестве модели, с помощью которой будет описываться визуальный материал, я ждал отличных результатов, зная, что это самый продвинутая из доступных моделей GPT. Кроме того, я опирался на свой предыдущий опыт с сервисами, которые работают на данной модели, например, приложение Be My Eyes с функцией Be My AI. Однако результаты оказались полностью противоположны моим ожиданиям. Во время большинства тестов и с видео, и с фотографиями, результаты не впечатлили. Преобладали субъективные суждения, в описании не хватало деталей и особенно бросалось в глаза то, что искусственный интеллект неправильно идентифицировал предметы, а в некоторых случаях вовсе не определял, кто изображен на фотографии.

В ролике, где пожилая женщина выжимала сок из апельсинов, а затем давала ребенку стакан апельсинового сока, искусственный интеллект упустил многие детали и полностью придумал разговор между женщиной и ребенком, хотя она за всё время не произнесла ни слова. Модель также предположила, что женщина на видео была матерью ребенка. Это предположение ни на чём не основано. В описании также содержались ненужные комментарии, относящиеся к сути видео и обстановке, показанной в нем. К примеру, бот мог сказать следующее: «атмосфера любви и заботы»,

С фотографиями дело обстояло ещё хуже. Искусственный интеллект не смог определить, что на фотографиях изображены президенты Соединенных Штатов Америки и Российской Федерации. А когда его спросили о виде растения на фотографии, он дважды назвал его неправильно, хотя растение довольно известное — это гардения. Be My AI, где тоже используется GPT (хотя я не уверен, GPT-4o или другая модель), показал результаты гораздо лучше: правильно назвал растение с первого раза и узнал президентов.

Эти наблюдения поставили меня в тупик. Необходимо получить разъяснения от разработчика PiccyBot. Если появится дополнительная информация, я обновлю данный раздел статьи.

Gemini — король в области описания

В отличие от GPT-4o, Gemini, к моему удивлению, показал отличные результаты. Мое прежнее представление о моделях искусственного интеллекта от Google изменилось после использования Gemini Flash и Gemini Pro.

В случае с описанием видеороликов приложение превосходно справлялось, предоставляя подробную информацию. Искусственный интеллект от Google правильно определил большую часть сказанного ребенком, хотя речь была на арабском языке, приложение записало её по-английски. Модель искусственного интеллекта смогла определить некоторые шутливые высказывания ребенка. Однако при описании этого же видео было допущено несколько ошибок, например, приложение приняло цветок, который не был изображен на одежде ребенка, за рисунок на его рубашке и предположило, что слово, сказанное другим ребенком, было произнесено пожилой женщиной.

Что касается фотографий президентов, то модель Gemini их легко определила, а модель Gemini Flash пошла ещё дальше и предоставила подробную информацию о том, когда они находились у власти и чем запомнились те времена. Удивительно, что одна и та же модель искусственного интеллекта (Gemini) при различных сценариях использования отвечала по-разному. Когда я использовал её в качестве ассистента, она отказывалась давать ответы на простые вопросы, например, «Кто сейчас президент Соединенных Штатов Америки?»

Искусственный интеллект от Google также определил, что на фото изображена гардения и предоставил доказательства, подтверждающие это. Когда Gemini показали изображение документа с текстом на арабском языке, модель перевела текст, но упомянула, что не может отобразить текст в оригинале.

В целом, модели Gemini показали, что они — лучшие и у них меньше «галлюцинаций», а также более точные и успешные результаты распознавания.

Использование других моделей и дополнительные наблюдения

Должен признаться, моё внимание было сосредоточено на использовании моделей GPT и Gemini. Протестировав несколько раз другие предлагаемые модели, я обнаружил, что большинство из них не выдерживают конкуренции, склонны к вынесению суждений, не нужному комментированию изображенного на фото и видео, и делают необоснованные предположения. В целом, все остальные модели давали менее подробное описание лиц и людей, а одна из них, когда я попросил сказать, какие президенты изображены на фотографии, отказалась давать ответ, сославшись на причины этического характера.

В любом случае, модели доступны для использования, и цель статьи не в их сравнении. Пользователь сам выберет нейросеть для описания, исходя из своих предпочтений.

Я точно не могу сказать, какая модель используется в бесплатной версии PiccyBot, но во время тестирования она не произвела на меня впечатления. Как интонационно и эмоциональное окрашивание речи, так и оценочные суждения, комментарии (хоть в основном положительные) не помогли. Используемые искусственным интеллектом тон и выражения звучат слишком утрировано, что не свойственно людям. Эти моменты, на мой взгляд, не прибавляют желания пользоваться бесплатной версией. Но это только лишь мое субъективное мнение. Я слышал от нескольких человек, что интонации и эмоциональное окрашивание не мешают им пользоваться программой.

Серьезная проблема бесплатной версии в том, что искусственный интеллект слишком уверенно даёт некорректные описания. Когда я попросил сервис определить типы игрушечных машинок, он, ни на секунду не сомневаясь, определил их неверно. Так ещё и заявил, что это, вне всякого сомнения, именно такие типы машинок! К сожалению, после покупки версии Pro, я не смог повторно протестировать работу приложения с той же фотографией, потому что она была сделана в тот момент, когда ребенок играл с машинками и повторить тот же кадр было невозможно. Однако могу предположить, что сделай я точно такую же фотографию, результаты были бы другими. А так же отключение настройки «человеческого» стиля разговора и использование другой модели искусственного интеллекта привели бы к иным последствиям.

Другой пример – «случайная фотография» комнаты. Модель распознавания изображений, работающая в бесплатной версии, рассказала мне, какой порядок в комнате, хотя на самом деле это было не так. На этой фотографии не было ничего экстраординарного, если не считать моих плохих навыков фотографирования и не очень-то наведенного порядка в комнате.

Если вы планируете использовать бесплатную версию PiccyBot, вам следует знать об её ограничениях и всегда держать в уме необходимость сравнения результатов распознавания с таковыми у других сервисов.

Важно напомнить читателям, что сервисы на базе искусственного интеллекта непоследовательны. Определенная деталь может быть правильно описана в первый раз, а затем пропущена при повторном распознавании того же изображения или видео. Это проблема не конкретно приложения PiccyBot, скорее, это общая беда моделей описания изображений.

Уточняющие вопросы после распознавания

Хотя в программе отсутствует возможность непосредственно задать вопрос о фотографии после её распознавания с помощью текстовых запросов, возможность спросить о каких-либо деталях всё-таки есть. Функция распознавания голоса работает очень хорошо и надежно. Я не сталкивался с какими-либо проблемами, когда задавал вопросы. Однако я все ещё не уверен, воспринимается ли программой каждый заданный вопрос отдельно от контекста разговора или все вопросы и ответы на них — это один диалог.

Во время тестирования приложения я задал вопрос общего характера, не связанный с распознанным изображением, и программа написала, что ответ на мой вопрос отсутствует на изображении. Этот момент не говорит о каких-либо проблемах на стороне приложения или моделей распознавания (более того, ответ был вполне ожидаем). Я решил написать об этом просто для информации.

PiccyBot выходит на рынок с амбициозными целями и действительно полезным функционалом. Это единственное в своем роде приложение, предлагающее описание видео и использующее несколько моделей искусственного интеллекта для распознавания изображений. Кроме того, наличие функций голосовых ответов и эмоционально-интонационного окрашивания выделяет PiccyBot среди других сервисов описания изображений.

Хотя по-настоящему понять и оценить возможности приложения можно только при использовании версии Pro, наличие бесплатной версии — это очень хорошо. Кроме того, разработчики просят за платную версию (как за ежемесячную подписку, так и за пожизненную лицензию) довольно разумную цену.

Поскольку приложение новое, разработчикам есть куда стремиться в плане улучшений и исправлений в будущих версиях. Например, предоставить пользователям возможность останавливать голосовые ответы искусственного интеллекта или облегчить то, каким способом люди могут задавать уточняющие вопросы при помощи текста, при этом, чтобы разговор между человеком и машиной отображался полностью.

Хотя время ожидания ответа от программы иногда может быть немного дольше, чем хотелось бы, этого следует ожидать и не нужно винить в этом PiccyBot.

Несмотря на то, что ошибки распознавания происходят нечасто, было бы неплохо добавить кнопку «Попробовать снова» для подобных ситуаций. Это позволило бы пользователям, в случае возникновения каких-либо неполадок, отправить изображение или запрос ещё раз.

Возможность поделиться ответами в виде аудиофайла, а также самими изображениями является приятным дополнением. Однако для большей интуитивности я бы рекомендовал перенести кнопку «Поделиться аудио» из настроек на главный экран приложения.

Я, как и многие пользователи, увлеченно и с предвкушением слежу за развитием PiccyBot, и верю в его будущее. Это приложение служит ещё одним доказательством того, какую важную роль грамотные и умелые разработчики играют в жизни незрячих пользователей, превращая смартфоны и планшеты в незаменимые инструменты для повышения их независимости и преодоления барьеров, связанных с потерей зрения.

Автор: Карин Киуан (Kareen Kiwan)

Перевёл Владислав Бондаренко

Источник: Accessible Android