ИИ-модель Gemini — это новейшая разработка от Google DeepMind, представленная в декабре 2023 года, а обновленная версия — Gemini 1.5 — была выпущена в феврале 2024 года. Согласно заявлениям разработчиков, Gemini превосходит даже самую продвинутую модель искусственного интеллекта GPT-4.
Вот что вам следует знать о Gemini:
Gemini Nano: Эта версия доступна на смартфонах Google Pixel 8 Pro. Она способна создавать краткие резюме записей с диктофона, предлагать варианты ответов в переписках в мессенджерах, таких как WhatsApp, Line и KakaoTalk, а также обеспечивать более надежную защиту персональных данных от утечек.
Gemini Pro: Этот чат-бот, ранее известный как Google Bard, базируется на Gemini. Он умеет генерировать тексты — от простых ответов на вопросы типа “Как дела?” до компьютерного кода на разных языках программирования. Кроме того, Gemini Pro способен распознавать и описывать содержание изображений, генерировать картинки и делать краткие пересказы текстов.
Gemini Ultra: Эта модель обладает наибольшим количеством функций и является конкурентом GPT-4. Gemini Ultra может анализировать тексты, изображения, аудио и даже видео. Она способна распознавать рукописный текст на изображениях, проверять текст на наличие ошибок, генерировать компьютерный код, создавать различные виды текстов и изображений, а также вести “осознанный” диалог с пользователем. По заявлениям Google, Gemini Ultra превосходит GPT-4 по 30 из 32 тестов, обладая более точными ответами, пониманием запросов пользователей, способностью писать код на Python, решать сложные математические задачи и расшифровывать аудио123.
В демонстрационном ролике смартфона Google Pixel 8 Pro, оснащенного Gemini Nano, продемонстрировано, как Gemini распознает и озвучивает действия на видео, предсказывает развитие событий и предлагает варианты. Это впечатляющий шаг в развитии искусственного интеллекта, позволяющий взаимодействовать с видео и мультимедийным контентом1
Модель искусственного интеллекта Gemini Ultra обладает впечатляными способностями, которые превосходят даже GPT-4. Вот несколько примеров того, что она умеет:
Распознавание рукописного текста на изображениях: Gemini Ultra способна анализировать рукописные записи, даже если они находятся на фотографиях или других изображениях.
Проверка наличия ошибок в тексте: Не только в письменных текстах, но и на изображениях. Если есть ошибки, модель объяснит, что нужно исправить и почему.
Создание индивидуальных интерфейсов для разных задач:
- Например, Gemini Ultra может предоставить пошаговую инструкцию с иллюстрациями о том, как приготовить определенное блюдо.
Генерация компьютерного кода, таблиц, текстов и изображений:
- Она способна создавать разнообразные виды контента, включая программный код, таблицы и тексты.
Ведение “осознанного” диалога с пользователем:
- Gemini Ultra может поддерживать продуктивные и информативные беседы с пользователями.
Согласно заявлениям Google, Gemini Ultra успешно прошла 30 из 32 тестов, превосходя GPT-4. Она лучше отвечает на вопросы, понимает запросы пользователей, пишет код на Python, решает сложные математические задачи и даже расшифровывает аудио.
Одним из главных преимуществ модели от Google является ее способность взаимодействовать с видео. В демонстрационном ролике было продемонстрировано, как Gemini Ultra распознает и озвучивает действия, происходящие на видео, предсказывает, что будет дальше, и предлагает варианты развития событий. Модель также предложила пользователю сыграть в игру, сравнивала предметы по разным характеристикам, а также проиллюстрировала, что можно сделать с двумя клубками пряжи. Она даже распознала гитару и включила мелодию на ней1234.
Использование Gemini в России:
Gemini Nano:
- Доступен только на смартфонах Google Pixel 8 Pro.
- Позволяет создавать краткие резюме записей с диктофона и предлагать варианты ответов в мессенджерах, таких как WhatsApp, Line и KakaoTalk.
- Обеспечивает надежную защиту персональных данных от утечек.
Gemini Ultra:
- Доступен через веб-версию на сайте Gemini Advanced и в приложениях для Android и iOS.
- Использование платное — $19,99 в месяц, но есть бесплатный двухмесячный пробный период.
- В России Gemini Advanced недоступен без VPN.
- Пока не поддерживает взаимодействие с видео, но разработчики постепенно добавляют новые функции.
Gemini Pro:
- Бесплатно доступен в чат-боте Gemini.
- Для использования необходимо войти в аккаунт Google.
- В России также требуется VPN.
Создание контента:
- Пользователь может создавать контент в чат-боте Gemini, в котором встроена модель Gemini Pro.
- Примеры контента: стихотворения, компьютерный код, описания изображений.
Проблемы с генерацией изображений:
- В феврале 2024 года появились сообщения о неточной генерации изображений по историческим запросам.
- Нейросеть могла выдать изображения людей разных рас по запросам, таким как «солдаты нацистской Германии» или «отцы-основатели Америки».
- Разработчики уже работают над решением этой проблемы, и функция генерации изображений временно отключена12.
Gemini 1.5 Pro — это обновленная версия модели Gemini Pro, представленная Google DeepMind в феврале 2024 года. В марте она стала доступна для всех желающих. Основные характеристики Gemini 1.5 Pro:
Расширенное контекстное окно:
- Теперь составляет 1 миллион токенов.
- Это количество токенов сопоставимо с 1 часом видео, 11 часами аудио, 30 тысячами строк кодаили 700 тысячами слов.
Улучшенные способности:
- Анализ, классификация и обобщение контента:
- На основе стенограммы полета “Аполлона-11” на Луну (которая занимает 402 страницы), Gemini 1.5 Pro способна “рассуждать” о разговорах, событиях и деталях, упоминающихся в документе.
- Разбор видеоконтента:
- Модель может анализировать сюжетные повороты, события и детали 44-минутного немого фильма Бастера Китона.
- Лучшее понимание компьютерного кода:
- Gemini 1.5 Pro предлагает более полезные варианты модификации кода и более ясные объяснения работы разных его частей.
- Анализ, классификация и обобщение контента:
Результаты тестирования:
- Gemini 1.5 Pro превзошла первую версию Gemini Pro в 87% тестов.
- В настоящее время новая версия нейросети доступна для ограниченного круга разработчиков и корпоративных клиентов.
- Когда Gemini 1.5 Pro станет доступен для широкой аудитории пользователей, пока неизвестно12.