Современные Технологии и Нейросети

Разработка китайских исследователей приблизила андроидов к полной неотличимости от людей

Китайские исследователи достигли значительного прогресса в области создания реалистичных андроидов, разработав крупнейшую базу данных трехмерных лиц и инновационную модель искусственного интеллекта, которая анализирует геометрию лица напрямую, без использования привычных двухмерных изображений. Работа, возглавленная профессором Сун Чжанем из Шэньчжэньского института передовых технологий Китайской академии наук и доктором Е Юпином из Фуцзяньского технологического университета, направлена на решение фундаментальной задачи: наделить роботов способностью точно считывать эмоции, распознавать личности и взаимодействовать с людьми естественным образом. Ключевым элементом этой технологии является трехмерное обнаружение ключевых точек лица, которое картографирует важнейшие участки в пространстве. Существующие системы, как правило, полагаются на двухмерные текстуры или синтезированные 3D-модели, что часто приводит к ошибкам из-за расхождений между цифровыми шаблонами и реальной геометрией человеческого лица. Чтобы преодолеть это ограничение, ученые сосредоточились на работе с реальными сканами лиц. Для этого они создали собственную систему сбора 3D- и 4D-данных и собрали базу данных, включающую около 200 тысяч высокоточных трехмерных снимков лиц. В этот массив также вошли наборы данных с множеством выражений лица, стандартизированные антропометрические точки, высокоточные сканы человеческого тела и динамические 4D-данные мимики. Эта коллекция стала одной из крупнейших структурированных баз реальных биометрических данных и уже была отобрана для провинциальной программы высококачественных наборов данных искусственного интеллекта провинции Фуцзянь на 2025 год. Вместо того чтобы «скармливать» ИИ текстурированные изображения, исследователи разработали специализированную нейросеть — графовую сеть внимания, объединенную с кривизной (CF-GAT). Эта сеть обрабатывает неупорядоченные облака точек, которые представляют собой геометрию лица в виде набора пространственных координат без текстурной информации. Ключевым новшеством стала стратегия выборки, управляемая геометрией: она упрощает массив точек, сохраняя при этом данные об их кривизне. Эта информация о форме кодируется и интегрируется в механизм внимания сети, позволяя ей фокусироваться на мельчайших локальных изменениях рельефа лица, одновременно моделируя глобальные взаимосвязи между его частями. Благодаря своей структуре, CF-GAT напрямую предсказывает трехмерные координаты ключевых точек лица, не нуждаясь в двухмерных текстурах или готовых шаблонах, что значительно снижает зависимость от внешнего вида поверхности. В ходе тестирования модель продемонстрировала высокую устойчивость к шумам и отличную способность обобщать данные для разных форм лиц, превосходя традиционные подходы. Она также обеспечила более точное определение мелких деталей, необходимых для реалистичной мимики и точного отслеживания выражений. Этот прорыв наглядно демонстрирует, как качество и масштаб реальных данных напрямую влияют на производительность алгоритмов. Обучение на детализированной геометрии реальных людей позволяет ИИ усваивать сложные пространственные закономерности и эффективнее адаптироваться к реальному миру. Разработка обещает сделать человекоподобных роботов, биометрические системы и виртуальных аватаров более живыми и выразительными, что критически важно для их использования в сферах развлечений, здравоохранения и обслуживания, где естественность восприятия напрямую зависит от лежащей в основе «геометрической интеллектуальности»

Amazon инвестирует десятки миллиардов долларов в OpenAI в рамках новой облачной сделки

Крупные технологические компании и такие гиганты инвестиционного мира, как SoftBank, активизируют усилия по заключению партнерских соглашений с OpenAI. Стремясь получить конкурентное преимущество в гонке искусственного интеллекта, инвесторы делают ставку на то, что более тесные связи с создателем ChatGPT окажутся ключевым фактором успеха, особенно на фоне значительных расходов OpenAI на строительство дата-центров. В рамках этой стратегии компания Amazon объявила о масштабных инвестициях в OpenAI. На начальном этапе вложения составят 15 миллиардов долларов, а в ближайшие месяцы, после выполнения определенных условий, эта сумма будет увеличена еще на 35 миллиардов долларов. Помимо финансовых вливаний, компании договорились о технологическом сотрудничестве: OpenAI будет использовать вычислительные мощности в объеме 2 гигаватт, которые будут работать на базе собственных чипов Amazon — Trainium. Облачная платформа Amazon Web Services (AWS) станет эксклюзивным сторонним облачным провайдером для OpenAI Frontier — корпоративной платформы разработчика ChatGPT, предназначенной для создания, развертывания и управления ИИ-агентами. Важно отметить, что новое соглашение с Amazon не изменяет существующих отношений OpenAI с Microsoft. Azure от Microsoft по-прежнему остается единственным облачным провайдером для API OpenAI, которые предоставляют доступ к моделям компании. Кроме того, собственные продукты OpenAI продолжат размещаться на платформе Azure, а Microsoft сохраняет за собой эксклюзивную лицензию и доступ к интеллектуальной собственности OpenAI в отношении всех ее моделей и продуктов. Тем временем остается неясной ситуация с инвестициями со стороны Nvidia. Сообщается, что компания может вложить в стартап 30 миллиардов долларов, однако пока неизвестно, заменяет ли этот транш ранее озвученное в сентябре обязательство Nvidia инвестировать в OpenAI до 100 миллиардов долларов.

Google представила Nano Banana 2 для быстрой и качественной генерации изображений

Компания Google официально представила Nano Banana 2 — свою новейшую модель для генерации изображений, работающую на базе искусственного интеллекта Gemini. Разработчики позиционируют новинку как инструмент, обеспечивающий более быстрое создание визуального контента с улучшенным качеством интеллектуальной обработки, точным отображением текста и расширенными возможностями для творческого контроля. Система, техническое название которой звучит как Gemini 3.1 Flash Image, объединяет в себе высокую скорость работы, присущую модели Gemini Flash, и углублённые способности к анализу и пониманию мира, ранее доступные в версии Nano Banana Pro. Главная цель создателей — предложить пользователям возможность получать визуальные материалы студийного уровня без потери времени на генерацию. Предыдущая версия, Nano Banana, приобрела популярность в прошлом году благодаря своим функциям редактирования и создания изображений. Вышедшая несколько месяцев спустя более продвинутая версия Pro добавила к этим возможностям улучшенную фактическую достоверность и творческую точность. С выходом Nano Banana 2 Google объединяет лучшие качества обеих предшествующих моделей в едином, более быстром решении для широкого круга задач. Ключевым отличием новинки является её опора на обширную базу знаний Gemini. Модель способна использовать актуальную информацию и изображения из веб-поиска, что позволяет ей значительно точнее отображать конкретные объекты и сюжеты. Это расширенное понимание контекста открывает возможности для создания инфографики, преобразования заметок в схемы и визуализации данных с высокой степенью достоверности. Особое внимание в Nano Banana 2 уделено балансу между скоростью и качеством. Google утверждает, что модель значительно сокращает разрыв между быстрой и высокоточной генерацией. В системе реализована улучшенная функция сохранения идентичности объектов: теперь в рамках одного рабочего процесса можно поддерживать сходство персонажей (до пяти одновременно) и сохранять точное воспроизведение до четырнадцати различных объектов. Это особенно актуально при создании раскадровок и многосценных повествований, позволяя избежать визуальных искажений. Значительно улучшилось и следование инструкциям. Новая модель более строго придерживается сложных и многосоставных запросов, стремясь уловить все нюансы вместо их приблизительной интерпретации. Пользователи могут гибко настраивать соотношение сторон и разрешение итогового изображения — от 512 пикселей до 4K, что делает инструмент одинаково полезным как для создания вертикальных постов в социальных сетях, так и для материалов, предназначенных для широкоформатных дисплеев. Отдельным направлением работы стала генерация и перевод текста внутри изображений. Nano Banana 2 способна создавать четкие и легко читаемые надписи для маркетинговых макетов, поздравительных открыток или дизайнерских прототипов. Более того, модель может переводить и адаптировать текст непосредственно на изображении, что существенно упрощает работу с глобальным контентом. Распространение Nano Banana 2 началось на множестве платформ Google. В приложении Gemini она заменила собой модель Nano Banana Pro в режимах Fast, Thinking и Pro. При этом подписчики Google AI Pro и Ultra по-прежнему смогут обращаться к версии Pro для решения специализированных задач. Новая модель также интегрирована в поиск (через AI Mode и Lens), AI Studio и API Gemini, платформу Vertex AI на Google Cloud, а также в сервисы Flow, Google Ads и Google Antigravity. В частности, в Flow она становится основной моделью для генерации изображений, доступной пользователям без дополнительной платы. Параллельно с творческими улучшениями Google продолжает развивать системы подтверждения происхождения контента. Компания продолжает использовать технологию водяных знаков SynthID совместно со стандартом C2PA Content Credentials, чтобы пользователи могли точно определять, как и с помощью каких инструментов было создано или изменено то или иное изображение. С момента запуска в ноябре функция верификации SynthID внутри приложения Gemini применялась более 20 миллионов раз для идентификации видео, аудио и изображений, созданных ИИ от Google. Компания также анонсировала скорое добавление поддержки C2PA непосредственно в приложение Gemini. С запуском Nano Banana 2 Google переводит быструю и достоверную генерацию изображений из категории премиальных дополнений в разряд стандартных возможностей, что сигнализирует об ужесточении конкуренции на рынке высокоскоростных инструментов для творчества на базе искусственного интеллекта

Разработчик ИИ Claude обвиняет китайские стартапы в незаконном копировании своей модели

Разработчик ИИ Claude обвиняет китайские стартапы в незаконном копировании своей модели

Американская компания Anthropic, разработчик известной модели искусственного интеллекта Claude, обвинила три крупные китайские фирмы в незаконном сборе данных для обучения собственных систем. В официальном блоге компании сообщается, что DeepSeek, MiniMax Group Inc. и Moonshot создали тысячи поддельных аккаунтов и использовали прокси-сервисы, чтобы скрыть свою деятельность и сгенерировать в общей сложности более 16 миллионов запросов к моделям Claude. По данным Anthropic, DeepSeek ответственен за более чем 150 000 взаимодействий, в то время как активность MiniMax превысила 13 миллионов обращений. Такая практика, известная как дистилляция, позволяет разработчикам обучать свои модели на выходах более совершенных систем, по сути, копируя их высокие возможности. В Anthropic подчеркнули, что действия китайских компаний нарушают условия обслуживания, а масштабы и изощренность атак выходят за рамки обычного использования техники машинного обучения. Компания заявила, что смогла идентифицировать нарушителей с высокой степенью уверенности благодаря анализу IP-адресов, метаданных и данным, полученным от партнеров по отрасли, которые столкнулись с аналогичной подозрительной активностью. Эти обвинения прозвучали всего через неделю после того, как OpenAI, возглавляемая Сэмом Альтманом, выдвинула похожие претензии в адрес китайских разработчиков ИИ. Ситуация усиливает обеспокоенность в Вашингтоне относительно того, используют ли китайские компании американские технологии для завоевания лидирующих позиций в сфере искусственного интеллекта. Ранее в этом году DeepSeek потрясла отрасль выпуском модели R1, заявив о ее создании при значительно более низких затратах по сравнению с ведущими американскими аналогами. Успех китайских компаний, включая недавний выход MiniMax на публичные рынки и планы Moonshot по привлечению инвестиций с оценкой в 10 миллиардов долларов, демонстрирует стремительное развитие ИИ-экосистемы в Китае. В Anthropic заявили, что уже усилили свои системы обнаружения и проверки для противодействия масштабным дистилляционным атакам и делятся данными об угрозах с другими разработчиками. В компании подчеркнули, что ни одна организация не может решить эту проблему в одиночку, и призвали к скоординированному ответу со стороны всей ИИ-индустрии, облачных провайдеров и политиков.

Страница 1 из 2