AI视频生成产品 Pollo AI 获 1400 万美元融资
AI视频生成平台Pollo AI近日完成1400万美元首轮融资,由高成资本领投,真格基金跟投。其创始人朱陈彪(阿彪)无大厂背景,凭借SEO经验推动产品早期增长,7个月月活超400万。目前平台注册用户超2000万,已实现盈亏平衡。
AI视频生成平台Pollo AI近日完成1400万美元首轮融资,由高成资本领投,真格基金跟投。其创始人朱陈彪(阿彪)无大厂背景,凭借SEO经验推动产品早期增长,7个月月活超400万。目前平台注册用户超2000万,已实现盈亏平衡。
谷歌面向Gemini Ultra订阅用户(月费249.99美元)正式公测Gemini 3 Deep Think模式。模式采用并行推理技术,调用更多计算资源,在复杂数学、科学及逻辑问题中表现突破:在Humanity’s Last Exam测试中取得41%高分,GPQA Diamond测试达93.8%。
可灵全量上线数字人2.0版本,实现三大核心升级:表演力全面进化,支持精准的体态、手势与表情控制;口型与手部细节显著优化,增强真实感;单次生成视频时长延长至5分钟,覆盖科普、广告等长内容场景。
火山引擎发布豆包语音识别模型2.0。模型基于Seed混合专家架构,通过PPO强化学习实现深度上下文推理,关键词召回率提升20%。新增多模态视觉识别能力,可结合图像内容精准分辨易混淆词(如“滑鸡”与“滑稽”),支持日语、韩语、德语等13种语言的精准识别。
火山引擎发布豆包图像创作模型Seedream 4.5并开启公测。模型在主体一致性、指令遵循、空间逻辑及美学表现上显著提升,重点强化多图组合生成、海报排版与Logo设计能力,可精准满足广告营销、电商运营、影视制作等商业场景需求。
可灵2.6全量上线,是其首个“音画同出”模型,能单次生成同时产出画面、自然语音、匹配音效及环境氛围。模型支持文生音画与图生音画两种创作路径,适配单人独白、旁白解说、多人对白、音乐表演及创意场景等多种应用。
小红书全资收购上海生动诗章科技有限公司,正式将旗下AI搜索产品“点点”纳入集团体系。此次收购强化AI搜索能力,提升内容电商竞争力。收购后,小红书将加速AI战略落地,应对字节跳动、阿里等巨头竞争,优化用户行为路径,巩固内容生态。
国产SOTA图像模型Seedream 4.5在LiblibAI平台正式上线。相比4.0版本,新模型在一致性保持、精准文本/版式渲染、多图参考生成和真实质感模拟方面能力显著升级,尤其擅长处理中文海报、营销物料等本土化内容,支持最多10+参考图融合。
商汤科技联合南洋理工大学发布全球首个原生多模态架构NEO,突破传统”视觉编码器+投影器+语言模型”的拼凑范式。架构通过原生图块嵌入、三维旋转位置编码和原生多头注意力三大创新,实现视觉与语言的深层融合。
在AWS re:Invent大会上,亚马逊云科技发布十大AI更新:推出自研AI芯片Trainium4(性能提升6倍)及Trainium3服务器;第二代大模型Amazon Nova 2系列(Lite、Pro、Sonic、Omni)性能超越多款主流模型;Bedrock平台新增18款开源模型,包括阿里、Kimi等中国模型;推出AgentCore开发工具和四大智能体(如自主编程、安全运维),强化企业级AI应用。
Anthropic宣布收购热门JavaScript工具链公司Bun,交易金额未公开。Bun创始人Jarred Sumner因其工具被Claude Code等AI编程产品广泛使用,并看好Anthropic在AI编程领域的前景而选择加入。此次收购将Bun的高性能运行时和打包技术深度整合进Claude Code及未来AI工具,以提升性能与分发效率。Bun将保持开源并继续独立发展。
Mistral AI发布新一代Mistral 3系列模型,全线回归Apache 2.0开源协议。系列包括675B参数的Mistral Large 3混合专家模型,以及14B/8B/3B的Ministral 3边缘端模型。Large 3在3000台H200 GPU上训练,具备图像理解能力,在LMArena开源模型中排名第二。
PixVerse发布PixVerse V5.5视频生成模型,实现国内首个分镜与音频同步生成技术。模型具备”导演级”智能,可一键生成5秒、8秒或10秒的多镜头叙事单元,自动完成远景、中景、近景的自然切换。创新之处在于同步生成人声、环境声和情绪配音,使角色口型、动作与音频完美契合。
英伟达发布推理版视觉-语言-行动模型Alpamayo-R1,为自动驾驶系统赋予因果推理能力。模型突破传统端到端系统在长尾场景中的局限,通过”因果链”数据集让车辆理解”为何这样驾驶”而非简单执行指令。三大创新包括结构化因果标注体系、扩散式轨迹解码器和多阶段训练策略。
Runway正式发布Gen-4.5视频生成模型,该模型以”Whisper Thunder (aka) David”的匿名身份登上Artificial Analysis榜单首位。Gen-4.5在运动质量、提示词遵循度和视觉逼真度方面树立新标准,ELO评分达1247分,超越Veo 3/3.1、Kling 2.5和Sora 2 Pro等主流模型。具备精确的物理模拟能力、复杂的场景构建和电影级画面质感,支持多种控制模式。
LiblibAI全球首发「可灵O1」统一多模态视频模型,是首个将视频内容增删、风格重绘、镜头延展等多项任务融于一体的大一统模型。模型支持最多7张参考图像保持内容一致性,可通过自然语言指令智能编辑视频,具备视频参考生成能力。
阶跃星辰开源GELab-Zero,推出4B参数GUI Agent模型GELab-Zero-4B-preview。模型在多项基准测试中取得同尺寸SOTA成绩,能流畅执行复杂与模糊指令。项目同步开源了完整的推理工程基建,支持一键部署、多设备任务分发,解决移动端Agent规模化落地的工程难题。
字节跳动发布新一代视频理解模型Vidi2,在时空定位等核心任务上的表现超越GPT-5与Gemini 3 Pro。模型能精准理解数小时的长视频内容,直接生成包含剪辑时间点、字幕、配乐等细节的完整JSON剪辑方案,实现从原始素材到成片的AI自动化剪辑。
DeepSeek正式发布DeepSeek-V3.2版本,包含标准版和Speciale长思考增强版。标准版平衡推理能力与输出效率,达到GPT-5水平;Speciale版在IMO、ICPC等国际竞赛中斩获金牌,推理能力媲美Gemini-3.0-Pro。升级首次实现思考与工具调用融合,在Agent评测中达到开源模型最高水平。
腾讯混元3D Studio升级至1.1版本,集成全新美术级3D生成模型PolyGen 1.5,实现端到端原生四边形网格生成技术突破。模型首创自适应混合拓扑能力,可直接生成布线规整的专业级3D资产,在布线质量、结构完整度等关键指标上超越现有SOTA方法。
昆仑万维旗下AI音乐平台Mureka正式发布V7.6与O2双模型,推动AI音乐创作进入“专业品质×实时体验”新阶段。新模型基于MusiCoT细粒度音乐建模体系,在编曲结构、语义映射及声场音质方面实现显著提升,支持10种语言生成及自定义歌手功能。
DeepSeek开源新一代数学模型DeepSeek-Math-V2,实现IMO金牌级推理能力。模型突破性引入自我验证机制,通过“生成器-验证器-元验证”三重架构,使AI具备检查并修正自身推理过程的能力。在IMO 2025测试中取得83.3%高分,Putnam 2024测试接近满分。
清华系AI基础设施企业无问芯穹完成近5亿元A+轮融资,成立两年半累计融资近15亿元。本轮融资将用于强化软硬协同技术优势,加速智能体在数字与物理世界的规模化普惠应用。
字节跳动Seed团队开源视觉空间重建模型Depth Anything 3,突破性采用单一Transformer架构实现任意视角空间感知。模型通过“深度-射线”统一表征法,将相机姿态估计、几何重建等任务集成于简洁框架,在相机姿态精度和几何重建任务上分别较主流模型VGGT提升35.7%和23.6%。