Screenshot to Code - AI将截图转换为网页代码的开源项目
Sscreenshot to Code是一个开源的项目,利用人工智能技术(GPT-4V 和 DALL·E 3)将用户的屏幕截图转换为前端网页代码。项目的核心功能是自动化网页设计的编码...
Sscreenshot to Code是一个开源的项目,利用人工智能技术(GPT-4V 和 DALL·E 3)将用户的屏幕截图转换为前端网页代码。项目的核心功能是自动化网页设计的编码...
DDColor是阿里达摩院的研究人员推出的一个开源的AI图像着色框架,可以一键将黑白图片上色变为全彩图像。该方法通过使用双解码器架构(像素解码器和颜色解码器...
Real-ESRGAN(Real-World Blind Super-Resolution with Pure Synthetic Data)是由腾讯的研究团队推出的一个深度学习模型,专门用于处理和提升低分辨率图像到...
DemoFusion是一个旨在低成本进行高分辨率图像生成的技术框架,通过扩展现有的开源生成人工智能模型(如Stable Diffusion),使得这些模型能够在不进行额外训...
ActAnywhere是一个由斯坦福大学和Adobe Research的研究人员共同开发的视频生成模型,旨在解决视频背景生成的问题,特别是在需要将前景主体(如人物)与新背景...
Vary-toy是一个小型的视觉语言模型(LVLM),由来自旷视、国科大、华中大的研究人员共同提出,旨在解决大型视觉语言模型(LVLMs)在训练和部署上的挑战。对于...
Lepton Search是由原阿里巴巴技术副总裁和AI科学家贾扬清创办的Lepton AI应用构建平台开源的一个对话式AI搜素引擎,该项目基于调用Lepton平台上的云端人工智...
Follow Your Pose是由清华大学、香港科技大学、腾讯AI Lab以及中科院的研究人员开源的一个基于文本到视频生成的框架,允许用户通过文本描述和指定的人物姿态...
IP-Adapter(Image Prompt Adapter)是一种专门为预训练的文本到图像扩散模型(如Stable Diffusion)设计的适配器,目的是让文生图模型能够利用图像提示来生...
OLMo(Open Language Model)是由Allen AI(AI2,艾伦AI研究所)开发的一个完全开源开放的大型语言模型(LLM)框架,设计初衷是为了通过开放研究,促进学术界...
DiffusionGPT是由来自字节跳动与中山大学的研究人员推出的一个开源的大模型(LLM)驱动的文本到图像生成系统,旨在解决文生图领域无法处理不同的输入或者仅限...
MetaGPT是一个创新的元编程框架,结合了大语言模型和多智能体协作系统,旨在通过模拟人类工作流程来解决复杂问题。该框架的核心在于将标准化操作程序(SOPs)...
Make-A-Character(简称Mach)是一个由阿里巴巴集团智能计算研究院开发的一个人工智能3D数字人生成框架,旨在通过文本描述快速创建逼真的3D角色。该系统特别...
MotionCtrl是由来自腾讯和香港大学等机构的研究人员推出的一个为视频生成模型设计的统一且灵活的运动控制器,能够独立地控制视频中的相机运动和物体运动视角...
AnimateDiff是由上海人工智能实验室、香港中文大学和斯坦福大学的研究人员推出的一款将个性化的文本到图像模型扩展为动画生成器的框架,其核心在于它能够利用...
Depth Anything是由来自Tiktok、香港大学和浙江大学的研究人员推出的一个为单目深度估计设计的深度学习模型,旨在处理各种情况下的图像并估计其深度信息。该...
V-JEPA是由Meta的研究人员推出的一种新型的视频自监督学习方法,它专注于通过特征预测来学习视频的视觉表示。这种方法的核心思想是让模型能够预测视频中一个...
Boximator是有字节跳动的研究团队开发的一种视频合成技术,旨在生成丰富且可控的运动,以增强视频合成的质量和控制性。该技术通过引入两种类型的约束框(硬框...
DiT(Diffusion Transformers)是一种新型的扩散模型,由William Peebles(Sora的研发负责人之一) 与纽约大学助理教授谢赛宁提出,结合了去噪扩散概率模型(...
VideoPoet是由谷歌的研究团队开发的一种基于大模型的AI视频生成方案,支持从文本、图像或视频输入中合成高质量的视频内容,并生成匹配的音频。VideoPoet的核...
SDXL-Lightning是由字节跳动的研究团队推出的一种基于扩散模型的文本到图像生成技术,旨在解决传统扩散模型在图像生成速度和计算成本上的局限性。该模型基于 ...
Stable Diffusion 3 是由 Stability AI 开发的一款先进的文本到图像生成模型,是 Stable Diffusion 系列模型的最新迭代,旨在通过文本提示生成高质量的图像。...
ConsiStory是由NVIDIA和特拉维夫大学的研究人员共同开发的一种无需训练的文本生成图像的方法,可以实现让图像在保持风格和主题不变的情况下,遵循不同的文本...
ScreenAgent是一个由吉林大学人工智能学院的研究团队开发的计算机控制智能体,该智能体是基于视觉语言模型(VLM)构建的,能够与真实计算机屏幕进行交互。Scr...