阿里又推“黑科技”!这次瞄准了文生3D人。Make-A-Character支持一句话生成超逼线D。只一定要通过文字描述人的脸型、五官、发型等特征,它就能在不到2分钟的时间内生成一个超逼线D角色。
而且你可以自定义面部特征,例如脸型、眼睛颜色、发型、眉毛类型、嘴巴和鼻子,以及添加皱纹和雀斑等。
1、可控制性:用户都能够详细自定义面部特征,例如脸型、眼睛颜色、发型、眉毛类型、嘴巴和鼻子,以及添加皱纹和雀斑等。
2、高度逼真:角色基于真实人类扫描数据集生成,发型为实际发丝而非网格,使用Unreal Engine的物理基础渲染(PBR)技术渲染,以实现高质量实时渲染效果。
3、完整模型:每个角色都是完整模型,包括眼睛、舌头、牙齿、全身和服装,无需额外建模即可立即使用。
4、可动画化:角色配备复杂的骨骼装置,支持标准动画,增强其逼真外观和多样化应用。
5、行业兼容:生成的3D角色可以无缝集成到现有的计算机图形(CG)工作流程中,特别是在游戏和电影行业中常用的工作流程。
MACH支持英文和中文提示,可根据详细的文本描述快速生成3D角色,例如“圆脸胖女士”或“棕皮肤戴黑眼镜的男孩,绿色头发”等等。
1、文本解析:首先,MACH使用大语言模型(比如GPT类模型)来理解用户输入的文本描述。这样的一个过程中,它会识别出文本中提到的各种面部特征,例如脸型、眼睛形状、嘴巴形状、发型和颜色等。
2、视觉映射:接着,这些语义属性(如脸型、眼睛形状等)被映射到对应的视觉线索上。这在某种程度上预示着系统会根据文本中的描述生成一个参考的人脸图像。这个步骤通常使用像“Stable Diffusion”这样的图像生成模型来完成。
3、2D面部解析:生成的参考图像接下来会经过2D面部解析过程,这一过程涉及到对人脸的不同部分进行识别和分割。
4、3D生成:基于面部解析的结果,MACH开始生成目标角色的3D网格和纹理。这样的一个过程包括创建角色的3D模型,并且将纹理(如皮肤、头发等)应用到模型上。
5、附加配件:如果文本描述中提到了其他配件(如眼镜、帽子等),这些也会在这一步骤中添加到3D角色上。
6、参数化表示和动画:最终生成的3D角色是参数化的,这在某种程度上预示着可以容易地对其进行动画处理,比如添加行走、说话等动作。
通过这些步骤,MACH能够迅速从简单的文本描述中生成逼真的、完整的、可动画化的3D角色,适用于各种娱乐和专业场景。
11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,稳定性很高,让您的云端之旅更加畅享。快来腾讯云选购吧!
随着科技的持续不断的发展,人脸识别技术已大范围的应用于所有的领域。将人脸照片转化为3D模型的需求也日渐增长,如游戏开发、影视制作、人脸识别门禁系统等。我们有理由相信3D数字人脸模型重建技术在未来将具有更为广阔的发展前途和市场需求。
阿里通义实验室XR实验室开源了文生3D新模型,能够最终靠一句文本描述生成对应的3D模型及纹理。开源的模型包括Text-to-ND和Text-to-ND-MV两个大模型。还同步开源了从大模型中蒸馏出3D模型的优化代码,串联能够实现文本直接到3D模型的生成。
在虚拟现实领域,快速创建定制虚拟人物并实现与其互动是一个普遍的应用场景。以往的方法在快速重建高保线D数字人体和实时渲染之间往往难以平衡。Human101通过引入创新的技术和实用的方法,成功地解决了单视角视频中快速建模和实时渲染之间的矛盾,为实时交互应用和沉浸式虚拟现实体验提供了可行的解决方案。
站长之家向大家推荐过drawfast、LeonardoAi、Pikaso等多款实时AI绘图工具,用户只要简单画几条线条就可以实时生成好看的图画。体验地址:现在,实时画图又进化了!直接从草图变成3D模型。在儿童游戏和专业3D创意工作中都能发挥一定作用。
清华大学刘永进教授课题组在文生3D领域取得了重大突破,提出的TICD模型在SOTA水平上取得了显著的成绩。本文将介绍TICD的创新之处以及其在3D图形生成领域的应用。TICD有望在更广泛的应用中发挥及其重要的作用,为文本生成3D领域的发展提供新的思路与可能性。
斯坦福大学与FAIRMeta的研究人员合作开发的CHOIS系统,通过引入基于语言描述、初始状态和稀疏对象航点的方法,成功解决了在3D场景中生成对象和人物同步运动的难题。该系统通过在指定的3D环境中产生逼真且可控的运动,控制了人物与对象之间的交互。将学到的交互模块应用于基于3D场景对象航点生成长期交互也将拓展CHOIS的适用性。
生成式AI在3D领域在很长一段时间内都在等待自己的「ChatGPT」时刻。传统3D建模涉及游戏、影视、建筑等多个行业,普遍依赖专业技术人员手动操作,生产周期短则几天,多则以月为单位,单个3D模型的创建成本至少需要几千元。或许在不久之后,3D赛道也会出现像「ChatGPT」这样的现象级产品VAST这家年轻的中国初创公司格外值得期待。
腾讯宣布推出一项名为Paint3D的技术,该技术在解决了生成没有内嵌光照信息的高质量纹理的挑战后,成为自动化纹理贴图生成领域的重大进展。Paint3D可以依据文本或图像输入,在无纹理的3D模型上生成高分辨率、无光照的多样化纹理贴图。更重要的是,Paint3D生成的纹理贴图是没有内嵌光照阴影效果的,使得生成的纹理能够被重新照明或重新编辑,直接应用于现有的渲染管线
DeepFashion 是一个 AI 时尚创新平台,通过训练品牌 AI 模型,为用户生成与其个性风格相符的时尚造型。用户只需上传 5 张图片并进行 10 分钟的训练,AI 助手每天就能生成 17280 张高分辨率 4K 时尚 LOOK 图像,完美体现用户的个性特点。这个创新且高效的工具将提升您的时尚体验。
ASKWay App:探索无限创意工作坊的可能性,打造独特的AI伙伴。
ASKWay利用ChatGPT和GPT-4,提供创新的AI聊天和助手体验。用户都能够创建独特的AI聊天机器人伙伴,定制外观,培养个性,分享情感,减轻焦虑,与之一同成长。该应用提供沉浸式AI体验和AI时间创意工作坊,鼓励用户进行艺术表达、技术实践和跨学科合作。
笔杆论文写作是一款专业的写论文平台,提供内容生成、素材推荐、修改润色、论文查重、审核校对、智能降重、多语言翻译等全流程写论文工具。它通过数十亿学术文献为 AI 赋能,实现自主创作,快速高效,保证原创度。同时,提供沉浸式论文写作、写作模板、智能提纲推荐、写作思路推荐、论文查重等丰富的论文服务,满足写论文当中的所有需求。
歌者PPT是一款可以帮助用户生成高质量PPT的工具。用户只需输入标题,AI就能够准确的通过用户的需求帮助完成PPT的创作,节约用户构思和美化时间。歌者PPT提供多种模式轻松输入,能适应不同的使用场景,同时也提供丰富的模板和工具供用户自由编辑。用户还可以一键分享或下载PPT文件。歌者PPT定位于节省用户时间,提供高质量的PPT创作服务。
Otto SEO是一个利用人工智能技术进行SEO优化的在线平台。它结合了数十年的SEO专业相关知识以及最先进的AI模型,简化了SEO内容生成、技术优化等复杂流程。用户都能够为不同的品牌定制语音,生成针对品牌个性化的独特优化内容。平台内容通过检验测试 Basically Human 得到99%以上符合人类原创的结果。支持无限量WordPress集成、Zapier等第三方工具连接,以及内容排期发布等功能。Otto SEO的目标是完全取代传统数字营销代理机构,以更高效、低成本的方式使用户得到满足的SEO需求。
Open-Vocabulary SAM是一个基于SAM和CLIP的视觉基础模型,专注于交互式分割和识别任务。它通过SAM2CLIP和CLIP2SAM两个独特的知识传输模块,实现了SAM和CLIP的统一框架。在各种数据集和检测器上的广泛实验表明,Open-Vocabulary SAM在分割和识别任务中的有效性,明显优于简单组合SAM和CLIP的朴素基准。此外,结合图像分类数据训练,该办法能够分割和识别大约22,000个类别。
Resume Analyzer AI:AI简历分析器,限200MB PDF
Resume Analyzer AI是一款基于AI的应用程序,能够分析简历内容,帮助用户快速了解和评估求职者的能力和潜力。通过对简历的语义分析和关键词提取,用户都能够更加全面地了解求职者的工作经历、技能和教育背景。这款应用程序的优点是快速、准确地分析大容量的简历文件,为招聘流程提供高效支持。定价灵活,适用于个人用户和企业用户。
SwiftInfer:基于TensorRT框架的大规模语言模型推理加速库
SwiftInfer是一个基于Nvidia TensorRT框架的大规模语言模型(LLM)推理加速库,通过GPU加速,极大提升LLM在生产环境中的推理性能。该项目针对流式语言模型提出的Attention Sink机制进行了实现,支持无限长度的文本生成。代码简洁,运行方便,支持主流的大规模语言模型。
Flappie是一款带有人工智能图像识别技术的智能猫门,能够检测您的猫带回家的老鼠、小鸟等猎物,并通过App推送猫咪的视频和照片。它能够尽可能的防止您的猫将猎物带入家中,同时让您通过App了解猫咪的生活。Flappie拥有选择性进出控制功能、猎物摄像头检测、App远程控制等功能。它采用本地化的人工智能技术,能保证数据安全性。