٩(◕‿◕。)۶ 嗨,探险家!
还没拿到探险许可吗?
加入数字探险
欢迎回到数智世界!
用户名
密码
同意
《用户服务协议》
《隐私政策》
开启
密码掉进黑洞了?
微信公众号
抖音视频
微信视频号
小红书
数智朋克
DIGIPUNK
快讯
智选
创新
探索
欢迎进群
来自
去投稿
网创工坊
谷歌Gemini 2.5 Pro作为首个内建推理能力的多模态AI模型,凭借原生统一架构在代码生成、科学计算、动态模拟等领域实现突破。该模型支持百万级上下文处理,在多项基准测试中超越人类专家表现,通过Google AI Studio向开发者开放API服务,其创新的定价策略重构了AI服务成本体系。
Gemini 2.5 Pro:谷歌“思考型AI”如何重新定义多模态推理边界
网创工坊
extoon 是一种由 Human3DAIGC 团队开发的 AI 技术,旨在通过文本描述自动生成 2D 卡通角色,并将其转化为动态的 Live2D 模型。这项技术打破了传统设计流程,让任何用户都能轻松创建个性化的虚拟人物,广泛应用于游戏、动画和虚拟偶像等领域。
Textoon:AI驱动的文本到2D卡通角色技术
网创工坊
AnyStory 是一款革命性的图像生成工具,凭借其先进的“编码-路由”方法,实现了超高保真度的个性化文本到图像生成。通过对图像中的单一或多个主体进行深度学习,AnyStory 能精准捕捉细节,提供更加定制化的创作体验。
AnyStory:突破性AI技术让个性化图像创作与人物一致性一键搞定!
网创工坊
WorldLabs最近发布了一项突破性的技术,首次展示了一个可以将单一图像转化为3D世界的AI系统。这项技术让我们不再是“看”图像,而是“走进”图像,探索其深度和细节。
从2D图像到身临其境的3D世界:WorldLabs的AI创新
网创工坊
GitHub Spark 通过无代码的自然语言编辑器、托管运行环境和跨设备仪表盘,使用户能轻松创建、分享和定制个性化微应用“Spark”。借助AI支持,用户无需编写或部署代码即可创建个性化工具,大幅降低了软件开发的复杂度。
GitHub Spark:让AI驱动的微应用开发触手可及
网创工坊
Meta发布了MovieGen,一款基于生成式AI的多模态模型,能通过文本输入生成高质量视频和音频。MovieGen不仅支持个性化视频生成,还能对现有视频进行精准编辑,提供高保真的音效生成能力。这一技术旨在为创作者提供更便捷的工具,打破传统创作门槛,释放更大的创意潜力。
Meta推出MovieGen:生成式AI助力视频内容创作创新
网创工坊
NVIDIA推出MaskedMimic技术,打造了一种基于物理的统一控制器。该系统通过“掩码运动补全”,使虚拟角色能从部分输入(如关节位置、文本命令等)生成复杂动作,适应多种场景。无论是VR跟踪、路径导航,还是物体互动,MaskedMimic都能实现无缝过渡,为虚拟角色带来极高的交互和适应性。
重塑虚拟世界的物理控制:探索NVIDIA的MaskedMimic
网创工坊
Seed Music 是 Doubao 团队推出的一套音乐生成系统,能够生成高质量的多语言人声音乐,支持用户通过精细的音符级别调整创作音乐,还能整合用户自有声音进行个性化演唱。系统采用了自回归和扩散式方法结合的框架,兼具风格控制与编辑能力,并支持零样本唱歌转换,用户仅需提供10秒的声音即可实现个性化演唱。
Seed Music: 打造音乐生成的全新可能
网创工坊
GameGen-O是由腾讯和香港等地的科研团队共同开发的首个专为开放世界游戏生成设计的扩散变换模型。模型展示了AI在游戏开发中的巨大潜力,能够生成动态复杂的游戏场景,并提供多模态的交互控制。
AI驱动的游戏未来:GameGen-O打造动态复杂的游戏场景
网创工坊
Ref-AVS 是一项全新提出的任务,旨在通过自然语言中包含的多模态线索(如音频、视觉等)对视频中的目标进行精准分割。这种任务模仿了人类在现实世界中基于多模态信息识别和定位物体的能力,并通过创建首个Ref-AVS基准数据集进行实验验证,标志着音视场景理解的新进展。
Ref-AVS:多模态音视场景的精准目标分割革命
DIGIPUNK
AIGC社群
联系我们
加入我们
商务合作
我要投稿
解决方案
媒体矩阵
Copyright © 2023-2024 DIGIPUNK LTD.