推广 热搜:   企业  行业  可以  北京  选择  服务  上海  怎么  使用 

音频美学评估新范式!Audiobox-Aesthetics首创四维音频量化;670万个案例!Caselaw解锁法律参考的合规蓝本

   日期:2025-08-24     移动:http://mob.kub2b.com/quote/2001.html

传统的音频评估通常依赖于人工听评,其主观偏差性导致评估标准难以统一。而现有评估方法和工具虽然能够给出一定的评估结果,但大多仅聚焦于整体音频质量,缺乏对局部细节不足的针对性分析。


为此,meta AI 推出了音频质量评估工具 Audiobox-Aesthetics,实现对语音、音乐和环境声音的多维度自动分析,通过 Production Quality、Production Complexity、Content Enjoyment、Content Usefulness 四个核心维度全面评估音频质量不仅弥补了人工听评与现有工具的固有缺陷,更为音频创作者、工程师和研究人员提供专业级的量化分析,为音频优化提供精准导向。


目前,HyperAI超神经官网已上线了「AudioBox-Aesthetics 音频美学评估 Demo」,快来试试吧~


在线使用:https://go.hyper.ai/FNpIQ


7 月 21 日-7 月 25 日,hyper.ai 官网更新速览:


* 优质公共数据集:10 个

* 优质教程精选:8 个

* 本周论文推荐:  5 篇

* 社区文章解读:5 篇

* 热门百科词条:5 条

* 8 月截稿顶会:9 个


访问官网:hyper.ai


公共数据集精选


1. Medical Information 药品信息数据集


Medical Information Dataset(简称 MID 数据集)是目前最大的、具有代表性的药品信息数据集。该数据集包含 44 个不同治疗类别的数据,涵盖超过 192,000 种药品,旨在提供准确、权威的药品信息、支持药物分类和治疗标签,提升临床试验管理的预测和效率。


直接使用:https://go.hyper.ai/qmGCW


2.Nemotron-Math-HumanReasoning 数学推理数据集 


Nemotron-Math-HumanReasoning 是由英伟达发布的一个数学推理数据集,旨在模拟 DeepSeek-R1 等模型的扩展推理风格。该数据集包含来自 OpenMathReasoning 数据集的 50 道数学题、200 个人工撰写的解答,以及由 QwQ-32B-Preview 额外生成的 50 个解答。


直接使用:https://go.hyper.ai/udrjz


3. Updesh 印度语合成文本数据集


Updesh 是由微软发布的一个印度语合成文本数据集,旨在推动针对印度语言的大型语言模型(LLMs)的后训练工作。该数据集包含 6,800,000 条推理数据及 2,100,000 条生成数据,其涉及的语言有阿萨姆语、孟加拉语等。


直接使用:https://go.hyper.ai/wMWci


4. QMOF150 量子化学数据集


QMOF150 是由 meta 联合剑桥大学发布的一个量子化学数据集,旨在加速量子材料的发现。该数据集包含约 14,000 个金属有机框架(MOF)和配位聚合物。其中,经实验表征的 MOF 在通过 DFT 进行结构弛豫后,其计算属性被涵盖在内,这些属性包括但不限于优化的几何形状、能量、带隙、电荷密度、状态密度、部分电荷、自旋密度和键序。


直接使用:https://go.hyper.ai/2rxVD


5. Safety Vests Detection 安全背心检测数据集


Safety Vests Detection 是一个安全背心检测数据集,旨在对新的对象检测架构进行基准测试(YOLOv8 、 Faster-RCNN 、 SSD 等)、相关 PPE 检测任务(头盔、手套、护目镜)的迁移学习和边缘部署安全监视器的原型开发,帮助开发和训练模型,自动识别和检测穿戴安全背心的人员,提高工作场所的安全性。该数据集包括 3,897 张高清照片、边界框注释以及图像环境。


直接使用:https://go.hyper.ai/q0aEL

图片

数据集示例


6. Open-Omega-Atom-1.5M 数学与科学推理数据集


Open-Omega-Atom-1.5M 是一个数学与科学推理数据集,旨在增强数学和科学领域的推理能力。该数据集包含了约 150 万条数据,专为数学、科学和代码应用设计,其中数学类数据在构成中占重要地位。


直接使用:https://go.hyper.ai/ctAbA


7. AF-Chat 音频对话文本数据集


AF-Chat 是由英伟达发布的一个音频对话文本数据集,旨在训练和评估对话生成模型。该数据集包含约 7.5 万个多回合、多音频对话(平均 4.6 个片段和 6.2 个回合;范围为 2-8 个片段和 2-10 个回合),涵盖语音、环境声音和音乐。


直接使用:https://go.hyper.ai/mx6G0


8rStar Coder 竞赛级代码问题数据集


rStar Coder 是由微软发布的一个大规模竞赛级代码问题数据集,旨在增强大型语言模型的代码推理能力,尤其是在处理竞赛级代码问题方面。该数据集包含 41.8 万个竞赛级编程问题、58 万个长推理解决方案以及丰富多样的测试用例(难度各异),每个解决方案都经过了不同难度级别的各种模拟测试用例的验证。


直接使用:https://go.hyper.ai/uJXHe


9. Caselaw 法律文献数据集


Caselaw 是由多伦多大学发布的一个法律文献数据集,该数据集包含来自 Caselaw Access Project 和 Court Listener 的 670 万个案例。 Caselaw Access Project 和 Court Listener 从各种资源中获取法律数据,仅纳入了属于公共领域的文档,例如哈佛法律图书馆、国会法律图书馆和最高法院数据库。


直接使用:https://go.hyper.ai/a1bET


10. APM 蛋白质生成数据集


APM 是由湖南大学联合中国科学院大学、字节跳动 Seed 团队于 2025 年发布的一个蛋白质生成数据集,由单链蛋白质数据集和多链蛋白质数据集构成。


直接使用:https://go.hyper.ai/p4qgN


公共教程精选



1. AudioBox-Aesthetics 音频美学评估 Demo


Audiobox-Aesthetics 是由 meta AI 发布的音频质量评估工具。该工具基于深度学习技术,实现对语音、音乐和环境声音的多维度自动分析,通过四个核心维度全面评估音频质量,为音频创作者、工程师和研究人员提供专业级的量化分析。


在线运行:https://go.hyper.ai/FNpIQ


图片

效果示例


2. LFM2-1.2B:高效边缘部署的文本生成模型


LFM2-1.2B 是由 Liquid AI 推出的第二代液体基础模型(LFMs),是一款基于混合架构的生成式 AI 模型。它以提供行业内最快的设备端生成式 AI 体验为目标,专为低延迟设备端语言模型工作负载设计。


在线运行:https://go.hyper.ai/fEtm9


图片

项目示例


3. Osmosis-Structure-0.6B:结构化输出的小语言模型


Osmosis-Structure-0.6B 是由 Osmosis 推出的一款专用型小型语言模型(SLM),旨在完成结构化输出生成任务。尽管其参数规模仅为 0.6B,但与支持的框架结合使用时,该模型在提取结构化信息方面展现出卓越的性能。


在线运行:https://go.hyper.ai/ayrhc


图片

项目示例


4. MOSS:文本到口语对话生成


MOSS-TTSD 是由 OpenMOSS 团队发布的一个开源的双语口语对话合成模型,支持中文和英文。它能够将两位说话者之间的对话脚本转换为自然、富有表现力的对话语音。MOSS-TTSD 支持语音克隆和长单段语音生成,使其成为 AI 播客制作的理想选择。


在线运行:https://go.hyper.ai/FOpMa


图片

项目示例


5. isometric-skeumorphic-3d-bnb:等距 3D 风格图标生成


isometric-skeumorphic-3d-bnb 是由团体 multimodalart 发布的一款 LoRA 模型,主打生成兼具拟物化设计美感与风格化特质的 3D 等距图标。该模型在处理现实世界物体与建筑地标时表现突出,能将其转化为极具辨识度的图标风格插图。


在线运行:https://go.hyper.ai/3BnDy


图片


效果示例


6. DiffuCode-7B-cpGRPO:基于掩码扩散技术的代码生成模型


DiffuCoder-7B-cpGRPO 是由 Apple 团队提出的一种基于掩码扩散(masked diffusion)的代码生成模型(dLLM)。该模型旨在通过迭代式降噪的方式进行代码的生成与编辑,而非传统的从左到右的自回归(Autoregressive)生成。


在线运行:https://go.hyper.ai/CMfWm


图片

项目示例


7. LAMMPS:以单晶铝为例,模拟材料单轴拉伸


LAMMPS(Large-scale Atomic/Molecular Massively Parallel Simulator)是一种经典的分子动力学仿真代码,专注于材料建模。本次教程中通过改变材料的晶格常数,实现模拟对施加材料单轴应变的情况,后续再计算并绘制材料的应变应力曲线。


在线运行:https://go.hyper.ai/LAqAs


8. Voxtral-Mini-3B-2507 语音理解模型 Demo


Voxtral 是由 Mistral AI 推出的先进音频模型,基于卓越的语音转录和深度理解能力,推动语音作为自然的人机交互方式。该模型支持多语言、长文本上下文处理、内置问答和总结功能,能直接触发后端功能调用。Voxtral 性能在多个基准测试中超越现有开源模型和专有 API,同时成本更低,广泛应用在各种场景,助力语音交互的普及。


在线运行:https://go.hyper.ai/PpjOs



本文地址:http://baitong.kub2b.com/quote/2001.html     企库往网 http://baitong.kub2b.com/ ,  查看更多

特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


0相关评论
相关最新动态
推荐最新动态
点击排行