说话人识别 : 实现企业级说话人识别的最简单途径——免费开始
将声音转化为安全的身份标识。Story321 提供生产就绪的说话人识别功能,具有准确的声音匹配、快速的说话人分离和以隐私为先的处理方式。只需注册一次说话人,即可在您的应用程序监听的任何地方识别他们——通话、会议、语音助手和流媒体。通过 SDK、简洁的 API 和分析功能,让说话人识别变得可衡量和可靠,几分钟即可开始使用。
什么是说话人识别?
说话人识别是一种通过声音确定谁在说话的技术。与将音频转换为文本的通用语音识别不同,说话人识别侧重于身份——将传入的声音与已知的说话人进行匹配,或发现存在哪些独特的说话人。在 Story321,我们结合了现代神经嵌入、强大的说话人分离和防欺骗技术,以在嘈杂的环境、口音、设备和语言中提供可靠的实时说话人识别。通过正确的注册,系统可以将音频片段归属于特定的人,标记未知的说话人,并随着更多音频的到来不断改进。
识别 vs. 验证:从一组人中识别谁在说话;验证声称的声音是否匹配。
先进行说话人分离:在多人音频中分离说话人,然后对每个片段运行说话人识别。
神经说话人嵌入:紧凑的向量捕获独特的语音特征,对噪声具有鲁棒性。
开放集意识:检测未知的说话人,避免强制进行错误的匹配。
防欺骗和活体检测:减轻重放攻击和合成语音的风险。
延迟优化管道:用于交互式体验的流式说话人识别。
如何使用 Story321 的说话人识别
只需几个步骤,您就可以注册说话人、流式传输音频并接收实时标签和置信度分数。我们的 SDK 和 API 使说话人识别对于原型和生产都非常简单。
创建一个项目并选择一种模式
注册、创建一个项目并选择云端、边缘或混合模式。对于敏感音频,选择具有可选云端分析的设备端说话人识别。
注册说话人
收集每人 30-60 秒的自然语音。上传文件或流式传输注册。该服务构建用于说话人识别的说话人嵌入。
流式传输或上传音频
发送实时音频帧或批量文件。内置的说话人分离分割轮流,然后说话人识别分配带有置信度分数的标签。
调整阈值并查看分析
使用分数分布来设置误接受/误拒绝的权衡。校准每个通道(通话、麦克风、工作室)的说话人识别阈值。
将结果集成到您的应用程序中
接收 Webhook 或订阅事件。将说话人识别标签附加到转录、CRM 记录或安全工作流程。
准确说话人识别的技巧
- •从用户的典型设备和环境中捕获干净的注册音频。
- •使用跨多天的多个注册样本来稳定说话人识别。
- •为任何与安全相关的说话人识别用例启用防欺骗。
- •校准每个通道的阈值;通话音频需要与工作室不同的设置。
- •如果声音发生显着变化,请监控漂移并刷新注册。
我们建议至少 30 秒的各种语音用于初始注册。更长的注册可以提高说话人识别在噪声和编解码器变化下的鲁棒性。
说话人识别常见问题解答
关于说话人识别的准确性、隐私、部署和最佳实践的常见问题解答。
几分钟内开始说话人识别
创建一个免费帐户,注册一个声音,并在您的仪表板中查看实时说话人识别。无需信用卡——准备好后即可扩展。
免费计划包括慷慨的每月分钟数,用于开发和测试。升级以获得更高的限制、专用 SLA 和企业控制。