全新 • 免费开发者计划

说话人识别

实现企业级说话人识别的最简单途径——免费开始

将声音转化为安全的身份标识。Story321 提供生产就绪的说话人识别功能，具有准确的声音匹配、快速的说话人分离和以隐私为先的处理方式。只需注册一次说话人，即可在您的应用程序监听的任何地方识别他们——通话、会议、语音助手和流媒体。通过 SDK、简洁的 API 和分析功能，让说话人识别变得可衡量和可靠，几分钟即可开始使用。

什么是说话人识别？

说话人识别是一种通过声音确定谁在说话的技术。与将音频转换为文本的通用语音识别不同，说话人识别侧重于身份——将传入的声音与已知的说话人进行匹配，或发现存在哪些独特的说话人。在 Story321，我们结合了现代神经嵌入、强大的说话人分离和防欺骗技术，以在嘈杂的环境、口音、设备和语言中提供可靠的实时说话人识别。通过正确的注册，系统可以将音频片段归属于特定的人，标记未知的说话人，并随着更多音频的到来不断改进。

识别 vs. 验证：从一组人中识别谁在说话；验证声称的声音是否匹配。

先进行说话人分离：在多人音频中分离说话人，然后对每个片段运行说话人识别。

神经说话人嵌入：紧凑的向量捕获独特的语音特征，对噪声具有鲁棒性。

开放集意识：检测未知的说话人，避免强制进行错误的匹配。

防欺骗和活体检测：减轻重放攻击和合成语音的风险。

延迟优化管道：用于交互式体验的流式说话人识别。

说话人分离说话人嵌入开放集识别防欺骗设备端边缘 + 云端

为准确的说话人识别而构建的功能

您需要的一切，以交付可靠的说话人识别——从注册到分析——无需管理模型或管道。我们的堆栈平衡了准确性、速度和隐私，因此您的团队可以快速行动并保持合规性。

神经嵌入引擎

最先进的说话人嵌入技术为跨麦克风、编解码器和环境的高精度说话人识别提供支持。对口音、年龄和中等噪声具有鲁棒性。

实时说话人分离

分离通话和会议中重叠的说话人。流式说话人分离标记说话人轮流，因此说话人识别可以立即将姓名分配给片段。

开放集匹配

自信地检测未知的说话人。阈值和校准通过避免强制匹配来保持说话人识别的诚实性。

防欺骗 + 活体检测

防止重放、深度伪造和文本转语音攻击。多信号检查加强了对安全敏感的工作流程的说话人识别。

自适应注册

仅需一分钟的音频即可注册说话人，并随着时间的推移改进个人资料。随着您捕获更多自然语音，说话人识别会变得更好。

低延迟 API

毫秒级的管道阶段使说话人识别对 IVR、实时帮助和交互式 UX 保持响应。

分析和置信度

跟踪准确性、分数分布、误接受/误拒绝和漂移。对说话人识别阈值做出数据驱动的决策。

边缘 + 云端选项

在设备上运行说话人识别以保护隐私，或在我们的托管云中运行以进行扩展。混合模式仅将敏感音频路由到边缘。

由说话人识别驱动的用例

从客户体验到安全和研究，说话人识别解锁了跨音频渠道的自动化、个性化和合规性。

联络中心个性化

通过声音识别呼叫者，以跳过基于知识的问题，按姓名问候，并路由到正确的座席。通过快速的说话人识别减少摩擦。

欺诈预防

通过嵌入在 IVR 流程中的防欺骗和说话人识别验证步骤，检测冒名顶替者并防止帐户接管。

会议分析

按说话人（而不仅仅是文本）归属行动项。说话人识别加上说话人分离创建准确的“谁说了什么”时间线。

语音助手

通过声音个性化响应和权限。设备端说话人识别可确保家庭数据的私密性和响应性。

取证与合规性

通过可审计的说话人识别证据、分数阈值和监管链日志记录来协助调查。

媒体索引

使用重复出现的声音标记节目、播客和档案。说话人识别支持跨庞大库按人搜索。

医疗保健听写

确保为每个笔记记录正确的临床医生。说话人识别支持安全访问和准确归属。

教育与研究

研究对话动态和参与度。说话人识别揭示了轮流和影响的模式。

如何使用 Story321 的说话人识别

只需几个步骤，您就可以注册说话人、流式传输音频并接收实时标签和置信度分数。我们的 SDK 和 API 使说话人识别对于原型和生产都非常简单。

创建一个项目并选择一种模式

注册说话人

收集每人 30-60 秒的自然语音。上传文件或流式传输注册。该服务构建用于说话人识别的说话人嵌入。

流式传输或上传音频

发送实时音频帧或批量文件。内置的说话人分离分割轮流，然后说话人识别分配带有置信度分数的标签。

调整阈值并查看分析

使用分数分布来设置误接受/误拒绝的权衡。校准每个通道（通话、麦克风、工作室）的说话人识别阈值。

将结果集成到您的应用程序中

接收 Webhook 或订阅事件。将说话人识别标签附加到转录、CRM 记录或安全工作流程。

准确说话人识别的技巧

•从用户的典型设备和环境中捕获干净的注册音频。
•使用跨多天的多个注册样本来稳定说话人识别。
•为任何与安全相关的说话人识别用例启用防欺骗。
•校准每个通道的阈值；通话音频需要与工作室不同的设置。
•如果声音发生显着变化，请监控漂移并刷新注册。

我们建议至少 30 秒的各种语音用于初始注册。更长的注册可以提高说话人识别在噪声和编解码器变化下的鲁棒性。

说话人识别常见问题解答

关于说话人识别的准确性、隐私、部署和最佳实践的常见问题解答。

说话人识别的准确性如何？

准确性取决于注册质量、噪声、重叠和通道不匹配。通过干净的注册和匹配的设备，说话人识别可以实现高识别率。使用说话人分离、防欺骗和校准的阈值来减少错误。

说话人分离和说话人识别有什么区别？

说话人分离将音频分成“谁在何时说话”的片段，而不知道身份。说话人识别使用您注册集合中的特定人员标记这些片段，或将它们标记为未知。

它可以处理口音和语言变化吗？

是的。现代嵌入侧重于说话人特征，而不是单词。说话人识别对口音和语言具有鲁棒性，但极端的代码切换或模仿可能会挑战系统。

注册需要多少音频？

从 30-60 秒的自然语音开始。随着时间的推移，更多不同的样本将提高说话人识别在设备和环境中的稳定性。

深度伪造和重放攻击怎么样？

启用防欺骗和活体检测。我们分析通道线索和频谱伪影以降低合成语音风险，从而帮助保持说话人识别的可信度。

说话人识别对我的用例是否合法？

生物识别法律各不相同。在需要时获得同意，披露使用情况，并提供退出选项。说话人识别应成为透明、尊重隐私的政策的一部分。

我可以在边缘运行说话人识别吗？

是的。在手机、自助服务终端或网关上运行以实现低延迟和隐私。云仍然可用于扩展和繁重的分析，或者使用混合方法。

如何调整阈值？

使用验证音频来绘制分数分布。选择平衡每个通道的误接受和误拒绝的阈值。说话人识别受益于每次使用的校准。

它适用于短语吗？

短片段会降低置信度。聚合轮流或使用滚动窗口，以便说话人识别可以在做出决定之前积累证据。

您如何保护用户隐私？

我们最大限度地减少数据，支持设备端处理，并存储带有访问控制的哈希嵌入。您可以配置保留策略并在不将原始音频发送到云的情况下运行说话人识别。

支持哪些格式和采样率？

支持常见的电话和媒体格式。SDK 规范化采样率和编解码器，因此说话人识别管道保持一致。

几分钟内开始说话人识别

创建一个免费帐户，注册一个声音，并在您的仪表板中查看实时说话人识别。无需信用卡——准备好后即可扩展。

免费计划包括慷慨的每月分钟数，用于开发和测试。升级以获得更高的限制、专用 SLA 和企业控制。