扬声器或声音识别是一种生物识别方式,它将个人的声音用于识别目的。 (这是一种与“语音识别”不同的技术,该技术识别词被表达的单词,这不是生物识别。)说话者识别过程依赖于受个人声道的物理结构和个人行为特征影响的特征。
由于可用于收集语音样本的设备(例如电话网络和计算机麦克风),因此它是远程身份验证的流行选择。由于其易于集成,说话者识别与其他某些生物识别方法不同,因为语音样本会在一段时间内动态捕获,例如几秒钟。分析发生在一个模型上,在该模型中,随着时间的流逝而变化,该模型类似于其他行为生物识别技术,例如动态签名,步态和击键识别。
语音识别的生理组成部分与个人声道的物理形状有关,该声音由气道和声音声音起源的软组织腔组成。为了产生言语,这些组件与下颌,舌和喉的物理运动以及鼻腔中的共振相结合。语音的声学模式来自气道的物理特征。
口腔的运动和发音是该生物识别的行为成分。说话者识别的两种形式:依赖文本(约束模式)和独立文本(无约束模式)。
在使用“依赖文本”语音的系统中,个人提出了已编程到系统中的固定或提示的短语,并且可以提高性能,尤其是在合作用户中。
一个“独立文本”系统没有提前了解演示者的措辞,并且在提交样本的个人可能不知道该集合或不愿合作的情况下,它更加灵活,这带来了更加困难的挑战。
语音样本是波形,随时间在水平轴上,垂直进入的响度。说话者识别系统分析语音的频率含量,并比较特征,例如信号的质量,持续时间,强度动态和音高。
在“依赖文本”的系统中,在收集或注册阶段,个人说一个简短的单词或短语(话语),通常使用麦克风捕获,该麦克风可以像电话一样简单。语音样本从模拟格式转换为数字格式,提取了个人声音的特征,然后创建了模型。大多数“依赖文本”的说话者验证系统都使用隐藏的马尔可夫模型(HMM)的概念,即基于随机的模型,可提供个人产生的声音的统计表示。 HMM使用上述质量I持续时间 /强度动力学 /俯仰特征,代表语音状态中随时间变化的基本变化和时间变化。
另一种方法是高斯混合模型,这是一种与HMM密切相关的状态映射模型,通常用于无约束的“文本独立”应用。像HMM一样,此方法使用语音来创建代表各种声音形式的许多向量“状态”,这些形式是个人的生理和行为的特征。
这些方法都比较了输入语音和存储的语音“状态”之间的相似性和差异,以产生识别决定。入学后,在识别阶段,从提交的样本中提取了相同的质量 /持续时间 /响度 /音高特征,并将其与已声明或假设的身份的模型以及其他说话者的模型进行了比较。另一个扬声器(或“反扬声器”)模型包含各种个人的“状态”,不包括所主张的或假设的身份的“状态”。将输入语音样本和注册模型进行比较,以产生“似然比”,这表明输入样本来自主张或假设的说话者的可能性。如果语音输入属于所声称或假设的身份,则分数将反映样本与声称或假设的身份模型更相似,而不是“反扬声器”模型。
看似容易的说话者识别系统的实施有助于过程的主要弱点和对传输通道以及麦克风变异性和噪声的敏感性。
当最终用户注册干净的座机电话并尝试使用嘈杂的蜂窝电话进行验证时,系统可能会面临问题。无法控制影响输入系统的因素可以大大降低性能。扬声器验证系统(除了使用提示的短语的系统外,还容易通过使用录制的语音来欺骗攻击。需要实施指定和随机词或短语的反欺骗措施以应对这一弱点。
例如,系统可以请求随机生成的短语,以防止预先录制的语音样本攻击。用户无法预料将需要的随机样本,因此无法成功尝试对系统上的攻击进行“播放”。
当前在“独立”说话者识别领域的研究主要集中于超越先前讨论的低级光谱分析。尽管信息的光谱水平仍然是识别识别背后的推动力,但将高级特征与低级别的光谱信息融合在一起已成为一种流行的实验室技术。
说话者的识别特征,例如节奏,速度,调制和语调,基于人格类型和父母的影响;语义,语义,发音和特质与出生地,社会经济地位和教育水平有关。
更高级别的特征可以与基本的低级光谱信息结合使用,以提高“独立”说话者识别系统的性能。