音频信号内容比对实用算法
音频信号内容比对实用算法 摘 要:在广播电视播出系统中,防止非法信号的入侵插播是极其重要的。在广播电视信号送去调制之前,把来自不同路由的主备信号进行内容比对,可以 发现任何一个路由信号被插播的情形,并及时报警或同时进行自动切换。笔者在 大量实验分析的基础上,介绍一种针对音频信号内容比对的实用算法。
关键词:信号入侵;
非法插播;
音频信号;
内容比对;
模糊算法 1广播电视信号的传输环节及其被非法插播可能性分析 1.1信号传输拓扑示意图 广播电视信号制作好以后,通过各种媒介传输到覆 盖设备的前端,进行编码调制后送达最终受众的终端。覆盖方式主要包含无线覆 盖(发射机房)、有线覆盖(有线电视网络)、互联网覆盖(网络数字媒体)、 卫星覆盖等,示意图如下:
一般来说作为覆盖设备的机房,其信号源都需要有来自不同路由的主、 备路,如图中所示。主、备路由有各种不同的组合,如双光纤(路由不同),或 一路光纤、一路微波,也有些机房还会使用接收自卫星的信号作为备用信号源, 如图中的“发射机房”。
1.2非法信号入侵的途径 如图1所示,以“发射机房”为例。由于传输路途可 能很遥远,实际上每一种传输路径都有可能被插播。光纤可能被窃听,获取传输 格式,然后切断插入非法信号;
微波传输,在靠近的地点使用大功率非法信号波 束照射接收天线,可能压制合法信号;
卫星接收的信号源,当卫星被非法信号攻 击时,也可能被非法插播。
虽然实现上述插播方式有一定难度,遭遇到的可能性不高,但安全播出 的要求很高,还是需要对一切可能的安全播出隐患做出防范对策。
2防非法插播的技术策略和关键算法 2.1技术策略分析选择 如果直接对信号源的内容意义进行分析,判断其内容 是否符合政策和宣传要求,那么按现有的计算机软件软件技术而言,不仅难度非 常高,而且准确率和实时性也很难满足要求。但是考虑到实际上信号源有多路的 情况下,我们可以用更简单的办法来判断是否有哪路信号路径被插播。那就是把 同一节目的来自不同路由的信号源拿来进行内 2.2音频信号内容比对的依据 可用的技术手段,无非是用于音频信号处理的 电路硬件和对采样数据进行分析的软件。关键在于对信号源内容是否一致的特征 提取。如果对某路音频信号源的信号波形用示波器进行观察,可以发现每当播音员讲话或播放音乐时,示波器上都会出现相应的波包,而当出现节目间隙、语言 语句之间的间隙、音乐之间的间隙的时候,示波器上的波形就近乎一条直线(幅 度近乎零)。如图2~图5所示:
我们可以把语音节目的内容,看成是由各种不同时间长度和幅度变化 规律的波包,以及各种不同时间长度的间隙组成的信息系列。这种系列与节目内 容一一对应,相同的节目内容必有完全相同的系列,而不同的系列则意味着不同 的节目内容。图2展示了两路内容相同、没有时延差的语言信号的信息系列,图3 是内容不同的信息系列。
因此,我们就把对内容的判断转化成对音频信息系列的比对判断,如果 信息系列完全相同则内容相同,否则内容不同。从图2~图5可以看出来,只要比 对的信号中有一路是纯语言类,内容相同与否其特征非常明显;
音乐(或带音乐 背景)类信号之间,以及与准白噪声之间的波包特征差别较小甚至难于分辨。
2.3具体电路和关键算法 来自不同路由的音频信号可能存在时间延迟,即不 同步的问题。因此在进行信号比对之前必须先把两路信号的时间点“拉”齐,一般 是把先到达的信号延时然后与后到达的信号对齐在同一时间点。假设最大可能的 信号时间延迟为5秒,用于信号比对的时长为3秒,下面讨论不同处理算法的资源 开销。
2.3.1 直接对音频信号高速采样的比对方案 直接的音频信号采样,为了不漏 掉任何一个信号上升下降细节,采样率最好是最高信号频率分量的十倍以上。调 频立体声的音频信号最高频率达15 KHz,采样率需要达到150 KB/S。因为比对前 不知道两路信号哪一路的延时更多,所以实际需要截取的信号时长是比对时长与 最大信号延时时长之和,即8秒。每一路信号8 s时长的采样数据个数为8*150K= 1200K。为了得到信号比对的结果,需要对每一路信号的采样数据逐个后移,取 其后3 s的数据与另一路信号的前3 s数据进行逐个比对,因此最大的比对次数为 2*5*150K*3*150K=6.75*1011次,而每次比对都需要取数、运算、比较判断、统 计存储等操作,最少也需要10个指令周期,就算都是单时钟周期指令,总共也需 要6.75*1012个时钟周期,这一切需要在3秒内完成,所以每秒需要最少2.25*1012 个时钟,即时钟频率要达到2250GHz。这还只是进行两路信号的比对运算量,如 果要求更多路信号的比对,运算量还要大得多。这样的运算速度对于单核的芯片 是很难完成的,需要多核的高速芯片并行计算才可能实现。因此这种方案成本太 高,现实可行性差。
2.3.2 先对信号进行包络检波,再低速采样的比对方案 如果先对音频信号进 行幅度变化的包络检波——简单的预处理,那么虽然我们失去了波形的瞬间(毫秒级)幅度变化细节,但是还是可以保留语句、音乐等间隙和幅度变化的整体趋 势等最重要的特征信息,而这些信息对内容比对来说就已经足够了,这样做的结 果就是可以极大降低比对所需要的运算速度。下面以图6的预处理电路参数为例 说明:
上图中的检波电路可以消除检波二极管死区电压的影响,即使只有几十毫 伏的音频信号也能得到正常的包络输出。包络跟踪的R1C1 =47 ms,因此采样周 期可以取5 ms,即采样速率200 B/S。对于时长3 s、最大可能延时量5 s的两路音 频数据进行完整比对所需要的最大比对次数为2*5*200*3*200=1.2*106次,需要 的总时钟周期数为1.2*107 ,如果运算时间最长为3 s,则时钟频率要求为最小4 MHz。这样的运算速度要求还不到上一方案的百万分之一,使用价格便宜的51 系列单片机就可以实现了。当然,使用运算速度更快的芯片或DSP 可以获得更 快的反应速度,实时性更令人满意。
2.3.3 采样数据的比对处理和判断基准 在两路音频信号之间进行采样数据 比对,还要考虑信号本身的幅度问题。内容相同的信号幅度不一定相同,但对采 样数据进行比对时,其比例应该是相同的,这一比例值可以取一段时间长度(例 如8 s)中两路信号最大采样值之比为“比例参考值”。
对于语言类信号,使用图6的信号预处理电路,如果对一段时间长度3秒的采 样数据进行逐一比对,大量的实验表明:1) 如果内容相同,则采样数据值之比 与“比例参考值”误差10%以内的比对结果(简称“比例一致性”)个数,可以占总 比对个数的80%以上。这个结论在反复的实验中至少有99%的准确性。2)如果 内容不同,则“比例一致性”个数,占总比对个数的50%以下。这个结论在反复的 实验中至少有95%的准确性。3)如果把“比例一致性”的个数是否占总比对个数 65%以上,作为语言类节目内容是否相同的判断基准,则准确率可达99%以上。
4)对报警实时性放宽要求,可以极大降低误报率。每增加一次(3秒)比对内容 不一致的累积才报警,误报率可以降低100倍。
以上算法的准确性主要受信号的信噪比影响。信噪比20 dB以下的时候,当 信号幅度小的瞬间噪声电平的影响比率增大很多,影响了其判断的准确度。为了 修正这种影响,可以适当调整“比例一致性”的标准,例如当采样值为最大值的十 分之一以下时,改用与“比例参考值”误差30%以内作为“比例一致性”的参考标准。
2.3.4 音乐节目信号之间内容比对的优化方法 从图4看到,音乐节目或含有 音乐背景的节目,其波包的特征比较不明显,以上述算法去判断准确率是比较低 的。因为音乐信号由各种不同的乐器组合而成,不同乐器其频谱是不同的,所以可以按频谱对总信号进行分频率段滤波筛选,分别进行检波采样,然后再用上述 算法判断,这样做以后准确率依然可以很高。例如可以把300 Hz 以下的为一段 (分出鼓类乐器),500 Hz~2 000 Hz为一段(中音乐器),3 000 Hz以上为一段 (高音乐器)。分得越细准确度越高,但是计算量越大,要求的芯片处理速度越 高。
2.3.5 准白噪声信号的识别 某些情况下,当节目信号丢失时,信道完全由噪 声占据,表现为幅度连续的宽频谱的“沙沙”声,这里称之为“准白噪声”。“准白 噪声”与音乐信号在总波形的波包特征上差别不大,很难直接识别出来。但是, 如果按频谱对总信号进行分段筛选,分段后的波包特征,音乐信号与准白噪声信 号之间的差别还是很明显的。准白噪声信号无论是总信号波包还是分频段的信号 波包,都显示出很“木”的特征,即起伏很小而且一直不变,信息含量很低;
而音 乐信号在分频段之后,其波包显得很活跃,并时刻在随着内容的不同而变化着。
根据这些特征可以对某路信号是噪声还是音乐节目作出准确的判断。
3实用系统的组成与应用 现代化覆盖设备的信号源,已经有很多是数字音频信号,这种情况可以从其 音频分配器的分配口取出后进行数/模转换,然后再进行内容比对处理,判断结 果作为报警触发信号或自动切换的依据。如图7所示:
图中,语言类节目只需要用到“总包络检波”的采样数据。“频率段n”是用 带通滤波器实现的,用于音乐类节目的比对和噪声信号的识别。
该比对系统不仅可以应用于中波和调频广播,也可以对电视节目的伴音进行 比对,通过对伴音内容一致性的识别来判断电视节目是否被插播,因为节目的语 言被插播其后果远超图像被插播。
笔者叙述的算法属于“模糊算法”范畴,这种智能性算法的准确度取决于对象 特征提取的准确度和精细度。文中的模糊规则基准如“比例一致性”误差范围,“比 例一致性”个数的占比等等,是在大量实际试验中得出来的,该算法在实际测试 中完全达到了预期的准确度,是可以进行产品化的实用算法。
3