python特征提取的方法有哪些声音识别系统是根据什么原理制成的？

2023-05-31

1259

声音识别系统是根据什么原理制成的？像大多数识别问题一样，音频识别分为几个步骤:1.特征提取2。索引数据库3。搜索和模糊匹配4。识别结果的拼接特征提取算法很多，基于FFT的频域信息比较简单，值得进一步研

声音识别系统是根据什么原理制成的？

像大多数识别问题一样，音频识别分为几个步骤:

1.特征提取2。索引数据库3。搜索和模糊匹配4。识别结果的拼接特征提取算法很多，基于FFT的频域信息比较简单，值得进一步研究。频域信号提取出来后，因为频带太多，一般需要合并成几个大的频带。

比如飞利浦算法是合并成32个频段。我之前做的系统是合并成6个频段，Shazam s是4个频带。特征的好坏直接影响识别效果，需要反复优化。

特征提取出来后，需要建立一个索引库来存储所有的特征，每个特征要对应一部分实际内容。

事实上，索引数据库往往非常大，因此通常不使用普通的关系数据库。我用了redis和python dict。因为查询太频繁，尽量不要上网。我之前做了一个系统，一个24小时的音频，数据库上的特征查询次数是几十亿到几百亿。上网是不可想象的。

搜索过程就麻烦多了，因为是多媒体数据。

具体来说，需要设计一种模糊匹配方法。很多因素都会导致提取的特征与原始特征之间产生误差，所以需要想办法减小误差对结果的影响。

比如FFT分段的过程会引入高频噪声，50Hz的工频也会引入噪声，所以我取FFT频段一般选择64~3300Hz的范围。

在模糊匹配方面，可以使特征中的每一个值/-1，然后生成很多子特征在索引数据库中查询。

上面的识别结果只是一些点，也就是说这个点匹配了一些结果，往往会有很多结果。

这时候就要把点连成段才是有意义的结果。

例如，如果你认识三个单词，中间的那个可以你听不见我吗？你#34，并且索引数据库已经包含句子#34我爱你#34。那么从这些应该可以推断出，有一定的概率结果与索引数据库中的结果相同。

实际建立概率模型也是一个巨大的麻烦。中间跳过的不明点数量也是经验数据。

比如我试了一个点1/8秒，跳过六个点会产生很多误识别，但是跳过两个点会比不跳的识别率高很多。

我在过去的两年里设计了一个音频识别系统，包括上面所有的组件，用来识别电视节目中的广告。

在高峰期，索引库中大约有1000小时的音频。正确识别率在95%-98%之间波动，错误识别率在2%-3%之间波动。

输入24小时音频的识别时间约为5~10分钟。

想更好的了解传统数据和大数据的区别，去哪里找数据，可以用什么技术处理数据？

这些在处理数据时是必要的。迈出第一步，所以这是一个很好的起点，尤其是如果你正在考虑从事数据科学的职业！

"数据与信息是一个宽泛的术语，可以指 "原始事实和证据， "处理过的数据和or "信息与广告。为了确保我们在同一页上，让让我们在进入细节之前把它们分开。

我们收集原始数据，然后对其进行处理以获得有意义的信息。

嗯，它分开它们很容易！

现在，让我们让我们进入细节吧！