1. Ses koleksiyonu :Ses dalgaları bir mikrofon veya başka bir kayıt cihazı kullanılarak toplanır. Mikrofon bu dalgaları elektrik sinyallerine dönüştürür.
2. Sinyal işleme :Elektrik sinyalleri gürültüyü ve diğer istenmeyen bileşenleri ortadan kaldırmak için işlenir. Ses sinyalinin kalitesini artırmak ve ilgili özellikleri çıkarmak için farklı sinyal işleme teknikleri uygulanabilir.
3. Özellik çıkarma :Önceden işlenmiş ses sinyali, ses algılama için kullanılabilecek anlamlı özelliklerin çıkarılması için analiz edilir. Bu özellikler perdeyi, formantları, filtre bankası enerjilerini ve diğer akustik parametreleri içerebilir.
4. Ses etkinliği algılama (VAD) :VAD algoritmaları, bir ses sinyalindeki konuşma etkinliği dönemlerini tanımlamak için kullanılır. Bu, konuşma bölümleri ile arka plan gürültüsü gibi konuşma dışı bölümler arasında ayrım yapılmasına yardımcı olur.
5. Konuşmacı kimliği :Konuşma bölümleri belirlendikten sonra konuşmacının kimliğini belirlemek için konuşmacı tanımlama teknikleri uygulanabilir. Bu, çıkarılan ses özelliklerinin, bilinen konuşmacılardan oluşan bir veritabanında saklananlarla karşılaştırılmasını içerir.
6. Karar verme :Çıkarılan ses özellikleri ile saklanan şablonlar arasındaki benzerliğe dayanarak konuşmacının kimliğine ilişkin bir karara varılır. Sistem, isim veya kimlik numarası gibi bir çıktı ya da tanımlamaya olan güven düzeyini gösteren bir olasılık puanı sağlar.
Ses algılama süreci, sesleri doğru bir şekilde tanımak ve tanımlamak için sinyal işleme, özellik çıkarma, sınıflandırma ve karar verme tekniklerinin bir kombinasyonunu içerir.