In sound processing, the mel-frequency cepstrum (MFC) is a representation of the short-term power spectrum of a sound, based on a linear cosine transform of a log power spectrum on a nonlinear mel scale of frequency. Mel-frequency cepstral coefficients (MFCCs) are coefficients that collectively make up an MFC. They are derived from a type of cepstral representation of the audio clip (a nonlinear "spectrum-of-a-spectrum").
| Property | Value |
| dbpprop:abstract
|
- In sound processing, the mel-frequency cepstrum (MFC) is a representation of the short-term power spectrum of a sound, based on a linear cosine transform of a log power spectrum on a nonlinear mel scale of frequency. Mel-frequency cepstral coefficients (MFCCs) are coefficients that collectively make up an MFC. They are derived from a type of cepstral representation of the audio clip (a nonlinear "spectrum-of-a-spectrum"). The difference between the cepstrum and the mel-frequency cepstrum is that in the MFC, the frequency bands are equally spaced on the mel scale, which approximates the human auditory system's response more closely than the linearly-spaced frequency bands used in the normal cepstrum. This frequency warping can allow for better representation of sound, for example, in audio compression. MFCCs are commonly derived as follows:
- Die Mel Frequency Cepstral Coefficients (MFCC) (dt. Mel-Frequenz-Cepstrum-Koeffizienten) werden zur automatischen Spracherkennung verwendet. Sie führen zu einer kompakten Darstellung des Frequenzspektrums. Das Mel im Namen beschreibt die wahrgenommene Tonhöhe. MFCCs werden auch zur Analyse von Musik herangezogen. Insbesondere werden sie für die Erkennung von Musikstücken eingesetzt, um ihnen Metadaten zuordnen zu können. Die lineare Modellierung von Spracherzeugung dient als eigentliche Grundlage für die Erzeugung von MFCCs: Ein periodisches Anregungssignal (Stimmbänder) wird durch einen „linearen Filter“ (Mund, Zunge, Nasenhöhlen, ... ) geformt. Für die Spracherkennung ist in erster Linie der Filter von Bedeutung, da „was gesagt wurde“ und nicht „in welcher Tonlage“ für die Analyse von Interesse ist. Die Berechnung der MFCC ist eine elegante Methode, das Anregungssignal und die Impulsantwort des Filters zu trennen. Mathematisch formuliert wird die Impulsantwort des Filters mit dem Anregungssignal gefaltet um das Sprachsignal zu erzeugen. Bei Berechnung des Cepstrums wird die Faltungsoperation auf Grund des Logarithmus in eine Addition transformiert, die einfach zu trennen ist, womit man das Sprachsignal in Anregung (excitation) und Quelle (source) trennen kann. MFCCs werden durch die folgenden Schritte berechnet: Unterteilung des Eingabesignals in Blöcke bzw. Fenster (z.B. Hamming-Fensterfunktion um Kanteneffekte zu vermeiden). Überlappende Fenster sind üblich. (Diskrete) Fouriertransformation jedes einzelnen Fensters (Dadurch wird die Faltung von Anregungssignal und Impulsantwort in eine Multiplikation transformiert). Erzeugung des Betragsspektrum. Logarithmisierung des Betragsspektrums (Dieser Schritt wurde durch die Einsicht motiviert, dass "Lautheit" vom menschlichen Ohr in etwa logarithmisch wahrgenommen wird. Des Weiteren wird dadurch die Multiplikation von Anregungssignal und Impulsantwort in eine Addition transformiert). Reduktion der Anzahl der Frequenzbänder (z. B. 256) durch Zusammenfassen (auf z. B. 40). (Abbildung auf die Mel-Scala in diskreten Schritten mittels Dreiecksfiltern). Abschließende Dekorrelation durch entweder eine Diskrete Kosinustransformation, Karhunen-Loève-Transformation oder eine Hauptkomponentenanalyse. (Ursprünglich wurden die logarithmierten Fourierkoeffizienten invers Fouriertransformiert. Die Anregungsfrequenz ist dann eine einzelne Spitze und leicht zu erkennen bzw. herauszufiltern. Weil es auf den ersten Blick relativ sinnfrei wirkt, das Fourier-transformierte Signal wieder invers Fourier zu transformieren, wurde das Resultat Cepstrum, eine Buchstabenverdrehung aus spectrum, getauft. Nachdem nach der Logarithmierung nur noch reellwertige Zahlen übrig bleiben, wurde die inverse Fourier- durch eine Kosinustransformation ersetzt, da diese weniger aufwändig zu berechnen ist.)
- Los Mel Frequency Cepstral Coefficients (coeficientes cepstrales en las frecuencias de Mel) son coeficientes para la representación del habla basados en la percepción auditiva humana. Se derivan de la Transformada de Fourier (FT) o de la Transformada de coseno discreta (DCT). La diferencia básica entre FT o la DCT y MFCC es que en MFCC las bandas de frecuencia están situadas logarítmicamente, que modela la respuesta auditiva humana más apropiadamente que las bandas espaciadas linealmente de FT o DCT. Esto permite un procesado de datos más eficiente, por ejemplo, en compresión de audio.
|
| dbpprop:doiInlineProperty
|
- 10.1109/ICASSP.2005.1415167
- On desensitizing the Mel-Cepstrum to spurious spectral components for Robust Speech Recognition
|
| dbpprop:hasPhotoCollection
| |
| dbpprop:reference
| |
| dbpprop:wikiPageUsesTemplate
| |
| rdfs:comment
|
- In sound processing, the mel-frequency cepstrum (MFC) is a representation of the short-term power spectrum of a sound, based on a linear cosine transform of a log power spectrum on a nonlinear mel scale of frequency. Mel-frequency cepstral coefficients (MFCCs) are coefficients that collectively make up an MFC. They are derived from a type of cepstral representation of the audio clip (a nonlinear "spectrum-of-a-spectrum").
- Die Mel Frequency Cepstral Coefficients (MFCC) (dt. Mel-Frequenz-Cepstrum-Koeffizienten) werden zur automatischen Spracherkennung verwendet. Sie führen zu einer kompakten Darstellung des Frequenzspektrums. Das Mel im Namen beschreibt die wahrgenommene Tonhöhe. MFCCs werden auch zur Analyse von Musik herangezogen. Insbesondere werden sie für die Erkennung von Musikstücken eingesetzt, um ihnen Metadaten zuordnen zu können.
- Los Mel Frequency Cepstral Coefficients (coeficientes cepstrales en las frecuencias de Mel) son coeficientes para la representación del habla basados en la percepción auditiva humana. Se derivan de la Transformada de Fourier (FT) o de la Transformada de coseno discreta (DCT).
|
| rdfs:label
|
- Mel-frequency cepstrum
- Mel Frequency Cepstral Coefficients
- MFCC
|
| owl:sameAs
| |
| skos:subject
| |
| foaf:page
| |
| is dbpprop:redirect
of | |