| dbpprop:abstract
|
- Soundex is a phonetic algorithm for indexing names by sound, as pronounced in English. The goal is for homophones to be encoded to the same representation so that they can be matched despite minor differences in spelling. The algorithm mainly encodes consonants; a vowel will not be encoded unless it is the first letter. Soundex is the most widely known of all phonetic algorithms, as it is a standard feature of MS SQL and Oracle, and is often used (incorrectly) as a synonym for "phonetic algorithm". Improvements to Soundex are the basis for many modern phonetic algorithms.
- Soundex ist ein phonetischer Algorithmus zur Indizierung von Wörtern und Phrasen nach ihrem Klang in der englischen Sprache. Gleichklingende Wörter sollen dabei zu einer identischen Zeichenfolge kodiert werden. Der Soundex-Algorithmus erbringt aber häufig auch für die Deutsche Sprache gute Ergebnisse. Soundex wurde von Robert Russell für die Indizierung der Familiennamen der Volkszählung (Census) in den USA entwickelt und 1918 patentiert. Der Soundex-Code für ein Wort besteht aus seinem ersten Buchstaben, gefolgt von drei Ziffern, die die nach dem Anfangsbuchstaben folgenden Konsonanten des Wortes repräsentieren. Ähnliche Laute besitzen den gleichen Code (B, F, P und V werden z. B. alle mit der Ziffer "1" codiert).
- Soundex es un algoritmo fonético, un algoritmo para indexar nombre por su sonido, al ser pronunciados en Inglés. El objetivo básico de este algoritmo es codificar de la misma forma los nombres con la misma pronunciación. Soundex es el algoritmo fonético conocido más ampliamente y es usada en ocasiones (de forma incorrecta) para describir el "algoritmo fonético". Soundex fue desarrollado por Robert Russell y Margaret Odell y patentado en 1918 y 1922. Una variación llamada American Soundex fue desarrollada en 1930 para realizar un análisis retrospectivo del censo de los Estados Unidos de América entre los años 1890 y 1920. El código de Soundex tomó notoriedad en los años 60 cuando protagonizó varios artículos en Communications of the ACM y Journal of the ACM de la Association for Computing Machinery, y especialmente al ser descrito en la obra maestra de Donald Knuth, The Art of Computer Programming. El código Soundex para un nombre consiste en una letra seguida de tres números: la letra es la primera letra del nombre, y el número codifica el resto de consonantes. Las consonantes que suenan de forma similar comparten el mismo número así, por ejemplo, la B, F, P y V son codificadas como 1. Las vocales pueden afectar la codificación, pero nunca se codifican directamente a menos que aparezcan al principio del nombres. Como respuesta a deficiencias en el algoritmo Soundex, Lawrence Philips desarrolló el algoritmo Metaphone para el mismo propósito. El algoritmo Soundex Daitch-Mokotoff fue desarrollado por Gary Mokotoff y Randy Daitch para solucionar los problemas al aplicar el algoritmo de Russell a los judíos con apellidos germánicos o eslavos (como Moskowitz vs. Moskovitz o Levine vs. Lewin). Este algoritmo es mucho más complejo que el de Russell.
- Soundex est un algorithme phonétique d'indexation de noms par leur prononciation en anglais britannique. L'objectif basique est que les noms ayant la même prononciation soient codés avec la même chaîne de manière à pouvoir trouver une correspondance entre eux malgré des différences mineures d'écriture. Soundex est le plus largement connu des algorithmes phonétiques et est souvent utilisé incorrectement comme synonyme de « algorithme phonétique ». Soundex a été conçu par Robert Russell et Margaret Odell et breveté en 1918 et 1922 (US patent 1,261,167 et 1,435,663). Une variante nommée American Soundex a été utilisée dans les années 1930 pour une analyse rétrospective des recensements américains entre 1890 et 1920. Le code Soundex s'est fait connaître dans les années 1960 lorsqu'il est devenu le sujet de nombreux articles dans les communiqués et le journal de l'Association for Computing Machinery, et tout spécialement décrit par Donald Knuth dans son magnum opus, The Art of Computer Programming. Le code Soundex consiste pour chaque nom en une association d'une lettre suivie de trois chiffres : la lettre correspond à la 1 du nom, et les chiffres encodent les consonnes restantes. Les consonnes à prononciation similaire ont le même code, donc, par exemple, les lettres B, F, P et V sont toutes codées « 1 ». Les voyelles peuvent influencer le code d'une consonne, mais ne sont jamais codées directement (sauf bien sur si c'est la première lettre du nom). L'algorithme exact procède comme suit : Supprimer les éventuels 'espace' initiaux Mettre le mot en majuscule Garder la première lettre Conserver la première lettre de la chaîne Supprimer toutes les occurrences des lettres : a, e, h, i, o, u, w, y (à moins que ce ne soit la première lettre du nom) Attribuer une valeur numérique aux lettres restantes de la manière suivante : Version pour l'anglais : 1 = B, F, P, V 2 = C, G, J, K, Q, S, X, Z 3 = D, T 4 = L 5 = M, N 6 = R Version pour le français : 1 = B, P 2 = C, K, Q 3 = D, T 4 = L 5 = M, N 6 = R 7 = G, J 8 = X, Z, S 9 = F, V Si deux lettres (ou plus) avec le même nombre sont adjacentes dans le nom d'origine, ou s'il n'y a qu'un h ou un w entre elles, alors on ne retient que la première de ces lettres. Renvoyer les quatre premiers octets complétés par des zéros. En effectuant cet algorithme, on obtient avec "Robert" et "Rupert" la même chaîne : "R163", tandis que "Rubin" donne "R150". Avec un algorithme similaire nommé Reverse Soundex, c'est la dernière lettre du nom et non la première qui est conservée dans le code. Afin de pallier les déficiences de l'algorithme Soundex, Lawrence Philips a développé l'algorithme Metaphone qui répond aux mêmes objectifs. Le Soundex Daitch-Mokotoff a été développé par Gary Mokotoff et Randy Daitch parce qu'ils ont rencontré des difficultés en appliquant le Soundex Russell à des noms germains ou slaves. Cet algorithme est bien plus complexe que celui de Russell. L'algorithme NYSIIS (New-York State Identification and Intelligence System) est une autre version améliorée de Soundex.
- Soundex – algorytm fonetyczny wymyślony przez Roberta Russella i Margaret Odell i opatentowany w latach 1918 i 1922. Soundex używany jest do porównywania słów w języku angielskim. Słowa podobnie brzmiące (np. Robert i Rupert) będą miały ten sam 4-znakowy kod Soundex (w tym przypadku R163). Jest wykorzystywany m. in. przy poszukiwaniach genealogicznych różnych wariantów tego samego nazwiska, a obliczenie kodu Soundex umożliwiają niektóre programy genealogiczne. Dokładny opis algorytmu: Pierwsza litera wyrazu staje się pierwszym znakiem kodu. Spośród pozostałych liter usuwane są a, e, h, i, o, u, w i y. Pozostałym literom przypisuje się następujące liczby: b, f, p, v c, g, j, k, q, s, x, z d, t, l m, n r Spośród kolejnych wystąpień tego samego kodu w kolejnych literach wyrazu po usunięciu h lub w usuwane są wszystkie poza pierwszym. Jeżeli pozostaje więcej, niż trzy cyfry to następne są usuwane. Jeżeli jest ich mniej niż trzy, to dodawane są zera. Kodem Soundex wyrazu jest jego pierwsza litera i trzy uzyskane powyżej cyfry.
- Soundex — алгоритм сравнения двух строк по их звучанию. Он устанавливает одинаковый индекс для строк имеющих схожее звучание. Этот алгоритм имеет сильную зависимость от языка, слова которого сравниваются. Soundex был разработан Робертом Расселлом (Robert Russel) и Маргарет Обелл (Margaret Obell) и запатентован в 1918 и 1922 годах ({{US patent|1,261,167 и {{US patent|1,435,663). Этот алгоритм стал популярным в 1960-х годах после того как стал темой нескольких статей в журналах «Communications of the Association for Computing» и «Journal of the Association for Computing Machinery» (CACM и JACM). Еще большую популярность этот алгоритм получил после того как был опубликован в книге
- Soundex, İngilizce'deki keliemelerin teleffuz biçimlerine göre hazırlanmış bir fonetik algoritmadır. Bu algoritmanın hazırlanmasındaki temel amaç; teleffuzları benzeşen kelimelerin bu yolla aynı karakter katarına (string) dönüştürülmeleri ve bu yolla benzer kelimelerin -yazımlarında fark olsa bile- tespit edilmesidir. Bunun yanında Soundex algoritması, fonetik algoritmalardan en bilineni ve en sık kullanılanı olup, bazı çevreler tarafından -yanlış bir şekilde- fonetik algoritma terimiyle aynı anlamda kullanılamaktadır. Soundex, Robert Russell ve Margaret Odell tarafından geliştirilmiş, U.S. Patenti 1,261,167 ve U.S. Patenti 1,435,663 ile patentlenmiştir. Ayrıca American Soundex ismiyle 1930'lu yıllarda 1890/1920 arası analiz için yapılan bir sayımda kullanılmıştır. Soundex kodlaması ise 1960'larda 'Communications of the ACM', 'Journal of the ACM of the Association for Computing Machinery' gibi bazı makalelere konu olması sebebiyle ünlenmiş ve özellikle 'Donald Knuth's magnum opus', 'The Art of Computer Programming' yazılarında nasıl bir şey olduğu anlatılmıştır. Soundex kodu ilki bir harf, diğer üçü ise rakamlardan oluşan dört karakterli bir koddur; harf olarak kelimenin ilk harfi, sayı olarak da geri kalan harflerin belirli bir kurala göre numaralandırılmasıyla ortaya çıkan sonuç alınır. Benzer teleffuzlu sözcükler ise aynı numaralarla kodlanır; örneğin, benzer telaffuzlu B, F, P ve V harfleri 1 ile kodlanır. Sesli harfler kodlama işlemini etkiler, ancak bu sesli harf kelimenin başında bulunmuyorsa ortaya çıkan sonucu asla doğrudan etkilemez. Tam algoritma aşağıdaki gibidir: Karakter katarının ilk harfini yakalayın. Eğer ilk harf "a, e, h, i, o, u, w, y" harflerinden herhangi biri değilse, bu harfleri metinden silin. Sırasıyla tüm harflere aşağıdaki numaralandırmayı yapın; b, f, p, v = 1 c, g, j, k, q, s, x, z = 2 d, t = 3 l = 4 m, n = 5 r = 6 Eğer numaralandırmada aynı numarayı almış iki ya da daha fazla harf yan yanaysa (ilk işlemden önce) ya da bu harflerin arasında h veya w harfi varsa (sadece Amerikan sayımında geçerli); aynı olanları atlayın. İlk dört karakteri sonuç olarak döndürün; eğer sonuç dört karakterden az çıkıyorsa, dört karakter tamamlanması için sonuna sıfırlar ekleyin. (örn. A22 → A220) Ulusal Arşiv ve Kayıt Yönetiminin US Hükümeti için koyduğu bu resmi kurallar, hazırlanan standart Soundex algoritmaları için de kullanılmalıdır. Algoritma kullanılırken; örneğin "Rubin"in kodu R150 iken, "Robert" ve "Rupert" isimleri aynı kodu döndürür; R163.
- Soundex是一种语音算法,利用英文字的读音计算近似值,值由四个字符构成,第一个字符为英文字母,后三个为数字。在拼音文字中有时会有会念但不能拼出正确字的情形,可用Soundex做类似模糊匹配的效果。例如Knuth和Kant二个字符串,它们的Soundex值都是 K530。更详细的说明参考Donald Knuth大师的名著:电脑程序设计的艺术 (The Art Of Computer Programming) 第三卷排序和搜寻。
|