About: Stemming

An Entity of Type: Abstraction100002137, from Named Graph: http://dbpedia.org, within Data Space: dbpedia.org

In linguistic morphology and information retrieval, stemming is the process of reducing inflected (or sometimes derived) words to their word stem, base or root form—generally a written word form. The stem need not be identical to the morphological root of the word; it is usually sufficient that related words map to the same stem, even if this stem is not in itself a valid root. Algorithms for stemming have been studied in computer science since the 1960s. Many search engines treat words with the same stem as synonyms as a kind of query expansion, a process called conflation.

Property Value
dbo:abstract
  • Stemming és un mètode per a reduir una paraula a la seua raïl o (en anglès) a un stem. Hi ha alguns algorismes de stemming que ajuden en sistemes de recuperació d'informació. L'stemming augmenta el recall, que és una mesura sobre el nombre de documents que es poden trobar amb una consulta. Per exemple una consulta sobre "biblioteques" també troba documents en els quals només aparega "bibliotecari" perquè el stem de les dues paraules és el mateix ("bibliotec"). (ca)
  • في التشكل اللغوي، التشذيب والتجذيع هي عملية للحد من تصريف (أو في بعض الأحيان اشتقاق) الكلمات لإنتاج اصل الكلمات، أو شكل الجذر. ولا يحتاج الاصل ان يكون مكافئ للجذر الصرفي للكلمة، بل هو عادة يكون كافيا لأن يجعل الكلمات ذات الصلة يكون لها نفس الاصل، حتى لو كان هذا الاصل ليس في حد ذاته جذر صالح. وكانت المشكلة طويلة الأمد في علوم الكمبيوتر، وكان نشر أول بحث حول هذا الموضوع في عام 1968. عملية التشذيب، تدعى في كثير من الأحيان عملية الدمج، وهي مفيدة في محركات البحث أو الفهرسة وغيرها من مشاكل معالجة اللغة الطبيعية. (ar)
  • Stematizace (anglicky stemming) je nalezení kmene slova (nepřesně a úžeji taky kořene). Algoritmus se nazývá . V praxi se stematizace používá například ve vyhledávačích, kde dovoluje vyhledávat bez ohledu na konkrétní tvar. Podobnou operaci provádí lemmatizátor – tato operace vrací základní tvar slova (tj. lemma) místo kmene). Při stematizaci se odstraní morfologické koncovky a případně předpony, např. ne-. Aby vyhledávání fungovalo správně, musí se zpracovat nejen slova v dokumentech, ale stejným způsobem i slova v . Algoritmus stematizace je závislý na jazyku. Základem metody v češtině je seznam možných koncovek a jejich odstraňování. (cs)
  • Als Stemming (Stammformreduktion, Normalformenreduktion) bezeichnet man im Information Retrieval sowie in der linguistischen Informatik ein Verfahren, mit dem verschiedene morphologische Varianten eines Wortes auf ihren gemeinsamen Wortstamm zurückgeführt werden, z. B. die Deklination von Wortes oder Wörter zu Wort und Konjugation von gesehen oder sah zu seh. (de)
  • erro-bilaketa da hitzen eta batez ere hitz deklinatu eta flexiboen erroa erauztea. Badaude informazioa eskuratzen laguntzen duten algoritmo batzuk. Honenbestez, kontsulta bat burutzerakoan eskuratutako informazioa hobea izatea lor daiteke; hau da, erro-bilaketari esker liburutegi hitzaren bilaketa batekin liburu eta liburuak hitzak dituzten emaitzak lor daitezke, adibidez. (eu)
  • Stemming es un método para reducir una palabra a su raíz o (en inglés) a un stem. Hay algunos algoritmos de stemming que ayudan en sistemas de recuperación de información. Stemming aumenta el recall que es una medida sobre el número de documentos que se pueden encontrar con una consulta. Por ejemplo una consulta sobre "bibliotecas" también encuentra documentos en los que solo aparezca "bibliotecario" porque el stem de las dos palabras es el mismo ("bibliotec"). (es)
  • En linguistique, la racinisation ou désuffixation est un procédé de transformation des flexions en leur radical ou racine.La racine d’un mot correspond à la partie du mot restante une fois que l’on a supprimé son (ses) préfixe(s) et suffixe(s), à savoir son radical. Contrairement au lemme qui correspond à un terme issu de l’usage ordinaire des locuteurs de la langue, la racine ne correspond généralement qu’à un terme résultant de ce type d’analyse.Par exemple, le mot chercher a pour radical cherch qui ne correspond pas à un terme employé en dehors d’une référence à ce radical même. Dans des cas particuliers, le radical peut coïncider avec un terme de vocabulaire ordinaire. C’est par exemple le cas de comme frontal qui donne la racine front. Les techniques utilisées pour ce faire reposent généralement sur une liste d’affixes (suffixes, préfixes, infixes, circonfixes) de la langue considérée et sur un ensemble de règles de racinisation/désuffixation construites a priori qui permettent, étant donné un mot de trouver sa racine. Un programme informatique de racinisation est appelé un racinisateur. Les algorithmes les plus connus ont été développés par (en) (1968) et (en) (1980). La racinisation est un procédé fréquent dans les applications de traitement automatique du langage naturel, par exemple dans la traduction automatique, la recherche d'information (reconnaissance d'entités) et l'indexation des moteurs de recherche. (fr)
  • Stemmer (pemotong [kata]) merupakan aplikasi pemotongan imbuhan pada kata berimbuhan (awalan, akhiran, sisipan, kombinasi) yang dijalankan dengan algoritme tertentu. Algoritme yang pertama dikembangkan adalah oleh Martin Porter, yang mengolah pemotongan imbuhan dalam bahasa Inggris. Pemotongan imbuhan lebih banyak digunakan pada aplikasi penelusuran data seperti pada mesin pencari (misalnya google, vivisimo, dan lainnya). Pengolahan queri yang mengandung imbuhan pada mesin pencari di atas (dalam bahasa Inggris), akan memberikan hasil pencarian halaman-halaman yang memuat kata dasarnya atau kombinasi imbuhan lainnya. Contohnyabila memasukkan kata kunci "kasih" pada mesin pencari, maka hasil pencarian juga memuat kata kasihan, mengasihi, terkasih, di samping halaman yang memuat kata kasih. Dengan demikian, jumlah dokumen yang terlacak akan lebih banyak, dan memperbaiki hasil pencarian dari mesin pencari. * l * * s (in)
  • In linguistic morphology and information retrieval, stemming is the process of reducing inflected (or sometimes derived) words to their word stem, base or root form—generally a written word form. The stem need not be identical to the morphological root of the word; it is usually sufficient that related words map to the same stem, even if this stem is not in itself a valid root. Algorithms for stemming have been studied in computer science since the 1960s. Many search engines treat words with the same stem as synonyms as a kind of query expansion, a process called conflation. A computer program or subroutine that stems word may be called a stemming program, stemming algorithm, or stemmer. (en)
  • 어간 추출(語幹 抽出, 영어: stemming)은 형태론 및 정보 검색 분야에서 어형이 변형된 단어로부터 접사 등을 제거하고 그 단어의 어간을 분리해 내는 것을 의미한다. 여기서 어간은 반드시 어근과 같아야 할 필요는 없으며, 어근과 차이가 있더라도 관련이 있는 단어들이 일정하게 동일한 어간으로 맵핑되게 하는 것이 어간 추출의 목적이다. 1960년대부터 컴퓨터 과학 분야에서 다양한 어간 추출 관련 알고리즘들이 연구되어 왔다. 많은 웹 검색 엔진들은 동일한 어간을 가진 단어들을 동의어로 취급하는 방식으로 을 하여 검색 결과의 품질을 높인다. 어간 추출 프로그램은 흔히 스테밍 알고리즘(stemming algorithm) 또는 스테머(stemmer)라 불린다. (ko)
  • Lo stemming è il processo di riduzione della forma flessa di una parola alla sua forma radice, detta "tema". Il tema non corrisponde necessariamente alla radice morfologica (lemma) della parola: normalmente è sufficiente che le parole correlate siano mappate allo stesso tema (per esempio, che "andare", "andai", "andò" mappino al tema "and"), anche se quest'ultimo non è una valida radice per la parola. La creazione di un algoritmo di stemming è stato un annoso problema dell'informatica. Il processo di stemming è utilizzato nei motori di ricerca per l'espansione d'interrogazioni e in altri problemi di elaborazione del linguaggio naturale. (it)
  • Stemming – w wyszukiwaniu informacji oraz w morfologii (w językoznawstwie) jest to proces usunięcia ze słowa końcówki fleksyjnej pozostawiający tylko temat wyrazu. Proces stemmingu może być przeprowadzany w celu zmierzenia popularności danego słowa. Końcówki fleksyjne zaniżają faktyczne dane. Algorytmy stemmingu są przedmiotem badań informatyki od lat 60. XX wieku. Pierwszy stemmer, czyli program do przeprowadzania procesu stemmingu, został napisany i opublikowany przez w 1968. W czerwcu 1980 opublikował swój algorytm stemmingu, zwany . Np. angielskie słowa: „connection”, „connections”, „connective”, „connected”, „connecting” poddane stemmingowi dadzą ten sam wynik, czyli słowo „connect”. (pl)
  • Сте́мминг (англ. stemming — находить происхождение) — это процесс нахождения основы слова для заданного исходного слова. Основа слова не обязательно совпадает с морфологическим корнем слова. Задача нахождения основы слова представляет собой давнюю проблему в области компьютерных наук. Первая публикация по данному вопросу датируется 1968 годом. Стемминг применяется в поисковых системах для расширения поискового запроса пользователя, является частью процесса нормализации текста. Конкретный способ решения задачи поиска основы слов называется алгоритм стемминга, а конкретная реализация — стеммер. (ru)
  • Стемінг (англ. stemming) - це процес скорочення слова до основи шляхом відкидання допоміжних частин, таких як закінчення чи суфікс. Результати стемінгу іноді дуже схожі на визначення кореня слова, але його алгоритми базуються на інших принципах. Тому слово після обробки алгоритмом стемінгу (стематизації) може відрізнятися від морфологічного кореня слова. Стемінг застосовується в лінгвістичній морфології та в інформаційному пошуку. Багато пошукових систем використовують стемінг для об’єднання слів у яких збігаються форми після стематизації, вони вважають такі слова синонімами. Цей процес називають злиттям. Комп’ютерна програма, що реалізує алгоритм стемінгу іноді має назву стемер. (uk)
  • En stemmer är ett program eller en algoritm som avgör den morfologiska roten till ett ord, som kan vara en böjningsform eller avledning. Det stemmern utför kallas trunkering. Därför kan en stemmer även kallas trunkerare eller trunkeringsalgoritm. Engelska stemmeralgoritmer är tämligen enkla (med några undantag, såsom ordet "dries" som är tredje person singularis ordform av verbet "dry" och "axes" som är pluralformen av "ax" precis som "axis") men stemmeralgoritmer blir svårare att skapa när morfologin, ortografin och teckenkodningen av språket ifråga blir mer komplext. Exempelvis är en italiensk stemmer mer komplex än en engelsk (beroende på fler möjliga verbböjningar), en rysk stemmer är också mer komplex (beroende på fler kasusböjningar av substantiv), en hebreisk stemmer är ännu mer komplex (beroende på ett vildvuxet skriftspråk) och så vidare. En vanlig tillämpning av en stemmer är i frågebaserade system, eftersom en användare som söker på ordet "krokodiler" också vill ha dokument som innehåller ordet "krokodil" (utan suffixet er). Ett mer komplext förhållningssätt till problemet att avgöra den morfologiska roten till ett ord är . Den första publicerade stemmern någonsin skrevs av Julie Beth Lovins, "Development of a stemming algorithm", Mechanical Translation and Computational Linguistics, 11: 22–31 (1968). Denna artikel var anmärkningsvärd för sin tidiga publicering och hade stort inflytande på senare arbeten med att skapa stemmeralgoritmer. En senare stemmer skrevs av Martin Porter och publicerades i Program, Vol 14 no. 3 pp 130–137, July 1980. Denna stemmer blev vida använd och de-factostandard för engelska. Porter erhöll the Tony Kent Strix Award år 2000 för sitt arbete om trunkering och informationssökning. (sv)
  • Em morfologia linguística e recuperação de informação a stemização (do inglês, stemming) é o processo de reduzir palavras flexionadas (ou às vezes derivadas) ao seu (stem), base ou raiz, geralmente uma forma da palavra escrita. O tronco não precisa ser idêntico à raiz morfológica da palavra; ele geralmente é suficiente que palavras relacionadas sejam mapeadas para o mesmo tronco, mesmo se este tronco não for ele próprio uma raiz válida. O estudo de algoritmos para stemização tem sido realizado em ciência da computação desde a década de 60. Vários motores de buscas tratam palavras com o mesmo tronco como sinônimos como um tipo de , em um processo de combinação. É comum se referir aos programas de stemização como stemmers ou algoritmos de stemming. (pt)
  • 在词法学和信息检索里,词干提取是去除词缀得到词根的过程─—得到单词最一般的写法。对于一个词的形态词根,词干并不需要完全相同;相关的词映射到同一个词干一般能得到满意的结果,即使该词干不是词的有效根。从1968年开始在计算机科学领域出现了词干提取的相应算法。很多搜索引擎在处理词汇时,对同义词采用相同的词干作为查询拓展,该过程叫做归并。 词干提取项目一般涉及到词干提取算法或词干提取器。 (zh)
dbo:wikiPageExternalLink
dbo:wikiPageID
  • 30874683 (xsd:integer)
dbo:wikiPageLength
  • 30729 (xsd:nonNegativeInteger)
dbo:wikiPageRevisionID
  • 1108161550 (xsd:integer)
dbo:wikiPageWikiLink
dbp:bot
  • InternetArchiveBot (en)
dbp:date
  • June 2018 (en)
dbp:fixAttempted
  • no (en)
dbp:wikiPageUsesTemplate
dcterms:subject
gold:hypernym
rdf:type
rdfs:comment
  • Stemming és un mètode per a reduir una paraula a la seua raïl o (en anglès) a un stem. Hi ha alguns algorismes de stemming que ajuden en sistemes de recuperació d'informació. L'stemming augmenta el recall, que és una mesura sobre el nombre de documents que es poden trobar amb una consulta. Per exemple una consulta sobre "biblioteques" també troba documents en els quals només aparega "bibliotecari" perquè el stem de les dues paraules és el mateix ("bibliotec"). (ca)
  • في التشكل اللغوي، التشذيب والتجذيع هي عملية للحد من تصريف (أو في بعض الأحيان اشتقاق) الكلمات لإنتاج اصل الكلمات، أو شكل الجذر. ولا يحتاج الاصل ان يكون مكافئ للجذر الصرفي للكلمة، بل هو عادة يكون كافيا لأن يجعل الكلمات ذات الصلة يكون لها نفس الاصل، حتى لو كان هذا الاصل ليس في حد ذاته جذر صالح. وكانت المشكلة طويلة الأمد في علوم الكمبيوتر، وكان نشر أول بحث حول هذا الموضوع في عام 1968. عملية التشذيب، تدعى في كثير من الأحيان عملية الدمج، وهي مفيدة في محركات البحث أو الفهرسة وغيرها من مشاكل معالجة اللغة الطبيعية. (ar)
  • Als Stemming (Stammformreduktion, Normalformenreduktion) bezeichnet man im Information Retrieval sowie in der linguistischen Informatik ein Verfahren, mit dem verschiedene morphologische Varianten eines Wortes auf ihren gemeinsamen Wortstamm zurückgeführt werden, z. B. die Deklination von Wortes oder Wörter zu Wort und Konjugation von gesehen oder sah zu seh. (de)
  • erro-bilaketa da hitzen eta batez ere hitz deklinatu eta flexiboen erroa erauztea. Badaude informazioa eskuratzen laguntzen duten algoritmo batzuk. Honenbestez, kontsulta bat burutzerakoan eskuratutako informazioa hobea izatea lor daiteke; hau da, erro-bilaketari esker liburutegi hitzaren bilaketa batekin liburu eta liburuak hitzak dituzten emaitzak lor daitezke, adibidez. (eu)
  • Stemming es un método para reducir una palabra a su raíz o (en inglés) a un stem. Hay algunos algoritmos de stemming que ayudan en sistemas de recuperación de información. Stemming aumenta el recall que es una medida sobre el número de documentos que se pueden encontrar con una consulta. Por ejemplo una consulta sobre "bibliotecas" también encuentra documentos en los que solo aparezca "bibliotecario" porque el stem de las dos palabras es el mismo ("bibliotec"). (es)
  • 어간 추출(語幹 抽出, 영어: stemming)은 형태론 및 정보 검색 분야에서 어형이 변형된 단어로부터 접사 등을 제거하고 그 단어의 어간을 분리해 내는 것을 의미한다. 여기서 어간은 반드시 어근과 같아야 할 필요는 없으며, 어근과 차이가 있더라도 관련이 있는 단어들이 일정하게 동일한 어간으로 맵핑되게 하는 것이 어간 추출의 목적이다. 1960년대부터 컴퓨터 과학 분야에서 다양한 어간 추출 관련 알고리즘들이 연구되어 왔다. 많은 웹 검색 엔진들은 동일한 어간을 가진 단어들을 동의어로 취급하는 방식으로 을 하여 검색 결과의 품질을 높인다. 어간 추출 프로그램은 흔히 스테밍 알고리즘(stemming algorithm) 또는 스테머(stemmer)라 불린다. (ko)
  • Сте́мминг (англ. stemming — находить происхождение) — это процесс нахождения основы слова для заданного исходного слова. Основа слова не обязательно совпадает с морфологическим корнем слова. Задача нахождения основы слова представляет собой давнюю проблему в области компьютерных наук. Первая публикация по данному вопросу датируется 1968 годом. Стемминг применяется в поисковых системах для расширения поискового запроса пользователя, является частью процесса нормализации текста. Конкретный способ решения задачи поиска основы слов называется алгоритм стемминга, а конкретная реализация — стеммер. (ru)
  • 在词法学和信息检索里,词干提取是去除词缀得到词根的过程─—得到单词最一般的写法。对于一个词的形态词根,词干并不需要完全相同;相关的词映射到同一个词干一般能得到满意的结果,即使该词干不是词的有效根。从1968年开始在计算机科学领域出现了词干提取的相应算法。很多搜索引擎在处理词汇时,对同义词采用相同的词干作为查询拓展,该过程叫做归并。 词干提取项目一般涉及到词干提取算法或词干提取器。 (zh)
  • Stematizace (anglicky stemming) je nalezení kmene slova (nepřesně a úžeji taky kořene). Algoritmus se nazývá . V praxi se stematizace používá například ve vyhledávačích, kde dovoluje vyhledávat bez ohledu na konkrétní tvar. Podobnou operaci provádí lemmatizátor – tato operace vrací základní tvar slova (tj. lemma) místo kmene). Při stematizaci se odstraní morfologické koncovky a případně předpony, např. ne-. Aby vyhledávání fungovalo správně, musí se zpracovat nejen slova v dokumentech, ale stejným způsobem i slova v . (cs)
  • En linguistique, la racinisation ou désuffixation est un procédé de transformation des flexions en leur radical ou racine.La racine d’un mot correspond à la partie du mot restante une fois que l’on a supprimé son (ses) préfixe(s) et suffixe(s), à savoir son radical. Contrairement au lemme qui correspond à un terme issu de l’usage ordinaire des locuteurs de la langue, la racine ne correspond généralement qu’à un terme résultant de ce type d’analyse.Par exemple, le mot chercher a pour radical cherch qui ne correspond pas à un terme employé en dehors d’une référence à ce radical même. Dans des cas particuliers, le radical peut coïncider avec un terme de vocabulaire ordinaire. C’est par exemple le cas de comme frontal qui donne la racine front. (fr)
  • Stemmer (pemotong [kata]) merupakan aplikasi pemotongan imbuhan pada kata berimbuhan (awalan, akhiran, sisipan, kombinasi) yang dijalankan dengan algoritme tertentu. Algoritme yang pertama dikembangkan adalah oleh Martin Porter, yang mengolah pemotongan imbuhan dalam bahasa Inggris. Pemotongan imbuhan lebih banyak digunakan pada aplikasi penelusuran data seperti pada mesin pencari (misalnya google, vivisimo, dan lainnya). Contohnyabila memasukkan kata kunci "kasih" pada mesin pencari, maka hasil pencarian juga memuat kata kasihan, mengasihi, terkasih, di samping halaman yang memuat kata kasih. (in)
  • In linguistic morphology and information retrieval, stemming is the process of reducing inflected (or sometimes derived) words to their word stem, base or root form—generally a written word form. The stem need not be identical to the morphological root of the word; it is usually sufficient that related words map to the same stem, even if this stem is not in itself a valid root. Algorithms for stemming have been studied in computer science since the 1960s. Many search engines treat words with the same stem as synonyms as a kind of query expansion, a process called conflation. (en)
  • Lo stemming è il processo di riduzione della forma flessa di una parola alla sua forma radice, detta "tema". Il tema non corrisponde necessariamente alla radice morfologica (lemma) della parola: normalmente è sufficiente che le parole correlate siano mappate allo stesso tema (per esempio, che "andare", "andai", "andò" mappino al tema "and"), anche se quest'ultimo non è una valida radice per la parola. (it)
  • Stemming – w wyszukiwaniu informacji oraz w morfologii (w językoznawstwie) jest to proces usunięcia ze słowa końcówki fleksyjnej pozostawiający tylko temat wyrazu. Proces stemmingu może być przeprowadzany w celu zmierzenia popularności danego słowa. Końcówki fleksyjne zaniżają faktyczne dane. Algorytmy stemmingu są przedmiotem badań informatyki od lat 60. XX wieku. Pierwszy stemmer, czyli program do przeprowadzania procesu stemmingu, został napisany i opublikowany przez w 1968. W czerwcu 1980 opublikował swój algorytm stemmingu, zwany . (pl)
  • Em morfologia linguística e recuperação de informação a stemização (do inglês, stemming) é o processo de reduzir palavras flexionadas (ou às vezes derivadas) ao seu (stem), base ou raiz, geralmente uma forma da palavra escrita. O tronco não precisa ser idêntico à raiz morfológica da palavra; ele geralmente é suficiente que palavras relacionadas sejam mapeadas para o mesmo tronco, mesmo se este tronco não for ele próprio uma raiz válida. O estudo de algoritmos para stemização tem sido realizado em ciência da computação desde a década de 60. Vários motores de buscas tratam palavras com o mesmo tronco como sinônimos como um tipo de , em um processo de combinação. (pt)
  • En stemmer är ett program eller en algoritm som avgör den morfologiska roten till ett ord, som kan vara en böjningsform eller avledning. Det stemmern utför kallas trunkering. Därför kan en stemmer även kallas trunkerare eller trunkeringsalgoritm. En vanlig tillämpning av en stemmer är i frågebaserade system, eftersom en användare som söker på ordet "krokodiler" också vill ha dokument som innehåller ordet "krokodil" (utan suffixet er). Ett mer komplext förhållningssätt till problemet att avgöra den morfologiska roten till ett ord är . (sv)
  • Стемінг (англ. stemming) - це процес скорочення слова до основи шляхом відкидання допоміжних частин, таких як закінчення чи суфікс. Результати стемінгу іноді дуже схожі на визначення кореня слова, але його алгоритми базуються на інших принципах. Тому слово після обробки алгоритмом стемінгу (стематизації) може відрізнятися від морфологічного кореня слова. Стемінг застосовується в лінгвістичній морфології та в інформаційному пошуку. Багато пошукових систем використовують стемінг для об’єднання слів у яких збігаються форми після стематизації, вони вважають такі слова синонімами. Цей процес називають злиттям. (uk)
rdfs:label
  • تشذيب (ar)
  • Stemming (ca)
  • Stematizace (cs)
  • Stemming (de)
  • Stemming (es)
  • Erro-bilaketa (eu)
  • Stemmer (in)
  • Racinisation (fr)
  • Stemming (it)
  • 어간 추출 (ko)
  • Stemming (pl)
  • Stemming (en)
  • Stemização (pt)
  • Стемминг (ru)
  • Stemmer (sv)
  • 词干提取 (zh)
  • Стемінг (uk)
owl:sameAs
prov:wasDerivedFrom
foaf:homepage
foaf:isPrimaryTopicOf
is dbo:wikiPageDisambiguates of
is dbo:wikiPageRedirects of
is dbo:wikiPageWikiLink of
is foaf:primaryTopic of
Powered by OpenLink Virtuoso    This material is Open Knowledge     W3C Semantic Web Technology     This material is Open Knowledge    Valid XHTML + RDFa
This content was extracted from Wikipedia and is licensed under the Creative Commons Attribution-ShareAlike 3.0 Unported License