| dbpprop:abstract
|
- Stop words is the name given to words which are filtered out prior to, or after, processing of natural language data (text). Hans Peter Luhn, one of the pioneers in information retrieval, is credited with coining the phrase and using the concept in his design. It is controlled by human input and not automated. This is sometimes seen as a negative approach to the natural articles of speech as mentioned above. There is no definite list of stop words which all Natural language processing (NLP) tools incorporate. Not all NLP tools use a stoplist. Some tools specifically avoid using them to support phrase searching. The use of a stemming algorithm may reduce part of the rationale or dependence on a stoplist to filter out words. Stop words can cause problems when using a search engine to search for phrases that include them, particularly in names such as 'The Who', 'The The', or 'Take That'.
- Stoppwörter nennt man im Information Retrieval Wörter, die bei einer Volltextindexierung nicht beachtet werden, da sie sehr häufig auftreten und gewöhnlich keine Relevanz für die Erfassung des Dokumentinhalts besitzen. Allgemein übliche Stoppwörter in deutschsprachigen Dokumenten sind bestimmte Artikel ('der', 'die', 'das'), unbestimmte Artikel ('einer', 'eine', 'ein'), Konjunktionen (z. B. 'und', 'oder', 'doch') und häufig gebrauchte Präpositionen (z. B. 'an', 'in', 'von'), sowie die Negation 'nicht'. Im Englischen sind unter anderem 'a', 'of', 'the', 'I', 'it', 'you' und 'and' Stoppwörter. Abhängig von den zu erschließenden Dokumenten können Stoppwörter auch mehrsprachig vorliegen. Obwohl eher als Stoppzeichen zu benennen werden häufig auch der Punkt (. ), das Komma und der Strichpunkt als Stoppwörter bezeichnet. Allen Stoppwörtern ist gemeinsam, dass sie vor allem grammatikalische/syntaktische Funktionen übernehmen und daher keine Rückschlüsse auf den Inhalt des Dokumentes zulassen. Eine weitere Gemeinsamkeit ist ihre große Zahl: sie treten in jedem Dokument sehr zahlreich auf und kommen in sehr vielen Dokumenten vor, wodurch sie bei der Erschließung der Dokumente einen hohen Aufwand verursachen würden. Stoppwörter dienen der Steigerung der Effizienz von Suchmaschinen. Würde man Stoppwörter bei einem Suchauftrag beachten, würde die Ergebnismenge nahezu jedes Dokument des Bestandes enthalten. Ein solches Suchergebnis wäre für den Anwender nutzlos. Hans Peter Luhn, einer der Pioniere des Information Retrieval, prägte den Begriff der Stoppwörter und benutzte dieses Konzept im Design und in der Implementation des Indexers KWIC.
- Stopslovo je slovo, které se v daném jazyce vyskytuje často, ale nenese žádnou významovou informaci, má zpravidla pouze syntaktický význam; typicky se jedná o spojky, předložky atp. Seznam takových slov (též označovaný jako negativní slovník) používají plnotextové vyhledávače a při sestavování indexu tato slova zcela ignorují, neboť jsou pro vyhledávání neužitečná. I při jiných formách počítačového zpracování textových dokumentů se stopslova často vypouštějí, neboť tak dojde jak ke zmenšení zpracovávaného dokumentu, tak i ke zkrácení doby nutné pro jeho zpracování. Při použití lemmatizace může slovník obsahovat pouze základní tvary, v opačném případě musí obsahovat všechny používané tvary stopslov. V češtině mezi stopslova mohou být zařazeny např. spojky (a, aby, ale, ani, …), předložky (na, pro, u, …), zájmena (její, my, on), málovýznamová slovesa (být, mít). V jiných jazycích patří mezi typická stopslova také určité a neurčité členy. V konkrétních kontextech často mezi stopslova bývají zařazena slova v daném kontextu příliš častá (např. při vyhledávání na WWW tak jsou často ignorována slova jako www či com). Za vynálezce stopslov bývá považován Hans Peter Luhn.
- Palabras vacías es el nombre que reciben las palabras sin significado como artículos, pronombres, preposiciones, etc. que son filtradas antes o después del procesamiento de datos en lenguaje natural (texto). A Hans Peter Luhn, uno de los pioneros en recuperación de información, se le atribuye la acuñación de la locución inglesa stop words y el uso del concepto en su diseño. Está controlada por introducción humana y no automática. No hay una lista definitiva de palabras vacías que todas las herramientas de procesamiento de lenguajes naturales incorporen. No todas las herramientas de PLN usan una lista de palabras vacías. Algunas herramientas evitan usarlo específicamente para soportar búsquedas por frase. El uso de un algoritmo de stemming puede reducir parte de la base lógica o dependencia de una lista de palabras vacías a filtrar. Las palabras vacías pueden causar problemas al usar un motor de búsqueda para buscar frases que las incluyen, especialmente en nombres como 'La verdad' o 'Nunca Jamás'.
- Les mots vides (ou stop words, en anglais) sont des mots qui sont tellement communs qu'il est inutile de les indexer ou de les utiliser dans une recherche. En français, des mots vides évidents pourraient être « le », « la », « de », « du », « ce », « ça », ... Un mot vide est un mot non significatif figurant dans un texte. On l'oppose à mot plein. La signification d'un mot s'évalue à partir de sa distribution dans une collection de textes. Un mot dont la distribution est uniforme sur les textes de la collection est dit "vide". En d'autres termes, un mot qui apparaît avec une fréquence semblable dans chacun des textes de la collection n'est pas discriminant, ne permet pas de distinguer les textes les uns par rapport aux autres. Lorsque tous les textes de la collection sont rédigés dans une même langue, les mots vides sont principalement des mots caractéristiques de cette langue comme les prépositions, les articles, les pronoms. D'où l'assimilation courante entre mots vides et mots grammaticaux et partant, entre mots pleins et mots lexicaux. Les listes pré-établies, dites de mots vides, utilisées par les moteurs de recherche sont ainsi des listes de mots grammaticaux. Cependant dans une collection de textes réunis autour d'un thème commun, certains mots peuvent respecter une distribution uniforme. Ce sont alors des mots vides pour cette collection bien qu'ils ne soient pas des mots grammaticaux. D'autre part, certains mots grammaticaux sont assez rares pour constituer des mots pleins .
- Stoppord är betydelsefattiga ord som förekommer i nästan alla texter och därför ibland ignoreras/filtreras bort i textsökning, indexering och andra språkteknologiska sammanhang Några svenska exempel är och, eller, men, en, ett, att.
|
| rdfs:comment
|
- Stop words is the name given to words which are filtered out prior to, or after, processing of natural language data (text). Hans Peter Luhn, one of the pioneers in information retrieval, is credited with coining the phrase and using the concept in his design. It is controlled by human input and not automated. This is sometimes seen as a negative approach to the natural articles of speech as mentioned above.
- Stoppwörter nennt man im Information Retrieval Wörter, die bei einer Volltextindexierung nicht beachtet werden, da sie sehr häufig auftreten und gewöhnlich keine Relevanz für die Erfassung des Dokumentinhalts besitzen. Allgemein übliche Stoppwörter in deutschsprachigen Dokumenten sind bestimmte Artikel ('der', 'die', 'das'), unbestimmte Artikel ('einer', 'eine', 'ein'), Konjunktionen (z. B. 'und', 'oder', 'doch') und häufig gebrauchte Präpositionen (z. B.
- Stopslovo je slovo, které se v daném jazyce vyskytuje často, ale nenese žádnou významovou informaci, má zpravidla pouze syntaktický význam; typicky se jedná o spojky, předložky atp. Seznam takových slov (též označovaný jako negativní slovník) používají plnotextové vyhledávače a při sestavování indexu tato slova zcela ignorují, neboť jsou pro vyhledávání neužitečná.
- Palabras vacías es el nombre que reciben las palabras sin significado como artículos, pronombres, preposiciones, etc. que son filtradas antes o después del procesamiento de datos en lenguaje natural (texto). A Hans Peter Luhn, uno de los pioneros en recuperación de información, se le atribuye la acuñación de la locución inglesa stop words y el uso del concepto en su diseño. Está controlada por introducción humana y no automática.
- Les mots vides (ou stop words, en anglais) sont des mots qui sont tellement communs qu'il est inutile de les indexer ou de les utiliser dans une recherche. En français, des mots vides évidents pourraient être « le », « la », « de », « du », « ce », « ça », ... Un mot vide est un mot non significatif figurant dans un texte. On l'oppose à mot plein. La signification d'un mot s'évalue à partir de sa distribution dans une collection de textes.
- Stoppord är betydelsefattiga ord som förekommer i nästan alla texter och därför ibland ignoreras/filtreras bort i textsökning, indexering och andra språkteknologiska sammanhang Några svenska exempel är och, eller, men, en, ett, att.
|