The tf–idf weight (term frequency–inverse document frequency) is a weight often used in information retrieval and text mining. This weight is a statistical measure used to evaluate how important a word is to a document in a collection or corpus. The importance increases proportionally to the number of times a word appears in the document but is offset by the frequency of the word in the corpus.
| Property | Value |
| dbpprop:abstract
|
- The tf–idf weight (term frequency–inverse document frequency) is a weight often used in information retrieval and text mining. This weight is a statistical measure used to evaluate how important a word is to a document in a collection or corpus. The importance increases proportionally to the number of times a word appears in the document but is offset by the frequency of the word in the corpus. Variations of the tf–idf weighting scheme are often used by search engines as a central tool in scoring and ranking a document's relevance given a user query. One of the simplest ranking functions is computed by summing the tf-idf for each query term; many more sophisticated ranking functions are variants of this simple model.
- tf-idf (term frequency - inverse document frequency) ist eine Gewichtungsmethode für Terme (Schlüsselwörter) beim Information Retrieval. Die term frequency in einem gegebenen Dokument gibt einen Hinweis auf die Bedeutung dieses Terms für das Dokument. Die inverse document frequency misst die allgemeine Bedeutung des Terms für die Gesamtmenge der betrachteten Dokumente. <math> tf_{i,j} = \frac{freq_{i,j}}{max_l(freq_{l,j})} </math> wird pro Term <math>i</math> abhängig vom Dokument <math>j</math> betrachtet. <math> freq_{i,j} </math> ist die Auftrittshäufigkeit des betrachteten Terms <math>i</math> im Dokument <math>j</math>. Im Nenner steht die Maximalhäufigkeit über alle <math>k</math> Terme im Dokument (Baeza-Yates und Ribeiro-Neto, 1999). Die inverse Dokumentfrequenz <math>idf</math> hängt hingegen nicht vom einzelnen Dokument, sondern vom Dokumentkorpus, der Gesamtmenge aller Dokumente im Retrievalszenario, <math>D</math> ab: <math>idf_i = \log \frac{N}{n_i}</math> Hier ist <math>N = |D|</math> die Anzahl der Dokumente im Korpus und <math>n_i</math> die Anzahl der Dokumente, die Term <math>i</math> beinhalten. Das Gewicht <math>w</math> eines Terms <math>i</math> im Dokument <math>j</math> ist dann nach TF-IDF: <math>w_{i,j} = tf_{i,j} \cdot idf_i = \frac{freq_{i,j}}{max_l(freq_{l,j})} \cdot \log \frac{N}{n_i} </math>
- Le tf-idf ou TF-IDF (de l'anglais term frequency-inverse document frequency) est une méthode de pondération souvent utilisée dans la fouille de textes. Cette mesure statistique permet d'évaluer l'importance d'un mot par rapport à un document extrait d'une collection ou d'un corpus. Le poids augmente proportionnellement en fonction du nombre d'occurrences du mot dans le document. Il varie également en fonction de la fréquence du mot dans le corpus. Des variantes de la formule originale sont souvent utilisées dans des moteurs de recherche pour apprécier la pertinence d'un document en fonction des critères de recherche de l'utilisateur.
- tf-idfは、文章中の特徴的な単語(重要とみなされる単語)を抽出するためのアルゴリズムであり、主に情報検索や文章要約などの分野で利用される。 tf-idfは、tf(単語の出現頻度)とidf(逆出現頻度)の二つの指標で計算される。 <math> \mathrm{tfidf} = \mathrm{tf} \cdot \mathrm{idf} </math> <math> \mathrm{tf_i} = \frac{n_i}{\sum_k n_k}</math> <math> \mathrm{idf_i} = \log \frac</math> <math> n_i </math>は単語iの出現頻度、<math> |D| </math>は総ドキュメント数、<math>|\{d: d \ni t_{i}\}|</math>は単語iを含むドキュメント数である。そのため、idfは一種の一般語フィルタとして働き、多くのドキュメントに出現する語(一般的な語)は重要度が下がり、特定のドキュメントにしか出現しない単語の重要度を上げる役割を果たす。 (注) tf : Term Frequency, idf : Inverse Document Frequency
- TFIDF (ang. TF – term frequency, IDF – inverse document frequency) - ważenie częstością termów - odwrotna częstość w dokumentach - jedna z metod obliczania wagi słów w oparciu o liczbę ich wystąpień, należąca do grupy algorytmów obliczających statystyczne wagi termów. Każdy dokument reprezentowany jest przez wektor, składający się z wag słów występujących w tym dokumencie. TFIDF informuje o częstości wystąpienia termów uwzględniając jednocześnie odpowiednie wyważenie znaczenia lokalnego termu i jego znaczenia w kontekście pełnej kolekcji dokumentów. Algorytm stosowany jako metoda oceny relewantności dokumentu w wyszukiwarkach internetowych, kolejnym zastosowaniem jest ocena podobieństwa dokumentów w systemach grupowania wyników oraz systemach typu antyplagiat. Wartość TF-IDF oblicza się ze wzoru: <math> \mathrm{tf-idf} = \mathrm{tf} \cdot \log \left(\frac\right)</math> gdzie: <math> \mathrm{tf} = \frac{n_i}{\sum_k n_k}</math> <math>n_i</math> - liczba wystąpień termu w przeszukiwanym zbiorze <math>\sum_k n_k</math> - liczba wszystkich termów w przeszukiwanym zbiorze
- TF-IDF (от англ. TF — term frequency, IDF — inverse document frequency) — статистическая мера, используемая для оценки важности слова в контексте документа, являющегося частью коллекции документов или корпуса. Вес некоторого слова пропорционален количеству употребления этого слова в документе, и обратно пропорционален частоте употребления слова в других документах коллекции. Мера TF-IDF часто используется в задачах анализа текстов и информационного поиска, например, как один из критериев релевантности документа поисковому запросу, при расчёте меры близости документов при кластеризации.
- TF-IDF(term frequency–inverse document frequency)是一種用於資訊檢索與文本挖掘的常用加權技術。TF-IDF是一種統計方法,用以評估一字詞對於一個文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。TF-IDF加權的各種形式常被搜索引擎應用,作為文件與用戶查詢之間相關程度的度量或評級。除了TF-IDF以外,互聯網上的搜尋引擎還會使用基於連結分析的評級方法,以確定文件在搜尋結果中出現的順序。
|
| dbpprop:hasPhotoCollection
| |
| dbpprop:reference
| |
| rdf:type
| |
| rdfs:comment
|
- The tf–idf weight (term frequency–inverse document frequency) is a weight often used in information retrieval and text mining. This weight is a statistical measure used to evaluate how important a word is to a document in a collection or corpus. The importance increases proportionally to the number of times a word appears in the document but is offset by the frequency of the word in the corpus.
- tf-idf (term frequency - inverse document frequency) ist eine Gewichtungsmethode für Terme (Schlüsselwörter) beim Information Retrieval. Die term frequency in einem gegebenen Dokument gibt einen Hinweis auf die Bedeutung dieses Terms für das Dokument. Die inverse document frequency misst die allgemeine Bedeutung des Terms für die Gesamtmenge der betrachteten Dokumente.
- Le tf-idf ou TF-IDF (de l'anglais term frequency-inverse document frequency) est une méthode de pondération souvent utilisée dans la fouille de textes. Cette mesure statistique permet d'évaluer l'importance d'un mot par rapport à un document extrait d'une collection ou d'un corpus. Le poids augmente proportionnellement en fonction du nombre d'occurrences du mot dans le document. Il varie également en fonction de la fréquence du mot dans le corpus.
- TFIDF (ang. TF – term frequency, IDF – inverse document frequency) - ważenie częstością termów - odwrotna częstość w dokumentach - jedna z metod obliczania wagi słów w oparciu o liczbę ich wystąpień, należąca do grupy algorytmów obliczających statystyczne wagi termów. Każdy dokument reprezentowany jest przez wektor, składający się z wag słów występujących w tym dokumencie.
- TF-IDF (от англ. TF — term frequency, IDF — inverse document frequency) — статистическая мера, используемая для оценки важности слова в контексте документа, являющегося частью коллекции документов или корпуса.
|
| rdfs:label
|
- Tf–idf
- TF-IDF
- TF-IDF
- Tf-idf
- TFIDF
- TF-IDF
- TF-IDF
|
| owl:sameAs
| |
| skos:subject
| |
| foaf:page
| |
| is dbpprop:redirect
of | |
| is owl:sameAs
of | |