Document classification/categorization is a problem in information science. The task is to assign an electronic document to one or more categories, based on its contents.
| Property | Value |
| dbpprop:abstract
|
- Document classification/categorization is a problem in information science. The task is to assign an electronic document to one or more categories, based on its contents. Document classification tasks can be divided into two sorts: supervised document classification where some external mechanism (such as human feedback) provides information on the correct classification for documents, and unsupervised document classification, where the classification must be done entirely without reference to external information. There is also a semi-supervised document classification, where parts of the documents are labeled by the external mechanism.
- Se define como la tarea de asignar variables Booleanas a cada par <math><d_j, c_i></math> pertenecientes a <math>D x C</math>, donde <math>D</math> es el dominio de los documentos y <math>C = \{c_1,... ,c_n\}</math> es una colección de categorías predefinidas. T indica archivar un documento <math>d_j</math> bajo <math>c_i</math>, mientras F indica no archivar <math>d_j</math> bajo <math>c_i</math>. Entre las aplicaciones que encuentra la clasificación de documentos se tienen los filtros de e-mail (spam / no spam)
- Dokumenttien luokittelun tarkoituksena on helpottaa dokumenttien löytymistä tai käsittelyä liittämällä kukin dokumentti yhteen tai useampaan luokkaan. Luokittelua tarvitsevat kirjastot, lehtiarkistot, uutistoimistot, hakupalvelut, suuryritykset ja muut suurten tekstikokoelmien käsittelijät. Dokumentit voivat olla esimerkiksi kirjoja, lehtiartikkeleita, WWW-sivuja, sähköpostiviestejä tai yrityksen sisäisiä dokumentteja. Uusimpia dokumenttien luokittelun sovellusalueita on roskapostin tunnistaminen.
- La classification et catégorisation de documents est l'activité du TALN qui consiste à évaluer comment classer des ressources documentaires, généralement en provenance d'un corpus. Cette classification peut prendre une infinité de formes. On citera ainsi la classification par genre, par thème, ou encore par opinion. La tâche de classification est réalisée avec des algorithmes spécifiques, mis en œuvre par des systèmes de traitement de l'information. C'est une tâche d'automatisation d'un processus de classement, qui fait le plus souvent appel à des méthodes numériques (c'est-à-dire des algorithmes de Recherche d'information ou de classification de type mathématique). L'activité de classification de documents est essentielle dans de nombreux domaines économiques : elle permet d'organiser des corpus documentaires, de les trier, et d'aider à les exploiter dans des secteurs tels que l'administration, l'aéronautique, la recherche sur internet, les sciences.
- 文書分類(英: Document classification/categorization)とは、情報科学における問題である。電子文書をその内容に基づいて、1つ以上に分類する。文書分類には、外部から(例えば人間が)正しい分類に関する情報を与える教師あり文書分類と、外部の情報を参照せずに分類する教師なし文書分類がある。
- Классификация документов — одна из задач информатики, заключающаяся в отнесении документа к одной из нескольких категорий на основании содержания документа. Использует методы информационного поиска и машинного обучения. Следует отличать классификацию текстов от кластеризации, в последнем случае тексты также группируются по некоторым критериям, но заранее заданные категории отсутствуют.
|
| dbpprop:hasPhotoCollection
| |
| dbpprop:reference
| |
| rdfs:comment
|
- Document classification/categorization is a problem in information science. The task is to assign an electronic document to one or more categories, based on its contents.
- Se define como la tarea de asignar variables Booleanas a cada par <math><d_j, c_i></math> pertenecientes a <math>D x C</math>, donde <math>D</math> es el dominio de los documentos y <math>C = \{c_1,... ,c_n\}</math> es una colección de categorías predefinidas.
- Dokumenttien luokittelun tarkoituksena on helpottaa dokumenttien löytymistä tai käsittelyä liittämällä kukin dokumentti yhteen tai useampaan luokkaan. Luokittelua tarvitsevat kirjastot, lehtiarkistot, uutistoimistot, hakupalvelut, suuryritykset ja muut suurten tekstikokoelmien käsittelijät. Dokumentit voivat olla esimerkiksi kirjoja, lehtiartikkeleita, WWW-sivuja, sähköpostiviestejä tai yrityksen sisäisiä dokumentteja.
- La classification et catégorisation de documents est l'activité du TALN qui consiste à évaluer comment classer des ressources documentaires, généralement en provenance d'un corpus. Cette classification peut prendre une infinité de formes. On citera ainsi la classification par genre, par thème, ou encore par opinion. La tâche de classification est réalisée avec des algorithmes spécifiques, mis en œuvre par des systèmes de traitement de l'information.
- 文書分類(英: Document classification/categorization)とは、情報科学における問題である。電子文書をその内容に基づいて、1つ以上に分類する。文書分類には、外部から(例えば人間が)正しい分類に関する情報を与える教師あり文書分類と、外部の情報を参照せずに分類する教師なし文書分類がある。
- Классификация документов — одна из задач информатики, заключающаяся в отнесении документа к одной из нескольких категорий на основании содержания документа. Использует методы информационного поиска и машинного обучения.
|
| rdfs:label
|
- Document classification
- Clasificación de documentos
- Dokumenttien luokittelu
- Classification et catégorisation de documents
- 文書分類
- Классификация документов
|
| owl:sameAs
| |
| skos:subject
| |
| foaf:page
| |
| is dbpprop:disambiguates
of | |
| is dbpprop:redirect
of | |