This HTML5 document contains 111 embedded RDF statements represented using HTML+Microdata notation.

The embedded RDF content will be recognized by any processor of HTML5 Microdata.

Namespace Prefixes

PrefixIRI
dctermshttp://purl.org/dc/terms/
dbohttp://dbpedia.org/ontology/
n19http://dbpedia.org/resource/File:
foafhttp://xmlns.com/foaf/0.1/
n10https://www.cambridge.org/core/journals/knowledge-engineering-review/article/data-preprocessing-in-predictive-data-mining/F7F2D7AC540D2815C613BA6575359AAA/share/
n26https://global.dbpedia.org/id/
dbpedia-hehttp://he.dbpedia.org/resource/
dbthttp://dbpedia.org/resource/Template:
dbpedia-ruhttp://ru.dbpedia.org/resource/
dbpedia-ukhttp://uk.dbpedia.org/resource/
rdfshttp://www.w3.org/2000/01/rdf-schema#
freebasehttp://rdf.freebase.com/ns/
dbpedia-pthttp://pt.dbpedia.org/resource/
n22http://
n20http://commons.wikimedia.org/wiki/Special:FilePath/
rdfhttp://www.w3.org/1999/02/22-rdf-syntax-ns#
dbpedia-arhttp://ar.dbpedia.org/resource/
owlhttp://www.w3.org/2002/07/owl#
wikipedia-enhttp://en.wikipedia.org/wiki/
dbpedia-mshttp://ms.dbpedia.org/resource/
dbchttp://dbpedia.org/resource/Category:
dbphttp://dbpedia.org/property/
provhttp://www.w3.org/ns/prov#
xsdhhttp://www.w3.org/2001/XMLSchema#
wikidatahttp://www.wikidata.org/entity/
goldhttp://purl.org/linguistics/gold/
dbrhttp://dbpedia.org/resource/
dbpedia-jahttp://ja.dbpedia.org/resource/

Statements

Subject Item
dbr:Ensemble_learning
dbo:wikiPageWikiLink
dbr:Data_pre-processing
Subject Item
dbr:Anomaly_detection
dbo:wikiPageWikiLink
dbr:Data_pre-processing
Subject Item
dbr:Instance_selection
dbo:wikiPageWikiLink
dbr:Data_pre-processing
Subject Item
dbr:CrysTBox
dbo:wikiPageWikiLink
dbr:Data_pre-processing
Subject Item
dbr:Glossary_of_artificial_intelligence
dbo:wikiPageWikiLink
dbr:Data_pre-processing
Subject Item
dbr:Glossary_of_computer_science
dbo:wikiPageWikiLink
dbr:Data_pre-processing
Subject Item
dbr:MNIST_database
dbo:wikiPageWikiLink
dbr:Data_pre-processing
Subject Item
dbr:Computational_geometry
dbo:wikiPageWikiLink
dbr:Data_pre-processing
Subject Item
dbr:Fault_detection_and_isolation
dbo:wikiPageWikiLink
dbr:Data_pre-processing
Subject Item
dbr:Data_Pre-processing
dbo:wikiPageWikiLink
dbr:Data_pre-processing
dbo:wikiPageRedirects
dbr:Data_pre-processing
Subject Item
dbr:Adaptive_neuro_fuzzy_inference_system
dbo:wikiPageWikiLink
dbr:Data_pre-processing
Subject Item
dbr:Data_augmentation
dbo:wikiPageWikiLink
dbr:Data_pre-processing
Subject Item
dbr:Data_binning
dbo:wikiPageWikiLink
dbr:Data_pre-processing
Subject Item
dbr:Data_blending
dbo:wikiPageWikiLink
dbr:Data_pre-processing
Subject Item
dbr:Data_editing
dbo:wikiPageWikiLink
dbr:Data_pre-processing
Subject Item
dbr:Data_mining
dbo:wikiPageWikiLink
dbr:Data_pre-processing
Subject Item
dbr:Data_pre-processing
rdf:type
dbo:MilitaryConflict
rdfs:label
معالجة مسبقة للبيانات Pré-processamento de dados Data pre-processing Предварительная обработка данных Попередня обробка даних データ前処理
rdfs:comment
O pré-processamento é um passo importante no processo de mineração de texto. A frase "garbage in, garbage out" é particularmente aplicável a projetos de data mining e machine learning. Os métodos de coleta de dados geralmente são frouxamente controlados, resultando em valores de intervalo (por exemplo, renda: −100), combinações de dados impossíveis (por exemplo, sexo: masculino, grávidas: sim), , etc. A análise de dados que não foram cuidadosamente selecionados para tais problemas pode produzir resultados enganosos. Assim, a representação e a qualidade dos dados são antes de tudo uma análise. Предварительная обработка данных является важным шагом в процессе интеллектуального анализа данных. Фраза «мусор на входе — мусор на выходе» применима, в частности, и для проектов интеллектуального анализа данных и машинного обучения. Здесь имеется в виду то, что даже самый изощренный анализ не принесет пользы, если за основу взяты сомнительные данные. Попередня обробка - розділ аналізу даних що займається отриманням характеристик для подальшого використання у наступних розділах аналізу даних. 1. * Обчислення базових характеристик (центральні моменти) 2. * Перевірка основних гіпотез (симетричності, однорідності) 3. * Перевірка стохастичності вибірки 4. * Видалення аномальних спостережень 5. * Розвідувальний аналіз تعتبر المعالجة المسبقة للبيانات خطوة مهمة في عملية التنقيب عن البيانات. غالبًا ما يتم التحكم في طرق جمع البيانات بطريقة غير محكمة، مما يؤدي إلى قيم خارج النطاق (على سبيل المثال، الدخل: − 100)، ومجموعات البيانات المستحيلة (مثل: الجنس: ذكر، حامل: نعم)، أو قيم مفقودة، إلخ. تحليل البيانات التي لم يتم فحصها بعناية لمواجهة هذه المشاكل يمكن أن يؤدي إلى نتائج مضللة وغير منطقية. وبالتالي، فإن تمثيل وجودة البيانات تسبقان كل شيء قبل إجراء التحليل. في كثير من الأحيان، تعد المعالجة المسبقة للبيانات المرحلة الأكثر أهمية في مشروع التعلم الآلي، خاصة في علم الأحياء الحسابي..في كثير من الأحيان، تجهيز البيانات يعتبر أهم مرحلة من مراحل التعلم الآلي، خاصة في الأحياء الحسابي. 機械学習・データマイニングにおけるデータ前処理(データまえしょり、英: data preprocessing)は学習の前段階で行われるデータ変換である。 Data preprocessing can refer to manipulation or dropping of data before it is used in order to ensure or enhance performance, and is an important step in the data mining process. The phrase "garbage in, garbage out" is particularly applicable to data mining and machine learning projects. Data-gathering methods are often loosely controlled, resulting in values (e.g., Income: −100), impossible data combinations (e.g., Sex: Male, Pregnant: Yes), and missing values, etc.
foaf:depiction
n20:SimpleSemanticDataMiningDiagram.png
dcterms:subject
dbc:Machine_learning
dbo:wikiPageID
12386904
dbo:wikiPageRevisionID
1100537839
dbo:wikiPageWikiLink
dbr:Pandas_(software) dbr:Instance_selection dbr:Data_wrangling dbr:Missing_values dbr:Ontology_(information_science) dbr:Chemometrics dbr:Data_editing dbr:Natural_language dbr:Comma-separated_values dbc:Machine_learning dbr:Training_set dbr:R_(programming_language) dbr:Range_error dbr:Fuzzy_sets dbr:Feature_selection dbr:Data_collection dbr:Data_cleansing dbr:Feature_extraction dbr:Data_reduction dbr:Data_quality dbr:Confusion_matrix dbr:Data_transformation dbr:False_positives_and_false_negatives dbr:Data_mining dbr:Data_preparation dbr:Data_binning n19:SimpleSemanticDataMiningDiagram.png dbr:Machine_learning dbr:Knowledge_discovery dbr:Protégé_(software) dbr:Computational_biology dbr:Data_cleaning dbr:GIGO dbr:Data_normalization dbr:One-hot
dbo:wikiPageExternalLink
n10:92b3b50e7ed7363e5946baf406025281d2eb8c02 n22:dataprocessing.aixcape.org
owl:sameAs
dbpedia-ms:Prapemprosesan_data dbpedia-ja:データ前処理 wikidata:Q5227332 dbpedia-ru:Предварительная_обработка_данных dbpedia-ar:معالجة_مسبقة_للبيانات freebase:m.02w2jr0 dbpedia-uk:Попередня_обробка_даних dbpedia-he:עיבוד_נתונים_מקדים n26:4iiVm dbpedia-pt:Pré-processamento_de_dados
dbp:wikiPageUsesTemplate
dbt:Reflist dbt:Cn dbt:Data
dbo:thumbnail
n20:SimpleSemanticDataMiningDiagram.png?width=300
dbo:abstract
Data preprocessing can refer to manipulation or dropping of data before it is used in order to ensure or enhance performance, and is an important step in the data mining process. The phrase "garbage in, garbage out" is particularly applicable to data mining and machine learning projects. Data-gathering methods are often loosely controlled, resulting in values (e.g., Income: −100), impossible data combinations (e.g., Sex: Male, Pregnant: Yes), and missing values, etc. Analyzing data that has not been carefully screened for such problems can produce misleading results. Thus, the representation and quality of data is first and foremost before running any analysis. Often, data preprocessing is the most important phase of a machine learning project, especially in computational biology. If there is much irrelevant and redundant information present or noisy and unreliable data, then knowledge discovery during the training phase is more difficult. Data preparation and filtering steps can take considerable amount of processing time. Examples of data preprocessing include cleaning, instance selection, normalization, one hot encoding, transformation, feature extraction and selection, etc. The product of data preprocessing is the final training set. Data preprocessing may affect the way in which outcomes of the final data processing can be interpreted. This aspect should be carefully considered when interpretation of the results is a key point, such in the multivariate processing of chemical data (chemometrics). تعتبر المعالجة المسبقة للبيانات خطوة مهمة في عملية التنقيب عن البيانات. غالبًا ما يتم التحكم في طرق جمع البيانات بطريقة غير محكمة، مما يؤدي إلى قيم خارج النطاق (على سبيل المثال، الدخل: − 100)، ومجموعات البيانات المستحيلة (مثل: الجنس: ذكر، حامل: نعم)، أو قيم مفقودة، إلخ. تحليل البيانات التي لم يتم فحصها بعناية لمواجهة هذه المشاكل يمكن أن يؤدي إلى نتائج مضللة وغير منطقية. وبالتالي، فإن تمثيل وجودة البيانات تسبقان كل شيء قبل إجراء التحليل. في كثير من الأحيان، تعد المعالجة المسبقة للبيانات المرحلة الأكثر أهمية في مشروع التعلم الآلي، خاصة في علم الأحياء الحسابي..في كثير من الأحيان، تجهيز البيانات يعتبر أهم مرحلة من مراحل التعلم الآلي، خاصة في الأحياء الحسابي. إذا كان هناك الكثير من المعلومات غير ذات الصلة أو الزائدة عن الحاجة أو البيانات المشوشة وغير الموثوق بها، فإن اكتشاف المعرفة خلال مرحلة التدريب يكون أكثر صعوبة. يمكن أن تستغرق خطوات إعداد البيانات،تصفيتها مقدارًا كبيرًا من وقت المعالجة. تتضمن معالجة البيانات الأولية التنظيف، واختيار الحالات، والتحسين، والتحويل، واستخلاص الخصائص واختيارها، وما إلى ذلك. النتيجة النهائية لمعالجة البيانات هو مجموعة التدريب النهائية. Попередня обробка - розділ аналізу даних що займається отриманням характеристик для подальшого використання у наступних розділах аналізу даних. 1. * Обчислення базових характеристик (центральні моменти) 2. * Перевірка основних гіпотез (симетричності, однорідності) 3. * Перевірка стохастичності вибірки 4. * Видалення аномальних спостережень 5. * Розвідувальний аналіз 機械学習・データマイニングにおけるデータ前処理(データまえしょり、英: data preprocessing)は学習の前段階で行われるデータ変換である。 Предварительная обработка данных является важным шагом в процессе интеллектуального анализа данных. Фраза «мусор на входе — мусор на выходе» применима, в частности, и для проектов интеллектуального анализа данных и машинного обучения. Здесь имеется в виду то, что даже самый изощренный анализ не принесет пользы, если за основу взяты сомнительные данные. O pré-processamento é um passo importante no processo de mineração de texto. A frase "garbage in, garbage out" é particularmente aplicável a projetos de data mining e machine learning. Os métodos de coleta de dados geralmente são frouxamente controlados, resultando em valores de intervalo (por exemplo, renda: −100), combinações de dados impossíveis (por exemplo, sexo: masculino, grávidas: sim), , etc. A análise de dados que não foram cuidadosamente selecionados para tais problemas pode produzir resultados enganosos. Assim, a representação e a qualidade dos dados são antes de tudo uma análise. Muitas vezes, o pré-processamento de dados é a fase mais importante de um projeto de aprendizado de máquina, especialmente em biologia computacional. É nessa etapa que os documentos são transformados para a forma numérica. O conteúdo de cada documento é decomposto em termos e a frequência de cada um. Os termos menos significativos são descartados e os que estão presentes em um grande número de documentos da coleção são desvalorizados. O resultado do pré-processamento é a geração da Bag of Words, mas conhecida como BOW, que é uma representação numérica da coleção de documentos. A BOW é uma matriz esparsa, onde cada linha representa um documento (Di) e cada coluna representa um termo (Tj). E o valor do campo DiTj é o valor da frequência do termo Tj no documento Di. Para gerar uma BOW são necessárias quatro etapas: leitura e conversão, extração e limpeza dos termos, contagem de termos e cálculo de frequência. * Leitura: Nessa etapa é definida uma coleção de documentos e cada documento pertencente a essa coleção terá seu conteúdo carregado na memória e seguirá pelas etapas seguintes. * Extração e limpeza dos termos: Cada documento da coleção vai ter o seu conteúdo dividido em termos, ou seja, cada palavra significante presente no documento. É composto por 3 sub-etapas. * Tokenização: A tokenização é utilizada para decompor o documento em cada termo que o compõe. Os delimitadores utilizados para tokenização geralmente são: o espaço em branco entre os termos, quebras de linhas, tabulações, e alguns caracteres especiais. * Limpeza: Depois de fazer a tokenização cada termo obtido passa pela etapa de limpeza. Primeiro são removidos as stop words, depois é verificada a existência do sinônimo do mesmo no dicionário e por último é realizado o stemming do termo. Stop words é uma lista de termos não representativos para um documento, geralmente essa lista é composta por: preposições, artigos, advérbios, números, pronomes e pontuação. * Stemming: Stemming é o método para redução de um termo ao seu radical, removendo as desinências, afixos, e . Com sua utilização, os termos derivados de um mesmo radical serão contabilizados como um único termo. * Contagem dos termos: Depois de extrair os termos representativos de cada documento, será calculado o número de ocorrências de cada termo num documento. Depois de concluída a contagem é criada uma lista com duas colunas: termo e quantidade de ocorrência. * Cálculo da Frequência: Após concluída a etapa de contagem de termos para cada documento da coleção, será calculada a frequência dos termos. A medida escolhida para calcular a frequência dos termos é a tf-idf. O tf-idf define a importância do termo dentro da coleção de documentos. O tf-idf atribui um peso ao termo para cada documento da BOW. O peso é o número de ocorrências do termo no documento (Di), modificada por uma escala de importância do termo (Tj), chamada de frequência inversa do documento.
gold:hypernym
dbr:Step
prov:wasDerivedFrom
wikipedia-en:Data_pre-processing?oldid=1100537839&ns=0
dbo:wikiPageLength
17161
foaf:isPrimaryTopicOf
wikipedia-en:Data_pre-processing
Subject Item
dbr:Data_preparation
dbo:wikiPageWikiLink
dbr:Data_pre-processing
Subject Item
dbr:Data_reduction
dbo:wikiPageWikiLink
dbr:Data_pre-processing
Subject Item
dbr:Edgar_Acuna
dbo:wikiPageWikiLink
dbr:Data_pre-processing
Subject Item
dbr:Reachability
dbo:wikiPageWikiLink
dbr:Data_pre-processing
Subject Item
dbr:Replication_crisis
dbo:wikiPageWikiLink
dbr:Data_pre-processing
Subject Item
dbr:Automated_machine_learning
dbo:wikiPageWikiLink
dbr:Data_pre-processing
Subject Item
dbr:PolyAnalyst
dbo:wikiPageWikiLink
dbr:Data_pre-processing
Subject Item
dbr:Data_preprocessing
dbo:wikiPageWikiLink
dbr:Data_pre-processing
dbo:wikiPageRedirects
dbr:Data_pre-processing
Subject Item
dbr:Semantic_data_preprocessing
dbo:wikiPageWikiLink
dbr:Data_pre-processing
dbo:wikiPageRedirects
dbr:Data_pre-processing
Subject Item
dbr:Outline_of_machine_learning
dbo:wikiPageWikiLink
dbr:Data_pre-processing
Subject Item
dbr:Supervised_learning
dbo:wikiPageWikiLink
dbr:Data_pre-processing
Subject Item
dbr:Types_of_artificial_neural_networks
dbo:wikiPageWikiLink
dbr:Data_pre-processing
Subject Item
dbr:Preprocessing
dbo:wikiPageWikiLink
dbr:Data_pre-processing
Subject Item
wikipedia-en:Data_pre-processing
foaf:primaryTopic
dbr:Data_pre-processing