About: Training, validation, and test data sets

Property	Value
dbo:abstract	في التعلم الآلي ، تعد دراسة وبناء الخوارزميات التي يمكن أن تتعلم من البيانات وتصدرها مهمة شائعة. تعمل مثل هذه الخوارزميات عن طريق إجراء تنبؤات أو قرارات تستند إلى البيانات من خلال بناء نموذج رياضي من البيانات المدخلة. عادةً ما تأتي البيانات المستخدمة لبناء النموذج النهائي من مجموعات بيانات متعددة. على وجه الخصوص ، يتم استخدام ثلاث مجموعات من البيانات بشكل شائع في المراحل المختلفة من إنشاء النموذج. (ar) En apprentissage automatique, une tâche courante est l'étude et la construction d'algorithmes qui peuvent apprendre et faire des prédictions sur les données. De tels algorithmes fonctionnent en faisant des prédictions ou des décisions basées sur les données, en construisant un modèle mathématique à partir des données d'entrée. Ces données d'entrée utilisées pour construire le modèle sont généralement divisées en plusieurs jeux de données . En particulier, trois jeux de données sont couramment utilisés à différentes étapes de la création du modèle : les jeux d'apprentissage, de validation et de test. Le modèle est initialement ajusté sur un jeu de données d'apprentissage qui est un jeu d'exemples utilisés pour ajuster les paramètres (par exemple, les poids des connexions entre les neurones dans les réseaux de neurones artificiels ) du modèle. Le modèle (par exemple un classificateur naïf de Bayes ) est entraîné sur le jeu de données d'apprentissage à l'aide d'une méthode d'apprentissage supervisé, par exemple à l'aide de méthodes d'optimisation telles que la descente de gradient ou la descente de gradient stochastique . En pratique, le jeu de données d'apprentissage se compose souvent de paires d'un vecteur d'entrée (ou scalaire) et du vecteur (ou scalaire) de sortie correspondant, où la variable de réponse est communément appelée cible (ou étiquette ou encore tag). Le modèle est exécuté avec le jeu de données d'apprentissage et produit un résultat, qui est ensuite comparé à la cible, pour chaque vecteur d'entrée dans le jeu de données d'apprentissage. Sur la base du résultat de la comparaison et de l'algorithme d'apprentissage spécifique utilisé, les paramètres du modèle sont ajustés. L'ajustement du modèle peut inclure à la fois la sélection de variables et l'estimation des paramètres. Successivement, le modèle ajusté est utilisé pour prédire les réponses pour les observations dans un deuxième jeu de données appelé jeu de données de validation. Le jeu de données de validation fournit une évaluation impartiale d'un ajustement de modèle sur le jeu de données d'apprentissage tout en ajustant les hyperparamètres (par exemple, le nombre d'unités cachées - couches et largeurs de couche - dans un réseau de neurones). Les jeux de données de validation peuvent être utilisés pour la régularisation par arrêt anticipé (arrêt de l'entraînement lorsque l'erreur sur le jeu de données de validation augmente, car cela est un signe de sur-apprentissage du jeu de données d'entraînement). Cette procédure d'apparence simple est compliquée en pratique par le fait que l'erreur du jeu de données de validation peut fluctuer pendant l'apprentissage, produisant plusieurs minima locaux. Cette complication a conduit à la création de nombreuses règles ad hoc pour décider quand le sur-apprentissage a vraiment commencé. Enfin, le jeu de données de test est un jeu de données utilisé pour fournir une évaluation impartiale d'un ajustement final du modèle sur le jeu de données d'apprentissage. Si les données du jeu de données de test n'ont jamais été utilisées dans l'apprentissage (par exemple en validation croisée), le jeu de données de test est également appelé jeu de données d'exclusion. Le terme « jeu de validation » est parfois utilisé au lieu de « jeu de test » dans certaines publications (par exemple, si le jeu de données d'origine a été divisé en deux sous-ensembles seulement, le jeu de test peut être appelé jeu de validation). Décider des tailles et des stratégies pour la division des jeux de données dans les jeux d'apprentissage, de test et de validation dépend beaucoup du problème et des données disponibles. (fr) In machine learning, a common task is the study and construction of algorithms that can learn from and make predictions on data. Such algorithms function by making data-driven predictions or decisions, through building a mathematical model from input data. These input data used to build the model are usually divided in multiple data sets. In particular, three data sets are commonly used in different stages of the creation of the model: training, validation and test sets. The model is initially fit on a training data set, which is a set of examples used to fit the parameters (e.g. weights of connections between neurons in artificial neural networks) of the model. The model (e.g. a naive Bayes classifier) is trained on the training data set using a supervised learning method, for example using optimization methods such as gradient descent or stochastic gradient descent. In practice, the training data set often consists of pairs of an input vector (or scalar) and the corresponding output vector (or scalar), where the answer key is commonly denoted as the target (or label). The current model is run with the training data set and produces a result, which is then compared with the target, for each input vector in the training data set. Based on the result of the comparison and the specific learning algorithm being used, the parameters of the model are adjusted. The model fitting can include both variable selection and parameter estimation. Successively, the fitted model is used to predict the responses for the observations in a second data set called the validation data set. The validation data set provides an unbiased evaluation of a model fit on the training data set while tuning the model's hyperparameters (e.g. the number of hidden units—layers and layer widths—in a neural network). Validation datasets can be used for regularization by early stopping (stopping training when the error on the validation data set increases, as this is a sign of over-fitting to the training data set).This simple procedure is complicated in practice by the fact that the validation dataset's error may fluctuate during training, producing multiple local minima. This complication has led to the creation of many ad-hoc rules for deciding when over-fitting has truly begun. Finally, the test data set is a data set used to provide an unbiased evaluation of a final model fit on the training data set. If the data in the test data set has never been used in training (for example in cross-validation), the test data set is also called a holdout data set. The term "validation set" is sometimes used instead of "test set" in some literature (e.g., if the original data set was partitioned into only two subsets, the test set might be referred to as the validation set). Deciding the sizes and strategies for data set division in training, test and validation sets is very dependent on the problem and data available. (en) Nell'apprendimento automatico un training set (in italiano insieme di addestramento o insieme di stima) è un insieme di esempi (spesso rappresentati come vettori di valori di attributi discreti o continui, le variabili di input) ad ognuno dei quali è associata una risposta, il valore di un attributo-obiettivo, ossia un valore categorico, cioè una classe, o un valore numerico. Tali esempi vengono utilizzati per addestrare un modello predittivo supervisionato (tipicamente un classificatore o un regressore) capace di determinare il valore-obiettivo per nuovi esempi. Un modello addestrato può essere valutato su un nuovo insieme di esempi, il test set (in italiano insieme di verifica), non utilizzati in fase di addestramento. È comune dividere il training set in una parte dedicata all'addestramento dell'algoritmo, detta propriamente training set e una parte dedicata alla verifica della bontà dell'addestramento, detta validation set (in italiano insieme di validazione). (it) 机器学习的普遍任务就是从数据中学习和构建模型（该过程称之为训练），并且能够在将来遇到的数据上进行预测。用于构建最终模型的通常有多个；在构建模型的不同阶段，通常有三种数据集：训练集、验证集和测试集。首先，模型在训练集（英语：training dataset）上进行拟合。对于监督式学习，训练集是由用来拟合参数（例如人工神经网络中神经元之间链接的权重）的样本组成的集合。在实践中，训练集通常是由输入向量（标量）和输出向量（标量）组成的数据对。其中输出向量（标量）被称为目标或标签。在训练过程中，当前模型会对训练集中的每个样本进行预测，并将预测结果与目标进行比较。根据比较的结果，学习算法会更新模型的参数。模型拟合的过程可能同时包括特征选择和参数估计。接下来，拟合得到的模型会在第二个数据集——验证集（英语：validation dataset）——上进行预测。在对模型的（例如神经网络中隐藏层的神经元数量）进行调整时，验证集提供了对在训练集上拟合得到模型的无偏评估。验证集可用于正则化中的提前停止：在验证集误差上升时（这是在训练集上过拟合的信号），停止训练。不过，在实践中，由于验证集误差在训练过程中会有起伏，这种做法有时不奏效。由此，人们发明了一些规则，用做判定过拟合更好的信号。最后，测试集（英语：test dataset）可被用来提供对最终模型的无偏评估。若测试集在训练过程中从未用到（例如，没有被用在交叉验证当中），则它也被称之为预留集。 (zh) В машинному навчанні поширеною задачею є дослідження та побудова алгоритмів, здатних навчатися з даних та робити передбачування на них. Такі алгоритми працюють, роблячи керовані даними передбачування або рішення шляхом побудови математичної моделі з вхідних даних. Дані, які використовують для побудови остаточної моделі, зазвичай походять з декількох наборів даних. Зокрема, на різних етапах створення моделі зазвичай використовують три набори даних. Модель початково допасовують на тренува́льному набо́рі да́них (англ. training dataset), який є набором прикладів, що використовують для допасовування параметрів моделі (наприклад, ваг з'єднань між нейронами в штучній нейронній мережі). Модель (наприклад, нейронну мережу чи наївний баєсів класифікатор) тренують на тренувальному наборі даних, використовуючи якийсь метод керованого навчання, наприклад, використовуючи методи оптимізації, такі як градієнтний спуск або стохастичний градієнтний спуск. На практиці тренувальний набір даних часто складається з пар векторів (або скалярів) входу та відповідних векторів (або скалярів) виходу, де ключ відповіді зазвичай позначують як ціль (англ. target, або мітку, англ. label). Поточну модель проганяють на тренувальнім наборі даних та отримують результат, який потім порівнюють з ціллю для кожного вектору входу в тренувальнім наборі даних. На основі результату цього порівняння та конкретного використовуваного алгоритму навчання параметри моделі підганяють. Допасовування моделі може включати як обирання змінних, так й оцінювання параметрів. Далі цю допасовану модель використовують для передбачення відгуків для спостережень у другому наборі даних, званому затве́рджувальним набо́ром да́них (англ. validation dataset). Затверджувальний набір даних забезпечує неупереджену оцінку допасованості моделі на тренувальному наборі даних при налаштовуванні гіперпараметрів моделі (наприклад, числа прихованих вузлів (шарів та ширин шарів) у нейронній мережі). Затверджувальні набори даних можливо використовувати для регуляризації шляхом ранньої зупинки (зупинки тренування, коли похибка на затверджувальному наборі даних починає зростати, оскільки це є ознакою перенавчання тренувального набору даних). Ця проста процедура на практиці є ускладненою тим фактом, що похибка затверджувального набору даних може флуктувати протягом навчання, виробляючи декілька локальних мінімумів. Це ускладнення привело до створення багатьох спеціальних правил для вирішування, коли перенавчання справді почалося. Нарешті, випро́бувальний набі́р да́них (англ. test dataset) — це набір даних, який використовують для забезпечення неупередженої оцінки допасованості остаточної моделі на тренувальному наборі даних. Якщо дані випробувального набору ніколи не використовуються в тренуванні (наприклад, в перехреснім затверджуванні), то випробувальний набір також називають притри́маним набо́ром да́них (англ. holdout dataset). (uk)
dbo:thumbnail	wiki-commons:Special:FilePath/Traintest.svg?width=300
dbo:wikiPageID	1514392 (xsd:integer)
dbo:wikiPageLength	16324 (xsd:nonNegativeInteger)
dbo:wikiPageRevisionID	1124906618 (xsd:integer)
dbo:wikiPageWikiLink	dbr:Probability_distribution dbr:Naive_Bayes_classifier dbr:Algorithm dbc:Datasets_in_machine_learning dbr:Early_stopping dbr:Predictive_modelling dbr:Estimation_theory dbr:Gradient_descent dbr:Model_selection dbc:Validity_(statistics) dbr:Cross-validation_(statistics) dbr:Holdout_method dbr:Machine_learning dbr:Artificial_neural_networks dbr:Feature_selection dbc:Machine_learning dbr:Data dbr:Data_set dbr:Accuracy dbr:Classifier_(machine_learning) dbr:Stochastic_gradient_descent dbr:Precision_and_recall dbr:Regularization_(mathematics) dbr:Hierarchical_classification dbr:Hyperparameter_(machine_learning) dbr:Array_data_structure dbr:Dataset dbr:Independence_(probability_theory) dbr:Mathematical_model dbr:Sensitivity_and_specificity dbr:Statistical_classification dbr:Overfitting dbr:List_of_datasets_for_machine_learning_research dbr:Supervised_learning dbr:Overfit dbr:File:Traintest.svg
dbp:cs1Dates	y (en)
dbp:date	June 2020 (en)
dbp:wikiPageUsesTemplate	dbt:Anchor dbt:Quote dbt:Reflist dbt:Short_description dbt:Use_dmy_dates dbt:Machine_learning dbt:Differentiable_computing
dcterms:subject	dbc:Datasets_in_machine_learning dbc:Validity_(statistics) dbc:Machine_learning
rdfs:comment	في التعلم الآلي ، تعد دراسة وبناء الخوارزميات التي يمكن أن تتعلم من البيانات وتصدرها مهمة شائعة. تعمل مثل هذه الخوارزميات عن طريق إجراء تنبؤات أو قرارات تستند إلى البيانات من خلال بناء نموذج رياضي من البيانات المدخلة. عادةً ما تأتي البيانات المستخدمة لبناء النموذج النهائي من مجموعات بيانات متعددة. على وجه الخصوص ، يتم استخدام ثلاث مجموعات من البيانات بشكل شائع في المراحل المختلفة من إنشاء النموذج. (ar) In machine learning, a common task is the study and construction of algorithms that can learn from and make predictions on data. Such algorithms function by making data-driven predictions or decisions, through building a mathematical model from input data. These input data used to build the model are usually divided in multiple data sets. In particular, three data sets are commonly used in different stages of the creation of the model: training, validation and test sets. (en) Nell'apprendimento automatico un training set (in italiano insieme di addestramento o insieme di stima) è un insieme di esempi (spesso rappresentati come vettori di valori di attributi discreti o continui, le variabili di input) ad ognuno dei quali è associata una risposta, il valore di un attributo-obiettivo, ossia un valore categorico, cioè una classe, o un valore numerico. Tali esempi vengono utilizzati per addestrare un modello predittivo supervisionato (tipicamente un classificatore o un regressore) capace di determinare il valore-obiettivo per nuovi esempi. Un modello addestrato può essere valutato su un nuovo insieme di esempi, il test set (in italiano insieme di verifica), non utilizzati in fase di addestramento. (it) En apprentissage automatique, une tâche courante est l'étude et la construction d'algorithmes qui peuvent apprendre et faire des prédictions sur les données. De tels algorithmes fonctionnent en faisant des prédictions ou des décisions basées sur les données, en construisant un modèle mathématique à partir des données d'entrée. Ces données d'entrée utilisées pour construire le modèle sont généralement divisées en plusieurs jeux de données . En particulier, trois jeux de données sont couramment utilisés à différentes étapes de la création du modèle : les jeux d'apprentissage, de validation et de test. (fr) В машинному навчанні поширеною задачею є дослідження та побудова алгоритмів, здатних навчатися з даних та робити передбачування на них. Такі алгоритми працюють, роблячи керовані даними передбачування або рішення шляхом побудови математичної моделі з вхідних даних. Дані, які використовують для побудови остаточної моделі, зазвичай походять з декількох наборів даних. Зокрема, на різних етапах створення моделі зазвичай використовують три набори даних. (uk) 机器学习的普遍任务就是从数据中学习和构建模型（该过程称之为训练），并且能够在将来遇到的数据上进行预测。用于构建最终模型的通常有多个；在构建模型的不同阶段，通常有三种数据集：训练集、验证集和测试集。首先，模型在训练集（英语：training dataset）上进行拟合。对于监督式学习，训练集是由用来拟合参数（例如人工神经网络中神经元之间链接的权重）的样本组成的集合。在实践中，训练集通常是由输入向量（标量）和输出向量（标量）组成的数据对。其中输出向量（标量）被称为目标或标签。在训练过程中，当前模型会对训练集中的每个样本进行预测，并将预测结果与目标进行比较。根据比较的结果，学习算法会更新模型的参数。模型拟合的过程可能同时包括特征选择和参数估计。接下来，拟合得到的模型会在第二个数据集——验证集（英语：validation dataset）——上进行预测。在对模型的（例如神经网络中隐藏层的神经元数量）进行调整时，验证集提供了对在训练集上拟合得到模型的无偏评估。验证集可用于正则化中的提前停止：在验证集误差上升时（这是在训练集上过拟合的信号），停止训练。不过，在实践中，由于验证集误差在训练过程中会有起伏，这种做法有时不奏效。由此，人们发明了一些规则，用做判定过拟合更好的信号。 (zh)
rdfs:label	بيانات التدريب، التحقق والاختبار (ar) Trénovací data (cs) Jeux d'entrainement, de validation et de test (fr) Training e test set (it) Training, validation, and test data sets (en) Тренувальний, затверджувальний та випробувальний набори (uk) 训练集、验证集和测试集 (zh)
owl:sameAs	wikidata:Training, validation, and test data sets dbpedia-ar:Training, validation, and test data sets dbpedia-cs:Training, validation, and test data sets dbpedia-fa:Training, validation, and test data sets dbpedia-fr:Training, validation, and test data sets dbpedia-it:Training, validation, and test data sets dbpedia-sr:Training, validation, and test data sets dbpedia-uk:Training, validation, and test data sets dbpedia-zh:Training, validation, and test data sets https://global.dbpedia.org/id/3ggdL
prov:wasDerivedFrom	wikipedia-en:Training,_validation,_and_test_data_sets?oldid=1124906618&ns=0
foaf:depiction	wiki-commons:Special:FilePath/Traintest.svg
foaf:isPrimaryTopicOf	wikipedia-en:Training,_validation,_and_test_data_sets
is dbo:wikiPageRedirects of	dbr:Model_training dbr:Train_parameter dbr:Trainable_parameter dbr:Trained_parameter dbr:Training,_test,_and_validation_sets dbr:Training,_test_and_validation_sets dbr:Training,_validation,_and_test_sets dbr:Training_set dbr:Dataset_(machine_learning) dbr:Holdout_data_set dbr:Test_set dbr:Validation_set dbr:Training_data dbr:Training_data_set dbr:Out-of-sample
is dbo:wikiPageWikiLink of	dbr:Bias–variance_tradeoff dbr:Midjourney dbr:Model_training dbr:Train_parameter dbr:Trainable_parameter dbr:Trained_parameter dbr:Training,_test,_and_validation_sets dbr:Training,_test_and_validation_sets dbr:Training,_validation,_and_test_sets dbr:Training_set dbr:Data_Version_Control dbr:NovelAI dbr:Dataset_(machine_learning) dbr:Holdout_data_set dbr:Test_set dbr:Validation_set dbr:Training_data dbr:Training_data_set dbr:Out-of-sample
is foaf:primaryTopic of	wikipedia-en:Training,_validation,_and_test_data_sets