An Entity of Type: Election, from Named Graph: http://dbpedia.org, within Data Space: dbpedia.org

Data cleansing or data cleaning is the process of detecting and correcting (or removing) corrupt or inaccurate records from a record set, table, or database and refers to identifying incomplete, incorrect, inaccurate or irrelevant parts of the data and then replacing, modifying, or deleting the dirty or coarse data. Data cleansing may be performed interactively with data wrangling tools, or as batch processing through scripting or a data quality firewall.

Property Value
dbo:abstract
  • La neteja de dades (en anglès data cleansing o data scrubbing) és l'acte de descobriment, correcció i/o eliminació de registres de dades errònies d'una taula o una base de dades. El procés de neteja de dades permet identificar dades incompletes, incorrectes, inexactes, no pertinents, etc. i després substituir, modificar o eliminar aquestes dades brutes (""). Aquest procés és una part crucial de l'anàlisi de dades, especialment quan es recopilen dades quantitatives. Després de la neteja, la base de dades podrà ser compatible amb altres bases de dades similars al sistema. Les inconsistències descobertes, modificades o eliminades en un conjunt de dades poden haver estat causades per: les definicions de diccionari de dades diferents d'entitats similars, errors d'entrada de l'usuari i corrupció a la transmissió, o l'emmagatzematge. La neteja de dades es diferencia de la validació de dades en que gairebé sempre compleix la funció de rebutjar els registres erronis durant l'entrada al sistema, i no en lots de data. El procés de neteja de dades inclou la validació i, a més, la correcció de dades per assolir dades de qualitat. (ca)
  • تنظيف البيانات هو عملية إصلاح أو إزالة البيانات غير الصحيحة أو التالفة أو المنسقة بشكل غير صحيح أو المكررة أو غير المكتملة ضمن مجموعة البيانات. يمكن إجراء تنقية البيانات بشكل تفاعلي مع أدوات تبادل البيانات، أو كمعالجة مجمعة من خلال البرمجة النصية. عند استخدام البيانات، يتفق معظم الأشخاص على أن الرؤى والتحليلات الخاصة بك جيدة مثل البيانات التي تستخدمها. في الأساس، البيانات المهملة هي عبارة عن تحليل للقمامة، يعد تنظيف البيانات، الذي يشار إليه أيضًا باسم تنقية البيانات وتنقية البيانات، أحد أهم الخطوات لمؤسستك إذا كنت ترغب في إنشاء ثقافة حول اتخاذ قرارات جودة البيانات. عند الجمع بين مصادر بيانات متعددة، هناك العديد من الفرص لتكرار البيانات أو تسميتها بشكل خاطئ. إذا كانت البيانات غير صحيحة، فإن النتائج والخوارزميات لا يمكن الاعتماد عليها، على الرغم من أنها قد تبدو صحيحة. لا توجد طريقة واحدة مطلقة لوصف الخطوات الدقيقة في عملية تنظيف البيانات لأن العمليات ستختلف من مجموعة بيانات إلى مجموعة بيانات. ولكن من الأهمية بمكان إنشاء نموذج لعملية تنظيف البيانات الخاصة بك حتى تعرف أنك تقوم بذلك بالطريقة الصحيحة في كل مرة. بعد التطهير، يجب أن تكون مجموعة البيانات متسقة مع مجموعات البيانات المماثلة الأخرى في النظام. قد تكون حالات عدم الاتساق التي تم اكتشافها أو إزالتها ناتجة في الأصل عن أخطاء في إدخال المستخدم، أو تلف في الإرسال أو التخزين، أو بسبب تعريفات قاموس البيانات المختلفة لكيانات مماثلة في متاجر مختلفة. يختلف تنظيف البيانات عن التحقق من صحة البيانات في هذا التحقق من الصحة يعني دائمًا رفض البيانات من النظام عند الإدخال ويتم إجراؤها في وقت الإدخال، وليس على دفعات من البيانات. قد تتضمن العملية الفعلية لتنقية البيانات إزالة الأخطاء المطبعية أو التحقق من صحة القيم وتصحيحها مقابل قائمة معروفة من الكيانات. قد يكون التحقق من الصحة صارمًا (مثل رفض أي عنوان لا يحتوي على رمز بريدي صالح)، أو باستخدام مطابقة غامضة أو تقريبية للسلسلة (مثل تصحيح السجلات التي تتطابق جزئيًا مع السجلات الموجودة والمعروفة). ستعمل بعض حلول تنقية البيانات على تنظيف البيانات عن طريق التحقق المتقاطع مع مجموعة بيانات تم التحقق من صحتها. من الممارسات الشائعة لتطهير البيانات تحسين البيانات، حيث يتم جعل البيانات أكثر اكتمالاً عن طريق إضافة المعلومات ذات الصلة. على سبيل المثال، إلحاق العناوين بأي أرقام هواتف مرتبطة بهذا العنوان. قد يشمل تنقية البيانات أيضًا تنسيق (أو تطبيع) البيانات، وهي عملية تجميع البيانات من «تنسيقات الملفات المختلفة، واصطلاحات التسمية، والأعمدة»، وتحويلها إلى مجموعة بيانات واحدة متماسكة؛ مثال بسيط هو توسيع الاختصارات («st، rd، إلخ» إلى «street، road، إلى آخره»). ما الفرق بين تنظيف البيانات وتحويلها؟ تنظيف البيانات هو العملية التي تزيل البيانات التي لا تنتمي إلى مجموعة البيانات الخاصة بك. تحويل البيانات هو عملية تحويل البيانات من تنسيق أو بنية إلى أخرى. يمكن أيضًا الإشارة إلى عمليات التحويل على أنها مناوشة البيانات، أو إدارة البيانات، وتحويلها ورسم خرائط لها من نموذج بيانات «خام» إلى تنسيق آخر للتخزين والتحليل. تركز هذه المقالة على عمليات تنظيف تلك البيانات. كيف تنظف البيانات؟ بينما قد تختلف الأساليب المستخدمة لتنظيف البيانات وفقًا لأنواع البيانات التي تخزنها شركتك، يمكنك اتباع هذه الخطوات الأساسية لرسم إطار عمل لمؤسستك. 1. * إزالة الملاحظات المكررة أو غير ذات الصلة. قم بإزالة الملاحظات غير المرغوب فيها من مجموعة البيانات الخاصة بك، بما في ذلك الملاحظات المكررة أو الملاحظات غير ذات الصلة. ستحدث الملاحظات المكررة في أغلب الأحيان أثناء جمع البيانات. عندما تقوم بدمج مجموعات البيانات من أماكن متعددة، أو تتخلص من البيانات، أو تتلقى بيانات من عملاء أو أقسام متعددة، فهناك فرص لإنشاء بيانات مكررة. يعد إلغاء الازدواجية أحد أكبر المجالات التي يجب مراعاتها في هذه العملية. الملاحظات غير ذات الصلة هي عندما تلاحظ ملاحظات لا تتناسب مع المشكلة المحددة التي تحاول تحليلها. على سبيل المثال، إذا كنت ترغب في تحليل البيانات المتعلقة بالعملاء من جيل الألفية، لكن مجموعة البيانات الخاصة بك تتضمن الأجيال الأكبر سناً، يمكنك إزالة تلك الملاحظات غير ذات الصلة. يمكن أن يجعل هذا التحليل أكثر كفاءة ويقلل من تشتيت الانتباه عن هدفك الأساسي - بالإضافة إلى إنشاء مجموعة بيانات أكثر قابلية للإدارة وأكثر أداءً. 2. * إصلاح الأخطاء الهيكلية تحدث الأخطاء الهيكلية عندما تقوم بقياس البيانات أو نقلها وتلاحظ اصطلاحات تسمية غريبة أو أخطاء مطبعية أو أحرف كبيرة غير صحيحة. يمكن أن تؤدي هذه التناقضات إلى تصنيفات أو فئات غير صحيحة. على سبيل المثال، قد تجد كلاً من «لا ينطبق» و «غير قابل للتطبيق» يظهران، ولكن يجب تحليلهما على أنهما نفس الفئة. 3. * تصفية القيم المتطرفة غير المرغوب فيها في كثير من الأحيان، ستكون هناك ملاحظات لمرة واحدة حيث لا يبدو أنها تتناسب مع البيانات التي تقوم بتحليلها. إذا كان لديك سبب شرعي لإزالة استثناء، مثل إدخال بيانات غير لائق، فإن القيام بذلك سيساعد في أداء البيانات التي تعمل معها. ومع ذلك، في بعض الأحيان يكون مظهر الخارج هو الذي سيثبت النظرية التي تعمل عليها. تذكر: لا يعني وجود عنصر غريب أنه غير صحيح. هذه الخطوة ضرورية لتحديد صلاحية هذا الرقم. إذا ثبت أن أحد العناصر الخارجية غير ذي صلة بالتحليل أو كان خطأً، ففكر في إزالته. 4. * معالجة البيانات المفقودة لا يمكنك تجاهل البيانات المفقودة لأن العديد من الخوارزميات لن تقبل القيم المفقودة. هناك طريقتان للتعامل مع البيانات المفقودة. كلاهما ليس هو الأمثل، ولكن يمكن النظر في كليهما. كخيار أول، يمكنك إسقاط الملاحظات التي تحتوي على قيم مفقودة، لكن القيام بذلك سيؤدي إلى إسقاط المعلومات أو فقدها، لذا كن على دراية بهذا قبل إزالته. كخيار ثانٍ، يمكنك إدخال القيم المفقودة بناءً على الملاحظات الأخرى؛ مرة أخرى، هناك فرصة لفقد سلامة البيانات لأنك قد تعمل من الافتراضات وليس الملاحظات الفعلية. كخيار ثالث، يمكنك تغيير طريقة استخدام البيانات للتنقل الفعال بين القيم الخالية. 5. * التحقق من الصحة وضمان الجودة فوائد تنظيف البيانات سيؤدي وجود بيانات نظيفة في النهاية إلى زيادة الإنتاجية الإجمالية والسماح بأعلى جودة للمعلومات في عملية اتخاذ القرار. الفوائد تشمل: إزالة الأخطاء عند وجود مصادر متعددة للبيانات. تحدث أخطاء أقل لعملاء أكثر سعادة وموظفين أقل إحباطًا. القدرة على تعيين الوظائف المختلفة وما تهدف بياناتك إلى القيام به. مراقبة الأخطاء وإعداد التقارير بشكل أفضل لمعرفة مصدر الأخطاء، مما يسهل إصلاح البيانات غير الصحيحة أو الفاسدة للتطبيقات المستقبلية. سيؤدي استخدام أدوات تنظيف البيانات إلى زيادة كفاءة ممارسات الأعمال واتخاذ القرارات بشكل أسرع. (ar)
  • Zur Datenbereinigung (englisch data cleansing oder data editing) gehören verschiedene Verfahren zum Entfernen und Korrigieren von Datenfehlern in Datenbanken oder anderen Informationssystemen. Die Fehler können beispielsweise aus inkorrekten (ursprünglich falschen oder veralteten), redundanten, inkonsistenten oder falsch formatierten Daten bestehen. Wesentliche Schritte zur Datenbereinigung sind die Duplikaterkennung (Erkennen und Zusammenlegen von gleichen Datensätzen) und Datenfusion (Zusammenführen und Vervollständigen lückenhafter Daten). Die Datenbereinigung ist ein Beitrag zur Verbesserung der Datenqualität. Allerdings betrifft dies auch die Eigenschaften von Datenquellen (Glaubwürdigkeit, Relevanz, Verfügbarkeit), die sich mittels Datenbereinigung nicht verbessern lassen. (de)
  • Data cleansing or data cleaning is the process of detecting and correcting (or removing) corrupt or inaccurate records from a record set, table, or database and refers to identifying incomplete, incorrect, inaccurate or irrelevant parts of the data and then replacing, modifying, or deleting the dirty or coarse data. Data cleansing may be performed interactively with data wrangling tools, or as batch processing through scripting or a data quality firewall. After cleansing, a data set should be consistent with other similar data sets in the system. The inconsistencies detected or removed may have been originally caused by user entry errors, by corruption in transmission or storage, or by different data dictionary definitions of similar entities in different stores. Data cleaning differs from data validation in that validation almost invariably means data is rejected from the system at entry and is performed at the time of entry, rather than on batches of data. The actual process of data cleansing may involve removing typographical errors or validating and correcting values against a known list of entities. The validation may be strict (such as rejecting any address that does not have a valid postal code), or with fuzzy or approximate string matching (such as correcting records that partially match existing, known records). Some data cleansing solutions will clean data by cross-checking with a validated data set. A common data cleansing practice is data enhancement, where data is made more complete by adding related information. For example, appending addresses with any phone numbers related to that address. Data cleansing may also involve harmonization (or normalization) of data, which is the process of bringing together data of "varying file formats, naming conventions, and columns", and transforming it into one cohesive data set; a simple example is the expansion of abbreviations ("st, rd, etc." to "street, road, etcetera"). (en)
  • La limpieza de datos (en inglés data cleansing o data scrubbing) es el acto de descubrimiento y corrección o eliminación de registros de datos erróneos de una tabla o base de datos. El proceso de limpieza de datos permite identificar datos incompletos, incorrectos, inexactos, no pertinentes, etc. y luego substituir, modificar o eliminar estos datos sucios ("data duty"). Después de la limpieza, la base de datos podrá ser compatible con otras bases de datos similares en el sistema. Las inconsistencias descubiertas, modificadas o eliminadas en un conjunto de datos pueden haber sido causado por: las definiciones de diccionario de datos diferentes de entidades similares, errores de entrada del usuario y corrupción en la transmisión o el almacenaje. La limpieza de datos se diferencia de la validación de datos, que casi siempre cumple la función de rechazar los registros erróneos durante la entrada al sistema y no en lotes de data. El proceso de limpieza de datos incluye la validación y además la corrección de datos, para alcanzar datos de calidad. (es)
  • Le nettoyage de données est l'opération de détection et de correction (ou suppression) d'erreurs présentes sur des données stockées dans des bases de données ou dans des fichiers. Le nettoyage de données est un des problèmes majeurs des entrepôts de données. Les données présentes dans les bases de données peuvent avoir plusieurs types d'erreurs comme des erreurs de frappe, des informations manquantes, des imprécisions etc. La partie impropre de la donnée traitée peut être remplacée, modifiée ou supprimée. Le processus de nettoyage identifie les données erronées et les corrige automatiquement avec un programme informatique ou les propose à un humain pour qu'il effectue les modifications. Le nettoyage de données est différent de la validation de données. La validation de données est l'étape qui consiste à vérifier et rejeter les données qui ne respectent pas certaines règles avant l'ajout en base de données, alors que le nettoyage intervient après (sur des données déjà présentes en base de données). Les approches classiques de nettoyage utilisent les contraintes d'intégrité, les statistiques ou l'apprentissage automatique pour nettoyer les données. (fr)
  • 데이터 정제는 레코드 세트, 테이블 또는 데이터베이스 에서 손상되거나 부정확한 레코드 를 감지 및 수정(또는 제거)하는 프로세스이며 데이터의 불완전하거나 부정확하거나 부정확하거나 관련 없는 부분을 식별한 다음 교체, 수정, 또는 더럽 거나 거친 데이터를 삭제한다. 데이터 정리는 데이터 랭글링 도구와 대화식으로 수행되거나 스크립팅 또는 데이터 품질 방화벽 을 통한 일괄 처리로 수행될 수 있다. 정리 후 데이터 세트는 시스템의 다른 유사한 데이터 세트와 일치해야 한다. 감지되거나 제거된 불일치는 원래 사용자 입력 오류, 전송 또는 저장의 손상 또는 다른 저장소에 있는 유사한 엔터티의 다른 데이터 사전 정의로 인해 발생할 수 있다. 데이터 정리는 데이터 배치가 아닌 입력 시 시스템에서 데이터가 거부되고 입력 시 수행된다는 점에서 데이터 유효성 검사와 다르다. 데이터 정리의 실제 프로세스에는 인쇄상의 오류를 제거하거나 알려진 엔터티 목록에 대해 값을 확인하고 수정하는 작업이 포함될 수 있다. 유효성 검사는 엄격할 수 있다(예: 유효한 우편 번호 가 없는 주소 거부) 또는 유사 하거나 대략적인 문자열 일치 (예: 기존의 알려진 레코드와 부분적으로 일치하는 레코드 수정). 일부 데이터 정리 솔루션은 검증된 데이터 세트를 교차 확인하여 데이터를 정리한다. 일반적인 데이터 정리 방법은 관련 정보를 추가하여 데이터를 보다 완전하게 만드는 데이터 향상이다. 예를 들어, 해당 주소와 관련된 전화번호로 주소를 추가한다. 데이터 정리에는 "다양한 파일 형식, 명명 규칙 및 열"의 데이터를 모아 하나의 응집력 있는 데이터 세트로 변환하는 프로세스인 데이터의 조화 (또는 정규화)가 포함될 수도 있다. 간단한 예는 약어("st, rd 등"을 "street, road, etcetera"로 확장)이다. 고품질 데이터는 일련의 품질 기준을 통과해야 한다. 여기에는 다음이 포함된다. * 유효성 : 측정값이 정의된 비즈니스 규칙 또는 제약 조건을 준수하는 정도이다( 유효성(통계) 참조). 최신 데이터베이스 기술을 사용하여 데이터 캡처 시스템을 설계하는 경우 유효성을 보장하기가 매우 쉽다. 유효하지 않은 데이터는 주로 레거시 컨텍스트(소프트웨어에서 제약 조건이 구현되지 않은 경우) 또는 부적절한 데이터 캡처 기술이 사용된 경우(예: 스프레드시트, 여기서 셀 유효성 검사를 사용하지 않는 경우 사용자가 셀에 입력하기로 선택한 항목을 제한하기가 매우 어렵다. 데이터 제약 조건은 다음 범주에 속한다. * 데이터 유형 제약 - 예를 들어, 특정 열의 값은 부울, 숫자(정수 또는 실수), 날짜 등과 같은 특정 데이터 유형이어야 한다. * 범위 제약: 일반적으로 숫자 또는 날짜는 특정 범위 내에 있어야 한다. 즉, 최소 및/또는 최대 허용 값이 있다. * 필수 제약 조건: 특정 열은 비워둘 수 없다. * 고유 제약 조건: 필드 또는 필드 조합은 데이터 세트 전체에서 고유해야 한다. 예를 들어, 두 사람이 동일한 사회 보장 번호를 가질 수 없다. * Set-Membership Constraints : 열 값은 개별 값 또는 코드 집합에서 가져온다. 예를 들어, 사람의 성별은 여성, 남성 또는 논바이너리일 수 있다. * 외래 키 제약 조건 : 이것은 집합 구성원의 보다 일반적인 경우이다. 열의 값 집합은 고유한 값을 포함하는 다른 테이블의 열에 정의된다. 예를 들어, 미국 납세자 데이터베이스에서 "주" 열은 미국에서 정의된 주 또는 영토 중 하나에 속해야 한다. 허용 가능한 주/영토 집합은 별도의 주 테이블에 기록된다. 외래 키라는 용어는 관계형 데이터베이스 용어에서 차용되었다. * 정규식 패턴 : 경우에 따라 텍스트 필드는 이러한 방식으로 유효성을 검사해야 한다. 예를 들어, 전화번호는 (999) 999-9999 패턴이 필요하다. * 교차 필드 유효성 검사 : 여러 필드를 사용하는 특정 조건이 유지되어야 한다. 예를 들어, 검사실 의학에서 차등 백혈구 수의 구성 요소 합계는 100과 같아야 한다(모두 백분율이므로). 병원 데이터베이스에서 환자의 퇴원일은 입원일보다 이전일 수 없다. * 정확도 : 표준 또는 실제 값에 대한 측정의 일치 정도 - 정확도 및 정밀도 참조. 일반적인 경우 데이터 정리를 통해 정확성을 달성하기는 매우 어렵다. 왜냐하면 진정한 가치가 포함된 외부 데이터 소스에 액세스해야 하기 때문이다. 이러한 "황금 표준" 데이터는 종종 사용할 수 없다. 우편 번호를 지리적 위치(도시 및 주)와 일치시키고 이러한 우편 번호 내의 거리 주소가 실제로 존재하는지 확인하는 데 도움이 되는 외부 데이터베이스를 사용하여 일부 정리 컨텍스트, 특히 고객 연락처 데이터에서 정확성이 달성되었다. * 완전성 : 필요한 모든 조치가 알려진 정도. 불완전성은 데이터 정리 방법으로 수정하는 것이 거의 불가능하다. 문제의 데이터가 처음 기록될 때 캡처되지 않은 사실을 유추할 수 없다. (예를 들어 인터뷰 데이터와 같은 일부 상황에서는 데이터의 원래 소스로 돌아가서 불완전성을 수정하는 것이 가능할 수 있다. 즉, 주제를 다시 인터뷰한다. 그러나 이것조차도 회상 문제로 인해 성공을 보장하지 않다. 음식 소비에 대한 데이터를 수집하기 위한 인터뷰에서 6개월 전에 무엇을 먹었는지 정확히 기억하는 사람은 아무도 없을 것이다. 특정 열이 비어 있어서는 안 된다고 주장하는 시스템의 경우 "알 수 없음" 또는 "누락됨"을 나타내는 값을 지정하여 문제를 해결할 수 있지만 기본값을 제공한다고 해서 데이터가 완료되었음을 의미하지는 않다. . ) * 일관성 : 측정값 집합이 시스템 전체에서 동등한 정도이다( 일관성 참조). 데이터 세트의 두 데이터 항목이 서로 모순될 때 불일치가 발생한다. 예를 들어, 고객이 두 개의 다른 시스템에 두 개의 다른 현재 주소를 가지고 있는 것으로 기록되면 그 중 하나만 정확할 수 있다. 불일치를 수정하는 것이 항상 가능한 것은 아니다. 다양한 전략이 필요하다. 예를 들어, 어떤 데이터가 더 최근에 기록되었는지, 어떤 데이터 소스가 가장 신뢰할 수 있는지 결정하거나(후자의 지식은 특정 조직에 따라 다를 수 있음) 단순히 두 데이터 항목을 모두 테스트하여 진실을 찾다(예: 고객에게 전화 걸기). * 균일성 : 모든 시스템에서 동일한 측정 단위를 사용하여 설정된 데이터 측정값이 지정되는 정도이다( 측정 단위 참조). 다른 로케일에서 풀링된 데이터 세트에서 무게는 파운드 또는 킬로로 기록될 수 있으며 산술 변환을 사용하여 단일 측정값으로 변환되어야 한다. 무결성이라는 용어는 정확성, 일관성 및 유효성 검사의 일부 측면을 포함하지만( 데이터 무결성 참조), 충분히 구체적이지 않기 때문에 데이터 정리 컨텍스트에서 그 자체로 거의 사용되지 않다. (예를 들어, "참조 무결성"은 위의 외래 키 제약 조건의 시행을 나타내는 데 사용되는 용어이다. ) (ko)
  • In informatica, con il termine data cleaning (in italiano traducibile come "pulizia dei dati" o "bonifica dei dati" o "correzione dei dati") si fa riferimento ad un generico processo capace di garantire, con una certa soglia di affidabilità, la correttezza di una grande quantità di dati (database, data warehouse, dataset, ...). Tale terminologia è stata utilizzata in passato per definire il "filtraggio" alla base del data mining: tale procedimento precede l'effettiva estrazione (mining) di quantità di informazione potenzialmente utile e precedentemente ignota, al fine di produrre conoscenza. A volte si preferisce il termine "bonifica" inteso come processo di correzione e/o rimozione e/o integrazione di dati incompleti e/o obsoleti all'interno di un database. (it)
  • Очистка данных (англ. Data cleansing) — процесс выявления и исправления ошибок, несоответствий данных с целью улучшения их качества, иногда классифицируется как составная часть интеллектуального анализа данных. Очистка данных выполняется с определенными наборами данных в базах данных или файлах. Необходимость в очистке данных чаще всего возникает при интеграции различных информационных систем (хранилища данных, системы управления ресурсами предприятия, системы управления взаимодействием с клиентами). Источники данных в различных системах часто находятся в разрозненном виде и в различных состояниях. Преобразования выполняются автоматически (в соответствии с набором правил) либо вручную (в интерактивном режиме). Наиболее типичные предметные области, подлежащие очистке и исправлению в корпоративных информационных системах — сведения о лицах и организациях, адресная и контактная информация, также подлежит очистке любая справочная информация, вносимая вручную в текстовом виде. (ru)
  • 数据清洗(data cleaning)是从记录集、数据库表或数据库中检测和纠正(或删除)损坏或不准确的记录的过程,是指识别数据的不完整、不正确、不准确或不相关部分,然后替换、修改、或删除脏数据或粗数据。数据清洗可以与数据加工工具交互执行,也可以通过脚本进行批处理。 清洗后,一个数据集应该与系统中其他类似的数据集保持一致。 检测到或删除的不一致可能最初是由用户输入错误、传输或存储中的损坏或不同存储中类似实体的不同数据字典定义引起的。 数据清理与数据确认(data validation)的不同之处在于,数据确认几乎总是意味着数据在输入时被系统拒绝,并在输入时执行,而不是执行于批量数据。 数据清洗不仅仅更正错误,同样加强来自各个单独信息系统不同数据间的一致性。专门的数据清洗软件能够自动检测数据文件,更正错误数据,并用全企业一致的格式整合数据。 (zh)
dbo:wikiPageExternalLink
dbo:wikiPageID
  • 3575651 (xsd:integer)
dbo:wikiPageLength
  • 17584 (xsd:nonNegativeInteger)
dbo:wikiPageRevisionID
  • 1117956020 (xsd:integer)
dbo:wikiPageWikiLink
dbp:wikiPageUsesTemplate
dcterms:subject
gold:hypernym
rdf:type
rdfs:comment
  • In informatica, con il termine data cleaning (in italiano traducibile come "pulizia dei dati" o "bonifica dei dati" o "correzione dei dati") si fa riferimento ad un generico processo capace di garantire, con una certa soglia di affidabilità, la correttezza di una grande quantità di dati (database, data warehouse, dataset, ...). Tale terminologia è stata utilizzata in passato per definire il "filtraggio" alla base del data mining: tale procedimento precede l'effettiva estrazione (mining) di quantità di informazione potenzialmente utile e precedentemente ignota, al fine di produrre conoscenza. A volte si preferisce il termine "bonifica" inteso come processo di correzione e/o rimozione e/o integrazione di dati incompleti e/o obsoleti all'interno di un database. (it)
  • 数据清洗(data cleaning)是从记录集、数据库表或数据库中检测和纠正(或删除)损坏或不准确的记录的过程,是指识别数据的不完整、不正确、不准确或不相关部分,然后替换、修改、或删除脏数据或粗数据。数据清洗可以与数据加工工具交互执行,也可以通过脚本进行批处理。 清洗后,一个数据集应该与系统中其他类似的数据集保持一致。 检测到或删除的不一致可能最初是由用户输入错误、传输或存储中的损坏或不同存储中类似实体的不同数据字典定义引起的。 数据清理与数据确认(data validation)的不同之处在于,数据确认几乎总是意味着数据在输入时被系统拒绝,并在输入时执行,而不是执行于批量数据。 数据清洗不仅仅更正错误,同样加强来自各个单独信息系统不同数据间的一致性。专门的数据清洗软件能够自动检测数据文件,更正错误数据,并用全企业一致的格式整合数据。 (zh)
  • تنظيف البيانات هو عملية إصلاح أو إزالة البيانات غير الصحيحة أو التالفة أو المنسقة بشكل غير صحيح أو المكررة أو غير المكتملة ضمن مجموعة البيانات. يمكن إجراء تنقية البيانات بشكل تفاعلي مع أدوات تبادل البيانات، أو كمعالجة مجمعة من خلال البرمجة النصية. عند استخدام البيانات، يتفق معظم الأشخاص على أن الرؤى والتحليلات الخاصة بك جيدة مثل البيانات التي تستخدمها. في الأساس، البيانات المهملة هي عبارة عن تحليل للقمامة، يعد تنظيف البيانات، الذي يشار إليه أيضًا باسم تنقية البيانات وتنقية البيانات، أحد أهم الخطوات لمؤسستك إذا كنت ترغب في إنشاء ثقافة حول اتخاذ قرارات جودة البيانات. كيف تنظف البيانات؟ (ar)
  • Data cleansing or data cleaning is the process of detecting and correcting (or removing) corrupt or inaccurate records from a record set, table, or database and refers to identifying incomplete, incorrect, inaccurate or irrelevant parts of the data and then replacing, modifying, or deleting the dirty or coarse data. Data cleansing may be performed interactively with data wrangling tools, or as batch processing through scripting or a data quality firewall. (en)
  • La limpieza de datos (en inglés data cleansing o data scrubbing) es el acto de descubrimiento y corrección o eliminación de registros de datos erróneos de una tabla o base de datos. El proceso de limpieza de datos permite identificar datos incompletos, incorrectos, inexactos, no pertinentes, etc. y luego substituir, modificar o eliminar estos datos sucios ("data duty"). Después de la limpieza, la base de datos podrá ser compatible con otras bases de datos similares en el sistema. (es)
  • Zur Datenbereinigung (englisch data cleansing oder data editing) gehören verschiedene Verfahren zum Entfernen und Korrigieren von Datenfehlern in Datenbanken oder anderen Informationssystemen. Die Fehler können beispielsweise aus inkorrekten (ursprünglich falschen oder veralteten), redundanten, inkonsistenten oder falsch formatierten Daten bestehen. Wesentliche Schritte zur Datenbereinigung sind die Duplikaterkennung (Erkennen und Zusammenlegen von gleichen Datensätzen) und Datenfusion (Zusammenführen und Vervollständigen lückenhafter Daten). (de)
  • Le nettoyage de données est l'opération de détection et de correction (ou suppression) d'erreurs présentes sur des données stockées dans des bases de données ou dans des fichiers. Le nettoyage de données est un des problèmes majeurs des entrepôts de données. Le nettoyage de données est différent de la validation de données. La validation de données est l'étape qui consiste à vérifier et rejeter les données qui ne respectent pas certaines règles avant l'ajout en base de données, alors que le nettoyage intervient après (sur des données déjà présentes en base de données). (fr)
  • Очистка данных (англ. Data cleansing) — процесс выявления и исправления ошибок, несоответствий данных с целью улучшения их качества, иногда классифицируется как составная часть интеллектуального анализа данных. Очистка данных выполняется с определенными наборами данных в базах данных или файлах. Необходимость в очистке данных чаще всего возникает при интеграции различных информационных систем (хранилища данных, системы управления ресурсами предприятия, системы управления взаимодействием с клиентами). (ru)
rdfs:label
  • تنظيف البيانات (ar)
  • Neteja de dades (ca)
  • Datenbereinigung (de)
  • Limpieza de datos (es)
  • Data cleansing (en)
  • Nettoyage de données (fr)
  • Data cleaning (it)
  • 데이터 정제 (ko)
  • Очистка данных (ru)
  • 数据清洗 (zh)
owl:differentFrom
owl:sameAs
prov:wasDerivedFrom
foaf:isPrimaryTopicOf
is dbo:service of
is dbo:wikiPageDisambiguates of
is dbo:wikiPageRedirects of
is dbo:wikiPageWikiLink of
is owl:differentFrom of
is foaf:primaryTopic of
Powered by OpenLink Virtuoso    This material is Open Knowledge     W3C Semantic Web Technology     This material is Open Knowledge    Valid XHTML + RDFa
This content was extracted from Wikipedia and is licensed under the Creative Commons Attribution-ShareAlike 3.0 Unported License