About: Uncertain data

Facets (new session)
Description
Metadata
Settings
- Rule:
- Inverse Functional Properties:
- "Same As":

About: Uncertain data Goto Sponge NotDistinct Permalink

An Entity of Type : dbo:Company, within Data Space : dbpedia.org associated with source document(s)
QRcode icon

http://dbpedia.org/describe/?url=http%3A%2F%2Fdbpedia.org%2Fresource%2FUncertain_data&graph=http%3A%2F%2Fdbpedia.org&graph=http%3A%2F%2Fdbpedia.org

In computer science, uncertain data is data that contains noise that makes it deviate from the correct, intended or original values. In the age of big data, uncertainty or data veracity is one of the defining characteristics of data. Data is constantly growing in volume, variety, velocity and uncertainty (1/veracity). Uncertain data is found in abundance today on the web, in sensor networks, within enterprises both in their structured and unstructured sources. For example, there may be uncertainty regarding the address of a customer in an enterprise dataset, or the temperature readings captured by a sensor due to aging of the sensor. In 2012 IBM called out managing uncertain data at scale in its global technology outlook report that presents a comprehensive analysis looking three to ten ye

Attributes	Values
rdf:type	company
rdfs:label	بيانات غير مؤكدة (ar) Uncertain data (en) Неуверенные данные (ru)
rdfs:comment	البيانات الغير مؤكدة في علم الحاسوب، وهي عبارة عن بيانات تحتوي على ضوضاء، والتي تكون في محل شك بمصداقيتها، مما يجعلها تنحرف عن القيم الصحيحة أو القيم الأصلية. في عصر البيانات الكبيرة، يعد عدم اليقين بصحة البيانات أحد الخصائص التي تتميز بها البيانات. ويرجع ذلك إلى تزايد البيانات باستمرار من حيث الحجم والتنوع والسرعة وعدم اليقين. وتنتشر البيانات غير المؤكدة في الوقت الحالي بكثرة خصوصًا على شبكة الإنترنت، في شبكات الإستشعار، وداخل المؤسسات (سواء في مصادرها المنظمة وغير المنظمة). وعلى سبيل المثال، افترض أن لدينا المجموعة التالية من قاعدة بيانات احتمالية: (ar) In computer science, uncertain data is data that contains noise that makes it deviate from the correct, intended or original values. In the age of big data, uncertainty or data veracity is one of the defining characteristics of data. Data is constantly growing in volume, variety, velocity and uncertainty (1/veracity). Uncertain data is found in abundance today on the web, in sensor networks, within enterprises both in their structured and unstructured sources. For example, there may be uncertainty regarding the address of a customer in an enterprise dataset, or the temperature readings captured by a sensor due to aging of the sensor. In 2012 IBM called out managing uncertain data at scale in its global technology outlook report that presents a comprehensive analysis looking three to ten ye (en) В области информатики, неуверенные данные — это данные, содержащие шум, который заставляет данные отклоняться от правильных, предполагаемых или исходных значений. В эпоху больших данных неуверенность или достоверность — одна из определяющих характеристик данных. Данные постоянно растут в объёме, разнообразии, скорости и неуверенности (1/правдивость). Неуверенные данные в изобилии имеются сегодня в интернете, в сенсорных сетях, на предприятиях как в структурированных, так и в неструктурированных источниках. Например, это может быть неуверенность в адресе заказчика в базе данных компании или показания температуры, считанные специальным датчиком, из-за процесса старения датчика. В 2012 году компания IBM опубликовала информацию об «управлении неуверенными данными в масштабе» в своём докладе о (ru)
dcterms:subject	Statistical theory Machine learning Data mining
Wikipage page ID	19058043 (xsd:integer)
Wikipage revision ID	1044010792 (xsd:integer)
Link from a Wikipage to another Wikipage	Probability distribution Statistical theory Joint probability distribution Probabilistic database Computer science Unstructured data Machine learning Tuple Database Probability Data mining Big data Measurement error Mathematical model Noisy text Statistical independence Sensor networks
sameAs	Uncertain data Uncertain data Uncertain data Uncertain data Uncertain data
dbp:wikiPageUsesTemplate	dbt:Cite_conference dbt:Reflist
has abstract	البيانات الغير مؤكدة في علم الحاسوب، وهي عبارة عن بيانات تحتوي على ضوضاء، والتي تكون في محل شك بمصداقيتها، مما يجعلها تنحرف عن القيم الصحيحة أو القيم الأصلية. في عصر البيانات الكبيرة، يعد عدم اليقين بصحة البيانات أحد الخصائص التي تتميز بها البيانات. ويرجع ذلك إلى تزايد البيانات باستمرار من حيث الحجم والتنوع والسرعة وعدم اليقين. وتنتشر البيانات غير المؤكدة في الوقت الحالي بكثرة خصوصًا على شبكة الإنترنت، في شبكات الإستشعار، وداخل المؤسسات (سواء في مصادرها المنظمة وغير المنظمة). وعلى سبيل المثال، قد يكون هناك عدم يقين بشأن عنوان العميل في مجموعة بيانات المؤسسة ، أو قراءات درجة الحرارة، التي يلتقطها جهاز الاستشعار بسبب قدم المستشعر. في عام 2012 ، استدعت شركة IBM إدارة بيانات غير مؤكدة على نطاق واسع في تقرير توقعات التكنولوجيا العالمية الذي يقدم تحليلًا شاملًا يبحث من ثلاث إلى عشر سنوات في المستقبل سعياً إلى تحديد التقنيات الهامة والمدمرة التي ستغير العالم. من أجل اتخاذ قرارات تجارية موثوقة تستند إلى بيانات العالم الحقيقي، يجب أن تحلل بالضرورة العديد من أنواع عدم اليقين المختلفة الموجودة في كميات كبيرة من البيانات. إن التحليلات المستندة إلى بيانات غير مؤكدة سيكون لها تأثير على جودة القرارات اللاحقة ، وبالتالي لا يمكن تجاهل درجة وأنواع عدم الدقة في هذه البيانات غير المؤكدة. تم العثور على بيانات غير مؤكدة في مجال شبكات الاستشعار، النص الذي يتم العثور فيه على نص صاخب بكثرة على الشبكات الاجتماعية والشبكة وداخل المؤسسات التي قد تكون فيها البيانات المنظمة وغير المنظمة قديمة أو قديمة أو غير صحيحة، في النمذجة حيث قد يكون النموذج الرياضي فقط تقريبًا للعملية الفعلية. عند تمثيل مثل هذه البيانات في قاعدة بيانات، يجب أيضًا تقدير بعض مؤشرات احتمالية صحة القيم المختلفة. هناك ثلاثة نماذج رئيسية للبيانات غير المؤكدة في قواعد البيانات. في سمة عدم اليقين، تكون كل سمة غير مؤكدة في المجموعة خاضعة لتوزيعات الاحتمالية المستقلة الخاصة بها. وعلى سبيل المثال، إذا تم أخذ القراءات لدرجات الحرارة وسرعة الرياح، فسيتم وصف كل منها بتوزيع الاحتمالية الخاص به، لأن معرفة القراءة لقياس واحد لن تقدم أي معلومات عن الأخرى. في حالة عدم التيقن المترابطة، يمكن وصف سمات متعددة بتوزيع احتمالي مشترك. على سبيل المثال، إذا تم أخذ القراءات لموضع كائن ما، وتم تخزين إحداثيات x- و y ، فقد تعتمد احتمالية قيم مختلفة على المسافة من الإحداثيات المسجلة. وبما أن المسافة تعتمد على كلا الإحداثيات ، فقد يكون من المناسب استخدام توزيع مشترك لهذه الإحداثيات، لأنها ليست مستقلة. في حالة عدم اليقين في الصفوف، تخضع جميع صفات المجموعة لتوزيع احتمالي مشترك. وهذا يشمل حالة الارتياب المترابط ، ولكنه يشمل أيضًا الحالة التي يكون فيها احتمال أن تكون الصفوف لا تنتمي إلى العلاقة ذات الصلة، والتي تشير إليها جميع الاحتمالات التي لا تلخص لأحدها. وعلى سبيل المثال، افترض أن لدينا المجموعة التالية من قاعدة بيانات احتمالية: ثم، الصفح لديه 10٪ من احتمال عدم وجوده في قاعدة البيانات. (ar) In computer science, uncertain data is data that contains noise that makes it deviate from the correct, intended or original values. In the age of big data, uncertainty or data veracity is one of the defining characteristics of data. Data is constantly growing in volume, variety, velocity and uncertainty (1/veracity). Uncertain data is found in abundance today on the web, in sensor networks, within enterprises both in their structured and unstructured sources. For example, there may be uncertainty regarding the address of a customer in an enterprise dataset, or the temperature readings captured by a sensor due to aging of the sensor. In 2012 IBM called out managing uncertain data at scale in its global technology outlook report that presents a comprehensive analysis looking three to ten years into the future seeking to identify significant, disruptive technologies that will change the world. In order to make confident business decisions based on real-world data, analyses must necessarily account for many different kinds of uncertainty present in very large amounts of data. Analyses based on uncertain data will have an effect on the quality of subsequent decisions, so the degree and types of inaccuracies in this uncertain data cannot be ignored. Uncertain data is found in the area of sensor networks; text where noisy text is found in abundance on social media, web and within enterprises where the structured and unstructured data may be old, outdated, or plain incorrect; in modeling where the mathematical model may only be an approximation of the actual process. When representing such data in a database, some indication of the probability of the correctness of the various values also needs to be estimated. There are three main models of uncertain data in databases. In attribute uncertainty, each uncertain attribute in a tuple is subject to its own independent probability distribution. For example, if readings are taken of temperature and wind speed, each would be described by its own probability distribution, as knowing the reading for one measurement would not provide any information about the other. In correlated uncertainty, multiple attributes may be described by a joint probability distribution. For example, if readings are taken of the position of an object, and the x- and y-coordinates stored, the probability of different values may depend on the distance from the recorded coordinates. As distance depends on both coordinates, it may be appropriate to use a joint distribution for these coordinates, as they are not independent. In tuple uncertainty, all the attributes of a tuple are subject to a joint probability distribution. This covers the case of correlated uncertainty, but also includes the case where there is a probability of a tuple not belonging in the relevant relation, which is indicated by all the probabilities not summing to one. For example, assume we have the following tuple from a probabilistic database: Then, the tuple has 10% chance of not existing in the database. (en) В области информатики, неуверенные данные — это данные, содержащие шум, который заставляет данные отклоняться от правильных, предполагаемых или исходных значений. В эпоху больших данных неуверенность или достоверность — одна из определяющих характеристик данных. Данные постоянно растут в объёме, разнообразии, скорости и неуверенности (1/правдивость). Неуверенные данные в изобилии имеются сегодня в интернете, в сенсорных сетях, на предприятиях как в структурированных, так и в неструктурированных источниках. Например, это может быть неуверенность в адресе заказчика в базе данных компании или показания температуры, считанные специальным датчиком, из-за процесса старения датчика. В 2012 году компания IBM опубликовала информацию об «управлении неуверенными данными в масштабе» в своём докладе о глобальном технологическом прогнозе, который представляет собой комплексный анализ от трёх до десяти лет ближайшего будущего, направленный на выявление существенных, разрушительных технологий, которые изменят мир. Для того, чтобы принимать уверенные бизнес-решения на основе реальных данных, анализ должен обязательно учитывать целый ряд различных видов неуверенности, присутствующей в больших объёмах данных. Анализ на основе неуверенных данных будет влиять на качество последующих решений, поэтому степень и типы неточностей в конкретных неуверенных данных не могут быть проигнорированы. Неуверенные данные встречается в области сенсорных сетей; тексты с шумом в изобилии встречаются в социальных сетях, интернете и на предприятиях, где структурированные и неструктурированные данные могут быть старыми, устаревшими или попросту некорректными; в моделировании, когда математическая модель способна быть лишь приближением реального процесса. При представлении таких данных в базе данных, указание вероятности и корректности различных значений также должно быть произведено. Существует три основных модели неуверенных данных в базах данных. В атрибутной неуверенности, каждый неуверенный атрибут в кортеже — объект собственного независимого распределения вероятностей. Например, если снимаются показания температуры и скорости ветра, каждое из показаний будет описано своим распределением вероятностей, так как знание показаний одного измерения не даст никакой информации о других измерениях. В коррелируемой неуверенности, несколько атрибутов могут быть описаны с помощью совместного распределения вероятностей. Например, если снимаются показания позиции объекта в качестве х- и у-координат, то вероятность различных значений может зависеть от дистанции от записанных координат. Так как расстояние зависит от обоих координат, может быть целесообразно использовать совместное распределение для этих координат, поскольку они не являются независимыми. В кортежной неуверенности, все атрибуты кортежа подлежат совместному распределению вероятностей. Это охватывает и случай коррелируемой неуверенности, а также включает в себя случай, когда есть вероятность того, что кортеж не принадлежит соответствующему отношению, о чём можно судить по сумме всех вероятностей, не равняющейся 1. Например, предположим у нас есть следующий кортеж из вероятностной базы данных: Значит, кортеж имеет 10 % шанс того, что он не существует в базе данных. (ru)
gold:hypernym	Data
prov:wasDerivedFrom	wikipedia-en:Uncertain_data?oldid=1044010792&ns=0
page length (characters) of wiki page	4343 (xsd:nonNegativeInteger)
foaf:isPrimaryTopicOf	wikipedia-en:Uncertain_data
is Link from a Wikipage to another Wikipage of	Analysis of competing hypotheses Database theory Outline of machine learning
is foaf:primaryTopic of	wikipedia-en:Uncertain_data

Faceted Search & Find service v1.17_git139 as of Feb 29 2024

Alternative Linked Data Documents: ODE Content Formats:

RDF

ODATA

Microdata

About

OpenLink Virtuoso version 08.03.3330 as of Mar 19 2024, on Linux (x86_64-generic-linux-glibc212), Single-Server Edition (378 GB total memory, 59 GB memory in use)
Data on this page belongs to its respective rights holders.
Virtuoso Faceted Browser Copyright © 2009-2024 OpenLink Software