An Entity of Type: television show, from Named Graph: http://dbpedia.org, within Data Space: dbpedia.org

Programming with Big Data in R (pbdR) is a series of R packages and an environment for statistical computing with big data by using high-performance statistical computation. The pbdR uses the same programming language as R with S3/S4 classes and methods which is used among statisticians and data miners for developing statistical software. The significant difference between pbdR and R code is that pbdR mainly focuses on distributed memory systems, where data are distributed across several processors and analyzed in a batch mode, while communications between processors are based on MPI that is easily used in large high-performance computing (HPC) systems. R system mainly focuses on single multi-core machines for data analysis via an interactive mode such as GUI interface.

Property Value
dbo:abstract
  • La programación con datos masivos en R (pbdR, a partir del inglés Programming with Big Data in R)​ es una serie de paquetes R y un entorno para el cálculo estadístico con grandes volúmenes de datos mediante el uso de la programación de alto rendimiento estadístico.​ La pbdR utiliza el mismo lenguaje de programación que R con clases y métodos S3/S4 los cuales son usados entre los estadísticos y la minería de datos para el desarrollo de software estadístico. La diferencia significativa entre pbdR y el código R es que pbdR se centra principalmente en la memoria distribuida de los sistemas, donde los datos son distribuidos a través de varios procesadores y analizados en un modo por lotes, mientras que las comunicaciones entre procesadores se basan en MPI que se utiliza con gran facilidad en sistemas de computación de alto rendimiento (HPC). El sistema R se centra principalmente en máquinas simples multi-núcleo para el análisis de datos a través de un modo interactivo, tal como la interfaz gráfica de usuario. Las dos implementaciones principales en R utilizando MPI son Rmpi​ y pbdMPI de la pbdR. * La pbdR construida sobre pbdMPI utiliza paralelismo SPMD donde cada procesador se considera como esclavo y posee partes de los datos. El paralelismo SPMD introducido a mediados de 1980 es particularmente eficaz en entornos de cómputo homogéneos para datos de gran tamaño, por ejemplo, realizar la descomposición de valores singulares en una matriz grande, o realizar el análisis de clustering en grandes cantidades de datos de alta dimensión. Por otro lado, no hay ninguna restricción para utilizar paralelismo maestro/esclavo en entornos de paralelismo SPMD * El Rmpi​ utiliza paralelismo maestro/esclavo donde un procesador principal (maestro) sirve como el control de los otros procesadores (esclavos). El paralelismo maestro/esclavo introducido a principios del 2000 es particularmente eficaz para tareas grandes en clusters pequeños, por ejemplo, el método bootstrap y la simulación Monte Carlo en estadística aplicada desde probabilidades i.i.d. es generalmente más utilizada en análisis estadístico. En particular, el paralelismo de extracción de tareas tiene mejor rendimiento para Rmpi en entornos de cómputo heterogéneos. La idea del paralelismo PMD es para dejar que cada procesador haga la misma cantidad de trabajo, pero en partes diferentes de un conjunto grande de datos. Por ejemplo, un moderno GPU es una colección grande de co-procesadores más lento que pueden simplemente aplicar el mismo cálculo en partes diferentes sobre datos relativamente más pequeños, pero el paralelismo SPMD acaba con una manera eficaz de obtener soluciones finales (es decir, cronometrar que la solución sea más corta).​ Es claro que pbdR no es solo propio para clusters pequeños, sino también más estable para analizar grandes volúmenes de datos y más escalable para supercomputadoras.​ En resumen, pbdR * No le gusta el RMPI, ni paquetes paralelos en R, * No se centra en programación interactiva ni maestros/esclavos, * Pero es capaz de utilizar ambos paralelismos SPMD y de tarea. (es)
  • Programming with Big Data in R (pbdR) is a series of R packages and an environment for statistical computing with big data by using high-performance statistical computation. The pbdR uses the same programming language as R with S3/S4 classes and methods which is used among statisticians and data miners for developing statistical software. The significant difference between pbdR and R code is that pbdR mainly focuses on distributed memory systems, where data are distributed across several processors and analyzed in a batch mode, while communications between processors are based on MPI that is easily used in large high-performance computing (HPC) systems. R system mainly focuses on single multi-core machines for data analysis via an interactive mode such as GUI interface. Two main implementations in R using MPI are Rmpi and pbdMPI of pbdR. * The pbdR built on pbdMPI uses SPMD parallelism where every processor is considered as worker and owns parts of data. The SPMD parallelism introduced in mid 1980 is particularly efficient in homogeneous computing environments for large data, for example, performing singular value decomposition on a large matrix, or performing clustering analysis on high-dimensional large data. On the other hand, there is no restriction to use manager/workers parallelism in SPMD parallelism environment. * The Rmpi uses manager/workers parallelism where one main processor (manager) serves as the control of all other processors (workers). The manager/workers parallelism introduced around early 2000 is particularly efficient for large tasks in small clusters, for example, bootstrap method and Monte Carlo simulation in applied statistics since i.i.d. assumption is commonly used in most statistical analysis. In particular, task pull parallelism has better performance for Rmpi in heterogeneous computing environments. The idea of SPMD parallelism is to let every processor do the same amount of work, but on different parts of a large data set. For example, a modern GPU is a large collection of slower co-processors that can simply apply the same computation on different parts of relatively smaller data, but the SPMD parallelism ends up with an efficient way to obtain final solutions (i.e. time to solution is shorter). (en)
dbo:influencedBy
dbo:license
dbo:thumbnail
dbo:wikiPageExternalLink
dbo:wikiPageID
  • 39775648 (xsd:integer)
dbo:wikiPageLength
  • 13002 (xsd:nonNegativeInteger)
dbo:wikiPageRevisionID
  • 1121861265 (xsd:integer)
dbo:wikiPageWikiLink
dbp:designer
  • Wei-Chen Chen, George Ostrouchov, Pragneshkumar Patel, and Drew Schmidt (en)
dbp:developer
  • pbdR Core Team (en)
dbp:influencedBy
  • R, C, Fortran, MPI, and ØMQ (en)
dbp:latestTestVersion
  • Through GitHub at RBigData (en)
dbp:license
  • General Public License and Mozilla Public License (en)
dbp:name
  • bdrp (en)
dbp:operatingSystem
dbp:paradigm
  • SPMD and MPMD (en)
dbp:typing
dbp:wikiPageUsesTemplate
dcterms:subject
gold:hypernym
rdf:type
rdfs:comment
  • La programación con datos masivos en R (pbdR, a partir del inglés Programming with Big Data in R)​ es una serie de paquetes R y un entorno para el cálculo estadístico con grandes volúmenes de datos mediante el uso de la programación de alto rendimiento estadístico.​ La pbdR utiliza el mismo lenguaje de programación que R con clases y métodos S3/S4 los cuales son usados entre los estadísticos y la minería de datos para el desarrollo de software estadístico. La diferencia significativa entre pbdR y el código R es que pbdR se centra principalmente en la memoria distribuida de los sistemas, donde los datos son distribuidos a través de varios procesadores y analizados en un modo por lotes, mientras que las comunicaciones entre procesadores se basan en MPI que se utiliza con gran facilidad en si (es)
  • Programming with Big Data in R (pbdR) is a series of R packages and an environment for statistical computing with big data by using high-performance statistical computation. The pbdR uses the same programming language as R with S3/S4 classes and methods which is used among statisticians and data miners for developing statistical software. The significant difference between pbdR and R code is that pbdR mainly focuses on distributed memory systems, where data are distributed across several processors and analyzed in a batch mode, while communications between processors are based on MPI that is easily used in large high-performance computing (HPC) systems. R system mainly focuses on single multi-core machines for data analysis via an interactive mode such as GUI interface. (en)
rdfs:label
  • Programación con datos masivos en R (es)
  • Programming with Big Data in R (en)
owl:sameAs
prov:wasDerivedFrom
foaf:depiction
foaf:homepage
foaf:isPrimaryTopicOf
foaf:name
  • bdrp (en)
is dbo:wikiPageRedirects of
is dbo:wikiPageWikiLink of
is foaf:primaryTopic of
Powered by OpenLink Virtuoso    This material is Open Knowledge     W3C Semantic Web Technology     This material is Open Knowledge    Valid XHTML + RDFa
This content was extracted from Wikipedia and is licensed under the Creative Commons Attribution-ShareAlike 3.0 Unported License