Qué Son Los Paquetes De Datos, Especificaciones, Recursos y Ejemplos
El paquete de datos es un simple formato de contenedor utilizado para describir y empaquetar una colección de datos. El formato proporciona un contrato simple para la interoperabilidad de los datos que permite la entrega, la instalación y la gestión de los datos sin fricciones.
Los paquetes de datos pueden utilizarse para empaquetar cualquier tipo de datos. Al mismo tiempo, para determinados tipos de datos comunes, como los datos tabulares, tiene soporte para proporcionar importantes metadatos descriptivos adicionales - por ejemplo, describir las columnas y los tipos de datos en un CSV.
#El paquete de especificaciones del paquete de datos
Lee: 10 Tipos De Redes De Distribución Eléctrica, Que Son Y Cómo Funcionan
Los siguientes principios básicos informan nuestro enfoque:
- Simplicidad
- Extensibilidad y personalización por diseño
- Metadatos que son editables por el hombre y utilizables por la máquina.
- Reutilización de los formatos estándar existentes para los datos
- Lenguaje, tecnología e infraestructura agnóstica
Con el tiempo, la especificación del paquete de datos único ha evolucionado hasta convertirse en un conjunto de especificaciones, en parte mediante la componentización, en la que la especificación original se encuentra en varios componentes, y en parte mediante la ampliación.
Mira TambiénLas principales especificaciones son:
- Especificación del Paquete de Datos, un formato simple de empaquetado de datos para compartir entre herramientas y personas
- Paquete de datos tabulares, un formato para empaquetar datos tabulares que se basa en el paquete de datos y que utiliza:
*Esquema de tabla, una especificación para definir un esquema para datos tabulares
*Formato de Descripción de Dialectos CSV (CSV-DDF), una especificación para definir un dialecto para datos CSV.
¿Cómo se relacionan estas especificaciones?
Un paquete de datos puede "contener" cualquier tipo de archivo. Un Paquete de Datos Tabular es un tipo de Paquete de Datos especializado para datos tabulares y que "contiene" uno o más archivos CSV.
En un Paquete de Datos Tabulares, cada CSV debe tener un esquema definido usando el Esquema de Tabla y, opcionalmente, un dialecto definido usando CSV-DDF. Por lo tanto, una aplicación o biblioteca que consuma Paquetes de Datos Tabulares debe ser capaz de comprender no sólo la especificación completa del Paquete de Datos, sino también el Esquema de Tabla y el CSV-DDF.
Cómo empezar
Crear un Paquete de Datos es muy fácil: todo lo que necesitas hacer es poner un archivo "descriptor" de datapackage.json en el directorio de nivel superior de tu conjunto de archivos de datos.
Un mínimo ejemplo de Paquete de Datos se vería así en el disco:
Se puede proporcionar cualquier cantidad de archivos adicionales, como más archivos de datos, scripts (para procesar o analizar los datos) y otro material, pero no es necesario.
Sugerencia: Hay una especificación completa de estilo RFC del formato del Paquete de Datos para complementar esta rápida introducción.
El formato de Paquete de Datos Tabular extiende los Paquetes de Datos para datos tabulares. Soporta el suministro de información adicional como los tipos de datos de las columnas
datapackage.json
El archivo datapackage.json es el elemento básico de un paquete de datos y es el único archivo requerido. Proporciona:
- Metadatos generales como el nombre del paquete, su licencia, su editor y fuente, etc.
- Un "manifiesto" en forma de lista de los recursos de datos (archivos de datos) incluidos en este paquete de datos, junto con información sobre esos archivos (por ejemplo, un esquema)
Como su extensión de archivo indica, debe ser un archivo JSON. Aquí hay un ejemplo mínimo de un archivo datapackage.json:
Nota: una lista completa de los atributos potenciales y su significado se puede encontrar en la especificación completa del paquete de datos.
Nota: el formato del Paquete de Datos es extensible: los editores pueden añadir sus propios metadatos adicionales, así como restricciones en el formato y el tipo de datos, añadiendo sus propios atributos al paquete de datos.json.
Aquí hay un ejemplo mucho más extenso de un archivo JSON de paquete de datos:
Recursos
En la entrada de recursos del paquete de datos.json se listan los archivos de datos.
Vistas
El Visor de Paquete de Datos mostrará una Vista Gráfica de Conjunto de Datos de Reclinación cuando se proporcione una entrada de vistas en el paquete de datos.json.
*Incluye la propiedad resourceName si tiene más de un recurso y quiere mostrar un gráfico para un recurso que no sea el primero
*En la propiedad del Estado
- la propiedad de grupo es el nombre del campo de recursos cuyos valores se utilizarán en el eje y en el tipo de gráfico de barras y en el eje x en todos los demás tipos de gráfico
- la propiedad de la serie es una matriz de uno o más nombres de campos de recursos cuyos valores se utilizarán en el eje x en el tipo de gráfico de barras y en el eje y en todos los demás tipos de gráficos
- el gráficoEl tipo puede ser uno de líneas y puntos, líneas, puntos, barras o columnas
Ejemplos
Muchos paquetes de datos ejemplares se pueden encontrar en datahub. Ejemplos específicos:
#PIB mundial
Un paquete de datos que incluye los datos locales en el repo (los datos son CSV).
http://datahub.io/core/gdp
Aquí está el paquete de datos.json:
https://pkgstore.datahub.io/core/gdp/9/datapackage.json
#Datos de las empresas S&P 500
Este es un ejemplo con más de un recurso en el paquete de datos.
http://datahub.io/core/s-and-p-500-companies
Aquí está el paquete de datos.json:
https://pkgstore.datahub.io/core/s-and-p-500-companies/10/datapackage.json
Te puede interesar: Concepto De La Ley De Ohm. Qué Es, Función y Usos
#GeoJSON y TopoJSON
Puedes ver un ejemplo de cómo empaquetar archivos GeoJSON aquí.
DataHub no soporta actualmente el formato TopoJSON. Puede utilizar "Vega Graph Spec" y mostrar sus datos TopoJSON utilizando la especificación Vega.
Deja una respuesta