POWER PIVOT: MODELO DE DATOS EN EXCEL

0
747

Al trabajar con Power Pivot es inevitable encontrar el término Modelo de datos que es algo nuevo para la gran mayoría de usuarios de Excel. Este término proviene de la teoría de bases de datos y es importante explicar algunos conceptos que nos ayudarán a tener un buen fundamento para trabajar con Power Pivot en Excel.

Si eres una persona que tiene experiencia o entrenamiento previo en bases de datos, los conceptos expuestos en este blog serán muy básicos para ti. Por el contrario, si nunca has trabajado con bases de datos relacionales, es importante leer con detenimiento y comprender los términos que se explicaran a continuación.

¿QUÉ ES UN MODELO DE DATOS?

Una de las funciones principales de los sistemas computacionales es la de manejar y almacenar grandes cantidades de información. Un modelo de datos describe la estructura de esos datos que están almacenados en dichos sistemas. La expresión Modelo de datos hace referencia a la estructura de datos que es posible formar en Excel para que todas las tablas que agreguemos a esa estructura tengan un comportamiento conjunto.

El objetivo principal de un modelo de datos es darnos información sobre la manera en que están almacenados los datos. También podríamos definir el modelo de datos como un mapa que nos ayudará a comprender la forma en que se han organizado y almacenado los datos.

Dentro de la teoría de bases de datos encontrarás diferentes tipos de modelos, pero el que nos interesa y que es relevante para nuestro trabajo con Power Pivot, es el modelo de datos relacional.

EL MODELO DE DATOS RELACIONAL

Comprender la teoría de datos relacionales podría llevarnos todo un curso, pero para hacer las cosas extremadamente simples, podría decir que este modelo nos dice que los datos pueden representarse por un conjunto de tablas que estarán vinculadas entre sí por un campo en común.

El modelo de datos en Power Pivot

En la práctica, es común referirnos a estos elementos como tablas y relaciones. Una tabla está formada por columnas y filas mientras que una relación nos indica la columna que ha sido utilizada para vincular a dos tablas entre sí.

Pero ¿por qué querría tener muchas tablas cuando toda la información puede estar contenida en una sola? ¿Qué beneficios tiene distribuir la información en múltiples tablas? Esta es una pregunta muy común y totalmente válida para los usuarios que comienzan en el modelado de datos y la razón la explicaré con un ejemplo.

Supondremos el caso de una empresa que se dedica a vender teléfonos celulares y en los últimos días se han realizado varias ventas que han sido registradas de la siguiente manera:

Crear un modelo de datos en Power Pivot

Poner atención en las columnas ClienteEmail y Teléfono las cuales tienen información de contacto del cliente que ha hecho la compra. Ya que la empresa tiene clientes recurrentes, la información se vuelve a repetir cada vez que el mismo cliente hace una compra y eso puede traernos algunos problemas. A continuación menciono algunos de esos problemas:

  • El ingreso de nuevos datos: Si en alguna nueva compra se ingresa de manera incorrecta la información de contacto del cliente, ya no habrá manera de saber cuál de todos los datos es correcto o incorrecto. Por ejemplo, si la próxima compra de Hugo Ramírez se ingresa el correo electrónico hugo2@email.com no habrá certeza sobre cuál de los dos correos es correcto en el historial de compras de Hugo.
  • La actualización de datos: Si Hugo Ramírez cambia de Teléfono de contacto y queremos mantener actualizada la tabla anterior, será necesario modificar cada fila con la nueva información de Hugo. Siempre existe la posibilidad de omitir el cambio en alguna fila y de nueva cuenta no sabremos cuál de los teléfonos es el correcto.
  • El espacio de almacenamiento: Cada letra y palabra ingresada en la tabla se traduce en bytes de información en el disco del equipo. Entra más grande sea la cantidad de datos repetidos, mayor será el tamaño de la base de datos. No hace mucho sentido guardar información repetida que puede tener algún impacto en el rendimiento de una base de datos.

Estos son algunos de los problemas que te puedes encontrar al colocar todos los datos en una sola tabla. Por supuesto, el impacto será mayor conforme la base de datos crezca, así que es conveniente cuidar estos aspectos de diseño desde el principio.

Para evitar estos problemas en nuestro ejemplo, debemos dividir la tabla original en dos tablas de la siguiente manera:

Modelado de datos en Excel con Power Pivot

Las tres columnas ClienteEmail y Teléfono, que hacían referencia a la información del cliente, ahora son una tabla independiente y se ha agregado una columna adicional que funciona como un identificador único (Llave) para cada cliente. De esta manera, cuando queremos hacer referencia a un cliente desde otra tabla, podemos utilizar su identificador único.

La gran ventaja de este cambio es que solo debemos enfocarnos en la tabla que contiene la información de los clientes para hacer cualquier modificación. No será necesario hacer actualizaciones en diferentes filas o tablas, ya que ahora toda la información que se refiere a los clientes está en una sola tabla. De esa manera también reducimos el espacio requerido para el almacenamiento de los datos.

De eso se trata el modelado de datos, de adoptar buenas prácticas que hagan más eficientes nuestras bases de datos. A este proceso de «mejora» se le conoce como Normalización de bases de datos y es la aplicación de un conjunto de reglas (Formas normales) a una base de datos. Cuando una base de datos cumple con las formas normales, se dice que la base de datos ha sido normalizada.

EL MODELO DE DATOS EN POWER PIVOT

Algo que no debes olvidar es que antes de importar los datos en Power Pivot, es altamente recomendable asegurarse que están normalizados. Recuerda que, una vez que importas una tabla al modelo de datos de Power Pivot no podrás modificar su estructura es decir, no podrás modificar sus columnas o filas sino que solamente podrás crear relaciones con las demás tablas del modelo.

Power Pivot importará cualquier base de datos que le pidas, ya sea que tenga los datos normalizados o sin normalizar. Es tu responsabilidad como analista, el cuidar la calidad e integridad de los datos que incluyes en el modelo. Los datos normalizados enriquecerán en gran medida tu modelo de datos y te permitirán crear reportes altamente efectivos.

Entretejido de tablas Power Pivot

LÍMITES DE EXCEL Y LÍMITES DE EXCEL CON POWER QUERY Y POWER PIVOT

Para un archivo Excel normal (sin un Modelo de datos), solo es posible contener tablas de hasta 1.048.576 filas y 16.384 columnas.

En la versión de 32 bits de Excel, el tamaño máximo de archivos para un libro de Excel que contiene un Modelo de datos es de 2 GB. Tampoco es posible traspasar el límite de 1.999.999.997 filas ni el de 2.147.483.637 columnas.

En la versión de 64 bits de Excel, no hay límite en el tamaño de los archivos (el limite lo establece la capacidad del ordenador). Esto es solo una teoría, pero en la realidad práctica no se podría sobrepasar la cifra de 9.223.372.036.854.775.807 filas. Por supuesto, esto es considerado como que «no hay límites».

Aunque no alcancemos los límites establecidos por Microsoft, siempre es conveniente cargar en el Modelo de datos únicamente aquellas tablas que vamos a necesitar. Incluso en cada tabla deberíamos seleccionar únicamente aquellas columnas que serán utilizadas.

Puesto que Power Pivot puede alimentarse de tablas de dos formas distintas (mediante las consultas de Power Query cargadas en el modelo de datos y mediante conexiones directas desde el propio Power Pivot).

Artículo que te recomendamos leer:
¿QUÉ ES POWER PIVOT PARA EXCEL Y PARA QUÉ SIRVE?

¿Qué te pareció nuestra blog? Coméntanos.

Comentarios

PROGRAMA DE ESPECIALIZACIÓN EN ASISTENTE CONTABLE.

Fecha: Sábado 04/05, 11/05, 18/05, 25/05 de Mayo, 01/06, 07/06, 15/06 y 22 de Junio del 2024.

Horario: 9:00 a.m. - 1:00 p.m.

Frecuencia: Cada Sábado

Duración: 8 sesiones, 8 módulos, 2 meses.