If you're seeing this message, it means we're having trouble loading external resources on our website.

Si estás detrás de un filtro de páginas web, por favor asegúrate de que los dominios *.kastatic.org y *.kasandbox.org estén desbloqueados.

Contenido principal

Los desafíos de "big data"

Cuando un sistema computacional necesita almacenar cantidades masivas de datos, hay dos consideraciones principales: espacio y tiempo. O, más específicamente:
  • ¿Cómo se almacenarán los datos?
  • ¿Cómo se pueden procesar los datos de manera eficiente?

Almacenamiento

En 2020, una computadora portátil estándar puede tener un disco duro de 256 GB. Eso puede almacenar:
  • 840,000 tweets (280 caracteres, nombre de usuario, fecha y hora)
  • 96,000 fotos (JPEG comprimido)
  • 66,418 canciones (MP3 comprimido)
  • 224 películas (MP4 comprimido)
Para un usuario promedio, 256 gigabytes es bastante, pero para una empresa que opera a escala global, es apenas ínfimo.
Los usuarios de Twitter publican 500 millones de tweets al día, y muchos de esos tweets incluyen fotos. Se requerirían más de 500 de esos discos duros de 256 GB de para almacenar los datos de un solo día de uso.
Es posible conectar docenas de discos duros entre sí, usando un arreglo de discos o gabinete de discos.
En este arreglo de discos HP, cada estante puede almacenar hasta 12 discos duros:
Arreglo de almacenamiento HP EVA4400. Fuente de la imagen: Redline
El Centro Alemán de Cálculo de Clima almacena más de 40 petabytes de datos climáticos, en gabinetes de discos duros como el que se muestra a continuación:
Cuando una organización tiene miles de discos duros para administrar, puede alojarlos en un centro de datos, un edificio dedicado exclusivamente a albergar computadoras y dispositivos de almacenamiento de datos.
El interior de un centro de datos, como este Centro de Datos de Nube IBM , contiene múltiples pasillos de equipo computacional, más la infraestructura necesaria para suministrar electricidad y prevenir el sobrecalentamiento de los equipos.
Fuente de la imagen: IBM
Los centros de datos a menudo están altamente interconectados, de manera que datos y computaciones puedan compartirse entre múltiples máquinas.
Toda esta interconexión requiere una gran cantidad de cableado de red:
Fuente de la imagen: IBM

Procesamiento

Un conjunto grande de datos puede tomar mucho tiempo en procesarse, independientemente de que el conjunto de datos pueda caber en un solo disco duro.
Imaginemos que los ingenieros de Twitter quieren determinar cuántos tweets contienen un hashtag particular (por ejemplo, "#CrisisClimática").
El código para determinar si un solo tweet contiene el hashtag requiere apenas una décima de milisegundo, o 0.0001 segundos.
El código para analizar 500 millones de tweets (la cantidad publicada cada día) requeriría el siguiente tiempo:
0.0001 * 500,000,000 = 50,000 segundos = 13.4 horas
¡Tomaría medio día procesar solo un día de tweets!
Los ingenieros tienen dos opciones en este punto:
  1. Encontrar un algoritmo más rápido por tweet
  2. Usar computación paralela para procesar los datos en paralelo
Los ingenieros probablemente pueden encontrar formas de mejorar la eficiencia de la comprobación del hashtag, pero incluso si lograran reducir el tiempo por un factor de 10, todavía tomaría una hora y media analizar todos los tweets de un día. Si esperan analizar más que eso (como un mes, o un año, o todos los tweets desde el inicio), necesitarán usar computación paralela.
🧠 ¿No recuerdas cómo funciona la computación paralela? Revísala aquí.
Cada tweet puede analizarse independientemente de otros, por lo que este tipo de procesamiento de datos puede ser fácilmente paralelizado. El trabajo también puede ser distribuido, donde múltiples máquinas trabajan en paralelo sobre un subconjunto de los datos.
Por ejemplo, cinco máquinas podrían cada una procesar 100 millones de tweets y enviar un recuento de cuántos tweets contienen "#CrisisClimática" a una máquina central. Una vez que esa máquina recibe el recuento de cada una de las cinco máquinas, podría sumar los recuentos y reportar el recuento total.

Uso responsable

"Con gran poder, viene una gran responsabilidad." - Uncle Ben
Mucho de los datos en estos grandes conjuntos de datos están relacionados de alguna manera con personas: expedientes de salud, datos de aplicaciones, geolocalizaciones. Cada vez que una organización almacena y procesa conjuntos masivos de datos que representan o afectan a seres humanos, debe ser extremadamente cuidadosa.
A continuación solo algunas pocas consideraciones éticas:
  • Si los datos incluyen Información Identificable Personal (PII), ¿es necesario ésto? Si es así, ¿está asegurada con cifrado?
  • Para cualquier información personal en los datos, ¿son conscientes las personas de que se están recopilando y almacenando sus datos?
  • ¿Pueden las personas solicitar la eliminación de sus datos personales?
  • ¿Hay un plan para eliminar automáticamente los datos cuando ya no se necesitan?
  • Si los datos serán analizados para llegar a conclusiones, ¿hubo sesgo en la forma en que fueron recopilados?
  • Si los datos se usarán para justificar un cambio en un producto de cara al usuario, ¿habrá un seguimiento para garantizar que ningún usuario se vea perjudicado por el cambio?
Nos sumergiremos en la ética de usar algoritmos de aprendizaje automático en la próxima lección, ya que el aprendizaje automático es una técnica popular para el análisis de "big data", pero con demasiada frecuencia se usa de forma irresponsable.
🙋🏽🙋🏻‍♀️🙋🏿‍♂️¿Tienes alguna pregunta sobre este tópico? Nos encantaría contestarte; ¡simplemente pregunta en el área de preguntas abajo!

¿Quieres unirte a la conversación?

  • Avatar blobby green style para el usuario Arturo Lugo
    Estoy sumergido en este mundo y mucho no entiendo, estos datos en proceso de almacenamiento son vulnerables a los ramsonware o secuestro, ya que se menciona el tema de cifrado.; hoy en dia se toman con pinzas estas situaciones ya que hay atencion sobre todo lo que es datos ; compartir en redes.
    (1 voto)
    Avatar Default Khan Academy avatar para el usuario
¿Sabes inglés? Haz clic aquí para ver más discusiones en el sitio en inglés de Khan Academy.