July 15, 2019

|

by: fugu

|

Categories: Big Data & Data Science

BIG DATA ECUADOR

Big data es un término en evolución que describe un gran volumen de datos estructurados ,semiestructurados y no estructurados que tienen el potencial de ser extraídos para obtener información y usarse en proyectos de aprendizaje automático y otras aplicaciones de análisis avanzado.

Los datos grandes a menudo se caracterizan por los 3V : el volumen extremo de datos, la amplia variedad de tipos de datos y la velocidad a la que se deben procesar los datos. Esas características fueron identificadas por primera vez por el analista de Gartner, Doug Laney, en un informe publicado en 2001. Más recientemente, varias otras V se agregaron a las descripciones de big data, incluida la veracidad , el valor y la variabilidad . Si bien el big data no equivale a ningún volumen específico de datos, el término se usa a menudo para describir terabytes , petabytes e incluso exabytes de datos capturados a lo largo del tiempo.

Rompiendo las Vs de big data

Dichos datos voluminosos pueden provenir de innumerables fuentes diferentes, como sistemas de transacciones comerciales, bases de datos de clientes, registros médicos, registros de flujo de clics de Internet, aplicaciones móviles, redes sociales, los resultados recopilados de experimentos científicos, datos generados por máquinas y sensores de datos en tiempo real utilizados. En entornos de internet de las cosas ( IoT ). Los datos pueden dejarse en su forma original o preprocesarse utilizando herramientas de minería de datos o software de preparación de datos antes de ser analizados.

Las fuentes y el valor de Big Data varían ampliamente y pueden tener diversos usos, dependiendo del nivel de confianza en los datos.
Big data es una recopilación de datos de varias fuentes que van desde fuentes bien definidas hasta fuentes sueltas, derivadas de fuentes humanas o de máquinas.

Big Data también abarca una amplia variedad de tipos de datos, incluidos datos estructurados en bases de datos SQL y almacenes de datos, datos no estructurados, como archivos de texto y documentos almacenados en clusters de Hadoop o sistemas NoSQL , y datos semiestructurados, como registros de servidores web o transmisión de datos desde sensores. Además, Big Data incluye múltiples fuentes de datos simultáneas, que de otro modo no podrían integrarse. Por ejemplo, un proyecto de análisis de datos grandes puede intentar medir el éxito de un producto y las ventas futuras mediante la correlación de datos de ventas pasadas, datos de retorno y datos de revisión de compradores en línea para ese producto.

La velocidad se refiere a la velocidad a la que se generan grandes datos y se deben procesar y analizar. En muchos casos, los conjuntos de big data se actualizan en tiempo real o casi en tiempo real, en comparación con las actualizaciones diarias, semanales o mensuales en muchos almacenes de datos tradicionales. Los proyectos de análisis de Big Data ingieren, correlacionan y analizan los datos entrantes, y luego representan una respuesta o resultado basado en una consulta general. Esto significa que los científicos de datos y otros analistas de datos deben tener una comprensión detallada de los datos disponibles y tener algún sentido de qué respuestas están buscando para asegurarse de que la información que obtienen es válida y actualizada. La velocidad también es importante a medida que el análisis de big data se expande en campos como el aprendizaje automático y la inteligencia artificial ( AI ), donde los procesos analíticos encuentran automáticamente patrones en los datos recopilados y los utilizan para generar información.


Observe cómo se utilizan los datos grandes hoy y cómo 
Tendrá un impacto en los empleos y los mercados en los próximos años.

La veracidad de los datos se refiere al grado de certeza en los conjuntos de datos. Los datos en bruto inciertos recopilados de múltiples fuentes, como las plataformas de redes sociales y las páginas web, pueden causar serios problemas de calidad de los datos que pueden ser difíciles de identificar. Por ejemplo, una empresa que recopila datos de cientos de fuentes puede identificar datos inexactos, pero sus analistas necesitan información sobre el linaje de los datos para rastrear dónde se almacenan los datos para que puedan corregir los problemas.

Los datos incorrectos conducen a un análisis inexacto y pueden socavar el valor de los análisis de negocios porque pueden hacer que los ejecutivos desconfíen de los datos en general. La cantidad de datos inciertos en una organización debe contabilizarse antes de que se utilice en aplicaciones de análisis de big data. Los equipos de TI y análisis también deben asegurarse de tener suficientes datos precisos disponibles para producir resultados válidos.

Algunos científicos de datos también agregan un quinto valor V a la lista de características de big data. Como se explicó anteriormente, no todos los datos recopilados tienen un valor comercial real y el uso de datos inexactos puede debilitar la información proporcionada por las aplicaciones de análisis. Es fundamental que las organizaciones empleen prácticas tales como la limpieza de datos y confirmen que los datos se relacionan con problemas comerciales relevantes antes de usarlos en un proyecto de análisis de big data.

La variabilidad también se aplica a menudo a conjuntos de big data, que son menos consistentes que los datos de transacciones convencionales y pueden tener múltiples significados o tener un formato diferente de una fuente de datos a otra, cosas que complican aún más los esfuerzos para procesar y analizar los datos. Algunas personas atribuyen incluso más Vs a big data: los científicos y consultores de datos han creado varias listas con entre siete y 10 Vs.

Grandes prácticas de recopilación de datos, elogios y críticas.

Durante muchos años, las empresas han tenido pocas restricciones sobre el tipo de datos que recopilan de sus clientes. Las empresas utilizan el big data acumulado en sus sistemas para mejorar las operaciones, brindar un mejor servicio al cliente, crear campañas de marketing personalizadas basadas en las preferencias específicas de los clientes y, en última instancia, aumentar la rentabilidad. Los investigadores médicos también utilizan big data para identificar los factores de riesgo de la enfermedad. Los datos derivados de los registros de salud electrónicos, las redes sociales, la web y otras fuentes proporcionan información actualizada sobre amenazas de enfermedades infecciosas o brotes.

Pero a medida que aumenta la recolección y el uso de datos, también aumenta el uso indebido de los datos. Los ciudadanos preocupados que han experimentado el mal manejo de sus datos o han sido víctimas de una violación de datos están pidiendo leyes sobre la transparencia de la recopilación de datos y la privacidad de los datos del consumidor .

La protesta por violaciones a la privacidad personal llevó a la Unión Europea a aprobar el Reglamento General de Protección de Datos ( GDPR ), que entró en vigor en mayo de 2018; limita los tipos de datos que las organizaciones pueden recopilar y requiere el consentimiento de los individuos. Si bien no hay leyes similares en los EE. UU., Los funcionarios del gobierno están investigando las prácticas de manejo de datos, específicamente entre las compañías que recopilan datos de consumidores y las venden a otras compañías para uso desconocido.

Cómo se almacenan y procesan los datos grandes

La necesidad de manejar la velocidad de big data impone demandas únicas en la infraestructura de cómputo subyacente. La potencia de cálculo necesaria para procesar rápidamente grandes volúmenes y variedades de datos puede abrumar a un solo servidor o clúster de servidores . Las organizaciones deben aplicar una capacidad de procesamiento adecuada a las tareas de big data para lograr la velocidad requerida. Esto puede potencialmente exigir cientos o miles de servidores que pueden distribuir el trabajo de procesamiento y operar en colaboración en una arquitectura en clúster.

Lograr tal velocidad de una manera rentable también es un desafío. Muchos líderes empresariales se muestran reticentes a invertir en una amplia infraestructura de almacenamiento y servidores para admitir grandes volúmenes de trabajo de datos, especialmente aquellos que no se ejecutan 24/7. Como resultado, la computación en la nube pública es ahora un vehículo principal para alojar sistemas de big data. Un proveedor de nube pública puede almacenar petabytes de datos y ampliar la cantidad necesaria de servidores el tiempo suficiente para completar un proyecto de análisis de big data. La empresa solo paga por el almacenamiento y el tiempo de cálculo realmente utilizado, y las instancias de la nube pueden apagarse hasta que se necesiten nuevamente.

Para mejorar aún más los niveles de servicio, los proveedores de nube pública ofrecen capacidades de big data a través de servicios administrados que incluyen instancias de cómputo Apache Hadoop altamente distribuidas, el motor de procesamiento Apache Spark y tecnologías de big data relacionadas. Amazon Elastic MapReduce ( EMR ) de Amazon Web Services (AWS) es un ejemplo de un servicio de big data que se ejecuta en una nube pública; otros incluyen Azure HDInsigh t de Microsoft y Google Cloud Dataproc . En entornos de nube, los datos grandes se pueden almacenar en el Sistema de archivos distribuidos de Hadoop ( HDFS ) o en el almacenamiento de objetos en la nube de menor costo, como el Servicio de almacenamiento simple de Amazon ( S3 ); Las bases de datos NoSQL son otra opción en la nube para las aplicaciones que son adecuadas para ellas.

Para las organizaciones que desean implementar sistemas de big data en las instalaciones, las tecnologías de código abierto de Apache que se utilizan comúnmente, además de Hadoop y Spark, incluyen Yet Another Resource Negotiator ( YARN ), el administrador de recursos integrado de Hadoop y el programador de trabajos; el marco de programación de MapReduce ; Kafka , una plataforma de transmisión de datos y mensajería de aplicación a aplicación; la base de datos HBase ; y motores de consulta SQL-on-Hadoop como Drill, Hive, Impala y Presto. Los usuarios pueden instalar las versiones de código abierto de las propias tecnologías o recurrir a las plataformas comerciales de big data que ofrecen Cloudera, Hortonworks y MapR Technologies, que también son compatibles con la nube. Sin embargo, Cloudera y Hortonworks acordaron fusionarse en octubre de 2018, lo que probablemente reducirá el número de plataformas locales disponibles a dos.

El lado humano del análisis de big data.

En última instancia, el valor y la eficacia de Big Data dependen de los trabajadores encargados de comprender los datos y de formular las consultas adecuadas para dirigir los proyectos de análisis de Big Data. Algunas herramientas de big data cumplen con nichos especializados y permiten que los usuarios menos técnicos utilicen los datos empresariales cotidianos en aplicaciones de análisis predictivo. Otras tecnologías, como los dispositivos de big data basados ​​en Hadoop, ayudan a las empresas a implementar una infraestructura de cómputo adecuada para abordar proyectos de big data, al tiempo que minimizan la necesidad de hardware y conocimientos de software distribuidos.

Pero estas herramientas solo abordan casos de uso limitado. Muchas otras tareas de big data, como determinar la efectividad de un nuevo medicamento, pueden requerir una gran experiencia científica y computacional por parte de un equipo de análisis. Pero encontrar tal experiencia puede ser un desafío: actualmente hay una escasez de científicos de datos y otros analistas que tienen experiencia trabajando con big data en un entorno de código abierto y distribuido.

Los datos grandes se pueden contrastar con datos pequeños , otro término en evolución que se usa a menudo para describir datos cuyo volumen y formato se pueden usar fácilmente para el análisis de autoservicio . Un axioma comúnmente citado es que “el big data es para máquinas; el small data es para las personas”.