Clase 3: Apache Solr + CDH Hue

Solr es una herramienta para operaciones Hadoop mediante indexación a través de XML, JSON, CSV o Binario sobre plataforma HTTP. Los usuarios pueden realizar consultas de grandes volúmenes de información  ya que Apache Solr está configurado para trafico web de alto volumen.
Apache Solr permite:
    - Búsqueda avanzada de texto completo
- Indexación en tiempo real
- Estándares Basados en Interfaces abiertas como XML, JSON y HTTP
- Interfaces completas de administración HTML
- Estadísticas de servidor expuestas a través de JMX para monitoreo
- Replicación de índices automáticos escalable de forma lineal y recuperación     automática de fallos
- Flexible y adaptable, con configuración XML.

Solr es altamente fiable, escalable y tolerante a fallos. Tanto los analistas de datos como los desarrolladores de la comunidad de código abierto confían en las capacidades distribuidas de indexación, replicación y carga equilibrada de Solr.


El panel de control de datos de Cloudera Navigator captura una gran variedad de información sobre datos, metadatos y trabajos de usuario que procesan los datos. El panel de administración de datos proporciona información y métricas para ayudar a comprender el estado del uso de datos  y  permite visualizar tendencias y promedios para una variedad de fuentes de datos y acciones.

Trabajo: Parte SOLR
Ingresando al sitio http://localhost:8983 identificamos que la herramienta es bastante intuitiva y teniendo precargados los archivos a analizar. Aquí se cuenta con una gran variedad de herramientas para explotación de la información.




Trabajo Parte CDH Hue
La herramienta es bastante intuitiva y viene con Layouts.




Con las herramientas de Edición se puede crear un nuevo reporte y editarlo y guardarlo si es necesario.


Se puede guardar la URL y luego seguir editándola desde CDH Hue.
Al crear un nuevo Layout se puede seleccionar el universo de datos a utilizar como base en la gráfica. 


Conclusiones
 - Solr y CDH Hue son intuitivas y fáciles de utilizar
 - A pesar de que los archivos contienen mucha información, la interacción con estos es rápida

Comentarios

Entradas populares de este blog

Clase 4 - METRICAS DE EVALUACIÓN DE SISTEMAS DE RECOMENDACIÓN.

Clase 5: Recomendación Basada en contexto

Clase 1: Sistemas de Recomendación_Introducción