Impresiones Apache Lucene Eurocon 2011 día 2

El segundo día tenía como aliciente inicial la keynote del Tech Lead de Twitter (y Lucene commiter), Michael Busch. En ella comentó detalles de cómo consiguieron implementar las funcionalidades de búsqueda en tiempo real y tweets más destacados (Top Tweets) en su solución basada en Lucene. Aquí tenéis el vídeo.

Como datos iniciales:

  • 230 Millones de Tweets / día
  • 2 Billones de queries / día
  • < 10 segundos de latencia en indexación
  • 50 ms de media de respuesta a queries

Indices inversos, codificación de la información, concurrencia… Lo técnico elevado a la máxima expresión, un espectáculo :).

Después del break, acudí a la sesión “Designing Mobile Search”, por Tyle Tate de TwigKit. Una presentación muy cuidada y práctica. Dio en el clavo en aspectos tan actuales como:

  • tratamiento homogéneo de la experiencia de usuario y usabilidad en el entorno multicanal (Web, Móvil, iPad, etc.) actual.
    • consistencia: los usuarios deben ser capaces de realizar una determinada tarea de una manera similar en todos los canales.
    • optimización: cada canal debe ser consciente de sus fortalezas.
    • continuidad: cada canal debe ser consciente de todos los demás.
  • características de las búsquedas desde móvil
    • “44% de los consumidores utilizan sus teléfono mientras está en movimiento para localizar tiendas o restaurantes. ” – NCR 2010 Global Consumer Research
    • “El 40% de todas las búsquedas relacionadas con mapas en Google provienen de dispositivos móviles.” – Marissa Mayer
    • “El uso de Internet desde móvil será mayor que desde escritorio en 3 años” – Morgan Stanley
    •  “72% de las necesidades de la información son impulsadas por un factor contextual”:
      • actividad que se está desarrollando 23.9%
      • localización 34.6%
      • hora del día 27.9%
      • conversación que se está manteniendo 27.2%
    • Principios en las búsquedas móviles:

Por último comentó los típicos componentes que hay en un layout móvil y como deben colocarse de forma que se optimice la experiencia de usuario. Una presentación muy recomendable!

La siguiente sesión para mi fue “Text Analytics in Enterprise Search” por Daniel Ling, de Findwise. Otra de mis favoritas 🙂 Como introducción sobre Text Analytics, comentó los desafíos que persigue esta disciplina, en un mundo en el que el 80% de la información empresarial es no estructurada:

  • reducir el tiempo buscando información (actualmente 9.6 horas por semana)
  • reducir el tiempo leyendo documentos / mails (actualmente 14.5 horas por semana)
  • producir alguna estructura en contenido no estructurado
  • mejorar las posibilidades de búsqueda (relevancia/precisión) y descubrimiento de documentos gracias a las palabras clave extraídas / metadata
  • descubrir sentimientos en un texto

Como aplicaciones prácticas:

  • extracción de entidades (fechas, lugares, empresas, objetos (nombres de producto), personas, eventos, etc.)
  • categorización automática de documentos
  • sentiment analysis (como caso concreto de categorización)
  • summarization (devolver las frases más importantes de un texto dado)

Como frameworks:

  • Solr
  • Mallet, Classifier4j, etc.
  • Mahout (Hadoop)
  • Gate
  • UIMA
  • OpenNLP

Después de comer estuve en la presentación “Understanding & Visualising Solr ‘explain’ Information”, por Rafal Kuc de Solr.pl. Era una visita obligada si has trabajado con Solr y sus maravillosas funciones de debug de queries… Para solucionar esto, Rafal ha creado una tool que nos enseñó en la presentación, mediante la cuál es posible entender mejor los términos que aparecen en la ecuación que define el scoring de Lucene. Al parecer todavía no terminaba de funcionar, nos prometió que estaría pronto disponible. Este es el link:

http://explain.solr.pl

Ya solo quedaban dos. La próxima era “Using Solr Cloud, For Real!“, por Jon Gifford, de Loggly. Una charla interesante como caso práctico de uso de Solr para gestionar un volumen muy alto de datos: 7 billones de documentos, 8000 shards y 3 terabytes de índice. La solución encontrada fue el uso de SolrCloud.

Por último, una presentación muy divertida de Eric Pugh, de OpenSource Connections sobre testing: “Better Search Engine Testing“. Comenzó con dos frases especialmente interesantes para mi:

“information workers ... are each bombarded with 1.6
gigabytes of information on average every day through
emails, reports, blogs, text messages, calls and more”.
John 
Allen Paulos: “The Internet is the world's largest 
library.It's just that all the books are on the floor.”

Una vez entrados en materia, comentó la importancia que tiene el hecho qué la respuesta “correcta” en un buscador es algo subjetivo, ya que es bastante probable que dos personas esperen una respuesta diferente a una misma pregunta. Asimismo, habló de las múltiples variables que intervienen: tipo de usuario, tipo de dominio, tipos de datos indexados, escenarios, etc.

Acabó la conferencia con una puesta en escena de los committers de Lucene en una ronda de preguntas. Por último, decir que ya están disponibles las presentaciones de la conferencia.

Espero haber podido ayudar a quién no pudiera asistir o esté pensando si vale la pena ir a la siguiente!

Anuncios
Esta entrada fue publicada en Uncategorized y etiquetada , , , . Guarda el enlace permanente.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s