Impresiones Apache Lucene Eurocon 2011 día 1

Después de dos días de conferencia y un fin de semana de reposo, tenía pendiente comentar mis impresiones sobre la Eurocon, la conferencia sobre Apache Lucene/Solr de la semana pasada en Barcelona. Así que… allá vamos con el día 1.

El miércoles 19 de octubre a las 8.30h comenzaba la conferencia, con una keynote a cargo de Grant Ingersoll (Chief Scientist en Lucid Imagination, la empresa que organiza el evento y comercializa la versión de pago de Solr, LucidWorks). Comentó la importancia de centrarse en las necesidades/expectativas del usuario a la hora de desarrollar un buscador. Estuvo bien, los técnicos tenemos tendencia a enfocarnos en cómo hacer las cosas y a veces se nos olvida el para qué… Después de esta keynote vino otra a cargo de Eric Baldeschwieler, dónde comentó las posibilidades que ofrece Big data y Hadoop. Como curiosidad, explicó que usan este software empresas como Yahoo o LinkedIn. Acto seguido, comenzaron las sesiones técnicas. Había que decidirse entre 3 cada vez.

La primera para mi fue “Configuring Mahout Cluster Jobs“, por Frank Scholten de JTeam. En esta sesión tuvimos una introducción a los algoritmos de clustering: k-means, canopy, mean-shift, LDA, etc. y a cómo se pueden utilizar para hacer clusters de documentos. Para esto, Frank comentó el ejemplo concreto de las etiquetas que utiliza la web Stackoverflow.com para catalogar las preguntas/respuestas. Muy interesante!

La siguiente sesión a la que acudí fue “Archive-It:Scaling Beyond a Billion Archival Webpages“, por Aaron Binns de Internet Archive (archive.org). Fui a esta sesión con la esperanza que comentaran cosas del crawler que utilizan, Heritrix, ya que trabajo con él habitualmente. No hubo suerte, sólo información sobre clustering en Solr.

Después estuve en “Search Analytics: Business Value & Big Data NoSQL BackEnd“, por Otis Gospodnetic, de Sematext. Comentó la importancia de monitorizar y analizar la información obtenida del usuario (Search Analytics). La frase clave fue “measure and monitor everything”. Crea informes sobre toda la información que se genera: volumen, latencia, top queries, 0 hits, query trending, top seen docs, top clicked docs, page depth, sort usage, etc.

Por la tarde tocó una sesión de alguien de aquí, de Barcelona: Marc Sturlese, de Trovit.com. “Scaling Search at Trovit with Solr & Hadoop“. Una charla muy técnica sobre los problemas que habían tenido y cómo los habían solucionado cuándo tuvieron que escalar Lucene/Solr para su buscador.

Después del siguiente break, estuve en una de las sesiones que más me gustaron: “Natural Language Search in Solr” (sip, para gustos…) por Tommaso Teofili de Sourcense. Empezó la exposición comparando las búsquedas de Google de 1999 con las actuales. De la búsqueda por palabra clave a la búsqueda actual, basada en el análisis del lenguaje y en la extracción de las entidades principales (conceptos) que forman la query (entre otras muchas cosas). Comentó la opción de integrar UIMA con Solr y como aprovechar las funcionalidades que ofrece NLP para hacer expansión de queries, enriquecer campos del índice, etc. Para terminar, un link sobre el tema: http://googleblog.blogspot.com/2010/01/helping-computers-understand-language.html.

La última sesión a la que asistí el primer día fue “More Powerful Solr Search with Semaphore“, por Jeremy Bentley, CEO de Smartlogic. Muy interesante y muy bien explicado. Empezó por una introducción a la situación actual sobre la explosión de la información que estamos viviendo:

– El 80% de la información empresarial actualmente no está estructurada.

– El tamaño de esta información se duplica cada mes.

Con este panorama parecía obvio e imprescindible utilizar herramientas que permitan estructurar esa información. Además, al tratarse de volúmenes de datos muy grandes, la opción de “etiquetado manual” se tiene que descartar y no queda otra que pensar en herramientas que lo hagan de forma automática. Jeremy comentó la solución que tiene su empresa para intentar dar solución a este problema.

Con esto acabo el día 1!

Anuncios
Esta entrada fue publicada en Uncategorized y etiquetada , , , . Guarda el enlace permanente.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s