Data providers, Data markets, Open Data y NER

Pensando en implementar un NER (Named Entity Recognition), una vez está clara la arquitectura técnica, analizados los componentes/frameworks open source existentes para NLP, etc. aparece una necesidad crítica: encontrar datos de valor a utilizar. Estos que usaremos para anotar el texto con metadata asociada (las entidades reconocidas). Gracias a las iniciativas Open Data, la cantidad de datos disponibles para utilizar vía APIs, ficheros CSV, dumps, etc. es enorme.

Estoy intentando agrupar estos “proveedores de datos”:

  1. DBpedia. El proyecto para mantener una versión estructurada de la información de la Wikipedia. Contiene 3.5Millones de entidades, de las que 364.000 son personas, 462.000 lugares o 54.000 son películas. Por poner un ejemplo. La información es descargable desde su Web o puede ser consultada a través de un endpoint (Web Service) en SPARQL. La licencia que tiene es CC-BY-SA 3.0 Unported License.
  2. MusicBrainz. Es una enciclopedia opensource que trata de recopilar información sobre artistas, canciones, recopilatorios, etc. Puedes descargar un backup de su base de datos PostgreSQL, utilizar su Web Service o usar alguno de los clientes que existen. La mayor parte de la información se encuentra bajo licencia Public Domain y el resto como Creative Commons Attribution-NonCommercial-ShareAlike 2.0.
  3. GeoNames. Todos los países y alrededor de 8 millones de lugares alrededor del mundo. Permiten descargar un backup de su base de datos, consultar sus Web Services o utilizar alguno de los clientes existentes. Tienen una licencia Creative Commons Attribution 3.0.
  4. WordNet. Es una enorme base de datos léxica del inglés. Se puede descargar o utilizar via Web Service. Tiene licencia BSD. Existen versiones también en castellano y catalán.
  5. Data.gov. Web del gobierno de Estados Unidos para fomentar la transparencia de la información pública. Contiene información descargable en múltiples formatos  sobre terremotos, información económica, sanidad, … En la misma linea se han sumado a este tipo de iniciativas otros organismos públicos, como por ejemplo data.gov.uk, dadesobertes.gencat.cat, opendata.euskadi.net, etc.
  6. Freebase. Es una gran colección de datos estructurados creada a partir de las aportaciones de la comunidad. Permite acceder a través de Web Service y descargar sus dumps. Se ofrece bajo la licencia Creative Commons Attribution License.

También existen buscadores de recursos Open Data, como por ejemplo:

  1. the Data Hub, que permite una búsqueda por palabra o por categorías. 
  2. Kasabi. que aunque todavía está en fase beta, promete ser una plataforma completa para hospedar y publicar información estructurada, ofreciendo un web service para cada dataset.
  3. Infochimps, que recopila multitud de datasets y ofrece las APIs para acceder. Sólo las primeras 100.000 llamadas a la API son gratis.
  4. Factual, es un ejemplo muy parecido al anterior.
  5. Windows Azure Marketplace, el intento de subirse al carro de Microsoft.
  6. Socrata

 ¿Sabes alguno más?

 

Anuncios
Esta entrada fue publicada en Semantic Web y etiquetada , , , , , , . Guarda el enlace permanente.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s