Minería de textos

La minería de textos (text mining) es una disciplina englobada dentro de las técnicas de acceso, recuperación y organización de información y consiste en un conjunto de técnicas que nos permiten extraer información relevante y desconocida de manera automática dentro de grandes volúmenes de información textual, normalmente en lenguaje natural y por lo general no estructurada.

La minería de textos permite el descubrimiento de patrones interesantes y nuevos conocimientos en un conjunto de textos, es decir, su objetivo consiste en descubrir tendencias, desviaciones y asociaciones entre una gran cantidad de información textual. Esto nos permite encontrar conocimiento significativo a partir de datos textuales sin estructurar. La minería de textos extrae información nueva por lo que es algo totalmente distinto a la búsqueda web, en la cual se busca información ya conocida, no se extrae información nueva.

Una de las principales características de la minería de texos consiste en que por lo general la información no está estructurada, al contrario de lo que ocurre en el la minería de datos (data mining) en la que la información suele extraerse de una base de datos, por lo que sí está estructurada. Esto hace que la extracción de información de una base de datos sea más sencilla, ya que las bases de datos están diseñadas para que sea posible el tratamiento automático de la información.

Las principales áreas de aplicación de las tecnologías de minería de textos cubren dos aspectos:

  • El descubrimiento de conocimiento
  • La extracción de información

La minería de textos constituye una herramienta de gran utilidad ya que alrededor de un 80% de la información de las organizaciones está almacenada en forma de texto no estructurado.

Página realizada por Alberto Plaza López para la asignatura de Recuperación y Acceso a la información

Universidad Carlos III de Madrid