Sociedad Española de Documentación e información Científica

Técnicas básicas para la extracción de información en la Web: Web Scraper (Marzo 2020)

El número constante de datos que la Web alberga no hace más que aumentar. La irrupción de la “Internet de las cosas”, el bajo coste en el almacenamiento y la web social con millones de interacciones están haciendo de la Web un enorme repositorio de datos que describen nuestro entorno y nuestras interacciones. Cada vez el valor de estos datos es mayor ya que permite a empresas detectar oportunidades de negocio y a las administraciones conocer a sus ciudadanos. La popularización del término Big data no hace más que señalar el potencial que tiene el análisis de datos a partir de fuentes remotas y en tiempo real. Sin embargo, toda esta información se presenta en páginas web desestructuradas o en complejas bases de datos de difícil acceso que dificultan su extracción, procesamiento y análisis.

En este entorno, el papel del documentalista no debe limitarse a las tareas tradicionales de localización, identificación y descripción de la información, sino añadir una función más, la de extraer estos datos de forma estructurada que posibilite el procesamiento y análisis. Ante esta nueva revolución de la información, el documentalista debe conocer las herramientas que le sitúe en la primera línea de la nueva era de los datos.


Datos del curso
  • 30 horas
  • 30 plazas
  • Modalidad: OnLine
  • Periodo lectivo: 9/03/2020 | 20/03/2020
  • Periodo de inscripción: 12/11/2019 | 10/03/2020
  • Precio estándar: 210 €
  • Precio socios: 130 €
  • Precio socios desempleados: 80 €
  • Precio socios menores de 30: 80 €
Objetivos del curso

Introducir al alumno en el mundo de la extracción y procesamiento de datos web a través de conceptos y definiciones asociados a esta técnica. Términos como Internet de las Cosas, Big Data, crawlers, etc., servirán para que el alumno adquiera un contexto que le permita conocer en qué se basa y para qué sirve la extracción masiva de datos.

  • Conocer los elementos fundamentales en la vida de los datos, desde la extracción hasta su conservación, las fuentes de datos más relevantes y las políticas existentes sobre el tratamiento de estos. Conceptos como Conservador de datos (Data curator) o Repositorios de datos abiertos (Open Data repositories) permitirán al alumno conocer dónde localizar las fuentes de datos más importantes y cómo tratarlas y utilizarlas.
  • Conocer los elementos básicos en la extracción de datos; las diferencias entre rastreo (crawling) y extracción (scraping); el funcionamiento de los robots de los principales buscadores; y, en concreto, la técnica de Web scraping.
  • Conocer en detalle la herramienta Web Scraper para la extracción estructurada de datos web.
  • Finalmente, aprender a diseñar un proceso de extracción con el software Web Scraper.

A quien va dirigido este curso
  • Investigadores interesados en conocer técnicas de extracción de datos en la Web para obtener datos para sus propios proyectos de investigación. Con un nivel básico en el manejo de herramientas informáticas.
  • Profesionales de la información en general que quieran aprender de forma básica y sin programación cómo obtener pequeñas muestras de datos en la Web.

course-preview
210€
El curso incluye:

Formación por docente profesional

Contenido del curso descargable

Acceso al foro del curso. Pregunta y resuelve tus dudas

Acceso de por vida a los recursos

Certificado de finalización


Datos de contacto

SEDIC

cursos@sedic.es

Teléfono: 915934059