El estado del arte del ‘screen scraping’

149730

José Miguel De La Calle

13 de Septiembre de 2022

Jose Miguel De la Calle

Socio en Garrigues

Se denomina screen scraping o web scraping a la técnica que se utiliza para recolectar datos de una forma automatizada desde una página web pública o ajena, con el fin de analizarlos y organizarlos en función de un propósito comercial. Mediante mecanismos robotizados o automatizados, la técnica del screen scraping se viene usando ya hace varios años para muy diversos fines, tales como la agregación de precios, la generación de presupuestos financieros, el mercadeo dirigido, propósitos periodísticos o académicos, entre otros[1].

El screen scraping es una modalidad de minería de datos que, con apoyo en un software de extracción, recoge información en internet, ya sea accediendo a información pública o simulando interacciones entre los portales y los titulares de la información, previa autorización de dichos titulares. En ese sentido, las empresas que se dedican a la actividad del web scraping se contactan previamente con los titulares de cierta información para obtener de ellos las credenciales (usuario, contraseña y otros) de acceso a los portales de terceros, con los que mantienen algún tipo de relación comercial.

La actividad de recolección de datos de varias páginas o portales diferentes y la consolidación de información en un solo vehículo no es algo nuevo y conlleva beneficios al consumidor, en cuanto a que facilita el acceso a información que, de otra forma, estaría dispersa. No obstante, se mantiene una gran controversia sobre la validez de estos procedimientos desde el punto de vista de protección de datos, privacidad y otros campos.

Las primeras inquietudes provienen del lado operativo y de seguridad, pues la actividad masiva del web scraping puede sobrecargar los sistemas del agente intervenido y crear riesgos de ciberseguridad por la transferencia no trazable de las credenciales de acceso, que típicamente son personales e intransferibles. Por ello, muchos países han empezado a abordar el tema de forma más estructural y, en diversos casos, han optado por expedir regulaciones para determinar con mayor claridad en qué casos este tipo de prácticas es legal y en cuáles traspasa los límites jurídicos. Para fijar esas fronteras, los países han abordados el tema, principalmente, desde cuatro perspectivas: (i) fraude computacional, (ii) violación a la propiedad, (iii) infracción a la propiedad intelectual e (iv) incumplimiento contractual (Han-Wei Liu).

A pesar de los avances en la conceptualización jurídica del tema, los reguladores y las propias cortes judiciales se han visto en grandes dificultades para decantarse por un estándar pacífico. Esto, pues si bien desde el punto de vista formal se concluye, en muchos casos, que la mera autorización del titular de los datos no es suficiente para acceder a una página controlada por un tercero (especialmente cuando la entrega de credenciales a terceros está prohibida por los términos y las condiciones del portal), muchos encuentran que existe un interés superior en darle amplitud al web scraping, en cuanto que ello ayuda a la movilización de datos, lo cual es deseable para fomentar la competencia y desarrollar los mercados digitales.

Si bien casos como Facebook v. Power Ventures, HiQ Labs o Sandvig han ayudado a construir la doctrina en la materia, considero que el ejercicio más interesante hasta ahora es el que se hizo en Chile, en donde la Asociación de Bancos y la industria fintech llegaron a un acuerdo marco para permitir el web scraping de forma controlada. Entre las bases del acuerdo están: (i) la necesidad del consentimiento expreso del titular, de conformidad con las normas de protección de datos; (ii) la revelación de la información técnica sobre las herramientas de consulta que se utilizan para la captura de datos; (iii) la obligación de usar acuerdos bilaterales posteriores para regular otros detalles y (iv) la distribución de responsabilidades ante el riesgo de fraude.

[1] Han-Wei Liu, Two decades of Laws and Practices Around Screen Scraping in the Common Law World and its Open Banking Watershed Moment, 2020.