We can't find the internet
Attempting to reconnect
Something went wrong!
Hang in there while we get back on track
Policía
Los sesgos con los extranjeros en el algoritmo de violencia de género de la Ertzaintza
Los algoritmos diseñados para predecir el riesgo de que una persona vuelva a cometer un delito se llevan usando décadas, mucho antes de que se desatara el hype alrededor de la inteligencia artificial (la mayoría no usa esta tecnología, sino que se basan en un cuestionario psicológico que diseñan y evalúan personas, cada una con sus propios sesgos y prejuicios). En el contexto de los algoritmos de toma de decisiones automatizadas, la violencia de género es uno de los terrenos de juego favoritos. VioGen el algoritmo usado por la Policía Nacional en casos de violencia machista, resuena en la prensa española desde hace varios años, pero hay comunidades que cuentan con el suyo propio: en Euskadi se usa un sistema similar desde hace incluso más tiempo, a pesar de que haya pasado muy por debajo del radar público.
La herramienta, llamada EPV (Escala de predicción del riesgo de violencia grave contra la pareja), fue creada en 2005 y está en uso desde enero de 2007. A día de hoy, la Ertzaintza utiliza una versión ‘revisada’ de 2010, de ahí que se le haya añadido una erre de apellido. Aunque EPV-R y VioGen se comenzaron a usar en el mismo año, no son la misma herramienta, ni lo son sus preguntas o los resultados estadísticos aplicados, por lo que tampoco lo son las interpretaciones que hacen los agentes vascos de las preguntas del cuestionario. Entre ellas, considerar si una persona es muy o poco celosa o si viene de un país con “una cultura diferente a la occidental”.
Ciberseguridad
Ciberseguridad Cellebrite, el software israelí de la Ertzaintza para acceder a los teléfonos de los ciudadanos
¿Extranjero? Sí, pero no todas las nacionalidades cuentan
EPV-R es un cuestionario de 20 preguntas que suman hasta 48 puntos. Por encima de 24 puntos, el riesgo que otorga el algoritmo es “especial”, el más alto que puede conceder. Por debajo de 9, el riesgo es supuestamente “bajo”. Para que el resultado se considere válido, tienen que responderse al menos doce preguntas, y entre ellas seis clasificadas con un “mayor valor predictivo”, tal y como explica Oskar Fernández, inspector jefe en la comisaría de Getxo (Vizcaya) y miembro del equipo de desarrollo la plataforma EBA (Emakumeen eta Etxekoen Babesa en euskera, que se traduce como Protección de Mujeres y Amas de Casa).
“Este ítem se refiere a personas que tienen otra cultura diferente a la occidental”, aclara Oskar Fernández, inspector jefe en la comisaría de Getxo
No todos los ítems están relacionados con la violencia de género. La primera pregunta solo califica un punto, pero busca saber si las víctimas o los infractores son inmigrantes – excepto que no se refiere a todos los extranjeros: “Este ítem se refiere a personas que tienen otra cultura diferente a la occidental”, aclara Fernández.
Tal y como fue diseñado este sistema, una persona procedente de Francia o del País Vasco francés no contaría como extranjero, pero sí una de Marruecos o Colombia. ”Se aplicaría en todos aquellos casos en los que culturalmente tengan una concepción diferente a la europea con respecto a la relación de pareja”, afirma el inspector. Sin embargo, no hay una lista de países a la que cada ertzaina pueda acudir para discriminar los que cuentan de los que no: es una elección “interpretativa”, según Fernández.
En España, solo uno de cada cinco delitos sexuales son cometidos por extranjeros, aunque la nacionalidad suele ser imperativa en los algoritmos de predicción de riesgos; por ejemplo en RisCanvi, una herramienta informática utilizada en Cataluña para predecir la probabilidad de que un preso reincida tras cumplir su condena.
En España, solo uno de cada cinco delitos sexuales son cometidos por extranjeros, aunque la nacionalidad suele ser imperativa en los algoritmos de predicción de riesgos
Entre los ítems con un “mayor valor predictivo”, la mayoría tienen que ver con la violencia: si hay antecedentes de que el agresor haya sido violento con otra persona que no sea su pareja, si hay amenazas de muerte, uso de armas o si el agresor es “intensamente” celoso. Y estos factores son los que suelen inclinar la balanza hacia un mayor o menor riesgo.
Julián García ejerció como juez de instrucción durante 14 años en el País Vasco y recuerda que en todos los casos de violencia de género recibía junto al informe de denuncia, los datos médicos y la documentación policial, un documento con una puntuación de riesgo elaborado por una herramienta llamada EPV-R, pero con poco contexto sobre cómo se obtuvo el resultado. A día de hoy, detalla que en la comunicación que hace la Policía se incluye también el listado de las 20 preguntas y una ‘S’ o una ‘N’ a su lado.
“Los ítems de la herramienta valoran mucho el uso de armas o signos de violencia física, por lo que el resultado no era tan fiable en los casos en que no se documentaba esa circunstancia”, asegura. Recuerda el caso de una mujer que ya había contado previamente con órdenes de protección y que estaba siendo acosada por su expareja. El hombre la vigilaba desde un banco frente a su casa, le tocaba el timbre por la noche y las despertaba a ella y a su hija, que desarrolló problemas de salud mental por la situación. García le otorgó una orden de protección y consideró que el riesgo de reincidencia era alto, pero EPV-R calificó este caso en particular como bajo.
Investigadores independientes que han examinado el funcionamiento del algoritmo consideran que algunos de estos parámetros son muy complicados de evaluar, como los referentes a los celos.
Investigadores independientes que han examinado el funcionamiento del algoritmo consideran que algunos de estos parámetros son muy complicados de evaluar, como los referentes a los celos. “Desde la perspectiva más filosófica el problema está en cuantificar medidas que son muy subjetivas”, afirma Ana Valdivia, investigadora especializada en policía predictiva en el Oxford Internet Institute y miembro de AlgoRace.
Ante esa afirmación, Fernández defiende que a veces los celos son tan “obvios” y “aparentes” que “no hace falta ser especialista en psicología” para detectarlos. Por tanto, la calificación entre 0 y 3 puntos que recibe esa pregunta depende de la interpretación de cada agente. Y añade que también utilizan el software para detectar signos de violencia vicaria e intentos de suicidio por parte del agresor para luego comunicárselo a los jueces. También, enfatiza sobre las condiciones necesarias para que la herramienta funcione correctamente, la participación de los agentes es fundamental. “Claramente la implantación de la herramienta ha sido un éxito: desde 2011 hasta hoy, ninguna mujer protegida por la Ertzaintza ha sido asesinada”, añade.
Entre 2002 y 2020, las cifras de víctimas mortales por violencia de género han rondado una media similar: 47 mujeres fueron asesinadas en ese período, casi la mitad de ellas (20) desde 2011. Los datos recopilados por Emakunde, el Instituto de la Mujer de Euskadi, no especifican si estas mujeres contaban con protección policial o no.
Espionaje
El gigante del espionaje israelí detrás del sistema de monitorización telefónica de la Ertzaintza
Una tendencia a la baja
El inspector asegura que pueden aumentar el nivel de riesgo proporcionado por EPV-R, pero nunca reducirlo: "Sobre el riesgo que ofrece EPV-R, normalmente aumentamos la calificación”. La Ertzaintza no guarda datos históricos sobre el número de veces que se ha recurrido a esta acción desde que la herramienta está en funcionamiento, ya que habitualmente trabajan con los casos activos día por día, según Fernández.
Esta tendencia, sin embargo, va en línea con los resultados de un estudio preliminar realizado en 2022 sobre el rendimiento del algoritmo, ya que propone que su tasa de error es del 53%: “De cada diez casos severos, cinco los está etiquetando mal”, afirma Ana Valdivia, coautora del informe.
“El problema de este algoritmo está en el equilibrio entre los casos de ‘verdaderos positivos’ (el riesgo es alto y el algoritmo lo cataloga como tal) y casos de ‘verdaderos negativos’ (cuando el algoritmo dice que el riesgo es bajo y no falla)”, explica Valdivia. Denuncia que ambos parámetros se tratan por igual en un contexto demasiado arriesgado. ¿Por qué? “Porque en el peor de los casos de procesos no severos, lo que va a pasar es que catalogarás a los no graves como graves y vas a poder dar más recursos y protección. En cambio, si clasificas un caso severo como no severo, sí que hay un problema”.
“El número de falsos negativos es mayor que el de positivos verdaderos cuando la puntuación de corte es 10. Esto significa que es más probable que la herramienta de evaluación clasifique los casos graves como no graves en esta puntuación, lo que podría implicar la subestimación de los casos”, resume el estudio. La puntuación de corte se refiere al punto en el que los diseñadores del algoritmo consideran que el riesgo cambia de severo a no severo.
Racismo
Racismo SOS Racismo exige al Gobierno Vasco que retire la acusación de la mujer migrante detenida irregularmente por la Ertzaintza
Dicotomía judicial
El efecto de este tipo de algoritmos en un proceso judicial no es fácil de analizar. “Cuando tenemos que adoptar o no una orden de protección en el juzgado de guardia, solo tenemos el atestado, y normalmente se cita a la víctima y se detiene al presunto agresor. Puede ser que la víctima declare y se vean claramente las afecciones, las lesiones, que la violencia no es puntual sino que se ha proyectado en los últimos meses, que el agresor se niega a declarar… Pero hay otros casos en los que no está tan claro y los jueces de instrucción tienen que adoptar una decisión en una hora”, afirma Julián García, que ha participado en la elaboración del estudio.
Es en este caso cuando un juez podría estar de alguna manera dispuesto a recurrir a la valoración de una herramienta como EPV-R, pero la literatura académica muestra que a veces sus propios prejuicios y sesgos superan a los del algoritmo. Algunos estudios afirman que, en la mayoría de los casos, los jueces ignoran las recomendaciones de la máquina, especialmente cuando no coincide con su percepción. Por ejemplo, cuando el caso trata a personas racializadas y se tienen tendencias racistas. Otro experimento sobre este asunto muestra que la predicción de reincidencia sería similar con y sin asesoramiento, mientras que en una minoría de casos los participantes reaccionarían cambiando su predicción – normalmente, coincidiendo con el algoritmo si este dice que la persona no reincidirá.
Ujue Agudo, psicóloga que investiga la interacción entre las personas y los algoritmos en Bikolabs, ha llevado a cabo varios experimentos para comprender cómo se ven influenciadas las personas por lo que dice uno de estos sistemas. Si hablamos de evaluar un riesgo, le resulta difícil cuantificar este parámetro: “Cuando el algoritmo acierta, la gente está de acuerdo, pero cuando se equivoca, no hacen caso ciego, pero les hace dudar, por lo que terminan cambiando su juicio”, explica sobre una configuración reciente que llevó a cabo al probar cómo reaccionaría la gente con un sistema como RisCanvi.
“Si hay tres opciones diferentes (baja, media y alta), la gente tenderá a quedarse en el medio” por miedo a ser la responsable de “condenar” a alguien, añade. Desde una perspectiva psicológica, esto sucede debido a una combinación de dos fenómenos: el sesgo de automatización y la delegación de responsabilidad (no ser el responsable de que alguien termine en la cárcel, por ejemplo). Sin embargo, apunta a un problema aún mayor, y es que todos estos algoritmos se aplican en “poblaciones vulnerables”, como personas encarceladas o víctimas de violencia de género: “Es una manera de que nadie se queje”, concluye.