1 / 14

Anonimización de datos personales y cumplimiento del GDPR en datos generados por modelos de lenguaje de gran escala (LLMs)

Trabajo Final de Máster

Autores:
Ing. Armando Rubén Ita Silva
Ing. Daniel Alexis Mendoza Corne
Ing. David Alexander González Vásquez

Tutor: Prof. D. Desirée Delgado Linares

Universidad: UNIE Universidad

Fecha: Junio 2025

Madrid, España Bandera de España

📋 Agenda de la Presentación

  • 🤖LLMs: Definición y Aplicaciones
  • ⚠️Riesgos de Privacidad en LLMs
  • 🎯Objetivos del Estudio
  • ⚖️Marco Legal: GDPR
  • 📊Dataset: PaySim1
  • ⚖️Comparación de Técnicas con Justificación Legal
  • 🔬Metodología: CRISP-DM
  • 📊Métricas de Evaluación
  • ⚙️XGBoost: Configuración Detallada
  • ⚠️XGBoost: Vulnerabilidades e Impacto
  • 🏆Ranking de Modelos
  • 🎯Conclusiones
  • 💡Recomendaciones y Cierre

🤖 LLMs: Definición y Aplicaciones

📝 ¿Qué son los LLMs?

Los Modelos de Lenguaje de Gran Escala (LLMs) son sistemas de IA entrenados con enormes cantidades de texto para generar contenido similar al humano. Aplicados en finanzas para análisis de riesgo crediticio, detección de fraude y atención automatizada.

💰 Aplicaciones Financieras

  • 💳Análisis de riesgo crediticio
  • 🚨Detección de fraude
  • 🤝Atención al cliente automatizada
  • 📊Análisis de sentimientos
  • 📈Predicción de mercados

⚠️ Riesgos de Privacidad en LLMs

Principales Riesgos

  • 🧠Memorización: Datos personales específicos
  • 🎯Prompt injection: Extracción maliciosa
  • 🔍Inferencia: Deducción de atributos
  • ⚖️GDPR: Violaciones normativas

🚨 Impacto Crítico en Finanzas

Reidentificación de usuarios, filtración de datos bancarios, pérdidas económicas y sanciones GDPR hasta €20M o 4% del volumen de negocio anual.

📉 Impacto en la Confianza

72%
Usuarios preocupados por privacidad
63%
Evitan servicios financieros por desconfianza

🎯 Objetivos del Estudio

🔍 Objetivo General

Desarrollar y validar un marco integral de evaluación que permita analizar el grado de cumplimiento del GDPR cuando se utilizan modelos de lenguaje de gran escala (LLMs) en escenarios financieros simulados, aplicando técnicas avanzadas de anonimización sobre el conjunto de datos PaySim1.

📋 Objetivos Específicos

  • 📚Analizar riesgos de privacidad en LLMs
  • 🔬Diseñar metodología de evaluación GDPR
  • 📊Implementar técnicas de anonimización
  • 🤖Entrenar modelos de detección ML
  • 📈Evaluar impacto en utilidad del modelo
  • ⚖️Analizar trade-offs privacidad-utilidad
  • 📱Diseñar dashboard de monitoreo GDPR
  • 💡Formular recomendaciones prácticas

⚖️ Marco Legal: GDPR

📜 Reglamento General de Protección de Datos (GDPR)

🎯 Principios Clave

  • Minimización de datos
  • Privacidad por diseño
  • Derecho al olvido
  • Consentimiento explícito

💰 Sanciones

Multas de hasta €20 millones o 4% del volumen de negocio anual mundial.

🔍 Impacto en IA

Necesidad de técnicas de anonimización efectivas para el uso seguro de datos en modelos de IA.

🔒 Técnicas de Anonimización

🔐 SHA-256

Variables: nameOrig, nameDest

Función hash criptográfica para transformación irreversible de identificadores únicos.

🔢 k-anonimato (k=10)

Aplicación: Combinación de atributos

Cada registro es indistinguible de al menos k-1 otros registros en atributos quasi-identificadores.

🌈 l-diversidad (l=2)

Aplicación: Atributos sensibles

Cada grupo de k registros debe tener al menos l valores distintos para atributos sensibles.

📊 Privacidad Diferencial

Aplicación: Ruido controlado

Añade ruido estadístico controlado para limitar la información sobre individuos específicos.

📊 Dataset: PaySim1

Características del Dataset

📝 Origen: Simulador de transacciones financieras móviles

📈 Volumen: 6.3M transacciones, 11 variables

⏱️ Duración: 744 horas simuladas

🚨 Fraude: 0.13% casos positivos

⚠️ Riesgo GDPR: nameOrig, nameDest

🛡️ Protección: Identificadores únicos sensibles

🔍 Distribución de Datos

83.5%
Transacciones normales
0.13%
Transacciones fraudulentas
16.37%
Otras categorías

📋 Variables Clave

Variable Tipo Sensibilidad GDPR
nameOrig Identificador Alta
nameDest Identificador Alta
amount Numérico Media
step Temporal Baja

⚖️ Comparación de Técnicas con Justificación Legal

📜 Fundamentación Legal de las Técnicas

Técnica Variable Objetivo Justificación Legal (GDPR)
SHA-256 nameOrig, nameDest Art. 4(5) - Transformación irreversible de identificadores
Agrupación temporal step (tiempo) Art. 5(1)(c) - Minimización de datos
Rangos de montos amount, oldbalance, newbalance Art. 25 - Privacidad por diseño
k-anonimato (k=10) Combinación de atributos Considerando 31 - Prevención de reidentificación
l-diversidad (l=2) Atributos sensibles Art. 25 - Protección de datos sensibles
Privacidad Diferencial Datos numéricos Art. 32 - Seguridad del tratamiento

📌 Cumplimiento GDPR

Art. 4(5)
Datos anonimizados
Art. 5(1)(c)
Minimización de datos
Art. 25
Privacidad por diseño

🔬 Metodología: CRISP-DM

📊 Proceso CRISP-DM

📋 Business
Objetivos GDPR
📊 Data
PaySim1
🔧 Preparation
Anonimización
🤖 Modeling
ML Algorithms
📈 Evaluation
Métricas

🤖 Algoritmos Evaluados

🌲 Random Forest

Tipo: Ensemble - Bagging

Ventajas: Robusto, resistente al overfitting

Configuración: 100 árboles, max_depth=10

⚡ XGBoost

Tipo: Ensemble - Gradient Boosting

Ventajas: Alto rendimiento, optimización avanzada

Configuración: learning_rate=0.1, max_depth=6

📊 Regresión Logística

Tipo: Modelo lineal

Ventajas: Interpretable, línea base

Configuración: L2 regularization, C=1.0

📊 Métricas de Evaluación

Métricas Clave

Métrica Fórmula Significado
Precisión (Precision) TP / (TP + FP) Proporción de predicciones positivas correctas
Sensibilidad (Recall) TP / (TP + FN) Proporción de casos positivos identificados correctamente
Exactitud (Accuracy) (TP + TN) / (TP + TN + FP + FN) Proporción total de predicciones correctas
F1-Score 2 * (Prec * Rec) / (Prec + Rec) Media armónica entre precisión y sensibilidad
AUC-ROC Área bajo la curva Capacidad de distinguir entre clases positivas y negativas

🔄 Pipeline de Anonimización

Datos Originales
Seudonimización SHA-256
K-anonimato (k=10)
L-diversidad (l=2)
Entrenamiento XGBoost

⚙️ XGBoost: Configuración Detallada

⚙️ Características Técnicas

🔄 Gradient Boosting: Construcción secuencial de árboles

📊 Optimización: Aproximaciones de segundo orden (Hessiano)

🛡️ Regularización: L1 y L2 incorporadas

🎯 Precisión: Excelente en datos tabulares

📈 Ventajas Competitivas

  • Alto rendimiento en competencias
  • 🔍Detección de patrones complejos
  • 🎛️Flexibilidad en hiperparámetros
  • 📊Interpretabilidad de features

🔧 Configuración Detallada

Parámetro Valor Propósito
learning_rate 0.1 Controla la contribución de cada árbol
max_depth 6 Profundidad máxima de los árboles
n_estimators 100 Número de árboles en el ensamblaje
subsample 0.8 Fracción de muestras usadas por árbol
colsample_bytree 0.8 Fracción de características usadas por árbol
reg_alpha 0.1 Regularización L1 (Lasso)
reg_lambda 1.0 Regularización L2 (Ridge)

⚠️ XGBoost: Vulnerabilidades e Impacto

🔍 Vulnerabilidades Identificadas

🧠 Dependencia de Patrones Específicos

XGBoost depende de relaciones complejas entre variables que se alteran con la anonimización

📉 Pérdida de Granularidad

La discretización de montos y tiempo rompe los gradientes óptimos que necesita XGBoost

🔀 Alteración de Correlaciones

Las relaciones entre variables se modifican sustancialmente con las técnicas de anonimización

📉 Reducción de Información

Menos datos distintivos disponibles para construir árboles eficaces

📊 Impacto de la Anonimización

Sensibilidad:
-20.94%
F1-Score:
-19.90%
Cumplimiento: ALTO
Riesgo: MEDIO
Utilidad: CRÍTICA

🏆 Ranking de Modelos

📊 Rendimiento Post-Anonimización

Ranking Modelo F1-Score Original F1-Score Anonimizado Degradación Evaluación
🥇 1º Random Forest 86.76% 84.74% -2.02% Excelente
🥈 2º XGBoost 86.33% 66.43% -19.90% Vulnerable
🥉 3º Regresión Logística 52.46% 54.86% +2.40% Base insuficiente

🏅 Campeón: Random Forest

  • ✓ Robustez excepcional (-2.02%)
  • ✓ Mantiene 97.7% del rendimiento
  • ✓ Ideal para producción GDPR

⚠️ Desafío: XGBoost

  • ⚡ Alto rendimiento original
  • 🔴 Degradación significativa (-19.90%)
  • 🔧 Requiere optimización avanzada

🔍 Causas de la Degradación

  • 🔗Dependencia de patrones específicos: XGBoost aprende relaciones granulares
  • 📊Agrupación k-anonimato: Altera distribuciones de features
  • Gradient boosting sensible: Construcción secuencial afectada

💡 Estrategias de Optimización

  • 🎛️Hiperparameter tuning: Ajuste específico post-anonimización
  • 🔧Feature engineering: Variables derivadas preservando utilidad
  • 📈Ensemble híbrido: Combinación con Random Forest

🎯 Conclusiones

  • Cumplimiento GDPR alcanzable: Es posible anonimizar datos financieros para cumplir con la regulación europea
  • ⚖️Trade-off inevitable: Existe una tensión inherente entre privacidad y utilidad de los datos
  • 🏆Random Forest superior: Mantiene 97.7% del rendimiento con pérdida mínima (-2.02% F1-Score)
  • ⚠️XGBoost vulnerable: Degradación significativa (-19.90%) requiere técnicas más sofisticadas
  • 🎯Contexto específico: La efectividad depende del tipo de datos y aplicación particular
  • 📊Monitoreo continuo: Sistemas de supervisión son esenciales para mantener el equilibrio privacidad-utilidad

📈 Implicaciones Prácticas

84%
Empresas necesitan ajustes GDPR
+35%
Inversión en privacidad
92%
Aumento confianza usuarios

💡 Recomendaciones y Cierre

🏦 Para Empresas Financieras

  • 🛡️Implementar privacidad por diseño
  • 📊Evaluación continua de riesgos
  • 🎓Formación en GDPR y IA
  • 🔍Auditorías regulares

👨‍💻 Para Desarrolladores

  • 🤖Arquitecturas privacy-preserving
  • 🌐Federated learning
  • 🔢Differential privacy nativa
  • 🛠️Herramientas de validación

¡Gracias por su atención!

"El futuro de la IA depende de nuestra capacidad para innovar respetando la privacidad"

📧 Email: dalexx07.28@gmail.com

💼 LinkedIn: David González

🐙 GitHub: gonzalezvdavid