
Anonimización de datos personales y cumplimiento del GDPR en datos generados por modelos de lenguaje de gran escala (LLMs)
Autores:
Ing. Armando Rubén Ita Silva
Ing. Daniel Alexis Mendoza Corne
Ing. David Alexander González Vásquez
Tutor: Prof. D. Desirée Delgado Linares
Universidad: UNIE Universidad
Fecha: Junio 2025
Madrid, España
📋 Agenda de la Presentación
- 🤖LLMs: Definición y Aplicaciones
- ⚠️Riesgos de Privacidad en LLMs
- 🎯Objetivos del Estudio
- ⚖️Marco Legal: GDPR
- 📊Dataset: PaySim1
- ⚖️Comparación de Técnicas con Justificación Legal
- 🔬Metodología: CRISP-DM
- 📊Métricas de Evaluación
- ⚙️XGBoost: Configuración Detallada
- ⚠️XGBoost: Vulnerabilidades e Impacto
- 🏆Ranking de Modelos
- 🎯Conclusiones
- 💡Recomendaciones y Cierre
🤖 LLMs: Definición y Aplicaciones
📝 ¿Qué son los LLMs?
Los Modelos de Lenguaje de Gran Escala (LLMs) son sistemas de IA entrenados con enormes cantidades de texto para generar contenido similar al humano. Aplicados en finanzas para análisis de riesgo crediticio, detección de fraude y atención automatizada.
💰 Aplicaciones Financieras
- 💳Análisis de riesgo crediticio
- 🚨Detección de fraude
- 🤝Atención al cliente automatizada
- 📊Análisis de sentimientos
- 📈Predicción de mercados
⚠️ Riesgos de Privacidad en LLMs
Principales Riesgos
- 🧠Memorización: Datos personales específicos
- 🎯Prompt injection: Extracción maliciosa
- 🔍Inferencia: Deducción de atributos
- ⚖️GDPR: Violaciones normativas
🚨 Impacto Crítico en Finanzas
Reidentificación de usuarios, filtración de datos bancarios, pérdidas económicas y sanciones GDPR hasta €20M o 4% del volumen de negocio anual.
📉 Impacto en la Confianza
🎯 Objetivos del Estudio
🔍 Objetivo General
Desarrollar y validar un marco integral de evaluación que permita analizar el grado de cumplimiento del GDPR cuando se utilizan modelos de lenguaje de gran escala (LLMs) en escenarios financieros simulados, aplicando técnicas avanzadas de anonimización sobre el conjunto de datos PaySim1.
📋 Objetivos Específicos
- 📚Analizar riesgos de privacidad en LLMs
- 🔬Diseñar metodología de evaluación GDPR
- 📊Implementar técnicas de anonimización
- 🤖Entrenar modelos de detección ML
- 📈Evaluar impacto en utilidad del modelo
- ⚖️Analizar trade-offs privacidad-utilidad
- 📱Diseñar dashboard de monitoreo GDPR
- 💡Formular recomendaciones prácticas
⚖️ Marco Legal: GDPR
📜 Reglamento General de Protección de Datos (GDPR)
🎯 Principios Clave
- Minimización de datos
- Privacidad por diseño
- Derecho al olvido
- Consentimiento explícito
💰 Sanciones
Multas de hasta €20 millones o 4% del volumen de negocio anual mundial.
🔍 Impacto en IA
Necesidad de técnicas de anonimización efectivas para el uso seguro de datos en modelos de IA.
🔒 Técnicas de Anonimización
🔐 SHA-256
Variables: nameOrig, nameDest
Función hash criptográfica para transformación irreversible de identificadores únicos.
🔢 k-anonimato (k=10)
Aplicación: Combinación de atributos
Cada registro es indistinguible de al menos k-1 otros registros en atributos quasi-identificadores.
🌈 l-diversidad (l=2)
Aplicación: Atributos sensibles
Cada grupo de k registros debe tener al menos l valores distintos para atributos sensibles.
📊 Privacidad Diferencial
Aplicación: Ruido controlado
Añade ruido estadístico controlado para limitar la información sobre individuos específicos.
📊 Dataset: PaySim1
Características del Dataset
📝 Origen: Simulador de transacciones financieras móviles
📈 Volumen: 6.3M transacciones, 11 variables
⏱️ Duración: 744 horas simuladas
🚨 Fraude: 0.13% casos positivos
⚠️ Riesgo GDPR: nameOrig, nameDest
🛡️ Protección: Identificadores únicos sensibles
🔍 Distribución de Datos
📋 Variables Clave
Variable | Tipo | Sensibilidad GDPR |
---|---|---|
nameOrig | Identificador | Alta |
nameDest | Identificador | Alta |
amount | Numérico | Media |
step | Temporal | Baja |
⚖️ Comparación de Técnicas con Justificación Legal
📜 Fundamentación Legal de las Técnicas
Técnica | Variable Objetivo | Justificación Legal (GDPR) |
---|---|---|
SHA-256 | nameOrig, nameDest | Art. 4(5) - Transformación irreversible de identificadores |
Agrupación temporal | step (tiempo) | Art. 5(1)(c) - Minimización de datos |
Rangos de montos | amount, oldbalance, newbalance | Art. 25 - Privacidad por diseño |
k-anonimato (k=10) | Combinación de atributos | Considerando 31 - Prevención de reidentificación |
l-diversidad (l=2) | Atributos sensibles | Art. 25 - Protección de datos sensibles |
Privacidad Diferencial | Datos numéricos | Art. 32 - Seguridad del tratamiento |
📌 Cumplimiento GDPR
🔬 Metodología: CRISP-DM
📊 Proceso CRISP-DM
Objetivos GDPR
PaySim1
Anonimización
ML Algorithms
Métricas
🤖 Algoritmos Evaluados
🌲 Random Forest
Tipo: Ensemble - Bagging
Ventajas: Robusto, resistente al overfitting
Configuración: 100 árboles, max_depth=10
⚡ XGBoost
Tipo: Ensemble - Gradient Boosting
Ventajas: Alto rendimiento, optimización avanzada
Configuración: learning_rate=0.1, max_depth=6
📊 Regresión Logística
Tipo: Modelo lineal
Ventajas: Interpretable, línea base
Configuración: L2 regularization, C=1.0
📊 Métricas de Evaluación
Métricas Clave
Métrica | Fórmula | Significado |
---|---|---|
Precisión (Precision) | TP / (TP + FP) | Proporción de predicciones positivas correctas |
Sensibilidad (Recall) | TP / (TP + FN) | Proporción de casos positivos identificados correctamente |
Exactitud (Accuracy) | (TP + TN) / (TP + TN + FP + FN) | Proporción total de predicciones correctas |
F1-Score | 2 * (Prec * Rec) / (Prec + Rec) | Media armónica entre precisión y sensibilidad |
AUC-ROC | Área bajo la curva | Capacidad de distinguir entre clases positivas y negativas |
🔄 Pipeline de Anonimización
⚙️ XGBoost: Configuración Detallada
⚙️ Características Técnicas
🔄 Gradient Boosting: Construcción secuencial de árboles
📊 Optimización: Aproximaciones de segundo orden (Hessiano)
🛡️ Regularización: L1 y L2 incorporadas
🎯 Precisión: Excelente en datos tabulares
📈 Ventajas Competitivas
- ⚡Alto rendimiento en competencias
- 🔍Detección de patrones complejos
- 🎛️Flexibilidad en hiperparámetros
- 📊Interpretabilidad de features
🔧 Configuración Detallada
Parámetro | Valor | Propósito |
---|---|---|
learning_rate | 0.1 | Controla la contribución de cada árbol |
max_depth | 6 | Profundidad máxima de los árboles |
n_estimators | 100 | Número de árboles en el ensamblaje |
subsample | 0.8 | Fracción de muestras usadas por árbol |
colsample_bytree | 0.8 | Fracción de características usadas por árbol |
reg_alpha | 0.1 | Regularización L1 (Lasso) |
reg_lambda | 1.0 | Regularización L2 (Ridge) |
⚠️ XGBoost: Vulnerabilidades e Impacto
🔍 Vulnerabilidades Identificadas
🧠 Dependencia de Patrones Específicos
XGBoost depende de relaciones complejas entre variables que se alteran con la anonimización
📉 Pérdida de Granularidad
La discretización de montos y tiempo rompe los gradientes óptimos que necesita XGBoost
🔀 Alteración de Correlaciones
Las relaciones entre variables se modifican sustancialmente con las técnicas de anonimización
📉 Reducción de Información
Menos datos distintivos disponibles para construir árboles eficaces
📊 Impacto de la Anonimización
🏆 Ranking de Modelos
📊 Rendimiento Post-Anonimización
Ranking | Modelo | F1-Score Original | F1-Score Anonimizado | Degradación | Evaluación |
---|---|---|---|---|---|
🥇 1º | Random Forest | 86.76% | 84.74% | -2.02% | Excelente |
🥈 2º | XGBoost | 86.33% | 66.43% | -19.90% | Vulnerable |
🥉 3º | Regresión Logística | 52.46% | 54.86% | +2.40% | Base insuficiente |
🏅 Campeón: Random Forest
- ✓ Robustez excepcional (-2.02%)
- ✓ Mantiene 97.7% del rendimiento
- ✓ Ideal para producción GDPR
⚠️ Desafío: XGBoost
- ⚡ Alto rendimiento original
- 🔴 Degradación significativa (-19.90%)
- 🔧 Requiere optimización avanzada
🔍 Causas de la Degradación
- 🔗Dependencia de patrones específicos: XGBoost aprende relaciones granulares
- 📊Agrupación k-anonimato: Altera distribuciones de features
- ⚡Gradient boosting sensible: Construcción secuencial afectada
💡 Estrategias de Optimización
- 🎛️Hiperparameter tuning: Ajuste específico post-anonimización
- 🔧Feature engineering: Variables derivadas preservando utilidad
- 📈Ensemble híbrido: Combinación con Random Forest
🎯 Conclusiones
- ✅Cumplimiento GDPR alcanzable: Es posible anonimizar datos financieros para cumplir con la regulación europea
- ⚖️Trade-off inevitable: Existe una tensión inherente entre privacidad y utilidad de los datos
- 🏆Random Forest superior: Mantiene 97.7% del rendimiento con pérdida mínima (-2.02% F1-Score)
- ⚠️XGBoost vulnerable: Degradación significativa (-19.90%) requiere técnicas más sofisticadas
- 🎯Contexto específico: La efectividad depende del tipo de datos y aplicación particular
- 📊Monitoreo continuo: Sistemas de supervisión son esenciales para mantener el equilibrio privacidad-utilidad
📈 Implicaciones Prácticas
💡 Recomendaciones y Cierre
🏦 Para Empresas Financieras
- 🛡️Implementar privacidad por diseño
- 📊Evaluación continua de riesgos
- 🎓Formación en GDPR y IA
- 🔍Auditorías regulares
👨💻 Para Desarrolladores
- 🤖Arquitecturas privacy-preserving
- 🌐Federated learning
- 🔢Differential privacy nativa
- 🛠️Herramientas de validación
¡Gracias por su atención!
"El futuro de la IA depende de nuestra capacidad para innovar respetando la privacidad"
📧 Email: dalexx07.28@gmail.com
💼 LinkedIn: David González
🐙 GitHub: gonzalezvdavid