¿Qué es el sesgo de IA y de dónde viene?

El sesgo de IA ocurre cuando los modelos producen resultados sistemáticamente injustos para ciertos grupos. Proviene principalmente de datos de entrenamiento sesgados (reflejando discriminación histórica), selección de características sesgada (usando proxies para atributos protegidos) y etiquetado sesgado (prejuicios humanos en anotaciones).

¿Cómo se mide la equidad en machine learning?

Las métricas comunes incluyen paridad demográfica (tasas iguales de predicción positiva), odds equalizados (tasas iguales de verdaderos/falsos positivos entre grupos) y equidad individual (individuos similares obtienen resultados similares). La métrica correcta depende del contexto.

¿Qué es IA explicable (XAI)?

La IA explicable se refiere a técnicas que hacen las decisiones de modelos ML comprensibles para humanos. Los métodos incluyen valores SHAP, LIME, visualización de atención y modelos inherentemente interpretables. La explicabilidad es crucial para construir confianza e identificar errores.

¿Cuándo deberían los humanos estar en el loop para decisiones de IA?

La supervisión humana es esencial para decisiones de alto riesgo que afectan salud, seguridad, finanzas o derechos civiles. También se necesita cuando la confianza del modelo es baja, cuando las decisiones son irreversibles o cuando el sistema opera en situaciones novedosas fuera de su distribución de entrenamiento.

IA Responsable: Construyendo Sistemas de Machine Learning Éticos

A medida que los sistemas de IA influyen cada vez más en decisiones consecuentes—contratación, préstamos, salud, justicia penal—construirlos responsablemente no es opcional. Es un requisito de ingeniería. Esta guía proporciona enfoques prácticos que funcionan en sistemas de producción.

El Marco de IA Responsable

┌─────────────────────────────────────────────────────────────────┐
│              Ciclo de Vida de Desarrollo de IA Responsable       │
├─────────────────────────────────────────────────────────────────┤
│                                                                  │
│   ┌─────────┐    ┌─────────┐    ┌─────────┐    ┌─────────┐    │
│   │ Enmarcar│    │Recolectar│   │ Entrenar│    │Desplegar│    │
│   │ Problema│ →  │  Datos   │ → │  Modelo │ → │ Monitorear│   │
│   └────┬────┘    └────┬────┘    └────┬────┘    └────┬────┘    │
│        │              │              │              │           │
│        ▼              ▼              ▼              ▼           │
│   ┌─────────────────────────────────────────────────────────┐  │
│   │               Consideraciones Éticas                     │  │
│   ├─────────────────────────────────────────────────────────┤  │
│   │ • ¿Quién se beneficia? • ¿Consentimiento? • ¿Sesgo?     │  │
│   │ • ¿Quién es dañado?   • ¿Representativo? • ¿Explicable? │  │
│   │ • ¿Alternativas?      • ¿Privacidad?     • ¿Supervisión?│  │
│   └─────────────────────────────────────────────────────────┘  │
│                                                                  │
└─────────────────────────────────────────────────────────────────┘

Insight Clave

La deuda ética se acumula como la deuda técnica. Abordar preocupaciones de equidad después del despliegue es órdenes de magnitud más difícil que construirlas desde el inicio.

Entendiendo el Sesgo

Tipos de Sesgo en Sistemas de ML

Según Mehrabi et al. (2021), el sesgo en sistemas de IA puede categorizarse como:

Tipo de Sesgo	Descripción	Ejemplo
Histórico	Los datos de entrenamiento reflejan discriminación pasada	Aprobaciones de préstamos basadas en decisiones históricamente sesgadas
Representación	Ciertos grupos subrepresentados en datos	Reconocimiento facial entrenado mayormente en rostros de piel clara
Medición	Características medidas diferente entre grupos	Scores de crédito que penalizan comportamientos comunes en ciertas comunidades
Agregación	Un modelo para subpoblaciones distintas	Un solo modelo de riesgo de diabetes para diferentes grupos étnicos
Evaluación	Datos de prueba no representativos	Datasets de benchmark que no reflejan diversidad del mundo real
Despliegue	Modelo usado para poblaciones no intencionadas	Herramienta entrenada en adultos aplicada a niños

Detectando Sesgo

import pandas as pd
from fairlearn.metrics import MetricFrame
from sklearn.metrics import accuracy_score, precision_score, recall_score
 
def audit_model_fairness(
    y_true: pd.Series,
    y_pred: pd.Series,
    sensitive_features: pd.DataFrame
) -> dict:
    """
    Auditoría completa de equidad entre grupos demográficos.
    """
 
    # Calcular métricas entre grupos
    metrics = {
        'accuracy': accuracy_score,
        'precision': precision_score,
        'recall': recall_score,
        'selection_rate': lambda y_t, y_p: y_p.mean(),
    }
 
    results = {}
 
    for feature_name in sensitive_features.columns:
        metric_frame = MetricFrame(
            metrics=metrics,
            y_true=y_true,
            y_pred=y_pred,
            sensitive_features=sensitive_features[feature_name]
        )
 
        results[feature_name] = {
            'by_group': metric_frame.by_group.to_dict(),
            'differences': metric_frame.difference().to_dict(),
            'ratios': metric_frame.ratio().to_dict(),
            'overall': metric_frame.overall.to_dict()
        }
 
        # Señalar disparidades significativas
        for metric_name, ratio in metric_frame.ratio().items():
            if ratio < 0.8:  # Regla del 80% comúnmente usada en empleo
                print(f"ADVERTENCIA: {feature_name} - ratio de {metric_name} = {ratio:.2f}")
 
    return results

Explicabilidad

Valores SHAP para Importancia de Características

import shap
 
def explain_prediction(model, instance, feature_names, background_data):
    """Generar explicación SHAP para una sola predicción."""
 
    # Crear explicador
    explainer = shap.Explainer(model, background_data)
 
    # Calcular valores SHAP para esta instancia
    shap_values = explainer(instance)
 
    # Crear diccionario de explicación
    explanation = {
        'prediction': model.predict(instance)[0],
        'base_value': explainer.expected_value,
        'feature_contributions': dict(zip(
            feature_names,
            shap_values.values[0]
        ))
    }
 
    return explanation
 
def generate_explanation_text(explanation: dict) -> str:
    """Convertir explicación SHAP a texto legible."""
    text = f"Predicción: {'Aprobado' if explanation['prediction'] == 1 else 'Denegado'}\n\n"
    text += "Factores clave:\n"
 
    for feature, contribution in explanation['top_factors']:
        direction = "aumentó" if contribution > 0 else "disminuyó"
        text += f"  • {feature}: {direction} la probabilidad en {abs(contribution):.2f}\n"
 
    return text

Diseño Humano-en-el-Loop

Enrutamiento Basado en Confianza

from dataclasses import dataclass
from enum import Enum
 
class DecisionPath(Enum):
    AUTOMATIC = "automático"
    HUMAN_REVIEW = "revisión_humana"
    ESCALATION = "escalación"
 
def route_decision(
    prediction: int,
    confidence: float,
    explanation: dict,
    is_high_stakes: bool = False
) -> PredictionWithConfidence:
    """
    Enrutar predicciones basado en confianza y riesgo.
    """
 
    # Decisiones de alto riesgo siempre obtienen revisión humana
    if is_high_stakes:
        return PredictionWithConfidence(
            prediction=prediction,
            confidence=confidence,
            explanation=explanation,
            decision_path=DecisionPath.HUMAN_REVIEW,
            review_reason="Decisión de alto riesgo requiere aprobación humana"
        )
 
    # Predicciones de baja confianza necesitan revisión
    if confidence < 0.7:
        return PredictionWithConfidence(
            prediction=prediction,
            confidence=confidence,
            explanation=explanation,
            decision_path=DecisionPath.HUMAN_REVIEW,
            review_reason=f"Baja confianza ({confidence:.2f})"
        )
 
    # Alta confianza, caso normal - puede proceder automáticamente
    return PredictionWithConfidence(
        prediction=prediction,
        confidence=confidence,
        explanation=explanation,
        decision_path=DecisionPath.AUTOMATIC
    )

Conclusión

La IA responsable no es una casilla de verificación—es una práctica continua:

Entiende el impacto - Conoce a quién afecta tu sistema y cómo
Prueba para sesgo - Mide proactivamente la equidad entre grupos
Explica las decisiones - Haz el comportamiento del modelo comprensible
Mantén supervisión - Humanos en el loop para decisiones de alto riesgo
Monitorea continuamente - La equidad puede degradarse con el tiempo
Documenta todo - Model cards y rastros de auditoría

El objetivo no es equidad perfecta—eso es frecuentemente matemáticamente imposible. El objetivo es diligencia demostrada: mostrar que has pensado cuidadosamente sobre los impactos y tomado pasos razonables para mitigar daños.

Referencias

Mehrabi, N., Morstatter, F., Saxena, N., Lerman, K., & Galstyan, A. (2021). A survey on bias and fairness in machine learning. ACM Computing Surveys, 54(6), 1-35. https://doi.org/10.1145/3457607

Mitchell, M., Wu, S., Zaldivar, A., Barnes, P., Vasserman, L., Hutchinson, B., Spitzer, E., Raji, I. D., & Gebru, T. (2019). Model cards for model reporting. Proceedings of the Conference on Fairness, Accountability, and Transparency, 220-229. https://arxiv.org/abs/1810.03993

Barocas, S., Hardt, M., & Narayanan, A. (2023). Fairness and machine learning: Limitations and opportunities. MIT Press. https://fairmlbook.org/

¿Construyendo sistemas de IA con decisiones de alto riesgo? Contáctame para discutir prácticas de IA responsable.

IA Responsable: Construyendo Sistemas de Machine Learning Éticos

El Marco de IA Responsable

Entendiendo el Sesgo

Tipos de Sesgo en Sistemas de ML

Detectando Sesgo

Explicabilidad

Valores SHAP para Importancia de Características

Diseño Humano-en-el-Loop

Enrutamiento Basado en Confianza

Conclusión

Referencias

Frequently Asked Questions

Artículos Relacionados

Construyendo Sistemas RAG en Producción: Lecciones de IA en Salud

Mejores Prácticas de Ingeniería de Prompts para LLMs en Producción

No te pierdas nada

Osvaldo Restrepo