“Federated Learning accelerates model development while protecting privacy.”

Data Science and Machine Learning Trends You Can’t Ignore, September 2021​

Federated Learning: A managed process for combining models trained separately on separate data sets that can be used for sharing intelligence between devices, systems, or firms to overcome privacy, bandwidth, or computational limits.“

Five Key Advances Will Upgrade AI To Version 2.0 For Enterprises, February 2021​

While Federated Learning is a nascent technology, it is highly promising and can enable companies to realize transformative strategic business benefits. ​"FL is expected to make significant strides forward and transform enterprise business outcomes responsibly.”

Ritu Jyoti, group vice president, Artificial Intelligence Research at IDC.​

“Federated Learning: AI's new weapon to ensure privacy.

A little-known AI method can train on your health data without threatening your privacy, March 2019​

“Federated Learning allows AI algorithms to travel and train on distributed data that is retained by contributors. This technique has been used to train machine-learning algorithms to detect cancer in images that are retained in the databases of various hospital systems without revealing sensitive patient data.

The New Tech Tools in Data Sharing, March 2021​

Aprendizaje
Federado

El aprendizaje federado es un paradigma de Machine Learning que permite entrenar modelos con datos distribuidos en diferentes sistemas o nodos (por ejemplo, datos ubicados en los smartphones, hospitales o bancos), al tiempo que garantiza la privacidad de los datos.

Esto se logra entrenando modelos localmente en cada nodo (por ejemplo, en cada hospital, en cada banco o en cada smartphone) y compartiendo solo los parámetros actualizados del modelo y agregándolos de forma segura para construir un mejor modelo global (los datos nunca salen del nodo y por lo tanto nunca se comparte).

Después de años de investigación, Sherpa.ai ha desarrollado la plataforma de aprendizaje federado más avanzada para la privacidad de datos, que incorpora tecnologías complementarias privacy-enhancing (p. ej., privacidad diferencial, cifrado homomórfico, computación multiparte segura).

SOLUCIÓN TRADICIONAL

federated learning profile picture
  • Mas riesgo de violación de privacidad.
  • No cumple con la regulación.
  • El control de datos se pierde una vez que sale del servidor.
  • Gran superficie de ataque.

SOLUCIÓN TRADICIONAL

federated learning profile picture
  • Maximiza el potencial de los modelos colaborativos sin compartir datos privados.
  • Privacy by design.
  • Cumplimiento normativo: los datos nunca salen del servidor de las partes involucradas.
  • Menor riesgo de violaciones de privacidad. La superficie de ataque se reduce.
  • Transparencia sobre cómo se entrenan los modelos y cómo se utilizan los datos.

¿CUÁNDO AYUDA EL APRENDIZAJE FEDERADO EN EL ENTRENAMIENTO DE MODELOS?

El aprendizaje federado es disruptivo en los casos en que es obligatorio garantizar la privacidad de los datos, ya que no es necesario compartirlos,

Cuando los datos contienen información confidencial o sensible, como información médica protegida, registros financieros o cualquier otra información privada que identifique a la persona.

Sin embargo, un mejor uso de los datos disponibles tendría un gran impacto para mejorar los procesos o resolver desafíos importantes como las enfermedades raras.

Cuando los datos no se pueden usar o compartir por razones regulatorias. Esto es común en sectores altamente regulados como los servicios financieros o el sector salud.

Sin embargo, un mayor uso de los datos disponibles tendría un gran impacto en mejora de procesos o resolución de retos importantes como la cura de enfermedades.

Cuando diferentes organizaciones quieren aprovechar sus datos sin compartirlos.

Por ejemplo, dos organizaciones competidoras podrían resolver un problema común a través del entrenamiento de modelos de forma colaborativa, pero no están dispuestas a compartir datos privados entre sí por razones competitivas. El Aprendizaje Federado permite el entrenamiento de modelos de forma colaborativa sin compartir datos.

FEDERATED LEARNING GENERATIONS

schema of federated learning generations

EL RETO DEL ENTRENAMIENTO CON DATOS HETERÓGENOS

En el Aprendizaje Federado Horizontal los datos son homogéneos. Esto significa que los diferentes conjuntos de datos comparten las mismas características, pero difieren en el tamaño de la muestra. Por tanto, un mismo modelo puede ser compartido entre las partes y entrenado de forma colaborativa.

En la mayoría de los escenarios reales, este no es así; ya que diferentes nodos normalmente contendrían datos heterogéneos, lo que significa que los datos difieren en características. Esto implica que no se puede utilizar el mismo modelo y hay que desarrollar nuevas técnicas.

Sherpa.ai permite el entrenamiento con datos heterogéneos ya que el Aprendizaje Federado Vertical y el Aprendizaje Federado “Transfer” están integrados en la plataforma.

PARADIGMAS DE APRENDIZAJE FEDERADO

PARA DATOS HOMOGÉNEOS
PARA DATOS HETEROGÉNEOS

APRENDIZAJE FEDERADO HORIZONTAL​

schema of horizontal federated learning

Aprendizaje Federado Horizontal, es el enfoque utilizado cuando los conjuntos de datos comparten las mismas características, pero difieren en el tamaño de la muestra. Se usa cuando una organización tiene datos consistentes en muchas ubicaciones, pero no puede moverlos o compartirlos por motivos regulatorios.

En el Aprendizaje Federado Horizontal, se puede usar el mismo modelo para entrenar con los diferentes conjuntos de datos.

Casos de uso: El Aprendizaje Federado Horizontal se usaría en el diagnóstico de enfermedades, cuando no hay suficientes datos en una organización y se requiere que diferentes partes colaboren para desarrollar un modelo suficientemente preciso.

APRENDIZAJE FEDERADO VERTICAL​

schema of vertical federated learning

El Aprendizaje Federado Vertical se aplica cuando dos organizaciones tienen datos con usuarios en común pero características comunes limitadas.

El Aprendizaje Federado Vertical permite entrenar modelos de IA con datos heterogéneos, donde diferentes nodos tienen conjuntos de datos con usuarios comunes pero con características diferentes. Con datos heterogéneos, no se puede utilizar el mismo modelo y se deben desarrollar nuevas técnicas.

Casos de uso: Dos tipos diferentes de empresas en la misma área pueden tener los mismos usuarios; sin embargo, las características de datos que posee cada uno difieren. Por ejemplo, un banco tendría registros de crédito mientras que una empresa de telecomunicaciones tendría un historial de navegación.

APRENDIZAJE FEDERADO TRANSFER​

schema of federated transfer learning

El Aprendizaje Federado Transfer se usa cuando dos partes quieren usar los datos de la otra parte pero tienen muy pocos clientes o entidades de datos comunes.

El Aprendizaje Federado Transfer permite aprender de los datos comunes y luego selecciona entidades de datos adicionales que se ajustan al espacio de características comunes y permite que el modelo aprenda de ellas. El Aprendizaje Federado Transfer se usa en áreas de aplicación similares al Aprendizaje Federado Vertical, donde los usuarios comunes son muy limitados.

Casos de uso: Dos compañías de seguros podrían mejorar la detección de fraude, entrenando modelos a través del Aprendizaje Federado, de modo que ambas compañías tuvieran un algoritmo predictivo de alta precisión, pero no compartirían sus datos comerciales con la otra parte.

schema of federated coming soon
PRÓXIMAMENTE

SISTEMA DE PRIVACIDAD Y SEGURIDAD DE DOS CAPAS

  • Sherpa.ai ha desarrollado un sistema de seguridad y privacidad de dos capas:
    • Aprendizaje Federado: los datos nunca se comparten, únicamente los parámetros.
    • Otras tecnologías de mejora de la privacidad (PET) integradas: privacidad diferencial (DP) en todos los niveles, desde datos, parámetros y agregadores, computación segura de múltiples partes, cifrado homomórfico, confianza cero en el conocimiento, entre otras.
  • La combinación de estos dos principios crea un sistema de privacidad y seguridad de dos capas, ya que los datos nunca se comparten, pero también las actualizaciones de parámetros están protegidas a través de diferentes tecnologías de mejora de la privacidad.
    two layers

    LOS DATOS NUNCA SE COMPARTEN
    APRENDIZAJE FEDERADO

    La plataforma de privacidad diseñada por Sherpa.ai garantiza que los datos nunca estén expuestos.

    El Aprendizaje Federado de Sherpa.ai permite el entrenamiento de modelos de IA sin compartir datos.

    Solo se comparten los parámetros que contribuyen al desarrollo del modelo global.

    LOS PARÁMETROS ESTÁN PROTEGIDOS
    TECNOLOGÍAS QUE MEJORAN LA PRIVACIDAD (PETS)

    El Aprendizaje Federado no es suficiente. Por lo tanto, Sherpa.ai ha desarrollado una plataforma que incorpora tecnologías complementarias de mejora de la privacidad (Privacidad Diferencial, Computación Segura Multi-parte Segura o el Cifrado Homomórfico, entre otras) para garantizar la solidez de la plataforma.

    La plataforma de Sherpa.ai tiene un potencial revolucionario para sectores altamente regulados como el sector salud o los servicios financieros, donde la privacidad y el cumplimiento normativo son esenciales. Al agregar tecnologías complementarias para garantizar la privacidad, Sherpa.ai abre nuevos escenarios de colaboración entre organizaciones.

    TECNOLOGÍAS PRIVACY-PRESERVING
    (PETs)

    El aprendizaje federado no es suficiente. Por lo tanto, Sherpa.ai ha desarrollado una plataforma que incorpora tecnologías complementarias de mejora de la privacidad (privacidad diferencial, computación multi parte segura o cifrado homomórfico, entre otras) para garantizar la solidez de la plataforma.

    La plataforma de Sherpa.ai tiene un potencial revolucionario para sectores fuertemente regulados como el de la atención médica o los servicios financieros, donde la privacidad y el cumplimiento normativo son esenciales. Al agregar tecnologías complementarias para garantizar que se mantenga la privacidad, Sherpa.ai abre nuevos escenarios de desarrollo y colaboración entre organizaciones.

    La privacidad diferencial es una técnica estadística para proporcionar agregaciones de datos, evitando la fuga de registros de datos individuales. Esta técnica garantiza que los agentes maliciosos que intervienen en la comunicación de parámetros locales no puedan rastrear esta información hasta las fuentes de datos, lo que agrega una capa adicional de privacidad de datos.

    PRIVACIDAD DIFERENCIAL POR ENCIMA DE TODO

    La privacidad diferencial a nivel de datos es la implementación más común y limitante. No proporciona un buen equilibrio entre precisión y privacidad, lo que hace que el entrenamiento de modelos sea extremadamente complejo, cuando no imposible.

    El enfoque de privacidad diferencial por encima de todo de Sherpa.ai proporciona un compromiso empírico de última generación entre precisión y privacidad. Con el uso de la Privacidad Diferencial, nos aseguramos de que no se puedan obtener datos enmascarando la información original con ruido controlado y adaptativo, manteniendo el rendimiento del algoritmo predictivo. Esto evita que agentes malintencionados obtengan, rastreen o deduzcan datos de los clientes incluso con técnicas de ingeniería inversa.

    diferencial-privacy
    A NIVEL DE AGREGADOR

    Solo Sherpa.ai puede agregar ruido a nivel de agregación sin disminuir la precisión del modelo.

    A NIVEL DE PARÁMETROS DEL MODELO

    Se puede agregar ruido a nivel de parámetro creando una cancelación parcial de ruido a nivel de agregación

    . El mecanismo de cálculo de sensibilidad avanzado de Sherpa.ai implica un análisis local preciso de los datos para ajustar el nivel de ruido óptimo que se aplicará

    A NIVEL DE DATOS

    Implementación más común y limitante. No proporciona un buen equilibrio entre precisión y privacidad, lo que hace que el entrenamiento del modelo sea extremadamente complejo o imposible y daña la naturaleza de los datos.

    Un desafío en el Aprendizaje Federado Vertical es reducir la gran cantidad de comunicaciones en un escenario distribuido.

    Blind Learning es una funcionalidad fundamental para el Aprendizaje Federado con datos heterogéneos.

    Con Blind Learning se reducen más del 99% el número de comunicaciones, con los siguientes beneficios:

    • Costes más bajos
    • Menor riesgo de filtraciones de datos, lo que mejora enormemente la seguridad y la privacidad
    • Menor consumo energético y reducción de huella de carbono

      El cifrado homomórfico es una clase específica de esquemas de cifrado que permite a los usuarios ejecutar ciertas operaciones en los datos mientras los datos permanecen en su estado cifrado. Homomórfico es un término del álgebra avanzada que habla de la relación de preservación de la estructura entre el texto sin formato y los datos cifrados. Dado que los resultados de la computación en datos/texto cifrado son idénticos a los de datos/texto sin cifrar, estas funciones pueden considerarse como homomorfismos.

      Con el cifrado homomórfico de Sherpa.ai, uno puede realizar algunos cálculos en la nube utilizando datos, pero conservando la privacidad. Al usar HE, puede enviar la versión cifrada de sus datos a la nube, realizar el cálculo allí y recuperar el resultado cifrado que puede descifrar más adelante.

      Todos estos pasos no requieren que el cliente permanezca conectado. (Beneficio HE). Entonces, las ideas principales sobre HE son: Se utiliza en la agregación de los parámetros. Las principales ventajas son que esta agregación se realiza utilizando los parámetros cifrados y el número de comunicaciones es muy bajo en comparación con otras técnicas de defensa.

      hemomorphic-encryption

      La computación segura multi-parte (Secure Multi Party Computation, SMPC) es un subcampo de la criptografía con el objetivo de crear métodos para que las partes calculen conjuntamente una función sobre sus entradas mientras mantienen esas entradas privadas.

      A diferencia de las tareas criptográficas tradicionales, donde la criptografía garantiza la seguridad y la integridad de la comunicación o el almacenamiento y el adversario está fuera del sistema de los participantes (un espía del remitente y el receptor), la criptografía en este modelo protege la privacidad de los participantes entre sí, lo que hace mucho más más difícil corromper a los participantes.

      Sherpa.ai ha desarrollado un protocolo criptográfico que distribuye el cómputo de datos de diferentes fuentes para garantizar que nadie pueda ver los datos de otros, sin la necesidad de confiar en un tercero.

      Al hacer esto, se garantiza que los datos confidenciales de su empresa estén protegidos, sin socavar su capacidad para adquirir toda la información necesaria a partir de estos datos.

      schema of secure multi party computation

      Cuando los conjuntos de datos se distribuyen entre varias organizaciones, la identificación de las entidades correspondientes se convierte en un problema.

      Con el uso de técnicas criptográficas de vanguardia, la sincronización e identificación de estos conjuntos de datos es posible mientras se protege la privacidad y se mantiene la precisión de los modelos entrenados.

      Intersección de conjunto privado de datos (Private Set Intersection, PSI) determina la intersección de muestras de todas las partes. Los alinea comparando identificadores cifrados/encriptados (por ejemplo, nombre completo, número de documento de identidad… o combinación de varios identificadores). Nuestra tecnología de punta, basada en la separación de n-gramas, puede superar los errores tipográficos en los identificadores. Sin embargo, PSI hace que los identificadores de la intersección sean visibles para todas las partes, lo que puede ser problemático en algunos casos.

      PSI revela membresía de intersección que está prohibida en la mayoría de los escenarios del mundo real. Unión de conjunto de datos privados (Private Set Union, PSU) permite que cada parte mantenga información confidencial para sí misma. PSU no revela los miembros de la intersección.

      La prueba de conocimiento cero (Zero-Knowledge Proof, ZKP) es un método de encriptación que permite verificar información específica a otra parte sin revelar la información en sí.

      ZKP se aplica a la defensa contra ataques de inferencia en la Intersección de Conjunto Privado de datos (PSI). Con PSI, dos organizaciones pueden calcular la intersección de sus datos cifrados sin compartirlos. No se revela ningún contenido excepto los elementos que forman parte de la intersección.

      OTRAS TECNOLOGÍAS INTEGRADAS

      Sherpa.ai aborda el problema de los datos sesgados de forma personalizada y se ajusta perfectamente a la singularidad de cada cliente utilizando técnicas innovadoras que preservan el aprendizaje global y adaptan el conocimiento a cada individuo. Esto se logra modificando dinámicamente las funciones de pérdida del dispositivo en cada ronda de aprendizaje para que el modelo resultante sea imparcial hacia cualquier usuario.

      two silhouettes of men faced; the man on the left has thumbs up and the man of the right has thumbs down

      Los datos sintéticos sirven como una forma de proteger la privacidad de los datos. Muchas veces, los datos reales contienen información privada y confidencial del usuario que no se puede compartir libremente. Para preservar esta privacidad, se toman diferentes enfoques que a menudo resultan en la omisión de datos que conduce a una pérdida general de información y utilidad.

      La tecnología de Sherpa.ai hace uso de la generación avanzada de datos sintéticos para eliminar las lagunas de seguridad, como la membresía. Con esta solución no convencional, se gana la capacidad de alejarse del uso de métodos estándar, lo que reduce en gran medida los costos de comunicación sin degradar la precisión del modelo predictivo. Esto genera la capacidad de obtener la estructura subyacente y mostrar la misma distribución estadística de los datos originales, haciéndolos indistinguibles de los reales.

      schema of synthetic data generation;  on the left side, a representation of the data of two different parties and its synthetic data created and on the right side, a three dimensional representation of the variables client, features and samples

      DEFENSAS CONTRA
      ATAQUES ADVERSARIALES

      Se han desarrollado soluciones técnicas para abordar las vulnerabilidades específicas de la IA para prevenir y controlar los ataques que intentan manipular el conjunto de datos de entrenamiento, las entradas diseñadas para hacer que el modelo cometa un error o las fallas del modelo.

      Los modelos de aprendizaje federado, si no se evitan, se pueden engañar para que proporcionen predicciones incorrectas y puedan dar cualquier resultado deseado. El proceso de diseñar una entrada de una manera específica para obtener un resultado incorrecto es un ataque adversario. Estos ataques tienen como objetivo inferir información de los datos de entrenamiento.

      Se han desarrollado soluciones técnicas para abordar las vulnerabilidades específicas de la IA para prevenir y controlar los ataques que intentan manipular el conjunto de datos de entrenamiento, las entradas diseñadas para hacer que el modelo cometa un error o las fallas del modelo.

      La mejor manera de comprobar si una defensa es satisfactoria es probarla con diferentes tipos de ataques. Por ello, se han diseñado una amplia gama de ataques para comprobar que los modelos son completamente privados.

      schema of defense against data attacks

      Los ataques de inferencia de membresía crean fugas que perjudican la preservación de la privacidad. Gracias al potencial de Sherpa.ai en Privacidad Diferencial se han desarrollado modelos de defensa capaces de proteger la identidad de los datos. Por lo tanto, se han eliminado los ataques de inferencia destinados a revelar quién es el propietario de los datos utilizados para entrenar un modelo de aprendizaje.

      Cumpliendo en todo momento con los requisitos organizativos y garantizando la privacidad de los datos, de acuerdo con la legislación vigente.

      schema of defense against membership inference attacks

      Los ataques de envenenamiento persiguen comprometer el modelo de entrenamiento global. Aquí, los usuarios malintencionados inyectan datos de entrenamiento falsos con el objetivo de corromper el modelo aprendido, lo que afecta el rendimiento y la precisión del modelo.

      Los ataques bizantinos perjudican el rendimiento del modelo en general y lo dañan hasta que se vuelve defectuoso. Por lo tanto, es crucial hacer que los modelos de aprendizaje federado sean resistentes a estas fallas donde los datos se comportan de manera caprichosa.

      Con los mecanismos avanzados de Sherpa.ai se asegura la defensa del modelo federado frente a ataques maliciosos destinados a reducir el rendimiento del modelo. Por tanto, la protección se basa en la identificación de aquellos clientes con un comportamiento anómalo para evitar que participen en el proceso de agregación.

      schema of defense against byzantine attacks

      El objetivo de estos ataques es inyectar sigilosamente una tarea secundaria en el modelo global. Esto hace que los clientes adversarios sean doblemente atacados y, por lo tanto, las actualizaciones del modelo de aprendizaje difieren de las actualizaciones de los clientes no malintencionados.

      Se han establecido algoritmos sin precedentes capaces de anular los ataques de puerta trasera. Con esta tecnología se consigue un aumento del rendimiento y seguridad de sus modelos.

      schema of defense against backdoor attacks

      QUOTES DE
      NUESTRO EQUIPO

      Hemos alcanzado los niveles más altos en la implementación de algoritmos para la plataforma de Inteligencia Artificial con privacidad de datos de Sherpa.ai, con las metodologías más avanzadas de la matemática aplicada

      profile picture of enrique zuazua

      Enrique Zuazua, Ph.D.

      Senior Associate Researcher in Algorithms of Sherpa.ai

      • Chair Professor at FAU (Germany)
      • Alexander von Humboldt Award
      • Considerado el mejor del mundo en matemáticas aplicadas

      Sherpa está liderando el modo en el que se construirán las soluciones de inteligencia artificial, preservando la privacidad del usuario en todas sus formas

      profile picture of tom gruber

      Tom Gruber

      Chief AI Strategy Officer at Sherpa.ai

      • Co-founder and CTO of Siri
      • Head of Siri Advanced Development Group at Apple

      ¿CÓMO SE COMPARA
      SHERPA.AI CON OTRAS SOLUCIONES?

      Sherpa.ai se compara favorablemente con otras tecnologías de la competencia. Hemos elaborado una tabla para ayudarte a comprender como se compara Sherpa.ai con otras soluciones en el mercado.

      how does screenshot

      CONTACTA CON SHERPA.AI

      Maximiza el valor de los datos y la IA con la plataforma Privacy-Preserving de Sherpa.ai

      Contacto
      sherpa keynote