“Federated Learning accelerates model development while protecting privacy.”

Data Science and Machine Learning Trends You Can’t Ignore, September 2021​

Federated Learning: A managed process for combining models trained separately on separate data sets that can be used for sharing intelligence between devices, systems, or firms to overcome privacy, bandwidth, or computational limits.“

Five Key Advances Will Upgrade AI To Version 2.0 For Enterprises, February 2021​

While Federated Learning is a nascent technology, it is highly promising and can enable companies to realize transformative strategic business benefits. ​"FL is expected to make significant strides forward and transform enterprise business outcomes responsibly.”

Ritu Jyoti, group vice president, Artificial Intelligence Research at IDC.​

“Federated Learning: AI's new weapon to ensure privacy.

A little-known AI method can train on your health data without threatening your privacy, March 2019​

“Federated Learning allows AI algorithms to travel and train on distributed data that is retained by contributors. This technique has been used to train machine-learning algorithms to detect cancer in images that are retained in the databases of various hospital systems without revealing sensitive patient data.

The New Tech Tools in Data Sharing, March 2021​

Aprendizaje
Federado

El aprendizaje federado es un paradigma de Machine Learning que permite entrenar modelos con datos distribuidos en diferentes sistemas o nodos (por ejemplo, datos ubicados en los smartphones, hospitales o bancos), al tiempo que garantiza la privacidad de los datos.

Esto se logra entrenando modelos localmente en cada nodo (por ejemplo, en cada hospital, en cada banco o en cada smartphone) y compartiendo solo los parámetros actualizados del modelo y agregándolos de forma segura para construir un mejor modelo global (los datos nunca salen del nodo y por lo tanto nunca se comparte).

Después de años de investigación, Sherpa.ai ha desarrollado la plataforma de aprendizaje federado más avanzada para la privacidad de datos, que incorpora tecnologías complementarias privacy-enhancing (p. ej., privacidad diferencial, cifrado homomórfico, computación multiparte segura).

SOLUCION TRADICIONAL

federated learning profile picture
  • Mas riesgo de violación de privacidad.
  • No cumple con la regulación.
  • El control de datos se pierde una vez que sale del servidor.
  • Gran superficie de ataque.

SOLUCIÓN DE APRENDIZAJE FEDERADO DE SHERPA.AI

federated learning profile picture
  • Maximiza el potencial de los modelos colaborativos sin compartir datos privados.
  • Privacy by design.
  • Cumplimiento normativo: los datos nunca salen del servidor de las partes involucradas.
  • Menor riesgo de violaciones de privacidad. La superficie de ataque se reduce.
  • Transparencia sobre cómo se entrenan los modelos y cómo se utilizan los datos.

¿CUÁNDO AYUDA EL APRENDIZAJE FEDERADO EN EL ENTRENAMIENTO DE MODELOS?

El aprendizaje federado es disruptivo en los casos en que es obligatorio garantizar la privacidad de los datos, ya que no es necesario compartirlos,

Cuando los datos contienen información confidencial o sensible, como información médica protegida, registros financieros o cualquier otra información privada que identifique a la persona.

Sin embargo, un mejor uso de los datos disponibles tendría un gran impacto para mejorar los procesos o resolver desafíos importantes como las enfermedades raras.

When data can’t be used or shared for regulatory reasons. This is common in heavily regulated sectors like Financial Services or Healthcare.

However, a better use of data available would make a huge impact to improve processes or solve major challenges like rare diseases.

When different organizations want to take advantage of their data without sharing it.

For example, two competitive organizations could solve a common problem through collaborative model training, but they are not willing to share proprietary data with each other for competitive reasons. Federated Learning enables collaborative model training without sharing data.

FEDERATED LEARNING GENERATIONS

schema of federated learning generations

EL RETO DEL ENTRENAMIENTO CON DATOS HETERÓGENOS

In Horizontal Federated Learning the data is homogeneous. This means that the different data sets share the same features but differ in sample size. Therefore, the same model can be shared between the parties, and it is trained collaboratively.

En la mayoría de los escenarios reales, este no es así; ya que diferentes nodos normalmente contendrían datos heterogéneos, lo que significa que los datos difieren en características. Esto implica que no se puede utilizar el mismo modelo y hay que desarrollar nuevas técnicas.

Sherpa.ai allows heterogeneous data training since Vertical Federated Learning and Federated Transfer Learning are integrated in the platform.

PARADIGMAS DE APRENDIZAJE FEDERADO

PARA DATOS HOMOGÉNEOS
PARA DATOS HETEROGÉNEOS

APRENDIZAJE FEDERADO HORIZONTAL​

schema of horizontal federated learning

Horizontal FL, it is the approach used when the data sets share the same feature space but differ in sample size. It’s used when an organization had consistent data across many locations but couldn’t for legal reason move or transfer it.

In Horizontal Federated Learning the same model can be used to train with the different data sets.

Use cases: Horizontal FL would be used in diagnosis of disease, when there isn’t enough training data in one organization and different parties are required to collaborate to develop as sufficiently accurate model.

APRENDIZAJE FEDERADO VERTICAL​

schema of vertical federated learning

Vertical FL allows two parties to take advantage of each other's data without sharing it. In this case, both parties leverage the customers, users, or data entities they have in common. A use case could involve a telco and a bank, where an algorithm is trained using data from both organizations without sharing it, to improve business processes, like fraud detection or defaulter’s prediction among others.

Use cases: A use case could involve a telco and a bank, where an algorithm is trained using data from both organizations without sharing it, to improve business processes, like fraud detection or defaulter’s prediction among others.

APRENDIZAJE FEDERADO TRANSFER​

schema of federated transfer learning

Transfer FL is used when two parties want to take advantage of each other’s data but have very few common customers or data entities. Transfer FL learns from the small common sample size and then selects additional common data entities which fit the common feature space and allows model to learn from them. Transfer FL is used in similar application areas to Vertical FL, where common users are very limited.

Use cases: Two insurance companies could improve fraud detection, training models through federated learning, so that both companies would have a highly accurate predictive algorithm, but they would not share their business data with the other party.

schema of federated coming soon
PRÓXIMAMENTE

TWO-LAYER PRIVACY AND SECURITY SYSTEM

  • Sherpa.ai has developed a two-layer privacy and security system:
    • Data is never shared – Sherpa.ai privacy-by-design platform ensures that data is never exposed. Only parameter updates are shared, and neither the orchestrator nor a single node can access data stored in another node.
    • Other Privacy-Enhancing Technologies (PETs) integrated – In the case of heavily regulated sectors like Financial Services or Healthcare, FL is not always enough to meet privacy and security compliance requirements. To meet said requirements, Sherpa.ai’s platform integrates with other PETs. Sherpa.ai applies Differential Privacy (DP) at all levels, from data, parameter, and aggregator, which increases the model’s accuracy while preserving privacy and security. Other technologies such as Secure Multi-party Computation, Homomorphic Encryption, Zero Knowledge Trust are also integrated to defend against poisoning, data, adversarial or inference attacks.
  • The combination of these two principles creates a two-layer privacy and security system as data is never shared but also parameter updates are protected through different Privacy-Enhancing Technologies
    two layers

    DATA IS NEVER SHARED
    FEDERATED LEARNING

    Federated Learning is not enough. Therefore Sherpa.ai has developed a platform that incorporates complementary Privacy-Enhancing Technologies (Differential Privacy, Secure Multi-party Computation or Homomorphic Encryption among others) to ensure robustness of the platform.

    Sherpa.ai's platform has revolutionary potential for heavily regulated sectors like Healthcare or Financial Services, where privacy as well as regulatory compliance are essential. By adding complementary technologies to ensure privacy is maintained, Sherpa.ai unlocks new scenarios of development and collaboration between organizations.

    PARAMETERS ARE PROTECTED
    PRIVACY-ENCHANCING TECNOLOGIES (PETs)

    Federated Learning is not enough. Therefore Sherpa.ai has developed a platform that incorporates complementary Privacy-Enhancing Technologies (Differential Privacy, Secure Multi-party Computation or Homomorphic Encryption among others) to ensure robustness of the platform.

    Sherpa.ai's platform has revolutionary potential for heavily regulated sectors like Healthcare or Financial Services, where privacy as well as regulatory compliance are essential. By adding complementary technologies to ensure privacy is maintained, Sherpa.ai unlocks new scenarios of development and collaboration between organizations.

    TECNOLOGÍAS PRIVACY-PRESERVING
    (PETs)

    El aprendizaje federado no es suficiente. Por lo tanto, Sherpa.ai ha desarrollado una plataforma que incorpora tecnologías complementarias de mejora de la privacidad (privacidad diferencial, computación multi parte segura o cifrado homomórfico, entre otras) para garantizar la solidez de la plataforma.

    La plataforma de Sherpa.ai tiene un potencial revolucionario para sectores fuertemente regulados como el de la atención médica o los servicios financieros, donde la privacidad y el cumplimiento normativo son esenciales. Al agregar tecnologías complementarias para garantizar que se mantenga la privacidad, Sherpa.ai abre nuevos escenarios de desarrollo y colaboración entre organizaciones.

    La privacidad diferencial es una técnica estadística para proporcionar agregaciones de datos, evitando la fuga de registros de datos individuales. Esta técnica garantiza que los agentes maliciosos que intervienen en la comunicación de parámetros locales no puedan rastrear esta información hasta las fuentes de datos, lo que agrega una capa adicional de privacidad de datos.

    PRIVACIDAD DIFERENCIAL POR ENCIMA DE TODO

    La privacidad diferencial a nivel de datos es la implementación más común y limitante. No proporciona un buen equilibrio entre precisión y privacidad, lo que hace que el entrenamiento de modelos sea extremadamente complejo, cuando no imposible.

    El enfoque de privacidad diferencial por encima de todo de Sherpa.ai proporciona un compromiso empírico de última generación entre precisión y privacidad. Con el uso de la Privacidad Diferencial, nos aseguramos de que no se puedan obtener datos enmascarando la información original con ruido controlado y adaptativo, manteniendo el rendimiento del algoritmo predictivo. Esto evita que agentes malintencionados obtengan, rastreen o deduzcan datos de los clientes incluso con técnicas de ingeniería inversa.

    diferencial-privacy
    A NIVEL DE AGREGADOR

    Solo Sherpa.ai puede agregar ruido a nivel de agregación sin disminuir la precisión del modelo.

    A NIVEL DE PARÁMETROS DEL MODELO

    Se puede agregar ruido a nivel de parámetro creando una cancelación parcial de ruido a nivel de agregación

    . El mecanismo de cálculo de sensibilidad avanzado de Sherpa.ai implica un análisis local preciso de los datos para ajustar el nivel de ruido óptimo que se aplicará

    A NIVEL DE DATOS

    Implementación más común y limitante. No proporciona un buen equilibrio entre precisión y privacidad, lo que hace que el entrenamiento del modelo sea extremadamente complejo o imposible y daña la naturaleza de los datos.

    A challenge in the standard Vertical Federated Learning is to reduce the huge number of communications in a distributed scenario

    Blind Learning is a fundamental functionality for Federated Learning for heterogeneous data, achieved through the generation of fake targets:

    Fake target generation obeys two principles:

    • Different fake targets are generated for each example (to enhance privacy);
    • There must be a general rule (working not only on available examples) to map a fake target to the corresponding real label (to let the trained model generalize well).

    With Blind Learning the number of communications are reduced by over 99%, with the following benefits:

    • Lower costs
    • Lower risk of data breaches which massively improves security and privacy
    • Lower energy consumption and carbon footprint

    El cifrado homomórfico es una clase específica de esquemas de cifrado que permite a los usuarios ejecutar ciertas operaciones en los datos mientras los datos permanecen en su estado cifrado. Homomórfico es un término del álgebra avanzada que habla de la relación de preservación de la estructura entre el texto sin formato y los datos cifrados. Dado que los resultados de la computación en datos/texto cifrado son idénticos a los de datos/texto sin cifrar, estas funciones pueden considerarse como homomorfismos.

    Con el cifrado homomórfico de Sherpa.ai, uno puede realizar algunos cálculos en la nube utilizando datos, pero conservando la privacidad. Al usar HE, puede enviar la versión cifrada de sus datos a la nube, realizar el cálculo allí y recuperar el resultado cifrado que puede descifrar más adelante.

    Todos estos pasos no requieren que el cliente permanezca conectado. (Beneficio HE). Entonces, las ideas principales sobre HE son: Se utiliza en la agregación de los parámetros. Las principales ventajas son que esta agregación se realiza utilizando los parámetros cifrados y el número de comunicaciones es muy bajo en comparación con otras técnicas de defensa.

    hemomorphic-encryption

    La computación segura multi-parte (Secure Multi Party Computation, SMPC) es un subcampo de la criptografía con el objetivo de crear métodos para que las partes calculen conjuntamente una función sobre sus entradas mientras mantienen esas entradas privadas.

    A diferencia de las tareas criptográficas tradicionales, donde la criptografía garantiza la seguridad y la integridad de la comunicación o el almacenamiento y el adversario está fuera del sistema de los participantes (un espía del remitente y el receptor), la criptografía en este modelo protege la privacidad de los participantes entre sí, lo que hace mucho más más difícil corromper a los participantes.

    Sherpa.ai ha desarrollado un protocolo criptográfico que distribuye el cómputo de datos de diferentes fuentes para garantizar que nadie pueda ver los datos de otros, sin la necesidad de confiar en un tercero.

    Al hacer esto, se garantiza que los datos confidenciales de su empresa estén protegidos, sin socavar su capacidad para adquirir toda la información necesaria a partir de estos datos.

    Cuando los conjuntos de datos se distribuyen entre varias organizaciones, la identificación de las entidades correspondientes se convierte en un problema.

    Con el uso de técnicas criptográficas de vanguardia, la sincronización e identificación de estos conjuntos de datos es posible mientras se protege la privacidad y se mantiene la precisión de los modelos entrenados.

    Intersección de conjunto privado de datos (Private Set Intersection, PSI) determina la intersección de muestras de todas las partes. Los alinea comparando identificadores cifrados/encriptados (por ejemplo, nombre completo, número de documento de identidad… o combinación de varios identificadores). Nuestra tecnología de punta, basada en la separación de n-gramas, puede superar los errores tipográficos en los identificadores. Sin embargo, PSI hace que los identificadores de la intersección sean visibles para todas las partes, lo que puede ser problemático en algunos casos.

    PSI revela membresía de intersección que está prohibida en la mayoría de los escenarios del mundo real. Unión de conjunto de datos privados (Private Set Union, PSU) permite que cada parte mantenga información confidencial para sí misma. PSU no revela los miembros de la intersección.

    La prueba de conocimiento cero (Zero-Knowledge Proof, ZKP) es un método de encriptación que permite verificar información específica a otra parte sin revelar la información en sí.

    ZKP se aplica a la defensa contra ataques de inferencia en la Intersección de Conjunto Privado de datos (PSI). Con PSI, dos organizaciones pueden calcular la intersección de sus datos cifrados sin compartirlos. No se revela ningún contenido excepto los elementos que forman parte de la intersección.

    OTRAS TECNOLOGÍAS INTEGRADAS

    Sherpa.ai aborda el problema de los datos sesgados de forma personalizada y se ajusta perfectamente a la singularidad de cada cliente utilizando técnicas innovadoras que preservan el aprendizaje global y adaptan el conocimiento a cada individuo. Esto se logra modificando dinámicamente las funciones de pérdida del dispositivo en cada ronda de aprendizaje para que el modelo resultante sea imparcial hacia cualquier usuario.

    two silhouettes of men faced; the man on the left has thumbs up and the man of the right has thumbs down

    Los datos sintéticos sirven como una forma de proteger la privacidad de los datos. Muchas veces, los datos reales contienen información privada y confidencial del usuario que no se puede compartir libremente. Para preservar esta privacidad, se toman diferentes enfoques que a menudo resultan en la omisión de datos que conduce a una pérdida general de información y utilidad.

    La tecnología de Sherpa.ai hace uso de la generación avanzada de datos sintéticos para eliminar las lagunas de seguridad, como la membresía. Con esta solución no convencional, se gana la capacidad de alejarse del uso de métodos estándar, lo que reduce en gran medida los costos de comunicación sin degradar la precisión del modelo predictivo. Esto genera la capacidad de obtener la estructura subyacente y mostrar la misma distribución estadística de los datos originales, haciéndolos indistinguibles de los reales.

    schema of synthetic data generation;  on the left side, a representation of the data of two different parties and its synthetic data created and on the right side, a three dimensional representation of the variables client, features and samples

    DEFENSAS CONTRA
    ATAQUES ADVERSARIALES

    Se han desarrollado soluciones técnicas para abordar las vulnerabilidades específicas de la IA para prevenir y controlar los ataques que intentan manipular el conjunto de datos de entrenamiento, las entradas diseñadas para hacer que el modelo cometa un error o las fallas del modelo.

    Los modelos de aprendizaje federado, si no se evitan, se pueden engañar para que proporcionen predicciones incorrectas y puedan dar cualquier resultado deseado. El proceso de diseñar una entrada de una manera específica para obtener un resultado incorrecto es un ataque adversario. Estos ataques tienen como objetivo inferir información de los datos de entrenamiento.

    Se han desarrollado soluciones técnicas para abordar las vulnerabilidades específicas de la IA para prevenir y controlar los ataques que intentan manipular el conjunto de datos de entrenamiento, las entradas diseñadas para hacer que el modelo cometa un error o las fallas del modelo.

    La mejor manera de comprobar si una defensa es satisfactoria es probarla con diferentes tipos de ataques. Por ello, se han diseñado una amplia gama de ataques para comprobar que los modelos son completamente privados.

    schema of defense against data attacks

    Los ataques de inferencia de membresía crean fugas que perjudican la preservación de la privacidad. Gracias al potencial de Sherpa.ai en Privacidad Diferencial se han desarrollado modelos de defensa capaces de proteger la identidad de los datos. Por lo tanto, se han eliminado los ataques de inferencia destinados a revelar quién es el propietario de los datos utilizados para entrenar un modelo de aprendizaje.

    Cumpliendo en todo momento con los requisitos organizativos y garantizando la privacidad de los datos, de acuerdo con la legislación vigente.

    schema of defense against membership inference attacks

    Los ataques de envenenamiento persiguen comprometer el modelo de entrenamiento global. Aquí, los usuarios malintencionados inyectan datos de entrenamiento falsos con el objetivo de corromper el modelo aprendido, lo que afecta el rendimiento y la precisión del modelo.

    Los ataques bizantinos perjudican el rendimiento del modelo en general y lo dañan hasta que se vuelve defectuoso. Por lo tanto, es crucial hacer que los modelos de aprendizaje federado sean resistentes a estas fallas donde los datos se comportan de manera caprichosa.

    Con los mecanismos avanzados de Sherpa.ai se asegura la defensa del modelo federado frente a ataques maliciosos destinados a reducir el rendimiento del modelo. Por tanto, la protección se basa en la identificación de aquellos clientes con un comportamiento anómalo para evitar que participen en el proceso de agregación.

    schema of defense against byzantine attacks

    El objetivo de estos ataques es inyectar sigilosamente una tarea secundaria en el modelo global. Esto hace que los clientes adversarios sean doblemente atacados y, por lo tanto, las actualizaciones del modelo de aprendizaje difieren de las actualizaciones de los clientes no malintencionados.

    Se han establecido algoritmos sin precedentes capaces de anular los ataques de puerta trasera. Con esta tecnología se consigue un aumento del rendimiento y seguridad de sus modelos.

    schema of defense against backdoor attacks

    QUOTES DE
    NUESTRO EQUIPO

    Hemos alcanzado los niveles más altos en la implementación de algoritmos para la plataforma de Inteligencia Artificial con privacidad de datos de Sherpa.ai, con las metodologías más avanzadas de la matemática aplicada

    profile picture of enrique zuazua

    Enrique Zuazua, Ph.D.

    Senior Associate Researcher in Algorithms of Sherpa.ai

    • Chair Professor at FAU (Germany)
    • Alexander von Humboldt Award
    • Considerado el mejor del mundo en matemáticas aplicadas

    Sherpa está liderando el modo en el que se construirán las soluciones de inteligencia artificial, preservando la privacidad del usuario en todas sus formas

    profile picture of tom gruber

    Tom Gruber

    Chief AI Strategy Officer at Sherpa.ai

    • Co-founder and CTO of Siri
    • Head of Siri Advanced Development Group at Apple

    ¿CÓMO SE COMPARA
    SHERPA.AI CON OTRAS SOLUCIONES?

    Sherpa.ai se compara favorablemente con otras tecnologías de la competencia. Hemos elaborado una tabla para ayudarte a comprender como se compara Sherpa.ai con otras soluciones en el mercado.

    how does screenshot

    CONTACTA CON SHERPA.AI

    Maximize the value of data and AI with Sherpa.ai’s Privacy-Enhancing solutions

    Contacto
    sherpa keynote