En octobre 2023, Apple a reporté le déploiement de fonctionnalités avancées de Siri, suscitant des interrogations sur la valeur de son intelligence artificielle. Selon Bloomberg, la firme évolue vers une formation de modèles d’IA plus personnelle, exploitant des données synthétiques tout en préservant la vie privée des utilisateurs.

Le mois dernier, **Apple** a reporté le déploiement de ses fonctionnalités Siri plus personnalisées et puissantes. Pour rectifier le tir en vue des futures mises à jour d’**Apple Intelligence**, **Bloomberg** met en lumière une évolution dans la manière dont **Apple** entraîne ses modèles d’intelligence artificielle.
Le rapport souligne un article de blog sur le site de recherche de **Apple Machine Learning**, expliquant que **Apple** utilise généralement des données synthétiques pour entraîner ses modèles d’IA. Cependant, cette stratégie présente des limitations, notamment la difficulté pour les données synthétiques à « comprendre des tendances » concernant des fonctionnalités telles que les résumés ou les outils d’écriture qui fonctionnent sur des phrases plus longues ou des messages d’e-mail entiers.
Pour remédier à cette limitation, **Apple** met en avant une nouvelle technologie qu’elle commencera bientôt à utiliser. Cette technologie compare les données synthétiques à un petit échantillon d’e-mails récents d’utilisateurs, tout en préservant leur vie privée :
Pour améliorer nos modèles, nous devons générer un ensemble d’e-mails couvrant des sujets les plus courants dans les messages. Pour créer un ensemble représentatif d’e-mails synthétiques, nous commençons par créer un grand nombre de messages synthétiques sur une variété de sujets. Par exemple, nous pourrions créer un message synthétique tel que, « Voudriez-vous jouer au tennis demain à 11h30 ? »
Cela se fait sans aucune connaissance des e-mails individuels des utilisateurs. Nous dérivons ensuite une représentation, appelée embedding, de chaque message synthétique qui capture certaines dimensions clés du message comme la langue, le sujet et la longueur. Ces embeddings sont ensuite envoyés à un petit nombre de dispositifs d’utilisateurs qui ont choisi de participer à l’**Analytics des appareils**.
Les dispositifs participants sélectionnent alors un petit échantillon d’e-mails récents d’utilisateurs et calculent leurs embeddings. Chaque dispositif décide ensuite quels embeddings synthétiques sont les plus proches de ces échantillons. En utilisant la **vie privée différentielle**, **Apple** peut alors apprendre quels sont les embeddings synthétiques les plus souvent sélectionnés sur tous les dispositifs, sans découvrir quel embedding synthétique a été sélectionné sur un dispositif donné.
Ces embeddings synthétiques les plus souvent sélectionnés peuvent ensuite être utilisés pour générer des données d’entraînement ou de test, ou nous pouvons effectuer des étapes de curation supplémentaires pour affiner davantage le jeu de données. Par exemple, si le message concernant le tennis est l’un des meilleurs embeddings, un message similaire remplaçant « tennis » par « football » ou un autre sport pourrait être généré et ajouté au jeu pour le prochain cycle de curation. Ce processus nous permet d’améliorer les sujets et le langage de nos e-mails synthétiques, ce qui aide à entraîner nos modèles à produire de meilleurs résultats de texte dans des fonctionnalités telles que les résumés d’e-mails, tout en protégeant la vie privée.
**Apple** explique que ces techniques lui permettent de « comprendre les tendances globales, sans apprendre d’informations sur des individus. **Bloomberg** affirme que **Apple** déploiera ce nouveau système dans une future version bêta d’**iOS 18.5** et de **macOS 15.5**.
Pour plus de détails, vous pouvez consulter le blog de **Apple**.
Mon avis :
L’approche d’Apple visant à améliorer son intelligence artificielle tout en préservant la confidentialité des utilisateurs est louable, mais soulève des questions sur la valeur ajoutée perçue par les utilisateurs. Bien que la méthodologie de génération de données synthétiques promette une meilleure personnalisation, l’efficacité réelle de ces nouvelles fonctionnalités, prévue pour iOS 18.5 et macOS 15.5, reste à prouver.
Les questions fréquentes :
Quelle est la nouvelle approche d’Apple pour l’entraînement de ses modèles d’intelligence artificielle ?
Apple a annoncé qu’elle commencerait à utiliser une nouvelle technologie qui compare les données synthétiques à un petit échantillon d’e-mails récents des utilisateurs, sans compromettre leur vie privée. Cela permet à Apple de mieux comprendre les tendances et d’améliorer ses modèles d’IA.
Comment Apple garantit-elle la confidentialité des utilisateurs dans ce processus ?
Apple utilise un concept appelé « confidentialité différentielle » qui permet de tirer des conclusions sur des données agrégées sans obtenir d’informations sur des e-mails spécifiques d’un utilisateur donné. Cela signifie que les modèles d’IA peuvent s’améliorer sans compromettre la confidentialité des utilisateurs impliqués.
Quand Apple prévoit-elle de déployer ce nouveau système ?
Selon Bloomberg, Apple prévoit de déployer ce système dans une future version bêta d’iOS 18.5 et macOS 15.5.
Quels avantages cela apporte-t-il aux utilisateurs d’Apple ?
Cette nouvelle approche vise à améliorer la qualité des résultats fournis par des fonctionnalités telles que les résumés d’e-mails. En affinant les sujets et le langage des e-mails synthétiques, Apple espère offrir une expérience utilisateur plus riche tout en maintenant une forte protection de la vie privée.