Microsoft travaille sur un LLM pour les feuilles de calcul

Les chercheurs de Microsoft ont développé un nouveau LLM pour mieux appliquer l’IA dans les feuilles de calcul telles qu’Excel et Google Sheets.

Des chercheurs de Microsoft ont publié un document de recherche proposant un LLM expérimental conçu spécifiquement pour les feuilles de calcul sous le nom original de SpreadsheetLLM. Les LLM existants ne peuvent pas interpréter les données structurées, notamment en raison de la limite des jetons. Le SpreadsheetLLM expérimental utilise un nouveau mécanisme d’encodage où le contenu d’une feuille de calcul est placé dans un nouveau format qui est plus lisible par le LLM. Le modèle est encore en phase expérimentale, mais les premiers résultats sont positifs.

Une méthode adaptée au LLM

Les feuilles de calcul sont largement utilisées dans le monde des affaires : elles vont des simples formules aux modèles financiers complexes. Cependant, les LLM existants ne peuvent pas interpréter la nature de ces données et de ces formules complexes. Soucieux de relever ce défi, des chercheurs de Microsoft ont mis au point un LLM dédié aux feuilles de calcul.

Pour que les LLM puissent mieux interpréter la nature structurée des données dans les feuilles de calcul, les chercheurs ont développé un nouveau mécanisme d’encodage appelé « SheetCompressor ». Grâce à cette méthode, les données sont encodées d’une manière adaptée aux LLM tout en préservant la structure et les relations des données.

Outre SheetCompressor, les chercheurs mentionnent une autre fonctionnalité, à savoir l’« extraction d’ancrage structurel », qui identifie les lignes et les colonnes essentielles qui définissent les structures des tableaux. De plus, la méthode de « traduction par index inversé » permet d’encoder efficacement le contenu et les adresses des cellules afin de minimiser la redondance.

Le potentiel

Les essais ont montré que SpreadsheetLLM a obtenu des résultats positifs dans le test de détection des tableaux de feuilles de calcul, dépassant les méthodes existantes de 12,3 %. SpreadsheetLLM a été appliqué à plusieurs LLM bien connus, tels que GPT-3.5, GPT-4 et Llama 2. Les chercheurs ont constaté que la capacité de ces modèles à interpréter les feuilles de calcul était améliorée. Ainsi, GPT-4 a obtenu un score de 78,9 % pour la détection des tableaux.

Le potentiel de ce modèle ne fait aucun doute pour les chercheurs, même si les formats de feuilles de calcul plus complexes posent actuellement des problèmes. SpreadsheetLLM pourrait effectuer des tâches automatisées ou rendre les feuilles de calcul plus accessibles aux personnes qui ont des difficultés à les utiliser.

SpreadsheetLLM est actuellement un projet de recherche. Aucun autre projet n’a encore été annoncé par Microsoft pour lancer ce modèle dans le monde entier.

Cookie	Duration	Description
__gads	1 year 24 days	Le cookie __gads, défini par Google, est stocké sous le domaine DoubleClick et permet de suivre le nombre de fois où les utilisateurs voient une publicité, de mesurer le succès de la campagne et de calculer ses revenus. Ce cookie ne peut être lu qu'à partir du domaine sur lequel il est installé et ne permet pas de suivre les données lors de la navigation sur d'autres sites.
_ga	2 years	Il s'agit d'un cookie de base de Google Analytics permettant d'identifier les utilisateurs de notre site Web. Par défaut, nous utilisons une version limitée de Google Analytics avant que les cookies ne soient acceptés. Les données y sont rendues anonymes et les fonctions de marketing sont désactivées.
_gid	1 day	Il s'agit d'un cookie de base de Google Analytics permettant d'identifier les utilisateurs de notre site Web. Par défaut, nous utilisons une version limitée de Google Analytics avant que les cookies ne soient acceptés. Les données y sont rendues anonymes et les fonctions de marketing sont désactivées.
cli_user_preference	1 year	Ce cookie garantit le bon fonctionnement de notre notification de cookies. Vos préférences sont stockées dans un cookie, afin que nous le sachions lors de votre prochaine visite.
CONSENT	2 years	YouTube place ce cookie via les vidéos YouTube intégrées et enregistre des données statistiques anonymes.
cookielawinfo*	1 year	Ce cookie garantit que notre notification de cookies fonctionne correctement. Vos préférences sont enregistrées dans un cookie afin que nous sachions quand vous nous rendrez visite la prochaine fois.
IDE	1 year 24 days	Les cookies Google DoubleClick IDE sont utilisés pour stocker des informations sur la façon dont l'utilisateur utilise le site web afin de lui présenter des annonces pertinentes et en fonction de son profil.
itdaily_lang	1 year	Ce cookie est nécessaire pour masquer la notification du pays. La notification du pays est affichée lorsque vous visitez le site web à partir d'un pays. C'est pourquoi nous proposons également une édition spécifique de ITdaily. Vous pouvez masquer cette notification grâce à ce cookie.
itdaily_theme	1 year	Ce cookie enregistre si vous voulez activer la version darkmode ou normale.
PHPSESSID	1 day	Ce cookie provient d'applications PHP standard. Le cookie est utilisé pour stocker et identifier une session d'utilisateur. Il s'agit d'un cookie de session qui est immédiatement supprimé lorsque vous fermez le navigateur.
test_cookie	15 minutes	Le test_cookie est défini par doubleclick.net et est utilisé pour déterminer si le navigateur de l'utilisateur prend en charge les cookies.
viewed_cookie_policy	1 year	Ce cookie garantit le bon fonctionnement de notre notification de cookies. Vos préférences sont enregistrées dans un cookie afin que nous puissions connaître votre prochaine visite.
wordpress_*	30 days	Wordpress utilise plusieurs cookies pour que le site web fonctionne correctement, par exemple pour permettre à l'équipe éditoriale de se connecter.
wp-*	1 day	Wordpress utilise plusieurs cookies pour que le site web fonctionne correctement, par exemple pour permettre à l'équipe éditoriale de se connecter.

Cookie	Duration	Description
_li_id.*	2 years	Ce cookie est utilisé par Leadinfo pour garder la trace des profils qui visitent ITdaily. Nous ne pouvons pas identifier les visiteurs individuels sur la base de ces statistiques.
_li_ses.*	30 minutes	Ce cookie est utilisé par Leadinfo pour garder la trace des profils qui visitent ITdaily. Nous ne pouvons pas identifier les visiteurs individuels sur la base de ces statistiques.
itdaily_views	1 hour	Ce cookie est utilisé par notre propre système pour suivre les utilisateurs sur le site web.

Cookie	Duration	Description
_li_id.*	2 years	Ce cookie est utilisé par Leadinfo pour garder la trace des profils qui visitent ITdaily. Nous ne pouvons pas identifier les visiteurs individuels sur la base de ces statistiques.
_li_ses.*	30 minutes	Ce cookie est utilisé par Leadinfo pour garder la trace des profils qui visitent ITdaily. Nous ne pouvons pas identifier les visiteurs individuels sur la base de ces statistiques.
VISITOR_INFO1_LIVE	5 months 27 days	Un cookie défini par YouTube pour mesurer la bande passante qui détermine si l'utilisateur obtient la nouvelle ou l'ancienne interface du lecteur.
YSC	session	Le cookie YSC est défini par YouTube et est utilisé pour suivre les vues des vidéos intégrées dans les pages YouTube.

Microsoft travaille sur un LLM pour les feuilles de calcul

Une méthode adaptée au LLM

Le potentiel

actualités liées

newsletter