Pure Storage introduit Data Stream, une solution full stack pour préparer et connecter les données à l’architecture de référence IA de Nvidia.
Pure Storage a présenté Data Stream. Il s’agit d’une pile matérielle et logicielle intégrée conçue pour aider les entreprises à connecter leurs données aux applications d’IA. La solution automatise la collecte, le nettoyage et la structuration des données, permettant aux organisations de former et de déployer des modèles d’IA dans une étape ultérieure.
Selon Pure Storage, une grande partie du temps que les entreprises consacrent aux projets d’IA est dédiée à la préparation des données. Pure Storage estime que cela peut représenter jusqu’à quatre-vingts pour cent du temps total du projet. Data Stream vise à simplifier ce processus en connectant automatiquement les pipelines de données à l’architecture IA, où le stockage et les GPU collaborent directement.
Partie intégrante de la plateforme de données
Data Stream fait partie de la plateforme de données Pure Storage et est aligné sur l’utilisation d’inférence en entreprise avec la plateforme de données IA Nvidia comme conception de référence. Data Stream prend en charge l’ingestion et la structuration de données en temps réel à partir de diverses sources, telles que des fichiers texte, des PDF et des tableaux. La solution offre un accès multiprotocole (NFS, S3, SMB) et peut être intégrée aux bases de données vectorielles sur Pure Storage FlashBlade//S.
Data Stream travaille en étroite collaboration avec Nvidia NeMo Retriever pour convertir les données brutes en représentations vectorielles que les systèmes d’IA peuvent utiliser pour comprendre le contexte et les relations. Cette approche soutient des applications telles que la Retrieval Augmented Generation (RAG). Grâce à l’intégration avec NVIDIA NIM, les organisations peuvent exécuter des charges de travail IA sur une infrastructure locale ou dans le cloud via des API standardisées.
GPU Nvidia
De plus, Data Stream utilise des pipelines optimisés pour GPU basés sur le Nvidia RTX Pro 6000 Blackwell Server Edition et des bibliothèques logicielles telles que Nvidia Spark Rapids et cuVS. La combinaison avec FlashBlade//S vise à éviter les goulots d’étranglement de calcul et à améliorer les performances de traitement des données.
Enfin, Data Stream traite les données directement au niveau du stockage, ce qui, selon Pure Storage, réduit le nombre de mouvements de données. La sortie est stockée dans des formats tels que JSON, Apache Parquet ou Arrow, adaptés au stockage vectoriel évolutif et aux ensembles de données RAG à grande échelle.
