La solution LLM (grand modèle de langage) « IA dans une boîte » de capteurs utiles fonctionne hors ligne avec une confidentialité totale et exploite le NPU du processeur Rockchip RK3588S pour une IA conversationnelle similaire à ChatGPT mais sans connexion Internet ni enregistrement requis.
Le prototype de la boîte AI repose actuellement sur du matériel disponible dans le commerce, en particulier le Radxa ROCK 5A SBC avec 8 Go de RAM, logé dans un boîtier en plastique, et le code s’appuie sur des modèles open source comme le modèle de synthèse vocale Whisper et le langage Llama2. des modèles.
Outre l’IA conversationnelle où vous pouvez interagir avec la box comme si vous parliez à une personne, l’IA in a Box peut également être utile pour d’autres cas d’usage :
- Sous-titres en direct – La boîte peut afficher des sous-titres/sous-titres pour un événement en direct ou aider dans les situations où les gens ont du mal à entendre une conversation en utilisant l’entrée audio.
- Traduction en direct – Il peut également traduire diverses langues presque en temps réel. Sélectionnez simplement les langues source et cible et vous verrez des sous-titres sur écran partagé montrant l’entrée originale et les résultats de la traduction automatique.
- Confidentialité totale – Le Radxa ROCK 5A n’est pas livré avec WiFi et Bluetooth par défaut, et bien qu’il y ait un port Ethernet sur la carte, il n’a pas besoin d’être connecté puisqu’une connexion Internet n’est pas requise. Le logiciel a fourni toutes les données localement pour une confidentialité totale des conversations ou des documents sensibles.
- Mode clavier – Le boîtier peut être utilisé comme clavier USB lorsqu’il est connecté à un autre hôte tel qu’un Raspberry Pi. Il peut donc être utilisé pour transcrire des fichiers audio ou des vidéos au format texte.
La société a développé la bibliothèque Useful Transformers axée sur les processeurs à faible coût et à faible consommation d’énergie pour exécuter l’inférence en périphérie, et la première implémentation optimise le modèle parole-texte Whisper d’OpenAI pour le processeur RK3588(s). Vous pouvez le trouver sur GitHub.
Le graphique ci-dessus montre les performances de la bibliothèque Useful Transformers en utilisant le modèle tiny.en Whisper qui transcrit la parole à des vitesses en temps réel 30x et deux fois plus rapides que l’implémentation la plus connue. (chuchotement plus rapide). Le graphique montre que la plupart des inférences ont lieu dans un délai de 500 ms à 2 secondes.
Le matériel actuellement fonctionnel est un kit prototype avec un Rasxa ROCK 5A logé dans un boîtier en plastique, connecté à un écran HDMI, un haut-parleur USB et un microphone USB.
Mais le produit final sera une solution entièrement fermée avec un SoC Rockchip RK3588S, 8 Go de RAM, un écran, des haut-parleurs et un microphone intégrés, ainsi qu’un
boîtier personnalisé. Le système d’exploitation utilisé est Ubuntu 22.04.
Useful Sensors vient de lancer AI in a Box sur Crowd Supply avec un objectif de financement de 30 000 $. Les récompenses commencent à 299 $ pour le produit final qui sera expédié d’ici le 31 janvier 2024 et à 475 $ pour le kit prototype AI in a Box avec le ROCK 5A, le boîtier, l’écran et d’autres accessoires avec une livraison prévue d’ici le 1er décembre 2023 pour les personnes qui le souhaitent. pour expérimenter plus tôt avec LLM sur le processeur Rockchip RK3588S. L’expédition coûte 8 $ aux États-Unis et 18 $ dans le reste du monde.

Merci à TLS pour le conseil.
Retrouvez l’histoire de Raspberry Pi dans cette vidéo :
