Databricks annonce la sortie de Dolly 2.0

Cette version est une amélioration du modèle Dolly, lancé il y a deux semaines. Dolly 2.0 est un modèle de langue de 12 milliards de paramètres basé sur la famille de modèles EleutherAI Pythia, qui a été entrainé sur un nouvel ensemble de données d'instructions de qualité supérieure générées par des êtres humains. Cette base de données a été créée en interne et comprenait 15 000 paires prompt/réponse de haute qualité spécialement conçues pour le réglage des modèles de langage de grande taille. Selon Databricks, cette base de données est la première base de données d'instructions générées par l'homme à être open source et spécialement conçue pour rendre les LLM interactifs comme ChatGPT. Elle a été conçue pour représenter une grande variété de comportements allant de la génération de contenu et du brainstorming à l'extraction et à la synthèse d'informations.

L'ensemble de données Dolly est disponible sous licence Creative Commons Attribution-ShareAlike 3.0 Unported License, ce qui signifie que tout le monde peut l'utiliser, le modifier ou l'étendre à des fins commerciales. De plus, Databricks a également rendu public le code d'entraînement, les données et les poids du modèle de Dolly 2.0, ce qui signifie que toute organisation peut créer, posséder et personnaliser des LLM puissants qui peuvent communiquer avec des personnes, sans avoir à payer pour l'accès à une API ou à partager des données avec des tiers.

Dolly 1.0 a été créé pour moins de 30 dollars à partir d'un ensemble de données créé par l'équipe de Stanford Alpaca à partir de l'API OpenAI, mais ce dernier était interdit à des fins commerciales selon les termes du contrat. En outre, selon Databricks, tous les modèles de suivi des instructions bien connus existants (Alpaca, Koala, GPT4All, Vicuna) souffrent de cette limitation. Par conséquent, la société a décidé de créer un nouvel ensemble de données pour permettre l'utilisation commerciale de ses modèles de LLM.

(Traduit et résumé avec l'aide de ChatGPT)

Autres articles

Databricks annonce la sortie de Dolly 2.0

Aujourd'hui, Databricks annonce la sortie de Dolly 2.0, le premier modèle de langage de grande taille (LLM) open source et adapté à des instructions humaines.

Databricks et Microsoft élargissent leur partenariat pour aider les entreprises à intégrer le contexte métier à l'IA d'entreprise

MARGO, Saint-Gobain et Databricks lancent “THE FORECAST GAMES”, un hackathon dédié à la prédiction des ventes

Celonis s'associe à Databricks pour optimiser une IA d'entreprise qui améliore en continu les opérations

Databricks et OpenAI annoncent un partenariat stratégique pour démocratiser l’IA de dernière génération grâce à Databricks Agent Bricks

Qlik renforce son intégration avec la Data Intelligence Platform de Databricks

Assemblée nationale : le rapport sur la souveraineté numérique préconise la création de syndicats de données - 20/07/2026

Coupe du Monde de la FIFA 2026 : un laboratoire grandeur nature de valorisation de la donnée - 07/07/2026

Podcast : Mauvaise gouvernance ? Faut-il empêcher ou interdire ? - 18/05/2026

SAP rachète Dremio : le lakehouse ouvert entre dans la galaxie SAP Business Data Cloud - 05/05/2026

Podcast : Découvrons le context engineering avec Dataloma - 20/04/2026