
Cette version est une amélioration du modèle Dolly, lancé il y a deux semaines. Dolly 2.0 est un modèle de langue de 12 milliards de paramètres basé sur la famille de modèles EleutherAI Pythia, qui a été entrainé sur un nouvel ensemble de données d'instructions de qualité supérieure générées par des êtres humains. Cette base de données a été créée en interne et comprenait 15 000 paires prompt/réponse de haute qualité spécialement conçues pour le réglage des modèles de langage de grande taille. Selon Databricks, cette base de données est la première base de données d'instructions générées par l'homme à être open source et spécialement conçue pour rendre les LLM interactifs comme ChatGPT. Elle a été conçue pour représenter une grande variété de comportements allant de la génération de contenu et du brainstorming à l'extraction et à la synthèse d'informations.
L'ensemble de données Dolly est disponible sous licence Creative Commons Attribution-ShareAlike 3.0 Unported License, ce qui signifie que tout le monde peut l'utiliser, le modifier ou l'étendre à des fins commerciales. De plus, Databricks a également rendu public le code d'entraînement, les données et les poids du modèle de Dolly 2.0, ce qui signifie que toute organisation peut créer, posséder et personnaliser des LLM puissants qui peuvent communiquer avec des personnes, sans avoir à payer pour l'accès à une API ou à partager des données avec des tiers.
Dolly 1.0 a été créé pour moins de 30 dollars à partir d'un ensemble de données créé par l'équipe de Stanford Alpaca à partir de l'API OpenAI, mais ce dernier était interdit à des fins commerciales selon les termes du contrat. En outre, selon Databricks, tous les modèles de suivi des instructions bien connus existants (Alpaca, Koala, GPT4All, Vicuna) souffrent de cette limitation. Par conséquent, la société a décidé de créer un nouvel ensemble de données pour permettre l'utilisation commerciale de ses modèles de LLM.
(Traduit et résumé avec l'aide de ChatGPT)
L'ensemble de données Dolly est disponible sous licence Creative Commons Attribution-ShareAlike 3.0 Unported License, ce qui signifie que tout le monde peut l'utiliser, le modifier ou l'étendre à des fins commerciales. De plus, Databricks a également rendu public le code d'entraînement, les données et les poids du modèle de Dolly 2.0, ce qui signifie que toute organisation peut créer, posséder et personnaliser des LLM puissants qui peuvent communiquer avec des personnes, sans avoir à payer pour l'accès à une API ou à partager des données avec des tiers.
Dolly 1.0 a été créé pour moins de 30 dollars à partir d'un ensemble de données créé par l'équipe de Stanford Alpaca à partir de l'API OpenAI, mais ce dernier était interdit à des fins commerciales selon les termes du contrat. En outre, selon Databricks, tous les modèles de suivi des instructions bien connus existants (Alpaca, Koala, GPT4All, Vicuna) souffrent de cette limitation. Par conséquent, la société a décidé de créer un nouvel ensemble de données pour permettre l'utilisation commerciale de ses modèles de LLM.
(Traduit et résumé avec l'aide de ChatGPT)
Autres articles
-
Databricks lance le data lineage pour Unity Catalog
-
Databricks annonce la disponibilité de Delta Live Tables
-
Databricks annonce son Lakehouse dédié aux marchés de la santé et des sciences de la vie afin d’accélérer la transformation de tout cet écosystème
-
Databricks annonce un partenariat avec Google Cloud pour mettre sa plateforme à disposition des entreprises du monde entier
-
Databricks lève 1 milliard de dollars en série G, portant sa valorisation à 28 milliards de dollars