Cette version est une amélioration du modèle Dolly, lancé il y a deux semaines. Dolly 2.0 est un modèle de langue de 12 milliards de paramètres basé sur la famille de modèles EleutherAI Pythia, qui a été entrainé sur un nouvel ensemble de données d'instructions de qualité supérieure générées par des êtres humains. Cette base de données a été créée en interne et comprenait 15 000 paires prompt/réponse de haute qualité spécialement conçues pour le réglage des modèles de langage de grande taille. Selon Databricks, cette base de données est la première base de données d'instructions générées par l'homme à être open source et spécialement conçue pour rendre les LLM interactifs comme ChatGPT. Elle a été conçue pour représenter une grande variété de comportements allant de la génération de contenu et du brainstorming à l'extraction et à la synthèse d'informations.
L'ensemble de données Dolly est disponible sous licence Creative Commons Attribution-ShareAlike 3.0 Unported License, ce qui signifie que tout le monde peut l'utiliser, le modifier ou l'étendre à des fins commerciales. De plus, Databricks a également rendu public le code d'entraînement, les données et les poids du modèle de Dolly 2.0, ce qui signifie que toute organisation peut créer, posséder et personnaliser des LLM puissants qui peuvent communiquer avec des personnes, sans avoir à payer pour l'accès à une API ou à partager des données avec des tiers.
Dolly 1.0 a été créé pour moins de 30 dollars à partir d'un ensemble de données créé par l'équipe de Stanford Alpaca à partir de l'API OpenAI, mais ce dernier était interdit à des fins commerciales selon les termes du contrat. En outre, selon Databricks, tous les modèles de suivi des instructions bien connus existants (Alpaca, Koala, GPT4All, Vicuna) souffrent de cette limitation. Par conséquent, la société a décidé de créer un nouvel ensemble de données pour permettre l'utilisation commerciale de ses modèles de LLM.
(Traduit et résumé avec l'aide de ChatGPT)
L'ensemble de données Dolly est disponible sous licence Creative Commons Attribution-ShareAlike 3.0 Unported License, ce qui signifie que tout le monde peut l'utiliser, le modifier ou l'étendre à des fins commerciales. De plus, Databricks a également rendu public le code d'entraînement, les données et les poids du modèle de Dolly 2.0, ce qui signifie que toute organisation peut créer, posséder et personnaliser des LLM puissants qui peuvent communiquer avec des personnes, sans avoir à payer pour l'accès à une API ou à partager des données avec des tiers.
Dolly 1.0 a été créé pour moins de 30 dollars à partir d'un ensemble de données créé par l'équipe de Stanford Alpaca à partir de l'API OpenAI, mais ce dernier était interdit à des fins commerciales selon les termes du contrat. En outre, selon Databricks, tous les modèles de suivi des instructions bien connus existants (Alpaca, Koala, GPT4All, Vicuna) souffrent de cette limitation. Par conséquent, la société a décidé de créer un nouvel ensemble de données pour permettre l'utilisation commerciale de ses modèles de LLM.
(Traduit et résumé avec l'aide de ChatGPT)
Autres articles
-
Databricks renforce son partenariat avec AWS pour offrir des capacités avancées d'IA générative
-
Databricks renforce son partenariat avec AWS pour offrir des fonctionnalités avancées d'IA générative
-
Databricks Apps : Le moyen le plus rapide et le plus sûr de créer des applications de données et d'IA
-
La Data Intelligence Plateform de Databricks permet à Heathrow d'améliorer la satisfaction de ses clients et d'optimiser le flux de passagers
-
Devoteam et Databricks renforcent leur partenariat en EMEA, avec désormais le plus haut niveau de certification « Elite » et des objectifs ambitieux en matière de transformation via la data et l’IA