Decideo - Actualités sur le Big Data, Business Intelligence, Data Science

Abonnez-vous gratuitement à Decideo !


Decideo

 


Databricks annonce la sortie de Dolly 2.0


Rédigé par le 12 Avril 2023

Aujourd'hui, Databricks annonce la sortie de Dolly 2.0, le premier modèle de langage de grande taille (LLM) open source et adapté à des instructions humaines.



Databricks annonce la sortie de Dolly 2.0
Cette version est une amélioration du modèle Dolly, lancé il y a deux semaines. Dolly 2.0 est un modèle de langue de 12 milliards de paramètres basé sur la famille de modèles EleutherAI Pythia, qui a été entrainé sur un nouvel ensemble de données d'instructions de qualité supérieure générées par des êtres humains. Cette base de données a été créée en interne et comprenait 15 000 paires prompt/réponse de haute qualité spécialement conçues pour le réglage des modèles de langage de grande taille. Selon Databricks, cette base de données est la première base de données d'instructions générées par l'homme à être open source et spécialement conçue pour rendre les LLM interactifs comme ChatGPT. Elle a été conçue pour représenter une grande variété de comportements allant de la génération de contenu et du brainstorming à l'extraction et à la synthèse d'informations.

L'ensemble de données Dolly est disponible sous licence Creative Commons Attribution-ShareAlike 3.0 Unported License, ce qui signifie que tout le monde peut l'utiliser, le modifier ou l'étendre à des fins commerciales. De plus, Databricks a également rendu public le code d'entraînement, les données et les poids du modèle de Dolly 2.0, ce qui signifie que toute organisation peut créer, posséder et personnaliser des LLM puissants qui peuvent communiquer avec des personnes, sans avoir à payer pour l'accès à une API ou à partager des données avec des tiers.

Dolly 1.0 a été créé pour moins de 30 dollars à partir d'un ensemble de données créé par l'équipe de Stanford Alpaca à partir de l'API OpenAI, mais ce dernier était interdit à des fins commerciales selon les termes du contrat. En outre, selon Databricks, tous les modèles de suivi des instructions bien connus existants (Alpaca, Koala, GPT4All, Vicuna) souffrent de cette limitation. Par conséquent, la société a décidé de créer un nouvel ensemble de données pour permettre l'utilisation commerciale de ses modèles de LLM.

(Traduit et résumé avec l'aide de ChatGPT)




Nouveau commentaire :
Twitter

Vous pouvez commenter ou apporter un complément d’information à tous les articles de ce site. Les commentaires sont libres et ouverts à tous. Néanmoins, nous nous réservons le droit de supprimer, sans explication ni préavis, tout commentaire qui ne serait pas conforme à nos règles internes de fonctionnement, c'est-à-dire tout commentaire diffamatoire ou sans rapport avec le sujet de l’article. Par ailleurs, les commentaires anonymes sont systématiquement supprimés s’ils sont trop négatifs ou trop positifs. Ayez des opinions, partagez les avec les autres, mais assumez les ! Merci d’avance. Merci de noter également que les commentaires ne sont pas automatiquement envoyés aux rédacteurs de chaque article. Si vous souhaitez poser une question au rédacteur d'un article, contactez-le directement, n'utilisez pas les commentaires.


Twitter
Rss
LinkedIn
Facebook
Apple Podcast
App Store
Google Play Store