Microsoft Research présente BioGPT, un modèle basé sur GPT-2 pour la génération de texte dans le domaine biomédical

ACTUIA, 03/02/2023

Partagé par : 

Beesens TEAM

Microsoft Research présente BioGPT, un modèle basé sur GPT-2 pour la génération de texte dans le domaine biomédical

"Les modèles de langage pré-entraînés font l’objet d’une attention croissante pour traiter l’abondance des données dans le domaine biomédical. Alors que la majorité des recherches actuelles utilisent des modèles BERT, Microsoft Research a décidé de s’appuyer sur GPT-2 et présente BioGPT, un modèle de langage Transformer génératif préformé pour la génération et l’exploration de texte biomédical.

Grâce au traitement naturel du langage (NLP), le text mining ou extraction de connaissances dans la littérature biomédicale, joue un rôle très important dans le développement de nouveaux médicaments, la thérapie clinique, la recherche en pathologie…

Parmi les deux principales branches de modèles de langage pré-formés dans le domaine du langage général, c’est-à-dire BERT, GPT et leurs variantes, la première a été largement étudiée dans le domaine biomédical, notamment avec BioBERT et PubMedBERT. Bien que ceux-ci aient obtenu un grand succès sur une variété de tâches biomédicales discriminantes en aval, leur manque de capacité de génération limite leur champ d’application.

L’équipe de Microsoft Research a choisi de s’appuyer sur GPT, qui n’avait pas encore réellement été étudié pour le domaine biomédical. Dans cette étude, elle propose le modèle de langage BioGPT, basé sur GPT-2, pré-entraîné pour la génération de textes biomédicaux et le text mining à grande échelle, soit sur 15 millions de titres et résumés PubMed.

Les chercheurs soulignent que le vocabulaire dans le domaine est crucial. Plutôt que d’utiliser le vocabulaire de GPT-2, ils ont opté pour celui du corpus collecté et ont utilisé le codage de paire d’octets pour segmenter les mots dans le corpus en morceaux de mots et apprendre le vocabulaire..." Lire la suite