MosaicML lança MPT-7B-8K, um LLM de código aberto com 7B parâmetros

Aporia lança ferramenta de análise de causa raiz para análise de dados em tempo real

18 de janeiro de 2024

RecruitBot levanta financiamento para expandir a plataforma de recrutamento baseada em IA

19 de janeiro de 2024

Publicado por Douglas S. em 19 de janeiro de 2024

Categorias

Network

Tags

Azure

MosaicML lança MPT-7B-8K, um LLM de código aberto com 7B parâmetros

MosaicML revelou MPT-7B-8Kum modelo de linguagem grande (LLM) de código aberto com 7 bilhões de parâmetros e um comprimento de contexto de 8k.

Segundo a empresa, o modelo é treinado na plataforma MosaicML e passou por um processo de pré-treinamento a partir do checkpoint MPT-7B. A fase de pré-treinamento foi conduzida usando Nvidia H100s, com três dias adicionais de treinamento em 256 H100s, incorporando impressionantes 500 bilhões de tokens de dados.

Anteriormente, o MosaicML havia causado sucesso na comunidade de IA com o lançamento do MPT-30B, um LLM baseado em decodificador de código aberto e licenciado comercialmente. A empresa afirmou ser mais poderoso que o GPT-3-175B, com apenas 17% dos parâmetros do GPT-3, equivalente a 30 bilhões.

O MPT-30B superou o desempenho do GPT-3 em várias tarefas e provou ser mais eficiente para treinar do que modelos de tamanhos semelhantes. Por exemplo, o LLaMA-30B exigiu aproximadamente 1,44 vezes mais orçamento de FLOPs do que o MPT-30B, enquanto o Falcon-40B teve um orçamento de FLOPs 1,27 vezes maior do que o MPT-30B.

A MosaicML afirma que o novo modelo MPT-7B-8K apresenta proficiência excepcional em resumo de documentos e tarefas de resposta a perguntas em comparação com todos os modelos lançados anteriormente.

A empresa disse que o modelo é otimizado especificamente para treinamento acelerado e inferência para resultados mais rápidos. Além disso, permite o ajuste fino de dados específicos de domínio na plataforma MosaicML.

A empresa também anunciou a disponibilidade de licenciamento de uso comercial para MPT-7B-8k, destacando seu treinamento excepcional em um extenso conjunto de dados composto por 1,5 trilhão de tokens, superando modelos semelhantes como XGen, LLaMA, Pythia, OpenLLaMA e StableLM.

MosaicML afirma que, através do uso de FlashAttention e FasterTransformer, o modelo se destaca em treinamento e inferência rápidos, ao mesmo tempo que se beneficia do código de treinamento de código aberto disponível no repositório llm-foundry.

A empresa lançou o modelo em três variações:

Base MPT-7B-8k: Este transformador estilo decodificador é pré-treinado com base no MPT-7B e otimizado ainda mais com um comprimento de sequência estendido de 8k. Ele passa por treinamento adicional com 500 bilhões de tokens, resultando em um corpus substancial de 1,5 trilhão de tokens abrangendo texto e código.

Instrução MPT-7B-8k: Este modelo foi projetado para tarefas de instrução de formato longo, incluindo resumo e resposta a perguntas. Ele é criado ajustando o MPT-7B-8k usando conjuntos de dados cuidadosamente selecionados.

Bate-papo MPT-7B-8k: Esta variante funciona como um modelo semelhante ao chatbot, com foco na geração de diálogos. Ele é criado pelo ajuste fino do MPT-7B-8k com aproximadamente 1,5 bilhão de tokens de dados de bate-papo.

A Mosaic afirma que os modelos MPT-7B-8k exibem desempenho comparável ou superior a outros modelos de código aberto atualmente disponíveis com comprimento de contexto de 8k, conforme confirmado pelo equipamento de avaliação de aprendizagem em contexto da empresa.

O anúncio coincide com o lançamento do modelo LLaMA 2 pela Meta, agora disponível no Microsoft Azure. Ao contrário do LLaMA 1, o LLaMA 2 oferece vários tamanhos de modelo, ostentando 7, 13 e 70 bilhões de parâmetros.

Meta afirma que esses modelos pré-treinados foram treinados em um vasto conjunto de dados, 40% maior que o do LLaMA 1, com um comprimento de contexto expandido de dois trilhões de tokens, duas vezes o tamanho do LLaMA 1. O LLaMA 2 supera seu antecessor de acordo com os benchmarks do Meta. .

A missão da VentureBeat é ser uma praça digital para os tomadores de decisões técnicas obterem conhecimento sobre tecnologia empresarial transformadora e realizarem transações. Conheça nossos Briefings.