Index-1.9B: 小巧精炼的B站大模型

AI 5个月前 admin

189 0 0

前言

今天，B站大模型团队发布了Index-1.9B系列模型，是Index大语言模型系列中的19亿参数规模的模型，如下所示

Index-1.9B base : 基座模型，具有 19亿非词嵌入参数量，在2.8T 中英文为主的语料上预训练，多个评测基准上与同级别模型比处于领先.
Index-1.9B pure : 基座模型的对照组，与base具有相同的参数和训练策略，不同之处在于严格过滤了该版本语料中所有指令相关的数据，以此来验证指令对benchmark的影响.
Index-1.9B chat : 基于index-1.9B base通过SFT和DPO对齐后的对话模型。
Index-1.9B character : 在SFT和DPO的基础上引入了RAG来实现fewshots角色扮演定制。

技术报告

B站大模型团队在github中发布了Index-1.9B的技术报告，以下是针对技术报告中内容的总结。

语料

量级：2.8T的中英混合语料（4:5），代码占比6%。
语料清洗和常见的清洗策略大同小异，值得注意的是报告中提到，B站实现了一种“支持任意长度、任意位置的文档内字符串去重方法”。

Tokenizer

BPE算法，基于SentencePiece进行训练
中文独立训练，词表大小为65029
append后的tokenizer拥有优秀的压缩率

预训练

模型结构

模型结构上 Follow Llama 的设定，使用了更深的结构，并增加了norm-head结构，支持更高的学习率进行学习。

参数	取值
Hidden Size	2048
FFN Size	5888
n.Heads	16
n.Layers	36
Seq.	4096
Max LR	5E-04
Batch Size	4M

训练过程

采用了目前比较常见的两阶段训练策略

在stable阶段，使用通用语料，固定学习率 5e-4 进行训练
在decay阶段（后10%），使用高质量语料数据（提高精选数据的浓度），通过学习率衰减（5e-4 -> 5e-6）进行训练

在decay阶段提高指令数据的浓度可以显著提升benchmark的成绩，因此B站大模型团队同步开源了Index-1.9B-Pure模型，全程使用自然语言文本。

在Index-1.9B的训练过程中，观察到了一次模型性能的突涨，类似于GLM团队的论文Understanding Emergent Abilities of Language Models from the Loss Perspective中提到的涌现能力。

评测结果

Index-1.9B 通用理解能力的评测结果 Index-1.9B: 小巧精炼的B站大模型

对齐

10M的高质量中英文指令数据，采用主流的聚类增强多样性和Reward Model打分策略对数据进行清洗和筛选，筛选出高质量且多样的子集。
针对指令跟随，通过调整系统指令，能够引导模型给出不同设定和风格的回答，从而实现角色扮演，语言风格转化等能力。

DPO

10w+条高质量的pair数据。
主要针对写作类、指令遵循和安全进一步对齐。一方面，对于写作类任务，回答具备开放性，单一的目标文本并不一定是最优的回答，模型在DPO优化中能学会优劣的标准，从而生成更符合人类偏好的回答；另一方面，对于指令遵循和安全性任务，通过学习对比chosen和reject回答，模型能掌握指令的要求以及拒答的类型，从而更进一步对齐人类偏好，一个比较好的例子是指令遵循中的字数控制。

模型列表和下载链接

Github链接：https://github.com/bilibili/Index-1.9B【求star！！！】

huggingface链接：https://huggingface.co/IndexTeam

模型名称	模型链接
Index-1.9B	https://huggingface.co/IndexTeam/Index-1.9B
Index-1.9B-Pure	https://huggingface.co/IndexTeam/Index-1.9B-Pure
Index-1.9B-Chat	https://huggingface.co/IndexTeam/Index-1.9B-Chat
Index-1.9B-Character	https://huggingface.co/IndexTeam/Index-1.9B-Character

模型推理

使用Transformers 推理，将参数model_path替换为下载好的Index-1.9B-Chat路径即可体验。

import torch
import argparse
from transformers import AutoTokenizer, AutoModelForCausalLM

parser = argparse.ArgumentParser()
parser.add_argument('--model_path', default="", type=str, help="")
args = parser.parse_args()

tokenizer = AutoTokenizer.from_pretrained(args.model_path, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(args.model_path, torch_dtype=torch.bfloat16, trust_remote_code=True, device_map='auto')
model = model.eval()
print('model loaded', args.model_path, model.device)

system_message = "你是由哔哩哔哩自主研发的大语言模型，名为“Index”。你能够根据用户传入的信息，帮助用户完成指定的任务，并生成恰当的、符合要求的回复。"
query = "续写 天不生我金坷垃"
model_input = []
model_input.append({"role": "system", "content": system_message})
model_input.append({"role": "user", "content": query})

inputs = tokenizer.apply_chat_template(model_input, tokenize=False, add_generation_prompt=False)
input_ids = tokenizer.encode(inputs, return_tensors="pt").to(model.device)
history_outputs = model.generate(input_ids, max_new_tokens=300, top_k=5, top_p=0.8, temperature=0.3, repetition_penalty=1.1, do_sample=True)

# 删除</s>
if history_outputs[0][-1] == 2:
    history_outputs = history_outputs[:, :-1]

outputs = history_outputs[0][len(input_ids[0]):]
print('User:', query)
print('nModel:', tokenizer.decode(outputs))

Demo

官方仓库内提供了方便简洁的web_demo，依赖Gradio，安装命令:

pip install gradio==4.29.0

通过以下代码启动一个web server，在浏览器输入访问地址后，可使用 Index-1.9B-Chat 模型进行对话：

python demo/web_demo.py --port='port' --model_path='/path/to/model/'

使用默认的system message Index-1.9B: 小巧精炼的B站大模型

你也可以改变system message，让他扮演一位阴阳怪气的B站老哥 Index-1.9B: 小巧精炼的B站大模型

你也可以通过上传符合要求的角色对话语料，使用Index-1.9B-Character实现few shots角色定制 Index-1.9B: 小巧精炼的B站大模型

总结

以上是对B站大模型团队发布的Index-1.9B模型的简要介绍，详情可以访问官方github或者huggingface地址了解更多细节，求点赞Star！！！

原文始发于微信公众号（ChallengeHub）：Index-1.9B: 小巧精炼的B站大模型

版权声明：admin 发表于 2024年6月14日上午8:01。
转载请注明：Index-1.9B: 小巧精炼的B站大模型 | CTF导航

人工智能供应链安全专题（1）–ChatGPT 中的高级 API 攻击以及AI供应链漏洞

admin

从检索到生成：解密自适应过滤的RAG创新之路

admin

讯飞AI算法挑战大赛-校招简历信息完整性检测挑战赛-三等奖方案

admin

七天入门LLM大模型 | 第一天：魔搭社区和LLM大模型基础知识

admin

TTS文本合成语音|Sambert微调

admin

NLP知识图谱项目合集（信息抽取、文本分类、图神经网络、性能优化等）

admin

248

Index-1.9B: 小巧精炼的B站大模型

前言

技术报告

语料

Tokenizer

预训练

模型结构

训练过程

评测结果

对齐

DPO

模型列表和下载链接

模型推理

Demo

总结

Agentic LLM Vulnerability Scanner

洞见RSAC 2024｜大模型驱动的智能安全运营

相关文章

相关文章

Index-1.9B: 小巧精炼的B站大模型

前言

技术报告

语料

Tokenizer

预训练

模型结构

训练过程

评测结果

对齐

DPO

模型列表和下载链接

模型推理

Demo

总结

Agentic LLM Vulnerability Scanner

洞见RSAC 2024｜大模型驱动的智能安全运营

相关文章

广告位

相关文章