news 2026/2/9 4:31:27

HuggingFace项目实战之使用Trainer执行训练

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
HuggingFace项目实战之使用Trainer执行训练

目录:

    • 一、加载tokenizer
    • 二、加载数据集和编码
    • 三、加载模型
    • 四、执行训练
    • 五、执行测试

一、加载tokenizer

importtorchfromtransformersimportAutoTokenizer#加载tokenizertokenizer=AutoTokenizer.from_pretrained('google-bert/bert-base-chinese')tokenizer

二、加载数据集和编码

fromdatasetsimportload_dataset#加载数据集dataset=load_dataset(path='lansinuote/ChnSentiCorp')#编码f=lambdax:tokenizer(x['text'],truncation=True,max_length=500)dataset=dataset.map(f,remove_columns=['text'])#设置数据类型dataset.set_format('pt')dataset,dataset['train'][0]

三、加载模型

#定义模型fromtransformersimportBertConfig,BertForSequenceClassification#在线加载一个语句分类模型model=BertForSequenceClassification.from_pretrained('google-bert/bert-base-chinese',num_labels=2)model.config

四、执行训练

fromtransformersimportTrainingArguments,Trainer,DataCollatorWithPadding#配置训练参数args=TrainingArguments(output_dir='output_dir',use_cpu=True,num_train_epochs=1,max_steps=300,eval_strategy='no',per_device_train_batch_size=8)#创建trainertrainer=Trainer(model=model,args=args,train_dataset=dataset['train'],data_collator=DataCollatorWithPadding(tokenizer))#执行训练trainer.train()

五、执行测试

#执行测试deftest():loader_test=torch.utils.data.DataLoader(dataset['test'],batch_size=8,shuffle=True,drop_last=True,collate_fn=DataCollatorWithPadding(tokenizer))correct=0total=0fori,datainenumerate(loader_test):withtorch.no_grad():out=model(**data).logits out=out.argmax(dim=1)correct+=(out==data.labels).sum().item()total+=len(data.labels)print(i,len(loader_test),correct/total)ifi==5:breakreturncorrect/total test()

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/4 12:45:08

在可控 AI 逻辑下,做 AI 量化高质量因子实战(1)

—— 回测调参黑工厂:量化里最昂贵、也最隐蔽的无效劳动一、量化里“最亏”的一步,并不是最难的那一步如果站在一个完整走过无数量化 / 因子 / 策略流程的位置回看, 真正消耗时间最多、精力最多、认知损耗也最大的环节,并不是&…

作者头像 李华
网站建设 2026/2/5 11:44:28

【dz-1093】智能台球比赛的计分与裁判系统设计

智能台球比赛的计分与裁判系统设计 摘要 在台球比赛中,精准的计分和高效的裁判流程是保障比赛公平性与流畅性的关键。传统人工计分方式易出现误差,且裁判工作量大,难以实时准确记录比赛数据,影响比赛体验与公正性。因此&#xff0…

作者头像 李华
网站建设 2026/2/7 23:42:42

全网最全MBA必看!10款AI论文软件深度测评与推荐

全网最全MBA必看!10款AI论文软件深度测评与推荐 为什么需要一份权威的AI论文软件测评? 随着人工智能技术在学术领域的广泛应用,越来越多的MBA学生和研究者开始依赖AI论文工具来提升写作效率与质量。然而,市面上的AI写作软件种类繁…

作者头像 李华
网站建设 2026/2/7 12:49:27

springboot基于微信小程序的精致护肤购物系统的设计与实现

背景分析微信小程序凭借轻量级、无需下载、即用即走的特点,已成为移动端应用的重要入口。2023年微信小程序月活用户突破10亿,覆盖电商、生活服务等多领域。护肤美妆行业线上化趋势显著,消费者对个性化、便捷购物体验需求激增,传统…

作者头像 李华
网站建设 2026/2/8 9:47:45

百考通AI:告别繁琐,拥抱智能——您的专属问卷设计与数据分析专家

在信息爆炸、数据为王的今天,无论是企业进行市场调研、产品优化,还是高校开展学术研究、学生实践,一份科学、高效的问卷都是获取真实洞察、驱动决策的关键第一步。然而,从零开始设计一份结构严谨、问题精准、逻辑清晰的问卷&#…

作者头像 李华