AI Studio精品项目征集
PaddleNLP的小样本学习
中国科学文献
学科分类数据集
数据加载
构建小样本学习器
与基于无监督的对比学习的数据增强方法自然结合;
容易扩展到多语言的小样本学习。
模型训练
task_name: FewCLUE 中的数据集名字
device: 使用 cpu/gpu 进行训练
negative_num: 负样本采样个数,对于多分类任务,负样本数量对效果影响很大。负样本数量参数取值范围为 [1, class_num - 1]
save_dir: 模型存储路径
batch_size:每个GPU/CPU的训练批大小
learning_rate:Adam的初始学习速率
epochs:要执行的训练总数
max_seq_length: 文本的最大截断长度
模型效果评估
从结果上可以看出,“矿业工程”、“交通运输工程”、“核科学与技术”和“机械工程”这些偏理工科的学科,模型预测的效果比较好,其原因是这些学科分类比较明显,所以也很好区分;
但是,“口腔医学”属于门类复杂的学科,模型的预测效果较差,模型需要花更多的时间进行学习。
总结
飞桨(PaddlePaddle)以百度多年的深度学习技术研究和业务应用为基础,集深度学习核心训练和推理框架、基础模型库、端到端开发套件和丰富的工具组件于一体,是中国首个自主研发、功能丰富、开源开放的产业级深度学习平台。飞桨企业版针对企业级需求增强了相应特性,包含零门槛AI开发平台EasyDL和全功能AI开发平台BML。EasyDL主要面向中小企业,提供零门槛、预置丰富网络和模型、便捷高效的开发平台;BML是为大型企业提供的功能全面、可灵活定制和被深度集成的开发平台。
THE END