大规模语言模型训练必备数据集-The Pile:涵盖22类、800GB的多样性文本数据集概述

AI 2年前 (2023) admin
2,553 0 0

当我们在阅读GPT3、llama等大规模预训练语言模型时,我们总会看到一些数据集名称,如common crawl、C4、books3、project guterberg等。

而这些数据集是什么,其内部数据长什么样子,对于我们进行语言学分析和模型训练具有重要意义。

幸运的是,pile数据集具有很强的代表性,该数据集囊括了22个不同来源的数据集,在给出下载地址的同时,还给出了每个数据集的具体例子,这可以接到上述两个问题。

大规模语言模型训练必备数据集-The Pile:涵盖22类、800GB的多样性文本数据集概述

因此,本文主要介绍《The Pile: An 800GB Dataset of Diverse Text for Language Modeling》这一文章,介绍总体情况以及具体每个数据集的含义以及内部样例,供大家一起参考。

数据地址:https://github.com/EleutherAI/the-pile

0、数据总览

增加训练数据集的多样性,可以提高大规模语言模型的跨域知识能力和下游泛化能力。

而为了提升数据集的多样性,thePile:一个825GiB的英语文本语料库被提出,该数据集由22个不同的高质量子集构建而成,既有现有的,也有新建的,其中许多来自学术或专业资源。

下表显示了不同数据集的占比情况。

大规模语言模型训练必备数据集-The Pile:涵盖22类、800GB的多样性文本数据集概述

地址:https://github.com/EleutherAI/the-pile中给出了具体数据集的数据规模

大规模语言模型训练必备数据集-The Pile:涵盖22类、800GB的多样性文本数据集概述

1、Pile-CC

Common Crawl是2008年以来网站抓取的集合,包括原始网页、元数据和文本提取。

由于数据集的原始性质,Common Crawl具有包括来自不同领域的文本的优势,但以不同质量的数据为代价,因此,使用Common Crawl通常需要精心设计的提取和过滤。

具体样例如下:

大规模语言模型训练必备数据集-The Pile:涵盖22类、800GB的多样性文本数据集概述

Pile-CC,基于Common crawl的数据集,在Web Archive文件(包括页面HTML在内的原始HTTP响应)上使用jusText (Endrédy和Novák, 2013)的方法进行提取,这比直接使用WET文件(提取的明文)产生更高质量的输出。

2、PubMed Central

PubMed Central (PMC)是由美利坚合众国国家生物技术信息中心(NCBI)运营的PubMed生物医学在线资源库的一个子集,提供对近500万份出版物的开放全文访问。

具体样例如下:

大规模语言模型训练必备数据集-The Pile:涵盖22类、800GB的多样性文本数据集概述

PMC索引的大多数出版物都是最近出版的,从2008年开始,NIH公共访问政策要求所有NIH资助的研究纳入这些出版物。

PMC的加入将有利于医疗领域的潜在下游应用。

3、Books3

Books3是一个图书数据集,来自Shawn Presser提供的Bibliotik私人跟踪器的内容副本(Presser, 2020)。

具体样例如下:

大规模语言模型训练必备数据集-The Pile:涵盖22类、800GB的多样性文本数据集概述

Bibliotik由小说和非小说类书籍组成,几乎比图书数据集(BookCorpus2)大一个数量级。

加入Bibliotik,可有助于长期的情境建模研究和连贯的故事叙述研究。

4、OpenWebText2

OpenWebText2 (OWT2)是一个基于WebText (Radford et al, 2019)和OpenWebTextCorpus (Gokaslan and Cohen, 2019)的广义web抓取数据集。

具体样例如下:

大规模语言模型训练必备数据集-The Pile:涵盖22类、800GB的多样性文本数据集概述

类似于最初的WebText,使用Reddit提交的clean-upvotes作为外向链接质量的代理。

OpenWebText2包括从Reddit提交到2020年的最新内容、来自多种语言的内容、文档元数据、多个数据集版本和开源复制代码。

5、ArXiv

ArXiv是一个自1991年以来运行的研究论文预印本服务器,论文主要集中在数学、计算机科学和物理领域。

加入arXiv,可以成为高质量文本和数学知识的来源,并有利于这些领域研究的潜在下游应用。

具体样例如下:

大规模语言模型训练必备数据集-The Pile:涵盖22类、800GB的多样性文本数据集概述

ArXiv论文是用LaTeX编写的,LaTeX是数学、计算机科学、物理和一些邻近领域的通用排版语言。训练一个语言模型,使其能够生成用LaTeX编写的论文,这对研究界来说是一个巨大的福音。

6、GitHub

GitHub是一个大型的开源代码库。GPT-3 (Brown et al, 2020)能够生成合理的代码完成,尽管其训练数据不包含任何显式收集的代码数据集。

具体样例如下:

大规模语言模型训练必备数据集-The Pile:涵盖22类、800GB的多样性文本数据集概述

但出于这种能力的激励,加入GitHub,可以让模型在与代码相关的任务上实现更好的下游性能。

7、FreeLaw

自由法律项目是一个在美国注册的非营利组织,为法律领域的学术研究提供访问和分析工具。

具体样例如下:

大规模语言模型训练必备数据集-The Pile:涵盖22类、800GB的多样性文本数据集概述

CourtListener是自由法律项目的一部分,为联邦和州法院的数百万份法律意见提供批量下载。

虽然完整的数据集提供了多种形式的法律程序,包括摘要、法官的书目信息、https://www.courtlistener.com和其他元数据。

8、Stack Exchange

Stack Exchange Data Dump4包含了Stack Exchange网络上所有用户贡献内容的匿名集,这是一个围绕用户贡献问题和答案的流行网站集合。

具体样例如下:

大规模语言模型训练必备数据集-The Pile:涵盖22类、800GB的多样性文本数据集概述

它是最大的公开问答库之一,涵盖了广泛的主题——从编程到园艺,再到佛教。加入Stack Exchange可以提高下游模型在不同领域的问答能力。

9、USPTO Backgrounds

USPTO Backgrounds是美国专利商标局授权的专利背景部分的数据集,来源于其公布的批量档案。

具体样例如下:

大规模语言模型训练必备数据集-The Pile:涵盖22类、800GB的多样性文本数据集概述

典型的专利背景展示了发明的一般背景,给出了技术领域的概述,并建立了问题空间的框架。

USPTO背景,包含了大量关于应用主题的技术文章,面向非技术受众。

10、Wikipedia (English)

维基百科(英文)是用于语言建模的高质量文本的标准来源。

具体样例如下:

大规模语言模型训练必备数据集-The Pile:涵盖22类、800GB的多样性文本数据集概述

维基百科(英文)一个高质量的来源,干净的英语文本,在说明文、跨越许多领域,具有较高的多样性。

11、PubMed Abstracts

PubMed摘要由来自PubMed的3000万份出版物的摘要组成,PubMed是由国家医学图书馆运营的生物医学文章在线存储库。

具体样例如下:

大规模语言模型训练必备数据集-The Pile:涵盖22类、800GB的多样性文本数据集概述

虽然PMC提供全文访问,但覆盖范围非常有限,而且偏向于最近的出版物。PubMed还包含了MEDLINE,它扩展了1946年至今的生物医学摘要的覆盖范围。

12、project guterberg

古登堡计划是一个西方经典文学的数据集。特定的古腾堡项目衍生数据集PG-19,由1919年以前的古腾堡项目书籍组成(Rae等人,2019年),它们代表了与更现代的book3和BookCorpus不同的风格。

具体样例如下:

大规模语言模型训练必备数据集-The Pile:涵盖22类、800GB的多样性文本数据集概述

PG19数据集常被用于远程上下文建模。

13、OpenSubtitles

open副标题数据集是由Tiedemann(2016)收集的电影和电视节目的英文字幕数据集。

具体样例如下:

大规模语言模型训练必备数据集-The Pile:涵盖22类、800GB的多样性文本数据集概述

字幕提供了自然对话的重要来源,以及对散文以外的虚构格式的理解,这可能对创造性写作任务很有用,如剧本写作、演讲写作和交互式故事讲述。

14、DeepMind Mathematics

DeepMind数学数据集由来自代数、算术、微积分、数论和概率等主题的数学问题的集合组成,格式化为自然语言提示(Saxton等人,2019)。

具体样例如下:

大规模语言模型训练必备数据集-The Pile:涵盖22类、800GB的多样性文本数据集概述

大型语言模型的一个主要弱点是在数学任务上的表现(Brown et al, 2020),这可能部分是由于训练集中缺乏数学问题。通过显式地包含数学问题的数据集,我们希望提高在Pile上训练的语言模型的数学能力。

15、BookCorpus

BookCorpus2是原版BookCorpus (Zhu et al, 2015)的扩展版本,由“尚未出版的作者”撰写的书籍组成。

具体样例如下:

大规模语言模型训练必备数据集-The Pile:涵盖22类、800GB的多样性文本数据集概述

BookCorpus不太可能与由出版书籍组成的Gutenberg计划和Books3有重大重叠,常被用作训练语言模型的数据集(Radford等人,2018;Devlin等人,2019;Liu等,2019)。

16、Ubuntu IRC

Ubuntu IRC数据集来源于Freenode IRC聊天服务器上所有Ubuntu相关频道的公开聊天日志。

具体样例如下:

大规模语言模型训练必备数据集-The Pile:涵盖22类、800GB的多样性文本数据集概述

聊天日志数据提供了建模实时人际互动的机会,这种互动具有在其他社交媒体模式中不常见的自发性水平。

17、EuroParl

EuroParl (Koehn, 2005)是一种多语言并行语料库,最初是为机器翻译而引入的,但也被用于其他几个NLP领域(Groves和Way, 2006;V an Halteren, 2008;Ciobanu等人,2017)。

具体样例如下:

大规模语言模型训练必备数据集-The Pile:涵盖22类、800GB的多样性文本数据集概述

EuroParl包括1996年至2012年欧洲议会21种语言的会议记录。

18、YouTube Subtitles

Y ouTube字幕数据集是一个平行语料库,由Y ouTube上人类生成的封闭字幕收集而成。

具体样例如下:

大规模语言模型训练必备数据集-The Pile:涵盖22类、800GB的多样性文本数据集概述

除了提供多语言数据,Y outube字幕也是教育内容、流行文化和自然对话的来源。

19、PhilPapers

PhilPapers数据集由来自西安大略大学数字哲学中心维护的国际数据库的开放获取哲学出版物组成。

具体样例如下:

大规模语言模型训练必备数据集-The Pile:涵盖22类、800GB的多样性文本数据集概述

PhilPapers涵盖了广泛的抽象概念论述,其文章包含了高质量的学术写作。 

20、NIH Grant Abstracts:ExPORTER

通过ExPORTER8服务,NIH资助摘要为获得的申请提供了一个涵盖1985年至今财政年度的大量数据存储库。

具体样例如下:

大规模语言模型训练必备数据集-The Pile:涵盖22类、800GB的多样性文本数据集概述

这个数据集,包含了高质量的科学写作的例子,对于科学写作很有价值

21、Hacker News

Hacker News是由创业孵化器和投资基金Y Combinator运营的链接聚合器。用户提交的文章被定义为“任何满足个人求知欲的东西”,但提交的文章往往集中在计算机科学和创业领域。

具体样例如下:

大规模语言模型训练必备数据集-The Pile:涵盖22类、800GB的多样性文本数据集概述

用户可以对提交的故事进行评论,从而产生讨论和批评提交的故事的评论树,它们提供了针对特定主题的高质量对话和辩论。

22、Enron Emails

Enron Emails数据集(Klimt和Yang, 2004)是一个有价值的语料库,通常用于研究电子邮件的使用模式。

具体样例如下:

大规模语言模型训练必备数据集-The Pile:涵盖22类、800GB的多样性文本数据集概述

该数据集的加入,可以帮助理解电子邮件通信的模式。

总结

pile数据集具有很强的代表性,该数据集囊括了22个不同来源的数据集,在给出下载地址的同时,还给出了每个数据集的具体例子,这可以接到上述两个问题。

本文主要介绍了《The Pile: An 800GB Dataset of Diverse Text for Language Modeling》这一文章,介绍总体情况以及具体每个数据集的含义以及内部样例,对于具体数据的用法,大家可以进行下载使用。

关于我们

老刘,刘焕勇,NLP开源爱好者与践行者,主页:https://liuhuanyong.github.io。

就职于360人工智能研究院、曾就职于中国科学院软件研究所。

老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。

对于想加入更优质的知识图谱、事件图谱实践、相关分享的,可关注公众号,在后台菜单栏中点击会员社区->会员入群加入。

       ​

原文始发于微信公众号(老刘说NLP):大规模语言模型训练必备数据集-The Pile:涵盖22类、800GB的多样性文本数据集概述

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...