(资料图)
同时,为充分发挥超算在算力方面的优势,推动国产异构超级计算机平台在AI应用开发和服务领域中的应用。
国家超算天津中心在大会上发布了“天河E级智能计算开放创新平台”和“天河天元大模型”。
据介绍,中文大语言模型的数据集非常稀缺。国家超算天津中心搜集整理了网页数据、各种开源训练数据、中文小说数据、古文数据、百科数据、新闻数据,以及专业领域的中医、医药、问诊、法律等多种数据集。
训练数据集总token数达到350B,最终训练打造出了自己的中文语言大模型——天河天元大模型。
据悉,“天河E级智能计算开放创新平台”将带来突破百亿亿次的跨模态的超级计算算力,支撑传统的科学工程计算,并服务智能混合计算,打造全方位的算力赋能创新和数字经济高质量发展载体。
原标题:国家队来了!国产中文大语言模型“天河天元”发布:由天河超算训练
标签: