首页 滚动 > > 正文

蚂蚁集团开源CodeFuse代码生成大模型:编码平均长度低10%+

来源:中关村在线 发布日期:2023-09-09 09:48:42 分享到:


(资料图片仅供参考)

近日,蚂蚁集团首次开源了其自研的代码生成大模型CodeFuse,加入市场竞争。据了解,CodeFuse是蚂蚁集团自研的代码生成专属大模型,能够根据开发者的输入提供智能建议和实时支持,帮助开发者自动生成代码、自动增加注释、自动生成测试用例、修复和优化代码等,以提升研发效率。CodeFuse基于蚂蚁基础大模型研发,在近期的代码补全评测中,CodeFuse的得分达到了74.4%,超过了GPT-4(67%)的成绩,也超过了WizardCoder-34B的得分。本次开源内容包括代码框架、模型等,现已上架相关平台,IT之家小伙伴可在HuggingFace下载模型。代码框架部分包括自研的多任务微调(Multi-task fine-tuning,缩写为MFT)框架。MFT支持代码生成、代码翻译、测试用例生成、bug修复等十多个任务一起微调。MFT微调框架支持蚂蚁自研模型,以及多个开源大模型的代码能力微调。同时,框架内含创新的微调数据打包技术,号称可提升微调速度约8倍;并使用多重部署优化技术,使推理加速约2倍。模型部分包括CodeFuse13B-4K、CodeFuse-CodeLlaMa34B-MFT两个大模型。模型训练过程中,CodeFuse使用了程序分析校验技术,对高质量代码数据进行筛选,并构建了代码领域专用字典,编码平均长度低10%+。蚂蚁集团透露,CodeFuse早在今年6月就开始内测,用以真实开发环境,可以助力开发者低门槛编程,例如用自然语言编写H5小游戏、快速开发支付宝小程序等。基于CodeFuse的应用场景有开发助手、IDE插件、数据分析器等,覆盖了目前研发工作的主要需求,在蚂蚁集团内部研发流程中陆续得到验证。

关键词:

x 广告

河北印发出台通用机场布局规划(2021-2030年)

到2030年,全省形成以A类通用机场为主体、B类通用机场为补充,功能完善、覆盖广泛的通用机场体系,全省通用机场达到23个。其中,到2025年全

复原民国旧菜单 一批“消失的名菜”重现羊城

  中新网广州12月5日电 (记者 程景伟)“粤宴中国·消失的名菜”活动4日晚在广州博物馆镇海楼广场举行,一批业已失传或十分罕见的传统粤

青海再度“双清零”:战“疫”催生定点救治医院反思与成长

  中新网西宁12月5日电 题:青海再度“双清零”:战“疫”催生定点救治医院反思与成长  作者 潘雨洁  全面停诊、四下无人;火线冲

世界海拔最高高铁客运站山丹马场站运营

  中新网兰州12月5日电 (记者 杨艳敏)记者从中国铁路兰州局集团有限公司获悉,12月5日10时29分随着嘉峪关南至西安北D2696次动车组列车

千年古都洛阳为何要建青年友好型城市?

  中新网洛阳12月5日电 题:千年古都洛阳为何要建青年友好型城市?  记者 肖开霖 李贵刚  千年古都洛阳日前公布《洛阳市建设青年

甘肃万余河长公示牌拥有“电子身份证” 局地启“千里眼”治水

  中新网兰州12月5日电 (记者 冯志军)记者5日从甘肃省水利厅获悉,今年以来,甘肃全面推动河长公示牌信息化建设,为全省河流换发“电子

满洲里市向呼伦贝尔市“手递手”异地转运3批次隔离人员

  (抗击新冠肺炎)满洲里市向呼伦贝尔市“手递手”异地转运3批次隔离人员  中新网呼伦贝尔12月5日电 (记者 张玮)5日,内蒙古自治区呼

2021年度法治人物沈云如:让群众过上“有身份的生活”

  中新网杭州12月5日电 题:2021年度法治人物沈云如:让群众过上“有身份的生活”  作者 郭其钰 张先登  行程10余万公里,为辖区3

x 广告

Copyright   2015-2022 北冰洋海洋网版权所有  备案号:沪ICP备2020036824号-3   联系邮箱:562 66 29@qq.com