2023-12-29 05:04

中国AI开源新事:扔掉旧地图,才能找到新大陆

1.9万
“开源不只是为了让我们能够看到代码,它更是为了让我们能够使用代码。而后者,才是开源真正的魔力,或者说,力量所在。”

原文来源:甲子光年

作者|刘杨楠

编辑|王博

图片来源:由无界 AI‌生成

2023年的大模型浪潮中,“开源”是一个绕不开的关键词。大厂、明星创业公司、高校及科研院所均投身其中:

6月9日,智源研究院宣布:“悟道3.0”迈向全面开源的崭新阶段;


6月15日,百川智能推出70亿参数量的中英文预训练大模型baichuan-7B,模型免费可商用;7月,百川智能继续推出完全开源、免费可商用的baichuan-13B;


7月17日,智谱AI宣布开源大模型ChatGLM-6B和ChatGLM2-6B;


8月3日,阿里巴巴宣布开源通义千问70亿参数模型Qwen-7B;


10月30日,昆仑万维宣布开源百亿级大语言模型「天工」Skywork-13B系列,并罕见地配套开源了600GB、150B Tokens的超大高质量开源中文数据集;


11月6日,元象XVERSE宣布开源650亿参数高性能通用大模型XVERSE-65B;
......

为什么大模型会在国内引起新一轮AI开源热潮?

对这轮大模型初创公司而言,开源是一手“一石三鸟”的好牌——

其一,开源是一个免费的自我宣传渠道。快速迭代开源模型能及时向外界“秀肌肉”,个人开发者或企业真正使用模型后,就能直观感受到企业的技术实力;

其二,企业也能通过开源模型汇聚一批潜在的合作伙伴,甚至潜在客户,为之后的商业化做积累;

其三,“高手在民间”,企业能够通过开源汇聚一批散落各处的优秀开发者共同迭代自己的模型。

大模型给沉寂已久的AI开源填了一把火,但真正让星星之火形成燎原之势的,是一个真正能良性循环的开源生态。

在开源生态的建设中,除模型开发商外,还有一股很重要的力量——开源社区。如果说模型开发者为开源生态源源不断地注入“活水”,那么开源社区就是开源生态中的一个个“蓄水池”。

长久以来,国内开源生态的一大痛点便在于,优质“蓄水池”太少,很多源源不断的“活水”都流向了国外,最终间接导致生态难以成熟,以至于在不少人心中,都烙下了“中国做不成开源社区”的刻板印象。

今天,在“大模型把所有行业重做一遍”的全新语境下,行业或许需要重新审视中国AI开源生态的可能性。

本文,「甲子光年」深度对话始智AI wisemodel创始人兼CEO、清华校友总会AI大数据专委会副秘书长刘道全,谈谈大模型时代,中国AI开源生态的新机会。

始智AI wisemodel创始人兼CEO、清华校友总会AI大数据专委会副秘书长刘道全,图片来源:受访者提供


1.做“中国版Hugging Face”


2023年9月4日,国内首个完全独立运营的第三方AI开源社区“wisemodel.cn”上线。

“我们的目标是要打造‘中国版Hugging Face’,汇聚国内外常用的开源AI模型和数据集等资源,建设中立开放的AI开源创新平台。”Wisemodel上线当天,其背后公司始智AI的创始人刘道全在官方微信公众号写下了第一篇文章。

除始智AI创始人、CEO外,刘道全还有另一重身份——清华校友总会AI大数据专委会副秘书长。2015年,毕业三年的刘道全重返清华,开始负责清华校友AI大数据生态方面的工作。

2022年,刘道全开始筹备独立创业。

那时,ChatGPT还没有成为AI界的“屠龙少年”,新的风暴还未出现,刘道全最先瞄准了一条来钱最快,也最易把握的赛道——倒腾算力。

确定方向后,刘道全跑遍了全国各大云厂商和数据中心,基本摸清了全国的算力分布格局。但很快,他发现,算力属于基础资源类生意,“基础资源类生意最后通常都免不了价格战”,刘道全告诉「甲子光年」。

他想做点更有价值的事。事实上,当时的刘道全已经站在了“天时地利人和”的交界处。

2020年,GPT-3的出现已经在AI圈形成小范围震荡,清华园里无数技术人内心蠢蠢欲动。最终,“清华系”种子选手智谱AI成为国内率先入局大模型的初创公司。三年后的今天,当年的种子选手已经摇身一变成为行业头部企业。

身为“清华系”的圈内人,刘道全清晰感受到了一些变化正在发生。他开始盘算手里的资源。在负责AI大数据生态工作的7年里,刘道全接触了大量AI、大数据企业,对各类技术线、产品分类基本都做到了心中有数。一手掌握全国的算力地图,一手掌握AI行业最新动向,同时还身处群星闪耀的清华系,他接下来要解决的问题,便是找到一个切入点,将已经拥有的资源最大化利用。

ChatGPT给刘道全送来了东风。

ChatGPT出现后,不少人一边迷茫,一边追逐,都希望能在慌乱中以最快的速度找到自己的位置。而刘道全则敏锐发现,在大模型和应用场景之间的“最后一公里”,还有大量机会他分享道:“每家的模型都有不同的功能和特点,现在很多需求端的企业在选择模型的时候都要一个一个去试,有时候甚至可能稀里糊涂就用了一个模型。”

要解决大模型落地的“最后一公里”,大致有两条路可走:一条是针对具体问题做单点的工具;另一条是做平台,将算力、模型、数据集、工具链等资源集合在平台上,让每一个问题都能找到最合适的解决方案。

历史已经证明,国内的商业环境、用户付费习惯对工具类应用并不友好,只做单点工具很难变现。于是,刘道全盘了盘手里的资源,果断选择了另一条,做平台。

“纵观商业发展史,企业最大的竞争壁垒来自于生态的壁垒,大模型时代也不例外。”刘道全表示。而要做生态,最好的切入点便是做社区,“中国版Hugging Face”的小目标也由此而来。这个小目标背后,刘道全心中还有一个更宏大的愿景,就是让wisemodel立足于中国市场,并努力将其打造成Hugging Face之外最活跃的社区。

上线3个多月来,始智AI wisemodel社区已经聚集了数千名注册用户,公开和私有模型总数超过500个,公开和私有的数据集总数接近100个。社区日均PV在10-20万次之间,每天模型和数据集的下载次数在1千次左右,社区公众号的关注人数也超过了3400人,累计阅读次数超过8.6万次。

不过,在中国开源社区上空,还长久笼罩着一个诅咒般的刻板印象——中国做不好开源社区。wisemodel如何打破这种旧状?


2.扔掉旧地图,才能找到新大陆


“中国做不好开源社区”的刻板印象背后,是多年以来,中国开源社区难以商业变现的残酷现实。

直到今天,国内依然有许多人认为“开源即免费”。如何自己养活自己,是所有开源社区都会面临的一个历史性难题。

事实上,这并非是国内独有的困境。即使在开源理念的发源地美国,开源运动的先驱们也用了很长一段时间来探索开源的商业模式。回看历史,从软件诞生的第一天起,“开源即免费”的认知就被刻在了软件的基因里。

将时钟拨回上世纪50年代,“软件”的概念刚刚诞生。很长一段时间里,软件只是硬件的附属,可随硬件免费赠送,后续升级也无需收费。当时的软件还直接附带有源代码,便于专业人员调试和修改。某种程度上,这已经为之后的开源软件模式奠定了前调。

1969年,IBM率先打破了软件“免费赠送”的模式,开始对部分软件收费。之后20年,收费模式带动软件市场迅速繁荣的同时,也让软件生态变得越来越“封闭”。除需付费使用外,软件供应商也会通过各种技术和法律手段,来限制他人共享、修改甚至研究程序。

软件从免费、开放到收费、封闭的转变也引来了许多开发者的不满。

当时还在MIT人工智能实验室做程序员的理查德·斯托曼(Richard Stallman)反对尤甚。理查德·斯托曼的思想颇为激进,主张“所有软件都应对所有人公开”。1985年10月,理查德·斯托曼还成立了自由软件基金会,以资助更多自由软件开发者。

理查德·斯托曼,图片来源:历史照片

如今回看,理查德激进的软件共享哲学像一把双刃剑——一方面,其大力推动了开源软件的发展进程,成为开源软件最初的思想内核;另一方面,“free”在英文中还有“免费”的含义,因此,自由软件(free software)被一些人误认为是“免费软件”。20世纪90年代,为避免这种理解谬误,网景公司用“开源软件”替代“自由软件”,正式开启了开源时代。

在此后数十年的发展中,开源社区逐渐形成了几种典型的商业模式

BentoML亚太区负责人刘聪曾在一次活动中将开源的商业模式划分为三个时代:“所谓1.0可能就是Red Hat(红帽),卖support和卖license的模式,2.0更多是OpenCore模式,卖一些premium的功能。3.0可能就像Databricks和云平台强绑定的模式,它的收费和用量可以和云平台分享。”

不过,大模型时代,AI开源或许会在传统的开源之外形成一种全新的商业模式。

刘道全告诉「甲子光年」,开源社区本身确实没有太好的商业模式,但大模型引发的这轮AI开源热潮和传统的软件开源有本质不同,可能会给AI开源社区带来新的商业机会。

“传统的软件开源是纯粹的代码托管,开发者下载代码后,部署在自己的服务器上运行,用户跟社区的交互主要是下载。而AI开源除了代码,更重要的是模型。大模型时代,让模型和应用分离成为趋势,用户开发的应用可以调用模型能力来解决实际问题,这其中就有可以挖掘的商业价值。”刘道全进一步解释道。

抛弃旧地图,才能找到新大陆。历史只是证明,基于代码托管的传统软件开源模式无法在中国跑通,但大模型带来的新机会仍需要无数后来者去验证。

刘道全就是那个率先出发的人。

在他的畅想中,wisemodel会经历两个商业化阶段——

第一阶段,平台主要面向开发者,打通模型和算力资源,通过算力变现。

大模型的高门槛在于,即使大模型已经开源,用户(企业或个人)想要下载并部署模型也需要一定的算力资源。准备好算力后,用户还需在算力平台上安装各种基础环境做调试,调试好之后才能加入自有的数据做微调或者部署推理等。Wisemodel则能打通模型和算力平台,帮用户省去模型和算力平台的调试环节,让企业能够一键使用模型,还可以直接提供模型托管等服务。

第二阶段,平台开始面向应用开发者,真正深入应用场景,解决模型与应用的“最后一公里”。

当社区的活跃度和丰富度都相对成熟后,wisemodel便能够根据企业真实场景的需求,将聚集在平台上的模型、工具等打包,提供给企业的应用开发者,解决场景业务问题。

不过,理想固然丰满,但脚下的路,依然艰难。


3.开源之路,道阻且长


“现在国内依然有很多人认为,在中国做不成开源社区。”刘道全告诉「甲子光年」。

他坦言,wisemodel上线前,曾经历过一段冷启动时期。

从2023年7月开始,刘道全就和“清华系”的模型厂商联络,智谱AI、百川智能等第一批wisemodel的“VIP”用户几乎全部来自清华系。“第一波基本是‘刷脸’上传的。”刘道全自我调侃道。

冷启动的艰难在于,wisemodel真正要实现的,不只是让模型厂商完成“上传模型”的动作,而是要从根本上改变国内开发者在过去数十年形成的习惯——人人皆知国外的开源生态更成熟,开发者选择国外社区几乎已经成为惯性动作。

培养用户的使用习惯注定是一个需要耐心的过程。

自2023年9月成立以来,刘道全几乎把大部分精力都用来运营社区。“每天都在看谁家有新模型了,就鼓励他们把模型放上来,我们也会在各个行业群里帮社区用户推模型。”

对于接下来的计划,刘道全有点与创业者不太相符的“佛系”。他说:“我们不会给自己设KPI,开源社区是件长期的工作,就像长跑一样不需要太在意开始的速度,只要wisemodel持续存在,整个AI行业持续发展,自然会有新东西源源不断地上传到社区,这样社区才可能‘活’起来,而不是一个‘死’的社区。”

或许有人会问,既然开源无国界,追求开放共融,为什么要在国外已经有成熟开源社区的前提下,还要在国内重新运营一个社区?

刘道全表示,社区与社区之间不是完全竞争的关系,每个社区都会有各自的特点,很多社区都可以联动,每个社区都是整个开源版图上的一个组成部分。

另外,国内很多模型厂商的训练语料都以中文为主,客户也在国内,wisemodel能向开发者提供更及时的服务,降低开发者获取和使用模型的门槛。同时,“由于Hugging Face上的模型和数据集数量和种类太过庞杂,除了有影响力的头部机构发布的内容,很多内容已经基本没人关注和下载。”刘道全说。

刘道全也坚定表示,wisemodel会保持中立。“现在我依然很坚持,开源社区这件事被贴上特定标签后,反而可能做不成。如果有大厂找过来,我也会直接跟他说‘我们可以合作,但最好不要投我’。”

放眼未来,开源生态将会成为国内大模型浪潮中一片丰沃的土壤。

从技术角度看,国内AI实力与美国仍有差距,更不用说大模型的成本和研发门槛极高,开源则在技术层面大大拉低了大模型的入局门槛,让更多创业者能够更容易地拿到入场门票。

从商业落地角度看,很多时候,企业需要的并不是一个具有千亿乃至万亿参数的SOTA(最先进)模型,而是一个能够稳定支撑企业在此基础上构建稳定大模型应用的模型底座,这些模型可能往往只有几十亿参数,这便是开源生态的机会。开源模型虽然能力相对较弱,但在落地时更灵活,也更经济。

因此,国内的AI从业者有充分的理由,给国内的AI开源生态更多耐心和信心。

事实上,国内并不缺少优秀的开发者。Tiamat创始人、CEO青柑曾在2023甲子引力年终盛典上感叹:“高手在民间。”她分享道:“我自己就是开源生态的受益者,我上学的时候会花大量时间在Discord上潜水或者和大佬们讨论,可以在社区接触到很多日常生活中绝对接触不到的大佬。对于我们这些从社区出来的年轻创业者而言,和社区里的技术大佬们交流会给我们很多启发。”

开发者们在开源社区中的每一次灵光一现,都可能成为开启下一个时代的敲门砖。

正如被誉为“开源运动圣经”的《大教堂与集市》一书中所写:

“开源不只是为了让我们能够看到代码,它更是为了让我们能够使用代码。而后者,才是开源真正的魔力,或者说,力量所在。”

本文链接:https://www.aixinzhijie.com/article/6842318
转载请注明文章出处

评论
登录 账号发表你的看法,还没有账号?立即免费 注册
下载
分享
收藏
阅读
评论
点赞
上一篇
下一篇