机器之心报道
编辑:泽南
(资料图)
短视频平台的大模型之战已经打响?
快手的 AI 大模型落地应用,就这样悄然开始了。
8 月 18 日晚,快手公布了基于自研大语言模型应用的最新进展 ——「快手 AI 对话」 功能已经在快手 APP 安卓版开放了内测。
不需要 demo 网站,也不用独立的分类,快手这项新功能直接放在了安卓的正式版 APP 上。这个搜索框旁边的 AI 对话按钮,获得测试资格的用户点击即可进入。
「快手 AI 对话」是短视频直播行业首个基于大语言模型的类 ChatGPT 落地产品。我们期待已久了,它体验如何呢?
第一时间评测
机器之心第一时间获得了内测资格,让我们看看快手的大模型产品处于什么水平。
每家的大模型都各有特点,先让它介绍下自己的能力,好判断一下该从哪开始聊起。
它说自己能回答「任何问题」,也可以提供建议,进行说明,当然也可以和你闲聊,看起来是有点革新搜索引擎的意思。那就先问它一个让人头疼的问题:
不仅有回答,令人惊喜加意外的是,它还能推荐快手上相关的视频,看起来用 AI 找资源会很方便。
搜索更多的概念,我们发现它不仅可以和人持续聊天对话,也可以在给出回答时附带引用内容的链接,做到有理有据。如果查询个天气什么的,就会直接显示个天气预报的卡片。
从快手那边得到的消息是,这种卡片形式的工具还会越来越多。
从这里,我们也能看出快手对大模型技术落地应用的思考:充分发挥自身优势。聪明的智能可以依靠站内丰富的内容生态,通过互动对话的形式帮你快速查找短视频、达人、百科等内容。这是一种全新的信息获取形态。
同时,快手 AI 对话也为快手搜索打破了站内内容的壁垒,可为用户提供全网内容的检索服务。你的下一个搜索引擎,又何必是搜索引擎。
值得一提的是,在我们测试时,快手 AI 回答每个问题的响应速度都是很快的。已知单 A100 在高度量化(用 )的条件下推理 Llama 的速度是每秒 30 个词,难道我现在正在用的是一块英伟达 A100?可以未经预告直接在应用里上线,想必工程师们已经做了不少优化。
接下来,国内的大模型都说自己的中文语义理解水平有优势,我们让它来做一道今年的高考语文题:
回答无误,再试试物理题:
理科题目也能做对,可见快手 AI 是读过不少书的。
作为一款大语言模型,文案创作水平必须要高。大多数公司发布的大模型都可以快速生成内容丰富的文章、建议和回复,但很多生成的文字只是看似可以用,实则经不起推敲。对于一些特定的任务,或是需要深入理解语境,符合人类情感的问题来说,有时候 AI 会输出一些奇怪的结果。
在快手上我们总会遇见各路高人,但大多数人都是新手,能不能利用 AI 的帮助快速涨粉呢?值得尝试一下。最近大热的话题是电脑装机,我想干翻奸商,开个装机店:
快手大模型给出了长长的建议,从确立定位、了解行情到培训员工、制定营销策略…… 数了数一共有八条。从前人实践来看,在做这种大事时很有可能忽略某些细节,AI 助手的思维是更加缜密的,给人一种靠得住的感觉。
我们继续和它聊,在看完快手建议选好店铺名字之后,如何拍摄一个视频宣传我的店铺呢?
看上去内容中规中矩,似乎并没有快手老铁别具一格的思路,不过要给哪些镜头都说得很清楚。
既然你说话这么严谨,那考考你逻辑问题吧:
弱智吧里出现的问题,在这里根本难不倒它,不过是否精彩是回答的艺术。
那崩铁里用来对付民科的教育部难题又该如何呢?
虽然没有做对,但我们知道这题的答案并不是三个选项里的任何一个(在游戏里后续对话会出现正确选项 162),AI 给出的答案算比较接近了。
最近,开源的 Llama 2 正在改变大模型领域的格局,有了一个堪比早期 GPT 的开源产品,众多公司会朝哪些方面进一步探索?
在技术和落地上都还有很多要做的事,卷是一定的,机会当然也很多。
快手大模型,有备而来
大模型是如今众多科技公司竞争的重要赛道,在这方面,快手早有准备。
今年 5 月一季度的业绩电话会上,快手科技创始人兼 CEO 程一笑曾透露,公司已经组建了大模型研发团队,依托过去在 AIGC 算法和大语言模型方面的技术积累,正在按计划推进大模型开发和训练,各项进展顺利。
事实上,已有消息表明快手在大模型落地方面进展迅速。
据透露,和目前很多科技公司展示的大模型 demo 相比,「快手 AI 对话」利用对内部资源的高效索引,部分解决了大语言模型的幻觉问题,提升了问答的准确性,另一方面也很早就在多个应用场景开始了产品和功能的探索。
在 7 月 8 日,快手宣布正在内测智能问答产品,计划在搜索场景中为用户带来智能问答和文本创作等新功能,随后在 8 月 8 日开启「快手 AI 对话」内测。以搜索场景为入口,我们获得了更加便捷的搜索形态,新技术带来的便利覆盖也更广泛。
今天上午,这些产品功能背后的快手大模型终于浮出水面。有媒体报道称,来自快手 AI 团队的自研大模型 ——「快意」(KwaiYii)已开启内测,并为业务团队提供了标准 API 和定制化项目合作方案。该大模型甫一出世便在多个知名大模型排行榜上均位居前列,在最新的 CMMLU 中文向排名中更是居于首位。
KwaiYii-13B 在 CMMLU 中文向排名第一。
根据其 GitHub 主页介绍,「快意」是由快手 AI 团队从零到一独立研发的大规模语言模型,而本次引发关注的正是其新版本 KwaiYii-13B。该模型在多个 Benchmark 上都处于领先水平,证明了其在自然语言处理任务中的出色性能。
其中,KwaiYi-13B-Base 预训练模型具备优异的通用技术底座能力,在 MMLU、CMMLU、C-Eval、HumanEval 等 Benchmark 上目前处于同等模型规模的领先水平,显示了快意大模型在中文和英文上都具备非常强悍的能力。
KwaiYii-13B-Base 在 Benchmark 上的效果(来源:快意 GitHub 主页)。
而 KwaiYii-13B-Chat 对话模型具备出色的语言理解和生成能力,支持内容创作、信息咨询、数学逻辑、代码编写、多轮对话等广泛任务,人工评估结果表明 KwaiYi-13B-Chat 超过主流的开源模型,并在内容创作、信息咨询和数学解题上接近 ChatGPT () 同等水平。
更值得期待的是,机器之心了解到,快手 AI 团队将持续迭代「快意」大模型,一方面将继续优化模型性能并研发多模态能力 ,另一方面也在推进更多 C 端与 B 端业务场景下的落地 。
从生产力工具、手机 OS 到短视频直播平台,国内大模型只花几个月就快速覆盖了各种平台,背后的技术也越来越靠谱。变革到了这一步,量变已在产生质变。
大模型的到来,正让我们进入一个全新的世界。
关键词: