上篇文章我们介绍了Sora能做什么、有什么优劣势以及可能的应用前景,这篇文章我们基于Sora的官方技术文档介绍Sora的技术原理。
Sora,源自日语的そら,空。色即是空。色、受、想、行、识,五蕴亦皆空。至大无外,至小无内,这个产品注定会给人无穷的想象空间。 OpenAI 团队用一个充满禅意的词,又一次开启了AIGC 的新时代。 Sora伪装成了一个视频生成器,可以生成一分钟的高清、高一致性视频,大家首先会认为它是和Pika、Runway一样的实用工具,也会先考虑它对视频、电影行业的颠覆。这当然没错,但看到OpenAI的技术报告,Video generation models as world simulators(视频生成模型作为世界模拟器),用到了世界模拟器这个终极大词,很明显其意义又远不止视频这么简单。
在刚刚过去的2月15日,OpenAI发布了最新的视频生成AI模型Sora,可以基于文本指令或者图片、视频,生成最长60秒的内容丰富、栩栩如生的视频。OpenAI同时发布了Sora的技术文档《Video generation models as world simulators》,对Sora视频生成模型的原理进行了解释。
软件行业苦降本增效久已。蔓延开去的开发周期,遥遥无望的上线时间,以及不断冒起的缺陷,怎么看都配不上这支精兵强将的队伍。生成式AI 似乎带来了曙光,它的表现让人耳目一新,不少人会这么想。它能自动生成代码,成本低,可重复,即抛的能力像云上的资源,这段代码不合适?扔掉好了,重新生成一段。很自然就会想到,是不是也不需要这么多精兵强将了,程序员们也很担心这一点。 生成式 AI 回答我们的问题时,偶尔会抛出个煞有介事的答案,但如果你稍作检索,就会发现这个答案徒有其表:不是查无此言,就是一派胡言,这与人工智能的威名不符。这即所谓生成式 AI 的幻觉,hallucination——因为没有真实可靠的语料,它自作主张拼凑了一个假的回答。 大模型技术仍然在不断更新,能让人感知到幻觉程度也在逐渐降低。但在它被投入到具体的领域和使用场景时,幻觉效应仍在发生,在这篇文章里我们会谈到的它在软件开发领域的应用。