一年前,ChatGPT一夜爆火,引发众多行业震荡。一年后,ChatGPT的开发公司OpenAI再次发布新技术Sora,“失业论”再次铺天盖地。
每当一项新技术出现,人们都会关心这项技术对劳动力市场产生何种影响,尤其是会不会危及自己——很多工作岗位可能因此消失,但也有可能催生出新的职业和领域。
Sora:文生视频的新纪元
美国当地时间2月15日,OpenAI对外发布人工智能文生视频大模型Sora。据官网介绍,Sora是一个人工智能模型,能根据文字说明创造出逼真而富有想象力的场景。它可以生成长达一分钟的视频,保持视觉质量,同时符合用户输入的指令。
Sora能够生成包含多个角色、特定运动类型、主体和背景准确、细节复杂的场景。该模型不仅能理解用户提出的指令,还能理解这些事物在物理世界中是如何存在的。
简单来说,当你把想要的画面通过文字输入Sora后,它就可以还给你一段1分钟内的视频。
OpenAI给出了多个示范样例,其中以一段“时髦女性行走在东京街头”的视频传播最为广泛。
这段视频长达1分钟左右,官方给出的指令是“一位时尚女性走在东京的街道上,街道上到处都是暖色调的霓虹灯和动画城市标志。她身穿黑色皮夹克、红色长裙和黑色靴子,手拿黑色皮包。她戴着太阳镜,涂着红色唇膏。她走起路来自信而随意。街道潮湿且反光,与五颜六色的灯光形成镜面效果。许多行人走来走去。”
各色霓虹灯通过地面的水渍反射出光亮,一个装扮时髦的亚洲女性缓步走在夜晚的东京街头,同时画面并非固定机位,而是随着女子的行动移动着,甚至还有女子面部的特写镜头。而这个特写镜头也“细节得可怕”,女子脸上的痘印清晰可见,脖子上还有颈纹,墨镜也能反射出街道的景象。
若没有特殊的标注,大多数人第一眼很难分辨出这个视频的真假。
真假难辨?Sora仍是试验品
尽管Sora的画面表现令人称奇,不过,OpenAI也承认当前的模型存在弱点。
它可能难以准确模拟复杂场景中的物理现象,也可能无法理解具体的因果关系。例如,一个人咬一口饼干,但咬过之后,饼干上可能没有咬痕。
该模型还可能混淆指令的空间细节,例如混淆左和右,并可能难以精确描述随时间发生的事件,如跟随特定的摄像机轨迹。
在Sora之前,文生视频的大模型主要有Pika、Runway等。但它们的视频生成时长相对有限,通常只有几秒到十几秒。而OpenAI的Sora可以生成最多1分钟的视频,且生成的结果非常连贯和清晰。
现代快报记者尝试将“时髦女性行走在东京街头”同款指令输入Pika和Runway,在Pika获得了一段3秒左右的视频,Runway则是4秒。Pika画面明显“AI感”十足,有种“学了三年动画”的美感。Runway表现稍强,但依旧很有违和感。综合来看,Sora的画面质量确实一骑绝尘。
Sora或将颠覆视频生产?
每一次AI新技术的问世,对于科技界都是一次令人振奋的突破,但对于其他领域却是一次“试炼”。
作为自然语言处理工具,ChatGPT对于文本处理相关的职业产生了不小的影响;而作为AI绘画工具的Midjourney,则让设计行业曾面临失业风波,现代快报此前也进行过相关报道(《AI“入侵”设计领域,会完全替代设计师吗?》)。
而这次Sora的诞生则普遍认为对传媒行业将是一枚“重磅炸弹”。虽然Sora还未正式开放使用,但从目前官方给出的样例来看,它对于视频生产的影响是不可避免的。
演员小郑觉得Sora对于影视行业的影响可能在10~20年后,但当前数字人的出现已经略微“威胁”到了他的工作。“信息流广告很多都在用数字人了,以后如果都用AI生成数字人去演戏,我们就只能去演话剧了。”
37000cm威尼斯新闻传播学院副教授庄永志曾在媒体一线工作多年,担任过《焦点访谈》主编,现在教的主要是视频新闻。他告诉现代快报记者,视频行业的光谱很宽,Sora在信息采集环节应该一时难以替代记者的目击、体验、测试和查证等搜集和验证事实的工作,但它会给记者核查信源提供的视频信息的真伪提出新的挑战。
“在编辑环节,Sora或许可以帮助视频记者将若干信源提供的非目击证据予以视觉化呈现,当然这需要在画面显著位置标注‘画面系Sora根据记者搜集信息生成’字样。”庄永志表示,自己在教学中会更加注重记者目击、观察、体验、测试、访谈和印证等获取信息的基本功的训练,也会提醒未来记者和自己尽快学习Sora的应用。
人工智能技术的研发已然成为当下的热潮。无论畏惧与否,人工智能已深入参与到人类社会中。如何和人工智能共存,似乎已经成了一个新课题。不过对于生成式AI来说,操作者越专业,输入的指令越准确,AI生成的效果也越好。所以,在AI时代面对自己,显得尤为重要。
相关阅读
Sora爆火
人工智能将如何影响世界
近日,美国开放人工智能研究中心OpenAI发布首个视频生成模型“Sora”。该模型通过接收文本指令,即可生成60秒的短视频。而一年前,同样是这家研究中心发布的AI语言模型ChatGPT,让文本撰写和创作、检查代码程序等都变得易如反掌。
AI究竟有哪些“本领”?为何它每一次迭代升级都能引发全球热议?
生成式AI可将输入内容变成小说、电影、艺术作品
谷歌公司旗下的人工智能模型“巴德”,可以根据你输入的多个词语迅速生成一篇短篇小说或诗歌。
今年2月,谷歌公司宣布“巴德”更名为“双子座”(Gemini)。这是一款多模态大模型,可理解和组合文本、代码、音频、图像和视频等不同类型的信息。
DALL-E可以把你输入的任何内容变成艺术作品。
利用Runway,你在几秒钟内就能生成平时需要数日才能完成的视觉效果。Runway公司创始人巴伦苏埃拉直言,有了生成式AI的加持,未来电影制作的门槛和成本将大大降低。
生物医疗、无人驾驶、气象预报……AI技术市场规模巨大
除了在艺术创作领域,AI技术在医药领域、城市服务、气象预告的应用也十分值得关注。1月29日,美国知名企业家马斯克表示,他旗下的脑机接口公司“神经连接”完成首例脑机接口设备人体移植,移植者状态良好。据悉,这项技术是完全可植入的,由电池供电且是无线,全程通过蓝牙连接。
清华大学官网1月30日发布消息,该校医学院脑机接口研究团队与首都医科大学宣武医院联合,于2023年10月成功进行全球首例无线微创脑机接口临床试验。这位因车祸造成脊髓损伤、四肢瘫痪14年的患者,经术后三个月康复训练,已实现自主喝水等脑控功能,抓握准确率超过90%。
除了医学领域,生成式AI也将更广泛参与到城市公共服务、气象预报实践中。此外,目前AI人工智能在促进教育公平、应对老龄化社会方面也发挥着越来越重要的作用并形成巨大的市场规模。
AI生成欺骗性内容干扰选举,或在国家大选期间制造混乱
AI技术带来许多新机遇的同时,也不可避免地造成前所未有的挑战和隐患。其中,人工智能生成欺骗性内容干扰选举被认为是全球面临的重要挑战。当地时间1月23日,2024年美国总统选举共和党党内初选在新罕布什尔州举行。在此之前,很多美国选民都表示,自己接到一通“来自美国总统拜登的电话”。
这通电话以拜登的口头禅“真是一派胡言”开头,建议选民不要给特朗普投票,而是把选票留到11月大选时投给民主党。随后,白宫新闻秘书皮埃尔澄清说,这是一则伪造的电话录音。分析人士担心,在美国选民容易受到错误信息影响的当下,人工智能可能会在大选期间制造出更多混乱。据央视